摘要
现有的新闻推荐模型一般由文本特征提取网络和推荐网络两部分组成。新闻相关的边信息(如类别信息)并没有作用在文本特征提取过程中。在未融合边信息的情况下,文本特征提取网络和推荐网络两部分的优化目标是有差异的。提出SIACNN(Side Information Aggregated CNN)的结构,它通过注意力机制的方式,将边信息结合到文本特征提取中,缩小了文本特征提取和推荐网络之间优化目标的差异,有效提升了新闻推荐的效果。将SIACNN替换多个典型新闻推荐网络中的卷积神经网络,并利用MSN(微软新闻)采集的大型新闻数据集MIND(MIcrosoft News Dataset)来进行实验,通过实验证明了SIACNN能提高推荐效果,并同时具有泛化性。
如今MSN新闻和谷歌新闻等平台吸引了大量用
基于协同过滤的推荐算法往往根据新闻的历史点击情况对用户进行推荐,然而最新的新闻缺乏用户点击记录,因此基于协同过滤的推荐算法只能适用于热门新闻,对最新的新闻(冷启动)效果不佳。缓解新闻冷启动问题的关键在于优化文本信息的利用方式。对文本信息的利用方式直接影响了最新的新闻的曝光机会。这是本文优化文本特征提取的直接动机。此外标题和摘要信息往往是吸引用户的关键因素之一,这是另一个优化文本特征提取的动机。
在推荐系统中有一些边信息,如多级类别信息、图像信息、社交信息等。大多数的新闻推荐模型先提取文本特征,后结合边信息通过推荐网络对新闻打分和推荐。文本特征提取和推荐2个任务在网络结构中是割裂的。NLP(自然语言处理)领域的文本特征提取网络的设计初衷是出于更好的文本特征提取,而推荐网络的设计初衷是为了更好的推荐效果。两部分优化目标是不同的,很难做到两者同时最优。给出2个案例来说明将边信息融合到文本特征提取过程的必要性。
例如有一个新闻摘要:A公司已召回了所有的可能感染细菌的苹果。如果这是一个健康类别的新闻,“细菌”是用户重点关注的词;如果是投资类别的新闻,“A公司”将是用户重点关注的词。在新闻推荐的任务中,每个词的重要程度随着类别这种边信息而改变。而NLP领域的文本特征提取网络则对这些词一视同仁,它的任务是尽可能把摘要中所有语义放入特征中。而将边信息(类别信息)融合到文本特征提取过程中,对不同词语产生不同的关注度,可以缩小2个任务的目标差异,能将文本特征提取的优化目标对齐到更好的推荐上。
边信息除了影响不同词语的关注度以外,还影响词语的语义。比如“跳水”这个词,在运动类别的新闻中表示一种运动的语义,在投资中则表示了股价迅速大幅度下滑的意思。又比如“唐山大地震”在电影类的新闻里,表示一部灾难片的语义,而在其他新闻中表征的语义可能就是一场地震。同一个词在不同领域会有不同语义。因此类别这种边信息应该融合到短语的特征提取中,使得同一个短语也能产生出不同的特征。
上述2个例子显示了将边信息融合到文本特征提取中的重要性。但是目前绝大多数算法都并没有在边信息的指导下融合文本特征。现在有很多主流的新闻推荐网络都是用了CNN(卷积神经网络)作为文本特征提取器,如NP
新闻推荐系
比起NLP的任务,新闻推荐系统有额外的边信息。大多数模型没有很好地利用边信息提取文本特征。比如NP
有少数模型已在文本特征提取过程中融合了边信息,如Wang
SIACNN(Side Information Aggregated Convolutional Neural Network)由SWANN(Single Word Attention Neural Network)、CNN和MWACNN(Multiple Words Attention Convolutional Neural Network)组成。
先给出NPA、NAML等模型的共有结构。如

图1 新闻推荐中文本特征提取的通用结构
Fig. 1 General structure of text feature extraction in news recommendation

图2 SIACNN网络结构
Fig. 2 Network structure of SIACNN
(1) |
式中:边信息;m为句子单词数量。
紧接着,组成了一张图,在这张图上利用CNN来捕获相邻单词的局部特征,见
(2) |
式中:是由以第i个单词为中心的、连续个单词特征拼接成的图,大小为代表个卷积核,每个卷积核的大小为每个卷积核的偏置。
最后每个特征向量都会根据MWACNN模块得到一个修正向量。最终的每个特征向量与修正向量相乘得到结合边信息的文本特征,见
(3) |
式中:不同词组长度;以i为中心、为长度的词组的特征图,一共预设种词组长度;、和都是维度的向量。
在不同类型的新闻中用户对每个单词的关注度是不一样的。例如一个新闻摘要:A公司已召回了所有的可能感染细菌的苹果,在投资类新闻中“A公司”的关注度更大,而在健康类的新闻里“细菌”的关注度更高。SWANN就是为了针对这种情况设计的网络,它将类别信息和文本融合,分配不同的关注度到不同单词。模型结构如

图3 SWANN网络结构
Fig. 3 Network structure of SWANN
(4) |
式中:和所有单词共享全连接层的参数矩阵和偏置;的大小是,得到H维 向量。
类似地,每种边信息也都通过全连接层做映射。最后边信息的特征由所有映射后的向量拼接而成,见
(5) |
式中:和全连接层的参数矩阵和偏置,不同的边信息对应的全连接层不共享参数。一共种边信息,所有边信息的特征拼接后得到边信息特征,也是一个H维向量。
最后将每个单词的特征向量和边信息特征向量内积得到单词级别的关注度。通过softmax函数对进行归一化得到归一化后的。
(6) |
在通过SWANN后,每个单词具有不同的关注度。在通过CNN层后,每个单词的特征也获得了相邻单词的局部特征。在结合了单词关注度和局部信息后,单词特征将送入MWACNN的模块中。
前文提及“跳水”在投资类新闻和运动类新闻里含义的差别,以及“唐山大地震”在电影类新闻和其他类新闻里的含义差别。利用MWACNN可以结合边信息丰富词组的语义,使得同一个词组在多个类型的新闻中能获得多种语义。
如

图4 MWACNN网络结构
Fig. 4 Network structure of MWACNN
(7) |
(8) |
式中:和分别为单词映射的全连接层参数和偏置;和分别为每个边信息的映射全连接层参数和偏置;为维向量,为的参数矩阵,其中。
(9) |
将所有拼接得到大小为的图,比起直接将拼接成大小的图来说,更小,因为的维度比小很多,对的映射起到了压缩的作用。
每个边信息特征被形变成了同样大小的图。p个边信息对应的图和单词对应的图按照通道维度堆叠,从而组成了大小的图。
(10) |
(11) |
在图上使用CNN卷积可以将多种边信息和文本融合在一起。为了将词组长度的因素考虑在内,使用了3组不同大小的卷积核(),每种卷积核对应提取不同长度词组的特征。
(12) |
通过3种尺度的卷积核得到、、大小都是的特征图。同一个单词在3种尺度的卷积核中得到3个特征向量。例如,爱奇艺是当下热门的视频APP,“爱”这个单词在长度为3的卷积核下获得了词组“爱奇艺”的语义,而在长度为5的卷积核下获得了“爱奇艺是当”的语义,在长度为7的卷积核下获得了“爱奇艺是当下热”的语义。由于对应的“爱奇艺”是惯用词组,常出现于数据集中,在实验中表现出更大的激活值,因此对产出的特征图使用最大池化,这样能使得惯用词组对应的特征值主导语义,而屏蔽非惯用词对语义的影响。最大池化的公式见
(13) |
在
(14) |
(15) |
(16) |
MWACNN在
最后整合SIACNN的整个流程,得到伪代码如下:
输入:新闻的文本矩阵,新闻的边信息矩阵
输出:结合边信息的文本特征矩阵
变量说明:V为单词总量,D为单词表的特征维度,d为边信息维度,p为边信息个数,m为新闻文本单词个数,,,,为特征维度,单词嵌入矩阵。
#,将文本矩阵W查单词嵌入矩阵后得到文本特征矩阵e
# ,H是全连接层输出的维度。
# ,边信息特征维度之和为H。
# 表示矩阵的元素积,此处sum函数按照第2维度求和,得到,表示对第i个单词的关注度
# ,将t视作图,在其上用2维卷积函数,设卷积核个数为,则得到, 3为卷积窗口大小
# ,d为全连接层输出的维度。
#将形变成的特征图
#
#
使用MSN新闻收集的大规模新闻数据集MIN
在实验前,对数据集做了统计学分析。
实验中,出于显存的考虑,单词嵌入的维度D被设定为200。使用了预训练的Glove嵌入矩
为了证明SIACNN的有效性,选择了几个推荐系统中通用和使用广泛的模型:LibFM(Factorization Machine Library)、Wide&Deep、DeepFM(Deep Factorization Machine)以及DIN(Deep Interest Network)。同时还选择了几个使用CNN的最先进的新闻推荐模型:LSTUR、NAML、NPA。
LibF
Wide & Dee
DeepF
DI
LSTU
NP
NAM
LSTUR、NAML和NPA中的CNN被置换为SIACNN,在后续的实验中分别记作LSTUR-SIACNN、NAML-SIACNN和NPA-SIACNN。为了更加公平地比较,实验中所有模型使用相同长度的标题和摘要,并确保在输入的信息量上是对等的。
在实验中,使用的验证指标是推荐系统点击率预估模型常用的验证指标,如AUC(Area Under Curve)、MRR(Mean reciprocal rank)、nDCG@5(Normalized Discounted cumulative gain@5)、nDCG@10(Normalized Discounted cumulative gain@10)。每个实验结果都是重复实验8次后的均值。
实验结果如
从
第2个能观察到的是,C组基于B组替换了CNN为SIACNN后效果均有提升。NAML、LSTUR和NPA模型在使用了SIACNN后AUC指标分别提升了0.003 5、0.011 9、0.017 8,在MRR指标上分别提升0.004 6、0.011 0、0.020 5,在nDCG@5指标中分别提升了0.006 6、0.010 2、0.020 4,在nDCG@10指标上分别提升了0.005 8、0.009 6、0.018 7。NPA在使用SIACNN后提升最为显著,这主要因为NPA的网络结构中并没有利用好新闻类别信息,SIACNN的引入增加了类别的信息量。LSTUR和NAML引入SIACNN后提升了效果,验证了SIACNN能更好地将类别信息融合到推荐系统中,对文本的表征方式也更加利于优化推荐效果。在上述经典的几个使用CNN的新闻推荐系统中,SIACNN均产生了正向的效果,展现了它的通用性和扩展性。
第3个发现是,NAML表现比LSTUR好,LSTUR表现比NPA好。NAML在文本提取的最后利用注意力将边信息融合到文本特征中,而LSTUR仅仅将边信息拼接到文本特征后,NPA在提取文本特征时甚至没有利用到边信息。从这个角度看,文本和边信息的融合方式直接会影响推荐的效果。
最后,全部测试集合、老用户测试集和新用户测试集这3个集合中各模型的表现差异不大。老用户的AUC略高于新用户的AUC。这意味着模型已经能很好通过用户点击过的新闻理解用户的兴趣,并找到了新用户和老用户的行为模式共性。
SIACNN由SWANN和MWACNN两部分组成。验证SWANN和MWACNN两者分别带来的贡献是必要的。将SWANN或者MWACNN分别移除,进行了多组实验,来验证两者各自的有效性,避免网络的冗余。
如

图5 SWANN和MWACNN的消融实验
Fig. 5 Ablation experiments of SWANN and MWACNN
探索在MWACNN中的一个重要的超参数。MWACNN选择多种不同大小的卷积核来捕获不同长度词组的特征。尝试了以下5组卷积核:、、、、。分别实验,得到的结果如
经过实验确定最佳的卷积核组合为。本实验基于LSTUR-SIACNN模型。
使用一些案例来可视化SIACNN的注意力权重。测试的案例为“an agriculture company has recalled all infected apples”。在未使用SWANN时,所有单词在卷积时都是一视同仁的。SWANN能学习出不同类别新闻对应单词的影响力,因此将该句子每个单词的权重用柱状图表征出。如

图6 单词注意权重可视化
Fig. 6 Visualization of weight of each word
另一个案例是“beyond your dream”这个词组。“beyond your dream”在汽车类别下对应的含义是比亚迪的汽车品牌全称BYD,而在生活方式的类别下是指超越梦想,参照词组设定为“public transport”以及“work hard”。理想的情况下“beyond your dream”应该在汽车类别的新闻里接近“public transport”的语义,而在生活方式的类别下接近“work hard”的语义。用马尔可夫算法抽取最高频的2 000个词组,它们和“beyond your dream”、 “public transport”以及“work hard”组成2 003个词组。将这些词组分别作为单独的句子送入模型中,每个句子利用SIACNN得到融合边信息的文本特征向量f。将2 003个f向量利用主成分分析(PCA)算法投射到二维平面内,如

图7 词组特征向量主成分分析投影图
Fig. 7 PCA projection image of feature vectors of phrases
设计和呈现了SIACNN的模型结构,它是一种适用于推荐系统的、能将边信息和文本特征提取相融合的网络,由SWANN和MWACNN组成,SWANN是赋予不同单词不同关注度的网络,MWACNN是根据边信息给予词组不同含义的网络。通过微软新闻采集的大型新闻数据集MIND进行大量实验,证明了SIACNN有效提升了推荐效果。通过消融实验证明了SIACNN子结构的有效性。将SIACNN代替3个经典的新闻推荐网络中的CNN均取得了很好的效果,证明了它的通用性和扩展性。
作者贡献声明
卫 刚:论文撰写、深度神经网络设计。
邵 伟:论文撰写、深度神经网络设计与程序设计。
王志成:深度神经网络设计与数据分析。
参考文献
DAS A S, DATAR M, GARG A, et al. Google news personalization: Scalable online collaborative filtering[C]//Proceedings of the 16th international conference on World Wide Web. New York:Association for Computing Machinery,2007: 271-280. [百度学术]
LAVIE T, SELA M, OPPENHEIM I, et al. User attitudes towards news content personalization[J]. International Journal of Human-Computer Studies, 2010, 68(8): 483. [百度学术]
MORALES G D F, GIONIS A, LUCCHESE C. From chatter to headlines: Harnessing the real-time web for personalized news recommendation[C]//Proceedings of the fifth ACM international conference on Web search and data mining. New York: Association for Computing Machinery, 2012: 153-162. [百度学术]
BANSAL T, DAS M, BHATTACHARYYA C. Content driven user profiling for comment-worthy recommendations of news and blog articles[C]//Proceedings of the 9th ACM Conference on Recommender Systems. New York:Association for Computing Machinery,2015: 195-202. [百度学术]
LI L, CHU W, LANGFORD J, et al. A contextual-bandit approach to personalized news article recommendation[C]//Proceedings of the 19th International Conference on World Wide Web. New York: Association for Computing Machinery, 2010: 661-670. [百度学术]
WU C, WU F, AN M, et al. Neural news recommendation with topic-aware news representation[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics,2019: 1154-1159. [百度学术]
WU C, WU F, AN M, et al. Npa: Neural news recommendation with personalized attention[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York:Association for Computing Machinery,2019: 2576-2584. [百度学术]
AN M, WU F, WU C, et al. Neural news recommendation with long-and short-term user representations[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics,2019: 336-345. [百度学术]
WU C, WU F, AN M, et al. Neural news recommendation with attentive multi-view learning[J]. arXiv preprint, 2019: 1907.05576. [百度学术]
CHUANG Y N, CHEN C M, WANG C J, et al. TPR: Text-aware preference ranking for recommender systems[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. New York:Association for Computing Machinery,2020: 215-224. [百度学术]
GE S, WU C, WU F, et al. Graph enhanced representation learning for news recommendation[C]//Proceedings of The Web Conference 2020. New York:Association for Computing Machinery, 2020: 2863-2869. [百度学术]
HU L, LI C, SHI C, et al. Graph neural news recommendation with long-term and short-term interest modeling[J]. Information Processing & Management, 2020, 57(2): 102142. [百度学术]
LIU J, DOLAN P, PEDERSEN E R. Personalized news recommendation based on click behavior[C]// International Conference on Intelligent User Interfaces. New York:Association for Computing Machinery, 2010: 31-40. [百度学术]
WANG Y, SHANG W. Personalized news recommendation based on consumers' click behavior[C]//2015 12th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD). Zhangjiajie: IEEE, 2015: 634-638. [百度学术]
LU Z, DOU Z, LIAN J, et al. Content-based collaborative filtering for news topic recommendation[C]//In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Menlo Park:Association for the Advancement of Artificial Intelligence,2015:217-223. [百度学术]
LEI L A, LI Z A, FAN Y B, et al. Modeling and broadening temporal user interest in personalized news recommendation[J]. Expert Systems with Applications, 2014, 41(7): 3168. [百度学术]
PHELAN O, MCCARTHY K, SMYTH B. Using twitter to recommend real-time topical news[C]//Proceedings of the third ACM conference on Recommender Systems. New York: Association for Computing Machinery, 2009: 385-388. [百度学术]
SON J W, KIM A Y, PARK S B. A location-based news article recommendation with explicit localized semantic analysis[C]//Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:Association for Computing Machinery,2013: 293-302. [百度学术]
ZHANG Y, WALLACE B C. A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification[C]//Proceedings of the Eighth International Joint Conference on Natural Language Processing. Taipei:Asian Federation of Natural Language Processing, 2017: 253-263. [百度学术]
OKURA S, TAGAMI Y, ONO S, et al. Embedding-based news recommendation for millions of users[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2017: 1933-1942. [百度学术]
ZHANG F, YUAN N J, LIAN D, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data mining. New York:Association for Computing Machinery,2016: 353-362. [百度学术]
WANG H, ZHANG F, XIE X, et al. DKN: Deep knowledge-aware network for news recommendation[C]//Proceedings of the 2018 World Wide Web Conference. Switzerland:International World Wide Web Conferences Steering Committee,2018: 1835-1844. [百度学术]
WANG H, WU F, LIU Z, et al. Fine-grained interest matching for neural news recommendation[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics,2020: 836-845. [百度学术]
LEE D, OH B, SEO S, et al. News recommendation with topic-enriched knowledge graphs[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. New York:Association for Computing Machinery,2020: 695-704. [百度学术]
WU C, WU F, HUANG Y, et al. Neural news recommendation with negative feedback[J]. CCF Transactions on Pervasive Computing and Interaction, 2020, 2(3): 178. [百度学术]
WU C, WU F, YU Y, et al. NewsBERT: Distilling pre-trained language model for intelligent news application[J]. arXiv preprint, 2021: 2102.04887. [百度学术]
ZHU Q, ZHOU X, SONG Z, et al. Dan: Deep attention neural network for news recommendation[C]// In Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence. Stroudsburg:Association for the Advancement of Artificial Intelligence,2019, 33(1): 5973-5980. [百度学术]
LIU H, LU J, YANG H, et al. Category-specific CNN for visual-aware CTR prediction at JD. com[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York:Association for Computing Machinery,2020: 2686-2696. [百度学术]
WU F, QIAO Y, CHEN J H, et al. Mind: A large-scale dataset for news recommendation[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: Stroudsburg:Association for Computational Linguistics,2020: 3597-3606. [百度学术]
PENNINGTON J, SOCHER R, MANNING C D. Glove: Global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg:Association for Computational Linguistics,2014: 1532-1543. [百度学术]
KINGMA D P, BA J. Adam: A method for stochastic optimization[J]. arXiv preprint, 2014:1412.6980. [百度学术]
SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929. [百度学术]
RENDLE S. Factorization machines with LibFM[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(3): 1. [百度学术]
CHENG H T, KOC L, HARMSEN J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st Workshop on Deep learning for Recommender Systems. New York:Association for Computing Machinery,2016: 7-10. [百度学术]
GUO H, TANG R, YE Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction[J]. arXiv preprint, 2017: 1703.04247. [百度学术]
ZHOU G, ZHU X, SONG C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York:Association for Computing Machinery,2018: 1059-1068. [百度学术]