連曉穎,薛源海,劉 悅,沈華偉
1.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 數(shù)據(jù)智能系統(tǒng)研究中心,北京 100190
2.中國(guó)科學(xué)院大學(xué),北京 101408
隨著信息過(guò)載問(wèn)題的日益加劇[1],Google News、MSN News、Yahoo!、今日頭條等在線新聞資訊平臺(tái)均通過(guò)推薦系統(tǒng)挖掘用戶(hù)興趣、擴(kuò)大新聞媒體的影響力并為企業(yè)帶來(lái)盈利。為應(yīng)對(duì)海量數(shù)據(jù)和實(shí)時(shí)性的挑戰(zhàn),新聞推薦系統(tǒng)采用向量召回的方式快速篩選出新聞候選集,使得如何構(gòu)建高質(zhì)量的新聞、用戶(hù)向量表示成為推薦系統(tǒng)的核心問(wèn)題[2]。
新聞的標(biāo)題和正文里都蘊(yùn)含著豐富的文本語(yǔ)義信息,這也是新聞推薦系統(tǒng)有別于其他音樂(lè)、時(shí)裝等推薦系統(tǒng)的主要特征。新聞標(biāo)題往往簡(jiǎn)明扼要,而新聞?wù)膭t蘊(yùn)含著更為豐富的語(yǔ)義信息,能夠進(jìn)一步補(bǔ)充標(biāo)題的上下文語(yǔ)境。由于新聞?wù)脑谠~數(shù)上遠(yuǎn)遠(yuǎn)大于標(biāo)題,擁有文本長(zhǎng)度長(zhǎng)和語(yǔ)義信息復(fù)雜的特點(diǎn),直接對(duì)正文全篇編碼將耗時(shí)耗力。事實(shí)上,用戶(hù)總是先根據(jù)新聞標(biāo)題判斷是否瀏覽正文,在看正文時(shí)也會(huì)希望看到和標(biāo)題相關(guān)的補(bǔ)充信息。
本文將以新聞標(biāo)題為查詢(xún),從新聞?wù)牡念^、尾、中間等各個(gè)部分獲取新聞標(biāo)題的補(bǔ)充信息,致力于在僅使用部分正文編碼的情況下,生成語(yǔ)義信息更豐富、質(zhì)量更優(yōu)的新聞向量表示。
傳統(tǒng)的新聞推薦方法采用協(xié)同過(guò)濾和內(nèi)容過(guò)濾的方式來(lái)生成新聞和用戶(hù)的表示[3]。協(xié)同過(guò)濾方法以評(píng)分矩陣作為新聞和用戶(hù)的特征,是一種基于ID 特征的表示方法,存在著嚴(yán)重的冷啟動(dòng)問(wèn)題[4]。內(nèi)容過(guò)濾方法則依賴(lài)于傳統(tǒng)自然語(yǔ)言處理模型,如詞頻統(tǒng)計(jì)模型[2]、貝葉斯模型[5]、主題模型[6]等,容易忽視詞序和上下文語(yǔ)義,對(duì)新聞文本語(yǔ)義的理解不夠充分。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,生成高質(zhì)量的新聞、用戶(hù)向量表示逐漸成為新聞推薦系統(tǒng)的熱點(diǎn)研究方向。深度特征融合模型方法將人工構(gòu)造的各類(lèi)特征同時(shí)輸入到模型中,采用淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)混合的方式提取出這些特征的向量表示,主要代表模型有DFM(deep fusion model)[7]、Wide&Deep[8]、DeepFM[9]。由于依賴(lài)手工構(gòu)造的特征,這類(lèi)方法在應(yīng)用時(shí)不僅需要大量的領(lǐng)域知識(shí),還忽視了新聞的文本語(yǔ)義信息。
因?yàn)樾侣劦臉?biāo)題和正文里都蘊(yùn)含著豐富的文本語(yǔ)義信息,所以充分理解這些文本語(yǔ)義變得格外重要。雙塔模型方法向新聞塔中輸入新聞標(biāo)題得到新聞的向量表示,向用戶(hù)塔中輸入用戶(hù)歷史瀏覽的新聞標(biāo)題得到用戶(hù)的向量表示,最后把兩者向量做內(nèi)積計(jì)算出用戶(hù)對(duì)新聞的評(píng)分。Yahoo! Japan[2]率先將雙塔模型應(yīng)用在了新聞推薦領(lǐng)域,而后Wu 等人提出的NRMS(neural news recommendation with multi-head self-attention)模型[1]用多頭注意力機(jī)制[10]改進(jìn)了新聞編碼器,使得雙塔模型結(jié)構(gòu)逐漸成為新聞推薦領(lǐng)域的主流框架。后續(xù)的個(gè)性化注意力模型如DAN(deep attention neural network)[11]、NPA(neural news recommendation with personalized attention)[12]等也是在這一主流框架的基礎(chǔ)上增添了交叉特征,加強(qiáng)雙塔間的依賴(lài)性,但這些模型都僅注重挖掘新聞標(biāo)題中蘊(yùn)含的語(yǔ)義信息。同樣是在雙塔模型框架的基礎(chǔ)上,NAML模型[13]采用截取正文開(kāi)頭的方式編碼新聞?wù)模闪烁哔|(zhì)量的新聞向量表示,驗(yàn)證了新聞?wù)恼Z(yǔ)義信息的重要性。但這類(lèi)方法的主要不足在于忽視了正文的后文語(yǔ)義,容易對(duì)前文過(guò)擬合,未能充分利用新聞?wù)闹刑N(yùn)含的語(yǔ)義信息。
針對(duì)新聞?wù)恼Z(yǔ)義利用不充分的問(wèn)題,本文以新聞標(biāo)題為查詢(xún),從新聞?wù)牡亩鄠€(gè)區(qū)域中聚合標(biāo)題的補(bǔ)充信息,生成語(yǔ)義信息更豐富的新聞向量表示。
本文提出了標(biāo)題與正文語(yǔ)義融合的新聞向量表示方法(news recommendation with title attention,NRTA),先將新聞?wù)姆衷~后,劃分為P個(gè)互不重疊、長(zhǎng)度為L(zhǎng)個(gè)詞的區(qū)域,然后計(jì)算新聞?wù)母鲄^(qū)域與新聞標(biāo)題的相關(guān)性,以此加權(quán)聚合新聞?wù)母鲄^(qū)域的語(yǔ)義,使新聞?wù)牡念^、尾、中間等各個(gè)部分均有機(jī)會(huì)成為新聞標(biāo)題的補(bǔ)充信息。
本文接下來(lái)將分別從NRTA 模型結(jié)構(gòu)、新聞編碼器、用戶(hù)編碼器以及模型訓(xùn)練方法四方面進(jìn)行詳細(xì)闡述。
NRTA 的模型結(jié)構(gòu)如圖1 所示,沿用了NAML 模型的雙塔結(jié)構(gòu),由新聞塔和用戶(hù)塔組成,主要改動(dòng)在于新聞塔的正文編碼器和文本編碼器。
圖1 NRTA模型結(jié)構(gòu)示意圖Fig.1 Structure of NRTA model
正文編碼器以新聞標(biāo)題為查詢(xún),計(jì)算正文各區(qū)域應(yīng)分配的注意力權(quán)重,加權(quán)聚合正文各區(qū)域的向量表示從而獲得新聞?wù)牡南蛄勘硎?。文本編碼器則是正文編碼器的基礎(chǔ)模塊,不僅用于新聞標(biāo)題編碼,還用于新聞?wù)母鲄^(qū)域的編碼。本文為建??鐓^(qū)域的詞相關(guān)性,在Transformer文本編碼器的基礎(chǔ)上設(shè)計(jì)了記憶單元,以更加準(zhǔn)確地理解正文各區(qū)域的語(yǔ)義信息。
用注意力池化層加權(quán)聚合新聞標(biāo)題和正文的向量表示,即可得到候選新聞的最終向量表示rc;通過(guò)歷史瀏覽新聞的向量表示獲得目標(biāo)用戶(hù)的向量表示ru;在NRTA 模型的輸出端依舊是將目標(biāo)用戶(hù)的向量表示ru和候選新聞的向量表示rc做內(nèi)積,得到目標(biāo)用戶(hù)對(duì)候選新聞的評(píng)分,如式(1)所示。
2.2.1 正文編碼器
本文采用基于標(biāo)題的注意力池化層聚合出新聞?wù)牡南蛄勘硎緍b,在進(jìn)行正文編碼前,需要先用文本編碼器獲取新聞標(biāo)題的向量表示rt。在聚合每個(gè)區(qū)域的向量表示時(shí),各區(qū)域的注意力權(quán)重依賴(lài)于該區(qū)域向量表示與新聞標(biāo)題向量表示的相關(guān)性。正文編碼器的模型結(jié)構(gòu)如圖2所示。
圖2 NRTA模型正文編碼器結(jié)構(gòu)示意圖Fig.2 Structure of body encoder in NRTA model
2.2.2 文本編碼器
文本編碼器不僅參與了新聞標(biāo)題的編碼過(guò)程,還參與了新聞?wù)拿恳粋€(gè)區(qū)域文本的編碼過(guò)程,是整個(gè)NRTA 模型的基礎(chǔ)模塊。為了探究不同神經(jīng)網(wǎng)絡(luò)層對(duì)NRTA模型表現(xiàn)的影響,本文分別采用Transformer多頭注意力機(jī)制[10]和CNN卷積層[14]設(shè)計(jì)了兩種文本編碼器,模型結(jié)構(gòu)如圖3所示。
圖3 文本編碼器Fig.3 Structure of text encoder
圖3中,左側(cè)是采用了Transformer多頭注意力機(jī)制的文本編碼器,簡(jiǎn)稱(chēng)為T(mén)ransformer文本編碼器;右側(cè)是采用了CNN卷積層的文本編碼器,簡(jiǎn)稱(chēng)為CNN文本編碼器。這兩種文本編碼器的編碼過(guò)程完全一致,首先輸入文本詞序列[w1,w2,…,wL];通過(guò)詞嵌入層獲得詞向量序列;再由Transformer 的多頭注意力機(jī)制或者CNN卷積層將詞向量重新映射成隱層表示序列;最后用注意力池化層加權(quán)求和每個(gè)詞的隱層向量表示,獲得文本最終的向量表示rT。注意力池化層的公式如式(3)所示。
(1)Transformer文本編碼器
為了能更充分地理解新聞?wù)睦锩恳粋€(gè)區(qū)域蘊(yùn)含的語(yǔ)義信息,在Transformer文本編碼器的設(shè)計(jì)上,本文參考TransformerXL 模型[15]的思想,設(shè)計(jì)了擁有記憶單元的文本編碼器建??鐓^(qū)域的詞相關(guān)性,使得文本編碼器不僅適用于新聞標(biāo)題編碼,還能適用于新聞?wù)母鲄^(qū)域編碼。與原先NRMS模型中使用的Transformer多頭注意力機(jī)制相比,主要區(qū)別如圖4所示。
圖4 Transformer文本編碼器跨區(qū)域詞相關(guān)性示意圖Fig.4 Diagram of cross-region word correlation of Transformer text encoder
圖4(a)展示的是原先的Transformer模型在多區(qū)域文本編碼時(shí)的詞注意力分布情況。圖中共有兩個(gè)待編碼的文本區(qū)域,在對(duì)這兩個(gè)區(qū)域編碼時(shí),多頭注意力機(jī)制僅專(zhuān)注于建模各區(qū)域內(nèi)部的詞相關(guān)性,沒(méi)有考慮到跨區(qū)域的詞相關(guān)性。事實(shí)上,在對(duì)正文多區(qū)域編碼的情況下,每段文本區(qū)域的語(yǔ)義與其前文關(guān)系密不可分,若能考慮到區(qū)域間的詞相關(guān)性則能更全面地理解該區(qū)域文本蘊(yùn)含的語(yǔ)義信息。
圖4(b)展示的是擁有記憶單元的Transformer模型在多區(qū)域文本編碼時(shí)的詞注意力分布情況。在對(duì)區(qū)域內(nèi)的文本編碼時(shí),會(huì)將上一個(gè)區(qū)域的詞向量序列同時(shí)輸入到Transformer多頭注意力機(jī)制中,從而使得區(qū)域不僅能關(guān)注到區(qū)域內(nèi)的詞相關(guān)性,還能建模與上一區(qū)域內(nèi)的詞的相關(guān)性,具體計(jì)算公式如式(4)所示。
上述是根據(jù)圖中描繪的情況介紹的擁有一個(gè)記憶單元的Transformer 模型,因?yàn)橹惠斎肓舜幋a區(qū)域的前一個(gè)區(qū)域的詞向量序列??梢院苋菀椎匕焉鲜龇椒ㄍ茝V到擁有C個(gè)記憶單元的Transformer 模型的情況,只需要把前C個(gè)區(qū)域的詞向量序列和待編碼區(qū)域詞向量序列在序列長(zhǎng)度的維度上拼接起來(lái),作為T(mén)ransformer多頭注意力機(jī)制的Key和Value即可。這樣就能在內(nèi)存允許的條件下,盡可能多地建模當(dāng)前區(qū)域內(nèi)的詞與前文區(qū)域內(nèi)的詞的相關(guān)性,以此增強(qiáng)模型對(duì)當(dāng)前區(qū)域文本的理解能力,生成語(yǔ)義信息更為準(zhǔn)確的文本向量表示。
Transformer 文本編碼器在編碼新聞標(biāo)題時(shí)可以看作記憶單元C=0 的情況;編碼新聞?wù)牡拿總€(gè)區(qū)域時(shí)則依據(jù)參數(shù)C和前文區(qū)域數(shù)量自適應(yīng)調(diào)整。
(2)CNN文本編碼器
CNN文本編碼器和NAML模型的標(biāo)題編碼器結(jié)構(gòu)相同,CNN卷積層的計(jì)算公式如式(5)所示。其中Fw和bw是CNN 卷積層的參數(shù),則是由位置i-O到i+O的詞向量序列拼接而成,O是CNN 卷積核的大小。CNN卷積層采用Same-Padding的方式保證輸入序列長(zhǎng)度和輸出序列長(zhǎng)度一致。
2.2.3 注意力池化層
由文本編碼器和正文編碼器得到新聞標(biāo)題的向量表示rt以及新聞?wù)牡南蛄勘硎緍b后,通過(guò)新聞編碼器的最后一層注意力池化層加權(quán)聚合標(biāo)題和正文的向量表示,得到新聞的最終向量表示rc,具體計(jì)算公式如式(6)所示。
用戶(hù)編碼器和NRMS模型保持一致。首先,輸入目標(biāo)用戶(hù)的歷史瀏覽新聞序列[n1,n2,…,nD],通過(guò)新聞編碼器獲得每條歷史瀏覽新聞的向量表示序列,由多頭注意力機(jī)制層將歷史瀏覽新聞的隱層表示重新映射為序列,計(jì)算公式如式(7)所示。最后由注意力池化層加權(quán)求和歷史瀏覽新聞的向量表示,獲得最終的用戶(hù)向量表示ru,計(jì)算公式如式(8)所示。
NRTA模型在訓(xùn)練時(shí)會(huì)同時(shí)輸入一個(gè)目標(biāo)用戶(hù)、一條該用戶(hù)點(diǎn)擊過(guò)的新聞y+以及一條該用戶(hù)未點(diǎn)擊過(guò)的新聞y-。在輸出時(shí)將用戶(hù)向量表示和兩條候選新聞向量表示做內(nèi)積,得到用戶(hù)對(duì)每條候選新聞的評(píng)分pi。最后采用softmax函數(shù)歸一化用戶(hù)對(duì)兩條候選新聞的評(píng)分,計(jì)算公式如式(9)所示。
通過(guò)上述轉(zhuǎn)換,用戶(hù)點(diǎn)擊率預(yù)測(cè)問(wèn)題轉(zhuǎn)變成了二分類(lèi)問(wèn)題,因此NRTA模型在訓(xùn)練時(shí)可以采用分類(lèi)問(wèn)題中常用的負(fù)對(duì)數(shù)似然損失函數(shù),具體計(jì)算公式如式(10)所示。
本文在MIND-Small[16]和Adressa-10 weeks[17]兩個(gè)來(lái)源于線上應(yīng)用的開(kāi)源新聞推薦數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中MIND-Small是2020年微軟發(fā)布的新聞數(shù)據(jù)集,數(shù)據(jù)主要來(lái)源于MSN News,提供了劃分好的訓(xùn)練集和測(cè)試集,NRMS、NAML 等論文均基于MSN News 數(shù)據(jù)集開(kāi)展實(shí)驗(yàn)。Adressa-10 weeks是挪威科技大學(xué)(NTNU)和Adressavisen 合作發(fā)布的新聞推薦數(shù)據(jù)集,包含三個(gè)月的日志數(shù)據(jù),需要自行構(gòu)建訓(xùn)練集和測(cè)試集。兩數(shù)據(jù)集的統(tǒng)計(jì)信息見(jiàn)表1。
表1 MIND和Adressa數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics of MIND and Adressa datasets
本文根據(jù)Adressa-10 weeks 數(shù)據(jù)集里的用戶(hù)日志構(gòu)建了訓(xùn)練集、驗(yàn)證集和測(cè)試集。首先將Adressa-10 weeks 數(shù)據(jù)集里的event 按session 起止標(biāo)記串聯(lián)起來(lái)獲得session,取前50 天的點(diǎn)擊日志作為訓(xùn)練集用戶(hù)的瀏覽歷史;前60 天的點(diǎn)擊日志作為驗(yàn)證集和測(cè)試集用戶(hù)的瀏覽歷史;50~60天的點(diǎn)擊日志作為訓(xùn)練集;60~70天的點(diǎn)擊日志按照2∶8 的比例隨機(jī)劃分為驗(yàn)證集和測(cè)試集。由于Adressa-10 week數(shù)據(jù)集提供的是用戶(hù)點(diǎn)擊日志,只有正樣本,本文從每個(gè)用戶(hù)用不到的那部分瀏覽歷史中采樣了等量的負(fù)樣本。
本文采用了搜索推薦場(chǎng)景下常用的排序、分類(lèi)評(píng)價(jià)指標(biāo),分別是AUC、MRR、nDCG和F1[2]。在MIND數(shù)據(jù)集上采用AUC、MRR、nDCG@5、nDCG@10 四項(xiàng)指標(biāo);在Adressa數(shù)據(jù)集上采用AUC、F1兩項(xiàng)指標(biāo)。
本文采用基于標(biāo)題語(yǔ)義信息的NRMS 模型和基于正文語(yǔ)義信息的NAML模型兩種方法作為基準(zhǔn)。
NRMS[1]采用多頭注意力機(jī)制生成新聞和用戶(hù)的向量表示,注重于挖掘新聞中詞與詞之間的相關(guān)性以及用戶(hù)歷史瀏覽新聞間的相關(guān)性。僅使用新聞標(biāo)題信息,是新聞推薦領(lǐng)域的重要基線模型。
NAML[3]基于CNN 生成新聞標(biāo)題和新聞?wù)牡南蛄勘硎?,在NRMS 模型的基礎(chǔ)上加入新聞?wù)男畔ⅲ捎米⒁饬C(jī)制聚合新聞標(biāo)題和新聞?wù)牡南蛄勘硎?。在?duì)新聞?wù)木幋a時(shí)僅截取正文的開(kāi)頭一段,也是新聞推薦領(lǐng)域中重要的基線模型。
本文基于Pytorch 實(shí)現(xiàn)上述所有模型,在Tesla k80 GPU(顯存11 GB)上進(jìn)行模型的訓(xùn)練和測(cè)試。為保證實(shí)驗(yàn)環(huán)境的一致性,表2給出了在MIND和Adressa數(shù)據(jù)集上各模型實(shí)驗(yàn)時(shí)的通用參數(shù)設(shè)置。
表2 通用參數(shù)設(shè)置Table 2 General parameter settings
3.5.1 基線對(duì)比實(shí)驗(yàn)
本文分別在MIND 和Adressa 兩個(gè)數(shù)據(jù)集上,進(jìn)行了NRMS、NAML、NRTA 三個(gè)模型的多組實(shí)驗(yàn)。由于NAML 原文用CNN 作為文本編碼器,而NRMS 原文用Transformer 作為文本編碼器,因此本文分別采用Transformer 和CNN 兩種文本編碼器對(duì)比NRTA 模型以及基線方法NAML 模型,選出各模型在不同指標(biāo)下的幾組最優(yōu)結(jié)果進(jìn)行對(duì)比。設(shè)NAML模型正文開(kāi)頭截取長(zhǎng)度為W個(gè)詞,NRTA 模型選取區(qū)域個(gè)數(shù)為P=η+μ+τ,每個(gè)區(qū)域長(zhǎng)度為L(zhǎng)個(gè)詞,其中從正文開(kāi)頭連續(xù)選取η個(gè)區(qū)域,從正文中部連續(xù)選取μ個(gè)區(qū)域,從正文末尾連續(xù)選取τ個(gè)區(qū)域,記憶單元的數(shù)量為C。表中各模型在各指標(biāo)上的最高分已用粗體標(biāo)出,具體結(jié)果如表3和表4所示。
表3 MIND數(shù)據(jù)集上與基線模型對(duì)比的實(shí)驗(yàn)結(jié)果Table 3 Experimental results compared with baseline model on MIND dataset
表4 Adressa數(shù)據(jù)集上與基線模型對(duì)比的實(shí)驗(yàn)結(jié)果Table 4 Experimental results compared with baseline model on Adressa dataset
在MIND數(shù)據(jù)集上,與用Transformer文本編碼器的NAML模型各項(xiàng)指標(biāo)的最優(yōu)值相比,NRTA模型的AUC指標(biāo)高出0.86%,MRR 指標(biāo)高出0.87%,nDCG@5 指標(biāo)高出1.11%,nDCG@10 指標(biāo)高出0.89%。若與用CNN文本編碼器的NAML 模型相比,NRTA 模型的AUC 指標(biāo)高出1.65%,MRR 指標(biāo)高出2.82%,nDCG@5 指標(biāo)高出3.20%,nDCG@10 指標(biāo)高出2.25%。NRTA 模型與NAML 模型在MIND 數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對(duì)比如圖5所示。
圖5 NRTA與NAML在MIND數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對(duì)比Fig.5 Comparison of optimal values of various indicators between NRTA and NAML on MIND dataset
在Adressa 數(shù)據(jù)集上,與用Transformer 文本編碼器的NAML 模型各項(xiàng)指標(biāo)的最優(yōu)值對(duì)比,NRTA 模型的AUC指標(biāo)高出3.95%,F(xiàn)1指標(biāo)高出3.75%。若與用CNN文本編碼器的NAML模型相比,NRTA模型的AUC指標(biāo)高出2.18%,F(xiàn)1指標(biāo)高出2.12%。NRTA模型與NAML模型在Adressa數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對(duì)比如圖6所示。
從圖5 和圖6 可以看出,本文提出的NRTA 模型在MIND和Adressa兩個(gè)數(shù)據(jù)集的各個(gè)指標(biāo)上都取得了最優(yōu)效果。無(wú)論NRTA 模型采用CNN 文本編碼器還是Transformer 文本編碼器,其中總有一個(gè)能達(dá)到最優(yōu)效果,而另一個(gè)文本編碼器在表現(xiàn)上則與NAML 模型的最優(yōu)效果近似持平甚至略高于NAML模型的最優(yōu)效果。
圖6 NRTA與NAML在Adressa數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對(duì)比Fig.6 Comparison of optimal values of various indicators between NRTA and NAML on Adressa dataset
3.5.2 區(qū)域數(shù)量選取實(shí)驗(yàn)
為了探究NRTA 模型在正文區(qū)域選取上的相關(guān)問(wèn)題,本文做了區(qū)域數(shù)量選取的相關(guān)實(shí)驗(yàn)。在做實(shí)驗(yàn)時(shí)采用的是各數(shù)據(jù)集上NRTA模型最優(yōu)表現(xiàn)的參數(shù)配置,固定區(qū)域長(zhǎng)度L=50。
圖7 和圖8 分別展示了MIND 數(shù)據(jù)集和Adressa 數(shù)據(jù)集上NRTA 模型各指標(biāo)隨著區(qū)域數(shù)量變化的情況。圖中橫軸是不同的區(qū)域數(shù)量,縱軸是各指標(biāo)上模型得分。紅色虛線標(biāo)出的是用CNN文本編碼器的NAML模型最優(yōu)值,綠色虛線標(biāo)出的是用Transformer 文本編碼器的NAML模型最優(yōu)值。橙色折線NRTA-H代表P個(gè)區(qū)域全部從正文開(kāi)頭連續(xù)選取,即η=P,μ=0,τ=0 時(shí)NRTA 模型的表現(xiàn);藍(lán)色折線NRTA-HT 代表從正文開(kāi)頭選取η個(gè)區(qū)域,余下P-η個(gè)區(qū)域全部從正文末尾選取時(shí)NRTA 模型的表現(xiàn);紫色折線NRTA-HM 代表從正文開(kāi)頭選取η個(gè)區(qū)域,余下P-η個(gè)區(qū)域全部從正文中部選取時(shí)NRTA模型的表現(xiàn)。其中,從正文開(kāi)頭選取的區(qū)域數(shù)量0<η≤2 約有50到100個(gè)詞,這是參照NAML模型最佳表現(xiàn)時(shí)開(kāi)頭選取詞數(shù)設(shè)定的,在此基礎(chǔ)上將余下的P-η個(gè)區(qū)域從正文的中部或結(jié)尾選取,更能體現(xiàn)正文后文語(yǔ)義的價(jià)值。
圖7 MIND數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域數(shù)量變化的情況Fig.7 Change of various indicators of NRTA with different numbers of regions on MIND dataset
圖8 Adressa數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域數(shù)量變化的情況Fig.8 Change of various indicators of NRTA with different numbers of regions on Adressa dataset
從折線圖可以看出,在MIND 數(shù)據(jù)集上,NRTA-HT總能在各項(xiàng)指標(biāo)上取得最優(yōu)效果;NRTA-H和NRTA-HM的效果則有明顯下降。在Adressa 數(shù)據(jù)集上,NRTA-H和NRTA-HM 總能在各項(xiàng)指標(biāo)上取得最優(yōu)效果,NRTAHT也能明顯優(yōu)于基線方法。
本文對(duì)上述現(xiàn)象分析如下:首先,在兩個(gè)數(shù)據(jù)集上,從正文的開(kāi)頭和結(jié)尾部分選取區(qū)域都能優(yōu)于基線模型方法,這進(jìn)一步印證了后文語(yǔ)義信息的重要性。其次,在MIND 數(shù)據(jù)集上選取正文的開(kāi)頭和結(jié)尾要優(yōu)于選取正文的中間部分,而在Adressa 數(shù)據(jù)集上選取正文的開(kāi)頭和中間要優(yōu)于選取正文的結(jié)尾部分,這一現(xiàn)象很可能是由數(shù)據(jù)集本身造成的。其中,MIND數(shù)據(jù)集里的正負(fù)樣本來(lái)源于真實(shí)的會(huì)話(huà)場(chǎng)景,正負(fù)樣本新聞的相似度較高,需要更具總結(jié)性的語(yǔ)義特征才能增強(qiáng)正負(fù)樣本的區(qū)分性。直觀上理解,一篇新聞?wù)牡拈_(kāi)頭和結(jié)尾多是對(duì)新聞內(nèi)容進(jìn)行概括總結(jié)的表述,而正文的中間部分則多是敘述事情的經(jīng)過(guò),因此在MIND數(shù)據(jù)集上選取更具總結(jié)性的正文開(kāi)頭和結(jié)尾部分效果要更好。相比之下,Adressa 數(shù)據(jù)集里的負(fù)樣本來(lái)源于隨機(jī)采樣,正負(fù)樣本新聞的相似度較低,從而連貫的語(yǔ)義表述也能具有很強(qiáng)的區(qū)分性,因此在Adressa 數(shù)據(jù)集上選取正文的開(kāi)頭和中間部分效果也很好。最后,隨著正文區(qū)域數(shù)量變化,在兩個(gè)數(shù)據(jù)集的各指標(biāo)上NRTA 模型總能取得最優(yōu)效果,說(shuō)明NRTA 模型對(duì)區(qū)域數(shù)量這一超參的變化足夠穩(wěn)定。
總體來(lái)說(shuō),選取新聞?wù)牡拈_(kāi)頭和結(jié)尾部分在兩個(gè)數(shù)據(jù)集上都能使NRTA 模型取得不錯(cuò)的效果,且MIND數(shù)據(jù)集里的正負(fù)樣本也要更加貼近真實(shí)的新聞推薦場(chǎng)景,因此在應(yīng)用NRTA模型時(shí)推薦選取區(qū)域覆蓋在正文開(kāi)頭的前50~100詞,以及正文結(jié)尾的100~200詞。
3.5.3 區(qū)域長(zhǎng)度實(shí)驗(yàn)
在確定了如何選取區(qū)域數(shù)量與區(qū)域位置之后,區(qū)域長(zhǎng)度又會(huì)對(duì)NRTA 模型的表現(xiàn)帶來(lái)怎樣的影響呢?對(duì)此,本文對(duì)比了不同區(qū)域長(zhǎng)度下NRTA 模型的表現(xiàn),在對(duì)比時(shí)依舊采用NRTA 模型的最優(yōu)參數(shù)配置和最優(yōu)區(qū)域選取方法。
圖9和圖10分別展示了MIND數(shù)據(jù)集和Adressa數(shù)據(jù)集上NRTA 模型各指標(biāo)隨著區(qū)域長(zhǎng)度變化的情況。圖中橫軸是不同的區(qū)域長(zhǎng)度,縱軸是各指標(biāo)上模型得分。紅色虛線標(biāo)出的是用CNN文本編碼器的NAML模型最優(yōu)值,綠色虛線標(biāo)出的是用Transformer 文本編碼器的NAML模型最優(yōu)值。
圖9 MIND數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域長(zhǎng)度變化的情況Fig.9 Change of various indicators of NRTA with different region sizes on MIND dataset
圖10 Adressa數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域長(zhǎng)度變化的情況Fig.10 Change of various indicators of NRTA with different region sizes on Adressa dataset
從柱狀圖可以看出,當(dāng)NRTA模型采用最優(yōu)的區(qū)域選取方法時(shí),在兩個(gè)數(shù)據(jù)集的各個(gè)指標(biāo)上區(qū)域長(zhǎng)度無(wú)論是20 詞、50 詞還是100 詞均能明顯優(yōu)于基線方法。其中,區(qū)域長(zhǎng)度為50 詞時(shí)在兩個(gè)數(shù)據(jù)集上的效果都是最優(yōu)的,因此在應(yīng)用NRTA模型時(shí)推薦正文區(qū)域長(zhǎng)度在50詞左右。
本文針對(duì)新聞?wù)奈谋鹃L(zhǎng)度大、語(yǔ)義信息復(fù)雜的問(wèn)題提出了NRTA模型,從新聞?wù)牡亩鄠€(gè)區(qū)域里挖掘新聞標(biāo)題的補(bǔ)充信息,關(guān)注正文前文語(yǔ)義的同時(shí)也關(guān)注后文語(yǔ)義,進(jìn)一步豐富了新聞向量表示。在MIND和Adressa兩個(gè)新聞推薦領(lǐng)域的開(kāi)源數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn),通過(guò)基線對(duì)比實(shí)驗(yàn)驗(yàn)證了本文方法的有效性;通過(guò)區(qū)域數(shù)量選取實(shí)驗(yàn)和區(qū)域長(zhǎng)度實(shí)驗(yàn)給出了NRTA模型的應(yīng)用建議,充分檢驗(yàn)了本文方法的實(shí)用性。
隨著研究工作的深入,仍有一些問(wèn)題有待解決。新聞?wù)牡亩鄠€(gè)區(qū)域之間在語(yǔ)義上是互相關(guān)聯(lián)的,要充分理解一個(gè)區(qū)域的語(yǔ)義信息只看前文是遠(yuǎn)遠(yuǎn)不夠的,如何更好地建模正文多區(qū)域之間的相關(guān)性,更準(zhǔn)確地理解每個(gè)區(qū)域的語(yǔ)義信息,對(duì)充分理解新聞?wù)Z義非常重要,將針對(duì)這一問(wèn)題做進(jìn)一步研究。