鄒程輝,李衛(wèi)疆
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
隨著信息化技術(shù)的飛速發(fā)展,世界正在經(jīng)歷新的“網(wǎng)絡(luò)化革命”,人們可以通過(guò)多種方式對(duì)互聯(lián)網(wǎng)進(jìn)行訪問(wèn),搜索和獲取自己所需要的信息。同時(shí),網(wǎng)絡(luò)信息呈“爆炸性”增長(zhǎng),用戶(hù)雖然能夠獲取到更為豐富的信息內(nèi)容,卻很難從信息的海洋中準(zhǔn)確及時(shí)地獲得符合自身需求的信息。因此,“信息過(guò)載”成為了急需解決的難題。
目前推薦模型使用輔助信息進(jìn)行個(gè)性化推薦,輔助信息包括社交網(wǎng)絡(luò)、評(píng)論文本和知識(shí)圖譜等。評(píng)論文本能夠?yàn)橛脩?hù)和項(xiàng)目提供更豐富的信息。融合評(píng)論文本的推薦模型利用CNN(Convolutional Neural Network)[1,2]和注意力機(jī)制[3 - 5]提取文本中的特征并計(jì)算其權(quán)重。知識(shí)圖譜在多個(gè)領(lǐng)域的應(yīng)用都取得了良好的效果,如問(wèn)答系統(tǒng)、詞嵌入和文本分類(lèi)等。目前專(zhuān)業(yè)的知識(shí)圖譜數(shù)據(jù)庫(kù)有NELL、Microsoft Concept Graph[6]和Microsoft Satori 。
本文提出了基于知識(shí)圖譜對(duì)用戶(hù)形象和用戶(hù)興趣建模的個(gè)性化推薦模型MKG-User,本文的貢獻(xiàn)總結(jié)為以下3點(diǎn):
(1)使用不同類(lèi)型知識(shí)圖譜作為輔助信息,不同類(lèi)型的知識(shí)圖譜能夠從不同角度結(jié)合推薦模型中的數(shù)據(jù)信息進(jìn)行建模。
(2)基于三元組知識(shí)圖譜和用戶(hù)的歷史興趣提出了權(quán)重異構(gòu)圖WHG(Weighted Heterogeneous Graph)。WHG是考慮到現(xiàn)實(shí)中關(guān)系的影響因子構(gòu)建的一種包含用戶(hù)興趣信息的網(wǎng)絡(luò)結(jié)構(gòu)圖。
(3)聯(lián)合概念知識(shí)圖譜和評(píng)論文本,利用神經(jīng)網(wǎng)絡(luò)同時(shí)從概念詞和實(shí)體詞中提取用戶(hù)畫(huà)像特征和用戶(hù)的情感傾向特征,利用用戶(hù)評(píng)論文本構(gòu)建用戶(hù)的形象和情感。
本節(jié)總結(jié)了幾種主要的融合知識(shí)圖譜推薦模型?;谇度胧降哪P偷年P(guān)鍵技術(shù)是KGE(Knowledge Graph Embedding)[7],將知識(shí)圖譜的實(shí)體和關(guān)系映射到低維的向量空間學(xué)習(xí)知識(shí)圖譜中的信息。微軟[8]提出了CKE(Collaborative Knowledge base Embedding),在協(xié)同過(guò)濾CF(Collaborative Filtering)的基礎(chǔ)上融合了3種輔助信息。Ai等人[9]提出了CFKG(Collaborative Filtering based on user-item Knowledge Graph)模型,該模型預(yù)定義了User-Item重新計(jì)算用戶(hù)和項(xiàng)目之間的距離。Wang等人[10]提出了MKR(Multi-task feature learning for Knowledge graph enhanced Recommendation)模型,利用推薦系統(tǒng)中的物品和知識(shí)圖譜中的實(shí)體存在重合的情況,提出了交叉式的推薦系統(tǒng)模型?;诼?lián)合式的模型兼具了嵌入式和路徑2種方式。Wang等人[11]提出了RippleNet模型,將用戶(hù)的歷史興趣作為種子在知識(shí)圖譜中擴(kuò)展用戶(hù)的興趣集合。Wang等人[12]提出了KGCN(Knowledge Graph Convolutional Networks for recommender systems)模型,利用圖卷積處理知識(shí)圖譜。
評(píng)論文本作為輔助信息是推薦系統(tǒng)研究中的熱點(diǎn)。Kim等人[1]提出了ConvMF(Convolution Matrix Factorization)模型,將商品信息聚合為長(zhǎng)文本用于提取用戶(hù)特征,但是ConvMF僅考慮到了商品的評(píng)論文本,沒(méi)有考慮到用戶(hù)評(píng)論內(nèi)容。Zheng等人[2]提出了DeepCoNN(Deep Cooperative Neural Network)模型,該模型使用2個(gè)并行的CNN網(wǎng)絡(luò)分別從用戶(hù)評(píng)論和商品信息中提取隱含特征。DeepCoNN給后來(lái)的研究提供了很多啟示,其中Chin等人[4]提出了ANR(Aspect-based Neural Recommender)模型,從文本內(nèi)容的角度進(jìn)行建模?;陂L(zhǎng)文本的建模方法對(duì)于用戶(hù)特定領(lǐng)域的興趣效果不佳,因此提出了基于單評(píng)論的建模方法。Chen等人[5]提出了NARRE(Neural Attention rating Regression with Review-level Explanations)模型,針對(duì)不同的評(píng)論根據(jù)其重要性定義了review-level層,通過(guò)自注意力機(jī)制聚合用戶(hù)和商品在review-level層得到的結(jié)果進(jìn)行預(yù)測(cè)。Zhang等人[13]提出了EFM(Explicit Factor Model)模型,根據(jù)用戶(hù)對(duì)物品的評(píng)論,采用情感分析的方法,構(gòu)建了3個(gè)矩陣進(jìn)行預(yù)測(cè)。
本節(jié)主要介紹模型中用到的定義和數(shù)學(xué)符號(hào)。
定義1y為預(yù)測(cè)1個(gè)用戶(hù)對(duì)1個(gè)項(xiàng)目的點(diǎn)擊概率值。
定義3(用戶(hù)畫(huà)像特征) 利用概念知識(shí)圖譜中的概念詞和實(shí)體詞提取到用戶(hù)畫(huà)像特征。
本文使用的數(shù)學(xué)符號(hào)如表1所示。
Table 1 Symbol definition
如圖1所示,融合知識(shí)圖譜和評(píng)論文本的個(gè)性化推薦模型由輸入層、嵌入層、特征提取網(wǎng)絡(luò)和決策層組成。輸入層是對(duì)用戶(hù)興趣和用戶(hù)畫(huà)像建模的基礎(chǔ),在輸入層輸入樣本數(shù)據(jù)和多類(lèi)型的知識(shí)圖譜;在嵌入層中,將輸入的數(shù)據(jù)轉(zhuǎn)化為向量表示,并將其作為特征提取網(wǎng)絡(luò)的輸入;特征提取網(wǎng)絡(luò)是模型的關(guān)鍵,在該層構(gòu)造興趣網(wǎng)絡(luò)和畫(huà)像網(wǎng)絡(luò),分別提取用戶(hù)興趣特征和帶有情感傾向的用戶(hù)畫(huà)像特征;決策層對(duì)用戶(hù)興趣特征和用戶(hù)畫(huà)像特征進(jìn)行處理得到用戶(hù)的表示,使用Sigmoid函數(shù)計(jì)算用戶(hù)點(diǎn)擊概率的預(yù)測(cè)值y。
Figure 1 Framework of MKG-User model圖1 MKG-User模型框架
4.2.1 WHG構(gòu)建
如圖2所示,以電影“Forrest Gump”為起點(diǎn),在三元組知識(shí)圖譜上以多跳的方式擴(kuò)展用戶(hù)興趣項(xiàng)目,構(gòu)造了關(guān)于 “Forrest Gump”的權(quán)重異構(gòu)圖。
Figure 2 WHG圖2 權(quán)重異構(gòu)圖
受到Wang等人[12]和Cao等人[14]融合知識(shí)圖譜擴(kuò)展用戶(hù)興趣的啟發(fā),本文使用三元組知識(shí)圖譜構(gòu)造WHG,不僅考慮關(guān)系作為節(jié)點(diǎn)的連接,還考慮關(guān)系的連接性和每一條關(guān)系的權(quán)重。三元組知識(shí)圖譜由h,r和t構(gòu)成,根據(jù)h和r擴(kuò)展t。設(shè)Nl為δ中關(guān)系rl的數(shù)量,N為關(guān)系的種類(lèi),w_rl為關(guān)系rl的權(quán)重,其計(jì)算如式(1)所示:
(1)
通過(guò)知識(shí)圖譜和用戶(hù)的輸入樣本構(gòu)造WHG,具體過(guò)程如算法1所示
算法1構(gòu)造WHG。
輸入:用戶(hù)歷史興趣Vu、三元組知識(shí)圖譜δ(h,r,t)和計(jì)算的關(guān)系的權(quán)w_rl。
輸出:權(quán)重異構(gòu)信息圖WHG,WHG由多跳的集合(?1,?2,?3,…,?k)構(gòu)成,其中k代表多跳的次數(shù)。
Step1將用戶(hù)歷史興趣Vu送進(jìn)δ(h0,r0,t0),生成在知識(shí)圖譜中擴(kuò)展的種子h0,其中h0=Vu。
Step2對(duì)h0,在知識(shí)圖譜中根據(jù)關(guān)系r0得到擴(kuò)展的節(jié)點(diǎn)t0。
Step3得到h0在第1跳中所有的節(jié)點(diǎn)t0構(gòu)成第1跳的集合?1(h0,r0,t0)。
Step4將第1跳擴(kuò)展的t0,作為下一跳的頭實(shí)體h1進(jìn)行第2跳擴(kuò)展t1,得到第2跳的集合?2。
Step5重復(fù)操作Step 4,得到下一跳的集合?k。
Step6經(jīng)過(guò)多次擴(kuò)展得到擴(kuò)展集合(?1,?2,?3,…,?k),根據(jù)在知識(shí)圖譜中得到的關(guān)系的權(quán)重w_rl對(duì)每一跳集合中的關(guān)系賦值 ,得到新的集合(?1,?2,?3,…,?k),其中?k的組成為(hk,w_rl_rk,tk)。
Step7得到賦值后的異構(gòu)網(wǎng)絡(luò)圖WHG。
Step8Return WHG。
4.2.2 概念知識(shí)圖譜
從用戶(hù)評(píng)論文本中提取實(shí)體詞的過(guò)程如式(2)所示:
(2)
其中,Ej代表1個(gè)用戶(hù)對(duì)1個(gè)項(xiàng)目的評(píng)論文本中實(shí)體詞集合,n為實(shí)體詞數(shù)量,Traverse(·)代表映射方法。
根據(jù)實(shí)體詞得到與用戶(hù)有關(guān)概念的公式如式(3)所示:
(3)
4.2.3 嵌入層
在輸入層得到WHG、評(píng)論文本以及概念詞和實(shí)體詞,其中評(píng)論文本和概念作為語(yǔ)句序列,為了保留句子的上下文關(guān)系,采用word2vec[15]技術(shù)預(yù)訓(xùn)練得到文本的詞向量字典。對(duì)輸入的文本內(nèi)容(Rev,En,Gn),根據(jù)詞向量字典得到向量表示,Rev由詞向量集合O={O1,O2,O3,…,On}構(gòu)成,Gn的所有概念詞向量表示集合為g={g1,g2,g3,…,gd},En的所有實(shí)體詞向量表示集合為e={e1,e2,e3,…,ed}。d為向量維度。同時(shí),為了體現(xiàn)出句子中實(shí)體詞的影響程度,對(duì)句向量中的實(shí)體詞利用自注意力機(jī)制來(lái)更新其權(quán)重,如式(4)所示:
(4)
評(píng)論文本由于句子長(zhǎng)度不同,為了保存句子的完整信息,以及方便模型處理文本,根據(jù)更新權(quán)重后的詞向量集合計(jì)算評(píng)論文本的句向量,如式(5)所示:
(5)
其中,senvec={sen1,sen2,…,send}為句向量表示,n為評(píng)論文本中詞的數(shù)量,對(duì)不屬于實(shí)體詞的單詞Att(Ej,O)=1。
由于每條評(píng)論文本中的實(shí)體詞數(shù)量也不同,為了方便模型處理,同時(shí)不丟失概念詞和實(shí)體詞,本文分別取g和e的均值向量表示作為概念詞和實(shí)體記號(hào)的向量表示,如式(6)所示:
(6)
對(duì)輸入WHG中的三元組{hk,rk,tk}和輸入用戶(hù)初始感興趣的項(xiàng)目v,經(jīng)過(guò)embedding層轉(zhuǎn)換為詞向量表示,其中hk={h1,h2,h3,…,hd},rk={r1,r2,r3,…,rd},tk={t1,t2,t3,…,td},v={v1,v2,v3,…,vd}。
4.3.1 興趣網(wǎng)絡(luò)
如圖3所示,興趣網(wǎng)絡(luò)由興趣注意力機(jī)制和全連接層組成。
Figure 3 Interest network圖3 興趣網(wǎng)絡(luò)
本文提出用于模擬用戶(hù)興趣偏好的興趣注意力機(jī)制。如圖4所示,根據(jù)構(gòu)造的WHG中的實(shí)體與關(guān)系,使用Softmax函數(shù)計(jì)算用戶(hù)的興趣偏好值。
Figure 4 Interest attention mechanism圖4 興趣注意力機(jī)制
根據(jù)WHG得到用戶(hù)過(guò)去的興趣Rh和擴(kuò)展的興趣Vt,如式(7)所示。根據(jù)Rh和Vt計(jì)算用戶(hù)的興趣偏好值,計(jì)算過(guò)程如式(8)所示:
(7)
Interestw=Sofmax{Deep[σ(Rh⊕Vt)]}
(8)
其中,Interestw為用戶(hù)興趣值,Deep[σ(Rh⊕Vt)]用于得到用戶(hù)的共享興趣特征,σ(·)為ReLU激活函數(shù)。
通過(guò)興趣注意力機(jī)制對(duì)用戶(hù)在WHG中每一跳擴(kuò)展的實(shí)體添加了興趣偏好值Interestw,然后利用全連接層提取用戶(hù)的興趣特征{I1,I2,I3,…,Ik},Deep(hk,w_rl_rk,tk)代表利用全連接層提取1組三元組興趣特征。InterestI代表用戶(hù)興趣特征表示,k代表興趣特征的數(shù)量,用戶(hù)興趣特征的提取過(guò)程如式(9)所示:
0 (9) 4.3.2 畫(huà)像網(wǎng)絡(luò) 畫(huà)像網(wǎng)絡(luò)從評(píng)論文本、概念和實(shí)體詞中提取帶有情感傾向的畫(huà)像特征,在輸入層關(guān)聯(lián)概念知識(shí)圖譜得到評(píng)論文本中的實(shí)體詞向量e、概念向量g以及句向量{sen1,sen2,sen3,…,send}。如圖5所示,畫(huà)像網(wǎng)絡(luò)由畫(huà)像模塊和情感模塊組成,畫(huà)像模塊采用雙通道的深度ResNet(Deep Residual Network)[16]并行處理概念集合和實(shí)體詞集合,從中抽取用戶(hù)形象特征;情感模塊采用Bi-LSTM[17]計(jì)算評(píng)論文本中的情感傾向。 Figure 5 Portrait network圖5 畫(huà)像網(wǎng)絡(luò) 將概念向量經(jīng)過(guò)卷積操作壓縮特征,將概念向量g與卷積核ke進(jìn)行卷積運(yùn)算。壓縮過(guò)程為如式(10): xi=σ(g*ke+b) (10) 其中,ke為卷積核,大小為7,步長(zhǎng)為2;*為卷積操作;b為偏置值。池化操作得到的向量輸入到ResNet,池化操作如式(11)所示: x=max(x1,x2,…,xi) (11) 殘差單元的計(jì)算過(guò)程分為2步:卷積過(guò)程和恒等映射Im(Identity mapping),計(jì)算過(guò)程分別如式(12)和式(13)所示: (12) Im=σ[conv(x*ke+b)] (13) 其中卷積核ke的大小分別為1,3和1,步長(zhǎng)為1,c為卷積過(guò)程的向量。 殘差單元的最終輸出如式(14)所示: fg(c,Im)=add(c,Im) (14) (15) (16) 如圖6所示,情感模塊由雙向長(zhǎng)短期記憶Bi-LSTM網(wǎng)絡(luò)和隱含層構(gòu)成,輸入為句向量senvec。LSTM單元有遺忘門(mén)、更新門(mén)和輸出門(mén)3種門(mén)控機(jī)制。 Figure 6 Emotion module圖6 情感模塊 (17) Saw=softmax{σ[deep(Sd)]} (18) 將Saw與畫(huà)像特征相乘,得到帶有情感傾向的用戶(hù)畫(huà)像特征,計(jì)算公式如式(19)所示: (19) 通過(guò)特征提取網(wǎng)絡(luò)得到用戶(hù)的興趣特征和帶有情感傾向的用戶(hù)畫(huà)像特征,對(duì)2種特征進(jìn)行融合得到用戶(hù)的表示user·Pi,融合的過(guò)程見(jiàn)式(20)。通過(guò)全連接層來(lái)計(jì)算用戶(hù)表示和用戶(hù)初始感興趣的項(xiàng)目v之間的相似度,使用sigmoid函數(shù)計(jì)算預(yù)測(cè)概率y,如式(21)所示。 user·Pi=InterestI·Userp (20) y=sigmoid{sum[user·Pi×deep(v)} (21) 本文選用Amazon數(shù)據(jù)集[18]進(jìn)行實(shí)驗(yàn)評(píng)估。該數(shù)據(jù)集包含了用戶(hù)對(duì)網(wǎng)站商品的評(píng)價(jià)信息和商品的元數(shù)據(jù),評(píng)分在1~5,數(shù)據(jù)的時(shí)間跨度為1995年6月到2013年3月。本文在Amazon數(shù)據(jù)集中選擇了電影、圖書(shū)和音樂(lè)3個(gè)領(lǐng)域的數(shù)據(jù)集。 本文使用2種類(lèi)型的知識(shí)圖譜:(1)概念知識(shí)圖譜使用的是2016年微軟研究院發(fā)布的Microsoft Concept Knowledge Graphs,通過(guò)人類(lèi)意識(shí)常識(shí)概念進(jìn)行構(gòu)建,包含540萬(wàn)條概念和相關(guān)實(shí)體;(2)三元組知識(shí)圖譜,包括從Microsoft Satori抽取到的有關(guān)電影、圖書(shū)和音樂(lè)領(lǐng)域的實(shí)體和關(guān)系,其中電影三元組知識(shí)圖譜中有2 444類(lèi)有關(guān)電影的實(shí)體節(jié)點(diǎn),12種連接關(guān)系;圖書(shū)三元組知識(shí)圖譜中有14 966類(lèi)有關(guān)圖書(shū)的實(shí)體節(jié)點(diǎn),16種連接關(guān)系;音樂(lè)三元組知識(shí)圖譜中有3 845類(lèi)有關(guān)音樂(lè)的實(shí)體節(jié)點(diǎn),36種連接關(guān)系。 表2展示了數(shù)據(jù)集關(guān)聯(lián)知識(shí)圖譜后的數(shù)據(jù)信息。可以看到,在三元組知識(shí)圖譜中經(jīng)過(guò)多跳擴(kuò)展用戶(hù)感興趣的項(xiàng)目的數(shù)量和種類(lèi)在逐漸增加,可用于解決推薦系統(tǒng)的數(shù)據(jù)稀疏問(wèn)題。 Table 2 Multi-hop expansion on the triple knowledge graph 本文隨機(jī)將數(shù)據(jù)集劃分為訓(xùn)練集(60%)、驗(yàn)證集(20%)和測(cè)試集(20%)。在實(shí)驗(yàn)數(shù)據(jù)集中評(píng)分為1到5,根據(jù)Amazon數(shù)據(jù)集評(píng)分的分布將閾值設(shè)置為4,保證正負(fù)樣本的分布均勻,以此將數(shù)據(jù)集劃分為正負(fù)樣本后用于構(gòu)建CTR模型。 本文選取AUC(Area Under the Curve)作為評(píng)價(jià)指標(biāo),如式(22)所示: (22) 其中,M和F為正樣本和負(fù)樣本的數(shù)量;rankinsi表示第i條樣本的序號(hào);∑insi∈positiveclassrankinsi表示正樣本的序號(hào)加起來(lái)。 其它評(píng)價(jià)指標(biāo)Precision、Recall和F1的計(jì)算如式(23)~式(25)所示: (23) (24) (25) 其中,TP表示把正樣本成功預(yù)測(cè)為正的次數(shù);TN表示把負(fù)樣本成功預(yù)測(cè)為負(fù)的次數(shù);FP表示把負(fù)樣本錯(cuò)誤預(yù)測(cè)為正的次數(shù);FN表示把正樣本錯(cuò)誤預(yù)測(cè)為負(fù)的次數(shù)。 為了評(píng)估MKG-User模型的性能,將其與以下比較優(yōu)秀的模型進(jìn)行對(duì)比: (1)DeepFM[19]。經(jīng)典的神經(jīng)網(wǎng)絡(luò)推薦模型,使用FM和MLP分別處理用戶(hù)的低維和高維特征。 (2)CKE[8]。融合知識(shí)圖譜的經(jīng)典模型,通過(guò)KGE得到結(jié)構(gòu)類(lèi)型的知識(shí)圖的向量表示后進(jìn)行預(yù)測(cè)。 (3)RippleNet[11]。 借鑒了水波擴(kuò)散的現(xiàn)象,基于用戶(hù)歷史興趣在知識(shí)圖譜中擴(kuò)展用戶(hù)的興趣,計(jì)算用戶(hù)點(diǎn)擊候選項(xiàng)目的概率。 (4)MKR[10]。利用推薦系統(tǒng)中的用戶(hù)和項(xiàng)目能夠與三元組知識(shí)圖譜中的節(jié)點(diǎn)匹配,設(shè)計(jì)交互網(wǎng)絡(luò)將節(jié)點(diǎn)和用戶(hù)、項(xiàng)目進(jìn)行交互,進(jìn)行點(diǎn)擊率預(yù)測(cè)。 (5)KGCN[12]。在知識(shí)圖譜中找到相關(guān)的實(shí)體節(jié)點(diǎn),對(duì)節(jié)點(diǎn)進(jìn)行聚合,然后利用圖卷積技術(shù)擴(kuò)展信息后用于點(diǎn)擊率預(yù)測(cè)。 (6)ConvMF[1]。利用CNN從商品評(píng)論信息中提取商品的隱含特征,作為評(píng)分矩陣的額外信息,基于高斯分布進(jìn)行評(píng)分預(yù)測(cè)。 (7)ANR[4]。從方面角度對(duì)長(zhǎng)文本進(jìn)行建模,然后用注意力計(jì)算方面的權(quán)重。 (8)NARRE[5]。 NARRE考慮到評(píng)論文本的重要程度,提出了review-level來(lái)刻畫(huà)評(píng)論的權(quán)重,再利用注意力進(jìn)行最后的推薦預(yù)測(cè)。 本文使用word2vec訓(xùn)練詞向量,維度(d)為300,窗口大小為3。損失函數(shù)是均方根誤差損失函數(shù),優(yōu)化器選擇的是Adam,學(xué)習(xí)率為0.01。如表3所示,為了達(dá)到最佳性能,對(duì)3個(gè)數(shù)據(jù)集中的參數(shù)進(jìn)行了微調(diào)。Hop-size為構(gòu)建權(quán)重異構(gòu)信息圖多跳次數(shù),Kg-size為擴(kuò)展異構(gòu)知識(shí)圖譜的大小,α和β為模型學(xué)習(xí)率,L2為正則化參數(shù)。進(jìn)行實(shí)驗(yàn)時(shí),選擇K值為10,32,64,100。 Table 3 Parameters setting 實(shí)驗(yàn)?zāi)康氖球?yàn)證融合知識(shí)圖譜和評(píng)論文本對(duì)用戶(hù)興趣和用戶(hù)形象進(jìn)行建模能夠提升模型的性能,使用AUC、Precision和F1作為評(píng)價(jià)指標(biāo)。 實(shí)驗(yàn)結(jié)果見(jiàn)表4。在AUC和Precision和F1上,本文提出的模型在數(shù)據(jù)集上都得到了最好結(jié)果。MKG-User模型的AUC分別達(dá)到了0.969,0.925和0.887,與Baseline中最好的結(jié)果相比分別提高了4.8%,18.8%和2.1%。本文模型與融合知識(shí)圖譜的模型相比,在電影數(shù)據(jù)集上,AUC提高了4.8%,Precision和F1分別提高了6.8%和6.9%;在圖書(shū)數(shù)據(jù)集上,AUC提高了19.6%,Precision和F1分別提高了3.8%和19.4%;在音樂(lè)數(shù)據(jù)集上,AUC提高6.8%,Precision和F1分別提高了0.1%和12.2%。本文模型與融合評(píng)論文本的模型在AUC、Precision和F1上相比,在電影數(shù)據(jù)集上分別提高了6.5%,9.0%和8.9%,在圖書(shū)數(shù)據(jù)集上分別提高了18.8%,7.8%和15.5%;在音樂(lè)數(shù)據(jù)集上,AUC提高了2.1%,Precision和F1分別提高了1.0%和6.3%。在不同數(shù)據(jù)集上與不同類(lèi)型模型進(jìn)行比較,驗(yàn)證了MKG-User使用評(píng)論文本和知識(shí)圖譜能夠提升推薦模型的性能,同時(shí)還說(shuō)明對(duì)用戶(hù)形象和用戶(hù)興趣進(jìn)行建模能夠提升推薦系統(tǒng)的效果。為了驗(yàn)證模型的穩(wěn)定性,MKG-User-avg是對(duì)10次實(shí)驗(yàn)結(jié)果取平均值。 Table 4 Comparison of experimental results Figure 7 TopK experimental results on movie dataset圖7 電影數(shù)據(jù)集上的TopK實(shí)驗(yàn)結(jié)果 Figure 8 TopK experimental results on book dataset圖8 圖書(shū)數(shù)據(jù)集上的TopK實(shí)驗(yàn)結(jié)果 本節(jié)在Amazon的電影和圖書(shū)2個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行TopK實(shí)驗(yàn),評(píng)價(jià)指標(biāo)為Precision@K、Recall@K和F1@K。實(shí)驗(yàn)結(jié)果如圖7和圖8所示。 從圖7和圖8可知,本文提出的模型達(dá)到了很好的效果。由于Precision和Recall側(cè)重點(diǎn)不同,評(píng)價(jià)性能的方面也不同。因此,本節(jié)還選擇F1評(píng)價(jià)指標(biāo),F(xiàn)1綜合了2種評(píng)價(jià)指標(biāo)。從3個(gè)指標(biāo)驗(yàn)證了本文模型達(dá)到了最好的效果,表明模型在TopK實(shí)驗(yàn)中有很好的性能,能為用戶(hù)提供更準(zhǔn)確的推薦。 本文選擇Hop-size和Kg-size2個(gè)參數(shù)來(lái)評(píng)估其對(duì)模型性能的影響,在Amazon數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。Hop-size是根據(jù)用戶(hù)的歷史興趣擴(kuò)展用戶(hù)興趣的跳數(shù),其大小代表擴(kuò)展用戶(hù)興趣的遠(yuǎn)近。Kg-size是在WHG中得到的用戶(hù)節(jié)點(diǎn)的數(shù)量,用于確定能夠得到多少用戶(hù)興趣特征。表5所示為Hop-size在1~4時(shí)AUC的實(shí)驗(yàn)結(jié)果。表6所示為Kg-size取8,16,32和64時(shí)對(duì)模型性能的影響。 Table 5 Impact of Hop-size on the model Table 6 Impact of KG-size on the model 本文還在電影數(shù)據(jù)集上驗(yàn)證了興趣網(wǎng)絡(luò)的有效性,表明在融合知識(shí)圖譜的推薦模型中關(guān)系的影響因素和用戶(hù)興趣偏好可以提高推薦模型的效果。 實(shí)驗(yàn)結(jié)果如表7所示,MKG-User(knowledge graph)表示興趣網(wǎng)絡(luò)加入了WHG和興趣注意力機(jī)制。 從表7可以看出,考慮關(guān)系的影響因素和用戶(hù)的興趣偏好后能夠增強(qiáng)推薦系統(tǒng)的性能。為了體現(xiàn)用戶(hù)興趣偏好的變化過(guò)程,對(duì)興趣注意力機(jī)制進(jìn)行可視化,如圖9所示。 Table 7 Impact of WHG Figure 9 Visualization of attention mechanism 圖9 注意力機(jī)制可視化 MKG-User(Portrait)在MKG-User(knowledge graph)中添加雙通道ResNet,融合評(píng)論文本和概念知識(shí)圖譜提取畫(huà)像特征。在電影數(shù)據(jù)集上與MKG-User(knowledge graph)進(jìn)行對(duì)比驗(yàn)證,實(shí)驗(yàn)結(jié)果如表8所示。 Table 8 Effectiveness of the portrait network 在畫(huà)像網(wǎng)絡(luò)中考慮評(píng)論文本中的情感傾向,添加了情感模塊,驗(yàn)證Bi-LSTM提取的情感傾向值的有效性。實(shí)驗(yàn)結(jié)果如表9所示。 Table 9 Portrait network performance after adding emotional inclinations 從表8和表9可知,利用評(píng)論文本和概念知識(shí)圖譜構(gòu)造帶有情感傾向的用戶(hù)畫(huà)像特征,根據(jù)得到的用戶(hù)畫(huà)像特征可解決推薦系統(tǒng)中的數(shù)據(jù)稀疏問(wèn)題,提高了推薦效果。 本文提出了MKG-User模型,利用用戶(hù)交互的項(xiàng)目結(jié)合三元組知識(shí)圖譜提取用戶(hù)的興趣特征,利用評(píng)論文本和概念知識(shí)圖譜提取用戶(hù)畫(huà)像特征,有效提升了推薦效果。同時(shí),本文提出了利用興趣注意力機(jī)制提取更符合用戶(hù)自身興趣的特征;采用雙通道ResNet和Bi-LSTM提取帶有情感傾向的用戶(hù)畫(huà)像特征。今后將在2個(gè)方面繼續(xù)開(kāi)展研究:(1)本文在構(gòu)建用戶(hù)畫(huà)像特征時(shí)沒(méi)有考慮用戶(hù)的統(tǒng)計(jì)信息,如何將用戶(hù)的統(tǒng)計(jì)信息融合到用戶(hù)畫(huà)像特征中是下一步要解決的問(wèn)題;(2)用戶(hù)的興趣是動(dòng)態(tài)變化的,如何考慮利用用戶(hù)興趣的變化來(lái)優(yōu)化推薦模型也是下一步工作之一。4.4 決策層
5 實(shí)驗(yàn)
5.1 數(shù)據(jù)集
5.2 評(píng)價(jià)指標(biāo)
5.3 Baseline模型
5.4 參數(shù)設(shè)置
5.5 實(shí)驗(yàn)結(jié)果與分析
5.6 TopK實(shí)驗(yàn)結(jié)果與分析
5.7 參數(shù)敏感性分析
5.8 興趣網(wǎng)絡(luò)的有效性
5.9 畫(huà)像網(wǎng)絡(luò)的有效性
6 結(jié)束語(yǔ)