李昆侖,林 娜,王 珺
(河北大學 電子信息工程學院,河北 保定071000) E-mail:likunlun@hbu.edu.cn
盡管現(xiàn)在已有許多基于評分實現(xiàn)用戶偏好與物品特征建模的推薦模型,但是依然存在兩個主要的挑戰(zhàn)[1-3].一方面,實際應用場景中用戶-物品的交互數(shù)據(jù)十分稀疏,訓練出精準的推薦模型十分困難,導致物品有效推薦具有很大的局限性.另一方面,僅僅依賴評分數(shù)據(jù)很難完整地解釋用戶的興趣偏好和物品的屬性特征.
很多研究者選擇添加各種輔助信息增強推薦性能[4,5],如:物品屬性標簽、用戶評論等.充分的利用這些信息,可以進一步獲取用戶的偏好與物品的特性.其中,用戶評論文本是提高推薦性能的重要信息資源.各大電商平臺積極鼓勵用戶發(fā)表相關評論,希望借助語義信息豐富的隱式評論特征,更好地理解用戶偏好與物品屬性,從而提高推薦算法性能.將評分信息與評論文本信息相結(jié)合,不但可以捕捉更多的用戶偏好特征和物品屬性特征,還可以更好的理解用戶是如何給該物品進行打分,使用戶的潛在偏好與物品潛在屬性具有可解釋性.文獻[6]利用評論文本信息作為輔助信息,從文本信息中學習特征分布.該模型僅僅從物品整體評論進行特征建模,沒有關注每個用戶的歷史評論,忽略了用戶與物品的交互行為,很難把握用戶具體偏好.文獻[7]為了避免文本信息在不同情況下因含義不同帶來的差異性,該模型將用戶偏好與物品特征分別建模.同一用戶的所有歷史評論構成了用戶的評論文本,而物品收到的所有用戶評論構成物品評論文本.利用卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)分別對用戶評論文本信息與物品評論文本信息進行特征提取,得到相對應的特征表示.單純利用CNN進行文本特征提取,捕捉的是文本局部特征,很難捕獲長距離特征以及上下文信息.
已有各種不同技術被應用于推薦評論的建模,特別是卷積神經(jīng)網(wǎng)絡(CNN),且取得較好的效果.但CNN針對自然語言處理方面具有一定的局限性.CNN進行文本特征提取主要通過滑動窗口加池化的方式捕捉文本局部特征.但獲取精準的語義信息僅考慮局部語義是不足夠的,需結(jié)合文本的上下文關系.如“這個版本不如原版那樣經(jīng)典,但其仍然豐富有趣”很可能因為CNN模型捕獲到“不如”該字眼,被分類為消極情感,而非整體情感傾向.因此,CNN進行文本特征提取很難同時考慮到語義的局部與全局信息,導致語義信息特征提取不準確,尤其對于長文本信息更加明顯.
針對以上問題,本文提出了融合評分與評論的深度評分預測模型DMRR(Deep Model combining Rating and Review).該模型在進行文本特征提取時,將CNN與GRU(Gated Recurrent Unit)進行有效的結(jié)合,希望可以從局部與全局兩方面提取文本特征.并根據(jù)用戶-物品歷史評分信息引入了物品可推薦度與用戶偏好程度.為了有效結(jié)合評分與評論信息,該模型利用融合策略將二者構建的特征矩陣進行融合.提取融合特征的高階特征向量,并通過矩陣分解預測用戶評分.
目前已經(jīng)有一些基于用戶-物品歷史評分提供精確推薦的相關工作,基于用戶的協(xié)同過濾(User-based collaborative filtering)是最為經(jīng)典的推薦算法[8].其核心是利用用戶個人偏好信息尋找與用戶相似的目標用戶.但是無論新老用戶,個人偏好信息總是很難捕獲,這一關鍵信息的缺乏導致了推薦的冷啟動問題.
為了緩解冷啟動問題,文獻[3,5]在協(xié)同過濾算法中引入矩陣分解.目的是將用戶偏好和物品屬性分別表示成兩個隱向量,然后將這兩個向量進行內(nèi)積運算得到預測評分.研究表明,矩陣分解技術的引入一定程度緩解了冷啟動問題,提升了推薦性能.但是,矩陣分解模型也存在一些不足,如數(shù)據(jù)稀疏性、以及該模型單純的利用顯示評分特征很難捕獲用戶的具體偏好以及物品屬性等.為了克服矩陣分解模型的不足,許多研究者引入各種輔助信息,如標簽、社交網(wǎng)絡、用戶隱性行為、評論文本等[4,5,9].目前,結(jié)合評分與評論進行預測的方法較為受歡迎.一方面,在推薦系統(tǒng)的可解釋性方面會做得更好;另一方面,可以利用評論隱式特征彌補評分稀疏性問題.
基于評論文本的推薦算法大多利用傳統(tǒng)的NLP模型進行文本特征處理,如LDA、TF-IDF等[10].文獻[11]將LDA主題模型應用于評論文本,并將主題與評分映射到相同空間,以提高預測精度.該方法判斷文本相似度時沒有考慮語義間的關聯(lián),導致推薦效果不理想.隨著深度學習網(wǎng)絡在各個領域的成功應用,人們嘗試利用深度學習網(wǎng)絡模型對用戶-物品評論進行特征提取,捕獲文本語義信息[12].特別是卷積神經(jīng)網(wǎng)絡在ImageNet圖像分類競賽中取得巨大成功后,該網(wǎng)絡模型在圖像、文本、音頻等各個領域廣泛使用.文獻[13-15]則均通過CNN自動提取文本特征信息,進一步增強了評分預測準確率.
相對于卷積神經(jīng)網(wǎng)絡,自然語言處理領域更常用的是循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN).因為文本信息之間具有很強的依賴性,然而卷積神經(jīng)網(wǎng)絡恰恰忽略掉了這點,無法將發(fā)生的事情給出關聯(lián)分析.文獻[16]利用LSTM模型進行文本特征提取,希望考慮詞序,使文本特征提取更準確,從而提高推薦性能.文獻[17]利用了改進循環(huán)神經(jīng)網(wǎng)絡雙向GRU從用戶評論和商品評論中分別提取用戶和商品的深層非線性特征向量,來預測出用戶對商品的評分.
深度學習的應用開辟了推薦系統(tǒng)的新天地,其“黑盒效應”導致推薦算法可解釋性差[18].文獻[19]提出了基于評論的深度注意力推薦模型ADR.該模型從評論文本中學習到用戶和物品特征,并通過注意力網(wǎng)絡得到權重矩陣,從而動態(tài)調(diào)節(jié)文本特征的重要性,提高推薦性能.文獻[20]提出了基于注意力機制的GRU模型,結(jié)合矩陣分解得到的潛在因子,有效增加了模型可解釋性.
綜上所述,本文將CNN與GRU進行有效結(jié)合,并融合用戶-物品評論與評分,構建深度評分預測模型.與之前工作最大不同的是,本文不僅在語義特征提取階段考慮了上下文信息,還將評分與評論信息結(jié)合,以提高推薦算法的泛化能力.
本節(jié)中重點討論本文提出的DMRR模型(Deep Model combining Rating and Review),該模型是一個利用評分與評論文本特征預測用戶評分的模型.該模型主要包含3個模塊:文本特征處理模塊、特征融合模塊以及高階特征提取模塊.具體模型結(jié)構如圖1所示.
圖1 DMRR模型結(jié)構Fig.1 Model structure of DMRR
在文本的特征提取模塊中,有效的結(jié)合了GRU與CNN網(wǎng)絡,可以更加精準地從文本中獲取語義信息,并利用了注意力機制網(wǎng)絡(Attention Mechanism)增強算法可解釋性.在特征融合模塊中,希望大量的評分數(shù)據(jù)與評論文本信息結(jié)合,可以進一步提高推薦系統(tǒng)的推薦精度.將文本特征提取模塊學習構建的用戶文本特征矩陣與物品文本特征矩陣,分別與用戶-物品評分數(shù)據(jù)得到的用戶偏好程度與物品可推薦度,通過融合策略進行特征融合.高階特征提取模塊,通過卷積操作的得到用戶與物品的高階特征向量.最后,通過矩陣分解進行評分預測.
由于用戶評論文本更多包含用戶偏好,而物品評論更多包含物品屬性.因此,本文將同一用戶的所有歷史評論形成一個單獨的文件作為用戶評論文本.同樣,將同一物品收到的所有用戶評論構成一個單獨文件作為物品評論文本.本模型在評論文本特征學習階段,主要希望通過聯(lián)合學習用戶-物品評論文本,構造出潛在特征向量.卷積神經(jīng)網(wǎng)絡在很多自然語言處理與信息檢索任務中取得較好成就,WU等人提出的CARL模型便選擇利用CNN進行文本特征學習,取得很好的結(jié)果[7].但是,CNN很難把握序列關系以及上下文信息.本文在進行文本特征提取時,不僅利用CNN,同時還利用了GRU網(wǎng)絡學習文本之間的序列關系以及上下文信息,進一步捕獲更精準的語義信息特征.然后,利用注意力機制網(wǎng)絡層動態(tài)調(diào)節(jié)用戶、物品特征向量,獲取重要特征信息,構造用戶文本特征矩陣以及物品文本特征矩陣.圖2給出了文本特征提取的基本過程.
圖2 文本特征提取模塊Fig.2 Architecture of the review-based feature learning
通常,一個用戶評論文本中對于不同物品的偏好程度是不同的.也就是說,評論文本中并非所有信息對于預測評分都是必要的.為了獲取有效信息,Attention分別對u,v特征進行處理.先將u,v映射在同一潛在空間,然后利用一個注意力矩陣T∈Rf*f,根據(jù)用戶文本特征u和物品文本特征v,得到用戶-物品文本特征的相關性矩陣R,如公式(1)所示:
R=tanh(uTTv)
(1)
(2)
(3)
再根據(jù)文本特征的相關性,分別計算文本特征在用戶u和物品v中的重要性,從而獲取用戶偏好特征以及物品的屬性特征:
(4)
(5)
最后,結(jié)合注意力權重矩陣構造用戶文本特征矩陣U′∈Rn*k和物品文本特征矩陣V′∈Rn*k:
U′=diag(au)uT
(6)
V′=diag(av)vT
(7)
文本特征提取模塊算法描述如算法1.
算法1.
輸入:用戶評論文本Du,物品評論文本Di
輸出:用戶文本特征矩陣U′和物品文本特征矩陣V′
Step 1.評論文本經(jīng)過embedding,得到詞向量特征表示wi∈R1*t;
Step 2.詞嵌入向量表示分別送入CNN和GRU中進行語義信息特征提取;
Step 3.將局部與全局特征進行融合,得到用戶文本特征u以及物品文本特征v;
Step 4.通過Attention,得到用戶注意力權重矩陣au以及物品注意力權重矩陣av;
Step 5.利用式(6)、式(7)構造用戶文本特征矩陣U′和物品文本特征矩陣V′.
Tan和Zhang提出聯(lián)合用戶-物品評分來增強之前根據(jù)文本信息學習得到的潛在特征,可以更好地對物品屬性特征與用戶偏好特征進行建模[21].本文利用用戶-物品歷史評分數(shù)據(jù)計算出物品可推薦度與用戶偏好程度,更明確地區(qū)分不同物品評論之間以及不同用戶評論之間語義信息的不同.同一單詞對于不同語境,表達的語義有時可能偏差較小,有時可能相差甚遠.評分的高低,則可以直接表達用戶對該物品的喜歡程度,同時間接表明對應評論的情感傾向.利用評分輔助評論,可以更明確地確定其代表的情感傾向,有助于更精準提取語義信息.二者融合方式如公式(8)、公式(9)所示:
U″=vuU′
(8)
V″=fiV′
(9)
其中,vu為用戶偏好特征分布,fi為物品可推薦特征分布,U′為結(jié)合注意力權重矩陣構造的用戶文本特征矩陣,V′為結(jié)合注意力權重矩陣構造的物品文本特征矩陣.
3.2.1 物品可推薦度
為每一個物品計算可推薦度,并與物品文本特征進行特征融合,達到評分對文本語義增強的效果.也就是說,一個物品平均評分和整體平均分差值為正時,則值得推薦,該物品收到的評論文本語義應偏向積極情感,且值的大小代表其情感傾向程度.該物品從文本中提取到的所有特征會按照對應可推薦度得到增強.一個物品平均評分和整體平均分差值為負時,則不值得推薦,該物品收到的評論文本語義應傾向消極情感.物品從文本中提取到的所有特征會按照對應可推薦度減弱.即使某些物品評分較高,但評分數(shù)量可能過少,故僅考慮物品平均分是不合理的.本文不僅考慮了平均評分等級,還考慮了評分數(shù)量.對于評分高且評分數(shù)量多的物品,則表明該物品可推薦性較強,更應該值得被推薦.可推薦度fi計算公式如下:
(10)
(11)
(12)
3.2.2 用戶偏好程度
首先,定義用戶u對物品i的偏好程度gu,i=ru,i-mu,其中mu是用戶u歷史評分的均值.本文選擇將每個用戶歷史評分的均值作為其衡量界限的原因是不同用戶打分偏好可能不同.即同一單詞對于不同用戶,其表達語義可能存在偏差.也就是說,用戶u對物品i的偏好程度gu,i為正值時,該用戶評論文本包含的語義信息應正面積極,表達用戶對物品的喜愛.值越大,則用戶u對物品i喜歡程度越高;反之,gu,i為負值時,為消極評論.值越小,則表明用戶u對物品i的不喜歡程度越高.用戶u對所有打過分的t個物品的偏好程度構成了向量Gu=(gu,1,gu,2,…,gu,t)∈R1*t,代表了用戶偏好特征的重要性.該t個物品的可推薦特征分布為F=[f1,f2,…,ft]∈R1*t,得到最終的用戶u的偏好程度vu:
(13)
文本特征提取以及評分融合處理后,可能導致用戶評論文本與物品評論文本中涉及到的無關信息占很大比例.為了避免該操作引入過多的噪聲,本文選擇利用卷積操作對融合特征向量U″,V″,提取更高階的語義特征.首先,通過卷積-池化操作進行更高階的特征提取.
(14)
(15)
hu=[h1,…,hf]
(16)
hi=[h1,…,hf]
(17)
其中,Wj是卷積核大小,f是relu激活函數(shù),mean()則代表平均池化操作.
其次,將物品向量hi以及用戶向量hu分別送入全連接層,得到物品的高階特征向量ti與用戶高階特征向量tu:
tu=f(W*hu+b)
(18)
ti=f(W*hi+b)
(19)
其中,W是權重矩陣,b為偏置.
本文選擇因子分解機(Factorization Machine,FM)進行評分預測.不同用戶有不同的打分習慣,所以在進行評分預測時,不僅考慮了全局偏置,還考慮了相關的用戶與物品偏置.希望通過該變量調(diào)節(jié)評分預測,提高預測性能,具體計算如公式(20)-公式(22)所示:
zu,i=tu?ti
(20)
(21)
(22)
其中,?是concatenation操作,μ是全局偏置,bu和bi分別是用戶偏置和物品偏置,m是潛在特征向量zu,i的系數(shù)向量,M是二階交叉特征向量的權重矩陣(其對角元素為0),vj∈Rv,vk∈Rv和分別是特征向量zu,i維度j,k,相關的潛在特征向量,y′是預測評分.
在參數(shù)優(yōu)化時,本文選用了平方差作為損失函數(shù),并加入了正則化項避免過擬合.
(23)
其中,T是用戶-物品的評分集合,y是用戶u對物品i的真實評分,y′則是預測評分,θ是所有參數(shù),λ是正則系數(shù).本文評分預測算法如算法2.
算法2.
輸入:用戶-物品歷史評分矩陣M,用戶評論文本Du,物品評論文本Di
輸出:用戶評分預測y′
Step 1.利用文本特征提取模塊,學習構建用戶文本特征矩陣U′和物品文本特征矩陣V′;
Step 2.利用式(10)-式(13)求解物品可推薦度和用戶偏好程度,并構建相應的特征分布;
Step 3.根據(jù)融合規(guī)則,得到融合特征矩陣;
Step 4.通過卷積和池化操作進行高階特征提取;
Step 5.通過全連接層,得到用戶高階特征tu以及物品高階特征ti;
Step 6.利用式(21)進行評分預測.
本實驗均在CPU為i7-9750H和GPU為GTX 1660 Ti,內(nèi)存為16.00GB的計算機上運行的.實驗環(huán)境為python3.6,運行工具為PyCharm2019.為了評估本模型的性能,本文在數(shù)據(jù)集Amazon 5-core的4個不同子數(shù)據(jù)集上(Musical Instruments,Automotive,Office Products,Tools Improvement)以及Yelp數(shù)據(jù)集上分別進行了實驗.每一個子數(shù)據(jù)集均來自Amazon上同一類別產(chǎn)品,包含“用戶ID”,“物品ID”,“評分(1-5)”以及“用戶對物品評論”4個特征.數(shù)據(jù)集具體信息統(tǒng)計如表1所示.最后一列給出了各種數(shù)據(jù)集的稀疏度,可以看出其數(shù)據(jù)是十分稀疏的.數(shù)據(jù)稀疏度指無評分數(shù)據(jù)占整體評分數(shù)據(jù)的比率,即:
(24)
表1 數(shù)據(jù)集基本信息Table 1 Basic information of datasets
其中,n為用戶數(shù)量,m為物品數(shù)量,k為評分數(shù)量.
本實驗詞向量維度為300,bach_size均為100,選用Adam優(yōu)化器更新模型參數(shù).FM預測層的潛在特征向量維度在{15,30,50,100,200}上進行優(yōu)化調(diào)節(jié).卷積核大小為3*3,卷積核數(shù)量為45,GRU的隱藏單元個數(shù)與卷積核個數(shù)保持一致.正則系數(shù)和dropout分別為0.01和0.5.Musical Instruments,Automotive,Office Productss 3個數(shù)據(jù)集的學習率為0.001,Tools Improvement和Yelp兩個較大數(shù)據(jù)集的學習率為0.01.對于基線模型的超參數(shù)設置,是根據(jù)其原論文相關參數(shù)進行設置的.
為了對本文提出模型進行性能評估,選用了6種相關模型進行比較,分別為PMF,DeepCoNN,D-attn,NARRE,CARL和RPR.以上方法只有PMF是利用用戶-物品評分數(shù)據(jù)的經(jīng)典算法,其他均為近幾年較為新穎且具有代表性的方法,且這些方法均結(jié)合了評論文本構建深度評分預測模型.
PMF:概率矩陣分解模型(Probabilistic Matrix Factorization),一個僅僅用到評分數(shù)據(jù)的標準矩陣分解模型[22].
DeepCoNN:深度協(xié)同神經(jīng)網(wǎng)絡模型(Deep cooperative Neural Networks),是首個同時結(jié)合用戶評論集和商品評論集的深度學習模型,其性能優(yōu)越[7].該模型使用兩個并行的CNN網(wǎng)絡從物品評論文本以及用戶評論文本中提取潛在特征,然后利用矩陣分解進行評分預測.
D-attn:雙重注意力模型(dual attention-based model),利用雙重注意力機制模塊從局部與全局兩方面學習潛在特征表示,實現(xiàn)評分預測[23].
NARRE:具有評論可解釋性的神經(jīng)注意力評分回歸模型(Neural attentional rating regression with review-level explanations),利用兩個平行的CNN對評論中的詞進行特征提取,并利用注意機制學習評論的有效性[24].
CARL:感知上下文的表示學習模型(context-aware user-item representation learning model),利用卷積操作與注意力機制方法共同進行文本特征提取,并結(jié)合歷史交互的評分數(shù)據(jù)進行用戶評分預測[14].
RPR:基于評論兩極性的推薦模型(Review Polarity-wise Recommender model),利用CNN結(jié)構分別從積極評論和消極評論中提取用戶喜歡以及不喜歡相關語義信息,進行用戶-物品評分預測[25].
在實驗過程中,為了避免因數(shù)據(jù)處理過程導致模型性能評估的偏差,所有方法的數(shù)據(jù)處理過程均一致.將隨機打亂的數(shù)據(jù)按8:2分為訓練集和測試集,采用十折交叉驗證在訓練數(shù)據(jù)上進行模型訓練.評論文本數(shù)據(jù)只會用于用戶偏好特征以及物品屬性特征建模,不會出現(xiàn)在驗證集以及測試集.具體文本處理過程如下:
1)將文本中所有字母都轉(zhuǎn)換為小寫并進行標點移除;
2)將每個句子拆分為一系列的詞;
3)去除停用詞;
4)利用TF-IDF計算詞頻,忽略高于0.5的文檔頻率的詞條,并選擇前20000個詞構建詞典;
5)移除評論文本中所有超出詞典的詞;
6)將所有文本長度固定為300,若文本長度大于300,則只取前300個詞;若文本長度小于300,則進行填充.
為了評估預測性能,本文選用均方差(MSE)和平均絕對誤差(MAE)作為評價指標.模型性能與MSE和MAE值成反比例關系.各種方法性能對比結(jié)果如表2所示.
(25)
(26)
其中,T是測試樣本,yui是用戶u對物品i的實際評分,而y′ui是預測評分.
根據(jù)表2可知,PMF方法性能整體表現(xiàn)均最差,尤其對于數(shù)據(jù)集較大且稀疏性較高的Tools Improvement和Yelp數(shù)據(jù)集.其原因是PMF是唯一一個只利用評分進行評分預測的方法,而其他方法均融合了評論文本信息.從此,可以看出評論信息作為輔助信息有效提高了評分預測準確性,且一定程度上緩解了推薦算法的數(shù)據(jù)稀疏性問題.DeepCoNN和RPR方法相對其他方法,在評論文本信息較長的Automotive和Yelp數(shù)據(jù)集上性能表現(xiàn)不是很好,其原因可能是該方法僅僅選用CNN進行文本特征提取.也就是說,CNN對于提取長文本信息不是很優(yōu)秀.D-attn、NARRE和CARL等方法引入注意力機制,相比DeepCoNN性能提高較大,說明注意力的引入有利于幫助CNN從文本特征中捕獲重要信息,減少噪聲和不相關信息.考慮特征提取引入噪聲問題,CARL進行了高階特征提取.相比NARRE方法,CARL方法在5個不同類別數(shù)據(jù)集上性能均有較大的提升.上述方法基本均是基于CNN進行文本特征提取,雖然取得不錯的成果,但是考慮CNN結(jié)構對于捕獲長距離文本特征效果不是很理想.因此,本文提出了結(jié)合GRU和CNN的DMRR模型,以增強對長距離文本特征的提取.
表2 各種方法MSE和MAE對比結(jié)果Table 2 MSE and MAE of various methods
實驗結(jié)果表明,在5個數(shù)據(jù)集上,DMRR模型的MSE值和MAE值均是所有基于評論基線模型中最小的.對于DeepCoNN、D-attn模型,性能具有很大的提升,MSE分別平均降低了19.69%、15.18%.在評論文本信息較長的Automotive和Office Products數(shù)據(jù)集上表現(xiàn)極為突出,相對性能最好CARL模型提升了9.40%、6.15%,但對于過長評論的Yelp數(shù)據(jù)集性能提升一般.分析其主要原因是,評論文本過長,評論之間差異性很大,基于文檔構建會引入過多噪聲,導致模型性能下降.但根據(jù)整體實驗結(jié)果表明,DMRR對于不同類型數(shù)據(jù)集的評分預測均有效可行,MSE平均降低了5.10%,MAE平均降低了4.33%.為了進一步驗證DMRR模型的有效性,下文將給出相關實驗及分析.
本文融合了評論隱式特征與評分顯示特征進行評分預測,并提出利用GRU與CNN同時進行文本特征提取,以及利用評分得到用戶偏好程度和物品可推薦度,從而提升推薦性能.為了更清晰地說明DMRR模型的有效性,本節(jié)對該算法進行了橫向?qū)Ρ确治?表3展示了基于評論特征提取以及基于評分矩陣分解兩部分分別在5個數(shù)據(jù)集上對評分預測的影響.
表3 DMRR模型MSE和MAE結(jié)果Table 3 MSE and MAE of DMRR
值得注意的是,各個參數(shù)設置會影響模型性能.在比較相關模塊對模型影響時,本實驗涉及到的基本參數(shù)設置相同(如,潛在特征向量維度等).根據(jù)表3實驗結(jié)果,無論MSE評價指標還是MAE評價指標都可以發(fā)現(xiàn),結(jié)合GRU和CNN進行文本特征提取均比單純利用CNN進行文本特征提取更有效,特別是在Amazon的數(shù)據(jù)集上提升較為明顯.這是因為文本之間具有嚴重的依賴性,GRU相對于CNN更適合處理該問題.本文選擇將二者進行結(jié)合,而不是僅僅用GRU取代CNN的原因是,當句子的情感分類是由整個句子決定的時候,GRU會更容易判斷正確;當句子的情感分類是由幾個局部的key-phrases決定的時候,CNN會更容易判斷正確.本文則希望從局部與全局兩方面提取文本特征,使語義信息提取更加精準.CNN對關鍵詞進行逐個特征提取,獲取評論的所有關鍵詞特征.而GRU從整句評論進行特征提取和分析,進一步增強關鍵詞之間的關聯(lián)性.對于Yelp數(shù)據(jù)集,結(jié)合GRU和CNN進行文本特征提取效果不是很顯著,分析其原因可能為以下兩點:一是,GRU對于過長文本序列仍然很難準確捕捉上下文信息;二是,基于文檔構建評論文本,可能會引入大量不相關信息,尤其對于過長文本.根據(jù)DMRR-CNN和DMRR-re的實驗結(jié)果對比,可以明顯看出模型性能的提升.驗證了根據(jù)評分數(shù)據(jù)引入物品可推薦度以及用戶偏好程度以增強文本語義信息的方法,可以有效提升推薦模型性能.由此說明,評分與評論信息的有效結(jié)合,可以有效提升預測準確性.
在保證實驗數(shù)據(jù)集和實驗環(huán)境相同的條件下,本文分析研究了不同超參數(shù)對該模型的性能影響.
1)潛在特征向量維度l
圖3展示了分別在{15,30,50,100,200}不同潛在特征向量維度上對模型的影響.根據(jù)實驗結(jié)果,可以發(fā)現(xiàn)DMRR在很大范圍內(nèi)性能變化均較小,即潛在維度數(shù)量對該模型的影響不大.雖然個別數(shù)據(jù)集(Office_Products)在一定范圍內(nèi),性能隨著維度增加略微有所提升,但FM利用二階交叉特征進行評分預測的計算消耗也越大.本實驗最終選擇了l=15.
圖3 潛在特征向量維度l對模型的影響Fig.3 Impact of dimension number l across the six datasets
2)dropout
在訓練過程中會選擇拋棄一些神經(jīng)元避免過擬合,提升模型性能.但是如果拋棄率選擇不合適,甚至可能會對降低模型性能.圖4展示了不同dropout對模型的影響.根據(jù)實驗結(jié)果可以發(fā)現(xiàn),隨著dropout比率增大,MSE值先逐漸減小后又持續(xù)上升.剛好符合前面得到的結(jié)論,dropout需選擇適當.在該實驗過程中,當dropout為0.5,模型性能最好.
圖4 dropout對模型的影響Fig.4 Impact of the different dropout ratios
3)正則系數(shù)
在訓練過程中,模型的空間大小對模型在訓練數(shù)據(jù)上的表現(xiàn)具有很大的影響.當模型空間很大,挑選到合適模型的概率就會降低,易于出現(xiàn)過擬合現(xiàn)象;當模型空間很小,很難找到數(shù)據(jù)擬合很好的模型.正則化實則是一種控制模型空間的方法,限制參數(shù)空間大小,減少泛化誤差.如果正則系數(shù)過大,模型空間可能較小,導致模型可能因沒有學習到訓練數(shù)據(jù)中一些特征屬性而產(chǎn)生欠擬合;如果正則系數(shù)過小,模型空間會很大,能夠?qū)⒂柧殧?shù)據(jù)特征屬性學習很好,但測試性能可能不高.因此理想的正則系數(shù)可以讓模型擁有較好的泛化能力,提高模型性能.本實驗在[0.001,0.005,0.01,0.05,0.1]進行調(diào)節(jié),根據(jù)圖5可以看出,正則系數(shù)為0.01時,模型性能最好.
圖5 正則系數(shù)對模型的影響Fig.5 Impact of the size of lambda
本文提出了融合評分與評論的深度評分預測模型DMRR.該模型有效結(jié)合評分與評論信息,提高模型的泛化能力.一方面,利用用戶-物品評論文本更好的理解用戶給出評分的原因;另一方面,利用評分數(shù)據(jù)進一步增強從評論文本中學習到的文本特征.理論分析與實驗結(jié)果均表明,DMRR較目前相關模型,進一步提高了評分預測準確性.