摘" 要: 針對現(xiàn)有的大多數(shù)跨域推薦方法僅僅使用了源域的評分信息和部分輔助信息,并未充分使用包括隱式反饋信息在內(nèi)的其它輔助信息,文中提出了一種融合多種輔助信息的跨域推薦算法,以充分使用隱式反饋信息和內(nèi)容信息來提升跨域推薦方法的性能.在對堆疊降噪自動(dòng)編碼器(stacked denoising autoencoder,SDAE)進(jìn)行擴(kuò)展的基礎(chǔ)上,結(jié)合矩陣分解(matrix factorization,MF)方法,同時(shí)融合了源域的評分信息、用戶和項(xiàng)目的內(nèi)容信息以及隱式反饋信息,豐富了用戶和項(xiàng)目潛在特征的語義信息.采用基于密碼本的知識遷移方法和非完備正交非負(fù)矩陣三分解方法,設(shè)計(jì)了適用于評分信息和多類型輔助信息綜合運(yùn)用的跨域協(xié)同過濾框架.實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在改善推薦性能,減少用戶厭惡推薦結(jié)果方面有著良好的效果.
關(guān)鍵詞: 輔助信息;隱式反饋;矩陣分解;跨域推薦
中圖分類號:TP391""" 文獻(xiàn)標(biāo)志碼:A""""" 文章編號:1673-4807(2024)01-075-07
DOI:10.20061/j.issn.1673-4807.2024.01.012
收稿日期: 2021-08-18""" 修回日期: 2021-04-29
基金項(xiàng)目: 國家自然科學(xué)基金項(xiàng)目(61806087);江蘇省研究生創(chuàng)新項(xiàng)目(SJCX20_1475)
作者簡介: 陸永倩(1995—),女,碩士研究生
*通信作者: 於躍成(1971—),男,教授,研究方向?yàn)閿?shù)據(jù)挖掘、推薦系統(tǒng).E-mail:zhjyuyuecheng@163.com
引文格式: 陸永倩,於躍成,生佳根,等.深度融合內(nèi)容和隱式反饋的跨域推薦算法[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,38(1):75-81.DOI:10.20061/j.issn.1673-4807.2024.01.012.
Cross-domain recommendation algorithm based ondeep fusion of content and implicit feedback
LU Yongqian, YU Yuecheng*, SHENG Jiagen, LI Hui, XU Mengyao
(School of Computer, Jiangsu University of Science and Technology, Zhenjiang 212100, China)
Abstract:Most of the existing cross-domain recommendation methods use only the rating information and some side information from the source domain, and the other side information including implicit feedback information can not be adopted. Therefore, a cross-domain recommendation algorithm which integrate multiple side information including implicit feedback information and content information is proposed to improve the performance of cross-domain recommendation methods. Based on the expansion of stacked denoising autoencoder (SDAE), combing with matrix factorization (MF) method and fusing the rating information of the source domain, the content information of users and projects and implicit feedback information are also integrated in the method. On this basis, the cross-domain collaborative filtering framework suitable for the comprehensive application of rating information and multi type side information is designed. In order to effectively transfer the source domain information, both the codebook-based knowledge transfer method and the incomplete orthogonal nonnegative matrix tri-factorization method are adopted in this framework. The experimental results on the actual data set show that this method has a good effect in improving the recommendation performance and reducing users′ aversion to the recommendation results.
Key words:side information, implicit feedback, matrix factorization, cross-domain recommendation
在當(dāng)今信息爆炸增長的時(shí)代,推薦系統(tǒng)受到了越來越多的關(guān)注.經(jīng)典的推薦算法大致可以分為兩類[1]:基于內(nèi)容的方法和基于協(xié)同過濾(collaborative filtering,CF)的方法.基于內(nèi)容的方法利用用戶的個(gè)人資料和項(xiàng)目的內(nèi)容信息進(jìn)行推薦,而CF方法則忽略了內(nèi)容信息,轉(zhuǎn)而利用用戶過去的行為活動(dòng)或偏好進(jìn)行推薦.然而,推薦系統(tǒng)通常面臨兩個(gè)主要問題:冷啟動(dòng)和數(shù)據(jù)稀疏性.
為了解決這些問題,將協(xié)同過濾與輔助信息相集成,以獲取更多的有效特征.除了評分信息可以直觀顯示用戶的喜好外,大多數(shù)如用戶和項(xiàng)目的內(nèi)容信息、標(biāo)簽、評論等輔助信息中往往隱含著用戶的個(gè)性偏好.此外,隱式反饋信息[2](如購買歷史,瀏覽信息等)也反映了用戶對項(xiàng)目的偏好.傳統(tǒng)的協(xié)同過濾推薦中評分信息和各種輔助信息由于過于稀疏而無法有效利用.深度學(xué)習(xí)能夠從原始數(shù)據(jù)中學(xué)習(xí)有效的特征表示,和傳統(tǒng)推薦算法相結(jié)合,更是能從稀疏的歷史信息中挖掘用戶的偏好特征,應(yīng)用十分廣泛.
跨域推薦[3]則是利用輔助信息來改善推薦性能,通過將知識從信息較為稠密的相關(guān)領(lǐng)域(稱為源域)遷移到信息相對稀疏的當(dāng)前領(lǐng)域(稱為目標(biāo)域),以達(dá)到提高目標(biāo)域的推薦性能的目的.深度跨域模型能從稀疏數(shù)據(jù)中深度挖掘潛在特征,進(jìn)而緩解目標(biāo)域中的數(shù)據(jù)稀疏性提高推薦的準(zhǔn)確性.然而,現(xiàn)有的跨域推薦方法大都僅利用用戶的評分進(jìn)行推薦,受限于評分矩陣固有的稀疏性,無法實(shí)現(xiàn)知識的有效遷移.
文中將內(nèi)容信息和隱式反饋信息視為重要的可用輔助信息,并將其與跨域推薦模型相融合,提出了一種深度融合內(nèi)容和隱式反饋的跨域推薦算法,即SICDR.該算法首先擴(kuò)展標(biāo)準(zhǔn)的堆疊降噪自動(dòng)編碼器(stacked denoising autoencoder,SDAE)[4]模型,使其適合跨域推薦中的特征學(xué)習(xí)場景,以在源域中學(xué)習(xí)更有效的用戶和項(xiàng)目潛在特征.同時(shí)將矩陣分解和隱式反饋信息相集成,來減少用戶不喜歡項(xiàng)目的推薦.然后采用非完備正交非負(fù)矩陣三分解[5]方法生成連接兩個(gè)域的公共潛在因子,從而實(shí)現(xiàn)從源域向目標(biāo)域的知識遷移.
1" 相關(guān)工作
1.1" 隱式反饋信息
隱式反饋主要有兩種形式:正反饋和負(fù)反饋.設(shè)pij為第i個(gè)用戶對第j個(gè)項(xiàng)目的隱式反饋,fij為動(dòng)作頻率,即用戶實(shí)際觀看電影的時(shí)長,t是持續(xù)時(shí)間閾值.如果用戶i觀看電影j的時(shí)長超過t,則pij為1,否則為0.
pij=1" if" fijgt;t0" if" fijlt;t(1)
對于隱式反饋模型,例如電影數(shù)據(jù)集,一般來說,看電影的時(shí)間越長,用戶的偏好度就越高.對于沒有看過的電影,可能是因?yàn)橛脩舨恢肋@部電影,或者沒有訪問過該電影,無法確定用戶對該電影的偏好.因此通過引入置信度[6]的概念,將更受用戶信任的項(xiàng)目賦予更大的權(quán)重,沒有反饋的項(xiàng)目則被賦予較小的權(quán)重.隨著越來越多的正向反饋信息的積累,置信度也會(huì)增加.置信度計(jì)算為:
cij=1+αfij(2)
式中:cij為置信度,1表示最低信任度;α為置信度系數(shù);fij為動(dòng)作頻率.
用戶-項(xiàng)目評分矩陣Rm×n可以通過m×k維的用戶潛在特征矩陣J和k×n維項(xiàng)目潛在特征矩陣F的乘積來近似,即Rm×n=Jm×kFTk×n.隱式反饋分解的損失函數(shù)為:
L(J,F(xiàn))=∑ijcij(pij-uTivj)2+γ(∑i‖ui‖2+
∑j‖vj‖2)(3)
式中:ui為用戶的隱式反饋偏好特征向量;vj為項(xiàng)目的隱式反饋偏好特征向量;用戶偏好pij為用戶和項(xiàng)目隱式反饋偏好特征向量的內(nèi)積,即pij=uTivj;γ為防止過擬合的正則化參數(shù);cij為置信度.訓(xùn)練的目標(biāo)是在評分矩陣R中通過最小化損失函數(shù)來求解特征向量ui和vj.由于ui和vj耦合在一起不容易求解,因此采用加權(quán)正則化交替最小二乘法[7]來訓(xùn)練模型,在求解式(3)時(shí),首先固定F來求解J,然后再將得到的J固定來求解F.交替執(zhí)行上述過程,直到誤差滿足閾值條件或達(dá)到迭代次數(shù)上限,具體表示如下:
ui=(Fk×nCin×nFTk×n+δE)-1Fk×nCin×npi(4)
vj=(Jk×mCjm×mJTk×m+δE)-1Jk×mCjm×mpj(5)
式中:Ci和Cj分別為用戶i的置信度矩陣的對角矩陣和項(xiàng)目j的置信度矩陣的對角矩陣;pi和pj分別為用戶i和項(xiàng)目j的置信度向量;δ為正則化參數(shù);E為單位矩陣.
1.2" 堆疊降噪自動(dòng)編碼器
降噪自動(dòng)編碼器(denoising autoencoder,DAE)是一種前饋神經(jīng)網(wǎng)絡(luò),其目的是利用加入噪聲的輸入數(shù)據(jù)來重構(gòu)原始數(shù)據(jù),以學(xué)習(xí)得到更為魯棒的映射函數(shù).DAE由編碼器組件和解碼器組件構(gòu)成,其中編碼器g(·)采用給定輸入s并將其映射到隱藏層表示,而解碼器f(·)將隱藏層表示映射回s的重構(gòu)版本,使得f(g(s))≈s.文獻(xiàn)[8]表明,將多個(gè)DAE堆疊在一起可以構(gòu)成一個(gè)深度網(wǎng)絡(luò),即堆疊降噪自動(dòng)編碼器(stacked denoising autoencoder,SDAE),其具有多層神經(jīng)網(wǎng)絡(luò),可以實(shí)現(xiàn)更豐富的表示,進(jìn)一步提升模型提取特征的能力.SDAE采用深度網(wǎng)絡(luò)來重建輸入,并最大程度地減少輸入與其重構(gòu)之間的平方損失.文獻(xiàn)[9]提出了一種SDAE的變體,即附加堆疊降噪自動(dòng)編碼器(additional stacked denoising autoencoder,aSDAE),既可以從輔助信息中提取有效的潛在特征,也能捕獲用戶和項(xiàng)目之間的隱含關(guān)系.若以L表示aSDAE模型的網(wǎng)絡(luò)層數(shù),那么網(wǎng)絡(luò)的前L / 2層便充當(dāng)模型的編碼器,而后L / 2層則充當(dāng)模型的解碼器.aSDAE的原始輸入是用戶或項(xiàng)目的評分向量和基本描述性信息.其中,基本描述性信息包括用戶個(gè)人信息和項(xiàng)目內(nèi)容信息.通過one-hot編碼,這些描述信息被表示為二進(jìn)制向量.對于源域中aSDAE模型來說,其隱藏層l的用戶所對應(yīng)輸出h(u)l可以通過以下方式獲得:
h(u)l=g(W(u)lh(u)l-1+Z(u)lX(u)i+b(u)l)(6)
R︿(u)k=f(W(u)kh(u)k+b(u)k)(7)
X︿(u)k=f(Z(u)kh(u)k+b(u)k)(8)
式中:l∈{1,2,…,k-1},k為網(wǎng)絡(luò)總層數(shù);g(·)和f(·)表示激活函數(shù);X(u)i為加噪后的用戶輔助信息;b(u)k為在第k層的偏置值;R︿(u)k為在第k層重構(gòu)輸入評分向量;X︿(u)k為輸出層重構(gòu)用戶輔助信息X;W1,…,Wk和Z1,…,Zk為權(quán)重矩陣;(u)為所處理的信息為用戶信息.
1.3" 跨域協(xié)同過濾和CBT模型
跨域推薦利用源域稠密評分矩陣中的相關(guān)信息,并通過共享其潛在的通用評分模式來預(yù)測用戶對稀疏目標(biāo)域的項(xiàng)目評分,以此來提高目標(biāo)域的推薦性能.文獻(xiàn)[10]提出的基于密碼本的知識遷移(codebook-based knowledge transfer,CBT)模型是跨域協(xié)同過濾中廣泛使用的模型.借助遷移學(xué)習(xí)方法,CBT模型通過擴(kuò)展密碼本的方式來重構(gòu)目標(biāo)域的評分模式,改善了目標(biāo)域評分模式的稀疏性.
CBT的整體學(xué)習(xí)過程是一個(gè)基于兩步的跨域協(xié)同過濾算法,即源域?qū)W習(xí)和目標(biāo)域適配.在第一步源域?qū)W習(xí)中首先基于正交非負(fù)矩陣三分解(orthogonal nonnegative matrix tri-factorization,ONMTF)方法學(xué)習(xí)評分模式[11],然后使用評分模式來構(gòu)建密碼本.CBT模型在源域?qū)W習(xí)階段輸出的是密碼本,也是第二階段遷移學(xué)習(xí)時(shí)進(jìn)行目標(biāo)域適配的輸入數(shù)據(jù). 第二步目標(biāo)域適配則利用目標(biāo)域中已有的評分,通過最小化重構(gòu)誤差來完成源域密碼本的擴(kuò)充.這樣,CBT模型借助于源域評分模式聚類得到的密碼本在目標(biāo)域中的擴(kuò)展,實(shí)現(xiàn)了源域和目標(biāo)域在特征空間中的評分模式共享.
CBT使用ONMTF方法來構(gòu)造密碼本.用戶-項(xiàng)目評分矩陣可以分解為3個(gè)因子的乘積,即 R=UHVT,其中U是用戶的聚類指標(biāo),V是項(xiàng)目的聚類指標(biāo),H是聚類級別的用戶項(xiàng)目評分模式.分解近似可以通過矩陣范數(shù)優(yōu)化來實(shí)現(xiàn):
minU≥0,V≥0,S≥0‖R-UHVT‖2F
s.t." UTU=I,VTV=I(9)
式中:R為評分矩陣;‖·‖F(xiàn)為Frobenius范數(shù);I為單位矩陣.
2" SICDR算法
2.1" SICDR算法框架
文中提出了一種深度融合輔助信息的跨域推薦方法,以提高目標(biāo)域的推薦精度并減少用戶反感項(xiàng)目的出現(xiàn).如圖1,類似于已有的協(xié)同過濾跨域推薦方法[12],提出的SICDR算法的基本框架包括源域潛在特征提取和目標(biāo)域評分矩陣重構(gòu)兩個(gè)部分.為了有效利用源域的評分信息和兩種輔助信息,即用戶和項(xiàng)目的內(nèi)容信息以及隱式反饋信息,在源域中將矩陣分解和SDAE相集成,以提取更有效的用戶和項(xiàng)目潛在特征,進(jìn)一步豐富源域信息.采用非完備正交非負(fù)矩陣三分解(incomplete orthogonal nonnegative matrix tri-factorization,IONMTF)方法建立源域和目標(biāo)域之間的關(guān)聯(lián),從而將源域中提取到的評分模式遷移到目標(biāo)域中,以提高目標(biāo)域的推薦準(zhǔn)確性.與已有的協(xié)同過濾跨域推薦方法相比,SICDR模型實(shí)現(xiàn)了多源信息的融合,同時(shí)利用了評分、內(nèi)容信息以及隱式反饋信息,豐富了用戶和項(xiàng)目潛在特征的語義信息,通過從非完備的源域遷移評分模式,有效緩解了目標(biāo)域中的數(shù)據(jù)稀疏問題.
2.2" 潛在特征提取
對于源域中給定評分矩陣Rs,矩陣的每一行表示每個(gè)用戶的評分向量,每一列則表示各項(xiàng)目的評分向量.假定以X和Y分別表示輔助信息中的用戶和項(xiàng)目基本描述性信息,這些評分向量以及輔助信息特征向量構(gòu)成了SDAE的基本輸入.用戶或項(xiàng)目的內(nèi)容信息被視為一個(gè)整體,通過直接導(dǎo)入到除輸出層之外的所有層來集成,并在每一層中都與評分向量一同處理,兩者的融合構(gòu)成了最后一層的重構(gòu)輸入向量.
文中同時(shí)訓(xùn)練兩個(gè)不同的SDAE模型,分別處理用戶和項(xiàng)目信息,中間層的輸出即為所要提取的用戶和項(xiàng)目的潛在因子.式(6~8)表示的是用戶信息的重構(gòu)方法.類似地,可以將這些公式中的(u)替換為(v),將用戶描述性信息X替換為項(xiàng)目屬性信息Y,可以對物品的SDAE獲得類似的結(jié)果.以這種方式,學(xué)習(xí)到的潛在因子不僅反映了項(xiàng)目的固有特征(從評分信息中提取),而且還反映了用戶偏好特征(從用戶和項(xiàng)目的內(nèi)容信息中提?。?
兩個(gè)SDAE的中間層是深度學(xué)習(xí)模型和矩陣分解之間連接的橋梁,同時(shí)這兩個(gè)中間層也是使深度協(xié)同過濾模型學(xué)習(xí)有效潛在因子并挖掘用戶和項(xiàng)目之間的相似性和關(guān)系的關(guān)鍵,因此通過SDAE中間層所提取的用戶和項(xiàng)目潛在特征與融合隱式反饋信息的矩陣分解相結(jié)合.由于要將兩個(gè)模型所提取的特征進(jìn)行融合,文中使用特征加權(quán)進(jìn)行特征融合,即在對兩個(gè)模型輸出信息加權(quán)后,取并集并使用權(quán)重來縮小兩個(gè)模型因子之間的差別.將SDAE和矩陣分解相集成得到的源域稠密評分矩陣R′s為:
R′s=(δh(u)k/2+(1-δ)ui)(δh(v)k/2+(1-δ)vj)T(10)
通過分別加權(quán)的方式對兩個(gè)模型所獲得的信息賦予不同的權(quán)重,然后將兩者以聯(lián)合的方式進(jìn)行組合,以獲得最終的預(yù)測稠密評分矩陣R′s,其中δ表示權(quán)重.
2.3" 目標(biāo)域重構(gòu)
文中采用IONMTF方法來構(gòu)造碼本,通過在原有損失函數(shù)中加入指示矩陣,松弛了原有方法對輸入數(shù)據(jù)的完備性限制,將評分模式學(xué)習(xí)的應(yīng)用場景從完備域擴(kuò)展到非完備域.IONMTF松弛了對源域矩陣的原始完整評分限制,極大地增加了源域可用數(shù)據(jù)集的數(shù)量.此外,它擴(kuò)大了源域數(shù)據(jù)的可選范圍和可用數(shù)據(jù)規(guī)模,并獲得比以往表示能力更強(qiáng)的碼本.文中用s表示源域,t表示目標(biāo)域,為了便于描述,將域的索引表示為d∈s,t.因此,IONMTF分解評分矩陣的損失函數(shù)為:
minUd≥0,Vd≥0,H≥0‖M°(R′d-UdHVTd)‖2F
s.t." UTdUd=I,VTdVd=I(11)
式中:Ud和Vd非負(fù)正交矩陣,分別為用戶和項(xiàng)目的類別索引矩陣;H為簇層次的用戶項(xiàng)目評分模式.添加矩陣M作為指示矩陣,當(dāng)Rd≠0時(shí)Mij=1,否則Mij=0.操作符°表示指示矩陣M和后面損失公式的哈達(dá)瑪積操作,它有助于在求解公式時(shí)避免矩陣中沒有評分項(xiàng)目的影響.
從源域提取評分模式后,通過將評分模式進(jìn)行聚類得到密碼本B為:
B=UTsRsVsUTs11TVs(12)
式中:為矩陣點(diǎn)除;1為Us,Vs對應(yīng)的全1矩陣.
目標(biāo)域基于已有評分對來自源域的密碼本進(jìn)行適配,目標(biāo)域中的缺失評分R′t為:
R′t=M°Rt+[1-M]°[UtBVTt](13)
式中:Rt為目標(biāo)域評分矩陣.
為了使預(yù)測值盡可能接近真實(shí)值,通過最小化SICDR目標(biāo)函數(shù),以使得用戶預(yù)測評分與原始評分之間的誤差平方盡可能小.
SICDR模型的總體損失包括3部分:源域輸入信息的重構(gòu)損失;深度學(xué)習(xí)特征向量和矩陣分解特征向量融合的近似誤差;源域和目標(biāo)域中對評分矩陣進(jìn)行非完備正交非負(fù)矩陣三分解的損失.
首先,源域中所有輸入信息的重構(gòu)損失Ls為:
Ls=∑i,jN(Rs-UsVTs)2+α∑i(R(u)-R︿(u))2+
(1-α)∑i(X-X︿)2+β∑j(R(v)-R︿(v))2+
(1-β)∑j(Y-Y︿)2+∑ijcij(pij-uTivj)2(14)
其中第一項(xiàng)為評分矩陣的分解項(xiàng),N是指示矩陣.第二項(xiàng)和第三項(xiàng)是SDAE模型的損失函數(shù),α,β是權(quán)重參數(shù),用于平衡重構(gòu)誤差.最后一項(xiàng)表示矩陣分解中融入隱式反饋信息的損失函數(shù).
深度學(xué)習(xí)特征向量和矩陣分解特征向量融合的近似誤差La為:
La=∑sρ∑i(Us-h(u)l,i)2+∑sφ∑j(Vs-h(v)l,j)2(15)
式中:ρ,φ為懲罰參數(shù).
此外,源域和目標(biāo)域中對評分矩陣進(jìn)行非完備正交非負(fù)矩陣三分解的損失Lm為:
Lm=∑d∈{s,t}‖M°(Rd-UdHVTd)‖2(16)
式中:H為源域中提取的評分模式.如果Rd(i,j)有評分,則M=1,否則M=0.
因此,SICDR模型的整體損失函數(shù)L為:
L=Ls+La+Lm+γ·freg(17)
式中:γ為正則化參數(shù),freg為防止過擬合的正則化項(xiàng),即
freg=∑l(W(u)l2F+V(u)l2F+b(u)l2F+W(v)l2F+
V(v)l2F+b(v)l2F)+∑uUs2F+∑vVs2F+
∑i‖ui‖2+∑j‖vj‖2(18)
式中:W(u)l,V(u)l,W(v)l,V(v)l為l層的權(quán)重矩陣;b(u)l,b(v)l為對應(yīng)的偏置向量.
2.4" SICDR算法實(shí)現(xiàn)機(jī)制
文中提出的SICDR模型包括兩個(gè)階段.在第一階段,首先在源域中使用深度學(xué)習(xí)模型SDAE提取潛在特征,然后將深度學(xué)習(xí)模型所學(xué)到的特征與矩陣分解所學(xué)到的特征集成在一起,以生成一個(gè)更加稠密的源域評分矩陣.在第二階段,采用IONMTF將源域中的密集的用戶和項(xiàng)目評分矩陣共同聚類到一個(gè)公共評分模式,生成密碼本.接著,通過迭代方式更新Ut和Vt,將源域中學(xué)習(xí)到的評分模式遷移到目標(biāo)域中進(jìn)行適配,以實(shí)現(xiàn)評分模式近似和目標(biāo)域評分矩陣的重構(gòu),從而實(shí)現(xiàn)協(xié)同過濾跨域推薦.協(xié)同過濾跨域推薦的詳細(xì)過程如算法1.
算法1 SICDR算法
輸入:源域評分矩陣Rs,源域評分矩陣Rt,用戶輔助信息X,項(xiàng)目輔助信息Y,迭代次數(shù)Iter,用戶簇和項(xiàng)目簇的維度n
輸出:目標(biāo)域預(yù)測評分矩陣R′t
1:" for it = 1 to Iter do
2:" for 用戶i對項(xiàng)目j的評分:
3:" 組合R(u),Y(u)作為項(xiàng)目特征網(wǎng)絡(luò)提取的輸入
4:" 組合R(v),Y(v)作為項(xiàng)目特征網(wǎng)絡(luò)提取的輸入
5:" 根據(jù)式(4,5)得到用戶和項(xiàng)目的隱式反饋向量
6:" 由式(6)得到SDAE提取的用戶和項(xiàng)目特征
7:" end for
8:" 利用反向傳播算法優(yōu)化兩個(gè)SDAE參數(shù)
9:" R′s←(δh(u)k/2+(1-δ)ui)(δh(v)k/2+(1-δ)vj)T預(yù)測源域評分矩陣R′s
10:end for
11:根據(jù)式(11)將預(yù)測評分矩陣R′s分解為Us,H,Vs,通過式(12)計(jì)算得到N維密碼本B
12:for n←1…N do
13:為Ut 和 Vt分配存儲(chǔ)空間,并初始化Vt
14:end for
15:minU≥0,V≥0,H≥0‖M°(Rs-UsHVTs)‖2F" 迭代更新
16:R′t←M°Rt+[1-M]°[UtBVTt]獲得目標(biāo)域預(yù)測評分矩陣
3" 實(shí)驗(yàn)結(jié)果及分析
3.1" 數(shù)據(jù)集
文中使用3個(gè)公共數(shù)據(jù)集來評估SICDR模型的性能.MovieLens-100K(MLK)數(shù)據(jù)集包括943個(gè)用戶和1 682部電影的100K評分,MovieLens-1M(MLM)數(shù)據(jù)集包含6 040個(gè)用戶和3 706部電影的約100萬個(gè)評分,它們是從不同年份收集的,每個(gè)評分是1(最差)到5(最好)之間的整數(shù).用戶的輔助信息包括用戶的性別、年齡和職業(yè)等,項(xiàng)目的輔助信息包括電影名稱、類別以及發(fā)行日期等.BookCrossing(BC)數(shù)據(jù)集包含1 149 780本書和278 858個(gè)用戶,其中評分是0~10的整數(shù),它還包含用戶和書籍的一些屬性信息,并將其作為輔助信息加以利用.由于這些數(shù)據(jù)集中沒有評論信息,文中利用元數(shù)據(jù)集中的電影名來匹配亞馬遜數(shù)據(jù)集上的相應(yīng)評論信息,在電影名和圖書名上應(yīng)用詞嵌入技術(shù)而不是對評論信息進(jìn)行處理.
將數(shù)據(jù)集分為兩對,即MLK(s)與MLM(t),MLK(s)與BC(t),其中一個(gè)充當(dāng)源域(s),另一個(gè)充當(dāng)目標(biāo)域(t).訓(xùn)練4種基線模型時(shí),均使用不同百分比(60%,80%和95%)的評分來訓(xùn)練.首先從整個(gè)數(shù)據(jù)集中隨機(jī)選擇訓(xùn)練數(shù)據(jù)集,然后將其余數(shù)據(jù)用作測試數(shù)據(jù)集.使用隨機(jī)選擇的不同訓(xùn)練數(shù)據(jù)進(jìn)行重復(fù)訓(xùn)練以評估模型性能,并報(bào)告平均表現(xiàn).
3.2" 評估指標(biāo)
文中使用均方根誤差(root mean square error,RMSE),平均絕對誤差(mean absolute error,MAE)以及召回率(Recall@K)作為評價(jià)指標(biāo),分別定義為:
RMSE=" 1T∑Rij∈T(Rij-R︿ij)2(19)
MAE=1T∑Rij∈T|Rij-R︿ij|(20)
式中:Rij為用戶i在項(xiàng)目j上的實(shí)際評分;R︿ij為其相對應(yīng)的預(yù)測評分;T為測試集;T是測試集中的評分總數(shù).
Recall@K=NumberofHits@K|Ts|(21)
式中:NumberofHits@K為列表中的測試項(xiàng)的數(shù)量;Ts為用戶喜歡的項(xiàng)目總數(shù).將所有用戶的平均召回率作為最終的度量結(jié)果.
3.3" 基準(zhǔn)算法
為了評估SICDR模型的性能,文中選擇以下方法作為基線進(jìn)行比較.
PMF-概率矩陣分解[13]是將用戶-項(xiàng)目矩陣分解為用戶和項(xiàng)目因子的有效模型,該模型通過高斯分布對用戶和項(xiàng)目的潛在因素進(jìn)行建模.
CMF -集體矩陣分解[14]通過同時(shí)分解多個(gè)矩陣來合并不同的信息源,以共享實(shí)體潛在因子的方式實(shí)現(xiàn)推薦.
aSDAE-附加堆疊降噪自動(dòng)編碼器[9]是一個(gè)單域模型,其中輔助信息和評分信息都通過使用自動(dòng)編碼器進(jìn)行融合.
RC-DFM -深度混合模型[15]首先利用堆疊降噪自動(dòng)編碼器提取用戶項(xiàng)目潛在因子,然后利用MLP將潛在因子從源域映射到目標(biāo)域.
3.4" 實(shí)驗(yàn)比較和分析
表1,2分別顯示了在兩對數(shù)據(jù)集上PMF,CMF,aSDAE,RC-DFM和SICDR模型的平均RMSE和MAE,其中每對數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果最低值以粗體突出顯示.
從表1,2中可以看出,與PMF和CMF相比使用深度學(xué)習(xí)模型提取潛在特征的aSDAE,RC-DFM和SICDR模型的性能更好,證明了融合輔助信息的有效性以及深層結(jié)構(gòu)可以更好地提取輔助信息中的潛在特征.跨域推薦RC-DFM和SICDR較單域推薦PMF和aSDAE而言,性能得到顯著提升,表明跨域推薦可以更好的解決相關(guān)領(lǐng)域的數(shù)據(jù)稀疏性問題.SICDR和RC-DFM的RMSE和MAE較為接近,兩者同為跨域推薦且融合了輔助信息,而SICDR結(jié)果略優(yōu)于RC-DFM,表明跨域推薦中融入隱式反饋可以提高推薦的準(zhǔn)確性,驗(yàn)證了特征提取對緩解高度稀疏評分的有效性.與其他模型對比,文中提出的SICDR模型取得了較好的優(yōu)勢,這證明了深度學(xué)習(xí)模型和正交非負(fù)矩陣三分解集成的有效性.
此外,就RMSE和MAE而言,SICDR模型在MLK(s)與MLM(t)數(shù)據(jù)對上的性能優(yōu)于MLK(s)與BC(t).這表明源域MovieLens-100K與目標(biāo)域MovieLens-1M之間具有比目標(biāo)域BookCrossing更多的共同特征,也就是說BookCrossing數(shù)據(jù)集和MovieLens-100K數(shù)據(jù)集之間相差較大,而遷移學(xué)習(xí)能從更相近的領(lǐng)域中傳輸更多的信息.
圖2顯示了在MovieLens-100K數(shù)據(jù)集上60%和80%訓(xùn)練數(shù)據(jù)下的Recall@K結(jié)果,可以看出PMF是性能最差的模型,因?yàn)樗狈︻~外的輔助信息,無法做出較為合理的推薦.
此外,CMF的性能比aSDAE、RC-DFM和SICDR略差,這是因?yàn)楫?dāng)它的輔助信息較為稀疏,CMF可能無法正常工作.而SICDR模型比aSDAE和RC-DFM實(shí)現(xiàn)了更好的性能,它將融合輔助信息的SDAE模型與矩陣分解相結(jié)合,可以更好地處理稀疏的評分信息和輔助信息,并學(xué)習(xí)有效的用戶和項(xiàng)目的潛在因子,從而提供更準(zhǔn)確的推薦.
一般來說,在分析Recall@K結(jié)果時(shí),從RMSE 和MAE得出的結(jié)論基本保持不變.此外,觀察到 aSDAE和RC-DFM有很大的重疊,因?yàn)樗鼈冊?Recall@K方面屬于同一類.發(fā)生重疊是由于模型的影響小于數(shù)據(jù)結(jié)構(gòu)的影響.盡管如此,無論K在10~50發(fā)生什么變化,SICDR模型在所有情況下都優(yōu)于基線.
綜上所述,與幾個(gè)相關(guān)模型的性能相比,文中提出的SICDR模型具有明顯的優(yōu)勢,證明了其有效性.同時(shí),當(dāng)訓(xùn)練數(shù)據(jù)的百分比減少時(shí),下降變得顯著,這表明使用遷移學(xué)習(xí)進(jìn)行跨域推薦的有效性.
4" 結(jié)論
(1) 提出了一種深度融合輔助信息的跨域推薦模型,稱為SICDR.它將矩陣分解和深度學(xué)習(xí)模型SDAE相集成,并實(shí)現(xiàn)了跨域推薦.SICDR模型可以從用戶-項(xiàng)目評分矩陣和輔助信息中學(xué)習(xí)有效的潛在因子,通過這種方式學(xué)習(xí)的潛在因子可以保留更多的語義信息,并且通過從不完備的源域遷移評分模式來緩解目標(biāo)域中的數(shù)據(jù)稀疏問題.
(2) 以協(xié)同過濾和遷移學(xué)習(xí)相結(jié)合的評分模式,逼近目標(biāo)域并預(yù)測目標(biāo)評分矩陣缺失值.SICDR模型一方面利用反饋信息降低了用戶厭惡信息在推薦列表中出現(xiàn)的概率,另一方面通過非完備正交非負(fù)矩陣三分解在相關(guān)領(lǐng)域進(jìn)行知識遷移,擴(kuò)大了輔助信息的使用,改善了信息的稀疏性,提升了用戶體驗(yàn).
參考文獻(xiàn)(References)
[1]" SHI Y , LARSON M , HANJALIC A . Collaborative filtering beyond the user-item matrix: A survey of the state of the art and future challenges[J]. ACM Computing Surveys (CSUR), 2014, 47(1):1-45.
[2]" CHEN S, PENG Y. Matrix factorization for recommendation with explicit and implicit feedback[J]. Knowledge-Based Systems, 2018, 158:109-117.
[3]" HU G , YU Z , QIANG Y . MTNet: A Neural Approach for Cross-Domain Recommendation with Unstructured Text[C]∥KDD Deep Learning Day.USA:ACM,2018:1-10.
[4]" LI S, KAWALE J, FU Y. Deep collaborative filtering via marginalized denoising auto-encoder[C]∥In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management.USA:ACM,2015:811-820.
[5]" MING H, ZHANG J, PENG Y, et al. Robust transfer learning for cross-domain collaborative filtering using multiple rating patterns approximation[C]∥The Eleventh ACM International Conference. USA:ACM, 2018:225-233.
[6]" HU Y , KOREN Y , VOLINSKY C . Collaborative filtering for implicit feedback datasets[C]∥ Eighth IEEE International Conference on Data Mining.USA: IEEE, 2009: 10472159.
[7]" XIAO X , YAN R , TAN D . Recommendation algorithm based on explicit and implicit feedback matrix factorization[C]∥ 2019 4th International Conference on Mechanical, Control and Computer Engineering (ICMCCE). USA:IEEE, 2019:903-906.
[8]" VINCENT P, LAROCHELLE H, LAJOIE I,et al. Manzagol. stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research,2010, 11(12):3371-3408.
[9]" DONG X, YU L, WU Z H, et al. A hybrid collaborative filtering model with deep structure for recommender systems[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. USA:AAAI, 2017:1309-1315.
[10]" LI B , YANG Q , XUE X . Can movies and books collaborate? Cross-domain collaborative filtering for sparsity reduction[C]∥ Proceedings of the 21st International Joint Conference on Artificial Intelligence. USA: IJCAI, 2009,38(4):2052-2057.
[11]" JI K,SUN R Y, LI X,et al. Improving matrix approximation for recommendation via a clustering-based reconstructive method[J]. Neurocomputing, 2016,173(3): 912-920.
[12]" MING H , ZHANG J , ZHANG S Z . ACTL: Adaptive codebook transfer learning for cross-domain recommendation[J]. IEEE Access, 2019,7:19539-19549.
[13]" SALAKHUTDINOV R, MNIH A. Probabilistic matrix factorization[C]∥ Proceedings of the Twenty-First Annual Conference on Neural Information Processing Systems.USA:NIPS, 2007:1257-1264.
[14]" SINGH A P, GORDON G J. Relational learning via collective matrix factorization[C]∥ ACM Sigkdd International Conference on Knowledge Discovery amp; Data Mining. USA:ACM, 2008:650-658.
[15]" FU W J, PENG Z H, WANG S Z, et al. Deeply fusing reviews and contents for cold start users in cross-domain recommendation systems[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2019,33(1):94-101.
(責(zé)任編輯:曹莉)