摘要:針對跨領(lǐng)域項(xiàng)目推薦過程中用戶興趣稀疏造成的推薦冷啟動問題,提出一種基于混合興趣主題模型興趣領(lǐng)域潛在狄利克雷分布(PA-LDA)的推薦方法。PA-LDA使用興趣潛在狄利克雷分布(P-LDA)模塊挖掘用戶歷史行為數(shù)據(jù),生成關(guān)于目標(biāo)項(xiàng)目中興趣主題的概率分布,綜合考慮主題和項(xiàng)目內(nèi)容詞對興趣的影響進(jìn)行參數(shù)估計建模,得到用戶對目標(biāo)項(xiàng)目的興趣評價。PA-LDA使用領(lǐng)域潛在狄利克雷分布(A-LDA)得到領(lǐng)域?qū)?xiàng)目目標(biāo)的興趣評價,混合兩類興趣評價,使用top-k方法推薦目標(biāo)項(xiàng)目。在EdX和GCSE兩組真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證方法的有效性和準(zhǔn)確性。研究結(jié)果表明:PA-LDA可以有效解釋用戶興趣和領(lǐng)域興趣對項(xiàng)目推薦的作用原理,實(shí)現(xiàn)多維領(lǐng)域推薦的興趣特征捕捉,提升推薦的適應(yīng)性與準(zhǔn)確性。
關(guān)鍵詞:主題模型;用戶興趣;領(lǐng)域興趣;興趣混合;top-k推薦
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1008-0562(2024)02-0241-07
0 引言
“信息過載”帶來的信息過速增長引發(fā)了選擇困惑和決斷失效問題。通常,可以使用個性化推薦方法,根據(jù)用戶的需求,結(jié)合用戶本身的興趣偏好因素,為用戶推薦最適合的項(xiàng)。但是,當(dāng)用戶涉獵到陌生領(lǐng)域時,由于用戶留存的歷史信息較少,形成用戶興趣的稀疏現(xiàn)象,從而造成推薦的冷啟動問題。
目前,針對個性化推薦的研究和理論方法較多,與本研究聯(lián)系最為緊密的推薦方法包括協(xié)同過濾方法和主題建模方法兩類。協(xié)同過濾是一種經(jīng)典的基于鄰域信息相似度的推薦方法,可以根據(jù)鄰域的興趣偏好對用戶興趣進(jìn)行估計和行為過濾,根據(jù)行為特征的相似性進(jìn)行推薦,主要包括基于項(xiàng)目的協(xié)同過濾、基于內(nèi)容的協(xié)同過濾和基于模型的協(xié)同過濾。主題建模是一種通過用戶行為信息的單詞分布,推測主題屬類和關(guān)聯(lián)強(qiáng)度的關(guān)系分析方法,可用來分析推薦過程中各類要素對推薦結(jié)果的影響強(qiáng)度。其中最具代表性的是NEWMAN等提出的LDA模型,在此基礎(chǔ)上,MEI等提出了面向領(lǐng)域的建模方法。隨著數(shù)據(jù)分析和人工智能的快速發(fā)展,智能推薦模型被不斷引入,極大地提升了推薦的準(zhǔn)確性和推薦效率。這些方法可以捕捉淺層次語義信息,但缺乏對興趣特征在深層次重疊語義信息的表達(dá),造成推薦項(xiàng)目的遺漏,降低推薦的準(zhǔn)確性。
因此,對于本文所研究的跨領(lǐng)域推薦問題,需要綜合考慮用戶興趣和領(lǐng)域興趣對項(xiàng)目推薦的影響,在研究項(xiàng)目推薦的過程中包含2個挑戰(zhàn)問題:
(1)如何從領(lǐng)域和用戶信息中,抽取得到領(lǐng)域和用戶的興趣特征,進(jìn)行準(zhǔn)確的形象刻畫。
(2)如何將領(lǐng)域興趣和用戶興趣進(jìn)行匹配融合,需要分析領(lǐng)域、用戶、項(xiàng)目特征要素之間的關(guān)聯(lián)關(guān)系,進(jìn)而將興趣進(jìn)行混合,提高推薦的準(zhǔn)確性。
針對上述挑戰(zhàn),本研究對跨領(lǐng)域興趣可表達(dá)性和興趣融合交互性的基本原理和方法進(jìn)行解釋和分析。具體地,對于用戶熟悉的領(lǐng)域,可以使用用戶興趣和領(lǐng)域興趣實(shí)施推薦;對于用戶陌生的領(lǐng)域,可以使用領(lǐng)域興趣作為輔助信息,幫助引導(dǎo)興趣實(shí)施推薦,從而解決因用戶興趣缺少而造成的推薦冷啟動問題。
基于此,本文提出一種基于混合興趣模型PA-LDA的推薦方法。模型通過P-LDA模塊和A-LDA模塊分別對用戶和領(lǐng)域進(jìn)行興趣主題的抽取,進(jìn)而對用戶興趣和領(lǐng)域興趣進(jìn)行混合表達(dá),然后使用top-k方法,進(jìn)行個性化的匹配推薦,彌補(bǔ)推薦過程中的興趣缺失問題。PA-LDA在推薦過程中充分考慮用戶自身興趣和領(lǐng)域興趣對項(xiàng)目推薦影響,用以解決用戶在陌生領(lǐng)域項(xiàng)目推薦過程中產(chǎn)生的數(shù)據(jù)稀疏問題。
1 跨領(lǐng)域混合推薦
本文研究的是跨領(lǐng)域的用戶一領(lǐng)域一項(xiàng)目推薦,是個性化推薦范疇內(nèi)的經(jīng)典問題。首先,給出推薦問題中所使用的各類資源定義。
定義1 項(xiàng)目。對于某一特定領(lǐng)域,vi表示該領(lǐng)域中的一個項(xiàng)目,項(xiàng)目代表現(xiàn)實(shí)生活中一個商品、一條新聞等。對于領(lǐng)域V,有V={vi|i∈[1,|V|]},|V|表示領(lǐng)域V中的項(xiàng)目總數(shù)。
定義2 用戶。uj表示使用推薦系統(tǒng)的用戶。用戶集合為U={uj,|j∈[1,|U|]},|U|表示用戶總數(shù)。
定義3 項(xiàng)目記錄。歷史記錄,表示為三元組I=(u,v,V),I表示用戶u所擁有的領(lǐng)域V中的項(xiàng)目資源v。
定義4 內(nèi)容詞。cv表示與項(xiàng)目v相關(guān)的一個詞,代表項(xiàng)目的一個特征屬性。Cv表示關(guān)鍵詞集合,包含了項(xiàng)目v中的所有特征屬性,有Cv= {cvi|i∈[1,|Cv|]},|Cv|表示項(xiàng)目v中包含的特征總數(shù)。
定義5 歷史記錄。對于任一用戶u,歷史記錄duv定義為四元組duv=(u,v,V,cv),表示用戶u針對領(lǐng)域V中的項(xiàng)目v,關(guān)注的特征屬性cv。用戶可能關(guān)注該項(xiàng)目的多個特征屬性,記作項(xiàng)目歷史記錄Duv={(u,v,V,cv)|cv∈Cv)}。一個用戶“關(guān)注多個項(xiàng)目的多個特征屬性的情況,記作用戶項(xiàng)目歷史記錄集D={Duv|v∈V}。對于所有用戶,全體歷史記錄集記作D={Du|u∈U}。
定義6 主題。z表示項(xiàng)目、領(lǐng)域包含的主題內(nèi)容,可以表示領(lǐng)域、用戶對項(xiàng)目的興趣。一個領(lǐng)域中可以包含多個主題z,一個主題z也可以包含多個領(lǐng)域,主題與領(lǐng)域是多對多的關(guān)系。主題與用戶和項(xiàng)目之間的關(guān)系也是多對多的關(guān)系。Z為主題集,|Z|為主題的總數(shù)。Φz表示項(xiàng)目v關(guān)于主題z的概率分布,則{P(v|Φ~z)|v∈V}為領(lǐng)域中項(xiàng)目v關(guān)于主題z的概率,表示了主題z對于領(lǐng)域V的影響情況。P(v|Φz)越大,說明用戶在關(guān)注領(lǐng)域V中的項(xiàng)目時,受到主題z的影響越大,對主題z的興趣也越高。同樣,興趣也會對項(xiàng)目的內(nèi)容詞產(chǎn)生影響。因此,把Φ'z作內(nèi)容詞cv關(guān)于主題z的分布概率。Φz與Φ'z相互影響,相互增強(qiáng),有助于將內(nèi)容相似的項(xiàng)目集成到同一主題中。
定義7 用戶興趣。每個用戶u有自己的興趣偏好,記作0,是u關(guān)于主題的概率分布。
定義8 領(lǐng)域興趣。每個領(lǐng)域都體現(xiàn)出對特定項(xiàng)目的興趣偏好,記作θ'v。θ'v有助于找出領(lǐng)域中的熱門項(xiàng)目情況。
基于上述定義,對興趣領(lǐng)域的主題生成過程和興趣混合過程進(jìn)行描述。
2 混合興趣主題模型PA-LDA
從用戶個人和全體歷史記錄集可以分別得到用戶個人和領(lǐng)域的興趣偏好,作為項(xiàng)目推薦的準(zhǔn)備信息。為了對歷史記錄中的興趣主題進(jìn)行生成建模,提出了一種混合興趣主題模型PA-LDA,由用戶興趣模塊P-LDA和領(lǐng)域興趣模塊A-LDA組成。
GCSE數(shù)據(jù)集是Google (https://www.gcse.com/)自定義搜索引擎(GCSE)的學(xué)習(xí)數(shù)據(jù),包含5 668位專業(yè)人員的15 744課時MOOC條目。實(shí)驗(yàn)使用人工實(shí)際測試的真實(shí)數(shù)據(jù),包含英語、法語、德語的講稿、單詞、拼寫類型的學(xué)習(xí)狀況,設(shè)計57名參與者進(jìn)行學(xué)習(xí)跟蹤,采集得到學(xué)習(xí)數(shù)據(jù)1 127條。
(2)對比方法
用戶話題模型(user-topic model,UT) :參照作者一主題(AT)模型設(shè)計的用戶興趣主題生成模型。
個性化推薦模型(personalized recommendationmodel,PRM)[2]:在正態(tài)分布下使用交互矩陣分析用戶興趣與潛在興趣,從而進(jìn)行推薦。
基于類型的K近鄰模型(category-based K-nearestneighbors,CKNN) :基于類型的KNN算法將用戶的歷史記錄進(jìn)行分類建模的推薦方法。
基于項(xiàng)目的K近鄰模型(item-based K-nearestneighbors,IKNN):基于項(xiàng)目的KNN算法,通過用戶擁有項(xiàng)目的相似性進(jìn)行項(xiàng)目推薦。
P-LDA:作為PA-LDA的組成部分,只考慮用戶興趣對項(xiàng)目推薦的影響。
A-LDA:作為PA-LDA的組成部分,只考慮領(lǐng)域興趣對項(xiàng)目推薦的影響。
(3)評價方法和指標(biāo)
把歷史記錄集D劃分為數(shù)據(jù)集Dtrain和測試集Dtest兩部分,劃分比例為80%和20%。評價方法為
式中:R為召回率;TP為預(yù)測的正確樣本的命中次數(shù);|Dtest|為測試集Dtest的總記錄數(shù)。
4.2 實(shí)驗(yàn)結(jié)果及分析
本部分通過實(shí)驗(yàn)對比,討論P(yáng)A-LDA的總體性能和主題變化時方法的可擴(kuò)展性。
(1)召回率
不同方法在數(shù)據(jù)集EdX和GCSE上,分別針對用戶熟悉領(lǐng)域和陌生領(lǐng)域,進(jìn)行top-k項(xiàng)目推薦時的召回率對比見圖2。k大于8時,PA-LDA的召回率增長速度趨于穩(wěn)定,說明此時PA-LDA的推薦效果變得更加可靠。在4組實(shí)驗(yàn)中,PA-LDA的召回率優(yōu)于其他方法,驗(yàn)證了PA-LDA推薦項(xiàng)目的有效性和準(zhǔn)確性。對于熟悉領(lǐng)域,PA-LDA能夠更準(zhǔn)確地捕捉到個人興趣,使得推薦更具個性化,符合用戶興趣偏好;在陌生領(lǐng)域中,即使缺少了個人興趣的參與,PA-LDA也可以根據(jù)領(lǐng)域熱度進(jìn)行合理推薦。IKNN和CKNN方法缺少對內(nèi)容詞的分析,使推薦結(jié)果中遺漏了很多內(nèi)容相似的項(xiàng)目,從而降低了推薦結(jié)果的準(zhǔn)確性。PRM雖然考慮了用戶和領(lǐng)域興趣的相互作用,但是由于比較依賴交互矩陣的作用,當(dāng)k大于10時,由于交互信息的減少,召回率降低。
(2)主題數(shù)量變化時的召回率
本實(shí)驗(yàn)考慮主題數(shù)量對推薦結(jié)果的影響,分別設(shè)置主題數(shù)為50、100、150、200,觀察PA-LDA各部分推薦結(jié)果情況。主題數(shù)量變化時的PA-LDA各模塊召回率見圖3。由圖3可知,對于每個模型,主題數(shù)從50增加到200,對推薦結(jié)果的影響效果并不明顯。這是因?yàn)樯鲜?種主題設(shè)置中,均包含了必要的關(guān)鍵主題。當(dāng)主題數(shù)量從50增加到200時,只是增加了非關(guān)鍵的次要主題,它們的概率分布Φ、Φ'都比較小,使得這些次要主題對興趣的影響并不敏感。對比圖3(a)~圖3 (c),3個模型推薦的準(zhǔn)確度大小排序?yàn)镻A-LDAgt;P-LDAgt;A-LDA,可見綜合考慮用戶興趣和領(lǐng)域興趣的PA-LDA模型推薦效果最好。
本實(shí)驗(yàn)的結(jié)果說明在推薦過程中,推薦效果主要受到關(guān)鍵主題的影響。除關(guān)鍵主題外,添加其他的次要主題對推薦效果影響不大。
5 結(jié)論
(1)本文針對跨領(lǐng)域推薦時的冷啟動問題,提出一種基于混合興趣主題模型的PA-LDA的推薦方法,通過使用PA-LDA將用戶興趣和領(lǐng)域興趣進(jìn)行融合.既可以針對用戶個人興趣實(shí)現(xiàn)個性化推薦,也可以融合領(lǐng)域興趣對個人興趣進(jìn)行補(bǔ)充,避免由于興趣缺失而造成的冷啟動問題。最后,通過大量實(shí)驗(yàn),證明了本文所提出的方法的有效性和準(zhǔn)確性。
(2)未來的工作中需要考慮用戶、項(xiàng)目、領(lǐng)域的內(nèi)部要素之間的關(guān)聯(lián)關(guān)系,進(jìn)一步增強(qiáng)推薦的準(zhǔn)確性,同時提高推薦效率。
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(71771111)