陳雅茜, 劉韜, 方詩(shī)虹
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 四川 成都 610041)
推薦系統(tǒng)及其相關(guān)技術(shù)研究
陳雅茜, 劉韜, 方詩(shī)虹
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 四川 成都 610041)
在介紹推薦系統(tǒng)的定義和分類(lèi)的基礎(chǔ)上, 深入討論現(xiàn)有推薦系統(tǒng)普遍存在的問(wèn)題, 并提出了相應(yīng)的改進(jìn)策略:結(jié)合上下文信息; 支持基于多標(biāo)準(zhǔn)推薦算法; 在保證推薦精度的同時(shí)兼顧推薦的多樣性; 加強(qiáng)交互界面設(shè)計(jì), 提高系統(tǒng)邏輯的透明度; 支持包括推薦包在內(nèi)的多種推薦模式. 我們相信這些策略有助于提高推薦質(zhì)量, 激發(fā)用戶(hù)的參與度, 從而增強(qiáng)推薦系統(tǒng)的實(shí)際可用性.
推薦系統(tǒng); 個(gè)性化推薦; 電子商務(wù); 協(xié)同過(guò)濾
近年來(lái)推薦系統(tǒng)得到了快速發(fā)展. 一些商業(yè)網(wǎng)站如Amazon.com、淘寶等早已引入推薦系統(tǒng)幫助用戶(hù)快速找到合適產(chǎn)品, 刺激用戶(hù)消費(fèi), 從而提高產(chǎn)品銷(xiāo)量. 盡管推薦系統(tǒng)已得到了飛速發(fā)展, 但仍存在評(píng)分稀疏性、冷啟動(dòng)等普遍問(wèn)題. 因此有必要對(duì)現(xiàn)有推薦系統(tǒng)進(jìn)行改進(jìn).
本文對(duì)推薦系統(tǒng)及其相關(guān)技術(shù)做了全面的調(diào)查和分析. 第一節(jié)和第二節(jié)分別介紹推薦系統(tǒng)的定義、分類(lèi)和相關(guān)技術(shù), 第三節(jié)深入討論現(xiàn)有推薦系統(tǒng)的普遍問(wèn)題并給出相應(yīng)的解決方案.
推薦系統(tǒng)是一門(mén)交叉性的研究課題, 涉及認(rèn)知科學(xué)、信息檢索、電子商務(wù)、消費(fèi)心理學(xué)等眾多研究領(lǐng)域[1]. 推薦系統(tǒng)根據(jù)用戶(hù)的愛(ài)好和需求, 使用某種推薦策略向用戶(hù)推薦適合的對(duì)象[2-4]. 推薦系統(tǒng)的規(guī)范定義如下[5]: 令C為所有用戶(hù)的集合, S為所有可供推薦的對(duì)象的集合. 令u為度量對(duì)象s對(duì)用戶(hù)c有用性的效用函數(shù), 即 u: C×S→R, 其中R為非負(fù)實(shí)數(shù)的有限序集. 對(duì)每個(gè)用戶(hù)c∈C, 系統(tǒng)理論上應(yīng)推薦效用度最大的對(duì)象s’∈S:
由于u可由用戶(hù)對(duì)已嘗試對(duì)象的評(píng)分來(lái)表示, 所以推薦系統(tǒng)可以根據(jù)評(píng)分來(lái)推測(cè)用戶(hù)對(duì)未嘗試對(duì)象的評(píng)分,然后向用戶(hù)推薦預(yù)測(cè)評(píng)分最高的對(duì)象. 常用評(píng)分推測(cè)方法有機(jī)器學(xué)習(xí)和逼近理論等.
根據(jù)對(duì)效用度u不同的定義和獲取方式, 可將推薦系統(tǒng)分為基于內(nèi)容(content-based)、基于協(xié)同過(guò)濾(Collaborative Filtering, CF)和混合型(hybrid)等三類(lèi)推薦系統(tǒng).
2.1 基于內(nèi)容的推薦系統(tǒng)
基于內(nèi)容的推薦系統(tǒng)通過(guò)分析用戶(hù)嘗試過(guò)且喜愛(ài)的對(duì)象來(lái)推薦其它相似的對(duì)象. 內(nèi)容通常表示為該對(duì)象的多個(gè)關(guān)鍵字, 如一本書(shū)的作者、出版日期等. 對(duì)象s對(duì)于用戶(hù)c的效用度u可以用其關(guān)鍵字權(quán)值表示, 如詞頻/
倒排文檔頻率(TF-IDF).
對(duì)象oj的內(nèi)容可以定義為一個(gè)關(guān)鍵字權(quán)值向量: Content(oj)=(w1j,…, wkj). 該向量可表示基于內(nèi)容的用戶(hù)模型(ContentBasedProfile). 效用函數(shù)u(c, s)可定義為公式2[5], 系統(tǒng)優(yōu)先推薦效用度大的對(duì)象. 其中score的計(jì)算方法有多種, 如余弦?jiàn)A角向量距離[6].
u(c, s)=score(ContentBasedProfile(c), Content(s)) . (2)
除基于預(yù)定義的效用公式外, 數(shù)據(jù)挖掘技術(shù)可從數(shù)據(jù)中獲取模式(model)從而實(shí)現(xiàn)基于內(nèi)容的推薦. 常用的數(shù)據(jù)挖掘技術(shù)有貝葉斯分類(lèi)器[7]、決策樹(shù)以及人工神經(jīng)網(wǎng)絡(luò)等[8].
雖然基于內(nèi)容的推薦算法簡(jiǎn)單易行且不依賴(lài)于用戶(hù)的歷史消費(fèi)記錄, 但存在著內(nèi)容分析與特征提取難、推薦過(guò)于相似缺乏新意、對(duì)新用戶(hù)的推薦質(zhì)量不高等問(wèn)題[9-11].
2.2 基于協(xié)同過(guò)濾的推薦系統(tǒng)
協(xié)同過(guò)濾推薦算法主要利用興趣類(lèi)似的其他用戶(hù)(peer)的評(píng)分來(lái)做推薦[12]: 根據(jù)peer用戶(hù)cj∈C的效用度u(cj, s’)來(lái)推測(cè)對(duì)象s對(duì)于用戶(hù)c的效用度u(c, s). 該類(lèi)推薦系統(tǒng)可分為啟發(fā)式和基于模型兩類(lèi).
2.2.1 啟發(fā)式的協(xié)同過(guò)濾推薦系統(tǒng)
啟發(fā)式推薦算法首先找到用戶(hù)c的peer用戶(hù), 對(duì)他們對(duì)對(duì)象s的評(píng)分做聚集, 據(jù)此預(yù)測(cè)用戶(hù)c對(duì)該對(duì)象的評(píng)分rc,s[3,5]. 常用的聚集方法有均值、加權(quán)求和等. sim(c, c’)用于計(jì)算用戶(hù)c和c’的相似度, 常用的相似度度量方法有Pearson關(guān)聯(lián)系數(shù)[13]和向量余弦距離[6]. 當(dāng)用戶(hù)評(píng)分較少時(shí), 用戶(hù)相似度計(jì)算可能誤差較大, 因此文獻(xiàn)[14]建議通過(guò)為未評(píng)分對(duì)象預(yù)設(shè)評(píng)分來(lái)提高評(píng)分預(yù)測(cè)的精確度.
2.2.2 基于模型的協(xié)同過(guò)濾推薦系統(tǒng)
基于模型的算法利用已有用戶(hù)評(píng)分集訓(xùn)練一個(gè)模型, 然后用概率統(tǒng)計(jì)的方法進(jìn)行評(píng)分預(yù)測(cè): Pr表示用戶(hù)為對(duì)象s給出某分?jǐn)?shù)的概率. 文獻(xiàn)[14]提出了兩種概率預(yù)測(cè)方法: 利用k-means等聚類(lèi)方法將相似用戶(hù)聚類(lèi), 或?qū)⒚總€(gè)用戶(hù)看作貝葉斯網(wǎng)絡(luò)中的一個(gè)結(jié)點(diǎn), 每個(gè)結(jié)點(diǎn)的狀態(tài)代表用戶(hù)對(duì)每個(gè)對(duì)象可能的評(píng)分值. 其他基于模型的方法還包括機(jī)器學(xué)習(xí)和線性回歸等.
雖然基于協(xié)同過(guò)濾的推薦系統(tǒng)不受內(nèi)容分析技術(shù)的限制, 可以用于任何內(nèi)容的推薦, 但也存在著對(duì)新用戶(hù)的推薦質(zhì)量不高、沒(méi)有足夠評(píng)分的新對(duì)象無(wú)法得到推薦、評(píng)分稀疏性等問(wèn)題[15-16].
2.3 混合型推薦系統(tǒng)
為了充分利用不同推薦方法的優(yōu)勢(shì), 提高推薦精度和效率, 研究人員對(duì)基于內(nèi)容和協(xié)同過(guò)濾的方法進(jìn)行整合, 提出了混合型推薦系統(tǒng)[17]. 根據(jù)不同的組合方式, 混合型推薦系統(tǒng)可分為三類(lèi):
1) 分別進(jìn)行基于內(nèi)容和基于協(xié)同過(guò)濾的推薦, 然后利用線性組合或投票機(jī)制對(duì)推薦結(jié)果進(jìn)行融合[18].
2) 將一種方法的某些策略融入另一種方法中. 例如, 在基于協(xié)同過(guò)濾的推薦方法中利用對(duì)象基于內(nèi)容的相似度來(lái)計(jì)算用戶(hù)相似度[19], 從而解決稀疏性問(wèn)題.
3) 將兩種方法做前期融合得到一個(gè)統(tǒng)一的推薦結(jié)果. 常用的融合方法有基于規(guī)則的判決器和概率模型等.
推薦系統(tǒng)已得到了快速發(fā)展, 但還應(yīng)進(jìn)一步改進(jìn)以滿(mǎn)足復(fù)雜的實(shí)際需求[20]. 我們認(rèn)為應(yīng)著重從以下幾方面進(jìn)行改進(jìn):
3.1 結(jié)合上下文信息
在推薦方法中加入上下文信息可以有效地提高推薦的質(zhì)量. 其中, 用戶(hù)消費(fèi)記錄是一類(lèi)重要的上下文信息.
3.2 支持多標(biāo)準(zhǔn)推薦算法
現(xiàn)有推薦系統(tǒng)大多將評(píng)分作為唯一的推薦指標(biāo). 但實(shí)際應(yīng)用中應(yīng)將影響用戶(hù)決策的多種因素都納入考慮范圍[21]. 以旅游景點(diǎn)推薦為例, 假設(shè)流行度poc(r)、價(jià)格prc(r)和開(kāi)放時(shí)間opn(r)是影響景點(diǎn)選擇的三大因素, 其中流行度是最重要的因素. 則推薦景點(diǎn)轉(zhuǎn)化為找到poc(r)最大的景點(diǎn)r, 且r滿(mǎn)足用戶(hù)定義的價(jià)格和開(kāi)放時(shí)間的約束條件.
3.3 加強(qiáng)用戶(hù)控制
大多數(shù)現(xiàn)有推薦系統(tǒng)根據(jù)預(yù)設(shè)的用戶(hù)個(gè)人信息和需求自動(dòng)生成多個(gè)推薦, 在一定程度上限制了用戶(hù)的參與性以及對(duì)推薦結(jié)果的控制. 系統(tǒng)應(yīng)允許用戶(hù)參與參數(shù)的定義與修改. 例如, SatisFly[22]音樂(lè)推薦系統(tǒng)允許用戶(hù)定義歌曲流派、節(jié)奏等約束條件.
推薦系統(tǒng)可以通過(guò)相關(guān)度反饋機(jī)制來(lái)更新用戶(hù)的實(shí)時(shí)需求, 例如通過(guò)用戶(hù)對(duì)推薦的評(píng)價(jià)來(lái)顯式地收集用戶(hù)反饋信息. 該方法簡(jiǎn)單易實(shí)現(xiàn), 但需要用戶(hù)投入. 隱式反饋方法通過(guò)跟蹤用戶(hù)操作(例如購(gòu)買(mǎi)記錄、瀏覽記錄等)隱式收集用戶(hù)需求. 雖然不需要用戶(hù)的額外投入, 但從收集數(shù)據(jù)中提取出有用信息是比較耗時(shí)的.
3.4 精度vs.多樣性
用戶(hù)對(duì)推薦質(zhì)量的判斷是主觀的, 而且受個(gè)人心情、環(huán)境等因素的影響較大. 因此, 如何對(duì)推薦質(zhì)量做出客觀評(píng)價(jià)是推薦系統(tǒng)的難點(diǎn)之一. 精確度是現(xiàn)有評(píng)價(jià)機(jī)制的常用標(biāo)準(zhǔn). 然而用戶(hù)滿(mǎn)意度并不完全取決于算法精度[23-24].因此, 推薦系統(tǒng)在保證精度的同時(shí)應(yīng)考慮推薦的多樣性, 例如限制相同對(duì)象不能被重復(fù)推薦.
3.5 加強(qiáng)交互界面設(shè)計(jì)
系統(tǒng)界面是影響用戶(hù)滿(mǎn)意度的重要因素. 現(xiàn)有推薦系統(tǒng)大多數(shù)致力于推薦算法的改進(jìn), 很少關(guān)注界面問(wèn)題.文獻(xiàn)[26]對(duì)比三個(gè)推薦系統(tǒng)發(fā)現(xiàn)在界面友好的系統(tǒng)中, 用戶(hù)愿意主動(dòng)提供更多的信息以換取高質(zhì)量的推薦.
推薦算法的透明度是影響用戶(hù)滿(mǎn)意度的另一重要因素[25]. 現(xiàn)有系統(tǒng)大多只提供推薦排名, 缺乏對(duì)推薦產(chǎn)生原因的解釋. 利用多維信息可視化技術(shù)對(duì)推薦結(jié)果做出直觀易懂的圖形解釋[26]可以幫助用戶(hù)理解推薦產(chǎn)生的原因.
3.6 支持包推薦模式
對(duì)推薦過(guò)程建模是推薦系統(tǒng)的一個(gè)新興研究熱點(diǎn)[27]. 現(xiàn)有推薦系統(tǒng)大多自動(dòng)推薦多個(gè)獨(dú)立的對(duì)象. 但在多個(gè)對(duì)象相互關(guān)聯(lián)的應(yīng)用中, 例如設(shè)計(jì)音樂(lè)播放列表、菜單或旅游線路時(shí), 需要內(nèi)含多個(gè)關(guān)聯(lián)對(duì)象的推薦包. 文獻(xiàn)[31]提出了包推薦的概念, 并介紹了影響包推薦質(zhì)量的三大因素: 單個(gè)對(duì)象的推薦價(jià)值、多個(gè)對(duì)象的共現(xiàn)率以及推薦對(duì)象在集合中的順序.
基于包推薦模式, 我們提出了漸進(jìn)式推薦系統(tǒng)的概念[28]: 推薦流程被分解為數(shù)個(gè)連續(xù)的子步驟, 系統(tǒng)在每個(gè)步驟中根據(jù)用戶(hù)需求生成推薦, 由用戶(hù)決定加入最終方案的對(duì)象, 用戶(hù)的選擇會(huì)影響系統(tǒng)在后續(xù)步驟中的推薦. 這種漸進(jìn)式的推薦模式將系統(tǒng)智能和用戶(hù)決策有效地結(jié)合起來(lái). 目前該概念已應(yīng)用于旅游路線推薦[29]和音樂(lè)列表推薦[30], 實(shí)驗(yàn)結(jié)果表明用戶(hù)對(duì)系統(tǒng)主動(dòng)實(shí)時(shí)的控制可以提高推薦質(zhì)量, 得到了用戶(hù)的普遍好評(píng).
在對(duì)現(xiàn)有推薦系統(tǒng)廣泛調(diào)查和深入分析的基礎(chǔ)上, 本文提出了幾個(gè)改進(jìn)方向: 結(jié)合上下文信息; 支持多標(biāo)準(zhǔn)的推薦算法; 考慮推薦的多樣性, 向用戶(hù)提供新穎的推薦; 加強(qiáng)交互式界面設(shè)計(jì), 提高系統(tǒng)邏輯的透明度; 考慮到用戶(hù)的多樣性, 系統(tǒng)應(yīng)提供多種推薦模式; 在多個(gè)推薦對(duì)象順序關(guān)聯(lián)的應(yīng)用中, 系統(tǒng)應(yīng)支持包推薦模式. 我們相信這些策略有助于提高推薦系統(tǒng)的推薦質(zhì)量, 激發(fā)用戶(hù)的參與性, 增強(qiáng)推薦系統(tǒng)的可用性.
[1] 周惠宏, 柳益君, 張尉青, 等. 推薦技術(shù)在電子商務(wù)中的運(yùn)用綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2004, 21(1): 8-12.
[2] RESNICK P,VARIAN H R. Recommender systems[J]. Communications of the ACM, 1997, 40(3): 56-58.
[3] 許海玲, 吳瀟, 李曉東, 等. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào), 2009, 20(2): 350-362.
[4] 黎星星, 黃小琴, 朱慶生. 電子商務(wù)推薦系統(tǒng)研究[J]. 計(jì)算機(jī)工程與科學(xué), 2004, 26(5): 7-10.
[5] ADOMAVICIUS G,TUZHILIN A. Towards the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.
[6] SALTON G. Automatic text processing[M]. USA: Addi-son-Wesley, 1989.
[7] DUDA RO, HART P E, STORK D G .Pattern classification[M]. 2nd ed.USA: John Wiley & Sons,2001.
[8] PAZZANI M, BILLSUS D. Learning and revising user profiles: the identification of interesting web sites[J]. Machine Learning, 1997, 27: 313-331
[9] 林霜梅, 汪更生, 陳弈秋. 個(gè)性化推薦系統(tǒng)中的用戶(hù)建模及特征選擇[J]. 計(jì)算機(jī)工程, 2007, 33(17): 196-198.
[10] 吳麗花, 劉魯. 個(gè)性化推薦系統(tǒng)用戶(hù)建模技術(shù)綜述[J]. 情報(bào)學(xué)報(bào), 2006, 25(1): 55-62.
[11] AUCOUTURIER J J, PACHET F. Music similarity measures: what’s the use? [C]// Proceedings of the International Society for Music Information Retrieval, Paris, France, 2002.
[12] 王志梅, 楊帆. 基于相似學(xué)習(xí)者發(fā)現(xiàn)的資源推薦系統(tǒng)[J]. 浙江大學(xué)學(xué)報(bào): 工學(xué)版, 2006, 40(10): 1688-1791.
[13] SHARDANAND U,MAES P. Social information filtering: algorithms for automating ‘word of mouth’[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Denver, Colorado, USA, 1995. New York,NY, USA: ACM Press,1995.
[14] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[R]. Redmond, WA, USA: Microsoft Research,Technical Report: MSR-TR-98-12,1998.
[15] PAZZANI M. A framework for collaborative, content-based and demographic filtering[J].Artificial Intelligence Review, 1999, 13(5-6): 393-408.
[16] BILLSUS D,PAZZANI M. Learning collaborative information filters[R]. AAAI Technical Report: WS-98-08,1998.
[17] BALABANOVIC M,SHOHAM Y. Fab: content-based,collaborative recommendation[J].Communications of the ACM, 1997, 40(3): 66-72.
[18] CLAYPOOL M, GOKHALE A, MIRANDA T, et al. Combining content-based and collaborative filters in an online newspaper[C]// Proceedings of ACM SIGIR Workshop on Recommender Systems: Algorithms and Evaluation, California, USA, 1999. New York,NY,USA: ACM Press, 1999.
[19] BASU C,HIRSH H, COHEN W. Recommendation as classification: using social and content-based information in recommendation [C]// Proceedings of the Fifteenth National Conference on Artificial Intelligence, USA, 1998.
[20] 許敏, 邱玉輝. 電子商務(wù)中推薦系統(tǒng)存在的問(wèn)題及其對(duì)策研究[J]. 計(jì)算機(jī)科學(xué), 2001, 28(4): 122-124.
[21] ADOMAVICIUS G, SANKARANARAYANAN R, SEN S, et al. Incorporating contextual information in recommender systems using a multidimensional approach[J]. ACM Transactions on Information Systems, 2005, 23(1): 103-145.
[22] ADOMAVICIUS G,TUZHILIN A. Multidimensional recommender systems: a data warehousing approach[C]// Proceedings of the 2nd Int’l Workshop on Electronic Commerce, London, UK, 2001. Berlin/Heidelberg: Springer Verlag, 2001: 180-192.
[23] PAUWS S, VAN DE WIJDEVEN S. User evaluation of a new interactive playlist generation concept[C]// Proceedings of the International Society for Music Information Retrieval, London, UK, 2005.
[24] BERENZWEIG A, LOGAN B, ELLIS D P W, et al .A large-scale evaluation of acoustic and subjective music si-milarity measures[J]. Computer Music Journal, 2004, 28(2): 63-76.
[25] SWEARINGEN K, SINHA R. Beyond algorithms: an HCI perspective on recommender systems[C]// Proceedings of ACM SIGIR Workshop on Recommender Systems, 2001. New York,NY,USA: ACM Press, 2001: 1-11.
[26] HERRERA P, BELLO J, WIDNER G.SIMAC: semantic interactions with music audio contents[C]// Proceedings of Workshop on Integration of Knowledge,Semantics and Digital Media Technology, London, UK, 2005.
[27] SHANI G, BRAFMAN R, HECKERMAN D. An MDP-based re-commender system[J]. Journal of Machine Learning Research, 2005, 6(2005): 1265-1295.
[28] CHEN Y X. Exploratory Browsing: enhancing the browsing experience with media collections[D]. Munich,Germany: University of Munich, 2010.
[29] KECK S. Incremental personalized trip planning system[D]. Munich,Germany: University of Munich, 2009.
[30] BAUR D, BORING S, BUTZ A. Rush: repeated recommendations on mobile devices[C]//Proceedings of the 15th Inter-national Conference on Intelligent User Interfaces, HK, China, 2011. New York, NY, USA: ACM Press, 2011.
Survey of recommender systems and relevant techniques
CHEN Ya-xi, LIU Tao, FANG Shi-hong
(Southwest University for Nationalities, Chengdu 610041, P.R.C.)
Based on the definition and classification of RecSys, this paper identifies several limitations of existing techniques and proposes corresponding solutions. These strategies will substantially improve the quality of recommendations, stimulate user participation, and hence enhance the applicability of RecSys in a broader range of usages.
recommender system; personalization; E-Commerce; collaborative filtering
TP391.3
: A
: 1003-4271(2014)03-0439-04
10.3969/j.issn.1003-4271.2014.03.21
2014-03-12
陳雅茜(1981-), 女, 四川雅安人, 副教授, 博士, 研究方向: 人機(jī)交互、推薦系統(tǒng).
2014年國(guó)家外專(zhuān)項(xiàng)目; 西南民族大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(青年教師基金項(xiàng)目)(13NZYQN19); 西南民族大學(xué)2013年教育教學(xué)改革項(xiàng)目(2013ZC70); 西南民族大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(優(yōu)秀科研團(tuán)隊(duì)及重大孵化項(xiàng)目) (13NZYTD02); 西南民族大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(青年教師基金項(xiàng)目)”(12NZYQN16).
西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2014年3期