祥雨 戚舒梅 曾步鑫
摘要:近年來,推薦系統(tǒng)被廣泛認(rèn)為是解決“信息過載”及“信息迷航”的一個有效工具。多準(zhǔn)則評分比單一整體評分具有更為豐富的用戶個性化偏好信息,但傳統(tǒng)的多準(zhǔn)則推薦系統(tǒng)研究未考慮到用戶興趣漂移的情況。針對這一問題,本文將時間信息與基于用戶的多準(zhǔn)則協(xié)同過濾算法相結(jié)合,在多準(zhǔn)則算法中引入基于遺忘規(guī)律的艾賓浩斯遺忘曲線擬合用戶興趣漂移,修正用戶之間的相似度計(jì)算結(jié)果。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的多準(zhǔn)則協(xié)同過濾算法相比,本文提出的算法具有較高的準(zhǔn)確度。
關(guān)鍵詞:多準(zhǔn)則;推薦系統(tǒng);時間衰減
中圖分類號:TP182 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)22-0161-03
Abstract: In recent years, the recommendation system has been widely considered as an effective tool for solving "information overload" and "information trekking." The multi-criteria rating has more user personalized preference information than a single overall rating, but the traditional multi-criteria recommendation system does not consider the situation of user interest drift. In order to solve this problem, this paper combines time information with user-based multi-criteria collaborative filtering algorithm. In the multi-criteria algorithm, Ebbhauser forgetting curve based on forgetting rule is introduced to fit user interest drift, and similarity between users is corrected. Experimental results show that compared with the traditional multi-criteria collaborative filtering algorithm, the proposed algorithm has a higher accuracy.
Key words: Multi-Criteria; Recommender System; Time Attenuation
1 引言
在信息爆炸的當(dāng)代,互聯(lián)網(wǎng)用戶所遇到的首要問題已從“信息匱乏”逐漸轉(zhuǎn)變?yōu)椤靶畔⑦^載”及“信息迷航”問題。為解決這些問題,從用戶角度出發(fā),信息的獲取方式發(fā)展經(jīng)歷了網(wǎng)站信息分類、搜索引擎幾個重要階段。推薦系統(tǒng)(recommender systems)作為個性化服務(wù)研究領(lǐng)域的重要分支,能夠向用戶推薦其個人感興趣的信息。目前,幾乎所有大型的電子商務(wù)網(wǎng)站,如Amazon、京東商城等,都不同程度地運(yùn)用了各種形式的個性化推薦技術(shù)[1]。
近年來,各大網(wǎng)站認(rèn)識到單一整體評分的缺陷,開始鼓勵用戶對商品的多個屬性分別進(jìn)行評分。但是如何恰當(dāng)?shù)剡\(yùn)用這些信息,并得到更加準(zhǔn)確的推薦,是多準(zhǔn)則推薦系統(tǒng)(Multi-Criteria Recommender System)所面臨的主要挑戰(zhàn)之一。由現(xiàn)有的研究可將多準(zhǔn)則評分推薦方法分為如下幾類:(1)基于啟發(fā)式的多準(zhǔn)則評分推薦算法。首先基于各個準(zhǔn)則計(jì)算用戶間的相似度,Le[2]提出基于用戶的混合模糊協(xié)同過濾算法,將評分?jǐn)?shù)據(jù)或人口信息用模糊數(shù)和模糊區(qū)間替代,以計(jì)算用戶間相似度。然后,將各準(zhǔn)則下的相似度聚合為總體相似度,常用的聚合方法有平均相似度、最壞相似度(如最小值)[3]和最大值距離等[4],考慮到不同用戶在不同準(zhǔn)則的偏好程度可能有所差異,可使用加權(quán)平均相似度[5]。選擇近鄰、生成推薦列表。(2)基于模型的多準(zhǔn)則評分推薦算法。主要是根據(jù)多準(zhǔn)則評分?jǐn)?shù)據(jù)的高維度特點(diǎn),對現(xiàn)有模型進(jìn)行改進(jìn)。其中,矩陣分解和概率模型方法是最主要的兩種方法[5]。Park等人[6]在餐飲領(lǐng)域,基于移動環(huán)境利用貝葉斯網(wǎng)絡(luò)構(gòu)建用戶偏好模型,借助AHP提取用戶群體偏好,實(shí)驗(yàn)顯示貝葉斯網(wǎng)絡(luò)在不確定性環(huán)境下表現(xiàn)良好。(3)基于多準(zhǔn)則優(yōu)化的多準(zhǔn)則評分推薦方法。常用的方法是將多準(zhǔn)則推薦定義為優(yōu)化問題,根據(jù)特定的優(yōu)化目標(biāo)建立項(xiàng)目的最佳排序,而后進(jìn)行推薦。多準(zhǔn)則推薦系統(tǒng)優(yōu)化的對象有整體效用和準(zhǔn)則效用[7]、沖突準(zhǔn)則效用或指標(biāo)[8]、特征選擇和數(shù)據(jù)輸入選擇[9],后兩者也可作為優(yōu)化的方式選擇。
越來越多研究人員也開始研究用戶行為的動態(tài)特性,重視時間信息在推薦系統(tǒng)中的作用[10]。目前大多研究者將時間信息于推薦模型相結(jié)合,Ding等人[11]在Item-CF中使用時間衰減函數(shù),這種方法能顯著降低 RMSE,從而提高算法的準(zhǔn)確性。Lu[12]擴(kuò)展了矩陣分解模型,將時間作為模型新增的維度,如此便建立了動態(tài)的用戶和項(xiàng)目的特征向量模型;Xiong等人[13]基于時間維度擴(kuò)展的矩陣分解模型,引入張量分解的方法對用戶和項(xiàng)目進(jìn)行推薦建模。
為了提高推薦質(zhì)量,本文將時間信息與基于用戶的多準(zhǔn)則評分推薦算法相結(jié)合,利用艾賓浩斯遺忘曲線修正用戶之間的相似度,以更加準(zhǔn)確地找到近鄰,從而提高推薦效果。
2 傳統(tǒng)的基于用戶的多準(zhǔn)則協(xié)同過濾推薦算法
傳統(tǒng)的基于用戶的多準(zhǔn)則協(xié)同過濾推薦算法可以看作是基于用戶的單一評分協(xié)同過濾算法的擴(kuò)展。使用用戶-項(xiàng)目評分矩陣,融合各個準(zhǔn)則上的用戶相似度,得到與目標(biāo)用戶相似度最高的K個用戶,再將相似用戶感興趣的項(xiàng)目推薦給目標(biāo)用戶。多準(zhǔn)則評分旨在從不同的方面體現(xiàn)用戶偏好差異,較單一整體評分能夠更加全面地考慮用戶的偏好特征。下面以用戶對酒店的評價信息為例,基于用戶來解釋多準(zhǔn)則評分。
假設(shè)某網(wǎng)站有三個用戶([u1,u2,u3])和五個酒店([i1,i2,i3,i4,i5]),各用戶對酒店的評分?jǐn)?shù)據(jù)如表1所示。每個評分項(xiàng)由整體評分和各準(zhǔn)則評分(位置分、衛(wèi)生分、服務(wù)分、性價比)組成,例如,用戶[u1]對酒店[i1]的整體評分為2,各準(zhǔn)則評分分別為(1,1,3,3)。由表可得,用戶[u1]和[u3]對酒店[i1,i2,i3,i4]的整體評分完全一致,如果基于整體評分對用戶[u3]進(jìn)行推薦,用戶[u1]是目標(biāo)用戶[u3]的最近鄰,對[u3]的最終預(yù)測分影響最大。但是對比各用戶對酒店[i1,i2,i3,i4,i5]在各個準(zhǔn)則下的評分,[u1]和[u3]的偏好大不相同,而[u2]和[u3]在各準(zhǔn)則上的評分比[u1]和[u3]更相近,因此若根據(jù)各準(zhǔn)則評分對用戶[u3]進(jìn)行推薦,用戶[u1]與目標(biāo)用戶[u3]更為相似,對[u3]的最終預(yù)測分影響最大。
4 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
為了評估本文所提出算法的性能,本文采用雅虎電影(https://movies.yahoo.co.jp/)2005年11月至2016年8月內(nèi)所有用戶對電影的多準(zhǔn)則評分?jǐn)?shù)據(jù),共23萬多條記錄,通過對數(shù)據(jù)進(jìn)行刪除缺省值、刪除無效數(shù)據(jù)等操作,并剔除了評分記錄少于10條的用戶及其相應(yīng)記錄,保留下來906個用戶、941部電影,共35188條記錄。
4.2 評價指標(biāo)
由圖1可知,本章提出的基于時間效應(yīng)的多準(zhǔn)則評分推薦算法相比傳統(tǒng)的多準(zhǔn)則評分協(xié)同過濾算法取得了更好的推薦效果。當(dāng)近鄰數(shù)為30時,降低幅度最大,這表明算法的預(yù)測值與實(shí)際值的更為接近。
5 結(jié)論
本文闡述了基于時間效應(yīng)的多準(zhǔn)則評分協(xié)同過濾推薦算法,在User-Based的多準(zhǔn)則推薦算法中引入時間信息,模擬用戶興趣漂移和項(xiàng)目流行度變化,對協(xié)同過濾算法中的相似度計(jì)算進(jìn)行改進(jìn)。實(shí)驗(yàn)表明,考慮多準(zhǔn)則評分信息和時間信息能夠給推薦算法的效果帶來顯著提高。
參考文獻(xiàn):
[1] 王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)[J].軟件學(xué)報(bào),2012,23(1):1-20.
[2] Le H S.HU-FCF:A hybrid user-based fuzzy collaborative filtering method in Recommender Systems[J].Expert Systems with Applications,2014,41(15):6861-6870.
[3] Adomavicius G,Kwon Y O.New Recommendation Techniques for Multicriteria Rating Systems[J].IEEE Intelligent Systems,2007,22(3):48-55.
[4] Adomavicius G,Tuzhilin A.Towards the next generation of recommender systems:A survey of the state-of-the-art and possible extensions. IEEE Trans.on Knowledge and Data Engineering (TKDE),2005,17(6):734?749.[doi:10.1109/TKDE.2005.99].
[5] Adomavicius G,Manouselis N,Kwon Y O.Multi-Criteria Recommender Systems[J].Recommender Systems Handbook,2011,10(4):769-803.
[6] Park M H,Park H S,Cho S B.Restaurant Recommendation for Group of People in Mobile Environments Using Probabilistic Multi-criteria Decision Making.[C]//Computer-Human Interaction,Asia-Pacific Conference,Apchi 2008,Seoul,Korea,July 6-9,2008,Proceedings.2008:114-122.
[7] N.Manouselis and C.Costopoulou.Experimental analysis of design choices in multi-attributeutility collaborative filtering.International Journal of Pattern Recognition and Artificial Intelligence,21(2):311–332, 2007.
[8] Samant M R,Deshpande M S,Jadhao M A. Multi Criteria Recommendation System for Material Management[J].International Journal of Advanced Trends in Computer Science&Engineering;,2016.
[9] Guyon I,Gunn S,Nikravesh M,et al.Feature Extraction:Foundations and Applications(Studies in Fuzziness and Soft Computing)[C]//Springer-Verlag New York,Inc.2006.
[10] Nilashi M,Ibrahim O B,Ithnin N.Hybrid recommendation approaches for multi-criteria collaborative filtering[J].Expert Systems with Applications,2014,41(8):3879-3900.
[11] Ding Y,Li X.Time weight collaborative filtering[J].2005,1:485-492.
[12] Lu Z,Agarwal D,Dhillon I S.A spatio-temporal approach to collaborative filtering[C]//ACM Conference on Recommender Systems,Recsys 2009,New York,Ny,USA,October.DBLP,2009:13-20.
[13] Xiong L,Chen X,Huang T K,et al.Temporal Collaborative Filtering with Bayesian Probabilistic Tensor Factorization[C]//Siam International Conference on Data Mining,SDM 2010, April 29 - May 1,2010,Columbus,Ohio,Usa.DBLP,2010:211-222.
【通聯(lián)編輯:梁書】