夏瑞玲 李國平 王國中
摘要: 多數(shù)傳統(tǒng)的推薦算法在追求準確度時,忽略了多樣性也是衡量推薦效果不可或缺的指標之一。而一味地提升多樣性又勢必會造成準確度的極大損失。由此提出依據(jù)用戶興趣度和興趣變化度,在計算出用戶興趣值的基礎上,分析不同用戶的興趣偏好情況。再將用戶的長期與短期興趣相結合進行推薦,保障個性化的同時確定用戶的多樣化程度,生成最終的推薦列表,很好地平衡了推薦結果的準確度與和多樣性。
關鍵詞: 長短期興趣; 準確度; 多樣性; 推薦系統(tǒng)
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)10-44-05
Diversity optimization of recommendation algorithm integrating
user's long-short-term interest
Xia Ruiling1, Li Guoping2, Wang Guozhong2
(1. College of Electrical and Electronic Engineering, Shanghai University of Engineering Science, Shanghai 201620, China;
2. Key Laboratory of Artificial Intelligence Application State Administration of Radio and Television)
Abstract: In the pursuit of accuracy, most traditional recommendation algorithms ignore diversity, which is also one of the indispensable indicators to measure the recommendation effect. However, increasing diversity desperately is bound to result in a great loss of accuracy. Presented on considering user interest and interest changes, on the basis of calculating user interest value, analyze the different user interest preference. Then combining the user's long-term and short-term interest to recommend, guaranteeing the diversification of personalized determine a user at the same time, produce the final recommendation list, reached a good balance between accuracy and diversity of recommendations.
Key words: long-short-term interest; precision; diversity; recommendation system
0 引言
在網(wǎng)絡信息蜂擁而至的今天,推薦系統(tǒng)的誕生,無疑為信息的生產(chǎn)者和消費者提供了一套解決信息過載問題的雙贏方案[1]。推薦列表需要覆蓋的不單是某一種興趣領域,對不同的場景,所應用的推薦方式不盡相同,但就其推薦目標來說都具有根本的一致性:提升用戶體驗,吸引并留住用戶。而多樣性是衡量推薦列表中物品屬性、種類的差異性程度[2]。也就是推薦列表中的物品單調與否。多樣而豐富的推薦結果會讓用戶更滿意,推薦內容多樣性越好,用戶的長期留存的概率越大。
基于用戶的協(xié)同過濾算法通過同類用戶分析,對目標用戶進行推薦,一定程度上提升了多樣性但推薦結果趨于熱門化[3]。從長遠看,要發(fā)掘用戶的長期需求,也要精準滿足短期需求,覆蓋用戶絕大多數(shù)的興趣。因此,人們一直都在利用推薦系統(tǒng)的種種優(yōu)勢探索和拓展用戶興趣,在保證準確率的前提下,盡量提升推薦內容的多樣性。
Arda[4]等人采用最小成本網(wǎng)絡流方法優(yōu)化推薦系統(tǒng)子圖,在基于協(xié)同過濾的評分系統(tǒng)中不斷增加多樣性。Lee[5]等人提出同時考慮多樣性和準確性,在目標函數(shù)中利用貪婪求得近似解的方式來優(yōu)化用戶的偏好和推薦k項的多樣性。Jiang[6]等人使用選擇概率來衡量推薦列表的整體質量,統(tǒng)一了在生成推薦平衡相關性和多樣性,開發(fā)了一種高效的貪心算法求得最優(yōu)。Adomavicius[7]等人探索了一些條目排名技術,在用戶中產(chǎn)生更多不同推薦,同時盡量保持推薦準確性。
為了更好地滿足推薦多樣化的需求,本文提出一種劃分用戶短期興趣與長期興趣的融合推薦算法。綜合考慮不同用戶兩種興趣分類情況,在盡量不損失個性化的同時幫助推薦系統(tǒng)避免內容窄化,提升內容多樣性。
1 融合用戶長短期興趣的推薦策略
在推薦系統(tǒng)中,多樣性指的是對于某一位用戶,返回與其興趣愛好高度相關同時覆蓋范圍廣,物品種類盡可能多的推薦結果[8]。在改進傳統(tǒng)推薦模式的基礎上,考慮到不同用戶興趣往往具有不同的偏好和變化性,本文提出將用戶不易變的長期興趣與易變的短期興趣進行分類,再將二者相融合,生成兼顧個性化,保證準確度,同時又具有多樣化的推薦列表。整體推薦結構流程如圖1所示。
1.1 用戶長短期興趣分析
用戶的短期興趣是指,用戶過去某一小段時間內所發(fā)生的興趣取向變化,不是用戶長期固有的興趣愛好。短期興趣比較容易受環(huán)境因素的影響,尤其是熱門物品的影響。短期興趣比重高的用戶興趣變化性較大且興趣范圍相對廣泛。而用戶的長期興趣則是指用戶在過去一段時間內具有較恒定的興趣取向。具有長期興趣的用戶,其興趣變化性不大,而且范圍相對較窄。
1.2 用戶興趣值計算
首先對推薦算法中所使用的符號定義說明如下:[U={u1,u2,…,un}]為所有用戶的集合,[I={i1,i2,…,in}]為所有項目的集合,項目[i]所屬種類集為[Li=l1,l2,…,ln],用戶[U]對項目[i]的評分為[ru,i],用戶[U]產(chǎn)生過評分行為的所有項目集定義為用戶的興趣項目集[Cu],基于用戶歷史評分數(shù)據(jù)定義其對項目類別的興趣概率集為[Pu],針對數(shù)據(jù)集中某一個項目類別[l],用戶[U]對其興趣度為[Pu,l]。
[Pu,l=i∈Cu,l∈Ii1∣Ii∣∣Cu∣]? ⑴
其中,[Pu,l∈Pu].若某一項目[i]僅屬于項目類別[l],認為[i]對于項目類別[l]的權值為1,若[i]同時屬于[n]個項目類別,則認為[i]對其所屬的每一個項目類別權值為[1n].[Pu,l]值越大,說明用戶對該項目類別興趣程度越高,反之越低。針對用戶所有興趣類別,根據(jù)公式⑴進行逐一求值并累加。得到用戶對于某一項目類別的具體興趣程度后對用戶的興趣度分類。如果某一用戶在大部分項目類別上都有評分記錄,則說明該用戶興趣范圍較廣;用戶若僅對少數(shù)幾個項目類別有評分記錄,則說明該用戶興趣范圍本身較窄。用戶興趣度計算方法如下:
[Du=i=1Pu,llog∣l∣Pu]? ⑵
對[Du]歸一化處理。用戶興趣度值越高說明用戶對較多類別項目都有一定興趣,其值較低表明用戶只對少數(shù)類別項目感興趣。
興趣變化與否是決定長短期興趣劃分的主要因素,用項目類別余弦相似度衡量用戶評分項類別[l]與項目種類集[L]間的相似性。通過計算二者相似度確定用戶興趣變化情況。
[Sim(l,L)=][cosl,L=i=1n(l*L)i=1nli2*i=1nL2]? ⑶
設定相似度閾值,超過閾值的項目類別[l]為[i]個.定義用戶興趣變化度由[C]表示。
[C=in-i]? ⑷
由于用戶的長期與短期興趣主要由興趣度高低以及一定時間內興趣的變化度二者共同決定。設定常量系數(shù)[α(0<α<1)]平衡主次權重影響,本文將用戶短期興趣與長期興趣列為同等影響地位,故取為0.5。[T]為用戶總體興趣值,用來表示該用戶接納新項目的能力。計算公式如下。
[T=αDu+1-αC]? ⑸
設定[T]值域劃分情況對用戶興趣取向偏好進行分類,例如,選擇興趣值低的用戶認為是偏向長期興趣的用戶群體,這類用戶評分項目類別集中且變化度不高;興趣度高的用戶認為是偏向短期興趣的用戶群體,此類用戶評分項目類別離散且變化度較高。
2 融合推薦
融合推薦就是融合用戶長短期興趣,在推薦新項目時,綜合考慮新項目類別是否與用戶評分歷史類別相關聯(lián),新項目類別是否為用戶樂意接納。對于不同興趣偏向的用戶進行分類考慮。
由于每一個項目可能不單單屬于某一個項目類別,公式⑺給出了任意兩個項目所屬公共類別與總類別的比例。對于新項目[i]與用戶歷史興趣項目列表的相似度的計算,本文采用了Jaccard相似度。計算公式如下:
[simi,j=∣Ii∩Ij∣∣Ii∩Ij∣]? ⑹
[simi,R=j∈Rsim(i,j)∣R∣]? ⑺
基于用戶對于歷史項目的所有評分數(shù)據(jù),首先預測用戶對某一項目[l]的預測評分,項目[l]所屬類別與用戶歷史興趣項目類別集交集非空,為關聯(lián)項目類別。預測評分的計算公式如下:
[Ug,l=i∈Cu,Ii∩Il≠?C∈,Ii∩Ilru,i∣Ii∣i∈Cu,Ii∩Il≠?1]? ⑻
其中,[ru,i∣Ii∣]為用戶對于項目[i]的評分與總類別個數(shù)之比,代表評分比例。
在公式⑸中,通過使用[T]表示用戶總興趣值高低。若該用戶為偏向長期興趣的用戶,則[T]權重賦予較低,若該用戶傾向短期興趣愛好,而且推薦項目為新項目種類,則賦予[T]值較大的權重影響力,保障了個性化。用戶總體預測評分由公式⑼給出。
[Rg=λUgMG+(1-λ) TDiv(i,R)]? ⑼
最大評分(MG)為所有用戶對某一個項目的最高評分,在這里為了將相關性項目得分進行規(guī)范化,用[Ug]與其相除。[λ](0[≤λ≤1])參數(shù)用來平衡項目類別的相關與多樣程度占比[9]。[λ]為0時表示相關度最低,多樣性最高;[λ]為1時表示相關度最高,多樣性最低。[simi,R]表示項目[i]與用戶項目列表的相似性,相似性越高則表明項目[i]于用戶項目列表而言多樣性越小。多樣性計算方法如公式⑽。
[Difi,R=1-simi,R]? ⑽
融合推薦模塊通過[Ug]與[T]的相互調節(jié),在保障個性化,維持了一定準確度的同時,對推薦列表進行多樣性的優(yōu)化。
3 實驗過程與結果
3.1 評價標準
采用由石近平等人[10]改進的衡量用戶推薦列表多樣性的方法,該方法在公式⑾基礎上增加了項目類別覆蓋度的影響,使推薦多樣性更加完整化。改進后的多樣性計算方法DisCoverDiv如公式⑿。
[Div=][1N(N-1)i∈R(u)j∈Ru,i≠j(1-sim(i,j))]? ⑾
[DisCoverDiv=DisRu*CoverRu]? ⑿
其中,[DisRu]為用戶[U]列表中任意兩物品間的不相似度,由公式⑾計算,覆蓋度Cover表示類別數(shù)占總類別數(shù)的比例。由如下公式計算:
[Cover=C(Ru)∣Ru∣×100%]? ⒀
準確率Precision作為衡量推薦結果準確度的標準。
[Precision=∣Ru∩Ut∣∣Ru∣]? ⒁
平均絕對誤差(Mean Absolute Error)衡量推薦方法的質量,即用戶評分預測值與用戶評分真實值間誤差絕對值的平均值。
[MAE=∣u,irui-rui∣M]? ⒂
3.2 實驗數(shù)據(jù)
在數(shù)據(jù)集Movielens上進行測試,選取1M大小的數(shù)據(jù)源,該數(shù)據(jù)集包含了大約一百萬條用戶的電影評分記錄[11],評分從1-5不等。另包含用戶職業(yè)、電影分類與時長、時間戳標記。將數(shù)據(jù)劃分為80%的訓練集與20%的測試集,隨機選擇用戶。
3.3 實驗過程
[λ]參數(shù)決定了項目預測得分的相關性與多樣性權重,故首先將[λ]從0-1進行逐步調參,選出最符合本文要求的權值系數(shù)。推薦準確度隨[λ]參數(shù)變化如圖2所示。
由圖2可見,推薦項目的MAE隨[λ]參數(shù)增大而先減后增,而[λ]在大于0.6之后,不再對推薦效果有好的影響。由此可知,一味地增加相似物品的推薦比重并不總能帶來良好的推薦收益。為了在提升多樣性時最大化保證一定的推薦準確度,取[λ=0.6]為后續(xù)實驗最佳參數(shù)取值。對比實驗部分說明如下:
UBCF(User Based Collaborative Filtering):基于用戶的協(xié)同過濾算法;UCB(User Clustering Based Collaborative Filtering):基于用戶聚類協(xié)同過濾算法[12];IUIT(Items-Users Inversion Table Introduced Collaborative Filtering):引入項目用戶倒查表后的協(xié)同過濾算法[13]。
按式⒁計算準確度。在不同TOP-N下的推薦準確度計算結果對比如表1所示。
四種算法準確度結果具體對比圖如圖3所示。
由圖3可以看出,UBCF算法準確度最差,其余三種算法在推薦準確度上都有優(yōu)勢。其中,UCB,IUIT,MLSI算法在N為10時的推薦準確度效果相差不大,但MLSI算法略微領先。需要說明的是,由于推薦列表長度本身過短或過長都對推薦準確率效果有影響,在N為5和25時,MLSI算法相較于IUIT,有準確度的輕微損失,但在N為10,15,20時,MLSI均領先于其他算法。
按式⑿計算四種算法推薦結果的多樣性。不同TOP-N下的推薦多樣性計算結果如表2所示。
二者多樣性結果具體對比圖如圖4所示。
由圖4可以看出,MLSI算法是明顯優(yōu)越于其他三種算法的。UBCF和UCB由于未做過多多樣性方面的改進,二者推薦多樣性結果較差,而MLSI多樣性效果最好。
綜合準確度與多樣性來看,MLSI算法在N=5和25時準確度上相比IUIT有所損失,但損失程度較小,大體上準確度有小幅提升,保證了一定的推薦準確度;MLSI算法在多樣性上相比其余算法均有顯著的提升,提升效果遠大于損失的準確度程度。權衡考慮準確度與多樣性的結果,可以看出在N=15和N=20時兩方面取得了最優(yōu)的結果。
4 結束語
考慮到不同用戶的興趣偏好也不同,本文提出了一種分類用戶長短期興趣并將其融合的推薦算法,改進了原有的基于用戶的協(xié)同過濾算法,并在真實的數(shù)據(jù)集上驗證了其有效性。用戶的長短期興趣在一定時間后可能會發(fā)生消失或更替,后期可在本文研究的基礎上引入時間影響因子,深入分析不同時間段后用戶長短期興趣變化情況,從而使推薦列表與時俱進,更好地呈現(xiàn)多樣化結果。
參考文獻(References):
[1] Sun Zhoubao, Han Lixin, Huang Weiliang,et al.Recommender systems based on social networks[J]. Journal of Systems & Software,2015.99(C):109-119
[2] Castells P,Vargas S,Wang J. Novelty and diversity metrics for recommender systems:Choice, discoveryandrelevance[C]//Proceedings of International Workshop on Diversity. Chicago,USA,2013:29-37
[3] 姜書浩,張立毅,張志鑫.基于個性化的多樣性優(yōu)化算法[J].天津大學學報:自然科學與工程技術版,2018.51(10):1042-1049
[4] Antikacioglu A, Ravi R. Post Processing Recommender Systems for Diversity[C]//ACM SIGKDD International Conference. ACM,2017:707-716
[5] Lee S C, Kim S W, Park S, et al. A Single-Step Approach? to Recommendation Diversification[C]//the 26th International Conference. International World Wide Web Conferences Steering Committee,2017:809-810
[6] Jiang H, Qi X, Sun H. Choice-Based Recommender Systems: A Unified Approach to Achieving Relevancy and Diversity[J].Social Science Electronic Publishing,2014.62(5):973-993
[7] AdomaviciusG.Improving Aggregate Recommendation Diversity Using Ranking-Based Techniques[J].IEEE Transactions on Knowledge & Data Engineering,2012.24(5):896-911
[8] Vargas S. Novelty and diversity enhancement and evaluation in recommender systems[C]//International ACMSIGIR Conferenceon Research. Golden Coast,Australia,2014:1281
[9] 孫金揚,劉柏嵩,任豪等.NHRec:一種基于長短期興趣的神經(jīng)混合推薦模型[J].小型微型計算機系統(tǒng),2020.11:2298-2302
[10] 石進平,李勁,和鳳珍.基于社交關系和用戶偏好的多樣性圖推薦方法[J].計算機科學,2018.45(6A):423-427
[11] F, MAXWELL, HARPER, et al. The MovieLens Datasets: History and Context[J].Acm Transactions on Interactive Intelligent Systems,2016.5(4):1911-1919
[12] 查文琴,梁昌勇,曹鐳.基于用戶聚類的協(xié)同過濾推薦方法[J].計算機技術與發(fā)展,2009.19(6):69-75
[13] 王成,朱志剛,張玉俠.基于用戶的協(xié)同過濾算法的推薦效率和個性化改進[J].小型微型計算機系統(tǒng),2016.3:428-432