◆江 偉 蘇開益 余詩慧
(武漢理工大學計算機科學與技術(shù)學院 湖北 430070)
基于非參數(shù)統(tǒng)計的相似度度量方法及其在用戶評分預測中的應(yīng)用
◆江 偉 蘇開益 余詩慧
(武漢理工大學計算機科學與技術(shù)學院 湖北 430070)
傳統(tǒng)實參數(shù)統(tǒng)計方法對用戶評分的分析預測準確度難以保證,因此本文提出一種基于非參數(shù)統(tǒng)計的相似度度量方法,分析用戶興趣之間的相似性,進而預測用戶的評分。相對其他方式,預測準確度有一定的提升。
非參數(shù)統(tǒng)計;相似度度量;協(xié)同分析
對于用戶評分數(shù)據(jù),傳統(tǒng)的處理方法是使用實參數(shù)統(tǒng)計的方法進行。實參數(shù)統(tǒng)計需要基于一些假設(shè)或者近似,在假設(shè)的正確性不能得以保證以及近似的誤差積累的情況下,用戶興趣分析算法的準確性并不可靠。本文提出使用非參數(shù)統(tǒng)計的方式來處理用戶評分,不依賴假設(shè),將用戶的評分直接轉(zhuǎn)化為用戶興趣,便于進行預測。
對于兩個用戶來說,相似度表示的是他們對某些項目評分的相似程度。在分析時,我們將一個用戶的評分作為一個向量,用戶對不同項目的評分作為向量的元素。
衡量相似度通常使用余弦相關(guān)系數(shù)。對于兩個向量u和v,將u向v的方向分解,得到與v平行的向量ucosθ和垂直于v的向量usinθ。其中ucosθ與v完全線性相關(guān),usinθ與v不線性相關(guān)。這樣,通過cosθ的值就可以判斷出u和v的相似度。下面給出余弦相關(guān)系數(shù)的表達式:
式中u和v表示用戶,I表示項目集合,ru表示用戶u的評分向量。由此我們可以得出,當相關(guān)系數(shù)為-1時,表示兩個向量完全線性負相關(guān),為1時表示兩個向量完全線性相關(guān),為0時則表示兩個向量沒有線性相關(guān)關(guān)系。
余弦相關(guān)系數(shù)能夠比較好地衡量兩個用戶興趣的相似性,其原因主要有兩個方面。其一是余弦相關(guān)系數(shù)具有良好的線性性質(zhì),若u1與u的余弦相關(guān)系數(shù)是u2與u的兩倍,則可以認為u1與u興趣相似性是u2與u興趣相似性的兩倍。另一個方面是余弦相似度不關(guān)注用戶的評分標準。例如對于某些用戶而言,80分是一個較低的分數(shù),而對于另一些用戶而言,80分已經(jīng)是較高的評分,用戶這樣不同的評分標準對于相似性的分析會造成一定干擾,而余弦相似性只關(guān)注方向,因此能夠消除用戶評分標準不同帶來的影響。
在計算出用戶評分的相似性之后,我們可以基于一個思路——評分相似的用戶興趣相似——來進行評分的預測。預測步驟本文使用協(xié)同過濾算法進行。協(xié)同過濾需要做的是求加權(quán)和,加權(quán)和定義如下:
式中iuP,表示用戶u對i的預測評分,N表示與用戶u相似的用戶的集合, inr,表示用戶 n對 i的評分, nuw,表示用戶 u與n的相似度。這里我們認為用戶的預測評分和與其相似的用戶的評分是線性組合的關(guān)系,這也同樣契合本文第一部分中所敘述的“余弦相關(guān)系數(shù)具有線性性質(zhì)”。因此在協(xié)同過濾中使用余弦相似度進行相似性度量是科學的,能相互配合,使預測結(jié)果更加準確可信。
因為用戶的興趣是一個難以量化的特征,我們需要一種轉(zhuǎn)化的方式,將用戶的評分轉(zhuǎn)化為一個特征值,并且轉(zhuǎn)化后的特征值能夠線性地表達用戶的興趣。例如某用戶的評分是80分,我們難以判斷這個分數(shù)是較高還是較低,如果其他用戶的評分普遍在90分以上,那么80分是一個較低的分數(shù);但如果其他用戶評分都分布在60~70分,那么80分就是一個較高的評分了。基于這個思想,我們定義用戶評分 x的特征值為其分布函數(shù)值,即表示均值為μ,方差為 2 σ的正態(tài)分布。
具體處理步驟如下:
(5)將用戶興趣特征值逆變換回評分值。計算 'Pia,,使得,則用戶評分值
本文使用VR項目的評論作為數(shù)據(jù)集,包含73421個用戶的4136360個評分,評分值是-10到10的有理數(shù)。為了衡量上述算法的準確度,這里使用平均絕對誤差MAE和均方根誤差RMSE。它們的定義如下:
此二者的值越小,表示預測值與實際值越接近,即準確度更高。
本文采用“80%-20%”交叉驗證的方式,即將數(shù)據(jù)集的80%作為待處理數(shù)據(jù),20%的數(shù)據(jù)作為對模型結(jié)果的驗證。設(shè)定閾值ε表示用戶相似的標準,當兩個用戶間的相似度大于ε時認為這兩個用戶相似。本文提出的模型與其他模型的結(jié)果對比如下表。
表1 模型對比評價表
從實驗結(jié)果可以看出,本文提出的非參數(shù)統(tǒng)計相似度度量配合協(xié)同過濾的方式,預測準確度相較于其他方式更高,尤其當ε取得合適的值時,算法的準確度更高。
本文提出了一種基于非參數(shù)統(tǒng)計的相似度度量方法,將用戶的評分值映射成為一個能線性地表示用戶興趣的特征值,該特征值能夠消除不同用戶評分標準的差異以及評分數(shù)據(jù)的分布對分值的影響,更科學地反應(yīng)用戶的興趣。通過在Jester集的數(shù)據(jù)上做的實驗驗證,證明了本文提出的非參數(shù)統(tǒng)計相似度度量模型的預測準確性優(yōu)于現(xiàn)有的其他模型。
[1]Quercia D, Lambiotte R, Stillwell D, et al. The personality of popular facebook users[C]AcmConference on Computer Supported Cooperative Work. DBLP, 2012.
[2]Porcel C, Tejeda-Lorente A, Martínez M A, et al. A hybrid recommender system for the selective dissemination of research resources in a Technology Transfer Office[J]. Information Sciences, 2012.
[3]James S E. Charles Duhigg: The Power of Habit: Why We Do What We Do in Life and Business[J]. Journal of Child and Family Studies, 2013.
[4]Deng S, Wang D, Li X, et al. Exploring user emotion in microblogs for music recommendation[J]. Expert Systems with Applications, 2015.
[5]Rao Y. Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J]. IEEE Intelligent Systems, 2015.