王 運(yùn),倪 靜
(上海理工大學(xué) 管理學(xué)院,上海 200093)
近年來(lái),隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們面臨的信息量呈指數(shù)級(jí)增長(zhǎng),個(gè)性化推薦算法在人們的日常生活中擁有越來(lái)越重要的地位.傳統(tǒng)的推薦算法主要有協(xié)同過(guò)濾推薦算法[1]、基于內(nèi)容的推薦算法[2]、基于圖模型的推薦算法[3]等,這些推薦算法利用用戶與物品數(shù)據(jù)取得了一定的推薦效果,如文獻(xiàn)[4]利用用戶及物品數(shù)據(jù)計(jì)算用戶的偏好模型,在計(jì)算出用戶之間的偏好相似度后進(jìn)行協(xié)同過(guò)濾推薦;文獻(xiàn)[5]將用戶與物品之間的關(guān)系進(jìn)行圖形化描述,通過(guò)計(jì)算目標(biāo)用戶與物品之間連邊的相關(guān)性大小進(jìn)行推薦;文獻(xiàn)[6]通過(guò)用戶之間的社交關(guān)系數(shù)據(jù)計(jì)算用戶之間的相似度值,進(jìn)而根據(jù)所得用戶相似度值進(jìn)行推薦.但是這些推薦算法也面臨著許多問(wèn)題,如用戶數(shù)據(jù)稀疏性問(wèn)題.當(dāng)推薦系統(tǒng)中出現(xiàn)新用戶時(shí)更為顯著,由于用戶數(shù)據(jù)的稀疏性,計(jì)算所得用戶相似度值不夠準(zhǔn)確或者根本無(wú)法計(jì)算出新用戶與其他用戶之間的相似度,最終導(dǎo)致算法的評(píng)分預(yù)測(cè)準(zhǔn)確性有所降低.
同時(shí),在2006年的Netflix競(jìng)賽中,有人將矩陣分解技術(shù)應(yīng)用到用戶電影評(píng)分矩陣中,并且提升了評(píng)分預(yù)測(cè)的準(zhǔn)確性[7].從此關(guān)于矩陣分解的推薦算法研究在不斷增多,如考慮到用戶評(píng)分習(xí)慣的不同,有專家學(xué)者提出了BiasSVD算法,通過(guò)在矩陣分解中融入用戶或者物品的偏置因素提高了評(píng)分預(yù)測(cè)準(zhǔn)確性[8];由于用戶的隱私反饋也會(huì)對(duì)推薦算法產(chǎn)生影響,文獻(xiàn)[9]將基于領(lǐng)域的推薦算法和BiasSVD進(jìn)行融合,提出了SVD++;文獻(xiàn)[10]提出概率矩陣分解模型,在矩陣分解的過(guò)程中融入概率論相關(guān)知識(shí),具有較好的可解釋性和評(píng)分預(yù)測(cè)準(zhǔn)確性.
基于上述研究成果,本文提出了融合用戶偏好和物品相似度的概率矩陣分解推薦算法UPIS-PMF(Probability Matrix Factorization Recommendation Algorithm Combining User Preferences and Item Similarity),該算法在概率矩陣分解技術(shù)處理用戶物品評(píng)分矩陣的同時(shí)融入了用戶偏好信息及物品信息,通過(guò)用戶信息及物品信息計(jì)算用戶相似度矩陣及物品相似度矩陣,從而更好的預(yù)測(cè)出用戶特征矩陣及物品特征矩陣,最終提高評(píng)分預(yù)測(cè)的準(zhǔn)確性.Movielens數(shù)據(jù)集中的實(shí)驗(yàn)表明該算法有效的緩解了用戶數(shù)據(jù)稀疏性問(wèn)題,在評(píng)分預(yù)測(cè)準(zhǔn)確性方面相比傳統(tǒng)推薦算法有一定的提升.
由上文可知,傳統(tǒng)推薦算法在應(yīng)用的過(guò)程中經(jīng)常面臨數(shù)據(jù)稀疏的缺點(diǎn),而矩陣分解技術(shù)可以緩解數(shù)據(jù)稀疏性問(wèn)題,并提高評(píng)分預(yù)測(cè)的準(zhǔn)確性.矩陣分解技術(shù)主要分為SVD矩陣分解(Sigular Value Decomposition)、概率矩陣分解PMF(Probability Matrix Factorization)和非負(fù)矩陣分解NMF(Non-negative Matrix Factorization).在概率矩陣分解模型中融入用戶信息可以提高分解后用戶特征矩陣的準(zhǔn)確度,如文獻(xiàn)[11]將用戶社交信息融入概率矩陣分解模型中,通過(guò)用戶社交信息可以計(jì)算出用戶的社交相似度,并且能夠提高矩陣分解后用戶特征矩陣的準(zhǔn)確度,進(jìn)而提高評(píng)分預(yù)測(cè)準(zhǔn)確性;文獻(xiàn)[12]通過(guò)整合社交網(wǎng)絡(luò)中的用戶信任關(guān)系得到用戶信任矩陣,將用戶信任矩陣融入概率矩陣分解模型中提高了矩陣分解的準(zhǔn)確度和評(píng)分預(yù)測(cè)準(zhǔn)確性.
通常而言,計(jì)算用戶相似度不僅可以利用社交信息或者信任信息,根據(jù)用戶的偏好信息也可以計(jì)算出相應(yīng)的用戶相似度值,如文獻(xiàn)[13]正是利用用戶評(píng)分?jǐn)?shù)據(jù)及物品數(shù)據(jù)計(jì)算出用戶的偏好信息,再根據(jù)用戶偏好信息計(jì)算用戶之間的相似度值,最后根據(jù)用戶相似度進(jìn)行協(xié)同過(guò)濾推薦,并通過(guò)實(shí)驗(yàn)證明了這種方法很有效.所以,當(dāng)用戶數(shù)據(jù)中不包含社交及信任等信息時(shí),可以根據(jù)用戶偏好尋找用戶之間的關(guān)系并將其融入概率矩陣分解模型中,以提高分解后用戶特征矩陣的準(zhǔn)確度.另一方面,物品信息通常包括物品標(biāo)簽數(shù)據(jù)及物品流行度數(shù)據(jù)等,根據(jù)這些數(shù)據(jù)可以計(jì)算出物品之間的相似度值,將物品相似度矩陣融入概率矩陣分解模型中也會(huì)提高物品特征矩陣的準(zhǔn)確度.
因此,本文利用概率矩陣分解技術(shù)在處理用戶物品評(píng)分矩陣時(shí)的優(yōu)勢(shì),同時(shí)尋找用戶之間的關(guān)系和物品之間的關(guān)系,將用戶相似度矩陣和物品相似度矩陣共同融入概率矩陣分解模型,可以從用戶及物品兩個(gè)角度提高對(duì)應(yīng)特征矩陣的準(zhǔn)確度,最終提高評(píng)分預(yù)測(cè)的準(zhǔn)確性.
基于概率矩陣分解的推薦算法是在傳統(tǒng)基于矩陣分解推薦算法的基礎(chǔ)上融合概率論相關(guān)知識(shí),從概率的角度出發(fā)解釋與計(jì)算矩陣分解技術(shù),使得算法的可解釋性得到了提升,同時(shí)評(píng)分預(yù)測(cè)準(zhǔn)確性也有所提高.
如表1所示為本文算法所用符號(hào)及對(duì)應(yīng)解釋.
表1 數(shù)學(xué)符號(hào)
Table 1 Mathematical notations
符 號(hào)解 釋M、N用戶集合、物品集合UMK、VNK用戶特征矩陣、物品特征矩陣Ui用戶i的特征矩陣Vj物品j的特征矩陣Mi用戶i的相似用戶集合Nj物品j的相似物品集合Wl,i用戶l與用i的相似度Sk,j物品k與物品j的相似度Ri,j用戶i對(duì)物品j的真實(shí)評(píng)分^Ri,j用戶i對(duì)物品j的預(yù)測(cè)評(píng)分W、S用戶相似度矩陣、物品相似度矩陣λU、λV、λW、λSU、V、W、S的正則化系數(shù)Ii,j用戶i對(duì)物品j有評(píng)分時(shí)為1,否則為0
(1)
(2)
(3)
由貝葉斯公式可得U與V的概率分布函數(shù)如公式(4)所示:
p(U,V|R)∝p(U,V,R)=p(R|U,V)p(U)p(V)
(4)
最大化公式(4)可得公式(5)所示目標(biāo)函數(shù):
(5)
根據(jù)本文前幾節(jié)可知,將概率矩陣分解模型應(yīng)用在推薦系統(tǒng)的用戶物品評(píng)分矩陣中會(huì)有顯著的效果,在評(píng)分預(yù)測(cè)準(zhǔn)確性方面優(yōu)于傳統(tǒng)推薦算法.同時(shí),對(duì)目標(biāo)矩陣進(jìn)行矩陣分解會(huì)形成用戶特征矩陣和物品特征矩陣,如果這兩個(gè)特征矩陣的值更為準(zhǔn)確,最終的評(píng)分預(yù)測(cè)準(zhǔn)確性也會(huì)相應(yīng)提高.近幾年,有許多專家學(xué)者從用戶角度出發(fā),如利用用戶社交信息,用戶信任信息等,通過(guò)用戶的相關(guān)數(shù)據(jù)計(jì)算用戶之間的相似度,將相似度矩陣融入概率矩陣分解模型中進(jìn)而可以提高用戶特征矩陣的準(zhǔn)確度,另一方面,如果可以找到物品之間的關(guān)系,將相應(yīng)的物品相似度矩陣融入概率矩陣分解模型中,則自然也可以提高物品特征矩陣的準(zhǔn)確度.
如圖1為UPIS-PMF算法模型示意圖.
圖1 UPIS-PMF算法模型示意圖Fig.1 Schematic diagram of UPIS-PMF algorithm model
圖1中,用戶i的特征向量受到相似用戶l∈Mi的影響,物品j的特征向量受到相似物品k∈Nj的影響,在本文的UPIS-PMF算法中,可以利用用戶偏好數(shù)據(jù)計(jì)算出用戶之間的相似度,利用物品標(biāo)簽關(guān)聯(lián)度和物品流行度數(shù)據(jù)計(jì)算物品之間的相似度,根據(jù)修正后的用戶向量和物品向量計(jì)算出的用戶物品評(píng)分會(huì)更加準(zhǔn)確.
在推薦系統(tǒng)中,用戶對(duì)許多物品存在評(píng)分行為,而物品通常帶有標(biāo)簽屬性,根據(jù)評(píng)分?jǐn)?shù)據(jù)及物品標(biāo)簽數(shù)據(jù)可以計(jì)算出用戶對(duì)標(biāo)簽的評(píng)分,即為用戶偏好,如果用戶對(duì)某一標(biāo)簽有多次評(píng)分,則取為平均值.
對(duì)于用戶i與用戶l,有公式(6)所示用戶偏好相似度計(jì)算公式:
(6)
公式(6)中,t∈Ti∩Tl為用戶i與用戶l的共同標(biāo)簽評(píng)分集合,ri,t、rl,t分別為用戶i、用戶l對(duì)標(biāo)簽t的評(píng)分,該公式考慮到了用戶評(píng)分偏好對(duì)結(jié)果的影響,將標(biāo)簽評(píng)分與平均評(píng)分的差值作為修正后的評(píng)分參與計(jì)算,最終計(jì)算出的相似度會(huì)更為準(zhǔn)確.
由于用戶的特征受到相似用戶的影響,則對(duì)于用戶i,有公式(7)所示公式:
(7)
將公式(7)以矩陣形式進(jìn)行描述可轉(zhuǎn)化為公式(8)所述形式:
(8)
(9)
所以,融合用戶偏好相似度的用戶潛在特征向量的概率分布如公式(10)所示:
(10)
在研究推薦算法的道路中,許多專家學(xué)者都專注于用戶角度,利用用戶之間的關(guān)系進(jìn)行推薦或者評(píng)分預(yù)測(cè),而物品之間也存在一定的關(guān)系,將物品關(guān)系融入推薦算法也可以提高評(píng)分預(yù)測(cè)準(zhǔn)確性.
在推薦系統(tǒng)中,物品通常具有標(biāo)簽關(guān)聯(lián)度數(shù)據(jù)及物品流行度數(shù)據(jù)等,標(biāo)簽關(guān)聯(lián)度即為物品與標(biāo)簽之間的關(guān)聯(lián)程度,物品流行度指的是物品流行程度,比如淘寶中物品的點(diǎn)贊數(shù)量、豆瓣電影評(píng)分等.如果兩個(gè)物品的標(biāo)簽關(guān)聯(lián)度數(shù)據(jù)很相似,那么這兩個(gè)物品的相似度會(huì)很高,同時(shí),相似物品的流行程度也會(huì)很接近.
令物品j與物品k對(duì)標(biāo)簽t的關(guān)聯(lián)度數(shù)據(jù)分別為realte(j,t)、realte(k,t),則對(duì)于這兩個(gè)物品有公式(11)所示物品標(biāo)簽相似度計(jì)算公式:
(11)
公式(11)中,Tk∩Tj為物品k與物品j的共同標(biāo)簽集合.同時(shí),推薦系統(tǒng)中的物品通常具有流行程度,且流行度可以進(jìn)行數(shù)字量化表示,令物品j與物品k的流行度分別為popj和popk,則物品j與物品k關(guān)于流行度的相似度計(jì)算公式如公式(12)所示:
(12)
由于兩個(gè)物品的流行度僅為單獨(dú)的數(shù)字,沒(méi)有共同部分,所以不能采用類似公式(11)的公式,而是采用公式(12)這種指數(shù)函數(shù)形式,同時(shí),考慮到兩個(gè)流行度都很高的物品流行度差值也可能很高,如點(diǎn)贊數(shù)都是幾十萬(wàn)級(jí)別,采用了相對(duì)流行的計(jì)算方式,將流行度差值的絕對(duì)值與最大流行度相除作為指數(shù)函數(shù)的自變量,使得相似度值計(jì)算結(jié)果更準(zhǔn)確.
利用公式(11)與公式(12)所得相似度值可以計(jì)算物品的綜合相似度,計(jì)算公式如公式(13)所示:
Sk,j=β*sim(k,j)pop*sim(k,j)tag
(13)
公式(13)中,β為參數(shù),用以調(diào)整標(biāo)簽相似度與流行度相似度乘積對(duì)結(jié)果的影響,采用公式(13)而不是傳統(tǒng)加權(quán)的方式,可以最大限度的保證只有物品的標(biāo)簽數(shù)據(jù)相似且流行度相似時(shí)最終的相似度值才會(huì)很高.
同4.2,對(duì)于物品Vj,有公式(14):
(14)
(15)
所以,融合物品相似度的物品潛在特征向量的概率分布如公式(16)所示:
(16)
由4.1、4.2及4.3可知,融合用戶偏好相似度矩陣、物品相似度矩陣和概率矩陣分解模型可得如公式(17)所示后驗(yàn)概率公式:
(17)
最大化上述概率時(shí),可得如公式(18)所示目標(biāo)函數(shù):
(18)
(19)
(20)
對(duì)Ui與Vj進(jìn)行梯度下降法迭代時(shí)滿足公式(21)及公式(22):
(21)
(22)
公式(21)與公式(22)中,α為學(xué)習(xí)速率,用以控制用戶特征向量與物品特征向量在每次迭代時(shí)取值變化的大小,當(dāng)?shù)Y(jié)束時(shí)即可得到相應(yīng)用戶特征矩陣和物品特征矩陣,也可預(yù)測(cè)出任何用戶對(duì)任何物品的評(píng)分.
本文的算法主要分為輸入輸出兩步:
輸入:用戶物品評(píng)分矩陣R、用戶和物品特征矩陣的維度K、物品標(biāo)簽屬性數(shù)據(jù)T1、物品標(biāo)簽關(guān)聯(lián)度矩陣T2、物品流行度矩陣P、算法最大迭代次數(shù)maxepoch、正則化系數(shù)λ、物品相似度調(diào)和系數(shù)β、用戶偏好相似度的正則化系數(shù)λW、物品相似度的正則化系數(shù)λS、學(xué)習(xí)速率α,讀入總批次num_batches及每批讀取數(shù)據(jù)的數(shù)量batch_size.
輸出:用戶潛在特征矩陣UMK和物品潛在特征矩陣VNK,迭代次數(shù)變化時(shí)RMSE的變化情況.
具體步驟如下:
Step 1.讀入用戶物品評(píng)分矩陣,并按8:2劃分?jǐn)?shù)據(jù)集為實(shí)驗(yàn)用到的訓(xùn)練集和測(cè)試集;
Step 2.利用用戶評(píng)分?jǐn)?shù)據(jù)及物品標(biāo)簽屬性數(shù)據(jù)計(jì)算用戶之間的偏好相似度,得到用戶相似度矩陣W;
Step 3.根據(jù)物品標(biāo)簽關(guān)聯(lián)度矩陣和物品流行度矩陣計(jì)算物品之間的相似度值,進(jìn)而得到物品的相似度矩陣S;
Step 4.初始化用戶特征矩陣和物品特征矩陣為正態(tài)分布;
Step 5.分批讀入訓(xùn)練集中的數(shù)據(jù),根據(jù)公式(18)計(jì)算目標(biāo)函數(shù);
Step 6.根據(jù)公式(21)和公式(22)迭代計(jì)算用戶特征和物品特征,并計(jì)算訓(xùn)練集和測(cè)試集的RMSE.
本文的研究主要有兩個(gè)目的:
1)驗(yàn)證UPIS-PMF算法優(yōu)于傳統(tǒng)推薦算法;
2)驗(yàn)證從物品角度考慮也可以提高概率矩陣分解的評(píng)分預(yù)測(cè)準(zhǔn)確性.
本文算法所用數(shù)據(jù)集為Movielens-100k數(shù)據(jù)集和Tag-genome數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集都屬于Movielens數(shù)據(jù)集,其中Movielens-100k數(shù)據(jù)集包含用戶物品評(píng)分?jǐn)?shù)據(jù),物品標(biāo)簽屬性數(shù)據(jù)等,Tag-genome數(shù)據(jù)集包含物品標(biāo)簽屬性數(shù)據(jù),物品標(biāo)簽關(guān)聯(lián)度數(shù)據(jù)和物品流行度數(shù)據(jù)等,后者數(shù)據(jù)集可以對(duì)前者進(jìn)行補(bǔ)充,兩者組合即為最終要使用的數(shù)據(jù)集[14].組合數(shù)據(jù)集包含信息有943名用戶對(duì)1682部電影的評(píng)分?jǐn)?shù)據(jù)、1682部電影的屬性數(shù)據(jù)、1547578條電影標(biāo)簽關(guān)聯(lián)度數(shù)據(jù)、1372部電影的流行度數(shù)據(jù).
第三,幫助宗教界在經(jīng)濟(jì)上實(shí)現(xiàn)自養(yǎng)。領(lǐng)導(dǎo)宗教界獨(dú)立自主自辦宗教,實(shí)現(xiàn)自治、自傳,其中很重要的一點(diǎn)就是培養(yǎng)宗教界能夠不依賴于西方帝國(guó)主義的津貼,在經(jīng)濟(jì)上實(shí)現(xiàn)自力更生,自我發(fā)展。
為了驗(yàn)證本文算法的相對(duì)優(yōu)劣,本文采用均方根誤差RMSE(Root Mean Square Error)作為評(píng)價(jià)指標(biāo),RMSE計(jì)算方法如公式(23)所示:
(23)
公式(23)中,Γ為測(cè)試集,采用均方根誤差作為評(píng)價(jià)指標(biāo)對(duì)算法結(jié)果要求更為嚴(yán)格,更能對(duì)比出算法的相對(duì)優(yōu)劣.
本文提出了UPIS-PMF算法,該算法包含的參數(shù)有用戶特征矩陣和物品特征矩陣的維度K、迭代次數(shù)maxepoch、正則化系數(shù)λ、物品相似度調(diào)和系數(shù)β、用戶相似度的正則化系數(shù)λW、物品相似度的正則化系數(shù)λS、學(xué)習(xí)速率α,讀入總批次num_batches及每批讀取數(shù)據(jù)總量batch_size.
對(duì)于參數(shù)K,通常取值很小時(shí)就可以取得較好的實(shí)驗(yàn)結(jié)果,在本文的實(shí)驗(yàn)中,選取參數(shù)范圍為[2,10],并對(duì)比在不同迭代次數(shù)下測(cè)試集RMSE的變化情況,實(shí)驗(yàn)結(jié)果如圖2所示.
圖2 不同參數(shù)K及迭代次數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響Fig.2 Effect of different parameter K and iterations on experimental results
由圖2可以發(fā)現(xiàn),當(dāng)參數(shù)K取值為2時(shí),算法的結(jié)果整體較差,同時(shí),取值為4到10時(shí),算法結(jié)果較為接近,因此,合適的參數(shù)K應(yīng)當(dāng)取值為10.
參數(shù)β用以調(diào)整物品標(biāo)簽相似度及物品流行度乘積對(duì)物品綜合相似度的影響程度,取值接近于1,在本文的實(shí)驗(yàn)中,選取0.6、0.7、0.8、0.9、1.0五組數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)所得結(jié)果如圖3所示.
圖3 不同參數(shù)β及迭代次數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響Fig.3 Effect of different parameter β and iterations onexperimental results
正則化系數(shù)用以調(diào)整算法性能,防止出現(xiàn)過(guò)擬合,結(jié)合廣大專家學(xué)者的已有實(shí)驗(yàn),在本文的實(shí)驗(yàn)中,將選取0.001、0.005、0.01,0.05和0.1五組數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如圖4所示.
圖4 不同參數(shù)λ及迭代次數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響Fig.4 Effect of different parameter λ and iterations onexperimental results
由圖4可知,UPIS-PMF算法在迭代次數(shù)增加時(shí),不同的參數(shù)λ均會(huì)使算法結(jié)果逐漸變優(yōu)并趨于穩(wěn)定,當(dāng)參數(shù)值小于0.05時(shí),迭代次數(shù)小于200,算法結(jié)果較好,但是迭代次數(shù)大于200時(shí),參數(shù)取值為0.05或0.較好,所以,在本文的算法中取該參數(shù)值為0.1.同時(shí),λW與λS對(duì)實(shí)驗(yàn)的影響與λ類似,為了不失一般性,λW與λS取值也均為0.1.最后,對(duì)于學(xué)習(xí)速率α,該參數(shù)不影響實(shí)際的算法結(jié)果,只影響算法迭代取值的快慢,因此,為了便于對(duì)比算法性能,在本文的實(shí)驗(yàn)中將取值為1.
經(jīng)過(guò)一系列的實(shí)驗(yàn),UPIS-PMF算法中的參數(shù)得到了調(diào)整,為了驗(yàn)證對(duì)比本文算法的相對(duì)優(yōu)劣,將選取其他幾種推薦算法進(jìn)行對(duì)比分析.由于UPIS-PMF屬于矩陣分解算法,而且算法的結(jié)果與迭代次數(shù)有關(guān),因此,將選擇同樣與迭代次數(shù)有關(guān)的幾種算法,進(jìn)行對(duì)比的算法有FunkSVD矩陣分解推薦算法、概率矩陣分解推薦算法(PMF)、基于用戶偏好相似度的概率矩陣分解推薦算法(UP-PMF)和基于物品相似度的概率矩陣分解推薦算法(IS-PMF).實(shí)驗(yàn)所得算法對(duì)比結(jié)果如圖5所示.
圖5 不同迭代次數(shù)下的各類算法對(duì)比圖Fig.5 Comparison of various algorithms underdifferent iteration times
圖5展示了UPIS-PMF、UP-PMF、IS-PMF,PMF和FunkSVD五種算法在迭代次數(shù)變化時(shí)的RMSE變化情況.隨著迭代次數(shù)的增大,F(xiàn)unkSVD算法整體結(jié)果變化較小,而其它四種算法的RMSE值先變小后趨于平緩.當(dāng)?shù)螖?shù)小于70時(shí),F(xiàn)unkSVD算法預(yù)測(cè)準(zhǔn)確性優(yōu)于其它四種推薦算法,當(dāng)?shù)螖?shù)大于70時(shí),其它四種算法的預(yù)測(cè)效果較好,且對(duì)于這種四種算法來(lái)說(shuō),PMF算法的整體結(jié)果最差,UPIS-PMF算法和IS-PMF算法整體結(jié)果較為接近,且優(yōu)于PMF算法,一定程度上說(shuō)明了在概率矩陣分解模型中融入用戶相似度或者物品相似度均可以提高預(yù)測(cè)準(zhǔn)確性.最后,對(duì)于本文的推薦算法,即UPIS-PMF,算法的預(yù)測(cè)準(zhǔn)確性整體最高.
概率矩陣分解推薦算法在評(píng)分預(yù)測(cè)準(zhǔn)確性方面優(yōu)于傳統(tǒng)的推薦算法,且廣大專家學(xué)者從用戶角度出發(fā),將用戶之間的關(guān)系融入概率矩陣分解模型中,組合后的算法提高了評(píng)分預(yù)測(cè)準(zhǔn)確性.本文在前人的基礎(chǔ)上提出了融合用戶偏好和物品相似度的概率矩陣分解推薦算法,通過(guò)用戶偏好尋找用戶之間的相似度關(guān)系,利用物品標(biāo)簽關(guān)聯(lián)度數(shù)據(jù)和物品流行度數(shù)據(jù)計(jì)算物品相似度,將用戶相似度矩陣和物品相似度矩陣共同融入概率矩陣分解模型中,Movielens數(shù)據(jù)集中的實(shí)驗(yàn)表明該算法優(yōu)于傳統(tǒng)的推薦算法,同時(shí)也說(shuō)明了從物品角度進(jìn)行考慮也可以提高評(píng)分預(yù)測(cè)準(zhǔn)確性.
最后,在本文算法的計(jì)算過(guò)程中,由于數(shù)據(jù)集信息有限,僅通過(guò)用戶偏好數(shù)據(jù)計(jì)算用戶相似度,物品標(biāo)簽關(guān)聯(lián)度數(shù)據(jù)及物品流行度數(shù)據(jù)計(jì)算物品相似度,計(jì)劃尋找用戶物品信息更多的數(shù)據(jù)集,利用更多的信息計(jì)算對(duì)應(yīng)的相似度,從而使得算法的預(yù)測(cè)準(zhǔn)確性得到更近一步的提升.