宋志理 胡勝利
摘要:為了解決協(xié)同過濾算法中的數(shù)據(jù)稀疏性問題,本文提出一種融入項目屬性相似度的矩陣分解算法(IS-MF)。IS-MF算法首先根據(jù)矩陣分解對原始評分矩陣降維;然后計算項目屬性相似度預(yù)測再去填充原始評分矩陣的缺失數(shù)據(jù);最后在填充后的矩陣基礎(chǔ)上計算預(yù)測得分產(chǎn)生推薦。在真實的MovieLens數(shù)據(jù)集上進行實驗,得出本文提出的IS-MF算法使得推薦的效果極大提高了。
關(guān)鍵詞:矩陣分解;項目屬性相似度;協(xié)同過濾;推薦算法
中圖分類號:TP181 文獻標識碼:A
文章編號:1009-3044(2019)16-0198-01
開放科學(資源服務(wù))標識碼(OSID):
1 引言
隨著大數(shù)據(jù)時代的到來,人們很難快速在網(wǎng)上捕捉自己需要的信息。因此出現(xiàn)了個性化的推薦系統(tǒng)。近期有許多學者提出了改進算法。針對基于改進矩陣分解的推薦算法,盛偉等人[1]提出了根據(jù)用戶的評分行為將原始評分數(shù)據(jù)矩陣進行分群操作,然后對相似的用戶群評分矩陣進行分解并產(chǎn)生推薦。考慮到語義的相似度問題,王陽等人[2]提出了基于層次結(jié)構(gòu)樹計算項目間的語義相似性,最后結(jié)合矩陣分解進行降維處理并產(chǎn)生推薦??紤]到相關(guān)度,余美華[3]提出了一種結(jié)合用戶偏好度和項目相關(guān)度的算法。綜合上述文獻,本文提出一種融入項目屬性相似度的矩陣分解算法。
2 本文算法
矩陣分解是協(xié)同過濾的最主要的推薦算法[4]。假設(shè)用戶[U={u1,u2,…,un}],項目[V=j1,j2,…,jm]和評分矩陣[R∈RN×M]。用矩陣分解得到用戶矩陣和項目矩陣。在項目矩陣上,求項目屬性的相似度。項目屬性數(shù)據(jù)潛藏著各個用戶的興趣愛好。設(shè)[X1~Xn]是項目屬性名,[Amn]是對應(yīng)項目[pm]在屬性名[Xn]上的值。對項目[px],設(shè)[k0]為缺省,則[Axy∈k0,k1,…,kl],則兩個項目屬性相似度公式為:
根據(jù)得到的屬性相似度,將填充原始評分矩陣的稀缺部分,可得新的評分矩陣;最后獲取項目的鄰居集并預(yù)測評分。設(shè)[γ]表示相似閾值,獲取鄰居集式為:[Sj=LTopk];預(yù)測式為:[Ruj=rj+i∈S(j)sim(i,j)(ru,i-ri)i∈S(j)sim(i,j) ];其中,[Ruj]表示用戶[u]對項目[j]的評級,[ri]和[rj]分別表示對項目[i]和項目[j]的平均評級。
3 實驗與分析
本文的實驗數(shù)據(jù)集采用的是:[MovieLens 1M ML 1 M];其中包含的用戶數(shù):6040,項目數(shù):3706,交互:1000209,稀疏度:95.53%。在實驗中采用留一法,訓練與測試數(shù)據(jù)集為4:1,評估標準采用的是平均絕對誤差([MAE])來進行評估的[5]。設(shè)n為測試集的大小,則[MAE]的計算式為:[MAE=i=1npi-qin]。
將本文的IS-MF算法與基于用戶的協(xié)同過濾([UBCF])、基于項目的協(xié)同過濾([IBCF])在共同的數(shù)據(jù)集下進行對比驗證。實驗結(jié)果如圖1所示:
由于MAE值越小,推薦的效果越好。根據(jù)最后的實驗結(jié)果證明,本文提出的[IS-MF]算法的MAE值低于其他算法。
4 總結(jié)
針對數(shù)據(jù)稀疏性缺陷,本文提出一種加入項目屬性相似度的矩陣分解算法,能有效提高推薦算法的精確性。在未來工作中,打算考慮加入自動編碼器,進一步的捕獲項目的特征,進而提高推薦的性能。
參考文獻:
[1] 盛偉,王保云,何苗,余英.基于評分相似性的群稀疏矩陣分解推薦算法[J].計算機應(yīng)用,2017,37(05):1397-1401.
[2] 王陽,鐘勇,李振東,楊觀賜.融合語義相似度與矩陣分解的評分預(yù)測算法[J].計算機應(yīng)用,2017,37(S1):287-291.
[3] 俞美華.融合用戶興趣度與項目相關(guān)度的電影推薦算法研究[J].電腦知識與技術(shù),2017,13(08):22-26.
[4] Liu Y, Wang S, Khan M S, et al. A novel deep hybrid recommender system based on auto-encoder with neural collaborative filtering [J]. Big Data Mining and Analytics, 2018, 1(3): 211-221.
[5] 邢長征,楊曉婷.基于 SVD++ 與標簽的跨域推薦模型[J].計算機工程,2018,4;36.
【通聯(lián)編輯:梁書】