摘 要: 為了提高電影個性化推薦的準確性,將電影通過導演、演員、上映時間、類型和地區(qū)等五個部分作為特征維度來表征,特征維度權值采用CHI方法計算,特征維度的權值進行歸一化后,電影之間的相似度可以通過特征維度間的相似度體現(xiàn),用戶推薦模型通過不斷迭代更新對各維度特征權值進行修正,提高模型推薦的準確性。實驗結果表明,改進的算法在MovieLens數(shù)據集能夠獲得較高的準確率和召回率,能夠比較準確地捕獲用戶的興趣,并在一定程度上解決了用戶興趣漂移的問題。
關鍵詞: 多維度; 電影推薦; 權值動態(tài)更新; 個性化推薦模型
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)15?0127?03
Abstract: In order to improve the accuracy of the movie personalized recommendation, the movie is charactered with the feature dimensions of director, performer, showtime, type and area. The weights of feature dimensions are calculated with CHI method, and then normalized to reflect the similarity among movies by means of the similarity among the feature dimensions. The user recommendation model can correct the feature weigh of each dimension with the continuous iteration update to improve the accuracy of model recommendation. The experimental results show that the improved algorithm can obtain high accuracy rate and recall rate with MovieLens dataset, capture the user′s interest exactly, and solve the user interest drifting to a certain extent.
Keywords: multi?dimension; movie recommendation; weight dynamic update; personalized recommendation model
0 引 言
隨著信息的快速增長,越來越多的信息充斥在互聯(lián)網上,搜索引擎雖然能夠在一定程度上幫助人們搜尋需要的信息,然而其輸出的結果通常具備通用性和普適性,缺乏對搜索結果的個性化和定制化[1],基于此,本文主要就電影領域的個性化推薦展開研究,試圖提高電影推薦的準確率。個性化推薦的目的是為了節(jié)約用戶搜索信息的時間。個性化推薦對用戶的行為日志進行分析,挖掘用戶感興趣的領域,以用戶興趣為導向進行定向推薦[2?3]。個性化推薦以興趣的表示最為重要,推薦算法需要根據用戶的興趣表征進行內容相關度排序。目前,用戶興趣的表征有向量空間模型,樹模型和本體模型等。其中,以向量空間模型應用最為廣泛。
基于向量空間模型的用戶興趣表征將用戶興趣表示成鍵值對的形式,形如[{K1:V1,K2:V2,…,Kn:Vn}],其中[Ki]表示興趣詞,[Vi]表示該興趣詞對應的權值[4?5]。以本文所要論述的電影領域為例,[Ki]可以表示演員這個維度的關鍵詞集合,[Vi]表示該維度對應的權值。關鍵詞權值的計算可以采用關鍵詞出現(xiàn)次數(shù),也可以采用該關鍵詞的出現(xiàn)頻率來表示。基于向量空間模型的用戶興趣表征方法只能反映用戶對哪個關鍵詞感興趣,對于電影這種有明確維度標識的對象而言,文獻[6]提出的基于領域劃分的興趣表征方法,針對不同的領域建立不同的興趣模型,然而,向量空間模型只能反映用戶對某個關鍵詞感興趣而不能反映對某個特征維度感興趣。
本文提出針對電影對象,將電影劃分為導演、演員、上映時間、類型和地區(qū)這五個維度,為每個維度分配維度權值,同時各個維度采用向量空間模型加以表示,向量空間模型中各個屬性字段表示該維度內各個關鍵詞,屬性字段對應的權值表示各個關鍵詞的權值,關鍵詞權值的計算可以采用CHI或者關鍵詞重復度,因此,電影對象用兩層向量進行表征,在進行實際模型的更新和修正時需要迭代地完成維度權值和維度內向量中各個屬性字段權值的更新?;诟倪M的兩層向量興趣表征方法在MovieLens數(shù)據集上的效果要優(yōu)于未改進的算法。
1 雙層興趣模型
在向量空間模型的基礎上,對用戶的興趣進行重新表征。對電影領域而言,電影可初略認為由導演、演員、上映時間、類型和地區(qū)這五個因素組成。將這五個因素作為用戶興趣的第一層興趣[7]。以導演這個因素為例,不同的電影可能存在不同的導演,因此可以對導演這個因素進行細分,表示用戶感興趣的導演列表?;陔p層向量表示的用戶興趣模型如圖1所示。
3 實驗與分析
本文采用MovieLens數(shù)據對改進的算法進行驗證,在MovieLens數(shù)據集[14?15]中,用戶對自己看過的電影進行評分,分值為1~5。MovieLens包括兩個不同大小的庫,適用于不同規(guī)模的算法。小規(guī)模的庫是943個獨立用戶對1 682部電影作的10 000次評分的數(shù)據;大規(guī)模的庫是6 040個獨立用戶對3 900部電影作的大約100萬次評分。本文實驗采用小規(guī)模庫的數(shù)據進行驗證。
將數(shù)據拆分為兩部分,其中70%數(shù)據用于訓練數(shù)據,30%數(shù)據用于測試數(shù)據。這部分數(shù)據中,電影主要由三個維度構成:電影名稱、電影類型和上映時間,本文主要選取電影類型和上映時間這兩個維度進行算法驗證。
3.1 評價指標
本文主要對比基于內容推薦的算法來驗證改進算法的有效性,主要的評價指標采用準確率和召回率。
3.2 實驗分析
基于文獻[4],分別比較采用文獻[4]算法進行內容推薦與本文改進算法進行準確率和召回率的比較。用戶推薦列表的長度分別設置為10,15,20,25,30,兩種算法的準確率和召回率如圖2和圖3所示。
從準確率和召回率的算法對比圖上可以看出,本文算法能夠提高用戶推薦的準確率和召回率。
4 結 語
隨著越來越多的在線服務平臺和社交平臺的出現(xiàn),對用戶進行內容預篩選顯得尤為重要,個性化的用戶推薦策略對用戶推薦內容的定制起到了關鍵性的作用,減少了用戶在信息篩選時的時間,提高用戶對平臺的滿意度和粘性,對提高平臺的整體活躍度至關重要。
本文提出的基于電影領域的用戶個性化推薦方法將電影以維度進行拆分,用戶的興趣劃歸為對各個維度的偏好程度,同時,借助用戶歷史興趣對當前興趣權值進行修正,在一定程度上提高了對用戶內容推薦的準確率和召回率,另一方面也降低了用戶興趣的漂移。然而,此種方法需要用戶的觀看興趣,此外,本文算法的時間復雜度也相對較高,需要進一步優(yōu)化。
參考文獻
[1] 徐玉辰,劉真,張付志.基于增量式聚類和矩陣分解的魯棒推薦方法[J].小型微型計算機系統(tǒng),2015(4):689?695.
[2] 唐宇,凌志剛,李建成,等.基于自適應特征融合的壓縮感知跟蹤算法[J].計算機工程與應用,2015,51(10):160?165.
[3] LIU B, XIONG H, PAPADIMITRIOU S, et al. A general geographical probabilistic factor model for point of interest recommendation [J]. IEEE transactions on knowledge and data engineering, 2014, 27(5): 1167?1179.
[4] 辛樂,范玉順,李想,等.基于服務信譽評價的偏好分析與推薦模型[J].計算機集成制造系統(tǒng),2014(12):3170?3181.
[5] 唐曉波,祝黎,謝力.基于主題的微博二級好友推薦模型研究[J].圖書情報工作,2014(9):105?113.
[6] JI Ke, SHEN Hong. Addressing cold?start: scalable recommendation with tags and keywords [J]. Knowledge?based systems, 2015, 83: 42?50.
[7] 熊湘云,伏玉琛,劉兆慶.基于二分網絡投影的多維度推薦算法設計研究[J].計算機應用與軟件,2014(8):253?256.
[8] HE Yue, TAN Jinxiu. Study on SINA micro?blog personalized recommendation based on semantic network [J]. Expert systems with applications, 2015, 42(10): 4797?4804.
[9] HU L, LIN K, HASSAN M M, et al. CFSF: on cloud?based recommendation for large?scale e?commerce [J]. Mobile networks applications, 2015, 20(3): 380?390.
[10] 劉亞軍,鮑娌娜.基于分類的新聞用戶興趣模型研究[J].新聞傳播,2013(9):94?96.
[11] 楊長春,孫婧.一種新的基于用戶群體關系挖掘的隨機漫游社會推薦模型[J].小型微型計算機系統(tǒng),2012(3):565?570.
[12] JIANG Shuhui, QIAN Xueming, SHEN Jialie, et al. Author topic model?based collaborative filtering for personalized POI recommendations [J]. IEEE transactions on multimedia, 2015, 17(6): 907?918.
[13] KIM H N, SADDIK A E. A stochastic approach to group re?commendations in social media systems [J]. Information systems, 2015, 50: 76?93.
[14] 琚春華,鮑福光.基于情境和主體特征融入性的多維度個性化推薦模型研究[J].通信學報,2012(z1):17?27.
[15] HUANG S S, MA J, CHENG P Z, et al. A hybrid multigroup coclustering recommendation framework based on information fusion [J]. ACM transactions on intelligent systems and technology, 2015, 6(2): 102?112.