趙智 韓丹
摘要:對(duì)基于余弦相似性、相關(guān)相似性與項(xiàng)目評(píng)分的CF算法進(jìn)行了性能對(duì)比與評(píng)價(jià),對(duì)其在個(gè)性化推薦系統(tǒng)中的應(yīng)用、面臨的問(wèn)題以及相應(yīng)的解決方法進(jìn)行了分析與研究。
關(guān)鍵詞:個(gè)性化推薦系統(tǒng);相似性;協(xié)同過(guò)濾算法;平均絕對(duì)偏差
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)27-6459-02
目前,國(guó)際電子商務(wù)市場(chǎng)已成為發(fā)展最快的市場(chǎng)之一,能否利用有限的資源快速找到用戶所需是搶占市場(chǎng)商機(jī)的關(guān)鍵。最近鄰居技術(shù)在個(gè)性化推薦系統(tǒng)中是目前最成功的。他的基本算法是先找到評(píng)分相似的最近鄰居,然后根據(jù)最近鄰居的評(píng)分?jǐn)?shù)據(jù)向目標(biāo)用戶推薦。這種推薦技術(shù)的結(jié)果成功率非常高,與目標(biāo)用戶的實(shí)際需求非常相似。它并不依賴于對(duì)這些商品必須有的文本描述,而是通過(guò)構(gòu)造用戶對(duì)項(xiàng)目的偏好數(shù)據(jù)集來(lái)實(shí)現(xiàn),因此在個(gè)性化推薦系統(tǒng)中成為一項(xiàng)很受歡迎的技術(shù)。
1 協(xié)同過(guò)濾算法的分類(lèi)
目前主流的協(xié)同過(guò)濾算法有兩類(lèi):基于內(nèi)存和基于模型的協(xié)同過(guò)濾算法。1基于內(nèi)存:參與計(jì)算的數(shù)據(jù)集是用戶—項(xiàng)目數(shù)據(jù)庫(kù);2基于模型:先利用各種機(jī)器學(xué)習(xí)的方法離線建立模型。模型的數(shù)據(jù)來(lái)源是用戶的評(píng)分?jǐn)?shù)據(jù)。模型建立完成后,根據(jù)目標(biāo)用戶的對(duì)其它項(xiàng)目的實(shí)際評(píng)分,得到用戶對(duì)目標(biāo)項(xiàng)目的預(yù)測(cè)結(jié)果。該文主要探討基于模型的協(xié)同過(guò)濾算法。
2 最近鄰協(xié)同過(guò)濾算法
3.3 三種相似性算法分析
基于余弦?jiàn)A角的相似性度量方法:此方法在計(jì)算中將目標(biāo)用戶對(duì)項(xiàng)目的評(píng)分假設(shè)為n維空間上的向量。通過(guò)計(jì)算求得向量間夾角的余弦值。余弦值越小,兩用戶的相似度越高。為避免數(shù)據(jù)極端稀疏,將用戶沒(méi)有評(píng)分的項(xiàng)目評(píng)分都假設(shè)為0分。但實(shí)際應(yīng)用中,用戶對(duì)未評(píng)價(jià)項(xiàng)目的評(píng)分不能全部為0,因此這種算法的可信度不高,相似性計(jì)算不準(zhǔn)確。從實(shí)驗(yàn)結(jié)果中可以看出MAE值相對(duì)較高?;谙嚓P(guān)相似性的相似性計(jì)算方法:在該算法中所有參與計(jì)算的數(shù)據(jù)均為真實(shí)數(shù)據(jù)。但在實(shí)際應(yīng)用中,兩個(gè)用戶共同評(píng)分的項(xiàng)目極少。這種計(jì)算方法使得兩個(gè)用戶僅對(duì)一個(gè)項(xiàng)目評(píng)分,也可計(jì)算出較高的相似性,這與事實(shí)不符。實(shí)驗(yàn)結(jié)果顯示基于相關(guān)相似性的MAE值略低于基于余弦相似性的MAE值?;陧?xiàng)目評(píng)分的協(xié)同過(guò)濾算法:為增加參與計(jì)算的數(shù)據(jù)量,該算法通過(guò)計(jì)算用戶對(duì)未評(píng)價(jià)項(xiàng)目之間的相似性,從而預(yù)測(cè)出用戶對(duì)未評(píng)價(jià)項(xiàng)目的評(píng)分,豐富了參與相似性度量的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,該算法的MAE值最小,推薦質(zhì)量越高。但是,該算法的時(shí)間復(fù)雜度較高為O(n4) ,計(jì)算較為復(fù)雜,因此必須離線進(jìn)行。
4 結(jié)束語(yǔ)
本文對(duì)基于余弦相似性、相關(guān)相似性和項(xiàng)目評(píng)分的協(xié)同過(guò)濾算法進(jìn)行了性能對(duì)比。實(shí)驗(yàn)結(jié)果表明,協(xié)同過(guò)濾算法中相似性度量的計(jì)算,既要考慮參與計(jì)算的數(shù)據(jù)數(shù)量又要考慮參與評(píng)價(jià)的數(shù)據(jù)的真實(shí)性。由于協(xié)同過(guò)濾技術(shù)多用于在線的電子商務(wù)系統(tǒng),因此還要考慮到算法的效率問(wèn)題。下一步應(yīng)考慮在基于項(xiàng)目評(píng)分的相似性度量方法基礎(chǔ)上,提高計(jì)算效率。
參考文獻(xiàn):
[1] 白麗君,張永奎,陳鑫卿.協(xié)作過(guò)濾研究概述[J].電腦開(kāi)發(fā)與應(yīng)用,2002,15(11).
[2] 鄧愛(ài)林,朱揚(yáng)勇,施伯樂(lè).基于項(xiàng)目評(píng)分預(yù)測(cè)得協(xié)同過(guò)濾推薦算法[J].軟件學(xué)報(bào),2003,14(9):1621-1628.