• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      綜合用戶特征和項目屬性的協(xié)作過濾推薦算法改進(jìn)

      2015-03-08 07:13:55高良友黃夢醒

      高良友,黃夢醒

      (海南大學(xué) 信息科學(xué)技術(shù)學(xué)院, 海南 ???570228)

      ?

      綜合用戶特征和項目屬性的協(xié)作過濾推薦算法改進(jìn)

      高良友,黃夢醒

      (海南大學(xué) 信息科學(xué)技術(shù)學(xué)院, 海南 ???570228)

      摘要:在綜合用戶特征和項目屬性的協(xié)作過濾推薦算法的基礎(chǔ)上,提出了一種改進(jìn)的基于綜合用戶特征和項目屬性的協(xié)作過濾推薦算法,分析不同用戶群體對不同項目屬性的普遍評分,并結(jié)合已評分的項目屬性,預(yù)測未評分項目.仿真結(jié)果表明,改進(jìn)算法比原算法具有更高的推薦精準(zhǔn)度,并進(jìn)一步降低數(shù)據(jù)集的稀疏性和緩解冷啟動問題.

      關(guān)鍵詞:協(xié)作過濾; 稀疏性; 用戶群體; 項目屬性

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,可以方便地獲取到豐富的信息資源,但同時也容易被海量信息淹沒,造成了嚴(yán)重的“信息過載”現(xiàn)象.個性化推薦系統(tǒng)是用來處理嚴(yán)重的“信息過載”問題的常用手段,而在個性化推薦系統(tǒng)中,協(xié)作過濾算法是最為經(jīng)典,應(yīng)用最為廣泛,并且是常用的個性化推薦算法之一.協(xié)作過濾算法中最常用的算法有基于用戶的協(xié)作過濾推薦算法和基于項目的協(xié)作過濾推薦算法.基于用戶的協(xié)作過濾推薦算法[1]的基本思想是用戶對未評分項目的預(yù)測評分值可以由與該用戶相似度最高的K個近鄰用戶對當(dāng)前用戶未評分項目的評分值進(jìn)行加權(quán)平均而得出.基于項目的協(xié)作過濾推薦算法[2]和基于用戶的協(xié)作過濾推薦算法的原理相近,其基本思路是用戶對未評分項目的預(yù)測評分值可以由該用戶對和當(dāng)前項目相似度最高的K個近鄰項目的評分值進(jìn)行加權(quán)平均而獲得.在現(xiàn)實應(yīng)用當(dāng)中,伴隨著用戶數(shù)量或項目數(shù)量的逐步提升,上述2種協(xié)作過濾推薦算法需要處理的數(shù)據(jù)量越來越大,導(dǎo)致其性能會變差.對于新項目問題,基于項目的協(xié)作過濾推薦算法可以在一定程度上緩解問題,但是對于新用戶問題,基于用戶和基于項目的協(xié)作過濾推薦算法都將會失效[3].Sarwar[2]和Deshpande[5]等通過實驗得出在同樣的應(yīng)用情境下基于項目的協(xié)作過濾推薦算法的推薦精準(zhǔn)度比基于用戶的協(xié)作過濾推薦算法的推薦精準(zhǔn)度要高.但是,基于項目的協(xié)作過濾推薦算法也同樣不可避免地存在數(shù)據(jù)集稀疏性、冷啟動等問題,導(dǎo)致個性化推薦系統(tǒng)的推薦精準(zhǔn)度存在瓶頸.

      針對以上的問題,國內(nèi)外學(xué)者進(jìn)行了大量的科學(xué)研究.文獻(xiàn)[6]對于個性化推薦系統(tǒng)中存在的過度擬合和數(shù)據(jù)集稀疏性等問題,提出了鄰居模型、因子分解模型和情緒上下文相結(jié)合的協(xié)作過濾推薦算法來解決這些問題.文獻(xiàn)[7]對于協(xié)作過濾推薦算法普遍存在的由于數(shù)據(jù)更新需要重復(fù)進(jìn)行相似度的計算而帶來的可擴(kuò)展性問題,以及數(shù)據(jù)集稀疏性和冷啟動等問題,提出了一種基于項目分類的協(xié)作過濾推薦算法,并將云模型引入到個性化推薦系統(tǒng)中,兩者的結(jié)合有效地解決了傳統(tǒng)基于云模型協(xié)作過濾推薦算法所存在的誤推薦問題.文獻(xiàn)[8]對傳統(tǒng)協(xié)作過濾推薦算法中所存在的數(shù)據(jù)集稀疏性問題,從而導(dǎo)致推薦精準(zhǔn)度不高的問題,提出了一種基于云填充和項目屬性的協(xié)作過濾推薦算法,首先利用云模型中的數(shù)據(jù)對用戶評分矩陣中的稀疏數(shù)據(jù)進(jìn)行填充,然后根據(jù)傳統(tǒng)的相似度計算方法,得出項目之間的相似度,同時計算項目的屬性相似度,將2個相似度通過加權(quán)因子得到最終的項目之間的相似度.文獻(xiàn)[9]在基于項目分類的協(xié)作過濾推薦算法的基礎(chǔ)之上提出了一種改進(jìn)算法,先根據(jù)用戶項目的分類數(shù)據(jù),獲得用戶對類內(nèi)部尚未評分項目的評分估計值,再計算類內(nèi)部的用戶之間的相似度獲得目標(biāo)用戶的最相近的鄰居用戶,最后產(chǎn)生推薦.

      文獻(xiàn)[6]和[7]中的算法都有效地緩解了數(shù)據(jù)集稀疏性的問題,并在一定程度上提高了推薦系統(tǒng)的推薦精準(zhǔn)度,但均沒有將項目屬性作為影響因子考慮到推薦系統(tǒng)中.在實際應(yīng)用中,項目屬性是決定用戶偏好的重要因素.文獻(xiàn)[8]和[9]中在協(xié)作過濾算法中引入項目屬性信息,但也還存在一些不足之處:1)在數(shù)據(jù)集極度稀疏的情境下,僅僅通過項目屬性值很難預(yù)測出其他未評分項目的評分預(yù)測值;2)在對用戶進(jìn)行評分預(yù)測時,沒有考慮到用戶所在群體的普遍評分,而用戶對項目的評分值,很多情況下接近其所在群體的普遍評分值[10].文獻(xiàn)[10]在預(yù)測用戶對未評分項目的評分預(yù)測值的時候,同時考察用戶的特征信息和項目的屬性信息,進(jìn)一步緩解了數(shù)據(jù)稀疏性和冷啟動問題.但是,綜合用戶特征和項目屬性的協(xié)作過濾推薦算法也存在很多需要進(jìn)一步完善的地方: 1)項目屬性矩陣填充的普遍評分值和實際情況會有較大的差異; 2)評分預(yù)測值計算公式不能適用于方差為零的情況;3)待填充屬性的選取方法比較粗糙;4)不能很好地處理多個特征對于相同屬性的疊加效應(yīng).

      本文針對綜合用戶特征和項目屬性的協(xié)作過濾推薦算法所存在的缺點進(jìn)行改進(jìn).對于每一個用戶,綜合用戶的多個特征,確定具有這些特征的用戶群體,并且計算用戶群體對不同項目屬性的普遍評分,將超過一定比例的項目屬性評分次數(shù)的項目屬性普遍評分預(yù)填充到該用戶的項目屬性矩陣中.在進(jìn)行評分預(yù)測時,將計算公式進(jìn)行修改,使其適用于方差為零的情況.仿真結(jié)果表明,本文算法提高了推薦精準(zhǔn)度,并進(jìn)一步降低數(shù)據(jù)集的稀疏性和緩解冷啟動問題.

      1基于項目的協(xié)作過濾推薦算法

      基于項目的協(xié)作過濾推薦算法主要包括相似度計算、評分預(yù)測算法等.

      1.1相似度計算基于項目的協(xié)作過濾推薦算法所采用的相似度計算公式主要有如下幾種

      1) 余弦相似度

      (1)

      其中,simij表示項目i和項目j之間的相似度,Ii和Ij表示項目i和項目j的評分向量.

      2) 修正的余弦相似度

      (2)

      其中,Rie是用戶i對項目e的評分,Ae為共同評分的項目中用戶i的平均評分,Iij是被用戶i和用戶j共同評分的項目集合[11].

      3) 皮爾遜相關(guān)系數(shù)

      (3)

      這3種計算項目和項目之間相似度的公式都有各自不同的適用場景.本文選取余弦相似度計算公式是為了和文獻(xiàn)[10]中的算法進(jìn)行對比.

      1.2評分預(yù)測計算本文采用和文獻(xiàn)[12]相同的評分預(yù)測計算公式

      (4)

      2綜合用戶特征和項目屬性的協(xié)作過濾推薦算法改進(jìn)

      2.1 綜合用戶特征和項目屬性的協(xié)作過濾推薦算法的不足

      1) 在預(yù)測用戶對未評分項目的評分預(yù)測值的過程中,文獻(xiàn)[10]會為每個用戶的項目屬性矩陣填充普遍評分,但填充的這個普遍評分值卻總是一個固定的值(固定值為評分區(qū)間的中間值avg).在很多情形下,此種做法不符合實際情況.若評分區(qū)間為[1,5],具有某個特征的用戶評價特定屬性的項目10 000次,但是這個評分值很低,總為1,按照文獻(xiàn)[10]的算法,為此屬性填充3.

      (5)

      其中n為評分區(qū)間的最大值.

      2) 文獻(xiàn)[10]的評分預(yù)測值計算公式不能適用于方差為零的情形,而在冷啟動和數(shù)據(jù)集極端稀疏的情況下,方差為零的情形比較常見.

      (6)

      其中,Pu,i表示用戶u對項目Itemi的評分預(yù)測值,avgk是項目Itemi的項目屬性k在用戶u的均值矩陣當(dāng)中的數(shù)值,vark表示項目Itemi的項目屬性k在用戶u的方差矩陣當(dāng)中的數(shù)值.

      3) 選取待填充屬性的方法比較粗糙:①僅僅根據(jù)評分人數(shù)來確定待填充屬性,而評分人數(shù)和評分值之間沒有必然的聯(lián)系;②不同特征的評分用戶數(shù)目相差較大,但文獻(xiàn)[10]總是為每個不同特征選取相同數(shù)量的待填充屬性.

      4) 沒有考慮到多個特征對于相同屬性的疊加效應(yīng).比如某個特征對于一個屬性的評分值很高,另外一個特征對于這個屬性的評分值也很高.現(xiàn)有一個用戶同時具備這2個特征,如果按照文獻(xiàn)[10]的算法,在評分區(qū)間為[1,5]的情況下,此用戶對于這個屬性的評分預(yù)測值仍然是3.

      2.2 改進(jìn)算法的算法步驟

      1) 根據(jù)已有用戶對項目的評分?jǐn)?shù)據(jù)的基礎(chǔ)上,建立用戶-項目評分矩陣,如表1所示.

      表1 用戶-項目評分矩陣

      表1中,Itemj表示第j個項目,Useri表示第i個用戶,rij表示第i個用戶對第j個項目的評分值.若第i個用戶對第j個項目有評分信息,則rij為相應(yīng)的評分;否則rij=0,表示第i個用戶尚未對第j個項目評分.

      2) 為每個用戶建立各自的項目屬性評分矩陣,并對每個項目屬性評分矩陣進(jìn)行初始化.任一用戶Useri的項目屬性評分矩陣,如表2所示.

      表2 用戶Useri的項目屬性評分矩陣

      表2中,Item1,Item2,…,Itemn表示系統(tǒng)中的所有項目,attr1,attr2,…,attrm表示系統(tǒng)中的所有項目屬性集合的并集.初始化每個項目屬性評分矩陣是讓任一Useri的項目屬性評分矩陣中的元素vij均為零.

      3) 對用戶的項目屬性評分矩陣填充用戶-項目評分矩陣中的相應(yīng)非零元素.若用戶Useri對項目j的評分為rij≠0,則使Useri的項目屬性評分矩陣中

      (7)

      其中,rij表示用戶i對項目j的評分,attrm表示屬性m,Attrj表示項目j包含的屬性集合.

      4) 根據(jù)用戶的性別、年齡和職業(yè)等信息唯一地確定了一個用戶群體,統(tǒng)計此用戶群體中所有用戶的數(shù)目sum、任一項目屬性的評分次數(shù)attrCount[i]和評分總和attrSum[i].

      5) 從用戶群體中選擇滿足attrCount[i]≥sum*percent(其中,percent為0到100%之間的數(shù),本文算法采用10%)的項目屬性,并添加到候選的待填充屬性集Atrribute中.

      6) 遍歷該用戶未評分項目的所有屬性,考察其是否屬于候選的待填充屬性集Atrribute.若是,則為項目屬性矩陣填充普遍評分值attrSum[i]/attrCount[i].

      7) 對于用戶的項目屬性評分矩陣中不全為零的列,計算此列的均值和方差,并將結(jié)果填充到此用戶的均值矩陣和方差矩陣中.用戶Useri的均值矩陣和方差矩陣如表3和表4所示.

      表3  用戶Useri的均值矩陣

      表3中,avgi表示用戶Useri對屬性attri的均值.

      表4 用戶Useri的方差矩陣

      表4中,vari表示用戶Useri對屬性attri的方差.在用戶Useri的方差矩陣當(dāng)中,如果某一列的方差超過了限定最大值,則就將該方差設(shè)為零.

      8) 在用戶-項目評分矩陣中,如果用戶u對項目Itemi的評分值為零(也就是未評分),但是在該用戶的項目屬性評分矩陣中項目Itemi所對應(yīng)屬性的屬性評分值并不為零,則可以通過以下公式計算出該用戶對項目Itemi的預(yù)測評分值.計算公式如下

      (8)

      其中,avgk是項目Itemi的項目屬性k在用戶u的均值矩陣當(dāng)中的數(shù)值,vark表示項目Itemi的項目屬性k在用戶u的方差矩陣當(dāng)中的數(shù)值,X代表項目Itemi的項目屬性集合,n1表示項目Itemi的項目屬性中方差為零的項目屬性數(shù)目,n2表示項目Itemi的項目屬性中方差不為零的項目屬性數(shù)目.

      9) 通過式(8)計算出來的用戶對項目的預(yù)測評分值,填充該用戶的用戶-項目評分矩陣.

      10) 用式(1)計算出項目和項目之間的余弦相似度,并結(jié)合式(4)得出評分預(yù)測值.

      3實驗結(jié)果與分析

      3.1數(shù)據(jù)集與度量標(biāo)準(zhǔn)本文的實驗仿真數(shù)據(jù)集利用Minnesota大學(xué)項目組GroupLens Research所提供的含10萬多條評分記錄的MovieLens電影評分?jǐn)?shù)據(jù)集,此數(shù)據(jù)集是由943個用戶對1 682部電影所做出的評分?jǐn)?shù)據(jù).MovieLens站點的評分范圍是1到5的整數(shù),數(shù)值越大,說明此用戶對這部電影的喜愛程度越高[12-13].

      平均絕對誤差(Mean Absolute Error, MAE) 是個性化推薦系統(tǒng)中應(yīng)用非常廣泛的一種評價標(biāo)準(zhǔn),用來計算測試數(shù)據(jù)集中通過推薦算法計算出來的預(yù)測值和用戶的真實評分之間的絕對誤差值.MAE值越小,推薦系統(tǒng)的推薦精準(zhǔn)度就會越高.

      MAE的計算公式為

      (9)

      其中,pi表示用戶對項目的預(yù)測評分值,ri表示用戶對項目的真實評分.

      3.2實驗結(jié)果與分析本實驗的目的是將本文的改進(jìn)算法和文獻(xiàn)[10]中的綜合用戶特征和項目屬性的協(xié)作過濾推薦算法(USERITEM-CF)進(jìn)行比較.為了提高實驗結(jié)果的真實性,從10萬條評分記錄的電影評分?jǐn)?shù)據(jù)集中隨機抽取100個用戶的評分記錄組成仿真數(shù)據(jù)集,并將仿真數(shù)據(jù)集按照8∶2的比例劃分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,實驗結(jié)果如圖1所示.

      圖1可以得出,1)本文的改進(jìn)算法為用戶的項目屬性矩陣填充的普遍評分值相對于綜合用戶特征和項目屬性的協(xié)作過濾推薦算法預(yù)填充的普遍評分值而言,更加具有動態(tài)性,同時也更加合理;2)綜合用戶特征和項目屬性的協(xié)作過濾推薦算法的評分預(yù)測值計算公式在方差值為零的情況下,整個公式會失效,而方差為零的情況在數(shù)據(jù)集極端稀疏和冷啟動等情形下會比較常見.本文改進(jìn)算法采用了新的評分預(yù)測值計算公式,使其能夠適用于方差為零的情況;3)改進(jìn)算法中選取待填充屬性的方法比原有算法更加合理; 4)綜合用戶特征和項目屬性的協(xié)作過濾推薦算法沒有考慮到多個特征對于相同屬性的疊加效應(yīng).本文的改進(jìn)算法通過用戶的多個特征信息唯一地確定了一個用戶群體,很好地解決了此問題.

      此外,在隨機抽取100個用戶的實驗數(shù)據(jù)中,當(dāng)近鄰數(shù)取40、50、60和70時,改進(jìn)算法和原有算法的MAE值都比較穩(wěn)定,但改進(jìn)算法的MAE比原有算法的MAE更小.

      綜上所述,本文的改進(jìn)算法可以獲得比綜合用戶特征和項目屬性的協(xié)作過濾推薦算法更好的推薦質(zhì)量,同時可以進(jìn)一步降低數(shù)據(jù)集的稀疏性,緩解冷啟動問題.

      4小結(jié)

      首先分析當(dāng)前協(xié)作過濾算法研究當(dāng)中所存在的一些問題、相應(yīng)的解決方法以及這些方法的優(yōu)缺點,然后針對綜合用戶特征和項目屬性的協(xié)作過濾推薦算法中所存在的不足之處進(jìn)行相應(yīng)的改進(jìn),提出了一種改進(jìn)算法.該改進(jìn)算法同時根據(jù)用戶的多個特征信息唯一地確定了此用戶所在的用戶群體,并將該用戶群體的社會普遍項目屬性評分?jǐn)?shù)值填充進(jìn)此用戶的項目屬性評分矩陣中,然后計算用戶對不同項目屬性的均值和方差,再通過公式得出此用戶對未評分項目的評分預(yù)測值,并將其填充到此用戶的用戶-項目評分矩陣中,改進(jìn)算法同時改進(jìn)了評分預(yù)測值計算公式,使其能夠適用于方差為零的情形.仿真結(jié)果表明,該改進(jìn)算法提高了推薦的精準(zhǔn)度,同時進(jìn)一步降低數(shù)據(jù)集的稀疏性和緩解冷啟動問題.

      參考文獻(xiàn):

      [1] Chen Z M, Jiang Y, Zhao Y. A collaborative filtering recommendation algorithm based on user interest change and trust evaluation[J]. International Journal of Digital Content Technology and its Applications, 2010, 4(9): 106-113.

      [2] Sarwar B M, Karypis G, Konstan J A, et al. Item-based collaborative filtering recommendation algorithms[M]. New York: ACM Press, 2001: 285-295.

      [3] 雷琨. 電子商務(wù)個性化推薦系統(tǒng)研究[D]. 成都:電子科技大學(xué), 2012.

      [4] Su X Y, Taghi M K. A survey of collaborative filtering techniques[J]. Advances in Artificial Intelligence, 2009, 2009(4): 1-20.

      [5] Deshpande M, Karypis G. Item-based top-nrecommendation algorithm[J]. ACM Trans Information Systems, 2004, 22(1): 143-177.

      [6] 王強強. 基于項目與情緒的協(xié)同過濾算法研究與實現(xiàn)[D]. 北京:北京郵電大學(xué), 2013.

      [7] 劉芹. 結(jié)合項目分類和云模型的協(xié)同過濾算法研究[D]. 重慶:重慶大學(xué), 2012.

      [8] 孫金剛, 艾麗蓉. 基于項目屬性和云填充的協(xié)同過濾算法[J]. 計算機應(yīng)用, 2012, 32(3): 658-660, 668.

      [9] 熊忠陽, 劉芹, 張玉芳,等. 基于項目分類的協(xié)同過濾改進(jìn)算法[J]. 計算機應(yīng)用研究, 2012, 29(2): 493-496.

      [10] 孫龍菲, 黃夢醒. 綜合用戶特征和項目屬性的協(xié)作過濾推薦算法[J]. 計算機應(yīng)用研究, 2013, 31(2): 384-387.

      [11] Wang M J, Han J T. Collaborative filtering recommendation based on item rating and characteristic information prediction[M]. New York: IEEE, 2012: 214-217.

      [12] 張玉芳, 代金龍, 熊忠陽. 分步填充緩解數(shù)據(jù)稀疏性的協(xié)同過濾算法[J]. 計算機應(yīng)用研究, 2013, 30(9): 2 602-2 605.

      [13] 夏培勇. 個性化推薦技術(shù)中的協(xié)同過濾算法研究[D]. 青島:中國海洋大學(xué), 2011.

      Improvement of Algorithm for Collaborative Filtering Recommendation Based on User Characteristics and Item Attributes

      Gao Liangyou, Huang Mengxing

      (College of Information Science and Technology, Hainan University, Haikou 570228,China)

      Abstract:Based on the algorithms for collaborative filtering recommendation and integrated user characteristics and item attributes, an improved algorithm based on user characteristics and item attributes was introduced to further improve the sparsity of data set and cold start problem and improve the recommendation accuracy. The algorithm predicted ungraded items by analyzing the general score of different user groups on different project attributes and synthesizes the attributes of rated items. The simulation results showed that the improved algorithm has the better prediction accuracy and further reduces the sparsity of data set and cold start problem.

      Keywords:collaborative filtering; sparsity; user group; item attributes

      中圖分類號:TP 393

      文獻(xiàn)標(biāo)志碼:ADOl:10.15886/j.cnki.hdxbzkb.2015.0025

      文章編號:1004-1729(2015)02-0135-06

      收稿日期:------------------------ 2014-09-05基金項目: 國家自然科學(xué)基金項目(71161007,61462022);海南省重點科技計劃項目(ZDXM20130078)

      作者簡介:高良友(1988-),男,安徽安慶人,2012級碩士研究生.通信作者: 黃夢醒(1974-),男,教授,研究方向:數(shù)據(jù)與知識工程、云計算與物聯(lián)網(wǎng)、個性化服務(wù)等,E-mail:huangmx09@163.com

      右玉县| 锡林郭勒盟| 霸州市| 东兰县| 博野县| 郴州市| 大邑县| 甘谷县| 金塔县| 门头沟区| 苏州市| 海城市| 南汇区| 砀山县| 博爱县| 潍坊市| 乐平市| 梓潼县| 内黄县| 渑池县| 东台市| 五河县| 吴桥县| 江口县| 汝阳县| 甘南县| 榆社县| 兴化市| 崇信县| 旬阳县| 新郑市| 汾西县| 苗栗市| 辰溪县| 家居| 长沙县| 印江| 哈尔滨市| 德格县| 灯塔市| 南岸区|