陳伶紅,徐華中,李 鮑,吳友宇
(1.武漢理工大學(xué) 自動(dòng)化學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢 430070)
?
一種基于用戶(hù)對(duì)項(xiàng)目屬性偏好的推薦算法
陳伶紅1,徐華中1,李 鮑1,吳友宇2
(1.武漢理工大學(xué) 自動(dòng)化學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢 430070)
針對(duì)協(xié)同過(guò)濾推薦算法中存在的數(shù)據(jù)稀疏性問(wèn)題,提出了一種基于用戶(hù)偏好模型的混合聚類(lèi)推薦算法。利用用戶(hù)-項(xiàng)目評(píng)分矩陣參考TF-IDF和信息熵的原理得到了用戶(hù)對(duì)項(xiàng)目屬性的偏好模型,并以此為基礎(chǔ)數(shù)據(jù)進(jìn)行用戶(hù)聚類(lèi)、相似度計(jì)算和最近鄰查詢(xún),然后對(duì)用戶(hù)未評(píng)分的項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè),進(jìn)而產(chǎn)生推薦。實(shí)驗(yàn)表明,基于用戶(hù)對(duì)項(xiàng)目屬性偏好的混合聚類(lèi)推薦算法與傳統(tǒng)的協(xié)同過(guò)濾和基于用戶(hù)-項(xiàng)目評(píng)分矩陣的聚類(lèi)算法相比,在推薦精度上表現(xiàn)出一定的優(yōu)越性。
推薦算法;協(xié)同過(guò)濾;用戶(hù)偏好;SOM;K-means
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代走入了信息過(guò)載的時(shí)代。推薦系統(tǒng)能夠有效地解決信息過(guò)載問(wèn)題,在電子商務(wù)領(lǐng)域得到了廣泛的應(yīng)用,其中推薦算法則是最核心的技術(shù)點(diǎn)。協(xié)同過(guò)濾推薦算法是目前最為成熟的一種推薦算法[1],可分為基于用戶(hù)的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾?;谟脩?hù)的協(xié)同過(guò)濾推薦算法主要是依據(jù)用戶(hù)的歷史評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶(hù)間的相似度,找到目標(biāo)用戶(hù)的最近鄰居,目標(biāo)用戶(hù)對(duì)未評(píng)分項(xiàng)目的評(píng)分可以通過(guò)其近鄰對(duì)該項(xiàng)目的評(píng)分進(jìn)行預(yù)測(cè),將評(píng)分最高的前N個(gè)項(xiàng)目推薦給目標(biāo)用戶(hù)。但是隨著電子商務(wù)系統(tǒng)規(guī)模的擴(kuò)大,用戶(hù)數(shù)量和項(xiàng)目數(shù)量的增加,導(dǎo)致用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)出現(xiàn)嚴(yán)重的稀疏性,用戶(hù)相似度計(jì)算十分耗時(shí),并且很難找到相似的用戶(hù)集,使得推薦質(zhì)量下降。為此,許多學(xué)者將數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的方法與協(xié)同過(guò)濾相結(jié)合。如曹渝昆提出了一種基于Web挖掘和Fuzzy Art神經(jīng)網(wǎng)絡(luò)的電子商務(wù)顧客分類(lèi)方法,可以縮小目標(biāo)顧客的鄰居用戶(hù)搜索范圍,縮短推薦時(shí)間[2],但是此方法主要挖掘的是隱式數(shù)據(jù),對(duì)數(shù)據(jù)處理技術(shù)要求較高;成桂蘭等提出一種基于SOM和K-means混合聚類(lèi)的推薦算法[3],該方法在一定程度上縮短了最近鄰查詢(xún)時(shí)間,提高了推薦效率和推薦質(zhì)量,但是稀疏的用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)使得某些可能相似的用戶(hù)因缺少共同評(píng)分項(xiàng)目而導(dǎo)致相似度較低;胡新明提出了一種引用文本分類(lèi)中的TF-IDF算法將用戶(hù)對(duì)商品的評(píng)分矩陣轉(zhuǎn)化為用戶(hù)對(duì)商品屬性評(píng)分矩陣的推薦算法,在較少數(shù)據(jù)量的情況下得到與基于用戶(hù)商品評(píng)分矩陣推薦算法同質(zhì)量甚至更高質(zhì)量的推薦結(jié)果[4],但是該方法忽略了商品屬性在不同商品集合間以及商品集合內(nèi)的分布情況;袁漢寧等提出了基于MI聚類(lèi)的協(xié)同推薦算法[5],通過(guò)多示例聚類(lèi)計(jì)算用戶(hù)的最近鄰居集,但是在計(jì)算用戶(hù)間相似度時(shí)仍然使用用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù),稀疏的用戶(hù)-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)使得某些可能相似的用戶(hù)因缺少共同評(píng)分項(xiàng)目而導(dǎo)致相似度較低。
針對(duì)上述問(wèn)題,筆者提出了一種基于用戶(hù)對(duì)項(xiàng)目屬性偏好模型的混合聚類(lèi)推薦算法,考慮到項(xiàng)目屬性在用戶(hù)喜歡和不喜歡的集合間以及集合內(nèi)的分布情況,借鑒文本分類(lèi)中TF-IDF算法并引進(jìn)信息熵建立用戶(hù)對(duì)項(xiàng)目屬性的偏好模型,然后用SOM算法對(duì)該模型中的用戶(hù)進(jìn)行粗聚類(lèi),將其聚類(lèi)中心和聚類(lèi)簇?cái)?shù)目作為K-means聚類(lèi)算法的初始聚類(lèi)質(zhì)心和聚類(lèi)簇?cái)?shù)目,在目標(biāo)用戶(hù)所在的聚類(lèi)簇中計(jì)算用戶(hù)相似度并尋找近鄰,對(duì)未評(píng)分的項(xiàng)目進(jìn)行預(yù)測(cè)。
用戶(hù)對(duì)項(xiàng)目屬性的偏好模型是進(jìn)行用戶(hù)聚類(lèi)和相似度計(jì)算的基礎(chǔ),通過(guò)分析用戶(hù)-項(xiàng)目評(píng)分矩陣和項(xiàng)目-屬性矩陣,建立用戶(hù)對(duì)項(xiàng)目中出現(xiàn)的所有屬性的偏好權(quán)重矩陣。
考慮包含m個(gè)用戶(hù)和n個(gè)項(xiàng)目的系統(tǒng),令用戶(hù)集合U={U1,U2,…,Um}(i=1,2,…,m),項(xiàng)目集合I={I1,I2,…,In}(j=1,2,…,n),用戶(hù)-項(xiàng)目評(píng)分矩陣如表1所示,其中元素rij表示第i個(gè)用戶(hù)對(duì)第j個(gè)項(xiàng)目的評(píng)分值。
表1 用戶(hù)-項(xiàng)目評(píng)分矩陣
項(xiàng)目屬性集合表示為F={f1,f2,…,fs}(k=1,2,…,s),項(xiàng)目-屬性矩陣如表2所示,其中元素ajk表示項(xiàng)目Ij的特征屬性:
(1)
參考TF-IDF算法的原理,如果屬性fj在集合Li中出現(xiàn)的次數(shù)越多,說(shuō)明用戶(hù)越偏好具有該屬性的項(xiàng)目,則屬性fj應(yīng)該賦予較大的權(quán)重。根據(jù)以上論述得到偏好權(quán)重wik為:
(2)
但由式(2)得出的用戶(hù)對(duì)項(xiàng)目屬性的偏好權(quán)重存在如下問(wèn)題:①?zèng)]有考慮到屬性fj在集合Li和集合Qi之間的分布情況。如果屬性fj在集合Li中出現(xiàn)較多,而在集合Qi中出現(xiàn)較少,則說(shuō)明用戶(hù)比較偏好具有該屬性的項(xiàng)目,該屬性應(yīng)該賦予較高的權(quán)重。如果屬性fj比較均勻地分布在集合Li和Qi中,說(shuō)明用戶(hù)對(duì)具有該屬性的項(xiàng)目沒(méi)有特別偏好,該屬性值應(yīng)該賦予較低的權(quán)重。②沒(méi)有考慮到屬性fj在集合Li中的分布情況。在集合Li中出現(xiàn)頻率較高的屬性的權(quán)重應(yīng)該比出現(xiàn)頻率較低的屬性要高。如果屬性fj在集合Li中出現(xiàn)的頻率較低,則該屬性應(yīng)該被賦予較小的權(quán)重。考慮到以上兩種情況,參考文獻(xiàn)[6]在文本分類(lèi)中引入信息熵來(lái)改善TF-IDF算法,引進(jìn)信息熵來(lái)計(jì)算用戶(hù)對(duì)項(xiàng)目屬性偏好的模型。
若給定的概率分布為P=(p1,p2,…,pn),則由該分布傳遞的信息量稱(chēng)為P的熵,即:
(3)
屬性fj在集合Li和Qi中的概率分布為Poc=(NLik/NRik,NQik/NRik)(其中NQik表示集合Qi中具有屬性fj的項(xiàng)目個(gè)數(shù)),記Hoc(Poc)為屬性fj的類(lèi)間信息分布熵。屬性fj在集合Li中的概率分布為Pic=NLik/NLi,記Hic(Pic)為屬性fj的類(lèi)內(nèi)信息分布熵。
由以上分析可知,Hoc(Poc)越大則屬性fj的權(quán)重越小,Hic(Pic)越大則屬性fj的權(quán)重越大。得到改進(jìn)后的用戶(hù)Ui對(duì)屬性fj的偏好權(quán)重為:
(4)
其中對(duì)Hoc做了一定的修改,常數(shù)1是為了防止Hoc(Poc)=0,使得1/(Hoc+1)分布在[0,1]區(qū)間。根據(jù)式(4)建立用戶(hù)-項(xiàng)目屬性偏好矩陣如表3所示。
表3 用戶(hù)-項(xiàng)目屬性偏好矩陣
推薦算法主要分為5個(gè)過(guò)程:生成用戶(hù)-項(xiàng)目屬性偏好模型、用戶(hù)聚類(lèi)、用戶(hù)相似度計(jì)算和最近鄰居查詢(xún)、評(píng)分預(yù)測(cè)、生成推薦。
(1)生成用戶(hù)-項(xiàng)目屬性偏好模型。通過(guò)式(4)生成用戶(hù)-項(xiàng)目屬性偏好模型,作為用戶(hù)聚類(lèi)和相似度計(jì)算的數(shù)據(jù)基礎(chǔ)。
(2)用戶(hù)聚類(lèi)。為了縮短用戶(hù)相似度計(jì)算的時(shí)間、縮小用戶(hù)最近鄰居查詢(xún)范圍,需要對(duì)用戶(hù)進(jìn)行聚類(lèi),將用戶(hù)-項(xiàng)目屬性偏好矩陣中項(xiàng)目屬性偏好比較相似的用戶(hù)分配到同一聚類(lèi)簇中,使同一聚類(lèi)簇中的用戶(hù)相似度盡可能高,不同聚類(lèi)簇中的用戶(hù)相似度盡可能低。常用的聚類(lèi)算法有SOM神經(jīng)網(wǎng)絡(luò)、K-means聚類(lèi)算法、層次聚類(lèi)算法、FCM聚類(lèi)算法等[7]。SOM算法進(jìn)行聚類(lèi)時(shí),網(wǎng)絡(luò)收斂時(shí)間過(guò)長(zhǎng),通常網(wǎng)絡(luò)需要訓(xùn)練上萬(wàn)次才能收斂。K-means算法的初始聚類(lèi)質(zhì)心選擇不當(dāng),很難得到較好的聚類(lèi)效果,在大規(guī)模數(shù)據(jù)集上收斂較慢。因此采用SOM與K-means聚類(lèi)相結(jié)合的混合聚類(lèi)模型對(duì)用戶(hù)進(jìn)行聚類(lèi),聚類(lèi)流程為:①將步驟(1)中得到的用戶(hù)-項(xiàng)目屬性偏好矩陣作為聚類(lèi)的輸入數(shù)據(jù),通過(guò)SOM對(duì)輸入訓(xùn)練較少的次數(shù)進(jìn)行粗聚類(lèi),輸出聚類(lèi)簇ClusterSOM、神經(jīng)元的權(quán)值ωSOM、聚類(lèi)簇?cái)?shù)目K;②將ωSOM作為原始質(zhì)心Ooriginal,對(duì)于每一個(gè)簇內(nèi)元素不為0的聚類(lèi)簇,尋找與Ooriginal距離最近的元素作為該簇最終的質(zhì)心OSOM;③以K、OSOM作為K-means聚類(lèi)的聚類(lèi)簇?cái)?shù)目和初始聚類(lèi)質(zhì)心,對(duì)用戶(hù)進(jìn)一步聚類(lèi),輸出用戶(hù)聚類(lèi)結(jié)果ClusterResult。
(3)用戶(hù)相似度計(jì)算和最近鄰居查詢(xún)。計(jì)算目標(biāo)用戶(hù)Ui與所在聚類(lèi)簇cindex中其他用戶(hù)的相似度。用戶(hù)相似性的度量標(biāo)準(zhǔn)主要有余弦法、修正余弦法和基于相關(guān)性的相似性度量等[8],筆者選用余弦法來(lái)計(jì)算用戶(hù)間的相似度:
(5)
其中,ωu和ωv分別為用戶(hù)u和用戶(hù)v的項(xiàng)目屬性偏好向量。
(6)
(4)評(píng)分預(yù)測(cè)。找到目標(biāo)用戶(hù)Ui針對(duì)目標(biāo)項(xiàng)目Iij的最近鄰用戶(hù)集合MKnear后,通過(guò)集合MKnear中的用戶(hù)對(duì)目標(biāo)項(xiàng)目Iij評(píng)分的加權(quán)平均值來(lái)描述目標(biāo)用戶(hù)Ui對(duì)目標(biāo)項(xiàng)目Iij的評(píng)分。評(píng)分預(yù)測(cè)公式為:
(5)生成推薦。重復(fù)步驟(3)和步驟(4),預(yù)測(cè)目標(biāo)用戶(hù)Ui對(duì)所有未評(píng)分項(xiàng)目的評(píng)分,選擇預(yù)測(cè)評(píng)分最高的N個(gè)項(xiàng)目推薦給目標(biāo)用戶(hù)Ui。
3.1 數(shù)據(jù)集
實(shí)驗(yàn)采用MovieLens(ml-100K)數(shù)據(jù)集,該數(shù)據(jù)集包含了943個(gè)用戶(hù)對(duì)1 682部電影的10萬(wàn)個(gè)評(píng)分。實(shí)驗(yàn)采用五折交叉驗(yàn)證法,將實(shí)驗(yàn)數(shù)據(jù)平分成5個(gè)互不相交的數(shù)據(jù)子集,每次選擇其中一個(gè)數(shù)據(jù)子集作為測(cè)試集,其余4個(gè)子集作為訓(xùn)練集,如此循環(huán)5次,取每次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。當(dāng)用戶(hù)對(duì)項(xiàng)目的評(píng)分過(guò)少時(shí),難以發(fā)現(xiàn)用戶(hù)對(duì)項(xiàng)目屬性的偏好,因此在每次實(shí)驗(yàn)中,找出測(cè)試集中評(píng)分項(xiàng)目少于20個(gè)的用戶(hù),從測(cè)試集和測(cè)試集中剔除這些用戶(hù)的評(píng)分?jǐn)?shù)據(jù)。MovieLens數(shù)據(jù)集中的項(xiàng)目是電影,根據(jù)電影類(lèi)別,將電影劃分為19個(gè)類(lèi)別,0~18分別代表19個(gè)項(xiàng)目類(lèi)別屬性,如表4所示。電影類(lèi)別屬性為Unknown的電影不能表示出用戶(hù)對(duì)某一具體屬性的偏好程度,因此將電影類(lèi)別屬性為Unknown的項(xiàng)目從訓(xùn)練集和測(cè)試集中剔除。
表4 電影類(lèi)別屬性
3.2 性能評(píng)價(jià)
實(shí)驗(yàn)采用平均絕對(duì)誤差MAE[9]來(lái)度量推薦的準(zhǔn)確性,MAE值越低推薦結(jié)果越準(zhǔn)確,其計(jì)算公式為:
(8)
式中:pi為預(yù)測(cè)評(píng)分;qi為實(shí)際評(píng)分。
3.3 結(jié)果分析
根據(jù)HERLOCKER等[10]的研究結(jié)果,在真實(shí)環(huán)境中最近鄰用戶(hù)數(shù)量設(shè)置為20~50比較合理,筆者采用的MovieLens數(shù)據(jù)集共有943個(gè)用戶(hù),設(shè)置SOM的輸出神經(jīng)元數(shù)目為6×6,鄰居查詢(xún)個(gè)數(shù)Knear=[5 10 15 20 25 30 35 40 45 50 55 60 65 70]來(lái)進(jìn)行對(duì)比實(shí)驗(yàn),以驗(yàn)證筆者提出算法的優(yōu)越性。
將筆者提出的利用TF-IDF和信息熵挖掘用戶(hù)偏好模型,進(jìn)行SOM+K-means聚類(lèi)和用戶(hù)相似度計(jì)算的推薦算法稱(chēng)為算法1;將利用TF-IDF挖掘用戶(hù)偏好模型,進(jìn)行SOM+K-means聚類(lèi)和用戶(hù)相似度計(jì)算的推薦算法稱(chēng)為算法2;將利用用戶(hù)-項(xiàng)目評(píng)分矩陣,進(jìn)行SOM+K-means聚類(lèi)和用戶(hù)相似度計(jì)算的推薦算法稱(chēng)為算法3;將傳統(tǒng)的基于用戶(hù)的協(xié)同過(guò)濾推薦算法稱(chēng)為算法4;將基于MI聚類(lèi)的協(xié)同推薦算法稱(chēng)為算法5(根據(jù)文獻(xiàn)[5]中的描述,選擇聚類(lèi)個(gè)數(shù)K=20時(shí)推薦效果最好,選擇表4中1~18的電影屬性類(lèi)別作為實(shí)例的內(nèi)容特征)。
圖1 算法1~算法5的對(duì)比實(shí)驗(yàn)結(jié)果
圖1所示為算法1~算法5的對(duì)比實(shí)驗(yàn)結(jié)果,可以看出基于SOM+K-means聚類(lèi)的推薦算法比傳統(tǒng)的協(xié)同過(guò)濾推薦算法效果更好;使用用戶(hù)偏好模型進(jìn)行聚類(lèi)和相似度計(jì)算的推薦效果比使用用戶(hù)-項(xiàng)目評(píng)分矩陣的推薦效果更好;使用TF-IDF和信息熵相結(jié)合挖掘的用戶(hù)偏好模型比使用TF-IDF挖掘的用戶(hù)偏好模型的推薦效果更好。算法1、算法2比算法5的效果好,算法5比算法3、算法4的效果更好,說(shuō)明算法5通過(guò)多示例聚類(lèi)得到的最近鄰集合,比以用戶(hù)-項(xiàng)目評(píng)分矩陣為數(shù)據(jù)基礎(chǔ)進(jìn)行聚類(lèi)得到的最近鄰居集合更為準(zhǔn)確。由于算法5計(jì)算用戶(hù)相似度時(shí)使用的是用戶(hù)-項(xiàng)目評(píng)分矩陣,不能更好地挖掘用戶(hù)間的相似性,使得推薦結(jié)果不如算法1準(zhǔn)確。
圖2所示為算法1、算法2、算法4的用戶(hù)相似度計(jì)算、最近鄰查詢(xún)及評(píng)分預(yù)測(cè)的時(shí)間,可以看出當(dāng)15 圖2 不同算法的相似度計(jì)算、最近鄰查詢(xún)及評(píng)分預(yù)測(cè)的時(shí)間 圖3 不同SOM聚類(lèi)中心下推薦算法的實(shí)驗(yàn)結(jié)果 圖3所示為不同SOM聚類(lèi)中心下推薦算法的實(shí)驗(yàn)結(jié)果。SOM聚類(lèi)結(jié)束時(shí),外星權(quán)向量位于輸入向量聚類(lèi)的中心,該實(shí)驗(yàn)中SOM訓(xùn)練次數(shù)較少并未完全收斂,因此選擇各聚類(lèi)簇中離外星權(quán)向量最近的一點(diǎn)作為SOM的聚類(lèi)中心(Center1),文獻(xiàn)[3]將SOM聚類(lèi)結(jié)束時(shí)各聚類(lèi)簇中元素的平均值作為SOM的聚類(lèi)中心(Center2),Center1的推薦效果較Center2要好,即SOM聚類(lèi)中心的選取比文獻(xiàn)[3]更合理。 筆者為了解決評(píng)分矩陣稀疏性問(wèn)題,通過(guò)TF-IDF算法和信息熵生成用戶(hù)對(duì)項(xiàng)目屬性偏好的模型,然后以此為數(shù)據(jù)基礎(chǔ)進(jìn)行用戶(hù)聚類(lèi)和相似度計(jì)算,使得相似用戶(hù)之間的相關(guān)性增強(qiáng),縮短了最近鄰用戶(hù)的查詢(xún)時(shí)間,通過(guò)五折交叉對(duì)比實(shí)驗(yàn)得出,筆者提出的算法具有更高的推薦質(zhì)量和效率。但筆者研究的前提是假設(shè)用戶(hù)興趣不會(huì)發(fā)生變化,然而在實(shí)際研究中,用戶(hù)的興趣是會(huì)隨時(shí)間發(fā)生變化的,因此需要將時(shí)間因素同項(xiàng)目屬性等結(jié)合起來(lái),以提高推薦系統(tǒng)的準(zhǔn)確性,這將是下一步研究的重點(diǎn)。 [1] 劉魯,任曉麗.推薦系統(tǒng)研究進(jìn)展及展望[J].信息系統(tǒng)學(xué)報(bào),2008 (1): 82-90. [2] 曹渝昆.基于神經(jīng)網(wǎng)絡(luò)和模糊邏輯的智能推薦系統(tǒng)研究[D].重慶:重慶大學(xué),2006. [3] 成桂蘭,劉旭東,陳德人.基于混合聚類(lèi)的個(gè)性化推薦算法[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2011,33(3):379-381. [4] 胡新明.基于商品屬性的電子商務(wù)推薦系統(tǒng)研究[D].武漢:華中科技大學(xué),2012. [5] 袁漢寧,周彤,韓言妮.基于MI聚類(lèi)的協(xié)同過(guò)濾推薦算法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2015,40(2):253-257. [6] 李原.中文文本分類(lèi)中分詞和特征選擇方法研究[D].長(zhǎng)春:吉林大學(xué),2011. [7] 馮曉蒲,張鐵峰.四種聚類(lèi)方法之比較[J].微型機(jī)與應(yīng)用,2010,29(16):1-3. [8] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]∥Proceedings of the 10th International Conference on World Wide Web. [S.l.]:[s.n.], 2001: 285-295. [9] KARYPIS G. Evaluation of item-based top-n recommendation algorithms[C]∥Proceedings of the Tenth International Conference on Information and Knowledge Management. [S.l.]:[s.n.], 2001: 247-254. [10] HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]∥Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:[s.n.], 1999:230-237. CHEN Linghong:Postgraduate; School of Automation, WUT, Wuhan 430070, China. A Recommendation Algorithm Based on Users’ Preference of Item Features CHENLinghong,XUHuazhong,LIBao,WUYouyu Considering the problem of data sparsity in traditional collaborative filtering recommendation algorithm, a hybrid clustering recommendation algorithm based on users’ preference is proposed. The users’ preference model is obtained by using user-item rating matrix and referring to the principle of TF-IDF and information entropy, which is the basic data of users clustering, similarity calculation and nearest neighbor query. Item recommendation is accomplished after predicting the rates for the no-rated items. Experiment shows that the hybrid clustering recommendation algorithm based on user p for project attributes has some advantages over the traditional collaborative filtering and clustering algorithm based on user-item scoring matrix. recommendation algorithm; collaborative filtering; users’ preference; SOM; K-means 2095-3852(2016)05-0616-05 A 2016-05-25. 陳伶紅(1991-),女,湖北武漢人,武漢理工大學(xué)自動(dòng)化學(xué)院碩士研究生. TP301.6 DOI:10.3963/j.issn.2095-3852.2016.05.0214 結(jié)論