劉源 耿瑞煥
(鶴壁汽車工程職業(yè)學(xué)院 鶴壁 458030)
基于文本聚類的用戶聚類在推薦系統(tǒng)中的應(yīng)用
劉源 耿瑞煥
(鶴壁汽車工程職業(yè)學(xué)院 鶴壁 458030)
協(xié)同過濾是推薦系統(tǒng)中最重要的技術(shù)之一。隨著電子商務(wù)用戶和商品數(shù)目的增加,在商品空間上用戶評分?jǐn)?shù)據(jù)極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經(jīng)過余弦相似性度量,得到用戶聚類,最終做出推薦。實(shí)驗(yàn)結(jié)果表明,該方法可以反映用戶的真實(shí)興趣,有效的解決了稀疏性問題。
協(xié)同過濾;稀疏矩陣;文本聚類;用戶聚類
目前,個(gè)性化推薦的應(yīng)用日益廣泛,已成為Web2.0時(shí)代的核心技術(shù)。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預(yù)測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質(zhì)量。
文本聚類根據(jù)文檔的某種聯(lián)系或相關(guān)性對文檔集合進(jìn)行有效的組織、摘要和導(dǎo)航,方便人們從文檔集中發(fā)現(xiàn)相關(guān)的信息。
協(xié)同過濾推薦算法基于這樣一個(gè)假設(shè):
假設(shè)1:如果用戶對一些項(xiàng)目的評分比較相似,則他們對其他項(xiàng)目的評分也會(huì)比較相似。
基于用戶的協(xié)同過濾算法整個(gè)過程可以分為以下三步:
步驟1:找出目標(biāo)用戶的最近鄰居,首先采用用戶-項(xiàng)陣Rm,n表示用戶評分信息,其中m行表示m個(gè)用戶,n列表示n個(gè)項(xiàng)目,Ri,j表示用戶i對項(xiàng)目j的評分值。
步驟2:計(jì)算用戶相似性,找出最近鄰居。
相似性度量方法有余弦相似性、修正的余弦相似性和相關(guān)相似性3種,我們選擇相關(guān)相似性方法。
相關(guān)相似性:設(shè)經(jīng)用戶i和用戶j共同評分的項(xiàng)目集合用Iij表示,相似度 sim(i,j)為:
步驟3:根據(jù)相似用戶對同一商品評分相近的假設(shè)為目標(biāo)用戶做出推薦。
本文本文提出一種基于文本聚類的用戶聚類評分預(yù)測算法,以填充稀疏矩陣Rm,n。整個(gè)算法分為兩部分。
2.1 離線部分(用戶聚類)
(1)選取聚類中心用戶i;
(2)用余弦相似性度量計(jì)算得出同用戶i相似性最高的h-1個(gè)用戶與用戶i組成以i為中心,模為h的用戶簇NSi。
2.2 在線部分(評分預(yù)測)
若目標(biāo)用戶i已經(jīng)在離線階段生成用戶簇NSi,則只需將離線時(shí)獲得的用戶簇NSi中所有的h個(gè)用戶平均評分作為目標(biāo)用戶評分預(yù)測,填充矩陣 Rm,n。
2.3 理論依據(jù)
文本聚類將聚類在一個(gè)文本簇的評價(jià)的所有發(fā)出者(用戶)認(rèn)為為一個(gè)用戶簇Cluster。用類似于用戶-項(xiàng)矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關(guān)系:
表1
當(dāng)目標(biāo)用戶i不同時(shí),NSi也會(huì)不同,將個(gè)別用戶單獨(dú)為中心進(jìn)行聚類有更高的精確程度。這種聚類可以理解為預(yù)處理運(yùn)算,它的實(shí)質(zhì)是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個(gè)簇并不是我們需要的用戶簇NSi,所以我們需要進(jìn)一步計(jì)算,以得到的用戶簇Cluster1~Clusterk作為維度進(jìn)行余弦相似性的計(jì)算得到用戶簇NSi。
3.1 數(shù)據(jù)集的選擇
用戶簇-文本簇的關(guān)系同論文引用的關(guān)系非常相似:每篇引用者論文都可以考慮為一個(gè)用戶,每篇被引用論文都可以考慮為一個(gè)文本簇。最終選用了一份關(guān)于論文引用的數(shù)據(jù)集,數(shù)據(jù)集包括了629814篇論文和3021489個(gè)引用關(guān)系,由于數(shù)據(jù)集提供者已經(jīng)將外部引用關(guān)系刪除,所以這里所提到的引用,均指內(nèi)部引用。因此這個(gè)數(shù)據(jù)集可以抽象為一個(gè)圖,圖中論文作為一個(gè)頂點(diǎn),引用作為一條邊。將入度最高的12596個(gè)頂點(diǎn)的作為被引用論文,將從這些頂點(diǎn)出發(fā)的邊全部刪除;剩下的50385個(gè)頂點(diǎn)作為引用者論文,將從進(jìn)入這些頂點(diǎn)的邊全部刪除。若將這些邊看做無向的,則圖變成一個(gè)二部圖。它的關(guān)聯(lián)矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。
3.2 驗(yàn)證過程
(1)記成功次數(shù) Ns=0,Nf=0。
(2)隨機(jī)抽取值為1的項(xiàng),將其置0。
(3)根據(jù)矩陣 Sm,k求出用戶 i的用戶簇 NSi。
(4)遍歷NSi中除了i以外的所有用戶,統(tǒng)計(jì)他們屬于Clusterj的數(shù)量,如果超過了NSi的規(guī)模h的一半,則Ns+1,否則Nf+1
(5)反復(fù)進(jìn)行步驟2-步驟4,進(jìn)行k次。得到最終的Ns和Nf。成功率=
3.3 驗(yàn)證結(jié)果及分析
由表2可以看出,當(dāng)h=15或20時(shí),精度達(dá)到了0.61以上,可以認(rèn)為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應(yīng)用戶的興趣聚類情況,當(dāng)抽樣次數(shù)k>5000次時(shí),精度基本穩(wěn)定。
表2
本文提出了一種基于聚類的評分預(yù)測模型,通過聚類技術(shù)術(shù)將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產(chǎn)生之后,根據(jù)簇中其他用戶對商品的評價(jià)預(yù)測目標(biāo)用戶對該商品的評價(jià),從而填充稀疏矩陣Rm,n,提高了推薦的質(zhì)量。實(shí)驗(yàn)表明,這種基于文本聚類的用戶聚類方法是比較可靠的。
[1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計(jì)算機(jī)工程.2008,18:39~41
[2]王輝,高利軍.個(gè)性化服務(wù)中基于用戶聚類的協(xié)同過濾推薦.計(jì)算機(jī)應(yīng)用,2007,5:1225~1227.
[3]趙 亮,胡乃靜.個(gè)性化推薦算法設(shè)計(jì).計(jì)算機(jī)研究與發(fā)展,2002,39(8):986~991.
TP319
A
1004-7344(2016)25-0327-02
2016-8-20
劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網(wǎng)絡(luò)計(jì)算、物聯(lián)網(wǎng)方向的研究。