• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本聚類的用戶聚類在推薦系統(tǒng)中的應(yīng)用

      2016-08-07 04:54:28劉源耿瑞煥
      大科技 2016年25期
      關(guān)鍵詞:鶴壁余弦相似性

      劉源 耿瑞煥

      (鶴壁汽車工程職業(yè)學(xué)院 鶴壁 458030)

      基于文本聚類的用戶聚類在推薦系統(tǒng)中的應(yīng)用

      劉源 耿瑞煥

      (鶴壁汽車工程職業(yè)學(xué)院 鶴壁 458030)

      協(xié)同過濾是推薦系統(tǒng)中最重要的技術(shù)之一。隨著電子商務(wù)用戶和商品數(shù)目的增加,在商品空間上用戶評分?jǐn)?shù)據(jù)極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經(jīng)過余弦相似性度量,得到用戶聚類,最終做出推薦。實(shí)驗(yàn)結(jié)果表明,該方法可以反映用戶的真實(shí)興趣,有效的解決了稀疏性問題。

      協(xié)同過濾;稀疏矩陣;文本聚類;用戶聚類

      目前,個(gè)性化推薦的應(yīng)用日益廣泛,已成為Web2.0時(shí)代的核心技術(shù)。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預(yù)測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質(zhì)量。

      1 相關(guān)工作

      文本聚類根據(jù)文檔的某種聯(lián)系或相關(guān)性對文檔集合進(jìn)行有效的組織、摘要和導(dǎo)航,方便人們從文檔集中發(fā)現(xiàn)相關(guān)的信息。

      協(xié)同過濾推薦算法基于這樣一個(gè)假設(shè):

      假設(shè)1:如果用戶對一些項(xiàng)目的評分比較相似,則他們對其他項(xiàng)目的評分也會(huì)比較相似。

      基于用戶的協(xié)同過濾算法整個(gè)過程可以分為以下三步:

      步驟1:找出目標(biāo)用戶的最近鄰居,首先采用用戶-項(xiàng)陣Rm,n表示用戶評分信息,其中m行表示m個(gè)用戶,n列表示n個(gè)項(xiàng)目,Ri,j表示用戶i對項(xiàng)目j的評分值。

      步驟2:計(jì)算用戶相似性,找出最近鄰居。

      相似性度量方法有余弦相似性、修正的余弦相似性和相關(guān)相似性3種,我們選擇相關(guān)相似性方法。

      相關(guān)相似性:設(shè)經(jīng)用戶i和用戶j共同評分的項(xiàng)目集合用Iij表示,相似度 sim(i,j)為:

      步驟3:根據(jù)相似用戶對同一商品評分相近的假設(shè)為目標(biāo)用戶做出推薦。

      2 基于文本聚類的用戶聚類方法

      本文本文提出一種基于文本聚類的用戶聚類評分預(yù)測算法,以填充稀疏矩陣Rm,n。整個(gè)算法分為兩部分。

      2.1 離線部分(用戶聚類)

      (1)選取聚類中心用戶i;

      (2)用余弦相似性度量計(jì)算得出同用戶i相似性最高的h-1個(gè)用戶與用戶i組成以i為中心,模為h的用戶簇NSi。

      2.2 在線部分(評分預(yù)測)

      若目標(biāo)用戶i已經(jīng)在離線階段生成用戶簇NSi,則只需將離線時(shí)獲得的用戶簇NSi中所有的h個(gè)用戶平均評分作為目標(biāo)用戶評分預(yù)測,填充矩陣 Rm,n。

      2.3 理論依據(jù)

      文本聚類將聚類在一個(gè)文本簇的評價(jià)的所有發(fā)出者(用戶)認(rèn)為為一個(gè)用戶簇Cluster。用類似于用戶-項(xiàng)矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關(guān)系:

      表1

      當(dāng)目標(biāo)用戶i不同時(shí),NSi也會(huì)不同,將個(gè)別用戶單獨(dú)為中心進(jìn)行聚類有更高的精確程度。這種聚類可以理解為預(yù)處理運(yùn)算,它的實(shí)質(zhì)是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個(gè)簇并不是我們需要的用戶簇NSi,所以我們需要進(jìn)一步計(jì)算,以得到的用戶簇Cluster1~Clusterk作為維度進(jìn)行余弦相似性的計(jì)算得到用戶簇NSi。

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 數(shù)據(jù)集的選擇

      用戶簇-文本簇的關(guān)系同論文引用的關(guān)系非常相似:每篇引用者論文都可以考慮為一個(gè)用戶,每篇被引用論文都可以考慮為一個(gè)文本簇。最終選用了一份關(guān)于論文引用的數(shù)據(jù)集,數(shù)據(jù)集包括了629814篇論文和3021489個(gè)引用關(guān)系,由于數(shù)據(jù)集提供者已經(jīng)將外部引用關(guān)系刪除,所以這里所提到的引用,均指內(nèi)部引用。因此這個(gè)數(shù)據(jù)集可以抽象為一個(gè)圖,圖中論文作為一個(gè)頂點(diǎn),引用作為一條邊。將入度最高的12596個(gè)頂點(diǎn)的作為被引用論文,將從這些頂點(diǎn)出發(fā)的邊全部刪除;剩下的50385個(gè)頂點(diǎn)作為引用者論文,將從進(jìn)入這些頂點(diǎn)的邊全部刪除。若將這些邊看做無向的,則圖變成一個(gè)二部圖。它的關(guān)聯(lián)矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。

      3.2 驗(yàn)證過程

      (1)記成功次數(shù) Ns=0,Nf=0。

      (2)隨機(jī)抽取值為1的項(xiàng),將其置0。

      (3)根據(jù)矩陣 Sm,k求出用戶 i的用戶簇 NSi。

      (4)遍歷NSi中除了i以外的所有用戶,統(tǒng)計(jì)他們屬于Clusterj的數(shù)量,如果超過了NSi的規(guī)模h的一半,則Ns+1,否則Nf+1

      (5)反復(fù)進(jìn)行步驟2-步驟4,進(jìn)行k次。得到最終的Ns和Nf。成功率=

      3.3 驗(yàn)證結(jié)果及分析

      由表2可以看出,當(dāng)h=15或20時(shí),精度達(dá)到了0.61以上,可以認(rèn)為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應(yīng)用戶的興趣聚類情況,當(dāng)抽樣次數(shù)k>5000次時(shí),精度基本穩(wěn)定。

      表2

      4 結(jié)論

      本文提出了一種基于聚類的評分預(yù)測模型,通過聚類技術(shù)術(shù)將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產(chǎn)生之后,根據(jù)簇中其他用戶對商品的評價(jià)預(yù)測目標(biāo)用戶對該商品的評價(jià),從而填充稀疏矩陣Rm,n,提高了推薦的質(zhì)量。實(shí)驗(yàn)表明,這種基于文本聚類的用戶聚類方法是比較可靠的。

      [1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計(jì)算機(jī)工程.2008,18:39~41

      [2]王輝,高利軍.個(gè)性化服務(wù)中基于用戶聚類的協(xié)同過濾推薦.計(jì)算機(jī)應(yīng)用,2007,5:1225~1227.

      [3]趙 亮,胡乃靜.個(gè)性化推薦算法設(shè)計(jì).計(jì)算機(jī)研究與發(fā)展,2002,39(8):986~991.

      TP319

      A

      1004-7344(2016)25-0327-02

      2016-8-20

      劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網(wǎng)絡(luò)計(jì)算、物聯(lián)網(wǎng)方向的研究。

      猜你喜歡
      鶴壁余弦相似性
      一類上三角算子矩陣的相似性與酉相似性
      淺析當(dāng)代中西方繪畫的相似性
      新?lián)?dāng) 新作為 開創(chuàng)鶴壁人大工作新局面
      宣傳好鶴壁人大履職的鮮活實(shí)踐
      建設(shè)“法治鶴壁”人大全力以赴
      “四個(gè)推進(jìn)”建設(shè)平安鶴壁
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      低滲透黏土中氯離子彌散作用離心模擬相似性
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      开原市| 郴州市| 静乐县| 平乡县| 休宁县| 扎鲁特旗| 蚌埠市| 道真| 云南省| 汉源县| 井研县| 赤水市| 射洪县| 洪江市| 新宁县| 大埔县| 义马市| 太康县| 固镇县| 元谋县| 凭祥市| 团风县| 浙江省| 和顺县| 苍山县| 澄江县| 永善县| 荆门市| 乌什县| 开化县| 镇原县| 霍邱县| 玛纳斯县| 营山县| 湾仔区| 凤翔县| 平潭县| 乐陵市| 曲沃县| 冷水江市| 共和县|