王冰怡,劉 楊,聶長(zhǎng)新,田 萱
(北京林業(yè)大學(xué)信息學(xué)院,北京100083)
基于用戶興趣三維建模的個(gè)性化推薦算法
王冰怡,劉 楊,聶長(zhǎng)新,田 萱
(北京林業(yè)大學(xué)信息學(xué)院,北京100083)
針對(duì)推薦系統(tǒng)中用戶的個(gè)性化需求,提出一種基于用戶興趣三維建模的個(gè)性化推薦算法。通過(guò)分析用戶行為數(shù)據(jù),從興趣廣度、興趣深度和興趣時(shí)效3個(gè)角度分析用戶的興趣構(gòu)成,對(duì)用戶興趣進(jìn)行三維建模,并在此基礎(chǔ)上,逐步添加維度,設(shè)計(jì)用戶之間興趣相似度的三級(jí)計(jì)算方法。在真實(shí)推薦系統(tǒng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,用戶興趣三維模型比一維模型、二維模型更能準(zhǔn)確地表征用戶興趣,基于用戶興趣三維建模的個(gè)性化推薦算法能夠提高個(gè)性化推薦的準(zhǔn)確率。
個(gè)性化推薦;用戶興趣三維建模;興趣廣度;興趣深度;興趣時(shí)效;用戶興趣相似度
隨著互聯(lián)網(wǎng)信息的爆炸性增長(zhǎng),信息超載目前已成為網(wǎng)絡(luò)用戶面臨的一個(gè)嚴(yán)重問(wèn)題,用戶難以從海量的在線資源中獲取與用戶相關(guān)或感興趣的信息。個(gè)性化推薦系統(tǒng)是解決該問(wèn)題的一個(gè)有力工具,個(gè)性化推薦系統(tǒng)[1]能夠根據(jù)用戶的歷史行為信息建立用戶興趣模型,利用系統(tǒng)中的推薦算法向用戶推薦其未曾產(chǎn)生過(guò)行為的物品。在個(gè)性化推薦系統(tǒng)中,用戶興趣建模是個(gè)性化推薦的基礎(chǔ)[2],很大程度上決定著推薦系統(tǒng)的質(zhì)量。
當(dāng)前用戶興趣模型的表示大致分為2類:基于關(guān)鍵詞的興趣模型[3]和基于語(yǔ)義的興趣模型[4]?;陉P(guān)鍵詞的興趣模型以向量空間模型表示法[5]為主,利用用戶興趣數(shù)據(jù)的特征項(xiàng)及其所對(duì)應(yīng)的權(quán)值來(lái)表示用戶興趣模型,例如,文獻(xiàn)[6]針對(duì)現(xiàn)有的用戶模型不能根據(jù)用戶自身興趣實(shí)現(xiàn)推薦的問(wèn)題,通過(guò)建立用戶集、資源集,結(jié)合用戶的行為特點(diǎn)及權(quán)重,提出了基于用戶行為的興趣模型;文獻(xiàn)[7]通過(guò)用戶關(guān)于某個(gè)主題的生成概率來(lái)反映用戶對(duì)該主題的喜好程度,提出了基于主題模型的用戶興趣模型?;谡Z(yǔ)義的興趣模型往往建立在本體技術(shù)之上,使用戶興趣模型更加富有語(yǔ)義信息,加強(qiáng)了用戶模型表征力度,被認(rèn)為是向量空間用戶模型的一種完善。例如,文獻(xiàn)[8]利用用戶訪問(wèn)量,采用改進(jìn)的相似度算法,實(shí)現(xiàn)用戶分類建立用戶興趣模型;文獻(xiàn)[9]基于用戶知識(shí)本體和概念向量構(gòu)建興趣模型,實(shí)現(xiàn)了用戶興趣的個(gè)性化語(yǔ)義描述。
上述研究在用戶建模的過(guò)程中,對(duì)用戶興趣的描述大都只停留在一維上,如利用用戶對(duì)資源的訪問(wèn)量來(lái)表征用戶興趣。雖然這些研究從不同角度提高了對(duì)用戶描述的精確度,但仍然缺乏對(duì)用戶興趣的深入分析和準(zhǔn)確建模,系統(tǒng)需要收集更詳細(xì)、有效的用戶信息來(lái)描述用戶興趣[10]。例如用戶興趣范圍會(huì)隨著時(shí)間而變化,因此系統(tǒng)就要收集用戶搜索的相關(guān)時(shí)間信息。傳統(tǒng)的研究沒(méi)有將時(shí)間因素加入到用戶興趣模型的構(gòu)建中,導(dǎo)致用戶特征描述的不準(zhǔn)確性,最終影響了推薦效果。
為解決這一問(wèn)題,本文通過(guò)從用戶的搜索行為中獲取用戶數(shù)據(jù),從用戶興趣廣度、興趣深度、興趣時(shí)效這3個(gè)角度刻畫(huà)用戶興趣三維模型,設(shè)計(jì)用戶之間相似度的三級(jí)計(jì)算方法,提出基于用戶興趣三維建模的個(gè)性化推薦算法,并將該算法應(yīng)用到個(gè)性化推薦系統(tǒng)中,找出目標(biāo)用戶的最近鄰,根據(jù)最近鄰的興趣預(yù)測(cè)目標(biāo)用戶的興趣,進(jìn)而對(duì)目標(biāo)用戶產(chǎn)生動(dòng)態(tài)推薦。
2.1 用戶興趣數(shù)據(jù)的獲取
要實(shí)現(xiàn)個(gè)性化推薦,系統(tǒng)必須知道用戶的個(gè)性化需求,這就需要獲取、分析用戶信息,建立合適的用戶興趣模型。用戶信息可以分為用戶背景信息和用戶訪問(wèn)信息[11],用戶背景信息包括用戶職業(yè)、年齡、居住地等,可以有效解決個(gè)性化推薦初期用戶數(shù)據(jù)較少情況下無(wú)法做出精確推薦的“用戶冷啟動(dòng)”問(wèn)題;用戶訪問(wèn)信息主要包括用戶瀏覽行為和用戶搜索行為,是建立用戶興趣模型的主要來(lái)源[12]。本文提出的用戶興趣三維模型主要從用戶的搜索行為中獲取用戶數(shù)據(jù)。因?yàn)樵谟脩舻乃阉餍袨橹?
(1)用戶搜索的目標(biāo)、搜索的時(shí)間、瀏覽的時(shí)間、拖動(dòng)滾動(dòng)條的次數(shù)等行為數(shù)據(jù)能夠體現(xiàn)不同年齡、性別、地區(qū)的用戶興趣;
(2)隨著時(shí)間變遷,用戶搜索目標(biāo)的轉(zhuǎn)移往往意味著用戶興趣在動(dòng)態(tài)變化;
(3)用戶對(duì)搜索目標(biāo)的點(diǎn)擊和瀏覽頻度在一定程度上反映了用戶的興趣。
通過(guò)對(duì)用戶的搜索行為進(jìn)行分析,就能描述出用戶在某一時(shí)間段內(nèi)的興趣,進(jìn)而更準(zhǔn)確地建立用戶興趣模型。
本文主要依據(jù)推薦系統(tǒng)中的搜索日志來(lái)分析用戶興趣。一般來(lái)說(shuō),搜索日志中包括用戶的ID,用戶搜索的物品i,用戶每次搜索物品i時(shí)的時(shí)刻ti。用戶u對(duì)物品i的搜索日志Log(u,i)形式化定義為:
2.2 用戶興趣三維模型
心理學(xué)上認(rèn)為,人類的興趣與其行為有著很大的關(guān)聯(lián)[13]。興趣可以由用戶的行為判斷出來(lái)。根據(jù)直覺(jué)可以得到用戶搜索行為和用戶興趣的3個(gè)基本結(jié)論:
(1)用戶對(duì)其搜索的物品感興趣:
(2)用戶搜索某一物品的次數(shù)越多,對(duì)該物品就越感興趣:
(3)隨著時(shí)間的推移,用戶對(duì)某物品的興趣會(huì)減少。
基于這3個(gè)結(jié)論,本文提出用戶興趣廣度、興趣深度、興趣時(shí)效的概念,從搜索日志中獲取體現(xiàn)用戶興趣的數(shù)據(jù),并利用用戶興趣的廣度(X)、深度(Y)、時(shí)效(Z)來(lái)構(gòu)建用戶興趣三維模型,如圖1所示。
圖1 用戶興趣三維模型
2.2.1 用戶興趣廣度
在用戶興趣三維模型中,本文用用戶興趣廣度來(lái)描述用戶的興趣范圍。在搜索日志Log(u,i)中可以統(tǒng)計(jì)出用戶u搜索的物品集合,這個(gè)集合在一定程度上描述了用戶感興趣的物品范圍,用它來(lái)標(biāo)記用戶u的興趣廣度,記為Width(u)={i1,i2,…}。
直覺(jué)上,用戶u,v興趣廣度交集元素個(gè)數(shù)越多,即共同搜索的物品越多,用戶u,v的興趣相似度越高,在對(duì)目標(biāo)用戶u進(jìn)行個(gè)性化推薦時(shí),更傾向利用用戶v的興趣來(lái)預(yù)測(cè)目標(biāo)用戶u的興趣。
根據(jù)這一直覺(jué),定義第1個(gè)啟發(fā)式規(guī)則:
啟發(fā)式規(guī)則1設(shè)用戶u,v,t的興趣廣度分別為Width(u),Width(v),Width(t),若|Width(u)∩Width(v)|>|Width(u)∩Width(t)|,則用戶興趣相似度Wuv>W(wǎng)ut。
2.2.2 用戶興趣深度
在用戶興趣三維模型中,本文用用戶興趣深度來(lái)表示用戶u對(duì)物品i的感興趣程度。在搜索日志Log(u,i)中,可以統(tǒng)計(jì)出用戶u對(duì)物品i的搜索次數(shù),這個(gè)搜索次數(shù)在一定程度上反映了用戶u對(duì)物品i的感興趣程度。用這個(gè)搜索次數(shù)作為用戶u對(duì)物品i的興趣深度,記為Depthui。
直覺(jué)上,Depthui和Depthvi差距越小,即用戶u,v對(duì)物品i的搜索次數(shù)越接近,用戶u,v的興趣相似度越高,在對(duì)目標(biāo)用戶u進(jìn)行個(gè)性化推薦時(shí),更傾向利用用戶v的興趣來(lái)預(yù)測(cè)目標(biāo)用戶u的興趣。根據(jù)這一直覺(jué),定義第2個(gè)啟發(fā)式規(guī)則:
啟發(fā)式規(guī)則2設(shè)用戶u,v,t對(duì)物品i的興趣深度分別為Depthui,Depthvi,Depthti,若|Depthui-Depthvi|>|Depthui-Depthti|,則用戶興趣相似度Wuv>W(wǎng)ut。
2.2.3 用戶興趣時(shí)效
在一般情況下,用戶的興趣會(huì)隨著時(shí)間而變化。事實(shí)上,隨著用戶u搜索物品i的時(shí)間推移,用戶u對(duì)物品i的興趣是衰減的[14]。在用戶興趣三維模型中,本文用用戶興趣時(shí)效來(lái)表示和時(shí)間有關(guān)的興趣衰減。在搜索日志Log(u,i)中,可以統(tǒng)計(jì)出用戶u搜索物品i的最后時(shí)間,記為T(mén)ui。直覺(jué)上,在當(dāng)前時(shí)刻T,若用戶u剛剛不久前才搜索過(guò)物品i,即Tui距離當(dāng)前時(shí)間T越近,用戶u對(duì)物品i的興趣時(shí)效就越大。將用戶u對(duì)物品i的興趣時(shí)效記為T(mén)imeui,Timeui可表示為:
其中,α為平衡參數(shù)??紤]到,如果用戶u經(jīng)常搜索物品,對(duì)物品i來(lái)說(shuō),|T-Tui|偏小,但這只能說(shuō)明用戶興趣變化得快,并不意味著用戶u對(duì)用戶i的興趣時(shí)效大,因此,本文定義了平衡參數(shù)α來(lái)消去這一差異。規(guī)定如果某用戶產(chǎn)生搜索行為的頻率很高、用戶較活躍,則選取較大的α,反之則選取較小的α。
直覺(jué)上,Timeui和Timevi差距越小,即用戶u,v搜索同一物品i的時(shí)間越接近,用戶u,v的興趣相似度越高,在對(duì)目標(biāo)用戶u進(jìn)行個(gè)性化推薦時(shí),更傾向利用用戶v的興趣來(lái)預(yù)測(cè)目標(biāo)用戶u的興趣。根據(jù)這一直覺(jué),定義第3個(gè)啟發(fā)式規(guī)則:
啟發(fā)式規(guī)則3設(shè)用戶u,v,t對(duì)物品i的興趣時(shí)效分別為T(mén)imeui,Timevi,Timeti,若 |Timeui-Timevi|>|Timeui-Timeti|,則用戶興趣相似度Wuv>W(wǎng)ut。
用戶之間相似性可以通過(guò)Jaccard公式度量,本文利用并改進(jìn)Jaccard公式來(lái)計(jì)算用戶之間的相似度。Jaccard公式表示為:
其中,Wuv表示用戶u與用戶v之間的興趣相似程度;N(u)表示用戶u搜索過(guò)的物品集合;N(v)表示用戶v搜索過(guò)的物品集合。
上文從用戶興趣廣度、興趣深度、興趣時(shí)效這3個(gè)方面來(lái)構(gòu)建用戶興趣三維模型,下文將根據(jù)用戶興趣三維模型的每一維來(lái)逐步改進(jìn)計(jì)算用戶興趣相似度的Jaccard方法。
3.1 用戶興趣相似度的第1級(jí)計(jì)算方法
在式(2)的基礎(chǔ)上,本文引入用戶興趣三維模型中的第1維——興趣廣度來(lái)刻畫(huà)用戶興趣相似度,設(shè)用戶u,v的興趣廣度分別為Width(u),Width(v),根據(jù)中啟發(fā)式規(guī)則1,用戶u,v之間的興趣相似度可定義如下:
從式(3)可以看出,如果用戶u和用戶v共同產(chǎn)生過(guò)行為的物品數(shù)目越多,用戶u和用戶v之間的興趣相似度就越高。這個(gè)公式完全沿用了Jaccard方法。
3.2 用戶興趣相似度的第2級(jí)計(jì)算方法
在式(3)的基礎(chǔ)上,本文引入用戶興趣三維模型中的第2維——興趣深度來(lái)進(jìn)一步分析用戶興趣相似度。設(shè)用戶u,v對(duì)物品i的興趣深度為Depthui,Depthvi,根據(jù)上文中啟發(fā)式規(guī)則2,用戶u和用戶v的興趣相似度Wu′v可改進(jìn)為:
其中,i為用戶u和用戶v都搜索過(guò)的物品。從式(4)可以看出,用戶u和用戶v對(duì)物品i的搜索次數(shù)差別越小,用戶u和用戶v的興趣相似度就越大。
3.3 用戶興趣相似度的第3級(jí)計(jì)算方法
在式(4)的基礎(chǔ)上,本文引入用戶興趣三維模型中的第3維——用戶興趣時(shí)效來(lái)更進(jìn)一步分析用戶興趣相似度。設(shè)用戶u,v對(duì)物品i的興趣時(shí)效分別為T(mén)imeui,Timevi,根據(jù)上文中啟發(fā)式規(guī)則3,用戶u和用戶v的興趣相似度Wu″v可改進(jìn)為:
從式(5)可以看出,若用戶u和用戶v對(duì)物品i產(chǎn)生搜索行為的時(shí)間點(diǎn)越接近,用戶u,v之間的興趣相似度就越大。
在以上給出的三級(jí)算法中,第3級(jí)用戶興趣相似度在第2級(jí)用戶興趣相似度的基礎(chǔ)上增加了用戶興趣時(shí)效因素,能夠更準(zhǔn)確地從不同角度分析用戶之間的相似性,幫助提高用戶個(gè)性化推薦效果。這將在本文的實(shí)驗(yàn)部分進(jìn)行驗(yàn)證。
一般推薦系統(tǒng)預(yù)測(cè)目標(biāo)用戶對(duì)某一物品感興趣程度的做法是:選取與目標(biāo)用戶興趣最接近的用戶群體U,通過(guò)用戶群體U對(duì)該物品的感興趣程度來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)其感興趣程度。從物品中挑選出用戶感興趣程度Top(K)的K個(gè)物品推薦給目標(biāo)用戶。
4.1 用戶對(duì)物品的感興趣程度計(jì)算
本文已經(jīng)通過(guò)構(gòu)建用戶興趣三維模型得出了用戶u和用戶v之間興趣相似度W?uv,那么,目標(biāo)用戶u對(duì)未產(chǎn)生過(guò)行為的物品j的感興趣程度可表示為:
其中,S(u,K)表示與目標(biāo)用戶u興趣最接近的K個(gè)用戶,可通過(guò)對(duì)W?uv進(jìn)行top-N運(yùn)算求得;M(j)表示對(duì)物品j產(chǎn)生過(guò)搜索行為的用戶集合;T為當(dāng)前時(shí)間。由式(6)可知,在當(dāng)前時(shí)間T,與用戶u興趣相似的用戶v對(duì)物品j的感興趣程度越高,用戶u對(duì)物品j的感興趣程度就越高。
4.2 算法描述
綜上,可以看到,基于用戶興趣三維建模的個(gè)性化推薦算法的過(guò)程可以分為2步:
(1)通過(guò)3.3節(jié)中第3級(jí)計(jì)算方法得到用戶u的最近鄰集合S(u,K);
(2)通過(guò)4.1節(jié)方法計(jì)算用戶u對(duì)物品j的感興趣程度P(u,j),最后向用戶u推薦P(u,j)排名Top(K)的物品j即可。
將本文算法分為2個(gè)階段來(lái)描述:
階段1求用戶u的最近鄰集合S(u,K)
輸入用戶u,用戶整體集合USERS
輸出用戶u的最近鄰集合S(u,K)
該階段算法的時(shí)間復(fù)雜度為O(mn)+O(mlbm),其中,m=|USERS|,是全部用戶的個(gè)數(shù);n為用戶u與其他用戶共同搜索的物品的最大個(gè)數(shù),即n=Max(|Width(u)∩Width(v)|)。時(shí)間復(fù)雜度的前一項(xiàng)O(mn)為計(jì)算用戶u和其他用戶興趣相似度的時(shí)間復(fù)雜度,事實(shí)上,由于用戶搜索的物品個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于用戶個(gè)數(shù),即n?m,因此該階段算法的時(shí)間復(fù)雜度可以簡(jiǎn)化為O(m)。時(shí)間復(fù)雜度的后一項(xiàng)O(mlbm)為堆排序Wuv′′′的時(shí)間復(fù)雜度。
階段2求用戶u對(duì)物品感興趣程度Top(K)的物品集合J′
輸入用戶u的最近鄰集合S(u,K),物品集合J
輸出用戶u對(duì)物品感興趣程度Top(K)的物品集合J′
該階段算法的時(shí)間復(fù)雜度為O(x|K|)+O(xlbx),其中,x為用戶u未搜索過(guò)的物品個(gè)數(shù),最大為整個(gè)物品集合的數(shù)目|J|;|K|是系統(tǒng)選取的最近鄰的數(shù)目。時(shí)間復(fù)雜度的前一項(xiàng)O(x×|K|)為計(jì)算用戶u對(duì)物品j的感興趣程度的時(shí)間復(fù)雜度,一般來(lái)說(shuō),系統(tǒng)選取的最近鄰數(shù)目遠(yuǎn)遠(yuǎn)小于用戶未搜索過(guò)的物品個(gè)數(shù),即|K|?x,所以該階段算法的時(shí)間復(fù)雜度可以簡(jiǎn)化為O(x)。時(shí)間復(fù)雜度的后一項(xiàng)O(xlbx)為堆排序P(u,j)的時(shí)間復(fù)雜度。
5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
個(gè)性化推薦中常用的公開(kāi)數(shù)據(jù)集包括MovieLens, BookCrossing,Jester等,由于本文算法所需的數(shù)據(jù)來(lái)源于搜索日志,因此這些數(shù)據(jù)集并不適用于本文算法。目前沒(méi)有公開(kāi)的推薦系統(tǒng)的搜索日志數(shù)據(jù)集,已有的公開(kāi)搜索日志數(shù)據(jù)集如Sogou日志難以用在個(gè)性化推薦系統(tǒng)中,因此,本文實(shí)驗(yàn)中采用北京林業(yè)大學(xué)數(shù)字標(biāo)本館Web系統(tǒng)的用戶搜索日志,用以考察系統(tǒng)向用戶推薦標(biāo)本的準(zhǔn)確性。
經(jīng)過(guò)對(duì)數(shù)據(jù)的處理和篩選后,選擇了包含467個(gè)用戶關(guān)于788個(gè)標(biāo)本的4 783條搜索記錄,每個(gè)用戶至少有10次的搜索行為。這些數(shù)據(jù)可以比較充分地對(duì)本文提出的算法進(jìn)行測(cè)試。實(shí)驗(yàn)中按照本文第2節(jié)的部分來(lái)構(gòu)建用戶興趣三維模型。在實(shí)驗(yàn)過(guò)程中,將整個(gè)搜索日志數(shù)據(jù)集劃分為2個(gè)部分,80%用作訓(xùn)練集,主要用于構(gòu)建用戶興趣模型,剩下的20%用作測(cè)試集,用于驗(yàn)證模型的實(shí)際效果。
5.2 評(píng)價(jià)標(biāo)準(zhǔn)
實(shí)驗(yàn)比較了基于一維、二維、三維興趣模型的個(gè)性化推薦算法對(duì)用戶興趣描述的準(zhǔn)確性。一維興趣模型只用用戶興趣廣度表征用戶興趣;二維興趣模型利用用戶興趣廣度和深度來(lái)表征用戶興趣,也就是常見(jiàn)的利用搜索次數(shù)和搜索范圍來(lái)描述用戶興趣,實(shí)驗(yàn)以基于用戶興趣二維模型的推薦算法為參照,來(lái)驗(yàn)證本文提出的基于用戶興趣三維模型的推薦算法的質(zhì)量;三維興趣模型利用用戶興趣廣度、深度、時(shí)效來(lái)表征用戶興趣。分別根據(jù)用戶興趣的一維、二維、三維模型來(lái)計(jì)算用戶興趣相似度,產(chǎn)生最近鄰,預(yù)測(cè)用戶的興趣,產(chǎn)生推薦物品,比較推薦的準(zhǔn)確性。
本文采用2種指標(biāo)來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果:平均絕對(duì)值誤差(Mean Absolute Error,MAE)[15]和推薦精度(Precision@N)[16]。
平均絕對(duì)值誤差方法通過(guò)計(jì)算預(yù)測(cè)的用戶感興趣物品與實(shí)際的用戶感興趣物品之間的誤差,來(lái)表示預(yù)測(cè)的準(zhǔn)確性,如式(7)所示。MAE值越小,說(shuō)明推薦越精確。MAE值計(jì)算公式如下:其中,N為測(cè)試集中物品的個(gè)數(shù);Pi是對(duì)物品i的預(yù)測(cè)感興趣程度;Qi是實(shí)際感興趣程度。
Precision@N通過(guò)計(jì)算預(yù)測(cè)推薦物品與實(shí)際推薦物品的相關(guān)程度來(lái)反映推薦的精度,該值越大,精度越高,推薦的質(zhì)量就越好,如式(8)所示。
其中,N為推薦給目標(biāo)用戶的物品個(gè)數(shù);Prediction(N)表示通過(guò)訓(xùn)練集對(duì)目標(biāo)用戶進(jìn)行興趣預(yù)測(cè)后,推薦給目標(biāo)用戶的物品集合;Data(test)表示測(cè)試集中實(shí)際應(yīng)該推薦給目標(biāo)用戶的物品集合。
5.3 結(jié)果分析
基于用戶的個(gè)性化協(xié)同過(guò)濾推薦算法中,最近鄰數(shù)目的選取通常會(huì)影響計(jì)算結(jié)果,最近鄰數(shù)目越多,精度越高。在最近鄰用戶數(shù)K分別取4,8,12, 16,20時(shí),對(duì)基于3種用戶興趣模型的個(gè)性化推薦算法進(jìn)行MAE值進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 3種個(gè)性化推薦算法的MAE值對(duì)比
由圖2可見(jiàn),首先,隨著最近鄰用戶數(shù)K的增加,基于3種不同興趣模型的推薦算法MAE值都降低,即推薦結(jié)果都更精確。這是因?yàn)殡S著最近鄰數(shù)目的增加,能夠體現(xiàn)用戶興趣的數(shù)據(jù)增多,構(gòu)建的用戶興趣模型就更精確。其次,在任意K值下,隨著建模興趣維度的增加,MAE值隨之降低,說(shuō)明建模時(shí)每增加用戶興趣的一個(gè)維數(shù),對(duì)用戶興趣的描述就更準(zhǔn)確些,證明本文提出的用戶相似度三級(jí)計(jì)算方法是科學(xué)的,能夠逐步提高推薦精確度。并且在取同樣K值條件下,基于用戶興趣三維建模的推薦算法都取得了最低的MAE值,這是因?yàn)榛谟脩襞d趣三維建模的個(gè)性化推薦算法從用戶的興趣廣度、深度、時(shí)效3個(gè)方面來(lái)構(gòu)建用戶興趣模型,較另外兩種興趣模型而言,對(duì)用戶興趣的表征更精確。同時(shí),也說(shuō)明本文提出的算法推薦質(zhì)量高于常見(jiàn)的基于用戶興趣二維模型算法的推薦質(zhì)量。
基于3種不同興趣模型的個(gè)性化推薦推薦算法的Precision@N值的比較結(jié)果如圖3所示??梢钥闯?隨著推薦資源個(gè)數(shù)的增加,3種基于不同興趣模型推薦算法的推薦精度都在逐步增加,基于用戶興趣三維建模的算法始終比基于興趣一維和二維建模算法取得更大的推薦精度,在推薦精度為15時(shí),與另外2種推薦算法差距達(dá)到最大。與常見(jiàn)的基于用戶興趣二維模型的推薦算法相比,用戶興趣三維模型更能夠準(zhǔn)確地表征用戶興趣,在實(shí)際應(yīng)用中,基于用戶興趣三維建模的個(gè)性化推薦算法具有更高的使用價(jià)值。
圖3 3種算法的推薦精度對(duì)比
個(gè)性化推薦系統(tǒng)的目的是在應(yīng)用領(lǐng)域預(yù)測(cè)用戶需求興趣并向用戶推薦可用的信息。本文針對(duì)大多數(shù)推薦算法對(duì)用戶興趣描述不準(zhǔn)確的問(wèn)題,提出了一種基于用戶興趣三維建模的個(gè)性化推薦算法。通過(guò)分析用戶行為數(shù)據(jù),從用戶興趣廣度、深度、時(shí)效3個(gè)維度來(lái)構(gòu)建用戶興趣三維模型,使用戶興趣模型更能準(zhǔn)確地表征用戶的興趣,基于此提出了用戶興趣相似度的三級(jí)計(jì)算方法。實(shí)驗(yàn)結(jié)果證明,用戶興趣三維模型具有一定的科學(xué)性,能夠更準(zhǔn)確地表征用戶興趣,與傳統(tǒng)基于用戶興趣二維模型的推薦算法相比,基于用戶興趣三維建模的個(gè)性化推薦算法能夠提高推薦的準(zhǔn)確性,將其應(yīng)用到推薦系統(tǒng)中,能夠有效地提高系統(tǒng)的推薦質(zhì)量。
[1] Wei Chen,HsuW,LeeM L.ModelingUser’s Receptiveness over Time for Recommendation[C]// Proceedings of the 36th ACM SIGIR Conference.Dublin, Ireland:[s.n.],2013:373-382.
[2] 王巧容,趙海燕,曹 健.個(gè)性化服務(wù)中的用戶建模技術(shù)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(1):39-46.
[3] 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計(jì)算機(jī)科學(xué),2013,40(4):127-135.
[4] 蒲國(guó)林,楊清平,王 剛,等.基于語(yǔ)義的個(gè)性化用戶興趣模型[J].計(jì)算機(jī)科學(xué),2008,35(7):181-184.
[5] 石 林,徐 飛,徐守坤.基于用戶興趣建模的個(gè)性化推薦[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):211-214.
[6] 王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.
[7] 邱云飛,王琳潁,邵良杉,等.基于微博短文本的用戶興趣建模方法[J].計(jì)算機(jī)工程,2014,40(2):275-279.
[8] 蔣秀林,謝 強(qiáng),丁秋林.基于領(lǐng)域本體的用戶模型的研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(2):606-608.
[9] 吳 蓉,丁二玉,駱 斌.基于加權(quán)本體的個(gè)性化語(yǔ)義搜索[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(19): 5051-5053.
[10] 陳 婷,韓偉力,楊 珉.基于隱私保護(hù)的個(gè)性化推薦系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2009,35(8): 283-285.
[11] 劉濱強(qiáng).移動(dòng)環(huán)境下的個(gè)性化推薦用戶興趣建模研究[D].北京:北京郵電大學(xué),2009.
[12] 楊繼萍,王 躍,高雪松.個(gè)性化流媒體服務(wù)中基于行為分析的用戶興趣建模[J].計(jì)算機(jī)應(yīng)用與軟件, 2011,28(8):247-250.
[13] Li Jun,Zhang Peng.Mining Explainable User Interest from Scalable User Behavior Data[J].Procedia Computer Science,2013,17:789-796.
[14] 康雨潔.基于協(xié)同過(guò)濾的個(gè)性化社區(qū)推薦方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2001.
[15] 邸佳奇,王霓虹.一種基于GridGIS的增量式協(xié)同過(guò)濾算法[J].計(jì)算機(jī)科學(xué),2013,40(12):219-222.
[16] Xu Guandong,Gu Yanhui,Zhang Yanchun.Toast:A Topicoriented Tag-base Recommender System[C]//Proceedings of the 12th International Conference on Web Information System Engineering.Sydney,Australia:[s.n.],2011: 158-171.
編輯 金胡考
Personalized Recommendation Algorithm Based on Three-dimensional User Interest Modeling
WANG Bingyi,LIU Yang,NIE Changxin,TIAN Xuan
(School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China)
To realize the personalized recommendation,an algorithm based on three-dimensional user interest modeling is presented.First,by analyzing user’s behavior data,three aspects of user interest are analyzed for building threedimensional user interest model,including interest width,interest depth and user interest timeliness.Secondly,based on the three-dimensional user interest model,the dimension is gradually added and a method for calculating the interest similarity between two users is proposed.At last,a personalized recommendation algorithm is given.Experiment uses the data set derived from real recommendation system.The results show that,three-dimensional user interest model can describe user interest more accurately than two-dimensional and one-dimensional user interest model,and the proposed personalized recommendation algorithm can improve the accuracy rate of personalized recommendation.
personalized recommendation;three-dimensional user interest modeling;interest width;interest depth; interest timeliness;user interest similarity
1000-3428(2015)01-0065-06
A
TP312
10.3969/j.issn.1000-3428.2015.01.012
中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金資助項(xiàng)目(YX2014-19);北京林業(yè)大學(xué)國(guó)家級(jí)大學(xué)生創(chuàng)新基金資助項(xiàng)目(201310022050)。
王冰怡(1995-),女,本科生,主研方向:信息檢索,推薦系統(tǒng);劉 楊、聶長(zhǎng)新,本科生;田 萱(通訊作者),副教授、博士。
2014-04-28
2014-07-03 E-mail:tianxuan@ruc.edu.cn
中文引用格式:王冰怡,劉 楊,聶長(zhǎng)新,等.基于用戶興趣三維建模的個(gè)性化推薦算法[J].計(jì)算機(jī)工程,2015, 41(1):65-70.
英文引用格式:Wang Bingyi,Liu Yang,Nie Changxin,et al.Personalized Recommendation Algorithm Based on Threedimensional User Interest Modeling[J].Computer Engineering,2015,41(1):65-70.