張桂平,翟順龍,王裴巖
(沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
一種融合用戶主題興趣與用戶行為的文檔推薦方法
張桂平,翟順龍,王裴巖
(沈陽航空航天大學 人機智能研究中心,遼寧 沈陽 110136)
針對單一角度描述用戶興趣存在片面性的問題,該文提出一種融合用戶主題興趣和用戶行為的文檔推薦方法。一方面從主題興趣的角度,構建反映用戶主題興趣的主題向量用戶模型;另一方面從用戶行為的角度,構建反映用戶行為興趣的打分矩陣用戶模型。然后,基于上述用戶模型提出了兩種文檔推薦方法,并采用線性加權的方式融合這兩種方法,從而實現(xiàn)對用戶主題興趣與用戶行為的融合。實驗結果表明,該方法的推薦結果好于協(xié)同過濾推薦方法和基于內容的推薦方法。
用戶模型;主題興趣;用戶行為;文檔推薦
信息過載是當今大數(shù)據(jù)環(huán)境中最嚴重的問題之一。推薦系統(tǒng)作為有效緩解該問題的方法,受到越來越多的關注。如何充分利用用戶數(shù)據(jù)來進一步提高推薦系統(tǒng)的性能和用戶滿意度,成為大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的主要任務[1]。
在推薦系統(tǒng)中,用戶模型實現(xiàn)了對用戶興趣偏好的分析,是實現(xiàn)推薦系統(tǒng)的關鍵技術之一,通常是通過對用戶關注的物品內容或用戶交互行為的分析來構建用戶模型。但無論是基于物品內容或基于用戶交互行為的方法,其根本都是從不同角度對用戶興趣建模?;谖锲穬热莸姆椒ɡ糜脩魹g覽的物品內容數(shù)據(jù),從內容角度描述用戶興趣點[2]。基于用戶交互行為的方法,利用用戶行為數(shù)據(jù),挖掘用戶行為與用戶興趣點間的關系[3]。但是用戶的興趣是復雜多變的,從一個角度去對用戶的興趣進行描述存在一定的片面性。并且,這兩種方法是利用用戶或物品間的相似程度來進行推薦,對用戶行為數(shù)據(jù)的依賴程度較高。如果沒有足夠的用戶行為數(shù)據(jù),就會造成數(shù)據(jù)稀疏,從而導致推薦質量下降。
本文利用Blei等人提出的LDA(latent dirichlet allocation)[4-6]主題模型從兩個不同的角度來構建用戶模型,從而更加全面地對用戶興趣進行描述。一方面從主題興趣的角度,選擇用戶感興趣的文檔來構建反映用戶主題興趣的主題向量用戶模型;另一方面從用戶行為的角度,選擇用戶近期對文檔的打分來構建反映用戶行為興趣的打分矩陣用戶模型。采用線性加權的方法融合這兩種推薦方法,從而能夠從主題興趣和用戶行為兩方面來全面描述用戶的興趣。同時,在對用戶行為建模的過程中融入文本內容信息,減弱了對用戶行為數(shù)據(jù)的依賴性。
目前推薦方法可以分為以下幾類: (1)基于內容的推薦方法[7];(2)協(xié)同過濾推薦方法[8-9];(3)基于知識的推薦方法[10];(4)基于數(shù)據(jù)挖掘的推薦方法[11]。其中基于知識的推薦方法不能自我學習,很難獲得足夠的知識進行模型構建[10]?;跀?shù)據(jù)挖掘的推薦方法存在著抽取關聯(lián)規(guī)則難、個性化程度低等問題[12]。因此一般認為,協(xié)同過濾推薦方法和基于內容的推薦方法是推薦系統(tǒng)最基本的兩類推薦方法[13-14],但是這兩種方法也存在一些問題。在協(xié)同過濾推薦方法中,最常用的兩種方法分別是基于用戶的方法和基于物品的方法[8]。這兩種方法是利用用戶或物品間的相似程度來進行推薦,對用戶行為數(shù)據(jù)的依賴程度較高。如果沒有足夠的用戶行為數(shù)據(jù)就會造成數(shù)據(jù)稀疏,從而導致推薦質量下降[11]。在基于內容的推薦方法中,通常需要利用空間向量的方法對用戶興趣和文檔進行表示,然后根據(jù)用戶興趣向量與文檔向量的相似程度進行推薦。但是隨著文檔數(shù)量的不斷增加,向量空間維度及計算量也不斷增大,如果限制了向量空間的維度,則又不能全面反映用戶多方面的興趣,從而導致推薦的準確性降低[15-16]。
本文的推薦方法與協(xié)同過濾推薦方法和基于內容的推薦方法相比,存在以下優(yōu)點: (1)利用LDA主題模型具有降維、保存文檔語義的優(yōu)點,對文檔進行主題化,從而使文檔從高維的詞空間映射到低維的語義空間,進而降低文檔維度。(2)在對用戶行為建模的過程中融入文本內容信息以減弱對用戶行為的依賴性。(3)從用戶的主題興趣和用戶的行為興趣兩方面來對用戶的興趣進行更加全面的描述。
用戶模型的表示采用了兩種表現(xiàn)形式: 采用LDA主題模型中的“文檔—主題”分布來表示用戶的主題興趣;利用用戶對瀏覽過文檔的打分構建出“用戶—文檔”打分矩陣來表示用戶行為。
3.1 主題向量用戶模型的構建
主題向量用戶模型把用戶的興趣定義為用戶對不同主題的偏好程度,而LDA主題模型中的“文檔—主題”層可以表示一篇文檔在各個主題下的生成概率,所以本文選擇LDA主題模型中的“文檔—主題”層來構建用戶模型。
首先,利用LDA主題模型對文檔集合進行主題生成,即把所有的文檔表示成主題向量的形式。然后,從用戶近期瀏覽的文檔中,抽取在“[0-1]”打分區(qū)間上得分大于或等于0.5的n篇文檔。最后,計算這些文檔主題向量的中心向量,作為該用戶的主題向量用戶模型。用戶u的主題向量用戶模型的計算方法如式(1)所示。
其中,n表示用戶近期瀏覽的并且得分大于或等于0.5的文檔數(shù);dm表示文檔的主題向量;lu表示用戶u的主題興趣向量;lu的形式為lu=(pu,1,pu,2,…,pu,t),其中pu,t表示用戶u對于主題t的偏好程度。
3.2 打分矩陣用戶模型的構建
通過收集用戶對近期瀏覽文檔的打分能夠獲取用戶的行為特征,從而能夠衡量出用戶對不同文檔主題的偏好程度,所以本文利用用戶的打分數(shù)據(jù)構建出“用戶—文檔”的打分矩陣來表示用戶模型,其打分矩陣定義如式(2)所示。
(2)
其中,sui,dj表示用戶ui對文檔dj的打分,具體打分值由系統(tǒng)的打分機制確定,例如采用“1~5”分的打分機制,打分值越高表示用戶越喜歡該篇文檔,“0”表示用戶尚未瀏覽該篇文檔。
李林貴等人[17]指出用戶的興趣會隨著時間的推移而發(fā)生變化。為了更好地反映用戶興趣的變化,按照時間順序選取前k篇文檔的用戶打分來表示用戶最近一段時間的興趣,以排除用戶的歷史興趣對當前興趣的影響。
打分矩陣用戶模型如式(3)所示。
其中,matu表示用戶u的打分矩陣用戶模型,di表示文檔的主題向量,sk表示用戶對瀏覽過的第k篇文檔的打分值,并將其映射到“[0-1]”區(qū)間上。
本文利用上述兩種用戶模型提出基于主題向量用戶模型的文檔推薦方法與基于打分矩陣用戶模型的文檔推薦方法,并采用線性加權的方式將兩種文檔推薦方法進行融合。
4.1 基于主題向量用戶模型的文檔推薦方法
將文檔集中的每篇文檔分別與lu進行相似度計算,并按照計算的結果對文檔集進行排序。排在前面的文檔與用戶u的興趣更相似,進而把該文檔推薦給用戶。
本文采用余弦相似度的方法來計算文檔d與lu的相似度vu,d,其計算方法見式(4)。
4.2 基于打分矩陣用戶模型的文檔推薦方法
根據(jù)打分矩陣用戶模型可以獲取用戶u近期瀏覽的k篇文檔及對應打分值。對于每篇文檔找出與之最相似的m篇文檔。最后根據(jù)打分值和相似度值計算出用戶u對文檔d的喜歡程度zu,d,其計算方法見式(5)。
其中,Nu表示用戶u近期瀏覽過的k篇文檔;文檔d來自與文檔di相似度最高的m篇文檔的集合;wd,di是利用余弦相似度方法計算出的文檔d與文檔di的相似度;cd表示文檔d在相似文檔集中的重復次數(shù);su,di表示用戶對文檔di的打分。
4.3 兩種推薦方法的融合
采用線性加權的方法把兩種推薦方法對文檔d的打分進行加權,得到文檔d的最終打分scoreu,d。scoreu,d的計算方法見式(6)。
其中,α表示基于主題向量用戶模型的文檔推薦方法的權重,1-α表示基于打分矩陣用戶模型的文檔推薦方法的權重。
文檔推薦流程如圖1所示,包括以下幾部分: (1)獲取用戶的行為數(shù)據(jù),從這些行為數(shù)據(jù)中分別抽取出用戶近期瀏覽的文檔和用戶對這些文檔的打分;(2)利用LDA主題模型對文檔集進行主題化;(3)構建主題向量用戶模型和打分矩陣用戶模型;(4)根據(jù)這兩種用戶模型分別生成推薦結果;(5)對兩種用戶模型生成的推薦結果進行融合,生成最終推薦結果;(6)把融合后的推薦結果展現(xiàn)給用戶,根據(jù)用戶的反饋對用戶模型進行更新,生成新的推薦結果。
圖1 文檔推薦流程圖
5.1 實驗數(shù)據(jù)
本文收集了1 654篇中英論文,并獲取了2 768條用戶對瀏覽過論文的打分數(shù)據(jù)。每條數(shù)據(jù)的表示形式為“{UserID,PaperID,Score,Date}”,依次表示用戶的ID、瀏覽論文的編號、打分及時間。本文首先對1 654篇文檔集進行分詞、去停用詞、去低頻高頻詞等預處理,然后選擇馬薩諸塞大學CIIR中心的LDA主題模型工具把文檔表示成200維[18]的“文檔—主題”形式,最后篩選出35個瀏覽論文數(shù)量超過20篇的用戶,并將其行為數(shù)據(jù)作為實驗數(shù)據(jù)。
5.2 評價方法及指標
本文采用MeanP(平均正確率)對推薦結果進行評價,從而檢驗用戶模型對用戶行為的預測能力。MeanP是對所有用戶推薦正確率的平均值,其值越高表示推薦結果越好。其計算方法見式(6)。
其中,U表示用戶的集合;u表示用戶集合中的一個用戶;numu表示對用戶u推薦正確的個數(shù);sumu表示對用戶u推薦的總數(shù)。
5.3 模型參數(shù)選擇
在構建主題向量用戶模型中,要選取合適的n篇文檔來構建用戶模型,需要對參數(shù)n進行選擇來使該用戶模型達到最優(yōu)。為此本文設計了四組實驗,如圖2所示,其中橫軸表示選取文檔數(shù)量n,縱軸“MeanP@20”表示推薦20篇文檔時,不同n值對應的MeanP值。
由圖2可知,當n=15時,MeanP值最大;當n<15時,MeanP值隨n增加而變大,說明n的取值偏小時,可能會使用戶模型不能全面地反映用戶的興趣;當n>15時,而MeanP值變小,說明n的取值過大時,可能會引入用戶歷史興趣的干擾。所以本文選取用戶近期15篇打分大于或等于0.5的文檔來構建主題向量用戶模型。
圖2 主題向量用戶模型的參數(shù)選擇
在構建打分矩陣用戶模型時,不僅要獲取用戶近期瀏覽的k篇文檔及其對應的打分,而且還要為每篇文檔找到最相似的m篇文檔。為此本文采用窮舉法設計了20組實驗,即k分別取5、10、15、20,m分別取5、10、15、20、25,并對它們進行組合,得到相應的MeanP值,其結果如圖3所示,其中橫軸表示實驗的組次,縱軸表示在推薦文檔數(shù)為20時,不同組次所對應的MeanP值。
從圖3可知,在k=20,m=5時MeanP值最大,即打分矩陣用戶模型達到最優(yōu)。
圖3 打分矩陣用戶模型的參數(shù)選擇
5.4 實驗結果
本文所提出的文檔推薦方法的實驗結果如圖4所示,圖中橫坐標表示推薦的文檔數(shù),縱坐標表示對應的MeanP值,α表示基于主題向量用戶模型的文檔推薦方法的權重。
圖4 融合方法的實驗結果
由圖4可以得知: (1)基于主題向量用戶模型的文檔推薦方法在推薦效果上要略好于基于打分矩陣用戶模型的文檔推薦方法。當α為0和α為1時,在不同推薦文檔數(shù)上,基于主題向量用戶模型的文檔推薦方法的推薦效果均好于基于打分矩陣用戶模型的文檔推薦方法。(2)融合后的推薦效果與權重大小有一定的關系。推薦文檔數(shù)一定時,當α為0.2時,融合后的推薦效果要優(yōu)于基于打分矩陣用戶模型的文檔推薦方法,但低于基于主題向量用戶模型的文檔推薦方法;當α大于或等于0.4時,采用不同權重融合策略的文檔推薦方法在推薦效果上均優(yōu)于沒有采用融合策略的文檔推薦方法,說明融合后的文檔推薦方法在推薦效果上具有一定的穩(wěn)定性,同時也反映出兩種用戶模型具有一定的互補性。雖然,兩種用戶模型都不同程度上采用了LDA主題模型,但是主題向量用戶模型更加偏向描述用戶在主題上的興趣,而打分矩陣用戶模型更加偏向描述用戶在行為上實時的興趣,當采用適當?shù)臋嘀貙烧哌M行融合時,更能反映用戶的興趣。
5.5 對比實驗
本文選擇推薦效果較好的α為0.6時的融合方法與基于用戶的協(xié)同推薦方法(UserCF)、基于物品的協(xié)同推薦方法(ItemCF)及基于內容(Content)的方法進行對比。UserCF、ItemCF是文獻[3]中的方法;基于內容的推薦方法先利用LDA主題模型把文檔進行主題化,然后根據(jù)用戶瀏覽過的文檔尋找相似文檔來進行推薦。在本文數(shù)據(jù)集上的對比實驗結果如圖5所示。
為了更好地驗證本文方法的有效性,本文還采用了CiteULike*http://www.citeulike.org/faq/data.adp作為對比實驗的數(shù)據(jù)集。該數(shù)據(jù)集共收集了16 980篇英文文獻的摘要和5 551名用戶在瀏覽文獻時的打分數(shù)據(jù)。在對比實驗中按照5.1節(jié)中介紹的方法對16 980篇文檔摘要進行預處理,并篩選出500名瀏覽文獻數(shù)量超過40篇的用戶作為實驗對象。圖6為在CiteULike數(shù)據(jù)集上α值對融合方法效果的影響。從圖6可見,α=0.6時,相對效果最好,與5.1節(jié)所介紹的數(shù)據(jù)集上的結果相同,說明參數(shù)α具有一定的魯棒性。對比實驗結果如圖7所示。
圖5 對比實驗結果
圖6 在CiteULike數(shù)據(jù)集上融合方法的實驗結果
圖7 在CiteULike數(shù)據(jù)集上的對比實驗結果
從圖5和圖7上都可以看出,在不同推薦文檔數(shù)上,采用本文融合方法的推薦效果要優(yōu)于UserCF、ItemCF、Content方法,說明本文提出的推薦方法能夠更加準確地預測用戶的興趣。
5.6 實驗結果分析
為了進一步分析融合后推薦效果提升的原因,本文選取推薦文檔數(shù)為5的情況,分析在不同融合權重下, 正確推薦結果在基于主題向量用戶模型的文檔推薦方法和基于打分矩陣用戶模型的文檔推薦方法中的排名。利用排名之和反映融合后正確的推薦結果在兩種文檔推薦方法中的排名情況。排名之和越小說明該推薦結果在兩種文檔推薦方法中的排名越靠前,反之則說明排名越靠后。將排名之和分成不同的區(qū)間,并統(tǒng)計出各個區(qū)間在正確推薦結果中所占的百分比。統(tǒng)計結果如圖8所示。例如“(0-10]”表示融合后正確推薦結果在兩種文檔推薦方法中排名之和在“(0-10]”的部分,其對應的縱軸值表示該區(qū)間在全部正確推薦結果中所占的百分比。
圖8 不同區(qū)間在正確推薦結果中所占的百分比
另外,本實驗還統(tǒng)計了在上述區(qū)間內,不同權重下兩種推薦結果的排名之差的平均值,用來反映融合后正確的推薦結果在兩種文檔推薦方法中排名的差異性,排名之差越大說明該推薦結果在兩種文檔推薦方法中排名差異越大。結果如圖9所示,縱軸值為排名之差的平均值。
圖9 不同區(qū)間中排名之差的平均值
從圖8中可以看出,區(qū)間“(0-10]”“(10-20]”“(20-30]”在四種權重下共占正確推薦結果的比重分別為68.18%、76.53%、83.81%、80.19%,說明用戶興趣主要集中于在兩種文檔推薦方法中排名都靠前的文檔上。在這些區(qū)間里,推薦結果在兩種文檔推薦方法中的排名之和均小于或等于30,結合圖9可以看出這三個區(qū)間在兩種文檔推薦方法中的排名差值也較小,說明這些推薦正確的結果在兩種文檔推薦方法中的排名都相對比較靠前,融合后其排名之所以能進入前5名,是兩種文檔推薦方法共同作用的結果。對于區(qū)間“(30-40]”“(40-50]”“(50-60]”和“(60,∞)”,其推薦結果在兩種文檔推薦方法的結果中的排名之和均大于30,并且結合圖9可以看出這四個區(qū)間的排名差值也較大,說明這些推薦結果在其中一種文檔推薦方法的排名較靠前,而在另一種文檔推薦方法中排名比較靠后,其融合后之所以能夠進入前5名,主要是單一方法作用的結果,說明這兩種文檔推薦方法具有一定的互補性,也說明主題向量用戶模型與打分矩陣用戶模型具有一定的互補性,因此,從主題興趣和用戶行為兩方面建模更能充分體現(xiàn)用戶興趣。
以用戶“018”為例,按照時間先后順序選取用戶“018”的前20條行為數(shù)據(jù)來構建基于打分矩陣用戶模型,抽取15條得分在0.5以上的文檔來構建基于主題向量用戶模型,并在α為0.6的權重下進行融合。用戶“018”的行為數(shù)據(jù)如表1所示;表2分別給出了基于主題向量用戶模型的推薦方法、基于打分矩陣用戶模型的推薦方法及融合方法的推薦結果,并展示了融合方法的結果來源,其中Y表示推薦結果正確;N表示推薦結果錯誤。
表1 文檔名稱及打分值
續(xù)表
表2 不同推薦方法的推薦結果
從表2中可以看出基于打分矩陣用戶模型的文檔推薦方法的正確率為40%,基于主題向量用戶模型的文檔推薦方法的正確率為80%,而融合方法的正確率為100%,表明融合方法的推薦效果要優(yōu)于單一的推薦方法。其融合后推薦效果提升的原因主要有以下兩點。
第一,從用戶的瀏覽行為上可以得知用戶的興趣主要集中在“潛在語義”上,用戶對其瀏覽過的“基于潛在語義分析的個性化查詢擴展”打分為“1”,但這篇文檔既包含“潛在語義”這個主題又包含了“信息檢索”這個主題。在基于打分矩陣用戶模型的文檔推薦方法中的“基于N層向量空間模型的信息檢索算法”“基于向量的相似度計算方法”“基于向量空間模型的中文信息檢索技術研究”三篇文檔由于含有“信息檢索”這個主題,從而使這三篇文檔分別與文檔“基于潛在語義分析的個性化查詢擴展”具有0.919、0.901、0.867的相似度,最終導致它們在基于打分矩陣用戶模型的文檔推薦方法上得分偏高;另外,由于該三篇文檔與用戶的主題興趣不相同,所以在基于主題向量用戶模型的文檔推薦方法中得分相對較低,分別為0.569、0.479、0.551;最終將兩種推薦方法按照0.6的權重融合后,得分僅為0.709、0.648、0.678,使其在融合方法中排名均在5名之后。其次,對于基于主題向量用戶模型的文檔推薦方法中的“一種義項矩陣模型SMM”文檔,雖然在基于主題向量用戶模型的文檔推薦方法中得分為0.917,但是與用戶近期瀏覽過的20篇文檔相似度均不高,因此其在基于打分矩陣用戶模型的文檔推薦方法中得分為0,使其在融合方法中排在5名之后。這說明融合后的推薦方法能夠排除在單一推薦方法中打分較高而在另一推薦方法中打分較低的文檔,且這些文檔往往不是用戶感興趣的文檔。
第二,在表2中,融合方法中排名前5的文檔在基于打分矩陣用戶模型的文檔推薦方法中的排名分別為1、2、13、6、7,在基于主題向量用戶模型的文檔推薦方法中的排名分別為10、11、2、15、13,說明融合后的文檔往往是來自于在兩種文檔推薦方法中排名都比較靠前的文檔,而且從用戶對推薦結果的評價可知,這些文檔往往是用戶感興趣的文檔,同時也印證了用戶興趣主要集中于在兩種推薦方法中排名均較高的文檔集上。
本文利用LDA主題模型和通過對用戶行為數(shù)據(jù)的分析,構建兩種用戶模型,即基于主題向量用戶模型和基于打分矩陣用戶模型,并將這兩種用戶模型應用到文檔推薦中,最后將兩種推薦結果進行融合,得到了較好的推薦結果。但是在推薦過程中并沒有考慮用戶之間的相似關系,所以在下一步的工作中要把用戶間的關系信息融合到推薦算法當中,以期獲得更好的結果。
[1] 孟祥武, 紀威宇, 張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學學報, 2015, 38(2): 1-15.
[2] Pazzani M J, Billsus D. Content-based recommendation systems[M]. The Adaptive Web. Springer Berlin Heidelberg, 2007: 325-341.
[3] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th international conference on World Wide Web. ACM, 2001: 285-295.
[4] Blei D, Ng A, Jordan M.Latent dirichlet allocation[J].The Journal of Machine Learning Research, 2003, 1(9): 993-1022.
[5] Blei D.Probabilistic topic models[J].Communications of the ACM,2010, 55(6): 77-84.
[6] 趙鵬, 蔡慶生, 王清毅.一種用于文章推薦系統(tǒng)中的用戶模型表示方法[J].計算機技術與發(fā)展, 2007, 17(1): 4-5.
[7] Han Peng, Xie Bo, Yang Fan. A scalable P2P recommender system based on distributed collaborative filtering[J].Expert Systems with Applications, 2004, 27(2): 203-210.
[8] Schafer J B, Dan F, Herlocker J, et al.Collaborative filtering recommender systems[M].The Adaptive Web Springer: Berlin Heidelberg, 2007: 291-324.
[9] Papagelis M, Plexousakis D. Qualitative analysis of userbased and item-based prediction algorithms for recommendation systems, CIA 2004.[C]//International Journal of Engineering Applications of Artificial Intelligence. 2004: 152-166.
[10] 許海玲, 吳瀟, 李曉東, 等.互聯(lián)網推薦系統(tǒng)比較[J].軟件學報, 2009, 20(2): 350-362.
[11] Liu Duenren, Lai Chinhui, Huang Chiuwen. Document recommendation for knowledge sharing in personal folder environments[J].Journal of Systems and Software, 2008, 81(8): 1377-1388.
[12] Lazcorreta E, Botella F, Fernández-Caballero A. Towards personalized recommendation by two-step modified Apriori data mining algorithm[J].Expert Systems with Applications, 2008, 35(3): 1422-1429.
[13] 李忠俊, 周啟海, 帥青紅.一種基于內容和協(xié)同過濾同構化整合的推薦系統(tǒng)模型[J].計算機科學, 2009, 36(12): 142-145.
[14] Yu K, Xu X,Schwaighofer A, et al. Removing redundancy and inconsistency in memory-based collaborative filtering[C]//Proceedings of the 11th International Conference on Information and Knowledge Management. New York: ACM Press, 2002: 52-59.
[15] Chen J, Nairn R, Nelson L, et al. Short and tweet: experiments on recommending content from information streams[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Atlanta: ACM, 2010: 1185-1194.
[16] 徐戈, 王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報, 2011, 34(8): 1423-1436.
[17] 李貴林, 楊禹琪, 高星, 等.企業(yè)搜索引擎?zhèn)€性化表示與結果排序算法研究[J].計算機研究與發(fā)展, 2014, 51(1): 206-214.
[18] 唐曉麗, 白宇, 張桂平, 等.一種面向聚類的文本建模方法[J].山西大學學報(自然科學版),2014, 37(4): 596-600.
ADocumentRecommendationMethodbyCombiningofTopicsandBehaviors
ZHANG Guiping, ZHAI Shunlong, WANG Peiyan
(Human Computer Intelligence Research Center, College of Computer, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)
This paper proposes a method by combining the topic and the behavior to describe the user interest. On the one hand, from the perspective of the topics, a topic vector model is constructed to reflect the user’s interest in topic. On the other hand, from the perspective of behavior, a score matrix model is constructed to reflect the user’s interest in behavior. Then, based on two user models, two document recommendation methods are constructed, and then combined by the linear weighted method. Experimental results show that the proposed method is better than the collaborative filtering recommendation method and the content-based recommendation method.
user model; topic interest; user behavior; document recommendation
張桂平(1962—),博士,教授,主要研究領域為自然語言處理、機器翻譯。
翟順龍(1989—),碩士,主要研究領域為知識工程與知識管理。
王裴巖(1983—),博士,講師,主要研究領域為信息檢索、機器學習。
1003-0077(2017)03-0147-09
2015-10-29定稿日期: 2016-01-11
國家科技支撐計劃(2015BAH20F01);國防科研基礎項目(A0520131003)
TP391
: A