余福茂,胡亞蘭,林 娜
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
基于鄰域用戶模型的主題推薦研究
余福茂,胡亞蘭,林 娜
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
傳統(tǒng)的基于用戶興趣主題的主題推薦中,由于數(shù)據(jù)的稀疏性以及對(duì)鄰域好友之間的影響作用考慮不夠深入,推薦的效果不佳。為了豐富目標(biāo)用戶的興趣集,文章在基于本體的基本用戶模型之上,引入鄰域用戶興趣集,計(jì)算更新鄰域主題興趣度,根據(jù)獲取的目標(biāo)用戶興趣主題集來進(jìn)行主題的匹配推薦。最后通過兩個(gè)不同的數(shù)據(jù)集對(duì)模型進(jìn)行推薦效果驗(yàn)證,結(jié)論表明文章所提出的用戶模型的推薦效果是明顯要優(yōu)于傳統(tǒng)用戶模型。
用戶模型;本體;鄰域用戶模型;協(xié)同過濾
當(dāng)前,利用知名社交平臺(tái)的流量數(shù)據(jù)建立用戶模型,實(shí)現(xiàn)對(duì)用戶興趣主題的預(yù)測(cè)是當(dāng)下數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。預(yù)測(cè)用戶興趣主題的關(guān)鍵是要獲取精確的用戶特征。建立用戶模型是近年來常用的獲取精確用戶特征的主要方法之一。目前國(guó)內(nèi)外關(guān)于用戶模型的研究取得了一定的成果。宋雯斐等人[1]結(jié)合情景信息建立動(dòng)態(tài)語義用戶模型,并將模型應(yīng)用到個(gè)性化圖書館服務(wù)推薦中去。Tao等[2]綜合考量了個(gè)體和全局知識(shí)庫,建立個(gè)性化的本體用戶模型,最后通過與基準(zhǔn)模型對(duì)比數(shù)據(jù)表明,本體模型存在一定的優(yōu)勢(shì)。由于微博內(nèi)容的隨意性、更新的頻率高,廣告推薦往往會(huì)碰到數(shù)據(jù)稀疏性、冷啟動(dòng)等問題。國(guó)內(nèi)外的學(xué)者針對(duì)這兩個(gè)問題代表性解決方式有Moussa[3]等在用戶意向挖掘中加入了年齡、性別等情景因素來解決數(shù)據(jù)稀疏性等問題,最終實(shí)驗(yàn)表明論文中提出的算法提高了21%的精確度。G Piao[4]等重復(fù)利用谷歌的配置文件,在Twitter用戶模型的構(gòu)建上解決冷啟動(dòng)問題。以及趙軍[5]等使用稀疏和低秩矩陣補(bǔ)全理論對(duì)稀疏的用戶——項(xiàng)目矩陣進(jìn)行填充。上述的研究成果中,雖然多數(shù)研究者已經(jīng)關(guān)注到了用戶與鄰域好友之間的關(guān)系,但在本文的研究平臺(tái)微博中,用戶之間通過互動(dòng),形成了大量的傳播數(shù)據(jù)信息。在這樣一個(gè)龐大的社交網(wǎng)絡(luò)中,用戶的興趣偏好等必然會(huì)受到群體智慧的影響。而以上研究首先對(duì)群體智慧影響作用的研究不太關(guān)注。其次在對(duì)鄰域好友之間的關(guān)系的定位時(shí),以往的研究多數(shù)是從用戶相似性的單一維度出發(fā),這樣會(huì)導(dǎo)致推薦效果不佳。
用戶模型是對(duì)用戶的興趣度的一個(gè)度量的模型,主要由兩部分構(gòu)成,第一部分是興趣主題詞,并且對(duì)主題詞的重要度進(jìn)行量化的計(jì)算,得出用戶的主題興趣度,即內(nèi)容興趣度;第二部分是主題詞的專業(yè)程度,專業(yè)覆蓋度。內(nèi)容興趣度是在主題分類和提取的基礎(chǔ)上,用量化的方法將用戶所感興趣的內(nèi)容抽象成為權(quán)重最后得出用戶在主題上的興趣度。關(guān)于主題的提取與劃分,國(guó)內(nèi)外學(xué)者多數(shù)采用的是機(jī)器學(xué)習(xí)中的分類方法。A Kamal[6]等設(shè)計(jì)一種本體學(xué)習(xí)和情感分析系統(tǒng)的本體學(xué)習(xí)和情感分析的使用規(guī)則和機(jī)器學(xué)習(xí)的方法為意見挖掘和情感分析做準(zhǔn)備。本文的主題詞提取一方面依靠ICTCLAS3.0系統(tǒng)對(duì)微博內(nèi)容進(jìn)行特征詞提取,另一方面根據(jù)搜集到的微博數(shù)據(jù)來進(jìn)行人工修正與更新,以保證分類的精確性。而主題的重要程度主要由主題權(quán)重和逆文檔頻率兩部分構(gòu)成。
微博主題的提取與劃分,首先需要對(duì)文檔的相似度進(jìn)行計(jì)算,由于余弦距離度量方法主要關(guān)注對(duì)象之間方向上的差異,更適合用來評(píng)估用戶的興趣的相似度和差異,因此本文主要采用余弦相似度。另外,目前對(duì)于主題興趣的分類的一種很主要的方式就是通過本體結(jié)合行業(yè)的領(lǐng)域知識(shí)來進(jìn)行領(lǐng)域本體分類。例如范云杰[7]利用危機(jī)百科的分類結(jié)合本體學(xué)習(xí)方法,對(duì)中文文本中的短文本進(jìn)行特征分類。
微博內(nèi)容的興趣度的表示一方面需要對(duì)微博主題的提取與分類,另一方面還需要主題在微博內(nèi)容中的重要程度。我們表示出主題詞t在微博M的相對(duì)重要度=詞頻重要度*逆文檔頻率。根據(jù)主題的劃分以及主題在文檔中的相對(duì)權(quán)重,我們能夠?qū)⒂脩鬽在主題S上的內(nèi)容興趣度表示為cidu(s)。呂歡歡、宋偉東[8]等在對(duì)領(lǐng)域本體的相似度計(jì)算的過程中指出:在本體結(jié)構(gòu)中,越是細(xì)分的下層概念,其含義是更加具體的,而上層的概念則是更加抽象的,因此把本體分類概念的深度也加入領(lǐng)域本體的相似度計(jì)算中。本文的用戶模型中,也考慮了用戶的領(lǐng)域?qū)I(yè)深度。
在前文中我們有提到予以分類樹中的父節(jié)點(diǎn)具有抽象性強(qiáng)解釋性弱的特點(diǎn),而越是靠近下層的子節(jié)點(diǎn)的概念解釋性更強(qiáng),因此葉節(jié)點(diǎn)的語義解釋性更強(qiáng),我們把這種關(guān)系用參數(shù)&的值來定義,當(dāng)&>1,表示上述的關(guān)系成立。而水平方向上的語義解釋度我們用log來表示。根據(jù)語義覆蓋度,我們可以把用戶m對(duì)主題S的語義解釋性表示為sidu(s)。在獲取了用戶內(nèi)容興趣度以及語義解釋性之后,我們可以將基本的用戶模型表示為Iu(s)。
由于微博內(nèi)容的隨意性、更新的頻率高以及存在巨大的交互資源等特點(diǎn),若只是針對(duì)目標(biāo)用戶個(gè)人的微博內(nèi)容所提取出來的用戶興趣模型往往是不夠全面的。潘以鋒、盛小平[9]在研究開放獲取指導(dǎo)的過程中提出,社交關(guān)系之間的強(qiáng)關(guān)系與弱關(guān)系的概念。微博作為一個(gè)和大型的虛擬社區(qū),其用戶之間的關(guān)系也有強(qiáng)弱之分。因此在尋找目標(biāo)用戶的鄰域好友的過程中,首先要對(duì)用戶之間的鄰域關(guān)系進(jìn)行計(jì)算。本文中對(duì)鄰域關(guān)系的計(jì)算主要包括兩個(gè)方面,資源認(rèn)知與關(guān)注認(rèn)知。記o(u,m)=1為用戶 u 發(fā)布的微博 m,Mu={mj|o(u,m)=1}為與用戶u相關(guān)的微博的集合。記Fu為用戶u關(guān)注的用戶集合,分別為用戶、關(guān)注的好友集合對(duì)應(yīng)的基數(shù),那么可將資源認(rèn)知和關(guān)注關(guān)系認(rèn)知關(guān)系記為:
最后根據(jù)兩種類型的認(rèn)知關(guān)系,通過分配權(quán)重η得到用戶 ui與 uj之間的綜合認(rèn)知度,,在上述的用戶之間的認(rèn)知度公式中,資源認(rèn)知與關(guān)注認(rèn)知之間的權(quán)衡是通過設(shè)置參數(shù)來實(shí)現(xiàn)的。在用戶認(rèn)知度的基礎(chǔ)上可以得到用戶的鄰域好友集合,記為:Nui={uj|Rij≥σ},其中σ是閾值參數(shù),通過設(shè)置不同的閾值σ,可以得到用戶的不同的鄰域。Nui表示了用戶ui所關(guān)注的好友鄰域集合,該集合對(duì)用戶的潛在興趣有間接的影響作用。通過將該鄰域用戶的用戶模型進(jìn)行去重合并,就能得到用戶ui的鄰域用戶模型。更新后的興趣度為:
我們選取精度(P),召回率(R)作為評(píng)價(jià)指標(biāo)對(duì)鄰域用戶模型和傳統(tǒng)模型以及CF推薦的效果進(jìn)行比較。其公式可表示為:
其中Sτ是根據(jù)目標(biāo)用戶自己的微博提取出來的興趣主題的集合,SR是根據(jù)目標(biāo)用戶的鄰域好友的微博提取出來的興趣主題集。
本文的數(shù)據(jù)來自于NLPIR以及微博開放平臺(tái)數(shù)據(jù)集。由于本文只針對(duì)個(gè)人用戶的興趣特征進(jìn)行廣告推薦,故在數(shù)據(jù)預(yù)處理的過程中,刪除了企業(yè)用戶以保證推薦的有效性。本文分別在體育經(jīng)濟(jì)文化IT四個(gè)領(lǐng)域上探究用戶的興趣特征。具體的數(shù)據(jù)集構(gòu)成如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)表
從表1可以看出,北京理工數(shù)據(jù)集相對(duì)于微博開放數(shù)據(jù)集來說,用戶之間的關(guān)注關(guān)系不那么明顯。
在前文中我們提到,在獲取用戶的鄰域興趣主題集時(shí),參數(shù)α代表認(rèn)知關(guān)系中的資源認(rèn)識(shí)與關(guān)注認(rèn)知之間的比例,參數(shù)δ是用來獲取目標(biāo)用戶的不同大小的鄰域。由于本文中所涉及到的兩個(gè)數(shù)據(jù)集的特征不同,故本文首先對(duì)用戶關(guān)注關(guān)系不明顯的北京理工的數(shù)據(jù)集設(shè)置參數(shù)δ=0.1,對(duì)用戶關(guān)注關(guān)系更密集的微博開放數(shù)據(jù)集設(shè)置參數(shù)δ=0.3,兩個(gè)數(shù)據(jù)集的α值都設(shè)置為0.5進(jìn)行比較。這是因?yàn)楫?dāng)用戶之間的關(guān)注關(guān)系不那么明顯時(shí),若δ的值太大,得到的鄰域用戶的范圍也會(huì)增大,導(dǎo)致推薦給了目標(biāo)用戶并不感興趣的微博廣告。
圖1 北理數(shù)據(jù)集:α=0.5,δ=0.1時(shí),鄰域用戶、協(xié)同過濾以及孤立用戶模型的精度與召回率
圖2 微博數(shù)據(jù)集:α=0.5,δ=0.3時(shí),鄰域用戶、協(xié)同過濾以及孤立用戶模型的精度與召回率
從圖1和圖2可以看出,本文提出的鄰域用戶模型無論是在精度和召回率維度來說都是要優(yōu)于協(xié)同過濾、孤立用戶模型。因?yàn)閷?duì)多數(shù)用戶來說,他們更傾向于接受其鄰域內(nèi)的好友用戶所感興趣的興趣主題。在北京理工數(shù)據(jù)集上,隨著推薦主題數(shù)K的增加,鄰域用戶模型的精度的召回率越來越接近協(xié)同過濾,這是因?yàn)楸本├砉?shù)據(jù)集中,用戶之間的關(guān)注關(guān)系弱,這樣的數(shù)據(jù)集中即時(shí)加入了鄰域好友的興趣主題,有效的推薦主題也是較少的,最終的推薦結(jié)果中不相關(guān)的主題比例會(huì)越來越大。
鄰域用戶模型的推薦性能直接受用戶的社交水平的影響,不善于社交的目標(biāo)用戶,關(guān)注的用戶數(shù)量少,這種情況下,想要獲得足夠的鄰域用戶集合都是很困難的,推薦的主題稀缺會(huì)直接導(dǎo)致推薦效果大打折扣;而社交能力太強(qiáng)的用戶,關(guān)注的好友數(shù)量大,這種情況下,鄰域用戶集合中,存在較多的數(shù)據(jù)冗余,導(dǎo)致推薦的興趣主題過多,不能集中到目標(biāo)用戶真正關(guān)心的興趣主題上,推薦效果不理想。
本文在總結(jié)主題推薦問題中缺少對(duì)用戶之間興趣的相互影響作用等問題的思考,提出了基于鄰域用戶的主題推薦模型。實(shí)驗(yàn)證明該模型在精準(zhǔn)度和召回率兩個(gè)方面都要優(yōu)于孤立用戶模型和協(xié)同過濾模型。另外對(duì)于不同的數(shù)據(jù)集,用戶之間的關(guān)注關(guān)系不一致,可能影響推薦的效果,若要提高推薦有效性,需要選擇合適的鄰域范圍、資源認(rèn)知與關(guān)注認(rèn)知比例以及推薦主題的個(gè)數(shù)。
[1]宋雯斐,邢紅剛,魯揚(yáng),2013.基于層次語義情景的用戶模型構(gòu)建[J].情報(bào)科學(xué)(6):24-27.
[2]Tao X,Li Y,Zhong N.A Personalized Ontology Model for Web Information Gathering[J].IEEE Transactions on Knowledge&Data Engineering,2011,23(4):496-511.
[3]Moussa S.An Approach for Opinion-Demographic-Topology Based Microblog Friend Recommendation[C].Cham:Springer International Publishing,2017:815-824.
[4]Piao G,Breslin J G.Analyzing Aggregated Semantics-enabled User Modelingon Google+and Twitter for Personalized Link Recommendations[C].ACM,2016:105-109.
[5]趙軍,王紅,殷方勇.一種面向稀疏和虛假評(píng)分的協(xié)同推薦方法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(3):472-477.
[6]Kamal A,Abulaish M,Jahiruddin.OntoLSA-An Integrated Text Mining Systemfor OntologyLearningand Sentiment Analysis[C].Cham:Springer International Publishing,2016:399-423.
[7]范云杰,劉懷亮,2012.基于維基百科的中文短文本分類研究[J].現(xiàn)代圖書情報(bào)技術(shù)(3):47-52.
[8]呂歡歡,宋偉東,楊睿.基于領(lǐng)域本體的綜合加權(quán)語義相似度算法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(12):4209-4213.
[9]潘以鋒,盛小平.社會(huì)網(wǎng)絡(luò)理論與開放獲取的關(guān)系分析[J].情報(bào)理論與實(shí)踐,2013,36(6):21-26.
F062.5
A
1004-2768(2017)11-0108-04
2017-08-07
國(guó)家自然科學(xué)基金“電子廢棄物回收處理系統(tǒng)的多主體協(xié)同演化機(jī)理及政策研究”(71373064)
余福茂(1975-),男,山西應(yīng)縣人,博士,杭州電子科技大學(xué)管理學(xué)院教授,研究方向:信息技術(shù)與管理;胡亞蘭(1992-),女,四川瀘州人,杭州電子科技大學(xué)管理學(xué)院碩士研究生,研究方向:信息技術(shù)與管理、數(shù)據(jù)挖掘;林娜(1994-),女,江西上饒人,杭州電子科技大學(xué)管理學(xué)院碩士研究生,研究方向:信息技術(shù)與管理、數(shù)據(jù)挖掘。胡亞蘭為通訊作者。
C 校對(duì):T)