單曉紅 崔鳳艷 劉曉燕
摘 要:[目的/意義]為了防止微博話題推薦引發(fā)信息繭房效應(yīng),提出融合微博話題特征和目標用戶興趣偏好的話題推薦方法,實現(xiàn)了在不降低推薦精確率的同時提高話題推薦結(jié)果的多樣性,進而達到提高用戶滿意度的目的。[方法/過程]首先根據(jù)用戶歷史微博內(nèi)容獲取用戶興趣偏好,進一步以協(xié)同過濾算法為基礎(chǔ),計算目標用戶相似性,然后計算話題新鮮度、重要度、信任度指標并進行線性加和,得到目標用戶對微博話題的綜合興趣度,最后,根據(jù)用戶偏好和綜合興趣度計算目標用戶對微博話題的興趣度并降序排列,得到Top-N個話題推薦結(jié)果。[結(jié)果/結(jié)論]在真實微博數(shù)據(jù)上的實驗結(jié)果表明,該方法取得了理想的預(yù)期效果,推薦效果既能保證準確性,又能體現(xiàn)多樣性,并且有效緩解了推薦結(jié)果單一、容易引發(fā)信息繭房的問題。
關(guān)鍵詞:微博話題推薦;協(xié)同過濾;話題新鮮度;話題多維特征
DOI:10.3969/j.issn.1008-0821.2022.05.007
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)05-0069-08
Abstract:[Purpose/Significance]In order to prevent microblog topic recommendation from causing information cocoon effect,a topic recommendation method combining microblog topic characteristics and target users interest preferences was proposed to improve the diversity of topic recommendation results without reducing the recommendation accuracy,so as to improve user satisfaction.[Method/Process]Firstly,the users interest preferences were obtained according to the users historical microblog content.Further,based on the collaborative filtering algorithm,the similarity of target users was calculated.Then,the topic freshness,importance and trust indexes were calculated and linear sum was performed to obtain the comprehensive interest degree of target users on microblog topics.According to user preferences and comprehensive interest degree,the interest degree of target users on microblog topics was calculated and arranged in descending order,and top-N topic recommendation results were obtained.[Result/Conclusion]The experimental results on real microblog data show that the proposed method achieves the desired effect.The recommendation effect can not only ensure the accuracy,but also reflect the diversity,and effectively alleviate the problem of single recommendation result,which is easy to cause information cocoon.
Key words:microblog topic recommendation;collaborative filtering;topic freshness;topic multidimensional features
微博平臺以其豐富的內(nèi)容和實時性吸引了大量用戶,用戶獲得的信息隨時都在變化,信息碎片化會影響用戶的判斷[1],將微博內(nèi)容以話題的粒度利用LDA話題模型[2]進行聚合,可以幫助用戶獲得微博內(nèi)容的重點。話題推薦作為信息檢索領(lǐng)域研究的熱點問題,可以提高用戶獲取信息的效率,而微博個性化推薦系統(tǒng)主要是根據(jù)用戶的需求、興趣等為用戶推薦其感興趣的微博內(nèi)容[3]?,F(xiàn)有的微博話題推薦算法在滿足用戶個性化需求、提升準確度方面做了大量研究,如魯燃等結(jié)合用戶偏好特征、時間信息和話題熱度,基于人工蜂群的思想對用戶進行微博話題推薦[4],同時協(xié)同過濾算法的應(yīng)用進一步增強了相似話題推薦的準確度,如張世堯等利用協(xié)同過濾算法,通過提取用戶歷史微博話題特征,為同一聚類簇內(nèi)的用戶推薦相似的微博話題[5]。推薦準確性的提高在某種程度上解決了信息泛濫的困擾,但并不意味著用戶滿意度的提升[6],單一話題的重復(fù)推薦,使用戶更不易接觸到與自己想法相左的話題,容易陷入“信息繭房”,即用戶自身的信息需求并非全方位的,用戶會不自覺地陷入只瀏覽推薦的話題,對推薦內(nèi)容感到高度滿意并且很難感知到自身信息受限,用戶只能看到自己想看的話題內(nèi)容,只聽到自己認同的觀點。長期處于信息繭房中的用戶,第一,由于他們所接觸的話題單一,缺乏與異質(zhì)化的人或觀點接觸的機會,用戶容易從單一角度去了解事物的本質(zhì);第二,重復(fù)觀念性話題的推薦,會強化用戶對于某種意見的認知,這種認知一旦形成群體效應(yīng),很容易增加群體極化的可能,此外,通過用戶聚類算法,為相似用戶群推薦相似話題,加劇了群體偏見的傳播,提高了群體極化的隱患。因此可以看出,單一化的話題推薦不僅抑制了用戶認知的全面發(fā)展,而且容易造成群體化負面輿論的形成。8715E4DC-A70E-4B11-AE8C-8E41406CF042
微博作為信息和意見交流的重要場所,提高微博話題推薦的多樣性,是拓展用戶信息的多樣性、提升用戶滿意度的關(guān)鍵。因此,在維持一定準確度的基礎(chǔ)上,提高推薦話題的多樣性,不僅能夠優(yōu)化用戶的個性化體驗,提升用戶的滿意度,而且有助于用戶提升自我,緩解微博極化觀點的形成。本文提出的融合話題多維特征和用戶興趣偏好的微博話題推薦方法,不僅能夠為用戶推薦可能感興趣的話題,還能突破信息繭房效應(yīng),實現(xiàn)個性與共性推薦相結(jié)合,從而提高用戶滿意度。
1 相關(guān)研究工作概述
眾多微博內(nèi)容的匯聚、觀點的融合形成了各種不同的微博話題[7],作為用戶興趣的表現(xiàn)之一,為用戶推薦微博話題,可以更好地挖掘用戶需求,提升用戶滿意度。與微博個性化推薦相比,微博話題推薦在推薦效果評估上有較大不同,微博個性化推薦主要是考慮推薦精準度,為用戶推薦與其興趣偏好最為相關(guān)的微博集合,而話題推薦主要考慮在犧牲較小準確度或者不降低準確度的基礎(chǔ)上提升推薦結(jié)果的多樣性,實現(xiàn)準確性和多樣性的兼顧。因此,現(xiàn)有的話題推薦主要從話題推薦準確性和推薦多樣性兩個研究方向展開。
目前,話題推薦研究的重點是提高推薦結(jié)果的準確性,現(xiàn)有研究主要從兩個方面展開,一是基于話題的協(xié)同過濾算法,直接找尋與目標用戶歷史話題偏好相似度較高的其他話題,推薦給目標用戶。如蔣超根據(jù)微博內(nèi)容,結(jié)合TF-IDF算法構(gòu)建用戶興趣模型,根據(jù)模型向用戶推薦相似的微博內(nèi)容,不僅提高了推薦的準確性,也形成了推薦微博的話題性[8];Zhang S X等根據(jù)用戶歷史數(shù)據(jù),利用K-means對用戶聚類,結(jié)合用戶在微博主題知識流中的位置向用戶推薦微博內(nèi)容[9];史存會等引入層次化的知識信息,同時嵌入用戶興趣和話題,從而預(yù)測用戶點擊,生成推薦列表[1];韓康康等融合用戶興趣和多維信任度,改進傳統(tǒng)的基于內(nèi)容的推薦方法,為目標用戶實現(xiàn)更精準的微博推薦[10]。二是基于用戶的協(xié)同過濾算法,通過挖掘用戶的歷史興趣偏好特征,發(fā)現(xiàn)與其興趣偏好相似的鄰居用戶,為目標用戶推薦鄰居用戶感興趣但目標用戶之前沒有參與的微博話題,在準確確定用戶興趣偏好的基礎(chǔ)上,融合用戶特征指標以提高鄰居用戶確定的準確性,從而提高推薦結(jié)果的準確性。如范洪博等根據(jù)用戶歷史信息對用戶進行人格特質(zhì)預(yù)測,以此分析用戶的潛在興趣,融合用戶背景信息和潛在興趣,結(jié)合協(xié)同過濾算法對用戶進行話題推薦[11];王戰(zhàn)平等利用HDP進行主題挖掘獲取目標用戶的個體興趣偏好,通過計算目標用戶和關(guān)注用戶的多重信任關(guān)系得到目標用戶感興趣的群體用戶,實現(xiàn)群體用戶興趣偏好表達,將個體和群體興趣偏好線性加和得到目標用戶對微博主題的綜合興趣度,從而進行更準確的新微博主題推薦[12];除了考慮融合用戶特征指標外,研究人員還考慮為用戶進行精準畫像以進行推薦研究,如汪強兵等通過收集用戶的手勢行為數(shù)據(jù)及手勢對應(yīng)的內(nèi)容挖掘用戶興趣,根據(jù)數(shù)據(jù)構(gòu)建用戶興趣畫像,基于用戶興趣畫像進行微博推薦[13];張炎亮等定期挖掘用戶對產(chǎn)品的評論信息,預(yù)測用戶的興趣以及變化趨勢,以此構(gòu)建動態(tài)用戶畫像模型,從而為用戶進行推薦[14]。
隨著推薦應(yīng)用的不斷拓展和深化,用戶對推薦結(jié)果的要求也越來越高,推薦的多樣性受到了更多關(guān)注。提高推薦結(jié)果的多樣性不僅能提高用戶對推薦結(jié)果的滿意度,增加用戶粘性,還能拉動長尾物品的潛在價值,增加商家的收益[15],因此,具有較大的研究意義。在社交網(wǎng)絡(luò)方面,Yokoyama M等提出新鮮度的概念,結(jié)合信息新鮮度和歷史興趣偏好為用戶推薦多樣化的信息[16];王戰(zhàn)平等利用k-means算法中聚類簇的差異性對微博內(nèi)容進行多樣性劃分,結(jié)合用戶歷史偏好進行多樣性微博內(nèi)容推薦,提高用戶滿意度[17];荀亞玲等根據(jù)用戶之間的信任值獲取用戶間的弱關(guān)系,基于弱關(guān)系傳遞多樣化信息的能力,結(jié)合目標用戶自身偏好為其推薦多樣化項目,從而改善推薦的單一性和冗余性[18]。在電子商務(wù)領(lǐng)域,杜巍等以傳統(tǒng)預(yù)測算法為基礎(chǔ),將新鮮度得分作為調(diào)節(jié)長尾項目所占比例的參數(shù)融入初始推薦列表,有助于提高最終推薦列表的多樣性,促進商品的銷售[6];王茜等借鑒網(wǎng)絡(luò)信息擴散原理,將消費者購買商品記錄二部圖轉(zhuǎn)換為商品購買關(guān)系網(wǎng)絡(luò),分析關(guān)鍵商品節(jié)點的重要性,利用關(guān)聯(lián)規(guī)則算法計算與預(yù)測商品具有關(guān)聯(lián)關(guān)系的關(guān)鍵節(jié)點,以關(guān)鍵節(jié)點作為多樣性商品推薦的依據(jù)[19];劉莉?qū)⒏鶕?jù)用戶項目評分的差異性獲取的用戶項目多樣性偏好矩陣和融入用戶隱形反饋和顯性評分的項目相似性評分矩陣結(jié)合起來,提高推薦結(jié)果的多樣性和用戶滿意度[20];張富國等提出基于社會網(wǎng)絡(luò)信任的推薦多樣性算法,通過選擇用戶基于產(chǎn)品評分的信任鄰居來增加推薦的候選項目數(shù),以提高推薦結(jié)果在推薦列表中的覆蓋率,從而提升推薦的多樣性[21]。
綜上所述,話題推薦雖然已經(jīng)積累了一定的研究成果,一定程度上解決了用戶的信息超載問題,但是仍然存在一些不足。首先,基于協(xié)同過濾算法的推薦提高了推薦內(nèi)容的準確度,然而僅考慮推薦準確性會加速信息繭房效應(yīng)的形成,不利于社交媒體的多元化、全面化發(fā)展。因此,在話題推薦中,準確性和多樣性是相輔相成的,推薦的多樣性提高要以推薦的準確性為基礎(chǔ)。其次,現(xiàn)有推薦多樣性的研究往往集中于電子商務(wù)領(lǐng)域,通過識別用戶間信任關(guān)系、考慮主題多樣性以及識別商品購買網(wǎng)絡(luò)等達到提高推薦多樣性的目的,在話題推薦領(lǐng)域的研究并不多見。最后,用戶對推薦話題的滿意程度不僅受到推薦話題與用戶興趣的相關(guān)性影響,還受到推薦話題本身的特征,如話題的新穎性、可信度和重要性的影響,單純根據(jù)用戶興趣偏好為其推薦話題會影響用戶的體驗,難以得到用戶滿意度的提升?;诖?,本文提出結(jié)合用戶興趣和話題新鮮度、信任度和重要度的微博話題推薦算法,在提高推薦結(jié)果多樣性的基礎(chǔ)上兼顧準確度,以提高用戶瀏覽話題的體驗。
2 融合用戶興趣偏好和話題多維特征的微博話題推薦
2.1 研究框架
本文基于協(xié)同過濾算法,提出了融合話題多維特征和用戶興趣偏好的微博話題推薦方法,總體框架如圖1所示。首先,采集微博用戶及其歷史微博內(nèi)容數(shù)據(jù),經(jīng)數(shù)據(jù)篩選和預(yù)處理后得到具有m個用戶的用戶數(shù)據(jù)集作為后續(xù)步驟的基礎(chǔ);其次,利用LDA主題模型[2]進行用戶—話題偏好的提取,得到n個話題,實現(xiàn)用戶—話題偏好的表達;根據(jù)微博信息和用戶信息分別計算話題新鮮度、信任度和重要度,構(gòu)建話題多維特征模型;最后,根據(jù)修正余弦相似性計算相似用戶集,與話題多維特征模型結(jié)合形成混合推薦算法,預(yù)測用戶對話題的偏好并按預(yù)測得分排序,從而為用戶推薦新穎且感興趣的話題。8715E4DC-A70E-4B11-AE8C-8E41406CF042
2.2 用戶話題興趣偏好模型
用戶話題興趣偏好描述的是用戶對微博話題內(nèi)容感興趣的程度,由于用戶興趣具有多樣性[8],本文采用LDA話題模型[2]對用戶已發(fā)布和轉(zhuǎn)發(fā)的歷史微博內(nèi)容進行主題提取,從而確定用戶對微博話題的興趣偏好得分,首先對每條微博文本進行Jieba分詞和去停用詞處理,然后對經(jīng)預(yù)處理后的微博文本進行LDA主題模型訓(xùn)練,得到用戶u對微博話題t的偏好概率矩陣P:
其中,TL表示推薦列表中用戶實際感興趣的微博話題集合,T表示訓(xùn)練集中的微博話題集合,S表示測試集中的微博話題集合,L表示為用戶推薦的微博話題集合,TS表示所有的微博話題集合,TL、T、S、L、TS分別為集合中微博話題的數(shù)量。
3.3 實驗結(jié)果分析
本文按照話題特征進行組合設(shè)置5組實驗,比較用戶興趣融入不同話題指標之后的推薦性能。實驗所涉及的方法簡寫及其解釋如表1所示。
設(shè)定N是推薦主題個數(shù),K是相似用戶個數(shù),當固定N值,發(fā)現(xiàn)推薦正確率、召回率、F1值以及覆蓋率隨K的變化不明顯,基于杜巍等[6]對于推薦結(jié)果的分析,本文考慮固定K值,觀察精度隨N的變化,因此設(shè)置對比試驗,固定K=10,觀察推薦性能隨推薦話題數(shù)N的變化,推薦話題數(shù)對推薦效果的影響如圖2所示。
圖2中的(a)~(c)通過正確率、召回率、F1值表現(xiàn)了不同推薦算法在不同推薦話題數(shù)下的推薦準確性結(jié)果,推薦的話題數(shù)越多,推薦的準確性越低,召回率越高,F(xiàn)1值越高,除僅考慮用戶偏好和新鮮度的UPF算法有較明顯的準確性降低外,其余融合話題特征的推薦算法正確率都沒有明顯的降低,表明僅考慮為用戶推薦新鮮話題不能較好地滿足用戶的興趣偏好,話題信任度和話題重要度與用戶興趣較為契合,對推薦結(jié)果準確性影響較小。此外,融入話題重要度特征的UPI方法正確率相對較低,而加入話題信任度的UPT方法相對較高,說明用戶對影響力大的用戶發(fā)布的微博話題更感興趣,而微博話題的點贊、評論數(shù)對推薦結(jié)果的準確性影響不大。融合話題多維特征的推薦算法UPTIF準確性在兩者之間,并且在15圖2(d)中的覆蓋率表示不同推薦方法的多樣性對比結(jié)果,未考慮話題指標特征的傳統(tǒng)協(xié)同過濾推薦方法覆蓋率較低,推薦的多樣性最低,而加入不同指標的推薦方法隨推薦話題數(shù)的增加,覆蓋率提高,推薦的多樣性提高,N>15后,融合話題多維特征的推薦算法UPTIF覆蓋率達到1,表明推薦的話題覆蓋了所有基于用戶歷史數(shù)據(jù)提取得到的用戶感興趣的話題,覆蓋率最高,推薦的多樣性最高。
綜上所述,融合話題多維特征和用戶偏好的話題推薦算法UPTIF在推薦話題數(shù)N>15時,雖然相較融合信任度的推薦算法犧牲了一部分推薦的準確性,但是推薦的多樣性較高,緩解了推薦結(jié)果單一化的問題,實際推薦性能最好。
4 結(jié) 語
本文提出了一種融合話題多維特征和用戶興趣偏好的微博話題推薦方法,該方法可以更有效地為用戶推薦微博話題內(nèi)容,實現(xiàn)在不降低推薦準確性的基礎(chǔ)上提高了推薦的多樣性,有效緩解了傳統(tǒng)基于用戶歷史興趣的話題推薦算法推薦結(jié)果單一、容易引發(fā)信息繭房的問題。實驗表明,本文提出的融合話題新鮮度、信任度、重要度和用戶興趣偏好的話題推薦方法,在綜合正確率、召回率、F1值和覆蓋率方面相較于其他方法都取得了較好的效果,說明了所提方法的有效性。
本文提出的推薦方法對企業(yè)和政府都有一定的價值和意義,企業(yè)通過挖掘用戶需求,發(fā)布用戶感興趣并且新穎的內(nèi)容,實現(xiàn)精準營銷,提升用戶滿意度;政府及相關(guān)管理人員可以根據(jù)用戶興趣偏好,進行輿論話題引導(dǎo)。本文的研究方法不僅適合應(yīng)用于微博話題推薦,還可以應(yīng)用到新聞話題推送、電子商務(wù)領(lǐng)域的購物產(chǎn)品信息推送等。不足之處在于,提取用戶話題偏好采用傳統(tǒng)的LDA方法,準確性較低,未來可以考慮其他改進的話題提取方法,還可進一步研究微博話題特征和用戶興趣偏好的動態(tài)性對推薦的影響,為用戶帶來更好的使用體驗。
參考文獻
[1]史存會,胡耀康,馮彬,等.輿情場景下基于層次知識的話題推薦方法[J].計算機研究與發(fā)展,2021,58(8):1811-1819.
[2]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(4-5):993-1022.
[3]魯驍,李鵬,王斌,等.一種基于用戶互動話題的微博推薦算法[J].中文信息學報,2016,30(3):187-195.
[4]魯燃,李情情,王智昊,等.融合人工蜂群的微博話題推薦算法[J].山西大學學報:自然科學版,2015,38(4):601-607.
[5]張世堯,張順香.基于用戶聚類的微博話題推薦算法[J].阜陽師范學院學報:自然科學版,2016,33(2):74-79.
[6]杜巍,高長元,翟麗麗.基于新鮮度度量的多樣性推薦模型研究[J].情報理論與實踐,2018,41(8):127-131.
[7]杜詩雨,齊佳音.基于主成分分析的微博話題影響指數(shù)評價研究[J].情報雜志,2014,33(5):129-135.
[8]蔣超.基于用戶聚類和語義詞典的微博推薦系統(tǒng)[D].杭州:浙江大學,2013.
[9]Zhang S X,Liu W J,Deng X L,et al.Micro-blog Topic Recommendation Based on Knowledge Flow and User Selection[J].Journal of Computational Science,2018,26:512-521.
[10]韓康康,徐建民,張彬.融合用戶興趣和多維信任度的微博推薦[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(12):95-104.
[11]范洪博,楊笑鋒,張晶.融合用戶背景和用戶人格的話題推薦方法[J].計算機應(yīng)用與軟件,2018,35(7):309-312,333.
[12]王戰(zhàn)平,夏榕.基于主題和多重信任關(guān)系的微博推薦方法研究[J].現(xiàn)代情報,2021,41(2):3-9,54.
[13]汪強兵,章成志.基于手勢行為的社交網(wǎng)絡(luò)用戶興趣畫像構(gòu)建及應(yīng)用[J].圖書與情報,2019,(2):114-119,132.
[14]張炎亮,張超,李靜.基于動態(tài)用戶畫像標簽的KNN分類推薦算法研究[J].情報科學,2020,38(8):11-15.
[15]王嫣妮.個性化推薦系統(tǒng)的多樣性研究進展[J].中國集體經(jīng)濟,2020,(27):84-85.
[16]Yokoyama M,Ma Q.Topic Model-based Freshness Estimation Towards Diverse Tweet Recommendation[J].2019 IEEE International Conference on Big Data and Smart Computing(BigComp),2019:1-8.
[17]王戰(zhàn)平,夏榕.融合語義和交互關(guān)系的多樣性與個性化微博推薦研究[J].現(xiàn)代情報,2021,41(5):3-9,32.
[18]荀亞玲,畢慧敏,張繼福.基于弱關(guān)系的異質(zhì)社交網(wǎng)絡(luò)推薦[J].計算機工程與設(shè)計,2021,42(6):1526-1534.
[19]王茜,喻繼軍.基于商品購買關(guān)系網(wǎng)絡(luò)的多樣性推薦[J].系統(tǒng)管理學報,2020,29(1):61-72.
[20]劉莉.基于用戶多樣性偏好的Top-N推薦算法[J].計算機工程與應(yīng)用,2021,57(17):116-121.
[21]張富國,徐升華.基于信任的電子商務(wù)推薦多樣性研究[J].情報學報,2010,29(2):350-355.
[22]姜婷婷,許艷閏.國外過濾氣泡研究:基礎(chǔ)、脈絡(luò)與展望[J].情報學報,2021,40(10):1108-1117.
[23]張夢瑤,朱廣麗,張順香,等.基于情感分析的微博熱點話題用戶群體劃分模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(2):43-49.
[24]張文汐.新浪微博熱門話題的特點與規(guī)律研究[D].沈陽:遼寧大學,2014.
[25]Park L A,Simoff S.Second Order Probabilistic Models for Within-Document Novelty Detection in Academic Articles[J].Research & Development in Information Retrieval,2014:1103-1106.
[26]Kotkov D,Wang S Q,Veijalainen J.A Survey of Serendipity in Recommender Systems[J].Knowledge-Based Systems,2016,111:180-192.
[27]Li L,Peng W,Kataria S,et al.Recommending Users and Communities in Social Media[J].Acm Transactions on Knowledge Discovery from Data,2015,10(2):1-27.
[28]Zhang S X,Zhang S Y,Yen N Y,et al.The Recommendation System of Micro-Blog Topic Based on User Clustering[J].Mobile Networks & Applications,2017,22(2):228-239.
[29]李情情.基于話題熱度的微博推薦算法研究[D].濟南:山東師范大學,2016.
[30]馬倩,王新,鄭承宇,等.基于社區(qū)專家用戶權(quán)威度的微博推薦算法研究[J].云南民族大學學報:自然科學版,2020,29(6):628-634.
[31]Zhu G L,Pan Z Z,Wang Q Y,et al.Building Multi-subtopic Bi-level Network for Micro-blog Hot Topic Based on Feature Co-Occurrence and Semantic Community Division[J].Journal of Network and Computer Applications,2020,170(1):102815.
[32]Sarwar B,Karypis G,Konstan J,et al.Item-Based Collaborative Filtering Recommendation Algorithms[C]//Proc of the 10th International World Wide Web Conference(WWW10).New York:ACM,2001:285-295.
(責任編輯:陳 媛)8715E4DC-A70E-4B11-AE8C-8E41406CF042