吳 迪,馬文莉,楊利君
(河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲 056038)
目前,用戶畫(huà)像[1-5]主要分為3類(lèi):基于用戶行為[6]、用戶偏好[7]和主題的用戶畫(huà)像[8]。其中,基于主題的用戶畫(huà)像因能夠充分利用微博用戶各種文本信息,以建立全面精準(zhǔn)的用戶畫(huà)像而被廣泛應(yīng)用。Ding等[9]提出了基于動(dòng)態(tài)文本建模的LDA-RCC模型,用于分析用戶興趣并建立用戶畫(huà)像。李琴等[10]提出了變分自編碼的有監(jiān)督主題情感聯(lián)合分析模型,刻畫(huà)用戶群體游客畫(huà)像。上述研究只利用主題模型提取用戶主題詞,未考慮用戶興趣的變化。
近年來(lái),研究者們開(kāi)始考慮時(shí)間因素對(duì)微博用戶興趣的影響。吳樹(shù)芳等[11]提出了利用層次分析法和生命周期理論微博用戶畫(huà)像構(gòu)建方法。馮勇等[12]提出了利用遺忘曲線擬合衰減因子的TIF-LDA主題模型。安璐等[13]利用生命周期理論,從用戶和文本兩個(gè)角度,提取微博用戶特征。王勝等[14]充分考慮主題模型建模過(guò)程詞頻權(quán)重對(duì)主題詞的影響,提出了基于詞頻特征的SL-LDA主題模型,提高中頻詞的影響力。
針對(duì)微博短文本具有時(shí)效性和建模中頻詞缺失的問(wèn)題,從時(shí)間和詞頻兩個(gè)角度出發(fā),提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫(huà)像TW-BTM方法。利用遺忘曲線擬合時(shí)間函數(shù),以計(jì)算詞條的時(shí)間權(quán)重;采用詞頻特征改進(jìn)BTM建模過(guò)程,以提高中頻詞的詞頻權(quán)重。
針對(duì)傳統(tǒng)主題模型LDA對(duì)短文本建模的不足,短文本建模BTM主題模型應(yīng)運(yùn)而生。利用整個(gè)語(yǔ)料庫(kù)的單詞共現(xiàn)模式提高主題學(xué)習(xí)能力,解決了短文本特征稀疏的問(wèn)題。具體來(lái)說(shuō),是將整個(gè)語(yǔ)料庫(kù)看成所有主題的混合,其中每個(gè)詞對(duì)都是獨(dú)立于一個(gè)主題的。一個(gè)詞對(duì)屬于某一主題的概率稱為詞概率分布,是由詞對(duì)中每個(gè)詞屬于該主題的概率相乘得到。BTM圖模型如圖1所示,超參數(shù)α和β是狄利克雷先驗(yàn)參數(shù),具體描述如下:①對(duì)語(yǔ)料庫(kù)采樣一個(gè)主題分布Θ~Dir(α); ②對(duì)每個(gè)主題Z∈[1,k], 確定主題Z下的詞分布Φ~Dir(β); ③對(duì)每個(gè)雙詞b=(wi,wj)∈B, 采樣一個(gè)主題Z~Mult(Θ), 根據(jù)主題Z, 每個(gè)詞對(duì)都從獨(dú)立主題中采樣,即wi,wj~Mult(Φ)。
圖1 BTM圖模型
針對(duì)用戶博文時(shí)效性及短文本建模中頻詞缺失的問(wèn)題,提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫(huà)像TW-BTM方法(forgetting curve time function and btm word frequency double-weighted microblog user portrait,TW-BTM)。將微博數(shù)據(jù)集按時(shí)間片切分;利用擬合時(shí)間函數(shù),計(jì)算微博詞條的時(shí)間權(quán)重,動(dòng)態(tài)調(diào)整用戶興趣詞集;采用詞頻加權(quán)BTM對(duì)不同時(shí)間片上處理后的用戶興趣詞集建模,獲取經(jīng)雙層加權(quán)處理的用戶興趣主題詞;通過(guò)微博用戶行為影響力獲取不同時(shí)間片下各主題對(duì)應(yīng)的主題詞,構(gòu)建用戶畫(huà)像。TW-BTM方法框架如圖2所示。
如圖2所示,TW-BTM方法的總體框架包括:微博文本預(yù)處理、微博用戶主題滿意度、時(shí)間和詞頻雙層加權(quán)、微博用戶行為影響力計(jì)算。
采用jieba分詞對(duì)微博短文本進(jìn)行處理,主要包括微博短文本過(guò)濾、分詞及詞性標(biāo)注、去停用詞和特征選擇4個(gè)步驟。對(duì)處理好的文本集按時(shí)間片大小劃分?jǐn)?shù)據(jù)。微博短文本集預(yù)處理流程如圖3所示。
由于數(shù)據(jù)集的特殊性,本文根據(jù)數(shù)據(jù)集的特點(diǎn),構(gòu)建一個(gè)詞典userdict和添加了一些網(wǎng)絡(luò)口語(yǔ)、表情包的停用詞表stoplist,幫助分詞工具更好的對(duì)數(shù)據(jù)集中特定詞的準(zhǔn)確分詞,提高分詞的準(zhǔn)確率。
2.2.1 遺忘曲線時(shí)間加權(quán)
針對(duì)用戶博文時(shí)效性的問(wèn)題,不同時(shí)間的博文表現(xiàn)了用戶對(duì)話題不同的關(guān)注興趣點(diǎn),故考慮時(shí)間因素的影響,從時(shí)間權(quán)重的角度,動(dòng)態(tài)調(diào)整用戶興趣詞集。
采用jieba分詞后的數(shù)據(jù),初步構(gòu)建用戶興趣詞集。利用艾賓浩斯遺忘曲線擬合時(shí)間函數(shù),獲取不同時(shí)間片微博文本詞條的時(shí)間權(quán)重之和,動(dòng)態(tài)調(diào)整用戶興趣詞集,挖掘不同時(shí)期的用戶關(guān)注點(diǎn)。
艾賓浩斯遺忘曲線[12]是由德國(guó)心理學(xué)家艾賓浩斯針對(duì)人腦對(duì)于新事物的遺忘規(guī)律得出的研究成果。艾賓浩斯遺忘曲線,描述了人對(duì)事物的記憶隨時(shí)間變化逐漸降低的過(guò)程。可以將用戶對(duì)一個(gè)事物的興趣關(guān)注度類(lèi)比為記憶,根據(jù)艾賓浩斯曲線呈現(xiàn)的圖像得出用戶對(duì)一個(gè)事物的興趣關(guān)注程度隨著時(shí)間不斷降低的結(jié)論。利用遺忘函數(shù)擬合的時(shí)間因子,符合遺忘曲線變化趨勢(shì),進(jìn)而擬合時(shí)間函數(shù)。
假設(shè)ST表示艾賓浩斯遺忘曲線擬合時(shí)間因子,則公式如下所示
ST=85.09×[Tmax-(Tu0-tε)]-0.2298+16.22
(1)
假設(shè)TW表示用戶詞條出現(xiàn)的時(shí)間與當(dāng)前時(shí)間的時(shí)間差所反映的用戶興趣變化的權(quán)重,則公式如下所示
(2)
假設(shè)SumTW表示時(shí)間片內(nèi)各詞條的時(shí)間權(quán)重之和,則公式如下所示
(3)
其中,Tu0表示詞條在時(shí)間片內(nèi)第一次出現(xiàn)的時(shí)間,Tmax表示時(shí)間窗口的最大時(shí)間,Tcur表示當(dāng)前時(shí)間,Trec表示詞條在時(shí)間片內(nèi)最后一次出現(xiàn)的時(shí)間,t=1,2,…,n表示時(shí)間片的個(gè)數(shù),ε表示時(shí)間窗的大小。式(2)中的數(shù)字含義參考文獻(xiàn)[16]。
根據(jù)遺忘曲線時(shí)間權(quán)重之和SunTW, 設(shè)置時(shí)間權(quán)重閾值,通過(guò)實(shí)驗(yàn)獲取最佳閾值,篩選掉低頻詞匯,提高中頻詞占比,幫助模型能夠更好提取用戶興趣主題詞。
圖2 TW-BTM方法框架
圖3 微博短文本集預(yù)處理流程
2.2.2 改進(jìn)BTM詞頻加權(quán)
針對(duì)傳統(tǒng)BTM主題模型在處理微博短文本時(shí)存在語(yǔ)義特征稀疏和中頻詞缺失的問(wèn)題,本文對(duì)BTM進(jìn)行改進(jìn),提出了一種詞頻加權(quán)的BTM主題模型。具體是根據(jù)統(tǒng)計(jì)文檔中的當(dāng)前詞的詞頻、中頻詞的詞頻及詞頻統(tǒng)計(jì)結(jié)果中的最大最小值,并計(jì)算每個(gè)詞出現(xiàn)的次數(shù)及在文本中的權(quán)重之和,重新調(diào)整特征詞的權(quán)重。將調(diào)整好的詞頻特征引入Gibbs采樣的過(guò)程中,采樣過(guò)程中初始化的不再是隨機(jī)值,而是重新計(jì)算的詞頻權(quán)重。這可以降低高頻詞的影響力,提高中頻特征詞的影響力。經(jīng)過(guò)計(jì)算時(shí)間權(quán)重和提高中頻詞詞頻權(quán)重,使得模型不過(guò)分偏重于高頻特征詞詞語(yǔ),更準(zhǔn)確提取各主題間的主題詞。
為保障加權(quán)后總特征詞的個(gè)數(shù)不變,需要對(duì)每個(gè)特征詞的權(quán)重做調(diào)整,Ci為調(diào)整好的詞的權(quán)重。用計(jì)算得到的Ci替換Gibbs采樣過(guò)程中初始化的隨機(jī)值。假設(shè)Gi表示第i個(gè)詞的權(quán)重,取值范圍[1,2]。則模型的詞頻加權(quán)公式如下[15]
(4)
(5)
2.3.1 微博用戶主題滿意度
微博匯聚了大量包含人們思想、感受和經(jīng)歷的文本[16]。熱點(diǎn)話題下,用戶發(fā)布的博文具有不同的情感信息,表達(dá)了用戶的不同感受。通過(guò)對(duì)微博文本的情感極性分析,更準(zhǔn)確提取用戶需求。根據(jù)用戶發(fā)布的博文,利用借助情感詞典的情感計(jì)算模型,計(jì)算整條博文的情感得分。
由于微博博文發(fā)布格式隨意,內(nèi)容常包含大量網(wǎng)絡(luò)用語(yǔ)和日??谡Z(yǔ)。常用的情感詞典無(wú)法覆蓋這些網(wǎng)絡(luò)交互用語(yǔ),不能準(zhǔn)確挖掘文本原本的情感信息。因此采用BosonNLP情感詞典對(duì)用戶博文進(jìn)行情感分析,該詞典是從微博、新聞、論壇等數(shù)據(jù)來(lái)源的上百萬(wàn)篇情感標(biāo)注數(shù)據(jù)當(dāng)中自動(dòng)構(gòu)建的情感極性詞典。因?yàn)闃?biāo)注包括微博數(shù)據(jù),并有很多網(wǎng)絡(luò)用語(yǔ)及非正式簡(jiǎn)稱,對(duì)非規(guī)范文本也有較高的覆蓋率,更符合本文分析博文情感極性的情況。
情感計(jì)算模型步驟具體如下:
步驟1 獲取BosonNLP情感詞典內(nèi)容,BosonNLP情感詞典中包含情感詞和對(duì)應(yīng)的情感權(quán)重;讀取情感詞典的每一行,轉(zhuǎn)換成字典格式;
步驟2 將分詞結(jié)果轉(zhuǎn)換為字典,找出分詞文本中的情感詞、否定詞和程度副詞;
步驟3 情感詞權(quán)重初始化為1,單條用戶博文情感分?jǐn)?shù)為0,情感詞下標(biāo)初始化為-1,情感詞的位置下標(biāo)集合;
步驟4 遍歷分詞文本
(1)判斷是否是情感詞,如果是情感詞,則權(quán)重*情感詞;
(2)情感詞下標(biāo)加1,獲取下一個(gè)情感詞的位置;①判斷當(dāng)前的情感詞與下一個(gè)情感詞之間是否有否定詞或程度副詞;②更新單條博文的權(quán)重,如果有否定詞,權(quán)重取反;
(3)定位下一個(gè)情感詞;
步驟5 計(jì)算博文整體的情感得分,情感值為正數(shù),表示積極;為負(fù)數(shù)表示消極。
通過(guò)情感計(jì)算模型,對(duì)用戶文本進(jìn)行情感分析,獲取每一條用戶博文的情感極性,動(dòng)態(tài)挖掘微博用戶主題滿意度,獲取用戶關(guān)注興趣點(diǎn)。
假設(shè)wk,t為t時(shí)間片下主題k的滿意度,則微博用戶主題滿意度[15]公式如下
(6)
式中:ht為t時(shí)間片下k主題的積極博文數(shù)量,Sk,t為t時(shí)間片下主題k下的博文總數(shù)。
2.3.2 微博用戶行為活躍度
考慮到熱點(diǎn)話題下不同時(shí)間片文本重要性的不同,如何提取由雙層加權(quán)獲得的不同時(shí)間片用戶興趣詞的占比構(gòu)建用戶畫(huà)像是需要解決的問(wèn)題。
熱點(diǎn)話題下用戶參與的方式存在多樣性,點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)等用戶行為,同樣反映了用戶興趣關(guān)注點(diǎn)。考慮不同時(shí)間片用戶博文轉(zhuǎn)發(fā)量F、 評(píng)論量P和點(diǎn)贊量D等行為數(shù)據(jù),提出了微博用戶行為活躍度。
假設(shè)Tk,t表示第t個(gè)時(shí)間片的微博用戶行為活躍度,則Tk,t計(jì)算公式如下
Tk,t=[(Ftmax/Fsum)+(Ptmax/Psum)+(Dtmax/Dsum)]/3
(7)
式中:Ftmax表示第t個(gè)時(shí)間片微博用戶博文最高轉(zhuǎn)發(fā)量,F(xiàn)sum表示微博用戶博文總轉(zhuǎn)發(fā)量;Ptmax表示第t個(gè)時(shí)間片微博用戶博文最高評(píng)論量,Psum表示微博用戶博文總評(píng)論量;Dtmax表示第t個(gè)時(shí)間片微博用戶博文最高點(diǎn)贊量,Dsum表示微博用戶博文總點(diǎn)贊量。
結(jié)合微博用戶主題滿意度和微博用戶行為活躍度等因素,提出微博用戶行為影響力計(jì)算方法,提取不同時(shí)間片的用戶興趣主題詞,更全面刻畫(huà)熱點(diǎn)話題下的用戶畫(huà)像。假設(shè)vtm為t時(shí)間片下的微博用戶行為影響力,則vtm計(jì)算公式如下
(8)
式中:wk,t為t時(shí)間片下主題k的微博用戶主題滿意度,Tk,t表示第t個(gè)時(shí)間片下主題k的微博用戶行為活躍度,nk,t表示t時(shí)間片下各主題k下的特征詞個(gè)數(shù)。
綜上,TW-BTM方法描述如下:
步驟1 處理好的文本集按時(shí)間片大小劃分?jǐn)?shù)據(jù);
步驟2 對(duì)不同時(shí)間片內(nèi)的微博詞條根據(jù)式(1)~式(3)計(jì)算時(shí)間權(quán)重,并根據(jù)權(quán)重設(shè)置閾值,動(dòng)態(tài)調(diào)整用戶興趣詞集;
步驟3 將根據(jù)式(4)和式(5)計(jì)算得到的詞頻特征替換Gibbs抽樣過(guò)程中初始化的隨機(jī)值,利用詞頻加權(quán)BTM主題模型建模,提高中頻特征詞詞頻,獲取經(jīng)雙層加權(quán)的用戶興趣主題詞;
步驟4 采用BosonNLP情感詞典和情感計(jì)算模型,分析用戶博文情感極性,利用情感極性信息根據(jù)式(6)計(jì)算微博用戶主題滿意度;
步驟5 利用用戶的興趣行為(點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā))信息,根據(jù)式(7)計(jì)算微博用戶行為活躍度;
步驟6 根據(jù)式(8),利用微博用戶主題滿意度和微博用戶行為活躍度等因素計(jì)算微博用戶行為影響力,根據(jù)影響力值,提取不同主題下的主題詞;
步驟7 利用不同時(shí)間片下各主題詞的匯總,構(gòu)建各熱點(diǎn)話題下的用戶畫(huà)像。
本文在64位Windows8版本系統(tǒng)的計(jì)算機(jī)上進(jìn)行模型搭建與實(shí)驗(yàn)。采用PyCharm Professional Version 2021.2.1和Anaconda3開(kāi)發(fā)環(huán)境下進(jìn)行,編譯語(yǔ)言為Python3。
本文采用的是新浪微博平臺(tái)發(fā)布的2014年5月4日到5月11日的公開(kāi)熱點(diǎn)話題數(shù)據(jù)集,其中包含了84 168條數(shù)據(jù),通過(guò)刪除數(shù)據(jù)中的噪聲重復(fù)數(shù)據(jù),保留了37 739條博文。數(shù)據(jù)集的組成部分見(jiàn)表1,數(shù)據(jù)展示示例見(jiàn)表2。
表1 數(shù)據(jù)集的組成部分
表2 數(shù)據(jù)集展示示例
本文引入PMI-score作為模型的評(píng)價(jià)指標(biāo),PMI-score表示同主題下特征詞語(yǔ)之間的相關(guān)性,PMI-score分值越高,表明模型提取主題詞效果越佳,建模效果越好。PMI-score的計(jì)算公式如下
(9)
其中,p(wi,wj) 表示滑動(dòng)窗口內(nèi)同時(shí)出現(xiàn)詞對(duì) (wi,wj) 的聯(lián)合分布概率,p(wi) 是詞語(yǔ)wi在邊緣概率分布范圍內(nèi)出現(xiàn)在滑動(dòng)窗口的邊緣概率,N表示每個(gè)主題下特征詞的個(gè)數(shù),在這里,N=10。
TW-BTM的初始超參數(shù)取經(jīng)驗(yàn)值,α=50/k,β=0.01, 迭代次數(shù)由實(shí)驗(yàn)所得,取20次實(shí)驗(yàn)結(jié)果的平均值作為迭代次數(shù)的PMI-score值,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 TW-BTM在不同迭代次數(shù)下的PMI-score
由圖4可知,迭代次數(shù)為100時(shí),PMI-score值最優(yōu),表明提取的主題詞效果最佳,因此,本實(shí)驗(yàn)中n-iter=100。
3.2.1 最優(yōu)主題數(shù)選取
本文利用PMI-score確定最優(yōu)主題數(shù)k值。本實(shí)驗(yàn)中,α=50/k,β=0.01, 迭代次數(shù)為100,Day=3,主題數(shù)k取值為3,4,5,6,7,8,9,10,11。實(shí)驗(yàn)重復(fù)進(jìn)行20次,取20次實(shí)驗(yàn)結(jié)果的平均值作為不同k值的PMI-score值,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 4種方法在不同主題數(shù)下的PMI-score值
由圖5可知,隨著主題數(shù)的增加,4種模型的PMI-score都呈現(xiàn)先上升后下降的大趨勢(shì)且都在主題數(shù)目為8時(shí),4種方法的PMI-score值最大,表明此時(shí)模型的建模效果最佳,因此選取的最優(yōu)主題數(shù)k=8。
3.2.2 時(shí)間函數(shù)閾值選取
針對(duì)微博數(shù)據(jù)具有時(shí)效性的特點(diǎn),利用遺忘曲線擬合時(shí)間函數(shù),獲取每個(gè)時(shí)間片文本的時(shí)間權(quán)重,通過(guò)不同時(shí)間權(quán)重閾值的篩選,確定最佳的閾值。本實(shí)驗(yàn)中,迭代次數(shù)為100,最優(yōu)主題數(shù)k為8,取20次實(shí)驗(yàn)結(jié)果的平均值作為不同閾值的PMI-score值,實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 遺忘曲線擬合時(shí)間函數(shù)在不同閾值下的PMI-score值
如圖6所示,本實(shí)驗(yàn)在未經(jīng)時(shí)間函數(shù)處理的原始文本數(shù)據(jù)及遺忘曲線時(shí)間函數(shù)閾值范圍設(shè)置為<100,<90和<80時(shí)進(jìn)行。當(dāng)文本的時(shí)間權(quán)重閾值為<100時(shí),PMI-score值最大,這是由于時(shí)間函數(shù)篩選掉了數(shù)據(jù)集中的低頻詞,提高中頻詞的占比,使得TW-BTM能夠取得更好的建模效果。當(dāng)閾值為<90和<80時(shí),PMI-score逐漸降低,這是因?yàn)殚撝翟O(shè)置低,不僅會(huì)減少文本分詞后的低頻詞匯,還減少了一部分中頻詞匯,導(dǎo)致在建模過(guò)程中,造成主題詞提取分類(lèi)不明確。當(dāng)數(shù)據(jù)集為原始數(shù)據(jù)時(shí),PMI-score值比較低的原因是噪聲詞過(guò)多,導(dǎo)致主題建模出現(xiàn)大量重復(fù)詞匯且各主題間主題詞的區(qū)分度不高,出現(xiàn)主題詞混淆的情況。
3.3.1 微博文本主題分析
選取時(shí)間片3和時(shí)間片4下各主題的Top10主題詞,相關(guān)熱點(diǎn)話題的核心大致可以分為恒大、同桌的你、火箭、韓劇等8個(gè)主題。經(jīng)過(guò)時(shí)間權(quán)重和詞頻權(quán)重的計(jì)算,TW-BTM提取的不同時(shí)間片各主題下用戶興趣主題詞,見(jiàn)表3。
從表3可知,時(shí)間片3和時(shí)間片4主題詞有一些重復(fù)的詞,這是由于不同時(shí)間片的數(shù)據(jù)集屬于同一個(gè)熱點(diǎn)話題,主題相同,因此不同時(shí)間片的主題詞有一定的重復(fù)度。同時(shí)前后時(shí)間片主題詞又存在不同,這是由于時(shí)間的推移,用戶對(duì)相關(guān)熱點(diǎn)話題的關(guān)注度更加深入,出現(xiàn)用戶興趣偏移的情況,因此不同主題下主題詞獲取結(jié)果不同。表明了TW-BTM能夠準(zhǔn)確的捕獲用戶興趣詞,提高不同時(shí)間片各主題主題詞的區(qū)分度。
3.3.2 微博用戶主題滿意度分析
通過(guò)借助BosonNLP詞典,利用情感詞典模型對(duì)熱點(diǎn)話題下的用戶博文進(jìn)行情感分析,實(shí)現(xiàn)熱點(diǎn)話題下用戶博文的情感二分類(lèi)結(jié)果。其中,積極29 420條,消極8319條,由于微博用戶主題滿意度需要不同時(shí)間片各主題下的積極博文數(shù)量,故積極博文分布見(jiàn)表4。
表3 Day3和Day4的Top10主題詞
表4 熱點(diǎn)話題的積極博文分布情況
由表4所示的不同時(shí)間片主題下積極博文分布,依據(jù)式(6)計(jì)算各主題的微博用戶主題滿意度。實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 不同時(shí)間片下各主題的微博用戶主題滿意度
由圖7可知,微博用戶主題滿意度都在0以上,表明熱點(diǎn)話題下用戶博文大多是積極的,但各主題的滿意度是存在差異的。在各熱點(diǎn)話題中,恒大話題的用戶滿意度是各主題最高的,且整體趨勢(shì)趨于平穩(wěn)狀態(tài)。在時(shí)間片7略有下降,表明用戶對(duì)那一天的比賽結(jié)果略有失望,用戶消極情感有所上升,但還是以積極為主。魅族話題用戶討論也是積極為主,但是消極評(píng)論增加的比例也是穩(wěn)定的,表明部分用戶認(rèn)為魅族手機(jī)存在一些不足之處,這也能幫助企業(yè)去更好改進(jìn)產(chǎn)品,滿足用戶的基本訴求。用戶對(duì)其余主題的積極情感雖有升有降,也是積極為主,消極為輔。
3.3.3 微博用戶行為影響力分析
通過(guò)對(duì)不同時(shí)間片微博內(nèi)容的點(diǎn)贊量、轉(zhuǎn)發(fā)量、評(píng)論量的計(jì)算,獲得微博用戶行為活躍度,同時(shí)利用微博用戶主題滿意度與主題下的特征詞個(gè)數(shù),共同計(jì)算不同時(shí)間片各主題的微博用戶行為影響力,見(jiàn)表5。
表5 不同時(shí)間片各主題的微博用戶行為影響力
通過(guò)用戶微博行為影響力的計(jì)算,獲取每個(gè)時(shí)間片各主題下用戶最感興趣的主題詞,構(gòu)建熱點(diǎn)話題下的用戶畫(huà)像。由表5可知,不同時(shí)間片各主題的微博用戶行為影響力分布數(shù)值,相對(duì)平均,可以相應(yīng)獲取不同時(shí)間片的興趣主題詞,準(zhǔn)確捕捉各主題下的用戶興趣關(guān)注點(diǎn)。同時(shí)也可以看出,在時(shí)間片7時(shí)的微博用戶行為影響力低于其它時(shí)間片,這是由于時(shí)間片7的用戶行為活躍度偏低和所包含的博文消極情感有所增加,用戶滿意度有所下降,導(dǎo)致該時(shí)間片下的微博用戶行為影響力普遍偏低。
為了更直觀表示熱點(diǎn)話題下用戶討論的主題詞與權(quán)重,本文采用詞項(xiàng)概率分布進(jìn)一步生成熱點(diǎn)話題下用戶興趣主題詞詞云,如圖8所示。
圖8 熱點(diǎn)話題下用戶興趣主題詞詞云展示
從圖8中的圖(a)~圖(d)可知,通過(guò)微博用戶行為影響力計(jì)算獲取的恒大、火箭、同桌的你和韓劇熱點(diǎn)話題下的用戶興趣主題詞,可以高度概括這4個(gè)主題下用戶的關(guān)注點(diǎn)。因此從不同時(shí)間片獲取的用戶興趣主題詞,可以更形象地刻畫(huà)各主題下的用戶畫(huà)像。
為了驗(yàn)證TW-BTM方法的有效性,本實(shí)驗(yàn)使用公開(kāi)數(shù)據(jù)集,分別與BTM、SL-LDA與LDA進(jìn)行比較,利用這4種方法對(duì)數(shù)據(jù)集建模并分析實(shí)驗(yàn)結(jié)果。選用“同桌的你”熱點(diǎn)話題的詞分布進(jìn)行分析,4種方法獲取的Top10主題詞見(jiàn)表6。
表6 4種方法在“同桌的你”熱點(diǎn)話題下 Day1和Day7主題詞
由表6可知,在關(guān)于“同桌的你”的主題詞中,BTM、SL-LDA和LDA輸出的結(jié)果中都存在噪聲數(shù)據(jù),TW-BTM方法輸出的主題詞幾乎不含噪聲詞,說(shuō)明TW-BTM建模得到的主題詞能更好地概括和描述主題。這是由于TW-BTM在考慮時(shí)間因素的同時(shí),也改進(jìn)了吉布斯采樣過(guò)程中詞頻特征的計(jì)算方法,提高了中頻詞的影響力,刪除了無(wú)用的低頻詞和造成主題區(qū)分度不高的詞。因此,TW-BTM相較于其它3種模型,能更準(zhǔn)確挖掘熱點(diǎn)話題下用戶的興趣詞。
為了更形象展示4種方法在用戶博文主題詞挖掘方面的能力,本文計(jì)算了不同時(shí)間片內(nèi)4種方法的PMI-score值,如圖9所示。
圖9 4種方法在不同時(shí)間片內(nèi)對(duì)應(yīng)的PMI-score
由圖9可知,TW-BTM在不同時(shí)間片的PMI-score值均大于其它3種模型。這是因?yàn)锽TM擅長(zhǎng)處理短文本,但是未考慮時(shí)間因素和中頻詞對(duì)主題建模及提取主題詞的影響,導(dǎo)致獲取的主題詞區(qū)分度不高。LDA和SL-LDA由于更擅長(zhǎng)對(duì)長(zhǎng)文本建模,而微博短文本具有語(yǔ)義稀疏和時(shí)效性的特點(diǎn),影響了兩個(gè)模型的建模效果,導(dǎo)致出現(xiàn)不同時(shí)間片各主題間主題詞混亂的情況。LDA由于其未考慮中頻詞的影響,導(dǎo)致模型建模效果在4種模型中最差。TW-BTM構(gòu)建的用戶畫(huà)像能更準(zhǔn)確地表達(dá)熱點(diǎn)話題下用戶的興趣。
本文提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫(huà)像TW-BTM。利用遺忘曲線構(gòu)建時(shí)間函數(shù),計(jì)算微博文本時(shí)間權(quán)重,刪除噪聲詞匯,提高中頻詞占比。改進(jìn)BTM模型,將調(diào)整好的詞頻特征引入Gibbs采樣過(guò)程中,提高了中頻詞的影響力和模型主題詞提取的能力。結(jié)合微博用戶主題滿意度和微博用戶行為活躍度等因素,提出微博用戶行為影響力計(jì)算方法,準(zhǔn)確獲取經(jīng)雙層加權(quán)處理的不同時(shí)間片各主題的主題詞,更全面構(gòu)建熱點(diǎn)話題下的用戶畫(huà)像。實(shí)驗(yàn)結(jié)果表明,與BTM、SL-LDA及LDA模型相比,TW-BTM在各個(gè)時(shí)間片內(nèi)都有更高的PMI-score值,提高了主題間的區(qū)分度,降低了主題詞的重復(fù)度,能更好地提取用戶的興趣詞。