高永兵,楊利瑩,胡文江,馬占飛
(1.內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭 014010; 2.包頭師范學(xué)院 信息工程系,內(nèi)蒙古 包頭 014010)
近年來(lái),微博已經(jīng)成為最具即時(shí)性的信息共享公共平臺(tái),不僅可以在第一時(shí)間分享社會(huì)熱點(diǎn)、交流看法和觀點(diǎn),也能及時(shí)傳播專業(yè)領(lǐng)域的發(fā)展信息。以2016年旅游業(yè)為例,相關(guān)博文數(shù)近12.5億,旅游業(yè)用戶達(dá)9 623萬(wàn),這些微博反映出該領(lǐng)域的重要信息,具有較高的參考價(jià)值,以時(shí)間為軸線對(duì)領(lǐng)域的發(fā)展情況進(jìn)行追蹤具有重要意義。主題提取可以高度概括重要信息,提高閱讀效率,目前,國(guó)內(nèi)外學(xué)者都針對(duì)主題演化開展了相關(guān)研究?,F(xiàn)存的主題演化研究方法可以歸納為3類:基于社會(huì)網(wǎng)絡(luò)的方法,基于本體的方法和基于主題模型的方法。基于社會(huì)網(wǎng)絡(luò)的方法[1-2]將主題表示為網(wǎng)絡(luò)節(jié)點(diǎn),主題間的演化關(guān)系用節(jié)點(diǎn)間的有向邊表示,邊的權(quán)重代表演化強(qiáng)度,演化強(qiáng)度與主題詞和引文有關(guān),但是這種基于鏈接的方法對(duì)于新出現(xiàn)的主題敏感度不高,此外由已經(jīng)出現(xiàn)的主題可能會(huì)鏈接到下一個(gè)無(wú)關(guān)主題從而造成主題漂移;基于本體的方法[3-4]關(guān)注主題的語(yǔ)義信息和增量構(gòu)建過程,借鑒詞共現(xiàn)思想,結(jié)合本體構(gòu)建主題與主題間的關(guān)系網(wǎng)絡(luò),然而該方法對(duì)訓(xùn)練集的依賴性很大,不適用于動(dòng)態(tài)主題演化過程?;谥黝}模型的方法能夠自動(dòng)挖掘潛在的語(yǔ)義信息,且模型的靈活度高,能夠根據(jù)不同的應(yīng)用場(chǎng)景做出相應(yīng)的調(diào)整,具有較強(qiáng)的適用性。
主題模型中應(yīng)用最廣泛的是由文獻(xiàn)[5]提出的潛在Dirichlet分布(Latent Dirichlet Allocation,LDA)模型,以此模型為基礎(chǔ)衍生出許多主題演化模型[6-8],解決了原始LDA模型忽略文本的時(shí)間信息而無(wú)法描述文本主題演化的問題。然而以LDA為基礎(chǔ)的主題模型需要人為預(yù)先指定主題數(shù)目,在整個(gè)事件的演化過程中,主題的數(shù)目是不固定的,某個(gè)主題也并非貫穿于整個(gè)事件的始終。例如,“人民幣加入SDR”包含多個(gè)主題,隨著時(shí)間推移,微博上討論的主題從前期的一系列基礎(chǔ)準(zhǔn)備工作到如何適應(yīng)市場(chǎng)發(fā)展,再到加入SDR后給中國(guó)經(jīng)濟(jì)帶來(lái)的影響。在沒有任何先驗(yàn)知識(shí)的前提下,很難準(zhǔn)確把握主題數(shù)量。為克服以上問題,研究者提出了分層Dirichlet 過程(Hierarchical Dirichlet Process,HDP)模型[9],利用狄利克雷過程(Dirichlet Process,DP)無(wú)限維度的特征實(shí)現(xiàn)主題數(shù)目的自動(dòng)確定。
主題演化是傳統(tǒng)主題挖掘技術(shù)的延伸與發(fā)展,指的是按照時(shí)間發(fā)展順序?qū)Σ煌A段的文本進(jìn)行主題分析,要求既能概括文本信息,又能表現(xiàn)發(fā)展動(dòng)態(tài)。對(duì)領(lǐng)域微博進(jìn)行主題演化研究存在諸多難點(diǎn)。首先,傳統(tǒng)的主題模型都是針對(duì)長(zhǎng)文本提出的,如何調(diào)整主題模型以適應(yīng)微博數(shù)據(jù)的短文本性和交互性是一大難點(diǎn);此外,隨著社會(huì)分工的細(xì)化,存在許多交叉行業(yè)與領(lǐng)域,如何準(zhǔn)確地抽取指定行業(yè)領(lǐng)域的微博也是需要考慮的問題;最后,利用主題模型挖掘出領(lǐng)域微博的主題后,如何既能表現(xiàn)該領(lǐng)域的主題分布,又能增加對(duì)新主題的敏感性既而表達(dá)其演化過程,也是一個(gè)難點(diǎn)。
綜合考慮以上問題,本文提出一種針對(duì)領(lǐng)域微博主題演化的分析方法。首先,基于用戶標(biāo)簽和簡(jiǎn)介的領(lǐng)域微博提取出領(lǐng)域微博數(shù)據(jù);然后,綜合考慮領(lǐng)域特征和時(shí)間特征,構(gòu)建適用于領(lǐng)域微博主題挖掘的DM-HDP模型,并設(shè)計(jì)相應(yīng)的采樣方法推導(dǎo)該模型;最后,在真實(shí)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證DM-HDP模型的有效性。
關(guān)于主題演化最早的研究可以追溯到文獻(xiàn)[10]中提出的動(dòng)態(tài)主題挖掘思想,該思想將連續(xù)的文本按時(shí)間段劃分,以LDA模型為基礎(chǔ)對(duì)每個(gè)時(shí)段內(nèi)的文本建模,綜合考慮α和β參數(shù)隨時(shí)間的變化,建立LDA模型鏈,最后得到隨時(shí)間變化的主題分布。然而這種方法得到的主題數(shù)目是固定的,與實(shí)際情況不符。文獻(xiàn)[11]中提出的時(shí)段性DP混合模型,假定每個(gè)時(shí)期內(nèi)的主題數(shù)量不限定,隨時(shí)間的推移可以產(chǎn)生新的主題,已存在的主題可以保留或者消亡。該方法解決了主題數(shù)量不確定的問題,但是運(yùn)用了循環(huán)中國(guó)餐館構(gòu)造過程(Chinese Restaurant Construction Process,CRCP)采樣推導(dǎo),假設(shè)每個(gè)詞僅屬于一個(gè)主題,忽略了文本單詞一詞多義的特性,丟失單詞部分主題信息,導(dǎo)致模型的精度降低。文獻(xiàn)[12]提出基于HDP模型的主題演化方法,該方法構(gòu)建了三層DP代表不同層次的主題分布,認(rèn)為某時(shí)段的主題分布受上一時(shí)段的參數(shù)影響,結(jié)合折棒構(gòu)造方法(Stick-breaking construction)和CRCP實(shí)現(xiàn)動(dòng)態(tài)的文本主題挖掘。該方法通過建立動(dòng)態(tài)主題模型系統(tǒng)性地挖掘文本流的主題分布,卻沒有對(duì)主題的演化過程進(jìn)行分析,呈現(xiàn)的結(jié)果不直觀。文獻(xiàn)[13]中提出的一種面向多文檔流的主題演化模型,允許每個(gè)文本流都有本地主題和共享主題,為每個(gè)主題的受歡迎程度建立時(shí)間變化函數(shù),定量地分析主題變化規(guī)律。文獻(xiàn)[14]在LDA模型的基礎(chǔ)上增加DP,不僅能獲取模型的隱變量,還能完成超參數(shù)的動(dòng)態(tài)更新和主題數(shù)的變動(dòng),然而該方法并沒有對(duì)子主題的劃分做詳細(xì)介紹。文獻(xiàn)[15]中提出的在線分層DP的非參數(shù)貝葉斯模型,主題的演化過程分為2個(gè)層次,對(duì)時(shí)間塊內(nèi)的文檔建立在線HDP模型,對(duì)跨時(shí)間塊的文檔用時(shí)間衰減函數(shù)衡量其時(shí)間相關(guān)性,假設(shè)當(dāng)前主題分布受之前幾個(gè)時(shí)段主題分布的影響,就造成系統(tǒng)對(duì)新主題敏感度不高。
上述研究都基于長(zhǎng)文本,對(duì)于微博這種短文本不一定適用。文獻(xiàn)[16]提出用于挖掘微博主題的MB-LDA模型,綜合考慮微博的聯(lián)系人信息和文本信息,改進(jìn)LDA模型以適應(yīng)微博的特殊結(jié)構(gòu)。文獻(xiàn)[17]提出MB-HDP模型,利用微博的時(shí)間信息、用戶興趣和話題標(biāo)簽,聚合主題相關(guān)的信息。至此,目前還很少有關(guān)于領(lǐng)域微博主題演化的研究。
主題演化過程需考慮的兩大因素是內(nèi)容和時(shí)間,一方面要求在內(nèi)容上按主題進(jìn)行分類識(shí)別,另一方面又要保證時(shí)間上的延續(xù)和關(guān)聯(lián)。本文首先按照用戶標(biāo)簽提取出領(lǐng)域微博,然后以時(shí)間周期為界,將領(lǐng)域微博劃分為多個(gè)獨(dú)立單位,在此單位內(nèi)部忽略時(shí)間信息,建立領(lǐng)域微博主題模型DM-HDP,以挖掘該時(shí)段的主題分布,將主題劃分到不同的大主題下,按時(shí)間順序?yàn)橄嗤拇笾黝}建立關(guān)聯(lián),進(jìn)而分析主題的演化過程。
DP是關(guān)于分布的分布,其采樣點(diǎn)本身就是一個(gè)隨機(jī)概率分布。HDP本質(zhì)是DP的多層形式,可視為基于貝葉斯的傳統(tǒng)主題模型LDA在無(wú)參方向的衍生[18]。以下介紹基于文檔的兩層HDP模型生成過程。首先從基分布H和參數(shù)γ構(gòu)成的DP中,抽樣出分布G0;然后從基分布G0和參數(shù)α0構(gòu)成的DP中,為每篇文檔抽取主題分布Gj,其中DP代表DP過程。
G0|γ,H~DP(γ,H)
Gj|α0,G0~DP(α0,G0)
θji|Gj~Gj
Wji|θji~Mult(θji)
(1)
式(1)中,θji指示了詞Wji的主題。HDP的圖模型生成過程如圖1所示,其中圓形代表分布,圓角矩形代表參數(shù),陰影部分表示可觀測(cè)量,矩形表示該過程可循環(huán)。
圖1 HDP圖模型生成過程
以上關(guān)于HDP的定義并不能直接應(yīng)用,可應(yīng)用2次Stick-breaking方法對(duì)HDP的過程進(jìn)行構(gòu)造,詳細(xì)的構(gòu)造過程參見文獻(xiàn)[19]。
1)第1層構(gòu)造如下:
φk~H
(2)
其中,βk表示一組服從Beta分布的隨機(jī)數(shù),φk表示從基分布H中抽樣的點(diǎn),δφk表示抽樣點(diǎn)的值。
2)第2層構(gòu)造如下:
πjk~GEM(α0)
φk~H
(3)
其中,πjk表示取δφk點(diǎn)的概率。
該構(gòu)造方法并沒有改變采樣點(diǎn),只是對(duì)采樣點(diǎn)的權(quán)值做連續(xù)處理,HDP模型的Stick-breaking構(gòu)造過程如圖2所示。
圖2 HDP圖模型構(gòu)造過程
CRCP將單詞匹配主題的過程形象地比喻為顧客挑選餐桌并點(diǎn)菜的過程,具體如下:假設(shè)餐館可容納無(wú)數(shù)張餐桌,每張餐桌可容納無(wú)數(shù)位顧客,每張餐桌上只供應(yīng)一道菜。顧客進(jìn)入餐館選擇餐桌并點(diǎn)菜,顧客可以就坐于已有餐桌也可以選擇新餐桌。
1)若就坐于已有餐桌,便可以共享已點(diǎn)的菜肴,其概率與該餐桌上的顧客數(shù)量成正比,顧客數(shù)越多則被選中的概率越大;
2)顧客也可以以某參數(shù)概率選擇新餐桌,作為該餐桌的第一位顧客應(yīng)負(fù)責(zé)點(diǎn)菜,選擇已有菜肴的概率受其被點(diǎn)次數(shù)的影響,菜肴被點(diǎn)到的次數(shù)越多則再次被點(diǎn)的可能性越大,顧客也可以以參數(shù)概率選擇新菜肴。
專業(yè)領(lǐng)域微博由長(zhǎng)期從事具體業(yè)務(wù)的特定人群發(fā)布,帶有學(xué)科性、技術(shù)性的微博數(shù)據(jù)集合一般帶有明顯的用戶標(biāo)簽及簡(jiǎn)介信息。用戶標(biāo)簽包含豐富的個(gè)性化描述信息以及用戶本身的特性,能夠代表用戶的所屬行業(yè)領(lǐng)域,本文利用用戶標(biāo)簽進(jìn)行領(lǐng)域標(biāo)識(shí)。
首先構(gòu)建領(lǐng)域關(guān)鍵詞詞典,通過抓取領(lǐng)域資訊網(wǎng)站的文檔,利用現(xiàn)有的基于文本分類的網(wǎng)頁(yè)爬蟲技術(shù)[20]及領(lǐng)域模型[21]爬取領(lǐng)域相關(guān)信息,分析文檔中的關(guān)鍵詞,按照關(guān)鍵詞詞頻統(tǒng)計(jì)結(jié)果,構(gòu)建領(lǐng)域D={D1,D2,…}。將領(lǐng)域Di的專業(yè)詞匯集表示為dij={dij1,dij2,…}。
定義1基于用戶標(biāo)簽的領(lǐng)域相似度。將用戶Ur的標(biāo)簽詞匯集d(Ur)={d1,d2,…}與領(lǐng)域Di的專業(yè)詞匯集dij進(jìn)行相似度計(jì)算,若該領(lǐng)域的專業(yè)詞匯集dij中的第k個(gè)詞匯與用戶的標(biāo)簽詞匯相同(不考慮用戶標(biāo)簽詞的先后順序),定義領(lǐng)域相似度如下:
(4)
定義2領(lǐng)域特征指數(shù)。根據(jù)用戶Ur的領(lǐng)域相似度f(wàn)tag,統(tǒng)計(jì)其所發(fā)布的總微博數(shù)T(Ur)以及利用分類模型得到的專業(yè)領(lǐng)域微博數(shù)D(Ur),定義領(lǐng)域特征指數(shù)為:
(5)
分析用戶發(fā)布的領(lǐng)域特征指數(shù),如果其值大于某閾值,則認(rèn)為此用戶屬于該領(lǐng)域,即表示為:
Di(U)={Ur|Ur∈U,F(Ur)>thr1}
(6)
其中,集合U表示用戶集合,Ur是集合中的元素。僅當(dāng)其領(lǐng)域特征指數(shù)條件F(Ur)>thr1成立時(shí),此用戶屬于領(lǐng)域Di,由此得到屬于該專業(yè)領(lǐng)域的用戶集合Di(U)。
上一節(jié)中,得到了基于用戶的領(lǐng)域微博數(shù)據(jù),然而其中不可避免地?fù)诫s了如個(gè)人生活領(lǐng)悟等非專業(yè)領(lǐng)域信息。如果直接進(jìn)行主題提取,不僅會(huì)造成時(shí)間上的浪費(fèi),也會(huì)降低主題提取的精度和質(zhì)量,所以,本文提出考慮微博類型的DM-HDP模型,對(duì)專業(yè)領(lǐng)域微博進(jìn)行主題提取。
表1 DM-HDP模型中符號(hào)含義說明
在DM-HDP模型中,每條領(lǐng)域微博與xv和yv2個(gè)參數(shù)相聯(lián)系,代表該微博主題是否為特定時(shí)間、是否與專業(yè)領(lǐng)域相關(guān),每條微博的主題分布表示為zv。由此將微博分為4類:領(lǐng)域特定時(shí)間主題,領(lǐng)域一般時(shí)間主題,公共特定時(shí)間主題以及公共一般時(shí)間主題。由x和y確定的4種微博類型如表2所示。每種微博均在不同的主題分布下,需要建立4種主題分布與之相對(duì)應(yīng),其中主要任務(wù)是領(lǐng)域特定時(shí)間主題的識(shí)別。
表2 由x和y確定的4種微博類型
xv和yv服從參數(shù)為θx和θy的二項(xiàng)分布,分別代表某條微博是特定時(shí)間還是任何時(shí)間均可討論的內(nèi)容,是專業(yè)領(lǐng)域相關(guān)的還是談?wù)撋畹确穷I(lǐng)域相關(guān)的信息。且θx和θy服從參數(shù)為ηx和ηy的Beta分布,表示為:
θx~Beta(ηx),θy~Beta(ηy)
(7)
圖3 DM-HDP模型的貝葉斯網(wǎng)絡(luò)
1.Draw measure G0~DP(α,H)
2.For each time t
-draw measure Gt~DP(γ,G0)
3.For each domain parameter μ
-draw θx~Beta(ηx)
-draw θy~Beta(ηy)
-draw measure Gd~DP(μ,G0)
-for each time t:
4.For each microblog υj,for domain d,at time t
-draw xv~Multi(θx)
yv~Multi(θy)
-if x=0,y=0:draw zv~G0
-if x=1,y=0:draw zv~Gt
-if x=0,y=1:draw zv~Gd
-for each word ωji∈υj
*draw wji~Multi(zv)
根據(jù)式(3),可以將G0構(gòu)造如下:
(8)
根據(jù)式(1),Gt、Gd可以表示為:
(9)
(10)
(11)
MCMC方法基于改進(jìn)的CRCP,根據(jù)可觀測(cè)量w對(duì)所有的分布采樣。由于篇幅有限,本文僅給出Gibbs采樣的迭代式,詳細(xì)推導(dǎo)可參考文獻(xiàn)[9]。
(12)
由文獻(xiàn)[9]的5.2節(jié),G0也可以被記為:
(13)
Gu~DP(ε,H)
(14)
r=(r1,r2,…,rk,ru)~Dir(M1,M2,…,Mk,α)
(15)
其中,k代表已有的菜肴數(shù),將r擴(kuò)展到k+1空間,依據(jù)式(15)采樣得到r的分布。
(16)
同理得到ψt、πdt。
3)zv采樣:給定xv和yv的值,可以得到相應(yīng)的zv值,表示如下:
P(zv=k|xv,yv,w)∝P(v|xv,yv,zv=k,w)×
P(z=k|Gx,y)
(17)
P(v|xv,yv,zv=k,w)代表微博v在主題z下產(chǎn)生的概率,P(z=k|Gx,y)代表選擇菜肴z的概率,表示如下:
(18)
5)x和y采樣:
(19)
(20)
完成主題的挖掘后,如何從主題中選擇既重要又新穎的主題詞是一個(gè)關(guān)鍵。主題演化相比傳統(tǒng)的靜態(tài)主題挖掘要考慮時(shí)間因素,如果將靜態(tài)主題挖掘視為空間中的一個(gè)點(diǎn),主題演化過程就是一系列點(diǎn)以時(shí)間為軸連成的線,不僅要關(guān)注主題的分布情況,還要分析其變化過程。主題詞的提取直接影響演化分析的準(zhǔn)確度,要滿足以下2個(gè)條件:1)覆蓋率高,即主題詞要盡可能覆蓋領(lǐng)域微博的主要信息;2)冗余信息少,即主題詞的重復(fù)信息盡可能少。因此,需要對(duì)提取出的主題做進(jìn)一步的濾除。
1)子主題的相似度通常采用KL距離來(lái)衡量,在已知前一時(shí)段主題分布的情況下,對(duì)當(dāng)前時(shí)段的主題詞進(jìn)行篩選,方法如下:設(shè)t時(shí)段中的領(lǐng)域微博被劃分為Kt個(gè)子主題,子主題tm-1,n′與tm,n間的KL距離表示為:
(21)
2)閾值的選取也是一個(gè)關(guān)鍵性問題。人工給定閾值的做法可能造成較大誤差,閾值過高會(huì)導(dǎo)致主題太分散而無(wú)法覆蓋領(lǐng)域的關(guān)鍵信息;閾值過低又會(huì)造成主題信息的冗余,不具有代表性。對(duì)此,本文依據(jù)主題平均距離,將本時(shí)段某一子主題與前一時(shí)段的所有子主題做距離計(jì)算,取其均值。
(22)
其中,M-1表示tm-1時(shí)段的子主題總數(shù)目。
以新浪微博作為數(shù)據(jù)來(lái)源,選取2016年6月1日—2016年12月3日的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。微博爬蟲監(jiān)測(cè)約50萬(wàn)活躍用戶,其中,每條轉(zhuǎn)發(fā)微博中包含如下信息:1)ID,表示該條消息的唯一ID;2)Created-at,表示微博的時(shí)間戳;3)Text,表示微博的文本內(nèi)容;4)User,表示微博的用戶信息。按照定義的領(lǐng)域指數(shù)值篩選分類處理得到的部分?jǐn)?shù)據(jù)如表3所示。
表3 領(lǐng)域微博數(shù)據(jù)
由于時(shí)段劃分由人為設(shè)定,可能會(huì)因?yàn)闀r(shí)段跨度小而導(dǎo)致數(shù)據(jù)量過小,且領(lǐng)域微博的發(fā)布數(shù)量隨機(jī),會(huì)由于某一熱點(diǎn)消息而出現(xiàn)微博數(shù)量激增的情況,微博集的規(guī)模會(huì)在一定程度上影響系統(tǒng)性能。對(duì)此,采取下列相應(yīng)措施:
1)當(dāng)數(shù)據(jù)集過小時(shí)(少于80篇),數(shù)據(jù)較分散,得到的主題數(shù)可能高于微博條數(shù),主題的代表性不明顯。對(duì)此,將微博文本以相同的比例復(fù)制,即在不影響詞語(yǔ)的詞頻及語(yǔ)境的情況下,提高詞語(yǔ)的集中度,擴(kuò)大詞語(yǔ)的采樣空間。
2)當(dāng)數(shù)據(jù)集過大時(shí)(大于400篇),聚類過程中容易產(chǎn)生“超大類”。大類中包含的特征較多,待歸類的數(shù)據(jù)容易歸類到與其含有共同信息的數(shù)據(jù)中,從而導(dǎo)致“滾雪球”式的增長(zhǎng)。對(duì)此,將微博數(shù)據(jù)進(jìn)行二次劃分后再進(jìn)行主題的提取。
選取財(cái)經(jīng)、教育、旅游和體育領(lǐng)域,截取2016年7月4日—2016年9月25日之間12周的523條微博,設(shè)定實(shí)驗(yàn)的迭代次數(shù)為200,統(tǒng)計(jì)每個(gè)領(lǐng)域主題數(shù)的分布及變化情況,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 各領(lǐng)域主題數(shù)分布
分析發(fā)現(xiàn),不同領(lǐng)域的主題數(shù)目在12~26之間變動(dòng),并且主題數(shù)的多少與微博數(shù)據(jù)集的大小沒有正比例關(guān)系,決定因素在于主題的集中程度。例如,實(shí)驗(yàn)中第8周的財(cái)經(jīng)相關(guān)微博為58條,其主題數(shù)為19;體育相關(guān)的微博為45條,其主題數(shù)卻為25。
以醫(yī)療行業(yè)微博數(shù)據(jù)為對(duì)象,設(shè)定實(shí)驗(yàn)的迭代次數(shù)為200,統(tǒng)計(jì)主題的分布情況,實(shí)驗(yàn)結(jié)果如表4所示。
表4 醫(yī)療行業(yè)主題分布
從表4中可以明顯看出,在醫(yī)療行業(yè)下分為10個(gè)大主題,其中每個(gè)大主題又由10個(gè)子主題構(gòu)成,表現(xiàn)出明顯的層結(jié)構(gòu),有效地從微博文本中挖掘出了主題。
為分析主題內(nèi)容上的相似性,利用式(19)計(jì)算2個(gè)相鄰時(shí)段的KL距離。選擇表4中的前5個(gè)子主題,其演化結(jié)果如圖5所示。
圖5 主題相似性變化圖
從圖5可以看出,主題1在8月5日主題間的差異較大,此時(shí)很有可能有突發(fā)事件;主題4和主題5的分布較平穩(wěn)且KL值較低,說明該主題相似度較高,此段時(shí)間內(nèi)沒有突發(fā)性事件。
以時(shí)間序列為軸線,分析醫(yī)療主題下的魏則西事件,具體演化過程分析如表5所示。
表5 魏則西事件主題演化過程
演化過程的要點(diǎn)可簡(jiǎn)述為:2016年2月,公眾從知乎網(wǎng)站上得知魏則西的經(jīng)歷,討論的內(nèi)容集中在對(duì)治療方案及病情的關(guān)注與分析上;2016年4月,魏則西去世,公眾關(guān)注點(diǎn)集中在魏則西之死事件存在的涉事醫(yī)院外包診所給民營(yíng)機(jī)構(gòu)、百度競(jìng)價(jià)排名等問題上;2016年6月,針對(duì)網(wǎng)友對(duì)魏則西所選擇的武警北京二院的治療效果及其內(nèi)部管理問題的質(zhì)疑,相關(guān)部門立即展開調(diào)查;隨后,公眾的注意力放在了廣告和醫(yī)療體制改革上。
圖6 基于LDA模型的貝葉斯網(wǎng)絡(luò)
6.6.1 內(nèi)容困惑度
內(nèi)容困惑度是廣泛應(yīng)用于主題模型效果評(píng)估的一項(xiàng)指標(biāo),其值越小,說明主題模型的效果越好。內(nèi)容困惑度計(jì)算方法如下:
(23)
設(shè)置迭代次數(shù)為100,基于LDA模型的主題數(shù)設(shè)為10,各模型的困惑度如圖7所示。可以看到,在迭代次數(shù)達(dá)到40時(shí),各模型的困惑度趨于平穩(wěn)。DM-HDP模型明顯優(yōu)于LDA,說明自動(dòng)確定主題數(shù)目是提升挖掘效果的關(guān)鍵因素。HDP比DM-HDP模型略差,說明考慮時(shí)間信息及領(lǐng)域信息可以改善主題的挖掘效果。
圖7 3種模型的內(nèi)容困惑度對(duì)比
6.6.2 模型復(fù)雜度
模型復(fù)雜度作為衡量模型的重要指標(biāo)被廣泛應(yīng)用于主題模型的效果評(píng)估。復(fù)雜度越低表示模型用于描述數(shù)據(jù)集的主題越少。其他指標(biāo)相同時(shí),選擇復(fù)雜度較低的模型。由于本次實(shí)驗(yàn)采用MCMC方法對(duì)模型中的各參數(shù)進(jìn)行后驗(yàn)概率的推導(dǎo),所以模型的復(fù)雜度為主題數(shù)目與所有主題的復(fù)雜度之和。模型復(fù)雜度的計(jì)算方法參考文獻(xiàn)[22]。
(24)
設(shè)置迭代次數(shù)為100,各模型的復(fù)雜度如圖8所示。
圖8 3種模型的復(fù)雜度對(duì)比
可以看到,當(dāng)?shù)螖?shù)小于30時(shí),DM-HDP模型的復(fù)雜度增速明顯高于其他模型,在迭代次數(shù)達(dá)到80時(shí),各模型的復(fù)雜度趨于平穩(wěn),HDP模型最高,DM-LDA次之,DM-HDP模型的復(fù)雜度最低。
本文主要研究對(duì)領(lǐng)域微博主題的提取方法。根據(jù)用戶興趣信息對(duì)爬取的混合微博進(jìn)行領(lǐng)域篩選,判斷其是否屬于既定領(lǐng)域,并依據(jù)領(lǐng)域微博的特點(diǎn),基于HDP模型建立領(lǐng)域微博主題挖掘DM-HDP模型,有效去除領(lǐng)域無(wú)關(guān)信息,使領(lǐng)域信息的專業(yè)性特點(diǎn)更加凸顯。同時(shí),為了推導(dǎo)MB-HDP模型的分布參數(shù),應(yīng)用基于改進(jìn)CRCP的MCMC采樣方法。對(duì)挖掘出的主題進(jìn)行相關(guān)性計(jì)算,以捕捉主題的演化規(guī)律。實(shí)驗(yàn)數(shù)據(jù)表明,DM-HDP模型性能優(yōu)于基于LDA等現(xiàn)有模型。為了適應(yīng)海量微博數(shù)據(jù),后續(xù)研究將側(cè)重于尋找更加高效的采樣方法,以及設(shè)計(jì)有效方案進(jìn)一步整合主題的層次結(jié)構(gòu)。
[1] JENSEN S,LIU X,YU Y,et al.Generation of Topic Evolution Trees from Heterogeneous Bibliographic Networks[J].Journal of Informetrics,2016,10(2):606-621.
[2] 葉春蕾,冷伏海.基于社會(huì)網(wǎng)絡(luò)分析的技術(shù)主題演化方法研究[J].情報(bào)理論與實(shí)踐,2014,37(1):126-130.
[3] 陳 千,桂志國(guó),郭 鑫,等.基于特征本體的文本流主題演化[J].計(jì)算機(jī)應(yīng)用,2015,35(2):456-460.
[4] MA J,SUN M,LI C,et al.Ontology Evolution Algorithm for Topic Information Collection[J].International Journal of Nonlinear Science,2014,18(1):86-91.
[5] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,32(3):993-1022.
[6] WANG Y,AGICHTEIN E,BENZI M.TM-LDA:Efficient Online Modeling of Latent Topic Transitions in Social Media[C]//Proceedings of ACM SIGKDD Inter-national Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2012:123-131.
[7] 胡吉明,陳 果.基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J].圖書情報(bào)工作,2014,58(2):138-142.
[8] HOFFMAN M D,BLEI D M,BACH F R.Online Learning for Latent Dirichlet Allocation[J].Advances in Neural Information Processing Systems,2010,23(5):856-864.
[9] TEH Y W,JORDAN M I,BEAL M J,et al.Hierarchical Dirichlet Processes[J].Journal of the American Statistical Association,2006,101(476):1566-1581.
[10] BLEI D M,LAFFERTY J D.Dynamic Topic Models[C]// Proceedings of the 23rd International Conference on Machine Learning.Washington D.C.,USA:IEEE Press,2006:113-120.
[11] AHMED A,XING E P.Dynamic Non-parametric Mixture Models and the Recurrent Chinese Restaurant Process:with Applications to Evolutionary Clustering[C]//Proceedings of Siam International Conference on Data Mining.Atlanta,USA:SDM Press,2008:219-230.
[12] ZHANG J,SONG Y,ZHANG C,et al.Evolutionary Hierarchical Dirichlet Processes for Multiple Correlated Time-varying Corpora[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2010:1079-1088.
[13] HONG L,DOM B,GURUMURTHY S,et al.A Time-dependent Topic Model for Multiple Text Streams[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2011:832-840.
[14] 方 瑩,黃河燕,辛 欣,等.面向動(dòng)態(tài)主題數(shù)的話題演化分析[J].中文信息學(xué)報(bào),2014,28(3):142-149.
[15] FU X,LI J,YANG K,et al.Dynamic Online HDP Model for Discovering Evolutionary Topics from Chinese Social Texts[J].Neurocomputing,2015,171(C):412-424.
[16] 張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主 題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.
[17] 劉少鵬,印 鑒,歐陽(yáng)佳,等.基于MB-HDP模型的微博主題挖掘[J].計(jì)算機(jī)學(xué)報(bào),2015,38(7):1408-1419.
[18] FERGUSON T S.A Bayesian Analysis of Some Nonparametric Problems[J].Annals of Statistics,1973,1(2):209-230.
[19] 周建英,王飛躍,曾大軍.分層Dirichlet過程及其應(yīng)用綜述[J].自動(dòng)化學(xué)報(bào),2011,37(4):389-407.
[20] 陳曉偉.基于主題爬蟲與文本分類的微博資訊智能生成策略研究[D].武漢:華中科技大學(xué),2013.
[21] 張力生,年 歡,宋 輝,等.領(lǐng)域模型中關(guān)聯(lián)語(yǔ)義的描述邏輯表示與應(yīng)用[J].軟件,2015(6):66-74.
[22] MENG X,WEI F,LIU X,et al.Entity-centric Topic-oriented Opinion Summarization in Twitter[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2012:379-387.