宋 蕾 張培晶
(1.北京警察學(xué)院 北京 102202;2.中國(guó)人民公安大學(xué) 北京 100038)
微博是基于web2.0實(shí)現(xiàn)的社交媒體(Social Media)的一種形式,近年來得到了飛速發(fā)展,2010年是我國(guó)的微博元年,在許多危機(jī)場(chǎng)合發(fā)揮著實(shí)時(shí)信息傳播的重要作用,成為民眾表達(dá)輿情的重要窗口,包涵豐富的輿情信息。然而傳統(tǒng)的針對(duì)長(zhǎng)微博的向量空間模型難以有效解決短文本的數(shù)據(jù)稀疏性問題,本文的系統(tǒng)設(shè)計(jì)采用 LDA主題模型,可以充分挖掘隱主題信息,進(jìn)而挖掘熱點(diǎn)話題。
LDA(Latent Dirichlet Allocation)是David M.Blei等人于2003年在潛語義分析LSA(Latent Semantic Analysis)和概率潛語義分析PLSA(Probabilistic Latent Semantic Analysis)的基礎(chǔ)之上提出的一種主題模型。主題模型的基本思想是:文檔是若干主題的混合體,主題是基于詞項(xiàng)的概率分布。主題建模通過詞項(xiàng)在文檔級(jí)的共現(xiàn)信息來抽取出語義相關(guān)的主題集合,能夠?qū)⒃~項(xiàng)空間中的文檔變換到主題空間,從而得到文檔在低維空間中的表達(dá)。
主題模型是一種產(chǎn)生式模型,通過定義一種概率抽樣過程來模擬人寫文章的思考過程。一個(gè)文檔的生成過程可以描述為先根據(jù)文檔的主題混合比例隨機(jī)選擇一個(gè)主題,然后從此主題的詞項(xiàng)分布中抽取一個(gè)詞項(xiàng)。反之,利用統(tǒng)計(jì)學(xué)的推理算法可以逆轉(zhuǎn)這一過程。即通過可觀察到的文檔語料集合中的詞項(xiàng),找出產(chǎn)生這些詞項(xiàng)的概率主題集合,推理出主題與詞項(xiàng)之間的概率分布,文檔中主題的混合比例,以及每個(gè)詞項(xiàng)來源于哪個(gè)主題。
LDA 是一個(gè)三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。與LSA和PLSA相比,LDA主題模型在文本和主題兩個(gè)層面都實(shí)現(xiàn)了概率表示被認(rèn)為是一個(gè)完備的產(chǎn)生式主題模型。LDA利用一個(gè)服從狄里克萊(Dirichlet)分布的T維隱含隨機(jī)變量(θ)來表示文檔的主題概率分布,模擬文檔的產(chǎn)生過程。在多項(xiàng)式分布之上的一個(gè)T維狄里克萊分布的概率密度定義公式如下:
其中,參數(shù)α為參數(shù)θ的超參數(shù),超參數(shù)αj可以被理解為從一個(gè)文檔中抽樣主題j的次數(shù)的一個(gè)先驗(yàn)。狄里克萊分布和多項(xiàng)式分布之間是共軛概率分布關(guān)系,即T維隨機(jī)向量θ服從狄里克萊分布,θ的這T個(gè)分量都是非負(fù)值,并且 ∑jθj=1。狄里克萊分布作為一個(gè)共軛先驗(yàn)(conjugate prior)的多項(xiàng)式分布,可以有效簡(jiǎn)化先驗(yàn)概率的統(tǒng)計(jì)推理問題。在Blel提出LDA的原始文獻(xiàn)中,只為主題分布θ增加了狄里克萊先驗(yàn),并沒有為詞匯分布φ增加先驗(yàn)假設(shè)。為了便于利用共軛概率分布的特性進(jìn)行推理運(yùn)算,T.Giffiths等人為φ加上了狄里克萊先驗(yàn),其超參數(shù)設(shè)為β。
使用貝葉斯網(wǎng)絡(luò)圖來闡述完善后的LDA模型,如圖1所示。其中空心圓表示隱藏變量,實(shí)心圓表示可觀察變量,有向邊表示兩變量間的條件依賴性,方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。
圖1 LDA模型的貝葉斯網(wǎng)絡(luò)圖
LDA模型中文檔的生成過程如下:
(1)對(duì)于文檔d,選擇θd,θd服從Dirichlet(α)分布。
(2)對(duì)于話題z,選擇φz,φz服從Dirichlet(β)分布。
(3)對(duì)于文檔d中的第i個(gè)詞wd,i:
①選擇主題zd,i,zd,i服從Multinomial(θd)多項(xiàng)分布。
②選擇詞wd,i,wd,i服從Multinom ial(φz)多項(xiàng)分布。
主題模型隱含變量的值需要借助近似的推理算法來估計(jì),目前常用的統(tǒng)計(jì)推理算法主要有:期望最大化(Expectation Maxim ization)算法、變分推理算法(Variational Inference)以及吉布斯采樣算法(Gibbs Sampling)等。通過推理算法可以實(shí)現(xiàn)根據(jù)文本詞匯等可觀察變量,推導(dǎo)出θ和z的后驗(yàn)概率分布,也可以對(duì)模型參數(shù)α和β進(jìn)行估計(jì),從而挖掘出給定文檔語料集背后隱含的主題,以及每個(gè)文檔和各主題之間的關(guān)聯(lián)。
LDA主題模型能夠標(biāo)識(shí)出一整套解釋性強(qiáng)的概率主題,具有優(yōu)秀的降維能力、扎實(shí)的概率理論基礎(chǔ)和良好的擴(kuò)展能力,LDA主題模型在海量文本的處理中體現(xiàn)出了明顯的優(yōu)勢(shì),受到了業(yè)界廣泛的關(guān)注,被越來越多的應(yīng)用于自然語言文本的分析處理中。
系統(tǒng)主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、熱點(diǎn)話題發(fā)現(xiàn)以及話題分析模塊。如圖2所示。
圖2 系統(tǒng)架構(gòu)設(shè)計(jì)
微博數(shù)據(jù)的獲取可以通過新浪微博官方API和網(wǎng)頁爬蟲兩種方式來抓取。新浪微博擁有幾億注冊(cè)用戶,活躍用戶量為1.29億,日活躍用戶6140萬,每天發(fā)博量超過1億條,數(shù)量龐大,其中不乏人們的一些感情表達(dá),對(duì)我們發(fā)現(xiàn)熱點(diǎn)話題沒有實(shí)質(zhì)作用。因此,在數(shù)據(jù)源的選取上,應(yīng)當(dāng)著重選取具有一定威望的用戶所發(fā)布的微博,字符長(zhǎng)度應(yīng)當(dāng)在4個(gè)字符以上。
針對(duì)微博數(shù)據(jù)的預(yù)處理包括中文分詞和去停用詞兩個(gè)步驟。一方面,與西文文檔以空格為詞項(xiàng)的自然分隔符不同,中文文檔中的詞項(xiàng)沒有明確的形式上的分隔符。因此,在對(duì)中文微博文本進(jìn)行主題建模之前,需要先利用中文分詞預(yù)處理技術(shù)將中文文檔中的漢字序列切分成單獨(dú)的具有明確語義的詞項(xiàng)。常用的分詞算法主要有基于規(guī)則匹配的分詞算法和基于統(tǒng)計(jì)的分詞算法?;谡Z義的分詞算法是近年來中文分詞領(lǐng)域新的研究熱點(diǎn),可以實(shí)現(xiàn)更靈活的分詞效果,但由于中文語法的復(fù)雜性,其算法仍有待進(jìn)一步的完善。另一方面,在海量微博數(shù)據(jù)收集的過程中,為了盡可能的節(jié)省存儲(chǔ)空間以及提高數(shù)據(jù)采集效率,需要在數(shù)據(jù)采集環(huán)節(jié)設(shè)置必要的停用詞,使得系統(tǒng)在數(shù)據(jù)采集時(shí)自動(dòng)忽略掉某些字或者詞項(xiàng)。一般情況下,停用詞可分為兩類:一類是使用極其廣泛且頻繁的詞項(xiàng),這些詞項(xiàng)在幾乎所有類型的微博文檔中都有非常高的出現(xiàn)概率,但是這些詞項(xiàng)對(duì)于表達(dá)文檔的相關(guān)程度或者對(duì)于縮小文檔的分類范圍沒有實(shí)際意義,例如“微博”、“你”、“這”等等。另一類是這類詞使用非常普遍,但沒有什么明確含義,只有將其放入一個(gè)完整的句子中才有一定的作用,主要包括“啊”、“在”、“就”、“的”、“和”等等之類的語氣助詞、介詞、系動(dòng)詞、副詞、連詞。我們可以建立中文停用詞庫(kù)對(duì)微博數(shù)據(jù)進(jìn)行去噪處理。
由于微博文檔篇幅太短等原因,直接利用LDA模型進(jìn)行主題建模效果并不理想??朔⒉┑亩涛谋镜臄?shù)據(jù)稀疏性影響,需要對(duì)LDA主題建模進(jìn)行調(diào)整或?qū)DA主題模型進(jìn)行適當(dāng)變形。一種解決的思路是擴(kuò)展文檔的長(zhǎng)度,將同一作者發(fā)表的微博集合在一起,視為一個(gè)文檔來進(jìn)行主題建模,從而克服微博文檔篇幅過短的問題。利用最初在維基百科短文檔上進(jìn)行主題建模的LDA擴(kuò)展模型ATM(Author-Topic Model)可以實(shí)現(xiàn)上述基于用戶層面的微博文檔主題建模。此時(shí),主題模型中“文檔-主題”的分布被“作者-主題”分布所取代。但是,由于ATM模型只能刻畫用戶層面的主題混合分布,對(duì)微博帖子層面的主題混合情況無法表達(dá)。Zhao等人對(duì) LDA模型進(jìn)行了類似 ATM 的擴(kuò)展,提出了Twitter-LDA模型。Twitter-LDA模型通過在ATM基礎(chǔ)上引入背景詞項(xiàng)分布 φB,實(shí)現(xiàn)了同時(shí)在微博用戶層面和微博帖子層面兩個(gè)背景下進(jìn)行主題建模,能夠較好地刻畫微博文檔的主題分布。本文使用Twitter-LDA模型來進(jìn)行微博文本的主題建模。
圖3 Tw itter-LDA的貝葉斯圖模型
Tw itter-LDA的貝葉斯網(wǎng)絡(luò)圖模型如圖3所示。其中,φt表示主題的詞項(xiàng)分布,φB表示背景詞項(xiàng)分布。θu表示用戶的主題分布,π表示控制在背景詞項(xiàng)和主題詞項(xiàng)之間選擇的伯努利分布。微博帖子的生成過程如下:
(1)選擇φB,φB服從Dirichlet(β)分布;選擇π,π服從伯努利(λ)分布。
(2)對(duì)于1到K中的每個(gè)主題k,選擇φz,φz服從Dirichlet(β)分布。
(3)對(duì)于1到U中的每個(gè)用戶u:選擇θu,θu服從Dirichlet(α)分布。
(4)對(duì)于1到Nu中的每個(gè)微博帖子s:選擇主題zu,s,zu,s服從Multinomial(θu)多項(xiàng)分布。
(5)對(duì)于1到Nu,s中的每個(gè)詞項(xiàng)n:選擇yu,s,n,yu,s,n服從Multinomial(π)多項(xiàng)分布。如果yu,s,n=0,選擇wu,s, n,wu,s,n服從Multinomial(φB)多項(xiàng)分布;如果yu,s,n=1,選擇wu,s,n,wu,s,n服從Multinomial(φz,u,s)多項(xiàng)分布。
從Tw itter-LDA產(chǎn)生過程可以發(fā)現(xiàn),當(dāng)生成一條微博時(shí),用戶首先選擇一個(gè)主題分布中的主題,然后從被選的主題的詞袋中選擇詞項(xiàng)或者從背景模型的詞袋中選擇詞項(xiàng)。該模型基于一個(gè)前提假設(shè):一個(gè)單獨(dú)的微博帖子通常只有一個(gè)單一主題。
本文采用K-means聚類算法,它的算法簡(jiǎn)單并且收斂速度很快,是最經(jīng)典的基于劃分的聚類方法。它的基本思想是:在空間中尋找任意k個(gè)點(diǎn)做為中心開始進(jìn)行聚類,對(duì)最接近這些中心點(diǎn)的對(duì)象進(jìn)行歸類。然后再通過迭代的方法,多次更新各個(gè)聚類的中心點(diǎn),直到不再進(jìn)行迭代,就是最終的聚類結(jié)果。具體步驟如下:首先,由Tw itter-LDA建模得到的未聚類初始點(diǎn)集N中選取K個(gè)點(diǎn)(K 對(duì)已經(jīng)獲取的微博熱點(diǎn)話題便可進(jìn)行情感傾向性分析、社會(huì)關(guān)系分析以及傳播態(tài)勢(shì)分析。由于立場(chǎng)、出發(fā)點(diǎn)、個(gè)人狀況和偏好的不同,民眾對(duì)生活中各種對(duì)象和事件所表達(dá)出的信念、態(tài)度、意見和情緒的傾向性必然存在很大的差異,對(duì)這種差異的分析便是情感傾向性分析。因此,我們需要建立深度標(biāo)注的情感語料庫(kù),從極性和強(qiáng)度兩個(gè)方面進(jìn)行標(biāo)注,一般極性分為褒義、貶義、中性三類,強(qiáng)度分為強(qiáng)、中、弱三個(gè)等級(jí)。每個(gè)微博用戶都有自己的粉絲和關(guān)注用戶,以及信息轉(zhuǎn)發(fā)、傳播的路徑,都可以幫助我們有效分析個(gè)體的社會(huì)關(guān)系,以及熱點(diǎn)的傳播態(tài)勢(shì)。 本文構(gòu)建的微博輿情分析系統(tǒng),采用LDA主題建模方法對(duì)微博類文本進(jìn)行建模,可以有效的解決短文本數(shù)據(jù)稀疏性等問題,然后利用K-means聚類算法發(fā)現(xiàn)熱點(diǎn)話題,并在此基礎(chǔ)上開展情感傾向性等方面的深入分析。在今后的工作中,獲取更精確微博主題和完整的描述熱點(diǎn)話題是重要研究方向。例如,本文引用 twitter-LDA模型只是從擴(kuò)展建模背景的角度來完善LDA模型在微博文本上的適用,還可以通過加入對(duì)微博結(jié)構(gòu)化特征信息的利用來實(shí)現(xiàn)半監(jiān)督的 LDA模型,用以進(jìn)一步增強(qiáng)LDA模型在微博文本上的主題建模效果。 [1]David M.Blei,Andrew Y.Ng,M ichael I.Jordan.Latent dirichl et allocation[J].Journal of M achine Learning Research,2003(3):993-1022. [2]Steyvers M,Griffiths T.Probabilistic topic models[M].//T.La ndauer,D.M cNamara,S.Dennis,W.Kintsch,et al.Latent Sema ntic Analysis:A Road to Meaning.2007:424-440. [3]張培晶,宋蕾.基于LDA的微博文本主題建模方法研究述評(píng)[J].圖書情報(bào)工作.2012(12):120-126. [4]醫(yī)學(xué)編輯 gogo3569.中文分詞與停用詞的作用.[2012-05-08].http://blog.sina.com.cn/s/ blog_78ba8d9701012by0.htm l [5]M.Zvi,T.Griffiths,M.Steyvers,et al.The author-topic model f or authors and documents[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence(UAI'04).2004:487-494. [6]W ayne Xin Zhao,Jing Jiang,Jianshu Weng,et al.Compari ng tw itter and traditional media using topic models[C]//Proce edings of the 33rd European Conference on Information Retrie val(ECIR '11).2011:338-349. [7]黃靜,張琦,江文斌.基于該技能k-means算法的蠶繭自動(dòng)計(jì)數(shù)方法的研究[J].絲綢.2014(1):37-40.2.5 熱點(diǎn)話題分析模塊
3 結(jié)論