李方馨 李成城
摘要:微博已經(jīng)成為廣大用戶發(fā)布和獲取信息的重要渠道之一,微博平臺(tái)上集聚著大量的用戶群體和文本信息資源,如何從大量的微博信息中準(zhǔn)確、有效獲取微博事件關(guān)鍵內(nèi)容至關(guān)重要。提出一種基于VSM和LDA主題模型相結(jié)合的方法,對(duì)微博文本生成自動(dòng)文摘。實(shí)驗(yàn)結(jié)果表明,該方法能夠比較準(zhǔn)確地抽取微博文本的文摘內(nèi)容,從而實(shí)現(xiàn)用戶對(duì)實(shí)時(shí)消息的搜索。
關(guān)鍵詞:LDA主題模型;中文微博;自動(dòng)文摘;VSM
DOIDOI:10.11907/rjdk.161596
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)005-0160-03
0 引言
隨著互聯(lián)網(wǎng)的普及和計(jì)算機(jī)信息技術(shù)的高速發(fā)展,社交網(wǎng)絡(luò)平臺(tái)迅速興起,并逐漸滲透到社會(huì)各用戶群體,極大提高了人們交流的頻率。如今,微博已經(jīng)成為廣大用戶發(fā)布和獲取信息的重要渠道之一,微博平臺(tái)上集聚著大量的用戶群體和文本信息資源。研究如何從大量微博文本中快速、準(zhǔn)確找到他們感興趣的內(nèi)容具有重要意義[1]。
1 微博的文本特性
本文以新浪微博的文本內(nèi)容作為背景語(yǔ)料進(jìn)行話題文摘研究,其主要特征有:①篇幅短小,信息量小。每條微博輸入文本的字符數(shù)限定在140個(gè)字符以內(nèi),微博所表達(dá)的信息量有限;②數(shù)據(jù)類型多,包含大量噪聲。微博上內(nèi)容包含文本、圖片、視頻、表情、網(wǎng)絡(luò)用語(yǔ)和超鏈接等,由于用戶在平臺(tái)上的表達(dá)以快捷、及時(shí)為主,因而文本的精確性不高,包含縮寫、不規(guī)范詞匯、錯(cuò)誤詞匯等多種噪音數(shù)據(jù)[2];③傳播速度快,實(shí)時(shí)性強(qiáng)。微博文本的更新速度與傳播速度很快,一條有價(jià)值的消息被公布之后,往往會(huì)在很短的時(shí)間內(nèi)被大量轉(zhuǎn)發(fā)。
2 相關(guān)工作
2.1 語(yǔ)料獲取及預(yù)處理
本實(shí)驗(yàn)選用新浪微博的文本數(shù)據(jù)作為實(shí)驗(yàn)語(yǔ)料。通過新浪微博開放平臺(tái)的API接口獲取微博文本數(shù)據(jù),實(shí)現(xiàn)微博數(shù)據(jù)自動(dòng)爬取。
由于微博文本字?jǐn)?shù)少,大多微博是一個(gè)句子或者一個(gè)短語(yǔ)。這就導(dǎo)致文本處理時(shí)的數(shù)據(jù)稀疏問題。所以,在預(yù)處理階段首先去除微博長(zhǎng)度小于20字的內(nèi)容;其次,根據(jù)正則表達(dá)式,除去內(nèi)容中含有視頻和語(yǔ)音的超鏈接;最后過濾掉“@”及后面的用戶名部分。通過中國(guó)科學(xué)院的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS進(jìn)行中文分詞。按照停用詞表中的詞語(yǔ)將語(yǔ)料中對(duì)文本內(nèi)容識(shí)別意義不大但出現(xiàn)頻率很高的詞、符號(hào)、標(biāo)點(diǎn)、副詞、助詞等頻度高的詞及亂碼等去掉。在已有停用詞表的基礎(chǔ)上,統(tǒng)計(jì)微博中出現(xiàn)頻率過高且無意義的詞語(yǔ)和符號(hào),如“轉(zhuǎn)發(fā)”等,構(gòu)建出適用于中文微博文本的停用詞表,對(duì)中文分詞后的詞語(yǔ)進(jìn)行停用詞過濾。
2.2 基于向量空間模型的微博文本建模
3 LDA主題模型介紹
LDA(Latent Dirichlet Allocation)主題模型由Blei提出,是一個(gè)針對(duì)離散數(shù)據(jù)集建模的主題生成模型,用一個(gè)服從Dirichlet分布的K維隱含隨機(jī)變量表示文檔話題混合比例,模擬文檔產(chǎn)生過程,通過變分方法推斷話題隱變量[4]。
LDA模型是一個(gè)三層貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的有向概率圖模型,分別為詞層、主題層和文檔層。它將每個(gè)文檔表示為一個(gè)主題混合,每個(gè)主題是固定詞匯表上的一個(gè)多項(xiàng)式分布。首先,假設(shè)文檔與文檔之間順序無關(guān),文檔中單詞與單詞之間順序無關(guān),僅考慮文本的詞頻,而不考慮單詞在文本中出現(xiàn)的先后順序及其約束關(guān)系。然后,根據(jù)單詞在文檔中的分布建立文檔單詞矩陣,再將該矩陣分解為文檔主題與主題單詞矩陣,相應(yīng)的單詞即會(huì)聚類到特定的主題中去。通過對(duì)LDA模型中參數(shù)的調(diào)節(jié),可以使特定的單詞分配到對(duì)應(yīng)的主題[5]。
LDA的概率模型圖如圖1所示。其中,θm表示第m篇文檔的主題分布;zm,n表示第m篇文檔的第n個(gè)單詞的主題編號(hào);φk表示主題編號(hào)為k時(shí)的單詞分布;wm,n表示第m篇文檔的第n個(gè)單詞;α和β分別為θm和φk的先驗(yàn)參數(shù);K表示主題個(gè)數(shù),M表示文檔篇數(shù)。
4 微博文摘句抽取
在生成微博文摘時(shí),考慮多種因素衡量句子的權(quán)重值,如主題重要度、句子中含有的關(guān)鍵詞覆蓋度、句子詞頻、句子長(zhǎng)度、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)等。
4.1 主題重要度
在微博文本中,敘述一件事或描述一個(gè)事物時(shí),都會(huì)圍繞一個(gè)中心主題,同時(shí)每一條微博文本會(huì)從不同的角度來介紹與主題背景相關(guān)方面的內(nèi)容。根據(jù)句子的LDA主題特征,考慮句子主題與抽取到的微博話題的相似度。
4.2 句子中含有的關(guān)鍵詞覆蓋度
句子中出現(xiàn)關(guān)鍵詞的次數(shù)越多,則進(jìn)一步說明該句子的重要性也就越大。所以它也將有一定的優(yōu)先權(quán)被選入到文摘句子當(dāng)中。
4.3 句子長(zhǎng)度
5 實(shí)驗(yàn)與結(jié)果分析
實(shí)驗(yàn)選用新浪微博的文本數(shù)據(jù)作為實(shí)驗(yàn)語(yǔ)料,經(jīng)過預(yù)處理最終得到的中文微博語(yǔ)料,選定5 625條微博數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)3 612條和測(cè)試數(shù)據(jù)1 013條。將VSM和LDA主題模型相結(jié)合,對(duì)中文微博短文本進(jìn)行劃分類簇。通過對(duì)微博的文本分類進(jìn)行挖掘,構(gòu)建特征句子中特征詞文檔和詞頻文檔。設(shè)置Gibbs采樣的主題數(shù)目為6,迭代次數(shù)初始值設(shè)為100進(jìn)行反復(fù)迭代,得到主題和關(guān)鍵詞概率如表1所示。
從實(shí)驗(yàn)結(jié)果可以看出存在6個(gè)潛在主題。根據(jù)各個(gè)主題的高頻關(guān)鍵詞可以看出6個(gè)主題分別是經(jīng)濟(jì)、體育、軍事、旅游、健康和教育。由此可見,基于LDA主題模型挖掘得到的主題和關(guān)鍵詞不僅準(zhǔn)確率較高,而且各個(gè)主題之間的獨(dú)立性強(qiáng),很容易根據(jù)關(guān)鍵詞得出相關(guān)主題。
模型中存在3個(gè)可變量:超參數(shù)α和β,以及主題個(gè)數(shù)K值。令α=50/K,β=0.01,迭代次數(shù)均為2 000次。在本實(shí)驗(yàn)環(huán)境下,經(jīng)過不同主題數(shù)進(jìn)行多次實(shí)驗(yàn),得出:當(dāng)主題數(shù)K=50時(shí),聚類效果最佳,F(xiàn)值達(dá)到最高。抽取到的熱門話題語(yǔ)句如表2所示。
實(shí)驗(yàn)結(jié)果表明,在中文微博語(yǔ)料中生成文摘,相對(duì)于單獨(dú)使用空間向量模型VSM或LDA模型生成微博文摘,VSM和LDA模型的恰當(dāng)結(jié)合可以明顯地提高效果。對(duì)比空間向量VSM模型,準(zhǔn)確率、召回率、F值分別提高了6.9%、11%、9.07%;對(duì)比LDA主題模型,分別提高了3.3%、4.1%、3.71%。實(shí)驗(yàn)結(jié)果如表3所示。
實(shí)驗(yàn)證明,VSM和LDA主題模型相結(jié)合的方法,能夠比較準(zhǔn)確地抽取微博文本的文摘內(nèi)容,進(jìn)一步挖掘主題和關(guān)鍵詞,從而實(shí)現(xiàn)用戶對(duì)實(shí)時(shí)消息的搜索。
6 結(jié)語(yǔ)
本文提出一種中文微博自動(dòng)文摘方法,在LDA模型的基礎(chǔ)上,提出了LDA和VSM結(jié)合的自動(dòng)摘要算法,同時(shí)考慮句子特征和由重要主題產(chǎn)生的句子的LDA特征,從而提高摘要的準(zhǔn)確率。后續(xù)將研究如何利用重要主題自動(dòng)確定LDA模型的主題個(gè)數(shù)。
參考文獻(xiàn):
[1]李志清.基于LDA主題特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)[J].情報(bào)雜志,2015(9):158-162.
[2]文坤梅,徐帥,李瑞軒.微博及中文微博信息處理研究綜述[J].中文信息學(xué)報(bào),2012,26(6):27-37.
[3]SHARIFI B,HUTTON M, KALITA J.Experiments in microblog summarization[C].Washington, DC: IEEE Computer Society,2010.
[4]鄭影,李大輝.面向微博內(nèi)容的信息抽取模型研究[J].計(jì)算機(jī)科學(xué),2014(2):270-275.
[5]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發(fā)現(xiàn)與排序方法[J].計(jì)算機(jī)研究與發(fā)展,2013(1):179-185.
(責(zé)任編輯:陳福時(shí))