黃華軍,譚駿珊,秦姣華
?
基于主題模型的微博話題檢測(cè)算法
黃華軍,譚駿珊,秦姣華
(中南林業(yè)科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院,湖南長沙410004)
微博數(shù)據(jù)的實(shí)時(shí)、大規(guī)模、短文本以及富含噪聲等特征為話題檢測(cè)帶來新的挑戰(zhàn),傳統(tǒng)向量空模型(VSM)表示文本無法很好地對(duì)其進(jìn)行建模?;诖?,提出一種基于主題模型的微博話題檢測(cè)算法。首先,對(duì)微博數(shù)據(jù)構(gòu)建文檔詞條矩陣和詞語關(guān)聯(lián)矩陣來提取主題詞;然后,對(duì)主題詞進(jìn)行聚類,得到主題模型;最后,利用文本與主題模型相互匹配實(shí)現(xiàn)文本聚類,從而達(dá)到話題檢測(cè)的目的。實(shí)驗(yàn)結(jié)果表示,該算法能有效地進(jìn)行話題聚類并檢測(cè)出話題,在最佳參數(shù)組合條件下,其各類別的平均值達(dá)到95%以上。
話題檢測(cè);主題模型;文檔詞條矩陣;詞語關(guān)聯(lián)矩陣
在Web 2.0時(shí)代,以微博為典型代表的社交網(wǎng)絡(luò)應(yīng)用取代傳統(tǒng)媒介,占據(jù)了信息傳播的主導(dǎo)位置。微博門檻低、易使用、方便快捷等特點(diǎn),吸引一大批網(wǎng)民用戶,使其產(chǎn)生的網(wǎng)絡(luò)在線數(shù)據(jù)呈爆炸性趨勢(shì)增長[1]。一條信息通過微博平臺(tái)能夠在短時(shí)間傳播并影響到數(shù)百萬的用戶。相比傳統(tǒng)媒體,微博在信息傳播過程中的傳播時(shí)效與傳播廣度都大大的增強(qiáng)。與此同時(shí),一些虛假信息通過社交網(wǎng)絡(luò)平臺(tái)的傳播也能在短時(shí)間造成社會(huì)恐慌、用戶財(cái)產(chǎn)損失等問題。社會(huì)上許多突發(fā)性話題,往往在微博應(yīng)用上首發(fā),憑借好友轉(zhuǎn)發(fā)機(jī)制迅速傳播,引起社會(huì)廣泛共鳴,產(chǎn)生巨大的社會(huì)影響。因此,微博話題檢測(cè)技術(shù),對(duì)于社會(huì)熱點(diǎn)話題發(fā)現(xiàn)、網(wǎng)民意見感知、輿情檢測(cè)、應(yīng)急處理具有積極意義[2]。
微博話題以140字以內(nèi)的文本信息、圖片、影音等多媒體內(nèi)容,展示個(gè)人最新動(dòng)態(tài),話題分享。這些數(shù)據(jù)具有時(shí)效性、稀疏性、奇異性和冗余性等特點(diǎn)[3, 4]。同時(shí),這些數(shù)據(jù)信息的表現(xiàn)形式也發(fā)生了變化且凌亂無序,許多有價(jià)值的信息都被湮沒在大量冗余信息中,從而導(dǎo)致提取和管理有用信息越來越困難。對(duì)微博話題檢測(cè),不僅可以過濾無效信息、提高內(nèi)容質(zhì)量、改善用戶體驗(yàn),更能起到監(jiān)測(cè)、輿情控制、觀點(diǎn)挖掘的作用。
話題檢測(cè)是一種信息挖掘技術(shù),從大量數(shù)據(jù)中挖掘出相關(guān)信息,為后續(xù)研究提供基礎(chǔ)[5]。傳統(tǒng)方法對(duì)文本進(jìn)行話題檢測(cè)的一般思路是:主題詞提取、文本表示、文本相似度計(jì)算、文本聚類、話題檢測(cè)。1) 提取主題詞。話題是由主題詞來體現(xiàn)的,從文本中提取能表達(dá)主題的關(guān)鍵詞集合到一起,能很好地表達(dá)出文本所描述的話題。其中,最常用的是TF-IDF權(quán)重計(jì)算算法[6];通過建立詞庫來進(jìn)行主題詞提取也是一種比較常見的方法[7]。2) 文本表示。目前,文本表示大都采用向量空間模型,通過主題詞來組成向量表示文本,進(jìn)而構(gòu)成一個(gè)向量空間[8]。3) 文本相似度計(jì)算是度量文本間距離的一種有效途徑,用向量空間模型表示文本后,一般采用余弦定理的方法來計(jì)算其相似度,也有不少學(xué)者采用其他方法來進(jìn)行計(jì)算[9, 10]。4) 文本聚類是文本信息處理方面常用的一種方法,已比較成熟,其中,比較常用的有-means[11]、層次聚類[12]等。5) 話題檢測(cè)的實(shí)質(zhì)是文本聚類,也有一些話題模型,如最常用的LDA主題模型[13]。
傳統(tǒng)向量空間模型忽視了中文的“同義”、“多義”及高維稀疏向量問題,因而,在微博話題檢測(cè)過程中準(zhǔn)確率和速度不盡人意。其次,傳統(tǒng)的話題檢測(cè)技術(shù)基本都是針對(duì)新聞報(bào)道進(jìn)行研究的,這些新聞報(bào)道的文本格式比較規(guī)范,篇幅較為統(tǒng)一,與現(xiàn)在的微博數(shù)據(jù)特征差異很大,使傳統(tǒng)的文本處理方法已經(jīng)不再適合對(duì)微博數(shù)據(jù)進(jìn)行處理?;诖耍疚奶岢鲆环N基于主題模型的文本聚類方法來進(jìn)行話題檢測(cè),通過提取主題詞來進(jìn)行文本聚類,可以有效解決微博數(shù)據(jù)的話題檢測(cè)。
微博文本預(yù)處理主要包括無效微博過濾、文本提純、中文分詞并標(biāo)注詞性、過濾停用詞等。具體步驟流程如圖1所示。
無效微博過濾:在文獻(xiàn)[2]中提到,微博中存在一些無效微博,即沒有任何話題性、主題性的微博文本,此類微博文本通常由很少的字?jǐn)?shù)組成,基本是由各種表情、符號(hào)或鏈接組成,如“????很百搭http://weibo.com/5081446387”之類的微博。
文本提純:微博文本中存在大量與主題無關(guān)的表情、符號(hào)、鏈接、圖片等,如新浪微博中@用戶名提到用戶,并通知對(duì)方,//@用戶名則表示轉(zhuǎn)發(fā)某用戶微博標(biāo)記,這些符號(hào)都與微博內(nèi)容無關(guān),稱這些為噪聲數(shù)據(jù),在文本處理中,這些噪聲數(shù)據(jù)是與實(shí)驗(yàn)處理無關(guān)的數(shù)據(jù),因此,需要去掉噪聲數(shù)據(jù),對(duì)文本進(jìn)行提純。
中文分詞:由于中文文本處理的基本單位是詞語,且中文文本并不像英文中單詞之間都會(huì)用空格分開,中文文本中只有句子、單位之間才會(huì)用標(biāo)點(diǎn)符號(hào)將其分開,因此,首先需要對(duì)中文文本進(jìn)行分詞操作。中科院ICTCLAS工具對(duì)文本進(jìn)行分詞操作,并標(biāo)注詞性。
過濾停用詞:人類語言中通常包含很多功能詞,與其他詞相比,這些功能詞沒有特別實(shí)際含義,如漢語語言中的“的”、“啊”、“呀”等詞。這些詞通常用于連接句子成分或表達(dá)說話者的感情、強(qiáng)調(diào)語調(diào)等用途,因此稱為停用詞。停用詞的存在不僅降低實(shí)驗(yàn)處理結(jié)果的正確率,且由于停用詞數(shù)量眾多,導(dǎo)致文本矩陣存在嚴(yán)重的高維稀疏等問題,從而影響實(shí)驗(yàn)的性能。因此,需要將停用詞進(jìn)行過濾,保留有用的詞語作為特征詞。停用詞主要分為以下3類。
1) 語氣詞、無用詞等:這些詞在所有文本集中出現(xiàn)的頻率都比較高,卻沒有實(shí)際的意義,如“的”、“啊”、“嗯”,“哦”,“為了”、“而且”等。這些詞在文本中只是起到支撐文本句子或增強(qiáng)語調(diào)等作用,并不構(gòu)成任何文本話題因素。
2) 話題性較小的詞:由于詞性的不同,其所包含的信息量也會(huì)有所不同。一條微博文本中的話題信息基本上都是由文本中的名詞、動(dòng)詞和形容詞所表示,因此,為了減少特征詞的數(shù)量,提高算法的效率,實(shí)驗(yàn)選擇保留名詞、人名、地名、機(jī)構(gòu)團(tuán)體名、其他專名、動(dòng)詞、副動(dòng)詞、名動(dòng)詞、處所詞、名形詞這 10 類詞性的詞作為特征詞,除此之外的其他詞,都作為無用詞過濾掉。
3) 出現(xiàn)頻次過低的詞:在所有文本分詞后的詞語集合中,有些詞可能只在某一條微博文本數(shù)據(jù)中出現(xiàn)一次,可以將該詞歸為無效詞,從而對(duì)這些無效詞進(jìn)行過濾。
關(guān)鍵詞提取是構(gòu)建主題模型的基礎(chǔ),主題模型的構(gòu)建則是話題檢測(cè)最重要的一步。主題模型,顧名思義,就是對(duì)文字中隱含主題的一種建模方法。例如,“蘋果”這個(gè)詞的背后既可以表示蘋果公司的主題,也可以表示水果的主題。當(dāng)蘋果與喬布斯等詞一起出現(xiàn)時(shí),那此處蘋果基本可以設(shè)定為蘋果公司這一主題,從而認(rèn)為它們是相關(guān)的。由此可知,通過詞語之間隱含的一種相關(guān)性,可以將主題分類開來。受此啟發(fā),本算法利用主題詞之間的關(guān)聯(lián)性,生成詞語關(guān)聯(lián)矩陣,推斷出詞語之間的關(guān)聯(lián)程度,找出不同的主題,從而實(shí)現(xiàn)對(duì)話題的檢測(cè)目標(biāo)。整個(gè)過程如圖2所示。
1) 提取關(guān)鍵詞
微博文本信息短小,限制在 140 字以內(nèi),且包含文本、圖片、鏈接、視頻、特殊符號(hào)等多種元素,使微博文本呈現(xiàn)為碎片化的信息、表達(dá)方式隨意、內(nèi)容多樣,從話題角度分為有話題微博和無話題微博,從內(nèi)容角度分為評(píng)論性微博與描述性微博。其中,無話題微博包括情感宣泄類、名言警句類等。而對(duì)于其他話題微博,通過對(duì)微博話題文本進(jìn)行研究分析得出,話題類微博中通常會(huì)包含一些與話題相關(guān)的關(guān)鍵詞,因此,在一定數(shù)量的話題微博下,這些關(guān)鍵詞出現(xiàn)的次數(shù)必定會(huì)高于一些其他修飾詞,而在對(duì)話題類微博進(jìn)行話題檢測(cè)時(shí),常常就只需要對(duì)這些與話題有關(guān)的詞進(jìn)行分析,因此,首先提取出這些出現(xiàn)頻次高的、與話題相關(guān)的關(guān)鍵詞,可以有效降低數(shù)據(jù)處理的維度,并減少計(jì)算量,提升實(shí)驗(yàn)處理的效率等。圖3是對(duì)實(shí)驗(yàn)測(cè)試數(shù)據(jù)中保留的高頻詞所做的一個(gè)詞云,其中,詞語顯示越大,表明該詞出現(xiàn)次數(shù)越多。選取閾值為100,當(dāng)一個(gè)詞語出現(xiàn)次數(shù)超過100時(shí),則將其視作高頻詞,稱為關(guān)鍵詞。由此,可以給出關(guān)鍵詞的定義如下。
2) 文檔詞條矩陣
文檔詞條矩陣的行與列同樣分別表示文本與詞語,但是,該矩陣中的詞語由經(jīng)過提取后的關(guān)鍵詞構(gòu)成,且每一個(gè)元素的取值為0或1,當(dāng)某元素所在列對(duì)應(yīng)的詞在所在行對(duì)應(yīng)的文本中出現(xiàn)時(shí),則該元素取值為1;否則為0,其含義表示的是文檔中詞語出現(xiàn)的情況。其定義與形式化的表格描述如下。
3) 詞語關(guān)聯(lián)矩陣
從上述提到的文檔詞條矩陣分析可知,從文檔詞條矩陣的列,即詞語的角度考慮,對(duì)于每一個(gè)出現(xiàn)過該詞語的文本,必定會(huì)出現(xiàn)一些其他關(guān)鍵詞,這些關(guān)鍵詞都與該詞共同出現(xiàn)過,則表示這些詞語具有相關(guān)性,稱其相互關(guān)聯(lián)。當(dāng)2個(gè)詞語在文檔中共同出現(xiàn)的次數(shù)多時(shí),表示其具有強(qiáng)關(guān)聯(lián)性。由此可知,此處的詞語關(guān)聯(lián)矩陣的行和列都表示詞語,那么,矩陣中每一個(gè)元素的值則表示該元素所在行對(duì)應(yīng)的詞語與所在列對(duì)應(yīng)的詞語同時(shí)出現(xiàn)在文檔中的次數(shù)。其定義與形式化的表格描如下。
4) 主題詞聚類
通過對(duì)話題微博內(nèi)容分析可知,話題類微博包含的字?jǐn)?shù)可多可少,這些微博中可能只包含一個(gè)或包含多個(gè)與話題相關(guān)的關(guān)鍵詞;而對(duì)于類別相近的一些話題,可能存在一個(gè)關(guān)鍵詞同時(shí)與2個(gè)話題的相關(guān)。包含多個(gè)關(guān)鍵詞的話題微博可能具有兩面性:一方面這些關(guān)鍵詞更具有類別代表性;另一方面,這些關(guān)鍵詞中存在與多個(gè)話題相關(guān)的詞,導(dǎo)致話題類別不夠明確。由此可知,對(duì)于同一類的微博話題,其文本中出現(xiàn)的詞基本都是關(guān)聯(lián)性強(qiáng)的詞語;而對(duì)于不同類別的微博話題,文本中出現(xiàn)的詞關(guān)聯(lián)程度則會(huì)相當(dāng)小。于是,可以通過提取這些關(guān)聯(lián)性強(qiáng)的關(guān)鍵詞,然后,對(duì)這些詞進(jìn)行聚類分析,就可以得到每一個(gè)類別對(duì)應(yīng)的關(guān)鍵詞,此時(shí),稱這些關(guān)鍵詞為主題詞,定義如下。
通過對(duì)話題主題詞進(jìn)行分析,可得以下3點(diǎn)性質(zhì)。
①當(dāng)一個(gè)話題出現(xiàn)多個(gè)主題詞時(shí),則這些主題詞共同出現(xiàn)的次數(shù)必定比跟其他詞出現(xiàn)的次數(shù)要高。
②當(dāng)一個(gè)話題中只有一個(gè)主題詞時(shí),則其單獨(dú)出現(xiàn)的次數(shù)比與其他任何詞共同出現(xiàn)的次數(shù)要高出很多。
③當(dāng)一個(gè)主題詞同時(shí)出現(xiàn)在多個(gè)內(nèi)容相近的話題中時(shí),該詞與這些話題中其他有區(qū)別性的主題詞共現(xiàn)次數(shù)均多,則將此主題詞定為無效主題詞,不具備區(qū)分效果,將其除去,不作考慮。
定義5 當(dāng)一個(gè)主題詞和關(guān)聯(lián)性最強(qiáng)的主題詞所關(guān)聯(lián)的次數(shù)除以與該主題詞有關(guān)聯(lián)的其他所有主題詞數(shù)量之和的值不超過時(shí),則定義該主題詞為無效主題詞。
對(duì)于每一個(gè)主題詞,與其關(guān)聯(lián)性強(qiáng)的主題詞基本是屬于同一話題,再設(shè)定閾值參數(shù),對(duì)于每一個(gè)主題詞,分別選取與其關(guān)聯(lián)關(guān)系最強(qiáng)的前個(gè)主題詞進(jìn)行分析。對(duì)每一個(gè)主題詞之間的強(qiáng)關(guān)聯(lián)詞集合進(jìn)行交集運(yùn)算,若交集不為空,則判斷這2個(gè)主題詞表示為同一話題;否則,表示不同話題。由此,實(shí)現(xiàn)對(duì)主題詞的聚類操作,整個(gè)模型構(gòu)建的具體流程如圖4所示。

圖4 主題模型算法流程
算法1 基于詞語關(guān)聯(lián)矩陣的主題詞聚類
輸出:聚類后的各類主題詞集合
}else{
}
}
文本聚類是話題檢測(cè)的前提,話題檢測(cè)技術(shù)的本質(zhì)就是無監(jiān)督的文本聚類,即在無人工干預(yù)的情況下,通過判斷一個(gè)文本是否屬于已有話題來進(jìn)行歸類。通過文本聚類后,找到聚類類別,從而提取話題,達(dá)到話題檢測(cè)結(jié)果。由上述可知,主題模型創(chuàng)建后,可以得到各類別話題的主題詞,因此,可以根據(jù)文本與各類話題的主題詞匹配情況來確定各文本所屬的話題類別,從而實(shí)現(xiàn)話題聚類。假設(shè)設(shè)定閾值參數(shù),當(dāng)文檔中出現(xiàn)該類主題詞的數(shù)量不小于時(shí),該文檔屬于該類話題,從而實(shí)現(xiàn)話題檢測(cè)。即通過利用中每一個(gè)文檔的詞語與這些歸好類的主題詞進(jìn)行對(duì)比匹配,當(dāng)時(shí),定義該文本屬于這個(gè)話題,其中,表示的是取交集后的個(gè)數(shù)。
實(shí)驗(yàn)數(shù)據(jù)取自中國計(jì)算機(jī)學(xué)會(huì)信息網(wǎng)科研數(shù)據(jù)平臺(tái),包含14個(gè)熱點(diǎn)話題,共3 455條微博文本,各話題內(nèi)容的數(shù)量如表1所示。

表1 微博話題及其數(shù)量
實(shí)驗(yàn)評(píng)估采用信息檢測(cè)領(lǐng)域最常用的3個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率(precision)、召回率(recall)和綜合評(píng)價(jià)指標(biāo)值(-value)。準(zhǔn)確率是指結(jié)果中有多少是準(zhǔn)確的;召回率就是指所有準(zhǔn)確的結(jié)果中有多少被檢測(cè)出來。是準(zhǔn)確率與召回率的綜合評(píng)價(jià)參數(shù),設(shè)1為檢索到的正確文檔數(shù),為所有的正確文檔數(shù),為所有檢索到的文檔數(shù)。具體計(jì)算公式分別如下
首先,讀取微博文本數(shù)據(jù),對(duì)其進(jìn)行預(yù)處理,得到有效詞4 987個(gè),再提取文本的關(guān)鍵詞,得到112個(gè)關(guān)鍵詞,從而大大縮減了文本處理的維度問題。再根據(jù)關(guān)鍵詞構(gòu)造文檔詞條矩陣,此時(shí),可知文檔詞條矩陣為一個(gè)3 455行、112列的二維矩陣,并由此可以得到一個(gè)112×112的詞語關(guān)聯(lián)矩陣。從矩陣大小來看,該算法能有效解決傳統(tǒng)方法中存在的高維稀疏等問題。

表2 不同參數(shù)組合條件下各類話題的準(zhǔn)確率、召回率和F值
圖5給出了各參數(shù)組合條件下所有類別值的平均值曲線。由圖5可知,該算法在不同的參數(shù)取值條件下,平均值的取值變動(dòng)范圍很大,通過實(shí)驗(yàn)數(shù)據(jù)得出,當(dāng)參數(shù)取值組合為,,時(shí),各話題類別的值取平均值最好,其平均值達(dá)到95.8。此時(shí),各個(gè)類別的準(zhǔn)確率、召回率與值取值情況如圖6所示。

圖5 各參數(shù)取值組合條件下F平均值取值情況
由上述知,通過關(guān)鍵詞提取后,關(guān)鍵詞的數(shù)量是112個(gè),其按照出現(xiàn)的頻次從大到小排列分別為:光大、證券、臺(tái)風(fēng)、北京、別墅、尤特、中國、李宗偉、樓頂、林丹、流星雨、強(qiáng)臺(tái)風(fēng)、龍王、外婆、事件、李天一、烏龍、婚禮、埃及、登陸、廣東、影響、新聞、視頻、網(wǎng)友、暴雨、出現(xiàn)、交易、地震、拆除、分享、姚貝娜、中心、記者、美國、書法、聲音、表示、昌都、酒吧、期貨、斯諾登、假山、曝光、冠軍、支持、時(shí)間、張必清、馬爾代夫、部門、高溫、羽毛球、雞蛋、問題、外孫、泰國、位于、進(jìn)行、決賽、夢(mèng)鴿、頂蓋、消息、流星、風(fēng)力、看到、預(yù)計(jì)、發(fā)生、世界、市場、地區(qū)、小時(shí)、安全、發(fā)布、微博、造成、報(bào)道、死亡、火焰山、關(guān)注、棱鏡、鄭鈞、對(duì)手、系統(tǒng)、教授、西藏、劉蕓、廣州、暴漲、天氣、股市、預(yù)警、工作、陽江、林育群、成為、律師、行動(dòng)、進(jìn)入、山莊、比賽、廣西、海面、地表、人員、媒體、南海、小區(qū)、政府、投資、現(xiàn)場、同志、希望。得到最佳參數(shù)取值后,主題模型中得到的關(guān)于各個(gè)話題類別的關(guān)鍵主題詞如表3所示。

表3 各個(gè)話題類別的主題詞
由表3可知,每一個(gè)話題所對(duì)應(yīng)的主題詞均能很好地代表此類話題,表明該主題詞的主題性非常明確。從上面關(guān)鍵詞中看到,“中國”跟“事件”等出現(xiàn)頻次很高的一些詞沒有出現(xiàn)在對(duì)應(yīng)話題的主題詞中,通過對(duì)這些主題詞進(jìn)行分析得到,這些均屬于多話題性主題詞,如“中國”一詞,在話題#中國好外婆#、#姚貝娜vs林育群#、#光大證券烏龍事件#中均有出現(xiàn),且出現(xiàn)次數(shù)不集中;“事件”一詞分別在話題#光大證券烏龍事件#、#斯諾登棱鏡事件#中出現(xiàn),且出現(xiàn)次數(shù)差不多,此類詞明顯為多話題性主題詞,不具備區(qū)分話題類別的價(jià)值,將其舍去。
在確定參數(shù)及性能后,采用通過歐氏距離計(jì)算得到的層次聚類及-means聚類方法對(duì)相同實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn)操作,各自的聚類結(jié)果分別如圖7和圖8所示,綜合對(duì)比結(jié)果如圖9所示。

圖7 層次聚類結(jié)果

圖8 k-means聚類結(jié)果

圖9 3個(gè)實(shí)驗(yàn)對(duì)比結(jié)果
由圖9可知,主題模型算法針對(duì)該實(shí)驗(yàn)數(shù)據(jù)進(jìn)行操作得到的結(jié)果明顯優(yōu)于層次聚類及-means聚類方法。通過對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析可知,在經(jīng)過預(yù)處理后,根據(jù)這些短文本創(chuàng)建向量空間模型,再分別利用歐氏距離進(jìn)行距離計(jì)算從而進(jìn)行層次聚類和-means聚類,由于短文本數(shù)據(jù)具有很大的稀疏性,使其在利用向量空間模型進(jìn)行計(jì)算過程中存在較大的誤差,導(dǎo)致普遍準(zhǔn)確率等都偏低。
針對(duì)傳統(tǒng)話題檢測(cè)技術(shù)處理微博數(shù)據(jù)的不足,提出了一種基本主題模型的文本聚類方法進(jìn)行話題檢測(cè)。以微博數(shù)據(jù)作為研究對(duì)象,詳細(xì)分析了微博文本的特征,得到主題詞在話題性微博文本中的重要性,從而推斷可以從主題詞的角度進(jìn)行研究。首先,對(duì)預(yù)處理后的文本提取出關(guān)鍵詞,降低文本表示的維度,減小計(jì)算量;然后,由提取的關(guān)鍵詞構(gòu)建文檔詞條矩陣,分析每一個(gè)關(guān)鍵詞在文本中出現(xiàn)的情況;其次,由文檔詞條矩陣分析總結(jié)出共同出現(xiàn)的詞語之間的關(guān)系,統(tǒng)計(jì)每一對(duì)共同出現(xiàn)的詞語及其共現(xiàn)的次數(shù),并以此構(gòu)造一個(gè)詞語關(guān)聯(lián)矩陣;再次,根據(jù)同一話題中出現(xiàn)的詞語關(guān)聯(lián)性最強(qiáng)的特點(diǎn),對(duì)詞語關(guān)聯(lián)矩陣中的強(qiáng)關(guān)聯(lián)性詞語集合取交集運(yùn)算,將同一話題的主題詞聚為一類,不同話題的主題詞則分為不同類,此時(shí)主題模型構(gòu)建完成;最后,利用文本與主題模型中已經(jīng)歸好類別的主題詞進(jìn)行匹配,即可得到文本的類別,從而實(shí)現(xiàn)話題檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法能取得較好的效果,在最佳參數(shù)組合的條件下,其各類別的平均值達(dá)到95%以上。由于現(xiàn)在網(wǎng)絡(luò)技術(shù)的發(fā)展,有海量的短文本數(shù)據(jù)存在在線網(wǎng)絡(luò)上,因此,下一步的研究工作將考慮在大數(shù)據(jù)環(huán)境下,對(duì)其進(jìn)行話題檢測(cè)技術(shù)的研究,并嘗試將該方法運(yùn)用到大數(shù)據(jù)平臺(tái)下。
[1] 王仲遠(yuǎn), 程健鵬, 王海勛, 等. 短文本理解研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2):262-269.
WANG Z Y, CHENG J P, WANG H X, et al. Short text understanding: a survey[J]. Journal of Computer Research and Development, 2016, 53(2): 262-269.
[2] 賀敏, 杜攀, 張謹(jǐn), 等. 基于動(dòng)量模型的微博突發(fā)話題檢測(cè)方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015,52(5):1022-1028.
HE M, DU P, ZHANG J. et al. Microblog bursty topic detection method based on momentum model[J].Journal of Computer Research and Development,2015, 52(5): 1022-1028.
[3] 劉全超, 黃河燕, 馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學(xué)報(bào), 2014, 28(4): 123-131.
LIU Q C, HUANG H Y, FENG C.Multi-feature based sentiment orientation identification algorithm for micro-blog topics[J]. Journal of Chinese Information Processing, 2014, 28(4): 123-131.
[4] 程俊霞, 李芝棠, 鄒明光, 等. 基于SVM過濾的微博新聞話題檢測(cè)方法[J]. 通信學(xué)報(bào), 2013, 34(Z2): 74-78.
CHEN J X, LI Z T, ZOU M G, et al. Novel topic detection method for microblog based on SVM filtration[J]. Journal of Communications, 2013, 34(Z2): 74-78.
[5] NIST. The 2003 topic detection and tracking task definition and evaluation plan[EB/OL]. http://www.nist.gov/speech/tests.tdt/tdt2003/ evalplan.html.
[6] 周學(xué)廣, 高飛, 孫燕. 基于依存連接權(quán)VSM的子話題檢測(cè)與跟蹤方法[J]. 通信學(xué)報(bào), 2013, 34(8): 1-9.
ZHOU X G, GAO F, SUN Y. Sub-topic detection and tracking based on dependency connection weights for vector space model[J]. Journal of Communications, 2013, 34(8):1-9.
[7] 付艷, 周明全, 王學(xué)松, 等. 面向互聯(lián)網(wǎng)新聞的在線事件檢測(cè)[J]. 軟件學(xué)報(bào), 2010, 21(Z): 363-372.
FU Y, ZHOU M Q, WANG X S, et al. On-line event detection from web news stream[J].Journal of Software,2010, 21(Z): 363-372.
[8] 郝文寧, 馮波, 陳剛, 等. 基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J]. 計(jì)算機(jī)應(yīng)用研究, 2013, 30(3): 764-767.
HAO W N, FENG B, CHEN G, et al. Document vector space model construction based on domain ontology[J].Application Research of Computers, 2013, 30(3): 764-767.
[9] PHUVIPADAWAT S, MURATA T. breaking news detection and tracking in twitter[C]//2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, Toronto. c2010: 120-123.
[10] YANXIANG H, YE T, QIANG C, et al. Summarizing microblogs on network hot topics[C]//2011 International Conference on Internet Technology and Applications. c2011: 1-4.
[11] 謝娟英, 高紅超. 基于統(tǒng)計(jì)相關(guān)性與-means的區(qū)分基因子集選擇算法[J]. 軟件學(xué)報(bào), 2014, 25(9): 2050-2075.
XIE J Y, GAO H C. Statistical correlation and-means based distinguishable gene subset selection algorithms[J]. Journal of Software, 2014, 25(9): 2050-2075.
[12] DAI X Y, CHEN Q C, WANG X L, et al. Online topic detection and tracking of financial news based on hierarchical clustering[C]//2010 International Conference on Machine Learning and Cybernetics, Qingdao. c2010: 3341-3346.
[13] ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[M]//Advances in Information Retrieval. Berlin: Heidelberg, 2011: 338-349.
Micro-blog topic detection algorithm based on topic model
HUANG Hua-jun, TAN Jun-shan, QIN Jiao-hua
(College of Computer and Information Engineering, Central South University of Forestry & Technology, Changsha 410004, China)
Micro-blog data has the characteristic of real-time, volume, short-text, and noise-rich. So it is a challenge for the traditional topic detection technology. A novel micro-blog topic detection algorithm based on topic model was proposed. Firstly, the micro-blog data was expressed as text word matrix and word relation matrix. The topic word was extracted from the two vectors. Secondly, the topic model was obtained with clustering. Finally, the topic detection of micro-blog was obtained by clustering text and topic model. Experimental results show that the algorithm proposed can effectively detection the text topic, and with the best parameter group of precision, recall rate,, and the valueis about 95%.
topic detection, topic model, text word matrix, word relation matrix
The National Natural Science Foundation of China (No.61304208), The Natural Science Foundation of Hunan Province (No.13JJ2031),Youth Scientific Research Foundation of Central South University of Forestry &Technology (No.QJ2012009A)
TP391
A
10.11959/j.issn.2096-109x.2016.00049
2016-04-13;
2016-05-06。
黃華軍,hhj0906@163.com
國家自然科學(xué)基金資助項(xiàng)目(No.61304208);湖南省自然科學(xué)基金資助項(xiàng)目(No.13JJ2031);中南林業(yè)科技大學(xué)青年科學(xué)研究基金資助項(xiàng)目(No.QJ2012009A)
黃華軍(1978-),男,湖南宜章人,博士,中南林業(yè)科技大學(xué)教授、碩士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、網(wǎng)絡(luò)釣魚防御。

譚駿珊(1963-),男,湖南益陽人,博士,中南林業(yè)科技大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)閿?shù)據(jù)庫信息與管理、數(shù)據(jù)挖掘。
秦姣華(1973-),女,湖南益陽人,博士,中南林業(yè)科技大學(xué)教授、碩士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全、加密圖像檢索。
