陳鐵明,王小號(hào),龐衛(wèi)巍,江頡
?
結(jié)合時(shí)序和語(yǔ)義的中文微博話題檢測(cè)與跟蹤方法
陳鐵明,王小號(hào),龐衛(wèi)巍,江頡
(浙江工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江杭州 310023)
微博文本具有短小快捷、主題多變等特點(diǎn),社交話題檢測(cè)與跟蹤研究面臨新的挑戰(zhàn)。結(jié)合微博的話題時(shí)序性和短文本語(yǔ)義相似度等特點(diǎn),提出了基于微博聚類的話題檢測(cè)與跟蹤系統(tǒng)方法。首先,通過(guò)定義微博文本的時(shí)序頻繁詞集,給出面向熱點(diǎn)話題的特征詞選擇方法;然后,根據(jù)時(shí)序頻繁特征詞集,利用最大頻繁項(xiàng)集獲得微博初始聚類;針對(duì)初始簇間存在文本重疊情況,提出基于短文本擴(kuò)展語(yǔ)義隸屬度的簇間重疊消減算法,獲得完全分離的初始簇;最后,根據(jù)簇語(yǔ)義相似度矩陣,給出凝聚式話題聚類方法。通過(guò)新浪微博完成實(shí)驗(yàn)測(cè)試,表明所提方法可用于中文微博熱點(diǎn)話題檢測(cè)與跟蹤。
微博文本;頻繁詞集;特征選擇;聚類;話題檢測(cè);時(shí)序;語(yǔ)義
話題檢測(cè)與追蹤(TDT, topic detection and tracking)是指在沒(méi)有人工干預(yù)的情況下自動(dòng)判別新聞數(shù)據(jù)流的主題,以應(yīng)對(duì)日益嚴(yán)重的信息過(guò)載問(wèn)題[1],其主要任務(wù)是從媒體信息流中抽取并監(jiān)控不同的新聞報(bào)道,在沒(méi)有話題先驗(yàn)知識(shí)的前提下,檢測(cè)并組織出信息流中預(yù)先未知的話題[2]。話題檢測(cè)的研究自1996年由美國(guó)國(guó)防高級(jí)研究規(guī)劃署(DARPA)和國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)聯(lián)合發(fā)起以來(lái),已獲得了較廣泛的響應(yīng)[3~5],已有學(xué)者將Single-Pass[6]、增量-means[7]、層次聚類[8]、關(guān)鍵詞元統(tǒng)計(jì)[9]等不同類型的聚類算法應(yīng)用到話題檢測(cè)中,并在一定程度上提高了話題檢測(cè)效果[10,11]。
由于微博文本具有短小快捷、主題多變等特點(diǎn),以及其非結(jié)構(gòu)化文本帶來(lái)的向量高維性和稀疏性等問(wèn)題,傳統(tǒng)的新聞話題檢測(cè)研究也面臨著新的挑戰(zhàn):1) 基于經(jīng)典Bag of Words思想構(gòu)造的文本表示模型VSM會(huì)導(dǎo)致“高維詛咒”問(wèn)題,需要研究面向微博文本的新型特征選擇方法;2) 短文本的特性稀疏性,會(huì)導(dǎo)致傳統(tǒng)基于空間距離的相似度計(jì)算方法無(wú)法有效地衡量2個(gè)短文本之間的相似度,需要研究新的文本相似度計(jì)算方法;3) 傳統(tǒng)聚類算法通常需要預(yù)設(shè)初始簇或終止簇的數(shù)量,但這種先驗(yàn)知識(shí)在文本聚類的話題識(shí)別中往往是未知的,若設(shè)置不合適的數(shù)量參數(shù),則會(huì)導(dǎo)致不理想的聚類結(jié)果,因此,需要根據(jù)微博文本集的內(nèi)部性質(zhì)合理地設(shè)置話題初始簇和終止簇的數(shù)量。
本文圍繞中文微博社交話題檢測(cè)面臨的新問(wèn)題,研究提出一種考慮頻繁特征詞時(shí)序特性和微博短文本語(yǔ)義相似度的聚類新方法,并設(shè)計(jì)實(shí)現(xiàn)基于聚類結(jié)果的微博話題檢測(cè)與跟蹤方法。
微博作為一種新興網(wǎng)絡(luò)媒體,具有信息增長(zhǎng)快、內(nèi)容實(shí)時(shí)性強(qiáng)、用語(yǔ)隨意化等一系列特點(diǎn),國(guó)外學(xué)者率先在微博話題檢測(cè)領(lǐng)域取得了初步的研究成果。文獻(xiàn)[12]將Twitter用戶視為網(wǎng)絡(luò)傳感節(jié)點(diǎn),采用基于關(guān)鍵詞的貝葉斯決策方法設(shè)計(jì)開(kāi)發(fā)了一套基于Twitter的實(shí)時(shí)地震監(jiān)控原型系統(tǒng),并取得了80%以上的檢測(cè)率;文獻(xiàn)[13]提出了一種在Twitter上收集、分組、排序和追蹤突發(fā)新聞的方法,將相似度較高的tweets歸為一組并視為一個(gè)新聞,再根據(jù)每組新聞話題所含詞匯之間的關(guān)聯(lián)度和流行度對(duì)這些新聞話題進(jìn)行排序,最終得到爆炸性新聞;文獻(xiàn)[14]提出了基于社會(huì)關(guān)系評(píng)價(jià)和時(shí)序的Twitter熱點(diǎn)話題檢測(cè)方法,將tweets抽取為一系列詞語(yǔ)的集合,通過(guò)詞語(yǔ)的生命周期模型挖掘出突發(fā)詞語(yǔ),通過(guò)用戶社會(huì)網(wǎng)絡(luò)關(guān)系挖掘特定用戶的影響力,并以此計(jì)算tweets的重要性,最后,通過(guò)創(chuàng)建基本話題表獲得熱點(diǎn)話題。隨著新浪微博等主流平臺(tái)的快速流行,國(guó)內(nèi)學(xué)者也開(kāi)始了面向中文微博話題檢測(cè)的研究工作。文獻(xiàn)[15]根據(jù)微博數(shù)據(jù)量大、信息破碎等特點(diǎn),提出了基于隱主題模型的微博新聞話題檢測(cè)方法。
文本內(nèi)容聚類仍然是微博話題檢測(cè)的核心,但微博短文本的特有屬性使傳統(tǒng)的聚類算法無(wú)法獲得較好的應(yīng)用效果,因此,微博短文本聚類方法的研究至關(guān)重要。下面主要介紹有較大發(fā)展?jié)摿Φ?個(gè)方向[16]。
1) 基于擴(kuò)展語(yǔ)義信息
Gabrilovich等[17]發(fā)現(xiàn)借助諸如維基百科等外部資源可以擴(kuò)充短文本的特征,提高短文本之間的相似度。Baghel等[18]通過(guò)引入WordNet將頻繁詞集轉(zhuǎn)換為頻繁概念集,然后,提出基于頻繁概念集的文本聚類算法。Zelikovitz等[19]通過(guò)創(chuàng)建潛在語(yǔ)義索引來(lái)挖掘詞語(yǔ)之間的語(yǔ)義關(guān)系,提高了短文本處理的效果。
2) 基于詞間共現(xiàn)或順序關(guān)系
Beil等[20]最早提出基于頻繁項(xiàng)集的聚類FTC(frequent term-based clustering)算法。FTC算法使用頻繁詞集來(lái)表示簇,采用貪婪式的啟發(fā)策略,頻繁詞集選擇的次序會(huì)影響最終的聚類結(jié)果。Li等[21]提出基于頻繁詞序列的文本聚類方法CFWS,算法通過(guò)挖掘頻繁詞序列構(gòu)造初始簇,然后,使用-mismatch方法來(lái)合并初始簇并得到聚類結(jié)果。Fung等[22]則針對(duì)FTC算法的缺點(diǎn),提出基于頻繁項(xiàng)集的層次聚類(FIHC, frequent itemset-based hierarchical clustering)算法。
由于微博短文本特性,若直接將FIHC算法應(yīng)用到微博聚類,主要將面臨如下2個(gè)問(wèn)題:① 普通的頻繁項(xiàng)集僅表明某些特征項(xiàng)的共現(xiàn)關(guān)系頻繁,無(wú)法保證共現(xiàn)關(guān)系可以代表文本集的隱含話題,影響話題簇的正確構(gòu)造與劃分;②由于微博內(nèi)容簡(jiǎn)短、特征稀少,同一話題的某些微博可能語(yǔ)義相似但表述方式不同,從而被錯(cuò)誤地劃分,最終影響聚類結(jié)果。
為解決微博短文本聚類所面臨的問(wèn)題,本文采用FIHC算法[22]“先建簇后消重再凝聚”的思想,提出一種結(jié)合時(shí)序頻繁和語(yǔ)義聚類的新方法(TS-FIHC, time and semantics FIHC),聚類的主要過(guò)程如圖1所示。
話題通常具有時(shí)間屬性,微博的熱點(diǎn)話題更具有時(shí)序性,即在某個(gè)時(shí)間點(diǎn)上具有突發(fā)性,發(fā)展趨勢(shì)極度不平衡。因此,首先根據(jù)時(shí)間滑動(dòng)窗口定義頻繁詞集的時(shí)序趨勢(shì)度,提出一種基于時(shí)序詞頻的微博文本特征選擇,并采用選擇的時(shí)序趨勢(shì)頻繁詞集劃分微博的初始話題簇;為了更精準(zhǔn)地消除初始簇間的文本重疊,采用知網(wǎng)的中文語(yǔ)義相似度模型,根據(jù)最大語(yǔ)義隸屬度原則分離各個(gè)初始的話題簇;最后,通過(guò)定義簇間語(yǔ)義相似度矩陣,完成微博話題簇的凝聚式層次聚類,根據(jù)參考優(yōu)化得到最終的話題簇,并實(shí)現(xiàn)話題檢測(cè)與跟蹤。
微博文本有異于普通文本,它的時(shí)序特性表明所有的微博都是沿時(shí)間軸展開(kāi),具有先后順序,若對(duì)時(shí)間軸設(shè)置一個(gè)時(shí)間窗口,則可將所有的微博分散到不同的時(shí)間窗口中,得到基于時(shí)間滑動(dòng)窗口的微博集合。因此,可從時(shí)序角度考慮微博詞匯的特征選擇。
定義1 趨勢(shì)基數(shù)。
將某個(gè)特征詞T在第個(gè)時(shí)間滑動(dòng)窗口內(nèi)的趨勢(shì)基數(shù)BT定義為該詞匯在之前連續(xù)的個(gè)時(shí)間滑動(dòng)窗口內(nèi)出現(xiàn)頻率的平均值(這里的定義為時(shí)間窗口參數(shù),且當(dāng)≤時(shí),取?1)
定義2 趨勢(shì)增長(zhǎng)率。
記某個(gè)特征詞T的趨勢(shì)基數(shù)為BT,在第個(gè)時(shí)間滑動(dòng)窗口內(nèi)出現(xiàn)的頻率為TF,定義T在第個(gè)時(shí)間滑動(dòng)窗口內(nèi)的趨勢(shì)增長(zhǎng)率為
定義3 時(shí)序趨勢(shì)度。
特征詞的話題趨勢(shì)與它的趨勢(shì)增長(zhǎng)率及趨勢(shì)基數(shù)成正比,因此定義微博話題頻繁詞集時(shí)序趨勢(shì)度的計(jì)算公式為
定義4 對(duì)文本集中某個(gè)項(xiàng)集,若項(xiàng)集在中出現(xiàn)的次數(shù)大于一個(gè)預(yù)設(shè)的比例,則稱是文本集上的頻繁項(xiàng)集,這個(gè)預(yù)設(shè)比例稱作最小支持度。
定義5 對(duì)文本集的某個(gè)趨勢(shì)詞集,若在中的支持度()≥,則稱趨勢(shì)詞集是文本集上的頻繁趨勢(shì)詞集,為全局最小支持度。
本文采用關(guān)聯(lián)分析中廣泛使用的頻繁集挖掘算法Apriori來(lái)計(jì)算挖掘頻繁趨勢(shì)詞集,執(zhí)行如下步驟:1) 掃描文本集,利用詞頻趨勢(shì)度統(tǒng)計(jì)候選項(xiàng)集出現(xiàn)的次數(shù),收集滿足最小支持度設(shè)定的項(xiàng)集,記為頻繁項(xiàng)集;2) 利用產(chǎn)生的頻繁-項(xiàng)集構(gòu)造強(qiáng)關(guān)聯(lián)規(guī)則,利用頻繁-項(xiàng)集構(gòu)造候選(+1)-項(xiàng)集,反復(fù)迭代直至候選(+1)-項(xiàng)集為空。
頻繁趨勢(shì)詞集可較好地描述微博中隱含的話題信息,本文利用頻繁趨勢(shì)詞集劃分構(gòu)造初始簇,即將包含某頻繁趨勢(shì)詞集的微博都劃分為一個(gè)簇,得到基于頻繁趨勢(shì)詞集的初始簇。
定義6 若一個(gè)時(shí)序詞匯特征項(xiàng)集在初始簇所含的微博集中出現(xiàn)的比例超過(guò)一個(gè)預(yù)設(shè)的最小比例,就稱此時(shí)序特征項(xiàng)集是簇時(shí)序頻繁項(xiàng)集,這個(gè)預(yù)設(shè)的最小比例被記作簇最小支持度。
由于簇時(shí)序頻繁項(xiàng)集是指那些在聚類簇中出現(xiàn)頻率較高的核心詞匯,這些核心詞匯在一定層度上代表了這個(gè)聚類簇所描述話題的隱含語(yǔ)義,可以通過(guò)抽取各個(gè)初始簇的簇時(shí)序頻繁項(xiàng)集來(lái)代表這個(gè)初始簇的話題語(yǔ)義信息。
由于話題檢測(cè)的目標(biāo)是將每條微博歸屬到一個(gè)話題簇中,因此還需要設(shè)計(jì)初始簇間重疊部分的消減算法,結(jié)合微博短文本的特點(diǎn),將重疊的微博最終分配給最合適的初始簇。
定義7 若微博doc被分配到初始簇C中,則稱微博doc支持簇C。
定義8 記D和D是支持簇C和C的所有微博的集合,且D∩D≠,即簇C和C間存在共享的微博,則稱簇C和C存在簇間重疊。進(jìn)一步地,記簇間重疊的微博集合為C,這里的={C,C},^=D∩D。
定義9 微博話題語(yǔ)義隸屬度。
本文將微博doc對(duì)初始簇C的話題語(yǔ)義隸屬度函數(shù)定義為
基于微博語(yǔ)義隸屬度的初始簇重疊消減算法的具體描述如下。
2) 初始化一個(gè)二維數(shù)組向量:={,}
3) FOR eachfrom 1 to
8) add <doc,> to
9) ELSEIF≥ofdoc∈
10) update <doc,> to
11) ELSE
12) deletedocfromC
13) ENDIF
15) ENDFOR
16) ENDFOR
17) ENDFOR
該算法的復(fù)雜度為(),即僅需對(duì)所有重疊初始簇中的微博文本掃描一遍即可消減所有初始簇之間的重疊,最后,刪除初始簇分離后大小為0的空簇,就可得到非空的候選話題簇。
通過(guò)初始簇間重疊消減可得到微博聚類話題檢測(cè)的候選話題簇,但有時(shí)這些話題簇都可歸屬于某一個(gè)大話題,因此,有必要再對(duì)候選話題簇進(jìn)行凝聚式層次聚類,合并話題簇以縮減大話題數(shù)目,為用戶提供更聚焦的微博熱點(diǎn)話題。
為合并候選話題簇,首先需度量2個(gè)候選話題簇之間的相似性。由于候選話題簇由大量微博文本組成,為保證凝聚式層次聚類的效率,應(yīng)避免讓候選話題簇中所有微博文本參與相似性度量的計(jì)算,因此,本文選擇候選話題簇中的主要頻繁特征詞集構(gòu)成簇的特征向量,用該特征向量表示候選話題簇。
定義10 簇特征向量。
定義11 簇相似度矩陣。
表1 話題簇CTi和CTj的簇語(yǔ)義相似度矩陣
定義12 話題簇語(yǔ)義相似度。
為避免過(guò)多非關(guān)鍵特征詞對(duì)簇間語(yǔ)義相似度的噪音,僅選取相似度矩陣中語(yǔ)義相似度最大的組特征項(xiàng)對(duì)候選話題簇之間的相似度進(jìn)行計(jì)算,記為,并將候選話題簇之間的語(yǔ)義相似度定義為
基于候選話題簇的語(yǔ)義相似度,采用表示2個(gè)簇合并時(shí)設(shè)定的簇語(yǔ)義相似度的最小閾值,表示話題簇凝聚后期望得到的最少簇?cái)?shù)目,給出話題簇凝聚式層次聚類方法的操作步驟如下。
1) 抽取各個(gè)候選話題簇的特征向量,計(jì)算候選話題簇的語(yǔ)義相似度。
2) 構(gòu)建候選話題簇的語(yǔ)義相似度矩陣,由簇相似度的定義可知,即該相似度矩陣為一個(gè)對(duì)稱矩陣。
5) 若簇間語(yǔ)義相似度矩陣的行數(shù)或列數(shù)小于等于預(yù)設(shè)的最小簇?cái)?shù)目,執(zhí)行6);否則,聚類尚未結(jié)束,重新回到3)。
6) 凝聚式層次聚類結(jié)束,得到最終的話題聚類簇。
由于目前尚沒(méi)有公開(kāi)的中文微博話題檢測(cè)Benchmark語(yǔ)料集,本文自主采集了新浪微博數(shù)據(jù)展開(kāi)實(shí)驗(yàn)分析。鑒于話題具有群體屬性,聚焦了浙江工業(yè)大學(xué)微群里的9 015位新浪微博用戶,通過(guò)官方提供的Open API定向抓取分析了這些用戶在2012年7月20日至2012年8月30日期間發(fā)布的所有微博,總計(jì)495 026條。
盡管Open API抓取的微博是較完整的結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)分析前仍需對(duì)微博文本進(jìn)行一系列的預(yù)處理,主要包括中文分詞及詞性標(biāo)注、停用詞過(guò)濾、詞性選擇和特征選擇等步驟。本文采用中科院的ICTCLAS(institute of computing technology, chinese lexical analysis system)系統(tǒng),通過(guò)分詞算法標(biāo)注的詞性,選擇話題描述性較強(qiáng)的名詞、動(dòng)詞或形容詞作為文本特征,直接降低文本詞匯特征的維度。
最后,在采用本文提出的微博話題檢測(cè)方法之前,還需進(jìn)一步執(zhí)行如3.2節(jié)所述的基于時(shí)序詞頻的微博特征詞匯選擇。
為了評(píng)估聚類算法的效果與性能,本文對(duì)抓取的微博進(jìn)行篩選和話題人工標(biāo)注,得到手工標(biāo)注的10個(gè)話題類別,總計(jì)13 356條微博,話題標(biāo)注情況如表2所示。
表2 手工標(biāo)注的10個(gè)話題類別分布情況
不失一般性,本文采用純度和值2個(gè)指標(biāo)客觀評(píng)價(jià)聚類效果。一般來(lái)說(shuō),聚類結(jié)果的純度越大,聚類的效果越好;聚類結(jié)果的值越大,聚類的效果就越好。
1) 聚類算法的參數(shù)分析
簇最小支持度的大小直接影響初始簇在特征提取階段所得的簇特征數(shù)量,并進(jìn)一步影響簇間重疊部分的微博對(duì)初始簇的話題語(yǔ)義隸屬度計(jì)算,最終影響初始簇間重疊的分離效果。
為了分析參數(shù)的選擇效果,首先將人工標(biāo)注的10個(gè)類別的簇隨機(jī)分為2組,各含5個(gè)人工標(biāo)注簇,分別記為“#PartI”和“#PartII”(隨機(jī)獲得10組不同的#PartI和#PartII);選擇不同的簇最小支持度,不同對(duì)聚類結(jié)果平均值的影響如圖3所示。由測(cè)試結(jié)果知,當(dāng)簇最小支持度取0.5~0.6時(shí),可獲得較好的聚類效果。
在凝聚式層次聚類中,為候選話題簇間相似度的最小閾值,當(dāng)所有的簇間相似度都小于時(shí),話題合并終止;由實(shí)驗(yàn)結(jié)果可知,當(dāng)取0.6~0.7時(shí)可獲得最好的聚類效果,如圖4所示。
2) TS-FIHC與FIHC的效果比較
分別抽取人工標(biāo)注話題中的2個(gè)、4個(gè)、6個(gè)、8個(gè)和10個(gè)標(biāo)注話題共5組話題數(shù)據(jù)作為測(cè)試基準(zhǔn),比較本文提出的TS-FIHC算法和FIHC算法聚類的純度和值,結(jié)果分別如圖5和圖6所示。其中,TS-FIHC算法采用TS-FIHC-代表頻繁-項(xiàng)集(=1,2,3,4)。
由實(shí)驗(yàn)結(jié)果可知,由于改進(jìn)的TS-FIHC方法考慮了文本語(yǔ)義,使初始簇的分離和候選話題簇的合并更加合理,因而獲得了比FIHC更好的純度和-值。另一方面,所有TS-FIHC_1的聚類效果也優(yōu)于TS-FIHC_,同時(shí),TS-FIHC_1算法可避免對(duì)頻繁-項(xiàng)集的挖掘,大大降低了算法開(kāi)銷。
為了進(jìn)一步比較本文提出的TS-FIHC與FIHC在微博增量處理環(huán)境下的聚類效果,圖7給出了在處理10 000~100 000條不同微博數(shù)量時(shí),2種聚類方法的值效果趨勢(shì)。分析結(jié)果表明,TS-FIHC隨著微博樣本數(shù)量的增加,聚類效果有明顯的增強(qiáng),而FIHC則基本保持不變。
3) TS-FIHC與FIHC的性能比較
下面實(shí)驗(yàn)分析TS-FIHC_較FIHC的性能優(yōu)勢(shì)。繼續(xù)使用抽取人工標(biāo)注話題中的2個(gè)、4個(gè)、6個(gè)、8個(gè)和10個(gè)標(biāo)注話題共5組話題數(shù)據(jù)作為測(cè)試基準(zhǔn),分別計(jì)算TS-FIHC_和FIHC執(zhí)行聚類算法的時(shí)間消耗(Intel Core i3, 3.2 GHz, 2 GB RAM),結(jié)果如圖8所示。由實(shí)驗(yàn)結(jié)果知,與FIHC算法相比,TS-FIHC_1由于減少了初始簇的數(shù)目,具有明顯的性能提升。
為了進(jìn)一步測(cè)試TS-FIHC聚類性能對(duì)微博樣本處理數(shù)量的擴(kuò)展性,圖9給出了在處理10 000~ 100 000條不同微博文本時(shí),TS-FIHC與各種聚類算法的性能擴(kuò)展性比較。實(shí)驗(yàn)結(jié)果表明,TS-FIHC具有較高的對(duì)樣本增量運(yùn)算的適應(yīng)性,適合大規(guī)模海量微博數(shù)據(jù)的分析。
為了評(píng)估聚類方法對(duì)微博熱點(diǎn)話題的檢測(cè)效果,本文手工標(biāo)記了2012年8月15日的熱門話題作為參照對(duì)象,采用TS-FIHC方法檢測(cè)出話題簇,并抽取話題簇的描述特征。將最終聚類得到的Top-10話題簇與標(biāo)注的熱門話題進(jìn)行對(duì)比,其結(jié)果如表3所示。
表3 2012年8月15日的話題檢測(cè)評(píng)估
通過(guò)比較表3中標(biāo)注話題和Top-10話題簇,可以看出,本文方法TS-FIHC有效檢測(cè)出指定時(shí)間段的微博熱點(diǎn)話題,并且從話題簇中抽取的簇特征基本上描述了話題簇的主要內(nèi)容,使話題簇具有較好的可理解性。
下面進(jìn)一步驗(yàn)證話題跟蹤的效果。例如,圖10給出了2012年7月20日至2012年8月20日1個(gè)月期間,{倫敦奧運(yùn)}、{周克華}、{釣魚(yú)島}3個(gè)熱門話題的發(fā)展趨勢(shì),從關(guān)鍵的時(shí)間點(diǎn)可見(jiàn),話題曲線的發(fā)展趨勢(shì)與社會(huì)事件的實(shí)際情況基本相符。
本文針對(duì)中文微博內(nèi)容開(kāi)展熱點(diǎn)話題檢測(cè)研究,將話題檢測(cè)問(wèn)題歸結(jié)為短文本聚類問(wèn)題,提出了一種系統(tǒng)的解決方案:1) 利用微博話題的時(shí)序特性,提出面向微博頻繁特征詞的話題趨勢(shì)性相關(guān)度量;2) 針對(duì)初始簇間的微博重疊問(wèn)題,提出一種基于語(yǔ)義隸屬度劃分的初始簇重疊消減算法,克服微博短文本語(yǔ)義表達(dá)簡(jiǎn)短及形式多樣化等引起的話題二義性問(wèn)題;3) 通過(guò)定義初始簇間的語(yǔ)義相似度,給出一種面向微博話題的凝聚式層次聚類方法,可實(shí)現(xiàn)話題檢測(cè)與跟蹤;4) 通過(guò)真實(shí)的微博數(shù)據(jù)分析實(shí)驗(yàn),驗(yàn)證本文方法的有效性。
由于微博熱點(diǎn)話題的獨(dú)特性,話題檢測(cè)仍面臨諸多問(wèn)題值得進(jìn)一步深究:1) 由于《知網(wǎng)》語(yǔ)義庫(kù)詞匯量有限,詞匯間的相似度不能隨話題的不同而動(dòng)態(tài)變化,因此,可進(jìn)一步挖掘統(tǒng)計(jì)微博詞匯的共現(xiàn)情況,研究基于詞匯共現(xiàn)狀況的動(dòng)態(tài)語(yǔ)義相似度計(jì)算方法;2) 并非所有的微博都僅討論一個(gè)話題,有些微博可能將多個(gè)話題串聯(lián),即一條微博可能同時(shí)屬于多個(gè)話題,因此,值得進(jìn)一步研究一些軟聚類的方法來(lái)擴(kuò)展微博話題檢測(cè);3)通過(guò)聚類獲得的話題簇通常還隱含較多潛在信息,但這些隱含的信息不易被直接發(fā)現(xiàn),因此,可進(jìn)一步研究可視化方法來(lái)展現(xiàn)話題簇之間的相互聯(lián)系,直觀輔助話題檢測(cè)。
[1] ALLAN J. Topic detection and tracking: event-based information organization[M]. Kluwer Academic Publisher, 2002.
[2] NIST. The 2003 topic detection and tracking task definition and evaluation plan[EB/OL]. http://www.nist.gov/speech/tests.tdt/tdt2003/ evalplan.html.
[3] ALLAN J, CARBONELL J, DODINGTON G, et al. Topic detection and tracking pilot study: final report[C]//The Darpa Broadcast News Transcription and Understanding Workshop .c2000:194-218.
[4] WAYNE C. Multilingual topic detection and tracking: successful research enabled by corpora and evaluation[C]//The Language Resources and Evaluation Conference. c2000:1487-1494.
[5] 駱衛(wèi)華, 于滿泉, 許洪波, 等. 基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J]. 中文信息學(xué)報(bào), 2006, 20(1): 29-36.
LUO W H, YU M Q, XU H B, et al. The study of topice detection based on algorithm of division and multilevel clustering with multistrategy optimization[J]. Journal of Chinese Information Processing, 2006, 20(1):29-36.
[6] 賈自艷, 何清, 張俊海, 等. 一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2004, 41(7): 1273-1280.
JIA Z Y, HE Q, ZHANG J H, et al. A new event detection and tracking algorithm based on dynamic evolution model[J]. Journal of Computer Research and Development, 2004, 41(7):1273-1280.
[7] YAMRON J P, KNECHT S, MULBREGT P V. Dragon’s tracking and detection systems for the tdt2000 evaluation[C]//TopicThe Detection and Tracking Workshop. c2000: 75-80.
[8] DAI X Y, CHEN Q C, WANG X L, et al. Online topic detection and tracking of financial news based on hierarchical clustering[C]// 2010 International Conference on Machine Learning and Cybernetics. c2010: 3341-3346.
[9] 張闊,李涓子,吳剛, 等. 基于關(guān)鍵詞元的話題內(nèi)事件檢測(cè)[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(2): 245-252.
ZHANG K, LI J Z, WU G, et al. Word committee based event identification[J]. Journal of Computer Research and Development, 2009, 46(2):245-252.
[10] 洪宇, 倉(cāng)玉, 姚建民, 等. 話題跟蹤中靜態(tài)和動(dòng)態(tài)話題模型的核捕捉衰減[J]. 軟件學(xué)報(bào), 2012, 23(5):1100-1119
HONG Y, CANG Y, YAO J M, et al. Descending kernel track of static and dynamic topic models in topic tracking[J]. Journal of Software, 2012, 23(5):1100-1119.
[11] 張小明, 李舟軍, 巢文涵. 基于增量型聚類的自動(dòng)話題檢測(cè)研究[J]. 軟件學(xué)報(bào), 2012, 23(6): 1578-1587.
ZHANG X M, LI Z J, CHAO W H. Research of automatic topic detection based on incremental clustering[J]. Journal of Software, 2012, 23(6): 1578-1587.
[12] SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake shakes twitter user: real-time event detection by social sensors[C]//The 19th International Conference on World Wide Web. c2010: 851-861.
[13] PHUVIPADAWAT S, MURATA T. Breaking news detection and tracking in twitter[C]//2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology(WI-IAT). c2010:120-123.
[14] CATALDI M, CARO L D, SCHIFANELLA C. Emerging topic detection on twitter based on temporal and social terms evaluation[C]//The 10th International Workshop on Multimedia Data Mining. c2010: 1-10.
[15] 路榮, 項(xiàng)亮, 劉明榮, 等. 基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[J]. 模式識(shí)別與人工智能, 2012, 3: 382-387.
LU R, XIANG L, LIU M R, et al. Extracting news topics from microblogs based on hidden topics analysis and text clustering[J]. Pattern Recognition and Artificial Intelligence, 2012, 3:382-387.
[16] 王永恒. 海量短語(yǔ)信息挖掘技術(shù)的研究和實(shí)現(xiàn)[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué). 2006.
WANG Y H. Research and implementation of information mining on massive short messages[D]. Changsha: National University of Defense Technology. 2006.
[17] GABRILOVICH E. Feature generation for textual information retrieval using world knowledge[J]. ACM SIGIR Forum, 2007, 41(2): 123.
[18] BAGHEL R, DHIR R. Text document clustering based on frequent concepts[C]//2010 1st International Conference on Parallel, Distributed and Grid Computing (PDGC). c2010: 366-371.
[19] ZELIKOVITZ S. Transductive LSI for short text classification problems[C]//The 17th International FLAIRS Conference. c2004.
[20] BEIL F, ESTER M, XU X. Frequent term-based text clustering[C]//The 8th ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. c2002: 436-442.
[21] LI Y J, CHUNG S M, HOLT J D. Text document clustering based on frequent word meaning sequences[C]//Data & Knowledge Engineering . c2008: 381-404.
[22] FUNG B C M, WANG K, ESTER M. Hierarchical document clustering using frequent itemsets[C]//The Siam International Conference on Data Mining, San Francisco. c2003.
[23] 許云, 樊孝忠, 張鋒. 基于《知網(wǎng)》的語(yǔ)義相似度計(jì)算[J]. 北京理工大學(xué)學(xué)報(bào), 2005, 25(5): 411-414.
XU Y, FAN X Z, ZHANG F. Semantic relevancy computing based on hownet[J]. Transactions of Beijing Institute of Technology, 2005, 25(5):411-414.
Time series and semantics-based chinese microblog topic detection and tracking method
CHEN Tie-ming, WANG Xiao-hao, PANG Wei-wei, JIANG Jie
(College of Computer Science & Technology, Zhejiang University of Technology, Hangzhou 310023, China)
As a widely used tool in social networks, microblog is definitely with short document, quick broadcasting and topic changeable, which results in big challenging for social topic detection and tracking. A new systematic framework for micro-blog topic detection and tracking was proposed based on the microblog clustering using temporal trend and semantic similarity. Firstly, a feature words selection method for hot topics was presented by defining the temporal frequent words set. Secondly, an initially clustering was conducted depending on the selected temporal frequent words set. As far as the overlaps between initial clusters concerned, an effective overlap elimination algorithm was proposed, by introducing the extended short document semantic membership, to separate any possible overlapped initial clusters. Finally, an aggregated topic clustering method was employed using the cluster semantic similarity matrix. The experiments were at last done on some real-world dataset from Sina microblog. It show that the method for chinese microblog topic detection and tracking can obtain excellent performance and results.
microblog text, frequent words, feature selection, clustering, topic detection, time series, semantics
The National Natural Science Foundation of China (No.U1509214), The Natural Science Foundation of Zhejiang Province (No.LY16F020035)
TP301
A
10.11959/j.issn.2096-109x.2016.00048
2016-03-17;
2016-04-27。
陳鐵明,tmchen@zjut.edu.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.U1509214);浙江省自然科學(xué)基金資助項(xiàng)目(No.LY16F020035)
陳鐵明(1978-),男,浙江諸暨人,博士,浙江工業(yè)大學(xué)教授,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。
王小號(hào)(1981-),男,浙江新昌人,浙江工業(yè)大學(xué)講師,主要研究方向?yàn)樾畔踩?/p>
龐衛(wèi)?。?989-),男,浙江紹興人,浙江工業(yè)大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)安全與本文挖掘。
江頡(1972-),女,浙江平湖人,博士,浙江工業(yè)大學(xué)副教授,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全。