王路路,鄭濤,程倩倩,姬東鴻
武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072
基于語(yǔ)義共現(xiàn)圖的中文微博新聞話題識(shí)別
王路路,鄭濤,程倩倩,姬東鴻
武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072
提出一種在大規(guī)模微博短文本數(shù)據(jù)集中自動(dòng)發(fā)現(xiàn)新聞話題的方法。該方法在微博數(shù)據(jù)預(yù)處理之后,綜合TF-IDF、文檔頻率增長(zhǎng)率和命名實(shí)體識(shí)別等幾個(gè)因素抽取微博數(shù)據(jù)中的主題詞。根據(jù)主題詞之間的語(yǔ)義關(guān)系來(lái)構(gòu)建主題詞的語(yǔ)義共現(xiàn)圖,計(jì)算出語(yǔ)義共現(xiàn)圖的連通子圖,把每個(gè)不連通的簇集看成一個(gè)新聞話題。在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)現(xiàn)了對(duì)微博中新聞話題的識(shí)別。該方法能較好檢測(cè)出當(dāng)前時(shí)間的熱門(mén)話題,能夠在一定程度上有效地避免錯(cuò)誤傳播,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
微博;主題詞;語(yǔ)義共現(xiàn)圖;新聞話題識(shí)別
微博客(微博)是一個(gè)基于用戶關(guān)系的信息分享、傳播及其獲取平臺(tái)。用戶可以通過(guò)Web、Wap以及各種客戶端組建個(gè)人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)及時(shí)分享。隨著互聯(lián)網(wǎng)的快速發(fā)展,微博改變了人們獲取信息的方式,能夠讓普通網(wǎng)民更快更準(zhǔn)確地了解當(dāng)前的社會(huì)動(dòng)態(tài)。如何從海量微博數(shù)據(jù)中檢測(cè)出當(dāng)前的熱門(mén)新聞話題,對(duì)于輿情監(jiān)控、民意調(diào)查、行業(yè)調(diào)研等都有著十分重要的意義。
微博具有傳播快、數(shù)量大、語(yǔ)言簡(jiǎn)練等特點(diǎn),對(duì)輿情分析提出了更高的要求。如何對(duì)微博文本進(jìn)行分析、聚類,是發(fā)現(xiàn)熱點(diǎn)話題的關(guān)鍵,很多研究者在這方面做了嘗試:閆瑞等[1]提出了一種面向短文本的動(dòng)態(tài)組合分類算法,獲得了較好的準(zhǔn)確率和召回率。彭澤映等[2]提出了一種大規(guī)模短文本的不完全聚類算法,可以有效地提高短文本的聚類性能。Liu等[3]提出了一種基于part-ofspeech和How Net的方法來(lái)擴(kuò)展詞匯的詞義特征,增加文本特征向量的維度,進(jìn)而改進(jìn)聚類效果。王樂(lè)等[4]針對(duì)即時(shí)短語(yǔ)消息關(guān)鍵詞數(shù)量少甚至是隱藏的這一特性,提出了WR-KMeans短語(yǔ)消息聚類方法。
微博短文本用詞精煉,敘事簡(jiǎn)潔,傳統(tǒng)的基于詞共現(xiàn)的聚類算法[5-8]忽視了微博的語(yǔ)義關(guān)系,不能達(dá)到很好的聚類效果,從而難以識(shí)別出微博中描述的熱門(mén)話題。鑒于微博文本的短小和主題詞分布的稀疏性,基于模型的話題識(shí)別方法[9-12]訓(xùn)練周期較長(zhǎng)、數(shù)據(jù)標(biāo)注困難,很難達(dá)到滿意的準(zhǔn)確率。如何計(jì)算微博之間的語(yǔ)義關(guān)系,對(duì)微博文本進(jìn)行語(yǔ)義層面的聚類,是微博話題識(shí)別的一個(gè)大膽嘗試。例如,有如下兩條微博:
(1)噢,本來(lái)我工資不高,可這個(gè)月餅貴,所以我繳納了月餅稅~
(2)中秋將至,不少單位把月餅當(dāng)做福利發(fā)給員工。今日,地稅部門(mén)也接到市民電話咨詢企業(yè)發(fā)放月餅及其代金券給員工,應(yīng)該如何代扣個(gè)人所得稅。
上述兩條微博相似度較高,因此可以將之劃分為同一類別。但是從字符串角度判斷除了共有的一個(gè)詞“月餅”,很難判斷兩條微博屬于同一類別。
在實(shí)驗(yàn)過(guò)程中,還發(fā)現(xiàn)傳統(tǒng)的基于詞共現(xiàn)的聚類算法很容易導(dǎo)致“錯(cuò)誤傳播”。例如,一個(gè)微博話題描述“章子怡出席電影節(jié)”,其相關(guān)的主題詞為:[章子怡、上海、電影節(jié)、紅毯];另一個(gè)微博話題描述“章子怡和汪峰密戀”,其相關(guān)的主題詞為:[章子怡、汪峰、紐約、酒店、密戀]。由于詞“章子怡”在兩個(gè)話題中出現(xiàn)的頻率都很高,基于詞共現(xiàn)的聚類算法很難區(qū)分這兩個(gè)微博話題。
針對(duì)微博數(shù)據(jù)稀疏性、實(shí)時(shí)性、不規(guī)范性的特點(diǎn),本文提出了一種語(yǔ)義共現(xiàn)圖模型。首先將微博短文本按照特定的時(shí)間窗口進(jìn)行劃分,綜合TF-IDF,主題詞文檔頻率增長(zhǎng)率和命名實(shí)體等因素,來(lái)提取主題詞。然后構(gòu)建了一個(gè)語(yǔ)義集合,把微博主題詞進(jìn)行語(yǔ)義層面的聚類,從而識(shí)別出新聞話題。實(shí)驗(yàn)表明,本文中的方法能夠降低“錯(cuò)誤傳播”發(fā)生的概率,比較準(zhǔn)確地識(shí)別新聞話題。
2.1 方法思想和基本框架
從大規(guī)模的短文本微博客中識(shí)別新聞話題,需要克服兩個(gè)難點(diǎn):(1)如何從短文本中提取有效的能直接反映話題內(nèi)容的主題詞;(2)如何對(duì)主題詞準(zhǔn)確聚類,以便發(fā)現(xiàn)新聞話題。
本文提出的方法框架可以用圖1來(lái)表示。
圖1 微博中發(fā)現(xiàn)新聞話題的整體框架圖
下面將依次介紹上面提出的3個(gè)步驟。
2.2 數(shù)據(jù)預(yù)處理
在進(jìn)行主題詞抽取之前,首先用中科院張華平等開(kāi)發(fā)的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[13]的分詞工具進(jìn)行分詞,然后進(jìn)行詞性過(guò)濾、停用詞過(guò)濾等。預(yù)處理之后便可對(duì)得到的文本數(shù)據(jù)抽取主題詞。預(yù)處理的過(guò)程如圖2所示。
圖2 預(yù)處理過(guò)程
2.3 主題詞的抽取
(1)TF-IDF
一個(gè)與話題相關(guān)的主題詞,相對(duì)于其他詞匯,通常是非常熱門(mén)的,即主題詞出現(xiàn)的頻率相對(duì)較高。TF-IDF是一種統(tǒng)計(jì)方法,用于評(píng)估一字詞對(duì)于一個(gè)文件集或者一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要度。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類別區(qū)分能力。在微博數(shù)據(jù)集中TF可以衡量該微博描述新聞話題的廣泛性,而IDF可以衡量其典型性。本文中采用歸一化的TF-IDF函數(shù),將一個(gè)詞對(duì)新聞話題識(shí)別貢獻(xiàn)度進(jìn)行量化:
式中,Tij是詞匯i相對(duì)于文檔j的TF-IDF值,fij是詞匯i在j時(shí)間窗口的頻率,Docnumber是文檔數(shù)目,這里指有效的微博條數(shù)。dfij表示詞匯i在j時(shí)間窗口的文檔頻率。M為文檔j中包含的詞語(yǔ)個(gè)數(shù)。
(2)文檔頻率的增長(zhǎng)率
一個(gè)與話題相關(guān)的詞,在某個(gè)時(shí)間窗口內(nèi)出現(xiàn)的頻次會(huì)明顯增加,即主題詞在某個(gè)窗口內(nèi)相對(duì)于其之前窗口的頻次明顯增多。這種詞頻的變化率在一定程度上意味著它和當(dāng)前一些比較新的新聞話題關(guān)聯(lián)。文檔頻率增長(zhǎng)率能夠客觀衡量主題詞的典型性,因此本文使用文檔頻率增長(zhǎng)率進(jìn)行量化。
式中,Gij表示詞匯i在j時(shí)間窗口內(nèi)文檔頻率增加率,dfij表示詞匯i在j時(shí)間窗口內(nèi)的文檔頻率。
對(duì)微博數(shù)據(jù)進(jìn)行分詞,詞性過(guò)濾,詞頻過(guò)濾,命名實(shí)體標(biāo)注等預(yù)處理之后,有選擇地留下有意義的動(dòng)詞和名詞,并對(duì)名詞進(jìn)行更細(xì)粒度的劃分為時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等,在此基礎(chǔ)上考察TF-IDF和詞頻增加率兩個(gè)方面的復(fù)合權(quán)值來(lái)評(píng)價(jià)一個(gè)特征詞的權(quán)重W:
式中,Wij值表示特征詞的權(quán)重,權(quán)重越大說(shuō)明該詞匯是主題詞的概率越大;λ參數(shù)用來(lái)調(diào)節(jié)TF-IDF和詞頻增加率的比重關(guān)系。TF-IDF主要用來(lái)控制主題詞匯的廣泛性,文檔頻率增加率主要用來(lái)調(diào)節(jié)主題詞匯的典型性。
對(duì)每個(gè)時(shí)間窗口內(nèi)的詞計(jì)算其Wij值,按照閾值T選取出其中權(quán)值最大的特征詞得到一個(gè)主題詞表。根據(jù)主題詞表,就可以對(duì)這些主題詞進(jìn)行語(yǔ)義共現(xiàn)分析來(lái)構(gòu)建語(yǔ)義共現(xiàn)圖,進(jìn)而實(shí)現(xiàn)新聞話題識(shí)別。
2.4 微博新聞話題識(shí)別
2.4.1 主題詞共現(xiàn)圖的構(gòu)建
詞的共現(xiàn)分析是自然語(yǔ)言處理技術(shù)在信息檢索領(lǐng)域的成功應(yīng)用之一,它的核心思想是詞與詞之間的共現(xiàn)頻率在某種程度上反映了詞與詞之間的語(yǔ)義關(guān)聯(lián)。為了從理論上進(jìn)一步地闡述詞共現(xiàn)理論在微博新聞話題識(shí)別的原理,給出了下面的定義。
定義1詞匯x與詞匯y的共現(xiàn)度定義如下:
故有C(x,y)=C(y,x)。式中,f(x,y)為單位時(shí)間段窗口內(nèi)詞x與詞y在同一條微博中共同出現(xiàn)的次數(shù)。f(x)為詞x在單位時(shí)間段窗口內(nèi)出現(xiàn)的次數(shù)。
按照詞共現(xiàn)原理,當(dāng)2個(gè)主題詞經(jīng)常出現(xiàn)在同一條微博中,則可以認(rèn)為這兩個(gè)主題詞在意義上相互關(guān)聯(lián),表述同一個(gè)潛在的主題信息。計(jì)算每一對(duì)主題詞之間的共現(xiàn)度,得到一個(gè)詞共現(xiàn)度矩陣M:
式中,keyi表示由主題詞抽取算法抽取的第i個(gè)主題詞。C(keyi,keyj)是由公式(2)計(jì)算得到的主題詞的共現(xiàn)度。
考慮微博語(yǔ)義層面的相似度,計(jì)算任意兩個(gè)主題詞的語(yǔ)義相似度,得到主題詞語(yǔ)義相似度矩陣N:
式中,keyi表示由主題詞抽取算法抽取的第i個(gè)主題詞。S(keyi,keyj)是由參考文獻(xiàn)[16]的語(yǔ)義計(jì)算公式計(jì)算得到的主題詞的語(yǔ)義相似度。
2.4.2 微博新聞話題識(shí)別
為了提升主題詞聚類的效果,進(jìn)而引入集合的概念。為此把矩陣M、N每行均按照公式(5)做歸一化處理得到矩陣M',N'。
其中Yij為歸一化之后的值,Xij為矩陣M和N中的元素第i行和第j列的元素,mini、maxi分別為矩陣M和N中第i行的最小值和最大值。
在聚類之前,根據(jù)矩陣M'和N'為每一個(gè)主題詞抽取了共現(xiàn)度最高的k個(gè)詞構(gòu)成該主題詞的候選語(yǔ)義集合,標(biāo)記為KEYi={ki1,ki2,…,kik}。k值的大小直接影響主題詞聚類的效果,從而調(diào)控“錯(cuò)誤傳播”發(fā)生的概率。k值過(guò)大會(huì)造成本來(lái)不屬于同一語(yǔ)義集合的詞匯信息也融入到計(jì)算中,會(huì)使實(shí)驗(yàn)結(jié)果產(chǎn)生一定的偏差;k值太小會(huì)漏掉同一語(yǔ)義集合中詞匯的信息,從而造成實(shí)驗(yàn)結(jié)果精度缺失。k值由實(shí)驗(yàn)調(diào)參得到,本文中取k為4。
為描述方便,引入如下公式:
其中,Sim1描述兩個(gè)語(yǔ)義集合詞詞素共現(xiàn)的信息,Sim2描述兩個(gè)語(yǔ)義集合語(yǔ)義層面共現(xiàn)的信息。
語(yǔ)義集合更直觀、準(zhǔn)確地反映了兩個(gè)主題詞匯之間的語(yǔ)義關(guān)系,在本文中使用如下公式對(duì)主題詞進(jìn)行聚類:
即,第i個(gè)主題詞應(yīng)該歸入使上式最大化的主題詞j的集合KEYj。
最后根據(jù)矩陣M'和N',把同一語(yǔ)義集合內(nèi)的主題詞之間連邊,并把孤立點(diǎn)去除之后得到語(yǔ)義共現(xiàn)圖。共現(xiàn)圖中可能包含多個(gè)簇,也就意味著該時(shí)間窗口中包含多個(gè)熱點(diǎn)話題,簇的大小也直觀地反映了該話題的熱度。
本文提出的算法不是單純地考慮兩個(gè)主題詞之間的共現(xiàn)度,而是對(duì)微博進(jìn)行了語(yǔ)義計(jì)算,從而構(gòu)建語(yǔ)義共現(xiàn)圖。實(shí)驗(yàn)證明,本文采用的方法能夠有效地降低“錯(cuò)誤傳播”的風(fēng)險(xiǎn),提升主題詞匯聚類的正確率。
3.1 數(shù)據(jù)準(zhǔn)備
為了本文的研究,使用由武漢大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室共享的新浪微博話題檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集包括2013年4月16日到2013年4月24日,共9天約150萬(wàn)條的實(shí)時(shí)微博數(shù)據(jù)。除去停用詞之后,將長(zhǎng)度小于5的微博刪除,剩下的微博作為有效的微博。有效微博的分布情況如圖3。
圖3 有效微博文本分布圖
3.2 評(píng)測(cè)主題詞的抽取
為了評(píng)估主題詞的抽取效果,把2013-04-16到2013-04-24共9天的微博數(shù)據(jù)分成了9組(以天為單位),對(duì)該時(shí)間段內(nèi)的微博數(shù)據(jù)進(jìn)行人工標(biāo)注。該時(shí)間段內(nèi)微博熱議的主要新聞話題有“復(fù)旦投毒案”、“波士頓爆炸”、“黃金暴跌”、“雅安地震”等事件。對(duì)每個(gè)時(shí)間窗口中的數(shù)據(jù)按照前面所述的主題詞抽取算法進(jìn)行主題詞抽取,考慮到每天新聞話題的數(shù)量及其主題詞的分布,實(shí)驗(yàn)中設(shè)定閾值T為100,即權(quán)重最高的100個(gè)詞作為主題詞。為了評(píng)估主題詞抽取的質(zhì)量,人工計(jì)算該100個(gè)主題詞與當(dāng)前標(biāo)注的新聞話題相關(guān)的主題詞數(shù),最后求平均值。實(shí)驗(yàn)中λ依次從0.1取到0.9,比較λ對(duì)相關(guān)主題詞數(shù)的影響,如圖4所示。
圖4 λ對(duì)相關(guān)主題詞的影響
實(shí)驗(yàn)表明,當(dāng)λ取0.4時(shí),主題詞的抽取效果達(dá)到最佳,此時(shí)前100個(gè)主題詞中有64個(gè)是相關(guān)主題詞。
3.3 評(píng)測(cè)話題識(shí)別
為了評(píng)估主題詞聚類的效果,選取了若干熱門(mén)話題,u依次從0.1取到0.9,比較u對(duì)這些話題相關(guān)主題詞數(shù)的影響,如圖5所示。實(shí)驗(yàn)表明,當(dāng)u取0.6時(shí),主題詞的聚類效果達(dá)到最佳。
圖5 u對(duì)話題質(zhì)量的影響
圖6給出了本文方法抽取的4月26日的熱門(mén)話題,可以看出,本文方法不僅檢測(cè)出了熱門(mén)的新聞話題,“黃金暴跌”、“國(guó)防部公布海陸空力量”這樣的新聞話題也被檢測(cè)出來(lái),這說(shuō)明本文的方法具備一定的靈敏性,能夠識(shí)別出盡可能多的新聞話題。
圖6 主題詞共現(xiàn)圖
表1是若干天的實(shí)驗(yàn)結(jié)果(僅列出最熱門(mén)的一個(gè)話題)。從實(shí)驗(yàn)結(jié)果中可以看出,使用詞共現(xiàn)方法檢測(cè)的話題“波士頓爆炸”和“雅安地震”都存在“錯(cuò)誤傳播”。原因是波士頓爆炸期間襄樊某地發(fā)生了火災(zāi),爆炸案和火災(zāi)二者詞共現(xiàn)的頻率較高,但是二者沒(méi)有語(yǔ)義上的關(guān)聯(lián)。“雅安地震”話題的錯(cuò)誤傳播是由于巴基斯坦和雅安先后發(fā)生過(guò)地震,而二者屬于兩個(gè)不同的熱門(mén)話題。從對(duì)比實(shí)驗(yàn)可以看出,本文提出的基于語(yǔ)義共現(xiàn)的方法在一定程度上解決了“錯(cuò)誤傳播”的問(wèn)題,抽取出來(lái)的話題的質(zhì)量更高。
表1 若干天的熱門(mén)話題
微博熱點(diǎn)新聞話題的識(shí)別研究有著重要的應(yīng)用背景,本文提出了一種基于語(yǔ)義共現(xiàn)圖的微博新聞話題識(shí)別的方法。該方法通過(guò)預(yù)處理、抽取主題詞、構(gòu)建語(yǔ)義共現(xiàn)圖等步驟來(lái)識(shí)別微博新聞話題。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性、靈敏性。本文充分利用了微博主題詞之間的語(yǔ)義關(guān)系,從而能夠在一定程度上避免“錯(cuò)誤傳播”,較準(zhǔn)確地區(qū)分出當(dāng)前的熱門(mén)話題。
本文仍有可以改進(jìn)之處。一方面,分詞破壞了詞之間的語(yǔ)義關(guān)系,尤其對(duì)于微博這樣的短文本。避開(kāi)分詞,直接提取短語(yǔ)或者詞串能夠更直觀地反應(yīng)一個(gè)新聞話題。另一方面本文只考慮了新浪微博一個(gè)數(shù)據(jù)源,而熱門(mén)的新聞話題往往廣泛分布在不同的數(shù)據(jù)源中(比如騰訊微博、網(wǎng)易微博等)。整合多個(gè)數(shù)據(jù)源的信息,進(jìn)而進(jìn)行熱門(mén)話題的識(shí)別能夠保證話題的廣泛性和公正性,也是將來(lái)工作的方向。
[1]閆瑞,曹先彬,李凱.面向短文本的動(dòng)態(tài)組合分類算法[J].電子學(xué)報(bào),2009,37(5):1019-1024.
[2]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào),2011,25(1):54-59.
[3]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short text feature selection for microblog mining[C]//The 4th International Conference on Computational Intelligence and Software Engineer,Wuhan,China,2010:1-4.
[4]王樂(lè),田李,賈焰,等.擴(kuò)展向量空間上的短語(yǔ)消息聚類[J].計(jì)算機(jī)研究與發(fā)展,2007(2).
[5]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì),2010.
[6]Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property[J]. Journal of Networks,2013,8(4):917-923.
[7]Sun Q,Wang Q,Qiao H.The algorithm of short message hot topic detection based on feature association[J]. Information Technology Journal,2009,8:236-240.
[8]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.
[9]周振宇.基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究[D].上海:上海交通大學(xué),2013.
[10]聶恩倫,陳黎,王亞強(qiáng),等.基于K近鄰的新話題熱度預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,39(S6):257-260.
[11]趙愛(ài)華.面向網(wǎng)絡(luò)新聞的話題檢測(cè)技術(shù)研究[D].濟(jì)南:山東師范大學(xué),2013.
[12]林雪能,陳光,朱帥,等.基于語(yǔ)義框架的新聞話題檢測(cè)[EB/OL].(2012-12-27).http://www.paper.edu.cn/releasepaper/content/201212-1055.
[13]張華平,劉群.計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS[EB/OL].(2010-08-25).http://www.nlp.org.cn/project/project.php.
[14]Wartena C,Brussee R.Topic detection by clustering keywords[C]//19th International Workshop on Database and Expert Systems Application,2008:54-58.
[15]Chen K Y,Luesukprasert L,Chou S.Hot topic extraction based on timeline analysis and multidimensional sentence modeling[J].IEEE Transactions on Know ledge and Data Engineering,2007,19(8):1016-1025.
[16]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.
WANG Lulu,ZHENG Tao,CHENG Qianqian,JI Donghong
School of Computer,Wuhan University,Wuhan 430072,China
A method of new s topics detection from large-scale short posts of microblogs is proposed.The TF-IDF,the document frequency increase rate and the named entity recognition are considered to extract new keywords from microblogs after pretreatment.A semantic co-occurrence graph is build by co-occurrence degrees of keywords,each unconnected cluster in a semantic co-occurrence graph is taken as a new s topic.Experiments are taken on Sina microblogs data sets and the experimental results show the proposed method works well.
microblog;keywords;semantic co-occurrence graph;new s topic detection
WANG Lu lu,ZHENG Tao,CHENG Qianqian,et al.Discovering new s topics from microb logs based on semantic co-occurrence.Computer Engineering and Applications,2014,50(17):150-154.
A
TP391.1
10.3778/j.issn.1002-8331.1312-0102
國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(No.61133012);國(guó)家自然科學(xué)基金面上項(xiàng)目(No.61173062)。
王路路(1989—),男,碩士生,研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)挖掘、個(gè)性化推薦等;鄭濤(1992—),男,碩士生,研究領(lǐng)域?yàn)樾畔z索等;程倩倩(1989—),男,碩士生,研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等;姬東鴻(1968—),男,博士,博士生導(dǎo)師,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、語(yǔ)義網(wǎng)技術(shù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。E-mail:wang_uu89@163.com
2013-12-09
2014-01-07
1002-8331(2014)17-0150-05
能夠準(zhǔn)確地描述一個(gè)新聞話題,主題詞的抽取效果直接影響著新聞話題識(shí)別的效果。根據(jù)文獻(xiàn)[14-15],一般新聞話題中的主題詞有兩個(gè)重要的特性:(1)廣泛性,一個(gè)話題的出現(xiàn)的短期內(nèi),會(huì)引起大量的關(guān)注,從而與該話題相關(guān)的主題詞將廣泛分布在微博中;(2)典型性,新聞話題一般內(nèi)容新穎,之前很少出現(xiàn)相似的內(nèi)容,在某個(gè)特定時(shí)間段內(nèi)忽然出現(xiàn)。本文把TF-IDF和文檔頻率增長(zhǎng)率作為抽取主題詞的2個(gè)主要影響因素。