• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語(yǔ)義共現(xiàn)圖的中文微博新聞話題識(shí)別

    2014-07-08 08:32:38王路路鄭濤程倩倩姬東鴻
    關(guān)鍵詞:主題詞短文文檔

    王路路,鄭濤,程倩倩,姬東鴻

    武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072

    基于語(yǔ)義共現(xiàn)圖的中文微博新聞話題識(shí)別

    王路路,鄭濤,程倩倩,姬東鴻

    武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072

    提出一種在大規(guī)模微博短文本數(shù)據(jù)集中自動(dòng)發(fā)現(xiàn)新聞話題的方法。該方法在微博數(shù)據(jù)預(yù)處理之后,綜合TF-IDF、文檔頻率增長(zhǎng)率和命名實(shí)體識(shí)別等幾個(gè)因素抽取微博數(shù)據(jù)中的主題詞。根據(jù)主題詞之間的語(yǔ)義關(guān)系來(lái)構(gòu)建主題詞的語(yǔ)義共現(xiàn)圖,計(jì)算出語(yǔ)義共現(xiàn)圖的連通子圖,把每個(gè)不連通的簇集看成一個(gè)新聞話題。在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)現(xiàn)了對(duì)微博中新聞話題的識(shí)別。該方法能較好檢測(cè)出當(dāng)前時(shí)間的熱門(mén)話題,能夠在一定程度上有效地避免錯(cuò)誤傳播,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。

    微博;主題詞;語(yǔ)義共現(xiàn)圖;新聞話題識(shí)別

    1 引言

    微博客(微博)是一個(gè)基于用戶關(guān)系的信息分享、傳播及其獲取平臺(tái)。用戶可以通過(guò)Web、Wap以及各種客戶端組建個(gè)人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)及時(shí)分享。隨著互聯(lián)網(wǎng)的快速發(fā)展,微博改變了人們獲取信息的方式,能夠讓普通網(wǎng)民更快更準(zhǔn)確地了解當(dāng)前的社會(huì)動(dòng)態(tài)。如何從海量微博數(shù)據(jù)中檢測(cè)出當(dāng)前的熱門(mén)新聞話題,對(duì)于輿情監(jiān)控、民意調(diào)查、行業(yè)調(diào)研等都有著十分重要的意義。

    微博具有傳播快、數(shù)量大、語(yǔ)言簡(jiǎn)練等特點(diǎn),對(duì)輿情分析提出了更高的要求。如何對(duì)微博文本進(jìn)行分析、聚類,是發(fā)現(xiàn)熱點(diǎn)話題的關(guān)鍵,很多研究者在這方面做了嘗試:閆瑞等[1]提出了一種面向短文本的動(dòng)態(tài)組合分類算法,獲得了較好的準(zhǔn)確率和召回率。彭澤映等[2]提出了一種大規(guī)模短文本的不完全聚類算法,可以有效地提高短文本的聚類性能。Liu等[3]提出了一種基于part-ofspeech和How Net的方法來(lái)擴(kuò)展詞匯的詞義特征,增加文本特征向量的維度,進(jìn)而改進(jìn)聚類效果。王樂(lè)等[4]針對(duì)即時(shí)短語(yǔ)消息關(guān)鍵詞數(shù)量少甚至是隱藏的這一特性,提出了WR-KMeans短語(yǔ)消息聚類方法。

    微博短文本用詞精煉,敘事簡(jiǎn)潔,傳統(tǒng)的基于詞共現(xiàn)的聚類算法[5-8]忽視了微博的語(yǔ)義關(guān)系,不能達(dá)到很好的聚類效果,從而難以識(shí)別出微博中描述的熱門(mén)話題。鑒于微博文本的短小和主題詞分布的稀疏性,基于模型的話題識(shí)別方法[9-12]訓(xùn)練周期較長(zhǎng)、數(shù)據(jù)標(biāo)注困難,很難達(dá)到滿意的準(zhǔn)確率。如何計(jì)算微博之間的語(yǔ)義關(guān)系,對(duì)微博文本進(jìn)行語(yǔ)義層面的聚類,是微博話題識(shí)別的一個(gè)大膽嘗試。例如,有如下兩條微博:

    (1)噢,本來(lái)我工資不高,可這個(gè)月餅貴,所以我繳納了月餅稅~

    (2)中秋將至,不少單位把月餅當(dāng)做福利發(fā)給員工。今日,地稅部門(mén)也接到市民電話咨詢企業(yè)發(fā)放月餅及其代金券給員工,應(yīng)該如何代扣個(gè)人所得稅。

    上述兩條微博相似度較高,因此可以將之劃分為同一類別。但是從字符串角度判斷除了共有的一個(gè)詞“月餅”,很難判斷兩條微博屬于同一類別。

    在實(shí)驗(yàn)過(guò)程中,還發(fā)現(xiàn)傳統(tǒng)的基于詞共現(xiàn)的聚類算法很容易導(dǎo)致“錯(cuò)誤傳播”。例如,一個(gè)微博話題描述“章子怡出席電影節(jié)”,其相關(guān)的主題詞為:[章子怡、上海、電影節(jié)、紅毯];另一個(gè)微博話題描述“章子怡和汪峰密戀”,其相關(guān)的主題詞為:[章子怡、汪峰、紐約、酒店、密戀]。由于詞“章子怡”在兩個(gè)話題中出現(xiàn)的頻率都很高,基于詞共現(xiàn)的聚類算法很難區(qū)分這兩個(gè)微博話題。

    針對(duì)微博數(shù)據(jù)稀疏性、實(shí)時(shí)性、不規(guī)范性的特點(diǎn),本文提出了一種語(yǔ)義共現(xiàn)圖模型。首先將微博短文本按照特定的時(shí)間窗口進(jìn)行劃分,綜合TF-IDF,主題詞文檔頻率增長(zhǎng)率和命名實(shí)體等因素,來(lái)提取主題詞。然后構(gòu)建了一個(gè)語(yǔ)義集合,把微博主題詞進(jìn)行語(yǔ)義層面的聚類,從而識(shí)別出新聞話題。實(shí)驗(yàn)表明,本文中的方法能夠降低“錯(cuò)誤傳播”發(fā)生的概率,比較準(zhǔn)確地識(shí)別新聞話題。

    2 微博新聞話題識(shí)別

    2.1 方法思想和基本框架

    從大規(guī)模的短文本微博客中識(shí)別新聞話題,需要克服兩個(gè)難點(diǎn):(1)如何從短文本中提取有效的能直接反映話題內(nèi)容的主題詞;(2)如何對(duì)主題詞準(zhǔn)確聚類,以便發(fā)現(xiàn)新聞話題。

    本文提出的方法框架可以用圖1來(lái)表示。

    圖1 微博中發(fā)現(xiàn)新聞話題的整體框架圖

    下面將依次介紹上面提出的3個(gè)步驟。

    2.2 數(shù)據(jù)預(yù)處理

    在進(jìn)行主題詞抽取之前,首先用中科院張華平等開(kāi)發(fā)的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[13]的分詞工具進(jìn)行分詞,然后進(jìn)行詞性過(guò)濾、停用詞過(guò)濾等。預(yù)處理之后便可對(duì)得到的文本數(shù)據(jù)抽取主題詞。預(yù)處理的過(guò)程如圖2所示。

    圖2 預(yù)處理過(guò)程

    2.3 主題詞的抽取

    (1)TF-IDF

    一個(gè)與話題相關(guān)的主題詞,相對(duì)于其他詞匯,通常是非常熱門(mén)的,即主題詞出現(xiàn)的頻率相對(duì)較高。TF-IDF是一種統(tǒng)計(jì)方法,用于評(píng)估一字詞對(duì)于一個(gè)文件集或者一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要度。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類別區(qū)分能力。在微博數(shù)據(jù)集中TF可以衡量該微博描述新聞話題的廣泛性,而IDF可以衡量其典型性。本文中采用歸一化的TF-IDF函數(shù),將一個(gè)詞對(duì)新聞話題識(shí)別貢獻(xiàn)度進(jìn)行量化:

    式中,Tij是詞匯i相對(duì)于文檔j的TF-IDF值,fij是詞匯i在j時(shí)間窗口的頻率,Docnumber是文檔數(shù)目,這里指有效的微博條數(shù)。dfij表示詞匯i在j時(shí)間窗口的文檔頻率。M為文檔j中包含的詞語(yǔ)個(gè)數(shù)。

    (2)文檔頻率的增長(zhǎng)率

    一個(gè)與話題相關(guān)的詞,在某個(gè)時(shí)間窗口內(nèi)出現(xiàn)的頻次會(huì)明顯增加,即主題詞在某個(gè)窗口內(nèi)相對(duì)于其之前窗口的頻次明顯增多。這種詞頻的變化率在一定程度上意味著它和當(dāng)前一些比較新的新聞話題關(guān)聯(lián)。文檔頻率增長(zhǎng)率能夠客觀衡量主題詞的典型性,因此本文使用文檔頻率增長(zhǎng)率進(jìn)行量化。

    式中,Gij表示詞匯i在j時(shí)間窗口內(nèi)文檔頻率增加率,dfij表示詞匯i在j時(shí)間窗口內(nèi)的文檔頻率。

    對(duì)微博數(shù)據(jù)進(jìn)行分詞,詞性過(guò)濾,詞頻過(guò)濾,命名實(shí)體標(biāo)注等預(yù)處理之后,有選擇地留下有意義的動(dòng)詞和名詞,并對(duì)名詞進(jìn)行更細(xì)粒度的劃分為時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等,在此基礎(chǔ)上考察TF-IDF和詞頻增加率兩個(gè)方面的復(fù)合權(quán)值來(lái)評(píng)價(jià)一個(gè)特征詞的權(quán)重W:

    式中,Wij值表示特征詞的權(quán)重,權(quán)重越大說(shuō)明該詞匯是主題詞的概率越大;λ參數(shù)用來(lái)調(diào)節(jié)TF-IDF和詞頻增加率的比重關(guān)系。TF-IDF主要用來(lái)控制主題詞匯的廣泛性,文檔頻率增加率主要用來(lái)調(diào)節(jié)主題詞匯的典型性。

    對(duì)每個(gè)時(shí)間窗口內(nèi)的詞計(jì)算其Wij值,按照閾值T選取出其中權(quán)值最大的特征詞得到一個(gè)主題詞表。根據(jù)主題詞表,就可以對(duì)這些主題詞進(jìn)行語(yǔ)義共現(xiàn)分析來(lái)構(gòu)建語(yǔ)義共現(xiàn)圖,進(jìn)而實(shí)現(xiàn)新聞話題識(shí)別。

    2.4 微博新聞話題識(shí)別

    2.4.1 主題詞共現(xiàn)圖的構(gòu)建

    詞的共現(xiàn)分析是自然語(yǔ)言處理技術(shù)在信息檢索領(lǐng)域的成功應(yīng)用之一,它的核心思想是詞與詞之間的共現(xiàn)頻率在某種程度上反映了詞與詞之間的語(yǔ)義關(guān)聯(lián)。為了從理論上進(jìn)一步地闡述詞共現(xiàn)理論在微博新聞話題識(shí)別的原理,給出了下面的定義。

    定義1詞匯x與詞匯y的共現(xiàn)度定義如下:

    故有C(x,y)=C(y,x)。式中,f(x,y)為單位時(shí)間段窗口內(nèi)詞x與詞y在同一條微博中共同出現(xiàn)的次數(shù)。f(x)為詞x在單位時(shí)間段窗口內(nèi)出現(xiàn)的次數(shù)。

    按照詞共現(xiàn)原理,當(dāng)2個(gè)主題詞經(jīng)常出現(xiàn)在同一條微博中,則可以認(rèn)為這兩個(gè)主題詞在意義上相互關(guān)聯(lián),表述同一個(gè)潛在的主題信息。計(jì)算每一對(duì)主題詞之間的共現(xiàn)度,得到一個(gè)詞共現(xiàn)度矩陣M:

    式中,keyi表示由主題詞抽取算法抽取的第i個(gè)主題詞。C(keyi,keyj)是由公式(2)計(jì)算得到的主題詞的共現(xiàn)度。

    考慮微博語(yǔ)義層面的相似度,計(jì)算任意兩個(gè)主題詞的語(yǔ)義相似度,得到主題詞語(yǔ)義相似度矩陣N:

    式中,keyi表示由主題詞抽取算法抽取的第i個(gè)主題詞。S(keyi,keyj)是由參考文獻(xiàn)[16]的語(yǔ)義計(jì)算公式計(jì)算得到的主題詞的語(yǔ)義相似度。

    2.4.2 微博新聞話題識(shí)別

    為了提升主題詞聚類的效果,進(jìn)而引入集合的概念。為此把矩陣M、N每行均按照公式(5)做歸一化處理得到矩陣M',N'。

    其中Yij為歸一化之后的值,Xij為矩陣M和N中的元素第i行和第j列的元素,mini、maxi分別為矩陣M和N中第i行的最小值和最大值。

    在聚類之前,根據(jù)矩陣M'和N'為每一個(gè)主題詞抽取了共現(xiàn)度最高的k個(gè)詞構(gòu)成該主題詞的候選語(yǔ)義集合,標(biāo)記為KEYi={ki1,ki2,…,kik}。k值的大小直接影響主題詞聚類的效果,從而調(diào)控“錯(cuò)誤傳播”發(fā)生的概率。k值過(guò)大會(huì)造成本來(lái)不屬于同一語(yǔ)義集合的詞匯信息也融入到計(jì)算中,會(huì)使實(shí)驗(yàn)結(jié)果產(chǎn)生一定的偏差;k值太小會(huì)漏掉同一語(yǔ)義集合中詞匯的信息,從而造成實(shí)驗(yàn)結(jié)果精度缺失。k值由實(shí)驗(yàn)調(diào)參得到,本文中取k為4。

    為描述方便,引入如下公式:

    其中,Sim1描述兩個(gè)語(yǔ)義集合詞詞素共現(xiàn)的信息,Sim2描述兩個(gè)語(yǔ)義集合語(yǔ)義層面共現(xiàn)的信息。

    語(yǔ)義集合更直觀、準(zhǔn)確地反映了兩個(gè)主題詞匯之間的語(yǔ)義關(guān)系,在本文中使用如下公式對(duì)主題詞進(jìn)行聚類:

    即,第i個(gè)主題詞應(yīng)該歸入使上式最大化的主題詞j的集合KEYj。

    最后根據(jù)矩陣M'和N',把同一語(yǔ)義集合內(nèi)的主題詞之間連邊,并把孤立點(diǎn)去除之后得到語(yǔ)義共現(xiàn)圖。共現(xiàn)圖中可能包含多個(gè)簇,也就意味著該時(shí)間窗口中包含多個(gè)熱點(diǎn)話題,簇的大小也直觀地反映了該話題的熱度。

    本文提出的算法不是單純地考慮兩個(gè)主題詞之間的共現(xiàn)度,而是對(duì)微博進(jìn)行了語(yǔ)義計(jì)算,從而構(gòu)建語(yǔ)義共現(xiàn)圖。實(shí)驗(yàn)證明,本文采用的方法能夠有效地降低“錯(cuò)誤傳播”的風(fēng)險(xiǎn),提升主題詞匯聚類的正確率。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)準(zhǔn)備

    為了本文的研究,使用由武漢大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室共享的新浪微博話題檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集包括2013年4月16日到2013年4月24日,共9天約150萬(wàn)條的實(shí)時(shí)微博數(shù)據(jù)。除去停用詞之后,將長(zhǎng)度小于5的微博刪除,剩下的微博作為有效的微博。有效微博的分布情況如圖3。

    圖3 有效微博文本分布圖

    3.2 評(píng)測(cè)主題詞的抽取

    為了評(píng)估主題詞的抽取效果,把2013-04-16到2013-04-24共9天的微博數(shù)據(jù)分成了9組(以天為單位),對(duì)該時(shí)間段內(nèi)的微博數(shù)據(jù)進(jìn)行人工標(biāo)注。該時(shí)間段內(nèi)微博熱議的主要新聞話題有“復(fù)旦投毒案”、“波士頓爆炸”、“黃金暴跌”、“雅安地震”等事件。對(duì)每個(gè)時(shí)間窗口中的數(shù)據(jù)按照前面所述的主題詞抽取算法進(jìn)行主題詞抽取,考慮到每天新聞話題的數(shù)量及其主題詞的分布,實(shí)驗(yàn)中設(shè)定閾值T為100,即權(quán)重最高的100個(gè)詞作為主題詞。為了評(píng)估主題詞抽取的質(zhì)量,人工計(jì)算該100個(gè)主題詞與當(dāng)前標(biāo)注的新聞話題相關(guān)的主題詞數(shù),最后求平均值。實(shí)驗(yàn)中λ依次從0.1取到0.9,比較λ對(duì)相關(guān)主題詞數(shù)的影響,如圖4所示。

    圖4 λ對(duì)相關(guān)主題詞的影響

    實(shí)驗(yàn)表明,當(dāng)λ取0.4時(shí),主題詞的抽取效果達(dá)到最佳,此時(shí)前100個(gè)主題詞中有64個(gè)是相關(guān)主題詞。

    3.3 評(píng)測(cè)話題識(shí)別

    為了評(píng)估主題詞聚類的效果,選取了若干熱門(mén)話題,u依次從0.1取到0.9,比較u對(duì)這些話題相關(guān)主題詞數(shù)的影響,如圖5所示。實(shí)驗(yàn)表明,當(dāng)u取0.6時(shí),主題詞的聚類效果達(dá)到最佳。

    圖5 u對(duì)話題質(zhì)量的影響

    圖6給出了本文方法抽取的4月26日的熱門(mén)話題,可以看出,本文方法不僅檢測(cè)出了熱門(mén)的新聞話題,“黃金暴跌”、“國(guó)防部公布海陸空力量”這樣的新聞話題也被檢測(cè)出來(lái),這說(shuō)明本文的方法具備一定的靈敏性,能夠識(shí)別出盡可能多的新聞話題。

    圖6 主題詞共現(xiàn)圖

    表1是若干天的實(shí)驗(yàn)結(jié)果(僅列出最熱門(mén)的一個(gè)話題)。從實(shí)驗(yàn)結(jié)果中可以看出,使用詞共現(xiàn)方法檢測(cè)的話題“波士頓爆炸”和“雅安地震”都存在“錯(cuò)誤傳播”。原因是波士頓爆炸期間襄樊某地發(fā)生了火災(zāi),爆炸案和火災(zāi)二者詞共現(xiàn)的頻率較高,但是二者沒(méi)有語(yǔ)義上的關(guān)聯(lián)。“雅安地震”話題的錯(cuò)誤傳播是由于巴基斯坦和雅安先后發(fā)生過(guò)地震,而二者屬于兩個(gè)不同的熱門(mén)話題。從對(duì)比實(shí)驗(yàn)可以看出,本文提出的基于語(yǔ)義共現(xiàn)的方法在一定程度上解決了“錯(cuò)誤傳播”的問(wèn)題,抽取出來(lái)的話題的質(zhì)量更高。

    表1 若干天的熱門(mén)話題

    4 結(jié)論及下一步工作

    微博熱點(diǎn)新聞話題的識(shí)別研究有著重要的應(yīng)用背景,本文提出了一種基于語(yǔ)義共現(xiàn)圖的微博新聞話題識(shí)別的方法。該方法通過(guò)預(yù)處理、抽取主題詞、構(gòu)建語(yǔ)義共現(xiàn)圖等步驟來(lái)識(shí)別微博新聞話題。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性、靈敏性。本文充分利用了微博主題詞之間的語(yǔ)義關(guān)系,從而能夠在一定程度上避免“錯(cuò)誤傳播”,較準(zhǔn)確地區(qū)分出當(dāng)前的熱門(mén)話題。

    本文仍有可以改進(jìn)之處。一方面,分詞破壞了詞之間的語(yǔ)義關(guān)系,尤其對(duì)于微博這樣的短文本。避開(kāi)分詞,直接提取短語(yǔ)或者詞串能夠更直觀地反應(yīng)一個(gè)新聞話題。另一方面本文只考慮了新浪微博一個(gè)數(shù)據(jù)源,而熱門(mén)的新聞話題往往廣泛分布在不同的數(shù)據(jù)源中(比如騰訊微博、網(wǎng)易微博等)。整合多個(gè)數(shù)據(jù)源的信息,進(jìn)而進(jìn)行熱門(mén)話題的識(shí)別能夠保證話題的廣泛性和公正性,也是將來(lái)工作的方向。

    [1]閆瑞,曹先彬,李凱.面向短文本的動(dòng)態(tài)組合分類算法[J].電子學(xué)報(bào),2009,37(5):1019-1024.

    [2]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào),2011,25(1):54-59.

    [3]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short text feature selection for microblog mining[C]//The 4th International Conference on Computational Intelligence and Software Engineer,Wuhan,China,2010:1-4.

    [4]王樂(lè),田李,賈焰,等.擴(kuò)展向量空間上的短語(yǔ)消息聚類[J].計(jì)算機(jī)研究與發(fā)展,2007(2).

    [5]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì),2010.

    [6]Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property[J]. Journal of Networks,2013,8(4):917-923.

    [7]Sun Q,Wang Q,Qiao H.The algorithm of short message hot topic detection based on feature association[J]. Information Technology Journal,2009,8:236-240.

    [8]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.

    [9]周振宇.基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究[D].上海:上海交通大學(xué),2013.

    [10]聶恩倫,陳黎,王亞強(qiáng),等.基于K近鄰的新話題熱度預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,39(S6):257-260.

    [11]趙愛(ài)華.面向網(wǎng)絡(luò)新聞的話題檢測(cè)技術(shù)研究[D].濟(jì)南:山東師范大學(xué),2013.

    [12]林雪能,陳光,朱帥,等.基于語(yǔ)義框架的新聞話題檢測(cè)[EB/OL].(2012-12-27).http://www.paper.edu.cn/releasepaper/content/201212-1055.

    [13]張華平,劉群.計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS[EB/OL].(2010-08-25).http://www.nlp.org.cn/project/project.php.

    [14]Wartena C,Brussee R.Topic detection by clustering keywords[C]//19th International Workshop on Database and Expert Systems Application,2008:54-58.

    [15]Chen K Y,Luesukprasert L,Chou S.Hot topic extraction based on timeline analysis and multidimensional sentence modeling[J].IEEE Transactions on Know ledge and Data Engineering,2007,19(8):1016-1025.

    [16]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.

    WANG Lulu,ZHENG Tao,CHENG Qianqian,JI Donghong

    School of Computer,Wuhan University,Wuhan 430072,China

    A method of new s topics detection from large-scale short posts of microblogs is proposed.The TF-IDF,the document frequency increase rate and the named entity recognition are considered to extract new keywords from microblogs after pretreatment.A semantic co-occurrence graph is build by co-occurrence degrees of keywords,each unconnected cluster in a semantic co-occurrence graph is taken as a new s topic.Experiments are taken on Sina microblogs data sets and the experimental results show the proposed method works well.

    microblog;keywords;semantic co-occurrence graph;new s topic detection

    WANG Lu lu,ZHENG Tao,CHENG Qianqian,et al.Discovering new s topics from microb logs based on semantic co-occurrence.Computer Engineering and Applications,2014,50(17):150-154.

    A

    TP391.1

    10.3778/j.issn.1002-8331.1312-0102

    國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(No.61133012);國(guó)家自然科學(xué)基金面上項(xiàng)目(No.61173062)。

    王路路(1989—),男,碩士生,研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)挖掘、個(gè)性化推薦等;鄭濤(1992—),男,碩士生,研究領(lǐng)域?yàn)樾畔z索等;程倩倩(1989—),男,碩士生,研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等;姬東鴻(1968—),男,博士,博士生導(dǎo)師,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、語(yǔ)義網(wǎng)技術(shù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。E-mail:wang_uu89@163.com

    2013-12-09

    2014-01-07

    1002-8331(2014)17-0150-05

    能夠準(zhǔn)確地描述一個(gè)新聞話題,主題詞的抽取效果直接影響著新聞話題識(shí)別的效果。根據(jù)文獻(xiàn)[14-15],一般新聞話題中的主題詞有兩個(gè)重要的特性:(1)廣泛性,一個(gè)話題的出現(xiàn)的短期內(nèi),會(huì)引起大量的關(guān)注,從而與該話題相關(guān)的主題詞將廣泛分布在微博中;(2)典型性,新聞話題一般內(nèi)容新穎,之前很少出現(xiàn)相似的內(nèi)容,在某個(gè)特定時(shí)間段內(nèi)忽然出現(xiàn)。本文把TF-IDF和文檔頻率增長(zhǎng)率作為抽取主題詞的2個(gè)主要影響因素。

    猜你喜歡
    主題詞短文文檔
    有人一聲不吭向你扔了個(gè)文檔
    KEYS
    Keys
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
    我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
    2014年第16卷第1~4期主題詞索引
    《疑難病雜志》2014年第13卷主題詞索引
    短文改錯(cuò)
    黄色日韩在线| 成人性生交大片免费视频hd| 国产色爽女视频免费观看| 老司机深夜福利视频在线观看| 九九在线视频观看精品| 日韩欧美一区二区三区在线观看| 午夜福利在线观看吧| 在线看三级毛片| 黄色欧美视频在线观看| 永久网站在线| 亚洲精品粉嫩美女一区| 简卡轻食公司| 日韩欧美在线乱码| 国产精品久久久久久亚洲av鲁大| 美女xxoo啪啪120秒动态图| 国产美女午夜福利| 赤兔流量卡办理| 色哟哟哟哟哟哟| 高清日韩中文字幕在线| 给我免费播放毛片高清在线观看| 国内精品久久久久精免费| 国产老妇女一区| 最新中文字幕久久久久| www.www免费av| 成人二区视频| 日韩精品中文字幕看吧| 久久这里只有精品中国| 久久午夜福利片| 人妻久久中文字幕网| 亚洲成av人片在线播放无| 一区二区三区高清视频在线| 天堂√8在线中文| 亚洲五月天丁香| 极品教师在线视频| 欧美绝顶高潮抽搐喷水| 少妇丰满av| 男女之事视频高清在线观看| 国产精品久久电影中文字幕| 国内精品一区二区在线观看| 日本 av在线| 噜噜噜噜噜久久久久久91| 精品人妻熟女av久视频| 国产亚洲精品综合一区在线观看| 国产女主播在线喷水免费视频网站 | 国产亚洲精品久久久久久毛片| 少妇人妻一区二区三区视频| 日韩欧美免费精品| 欧美丝袜亚洲另类 | 亚洲七黄色美女视频| 欧美3d第一页| 看十八女毛片水多多多| 国产91精品成人一区二区三区| 99久久无色码亚洲精品果冻| 又爽又黄a免费视频| 又黄又爽又免费观看的视频| av国产免费在线观看| 日韩欧美免费精品| 久久精品国产亚洲av天美| 欧美激情久久久久久爽电影| 精品一区二区免费观看| 一本久久中文字幕| 大又大粗又爽又黄少妇毛片口| 动漫黄色视频在线观看| 国产男人的电影天堂91| 热99re8久久精品国产| 美女被艹到高潮喷水动态| 悠悠久久av| 免费不卡的大黄色大毛片视频在线观看 | 一本一本综合久久| 麻豆一二三区av精品| av在线蜜桃| 久久久久久久久久黄片| 春色校园在线视频观看| 成人欧美大片| 日本与韩国留学比较| 久久久精品欧美日韩精品| 少妇人妻精品综合一区二区 | 免费在线观看成人毛片| 亚洲欧美日韩东京热| 美女大奶头视频| 成人午夜高清在线视频| 精品日产1卡2卡| 看免费成人av毛片| 日韩欧美一区二区三区在线观看| 麻豆国产av国片精品| 精品久久久噜噜| 国内精品美女久久久久久| 国产成年人精品一区二区| 国内精品宾馆在线| 赤兔流量卡办理| 日本五十路高清| 我要看日韩黄色一级片| 干丝袜人妻中文字幕| 亚洲最大成人中文| 香蕉av资源在线| 桃红色精品国产亚洲av| 欧美最黄视频在线播放免费| av天堂在线播放| 国产精品自产拍在线观看55亚洲| 极品教师在线视频| 久久香蕉精品热| 色吧在线观看| 午夜精品久久久久久毛片777| 99热精品在线国产| 少妇人妻一区二区三区视频| 高清毛片免费观看视频网站| 国产激情偷乱视频一区二区| 无遮挡黄片免费观看| 校园人妻丝袜中文字幕| 国产精品永久免费网站| 九九在线视频观看精品| 亚洲无线在线观看| 特大巨黑吊av在线直播| 在线天堂最新版资源| 日韩欧美三级三区| 狂野欧美白嫩少妇大欣赏| 赤兔流量卡办理| 日本与韩国留学比较| 久久久久久久精品吃奶| 国产av一区在线观看免费| 日本熟妇午夜| 精品一区二区免费观看| 成人av在线播放网站| 麻豆一二三区av精品| 国产三级在线视频| 日本a在线网址| 亚洲久久久久久中文字幕| 网址你懂的国产日韩在线| 99热网站在线观看| 少妇人妻精品综合一区二区 | 99热6这里只有精品| 日韩在线高清观看一区二区三区 | 1024手机看黄色片| 在线播放无遮挡| 国产真实伦视频高清在线观看 | 动漫黄色视频在线观看| 欧美性猛交黑人性爽| 欧美丝袜亚洲另类 | 在现免费观看毛片| 国产亚洲精品av在线| 深夜a级毛片| 国产精品久久久久久av不卡| 中文字幕久久专区| 成人三级黄色视频| 亚洲精华国产精华精| 国产成人a区在线观看| 身体一侧抽搐| 偷拍熟女少妇极品色| 亚洲avbb在线观看| 我的老师免费观看完整版| 我要看日韩黄色一级片| 精品人妻一区二区三区麻豆 | 亚洲精品一区av在线观看| 在线观看美女被高潮喷水网站| 99久国产av精品| 亚洲色图av天堂| 久久99热这里只有精品18| www.www免费av| 啦啦啦观看免费观看视频高清| av在线蜜桃| 久久久精品欧美日韩精品| 中文字幕免费在线视频6| 国产精品亚洲一级av第二区| 亚洲无线在线观看| 精品午夜福利视频在线观看一区| 欧美三级亚洲精品| 国产精品精品国产色婷婷| 国产精品久久久久久久久免| 一区二区三区激情视频| 黄色视频,在线免费观看| 老司机福利观看| 国产高清不卡午夜福利| 亚洲精品国产成人久久av| 国产69精品久久久久777片| 久久久久国产精品人妻aⅴ院| 黄色女人牲交| 美女 人体艺术 gogo| 欧美精品啪啪一区二区三区| 天堂动漫精品| 欧美xxxx性猛交bbbb| 亚洲,欧美,日韩| 久久亚洲精品不卡| 无人区码免费观看不卡| av福利片在线观看| 琪琪午夜伦伦电影理论片6080| 91精品国产九色| 小说图片视频综合网站| 久久久久久国产a免费观看| 性欧美人与动物交配| 国产精品1区2区在线观看.| 精品乱码久久久久久99久播| 欧美色欧美亚洲另类二区| 国产乱人伦免费视频| 亚洲av成人av| 欧美成人免费av一区二区三区| 精品一区二区三区视频在线观看免费| 欧美日韩乱码在线| 亚洲三级黄色毛片| 男人舔女人下体高潮全视频| 免费在线观看成人毛片| 999久久久精品免费观看国产| 亚洲最大成人av| 99热这里只有精品一区| 日韩人妻高清精品专区| 欧美xxxx黑人xx丫x性爽| 国产欧美日韩精品一区二区| 亚洲av.av天堂| 国产视频内射| 三级国产精品欧美在线观看| 搡老妇女老女人老熟妇| 中文字幕av在线有码专区| 国产精品av视频在线免费观看| 在现免费观看毛片| 两性午夜刺激爽爽歪歪视频在线观看| 国产精品三级大全| 色尼玛亚洲综合影院| 在线观看av片永久免费下载| 一边摸一边抽搐一进一小说| 日韩,欧美,国产一区二区三区 | 国产av麻豆久久久久久久| 亚洲精品日韩av片在线观看| 国产成人aa在线观看| 日韩精品中文字幕看吧| 国产精品自产拍在线观看55亚洲| 亚洲欧美日韩高清在线视频| 国产一区二区三区av在线 | 成人特级av手机在线观看| 午夜福利成人在线免费观看| 亚洲专区中文字幕在线| 最近最新免费中文字幕在线| 韩国av一区二区三区四区| 国产私拍福利视频在线观看| 如何舔出高潮| 人人妻,人人澡人人爽秒播| 欧美xxxx黑人xx丫x性爽| 少妇的逼水好多| 国产免费av片在线观看野外av| 精品一区二区三区视频在线| 国产精品乱码一区二三区的特点| 有码 亚洲区| 国产精品久久电影中文字幕| 深夜a级毛片| 精品欧美国产一区二区三| 欧美人与善性xxx| 我的女老师完整版在线观看| 麻豆av噜噜一区二区三区| 亚洲第一区二区三区不卡| 一个人免费在线观看电影| 真实男女啪啪啪动态图| 精品久久久久久久久亚洲 | 美女大奶头视频| 国产欧美日韩一区二区精品| 熟女电影av网| 亚洲精华国产精华精| 在线播放无遮挡| 国产精品一及| 精品日产1卡2卡| 亚洲专区中文字幕在线| 国产亚洲av嫩草精品影院| 亚洲va日本ⅴa欧美va伊人久久| 亚洲熟妇熟女久久| 中文在线观看免费www的网站| 深夜a级毛片| 99精品久久久久人妻精品| 亚洲经典国产精华液单| 黄色女人牲交| 99热6这里只有精品| 久久香蕉精品热| 国产伦人伦偷精品视频| 真人做人爱边吃奶动态| 欧美精品国产亚洲| 色尼玛亚洲综合影院| 日韩欧美国产一区二区入口| 18禁裸乳无遮挡免费网站照片| 欧美+日韩+精品| 美女高潮喷水抽搐中文字幕| 亚洲男人的天堂狠狠| 中文字幕av成人在线电影| 日韩欧美精品免费久久| 亚洲最大成人中文| 超碰av人人做人人爽久久| 大又大粗又爽又黄少妇毛片口| 国产精品av视频在线免费观看| 成年免费大片在线观看| 午夜福利高清视频| av视频在线观看入口| 国产在线男女| 床上黄色一级片| 亚洲精品乱码久久久v下载方式| 亚洲精品亚洲一区二区| 久久午夜亚洲精品久久| 夜夜看夜夜爽夜夜摸| 91在线精品国自产拍蜜月| 免费一级毛片在线播放高清视频| 在线免费观看的www视频| 国产单亲对白刺激| 又粗又爽又猛毛片免费看| 最后的刺客免费高清国语| 一个人看视频在线观看www免费| 亚洲精品粉嫩美女一区| 午夜精品一区二区三区免费看| 国产一区二区在线观看日韩| 亚洲欧美精品综合久久99| 人妻夜夜爽99麻豆av| 九色成人免费人妻av| 国产精品嫩草影院av在线观看 | 日本 欧美在线| 欧美中文日本在线观看视频| 精品福利观看| 99热网站在线观看| 好男人在线观看高清免费视频| 中文字幕高清在线视频| 少妇人妻一区二区三区视频| 亚洲五月天丁香| 国产色婷婷99| 神马国产精品三级电影在线观看| 哪里可以看免费的av片| 美女高潮的动态| 免费av不卡在线播放| 国产精品免费一区二区三区在线| 久久天躁狠狠躁夜夜2o2o| 淫妇啪啪啪对白视频| 亚洲专区中文字幕在线| 欧美一区二区国产精品久久精品| videossex国产| 黄色欧美视频在线观看| 亚洲人成网站在线播放欧美日韩| 婷婷六月久久综合丁香| 成熟少妇高潮喷水视频| 97人妻精品一区二区三区麻豆| 国产真实乱freesex| 成年女人看的毛片在线观看| 亚洲va在线va天堂va国产| 黄色配什么色好看| 亚洲七黄色美女视频| 欧美日韩国产亚洲二区| 亚洲性夜色夜夜综合| 可以在线观看毛片的网站| 美女黄网站色视频| 校园春色视频在线观看| 999久久久精品免费观看国产| 国产精品自产拍在线观看55亚洲| 日本三级黄在线观看| 欧美日韩黄片免| 国产黄色小视频在线观看| 老师上课跳d突然被开到最大视频| 91久久精品电影网| 丰满乱子伦码专区| 两人在一起打扑克的视频| 伦精品一区二区三区| 成人国产麻豆网| 精品一区二区三区视频在线| 伦精品一区二区三区| 午夜a级毛片| 毛片女人毛片| 欧美人与善性xxx| 国产精品一及| 亚洲人成伊人成综合网2020| 国产成人一区二区在线| 高清日韩中文字幕在线| 日韩 亚洲 欧美在线| 欧美绝顶高潮抽搐喷水| 国产精品免费一区二区三区在线| 国产中年淑女户外野战色| 熟妇人妻久久中文字幕3abv| 美女黄网站色视频| 十八禁国产超污无遮挡网站| 亚洲精品色激情综合| 亚洲在线自拍视频| 99在线人妻在线中文字幕| 啦啦啦韩国在线观看视频| 日韩欧美三级三区| 精品久久久噜噜| 美女高潮喷水抽搐中文字幕| 啦啦啦韩国在线观看视频| 哪里可以看免费的av片| 少妇的逼水好多| a级毛片a级免费在线| 在线国产一区二区在线| 国产精品自产拍在线观看55亚洲| 欧美+日韩+精品| 制服丝袜大香蕉在线| 老司机深夜福利视频在线观看| 一夜夜www| 日韩国内少妇激情av| 日韩欧美免费精品| 尾随美女入室| 亚洲精品色激情综合| 亚洲欧美精品综合久久99| 久久热精品热| 欧美成人a在线观看| 黄色欧美视频在线观看| 美女免费视频网站| 久久午夜亚洲精品久久| 日本熟妇午夜| 亚洲精品粉嫩美女一区| 欧美极品一区二区三区四区| 国产高清视频在线播放一区| 日日干狠狠操夜夜爽| 免费人成在线观看视频色| 亚洲成人中文字幕在线播放| 麻豆成人午夜福利视频| 国产精品一区二区三区四区免费观看 | 欧美区成人在线视频| 一个人免费在线观看电影| netflix在线观看网站| 我要看日韩黄色一级片| 日日摸夜夜添夜夜添av毛片 | 看十八女毛片水多多多| 亚洲va在线va天堂va国产| 午夜福利在线观看免费完整高清在 | 免费电影在线观看免费观看| 联通29元200g的流量卡| 综合色av麻豆| 国产精品亚洲美女久久久| 超碰av人人做人人爽久久| 亚洲最大成人中文| 在线观看午夜福利视频| 又紧又爽又黄一区二区| 在现免费观看毛片| 久久欧美精品欧美久久欧美| 国产日本99.免费观看| 国产精品久久久久久亚洲av鲁大| aaaaa片日本免费| 国产精品久久久久久亚洲av鲁大| 久久久国产成人精品二区| 97人妻精品一区二区三区麻豆| 色av中文字幕| 久久99热这里只有精品18| 乱码一卡2卡4卡精品| 欧美黑人欧美精品刺激| 久久久久久久亚洲中文字幕| 国产av不卡久久| 看黄色毛片网站| 欧美性感艳星| 亚洲精华国产精华液的使用体验 | 高清日韩中文字幕在线| 国产aⅴ精品一区二区三区波| 日日撸夜夜添| 欧美潮喷喷水| 噜噜噜噜噜久久久久久91| 欧美激情国产日韩精品一区| 99国产精品一区二区蜜桃av| av福利片在线观看| 午夜精品在线福利| ponron亚洲| 欧美xxxx性猛交bbbb| 亚洲真实伦在线观看| 午夜激情欧美在线| 精品久久久久久,| 免费黄网站久久成人精品| 国产不卡一卡二| 久久久久精品国产欧美久久久| 亚洲18禁久久av| av专区在线播放| 国产精品爽爽va在线观看网站| 两性午夜刺激爽爽歪歪视频在线观看| 性插视频无遮挡在线免费观看| 看十八女毛片水多多多| 国产色婷婷99| 久久婷婷人人爽人人干人人爱| 最近在线观看免费完整版| 国产精品亚洲一级av第二区| 男女视频在线观看网站免费| 天天一区二区日本电影三级| 国产黄色小视频在线观看| 国产精品国产高清国产av| 亚洲欧美日韩卡通动漫| 国产精品亚洲一级av第二区| 简卡轻食公司| 午夜福利18| 蜜桃久久精品国产亚洲av| 美女黄网站色视频| 亚洲av中文字字幕乱码综合| 制服丝袜大香蕉在线| h日本视频在线播放| 午夜精品在线福利| 日本五十路高清| 中文字幕免费在线视频6| 精品乱码久久久久久99久播| 国产伦精品一区二区三区四那| 日韩欧美免费精品| 婷婷精品国产亚洲av| 亚洲va在线va天堂va国产| 国产高清视频在线播放一区| 国产69精品久久久久777片| 国内揄拍国产精品人妻在线| 国产成人a区在线观看| 欧美性猛交黑人性爽| 不卡视频在线观看欧美| 日本 欧美在线| 成人特级黄色片久久久久久久| 99精品久久久久人妻精品| 亚洲自拍偷在线| 久久精品国产亚洲av天美| 深夜精品福利| 天堂av国产一区二区熟女人妻| 极品教师在线免费播放| 国产毛片a区久久久久| 啪啪无遮挡十八禁网站| 精品不卡国产一区二区三区| 成人av在线播放网站| 国产精品无大码| 精品99又大又爽又粗少妇毛片 | 亚洲国产日韩欧美精品在线观看| 成人午夜高清在线视频| 国产一区二区三区视频了| 两人在一起打扑克的视频| 久久这里只有精品中国| 黄色欧美视频在线观看| av在线天堂中文字幕| 日韩精品中文字幕看吧| 午夜精品在线福利| 日本与韩国留学比较| 国产精品永久免费网站| 精品久久国产蜜桃| 人妻制服诱惑在线中文字幕| 99riav亚洲国产免费| 精品人妻偷拍中文字幕| 欧美成人免费av一区二区三区| 亚洲精品色激情综合| 91狼人影院| a在线观看视频网站| 国产乱人视频| 精品午夜福利视频在线观看一区| 欧美黑人欧美精品刺激| 搡老熟女国产l中国老女人| 最近最新免费中文字幕在线| 精品人妻偷拍中文字幕| 欧美日韩亚洲国产一区二区在线观看| 97超视频在线观看视频| 久久久久免费精品人妻一区二区| 国模一区二区三区四区视频| 欧美一区二区精品小视频在线| 极品教师在线视频| 国产高清视频在线观看网站| 老司机深夜福利视频在线观看| 嫁个100分男人电影在线观看| 神马国产精品三级电影在线观看| 日韩欧美在线二视频| 女生性感内裤真人,穿戴方法视频| 尾随美女入室| a在线观看视频网站| 亚洲真实伦在线观看| 久久久久精品国产欧美久久久| 欧美一区二区国产精品久久精品| 婷婷亚洲欧美| 国产欧美日韩一区二区精品| 美女免费视频网站| 国内精品久久久久精免费| 国产黄色小视频在线观看| 午夜福利在线观看免费完整高清在 | 久久久久久大精品| 成人国产综合亚洲| 1024手机看黄色片| 日本与韩国留学比较| 成熟少妇高潮喷水视频| 婷婷六月久久综合丁香| 欧美一级a爱片免费观看看| 欧美性猛交╳xxx乱大交人| .国产精品久久| 狂野欧美白嫩少妇大欣赏| 亚洲美女视频黄频| 色综合婷婷激情| 亚洲五月天丁香| 人人妻,人人澡人人爽秒播| 久久久久精品国产欧美久久久| 淫秽高清视频在线观看| 欧美日韩综合久久久久久 | 老熟妇仑乱视频hdxx| 色视频www国产| 免费av毛片视频| 麻豆一二三区av精品| 亚洲精品影视一区二区三区av| 日日啪夜夜撸| 老女人水多毛片| 国产黄色小视频在线观看| 两个人的视频大全免费| 亚洲久久久久久中文字幕| 91久久精品国产一区二区三区| 欧美区成人在线视频| 久久久久性生活片| 在线免费观看的www视频| 亚洲va日本ⅴa欧美va伊人久久| 久9热在线精品视频| 精华霜和精华液先用哪个| 亚洲欧美日韩高清在线视频| 亚洲av熟女| 在线观看av片永久免费下载| 亚洲第一电影网av| 舔av片在线| 亚洲中文字幕日韩| 极品教师在线视频| 久久人人爽人人爽人人片va| 国产精品乱码一区二三区的特点| bbb黄色大片| 精品乱码久久久久久99久播| 又黄又爽又免费观看的视频| 亚洲人成伊人成综合网2020| 亚洲18禁久久av| 网址你懂的国产日韩在线| 成年免费大片在线观看| 变态另类丝袜制服| 国产视频一区二区在线看| 精品午夜福利视频在线观看一区| 露出奶头的视频| av在线蜜桃| 99久久成人亚洲精品观看| 免费大片18禁| 国内少妇人妻偷人精品xxx网站| 乱码一卡2卡4卡精品| 欧美激情在线99| 2021天堂中文幕一二区在线观| 亚洲在线观看片| 久久午夜福利片|