• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語(yǔ)義共現(xiàn)圖的中文微博新聞話題識(shí)別

    2014-07-08 08:32:38王路路鄭濤程倩倩姬東鴻
    關(guān)鍵詞:主題詞短文文檔

    王路路,鄭濤,程倩倩,姬東鴻

    武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072

    基于語(yǔ)義共現(xiàn)圖的中文微博新聞話題識(shí)別

    王路路,鄭濤,程倩倩,姬東鴻

    武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072

    提出一種在大規(guī)模微博短文本數(shù)據(jù)集中自動(dòng)發(fā)現(xiàn)新聞話題的方法。該方法在微博數(shù)據(jù)預(yù)處理之后,綜合TF-IDF、文檔頻率增長(zhǎng)率和命名實(shí)體識(shí)別等幾個(gè)因素抽取微博數(shù)據(jù)中的主題詞。根據(jù)主題詞之間的語(yǔ)義關(guān)系來(lái)構(gòu)建主題詞的語(yǔ)義共現(xiàn)圖,計(jì)算出語(yǔ)義共現(xiàn)圖的連通子圖,把每個(gè)不連通的簇集看成一個(gè)新聞話題。在新浪微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)現(xiàn)了對(duì)微博中新聞話題的識(shí)別。該方法能較好檢測(cè)出當(dāng)前時(shí)間的熱門(mén)話題,能夠在一定程度上有效地避免錯(cuò)誤傳播,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。

    微博;主題詞;語(yǔ)義共現(xiàn)圖;新聞話題識(shí)別

    1 引言

    微博客(微博)是一個(gè)基于用戶關(guān)系的信息分享、傳播及其獲取平臺(tái)。用戶可以通過(guò)Web、Wap以及各種客戶端組建個(gè)人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)及時(shí)分享。隨著互聯(lián)網(wǎng)的快速發(fā)展,微博改變了人們獲取信息的方式,能夠讓普通網(wǎng)民更快更準(zhǔn)確地了解當(dāng)前的社會(huì)動(dòng)態(tài)。如何從海量微博數(shù)據(jù)中檢測(cè)出當(dāng)前的熱門(mén)新聞話題,對(duì)于輿情監(jiān)控、民意調(diào)查、行業(yè)調(diào)研等都有著十分重要的意義。

    微博具有傳播快、數(shù)量大、語(yǔ)言簡(jiǎn)練等特點(diǎn),對(duì)輿情分析提出了更高的要求。如何對(duì)微博文本進(jìn)行分析、聚類,是發(fā)現(xiàn)熱點(diǎn)話題的關(guān)鍵,很多研究者在這方面做了嘗試:閆瑞等[1]提出了一種面向短文本的動(dòng)態(tài)組合分類算法,獲得了較好的準(zhǔn)確率和召回率。彭澤映等[2]提出了一種大規(guī)模短文本的不完全聚類算法,可以有效地提高短文本的聚類性能。Liu等[3]提出了一種基于part-ofspeech和How Net的方法來(lái)擴(kuò)展詞匯的詞義特征,增加文本特征向量的維度,進(jìn)而改進(jìn)聚類效果。王樂(lè)等[4]針對(duì)即時(shí)短語(yǔ)消息關(guān)鍵詞數(shù)量少甚至是隱藏的這一特性,提出了WR-KMeans短語(yǔ)消息聚類方法。

    微博短文本用詞精煉,敘事簡(jiǎn)潔,傳統(tǒng)的基于詞共現(xiàn)的聚類算法[5-8]忽視了微博的語(yǔ)義關(guān)系,不能達(dá)到很好的聚類效果,從而難以識(shí)別出微博中描述的熱門(mén)話題。鑒于微博文本的短小和主題詞分布的稀疏性,基于模型的話題識(shí)別方法[9-12]訓(xùn)練周期較長(zhǎng)、數(shù)據(jù)標(biāo)注困難,很難達(dá)到滿意的準(zhǔn)確率。如何計(jì)算微博之間的語(yǔ)義關(guān)系,對(duì)微博文本進(jìn)行語(yǔ)義層面的聚類,是微博話題識(shí)別的一個(gè)大膽嘗試。例如,有如下兩條微博:

    (1)噢,本來(lái)我工資不高,可這個(gè)月餅貴,所以我繳納了月餅稅~

    (2)中秋將至,不少單位把月餅當(dāng)做福利發(fā)給員工。今日,地稅部門(mén)也接到市民電話咨詢企業(yè)發(fā)放月餅及其代金券給員工,應(yīng)該如何代扣個(gè)人所得稅。

    上述兩條微博相似度較高,因此可以將之劃分為同一類別。但是從字符串角度判斷除了共有的一個(gè)詞“月餅”,很難判斷兩條微博屬于同一類別。

    在實(shí)驗(yàn)過(guò)程中,還發(fā)現(xiàn)傳統(tǒng)的基于詞共現(xiàn)的聚類算法很容易導(dǎo)致“錯(cuò)誤傳播”。例如,一個(gè)微博話題描述“章子怡出席電影節(jié)”,其相關(guān)的主題詞為:[章子怡、上海、電影節(jié)、紅毯];另一個(gè)微博話題描述“章子怡和汪峰密戀”,其相關(guān)的主題詞為:[章子怡、汪峰、紐約、酒店、密戀]。由于詞“章子怡”在兩個(gè)話題中出現(xiàn)的頻率都很高,基于詞共現(xiàn)的聚類算法很難區(qū)分這兩個(gè)微博話題。

    針對(duì)微博數(shù)據(jù)稀疏性、實(shí)時(shí)性、不規(guī)范性的特點(diǎn),本文提出了一種語(yǔ)義共現(xiàn)圖模型。首先將微博短文本按照特定的時(shí)間窗口進(jìn)行劃分,綜合TF-IDF,主題詞文檔頻率增長(zhǎng)率和命名實(shí)體等因素,來(lái)提取主題詞。然后構(gòu)建了一個(gè)語(yǔ)義集合,把微博主題詞進(jìn)行語(yǔ)義層面的聚類,從而識(shí)別出新聞話題。實(shí)驗(yàn)表明,本文中的方法能夠降低“錯(cuò)誤傳播”發(fā)生的概率,比較準(zhǔn)確地識(shí)別新聞話題。

    2 微博新聞話題識(shí)別

    2.1 方法思想和基本框架

    從大規(guī)模的短文本微博客中識(shí)別新聞話題,需要克服兩個(gè)難點(diǎn):(1)如何從短文本中提取有效的能直接反映話題內(nèi)容的主題詞;(2)如何對(duì)主題詞準(zhǔn)確聚類,以便發(fā)現(xiàn)新聞話題。

    本文提出的方法框架可以用圖1來(lái)表示。

    圖1 微博中發(fā)現(xiàn)新聞話題的整體框架圖

    下面將依次介紹上面提出的3個(gè)步驟。

    2.2 數(shù)據(jù)預(yù)處理

    在進(jìn)行主題詞抽取之前,首先用中科院張華平等開(kāi)發(fā)的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[13]的分詞工具進(jìn)行分詞,然后進(jìn)行詞性過(guò)濾、停用詞過(guò)濾等。預(yù)處理之后便可對(duì)得到的文本數(shù)據(jù)抽取主題詞。預(yù)處理的過(guò)程如圖2所示。

    圖2 預(yù)處理過(guò)程

    2.3 主題詞的抽取

    (1)TF-IDF

    一個(gè)與話題相關(guān)的主題詞,相對(duì)于其他詞匯,通常是非常熱門(mén)的,即主題詞出現(xiàn)的頻率相對(duì)較高。TF-IDF是一種統(tǒng)計(jì)方法,用于評(píng)估一字詞對(duì)于一個(gè)文件集或者一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要度。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類別區(qū)分能力。在微博數(shù)據(jù)集中TF可以衡量該微博描述新聞話題的廣泛性,而IDF可以衡量其典型性。本文中采用歸一化的TF-IDF函數(shù),將一個(gè)詞對(duì)新聞話題識(shí)別貢獻(xiàn)度進(jìn)行量化:

    式中,Tij是詞匯i相對(duì)于文檔j的TF-IDF值,fij是詞匯i在j時(shí)間窗口的頻率,Docnumber是文檔數(shù)目,這里指有效的微博條數(shù)。dfij表示詞匯i在j時(shí)間窗口的文檔頻率。M為文檔j中包含的詞語(yǔ)個(gè)數(shù)。

    (2)文檔頻率的增長(zhǎng)率

    一個(gè)與話題相關(guān)的詞,在某個(gè)時(shí)間窗口內(nèi)出現(xiàn)的頻次會(huì)明顯增加,即主題詞在某個(gè)窗口內(nèi)相對(duì)于其之前窗口的頻次明顯增多。這種詞頻的變化率在一定程度上意味著它和當(dāng)前一些比較新的新聞話題關(guān)聯(lián)。文檔頻率增長(zhǎng)率能夠客觀衡量主題詞的典型性,因此本文使用文檔頻率增長(zhǎng)率進(jìn)行量化。

    式中,Gij表示詞匯i在j時(shí)間窗口內(nèi)文檔頻率增加率,dfij表示詞匯i在j時(shí)間窗口內(nèi)的文檔頻率。

    對(duì)微博數(shù)據(jù)進(jìn)行分詞,詞性過(guò)濾,詞頻過(guò)濾,命名實(shí)體標(biāo)注等預(yù)處理之后,有選擇地留下有意義的動(dòng)詞和名詞,并對(duì)名詞進(jìn)行更細(xì)粒度的劃分為時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等,在此基礎(chǔ)上考察TF-IDF和詞頻增加率兩個(gè)方面的復(fù)合權(quán)值來(lái)評(píng)價(jià)一個(gè)特征詞的權(quán)重W:

    式中,Wij值表示特征詞的權(quán)重,權(quán)重越大說(shuō)明該詞匯是主題詞的概率越大;λ參數(shù)用來(lái)調(diào)節(jié)TF-IDF和詞頻增加率的比重關(guān)系。TF-IDF主要用來(lái)控制主題詞匯的廣泛性,文檔頻率增加率主要用來(lái)調(diào)節(jié)主題詞匯的典型性。

    對(duì)每個(gè)時(shí)間窗口內(nèi)的詞計(jì)算其Wij值,按照閾值T選取出其中權(quán)值最大的特征詞得到一個(gè)主題詞表。根據(jù)主題詞表,就可以對(duì)這些主題詞進(jìn)行語(yǔ)義共現(xiàn)分析來(lái)構(gòu)建語(yǔ)義共現(xiàn)圖,進(jìn)而實(shí)現(xiàn)新聞話題識(shí)別。

    2.4 微博新聞話題識(shí)別

    2.4.1 主題詞共現(xiàn)圖的構(gòu)建

    詞的共現(xiàn)分析是自然語(yǔ)言處理技術(shù)在信息檢索領(lǐng)域的成功應(yīng)用之一,它的核心思想是詞與詞之間的共現(xiàn)頻率在某種程度上反映了詞與詞之間的語(yǔ)義關(guān)聯(lián)。為了從理論上進(jìn)一步地闡述詞共現(xiàn)理論在微博新聞話題識(shí)別的原理,給出了下面的定義。

    定義1詞匯x與詞匯y的共現(xiàn)度定義如下:

    故有C(x,y)=C(y,x)。式中,f(x,y)為單位時(shí)間段窗口內(nèi)詞x與詞y在同一條微博中共同出現(xiàn)的次數(shù)。f(x)為詞x在單位時(shí)間段窗口內(nèi)出現(xiàn)的次數(shù)。

    按照詞共現(xiàn)原理,當(dāng)2個(gè)主題詞經(jīng)常出現(xiàn)在同一條微博中,則可以認(rèn)為這兩個(gè)主題詞在意義上相互關(guān)聯(lián),表述同一個(gè)潛在的主題信息。計(jì)算每一對(duì)主題詞之間的共現(xiàn)度,得到一個(gè)詞共現(xiàn)度矩陣M:

    式中,keyi表示由主題詞抽取算法抽取的第i個(gè)主題詞。C(keyi,keyj)是由公式(2)計(jì)算得到的主題詞的共現(xiàn)度。

    考慮微博語(yǔ)義層面的相似度,計(jì)算任意兩個(gè)主題詞的語(yǔ)義相似度,得到主題詞語(yǔ)義相似度矩陣N:

    式中,keyi表示由主題詞抽取算法抽取的第i個(gè)主題詞。S(keyi,keyj)是由參考文獻(xiàn)[16]的語(yǔ)義計(jì)算公式計(jì)算得到的主題詞的語(yǔ)義相似度。

    2.4.2 微博新聞話題識(shí)別

    為了提升主題詞聚類的效果,進(jìn)而引入集合的概念。為此把矩陣M、N每行均按照公式(5)做歸一化處理得到矩陣M',N'。

    其中Yij為歸一化之后的值,Xij為矩陣M和N中的元素第i行和第j列的元素,mini、maxi分別為矩陣M和N中第i行的最小值和最大值。

    在聚類之前,根據(jù)矩陣M'和N'為每一個(gè)主題詞抽取了共現(xiàn)度最高的k個(gè)詞構(gòu)成該主題詞的候選語(yǔ)義集合,標(biāo)記為KEYi={ki1,ki2,…,kik}。k值的大小直接影響主題詞聚類的效果,從而調(diào)控“錯(cuò)誤傳播”發(fā)生的概率。k值過(guò)大會(huì)造成本來(lái)不屬于同一語(yǔ)義集合的詞匯信息也融入到計(jì)算中,會(huì)使實(shí)驗(yàn)結(jié)果產(chǎn)生一定的偏差;k值太小會(huì)漏掉同一語(yǔ)義集合中詞匯的信息,從而造成實(shí)驗(yàn)結(jié)果精度缺失。k值由實(shí)驗(yàn)調(diào)參得到,本文中取k為4。

    為描述方便,引入如下公式:

    其中,Sim1描述兩個(gè)語(yǔ)義集合詞詞素共現(xiàn)的信息,Sim2描述兩個(gè)語(yǔ)義集合語(yǔ)義層面共現(xiàn)的信息。

    語(yǔ)義集合更直觀、準(zhǔn)確地反映了兩個(gè)主題詞匯之間的語(yǔ)義關(guān)系,在本文中使用如下公式對(duì)主題詞進(jìn)行聚類:

    即,第i個(gè)主題詞應(yīng)該歸入使上式最大化的主題詞j的集合KEYj。

    最后根據(jù)矩陣M'和N',把同一語(yǔ)義集合內(nèi)的主題詞之間連邊,并把孤立點(diǎn)去除之后得到語(yǔ)義共現(xiàn)圖。共現(xiàn)圖中可能包含多個(gè)簇,也就意味著該時(shí)間窗口中包含多個(gè)熱點(diǎn)話題,簇的大小也直觀地反映了該話題的熱度。

    本文提出的算法不是單純地考慮兩個(gè)主題詞之間的共現(xiàn)度,而是對(duì)微博進(jìn)行了語(yǔ)義計(jì)算,從而構(gòu)建語(yǔ)義共現(xiàn)圖。實(shí)驗(yàn)證明,本文采用的方法能夠有效地降低“錯(cuò)誤傳播”的風(fēng)險(xiǎn),提升主題詞匯聚類的正確率。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)準(zhǔn)備

    為了本文的研究,使用由武漢大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室共享的新浪微博話題檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集包括2013年4月16日到2013年4月24日,共9天約150萬(wàn)條的實(shí)時(shí)微博數(shù)據(jù)。除去停用詞之后,將長(zhǎng)度小于5的微博刪除,剩下的微博作為有效的微博。有效微博的分布情況如圖3。

    圖3 有效微博文本分布圖

    3.2 評(píng)測(cè)主題詞的抽取

    為了評(píng)估主題詞的抽取效果,把2013-04-16到2013-04-24共9天的微博數(shù)據(jù)分成了9組(以天為單位),對(duì)該時(shí)間段內(nèi)的微博數(shù)據(jù)進(jìn)行人工標(biāo)注。該時(shí)間段內(nèi)微博熱議的主要新聞話題有“復(fù)旦投毒案”、“波士頓爆炸”、“黃金暴跌”、“雅安地震”等事件。對(duì)每個(gè)時(shí)間窗口中的數(shù)據(jù)按照前面所述的主題詞抽取算法進(jìn)行主題詞抽取,考慮到每天新聞話題的數(shù)量及其主題詞的分布,實(shí)驗(yàn)中設(shè)定閾值T為100,即權(quán)重最高的100個(gè)詞作為主題詞。為了評(píng)估主題詞抽取的質(zhì)量,人工計(jì)算該100個(gè)主題詞與當(dāng)前標(biāo)注的新聞話題相關(guān)的主題詞數(shù),最后求平均值。實(shí)驗(yàn)中λ依次從0.1取到0.9,比較λ對(duì)相關(guān)主題詞數(shù)的影響,如圖4所示。

    圖4 λ對(duì)相關(guān)主題詞的影響

    實(shí)驗(yàn)表明,當(dāng)λ取0.4時(shí),主題詞的抽取效果達(dá)到最佳,此時(shí)前100個(gè)主題詞中有64個(gè)是相關(guān)主題詞。

    3.3 評(píng)測(cè)話題識(shí)別

    為了評(píng)估主題詞聚類的效果,選取了若干熱門(mén)話題,u依次從0.1取到0.9,比較u對(duì)這些話題相關(guān)主題詞數(shù)的影響,如圖5所示。實(shí)驗(yàn)表明,當(dāng)u取0.6時(shí),主題詞的聚類效果達(dá)到最佳。

    圖5 u對(duì)話題質(zhì)量的影響

    圖6給出了本文方法抽取的4月26日的熱門(mén)話題,可以看出,本文方法不僅檢測(cè)出了熱門(mén)的新聞話題,“黃金暴跌”、“國(guó)防部公布海陸空力量”這樣的新聞話題也被檢測(cè)出來(lái),這說(shuō)明本文的方法具備一定的靈敏性,能夠識(shí)別出盡可能多的新聞話題。

    圖6 主題詞共現(xiàn)圖

    表1是若干天的實(shí)驗(yàn)結(jié)果(僅列出最熱門(mén)的一個(gè)話題)。從實(shí)驗(yàn)結(jié)果中可以看出,使用詞共現(xiàn)方法檢測(cè)的話題“波士頓爆炸”和“雅安地震”都存在“錯(cuò)誤傳播”。原因是波士頓爆炸期間襄樊某地發(fā)生了火災(zāi),爆炸案和火災(zāi)二者詞共現(xiàn)的頻率較高,但是二者沒(méi)有語(yǔ)義上的關(guān)聯(lián)。“雅安地震”話題的錯(cuò)誤傳播是由于巴基斯坦和雅安先后發(fā)生過(guò)地震,而二者屬于兩個(gè)不同的熱門(mén)話題。從對(duì)比實(shí)驗(yàn)可以看出,本文提出的基于語(yǔ)義共現(xiàn)的方法在一定程度上解決了“錯(cuò)誤傳播”的問(wèn)題,抽取出來(lái)的話題的質(zhì)量更高。

    表1 若干天的熱門(mén)話題

    4 結(jié)論及下一步工作

    微博熱點(diǎn)新聞話題的識(shí)別研究有著重要的應(yīng)用背景,本文提出了一種基于語(yǔ)義共現(xiàn)圖的微博新聞話題識(shí)別的方法。該方法通過(guò)預(yù)處理、抽取主題詞、構(gòu)建語(yǔ)義共現(xiàn)圖等步驟來(lái)識(shí)別微博新聞話題。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性、靈敏性。本文充分利用了微博主題詞之間的語(yǔ)義關(guān)系,從而能夠在一定程度上避免“錯(cuò)誤傳播”,較準(zhǔn)確地區(qū)分出當(dāng)前的熱門(mén)話題。

    本文仍有可以改進(jìn)之處。一方面,分詞破壞了詞之間的語(yǔ)義關(guān)系,尤其對(duì)于微博這樣的短文本。避開(kāi)分詞,直接提取短語(yǔ)或者詞串能夠更直觀地反應(yīng)一個(gè)新聞話題。另一方面本文只考慮了新浪微博一個(gè)數(shù)據(jù)源,而熱門(mén)的新聞話題往往廣泛分布在不同的數(shù)據(jù)源中(比如騰訊微博、網(wǎng)易微博等)。整合多個(gè)數(shù)據(jù)源的信息,進(jìn)而進(jìn)行熱門(mén)話題的識(shí)別能夠保證話題的廣泛性和公正性,也是將來(lái)工作的方向。

    [1]閆瑞,曹先彬,李凱.面向短文本的動(dòng)態(tài)組合分類算法[J].電子學(xué)報(bào),2009,37(5):1019-1024.

    [2]彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學(xué)報(bào),2011,25(1):54-59.

    [3]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short text feature selection for microblog mining[C]//The 4th International Conference on Computational Intelligence and Software Engineer,Wuhan,China,2010:1-4.

    [4]王樂(lè),田李,賈焰,等.擴(kuò)展向量空間上的短語(yǔ)消息聚類[J].計(jì)算機(jī)研究與發(fā)展,2007(2).

    [5]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì),2010.

    [6]Yan X,Zhao H.Chinese microblog topic detection based on the latent semantic analysis and structural property[J]. Journal of Networks,2013,8(4):917-923.

    [7]Sun Q,Wang Q,Qiao H.The algorithm of short message hot topic detection based on feature association[J]. Information Technology Journal,2009,8:236-240.

    [8]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.

    [9]周振宇.基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究[D].上海:上海交通大學(xué),2013.

    [10]聶恩倫,陳黎,王亞強(qiáng),等.基于K近鄰的新話題熱度預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,39(S6):257-260.

    [11]趙愛(ài)華.面向網(wǎng)絡(luò)新聞的話題檢測(cè)技術(shù)研究[D].濟(jì)南:山東師范大學(xué),2013.

    [12]林雪能,陳光,朱帥,等.基于語(yǔ)義框架的新聞話題檢測(cè)[EB/OL].(2012-12-27).http://www.paper.edu.cn/releasepaper/content/201212-1055.

    [13]張華平,劉群.計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS[EB/OL].(2010-08-25).http://www.nlp.org.cn/project/project.php.

    [14]Wartena C,Brussee R.Topic detection by clustering keywords[C]//19th International Workshop on Database and Expert Systems Application,2008:54-58.

    [15]Chen K Y,Luesukprasert L,Chou S.Hot topic extraction based on timeline analysis and multidimensional sentence modeling[J].IEEE Transactions on Know ledge and Data Engineering,2007,19(8):1016-1025.

    [16]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.

    WANG Lulu,ZHENG Tao,CHENG Qianqian,JI Donghong

    School of Computer,Wuhan University,Wuhan 430072,China

    A method of new s topics detection from large-scale short posts of microblogs is proposed.The TF-IDF,the document frequency increase rate and the named entity recognition are considered to extract new keywords from microblogs after pretreatment.A semantic co-occurrence graph is build by co-occurrence degrees of keywords,each unconnected cluster in a semantic co-occurrence graph is taken as a new s topic.Experiments are taken on Sina microblogs data sets and the experimental results show the proposed method works well.

    microblog;keywords;semantic co-occurrence graph;new s topic detection

    WANG Lu lu,ZHENG Tao,CHENG Qianqian,et al.Discovering new s topics from microb logs based on semantic co-occurrence.Computer Engineering and Applications,2014,50(17):150-154.

    A

    TP391.1

    10.3778/j.issn.1002-8331.1312-0102

    國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(No.61133012);國(guó)家自然科學(xué)基金面上項(xiàng)目(No.61173062)。

    王路路(1989—),男,碩士生,研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)挖掘、個(gè)性化推薦等;鄭濤(1992—),男,碩士生,研究領(lǐng)域?yàn)樾畔z索等;程倩倩(1989—),男,碩士生,研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等;姬東鴻(1968—),男,博士,博士生導(dǎo)師,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、語(yǔ)義網(wǎng)技術(shù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。E-mail:wang_uu89@163.com

    2013-12-09

    2014-01-07

    1002-8331(2014)17-0150-05

    能夠準(zhǔn)確地描述一個(gè)新聞話題,主題詞的抽取效果直接影響著新聞話題識(shí)別的效果。根據(jù)文獻(xiàn)[14-15],一般新聞話題中的主題詞有兩個(gè)重要的特性:(1)廣泛性,一個(gè)話題的出現(xiàn)的短期內(nèi),會(huì)引起大量的關(guān)注,從而與該話題相關(guān)的主題詞將廣泛分布在微博中;(2)典型性,新聞話題一般內(nèi)容新穎,之前很少出現(xiàn)相似的內(nèi)容,在某個(gè)特定時(shí)間段內(nèi)忽然出現(xiàn)。本文把TF-IDF和文檔頻率增長(zhǎng)率作為抽取主題詞的2個(gè)主要影響因素。

    猜你喜歡
    主題詞短文文檔
    有人一聲不吭向你扔了個(gè)文檔
    KEYS
    Keys
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
    我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
    2014年第16卷第1~4期主題詞索引
    《疑難病雜志》2014年第13卷主題詞索引
    短文改錯(cuò)
    久热久热在线精品观看| 亚洲精品自拍成人| www.色视频.com| 国产黄a三级三级三级人| 两个人视频免费观看高清| 亚洲国产精品成人久久小说| 久久久精品大字幕| 小说图片视频综合网站| 久久国产乱子免费精品| 久久6这里有精品| 三级国产精品片| 久久这里有精品视频免费| 在线天堂最新版资源| 在线观看一区二区三区| 免费看美女性在线毛片视频| 桃色一区二区三区在线观看| 久久亚洲国产成人精品v| 亚洲第一区二区三区不卡| 色噜噜av男人的天堂激情| 91久久精品国产一区二区三区| 男插女下体视频免费在线播放| 男人狂女人下面高潮的视频| 熟妇人妻久久中文字幕3abv| 黄片无遮挡物在线观看| 久久久精品94久久精品| 日本欧美国产在线视频| 丝袜喷水一区| 欧美日韩综合久久久久久| 91aial.com中文字幕在线观看| 久久人人爽人人爽人人片va| 国产精华一区二区三区| 99热精品在线国产| 两个人的视频大全免费| 国产高清视频在线观看网站| 插阴视频在线观看视频| av黄色大香蕉| 永久网站在线| 亚洲国产欧美人成| 免费在线观看成人毛片| 亚洲精华国产精华液的使用体验| 亚洲av中文av极速乱| 亚洲熟妇中文字幕五十中出| 禁无遮挡网站| 夜夜爽夜夜爽视频| 91久久精品电影网| 久久久久久久午夜电影| 秋霞在线观看毛片| 亚洲在久久综合| 久久久午夜欧美精品| 变态另类丝袜制服| 人妻系列 视频| 天堂av国产一区二区熟女人妻| 天堂中文最新版在线下载 | 国产午夜精品论理片| 日韩人妻高清精品专区| 一级毛片久久久久久久久女| 国产精品久久久久久久久免| 网址你懂的国产日韩在线| 26uuu在线亚洲综合色| 久久99热这里只频精品6学生 | 国产精品一区二区性色av| 国产成人免费观看mmmm| 69av精品久久久久久| 91精品国产九色| 啦啦啦韩国在线观看视频| 亚洲第一区二区三区不卡| 五月伊人婷婷丁香| 国模一区二区三区四区视频| 亚洲天堂国产精品一区在线| 三级国产精品欧美在线观看| 男女边吃奶边做爰视频| 干丝袜人妻中文字幕| 亚洲性久久影院| 只有这里有精品99| 亚洲欧洲日产国产| 久久6这里有精品| 听说在线观看完整版免费高清| av女优亚洲男人天堂| 国产一区有黄有色的免费视频 | 亚州av有码| 最近视频中文字幕2019在线8| 天美传媒精品一区二区| 国产片特级美女逼逼视频| 日韩av在线大香蕉| 一本久久精品| 国产一级毛片在线| 欧美潮喷喷水| 午夜免费男女啪啪视频观看| 亚洲中文字幕一区二区三区有码在线看| 汤姆久久久久久久影院中文字幕 | 全区人妻精品视频| 久久亚洲精品不卡| 国产精品三级大全| 成人漫画全彩无遮挡| 少妇人妻精品综合一区二区| 欧美高清性xxxxhd video| 丝袜喷水一区| 美女脱内裤让男人舔精品视频| 男人舔女人下体高潮全视频| 久久99热这里只有精品18| 国产成人91sexporn| 中国国产av一级| 女人十人毛片免费观看3o分钟| 日韩高清综合在线| 精品久久久久久成人av| 人妻制服诱惑在线中文字幕| 永久免费av网站大全| ponron亚洲| eeuss影院久久| 变态另类丝袜制服| 日韩强制内射视频| 免费大片18禁| 国产亚洲精品久久久com| 国产视频内射| 成年av动漫网址| 午夜精品一区二区三区免费看| 美女被艹到高潮喷水动态| 两性午夜刺激爽爽歪歪视频在线观看| 免费av不卡在线播放| 永久网站在线| 婷婷六月久久综合丁香| 听说在线观看完整版免费高清| 久99久视频精品免费| 亚洲不卡免费看| 尾随美女入室| 精品国内亚洲2022精品成人| 国产av码专区亚洲av| 久久久午夜欧美精品| 日本wwww免费看| 亚洲精品久久久久久婷婷小说 | 又粗又硬又长又爽又黄的视频| 我要搜黄色片| 国产精品久久久久久av不卡| 中文乱码字字幕精品一区二区三区 | 白带黄色成豆腐渣| 国内精品一区二区在线观看| 高清午夜精品一区二区三区| 男女啪啪激烈高潮av片| 蜜臀久久99精品久久宅男| 看非洲黑人一级黄片| 久久久成人免费电影| 亚洲国产欧洲综合997久久,| 天美传媒精品一区二区| 最近2019中文字幕mv第一页| 九九爱精品视频在线观看| 精品久久久久久久人妻蜜臀av| 精品少妇黑人巨大在线播放 | 在线免费观看的www视频| 成人漫画全彩无遮挡| 一本一本综合久久| 午夜爱爱视频在线播放| 嫩草影院入口| 成人性生交大片免费视频hd| 午夜福利成人在线免费观看| 免费观看精品视频网站| 伦精品一区二区三区| 看免费成人av毛片| 国产精品福利在线免费观看| 亚洲av免费在线观看| 91久久精品国产一区二区成人| 中文在线观看免费www的网站| 国产精品一区二区性色av| av在线天堂中文字幕| 免费黄网站久久成人精品| 大话2 男鬼变身卡| 一区二区三区四区激情视频| 国产精品电影一区二区三区| 色综合亚洲欧美另类图片| 久久久久网色| 大香蕉久久网| 国产一区二区在线av高清观看| 麻豆精品久久久久久蜜桃| 久久久久久久久久久免费av| 久久久精品94久久精品| 99久久成人亚洲精品观看| 久久久久久九九精品二区国产| 日韩成人av中文字幕在线观看| 99久久人妻综合| 国产女主播在线喷水免费视频网站 | 免费观看性生交大片5| 在线播放国产精品三级| 中文天堂在线官网| 天天躁日日操中文字幕| 欧美日本视频| 国产精品,欧美在线| 免费在线观看成人毛片| 国产成人精品久久久久久| 久久久精品欧美日韩精品| 日本三级黄在线观看| 亚洲第一区二区三区不卡| 国产精品精品国产色婷婷| 尤物成人国产欧美一区二区三区| 欧美又色又爽又黄视频| 国产精华一区二区三区| 色综合色国产| 嫩草影院精品99| 亚洲国产精品久久男人天堂| 日本五十路高清| 99久久无色码亚洲精品果冻| 国产午夜精品论理片| 国产精品国产三级国产av玫瑰| 少妇人妻精品综合一区二区| 成年女人看的毛片在线观看| 成人特级av手机在线观看| 特大巨黑吊av在线直播| 国产极品天堂在线| 国产亚洲精品久久久com| 伦精品一区二区三区| 亚洲一级一片aⅴ在线观看| 麻豆精品久久久久久蜜桃| 欧美日韩综合久久久久久| 我要看日韩黄色一级片| 99热这里只有是精品50| 久久久久精品久久久久真实原创| 久久久久网色| 人体艺术视频欧美日本| 久久6这里有精品| 欧美潮喷喷水| 亚洲av男天堂| 韩国av在线不卡| 一级黄色大片毛片| 搡老妇女老女人老熟妇| 亚洲在线观看片| 国产午夜精品久久久久久一区二区三区| av国产久精品久网站免费入址| 天堂av国产一区二区熟女人妻| 免费播放大片免费观看视频在线观看 | 十八禁国产超污无遮挡网站| 欧美日韩综合久久久久久| 国产高清视频在线观看网站| 国产乱来视频区| 国产精品人妻久久久久久| 亚洲av成人精品一二三区| 国产中年淑女户外野战色| 一个人看的www免费观看视频| 国产成人福利小说| 国产一区有黄有色的免费视频 | 久久久久久久久久黄片| 久久久久久久国产电影| 2021天堂中文幕一二区在线观| 国产精品久久久久久av不卡| 伊人久久精品亚洲午夜| 亚洲av电影在线观看一区二区三区 | 一级毛片我不卡| 国产伦在线观看视频一区| 国产精品国产三级国产av玫瑰| 国产精品伦人一区二区| 又粗又爽又猛毛片免费看| 丰满少妇做爰视频| 岛国毛片在线播放| 日韩成人av中文字幕在线观看| 青春草视频在线免费观看| 免费播放大片免费观看视频在线观看 | 久久这里有精品视频免费| 精品久久久久久电影网 | 亚洲国产精品专区欧美| 国产精品美女特级片免费视频播放器| 欧美激情久久久久久爽电影| 久久久精品欧美日韩精品| 男女那种视频在线观看| 亚洲精品成人久久久久久| 国产精品嫩草影院av在线观看| 黄色一级大片看看| 日韩成人av中文字幕在线观看| 欧美潮喷喷水| 亚洲av福利一区| 99久国产av精品| 国产成人精品久久久久久| 久久韩国三级中文字幕| 欧美日本视频| 亚洲最大成人av| 国产又黄又爽又无遮挡在线| 亚洲欧洲国产日韩| 一级av片app| 日韩欧美 国产精品| 97热精品久久久久久| 一个人看视频在线观看www免费| 国产成人精品婷婷| 国产亚洲av片在线观看秒播厂 | 亚洲av福利一区| 亚洲不卡免费看| 国产精品无大码| 久久精品夜色国产| 国产乱人视频| 国产精品久久久久久精品电影小说 | 日本av手机在线免费观看| 大又大粗又爽又黄少妇毛片口| 亚洲欧洲国产日韩| 一卡2卡三卡四卡精品乱码亚洲| 午夜福利在线在线| 国产中年淑女户外野战色| 寂寞人妻少妇视频99o| 久久韩国三级中文字幕| 国产精品.久久久| 国产精品精品国产色婷婷| 啦啦啦韩国在线观看视频| 免费av毛片视频| 午夜精品国产一区二区电影 | 欧美+日韩+精品| 九色成人免费人妻av| 国产亚洲av片在线观看秒播厂 | 变态另类丝袜制服| 一级爰片在线观看| 精品一区二区免费观看| 亚洲欧美精品综合久久99| 精品人妻偷拍中文字幕| 成人性生交大片免费视频hd| 纵有疾风起免费观看全集完整版 | 午夜爱爱视频在线播放| 91久久精品电影网| 国产精品熟女久久久久浪| 夫妻性生交免费视频一级片| 色播亚洲综合网| 麻豆成人av视频| 综合色av麻豆| 亚洲人成网站在线观看播放| 久久久久久国产a免费观看| 亚洲在线观看片| 国产私拍福利视频在线观看| 色尼玛亚洲综合影院| 亚洲精品日韩av片在线观看| 一级av片app| av在线观看视频网站免费| 亚洲欧美中文字幕日韩二区| 国产精品一区二区性色av| 男插女下体视频免费在线播放| 国产精品1区2区在线观看.| 少妇裸体淫交视频免费看高清| 天堂av国产一区二区熟女人妻| 欧美精品国产亚洲| 精品人妻一区二区三区麻豆| 菩萨蛮人人尽说江南好唐韦庄 | 久久99蜜桃精品久久| 午夜激情福利司机影院| 久久精品人妻少妇| 水蜜桃什么品种好| 婷婷色麻豆天堂久久 | 少妇丰满av| 久久草成人影院| 中文欧美无线码| 最近的中文字幕免费完整| 中文天堂在线官网| 热99re8久久精品国产| 久久久久久九九精品二区国产| 精品欧美国产一区二区三| 亚洲电影在线观看av| 国产免费视频播放在线视频 | 欧美日本亚洲视频在线播放| 18禁在线无遮挡免费观看视频| 亚洲精品一区蜜桃| 男插女下体视频免费在线播放| 国产综合懂色| 精品一区二区三区人妻视频| 男女边吃奶边做爰视频| 久久久久性生活片| 久久精品91蜜桃| 搡老妇女老女人老熟妇| 中文字幕久久专区| 2021天堂中文幕一二区在线观| 一个人免费在线观看电影| 精品久久久噜噜| 国产三级在线视频| 日韩高清综合在线| 中文资源天堂在线| 亚洲成人中文字幕在线播放| 一区二区三区免费毛片| 天堂影院成人在线观看| 全区人妻精品视频| 少妇的逼好多水| 超碰97精品在线观看| 国语自产精品视频在线第100页| 最近最新中文字幕免费大全7| 99热6这里只有精品| 日韩国内少妇激情av| 九色成人免费人妻av| 麻豆av噜噜一区二区三区| 国产高清不卡午夜福利| 久久久久精品久久久久真实原创| 亚洲精品国产av成人精品| 欧美潮喷喷水| av又黄又爽大尺度在线免费看 | 国产免费一级a男人的天堂| 老司机影院成人| 我的老师免费观看完整版| 亚洲av免费高清在线观看| 亚洲欧美精品自产自拍| 乱系列少妇在线播放| 国产三级中文精品| 成年免费大片在线观看| 看非洲黑人一级黄片| 成年av动漫网址| 九九久久精品国产亚洲av麻豆| 国产在线一区二区三区精 | 嘟嘟电影网在线观看| 国产午夜精品久久久久久一区二区三区| 女人被狂操c到高潮| 亚洲欧美日韩无卡精品| 欧美成人午夜免费资源| 亚洲精品乱久久久久久| 国产淫语在线视频| 嫩草影院精品99| 伦精品一区二区三区| 最近中文字幕高清免费大全6| 国产毛片a区久久久久| 亚洲欧美日韩卡通动漫| 精品国产露脸久久av麻豆 | 麻豆av噜噜一区二区三区| 精品人妻视频免费看| 国产v大片淫在线免费观看| 久久精品国产自在天天线| 亚洲不卡免费看| 高清日韩中文字幕在线| 亚洲在线观看片| 国产亚洲午夜精品一区二区久久 | 久久久精品大字幕| 亚洲精品国产成人久久av| 色5月婷婷丁香| 日韩成人av中文字幕在线观看| 黄色一级大片看看| 男人的好看免费观看在线视频| 免费观看在线日韩| 少妇人妻精品综合一区二区| 91av网一区二区| 精品99又大又爽又粗少妇毛片| 亚洲伊人久久精品综合 | 久久这里只有精品中国| 国产日韩欧美在线精品| 久久久久久久午夜电影| 亚洲欧美日韩东京热| 亚洲高清免费不卡视频| 亚洲中文字幕一区二区三区有码在线看| 亚洲国产精品成人久久小说| 国产精品福利在线免费观看| 蜜桃久久精品国产亚洲av| 我的女老师完整版在线观看| 成人欧美大片| 99九九线精品视频在线观看视频| 色综合色国产| 日本欧美国产在线视频| 国产精品国产三级专区第一集| 国产91av在线免费观看| 亚洲av男天堂| 日韩一区二区视频免费看| av在线天堂中文字幕| 欧美激情久久久久久爽电影| 美女cb高潮喷水在线观看| 国产精品一区二区性色av| 少妇人妻精品综合一区二区| 少妇被粗大猛烈的视频| 亚洲人成网站高清观看| 舔av片在线| 国产精品一区二区三区四区免费观看| 日韩高清综合在线| 欧美精品一区二区大全| 麻豆乱淫一区二区| 热99在线观看视频| 99热精品在线国产| 国产黄色小视频在线观看| 夫妻性生交免费视频一级片| 人妻少妇偷人精品九色| 日本色播在线视频| 乱码一卡2卡4卡精品| 色哟哟·www| 欧美人与善性xxx| 18禁在线无遮挡免费观看视频| 日本黄大片高清| 最近的中文字幕免费完整| 久久国产乱子免费精品| 久久久a久久爽久久v久久| 97在线视频观看| 欧美人与善性xxx| 18禁在线无遮挡免费观看视频| 国内精品美女久久久久久| 免费在线观看成人毛片| 亚洲怡红院男人天堂| 国产探花在线观看一区二区| 观看美女的网站| 亚洲色图av天堂| 99久久精品国产国产毛片| 波多野结衣高清无吗| 国产91av在线免费观看| 国产成人精品婷婷| 内射极品少妇av片p| 一级毛片我不卡| 日韩人妻高清精品专区| 亚洲av电影不卡..在线观看| av又黄又爽大尺度在线免费看 | 国产成人福利小说| 国产精品乱码一区二三区的特点| 国产精华一区二区三区| 日本与韩国留学比较| 久久久久久久久久久丰满| 精品久久久久久久久av| 亚洲最大成人中文| 午夜精品在线福利| 亚洲乱码一区二区免费版| 在线播放国产精品三级| 亚洲精品国产成人久久av| 少妇高潮的动态图| 成人av在线播放网站| 日本色播在线视频| 欧美一级a爱片免费观看看| 深爱激情五月婷婷| 全区人妻精品视频| 韩国高清视频一区二区三区| 国产私拍福利视频在线观看| 亚洲成av人片在线播放无| 嫩草影院入口| 日韩av在线免费看完整版不卡| 成人亚洲精品av一区二区| 亚洲av福利一区| 欧美+日韩+精品| 国产在视频线精品| 2022亚洲国产成人精品| av线在线观看网站| 久久久久久国产a免费观看| 国产成人freesex在线| 精品久久久久久久末码| 麻豆久久精品国产亚洲av| 建设人人有责人人尽责人人享有的 | av卡一久久| 日韩欧美 国产精品| 欧美成人免费av一区二区三区| 亚洲精品色激情综合| 伦精品一区二区三区| 男人的好看免费观看在线视频| 国产亚洲5aaaaa淫片| 蜜桃久久精品国产亚洲av| 色哟哟·www| 国产精品.久久久| 精品人妻熟女av久视频| 国产不卡一卡二| 久久精品熟女亚洲av麻豆精品 | 国内精品宾馆在线| 免费观看a级毛片全部| 男女那种视频在线观看| 国产黄色小视频在线观看| 国产午夜福利久久久久久| 成年免费大片在线观看| 亚洲精品色激情综合| 熟妇人妻久久中文字幕3abv| 久久久色成人| 婷婷色综合大香蕉| 国产精品野战在线观看| 亚洲五月天丁香| 亚洲精品乱码久久久久久按摩| 久久精品国产亚洲av天美| 亚洲在线自拍视频| 免费观看人在逋| 亚洲欧美精品自产自拍| 欧美成人免费av一区二区三区| 99在线人妻在线中文字幕| 国产毛片a区久久久久| 能在线免费观看的黄片| 草草在线视频免费看| 欧美高清成人免费视频www| 嫩草影院入口| 亚洲真实伦在线观看| 国产高清三级在线| 精品免费久久久久久久清纯| 国内精品美女久久久久久| 亚洲国产成人一精品久久久| 国国产精品蜜臀av免费| 亚洲经典国产精华液单| 国产精品国产三级国产专区5o | 亚洲无线观看免费| 春色校园在线视频观看| 村上凉子中文字幕在线| 国产精品麻豆人妻色哟哟久久 | 中文字幕制服av| 久久精品综合一区二区三区| 精品国产一区二区三区久久久樱花 | 亚洲无线观看免费| 国产精品嫩草影院av在线观看| 国产一区二区在线观看日韩| 国产在线男女| 国产在视频线精品| 婷婷色综合大香蕉| 赤兔流量卡办理| 一级毛片我不卡| 亚洲欧美精品专区久久| 联通29元200g的流量卡| 性插视频无遮挡在线免费观看| 精品一区二区三区人妻视频| 内地一区二区视频在线| 男女国产视频网站| 欧美三级亚洲精品| 一卡2卡三卡四卡精品乱码亚洲| a级毛片免费高清观看在线播放| 99视频精品全部免费 在线| 国产一级毛片在线| 97在线视频观看| 国产精品久久久久久久电影| 欧美成人免费av一区二区三区| 国产精品日韩av在线免费观看| 最近中文字幕2019免费版| 久久草成人影院| 色综合站精品国产| 久久精品91蜜桃| 精品久久久久久成人av| 欧美性猛交╳xxx乱大交人| 国产极品精品免费视频能看的| 久久草成人影院| 成人特级av手机在线观看| 亚洲电影在线观看av| 欧美另类亚洲清纯唯美| 久久久精品欧美日韩精品| 国产精品一区二区性色av| 亚洲精品一区蜜桃| 嫩草影院新地址| 国产三级中文精品| 久久久精品大字幕| 好男人视频免费观看在线| 亚洲精品,欧美精品| 成人一区二区视频在线观看|