• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于半監(jiān)督DPMM的新聞話題檢測(cè)

    2016-10-26 02:32:59姚冬冬
    關(guān)鍵詞:個(gè)數(shù)語義聚類

    姚冬冬 , 袁 方 , 王 煜, 劉 宇

    (1.河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 河北 保定 071000; 2.河北大學(xué) 計(jì)算機(jī)教學(xué)部河北 保定 071000; 3.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院 河北 保定 071000)

    ?

    基于半監(jiān)督DPMM的新聞話題檢測(cè)

    姚冬冬1,袁方2,3,王煜1,劉宇3

    (1.河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院河北 保定 071000; 2.河北大學(xué) 計(jì)算機(jī)教學(xué)部河北 保定 071000; 3.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院河北 保定 071000)

    基于狄利克雷過程混合模型(DPMM)這一非參數(shù)貝葉斯生成模型,從語義的角度入手,結(jié)合其自動(dòng)確定聚類個(gè)數(shù)的特性進(jìn)行話題檢測(cè),運(yùn)用了聚類個(gè)數(shù)K值由大到小變化的采樣策略,通過逐層遞進(jìn)的形式獲取到較為準(zhǔn)確的K值,并在此基礎(chǔ)上對(duì)語義聚類的詞頻特性加以分析,引入一組名詞實(shí)體作為“熱點(diǎn)特征詞”來引導(dǎo)聚類過程,從而給出了DPMM半監(jiān)督模型.實(shí)驗(yàn)結(jié)果表明,所給出的話題檢測(cè)方法在TDT4語料上取得了較好的檢測(cè)性能.

    話題檢測(cè); 狄利克雷過程; Gibbs采樣; 冪律特性; 名詞實(shí)體

    0 引言

    隨著互聯(lián)網(wǎng)的快速發(fā)展和移動(dòng)媒體的廣泛普及,網(wǎng)絡(luò)成為人們獲取信息的重要途徑之一,如何有效地從雜亂的數(shù)據(jù)中獲取話題信息一直是文本挖掘領(lǐng)域的研究熱點(diǎn).話題檢測(cè)與追蹤(topic detection and tracking, TDT)[1]最早由美國(guó)國(guó)防部高級(jí)研究計(jì)劃署在1996年提出,其目的在于利用當(dāng)時(shí)的技術(shù)發(fā)現(xiàn)和追蹤新聞廣播流中的新事件.在多家機(jī)構(gòu)的共同努力下,TDT的研究?jī)?nèi)容和評(píng)測(cè)體系被正式確立并取得長(zhǎng)足發(fā)展.話題檢測(cè)是TDT中至關(guān)重要的環(huán)節(jié),近些年的相關(guān)研究包括聚類算法的融合[2]、相似度的組合[3]、名詞實(shí)體的引入[4]、主題模型的使用[5]等,并擴(kuò)展至其他相關(guān)領(lǐng)域[6].

    狄利克雷過程混合模型(Dirichlet process mixture models, DPMM)[7]作為非參數(shù)貝葉斯領(lǐng)域的基礎(chǔ)模型,是一種定義在無限維參數(shù)空間上的貝葉斯模型.文獻(xiàn)[8]通過引入一定的先驗(yàn)知識(shí)將DPMM應(yīng)用于動(dòng)詞語義聚類.文獻(xiàn)[9]綜述了DPMM、擴(kuò)展模型及其在機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用.文獻(xiàn)[10]將其引入到話題識(shí)別研究中,利用DPMM的特點(diǎn)解決話題識(shí)別任務(wù)中的參數(shù)設(shè)置問題.文獻(xiàn)[11]通過改進(jìn)空間約束使得DPMM在圖像處理上更加簡(jiǎn)單便捷.應(yīng)用于TDT工作時(shí),DPMM與潛在狄利克雷分配模型(latent Dirichlet allocation, LDA)[12]一樣,是一種具有文本主題表示能力的模型,在彌補(bǔ)VSM沒有考慮詞與詞之間語義聯(lián)系這一缺點(diǎn)的同時(shí),也可以用來解決LDA模型存在的主題數(shù)目需要指定的問題,為聚類分析中K值確定這一基礎(chǔ)性問題提供了解決方案,減輕了人工實(shí)驗(yàn)的負(fù)擔(dān).

    本文在研究分析DPMM模型的基礎(chǔ)上,對(duì)DPMM 模型進(jìn)行了兩個(gè)方面的改進(jìn):一是借鑒深度學(xué)習(xí)的基本思想,獲取到較為準(zhǔn)確的K值;二是分析語義聚類的詞頻特性,從詞性和名詞實(shí)體兩個(gè)角度改進(jìn)模型初始狀態(tài),引入的“熱點(diǎn)特征詞”給出了DPMM半監(jiān)督模型.實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的DPMM模型具有更好的話題檢測(cè)性能.

    1 DPMM模型研究

    伴隨著語義分析在話題研究中的應(yīng)用,主題模型將主題的概念引入到了話題研究之中.對(duì)于LDA等主題模型而言,文檔是由若干隱性主題混合而成,而主題則需要借助詞匯來描述.本節(jié)首先著重研究了狄利克雷過程及其構(gòu)造方法,其次是深入分析采樣公式,更加合理地將模型應(yīng)用在話題檢測(cè)之中.

    1.1狄利克雷過程

    狄利克雷過程(Dirichlet process, DP)[13]是狄利克雷分布在連續(xù)空間上的擴(kuò)展,和狄利克雷分布一樣具有共軛性[14].中國(guó)餐館過程[15]是指一個(gè)新的顧客坐在已有餐桌的概率與該餐桌上人數(shù)nc成正比,坐在新餐桌上的概率與參數(shù)α相關(guān),當(dāng)此過程趨于無窮時(shí),類簇個(gè)數(shù)最終會(huì)趨于一個(gè)平穩(wěn)值,具體表示如公式(1)所示.它是一種常見的直觀的DPMM描述方法,因此本文利用中國(guó)餐館過程對(duì)DP進(jìn)行構(gòu)造.

    (1)

    1.2DPMM模型

    假設(shè)一組樣本服從某種分布,分布的參數(shù)服從狄利克雷過程先驗(yàn)分布,參數(shù)的先驗(yàn)和后驗(yàn)分布采用狄利克雷過程構(gòu)造方法推斷,則該模型稱為狄利克雷過程混合模型(DPMM)[10].鑒于狄利克雷過程的構(gòu)造是概率和為1的離散分布,模型可以認(rèn)為是可數(shù)的無限混合[16].

    將DPMM引入到話題分析領(lǐng)域則可以構(gòu)建如圖1所示的生成模型[11],其中α和β為模型的超參數(shù),θ和φ分別代表主題分布和詞分布,z代表一個(gè)主題,w代表一個(gè)詞.生成一個(gè)詞的過程包括從一篇文檔的主題分布中生成一個(gè)主題,然后從這個(gè)主題的詞分布中生成一個(gè)詞的兩部分,m篇文檔對(duì)應(yīng)于m個(gè)獨(dú)立的狄利克雷過程.這里的生成過程同LDA模型類似,區(qū)別在于生成主題的過程中,DPMM模型的主題數(shù)目K并不會(huì)預(yù)先指定,而會(huì)隨著迭代過程變化修正.

    圖1 DPMM模型Fig.1 DPMM model

    后驗(yàn)計(jì)算方法一般采用積分的方式進(jìn)行,考慮到模型的復(fù)雜程度,本文采用基于馬爾科夫鏈蒙特卡羅(Markov chain Monte Carlo, MCMC)的吉布斯采樣(Gibbs sampling)算法,根據(jù)貝葉斯理論可得采樣公式(2).

    (2)

    公式(2)的第一部分代表生成主題的概率,可以用中國(guó)餐館過程來構(gòu)造.本文根據(jù)文獻(xiàn)[11,16-17]完善公式(1)得到公式(3),更加合理地將其應(yīng)用在話題模型之中,

    (3)

    其中:nm,z代表文檔m中屬于主題z的詞的個(gè)數(shù),nm代表文檔m中的詞的總個(gè)數(shù),此處可以簡(jiǎn)單理解為用主題將文檔進(jìn)行了劃分,并且主題數(shù)目可變.

    公式(2)的第二部分代表生成詞的概率,是從一個(gè)已知主題中生成一個(gè)詞,這其中的基本單位是該主題,包括該主題中的所有詞,不存在可變的因素,所以同LDA模型一樣,此處通常選取狄利克雷-多項(xiàng)式共軛過程,根據(jù)文獻(xiàn)[18]可得

    (4)

    綜合文獻(xiàn)[11]、公式(4)和文獻(xiàn)[17]給出的詞分布公式,可得

    (5)

    2 基于改進(jìn)K值的半監(jiān)督模型

    依據(jù)DP的特性和TDT研究的前提,本文中將主題與話題的概念等同,K值并非是類似于LDA中的主題個(gè)數(shù)而是聚類個(gè)數(shù),并在此基礎(chǔ)上從優(yōu)化聚類個(gè)數(shù)K和改善聚類結(jié)果兩個(gè)角度進(jìn)行了相應(yīng)改進(jìn).

    2.1DPMM模型的K值改進(jìn)

    DPMM模型為聚類個(gè)數(shù)K值確定這一基礎(chǔ)性問題提供了解決方案,但鑒于話題結(jié)構(gòu)的復(fù)雜性,自動(dòng)確定的K值也必然存在一定的準(zhǔn)確性問題,因此如何獲取較為準(zhǔn)確的K值是本文的研究重點(diǎn).

    由于語義分析的結(jié)果與類簇中語義信息量的大小有直接關(guān)系,因此,在采樣策略的選擇上,本文選取了聚類個(gè)數(shù)K值由大到小的變化方式,將初始K值設(shè)置為報(bào)道個(gè)數(shù)M,采樣過程中K值逐漸減小.變化的整體流程如算法1所示.具體過程是Gibbs采樣先將每篇報(bào)道中的各詞隨機(jī)分配到K個(gè)主題中,每次迭代依據(jù)采樣公式對(duì)各詞重新分配主題.在迭代過程中,如果某主題中詞數(shù)為0則去掉該主題,對(duì)應(yīng)K值減1;如果某詞不屬于現(xiàn)有主題,則將其分配到新的主題,對(duì)應(yīng)K值加1,收斂或達(dá)到迭代次數(shù)即終止采樣.

    在一輪Gibbs采樣收斂之后,數(shù)據(jù)顯示最終的聚類個(gè)數(shù)K距離樣本中話題個(gè)數(shù)有一定差距,聚類個(gè)數(shù)大于話題個(gè)數(shù)意味著將較大話題進(jìn)行了拆分.由于不同話題的報(bào)道數(shù)量并不均勻,數(shù)據(jù)往往具有較大的不平衡性,因此需要優(yōu)先考慮大話題即熱點(diǎn)話題的聚類性能,適當(dāng)增加初始類簇的語義信息量,減少初始K值的個(gè)數(shù).本文采用了逐層遞進(jìn)的形式來獲取較為理想的K值,即重復(fù)進(jìn)行多輪采樣,下一輪采樣的初始K值設(shè)置為上一輪采樣結(jié)束后得到的K值,具體描述見算法1.當(dāng)K值上下浮動(dòng)在2以內(nèi)時(shí),則認(rèn)為其近似穩(wěn)定.實(shí)驗(yàn)結(jié)果表明,K值在幾輪采樣后會(huì)趨于穩(wěn)定.

    算法1 改進(jìn)K值的采樣算法輸入:報(bào)道集合D,初始類數(shù)M,分布參數(shù)α、β.輸出:主題數(shù)目K,主題集合Φ.步驟:1WHILEK值不穩(wěn)定DO2隨機(jī)初始化:為每篇文檔中的每個(gè)詞w,隨機(jī)賦一個(gè)topic編號(hào)z∈(0,K-1).3掃描語料庫(kù),按照公式(2)、(3)和(5)重新采樣每個(gè)詞w的topic編號(hào)z,K值變化.4重復(fù)步驟3,直到采樣收斂,得到新主題數(shù)目K,新主題集合Φ.5ENDWHILE6RETURNK,Φ.

    2.2DPMM半監(jiān)督模型構(gòu)建

    由于采樣時(shí)初始的詞語分配是隨機(jī)分配到各個(gè)主題,在相同條件下進(jìn)行DPMM聚類實(shí)驗(yàn)得到的實(shí)驗(yàn)結(jié)果不盡相同.由于動(dòng)詞和名詞對(duì)新聞話題的表達(dá)貢獻(xiàn)程度較大,本文考慮首先去掉語料中除動(dòng)詞、名詞以外的其他詞語,用較少更具代表性的詞語來代表報(bào)道.

    圖2 半監(jiān)督模型過程Fig.2 Process of semi-supervised model

    根據(jù)Zipf定律,文檔的詞頻分布符合冪律分布,在語義分析中這種冪律分布將導(dǎo)致大量的低頻詞受少量高頻詞的主題分布的影響[19].本文參考文獻(xiàn)[8]的Cannot-link思想和文獻(xiàn)[20]中成對(duì)約束信息的融入操作,在聚類的基礎(chǔ)上加上少量先驗(yàn)知識(shí),通過統(tǒng)計(jì)詞頻和人工分析的方式篩選出一組由人名、地名和組織名構(gòu)成的名詞實(shí)體作為“熱點(diǎn)特征詞”.組內(nèi)各詞在采樣初始分配時(shí)不出現(xiàn)在同一個(gè)類中,而相同名詞則聚集在一起,構(gòu)建了DPMM半監(jiān)督模型,所作改進(jìn)并沒有破壞DPMM模型的聚類特性.半監(jiān)督模型的過程如圖2所示,具體描述見算法2.

    算法2  半監(jiān)督模型構(gòu)建算法

    3 實(shí)驗(yàn)

    為了驗(yàn)證所給方法的有效性,本節(jié)采用TDT4語料庫(kù)中的中文新聞?wù)Z料進(jìn)行實(shí)驗(yàn),對(duì)同一篇報(bào)道歸屬于兩個(gè)話題的情況進(jìn)行了去重操作,并根據(jù)實(shí)際需要,去掉了包含報(bào)道少于10篇的話題,采用具有較高普遍性的F值評(píng)測(cè)方法,進(jìn)行了第2節(jié)中提到的K值改進(jìn)和半監(jiān)督兩個(gè)方面的實(shí)驗(yàn),并就實(shí)驗(yàn)結(jié)果進(jìn)行了相關(guān)分析和比較.

    3.1評(píng)測(cè)標(biāo)準(zhǔn)

    F-measure評(píng)測(cè)方法[21]綜合了信息檢索中查準(zhǔn)率(precision)與查全率(recall)的思想來進(jìn)行聚類評(píng)價(jià).一個(gè)分類i與相關(guān)聚類j的查準(zhǔn)率P、查全率R和F值的定義為

    P=preciseon(i,j)=(Nij/Nj);R=recall(i,j)=Nij/Ni;F(i)=2PR/(P+R),

    (6)

    其中:Ni表示分類i中的樣例個(gè)數(shù),Nj表示聚類j中的樣例個(gè)數(shù),Nij表示分類i與聚類j共有的樣例個(gè)數(shù).對(duì)分類i而言,取具有最大F值的聚類j作為其最終的關(guān)聯(lián)聚類.因此對(duì)聚類結(jié)果來說,其總F值可由每個(gè)分類i的F值加權(quán)平均得到,

    (7)

    3.2K值改進(jìn)實(shí)驗(yàn)

    圖3 聚類個(gè)數(shù)與遞進(jìn)次數(shù)的關(guān)系Fig.3 Relationship between cluster numbers and progressive times

    為了充分發(fā)揮DPMM模型自主確定聚類個(gè)數(shù)K值的優(yōu)勢(shì),本實(shí)驗(yàn)采用第2.1節(jié)中提到的遞進(jìn)方式來獲得較為準(zhǔn)確的K值,在DPMM無監(jiān)督模式下進(jìn)行,每輪采用的K值為多次實(shí)驗(yàn)的均值.具體如圖3所示,聚類個(gè)數(shù)K隨遞進(jìn)次數(shù)的增加呈下降趨勢(shì),對(duì)應(yīng)于TDT4-2002和TDT4-2003的最終K值分別穩(wěn)定在30和20左右,與已標(biāo)注的話題個(gè)數(shù)較為接近.

    3.3DPMM半監(jiān)督實(shí)驗(yàn)

    本實(shí)驗(yàn)首先去掉了語料中除動(dòng)名詞以外的其他詞匯,適當(dāng)弱化了不同報(bào)道之間的相似性;其次在先驗(yàn)知識(shí)的選擇方面,本文以詞頻統(tǒng)計(jì)結(jié)果為依據(jù),選擇以地名為主、人名為輔的部分名詞實(shí)體作為“熱點(diǎn)特征詞”來實(shí)現(xiàn)2.2節(jié)中所描述的操作,如表1所示,進(jìn)而采用改進(jìn)K值后的DPMM半監(jiān)督模型來進(jìn)行實(shí)驗(yàn),并在相同語料上與DPMM基本模型、改進(jìn)K值后的基本模型進(jìn)行對(duì)比.

    表1 熱點(diǎn)特征詞列表Tab.1  Hot key words list

    表2列出了50次實(shí)驗(yàn)的平均值和最高值,DPMM表示基礎(chǔ)模型,DPMM-K表示改進(jìn)K值的模型,DPMM-S表示半監(jiān)督模型.由于這3種方法在初始化時(shí)都存在較大的隨機(jī)成分,因此其性能都不能簡(jiǎn)單地用平均F值來表示,而最大F值能夠體現(xiàn)出模型的最佳潛能.從表2中不難看出單純依靠DPMM模型無法實(shí)現(xiàn)較好的聚類效果,改進(jìn)K值后的模型實(shí)驗(yàn)效果有所提升,而半監(jiān)督模型在自動(dòng)確定聚類個(gè)數(shù)的同時(shí)顯著提高了模型的性能,有效保證了熱點(diǎn)話題的檢測(cè)結(jié)果.結(jié)合語料的構(gòu)成對(duì)比TDT4-2002和TDT4-2003可知,基于語義分析的DPMM模型性能受語義信息量的影響,TDT4-2002中包含的話題和報(bào)道個(gè)數(shù)都要大于TDT4-2003,因此在性能上略有下降.

    表2 不同方法的F值比較Tab.2  F value comparison of different methods

    4 結(jié)束語

    本文在DPMM模型的基礎(chǔ)上,完善了中國(guó)餐館過程在模型中的運(yùn)用,采用了K值由大到小變化的采樣策略,并結(jié)合深度學(xué)習(xí)的思想使模型自動(dòng)確定的K值更為準(zhǔn)確.通過分析聚類結(jié)果,得出了聚類結(jié)果在一定程度上受初始語料的影響,并做了相應(yīng)的研究和改進(jìn).本文提出的半監(jiān)督模型,通過加入一定的先驗(yàn)知識(shí),使得模型的話題檢測(cè)性能有了顯著的提高.在接下來的工作中,應(yīng)繼續(xù)優(yōu)化模型,進(jìn)一步研究增加報(bào)道間區(qū)分度的方法和識(shí)別小話題的方法,使得模型更為可行.同時(shí),增大實(shí)驗(yàn)的數(shù)據(jù)量,豐富語料庫(kù),在TDT標(biāo)準(zhǔn)語料的基礎(chǔ)上,結(jié)合各大權(quán)威新聞網(wǎng)站的新聞報(bào)道,使理論算法更具有實(shí)際意義.

    [1]洪宇, 張宇, 劉挺, 等. 話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 中文信息學(xué)報(bào), 2007, 21(6): 71-87.

    [2]李勝東, 呂學(xué)強(qiáng), 施水才, 等. 基于話題檢測(cè)的自適應(yīng)增量K-means算法[J]. 中文信息學(xué)報(bào), 2014, 28(6): 190-193.

    [3]周剛, 鄒鴻程, 熊小兵, 等.MB-SinglePass:基于組合相似度的微博話題檢測(cè)[J]. 計(jì)算機(jī)科學(xué), 2012, 39(10): 198-202.[4]張曉艷. 新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2010.

    [5]GUOX,XIANGY,CHENQ,etal.LDA-basedonlinetopicdetectionusingtensorfactorization[J].Journalofinformationscience, 2013, 39(4): 459-469.

    [6]潘云仙, 袁方. 基于JST模型的新聞文本的情感分類研究[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2015, 47(1): 64-68.

    [7]ANTONIAKCE.MixtureofDirichletprocesseswithapplicationstoBayesiannonparametricproblems[J].Annalsofstatistics, 1974, 2(6): 1152-1174.

    [8]VLACHOSA,GHAHRAMANIZ,KORHONENA.Dirichletprocessmixturemodelsforverbclustering[C]//Icmlworkshoponpriorknowledgefortext&languageprocessing.Helsinki, 2008: 74-82.

    [9]梅素玉, 王飛, 周水庚. 狄利克雷過程混合模型、擴(kuò)展模型及應(yīng)用[J]. 科學(xué)通報(bào), 2012, 57(34): 3243-3257.

    [10]王嬋. 基于Dirichlet過程混合模型的話題識(shí)別與追蹤[D]. 北京: 北京郵電大學(xué), 2013.

    [11]ZHANGH,JONATHANWQM,NGUYENTM.ImagesegmentationbyDirichletprocessmixturemodelwithgeneralisedmean[J].Ietimageprocessing, 2014, 8(8):103-111.

    [12]BLEIDM,NGAY,JORDANMI.LatentDirichletallocation[J].Journalofmachinelearningresearch, 2003, (3): 993-1022.[13]FERGUSONTS.ABayesiananalysisofsomenonparametricproblems[J].Annalsofstatistics, 1973, 1(2): 209-230.

    [14]徐謙, 周俊生, 陳家俊.Dirichlet過程及其在自然語言處理中的應(yīng)用[J]. 中文信息學(xué)報(bào), 2009, 23(5): 25-32.

    [15]PITMANJ.Combinatorialstochasticprocesses[M].Springer,Berlin, 2006: 75-92.

    [16]NEALRM.MarkovchainsamplingmethodsforDirichletprocessmixturemodels[J].JournalofcomputationalandgraphicalStatistics, 2000, 9(2): 249-265.

    [17]SATOI,NAKAGAWAH.Topicmodelswithpower-lawusingPitman-Yorprocess[C]//Proceedingsofthe16thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.WashingtonDC, 2010: 673-681.

    [18]HEINRICHG.Parameterestimationfortextanalysis[R].Germany:FraunhoferIGD, 2005.

    [19]張小平, 周雪忠, 黃厚寬, 等. 一種改進(jìn)的LDA主題模型[J]. 北京交通大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 34(2): 111-114.[20]蔣文, 齊林. 一種基于深度玻爾茲曼機(jī)的半監(jiān)督典型相關(guān)分析算法[J]. 河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016,37(2): 47-51.

    [21]STEINBACHM,KARYPISG,KUMARV.Acomparisonofdocumentclusteringtechniques[C]//Proceedingsofthe6thACM-SIGKDDinternationalconferenceontextmining.Boston, 2000: 103-122.

    (責(zé)任編輯:王浩毅)

    NewsTopicDetectionBasedonSemi-supervisedDPMM

    YAODongdong1,YUANFang2, 3,WANGYu1,LIUYu3

    (1. School of Computer Science and Technology, Hebei University, Baoding 071000, China;2. Department of Computer Teaching, Hebei University, Baoding 071000, China;3. College of Mathematics and Information Science, Hebei University, Baoding 071000, China)

    BasedontheDirichletprocessmixturemodel(DPMM),combiningwiththemodel’sbasiccharacteristicofautomaticallylearningtheclusternumber,thelatenttopicinformationdetectionwasheldfromtheperspectiveofsemantics.AmoreaccurateK-valuewasobtainedwiththesamplingstrategyofK-value’schangingfrombigtosmallstepbystep.Afteranalyzingthetermfrequencycharacteristicsofsemanticclustering,agroupofnounentitieswereintroducedas“hotterms”toguidetheclusteringprocess,whichcouldbeconsideredastheDPMMsemi-supervisedmodel.TheresultsonTDT4corpusshowedthattheproposedtopicdetectionmethodwaseffective.

    topicdetection;Dirichletprocess;Gibbssampling;powerlaw;nounentity

    2016-04-07

    河北省軟科學(xué)研究計(jì)劃項(xiàng)目(12457206D-11, 13455317D).

    姚冬冬(1990—),男,河北邢臺(tái)人,碩士研究生,主要從事數(shù)據(jù)挖掘研究,E-mail:ydd625@qq.com;通訊作者:袁方(1965—),男,河北安新人,教授,主要從事數(shù)據(jù)挖掘、社會(huì)計(jì)算研究,E-mail:yuanfang@hbu.edu.cn.

    TP391.1

    A

    1671-6841(2016)03-0063-06

    10.13705/j.issn.1671-6841.2016070

    引用本文:姚冬冬,袁方,王煜,等.基于半監(jiān)督DPMM的新聞話題檢測(cè)[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2016,48(3):63-68.

    猜你喜歡
    個(gè)數(shù)語義聚類
    怎樣數(shù)出小正方體的個(gè)數(shù)
    語言與語義
    等腰三角形個(gè)數(shù)探索
    怎樣數(shù)出小木塊的個(gè)數(shù)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    基于DBSACN聚類算法的XML文檔聚類
    “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
    基于改進(jìn)的遺傳算法的模糊聚類算法
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    認(rèn)知范疇模糊與語義模糊
    99国产极品粉嫩在线观看| 精品久久久久久久久久免费视频| 欧美日韩一级在线毛片| 成人午夜高清在线视频 | 亚洲国产日韩欧美精品在线观看 | 亚洲成人久久性| 给我免费播放毛片高清在线观看| 日韩欧美 国产精品| 超碰成人久久| 久久午夜综合久久蜜桃| 99久久精品国产亚洲精品| 成人手机av| 搡老妇女老女人老熟妇| 99在线人妻在线中文字幕| 国产蜜桃级精品一区二区三区| 身体一侧抽搐| 老司机靠b影院| 好看av亚洲va欧美ⅴa在| 男女那种视频在线观看| 亚洲九九香蕉| 1024香蕉在线观看| 欧美+亚洲+日韩+国产| 在线观看免费视频日本深夜| 免费在线观看视频国产中文字幕亚洲| 一本一本综合久久| 国产熟女午夜一区二区三区| 大香蕉久久成人网| 大香蕉久久成人网| 午夜精品久久久久久毛片777| 午夜两性在线视频| 日本五十路高清| 国产精品免费一区二区三区在线| 制服丝袜大香蕉在线| 视频区欧美日本亚洲| 啪啪无遮挡十八禁网站| 夜夜夜夜夜久久久久| 啦啦啦韩国在线观看视频| 麻豆成人av在线观看| 亚洲精品中文字幕在线视频| 精品一区二区三区视频在线观看免费| 色综合亚洲欧美另类图片| 99国产综合亚洲精品| 又大又爽又粗| 非洲黑人性xxxx精品又粗又长| 少妇的丰满在线观看| 最新美女视频免费是黄的| 在线国产一区二区在线| 白带黄色成豆腐渣| 神马国产精品三级电影在线观看 | 日韩免费av在线播放| 国产免费av片在线观看野外av| 色综合站精品国产| 午夜福利视频1000在线观看| 日韩一卡2卡3卡4卡2021年| 精品第一国产精品| 久久久久国产精品人妻aⅴ院| 亚洲精品在线观看二区| 丰满的人妻完整版| а√天堂www在线а√下载| 一进一出抽搐动态| 精品一区二区三区av网在线观看| 亚洲一区中文字幕在线| 国内少妇人妻偷人精品xxx网站 | 黄网站色视频无遮挡免费观看| 看黄色毛片网站| 久久香蕉精品热| 亚洲国产看品久久| 亚洲人成77777在线视频| 国产欧美日韩一区二区精品| 日本一本二区三区精品| www日本在线高清视频| 亚洲全国av大片| 欧美午夜高清在线| 亚洲av熟女| 国产成人欧美在线观看| 午夜免费鲁丝| 亚洲精品一卡2卡三卡4卡5卡| 午夜视频精品福利| 午夜激情福利司机影院| 国内久久婷婷六月综合欲色啪| 熟妇人妻久久中文字幕3abv| 亚洲欧美精品综合一区二区三区| 国产在线观看jvid| 欧美激情极品国产一区二区三区| 午夜福利在线观看吧| 大型av网站在线播放| 久久久国产精品麻豆| 亚洲av成人av| 这个男人来自地球电影免费观看| 一卡2卡三卡四卡精品乱码亚洲| 一本大道久久a久久精品| 午夜福利在线在线| 天堂√8在线中文| 真人一进一出gif抽搐免费| 女人被狂操c到高潮| 国产精品自产拍在线观看55亚洲| 国产成人影院久久av| 91麻豆av在线| 国产aⅴ精品一区二区三区波| 日韩国内少妇激情av| 一区二区三区高清视频在线| 久久精品91蜜桃| 自线自在国产av| 国产一区二区在线av高清观看| 麻豆av在线久日| 热99re8久久精品国产| 国内精品久久久久精免费| 侵犯人妻中文字幕一二三四区| 曰老女人黄片| 黄网站色视频无遮挡免费观看| 丰满的人妻完整版| 日日干狠狠操夜夜爽| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美一级毛片孕妇| 精品久久久久久久人妻蜜臀av| 婷婷精品国产亚洲av| 大型黄色视频在线免费观看| 亚洲精品色激情综合| 午夜免费激情av| 天堂影院成人在线观看| 黑人巨大精品欧美一区二区mp4| 村上凉子中文字幕在线| 色综合站精品国产| 一区二区三区精品91| 国产精品永久免费网站| 老司机在亚洲福利影院| 亚洲片人在线观看| 啪啪无遮挡十八禁网站| 中出人妻视频一区二区| 欧美乱色亚洲激情| 国产又爽黄色视频| 欧美日韩亚洲综合一区二区三区_| 午夜精品在线福利| 精品久久久久久久久久免费视频| 久热爱精品视频在线9| 男女做爰动态图高潮gif福利片| av超薄肉色丝袜交足视频| 少妇的丰满在线观看| 亚洲av片天天在线观看| 午夜两性在线视频| 国产主播在线观看一区二区| 午夜亚洲福利在线播放| 99久久综合精品五月天人人| 丰满人妻熟妇乱又伦精品不卡| 日韩一卡2卡3卡4卡2021年| 一边摸一边抽搐一进一小说| 久久久久久亚洲精品国产蜜桃av| 看免费av毛片| 亚洲精品中文字幕在线视频| 人人妻人人澡欧美一区二区| 长腿黑丝高跟| 日日干狠狠操夜夜爽| 亚洲人成电影免费在线| 久久国产精品人妻蜜桃| 亚洲国产日韩欧美精品在线观看 | 国产区一区二久久| 午夜久久久久精精品| 可以在线观看毛片的网站| 亚洲自偷自拍图片 自拍| 国产精品亚洲一级av第二区| 每晚都被弄得嗷嗷叫到高潮| 亚洲欧美日韩无卡精品| 国产欧美日韩一区二区三| 19禁男女啪啪无遮挡网站| 日韩欧美一区二区三区在线观看| 老汉色av国产亚洲站长工具| 哪里可以看免费的av片| 巨乳人妻的诱惑在线观看| 国产av一区二区精品久久| 黄色视频不卡| 国产成人精品无人区| 99riav亚洲国产免费| 日韩一卡2卡3卡4卡2021年| 国产精品久久电影中文字幕| 在线观看免费午夜福利视频| 校园春色视频在线观看| 又黄又粗又硬又大视频| 欧美三级亚洲精品| 色在线成人网| 久久久久久久久久黄片| 最近最新中文字幕大全免费视频| 久久性视频一级片| 亚洲第一欧美日韩一区二区三区| 久久午夜综合久久蜜桃| 中文资源天堂在线| 一区二区三区激情视频| 国产在线观看jvid| 淫秽高清视频在线观看| 99热6这里只有精品| 正在播放国产对白刺激| 亚洲国产高清在线一区二区三 | 99国产精品一区二区蜜桃av| 久久久国产成人免费| 亚洲第一欧美日韩一区二区三区| 国产成人av激情在线播放| 成人永久免费在线观看视频| 亚洲精品在线美女| 少妇被粗大的猛进出69影院| 精华霜和精华液先用哪个| avwww免费| 国产午夜精品久久久久久| 日本a在线网址| 国产av又大| 亚洲国产精品久久男人天堂| 韩国av一区二区三区四区| 国产乱人伦免费视频| 亚洲国产高清在线一区二区三 | 麻豆久久精品国产亚洲av| 97人妻精品一区二区三区麻豆 | 狠狠狠狠99中文字幕| 久久久久国内视频| 亚洲成国产人片在线观看| 看免费av毛片| 国产精品1区2区在线观看.| 国产精品综合久久久久久久免费| 国产不卡一卡二| 色综合站精品国产| 国产黄色小视频在线观看| 久久精品成人免费网站| 欧美日韩中文字幕国产精品一区二区三区| 天天躁狠狠躁夜夜躁狠狠躁| 欧美黄色片欧美黄色片| 叶爱在线成人免费视频播放| 青草久久国产| 十分钟在线观看高清视频www| 50天的宝宝边吃奶边哭怎么回事| 天天一区二区日本电影三级| 精品国产超薄肉色丝袜足j| 欧美黑人精品巨大| 欧美zozozo另类| 亚洲成人久久爱视频| 精品日产1卡2卡| 韩国av一区二区三区四区| 身体一侧抽搐| 男女下面进入的视频免费午夜 | 欧美激情极品国产一区二区三区| 午夜福利在线观看吧| 亚洲第一欧美日韩一区二区三区| 亚洲精品av麻豆狂野| 国产精品免费视频内射| 欧美在线黄色| 女性生殖器流出的白浆| 日韩大码丰满熟妇| 国产成人啪精品午夜网站| 制服人妻中文乱码| 韩国av一区二区三区四区| 黄色 视频免费看| 亚洲熟妇中文字幕五十中出| 91国产中文字幕| 中文在线观看免费www的网站 | 国产伦在线观看视频一区| 波多野结衣av一区二区av| 巨乳人妻的诱惑在线观看| 久久久精品欧美日韩精品| 久久香蕉激情| 久久青草综合色| 黑人巨大精品欧美一区二区mp4| 欧美不卡视频在线免费观看 | 精品国产亚洲在线| 亚洲第一av免费看| 免费女性裸体啪啪无遮挡网站| 一进一出抽搐动态| 精品国内亚洲2022精品成人| 白带黄色成豆腐渣| 无遮挡黄片免费观看| 成人免费观看视频高清| 麻豆国产av国片精品| 黑人欧美特级aaaaaa片| 国语自产精品视频在线第100页| 欧美+亚洲+日韩+国产| 黄片小视频在线播放| 母亲3免费完整高清在线观看| 99热6这里只有精品| 久久 成人 亚洲| 久久精品91蜜桃| 国产精品久久久久久精品电影 | 最近最新中文字幕大全电影3 | 97碰自拍视频| 在线免费观看的www视频| 中国美女看黄片| 亚洲第一欧美日韩一区二区三区| 99久久99久久久精品蜜桃| 久久婷婷成人综合色麻豆| 久久99热这里只有精品18| 国产亚洲欧美在线一区二区| 波多野结衣高清作品| 18禁裸乳无遮挡免费网站照片 | 久久精品亚洲精品国产色婷小说| 欧美乱色亚洲激情| 亚洲中文字幕日韩| 老熟妇乱子伦视频在线观看| 亚洲全国av大片| 亚洲成av片中文字幕在线观看| 欧美成人一区二区免费高清观看 | 国产黄a三级三级三级人| 久久精品成人免费网站| 欧美另类亚洲清纯唯美| 国产黄片美女视频| 亚洲国产欧洲综合997久久, | 777久久人妻少妇嫩草av网站| 在线观看免费视频日本深夜| 久久狼人影院| 色播亚洲综合网| 少妇的丰满在线观看| 中文资源天堂在线| 在线看三级毛片| 制服诱惑二区| 国产伦人伦偷精品视频| 国产精品 欧美亚洲| 亚洲成人免费电影在线观看| 嫩草影院精品99| 欧美大码av| 午夜福利18| 日韩大码丰满熟妇| 美国免费a级毛片| 久久精品国产亚洲av香蕉五月| 成年人黄色毛片网站| 久久久久免费精品人妻一区二区 | 精品乱码久久久久久99久播| www国产在线视频色| 激情在线观看视频在线高清| 亚洲,欧美精品.| 国产一卡二卡三卡精品| 精华霜和精华液先用哪个| 国产黄色小视频在线观看| 正在播放国产对白刺激| 99久久久亚洲精品蜜臀av| 男女之事视频高清在线观看| 欧美国产日韩亚洲一区| 国产精品亚洲一级av第二区| 久久精品国产清高在天天线| 一个人观看的视频www高清免费观看 | 一边摸一边做爽爽视频免费| 无遮挡黄片免费观看| 女生性感内裤真人,穿戴方法视频| 日韩大码丰满熟妇| 精品久久久久久久久久久久久 | 精品人妻1区二区| 美女高潮到喷水免费观看| 久9热在线精品视频| 两个人看的免费小视频| 欧美不卡视频在线免费观看 | 999精品在线视频| 免费电影在线观看免费观看| 最近最新免费中文字幕在线| 精品欧美一区二区三区在线| 欧美日本视频| 亚洲专区中文字幕在线| 深夜精品福利| 大香蕉久久成人网| 精品第一国产精品| 麻豆成人av在线观看| 久久久水蜜桃国产精品网| 国内精品久久久久久久电影| 国内久久婷婷六月综合欲色啪| 亚洲色图av天堂| 99re在线观看精品视频| 性色av乱码一区二区三区2| www国产在线视频色| 欧美日韩瑟瑟在线播放| 国产精品香港三级国产av潘金莲| 久久中文字幕一级| 老司机午夜福利在线观看视频| 淫妇啪啪啪对白视频| 欧美成人午夜精品| 两个人免费观看高清视频| 一个人观看的视频www高清免费观看 | 久久精品人妻少妇| 国产私拍福利视频在线观看| 亚洲精品久久国产高清桃花| 欧美另类亚洲清纯唯美| 两性午夜刺激爽爽歪歪视频在线观看 | 久久精品国产99精品国产亚洲性色| 精品高清国产在线一区| 欧美一区二区精品小视频在线| 波多野结衣高清作品| 青草久久国产| 精品国产乱子伦一区二区三区| 亚洲电影在线观看av| 国产精品久久久久久精品电影 | 黑人操中国人逼视频| 麻豆久久精品国产亚洲av| 宅男免费午夜| 俺也久久电影网| 校园春色视频在线观看| 黄色成人免费大全| 少妇被粗大的猛进出69影院| 丝袜人妻中文字幕| 欧美久久黑人一区二区| 午夜福利高清视频| 变态另类丝袜制服| 午夜老司机福利片| 国产亚洲精品av在线| 亚洲国产毛片av蜜桃av| 国产高清有码在线观看视频 | 日韩视频一区二区在线观看| 国产麻豆成人av免费视频| 亚洲色图av天堂| 国产精品久久久人人做人人爽| а√天堂www在线а√下载| 人妻久久中文字幕网| 激情在线观看视频在线高清| 日本 av在线| 嫁个100分男人电影在线观看| 黄片播放在线免费| 亚洲人成网站在线播放欧美日韩| 亚洲,欧美精品.| 国产精品美女特级片免费视频播放器 | 黄色a级毛片大全视频| 久久香蕉精品热| 一二三四社区在线视频社区8| 精品一区二区三区四区五区乱码| 99久久99久久久精品蜜桃| 女人高潮潮喷娇喘18禁视频| 性色av乱码一区二区三区2| 成熟少妇高潮喷水视频| 国产精品98久久久久久宅男小说| 国产精品,欧美在线| 一级作爱视频免费观看| 在线观看舔阴道视频| 丁香欧美五月| 狠狠狠狠99中文字幕| 特大巨黑吊av在线直播 | 免费高清在线观看日韩| 亚洲avbb在线观看| 人人妻,人人澡人人爽秒播| 亚洲国产欧美一区二区综合| 精品高清国产在线一区| 午夜免费观看网址| 一级作爱视频免费观看| 757午夜福利合集在线观看| 久久久久久国产a免费观看| 一本精品99久久精品77| 日本三级黄在线观看| 999久久久精品免费观看国产| 18禁美女被吸乳视频| 国产精品一区二区免费欧美| 久久久国产欧美日韩av| 中文资源天堂在线| 精品欧美一区二区三区在线| 9191精品国产免费久久| 亚洲精品久久成人aⅴ小说| 国产色视频综合| 看片在线看免费视频| 国产三级在线视频| 国产精品久久久久久人妻精品电影| 久久午夜综合久久蜜桃| 成人av一区二区三区在线看| 黄色视频,在线免费观看| 欧美日韩亚洲国产一区二区在线观看| 国产精品99久久99久久久不卡| 亚洲久久久国产精品| 在线观看免费午夜福利视频| 热re99久久国产66热| 搡老岳熟女国产| 欧美成狂野欧美在线观看| 日本在线视频免费播放| 丝袜在线中文字幕| 精品国产乱码久久久久久男人| 免费看日本二区| 亚洲国产高清在线一区二区三 | 日韩av在线大香蕉| 亚洲av成人一区二区三| 国产精品二区激情视频| 亚洲国产精品久久男人天堂| 久久久久久人人人人人| 国内毛片毛片毛片毛片毛片| 成人18禁高潮啪啪吃奶动态图| 日韩欧美国产一区二区入口| 欧美黑人巨大hd| 国产99久久九九免费精品| 色在线成人网| 高清毛片免费观看视频网站| 91在线观看av| 一进一出好大好爽视频| xxxwww97欧美| 国产午夜福利久久久久久| 国产伦人伦偷精品视频| 国语自产精品视频在线第100页| 亚洲精品在线观看二区| 麻豆av在线久日| 久久人妻av系列| 18禁黄网站禁片免费观看直播| 国产真实乱freesex| 不卡av一区二区三区| 欧美日韩中文字幕国产精品一区二区三区| 日本一本二区三区精品| 久久精品国产亚洲av香蕉五月| 成年女人毛片免费观看观看9| 亚洲精品一区av在线观看| 欧美日韩一级在线毛片| 黑人巨大精品欧美一区二区mp4| 亚洲性夜色夜夜综合| 成人欧美大片| 香蕉av资源在线| 欧美丝袜亚洲另类 | 精品熟女少妇八av免费久了| 777久久人妻少妇嫩草av网站| or卡值多少钱| 国产成人av激情在线播放| 午夜福利欧美成人| 欧美黄色淫秽网站| 男人舔女人的私密视频| 日韩高清综合在线| 国产精品99久久99久久久不卡| 久久久久久久久久黄片| 国产国语露脸激情在线看| 曰老女人黄片| 国产黄色小视频在线观看| 窝窝影院91人妻| 99热只有精品国产| 两人在一起打扑克的视频| 欧美日本视频| 午夜免费观看网址| 欧美日韩福利视频一区二区| 国内精品久久久久精免费| 最好的美女福利视频网| 最近在线观看免费完整版| 亚洲av五月六月丁香网| 国产亚洲精品久久久久5区| 久久青草综合色| 久久精品夜夜夜夜夜久久蜜豆 | 久久人人精品亚洲av| 中文字幕人妻熟女乱码| 久久香蕉精品热| 亚洲av熟女| 午夜日韩欧美国产| 88av欧美| 日本一本二区三区精品| 久久婷婷人人爽人人干人人爱| 久久久久国产一级毛片高清牌| 99国产极品粉嫩在线观看| 女警被强在线播放| 国产视频一区二区在线看| 少妇裸体淫交视频免费看高清 | 一本久久中文字幕| 午夜激情av网站| 久久久国产精品麻豆| 50天的宝宝边吃奶边哭怎么回事| 久久精品夜夜夜夜夜久久蜜豆 | 日韩欧美免费精品| 日日摸夜夜添夜夜添小说| 18禁国产床啪视频网站| 在线av久久热| 亚洲国产精品999在线| av片东京热男人的天堂| 亚洲国产精品999在线| 99热这里只有精品一区 | 观看免费一级毛片| 久久久水蜜桃国产精品网| 精品卡一卡二卡四卡免费| 免费观看人在逋| 变态另类成人亚洲欧美熟女| 成人手机av| 黄网站色视频无遮挡免费观看| 在线观看免费午夜福利视频| 成人国产一区最新在线观看| 日本一区二区免费在线视频| 大型黄色视频在线免费观看| 国产精品亚洲av一区麻豆| 国产精品久久久av美女十八| 特大巨黑吊av在线直播 | 精品日产1卡2卡| 国产高清激情床上av| 亚洲在线自拍视频| 在线天堂中文资源库| 亚洲人成网站高清观看| 欧美激情极品国产一区二区三区| 50天的宝宝边吃奶边哭怎么回事| 美女高潮到喷水免费观看| 亚洲avbb在线观看| av欧美777| 亚洲男人的天堂狠狠| 一区福利在线观看| 99久久精品国产亚洲精品| 在线观看免费视频日本深夜| 国产亚洲欧美在线一区二区| 日日摸夜夜添夜夜添小说| 国产精品,欧美在线| 日本三级黄在线观看| 亚洲欧美日韩无卡精品| 成人午夜高清在线视频 | 久久国产乱子伦精品免费另类| aaaaa片日本免费| 此物有八面人人有两片| 久久午夜亚洲精品久久| 色哟哟哟哟哟哟| а√天堂www在线а√下载| 不卡av一区二区三区| 国产高清有码在线观看视频 | av福利片在线| 精品国产超薄肉色丝袜足j| 制服诱惑二区| 精品国产超薄肉色丝袜足j| 免费搜索国产男女视频| 色婷婷久久久亚洲欧美| 欧美激情高清一区二区三区| 亚洲中文日韩欧美视频| or卡值多少钱| 久久 成人 亚洲| 亚洲av美国av| 人妻丰满熟妇av一区二区三区| 99精品欧美一区二区三区四区| 国产在线精品亚洲第一网站| 亚洲男人天堂网一区| 黄色a级毛片大全视频| 国产精品免费一区二区三区在线| 夜夜躁狠狠躁天天躁| 亚洲,欧美精品.| 我的亚洲天堂| 国产精品日韩av在线免费观看| 婷婷丁香在线五月| 亚洲成人精品中文字幕电影| 真人一进一出gif抽搐免费| 日韩欧美 国产精品|