姚冬冬 , 袁 方 , 王 煜, 劉 宇
(1.河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 河北 保定 071000; 2.河北大學(xué) 計(jì)算機(jī)教學(xué)部河北 保定 071000; 3.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院 河北 保定 071000)
?
基于半監(jiān)督DPMM的新聞話題檢測(cè)
姚冬冬1,袁方2,3,王煜1,劉宇3
(1.河北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院河北 保定 071000; 2.河北大學(xué) 計(jì)算機(jī)教學(xué)部河北 保定 071000; 3.河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院河北 保定 071000)
基于狄利克雷過程混合模型(DPMM)這一非參數(shù)貝葉斯生成模型,從語義的角度入手,結(jié)合其自動(dòng)確定聚類個(gè)數(shù)的特性進(jìn)行話題檢測(cè),運(yùn)用了聚類個(gè)數(shù)K值由大到小變化的采樣策略,通過逐層遞進(jìn)的形式獲取到較為準(zhǔn)確的K值,并在此基礎(chǔ)上對(duì)語義聚類的詞頻特性加以分析,引入一組名詞實(shí)體作為“熱點(diǎn)特征詞”來引導(dǎo)聚類過程,從而給出了DPMM半監(jiān)督模型.實(shí)驗(yàn)結(jié)果表明,所給出的話題檢測(cè)方法在TDT4語料上取得了較好的檢測(cè)性能.
話題檢測(cè); 狄利克雷過程; Gibbs采樣; 冪律特性; 名詞實(shí)體
隨著互聯(lián)網(wǎng)的快速發(fā)展和移動(dòng)媒體的廣泛普及,網(wǎng)絡(luò)成為人們獲取信息的重要途徑之一,如何有效地從雜亂的數(shù)據(jù)中獲取話題信息一直是文本挖掘領(lǐng)域的研究熱點(diǎn).話題檢測(cè)與追蹤(topic detection and tracking, TDT)[1]最早由美國(guó)國(guó)防部高級(jí)研究計(jì)劃署在1996年提出,其目的在于利用當(dāng)時(shí)的技術(shù)發(fā)現(xiàn)和追蹤新聞廣播流中的新事件.在多家機(jī)構(gòu)的共同努力下,TDT的研究?jī)?nèi)容和評(píng)測(cè)體系被正式確立并取得長(zhǎng)足發(fā)展.話題檢測(cè)是TDT中至關(guān)重要的環(huán)節(jié),近些年的相關(guān)研究包括聚類算法的融合[2]、相似度的組合[3]、名詞實(shí)體的引入[4]、主題模型的使用[5]等,并擴(kuò)展至其他相關(guān)領(lǐng)域[6].
狄利克雷過程混合模型(Dirichlet process mixture models, DPMM)[7]作為非參數(shù)貝葉斯領(lǐng)域的基礎(chǔ)模型,是一種定義在無限維參數(shù)空間上的貝葉斯模型.文獻(xiàn)[8]通過引入一定的先驗(yàn)知識(shí)將DPMM應(yīng)用于動(dòng)詞語義聚類.文獻(xiàn)[9]綜述了DPMM、擴(kuò)展模型及其在機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用.文獻(xiàn)[10]將其引入到話題識(shí)別研究中,利用DPMM的特點(diǎn)解決話題識(shí)別任務(wù)中的參數(shù)設(shè)置問題.文獻(xiàn)[11]通過改進(jìn)空間約束使得DPMM在圖像處理上更加簡(jiǎn)單便捷.應(yīng)用于TDT工作時(shí),DPMM與潛在狄利克雷分配模型(latent Dirichlet allocation, LDA)[12]一樣,是一種具有文本主題表示能力的模型,在彌補(bǔ)VSM沒有考慮詞與詞之間語義聯(lián)系這一缺點(diǎn)的同時(shí),也可以用來解決LDA模型存在的主題數(shù)目需要指定的問題,為聚類分析中K值確定這一基礎(chǔ)性問題提供了解決方案,減輕了人工實(shí)驗(yàn)的負(fù)擔(dān).
本文在研究分析DPMM模型的基礎(chǔ)上,對(duì)DPMM 模型進(jìn)行了兩個(gè)方面的改進(jìn):一是借鑒深度學(xué)習(xí)的基本思想,獲取到較為準(zhǔn)確的K值;二是分析語義聚類的詞頻特性,從詞性和名詞實(shí)體兩個(gè)角度改進(jìn)模型初始狀態(tài),引入的“熱點(diǎn)特征詞”給出了DPMM半監(jiān)督模型.實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的DPMM模型具有更好的話題檢測(cè)性能.
伴隨著語義分析在話題研究中的應(yīng)用,主題模型將主題的概念引入到了話題研究之中.對(duì)于LDA等主題模型而言,文檔是由若干隱性主題混合而成,而主題則需要借助詞匯來描述.本節(jié)首先著重研究了狄利克雷過程及其構(gòu)造方法,其次是深入分析采樣公式,更加合理地將模型應(yīng)用在話題檢測(cè)之中.
1.1狄利克雷過程
狄利克雷過程(Dirichlet process, DP)[13]是狄利克雷分布在連續(xù)空間上的擴(kuò)展,和狄利克雷分布一樣具有共軛性[14].中國(guó)餐館過程[15]是指一個(gè)新的顧客坐在已有餐桌的概率與該餐桌上人數(shù)nc成正比,坐在新餐桌上的概率與參數(shù)α相關(guān),當(dāng)此過程趨于無窮時(shí),類簇個(gè)數(shù)最終會(huì)趨于一個(gè)平穩(wěn)值,具體表示如公式(1)所示.它是一種常見的直觀的DPMM描述方法,因此本文利用中國(guó)餐館過程對(duì)DP進(jìn)行構(gòu)造.
(1)
1.2DPMM模型
假設(shè)一組樣本服從某種分布,分布的參數(shù)服從狄利克雷過程先驗(yàn)分布,參數(shù)的先驗(yàn)和后驗(yàn)分布采用狄利克雷過程構(gòu)造方法推斷,則該模型稱為狄利克雷過程混合模型(DPMM)[10].鑒于狄利克雷過程的構(gòu)造是概率和為1的離散分布,模型可以認(rèn)為是可數(shù)的無限混合[16].
將DPMM引入到話題分析領(lǐng)域則可以構(gòu)建如圖1所示的生成模型[11],其中α和β為模型的超參數(shù),θ和φ分別代表主題分布和詞分布,z代表一個(gè)主題,w代表一個(gè)詞.生成一個(gè)詞的過程包括從一篇文檔的主題分布中生成一個(gè)主題,然后從這個(gè)主題的詞分布中生成一個(gè)詞的兩部分,m篇文檔對(duì)應(yīng)于m個(gè)獨(dú)立的狄利克雷過程.這里的生成過程同LDA模型類似,區(qū)別在于生成主題的過程中,DPMM模型的主題數(shù)目K并不會(huì)預(yù)先指定,而會(huì)隨著迭代過程變化修正.
圖1 DPMM模型Fig.1 DPMM model
后驗(yàn)計(jì)算方法一般采用積分的方式進(jìn)行,考慮到模型的復(fù)雜程度,本文采用基于馬爾科夫鏈蒙特卡羅(Markov chain Monte Carlo, MCMC)的吉布斯采樣(Gibbs sampling)算法,根據(jù)貝葉斯理論可得采樣公式(2).
(2)
公式(2)的第一部分代表生成主題的概率,可以用中國(guó)餐館過程來構(gòu)造.本文根據(jù)文獻(xiàn)[11,16-17]完善公式(1)得到公式(3),更加合理地將其應(yīng)用在話題模型之中,
(3)
其中:nm,z代表文檔m中屬于主題z的詞的個(gè)數(shù),nm代表文檔m中的詞的總個(gè)數(shù),此處可以簡(jiǎn)單理解為用主題將文檔進(jìn)行了劃分,并且主題數(shù)目可變.
公式(2)的第二部分代表生成詞的概率,是從一個(gè)已知主題中生成一個(gè)詞,這其中的基本單位是該主題,包括該主題中的所有詞,不存在可變的因素,所以同LDA模型一樣,此處通常選取狄利克雷-多項(xiàng)式共軛過程,根據(jù)文獻(xiàn)[18]可得
(4)
綜合文獻(xiàn)[11]、公式(4)和文獻(xiàn)[17]給出的詞分布公式,可得
(5)
依據(jù)DP的特性和TDT研究的前提,本文中將主題與話題的概念等同,K值并非是類似于LDA中的主題個(gè)數(shù)而是聚類個(gè)數(shù),并在此基礎(chǔ)上從優(yōu)化聚類個(gè)數(shù)K和改善聚類結(jié)果兩個(gè)角度進(jìn)行了相應(yīng)改進(jìn).
2.1DPMM模型的K值改進(jìn)
DPMM模型為聚類個(gè)數(shù)K值確定這一基礎(chǔ)性問題提供了解決方案,但鑒于話題結(jié)構(gòu)的復(fù)雜性,自動(dòng)確定的K值也必然存在一定的準(zhǔn)確性問題,因此如何獲取較為準(zhǔn)確的K值是本文的研究重點(diǎn).
由于語義分析的結(jié)果與類簇中語義信息量的大小有直接關(guān)系,因此,在采樣策略的選擇上,本文選取了聚類個(gè)數(shù)K值由大到小的變化方式,將初始K值設(shè)置為報(bào)道個(gè)數(shù)M,采樣過程中K值逐漸減小.變化的整體流程如算法1所示.具體過程是Gibbs采樣先將每篇報(bào)道中的各詞隨機(jī)分配到K個(gè)主題中,每次迭代依據(jù)采樣公式對(duì)各詞重新分配主題.在迭代過程中,如果某主題中詞數(shù)為0則去掉該主題,對(duì)應(yīng)K值減1;如果某詞不屬于現(xiàn)有主題,則將其分配到新的主題,對(duì)應(yīng)K值加1,收斂或達(dá)到迭代次數(shù)即終止采樣.
在一輪Gibbs采樣收斂之后,數(shù)據(jù)顯示最終的聚類個(gè)數(shù)K距離樣本中話題個(gè)數(shù)有一定差距,聚類個(gè)數(shù)大于話題個(gè)數(shù)意味著將較大話題進(jìn)行了拆分.由于不同話題的報(bào)道數(shù)量并不均勻,數(shù)據(jù)往往具有較大的不平衡性,因此需要優(yōu)先考慮大話題即熱點(diǎn)話題的聚類性能,適當(dāng)增加初始類簇的語義信息量,減少初始K值的個(gè)數(shù).本文采用了逐層遞進(jìn)的形式來獲取較為理想的K值,即重復(fù)進(jìn)行多輪采樣,下一輪采樣的初始K值設(shè)置為上一輪采樣結(jié)束后得到的K值,具體描述見算法1.當(dāng)K值上下浮動(dòng)在2以內(nèi)時(shí),則認(rèn)為其近似穩(wěn)定.實(shí)驗(yàn)結(jié)果表明,K值在幾輪采樣后會(huì)趨于穩(wěn)定.
算法1 改進(jìn)K值的采樣算法輸入:報(bào)道集合D,初始類數(shù)M,分布參數(shù)α、β.輸出:主題數(shù)目K,主題集合Φ.步驟:1WHILEK值不穩(wěn)定DO2隨機(jī)初始化:為每篇文檔中的每個(gè)詞w,隨機(jī)賦一個(gè)topic編號(hào)z∈(0,K-1).3掃描語料庫(kù),按照公式(2)、(3)和(5)重新采樣每個(gè)詞w的topic編號(hào)z,K值變化.4重復(fù)步驟3,直到采樣收斂,得到新主題數(shù)目K,新主題集合Φ.5ENDWHILE6RETURNK,Φ.
2.2DPMM半監(jiān)督模型構(gòu)建
由于采樣時(shí)初始的詞語分配是隨機(jī)分配到各個(gè)主題,在相同條件下進(jìn)行DPMM聚類實(shí)驗(yàn)得到的實(shí)驗(yàn)結(jié)果不盡相同.由于動(dòng)詞和名詞對(duì)新聞話題的表達(dá)貢獻(xiàn)程度較大,本文考慮首先去掉語料中除動(dòng)詞、名詞以外的其他詞語,用較少更具代表性的詞語來代表報(bào)道.
圖2 半監(jiān)督模型過程Fig.2 Process of semi-supervised model
根據(jù)Zipf定律,文檔的詞頻分布符合冪律分布,在語義分析中這種冪律分布將導(dǎo)致大量的低頻詞受少量高頻詞的主題分布的影響[19].本文參考文獻(xiàn)[8]的Cannot-link思想和文獻(xiàn)[20]中成對(duì)約束信息的融入操作,在聚類的基礎(chǔ)上加上少量先驗(yàn)知識(shí),通過統(tǒng)計(jì)詞頻和人工分析的方式篩選出一組由人名、地名和組織名構(gòu)成的名詞實(shí)體作為“熱點(diǎn)特征詞”.組內(nèi)各詞在采樣初始分配時(shí)不出現(xiàn)在同一個(gè)類中,而相同名詞則聚集在一起,構(gòu)建了DPMM半監(jiān)督模型,所作改進(jìn)并沒有破壞DPMM模型的聚類特性.半監(jiān)督模型的過程如圖2所示,具體描述見算法2.
算法2 半監(jiān)督模型構(gòu)建算法
為了驗(yàn)證所給方法的有效性,本節(jié)采用TDT4語料庫(kù)中的中文新聞?wù)Z料進(jìn)行實(shí)驗(yàn),對(duì)同一篇報(bào)道歸屬于兩個(gè)話題的情況進(jìn)行了去重操作,并根據(jù)實(shí)際需要,去掉了包含報(bào)道少于10篇的話題,采用具有較高普遍性的F值評(píng)測(cè)方法,進(jìn)行了第2節(jié)中提到的K值改進(jìn)和半監(jiān)督兩個(gè)方面的實(shí)驗(yàn),并就實(shí)驗(yàn)結(jié)果進(jìn)行了相關(guān)分析和比較.
3.1評(píng)測(cè)標(biāo)準(zhǔn)
F-measure評(píng)測(cè)方法[21]綜合了信息檢索中查準(zhǔn)率(precision)與查全率(recall)的思想來進(jìn)行聚類評(píng)價(jià).一個(gè)分類i與相關(guān)聚類j的查準(zhǔn)率P、查全率R和F值的定義為
P=preciseon(i,j)=(Nij/Nj);R=recall(i,j)=Nij/Ni;F(i)=2PR/(P+R),
(6)
其中:Ni表示分類i中的樣例個(gè)數(shù),Nj表示聚類j中的樣例個(gè)數(shù),Nij表示分類i與聚類j共有的樣例個(gè)數(shù).對(duì)分類i而言,取具有最大F值的聚類j作為其最終的關(guān)聯(lián)聚類.因此對(duì)聚類結(jié)果來說,其總F值可由每個(gè)分類i的F值加權(quán)平均得到,
(7)
3.2K值改進(jìn)實(shí)驗(yàn)
圖3 聚類個(gè)數(shù)與遞進(jìn)次數(shù)的關(guān)系Fig.3 Relationship between cluster numbers and progressive times
為了充分發(fā)揮DPMM模型自主確定聚類個(gè)數(shù)K值的優(yōu)勢(shì),本實(shí)驗(yàn)采用第2.1節(jié)中提到的遞進(jìn)方式來獲得較為準(zhǔn)確的K值,在DPMM無監(jiān)督模式下進(jìn)行,每輪采用的K值為多次實(shí)驗(yàn)的均值.具體如圖3所示,聚類個(gè)數(shù)K隨遞進(jìn)次數(shù)的增加呈下降趨勢(shì),對(duì)應(yīng)于TDT4-2002和TDT4-2003的最終K值分別穩(wěn)定在30和20左右,與已標(biāo)注的話題個(gè)數(shù)較為接近.
3.3DPMM半監(jiān)督實(shí)驗(yàn)
本實(shí)驗(yàn)首先去掉了語料中除動(dòng)名詞以外的其他詞匯,適當(dāng)弱化了不同報(bào)道之間的相似性;其次在先驗(yàn)知識(shí)的選擇方面,本文以詞頻統(tǒng)計(jì)結(jié)果為依據(jù),選擇以地名為主、人名為輔的部分名詞實(shí)體作為“熱點(diǎn)特征詞”來實(shí)現(xiàn)2.2節(jié)中所描述的操作,如表1所示,進(jìn)而采用改進(jìn)K值后的DPMM半監(jiān)督模型來進(jìn)行實(shí)驗(yàn),并在相同語料上與DPMM基本模型、改進(jìn)K值后的基本模型進(jìn)行對(duì)比.
表1 熱點(diǎn)特征詞列表Tab.1 Hot key words list
表2列出了50次實(shí)驗(yàn)的平均值和最高值,DPMM表示基礎(chǔ)模型,DPMM-K表示改進(jìn)K值的模型,DPMM-S表示半監(jiān)督模型.由于這3種方法在初始化時(shí)都存在較大的隨機(jī)成分,因此其性能都不能簡(jiǎn)單地用平均F值來表示,而最大F值能夠體現(xiàn)出模型的最佳潛能.從表2中不難看出單純依靠DPMM模型無法實(shí)現(xiàn)較好的聚類效果,改進(jìn)K值后的模型實(shí)驗(yàn)效果有所提升,而半監(jiān)督模型在自動(dòng)確定聚類個(gè)數(shù)的同時(shí)顯著提高了模型的性能,有效保證了熱點(diǎn)話題的檢測(cè)結(jié)果.結(jié)合語料的構(gòu)成對(duì)比TDT4-2002和TDT4-2003可知,基于語義分析的DPMM模型性能受語義信息量的影響,TDT4-2002中包含的話題和報(bào)道個(gè)數(shù)都要大于TDT4-2003,因此在性能上略有下降.
表2 不同方法的F值比較Tab.2 F value comparison of different methods
本文在DPMM模型的基礎(chǔ)上,完善了中國(guó)餐館過程在模型中的運(yùn)用,采用了K值由大到小變化的采樣策略,并結(jié)合深度學(xué)習(xí)的思想使模型自動(dòng)確定的K值更為準(zhǔn)確.通過分析聚類結(jié)果,得出了聚類結(jié)果在一定程度上受初始語料的影響,并做了相應(yīng)的研究和改進(jìn).本文提出的半監(jiān)督模型,通過加入一定的先驗(yàn)知識(shí),使得模型的話題檢測(cè)性能有了顯著的提高.在接下來的工作中,應(yīng)繼續(xù)優(yōu)化模型,進(jìn)一步研究增加報(bào)道間區(qū)分度的方法和識(shí)別小話題的方法,使得模型更為可行.同時(shí),增大實(shí)驗(yàn)的數(shù)據(jù)量,豐富語料庫(kù),在TDT標(biāo)準(zhǔn)語料的基礎(chǔ)上,結(jié)合各大權(quán)威新聞網(wǎng)站的新聞報(bào)道,使理論算法更具有實(shí)際意義.
[1]洪宇, 張宇, 劉挺, 等. 話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 中文信息學(xué)報(bào), 2007, 21(6): 71-87.
[2]李勝東, 呂學(xué)強(qiáng), 施水才, 等. 基于話題檢測(cè)的自適應(yīng)增量K-means算法[J]. 中文信息學(xué)報(bào), 2014, 28(6): 190-193.
[3]周剛, 鄒鴻程, 熊小兵, 等.MB-SinglePass:基于組合相似度的微博話題檢測(cè)[J]. 計(jì)算機(jī)科學(xué), 2012, 39(10): 198-202.[4]張曉艷. 新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2010.
[5]GUOX,XIANGY,CHENQ,etal.LDA-basedonlinetopicdetectionusingtensorfactorization[J].Journalofinformationscience, 2013, 39(4): 459-469.
[6]潘云仙, 袁方. 基于JST模型的新聞文本的情感分類研究[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2015, 47(1): 64-68.
[7]ANTONIAKCE.MixtureofDirichletprocesseswithapplicationstoBayesiannonparametricproblems[J].Annalsofstatistics, 1974, 2(6): 1152-1174.
[8]VLACHOSA,GHAHRAMANIZ,KORHONENA.Dirichletprocessmixturemodelsforverbclustering[C]//Icmlworkshoponpriorknowledgefortext&languageprocessing.Helsinki, 2008: 74-82.
[9]梅素玉, 王飛, 周水庚. 狄利克雷過程混合模型、擴(kuò)展模型及應(yīng)用[J]. 科學(xué)通報(bào), 2012, 57(34): 3243-3257.
[10]王嬋. 基于Dirichlet過程混合模型的話題識(shí)別與追蹤[D]. 北京: 北京郵電大學(xué), 2013.
[11]ZHANGH,JONATHANWQM,NGUYENTM.ImagesegmentationbyDirichletprocessmixturemodelwithgeneralisedmean[J].Ietimageprocessing, 2014, 8(8):103-111.
[12]BLEIDM,NGAY,JORDANMI.LatentDirichletallocation[J].Journalofmachinelearningresearch, 2003, (3): 993-1022.[13]FERGUSONTS.ABayesiananalysisofsomenonparametricproblems[J].Annalsofstatistics, 1973, 1(2): 209-230.
[14]徐謙, 周俊生, 陳家俊.Dirichlet過程及其在自然語言處理中的應(yīng)用[J]. 中文信息學(xué)報(bào), 2009, 23(5): 25-32.
[15]PITMANJ.Combinatorialstochasticprocesses[M].Springer,Berlin, 2006: 75-92.
[16]NEALRM.MarkovchainsamplingmethodsforDirichletprocessmixturemodels[J].JournalofcomputationalandgraphicalStatistics, 2000, 9(2): 249-265.
[17]SATOI,NAKAGAWAH.Topicmodelswithpower-lawusingPitman-Yorprocess[C]//Proceedingsofthe16thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.WashingtonDC, 2010: 673-681.
[18]HEINRICHG.Parameterestimationfortextanalysis[R].Germany:FraunhoferIGD, 2005.
[19]張小平, 周雪忠, 黃厚寬, 等. 一種改進(jìn)的LDA主題模型[J]. 北京交通大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 34(2): 111-114.[20]蔣文, 齊林. 一種基于深度玻爾茲曼機(jī)的半監(jiān)督典型相關(guān)分析算法[J]. 河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016,37(2): 47-51.
[21]STEINBACHM,KARYPISG,KUMARV.Acomparisonofdocumentclusteringtechniques[C]//Proceedingsofthe6thACM-SIGKDDinternationalconferenceontextmining.Boston, 2000: 103-122.
(責(zé)任編輯:王浩毅)
NewsTopicDetectionBasedonSemi-supervisedDPMM
YAODongdong1,YUANFang2, 3,WANGYu1,LIUYu3
(1. School of Computer Science and Technology, Hebei University, Baoding 071000, China;2. Department of Computer Teaching, Hebei University, Baoding 071000, China;3. College of Mathematics and Information Science, Hebei University, Baoding 071000, China)
BasedontheDirichletprocessmixturemodel(DPMM),combiningwiththemodel’sbasiccharacteristicofautomaticallylearningtheclusternumber,thelatenttopicinformationdetectionwasheldfromtheperspectiveofsemantics.AmoreaccurateK-valuewasobtainedwiththesamplingstrategyofK-value’schangingfrombigtosmallstepbystep.Afteranalyzingthetermfrequencycharacteristicsofsemanticclustering,agroupofnounentitieswereintroducedas“hotterms”toguidetheclusteringprocess,whichcouldbeconsideredastheDPMMsemi-supervisedmodel.TheresultsonTDT4corpusshowedthattheproposedtopicdetectionmethodwaseffective.
topicdetection;Dirichletprocess;Gibbssampling;powerlaw;nounentity
2016-04-07
河北省軟科學(xué)研究計(jì)劃項(xiàng)目(12457206D-11, 13455317D).
姚冬冬(1990—),男,河北邢臺(tái)人,碩士研究生,主要從事數(shù)據(jù)挖掘研究,E-mail:ydd625@qq.com;通訊作者:袁方(1965—),男,河北安新人,教授,主要從事數(shù)據(jù)挖掘、社會(huì)計(jì)算研究,E-mail:yuanfang@hbu.edu.cn.
TP391.1
A
1671-6841(2016)03-0063-06
10.13705/j.issn.1671-6841.2016070
引用本文:姚冬冬,袁方,王煜,等.基于半監(jiān)督DPMM的新聞話題檢測(cè)[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2016,48(3):63-68.