徐立洋,黃瑞章,3,陳艷平,錢志森,黎萬英
(1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025; 2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)), 貴陽 550025;3.計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)), 南京 210093)(*通信作者電子郵箱rzhuang@gzu.edu.cn)
在互聯(lián)網(wǎng)發(fā)展早期,網(wǎng)絡(luò)上可獲取文本數(shù)據(jù)的渠道(數(shù)據(jù)源)較少,文本挖掘任務(wù)主要面向單源文本數(shù)據(jù)。隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是移動(dòng)互聯(lián)網(wǎng)的普及率越來越高,幾乎每個(gè)人都能上網(wǎng)獲取資訊和發(fā)表觀點(diǎn), 因此出現(xiàn)了各種各樣的文本數(shù)據(jù)生產(chǎn)渠道,如各種社交媒體、新聞門戶、博客及論壇等。這些渠道時(shí)刻都在產(chǎn)生海量的文本數(shù)據(jù),同時(shí)對(duì)這些文本數(shù)據(jù)源進(jìn)行主題信息提取通常具有比較重要的應(yīng)用價(jià)值, 如在網(wǎng)絡(luò)新聞采編和網(wǎng)絡(luò)輿情分析應(yīng)用中,需要知道在每個(gè)渠道的主題分布,以及某個(gè)關(guān)注的主題在每個(gè)渠道的表現(xiàn)方式等。
此外還需要解決的一個(gè)問題是如何自動(dòng)確定每個(gè)數(shù)據(jù)源中的主題個(gè)數(shù)。傳統(tǒng)主題模型假設(shè)主題個(gè)數(shù)是已知的,因此在建模前需要事先設(shè)定需要學(xué)習(xí)的主題個(gè)數(shù)。通常對(duì)單源文本數(shù)據(jù)事先估計(jì)主題個(gè)數(shù)比較容易,但多源情況下,由于不同數(shù)據(jù)源之間可能具有較大差異,因此人為事先對(duì)每個(gè)數(shù)據(jù)源設(shè)定合理的主題個(gè)數(shù)比較困難。Huang等[2]指出,設(shè)定不合適的主題個(gè)數(shù)可能會(huì)嚴(yán)重影響模型準(zhǔn)確率, 所以針對(duì)多源數(shù)據(jù)的模型能夠根據(jù)每個(gè)數(shù)據(jù)源的數(shù)據(jù)特征自動(dòng)確定主題個(gè)數(shù)是非常有必要的。
本文模型嘗試通過擴(kuò)展狄利克雷多項(xiàng)分配(Dirichlet Multinomial Allocation, DMA)[2]模型來解決上述三個(gè)問題。DMA模型是一個(gè)有限混合模型,當(dāng)將其混合元素的數(shù)量趨于無窮大后,可以近似為一個(gè)狄利克雷過程混合(Dirichlet Process Mixture, DPM)模型[5],DPM是一個(gè)常用的非參貝葉斯模型,具有良好的聚類性質(zhì),在對(duì)聚類個(gè)數(shù)沒有先驗(yàn)知識(shí)的情況下,能夠自動(dòng)確定最終的類別個(gè)數(shù)[6]。本文提出的多源狄利克雷多項(xiàng)分配(Multi-Source Dirichlet Multinomial Allocation, MSDMA)模型是在DMA模型的基礎(chǔ)上作了一些擴(kuò)展,使其能夠?qū)W習(xí)主題知識(shí)結(jié)構(gòu)的同時(shí),保留主題在不同數(shù)據(jù)源中的詞分布特點(diǎn),并保留了DMA模型的非參聚類性質(zhì),最后利用Blocked-Gibbs參數(shù)學(xué)習(xí)方法自動(dòng)學(xué)習(xí)出K值[2]。
總的來說,本文所做的貢獻(xiàn)主要有如下3點(diǎn):
1)提出面向任意數(shù)量數(shù)據(jù)源的主題挖掘模型,解決傳統(tǒng)主題模型無法在多源情況下根據(jù)數(shù)據(jù)源自身特點(diǎn)進(jìn)行主題挖掘的問題;
2)通過主題和詞空間的共享實(shí)現(xiàn)數(shù)據(jù)源之間的信息互補(bǔ),輔助提升高噪聲、低信息量的數(shù)據(jù)源的主題發(fā)現(xiàn)效果;
3)根據(jù)數(shù)據(jù)源的數(shù)據(jù)特點(diǎn)自主學(xué)習(xí)出每個(gè)數(shù)據(jù)源的主題個(gè)數(shù)。
主題挖掘一直是文本分析領(lǐng)域中的一項(xiàng)重要工作,它可以將文檔從高維的詞項(xiàng)空間轉(zhuǎn)換到低維的主題空間,從而可以在主題空間實(shí)現(xiàn)對(duì)文本的聚類和分類以及文本核心內(nèi)容提取等工作。目前研究者們已對(duì)單源文本數(shù)據(jù)的主題挖掘方法作了大量研究。特別是2003年提出的潛在狄利克雷分配(Latent Dirichelt Allocation, LDA)模型[9],對(duì)主題模型的發(fā)展具有十分重要的意義,近年來主題模型相關(guān)的工作大多是對(duì)LDA模型的擴(kuò)展,但大多數(shù)模型主要是解決單源文本數(shù)據(jù)的主題挖掘問題。隨著文本數(shù)據(jù)來源渠道的不斷豐富,越來越多的研究者開始關(guān)注對(duì)多源文本數(shù)據(jù)(或多語料庫)的主題建模問題。 然而,大多數(shù)研究者對(duì)此類問題的研究興趣點(diǎn)在于如何通過數(shù)據(jù)源之間的信息輔助提升目標(biāo)數(shù)據(jù)源的主題發(fā)現(xiàn)效果[8],本質(zhì)上還是為了解決單一數(shù)據(jù)源的建模問題。例如在文獻(xiàn)[11]中提出的二元狄利克雷模型(Dual Latent Dirichlet Allocation, DLDA)通過引入輔助數(shù)據(jù)源對(duì)目標(biāo)數(shù)據(jù)源提供輔助信息,從而提升目標(biāo)數(shù)據(jù)源的主題發(fā)現(xiàn)效果;文獻(xiàn)[8]中提出的DDMAfs(Dual Dirichlet Multinomial Allocation with feature selection)模型通過引入長文本數(shù)據(jù)集來輔助提升短文本數(shù)據(jù)集的聚類效果;文獻(xiàn)[12]中將數(shù)據(jù)來源指定為Twitter和雅虎新聞兩個(gè)語料庫。以上提到的研究?jī)?nèi)容均對(duì)數(shù)據(jù)源的數(shù)量或來源作出了嚴(yán)格的限定,其目的是為了更好地對(duì)目標(biāo)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行主題建模,本質(zhì)上并沒有真正解決多源文本數(shù)據(jù)的主題建模問題。
在針對(duì)多源文本數(shù)據(jù)的主題模型中,文獻(xiàn)[13]提出的mLDA(multiple-corpora LDA)模型通過擴(kuò)展LDA,使不同數(shù)據(jù)源共享相同的主題-詞分布參數(shù),從而使得主題知識(shí)對(duì)于整個(gè)語料庫來說是統(tǒng)一的,忽略了主題在不同數(shù)據(jù)源中所特有的特點(diǎn);文獻(xiàn)[14]中提出的mf-CTM(multi-field Correlated Topic Model)使不同領(lǐng)域的語料庫共享相同的主題分布參數(shù),但不同語料庫具有獨(dú)立的主題-詞分布參數(shù),這雖然完全考慮了主題在不同數(shù)據(jù)源中的特點(diǎn),但難以保證同一個(gè)主題在不同數(shù)據(jù)源中具有概念上的一致性;文獻(xiàn)[1]提出的Probability Source LDA模型同時(shí)擴(kuò)展了LDA的主題分布參數(shù)和主題-詞分布參數(shù),讓數(shù)據(jù)源之間可以共享主題分布以及主題-詞分布,使得模型可以學(xué)習(xí)出每個(gè)數(shù)據(jù)源的主題結(jié)構(gòu),并保證主題在數(shù)據(jù)源之間具有一一對(duì)應(yīng)關(guān)系,同時(shí)保留了主題在數(shù)據(jù)源內(nèi)的特征,這與本文提出的MSDMA模型的目的相似,但該模型需要有數(shù)據(jù)源分布的先驗(yàn)知識(shí),增加了建模的復(fù)雜度。此外,分層狄利克雷過程(Hierarchical Dirichlet Process, HDP)模型也常用于對(duì)多源文本數(shù)據(jù)的分析[4],其主要目的是發(fā)現(xiàn)不同源數(shù)據(jù)中主題的隱含關(guān)聯(lián)模式。
上述提到的大多數(shù)方法均需要事先確定每個(gè)數(shù)據(jù)源的主題個(gè)數(shù)K,而即使在單一數(shù)據(jù)源的情形下確定一個(gè)合理的K值也是比較困難的,這需要建模者瀏覽所有的文檔數(shù)據(jù)才能作出合理的估計(jì),因此在多個(gè)數(shù)據(jù)源的情況下顯得更為困難。此外,不合理的K值估計(jì)可能會(huì)嚴(yán)重誤導(dǎo)模型的聚類過程,最直接的解決辦法就是用不同的K值訓(xùn)練模型,然后選取測(cè)試數(shù)據(jù)集中使得似然概率最高的一個(gè)[16]。另一種方法是為K設(shè)定先驗(yàn)參數(shù),然后計(jì)算出K的后驗(yàn)分布[17]。文獻(xiàn)[2] 基于DMA模型,利用Blocked-Gibbs對(duì)模型參數(shù)進(jìn)行采樣學(xué)習(xí),當(dāng)進(jìn)入一個(gè)新的觀測(cè)數(shù)據(jù)時(shí),該數(shù)據(jù)的類別(主題)可以從已經(jīng)存在的類別中生成,也可以生成一個(gè)新的類別。
圖1 多源狄利克雷分配模型的圖模型表示
符號(hào)說明α主題分布的狄利克雷先驗(yàn)參數(shù)θ全局主題的多項(xiàng)式分布參數(shù)Zsm數(shù)據(jù)源s中分配給文檔m的主題,s=1,2,…,S, m=1,2,…,Msxsm數(shù)據(jù)源s中第m篇文檔S數(shù)據(jù)源數(shù)量Ms數(shù)據(jù)源s中的文檔數(shù)量, s=1,2,…,Sβk主題k的詞分布的狄利克雷先驗(yàn)參數(shù), k=1,2,…,Kφsk主題k在數(shù)據(jù)源s中的詞分布參數(shù),s=1,2,…,S, k=1,2,…,KV詞典大小K主題個(gè)數(shù)Nsk數(shù)據(jù)源s中屬于主題k的文檔數(shù)量Nsk,w數(shù)據(jù)源s中,單詞w被分配給主題z的次數(shù),s=1,2,…,S, k=1,2,…,K, w=1,2,…,V
2)采樣θ|α~Dirichlet(α/K,α/K,…,α/K);
(1)
(2)
其中
因此,當(dāng)對(duì)所有數(shù)據(jù)源中的文檔進(jìn)行主題分配后,得到整個(gè)語料庫的近似生成概率:
(3)
(4)
2)以下列狄利克雷參數(shù)采樣新的θ:
(5)
(6)
本章分別設(shè)置了兩組實(shí)驗(yàn)來驗(yàn)證本文方法: 第一組實(shí)驗(yàn)使用了模擬數(shù)據(jù)集對(duì)模型性能進(jìn)行測(cè)試; 第二組使用Paper和Twitter的真實(shí)數(shù)據(jù)集。
兩組實(shí)驗(yàn)中,本文均使用歸一化互信息(Normalized Mutual Information, NMI)[18]作為主題發(fā)現(xiàn)效果的度量標(biāo)準(zhǔn)。NMI通常被作為聚類模型聚類效果的評(píng)價(jià)指標(biāo)。由于模型假設(shè)每篇文檔屬于一個(gè)主題,因此同一個(gè)主題下面的所有文檔可看作一個(gè)類,所以利用NMI來進(jìn)行度量,其計(jì)算公式如下:
其中:D是文檔篇數(shù),dh是實(shí)際類別h中的文檔篇數(shù),cl是聚類類別l中的文檔篇數(shù),dhl是同時(shí)屬于實(shí)際類別h和聚類類別l的文檔篇數(shù)。NMI的取值范圍為0到1,NMI值越接近1說明聚類效果越好,當(dāng)NMI=1時(shí),聚類結(jié)果完全與實(shí)際類別相符[2]。
4.2.1 模擬數(shù)據(jù)集生成方法介紹
本文采用文獻(xiàn)[19]中提到的利用狄利克雷過程的Stick-Breaking方法來產(chǎn)生模擬數(shù)據(jù)。首先,設(shè)定K個(gè)主題,記為{π1,π2,…,πK}。每個(gè)πK表示為一個(gè)基于單詞的多項(xiàng)式分布,記為πK=(u1,u2,…,uV),其中uw表示單詞w在主題k中出現(xiàn)的概率大小,V表示詞典長度。對(duì)其中一個(gè)主題k的生成過程如下:
1)以均勻概率從詞典中隨機(jī)抽出N個(gè)詞并按抽取的先后順序進(jìn)行標(biāo)記,得到長度為N的單詞序列(w1,w2,…,wN)。
2)對(duì)每個(gè)單詞賦予一個(gè)概率值:
a)對(duì)第一個(gè)單詞w1,令u1=l1,其中l(wèi)1~Beta(1,ξ)
b)對(duì)單詞wl(2≤l 需要注意的是,在上述過程中,參數(shù)的大小決定了主題中單詞概率的離散程度: 離散程度越高,概率越傾向于集中在少數(shù)單詞上面,主題詞就越明顯; 離散程度越低,每個(gè)單詞分配到的概率越均勻,主題詞越不明顯。對(duì)應(yīng)地,當(dāng)ξ值越大時(shí),主題詞越不明顯,模型越難識(shí)別出該主題。 圖2為不同ξ得到的詞概率分布圖,可見隨著ξ的增大,詞的概率分布越均勻,概率值的方差越小。 圖2 ξ 的取值對(duì)模擬主題的詞分布的影響 4.2.2 模擬數(shù)據(jù)集介紹 根據(jù)上述方法,以5 000維詞典,生成4個(gè)不同類型的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的具體參數(shù)如表2。 表2 模擬數(shù)據(jù)集參數(shù)說明 表2中M為每個(gè)數(shù)據(jù)集的文檔篇數(shù),W為數(shù)據(jù)集中每篇文檔的單詞數(shù)量,K為每個(gè)數(shù)據(jù)集的主題個(gè)數(shù)。以s2(M=500,W=100、ξ=1 500)數(shù)據(jù)集為標(biāo)準(zhǔn)數(shù)據(jù)集,其信息量和噪聲水平為標(biāo)準(zhǔn)情況;s1中每篇文檔的單詞數(shù)量限定為30,可用來表示一個(gè)短文本數(shù)據(jù)集;s3的ξ較小,因此可以表示一個(gè)主題信息明確的數(shù)據(jù)集,即主題-詞分布中噪聲詞的概率較小;s4中的文檔篇數(shù)最少,僅為200篇,因此可以表示一個(gè)缺少樣本信息的數(shù)據(jù)源。 4.2.3 模擬數(shù)據(jù)實(shí)驗(yàn)結(jié)果 該部分利用模擬的4個(gè)數(shù)據(jù)集做了4組不同的實(shí)驗(yàn)。 實(shí)驗(yàn)1中,用MSDMA模型同時(shí)對(duì)模擬生成的4個(gè)數(shù)據(jù)源進(jìn)行主題聚類,聚類結(jié)果如圖3所示。 圖3 MSDMA(s1,s2,s3,s4)的NMI和K值變化軌跡圖 從圖3可以看出,圖3(a)中每個(gè)數(shù)據(jù)源的NMI值隨著迭代次數(shù)的增加而增加,由于s3的主題信息比較明確,因此NMI值提升速度較快并率先達(dá)到1; 而s1由于是短文本數(shù)據(jù)集,每篇文檔的有效信息量較少,因此NMI值較小。圖3(b)中噪聲最低的s3能準(zhǔn)確地將主題個(gè)數(shù)收斂到6時(shí),與實(shí)際情況相符。 實(shí)驗(yàn)2中,建立了兩個(gè)模型:模型1的數(shù)據(jù)包含s1和s2,即長文本與短文本的融合。模型2的數(shù)據(jù)僅有短文本數(shù)據(jù)集s1。實(shí)驗(yàn)結(jié)果如圖4所示,模型1中短文本數(shù)據(jù)源s1的NMI值整體高于模型2中s1的NMI值。為了消除隨機(jī)因素影響,本文同時(shí)對(duì)兩個(gè)模型訓(xùn)練了10次,每次迭代200次,得到模型1中短文本的NMI比模型2中的提升約4%,說明該模型能通過數(shù)據(jù)融合,利用長文本數(shù)據(jù)源的信息輔助短文本數(shù)據(jù)源,提升短文本的主題發(fā)現(xiàn)效果。 圖4 MSDMA中不同數(shù)據(jù)源組合方式下的NMI變化軌跡 實(shí)驗(yàn)3中,同樣建立了兩個(gè)模型:模型1包含s2和s3兩個(gè)數(shù)據(jù)源,即高噪聲與低噪聲數(shù)據(jù)源融合。模型2的數(shù)據(jù)僅包含s2。圖4(b)的結(jié)果表示,模型1中s2的NMI值明顯高于模型2中s2的NMI值。為了消除隨機(jī)因素的影響,本文同時(shí)對(duì)兩個(gè)模型訓(xùn)練了10次,每次迭代200次,得到模型1中s2的NMI值明比模型2中s2的NMI值提升約10%。實(shí)驗(yàn)結(jié)果表明,該模型能通過數(shù)據(jù)融合,利用低噪聲數(shù)據(jù)源的信息輔助高噪聲數(shù)據(jù)源從而提升主題發(fā)現(xiàn)效果。 實(shí)驗(yàn)4中也建立了兩個(gè)模型:模型1的數(shù)據(jù)包含s2和s4,模型2的數(shù)據(jù)僅包含s4。s4僅包含200篇文檔,與s2相比信息量較少。實(shí)驗(yàn)結(jié)果見圖4(c),模型1中s2的NMI值明顯高于模型2中s2的NMI值。通過10次的模型訓(xùn)練得到模型1中s2的NMI值比模型2中的提升約3.6%,說明在該模型中,在相同數(shù)據(jù)質(zhì)量的情況下,數(shù)據(jù)量較少的數(shù)據(jù)源能夠利用數(shù)據(jù)量較多的數(shù)據(jù)源信息。 4.3.1 數(shù)據(jù)集介紹 本文使用了以下兩個(gè)真實(shí)數(shù)據(jù)集AMpaperSet和TweetSet來對(duì)本文提出的模型進(jìn)行測(cè)試: AMpaperSet 該數(shù)據(jù)集是將文獻(xiàn)[20]中使用的AMiner-Paper數(shù)據(jù)集中的論文摘要截取出來形成的一個(gè)數(shù)據(jù)集,并從中隨機(jī)抽取了1 500篇作為實(shí)驗(yàn)數(shù)據(jù)集,其中包含了三個(gè)不同的研究領(lǐng)域,分別是“graphical image”“computer network”和“database research”。 TweetSet 本文從“JeSuisParis”“RefugeesWelcome”和“PlutoFlyby”這三個(gè)熱門話題的Twitter中包含的URL爬取了5 577 篇文章,同樣隨機(jī)抽取1 500篇得到TweetSet語料庫。 將得到的數(shù)據(jù)集均去除停用詞以及在全局語料庫中出現(xiàn)頻率低的詞[21]。 表3 真實(shí)數(shù)據(jù)集描述 4.3.2 真實(shí)數(shù)據(jù)實(shí)驗(yàn)結(jié)果 本文設(shè)置了兩個(gè)實(shí)驗(yàn)來驗(yàn)證模型在真實(shí)數(shù)據(jù)集上有效性。 實(shí)驗(yàn)1中,將MSDMA模型與主流的傳統(tǒng)文本聚類模型進(jìn)行了對(duì)比,來驗(yàn)證MSDMA模型在主題建模過程中考慮數(shù)據(jù)源自身的特點(diǎn)與傳統(tǒng)主題模型相比,能夠更有效地對(duì)主題進(jìn)行刻畫。首先考察了K-Means文本聚類模型和分層狄利克雷過程模型(HDP)在這兩個(gè)數(shù)據(jù)集上的主題挖掘效果,并將它們?cè)O(shè)定為基線模型, 其中HDP模型是一個(gè)常用的非參貝葉斯模型,能夠針對(duì)多組文本數(shù)據(jù)的聚類和分析[15]; 然后對(duì)比了GSDMM(Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture)模型[22],該模型假設(shè)每篇文檔只屬于一個(gè)主題,這與本模型的假設(shè)類似。各模型的聚類效果如表4所示(表中結(jié)果均為10次訓(xùn)練結(jié)果的平均值)。 表4 4種模型在AMpaperSet和TweetSet數(shù)據(jù)集上的NMI值 表4結(jié)果表明MSDMA的聚類效果明顯好于基線模型K-means和HDP。GSDMM單獨(dú)對(duì)AMpaperSet建模得到的NMI略高于MSDMA,但對(duì)TweetSet的NMI卻明顯低于MSDMA, 證明了在MSDMA建模過程中,TweetSet能夠借鑒AMpaperSet中的主題知識(shí)輔助自身進(jìn)行主題發(fā)現(xiàn)。圖5是MSDMA模型學(xué)習(xí)出的每篇文檔的主題。 圖5 AMpapreSet和TweetSet中每篇文檔所屬主題的預(yù)測(cè)結(jié)果 從圖5中可看出,從AMpaperSet中發(fā)現(xiàn)2個(gè)主題,聚類的類別標(biāo)號(hào)為k1和k11; 從TweetSet中發(fā)現(xiàn)6個(gè)明顯的主題,類別標(biāo)號(hào)分別是k2,k5,k11,k13,k15和k23。 實(shí)驗(yàn)2對(duì)MSDMA模型學(xué)習(xí)出的主題在每個(gè)數(shù)據(jù)源中的詞分布形式進(jìn)行了研究,以驗(yàn)證模型能夠保留主題在數(shù)據(jù)源中的用詞特點(diǎn)。圖5中可以看出,模型對(duì)AMpapreSet的聚類效果較好,因此本文從AMpapreSet中選取了2個(gè)聚類效果明顯的主題和,同時(shí)選取TweetSet中相同編號(hào)的主題,并展示了兩個(gè)數(shù)據(jù)源中每個(gè)主題出現(xiàn)概率最高的15個(gè)詞: 主題1主要描述了計(jì)算機(jī)網(wǎng)絡(luò)(computer network)相關(guān)的內(nèi)容,AMpaperSet對(duì)該主題的描述更偏向于專業(yè)的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),如模型、算法、架構(gòu)等方面;而TweetSet中則更偏向于網(wǎng)絡(luò)安全、隱私、郵箱等社會(huì)話題。 主題2是與圖形圖像(graphical image)相關(guān)的主題,在AMpaperSet中對(duì)該主題的描述也更偏向于計(jì)算機(jī)圖形學(xué)專業(yè)術(shù)語;而在TweetSet中,則表現(xiàn)為與旅行、拍照、穿著等生活化場(chǎng)景相關(guān)。 表5 同一編號(hào)的主題在兩個(gè)數(shù)據(jù)源中的詞分布差異比較 該實(shí)驗(yàn)表明,與傳統(tǒng)主題模型只能對(duì)某主題學(xué)習(xí)出統(tǒng)一的詞分布相比,本文提出的MSDMA模型能夠保留數(shù)據(jù)源的整體特點(diǎn),學(xué)習(xí)出該主題在各數(shù)據(jù)源中特有的詞分布形式。 本文針對(duì)多源文本數(shù)據(jù),提出了一種基于狄利克雷分配的多源文本主題發(fā)現(xiàn)方法。該方法在主題建模過程中能夠有效利用數(shù)據(jù)源特征,根據(jù)數(shù)據(jù)源特點(diǎn)發(fā)現(xiàn)同一個(gè)主題在不同數(shù)據(jù)源中的詞項(xiàng)分布的區(qū)別,同時(shí)利用數(shù)據(jù)源之間的信息互補(bǔ)在一定程度上解決噪聲和信息量不足的問題。此外傳統(tǒng)主題模型的訓(xùn)練結(jié)果較大程度依賴于主題個(gè)數(shù)K的經(jīng)驗(yàn)設(shè)定,本文提出的基于DMA模型的方法保留了DMA模型的非參性質(zhì),利用Blocked-Gibbs參數(shù)學(xué)習(xí)方法自動(dòng)學(xué)習(xí)出K值,且每個(gè)數(shù)據(jù)源的K均考慮了數(shù)據(jù)源自身數(shù)據(jù)特點(diǎn)。最后通過實(shí)驗(yàn)驗(yàn)證了該方法同時(shí)對(duì)多源文本進(jìn)行主題挖掘的效果優(yōu)于主流模型。4.3 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)
5 結(jié)語