• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于狄利克雷多項(xiàng)分配模型的多源文本主題挖掘模型

    2018-12-14 05:30:56徐立洋黃瑞章陳艷平錢志森黎萬英
    計(jì)算機(jī)應(yīng)用 2018年11期
    關(guān)鍵詞:數(shù)據(jù)源個(gè)數(shù)文檔

    徐立洋,黃瑞章,3,陳艷平,錢志森,黎萬英

    (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025; 2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)), 貴陽 550025;3.計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)), 南京 210093)(*通信作者電子郵箱rzhuang@gzu.edu.cn)

    0 引言

    在互聯(lián)網(wǎng)發(fā)展早期,網(wǎng)絡(luò)上可獲取文本數(shù)據(jù)的渠道(數(shù)據(jù)源)較少,文本挖掘任務(wù)主要面向單源文本數(shù)據(jù)。隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是移動(dòng)互聯(lián)網(wǎng)的普及率越來越高,幾乎每個(gè)人都能上網(wǎng)獲取資訊和發(fā)表觀點(diǎn), 因此出現(xiàn)了各種各樣的文本數(shù)據(jù)生產(chǎn)渠道,如各種社交媒體、新聞門戶、博客及論壇等。這些渠道時(shí)刻都在產(chǎn)生海量的文本數(shù)據(jù),同時(shí)對(duì)這些文本數(shù)據(jù)源進(jìn)行主題信息提取通常具有比較重要的應(yīng)用價(jià)值, 如在網(wǎng)絡(luò)新聞采編和網(wǎng)絡(luò)輿情分析應(yīng)用中,需要知道在每個(gè)渠道的主題分布,以及某個(gè)關(guān)注的主題在每個(gè)渠道的表現(xiàn)方式等。

    此外還需要解決的一個(gè)問題是如何自動(dòng)確定每個(gè)數(shù)據(jù)源中的主題個(gè)數(shù)。傳統(tǒng)主題模型假設(shè)主題個(gè)數(shù)是已知的,因此在建模前需要事先設(shè)定需要學(xué)習(xí)的主題個(gè)數(shù)。通常對(duì)單源文本數(shù)據(jù)事先估計(jì)主題個(gè)數(shù)比較容易,但多源情況下,由于不同數(shù)據(jù)源之間可能具有較大差異,因此人為事先對(duì)每個(gè)數(shù)據(jù)源設(shè)定合理的主題個(gè)數(shù)比較困難。Huang等[2]指出,設(shè)定不合適的主題個(gè)數(shù)可能會(huì)嚴(yán)重影響模型準(zhǔn)確率, 所以針對(duì)多源數(shù)據(jù)的模型能夠根據(jù)每個(gè)數(shù)據(jù)源的數(shù)據(jù)特征自動(dòng)確定主題個(gè)數(shù)是非常有必要的。

    本文模型嘗試通過擴(kuò)展狄利克雷多項(xiàng)分配(Dirichlet Multinomial Allocation, DMA)[2]模型來解決上述三個(gè)問題。DMA模型是一個(gè)有限混合模型,當(dāng)將其混合元素的數(shù)量趨于無窮大后,可以近似為一個(gè)狄利克雷過程混合(Dirichlet Process Mixture, DPM)模型[5],DPM是一個(gè)常用的非參貝葉斯模型,具有良好的聚類性質(zhì),在對(duì)聚類個(gè)數(shù)沒有先驗(yàn)知識(shí)的情況下,能夠自動(dòng)確定最終的類別個(gè)數(shù)[6]。本文提出的多源狄利克雷多項(xiàng)分配(Multi-Source Dirichlet Multinomial Allocation, MSDMA)模型是在DMA模型的基礎(chǔ)上作了一些擴(kuò)展,使其能夠?qū)W習(xí)主題知識(shí)結(jié)構(gòu)的同時(shí),保留主題在不同數(shù)據(jù)源中的詞分布特點(diǎn),并保留了DMA模型的非參聚類性質(zhì),最后利用Blocked-Gibbs參數(shù)學(xué)習(xí)方法自動(dòng)學(xué)習(xí)出K值[2]。

    總的來說,本文所做的貢獻(xiàn)主要有如下3點(diǎn):

    1)提出面向任意數(shù)量數(shù)據(jù)源的主題挖掘模型,解決傳統(tǒng)主題模型無法在多源情況下根據(jù)數(shù)據(jù)源自身特點(diǎn)進(jìn)行主題挖掘的問題;

    2)通過主題和詞空間的共享實(shí)現(xiàn)數(shù)據(jù)源之間的信息互補(bǔ),輔助提升高噪聲、低信息量的數(shù)據(jù)源的主題發(fā)現(xiàn)效果;

    3)根據(jù)數(shù)據(jù)源的數(shù)據(jù)特點(diǎn)自主學(xué)習(xí)出每個(gè)數(shù)據(jù)源的主題個(gè)數(shù)。

    1 相關(guān)工作

    主題挖掘一直是文本分析領(lǐng)域中的一項(xiàng)重要工作,它可以將文檔從高維的詞項(xiàng)空間轉(zhuǎn)換到低維的主題空間,從而可以在主題空間實(shí)現(xiàn)對(duì)文本的聚類和分類以及文本核心內(nèi)容提取等工作。目前研究者們已對(duì)單源文本數(shù)據(jù)的主題挖掘方法作了大量研究。特別是2003年提出的潛在狄利克雷分配(Latent Dirichelt Allocation, LDA)模型[9],對(duì)主題模型的發(fā)展具有十分重要的意義,近年來主題模型相關(guān)的工作大多是對(duì)LDA模型的擴(kuò)展,但大多數(shù)模型主要是解決單源文本數(shù)據(jù)的主題挖掘問題。隨著文本數(shù)據(jù)來源渠道的不斷豐富,越來越多的研究者開始關(guān)注對(duì)多源文本數(shù)據(jù)(或多語料庫)的主題建模問題。 然而,大多數(shù)研究者對(duì)此類問題的研究興趣點(diǎn)在于如何通過數(shù)據(jù)源之間的信息輔助提升目標(biāo)數(shù)據(jù)源的主題發(fā)現(xiàn)效果[8],本質(zhì)上還是為了解決單一數(shù)據(jù)源的建模問題。例如在文獻(xiàn)[11]中提出的二元狄利克雷模型(Dual Latent Dirichlet Allocation, DLDA)通過引入輔助數(shù)據(jù)源對(duì)目標(biāo)數(shù)據(jù)源提供輔助信息,從而提升目標(biāo)數(shù)據(jù)源的主題發(fā)現(xiàn)效果;文獻(xiàn)[8]中提出的DDMAfs(Dual Dirichlet Multinomial Allocation with feature selection)模型通過引入長文本數(shù)據(jù)集來輔助提升短文本數(shù)據(jù)集的聚類效果;文獻(xiàn)[12]中將數(shù)據(jù)來源指定為Twitter和雅虎新聞兩個(gè)語料庫。以上提到的研究?jī)?nèi)容均對(duì)數(shù)據(jù)源的數(shù)量或來源作出了嚴(yán)格的限定,其目的是為了更好地對(duì)目標(biāo)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行主題建模,本質(zhì)上并沒有真正解決多源文本數(shù)據(jù)的主題建模問題。

    在針對(duì)多源文本數(shù)據(jù)的主題模型中,文獻(xiàn)[13]提出的mLDA(multiple-corpora LDA)模型通過擴(kuò)展LDA,使不同數(shù)據(jù)源共享相同的主題-詞分布參數(shù),從而使得主題知識(shí)對(duì)于整個(gè)語料庫來說是統(tǒng)一的,忽略了主題在不同數(shù)據(jù)源中所特有的特點(diǎn);文獻(xiàn)[14]中提出的mf-CTM(multi-field Correlated Topic Model)使不同領(lǐng)域的語料庫共享相同的主題分布參數(shù),但不同語料庫具有獨(dú)立的主題-詞分布參數(shù),這雖然完全考慮了主題在不同數(shù)據(jù)源中的特點(diǎn),但難以保證同一個(gè)主題在不同數(shù)據(jù)源中具有概念上的一致性;文獻(xiàn)[1]提出的Probability Source LDA模型同時(shí)擴(kuò)展了LDA的主題分布參數(shù)和主題-詞分布參數(shù),讓數(shù)據(jù)源之間可以共享主題分布以及主題-詞分布,使得模型可以學(xué)習(xí)出每個(gè)數(shù)據(jù)源的主題結(jié)構(gòu),并保證主題在數(shù)據(jù)源之間具有一一對(duì)應(yīng)關(guān)系,同時(shí)保留了主題在數(shù)據(jù)源內(nèi)的特征,這與本文提出的MSDMA模型的目的相似,但該模型需要有數(shù)據(jù)源分布的先驗(yàn)知識(shí),增加了建模的復(fù)雜度。此外,分層狄利克雷過程(Hierarchical Dirichlet Process, HDP)模型也常用于對(duì)多源文本數(shù)據(jù)的分析[4],其主要目的是發(fā)現(xiàn)不同源數(shù)據(jù)中主題的隱含關(guān)聯(lián)模式。

    上述提到的大多數(shù)方法均需要事先確定每個(gè)數(shù)據(jù)源的主題個(gè)數(shù)K,而即使在單一數(shù)據(jù)源的情形下確定一個(gè)合理的K值也是比較困難的,這需要建模者瀏覽所有的文檔數(shù)據(jù)才能作出合理的估計(jì),因此在多個(gè)數(shù)據(jù)源的情況下顯得更為困難。此外,不合理的K值估計(jì)可能會(huì)嚴(yán)重誤導(dǎo)模型的聚類過程,最直接的解決辦法就是用不同的K值訓(xùn)練模型,然后選取測(cè)試數(shù)據(jù)集中使得似然概率最高的一個(gè)[16]。另一種方法是為K設(shè)定先驗(yàn)參數(shù),然后計(jì)算出K的后驗(yàn)分布[17]。文獻(xiàn)[2] 基于DMA模型,利用Blocked-Gibbs對(duì)模型參數(shù)進(jìn)行采樣學(xué)習(xí),當(dāng)進(jìn)入一個(gè)新的觀測(cè)數(shù)據(jù)時(shí),該數(shù)據(jù)的類別(主題)可以從已經(jīng)存在的類別中生成,也可以生成一個(gè)新的類別。

    2 多源狄利克雷多項(xiàng)分配模型

    圖1 多源狄利克雷分配模型的圖模型表示

    符號(hào)說明α主題分布的狄利克雷先驗(yàn)參數(shù)θ全局主題的多項(xiàng)式分布參數(shù)Zsm數(shù)據(jù)源s中分配給文檔m的主題,s=1,2,…,S, m=1,2,…,Msxsm數(shù)據(jù)源s中第m篇文檔S數(shù)據(jù)源數(shù)量Ms數(shù)據(jù)源s中的文檔數(shù)量, s=1,2,…,Sβk主題k的詞分布的狄利克雷先驗(yàn)參數(shù), k=1,2,…,Kφsk主題k在數(shù)據(jù)源s中的詞分布參數(shù),s=1,2,…,S, k=1,2,…,KV詞典大小K主題個(gè)數(shù)Nsk數(shù)據(jù)源s中屬于主題k的文檔數(shù)量Nsk,w數(shù)據(jù)源s中,單詞w被分配給主題z的次數(shù),s=1,2,…,S, k=1,2,…,K, w=1,2,…,V

    2)采樣θ|α~Dirichlet(α/K,α/K,…,α/K);

    (1)

    (2)

    其中

    因此,當(dāng)對(duì)所有數(shù)據(jù)源中的文檔進(jìn)行主題分配后,得到整個(gè)語料庫的近似生成概率:

    (3)

    3 基于Blocked-Gibbs的參數(shù)學(xué)習(xí)方法

    (4)

    2)以下列狄利克雷參數(shù)采樣新的θ:

    (5)

    (6)

    4 實(shí)驗(yàn)與分析

    本章分別設(shè)置了兩組實(shí)驗(yàn)來驗(yàn)證本文方法: 第一組實(shí)驗(yàn)使用了模擬數(shù)據(jù)集對(duì)模型性能進(jìn)行測(cè)試; 第二組使用Paper和Twitter的真實(shí)數(shù)據(jù)集。

    4.1 度量標(biāo)準(zhǔn)

    兩組實(shí)驗(yàn)中,本文均使用歸一化互信息(Normalized Mutual Information, NMI)[18]作為主題發(fā)現(xiàn)效果的度量標(biāo)準(zhǔn)。NMI通常被作為聚類模型聚類效果的評(píng)價(jià)指標(biāo)。由于模型假設(shè)每篇文檔屬于一個(gè)主題,因此同一個(gè)主題下面的所有文檔可看作一個(gè)類,所以利用NMI來進(jìn)行度量,其計(jì)算公式如下:

    其中:D是文檔篇數(shù),dh是實(shí)際類別h中的文檔篇數(shù),cl是聚類類別l中的文檔篇數(shù),dhl是同時(shí)屬于實(shí)際類別h和聚類類別l的文檔篇數(shù)。NMI的取值范圍為0到1,NMI值越接近1說明聚類效果越好,當(dāng)NMI=1時(shí),聚類結(jié)果完全與實(shí)際類別相符[2]。

    4.2 模擬數(shù)據(jù)集實(shí)驗(yàn)

    4.2.1 模擬數(shù)據(jù)集生成方法介紹

    本文采用文獻(xiàn)[19]中提到的利用狄利克雷過程的Stick-Breaking方法來產(chǎn)生模擬數(shù)據(jù)。首先,設(shè)定K個(gè)主題,記為{π1,π2,…,πK}。每個(gè)πK表示為一個(gè)基于單詞的多項(xiàng)式分布,記為πK=(u1,u2,…,uV),其中uw表示單詞w在主題k中出現(xiàn)的概率大小,V表示詞典長度。對(duì)其中一個(gè)主題k的生成過程如下:

    1)以均勻概率從詞典中隨機(jī)抽出N個(gè)詞并按抽取的先后順序進(jìn)行標(biāo)記,得到長度為N的單詞序列(w1,w2,…,wN)。

    2)對(duì)每個(gè)單詞賦予一個(gè)概率值:

    a)對(duì)第一個(gè)單詞w1,令u1=l1,其中l(wèi)1~Beta(1,ξ)

    b)對(duì)單詞wl(2≤l

    需要注意的是,在上述過程中,參數(shù)的大小決定了主題中單詞概率的離散程度: 離散程度越高,概率越傾向于集中在少數(shù)單詞上面,主題詞就越明顯; 離散程度越低,每個(gè)單詞分配到的概率越均勻,主題詞越不明顯。對(duì)應(yīng)地,當(dāng)ξ值越大時(shí),主題詞越不明顯,模型越難識(shí)別出該主題。

    圖2為不同ξ得到的詞概率分布圖,可見隨著ξ的增大,詞的概率分布越均勻,概率值的方差越小。

    圖2 ξ 的取值對(duì)模擬主題的詞分布的影響

    4.2.2 模擬數(shù)據(jù)集介紹

    根據(jù)上述方法,以5 000維詞典,生成4個(gè)不同類型的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的具體參數(shù)如表2。

    表2 模擬數(shù)據(jù)集參數(shù)說明

    表2中M為每個(gè)數(shù)據(jù)集的文檔篇數(shù),W為數(shù)據(jù)集中每篇文檔的單詞數(shù)量,K為每個(gè)數(shù)據(jù)集的主題個(gè)數(shù)。以s2(M=500,W=100、ξ=1 500)數(shù)據(jù)集為標(biāo)準(zhǔn)數(shù)據(jù)集,其信息量和噪聲水平為標(biāo)準(zhǔn)情況;s1中每篇文檔的單詞數(shù)量限定為30,可用來表示一個(gè)短文本數(shù)據(jù)集;s3的ξ較小,因此可以表示一個(gè)主題信息明確的數(shù)據(jù)集,即主題-詞分布中噪聲詞的概率較小;s4中的文檔篇數(shù)最少,僅為200篇,因此可以表示一個(gè)缺少樣本信息的數(shù)據(jù)源。

    4.2.3 模擬數(shù)據(jù)實(shí)驗(yàn)結(jié)果

    該部分利用模擬的4個(gè)數(shù)據(jù)集做了4組不同的實(shí)驗(yàn)。

    實(shí)驗(yàn)1中,用MSDMA模型同時(shí)對(duì)模擬生成的4個(gè)數(shù)據(jù)源進(jìn)行主題聚類,聚類結(jié)果如圖3所示。

    圖3 MSDMA(s1,s2,s3,s4)的NMI和K值變化軌跡圖

    從圖3可以看出,圖3(a)中每個(gè)數(shù)據(jù)源的NMI值隨著迭代次數(shù)的增加而增加,由于s3的主題信息比較明確,因此NMI值提升速度較快并率先達(dá)到1; 而s1由于是短文本數(shù)據(jù)集,每篇文檔的有效信息量較少,因此NMI值較小。圖3(b)中噪聲最低的s3能準(zhǔn)確地將主題個(gè)數(shù)收斂到6時(shí),與實(shí)際情況相符。

    實(shí)驗(yàn)2中,建立了兩個(gè)模型:模型1的數(shù)據(jù)包含s1和s2,即長文本與短文本的融合。模型2的數(shù)據(jù)僅有短文本數(shù)據(jù)集s1。實(shí)驗(yàn)結(jié)果如圖4所示,模型1中短文本數(shù)據(jù)源s1的NMI值整體高于模型2中s1的NMI值。為了消除隨機(jī)因素影響,本文同時(shí)對(duì)兩個(gè)模型訓(xùn)練了10次,每次迭代200次,得到模型1中短文本的NMI比模型2中的提升約4%,說明該模型能通過數(shù)據(jù)融合,利用長文本數(shù)據(jù)源的信息輔助短文本數(shù)據(jù)源,提升短文本的主題發(fā)現(xiàn)效果。

    圖4 MSDMA中不同數(shù)據(jù)源組合方式下的NMI變化軌跡

    實(shí)驗(yàn)3中,同樣建立了兩個(gè)模型:模型1包含s2和s3兩個(gè)數(shù)據(jù)源,即高噪聲與低噪聲數(shù)據(jù)源融合。模型2的數(shù)據(jù)僅包含s2。圖4(b)的結(jié)果表示,模型1中s2的NMI值明顯高于模型2中s2的NMI值。為了消除隨機(jī)因素的影響,本文同時(shí)對(duì)兩個(gè)模型訓(xùn)練了10次,每次迭代200次,得到模型1中s2的NMI值明比模型2中s2的NMI值提升約10%。實(shí)驗(yàn)結(jié)果表明,該模型能通過數(shù)據(jù)融合,利用低噪聲數(shù)據(jù)源的信息輔助高噪聲數(shù)據(jù)源從而提升主題發(fā)現(xiàn)效果。

    實(shí)驗(yàn)4中也建立了兩個(gè)模型:模型1的數(shù)據(jù)包含s2和s4,模型2的數(shù)據(jù)僅包含s4。s4僅包含200篇文檔,與s2相比信息量較少。實(shí)驗(yàn)結(jié)果見圖4(c),模型1中s2的NMI值明顯高于模型2中s2的NMI值。通過10次的模型訓(xùn)練得到模型1中s2的NMI值比模型2中的提升約3.6%,說明在該模型中,在相同數(shù)據(jù)質(zhì)量的情況下,數(shù)據(jù)量較少的數(shù)據(jù)源能夠利用數(shù)據(jù)量較多的數(shù)據(jù)源信息。

    4.3 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)

    4.3.1 數(shù)據(jù)集介紹

    本文使用了以下兩個(gè)真實(shí)數(shù)據(jù)集AMpaperSet和TweetSet來對(duì)本文提出的模型進(jìn)行測(cè)試:

    AMpaperSet 該數(shù)據(jù)集是將文獻(xiàn)[20]中使用的AMiner-Paper數(shù)據(jù)集中的論文摘要截取出來形成的一個(gè)數(shù)據(jù)集,并從中隨機(jī)抽取了1 500篇作為實(shí)驗(yàn)數(shù)據(jù)集,其中包含了三個(gè)不同的研究領(lǐng)域,分別是“graphical image”“computer network”和“database research”。

    TweetSet 本文從“JeSuisParis”“RefugeesWelcome”和“PlutoFlyby”這三個(gè)熱門話題的Twitter中包含的URL爬取了5 577 篇文章,同樣隨機(jī)抽取1 500篇得到TweetSet語料庫。

    將得到的數(shù)據(jù)集均去除停用詞以及在全局語料庫中出現(xiàn)頻率低的詞[21]。

    表3 真實(shí)數(shù)據(jù)集描述

    4.3.2 真實(shí)數(shù)據(jù)實(shí)驗(yàn)結(jié)果

    本文設(shè)置了兩個(gè)實(shí)驗(yàn)來驗(yàn)證模型在真實(shí)數(shù)據(jù)集上有效性。

    實(shí)驗(yàn)1中,將MSDMA模型與主流的傳統(tǒng)文本聚類模型進(jìn)行了對(duì)比,來驗(yàn)證MSDMA模型在主題建模過程中考慮數(shù)據(jù)源自身的特點(diǎn)與傳統(tǒng)主題模型相比,能夠更有效地對(duì)主題進(jìn)行刻畫。首先考察了K-Means文本聚類模型和分層狄利克雷過程模型(HDP)在這兩個(gè)數(shù)據(jù)集上的主題挖掘效果,并將它們?cè)O(shè)定為基線模型, 其中HDP模型是一個(gè)常用的非參貝葉斯模型,能夠針對(duì)多組文本數(shù)據(jù)的聚類和分析[15]; 然后對(duì)比了GSDMM(Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture)模型[22],該模型假設(shè)每篇文檔只屬于一個(gè)主題,這與本模型的假設(shè)類似。各模型的聚類效果如表4所示(表中結(jié)果均為10次訓(xùn)練結(jié)果的平均值)。

    表4 4種模型在AMpaperSet和TweetSet數(shù)據(jù)集上的NMI值

    表4結(jié)果表明MSDMA的聚類效果明顯好于基線模型K-means和HDP。GSDMM單獨(dú)對(duì)AMpaperSet建模得到的NMI略高于MSDMA,但對(duì)TweetSet的NMI卻明顯低于MSDMA, 證明了在MSDMA建模過程中,TweetSet能夠借鑒AMpaperSet中的主題知識(shí)輔助自身進(jìn)行主題發(fā)現(xiàn)。圖5是MSDMA模型學(xué)習(xí)出的每篇文檔的主題。

    圖5 AMpapreSet和TweetSet中每篇文檔所屬主題的預(yù)測(cè)結(jié)果

    從圖5中可看出,從AMpaperSet中發(fā)現(xiàn)2個(gè)主題,聚類的類別標(biāo)號(hào)為k1和k11; 從TweetSet中發(fā)現(xiàn)6個(gè)明顯的主題,類別標(biāo)號(hào)分別是k2,k5,k11,k13,k15和k23。

    實(shí)驗(yàn)2對(duì)MSDMA模型學(xué)習(xí)出的主題在每個(gè)數(shù)據(jù)源中的詞分布形式進(jìn)行了研究,以驗(yàn)證模型能夠保留主題在數(shù)據(jù)源中的用詞特點(diǎn)。圖5中可以看出,模型對(duì)AMpapreSet的聚類效果較好,因此本文從AMpapreSet中選取了2個(gè)聚類效果明顯的主題和,同時(shí)選取TweetSet中相同編號(hào)的主題,并展示了兩個(gè)數(shù)據(jù)源中每個(gè)主題出現(xiàn)概率最高的15個(gè)詞:

    主題1主要描述了計(jì)算機(jī)網(wǎng)絡(luò)(computer network)相關(guān)的內(nèi)容,AMpaperSet對(duì)該主題的描述更偏向于專業(yè)的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),如模型、算法、架構(gòu)等方面;而TweetSet中則更偏向于網(wǎng)絡(luò)安全、隱私、郵箱等社會(huì)話題。

    主題2是與圖形圖像(graphical image)相關(guān)的主題,在AMpaperSet中對(duì)該主題的描述也更偏向于計(jì)算機(jī)圖形學(xué)專業(yè)術(shù)語;而在TweetSet中,則表現(xiàn)為與旅行、拍照、穿著等生活化場(chǎng)景相關(guān)。

    表5 同一編號(hào)的主題在兩個(gè)數(shù)據(jù)源中的詞分布差異比較

    該實(shí)驗(yàn)表明,與傳統(tǒng)主題模型只能對(duì)某主題學(xué)習(xí)出統(tǒng)一的詞分布相比,本文提出的MSDMA模型能夠保留數(shù)據(jù)源的整體特點(diǎn),學(xué)習(xí)出該主題在各數(shù)據(jù)源中特有的詞分布形式。

    5 結(jié)語

    本文針對(duì)多源文本數(shù)據(jù),提出了一種基于狄利克雷分配的多源文本主題發(fā)現(xiàn)方法。該方法在主題建模過程中能夠有效利用數(shù)據(jù)源特征,根據(jù)數(shù)據(jù)源特點(diǎn)發(fā)現(xiàn)同一個(gè)主題在不同數(shù)據(jù)源中的詞項(xiàng)分布的區(qū)別,同時(shí)利用數(shù)據(jù)源之間的信息互補(bǔ)在一定程度上解決噪聲和信息量不足的問題。此外傳統(tǒng)主題模型的訓(xùn)練結(jié)果較大程度依賴于主題個(gè)數(shù)K的經(jīng)驗(yàn)設(shè)定,本文提出的基于DMA模型的方法保留了DMA模型的非參性質(zhì),利用Blocked-Gibbs參數(shù)學(xué)習(xí)方法自動(dòng)學(xué)習(xí)出K值,且每個(gè)數(shù)據(jù)源的K均考慮了數(shù)據(jù)源自身數(shù)據(jù)特點(diǎn)。最后通過實(shí)驗(yàn)驗(yàn)證了該方法同時(shí)對(duì)多源文本進(jìn)行主題挖掘的效果優(yōu)于主流模型。

    猜你喜歡
    數(shù)據(jù)源個(gè)數(shù)文檔
    怎樣數(shù)出小正方體的個(gè)數(shù)
    有人一聲不吭向你扔了個(gè)文檔
    等腰三角形個(gè)數(shù)探索
    怎樣數(shù)出小木塊的個(gè)數(shù)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
    亚洲av一区综合| 国产伦在线观看视频一区| 亚洲国产最新在线播放| 久久久久精品久久久久真实原创| 精品一区二区三区人妻视频| 国产伦在线观看视频一区| 成人综合一区亚洲| 免费看av在线观看网站| 天天躁夜夜躁狠狠久久av| 18+在线观看网站| 国产美女午夜福利| 18禁在线播放成人免费| 婷婷色综合大香蕉| av在线蜜桃| 欧美人与善性xxx| 天堂网av新在线| 中文字幕亚洲精品专区| 人妻少妇偷人精品九色| 一本久久精品| 欧美激情在线99| 久久亚洲精品不卡| 男人舔奶头视频| 2022亚洲国产成人精品| 日韩欧美 国产精品| 精品酒店卫生间| 99久久精品一区二区三区| 啦啦啦啦在线视频资源| 最后的刺客免费高清国语| 国产精品,欧美在线| 日韩在线高清观看一区二区三区| 乱系列少妇在线播放| 五月玫瑰六月丁香| 国产三级在线视频| 九草在线视频观看| 日韩视频在线欧美| 日韩欧美精品免费久久| 久久精品夜夜夜夜夜久久蜜豆| 全区人妻精品视频| 中文字幕av在线有码专区| 午夜福利在线观看吧| 日本五十路高清| 亚洲成av人片在线播放无| 色视频www国产| 国产高清有码在线观看视频| 国产一区二区三区av在线| 欧美日韩综合久久久久久| 天堂网av新在线| 超碰97精品在线观看| 久久久精品94久久精品| 免费播放大片免费观看视频在线观看 | 国产精品一区二区三区四区久久| 精品人妻偷拍中文字幕| av专区在线播放| 欧美潮喷喷水| 国产色爽女视频免费观看| 一级黄片播放器| 69av精品久久久久久| 淫秽高清视频在线观看| 中文精品一卡2卡3卡4更新| 色网站视频免费| 高清视频免费观看一区二区 | 久久久精品欧美日韩精品| 婷婷六月久久综合丁香| 人人妻人人看人人澡| 国产精品蜜桃在线观看| 欧美xxxx黑人xx丫x性爽| 亚洲av免费在线观看| 中文字幕av在线有码专区| 亚洲美女搞黄在线观看| 一本久久精品| 成人午夜精彩视频在线观看| 免费看av在线观看网站| 精品欧美国产一区二区三| 亚洲高清免费不卡视频| 日日摸夜夜添夜夜爱| 免费观看性生交大片5| 禁无遮挡网站| 我要看日韩黄色一级片| 亚洲一级一片aⅴ在线观看| 国产精品国产三级专区第一集| 亚洲av二区三区四区| 欧美激情国产日韩精品一区| 欧美激情国产日韩精品一区| 亚洲,欧美,日韩| 欧美+日韩+精品| 女人久久www免费人成看片 | 搡女人真爽免费视频火全软件| 草草在线视频免费看| 国产熟女欧美一区二区| 别揉我奶头 嗯啊视频| 性插视频无遮挡在线免费观看| 成年女人永久免费观看视频| 村上凉子中文字幕在线| 不卡视频在线观看欧美| 最近中文字幕2019免费版| 久久精品国产鲁丝片午夜精品| 亚洲综合精品二区| 六月丁香七月| 日韩精品有码人妻一区| 天堂中文最新版在线下载 | 成人亚洲欧美一区二区av| 欧美另类亚洲清纯唯美| 禁无遮挡网站| 国产亚洲av嫩草精品影院| 亚洲av福利一区| 亚洲精品久久久久久婷婷小说 | 久久久久久久久久成人| 国产乱人偷精品视频| 韩国av在线不卡| 少妇的逼好多水| 国国产精品蜜臀av免费| www日本黄色视频网| 美女黄网站色视频| 久久婷婷人人爽人人干人人爱| 国产伦精品一区二区三区视频9| 国产精品一区二区三区四区久久| 最近视频中文字幕2019在线8| 超碰av人人做人人爽久久| 99国产精品一区二区蜜桃av| 国产免费视频播放在线视频 | 成人三级黄色视频| 成人国产麻豆网| 国产一区二区在线av高清观看| 亚洲18禁久久av| 亚洲精品乱久久久久久| 听说在线观看完整版免费高清| 69人妻影院| 亚洲国产最新在线播放| 能在线免费观看的黄片| 免费看av在线观看网站| 亚洲国产精品国产精品| 久久久a久久爽久久v久久| 一级爰片在线观看| 色5月婷婷丁香| av.在线天堂| 麻豆久久精品国产亚洲av| 美女大奶头视频| 我的老师免费观看完整版| 国产白丝娇喘喷水9色精品| 三级经典国产精品| 伦理电影大哥的女人| 男的添女的下面高潮视频| 精品国产三级普通话版| 中文资源天堂在线| 晚上一个人看的免费电影| 久久人人爽人人片av| 一本一本综合久久| 精品久久久久久久末码| 免费搜索国产男女视频| 亚洲国产欧美人成| 床上黄色一级片| 人妻制服诱惑在线中文字幕| 蜜桃亚洲精品一区二区三区| 99久国产av精品| 韩国av在线不卡| 亚洲五月天丁香| av在线播放精品| 国产中年淑女户外野战色| 国产精品国产三级国产专区5o | 国产伦理片在线播放av一区| 波多野结衣巨乳人妻| 国产激情偷乱视频一区二区| 免费人成在线观看视频色| 中文字幕久久专区| 高清在线视频一区二区三区 | 亚洲,欧美,日韩| 女人久久www免费人成看片 | 成人特级av手机在线观看| 免费不卡的大黄色大毛片视频在线观看 | 午夜精品一区二区三区免费看| 精品99又大又爽又粗少妇毛片| 嘟嘟电影网在线观看| 久久精品久久久久久久性| 精品久久久久久久久久久久久| 国产精品永久免费网站| 亚洲久久久久久中文字幕| 女人被狂操c到高潮| 青春草国产在线视频| 国产片特级美女逼逼视频| av国产久精品久网站免费入址| 性插视频无遮挡在线免费观看| 亚洲婷婷狠狠爱综合网| 欧美成人a在线观看| 少妇猛男粗大的猛烈进出视频 | 久久亚洲国产成人精品v| 日韩,欧美,国产一区二区三区 | 中国国产av一级| 丝袜美腿在线中文| 丰满少妇做爰视频| 一级毛片我不卡| 国产片特级美女逼逼视频| 午夜激情福利司机影院| 观看免费一级毛片| 国产探花在线观看一区二区| 一级毛片aaaaaa免费看小| 不卡视频在线观看欧美| 国内精品一区二区在线观看| 亚洲欧美精品自产自拍| ponron亚洲| 亚洲精品日韩在线中文字幕| 亚洲自拍偷在线| 看非洲黑人一级黄片| 色综合亚洲欧美另类图片| 国产国拍精品亚洲av在线观看| 亚洲av一区综合| 亚洲五月天丁香| 午夜精品在线福利| 午夜爱爱视频在线播放| 在线免费观看不下载黄p国产| 亚洲一区高清亚洲精品| 亚洲欧美精品综合久久99| 国产大屁股一区二区在线视频| 国产精品野战在线观看| 亚洲av二区三区四区| 久久精品91蜜桃| 成人三级黄色视频| av又黄又爽大尺度在线免费看 | 亚洲精品影视一区二区三区av| 国产精品熟女久久久久浪| 精品欧美国产一区二区三| 亚洲美女视频黄频| 日韩亚洲欧美综合| 日本免费一区二区三区高清不卡| 精品99又大又爽又粗少妇毛片| 干丝袜人妻中文字幕| 色噜噜av男人的天堂激情| 亚洲怡红院男人天堂| 国产精品久久视频播放| 欧美成人精品欧美一级黄| 国产 一区 欧美 日韩| 国产精品电影一区二区三区| 真实男女啪啪啪动态图| 天堂av国产一区二区熟女人妻| 欧美人与善性xxx| 久久99蜜桃精品久久| 亚洲av男天堂| 黄色欧美视频在线观看| 女人被狂操c到高潮| 蜜桃久久精品国产亚洲av| 久久久精品大字幕| 免费av不卡在线播放| 日韩一本色道免费dvd| 国产精品久久久久久精品电影| 91久久精品国产一区二区三区| 日韩一区二区三区影片| 国产成人freesex在线| 看非洲黑人一级黄片| 最近手机中文字幕大全| 亚洲在线观看片| 免费av不卡在线播放| 成人高潮视频无遮挡免费网站| 国产高清不卡午夜福利| 欧美又色又爽又黄视频| 淫秽高清视频在线观看| 热99re8久久精品国产| 成人一区二区视频在线观看| 亚洲中文字幕日韩| 久久亚洲精品不卡| 免费大片18禁| 精品无人区乱码1区二区| 丝袜喷水一区| 国产精品乱码一区二三区的特点| 日韩av在线免费看完整版不卡| av又黄又爽大尺度在线免费看 | 久久韩国三级中文字幕| 一区二区三区乱码不卡18| 干丝袜人妻中文字幕| 波多野结衣巨乳人妻| 1000部很黄的大片| 精品国产三级普通话版| 免费看美女性在线毛片视频| 国产精品美女特级片免费视频播放器| 国产精品永久免费网站| 国产精品人妻久久久久久| 精品不卡国产一区二区三区| 国产一区二区三区av在线| 久久精品影院6| 欧美成人a在线观看| 乱系列少妇在线播放| 又黄又爽又刺激的免费视频.| 欧美不卡视频在线免费观看| 亚洲真实伦在线观看| 国产国拍精品亚洲av在线观看| 少妇猛男粗大的猛烈进出视频 | 欧美日韩综合久久久久久| 2021天堂中文幕一二区在线观| 国产成人精品婷婷| 欧美成人a在线观看| 久热久热在线精品观看| 国产成人午夜福利电影在线观看| 在线a可以看的网站| 91aial.com中文字幕在线观看| 五月玫瑰六月丁香| 久久韩国三级中文字幕| 三级毛片av免费| 最近最新中文字幕大全电影3| 搞女人的毛片| 亚洲av中文av极速乱| 亚洲精品乱久久久久久| 搡老妇女老女人老熟妇| 欧美xxxx性猛交bbbb| 别揉我奶头 嗯啊视频| 久久久久久久久中文| 成人午夜精彩视频在线观看| 中文亚洲av片在线观看爽| 国产精品国产高清国产av| 午夜福利在线在线| 亚洲av成人精品一二三区| 久久久久久久久久黄片| 久久99热这里只频精品6学生 | 麻豆乱淫一区二区| 十八禁国产超污无遮挡网站| 九草在线视频观看| 欧美日本亚洲视频在线播放| 久久久久久久久久黄片| 日本爱情动作片www.在线观看| 中文乱码字字幕精品一区二区三区 | 久久这里只有精品中国| 狠狠狠狠99中文字幕| 欧美丝袜亚洲另类| 国产在线男女| 国内少妇人妻偷人精品xxx网站| 精品午夜福利在线看| 亚洲va在线va天堂va国产| 国产久久久一区二区三区| 国产精品.久久久| 午夜a级毛片| 性插视频无遮挡在线免费观看| 国产91av在线免费观看| 精品酒店卫生间| 婷婷六月久久综合丁香| 国模一区二区三区四区视频| 又爽又黄a免费视频| 人体艺术视频欧美日本| 国产成年人精品一区二区| 国内精品宾馆在线| 99热这里只有是精品50| 1000部很黄的大片| 九九热线精品视视频播放| 国产乱来视频区| 熟妇人妻久久中文字幕3abv| 97人妻精品一区二区三区麻豆| 日韩成人av中文字幕在线观看| 三级国产精品片| 久久久久免费精品人妻一区二区| 自拍偷自拍亚洲精品老妇| 国产高清国产精品国产三级 | 中文字幕久久专区| 亚洲精品乱久久久久久| 日韩 亚洲 欧美在线| 精品久久久久久电影网 | 久久久精品94久久精品| 日韩成人av中文字幕在线观看| 亚洲欧美日韩卡通动漫| 毛片一级片免费看久久久久| 人妻少妇偷人精品九色| 三级国产精品片| 国产av一区在线观看免费| 免费av观看视频| 日韩国内少妇激情av| 亚洲成人av在线免费| 91久久精品电影网| 人人妻人人澡欧美一区二区| 婷婷色综合大香蕉| 国产高清视频在线观看网站| 一个人免费在线观看电影| 国产精品熟女久久久久浪| 中文字幕免费在线视频6| 麻豆一二三区av精品| 久久久久久久久久久免费av| 三级国产精品欧美在线观看| 又粗又爽又猛毛片免费看| 亚洲国产精品专区欧美| 久久久精品94久久精品| 中文乱码字字幕精品一区二区三区 | 久久久久久久午夜电影| 好男人视频免费观看在线| 亚洲久久久久久中文字幕| 欧美变态另类bdsm刘玥| 成年版毛片免费区| 日韩一本色道免费dvd| 美女国产视频在线观看| 日韩成人av中文字幕在线观看| 亚洲不卡免费看| 亚洲性久久影院| 久久久午夜欧美精品| 97人妻精品一区二区三区麻豆| 婷婷六月久久综合丁香| 中国国产av一级| 大香蕉97超碰在线| 免费黄网站久久成人精品| 日韩成人伦理影院| 亚洲中文字幕日韩| 日本猛色少妇xxxxx猛交久久| 男女视频在线观看网站免费| 日韩一区二区三区影片| 国产 一区 欧美 日韩| 少妇高潮的动态图| 亚洲av男天堂| 一个人观看的视频www高清免费观看| 日韩 亚洲 欧美在线| 麻豆一二三区av精品| 久久热精品热| 精品人妻视频免费看| 久久久精品94久久精品| 免费观看的影片在线观看| 中文字幕亚洲精品专区| 国产精品电影一区二区三区| 黄色一级大片看看| 国产女主播在线喷水免费视频网站 | 国产成人91sexporn| 国产视频首页在线观看| 综合色丁香网| 老司机影院成人| 亚洲精品乱码久久久v下载方式| 日本一本二区三区精品| 国语自产精品视频在线第100页| 亚洲精品久久久久久婷婷小说 | 在线观看66精品国产| 久久久午夜欧美精品| 日本猛色少妇xxxxx猛交久久| 大香蕉97超碰在线| 亚洲国产精品国产精品| 特级一级黄色大片| 午夜日本视频在线| 国产成人福利小说| 禁无遮挡网站| 亚洲国产精品国产精品| 亚洲国产精品合色在线| 亚洲精品日韩在线中文字幕| 欧美bdsm另类| 亚洲国产欧美人成| 国产亚洲精品久久久com| 亚洲一区高清亚洲精品| 亚洲欧美中文字幕日韩二区| 亚洲精品乱码久久久v下载方式| 伊人久久精品亚洲午夜| av天堂中文字幕网| 亚洲精品成人久久久久久| 97在线视频观看| 禁无遮挡网站| 亚洲不卡免费看| 亚洲av二区三区四区| 精品久久久久久久久亚洲| 欧美一区二区亚洲| 久久精品国产亚洲网站| 美女被艹到高潮喷水动态| 亚洲丝袜综合中文字幕| 国产成人a区在线观看| 三级男女做爰猛烈吃奶摸视频| 亚洲国产精品sss在线观看| 国产精品女同一区二区软件| 久久久久性生活片| 97超碰精品成人国产| 久久久久久九九精品二区国产| 国产av不卡久久| 亚洲国产最新在线播放| 免费黄网站久久成人精品| 99久久九九国产精品国产免费| 亚洲精品,欧美精品| 久久精品夜夜夜夜夜久久蜜豆| 综合色丁香网| 久久精品国产亚洲网站| 午夜免费男女啪啪视频观看| 成人三级黄色视频| 亚洲国产精品成人综合色| 特大巨黑吊av在线直播| 中文字幕av在线有码专区| 亚洲精品aⅴ在线观看| 亚洲av.av天堂| 日韩高清综合在线| 日韩 亚洲 欧美在线| 国产午夜精品一二区理论片| 2021天堂中文幕一二区在线观| 中文字幕熟女人妻在线| 韩国av在线不卡| 秋霞伦理黄片| 久久99精品国语久久久| 国产精品精品国产色婷婷| 春色校园在线视频观看| 国产91av在线免费观看| 黄色配什么色好看| 亚洲乱码一区二区免费版| 亚洲精品影视一区二区三区av| 久久精品熟女亚洲av麻豆精品 | 99久久精品国产国产毛片| 99热这里只有是精品在线观看| 亚洲在久久综合| 91av网一区二区| 免费黄色在线免费观看| 天天一区二区日本电影三级| 日韩中字成人| av在线播放精品| 国产精品久久电影中文字幕| 在线天堂最新版资源| 亚洲自偷自拍三级| 好男人在线观看高清免费视频| 99热这里只有精品一区| 九九在线视频观看精品| 亚洲欧美精品专区久久| 听说在线观看完整版免费高清| 晚上一个人看的免费电影| 色综合色国产| 哪个播放器可以免费观看大片| 一区二区三区四区激情视频| 一级av片app| 天天一区二区日本电影三级| 午夜a级毛片| videossex国产| 老师上课跳d突然被开到最大视频| 欧美三级亚洲精品| 美女黄网站色视频| 好男人在线观看高清免费视频| 成人一区二区视频在线观看| 国内精品美女久久久久久| 长腿黑丝高跟| 乱系列少妇在线播放| 波多野结衣巨乳人妻| 国产免费福利视频在线观看| 变态另类丝袜制服| 国产成人a∨麻豆精品| 乱系列少妇在线播放| 国产午夜精品论理片| 婷婷色麻豆天堂久久 | 亚洲精品影视一区二区三区av| 内地一区二区视频在线| 欧美变态另类bdsm刘玥| 国产乱人视频| 国产高清国产精品国产三级 | 天堂av国产一区二区熟女人妻| 国产毛片a区久久久久| 国产亚洲5aaaaa淫片| 国产视频首页在线观看| 免费看日本二区| 亚洲成色77777| 精品一区二区免费观看| 精品一区二区三区视频在线| 春色校园在线视频观看| 中文字幕熟女人妻在线| 一级毛片电影观看 | av在线蜜桃| 国产一区二区在线观看日韩| 精品久久久久久久末码| 亚洲精品一区蜜桃| 日本免费在线观看一区| 日本猛色少妇xxxxx猛交久久| 国产精品一区www在线观看| 亚洲国产日韩欧美精品在线观看| www日本黄色视频网| av在线天堂中文字幕| 韩国av在线不卡| 看免费成人av毛片| 亚洲精品成人久久久久久| 免费搜索国产男女视频| 人妻系列 视频| 久久久久国产网址| 高清日韩中文字幕在线| 欧美色视频一区免费| 日韩欧美在线乱码| 黄片wwwwww| 一级毛片我不卡| 免费一级毛片在线播放高清视频| 波多野结衣高清无吗| 色播亚洲综合网| 国产一区有黄有色的免费视频 | 国产伦精品一区二区三区视频9| 久久久成人免费电影| 久久午夜福利片| 高清在线视频一区二区三区 | 国内精品一区二区在线观看| 国产精品福利在线免费观看| 少妇猛男粗大的猛烈进出视频 | 男插女下体视频免费在线播放| 建设人人有责人人尽责人人享有的 | 国产综合懂色| 亚洲色图av天堂| 国产精品一区二区性色av| 国产成人91sexporn| 国模一区二区三区四区视频| 建设人人有责人人尽责人人享有的 | 天堂√8在线中文| 国产精品女同一区二区软件| 91精品国产九色| 一个人观看的视频www高清免费观看| 午夜老司机福利剧场| 中文精品一卡2卡3卡4更新| 黄色日韩在线| 精品久久久噜噜| 欧美日韩国产亚洲二区| 国产 一区精品| 一边摸一边抽搐一进一小说| 又爽又黄a免费视频| 久久久久久久久中文| 精品一区二区免费观看| 韩国高清视频一区二区三区| 午夜福利在线观看免费完整高清在| 男人舔女人下体高潮全视频| 亚洲欧美清纯卡通| 中文在线观看免费www的网站| 欧美激情国产日韩精品一区| 免费观看a级毛片全部| 美女高潮的动态| 国产亚洲精品av在线| 日本免费a在线| 亚洲三级黄色毛片| 亚洲精品国产成人久久av| 日本三级黄在线观看| 国产免费一级a男人的天堂| 国产精品一区www在线观看| 一个人看的www免费观看视频| a级毛片免费高清观看在线播放| 国产乱人偷精品视频| 欧美又色又爽又黄视频| 99久国产av精品| 两个人的视频大全免费|