• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于LDA 的k話題增量訓(xùn)練算法

    2015-06-14 07:37:52謝志強(qiáng)
    關(guān)鍵詞:增量個(gè)數(shù)語料庫

    辛 宇,楊 靜,謝志強(qiáng)

    (1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001;2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150080)

    0 引 言

    LDA(Latent dirichlet allocation,LDA)模型是近些年來話題提取的通用模型[1]。目前,話題模型相關(guān)的工作大多是對(duì)LDA 模型進(jìn)行修改,或者是將LDA 模型作為整個(gè)概率模型的一個(gè)部件。在LDA 模型中,假設(shè)每個(gè)文檔的主題概率分布服從Dirichlet分布,并沒有對(duì)不同主題之間相關(guān)性進(jìn)行刻畫。然而,在真實(shí)的語料中,不同主題之間存在相關(guān)性的現(xiàn)象很普遍[2]。

    在面向LDA 模型演化研究方面,2004 年,Blei 等[3]提 出 了 主 題 間 為 樹 結(jié) 構(gòu) 的 層 級(jí)(Hierarchical LDA)。在該模型中,樹中的每個(gè)節(jié)點(diǎn)代表一個(gè)主題,該模型還有一個(gè)特點(diǎn)是可以從語料中估計(jì)出主題的個(gè)數(shù),并與使用LDA 模型在不同主題數(shù)下重復(fù)實(shí)驗(yàn)得到的最佳主題個(gè)數(shù)一致。Blei等[4-5]于2006年又在層級(jí)LDA 的基礎(chǔ)上提出了相關(guān)主題模型(Correlated topic model,CTM),與LDA 不同的是,CTM 從對(duì)數(shù)正態(tài)分布中對(duì)主題概率分布進(jìn)行采樣。Li等[6]針對(duì)CTM 只考慮兩個(gè)主題間關(guān)系的不足,提出了PAM 模型(Pachinko allocation model,PAM),該模型的特點(diǎn)是把主題之間的關(guān)系表示成一個(gè)有向無環(huán)圖,其中葉子節(jié)點(diǎn)是單詞,可以看成是由所包含的子節(jié)點(diǎn)(主題或單詞)構(gòu)成。之后Mimno等[7]又在PAM 的基礎(chǔ)上提出了層級(jí)PAM 模型,該模型可以看成是把層級(jí)LDA 和PAM 結(jié)合起來,使得PAM 模型中的非葉子節(jié)點(diǎn)也具有單詞的概率分布。Wang等[8]向模型中添加了一個(gè)作為觀測(cè)值的時(shí)間隨機(jī)變量后得到了主題隨時(shí)間變化的主題模型(Topic over time,TOT),該模型認(rèn)為主題概率分布受到時(shí)間信息的影響,且時(shí)間變量服從beta分布。

    在面向上下文信息分析的話題提取方面,通常主題模型假設(shè)單詞序列中的單詞是可交換的,即單詞的順序和模型的訓(xùn)練結(jié)果無關(guān),在考慮當(dāng)前節(jié)點(diǎn)和其他節(jié)點(diǎn)的關(guān)系時(shí),就破壞了LDA 的可交 換 性 假 設(shè)。Griffiths 等[9]認(rèn) 為 可 以 通 過HMM 來捕捉句法結(jié)構(gòu)信息,通過LDA 來提示語義關(guān)系,并將兩者結(jié)合在一起提出了HMM-LDA模型。Wallach[10]認(rèn)為語料庫生成過程中,一個(gè)單詞除了依賴于其對(duì)應(yīng)的主題外還與前一個(gè)單詞有關(guān),提出超越詞袋(Beyond bag-of-words)的主題模型。張晨逸[11]等人提出利用MB-LDA 進(jìn)行微博主題挖掘,該模型在挖掘出微博主題的同時(shí)還可挖掘出聯(lián)系人關(guān)注的主題,并將LDA 模型推廣到了社交網(wǎng)絡(luò)中。韓曉暉[12]等人提出了一種基于LDA 的低質(zhì)量回貼檢測(cè)方法,利用檢測(cè)回貼質(zhì)量的二元分類性訓(xùn)練SVM 分類器,以區(qū)分出質(zhì)量回貼。

    在面向特定任務(wù)研究方面,Blei等[13]針對(duì)分類問題提出了有監(jiān)督LDA 模型(Supervised latent dirichlet allocation,sLDA),該模型將訓(xùn)練語料中的文檔類別標(biāo)記為觀測(cè)值加入LDA 模型,且類別標(biāo)號(hào)服從一個(gè)與文檔主題概率分布有關(guān)的正態(tài)線性分布。Steyvers等[14]提出作者主題模型(Author topic,AT),認(rèn)為每個(gè)作者有一個(gè)主題概率分布。McCallum 等[15]又在AT 模型的基礎(chǔ)上,提出了作者接受者主題模型(Author recipient topic,ART)以判定個(gè)人的社會(huì)角色。

    以上模型的話題個(gè)數(shù)k 均需預(yù)先給定,若要確定最優(yōu)話題個(gè)數(shù)k*?jiǎng)t需要循環(huán)探測(cè),其復(fù)雜度過高。文獻(xiàn)[5]和文獻(xiàn)[7]的實(shí)驗(yàn)表明,當(dāng)k 的個(gè)數(shù)超過某一數(shù)據(jù)時(shí),k*的選擇開始變得模糊,導(dǎo)致LDA 的最優(yōu)話題個(gè)數(shù)選擇方法復(fù)雜度高且結(jié)果不精確。因此,設(shè)計(jì)一種高效可行的最優(yōu)話題個(gè)數(shù)選擇方法是LDA 研究的關(guān)鍵問題。本文針對(duì)LDA 模型的最優(yōu)k 值選取問題,提出LDA 話題增量訓(xùn)練算法,并通過對(duì)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析驗(yàn)證了本文算法對(duì)最優(yōu)k值選取的有效性和可行性。

    1 LDA 模型分析

    LDA 模型是以單詞-話題-參數(shù)先驗(yàn)關(guān)系構(gòu)成的3層貝葉斯模型,三者之間的關(guān)系表達(dá)模型如圖1所示,其中M 為語料庫中的文檔個(gè)數(shù),N 為單詞表中的單詞個(gè)數(shù),zdn為文檔d中單詞n所屬話題的概率,θd為文檔d中話題zdn分布的先驗(yàn)參數(shù),α為語料庫中θ的全局先驗(yàn)參數(shù),β為k×N 單詞 -話題概率矩陣,其中k為話題個(gè)數(shù),βi,j =p(w =j(luò)|z=i)且βi,*=1。根據(jù)上述條件概率關(guān)系,文檔-單詞的數(shù)學(xué)模型可表示為:

    語料庫-單詞的數(shù)學(xué)模型可表示為:

    圖1 LDA“盤子”模型Fig.1 Plate model of LDA

    LDA 的生成模型可假設(shè)如下:

    (1)p(θ|α)~Dir(α)。其表達(dá)式為:

    (2)p(z|θ)~Multinomial(θ)。

    根據(jù)式(3)(4),式(2)可表示為:

    加入文檔內(nèi)部估計(jì)參數(shù)γ和φ,γ為β 的文檔樣本估計(jì)值,φ 為文檔內(nèi)部話題的后驗(yàn)概率,φi,j=p(z=j(luò)|w =i)。

    假設(shè)γ和φ 相互獨(dú)立。利用變量β和z 建立文檔內(nèi)部隱含參數(shù)的估計(jì)模型如下:變分推理以極大化單詞-話題分布的似然函數(shù)p(w|α,β)為目標(biāo),通過在似然函數(shù)中加入樣本估計(jì)參數(shù)γ 和φ,實(shí)現(xiàn)對(duì)全局參數(shù)α 和β 的優(yōu)化。為此,式(5)的似然函數(shù)表達(dá)式如下:

    2 LDA 變分推理過程

    2.1 建立變分似然函數(shù)表達(dá)式模型

    式中:Eq為利用估計(jì)參數(shù)γ 和φ 計(jì)算的期望,由于Dirichlet分布屬于一種指數(shù)分布族,根據(jù)文獻(xiàn)[1]可知:

    變分推理的優(yōu)化過程即尋找L(γ,φ;α,β)的極值過程。根據(jù)式(8)可得:

    根據(jù)式(9)可得:

    2.2 變分推理參數(shù)關(guān)系模型

    式(11)包 含 了(α,β,γ,φ)4 個(gè) 參 數(shù),其 中利用拉格朗日乘子法對(duì)(α,β,γ,φ)進(jìn)行優(yōu)化求值可得到如下結(jié)果:

    式(12)~(15)分別對(duì)(α,β,γ,φ)求零值導(dǎo)數(shù)可得到(α,β,γ,φ)的極值關(guān)系式如下:

    2.3 變分推理運(yùn)行過程

    根據(jù)式(16)~(19)變分推理的參數(shù)訓(xùn)練過程分為文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過程(訓(xùn)練γ,φ)和語料庫總體參數(shù)訓(xùn)練過程(訓(xùn)練α,β)。文檔內(nèi)部參數(shù)循環(huán)訓(xùn)練過程是語料庫總體參數(shù)過程的子過程。圖2為訓(xùn)練過程的盤子模型圖,其中黃色箭頭線表示文檔內(nèi)部參數(shù)訓(xùn)練過程,參數(shù)γ,φ 根據(jù)式(17)和(19)以α,β 為參數(shù)進(jìn)行循環(huán)迭代以優(yōu)化參數(shù)γ,φ;棕色箭頭表示語料庫總體參數(shù)訓(xùn)練過程,在語料庫內(nèi)所有文檔完成對(duì)參數(shù)γ,φ 的訓(xùn)練后,根據(jù)式(16)和(18)調(diào)整全局參數(shù)α,β;藍(lán)色箭頭表示LDA 模型的似然函數(shù)的計(jì)算過程。

    圖2 LDA變分推理過程Fig.2 Variational inference process of LDA

    3 變分推理優(yōu)化改進(jìn)策略

    LDA 話題提取存在兩方面問題需要改進(jìn):

    (1)由于LDA 算法在初始運(yùn)行時(shí)需要人為給定話題個(gè)數(shù)k(較小的整數(shù)),k與最佳話題個(gè)數(shù)k*的偏離度決定了LDA 話題發(fā)現(xiàn)的質(zhì)量,若k<k*會(huì)導(dǎo)致話題訓(xùn)練的欠擬合,若k>k*會(huì)導(dǎo)致話題訓(xùn)練的過擬合,如何選擇k值是LDA 話題發(fā)現(xiàn)尚未解決的問題。

    (2)LDA 在樣本的訓(xùn)練過程中缺少對(duì)β 中“模糊單詞”(即話題歸屬不確定的單詞)的處理,導(dǎo)致β 矩陣中各話題間的模糊化,并使得后續(xù)的訓(xùn)練結(jié)果出現(xiàn)相似的話題結(jié)果,影響話題分類的有效性。

    為說明以上兩方面問題,本文統(tǒng)計(jì)了CNN網(wǎng)站中的50組話題,建立了50個(gè)樣本話題,并在每組話題中選擇詞頻最高的5個(gè)名詞作為樣本話題詞匯,如表1所示。隨機(jī)選擇2~5組樣本話題構(gòu)成文檔,并以1000個(gè)隨機(jī)文檔為單位,建立40組語料庫。

    表1 CNN 50個(gè)話題的概率表Table 1 50-topics Probability Table of CNN

    3.1 likelihood值分析

    本文對(duì)40 組語料庫建立10~70 個(gè)話題的LDA 跟蹤運(yùn)算,所得的likelihood值如圖3所示,其中橫坐標(biāo)為話題個(gè)數(shù),縱坐標(biāo)為likelihood值。由于本文所建立的40組語料庫是50個(gè)話題的混合,因此理想狀態(tài)下50個(gè)話題的likelihood值應(yīng)為極值,且50個(gè)話題的各每組樣本likelihood值的偏差應(yīng)該較小。但圖3所示的結(jié)果說明LDA算法在話題個(gè)數(shù)大于40時(shí),出現(xiàn)likelihood值的模糊化,無法根據(jù)likelihood值判斷最優(yōu)話題個(gè)數(shù)k*。

    圖3 表1數(shù)據(jù)集likelihood值(話題個(gè)數(shù)為10~70)Fig.3 Likelihood of the datasets in table 1(the number of topics are 10~70)

    3.2 β矩陣分析

    本文對(duì)第1、8、15、22、29、36 組語料庫LDA訓(xùn)練后的β 值進(jìn)行分析,由于表1數(shù)據(jù)集中屬于同一話題的單詞編號(hào)鄰近,因此屬于同一話題的單詞在β 矩陣的位置鄰近,可將β 矩陣元素中的最大值進(jìn)行聚類以分析LDA 的分類效果。β矩陣的聚類輪廓圖如圖4所示,其中x 軸為話題號(hào),y軸為單詞號(hào)。由于表1數(shù)據(jù)集中各樣本話題單詞無重復(fù),因此理想狀態(tài)下β 矩陣聚類輪廓圖的每行每列僅有一個(gè)話題聚類簇,從圖4中可直觀看到語料庫中第1、8、15、22組數(shù)據(jù)的LDA 分析結(jié)果較差。

    另外,圖4中LDA 算法所挖掘出的編號(hào)相鄰的話題相似度較大,且有效識(shí)別個(gè)數(shù)最多為40(語料庫36)。為了提高LDA 的話題精度,降低話題間的相似度,本文提出LDA 話題增量訓(xùn)練算法,在提高話題分類精度的同時(shí)增量挖掘優(yōu)化話題個(gè)數(shù)k*。

    圖4 語料庫1,8,15,22的β矩陣分析結(jié)果Fig.4 βmatrix of corpus 1,8,15,22

    3.3 LDA話題增量訓(xùn)練算法

    變分推理的執(zhí)行過程中,以文檔內(nèi)部話題-單詞的后驗(yàn)概率φ 作為α 和β 訓(xùn)練的中間變量φi,j=p(z=j(luò)|w =i),若話題個(gè)數(shù)為k(k<k*,k*為最優(yōu)話題個(gè)數(shù)),必存在某一單詞的話題不確定度較高,即φi,*的熵值entropy(φi,*)較大,其中某一單詞wi的熵值表達(dá)式為:

    entropy(φi,*)是對(duì)單詞wi的不確定性度量,entropy(φi,*)越大則wi的不確定性越高,當(dāng)前的k個(gè)話題對(duì)wi的劃分越不合理。此時(shí),可提取entropy值較大的單詞重新組合為一個(gè)新的話題,并復(fù)用之前的迭代結(jié)果。由于話題的增加需要進(jìn)行一次語料庫總體參數(shù)訓(xùn)練(增加參數(shù)α 和β的維數(shù)),為此LDA 話題增量訓(xùn)練算法對(duì)參數(shù)α和β 的修改如下:

    (1)增加β矩陣的維數(shù)。引入熵的閾值參數(shù)σ,選擇entropy(φi,*)大于σ的wi構(gòu)成新的話題,并將新話題按熵值歸一化,加入β矩陣。

    (2)增加α 的維數(shù)。以新的β 和α 作為初始參數(shù)執(zhí)行新一次迭代。

    在LDA 的執(zhí)行過程中,迭代次數(shù)越高參數(shù)β和α 的訓(xùn)練越充分,為防止LDA 話題增量訓(xùn)練算法在β和α 尚未充分訓(xùn)練的條件下進(jìn)行φ 的熵值選擇,導(dǎo)致LDA 訓(xùn)練不充分而影響話題發(fā)現(xiàn)質(zhì)量,需要在LDA 迭代過程中加入迭代參數(shù)c,每進(jìn)行c次迭代時(shí)執(zhí)行一次LDA 話題增量訓(xùn)練算法。

    圖5為LDA 話題增量訓(xùn)練算法的參數(shù)訓(xùn)練過程,其中綠色箭頭為LDA 話題增量訓(xùn)練算法對(duì)α 和β 的增量訓(xùn)練過程。

    具體的算法描述如下:

    功能:利用LDA 話題增量訓(xùn)練算法對(duì)訓(xùn)練最優(yōu)話題個(gè)數(shù)k*

    輸入:初始話題個(gè)數(shù)k

    輸出:最優(yōu)話題個(gè)數(shù)k*及語料庫參數(shù)α和β

    4 實(shí)驗(yàn)分析

    4.1 CNN 數(shù)據(jù)集分析

    圖6為語料庫13的LDA 迭代跟蹤過程(語料庫13 共進(jìn)行57 次迭代),從中可以直觀發(fā)現(xiàn)LDA 算法對(duì)66~70 號(hào)單詞“makeup”話題的識(shí)別較差,其原因在于LDA 迭代過程中未能在β矩陣中提取“makeup”話題,使得“makeup”單詞的話題隸屬度相對(duì)模糊,影響了β 后序訓(xùn)練過程中對(duì)“makeup”話題的識(shí)別。

    本文利用大量模擬實(shí)驗(yàn)驗(yàn)證了LDA 話題增量訓(xùn)練算法參數(shù)的有效范圍分別為σ =(0 ~1.6),c=(3~12),并在4.3節(jié)分析了參數(shù)σ和c的最優(yōu)取值問題,圖7為利用本文LDA 話題增量訓(xùn)練算法(以10為初始k值,σ=0.3,c=5)對(duì)語料庫13的增量迭代過程,該圖直觀顯示了話題個(gè)數(shù)從10增量訓(xùn)練到50的過程中,話題間的獨(dú)立逐漸增強(qiáng),相比于圖6中LDA 話題增量訓(xùn)練算法更趨于理想狀態(tài)。

    圖6 語料庫13的LDA迭代跟蹤過程Fig.6 LDA iterative tracking process of corpus 13

    圖7 語料庫13的LDA跟蹤過程Fig.7 LDA tracking process of corpus 13

    圖8 為40 組語料庫在本文算法下的likelihood值(以10為初始值,σ=0.3,c=5),該圖顯示了本文算法的最佳話題發(fā)現(xiàn)個(gè)數(shù)集中在40~50之間。

    圖8 表1數(shù)據(jù)集LDA話題增量訓(xùn)練算法下的likelihood值Fig.8 Likelihood of the dataset in Table 1by the LDA topic increments training algorithm

    4.2 真實(shí)數(shù)據(jù)集對(duì)比

    在數(shù)據(jù)集的選擇方面,本文采用有明確文檔分類的數(shù)據(jù)集,以分析本文算法對(duì)話題個(gè)數(shù)選取的有效性,本文分別選取了自然語言處理中常用的3組數(shù)據(jù)集,各數(shù)據(jù)集的介紹如下:

    (1)所選擇的數(shù)據(jù)庫包括第36屆加拿大國會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)和b卷(共40個(gè)議案),總單詞量約為1 300 000個(gè)。將每個(gè)議案的章節(jié)作為LDA 分析的“文檔”,由于同一議案趨近于同一話題,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)均為40。

    (2)蘭卡斯特新聞書籍語料庫The Lancaster Newsbooks Corpus,本文算法取其中25 類(500本書)書籍為數(shù)據(jù)集,以每本書的摘要作LDA 分析的“文檔”,由于同一類書籍的新聞話題近似,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為25。

    (3)路透社經(jīng)典文檔分類語料庫Reuters 21578 Classic text categorization corpus(共50類),以每本書的摘要作LDA 分析的“文檔”,該數(shù)據(jù)集已將各文檔進(jìn)行了分類,因此該數(shù)據(jù)集的理想話題個(gè)數(shù)為50。

    本文算法對(duì)上述數(shù)據(jù)分別利用LDA 和LDA話題增量訓(xùn)練算法(σ=0.3,c=5)進(jìn)行40次實(shí)驗(yàn),其對(duì)比結(jié)果如圖9所示,其中藍(lán)色為LDA 算法的分析結(jié)果,紅色為本文算法的分析結(jié)果,從結(jié)果可直觀判斷本文算法的likelihood 高于LDA算法,驗(yàn)證了本文算法的話題分類合理性高于LDA 算法。在話題個(gè)數(shù)識(shí)別方面,各組數(shù)據(jù)的話題個(gè)數(shù)分別為40、45、23、55,接近于理想話題個(gè)數(shù)。

    圖9 4種語料庫likelihood對(duì)比圖Fig.9 Comparison chart of 4corpuses

    4.3 參數(shù)σ 和c 分析

    本文利用LDA 話題增量訓(xùn)練算法對(duì)第36屆加拿大國會(huì)記事錄Aligned Hansards of the 36th Parliament of Canada(AHPC)a卷(共40個(gè)議案)作為數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行15次實(shí)驗(yàn),其中參數(shù)分別為σ =(0.1∶0.1∶1.5),c=5,每次將話題個(gè)數(shù)收斂于38~42的結(jié)果判定為正確(共有1036次正確分類),其統(tǒng)計(jì)直方圖如圖10(a)所示。以AHPC數(shù)據(jù)集進(jìn)行200次迭代,每次迭代進(jìn)行8次實(shí)驗(yàn),其中參數(shù)分別為σ=0.3,c=(3∶1∶10),每次將話題個(gè)數(shù)收斂于38~42 的結(jié)果判定為正確(共有966 次正確分類),其統(tǒng)計(jì)直方圖如圖10(b)所示。通過圖10(a)與(b)的分析可知:當(dāng)σ>1.5時(shí)分類的趨于無效,且c 的 最 優(yōu) 取 值 區(qū) 間 為(3,10)。圖11 為AHPC的三維stem 圖,其中LDA 話題增量訓(xùn)練算法的最優(yōu)值為σ=0.45,c=6。

    圖10 AHPC數(shù)據(jù)集統(tǒng)計(jì)直方圖Fig.10 Histogram of AHPC dataset

    圖11 AHPC的三維stem 圖Fig.11 3Dstem figure of AHPC

    5 結(jié) 論

    本文利用LDA 話題增量訓(xùn)練算法,創(chuàng)新采用以單詞-話題概率熵值作為LDA 迭代過程中模糊單詞選擇標(biāo)準(zhǔn),將所選擇模糊單詞歸入新的話題優(yōu)化LDA 的迭代過程,以提高話題獨(dú)立性為手段提高各單詞的合理化分類;所提出的LDA話題增量訓(xùn)練算法可在實(shí)現(xiàn)LDA 話題分類優(yōu)化的同時(shí)對(duì)最優(yōu)話題個(gè)數(shù)k 進(jìn)行增量訓(xùn)練,最后通過實(shí)驗(yàn)對(duì)比驗(yàn)證了本文算法在話題分類合理度likelihood與k自動(dòng)選擇方面的優(yōu)越性,對(duì)深入研究話題分類模型具有一定的理論和實(shí)際意義。

    [1]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

    [2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.Xu Ge,Wang Hou-feng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1436.

    [3]Blei D M,Griffitchs T L,Jordan M I,et al.Hierarchical topic models and the nested Chinese restaurant process[C]∥Advances in Neural Information Processing Systems 16.Cambridge,MA:MIT Press,2004:17-24.

    [4]Blei D M,Lafferty J D.Correlated topic models[C]∥Advances in Neural Information Processing Systems 18.Cambridge,MA:MIT Press,2006.

    [5]Blei D,Lafferty J.A correlated topic model of science[J].Annals of Applied Statistics,2007,1(1):17-35.

    [6]Li W,McCallum A.Pachinko allocation:DAGstructured mixture models of topic correlations[C]∥Proceeding of the ICML.Pittsburgh,Pennsylvania,USA,2006:577-584.

    [7]Mimno D,Li W,McCallum A.Mixtures of hierarchical topics with pachinko allocation[C]∥Proceeding of the ICML.Corvllis,Oregon,USA,2007:633-640.

    [8]Wang X,McCallum A.Topics over time:a nonmarkov continuous-time model of topical trends[C]∥Proceeding of the Conference on Knowledge Discovery and Data Mining(KDD).Philadelphia,USA,2006:113-120.

    [9]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C]∥Advances in Neural Information Processing Systems 18.Vancouver,Canada,2004.

    [10]Wallach H.Topic modeling:beyond bag-of-words[C]∥Proceeding of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:977-984.

    [11]張晨逸,孫建伶,丁軼群.基于MB-LDA 模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.Zhang Chen-yi,Sun Jian-ling,Ding Yi-qun.Topic mining for microblog based on MB-LDA model[J].Journal of Computer Research and Development,2011,48(10):1795-1802.

    [12]韓曉暉,馬軍,邵海敏,等.一種基于LDA 的Web論壇低質(zhì)量回貼檢測(cè)方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(9):1937-1946.Han Xiao-h(huán)ui,Ma Jun,Shao Hai-min,et al.An LDA based approach to detect the low-quality reply posts in web forums[J].Journal of Computer Research and Development,2012,49(9):1937-1946.

    [13]Blei D M,McAuliffe J.Supervised topic models[C]∥Advances in Neural Information Processing Systems(NIPS).Vancouver,Canada,2008.

    [14]Steyvers M,Smyth P,Rosen-Zvi M,et al.Probabilistic author-topic models for information discovery[C]∥Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle,Washington,2004:306-315.

    [15]McCallum A,Corrada-Emmanuel A,Wang X.The author recipient-topic model for topic and role discovery in social networks:experiments with enron and academic email[R].Technical Report UM-CS-2004-096,2004.

    猜你喜歡
    增量個(gè)數(shù)語料庫
    提質(zhì)和增量之間的“辯證”
    怎樣數(shù)出小正方體的個(gè)數(shù)
    《語料庫翻譯文體學(xué)》評(píng)介
    “價(jià)增量減”型應(yīng)用題點(diǎn)撥
    等腰三角形個(gè)數(shù)探索
    怎樣數(shù)出小木塊的個(gè)數(shù)
    怎樣數(shù)出小正方體的個(gè)數(shù)
    把課文的優(yōu)美表達(dá)存進(jìn)語料庫
    基于均衡增量近鄰查詢的位置隱私保護(hù)方法
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    国产三级黄色录像| 色综合站精品国产| 欧美大码av| 日韩三级视频一区二区三区| 一区二区三区激情视频| 久久天堂一区二区三区四区| 黄色片一级片一级黄色片| 亚洲av美国av| 天堂俺去俺来也www色官网| 多毛熟女@视频| 国产成人影院久久av| 男女床上黄色一级片免费看| 久热这里只有精品99| 久久精品91蜜桃| 国产成人精品久久二区二区免费| 国产单亲对白刺激| 久久久久九九精品影院| 变态另类成人亚洲欧美熟女 | av国产精品久久久久影院| 久久香蕉激情| 国产av精品麻豆| 人人妻,人人澡人人爽秒播| 超碰成人久久| 两性午夜刺激爽爽歪歪视频在线观看 | 看片在线看免费视频| 久久草成人影院| 国产区一区二久久| 国内毛片毛片毛片毛片毛片| 久久天堂一区二区三区四区| 搡老岳熟女国产| 欧美一区二区精品小视频在线| 香蕉久久夜色| 看黄色毛片网站| 国产成年人精品一区二区 | 日本免费a在线| 亚洲 国产 在线| 看片在线看免费视频| 欧美久久黑人一区二区| 99久久精品国产亚洲精品| 久久久久久久久久久久大奶| 亚洲精品国产色婷婷电影| 国产不卡一卡二| 999精品在线视频| 亚洲成人久久性| 18禁观看日本| 欧美乱色亚洲激情| 岛国在线观看网站| 国产精品1区2区在线观看.| 在线观看免费视频日本深夜| 手机成人av网站| 久久香蕉国产精品| 国产精品国产av在线观看| 免费av毛片视频| 午夜福利,免费看| 日本精品一区二区三区蜜桃| 午夜免费成人在线视频| www.精华液| 99久久国产精品久久久| 性色av乱码一区二区三区2| 亚洲国产精品sss在线观看 | 一进一出抽搐gif免费好疼 | 久久中文字幕人妻熟女| videosex国产| 天天添夜夜摸| 午夜亚洲福利在线播放| 国产精品 国内视频| 国产亚洲欧美在线一区二区| 18禁国产床啪视频网站| 99国产极品粉嫩在线观看| 午夜日韩欧美国产| 国产97色在线日韩免费| 夜夜爽天天搞| 精品熟女少妇八av免费久了| 日本vs欧美在线观看视频| 国产成人av教育| 大码成人一级视频| 国产精品一区二区在线不卡| 人妻丰满熟妇av一区二区三区| 看黄色毛片网站| 无限看片的www在线观看| 777久久人妻少妇嫩草av网站| 久久香蕉精品热| 欧美亚洲日本最大视频资源| 97碰自拍视频| 99久久人妻综合| 亚洲第一av免费看| 无遮挡黄片免费观看| 午夜福利欧美成人| 美女午夜性视频免费| 精品一品国产午夜福利视频| 天堂动漫精品| 极品教师在线免费播放| 电影成人av| 欧美人与性动交α欧美精品济南到| 大香蕉久久成人网| 人人妻人人澡人人看| 操出白浆在线播放| 欧美人与性动交α欧美精品济南到| 丝袜人妻中文字幕| 人成视频在线观看免费观看| 欧美日韩乱码在线| 90打野战视频偷拍视频| 18禁美女被吸乳视频| 国产一区二区三区在线臀色熟女 | 亚洲成国产人片在线观看| 精品久久蜜臀av无| 色尼玛亚洲综合影院| 正在播放国产对白刺激| 欧美久久黑人一区二区| av国产精品久久久久影院| 99国产精品99久久久久| 黄片播放在线免费| 免费av中文字幕在线| 欧美中文综合在线视频| 18禁裸乳无遮挡免费网站照片 | 精品免费久久久久久久清纯| 久久精品国产亚洲av香蕉五月| 巨乳人妻的诱惑在线观看| 国产又爽黄色视频| 美女高潮喷水抽搐中文字幕| 国产精品日韩av在线免费观看 | 亚洲欧美一区二区三区黑人| a在线观看视频网站| 一区在线观看完整版| 亚洲五月婷婷丁香| 欧美中文日本在线观看视频| 人人妻人人添人人爽欧美一区卜| 国产熟女xx| 国产精品亚洲一级av第二区| 嫩草影视91久久| 男女下面进入的视频免费午夜 | 久久久国产成人精品二区 | 大型黄色视频在线免费观看| 黑人巨大精品欧美一区二区蜜桃| 丁香欧美五月| 欧美黑人欧美精品刺激| 十八禁网站免费在线| 亚洲熟妇中文字幕五十中出 | 国产激情久久老熟女| 91麻豆av在线| 法律面前人人平等表现在哪些方面| 国产精品 国内视频| 天堂中文最新版在线下载| 大型av网站在线播放| 人成视频在线观看免费观看| 亚洲人成电影观看| 亚洲黑人精品在线| 中亚洲国语对白在线视频| 久久亚洲真实| 色精品久久人妻99蜜桃| 交换朋友夫妻互换小说| 精品免费久久久久久久清纯| 亚洲精品中文字幕一二三四区| 69av精品久久久久久| 人成视频在线观看免费观看| 一个人观看的视频www高清免费观看 | 国产蜜桃级精品一区二区三区| 18禁国产床啪视频网站| 亚洲,欧美精品.| 91精品三级在线观看| 亚洲精品美女久久av网站| 天堂动漫精品| 久久精品人人爽人人爽视色| 国产成人精品在线电影| 国产成人精品在线电影| 黑丝袜美女国产一区| 一夜夜www| 一个人观看的视频www高清免费观看 | 精品免费久久久久久久清纯| 大型av网站在线播放| 中亚洲国语对白在线视频| 青草久久国产| 人人妻人人澡人人看| 夜夜夜夜夜久久久久| 婷婷丁香在线五月| 美国免费a级毛片| 老汉色∧v一级毛片| 自线自在国产av| 亚洲国产精品999在线| 丁香欧美五月| 午夜福利欧美成人| 免费高清视频大片| 香蕉丝袜av| 视频区图区小说| 精品国产乱子伦一区二区三区| 日日摸夜夜添夜夜添小说| 老司机亚洲免费影院| 成人av一区二区三区在线看| 午夜a级毛片| 国产黄a三级三级三级人| 99国产综合亚洲精品| 1024视频免费在线观看| 真人一进一出gif抽搐免费| 狂野欧美激情性xxxx| 91老司机精品| 欧美日韩国产mv在线观看视频| 成人特级黄色片久久久久久久| 97碰自拍视频| 亚洲第一av免费看| 99在线人妻在线中文字幕| а√天堂www在线а√下载| 一边摸一边抽搐一进一小说| 视频区图区小说| 伦理电影免费视频| 99久久99久久久精品蜜桃| 中文字幕最新亚洲高清| 一级毛片女人18水好多| 美国免费a级毛片| 亚洲欧美一区二区三区久久| 热re99久久国产66热| 我的亚洲天堂| 午夜免费鲁丝| 色哟哟哟哟哟哟| 国产又色又爽无遮挡免费看| 中文字幕人妻丝袜制服| 国产精品美女特级片免费视频播放器 | 男女高潮啪啪啪动态图| 日日摸夜夜添夜夜添小说| 高清欧美精品videossex| 一二三四在线观看免费中文在| 色哟哟哟哟哟哟| 亚洲少妇的诱惑av| 久热这里只有精品99| 国产精品日韩av在线免费观看 | 19禁男女啪啪无遮挡网站| 交换朋友夫妻互换小说| 一级作爱视频免费观看| 少妇的丰满在线观看| 精品国产乱子伦一区二区三区| 一级毛片精品| 久热爱精品视频在线9| 日韩欧美国产一区二区入口| 他把我摸到了高潮在线观看| 精品免费久久久久久久清纯| 午夜免费激情av| 日本wwww免费看| 男女高潮啪啪啪动态图| 日本一区二区免费在线视频| 女人精品久久久久毛片| 人人澡人人妻人| 国产亚洲精品综合一区在线观看 | 午夜福利影视在线免费观看| 两性午夜刺激爽爽歪歪视频在线观看 | 高清在线国产一区| 超碰成人久久| 亚洲自拍偷在线| 亚洲性夜色夜夜综合| 日韩有码中文字幕| 精品国产乱子伦一区二区三区| 天堂俺去俺来也www色官网| 丰满的人妻完整版| av网站免费在线观看视频| 91麻豆av在线| 老司机深夜福利视频在线观看| 亚洲成人免费av在线播放| 久久中文字幕人妻熟女| 久久久精品国产亚洲av高清涩受| 脱女人内裤的视频| 国产成人欧美| 99在线人妻在线中文字幕| 久久香蕉激情| 黑人欧美特级aaaaaa片| 欧美日韩黄片免| 天堂动漫精品| 99香蕉大伊视频| 黄色毛片三级朝国网站| 亚洲欧美激情在线| 欧美在线黄色| 亚洲精品粉嫩美女一区| 在线观看午夜福利视频| 亚洲人成伊人成综合网2020| 伦理电影免费视频| 午夜福利影视在线免费观看| 色哟哟哟哟哟哟| 久热这里只有精品99| 丝袜美腿诱惑在线| 后天国语完整版免费观看| 色综合欧美亚洲国产小说| 黄色毛片三级朝国网站| 久久国产精品影院| 1024香蕉在线观看| 国产av又大| 脱女人内裤的视频| 妹子高潮喷水视频| 天天影视国产精品| 琪琪午夜伦伦电影理论片6080| 国产精品 国内视频| 欧美一级毛片孕妇| 国产1区2区3区精品| 国产精品99久久99久久久不卡| 黑人巨大精品欧美一区二区蜜桃| 国产精品国产av在线观看| 国产精品av久久久久免费| 国产极品粉嫩免费观看在线| 在线播放国产精品三级| 久久精品国产综合久久久| 妹子高潮喷水视频| 巨乳人妻的诱惑在线观看| 女生性感内裤真人,穿戴方法视频| 久久久久国内视频| 中文字幕色久视频| 美女福利国产在线| 女人被躁到高潮嗷嗷叫费观| 国产精品久久久人人做人人爽| 亚洲人成77777在线视频| 久久精品亚洲av国产电影网| 国产亚洲欧美精品永久| 亚洲午夜理论影院| 纯流量卡能插随身wifi吗| 日本精品一区二区三区蜜桃| 男女下面插进去视频免费观看| 首页视频小说图片口味搜索| 黑人操中国人逼视频| 国产男靠女视频免费网站| 黄色视频,在线免费观看| 国产欧美日韩综合在线一区二区| 搡老乐熟女国产| 国产精品亚洲一级av第二区| 在线永久观看黄色视频| 高清毛片免费观看视频网站 | 两性午夜刺激爽爽歪歪视频在线观看 | 男男h啪啪无遮挡| 亚洲成人久久性| 日本黄色日本黄色录像| 中文欧美无线码| 成人18禁在线播放| 久久久久国产精品人妻aⅴ院| 啦啦啦免费观看视频1| 午夜福利在线免费观看网站| tocl精华| 国产成人av激情在线播放| 国产亚洲精品久久久久久毛片| 男女做爰动态图高潮gif福利片 | 99久久人妻综合| 欧美老熟妇乱子伦牲交| 成人手机av| 制服人妻中文乱码| 侵犯人妻中文字幕一二三四区| 精品一品国产午夜福利视频| 69av精品久久久久久| 99久久综合精品五月天人人| 国产精品久久久久成人av| 午夜影院日韩av| av网站免费在线观看视频| 人妻久久中文字幕网| 热99国产精品久久久久久7| 国产不卡一卡二| 99精国产麻豆久久婷婷| 午夜老司机福利片| 精品国产国语对白av| 国产精品影院久久| 黄片大片在线免费观看| 欧美久久黑人一区二区| 好男人电影高清在线观看| 国产成人精品在线电影| 人妻久久中文字幕网| 亚洲精品成人av观看孕妇| 日本黄色日本黄色录像| 免费不卡黄色视频| 中文字幕精品免费在线观看视频| 成人三级黄色视频| 欧美在线一区亚洲| 免费在线观看日本一区| 欧美日本亚洲视频在线播放| 午夜福利在线观看吧| 午夜免费鲁丝| 亚洲伊人色综图| 大型av网站在线播放| 久久影院123| 久久国产乱子伦精品免费另类| 免费搜索国产男女视频| 欧美最黄视频在线播放免费 | 亚洲精品一二三| 国产97色在线日韩免费| 999久久久精品免费观看国产| 国产三级在线视频| 久久精品国产清高在天天线| 欧美色视频一区免费| 又黄又粗又硬又大视频| 日本精品一区二区三区蜜桃| 精品久久久久久电影网| 欧美不卡视频在线免费观看 | 亚洲精品国产精品久久久不卡| 午夜成年电影在线免费观看| 久久久久亚洲av毛片大全| 亚洲一区二区三区欧美精品| 成人永久免费在线观看视频| 亚洲熟妇熟女久久| 高清av免费在线| 免费看a级黄色片| 午夜精品久久久久久毛片777| 国产精品一区二区精品视频观看| 俄罗斯特黄特色一大片| 一级毛片女人18水好多| 男女做爰动态图高潮gif福利片 | 日本a在线网址| 人妻丰满熟妇av一区二区三区| 他把我摸到了高潮在线观看| 三级毛片av免费| 成人特级黄色片久久久久久久| 国产伦人伦偷精品视频| 亚洲欧美日韩高清在线视频| 日韩 欧美 亚洲 中文字幕| 波多野结衣一区麻豆| 欧美人与性动交α欧美软件| 午夜福利,免费看| 91麻豆av在线| 亚洲 国产 在线| 精品一品国产午夜福利视频| 亚洲第一青青草原| 久久这里只有精品19| 黑人巨大精品欧美一区二区mp4| 90打野战视频偷拍视频| 我的亚洲天堂| 精品人妻在线不人妻| 性欧美人与动物交配| 午夜精品国产一区二区电影| 亚洲人成电影观看| 手机成人av网站| 久久中文字幕人妻熟女| 日日夜夜操网爽| 精品国产美女av久久久久小说| 亚洲成国产人片在线观看| 大型黄色视频在线免费观看| 亚洲五月婷婷丁香| 精品福利观看| 久久人妻熟女aⅴ| 色综合婷婷激情| 91精品三级在线观看| 国产av一区在线观看免费| 一级a爱片免费观看的视频| 18禁黄网站禁片午夜丰满| 在线观看www视频免费| 一级片免费观看大全| 无限看片的www在线观看| 久久久精品欧美日韩精品| 日日夜夜操网爽| 亚洲成人免费av在线播放| 99国产极品粉嫩在线观看| 波多野结衣一区麻豆| 欧美性长视频在线观看| 美女高潮到喷水免费观看| 91大片在线观看| 亚洲精品成人av观看孕妇| 免费女性裸体啪啪无遮挡网站| 中文字幕av电影在线播放| 一进一出好大好爽视频| 亚洲欧美精品综合久久99| 亚洲熟妇熟女久久| 色综合欧美亚洲国产小说| 纯流量卡能插随身wifi吗| 久久精品91无色码中文字幕| 久久精品亚洲熟妇少妇任你| 长腿黑丝高跟| 老司机福利观看| 久久人人97超碰香蕉20202| 亚洲精华国产精华精| 亚洲av片天天在线观看| 1024香蕉在线观看| 首页视频小说图片口味搜索| 在线观看www视频免费| 欧美成人性av电影在线观看| 亚洲色图综合在线观看| 日韩精品免费视频一区二区三区| 久久久精品国产亚洲av高清涩受| 亚洲成人免费电影在线观看| 黄频高清免费视频| 丁香六月欧美| 91麻豆精品激情在线观看国产 | 久久香蕉精品热| av网站免费在线观看视频| 色播在线永久视频| 欧美黑人欧美精品刺激| 午夜老司机福利片| 两性午夜刺激爽爽歪歪视频在线观看 | 免费av中文字幕在线| 天天躁狠狠躁夜夜躁狠狠躁| 别揉我奶头~嗯~啊~动态视频| 侵犯人妻中文字幕一二三四区| 视频区欧美日本亚洲| 亚洲情色 制服丝袜| 啦啦啦免费观看视频1| 欧美日韩一级在线毛片| 午夜激情av网站| 成人亚洲精品一区在线观看| 国产在线精品亚洲第一网站| 国产在线观看jvid| 麻豆国产av国片精品| 侵犯人妻中文字幕一二三四区| cao死你这个sao货| 在线观看舔阴道视频| 久久久水蜜桃国产精品网| 亚洲情色 制服丝袜| 男女下面进入的视频免费午夜 | 99久久综合精品五月天人人| 亚洲人成网站在线播放欧美日韩| 黑丝袜美女国产一区| 99久久99久久久精品蜜桃| 午夜免费成人在线视频| 久久九九热精品免费| av免费在线观看网站| 久久人妻福利社区极品人妻图片| 亚洲精品av麻豆狂野| 亚洲第一青青草原| 免费av中文字幕在线| 久久国产精品男人的天堂亚洲| 99久久国产精品久久久| 国产一区二区三区视频了| 在线观看午夜福利视频| 老熟妇乱子伦视频在线观看| 免费观看人在逋| 美女福利国产在线| 亚洲熟妇熟女久久| 两个人看的免费小视频| 婷婷六月久久综合丁香| 精品午夜福利视频在线观看一区| 99国产极品粉嫩在线观看| 女警被强在线播放| 国产无遮挡羞羞视频在线观看| 日韩大码丰满熟妇| 亚洲精品成人av观看孕妇| 最近最新免费中文字幕在线| 欧美日韩瑟瑟在线播放| 午夜福利在线免费观看网站| 99国产精品99久久久久| 国产三级黄色录像| 夜夜躁狠狠躁天天躁| 美女高潮喷水抽搐中文字幕| 欧美久久黑人一区二区| 亚洲精品一二三| 欧美日韩亚洲国产一区二区在线观看| www.自偷自拍.com| 后天国语完整版免费观看| 九色亚洲精品在线播放| 国产精品久久久人人做人人爽| e午夜精品久久久久久久| 国产一区二区三区视频了| 亚洲精华国产精华精| 亚洲自偷自拍图片 自拍| 国产亚洲欧美在线一区二区| 久久影院123| 午夜a级毛片| 性欧美人与动物交配| 日韩精品青青久久久久久| 如日韩欧美国产精品一区二区三区| 午夜激情av网站| 黄频高清免费视频| netflix在线观看网站| 88av欧美| 高清在线国产一区| av在线播放免费不卡| 女人被狂操c到高潮| 男人舔女人的私密视频| 欧美色视频一区免费| 中文亚洲av片在线观看爽| 久久亚洲真实| 国产精品乱码一区二三区的特点 | av欧美777| 大码成人一级视频| 久久久国产欧美日韩av| 美女 人体艺术 gogo| 热re99久久精品国产66热6| 色精品久久人妻99蜜桃| 国产精品国产高清国产av| 99国产综合亚洲精品| 99国产精品99久久久久| 老汉色av国产亚洲站长工具| 黄片播放在线免费| 国产精品免费一区二区三区在线| 国产成人啪精品午夜网站| 午夜福利一区二区在线看| 欧美一级毛片孕妇| 在线观看一区二区三区激情| 欧美丝袜亚洲另类 | 巨乳人妻的诱惑在线观看| 国产亚洲欧美98| 久久欧美精品欧美久久欧美| 国产精品秋霞免费鲁丝片| 久久久久亚洲av毛片大全| 国产极品粉嫩免费观看在线| 国产成人欧美| 99香蕉大伊视频| 一进一出抽搐gif免费好疼 | 少妇 在线观看| 18美女黄网站色大片免费观看| 侵犯人妻中文字幕一二三四区| 一个人观看的视频www高清免费观看 | 99国产精品99久久久久| 波多野结衣一区麻豆| 最近最新中文字幕大全电影3 | www.精华液| 欧美日本亚洲视频在线播放| 亚洲精品美女久久久久99蜜臀| 欧美中文日本在线观看视频| 久久精品91蜜桃| 午夜亚洲福利在线播放| 久久国产亚洲av麻豆专区| 天堂√8在线中文| 日韩大尺度精品在线看网址 | 岛国视频午夜一区免费看| 99久久综合精品五月天人人| 精品一区二区三卡| 欧美日韩亚洲国产一区二区在线观看| 不卡一级毛片| 青草久久国产| 国产精品98久久久久久宅男小说| 国产精品久久视频播放| 国产乱人伦免费视频| 日韩视频一区二区在线观看| 欧洲精品卡2卡3卡4卡5卡区| 精品国产一区二区三区四区第35| 亚洲精华国产精华精| 老熟妇乱子伦视频在线观看| 最近最新免费中文字幕在线| 免费日韩欧美在线观看|