孫 凌,韓立新,勾智楠
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 211100)
基于變分自動(dòng)編碼器的動(dòng)態(tài)主題模型
孫 凌,韓立新,勾智楠
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 211100)
傳統(tǒng)動(dòng)態(tài)主題模型的后驗(yàn)分布推斷需要復(fù)雜的推理過(guò)程,僅模型假設(shè)的細(xì)微變化就需要重新進(jìn)行推斷,時(shí)間成本較高,制約了模型的可變性和通用性。為了提高動(dòng)態(tài)主題模型的性能,提出了基于變分自動(dòng)編碼器融合動(dòng)態(tài)因子圖進(jìn)行推斷的動(dòng)態(tài)主題模型。該模型對(duì)變分下界進(jìn)行再參數(shù)化,生成一個(gè)下界估計(jì)器,將隱變量轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),用標(biāo)準(zhǔn)隨機(jī)梯度下降法直接優(yōu)化變分目標(biāo),同時(shí)融合動(dòng)態(tài)因子圖對(duì)狀態(tài)空間模型進(jìn)行建模,弱化推斷的概率特性,簡(jiǎn)化優(yōu)化過(guò)程,實(shí)現(xiàn)有效的推斷。結(jié)果表明,提出的模型不僅保證了準(zhǔn)確性,而且其簡(jiǎn)化模型有效降低了推斷的時(shí)間成本,從而為動(dòng)態(tài)主題模型能有效應(yīng)用于復(fù)雜的時(shí)間場(chǎng)景提供更多可能。
計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò);動(dòng)態(tài)主題模型;變分自動(dòng)編碼器;動(dòng)態(tài)因子圖;參數(shù)
主題模型是一種非常流行的對(duì)文本隱含主題建模的方法,廣泛應(yīng)用于自然語(yǔ)言處理、信息檢索等各個(gè)領(lǐng)域。針對(duì)具有時(shí)間屬性的文本,BLEI等[1]首次提出了動(dòng)態(tài)主題模型(dynamic topic model,DTM),在主題建模時(shí)引入時(shí)間維度,從而跟蹤并分析主題隨時(shí)間變化的狀況。應(yīng)用DTM的主要問(wèn)題是參數(shù)估計(jì)的計(jì)算成本,傳統(tǒng)的估計(jì)方法是利用EM算法迭代計(jì)算貝葉斯后驗(yàn)分布的變分推斷方法[2],將近似后驗(yàn)分布問(wèn)題轉(zhuǎn)換為解決KL散度的優(yōu)化問(wèn)題,對(duì)隱變量的推斷轉(zhuǎn)換為對(duì)變分變量的迭代更新,然而迭代模型的推導(dǎo)復(fù)雜且需高時(shí)間成本,尤其是新模型在建模假設(shè)中有細(xì)微變化都需重新推斷,嚴(yán)重制約了不同建模自由探索的實(shí)踐可能性。由此激發(fā)了研究者對(duì)黑盒推斷方法的探索,文獻(xiàn)[3—6]提出了僅需有限的信息并給定生成過(guò)程,能夠自動(dòng)應(yīng)用到新模型的一些方法。
變分貝葉斯自動(dòng)編碼(auto encoding variational bayes,AEVB)[6]是一種基于變分自動(dòng)編碼器(variational autoencoder,VAE)的深度生成模型,可對(duì)變分下界再參數(shù)化生成一個(gè)下界估計(jì)器,將隱變量轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),可用標(biāo)準(zhǔn)隨機(jī)梯度下降法優(yōu)化變分目標(biāo),從而簡(jiǎn)化優(yōu)化過(guò)程,實(shí)現(xiàn)有效的后驗(yàn)推斷。然而在訓(xùn)練過(guò)程中會(huì)造成組件塌陷[7],即一種類(lèi)似于先驗(yàn)信任的局部最優(yōu),在應(yīng)用到主題模型時(shí)會(huì)造成所有主題都一樣。SRIVASTAVA等[8]利用AEVB對(duì)主題模型進(jìn)行推斷,提出了新的主題模型ProdLDA,但是無(wú)法適用于DTM?;谝陨涎芯?,本文以神經(jīng)網(wǎng)絡(luò)模型進(jìn)行概率推斷為基礎(chǔ),提出一種基于變分自動(dòng)編碼器的動(dòng)態(tài)主題模型推斷學(xué)習(xí)方法。
在DTM中,時(shí)間片t上的序列語(yǔ)料的生成過(guò)程如下。
1) 根據(jù)βt|β(t-1)~N(β(t-1),σ2Ι)生成時(shí)間片t上的主題-詞匯概率分布βt;
2)根據(jù)αt|α(t-1)~N(α(t-1),δ2Ι)生成時(shí)間片t上的先驗(yàn)主題先驗(yàn)分布αt;
3)循環(huán)生成該時(shí)間片t上的每一篇文章d:
①根據(jù)θ~N(αt,a2Ι)生成時(shí)間片t上的文檔-主題概率分布θ;
②循環(huán)文檔d中的每一個(gè)詞n,根據(jù)Z~Mult(π(θ))生成詞-主題分配標(biāo)識(shí)向量Z;根據(jù)W(t,d,n)~Mult(π(β(t,z)))生成詞W(t,d,n)。
DTM包含的隱變量包括文檔和主題層面上的,分別為主題分布θ、詞-主題分配標(biāo)識(shí)向量Z,時(shí)間片t上的主題-詞匯分布參數(shù)變量βt。
在DTM中,高斯模型被應(yīng)用于時(shí)間序列上的自然參數(shù)的處理,從而對(duì)時(shí)間上的動(dòng)態(tài)變化進(jìn)行建模,然而,由于高斯分布和多元分布的非共軛性,直接對(duì)后驗(yàn)分布進(jìn)行推斷難以操作。另一方面,盡管Gibbs抽樣[9]在靜態(tài)的主題模型上得到有效的應(yīng)用,但是非共軛性導(dǎo)致抽樣方法難以應(yīng)用于動(dòng)態(tài)模型[10]。因此,DTM采用變分推斷[11]來(lái)近似后驗(yàn)分布。變分推斷首先假設(shè)一個(gè)較簡(jiǎn)單的包含隱變量的分布,這個(gè)分布包含相應(yīng)的變分變量,通過(guò)不斷更新變分變量,達(dá)到優(yōu)化變分分布與真實(shí)后驗(yàn)分布之間的KL散度的目的,當(dāng)KL散度小于某個(gè)閾值后,可將變分分布作為真實(shí)的后驗(yàn)分布的近似替代。在文檔層面的隱變量有θ(t,d)和z(t,d,n),對(duì)應(yīng)變分變量的更新采用共軛梯度法來(lái)優(yōu)化,對(duì)主題層面的隱變量β(t,k)的變分變量的更新采用基于卡爾曼過(guò)濾算法的近似推斷[11]。然而,盡管對(duì)目標(biāo)下界的優(yōu)化和變分變量的更新均有解析解,但由于靈活性受限,一旦應(yīng)用和需求變化所帶來(lái)的新模型則需要重新推導(dǎo)出有解析解的迭代更新模型,尤其對(duì)一些復(fù)雜的模型難以得到,甚至沒(méi)有解析解。
DTM中的狀態(tài)空間模型描述了變量β隨時(shí)間的變化,由此對(duì)生成文檔產(chǎn)生影響。DTM中采用基于卡爾曼濾波的近似方法對(duì)主題參數(shù)β進(jìn)行推斷,需要復(fù)雜的推導(dǎo),本文用動(dòng)態(tài)因子圖(dynamic factor graph,DFG)[12]描述狀態(tài)空間模型,簡(jiǎn)化推斷。
狀態(tài)變量和觀測(cè)變量之間的依賴可表示為在序列數(shù)據(jù)上的因子圖,并且在時(shí)間片上重復(fù)。動(dòng)態(tài)因子圖即因子圖用于協(xié)調(diào)序列數(shù)據(jù)的擴(kuò)展,相比現(xiàn)有的狀態(tài)空間方法,DFG允許建模過(guò)程中使用復(fù)雜的函數(shù)來(lái)預(yù)測(cè)狀態(tài)和觀測(cè)值,弱化推斷的概率特性,實(shí)現(xiàn)高維度和非線性模型的有效推斷[12]。
針對(duì)傳統(tǒng)變分推斷方法的局限性,AEVB提供了很好的選擇,通過(guò)訓(xùn)練推斷網(wǎng)絡(luò)編碼器將文檔映射到近似后驗(yàn)分布,并且利用再參數(shù)化將隱變量轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),無(wú)需推導(dǎo)出變分參數(shù)的迭代更新模型。
AEVB是基于變分自動(dòng)編碼器VAE的一種深度生成模型,可為主題模型提供一種有效的變分推斷和學(xué)習(xí)算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。AEVB利用神經(jīng)網(wǎng)絡(luò)來(lái)分別建模主題模型的文檔生成概率和表示文檔-主題的后驗(yàn)概率分布的變分近似分布。其中,用于建模變分近似分布的神經(jīng)網(wǎng)絡(luò)作為編碼器,將輸入文檔映射為表示文檔-主題的后驗(yàn)分布;用于建模文檔生成概率的神經(jīng)網(wǎng)絡(luò)作為解碼器,將后驗(yàn)分布映射為生成的文檔概率分布。
圖1 基于AEVB推斷學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of inference learning based on AEVB
基于AEVB的推斷學(xué)習(xí)方法,即使在大規(guī)模文檔數(shù)據(jù)集也可以實(shí)現(xiàn)有效的推斷和學(xué)習(xí),并在一些輕微的可微性條件下,能處理復(fù)雜的后驗(yàn)分布[7],由此面對(duì)主題模型由應(yīng)用和需求變化帶來(lái)的復(fù)雜新模型,AEVB只需對(duì)變分下界的再參數(shù)化產(chǎn)生一個(gè)下界估計(jì)器適配一個(gè)近似推斷模型來(lái)處理復(fù)雜的后驗(yàn),最后用標(biāo)準(zhǔn)隨機(jī)梯度下降方法直接優(yōu)化,由此實(shí)現(xiàn)有效的后驗(yàn)推斷和學(xué)習(xí)。但是,針對(duì)動(dòng)態(tài)主題模型中滿足時(shí)序動(dòng)態(tài)變化的狀態(tài)變量,AEVB無(wú)法建模該狀態(tài)變量的時(shí)序依賴關(guān)系。
圖2 VADTM的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of VADTM
p(θt|αt)dθt。
(1)
(2)
(3)
L(q,βt,αt;wt)?Eqφ(θt|wt)[logp(wt|θt,βt)]-DL[qφ(θt|wt)||p(θt|αt)]。
(4)
φ*=argminDL(qφ(θt|wt)||p(θt|wt;αt))=
argmax L(q,βt,αt;wt)=
DL[qφ(θt|wt)||p(θt|αt)]),
(5)
式中:第1項(xiàng)為負(fù)的平均重構(gòu)誤差;第2項(xiàng)為近似分布q和先驗(yàn)分布θ之間的KL距離。由此變分目標(biāo)的兩項(xiàng)可由解碼器和編碼器來(lái)分別建模。
3.1捕獲動(dòng)態(tài)先驗(yàn)的編碼器
同樣,DTM中θt服從以αt為均值的對(duì)數(shù)高斯分布,即logp(θt|wt)=log N(wt;μt,σt),其中μt=αt,σt=a。那么式(5)中第2項(xiàng)記作Lkl,則
Lkl=DL[qφ(θt|wt)||p(θt|αt)]=
(6)
其中超參數(shù)αt滿足高斯隨機(jī)游走模型,作為常數(shù),本文在初始化時(shí)采用滿足高斯分布的隨機(jī)采樣進(jìn)行參數(shù)微調(diào),而非全設(shè)為1[9],在一定程度上緩解組件塌陷,從而獲得解釋性更優(yōu)的主題詞。
3.2基于動(dòng)態(tài)因子圖的解碼器
上述是在t時(shí)刻的生成模型,在考慮相鄰時(shí)間片狀態(tài)變量的依賴關(guān)系后,本文采用動(dòng)態(tài)因子圖來(lái)改進(jìn)解碼器。變量βt滿足如下?tīng)顟B(tài)空間模型:
βt|βt-1~N(βt-1,σ2Ι),
(7)
將其表示為動(dòng)態(tài)因子圖的形式,如圖3所示。
圖3 狀態(tài)空間模型轉(zhuǎn)換的動(dòng)態(tài)因子圖Fig.3 Dynamic factor graph converted from state space model
綜上所述,變分目標(biāo)(5)最終可以表示為如下的目標(biāo)損失函數(shù):
argmax L(Θ)=argmax(Lg+Lf-Lkl)=
‖βt-β(t-1)‖2+Lkl) =
(8)
基于此優(yōu)化目標(biāo),本文采用隨機(jī)梯度下降法訓(xùn)練整個(gè)網(wǎng)絡(luò)。
3.3相關(guān)工作比較
動(dòng)態(tài)主題模型性能優(yōu)化的關(guān)鍵是如何獲取更高效的訓(xùn)練算法[10]。常用的包括利用EM算法迭代計(jì)算后驗(yàn)分布的變分推斷方法[2]和利用馬爾可夫鏈蒙特卡洛方法的Gibbs抽樣方法[9],然而變分推斷方法需要對(duì)變分變量的迭代更新公式進(jìn)行復(fù)雜的推導(dǎo)過(guò)程,難以應(yīng)用到擴(kuò)展的模型,而本文結(jié)合VAE網(wǎng)絡(luò)架構(gòu),利用再參數(shù)化將編碼器輸出的2個(gè)網(wǎng)絡(luò)與輔助參數(shù)進(jìn)行線性操作,此時(shí)對(duì)變分變量的推斷簡(jiǎn)化為對(duì)2個(gè)網(wǎng)絡(luò)參數(shù)的優(yōu)化,簡(jiǎn)化了迭代更新模型;相較于Gibbs抽樣方法,每次迭代采樣都需遍歷所有數(shù)據(jù)點(diǎn)直到收斂,本文的VADTM只需對(duì)正態(tài)分布進(jìn)行一次采樣,優(yōu)化了推斷時(shí)間。SRIVASTAVA等[8]同樣利用AEVB進(jìn)行變分推斷,并基于該推斷方法提出新的主題模型ProdLDA,但不適用動(dòng)態(tài)主題模型,本文提出的VADTM融合了動(dòng)態(tài)特性,對(duì)先驗(yàn)進(jìn)行調(diào)優(yōu),同時(shí)將狀態(tài)空間模型轉(zhuǎn)換為動(dòng)態(tài)因子圖進(jìn)行時(shí)序建模并適配解碼器。由此,VADTM保證傳統(tǒng)方法的準(zhǔn)確性同時(shí),還節(jié)約了時(shí)間成本,實(shí)現(xiàn)有效的性能優(yōu)化。
4.1實(shí)驗(yàn)環(huán)境
硬件上,采用因特爾酷睿i7四核處理器,處理器主頻為2.2 GHz,內(nèi)存大小為16 GB。軟件上,采用macOS Sierra操作系統(tǒng),深度學(xué)習(xí)框架Tensorflow0.10.0,Python2.7作為開(kāi)發(fā)環(huán)境。
4.2實(shí)驗(yàn)數(shù)據(jù)
采用一個(gè)時(shí)間跨度為25年(1985—2009),以自然語(yǔ)言處理領(lǐng)域中文期刊論文(DBLP) 為主導(dǎo)的語(yǔ)料庫(kù)[13]進(jìn)行實(shí)驗(yàn)。選取該語(yǔ)料庫(kù)13 600篇論文的英文摘要作為文檔。語(yǔ)料庫(kù)的詞匯數(shù)目為10 984。本文將語(yǔ)料庫(kù)分為 10 個(gè)時(shí)間片, 每個(gè)時(shí)間片上的論文數(shù)大致相當(dāng),對(duì)每篇論文進(jìn)行預(yù)處理,包括去除非UTF-8字符、標(biāo)點(diǎn)、長(zhǎng)度小于3的單詞、英文停止詞等,并進(jìn)行分詞以及單詞詞干化等預(yù)處理。
4.3評(píng)估方法
主題模型所面臨的另一個(gè)主要問(wèn)題是如何客觀地衡量模型的優(yōu)劣度,由于其非監(jiān)督的特性,不同的應(yīng)用中需實(shí)現(xiàn)不同的任務(wù),使得模型的選擇變得困難,因此很難直接評(píng)估一個(gè)模型的好壞[11]。傳統(tǒng)方法使用perplexity對(duì)主題進(jìn)行定性評(píng)估,文獻(xiàn)[14]指出該方法不能很好地表示主題詞的語(yǔ)義特性,LAU等[15]提出主題相關(guān)性的評(píng)估標(biāo)準(zhǔn)更接近人類(lèi)判斷,并使用歸一化點(diǎn)互信息(normalized pointwise mutual information,NPMI)對(duì)主題定性評(píng)估。本文采用NPMI方法,NPMI(t)表示主題t的主題相關(guān)性,取主題t的top-N主題詞集進(jìn)行計(jì)算,最后取K個(gè)主題的平均主題相關(guān)性作為評(píng)估指標(biāo),平均主題相關(guān)性越大,表示模型越優(yōu)。
4.4對(duì)比實(shí)驗(yàn)結(jié)果分析
采用文獻(xiàn)[9]提出的使用Gibbs抽樣進(jìn)行推斷的LDA、文獻(xiàn)[2]提出的使用平均場(chǎng)變分推斷的DTM、文獻(xiàn)[8]提出的基于變分自動(dòng)編碼器推斷的ProdLDA以及本文提出的VADTM進(jìn)行比較。實(shí)驗(yàn)中,選取主題數(shù)量為50進(jìn)行實(shí)驗(yàn)。超參數(shù)αt是文檔-主題分布即高斯分布的均值,它的初始化值需反映真實(shí)語(yǔ)料的分布特征,實(shí)驗(yàn)通過(guò)設(shè)置不同的αt取值來(lái)描述真實(shí)語(yǔ)料的概率分布,通過(guò)比較主題相關(guān)性來(lái)找到最優(yōu)的αt,圖4給出了VADTM在超參數(shù)αt設(shè)置不同高斯分布方差的條件下平均主題相關(guān)性的對(duì)比結(jié)果,結(jié)果顯示,方差αt取0.8時(shí),模型達(dá)到最優(yōu),即0.8最能反映真實(shí)語(yǔ)料的概率分布特征。表1給出了當(dāng)超參數(shù)αt全部設(shè)置為1時(shí)模型學(xué)到的主題詞,結(jié)果顯示在不同時(shí)間片中都存在相近的且沒(méi)有意義的主題詞,說(shuō)明模型出現(xiàn)一定程度的組件塌陷問(wèn)題,而當(dāng)超參數(shù)αt的取值為高斯分布的隨機(jī)采樣結(jié)果時(shí),能避免產(chǎn)生相近的且無(wú)意義的主題詞,如表2所示。表2選取了同表1相同時(shí)間片下的部分主題詞,可見(jiàn)不同主題之間不再出現(xiàn)相似的主題詞且主題詞解釋性更優(yōu)。說(shuō)明一定程度上緩解了AEVB的組件塌陷問(wèn)題,主題的解釋性更強(qiáng)。
圖4 不同方差設(shè)置下主題相關(guān)性對(duì)比Fig.4 Contrast of topic coherence by different variances
表1 超參數(shù)αt全部設(shè)置為1時(shí)部分主題詞
表2 超參數(shù)αt取值為隨機(jī)采樣結(jié)果時(shí)部分主題詞
表3顯示了所有模型的平均主題相關(guān)性的比較。結(jié)果顯示ProdLDA和VADTM產(chǎn)生了相近的主題相關(guān)性且優(yōu)于兩種傳統(tǒng)方法。同時(shí)VADTM耗時(shí)50 min左右訓(xùn)練模型,然而基于平均場(chǎng)變分推斷的DTM則耗時(shí)超過(guò)10 h。這說(shuō)明了本文提出的基于變分自動(dòng)編碼器并融合動(dòng)態(tài)因子圖進(jìn)行推斷的動(dòng)態(tài)主題模型VADTM,保證一定準(zhǔn)確性的同時(shí),有效優(yōu)化了推斷時(shí)間,節(jié)約了時(shí)間成本,相較于ProdLDA也實(shí)現(xiàn)了動(dòng)態(tài)模型的應(yīng)用。
表3 不同方法的平均主題相關(guān)性比較
基于變分自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練DTM,使用再參數(shù)化將DTM中文檔層面的隱變量文檔-主題θ轉(zhuǎn)換為一組輔助參數(shù),使得新的參數(shù)不依賴于變分參數(shù),可用標(biāo)準(zhǔn)隨機(jī)梯度下降法直接優(yōu)化變分目標(biāo),同時(shí)將主題β的狀態(tài)空間模型轉(zhuǎn)換為動(dòng)態(tài)因子圖進(jìn)行時(shí)序建模,將復(fù)雜的變分推導(dǎo)轉(zhuǎn)換為對(duì)狀態(tài)β的正則化約束,簡(jiǎn)化了變分目標(biāo)。實(shí)驗(yàn)表明,本文提出的VADTM保證準(zhǔn)確性,優(yōu)化推斷時(shí)間,實(shí)現(xiàn)了有效的性能優(yōu)化。未來(lái),將考慮根據(jù)具體的應(yīng)用例如圖像識(shí)別[16]來(lái)調(diào)整模型,并結(jié)合微博平臺(tái)利用改進(jìn)的DTM來(lái)建模用戶信任關(guān)系[17]。
/
[1] BLEI D M, LAFFERTY J D. Dynamic topic models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York:ACM, 2006: 113-120.
[2] WAINWRIGHT M J, JORDAN M I. Graphical models, exponential families, and variationalinference[J]. Foundations and Trends in Machine Learning, 2008, 1(1/2): 1-305.
[3] RANGANATH R, GERRISH S, BLEI D. Black box variational inference[C]//Artificial Intelligence and Statistics.[S.l.]:[s.n.], 2014: 814-822.
[4] MNIH A, GREGOR K.Neuralvariational inference and learning in belief networks[J].International Conference on Multimedia Retrieval,2014,32:1791-1799.
[5] KUCUKELBIR A, TRAN D, RANGANATH R, et al. Automatic differentiation variational inference[J]. Journal of Machine Learning Research, 2017, 18(1):430-474.
[6] KINGMA D P, WELLING M. Auto-encoding variationalbayes[EB/OL].http://dpkingma.com/wordpress/wp-content/uploads/2014/05/2014-03_talk_iclr.pdf, 2014-05-01.
[7] DINH L, DUMOULIN V. Training neural Bayesian nets[EB/OL].http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summersch-ool/slides/Laurent_dinh_cifar_presentation.pdf,2016-02-15.
[8] SRIVASTAVA A, SUTTON C. Autoencoding variational inference for topic models[EB/OL].https://www.researchgate.net/publication/314261246_Autoencoding_Variational_Inference_For_Topic_Models,2017-03-29.
[9] GRIFFITHS T. Gibbs sampling in the generative model of latent dirichlet allocation[R].Stanford: Stanford University,2002.
[10] 桂小慶, 張俊, 張曉民,等. 時(shí)態(tài)主題模型方法及應(yīng)用研究綜述[J]. 計(jì)算機(jī)科學(xué), 2017,44(2): 46-55.
GUI Xiaoqing, ZHANG Jun, ZHANG Xiaomin,et al. Survey on temporal topic model methods and application[J]. Computer Science, 2017,44(2):46-55.
[11] WINN J M. Variational Message Passing and its Applications[D]. London:University of Cambridge, 2004.
[12] MIROWSKI P, LECUN Y. Dynamic factor graphs for time series modeling[J]. Machine Learning and Knowledge Discovery in Databases, 2009,5782: 128-143.
[13] 蔣卓人, 陳燕, 高良才,等. 一種結(jié)合有監(jiān)督學(xué)習(xí)的動(dòng)態(tài)主題模型[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 51(2):367-376.
JIANG Zhuoren, CHEN Yan, GAO Liangcai, et al.A supervised dynamic topic model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2):367-376.
[14] NEWMAN D, LAU J H, GRIESER K, et al. Automatic evaluation of topic coherence[C]// Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association of Computational Linguistics. Stroudsburg:Association for Computational Linguistics, 2010:100-108.
[15] LAU J H, NEWMAN D, BALDWIN T. Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:[s.n.], 2014: 530-539.
[16] 鄭琨,張楊,賴杰,等.基于支持向量機(jī)和特征向量提取的人臉識(shí)別框架[J].河北工業(yè)科技, 2016, 33(1):58-62.
ZHENG Kun,ZHANG Yang,LAI Jie,et al.Face recognition framework based on support vector machine and feature vector extraction[J].Hebei Journal of Industrial Science and Techno-logy,2016,33(1):58-62.
[17] 孫博, 陳通. 微博用戶之間信任形成的因素研究[J]. 河北工業(yè)科技, 2015, 32(5):384-389.
SUN Bo, CHEN Tong. Factors on formation of trust between microblog users[J]. Hebei Journal of Industrial Science and Technology, 2015, 32(5):384-389.
Dynamic topic model based on variational autoencoder
SUN Ling, HAN Lixin, GOU Zhinan
(College of Computer and Information, Hohai University, Nanjing, Jiangsu 211100, China)
The posterior distribution of traditional dynamic topic model requires complex reasoning process, and a small change in model assume will require re-deduction, meanwhile with high time cost, which restricts the variability and generality of the model. A dynamic topic model based on variational autoencoder fusing with dynamic factor graph for inference is proposed in order to improve the performance of dynamic topic model. The model makes a reparameterization trick to evidence lower bound to generate a lower estimator, and converts the hidden parameters to a group of auxiliary parameters, which makes new parameters not depend on variational parameters; standard stochastic gradient descent method can be available to variational objective function directly. At the same time, integrating the dynamic factor graph on modeling the state space model weakens the probabilistic of the model, simplifies the optimization process, and makes effective inference. The experimental results show that this model guarantees the accuracy, and the simplified model reduces the time cost effectively, which will provide more possibilities for dynamic topic model to be applied to complex time scenarios effectively.
neural network; dynamic topic model; variational autoencoder; dynamic factor graph; parameter
1008-1534(2017)06-0421-07
TP389.1
A
10.7535/hbgykj.2017yx06006
2017-08-28;
2017-10-17;責(zé)任編輯:陳書(shū)欣
江蘇省研究生科研與實(shí)踐創(chuàng)新計(jì)劃項(xiàng)目(KYCX17_0486);中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(2017B708X14);福建省信息處理與智能控制重點(diǎn)實(shí)驗(yàn)室(閩江學(xué)院)開(kāi)放課題(MJUKF201740)
孫 凌(1992—),女,江蘇南京人,碩士研究生,主要從事機(jī)器學(xué)習(xí)、信息檢索方面的研究。
韓立新教授,博士生導(dǎo)師。E-mail:lhan@hhu.edu.cn
孫 凌,韓立新,勾智楠.基于變分自動(dòng)編碼器的動(dòng)態(tài)主題模型[J].河北工業(yè)科技,2017,34(6):421-427.
SUN Ling, HAN Linxin, GOU Zhinan. Dynamic topic model based on variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2017,34(6):421-427.