張青 韓立新 勾智楠
摘 要:為了解決短文本稀疏性問題,提高主題模型的性能,提出了一種詞向量嵌入的主題模型。首先,假設(shè)一篇文檔只包含一個主題;其次,利用詞向量對每一輪迭代的主題進行擴充與調(diào)整,即對每一個主題,利用一種非參數(shù)化的概率采樣方法得到一些詞,再用詞向量找出相似詞,提升該主題下相似詞的權(quán)重;最后,用拉普拉斯近似主題分布,使其更好地運用在變分自動編碼器訓(xùn)練中,從而加快訓(xùn)練速度。實驗結(jié)果表明,本文模型訓(xùn)練出的主題具有較好的解釋性,并優(yōu)于其他主流的模型,可為短文本的主題提取提供更多的可能。在主題模型訓(xùn)練的過程中,利用詞向量干預(yù)主題詞分布可以得到較好的主題質(zhì)量,并可以通過變分自動編碼器加快訓(xùn)練速度,對自然語言處理問題的研究具有一定的創(chuàng)新性和參考價值。
關(guān)鍵詞:計算機神經(jīng)網(wǎng)絡(luò);主題模型;詞向量;變分自動編碼器;短文本
中圖分類號:TP3891 ??文獻標(biāo)志碼:A
Short text topic model based on word vector and
variational autoencoder
ZHANG Qing, HAN Lixin, GOU Zhinan
(College of Computer and Information, Hohai University, Nanjing, Jiangsu 211100, China)
Abstract: In order to solve the problem of short text sparsity and improve the performance of the model, a topic model embedded by word vector is proposed. Firstly, that a document contains only one topic is supposed. Secondly, we use word vector to expand and adjust the theme of each iteration. That is to say, for each topic, we use a non-parametric probability sampling method to get some words, and then use word vector to find similar words, so as to enhance the weight of similar words under the topic. Finally, a Laplace approximation to the topic distribution is constructed, so that it is better trained by the variational autoencoder, thus speeding up the training speed. The experimental results show that the model has much more interpretable topics and outperforms other mainstream training models, thus providing more possibilities for the topic extraction of short text. In the process of thematic model training, the use of word vectors to interfere with the distribution of thematic words can achieve better quality of themes, and can speed up the training speed through the variational autoencoder, which has a certain innovation and reference value for the research of natural language processing.
Keywords: computer neural network; topic model; word vector; variational autoencoder; short text
在推特、微博和百度知道等網(wǎng)絡(luò)平臺發(fā)展的過程中,短文本層出不窮。同時,短文本在搜索引擎、問答系統(tǒng)和話題跟蹤等領(lǐng)域也發(fā)揮著重要的作用。如何從大量的短文本中挖掘出潛在主題,對于許多需要對文本內(nèi)容進行理解的應(yīng)用至關(guān)重要,例如:用戶興趣建模、評論總結(jié)、文本特征和分類等。
主題模型被廣泛運用于文本的主題提取,傳統(tǒng)的方法有pLSA[1]和LDA[2],但是對于含有少量詞的短文本來說,由于特征稀疏,這些方法是不容樂觀的。文獻[3—5]利用一些如用戶信息、上下文信息、位置信息或者時間戳信息,對短文本進行匯總,形成長的偽文本,然后運用在傳統(tǒng)的主題模型中。然而這些方法中的附加信息一般很難獲取。文獻[6]限制文檔主題的個數(shù),例如:在Dirichlet Multinomial Mixture(DMM)模型[7]中,文本中的詞都是從一個主題下提取。鑒于短文本內(nèi)容有限,這種合理性的簡化在一定程度上緩解了數(shù)據(jù)稀疏性的問題。文獻[8—10]利用詞的共現(xiàn)信息擴充文本,但是在短文本中即使很相關(guān)的詞共同出現(xiàn)的次數(shù)也會很少,因此利用詞的共現(xiàn)信息擴充文本是受限制的。
對于每一段文本的理解,不單單是文本內(nèi)容,還有文本的背景知識,比如單詞間的語義信息等。然而,傳統(tǒng)的主題模型是一種詞袋模型,忽略詞序、句法和語法,將其僅僅看作是一個詞的集合。為了解決這一問題,本文將在DMM模型的基礎(chǔ)上利用詞的語義信息解決短文本的稀疏問題。使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練包含語義信息的詞向量,尋找與主題詞向量相似的詞擴充主題信息,讓語義相似的詞更可能地聚集在同一主題下。
在主題模型中最大的挑戰(zhàn)是計算后驗分布,常見的方式有變分EM算法[11]和Collapsed Gibbs Sampling[12],但是當(dāng)模型發(fā)生細微改變時,變分EM算法需要對迭代更新的公式重新進行復(fù)雜推導(dǎo),缺乏靈活性和擴展性。而Gibbs采樣方法是在每次迭代時需要遍歷所有的數(shù)據(jù),時間成本較高。KINGMA等[13]提出了變分自動編碼器(variational auto-encoder, VAE),利用推理網(wǎng)絡(luò)近似后驗分布,避免了復(fù)雜的數(shù)學(xué)推導(dǎo),提高了訓(xùn)練效率。但是該模型在后驗概率分布為高斯分布的模型中取得較好的結(jié)果,并不能很好地應(yīng)用于主題模型。因此,本文將用拉普拉斯去近似主題分布,再用變分自動編碼器進行訓(xùn)練。
鑒于以上分析,本文提出了一種基于詞向量和變分自動編碼器的短文本主題模型(以下簡稱WVE-DMM),利用詞向量豐富主題,并通過改變主題分布,將變分自動編碼器更好地應(yīng)用于DMM主題模型中。
1 相關(guān)工作
1.1 DMM
DMM是一個三層概率生成模型,其中包含2個假設(shè),首先假設(shè)文章以一定的概率選擇某個主題,然后再從這個主題下以一定的概率選擇某個詞。不同于LDA模型,該模型假設(shè)一篇文章只有一個主題。換句話說,一篇文章中的所有詞都是來自于一個主題。
假設(shè)短文本數(shù)據(jù)集有D篇文檔,一共包含K個主題,其中主題服從參數(shù)為α的Dirichlet分布。每篇文檔W都有一個主題k。每個單詞w都是由某個主題下詞的多項式分布獲得。DMM生成文章的步驟如下。
1)采樣一個主題分布θ~Dirichlet(α);
2)對于每個主題k∈{1,2,…,K},
采樣主題-詞分布φk~Dirichler(β);
3)對于每篇文檔W,
a)采樣一個主題zd~Multinomial(θ);
b)對于每個詞,w∈W,
采樣一個詞w~Multinomial(φzd)。
文檔W的生成公式如式(1)所示:
p(W)=[WB]
∫θ∑[DD(]Kk=1[DD)]∏w∈W[DD)]p(w|z=k)p(z=k|θ)[JB))]×
p(θ|α)dθ。(1)
1.2 詞向量
采用Google提出的利用深度學(xué)習(xí)訓(xùn)練詞向量的方法。通過網(wǎng)絡(luò)的訓(xùn)練,將詞映射成高維向量,進行詞語特征提取。訓(xùn)練得到的詞向量可以計算詞語間的語法和語義的相似度,例如:
VAmerica-VWashington≈VChina-VBejing,其中VAmerica表示America的詞向量,即:美國的詞向量減去華盛頓等于中國減去北京。在詞向量訓(xùn)練中,常用的模型有2種:Continuous Bag-of-Words[KG*3](CBOW)和Continuous Skip-Gram (Skip-gram)[14]。這兩種模型區(qū)別在于,CBOW模型是利用上下文預(yù)測中心詞,而Skip-Gram模型是利用當(dāng)前詞去預(yù)測周圍詞。本文選擇的是Skip-Gram模型,如圖1所示,用當(dāng)前的w(t)詞去預(yù)測周圍的2b個詞,參數(shù)b是決定上下文窗口大小的常數(shù)。
假設(shè)語料中有一組w1,w2,…,wN詞語序列,Skip-Gram模型最大化的目標(biāo)函數(shù)如式(2)所示:
F=1N∑[DD(]Nt=1[DD)]∑[DD(X]-b≤i≤b,i≠0[DD)] log p(wt+i|wt)。
(2)1.3 變分自動編碼器(VAE)
VAE[15]是一種深度生成模型,結(jié)構(gòu)如圖2所示,其思想是利用神經(jīng)網(wǎng)絡(luò)分別對編碼器和解碼器進行建模。生成模型p(x|z;θ)可以看作是解碼器,即將隱變量z映射為可觀測變量x;后驗概率分布p(z|x;θ)的變分近似分布q(z|x;)可以看作是編碼器,即將可觀測變量x映射為隱變量z。其中,θ和為模型參數(shù),均由神經(jīng)網(wǎng)絡(luò)來計算。
變分自動編碼器的目標(biāo)函數(shù)如式(3)所示:
L(,θ;x)=Ez~q(z|x;)[log p(x|z;θ)]-
DKL(q(z|x;)‖p(z;θ))。(3)
等式右邊的第1項是樣本x在隱變量z服從q(z|x;)分布時的對數(shù)似然函數(shù),即重構(gòu)項,第2項為編碼器中求得的隱變量分布與先驗分布之間的KL散度,類似于正則化項,保證模型具有生成能力。使用隨機梯度下降法訓(xùn)練整個網(wǎng)絡(luò),每次從數(shù)據(jù)集中采集一個樣本x,然后根據(jù)q(z|x;)選擇一個隱變量z,并計算L(,θ;x)的梯度。為了容易求得隨機變量參數(shù)的導(dǎo)數(shù),采用了重新參數(shù)化方法[16-17]。重新參數(shù)化是VAE模型實現(xiàn)反向傳播的重要手段。
2 融合詞向量和變分自動編碼器的主題模型
本文提出的模型框架如圖3所示。
運用DMM模型對短文本進行主題提取,在每一次的訓(xùn)練中,利用自動編碼器進行推斷,對于得到的每個主題,先選取與該主題相關(guān)性比較大的詞,然后利用詞向量計算與該詞語義相似的詞去對主題進行詞嵌入,使得同一個主題下詞的相關(guān)性得到增加。即使這些詞在短文本中沒有共同出現(xiàn)過,但該模型也能有效連接語義相關(guān)的詞。
2.1 詞嵌入
為了解決短文本的稀疏性,很多學(xué)者利用詞嵌入的方法去擴充文本主題信息。LI等[6]提出了利用額外的大語料去統(tǒng)計任意2個詞共同出現(xiàn)的次數(shù),并建立一張表,從該表中選取與主題中詞共現(xiàn)次數(shù)比較多的詞來豐富主題。由于表的建立和查詢都需要耗費很多時間,所以該方法時間性能較差,并且也忽略了詞語之間的語義信息。而本文提出利用詞向量去擴充主題,既不需要耗費大量時間去建立表,也不需要消耗大量空間去存儲表,只需要存儲每個詞的向量,同時也能利用詞與詞之間的語義信息。
本文采用Google公布的訓(xùn)練詞向量的工具word2vector。在訓(xùn)練詞向量時,語料越大,訓(xùn)練出的詞向量越好。中文的詞向量是利用搜狗的語料訓(xùn)練的,而英文的詞向量則直接使用了Google公布的英文詞向量。在每一輪的迭代訓(xùn)練中,利用詞向量選取與主題相關(guān)性比較大的詞來豐富主題。
在DMM模型中,每一篇短文本都只有一個主題,不同詞在某一主題下的概率是不同的,簡單地選取主題下所有詞的相關(guān)詞來擴充主題是不合理的,這會影響主題的質(zhì)量。例如“神經(jīng)網(wǎng)絡(luò)、感知機、專家、智能、模型、機器、框架、噪聲、有限”這一主題應(yīng)該是和神經(jīng)網(wǎng)絡(luò)相關(guān)的,但是“專家”和“有限”與該主題的相關(guān)性并不是很大。因此,本文提出了一個非參數(shù)化概率采樣策略,相關(guān)公式如下:
p(z=k|w)=p(z=k)p(w|z=k)∑Ki=1p(z=i)p(w|z=i),(4)
λ1=p(wi|z=k)∑Ni=1p(wi|z=k),(5)
λ2=p(z=k|w)·λ1。 ??????(6)
式(4)表示一個詞w所屬主題z=k的概率,其中,一共有K個主題。式(5)表示在主題k下,詞w所占的比例。式(6)將前2個公式相乘,代表詞w屬于該主題的概率和該主題下詞比例的乘積,該值越大,則詞w與主題越相關(guān)。按照一定閾值或者比例采樣詞,然后利用詞向量計算與該詞相關(guān)性比較大的詞,與其一并放入該主題下。利用詞向量嵌入的方法有效地緩解了主題稀疏性問題。
2.2 基于變分自動編碼器的訓(xùn)練
采用基于變分自動編碼器的推斷方法對DMM進行學(xué)習(xí)。在DMM算法中,主題z服從參數(shù)為θ的多項式分布p(z|θ),而θ服從參數(shù)為α的Dirichlet分布p(θ|α)。所以在DMM算法中隱變量包含z和θ??捎^測變量為參數(shù)α,β和文本W(wǎng)。
在推斷網(wǎng)絡(luò)中,用某個分布去近似隱變量的分布p(θ,z|α),但是在變分自動編碼器中,所有變量都是獨立的,打破了變量θ和z之間的依賴關(guān)系。分別用參數(shù)為γ和的分布去近似θ和z的分布,同時因為θ和z的分布,即多項式分布和Dirichlet分布是共軛的,近似分布函數(shù)可以寫為q(θ,z|γ,)。重寫變分自動編碼器的目標(biāo)函數(shù),如式(7)所示:
等式右邊的第1項類比于自動編碼器中的重構(gòu)項,第2項為隱變量后驗分布與先驗分布的KL散度。
針對KL散度中的先驗分布p(θ,z|α),DMM算法中隱變量服從Dirichlet先驗分布,并且Dirichlet先驗的選擇對于主題的可解釋性是至關(guān)重要的。但是Dirichlet分布難以再參數(shù)化,而在變分自動編碼器中再參數(shù)化是隨機變量實現(xiàn)反向傳播的一種重要手段。為了解決這個問題,本文采用Laplace去近似Dirichlet先驗。用Softmax偏差取代該分布,Softmax變量服從一個期望為μ1,斜方差矩陣為Σ1的多元正態(tài)分布,具體如式(8)所示:
最終用[AKP^](θ|μ1,Σ1)=LN(θ|μ1,Σ1)
去近似p(θ|α),其中,LN是參數(shù)μ1,Σ1為Logistic正態(tài)分布。式(7)右邊的第2項為編碼過程中用網(wǎng)絡(luò)訓(xùn)練得到的后驗分布q(θ,z|γ,)與先驗分布p(θ,z|α)的KL散度,即q(θ,z|γ,)與LN(θ|μ1,Σ1)的KL散度。
在VAE的編碼過程中,定義一個網(wǎng)絡(luò)結(jié)構(gòu)來訓(xùn)練fμ和fΣ,其中,fμ和fΣ再參數(shù)化得到參數(shù)ε,并輸出一個K×N的矩陣。當(dāng)VAE訓(xùn)練DMM模型時,對于每一篇文檔W=w1,w2,…,wN,定義一個均值為μ0=fμ(W),協(xié)方差為Σ0=diag(fΣ(W))的Logistic正態(tài)分布q(θ,z|γ,),即q(θ,z|γ,)=LN(θ|μ0,Σ0)。則式(7)中2個高斯分布的KL散度如式(9)所示:
DKL(q(θ,z|γ,)‖p(θ,z|α))=
DKL(q(θ,z|γ,)‖[AKP^](θ|μ1,Σ1))=
DKL(q(θ,z|μ0,Σ0)‖[AKP^](θ|μ1,Σ1))=
12
tr(Σ-11Σ0)+(μ1-μ0)TΣ-11(μ1-μ0)-K+[SX(B]
log|Σ1||Σ0|。(9)
結(jié)合式(1),將式(7)中的重構(gòu)項寫成如式(10)的形式:
p(W|z,θ,α,β)=
∫θ∏[DD(]Nn=1[DD)]p(wn|zn,βzn)p(zn|θ)p(θ|α)dθ=
∏[DD(]Nn=1[DD)]p(wn|zn,βzn)p(zn|θ)σ(μ0+Σ1/20ε)。
(10)
其中:p(wn|zd,βzd)和p(zd|θ)為多項式分布。通過采樣ε~N(0,I),可以得到重構(gòu)項。結(jié)合式(9)和式(10),重寫目標(biāo)函數(shù),如式(11)所示:
L(Θ)=∑[DD(]Dd=1[DD)]-12[JB({]
tr(Σ-11Σ0)+(μ1-μ0)TΣ-11(μ1-μ0)-K+log
|Σ1||Σ0|[JB)}]+
Eε~N(0,I)log
∏[DD(]Nn=1[DD)]p(wn|zn,βzn)p(zn|θ)σ(μ0+Σ1/20ε)。
(11)
Θ是網(wǎng)絡(luò)參數(shù)和輸入文本W(wǎng)1,W2,…,WD。每次從數(shù)據(jù)集中采樣一篇文檔,然后在編碼層得到主題分布的均值和方法,運用重新參數(shù)化方法,通過采樣ε~N(0,I),得到θ=σ(μ0+Σ1/20ε),并計算L(Θ)的梯度。
用AVE進行模型訓(xùn)練時,容易陷入局部最優(yōu),所以在優(yōu)化模型時選擇了Adam(adaptive moment estimation)[18]算法。該算法可以避免陷入局部最優(yōu)并且有較快的訓(xùn)練速度。
3 實驗過程
3.1 實驗數(shù)據(jù)
實驗采用的是新浪博客數(shù)據(jù)集和20 Newsgroups數(shù)據(jù)集。新浪博客中包含18 166篇文章,共有37 689個不同的詞。20 Newsgroups數(shù)據(jù)集因為不屬于短文本,所以在通過一系列的預(yù)處理,包括去停用詞、提取主干等,運用tf-idf技術(shù)從每篇文本中選取20個詞,最后得到11 258篇文章,其中包含1 695個不同的單詞。
3.2 評估方法
分別采用2種主題模型的度量方法。傳統(tǒng)的度量方法是主題模型困惑度(Perplexity)。困惑度的計算公式如下:
Perplexity(C)=exp[JB({]-∑Dd=1log p(Wd)∑Dd=1Nd。
(12)
其中:C表示語料庫中的測試集,共D篇文檔;Nd表示每篇文檔d中的單詞數(shù);Wd表示文檔d中的詞;p(Wd)即文檔中詞Wd產(chǎn)生的概率,該值越小越好。
此外,LAU等[19]提出了一個新的評判標(biāo)準(zhǔn),歸一化點互信息(normalized pointwise mutual information,NPMI),其計算公式如下:
NPMI(t)=∑[DD(]M-1i=1[DD)]∑[DD(]Mj=i+1[DD)]logp(wi,wj)p(wi)p(wj)
-log p(wi,wj)。 ?(13)
在NPMI評價方法中,NPMI(t)表示主題t的相關(guān)性,取主題t的top-M主題詞集w1,w2,…,wM進行計算,最后取K個主題的平均主題相關(guān)性作為評估指標(biāo),平均主題相關(guān)性越大,表示模型越優(yōu)。
3.3 結(jié)果分析
為了驗證本文提出的模型準(zhǔn)確度,選取了以下幾個流行模型進行對比實驗。
LDA:latent dirichlet allocation(LDA)是Blei于2003年提出的挖掘文本語料隱含主題的方法,使用Gibbs采樣法進行后驗推斷。
DMM:本文采取的原始模型,采用EM算法進行參數(shù)估計。
NVDM:用神經(jīng)網(wǎng)絡(luò)推斷后驗的一種方式。其中隱層節(jié)點為100,學(xué)習(xí)率為0.05,迭代次數(shù)為100。
ProLDA:基于變分貝葉斯自動編碼器主題模型,同樣采用變分自動編碼器進行推斷學(xué)習(xí),設(shè)置了2層網(wǎng)絡(luò),隱層節(jié)點一共有200個,學(xué)習(xí)率為0.005。
當(dāng)訓(xùn)練集選擇20 Newsgroups時,將主題個數(shù)分別設(shè)置為50和100,當(dāng)采用新浪博客數(shù)據(jù)集時,將主題個數(shù)設(shè)置為10。實驗結(jié)果將用困惑度和相關(guān)性這兩個評價指標(biāo)進行分析,結(jié)果如表1—表3所示。
本文模型中設(shè)置的學(xué)習(xí)率為0.002,迭代次數(shù)為300次。生成網(wǎng)絡(luò)中設(shè)置了兩層均含有100個節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)。在表1中,雖然本文模型在困惑度上沒有基于Gibbs采樣的LDA好,但是相較于變分推斷算法,效果有所提升。同時也發(fā)現(xiàn)NVDM算法對實驗參數(shù)和實驗環(huán)境的要求比較高,導(dǎo)致實現(xiàn)該算法結(jié)果與原論文有一定的差距。從表2可以看出本文的模型優(yōu)于DMM,并且比另一個基于變分自動編碼器的ProLDA模型效果稍微好些。表3是在中文數(shù)據(jù)集上的實驗,也取得了較好的結(jié)果。在實驗中也更加驗證了基于變分自動編碼器的主題模型方法的時間性能普遍優(yōu)于其他方法。
因為主題數(shù)目對于主題的相關(guān)性的影響至關(guān)重要,所以在20 Newsgroups 數(shù)據(jù)集上針對不同的主題數(shù)目計算了主題的相關(guān)性,結(jié)果如圖4所示,當(dāng)主題個數(shù)為50時能夠得到較好的結(jié)果。當(dāng)主題的相關(guān)性隨著主題數(shù)的增加時呈現(xiàn)先增加后減少的趨勢。
圖4 主題個數(shù)對主題相關(guān)性的影響
Fig.4 Influence of topic number on topic relevance
為了查看主題詞的質(zhì)量,在新浪博客數(shù)據(jù)集的實驗中選取5個主題進行顯示,每個主題選擇了概率最大的前10個單詞,如表4所示。通過觀察,可以得知主題分別與電信、金融、體育、電商和美食有關(guān),每一個主題代表著一個類別,且主題之間的交叉性較小。由此可見,本文采用的方法獲得了一定的效果。
從以上的實驗中可以得知,變分自動編碼器融入詞向量的訓(xùn)練主題模型的方法可以得到較好的結(jié)果。
4 結(jié) 語
針對短文本空間稀疏的特點,提出了融入詞向量的主題提取算法,并用自動編碼器和Adam優(yōu)化算法訓(xùn)練模型,在主題訓(xùn)練過程中,嵌入詞向量干預(yù)主題詞的分布。為了提高主題的可解釋性,在用變分自動編碼器訓(xùn)練主題時,利用Laplace方法近似Dirichlet分布。黑盒變分推斷提高了模型的可變性和通用性。實驗表明,筆者提出的模型優(yōu)于一般模型,在困惑度和相關(guān)性上得到了較理想的結(jié)果,同時也發(fā)現(xiàn)該方法運用于長文本也可以取得較好的結(jié)果,但沒有考慮主題隨時間變化這一因素,并且該模型的訓(xùn)練從本質(zhì)上來看仍屬于詞袋模型。未來的工作將考慮在該模型中加入時間序列和先驗知識,同時,考慮訓(xùn)練主題向量,避免詞袋模型的缺點。
參考文獻/References:
[1] HOFMANN T. Probabilistic latent semantic indexing [C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999: 50-57.
[2] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(4/5):993-1022.
[3] ALVAREZMELIS D, SAVESKI M. Topic modeling in twitter: Aggregating tweets by conversations[C]// Eighth International Conference on Signal Image Technology and Internet Based Systems.[S.l.]: IEEE, 2016:710-716.
[4] CHEN R C, SWANSON R, GORDON A S. An adaptation of topic modeling to sentences[J].Computation and Language, ?2016:1607.05818.
[5] ZUO Yuan, WU Junjie, ZHANG Hui, et al. Topic modeling of short texts: A pseudo-document view[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2016:2105-2114.
[6] LI Chenliang, WANG Haoran, ZHANG Zhiqian, et al. Topic modeling for short texts with auxiliary word embeddings[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2016:165-174.
[7] YIN Jianhua, WANG Jianyong. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 22th ACM ?SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2014:233-242.
[8] HUANG Kejun, FU Xiao, SIDIROPOULOS N D. Learning hidden markov models from pairwise Co-occurrences with applications to topic modeling[J].Computation and Language,2018:1802.06894.
[9] PANG Jianhui, LI Xiangsheng, XIE Haoran, et al. SBTM: Topic modeling over short texts[C]// Database Systems for Advanced Applications.[S.l.]: Springer International Publishing, 2016:43-56.
[10]QUAN Xiaojun,KIT Chunyu, GE Yong,et al.Short and sparse text topic modeling via self-aggregation[C]// Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires:AAAI Press, 2015:2270-2276.
[11]WAINWRIGHT M J, JORDAN M I. Graphical models, exponential families, and variational inference[J]. Foundations and Trends ?in Machine Learning, 2008, 1(1/2):1-305.
[12]HE Xingwei, XU Hua, SUN Xiaomin, et al. Optimize collapsed Gibbs sampling for biterm topic model by alias method[C]//International Joint Conference on Neural Networks. Anchorage, AK:IEEE, 2017:1155-1162.
[13]KINGMA D P, WELLING M. Auto-encoding variational bayes[J]. ?Machine Learning, 2014:1312.6114.
[14]MIKOLOV T, CHEN K, CORRADA G, et al. Efficient estimation of word representations in vector space[J]. Machine Learning,2013:1301.3781.
[15]SRIVASTAVA A, SUTTON C. Autoencoding variational inference for topic models[J]. Machine Learning,2017:1703.01488.
[16]孫凌, 韓立新, 勾智楠. 基于變分自動編碼器的動態(tài)主題模型[J]. 河北工業(yè)科技, 2017, 34(6):421-427.
SUN Ling,HAN Linxin,GOU Zhinan.Dynamic topic model based on variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2017,34(6):421-427.
[17]MIAO Y S, YU L, BLUNSOM P. Neural variational inference for text processing[J].Computation and Language,2015:1511.06038.
[18] KINGMA D P, BA J. Adam: A method for stochastic ???optimization[J].
Machine Learning,2015:1412.6980.
[19]LAU J H,NEWMAN D, BALDWIN T. Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality[C]// Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:[s.n.],2014:530-539.