• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞向量和變分自動編碼器的短文本主題模型

    2018-09-10 20:43:12張青韓立新勾智楠
    河北工業(yè)科技 2018年6期

    張青 韓立新 勾智楠

    摘 要:為了解決短文本稀疏性問題,提高主題模型的性能,提出了一種詞向量嵌入的主題模型。首先,假設(shè)一篇文檔只包含一個主題;其次,利用詞向量對每一輪迭代的主題進行擴充與調(diào)整,即對每一個主題,利用一種非參數(shù)化的概率采樣方法得到一些詞,再用詞向量找出相似詞,提升該主題下相似詞的權(quán)重;最后,用拉普拉斯近似主題分布,使其更好地運用在變分自動編碼器訓(xùn)練中,從而加快訓(xùn)練速度。實驗結(jié)果表明,本文模型訓(xùn)練出的主題具有較好的解釋性,并優(yōu)于其他主流的模型,可為短文本的主題提取提供更多的可能。在主題模型訓(xùn)練的過程中,利用詞向量干預(yù)主題詞分布可以得到較好的主題質(zhì)量,并可以通過變分自動編碼器加快訓(xùn)練速度,對自然語言處理問題的研究具有一定的創(chuàng)新性和參考價值。

    關(guān)鍵詞:計算機神經(jīng)網(wǎng)絡(luò);主題模型;詞向量;變分自動編碼器;短文本

    中圖分類號:TP3891 ??文獻標(biāo)志碼:A

    Short text topic model based on word vector and

    variational autoencoder

    ZHANG Qing, HAN Lixin, GOU Zhinan

    (College of Computer and Information, Hohai University, Nanjing, Jiangsu 211100, China)

    Abstract: In order to solve the problem of short text sparsity and improve the performance of the model, a topic model embedded by word vector is proposed. Firstly, that a document contains only one topic is supposed. Secondly, we use word vector to expand and adjust the theme of each iteration. That is to say, for each topic, we use a non-parametric probability sampling method to get some words, and then use word vector to find similar words, so as to enhance the weight of similar words under the topic. Finally, a Laplace approximation to the topic distribution is constructed, so that it is better trained by the variational autoencoder, thus speeding up the training speed. The experimental results show that the model has much more interpretable topics and outperforms other mainstream training models, thus providing more possibilities for the topic extraction of short text. In the process of thematic model training, the use of word vectors to interfere with the distribution of thematic words can achieve better quality of themes, and can speed up the training speed through the variational autoencoder, which has a certain innovation and reference value for the research of natural language processing.

    Keywords: computer neural network; topic model; word vector; variational autoencoder; short text

    在推特、微博和百度知道等網(wǎng)絡(luò)平臺發(fā)展的過程中,短文本層出不窮。同時,短文本在搜索引擎、問答系統(tǒng)和話題跟蹤等領(lǐng)域也發(fā)揮著重要的作用。如何從大量的短文本中挖掘出潛在主題,對于許多需要對文本內(nèi)容進行理解的應(yīng)用至關(guān)重要,例如:用戶興趣建模、評論總結(jié)、文本特征和分類等。

    主題模型被廣泛運用于文本的主題提取,傳統(tǒng)的方法有pLSA[1]和LDA[2],但是對于含有少量詞的短文本來說,由于特征稀疏,這些方法是不容樂觀的。文獻[3—5]利用一些如用戶信息、上下文信息、位置信息或者時間戳信息,對短文本進行匯總,形成長的偽文本,然后運用在傳統(tǒng)的主題模型中。然而這些方法中的附加信息一般很難獲取。文獻[6]限制文檔主題的個數(shù),例如:在Dirichlet Multinomial Mixture(DMM)模型[7]中,文本中的詞都是從一個主題下提取。鑒于短文本內(nèi)容有限,這種合理性的簡化在一定程度上緩解了數(shù)據(jù)稀疏性的問題。文獻[8—10]利用詞的共現(xiàn)信息擴充文本,但是在短文本中即使很相關(guān)的詞共同出現(xiàn)的次數(shù)也會很少,因此利用詞的共現(xiàn)信息擴充文本是受限制的。

    對于每一段文本的理解,不單單是文本內(nèi)容,還有文本的背景知識,比如單詞間的語義信息等。然而,傳統(tǒng)的主題模型是一種詞袋模型,忽略詞序、句法和語法,將其僅僅看作是一個詞的集合。為了解決這一問題,本文將在DMM模型的基礎(chǔ)上利用詞的語義信息解決短文本的稀疏問題。使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練包含語義信息的詞向量,尋找與主題詞向量相似的詞擴充主題信息,讓語義相似的詞更可能地聚集在同一主題下。

    在主題模型中最大的挑戰(zhàn)是計算后驗分布,常見的方式有變分EM算法[11]和Collapsed Gibbs Sampling[12],但是當(dāng)模型發(fā)生細微改變時,變分EM算法需要對迭代更新的公式重新進行復(fù)雜推導(dǎo),缺乏靈活性和擴展性。而Gibbs采樣方法是在每次迭代時需要遍歷所有的數(shù)據(jù),時間成本較高。KINGMA等[13]提出了變分自動編碼器(variational auto-encoder, VAE),利用推理網(wǎng)絡(luò)近似后驗分布,避免了復(fù)雜的數(shù)學(xué)推導(dǎo),提高了訓(xùn)練效率。但是該模型在后驗概率分布為高斯分布的模型中取得較好的結(jié)果,并不能很好地應(yīng)用于主題模型。因此,本文將用拉普拉斯去近似主題分布,再用變分自動編碼器進行訓(xùn)練。

    鑒于以上分析,本文提出了一種基于詞向量和變分自動編碼器的短文本主題模型(以下簡稱WVE-DMM),利用詞向量豐富主題,并通過改變主題分布,將變分自動編碼器更好地應(yīng)用于DMM主題模型中。

    1 相關(guān)工作

    1.1 DMM

    DMM是一個三層概率生成模型,其中包含2個假設(shè),首先假設(shè)文章以一定的概率選擇某個主題,然后再從這個主題下以一定的概率選擇某個詞。不同于LDA模型,該模型假設(shè)一篇文章只有一個主題。換句話說,一篇文章中的所有詞都是來自于一個主題。

    假設(shè)短文本數(shù)據(jù)集有D篇文檔,一共包含K個主題,其中主題服從參數(shù)為α的Dirichlet分布。每篇文檔W都有一個主題k。每個單詞w都是由某個主題下詞的多項式分布獲得。DMM生成文章的步驟如下。

    1)采樣一個主題分布θ~Dirichlet(α);

    2)對于每個主題k∈{1,2,…,K},

    采樣主題-詞分布φk~Dirichler(β);

    3)對于每篇文檔W,

    a)采樣一個主題zd~Multinomial(θ);

    b)對于每個詞,w∈W,

    采樣一個詞w~Multinomial(φzd)。

    文檔W的生成公式如式(1)所示:

    p(W)=[WB]

    ∫θ∑[DD(]Kk=1[DD)]∏w∈W[DD)]p(w|z=k)p(z=k|θ)[JB))]×

    p(θ|α)dθ。(1)

    1.2 詞向量

    采用Google提出的利用深度學(xué)習(xí)訓(xùn)練詞向量的方法。通過網(wǎng)絡(luò)的訓(xùn)練,將詞映射成高維向量,進行詞語特征提取。訓(xùn)練得到的詞向量可以計算詞語間的語法和語義的相似度,例如:

    VAmerica-VWashington≈VChina-VBejing,其中VAmerica表示America的詞向量,即:美國的詞向量減去華盛頓等于中國減去北京。在詞向量訓(xùn)練中,常用的模型有2種:Continuous Bag-of-Words[KG*3](CBOW)和Continuous Skip-Gram (Skip-gram)[14]。這兩種模型區(qū)別在于,CBOW模型是利用上下文預(yù)測中心詞,而Skip-Gram模型是利用當(dāng)前詞去預(yù)測周圍詞。本文選擇的是Skip-Gram模型,如圖1所示,用當(dāng)前的w(t)詞去預(yù)測周圍的2b個詞,參數(shù)b是決定上下文窗口大小的常數(shù)。

    假設(shè)語料中有一組w1,w2,…,wN詞語序列,Skip-Gram模型最大化的目標(biāo)函數(shù)如式(2)所示:

    F=1N∑[DD(]Nt=1[DD)]∑[DD(X]-b≤i≤b,i≠0[DD)] log p(wt+i|wt)。

    (2)1.3 變分自動編碼器(VAE)

    VAE[15]是一種深度生成模型,結(jié)構(gòu)如圖2所示,其思想是利用神經(jīng)網(wǎng)絡(luò)分別對編碼器和解碼器進行建模。生成模型p(x|z;θ)可以看作是解碼器,即將隱變量z映射為可觀測變量x;后驗概率分布p(z|x;θ)的變分近似分布q(z|x;)可以看作是編碼器,即將可觀測變量x映射為隱變量z。其中,θ和為模型參數(shù),均由神經(jīng)網(wǎng)絡(luò)來計算。

    變分自動編碼器的目標(biāo)函數(shù)如式(3)所示:

    L(,θ;x)=Ez~q(z|x;)[log p(x|z;θ)]-

    DKL(q(z|x;)‖p(z;θ))。(3)

    等式右邊的第1項是樣本x在隱變量z服從q(z|x;)分布時的對數(shù)似然函數(shù),即重構(gòu)項,第2項為編碼器中求得的隱變量分布與先驗分布之間的KL散度,類似于正則化項,保證模型具有生成能力。使用隨機梯度下降法訓(xùn)練整個網(wǎng)絡(luò),每次從數(shù)據(jù)集中采集一個樣本x,然后根據(jù)q(z|x;)選擇一個隱變量z,并計算L(,θ;x)的梯度。為了容易求得隨機變量參數(shù)的導(dǎo)數(shù),采用了重新參數(shù)化方法[16-17]。重新參數(shù)化是VAE模型實現(xiàn)反向傳播的重要手段。

    2 融合詞向量和變分自動編碼器的主題模型

    本文提出的模型框架如圖3所示。

    運用DMM模型對短文本進行主題提取,在每一次的訓(xùn)練中,利用自動編碼器進行推斷,對于得到的每個主題,先選取與該主題相關(guān)性比較大的詞,然后利用詞向量計算與該詞語義相似的詞去對主題進行詞嵌入,使得同一個主題下詞的相關(guān)性得到增加。即使這些詞在短文本中沒有共同出現(xiàn)過,但該模型也能有效連接語義相關(guān)的詞。

    2.1 詞嵌入

    為了解決短文本的稀疏性,很多學(xué)者利用詞嵌入的方法去擴充文本主題信息。LI等[6]提出了利用額外的大語料去統(tǒng)計任意2個詞共同出現(xiàn)的次數(shù),并建立一張表,從該表中選取與主題中詞共現(xiàn)次數(shù)比較多的詞來豐富主題。由于表的建立和查詢都需要耗費很多時間,所以該方法時間性能較差,并且也忽略了詞語之間的語義信息。而本文提出利用詞向量去擴充主題,既不需要耗費大量時間去建立表,也不需要消耗大量空間去存儲表,只需要存儲每個詞的向量,同時也能利用詞與詞之間的語義信息。

    本文采用Google公布的訓(xùn)練詞向量的工具word2vector。在訓(xùn)練詞向量時,語料越大,訓(xùn)練出的詞向量越好。中文的詞向量是利用搜狗的語料訓(xùn)練的,而英文的詞向量則直接使用了Google公布的英文詞向量。在每一輪的迭代訓(xùn)練中,利用詞向量選取與主題相關(guān)性比較大的詞來豐富主題。

    在DMM模型中,每一篇短文本都只有一個主題,不同詞在某一主題下的概率是不同的,簡單地選取主題下所有詞的相關(guān)詞來擴充主題是不合理的,這會影響主題的質(zhì)量。例如“神經(jīng)網(wǎng)絡(luò)、感知機、專家、智能、模型、機器、框架、噪聲、有限”這一主題應(yīng)該是和神經(jīng)網(wǎng)絡(luò)相關(guān)的,但是“專家”和“有限”與該主題的相關(guān)性并不是很大。因此,本文提出了一個非參數(shù)化概率采樣策略,相關(guān)公式如下:

    p(z=k|w)=p(z=k)p(w|z=k)∑Ki=1p(z=i)p(w|z=i),(4)

    λ1=p(wi|z=k)∑Ni=1p(wi|z=k),(5)

    λ2=p(z=k|w)·λ1。 ??????(6)

    式(4)表示一個詞w所屬主題z=k的概率,其中,一共有K個主題。式(5)表示在主題k下,詞w所占的比例。式(6)將前2個公式相乘,代表詞w屬于該主題的概率和該主題下詞比例的乘積,該值越大,則詞w與主題越相關(guān)。按照一定閾值或者比例采樣詞,然后利用詞向量計算與該詞相關(guān)性比較大的詞,與其一并放入該主題下。利用詞向量嵌入的方法有效地緩解了主題稀疏性問題。

    2.2 基于變分自動編碼器的訓(xùn)練

    采用基于變分自動編碼器的推斷方法對DMM進行學(xué)習(xí)。在DMM算法中,主題z服從參數(shù)為θ的多項式分布p(z|θ),而θ服從參數(shù)為α的Dirichlet分布p(θ|α)。所以在DMM算法中隱變量包含z和θ??捎^測變量為參數(shù)α,β和文本W(wǎng)。

    在推斷網(wǎng)絡(luò)中,用某個分布去近似隱變量的分布p(θ,z|α),但是在變分自動編碼器中,所有變量都是獨立的,打破了變量θ和z之間的依賴關(guān)系。分別用參數(shù)為γ和的分布去近似θ和z的分布,同時因為θ和z的分布,即多項式分布和Dirichlet分布是共軛的,近似分布函數(shù)可以寫為q(θ,z|γ,)。重寫變分自動編碼器的目標(biāo)函數(shù),如式(7)所示:

    等式右邊的第1項類比于自動編碼器中的重構(gòu)項,第2項為隱變量后驗分布與先驗分布的KL散度。

    針對KL散度中的先驗分布p(θ,z|α),DMM算法中隱變量服從Dirichlet先驗分布,并且Dirichlet先驗的選擇對于主題的可解釋性是至關(guān)重要的。但是Dirichlet分布難以再參數(shù)化,而在變分自動編碼器中再參數(shù)化是隨機變量實現(xiàn)反向傳播的一種重要手段。為了解決這個問題,本文采用Laplace去近似Dirichlet先驗。用Softmax偏差取代該分布,Softmax變量服從一個期望為μ1,斜方差矩陣為Σ1的多元正態(tài)分布,具體如式(8)所示:

    最終用[AKP^](θ|μ1,Σ1)=LN(θ|μ1,Σ1)

    去近似p(θ|α),其中,LN是參數(shù)μ1,Σ1為Logistic正態(tài)分布。式(7)右邊的第2項為編碼過程中用網(wǎng)絡(luò)訓(xùn)練得到的后驗分布q(θ,z|γ,)與先驗分布p(θ,z|α)的KL散度,即q(θ,z|γ,)與LN(θ|μ1,Σ1)的KL散度。

    在VAE的編碼過程中,定義一個網(wǎng)絡(luò)結(jié)構(gòu)來訓(xùn)練fμ和fΣ,其中,fμ和fΣ再參數(shù)化得到參數(shù)ε,并輸出一個K×N的矩陣。當(dāng)VAE訓(xùn)練DMM模型時,對于每一篇文檔W=w1,w2,…,wN,定義一個均值為μ0=fμ(W),協(xié)方差為Σ0=diag(fΣ(W))的Logistic正態(tài)分布q(θ,z|γ,),即q(θ,z|γ,)=LN(θ|μ0,Σ0)。則式(7)中2個高斯分布的KL散度如式(9)所示:

    DKL(q(θ,z|γ,)‖p(θ,z|α))=

    DKL(q(θ,z|γ,)‖[AKP^](θ|μ1,Σ1))=

    DKL(q(θ,z|μ0,Σ0)‖[AKP^](θ|μ1,Σ1))=

    12

    tr(Σ-11Σ0)+(μ1-μ0)TΣ-11(μ1-μ0)-K+[SX(B]

    log|Σ1||Σ0|。(9)

    結(jié)合式(1),將式(7)中的重構(gòu)項寫成如式(10)的形式:

    p(W|z,θ,α,β)=

    ∫θ∏[DD(]Nn=1[DD)]p(wn|zn,βzn)p(zn|θ)p(θ|α)dθ=

    ∏[DD(]Nn=1[DD)]p(wn|zn,βzn)p(zn|θ)σ(μ0+Σ1/20ε)。

    (10)

    其中:p(wn|zd,βzd)和p(zd|θ)為多項式分布。通過采樣ε~N(0,I),可以得到重構(gòu)項。結(jié)合式(9)和式(10),重寫目標(biāo)函數(shù),如式(11)所示:

    L(Θ)=∑[DD(]Dd=1[DD)]-12[JB({]

    tr(Σ-11Σ0)+(μ1-μ0)TΣ-11(μ1-μ0)-K+log

    |Σ1||Σ0|[JB)}]+

    Eε~N(0,I)log

    ∏[DD(]Nn=1[DD)]p(wn|zn,βzn)p(zn|θ)σ(μ0+Σ1/20ε)。

    (11)

    Θ是網(wǎng)絡(luò)參數(shù)和輸入文本W(wǎng)1,W2,…,WD。每次從數(shù)據(jù)集中采樣一篇文檔,然后在編碼層得到主題分布的均值和方法,運用重新參數(shù)化方法,通過采樣ε~N(0,I),得到θ=σ(μ0+Σ1/20ε),并計算L(Θ)的梯度。

    用AVE進行模型訓(xùn)練時,容易陷入局部最優(yōu),所以在優(yōu)化模型時選擇了Adam(adaptive moment estimation)[18]算法。該算法可以避免陷入局部最優(yōu)并且有較快的訓(xùn)練速度。

    3 實驗過程

    3.1 實驗數(shù)據(jù)

    實驗采用的是新浪博客數(shù)據(jù)集和20 Newsgroups數(shù)據(jù)集。新浪博客中包含18 166篇文章,共有37 689個不同的詞。20 Newsgroups數(shù)據(jù)集因為不屬于短文本,所以在通過一系列的預(yù)處理,包括去停用詞、提取主干等,運用tf-idf技術(shù)從每篇文本中選取20個詞,最后得到11 258篇文章,其中包含1 695個不同的單詞。

    3.2 評估方法

    分別采用2種主題模型的度量方法。傳統(tǒng)的度量方法是主題模型困惑度(Perplexity)。困惑度的計算公式如下:

    Perplexity(C)=exp[JB({]-∑Dd=1log p(Wd)∑Dd=1Nd。

    (12)

    其中:C表示語料庫中的測試集,共D篇文檔;Nd表示每篇文檔d中的單詞數(shù);Wd表示文檔d中的詞;p(Wd)即文檔中詞Wd產(chǎn)生的概率,該值越小越好。

    此外,LAU等[19]提出了一個新的評判標(biāo)準(zhǔn),歸一化點互信息(normalized pointwise mutual information,NPMI),其計算公式如下:

    NPMI(t)=∑[DD(]M-1i=1[DD)]∑[DD(]Mj=i+1[DD)]logp(wi,wj)p(wi)p(wj)

    -log p(wi,wj)。 ?(13)

    在NPMI評價方法中,NPMI(t)表示主題t的相關(guān)性,取主題t的top-M主題詞集w1,w2,…,wM進行計算,最后取K個主題的平均主題相關(guān)性作為評估指標(biāo),平均主題相關(guān)性越大,表示模型越優(yōu)。

    3.3 結(jié)果分析

    為了驗證本文提出的模型準(zhǔn)確度,選取了以下幾個流行模型進行對比實驗。

    LDA:latent dirichlet allocation(LDA)是Blei于2003年提出的挖掘文本語料隱含主題的方法,使用Gibbs采樣法進行后驗推斷。

    DMM:本文采取的原始模型,采用EM算法進行參數(shù)估計。

    NVDM:用神經(jīng)網(wǎng)絡(luò)推斷后驗的一種方式。其中隱層節(jié)點為100,學(xué)習(xí)率為0.05,迭代次數(shù)為100。

    ProLDA:基于變分貝葉斯自動編碼器主題模型,同樣采用變分自動編碼器進行推斷學(xué)習(xí),設(shè)置了2層網(wǎng)絡(luò),隱層節(jié)點一共有200個,學(xué)習(xí)率為0.005。

    當(dāng)訓(xùn)練集選擇20 Newsgroups時,將主題個數(shù)分別設(shè)置為50和100,當(dāng)采用新浪博客數(shù)據(jù)集時,將主題個數(shù)設(shè)置為10。實驗結(jié)果將用困惑度和相關(guān)性這兩個評價指標(biāo)進行分析,結(jié)果如表1—表3所示。

    本文模型中設(shè)置的學(xué)習(xí)率為0.002,迭代次數(shù)為300次。生成網(wǎng)絡(luò)中設(shè)置了兩層均含有100個節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)。在表1中,雖然本文模型在困惑度上沒有基于Gibbs采樣的LDA好,但是相較于變分推斷算法,效果有所提升。同時也發(fā)現(xiàn)NVDM算法對實驗參數(shù)和實驗環(huán)境的要求比較高,導(dǎo)致實現(xiàn)該算法結(jié)果與原論文有一定的差距。從表2可以看出本文的模型優(yōu)于DMM,并且比另一個基于變分自動編碼器的ProLDA模型效果稍微好些。表3是在中文數(shù)據(jù)集上的實驗,也取得了較好的結(jié)果。在實驗中也更加驗證了基于變分自動編碼器的主題模型方法的時間性能普遍優(yōu)于其他方法。

    因為主題數(shù)目對于主題的相關(guān)性的影響至關(guān)重要,所以在20 Newsgroups 數(shù)據(jù)集上針對不同的主題數(shù)目計算了主題的相關(guān)性,結(jié)果如圖4所示,當(dāng)主題個數(shù)為50時能夠得到較好的結(jié)果。當(dāng)主題的相關(guān)性隨著主題數(shù)的增加時呈現(xiàn)先增加后減少的趨勢。

    圖4 主題個數(shù)對主題相關(guān)性的影響

    Fig.4 Influence of topic number on topic relevance

    為了查看主題詞的質(zhì)量,在新浪博客數(shù)據(jù)集的實驗中選取5個主題進行顯示,每個主題選擇了概率最大的前10個單詞,如表4所示。通過觀察,可以得知主題分別與電信、金融、體育、電商和美食有關(guān),每一個主題代表著一個類別,且主題之間的交叉性較小。由此可見,本文采用的方法獲得了一定的效果。

    從以上的實驗中可以得知,變分自動編碼器融入詞向量的訓(xùn)練主題模型的方法可以得到較好的結(jié)果。

    4 結(jié) 語

    針對短文本空間稀疏的特點,提出了融入詞向量的主題提取算法,并用自動編碼器和Adam優(yōu)化算法訓(xùn)練模型,在主題訓(xùn)練過程中,嵌入詞向量干預(yù)主題詞的分布。為了提高主題的可解釋性,在用變分自動編碼器訓(xùn)練主題時,利用Laplace方法近似Dirichlet分布。黑盒變分推斷提高了模型的可變性和通用性。實驗表明,筆者提出的模型優(yōu)于一般模型,在困惑度和相關(guān)性上得到了較理想的結(jié)果,同時也發(fā)現(xiàn)該方法運用于長文本也可以取得較好的結(jié)果,但沒有考慮主題隨時間變化這一因素,并且該模型的訓(xùn)練從本質(zhì)上來看仍屬于詞袋模型。未來的工作將考慮在該模型中加入時間序列和先驗知識,同時,考慮訓(xùn)練主題向量,避免詞袋模型的缺點。

    參考文獻/References:

    [1] HOFMANN T. Probabilistic latent semantic indexing [C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999: 50-57.

    [2] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(4/5):993-1022.

    [3] ALVAREZMELIS D, SAVESKI M. Topic modeling in twitter: Aggregating tweets by conversations[C]// Eighth International Conference on Signal Image Technology and Internet Based Systems.[S.l.]: IEEE, 2016:710-716.

    [4] CHEN R C, SWANSON R, GORDON A S. An adaptation of topic modeling to sentences[J].Computation and Language, ?2016:1607.05818.

    [5] ZUO Yuan, WU Junjie, ZHANG Hui, et al. Topic modeling of short texts: A pseudo-document view[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2016:2105-2114.

    [6] LI Chenliang, WANG Haoran, ZHANG Zhiqian, et al. Topic modeling for short texts with auxiliary word embeddings[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2016:165-174.

    [7] YIN Jianhua, WANG Jianyong. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 22th ACM ?SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2014:233-242.

    [8] HUANG Kejun, FU Xiao, SIDIROPOULOS N D. Learning hidden markov models from pairwise Co-occurrences with applications to topic modeling[J].Computation and Language,2018:1802.06894.

    [9] PANG Jianhui, LI Xiangsheng, XIE Haoran, et al. SBTM: Topic modeling over short texts[C]// Database Systems for Advanced Applications.[S.l.]: Springer International Publishing, 2016:43-56.

    [10]QUAN Xiaojun,KIT Chunyu, GE Yong,et al.Short and sparse text topic modeling via self-aggregation[C]// Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires:AAAI Press, 2015:2270-2276.

    [11]WAINWRIGHT M J, JORDAN M I. Graphical models, exponential families, and variational inference[J]. Foundations and Trends ?in Machine Learning, 2008, 1(1/2):1-305.

    [12]HE Xingwei, XU Hua, SUN Xiaomin, et al. Optimize collapsed Gibbs sampling for biterm topic model by alias method[C]//International Joint Conference on Neural Networks. Anchorage, AK:IEEE, 2017:1155-1162.

    [13]KINGMA D P, WELLING M. Auto-encoding variational bayes[J]. ?Machine Learning, 2014:1312.6114.

    [14]MIKOLOV T, CHEN K, CORRADA G, et al. Efficient estimation of word representations in vector space[J]. Machine Learning,2013:1301.3781.

    [15]SRIVASTAVA A, SUTTON C. Autoencoding variational inference for topic models[J]. Machine Learning,2017:1703.01488.

    [16]孫凌, 韓立新, 勾智楠. 基于變分自動編碼器的動態(tài)主題模型[J]. 河北工業(yè)科技, 2017, 34(6):421-427.

    SUN Ling,HAN Linxin,GOU Zhinan.Dynamic topic model based on variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2017,34(6):421-427.

    [17]MIAO Y S, YU L, BLUNSOM P. Neural variational inference for text processing[J].Computation and Language,2015:1511.06038.

    [18] KINGMA D P, BA J. Adam: A method for stochastic ???optimization[J].

    Machine Learning,2015:1412.6980.

    [19]LAU J H,NEWMAN D, BALDWIN T. Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality[C]// Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:[s.n.],2014:530-539.

    午夜激情av网站| 亚洲 欧美一区二区三区| 成人免费观看视频高清| 国产成年人精品一区二区| 久久狼人影院| 男女做爰动态图高潮gif福利片 | 欧美色欧美亚洲另类二区 | av电影中文网址| 亚洲欧美精品综合久久99| 久久精品91无色码中文字幕| 精品久久久久久久毛片微露脸| 变态另类丝袜制服| 国产主播在线观看一区二区| 亚洲国产欧美日韩在线播放| 一边摸一边做爽爽视频免费| 91九色精品人成在线观看| 久久热在线av| 国产亚洲欧美精品永久| 男人的好看免费观看在线视频 | 精品久久久久久久久久免费视频| 很黄的视频免费| 国产成人一区二区三区免费视频网站| 日韩有码中文字幕| 非洲黑人性xxxx精品又粗又长| 人人妻人人澡人人看| 亚洲av电影不卡..在线观看| 女人精品久久久久毛片| 后天国语完整版免费观看| 免费观看人在逋| 久久久国产精品麻豆| 88av欧美| 久久国产精品男人的天堂亚洲| 国产精品影院久久| 午夜视频精品福利| 精品少妇一区二区三区视频日本电影| 成人精品一区二区免费| 黄色毛片三级朝国网站| 99精品在免费线老司机午夜| 正在播放国产对白刺激| 精品熟女少妇八av免费久了| 成人手机av| www.www免费av| 亚洲精品久久国产高清桃花| 色综合站精品国产| 在线视频色国产色| av电影中文网址| 人妻久久中文字幕网| 免费搜索国产男女视频| 亚洲av电影在线进入| 亚洲,欧美精品.| 久久精品国产亚洲av香蕉五月| 亚洲国产毛片av蜜桃av| 国产又爽黄色视频| 国产真人三级小视频在线观看| 美女午夜性视频免费| 丁香欧美五月| 久久精品国产清高在天天线| 在线观看一区二区三区| 国产91精品成人一区二区三区| 国产精品二区激情视频| 叶爱在线成人免费视频播放| 露出奶头的视频| 亚洲精华国产精华精| av在线天堂中文字幕| 久久精品国产清高在天天线| 色在线成人网| 一级a爱视频在线免费观看| 国产成人精品久久二区二区免费| 色综合欧美亚洲国产小说| 久久久国产成人免费| 夜夜爽天天搞| 国产成人精品无人区| 久久中文字幕一级| 免费看a级黄色片| 久久国产精品人妻蜜桃| 欧美乱妇无乱码| 精品欧美国产一区二区三| 国产精华一区二区三区| 又大又爽又粗| 别揉我奶头~嗯~啊~动态视频| 午夜福利视频1000在线观看 | 国产精品99久久99久久久不卡| 色综合婷婷激情| 免费在线观看日本一区| 精品久久久精品久久久| 日韩精品中文字幕看吧| 激情视频va一区二区三区| 久久人人97超碰香蕉20202| 色婷婷久久久亚洲欧美| 亚洲三区欧美一区| 麻豆成人av在线观看| 色播在线永久视频| 久久国产精品人妻蜜桃| 男男h啪啪无遮挡| 国产精品一区二区免费欧美| 亚洲男人的天堂狠狠| 国产精品亚洲av一区麻豆| 很黄的视频免费| a级毛片在线看网站| 成人免费观看视频高清| 欧美午夜高清在线| 免费少妇av软件| 搡老岳熟女国产| 久久国产精品男人的天堂亚洲| 午夜免费观看网址| avwww免费| 午夜激情av网站| netflix在线观看网站| 禁无遮挡网站| 欧美日韩一级在线毛片| 中出人妻视频一区二区| 国产成人啪精品午夜网站| 高潮久久久久久久久久久不卡| 十分钟在线观看高清视频www| 无人区码免费观看不卡| svipshipincom国产片| 久久国产精品人妻蜜桃| 最近最新中文字幕大全电影3 | 变态另类丝袜制服| 欧美黑人精品巨大| 欧美老熟妇乱子伦牲交| 国产精品久久久久久精品电影 | 久久香蕉国产精品| 搡老妇女老女人老熟妇| 一区二区三区精品91| 欧美日韩福利视频一区二区| 欧美丝袜亚洲另类 | 在线观看免费视频日本深夜| 男人舔女人的私密视频| avwww免费| 日韩欧美一区二区三区在线观看| 黄色视频,在线免费观看| 欧美乱妇无乱码| 法律面前人人平等表现在哪些方面| 免费观看精品视频网站| 老司机在亚洲福利影院| 国产精品久久久av美女十八| 男女之事视频高清在线观看| 亚洲欧美激情综合另类| 啦啦啦观看免费观看视频高清 | 长腿黑丝高跟| 嫁个100分男人电影在线观看| 国产精品亚洲av一区麻豆| 99久久精品国产亚洲精品| 成年女人毛片免费观看观看9| 久久午夜综合久久蜜桃| 国产免费男女视频| 亚洲午夜精品一区,二区,三区| 一本大道久久a久久精品| 一级毛片精品| 欧美最黄视频在线播放免费| 精品日产1卡2卡| 国产97色在线日韩免费| 在线观看日韩欧美| 国产精品美女特级片免费视频播放器 | 男人操女人黄网站| 天堂√8在线中文| 久久中文字幕人妻熟女| av在线天堂中文字幕| 久久久国产精品麻豆| 亚洲精品美女久久久久99蜜臀| 亚洲第一青青草原| 精品国产一区二区三区四区第35| 纯流量卡能插随身wifi吗| 亚洲一区二区三区不卡视频| 少妇的丰满在线观看| 九色国产91popny在线| 天天一区二区日本电影三级 | 嫁个100分男人电影在线观看| 亚洲男人的天堂狠狠| 久久国产亚洲av麻豆专区| 午夜两性在线视频| 欧美+亚洲+日韩+国产| 黄色女人牲交| 国产伦人伦偷精品视频| 国内精品久久久久久久电影| 精品国产乱子伦一区二区三区| 亚洲国产高清在线一区二区三 | 成人av一区二区三区在线看| 黄色女人牲交| 高清黄色对白视频在线免费看| e午夜精品久久久久久久| 不卡av一区二区三区| 黄色女人牲交| 国产97色在线日韩免费| 中文亚洲av片在线观看爽| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲精品国产色婷婷电影| 大型黄色视频在线免费观看| 久久天躁狠狠躁夜夜2o2o| 啦啦啦观看免费观看视频高清 | 亚洲avbb在线观看| 天天躁夜夜躁狠狠躁躁| 大香蕉久久成人网| 成年版毛片免费区| av有码第一页| 在线观看日韩欧美| 欧美日韩精品网址| 国产精品精品国产色婷婷| 99久久综合精品五月天人人| 欧美+亚洲+日韩+国产| 母亲3免费完整高清在线观看| 日韩大尺度精品在线看网址 | 成人18禁高潮啪啪吃奶动态图| 嫩草影视91久久| 51午夜福利影视在线观看| 成人三级做爰电影| 高潮久久久久久久久久久不卡| 99riav亚洲国产免费| 99riav亚洲国产免费| 多毛熟女@视频| 看黄色毛片网站| 12—13女人毛片做爰片一| 精品国产美女av久久久久小说| 亚洲av熟女| 91麻豆av在线| 欧美国产精品va在线观看不卡| 国产野战对白在线观看| 欧美日韩亚洲综合一区二区三区_| 国产97色在线日韩免费| 国产精品乱码一区二三区的特点 | 大香蕉久久成人网| 人妻丰满熟妇av一区二区三区| 中文亚洲av片在线观看爽| 在线永久观看黄色视频| 桃色一区二区三区在线观看| 99国产精品一区二区三区| 99re在线观看精品视频| e午夜精品久久久久久久| 精品国产亚洲在线| 狠狠狠狠99中文字幕| 最近最新中文字幕大全电影3 | 少妇被粗大的猛进出69影院| 成人国语在线视频| 国产精品影院久久| 波多野结衣一区麻豆| 亚洲色图av天堂| 国产成人精品在线电影| 午夜免费鲁丝| 欧美激情 高清一区二区三区| 久久草成人影院| 12—13女人毛片做爰片一| 一个人观看的视频www高清免费观看 | 国产亚洲精品久久久久久毛片| 免费观看人在逋| 国产精品 欧美亚洲| 欧美绝顶高潮抽搐喷水| 亚洲精品一卡2卡三卡4卡5卡| 韩国av一区二区三区四区| 悠悠久久av| 欧美日本中文国产一区发布| 一区二区三区精品91| 两个人看的免费小视频| 国产一级毛片七仙女欲春2 | 久久国产乱子伦精品免费另类| 国产精品久久久久久人妻精品电影| 国产亚洲欧美精品永久| 午夜福利影视在线免费观看| 黄色 视频免费看| 91精品三级在线观看| 最近最新免费中文字幕在线| 亚洲国产精品久久男人天堂| 又紧又爽又黄一区二区| 成人三级黄色视频| 满18在线观看网站| www.熟女人妻精品国产| 亚洲色图av天堂| 欧美黑人精品巨大| 亚洲人成电影观看| 9色porny在线观看| 亚洲精品在线美女| 精品国产美女av久久久久小说| 国产精华一区二区三区| 在线国产一区二区在线| 亚洲中文av在线| 国产片内射在线| 免费少妇av软件| 国产麻豆69| 亚洲精品中文字幕在线视频| 麻豆av在线久日| 在线十欧美十亚洲十日本专区| 国产三级黄色录像| 精品国产乱子伦一区二区三区| 国产av一区二区精品久久| 久久久久久亚洲精品国产蜜桃av| 嫩草影视91久久| 两性夫妻黄色片| 久热爱精品视频在线9| 久久人妻福利社区极品人妻图片| 精品久久久久久久人妻蜜臀av | 人妻久久中文字幕网| 12—13女人毛片做爰片一| 日韩欧美免费精品| 国产成人精品久久二区二区免费| 麻豆成人av在线观看| 亚洲,欧美精品.| 亚洲国产精品久久男人天堂| 午夜a级毛片| 桃色一区二区三区在线观看| 国产一区二区三区视频了| 国产精品爽爽va在线观看网站 | 1024香蕉在线观看| 视频在线观看一区二区三区| 久久影院123| 老汉色∧v一级毛片| 长腿黑丝高跟| 亚洲人成伊人成综合网2020| 亚洲最大成人中文| 在线永久观看黄色视频| 波多野结衣一区麻豆| 久久精品国产综合久久久| 日韩精品免费视频一区二区三区| 久久天躁狠狠躁夜夜2o2o| 日韩大尺度精品在线看网址 | bbb黄色大片| 国产一级毛片七仙女欲春2 | 啦啦啦观看免费观看视频高清 | 在线国产一区二区在线| 露出奶头的视频| 国产成人免费无遮挡视频| 少妇被粗大的猛进出69影院| 中文字幕人妻熟女乱码| 纯流量卡能插随身wifi吗| 成年人黄色毛片网站| 久久香蕉精品热| 久久久久久久久久久久大奶| 国产精品免费视频内射| 亚洲精品久久国产高清桃花| 国产亚洲精品久久久久久毛片| 一级片免费观看大全| 天天一区二区日本电影三级 | 少妇 在线观看| 免费人成视频x8x8入口观看| 欧美不卡视频在线免费观看 | 国产av精品麻豆| 波多野结衣巨乳人妻| 日韩三级视频一区二区三区| 国产1区2区3区精品| 变态另类丝袜制服| 波多野结衣巨乳人妻| 啦啦啦 在线观看视频| 久久久久久久久免费视频了| 国产欧美日韩精品亚洲av| 淫妇啪啪啪对白视频| 国产一卡二卡三卡精品| 国产日韩一区二区三区精品不卡| 国产成年人精品一区二区| 九色国产91popny在线| 在线永久观看黄色视频| 国产日韩一区二区三区精品不卡| 国产精品二区激情视频| 日日夜夜操网爽| 天堂√8在线中文| 午夜免费鲁丝| 女生性感内裤真人,穿戴方法视频| 日韩大尺度精品在线看网址 | 欧美乱色亚洲激情| 高清黄色对白视频在线免费看| 亚洲va日本ⅴa欧美va伊人久久| 精品国产乱码久久久久久男人| 好看av亚洲va欧美ⅴa在| 精品久久久久久久毛片微露脸| 亚洲中文日韩欧美视频| 黄色女人牲交| 亚洲欧美精品综合久久99| 亚洲国产精品999在线| 桃色一区二区三区在线观看| 国产在线观看jvid| 国产精品久久电影中文字幕| 久久精品国产亚洲av香蕉五月| 多毛熟女@视频| 午夜福利一区二区在线看| 丰满人妻熟妇乱又伦精品不卡| 亚洲精品久久成人aⅴ小说| 欧洲精品卡2卡3卡4卡5卡区| 久久精品国产清高在天天线| 夜夜躁狠狠躁天天躁| 岛国视频午夜一区免费看| 久久影院123| 18禁国产床啪视频网站| 久久国产精品人妻蜜桃| 国产黄a三级三级三级人| 中文字幕av电影在线播放| 成人免费观看视频高清| 国产伦一二天堂av在线观看| 亚洲欧美一区二区三区黑人| 美女国产高潮福利片在线看| 电影成人av| 一级黄色大片毛片| 在线观看免费日韩欧美大片| 12—13女人毛片做爰片一| 操出白浆在线播放| 精品电影一区二区在线| 很黄的视频免费| 午夜影院日韩av| 精品久久蜜臀av无| 亚洲精品久久成人aⅴ小说| 丰满人妻熟妇乱又伦精品不卡| 亚洲激情在线av| 最新美女视频免费是黄的| 国产一卡二卡三卡精品| 99精品在免费线老司机午夜| 黑丝袜美女国产一区| 欧美乱码精品一区二区三区| 99国产精品一区二区蜜桃av| 精品少妇一区二区三区视频日本电影| 真人一进一出gif抽搐免费| 午夜精品国产一区二区电影| aaaaa片日本免费| 涩涩av久久男人的天堂| 欧美日韩亚洲国产一区二区在线观看| 国产91精品成人一区二区三区| 高清在线国产一区| 波多野结衣av一区二区av| 久久草成人影院| 日韩精品免费视频一区二区三区| 最近最新中文字幕大全电影3 | 免费观看人在逋| 亚洲一区中文字幕在线| 久久久久久久久久久久大奶| 999久久久精品免费观看国产| 在线观看日韩欧美| 久久久国产欧美日韩av| 欧美国产日韩亚洲一区| 天堂动漫精品| 国产亚洲精品av在线| 亚洲欧美一区二区三区黑人| 亚洲欧美日韩另类电影网站| 99精品久久久久人妻精品| 久久久久亚洲av毛片大全| 在线av久久热| 国产av一区二区精品久久| 国产在线精品亚洲第一网站| 90打野战视频偷拍视频| 99国产精品一区二区三区| a级毛片在线看网站| 精品一区二区三区视频在线观看免费| 美女 人体艺术 gogo| 亚洲精品一区av在线观看| 亚洲第一欧美日韩一区二区三区| 久久天堂一区二区三区四区| 脱女人内裤的视频| 中文字幕另类日韩欧美亚洲嫩草| 97人妻天天添夜夜摸| 给我免费播放毛片高清在线观看| 天天躁夜夜躁狠狠躁躁| 亚洲欧美精品综合久久99| 免费av毛片视频| 淫妇啪啪啪对白视频| 露出奶头的视频| 午夜两性在线视频| 91国产中文字幕| 18禁观看日本| www国产在线视频色| av在线播放免费不卡| 国产高清videossex| 99热只有精品国产| 精品高清国产在线一区| 亚洲av第一区精品v没综合| 又紧又爽又黄一区二区| 女警被强在线播放| 精品国产一区二区三区四区第35| 人人澡人人妻人| 亚洲人成77777在线视频| 又黄又爽又免费观看的视频| 禁无遮挡网站| 女人高潮潮喷娇喘18禁视频| 国产精品永久免费网站| 美女 人体艺术 gogo| 久久久国产欧美日韩av| 国产高清videossex| 啦啦啦 在线观看视频| 国产精品亚洲美女久久久| 啪啪无遮挡十八禁网站| 99久久久亚洲精品蜜臀av| 美女 人体艺术 gogo| 中文字幕人成人乱码亚洲影| 亚洲欧美日韩高清在线视频| 欧美激情高清一区二区三区| 亚洲av五月六月丁香网| 别揉我奶头~嗯~啊~动态视频| 村上凉子中文字幕在线| 制服人妻中文乱码| 亚洲av日韩精品久久久久久密| 免费在线观看视频国产中文字幕亚洲| 一本久久中文字幕| 女人高潮潮喷娇喘18禁视频| 色尼玛亚洲综合影院| 啦啦啦 在线观看视频| 亚洲自偷自拍图片 自拍| 丝袜人妻中文字幕| 乱人伦中国视频| 日韩欧美在线二视频| 亚洲久久久国产精品| 咕卡用的链子| 国产成人影院久久av| 日韩免费av在线播放| 最新在线观看一区二区三区| 久久精品国产亚洲av香蕉五月| 日韩欧美在线二视频| 丰满的人妻完整版| 国产精品野战在线观看| 日韩av在线大香蕉| 久久婷婷成人综合色麻豆| 性欧美人与动物交配| 精品国产美女av久久久久小说| 真人做人爱边吃奶动态| 久久久久久久久久久久大奶| 18禁观看日本| 国产精品 欧美亚洲| 亚洲中文av在线| 曰老女人黄片| 国产欧美日韩综合在线一区二区| 国产精品香港三级国产av潘金莲| 99精品在免费线老司机午夜| av视频在线观看入口| 黄色 视频免费看| 久久久久国产一级毛片高清牌| 午夜福利,免费看| 9191精品国产免费久久| 这个男人来自地球电影免费观看| 亚洲精品在线观看二区| 成人18禁在线播放| 亚洲狠狠婷婷综合久久图片| 侵犯人妻中文字幕一二三四区| 国产极品粉嫩免费观看在线| 男女做爰动态图高潮gif福利片 | 国产精品二区激情视频| 99国产精品一区二区三区| tocl精华| 欧美在线黄色| 日韩大尺度精品在线看网址 | 国产一区二区三区视频了| 国产成人欧美在线观看| 美女高潮喷水抽搐中文字幕| 国产亚洲精品综合一区在线观看 | 亚洲七黄色美女视频| 精品国产超薄肉色丝袜足j| 首页视频小说图片口味搜索| 中文字幕人妻丝袜一区二区| 欧美性长视频在线观看| 午夜精品久久久久久毛片777| 精品国产一区二区三区四区第35| 99精品在免费线老司机午夜| 啪啪无遮挡十八禁网站| 亚洲av成人不卡在线观看播放网| 久久伊人香网站| 亚洲狠狠婷婷综合久久图片| 亚洲成人免费电影在线观看| 欧美中文日本在线观看视频| 天堂√8在线中文| 欧美不卡视频在线免费观看 | 男女之事视频高清在线观看| 一级毛片精品| 波多野结衣高清无吗| 可以免费在线观看a视频的电影网站| 久久婷婷人人爽人人干人人爱 | 日韩欧美一区视频在线观看| 精品久久久久久久久久免费视频| 视频区欧美日本亚洲| 91在线观看av| 亚洲av熟女| 国产午夜福利久久久久久| 久久久国产成人免费| 成人国产一区最新在线观看| 亚洲成a人片在线一区二区| 亚洲国产看品久久| 精品日产1卡2卡| 亚洲国产毛片av蜜桃av| 亚洲av电影不卡..在线观看| 99热只有精品国产| 久久国产亚洲av麻豆专区| 国产精品自产拍在线观看55亚洲| 国产熟女xx| 久久精品国产亚洲av高清一级| 9热在线视频观看99| 18禁裸乳无遮挡免费网站照片 | 精品久久久久久久人妻蜜臀av | 亚洲第一欧美日韩一区二区三区| 在线观看免费视频网站a站| 亚洲天堂国产精品一区在线| 99国产精品免费福利视频| 久久久久久久久中文| 欧美成人性av电影在线观看| 侵犯人妻中文字幕一二三四区| tocl精华| 亚洲少妇的诱惑av| 精品久久久久久成人av| 亚洲视频免费观看视频| 久久 成人 亚洲| 免费女性裸体啪啪无遮挡网站| 又黄又爽又免费观看的视频| 国产成人影院久久av| 午夜福利高清视频| 狂野欧美激情性xxxx| 久热这里只有精品99| 国产成人av激情在线播放| 美女高潮到喷水免费观看| 又黄又粗又硬又大视频| 在线观看免费午夜福利视频| 男女做爰动态图高潮gif福利片 | АⅤ资源中文在线天堂| 变态另类成人亚洲欧美熟女 | 亚洲,欧美精品.| 久久久久国产精品人妻aⅴ院| 国产国语露脸激情在线看| 亚洲成人国产一区在线观看| 欧美日韩瑟瑟在线播放| 很黄的视频免费| 长腿黑丝高跟| 精品少妇一区二区三区视频日本电影| 少妇的丰满在线观看| 琪琪午夜伦伦电影理论片6080| 亚洲 欧美 日韩 在线 免费| 色av中文字幕|