劉 剛,王同禮,唐宏偉,戰(zhàn) 凱,楊雯莉
1.哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001
2.哈爾濱工程大學(xué) 電子政務(wù)建模仿真國(guó)家工程實(shí)驗(yàn)室,哈爾濱 150001
3.澳大利亞普華永道公司 普華永道數(shù)字化部,悉尼 2070
主題模型(topic model)是一種通過非監(jiān)督學(xué)習(xí)的方式對(duì)文本隱含語(yǔ)義結(jié)構(gòu)進(jìn)行聚類,從而發(fā)現(xiàn)潛在主題的方法,該模型的輸入通常是一個(gè)文本集合,輸出則是每個(gè)文本在若干主題上的分布。通過產(chǎn)生可解釋的主題,可以將其應(yīng)用到文本分類、情感分析、推薦系統(tǒng)等眾多領(lǐng)域中。隨著深度學(xué)習(xí)的發(fā)展,變分自編碼器(variational auto-encoders,VAE)為主題建模提供了一種有前景的解決方案[1]。VAE框架能夠很好地學(xué)習(xí)復(fù)雜的非線性分布,便于應(yīng)用于各種任務(wù)。如Rezaee等人[2]提出了一種沒有重參數(shù)化技巧的離散變分循環(huán)主題模型,通過使用神經(jīng)變分推理對(duì)每個(gè)單詞的指定主題進(jìn)行顯式建模的方法。Panwar 等人[3]提出了面向主題注意網(wǎng)絡(luò)的神經(jīng)主題模型,LSTM的輸出用于執(zhí)行變分推理。與基于變分推理或吉布斯抽樣的模型相比,采用反向傳播優(yōu)化的VAE 訓(xùn)練效率更高[4]。盡管基于VAE 的神經(jīng)主題模型大大降低了計(jì)算代價(jià),但在短文本中仍然存在特征稀疏性問題。短文本數(shù)據(jù)中,每個(gè)文本中出現(xiàn)的單詞數(shù)量相對(duì)較少,而語(yǔ)料庫(kù)對(duì)應(yīng)的詞匯量較大,主題的范圍較廣。Glove[5]等詞向量技術(shù)可以對(duì)短文本的稀疏特征進(jìn)行補(bǔ)充,而Zhao[6]與Zhu[7]等人使用文檔聚合的方式在原有文本的基礎(chǔ)上進(jìn)行信息擴(kuò)充。此外Peng 等人[8]嘗試對(duì)短文本進(jìn)行相關(guān)性約束。Li等人[9]針對(duì)有噪聲的單詞導(dǎo)致文檔級(jí)的主題表示不準(zhǔn)確的問題,提出了一個(gè)新穎的LapDMM 主題模型,通過保持短文本的局部鄰域結(jié)構(gòu)來緩解這一問題,使主題信號(hào)在相鄰文檔之間傳播,從而糾正不準(zhǔn)確的主題表示,因此模型的主題一致性指標(biāo)有了很大的提升。此外,詞嵌入可以捕獲單詞之間的語(yǔ)義特征[10],使具有意義相似的單詞在嵌入空間中距離也相近,因此Dieng[11]和Gupta[12]等學(xué)者將詞嵌入應(yīng)用到短文本主題建模中,進(jìn)而豐富短文本信息。Li 等人[13]提出了一種用于短文本建模的GPU-DMM模型,在采樣過程中采用了廣義Polya Urn(GPU)模型,利用輔助詞向量來豐富主題建模并引入背景知識(shí)來有效地增強(qiáng)語(yǔ)義關(guān)系。Zhao 等人[14]提出了一種結(jié)合詞向量表示和實(shí)體向量表示的變分自編碼主題模型,通過使用一個(gè)大規(guī)模的外部語(yǔ)料庫(kù)和一個(gè)大規(guī)模的知識(shí)圖來學(xué)習(xí)每個(gè)詞和每個(gè)實(shí)體的嵌入表示,然后將嵌入表示集成到變分自編碼框架中來推斷主題分布的潛在表示。
本文從利用主題的稀疏約束特性和短文本中的上下文信息的角度出發(fā),通過引入主題控制器過濾掉不相關(guān)的主題,提供主題的稀疏約束特性,同時(shí)基于拼接句子的向量特征表示以及融合詞嵌入的高斯解碼器,對(duì)于短文檔本身內(nèi)容進(jìn)行擴(kuò)充,以提高文本所含的信息量。ECNTM以這兩種方式彌補(bǔ)短文本所缺少的主題稀疏約束特性以及詞共現(xiàn)信息,進(jìn)而提高主題建模的準(zhǔn)確率。
本文的貢獻(xiàn)可以總結(jié)如下:
(1)通過主題控制器引入主題的稀疏約束特性。在變分自編碼器(VAE)框架中使用Beta 分布進(jìn)行主題過濾,并提出拒絕抽樣的變分推理算法完成推理網(wǎng)絡(luò)的重參數(shù)化過程。
(2)通過句子嵌入以及詞嵌入特征豐富文本信息。拼接詞袋模型生成的BOW(bag-of-words)向量與預(yù)訓(xùn)練句子嵌入特征向量,豐富短文本信息。進(jìn)而通過在高斯解碼器中融入詞嵌入特征,生成每一個(gè)主題下每個(gè)詞的特定的條件概率。
(3)增強(qiáng)上下文神經(jīng)主題模型構(gòu)建。通過引入主題控制器過濾掉不相關(guān)的主題,利用主題的稀疏約束特性和短文本的上下文信息提高短文本主題建模的準(zhǔn)確度。
神經(jīng)變分文檔模型(neural variational document model,NVDM)由Miao等人[15]于2016年提出,是典型的基于變分自編碼器的神經(jīng)變分推理主題模型,變分自編碼器中的推理網(wǎng)絡(luò)可以使用傳統(tǒng)方法中較少使用的MLP、CNN、RNN 等,并且推理網(wǎng)絡(luò)可以通過重新參數(shù)化技巧反向傳播來學(xué)習(xí)主題模型的參數(shù)。神經(jīng)變分文檔模型的示意圖如圖1所示。
該模型是從文檔的詞向量空間中抽取潛在的主題特征,并根據(jù)此完成文檔重構(gòu)。具體來說,通過推理網(wǎng)絡(luò)將每個(gè)預(yù)處理后的輸入文檔編碼成各向同性高斯分布,然后從各向同性高斯分布中提取輸入文檔中的主題向量,并將其傳遞給多項(xiàng)式SoftMax 生成模型,最后得到重建輸入文檔。
圖1 中d表示BOW 向量,是該模型推理網(wǎng)絡(luò)的輸入,由MLP 編碼器構(gòu)成的推理網(wǎng)絡(luò)中將其壓縮為連續(xù)的潛在分布,h為文檔中的主題向量。但該模型僅使用神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣來表示文檔-主題分布以及主題-詞分布,這使得NVDM模型在主題語(yǔ)義一致性上準(zhǔn)確度不高。另外短文本由于包含少量的詞匯,導(dǎo)致本身存在詞共現(xiàn)稀疏問題,因此也不適用于短文本主題建模。
本文通過重新考慮一下潛在主題的生成方式,通過使用不同的神經(jīng)網(wǎng)絡(luò)進(jìn)一步生成文檔-主題分布以及主題-詞分布,與神經(jīng)變分文檔模型不同的是主題-詞匯分布不再是簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣,而是由主題向量與詞匯向量的乘積產(chǎn)生,進(jìn)而推斷出文檔-詞匯分布,在主題一致性方面有了明顯的好轉(zhuǎn)。
在自然語(yǔ)言處理中,文本中詞語(yǔ)的序列影響著文本的語(yǔ)義,例如:“她愛我”和“我愛她”,對(duì)應(yīng)的詞語(yǔ)是相同但是語(yǔ)義截然相反,這就是詞語(yǔ)序列的影響。因此,在實(shí)際應(yīng)用中,為了將輸入序列中各個(gè)單詞的順序充分考慮到,BERT 模型會(huì)在輸入時(shí)會(huì)把詞的位置信息附加上去,以此來確定詞語(yǔ)的序列,即在進(jìn)入自注意力機(jī)制層之前,詞嵌入表示矩陣已經(jīng)融合了該詞的位置信息在里面。BERT模型使用雙向的Transformer的Encoder 部分可以融合每個(gè)詞語(yǔ)的上下文語(yǔ)義信息,提高文本詞向量表示的質(zhì)量[16]。Sentence-BERT在Bert模型的基礎(chǔ)上,提出了一種新的微調(diào)方法,通過孿生三級(jí)網(wǎng)絡(luò)結(jié)構(gòu)獲得兩個(gè)句子的嵌入向量并拼接,最終在分類任務(wù)中使用交叉熵?fù)p失函數(shù)進(jìn)行微調(diào)[17],其模型結(jié)構(gòu)如圖2所示。
圖2 Sentence-BERT模型結(jié)構(gòu)Fig.2 Structure of Sentence-BERT model
圖2中u,v為輸入句子的向量表示,(u,v,|u-v|)表示將三個(gè)向量在-1維度進(jìn)行拼接。池化層有CLS、MEAN、MAX 三種池化策略,Sentence-BERT 默認(rèn)采用MEAN池化。
本文在短文本語(yǔ)料上應(yīng)用預(yù)訓(xùn)練模型Sentence-BERT,得到上下文相關(guān)的語(yǔ)境化句子嵌入,之后使用一個(gè)隱藏層,將語(yǔ)境化句子嵌入的維度與BOW 向量輸出拼接,豐富了短文本的上下文信息,使主題一致性得到加強(qiáng),從而生成更加連貫的主題,提高了主題建模的準(zhǔn)確性。
重參數(shù)化技巧(reparameterization trick)是變分自編碼網(wǎng)絡(luò)能夠使用梯度下降算法進(jìn)行迭代求導(dǎo)的方法[18]。隱含變量z是從自編碼器的輸出qφ(z|x)采樣得到的,由于采樣操作無法計(jì)算梯度值,因此梯度無法正常傳播回來。
重參數(shù)化技巧通過從單位正態(tài)分布隨機(jī)抽取單位,將方差與均值與抽樣結(jié)果進(jìn)行線性運(yùn)算模擬對(duì)自編碼器輸出的采樣,通過分離隨機(jī)進(jìn)程來允許反向傳播發(fā)生。
增強(qiáng)上下文神經(jīng)主題模型ECNTM從兩個(gè)方面豐富了短文本信息。首先是通過引入預(yù)訓(xùn)練模型Sentence-BERT。ECNTM 將經(jīng)過預(yù)訓(xùn)練的語(yǔ)境化嵌入向量和BOW 向量進(jìn)行拼接作為輸入,進(jìn)而豐富了短文本信息。其次是利用詞嵌入,它可以豐富每一個(gè)短文本有限的上下文信息,通過將詞上的主題分布處理為多元高斯分布或高斯混合分布,在高斯解碼器中完成文檔的重構(gòu)。除了豐富短文本的內(nèi)容外,在推理網(wǎng)絡(luò)中還引入了主題稀疏約束,通過設(shè)置主題選擇器,過濾掉一些不相關(guān)的主題,進(jìn)而提高短文本主題建模的準(zhǔn)確性??傮w架構(gòu)如圖3所示。
圖3 ECNTM模型結(jié)構(gòu)圖Fig.3 Structure of ECNTM model
由于短文文本長(zhǎng)度的限制,通常較短的文檔只包含少量的單詞,導(dǎo)致主題在推理過程中出現(xiàn)特征稀疏性問題。然而,一篇簡(jiǎn)短文章的主題通常集中在主題的一個(gè)子集上,因此考慮通過縮小主題推理的范圍來緩解上述問題。通過在推理網(wǎng)絡(luò)中加入主題控制器,將主題的推理范圍縮小到狹小的范圍空間,進(jìn)而捕獲更好的特征。
推理網(wǎng)絡(luò)的作用是推斷輸入文檔的主題分布,推理網(wǎng)絡(luò)生成的文檔-主題分布來自兩部分,一部分通過多層感知器和高斯分布得到潛在文檔-主題分布,另一部分則是通過多層感知器和Beta分布得到主題控制器,最后將兩部分進(jìn)行運(yùn)算,得到最后的文檔-主題分布。融合主題控制器的推理網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖4所示。
圖4 推理網(wǎng)絡(luò)Fig.4 Inference network
在推理網(wǎng)絡(luò)模塊中,所要做的工作就是推斷輸入文檔的文檔-主題分布,在本文模型中,這里生成的文檔-主題分布由兩部分構(gòu)成,根據(jù)圖4 所示,第一部分是通過高斯分布來估計(jì)連續(xù)的隱含變量,進(jìn)而得到潛在的文檔-主題分布,另一部分則是通過Beta 分布,也就是二項(xiàng)式分布來估計(jì)隱含變量,進(jìn)而得到文檔中的主題約束λd。該推理網(wǎng)絡(luò)的第一部分推理過程如下:
其中,xd表示推理網(wǎng)絡(luò)的輸入,它具體是由兩部分組成,第一部分是經(jīng)過預(yù)訓(xùn)練模型Sentence-BERT 經(jīng)過微調(diào)產(chǎn)生的語(yǔ)境化詞嵌入向量,第二部分則是原始的BOW向量,將兩部分拼接作為模型的輸入。
MLP1是一個(gè)多層感知器,l1和l2是線性變換。πd是通過輸入xd經(jīng)過MLP1編碼后的輸出向量,μd通過l1線性變換πd得到的,而σd是通過l2線性變化πd得到的,協(xié)方差矩陣Σd是由對(duì)角元素得到,是一個(gè)非負(fù)矩陣,先驗(yàn)μd和σd是用來參數(shù)化高斯分布N(μd,Σd)。通過重參數(shù)化技巧,允許參數(shù)通過反向傳播進(jìn)行優(yōu)化,將會(huì)得到一個(gè)高斯隨機(jī)向量hd,其中εd服從高斯分布,之后通過SoftMax生成潛在的文檔-主題分布,如下公式所示,其中Wθ與bθ為模型訓(xùn)練得到的參數(shù):
模型推理網(wǎng)絡(luò)的第二部分是通過引入Beta分布,如圖4 所示。通過設(shè)置了一個(gè)主題控制器λd,k來約束主題,主題控制器為1則代表接受主題,主題控制器為0則拒絕主題,其中d和k分別代表每一篇文檔以及每一篇文檔對(duì)應(yīng)的主題,其中λd是通過Beta(αd,βd)分布得到的,并且保證每一個(gè)λd,k∈λd,λd,k取值只能為0或1,具體的參數(shù)推導(dǎo)如下:
其中,MLP2是一個(gè)多層感知器,l3和l4是線性變換,φd是通過輸入xd經(jīng)過多層感知器MLP2編碼后的輸出向量。由于αd以及βd都是非負(fù)的,所以采用對(duì)數(shù)的方式進(jìn)行表示,lnαd通過l3線性變換φd得到的,而lnβd是通過l4線性變化φd得到的。αd與βd為計(jì)算Beta 分布的參數(shù),在2.1.2 節(jié)的重參數(shù)化拒絕抽樣中詳細(xì)介紹。
2.1.1 重參數(shù)化拒絕抽樣
在推理網(wǎng)絡(luò)中需要進(jìn)行重參數(shù)化,但是Beta采樣不能直接判別,很難通過反向傳播來更新模型參數(shù),因此需要通過拒絕抽樣來完成重參數(shù)化。
現(xiàn)在給定一個(gè)未知或者復(fù)雜的分布q(z;θ),要對(duì)該分布進(jìn)行拒絕采樣,從q(z;θ)分布中生成樣本。由于該分布很難直接進(jìn)行采樣,首先借用一個(gè)輔助建議分布,記為r(z;θ),要在r(z;θ)分布中取樣去逼近q(z;θ)分布,根據(jù)接受-拒絕抽樣的性質(zhì),得知q(z;θ)≤Mθr(z;θ),其中Mθ是一個(gè)常數(shù),滿足Mθ<∞。在這個(gè)拒絕采樣器中,設(shè)z=h(ε,θ),假設(shè)輔助建議分布是可重參數(shù)化的,那么該分布必然會(huì)滿足兩個(gè)條件,其中一個(gè)是潛在的生成變量z是連續(xù)的且滿足r(z;θ)分布,另外一個(gè)是ε滿足s(ε)分布,它通常是一個(gè)均勻分布或者正態(tài)分布,其中s(ε)不依賴參數(shù)θ,并且h(ε,θ)函數(shù)對(duì)參數(shù)θ是可微的。接下來就是真正的采樣過程,對(duì)于每一個(gè)可以接受的樣本,從s(ε)分布中采樣ε,從均勻分布U[0,1]中采樣u,通過計(jì)算目標(biāo)分布q(h(εi,θ);θ)與輔助建議分布Mθr(h(εi,θ);θ)的比值,將得到的結(jié)果與u進(jìn)行比較,如果u小于等于q與Mθr之比,則接受樣本,否則拒絕樣本并重復(fù)這一過程。本文提出的重參數(shù)化拒絕抽樣算法的總結(jié)如算法1 所示,其中q(z;θ)≤Mθr(z;θ),輸出的ε符合分布h(ε,θ)~q(z;θ)。
算法1重參數(shù)化拒絕抽樣
2.1.2 變分推理中的重參數(shù)化拒絕抽樣
算法2拒絕抽樣變分推理
通過重參數(shù)化拒絕抽樣,可以將Beta(αd,βd)分布解耦成兩個(gè)分布Gamma(αd,1)和Gamma(βd,1),文檔中的主題約束λd就可以表示為,其中λd,1服從Gamma(αd,1)分布,λd,2服從Gamma(βd,1)分布。
在高斯解碼器模塊中,所做的工作是用于完成文檔-主題分布θd的解碼,也就是說輸入文檔重構(gòu)的過程。本文共提出了兩種高斯解碼器,其中一種是融合詞嵌入的多元高斯分布解碼器,另外一種是融合詞嵌入的高斯混合分布解碼器。
上下文信息對(duì)于主題挖掘非常重要,經(jīng)常出現(xiàn)在一起的單詞更有可能屬于同一個(gè)主題,這意味著在嵌入空間中距離越近的單詞越有可能反映同一個(gè)主題,在傳統(tǒng)的主題模型中,在大型語(yǔ)料庫(kù)上訓(xùn)練的詞嵌入可以有效地為短文本帶來輔助上下文信息,考慮到這一優(yōu)點(diǎn),ECNTM 將使用Sentence-BERT 與BOW 向量得到基于句子向量拼接的特征表示融入高斯解碼器中。這是第一次將預(yù)訓(xùn)練的詞嵌入整合到VAE 解碼器中,以提高捕獲上下文信息的能力。
一般情況下,基于VAE的主題模型假設(shè)輸入數(shù)據(jù)是在潛在特征下的后驗(yàn)概率近似滿足高斯分布,并且假設(shè)潛在特征滿足多元標(biāo)準(zhǔn)高斯先驗(yàn),因此在解碼階段考慮引入基于高斯分布的解碼器,使計(jì)算原始數(shù)據(jù)的時(shí)候更加方便?;诟咚狗植嫉母咚菇獯a器結(jié)構(gòu)如圖5所示。
圖5 基于多元高斯分布的解碼器Fig.5 Decoder based on multivariate Gaussian distribution
如圖5所示,存在多元高斯分布N(μk,Σk),其中Σk是一個(gè)非負(fù)的對(duì)角矩陣,它與推理網(wǎng)絡(luò)中的Σk生成方式是一樣的,通過引入預(yù)先訓(xùn)練的詞嵌入,得到每一個(gè)單詞在嵌入空間中的向量表示,每一個(gè)單詞在多元高斯分布下的每一個(gè)主題的條件概率TWk,i的推導(dǎo)公式如下:
其中,k代表文檔中的主題,i則代表文本中的每一個(gè)單詞,WEi則代表每一個(gè)單詞的詞嵌入向量表示,r則代表詞嵌入向量的維度,參數(shù)Σk是嵌入空間中的主題濃度,g(WEi)為一個(gè)計(jì)算函數(shù)。它的計(jì)算公式如下:
其中,參數(shù)μk是嵌入空間中的主題質(zhì)心。
生成的重構(gòu)文檔是由兩部分組成,第一部分是推理網(wǎng)絡(luò)生成的主題分布,第二部分就是單詞在主題下的條件概率矩陣,最后通過相關(guān)計(jì)算得出重構(gòu)文檔。進(jìn)一步用高斯混合分布取代高斯分布,擴(kuò)展出基于高斯混合分布的高斯解碼器如圖6所示。
在多元高斯解碼器中,根據(jù)推理網(wǎng)絡(luò)中生成的最終文檔-主題分布θd和主題約束λd,得到最后每個(gè)生成單詞的條件概率p(wd,i|θd,λd)的推導(dǎo)公式如下:
其中,wd,i代表一篇文本d中的第i個(gè)單詞。由于多元高斯分布與高斯混合分布的性質(zhì)不同,每一個(gè)主題下每一個(gè)單詞的條件概率TWk,i變化如下:
其中,m代表高斯分量的個(gè)數(shù),τm是高斯分布的系數(shù),gm(WEi)的計(jì)算公式如下:
本文的硬件環(huán)境為:Windows 10 專業(yè)版64 位,處理器為英特爾Core i7-9700 @ 3.00 GHz 8 核處理器,內(nèi)存64.00 GB,顯卡為NVIDIA GEFORCE RTX 2080 Ti,編譯開發(fā)軟件則是使用PyCharm,編程語(yǔ)言為Python 3.6。
實(shí)驗(yàn)使用WS、Reuters、KOS、20NewsGroups四個(gè)公開數(shù)據(jù)集:
WS(Web-Snippet)數(shù)據(jù)集[19]被廣泛應(yīng)用于短文本主題建模測(cè)試,包含12 237 個(gè)Web 搜索片段,平均每個(gè)片段中有15個(gè)單詞,該數(shù)據(jù)集用于TOP-T主題詞的展示。
Reuters數(shù)據(jù)集包括11 367個(gè)文檔,詞匯量為8 817,平均文檔長(zhǎng)度為73個(gè)單詞。
KOS數(shù)據(jù)集[20]從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)獲得,主要內(nèi)容為博客條目,包括3 430 個(gè)文檔,平均每個(gè)文本約100個(gè)詞匯。
20NewsGroups 是文本分類、挖掘和檢索研究的國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)集之一,包含20個(gè)不同類型、共約20 000份的新聞文檔。
本文提出的ECNTM 模型由預(yù)訓(xùn)練模型Word2vec提供詞向量表示,由預(yù)訓(xùn)練模型SBERT 提供句子嵌入表示,所用到的預(yù)訓(xùn)練模型參數(shù)如表1所示。
表1 預(yù)訓(xùn)練模型參數(shù)Table 1 Pre-training model parameters
對(duì)比實(shí)驗(yàn)使用的模型及參數(shù)配置如下:
NVDM 主題模型[21]:該模型作為基于VAE 框架的第一個(gè)神經(jīng)主題模型,到目前為止已經(jīng)有好多學(xué)者對(duì)其進(jìn)行改進(jìn),對(duì)于長(zhǎng)短文本的主題建模實(shí)驗(yàn)對(duì)比,該模型是不可缺少的。其中參數(shù)學(xué)習(xí)率設(shè)置為0.001,批次大小為200,迭代次數(shù)為500。
LF-LDA 主題模型[22]:該模型通過外部語(yǔ)料庫(kù)所訓(xùn)練出來的詞向量合并到主題建模中,對(duì)主題模型進(jìn)行拓展,將主題-詞級(jí)別的狄利克雷成分變更為詞向量與原主題詞分布混合的成分,借此來提升主題模型的主題一致性。其中超參數(shù)α為50/k,β為0.01,λ為1.0。
VAETM 主題模型[14]:該模型通過引入了詞向量和實(shí)體向量來豐富短文本的信息,借此提升主題模型的主題一致性。該模型通過使用一個(gè)大規(guī)模的外部語(yǔ)料庫(kù)和一個(gè)大規(guī)模的知識(shí)圖來學(xué)習(xí)每個(gè)詞和每個(gè)實(shí)體的嵌入表示,然后將嵌入表示集成到變分自編碼框架中來推斷主題分布的潛在表示。其中超參數(shù)α為1.0,參數(shù)學(xué)習(xí)率設(shè)置為0.001,批次大小為200,迭代次數(shù)為500。
目前主題建模任務(wù)的主流評(píng)價(jià)指標(biāo)分別是困惑度、主題一致性與文本分類任務(wù)。
(1)困惑度指標(biāo)。困惑度代表主題的不確定度,如果困惑度越小,則主題的不確定度越小,建模的效果就會(huì)更好;反之,困惑度越大,主題的不確定度就越大,建模的效果就會(huì)更差。主題建模中的困惑度計(jì)算公式如下:
其中,D是文本的數(shù)目,Nd則代表每一個(gè)文檔d包含的單詞數(shù),p(wd,i)是詞wi在文檔d上對(duì)數(shù)似然。
(2)主題一致性指標(biāo)。如果同一個(gè)主題下的詞語(yǔ)語(yǔ)義相似,那么主題一致性分?jǐn)?shù)就高,將會(huì)生成連貫的主題詞,相反,主題一致性分?jǐn)?shù)就低,生成的主題詞也不連貫。本節(jié)實(shí)驗(yàn)將使用平均化點(diǎn)互信息(normalized pointwise mutual information,NPMI)來計(jì)算主題詞的一致性,主題一致性分?jǐn)?shù)越高,證明生成的主題詞更加一致。采用的公式如下:
其中,p(wi)代表的是單詞i出現(xiàn)的概率。p(wi,wj)則是代表著主題詞i,j在同一滑動(dòng)窗口內(nèi)出現(xiàn)的概率,通過此公式能夠計(jì)算出主題k在基于主題中T個(gè)高頻詞得到的主題一致性得分。
(3)文本分類任務(wù)指標(biāo)。通過主題建??梢蕴崛?shù)據(jù)集的特征,常用于文本分類任務(wù)中,因此本實(shí)驗(yàn)使用文本分類準(zhǔn)確率來間接判斷主題模型的效果。
本文文本分類實(shí)驗(yàn)所使用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率,其計(jì)算方法如下:
其中,TP指將正向預(yù)測(cè)判斷為正向預(yù)測(cè),TN指的是把負(fù)向預(yù)測(cè)判斷為負(fù)向預(yù)測(cè),F(xiàn)N將正向預(yù)測(cè)判斷為負(fù)向預(yù)測(cè),F(xiàn)P則是將負(fù)向預(yù)測(cè)判斷為正向預(yù)測(cè)。
在本次實(shí)驗(yàn)中,將主題數(shù)目設(shè)置成變量,將主題數(shù)目分別設(shè)置成50、100、150、200,在每一個(gè)模型下訓(xùn)練并通過困惑度計(jì)算得出結(jié)果。通過表2可知,在同一公開數(shù)據(jù)集WS、Reuters、或KOS 上,使用不同的主題數(shù),不同的模型,得到的結(jié)果也不同。由于困惑度越小,代表模型的建模效果就越好,因此用加粗的方式將困惑度小的結(jié)果標(biāo)出,這樣便于查看模型結(jié)果的好壞。
表2 各模型困惑度對(duì)比Table 2 Comparison of confusion degree of each model
通過表2中黑色加粗字體可知,本文提出的ECNTM模型表現(xiàn)最好,困惑度相對(duì)比較低。數(shù)據(jù)集KOS 在主題數(shù)為50 的建模,數(shù)據(jù)集Reuters 在主題數(shù)為100 的建模以及數(shù)據(jù)集KOS 在主題數(shù)為100 的建模表現(xiàn)不是最好的。后續(xù)將分析每種數(shù)據(jù)集隨著主題數(shù)的增多,模型困惑度的變化情況,具體對(duì)于各個(gè)語(yǔ)料上的困惑度實(shí)驗(yàn)進(jìn)行分析如圖7所示。
圖7 WS、Reuters、KOS數(shù)據(jù)集困惑度Fig.7 Confusion degree of WS,Reuters and KOS data sets
使用NPMI的方式來進(jìn)行主題一致性分?jǐn)?shù)的計(jì)算,其中對(duì)于判斷主題詞貢獻(xiàn)概率所用的詞向量則是通過在Wikipedia 百科上所提取的數(shù)據(jù)集預(yù)訓(xùn)練得到的,大小約為5.48 GB,具體的實(shí)驗(yàn)數(shù)據(jù)如表3所示。
表3 各模型主題一致性對(duì)比Table 3 Consistency comparison of each model topic
通過表3可知,在WS、Reuters、KOS三個(gè)數(shù)據(jù)集上,本文提出的模型ECNTM 在主題一致性方面表現(xiàn)出了最好的效果。因?yàn)镋CNTM 不僅通過句子嵌入和詞嵌入豐富了上下文信息,而且還引入了主題的稀疏約束特性,提高了主題的準(zhǔn)確抽取能力。
為了使得主題建模效果更為直觀,將ECNTM在主題數(shù)目為50時(shí)建模提取TOP-10主題詞進(jìn)行展示,TOP-10主題詞指的是主題對(duì)應(yīng)的詞分布下概率最高的前10個(gè)詞匯。建模的數(shù)據(jù)集為WS,WS 數(shù)據(jù)集的內(nèi)容主要是Web搜索片段。結(jié)果如表4所示。
表4 WS數(shù)據(jù)集TOP-10詞匯展示Table 4 TOP-10 vocabulary display on WS dataset
由表4 可知,對(duì)Topic1 進(jìn)行分析,出現(xiàn)了football,soccer 兩次足球和一次hockey 曲棍球,都是運(yùn)動(dòng)的名字,而其余各個(gè)詞匯的中文含義則分別為“隊(duì)員”“運(yùn)動(dòng)”“俱樂部”“聯(lián)盟”,可以從主題詞看出,該主題應(yīng)該是與隊(duì)員體育運(yùn)動(dòng)方面相關(guān)。Topic2 則是圍繞著“生物學(xué)”“生態(tài)學(xué)”“生物信息學(xué)”等主題詞的一個(gè)主題-詞分布,也可以因此推出該主題與某些學(xué)科期刊的出版相關(guān)。
由于ECNTM模型所提取的質(zhì)量較好,因此可以從主題詞來推測(cè)隱含主題的方向。在NVDM 模型上,同樣是對(duì)于WS 語(yǔ)料進(jìn)行建模,其Topic1 的詞匯分別為“importers”“l(fā)ycos”“flu”“delaware”“fixed”“democrats”“dreamgirls”“papers”“band”以及“rethinking”這些詞匯。但是對(duì)于這些詞匯的中文含義進(jìn)行分析后,卻難以對(duì)主題進(jìn)行推測(cè),只有一些類似“民族黨”“美國(guó)特拉華州”等隱約地涵蓋了一些信息。所以可以從此看出ECNTM模型對(duì)于主題詞提取的確有一定的提升。
對(duì)于文本分類實(shí)驗(yàn),本文使用了傳統(tǒng)的SVM 分類器進(jìn)行,其輸入為各個(gè)主題模型提取文本的文檔-主題矩陣,將語(yǔ)料的80%作為訓(xùn)練集,其余20%作為測(cè)試集。由于這兩個(gè)數(shù)據(jù)集都有提前標(biāo)注好的標(biāo)簽可供分類,因此就不需要人工進(jìn)行分類標(biāo)簽的標(biāo)注了。首先是各個(gè)模型在20 NewsGroups數(shù)據(jù)集上的準(zhǔn)確率,主題數(shù)目分別為25、50、75、100、125、150、175、200,結(jié)果如圖8所示。
圖8 ECNTM在20 NewsGroups數(shù)據(jù)集下的分類準(zhǔn)確率Fig.8 Classification accuracy of ECNTM under 20 NewsGroups data set
由圖中可以看出,NVDM 模型所提取的特征的文本分類準(zhǔn)確率最低,可以看出在20 NewsGroups這種短文本的數(shù)據(jù)集上NVDM模型難以起到較好的作用。同樣的,LF-LDA 模型對(duì)于分類的準(zhǔn)確率也是比較低的,因?yàn)長(zhǎng)F-LDA 引入詞向量對(duì)于主題詞上有著較好的效果,但是對(duì)于文檔-主題矩陣而言,還是便無法彌補(bǔ)文本上信息的缺失,導(dǎo)致分類準(zhǔn)確率一般的情況。VAETM可以看作使用一個(gè)大規(guī)模的外部語(yǔ)料庫(kù)和一個(gè)大規(guī)模的知識(shí)圖來學(xué)習(xí)每個(gè)詞和每個(gè)實(shí)體的嵌入表示,并且將嵌入表示集成到變分自編碼框架中來推斷主題分布的潛在表示,并且VAETM 提出了一種改進(jìn)的監(jiān)督式方法,通過考慮訓(xùn)練集中的標(biāo)簽信息來監(jiān)督主題分布的潛在表示的推斷和主題的生成,因此其分類準(zhǔn)確率較高。整體而言,本文模型的分類準(zhǔn)確率最高,證明了主題稀疏約束特性的引入增加了模型的泛化能力,使得其提取的特征在文本分類上有著較好的表現(xiàn)。
為了探討各個(gè)模型提取特征在一般文本上分類的準(zhǔn)確率,以便與短文本進(jìn)行對(duì)比,本文還在搜狗實(shí)驗(yàn)室新聞?wù)Z料上進(jìn)行了建模,并通過SVM 分類器進(jìn)行訓(xùn)練。本文選取了財(cái)經(jīng)、健康、教育、軍事和文化五個(gè)類別中各300 篇文檔一共1 500 篇文本作為數(shù)據(jù)集,設(shè)置主題數(shù)目分別為50、100、150 以及200。實(shí)驗(yàn)結(jié)果如表5所示。
表5 各模型文本分類準(zhǔn)確率對(duì)比Table 5 Accuracy of text classification accuracy of each model
可以看出,在搜狗實(shí)驗(yàn)室新聞數(shù)據(jù)集下,各個(gè)模型的分類準(zhǔn)確率都比較高。該數(shù)據(jù)集每個(gè)文本的詞匯大概在300 左右,稍高的文本有700 多個(gè)詞匯,因此NVDM模型的文本信息較為充足,其分類準(zhǔn)確率也有所提升,在該數(shù)據(jù)集下最低的準(zhǔn)確率只比準(zhǔn)確率最好的ECNTM低了不到15 個(gè)百分點(diǎn)。而LF-LDA 模型的表現(xiàn)僅僅比NVDM 模型稍高,最高的準(zhǔn)確率之差為6 個(gè)百分點(diǎn)。VAETM 和ECNTM 模型之間的差距不是很大,但是ECNTM 比VAETM 準(zhǔn)確率高1 個(gè)百分點(diǎn)左右。為方便對(duì)比,將表5中數(shù)據(jù)繪制成圖,如圖9所示。通過該實(shí)驗(yàn)證明,在一般文本下,本文模型仍舊能夠提取出較好的主題特征。
圖9 模型在搜狗新聞數(shù)據(jù)集下的分類準(zhǔn)確率Fig.9 Classification accuracy of model under Sogou news data set
本文在2.2 節(jié)提出了兩種高斯解碼器,分別是基于多元高斯分布的解碼器和基于高斯混合分布的解碼器。為了探討和量化兩種分布對(duì)于短文詞嵌入特征的影響,本文在20 NewsGroups數(shù)據(jù)集和搜狗新聞數(shù)據(jù)集上,分別通過主題一致性任務(wù)和文本分類任務(wù)分析了不同解碼器對(duì)模型準(zhǔn)確率的影響。通過對(duì)數(shù)據(jù)集進(jìn)行篩選,設(shè)置主題數(shù)目分別為50、100、150 以及200,實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同解碼器對(duì)模型準(zhǔn)確率影響Table 6 Influence of different decoders on accuracy of model
根據(jù)實(shí)驗(yàn)結(jié)果可以得到,無論是主題一致性任務(wù)還是文本分類任務(wù),基于高斯混合分布的解碼器模型分類準(zhǔn)確率均明顯優(yōu)于基于多元高斯分布的解碼器模型。而且可以看出,隨著主題與類別數(shù)增加,兩種編碼器的準(zhǔn)確率差距有增大的趨勢(shì),證明了基于高斯混合分布的解碼器中多個(gè)高斯分量能更好地?cái)M合復(fù)雜數(shù)據(jù)分布,進(jìn)而對(duì)每個(gè)類別的數(shù)據(jù)分布進(jìn)行建模,而不是對(duì)所有數(shù)據(jù)的分布進(jìn)行建模。這樣可以增加模型對(duì)文本的區(qū)分度和表達(dá)能力,從而提高信息抽取準(zhǔn)確率。
為方便對(duì)比,也將表6 中數(shù)據(jù)繪制成圖,如圖10 所示,其中柱狀數(shù)據(jù)為主題一致性任務(wù)在20 NewsGroups數(shù)據(jù)集上得到的結(jié)果,而折線數(shù)據(jù)為文本分類任務(wù)在搜狗實(shí)驗(yàn)室新聞數(shù)據(jù)集上得到的結(jié)果。并通過橙色和藍(lán)色分別表示基于高斯混合分布的解碼器和基于多元高斯分布的解碼器實(shí)驗(yàn)結(jié)果。
圖10 不同解碼器對(duì)模型準(zhǔn)確率影響Fig.10 Influence of different decoders on accuracy of model
本節(jié)設(shè)計(jì)消融實(shí)驗(yàn),通過移除融合詞嵌入的高斯解碼器中的詞嵌入與句子嵌入,驗(yàn)證BOW 詞向量與Sentence-BERT 句子向量可以提高解碼器對(duì)上下文信息的捕獲能力從而提升主題抽取效果。將移除了詞嵌入模型記為ECNTM-w,將移除了句子嵌入的模型記為ECNTM-s。消融實(shí)驗(yàn)使用20 NewsGroups 數(shù)據(jù)集和搜狗實(shí)驗(yàn)室新聞數(shù)據(jù)集,分別通過主題一致性任務(wù)和文本分類任務(wù)分析了消融前后模型的實(shí)驗(yàn)結(jié)果,如表7所示。
表7 消融實(shí)驗(yàn)?zāi)P蛯?duì)比Table 7 Comparison of experimental ablation models
通過表7 可以看出,在20 NewsGroups 數(shù)據(jù)集和搜狗新聞數(shù)據(jù)集中,移除融合詞嵌入的高斯解碼器中的詞嵌入和句子嵌入后,模型的性能都有所下降。因而模型的詞嵌入模塊與句嵌入模塊都是不可或缺的。同時(shí)從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),ECNTM-w 模型ECNTM-s 模型比性能退化更明顯,可以由此推斷基于Sentence-BERT 句子向量的句嵌入可以為模型提供更多的上下文信息。
因此,在主題挖掘和文本分類任務(wù)中,通過結(jié)合句子嵌入和詞嵌入特征,將BOW 向量與預(yù)訓(xùn)練的句子向量進(jìn)行拼接,可以顯著提高模型對(duì)上下文信息的捕獲能力和對(duì)短文本的理解能力,從而提高模型在挖掘文本主題和分類任務(wù)上的性能表現(xiàn)。
神經(jīng)主題建模作為當(dāng)前流行的主題挖掘工具之一,以其訓(xùn)練效率高、泛化能力強(qiáng)等優(yōu)點(diǎn)被工業(yè)界與學(xué)術(shù)界廣泛應(yīng)用與研究。變分自編碼器框架得益于神經(jīng)網(wǎng)絡(luò)的靈活性,能夠很好地學(xué)習(xí)復(fù)雜的非線性分布,可以有效地進(jìn)行主題建模。
經(jīng)過實(shí)驗(yàn)對(duì)比可以證明,本文的研究工作在短文本上進(jìn)行的主題建模質(zhì)量良好。但是本文的研究工作對(duì)于ECNTM的利用仍然有待發(fā)掘。ECNTM中的解碼器可以為其他分布,而本文則是選擇高斯混合分布。然而真實(shí)世界中有許多非高斯形態(tài)的分布,特別地,對(duì)于一些高度扭曲的多峰分布,一個(gè)高斯近似往往是不足夠的。因此如何在解碼器引入其他分布進(jìn)行高效的推理是本文未來的研究方向。對(duì)于短文本主題模型的研究,可以更好地去挖掘日益增長(zhǎng)的互聯(lián)網(wǎng)短文本里面豐富的信息,未來也可以應(yīng)用于日益興起的知識(shí)圖譜研究,以及對(duì)文檔級(jí)實(shí)體知識(shí)抽取對(duì)齊等任務(wù)中。