楊威亞,余正濤,高盛祥*,宋 燃
(1.昆明理工大學信息工程與自動化學院,昆明 650500;2.云南省人工智能重點實驗室(昆明理工大學),昆明 650500)
隨著互聯(lián)網(wǎng)的發(fā)展,不同國家之間的聯(lián)系日益緊密,共同關注的事件也越來越多。漢越新聞話題發(fā)現(xiàn)就是將漢越新聞報道進行聚類再發(fā)現(xiàn)相關的話題[1-2]。這幫助人們更容易了解同一事件中越兩國不同的話題討論。
漢越新聞話題發(fā)現(xiàn)任務可以看作是對雙語新聞聚類的問題,其主要難點在于克服中文與越南文新聞報道之間的語言差異,將兩種語言表征到同一語義空間下進行新聞事件聚類。以往跨語言話題發(fā)現(xiàn)方法主要分為基于翻譯的方法和利用雙語詞典或平行語料訓練雙語詞嵌入的方法。Leek 等[3]采用機器翻譯的方法將不同語言的文本翻譯成同一種語言進行計算;Yang等[4]則是利用概率主題模型抽取文本的主題詞,通過翻譯主題詞的方法計算不同語言文本下的主題分布的相似度進行聚類。但由于機器翻譯效果受翻譯工具性能影響巨大,在低資源語言場景下,跨語言話題發(fā)現(xiàn)相關模型的性能下降十分明顯。后續(xù)的研究中大多學者通過借助一些雙語資源進行語義分析的方式來完成跨語言特征空間的構建?;陔p語詞典翻譯的跨語言話題發(fā)現(xiàn)策略主要方法是把文本中的詞對譯成另一種語言的詞以此代替機器翻譯系統(tǒng),Mathieu 等[5]和Pouliquen 等[6]提出使用雙語詞典翻譯代替機器翻譯的方式,使用漢英詞典對譯的方式將新聞文本中的詞匯進行翻譯,利用命名實體(人名、地名和組織機構名)的對應關系比較中英新聞文本的相似程度,系統(tǒng)檢測準確率得到很大提升;Chang等[7]利用Wiki 百科構建雙語詞典,挖掘中英新聞事件下的共現(xiàn)話題;Mimno 等[8]提出利用多語言可比語料庫主題分布近似的假設,建立跨語言文本間的聯(lián)系,進而實現(xiàn)跨語言話題任務的研究;Hao等[9]在傳統(tǒng)概率主題模型上引入硬鏈接與軟鏈接的思想,通過平行對齊文檔與雙語詞典建立雙語聯(lián)系實現(xiàn)話題聚類任務;Hong 等[10]根據(jù)新聞特有的要素特征,通過雙語詞典建立新聞要素間的對齊關系,以圖聚類的方法對漢越新聞文本進行聚類,得到了較好的聚類結果。
以上幾種方法都有效解決了雙語語言差異的問題,雙語詞典能很好地提高跨語言詞語語義的對齊效果,但由于雙語詞典受限于規(guī)模的大小,在低資源場景下,雙語詞典很難匹配新聞的所有特征詞,且無法解決一詞多義等問題。由此,Bianchi 等[11]使用多語言詞嵌入的方法,訓練多語言BERT(Bidirectional Encoder Representations from Transformers),利用變分自編碼器融合多語言BERT,對多語言新聞篇章的話題進行預測,有效地解決了跨語言的語言差異問題。
上述方法在中英等資源豐富的語言場景下能夠取得良好的效果,但在漢越低資源場景中,由于平行語料的稀缺,構建雙語詞典和訓練高質(zhì)量的雙語詞嵌入變得十分困難,漢越新聞文本很難對齊到同一語義空間中。本文主要針對新聞長文本聚類,使用雙語詞嵌入對長文本進行表示的方法不能很好地提取到長文本中重要的詞的信息,從而導致新聞長文本的聚類效果欠佳。針對新聞文本而言,通常類屬于同一事件的新聞報道大多都描述了相同或相近的主題,利用這種主題的關聯(lián)性能很好地發(fā)現(xiàn)文本間的關聯(lián)關系,這為漢越新聞的話題發(fā)現(xiàn)提供了新的途徑。使用新聞主題特征對新聞文本進行表征后聚類,將漢越雙語的語義對齊任務轉化為新聞主題對齊,利用少量平行篇章主題在空間中的對齊構建雙語語義空間,降低了對齊的難度,并對漢越新聞主題進行聚類,抽取主題詞代表事件簇的話題,最終實現(xiàn)漢越新聞話題發(fā)現(xiàn)。
本文主要工作如下:
1)根據(jù)可比新聞具有近似主題分布的特性,提出通過訓練主題分布的向量表示對齊的映射矩陣建立雙語聯(lián)系,降低了在低資源小語種場景下漢越雙語語義的對齊難度。
2)提出將神經(jīng)主題模型(Neural Topic Model,NTM)應用于跨語言話題發(fā)現(xiàn)任務上,并取得了較好的效果。
3)提出了在神經(jīng)主題模型中融入主題語義信息的方法,增強了生成話題的語義一致性,該模型生成的話題詞有更好的可解釋性。
針對漢越跨語言話題發(fā)現(xiàn)存在的問題,本文提出了一種基于跨語言神經(jīng)主題模型(Cross-Language Neural Topic Model,CL-NTM)的漢越新聞話題發(fā)現(xiàn)方法,該方法主要流程如圖1 所示。首先,通過融入主題語義信息的變分自編碼器神經(jīng)主題模型分別得到漢越平行新聞篇章的主題向量,利用平行語料主題向量對齊的特性預訓練出主題映射矩陣,將漢越新聞的主題向量表征到同一語義空間下;然后,對漢越可比新聞篇章處理得到各自的主題向量表示,通過映射將漢越新聞主題向量共同表征到漢越雙語語義空間中,進行主題向量的聚類,提取每個簇的主題詞作為此類事件的相關話題。
圖1 CL-NTM流程Fig.1 Flowchart of CL-NTM
本文針對漢越雙語詞嵌入訓練困難的問題,提出使用NTM 抽取新聞的主題對文本進行表征,建立漢越雙語聯(lián)系,其中NTM如圖2所示。
本文爬取的國際新聞事件共包含D篇文檔,通過分詞工具對每篇新聞文本進行了詞切分,將切分后的詞通過詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TFIDF)算法對統(tǒng)計信息特征進行過濾,剔除影響較小的詞,共包含V個詞,wn∈(1,V)表示輸入文檔中的第n個詞。
本節(jié)主要描述圖2的NTM中統(tǒng)計信息編碼層對新聞文本統(tǒng)計信息進行編碼的過程,首先輸入一篇新聞文檔X,將其進行詞切分,對新聞文本編碼為詞袋表示Xs,由于詞袋表示存在向量稀疏問題,本文使用兩層多層感知機(Muti-Layer Perception,MLP)將文本輸入的詞袋表示Xs編碼為低維統(tǒng)計特征向量h:
圖2 NTMFig.2 NTM
其中:fbow(?)表示將新聞篇章表征為詞袋;X表示輸入的新聞文檔;Xs表示進行詞切分后的新聞樣本。
為了能通過統(tǒng)計特征向量h得到新聞的主題向量,本文模型將傳統(tǒng)概率主題模型中的狄利克雷先驗分布轉化為高斯先驗,假設每一篇新聞文本X的樣本分布δ都屬于正態(tài)分布,經(jīng)過線性變換后的h則同樣屬于正態(tài)分布:
然后通過神經(jīng)網(wǎng)絡學習到h的正態(tài)分布均值μ與方差σ參數(shù):
其中:w和b分別是權重矩陣和偏置矩陣。利用這種方式提取新聞文本X的統(tǒng)計特征并從中采樣出新聞的主題向量Z:
其中:ε通過采樣標準正態(tài)分布得到。本節(jié)主要目的為通過編碼器訓練得到輸入新聞文本X的主題向量Z。
本節(jié)主要介紹圖2的NTM中主題信息編碼層對新聞主題的語義信息特征進行編碼的過程。當模型對新聞語料進行詞切分后生成詞表ρ,使用文獻[12]中的Word2Vec 詞向量訓練模型對詞表中的詞進行預訓練,得到詞向量矩陣ρ1:v=[w1,w2,…,wv]∈Rv×m,v表示詞表的長度,m表示詞向量的維度。模型對詞表中的詞進行向量化后,將2.1 節(jié)中得到的主題向量Z作為錨點,與詞向量矩陣ρ進行點乘計算,通過計算每個詞與主題的相關性生成主題-詞的相關性矩陣α,在向量空間中與主題向量Z更相關的詞通常會在空間距離上接近它,計算式如下:
其中ρ代表詞表的嵌入矩陣。在這一步中,本文引用了連續(xù)詞袋(Continuous Bag-Of-Words,CBOW)[12]學習的思想,CBOW每個詞的計算過程如下:
其中:wdn是第d篇文檔中第n個目標詞;αdn表示目標詞wdn周圍窗口生成的上下文詞向量。在式(8)中,本文模型將主題向量Z作為詞的上下文向量,對詞表中的每個詞都與主題向量Z進行一致性計算,再得到主題-詞的相關性矩陣α。
為得到更高質(zhì)量的主題向量,本文融合了主題語義信息和新聞詞頻統(tǒng)計信息,將主題向量Z與主題-詞相關性矩陣α相乘得到模型的變分向量β:
利用softmax(?)函數(shù)進行歸一化操作后,對β進行采樣重構生成偽新聞文本
本文模型的解碼器目的在于將輸入的新聞文本X進行編碼后,希望能夠利用模型學習到的變分向量β重構生成出偽新聞文本盡可能與原文本X相似,因此引入重構損失Lre:
其中使用了log_softmax(?)函數(shù)優(yōu)化模型損失的訓練,避免梯度爆炸。
本文摒棄了概率主題模型中的狄利克雷先驗假設與Gibbs 采樣方式,通過假設新聞文本服從正態(tài)分布,并從正態(tài)分布中采樣文本的特征,但這種采樣方式也引出一個問題,當本模型對新聞樣本進行采樣時并不能保證每個樣本都服從標準正態(tài)分布,導致模型的后續(xù)推斷很難進行。因此引入KL(Kullback-Leibler)散度,利用調(diào)整KL 散度帶來的損失迫使每一個輸入X的正態(tài)分布都服從標準正態(tài)分布,KL 散度損失的目標函數(shù)如下:
因此模型的總損失L為:
經(jīng)過優(yōu)化損失達到閾值收斂后,輸出新聞篇章的主題向量Z。
為實現(xiàn)漢越語義空間對齊,本文通過NTM 得到新聞主題向量Z后,調(diào)用Vecmap[13]的方法,使用少量的平行新聞對,根據(jù)平行新聞文本對的主題向量在空間中位置對齊的關系,訓練得到轉換矩陣W*。具體訓練公式如下:
當源語言i與目標語言j對齊時,Dij=1。通過最小化映射源語言主題向量與目標語言主題向量之間的歐幾里得距離之和,訓練得到最佳的映射矩陣W*,Zi*是中文語義空間中的第i個主題向量,Zj*是越南語義空間中的第j個主題向量,通過學習到的映射矩陣W*將漢越可比語料的新聞主題映射到同一語義空間下。
本文通過主題對齊的方式將兩種語言映射到同一語義空間后,使用K-means[14]聚類的方法對漢越新聞的主題向量進行聚類。預先設定了聚類的類別常數(shù)k并隨機選取k個初始點作為質(zhì)心{C1,C2,…,Ck},計算每一個主題向量Z與質(zhì)心C之間的歐氏距離:
其中:Zi表示第i個主題向量,Cj表示第j個聚類質(zhì)心。
通過依次計算每個主題向量Z與質(zhì)心之間的距離,將每一篇新聞文本的主題向量Z分配到歐氏距離最近的聚類簇S中S∈{S1,S2,…,Sk},分配完成后重新定義每個簇的聚類質(zhì)心:
重復上述過程,直到質(zhì)心不再改變,達到收斂條件后,得到聚類的新聞事件簇,選取每個簇離質(zhì)心距離最近的主題向量Z,發(fā)現(xiàn)該主題向量下的主題詞作為此類簇的話題:
其中:wt表示該類主題下的話題詞;argmax(?)表示選取在重構文本的過程中概率最高的詞,并將其表示為此類新聞事件簇的相關話題,實現(xiàn)漢越新聞話題發(fā)現(xiàn)的最終目的。
本文任務旨在發(fā)現(xiàn)不同事件下的新聞話題,爬取了“南海問題”“一帶一路”等四類漢越相關新聞事件,構建漢越雙語新聞話題發(fā)現(xiàn)實驗數(shù)據(jù)集。首先,在越南語新聞網(wǎng)站上爬取了800 篇越南新聞文本;然后,根據(jù)新聞事件的主要報道在中文新聞網(wǎng)站中按1∶5 的比例獲取相關中文可比語料4 000 篇和少量平行新聞篇章對132 條;最后,漢越雙語新聞數(shù)據(jù)集分布情況如表1所示。
表1 漢越雙語新聞話題發(fā)現(xiàn)實驗數(shù)據(jù)集Tab.1 Chinese-Vietnamese bilingual news topic discovery experimental dataset
本文使用jieba 分詞和Vncorenlp 工具包分別對中文和越南文的新聞語料進行分詞和去停用詞,過濾中文語料中出現(xiàn)頻率不超過4 次的詞,越南語中濾除出現(xiàn)頻率不超過2 次的詞。將變分自編碼器中詞嵌入維度設置為300,主題向量設置為20 維,訓練批次大小設置為100,使用Adam 作為優(yōu)化函數(shù),學習率設置為0.002,運用梯度裁剪的方式防止梯度爆炸,并對輸入詞袋(Bag of Words,BoW)模型進行歸一化處理,在K-means聚類中K值設置為4。
本文的實驗指標主要為Macro-F1(用變量名MF1 表示)值與主題一致性。Macro-F1值通常作為評價基線模型聚類結果好壞的實驗指標,包含宏精確率(Macro-Precision,Macro-P用變量名MP表示)與宏召回率(Macro-Recall,Macro-R 用變量名MR表示),Macro-F1 是宏精確率和宏召回率的調(diào)和均值(用變量名MF1表示)。具體定義分別如下:
其中:TPi表示被正確劃分為第i類簇的文檔數(shù),即聚類的正確文檔數(shù);FPi表示被錯誤劃分為第i類簇的文檔數(shù);FNi表示屬于i類簇的樣本被錯誤劃分到其他簇的文檔數(shù);Macro-F1是對所有簇聚類性能的總體評價。
主題一致性(Topic-coherence)評價指標是為了評估主題模型能否產(chǎn)生語義一致、易于理解的話題。評價基線模型主題一致性的方法通常采用平均點對互信息(Normalized Pointwise Mutual Information,NPMI)[15]進行計算,計算式如下:
其中:K是給定的主題數(shù),每個主題由T個最相關的詞組成;p(wi,wj)是詞對(wi,wj)在一篇文檔中共現(xiàn)的概率,p(wi)是詞wi在文檔中出現(xiàn)的概率。對出現(xiàn)概率最大的前25 個詞進行互信息熵計算。
為驗證本文所提方法的有效性,選取以下幾種跨語言新聞話題發(fā)現(xiàn)方法進行對比實驗:
1)面向中英文的隱狄利克雷分配主題改進模型(Improved Chinese-English Latent Dirichlet Allocation model,ICE-LDA)[16]:使用Bi-LDA 概率主題模型得到新聞的主題,對新聞主題進行向量化處理,通過翻譯的形式映射到同一語義空間。
2)基于潛在語義分析的跨語言文本聚類算法(Cross-Language Text Clustering algorithm based on Latent Semantic Analysis,CLTC-LSA)[17]:使用潛在語義分析的方法挖掘新聞的特征詞,利用特征詞的相關性構建漢越雙語語義空間,實現(xiàn)漢越新聞文本聚類。
3)CL-NTM*:為證明利用文檔主題對齊的方法能更好地提升模型聚類效果,CL-NTM*將CL-NTM模型中利用主題對齊訓練映射矩陣的過程進行替換,直接使用漢越雙語詞典對新聞文檔詞嵌入的對齊矩陣進行預訓練。
4)廣義向量空間模型(Generalized Vector Space Model,GVSM)[10]:利用漢越新聞實體的對齊與上下文共現(xiàn)關系根據(jù)二分圖計算元素之間的相似性,對文本進行聚類。
3.4.1 漢越新聞聚類對比實驗
為驗證本文所提方法對新聞文本聚類的有效性,首先比較了本文方法與不同基線方法的F1值,如表2所示。
表2 不同方法的漢越雙語新聞聚類實驗結果對比Tab.2 Comparison of experimental results of Chinese-Vietnamese bilingual news clustering by different methods
通過表2對比可知,上述幾種模型中CLTC-LSA 方法是非概率的主題模型,它主要通過計算詞之間的語義相似度衡量新聞文本之間的相似程度進行文檔的聚類。在漢越低資源話題發(fā)現(xiàn)任務中,翻譯效果較差,不能很好地計算中文與越南文之間詞的相似度,漢越語義空間的對齊效果欠佳,從而導致新聞聚類效果不夠理想。從表2 中觀察發(fā)現(xiàn),ICE-LDA 的聚類效果優(yōu)于CLTC-LSA,ICE-LDA 使用的是概率主題模型,能更好地對新聞文本進行主題的抽取,但由于該方法是將得到的新聞主題詞通過翻譯的方式建立雙語聯(lián)系,在漢越低資源條件下同樣受翻譯工具性能的影響較大,導致新聞聚類效果較差。CL-NTM*的實驗結果表明,在漢越低資源場景下,直接訓練漢越新聞文本詞嵌入對齊的方式受困于雙語詞典的規(guī)模大小,容易出現(xiàn)大量未登錄詞的情況,難以實現(xiàn)新聞文本間較好的對齊。GVSM(EUB)方法的聚類效果取決于新聞實體的標注數(shù)量,且僅僅適用于對文本的聚類,不能很好地表達該類文本的核心話題。通過本組實驗證明,本文方法利用漢越新聞主題對齊的方式取得的聚類效果更好,且受到漢越資源稀缺的影響更小。
為進一步驗證本文方法的有效性,還將本文方法與上述方法進行了主題一致性的比較,觀察聚類后新聞簇的話題質(zhì)量,從表2 中主題一致性實驗指標中可知,本文模型相較于ICE-LDA與CLTC-LSA具有更好的主題一致性,具體原因分析如下:CLTC-LSA 使用奇異值分解的方法提取新聞的主題詞,但這種方法只是一種數(shù)學變換,很難與現(xiàn)實中的概念形成對應,導致生成的主題詞可理解性差,而ICE-LDA具有詞袋模型共有的缺點,只考慮新聞文本的統(tǒng)計信息,忽略了詞的上下文語義信息,這使得模型生成的主題詞容易出現(xiàn)高頻無意義的詞,從而影響模型主題一致性。本文方法使用融入主題語義信息的變分自編碼器神經(jīng)主題模型生成新聞主題,既考慮了新聞的統(tǒng)計信息,又考慮了新聞的上下文語義信息。經(jīng)實驗驗證,本文所提方法十分有效,生成的主題詞具有更好的主題一致性。
3.4.2 消融實驗
漢越新聞話題發(fā)現(xiàn)旨在對漢越兩種語言的新聞文本進行聚類,發(fā)現(xiàn)事件的主要話題,為得到更容易理解的話題,本文融入了主題語義信息增強話題的主題一致性,使新聞話題更加容易被理解。為驗證融入主題語義信息對增強新聞話題主題一致性的有效性,設計了一組消融實驗,對融入主題語義信息前后的CL-NTM進行消融實驗,實驗結果如表3所示。
表3 融入主題語義信息的影響Tab.3 Impact of incorporating topic semantic information
通過消融實驗結果對比證明,本文方法融入主題語義信息的方法相較于不融入主題語義信息,能生成在語義上更緊密相關的主題,從而對聚類結果產(chǎn)生正影響并提升了模型的主題一致性,使新聞主題更容易被理解。
3.4.3 實例分析
為進一步體現(xiàn)本文模型漢越新聞話題發(fā)現(xiàn)的效果,本文抽取每類漢越新聞事件的前5個話題進行展示,如圖3所示。
圖3 漢越新聞話題發(fā)現(xiàn)示例展示Fig.3 Example display of Chinese-Vietnamese news topic discovery
從圖3 可以看出,CL-NTM 對3 個不同的新聞事件集都能生成較為直觀的話題詞,且大多新聞都圍繞事件主題生成了相近或相同的話題詞。例如,在一帶一路的相關新聞報道中,漢越都緊密圍繞著“經(jīng)濟”“合作”等方面進行了熱切的討論;從新冠肺炎的新聞報道中可以發(fā)現(xiàn)漢越兩國都對此次疫情的防護與患者的關注方面十分重視。綜合上述幾組實驗證明,本文提出的CL-NTM 模型在漢越跨語言新聞話題發(fā)現(xiàn)任務中,對漢越平行資源的需求更低,聚類效果和主題語義一致性明顯優(yōu)于ICE-LDA 和CLTC-LSA 兩種模型,生成的話題詞可理解程度高,從Macro-F1 值與主題一致性的評價指標上可以看出本文模型相較于對比的基線模型在新聞話題聚類效果與新聞話題語義可解釋性上都取得了更好的提升。
本文提出了一種基于跨語言神經(jīng)主題模型的漢越新聞話題發(fā)現(xiàn)方法,采用融入主題語義信息的變分自編碼器神經(jīng)主題模型得到高質(zhì)量的新聞主題向量,利用新聞的主題向量建立漢越兩種語言之間的聯(lián)系,根據(jù)新聞主題的相似性對新聞文本進行聚類,抽取主題詞作為新聞事件的話題。實驗結果表明,在漢越新聞話題發(fā)現(xiàn)任務中,本文提出的利用主題對齊的方法明顯優(yōu)于訓練雙語詞嵌入對齊的方法,相較于其他幾種基線模型在Macro-F1 值與主題一致性評價指標上分別提升4 個百分點與7 個百分點;但由于越南語資源的稀缺,本文方法與單語新聞話題發(fā)現(xiàn)效果仍存在較大差距,下一步將考慮融入更多新聞主要特征提升模型性能。