李 越,毛存禮,2,余正濤,2,高盛祥,2,王振晗,2,張亞飛,2
1(昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500) 2(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500)
緬甸語屬于一種資源稀缺型語言,漢-緬雙語平行資源相對稀缺,但互聯(lián)網(wǎng)中有一定規(guī)模的漢語-緬語雙語資源,這些雙語資源大多是主題相關(guān),內(nèi)容相似的可比文檔.漢-緬雙語可比文檔語料中存在一些具有互譯關(guān)系的雙語詞匯數(shù)據(jù),這些互譯詞語一般出現(xiàn)在語義相近但語言不同的上下文環(huán)境中.抽取這些數(shù)據(jù)能有效改善漢、緬雙語平行資源稀缺問題,進(jìn)一步為開展跨語言檢索研究[1,2]及機(jī)器翻譯[3,4]提供資源支撐.
在先前的工作中,有研究者利用雙語LDA和上下文向量組合的方法從可比語料中抽取雙語詞匯,取得不錯的效果.但對于資源稀缺的緬甸語來說,構(gòu)建漢緬雙語LDA需要大量標(biāo)記好的雙語平行語料,同時詞袋模型表征的上下文向量沒有考慮上下文語義和詞語位置的影響,且維度較高.
在前人的基礎(chǔ)上,為了獲取具有上下文語義特征的上下文向量,克服漢緬雙語LDA難以構(gòu)建的問題.本文提出了一種融合主題及上下文特征的漢緬雙語詞匯抽取方法:本文首先利用單語LDA結(jié)合種子詞典的方法抽取到具有主題特征的主題雙語詞匯,然后用多語言BERT對主題候選詞的上下文語義進(jìn)行向量化表示,得到具有上下文語義特征的表示向量,再計(jì)算上下文的相似度得到具有上下文語義特征的雙語詞匯,最后與主題雙語詞匯加權(quán)組合得到更高質(zhì)量的雙語詞匯.
目前,針對從可比語料抽取雙語詞匯問題,主要有以下四類方法:
1)基于雙語詞典的方法,其主要思想是通過一個種子詞典學(xué)習(xí)到一個映射矩陣,將兩種語言的詞向量表示在同一語義空間中計(jì)算雙語詞向量的相似度抽取雙語詞匯,如,Artetxe[5,6]等人提出基于種子詞典來抽取雙語詞匯,在大量的單語語料中訓(xùn)練表征成單語詞向量,再通過種子詞典學(xué)習(xí)到雙語映射關(guān)系,將兩種單語詞向量映射到同一個語義空間,計(jì)算兩種語言的詞向量的相似度來抽取雙語詞匯.但此類方法依賴于大規(guī)模且高質(zhì)量的雙語詞典.
2)基于樞軸語言的方法,其主要思想是將源語言和目標(biāo)語言翻譯成一種通用語言,在通用語言的語義空間中計(jì)算相似度抽取雙語匯.如,Kim等人[7,8]提出一種基于樞軸語言抽取雙語詞匯的方法,首先將源語言轉(zhuǎn)換為英語,再將目標(biāo)語言轉(zhuǎn)換到英語最后在同一語義空間下計(jì)算相似度完成雙語詞匯的抽取.然而此類方法需要建立大規(guī)模對齊語料庫,并且依賴于機(jī)器翻譯的翻譯效果.
4)基于上下文的方法,其主要思想是具有相似含義的詞很可能出現(xiàn)在跨語言的相似上下文中.如,從Rapp等人[12]開始,他們利用Harris(1954)[13]提出的分布假設(shè),提出了一種基于上下文的方法(CBM)抽取雙語詞匯,將跨語言詞匯相似度計(jì)算問題轉(zhuǎn)化為計(jì)算源語言和目標(biāo)語言詞匯對應(yīng)的上下文向量的相似性來抽取雙語詞匯.此類方法的缺點(diǎn)是忽略了詞序關(guān)系對上下文向量的影響且容易出現(xiàn)高維問題.
我們提出的雙語詞匯抽取方法如圖1所示,基本思路如下:
圖1 融合主題特征及上下文特征的漢緬雙語詞匯抽取架構(gòu)Fig.1 Chinese-Burmese bilingual vocabulary extraction architecture integrating topic features and context features
LDA(Latent Dirichlet Allocation)[14]是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計(jì)模型.換句話說就是在一篇文章中有一個中心思想,那么一定存在一些出現(xiàn)頻率比較高的詞.LDA也是一種生成模型,一篇文章中每個詞都是通過“以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的.每個主題下的主題詞都服從一個多項(xiàng)式分布(Multinomial distribution).LDA的概率圖模型如圖2所示.
圖2 LDA概率模型圖Fig.2 LDA probability model
在圖2中,α,β分別是文本-主題和主題-詞匯分布的先驗(yàn)參數(shù).d代表一篇文本.θ為文本中主題-文檔的概率分布參數(shù),φ則為每一個主題分布下詞語的分布參數(shù).Z表示為其中一個主題,W表示為一個詞匯,M表示文檔總數(shù),N表示所有文檔中的詞的總數(shù).由于吉普斯采樣具有簡單、快速的特點(diǎn),所以本文采用吉布斯采樣[15]方法來訓(xùn)練.假設(shè)我們從一組漢語詞匯表WS抽取出一個詞wi,給定一個漢語主題分布zk.則其詞-主題概率分布為:
(1)
其中,n代表主題分配到詞匯表中的單詞次數(shù).|WS|代表詞匯表中不同單詞的總數(shù).∑j=1|WS|n分配給主題的單詞總數(shù).首先利用LDA主題模型從漢緬新聞篇章抽取到漢緬主題集合,得到每個主題下的詞-概率分布,其次通過漢語篇章文本和緬甸語篇章文本抽取到的各自主題來訓(xùn)練漢語和緬甸語的主題詞向量,分別令xi表示漢語主題詞的連續(xù)向量表示,zj表示緬語主題詞的連續(xù)向量表示.利用種子詞典學(xué)習(xí)到映射矩陣W,通過映射Wxi到緬語語言空間,計(jì)算Wxi與zj向量之間的余弦相似度,如果漢緬雙語詞向量之間的相似性越高,那它們之間是互譯詞匯的準(zhǔn)確率也越高.本文采用余弦相似度計(jì)算漢緬雙語詞向量之間的相似度,計(jì)算公式如下所示:
(2)
然后對上述相似度進(jìn)行排序,選取前N個緬語作為漢語單詞的候選翻譯列表.
基于此,本文采用 Google開源的BERT模型來構(gòu)造候選詞匯的上下文特征表示,可以從候選詞匯的前后單詞中學(xué)習(xí)其上下文關(guān)系.BERT的設(shè)計(jì)基于Transformer[19]網(wǎng)絡(luò)結(jié)構(gòu).Transformer對當(dāng)前的輸入,分別計(jì)算Key,Query,Value向量,并基于上述向量對每個輸入使用注意力機(jī)制,以獲得當(dāng)前輸入與上下文語義的關(guān)系和自身所包含的信息.通過多層累加和多頭注意力機(jī)制,不斷獲取當(dāng)前輸入更為合適的向量表示.所以利用多語言BERT模型訓(xùn)練主題雙語詞匯能得到更好的上下文特征表示,設(shè)Si為漢語主題詞的上下文特征表示,Tj為緬語主題詞的上下文特征表示,則余弦相似度為:
(3)
一旦提取上下文雙語詞匯,我們將它們與主題雙語詞匯相結(jié)合.結(jié)合后,詞匯的質(zhì)量將得到提高.因此,我們進(jìn)一步使用組合詞匯作為新的種子詞典,繼而抽取到更好的漢緬雙語詞匯.通過重復(fù)這些步驟,上下文雙語詞匯和組合雙語詞匯質(zhì)量將被反復(fù)改進(jìn),直至模型收斂.
(4)
其中λ是兩種方法線性結(jié)合過程中的超參數(shù).我們首先使用主題特征的方法為漢語單詞生成一個前N個候選列表(緬甸語候選詞).然后通過上下文特征向量計(jì)算候選列表詞中的相似度.最后,我們進(jìn)行組合.因此,組合過程是一次對基于主題特征抽取的候選詞的重新排序?qū)崿F(xiàn)漢緬雙語詞匯抽取.
為了避免數(shù)據(jù)的單一性,我們分別從漢-緬雙語網(wǎng)站、緬甸官方新聞網(wǎng)站、中文新聞網(wǎng)站、微信公眾號等網(wǎng)絡(luò)平臺獲取778篇漢-緬雙語可比文檔,覆蓋了政治,軍事,娛樂等多個方面,這些語料包括政治領(lǐng)域271篇,軍事領(lǐng)域296篇,娛樂領(lǐng)域211篇,合計(jì)778篇.其中漢語的平均句子長度為23,緬語的平均句子長度為18,如表1所示.
表1 漢-緬雙語可比文檔數(shù)據(jù)集Table 1 Chinese-Burmese comparable document data set
接著我們對搜集到的語料進(jìn)行預(yù)處理,利用昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室研發(fā)的緬甸語分詞工具對緬甸語進(jìn)行分詞,利用jieba分詞工具對漢語進(jìn)行分詞,去除停用詞等處理.此外,通過人工方式構(gòu)建了一個小規(guī)模的漢-緬雙語種子詞典,如表2所示.
表2 訓(xùn)練漢-緬雙語詞向量的種子詞典規(guī)模Table 2 Seed dictionary scale for training Chinese-Burmese bilingual word vectors
LDA模型中設(shè)置訓(xùn)練的超參數(shù)α=0.1,β=0.1,迭代次數(shù)為500次,每篇文章的主題數(shù)為5;詞向量維度設(shè)置300維;對于我們提出的方法,我們根據(jù)經(jīng)驗(yàn)設(shè)置線性組合參數(shù)λ=0.8.
為了驗(yàn)證本文方法在漢緬雙語詞匯抽取的效果,設(shè)計(jì)了3組對比實(shí)驗(yàn).
對比實(shí)驗(yàn)1.本文與當(dāng)前其他方法的對比實(shí)驗(yàn)
對比實(shí)驗(yàn)2.不同種子詞典規(guī)模對詞匯抽取的影響
對比實(shí)驗(yàn)3.在不同P@N值下詞匯抽取的準(zhǔn)確率
本文將準(zhǔn)確率P@N(前N個候選翻譯的準(zhǔn)確率)作為評價指標(biāo),定義如下:
(5)
其中,S代表實(shí)驗(yàn)中對應(yīng)的是測試詞典中詞的總數(shù);wi代表測試詞典中的源詞,|T(wi)|代表在測試詞典中源詞對應(yīng)的目標(biāo)詞匯.
實(shí)驗(yàn)1.當(dāng)前的雙語詞匯抽取方法與本文方法實(shí)驗(yàn)結(jié)果比較.
表3 本文方法與其他方法抽取雙語詞匯的準(zhǔn)確率Table 3 Accuracy of bilingual vocabulary extraction with this method and other methods
由表3可知,我們提出的方法可以顯著提高漢緬雙語詞匯的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果也表明明顯優(yōu)于其他幾種方法,同基于雙語LDA+CBW的方法相比,本文方法準(zhǔn)確率提升了3.82%,主要原因在于BERT不僅僅是只關(guān)注一個詞前文或后文的信息,而是整個模型的所有層都去關(guān)注其整個上下文的語境信息,得到更好的上下文特征表示向量.同基于雙語詞典的方法和基于樞軸語言的方法相比,本文方法準(zhǔn)確率分別提升了11.07%和13.27%.主要原因在于基于雙語詞典的方法未考慮到雙語可比文檔的主題特征對候選翻譯的有效約束和基于樞軸語言的方法容易出現(xiàn)一詞多譯,錯譯等問題.
實(shí)驗(yàn)2.種子詞典規(guī)模對抽取詞匯效果的影響.
圖3 不同種子詞典規(guī)模下的準(zhǔn)確率Fig.3 Accuracy at different seed dictionary sizes
其次,種子詞典是漢緬兩種語義空間的中間橋梁,其規(guī)模大小對抽取的準(zhǔn)確率也有著非常重要的影響.我們將種子詞典分成不同比例的規(guī)模大小,然后進(jìn)行對比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如圖3所示.從圖3中可以看出,伴隨著種子詞典規(guī)模的擴(kuò)大,抽取到的漢緬雙語詞匯準(zhǔn)確率一直在逐漸上升.當(dāng)詞典規(guī)模比例從0.8增加到1的時候,準(zhǔn)確率上升的比較慢,主要原因是漢緬可比文檔中,常見詞已經(jīng)得到補(bǔ)充,而生僻詞的出現(xiàn)導(dǎo)致模型達(dá)到飽和.
實(shí)驗(yàn)3.為驗(yàn)證方法的準(zhǔn)確率與抽取的候選詞個數(shù)之間的關(guān)系,實(shí)驗(yàn)還比較了P@1、P@5 和 P@10 的準(zhǔn)確率.具體實(shí)驗(yàn)結(jié)果見表4.
表4 本文方法在不同P@N值下的準(zhǔn)確率Table 4 Accuracy of this method under different P@N values
分析表4可知,本文方法的準(zhǔn)確率隨候選詞的增多而逐漸上升,當(dāng)候選詞數(shù)量為 1 時便可獲得較高的準(zhǔn)確率,而當(dāng)候選詞為10 時,準(zhǔn)確率可以達(dá)到74.58%,這同時說明了不同語言在向量空間上具有同構(gòu)性.
為了抽取漢緬雙語詞匯,本文提出了一種融合主題及上下文特征的漢緬雙語詞匯抽取方法.有效利用了漢緬雙語主題的特征信息和上下文信息,進(jìn)而抽取到質(zhì)量更高的雙語詞匯.實(shí)驗(yàn)結(jié)果表明,本文方法相比其他僅使用主題特征和上下文特征的方法相比,準(zhǔn)確率有明顯提升.同基于雙語LDA+CBW的方法相比,本文克服了漢緬雙語LDA難以構(gòu)建的問題,同時利用BERT訓(xùn)練得到具有上下文語義特征的上下文表示向量,進(jìn)一步提升了漢緬雙語詞匯的準(zhǔn)確率.在未來的研究當(dāng)中,我們可以將該方法用于其他稀缺語言中,如漢語-老撾語、柬埔寨等東南亞語言雙語詞匯抽取,為開展面向漢語-東南亞語跨語言檢索及機(jī)器翻譯研究提供數(shù)據(jù)支撐.