韓夢(mèng)凡,曹海龍
(哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部 機(jī)器智能與翻譯實(shí)驗(yàn)室,哈爾濱 150001)
雙語(yǔ)詞典抽取能夠抽取出不同語(yǔ)言中含義相同的單詞。作為機(jī)器翻譯的基礎(chǔ),雙語(yǔ)詞典也被應(yīng)用到跨語(yǔ)言自然語(yǔ)言處理任務(wù)中。在跨語(yǔ)言任務(wù)中,雙語(yǔ)詞典作為共享的跨語(yǔ)言特征將在一個(gè)語(yǔ)言上訓(xùn)練得到的模型應(yīng)用到其它語(yǔ)言上??缯Z(yǔ)言命名實(shí)體識(shí)別、跨語(yǔ)言信息檢索以及跨語(yǔ)言文檔分類等都利用該思想進(jìn)行跨語(yǔ)言任務(wù)學(xué)習(xí)。
雙語(yǔ)詞典的抽取需要大規(guī)模高質(zhì)量的平行語(yǔ)料,例如Mikolov 和Xing 等人的工作都采用了規(guī)模較大的詞典作為監(jiān)督方式學(xué)習(xí)跨語(yǔ)言詞向量,進(jìn)而抽取雙語(yǔ)詞典。由于高質(zhì)量大規(guī)模的平行語(yǔ)料難以獲取,不需要任何監(jiān)督信息的無(wú)監(jiān)督方法逐步成為研究熱點(diǎn)[1-2];Barone 等人首次提出采用生成對(duì)抗訓(xùn)練進(jìn)行無(wú)監(jiān)督學(xué)習(xí)[3];zhang 等人在此基礎(chǔ)上提升生成對(duì)抗訓(xùn)練方法的性能[4];Artetxe 等人利用無(wú)監(jiān)督初始化和迭代自學(xué)習(xí)進(jìn)行無(wú)監(jiān)督跨語(yǔ)言詞向量表示學(xué)習(xí)來(lái)抽取詞典[5];Lample 等人將生成對(duì)抗訓(xùn)練與迭代學(xué)習(xí)過(guò)程進(jìn)行結(jié)合,利用對(duì)抗訓(xùn)練獲取初始化詞典之后進(jìn)行迭代增強(qiáng)[6]。盡管無(wú)監(jiān)督方法在部分語(yǔ)言上(如英語(yǔ)-西班牙語(yǔ))的性能與有監(jiān)督方法不相上下,但是無(wú)監(jiān)督方法隱含了不同語(yǔ)言的詞向量是同構(gòu)的假設(shè)。S?gaard 等人的研究表明詞向量之間的同構(gòu)性受到多種因素的影響,不同語(yǔ)言的同構(gòu)程度是不同的[7]?;谝陨显?,本文提出了一種同構(gòu)性增強(qiáng)的方法,來(lái)提升無(wú)監(jiān)督方法在雙語(yǔ)詞典抽取上的性能,該方法首先利用基線模型抽取雙語(yǔ)詞典,根據(jù)雙語(yǔ)詞典替換且合并單語(yǔ)語(yǔ)料,對(duì)混合語(yǔ)料進(jìn)行訓(xùn)練,提升不同語(yǔ)言詞向量的同構(gòu)性,進(jìn)而提升雙語(yǔ)詞典性能。在維基百科語(yǔ)料英文-中文實(shí)驗(yàn)上,本文提出的方法有明顯的提升。
本文在Artetxe 等人提出的無(wú)監(jiān)督雙語(yǔ)詞典抽取模型(vecmap)的基礎(chǔ)上,提出了一個(gè)基于混合語(yǔ)料的無(wú)監(jiān)督雙語(yǔ)詞典構(gòu)建模型,模型的示意圖如圖1 所示。
基于混合語(yǔ)料的無(wú)監(jiān)督雙語(yǔ)詞典構(gòu)建模型包含3 部分,第一部分利用基線模型將單語(yǔ)詞向量映射至同一個(gè)空間并抽取詞典;第二部分利用抽取的詞典將源語(yǔ)言及目標(biāo)語(yǔ)言單語(yǔ)語(yǔ)料中的單詞替換并合并為混合語(yǔ)料,訓(xùn)練混合語(yǔ)料得到新的單語(yǔ)詞向量XN與YN;第三部分利用基線模型映射詞向量XN與YN至同一空間并抽取詞典。
訓(xùn)練混合語(yǔ)料過(guò)程中被詞典替換后的單詞能夠影響上下文單詞,使對(duì)應(yīng)上下文單詞更加接近,從而可以增強(qiáng)不同語(yǔ)言之間單語(yǔ)詞向量的同構(gòu)性。
本文提出的模型結(jié)構(gòu)中,基線模型vemcap 采用了無(wú)監(jiān)督初始化詞典以及迭代自學(xué)習(xí),不斷更新詞典和映射矩陣,最終利用映射矩陣W把源語(yǔ)言詞向量映射到同一個(gè)空間。本文采用Lample 等人提出的跨域相似性局部縮放方法(cross-domain similarity local scaling,CSLS)[6]替代最近鄰方法抽取詞典。
在抽取詞典時(shí)采用CSLS 方法尋找源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯,得到對(duì)應(yīng)的翻譯對(duì),根據(jù)翻譯對(duì)抽取詞典。本文提出了兩種抽取詞典方式:
(1)基于頻率進(jìn)行詞典抽取。在抽取詞典的過(guò)程中,根據(jù)源語(yǔ)言單詞出現(xiàn)的頻率作為選取準(zhǔn)則,源語(yǔ)言單詞出現(xiàn)的頻率越高,該源語(yǔ)言單詞對(duì)應(yīng)的翻譯對(duì)越優(yōu)先被抽??;源語(yǔ)言單詞出現(xiàn)的頻率越低,該源語(yǔ)言單詞對(duì)應(yīng)的翻譯對(duì)越靠后被抽??;
(2)基于CSLS值進(jìn)行詞典抽取。該方式在抽取詞典的過(guò)程中,根據(jù)已有翻譯對(duì)對(duì)應(yīng)的CSLS值進(jìn)行詞典抽取,翻譯對(duì)對(duì)應(yīng)的CSLS值越大,對(duì)應(yīng)翻譯對(duì)越容易被抽取;翻譯對(duì)對(duì)應(yīng)的CSLS值越小,對(duì)應(yīng)翻譯對(duì)越難以被抽取。
利用抽取得到詞典替換合并語(yǔ)料:首先將詞典中的詞對(duì)聯(lián)結(jié)成為一個(gè)特殊的聯(lián)結(jié)對(duì),接下來(lái)將單語(yǔ)語(yǔ)料中出現(xiàn)在詞典中的單詞替換成對(duì)應(yīng)的聯(lián)結(jié)對(duì),具體例子見表1。
表1 替換合并語(yǔ)料例子Tab.1 Example of replacing and merging corpus
在訓(xùn)練混合語(yǔ)料過(guò)程中,本文采用了word2vec方法進(jìn)行混詞向量的訓(xùn)練?;旌险Z(yǔ)料訓(xùn)練詞向量中,根據(jù)上下文預(yù)測(cè)中心詞的過(guò)程如圖2 所示。
圖2 混合語(yǔ)料預(yù)測(cè)中心詞Fig.2 Example of predicting center word from Mixed Corpus
根據(jù)圖2 可以發(fā)現(xiàn),數(shù)學(xué)???math 的翻譯聯(lián)結(jié)對(duì)能夠影響“學(xué)習(xí)”和“l(fā)earning”,根據(jù)單詞的語(yǔ)義是由上下文決定的分布假設(shè),經(jīng)過(guò)詞向量訓(xùn)練后的“學(xué)習(xí)”和“l(fā)earning”會(huì)更加接近彼此。采用混合語(yǔ)料訓(xùn)練詞向量的方式能夠提升單語(yǔ)詞向量的同構(gòu)性。
在得到混合詞向量后,將混合詞向量分離為源語(yǔ)言單語(yǔ)詞向量與目標(biāo)語(yǔ)言單語(yǔ)詞向量,具體見表2。
表2 分離混合詞向量Tab.2 Example of separating mixed word embedding
本文的實(shí)驗(yàn)在維基百科中文和英文單語(yǔ)語(yǔ)料進(jìn)行,評(píng)價(jià)指標(biāo)包括抽取雙語(yǔ)詞典的準(zhǔn)確率以及詞向量同構(gòu)性的程度。詞向量同構(gòu)性程度的衡量采用了S?gaard 等人提出的奇異向量相似度(Eigenvector Similarity,EVS)[7]。EVS值越低,同構(gòu)性越好;EVS值越高,同構(gòu)性越差。
本文提出的方法在雙語(yǔ)詞典抽取任務(wù)上的結(jié)果見表3,其中CSLS、frequency 分別表示基于CSLS值抽取詞典以及基于頻率抽取詞典,參數(shù)dict 表示抽取詞典的規(guī)模。
表3 基于混合語(yǔ)料的詞典抽取結(jié)果Tab.3 Dictionary induction accuracy based on mixed corpus
可以發(fā)現(xiàn)不論是基于頻率方法還是基于CSLS值方法,在詞典規(guī)模合適的情況下,本方法面向詞典抽取任務(wù)上的結(jié)果有明顯的提升。在基于CSLS值替換的方法中最高能夠達(dá)到51.14%,在基于頻率替換的方法中最高能夠達(dá)到51.97%,遠(yuǎn)遠(yuǎn)超過(guò)基線模型的46.44%。驗(yàn)證了本文提出的方法在雙語(yǔ)詞典抽取任務(wù)上的有效性。
根據(jù)表3 可以發(fā)現(xiàn),隨著抽取詞典規(guī)模的增大,雙語(yǔ)詞典的性能并沒(méi)有隨著提升。一個(gè)可能的原因是由于隨著抽取詞典規(guī)模的增大,詞典對(duì)應(yīng)的質(zhì)量隨之降低。詞典中錯(cuò)誤翻譯對(duì)上下文也產(chǎn)生了影響,最終導(dǎo)致雙語(yǔ)詞典抽取任務(wù)性能下降。
本文基于混合語(yǔ)料訓(xùn)練得到單語(yǔ)詞向量在同構(gòu)性評(píng)價(jià)指標(biāo)上的結(jié)果見表4,其中10 k、20 k 表示抽取最常用10 k 或者20 k 單詞衡量對(duì)應(yīng)詞向量之間的同構(gòu)性。
表4 詞向量同構(gòu)性結(jié)果Tab.4 Isomorphism results of word embedding
通過(guò)表4 可以發(fā)現(xiàn),本文提出方法詞向量同構(gòu)性相對(duì)于原始方法有明顯的提升,驗(yàn)證了本文提出方法能夠提升不同語(yǔ)言詞向量之間的同構(gòu)性。對(duì)比在10k 與20k 的結(jié)果可以發(fā)現(xiàn),頻率越高的單詞對(duì)應(yīng)的同構(gòu)性越好。
本文提出了一種基于混合語(yǔ)料訓(xùn)練的無(wú)監(jiān)督雙語(yǔ)詞典構(gòu)建方法。該方法根據(jù)單語(yǔ)詞向量訓(xùn)練方法,采用分布假設(shè)的特性,提出了將單語(yǔ)語(yǔ)料中的單詞替換成抽取詞典翻譯聯(lián)結(jié)對(duì),并將原始單語(yǔ)語(yǔ)料合并的混合語(yǔ)料的方法。該方法增強(qiáng)了單語(yǔ)詞向量之間的同構(gòu)性,同時(shí)在雙語(yǔ)詞典抽取任務(wù)上有明顯的提升。無(wú)監(jiān)督雙語(yǔ)詞典抽取的同構(gòu)性假設(shè)制約了無(wú)監(jiān)督算法的性能,除了增強(qiáng)不同語(yǔ)言詞向量之間的同構(gòu)性,未來(lái)還可以探索其它不需要同構(gòu)性假設(shè)的方法。