孫海鵬 趙鐵軍
摘 要:神經(jīng)機器翻譯模型的學習往往依賴于大規(guī)模的平行語料,然而并不是所有語言對都有充足的平行語料。為了解決神經(jīng)機器翻譯中平行語料缺失的問題,研究人員提出了無監(jiān)督神經(jīng)機器翻譯,通過無監(jiān)督預訓練策略、去噪自編碼器、反向翻譯和共享潛在表示機制僅依賴于單語語料對翻譯任務進行建模。本文從模型主要機制、訓練過程出發(fā)來分析無監(jiān)督神經(jīng)機器翻譯,并介紹無監(jiān)督神經(jīng)機器翻譯現(xiàn)階段的發(fā)展以及存在的挑戰(zhàn)。
關鍵詞:無監(jiān)督神經(jīng)機器翻譯;去噪自編碼器;反向翻譯
【Abstract】Thetrainingofneuralmachinetranslationoftenreliesonlarge-scaleparallelcorpora,butnotalllanguagepairshavesufficientparallelcorpora.Inordertoalleviatetheproblemofthelackofparallelcorporainneuralmachinetranslation,unsupervisedneuralmachinetranslationisproposedtomodeltranslationrelyingsolelyonmonolingualcorporawiththehelpofacombinationofdiversemechanismssuchasunsupervisedpre-trainingstrategy,denoisingauto-encoder,back-translation,andsharedlatentrepresentation.Thispaperanalyzesunsupervisedneuralmachinetranslationfromtheperspectiveofmodelmechanismandtrainingprocess,andintroducestheadvancesandchallengesofunsupervisedneuralmachinetranslationatthepresentstage.
【Keywords】unsupervisedneuralmachinetranslation;denoisingauto-encoder;back-translation
作者簡介:孫海鵬(1990-),男,博士研究生,主要研究方向:自然語言處理、機器翻譯;趙鐵軍(1962-),男,博士,教授,博士生導師,主要研究方向:自然語言處理、機器翻譯、機器學習與人工智能。
0 引 言
自注意力機制和transformer[1]模型的提出顯著提升了神經(jīng)機器翻譯模型的性能,但是神經(jīng)機器翻譯模型訓練需要大量的平行語料,而實際上大多數(shù)語言對的平行語料并不充足,甚至一些稀缺語言對只有少量的平行語料。通常構建平行語料庫的成本很高,而平行語料的缺失往往會導致神經(jīng)機器翻譯模型性能的急速下降[2],為了緩解平行語料缺失對神經(jīng)機器翻譯模型性能產(chǎn)生的消極影響,研究者們開始嘗試僅使用單語語料來訓練無監(jiān)督神經(jīng)機器翻譯模型[3-4]。相較于平行語料,單語語料更容易挖掘與獲取。許多只有有限平行數(shù)據(jù)的語言仍然擁有大量的單語數(shù)據(jù)。無監(jiān)督雙語詞嵌入[4-5]的出現(xiàn)也使得神經(jīng)機器翻譯模型在無監(jiān)督模式下進行成為了可能,利用去噪自編碼器[6]和反向翻譯[7]訓練在不使用平行語料的前提下完成了雙語間的翻譯建模。
本文的框架如下:首先介紹無監(jiān)督神經(jīng)機器翻譯的模型主要機制及訓練過程,然后詳述無監(jiān)督神經(jīng)機器翻譯的發(fā)展過程,再給出現(xiàn)階段無監(jiān)督神經(jīng)機器翻譯存在的挑戰(zhàn),最后是論文研究結(jié)論。
1 無監(jiān)督神經(jīng)機器翻譯的主要機制
1.1 無監(jiān)督預訓練方法
與有監(jiān)督神經(jīng)機器翻譯模型[1,8]相比,無監(jiān)督神經(jīng)機器翻譯模型在訓練過程中并不存在監(jiān)督的雙語信號。因此,在無監(jiān)督神經(jīng)機器翻譯模型訓練開始前,需要通過無監(jiān)督預訓練模型對無監(jiān)督神經(jīng)機器翻譯模型進行初始化提供樸素的雙語信號。
最初,無監(jiān)督雙語詞嵌入被用來對無監(jiān)督神經(jīng)機器翻譯模型編碼器和解碼器的詞嵌入層進行初始化。無監(jiān)督雙語詞嵌入[4-5]可以從2個非平行的單語語料庫中學習了詞對翻譯。通過雙語詞嵌入初始化后,編碼器就得到了語言獨立的詞級表示,且只需要學習如何將其組合起來以構建更大的短語表示。無監(jiān)督雙語詞嵌入提供樸素的翻譯知識,使反向翻譯可以產(chǎn)生偽監(jiān)督雙語信號[3-4]。
隨著預訓練語言模型的廣泛研究,預訓練語言模型[9]也被用來初始化無監(jiān)督神經(jīng)機器翻譯模型的編碼器和解碼器。通過語言模型訓練來建立一個跨語言編碼器,該編碼器將2個單語句子編碼到共享的潛在空間中。與無監(jiān)督雙語詞嵌入相比,預訓練語言模型可以為無監(jiān)督神經(jīng)機器翻譯模型提供更多的跨語言信息。
1.2 去噪自編碼器
由于無監(jiān)督神經(jīng)機器翻譯模型的對偶結(jié)構,可以直接通過重建其自身的輸入進行訓練。具體來說,將指定語言的輸入句子進行編碼,再用該語言的解碼器重新構造原始的句子,來對無監(jiān)督神經(jīng)機器翻譯模型進行優(yōu)化。如果不添加一些約束條件,普通的自編碼器很難學習到有用的知識,將變成一個復制任務,只學習到對輸入單詞的一對一復制[3-4]。為了改進這一問題不足,引入了去噪自編碼器策略[6],并在輸入語句中增加了噪聲,以提高模型學習能力[10-11]。研究中,即選擇了2種不同類型噪聲加入到輸入語句中[4]。在輸入語句中的任意單詞以概率被刪除,概率越大,輸入語句中被刪除的單詞越多。第二類噪聲是對輸入語句的語序進行輕微調(diào)整。通過這種去噪自編碼器策略,無監(jiān)督神經(jīng)機器翻譯系統(tǒng)需要了解所涉及語言的內(nèi)部結(jié)構,以便能夠恢復正確的詞序。同時,通過阻止無監(jiān)督神經(jīng)機器翻譯系統(tǒng)過多地依賴輸入語句的詞序,語言之間的實際語序差異可以更好地被解釋。
1.3 反向翻譯
去噪自編碼器作為一個語言模型,在同一種語言中進行訓練,并沒有考慮在2種語言之間翻譯的最終目標。因此將引入反向翻譯[7]來訓練這個僅使用單語語料的無監(jiān)督翻譯系統(tǒng)。反向翻譯可以將這個無監(jiān)督問題轉(zhuǎn)換成為有監(jiān)督的學習任務,盡管是帶有噪聲的源端語句。在給定一種語言L1的輸入語句的情況下,推理模式使用L1編碼器進行編碼,用L2解碼器進行解碼,同時又使用了貪心解碼來將其轉(zhuǎn)換為另一種語言的譯文。通過這種方法,即獲取了偽平行句對,并將其用來訓練無監(jiān)督神經(jīng)機器翻譯系統(tǒng),再從這個帶有噪聲的合成翻譯中預測出原有語句。標準的反向翻譯是使用一個獨立的模型一次性反向翻譯整個語料庫,與標準的反向翻譯不同,由于無監(jiān)督神經(jīng)機器翻譯系統(tǒng)的對偶結(jié)構,在無監(jiān)督神經(jīng)機器翻譯模型訓練過程中,正在訓練無監(jiān)督神經(jīng)機器翻譯模型將會用于實時反向翻譯每一個batch的語句。這樣,隨著訓練的進行和模型的改進,通過反向翻譯會產(chǎn)生更好的偽平行句對,必將有助于在接下來的迭代中進一步改進模型。
2 無監(jiān)督神經(jīng)機器翻譯的優(yōu)化方法
2.1 模型參數(shù)共享
Artetxe等人[3]和Lample等人[4]使用去噪自編碼器和反向翻譯在沒有平行語料的情況下進行無監(jiān)督神經(jīng)機器翻譯訓練,與Artetxe等人[3]僅采用共享編碼器方法不同的是,Lample等人[4]不僅采用共享編碼器,也將共享解碼器,只是針對不同語言會使用不同的詞嵌入層。Yang等人[12]認為共享編碼器對于將不同語言的句子映射到共享的潛在空間至關重要,但卻并不能很好地保持每種語言的獨特性和內(nèi)部特征。由于每種語言都有自己的特性,源語言和目標語言應獨立編碼和學習,共享編碼器會是限制無監(jiān)督神經(jīng)機器翻譯性能的一個因素。為了解決這個問題,Yang等人[12]利用2個獨立的編碼器來代替原有的共享編碼器,每個編碼器對應一種語言,也同樣會用到2個獨立的解碼器。為了在訓練過程中更好地將不同語言的潛在表示映射到共享潛在空間,可利用權重共享來約束現(xiàn)有的無監(jiān)督神經(jīng)機器翻譯模型??偟貋碚f,負責抽取輸入句子的高級表示的2個編碼器的末端多層的權重以及2個解碼器的前端多層的權重將被共享。稍后的大部分無監(jiān)督翻譯工作也都是基于這三種參數(shù)共享框架開展的。
2.2 模型機制優(yōu)化
通常,無監(jiān)督神經(jīng)機器翻譯模型主要包括無監(jiān)督預訓練模型、去噪自編碼器、反向翻譯和共享潛在表示四個機制,很多工作通過優(yōu)化這4個機制來提升無監(jiān)督神經(jīng)機器翻譯的性能。
與先前研究工作[3-4,12]使用雙語詞嵌入作為翻譯模型的初始化不同,Lample等人[13]提出了一種更適合相似語言對的初始化方法,并沒有學習源語言和目標語言之間的顯式映射,而是將2個單語語料庫合并成一個語料庫,對其進行BPE[14]操作后,在這個語料庫上學習token級的詞嵌入[15],這個詞嵌入將用來初始化翻譯模型中編碼器和解碼器的詞嵌入層。然而,這種初始化方法并不適用于一些不相似語言對。
隨著預訓練語言模型被廣泛研究,Conneau等人[9],Song等人[16]和Ren等人[17]使用跨語言掩碼語言模型預訓練方法代替原有的詞嵌入預訓練方法對翻譯模型中的所有參數(shù)進行初始化,大幅度提升無監(jiān)督神經(jīng)機器翻譯模型性能。與詞嵌入預訓練方法相比,語言模型預訓練方法可以為無監(jiān)督神經(jīng)機器翻譯模型提供更多的跨語言信息。Sun等人[18-19]提出跨語言一致性方法來進一步提升翻譯性能。
Kim等人[20]并沒有使用反向翻譯進行模型訓練,提出一種基于雙語詞嵌入單詞翻譯的方法,來提升模型的訓練速度。與此同時,Wu等人[21]也認為由于生成的偽平行句對通常質(zhì)量不高,翻譯誤差容易積累,為此,Wu等人[21]從可比的單語語料庫中抽取真實的平行語句來訓練翻譯模型。
2.3 語言對選擇
無監(jiān)督神經(jīng)機器翻譯研究工作通常是在法英、德英等相似語言對上來對系統(tǒng)的有效性進行驗證。后來一些研究者也在不相似語言對和多語言方面開展無監(jiān)督神經(jīng)機器翻譯研究。Leng等人[22]通過引入中軸語翻譯來解決無監(jiān)督神經(jīng)機器翻譯在不相似語言對中性能低的問題。Xu等人[23]提出多邊形網(wǎng)絡(Polygon-Net)框架,利用額外的輔助語言聯(lián)合學習增強無監(jiān)督神經(jīng)機器翻譯模型的性能。Sen等人[24]通過一個共享編碼器和多個特定語言的解碼器來聯(lián)合訓練多語言無監(jiān)督神經(jīng)機器翻譯模型。Sun等人[25]在大規(guī)模歐洲單語語料上訓練多語言無監(jiān)督神經(jīng)機器翻譯模型,并提出特有的知識蒸餾方法改善翻譯性能。
2.4 引入統(tǒng)計機器翻譯
隨著無監(jiān)督神經(jīng)機器翻譯模型在一些語言對上可以獲得顯著性能的同時,許多研究者開始探索統(tǒng)計機器翻譯的模塊化特性是否更適合這種僅依賴單語語料庫的無監(jiān)督設置,提出了全新的無監(jiān)督統(tǒng)計機器翻譯模型[13,26-27]。Lample等人[13],Marie等人[28],Ren等人[29]和Artetxe等人[27]將無監(jiān)督神經(jīng)機器翻譯與無監(jiān)督統(tǒng)計機器翻譯相結(jié)合進一步提升翻譯性能。Lample等人[13]將無監(jiān)督統(tǒng)計機器翻譯系統(tǒng)生成的數(shù)據(jù)添加到無監(jiān)督神經(jīng)機器翻譯模型生成的反向翻譯數(shù)據(jù)中進一步優(yōu)化無監(jiān)督神經(jīng)機器翻譯模型。Marie等人[28]提出在無監(jiān)督翻譯場景下使用監(jiān)督的神經(jīng)機器翻譯框架,只是使用無監(jiān)督統(tǒng)計機器翻譯模型生成的偽平行語料代替真實的平行語料,并且使用正向翻譯代替反向翻譯以提高翻譯質(zhì)量,消除對2個翻譯方向同時進行訓練的需要。Ren等人[29]利用統(tǒng)計機器翻譯作為后驗正則化在迭代反向翻譯過程中去噪和指導無監(jiān)督神經(jīng)機器翻譯模型訓練,來消除反向翻譯帶來隨機誤差。Ren等人[30]認為使用雙語詞嵌入方法初始化短語表很難恢復一些訓練語句中的復雜句子結(jié)構,并且這個短語表中會存在大量噪聲。為了解決這一問題,Ren等人[30]利用無監(jiān)督的跨語言句子嵌入方法從2種語言的單語語料庫中檢索語義上相似的句子對,再通過GIZA++[31]來獲得單詞對齊,刪除檢索到的目標句子中未對齊的單詞,并使用一個序列到序列的重寫模型對修改后的目標句進行重寫,以減少源語言語句和目標語言語句之間的語義差距。
2.5 引入額外信息
源端語句和目標端語句在潛在空間中進行關聯(lián)是無監(jiān)督神經(jīng)機器翻譯模型的一個難點。Su等人[32]和Huang等人[33]提出多模態(tài)無監(jiān)督神經(jīng)機器翻譯模型,利用圖像信息在翻譯訓練過程中消除歧義,促進潛在空間的對齊,進一步提升翻譯性能。Duan等人[34]使用額外的雙語詞典來建立錨點,縮小源語言和目標語言之間的差距以提升翻譯性能。Garcia等人[35]和Li等人[36]引入第三種語言,這種語言與源端或者目標端之間存在平行語料,利用額外引入的平行語料來提升翻譯性能。
2.6 其他
Pourdamghani等人[37]通過將無監(jiān)督神經(jīng)機器翻譯訓練分解為2個階段。第一階段,通過一個源端到目標端的詞典生成粗略的譯文(Translationese),翻譯過程中采用Kim等人[20]的方法加入語言模型,基于上下文信息進行詞匯選擇。第二階段,使用一些高資源語言對的平行語料訓練一個由Translationese到流暢目標端譯文的翻譯模型。在遷移到新的源語言時,該方法不需要對翻譯模型進行重新訓練,只需要一個源端到目標端的字典,這使得該方法可以快速地應用到其他新的語言中。Sun等人[38]通過對抗訓練方法提高無監(jiān)督神經(jīng)機器翻譯的魯棒性。近年來,國際機器翻譯評測(WMT)也引入了無監(jiān)督機器翻譯任務,吸引許多研究者們關注與參與[39-40]。
3 無監(jiān)督神經(jīng)機器翻譯的挑戰(zhàn)
雙語詞嵌入的出現(xiàn)使機器翻譯在單語語料上以無監(jiān)督方式完成雙語間的翻譯成為了可能。盡管現(xiàn)如今大量工作集中在無監(jiān)督神經(jīng)機器翻譯的相關研究上,但是無監(jiān)督神經(jīng)機器翻譯的研究依然存在一些不足和局限性[41-42]。
目前,無監(jiān)督神經(jīng)機器翻譯的研究工作多數(shù)情況下是在英法、英德等相似語言對上驗證方法的有效性,并沒有考慮語言的多樣性。通常,在一些不相似語言對上雙語詞嵌入準確率并不高[43],無監(jiān)督神經(jīng)機器翻譯在這些語言對上則會獲得更差的性能。如何在諸如中英、日英等不相似語言對上提升無監(jiān)督神經(jīng)機器翻譯質(zhì)量是一個值得研究的課題。此外,在一些真正低資源語言對上進行無監(jiān)督神經(jīng)機器翻譯訓練也亟待進一步探索。
相較于有監(jiān)督機器翻譯,無監(jiān)督神經(jīng)機器翻譯領域自適應問題并未獲得充分研究。除了有監(jiān)督存在的訓練集和測試集領域不一致以外,無監(jiān)督翻譯的訓練集間也可能存在領域不一致的問題[44],從而使得無監(jiān)督神經(jīng)機器翻譯領域自適應問題變得更為復雜。此外,單語數(shù)據(jù)大小以及2種語言間單語數(shù)據(jù)間存在的數(shù)量不平衡性[45]也會影響無監(jiān)督神經(jīng)機器翻譯性能。
傳統(tǒng)的無監(jiān)督神經(jīng)機器翻譯模型在訓練過程中會同時對一個語言對的2個不同翻譯方向進行訓練,無監(jiān)督神經(jīng)機器翻譯的訓練過程主要依賴無監(jiān)督預訓練策略、去噪自編碼器、反向翻譯和共享潛在表示機制,然而這些機制本身存在自身的局限性。預訓練模型的質(zhì)量會顯著影響翻譯模型的質(zhì)量。通過去噪自編碼器訓練可以使無監(jiān)督神經(jīng)機器翻譯模型獲得更流暢通順的譯文,然而通過不斷修改訓練數(shù)據(jù)進行去噪自編碼器訓練也極大地減緩了模型的訓練速度。反向翻譯是在單語語料上實現(xiàn)雙語間翻譯的關鍵,但是反向翻譯也存在自身的不足。反向翻譯生成的偽平行句對通常質(zhì)量不高,翻譯誤差容易累積疊加,這會阻礙無監(jiān)督神經(jīng)機器翻譯系統(tǒng)的進一步提升。此外,無監(jiān)督神經(jīng)機器翻譯訓練過程中,需要通過反向翻譯不斷生成譯文,反向翻譯的解碼速度也限制了無監(jiān)督神經(jīng)機器翻譯模型的訓練速度。如何設計高效的反向翻譯方法將是未來無監(jiān)督神經(jīng)機器翻譯研究的熱點課題。共享潛在表示只是在無監(jiān)督神經(jīng)機器翻譯訓練前期是必需的,而隨著無監(jiān)督神經(jīng)機器翻譯訓練,共享潛在表示機制會迅速變得低效。學習共享潛在表示會限制了2個不同方向翻譯性能的進一步提升,特別是對于不相似語言對。
4 結(jié)束語
無監(jiān)督神經(jīng)機器翻譯解決了因平行語料缺失造成神經(jīng)機器翻譯出現(xiàn)瓶頸的問題,顯著降低了訓練成本。本文介紹了無監(jiān)督神經(jīng)機器翻譯的模型主要機制、訓練方法及其發(fā)展過程,并分析了無監(jiān)督神經(jīng)機器翻譯存在的局限性。未來期待更多的工作,研究完善無監(jiān)督神經(jīng)機器翻譯,進一步縮小與有監(jiān)督神經(jīng)機器翻譯的性能差距。
參考文獻
[1]VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed[C]//AdvancesinNeuralInformationProcessingSystems30.LongBeach,CA,USA:CurranAssociates,Inc.,2017:5998-6008.
[2]KOEHNP,KNOWLESR.Sixchallengesforneuralmachinetranslation[C]//ProceedingsoftheFirstWorkshoponNeuralMachineTranslation.Vancouver:AssociationforComputationalLinguistics,2017:28-39.
[3]ARTETXEM,LABAKAG,AGIRREE,etal.Unsupervisedneuralmachinetranslation[C]//ProceedingsoftheSixthInternationalConferenceonLearningRepresentations.Vancouver,Canada:OpenReview.net,2018:1-11.
[4]LAMPLEG,CONNEAUA,DENOYERL,etal.Unsupervisedmachinetranslationusingmonolingualcorporaonly[C]//ProceedingsoftheSixthInternationalConferenceonLearningRepresentations.Vancouver,Canada:OpenReview.net,2018:1-14.
[5]CONNEAUA,LAMPLEG,RANZATOM,etal.Wordtranslationwithoutparalleldata[C]//ProceedingsoftheSixthInternationalConferenceonLearningRepresentations.Vancouver,Canada:OpenReview.net,2018:1-14.
[6]VINCENTP,LAROCHELLEH,LAJOIEI,etal.Stackeddenoisingautoencoders:Learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].JournalofMachineLearningResearch,2010,11:3371-3408.
[7]SENNRICHR,HADDOWB,BIRCHA.Improvingneuralmachinetranslationmodelswithmonolingualdata[C]//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Berlin,Germany:AssociationforComputationalLinguistics,2016:86-96.
[8]BAHDANAUD,CHOK,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[C]//Proceedingsofthe3rdInternationalConferenceonLearningRepresentations.SanDiego,CA,USA:DBLP,2015:1-15.
[9]CONNEAUA,LAMPLEG.Cross-linguallanguagemodelpretraining[C]//AdvancesinNeuralInformationProcessingSystems32.Vancouver,Canada:CurranAssociates,Inc.,2019:7059-7069.
[10] HED,XIAY,QINT,etal.Duallearningformachinetranslation[C]//AdvancesinNeuralInformationProcessingSystems29.Barcelona,Spain:CurranAssociates,Inc.,2016:820-828.
[11]HILLF,CHOK,KORHONENA.Learningdistributedrepresentationsofsentencesfromunlabelleddata[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.SanDiego,California:AssociationforComputationalLinguistics,2016:1367-1377.
[12]YANGZhen,CHENWei,WANGFeng,etal.Unsupervisedneuralmachinetranslationwithweightsharing[C]//Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Melbourne,Australia:AssociationforComputationalLinguistics,2018:46-55.
[13]LAMPLEG,OTTM,CONNEAUA,etal.Phrase-based&neuralunsupervisedmachinetranslation[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Brussels,Belgium:AssociationforComputationalLinguistics,2018:5039-5049.
[14]SENNRICHR,HADDOWB,BIRCHA.Neuralmachinetranslationofrarewordswithsubwordunits[C]//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Berlin,Germany:AssociationforComputationalLinguistics,2016:1715-1725.
[15]MIKOLOVT,SUTSKEVERI,CHENKai,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//AdvancesinNeuralInformationProcessingSystems26.LakeTahoe,Nevada,UnitedStates:CurranAssociates,Inc.,2013:3111-3119.
[16]SONGKaitao,TANXu,QINTao,etal.MASS:Maskedsequencetosequencepre-trainingforlanguagegeneration[C]//Proceedingsofthe36thInternationalConferenceonMachineLearning.LongBeach,California,USA:PMLR,2019:5926-5936.
[17]RENShuo,WUYu,LIUShujie,etal.Explicitcross-lingualpre-trainingforunsupervisedmachinetranslation[C]//Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing.HongKong,China:AssociationforComputationalLinguistics,2019:770-779.
[18]SUNHaipeng,WANGRui,CHENKehai,etal.Unsupervisedbilingualwordembeddingagreementforunsupervisedneuralmachinetranslation[C]//The57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:1235-1245.
[19]SUNH,WANGR,CHENK,etal.Unsupervisedneuralmachinetranslationwithcross-linguallanguagerepresentationagreement[J].IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2020,28:1170-1182.
[20]KIMY,GENGJ,NEYH.Improvingunsupervisedword-by-wordtranslationwithlanguagemodelanddenoisingautoencoder[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Brussels,Belgium:AssociationforComputationalLinguistics,2018:862-868.
[21]WUJiawei,WANGXin,WANGYang.Extractandedit:Analternativetoback-translationforunsupervisedneuralmachinetranslation[C]//Proceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume1(LongandShortPapers).Minneapolis,Minnesota:AssociationforComputationalLinguistics,2019:1173-1183.
[22]LEMGYichong,TANXu,QINTao,etal.Unsupervisedpivottranslationfordistantlanguages[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:175-183.
[23]XUChang,QINTao,WANGGang,etal.Polygon-Net:Ageneralframeworkforjointlyboostingmultiplensupervisedneuralmachinetranslationmodels[C]//ProceedingsoftheTwenty-EighthInternationalJointConferenceonArtificialIntelligence.Macao,China:ijcai.org,2019:5320-5326.
[24]SENS,GUPTAKK,EKBALA,etal.MultilingualunsupervisedNMTusingsharedencoderandlanguage-specificdecoders[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:3083-3089.
[25]SUNHaipeng,WANGRui,CHENKehai,etal.Knowledgedistillationformultilingualunsupervisedneuralmachinetranslation[C]//The58thAnnualMeetingoftheAssociationforComputationalLinguistics,Online:AssociationforComputationalLinguistics,2020:3525-3535.
[26]ARTETXEM,LABAKAG,AGIRREE.Unsupervisedstatisticalmachinetranslation[C]//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Brussels,Belgium:AssociationforComputationalLinguistics,2018:3632-3642.
[27]ARTETXEM,LABAKAG,AGIRREE.Aneffectiveapproachtounsupervisedmachinetranslation[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:194-203.
[28]MARIEB,F(xiàn)UJITAA.Unsupervisedneuralmachinetranslationinitializedbyunsupervisedstatisticalmachinetranslation[J].CoRR,2018,abs/1810.12703.
[29]RENShuo,ZHANGZhirui,LIUShujie,etal.UnsupervisedneuralmachinetranslationwithSMTasposteriorregularization[C]//ProceedingsoftheThirty-ThirdAAAIConferenceonArtificialIntelligence.Honolulu,Hawaii,USA:AAAIPress,2019:241-248.
[30]RENShuo,WUYu,LIUShujie,etal.Aretrieve-and-rewriteinitializationmethodforunsupervisedmachinetranslation[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.Online:AssociationforComputationalLinguistics,2020:3498-3504.
[31]OCHFJ,NEYH.Asystematiccomparisonofvariousstatisticalalignmentmodels[J].ComputationalLinguistics,2003,29(1):19-51.
[32]SUYuanhang,F(xiàn)ANKai,BACHN,etal.Unsupervisedmulti-modalneuralmachinetranslation[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LongBeach,California,USA:ComputerVisionFoundation/IEEE,2019:10482-10491.
[33]HUANGPoyao,HUJunjie,CHANGXiaojun,etal.Unsupervisedmultimodalneuralmachinetranslationwithpseudovisualpivoting[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.Online:AssociationforComputationalLinguistics,2020:8226-8237.
[34]DUANXiangyu,JIBaijun,JIAHao,etal.Bilingualdictionarybasedneuralmachinetranslationwithoutusingparallelsentences[C]//Proceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics.Online:AssociationforComputationalLinguistics,2020:1570-1579.
[35]GARCIAX,F(xiàn)ORETP,SELLAMT,etal.AmultilingualviewofUnsupervisedMachineTranslation[J].CoRR,2020,abs/2002.02955.
[36]LIZuchao,ZHAOHai,WANGRui,etal.Referencelanguagebasedunsupervisedneuralmachinetranslation[J].CoRR,2020,abs/2004.02127.
[37]POURDAMGHANIN,ALDARRABN,GHAZVININEJADM,etal.Translatingtranslationese:Atwo-stepapproachtounsupervisedmachinetranslation[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence,Italy:AssociationforComputationalLinguistics,2019:3057-3062.
[38]SUNHaipeng,WANGRui,CHENKehai,etal.Robustunsupervisedneuralmachinetranslationwithadversarialtraining[J].CoRR,2020,abs/2002.12549.
[39]MARIEB,SUNH,WANGR,etal.NICT'sunsupervisedneuralandstatisticalmachinetranslationsystemsfortheWMT19newstranslationtask[C]//ProceedingsoftheFourthConferenceonMachineTranslation(Volume2:SharedTaskPapers,Day1).Florence,Italy:AssociationforComputationalLinguistics,2019:294-301.
[40]LIZuchao,ZHAOHai,WANGRui,etal.SJTU-NICT'ssupervisedandunsupervisedneuralmachinetranslationsystemsfortheWMT20newstranslationtask[J].CoRR,2020,abs/2010.05122.
[41]KIMY,GRACAM,NEYH.Whenandwhyisunsupervisedneuralmachinetranslationuseless?[C]//Proceedingsofthe22ndAnnualConferenceoftheEuropeanAssociationforMachineTranslation.Lisboa,Portugal:EuropeanAssociationforMachineTranslation,2020:35-44.
[42]MARCHISIOK,DUHK,KOEHNP.Whendoesunsupervisedmachinetranslationwork?[J].CoRR,2020,abs/2004.05516.
[43]SGAARDA,RUDERS,VULIC I.Onthelimitationsofunsupervisedbilingualdictionaryinduction[C]//Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).Melbourne,Australia:AssociationforComputationalLinguistics,2018:778-788.
[44]SUNHaipeng,WANGRui,CHENKehai,etal.Revisitingsimpledomainadaptationmethodsinunsupervisedneuralmachinetranslation[J].CoRR,2019,abs/1908.09605.
[45]SUNHaipeng,WANGRui,CHENKehai,etal.Self-trainingforunsupervisedneuralmachinetranslationinunbalancedtrainingdatascenarios[J].CoRR,2020,abs/2004.04507.