• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于對(duì)偶學(xué)習(xí)的西里爾蒙古語-漢語機(jī)器翻譯研究

      2020-01-14 06:03:36蘇依拉孫曉騫巴圖其其格仁慶道爾吉
      關(guān)鍵詞:蒙漢對(duì)偶分詞

      蘇依拉 孫曉騫 巴圖其其格 仁慶道爾吉

      (內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)

      0 引 言

      機(jī)器翻譯并不是一個(gè)年輕的研究方向,自1949年,Warren Weaver提出使用計(jì)算機(jī)來解決機(jī)器翻譯的任務(wù)開始,機(jī)器翻譯就開始在不同的范例下得到了一定的研究[1]。1954年在美國喬治敦大學(xué)用IBM計(jì)算機(jī)進(jìn)行的機(jī)器翻譯實(shí)驗(yàn)取得了理想的效果。但是1964年,全世界的機(jī)器翻譯被ALPAC報(bào)告打入了低谷[2]。1970年,隨著Chomsky語言學(xué)的興起以及人工智能的不斷發(fā)展,人們認(rèn)為實(shí)現(xiàn)機(jī)器翻譯必須對(duì)互譯的語言有一定的理解,在這種情況下,基于規(guī)則的方法逐漸發(fā)展起來了[3-4]。1980年,基于實(shí)例和基于統(tǒng)計(jì)的方法被提出,而從1999年開始,基于統(tǒng)計(jì)的機(jī)器翻譯方法取得了突破性的進(jìn)展,但隨后由于模型的復(fù)雜度不斷增加,造成了翻譯效果得不到明顯提高等問題[5-8]。

      基于Seq2Seq的神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)框架由編碼器和解碼器組成,編碼器讀取輸入序列并輸出單個(gè)矢量,解碼器讀取該矢量以產(chǎn)生輸出序列[9]。自2013年以來,該框架獲得了迅速的發(fā)展,相對(duì)于統(tǒng)計(jì)機(jī)器翻譯而言在翻譯質(zhì)量上獲得了顯著的提升[10-12]。然而,基于Seq2Seq的神經(jīng)機(jī)器翻譯系統(tǒng)的訓(xùn)練通常需要上百萬句的平行語料庫,并且人工標(biāo)注代價(jià)十分昂貴,因此規(guī)模通常是有限的,這可能會(huì)限制相關(guān)的應(yīng)用和研究[13]。世界上除了少數(shù)像英文和中文等資源豐富的語言才有較好的平行語料庫外,大多數(shù)語種都屬于資源稀缺語種,語料庫比較匱乏。西里爾蒙漢平行語料庫就存在嚴(yán)重匱乏的問題。

      針對(duì)上述問題,Ren等[14]提出在數(shù)據(jù)稀缺語種上使用基于三角架構(gòu)的方法,其主要思想是,加入第三種語言與目標(biāo)語言構(gòu)成三角架構(gòu),而所謂的第三種語言必須是數(shù)據(jù)集比較豐富的大語種。該方法雖然能夠有效緩解數(shù)據(jù)稀疏問題造成的翻譯質(zhì)量不高的問題,但是尋找第三種語言極其的關(guān)鍵,像西里爾蒙古語這種資源嚴(yán)重匱乏的語種,英蒙平行語料庫的構(gòu)建也相當(dāng)困難,因此所述的第三種語言的尋找也是一個(gè)難題。近年來,遷移學(xué)習(xí)受到了廣泛的關(guān)注,Zoph等[15]將遷移學(xué)習(xí)引入低資源語言的神經(jīng)機(jī)器學(xué)習(xí)中,其思路是,把資源比較豐富的語言訓(xùn)練的翻譯模型的參數(shù)遷移到資源相對(duì)缺乏語言翻譯模型的訓(xùn)練過程中,該方法在一定程度上緩解了平行語料庫不足的問題。但是這種方法的前提是,需要訓(xùn)練出資源豐富語種之間的翻譯模型,無形之中加大了研究的困難。

      西里爾蒙古語和漢語之間的翻譯相關(guān)研究主要集中在統(tǒng)計(jì)機(jī)器翻譯中,研究比較滯后,因此本文將對(duì)偶學(xué)習(xí)應(yīng)用在西里爾蒙漢機(jī)器翻譯中。

      在機(jī)器翻譯中為了節(jié)省計(jì)算資源和降低計(jì)算復(fù)雜度,通常將詞典設(shè)置得比較小,這將會(huì)導(dǎo)致未登錄詞的產(chǎn)生,再加上西里爾蒙古語屬于黏著語,詞干和詞綴的組合方式較多,導(dǎo)致了西里爾蒙漢機(jī)器翻譯中嚴(yán)重的未登錄詞現(xiàn)象[16-18]。2016年Sennrich等[19]提出了使用BPE技術(shù)切分詞語的方法,近兩年該方法得到了迅速發(fā)展,并且在機(jī)器翻譯中有效地緩解了因未登錄詞導(dǎo)致的譯文質(zhì)量不高的問題。

      因此,本文首先通過BPE技術(shù)對(duì)西里爾蒙古語和漢語進(jìn)行預(yù)處理,然后通過KenLM框架預(yù)訓(xùn)練語言模型,使用Nematus框架預(yù)訓(xùn)練翻譯模型,最后利用隨機(jī)梯度下降算法進(jìn)行對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯模型的訓(xùn)練以提高譯文的質(zhì)量。將端到端的神經(jīng)機(jī)器翻譯作為基線系統(tǒng),利用BLEU值作為譯文的評(píng)價(jià)指標(biāo)。

      1 相關(guān)技術(shù)

      1.1 編碼器解碼器架構(gòu)

      端到端的神經(jīng)機(jī)器翻譯框架已經(jīng)成為神經(jīng)機(jī)器翻譯中非常經(jīng)典的框架,其包括編碼器和解碼器,所以也叫作編碼器解碼器框架(Encoder-Decoder),其結(jié)構(gòu)如圖1所示。

      圖1 編碼器解碼器架構(gòu)圖

      該模型的基本思想是:當(dāng)給定一個(gè)源語言句子時(shí),編碼器會(huì)將其編碼為維數(shù)固定的向量,解碼器根據(jù)此向量將其轉(zhuǎn)化為目標(biāo)語言句子。其中,編碼器和解碼器都可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)來實(shí)現(xiàn),但是通常使用的是長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)。LSTM網(wǎng)絡(luò)也是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種。因?yàn)镽NN容易出現(xiàn)梯度消失的現(xiàn)象,而LSTM可以有效地避免這個(gè)問題。

      (1) 編碼器。編碼器中的LSTM網(wǎng)絡(luò)將輸入的源語言句子x=(x1,x2,…,xI)進(jìn)行編碼,用在西里爾蒙古語和漢語的翻譯中就是將西里爾蒙古語句子進(jìn)行編碼,并計(jì)算出隱層狀態(tài)(h1,h2,…,hI)。在計(jì)算隱層狀態(tài)時(shí),LSTM的輸入門、遺忘門和輸出門,分別用:ii、fi和Oj表示,其結(jié)構(gòu)如圖2所示。

      圖2 LSTM隱藏層結(jié)構(gòu)圖

      首先通過遺忘門決定什么信息可以通過單元狀態(tài),然后由輸入門決定需要更新的信息,最后由輸出門決定模型的輸出。隱藏層狀態(tài)hi的計(jì)算如下所示:

      (1)

      式中:sigmod和tanh為非線性激活函數(shù),W表示參數(shù)矩陣,b表示偏置,xi表示i時(shí)刻輸入的句子,hi-1表示i-1時(shí)刻的隱藏層狀態(tài)。

      隱藏層狀態(tài)是整個(gè)句子的壓縮表示,包含了整個(gè)句子的語義信息,此時(shí),編碼器的編碼過程結(jié)束。

      (2) 解碼器。解碼器同樣使用LSTM網(wǎng)絡(luò)來實(shí)現(xiàn)。在給定源語言句子x和目標(biāo)語言(y1,y2,…,yi-1)的條件下,解碼器根據(jù)隱藏狀態(tài)來估計(jì)當(dāng)前的目標(biāo)詞yi是由哪個(gè)源語言詞產(chǎn)生,即挑選出與目標(biāo)詞最為匹配的源語言詞。具體地,通過比較每個(gè)源語言詞可能產(chǎn)生該目標(biāo)詞的概率,然后挑出概率最大的,計(jì)算概率的公式如式(2)所示。同樣的方法依次生成目標(biāo)語言中的每一個(gè)字。

      p(yi|y1,y2,…,yi-1,X)=g(yi-1,si,ci)

      (2)

      si=f(si-1,yi,ci)

      (3)

      式中:上下文向量ci依賴編碼器編碼所得到的隱層狀態(tài)(h1,h2,…,hI),通過每個(gè)隱層狀態(tài)的加權(quán)平均得到上下文向量ci,計(jì)算過程如下所示:

      (4)

      hi到ci的權(quán)重aij的計(jì)算式為:

      (5)

      eij的計(jì)算式為:

      eij=a(si-1,hj)

      (6)

      1.2 分詞方法

      分詞是將句子以單詞或者詞根切分開并通過空格隔開的過程,是進(jìn)行自然語言處理任務(wù)首要且必不可少的操作。比較流行的分詞方法有基于詞典的分詞和基于統(tǒng)計(jì)的分詞方法。但這兩種分詞方法并不是最好的,各有各的優(yōu)缺點(diǎn)。基于詞典的分詞方法由于詞典大小的限制,很難做到覆蓋所有的詞,所以在分詞時(shí)通常會(huì)產(chǎn)生歧義。比如:“夏洛特?zé)馈保@個(gè)句子可以分成“夏洛特/煩惱”,也可以分成“夏洛/特?zé)馈保@然這兩個(gè)句子的意思大體一樣,但是由于分詞的原因會(huì)產(chǎn)生細(xì)微的差別。如果詞典里有“夏洛特”這個(gè)名詞的話,就會(huì)切分得比較好,反而如果詞典里沒有這個(gè)名詞的話,切分后的句子就會(huì)和原來的句子產(chǎn)生一定的差異。統(tǒng)計(jì)的方法容易帶來最少切分問題。

      (1) Jieba分詞。Jieba分詞結(jié)合了前面兩種分詞方法,首先對(duì)前綴詞進(jìn)行掃面,前綴詞是指詞典中的詞按照前綴包含的順序排列,例如:詞典中有“北”這個(gè)詞,后面以“北”開頭的像“北京”、“北京市”等詞就都會(huì)出現(xiàn),形成一種層級(jí)包含的結(jié)構(gòu)。假如將詞看成節(jié)點(diǎn),詞與詞之間的分詞符看作了邊,那分詞方案就會(huì)對(duì)應(yīng)著從第一個(gè)字到最后一個(gè)字的一條分詞的路徑。所以,基于前綴的分詞可以快速構(gòu)建包含全部有可能分詞結(jié)果的有向無環(huán)圖,而且這個(gè)圖中包含多條分詞的路徑。有向指的是全部的路徑都始于第一個(gè)字并且止于最后一個(gè)字,無環(huán)指的是節(jié)點(diǎn)之間不構(gòu)成閉環(huán)。標(biāo)注了的語料,可以使用動(dòng)態(tài)規(guī)劃的方法找出最大概率的路徑并將其作為最終的分詞結(jié)果。

      (2) BPE技術(shù)。BPE技術(shù)是2016年Sennrich等首次提出的對(duì)句子進(jìn)行不同粒度切分的方法,該方法的提出是為了有效緩解機(jī)器翻譯過程中的未登錄詞現(xiàn)象。在訓(xùn)練機(jī)器翻譯模型時(shí),為了節(jié)省資源經(jīng)常將詞典設(shè)置得比較小且詞典一般都不是來自自身的訓(xùn)練集,這樣就導(dǎo)致了未登錄詞大量出現(xiàn)。

      而BPE技術(shù)會(huì)首先將需要預(yù)處理的語料以最小的單元切分開,針對(duì)不同的語言,最小的單元也不同,對(duì)于西里爾蒙古語而言最小的單元就是西里爾蒙古文字母,對(duì)于漢語而言最小單元就是一個(gè)漢字。然后會(huì)對(duì)語料中所有相鄰的最小單元組合出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)并且排序,找出出現(xiàn)頻率最高的組合,并將這些組合加入到詞典中同時(shí)刪除掉詞典中頻率最低的詞使詞典的大小保持不變。循環(huán)上面的過程,直到詞典里的詞在自身語料庫中出現(xiàn)的頻率都是較高的。例如,起初詞典里有“我們”這個(gè)詞,如果在遇到“我們的”這個(gè)詞時(shí),機(jī)器根本翻譯不出來,但是經(jīng)過BPE技術(shù)的處理后,有可能發(fā)現(xiàn)“我們的”這個(gè)詞出現(xiàn)的概率更高,所以就將“我們的”這個(gè)詞加入到詞典中去替換掉出現(xiàn)頻率最低的詞。

      本文首先使用BPE技術(shù)對(duì)通過網(wǎng)絡(luò)爬蟲爬取的84 835句對(duì)西里爾蒙漢平行語料中的西里爾蒙古文和67 288句西里爾蒙文單語數(shù)據(jù)進(jìn)行處理。得到的處理后的結(jié)果如圖3所示。

      圖3 經(jīng)過BPE技術(shù)處理的西里爾蒙文

      然后將經(jīng)過Jieba分詞處理的84 835句對(duì)西里爾蒙漢平行語料中的漢語和67 288句漢語單語數(shù)據(jù)進(jìn)行處理。得到的分詞結(jié)果如圖4所示。

      圖4 經(jīng)過Jieba分詞和BPE技術(shù)處理的漢語

      1.3 對(duì)偶學(xué)習(xí)

      雖然端到端的神經(jīng)機(jī)器翻譯方法近年來已經(jīng)取得了顯著的效果,但是該系統(tǒng)僅依靠平行語料庫進(jìn)行參數(shù)估計(jì)。由于小語種的語料通常不管是在數(shù)量、質(zhì)量還是覆蓋范圍上都受到很大的限制,所以如何利用單語數(shù)據(jù)來有效緩解因平行語料庫匱乏導(dǎo)致的譯文質(zhì)量不高的問題已經(jīng)被提到日程上了。

      文獻(xiàn)[20]提出了對(duì)偶學(xué)習(xí)機(jī)制,在這個(gè)機(jī)制中,單語數(shù)據(jù)與平行雙語數(shù)據(jù)扮演者相似的角色,在訓(xùn)練過程中,可以顯著降低對(duì)平行數(shù)據(jù)的要求。

      對(duì)偶學(xué)習(xí)的基本思想是:以西里爾蒙文和漢語之間的翻譯為例,假如西里爾蒙文用字母A表示,漢語用字母B表示。首先使用較少的西里爾蒙漢平行語料訓(xùn)練A到B和B到A的翻譯模型,將這兩個(gè)模型作為初始模型,互為對(duì)偶任務(wù)。盡管A和B之間的平行語料庫較少,但是很有可能找到大量的A和B的單語語料,把A語言的單語句子a先通過A到B的翻譯模型翻譯成b′,再通過B到A的翻譯模型將b′翻譯回A語言中的句子a′,最后通過對(duì)偶學(xué)習(xí)方法訓(xùn)練模型的參數(shù)以減小a和a′之間的差異。同樣的方法可以減小b與b′之間的差異。該過程可以通過圖5得到更深刻的理解。

      圖5 西里爾蒙古語與漢語互異的對(duì)偶學(xué)習(xí)

      圖5中男機(jī)器人只懂西里爾蒙古語,女機(jī)器人只懂漢語,首先男機(jī)器人通過噪聲信道發(fā)一句西里爾蒙古語給女機(jī)器人,噪聲信道通過翻譯模型將西里爾蒙古語翻譯成漢語,女機(jī)器人接收到這句漢語之后首先檢查這個(gè)句子,但她無法確認(rèn)這個(gè)翻譯是否正確。然后她通過另外一個(gè)噪聲信道使用另外一個(gè)翻譯模型將接收到的漢語句子翻譯成西里爾蒙文發(fā)送給男機(jī)器人,接收到此西里爾蒙文之后,男機(jī)器人會(huì)檢查該西里爾蒙文句子并通知女機(jī)器人她接收的信息是否包含了他原來的意思。通過這樣的反饋過程,兩個(gè)機(jī)器人就可以知道這兩個(gè)通信信道也就是兩個(gè)翻譯模型表現(xiàn)得是否良好以及能否提高它們的效果。同樣,這個(gè)通話過程也可以從第二個(gè)機(jī)器人開始。

      通過上面的例子發(fā)現(xiàn),盡管沒有平行語料庫,仍然能夠通過兩個(gè)翻譯模型的相互反饋得到質(zhì)量比較好的翻譯模型。

      2 實(shí) 驗(yàn)

      2.1 環(huán)境配置和實(shí)驗(yàn)流程

      本文的實(shí)驗(yàn)數(shù)據(jù)分為兩個(gè)部分,第一部分是通過網(wǎng)絡(luò)爬蟲在TED網(wǎng)站上爬取的84 835句西里爾蒙漢對(duì)齊語料,第二部分是由內(nèi)蒙古大學(xué)構(gòu)建的67 288句漢語單語數(shù)據(jù)和通過谷歌翻譯將這67 288句漢語數(shù)據(jù)翻譯成的西里爾蒙古語單語數(shù)據(jù)組成而成。其中,在訓(xùn)練兩個(gè)語言模型時(shí)分別使用的67 288句西里爾蒙文單語數(shù)據(jù)和漢語單語數(shù)據(jù);在訓(xùn)練預(yù)翻譯模型時(shí),使用大約20%的(24 835句)西里爾蒙漢對(duì)齊語料。對(duì)24 835句平行語料的劃分如表1所示。

      表1 數(shù)據(jù)集劃分表

      本文首先對(duì)語料庫進(jìn)行了分詞預(yù)處理和劃分,接著需要訓(xùn)練兩個(gè)語言模型和一個(gè)翻譯模型,最后通過隨機(jī)梯度下降算法訓(xùn)練得到基于對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯模型。本文的整體框架圖如圖6所示。

      圖6 整體框架圖

      圖6中:第一部分分別為西里爾蒙古語和漢語單語語料的預(yù)處理過程,得到了預(yù)處理后的單語語料;第二部分分別使用西里爾蒙古語和漢語單語數(shù)據(jù)訓(xùn)練語言模型;第三部分首先從TED網(wǎng)站上爬取的西里爾蒙漢對(duì)齊語料進(jìn)行預(yù)處理,然后進(jìn)行翻譯模型的預(yù)訓(xùn)練;第四部分通過使用隨機(jī)梯度下降算法進(jìn)行對(duì)偶學(xué)習(xí)的翻譯模型訓(xùn)練。

      2.2 預(yù)訓(xùn)練語言模型

      語言模型是利用統(tǒng)計(jì)的方法描述自然語言內(nèi)在的規(guī)律,簡單地說,語言模型是用來計(jì)算一個(gè)句子出現(xiàn)概率的模型。常用的語言模型訓(xùn)練工具有:SRILM、IRSTLM、BerkeyLM和KenLM等。這幾種所用的算法思想是基本一致的,只是在實(shí)現(xiàn)時(shí)有細(xì)微的不同。KenLM模型是在文獻(xiàn)[21]中提到的,該模型的兼容性特別好。因此,本文使用了KenLM作為語言模型的訓(xùn)練工具。

      將預(yù)處理好的67 288句漢語單語數(shù)據(jù)和西里爾蒙古語單語數(shù)據(jù)通過KenLM模型進(jìn)行訓(xùn)練分別得到漢語語言模型和西里爾蒙古語語言模型,并且將其分別保存在文件名為zh.zip和mn.zip的壓縮文件中。為通過對(duì)偶學(xué)習(xí)方法訓(xùn)練翻譯模型做好準(zhǔn)備工作。

      2.3 預(yù)訓(xùn)練翻譯模型

      近年來,基于神經(jīng)網(wǎng)絡(luò)的翻譯框架越來越多,Nematus是英國愛丁堡大學(xué)自然語言處理小組開發(fā)的一款基于thano的開源神經(jīng)機(jī)器翻譯系統(tǒng),具體為基于注意力機(jī)制的編碼器解碼器模型,在學(xué)術(shù)界具有一定的影響力。因此,本文使用Nematus框架預(yù)訓(xùn)練翻譯模型。將預(yù)處理好的24 835句西里爾蒙漢對(duì)齊語料通過Nematus框架進(jìn)行預(yù)訓(xùn)練得到的西里爾蒙漢預(yù)翻譯模型存儲(chǔ)在前綴為model.mm2zh.npz的文件中,其中第180輪也就是最后一輪得到的預(yù)翻譯模型如圖7所示。

      圖7 mn2zh翻譯模型

      得到的中文到西里爾蒙文的預(yù)翻譯模型存儲(chǔ)在前綴為model.zh2mn.npz的文件中,其中第180輪也就是最后一輪得到的預(yù)翻譯模型如圖8所示。

      圖8 zh2mn翻譯模型

      本文將BLEU值作為譯文質(zhì)量的衡量指標(biāo),訓(xùn)練了180個(gè)epoch時(shí)得到如表2所示的實(shí)驗(yàn)結(jié)果。

      表2 預(yù)翻譯模型的BLEU值

      由表2可知,第157輪得到的翻譯模型的BLEU值最高并且BLEU值呈現(xiàn)波動(dòng)上升趨勢。

      2.4 訓(xùn)練翻譯模型

      將預(yù)訓(xùn)練的語言模型和翻譯模型作為對(duì)偶學(xué)習(xí)模型訓(xùn)練的初始模型,西里爾蒙古文詞典大小為4 536個(gè)詞,漢語詞典大小為9 168個(gè)詞,LSTM編碼器和解碼器的詞向量維度設(shè)定為500維,Dropout設(shè)定為0.2,初始學(xué)習(xí)率設(shè)定為0.000 1,迭代20輪。分別得到西里爾蒙古語到漢語和漢語到西里爾蒙古語的對(duì)偶學(xué)習(xí)翻譯模型,對(duì)每輪得到的西里爾蒙漢翻譯模型進(jìn)行測試,圖9和圖10分別為第一輪和第二十輪的測試結(jié)果。

      圖9 第一輪測試結(jié)果

      圖10 第二十輪測試結(jié)果

      同樣,對(duì)每輪得到的漢語到西里爾蒙古語翻譯模型進(jìn)行測試,圖11和圖12分別為第一輪和第二十輪的測試結(jié)果。

      圖11 第一輪測試結(jié)果

      圖12 第二十輪測試結(jié)果

      通過圖9-圖12可以看出,在翻譯模型訓(xùn)練的初期,也就是第一輪,由于模型還沒有學(xué)習(xí)到很好的參數(shù),所以譯文的流利度不高,語句表達(dá)得也不太清楚,而隨著訓(xùn)練的繼續(xù)進(jìn)行,翻譯模型逐漸學(xué)習(xí)到了能夠比較明確表示語句之間關(guān)系的參數(shù)信息,到第14輪時(shí),譯文的質(zhì)量和流利度都有了一定的提升。表3給出了20輪的BLEU值。

      表3 翻譯模型的BLEU值

      通過表3可以看出,對(duì)偶學(xué)習(xí)訓(xùn)練方法有效提高了預(yù)訓(xùn)練模型的質(zhì)量。

      使用所有的平行數(shù)據(jù)集(84 835句對(duì))分別進(jìn)行了OpenNMT(語料沒有經(jīng)過BPE處理)、Nematus(語料進(jìn)行了BPE處理)和對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯模型的訓(xùn)練。使用20%的平行數(shù)據(jù)集(24 835句對(duì))分別進(jìn)行了OpenNMT、Nematus和對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯模型的訓(xùn)練。得到如表4所示的對(duì)比結(jié)果。

      表4 對(duì)比實(shí)驗(yàn)的BLEU值

      在西里爾蒙古語到漢語的OpenNMT和Nematus模型的互譯中,數(shù)據(jù)集的大小對(duì)翻譯效果的影響較大,而在基于對(duì)偶學(xué)習(xí)的神經(jīng)機(jī)器翻譯中,數(shù)據(jù)集的大小對(duì)翻譯效果的影響明顯減小了。

      2.5 實(shí)驗(yàn)結(jié)果分析

      表4的數(shù)據(jù)表明,基于對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯的效果遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)的基于端到端的神經(jīng)機(jī)器翻譯模型,尤其是在平行語料庫的規(guī)模比較小的時(shí)候、有效地證明了所提出的基于對(duì)偶學(xué)習(xí)的西里爾蒙漢互譯方法的優(yōu)越性。針對(duì)只有24 835句平行語料訓(xùn)練出的6個(gè)翻譯模型,進(jìn)行了系統(tǒng)測試集的翻譯譯文的示例對(duì)比,如表5所示。

      表5 機(jī)器翻譯譯文示例對(duì)比

      通過表5可以看出,OpenNMT翻譯出來的句子語義表達(dá)得不夠清楚,并且伴有未登錄詞的出現(xiàn);Nematus翻譯出來的句子語義表達(dá)得也不夠清楚,但是未登錄詞明顯較少了;基于對(duì)偶學(xué)習(xí)的神經(jīng)機(jī)器翻譯生成的譯文不僅語義表達(dá)相對(duì)清楚而且也克服了未登錄詞現(xiàn)象的產(chǎn)生,有效提高了譯文的質(zhì)量。

      3 結(jié) 語

      大語種之間的機(jī)器翻譯已經(jīng)相對(duì)比較成熟,西里爾蒙古語與漢語之間由于平行語料庫的匱乏其效果一直不盡人意。為了緩解數(shù)據(jù)稀疏問題,本文進(jìn)行了基于對(duì)偶學(xué)習(xí)的西里爾蒙漢機(jī)器翻譯的研究,通過實(shí)驗(yàn)驗(yàn)證了在較少的數(shù)據(jù)集上基于對(duì)偶學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型比傳統(tǒng)的神經(jīng)機(jī)器翻譯的譯文質(zhì)量有很大的提升。針對(duì)譯文中的未登錄詞現(xiàn)象,本文采用了BPE技術(shù),提高了西里爾蒙漢機(jī)器翻譯譯文的質(zhì)量。但是本文通過網(wǎng)絡(luò)爬蟲爬取的語料畢竟有限,如果語料庫的規(guī)模能夠再大一些,理論上譯文的質(zhì)量會(huì)得到更進(jìn)一步的提升。因此,接下來的工作將力爭收集大量高質(zhì)量的平行語料庫,并且試圖將其他更有效的方法應(yīng)用在西里爾蒙漢機(jī)器翻譯中。

      猜你喜歡
      蒙漢對(duì)偶分詞
      結(jié)巴分詞在詞云中的應(yīng)用
      《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
      簡論蒙漢蛇文化比較研究
      淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
      值得重視的分詞的特殊用法
      清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
      對(duì)偶平行體與對(duì)偶Steiner點(diǎn)
      對(duì)偶均值積分的Marcus-Lopes不等式
      對(duì)偶Brunn-Minkowski不等式的逆
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      昌邑市| 六安市| 门头沟区| 柳州市| 奉新县| 通道| 宜兰市| 泗水县| 胶南市| 益阳市| 黑龙江省| 肇州县| 新蔡县| 凤翔县| 夏邑县| 张家川| 武乡县| 东台市| 长葛市| 银川市| 镇坪县| 德格县| 合山市| 磐石市| 武强县| 九台市| 邮箱| 松潘县| 确山县| 保亭| 兴业县| 汶川县| 原平市| 礼泉县| 延吉市| 瓦房店市| 安阳县| 泉州市| 陇南市| 枣庄市| 丹江口市|