• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于樞軸語言的漢越神經(jīng)機(jī)器翻譯偽平行語料生成*

    2021-04-06 10:48:28賈承勛余正濤文永華于志強(qiáng)
    計算機(jī)工程與科學(xué) 2021年3期
    關(guān)鍵詞:樞軸語料詞典

    賈承勛,賴 華,余正濤,文永華,于志強(qiáng)

    (1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實驗室,云南 昆明 650500)

    1 引言

    神經(jīng)機(jī)器翻譯NMT(Neural Machine Translation)是目前機(jī)器翻譯領(lǐng)域的熱點(diǎn)研究方法,相較于統(tǒng)計機(jī)器翻譯SMT(Statistical Machine Translation)[1],神經(jīng)機(jī)器翻譯在大量的平行句對上取得了更好的翻譯效果[2,3],但是神經(jīng)機(jī)器翻譯在平行語料匱乏的低資源環(huán)境下,效果并不理想[4]。為緩解語料缺乏困境,早期研究者們利用人工標(biāo)注方式擴(kuò)充語料,然而人工標(biāo)注具有周期長、成本高的缺點(diǎn),因此研究者們開始關(guān)注語料的自動擴(kuò)充方法[5]。漢語-越南語是典型的低資源語言對,漢越神經(jīng)機(jī)器翻譯同樣面臨數(shù)據(jù)稀缺問題[6],這一問題嚴(yán)重影響神經(jīng)機(jī)器翻譯在實際中的應(yīng)用,因此如何通過語料擴(kuò)充手段改善漢越神經(jīng)機(jī)器翻譯的性能是值得研究的問題。

    目前通過生成偽平行數(shù)據(jù)緩解數(shù)據(jù)稀疏問題,是低資源神經(jīng)機(jī)器翻譯的一個重要研究方向[7]。對于偽平行數(shù)據(jù)擴(kuò)充的研究,目前主要有2種方式:抽取式和生成式。抽取式是根據(jù)一定規(guī)則從可比語料、樞軸語料或者2種語言的單語語料中抽取偽平行語料[8 - 11];生成式是在已有小規(guī)模平行語料的前提下,通過詞的替換、單語數(shù)據(jù)回譯[12]和建立樞軸模型等方法,生成更多的偽平行數(shù)據(jù)[12 - 14]。

    目前基于生成式的偽平行數(shù)據(jù)擴(kuò)充方法的有效性已經(jīng)得到了充分驗證,但缺少對這些方法融合利用方面的研究。

    因此,本文針對漢越神經(jīng)機(jī)器翻譯任務(wù),對基于詞的替換、單語數(shù)據(jù)回譯和基于樞軸語言3種生成式方法的融合利用進(jìn)行研究。在基于樞軸語言方法的基礎(chǔ)上,將詞替換和回譯2種方法融合進(jìn)來,在樞軸方法生成偽平行數(shù)據(jù)的過程中,生成質(zhì)量更優(yōu)的漢越偽平行數(shù)據(jù),然后利用語言模型對生成的偽平行數(shù)據(jù)進(jìn)行篩選,優(yōu)化偽平行數(shù)據(jù)的質(zhì)量。實驗表明,本文方法相比單一的生成式方法性能有明顯提高。

    2 相關(guān)工作

    近年來,國內(nèi)外相關(guān)研究人員針對小規(guī)模平行語料進(jìn)行偽平行語料生成的方法進(jìn)行了廣泛研究,并取得了一系列成果。目前在神經(jīng)機(jī)器翻譯中能有效生成偽平行數(shù)據(jù)的方法主要有3種。

    第1種是基于詞的替換方法。Fadaee等人[15]利用基于詞替換的翻譯數(shù)據(jù)增強(qiáng)技術(shù)TDA(Translation Data Augmentation),通過將平行句對中的高頻詞替換為平行句對中的低頻詞,從而得到新的偽平行句對,但是當(dāng)出現(xiàn)一詞多譯的情況時效果不佳,且易出現(xiàn)噪聲;蔡子龍等人[16]首先對句子進(jìn)行分塊,找出句子中的最小翻譯單元MTU(Minimum Translation Unit),然后找到句子中最相似的2個模塊,通過對調(diào)他們的位置生成新的偽平行句對,但是容易產(chǎn)生語法語義上的錯誤,使偽平行數(shù)據(jù)質(zhì)量不佳。

    第2種是利用單語數(shù)據(jù)進(jìn)行回譯的方法。Sennrich等人[12]利用現(xiàn)有的神經(jīng)機(jī)器翻譯模型提出了回譯方法(Back-Translation),通過利用已有的小規(guī)模平行句對訓(xùn)練2個不同翻譯方向的神經(jīng)機(jī)器翻譯模型,將目標(biāo)端單語數(shù)據(jù)翻譯成源語言,從而構(gòu)成偽平行數(shù)據(jù)。此方法有效提高了翻譯性能,但是嚴(yán)重依賴于小規(guī)模平行句對的質(zhì)量,并且不能解決零資源語言的數(shù)據(jù)稀疏問題。

    第3種是利用樞軸語言連接源語言和目標(biāo)語言的方法[17,18],使用源-樞軸模型將源語言翻譯成樞軸語言,然后使用樞軸目標(biāo)模型將樞軸語言翻譯成目標(biāo)語言,具體流程如圖1所示。Johnson等人[5]對基于樞軸的神經(jīng)機(jī)器翻譯方法進(jìn)行了改進(jìn),并表明基于樞軸的神經(jīng)機(jī)器翻譯的翻譯性能比無需增量訓(xùn)練的通用模型更好,該方法有效解決了零資源或只有小規(guī)模平行語料語言的數(shù)據(jù)稀疏問題。李強(qiáng)等人[19]在統(tǒng)計機(jī)器翻譯上將樞軸方法分為系統(tǒng)級、語料級和短語級3種方法,通過擴(kuò)大生成訓(xùn)練數(shù)據(jù)的規(guī)模以及優(yōu)化詞對齊質(zhì)量的方式來提高翻譯性能。Wu等人[20]通過對雙語數(shù)據(jù)中的單語語料進(jìn)行翻譯的方法直接優(yōu)化最終的翻譯性能,即語料級的樞軸方法中,翻譯模型中所有參數(shù)的調(diào)優(yōu)直接通過優(yōu)化漢語至低資源語言的翻譯來完成,翻譯過程如圖2所示。

    Figure 1 Flowchart of traditional pivot language method

    Figure 2 Flowchart of corpus-level approach to pivot translation

    Figure 3 Flowchart of the method for generating pseudo-parallel data

    在生成偽平行語料的方法中,使用樞軸語言連接源語言和目標(biāo)語言是一個重要方向,由于其簡單有效,在傳統(tǒng)的統(tǒng)計機(jī)器翻譯中也被廣泛使用[18]。在神經(jīng)機(jī)器翻譯中,基于樞軸語言的方法已經(jīng)普遍用于偽平行數(shù)據(jù)的生成,但這種基于樞軸的方法通常需要將解碼過程分成2個步驟,第一個模型中出現(xiàn)翻譯錯誤,會直接影響到下一個模型的訓(xùn)練效果,從而增加數(shù)據(jù)的模糊性。

    目前3種生成式方法都有各自的優(yōu)勢和不足,目前還沒有將這些方法進(jìn)行融合的研究,因此本文在將生成式方法相結(jié)合的基礎(chǔ)上,提出了融入雙語詞典的正反向樞軸方法。首先,針對基于樞軸的方法存在許多無法有效翻譯的詞和短語,會使翻譯錯誤連續(xù)傳遞,影響生成的偽平行數(shù)據(jù)的質(zhì)量,同時無法在所有的翻譯任務(wù)上都獲得最優(yōu)的翻譯性能的問題,本文對源語言單語數(shù)據(jù)進(jìn)行一次正向的樞軸語言翻譯生成偽平行數(shù)據(jù)后,再對目標(biāo)語言的單語數(shù)據(jù)進(jìn)行一次反向的傳統(tǒng)樞軸語言方法的翻譯過程,以此實現(xiàn)樞軸語言方法和回譯方法的結(jié)合;其次,在上述改進(jìn)的基礎(chǔ)上,通過構(gòu)建雙語詞典[21]進(jìn)行稀有詞的替換,將雙語詞典輸入到源-樞軸和樞軸-目標(biāo)的神經(jīng)機(jī)器翻譯模型中訓(xùn)練,將樞軸方法、回譯和詞替換3種方法結(jié)合并生成更多的偽平行數(shù)據(jù);最后將生成的偽平行數(shù)據(jù)通過語言模型進(jìn)行篩選,將篩選后的偽平行數(shù)據(jù)與原始數(shù)據(jù)混合進(jìn)行模型訓(xùn)練。

    3 漢越偽平行數(shù)據(jù)生成方法

    目前在神經(jīng)機(jī)器翻譯的樞軸語言方法中,并沒有在詞級上對樞軸方法進(jìn)行分析,針對其存在的問題,本文結(jié)合了詞替換的思想,在樞軸方法的基礎(chǔ)上融入利用稀有詞構(gòu)建的雙語詞典,減小了詞和短語翻譯錯誤的幾率,從而緩解錯誤傳播的問題;針對零資源語言的數(shù)據(jù)稀疏問題,將樞軸方法與回譯方法相結(jié)合,進(jìn)行一次反向的樞軸翻譯過程,即按照目標(biāo)→樞軸→源的方向再次對數(shù)據(jù)進(jìn)行擴(kuò)充;融入雙語詞典的正反向樞軸方法是一種將詞替換方法、回譯方法和樞軸語言方法結(jié)合利用的方法。樞軸語言的選擇對基于樞軸語言的方法有著至關(guān)重要的影響,需要選擇同時與源語言和目標(biāo)語言都具有大量可利用數(shù)據(jù)資源的語言作為樞軸語言。本文源語言為漢語,目標(biāo)語言為越南語,由于漢英、英越機(jī)器翻譯可以獲得大規(guī)模高質(zhì)量的平行語料,因此以英語作為樞軸語言對漢越偽平行語料生成方法展開研究。

    圖3中漢英翻譯模型和英漢翻譯模型為利用同一訓(xùn)練數(shù)據(jù)訓(xùn)練的神經(jīng)機(jī)器翻譯模型,同理英越和越英翻譯模型。本文結(jié)合了詞替換的思想,在樞軸方法的基礎(chǔ)上融入了利用稀有詞構(gòu)建的雙語詞典,減小了詞和短語翻譯錯誤的幾率,從而緩解錯誤傳遞問題;針對零資源語言數(shù)據(jù)稀疏問題,在樞軸方法的基礎(chǔ)上與回譯方法相結(jié)合,在正向樞軸翻譯后再利用額外的越南語數(shù)據(jù)進(jìn)行反向的樞軸翻譯,即按照目標(biāo)→樞軸→源的方向再次對數(shù)據(jù)進(jìn)行擴(kuò)充;而在此方法基礎(chǔ)上將雙語詞典結(jié)合進(jìn)來,在翻譯數(shù)據(jù)的過程中進(jìn)行稀有詞的替換,這便是本文提出的融入雙語詞典的正反向樞軸方法。

    3.1 融入雙語詞典的樞軸方法

    本文利用稀有詞,即常規(guī)詞表以外的詞來構(gòu)建雙語詞典。使用GIZA++工具對語料進(jìn)行對齊處理得到對齊結(jié)果,排除常規(guī)詞表內(nèi)的詞來構(gòu)建雙語詞典,對于一詞多譯的情況,只保留對齊概率最大的詞。本文使用Li等人[22]的方法在模型翻譯過程中融入雙語詞典進(jìn)行詞的替換。

    在傳統(tǒng)的樞軸語言方法中采取2種不同的方式結(jié)合雙語詞典,第1種是利用現(xiàn)有數(shù)據(jù)構(gòu)建出源到樞軸的雙語詞典SP(Source to Pivot)和樞軸到目標(biāo)語言的雙語詞典PT(Pivot to Target),將2個雙語詞典直接融入到相應(yīng)的模型中;第2種是在第1種方法的基礎(chǔ)上,將2個雙語詞典相結(jié)合,將其中英語部分相同的詞保留,對不包含在原詞典的英語詞進(jìn)行人工整理。例如,“Monday”這個詞既存在詞典SP中又存在于詞典PT中,則保留,而“Jesus”這個詞只存在于詞典PT中,則將其人工添加到詞典SP中,如圖4所示。整合后得到的雙語詞典命名為SPT(Source to Pivot add Target)和PTS(Pivot to Target add Source),然后將其融入到相應(yīng)的模型中。

    Figure 4 Building integrated bilingual dictionary

    Figure 5 Comparison of traditional pivot language method and integrated bilingual dictionary pivot method

    3.2 反向樞軸方法

    在對生成偽平行數(shù)據(jù)的方法進(jìn)行結(jié)合時,為了進(jìn)一步提升生成數(shù)據(jù)的數(shù)量,本文將結(jié)合回譯的思想。在執(zhí)行原樞軸方向的基礎(chǔ)上,直接進(jìn)行目標(biāo)到源語言的回譯會受到2種語言之間數(shù)據(jù)稀缺性和形態(tài)差異的影響,因此也可以將這個過程分為2個簡單的步驟。原樞軸方向為源→樞軸→目標(biāo),進(jìn)行回譯的反向樞軸即為目標(biāo)→樞軸→源方向,如圖6所示。

    Figure 6 Combination of pivot and back-translation

    首先將目標(biāo)語言單語數(shù)據(jù)翻譯為樞軸語言,然后再將其翻譯為源語言,形成偽平行數(shù)據(jù),最后與正向樞軸生成的偽數(shù)據(jù)混合。此方法的優(yōu)點(diǎn)是可以直接建模,并且不需修改模型框架及參數(shù),存在大量的目標(biāo)語言T到樞軸語言P的雙語數(shù)據(jù)集,可以利用目標(biāo)語言單語數(shù)據(jù)生成更多的偽平行數(shù)據(jù)。圖7為利用越南語句子反向樞軸生成偽平行句子的流程示例。

    Figure 7 Example of reverse pivot process

    利用越英翻譯模型將越南語單語數(shù)據(jù)翻譯成英語,然后通過英漢翻譯模型將其翻譯成漢語數(shù)據(jù),以此反向樞軸生成偽平行數(shù)據(jù),并與正向樞軸方法生成的偽平行數(shù)據(jù)一起與原始數(shù)據(jù)混合進(jìn)行模型訓(xùn)練。

    Figure 8 Filtering pseudo-parallel sentences by language model

    3.3 融入雙語詞典的正反向樞軸方法

    對于詞替換、回譯和樞軸3種方法的結(jié)合,是在樞軸方法融入雙語詞典的基礎(chǔ)上,執(zhí)行反向樞軸的翻譯過程,與單純的反向樞軸方法不同的是,此次結(jié)合在反向樞軸的過程中融入了雙語詞典,可以較好地利用源語言和目標(biāo)語言單語數(shù)據(jù),同時可以有效地減少兩步翻譯的錯誤傳遞,提升反向樞軸生成的偽平行數(shù)據(jù)的質(zhì)量,以此生成更多質(zhì)量較高的偽數(shù)據(jù),與正向樞軸翻譯生成的數(shù)據(jù)混合,然后進(jìn)行模型訓(xùn)練。

    本文方法的整體流程如圖3所示,將雙語詞典分別融入到對應(yīng)的模型中,然后將漢語單語數(shù)據(jù)通過漢英翻譯模型翻譯為英語譯文,再通過英越翻譯模型翻譯為越南語譯文,以此正向樞軸方法生成偽平行數(shù)據(jù);其次將越南語單語數(shù)據(jù)通過越英翻譯模型翻譯為英語譯文,再通過英漢翻譯模型翻譯為漢語譯文,以此反向樞軸生成偽平行數(shù)據(jù)。最后將生成的偽平行數(shù)據(jù)與原始數(shù)據(jù)混合訓(xùn)練漢越神經(jīng)機(jī)器翻譯模型。

    3.4 基于語言模型的偽平行數(shù)據(jù)篩選

    通過融入雙語詞典的正反向樞軸方法可以生成新的偽平行數(shù)據(jù),但在低資源環(huán)境中很難有效地訓(xùn)練良好的回譯模型,并且引入樞軸方法可能會產(chǎn)生部分語義問題,難免會增加數(shù)據(jù)的噪聲,噪聲的存在可能會降低源語言-目標(biāo)低資源語言的翻譯性能。為改善這一問題,本文利用語言模型對生成的偽平行數(shù)據(jù)進(jìn)行篩選。由于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)可以將每個詞映射到一個緊湊的連續(xù)向量空間,該空間使用相對小的參數(shù)集合并使用循環(huán)連接來建模長距離上下文依賴,因此本文選用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型RNNLM(Recurrent Neural Network Language Model)[23]進(jìn)行偽平行數(shù)據(jù)的篩選,具體流程如圖8所示。

    首先利用大量漢語和越南語分別訓(xùn)練漢語語言模型和越南語語言模型,通過訓(xùn)練的語言模型對翻譯生成的句子進(jìn)行打分,利用預(yù)先訓(xùn)練的漢語語言模型對反向樞軸生成的偽平行句對中的漢語句子進(jìn)行打分,利用訓(xùn)練的越南語語言模型對正向樞軸方法生成的偽平行句對中的越南語句子進(jìn)行打分,通過設(shè)置一個合理的閾值,將評分低于此值的句子刪除,以此實現(xiàn)偽平行數(shù)據(jù)的篩選,從而可以減少訓(xùn)練模型的計算次數(shù),同時降低時間復(fù)雜度。用篩選后得到的偽平行數(shù)據(jù)與原始數(shù)據(jù)一起訓(xùn)練最終的漢越神經(jīng)機(jī)器翻譯模型。

    4 實驗及結(jié)果分析

    4.1 實驗設(shè)置

    實驗中傳統(tǒng)樞軸方法和語料級方法中使用的漢英雙語數(shù)據(jù)均來自WMT2017(Workshop on Machine Translation 2017),使用的英越雙語數(shù)據(jù)同樣來自WMT2017,生成漢越偽平行數(shù)據(jù)使用的漢語單語數(shù)據(jù)來自TED2013(Technology Entertainment Design 2013)中漢語數(shù)據(jù)的前10萬句,反向樞軸中使用的越南語單語數(shù)據(jù)來自Wikipedia。實驗樞軸語言均為英語,其中各個實驗步驟的數(shù)據(jù)如表1所示。

    Table 1 Experimental data

    通過網(wǎng)絡(luò)爬蟲獲取漢越數(shù)據(jù),在進(jìn)行實驗之前對語料做了清洗和Tokenizaiton處理,除去空行并過濾長度大于50的句子,最終獲得183 000個漢越雙語平行句對。使用結(jié)巴分詞工具對漢語數(shù)據(jù)進(jìn)行分詞處理,從原始雙語數(shù)據(jù)中分別隨機(jī)抽取1 500個平行句對作為實驗的驗證集和測試集。并將與偽平行數(shù)據(jù)一起訓(xùn)練翻譯模型的原始數(shù)據(jù)分為10萬和18萬分別進(jìn)行實驗,采用原始數(shù)據(jù)直接訓(xùn)練的回譯方法、詞典替換方法和傳統(tǒng)樞軸方法作為基準(zhǔn)實驗(baseline),其中詞表大小設(shè)置為30 000,為防止出現(xiàn)過擬合現(xiàn)象,在多次實驗調(diào)整后將迭代損失值設(shè)置為0.1,批大小為128,隱藏單元大小為512,輪次為20,訓(xùn)練步長為2×105,使用BLEU4作為評測指標(biāo)。

    4.2 實驗結(jié)果

    實驗均利用Transformer模型架構(gòu)進(jìn)行本文所有翻譯模型的訓(xùn)練。傳統(tǒng)的樞軸方法利用漢英200萬平行語料和英越100萬平行語料訓(xùn)練模型,回譯和詞典替換方法則使用10萬原始漢越雙語語料進(jìn)行訓(xùn)練。為了驗證生成的偽平行數(shù)據(jù)的有效性,利用語言模型對生成的偽平行數(shù)據(jù)進(jìn)行篩選,然后與原始數(shù)據(jù)混合打亂一起訓(xùn)練最終的漢越神經(jīng)機(jī)器翻譯模型,為了測試與不同語料規(guī)模的數(shù)據(jù)混合生成的偽平行數(shù)據(jù)的有效性,還設(shè)置了在18萬規(guī)模的數(shù)據(jù)集中添加偽平行數(shù)據(jù)的對比實驗。為了保證實驗結(jié)果的可靠性,每組的實驗結(jié)果的BLEU值都是利用相同測試集進(jìn)行實驗得到的,實驗結(jié)果如表2所示。

    實驗結(jié)果可分為2個部分,第1~5行是基準(zhǔn)實驗,第6~9行是利用語言模型對本文方法生成的偽平行數(shù)據(jù)進(jìn)行篩選后與不同規(guī)模的平行雙語數(shù)據(jù)進(jìn)行混合訓(xùn)練的實驗結(jié)果,是對漢越神經(jīng)機(jī)器翻譯性能提升效果的驗證。由實驗結(jié)果可知,利用融入雙語詞典并結(jié)合回譯的樞軸方法生成的偽平行數(shù)據(jù)進(jìn)行訓(xùn)練,提升效果最好,經(jīng)過語言模型篩選后,性能獲得了進(jìn)一步提升。第6行為融入雙語詞典的樞軸方法,在10萬的數(shù)據(jù)集上比傳統(tǒng)樞軸方法的BLEU值高0.33,相比直接訓(xùn)練的模型提高了0.61,在18萬的數(shù)據(jù)集上相比直接訓(xùn)練的模型的BLEU值提高了0.48;第7行為融入了整合后雙語詞典的樞軸方法,效果比傳統(tǒng)樞軸方法的BLEU值提高了0.43,并且在10萬和18萬的數(shù)據(jù)集上的對比都具有較好的改進(jìn)效果;第8行為反向樞軸的方法,同樣具有較好的改進(jìn)效果,但由于反向樞軸生成的偽平行數(shù)據(jù)質(zhì)量不佳,因此提升效果相對于單回譯方法略低一點(diǎn);第9行為融入雙語詞典的正反向樞軸方法,使用的漢語和越南語單語數(shù)據(jù)均為10萬,相比傳統(tǒng)樞軸方法的BLEU值提升了0.64,在18萬的數(shù)據(jù)集上依然可以取得較好的提升,相對于直接訓(xùn)練BLEU值提升了0.89,取得了最好的翻譯效果。

    Table 2 Experimental results comparison between the generative methods and proposed method

    4.3 實驗對比分析

    由實驗結(jié)果可知,在樞軸語言方法中融入雙語詞典后翻譯性能總體都有所提升,將雙語詞典進(jìn)行整合后融入樞軸翻譯方法中,可以進(jìn)一步提升漢越神經(jīng)機(jī)器翻譯模型的性能。翻譯性能與訓(xùn)練數(shù)據(jù)的數(shù)量、質(zhì)量以及語言本身的差異性息息相關(guān),為了更好地分析本文方法生成的偽平行數(shù)據(jù)提升翻譯性能的原因,本文對生成的偽平行數(shù)據(jù)進(jìn)行了分析評估。

    4.3.1 困惑度分析

    為了檢驗生成的偽平行數(shù)據(jù)的可用性,利用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型RNNLM和生成的偽平行數(shù)據(jù)訓(xùn)練語言模型,通過測試其困惑度PPL(PerPLexity),對生成句對的流利性進(jìn)行評估,檢測偽平行數(shù)據(jù)的質(zhì)量。此實驗中訓(xùn)練語言模型的數(shù)據(jù)均為生成的漢越偽平行數(shù)據(jù),結(jié)果如表3所示。

    Table 3 Evaluation results of Chinese-Vietnamese pseudo-parallel data perplexity

    實驗中均使用同一測試集進(jìn)行評價,其句子都是正常的句子,給測試集中的句子賦予較高正確概率值的語言模型較好,當(dāng)語言模型訓(xùn)練完之后,訓(xùn)練好的語言模型在測試集上的正確概率越高越好。語言模型困惑度的評判標(biāo)準(zhǔn)是,困惑度越小,句子正確的概率越大,語言模型就越好。由表3所示實驗結(jié)果可知,本文方法可以降低困惑度,提高偽平行數(shù)據(jù)的語義流暢性。

    4.3.2 句子打分

    為了評測生成的偽數(shù)據(jù)的語法語義的準(zhǔn)確性,利用語言模型來對生成的漢越偽數(shù)據(jù)進(jìn)行句子打分,以此對偽平行數(shù)據(jù)的質(zhì)量進(jìn)行評估。對語言模型打分實質(zhì)上是評估這個句子出現(xiàn)的概率,數(shù)據(jù)較少的情況下分?jǐn)?shù)一般都很小。分?jǐn)?shù)是對句子概率取對數(shù)后的結(jié)果,因此分值一般為負(fù)數(shù),分?jǐn)?shù)越高這個句子出現(xiàn)的可能性越高,即語法語義正確的可能性更高。通過設(shè)置一個閾值,能夠有效地將語法語義有誤的句子篩選出來,因此本實驗依然使用語言模型的得分評價生成的漢越偽平行語料在語法語義上的正確性。

    首先利用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對漢語和越南語的單語語料中的句子進(jìn)行打分,以原始語料中句子的語法語義為基準(zhǔn);然后分別計算出漢語單語語料和越南語單語語料中句子的平均分,并將其作為基準(zhǔn)分?jǐn)?shù);最后同樣使用語言模型對生成的漢越偽平行句子分別進(jìn)行打分,這里使用的測試集包含1 000句語句,計算出其平均分,與基準(zhǔn)分?jǐn)?shù)進(jìn)行比較,表4所示為生成的越南語句子的評價結(jié)果,表5所示為反向樞軸生成的漢語句子的評價結(jié)果。

    Table 4 Scoring results of generated Vietnamese sentence

    Table 5 Scoring results of generated Chinese sentence

    由打分結(jié)果可以看出,生成的漢越偽平行句對的分?jǐn)?shù)都略低于漢語和越南語測試集的基準(zhǔn)分?jǐn)?shù),而融入整合后雙語詞典的樞軸方法生成的越南語數(shù)據(jù)和融入整合雙語詞典的正反向樞軸方法生成的漢語數(shù)據(jù)的句子打分結(jié)果最接近基準(zhǔn)分?jǐn)?shù),因此我們認(rèn)為在樞軸方法基礎(chǔ)上將詞替換和回譯進(jìn)行結(jié)合的方式,使生成的漢越偽平行句對語法語義正確的可能性較高。

    4.3.3 翻譯對比分析

    通過例舉本文方法生成偽平行數(shù)據(jù)的典型句子樣例,對同一漢語句子所生成的偽平行數(shù)據(jù)進(jìn)行對比,可以直觀地觀察效果,對比樣例如表6所示。

    Table 6 Example comparison of generating pseudo-parallel data

    5 結(jié)束語

    在漢越神經(jīng)機(jī)器翻譯任務(wù)上,針對資源稀缺型語言的訓(xùn)練數(shù)據(jù)稀缺問題,將3種生成偽平行數(shù)據(jù)的方法進(jìn)行融合,提出了一種融入雙語詞典的正反向樞軸方法,以此生成漢越偽平行數(shù)據(jù),經(jīng)過語言模型篩選后與原始數(shù)據(jù)混合訓(xùn)練模型。實驗結(jié)果表明,這種方法與單一的生成方法相比,可以在資源稀缺型神經(jīng)機(jī)器翻譯中更好地緩解數(shù)據(jù)稀疏問題。接下來我們將繼續(xù)針對低資源神經(jīng)機(jī)器翻譯數(shù)據(jù)稀疏問題,對樞軸方法進(jìn)行模型層面的融合研究。

    猜你喜歡
    樞軸語料詞典
    WK-35 電鏟中央樞軸液氮冷裝工藝研究
    面向神經(jīng)機(jī)器翻譯的樞軸方法研究綜述
    探討參數(shù)區(qū)間估計中樞軸量的選取——以單個正態(tài)總體均值為例
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    評《現(xiàn)代漢語詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    抽水蓄能電站球閥樞軸軸套故障分析及改造
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    国产精品久久久久久av不卡| 男人舔女人的私密视频| 精品一品国产午夜福利视频| 久久女婷五月综合色啪小说| 全区人妻精品视频| 欧美 亚洲 国产 日韩一| 国产精品免费大片| 制服诱惑二区| 日本午夜av视频| 精品国产露脸久久av麻豆| 韩国av在线不卡| 日本爱情动作片www.在线观看| 精品熟女少妇av免费看| av有码第一页| 欧美+日韩+精品| 久久久a久久爽久久v久久| 99久久人妻综合| 99热全是精品| 国产片特级美女逼逼视频| 精品一区二区三区视频在线| 9热在线视频观看99| 99久国产av精品国产电影| 国产一级毛片在线| 欧美xxxx性猛交bbbb| 天堂中文最新版在线下载| 在线天堂中文资源库| 熟女av电影| 男女午夜视频在线观看 | 看十八女毛片水多多多| a级片在线免费高清观看视频| av视频免费观看在线观看| 欧美老熟妇乱子伦牲交| 人妻一区二区av| 欧美老熟妇乱子伦牲交| 国产毛片在线视频| 日韩在线高清观看一区二区三区| 大香蕉久久网| 日本vs欧美在线观看视频| 中文字幕av电影在线播放| 免费看av在线观看网站| 看十八女毛片水多多多| 国产精品国产三级国产av玫瑰| 欧美日韩国产mv在线观看视频| 亚洲伊人色综图| 女性生殖器流出的白浆| 日日撸夜夜添| 日韩欧美精品免费久久| 亚洲少妇的诱惑av| 亚洲欧美成人精品一区二区| 国产免费现黄频在线看| 国产成人精品无人区| 亚洲色图 男人天堂 中文字幕 | 草草在线视频免费看| 2018国产大陆天天弄谢| 综合色丁香网| 曰老女人黄片| 18禁动态无遮挡网站| 国产又爽黄色视频| 欧美激情国产日韩精品一区| av.在线天堂| 久久99蜜桃精品久久| 爱豆传媒免费全集在线观看| 色视频在线一区二区三区| 人妻人人澡人人爽人人| a级毛片黄视频| 伦理电影大哥的女人| 涩涩av久久男人的天堂| 夜夜爽夜夜爽视频| 国产一区有黄有色的免费视频| av在线观看视频网站免费| 久久国产精品大桥未久av| 国产成人精品在线电影| 国产福利在线免费观看视频| 免费观看av网站的网址| 一级黄片播放器| 秋霞在线观看毛片| 性色av一级| 国产精品一二三区在线看| 建设人人有责人人尽责人人享有的| 如何舔出高潮| 女人被躁到高潮嗷嗷叫费观| 精品人妻一区二区三区麻豆| 久久人人97超碰香蕉20202| 纯流量卡能插随身wifi吗| 亚洲伊人色综图| 一级爰片在线观看| 美女中出高潮动态图| 亚洲性久久影院| 你懂的网址亚洲精品在线观看| 一区二区av电影网| 又黄又粗又硬又大视频| 丝袜喷水一区| 欧美日本中文国产一区发布| 久久久久视频综合| 亚洲欧美日韩另类电影网站| 国产在线免费精品| 99久久中文字幕三级久久日本| 大香蕉97超碰在线| 另类亚洲欧美激情| 欧美bdsm另类| 午夜老司机福利剧场| 丁香六月天网| 寂寞人妻少妇视频99o| 国产国拍精品亚洲av在线观看| 亚洲欧美中文字幕日韩二区| 日本黄色日本黄色录像| 少妇的丰满在线观看| 久久久久网色| 欧美激情 高清一区二区三区| 成人手机av| 亚洲精品久久午夜乱码| av在线老鸭窝| 22中文网久久字幕| 中文字幕av电影在线播放| 精品亚洲乱码少妇综合久久| 亚洲一码二码三码区别大吗| 日本猛色少妇xxxxx猛交久久| 亚洲国产精品成人久久小说| av黄色大香蕉| av女优亚洲男人天堂| 亚洲国产欧美在线一区| 亚洲精品色激情综合| 亚洲综合色网址| 欧美精品av麻豆av| 综合色丁香网| 高清不卡的av网站| 久久久久精品性色| 人妻系列 视频| av在线app专区| 久久久久久久亚洲中文字幕| 97超碰精品成人国产| 99re6热这里在线精品视频| 99精国产麻豆久久婷婷| 中文天堂在线官网| 五月伊人婷婷丁香| 日韩中文字幕视频在线看片| 男女边吃奶边做爰视频| 嫩草影院入口| 热re99久久精品国产66热6| 国产成人精品一,二区| 熟女电影av网| 亚洲国产精品一区三区| 免费黄网站久久成人精品| 全区人妻精品视频| 人人妻人人添人人爽欧美一区卜| 国产亚洲av片在线观看秒播厂| 高清黄色对白视频在线免费看| 欧美另类一区| 男人舔女人的私密视频| 亚洲一区二区三区欧美精品| 一区二区三区四区激情视频| 国产淫语在线视频| 日本av免费视频播放| 好男人视频免费观看在线| 国产色婷婷99| 中文字幕人妻熟女乱码| 曰老女人黄片| 亚洲精品美女久久久久99蜜臀 | 国产69精品久久久久777片| 岛国毛片在线播放| 亚洲精品色激情综合| 一边摸一边做爽爽视频免费| 大陆偷拍与自拍| 2018国产大陆天天弄谢| 欧美成人午夜免费资源| 婷婷色麻豆天堂久久| 国产1区2区3区精品| 免费黄频网站在线观看国产| 香蕉国产在线看| 国产1区2区3区精品| 一级爰片在线观看| 少妇被粗大猛烈的视频| 一本久久精品| 久久鲁丝午夜福利片| 七月丁香在线播放| 最近的中文字幕免费完整| 91精品三级在线观看| 少妇人妻久久综合中文| 99热这里只有是精品在线观看| 人人妻人人澡人人爽人人夜夜| 亚洲精品乱久久久久久| 国产av国产精品国产| 亚洲人与动物交配视频| 成人综合一区亚洲| 永久网站在线| 久久国产亚洲av麻豆专区| 国产精品麻豆人妻色哟哟久久| 日韩av在线免费看完整版不卡| av在线播放精品| 亚洲欧美色中文字幕在线| 最新的欧美精品一区二区| 黑人猛操日本美女一级片| 91精品伊人久久大香线蕉| 亚洲av成人精品一二三区| 爱豆传媒免费全集在线观看| 久久久a久久爽久久v久久| 午夜福利乱码中文字幕| 母亲3免费完整高清在线观看 | 国产亚洲最大av| 日韩制服丝袜自拍偷拍| 中文天堂在线官网| 久久 成人 亚洲| 亚洲欧美色中文字幕在线| 91国产中文字幕| 日韩欧美精品免费久久| 亚洲国产日韩一区二区| 欧美国产精品一级二级三级| 高清毛片免费看| 成人毛片60女人毛片免费| 亚洲情色 制服丝袜| 日日啪夜夜爽| 日韩中字成人| 麻豆乱淫一区二区| 最近最新中文字幕大全免费视频 | 精品国产一区二区三区久久久樱花| 久久久精品94久久精品| 欧美成人午夜免费资源| 如日韩欧美国产精品一区二区三区| 我要看黄色一级片免费的| 欧美激情 高清一区二区三区| 一级毛片 在线播放| 亚洲五月色婷婷综合| 90打野战视频偷拍视频| 午夜免费鲁丝| 日韩欧美一区视频在线观看| 国产麻豆69| 免费黄色在线免费观看| 寂寞人妻少妇视频99o| 免费观看性生交大片5| 国产xxxxx性猛交| 99香蕉大伊视频| a 毛片基地| 国产精品.久久久| 午夜久久久在线观看| 男人舔女人的私密视频| 18在线观看网站| 亚洲综合精品二区| 性高湖久久久久久久久免费观看| 在线观看美女被高潮喷水网站| 亚洲第一av免费看| 亚洲av男天堂| 九九爱精品视频在线观看| 男女边摸边吃奶| 国语对白做爰xxxⅹ性视频网站| 亚洲精华国产精华液的使用体验| 亚洲伊人久久精品综合| 大香蕉97超碰在线| 亚洲图色成人| 国产精品久久久久久精品电影小说| 天天影视国产精品| 永久免费av网站大全| 青春草国产在线视频| 国产黄色视频一区二区在线观看| 午夜免费男女啪啪视频观看| 精品熟女少妇av免费看| av免费在线看不卡| 久久精品国产综合久久久 | 伊人亚洲综合成人网| 久久综合国产亚洲精品| 精品一区二区三卡| 亚洲成国产人片在线观看| 如何舔出高潮| 你懂的网址亚洲精品在线观看| 国产高清三级在线| 秋霞在线观看毛片| 国产欧美日韩综合在线一区二区| 中文字幕精品免费在线观看视频 | 丰满饥渴人妻一区二区三| 欧美国产精品va在线观看不卡| 美女内射精品一级片tv| 久久青草综合色| 一级毛片我不卡| 999精品在线视频| 精品人妻一区二区三区麻豆| 精品一区二区三区视频在线| 中文字幕亚洲精品专区| 久久久欧美国产精品| 久久国产精品大桥未久av| 男的添女的下面高潮视频| 亚洲av.av天堂| 午夜免费鲁丝| 日韩欧美精品免费久久| 国产精品欧美亚洲77777| 国产伦理片在线播放av一区| 亚洲人与动物交配视频| 99久久人妻综合| 热re99久久精品国产66热6| 精品亚洲乱码少妇综合久久| 赤兔流量卡办理| 另类亚洲欧美激情| av.在线天堂| 久久久久精品久久久久真实原创| 国产片内射在线| 精品久久久精品久久久| 丝袜在线中文字幕| 美女中出高潮动态图| 国产欧美亚洲国产| 高清黄色对白视频在线免费看| 精品国产一区二区久久| 国产亚洲最大av| 免费日韩欧美在线观看| 丝瓜视频免费看黄片| 在线精品无人区一区二区三| 久久久久久久久久久久大奶| av片东京热男人的天堂| 色视频在线一区二区三区| 九色亚洲精品在线播放| 国产亚洲精品第一综合不卡 | 一边亲一边摸免费视频| av国产久精品久网站免费入址| 亚洲成人一二三区av| 国产精品国产av在线观看| 亚洲第一区二区三区不卡| 亚洲美女视频黄频| 丰满迷人的少妇在线观看| 婷婷色综合www| 欧美亚洲日本最大视频资源| 赤兔流量卡办理| 永久免费av网站大全| 一本色道久久久久久精品综合| 男男h啪啪无遮挡| 国产无遮挡羞羞视频在线观看| 亚洲国产看品久久| 精品福利永久在线观看| 亚洲综合色惰| 精品卡一卡二卡四卡免费| 女的被弄到高潮叫床怎么办| 久久亚洲国产成人精品v| 男女免费视频国产| 十分钟在线观看高清视频www| 卡戴珊不雅视频在线播放| 妹子高潮喷水视频| 午夜免费男女啪啪视频观看| 亚洲av日韩在线播放| 一级毛片 在线播放| 美女福利国产在线| 欧美日韩亚洲高清精品| 欧美+日韩+精品| 欧美精品人与动牲交sv欧美| 色吧在线观看| 嫩草影院入口| 精品亚洲乱码少妇综合久久| videosex国产| 男人操女人黄网站| 国产日韩一区二区三区精品不卡| 久久精品夜色国产| 免费人成在线观看视频色| 日本-黄色视频高清免费观看| 国产成人91sexporn| 国产精品久久久久久av不卡| 熟妇人妻不卡中文字幕| 性高湖久久久久久久久免费观看| 国产极品粉嫩免费观看在线| 久久青草综合色| 国产精品蜜桃在线观看| 大香蕉久久网| 看非洲黑人一级黄片| 国产成人免费无遮挡视频| 日韩制服丝袜自拍偷拍| 亚洲成色77777| 久久久久久伊人网av| 婷婷色综合www| 国产成人精品一,二区| 制服丝袜香蕉在线| 国产亚洲午夜精品一区二区久久| 在线 av 中文字幕| 一个人免费看片子| 日本黄大片高清| 亚洲欧洲日产国产| 少妇 在线观看| 2018国产大陆天天弄谢| 亚洲国产最新在线播放| 亚洲国产精品国产精品| 久久女婷五月综合色啪小说| 亚洲av.av天堂| 精品一区二区三区视频在线| 精品人妻在线不人妻| 亚洲精品自拍成人| 狂野欧美激情性xxxx在线观看| av黄色大香蕉| 亚洲av日韩在线播放| 九色成人免费人妻av| 一二三四在线观看免费中文在 | 波野结衣二区三区在线| 桃花免费在线播放| 亚洲欧美清纯卡通| 午夜影院在线不卡| 精品福利永久在线观看| 丰满乱子伦码专区| 在线观看www视频免费| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 在线亚洲精品国产二区图片欧美| 岛国毛片在线播放| 亚洲欧美成人综合另类久久久| 欧美人与性动交α欧美软件 | 久久这里只有精品19| 嫩草影院入口| 精品国产一区二区三区四区第35| 亚洲一码二码三码区别大吗| av一本久久久久| 一级黄片播放器| 人妻一区二区av| 亚洲精品,欧美精品| 国产精品女同一区二区软件| 久久人人97超碰香蕉20202| 黄色一级大片看看| 日韩不卡一区二区三区视频在线| 久久精品国产综合久久久 | 欧美日韩视频精品一区| 嫩草影院入口| 日韩视频在线欧美| 亚洲av中文av极速乱| 美女xxoo啪啪120秒动态图| 中文字幕制服av| 免费高清在线观看日韩| 国产亚洲欧美精品永久| 欧美成人午夜精品| 99国产精品免费福利视频| 一级毛片 在线播放| 男男h啪啪无遮挡| 国产欧美日韩一区二区三区在线| videosex国产| 大片电影免费在线观看免费| 大香蕉97超碰在线| 97超碰精品成人国产| 国产欧美日韩综合在线一区二区| 国产亚洲精品久久久com| 免费人成在线观看视频色| 国产黄频视频在线观看| 免费观看性生交大片5| 伊人久久国产一区二区| 国产免费一级a男人的天堂| 日本猛色少妇xxxxx猛交久久| 人妻系列 视频| 日韩熟女老妇一区二区性免费视频| 爱豆传媒免费全集在线观看| 侵犯人妻中文字幕一二三四区| 日韩成人伦理影院| 亚洲欧洲国产日韩| 国产老妇伦熟女老妇高清| 色5月婷婷丁香| 女人精品久久久久毛片| 最近2019中文字幕mv第一页| 亚洲性久久影院| 看非洲黑人一级黄片| 欧美国产精品va在线观看不卡| 热99久久久久精品小说推荐| 国产 一区精品| 亚洲欧美清纯卡通| 午夜免费男女啪啪视频观看| 久久精品久久久久久噜噜老黄| 美女国产高潮福利片在线看| 欧美激情国产日韩精品一区| 精品一区二区免费观看| a 毛片基地| 国产欧美亚洲国产| 国产国拍精品亚洲av在线观看| 国产黄色视频一区二区在线观看| 91精品三级在线观看| 日本wwww免费看| 亚洲欧美日韩另类电影网站| 在线天堂中文资源库| 精品午夜福利在线看| 女人被躁到高潮嗷嗷叫费观| 美女脱内裤让男人舔精品视频| 久久热在线av| 免费少妇av软件| 国产精品无大码| 男人爽女人下面视频在线观看| 欧美激情国产日韩精品一区| 中国三级夫妇交换| 国产亚洲一区二区精品| 夫妻性生交免费视频一级片| 国国产精品蜜臀av免费| 国产爽快片一区二区三区| a级毛色黄片| 午夜福利,免费看| 菩萨蛮人人尽说江南好唐韦庄| 秋霞在线观看毛片| 精品国产一区二区三区久久久樱花| 成人18禁高潮啪啪吃奶动态图| 国产乱人偷精品视频| 欧美日韩成人在线一区二区| 性色avwww在线观看| 久久久精品免费免费高清| 国产欧美日韩综合在线一区二区| 成年人午夜在线观看视频| 精品少妇黑人巨大在线播放| 99久久中文字幕三级久久日本| 在线免费观看不下载黄p国产| 国产精品嫩草影院av在线观看| 18禁动态无遮挡网站| 人体艺术视频欧美日本| 伦理电影免费视频| 内地一区二区视频在线| 亚洲欧美一区二区三区黑人 | 亚洲综合色网址| 三上悠亚av全集在线观看| 欧美xxⅹ黑人| 一二三四中文在线观看免费高清| 成人午夜精彩视频在线观看| 精品一区二区三区四区五区乱码 | 精品第一国产精品| tube8黄色片| 欧美人与性动交α欧美精品济南到 | 2021少妇久久久久久久久久久| 黄色一级大片看看| 男女高潮啪啪啪动态图| 国产色爽女视频免费观看| 欧美日韩精品成人综合77777| 9热在线视频观看99| 波野结衣二区三区在线| 一级毛片电影观看| 精品人妻一区二区三区麻豆| 只有这里有精品99| 成年人午夜在线观看视频| 日韩熟女老妇一区二区性免费视频| 欧美日韩视频高清一区二区三区二| 亚洲第一av免费看| 久久久久久伊人网av| 欧美 日韩 精品 国产| 这个男人来自地球电影免费观看 | 宅男免费午夜| av免费在线看不卡| 亚洲精品中文字幕在线视频| 一级片免费观看大全| 亚洲国产精品成人久久小说| 少妇高潮的动态图| 搡老乐熟女国产| 成年动漫av网址| 国产一区亚洲一区在线观看| 韩国精品一区二区三区 | 下体分泌物呈黄色| 黄色一级大片看看| 黄片播放在线免费| 久久精品aⅴ一区二区三区四区 | 黄色配什么色好看| 亚洲精品国产色婷婷电影| 日本欧美视频一区| 一级毛片 在线播放| 18禁动态无遮挡网站| 国产精品偷伦视频观看了| 97人妻天天添夜夜摸| 满18在线观看网站| 丝袜美足系列| 十八禁网站网址无遮挡| 国产精品女同一区二区软件| 久久久欧美国产精品| 日本猛色少妇xxxxx猛交久久| 精品人妻一区二区三区麻豆| 最新中文字幕久久久久| 丝袜在线中文字幕| 日韩一本色道免费dvd| 99久久精品国产国产毛片| 国产男女超爽视频在线观看| 久久 成人 亚洲| 日韩,欧美,国产一区二区三区| 两个人看的免费小视频| 欧美变态另类bdsm刘玥| 在线观看三级黄色| 亚洲少妇的诱惑av| 亚洲国产av影院在线观看| 中文字幕免费在线视频6| 99香蕉大伊视频| 国产欧美日韩一区二区三区在线| 免费观看a级毛片全部| 成人二区视频| 国产黄色免费在线视频| 欧美精品亚洲一区二区| 亚洲av欧美aⅴ国产| 人妻少妇偷人精品九色| 国产女主播在线喷水免费视频网站| 午夜91福利影院| 90打野战视频偷拍视频| 9色porny在线观看| 国产色爽女视频免费观看| 国产精品无大码| 一本久久精品| 亚洲人成网站在线观看播放| 两性夫妻黄色片 | 亚洲国产最新在线播放| 欧美精品高潮呻吟av久久| 亚洲一区二区三区欧美精品| 亚洲人与动物交配视频| 久久久久久久久久久久大奶| 熟女人妻精品中文字幕| 人成视频在线观看免费观看| 五月天丁香电影| 中文天堂在线官网| 美女国产高潮福利片在线看| 人成视频在线观看免费观看| 九色亚洲精品在线播放| freevideosex欧美| 一级黄片播放器| 国产精品成人在线| 晚上一个人看的免费电影| 日韩伦理黄色片| 国产欧美日韩一区二区三区在线| 日本wwww免费看| 精品亚洲成a人片在线观看| 久久久久视频综合| 一级爰片在线观看| 亚洲国产欧美在线一区| 日韩电影二区| 搡老乐熟女国产| 国产探花极品一区二区| 美女福利国产在线| 熟女电影av网| 精品一区二区三区视频在线| 一级,二级,三级黄色视频| 国产精品国产三级国产专区5o| 成人手机av| 18禁动态无遮挡网站| 精品一区二区免费观看| 少妇精品久久久久久久|