• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于回譯和比例抽取孿生網(wǎng)絡(luò)篩選的漢越平行語料擴(kuò)充方法*

    2022-10-28 01:22:08王可超郭軍軍張亞飛高盛祥余正濤
    關(guān)鍵詞:語料平行雙語

    王可超,郭軍軍,2,張亞飛,2,高盛祥,2,余正濤,2

    (1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

    1 引言

    神經(jīng)機(jī)器翻譯NMT(Neural Machine Translation)[1,2]是自然語言處理領(lǐng)域的研究熱點(diǎn)。相較于已經(jīng)取得極大進(jìn)步的資源豐富型神經(jīng)機(jī)器翻譯,低資源神經(jīng)機(jī)器翻譯由于缺少高質(zhì)量的雙語語料,效果并不理想。因此,如何高效地?cái)U(kuò)充語料規(guī)模,成為低資源神經(jīng)機(jī)器翻譯研究中亟需解決的問題。針對此問題,研究人員提出了多種數(shù)據(jù)增強(qiáng)方法,通過有限的語料資源擴(kuò)充雙語語料規(guī)模。早期的工作主要利用人工的方式進(jìn)行語料擴(kuò)充,但效率較低。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,利用深度學(xué)習(xí)方法來擴(kuò)充雙語語料成為有效途徑?;谏疃葘W(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法主要分為生成式和抽取式。生成式數(shù)據(jù)增強(qiáng)方法包括:回譯(back-translation),將目標(biāo)端的單語語料通過反向翻譯模型擴(kuò)充為偽平行雙語語料;詞或單元的替換,通過各種手段替換句子中部分單元(詞或短語)來擴(kuò)充語料;加入樞軸語言,充分利用源-樞軸-目標(biāo)語言間豐富的對齊語料來提升源-目標(biāo)語言對的機(jī)器翻譯性能。抽取式數(shù)據(jù)增強(qiáng)方法主要通過計(jì)算跨語言語義相似度,從可比語料(篇章對齊)中抽出偽平行語料。通過這幾種方法,可以大規(guī)模擴(kuò)充雙語語料庫的規(guī)模。

    漢語-越南語作為典型的低資源語言對,其平行語料獲取難度很大。傳統(tǒng)的回譯方法中,首先基于小規(guī)模平行語料訓(xùn)練基礎(chǔ)翻譯模型,在此基礎(chǔ)上將越南語翻譯為對應(yīng)的漢語句子、組合成新語料再次投入訓(xùn)練。但是,由于用于訓(xùn)練基礎(chǔ)翻譯模型的平行語料規(guī)模和質(zhì)量欠佳,造成基礎(chǔ)翻譯模型訓(xùn)練并不充分,若只是直接在該模型上通過回譯方法進(jìn)行語料擴(kuò)充,得到的偽平行語料會(huì)含有過多的噪聲,如表1所示。

    Table 1 Comparison between back-translation generated translation and standard translation

    表1中通過回譯得到的漢語譯文偏離了原句的意思,且有明顯的語義邏輯錯(cuò)誤,若要構(gòu)建用于訓(xùn)練機(jī)器翻譯模型的雙語語料庫,必須要過濾掉這種句對。本文將回譯和偽平行句對抽取的方法相結(jié)合,通過計(jì)算跨語言句對間的語義相似度,對生成的語料進(jìn)行篩選,以獲得高質(zhì)量雙語語料。具體來說,本文首先利用回譯的方法,將大規(guī)模的單語語料擴(kuò)充為偽平行語料;然后結(jié)合回譯數(shù)據(jù)的特點(diǎn),對傳統(tǒng)基于雙向長短時(shí)記憶Bi-LSTM(Bidirectional Long Short-Term Memory)孿生網(wǎng)絡(luò)的句對抽取模型進(jìn)行了改進(jìn),改進(jìn)后的模型將平行語料和偽平行語料混合后對模型進(jìn)行訓(xùn)練,使模型能更好地分辨平行句與偽平行句,從而抽取出質(zhì)量更高的偽平行句,以構(gòu)建用于漢越神經(jīng)機(jī)器翻譯的語料庫。

    2 相關(guān)工作

    神經(jīng)機(jī)器翻譯是目前機(jī)器翻譯領(lǐng)域內(nèi)最熱門的研究方法,在資源充足的語言對翻譯上,神經(jīng)機(jī)器翻譯的性能已經(jīng)明顯超過了統(tǒng)計(jì)機(jī)器翻譯[3],但在低資源神經(jīng)機(jī)器翻譯上,神經(jīng)機(jī)器翻譯的效果還有待提升[4]。用來訓(xùn)練低資源神經(jīng)機(jī)器翻譯模型的平行語料相對較少,導(dǎo)致翻譯效果欠佳,因此如何獲取高質(zhì)量的雙語語料,成為提高低資源神經(jīng)機(jī)器翻譯的一種關(guān)鍵性技術(shù)。近年來,國內(nèi)外相關(guān)研究人員針對低資源語種的偽平行語料擴(kuò)充方法進(jìn)行了廣泛研究,并取得了一系列成果。

    目前應(yīng)用最廣泛的語料擴(kuò)充方法是回譯。它利用反向的翻譯模型,將目標(biāo)端語言的數(shù)據(jù)翻譯成源端語言的數(shù)據(jù),通過這一方法來構(gòu)造偽平行雙語數(shù)據(jù)來訓(xùn)練正向翻譯模型?;刈g最早是由Sennrich[5]等提出的,文中提出了2種方式來比較回譯的性能。第1種方法在只有目標(biāo)語言句子y的前提下,將源語言對應(yīng)的句子設(shè)置為空,將句對(dummy,y)將其加入到平行語料中進(jìn)行訓(xùn)練,可以看成是翻譯模型和語言模型多任務(wù)訓(xùn)練;第2種方式為回譯,用訓(xùn)練好的目標(biāo)語言到源語言的翻譯模型翻譯目標(biāo)語言句子y,得到偽平行句對(x′,y),將其加入到平行句對中一起訓(xùn)練。因?yàn)閥是高質(zhì)量的單語語句,而x′中可能包含一些〈UNK〉字符或者錯(cuò)誤的句法等,其質(zhì)量較差。這樣訓(xùn)練可以想象成去噪聲形式的訓(xùn)練。在有噪聲的情況下,訓(xùn)練x(源語言)→y(目標(biāo)語言)方向的翻譯模型盡量還能翻譯好,以此提升泛化性能?;刈g已經(jīng)有了越來越多的擴(kuò)展方法。He等[6]提出了對偶學(xué)習(xí)的方法,將回譯擴(kuò)展為在2個(gè)翻譯方向上訓(xùn)練NMT系統(tǒng),利用源語言與目標(biāo)語言的單語數(shù)據(jù)來同時(shí)提升2個(gè)方向的翻譯模型;Hoang等[7]提出了迭代回譯的思想,通過使用回譯的數(shù)據(jù)構(gòu)建更好的翻譯模型,再使用這個(gè)更好的翻譯模型對數(shù)據(jù)進(jìn)行回譯,重復(fù)此過程以達(dá)到迭代的效果。數(shù)據(jù)增強(qiáng)的方法還有詞或單元的替換。比如2017年Fadaee等[8]提出了一種增強(qiáng)語料的方法,首先在規(guī)模較大的單語語料上訓(xùn)練出語言模型,然后用語言模型找到句子中可以被低頻詞替換的高頻詞的位置并完成替換。通過這種單詞替換,增加了訓(xùn)練語料中低頻詞出現(xiàn)的次數(shù),從而增強(qiáng)神經(jīng)機(jī)器翻譯對低頻詞的理解能力。而蔡子龍等[9]將句子中最相似的單元進(jìn)行位置上的對調(diào),以此形成新的語料,改變的是語料中句子的結(jié)構(gòu)信息而非語料中的詞頻信息。此外,Wei等[10]提出了隨機(jī)替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除的方法,為低資源神經(jīng)機(jī)器翻譯的數(shù)據(jù)增強(qiáng)技術(shù)開拓了新的思路,也提升了低資源NMT的性能。還有一種增強(qiáng)方法是加入樞軸語言。此類方法通過引入大語種豐富的對齊語料作為樞軸語言來充分提升小語種神經(jīng)機(jī)器翻譯的性能。Ren等[11]提出,在大語種之間的翻譯過程中將小語種作為中間隱變量引入,將該翻譯過程拆分為兩個(gè)經(jīng)由小語種的翻譯過程,如X、Y為兩個(gè)大語種,它們之間有大量雙語數(shù)據(jù),Z作為小語種,它和X、Y之間均只有少量雙語數(shù)據(jù),為了提升X→Z和Y→Z的翻譯性能,可以用此方法來進(jìn)行優(yōu)化。

    在抽取式語料擴(kuò)充方法的研究中,Cristina等[12]研究了從NMT系統(tǒng)編碼器獲得的句子表示中檢測新的平行句對,通過比較余弦相似度來進(jìn)行平行句和非平行句的區(qū)分。Grover等[13]提出了一種利用連續(xù)向量表示的方法,在使用Luong等[14]提出的雙語詞嵌入模型學(xué)習(xí)單詞表示后,再使用相似矩陣上的卷積神經(jīng)網(wǎng)絡(luò)對一對句子是否對齊進(jìn)行分類。而Grégoire等[15]使用單一端到端模型估計(jì)可比語料中2個(gè)句子平行的條件概率分布,取得了更好的效果。

    對漢越語言對來說,回譯能夠快速而有效地?cái)U(kuò)充漢越平行語料規(guī)模,然而,單獨(dú)使用回譯方法生成的偽平行語料質(zhì)量較差,在實(shí)際應(yīng)用中難以用于下游任務(wù),若直接用于訓(xùn)練翻譯模型,可能會(huì)降低翻譯系統(tǒng)的性能[16]。針對此問題,本文結(jié)合回譯和平行句對抽取方法對數(shù)據(jù)進(jìn)行擴(kuò)充和清洗。之前工作中,由于大多數(shù)句對抽取方法是針對可比語料特點(diǎn)進(jìn)行訓(xùn)練的,所以本文在此基礎(chǔ)上結(jié)合回譯數(shù)據(jù)的特點(diǎn)對句對抽取方法進(jìn)行了改進(jìn),使其可以對偽平行語料進(jìn)行更有效的篩選。本文方法將偽平行語料與平行語料進(jìn)行混合,用于訓(xùn)練句對抽取模型,以提升模型抽取出的平行句對的比例,使其能夠分辨出平行句對與偽平行句對,進(jìn)而從回譯生成的偽平行語料中篩選出高質(zhì)量的偽平行句對。

    3 基于回譯和比例抽取孿生網(wǎng)絡(luò)篩選的偽平行句對抽取方法

    3.1 整體框架

    本文方法首先利用回譯的基本思想,將大規(guī)模的越南語單語數(shù)據(jù)利用基礎(chǔ)翻譯模型翻譯得到漢越偽平行雙語數(shù)據(jù)。但是,由于漢越平行語料規(guī)模有限,訓(xùn)練得到的基礎(chǔ)翻譯模型(翻譯方向:越→漢)性能一般,進(jìn)而導(dǎo)致擴(kuò)充的偽平行語料中部分句對質(zhì)量不佳,無法更有效地推進(jìn)后續(xù)工作。本文通過混合小規(guī)模平行語料和回譯生成的大規(guī)模偽平行語料,訓(xùn)練一個(gè)基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò),使得該網(wǎng)絡(luò)可以識別出混合語料中的平行句對。該句對抽取模型通過孿生網(wǎng)絡(luò)將漢越句對映射到同一語義空間下,計(jì)算句對之間的語義相似度,并按相似度得分從高到低排列句對,取出相似度高于設(shè)定閾值的句對。在訓(xùn)練過程中,將平行句對和偽平行句對混合,并加標(biāo)簽區(qū)分,通過最大化抽取出的平行句對與抽取前平行句對的比值來訓(xùn)練模型,使得模型經(jīng)過訓(xùn)練后,可以精確地識別原始平行句對。具體而言,抽取的句對結(jié)果中,平行句對優(yōu)先排序,緊接其后的為最接近平行句對的偽平行句對,最后為質(zhì)量較差的偽平行句對。因此模型在具有識別原始平行句對能力的同時(shí),也能從混合語料中抽取出高質(zhì)量的偽平行句對,以達(dá)到對偽平行數(shù)據(jù)進(jìn)行篩選的目的。整體的框架如圖1所示。其中,D′1指抽取出的原始平行句對,count(D′1)表示抽取出的原始行句對的數(shù)量;count(D1)表示總的原始平行句對的數(shù)量。

    3.2 基于回譯的偽平行句對生成

    3.3 基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò)平行句對抽取方法

    基于回譯的方法將大規(guī)模的目標(biāo)端單語數(shù)據(jù)擴(kuò)充為偽平行數(shù)據(jù)后,還需要進(jìn)行數(shù)據(jù)篩選的工作。本文使用一個(gè)基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò)來實(shí)現(xiàn)數(shù)據(jù)篩選任務(wù)。

    Bi-LSTM通過學(xué)習(xí)句對之間的跨語言語義來估計(jì)它們互為翻譯的可能性。該句子抽取模型使用共享權(quán)值的孿生網(wǎng)絡(luò)[17],利用雙向LSTM[18,19]句子編碼器將句子在共享向量空間中進(jìn)行連續(xù)的向量表示,然后源句和目標(biāo)句的表示被輸入到一個(gè)帶Sigmoid輸出層的前饋神經(jīng)網(wǎng)絡(luò)中,計(jì)算它們?yōu)槠叫芯鋵Φ臈l件概率,將相似度高于設(shè)定閾值的句對抽取出來。

    3.3.1 語句編碼

    (1)

    (2)

    (3)

    (4)

    3.3.2 句對信息匹配

    對源語句和目標(biāo)語句進(jìn)行編碼之后,通過使用它們的元素乘積和元素差異的絕對值來量化源語句和目標(biāo)語句之間的匹配信息,得到匹配向量,如式(5)和式(6)所示:

    (5)

    (6)

    通過將匹配向量饋送到具有Sigmoid輸出層的前饋神經(jīng)網(wǎng)絡(luò)來估計(jì)句子平行的條件概率,如式(7)和式(8)所示:

    (7)

    p(yi=1|hi)=σ(vhi+b)

    (8)

    其中,σ(·)是Sigmoid函數(shù),W(1)∈Rdf×dh,W(2)∈Rdf×dh,v∈Rdf,b1∈Rdf,b是模型參數(shù),p(yi=1)表示第i個(gè)句對平行的概率,df是前饋神經(jīng)網(wǎng)絡(luò)隱藏層的大小。通過最小化句對的交叉熵?fù)p失來訓(xùn)練模型,如式(9)所示:

    (1-yi)log(1-σ(vhi+b)))

    (9)

    如果句對的概率大于或等于決策閾值ρ,則將其分類為平行,否則為不平行,如式(10)所示:

    (10)

    其中n和m分別表示源泉語句和目標(biāo)語句的個(gè)數(shù)。

    將句子平行的條件概率作為句對之間的相似度,然后對該相似度進(jìn)行從高到低排列,抽取出大于設(shè)定閾值的句對,用于訓(xùn)練一個(gè)能抽取出較高質(zhì)量偽平行句對的句對抽取模型。

    3.3.3 基于比例的損失函數(shù)改進(jìn)

    傳統(tǒng)基于Bi-LSTM孿生網(wǎng)絡(luò)篩選偽平行句對的方法是在可比語料上實(shí)現(xiàn)的,而本文是對回譯生成的大規(guī)模偽平行語料進(jìn)行篩選,所以本文方法在結(jié)合回譯語料的基礎(chǔ)上,對傳統(tǒng)基于Bi-LSTM孿生網(wǎng)絡(luò)方法做了一定的改進(jìn)。

    在模型訓(xùn)練階段,本文方法不再用平行語料和隨機(jī)生成負(fù)例來訓(xùn)練模型,而是將平行句對與偽平行句對按比例混合來訓(xùn)練模型,目的是使模型更好地識別出原始平行句對,在抽取過程中盡可能多地將原始平行句對抽取出來,如式(11)所示:

    (11)

    通過最大化count(D′1)和count(D1)的比例,使得訓(xùn)練后的模型可以從混合語料中精準(zhǔn)地識別并抽取出原始平行句對。

    為了使平行句對抽取比例對模型產(chǎn)生積極的影響,本文定義了另外一個(gè)損失函數(shù),如式(12)所示:

    (12)

    最終的損失函數(shù)由L1和L2共同決定,如式(13)所示:

    L=λL1+(1-λ)L2

    (13)

    其中,λ是超參數(shù),通過人工設(shè)定,用于調(diào)節(jié)L1和L2的權(quán)重。

    3.3.4 語料設(shè)置

    將混合語料輸入到基于比例抽取的Bi-LSTM句對抽取模型中,訓(xùn)練句對抽取模型,使模型能精準(zhǔn)地分辨出平行句對和偽平行句對。

    4 實(shí)驗(yàn)與分析

    4.1 實(shí)驗(yàn)?zāi)P驮O(shè)置

    翻譯模型:為了驗(yàn)證本文方法的有效性,首先基于Transformer翻譯模型進(jìn)行了在漢-越任務(wù)上的訓(xùn)練,作為baseline翻譯模型。在語料方面,通過網(wǎng)絡(luò)爬蟲工具爬取漢越雙語語料,并經(jīng)過初步的篩選,刪掉標(biāo)點(diǎn)符號過多或無效字符的句子,并刪掉越南語中短于5個(gè)詞和長于50個(gè)詞的句子及其對應(yīng)的漢語句子(因?yàn)榫鋵^短或過長對于模型訓(xùn)練的收益不大);然后使用jieba分詞工具對漢語句子進(jìn)行分詞,經(jīng)過人工的精準(zhǔn)校對和篩選,得到了200 000平行句對。從中分別隨機(jī)抽取出2 000個(gè)句對作為baseline的驗(yàn)證集和測試集,剩余的作為訓(xùn)練集,初始的實(shí)驗(yàn)數(shù)據(jù)具體如表3所示。

    Table 2 Representation of sentence pairs after being labeled and mixed

    Table 3 Experimental data of baseline model

    本文使用清華大學(xué)的開源Transformer翻譯模型THUMT,在參數(shù)設(shè)置上,將batch size設(shè)置為512,train step設(shè)置為50 000,漢語詞表大小為41 000,越南語詞表大小為32 000,訓(xùn)練過程中每2個(gè)周期更新一次模型的參數(shù),每訓(xùn)練2 000步,對模型進(jìn)行一次評估,最后保存評估得分最高的3個(gè)中間模型,使用BLEU(本文統(tǒng)一使用BLEU4)作為評測指標(biāo)。在漢→越和越→漢的2個(gè)翻譯方向上分別對模型進(jìn)行了訓(xùn)練,實(shí)驗(yàn)結(jié)果如表4所示。

    Table 4 Experimental results of the baseline model

    通過網(wǎng)絡(luò)爬取大規(guī)模的越南語單語數(shù)據(jù),并像之前設(shè)置一樣刪掉過短或過長的句子,選取其中的600 000單語句子。將訓(xùn)練的越→漢的基礎(chǔ)翻譯模型用于回譯,將目標(biāo)端越南語單語句子回譯生成源端漢語句子,最終構(gòu)成規(guī)模為600 000的偽平行語料庫。

    句對抽取模型:對之前初步校對過的200 000平行句對進(jìn)行人工篩選,選出其中質(zhì)量較高的50 000,從偽平行數(shù)據(jù)中選取200 000,將2部分混合作為句對抽取模型的訓(xùn)練集。從平行數(shù)據(jù)的剩余部分中分別抽取1 000個(gè)句對作為驗(yàn)證集和測試集。該實(shí)驗(yàn)數(shù)據(jù)中,漢語詞表大小為50 000,越南語詞表大小為35 000。

    為了評估所訓(xùn)練模型的性能,本文使用精度P(Precision)、R召回率(Recall)和F1值作為評價(jià)指標(biāo)。精度是指所有抽取出的句對中真實(shí)平行句對的比例,召回率是指被抽取出的真實(shí)平行句對占測試集中所有平行句對的比例,而F1值是精度和召回率的調(diào)和平均值。

    Bi-LSTM中詞嵌入層的維度設(shè)為512,前饋神經(jīng)網(wǎng)絡(luò)中的隱藏層有256個(gè)隱藏單元,訓(xùn)練過程中的學(xué)習(xí)率設(shè)置為0.000 2,訓(xùn)練5個(gè)epoch,train step為36 000,抽取的閾值設(shè)為0.98,λ設(shè)為0.7。模型的訓(xùn)練結(jié)果如表5所示。

    Table 5 Training results of the proposed model

    4.2 實(shí)驗(yàn)結(jié)果分析

    Table 6 Experimental results of different methods on different datasets

    通過上述實(shí)驗(yàn)發(fā)現(xiàn),僅通過將偽平行語料與平行語料混合來直接訓(xùn)練翻譯模型,不但沒有提高模型的性能,反而會(huì)降低BLEU4值。這是由于用來訓(xùn)練回譯基礎(chǔ)模型MY→X的漢越平行語料規(guī)模不足,導(dǎo)致用基于偽平行語料來直接訓(xùn)練正向的漢越翻譯模型MX→Y時(shí)反而會(huì)引入更多的噪聲,從而降低翻譯模型的BLEU4值得分。通過基于傳統(tǒng)的Bi-LSTM孿生網(wǎng)絡(luò)方法對偽平行句對進(jìn)行抽取后,可以有效篩選掉平行程度較低或含有過多噪聲的句對,對比傳統(tǒng)的抽取方法,本文提出的基于比例抽取的方法對翻譯模型性能有更明顯的提升,BLEU4值增加了1.14。

    4.3 驗(yàn)證實(shí)驗(yàn)

    本節(jié)對基于比例抽取Bi-LSTM孿生網(wǎng)絡(luò)方法有效性進(jìn)行驗(yàn)證。實(shí)驗(yàn)中的平行語料為人工校對過的高度平行的50 000漢越平行語料,將回譯生成的400 000偽平行語料與這部分平行語料混合,并用標(biāo)簽區(qū)分它們,在平行句對后加標(biāo)簽“1”,偽平行句對后加標(biāo)簽“0”。通過加標(biāo)簽區(qū)分混合語料中的平行和偽平行句對,可以直觀地看到模型抽取出的平行句對數(shù)和偽平行句對數(shù)。將這個(gè)混合的語料庫作為句對抽取模型的輸入語料,通過改變模型抽取句對時(shí)的閾值,可以得到不同規(guī)模的偽平行語料。具體的實(shí)驗(yàn)結(jié)果如圖2所示。

    由圖2可知,當(dāng)閾值設(shè)為0.95時(shí),抽取出的混合語料的數(shù)量驟減到原來的一半,這說明偽平行語料中有大量含噪聲的句對。當(dāng)逐步提升閾值時(shí),被抽取出的句對數(shù)量也隨之減少,平行句對所占的比例也就越來越高,這也驗(yàn)證了本文模型的有效性。

    為了繼續(xù)驗(yàn)證抽取出的句對對神經(jīng)機(jī)器翻譯的影響,用上述通過不同閾值抽取出的句對分別對翻譯模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如圖3所示。

    通過對比不同閾值下抽取偽平行句對的結(jié)果可知,當(dāng)句對抽取模型抽取出的原始平行數(shù)據(jù)占比越高時(shí),構(gòu)成的混合語料庫的質(zhì)量越高,對神經(jīng)機(jī)器翻譯模型的提升越大。在閾值設(shè)置為0.999時(shí),平行句對占比約為20%,此時(shí)得到的BLEU4值最大為21.76,相比只用平行語料訓(xùn)練的baseline提高了1.14。

    此外,為了探究訓(xùn)練數(shù)據(jù)是否加標(biāo)簽對本文方法的影響,分別用加標(biāo)簽和不加標(biāo)簽的訓(xùn)練語料進(jìn)行了一組對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

    Table 7 Verification of label validity

    實(shí)驗(yàn)表明,訓(xùn)練數(shù)據(jù)中加入標(biāo)簽的方法有效地提升了句對提取模型的準(zhǔn)確率,并且抽取出的語料對翻譯模型的性能也有進(jìn)一步的提升。

    4.4 譯文對比分析

    為驗(yàn)證用基于回譯和比例抽取孿生網(wǎng)絡(luò)篩選方法構(gòu)建語料庫對神經(jīng)機(jī)器翻譯性能的影響,本文還用不同語料庫訓(xùn)練的模型分別翻譯同一語句進(jìn)行對比分析,翻譯結(jié)果如表8所示。

    5 結(jié)束語

    針對漢越神經(jīng)機(jī)器翻譯模型訓(xùn)練中平行語料不足的問題,本文提出了一種對語料進(jìn)行擴(kuò)充的方法。首先通過回譯的方法,將越南語單語數(shù)據(jù)擴(kuò)充為偽平行句對,利用基于比例抽取的Bi-LSTM孿生網(wǎng)絡(luò)刪除含有過多噪聲的句對,同時(shí)抽取出相似度高的句對,用于構(gòu)建漢越雙語語料庫。在句對抽取過程中,通過將平行句對混入偽平行句對中來指導(dǎo)抽取的過程。實(shí)驗(yàn)表明,基于此方法構(gòu)建的語料庫可以有效地提升漢越神經(jīng)機(jī)器翻譯的性能。在未來的工作中,我們會(huì)對翻譯模型做更多的探索,以消除回譯過程中產(chǎn)生的噪聲,從而進(jìn)一步提高漢越神經(jīng)機(jī)器翻譯的性能。

    Table 8 Comparison of translations results generated by different models

    猜你喜歡
    語料平行雙語
    向量的平行與垂直
    平行
    逃離平行世界
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    《苗防備覽》中的湘西語料
    快樂雙語
    新晨(2013年7期)2014-09-29 06:19:50
    快樂雙語
    新晨(2013年5期)2014-09-29 06:19:50
    快樂雙語
    新晨(2013年10期)2014-09-29 02:50:54
    精品高清国产在线一区| 高潮久久久久久久久久久不卡| 69精品国产乱码久久久| 久久精品亚洲av国产电影网| 欧美日韩亚洲综合一区二区三区_| 黄色视频,在线免费观看| 午夜福利,免费看| 久久久久久人人人人人| 国产老妇伦熟女老妇高清| 久久影院123| 成年女人毛片免费观看观看9 | 久久精品国产综合久久久| 久久青草综合色| 多毛熟女@视频| 欧美黄色淫秽网站| 亚洲欧美成人综合另类久久久| 久久免费观看电影| 高清黄色对白视频在线免费看| 天天添夜夜摸| 亚洲精品粉嫩美女一区| 久久久欧美国产精品| 欧美精品高潮呻吟av久久| 少妇粗大呻吟视频| 97精品久久久久久久久久精品| 美女国产高潮福利片在线看| 一本久久精品| 日日爽夜夜爽网站| 91老司机精品| 欧美大码av| 久久久久精品国产欧美久久久 | 国产精品一区二区免费欧美 | 午夜影院在线不卡| 97在线人人人人妻| 久久人人97超碰香蕉20202| 亚洲精品在线美女| 国产老妇伦熟女老妇高清| 精品国产国语对白av| 久久 成人 亚洲| 两个人看的免费小视频| 国产精品免费大片| 老司机午夜福利在线观看视频 | 99国产精品免费福利视频| 久久毛片免费看一区二区三区| 精品视频人人做人人爽| 91成人精品电影| 亚洲精品一区蜜桃| 免费在线观看影片大全网站| 亚洲三区欧美一区| 日韩一区二区三区影片| 无限看片的www在线观看| 夫妻午夜视频| 美女主播在线视频| 亚洲av日韩精品久久久久久密| 亚洲av美国av| 99热国产这里只有精品6| 免费人妻精品一区二区三区视频| 亚洲国产av影院在线观看| 精品国产乱子伦一区二区三区 | 久久香蕉激情| 亚洲av片天天在线观看| 搡老岳熟女国产| 欧美日韩亚洲综合一区二区三区_| 菩萨蛮人人尽说江南好唐韦庄| 日日摸夜夜添夜夜添小说| 美女视频免费永久观看网站| 欧美日韩中文字幕国产精品一区二区三区 | 女人高潮潮喷娇喘18禁视频| 久久国产精品大桥未久av| 亚洲欧美成人综合另类久久久| 真人做人爱边吃奶动态| www.自偷自拍.com| 国产亚洲精品久久久久5区| 三级毛片av免费| av国产精品久久久久影院| 99热全是精品| 亚洲成人国产一区在线观看| 国产av又大| 亚洲av电影在线观看一区二区三区| 欧美日韩精品网址| 一区福利在线观看| 久久精品成人免费网站| 国产一区二区 视频在线| 亚洲欧美激情在线| 大香蕉久久网| 国产国语露脸激情在线看| 男男h啪啪无遮挡| av天堂在线播放| 亚洲性夜色夜夜综合| 桃花免费在线播放| 曰老女人黄片| 欧美激情 高清一区二区三区| 亚洲人成电影观看| 高潮久久久久久久久久久不卡| 欧美日韩亚洲高清精品| 久久久国产精品麻豆| 国产麻豆69| 欧美乱码精品一区二区三区| tube8黄色片| 视频区欧美日本亚洲| 男人舔女人的私密视频| 性色av一级| www.自偷自拍.com| 久久亚洲国产成人精品v| 青草久久国产| av在线播放精品| 亚洲 国产 在线| 亚洲性夜色夜夜综合| 中文字幕色久视频| 国产日韩欧美视频二区| 国产三级黄色录像| 老司机福利观看| 水蜜桃什么品种好| 精品人妻熟女毛片av久久网站| 精品熟女少妇八av免费久了| 国产精品熟女久久久久浪| 国产xxxxx性猛交| 午夜福利在线免费观看网站| 久久精品国产亚洲av高清一级| 成年女人毛片免费观看观看9 | 免费在线观看影片大全网站| 亚洲国产欧美日韩在线播放| 99久久人妻综合| 精品人妻一区二区三区麻豆| 久久久精品免费免费高清| 天堂8中文在线网| 一二三四社区在线视频社区8| 啦啦啦 在线观看视频| a 毛片基地| 女人爽到高潮嗷嗷叫在线视频| 王馨瑶露胸无遮挡在线观看| 久久香蕉激情| 国产精品成人在线| 久久久久久久久久久久大奶| 久久精品国产亚洲av高清一级| 黄色视频,在线免费观看| 亚洲av电影在线进入| 黄频高清免费视频| 亚洲av日韩精品久久久久久密| 国产精品.久久久| 老汉色av国产亚洲站长工具| 99国产精品免费福利视频| 母亲3免费完整高清在线观看| 菩萨蛮人人尽说江南好唐韦庄| 久久综合国产亚洲精品| 国产精品一二三区在线看| 久久国产精品男人的天堂亚洲| 大香蕉久久网| 男人操女人黄网站| 欧美 亚洲 国产 日韩一| www.自偷自拍.com| 国产免费现黄频在线看| 免费在线观看黄色视频的| 欧美久久黑人一区二区| 黄网站色视频无遮挡免费观看| 91成人精品电影| 亚洲国产日韩一区二区| 一区二区三区精品91| 欧美一级毛片孕妇| 两性午夜刺激爽爽歪歪视频在线观看 | 夜夜夜夜夜久久久久| 精品国产乱子伦一区二区三区 | 在线观看免费日韩欧美大片| 99国产极品粉嫩在线观看| 一本一本久久a久久精品综合妖精| 老鸭窝网址在线观看| 亚洲情色 制服丝袜| 久热爱精品视频在线9| 精品一区二区三卡| 免费女性裸体啪啪无遮挡网站| 多毛熟女@视频| 国产精品99久久99久久久不卡| 久久国产精品男人的天堂亚洲| 欧美日韩成人在线一区二区| 天堂8中文在线网| 丰满饥渴人妻一区二区三| 搡老岳熟女国产| 成年美女黄网站色视频大全免费| 女人精品久久久久毛片| 不卡av一区二区三区| 男女午夜视频在线观看| 亚洲九九香蕉| 免费高清在线观看视频在线观看| 精品国产国语对白av| 国产精品久久久久久精品古装| 91麻豆精品激情在线观看国产 | 十分钟在线观看高清视频www| 精品高清国产在线一区| 国产日韩欧美亚洲二区| 成人亚洲精品一区在线观看| 黑人猛操日本美女一级片| 国产精品99久久99久久久不卡| 精品国产一区二区三区四区第35| 欧美精品一区二区大全| 亚洲精品av麻豆狂野| 性色av一级| 久久人妻福利社区极品人妻图片| 午夜激情久久久久久久| 久热爱精品视频在线9| 国产91精品成人一区二区三区 | 免费人妻精品一区二区三区视频| 亚洲av片天天在线观看| 美女中出高潮动态图| 午夜福利,免费看| 成人国语在线视频| 丝袜脚勾引网站| 男人添女人高潮全过程视频| 亚洲欧美成人综合另类久久久| 咕卡用的链子| 亚洲国产看品久久| 啪啪无遮挡十八禁网站| 91老司机精品| 80岁老熟妇乱子伦牲交| 国产成人影院久久av| 午夜老司机福利片| 欧美性长视频在线观看| 久久亚洲精品不卡| 久久性视频一级片| 久久国产亚洲av麻豆专区| 三上悠亚av全集在线观看| 91麻豆精品激情在线观看国产 | 国产日韩欧美视频二区| 12—13女人毛片做爰片一| 老熟女久久久| 亚洲,欧美精品.| 久久天堂一区二区三区四区| 老司机影院毛片| 丝袜人妻中文字幕| 天堂8中文在线网| 亚洲熟女毛片儿| 成人亚洲精品一区在线观看| 亚洲免费av在线视频| 欧美性长视频在线观看| 久久亚洲国产成人精品v| 亚洲色图 男人天堂 中文字幕| xxxhd国产人妻xxx| 亚洲伊人色综图| 亚洲精品久久久久久婷婷小说| 久久ye,这里只有精品| 日韩中文字幕欧美一区二区| www.av在线官网国产| 99精品久久久久人妻精品| 一区二区三区四区激情视频| 成人av一区二区三区在线看 | 精品卡一卡二卡四卡免费| 老熟女久久久| 国产福利在线免费观看视频| 中文字幕最新亚洲高清| 12—13女人毛片做爰片一| 一二三四社区在线视频社区8| 操出白浆在线播放| 欧美 亚洲 国产 日韩一| 国产日韩欧美亚洲二区| 91成年电影在线观看| 欧美精品av麻豆av| 亚洲熟女毛片儿| 精品人妻熟女毛片av久久网站| 欧美人与性动交α欧美精品济南到| 久久青草综合色| 久久人人97超碰香蕉20202| 视频区欧美日本亚洲| 一二三四在线观看免费中文在| 成人亚洲精品一区在线观看| 国产国语露脸激情在线看| 国产免费一区二区三区四区乱码| 日韩欧美一区视频在线观看| 亚洲成国产人片在线观看| a级毛片黄视频| 国产欧美日韩一区二区三 | 久久青草综合色| 国产高清视频在线播放一区 | 国产成人a∨麻豆精品| 亚洲全国av大片| 久久女婷五月综合色啪小说| 成年女人毛片免费观看观看9 | kizo精华| 欧美人与性动交α欧美精品济南到| 国产免费视频播放在线视频| 黄色视频不卡| 一本—道久久a久久精品蜜桃钙片| 成年人午夜在线观看视频| 久久亚洲精品不卡| 高清av免费在线| 99国产精品一区二区三区| 男人添女人高潮全过程视频| 色94色欧美一区二区| 黄色片一级片一级黄色片| 亚洲成人手机| 亚洲成人国产一区在线观看| 男女国产视频网站| 丝袜在线中文字幕| 天天添夜夜摸| 久久热在线av| 亚洲国产欧美日韩在线播放| 俄罗斯特黄特色一大片| 中文字幕av电影在线播放| 少妇精品久久久久久久| 亚洲黑人精品在线| 亚洲色图综合在线观看| 黑人巨大精品欧美一区二区蜜桃| 1024视频免费在线观看| 高潮久久久久久久久久久不卡| 男人舔女人的私密视频| 久久99一区二区三区| 欧美日韩一级在线毛片| 欧美亚洲日本最大视频资源| 国产精品自产拍在线观看55亚洲 | 深夜精品福利| 99久久精品国产亚洲精品| 99国产精品一区二区三区| 老司机影院毛片| www.精华液| 天堂俺去俺来也www色官网| 啦啦啦 在线观看视频| 99热网站在线观看| 亚洲精品一卡2卡三卡4卡5卡 | 人人妻人人澡人人爽人人夜夜| 色婷婷av一区二区三区视频| 国产视频一区二区在线看| 亚洲男人天堂网一区| 汤姆久久久久久久影院中文字幕| 久久影院123| 久久亚洲精品不卡| 热99re8久久精品国产| 欧美人与性动交α欧美软件| 日本精品一区二区三区蜜桃| 国产成人免费观看mmmm| 91精品国产国语对白视频| 免费在线观看视频国产中文字幕亚洲 | 国产深夜福利视频在线观看| 久久精品国产亚洲av高清一级| 久久久久精品国产欧美久久久 | 捣出白浆h1v1| 精品欧美一区二区三区在线| 国产在线观看jvid| 亚洲精华国产精华精| 精品国内亚洲2022精品成人 | 91国产中文字幕| 真人做人爱边吃奶动态| 久久精品aⅴ一区二区三区四区| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲三区欧美一区| 叶爱在线成人免费视频播放| 精品一区在线观看国产| 日韩欧美国产一区二区入口| 美女大奶头黄色视频| 丰满迷人的少妇在线观看| 久久精品国产亚洲av香蕉五月 | 狂野欧美激情性xxxx| 亚洲va日本ⅴa欧美va伊人久久 | 久久天躁狠狠躁夜夜2o2o| 亚洲情色 制服丝袜| 新久久久久国产一级毛片| 黄频高清免费视频| 看免费av毛片| 乱人伦中国视频| 国产麻豆69| 老熟妇乱子伦视频在线观看 | 香蕉国产在线看| 精品国产国语对白av| 国产免费av片在线观看野外av| 精品国产乱码久久久久久小说| 国产高清视频在线播放一区 | av国产精品久久久久影院| 乱人伦中国视频| 欧美在线一区亚洲| 欧美精品av麻豆av| 午夜视频精品福利| 男女之事视频高清在线观看| 搡老熟女国产l中国老女人| 天天躁狠狠躁夜夜躁狠狠躁| 午夜精品久久久久久毛片777| 搡老熟女国产l中国老女人| 91麻豆精品激情在线观看国产 | 午夜老司机福利片| 亚洲国产精品成人久久小说| 一个人免费在线观看的高清视频 | 精品人妻1区二区| 国产成人精品久久二区二区91| 亚洲情色 制服丝袜| 99久久人妻综合| 亚洲国产欧美一区二区综合| 久久99热这里只频精品6学生| 99re6热这里在线精品视频| 少妇的丰满在线观看| 建设人人有责人人尽责人人享有的| 亚洲人成77777在线视频| 欧美国产精品一级二级三级| 91成人精品电影| 丝袜人妻中文字幕| 韩国高清视频一区二区三区| 国内毛片毛片毛片毛片毛片| 亚洲欧美日韩高清在线视频 | 久久精品aⅴ一区二区三区四区| 如日韩欧美国产精品一区二区三区| 欧美国产精品va在线观看不卡| 大香蕉久久网| 亚洲精品国产色婷婷电影| 亚洲成人国产一区在线观看| 一级片'在线观看视频| 天天躁夜夜躁狠狠躁躁| 午夜福利在线观看吧| 97精品久久久久久久久久精品| 国产成人系列免费观看| 国产精品 国内视频| 王馨瑶露胸无遮挡在线观看| 久久av网站| av网站在线播放免费| 亚洲国产成人一精品久久久| 纵有疾风起免费观看全集完整版| 国产精品国产三级国产专区5o| 亚洲九九香蕉| 丁香六月欧美| 久久av网站| 亚洲精品国产一区二区精华液| 欧美日韩亚洲高清精品| 成人免费观看视频高清| 成人18禁高潮啪啪吃奶动态图| 超碰97精品在线观看| 久久久久久久久久久久大奶| 久久久久久免费高清国产稀缺| 美女脱内裤让男人舔精品视频| 国产99久久九九免费精品| 美女午夜性视频免费| 国产成人一区二区三区免费视频网站| 一边摸一边做爽爽视频免费| 欧美日韩成人在线一区二区| 韩国高清视频一区二区三区| 十八禁网站免费在线| 日韩欧美一区二区三区在线观看 | 亚洲人成77777在线视频| 搡老乐熟女国产| 人人妻人人爽人人添夜夜欢视频| 亚洲第一欧美日韩一区二区三区 | 看免费av毛片| 在线观看一区二区三区激情| 18禁黄网站禁片午夜丰满| 曰老女人黄片| 亚洲美女黄色视频免费看| 手机成人av网站| 国产精品一区二区在线观看99| 欧美大码av| 亚洲欧美色中文字幕在线| 亚洲激情五月婷婷啪啪| 婷婷色av中文字幕| 中亚洲国语对白在线视频| 制服人妻中文乱码| 国产真人三级小视频在线观看| 日韩一卡2卡3卡4卡2021年| 搡老岳熟女国产| 国产男女内射视频| 日韩精品免费视频一区二区三区| 天堂8中文在线网| 亚洲精品久久成人aⅴ小说| 国产一区二区 视频在线| 80岁老熟妇乱子伦牲交| av国产精品久久久久影院| 免费在线观看完整版高清| 久久 成人 亚洲| 精品人妻熟女毛片av久久网站| 精品高清国产在线一区| 大香蕉久久网| 色视频在线一区二区三区| 久久女婷五月综合色啪小说| 99国产精品99久久久久| 亚洲七黄色美女视频| 一本综合久久免费| 亚洲男人天堂网一区| 亚洲成人手机| 午夜福利免费观看在线| 男人爽女人下面视频在线观看| 俄罗斯特黄特色一大片| 精品少妇久久久久久888优播| 久久亚洲国产成人精品v| 欧美另类一区| 一二三四社区在线视频社区8| 久久ye,这里只有精品| 国产一级毛片在线| 国产97色在线日韩免费| 女人高潮潮喷娇喘18禁视频| 黄色片一级片一级黄色片| 黄网站色视频无遮挡免费观看| 免费女性裸体啪啪无遮挡网站| 热re99久久国产66热| 天天影视国产精品| 成人国产av品久久久| av一本久久久久| 国产精品麻豆人妻色哟哟久久| 国产一区二区在线观看av| 不卡一级毛片| 亚洲五月婷婷丁香| 亚洲午夜精品一区,二区,三区| 国产成人影院久久av| 秋霞在线观看毛片| 中文欧美无线码| 亚洲精品国产区一区二| 亚洲五月婷婷丁香| 97在线人人人人妻| av片东京热男人的天堂| 欧美日韩亚洲高清精品| 最黄视频免费看| 新久久久久国产一级毛片| 最新在线观看一区二区三区| a 毛片基地| av福利片在线| 久久人人爽人人片av| 大香蕉久久网| 亚洲国产毛片av蜜桃av| www.999成人在线观看| 欧美久久黑人一区二区| a级片在线免费高清观看视频| 多毛熟女@视频| 久久亚洲国产成人精品v| 亚洲精品久久午夜乱码| 啪啪无遮挡十八禁网站| 亚洲美女黄色视频免费看| 黄色毛片三级朝国网站| 亚洲伊人色综图| 日韩人妻精品一区2区三区| 免费一级毛片在线播放高清视频 | 99热全是精品| 大香蕉久久网| 欧美精品av麻豆av| 80岁老熟妇乱子伦牲交| 视频区图区小说| a级毛片黄视频| 久久性视频一级片| 国产视频一区二区在线看| 久久性视频一级片| 日韩制服丝袜自拍偷拍| 十分钟在线观看高清视频www| 日韩精品免费视频一区二区三区| 多毛熟女@视频| 亚洲第一青青草原| 人人澡人人妻人| 亚洲av日韩精品久久久久久密| 无限看片的www在线观看| 色精品久久人妻99蜜桃| 亚洲专区国产一区二区| 国产黄色免费在线视频| 啦啦啦啦在线视频资源| av福利片在线| tube8黄色片| 美女扒开内裤让男人捅视频| 日韩欧美一区二区三区在线观看 | 最新在线观看一区二区三区| 麻豆乱淫一区二区| 狠狠狠狠99中文字幕| 热99国产精品久久久久久7| 国产在线视频一区二区| 欧美少妇被猛烈插入视频| 十八禁高潮呻吟视频| 国产精品亚洲av一区麻豆| 热re99久久精品国产66热6| 久久精品成人免费网站| 久久久久国产精品人妻一区二区| 国产欧美日韩一区二区三 | 99久久国产精品久久久| 欧美激情极品国产一区二区三区| 三级毛片av免费| 色婷婷久久久亚洲欧美| 少妇被粗大的猛进出69影院| 成人影院久久| 99热全是精品| 日韩欧美一区视频在线观看| 伦理电影免费视频| 丝瓜视频免费看黄片| 亚洲免费av在线视频| 啦啦啦啦在线视频资源| 免费观看a级毛片全部| 欧美精品亚洲一区二区| 最近中文字幕2019免费版| 人人妻人人澡人人看| 国产视频一区二区在线看| 免费人妻精品一区二区三区视频| 9热在线视频观看99| 日韩大码丰满熟妇| 久久精品亚洲熟妇少妇任你| 精品国产乱码久久久久久小说| 日本五十路高清| 黄色a级毛片大全视频| 久久久国产欧美日韩av| 自拍欧美九色日韩亚洲蝌蚪91| 男女无遮挡免费网站观看| 高潮久久久久久久久久久不卡| 午夜福利在线免费观看网站| 亚洲av片天天在线观看| 91国产中文字幕| 免费在线观看影片大全网站| 国产精品欧美亚洲77777| 1024香蕉在线观看| 亚洲va日本ⅴa欧美va伊人久久 | 久久久国产一区二区| 国产精品.久久久| 精品少妇内射三级| 久久精品亚洲av国产电影网| 欧美 日韩 精品 国产| 丰满人妻熟妇乱又伦精品不卡| 男女床上黄色一级片免费看| 少妇猛男粗大的猛烈进出视频| 亚洲av男天堂| 亚洲自偷自拍图片 自拍| 日韩三级视频一区二区三区| 中文字幕色久视频| a级毛片黄视频| 中文字幕高清在线视频| 日韩视频在线欧美| 日本vs欧美在线观看视频| 亚洲三区欧美一区| cao死你这个sao货| 日韩免费高清中文字幕av| 女性生殖器流出的白浆| √禁漫天堂资源中文www| 12—13女人毛片做爰片一| 嫁个100分男人电影在线观看| 国产成人免费无遮挡视频|