鄒 翔,朱俊國,高盛祥,余正濤,楊福岸
(昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500) (昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500)
句子級譯文質(zhì)量估計(jì)(Quality Estimation,QE)旨在無需參考譯文的情況下,以源語句和翻譯系統(tǒng)輸出的結(jié)果作為輸入,對譯文的質(zhì)量進(jìn)行估計(jì).將可以表示源語言與機(jī)器譯文的流暢度、忠實(shí)度和復(fù)雜性度的特征與機(jī)器學(xué)習(xí)方法相結(jié)合,以達(dá)到訓(xùn)練預(yù)測模型的目的.句子級別的譯文質(zhì)量估計(jì)不僅可以為終端用戶提供一個度量譯文可靠性的指標(biāo),而且可以減少翻譯人員對機(jī)器譯文進(jìn)行人工后期編輯的時間[1].當(dāng)前譯文質(zhì)量估計(jì)任務(wù)主要關(guān)注在一些資源豐富的語言對以及歐洲的資源稀缺型語言上,尚未針對漢越神經(jīng)機(jī)器翻譯(NMT)[2-6]開展譯文質(zhì)量估計(jì)的相關(guān)研究,但是譯文質(zhì)量估計(jì)方法對于提升漢越神經(jīng)機(jī)器翻譯有一定幫助,所以本文針對漢越譯文質(zhì)量估計(jì)展開相關(guān)研究.
在漢越神經(jīng)機(jī)器翻譯譯文質(zhì)量估計(jì)任務(wù)中,我們通過分析漢語與越南語之間存在的差異性,將其作為差異化特征融入到譯文質(zhì)量估計(jì)模型中,以緩解模型對特征抽取不夠充分的問題.另外,為了降低漢越平行數(shù)據(jù)稀疏問題對本任務(wù)帶來的負(fù)面干擾,我們通過回譯的方式對特征提取模型使用的訓(xùn)練集進(jìn)行了一定規(guī)模的擴(kuò)充,更嚴(yán)謹(jǐn)?shù)尿?yàn)證語言差異化特征對于漢越神經(jīng)機(jī)器翻譯譯文質(zhì)量估計(jì)任務(wù)的影響.
早期對于譯文質(zhì)量估計(jì)研究,將其視為有監(jiān)督的回歸或分類問題,QuEst是其中最具代表性的譯文質(zhì)量估計(jì)框架,QuEst通過對特征的抽取與選擇對機(jī)器譯文的質(zhì)量進(jìn)行估計(jì).主要抽取的特征有流暢度、忠實(shí)度、復(fù)雜度等角度提取的反映譯文質(zhì)量的特征;通過網(wǎng)格搜索對特征權(quán)重進(jìn)行學(xué)習(xí),再利用支持向量機(jī)[7]、邏輯回歸[8]、條件隨機(jī)場[9]等方法學(xué)習(xí)到特征與譯文質(zhì)量之間的映射關(guān)系.
近幾年,由于深度學(xué)習(xí)在自然語言的相關(guān)任務(wù)中取得較大成功,越來越多的研究人員開始將循環(huán)神經(jīng)網(wǎng)絡(luò)[10,11]構(gòu)建的語言模型應(yīng)用于譯文質(zhì)量估計(jì)任務(wù)上.對于譯文質(zhì)量估計(jì)而言,深度神經(jīng)網(wǎng)絡(luò)有強(qiáng)大的特征學(xué)習(xí)能力且模型對平行的雙語數(shù)據(jù)有較好的感知能力,可以有效的學(xué)習(xí)到數(shù)據(jù)中的上下文信息.Shah[12]等和陳志明[13,14]等利用詞語的分布式表達(dá)和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型等方法抽取特征提升譯文質(zhì)量估計(jì)模型的性能.Zhu[15]等提出通過學(xué)習(xí)雙語句子的特征表示來建立機(jī)器翻譯質(zhì)量估計(jì)模型,讓模型針對于翻譯過程出現(xiàn)的正例與反例情況進(jìn)行學(xué)習(xí),在一定程度上緩解了訓(xùn)練語料不足的問題.Kim[16]等提出了一種“兩階段”的譯文質(zhì)量估計(jì)模型,其中第1部分的模型是在Bahdanau提出的NMT模型的基礎(chǔ)上將解碼器部分改為了雙向的長短期記憶網(wǎng)絡(luò),這樣可以充分利用目標(biāo)詞左右兩側(cè)的信息,該階段的輸入為源語句與機(jī)器譯文,輸出則是包含對應(yīng)目標(biāo)詞位置翻譯質(zhì)量的序列(Quality Vector).第2部分的模型為單向的長短期記憶網(wǎng)絡(luò),上一階段的輸出作為該階段的輸入,最后輸出句子的質(zhì)量分?jǐn)?shù).李茂西[17]等提出將“預(yù)測器-估計(jì)器”中兩個子網(wǎng)格組合成一個整體的端到端的聯(lián)合神經(jīng)網(wǎng)絡(luò)質(zhì)量估計(jì)模型(unified neural network for quality estimation,UNQE),該方法有效的對整個神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合學(xué)習(xí)與優(yōu)化.Fan[18]等提出的“雙語專家”模型是一種基于自注意力機(jī)制和多頭注意力機(jī)制的雙向Transformer[19]結(jié)構(gòu),用于在大規(guī)模雙語數(shù)據(jù)基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的語言模型,除利用模型本身提取的特征外,研究人員還設(shè)計(jì)了一種4維的錯誤匹配特征用于衡量“雙語專家”模型所學(xué)習(xí)到的先驗(yàn)知識與翻譯輸出之間的差異.
除了基于特征提取的相關(guān)QE研究外,Okabe[20]等探索了結(jié)合文本與視覺形態(tài)的多模態(tài)譯文質(zhì)量估計(jì),使用多模態(tài)的方式提升QE系統(tǒng)的性能.另外,針對帶有質(zhì)量標(biāo)簽QE數(shù)據(jù)稀缺的問題,Rubino[21]等對句子的編碼器采用自監(jiān)督學(xué)習(xí)的方式,該方法不依賴于QE數(shù)據(jù),是對基于預(yù)訓(xùn)練句子編碼器和領(lǐng)域自適應(yīng)方法的一種補(bǔ)充.Marina[22]等設(shè)計(jì)了一種無監(jiān)督學(xué)習(xí)的QE方法,除了訓(xùn)練NMT系統(tǒng)所需要的雙語數(shù)據(jù)外,無需額外數(shù)據(jù),僅從NMT系統(tǒng)中獲取有用信息,通過采用不確定性量化的方法可以與人類對質(zhì)量的判斷進(jìn)行關(guān)聯(lián),其結(jié)果可以媲美效果最佳的有監(jiān)督QE模型.
本研究基于“雙語專家”模型基礎(chǔ)上開展相關(guān)工作.在漢越譯文質(zhì)量估計(jì)任務(wù)中,本文使用漢越平行數(shù)據(jù)(s,t)訓(xùn)練一個特征提取模型,漢越神經(jīng)機(jī)器翻譯模型p(t|s)p(z|s)是未知的,其中,隱變量z的后驗(yàn)概率可能包含源語句和目標(biāo)語句之間的淺層語義信息并且有利于下游任務(wù).根據(jù)貝葉斯法則,可以將隱變量z的后驗(yàn)分布表示見公式(1):
(1)
minDKL(q(z|t,s)‖p(z|t,s))
(2)
除了優(yōu)化上述目標(biāo)函數(shù)外,我們還可以等效最大化下列目標(biāo)函數(shù),表示見公式(3):
maxEq(z|t,s)[p(t|s)]-DKL(q(z|t,s)‖p(z|s))
(3)
如果在優(yōu)化的過程中使用單樣本蒙特卡洛積分,公式(3)中的第一個期望項(xiàng)可以認(rèn)為是條件自編碼器,與大多數(shù)變分自編碼器相似,預(yù)期對數(shù)似然通常用實(shí)際替代項(xiàng)近似表示見公式(4):
(4)
該模型包含特征提取階段與質(zhì)量估計(jì)階段,特征提取階段依賴于雙向Transformer模型,其目的用于提取源語句和譯文句對的淺層語義特征并結(jié)合4維的錯誤匹配特征輸入到下游由Bi-LSTM構(gòu)成的質(zhì)量估計(jì)模塊中,從而得到句子級任務(wù)的得分預(yù)測.特征提取階段包含3個模塊:1)針對源語句,采用基于transformer自注意力機(jī)制的編碼器模塊;2)針對目標(biāo)語句,使用帶有masked機(jī)制的前向和后向自注意力編碼器模塊;3)重構(gòu)目標(biāo)語句模塊.前兩個模塊所提出的后驗(yàn)概率近似為q(z|s,t),第3個模塊目標(biāo)句子的重構(gòu)過程對應(yīng)p(t|z).上述過程通過公式(5)、公式(6)進(jìn)行描述:
(5)
(6)
在公式(6)中zk的分布被定義為包含來自源語句以及目標(biāo)語句中第k個單詞周圍的上下文,第k個單詞代表目標(biāo)語句中出現(xiàn)翻譯錯誤的單詞,但是只有源語句和目標(biāo)語句中除第k個單詞之外的所有單詞才會輸入到最后一層進(jìn)行預(yù)測.翻譯輸出中的第k個單詞的潛在表征及其反映錯誤嚴(yán)重程度的錯配特征都有利于下游的質(zhì)量估計(jì)階段.最后通過對比發(fā)現(xiàn)Bi-LSTM模型相較于其對應(yīng)的變體更適用于質(zhì)量估計(jì)階段,所以本文將特征提取階段的雙向Transformer模型和用于質(zhì)量估計(jì)階段的Bi-LSTM模型相結(jié)合的“雙語專家”模型作為基線模型,如圖1所示.
圖1 融入特征模型圖Fig.1 Incorporate feature model diagram
越南語是越南的母語,屬于南亞語系,其語法信息主要依靠組成單元的順序來表達(dá).越南語的主要語言特征有:
1)音節(jié)是越南語的最小組成單元,這些獨(dú)立的單元又是多音節(jié)的組成部分.音節(jié)間的組合大約有2500種,書寫越南語時用空格隔開每個音節(jié).
表1 漢越語法結(jié)構(gòu)實(shí)例對比Table 1 Comparison of Chinese and Vietnamese grammatical structure examples
通過對比表1中的一些具體例子,可以明顯的發(fā)現(xiàn)漢越語言定語與中心語之間的排序差異.其中,1代表主謂短語;2代表動語介詞短語;3代表形容詞短語及描述性短語;4代表描述性名詞;中心語簡寫為中.可以看出越語和漢語描述性定語的位置完全不同,但定語修飾中心語的順序(遠(yuǎn)近距離)一致.漢語描寫性多層定語的結(jié)構(gòu)順序與漢語呈鏡像關(guān)系.其中,漢語中描寫性定語的順序是:1-2-3-4-中心語;反之,越語的順序是:中心語-4-3-2-1.
本文從漢語-越南語方向上獲取的源語言與機(jī)器譯文數(shù)據(jù)中獲取到的逆序個數(shù)與目標(biāo)句句子長度進(jìn)行一個比值,得到平均逆序數(shù).以R表示平均逆序數(shù),逆序個數(shù)表示為r,目標(biāo)句子長度表示為m,公式(7)為平均逆序數(shù),該值即為本文抽取的漢越語言差異化特征.
R=r/m
(7)
句子級別的分?jǐn)?shù)預(yù)測可以表述為具有目標(biāo)函數(shù)的回歸問題.本文將抽取到的特征作為質(zhì)量估計(jì)階段模型Bi-LSTM的最后一個時刻的兩個方向的隱狀態(tài)懲罰因子,見公式(8):
(8)
(9)
如公式(9)所示,定義中的操作包括插入(insertions)、刪除(dels)、替換(subs)、移動(shifts).
實(shí)驗(yàn)使用的語料均來自網(wǎng)絡(luò)爬蟲獲取的相近領(lǐng)域的漢越對齊數(shù)據(jù),為保證模型訓(xùn)練的質(zhì)量,本文人工去除語料中存在的重復(fù)、空行和不規(guī)則符號,并過濾了長度大于80的句子,源句與目標(biāo)句長度之比在(1/3-3)范圍內(nèi).最終獲得13.3萬的漢越雙語數(shù)據(jù);10萬的漢語、越南語單語數(shù)據(jù).漢語數(shù)據(jù)平均長度為17.64,越南語數(shù)據(jù)平均長度為24.8.
本文將獲取到的漢越平行數(shù)隨機(jī)劃分為兩個數(shù)據(jù)集,規(guī)模分別為10.2萬對和31481對,分別用于特征提取階段與質(zhì)量估計(jì)階段.由于數(shù)據(jù)規(guī)模有限,訓(xùn)練漢越神經(jīng)機(jī)器翻譯模型的實(shí)驗(yàn)數(shù)據(jù)與特征提取階段所使用的實(shí)驗(yàn)數(shù)據(jù)為同一組,驗(yàn)證集和測試集均從從對應(yīng)數(shù)據(jù)集中隨機(jī)抽取,其規(guī)模大小均為2k對.表2為特征提取階段實(shí)驗(yàn)數(shù)據(jù)信息,表3為質(zhì)量估計(jì)階段實(shí)驗(yàn)數(shù)據(jù)信息.
表2 特征提取階段數(shù)據(jù)信息Table 2 Data information in feature extraction stage
表3 質(zhì)量估計(jì)階段數(shù)據(jù)信息Table 3 Data information in quality estimation stage
在漢越方向上,本文將質(zhì)量估計(jì)階段漢越對齊數(shù)據(jù)中的中文通過漢-越方向的翻譯模型獲取到對應(yīng)的越南語機(jī)器譯文,在越南語真實(shí)數(shù)據(jù)與譯文數(shù)據(jù)的基礎(chǔ)上利用TERCOM工具獲取越南語數(shù)據(jù)對應(yīng)的譯文質(zhì)量TER分?jǐn)?shù),在越漢方向,采用同樣的方式獲取到中文的譯文質(zhì)量TER分?jǐn)?shù).最終得到質(zhì)量估計(jì)階段所需要的由源語句、譯文句、TER質(zhì)量分?jǐn)?shù)組成的三元組(s,m,T).表4為漢-越方向上獲取到的譯文質(zhì)量TER分?jǐn)?shù),表5為越-漢方向上獲取到的譯文質(zhì)量TER分?jǐn)?shù).
表4 漢-越方向上的TER分?jǐn)?shù)Table 4 TER score in the Chinese-Vietnamese direction
表5 越-漢方向上的TER分?jǐn)?shù)Table 5 TER score in the Vietnamese-Chinese direction
對于漢語數(shù)據(jù),使用結(jié)巴分詞工具對中文語句進(jìn)行分詞,對于越南語數(shù)據(jù),使用tokenizer切開標(biāo)點(diǎn).利用處理過的數(shù)據(jù)分別從漢-越、越-漢兩個方向訓(xùn)練了翻譯模型,模型框架選取了Transformer-base.訓(xùn)練翻譯模型中使用的詞表大小為32k,Transformer模型編碼器和解碼器層數(shù)均為6層,詞向量和隱層單元數(shù)為512,批大小為2048;漢越神經(jīng)機(jī)器翻譯模型所使用的譯文質(zhì)量評價(jià)標(biāo)準(zhǔn)均是基于4元組BLEU(BLEU4)值.特征提取階段的雙向Transformer模型自注意機(jī)制編碼器和前/后向解碼器層數(shù)均設(shè)置為2,使用了8頭注意力機(jī)制,前饋?zhàn)訉拥纳窠?jīng)單元數(shù)為512,進(jìn)行了多GPU訓(xùn)練;質(zhì)量估計(jì)階段使用了一層的Bi-LSTM,進(jìn)行了單GPU訓(xùn)練.
對于句子級譯文質(zhì)量估計(jì)系統(tǒng)性能的評價(jià)指標(biāo)有皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficients)、斯皮爾曼相關(guān)系數(shù)(Spearman Correlation Coefficients).本文選用Pearson相關(guān)系數(shù)作為驗(yàn)證方法有效性的評價(jià)指標(biāo),其范圍介于-1~1,相關(guān)系數(shù)絕對值越大,表示兩個向量的相關(guān)性越強(qiáng),反之則越弱.本研究對于TER分?jǐn)?shù)進(jìn)行估計(jì),所以希望模型的輸出結(jié)果與TER分?jǐn)?shù)之間的Pearson相關(guān)系數(shù)越接近1越好.可由公式(10)計(jì)算得到:
(10)
5.4.1 漢越數(shù)據(jù)規(guī)模有限的情況下,語言差異化特征對于譯文質(zhì)量估計(jì)的影響
本文利用人工處理后的漢越平行數(shù)據(jù)訓(xùn)練了漢越、越漢這兩個方向的翻譯模型,將漢語與越南語分別作為源語句得到對應(yīng)的譯文,這樣就可以獲取到訓(xùn)練雙語專家模型所需要的譯文句子.表6為兩個方向翻譯模型的BLEU4值,在同等數(shù)據(jù)規(guī)模情況下,越-漢方向翻譯模型的BLEU4值低于漢-越方向的值.
表6 兩個方向上NMT模型的BLEU4值Table 6 BLEU value of the nmt model in both directions
表7為基線模型與融入語言差異化特征的對比結(jié)果,這兩組實(shí)驗(yàn)使用均采用相同的漢-越平行數(shù)據(jù),以驗(yàn)證在數(shù)據(jù)質(zhì)量、規(guī)模相同的情況下,融入語言差異化對于譯文質(zhì)量估計(jì)模型性能的影響.
表7 基線模型與其融入特征的實(shí)驗(yàn)結(jié)果Table 7 Experimental results of the baseline model and its integrated features
由表7可知,僅使用100k漢越平行數(shù)據(jù)的基線模型,在漢越和越漢兩個方向的Pearson相關(guān)系數(shù)分別為0.6282與0.5568,對比試驗(yàn)中,融入語言差異化特征的譯文質(zhì)量估計(jì)系統(tǒng)相比于基線模型表現(xiàn)出更好的性能,在漢越方向,較基線模型提升0.52個百分點(diǎn),在越漢方向,較基線模型提升0.35個百分點(diǎn).這可能是因?yàn)闈h越平行數(shù)據(jù)規(guī)模有限,特征提取模型學(xué)習(xí)效果不佳,融入漢越語言差異化特征可以在一定程度上緩解這一問題.
5.4.2 擴(kuò)充訓(xùn)練數(shù)據(jù)的情況下,語言差異化特征對于譯文質(zhì)量估計(jì)的影響
漢越平行數(shù)據(jù)資源稀缺且大部分為跨領(lǐng)域數(shù)據(jù),獲取難度較大,單語數(shù)據(jù)相較于漢越平行數(shù)據(jù)更容易獲取,實(shí)驗(yàn)為使得雙語專家模型盡可能的學(xué)到更多翻譯知識,包括翻譯錯誤等有利于訓(xùn)練模型的信息,通過回譯的方式對漢越訓(xùn)練數(shù)據(jù)的規(guī)模進(jìn)行擴(kuò)充.首先把100k的漢語單語數(shù)據(jù)(mono-zh)通過回譯得到對應(yīng)的越南語回譯數(shù)據(jù)(syn-vi),這樣就得到漢語單語數(shù)據(jù)與越南語回譯數(shù)據(jù)相所構(gòu)成的100k規(guī)模的漢越偽平行數(shù)據(jù).以相同的方式,獲得了越南語單語數(shù)據(jù)(mono-vi)與漢語回譯數(shù)據(jù)(syn-zh)構(gòu)成的100k規(guī)模的漢越偽平行數(shù)據(jù).隨后將獲得到的兩組100k規(guī)模的漢越偽平行數(shù)據(jù)分別與特征提取模型所使用的100k真實(shí)的漢越訓(xùn)練數(shù)據(jù)以10k為基本單位進(jìn)行結(jié)合,最終獲得了兩組200k的漢越合成語料庫,分別為添加(mono-zh,syn-vi)的合成語料庫與添加(syn-zh,mono-vi)的漢越合成語料庫.這樣做是為了更有效的擴(kuò)充我們的訓(xùn)練集,緩解由于數(shù)據(jù)稀疏帶來的負(fù)面影響,例如:特征提取模型訓(xùn)練不佳、特征提取不夠充分等問題,并且通過添加偽平行數(shù)據(jù),可以更有效地防止過擬合問題.
為了直觀的展現(xiàn)添加不同規(guī)模的數(shù)據(jù)對Pearson相關(guān)系數(shù)的影響,本文將實(shí)驗(yàn)的結(jié)果生成了兩組折線圖進(jìn)行比較,圖2表示使用添加(mono-zh,syn-vi)的合成語料庫訓(xùn)練特征提取模型,圖3表示使用添加(syn-zh,mono-vi)的合成語料庫訓(xùn)練特征提取模型.實(shí)驗(yàn)結(jié)果表明添加合成語料庫均對譯文質(zhì)量估計(jì)模型的訓(xùn)練產(chǎn)生利好結(jié)果,漢越方向的Pearson相關(guān)系數(shù)均優(yōu)于越漢方向的Pearson相關(guān)系數(shù).
圖2 添加(mono-zh,syn-vi)合成語料庫的實(shí)驗(yàn)結(jié)果Fig.2 Add(mono-zh,syn-vi)synthetic corpus experimental results
在漢越方向上,當(dāng)(mono-zh,syn-vi)合成數(shù)據(jù)規(guī)模規(guī)模增至190k,Pearson相關(guān)系數(shù)達(dá)到0.6621后開始下降,相較于僅使用100k漢越平行數(shù)據(jù)的基線模型,提升了3.39個百分點(diǎn).當(dāng)(syn-zh,mono-vi)合成數(shù)據(jù)規(guī)??偭吭鲋?00k,Pearson相關(guān)系數(shù)達(dá)到0.6448,相較于基線模型提升了1.66個百分點(diǎn),而且存在繼續(xù)上升的趨勢.
在越漢方向上,當(dāng)(mono-zh,syn-vi)合成數(shù)據(jù)規(guī)模達(dá)到150k,Pearson相關(guān)系數(shù)達(dá)到0.586后開始下降,相較于基線模型提升了2.92個百分點(diǎn).當(dāng)(syn-zh,mono-vi)合成數(shù)據(jù)規(guī)模增加到170k,Pearson相關(guān)系數(shù)達(dá)到0.5927,相較于基線模型提升了3.59個百分點(diǎn).兩組實(shí)驗(yàn)表明,對特征提取模型的訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,可以顯著提升譯文質(zhì)量估計(jì)的效果,并且提升幅度遠(yuǎn)遠(yuǎn)大于在基線上融入語言差異化特征,從另一方面也反映出數(shù)據(jù)稀疏問題對漢越的QE任務(wù)有較大影響.
圖3 添加(syn-zh,mono-vi)合成語料庫的實(shí)驗(yàn)結(jié)果Fig.3 Add(syn-zh,mono-vi)synthetic corpus experimental results
為了緩解數(shù)據(jù)稀疏問題對本任務(wù)的干擾,更科學(xué)的驗(yàn)證語言差異化特征對于本任務(wù)的影響.我們挑取了漢-越、越-漢兩個方向上使用兩組合成語料庫的最佳實(shí)驗(yàn)結(jié)果,總計(jì)共4組.漢-越方向最佳結(jié)果分別為0.6621(添加(mono-zh,syn-vi)合成語料庫190k)和0.6448(添加(syn-zh,mono-vi)合成語料庫200k),越-漢方向上分別為0.586(添加(mono-zh,syn-vi)合成語料庫150k)和0.5927(添加(syn-zh,mono-vi)合成語料庫170k).保留這四組實(shí)驗(yàn)參數(shù),在此基礎(chǔ)上融入語言差異化特征.
表8為漢-越方向上在兩組最佳結(jié)果的基礎(chǔ)上融入語言差異化特征,由實(shí)驗(yàn)結(jié)果可知,在添加(mono-zh,syn-vi)合成語料庫的最佳結(jié)果基礎(chǔ)上融入語言差異化特征提升了0.32個百分點(diǎn),在添加(syn-zh,mono-vi)合成語料庫的最佳結(jié)果基礎(chǔ)上融入語言差異化特征下降了0.45個百分點(diǎn).
表8 漢-越方向上最佳結(jié)果與其融入特征的實(shí)驗(yàn)結(jié)果Table 8 Best results in the Chinese-Vietnamese direction and the experimental results of its integration characteristics
表9為越-漢方向上在兩組最佳結(jié)果的基礎(chǔ)上融入語言差異化特征,由實(shí)驗(yàn)結(jié)果可知,在兩組最佳結(jié)果的基礎(chǔ)上融入
表9 越-漢方向上最佳結(jié)果與其融入特征的實(shí)驗(yàn)結(jié)果Table 9 Best results in the Vietnamese-Chinese direction and the experimental results of its integration characteristics
語言差異化特征分別提升了0.15個百分點(diǎn)和0.24個百分點(diǎn),但是提升幅度低于越-漢方向在基線基礎(chǔ)上融入語言差異化特征.
上述兩組實(shí)驗(yàn)表明,在訓(xùn)練數(shù)據(jù)規(guī)模增加的情況下,融入語言差異化特征對于譯文質(zhì)量估計(jì)系統(tǒng)性能提升能力有限,在漢-越方向上添加(syn-zh,mono-vi)合成語料庫200k的實(shí)驗(yàn)中甚至還產(chǎn)生了負(fù)面的影響,這可能是因?yàn)榧尤氲膫纹叫袛?shù)據(jù)規(guī)模過大,其中一部分質(zhì)量較差或者不符合漢越之間的語法規(guī)則的數(shù)據(jù)被特征提取模型所學(xué)習(xí),導(dǎo)致譯文質(zhì)量估計(jì)系統(tǒng)的性能有所下降,但是從整體的實(shí)驗(yàn)情況而言,融入語言差異化特征可以有效提升漢越神經(jīng)機(jī)器翻譯譯文質(zhì)量估計(jì)任務(wù)的表現(xiàn),尤其是在特征提取階段的訓(xùn)練數(shù)據(jù)稀缺這一情況下,效果較為明顯.
本文通過分析漢越語言間存在的語言上的差異,對其進(jìn)行了統(tǒng)計(jì)建模,與神經(jīng)網(wǎng)絡(luò)本身提取的特征互為補(bǔ)充,在數(shù)據(jù)規(guī)模有限的情況下,本方法有效地緩解了模型對于漢越語言間的特征提取不充分的問題,提升了漢越譯文質(zhì)量估計(jì)與機(jī)器評價(jià)的相關(guān)性.我們也明確了下個階段的任務(wù):利用譯文質(zhì)量估計(jì)模型對擴(kuò)充數(shù)據(jù)進(jìn)行篩選與修改編輯、結(jié)合深度學(xué)習(xí)的方法去挖掘漢語與越南語之間的語言特性進(jìn)行更深層次的探索與研究.