姚樹杰,肖 桐,朱靖波
(1. 東北大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,遼寧 沈陽(yáng) 110004;2. 醫(yī)學(xué)影像計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室(東北大學(xué)),遼寧 沈陽(yáng) 110819)
在統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,簡(jiǎn)寫為SMT)領(lǐng)域[1-2],系統(tǒng)的訓(xùn)練需要有大規(guī)模的高質(zhì)量雙語(yǔ)句對(duì)語(yǔ)料庫(kù)的支持。一般來(lái)說(shuō)增加訓(xùn)練語(yǔ)料規(guī)模有助于獲得穩(wěn)定的模型參數(shù)和SMT系統(tǒng)翻譯性能的提高。但是訓(xùn)練語(yǔ)料越多,訓(xùn)練和解碼需要的時(shí)間越長(zhǎng),并且平行語(yǔ)料中存在的一些噪聲數(shù)據(jù),也會(huì)影響到訓(xùn)練的可靠性。
呂雅娟[1,3]等人曾提出一種基于信息檢索模型的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練數(shù)據(jù)選擇與優(yōu)化方法,她們通過(guò)選擇現(xiàn)有訓(xùn)練數(shù)據(jù)資源中與待翻譯文本相似的句子組成訓(xùn)練子集,在不增加計(jì)算資源的情況下獲得與使用全部數(shù)據(jù)相當(dāng)甚至更好的機(jī)器翻譯結(jié)果。
但是,在實(shí)際應(yīng)用中,待翻譯文本往往是未知的,Eck等[4]對(duì)不依賴于待翻譯文本的訓(xùn)練語(yǔ)料選取技術(shù)進(jìn)行了研究。他們提出一種基于N-gram的覆蓋度的方法來(lái)構(gòu)建一個(gè)較小規(guī)模的訓(xùn)練語(yǔ)料子集,并且用這個(gè)子集達(dá)到了一個(gè)和原始全部語(yǔ)料相比可觀的翻譯性能。
此外,多數(shù)平行語(yǔ)料庫(kù)包含著錯(cuò)誤或噪音,它們也會(huì)對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能產(chǎn)生影響。如果能對(duì)雙語(yǔ)語(yǔ)料(句對(duì))進(jìn)行有效地評(píng)價(jià),也會(huì)有助于除去噪聲,選擇更加優(yōu)質(zhì)的數(shù)據(jù)來(lái)訓(xùn)練統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。針對(duì)雙語(yǔ)語(yǔ)料的質(zhì)量評(píng)價(jià)的問(wèn)題,陳毅東,史曉東[5]等曾研究了一種面向處理平行語(yǔ)料庫(kù)的篩選的排序模型。這個(gè)模型利用預(yù)先設(shè)定的特征將已有的平行語(yǔ)料進(jìn)行打分排序,之后選取分?jǐn)?shù)靠前的部分組成訓(xùn)練語(yǔ)料。
為了更有效地對(duì)統(tǒng)計(jì)機(jī)器翻譯語(yǔ)料進(jìn)行篩選來(lái)降低SMT系統(tǒng)訓(xùn)練和解碼的代價(jià),本文提出了一種從大規(guī)模訓(xùn)練語(yǔ)料中選取小規(guī)模高質(zhì)量子集的方法。該方法同時(shí)考慮了語(yǔ)料本身的質(zhì)量和整體的覆蓋度因素來(lái)選取訓(xùn)練語(yǔ)料。實(shí)驗(yàn)結(jié)果表明本文的方法在近百萬(wàn)規(guī)模訓(xùn)練語(yǔ)料上取得了明顯的效果,使用選取的小規(guī)模(原始語(yǔ)料的20%)數(shù)據(jù)即達(dá)到了與使用全部數(shù)據(jù)時(shí)相接近的翻譯性能。
本文提出方法的基本框架為:輸入原始大規(guī)模訓(xùn)練語(yǔ)料;首先對(duì)每一句對(duì)的質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)并給出一個(gè)分?jǐn)?shù);然后,按質(zhì)量評(píng)價(jià)分?jǐn)?shù)的高低對(duì)句對(duì)排序;在句對(duì)按質(zhì)量排序的基礎(chǔ)上考慮覆蓋度的因素,動(dòng)態(tài)選取一個(gè)子集;輸出從原始語(yǔ)料中選取的子集作為SMT系統(tǒng)的訓(xùn)練語(yǔ)料。
圖1 基于句對(duì)質(zhì)量評(píng)價(jià)和覆蓋度的訓(xùn)練語(yǔ)料子集選取框架
整個(gè)框架大致分為兩個(gè)部分:句對(duì)質(zhì)量的評(píng)價(jià)和基于覆蓋度的訓(xùn)練語(yǔ)料選取。利用②整合不同的特征來(lái)綜合評(píng)價(jià)句對(duì)質(zhì)量(見第3節(jié))。③整個(gè)語(yǔ)料的候選句對(duì)按質(zhì)量評(píng)價(jià)分?jǐn)?shù)的高低排序;④考慮覆蓋度選取語(yǔ)料的一個(gè)子集作為訓(xùn)練數(shù)據(jù)(基于覆蓋度選取訓(xùn)練語(yǔ)料的流程在第4節(jié)做詳細(xì)描述)。下面對(duì)句對(duì)質(zhì)量的評(píng)價(jià)和基于覆蓋度的訓(xùn)練語(yǔ)料選取技術(shù)進(jìn)行討論。
從現(xiàn)有語(yǔ)料中選取一個(gè)高質(zhì)量的相對(duì)規(guī)模較小的訓(xùn)練子集,就單個(gè)句對(duì)來(lái)講,我們希望優(yōu)先考慮的是那種質(zhì)量較好的個(gè)體。假定質(zhì)量高的句對(duì)需滿足以下條件:①構(gòu)成句對(duì)的源語(yǔ)句和目標(biāo)語(yǔ)句都是比較流暢的句子。②源語(yǔ)句和目標(biāo)語(yǔ)句的互譯比較準(zhǔn)確?;谶@樣的考慮,本文提出一種線性模型整合不同特征來(lái)綜合評(píng)價(jià)句對(duì)的質(zhì)量,后面將詳細(xì)介紹。
為描述雙語(yǔ)句對(duì)的好壞本文引入三類特征:基于雙語(yǔ)詞典的翻譯質(zhì)量,語(yǔ)言模型,翻譯模型概率。最后,在3.1.4中本文提出一種線性模型整合這些特征來(lái)綜合評(píng)價(jià)句對(duì)質(zhì)量。
3.1.1 特征一:基于雙語(yǔ)翻譯詞典的翻譯質(zhì)量
利用現(xiàn)有雙語(yǔ)翻譯詞典,本文給出下式來(lái)評(píng)價(jià)句對(duì)翻譯質(zhì)量:
(1)
其中,s是表示源語(yǔ)言句子,t表示目標(biāo)語(yǔ)句子;ws和wt分別表示雙語(yǔ)句對(duì)源語(yǔ)句中的詞和目標(biāo)句的詞;length(s)和length(t)分別表示源語(yǔ)句和目標(biāo)語(yǔ)句的長(zhǎng)度(即包含的詞的個(gè)數(shù));ΣwsTranslate(ws)表示源語(yǔ)句中所有在目標(biāo)句能找到譯文的詞的總數(shù);ΣwtTranslate(wt)表示目標(biāo)句中所有在源語(yǔ)句能找到譯文的詞的總數(shù)。對(duì)于Translate(w),如果詞在它對(duì)應(yīng)的目標(biāo)與句子中存在翻譯項(xiàng)則為1,否則為0。
3.1.2 特征二:語(yǔ)言模型
引入語(yǔ)言模型的目的是考察每一句對(duì)的單語(yǔ)部分是否流暢。本文把候選訓(xùn)練語(yǔ)料句對(duì)的源語(yǔ)句語(yǔ)言模型和目標(biāo)語(yǔ)句的語(yǔ)言模型作為兩個(gè)特征加入到句對(duì)質(zhì)量評(píng)價(jià)線性模型中。假設(shè)句子中單詞的出現(xiàn)概率僅與其前面的N-1個(gè)單詞有關(guān),句長(zhǎng)為n的句子用語(yǔ)言模型概率來(lái)考察候選句的流暢度表示如下:
(2)
其中PLM(w)的下標(biāo)LM是Language Model的簡(jiǎn)寫。語(yǔ)言模型參數(shù)在大規(guī)模雙語(yǔ)訓(xùn)練語(yǔ)料上訓(xùn)練得到。實(shí)驗(yàn)中對(duì)句對(duì)的中文句和英文句分別計(jì)算其五元語(yǔ)言模型(N=5),每個(gè)句子的語(yǔ)言模型按句子長(zhǎng)度進(jìn)行了歸一化處理。
3.1.3 特征三:翻譯模型概率
本文對(duì)IBM model 1 翻譯模型在假設(shè)基礎(chǔ)上進(jìn)行了進(jìn)一步簡(jiǎn)化,并計(jì)算句對(duì)源語(yǔ)言到目標(biāo)語(yǔ)和目標(biāo)語(yǔ)到源語(yǔ)句翻譯概率作為衡量一個(gè)句對(duì)翻譯質(zhì)量的特征。
對(duì)于句對(duì)(f,e),假定源語(yǔ)句f有m個(gè)詞,目標(biāo)語(yǔ)句e有l(wèi)個(gè)詞。假設(shè)所有源語(yǔ)句的詞至多有一個(gè)目標(biāo)語(yǔ)詞對(duì)齊,對(duì)齊概率只依賴于t(fj|ei),對(duì)于每一個(gè)源語(yǔ)單詞我們?cè)谀繕?biāo)語(yǔ)中尋找一個(gè)最能解釋它的目標(biāo)語(yǔ)詞;每個(gè)源語(yǔ)句中的詞僅由和它對(duì)齊的那個(gè)目標(biāo)語(yǔ)詞生成;忠誠(chéng)度不依賴于目標(biāo)語(yǔ)和源語(yǔ)句的長(zhǎng)度。在此基礎(chǔ)上,用下面的式子表示每一句對(duì)目標(biāo)語(yǔ)對(duì)源語(yǔ)翻譯的忠誠(chéng)度。
(3)
其中,t(fj|ei)表示句子e的第i個(gè)詞到句f第j個(gè)詞的翻譯概率。PTM(w)的下標(biāo)TM是Translate Model的簡(jiǎn)寫。源語(yǔ)句對(duì)目標(biāo)語(yǔ)句的忠誠(chéng)度也類似表示。
3.1.4 句對(duì)質(zhì)量評(píng)價(jià)線性模型
怎樣考慮前述的特征來(lái)綜合評(píng)價(jià)句對(duì)質(zhì)量的好壞?用Q(f,e)來(lái)表示句對(duì)(f,e)的質(zhì)量,本文通過(guò)下面的表達(dá)形式整合以上提到的特征:
(4)
k表示該模型整合的特征的個(gè)數(shù)。e與f分別表示句對(duì)的源語(yǔ)句和目標(biāo)語(yǔ)句;這里wi分別表示每個(gè)對(duì)應(yīng)特征的權(quán)重,每個(gè)權(quán)重可在人工構(gòu)造的少量訓(xùn)練集上通過(guò)自動(dòng)或人工的方法得到。為實(shí)現(xiàn)的方便,本文暫時(shí)采用了人工的方法。
本文相關(guān)實(shí)驗(yàn)k=5,P1到P5依次指Pdic(f,e),PLM(e),PLM(f),PTM(f|e),PTM(e|f)。
從原始語(yǔ)料中選取一個(gè)子集作為訓(xùn)練語(yǔ)料,是要用有限的語(yǔ)料覆蓋盡可能多的語(yǔ)言現(xiàn)象,句對(duì)之間也不應(yīng)該存在太多冗余。假如說(shuō)句對(duì)質(zhì)量評(píng)價(jià)是考慮這種語(yǔ)言現(xiàn)象的可靠性,那么覆蓋度就是要保證要包含廣泛的語(yǔ)言現(xiàn)象。本文認(rèn)為一個(gè)較好的訓(xùn)練子集要有足夠的覆蓋度,并且本文的有關(guān)實(shí)驗(yàn)也表明,相同規(guī)模的數(shù)據(jù),高的冗余會(huì)導(dǎo)致不好的訓(xùn)練效果,這也是本文在選取訓(xùn)練子集時(shí)考慮覆蓋度的一個(gè)原因。
本文比較了包括N-gram在內(nèi)的三種不同覆蓋度,采用一種動(dòng)態(tài)的考慮覆蓋度的方法來(lái)重新分布訓(xùn)練語(yǔ)料,最后從重新分布的語(yǔ)料中取前N個(gè)句對(duì)構(gòu)成一個(gè)子集作為訓(xùn)練語(yǔ)料。
覆蓋度大小的衡量分別比較三個(gè)參考指標(biāo):①詞的覆蓋;②N-gram(包括Unigram Bigram Trigram)的覆蓋;③短語(yǔ)翻譯對(duì)的覆蓋。
參照覆蓋度選取訓(xùn)練語(yǔ)料子集:用候選訓(xùn)練語(yǔ)料的第一個(gè)句對(duì)作為所選出的訓(xùn)練語(yǔ)料子集的第一個(gè)元素,然后依次向后掃描候選語(yǔ)料,如果當(dāng)前的句對(duì)對(duì)增加已選訓(xùn)練語(yǔ)料子集覆蓋度有貢獻(xiàn)(比如包含新的短語(yǔ)翻譯對(duì)),則優(yōu)先選擇這個(gè)句對(duì)添加到訓(xùn)練語(yǔ)料子集。
本文的平行語(yǔ)料選取框架綜合考慮了句對(duì)質(zhì)量和覆蓋度,利用句對(duì)質(zhì)量評(píng)價(jià)線性模型將候選語(yǔ)料的全部句對(duì)按質(zhì)量打分排序,之后按4.2節(jié)所述的考慮覆蓋度選取訓(xùn)練子集的方法從按句對(duì)質(zhì)量排序的語(yǔ)料中選出一個(gè)子集作為訓(xùn)練語(yǔ)料,具體如算法1所示。
算法1基于句對(duì)質(zhì)量和覆蓋度的訓(xùn)練語(yǔ)料選取
輸入:候選平行語(yǔ)料D={(s1,t1),(s2,t2),…}
輸出:選出的小規(guī)模的訓(xùn)練語(yǔ)料
算法:
step1. 循環(huán)Forifrom 1 ton//i表示句對(duì)編號(hào),用句對(duì)質(zhì)量評(píng)價(jià)線性模型給句對(duì)(si,ti)打分;
step2. 所有句對(duì)按step1得到的句對(duì)按質(zhì)量分?jǐn)?shù)高低排序,得到重排序的訓(xùn)練語(yǔ)料集Dq;
step3. 從前往后掃描Dq,按優(yōu)先考慮覆蓋度的方法選出一個(gè)子集,輸出這個(gè)子集作為所選訓(xùn)練語(yǔ)料。
Baseline系統(tǒng)描述:本文實(shí)驗(yàn)所使用的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)為東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開發(fā)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[6-7],系統(tǒng)實(shí)現(xiàn)采用對(duì)數(shù)線性模型。分詞采用東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室分詞系統(tǒng);詞對(duì)齊使用GIZA++工具。實(shí)驗(yàn)數(shù)據(jù)使用CWMT2008語(yǔ)料預(yù)處理后的70萬(wàn),將句對(duì)的分布先后順序隨機(jī)排列,從首句對(duì)起順次分別取1%,5%,10%,20%,(30%),40%,60%,80%和100%作為Baseline訓(xùn)練語(yǔ)料,利用SMT系統(tǒng)的BLEU值來(lái)估計(jì)這些不同規(guī)模訓(xùn)練數(shù)據(jù)的質(zhì)量。另外的一些實(shí)驗(yàn)相關(guān)信息如表1所示。
表1 一些實(shí)驗(yàn)相關(guān)信息
只考慮覆蓋度,用4.2節(jié)提到的方法分別以詞,N-gram和短語(yǔ)翻譯對(duì)(Phrase pair)為覆蓋度指標(biāo),從原始未經(jīng)句對(duì)質(zhì)量評(píng)價(jià)的語(yǔ)料中選取不同規(guī)模子集作為訓(xùn)練語(yǔ)料,其效果與Baseline做了比較。需要注意的是:詞是指源語(yǔ)言出現(xiàn)的詞(Unigram除去禁用詞);短語(yǔ)翻譯對(duì)從候選的平行句對(duì)獲得,參考了文獻(xiàn)[8]中的方法;N-gram實(shí)驗(yàn)中n=1,2,3,同時(shí)包含Unigram Bigram 和Trigram。
實(shí)驗(yàn)結(jié)果如圖2,縱坐標(biāo)表示選取不同規(guī)模語(yǔ)料作為訓(xùn)練數(shù)據(jù)所達(dá)到的機(jī)器翻譯性能(用BLEU值表示),橫坐標(biāo)表示所用數(shù)據(jù)占整個(gè)原始語(yǔ)料的百分比。不難發(fā)現(xiàn)在選取的語(yǔ)料規(guī)模比較小時(shí),優(yōu)先考慮語(yǔ)料的覆蓋度,能夠很大程度上影響SMT系統(tǒng)的訓(xùn)練效果,并且相同規(guī)模上用短語(yǔ)翻譯對(duì)(Phrase pair)作為覆蓋度指標(biāo)選取的語(yǔ)料訓(xùn)練效果要好于基于詞(unigram)和基于N-gram(unigram~trigram),三個(gè)指標(biāo)中使用短語(yǔ)翻譯對(duì)達(dá)到的效果最明顯。
圖2 依不同覆蓋度指標(biāo)選取的語(yǔ)料的訓(xùn)練效果比較
Baseline不考慮覆蓋度隨機(jī)選取數(shù)據(jù)作為訓(xùn)練語(yǔ)料,至少用60%訓(xùn)練語(yǔ)料達(dá)到BLEU值(0.239 8)與用全部語(yǔ)料時(shí)的BLEU值(0.242 4)相接近。而通過(guò)考慮覆蓋度來(lái)選取,基于詞(Unigram)選取40%語(yǔ)料達(dá)到0.241 1,N-gram(unigram~trigram)選取40%達(dá)到0.239 6,而以短語(yǔ)翻譯對(duì)覆蓋度選取僅占全部候選語(yǔ)料20%的數(shù)據(jù)就達(dá)到了0.240 4,與使用全部語(yǔ)料的水平(0.242 4)相接近。而Baseline用20%的數(shù)據(jù)達(dá)到的性能僅為0.227 7。實(shí)驗(yàn)結(jié)果表明訓(xùn)練語(yǔ)料的覆蓋度對(duì)訓(xùn)練效果有很大影響,尤其當(dāng)要選取的語(yǔ)料規(guī)模較小時(shí)覆蓋度就顯得更加重要。
通過(guò)這個(gè)實(shí)驗(yàn)的結(jié)果,也不難看到考慮覆蓋度來(lái)選取語(yǔ)料子集要比隨機(jī)選取的相同規(guī)模的語(yǔ)料的訓(xùn)練效果好;另外分析所用的三個(gè)覆蓋度指標(biāo),詞或N-gram作為覆蓋度指標(biāo)僅考慮了單語(yǔ),而短語(yǔ)翻譯對(duì)覆蓋度指標(biāo)是在詞對(duì)齊基礎(chǔ)上同時(shí)考慮雙語(yǔ)信息,相比其他兩個(gè)對(duì)選取高質(zhì)量SMT平行訓(xùn)練語(yǔ)料的影響更大。
用3.1.4節(jié)中提到的句對(duì)質(zhì)量評(píng)價(jià)線性模型來(lái)評(píng)價(jià)候選句對(duì)的質(zhì)量。實(shí)驗(yàn)中本文暫時(shí)采用了人工的方法來(lái)設(shè)定各個(gè)特征的權(quán)重:權(quán)值開始設(shè)置為1,然后人工觀察在較小訓(xùn)練集合上的自動(dòng)句對(duì)質(zhì)量評(píng)價(jià)結(jié)果,之后再根據(jù)這個(gè)結(jié)果的合理性,對(duì)權(quán)值進(jìn)行調(diào)整,如此反復(fù)多次,最后每一個(gè)特征的權(quán)重由人工給定一個(gè)認(rèn)為合理的經(jīng)驗(yàn)值。
實(shí)驗(yàn)中分別為0.1,0.5,0.5,0.5,0.5。另外,實(shí)驗(yàn)中選用短語(yǔ)翻譯對(duì)作為覆蓋度指標(biāo)。綜合考慮句對(duì)質(zhì)量和覆蓋度,按照?qǐng)D1所示整個(gè)框架流程來(lái)選取訓(xùn)練語(yǔ)料。選取的訓(xùn)練語(yǔ)料子集分別為全部原始語(yǔ)料規(guī)模的1%,5%,10%,20%,30%,40%,60%,80%,100%,并與Baseline做對(duì)比。圖3 中our method曲線表示利用本文提到的框架,綜合考慮句對(duì)質(zhì)量和覆蓋度選取的訓(xùn)練語(yǔ)料所達(dá)到的翻譯性能??梢钥闯?,利用本文的方法從較大規(guī)模平行語(yǔ)料中選取較小的子集作為訓(xùn)練語(yǔ)料能使機(jī)器翻譯性能明顯高于Baseline,甚至用20%的句對(duì)就到達(dá)了與用全部訓(xùn)練語(yǔ)料時(shí)相接近的性能。實(shí)驗(yàn)表明本文所提出的方法用在高質(zhì)量訓(xùn)練語(yǔ)料子集的選取上是有效的。
圖3 本文方法選取的不同規(guī)模訓(xùn)練語(yǔ)料訓(xùn)練與Baseline的比較
評(píng)價(jià)本文句對(duì)質(zhì)量評(píng)價(jià)模型不是件很容易的事,我們通過(guò)比較引入句對(duì)翻譯質(zhì)量評(píng)價(jià)前后所選取的相等規(guī)模的數(shù)據(jù)的訓(xùn)練效果來(lái)間接考察句對(duì)質(zhì)量評(píng)價(jià)方法的有效性。
通過(guò)比較兩組實(shí)驗(yàn)的數(shù)據(jù)可以發(fā)現(xiàn),在句對(duì)質(zhì)量評(píng)價(jià)基礎(chǔ)上考慮覆蓋度選取訓(xùn)練語(yǔ)料子集的效果要優(yōu)于單純考慮覆蓋度;反映在BLEU值上如表2(這里的覆蓋度僅指短語(yǔ)翻譯對(duì)的覆蓋)??梢钥闯?,綜合考慮句對(duì)質(zhì)量和覆蓋度來(lái)選取小規(guī)模的訓(xùn)練語(yǔ)料能夠比單純考慮覆蓋度更好些,盡管在本文目前所用數(shù)據(jù)的實(shí)驗(yàn)結(jié)果上并不是很明顯。
表2 引入句對(duì)質(zhì)量評(píng)價(jià)前后按覆蓋度選取的訓(xùn)練語(yǔ)料的訓(xùn)練效果比較
統(tǒng)計(jì)機(jī)器翻譯所用的雙語(yǔ)平行語(yǔ)料不同于單語(yǔ)語(yǔ)料,其句對(duì)中源語(yǔ)句和目標(biāo)語(yǔ)句有著緊密的關(guān)系。比較幾種不同的覆蓋度指標(biāo)的實(shí)驗(yàn)表明在用雙語(yǔ)特征(短語(yǔ)翻譯對(duì))作為覆蓋度指標(biāo)時(shí)選取訓(xùn)練語(yǔ)料子集效果最好,20%的數(shù)據(jù)規(guī)模即達(dá)到接近Baseline用全部數(shù)據(jù)時(shí)的訓(xùn)練效果。而同時(shí)考慮Unigram Bigram和Trigram在40%左右達(dá)到相當(dāng)?shù)男阅堋T趯?shí)驗(yàn)基礎(chǔ)上,本文認(rèn)為在選取SMT雙語(yǔ)訓(xùn)練語(yǔ)料時(shí)采用雙語(yǔ)的特征(比如短語(yǔ)翻譯對(duì))來(lái)衡量覆蓋度這一指標(biāo)更合理。
同時(shí),句對(duì)的質(zhì)量好壞也是影響訓(xùn)練效果的因素,為評(píng)價(jià)句對(duì)的質(zhì)量本文考慮多種特征提出一種線性模型,這些特征包括:基于雙語(yǔ)詞典的句對(duì)翻譯質(zhì)量,語(yǔ)言模型,翻譯模型概率等。將句對(duì)質(zhì)量評(píng)價(jià)引入到訓(xùn)練語(yǔ)料子集的選取框架中,發(fā)現(xiàn)在選取的語(yǔ)料規(guī)模較小的時(shí)候有微弱提升。雖然效果不夠明顯,但這也間接說(shuō)明句對(duì)質(zhì)量評(píng)價(jià)起到了一定作用。分析本文實(shí)驗(yàn)中單句質(zhì)量評(píng)價(jià)對(duì)選取的訓(xùn)練子集質(zhì)量影響微弱的原因,可能是因?yàn)楹蜻x語(yǔ)料本身規(guī)模就比較小,低質(zhì)量句對(duì)的比例也較低。究竟單句對(duì)的質(zhì)量對(duì)選取高質(zhì)量的SMT訓(xùn)練語(yǔ)料的影響有多大本文還不能給出定論。
總之,本文提出了一種綜合考慮句對(duì)質(zhì)量和覆蓋度選取統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語(yǔ)料的方法,利用該方法從大規(guī)模平行語(yǔ)料中選取高質(zhì)量的小規(guī)模的子集作為訓(xùn)練語(yǔ)料,在不明顯損失機(jī)器翻譯性能的前提下降低訓(xùn)練和解碼的代價(jià)。從70萬(wàn)句對(duì)中選取其中20%的語(yǔ)料即達(dá)到了與用整個(gè)語(yǔ)料相當(dāng)?shù)臋C(jī)器翻譯性能,通過(guò)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。
本文當(dāng)前的實(shí)驗(yàn)中句對(duì)質(zhì)量評(píng)價(jià)線性模型中各個(gè)特征的權(quán)重是還只是由人工在較小訓(xùn)練集上調(diào)整,給出的一個(gè)經(jīng)驗(yàn)值,后面的工作中我們將考慮采用自動(dòng)的方式來(lái)訓(xùn)練得到各特征的權(quán)重。
下一步,我們還將進(jìn)一步完善本文的訓(xùn)練語(yǔ)料選取框架,并在千萬(wàn)級(jí)規(guī)模的平行語(yǔ)料上進(jìn)行相關(guān)實(shí)驗(yàn)以進(jìn)一步驗(yàn)證句對(duì)質(zhì)量評(píng)價(jià)方法在過(guò)濾噪聲數(shù)據(jù)方面的功能是否顯著。
[1] 黃瑾,呂雅娟,劉群. 基于信息檢索方法的統(tǒng)計(jì)翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J]. 中文信息學(xué)報(bào), 2008,22(2):40-46.
[2] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proc. of HLT-NAACL, 2003. May: 127-133.
[3] Yajuan Lü, Jin Huang and Qun Liu. Improving Statistical Machine Translation Performance by Training Data Selection and Optimization[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007:343-350.
[4] Matthias Eck, Stephan Vogel, Alex Waibel Low cost portability for statistical machine translation based on n-gram coverage[C]//MT Summit X: 2005:227-234.
[5] 陳毅東,史曉東,周昌樂.平行語(yǔ)料處理初探:一種排序模型[J]. 中文信息學(xué)報(bào),2006,增刊:66-70.
[6] Tong Xiao, Rushan Chen, Tianning Li, Muhua Zhu, Jingbo Zhu, Huizhen Wang and Feiliang Ren. NEUTrans: a Phrase-Based SMT System for CWMT2009[C]//5th China workshop on Machine Translation (CWMT), Nanjing, China, 2009: 40-46.
[7] Deyi Xiong, Qun Liu and Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation[C]//Proc. of ACL Sydney, 2006: 521-528.
[8] Franz Josef Och Hermann Ney. The Alignment Template Approach to Statistical Machine Translation[C]//Association for Computational Linguistics. 2004.