馮志偉
(杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院,浙江杭州311121)
基于短語(yǔ)和句法的統(tǒng)計(jì)機(jī)器翻譯
馮志偉*
(杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院,浙江杭州311121)
回顧了統(tǒng)計(jì)機(jī)器翻譯發(fā)展的歷程,討論了噪聲信道模型、基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯和基于句法的統(tǒng)計(jì)機(jī)器翻譯,主張把理性主義方法和經(jīng)驗(yàn)主義方法結(jié)合起來,以推進(jìn)機(jī)器翻譯的進(jìn)一步發(fā)展。
機(jī)器翻譯;統(tǒng)計(jì)機(jī)器翻譯;噪聲信道模型;理性主義方法;經(jīng)驗(yàn)主義方法
傳統(tǒng)的機(jī)器翻譯技術(shù)使用小規(guī)模的數(shù)據(jù)或者語(yǔ)言學(xué)家的主觀語(yǔ)感作為機(jī)器翻譯知識(shí)的來源,采用基于規(guī)則(rule-based)的復(fù)雜算法,追求個(gè)別句子翻譯的精確性,而不重視翻譯對(duì)象的整體覆蓋面[1]。這樣的機(jī)器翻譯系統(tǒng)只能覆蓋小范圍的語(yǔ)言材料,一旦擴(kuò)大翻譯的范圍,系統(tǒng)就往往顯得捉襟見肘,翻譯的效果便馬上降低[2-3]。
與傳統(tǒng)的機(jī)器翻譯不同,統(tǒng)計(jì)機(jī)器翻譯(statistical machine translation,簡(jiǎn)稱SMT)使用大規(guī)模的數(shù)據(jù)作為機(jī)器翻譯的知識(shí)來源,采用基于統(tǒng)計(jì)(statistics-based)的簡(jiǎn)單算法,不追求個(gè)別句子翻譯的精確性,而追求翻譯語(yǔ)言材料的覆蓋面,盡管個(gè)別句子的翻譯精確度不是很高,但是,對(duì)于語(yǔ)言材料的覆蓋面比較大,翻譯的總體效果大大優(yōu)于傳統(tǒng)的機(jī)器翻譯[4]。
目前,越來越多的互聯(lián)網(wǎng)和軟件公司都推出了基于統(tǒng)計(jì)的在線的機(jī)器翻譯系統(tǒng)。統(tǒng)計(jì)機(jī)器翻譯已經(jīng)成為當(dāng)前機(jī)器翻譯的主流技術(shù),值得我們高度關(guān)注[5]。
為了推動(dòng)統(tǒng)計(jì)機(jī)器翻譯進(jìn)一步發(fā)展,我們主張把基于統(tǒng)計(jì)的機(jī)器翻譯與基于規(guī)則的機(jī)器翻譯技術(shù)結(jié)合起來,在統(tǒng)計(jì)機(jī)器翻譯中,融入短語(yǔ)知識(shí)和句法知識(shí)[6-7],讓計(jì)算機(jī)進(jìn)行深度機(jī)器學(xué)習(xí)(deep machine learning),獲取更加豐富的語(yǔ)言學(xué)知識(shí)[8]。
本文介紹近年來學(xué)者們?cè)谶@方面的一些探索性研究。首先介紹基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯,然后介紹基于句法的統(tǒng)計(jì)機(jī)器翻譯。
在機(jī)器翻譯產(chǎn)生的初期,就有學(xué)者提出了采用統(tǒng)計(jì)方法進(jìn)行機(jī)器翻譯的思想。
1949年,信息論的奠基人之一、美國(guó)洛克菲勒基金會(huì)副總裁Weaver W發(fā)表以《翻譯》為題的備忘錄,提出了使用解讀密碼的方法來進(jìn)行機(jī)器翻譯。他認(rèn)為翻譯類似于解讀密碼的過程[9]。Weaver W提出的這種解讀密碼的機(jī)器翻譯需要采用統(tǒng)計(jì)的方法進(jìn)行計(jì)算,實(shí)際上就是一種基于統(tǒng)計(jì)的機(jī)器翻譯。
這樣的基于統(tǒng)計(jì)的機(jī)器翻譯需要有高性能的計(jì)算機(jī)進(jìn)行大規(guī)模的計(jì)算,還需要有聯(lián)機(jī)的機(jī)器可讀的語(yǔ)料作為統(tǒng)計(jì)的對(duì)象,當(dāng)時(shí)還不具備這樣的條件,因此,Weaver W的這種方法難以付諸實(shí)現(xiàn),只不過是一種具有遠(yuǎn)見卓識(shí)的想法而已。
隨著計(jì)算技術(shù)的進(jìn)步和大規(guī)模雙語(yǔ)并行語(yǔ)料庫(kù)建設(shè)的發(fā)展,實(shí)現(xiàn)Weaver W這種思想的技術(shù)條件逐漸成熟,于是在20世紀(jì)90年代初,IBM公司的Peter Brown等人在Weaver W思想的基礎(chǔ)上提出了統(tǒng)計(jì)機(jī)器翻譯的數(shù)學(xué)模型[10]。
統(tǒng)計(jì)機(jī)器翻譯的這種數(shù)學(xué)模型把機(jī)器翻譯問題看成是一個(gè)噪聲信道(noisy channel)問題,叫做噪聲信道模型(noisy channel model),如圖1所示。
圖1 統(tǒng)計(jì)機(jī)器翻譯的噪聲信道模型Fig.1 Noisy channel model for SMT
在圖1中,源語(yǔ)言(source)S由于經(jīng)過了噪聲信道(noisy channel)而發(fā)生了扭曲變形,成為了噪聲詞(noisy word),于是在信道的另一端呈現(xiàn)為目標(biāo)語(yǔ)言T,翻譯實(shí)際上就是如何根據(jù)觀察到的目標(biāo)語(yǔ)言T進(jìn)行解碼(decoder),來猜測(cè)噪聲詞本來的面貌(guess at original word),從而恢復(fù)最為可能的源語(yǔ)言S。因此,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的任務(wù)就是在所有可能的源語(yǔ)言S的句子中尋找概率最大的那個(gè)句子作為目標(biāo)語(yǔ)言T中的句子的翻譯結(jié)果。
在這個(gè)模型中,噪聲信道意義上的源語(yǔ)言就是翻譯意義上的目標(biāo)語(yǔ)言,而噪聲信道意義上的目標(biāo)語(yǔ)言就是翻譯意義上的源語(yǔ)言。
統(tǒng)計(jì)機(jī)器翻譯的基本公式如下:
在這個(gè)公式中,T表示翻譯意義上的目標(biāo)語(yǔ)言,S表示翻譯意義上的源語(yǔ)言,P(T)是翻譯意義上的目標(biāo)語(yǔ)言的語(yǔ)言模型,而P(S|T)是給定翻譯意義上的目標(biāo)語(yǔ)言T的情況下,翻譯意義上的源語(yǔ)言S的翻譯模型。需要注意的是,統(tǒng)計(jì)機(jī)器翻譯基本公式中的T和S與噪聲信道模型中的T和S的所指是截然不同的。
統(tǒng)計(jì)機(jī)器翻譯的噪聲信道模型是基于單詞的。例如,如果要建立一個(gè)西班牙語(yǔ)到英語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),首先就要根據(jù)西班牙語(yǔ)和英語(yǔ)的雙語(yǔ)文本語(yǔ)料庫(kù),使用統(tǒng)計(jì)分析的方法把西班牙語(yǔ)轉(zhuǎn)換為質(zhì)量低劣的英語(yǔ),我們把它叫做“破英語(yǔ)”(broken English),然后,再用統(tǒng)計(jì)分析的方法,從破英語(yǔ)生成目標(biāo)語(yǔ)言英語(yǔ),如圖2所示。
圖2 西班牙語(yǔ)-英語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)Fig.2 Spanish-English SMT system
在圖2中,輸入西班牙語(yǔ)(Spanish),對(duì)于西班牙/英語(yǔ)雙語(yǔ)文本(Spanish/English Bilingual Text)進(jìn)行統(tǒng)計(jì)分析(Statistical Analysis),得到破英語(yǔ),再根據(jù)英語(yǔ)文本(English Text)進(jìn)行統(tǒng)計(jì)分析(Statistical Analysis)的結(jié)果對(duì)破英語(yǔ)進(jìn)行加工,最后輸出英語(yǔ)(English)譯文。
例如,西班牙語(yǔ)句子Que hambre tengo yo(我是多么餓?。┦紫缺晦D(zhuǎn)換為若干個(gè)不同的破英語(yǔ)句子:
What hunger have I
Hungry I am so
I am so hungry
Have I that hunger
…
最后,使用統(tǒng)計(jì)方法在這些破英語(yǔ)句子中進(jìn)行優(yōu)選,得到比較好的英語(yǔ)譯文:I am so hunger。
在圖3中,Translation Model表示翻譯模型,Language Model表示語(yǔ)言模型,Decoding algorithm表示解碼算法。如果用s表示西班牙語(yǔ),用e表示英語(yǔ),從噪聲信道模型的角度來看,首先使用翻譯模型P(s|e),把西班牙語(yǔ)轉(zhuǎn)換為破英語(yǔ),再使用語(yǔ)言模型P(e),把破英語(yǔ)改造為正確英語(yǔ)的譯文。
圖3 基于噪聲信道模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)Fig.3 "Noisy channel model"based SMT system
在對(duì)于破英語(yǔ)進(jìn)行優(yōu)選時(shí),使用解碼算法求解argmax P(e)*P(s|e),最后得到正確英語(yǔ)譯文I am so hunger。
這樣解碼過程是在單詞的基礎(chǔ)之上進(jìn)行的。輸入的西班牙語(yǔ)句子Que hambre tengo yo中的每一個(gè)單詞,經(jīng)過統(tǒng)計(jì)分析之后,還可能與若干個(gè)英語(yǔ)單詞相對(duì)應(yīng):例如,西班牙語(yǔ)的Que對(duì)應(yīng)于英語(yǔ)的單詞what,that,so,where,西班牙語(yǔ)的hambre對(duì)應(yīng)于英語(yǔ)的單詞hunger,hungry,西班牙語(yǔ)的tengo對(duì)應(yīng)于英語(yǔ)的單詞have,am,make,西班牙語(yǔ)的yo,對(duì)應(yīng)于英語(yǔ)單詞I,me。
針對(duì)這種復(fù)雜的對(duì)應(yīng)情況,使用解碼算法進(jìn)行計(jì)算,最后得到最優(yōu)的英語(yǔ)單詞序列:I am so hunger,如圖4所示。
圖4 使用解碼算法得到英語(yǔ)譯文Fig.4 English translation by decoding algorithm
在圖5中,與西班牙語(yǔ)單詞對(duì)應(yīng)的英語(yǔ)單詞是目標(biāo)語(yǔ)單詞(target word)排列成柱狀,形成1sttarget word(第1個(gè)目標(biāo)語(yǔ)單詞),2ndtarget word(第2個(gè)目標(biāo)語(yǔ)單詞),3rdtarget word(第3個(gè)目標(biāo)語(yǔ)單詞),4thtarget word(第4個(gè)目標(biāo)語(yǔ)單詞)等柱子(beam),從start開始,解碼器采用動(dòng)態(tài)規(guī)劃柱狀搜索(dynamic programming beam search)技術(shù),從柱子中選出與西班牙語(yǔ)單詞最匹配的英語(yǔ)單詞(best predecessor link),當(dāng)源語(yǔ)言西班牙語(yǔ)句子中的單詞都全部覆蓋時(shí)(all source words covered),達(dá)到終點(diǎn)(end),搜索結(jié)束,就可以得到相應(yīng)的英語(yǔ)譯文。
上面描述的這種統(tǒng)計(jì)機(jī)器翻譯是建立在單詞的基礎(chǔ)之上的,可以叫做基于單詞的統(tǒng)計(jì)機(jī)器翻譯(Word-Based SMT,簡(jiǎn)稱WBSMT),這種基于單詞的統(tǒng)計(jì)機(jī)器翻譯技術(shù)存在如下的不足:
第一,這種技術(shù)可以處理源語(yǔ)言中的一個(gè)單詞對(duì)應(yīng)于目標(biāo)語(yǔ)言中的若干個(gè)單詞的“一對(duì)多”情況,但是,當(dāng)源語(yǔ)言中的多個(gè)單詞對(duì)應(yīng)于目標(biāo)語(yǔ)言中的一個(gè)單詞的“多對(duì)一”的時(shí)候,這種技術(shù)就束手無策。
第二,這種技術(shù)無法處理源語(yǔ)言中固定短語(yǔ)。例如,固定短語(yǔ)interest in中interest的含義是“興趣”,而固定短語(yǔ)interest rate中的interest的含義則是“利息”,如果只孤立地考慮單詞interest本身,這種固定短語(yǔ)是無法處理的。
圖5 動(dòng)態(tài)規(guī)劃柱狀解碼Fig.5 Dynamic programming beam decode
因此,有必要在統(tǒng)計(jì)機(jī)器翻譯中結(jié)合短語(yǔ)的知識(shí),建立基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)(Phrase-Based SMT,簡(jiǎn)稱PBSMT)。
例如,在德語(yǔ)到英語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,當(dāng)把德語(yǔ)句子Morgen fliege ich nach Kanada zur Konferenz(明天我將飛往加拿大去參加會(huì)議)翻譯為英語(yǔ)句子Tomorrow I will fly to the conference in Canada的時(shí)候,把德語(yǔ)中的nach Kanada組成一個(gè)短語(yǔ)與英語(yǔ)的in Canada相對(duì)應(yīng),把德語(yǔ)中的Zur Konferenz組成一個(gè)短語(yǔ)與英語(yǔ)的to the conference相對(duì)應(yīng),形成圖6的對(duì)應(yīng)關(guān)系,就比之于完全依靠單詞對(duì)應(yīng)要好得多。
圖6 德語(yǔ)和英語(yǔ)的短語(yǔ)對(duì)應(yīng)Fig.6 Phrase alignment between German and English
在這種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,源語(yǔ)言的句子首先切分為短語(yǔ)和單詞的組合,然后根據(jù)從雙語(yǔ)語(yǔ)料庫(kù)中獲取短語(yǔ)翻譯的知識(shí),把每一個(gè)源語(yǔ)言短語(yǔ)翻譯成目標(biāo)語(yǔ)言短語(yǔ)的可能性用概率表示。如果用P表示概率(Probability),對(duì)于上面的例子,可以得到
P(to the conference|zur Konferenz),
P(into the meeting|zur Konferenz),其中短語(yǔ)之間翻譯的可能性是用概率表示的。
這種基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的好處是:
第一,可以實(shí)現(xiàn)源語(yǔ)言和目標(biāo)語(yǔ)言單詞“多對(duì)多”的映射,因?yàn)楫?dāng)源語(yǔ)言中的多個(gè)單詞對(duì)應(yīng)于目標(biāo)語(yǔ)言中的多個(gè)單詞的時(shí)候,就可以把它們當(dāng)作短語(yǔ)來處理;
第二,可以使用短語(yǔ)中的局部上下文進(jìn)行多義詞的排歧。例如,在短語(yǔ)interest in中的interest的詞義可判定為“興趣”,在短語(yǔ)interest rate中的interest的詞義可判定為“利息”。
因此,結(jié)合短語(yǔ)知識(shí)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)克服了基于單詞的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的不足。
Koehn P等指出,在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯中,也可以使用柱狀搜索解碼的方法。在Koehn P建立的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)“法老”(Pharaoh)中,就使用了柱狀搜索解碼器來進(jìn)行基于短語(yǔ)的分析[11]。
實(shí)踐證明,這種基于短語(yǔ)的技術(shù),可以改善統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量,但是,當(dāng)短語(yǔ)的長(zhǎng)度擴(kuò)大到3個(gè)以上的單詞時(shí),翻譯系統(tǒng)的性能就很難提高,隨著短語(yǔ)中包含單詞數(shù)目的增大,數(shù)據(jù)稀疏問題會(huì)變的越來越嚴(yán)重。
David Chiang提出基于層次短語(yǔ)的統(tǒng)計(jì)翻譯模型(hierarchical phrase-based model for statistical machine translation)。這種模型的基本思想是,在不干預(yù)基于短語(yǔ)的機(jī)器翻譯方法的前提下,第一遍調(diào)整短語(yǔ)內(nèi)部單詞之間的順序,第二遍再調(diào)整短語(yǔ)與短語(yǔ)之間的順序,短語(yǔ)是由單詞和子短語(yǔ)(subphrase)構(gòu)成的,這樣在短語(yǔ)之內(nèi)就出現(xiàn)了子短語(yǔ)這個(gè)層次。這種基于層次短語(yǔ)的翻譯知識(shí)是從沒有任何句法信息標(biāo)注的雙語(yǔ)語(yǔ)料庫(kù)中通過機(jī)器學(xué)習(xí)(machine learning)獲得的[12]。
這種基于短語(yǔ)的機(jī)器翻譯模型要依靠源語(yǔ)言和目標(biāo)語(yǔ)言的短語(yǔ)對(duì)應(yīng)表(phrase list)來進(jìn)行翻譯,而短語(yǔ)對(duì)應(yīng)表要通過雙語(yǔ)并行語(yǔ)料庫(kù)來自動(dòng)地抽取,為了自動(dòng)地抽取短語(yǔ)對(duì)應(yīng)表,關(guān)鍵問題是要進(jìn)行“短語(yǔ)對(duì)齊”(phrase alignment),為此,Och提出了建造短語(yǔ)“對(duì)齊模板”(alignment templetes)的方法[13-15]。例如,通過德語(yǔ)和英語(yǔ)的雙語(yǔ)言并行語(yǔ)料庫(kù),對(duì)于德語(yǔ)短語(yǔ)drei Uhr Nachmittag(下午3時(shí))和英語(yǔ)短語(yǔ)three o′clock in the afternoon,計(jì)算機(jī)可以自動(dòng)地建造這樣的對(duì)齊模板,如圖7所示。
圖7 德語(yǔ)和英語(yǔ)的短語(yǔ)對(duì)齊模板Fig.7 Phrase alignment template between German and English
其中,T1、T2、T3表示德語(yǔ)drei Uhr Nachmittag(下午3時(shí))中的單詞drei、Uhr、Nachmittag,S1、S2、S3、S4、S5表示英語(yǔ)單詞three、o′clock、in、the、afternoon。T1與S1對(duì)應(yīng),T2與S2對(duì)應(yīng),T3與S3、S4、S5對(duì)應(yīng)。其中,英語(yǔ)的in the afternoon是短語(yǔ),而德語(yǔ)的Nachmittag是單詞,這樣就實(shí)現(xiàn)了短語(yǔ)和單詞的對(duì)齊。所以,這樣的短語(yǔ)對(duì)齊模板對(duì)于基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯是非常有用的。
仿照這樣的短語(yǔ)對(duì)齊模板,還可以在漢語(yǔ)和英語(yǔ)的雙語(yǔ)言并行語(yǔ)料庫(kù)中自動(dòng)地建造如下的模板來實(shí)現(xiàn)漢語(yǔ)短語(yǔ)“在印度人民黨的壓力下”(在模板中用漢語(yǔ)拼音轉(zhuǎn)寫)與英語(yǔ)短語(yǔ)“under pressure from the Indian People′s Party”的對(duì)齊,如圖8所示。
圖8 漢語(yǔ)短語(yǔ)與英語(yǔ)短語(yǔ)的對(duì)齊模板Fig.8 Phrase alignment template between Chinese and English
在圖8中,豎行表示漢語(yǔ)短語(yǔ),橫行表示英語(yǔ)短語(yǔ),漢語(yǔ)的“在”(zai)和“下”(xia)與英語(yǔ)的under對(duì)應(yīng),漢語(yǔ)的“印度”(yindu)與英語(yǔ)的Indian對(duì)應(yīng),“人民”(renmin)與People′s對(duì)應(yīng),“黨”(dang)與Party對(duì)應(yīng),而英語(yǔ)的the在漢語(yǔ)中沒有對(duì)應(yīng)的單詞,這樣,漢語(yǔ)短語(yǔ)的“印度人民黨”就與英語(yǔ)的短語(yǔ)the Indian People′s Party實(shí)現(xiàn)了對(duì)應(yīng),漢語(yǔ)的“的”(de)與英語(yǔ)的from對(duì)應(yīng),漢語(yǔ)的“壓力”(yali)與英語(yǔ)的pressure對(duì)應(yīng)。在對(duì)齊“印度人民黨”這個(gè)短語(yǔ)的時(shí)候,首先對(duì)齊了其中的單詞“印度”、“人民”、“黨”,接著處理了沒有漢語(yǔ)對(duì)應(yīng)單詞的the,然后再實(shí)現(xiàn)短語(yǔ)的對(duì)齊,這意味著,可以首先分別實(shí)現(xiàn)單詞對(duì)齊,然后在單詞對(duì)齊的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)短語(yǔ)對(duì)齊;同樣,“印度人民黨”(the Indian People′s Party)是整個(gè)大的短語(yǔ)中的一個(gè)子短語(yǔ),可以首先實(shí)現(xiàn)子短語(yǔ)的對(duì)齊,然后再實(shí)現(xiàn)整個(gè)短語(yǔ)的對(duì)齊。
在把兩種語(yǔ)言中對(duì)應(yīng)的單詞歸并為對(duì)應(yīng)的短語(yǔ)的時(shí)候應(yīng)該注意保持兩種語(yǔ)言的短語(yǔ)中所包含的單詞的一致性,一定要包含短語(yǔ)中含有的全部單詞,不能有遺漏,也不能超出短語(yǔ)范圍之外,否則,歸并出的短語(yǔ)就是不可靠的。
例如,如果要在西班牙語(yǔ)的短語(yǔ)Maria no和英語(yǔ)的短語(yǔ)Mary did not之間對(duì)齊,由于單詞Maria和單詞Mary單詞是對(duì)應(yīng),單詞no和短語(yǔ)did not也是對(duì)應(yīng)的,因此,可以得到圖9中的第1個(gè)對(duì)齊的結(jié)果,短語(yǔ)中的單詞保持了一致性(圖9中為consistent),這是正確的短語(yǔ)對(duì)齊,如圖9中的第1種情況;如果英語(yǔ)中的單詞只包含Mary和did,不包含not,短語(yǔ)中少了一個(gè)單詞,就不能與西班牙語(yǔ)的短語(yǔ)Maria no保持一致性(圖9中為inconsistent),對(duì)齊的結(jié)果就是錯(cuò)誤的,如圖9中的第2種情況;如果西班牙語(yǔ)短語(yǔ)中再加上一個(gè)dió,也不能與英語(yǔ)的短語(yǔ)Mary did not保持一致性(圖9中為inconsistent),對(duì)齊的結(jié)果也是錯(cuò)誤的,如圖9中的第3種情況。
圖9 保持短語(yǔ)中單詞的一致性Fig.9 Keeping words consistent in phrase
短語(yǔ)對(duì)齊是建立在單詞對(duì)齊的基礎(chǔ)上的,如果得到了單詞對(duì)齊的結(jié)果,就可以在這個(gè)基礎(chǔ)上進(jìn)一步進(jìn)行短語(yǔ)對(duì)齊。例如,在西班牙語(yǔ)-英語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,通過雙語(yǔ)語(yǔ)料庫(kù)的訓(xùn)練,得到了西班牙句子Maria no dió una bofetada a la bruja verde(Maria沒有拍擊綠色的女巫)和英語(yǔ)句子Mary did not slap the green witch的單詞對(duì)齊結(jié)果,如圖10所示,假定這時(shí),西班牙語(yǔ)句子和英語(yǔ)句子中的單詞都達(dá)到了最好的對(duì)應(yīng)。
圖10 西班牙語(yǔ)句子與英語(yǔ)句子的單詞對(duì)齊結(jié)果Fig.10 Words alignment result between Spanish sentence and English sentence
從圖10中可以看出,有些單詞是與短語(yǔ)相對(duì)應(yīng)的。例如,西班牙語(yǔ)中的單詞no與英語(yǔ)中的短語(yǔ)did not相對(duì)應(yīng),英語(yǔ)中的單詞slap與西班牙語(yǔ)中的短語(yǔ)dió una bofetada相對(duì)應(yīng)。有的單詞在對(duì)方的語(yǔ)言中沒有相應(yīng)的對(duì)應(yīng)單詞或短語(yǔ)。例如,西班牙語(yǔ)中的a,就沒有相應(yīng)的英語(yǔ)單詞與它對(duì)應(yīng)。
在圖11中,凡是對(duì)齊了的單詞和短語(yǔ),都用黑色粗線的邊框標(biāo)出。一共有6組:(Maria,Mary),(no,did not),(dió una bofetada,slap),(la,the),(bruja,witch),(verde,green)。
圖11 單詞和短語(yǔ)的對(duì)齊Fig.11 Alignment of words and phrases
在這個(gè)基礎(chǔ)上,在保持西班牙語(yǔ)短語(yǔ)與英語(yǔ)短語(yǔ)一致性的原則下,繼續(xù)進(jìn)行短語(yǔ)對(duì)齊,西班牙語(yǔ)中的a在英語(yǔ)中沒有對(duì)應(yīng)的單詞,把它納入到短語(yǔ)dió una bofetada和單詞la中,得到如下的對(duì)齊短語(yǔ):(dió una bofetada a,slap the),(a la,the),如圖12所示。
圖12 雙語(yǔ)短語(yǔ)對(duì)齊之1Fig.12 Bilingual phrase alignment(1)
還可以進(jìn)一步得到如下的幾組對(duì)齊短語(yǔ):(Maria no,Mary did not),(no dióuna bofetada,did not slap),(dió una bofetada a la,slap the),(bruja verde,green witch),如圖13所示。
圖13 雙語(yǔ)短語(yǔ)對(duì)齊之2Fig.13 Bilingual phrase alignment(2)
然后,還可以得到如下的對(duì)齊短語(yǔ):(Maria no dió una bofetada,Mary did not slap),(a la bruja verde,the green witch),(no dió una bofetada a la,did not slap the),(Maria no dió una bofetada a la,Mary did not slap the),(dió una bofetada a la bruja verde,slap the green witch)。最后,把短語(yǔ)對(duì)齊擴(kuò)大到整個(gè)的句子,得到(Maria no dió una bofetada a la bruja verde,Mary did not slap the green witch),如圖14所示。
在使用對(duì)齊模板在雙語(yǔ)言并行語(yǔ)料庫(kù)中進(jìn)行雙語(yǔ)的短語(yǔ)對(duì)齊時(shí),可能會(huì)產(chǎn)生很多的對(duì)齊短語(yǔ)偶對(duì),這時(shí)可以使用短語(yǔ)中的高頻詞來過濾掉一些多余的短語(yǔ)偶對(duì)。如果一個(gè)源語(yǔ)言的短語(yǔ)對(duì)應(yīng)于目標(biāo)語(yǔ)言中的若干個(gè)短語(yǔ),就會(huì)產(chǎn)生對(duì)齊的歧義,當(dāng)出現(xiàn)歧義短語(yǔ)偶對(duì)時(shí),可以根據(jù)上下文來排歧。
圖14 雙語(yǔ)短語(yǔ)對(duì)齊之3Fig.14 Bilingual phrase alignment(3)
如果使用這樣的方法從雙語(yǔ)語(yǔ)料庫(kù)中提取出對(duì)齊的短語(yǔ),建成雙語(yǔ)言的“短語(yǔ)對(duì)應(yīng)表”,在進(jìn)行基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯時(shí),首先將源語(yǔ)言句子切分成短語(yǔ)串,然后將這些源語(yǔ)言中的短語(yǔ)串,按照雙語(yǔ)言的短語(yǔ)對(duì)應(yīng)表進(jìn)行映射,把它們映射成目標(biāo)語(yǔ)言中相對(duì)應(yīng)的短語(yǔ),最后對(duì)目標(biāo)語(yǔ)言的短語(yǔ)串進(jìn)行排序,得到目標(biāo)語(yǔ)言的輸出。雙語(yǔ)言的短語(yǔ)中包含了局部的單詞選擇和單詞的局部順序以及很多的習(xí)慣表達(dá)和搭配信息,這些是基于單詞的統(tǒng)計(jì)機(jī)器翻譯不具備的。由于引入了短語(yǔ)的語(yǔ)言信息,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯(PBSMT)在性能上超過了基于單詞的統(tǒng)計(jì)機(jī)器翻譯(WBSMT),所以基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)受到了機(jī)器翻譯研究者的歡迎。
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯盡管優(yōu)于基于單詞的統(tǒng)計(jì)機(jī)器翻譯,但是,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯只考慮短語(yǔ)本身的信息,并沒有考慮短語(yǔ)與短語(yǔ)之間的句法關(guān)系,因此,在機(jī)器翻譯時(shí),難以處理短語(yǔ)之間重新排序的問題。例如,在把英語(yǔ)中的SVO(主-動(dòng)-賓)結(jié)構(gòu)轉(zhuǎn)換成日語(yǔ)中的SOV(主-賓-動(dòng))結(jié)構(gòu)時(shí)必須進(jìn)行重新排序,這種情況使得基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯感到困惑;對(duì)于在短語(yǔ)之間的長(zhǎng)距離依存關(guān)系(long distance dependency),基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯也常常感到捉襟見肘,難以對(duì)付。
由于基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的這些不足,學(xué)者們希望通過引入句法信息來解決這些問題,2001年Yamada K和Knight K提出了基于句法的統(tǒng)計(jì)機(jī)器翻譯(syntax-based SMT,簡(jiǎn)稱SBSMT)[16]。
在他們的機(jī)器翻譯系統(tǒng)中,輸入是源語(yǔ)言的句法樹,輸出是目標(biāo)語(yǔ)言的句子。因此,源語(yǔ)言必須經(jīng)過自動(dòng)句法剖析,得到了句法樹之后,才作為初始的輸入進(jìn)入統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)SBSMT。
基于句法的統(tǒng)計(jì)機(jī)器翻譯過程分為如下幾個(gè)步驟:
1)調(diào)序(reorder):輸入樹形圖中的每個(gè)子樹需要根據(jù)它們的概率重新排列,進(jìn)行順序的調(diào)整。
2)插入(insert):在子樹結(jié)點(diǎn)的左邊或右邊隨機(jī)插入恰當(dāng)?shù)墓δ茉~,插入時(shí),左插入、右插入和不插入的概率取決于父結(jié)點(diǎn)和當(dāng)前結(jié)點(diǎn)的標(biāo)記,所插入單詞的概率只與該單詞本身有關(guān),與位置無關(guān)。
3)翻譯(translation):根據(jù)詞對(duì)詞的翻譯概率,把樹形圖中每一個(gè)葉子結(jié)點(diǎn)上的單詞翻譯為目標(biāo)語(yǔ)言的相應(yīng)單詞。
4)輸出(output):輸出譯文句子。
例如,應(yīng)用SBSMT方法,把英語(yǔ)句子He adores listening to music翻譯為日語(yǔ)的過程如下:
首先,對(duì)于英語(yǔ)句子進(jìn)行自動(dòng)剖析,得到如下的樹形圖,如圖15所示。
圖15 輸入樹形圖Fig.15 Input tree graph
然后,根據(jù)英語(yǔ)與日語(yǔ)雙語(yǔ)言并行語(yǔ)料庫(kù)中關(guān)于英語(yǔ)和日語(yǔ)調(diào)序(reorder)關(guān)系的概率,對(duì)于輸入樹形圖中的子樹重新排列,把VB1移動(dòng)到VB2之后,在以VB2為父結(jié)點(diǎn)的子樹中,把結(jié)點(diǎn)VB移動(dòng)到結(jié)點(diǎn)TO之后,在以TO為父結(jié)點(diǎn)的子樹中,把結(jié)點(diǎn)TO移動(dòng)到結(jié)點(diǎn)NN之后,得到的結(jié)果如圖16所示。
圖16 調(diào)序Fig.16 Reorder
經(jīng)過調(diào)序之后,樹形圖中的子樹已經(jīng)具有了日語(yǔ)的順序,再根據(jù)日語(yǔ)語(yǔ)法的規(guī)則,插入日語(yǔ)的功能詞(如格助詞、助動(dòng)詞等),把它們添加到樹形圖的有關(guān)結(jié)點(diǎn)上,得到的結(jié)果如圖17所示。
圖17 插入日語(yǔ)功能詞Fig.17 Inserting Japanese functional words
最后,根據(jù)詞對(duì)詞的翻譯概率,把樹形圖葉子結(jié)點(diǎn)上的英語(yǔ)翻譯為日語(yǔ),得到的結(jié)果如圖18。かれはぉんがくをきくのがたぃすきです。
圖18 翻譯葉子結(jié)點(diǎn)上的英語(yǔ)為日語(yǔ)Fig.18 Translating English words on the leafs to Japanese word
順次取出葉子結(jié)點(diǎn)上的單詞,得到日語(yǔ)的譯文:
最后,再把有關(guān)的假名符號(hào)轉(zhuǎn)寫為日語(yǔ)漢字,就得到可讀性強(qiáng)的日語(yǔ)譯文如下:
彼は音樂を聞くのが大好きです。
從這個(gè)例子中可以看出,在基于句法的統(tǒng)計(jì)機(jī)器翻譯中,需要進(jìn)行3種操作:
1)調(diào)序操作(Reordering operation):調(diào)整句子中符號(hào)串(在樹形圖中表現(xiàn)為子樹)的順序,把源語(yǔ)言符號(hào)串的順序A1A2A3調(diào)整為目標(biāo)語(yǔ)言符號(hào)串的順序A1A3A2。其公式為
2)插入操作(Insertion operation):在符號(hào)串A1的前面或后面插入功能詞w。其公式為
3)翻譯操作(Translating operation):把源語(yǔ)言的單詞x翻譯為目標(biāo)語(yǔ)言的單詞y。其公式為
上述操作的統(tǒng)計(jì)知識(shí)通過訓(xùn)練雙語(yǔ)言并行語(yǔ)料庫(kù)來獲取,建立不同的模型參數(shù)表(model parameter tables)。
為了進(jìn)行調(diào)序操作,需要建立調(diào)序表(reordered table,簡(jiǎn)稱r-table),如圖19所示。
圖19 調(diào)序表Fig.19 Reorder table
在調(diào)序表r-table中,記錄著調(diào)序規(guī)則的概率P(reorder),第1列表示原詞序(original order),第2列表示可能的調(diào)序結(jié)果(reordering),第3列表示相應(yīng)的調(diào)序概率P(reorder)。對(duì)于符號(hào)串PRP VB1 VB2調(diào)序時(shí),存在著多種可能性:PRP VB1 VB2(保持原來順序),PRP VB2 VB1,VB1 PRP VB2,VB1 VB2 PRP,VB2 PRP VB1,VB2 VB1 PRP等,其中,調(diào)序?yàn)镻RP VB2 VB1的概率最大,為0.732,故選擇調(diào)序?yàn)镻RP VB2 VB1,也就是把VB2移動(dòng)到VB1之前。同理,把VB TO調(diào)序?yàn)門O VB,因?yàn)檫@種調(diào)序的概率最大,為0.749;把TO NN調(diào)序?yàn)镹N TO,因?yàn)檫@種調(diào)序的概率最大,為0.893。
為了進(jìn)行插入操作,需要建立結(jié)點(diǎn)表(node table,簡(jiǎn)稱n-table)。
圖20的結(jié)點(diǎn)表分左右兩個(gè),分別叫做n-table(1)和n-table(2)。
圖20 結(jié)點(diǎn)表Fig.20 Node table
n-table(1)記錄著非終極符號(hào)插入樹形圖中有關(guān)結(jié)點(diǎn)上的概率。
例如,當(dāng)父結(jié)點(diǎn)(parent)為TOP(句子的頂點(diǎn)),當(dāng)前結(jié)點(diǎn)(node)為VB時(shí),如果不插入任何單詞,保持原狀[P(NONE)],那么,其插入概率為0.735,記為
P(None|Parent=TOP,Node=VB)=0.735。
又如,當(dāng)父親結(jié)點(diǎn)VB,當(dāng)前結(jié)點(diǎn)為PRP,而且在PRP中插入的單詞は處于子樹的右側(cè)時(shí),其插入概率為0.652,記為
P(Right|Parent=VB,Node=PRP)=0.652。
圖18的樹形圖中的8個(gè)非終極結(jié)點(diǎn)上,分別有8個(gè)非終極符號(hào):VB,PRP,VB2,VB1,TO,VB,NN,TO,它們都分別要進(jìn)行插入操作,所以一共需要進(jìn)行8個(gè)插入操作,其中有4個(gè)插入操作都在右側(cè)插入了功能詞。
此外還要考慮功能詞本身的插入概率,n-table(2)記錄著各個(gè)功能詞的概率:
為了進(jìn)行翻譯操作,需要建立翻譯表(translation table,簡(jiǎn)稱t-table)。在t-table中記錄著源語(yǔ)言單詞翻譯為目標(biāo)語(yǔ)言單詞的概率。
最后還需要計(jì)算調(diào)序-插入-翻譯的聯(lián)合概率。
這個(gè)機(jī)器翻譯系統(tǒng)使用英語(yǔ)-日語(yǔ)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,包括例句2 121對(duì),日語(yǔ)平均句長(zhǎng)9.7詞,英語(yǔ)平均句長(zhǎng)6.9詞,詞典中英語(yǔ)3 463詞,日語(yǔ)3 983詞。他們使用Brill的詞性標(biāo)注器(Brill’s POS Tagger)和Collins的剖析器(Collins’Parser)進(jìn)行句法剖析,使用中心詞詞性標(biāo)記提取短語(yǔ)標(biāo)記,合并中心詞相同的句法子樹從而壓扁句法樹。
經(jīng)過測(cè)試,該系統(tǒng)明顯地優(yōu)于IBM公司的基于噪聲信道模型的統(tǒng)計(jì)機(jī)器翻譯模型??梢?,在統(tǒng)計(jì)機(jī)器翻譯中使用句法信息有助于譯文質(zhì)量的提高。
基于規(guī)則的機(jī)器翻譯方法是一種理性主義的方法(rationalist approach),基于統(tǒng)計(jì)的機(jī)器翻譯方法是一種經(jīng)驗(yàn)主義的方法(empiricist approach),基于短語(yǔ)和句法的統(tǒng)計(jì)機(jī)器翻譯,把短語(yǔ)規(guī)則、句法規(guī)則融入統(tǒng)計(jì)機(jī)器翻譯中,從而把基于規(guī)則的機(jī)器翻譯方法與基于統(tǒng)計(jì)的機(jī)器翻譯方法結(jié)合起來,把理性主義方法與經(jīng)驗(yàn)主義方法結(jié)合起來,讓這兩種方法取長(zhǎng)補(bǔ)短,相得益彰,這是機(jī)器翻譯發(fā)展的正確方向。
近年來,在統(tǒng)計(jì)機(jī)器翻譯中,又開始使用深度機(jī)器學(xué)習(xí)的方法,讓計(jì)算機(jī)自動(dòng)地學(xué)習(xí)自然語(yǔ)言中的抽象特征表示,自動(dòng)地建立輸入信號(hào)與輸出信號(hào)之間的復(fù)雜的映射關(guān)系,這種深度學(xué)習(xí)方法,給統(tǒng)計(jì)機(jī)器翻譯提供了新的思路[17]。
[1]馮志偉.機(jī)器翻譯研究[M].北京:中國(guó)對(duì)外翻譯出版公司,2004.
[2]馮志偉.機(jī)器翻譯-從夢(mèng)想到現(xiàn)實(shí)[J].中國(guó)翻譯,1999(4):37-40.
[3]馮志偉.機(jī)器翻譯-從夢(mèng)想到現(xiàn)實(shí)[J].中國(guó)翻譯,1999(5):52-55.
[4]馮志偉.自然語(yǔ)言處理中的哲學(xué)問題[J].心智與計(jì)算,2007,1(3):333-353.
[5]Brown P F,John C,Della Pietra S A,et al.A Statistical Approach to Machine Translation[J].Computational Linguistics,1990,16(2):79-85.
[6]梁華參.基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型訓(xùn)練中若干關(guān)鍵問題的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[7]熊德意,劉群,林守勛.基于句法的統(tǒng)計(jì)機(jī)器翻譯綜述[J].中文信息學(xué)報(bào),2008,22(2):28-39.
[8]劉群.漢英機(jī)器翻譯若干關(guān)鍵技術(shù)研究[M].北京:清華大學(xué)出版社,2008.
[9]Weaver W.Warren Weaver's memorandum in 1949:Translation,Milestones in machine Translation[C]//Locke W N,Booth A D. Machine Translation of languages:fourteen essays,Cambridge,Mass:MIT Press,1955:15-23.
[10]Brown P F,Della Pietra S A,Della Pietra V J,et al.The mathematics of statistical machine translation:parameter estimation[J]. Computational Linguistics,1993,19(2):263-311.
[11]Koehn P.Pharaoh:A beam search decoder for phrase-based statistical machine translation models[C]//Proceedings of the 6th Conference of the Association for machine translation in the Americas,Los Angeles,2004:115-124.
[12]Chiang D.Hierarchical phrase-based translation[J].Computational Linguistics,2007,33(2):201-228.
[13]Och F J,Tillmann C,Ney H.Improved alignment models for statistical machine translation[C]//Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora,University of Maryland,College Park,MD,USA,1999:20-28.
[14]Och F J,Ney H.Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics(ACL),Baltimore,Maryland,USA,2002:295-302.
[15]Och F J,Gildea D,Khudanpur S,et al.Final Report of John Hopkins 2003SummerWorkshoponSyntaxforStatistical MachineTranslation[M].Baltimore:PressofHopkins University,2003.
[16]Yamada K,Knight K.A Syntax-Based Statistical Translation Model[C]//Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL),Toulouse,F(xiàn)rance,2001:23-27.
[17]馮志偉.《統(tǒng)計(jì)機(jī)器翻譯》述評(píng)[J].外語(yǔ)教學(xué)與研究,2013,45(4):629-633.Phrase-based and syntax-based statistical machine translation
FENG Zhi-wei
(School of Foreign Languages,Hangzhou Normal University,Hangzhou,Zhejiang 311121,China)
The development process of statistical machine translation(SMT)is described in this paper,and the noisy channel model in SMT,phrase-based SMT and syntax-based SMT are introduced.In order to give impetus to MT,the rationalist approach and the empiricist approach should be combined.
machine translation;statistical machine translation;noisy channel model;rationalist approach;empiricist approach
TP391
A DOI:10.3969/j.issn.1007-791X.2015.06.013
1007-791X(2015)06-0546-10
2015-03-20
*馮志偉(1939-),男,云南昆明人,教授,博士生導(dǎo)師,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、計(jì)算語(yǔ)言學(xué),Email:zwfengde2010@ hotmail.com。