機(jī)器翻譯實(shí)現(xiàn)過程中會(huì)涉及到形態(tài)自動(dòng)分析方法、各種句法分析、語義分析等分析方法,是機(jī)器翻譯譯文質(zhì)量的關(guān)鍵環(huán)節(jié)。
形態(tài)自動(dòng)分析
形態(tài)自動(dòng)分析主要包括詞例還原、詞目還原、詞性標(biāo)注和詞性消歧四步驟。
詞例還原是指自動(dòng)分割出一個(gè)句子當(dāng)中所有的單詞。英文中,詞與詞之間一般會(huì)有空格隔開,分割并非難事。如果是漢語,詞例還原用自動(dòng)分詞方法即可。通過詞例還原以后,句子當(dāng)中符號(hào)串變成詞例串,便利了形態(tài)分析過程。
詞目還原是把詞的變體形式還原成單詞詞典存儲(chǔ)形式。這里詞目是指變體形式單詞,例如把復(fù)數(shù)形式單詞還原成單數(shù)形式(如translators- translator),把動(dòng)詞的過去式或進(jìn)行式改回動(dòng)詞原形(如translated-translate),把形容詞的比較級(jí)改為沒有比較級(jí)時(shí)候形式(如easier-easy)。
詞性標(biāo)注是指為每個(gè)單詞指派一個(gè)詞類或詞匯類別進(jìn)行標(biāo)記。詞性標(biāo)注與詞目還原均是形態(tài)分析最重要內(nèi)容,同時(shí)詞性標(biāo)注在語音識(shí)別技術(shù)與信息檢索技術(shù)中發(fā)揮重要作用。
詞性標(biāo)注難度大,歧義單詞較多。值得慶幸的是,40%歧義單詞可以消除歧義。詞性消歧是指消除詞的歧義性,具體是指詞多義性,多時(shí)態(tài)性。
自動(dòng)句法分析
自動(dòng)句法分析方法很多,例如基于上下文無關(guān)語法、基于特征結(jié)構(gòu)、基于依存語法、基于轉(zhuǎn)移網(wǎng)絡(luò)等,簡(jiǎn)要介紹一下基于轉(zhuǎn)移網(wǎng)絡(luò)自動(dòng)句法分析。
轉(zhuǎn)移網(wǎng)絡(luò)主要包括遞歸轉(zhuǎn)移網(wǎng)絡(luò)和擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)兩種。由于語言中嵌套結(jié)構(gòu)比較復(fù)雜,有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)難以處理這種情況,所以必須對(duì)有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)做一些改進(jìn),便出現(xiàn)了遞歸性轉(zhuǎn)移網(wǎng)絡(luò)。遞歸性網(wǎng)絡(luò)是有限轉(zhuǎn)移網(wǎng)絡(luò)擴(kuò)充來的,是把單個(gè)弧用一個(gè)弧串表示,再用子網(wǎng)絡(luò)表示這個(gè)弧串。然后通過子網(wǎng)絡(luò)的名稱來調(diào)用并遍歷此弧串,從而變成遞歸性網(wǎng)絡(luò)。遞歸性轉(zhuǎn)移網(wǎng)絡(luò)自身局限性是該網(wǎng)路不能處理好詞序調(diào)整問題。有時(shí)候源語言與目標(biāo)語言的詞序恰好相反,例如源語言修飾詞在前,但是目標(biāo)語言的修飾詞在后,這時(shí)候必須要把相應(yīng)修飾詞對(duì)應(yīng)起來,這樣一來在網(wǎng)絡(luò)一側(cè)分析源語言的修飾詞,在網(wǎng)絡(luò)另一側(cè)還要生成對(duì)應(yīng)目標(biāo)語言的修飾詞。顯然,這要增加弧才能處理這個(gè)問題,如果修飾詞不止一個(gè),那么遞歸性網(wǎng)絡(luò)分析變得很復(fù)雜。其實(shí)解決這個(gè)問題關(guān)鍵在于對(duì)源語言前置修飾詞翻譯的時(shí)候,對(duì)所修飾的名詞進(jìn)行翻譯成目標(biāo)語言所對(duì)應(yīng)名詞之后,把翻譯的修飾詞置于目標(biāo)語言名詞之后。
語義自動(dòng)分析
語義分析法有很多,例如句法驅(qū)動(dòng)語義分析、淺層語義分析、語義語法等。語義分析通常分為四個(gè)步驟:把詞的一階謂詞驗(yàn)算表達(dá)式附著至樹形圖的詞匯單元之上;把樹形圖無分叉子樹子女節(jié)點(diǎn)上語義值復(fù)制給父母節(jié)點(diǎn);把類似函數(shù)的一個(gè)表達(dá)式附著至句子中心動(dòng)詞之上,然后用該表達(dá)式處理此動(dòng)詞的一個(gè)或者多個(gè)子女節(jié)點(diǎn);將帶有邏輯量詞的表達(dá)式用復(fù)雜項(xiàng)處理,并將處理的表達(dá)式作為一個(gè)單獨(dú)項(xiàng)處理。
句法驅(qū)動(dòng)語義分析是基于組成性原則方法,弗雷格認(rèn)為:句子的含義可以是句子幾個(gè)部分意義組合而成。即句子由詞組成,各個(gè)單詞的含義組合當(dāng)然是句子代表的意義。值得思考的是,一個(gè)句子含義不僅依賴各個(gè)詞的含義,還與詞的順序以及詞與詞之間的關(guān)系有關(guān),與句法結(jié)構(gòu)有關(guān)。所以從句法角度驅(qū)動(dòng)語義分析,是該分析法基本依據(jù),大致流程是:對(duì)輸入句子經(jīng)過剖析器進(jìn)行句法分析,把結(jié)果作為語義分析器輸入,經(jīng)過語義分析器后便把其結(jié)果作為輸出。該過程被稱為“管道流方法”。句法驅(qū)動(dòng)語義分析用到組成性原則時(shí)候,語義組成成分應(yīng)和句法組成成分匹配。
語用自動(dòng)分析
語用自動(dòng)分析中語用指的是語言和使用所處環(huán)境之間的關(guān)系。這里使用所處環(huán)境包括話語上下文、人和物。其涉及到話語結(jié)構(gòu)、聽話者如何理解話語對(duì)象以及語言指示或者回指人和物的內(nèi)容。語用分析主要有所指判定和文本連貫的分析方法。
所指判定是對(duì)所指語判定所指對(duì)象過程。一般句子與句子之間均存在某種關(guān)聯(lián),并非孤立存在的,而有時(shí)候靠單獨(dú)句子根本不能理解所指對(duì)象。例如“Tim told Tom that he had passed the examination”的he是指Tim還是指Tom?無法判定。如果前面有語句“Tom was worried about his examination”,則可以斷定he是指Tom。一般采用折半加權(quán)算法來判定代詞所指對(duì)象,具體過程為:(1)搜集所有可能所指對(duì)象;(2)排除和代詞在數(shù)、性不一致和句內(nèi)句法同指約束的所指對(duì)象;(3)把話語模型在更新階段計(jì)算的顯著值和使用角色平行和提前指代的代詞顯著權(quán)重值相加,并計(jì)算所指對(duì)象總的顯著值;(4)選擇顯著值最高所指對(duì)象作為最終代詞指代對(duì)象。如果有顯著值相同則選擇靠的最近(指字符串位置)所指對(duì)象作為最終代詞指代對(duì)象。
溯因推理既然是基于不可靠推理,那么就需要找出一種最佳解釋。一種策略是基于概率模型,通過計(jì)算相關(guān)概率參數(shù)來選出最佳解釋,不過概率模型前提需要一些事件語料庫,否則會(huì)出問題。另一種策略是基于啟發(fā)式策略。把假設(shè)數(shù)目最少的作為最佳解釋,也可以把最具體的輸入特征作為最佳解釋。第三種策略是基于概率模型和啟發(fā)式策略的混合策略。文本連貫中計(jì)算機(jī)模型構(gòu)建十分重要,但現(xiàn)有推理方法難以覆蓋范圍更廣的應(yīng)用領(lǐng)域,有待進(jìn)一步研究。
(作者單位:遼寧省機(jī)電工程學(xué)校)