黨莎莎,龔小濤
(西安航空職業(yè)技術(shù)學(xué)院 通識教育學(xué)院,西安 710089)
近些年,伴隨教育、科技的不斷發(fā)展,機(jī)器翻譯應(yīng)用產(chǎn)品的數(shù)量也越來越多[1],這些應(yīng)用主要集中在學(xué)術(shù)文獻(xiàn)、搜索引擎等外文翻譯方面。因此,機(jī)器翻譯技術(shù)有著龐大的市場應(yīng)用需求,發(fā)展前景較好。以往的機(jī)器翻譯技術(shù)或多或少有些弊端,翻譯的精準(zhǔn)性太低,是阻礙機(jī)器翻譯技術(shù)進(jìn)一步發(fā)展的巨大瓶頸。在實(shí)際的機(jī)器翻譯產(chǎn)品測試環(huán)節(jié),比如百度、GOOGLE翻譯軟件,翻譯結(jié)果和實(shí)際專業(yè)人工翻譯的質(zhì)量相差較大[2],暴露出現(xiàn)有的機(jī)器翻譯水平已經(jīng)無法適應(yīng)當(dāng)前翻譯需求的狀況,市場亟需一款高性能、翻譯準(zhǔn)確率高的機(jī)器翻譯技術(shù)。得益大數(shù)據(jù)的發(fā)展,許多研究者尋求通過計算機(jī)輔助翻譯(computer aided translation,CAT)來幫助完成翻譯工作。計算機(jī)輔助翻譯的核心思想是:翻譯的結(jié)果通常被當(dāng)成輔助性的參考,最后是由用戶來判斷翻譯的優(yōu)劣,進(jìn)行人工選擇;另外一方面對語料庫的運(yùn)用,能夠把各個行業(yè)領(lǐng)域的詞匯進(jìn)行歸類整理,讓翻譯的質(zhì)量得到改進(jìn),更加貼近用戶的實(shí)際需求[3]。合理使用翻譯頻數(shù)較高的專業(yè)詞匯語料庫能夠很大程度地、較少重復(fù)、翻譯工作量,而且還能極大提高翻譯的準(zhǔn)確性。
周亞婷[4]分析了英語篇章機(jī)器翻譯符合單位屬于句號局的特性,其單位為NT小句,對其翻譯單位體系中的PTA模型實(shí)現(xiàn)了英漢翻譯的過程,實(shí)現(xiàn)面向篇章翻譯英漢小句語料庫的建設(shè),對其中的PTA模型進(jìn)行了詳細(xì)的講解,彰顯了語料庫的重要性。盧蓉[5]改進(jìn)了傳統(tǒng)基于規(guī)則的機(jī)器翻譯模型,使用基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型,在具體的實(shí)現(xiàn)過程中,使用基于向量混合的短語合成語義統(tǒng)計英語機(jī)器翻譯方法,在翻譯相似度模型的度量過程中,使用余弦相似度計算方法獲取兩個向量的語義相似度,加入加權(quán)向量法計算規(guī)則辨別兩個相似向量的不同之處,獲取精準(zhǔn)翻譯的結(jié)果,保證翻譯的質(zhì)量。黃登嫻[6]克服了采用管道式逐層分析技術(shù)對機(jī)器翻譯進(jìn)行解析,將切分的短語單詞與短語語料庫對比分析詞性和句法,進(jìn)一步獲得待翻譯的英文的句法結(jié)構(gòu)的方法錯誤具有逐步傳遞和累積,最終導(dǎo)致翻譯準(zhǔn)確率較低的弊端,設(shè)計基于知網(wǎng)的詞匯語義相似度以及對數(shù)線性模型,采用漢英依存樹到串的方式保存對應(yīng)的雙語語料,提供對語言依存結(jié)構(gòu)化的處理,確保漢英雙語的對應(yīng)關(guān)系,計算知網(wǎng)運(yùn)算輸入需要翻譯句子同實(shí)例庫內(nèi)源語言中詞匯的語義相似度,進(jìn)一步提高了翻譯的準(zhǔn)確率,翻譯結(jié)果具備較高的準(zhǔn)確性。
經(jīng)過對以上文獻(xiàn)的總結(jié),發(fā)現(xiàn)在翻譯過程中某個句子的短語包含的語義通常是這個句子中的核心內(nèi)容,對短語的智能識別是語言識別中重要的環(huán)節(jié),其原理就是通過對句子中的短語進(jìn)行識別匯總,然后分析短語的詞性和句法,對照短語語料庫進(jìn)行翻譯和自動組合,最終得到原文句子的翻譯結(jié)果[7]。在機(jī)器翻譯領(lǐng)域,短語的智能識別是關(guān)鍵技術(shù),可以滿足翻譯樣本的選調(diào)、平行語料的精確對齊,采用短語智能識別的技術(shù)能夠有效減少語法上的歧義。結(jié)構(gòu)歧義是當(dāng)前英語翻譯領(lǐng)域中的難點(diǎn),需要運(yùn)用詞性識別算法來解決,本文使用基于改進(jìn)的GLR[8](generalized maximum likelihood ratio,廣義最大似然比檢測,簡稱GLR)算法的機(jī)器翻譯算法,該算法構(gòu)建標(biāo)記規(guī)模約74萬個英漢單詞的短語語料庫,使短語具備可搜索功能,通過短語中心點(diǎn)構(gòu)建短語結(jié)構(gòu),可獲得詞性識別結(jié)果,依據(jù)解析線性表的句法功能校正詞性識別結(jié)果中的英漢結(jié)構(gòu)歧義,最終獲得識別的內(nèi)容,確定翻譯中短語的實(shí)際位置范圍,以期一定程度上緩解結(jié)構(gòu)歧義在當(dāng)前英語翻譯領(lǐng)域中的弊端,提高短語識別的效率。
語料庫在智能英語翻譯模型中扮演了重要的角色,將雙語短語資料存儲在語料庫中,能夠?qū)h語、英語中的短詞語的詞性進(jìn)行精準(zhǔn)的標(biāo)注,規(guī)范每個短語的功能,能夠大幅度地提高英漢機(jī)器翻譯過程中的短語自動識別算法的精確性和時效性[9],協(xié)助英漢機(jī)器翻譯地更加準(zhǔn)確。眾所周知,通常的英漢機(jī)器翻譯都是將長句轉(zhuǎn)換成多對短詞語形式,然后匹配語料庫中的語料,采用打分算法評估翻譯后的上下文環(huán)境和相應(yīng)的翻譯短語的優(yōu)劣,加大標(biāo)記范圍等方法能有效提升得分,這也是一些新興的算法創(chuàng)新的思路,最終形成機(jī)器翻譯的結(jié)果。所以,構(gòu)建的短語語料庫的整體功效對機(jī)器翻譯算法有著至關(guān)重要的作用。圖1對短語語料庫信息的流程進(jìn)行了展示。
本文基于智能識別的英語翻譯模型構(gòu)造的短語語料庫包含了74萬個單詞,能夠滿足構(gòu)造2.2萬個句子、1.2萬個短語的需求,從圖1中的短語語料庫信息可以看出,短語語料庫是具有針對性的,本文選用的是英漢機(jī)器翻譯的短語語料庫,分別對英漢的短語語料進(jìn)行了標(biāo)注,區(qū)分了不同短語語料的時態(tài);語料的標(biāo)記方式由數(shù)據(jù)、層次和加工方式三個部分組成,數(shù)據(jù)的類型是文本格式,層次選用了詞性和對齊的方式,加工方式采用人機(jī)主動溝通方式直接互動,進(jìn)行英文翻譯的一系列常規(guī)流程操作,促使短語語料翻譯的準(zhǔn)確性。
圖1 短語語料庫信息流程
短語的詞性識別是機(jī)器翻譯智能識別算法中關(guān)鍵的核心步驟,能夠?qū)Υ罅康木渥印⒍陶Z、單詞的語法歧義進(jìn)行處理[10]。通過對短語語料庫中內(nèi)容進(jìn)行詞性標(biāo)注,每個語句都會劃分為數(shù)個單詞,對于英文句子,每個單詞都是獨(dú)立的存在,中文語句需要進(jìn)行“分詞”處理,處理后的單詞經(jīng)過對齊處理后形成了短語,其間通過對翻譯句子上下文的判斷會標(biāo)記單詞的詞性,最后通過句法分析短語的依存關(guān)系,形成句子的句法樹。通過這種方法使得機(jī)器翻譯的時效性和準(zhǔn)確性提升,另外還使得短語語料庫的處理能力得到顯著增加。GLR算法是詞性識別當(dāng)中常用的一種算法,主要用于判斷短語前后文關(guān)系,其核心理論是基于動態(tài)識別表單和無條件轉(zhuǎn)移語句[11]。
經(jīng)典的GLR算法每個步驟的運(yùn)轉(zhuǎn)都是使用多種移位指令和精簡的操作,期間的每個操作的開端和終端都是使用特使的標(biāo)準(zhǔn)來展示。在進(jìn)行短語翻譯的過程中,當(dāng)GLR算法沒有檢測到語法歧義的狀況,就會重新開始進(jìn)行去重和校準(zhǔn)操作;如果檢測到語法歧義,就需要使用句法分析的幾何結(jié)構(gòu)線性表來對解析線性表進(jìn)行調(diào)取,對短語的內(nèi)容展開識別,根據(jù)局部最優(yōu)原則提供最優(yōu)的內(nèi)容,輸送至不同的識別通道中進(jìn)行符號的識別,根據(jù)識別的結(jié)果選擇最優(yōu)的結(jié)果。
通常情況下,由于GLR算法在詞性識別的結(jié)果中存在較大的偶然性,識別的數(shù)據(jù)點(diǎn)重合概率較高,仍然無法滿足現(xiàn)有的詞性識別精確度[12]。本文對經(jīng)典的GLR算法進(jìn)行了改進(jìn),提出使用短語中心來分析短語的結(jié)構(gòu),有效降低了數(shù)據(jù)點(diǎn)重合的概率,提升了詞性識別的精確度。改進(jìn)的GLR算法對短語前后文的似然性計算借助四元集群來實(shí)現(xiàn),算法如式(1)所示:
GE=(VN,VT,S,α)
(1)
在式(1)中,VN代表循環(huán)符號集群,VN≠φ;VT代表終止符號集群,VT≠φ且VT與VN中的元素不重合;S代表開始符號集群,是VN中的元素;α代表短語動作集群。
假設(shè)P是α中的任意動作且P又存在于VN中,經(jīng)過推導(dǎo)可以得到式(2):
P→{θ,c,x,δ}
(2)
在式(2)中,θ,c,x,δ分別代表動作右側(cè)符號、中心點(diǎn)符號、約束值和標(biāo)記方式,θ和c同時位于VT與VN中,δ可位于VT中,也可位于VN中。
改進(jìn)的GLR算法規(guī)定識別結(jié)果線性表最上面的符號與θ一致,約束值x需為真,中心點(diǎn)符號c需數(shù)值,不能為空值。只有達(dá)到了以上3個標(biāo)準(zhǔn)的識別結(jié)果,才是短語詞性識別的結(jié)果。
目前現(xiàn)行的英漢機(jī)器翻譯算法中,對切分的短語與短語語料庫匹配得到的結(jié)果往往作為最終的機(jī)器翻譯結(jié)果,缺乏對短語所處的上下文環(huán)境的分析,過分依賴短語語料庫的詞性分析,導(dǎo)致最終的翻譯結(jié)果不夠準(zhǔn)確[13]。因此本文進(jìn)一步考慮對詞性分析的結(jié)果進(jìn)行校正處理。在對改進(jìn)的GLR算法進(jìn)行詞性分析校正的過程中,針對GLR算法使用解析線性表對短語進(jìn)行詞性識別的結(jié)果中出現(xiàn)錯誤點(diǎn)的狀況,校正過程通過核對短語語料庫中的標(biāo)記內(nèi)容進(jìn)行,詳細(xì)的短語校正算法流程如圖2所示。
圖2 智能識別算法校正流程圖
從圖2中可以看到歸約與推進(jìn)指標(biāo)的關(guān)系,具體的關(guān)系如表1所示。
在改進(jìn)的GLR算法運(yùn)行的過程中,對終止符展開更換前,要先識別指針的類型,如果是規(guī)約指針,需要檢測指針的約束條件是否存在于短語語料庫中;如果不存在,就直接進(jìn)入終止指針。終止指針一般會出現(xiàn)在有結(jié)構(gòu)歧義的后備點(diǎn)的位置上,當(dāng)查詢到終止指針后,就會形成短語結(jié)構(gòu)樹,然后標(biāo)記符號棧,研究后備點(diǎn)的中心點(diǎn)符號是不是有,是不是放置在準(zhǔn)確的語句結(jié)構(gòu)上,如果沒有或者放置不正確,那算法就會調(diào)用出錯指針,進(jìn)行校正詞性的識別結(jié)果[14]。
表1 歸約與推進(jìn)指令的比較表
為了驗(yàn)證改進(jìn)后的GLR算法的實(shí)際英漢翻譯效果,需要進(jìn)行相關(guān)的測評,展示改進(jìn)的GLR算法的性能,測評的英漢翻譯任務(wù)主要性能指標(biāo)包括:翻譯精度、翻譯速度、更新能力。實(shí)驗(yàn)的測評小組由專業(yè)的英漢翻譯人員、3臺英漢翻譯機(jī)器和專業(yè)的評分人員組成,其中三臺英漢翻譯機(jī)器的詞性分析階段算法分別選擇的是統(tǒng)計算法、動態(tài)記憶算法、GLR算法、改進(jìn)的GLR算法。
測評的過程:三臺英漢機(jī)器翻譯對指定的50條短語和50條網(wǎng)絡(luò)隨機(jī)語句進(jìn)行翻譯,英漢翻譯的專業(yè)人員同樣對對指定的50條短語和50條網(wǎng)絡(luò)隨機(jī)語句進(jìn)行翻譯,評分人員通過對比機(jī)器翻譯和人工翻譯,然后對三臺英漢機(jī)器的算法進(jìn)行進(jìn)行評分,評分的規(guī)則如表2所示。
表2 評分規(guī)則表
注:各項(xiàng)分值權(quán)重為識別精度0.8,識別速度0.1,更新能力0.1。
本次測評實(shí)驗(yàn)對50條短語和50條網(wǎng)絡(luò)隨機(jī)語句進(jìn)行短語識別,詳細(xì)描述見3.1小節(jié),詳細(xì)的實(shí)驗(yàn)結(jié)果如表3所示。
圖3 4種英漢翻譯算法評價結(jié)果
從圖3的測試結(jié)果來看,無論是從識別精度、識別速度、更新能力上,基于改進(jìn)的GLR算法詞性識別的機(jī)器翻譯都是同類最優(yōu)的。從圖4綜合的測評結(jié)果上看,最高得分是基于改進(jìn)GLR算法92.3分,最低得分是統(tǒng)計算法76.8分,動態(tài)記憶算法在最后的測試得分上與改進(jìn)的GLR算法得分差異不大,兩者的主要差距集中在更新能力方面的得分。結(jié)合圖3、圖4,顯然,改進(jìn)GLR算法較其他算法的性能優(yōu)勢明顯。
本文的比對實(shí)驗(yàn)還采用了對實(shí)際翻譯案例的實(shí)驗(yàn),選擇“西安市物價局就牛肉面限價”語句進(jìn)行翻譯,最終得到的基于統(tǒng)計算法、動態(tài)記憶算法、改進(jìn)的GLR算法的機(jī)器翻譯和人工翻譯譯文的實(shí)驗(yàn)比對結(jié)果如表4所示。
圖4 4種英漢翻譯算法綜合測試得分比較
表4 翻譯實(shí)例結(jié)果對比
翻譯方法翻譯內(nèi)容統(tǒng)計算法Xi’an explained beef noodles reduce:only because of the excessive price.動態(tài)記憶算法Xi’an explained that beef noodles reduce:only because ofthe excessive price increase.GLR 算法Xi’an price bureau explained that beef noodles reduce:only because of the excessive price raises.改進(jìn)GLR 算法Xi’an price bureau gives the explanations of beef noo-dles reduce:only because of the excessive price raises.人工翻譯譯文Xi’an price bureau gives explanations of price controlon beef noodles: it is only because the raises have been too large.
從表4中可以發(fā)現(xiàn),基于統(tǒng)計算法和動態(tài)記憶算法的機(jī)器翻譯對“物價局”這個詞沒有進(jìn)行翻譯,而基于改進(jìn)GLR算法的機(jī)器翻譯正確的翻譯出來了。在對“做出解釋”,進(jìn)行翻譯的時候,只有基于改進(jìn)GLR算法的機(jī)器翻譯和人工翻譯譯文最接近,可以明顯地看到本文設(shè)計的基于改進(jìn)GLR算法的機(jī)器翻譯對比統(tǒng)計算法和動態(tài)記憶算法翻譯得更加準(zhǔn)確,識別精度可達(dá)了95%以上,達(dá)到了與人工翻譯同等級別的水平,表明了基于改進(jìn)GLR算法在機(jī)器翻譯中的高效可行性。
針對英語翻譯領(lǐng)域中結(jié)構(gòu)歧義的難點(diǎn),同時克服了傳統(tǒng)GLR算法在翻譯模型中詞性識別存在數(shù)據(jù)點(diǎn)重合的弊端,提出了改進(jìn)的GLR算法。改進(jìn)GLR算法運(yùn)用短語中心點(diǎn)來設(shè)計短語的結(jié)構(gòu),依據(jù)解析線性表的句法功能校正詞性識別結(jié)果中的英漢結(jié)構(gòu)歧義,從而有效緩解了傳統(tǒng)統(tǒng)計算法和動態(tài)記憶算法中識別結(jié)果精度不高的現(xiàn)狀,為識別的短語指定了最合理的位置。實(shí)驗(yàn)的結(jié)果表明,基于改進(jìn)GLR算法的機(jī)器翻譯同其他算法相比,具有計算簡單快捷、難度不高、實(shí)用性更強(qiáng)的特性,適合英語機(jī)器翻譯工作。