李金珠
摘要:隨著科技的發(fā)展,統(tǒng)計(jì)方法在機(jī)器翻譯中得到廣泛應(yīng)用。如今機(jī)器翻譯的質(zhì)量越來越高,越來越多的人群依賴機(jī)器翻譯系統(tǒng),然而由于翻譯機(jī)器在解碼時(shí)存在短語匹配過于精確的問題,導(dǎo)致難以充分利用翻譯短語表中的短語進(jìn)行翻譯,因此為了進(jìn)一步提高翻譯質(zhì)量,本文加強(qiáng)了對(duì)人機(jī)互助的交互式口語翻譯方法的研究。本文主要分析了當(dāng)前機(jī)器翻譯存在的問題,并針對(duì)交互式口語翻譯方法和發(fā)展方向進(jìn)行了研究和探討。
關(guān)鍵詞:機(jī)器翻譯;交互式口語翻譯方法;模糊匹配
如今基于短語統(tǒng)計(jì)機(jī)器翻譯方法的翻譯質(zhì)量較高,應(yīng)用也比較廣泛。該種翻譯方法主要是采用短語精確匹配的方法,然而雖然對(duì)書面語的翻譯比較精確,但由于口語的非規(guī)范性,導(dǎo)致口語的翻譯質(zhì)量并不高。對(duì)于口語翻譯質(zhì)量問題,本文提出了人機(jī)互助的交互式口語翻譯方法,即通過短語模糊匹配的方法,提高翻譯質(zhì)量。
一、當(dāng)前機(jī)器翻譯存在的問題
當(dāng)前我國(guó)機(jī)器翻譯主要采用短語的統(tǒng)計(jì)方法,該種方法主要是指將任意連續(xù)的字符串當(dāng)做短語,然后通過精確匹配短語進(jìn)行翻譯。短語統(tǒng)計(jì)機(jī)器翻譯方法雖然能夠通過分辨短語詞序信息提高翻譯質(zhì)量,但其采用的短語精確匹配的策略,使只有完全符合翻譯短語詞序的短語在翻譯過程中得到應(yīng)用,導(dǎo)致翻譯數(shù)據(jù)嚴(yán)重不足。在口語翻譯中,由于口語的隨意性,口語存在重復(fù)、次序顛倒、省略等問題,此時(shí)如果依然采用短語精確匹配的策略,則會(huì)導(dǎo)致翻譯質(zhì)量明顯下降。
針對(duì)當(dāng)前機(jī)器翻譯存在的問題,主要有兩種方法進(jìn)行改善,但其中增大短語表規(guī)模的方法會(huì)致使解碼系統(tǒng)負(fù)荷過大,因此不予采納。另一種方法則是通過加強(qiáng)對(duì)短語知識(shí)的研究,如短語表中存在大量不完全匹配但語義相同的短語,在翻譯過程中應(yīng)當(dāng)充分利用這些短語,以提高翻譯質(zhì)量。不過由于機(jī)器難以對(duì)短語的語義相似性進(jìn)行判別,因此需要人為判別,即人機(jī)互助交互式口語翻譯的質(zhì)量能夠得到明顯提升。
二、交互式口語翻譯方法
人機(jī)互助的交互式口語翻譯在國(guó)內(nèi)外已經(jīng)得到大量的研究,其主要是通過翻譯的預(yù)處理,確保翻譯系統(tǒng)能夠?qū)φ_地對(duì)輸入的內(nèi)容進(jìn)行翻譯。其大概流程如下:將源語言句子輸入翻譯系統(tǒng)后,翻譯系統(tǒng)會(huì)將源語言句子中的所有短語進(jìn)行切分,然后比對(duì)短語序列,如果短語全部在短語表中,則直接翻譯,輸出翻譯結(jié)果。如果短語沒有全部在短語表中,則采用短語模糊匹配,對(duì)句子進(jìn)行擴(kuò)展并進(jìn)行翻譯。隨后利用組合分類器選擇翻譯質(zhì)量得到提升的翻譯結(jié)果,最后由人為判斷選擇最終的翻譯結(jié)果,并輸出。下文主要針對(duì)交互式口語翻譯方法進(jìn)行了研究,旨在利用人的知識(shí)改善翻譯機(jī)器存在的短語辨別問題,保障口語翻譯質(zhì)量。
(一)短語模糊匹配方法
交互式口語翻譯短語模糊匹配方法主要有兩種,一種是計(jì)算兩個(gè)相似短語之間的相似度,另一種則是判斷語義的相似度。但該兩種方法的翻譯準(zhǔn)確率和翻譯速度均難以滿足人們需求,因此為了提高計(jì)算速度,應(yīng)當(dāng)利用Dice系數(shù)和編輯距離,通過對(duì)無關(guān)短語的過濾,得到滿足條件的短語集合,從而提高翻譯質(zhì)量和翻譯效率。
(二)組合分類器設(shè)計(jì)方法
如果將所有相似的短語均由人工判斷,則難以發(fā)揮機(jī)器翻譯的優(yōu)勢(shì),因此在人工交互翻譯之前,翻譯機(jī)器需要對(duì)得出的句子進(jìn)行篩選,將翻譯質(zhì)量提高的句子提供給翻譯者進(jìn)行判斷。比如,以SVM分類器作為基本分類器,對(duì)機(jī)器翻譯的句子進(jìn)行辨別,將句子分為翻譯質(zhì)量提升和翻譯質(zhì)量沒有提升兩種。組合分類器在進(jìn)行語料的測(cè)試時(shí),主要是以原始翻譯結(jié)果作為參考。
(三)交互式翻譯方法
組合分類器選擇出翻譯質(zhì)量提高的句子后,由人工進(jìn)行選擇和判斷。由于短語模糊匹配難以充分保障短語語義的一致性,因此需要采用人機(jī)互助的方法選擇出翻譯質(zhì)量最好的句子,完成翻譯任務(wù)。人機(jī)交互翻譯需要通過對(duì)話管理完成,人工選擇人機(jī)交互翻譯方式下最優(yōu)的翻譯結(jié)果。在人機(jī)交互翻譯過程中,需要充分考慮翻譯者的負(fù)擔(dān),即翻譯機(jī)器需要提高交互效率,避免翻譯者出現(xiàn)不耐煩、厭煩等情緒,不利于翻譯質(zhì)量的提升。
三、交互式口語翻譯的發(fā)展方向
目前人機(jī)互助的交互式口語翻譯中還存在一些問題有待解決,如口語翻譯中關(guān)鍵信息丟失問題,機(jī)器翻譯評(píng)測(cè)中自動(dòng)評(píng)價(jià)方法問題,口語語序問題等。人機(jī)互助的交互式口語翻譯仍然是以機(jī)器翻譯為主,因此在對(duì)翻譯機(jī)器進(jìn)行開發(fā)時(shí),要從用戶的角度出發(fā),使機(jī)器翻譯過程更加具有人性化特征,滿足翻譯者的需要。另外,翻譯機(jī)器應(yīng)當(dāng)以互聯(lián)網(wǎng)大數(shù)據(jù)作為基礎(chǔ),獲取大規(guī)模的口語資源,通過資源共享的方式推動(dòng)機(jī)器翻譯的發(fā)展。將人工翻譯和機(jī)器翻譯有效的結(jié)合,通過人工翻譯提高機(jī)器翻譯質(zhì)量仍然是目前國(guó)內(nèi)外的主要研究方向,同時(shí)人工翻譯還能夠?yàn)闄C(jī)器翻譯評(píng)測(cè)提供參考依據(jù),從而提高機(jī)器翻譯質(zhì)量。
四、結(jié)束語
綜上所述,隨著我國(guó)加強(qiáng)對(duì)機(jī)器翻譯的研究,如今機(jī)器翻譯質(zhì)量越來越高,但機(jī)器口語翻譯還存在一定的問題,主要是由于口語翻譯存在語序問題、重復(fù)問題等。而人機(jī)互助的交互式口語翻譯能夠有效通過短語模糊匹配、組合分類器排除和人工選擇等方式,選擇最優(yōu)質(zhì)的翻譯句子,進(jìn)而保證翻譯質(zhì)量。
參考文獻(xiàn):
[1]杜金華,張萌,宗成慶,等.中國(guó)機(jī)器翻譯研究的機(jī)遇與挑戰(zhàn)——第八屆全國(guó)機(jī)器翻譯研討會(huì)總結(jié)與展望[J].中文信息學(xué)報(bào),2013,04:1-8.
[2]司莉,莊曉喆,賈歡.近10年來國(guó)外多語言信息組織與檢索研究進(jìn)展與啟示[J].中國(guó)圖書館學(xué)報(bào),2015,04:112-126.
[3]吳丹.交互式跨語言信息檢索中用戶行為研究[J].中國(guó)圖書館學(xué)報(bào),2012,03:78-90.