祖麗瑚瑪爾·吐爾干
摘要:維漢機(jī)器翻譯中經(jīng)常出現(xiàn)的問題有單個(gè)翻譯模型翻譯效果不佳或多個(gè)翻譯模型間翻譯有很大不同等。對此,一種根據(jù)釋義信息發(fā)明的系統(tǒng)融合方法被提出。通過這種方法,維漢機(jī)器翻譯先將漢語端的釋義信息提取出來并對漢語翻譯假設(shè)進(jìn)行詞對齊,然后根據(jù)詞對齊信息構(gòu)建和解碼使網(wǎng)絡(luò)混淆,最后進(jìn)行系統(tǒng)融合得出結(jié)果。有實(shí)驗(yàn)證明,此法較單個(gè)翻譯系統(tǒng)HPSTW翻譯質(zhì)量更加優(yōu)異。
關(guān)鍵詞:維漢機(jī)器翻譯;釋義信息;系統(tǒng)融合;過濾
一、基于釋義信息的維漢機(jī)器翻譯
系統(tǒng)融合現(xiàn)狀
在最近的幾年里,系統(tǒng)融合技術(shù)受到了國內(nèi)外學(xué)者的熱捧,機(jī)器翻譯領(lǐng)域被國內(nèi)外的很多學(xué)者運(yùn)用到系統(tǒng)融合中,例如根據(jù)混亂的網(wǎng)絡(luò)解碼將一些詞匯進(jìn)行整合的方式。在進(jìn)行詞匯級別系統(tǒng)融合的過程中,其翻譯舉例詞起到了非常重要的作用,翻譯舉例詞對齊會(huì)對系統(tǒng)的整合性造成影響,其中典型的方式如下:
在翻譯的舉例詞對齊被編輯距離作為根據(jù)、根據(jù)在語料庫中的翻譯舉例詞進(jìn)行對照、根據(jù)Meteor的翻譯舉例詞對照和根據(jù)語言學(xué)文化的舉例假設(shè)詞,即使將以上的這些例子運(yùn)用到漢語翻譯假設(shè)詞對照時(shí),還是不能準(zhǔn)確定位到漢語翻譯假設(shè)相近意思進(jìn)行行替換的詞或短語。
解釋其意義是傳遞一樣的信息的一種方式,在學(xué)者們通過文本產(chǎn)生和文本書籍的查閱后,得出結(jié)果:它可以產(chǎn)生更加順暢和豐富的文本,而且在此過程中不僅可以使機(jī)器翻譯的質(zhì)量更好,還可以在輸人文檔中詢查到相同的信息,使此過程更加便捷。
二、基于釋義信息的維漢機(jī)器翻譯系統(tǒng)融合的相關(guān)工作
針對群體的不同,句子等級、短語等級和詞匯等級三個(gè)方面,在系統(tǒng)融合中如今被作為考察對象。將各系統(tǒng)的翻譯假設(shè),被認(rèn)為是平行語料。它是根據(jù)語料庫的翻譯假設(shè)詞整合方法,因?yàn)槭褂秒p語對齊模型翻譯假設(shè)的雙向詞對齊,在語料不足時(shí)經(jīng)常導(dǎo)致數(shù)據(jù)缺乏,而且只支持表面形式,是因?yàn)榇藢R方法只借著語料庫的范圍。
另外,人力采集、使用現(xiàn)有的詞匯資源提取、根據(jù)語料庫的釋義提取,這3種屬于釋義提取方法。
通過雙語語料庫轉(zhuǎn)換成釋義,使用有效的雙語語料資源和雙語短語表,被稱為釋義提取方法。
根據(jù)Meteor翻譯假設(shè)詞對齊,是由于翻譯假設(shè)詞對齊方式,在如今詞匯等級系統(tǒng)融合備受歡迎,它把釋義匹配模塊添加在表面形式匹配、詞干、同義詞匹配基礎(chǔ)上,由于語言的釋義匹配不完整,所以在進(jìn)行維漢機(jī)器翻譯系統(tǒng)融合探索時(shí),不能使用漢語釋義信息,需要額外增加漢語釋義內(nèi)容,然后將它運(yùn)用到維漢機(jī)器翻譯的系統(tǒng)融合中。
三、基于釋義信息系統(tǒng)融合的研究
創(chuàng)新是發(fā)展的動(dòng)力,一項(xiàng)新技術(shù)只有通過不斷創(chuàng)新才能提高它的社會(huì)價(jià)值,穩(wěn)定它在新科技領(lǐng)域的地位。本文通過修正假設(shè)詞對齊結(jié)果以及提取的方式發(fā)現(xiàn)研究維漢機(jī)器翻譯,證明了構(gòu)建和解碼混淆網(wǎng)絡(luò)才是獲得融合結(jié)果的方法。
系統(tǒng)融合需要重視單語詞的對齊情況,因直接影響著翻譯選取的好壞,漢語翻譯假設(shè)進(jìn)行單語詞對齊時(shí)的弊端也是存在的,一是現(xiàn)有工具只是“表面形式者”,出現(xiàn)兩個(gè)翻譯假設(shè)的詞相同,會(huì)認(rèn)為兩個(gè)詞匹配,打破原有信息數(shù)據(jù)的穩(wěn)定性,丟失信息等嚴(yán)重現(xiàn)象,那么釋義信息的引人就解決了這個(gè)問題,讓對齊工具發(fā)揮最大限度的短語匹配能力。例如出現(xiàn)容易混淆的詞語時(shí),釋義匹配器便會(huì)快速匹配與之相對應(yīng)的短語。但是釋義匹配器也是存在局限性的,比如只支持部分語種的釋義匹配功能,有待進(jìn)一步提高。
四、結(jié)語
本文探討如何將漢語釋義信息引人維漢機(jī)器翻譯系統(tǒng),實(shí)踐中循序漸進(jìn)地提高了維漢機(jī)器翻譯的質(zhì)量。當(dāng)然,有利有弊,弊端就是只能用語言模型和全局系統(tǒng)權(quán)重混淆網(wǎng)絡(luò),用提高閾值的方法來過濾釋義表。創(chuàng)新才是發(fā)展的動(dòng)力,維吾爾語言的特性,讓維漢機(jī)器翻譯系統(tǒng)融合的新方法仍在開發(fā)中,新方法能有效提高翻譯質(zhì)量,相信不久的將來不同語言的交流成為可能。
(作者單位:新疆日報(bào)社)