【摘要】隨著我國現(xiàn)代經(jīng)濟(jì)及科技的不斷發(fā)展,計(jì)算機(jī)技術(shù)作為新興技術(shù)在自然語言信息處理方面已經(jīng)得到了廣泛應(yīng)用,計(jì)算機(jī)技術(shù)在語言信息處理方面可設(shè)計(jì)相關(guān)系統(tǒng)實(shí)現(xiàn)對蒙古文數(shù)詞的自動識別與翻譯。本文主要以蒙漢機(jī)器翻譯為研究背景,對其在數(shù)詞自動翻譯系統(tǒng)及應(yīng)用結(jié)果方面進(jìn)行相關(guān)探究,實(shí)現(xiàn)對蒙漢統(tǒng)計(jì)機(jī)器翻譯的完善性研究,促進(jìn)機(jī)器翻譯性能的提升。
【關(guān)鍵詞】蒙漢機(jī)器翻譯;數(shù)詞;自動翻譯
目前,隨著現(xiàn)代計(jì)算機(jī)技術(shù)的完善性發(fā)展,蒙漢機(jī)器翻譯的發(fā)展及應(yīng)用已逐漸趨于成熟,成為人們應(yīng)用最廣泛的機(jī)器翻譯方法。在統(tǒng)計(jì)機(jī)器翻譯方面,國外已有大量的理論及技術(shù)研究基礎(chǔ),因此,我國在進(jìn)行蒙漢機(jī)器翻譯研究的過程中可借鑒相關(guān)理論及技術(shù)基礎(chǔ),從而實(shí)現(xiàn)對該方法的有效研究。但是,由于蒙古語語言自身具有一定的多變性及復(fù)雜性,從而導(dǎo)致蒙漢機(jī)器翻譯在研究中仍存在一系列問題亟待解決。
1.蒙漢機(jī)器翻譯中數(shù)詞自動翻譯特點(diǎn)
1.1語言類型復(fù)雜性 從語言學(xué)角度上來看,漢語與蒙語屬不同語系,二者語言特征及形態(tài)特征等均存在較大的差異性,故蒙漢機(jī)器翻譯數(shù)詞自動翻譯在研究中若采用傳統(tǒng)研究思路則難以實(shí)現(xiàn)數(shù)詞有效翻譯;除此之外,蒙語形態(tài)的復(fù)雜性主要表現(xiàn)在數(shù)詞的變形,該語種變形最多可達(dá)上百種,但漢語的詞語形態(tài)及語法等多無形態(tài)變化,故在機(jī)器翻譯中會出現(xiàn)大量未登錄詞,難以實(shí)現(xiàn)語言的完善及有效翻譯[1]。
1.2語言資源缺乏 現(xiàn)階段,在應(yīng)用社會中常用的統(tǒng)計(jì)機(jī)器翻譯方法時,需要大量語言資源對其進(jìn)行支持,如在應(yīng)用NIST機(jī)器翻譯測評時,其可提供的相關(guān)雙語語料庫規(guī)??蛇_(dá)1000萬句對,故平行語料庫規(guī)模較小,難以滿足系統(tǒng)翻譯需求,從而影響翻譯效果。
2.蒙漢數(shù)詞自動翻譯程序設(shè)計(jì)
數(shù)詞具有多表現(xiàn)形式,屬開放性集合,在蒙漢雙語語料庫中數(shù)詞形式具有相對不完善性,導(dǎo)致蒙漢翻譯譯文中多現(xiàn)未登錄數(shù)詞。由于蒙古數(shù)詞的多表現(xiàn)性,真實(shí)文本中數(shù)詞除了以蒙古文形式表現(xiàn)外,還會以多種形式如阿拉伯?dāng)?shù)字等出現(xiàn),因此蒙漢機(jī)器在翻譯時因其自身的局限性,難以對所有數(shù)詞進(jìn)行準(zhǔn)確翻譯。針對此類問題,本文主要對蒙漢數(shù)詞自動翻譯程序進(jìn)行完善性設(shè)計(jì)與改善,提升翻譯效果。蒙漢數(shù)詞自動識別及翻譯程序主要通過C語言實(shí)現(xiàn),該程序在具體應(yīng)用中能夠以詞性準(zhǔn)確切分蒙古文拉丁形式,并能夠?qū)γ晒盼臄?shù)詞及部分時間詞等相關(guān)資料進(jìn)行準(zhǔn)確性識別,在此基礎(chǔ)上實(shí)現(xiàn)自動翻譯,蒙古文中數(shù)詞多現(xiàn)詞格變化,多表示事物數(shù)量或替代事物,故在對數(shù)詞進(jìn)行準(zhǔn)確性識別時,必須先對其詞綴進(jìn)行切分,后對相關(guān)詞語進(jìn)行識別,在此過程中,若對序數(shù)詞及分?jǐn)?shù)詞進(jìn)行識別時,需合理應(yīng)用各信息,實(shí)現(xiàn)正確識別,故在對詞綴切分功能進(jìn)行設(shè)置時,需在序數(shù)詞及分?jǐn)?shù)詞識別后才可設(shè)置。 蒙漢數(shù)詞自動翻譯程序在設(shè)置時主要可分為時間詞及翻譯兩個模塊,其中,數(shù)詞翻譯模塊可分為基數(shù)詞、序數(shù)詞、集合數(shù)詞、概數(shù)詞、次數(shù)、分?jǐn)?shù)詞、分配數(shù)詞及語法特征8個模塊,各模塊均具有自動識別及翻譯功能。在數(shù)詞翻譯程序中,各程序按數(shù)詞類別區(qū)分為8個不同的模塊,但各模塊均為數(shù)詞模塊程序,具有一定的關(guān)聯(lián)性,如部分分?jǐn)?shù)詞翻譯模塊應(yīng)用時還需與基數(shù)詞模塊配合使用,根據(jù)相關(guān)研究可知,在相關(guān)翻譯模塊應(yīng)用中,基數(shù)詞模塊該模塊應(yīng)用的基礎(chǔ);時間詞翻譯模塊在應(yīng)用時可分為3個小模塊,分別為表示年份、表示月份及表示其他時間的數(shù)詞翻譯模塊,若在應(yīng)用時間詞翻譯模塊時,其數(shù)詞均由左向右逐字翻譯且按相關(guān)規(guī)則對其翻譯結(jié)果進(jìn)行修改,這樣能夠保證翻譯結(jié)果的準(zhǔn)確性及有效性。
3.蒙漢數(shù)詞自動翻譯程序應(yīng)用及結(jié)果研究
3.1程序應(yīng)用 3.1.1開源工具。在對相關(guān)數(shù)據(jù)進(jìn)行處理時,可采用蒙漢數(shù)詞自動翻譯模塊進(jìn)行處理與操作。在訓(xùn)練時,可將相關(guān)訓(xùn)練集、開發(fā)集及測試集等蒙古文進(jìn)行大小寫轉(zhuǎn)化,展開縮略數(shù)詞,開源解碼器可選擇Moses進(jìn)行操作解碼并對相關(guān)參數(shù)特征進(jìn)行融合。3.1.2實(shí)驗(yàn)數(shù)據(jù)。本文研究所應(yīng)用實(shí)驗(yàn)語料蒙漢平行語言為6.7萬句對,取14萬漢語句子用于語言模型訓(xùn)練,測試集取500句對蒙漢平行語料,數(shù)詞及時間詞句子共70條,語料均不重復(fù),本次研究中所取蒙古文均對應(yīng)不同專業(yè)翻譯人員漢語翻譯譯文,可保證其相關(guān)準(zhǔn)確性。3.1.3系統(tǒng)應(yīng)用步驟。蒙漢數(shù)詞自動翻譯程序在蒙漢統(tǒng)計(jì)機(jī)器翻譯后處理應(yīng)用中,對未登錄數(shù)詞進(jìn)行翻譯可以提升翻譯性能。先采用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)對蒙古文源文的翻譯,后在本文設(shè)計(jì)的相關(guān)基礎(chǔ)程序之上實(shí)現(xiàn)對譯文未登錄數(shù)詞的識別及翻譯。3.1.4語料庫預(yù)處理。在進(jìn)行系統(tǒng)應(yīng)用及相關(guān)語料庫處理時,為保證相關(guān)測評質(zhì)量,首先需對語料庫進(jìn)行相關(guān)預(yù)處理,其中主要包含蒙古文及漢語兩部分語料庫處理內(nèi)容,其方法可采用大小寫轉(zhuǎn)換、雙重格形態(tài)切分等。3.1.5解碼。解碼主要是對上述翻譯中所得到的模型進(jìn)行選擇,其選擇依據(jù)主要以最高得分為主,這一程序具有相對應(yīng)用困難性,在對相關(guān)句子及數(shù)詞進(jìn)行翻譯時,首先需找出相關(guān)數(shù)詞進(jìn)行翻譯,在此基礎(chǔ)上依照語言模型對其進(jìn)行調(diào)試,最終得出概率最高翻譯句子。3.1.6結(jié)果。在本次研究中,采用層次短語4-gram語言模型對相關(guān)源文進(jìn)行翻譯,然后在統(tǒng)計(jì)機(jī)器翻譯的基礎(chǔ)上得到譯文,該譯文中6個未登錄數(shù)詞,針對該數(shù)詞可對程序翻譯及原譯文比較可知蒙漢數(shù)詞自動翻譯程序翻譯未登錄數(shù)詞后期NIST測評值提升0.0318,BLUE提升0.0037,BLUE-SBP提升0.0018,且根據(jù)研究可知,在翻譯中,其源文數(shù)詞比例越大,提升效果越明顯,故采用該程序可有效提升翻譯效果,增強(qiáng)翻譯準(zhǔn)確性。
結(jié)束語
綜上所述,蒙漢機(jī)器翻譯作為應(yīng)用廣泛的翻譯方法在我國蒙漢語言翻譯中具有非常重要的作用,但就現(xiàn)階段而言,由于蒙古文自身的特殊性、復(fù)雜性以及蒙漢統(tǒng)計(jì)機(jī)器翻譯的缺陷性,導(dǎo)致蒙漢機(jī)器翻譯準(zhǔn)確性較低。針對此類問題,相關(guān)人員可借鑒語言學(xué)知識,在此基礎(chǔ)上采用現(xiàn)代計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對蒙漢機(jī)器翻譯數(shù)詞自動翻譯系統(tǒng)的研究,不斷改善機(jī)器翻譯性能,提升翻譯準(zhǔn)確性。
參考文獻(xiàn)
[1]烏日力嘎.西里爾蒙古文—漢文機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2015.
作者簡介
牛其其日樂格(1989.3)女,籍貫:黑龍江省大慶市杜爾伯特蒙古族自治縣,現(xiàn)職稱:翻譯助級,學(xué)歷:本科,研究方向:中國少數(shù)民族(蒙古)語言文學(xué)。