阿里木·賽買提,沙麗瓦爾·阿里木,吐爾根·依不拉音,段雪明,古麗尼格爾·阿不都外力,麥合甫熱提,吾守爾·斯拉木
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院多語種信息技術(shù)實(shí)驗(yàn)中心,新疆 烏魯木齊 830046;2.新疆開放大學(xué),新疆 烏魯木齊 830049;3.新疆科大訊飛信息科技有限責(zé)任公司,新疆 烏魯木齊 830015)
人工智能的不斷發(fā)展,深度學(xué)習(xí)技術(shù)推動(dòng)了機(jī)器翻譯等自然語言處理技術(shù)重大進(jìn)展,并且通過大量的訓(xùn)練數(shù)據(jù)的支撐下核心效果不斷提升[1].在神經(jīng)機(jī)器翻譯模型中Arthur等[2]引入外部詞匯從而解決翻譯過程中的數(shù)據(jù)稀疏問題.文獻(xiàn)[3-5]提出的基于注意力機(jī)制的神經(jīng)機(jī)器翻譯相比傳統(tǒng)基于統(tǒng)計(jì)的短語翻譯方法,翻譯性能也取得了大幅改善,部分場(chǎng)景下翻譯效果接近人類翻譯水平.
維吾爾語是典型的黏著語種,自右向左橫寫,有8個(gè)元音字母,24個(gè)輔音字母,構(gòu)詞和構(gòu)形附加成分很豐富,每個(gè)字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式,有些字母只有單式和末式,有些字母所帶的符號(hào)除作獨(dú)立形式和詞首形式的標(biāo)志外,還起隔音的作用[6].32個(gè)字母實(shí)際共有126種寫法.維吾爾語因其黏著語言特征構(gòu)詞和構(gòu)形附加成分很豐富而具有一個(gè)詞桿可同時(shí)連接單個(gè)或多個(gè)詞綴導(dǎo)致不斷派生出新詞的特點(diǎn),易造成集外詞問題,使維吾爾語信息處理技術(shù)成為眾多研究者們的學(xué)術(shù)熱點(diǎn)的原因之一,盡管采用BPE切詞[7]、擴(kuò)展詞表等業(yè)界主流的方法后,在一定程度上緩解了部分集外詞的翻譯效果,但本質(zhì)上并未解決集外詞翻譯問題,仍然伴有集外詞錯(cuò)譯、漏譯、欠譯、過譯等現(xiàn)象,同時(shí),維吾爾人名在機(jī)器翻譯中除了面對(duì)集外詞問題以外還會(huì)出現(xiàn)不恰當(dāng)表示、不雅詞或字等問題,因此維吾爾人名的翻譯問題是維漢機(jī)器翻譯中需要解決的重要問題之一.同樣維吾爾語人名因其數(shù)據(jù)稀疏性,在機(jī)器翻譯中易造成OOV問題,因此需要在前處理工作中除了需要做好人名譯文體驗(yàn)感方面的工作外,還需要在建立神經(jīng)網(wǎng)絡(luò)翻譯模型時(shí)將OOV問題的處理工作考慮在內(nèi).
OOV即訓(xùn)練集以外的詞,可以有兩種解釋[8]:一是指已有的訓(xùn)練語料中未曾出現(xiàn)過的詞;二是指已有的詞表中沒有收錄的詞又稱為未登錄詞(unknown word).通常情況下將OOV與未登錄詞視為同一個(gè)概念.
盡管對(duì)于機(jī)器翻譯而言,人名翻譯是其中至關(guān)重要的環(huán)節(jié),但由于維吾爾語人名存在著命名不規(guī)范、空間難以界定、在語料庫(kù)中出現(xiàn)頻率低等問題,維吾爾語人名識(shí)別和翻譯一直是學(xué)術(shù)界和工業(yè)界研究的方向.也正是因?yàn)榫S吾爾語人名存在的上述特性,通常情況下,維吾爾語人名翻譯不能與英文人名或漢語人名一樣采用通用的規(guī)則或翻譯方法進(jìn)行處理.因此,維吾爾語人名翻譯本質(zhì)上是以信達(dá)雅為導(dǎo)向,對(duì)其進(jìn)行字符級(jí)端到端的神經(jīng)網(wǎng)絡(luò)模型的建模.
維吾爾語人名具有頻率稀疏性、邊界模糊性、語義獨(dú)立性、組成不規(guī)則性和譯文多樣性等特點(diǎn),并且對(duì)譯文的準(zhǔn)確性和規(guī)范性的要求更高.不同語言的人名在構(gòu)成方式和翻譯規(guī)律方面也存在較大的差異,漢族人名譯維吾爾語是按照字或者詞為單位的發(fā)音進(jìn)行音譯和意譯,并且翻譯方向是順序的,通常采用輸出原詞或音譯相結(jié)合的方法進(jìn)行翻譯.維吾爾語人名處理不僅僅要解決普通句子翻譯的固有問題,如詞語選擇與譯文準(zhǔn)確及流暢,還需要解決譯文是否符合信達(dá)雅的問題.可見,維吾爾語人名的翻譯是機(jī)器翻譯中一個(gè)極具挑戰(zhàn)的任務(wù).
本文從機(jī)器翻譯的角度出發(fā).引入了一套前處理流程,提出了Fast align + NER組合方法,通過從常規(guī)維漢句對(duì)數(shù)據(jù)中進(jìn)行識(shí)別及對(duì)齊,有效地解決了維漢對(duì)照人名數(shù)據(jù)稀少、難以獲取的問題.
命名實(shí)體識(shí)別(name entity recognition,NER)是指從大量的非結(jié)構(gòu)化或結(jié)構(gòu)化文本中抽取出相應(yīng)的人名、地名或組織機(jī)構(gòu)等實(shí)體,并對(duì)其進(jìn)行精確的分類識(shí)別.而傳統(tǒng)的命名實(shí)體識(shí)別方法非常依賴于語言學(xué)知識(shí)和特征工程,忽略了文本中實(shí)體所隱含的潛在信息,從而增加了文本中命名實(shí)體的識(shí)別難度.因此,如何利用有效的特征和神經(jīng)網(wǎng)絡(luò)技術(shù)來提高文本中命名實(shí)體的識(shí)別準(zhǔn)確度已成為研究的一個(gè)熱點(diǎn)課題.隨著人類生活水平的提高,每天在互聯(lián)網(wǎng)上出現(xiàn)海量的人名信息.對(duì)人名信息的處理能力受到的關(guān)注度越來越強(qiáng)烈.
本文通過收集歷屆機(jī)器翻譯研討會(huì)CWMT及CCMT提供的維漢雙語平行訓(xùn)練集和通過人民網(wǎng)、天山網(wǎng)自建的維漢平行訓(xùn)練數(shù)據(jù)集上進(jìn)行維漢人名抽取.在整理好的維漢平行語料基礎(chǔ)上通過漢語命名實(shí)體識(shí)別方法與維吾爾語命名實(shí)體的識(shí)別方法進(jìn)行了人名抽取并且分詞后通過Fast align快速詞對(duì)齊工具進(jìn)行了維漢人名的識(shí)別對(duì)齊及抽取,對(duì)齊實(shí)例見表1.
表1 Fast align 對(duì)齊操作實(shí)例
本文在中文人名識(shí)別中使用了業(yè)界開源且比較主流的哈工大語言技術(shù)平臺(tái)(Language Technology Platform,LTP)提供的中文命名實(shí)體識(shí)別能力.在維吾爾語命名實(shí)體的識(shí)別方法中使用了引入子詞向量的bi-LSTM+CRF的方法[9],傳統(tǒng)的bi-LSTM+CRF神經(jīng)網(wǎng)絡(luò)模型中,輸入向量以單詞為基本單位.然而,維吾爾語是一種由詞干和詞綴組成的黏著語言.如果只考慮單純的使用詞向量,就不能充分學(xué)習(xí)語義信息,導(dǎo)致詞法過程中數(shù)據(jù)的稀疏性.因此,我們考慮利用更小的承載單元子詞選為基本單元.這里的子詞是將維吾爾語單詞通過形態(tài)切分將一個(gè)單詞的詞綴與詞干切分開后的輸入單元進(jìn)行訓(xùn)練建模的方法.
被NER識(shí)別后抽取出來的人名信息會(huì)傳輸?shù)蕉说蕉说淖址?jí)神經(jīng)網(wǎng)絡(luò)翻譯模型中.在傳統(tǒng)的維吾爾語漢語機(jī)器翻譯結(jié)果中,在維譯漢方向經(jīng)常會(huì)出現(xiàn)不雅字或詞.不能使譯文達(dá)到信達(dá)雅.例如:“bEkriyE”對(duì)應(yīng)的常見人工翻譯的恰當(dāng)選詞結(jié)果為“拜克熱亞”,但在以往的機(jī)器翻譯結(jié)果中經(jīng)常會(huì)看到“拜可日牙”或?qū)ⅰ皌urGun”翻譯成“吐兒滾”等不雅詞(而正確的選詞結(jié)果應(yīng)該為“圖爾洪”).對(duì)該類情況的出現(xiàn)綜合分析認(rèn)為:
(1) 部分是因早期維吾爾人名用漢字記錄證件時(shí)未有一個(gè)恰當(dāng)?shù)倪x詞標(biāo)準(zhǔn);
(2) 當(dāng)時(shí)人們的恰當(dāng)選詞意識(shí)不強(qiáng);
(3) 因漢字常用多音字而維吾爾語一音一字,造成維吾爾語人名可對(duì)應(yīng)多個(gè)漢語,結(jié)果無法統(tǒng)一.
因此使該類數(shù)據(jù)混入機(jī)器翻譯訓(xùn)練數(shù)據(jù)呈現(xiàn)數(shù)據(jù)稀疏狀態(tài)易造成OOV問題,而另一個(gè)原因可能是因?yàn)樵诔R?guī)的訓(xùn)練數(shù)據(jù)的形式為句對(duì)形式為主,而對(duì)應(yīng)的人名數(shù)據(jù)因在數(shù)據(jù)中的比例較少,可能在常規(guī)的機(jī)器翻譯結(jié)果中會(huì)出現(xiàn)非規(guī)范的結(jié)果.為解決上述問題,使得維吾爾語人名翻譯結(jié)果能夠盡可能準(zhǔn)確、雅觀,通過一個(gè)基于純維漢人名的端到端的神經(jīng)網(wǎng)絡(luò)翻譯模型,使抽取到的實(shí)體能夠通過該模型給出準(zhǔn)確的譯文,提高用戶體驗(yàn)效果.
因此,選用詞對(duì)形式的純?nèi)嗣?xùn)練數(shù)據(jù),并且為了從人名訓(xùn)練數(shù)據(jù)中去除影響譯文雅觀的潛在因素,將漢語維吾爾族人名通過N-gram語言模型進(jìn)行訓(xùn)練,分別得到1—4階語言模型,找到數(shù)據(jù)中一個(gè)維吾爾文人名對(duì)應(yīng)的多個(gè)中文表示(1對(duì)N)的數(shù)據(jù),根據(jù)語言模型對(duì)人名列表進(jìn)行打分,去除打分結(jié)果中每個(gè)得分最優(yōu)的兩個(gè)漢語人名表示以外的結(jié)果,見圖1.最后結(jié)合人工審核,獲取精煉后的人名訓(xùn)練數(shù)據(jù)集,因精煉后的數(shù)據(jù)集量級(jí)較少,避免OOV問題的困擾,為此選用字符級(jí)的建模方案,選用Lee等[10]提出的字符級(jí)端到端的神經(jīng)網(wǎng)絡(luò)框架完成對(duì)維漢人名翻譯模型的訓(xùn)練(見圖2).
圖1 維漢人名翻譯前處理總框架
圖2 字符級(jí)維漢人名翻譯模型
考慮到目前國(guó)內(nèi)各機(jī)器翻譯研討會(huì)提供的維漢雙語平行訓(xùn)練集都以句子級(jí)語料,無公開維漢人名數(shù)據(jù)集,因此本文通過收集歷屆CWMT及CCMT等研討會(huì)提供的維漢句對(duì)數(shù)據(jù)為主進(jìn)行人名的抽取及精煉獲取最終的維漢人名訓(xùn)練集.目前已從61萬條維漢句對(duì)數(shù)據(jù)中抽取并人工收集維漢人名訓(xùn)練集,在通過對(duì)數(shù)據(jù)進(jìn)一步預(yù)處理分別完成了形式轉(zhuǎn)換、編碼轉(zhuǎn)換、全角半角轉(zhuǎn)換、標(biāo)點(diǎn)符號(hào)的規(guī)整、亂碼過濾、去重等預(yù)處理過程后最終獲得32 126條人名集.
目前業(yè)界無公開且符合我們需要的維漢人名數(shù)據(jù),因此無法通過公開且統(tǒng)一的測(cè)試集進(jìn)行衡量,為了降低維漢機(jī)器翻譯中維吾爾語人名譯文中不雅字或詞的出現(xiàn)及避免OOV問題的困擾,采用人工收集人民網(wǎng)、天山網(wǎng)中出現(xiàn)頻率比較高的漢語維吾爾人名,自建500條維漢雙語維吾爾人名測(cè)試集.
實(shí)驗(yàn)環(huán)境采用CentOS 7.3 64 位操作系統(tǒng),內(nèi)存64 GB,Tesla p40,Intel(R)Xeon(R)CPU E5-2650 v3@2.30 GHz 2CPU 20核處理器.在實(shí)驗(yàn)部分,使用了開源的基于 Theano 深度學(xué)習(xí)庫(kù)的dl4mt-c2c框架進(jìn)行模型訓(xùn)練,模型網(wǎng)絡(luò)參數(shù)基本以開源base版本參數(shù)一直使用GPU單卡訓(xùn)練.
表2 實(shí)驗(yàn)過程參數(shù)
在實(shí)驗(yàn)過程中網(wǎng)絡(luò)的源端詞表大小為97,目標(biāo)端詞表大小為542,訓(xùn)練和解碼時(shí)長(zhǎng)、模型大小參數(shù)見表2,該系統(tǒng)采用網(wǎng)絡(luò)結(jié)構(gòu)為CNN+RNN網(wǎng)絡(luò)形式;encoder隱層節(jié)點(diǎn)數(shù)目為512;decoder隱層節(jié)點(diǎn)數(shù)目為1 024;Embedding向量長(zhǎng)度方面source embedding為128 MB,Target embedding為512 MB;Highway網(wǎng)絡(luò)為4 layers;Cnn_kernel_width=(3,5);Initial_learning_rate為0.000 2;Conv_embed_num_filters為200-250-300-300-400-400-400-400;Pooling Strid值設(shè)為5;BatchSize大小為64.
實(shí)驗(yàn)結(jié)果見表3.由表3可見,當(dāng)對(duì)訓(xùn)練數(shù)據(jù)通過1—4階N-Gram語言模型打分后,其在自建的用字恰當(dāng)?shù)娜嗣麥y(cè)試集上的譯文BLEU結(jié)果提升了0.95分.但一個(gè)維吾爾語人名除去帶有不雅字的結(jié)果外常還有其他譯文易導(dǎo)致機(jī)器打分存在歧義,因此,在無權(quán)威公開用字準(zhǔn)確且標(biāo)準(zhǔn)的維漢人名測(cè)試集的前提下用BLEU打分機(jī)制結(jié)果具有片面性,無法全面體現(xiàn)本文的研究成果,但通過對(duì)比加入本文前處理方法后,在處理不雅字或詭異表達(dá)效果較好,表4為譯文數(shù)據(jù)中抽取出的較典型的實(shí)例.由表4可以看出,雖然加入了本文前處理方法后的模型結(jié)果中仍有“吐”,“沙”等字樣的出現(xiàn),但是在雅觀或體驗(yàn)上都有了顯著的提升.
表3 實(shí)驗(yàn)結(jié)果
表4 典型實(shí)例展示
本文以維漢人名翻譯中譯文結(jié)果中出現(xiàn)OOV或不雅字問題的處理方法為初始目標(biāo)進(jìn)行探索,通過實(shí)驗(yàn)分析規(guī)劃出了一套完整地將含有不雅字或詞的人名數(shù)據(jù)處理方法,考慮到數(shù)據(jù)稀疏原因,為避免模型訓(xùn)練無法達(dá)到良好的收斂效果,選用輕量級(jí)的dl4mt-c2c框架,本文方法對(duì)處理不雅字或不恰當(dāng)?shù)谋硎居忻黠@的改善.