摘要:詞對齊研究是多文種信息處理工作的一項不容忽略的基礎(chǔ)性研究內(nèi)容。通過針對中文和蒙古文詞對齊研究中存在的形態(tài)和詞序不對稱以及支撐詞對齊研究的對齊語料缺乏問題,開展融合語言信息的中蒙混合詞對齊模型構(gòu)建方法研究。利用產(chǎn)生式詞對齊結(jié)果以及中蒙兩種語言的語言信息作為潛特征,建立高質(zhì)量的融合語言信息的中蒙混合詞對齊模型。實驗結(jié)果證明,該文提出方法對于利用可比語料抽取對齊語料是可行的。
關(guān)鍵詞:句子對齊;短語翻譯;中文短語
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2014)07-1519-05
自然語言信息處理技術(shù)的快速發(fā)展,加上互聯(lián)網(wǎng)的廣泛應(yīng)用和硬件性能的高速提升,已經(jīng)可以對更多的研究任務(wù)、更復雜的自然語言以及更大規(guī)模的數(shù)據(jù)進行分析與實踐,尤其是為機器翻譯(Machine Translation)的發(fā)展注入了新的活力?;プg語言之間的詞對齊(Word Alignment)研究作為機器翻譯領(lǐng)域的重要研究內(nèi)容,具有重要的學術(shù)意義和潛在的應(yīng)用價值,是一項復雜而具有挑戰(zhàn)性的工作。首先,對齊概念已經(jīng)超過一般意義上的詞與詞之間的對齊關(guān)系,而將其研究范疇擴展到詞與短語、短語與詞以及短語與短語之間的對齊關(guān)系的確立問題,研究者認知受限和語言自身動態(tài)演變等因素使得其表述工作相當困難。其次,這個課題交叉于傳統(tǒng)的語言學與計算語言學之間,需要有一定的語言學知識和計算語言學理論基礎(chǔ)。隨著自然語言信息處理技術(shù)的不斷深入,詞對齊的研究正在吸引著自然語言處理領(lǐng)域研究者們的強烈興趣,促使越來越多的人關(guān)注詞對齊質(zhì)量的提高問題[1-4]。除了機器翻譯以外,雙語詞典編纂、詞義消歧、跨語言信息檢索、語言教學等很多與雙語處理相關(guān)的應(yīng)用領(lǐng)域也都需要雙語詞匯間的對應(yīng)關(guān)系[5,6]。詞語對齊是包括蒙古文信息處理工作在內(nèi)的諸多文種信息處理工作的一項不容忽略的基礎(chǔ)性工作[7]。
1 基于可比語料的中蒙句對齊語料
隨著網(wǎng)絡(luò)資源的豐富及信息檢索技術(shù)的發(fā)展,網(wǎng)絡(luò)資源在雙語平行語料的構(gòu)建研究中也充分得到了體現(xiàn),中文-蒙古文之間亦是如此。但是,目前可收集到的中文-蒙古文可比語料存在比較嚴重的噪聲。在前期中文-蒙古文可比語料的建立過程中發(fā)現(xiàn),從同一個網(wǎng)站上可以獲取到的中蒙對照內(nèi)容比較少,而通過蒙古文網(wǎng)頁標題內(nèi)容搜索到的相對應(yīng)的中文網(wǎng)頁內(nèi)容又比較多,而這樣獲取到的中文-蒙古文雙語對照的文本并不是完全對齊的,可能是片段對齊(Fragments Alignment)或是非連續(xù)對齊。如圖1所示為從網(wǎng)上獲取的中文-蒙古文可比語料以及可以獲取得到的對齊資源(非劃線部分都屬于噪聲)。對目前搜集到的蒙古文和中文對照的雙語平行網(wǎng)頁文本進行分析,發(fā)現(xiàn)60%以上的平行網(wǎng)頁中存在蒙古文句子和中文句子間明顯不平行的問題,即中文網(wǎng)頁文本內(nèi)容與蒙古文網(wǎng)頁文本內(nèi)容基本相似,但是從句子對齊角度來看,中文網(wǎng)頁文本中的句子不與蒙古文網(wǎng)頁文本句子完全對齊,存在參差對齊的問題。因此,如何利用非平行的可比語料,抽取較高質(zhì)量的中-蒙對齊語料是首要解決的關(guān)鍵問題。
2 融合句法信息的雙語詞對齊
2.1 蒙古文復合詞識別及標注方法
考慮到中文和蒙古文之間的詞對齊存在的“多對多”的情況,蒙古文復合詞是所要引入語言信息特征中的重要特征之一[8]。從語言學角度考慮,復合詞(compound words)是指表達一定語義的,搭配較為緊密的,由多個詞語構(gòu)成的語法單位,包括短語、固定搭配、習慣用語以及由多詞構(gòu)成的命名實體等。如
①蒙古文復合詞的定義
如果一個詞單元A與另外一個詞單元B明顯相關(guān),或假設(shè)詞單元A經(jīng)常出現(xiàn)在詞單元B的上下文中,那么(A,B)為復合詞。復合詞的長度不僅限制在2個詞以內(nèi),對一些命名實體建立了專門的命名實體庫,通過后期利用Web資源可以擴充。
②利用Web蒙古文單語資源,采用統(tǒng)計關(guān)聯(lián)度計算方法抽取相應(yīng)的復合詞
從表2實驗結(jié)果可以看出,CRFs方法得到的準確率和召回率都是最高的,其次是MEM模型。盡管PSMT方法得到的準確率比LLR方法高,但是它得到的召回率卻比LLR方法低。具體分析來看,MEM和CRFs模型都屬于判別式模型,而PSMT和LLR是基于產(chǎn)生式方法的,說明面對語料稀缺的中蒙對齊問題,判別式模型較產(chǎn)生式模型可以取得更高的結(jié)果。另外,PSMT方法之所以得到最低的召回率值的原因可能是因為LLR統(tǒng)計量的方法、CRFs模型以及MSM方法首先都需要對短語進行切分,對沒有意義的短語進行了過濾,而PSMT方法并沒有這一步的處理。
4 結(jié)論
本文介紹了一種利用中蒙網(wǎng)頁可比語料抽取對齊單元的方法。具體地,針對句子對齊語料的獲取,提出基于向量空間模型的句子互譯相似度計算方法,將源語言和目標語言句子分別形式化表示為向量空間模型,通過源語言特征詞語項和目標語言特征詞語項之間的互譯信息,將源語言向量空間和目標語言向量空間關(guān)聯(lián)起來,最后抽取出滿足本文要求的句子對齊單元,針對短語對齊語料的獲取,采用條件隨機場模型計算短語翻譯概率,并綜合使用了詞匯概率、短語長度比例、短語包含(或不被包含)詞數(shù)、詞性以及構(gòu)詞等多種特征,抽取出對齊的短語單元。值得注意的一點是,在整個語料的建設(shè)過程中資源的利用是可重復的、迭代的、不斷更新的。實驗結(jié)果證明,該文提出的思想和方法是可行的,并且是有正確性保證的,這樣的工作也會對機器翻譯以及雙語詞典編纂有重要的影響。
參考文獻:
[1] Ashish Vaswani Liang Huang David Chiang. Smaller Alignment Models for Better Translations: Unsupervised Word Alignment with the l0-norm[C]. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 311–319, Jeju, Republic of Korea, 8-14 July 2012.
[2] Vamshi Ambati, Stephan Vogel and Jaime Carbonell. Active Learning-Based Elicitation for Semi-Supervised Word Alignment[C]. Proceedings of the ACL 2010 Conference Short Papers, pages 365–370, Uppsala, Sweden, 11-16 July 2010.
[3] ElifEyioz, Daniel Gildea, Kemal Oflazer. Simultaneous Word-Morpheme Alignment for Statistical Machine Translation[C]. Proceedings of NAACL-HLT 2013, pages 32–40, Atlanta, Georgia, 9–14 June 2013.
[4] Robert C. Moore, A Discriminative Framework for Bilingual Word Alignment[C],Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 81–88, Vancouver, October 2005.
[5] Robert C. Moore Wen-tau Yih Andreas Bode. Improved Discriminative Bilingual Word Alignment[C]. Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 513–520, Sydney, July 2006.
[6] Abraham Ittycheriah and Salim Roukos, A Maximum Entropy Word Aligner for Arabic-English Machine Translation[C], Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 89–96, Vancouver, October 2005.
[7] Necip Fazil Ayan and Bonnie J. Dorr, A Maximum Entropy Approach to Combining Word Alignments[C], Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 96–103, New York, June 2006.
[8] Yang Liu, Qun Liu and Shouxun Lin, Log-linear Models for Word Alignment[C], Proceedings of the 43rd Annual Meeting of the ACL, pages 459–466, Ann Arbor, June 2005.
[9] 吳宏林, 劉紹明, 于戈. 基于加權(quán)二部圖的漢日詞對齊[J]. 中文信息學報, 2007,1(5).