李萍,楊勇,任鴿,賽買提·艾力
(新疆師范大學計算機科學技術學院,烏魯木齊 830054)
基于HMM與詞典的漢維詞對齊研究
李萍,楊勇,任鴿,賽買提·艾力
(新疆師范大學計算機科學技術學院,烏魯木齊 830054)
詞對齊被廣泛的用于基于短語的統(tǒng)計機器翻譯中,詞對齊效果的好壞直接影響了機器翻譯的質量。提出將隱馬爾科夫模型用于漢維詞對齊時,由于漢維雙語標記的數(shù)據(jù)量比較大而且標記數(shù)據(jù)也還沒有公開,導致漢維詞對齊的質量較差,也沒有辦法進行評價,提出采用基于詞典的方法進行對齊評價,實現(xiàn)漢維雙語詞典的構建系統(tǒng),實驗表明,該方法的效果較好,并同時構建漢維雙語語料庫。
隱馬爾科夫模型;詞對齊;詞典;語料庫
在統(tǒng)計機器翻譯中,詞對齊是一個重要的組成部分。在詞對齊的研究中,經(jīng)典的非監(jiān)督詞對齊方法主要是基于IBM模型1-IBM模型5[1]詞對齊方法和基于HMM模型的詞對齊方法[2]。這六種模型可以將他們分類,IBM1、IBM2和HMM分為一類,這類模型比較容易處理和實現(xiàn),IBM模型3、IBM模型4和IBM5分為一類,這類模型不容易處理,但是準確性更高。GIZA++軟件工具將這兩種模型都進行了實現(xiàn),因此很多的研究者都使用GIZA++來進行詞對齊,本文也將使用此工具進行漢維詞對齊的實驗。
在IBM5模型和HMM模型基礎上,對詞對齊的研究,很多的學者也提出了一些其他方法,文獻[3]沒有采用統(tǒng)計的方法,而是考慮將語言學知識融入詞對齊過程中,語言學知識包括語義、詞性等,初步的對齊是在基于詞典的方法上,這種方法需要計算雙語詞語的語義相似度;文獻[4]提出了基于錨點詞對的詞對齊方法,這種方法獨立于前六種模型,實現(xiàn)較簡單,但其依賴于詞典,在初步對齊時,如果詞典的數(shù)量不夠,則對齊就比較粗糙;文獻[5]提出了加權二部圖的漢日詞對齊方法,此方法也是在基于詞典的基礎上,首先根據(jù)雙語詞典判斷雙語是否對齊,在不對齊的情況下,再根據(jù)相似性、詞性等特征來計算兩個詞語的相似性,從而判斷是否對齊;文獻[6]為了提高漢維之間的詞對齊質量,提出了對維吾爾語進行形態(tài)分析,將詞干和詞綴進行分離。
這些方法中有些未考慮到未登錄詞的情況,有的比較依賴于雙語詞典,對詞典的構建要求較高,將維吾爾語詞干和詞綴進行分離后,對齊的效果不是特別明顯,而且增加了對齊的負責性,對于對齊后詞典的再次構建也不是很有利,另外有些方法沒有解決詞語之間的一對多或多對多的情況。
鑒于漢語維吾爾語關于詞對齊之間的標記語料較少的情況,本文提出了將HMM模型應用于漢維詞對齊中,對于對齊后的評價采用基于詞典的方式進行評價,對于詞對齊后的結果,再次修改雙語詞典,使得雙語詞典更豐富。
隱馬爾科夫模型由一個五元組構成:
其中S為狀態(tài)的集合,K為輸出符號的集合,π,A,B分別為初始狀態(tài)的概率分布,狀態(tài)轉移概率,符號發(fā)射概率[7]。
在詞對齊問題中,源語言為隱馬爾科夫模型中觀察符號,目標語言為狀態(tài),對齊位置a為內部狀態(tài)序列。其中隱馬爾科夫模型的初始狀態(tài)概率,狀態(tài)轉換概率和符號發(fā)射概率都可以通過HMM的參數(shù)估計得到。
在進行詞對齊時,首先需要對隱馬爾科夫模型進行參數(shù)估計,這里采用期望最大化方法EM進行參數(shù)估計,具體實現(xiàn)EM方法時,采用前向后向算法。
在t時刻位于狀態(tài)si,在t+1時刻位于狀態(tài)sj的概率:
模型 μ的參數(shù)可以采用下面三個公式循環(huán)估計,直到所有的參數(shù)收斂為止:
在時間t位于狀態(tài)si的概率為:
通過隱馬爾科夫模型的參數(shù)估計運算,得到模型,然后根據(jù)源語言即觀察序列和模型,使用維特比算法得到最佳的解釋序列,即最佳的內部狀態(tài),內部狀態(tài)序列即為對齊位置a。
由于漢維語料較少,人工標注工作量大,公開的漢維雙語詞典更少,為了漢維的自動化翻譯,漢維雙語詞典的構建尤其重要,本文利用基于HMM的詞對齊方法,將對齊的結果與已有的詞典進行相似度計算,反過來作用于雙語詞典,讓雙語詞典更豐富。為了構建初步的雙語詞典,利用互聯(lián)網(wǎng)上的雙語詞典檢索系統(tǒng),構建本地雙語詞典庫。
本地雙語詞典檢索系統(tǒng)截圖:
圖1 漢維雙語詞典檢索系統(tǒng)
目前已經(jīng)構建了農業(yè)領域的3萬個漢維雙語詞典,如圖2所示,構建了以大連理工大學信息檢索實驗室的情感詞為基礎,構建了3萬個漢維雙語情感詞詞典,如圖3所示。
圖2 農業(yè)領域的雙語詞典
圖3 情感詞雙語詞典
本地漢維雙語詞典自動化構建算法描述:
步驟1:從漢維雙語檢索系統(tǒng)的首頁獲取查詢詞或詞對齊結果。
步驟2:與詞典里的數(shù)據(jù)進行匹配,若匹配成功,將對應的維語顯示在系統(tǒng)上,詞典查詢結束。若匹配失敗,進入步驟3。
步驟3:根據(jù)查詢詞從網(wǎng)站izda上抓取網(wǎng)頁數(shù)據(jù)。
步驟4:網(wǎng)頁數(shù)據(jù)預處理,并且使用正則表達式匹配對應的漢維雙語。
步驟5:將獲取到的漢維雙語存入到漢維雙語詞典庫中,并將結果顯示在漢維雙語檢索系統(tǒng)中。
目前詞對齊的評價主要是三方面的,一個是召回率prec,一個是準確率rec,還有一個是對齊錯誤率AER[8-9]。本文根據(jù)對齊的結果和已構建的詞典,將對齊的結果與詞典里的詞動態(tài)比較,判斷其正確性,將詞語入庫,重新構建詞典,同時得到維吾爾語的詞綴,以便于后續(xù)研究。
本文采用giza++來進行漢維詞對齊,進行詞對齊之前,先獲取漢維雙語平行語料,部分平行語料如表1所示:
在詞對齊之前,需要對漢語進行分詞,分詞后的結果如表2所示:
表2
詞對齊結果如下圖所示:
圖4 詞對齊結果
本文采用基于HMM的漢維詞對齊方法,對平行語料進行漢維詞對齊,將對齊的結果存入詞典中,并且在沒有標注語料的情況下,通過相似性比較,來對詞對齊結果的正確性進行判斷,最后得到漢維雙語詞典,構建和實現(xiàn)了漢維雙語詞典,為以后的研究提供語料基礎。本文在一些方面還存在不足,例如對齊的質量方面,對齊的質量也會影響詞典的質量,詞典和對齊的結果互相依賴,在以后的研究中還有待提高。
[1]F Brown,Peter&Della Pietra,Stephen&Della J Pietra,Vincent&Mercer,Robert.(1993).The Mathematics of Statistical Machine Translation:Parameter Estimation.Computational Linguistics.19.263-311.
[2]Vogel S,Ney H,Tillmann C.HMM-Based Word Alignment in Statistical Translation[C].Conference on Computational Linguistics.DBLP,1996:836-841.
[3]晉薇,黃河燕,夏云慶.基于語義相似度并運用語言學知識進行雙語語句詞對齊[J].計算機科學,2002(11):44-47.
[4]張孝飛,陳肇雄,黃河燕,王建德.基于錨點詞對的雙語詞對齊算法[J].小型微型計算機系統(tǒng),2006(02):330-334.
[5]吳宏林,劉紹明,于戈.基于加權二部圖的漢日詞對齊[J].中文信息學報,2007(05):101-106.
[6]麥熱哈巴·艾力,王志洋,吐爾根·依布拉音.一種提高維吾爾語-漢語詞語對齊的方法研究[J].小型微型計算機系統(tǒng),2012,33.(11):2551-2555.
[7]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2013:110-111.
[8]Och F J,Ney H.Improved Statistical Alignment Models[C].Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2000:440-447.
[9]黃書劍,奚寧,趙迎功,戴新宇,陳家駿.一種錯誤敏感的詞對齊評價方法[J].中文信息學報,2009,23(03):88-94.
Research on Chinese-Uyghur Word Alignment Based on HMM and Lexicon
LI Ping,YANG Yong,SAI Mai Ti·Ai Li,REN Ge
(College of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)
Word alignment is widely used in statistical machine translation phrase based on phrase.The effect of word alignment directly affects the quality of machine translation.Puts forward using a hidden Markov model for Chinese-Uyghur word alignment,because of the large amount of bilingual marker data and the lack of labeled data,resulting in poor quality of Chinese Uyghur word alignment,there is no way to evaluate.Puts forward the evaluation method based on the alignment dictionary and constructs a bilingual dictionary system.The experiment shows that the effect is good and the Chinese Uighur bilingual corpus is constructed.
Hidden Markov Model;Word Alignment;Lexicon;Corpus
新疆師范大學優(yōu)秀青年教師科研啟動基金項目(No.XJNU201420)
1007-1423(2017)31-0007-04
10.3969/j.issn.1007-1423.2017.31.002
李萍(1989-),女,湖南株洲人,碩士,講師,研究方向為自然語言處理、機器學習
楊勇(1979-),男,陜西漢中人,副教授,博士,研究方向為自然語言處理
賽買提·艾力(1983-),男,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理
任鴿(19-),女,新疆烏魯木齊人,講師,碩士,研究方向為自然語言處理
2017-10-20
2017-11-03