李 文,李 淼,梁 青,朱 海,應(yīng)玉龍,烏達(dá)巴拉
(1. 中國科學(xué)院 合肥智能機(jī)械研究所,安徽 合肥 230031;2. 中國科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230027;3. 大同電力高級(jí)技工學(xué)校,山西 大同 037039)
形態(tài)切分的目標(biāo)是將詞切分為詞素(詞義基本單位,本文指的是詞干、詞綴的集合)。形態(tài)豐富的語言,例如蒙古語、土耳其語、俄語、西班牙語等,通常語言構(gòu)形成分承載著大量的語法信息。形態(tài)切分成為自然語言處理中的很多領(lǐng)域,包括語音識(shí)別[1]、機(jī)器翻譯[2-3]、信息檢索[4]等重要研究方向,因而形態(tài)分析是蒙古文信息處理諸多應(yīng)用系統(tǒng)的一個(gè)不可或缺的模塊。
蒙古文形態(tài)分析屬于序列標(biāo)注問題,當(dāng)前所采用的主要方法有: (1)詞典和規(guī)則相結(jié)合的分析方法[5];(2)統(tǒng)計(jì)和規(guī)則相結(jié)合的分析方法[5]?;谠~典的方法通過查詞典的方式查到一個(gè)詞是由哪些詞干和詞綴構(gòu)成的,雖然對(duì)語料庫中詞切分準(zhǔn)確率可以達(dá)到很高,但該方法受詞典的規(guī)模限制且存在二義性問題?;谝?guī)則的方法主要依據(jù)專家總結(jié)規(guī)則,存在規(guī)則總結(jié)不完全、切分錯(cuò)誤和切分二義性問題?;诮y(tǒng)計(jì)和規(guī)則相結(jié)合的蒙古語形態(tài)切分方法[6],主要利用規(guī)則生成形態(tài)切分候選項(xiàng),蒙古文詞素統(tǒng)計(jì)語言模型作為排歧依據(jù),分別有基于詞性的語言模型和Skip-N語言模型,其正確率與基于規(guī)則和詞典相結(jié)合的形態(tài)切分系統(tǒng)相比有較大的提高,然而該方法仍然受到規(guī)則的限制。
與上述方法不同,針對(duì)詞表詞切分存在二義性的問題,本文將蒙古文形態(tài)切分類比為機(jī)器翻譯問題,提出了基于短語統(tǒng)計(jì)機(jī)器翻譯形態(tài)切分模型(Phrase Based Statistical Machine Translation Morphological Segmentation, PSMTMS)。該模型的核心思想將切分前的序列視為源語言,切分后的序列視為目標(biāo)語言,采用統(tǒng)計(jì)機(jī)器翻譯的方法達(dá)到形態(tài)切分的目的。由于采用了基于統(tǒng)計(jì)的短語機(jī)器翻譯系統(tǒng),形態(tài)分析是以短語為單位進(jìn)行切分的。相對(duì)以單個(gè)詞為單位進(jìn)行切分,短語更好地考慮了切分的上下文信息。
機(jī)器翻譯的思想也曾在自然語言的相關(guān)領(lǐng)域有應(yīng)用,Quirk[7]將統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)用于釋義生成系統(tǒng),Stefan Riezler[8]將統(tǒng)計(jì)機(jī)器翻譯技術(shù)用于問答系統(tǒng)的問題詢問擴(kuò)展,Ming Zhou[9]將基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)用于對(duì)聯(lián)生成系統(tǒng)。由于基于短語的機(jī)器翻譯形態(tài)切分系統(tǒng)考慮了詞的上下文關(guān)系,系統(tǒng)不僅可以很好地處理詞的歧義切分問題,而且對(duì)語料庫中錯(cuò)誤的人工標(biāo)注具有很強(qiáng)的容錯(cuò)能力。
對(duì)未登錄詞的切分,采用了最小上下文代價(jià)構(gòu)成模型(Minimum Constituent - Context Cost Model, MCCCM),此模型主要考慮了詞的一元上下文切分信息。為了在切分過程中更全面地考慮切分上下文信息,融入了詞綴的N元上下文信息。
(1)
其中,hm(e,f)是e,f的特征函數(shù),λ1,…,λM是與這些特征分別對(duì)應(yīng)的特征參數(shù)。
機(jī)器翻譯的思想與形態(tài)切分系統(tǒng)對(duì)應(yīng),源語言即為切分前表面詞形s。由于蒙古文形態(tài)切分存在切分歧義的問題,其切分后存在n種切分狀態(tài)s1s2…sn,為了消除切分歧義,找到s的最佳切分組合。本文以短語為單位,考慮s中詞切分的上下文特征。類似于基于短語的機(jī)器翻譯模型,本系統(tǒng)選取了反映切分忠實(shí)度的短語翻譯模型、反應(yīng)短語有效性的詞匯化翻譯模型和反映切分流利度的語言模型等特征,具體見表1。
表1 特征選取
短語翻譯模型反映了切分忠實(shí)度, 并體現(xiàn)了原始表面詞形和切分后表面詞形的依賴關(guān)系??梢愿鶕?jù)如下公式通過計(jì)算相對(duì)頻率的方法計(jì)算短語翻譯概率:
(2)
Koehn等證實(shí)詞匯化翻譯模型[12]能夠體現(xiàn)短語翻譯對(duì)的有效性。為了保證切分前后,詞素序列的有效性,形態(tài)切分系統(tǒng)里也增加了詞匯化翻譯模型。
(3)
(4)
count(fj,ej)是詞fj和ej同時(shí)出現(xiàn)在F和E對(duì)齊語料中的次數(shù),與機(jī)器翻譯里的詞匯化模型類似,本文也考慮了逆向詞匯化模型。
形態(tài)切分后的結(jié)果是詞素序列,詞素的統(tǒng)計(jì)語言模型能夠衡量詞素序列的有效性,其公式為:
hlm=log∏ip(ei|ei-2,ei-1)
(5)
本模型的基本思想: 根據(jù)選取的特征定義切分代價(jià),對(duì)任意待切分的詞,搜索使切分代價(jià)總和最小的切分狀態(tài),其核心是詞素上下文特征的選擇和構(gòu)建, 解碼算法采用維特比算法。
上下文構(gòu)成模型(Constituent-Context Model, CCM)最早由Klein和Manning[11]用作語法歸納。Hoifung在非監(jiān)督式的對(duì)數(shù)線性形態(tài)切分模型中借用該方法構(gòu)建詞素環(huán)境模型[13],Klein考慮了一元上下文特征,Hoifung考慮了N-gram詞素上下文環(huán)境。因?yàn)楸灸P退幚淼膶?duì)象是未登錄詞,切分出來的詞干很多也是語料庫中未出現(xiàn)過的,所以本文不僅考慮了一元詞素上下文環(huán)境,而且也考慮了詞綴N-gram上下文環(huán)境。詞的形態(tài)切分可視作一棵樹,樹根表示詞,樹葉分別表示詞素。
例如: 拉丁蒙文$0G0DB0RILAGDAHV-ACA切分后,可以表示為圖1所示的一棵樹形圖。
圖1 詞切分樹結(jié)構(gòu)
最小切分代價(jià)考慮了兩方面: 1. 詞匯一元上下文切分代價(jià),即各詞綴構(gòu)成整詞的代價(jià);2. 詞綴N-gram上下文切分代價(jià),即詞與詞間的詞綴的n元關(guān)系代價(jià)。D=m1m2…mn構(gòu)成詞的詞素符號(hào)序列,蒙古文的詞綴可能有多個(gè),本文考慮了詞綴n元語言模型信息Suf=s1s2…sl,以句子為輸入單元,句子總的代價(jià)C定義為:
(7)
訓(xùn)練過程抽取得到詞綴一元詞典和詞綴的N元概率詞典設(shè)詞。根據(jù)一元詞典,枚舉出對(duì)待切分的詞的所有的切分狀態(tài),采用動(dòng)態(tài)規(guī)劃算法搜索切分代價(jià)最小的最佳切分狀態(tài)。word長度為T,其字符序列word=a1a2…aT。設(shè)Cost(T)為長為T的詞切分代價(jià),對(duì)于整個(gè)詞其切分代價(jià)由一元上下文切分代價(jià)和詞綴N-gram上下文切分代價(jià)組成,Min{Cost(T)}表示長度為T的詞最小切分代價(jià)。Cost(T,l)表示長度為T的字符串a(chǎn)1a2…aT切分成aT-laT-l+1aT和a1a2…al兩個(gè)子串的代價(jià)。Cost(T-l)表示長度為T-l的字符串切分代價(jià),Suf(aT-laT-l+1aT)為詞綴aT-laT-l+1aTN-gram上下文切分代價(jià)。
Min{Cost(T)}=Min{Cost(T,l)+Cost(Suf(aT-laT-l+1…aT))}+Min{Cost(T-l)}
(8)
解碼算法采用維特比算法計(jì)算使切分代價(jià)C最小的狀態(tài),總體分為兩步: (1)遍歷各種切分狀態(tài)并保存切分代價(jià)和路徑;(2)回溯求解最小切分代價(jià)下的狀態(tài)組合。
本文所使用的訓(xùn)練語料由內(nèi)蒙古大學(xué)提供,語料中的詞已經(jīng)被人工切分為詞干和構(gòu)型詞綴,因而,本文的詞素特指詞干和構(gòu)形詞綴的集合??紤]到蒙古語詞形還原的變化特點(diǎn)和機(jī)器翻譯的具體應(yīng)用,本文研究了兩種形態(tài)切分方式,一種對(duì)詞干進(jìn)行了還原變化處理,另一種則忽略了詞干還原這一現(xiàn)象,使詞干字符串序列與出現(xiàn)在詞中的字符串保持一致。
蒙古語的詞形變化是通過將構(gòu)形詞綴黏附于詞干后來實(shí)現(xiàn)的,且一個(gè)詞干后可以層層附加多個(gè)構(gòu)形詞綴以表達(dá)詞語之間復(fù)雜的語法關(guān)系。本文使用的原始語料庫是以拉丁轉(zhuǎn)寫形式錄入,利用內(nèi)蒙古大學(xué)的蒙古語詞法分析系統(tǒng)Darhan進(jìn)行詞的切分和標(biāo)注,得到蒙古語詞素及其標(biāo)注信息,并通過人工校對(duì)來確保詞法分析結(jié)果的準(zhǔn)確性[14]。蒙古語的詞法切分過程中,詞干的切分存在詞干還原的現(xiàn)象,如BAYIG_A切分為BAI+G_A,其詞干BAYI還原為了BAI,如上所述,除了保留詞干還原這一變化現(xiàn)象的切分方法以外,本文同時(shí)考慮了忽略詞干還原后的形態(tài)切分方法。因此本文將語料庫中還原的詞干轉(zhuǎn)換為表面詞形中存在的形式,即將BAYIG_A的切分結(jié)果轉(zhuǎn)換為BAYI+G_A。
語料庫中存在著大量的錯(cuò)誤切分,依據(jù)切分后單個(gè)詞干、詞綴的長度不大于切分前詞的長度的原則,將錯(cuò)誤的語料過濾掉。將語料劃分為形態(tài)切分訓(xùn)練語料和測試語料,劃分比例為9∶1。訓(xùn)練語料共34 171句、246 688詞,測試語料3 796句、27 332詞。劃分后,測試集的未登錄詞有1 901個(gè),占測試集總詞數(shù)的7.0%。
同時(shí),為了形象了解語料庫中的切分粒度,本文依據(jù)切分后構(gòu)形詞綴的數(shù)目,統(tǒng)計(jì)了詞的概率分布。其中,切分后沒有構(gòu)形詞綴的詞占51.69%,有一個(gè)構(gòu)形詞綴詞占39.51%,有兩個(gè)及兩個(gè)以上數(shù)目構(gòu)形詞綴詞占8.8%。
利用機(jī)器翻譯方法進(jìn)行形態(tài)切分的基本思想是將切分前的表面詞形和切分后的詞分別看作機(jī)器翻譯的目標(biāo)語言和源語言句子。將切分好的語料格式轉(zhuǎn)換為雙語語料的形式,源語言為切分前表面詞形,目標(biāo)語言為切分后的表面詞形,示例如下:
蒙古文切分前源語料:
DVRALAL DAYIN H0YAR-TV ILADAG ARG_A BOHON-I HEREGLEJU B0L0N_A
蒙古文切分后目標(biāo)語料:
DVRALAL DAYIN H0YAR+-TV ILA+DAG ARG_A BOHON+-I HEREGLE+JU B0L+0+N_A
本系統(tǒng)將開源的Moses[15]系統(tǒng)作為實(shí)驗(yàn)平臺(tái)。本文利用開源語言模型訓(xùn)練工具SRILM進(jìn)行N-gram語言模型的訓(xùn)練,平滑算法統(tǒng)一采用改進(jìn)的 Kneser-Ney 平滑算法,本文對(duì)切分后的語料訓(xùn)練了三元語言模型。語料庫中,在特定的上下文環(huán)境中一個(gè)詞只有一種切分結(jié)果,因而切分前后的語料是句子對(duì)齊的平行語料。為了充分利用Moses系統(tǒng)里的短語抽取及翻譯模型訓(xùn)練工具,本文將切分前后的平行語料的對(duì)齊關(guān)系轉(zhuǎn)換為雙向GIZA++對(duì)齊格式。解碼使用了基于短語的解碼器Moses,特征選取了翻譯模型,語言模型,所有的模型特征參數(shù)值設(shè)定為均勻分布的概率值。
此模型考慮到了詞素的一元上下文信息,構(gòu)形詞綴的N-gram上下文信息。對(duì)于詞素的一元上下文信息,訓(xùn)練語料庫的每個(gè)詞只考慮一種切法。初始語料庫中一個(gè)詞可能有多種切法,其中不乏有錯(cuò)誤的切分,因而對(duì)每種詞本文保留頻率最高的切分狀態(tài)。
詞綴的N-gram上下文信息用到了N-gram語言模型, 為了方便處理,直接采用語言模型訓(xùn)練工具SRILM進(jìn)行N-gram語言模型的訓(xùn)練。本文訓(xùn)練了詞綴五元語言模型,也采用了改進(jìn)的 Kneser-Ney 平滑算法。
本文共設(shè)計(jì)了兩組實(shí)驗(yàn): PSMTMS 是基于短語的統(tǒng)計(jì)機(jī)器翻譯形態(tài)切分系統(tǒng),SMTMS+ MCCCM 先用基于短語的形態(tài)切分系統(tǒng)對(duì)詞表詞進(jìn)行形態(tài)切分,然后采用MCMM對(duì)未登錄詞進(jìn)行處理,忽略了詞干還原。PSMTMS+MCCCM +STEM則是在PSMTMS+ MCCCM上考慮了詞干還原這一語言現(xiàn)象。
本系統(tǒng)的評(píng)測以整詞為評(píng)測單元,對(duì)形態(tài)切分效果的評(píng)價(jià),以準(zhǔn)確率為評(píng)價(jià)指標(biāo), 切分結(jié)果統(tǒng)計(jì)見表2。
表2 切分結(jié)果
如表2所示,系統(tǒng)提出的基于短語統(tǒng)計(jì)機(jī)器翻譯形態(tài)切分系統(tǒng)總的切分正確率為92.38%,未登錄詞處理后總的正確率為96.94%。未考慮詞干還原的切分準(zhǔn)確率略高于考慮詞干還原現(xiàn)象。
本文的切分考慮的是字符串層面上的切分,以未進(jìn)行詞性標(biāo)注的語料為輸入,對(duì)上下文信息的考慮以詞綴本身為主,故而與Kurimo[4], 那順烏日?qǐng)D[14]不同,未對(duì)兼類詞和某種具體的詞性進(jìn)行特殊的處理。在不考慮未登錄詞的切分情況下,而只對(duì)詞表詞進(jìn)行切分,基于短語統(tǒng)計(jì)機(jī)器翻譯形態(tài)切分系統(tǒng)切分的準(zhǔn)確率達(dá)到了99.71%。若只考慮未登錄詞的切分,最小代價(jià)模型主要考慮的詞的一元上下文信息及詞綴的N元語言語言模型信息,對(duì)未登錄詞的切分準(zhǔn)確率為63.61%。測試語料中未登錄詞占7.0%,基于短語統(tǒng)計(jì)機(jī)器翻譯形態(tài)切分為對(duì)未登錄詞進(jìn)行處理,未登錄詞處理之前準(zhǔn)確率為92.38%,未登錄詞處理后總的形態(tài)切分準(zhǔn)確率為96.94%,可見兩種模型的有機(jī)結(jié)合大大的提高了蒙古語形態(tài)切分準(zhǔn)確率。
針對(duì)PSMTMS中形態(tài)切分特征選取問題,本文詳細(xì)分析了每個(gè)特征加入后對(duì)切分結(jié)果的影響,具體的特征選取實(shí)驗(yàn)結(jié)果見表3。
表3 特征選取實(shí)驗(yàn)結(jié)果
如表3所示,短語翻譯模型(TM)和語言模型(LM)對(duì)形態(tài)切分系統(tǒng)的影響最大,只有短語翻譯模型和語言模型時(shí),準(zhǔn)確率為92.13%,隨著模型的增多,系統(tǒng)的準(zhǔn)確率也隨著增大,當(dāng)加入短語翻譯模型、逆向短語翻譯模型(Inverted PTM)、詞匯化模型(Lexical Weight)、逆向詞匯化模型(Inverted LW)后準(zhǔn)確率為92.38%。PSMTMS是通過增加特征模型來考慮上下文環(huán)境的,上述實(shí)驗(yàn)顯示,逐漸的加入不同的特征模型后,PSMTMS系統(tǒng)的切分準(zhǔn)確率也隨之增大。
詞表詞的形態(tài)切分主要是解決詞表詞切分歧義和錯(cuò)誤切分問題。本實(shí)驗(yàn)顯示,PSMTMS對(duì)詞表詞切分的準(zhǔn)確率高達(dá)99.7%,足可證明,PSMTMS不僅有效地解決切分歧義問題,同時(shí)對(duì)語料庫中存在的錯(cuò)誤切分問題可以很好的處理。
針對(duì)未登錄詞處理,本文采用了最小上下文構(gòu)成代價(jià)模型對(duì)未登錄詞進(jìn)行處理,模型中詞干和詞綴都視為詞素信息。然而在實(shí)際問題中,詞干、詞綴在長度、頻率等方面有一定差異,若是不將它們加以區(qū)分,會(huì)導(dǎo)致詞干過度切分。依據(jù)語料庫中每種詞切分后的詞素?cái)?shù)量進(jìn)行統(tǒng)計(jì),由三個(gè)及三個(gè)以上詞素構(gòu)成的詞占總數(shù)的8.8%,由一個(gè)和兩個(gè)詞素構(gòu)成的詞占91.2%。在這樣的語料環(huán)境下,過度切分問題會(huì)進(jìn)一步加重。因此,本文的未登錄詞的處理準(zhǔn)確率很大程度上受過度切分影響。
本文的形態(tài)切分系統(tǒng)沒有考慮詞形的變換和標(biāo)注,且測試集、訓(xùn)練集存在較大差異,故測試結(jié)果與文獻(xiàn)[4,14]中的蒙古語形態(tài)分析方法沒有可比性,僅作為參考。
漢蒙機(jī)器翻譯系統(tǒng)中,漢語屬于非形態(tài)語言(孤立語),蒙古語屬于形態(tài)豐富(黏著語)的語言。由于語言形態(tài)信息不對(duì)稱,當(dāng)從漢語向蒙古語進(jìn)行翻譯時(shí),經(jīng)常會(huì)遇到由于基本詞形變化(即形態(tài)特征)而導(dǎo)致的選擇歧義問題,從而造成譯文詞形變化上的錯(cuò)誤(例如,數(shù)、格、人稱、性別的不一致以及動(dòng)詞時(shí)態(tài)、語態(tài)不符合上下文等),加深了譯文在語法、語義、語用等多個(gè)層面的錯(cuò)誤。同時(shí),鑒于漢蒙雙語語料規(guī)模有限,語言形態(tài)的變化進(jìn)一步加重了數(shù)據(jù)稀疏問題。鑒于此問題,本文將蒙古語形態(tài)切分結(jié)果用于機(jī)器翻譯系統(tǒng),通過機(jī)器翻譯的效果進(jìn)一步驗(yàn)證本文所提出的方法的有效性和實(shí)用性。
本文所采用的機(jī)器翻譯系統(tǒng)結(jié)構(gòu)視為以詞素為軸的鏈?zhǔn)綑C(jī)器翻譯系統(tǒng)。采用文中所提出的形態(tài)切分方法,將蒙古語切分為詞素后,即可得到蒙古語-詞素的平行語料。 首先利用漢語蒙古語詞素訓(xùn)練漢語到詞素的短語機(jī)器翻譯系統(tǒng)(SMT1),將漢語翻譯成蒙古語詞素,然后利用蒙古語詞素平行語料訓(xùn)練詞素到蒙古語的短語機(jī)器翻譯系統(tǒng) (SMT2),以此將詞素翻譯成蒙古語表面詞形。具體的系統(tǒng)框圖請(qǐng)參考圖2。
圖2 鏈?zhǔn)綑C(jī)器翻譯系統(tǒng)
機(jī)器翻譯系統(tǒng)的訓(xùn)練使用了第五屆全國機(jī)器翻譯研討會(huì)提供的67 255句對(duì)漢蒙雙語語料,本文將雙語的蒙古語部分統(tǒng)一轉(zhuǎn)換為拉丁轉(zhuǎn)寫形式。單一機(jī)器翻譯訓(xùn)練借助了Moses開源平臺(tái),測試集選用了訓(xùn)練集之外的400句日常用語,由以蒙古語為母語的專業(yè)人員進(jìn)行翻譯,每個(gè)漢語句子對(duì)應(yīng)四種譯文。評(píng)測時(shí),將拉丁轉(zhuǎn)寫的結(jié)果轉(zhuǎn)換為傳統(tǒng)蒙文的形式進(jìn)行評(píng)測?;€系統(tǒng)(Baseline)是蒙古語未經(jīng)切分的基于短語的漢蒙統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。表4和表5分別是參數(shù)調(diào)整前和調(diào)整后的評(píng)測結(jié)果,其中,Chain1和Chain2均是利用了詞素信息的鏈?zhǔn)綑C(jī)器翻譯系統(tǒng),Chain1的形態(tài)切分方法考慮了詞干還原語言現(xiàn)象,Chain2的形態(tài)切分方法忽略了詞干切分還原的現(xiàn)象。
表4 調(diào)參前的評(píng)測結(jié)果
表5 調(diào)參后的評(píng)測結(jié)果
評(píng)測標(biāo)準(zhǔn)選用了N-gram匹配的方法BLEU[16]和NIST。BLEU評(píng)測方法主要是統(tǒng)計(jì)翻譯結(jié)果與參考譯文間共同出現(xiàn)的N-gram數(shù),再將N-gram數(shù)除以翻譯結(jié)果的單詞總數(shù),得到最終的評(píng)測結(jié)果。NIST評(píng)測方法是在BLEU的基礎(chǔ)上提出的一種不同的N-gram統(tǒng)計(jì)方法,BLEU中各種不同元數(shù)的N-gram的權(quán)值是一樣的,而NIST考慮了N-gram的信息量,對(duì)不同的N-gram賦予對(duì)應(yīng)于信息量的不同權(quán)重。如果一個(gè)N-gram在參考譯文中出現(xiàn)次數(shù)越少,則其所包含的信息量越大,對(duì)應(yīng)的權(quán)重也更高。
由表4和表5的機(jī)器翻譯評(píng)測結(jié)果可以看到,本文所提到的形態(tài)切分方法所切分的詞素均可以提高機(jī)器翻譯系統(tǒng)的性能。Chain1中考慮了詞干切分還原現(xiàn)象,Chain2中忽略了此變化,機(jī)器翻譯評(píng)測結(jié)果顯示,忽略詞干變化后的翻譯效果略優(yōu)于考慮了詞干還原現(xiàn)象的翻譯效果。產(chǎn)生此現(xiàn)象的原因可能源于考慮詞干還原后,詞干本身就以表面詞形的形式出現(xiàn)在語料庫中,導(dǎo)致切分出來的詞干無法與語料庫中的部分表面詞形區(qū)分開來。例如,Chain1考慮了詞干還原,BAYIGA會(huì)被切分為BAI+GA,而Chain2忽略了詞干還原,BAYIGA會(huì)被切分為BAYI+GA。與此同時(shí),BAI在語料庫中也會(huì)以一個(gè)獨(dú)立的詞的形式出現(xiàn),因而,Chain1無法區(qū)分BAI究竟是詞素還是整詞。
本文借鑒了機(jī)器翻譯的思路,嘗試使用基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),解決蒙古文的形態(tài)切分問題。為了解決未登錄詞切分問題,引入了最小上下文構(gòu)成切分代價(jià)模型,實(shí)驗(yàn)表明,兩種模型的有機(jī)結(jié)合,使蒙古文的切分正確率達(dá)到很高。然而本文所提出的蒙古文形態(tài)切分系統(tǒng)仍存在一些問題有待進(jìn)一步探索。本文所提出的短語機(jī)器翻譯切分系統(tǒng)對(duì)語料庫中出現(xiàn)的詞表詞的切分準(zhǔn)確率較高,然而無法對(duì)未登錄詞進(jìn)行處理,因而如何在PSMTMS中引入未登錄詞處理的特征模型還有待進(jìn)一步研究。最小上下文構(gòu)成代價(jià)模型,對(duì)未登錄詞的處理準(zhǔn)確率不是特別高,因而對(duì)該模型的特征選取和相應(yīng)的約束限制方法也需要更加深入的研究。將切分結(jié)果用于機(jī)器翻譯系統(tǒng)里,實(shí)驗(yàn)評(píng)測結(jié)果顯示,機(jī)器翻譯的效果有了顯著的提高,間接的證實(shí)了本文方法的有效性。與此同時(shí),測評(píng)結(jié)果顯示,切分過程中,忽略詞干變化后的翻譯效果略優(yōu)于考慮了詞干還原的翻譯效果。因而,在今后的研究工作中,除了考慮通用的切分方法,同時(shí)還要針對(duì)具體的應(yīng)用探討新的形態(tài)切分方案。
[1] Creutz, Mathias.Induction of the Morphology of Natural Language: Unsupervised Morpheme Segmentation with Application to Automatic Speech Recognition[D].Ph.D.Thesis, Computer and Information Science, Report D13, Helsinki, University of Technology, Espoo, Finland,2006.
[2] 楊攀,張建,李淼,等.漢蒙統(tǒng)計(jì)機(jī)器翻譯中的形態(tài)學(xué)方法研究[J].中文信息學(xué)報(bào),2009,23(1): 50-57.
[3] 駱凱,李淼,烏達(dá)巴拉,等.漢蒙翻譯模型中的依存語法與形態(tài)信息應(yīng)用研究[J].中文信息學(xué)報(bào),2009,23(6): 98-104.
[4] Kurimo, Mikko and Ville Turunen.2008.Unsupervised Morpheme Analysis Evaluation by IR Experiments-Morpho Challenge 2008[C]//Working Notes for the CLEF 2008 Workshop.
[5] 葉嘉明.基于規(guī)則的蒙古語詞法分析研究與實(shí)現(xiàn)[D].碩上學(xué)位論文.北京: 北京大學(xué),信息科學(xué)技術(shù)學(xué)院,2005.
[6] 侯宏旭,劉群,那順烏日?qǐng)D.基于統(tǒng)計(jì)語言模型的蒙古文詞切分[J].模式識(shí)別與人工智能,2009,22(1): 108-112.
[7] Chris QUIRK, Chris BROCKETT and William DOLAN.Monolingual Machine Translation for Paraphrase Generation[C]//Proceedings of EMNLP. 2004: 142-149.
[8] Stefan Riezler, Alexander Vasserman, Ioannis Tsochantaridis, Vibhu Mittal and Yi Liu. Statistical Machine Translation for Query Expansion in Answer Retrieval[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 464-471.
[9] Long Jiang, Ming Zhou. Generating Chinese Couplets using a Statistical MT Approach[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). 2008: 377-384.
[10] F.J. Och and H. Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings o the 40th Annual Meeting of the Association for Computational Linguistics (ACL), 2002: 295-302.
[11] Dan Klein and Christopher D. Manning. Natural language grammar induction using a constituent context model[C]//Advances in Neural Information Processing Systems 14. 2001: 35-42.
[12] Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation[C]//Proceedings oHLT-NAACL, 2003: 127-133.
[13] Hoifung Poon, Colin Cherry, Kristina Toutanova. Unsupervised Morphological Segmentation with Log-Linear Models[C]//The 2009 Annual Conference of the North American Chapter of the ACL. 2009: 209-217.
[14] 那順烏日?qǐng)D.蒙古文詞根、詞干、詞尾自動(dòng)切分系統(tǒng)[J].內(nèi)蒙古大學(xué)學(xué)報(bào): 人文社會(huì)科學(xué)版,1997,29(2): 53-57.
[15] P.Koehn, Hieu Hoang, Alexandra Birch et al. Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the ACL 2007 Demo and Poster Sessions(ACL 2007). 2007: 177-180.
[16] Kishore Papieni, Salim Roukos,Todd Ward, et al. BLEU: A Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the ACL, 2002: 311-318.