何鐘豪,蘇勁松,史曉東,陳毅東,黃研洲
(1. 廈門大學(xué) 智能科學(xué)與技術(shù)系, 福建 廈門 361005;2. 廈門大學(xué) 軟件學(xué)院, 福建 廈門 361005)
機器翻譯中,在不同的語言或者同一語言內(nèi)部的不同方言之間,存在著非單調(diào)性對應(yīng),從而導(dǎo)致源語言和目標(biāo)語言之間的短語順序不同,這就是調(diào)序問題[1]。由于這種問題普遍存在,并且會對機器翻譯的效果產(chǎn)生重要影響,如果處理不當(dāng),會導(dǎo)致翻譯錯誤,所以調(diào)序問題在機器翻譯中是一個非常重要的問題。
針對這個問題,很多學(xué)者進行了深入的研究,建立了許多模型。在這一系列模型當(dāng)中,括號轉(zhuǎn)錄語法模型[2](Bracket Transduction Grammar,BTG)所使用的括號轉(zhuǎn)錄文法較為簡單,而且對雙語翻譯現(xiàn)象具有很高的覆蓋率,適合于機器翻譯建模。因此,括號轉(zhuǎn)錄語法模型近年來引起了研究者們的廣泛關(guān)注。而本文的研究工作就是在括號轉(zhuǎn)錄語法模型的基礎(chǔ)上展開的。
括號轉(zhuǎn)錄文法當(dāng)中包含有兩條短語規(guī)則用于調(diào)整短語間的順序,但是在解決調(diào)序問題時仍然存在局限性: 由于沒有包含短語的具體內(nèi)容信息,對于兩個相鄰的短語塊組合在一起時是否需要調(diào)序,無法進行很好的判斷與處理[3]。對此,熊提出了基于最大熵的括號轉(zhuǎn)錄語法(Maximum Entropy Based BTG,MEBTG)模型[4]。該模型在BTG翻譯模型的基礎(chǔ)上引入一個最大熵調(diào)序模型,通過將相鄰短語塊合并時是否需要調(diào)序看成是一個分類問題,構(gòu)建了一個最大熵分類器,并融合入多種特征,較好地解決了BTG模型無法有效處理調(diào)序的問題。但是,基于最大熵的括號轉(zhuǎn)錄語法模型的發(fā)展仍未成熟,在翻譯過程中還存在一些不足,其中較為顯著的一個問題是: 在用于抽取調(diào)序?qū)嵗?reordering example)的實際雙語語料中,同序(翻譯過程中相鄰短語塊在源語言和目標(biāo)語言的順序保持一致即為同序)的短語實例數(shù)量遠大于逆序(翻譯過程中相鄰短語塊在源語言和目標(biāo)語言的順序相反即為逆序)的短語實例數(shù)量,這會導(dǎo)致在MEBTG模型中抽取得到的調(diào)序?qū)嵗嬖诟黝悩颖痉植疾痪鶆虻那闆r,容易造成由此訓(xùn)練產(chǎn)生的最大熵分類器的分類效果出現(xiàn)偏差,影響最終機器翻譯的質(zhì)量。
針對這個問題,本文在使用調(diào)序?qū)嵗?xùn)練最大熵分類器的過程中,引入了集成學(xué)習(xí)(Ensemble Learning)的方法,以解決調(diào)序?qū)嵗写嬖诘臄?shù)據(jù)不平衡問題。集成學(xué)習(xí)方法是根據(jù)樣本訓(xùn)練出多個具有差異性的分類器協(xié)同工作來完成分類任務(wù),對于減小分類誤差問題能夠提供有效的幫助。該方法在自然語言處理的許多研究領(lǐng)域都得到廣泛應(yīng)用。受到這些成功應(yīng)用的啟發(fā),我們相信集成學(xué)習(xí)方法能夠較好地解決MEBTG模型中存在的調(diào)序?qū)嵗龢颖痉植疾痪鶆虻膯栴},進而提高翻譯系統(tǒng)的性能。實驗表明,本文的方法能有效提高MEBTG模型的翻譯質(zhì)量。
本文其他部分安排如下: 第2節(jié)介紹相關(guān)工作;第3節(jié)介紹基于最大熵的括號轉(zhuǎn)錄語法模型;第4節(jié)介紹引入集成學(xué)習(xí)方法的調(diào)序模型;第5節(jié)給出實驗結(jié)果及分析;第6節(jié)給出相關(guān)結(jié)論以及未來的研究方向。
括號轉(zhuǎn)錄語法模型來源于吳[2]提出的反向轉(zhuǎn)錄語法(Inversion Transduction Grammar,ITG)模型的簡化模型,該模型以其簡潔和易于建立統(tǒng)計模型而廣泛應(yīng)用于自然語言處理的各個領(lǐng)域, 如詞對齊和統(tǒng)計機器翻譯等[1]。括號轉(zhuǎn)錄語法模型在對短語進行調(diào)序時,給每個短語分配了一個固定的基于語言對的調(diào)序概率,能夠有效降低短語調(diào)序的搜索空間。但是,該模型對于兩個相鄰的短語塊組合在一起時是否需要調(diào)序,仍然無法進行很好的判斷與處理,該問題近年來成為了研究者們的研究熱點,后續(xù)的許多研究也是針對該問題進行的改進。熊等人[4]針對BTG模型不能很好的解決短語的調(diào)序問題提出了MEBTG模型,該模型將短語是否需要調(diào)序看成是一個分類問題,采用最大熵分類器來對該問題進行建模。該模型考慮了翻譯短語所包含的邊界詞信息,因此能夠較好地解決BTG模型的短語調(diào)序問題。之后熊等人[5]在基于BTG模型的基礎(chǔ)上加入了一個基于語言學(xué)標(biāo)注的調(diào)序模型,在調(diào)序模型中加入了句法信息等語言學(xué)知識以幫助調(diào)序。張等人[6]在基于BTG模型的基礎(chǔ)上,使用卷積樹核方法在源端的句法樹中提取出結(jié)構(gòu)化的句法特征,并將其與其他線性特征融合入對數(shù)線性模型當(dāng)中來提高調(diào)序模型的預(yù)測能力。蘇等人[7]提出了一個基于依存的BTG模型,該模型在詞法規(guī)則中融合入了目標(biāo)端的依存信息,并使用兩個不同的最大熵模型來決定最后的調(diào)序問題。
與上面所提到工作在機器翻譯模型中引入句法信息的思路不同,陳等人[8]對于BTG模型中的最大熵調(diào)序模型進行了改進,在訓(xùn)練最大熵分類器時,不僅使用了調(diào)序?qū)嵗瑯蛹尤肓藦膶R平行語料中獲得的詞性標(biāo)注,詞語類別等特征以提高最大熵分類器的性能。同樣從特征入手,孫等人[9]針對最大熵訓(xùn)練時特征數(shù)據(jù)不平衡的問題進行了深入研究,對最大熵短語調(diào)序?qū)嵗卣鞯某槿∷惴ㄟM行了改進,從而能夠抽取出更多準(zhǔn)確的短語調(diào)序信息,特別是逆序短語的特征信息,并通過限制同序?qū)嵗臄?shù)目,解決最大熵訓(xùn)練過程中的數(shù)據(jù)不平衡問題,在此基礎(chǔ)上,又增加了首詞特征、組合特征等特征提高了系統(tǒng)翻譯的性能。而本文的工作與其不同之處在于,本文還是按原始的算法抽取出調(diào)序?qū)嵗约疤卣鳌T僭谟?xùn)練基于最大熵的調(diào)序模型的過程中引入集成學(xué)習(xí)的方法,對得到的調(diào)序?qū)嵗M行重采樣以構(gòu)成平衡數(shù)據(jù)集,以此來解決最大熵訓(xùn)練時特征數(shù)據(jù)不平衡的問題。由于本文只考慮對于調(diào)序?qū)嵗褂眉蓪W(xué)習(xí)的方法,所以仍然使用在MEBTG模型中使用的邊界詞特征。
由吳[2]提出的BTG模型中共有下面三條語法規(guī)則:
翻譯時,將源語言句子分割成短語序列進行處理,首先用詞匯規(guī)則(3)將源語言規(guī)則x翻譯成目標(biāo)語言規(guī)則y,之后使用短語規(guī)則(1)和(2),(1)表示的是同序規(guī)則, (2)表示的是逆序規(guī)則。這兩條短語規(guī)則分別表示兩個相鄰的小短語塊A1和A2在組合成一個大短語塊的情況下,翻譯時是否要交換位置。不斷使用這兩條規(guī)則就可以將連續(xù)的短語序列合并成一個句子。
MEBTG模型是在BTG模型的基礎(chǔ)上引入了一個基于最大熵的調(diào)序模型,通過將短語調(diào)序問題看成是一個兩個類別的分類問題,構(gòu)建了一個最大熵分類器并融入了合適的特征,從而更好地判斷相鄰短語塊合并時是否需要調(diào)序。
首先在相鄰塊A1和A2之間定義一個統(tǒng)一的調(diào)序模型框架,如式(1)所示。
其中o為A1和A2的順序,同序(straight)或者逆序(inverted),Ω為調(diào)序分數(shù)。
在此框架下,A1和A2的位置就有兩種可能性: 同序或者逆序。MEBTG模型中使用了基于最大熵的調(diào)序模型來預(yù)測兩個短語塊的順序,對于A1和A2位置的最大熵分數(shù)可用式(2)計算:
其中hi∈{0,1}為特征函數(shù),θi為相應(yīng)特征的權(quán)重。
調(diào)序?qū)嵗糜谟?xùn)練最大熵調(diào)序模型,因此抽取得到的調(diào)序?qū)嵗馁|(zhì)量好壞,直接影響到調(diào)序模型對短語順序預(yù)測的準(zhǔn)確度。在調(diào)序?qū)嵗某槿》矫姹疚膮⒖剂嘶谧畲箪卣{(diào)序模型當(dāng)中的抽取算法[1]。
由于短語的邊界單詞對預(yù)測相鄰塊語序的信息增益率(Information Gain Ratio, IGR)和整個短語的非常接近。這說明短語的邊界單詞能夠保留整個短語調(diào)序的信息[1]。所以對于從調(diào)序?qū)嵗刑崛〕龅淖畲箪胤诸惼魉玫降奶卣鳎疚氖褂梦苍~特征(短語中的最后一個單詞)。本文使用的四個特征分別為:
(1) 源語言端相鄰兩個短語塊的尾詞ct1和ct2;
(2) 目標(biāo)語言端相鄰兩個短語塊的尾詞et1和et2。
表1展示了我們從訓(xùn)練語料中抽取出來的調(diào)序?qū)嵗臉颖疽约跋鄳?yīng)的尾詞特征。
表1 調(diào)序?qū)嵗龢颖九c特征
注: 表中straight表示實例順序為同序,inverted表示實例順序為逆序。cp1和cp2分別表示源語言端的兩個相鄰短語塊,ct1和ct2分別表示源語言端短語塊對應(yīng)的尾詞特征,ep1和ep2分別表示目標(biāo)語言端的兩個相鄰的短語塊,et1和et2分別表示目標(biāo)語言端短語塊對應(yīng)的尾詞特征。
正如上文所述,從實際雙語語料抽取出的調(diào)序?qū)嵗?,存在?shù)據(jù)不平衡的情況。而用這樣的樣本去訓(xùn)練分類器,再對短語間的順序進行分類就屬于不平衡的分類問題。當(dāng)傳統(tǒng)的機器學(xué)習(xí)方法應(yīng)對這些不平衡分類問題時,往往出現(xiàn)分類器性能下降,得到的分類器具有很大的偏向性[10]。最常見的表現(xiàn)是少類樣本(樣本數(shù)較少的一類樣本)的識別率遠低于多類樣本(樣本數(shù)較多的一類樣本),這樣會導(dǎo)致本屬于少類的樣本往往被錯分到多類,導(dǎo)致最后的分類結(jié)果出現(xiàn)偏差。而用這樣的分類器去參與機器翻譯的建模,容易導(dǎo)致模型在預(yù)測相鄰短語塊合并的位置順序時產(chǎn)生錯誤,從而導(dǎo)致句子的翻譯錯誤,影響機器翻譯系統(tǒng)最終的翻譯質(zhì)量。
目前對于處理上述數(shù)據(jù)不平衡問題主要采用兩類策略: 一是改變訓(xùn)練集樣本的分布,降低數(shù)據(jù)不平衡程度,主要包括重采樣方法;二是針對非平衡類數(shù)據(jù)特點構(gòu)造新算法或改造現(xiàn)有算法,主要包括集成學(xué)習(xí)方法、代價敏感學(xué)習(xí)方法等[11]。
第一類策略中的重采樣方法是目前主流的針對數(shù)據(jù)不平衡的分類方法中應(yīng)用較多的方法。該方法又可以分為兩類: 欠采樣(under-sampling)方法以及過采樣(over-sampling)方法[12]。其中,過采樣方法通過復(fù)制已有或人工合成的方式引入額外的樣本,延長了分類器的訓(xùn)練時間,容易出現(xiàn)過度擬合的問題。而欠采樣方法是通過減少多類樣本使得兩類樣本數(shù)達到平衡,忽略了大部分潛在的有用的多類樣本,因此可能會降低分類器的性能。
第二類策略中,代價敏感學(xué)習(xí)方法能夠?qū)﹀e分的少類樣本做出更大的懲罰,顯著提高少類的分類準(zhǔn)確率。但是該方法的缺點是,在多數(shù)實際情況中很難對錯分的代價給出一個準(zhǔn)確的估計,這使得整體的性能提升得不到保證。而集成學(xué)習(xí)方法在訓(xùn)練階段通過在多個子訓(xùn)練集上自主選擇合適的訓(xùn)練算法來生成獨立的子分類器,因此能從不同的算法中選擇最佳的子分類器并將它們的預(yù)測結(jié)果合并,使最終的分類器具有較高的性能[13]。目前,集成學(xué)習(xí)方法也被廣泛應(yīng)用到各個領(lǐng)域當(dāng)中。因此,本文引入了集成學(xué)習(xí)的方法來解決MEBTG模型中存在的調(diào)序?qū)嵗龢颖痉植疾痪鶆虻膯栴}。
集成學(xué)習(xí)方法包含三個重要的因素: 采樣策略、分類器訓(xùn)練方法以及分類器集成方法。首先通過采樣獲得合適的樣本,其次根據(jù)得到的樣本訓(xùn)練出多個分類器協(xié)同工作來完成分類任務(wù)。這些分類器具有一定的互補功能,對于減小分類誤差能夠提供有效的幫助。例如,Bagging[14]就是一個比較成功的集成學(xué)習(xí)算法。它通過對訓(xùn)練樣本采用有放回隨機采樣技術(shù)(Bootstrap采樣[14]),訓(xùn)練出多個具有差異性的分類器。然后,采用多數(shù)投票規(guī)則等融合方法,將每個基分類器獨自產(chǎn)生的分類結(jié)果,融合形成最終的集成分類結(jié)果。在本文引入集成學(xué)習(xí)的方法中,我們使用重采樣方法來獲得集成個體間的差異性。
下文將具體介紹本文所采用的采樣方法以及多分類器融合方法。
本文參考了Bagging的思想,對從語料中抽取出來的調(diào)序?qū)嵗M行了無放回和有放回的欠采樣兩種方法。
其中無放回欠采樣方法的實現(xiàn)步驟如下: 首先從所有的同序?qū)嵗?,隨機抽取與逆序?qū)嵗龜?shù)量相同的同序?qū)嵗痑1,與逆序?qū)嵗瘶?gòu)成一個平衡數(shù)據(jù)集S1;其次從排除了a1的同序?qū)嵗?,隨機抽取與逆序?qū)嵗龜?shù)量相同的同序?qū)嵗痑2,構(gòu)成一個平衡數(shù)據(jù)集S2;依此類推,一共構(gòu)造出N個平衡數(shù)據(jù)集S1,...,SN。最后將這N個平衡數(shù)據(jù)集作為訓(xùn)練樣本,使用最大熵工具訓(xùn)練出N個最大熵分類器。這里N的大小是由同序?qū)嵗臄?shù)量與逆序?qū)嵗臄?shù)量的比值決定的。
而有放回欠采樣方法的實現(xiàn)步驟與無放回欠采樣方法的實現(xiàn)步驟大致相同,具體如下: 首先從所有的同序?qū)嵗校S機抽取與逆序?qū)嵗龜?shù)量相同的同序?qū)嵗痓1,與逆序?qū)嵗瘶?gòu)成一個平衡數(shù)據(jù)集T1;其次從所有的同序?qū)嵗?,另外隨機抽取與逆序?qū)嵗龜?shù)量相同的同序?qū)嵗痓2,構(gòu)成一個平衡數(shù)據(jù)集T2;依此類推,同樣構(gòu)造出N個平衡數(shù)據(jù)集T1...TN。最后將這N個平衡數(shù)據(jù)集作為訓(xùn)練樣本,使用最大熵工具訓(xùn)練出N個最大熵分類器。這里N的值與無放回欠采樣方法中的N的值相同。
有放回欠采樣方法與無放回欠采樣方法的差別在于: 用于抽取平衡數(shù)據(jù)集中同序?qū)嵗脑纪驅(qū)嵗?,在無放回方法中其數(shù)目是不斷減少的,確保抽取到的每個同序?qū)嵗胁粫兄貜?fù)樣本,以增加訓(xùn)練得到的分類器之間的差異性;而有放回方法中實例數(shù)目是固定不變的,抽取得到的同序?qū)嵗锌赡艽嬖谥貜?fù)樣本。
對于上述集成學(xué)習(xí)方法得到的N個最大熵分類器,我們采用了兩種分類器融合方法對其結(jié)果進行融合。第一種方法是簡單融合法,我們將各分類器的分類結(jié)果作為單獨的特征,加入到對數(shù)線性模型當(dāng)中,再用最小錯誤率訓(xùn)練方法[15]給每個特征賦予一定的權(quán)重;第二種方法是性能加權(quán)投票法[16]。在集成學(xué)習(xí)中,常用的分類器集成方法是最大投票法,最大投票法是一種簡單的分類器融合方法,由基分類器先對樣本進行判斷得出自己的分類結(jié)果,對自己所預(yù)測的類投一票,最后得票最多的類就是融合學(xué)習(xí)算法最終的預(yù)測結(jié)果。而性能加權(quán)投票法是在最大投票法基礎(chǔ)上的改進,通過給每個基分類器的分類結(jié)果加上一個權(quán)重,從而讓不同基分類器的分類性能得以體現(xiàn)。如式(3)所示。
其中,oj表示的是由第i個分類器確定的兩個相鄰短語塊A1和A2之間的順序: 同序或者逆序。fi表示的是第i個分類器,λi表示的是分類器fi的加權(quán)系數(shù),o表示的是N個分類器融合后得到相鄰短語塊A1和A2之間的最終順序。
最終的短語調(diào)序結(jié)果需要綜合考慮這N個分類器的分類結(jié)果。這樣可以改善傳統(tǒng)MEBTG模型中由于只使用一個分類器而產(chǎn)生的分類偏差問題,對于短語順序的預(yù)測能夠提供更好的幫助。
本文的實驗中,基線系統(tǒng)(Baseline)使用了基于短語的MEBTG翻譯模型。該模型使用了基于對數(shù)線性模型[17]的統(tǒng)計機器翻譯框架,依據(jù)此框架,本文一共采用了8個特征作為對數(shù)線性模型的特征函數(shù),分別是:
(1) 源短語到目標(biāo)短語的翻譯概率;
(2) 目標(biāo)短語到源短語的翻譯概率;
(3) 源短語到目標(biāo)短語的詞匯化權(quán)重;
(4) 目標(biāo)短語到源短語的詞匯化權(quán)重;
(5) 語言模型;
(6) 詞懲罰;
(7) 短語懲罰;
(8) 最大熵調(diào)序模型分數(shù)。
本文實驗中使用的訓(xùn)練語料為包含F(xiàn)BIS語料以及LDC語料中英國國會議事錄部分的語料,訓(xùn)練語料中一共包含約98萬的平行句對。從訓(xùn)練語料當(dāng)中抽取出的調(diào)序?qū)嵗?,同序?qū)嵗臄?shù)量約為980萬個,逆序?qū)嵗臄?shù)量約為230萬個。我們從中分別隨機抽取出100萬個同序?qū)嵗约?0萬個逆序?qū)嵗?,用于測試最大熵分類器的準(zhǔn)確率,而剩下的1 090萬個實例用于訓(xùn)練最大熵分類器。為了使所有的逆序?qū)嵗寄茉诜诸愡^程中發(fā)揮作用,我們根據(jù)同序?qū)嵗c逆序?qū)嵗龜?shù)量的比例來確定基分類器的數(shù)量,因此,本文在引入集成學(xué)習(xí)方法的實驗中,一共訓(xùn)練得到4個最大熵基分類器。開發(fā)集使用的是NIST MT 2002的測試集,測試集使用的是NIST MT 2005的測試集。對于本文在翻譯模型中使用到的其他工具,語言模型使用SRILM工具*http://www.speech.sri.com/projects/srilm/根據(jù)Gigaword語料訓(xùn)練出的四元語言模型。詞語對齊工具采用的是GIZA++[18]。本文采用了張樂開發(fā)的訓(xùn)練工具包*http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html作為訓(xùn)練調(diào)序?qū)嵗淖畲箪胤诸惼鞯墓ぞ甙?。對于實驗結(jié)果,我們采用大小寫不敏感的BLEU[19]來評價翻譯質(zhì)量,并且對不同方法的翻譯結(jié)果進行顯著性測試[20]。表2展示了我們所用的實驗數(shù)據(jù)。
注: 其中‘K’表示的是單位“千”,‘M’表示的是單位“百萬”。
為了對比本文引入集成學(xué)習(xí)方法的實驗優(yōu)劣,本文同樣采用另外幾種重采樣方法單獨做了幾個對比實驗,實驗方法如下:
(1) 隨機過采樣: 以多類樣本數(shù)量為參照,在少類樣本中通過過采樣方法隨機選擇樣本,使得少類樣本數(shù)與多類樣本數(shù)達到平衡,并訓(xùn)練出一個最大熵分類器;
(2) 簡單過采樣: 以多類樣本數(shù)量為參照,直接不斷復(fù)制所有少類樣本,使得少類樣本數(shù)與多類樣本數(shù)達到平衡,并訓(xùn)練出一個最大熵分類器;
(3) 隨機欠采樣: 以少類樣本數(shù)量為參照,在多類樣本中使用欠采樣方法隨機選擇樣本,采樣得到一個多類樣本的子集,使得多類樣本數(shù)與少類樣本數(shù)達到平衡,并訓(xùn)練出一個最大熵分類器。
表3展示了通過使用不同重采樣方法訓(xùn)練得到的最大熵分類器,對于前文提到的100萬個同序?qū)嵗约?0萬個逆序?qū)嵗姆诸悳?zhǔn)確率??梢钥闯?,原始不平衡數(shù)據(jù)訓(xùn)練得到的分類器,對于同序?qū)嵗姆诸悳?zhǔn)確率較高,而對于逆序?qū)嵗姆诸悳?zhǔn)確率要低于其他方法,這是由于不平衡數(shù)據(jù)中,多類樣本要遠多于少類樣本,因此在分類過程中容易導(dǎo)致少類被錯分到多類,從而降低了少類樣本的分類準(zhǔn)確率。隨機欠采樣由于拋棄了大量可能對分類產(chǎn)生幫助的多類樣本,因此訓(xùn)練得到的分類器準(zhǔn)確率要小于兩種過采樣的方法。而對于集成學(xué)習(xí)方法中獲得的4個分類器,由于都是使用欠采樣方法獲得的,因此分類準(zhǔn)確率同樣低于過采樣的方法。
表3 不同采樣方法的分類器準(zhǔn)確率
注: 其中單分類器方法只包含一個分類器,對應(yīng)一個準(zhǔn)確率;集成學(xué)習(xí)方法包含有4個分類器,對應(yīng)4個準(zhǔn)確率;“同序”表示的是分類器對同序?qū)嵗姆诸悳?zhǔn)確率,“逆序”表示的是分類器對逆序?qū)嵗姆诸悳?zhǔn)確率。
通過表4的實驗結(jié)果我們可以看出,對于采用的所有采樣方法,實驗結(jié)果相對于Baseline都有一定的提升。由于Baseline的分類器對于逆序?qū)嵗姆诸悳?zhǔn)確率較低,因此實驗結(jié)果均低于本文所使用的其他的方法。而隨機過采樣方法跟隨機欠采樣方法的分類性能差異不大,而且均使用單分類器的方法,提升效果不明顯。由于隨機欠采樣的方法只是從多類樣本中選擇部分樣本,使得大量未選中的多類樣本在后面的分類過程中未能發(fā)揮作用,從而丟失了很多可能對分類有幫助的樣本。而隨機過采樣的方法也只是隨機的復(fù)制少類樣本,并沒有增加額外的信息,所以對分類的性能不會產(chǎn)生很大的幫助,不能從本質(zhì)上解決少類樣本的稀缺性和數(shù)據(jù)表示的不充分性。
表4 不同采樣方法的實驗結(jié)果
注: “簡單”表示采用的是簡單融合法,“投票”表示采用的是性能加權(quán)投票法。實驗結(jié)果中“*”和“**”系統(tǒng)相比基線系統(tǒng)翻譯質(zhì)量具有顯著提升(顯著水平p<0.05和p<0.01)。
本文使用的集成學(xué)習(xí)方法能夠?qū)嶒灲Y(jié)果有較為顯著的提高,雖然每個分類器的準(zhǔn)確率均低于過采樣方法的分類器準(zhǔn)確率,但是由于集成分類器綜合考慮了多分類器的結(jié)果,因此能夠有效減少分類誤差,提高機器翻譯質(zhì)量。對比有放回方法和無放回方法,由于有放回方法在采樣過程中會丟失許多訓(xùn)練樣本,因此分類準(zhǔn)確率不如無放回的方法,最后的實驗效果也弱于無放回的方法。對于本文使用的兩種分類器集成方法,性能加權(quán)投票法在考慮了各個分類器分類結(jié)果的基礎(chǔ)上,還充分考慮了各個分類器的分類性能,而由于本文實驗中各個分類器之間性能差異不大,因此該方法相對于簡單地將所有分類結(jié)果單獨作為特征方法的提升效果不明顯。
從表4中可以看出,本文使用的方法最多相比基線系統(tǒng)提高了近1.0的BLEU值,可見本文使用的集成學(xué)習(xí)方法對于MEBTG模型在解決短語調(diào)序的問題上,能夠提供有效的幫助。
本文針對MEBTG模型中用于最大熵分類器訓(xùn)練的調(diào)序?qū)嵗臄?shù)據(jù)分布不平衡的問題,引入了集成學(xué)習(xí)多分類器融合的方法。實驗結(jié)果表明,這個方法能夠有效提高機器翻譯的質(zhì)量,特別是其中通過性能加權(quán)投票融合的無放回欠采樣的方法,能夠比基線系統(tǒng)提升近1.0的BLEU值。比較研究還發(fā)現(xiàn),對于傳統(tǒng)的過采樣和欠采樣的方法,該方法都有明顯的優(yōu)勢。
在未來的研究工作中,我們會研究如何更好地使用其他學(xué)習(xí)算法層面的策略,包括代價敏感學(xué)習(xí)和特征選擇方法等來解決數(shù)據(jù)不平衡的分類問題,同樣,我們也會考慮用更進一步的融合方法,例如貝葉斯融合法、基于D-S證據(jù)理論的整合方式等來融合訓(xùn)練出的多分類器的分類結(jié)果。同時,不平衡數(shù)據(jù)分類問題中,特征的選擇方式也有異于傳統(tǒng)的特征選擇方式,如何更有效的選擇合適的特征來提高分類的效果,也是我們下一步研究的方向。
[1] 熊德意.基于括號轉(zhuǎn)錄語法和依存語法的統(tǒng)計機器翻譯研究[D].北京: 中國科學(xué)院計算技術(shù)研究所,2007.
[2] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora[J]. Computational linguistics,1997,25(6): 377-403.
[3] 劉群. 基于句法的統(tǒng)計機器翻譯模型與方法. 中文信息學(xué)報. 2011, 25(6): 63-71.
[4] Deyi Xiong,Qun Liu, Shouxun Lin. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics,Sydney, Australia,2006: 521-528.
[5] Deyi Xiong,Min Zhang,Aiti Aw. A linguistically annotated reordering model for BTG-based statistical machine translation[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies,Columbus,Ohio,USA,2008: 149-152
[6] Min Zhang,Haizhou Li. Tree kernel-based SVM with structured syntactic knowledge for BTG-based phrase reordering[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing,Suntec,Singapore,2009: 698-707.
[7] Jinsong Su,Yang Liu,Haitao Mi. Dependency-based bracketing transduction grammar for statistical machine translation[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Beijing,China,2010: 1185-1193.
[8] Hanbin Chen,Jiancheng Wu, Jason S Chang. Learning bilingual linguistic reordering model for statistical machine translation[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Boulder Colorado,USA,2009: 254-262.
[9] 孫萌,姚建民,呂雅娟,等. 基于最大熵短語調(diào)序模型的特征抽取算法改進[J]. 中文信息學(xué)報,2011,25(2): 78-82.
[10] Shoushan Li,Guodong Zhou,Zhongqing Wang. Imbalanced Sentiment Classification[C]//Proceedings of the 20th ACM international conference on information and knowledge management,Glasgow,Scotland,UK,2011: 2469-2472.
[11] 葉志飛,文益民,呂寶糧. 不平衡分類問題研究綜述[J]. 智能系統(tǒng)學(xué)報,2009,4(2): 148-156.
[12] Zhongqing Wang,Shoushan Li,Guodong Zhou. Imbalanced Sentiment Classification with Multi-Strategy Ensemble Learning[C]//Proceedings of the International Conference on Asian Language Processing,Penang,Malaysia,2011: 131-134.
[13] 錢洪波,賀廣南. 非平衡類數(shù)據(jù)分類概述[J]. 計算機工程與科學(xué),2010,32(5): 85-88.
[14] Leo Breiman. Bagging Predictors[J], Machine Learning,1996a,24: 123-140.
[15] Franz Josef Och. Minimum Error Rate Training in Statistical Machine Translation[C]//Proceedings of the 41rd Annual Meeting of the Association for Computational Linguistics,Sapporo,Japan,2003: 160-167.
[16] 張仰森,郭江. 動態(tài)自適應(yīng)加權(quán)的多分類器融合詞義消歧模型[J]. 中文信息學(xué)報,2012,26(1): 3-8.
[17] Franz Josef Och,Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual Meeting of the Association forComputational Linguistics,Philadelphia,2002: 295-302.
[18] Franz Josef Och,Hermann Ney.Improved statisticalalignment models[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,Hong Kong,2000: 440-447.
[19] Kishore Papineni,SalimRoukos,Todd Ward. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,Philadelphia,2002: 311-318.
[20] Ying Zhang,Stephan Vogel,Alex Waibel. Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Havea Better System?[C]//Proceedings of The International Conference on Language Resources and Evaluation,Lisbon,Portugal,2004: 2051-2054.