麥合甫熱提,麥熱哈巴·艾力,阿孜古麗·廈力甫
(1.新疆大學(xué) 教務(wù)處,新疆 烏魯木齊 830046;2.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;3.新疆大學(xué) 人文學(xué)院,新疆烏魯木齊830046)
詞對齊是指從對應(yīng)的一對互譯句子中找到互為譯文的詞對.為了得到大量正確的詞對,可以使用詞典,但詞典往往有覆蓋面不廣、靈活性不強(qiáng)等缺點(diǎn).對一些詞語的靈活使用,特別是在不同上下文具有不同意思的情況下,詞典很難提供幫助.
GIZA++是目前最常用的詞對齊工具,因與語言無關(guān)并開源,深受使用者的青睞.但是GIZA++存在以下問題:對語料規(guī)模有一定的要求,當(dāng)語料規(guī)模不足時(shí)其對齊結(jié)果會降低;對于句子結(jié)構(gòu)不對稱的語言對齊效果并不理想;在形態(tài)變化復(fù)雜的語言上得到的對齊結(jié)果遠(yuǎn)遠(yuǎn)不如其它語言[1?2].
對維漢詞對齊而言,GIZA++除了受到以上所列的幾點(diǎn)約束以外,維吾爾語詞尾對詞對齊的影響也是需要考慮的問題.因?yàn)樵~尾不僅構(gòu)造維吾爾語詞的不同形態(tài)而導(dǎo)致數(shù)據(jù)的稀疏,同時(shí)也攜帶一定的語義信息,傳遞某種意思.
本文分析了維漢詞對齊中存在的問題,圍繞著維吾爾語中某些詞尾傳遞一定的意思,能夠?qū)R到漢語句子中某些詞的特點(diǎn),提出(1)對維吾爾語句子進(jìn)行詞法分析使得詞干和詞尾分離;(2)選擇性地保留詞尾的方法即“分離—丟棄”方案,來提高維漢詞對齊的正確率.本文將此方法應(yīng)用到維吾爾語詞性中詞尾數(shù)量較多.但較固定的名詞上,實(shí)驗(yàn)結(jié)果表明此方法對提高詞對齊正確率以及機(jī)器翻譯結(jié)果確實(shí)起到了積極的作用,可以將此方法擴(kuò)展到維吾爾語中其它詞性.
維吾爾語屬于阿爾泰語系突厥語族,是典型的粘著性語言,這意味著維吾爾語一個(gè)詞可以連接多個(gè)詞尾而且可以多層綴接,表示同一個(gè)詞干的不同語法功能.所以,經(jīng)常出現(xiàn)一個(gè)維吾爾語詞對應(yīng)到一個(gè)漢語短語的情況,有時(shí)這個(gè)漢語短語甚至是不連續(xù)的.如圖1和圖2是一對維漢句子在形態(tài)分析前后進(jìn)行詞對齊的結(jié)果.
圖1 維漢詞對齊一例(詞級別)
圖2 維漢詞對齊一例(經(jīng)過形態(tài)分析)
圖1中可以看出,yezidin對齊到“從···村莊”,而balilar對齊到“孩子們”.很顯然,這將導(dǎo)致很多漢語詞找不到對應(yīng)的維語譯文,特別是當(dāng)語料規(guī)模不是很大的時(shí)候此問題尤為突出.對于同一個(gè)例子,如果對維吾爾語句子進(jìn)行形態(tài)分拆即詞干與各詞尾分離,則得圖2所示的對齊結(jié)果,其中虛線表示通過形態(tài)分析后分離出來的詞尾以及與其對齊的漢語詞.顯然,進(jìn)行形態(tài)分析后,原來沒能準(zhǔn)確對齊的漢語詞差不多都對應(yīng)到了維語部分.
此外,維吾爾語中詞尾數(shù)量很多,對名詞而言達(dá)到將近50個(gè),某個(gè)類型的詞尾往往有不同的變體,如第一人稱單數(shù)就有四種變體-m,-im,um,m,它們形式不同但表達(dá)的意思相同.不同形態(tài)對計(jì)算機(jī)而言就是不同的詞.同一個(gè)詞尾的不同形式對詞對齊起一定的不利影響.我們隨機(jī)抽出了3萬個(gè)維漢句對,對xizmet(工作)一詞常用的不同形態(tài)出現(xiàn)的頻率做了統(tǒng)計(jì)(用斜體表示了其詞尾),其統(tǒng)計(jì)結(jié)果為表1所示.
從表中數(shù)字可看出:同一個(gè)詞干派生出來的不同形態(tài)對應(yīng)到了漢語中以”工作”為中心的詞或短語.第3行和第10行的詞尾”-te”和”-de”是一個(gè)詞尾的不同變體,表示“在”;第4行和第11行的詞尾”-tin”和”-din”也是一個(gè)詞尾的不同變體,表示”從”.它們雖然表達(dá)相同的意思,但因形式不同,被計(jì)算機(jī)認(rèn)為是不同的詞,沒能統(tǒng)計(jì)到一起.顯然,維吾爾語的這種派生能力很容易導(dǎo)致數(shù)據(jù)稀疏問題,毫無疑問也影響Giza++的對齊結(jié)果.
為解決以上問題,可采?。海?)對維吾爾語句子進(jìn)行詞法分析,使得詞干和各詞尾分離,來對齊更多的詞;(2)對屬于同一個(gè)詞尾的變體采取統(tǒng)一化形式,從而降低因形態(tài)不同產(chǎn)生的數(shù)據(jù)稀疏問題.因此,文獻(xiàn)[3]中提出對維吾爾語詞進(jìn)行詞干、詞尾分離,保留詞干的同時(shí)保留詞尾且對同一范疇的詞尾采用統(tǒng)一表示的方法,不僅一定程度上克服了數(shù)據(jù)稀疏問題,同時(shí)利用了詞尾攜帶的語義,對齊了更多的漢語詞.文獻(xiàn)[3]提出的方法中因?yàn)樵~尾被看成是一個(gè)獨(dú)立的token,雖然可以提高對齊準(zhǔn)確率及召回率,但導(dǎo)致句子長度變得過長.有些本身詞數(shù)較多的句子,因token數(shù)量變得過多,Giza++進(jìn)行對齊之前被過濾掉.同時(shí),我們注意到雖然維吾爾語的詞尾帶著一定的語義信息,但是由于維吾爾語和漢語言的不同特性,維吾爾語詞尾對應(yīng)的譯文并不是每次都是明文顯示,有時(shí)候需要通過上下文或者通過標(biāo)點(diǎn)符號(表示語調(diào))的形式表現(xiàn)出來.為了既保證降低數(shù)據(jù)稀疏以及讓更多的詞得到對齊,又克服句子長度變得過長的問題,本文采取了選擇性的保留詞尾的方法.
表1 xizmet(工作)一詞的不同形態(tài)以及出現(xiàn)頻率
上一節(jié)分析結(jié)果讓我們進(jìn)一步研究到底詞尾粒度怎樣制定對詞對齊有更大的貢獻(xiàn)?是不是所有的詞尾都需要分離?或者應(yīng)該選擇性的分離?甚至是否丟棄?
為了得到詞尾在維漢詞對齊中起到的作用,我們對語料做了一系列統(tǒng)計(jì)及分析.語料為新疆電視臺提供的每日新聞聯(lián)播為主的新聞?wù)Z料,維吾爾語小說《故鄉(xiāng)》(總3冊)以及維吾爾語小說《蘇醒的大地》(共2冊)等.新聞聯(lián)播可體現(xiàn)與當(dāng)今國內(nèi)、國外以及百姓生活的方方面面且具有一定的實(shí)時(shí)性;文學(xué)領(lǐng)域一般都被認(rèn)為能夠體現(xiàn)某種語言的表達(dá)能力及特色,對于各種詞的不同形態(tài)以及詞尾的出現(xiàn)具有一定的概括能力,這是我們?yōu)槭裁催x擇這些語料作為統(tǒng)計(jì)對象的原因.語料規(guī)模及相關(guān)數(shù)據(jù)可參見表2.
表2 不同語料統(tǒng)計(jì)信息
我們對以上語料做了詞法分析,即詞干和各詞尾分離,后統(tǒng)計(jì)了每一種詞尾的出現(xiàn)頻率,表3為出現(xiàn)頻率最高的10個(gè)詞尾的信息,從表中數(shù)據(jù)可看出,雖然語料不同,但出現(xiàn)頻率最高的詞尾幾乎相同.下一步,我們對已做詞法分析后的句子用Giza++做了詞對齊,并統(tǒng)計(jì)了每一種詞尾在漢語詞對齊后的結(jié)果,見表4.表分為兩欄,左欄顯示的是正確對齊次數(shù)高于錯(cuò)誤對齊次數(shù)的詞尾,其中正確對齊次數(shù)用下劃線表示;右欄顯示的是正確對齊次數(shù)少于錯(cuò)誤對齊次數(shù)的詞尾.統(tǒng)計(jì)結(jié)果顯示,有些詞尾正確對齊到相應(yīng)漢語的頻率遠(yuǎn)高于錯(cuò)誤對齊的情況(大部分體現(xiàn)為介詞、連詞等).還有些詞尾從漢語句子中根本找不到對應(yīng)的譯文,結(jié)果導(dǎo)致錯(cuò)誤的對齊結(jié)果,比如:所有的語料中出現(xiàn)頻率最高的詞尾+i表示第三人稱單數(shù)的詞尾,但在漢語句子中往往沒有一個(gè)詞于其對齊.經(jīng)分析后發(fā)現(xiàn),這些詞尾雖然在維吾爾語句子中有一定的語義信息,但漢語句子中往往通過上下文或者標(biāo)點(diǎn)符號等不同方式表達(dá)出來或忽略.
產(chǎn)生這種結(jié)果的原因在于維漢兩種語言屬不同語法范疇.其不同之處主要體現(xiàn)在以下兩種情況:
(1)一個(gè)語言所擁有的語法范疇在另一種語言中可能不存在.如:維吾爾語名詞有數(shù)、領(lǐng)屬及格范疇,但漢語沒有;而漢語有補(bǔ)足語范疇,但維吾爾語則沒有.俄語有性別范疇,但維吾爾語、漢語都沒有;
(2)有些范疇雖然不同語言都擁有,但其表達(dá)的意思則不同.如:維吾爾語、俄語等都有動詞的語態(tài),但俄語中沒有被動語態(tài)、相互共同態(tài)等.
總之,每種語言都有自己的語法范疇,不能將某個(gè)語言的語法范疇強(qiáng)行對應(yīng)到另一種語言的語法范疇.語法范疇的不同,導(dǎo)致兩種語言對同一內(nèi)容的不同表示方法,進(jìn)而導(dǎo)致某些語法范疇漏翻、增翻等現(xiàn)象.
從以上分析不難看出,對維吾爾語詞尾采取選擇性的保留,即:保留被明文翻譯可能性大的詞尾,舍去明文翻譯概率低的詞尾,這樣既能保證對齊數(shù)量的增長,又能克制由于詞法分析導(dǎo)致的句子長度過長的問題.
表3 不同詞尾的統(tǒng)計(jì)結(jié)果
表4 詞對齊后各詞尾的對齊情況統(tǒng)計(jì)
為了驗(yàn)證我們的結(jié)論,我們嘗試了對維吾爾語詞尾的選擇性保留方案,本文將其稱為“分離—丟棄”方案.其中,分離是指對漢語中有譯文的可能性高的詞尾進(jìn)行詞尾與詞干分離;丟棄是指對漢語中譯文出現(xiàn)的可能性低的詞尾進(jìn)行丟棄.不管是分離,還是丟棄,都是在統(tǒng)計(jì)分析及語言特征基礎(chǔ)之上進(jìn)行,沒有絕對的對或錯(cuò)之別,其目的是盡可能地發(fā)揮詞尾對詞對齊的正面影響.同時(shí),通過丟掉翻譯概率較低的詞尾來克服句子長度問題.
不失一般性,我們將此方案應(yīng)用到維吾爾語名詞詞尾.因?yàn)?,維吾爾語詞性大致可分為靜詞和動詞,維吾爾語中動詞詞尾最多,形態(tài)變化既豐富又復(fù)雜;靜詞包括名詞、形容詞、副詞等詞性.其中名詞的詞尾數(shù)量位居動詞之后,但數(shù)量穩(wěn)定、形態(tài)變化不像動詞復(fù)雜,易分析,具有一定的代表性.
維吾爾語名詞的形態(tài)構(gòu)形形式:詞干+[數(shù)]+[人稱]+[格],(方括號表明可選).如:
名詞不同范疇有不同的詞尾,總數(shù)達(dá)到50個(gè).根據(jù)不同范疇分析,名詞的分離—丟棄方案實(shí)施為如下:
數(shù)范疇(Number)
數(shù)范疇表示名詞的單數(shù)和復(fù)數(shù).單數(shù)沒有詞尾,復(fù)數(shù)詞尾為-lar,-ler,但漢語中復(fù)數(shù)除了人名后加“們”外,常常通過上下文來區(qū)分,這一點(diǎn)與維吾爾語不同.所以對數(shù)范疇采取了丟棄方案.如:
Nurghun(很多)kitab(書)+lar很多書;Jiq(許多)Alma(蘋果)+lar許多蘋果.
人稱范疇(Person)
維吾爾語屬于主語可省略(pro-drop)型語言,被省略的主語可以從人稱詞尾知道.屬于維吾爾語名詞人稱范疇的詞尾個(gè)數(shù)達(dá)到20個(gè),其中第三人稱單、復(fù)數(shù)詞尾-i,-si出現(xiàn)在N+N結(jié)構(gòu)中的次數(shù)最多,因?yàn)榫S吾爾語中名詞修飾名詞時(shí),被修飾名詞以第三人稱單、復(fù)數(shù)形式出現(xiàn).如:
這種情況下,第三人稱單(復(fù))數(shù)在目標(biāo)(漢語)語往往沒有對應(yīng)的譯文.因此,對其采用丟棄方案.而第一、第二人稱單、復(fù)數(shù)詞尾分別對應(yīng)到漢語的“我、我們、你、你們、您、您們”,采用分離方案;
根據(jù)以上分離—丟棄方案,我們構(gòu)造了不同詞尾粒度的模板.為了找到最有效的詞尾粒度方案,我們對不同模板賦予了序號,序號大者包括序號小的模板方案,如:模板MN2包含了模板MN1采用的方案以外,又增加了新的方案.以下為不同模板的標(biāo)示符及采用的規(guī)則:
MN1:采用了名詞格范疇的方案;MN2:在MN1的基礎(chǔ)上增加了名詞人稱范疇的方案;MN3:在MN2的基礎(chǔ)上增加了名詞數(shù)范疇的方案.
為了驗(yàn)證維吾爾語名詞的分離—丟棄方案對維漢詞對齊的影響,我們設(shè)置了兩種實(shí)驗(yàn):實(shí)驗(yàn)一著重分析此方案對AER(對齊錯(cuò)誤率)的影響,實(shí)驗(yàn)二分析了此方案對機(jī)器翻譯的影響.
實(shí)驗(yàn)一:分離—丟棄方案對AER的影響
實(shí)驗(yàn)中使用了CWMT2013提供的維漢新聞?lì)I(lǐng)域平行語料,包含11萬條句對,并使用GIZA++做詞對齊.為了評價(jià)詞對齊的結(jié)果,仍然采用了AER(對齊錯(cuò)誤率)[4]評價(jià)標(biāo)準(zhǔn).
為了發(fā)現(xiàn)不同詞尾粒度對維漢詞對齊的影響并找到最理想的詞尾粒度,我們將以上模板依次應(yīng)用到維吾爾語句子上,并與漢語語料構(gòu)成平行語料,總共構(gòu)成了3對訓(xùn)練語料.為得到AER的結(jié)果,還從每種訓(xùn)練語料中隨機(jī)挑出100條句子做手工對齊做為標(biāo)準(zhǔn)答案.同時(shí),對維吾爾語句子做詞法分析后詞干詞尾分離并保留所有詞尾的情況做為基線,依次計(jì)算每一個(gè)模板的AER值并與其做比較.實(shí)驗(yàn)結(jié)果見表5.
分析實(shí)驗(yàn)數(shù)據(jù),首先注意到語料中標(biāo)記數(shù)(token)的變化.每采用一種模板,token數(shù)都有所下降,說明通過模板的使用丟棄了一些無用的詞尾,降低了句子長度.AER的值都是下降的趨勢,說明丟棄分離方案對詞語對齊起的作用是積極的.
表5 不同模板AER值比較
實(shí)驗(yàn)二、分離—丟棄方案對機(jī)器翻譯的影響
實(shí)驗(yàn)?zāi)康氖强疾榇朔桨笇C(jī)器翻譯的影響,語料仍然是CWMT2013提供的面向新聞?lì)I(lǐng)域的維漢訓(xùn)練語料,規(guī)模與實(shí)驗(yàn)一相等,開發(fā)集為700條句子,測試語料為1000條句子構(gòu)成.實(shí)驗(yàn)中,我們?nèi)允褂昧碎_源工具M(jìn)oses(摩西)作為解碼器.為了分析不同模板對機(jī)器翻譯的影響,我們按每一種方案重新構(gòu)造訓(xùn)練語料、開發(fā)集及測試集并分別進(jìn)行了翻譯.實(shí)驗(yàn)中,把新疆多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室參加CWMT2013新聞?lì)I(lǐng)域維漢機(jī)器翻譯評測結(jié)果作為基線實(shí)驗(yàn),基線實(shí)驗(yàn)使用的語料與我們使用的語料相同,但語料中做詞法分析后只保留詞干并把所有的詞尾丟棄.對翻譯結(jié)果評價(jià)標(biāo)準(zhǔn)使用基于詞的BLEU[5]值.系統(tǒng)中,語言模型是利用工具SRILM[6]訓(xùn)練的三元模型,而訓(xùn)練數(shù)據(jù)是相應(yīng)訓(xùn)練集的中文部分,其他參數(shù)都沒改變,采用默認(rèn)值.實(shí)驗(yàn)結(jié)果為表6所示.
表6 不同模板對機(jī)器翻譯的影響
表中可以看出,不同模板對機(jī)器翻譯的影響不同,但都是向BLEU值提高的趨勢發(fā)展,特別是MN3的影響最明顯,提高幅度達(dá)到了1.12%.
綜上所述,分離—丟棄方案,對于形態(tài)復(fù)雜、詞尾攜帶一定語義信息的維吾爾語而言是可行的,通過分離方案盡可能地保留有意義的詞尾,同時(shí)通過丟棄方案將在漢語中不被翻譯的或不被表示的詞尾丟棄,從而降低句子長度,最終提高機(jī)器翻譯的質(zhì)量.目前的方案對BLEU值的影響雖然是正面的,但幅度不高,這說明此模板的選擇有待進(jìn)一步改善,進(jìn)一步統(tǒng)計(jì)分析后提出更合理的模板也是我們進(jìn)一步研究的目標(biāo).同時(shí),目前我們只考慮了名詞,下一步將其擴(kuò)展到維吾爾語中詞尾數(shù)量最多、形態(tài)結(jié)構(gòu)最復(fù)雜的動詞以及副詞和形容詞.