施洪貞,李順良,羅新磊
(云南民族大學(xué) 電氣信息工程學(xué)院,云南 昆明 650500)
白語(yǔ)目前被視作為無(wú)文字少數(shù)民族語(yǔ)言的代表之一,是“洱海文化”的主要載體.近年來(lái)白語(yǔ)漢化現(xiàn)象越來(lái)越突出,主觀上講大理白族生性包容開(kāi)放,積極吸收漢文化和周邊少數(shù)民族的文化;客觀上講歷史上政權(quán)更迭,不同民族文化交織,使得大理白語(yǔ)漢化現(xiàn)象由來(lái)已久[1-4].2008年周錦國(guó)等[5]在白族人口比例最大的大理劍川縣(白族占總?cè)丝?1.43%)抽樣調(diào)查,發(fā)現(xiàn)2 000個(gè)白語(yǔ)基本詞中有107個(gè)漢語(yǔ)借詞.2013年羅遞等[6]在劍川縣民族中學(xué)調(diào)查白語(yǔ)使用情況,在漢文化的影響下,普通話(huà)的主導(dǎo)地位已經(jīng)深入白族學(xué)生的心里.2012年趙金燦等[7]在大理市和鶴慶縣選取了3個(gè)白族聚居的村落,總計(jì)86戶(hù)430人,其中白族人數(shù)420,對(duì)以上人員進(jìn)行白語(yǔ)使用情況調(diào)查發(fā)現(xiàn),不會(huì)方言的僅占12.3%,不會(huì)普通話(huà)的占43%.2015年張萬(wàn)君等[8]在劍川石龍村小學(xué)調(diào)查兒童白語(yǔ)使用情況,數(shù)據(jù)顯示參與調(diào)查學(xué)生中只有44.4%的學(xué)生喜歡說(shuō)白語(yǔ)也喜歡聽(tīng)別人說(shuō)白語(yǔ).張穎等[9]在大理周城村對(duì)495名村民進(jìn)行問(wèn)卷調(diào)查發(fā)現(xiàn),在漢文化和旅游業(yè)影響下,越來(lái)越多的村民開(kāi)始學(xué)習(xí)漢語(yǔ)甚至英語(yǔ),白語(yǔ)能力逐漸衰退,主要表現(xiàn)在數(shù)詞量詞、計(jì)量單位等不常用的詞匯.以上學(xué)者的調(diào)研已經(jīng)證實(shí)白語(yǔ)弱化、漢化,多語(yǔ)混用現(xiàn)象在大理已經(jīng)十分普遍.然而,白族的文化習(xí)俗、民族風(fēng)俗、大量的文學(xué)藝術(shù)作品絕大多數(shù)依靠白語(yǔ)口耳代代相傳流傳至今.因此作為白族文化的重要載體,白語(yǔ)的保護(hù)和傳承需要各方的努力.
早年間,人文社科學(xué)者對(duì)白語(yǔ)的保護(hù)做了大量工作,著有《白族文字方案》(草案)、《白文拼音讀本》、《白漢詞典》對(duì)白語(yǔ)的傳承和保護(hù)功不可沒(méi).近年來(lái),李超[10]提議由政府主導(dǎo)從大眾傳媒、白語(yǔ)師資、白語(yǔ)傳習(xí)所等方面給白語(yǔ)傳承提供基礎(chǔ)保障.楊健等[11]建立了面向語(yǔ)音識(shí)別和語(yǔ)音合成應(yīng)用的白族語(yǔ)音語(yǔ)料庫(kù).通過(guò)檢索中國(guó)知網(wǎng)發(fā)現(xiàn),目前白語(yǔ)的研究主要圍繞語(yǔ)系、語(yǔ)音、使用情況等方面,而探索白語(yǔ)數(shù)字化保護(hù)的文章相對(duì)較少,因此本文基于趙衍蓀、徐琳編著的《白漢詞典》,從數(shù)字化方面探索白語(yǔ)傳承和保護(hù).
本文利用最新的OCR技術(shù),將《白漢詞典》轉(zhuǎn)換成機(jī)器可讀字典(machine readable dictionary,MRD),建立基于拼音方案的白語(yǔ)文本語(yǔ)料庫(kù),使用計(jì)算語(yǔ)言學(xué)中的MI值和T值計(jì)算白語(yǔ)詞項(xiàng)搭配的可靠性,發(fā)掘白語(yǔ)中的常用典型詞項(xiàng)搭配和低頻固定搭配,為機(jī)器翻譯的搭配詞典做準(zhǔn)備,有序推進(jìn)白語(yǔ)數(shù)字化傳承工作.
根據(jù)黃建華等[12]對(duì)詞典宏觀結(jié)構(gòu)研究結(jié)論,《白漢詞典》屬于雙語(yǔ)詞典中外向型的教學(xué)詞典,該詞典系統(tǒng)地將白語(yǔ)詞素(或稱(chēng)語(yǔ)素)立為詞目,并且在收詞立目、詞目編排方面應(yīng)充分考慮外族讀者的特殊需求.林明金等[13]的研究表明詞典的詞目、義項(xiàng)、例證、附錄、詞源、注釋、插圖提供了充分的民族文化信息,尤其文化注釋可以增大雙語(yǔ)詞典的文化信息,《白漢詞典》較為完整地收錄了大理白族語(yǔ)言,對(duì)白語(yǔ)的推廣和傳承有不可替代的作用,同時(shí)也是研究白族文化的重要資料.這是本文選擇《白漢詞典》作為研究對(duì)象的重要因素.詞典的部分節(jié)選如下圖1所示:
可以看出詞典中的白語(yǔ)詞目(head word或entry)由中括號(hào)標(biāo)注,一個(gè)空格之后是對(duì)應(yīng)的漢語(yǔ)翻譯,如漢語(yǔ)翻譯中出現(xiàn)注釋用圓括號(hào)加以區(qū)別,冒號(hào)之后是白語(yǔ)和漢語(yǔ)例句.一詞多義由①②等加以區(qū)分.但是,詞典中并不是所有的詞目遵守這個(gè)規(guī)則,有些詞目?jī)H有翻譯,沒(méi)有例句.
為了更好的了解詞典的微觀結(jié)構(gòu),本文利用python統(tǒng)計(jì)了白語(yǔ)詞條、漢語(yǔ)翻譯、白語(yǔ)例句、漢語(yǔ)例句的數(shù)量,結(jié)果如表1所示,由于一詞多義使得漢語(yǔ)翻譯詞條多于白語(yǔ)詞條;白漢例句數(shù)量相同;本文利用最新的OCR技術(shù)將詞典轉(zhuǎn)換成機(jī)器可讀字典(MRD)之后,還邀請(qǐng)了若干白族同胞對(duì)RMD進(jìn)行校對(duì),確保文本的正確性,詞典微觀結(jié)構(gòu)分析也再次證實(shí)了文本的可靠性.
表1 《白漢詞典》微觀結(jié)構(gòu)
基于可靠的文本語(yǔ)料,本文重點(diǎn)研究白語(yǔ)中的詞項(xiàng)搭配強(qiáng)弱.在機(jī)器翻譯系統(tǒng)中,強(qiáng)搭配詞項(xiàng)不能僅僅依據(jù)句法和語(yǔ)義的規(guī)律進(jìn)行逐字逐句地翻譯.雙語(yǔ)(或多語(yǔ))搭配詞典是機(jī)器翻譯系統(tǒng)必不可少的配置.Bali等[14]提出詞項(xiàng)搭配的辨別在很多研究領(lǐng)域中扮演非常重要的作用,比如在文本挖掘、自動(dòng)摘要、機(jī)器翻譯以及信息檢索等方面,詞項(xiàng)搭配的強(qiáng)弱判決直接關(guān)乎到系統(tǒng)的最終性能.目前計(jì)算語(yǔ)言學(xué)中常用互信息(mutual information,MI)和零假設(shè)T檢驗(yàn)值(T值)定量分析詞項(xiàng)搭配強(qiáng)弱.
MI值用于測(cè)量中心詞(node word)和其搭配詞之間的相互關(guān)聯(lián)程度(association strength).Metzler等[15]將詞項(xiàng)間的依賴(lài)關(guān)系分為順序依賴(lài)關(guān)系,獨(dú)立依賴(lài)關(guān)系,全依賴(lài)關(guān)系.順序依賴(lài)假設(shè)相鄰詞項(xiàng)間存在依賴(lài)關(guān)系,并且依賴(lài)關(guān)系是順序依賴(lài),中心詞的出現(xiàn)能給搭配詞的出現(xiàn)帶來(lái)一定的信息量;獨(dú)立依賴(lài)關(guān)系指2個(gè)詞的出現(xiàn)時(shí)完全獨(dú)立的;全依賴(lài)關(guān)系指兩個(gè)詞項(xiàng)完全依賴(lài),同時(shí)出現(xiàn).另外Church等[16]認(rèn)為使用MI還可以定量分析語(yǔ)言中的各種有趣現(xiàn)象,比如醫(yī)生/護(hù)士這種實(shí)詞與實(shí)詞之間的語(yǔ)義關(guān)系,動(dòng)詞和介詞之間的詞匯-句法共現(xiàn)偏好等.
根據(jù)信息論,互信息MI(x,y)定義為2個(gè)單詞的聯(lián)合概率P(x,y)與邊緣概率P(x)和P(y)進(jìn)行比較.即:
(1)
假如x和y2個(gè)單詞有強(qiáng)關(guān)聯(lián)性,聯(lián)合概率P(x,y)將遠(yuǎn)大于邊緣概率P(x)和P(y)的乘積,則I(x,y)?0;假如x和y2個(gè)單詞是弱關(guān)聯(lián)性,那么P(x,y)≈P(x)P(y),則(x,y)≈0.在語(yǔ)言學(xué)中,當(dāng)2個(gè)語(yǔ)言成分不能在同一個(gè)環(huán)境中出現(xiàn),即處于互補(bǔ)分布,假如x和y是互補(bǔ)分布,那么P(x,y)?P(x)P(y),I(x,y)?0.
在獨(dú)立依賴(lài)關(guān)系中有:
(2)
在全依賴(lài)關(guān)系中有:
(3)
然而Stubbs[17]提出MI值并不是處處可靠,當(dāng)中心詞與搭配詞的共現(xiàn)頻數(shù)較小或搭配詞在語(yǔ)料庫(kù)中的總頻數(shù)相對(duì)較小時(shí), 一般認(rèn)為小于5,MI值的判別就失去參考意義.為了解決這類(lèi)問(wèn)題,在計(jì)算時(shí)需要考慮中心詞與搭配詞的共現(xiàn)頻數(shù)和搭配詞的獨(dú)現(xiàn)頻數(shù),在計(jì)算語(yǔ)言學(xué)里,T值可以被用于判斷詞項(xiàng)組合關(guān)聯(lián)度的置信度[16].
根據(jù)T檢驗(yàn)統(tǒng)計(jì)理論, 假設(shè)兩詞項(xiàng)為x和y,在某語(yǔ)料庫(kù)中聯(lián)合概率為P(x,y),邊緣概率為P(x)和p(y),那么兩詞項(xiàng)間的T值定義為:
(4)
本文語(yǔ)料來(lái)源于趙衍蓀、徐琳編著的《白漢詞典》,該詞典于1996年4月由四川民族出版社出版,本文采用最新的OCR技術(shù)將紙質(zhì)的《白漢詞典》轉(zhuǎn)換成機(jī)器可讀字典(Machine Readable Dictionary, MRD).在此基礎(chǔ)上借助于語(yǔ)料檢索工具AntConc和不同的算法進(jìn)行語(yǔ)料分析.參數(shù)設(shè)置方面,在進(jìn)行語(yǔ)料檢索時(shí)主要包含2個(gè)參數(shù),分別控制檢索定長(zhǎng)、方向.Collier[18]提到“中心詞±4”作為詞項(xiàng)搭配研究的定長(zhǎng)(Span),目前已經(jīng)得到許多語(yǔ)料庫(kù)語(yǔ)言學(xué)家的認(rèn)可.因此本文定長(zhǎng)選取2,4,左右2個(gè)方向分別檢索.
馮躍進(jìn)[19]等認(rèn)為:一般而言,MI值越大,說(shuō)明中心詞x對(duì)搭配詞y的出現(xiàn)的影響就越大.本文選定語(yǔ)料庫(kù)的最高頻次詞”zix”為中心詞(node word),依次向左、右分別以定長(zhǎng)4,2檢索中心詞的所有搭配詞(collate),即2L,4L,2R,4R共4次檢索.以定長(zhǎng)為2向左(2L)檢索語(yǔ)料庫(kù)時(shí),得到中心詞zix的搭配詞共有843個(gè),其中MImax=5.37,MImin=-2.81;以定長(zhǎng)為4向左(4L)檢索,發(fā)現(xiàn)”zix”共有1 200個(gè)搭配詞,其MI∈[6.37,-1.64].以定長(zhǎng)為2向右(2R)檢索語(yǔ)料庫(kù)時(shí),共計(jì)有879個(gè)搭配詞,其中MImax=6.37,dMImin=-2.38;1以定長(zhǎng)為4向右(4R)檢索時(shí),”zix”共有1186個(gè)搭配詞,dMI∈[6.95,-0.94].表2、表3展示了中心詞”zix”與部分搭配詞y的MI值,其中f(y),f(x,y)分別是搭配詞的獨(dú)現(xiàn)頻數(shù)以及中心詞和搭配詞的共現(xiàn)頻數(shù).
以向左檢索為例,2L檢索中,MI(det,zix)=3.66;4L檢索中,MI(det,zix)=4.29;中心詞加”zix”結(jié)尾是白語(yǔ)中一種最典型的合成詞方式,”det”的意思“豆子”,加”zix”結(jié)尾可以構(gòu)成有關(guān)豆子的各種合成詞,例如:”det cel zix ”(豌豆),”det xinl zix”(蠶豆),”det kol zix”(豆瓣兒),”det let mox zix ”(干蠶豆葉的第一苗,可煮湯).以向右檢索為例,2R檢索中MI(zix,yvnx)=4.29; 4R檢索中MI(zix,yvnx)=4.56;”zix yvnx”(子女),”zix seit yvnx sort”(兒有女小),在白語(yǔ)合成詞中,在名詞后面加”zix”(子),”yvnx”(女)使名詞具有可愛(ài)、可憎、被人蔑視等含義.例如:”yil zix guanl yvnx”(小衣服兒),”cux zix marx yvnx”(草芥,如青草稻草那樣卑微).
表2 左檢索中心詞”zix”與部分搭配詞y的MI值
表3 右檢索中心詞”zix”與部分搭配詞y的MI值
通過(guò)以上的例子可以看出,通過(guò)互信息(MI)可以有效地找到白語(yǔ)中的常用典型合成詞,這將是將來(lái)實(shí)現(xiàn)白漢機(jī)器翻譯的第1步,然而進(jìn)一步觀察2L,4L,2R,4R 4次檢索中,MI(xiaot,zix)=MImax.2L=5.37,MI(zvtx,zix)MImax.4L=6.37,MI(zix,heinl)=MImax.2R=5.37,MI(zix,heinl)=MImax.4R=6.95,互信息最大的4個(gè)詞組,并不是常見(jiàn)的詞項(xiàng)搭配,只能看成是某一專(zhuān)業(yè)領(lǐng)域的固定搭配.造成這種現(xiàn)象的原因正是中心詞與搭配詞的共現(xiàn)頻數(shù)較低,或者搭配詞獨(dú)立出現(xiàn)頻次較低.
由于MI值和T值之間存在著1種互補(bǔ)關(guān)系,綜合使用MI值和T值分析詞項(xiàng)搭配更有意義,從統(tǒng)計(jì)學(xué)的角度看,T值等于1.65是判別兩詞項(xiàng)搭配是否有意義的最低臨界值,然而Church等[16]提出將T值的閾值提高到2.15將更有利于判別詞項(xiàng)搭配強(qiáng)弱.另外Church等[20]通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),MI值大于3的詞項(xiàng)搭配可靠性更好,因此根據(jù)Church等的成果,將MI值和T值的組合分成以下4種情況:
1)MI<3且T<2.15時(shí),中心詞與搭配詞的組合不是常見(jiàn)搭配;
2)MI≥3且T≥2.15時(shí),中心詞和搭配詞的組合可以被視為常見(jiàn)典型的詞項(xiàng)組合,
3)MI≥3且T<2.15時(shí),如果滿(mǎn)足搭配詞的在語(yǔ)料庫(kù)中出現(xiàn)頻次較低,或者是中心詞與搭配詞的共現(xiàn)頻次較低的情況,這樣的詞項(xiàng)組合可能是諺語(yǔ)、專(zhuān)業(yè)術(shù)語(yǔ)等固定表達(dá)方式,而不是常用搭配.
4)MI<3且T≥2.15時(shí),這種情況往往搭配詞是語(yǔ)法詞,任何一門(mén)語(yǔ)言語(yǔ)法詞屬于常見(jiàn)詞項(xiàng),與語(yǔ)料中的其他詞項(xiàng)共現(xiàn)的頻率較高,故這樣的詞項(xiàng)組合互信息較低.
將中心詞”zix” 根據(jù)上述分類(lèi)進(jìn)行統(tǒng)計(jì)得到表4,可見(jiàn)第1類(lèi)隨機(jī)搭詞項(xiàng)搭配占比最高,第2類(lèi)常見(jiàn)典型詞項(xiàng)搭配占比最少,但是共現(xiàn)頻率較高;第3類(lèi)屬于不常見(jiàn)的固定搭配,共現(xiàn)頻率較低.第4類(lèi)屬于語(yǔ)法詞項(xiàng)搭配.第2類(lèi)和第3類(lèi)的詞組就可以收錄到機(jī)器翻譯系統(tǒng)的搭配詞典,提高翻譯準(zhǔn)確率.另外,表4的第2列和第3列的小差值是由于第3類(lèi)詞項(xiàng)搭配不計(jì)高頻項(xiàng)造成的.
表4 MI值和T值的4種組合
本文梳理了白語(yǔ)變遷的歷史和研究歷史,再將《白漢詞典》轉(zhuǎn)換成機(jī)器可讀字典(machine readable dictionary,MRD),建立了白語(yǔ)的拼音語(yǔ)料庫(kù).再?gòu)腗I值和T值2個(gè)角度分別計(jì)算了中心詞與搭配詞的關(guān)聯(lián)性和置信度,利用MI值和T值的互補(bǔ)性,建立了詞項(xiàng)搭配分類(lèi)模型來(lái)計(jì)算中心詞與搭配詞的搭配強(qiáng)弱,從定量分析和實(shí)驗(yàn)結(jié)果可以看出,本文方法可以有效的從語(yǔ)料庫(kù)中找出中心詞的常見(jiàn)搭配和固定搭配,為白漢語(yǔ)言機(jī)器翻譯邁出堅(jiān)實(shí)的一步,這很大程度上也推進(jìn)了白語(yǔ)數(shù)字化保護(hù)和白語(yǔ)傳承,同時(shí)對(duì)于其他少數(shù)民族語(yǔ)言的數(shù)字化保護(hù),本文的研究也是一次有意義的嘗試.