史曉東,盧亞軍
(1. 廈門大學(xué) 人工智能研究所,福建 廈門 361005; 2. 西北民族大學(xué) 機(jī)器翻譯研究所, 甘肅 蘭州 730030)
隨著少數(shù)民族語(yǔ)言(主要是藏、維、蒙)到漢語(yǔ)的機(jī)器翻譯研究逐漸進(jìn)入人們的視野,相關(guān)的少數(shù)民族語(yǔ)言基礎(chǔ)語(yǔ)法分析工具也亟待完善。藏文分詞是藏語(yǔ)到其他語(yǔ)言的基礎(chǔ)性工具。雖然研究的時(shí)間也不算短(2002年陳玉忠[1]是較早的一篇研究),已經(jīng)有至少10年的歷史,但是還沒有公開可用的工具。第一作者在研究漢語(yǔ)分詞方面有豐富的經(jīng)驗(yàn),從2005年就開發(fā)的Segtag漢語(yǔ)分詞系統(tǒng),雖然沒有發(fā)表相關(guān)的論文,但是在北京大學(xué)公開的1998年《人民日?qǐng)?bào)》一個(gè)月的語(yǔ)料上的準(zhǔn)確率約為98%。因此將其移植到藏文,并加以公開,是我們的一個(gè)想法。經(jīng)過(guò)與第二作者密切合作,已經(jīng)成功地開發(fā)出了藏文的分詞標(biāo)注系統(tǒng),在一個(gè)測(cè)試集上的準(zhǔn)確率約為93%,取得了較為令人滿意的效果。本文描述該系統(tǒng)的基本算法,并對(duì)藏文所作的特殊改進(jìn)。
本文下面的內(nèi)容如下: 首先綜述一下國(guó)內(nèi)外的相關(guān)工作,然后介紹了央金藏文分詞系統(tǒng)的基本結(jié)構(gòu),然后再描述為了改進(jìn)性能對(duì)藏文所作的特殊處理,最后得出結(jié)論,并指出了進(jìn)一步的工作。
由于第一作者一點(diǎn)也不懂藏文,因此本文對(duì)想開發(fā)一個(gè)未知語(yǔ)種(如蒙語(yǔ)、泰語(yǔ)、彝語(yǔ)等)的分詞系統(tǒng)的人,有一定的借鑒意義。
陳玉忠[1]在2002年提出了基于格助詞和接續(xù)特征的藏文分詞算法。從此文中作者得出,其實(shí)藏文和日語(yǔ)類似,有很多格助詞,表示一定的句法語(yǔ)義功能。扎西加等[2]給出了藏文分詞的詞類劃分。Huidan Liu等[3]研究了藏文分詞中的數(shù)字識(shí)別問題。才智杰[4]描述了班智達(dá)藏文分詞系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。蘇峻峰[5]描述了一個(gè)基于HMM的藏文分詞模型。Yuan Sun等[6]在天之靈2009年也實(shí)現(xiàn)了一個(gè)基于格助詞和接續(xù)特征的分詞算法,并做了組塊切分研究。劉智文[7]做過(guò)一個(gè)基于CRF的藏文分詞系統(tǒng)。國(guó)內(nèi)的藏文相關(guān)工作基本上集中在青海師大、西北民大、西藏大學(xué)等單位。
與采用機(jī)器學(xué)習(xí)為主的漢語(yǔ)分詞相比,目前藏文分詞系統(tǒng)顯得落后一些。在漢語(yǔ)方面一般都采用HMM、ME、CRF等模型,很少采用相對(duì)原始的規(guī)則或最大匹配模型。
作者也用過(guò)青海師大開發(fā)的國(guó)內(nèi)最早的藏文分詞軟件班智達(dá),但是該系統(tǒng)只支持班智達(dá)編碼。
HMM模型由于其簡(jiǎn)單高效已經(jīng)成為了分詞系統(tǒng)的基準(zhǔn)模型,雖然ME或者CRF的準(zhǔn)確率比HMM略高一些,但是其訓(xùn)練卻相對(duì)復(fù)雜一些,而且當(dāng)標(biāo)注語(yǔ)料庫(kù)比較小的時(shí)候,并不見得有優(yōu)勢(shì)。所以我們便用HMM模型來(lái)做藏文分詞。另外,作者恰好早已經(jīng)實(shí)現(xiàn)了一個(gè)基于HMM的漢語(yǔ)分詞系統(tǒng)Segtag,因此便直接移植過(guò)來(lái)。
Segtag的結(jié)構(gòu)非常簡(jiǎn)單,分詞和標(biāo)注一體化完成,其結(jié)構(gòu)如圖1。
圖1 Segtag分詞系統(tǒng)(其中詞典為央金系統(tǒng)所加)
由于Segtag本身已經(jīng)是基于Unicode的,所以對(duì)Unicode的藏文處理毫無(wú)困難,原始程序改動(dòng)不到1%,主要是參照文獻(xiàn)[8]*實(shí)際上我們參考的主要規(guī)范是青海師范大學(xué)才讓加、吉太加、扎洛等起草的擬作為教育部標(biāo)準(zhǔn)的“信息處理用藏語(yǔ)詞類標(biāo)記規(guī)范”。修改了詞性表,并增加了對(duì)藏語(yǔ)Unicode的未登錄詞識(shí)別。因?yàn)?,與漢語(yǔ)相比,在0平面內(nèi),一個(gè)漢字只需雙字節(jié)表示碼位,藏文很多字(有些文章稱之為字丁[9],其實(shí)指一個(gè)可縱向疊加的書寫單位,我們?nèi)匀环Q為字)是多個(gè)雙字節(jié)構(gòu)成的序列。此外,專門針對(duì)藏文數(shù)字修改替換了原漢字?jǐn)?shù)字識(shí)別,使之能處理藏文數(shù)字。移植后的系統(tǒng)由第二作者命名為央金藏文分詞系統(tǒng)。
如果純粹用訓(xùn)練語(yǔ)料來(lái)生成分詞詞典,由于訓(xùn)練語(yǔ)料很小,得到的詞條僅有13 200余條,根本無(wú)法對(duì)藏文進(jìn)行分詞。所以我們又合并了幾本藏文詞典。大約有9萬(wàn)詞。簡(jiǎn)單地把詞典中的詞條以頻率1加到訓(xùn)練語(yǔ)料,從中訓(xùn)練出分詞詞典,一共97 800余條。
央金系統(tǒng)的性能如表1(此處2.7M指UTF16編碼的文件大小)。
表1 央金分詞系統(tǒng)的性能
這些訓(xùn)練語(yǔ)料都是在央金系統(tǒng)的分詞結(jié)果的基礎(chǔ)上,由第二作者校對(duì)修正而滾雪球一樣得到。而初始種子語(yǔ)料來(lái)自于班智達(dá)分詞系統(tǒng)。
另外,雖然Unicode目前已經(jīng)是國(guó)際標(biāo)準(zhǔn),國(guó)內(nèi)仍然存在著部分班智達(dá)和同元編碼的文檔,我們集成了編碼識(shí)別和自動(dòng)轉(zhuǎn)換功能,以方便用戶使用。
南充市儀隴縣柑橘示范園區(qū)規(guī)劃采用“大園小鎮(zhèn)”模式,即鄉(xiāng)村旅游開發(fā)中所提出的一種創(chuàng)新休閑農(nóng)業(yè)的模式。所謂“大園”就是有一定規(guī)模或正在規(guī)劃的大型園區(qū),而“小鎮(zhèn)”則是符合園區(qū)特色和整體風(fēng)格,滿足園區(qū)旅游發(fā)展所需要的各種服務(wù)配套功能開發(fā)。在本項(xiàng)目中,小鎮(zhèn)指廟子梁中心場(chǎng)鎮(zhèn),結(jié)合柑橘食文化以及“三鄉(xiāng)文化”等元素,發(fā)展以客家文化為主題的特色農(nóng)家樂;大園則以海升集團(tuán)柑橘產(chǎn)業(yè)為園區(qū)基底,由休閑、教育、觀光、康養(yǎng)、文化體驗(yàn)、電商物流等功能片區(qū)組成[4]。
此外,我們還集成了鼠標(biāo)藏漢詞典,以方便作者校對(duì)分詞結(jié)果。
由于第一作者一點(diǎn)也不懂藏文,所以許多央金分詞系統(tǒng)的很多功能都是為了方便用戶能夠在系統(tǒng)內(nèi)便于進(jìn)行分詞校對(duì)而設(shè)。
通過(guò)文件比較,對(duì)測(cè)試語(yǔ)料中的錯(cuò)誤進(jìn)行了分析。首先我們注意到,標(biāo)注的準(zhǔn)確率偏低。結(jié)果發(fā)現(xiàn),訓(xùn)練出詞典中的有些詞的不同詞性之間的頻率差異很大,如
其中g(shù)j 和 gl都是格助詞,懷疑gj這個(gè)詞性是訓(xùn)練語(yǔ)料中的標(biāo)注錯(cuò)誤而混進(jìn)來(lái)的,因此在裝入詞典的時(shí)候做了一個(gè)簡(jiǎn)單的處理: 如果某個(gè)詞的頻率低的詞性與該詞的頻率最高的詞性之頻率比小于閾值β(目前取1%),則舍棄該詞性。經(jīng)過(guò)這樣處理以后,分詞的準(zhǔn)確率沒有任何變化,而標(biāo)注的準(zhǔn)確率有所提高。
簡(jiǎn)單的分析表明: 分詞錯(cuò)誤大部分是由于未登錄詞而造成的。而很多標(biāo)注錯(cuò)誤是因?yàn)橛?xùn)練生成的詞典中根本沒有測(cè)試答案中的詞性造成的。其實(shí)這些錯(cuò)誤大部分是訓(xùn)練語(yǔ)料的不一致性造成的。
舍棄低頻詞性后央金分詞系統(tǒng)的性能見表2。
表2 舍棄低頻詞性以后央金分詞系統(tǒng)的性能
藏文新聞中經(jīng)常出現(xiàn)人名。相對(duì)于地名等其他專名,人名是最豐富并且變化的。因此,分詞系統(tǒng)最好能自動(dòng)識(shí)別人名。從來(lái)源分,人名基本上可以分為藏語(yǔ)人名、漢語(yǔ)人名、歐美人名等三大類。目前我們只考慮了漢語(yǔ)人名的自動(dòng)識(shí)別。
漢語(yǔ)人名翻譯成藏語(yǔ),基本上都是采用音譯。也就是說(shuō),“王東”和“王棟”翻譯成藏語(yǔ)應(yīng)該是一樣的。當(dāng)然,不同的譯者可以選擇不同的藏文字來(lái)對(duì)同一個(gè)漢字(或同音漢字)進(jìn)行譯音。目前我們已經(jīng)收集了一個(gè)漢藏人名對(duì)照表TC(目前只有300條),我們可以把它改為藏音對(duì)照表(這里音指漢語(yǔ)拼音)。另外我們還有一個(gè)常用漢語(yǔ)人名表C,有20多萬(wàn)條。此外還有一個(gè)海量的漢語(yǔ)語(yǔ)料庫(kù)。那么藏文中的漢語(yǔ)人名識(shí)別算法可簡(jiǎn)單地描述如下:
假設(shè)藏文的音節(jié)序列ABC,其中每個(gè)音節(jié)都是一個(gè)可能的漢字譯音A′B′C′,而且不是藏文單詞,P(A′B′C′)作為漢語(yǔ)人名的概率大于一定的閾值,那么可把ABC識(shí)別為一個(gè)藏文中的漢字人名譯音。
人名識(shí)別和數(shù)字識(shí)別都在圖1的構(gòu)造詞圖中進(jìn)行,與其他處理無(wú)關(guān)。其實(shí)實(shí)現(xiàn)的時(shí)候就是和數(shù)字識(shí)別一樣加一個(gè)加權(quán)自動(dòng)機(jī)即可。
人名識(shí)別后的央金分詞系統(tǒng)的性能見表3。
表3 人名識(shí)別后的央金分詞系統(tǒng)的性能
盡管有所改進(jìn),但和漢語(yǔ)分詞相比差距不小,訓(xùn)練語(yǔ)料庫(kù)太小可能是一個(gè)主要原因。
本文描述了一個(gè)基于HMM的藏文分詞系統(tǒng)。就我們和同類系統(tǒng)比較而言,該系統(tǒng)的分詞速度快,準(zhǔn)確率也基本達(dá)到了可以使用的水平,目前已經(jīng)用于我們的藏漢統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。
下一步要做的主要工作是: 繼續(xù)擴(kuò)大訓(xùn)練語(yǔ)料規(guī)模;進(jìn)行地名和機(jī)構(gòu)名的自動(dòng)識(shí)別;克服n元模型的局部性,處理長(zhǎng)距離語(yǔ)義相關(guān)性。
[1] 陳玉忠,李保利,俞士汶.藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2003,17(3): 15-20.
[2] 扎西加,珠杰. 面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報(bào),2009,23(4): 113-117.
[3] Haidian Liu. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//Proceedings of the Coling 2010: 719-724.
[4] 才智杰. 班智達(dá)藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].青海師范大學(xué)民族師范學(xué)院學(xué)報(bào),2010,12(2):75-77.
[5] 蘇峻峰. 祁坤鈺,本太. 基于HMM 的藏語(yǔ)語(yǔ)料庫(kù)詞性自動(dòng)標(biāo)注研究[J]. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(1): 42-45.
[6] Yuan Sun et al. Design of a Tibetan Automatic Word Segmentation Scheme[C]//Proceedings of International Conference on Information Engineering and Computer Science, 2009: 1-6.
[7] 劉智文. 藏漢統(tǒng)計(jì)機(jī)器翻譯研究[D]. 廈門大學(xué)碩士論文,2010.
[8] 才讓加.藏語(yǔ)語(yǔ)料庫(kù)詞語(yǔ)分類體系及標(biāo)記集研究[J].中文信息學(xué)報(bào),2009,23(4):107-112.
[9] 王維蘭,陳萬(wàn)軍.藏文字丁、音節(jié)頻度及其信息熵[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2004,(2):27-31.