才華
(西藏大學(xué)藏文信息技術(shù)研究中心 西藏拉薩 850000)
藏文組字部件的自動(dòng)識(shí)別與字排序研究
才華
(西藏大學(xué)藏文信息技術(shù)研究中心 西藏拉薩 850000)
藏文字有著獨(dú)特的構(gòu)字規(guī)則,組字部件的自動(dòng)識(shí)別在藏文字、詞、句層面的信息化處理有重要的應(yīng)用。文章提出的藏文字部件自動(dòng)識(shí)別方法理念為,現(xiàn)代藏文字按其第一個(gè)部件字符的不同分成5種結(jié)構(gòu)類型,每一種類型又按其字長(zhǎng)分為若干個(gè)子類,在每個(gè)子類中定義各字的部件識(shí)別算法,最后在藏文組字部件識(shí)別的基礎(chǔ)上,給每個(gè)部件賦予序值,實(shí)現(xiàn)藏文字的有效排序。
藏文信息處理;構(gòu)字部件;字符序值;字排序
微軟公司以疊置引擎和Open Type字庫(kù)技術(shù)為基礎(chǔ),于2007年推出了基于藏文國(guó)際標(biāo)準(zhǔn)編碼Unicode字符動(dòng)態(tài)組合的藏文系統(tǒng)。該系統(tǒng)支持與藏文書(shū)寫方式相一致的輸入法,并能解決國(guó)內(nèi)其他藏文系統(tǒng)普遍存在的缺字問(wèn)題,[1]該系統(tǒng)成為藏文電子資源及藏文應(yīng)用軟件開(kāi)發(fā)的主流平臺(tái),基于該系統(tǒng)的藏文字及其組字部件的自動(dòng)識(shí)別,是藏文字、詞層面信息化研究的一項(xiàng)基礎(chǔ)工作。根據(jù)現(xiàn)代藏文文法,揭示并實(shí)現(xiàn)組字部件的自動(dòng)識(shí)別對(duì)藏文字、詞、句法層面的信息化有著重要的作用。
圖 1 典型的藏文字結(jié)構(gòu)
藏語(yǔ)為單音節(jié)語(yǔ)種,屬拼音文字?,F(xiàn)代藏文有30個(gè)輔音字母,4個(gè)元音字母。圖1為典型的藏文字結(jié)構(gòu)圖。
藏文字由一到七個(gè)不同數(shù)量的部件字符縱橫疊加組合而構(gòu)成,出現(xiàn)在不同位置上的部件字符有著確定的數(shù)量及字形。[2]圖1中,A、B、C、D、F、G分別代表字部件中輔音字符出現(xiàn)的位置及與之對(duì)應(yīng)的輔音字符集,依次叫做前加字符、上加字符、基本字符、下加字符、后加字符及再后加字符;E代表元音出現(xiàn)的位置,元音字符只能附著在某個(gè)基本字符或疊加字的上下部分,不能單獨(dú)成字;英文字母的順序代表了藏文字的拼讀與書(shū)寫順序。
在Unicode或小字符集編碼體系中,藏文字是以縱橫動(dòng)態(tài)組合疊加技術(shù)而生成的。如平面字繿軟繳纍的編碼為0X0F56+0X0F66+0X0F92+0X0FB2+0X0F72+0X0F42+0X0F66,這完全符合藏文所固有的前加字符、上加字符、基本字符、下加字符、元音字符、后加字符、再后加字符這樣的拼讀與書(shū)寫順序。
從字型結(jié)構(gòu)來(lái)講,現(xiàn)代藏文字的數(shù)量是非常有限的。據(jù)統(tǒng)計(jì),現(xiàn)代藏文字所具有的字型結(jié)構(gòu)共有45種[3]。表1中,把45種字型結(jié)構(gòu)按照藏文字的部件數(shù)量(字長(zhǎng))又分為7個(gè)組。
表1 藏文字字型結(jié)構(gòu)統(tǒng)計(jì)
2.1 藏文字型結(jié)構(gòu)的分類
在拼讀、書(shū)寫或編碼任意一個(gè)藏文字的時(shí)候,第一個(gè)組字部件只能是前加字符,上加字符或基本字符。即,藏文字中的元音字符、下加字符、后加字符及再后加字符等只能充當(dāng)字的第二個(gè)或之后的結(jié)構(gòu)部件。所以,除了上述的字長(zhǎng)分類之外,還可以根據(jù)字的第一個(gè)組字部件(字符或編碼)進(jìn)一步細(xì)分現(xiàn)代藏文的字型結(jié)構(gòu)。
在30個(gè)藏文輔音字母中,?等22個(gè)輔音字母既不能充當(dāng)前加字,也不能當(dāng)上加字。因此,如果發(fā)現(xiàn)當(dāng)前字的第一個(gè)部件是上述字母時(shí),就可以肯定此部件就是當(dāng)前字的基本字符。據(jù)統(tǒng)計(jì),發(fā)現(xiàn)該類字的字型結(jié)構(gòu)僅有11種,最長(zhǎng)字長(zhǎng)為5個(gè)字符,如表2所示。根據(jù)這樣的分類,發(fā)現(xiàn)藏文22個(gè)輔音字符在以第一個(gè)組字部件參與組字時(shí),其字型結(jié)構(gòu)只有11種,占現(xiàn)代藏文字型總數(shù)的24.4%。
表2 第一個(gè)構(gòu)字部件為基本字符的字型結(jié)構(gòu)
2.1.2 第一個(gè)部件為繳的字型結(jié)構(gòu)
字母繳可以以基本字符的身份,亦可以以前加字符的身份參與藏文字的組字結(jié)構(gòu)中。但是,繳作為前加字符,所組成的字型中不會(huì)出現(xiàn)上下疊加的結(jié)構(gòu)。如表3所示,有前加部件A的組字結(jié)構(gòu)中,就不會(huì)出現(xiàn)上加部件B或下加部件D。此類字型占字型總數(shù)的35.6%。
表3 第一個(gè)部件為的字型結(jié)構(gòu)
表3 第一個(gè)部件為的字型結(jié)構(gòu)
字符數(shù)(字長(zhǎng))1 C 234567 CD CE CF ACE ACF CDE CDF CEF ACEF ACFG CDEF CDFG CEFG ACEFG CDEFG構(gòu)字種類
2.1.3 第一個(gè)部件為繻?纀?纈的字型結(jié)構(gòu)
跟繳一樣,繻?纀?纈3個(gè)輔音字母出現(xiàn)在當(dāng)前字的第一個(gè)構(gòu)字部件位置上,可以看作字的基本字符或前加字符。但是,它們作為字的前加成分,所組成的字中不會(huì)出現(xiàn)帶有上加部件的字型結(jié)構(gòu)。如表4所示,此類組字結(jié)構(gòu)中沒(méi)有上加和下加部件B。此類結(jié)構(gòu)占總字型結(jié)構(gòu)的51.1%。
表4 第一個(gè)部件為的字型結(jié)構(gòu)
表4 第一個(gè)部件為的字型結(jié)構(gòu)
字符數(shù)(字長(zhǎng))1 C 234567 CD CE CF ACDEFG構(gòu)字種類ACD ACE ACF CDE CDF CEF CFG ACDE ACDF ACEF ACFG CDEF CDFG CEFG ACDEF ACDFG ACEFG CDEFG
2.1.4 第一個(gè)部件為繿的字結(jié)構(gòu)
因?yàn)榈谝粋€(gè)組字部件為字母繿的字結(jié)構(gòu)涵蓋了藏文的全部字型,所以這種類型的組字結(jié)構(gòu)與表2相同。
2.2 Unicode組字部件的識(shí)別算法
Unicode藏文字的編碼次序與藏文的拼讀、書(shū)寫順序一致。因此,實(shí)現(xiàn)Unicode或小字符集藏文字的部件自動(dòng)識(shí)別,要對(duì)識(shí)別的當(dāng)前字進(jìn)行“第一個(gè)組字部件的判斷”和“字長(zhǎng)計(jì)算”,根據(jù)字的“第一個(gè)組字部件”和“字長(zhǎng)”,定位當(dāng)前字可能的字型結(jié)構(gòu)列表。最后根據(jù)該列表的具體識(shí)別算法可以篩選出唯一的字型結(jié)構(gòu)。
表5 第一個(gè)部件字符為的字型結(jié)構(gòu)
表5 第一個(gè)部件字符為的字型結(jié)構(gòu)
字符數(shù)(字長(zhǎng))1 C 234567 BC CD CE CF BCD BCE BCF CDE CDF CEF CFG BCDE BCDF BCEF BCFG CDEF CDF G CEFG BCDEF BCDFG BCEFG CDEFG BCDEFG構(gòu)字種類
①“贌繴”字的第一個(gè)字符部件是“繱”,字長(zhǎng)為4個(gè)字節(jié)。因此,該字的字型結(jié)構(gòu)就落在表3的第4列表中。
② 引用表3的第4列所對(duì)應(yīng)的識(shí)別算法,就能得出其字型結(jié)構(gòu)為:CDEF。
{if第二個(gè)字符為元音
字型結(jié)果:CEFG
else
if第三個(gè)字符為元音
輸出字型結(jié)構(gòu):CDEF else輸出的字型結(jié)構(gòu):CDFG }
由于藏文編碼的不等長(zhǎng)和其構(gòu)字復(fù)雜性,藏文字的自動(dòng)排序不像漢文和英文一樣簡(jiǎn)單。傳統(tǒng)藏文字詞典都以30個(gè)字母順序?yàn)橹髋判?,但在同一基本字母下的?nèi)部排序上存在著明顯的差異。1979年由青海民族出版社出版發(fā)行的《新編藏文字典》是傳統(tǒng)藏文詞典中的代表性出版物,使用量很大。在略去后加字和元音對(duì)字排序的影響下,《新編藏文字典》中字是以基字、下加疊字、前加字+基字、前加字+下加疊字、上加疊字、上下疊字、前加字+上加疊字、前加字+上下疊字的方式排序[4],其中帶有前加字的字符分別出現(xiàn)在兩個(gè)不相干的排序段上,整個(gè)排序沒(méi)有明顯的分界點(diǎn)。為此,文獻(xiàn)[5]引入了字結(jié)構(gòu)序的概念,并在前加字位增設(shè)一個(gè)結(jié)構(gòu)辨識(shí)位來(lái)實(shí)現(xiàn)與字典相一致的自動(dòng)排序。
本文對(duì)該字典所有基本字母的內(nèi)部做了一種統(tǒng)一而合理的調(diào)整,提出一種形式簡(jiǎn)便,易查找的字排序方法。僅僅把帶有前加字符的兩段字集中在一起,即以基字、下加疊字、上加疊字、上下疊字、前加字+基字、前加字+下加疊字、前加字+上加疊字、前加字+上下疊字的模式對(duì)詞典音節(jié)字重新編排。這樣字序不僅形式簡(jiǎn)單,而且有序可循,所有音節(jié)字都以前加字符為界一分為二,容易被用戶查找。以基本字母繱為例,就是把6至12之間的字原封不動(dòng)地移到19之前,如表6所示。
表6 基本字母“”內(nèi)部的排序調(diào)整
表6 基本字母“”內(nèi)部的排序調(diào)整
調(diào)整后調(diào)整前1 2 3456789繱 轡 贁 贉贐繻繱繿贁 繿贕10 11 12 13 14 15 16 17 18繿贕繿贉繿贜 繿贜繿贐19 20 21 22 23繿罜繿罤繿罬罤罬繻繱19 20 21 22 23繿罜繿罤繿罬繻贁繻贉繿繱繳贕贜躛罜 罤 罬1 2 3456789繱 轡 贁 贉贐贕贜 躛 罜10 11 12 13 14 15 16 17 18繻贁繻贉繿繱繳繿贁繿贉繿贐
對(duì)現(xiàn)代藏文的每個(gè)基本字母內(nèi)部排序都做上述統(tǒng)一的調(diào)整后,藏文字的排序模型就可以簡(jiǎn)化為5個(gè)構(gòu)字部件按優(yōu)先級(jí)線性排成的一組數(shù)序列:Sequence=XiYjZk,lLmMn。其中,Xi代表基本部首位上的字符值,Xi=i,i={1 ,2,3,…,30},分別是30個(gè)輔音字母的順序代碼;Yj代表前加部首位上的字符值,Yj=j,j={1 ,2,3,4,5} ,分別是5個(gè)前加字母的順序代碼;Lm代表元音位上的字符序值,Lm=m,m={1 ,2,3,4},分別是4個(gè)元音字母的順序代碼。Mn代表后加部首位上的字符序值(包括傳統(tǒng)意義的后加字母、再后加字母及少量其他字),Mn=n,n={0 ,1,2,…16},分別是后加部首字母的順序代碼,如
表7所示。
表7 后加部件字符及其賦值
Zkl代表上下部首位上的字符組合序值,Zkl=kl,k=(0,1,2,3),分別是上加字母的順序代碼,而l=(0,1,2,…,7)是下加字母(包括下加字母、下加字母組合以及能充當(dāng)下加字符的其他字母)的順序代碼,如表8所示。
表8 疊加部件字符及其賦值
k的每個(gè)元素原則上可以和l的各元素進(jìn)行左結(jié)合,但符合藏文正字法的實(shí)際組合現(xiàn)象并不多[6]。
綜上所述,把所有的藏文音節(jié)字都可以看作5位空間的不同向量。通過(guò)字部件識(shí)別器,可以知道每個(gè)向量的分量。給字的每個(gè)分量賦予各自的序值后,就可以求出向量的大小。最后根據(jù)向量的大?。ㄗ中蛑担┡判?,就能自動(dòng)完成字的排序問(wèn)題(見(jiàn)表9)。
[1]江荻,龍從軍.藏文字符研究[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2010:24-35.
[2]土彌三菩扎.西藏文法四種合編[M].北京:民族出版社,2005:17-25.
[3]高定國(guó),龔育昌.現(xiàn)代藏文字全集的屬性統(tǒng)計(jì)研究[J].中文信息學(xué)報(bào),2005(1):71-75.
[4]新編藏文字典編寫組.新編藏文字典[M].西寧:青海民族出版社,1989:2-38.
[5]江荻,康才.書(shū)面藏語(yǔ)排序的數(shù)學(xué)模型及算法[J].計(jì)算機(jī)學(xué)報(bào),2004(4):524-529.
[6]才華,普布卓瑪.試提一種新的藏文音節(jié)字排序模型[J].西藏科技,2012(1):69-71.
[7]艾金勇,于洪志,等.藏文字形結(jié)構(gòu)計(jì)量統(tǒng)計(jì)分析[J].計(jì)算機(jī)應(yīng)用,2009(7):2029-3031.
[8]于洪志.計(jì)算機(jī)藏文編碼概況[J].西北民族學(xué)院學(xué)報(bào)(自然科學(xué)版),1999(3):15-19.
表9 藏文字的自動(dòng)排序試驗(yàn)結(jié)果
[][]
Research on the Automatic Recognition and Sorting of Tibetan Word Components on the Unicode
Tshedpal
(Tibetan Information Technology Engineering Research Center,Tibet University,Lhasa 850000,Tibet)
Tibetan words have unique structure rules.The automatic recognition and sorting of word components has an important application in the information processing of various Tibetan word components such as character,word and sentence-level on the Unicode.In the present paper,according to the first component of Tibetan character,the Tibetan word structure can be divided into 5 categories.Each of word structure has been divided into several subcategories by the length of words.A recognition algorithm was defined for each word components in each subcategory.The ordinal value was given to each component of character based on the word component recognition to realizes sorting of Tibetan word efficiently.
Tibetan information processing;Tibetan word component;ordinal value of character;word sorting
TP391.1
A
1005-5738(2014)02-081-06
[責(zé)任編輯:索郎桑姆]
2014-08-27
2013年度西藏大學(xué)青年科研培育基金項(xiàng)目“Unicode藏文分詞相關(guān)技術(shù)研究”階段性成果,項(xiàng)目號(hào):ZDPJZK201314
才華,男,藏族,青海尖扎人,西藏大學(xué)藏文信息研究中心博士研究生,西藏大學(xué)圖書(shū)館與現(xiàn)代教育技術(shù)中心講師,主要研究方向?yàn)椴匚男畔⑻幚怼?/p>