崔榮一,金世珍
(延邊大學 工學院計算機科學與技術學科 智能信息處理研究室,吉林 延吉 133002)
文字的組成結構問題是文字研究的基本問題之一,也是對文字進行計算機存儲、處理、傳播、識別和理解的根本出發(fā)點和基本依據(jù)。因此,人們始終把文字結構特征作為文字智能化處理過程中的最重要的研究內容之一[1-5]。朝鮮文字作為朝鮮語言的記錄符號由24個基本字母在二維空間按特定規(guī)則排列構成,按文字組成規(guī)則可以產生11 172個現(xiàn)代朝鮮文字,而基本字母的排列規(guī)則形成了特有的文字結構[6-7]。全體朝鮮文字可按結構特征進行分類,不同類型的文字在空間結構上具有不同的字母成分。文字結構的分類在朝鮮文字結構和發(fā)音模式的研究和文字識別、文字輸入等應用領域中具有重要的意義[8-10]。例如,在朝鮮文字輸入法的實現(xiàn)中需要設計自動機來識別所輸入的字母組成的完整文字,結構類別的確定可高效地確定具體文字;在文字識別過程中文字結構可以有效地指導具體文字的識別結果和后處理過程,等等。文獻[7]中作者認為朝鮮文字結構類型的劃分對應于音節(jié)匹配過程中的粗分類,并成為字母匹配過程中字母分割的前處理過程;而在文獻[10]中作者在手寫體朝鮮文字識別過程中利用文字的結構規(guī)則進行了后處理。
從文字結構的確定性規(guī)則出發(fā),根據(jù)字母分布規(guī)律朝鮮文字集一般可劃分為6種[6-7]。但是從文字結構的細節(jié)考慮,可以對文字集進行更細的劃分,進而對具有實際語義的文檔來分析在空間不同位置上出現(xiàn)的字母的信息特性,從文字的使用角度觀察和認識文字結構,這對研究不同類型字母所具有的不同信息功能具有更大的價值和意義。這在一方面可以從信息論角度描述不同類型字母的信息功能和不同結構文字對體現(xiàn)朝鮮文語義的貢獻;另一方面可為文字識別、文字的輸入輸出等實際應用提供決策信息的依據(jù)。
本文在定義文字的結構距離以表現(xiàn)文字的結構差異的基礎上,提出了文字的結構等價類劃分方法,針對實際文檔研究了文字結構的概率分布,并計算了文字中不同空間位置上的基本字母對劃分文字結構類別的信息增益,以此度量不同類型的字母對結構劃分的貢獻程度。
朝鮮文字的24個基本字母集可分為基本輔音字母集GC和基本元音字母集GV:
圖1是一個朝鮮文字的實例,其中c1和c2稱為初聲輔音字母,c3和c4稱為終聲輔音字母,v1、v2和v3是基本元音字母,定義如下:
c1∈C1=GC
(3-1)
(3-2)
(3-3)
(3-4)
(3-5)
(3-6)
(3-7)
式中Λ表示空符號,表示不存在相應字母。
圖1 朝鮮文字實例
因此我們可以認為一切朝鮮文字含有7個基本字母,當少于7個字母時認為相應的位置上存在空符號Λ。在文字構造法中輔音字母c1、c2、c3和c4的取值以及元音字母v1、v2和v3的取值分別遵從輔音字母結合規(guī)則和元音字母結合規(guī)則,而一個朝鮮文字可以被一個有限狀態(tài)自動機所接受[4, 8]。
每一個朝鮮文字都可以分解為唯一確定的基本字母序列,結果是該文字被相應的有限狀態(tài)自動機所接受的符號串,其中的字母順序對應于文字的標準書寫法中字母的書寫次序。把一個朝鮮文字表示為相應的有限狀態(tài)自動機所接受的符號串的過程稱為文字的線性化。圖2表示了對圖1中的文字線性化的結果:
圖2 朝鮮文字分解示意圖
定義1(線性化函數(shù)) 設w表示一個合法的朝鮮文字,則式(4)中的映射稱為文字線性化函數(shù),其中ΩK是全體合法朝鮮文字的集合,Ci(i=1,2,3,4)和Vj(j=1,2,3)是式(3)中定義的基本字母集合。
f:ΩK→C1×C2×V1×V2×V3×C3×C4
(4)
由于合法朝鮮文字的字母序列是正則的(可被自動機接受),因此映射(4)是從文字集到基本字母集的正則代換,它可以把一個合法文字w∈ΩK轉換成唯一確定的一維字母序列:
其中g1,g2,…,g7是w所含基本字母按自動機接受朝鮮文字時字母出現(xiàn)的順序(c1-c2-v1-v2-v3-c3-c4)排列的序列。當文字所含基本字母少于7個時認為相應的位置上存在空字母Λ,即:
(1)g1g2是單字母時認為g2=Λ;
(2)g6g7是單字母時認為g7=Λ;
(3)g6和g7都不存在時認為g6=g7=Λ。
例如:
f()=
定義2(字母提取函數(shù)) 獲取文字w線性化之后f(w)中第i個字母gi的函數(shù)稱為字母gi的提取函數(shù),記為fi(w)。
根據(jù)式(5)有:
fi(w)=gi(i=1,2,…,7)
(6)
f(w)=f1(w)f2(w)f3(w)f4(w)f5(w)f6(w)f7(w)
(7)
我們通過如下定義的結構距離來度量文字的不同結構之間的差異。
定義3(結構距離)文字w1和w2之間的結構距離dist(w1,w2)由下式給出:
其中,^運算定義為:
定義4(等價結構關系)當文字w1和w2之間的結構距離dist(w1,w2)=0時,稱w1和w2具有等價結構關系(具有自反性、對稱性和傳遞性)。
根據(jù)文字組成規(guī)則[4],按照特定位置上的基本字母出現(xiàn)與否(是否為Λ),可以把全體朝鮮文字劃分為若干個等價類。根據(jù)文字組成規(guī)則可以計算的類別總數(shù)為:
K=1×2×(2×2×2-1)×(2×2-1)=42
(10)
定義5(結構等價類)設有一朝鮮語文檔D,把該文檔內的朝鮮文字按等價結構關系劃分為互不相交的文字子集Di(i=1,2,…,K),即滿足:
則稱Di(i=1,2,…,K)為第i個結構等價類。
同一結構等價類內部的文字具有相同結構,而不同結構等價類內任意兩個文字具有不同結構。表1中列出了朝鮮文字42個結構等價類及其結構描述。
第i個結構等價類出現(xiàn)的概率估計為:
其中|·|表示集合的元素個數(shù),K是由式(10)給出的文字結構類別數(shù)目。對164 405字組成的朝鮮語文檔進行計算,我們得到如圖3所示的文字結構概率分布。
圖3 實際文檔中42種文字結構的概率分布
通過實驗我們得出以下結論:
(1) 在實際朝鮮語文檔中第2、10、11類(c1-v2、c1-v1-c3、c1-v2-c3型,表1中標有*號)的文字結構具有顯著的高概率特性,這3類結構的累積概率超過50%;
(2) 表1中標有*號和**號的7個結構的累積概率超過85%,因此朝鮮文字結構的使用率近似遵從“15-85規(guī)則”: 在實際文檔中約15%的結構出現(xiàn)85%以上;
(3) 表1中標有*、**、***號的19個結構的累積概率超過99%,實際文檔基本上是通過這19個(占整個結構類別的45%)結構的文字實現(xiàn)的,即: 朝鮮語文檔是靠不到一半的文字結構完成的;
表1 朝鮮文字結構等價類
其中Pi是由式(13)給出文字結構出現(xiàn)概率,而li是第i個結構所含基本字母個數(shù)。對164 405字的朝鮮語文檔的統(tǒng)計中我們得到每個文字結構平均包含的基本字母個數(shù)為2.67個。在所有文字中初聲輔音字母c1一定存在,而且v1、v2、v3中至少存在一個基本元音字母,因此兩個字母的文字是最簡單的文字。這表示平均而言,在實際文檔中的文字比最簡單的情況僅僅多了0.67個字母。因此,現(xiàn)實中的朝鮮語言文檔是以大部分簡單結構的(空間結構和發(fā)音模式)文字組成的。
文檔D中文字結構類別的不確定性可由結構類別信息熵計算給出:
其中K和Pi分別由式(10)和(13)給出。結構類別信息熵越大,表明該文檔中各種類別的文字出現(xiàn)得越均等;反之,文章中的文字類別具有集中分布特性。圖4中給出了對不同文檔文字結構信息熵的變化情況。對前述164 405字的朝鮮語文檔的統(tǒng)計結果表明文字結構類別信息熵為3.33,反映了實際朝鮮語文檔中平均每個文字結構所具有的信息量的一級近似(未考慮文字結構間的依賴關系)。
圖4 實際文檔中文字結構信息熵的變化情況
把文字空間結構中每個基本字母位置視為文字的屬性(Attribute),那么確定一個文字結構的過程就是確定各屬性值的過程。朝鮮文字共有7個屬性:c1,c2,v1,v2,v3,c3,c4。為表示方便,我們用A(i) 表示其中第i個屬性,即A(1)表示c1,A(2)表示c2,A(3)表示v1,…,A(7)表示c4。由于我們只考慮結構類型而不是具體文字,文字的各屬性值只需表示某一類型的基本字母存在還是不存在。我們用1表示存在特定位置上的字母,用0表示不存在這一類型的字母。
表1中的文字結構等價類的排列順序是基本字母個數(shù)遞增的順序(文字復雜度增加的順序),由此可以得出如表2所示的朝鮮文字集中文字結構分類的統(tǒng)計數(shù)據(jù),其中0表示某一類字母不存在,1表示某一類字母存在;*表示對應類別字母的存在與否取決于具體等價類。
表2 朝鮮文字結構等價類統(tǒng)計表
注: “字母個數(shù)”表示對應結構等價類所含基本字母個數(shù);“結構合計”表示含有某一類字母的文字結構總數(shù)。
從表2中的熵值可以看出: 在現(xiàn)代朝鮮文字集的11 172個文字中輔音字母c1是必然出現(xiàn)的(熵為0),而50%的文字結構中出現(xiàn)輔音字母c2(熵為1);包含元音字母v1、v2和v3的文字結構數(shù)量相等,因為這三個元音字母可以同時包含在同一個結構中,所以含有這三個元音字母的結構超過50%;而包含輔音字母c3的文字結構數(shù)量恰好等于不包含輔音字母c4的文字結構數(shù)量;包含全部基本字母的結構類型只有一個。
表2僅僅是對朝鮮文字字符集而言的,除了任何朝鮮文字必須包含輔音字母c1以及元音字母v1、v2和v3中的1~3個這一事實外,對一個具有實際語義的文檔來說上述熵值一般會有變化。
若以Values(A(i))表示屬性A(i)的取值集合,則根據(jù)式(3)中給出的集合我們可以得出:
當某一屬性A(i)的取值確定時,因此而產生的信息增益是:
其中DA(i)=j表示文檔D中屬性A(i)的值取為j的那些文字的集合(同一文字按不同對象處理),即:
而式(16)中的Entropy(DA(i)=j)表示: 文字的線性化表示中第i個基本字母存在與否確定時,文字結構類別仍具有的不確定性,由下式給出:
其中
上式中nt表示DA(i)=j中屬于第t個結構等價類的文字個數(shù)。
從式(15-1)可知,對屬性A(1)(即c1)來說,式(16)中的j=1,并且根據(jù)式(17)得:
此時因式(19)中的nt=|Dt|,故由式(13)和(19)得:qt=pt,所以有:
綜合式(16)、(20)和(21),我們有:
這表明: 在式(11)和(12)定義的等價類劃分意義下,字母c1對文字結構類別的分類沒有貢獻。這是因為每一個朝鮮文字必須有一個初聲字母,這對任何類別的結構沒有差別。因此,為了考察對確定文字結構類別有價值的字母類型(即屬性),只需考慮屬性A(2)~A(7)的信息增益:Gain(D,A(i))(i=2,3,…,7)。對實際朝鮮語文檔進行仿真實驗得出如圖5所示的字母信息增益圖,從中可以看出字母類型v1、v2和c3(即A(3)、A(4)和A(5))對文字結構的分類貢獻是最大的。
圖5 實際文檔中各類型字母的信息增益
本文主要研究了朝鮮文字結構的概率分布與字母對文字結構分類的信息增益,由此揭示了文字的信息結構,得出以下結論:
(1) 在實際文檔中c1-v2、c1-v1-c3和c1-v2-c3類型結構的文字具有顯著的高概率特性,累積概率超過50%,是具有實際語義的文字集合中使用最頻繁的文字結構;實際文檔基本上是通過19個(占整個結構類別的45%)結構的文字實現(xiàn)的,累積概率超過99%。這一性質可在語音識別與分析、文字識別與文字輸入等系統(tǒng)的后處理中可作為啟發(fā)式規(guī)則設計的依據(jù);
(2) 在實際文檔中v1、v2類型和c3類型字母對決定文字結構類別起主導性作用,這一性質在文字識別與文字輸入等系統(tǒng)中為確定優(yōu)先處理的字母提供信息論依據(jù)。
進一步研究的內容主要有:
對具體的字母進行文字概率分布和信息增益的計算和決策樹的建立;對國內、朝鮮和韓國的朝鮮語文檔以及對科技、社會、政治、體育等不同類別文檔進行結果對比,以發(fā)現(xiàn)不同地域、不同類別朝鮮語文檔中文字結構使用的差異。
[1] 唐松, 郭椿標, 鄭南寧. 基于文字結構特征的快速平滑細化方法[J]. 中文信息學報, 1990, 4(2): 49-55.
[2] 張小衡. 《信息處理用GB13000. 1 字符集漢字部件規(guī)范》在輸入法應用中的難點討論[J]. 中文信息學報, 2004, 18 (4): 66-71.
[3] 江荻, 周季文. 論藏文的序性及排序方法[J]. 中文信息學報, 2000, 14 (1): 56-64.
[4] 蔡京哲, 崔榮一. 線性化朝鮮文字的歧義性研究[J]. 中文信息學報, 2008, 22 (5): 121-128.
[5] 芮建武, 吳健, 孫玉芳. 國際化文字處理綜述[J]. 中文信息學報, 2006, 20 (2): 87-93.
[6] Oh G. R. et al. . Engineering of Korean characters[M]. Dea-young Press, Korea, 1994.
[7] Kwon Y. B. . Hangul tree classifier for type clustering using horizontal and vertical strokes[C]//Proceedings of the 16thInternational Conference on Pattern Recognition(Vol.3), Québec City, QC, Canada, 2002: 228-231.
[8] 崔榮一. 基于人工神經網絡的手寫體朝鮮文字脫機識別技術[D]. 哈爾濱: 哈爾濱工業(yè)大學, 2005.
[9] 許日俊, 劉昌平. 印刷體朝鮮文字符中字母的分割與識別研究[J]. 中文信息學報, 2006, 20 (2): 66-71.
[10] Kang K. W., Kim J. H. . Efficient handwritten hangul recognition by grapheme model[C]//2001韓國腦學會學術會議論文集,首爾,2001: 133-134.
[11] Li M. et al. . The similarity metric[J]. IEEE Transactions on Information Theory, 2004, 50(2): 3250-3264.