仁青東主++安見才讓
摘要:隨著科技的發(fā)展,各類電子產(chǎn)品的日益增多,藏文文字的使用量也日益得到擴大,藏文輸入法、藏文各類電子詞典等軟件的問世,這就迫使藏文文字需要結(jié)構(gòu)化、數(shù)字化、規(guī)范化,做這些工作要了解藏文字母的信息熵。本人用擴大容量的方法統(tǒng)計了藏文字母的信息熵,并用zipf定律進行了理論上的說明。
【關(guān)鍵詞】信息熵 藏文信息處理 藏文字母zipf
信息熵的一個重要應(yīng)用領(lǐng)域就是自然語言處理。熵是反映語言的數(shù)學(xué)面貌的一個重要的信息論參數(shù),信息熵是消除不確定性所需信息量的度量,也即未知事件可能含有的信息量。本人把藏文字母分為30個字母與4個元音共計34個字符,用擴大容量的方法統(tǒng)計了藏文字母的信息熵。
1 擴大藏字容量的方法計算藏文字母信息熵
如果隨機試驗有n個結(jié)局,而這些結(jié)局是不等概率的。設(shè)第r個結(jié)局的概率為Pr,那么,這個隨機試驗結(jié)局的熵H用下述公式計算:
在公式(1)中,因?qū)?shù)以2為底,故熵的單位是比特。且H>O。在相當長的文句中,藏文字母出現(xiàn)概率n近似地等于它的出現(xiàn)頻率。例如,在文句的總次為28427個字次時,“?”字出現(xiàn)的次數(shù)為2691次,那么,“?”率為pr=2691/28427=0.0947。我們把藏字出現(xiàn)的總次數(shù)稱為文句長度,用N表示,在文句出現(xiàn)了不同的藏字稱為藏字容量,用n表示。根據(jù)公式(1)計算出在不同文句長度、不同藏字容量時,34個藏文字母在不計空格與結(jié)束符時的熵如表1。
從表1我們可以看出,隨著藏字容量n的擴大,熵值H相應(yīng)增大,而當藏字容量n繼續(xù)擴大2644時,熵值H的增加就變得比較遲緩了。
下面,我們畫出藏語文句中包含一個藏文字母中的熵H隨著藏字容量n的增加而變化的圖像。橫坐標表示藏字容量n,縱坐標表示包含在一個藏文字母中的熵H,如圖1所示。
隨著藏字容量的擴大,文句中常用藏文字母的出現(xiàn)概率逐漸趨于穩(wěn)定,不會有明顯的增大。例如,常用藏文字母“?”在不同的藏字容量中由公式pr=fr/N計算出的出現(xiàn)概率如表2。
從表2中可看出,當藏字容量較小時,隨著藏字容量由1244擴大到4813,“?”字出現(xiàn)概率由0.0844增加到0.1035,在區(qū)間(O,0.1035)內(nèi),-prlog2Pr隨著pr的增加而增加。
我們可以借助于數(shù)理語言學(xué)中著名的Zipf定律來求出藏字容量達到某個值時,使熵值穩(wěn)定的藏字容量n。把文句中的字母出現(xiàn)概率遞減的順序排列起來,并且順次從1到L編上號碼,造出這個文句的字母表。如表3所示。
隨著字母表中編號數(shù)目r的增大,相應(yīng)的字母在文句中出現(xiàn)概率pr逐漸減小,r由1增大到L,pr就由Pl減小到PT。
pr與r之間的關(guān)系,可用公式
pr=k/r
(2)
式中,r表示詞在此表中的號碼, pr表示號碼為r的詞的出現(xiàn)概率,由實驗測出,k=0.11824。藏文字母出現(xiàn)概率情況如表4。
在根據(jù)公式(1)求熵時,各個字母的出現(xiàn)概率 pr應(yīng)該滿足條件∑n=l pr=1,把Zipf定
2 總結(jié)
本人使用擴大藏字容量的辦法計算了30個藏文字母與4個元音的信息熵,得出了當藏字容量達到2644時,包含在一個藏文字母中的熵為4.437615。并且從理論上證明了,如果再進一步擴大藏字容量,這個熵值不會再增加。通過這個結(jié)論,進一步求出藏文字符的音節(jié)熵及藏文字符的冗余度,這些數(shù)據(jù)更能反映藏字的一些固有的屬性,對藏文字符研究工作者有更好的參考價值。
(導(dǎo)師:安見才讓)
參考文獻
[1]馮志偉.語言與數(shù)學(xué),世界圖書出版公司北京公司,2011.
[2]馮志偉,齊普夫定律的來龍去脈[J].情報科學(xué),1983 (02).
[3]昌臺·降洛.藏文文法匯編[M].四川民族出版社,2010.
[4]高定國,藏丈信息處理的原理與應(yīng)用[M].西安交通大學(xué)出版社,2014.[5]完么扎西,尼瑪扎西,藏文信息熵與輸入法鍵盤設(shè)計[J].北京大學(xué)學(xué)報(自然科學(xué)版),2016.endprint