摘要:信息熵是信息論中用于度量隨機(jī)變量的不確定性。自然語(yǔ)言信息熵的估計(jì)是自然語(yǔ)言信息處理中非常重要而且基本的問(wèn)題。在試驗(yàn)中,使用統(tǒng)計(jì)的方法對(duì)250多萬(wàn)詞的維吾爾語(yǔ)語(yǔ)料庫(kù)文本進(jìn)行統(tǒng)計(jì),初步計(jì)算了維吾爾文的信息熵和多余度。所求得的信息熵和多余度分別為4.387比特和13%,相當(dāng)接近了其它拼音文字的信息熵和多余度。
關(guān)鍵詞:維吾爾文;信息熵;多余度;語(yǔ)料庫(kù);統(tǒng)計(jì)
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A文字編碼:1009-3044(2008)04-1014-02
Statistical Estimation for Entropy of Uyghur Script
SAMAT Mamtimin1,2
(1.Communication University of China, Beijing, 100024; 2.Xinjiang University, Urumqi 830046, China)
Abstract: In information theory, entropy is a measure of the uncertainty associated with a random variable. Estimating the entropy of natural language is a fundamentally important problem in natural language information processing. In the experiment, the entropy and redundancy of Uyghur script are estimated by statistic results of more than 2.5 million words in the Uyghur Corpus. The result shows that the entropy and redundancy of Uyghur script are 4.387bit and 13% respectively which very similar to that of other alphabetical languages.
Key words: Uyghur script; entropy; redundancy; corpus; statistics
1 引言
自然語(yǔ)言字符的熵(entropy)表示該語(yǔ)言每一個(gè)字符所包含平均信息量的大小,是語(yǔ)言符號(hào)不確定性程度的一種度量。從字符編碼的角度來(lái)看,語(yǔ)言符號(hào)的熵可以被認(rèn)為是對(duì)該語(yǔ)言字符編碼所需的最小平均碼長(zhǎng)。通過(guò)計(jì)算某種語(yǔ)言的字符熵可以找出該語(yǔ)言符號(hào)系統(tǒng)的信息量和多余度之間的關(guān)系,以便能用最小的成本和消耗來(lái)實(shí)現(xiàn)最高效率的數(shù)據(jù)儲(chǔ)存、管理和傳遞。因此,正確地估計(jì)信息熵的值對(duì)語(yǔ)言信息處理具有重要意義。利用熵的概念,可以從理論上研究信息的計(jì)量、傳遞、變換、存儲(chǔ)。此外,熵在控制論、概率論、數(shù)論、天體物理、生命科學(xué)等領(lǐng)域也都有一定的應(yīng)用。
到目前為止,在國(guó)外很多學(xué)者研究不同語(yǔ)言的信息熵,計(jì)算出了這些語(yǔ)言的信息熵。各種語(yǔ)言字母的熵:法文3.98比特;西班牙文4.01比特;英文4.03比特;俄文4.35比特;德文4.10比特;羅馬尼亞文4.12比特。在國(guó)內(nèi)最早馮志偉先生用了將近10年的時(shí)間,進(jìn)行手工查頻,從小到大地逐步擴(kuò)大統(tǒng)計(jì)的規(guī)模,建立了6個(gè)不同容量的漢字頻度表,最后根據(jù)這些不同的漢字頻度表,逐步地?cái)U(kuò)大漢字的容量,終于在70年代末期首次計(jì)算出了在不考慮上下文影響的前提下漢字信息熵的值是9.65比特,1995年,馮志偉又進(jìn)一步測(cè)定了在充分考慮漢字上下文的影響時(shí)包含在一個(gè)漢字中的熵,這個(gè)熵叫做“極限熵”。他測(cè)得,漢字的極限熵平均為4.0462比特。黃萱菁等在4年的《人民日?qǐng)?bào)》語(yǔ)料的基礎(chǔ)上,所求得的零階熵、一階熵、二階熵分別為9.62,6.18和4.89比特。劉源給出漢字熵的計(jì)算結(jié)果是9.71比特。孫帆等基于詞的語(yǔ)言模型估計(jì)方法比基于字的直接計(jì)算方法得到了漢字熵的更為精確的估計(jì),其熵值為5.31比特。
由于維吾爾文的特殊性決定了至今未有人計(jì)算出維吾爾文的信息熵。近年來(lái)由于計(jì)算機(jī)可讀文本的大量出現(xiàn),以及計(jì)算能力的不斷提高,使得在更大的語(yǔ)料規(guī)模上,更為精確地用統(tǒng)計(jì)方法計(jì)算維吾爾文的信息熵成為可能。本文將在大規(guī)模文本的基礎(chǔ)上,運(yùn)用概率的估計(jì)方法來(lái)計(jì)算維吾爾文字符的信息熵和多余度。
2 基本概念
2.1 熵
熵(entropy)是1865年作為熱力學(xué)的一個(gè)重要概念引入的。信息理論中的熵是從不同的觀點(diǎn)引入的,兩者間雖有相同的數(shù)學(xué)形式,但它們并沒(méi)有什么直接的聯(lián)系。在信息論中,熵可用作某事件不確定度的量度。信息量越大,體系結(jié)構(gòu)越規(guī)則,功能越完善,熵就越小。利用熵的概念,可以從理論上研究信息的計(jì)量、傳遞、變換、存儲(chǔ)。
熵的定義:如果一個(gè)隨機(jī)變量x共有n種取值,概率分別為P0, P1, P2,.....,Pn,則其熵為H(x) =f(P0, P1, P2......,Pn) =-∑Pnlog2Pn
2.2 信息熵
信息熵也簡(jiǎn)稱為熵(entropy),是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。所以,信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。信息熵的基本作用就是消除人們對(duì)事物的不確定性,變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
根據(jù)人們的實(shí)踐經(jīng)驗(yàn),一個(gè)事件給予人們的信息量多少,與這一事件發(fā)生的概率(可能性)大小有關(guān)。一個(gè)小概率事件的發(fā)生,給予人們的信息量就很多。相反,一個(gè)大概率事件的出現(xiàn),給人們的信息量就很少。20世紀(jì)40年代末,香農(nóng)(C.E.Shannon)在著作《通信的數(shù)學(xué)理論》中提出,信息論中的熵是信息不確定性的度量單位。他用公式(1)來(lái)表示不確定性程度:
H=Log2P (1)
不確定性的值與概率P的對(duì)數(shù)值有關(guān),其單位則由對(duì)數(shù)的底決定,當(dāng)以2為底時(shí),單位為比特(bit),兩個(gè)等概率的事件實(shí)驗(yàn)結(jié)果的不確定性就是1比特。將其推廣,就可以用信息熵來(lái)表示一個(gè)各事件出現(xiàn)概率已知系統(tǒng)的不確定性。
H=∑-PiLog2Pi(2)
H為信息熵,Pi表示系統(tǒng)中事件i出現(xiàn)的概率,因此有:Pi<1且∑Pi=1。
語(yǔ)言的熵是數(shù)學(xué)方法和語(yǔ)言文字學(xué)的結(jié)合,語(yǔ)言的熵反映語(yǔ)言中每個(gè)字符的平均信息量。同樣,用公式(2)可以計(jì)算某種語(yǔ)言符號(hào)系統(tǒng)的信息量。但是,我們?cè)跍y(cè)定這個(gè)熵值的時(shí)候,只是把文本看作不等概率獨(dú)立鏈的熵,測(cè)定時(shí)只需要考慮語(yǔ)言符號(hào)出現(xiàn)概率的不同,不必考慮語(yǔ)言符號(hào)出現(xiàn)概率之間的相互影響。因此,用這個(gè)公式求到的數(shù)值是靜態(tài)平均信息熵。根據(jù)信息論的基本原理,這個(gè)熵也可以叫做“零階熵”。
2.3 多余度(redundancy)
由上可知,有n個(gè)符號(hào)的文字,每個(gè)字符最大的信息量(最大熵)Hmax=Log2(n)(即-Log2 (1/n)),而有不相等概率時(shí),其平均信息量(平均熵)H=-∑Pnlog2Pn總小于最大信息量Hmax。例如英文的最大信息量等于4.7,就要用5個(gè)二進(jìn)制數(shù)碼來(lái)編碼和傳輸。但它的平均信息量近于4.03,表示實(shí)際上可用比4個(gè)多一點(diǎn)點(diǎn)的二進(jìn)制位就可以了。說(shuō)明這一部分熵是多余的,被浪費(fèi)了。信息論研究這樣的多余度,多余度的計(jì)算公式:
R=(1-H/Hmax)×100﹪=(Hmax-H)/ Hmax×100﹪ (3)
從多余度的計(jì)算公式可知,多余度隨最大熵Hmax的增大而減小。而從最大熵的計(jì)算公式Hmax=㏒(n)可知,最大熵則隨字符個(gè)數(shù)的增加而增大。
3 維吾爾文和語(yǔ)料介紹
3.1 維吾爾文
維吾爾語(yǔ)(簡(jiǎn)稱維語(yǔ))屬于阿爾泰語(yǔ)系突厥語(yǔ)族,是維吾爾族所說(shuō)的語(yǔ)言。維吾爾族在歷史上使用過(guò)突厥文、回鶻文、察合臺(tái)文。現(xiàn)在中國(guó)維吾爾族使用的維吾爾文是在晚期察合臺(tái)文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字,是從右向左書(shū)寫(xiě)的文字。
現(xiàn)行維吾爾文有32個(gè)字母,其中有8個(gè)元音字母和24個(gè)輔音字母,每個(gè)字母按照出現(xiàn)的位置而具有單獨(dú)、前、中、后等幾種不同的形式。詞與詞之間用空格來(lái)分開(kāi)寫(xiě)。
3.2 語(yǔ)料介紹
本文所使用的語(yǔ)料來(lái)源于新疆大學(xué)在2003-2006年期間建立的現(xiàn)代維吾爾語(yǔ)語(yǔ)料庫(kù)。為了保證語(yǔ)料的平衡和代表性,我們按照一定的比例從語(yǔ)料庫(kù)中抽取了不同領(lǐng)域的2558810詞次規(guī)模的語(yǔ)料。這樣規(guī)模的語(yǔ)料基本包含了各種語(yǔ)體和體裁的文本,其中,文學(xué)類(lèi)30%,學(xué)術(shù)類(lèi)27%,新聞公文等30%,綜合類(lèi)23%。
4 維吾爾文信息熵和多余度的計(jì)算
語(yǔ)言通常都是由一組符號(hào)的集合構(gòu)成的信息源,如漢語(yǔ)、英語(yǔ)、日語(yǔ)、維吾爾語(yǔ)等。在書(shū)面語(yǔ)中,漢語(yǔ)采用的符號(hào)是漢字;日語(yǔ)采用的符號(hào)是漢字和拼音文字;英語(yǔ)和維吾爾語(yǔ)等采用拼音文字的符號(hào)集,也就是它們的字母表(還可以加上標(biāo)點(diǎn)符號(hào)和空格)。而且這些字母在各種文本中的出現(xiàn)也有一定的規(guī)律性。我們對(duì)各個(gè)維吾爾文字母在上述語(yǔ)料中出現(xiàn)的頻率作了統(tǒng)計(jì)工作,統(tǒng)計(jì)結(jié)果如表1所示。
如果我們假定這些字母是獨(dú)立出現(xiàn)的,就可以利用計(jì)算信息熵的公式(2)計(jì)算出維吾爾文33個(gè)符號(hào)(32個(gè)字母和1個(gè)空格)攜帶的平均信息量。
根據(jù)表1的概率,代入計(jì)算信息熵的公式:H=∑-PiLog2P ,其中 i=1~33
得到 H=∑-PiLog2Pi≈4.387 (平均信息熵)
已知Hmax= Log233≈5.044,根據(jù)多余度公式:
R=(1-H/ Hmax)×100﹪, 得到R≈0.13×100﹪≈13% (多余度)
各民族的語(yǔ)言都有“多余度”,我們并不能因此就認(rèn)為“多余度”是多余的。恰恰相反這種“多余度”是用語(yǔ)言傳遞信息時(shí)必不可少的。沒(méi)有多余度的語(yǔ)言實(shí)際上是無(wú)法理解的。
應(yīng)該注意的是,我們?cè)谟?jì)算這個(gè)熵值的時(shí)候,僅只考慮到了字符在文本中出現(xiàn)概率的差異,而完全沒(méi)有考慮文本中漢字出現(xiàn)概率之間的相互影響。所以我們計(jì)算得到的是維吾爾文字母的靜態(tài)平均信息熵。事實(shí)上,語(yǔ)言符號(hào)的出現(xiàn)概率是相關(guān)的,是彼此相互影響的。在充分考慮上下文關(guān)系的情況下,達(dá)到的最小條件信息量,稱為極限熵。根據(jù)極限熵,我們可以進(jìn)一步研究使傳輸更快的編碼,即不是對(duì)單個(gè)文字符號(hào),而是對(duì)文字進(jìn)行編碼,就可使平均碼長(zhǎng)減小,逼近極限熵。
5 結(jié)論
綜上所述,本文在大規(guī)模語(yǔ)料的基礎(chǔ)上,采用統(tǒng)計(jì)的方法對(duì)維吾爾文的信息熵和多余度進(jìn)行估計(jì)和計(jì)算,在250多萬(wàn)詞的語(yǔ)料規(guī)模下,所求得的零階熵約4.387比特,多余度為13%。得到的值已經(jīng)是相當(dāng)接近了其它拼音文字的信息熵??梢钥闯?,維吾爾文字信息量小,今后在處理維吾爾文時(shí)完全可以使維吾爾文信息管理和傳遞成本降低和效率提高,進(jìn)一步說(shuō)明了維吾爾文同樣是個(gè)高效率的文字方式。
當(dāng)然,這里所求得的熵仍然只是維吾爾文信息熵的一個(gè)靜態(tài)平均值,結(jié)果也不很精確。我們希望將來(lái)有更巧妙的方法,以便算出更加精確的維吾爾文字母的平均信息熵和極限熵的值。
參考文獻(xiàn):
[1] 孫帆, 孫茂松, 等. 基于統(tǒng)計(jì)的漢字極限熵估測(cè)[A]. 中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C]. 2006. 542-551.
[2] 馮志偉. 關(guān)于漢字的熵和極限熵致編輯部的一封信[J].中文信息學(xué)報(bào),1998,12(1):63-64.
[3] 馮志偉. 漢字的熵[J]. 語(yǔ)文建設(shè); 1984(04): 40-42.
[4] 馮志偉. 漢字的極限熵[J]. 中文信息,1996(2):53-56.
[5] 黃萱菁, 吳立德, 郭以昆, 劉秉偉, 等. 現(xiàn)代漢語(yǔ)熵的計(jì)算及語(yǔ)言模型中稀疏事件的概率估計(jì)[J]. 電子學(xué)報(bào), 2000,(08):110-112.
[6] 那日松,淑琴. 蒙古文信息熵和拉丁轉(zhuǎn)寫(xiě)研究[A].中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集[C], 2007:782-785.
[7] D. A. Huffman. A Method for the Construction of Minimum Redundancy Codes [A].Proc.of IRE[C]. 1952, 40(10):1098-1101.
[8] C. E. Shannon. A mathematical theory of communication [J].ACM SIGMOBILE Mobile Computing and Communications Review[C].2001, 5(1).
塞麥提·麥麥提敏(1980-),男(維吾爾族),新疆和田人,中國(guó)傳媒大學(xué)博士生,新疆大學(xué)講師,主要研究方向:計(jì)算語(yǔ)言學(xué)。