智杰, 孫茂松,才讓卓瑪
(1. 青海師范大學(xué) 計算機(jī)學(xué)院 藏文信息處理教育部重點實驗室,青海 西寧 810008;
語言文字是人類智慧和文明的結(jié)晶,是經(jīng)過漫長演化形成的復(fù)雜系統(tǒng)[1]。復(fù)雜網(wǎng)絡(luò)從全局的視角來研究復(fù)雜系統(tǒng),無論網(wǎng)絡(luò)的結(jié)構(gòu)有多復(fù)雜,其規(guī)模有多大,它都采用節(jié)點和邊兩大基本要素來研究復(fù)雜的網(wǎng)絡(luò)系統(tǒng),復(fù)雜網(wǎng)絡(luò)已經(jīng)成為研究復(fù)雜性科學(xué)與復(fù)雜系統(tǒng)的強(qiáng)有力工具。目前,復(fù)雜網(wǎng)絡(luò)的研究和應(yīng)用不僅滲透到數(shù)學(xué)、計算機(jī)科學(xué)、物理、化學(xué)、生物和工程技術(shù)等各個學(xué)科,而且已經(jīng)在社會、政治、軍事、醫(yī)藥、經(jīng)濟(jì)、管理和語言[2-3]等各個層面、各個領(lǐng)域都得到了廣泛應(yīng)用。
語言同現(xiàn)網(wǎng)絡(luò)是用復(fù)雜網(wǎng)絡(luò)方法研究語言網(wǎng)絡(luò)的特征,不同語言包括不同層級的同現(xiàn)網(wǎng)絡(luò),英語的基本組成單位是詞,因此英語主要包括詞同現(xiàn)網(wǎng)絡(luò)、句同現(xiàn)網(wǎng)絡(luò)和語義同現(xiàn)網(wǎng)絡(luò);漢語的基本組成單位是字,因此漢語主要包括字同現(xiàn)網(wǎng)絡(luò)、詞同現(xiàn)網(wǎng)絡(luò)、句同現(xiàn)網(wǎng)絡(luò)和語義同現(xiàn)網(wǎng)絡(luò)[4];藏文同現(xiàn)網(wǎng)絡(luò)的層級與漢語相同,也包括字同現(xiàn)網(wǎng)絡(luò)、詞同現(xiàn)網(wǎng)絡(luò)、句同現(xiàn)網(wǎng)絡(luò)和語義同現(xiàn)網(wǎng)絡(luò)。Sole[5]指出語言的各個層級上都體現(xiàn)了復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性。國內(nèi)外學(xué)者已在字同現(xiàn)網(wǎng)絡(luò)、詞同現(xiàn)網(wǎng)絡(luò)、詞法網(wǎng)絡(luò)、句法網(wǎng)絡(luò)和語義網(wǎng)絡(luò)等方面開展了相應(yīng)的研究,證明英語、漢語各層級上的同現(xiàn)網(wǎng)絡(luò)都具有復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性,揭示了這些語言的內(nèi)部結(jié)構(gòu)特征。本文以藏文字為研究對象,通過建立藏文字的同現(xiàn)網(wǎng)絡(luò),驗證其小世界效應(yīng)和無標(biāo)度特性,一方面驗證復(fù)雜網(wǎng)絡(luò)的普適性,另一方面揭示藏文字的內(nèi)部結(jié)構(gòu)特征。本文結(jié)構(gòu)如下: 第1節(jié)介紹語言同現(xiàn)網(wǎng)絡(luò)的相關(guān)研究工作,包括語言同現(xiàn)網(wǎng)絡(luò)的構(gòu)建方法和小世界效應(yīng)、無標(biāo)度特性分析;第2節(jié)介紹復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性;第3節(jié)是藏文字同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性分析,包括藏文字同現(xiàn)網(wǎng)絡(luò)的構(gòu)建方法、藏語語料選取及預(yù)處理、實驗數(shù)據(jù)及藏文字同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度性分析;第4節(jié)是結(jié)論與展望。
從語言同現(xiàn)網(wǎng)絡(luò)的構(gòu)建方法來看,采用n階Markov同現(xiàn)模型和相似性同現(xiàn)模型兩種[4,6]。n階Markov同現(xiàn)網(wǎng)構(gòu)造方法是: 在一個句子中,兩個語言單位在n階Markov鏈的條件下存在同現(xiàn)關(guān)系,則連接網(wǎng)絡(luò)中相應(yīng)的兩個節(jié)點。對語料中的所有句子進(jìn)行上述處理,便可構(gòu)造出語言單位的同現(xiàn)網(wǎng)絡(luò)。語言工程的實踐表明,n階Markov鏈中的n取2比較合適,因為句子中兩個詞的鄰接同現(xiàn)最常見。雖然也存在一些間隔大于1的相關(guān)語言單位對,但如果在模型中考慮此種遠(yuǎn)距離關(guān)聯(lián),則會引入大量的無關(guān)語言對,降低語言同現(xiàn)網(wǎng)絡(luò)對真實情況反映的準(zhǔn)確性。相似性同現(xiàn)模型是G?rnerup和Karlgren[7]從認(rèn)識語言普遍性和特殊性考慮,通過語言單位間的相似性而建立的同現(xiàn)網(wǎng)絡(luò)模型。在這個模型中,節(jié)點是語言單位,語言單位間如果在相似上下文中同現(xiàn)則對應(yīng)節(jié)點被連接。n階Markov同現(xiàn)模型通過上下文的順序制約關(guān)系揭示語言單位間的聯(lián)系,相似性同現(xiàn)模型通過上下文的相似性制約關(guān)系揭示語言單位間的聯(lián)系。字同現(xiàn)網(wǎng)絡(luò)構(gòu)建方法主要采用n階Markov同現(xiàn)模型,如文獻(xiàn)[8-9]采用n階Markov同現(xiàn)模型建立了漢字的同現(xiàn)網(wǎng)絡(luò);詞法、句法和語義同現(xiàn)網(wǎng)絡(luò)可采用n階Markov同現(xiàn)模型和相似性模型,如文獻(xiàn)[10]采用n階Markov同現(xiàn)模型建立了英語詞的同現(xiàn)網(wǎng)絡(luò),文獻(xiàn)[11]采用n階Markov同現(xiàn)模型建立了漢語詞的同現(xiàn)網(wǎng)絡(luò),文獻(xiàn)[12]采用相似性模型建立了漢語依存句法網(wǎng)絡(luò),文獻(xiàn)[13-15]都采用相似性模型分別建立了英語句法網(wǎng)絡(luò)和概念網(wǎng)。
從語言同現(xiàn)網(wǎng)絡(luò)特征分析方面來看,Cancho和Sole[13]基于規(guī)模為107個詞的英語國家語料庫(BNC)上構(gòu)造了一個英語詞同現(xiàn)網(wǎng)絡(luò),該網(wǎng)絡(luò)表現(xiàn)出小世界效應(yīng)和無標(biāo)度特性,它們還根據(jù)詞與詞之間的句法結(jié)構(gòu)關(guān)系構(gòu)造了句法網(wǎng)絡(luò)[13-14],也具有復(fù)雜網(wǎng)絡(luò)的基本特征。Motter和Moura等[15]根據(jù)概念間的相似性構(gòu)建了英語的概念網(wǎng),該網(wǎng)絡(luò)表現(xiàn)出復(fù)雜網(wǎng)絡(luò)的基本特征。梁偉等[8]基于古代魏晉南北朝、近代以及現(xiàn)代漢語等4個不同時期的散文,建立了字同現(xiàn)網(wǎng)絡(luò),研究發(fā)現(xiàn)99.6%的網(wǎng)絡(luò)具有無標(biāo)度特性,95%的網(wǎng)絡(luò)具有小世界特性。林楓等[9]以創(chuàng)作于不同歷史時期的《三國志》(文言文)和《三國演義》(半文半白)為語料,構(gòu)建漢字同現(xiàn)關(guān)系網(wǎng)絡(luò),研究發(fā)現(xiàn)兩個不同時期的漢字網(wǎng)絡(luò)具有相似的統(tǒng)計特征,在整體上都具有小世界性和無標(biāo)度性。劉知遠(yuǎn)、孫茂松等[11-12]建立了漢語詞同現(xiàn)網(wǎng)絡(luò)和漢語依存句法網(wǎng)絡(luò),并從復(fù)雜網(wǎng)絡(luò)的角度分別對這些網(wǎng)絡(luò)進(jìn)行了系統(tǒng)的實驗考察,實驗結(jié)果表明漢語詞同現(xiàn)網(wǎng)絡(luò)和漢語依存句法網(wǎng)絡(luò)都具有復(fù)雜網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性。
國內(nèi)少數(shù)民族語言信息處理方面,迄今為止在同現(xiàn)網(wǎng)絡(luò)方面的研究未見文獻(xiàn)報道。藏語語言同現(xiàn)網(wǎng)絡(luò)層級與漢語類同,包括字同現(xiàn)網(wǎng)絡(luò)、詞同現(xiàn)網(wǎng)絡(luò)、句法同現(xiàn)網(wǎng)絡(luò)及語義同現(xiàn)網(wǎng)絡(luò)。藏語語言同現(xiàn)網(wǎng)絡(luò)的研究尚未見相關(guān)文獻(xiàn)報道[16]。本文通過收集整理藏語語料,構(gòu)建了97個藏文字同現(xiàn)網(wǎng)絡(luò),通過計算其直徑、平均度、平均最短路徑長度、平均聚類系數(shù)及度分布,分析了藏文字同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性,實驗表明所有藏文字同現(xiàn)網(wǎng)絡(luò)都具有小世界效應(yīng)和無標(biāo)度特性。
復(fù)雜網(wǎng)絡(luò)是具有自組織、自相似、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò),Erdos和Renyi建立的隨機(jī)圖理論(ER模型)是研究復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的基本理論[17]。復(fù)雜網(wǎng)絡(luò)的定量與定性特征的科學(xué)理解已成為網(wǎng)絡(luò)時代科學(xué)研究中一個極其重要的挑戰(zhàn)性項目[18-19],雖然人們不斷對ER模型進(jìn)行擴(kuò)展以使其更接近真實網(wǎng)絡(luò),但由于大多數(shù)實際的復(fù)雜網(wǎng)絡(luò)并不是隨機(jī)連接,因而ER模型作為復(fù)雜網(wǎng)絡(luò)的模型存在著一定的缺陷,于是人們開始了“小世界”和“無標(biāo)度”效應(yīng)的實驗研究[20-21]。
小世界效應(yīng)是同現(xiàn)網(wǎng)絡(luò)的主要統(tǒng)計特性,由平均最短路徑長L和聚類系數(shù)C刻畫[8,11]。具有小世界性質(zhì)的網(wǎng)絡(luò)的平均最短路徑會很短,遠(yuǎn)小于網(wǎng)絡(luò)規(guī)模。頂點i的聚類系數(shù)Ci描述網(wǎng)絡(luò)中與該頂點直接相連的頂點之間的連接關(guān)系,即與該頂點直接相鄰的頂點間實際存在的邊數(shù)占最大可能存在的邊數(shù)的比例,因而聚類系數(shù)用于描述一個頂點鄰居之間的相互連接的緊密程度,即網(wǎng)絡(luò)的集團(tuán)化程度,是網(wǎng)絡(luò)拓?fù)涞牧硪粋€重要參數(shù)。如果同現(xiàn)網(wǎng)絡(luò)的平均最短路徑L≈Lr,且聚類系數(shù)C?Cr,則稱該網(wǎng)絡(luò)具有小世界效應(yīng)。對一個有N個頂點的網(wǎng)絡(luò),在極端情況下,當(dāng)網(wǎng)絡(luò)所有頂點均為孤立頂點時,C=0;當(dāng)網(wǎng)絡(luò)所有頂點為全耦合頂點時,每個頂點與其余N-1個頂點均有連接,C=1。
無標(biāo)度特性是同現(xiàn)網(wǎng)絡(luò)的又一個重要統(tǒng)計特性,由網(wǎng)絡(luò)中節(jié)點度分布p(k)刻畫節(jié)點間的關(guān)系。即在一個同現(xiàn)網(wǎng)絡(luò)的節(jié)點中,大部分節(jié)點(Hub點)只和幾個節(jié)點連接,而有極少數(shù)節(jié)點和很多的節(jié)點連接,少數(shù)的節(jié)點往往擁有大量的連接,一般而言它們符合zipf定律(也就是2/8馬太定律)。網(wǎng)絡(luò)是靠這幾個Hub節(jié)點支撐起來的,它們的狀態(tài)對網(wǎng)絡(luò)性能有極大影響。p(k)定義為網(wǎng)絡(luò)中隨機(jī)選取一個節(jié)點其度恰好為k的概率,若度分布p(k)滿足冪律分布:p(k)∝k-γ,其中γ為正常數(shù),則稱該網(wǎng)絡(luò)具有無標(biāo)度特性[18]。無標(biāo)度網(wǎng)絡(luò)的無標(biāo)度性是描述大量復(fù)雜系統(tǒng)整體上嚴(yán)重不均勻分布的一種內(nèi)在性質(zhì)。
圖1 藏文字同現(xiàn)網(wǎng)絡(luò)示意圖
在構(gòu)建藏文字同現(xiàn)網(wǎng)絡(luò)時,我們收集整理了藏文詩歌、散文、政治、佛教、教材和口語等不同體裁的六類具有代表性的藏語語料,每一類語料包括15篇文章。為了便于與漢字同現(xiàn)網(wǎng)絡(luò)做比較,除口語類型外其他每篇文章的平均字?jǐn)?shù)控制在1 700~4 950之間[8,22],口語類型語料的字?jǐn)?shù)有意取得較小(平均字?jǐn)?shù)975),是為了考察小語料下藏文字同現(xiàn)網(wǎng)絡(luò)是否也具有小世界效應(yīng)和無標(biāo)度特性。語料體裁、大小及來源見表1。
表1 同現(xiàn)網(wǎng)絡(luò)構(gòu)建用語料分布表
3.3.1 實驗數(shù)據(jù)
為了從多方位考察藏文字的同現(xiàn)網(wǎng)絡(luò)特征,我們把語料按不同體裁分成詩歌、散文、政治、佛教、教材和口語等六類,每類選擇了15篇大小基本相同的文章,根據(jù)我們確定的藏文字同現(xiàn)網(wǎng)絡(luò)構(gòu)建規(guī)則從小語料集、大語料集和全集語料等三個層面分別建立字同現(xiàn)網(wǎng)絡(luò),實驗考察藏文字同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性。小語料集指詩歌、散文、政治、佛教、教材和口語等六類不同體裁語料中的每一篇文章,對每一個小語料建立一個字同現(xiàn)網(wǎng)絡(luò),共構(gòu)建了90個同現(xiàn)網(wǎng)絡(luò);大語料集指每類體裁語料中的15篇小語料合并得到的6種不同體裁的語料,對每一類體裁的語料構(gòu)建一個字同現(xiàn)網(wǎng)絡(luò),共構(gòu)建了6個同現(xiàn)網(wǎng)絡(luò);全集語料指所有語料合并得到的整體語料,構(gòu)建了1個字同現(xiàn)網(wǎng)絡(luò)。對建立的97個藏文字同現(xiàn)網(wǎng)絡(luò),統(tǒng)計了所含藏文字個數(shù)Length、同現(xiàn)網(wǎng)絡(luò)頂點數(shù)N、邊數(shù)E、直徑D、平均度
表2 小語料集上藏文字同現(xiàn)網(wǎng)絡(luò)的基本數(shù)據(jù)(平均值)表
續(xù)表
圖2 小語料集上藏文字同現(xiàn)網(wǎng)絡(luò)的L、C和γ平均值分布圖
語種類型LengthNED
圖3 大語料集上藏文字同現(xiàn)網(wǎng)絡(luò)的L、C和γ值分布圖
語種LengthNED
3.3.2 藏文字同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)
以上實驗數(shù)據(jù)體現(xiàn)了藏文字同現(xiàn)網(wǎng)絡(luò)的以下特征:
(1) 在藏文字同現(xiàn)網(wǎng)絡(luò)的統(tǒng)計參數(shù)中除平均度
(2) 從直徑D和平均度
(3) 97個藏文字同現(xiàn)網(wǎng)絡(luò)都具有小的平均最短路徑L,且L≈Lr。散文類的平均最短路徑長度最小,口語類的平均最短路徑長度最大,說明對任意給定的兩個藏文字,在平均意義下連接這兩個藏文字所經(jīng)過的路徑上的字?jǐn)?shù)散文類最少,口語類最多,反映了散文類用字比較集中,而口語類用字較分散。在小語料集上藏文字同現(xiàn)網(wǎng)絡(luò)的平均最短路徑長度小于漢語的平均最短路徑長度,但隨著語料字?jǐn)?shù)的增加,藏語和漢語的平均最短路徑長度基本相同,說明字?jǐn)?shù)較少時藏語的用字比漢語的用字集中,但字?jǐn)?shù)達(dá)到一定規(guī)模時藏語和漢語的用字集中程度基本相同。
(4) 97個藏文字同現(xiàn)網(wǎng)絡(luò)的C?Cr,散文和政治類的聚類系數(shù)C最大,教材類的聚類系數(shù)C最小,說明散文和政治類中字的相互連接程度最緊密,教材類用字較松散。語料規(guī)模相當(dāng)時,藏文字同現(xiàn)網(wǎng)絡(luò)的聚類系數(shù)比漢字的大,說明藏文字間的集團(tuán)化程度比漢字的大。
由以上分析可知,在小語料集、大語料集和全集語料上藏文字同現(xiàn)網(wǎng)絡(luò)都表現(xiàn)出了小世界效應(yīng),而且表明藏文用字較為集中,兩個藏文字間最多間隔7個字,字間聯(lián)系較為緊密,字間的集團(tuán)化程度明顯。
3.3.3 藏文字同現(xiàn)網(wǎng)絡(luò)的無標(biāo)度特性
我們分析了構(gòu)建的97個藏文字同現(xiàn)網(wǎng)絡(luò)的度分布情況,與其他語言網(wǎng)絡(luò)的度分布類似,網(wǎng)絡(luò)中Hub節(jié)點擁有極其多的連接,而大多數(shù)節(jié)點只有很少的連接,Hub點對無標(biāo)度網(wǎng)絡(luò)的運行起著主導(dǎo)作用,呈現(xiàn)“胖尾”現(xiàn)象。說明藏文字同現(xiàn)網(wǎng)絡(luò)的度分布服從冪律分布,顯示了無標(biāo)度特性。雙對數(shù)坐標(biāo)下各類大語料和全集語料的字同現(xiàn)網(wǎng)絡(luò)度的分布見圖4。
圖4 雙對數(shù)坐標(biāo)下各類大語料集及全集語料的度分布圖
圖4 雙對數(shù)坐標(biāo)下各類大語料集及全集語料的度分布圖
一般而言,冪律指數(shù)γ在(2,3]時此網(wǎng)絡(luò)具有優(yōu)先鏈接機(jī)制,在(1,2]時除了優(yōu)先鏈接機(jī)制外可能存在其他鏈接機(jī)制。由實驗數(shù)據(jù)可見我們建立的97個藏文字同現(xiàn)網(wǎng)絡(luò)的冪律指數(shù)基本相同(與語料的大小幾乎無關(guān)系),冪律指數(shù)γ∈(1,2],比漢字的冪律指數(shù)小,是一類冪律指數(shù)在1~2之間的無標(biāo)度網(wǎng)絡(luò),與文獻(xiàn)[24-25]的理論相吻合,也說明這些網(wǎng)絡(luò)除優(yōu)先鏈接機(jī)制外還有其他的鏈接機(jī)制。經(jīng)分析網(wǎng)絡(luò)的演化模型,發(fā)現(xiàn)這些網(wǎng)絡(luò)除了具有優(yōu)先鏈接機(jī)制外,還與藏文中不自由虛詞的添加受其前導(dǎo)字的后加字制約有關(guān),這種現(xiàn)象符合藏文字的實際應(yīng)用情況,也更好地揭示了藏文字間的搭配不僅與同現(xiàn)度有關(guān),而且受前導(dǎo)字的后加字影響。為此我們在每類語料中選了一篇文章,過濾其中的不自由虛詞,用同樣的方法建立字同現(xiàn)網(wǎng)絡(luò),觀察了其冪律指數(shù)的變化情況,實驗表明其冪律指數(shù)有了明顯的增加,其γ∈(1.5,2.4],實驗結(jié)果與理論分析相吻合。
為了揭示藏語字同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性,對藏語中具有代表性的詩歌、散文、政治、佛教、教材和口語等六大類體裁共90篇文章,建立了97個藏文字同現(xiàn)網(wǎng)絡(luò),并研究了它們的統(tǒng)計特征,實驗數(shù)據(jù)表明所有藏文字同現(xiàn)網(wǎng)絡(luò)都具有小世界效應(yīng)和無標(biāo)度特征。
從整體來看,建立的字同現(xiàn)網(wǎng)絡(luò)中,語料規(guī)模相當(dāng)?shù)那闆r下,藏文字同現(xiàn)網(wǎng)絡(luò)的直徑和平均最短路徑長度比漢字的小,平均度和聚類系數(shù)比漢字的大,說明藏文字之間的關(guān)聯(lián)度比漢字的強(qiáng),用字也較為集中,集團(tuán)化程度也比較明顯。構(gòu)建的97個藏文字同現(xiàn)網(wǎng)絡(luò)中Hub點的節(jié)點擁有極其多的連接,而大多數(shù)節(jié)點只有很少量的連接,度分布呈現(xiàn)“胖尾”現(xiàn)象,說明藏文字同現(xiàn)網(wǎng)絡(luò)的度分布服從冪律分布,冪律指數(shù)基本相同,γ∈(1,2]是一類冪律指數(shù)在1~2之間的無標(biāo)度網(wǎng)絡(luò)。藏文字的同現(xiàn)網(wǎng)絡(luò)不僅具有優(yōu)先鏈接機(jī)制,還與不自由虛詞的添加受其前導(dǎo)字的后加字制約有關(guān)。
總之,本文所建立的藏文字同現(xiàn)網(wǎng)絡(luò)較好地反映了藏文字的同現(xiàn)特征,較全面地揭示了藏文字的統(tǒng)計特性。今后將在該研究成果的基礎(chǔ)上進(jìn)一步研究藏文詞同現(xiàn)網(wǎng)絡(luò)統(tǒng)計特征,從同現(xiàn)網(wǎng)絡(luò)角度分析藏文詞的統(tǒng)計特性。