趙懌怡,劉海濤
(1. 廈門大學(xué) 人文學(xué)院,福建 廈門 361005;2. 浙江大學(xué) 外國語言文化與交流學(xué)院,浙江 杭州 310058)
語言是一種復(fù)雜動態(tài)系統(tǒng)[1-5]。它在各個層級表現(xiàn)出高度的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)(語音、詞匯、句法、語義)[6-7]。此類結(jié)構(gòu)的形成與演化是數(shù)百萬使用者長期使用的結(jié)果,使用者適應(yīng)并改變語言使它滿足當(dāng)下交流的需要[8]。語言本身和語言所反映的人類認(rèn)知結(jié)構(gòu)體現(xiàn)了人類大腦網(wǎng)絡(luò)的特征,即網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)[9]。所有這些網(wǎng)絡(luò)自身的約束限制以及彼此相互影響產(chǎn)生的動態(tài)過程使得語言成為我們今天看到的樣子。
一種可靠的語言網(wǎng)絡(luò)構(gòu)造方法是語言網(wǎng)絡(luò)研究的第一步。在某個層面上,網(wǎng)絡(luò)假設(shè)可以被簡單地看作是一種展示語言數(shù)據(jù)的標(biāo)記方法。網(wǎng)絡(luò)是節(jié)點(diǎn)、邊的集合,構(gòu)建一個網(wǎng)絡(luò)首先要確定這兩個要素[10]。迄今可見諸多對語言網(wǎng)絡(luò)的構(gòu)造,集中在以字、詞為單位的語言同現(xiàn)網(wǎng)絡(luò)[11-12]、句法網(wǎng)絡(luò)[3,13]、語義網(wǎng)絡(luò)[4,14-16]的不同層面,這些網(wǎng)絡(luò)的構(gòu)建大都受語言資源的形式所限表現(xiàn)出些許差異,但已能基本窺見語言網(wǎng)絡(luò)類似于其他自然和社會網(wǎng)絡(luò)的統(tǒng)計(jì)規(guī)律(小世界、無標(biāo)度)。但是如何更好地結(jié)合語言特點(diǎn)和語言學(xué)的研究成果,采用更可靠的方法對語言單位各層面分析,是語言網(wǎng)絡(luò)研究者需要深入思考的問題。本文收集的幾類以詞為單位的語言網(wǎng)絡(luò)構(gòu)造方法,基于同一文本構(gòu)建不同類型的語言網(wǎng)絡(luò),并試圖從網(wǎng)絡(luò)全局參數(shù)和網(wǎng)絡(luò)局部節(jié)點(diǎn)特征兩個角度來闡釋不同層級語言網(wǎng)絡(luò)的差異。
語言同現(xiàn)網(wǎng)是語言工程領(lǐng)域研究者較為熟悉的網(wǎng)絡(luò)構(gòu)造方法。這種方法基于分詞操作,不需要對語言單位(詞)進(jìn)行深入的結(jié)構(gòu)分析。研究者通常先建立模型,通過模型確定詞關(guān)系矩陣?yán)^而建立網(wǎng)絡(luò)。
同現(xiàn)網(wǎng)構(gòu)造方法之一是n階Markov同現(xiàn)。如果在一個句子中,兩個詞之間在n階Markov 鏈的條件下存在同現(xiàn)關(guān)系, 則認(rèn)為網(wǎng)絡(luò)中相應(yīng)的兩個節(jié)
點(diǎn)之間存在一個連接。對語料庫中的所有句子進(jìn)行上述處理,便可構(gòu)造出詞同現(xiàn)網(wǎng)絡(luò)。語言工程的實(shí)踐表明,n 階Markov 鏈中的n取2 比較合適,因?yàn)榫渥又袃蓚€詞的鄰接同現(xiàn)是最常見的。雖然也存在一些間隔大于1的相關(guān)詞對,但如果在模型中考慮此種遠(yuǎn)距離關(guān)聯(lián),則會引入大量的無關(guān)詞對,降低詞同現(xiàn)網(wǎng)絡(luò)對真實(shí)情況反映的準(zhǔn)確性。采取這個策略,一方面可較充分地反映詞與詞之間的上下文制約關(guān)系,另一方面,又可使模型的復(fù)雜性得到較好的控制。
按照上述方法,我們使用兩個句子的文本“人體是由數(shù)以億計(jì)的微小而有生命的細(xì)胞構(gòu)成的 這些細(xì)胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作 ”構(gòu)建2階馬爾科夫鏈同現(xiàn)網(wǎng)絡(luò)。在該同現(xiàn)網(wǎng)中節(jié)點(diǎn)為詞,按照次序建立前后連接(箭頭表示詞連接方向),網(wǎng)絡(luò)中標(biāo)點(diǎn)符號被刪除,保留句子的根節(jié)點(diǎn)標(biāo)記ROOT*ROOT為非詞標(biāo)記,不應(yīng)存在于詞節(jié)點(diǎn)的網(wǎng)絡(luò)中,但考慮到其標(biāo)記句子根節(jié)點(diǎn)的作用,且復(fù)雜網(wǎng)絡(luò)不因單個節(jié)點(diǎn)的結(jié)構(gòu)功能產(chǎn)生巨大的變化,故保留。,形成23個節(jié)點(diǎn)的網(wǎng)絡(luò)如圖1所示。
圖1 23N有向同現(xiàn)網(wǎng)(左)和加權(quán)(頻次)同現(xiàn)網(wǎng)(右)
通過PAJEK*PAJEK社會網(wǎng)絡(luò)分析工具?!耙瞥噙?Net-Transform-Remove-Multiple lines)”操作,節(jié)點(diǎn)間在文本中對應(yīng)連接的頻次可以在邊值中顯現(xiàn),文本中“細(xì)胞—構(gòu)成”兩詞在上下文中出現(xiàn),在網(wǎng)絡(luò)中連接著兩個節(jié)點(diǎn)的邊值為2。這樣其實(shí)是構(gòu)建了一個基于上下文同現(xiàn)的加權(quán)同現(xiàn)網(wǎng)絡(luò)。
n階馬爾科夫鏈構(gòu)建同現(xiàn)網(wǎng)絡(luò)是語言網(wǎng)絡(luò)研究經(jīng)常采用的方式,因?yàn)樗睦碚撃P拖鄬Τ墒?,操作相對便捷。下面介紹的“詞相似性同現(xiàn)網(wǎng)”的基本構(gòu)造思想也是上下文同現(xiàn),但采用了相對復(fù)雜的模型。
詞相似性同現(xiàn)模型是G?rnerup和Karlgren[17]從認(rèn)識語言普遍性和特殊性(它們影響分布模型行為)考慮,建立的詞相似性決定的網(wǎng)絡(luò)模型。在這個模型中,節(jié)點(diǎn)是詞,詞如果在相似上下文中同現(xiàn)則被連接。詞相似性模型假定每個詞都出現(xiàn)在一定的上下文概率分布之中,Pi={Pr[wp,wi,ws|wi]},wp,ws∈W。在操作中,估計(jì)Pi通過測量wi的上下文同現(xiàn),再標(biāo)準(zhǔn)化這個數(shù)值。如果兩個詞有相似的上下文則有相似的功能。量化兩個詞的區(qū)別,定義dij(0≤dij≤2), 通過變化相應(yīng)的上下文分布來調(diào)整變化距離。詞的集合和它們的相似性很容易表示為一個有權(quán)重的無向網(wǎng)絡(luò)。節(jié)點(diǎn)為詞,通過上下文相似度來連接。連接強(qiáng)度依賴于詞相似度。邊權(quán)通過wij=2-dij測量。研究者測量了11種語言中3 000常用詞排名前19位的詞,用它們構(gòu)建詞網(wǎng)。所有的
詞網(wǎng)有明顯的社團(tuán)結(jié)構(gòu),節(jié)點(diǎn)有組織,組織內(nèi)部有高密度的邊連接。社團(tuán)結(jié)構(gòu)的強(qiáng)度可以由下測量: 由網(wǎng)絡(luò)中給定的邊權(quán)片段組成,這些邊權(quán)來自于網(wǎng)絡(luò),網(wǎng)絡(luò)中邊連接相同的社團(tuán)。對11種語言的詞相似性測量發(fā)現(xiàn)每種語言的詞相似網(wǎng)絡(luò)都是模塊化的,不同語言的模塊化程度不同,芬蘭語相比其他語言詞間連接較弱,希臘語模塊化程度明顯。
不難看出無論是n階馬爾科夫鏈還是詞相似性模型的同現(xiàn),都是通過構(gòu)造詞出現(xiàn)的上下文環(huán)境來判斷詞的功能分布。但是有限元數(shù)的上下文同現(xiàn)難以準(zhǔn)確反映前后成分間的規(guī)律。Liu[3]認(rèn)為,語言同現(xiàn)網(wǎng)絡(luò)的構(gòu)造有其信息論的價(jià)值,但從語言學(xué)角度來分析缺乏可靠性。因?yàn)樵谡Z法上相關(guān)的成分在語序上并不一定相鄰,反之,語序上相鄰的成分并不一定存在語法相關(guān)性。舉一個簡單的例子“an interesting book”,如果在鄰接的不定冠詞“an”和形容詞“interesting”間產(chǎn)生同現(xiàn)的連接關(guān)系可能很難找到句法理論的支持,這說明上下文同現(xiàn)的分析可能存在單靠詞分布判斷詞功能的缺陷。這要求我們充分考慮句法理論在語言結(jié)構(gòu)分析中的必要性。句法理論是人類(語言學(xué)家)長期的、經(jīng)驗(yàn)的關(guān)于語言規(guī)律的總結(jié),甚至有生物語言學(xué)的研究者主張句法是人類語言進(jìn)化的結(jié)果[18]。在語言分析的時(shí)候充分考慮語言理論的研究成果是必要的,而我們目前要做的是用數(shù)學(xué)的方法和客觀的數(shù)據(jù)去驗(yàn)證這些規(guī)律的可靠性、充分性,并通過新的大規(guī)模的數(shù)據(jù)和方法繼續(xù)探索語言的規(guī)律。因此我們在構(gòu)造語言網(wǎng)絡(luò)時(shí),有必要進(jìn)入到基于句法的語言分析層面。
句法網(wǎng)絡(luò)指基于語言學(xué)(句法)理論的網(wǎng)絡(luò)。劉海濤[16]建議構(gòu)建基于語言學(xué)理論的網(wǎng)絡(luò),雖然從信息論角度同現(xiàn)網(wǎng)絡(luò)有其價(jià)值,但是構(gòu)建句法網(wǎng)絡(luò)對于分析人類語言特征更為有益。而相比于其他句法理論,依存語法是一種“網(wǎng)絡(luò)友好”的語言學(xué)理論[3,13,20-21]。
就句法分析而言,短語結(jié)構(gòu)和依存關(guān)系是兩種主要的分析手段。短語結(jié)構(gòu)注重的是研究組成句子各成分之間部分與整體的關(guān)系,而依存分析關(guān)注的是構(gòu)成句子各個成分之間的關(guān)系。雖然就什么是依存分析和依存語法[4,10,19,22-23],學(xué)者們?nèi)杂胁煌目捶?,但一般認(rèn)為構(gòu)成依存分析基礎(chǔ)的是依存關(guān)系。
依存關(guān)系具有這樣一些主要屬性:
1. 語言單位間的二元關(guān)系。這種關(guān)系在兩個詞間形成,也可以抽象為兩個詞類的間的關(guān)系;
2. 依存關(guān)系是一種有向關(guān)系或非對稱關(guān)系,兩個詞(類)中有一個為支配詞(類)。圖中箭頭表示這種有向性。
3. 依存關(guān)系是有標(biāo)記的,即人們應(yīng)該區(qū)分一種語言里的各種不同的依存關(guān)系,并且將它們顯式標(biāo)識出來。
依存句法理論的這些屬性決定了它是一種網(wǎng)絡(luò)友好的理論。依存句法中的詞對應(yīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)屬性,關(guān)系對應(yīng)邊,關(guān)系類型對應(yīng)邊屬性,這樣我們就可把依存分析轉(zhuǎn)化為網(wǎng)絡(luò)。
對文本進(jìn)行依存句法分析就是建立以詞為單位的詞間關(guān)系。對句子“人體是由數(shù)以億計(jì)的微小而有生命的細(xì)胞構(gòu)成的 這些細(xì)胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作”進(jìn)行依存分析得到圖2。
圖2 線性文本間的依存句法分析
通過詞間依存句法建立關(guān)系的線性文本可以容易地轉(zhuǎn)化為相應(yīng)語句的句法網(wǎng)絡(luò)(圖3)。這樣做的優(yōu)勢在于: 一方面,在這樣的句法網(wǎng)絡(luò)中,對文本的分析跨越了以往句法理論受限于句內(nèi)障礙。另一方面,基于人腦神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的事實(shí),如果假設(shè)文本中保持了人類的絕大多數(shù)知識,文本信息也應(yīng)該存儲在人腦的網(wǎng)狀的結(jié)構(gòu)中,那么,網(wǎng)絡(luò)分析的方法實(shí)現(xiàn)了線性文本到人類語言存儲環(huán)境(大腦)的模擬。當(dāng)然,文本的網(wǎng)狀結(jié)構(gòu)并不等于人腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),但是我們有理由相信文本的網(wǎng)狀結(jié)構(gòu)和人腦中知識表征、儲存、學(xué)習(xí)的網(wǎng)狀結(jié)構(gòu)存在一定的聯(lián)系。
為了比較同現(xiàn)網(wǎng)絡(luò)和句法網(wǎng)絡(luò)的差異,我們利用2階馬爾科夫鏈模型和依存句法理論分析構(gòu)造例句的同現(xiàn)網(wǎng)(圖4)和句法網(wǎng)(圖3),并對兩個網(wǎng)絡(luò)的基本參數(shù)進(jìn)行比較,見表1。
圖3 23個節(jié)點(diǎn)的依存句法網(wǎng)絡(luò)圖4 23個節(jié)點(diǎn)有向詞同現(xiàn)網(wǎng)
表1 23節(jié)點(diǎn)同現(xiàn)網(wǎng)、句法網(wǎng)主要參數(shù)比較
注:N-節(jié)點(diǎn)數(shù);E-邊數(shù);D-直徑;kin/kout t-節(jié)點(diǎn)入度、出度;density-密度;CC1-只有1個鄰居節(jié)點(diǎn)的聚集度;centralization-網(wǎng)絡(luò)中心度
在23個節(jié)點(diǎn)的有向網(wǎng)絡(luò)中,可觀察到兩個網(wǎng)絡(luò)的平均路徑長度、密度、節(jié)點(diǎn)度相當(dāng),而句法網(wǎng)路的直徑5顯著小于同現(xiàn)網(wǎng)絡(luò)直徑12。雖然同現(xiàn)網(wǎng)和句法網(wǎng)的節(jié)點(diǎn)平均度整體沒有差異,但是節(jié)點(diǎn)度分布存在明顯不同。這表明句法網(wǎng)重新分配了詞在網(wǎng)絡(luò)中的功能。兩個網(wǎng)絡(luò)中“的”節(jié)點(diǎn)度排在首位。節(jié)點(diǎn)“的”是構(gòu)建網(wǎng)絡(luò)所用文本中最高頻詞,同時(shí)在句法分析中起著連接形容詞和名詞的重要句法作用,這是“的”在節(jié)點(diǎn)度分布中排在首位的兩方面因素。值得注意,節(jié)點(diǎn)“是”在構(gòu)建網(wǎng)絡(luò)的文本中只出現(xiàn)一次,這影響了它在同現(xiàn)網(wǎng)節(jié)點(diǎn)度分布中的排序,但是在句法網(wǎng)絡(luò)的度分布中節(jié)點(diǎn)“是”占據(jù)前列,這表明經(jīng)句法分析構(gòu)造的網(wǎng)絡(luò)側(cè)重反映詞的語法功能價(jià)值(表3)。
表2 同現(xiàn)網(wǎng)和句法網(wǎng)標(biāo)準(zhǔn)化節(jié)點(diǎn)度排序
在我們構(gòu)建23節(jié)點(diǎn)的同現(xiàn)網(wǎng)絡(luò)和句法網(wǎng)絡(luò)度分布中,兩個網(wǎng)絡(luò)具有相同標(biāo)準(zhǔn)化度分布均值0.190 2,但是句法網(wǎng)絡(luò)的標(biāo)準(zhǔn)差*標(biāo)準(zhǔn)差(Standard Deviation)是各數(shù)據(jù)偏離平均數(shù)的距離的平均數(shù)。標(biāo)準(zhǔn)差能反映一個數(shù)據(jù)集的離散程度。簡單來說,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。一個較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。通常,標(biāo)準(zhǔn)差越高,表示實(shí)驗(yàn)數(shù)據(jù)越離散,也就是說越不精確。反之,標(biāo)準(zhǔn)差越低,代表實(shí)驗(yàn)的數(shù)據(jù)越精確。略大于同現(xiàn)網(wǎng)絡(luò),這反映了句法網(wǎng)絡(luò)度分布離散性較高,度分布越離散網(wǎng)絡(luò)的層級性和異質(zhì)性越高??紤]到目前網(wǎng)絡(luò)的規(guī)模, 同現(xiàn)網(wǎng)和句法網(wǎng)的更顯著差異可能還需要更大規(guī)模節(jié)點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)支持。但是我們已經(jīng)發(fā)現(xiàn),這兩類節(jié)點(diǎn)相同、組織方式不同的微型網(wǎng)絡(luò)存在基本參數(shù)上的差別。
詞類是句法理論研究的一項(xiàng)主要內(nèi)容,漢語詞類問題在漢語語法分析中產(chǎn)生的影響一直備受爭議。復(fù)雜網(wǎng)絡(luò)注重整體的特質(zhì),使得它非常適宜于研究某些詞(類)對語言系統(tǒng)的影響。我們對文本“人體是由數(shù)以億計(jì)的微小而有生命的細(xì)胞構(gòu)成的 這些細(xì)胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作”進(jìn)行依存分析構(gòu)建了詞類的關(guān)系網(wǎng)絡(luò),如圖5所示。網(wǎng)絡(luò)中包含10個詞類節(jié)點(diǎn)(和預(yù)先設(shè)定的詞類分析標(biāo)準(zhǔn)有關(guān)),連接詞類節(jié)點(diǎn)的有向邊反映依存句法理論中詞類間的相互支配關(guān)系(箭頭所指方向關(guān)系為“從屬于”),邊的粗細(xì)(依賴邊值)反映文本中相應(yīng)類型詞類間關(guān)系的出現(xiàn)的頻次。在這樣的網(wǎng)絡(luò)中,我們能夠比較直觀的看到語言中哪些詞類在文本比較活躍,哪些詞類間存在依存關(guān)系。
圖5 23個節(jié)點(diǎn)詞類網(wǎng)絡(luò)參照
這一方面最值得研究的問題是漢語虛詞在漢語句法體系中的作用[24]。一般認(rèn)為,由于漢語的實(shí)詞沒有形態(tài)變化,虛詞便成了漢語的主要句法手段之一。如果虛詞是漢語的主要句法手段,那么從漢語句法網(wǎng)絡(luò)中將虛詞移走,可能會導(dǎo)致漢語句法網(wǎng)絡(luò)的統(tǒng)計(jì)特征發(fā)生重大的變化。陳芯瑩、劉海濤[25]以概率配價(jià)模式理論*概率配價(jià)模式理論詳見: 劉海濤,依存語法的理論與實(shí)踐,北京: 科學(xué)出版社,2010:106-111.為基礎(chǔ),利用復(fù)雜網(wǎng)絡(luò)分析技術(shù),研究和分析了漢語句法網(wǎng)絡(luò)中虛詞的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)。他們的研究發(fā)現(xiàn),(1)“的”是漢語句法網(wǎng)絡(luò)的全局中心節(jié)點(diǎn)。它的被支配能力是網(wǎng)絡(luò)中最強(qiáng)的,同時(shí)它還具備很強(qiáng)的支配能力。而且,“的”的這些網(wǎng)絡(luò)特性受語體影響較小。從網(wǎng)絡(luò)中剔除“的”節(jié)點(diǎn),會造成句法網(wǎng)絡(luò)的平均度下降、平均路徑長度增加、直徑增加、密度降低并導(dǎo)致孤立節(jié)點(diǎn)的產(chǎn)生;(2)“了”是網(wǎng)絡(luò)中的局部中心節(jié)點(diǎn),不是全局中心節(jié)點(diǎn)。它具有較強(qiáng)的被支配能力但不具備支配能力。刪除“了”會造成網(wǎng)絡(luò)的平均度下降,但其對網(wǎng)絡(luò)的影響比“的”要?。黄骄窂介L度增加、直徑增加、密度降低,其影響均大于“的”;不會使網(wǎng)絡(luò)產(chǎn)生孤立節(jié)點(diǎn);(3)介詞“在”是接近網(wǎng)絡(luò)的全局中心節(jié)點(diǎn)。但它的支配能力與被支配能力受語體影響較大,在書面語體中的被支配能力強(qiáng)于在口語體中的被支配能力。剔除“在”后,網(wǎng)絡(luò)的平均度下降,但其影響比“的”要小;平均路徑長度增加、直徑增加、密度降低,其影響均大于“的”與“了”相當(dāng);會使網(wǎng)絡(luò)產(chǎn)生孤立節(jié)點(diǎn)。
漢語依存句法網(wǎng)的全局特征和局部特征的研究從復(fù)雜網(wǎng)絡(luò)和語言理論兩個角度加深了我們對語言網(wǎng)絡(luò)的認(rèn)識,也促使研究者進(jìn)一步探索語義網(wǎng)絡(luò)的面貌。
什么是語義網(wǎng)絡(luò)?
與字、詞、句法等表層語言網(wǎng)絡(luò)不同,語義網(wǎng)絡(luò)是一種深層語言網(wǎng)絡(luò)。語義網(wǎng)絡(luò)又可以分為兩種,一種是通過真實(shí)文本進(jìn)行語義角色或論元結(jié)構(gòu)分析所得到的語義網(wǎng)絡(luò),這種網(wǎng)絡(luò)可以稱之為動態(tài)語義網(wǎng)絡(luò)。動態(tài)語義網(wǎng)絡(luò)有助于研究與交際過程相關(guān)的各種語義問題,有利于研究更好的語義處理策略與系統(tǒng)。Liu[4]通過對真實(shí)文本進(jìn)行語義角色標(biāo)注,構(gòu)造并研究了漢語的動態(tài)語義網(wǎng)絡(luò)。這是一種節(jié)點(diǎn)為實(shí)詞,連接為語義或論元關(guān)系的網(wǎng)絡(luò)。另一種是根據(jù)詞典等語言資源構(gòu)造的語義網(wǎng)絡(luò),這種語義網(wǎng)絡(luò)是一種靜態(tài)語義網(wǎng)絡(luò),它所反映的是人類存儲知識的方式與結(jié)構(gòu)。在這樣的網(wǎng)絡(luò)中,節(jié)點(diǎn)一般為概念(或?qū)嵲~),節(jié)點(diǎn)之間的關(guān)系可以是上下位、部分與整體、同義、反義等語義關(guān)系[26]。靜態(tài)語義網(wǎng)絡(luò)對于義類及概念詞典的研究,對于知識庫的開發(fā)都有用處。圖6左是一個靜態(tài)語義網(wǎng)絡(luò)的示意圖。其中空心箭頭表示兩詞之間在語義上屬于上下位關(guān)系,如“花—百合花”說明百合花是花的一種;而實(shí)心箭頭表示兩詞之間在語義上屬于部分-整體關(guān)系,如“花萼—花”說明花萼是花的一部分。在這樣的網(wǎng)絡(luò)中,節(jié)點(diǎn)一般為概念(或?qū)嵲~),節(jié)點(diǎn)之間的關(guān)系可以是上下位、部分與整體、同義、反義等語義關(guān)系。圖6是句子是小百科中關(guān)于“花”的定義“花是被子植物繁衍后代的生殖器官 一朵完整的花包括了6個基本的部分 即花梗 花托 花萼 花冠 雄蕊群和雌蕊群”中實(shí)詞的動態(tài)語義網(wǎng)絡(luò)。在這類網(wǎng)絡(luò)中我們注意到節(jié)點(diǎn)不再是靜態(tài)語義網(wǎng)絡(luò)描述的同類詞相關(guān)的概念網(wǎng)絡(luò),而是包含了多種實(shí)詞類的動態(tài)網(wǎng)絡(luò)(圖7)。
圖6 靜態(tài)語義網(wǎng)絡(luò)示意圖
圖7 動態(tài)語義網(wǎng)絡(luò)示意圖
相比靜態(tài)語義網(wǎng)絡(luò)對于義類、概念詞典、知識庫開發(fā)研究的作用。動態(tài)語義網(wǎng)絡(luò)注重人在實(shí)際語言運(yùn)用中對概念從語義到句法的整合和實(shí)現(xiàn)過程。而這個過程是認(rèn)知科學(xué)、心理學(xué)、語言學(xué)共同關(guān)注的焦點(diǎn)。如果我們認(rèn)可神經(jīng)網(wǎng)絡(luò)是人類思維的生物基礎(chǔ),那么就可以說,靜態(tài)、動態(tài)語義網(wǎng)絡(luò)的相互協(xié)作完成了人類思維到語言功能的實(shí)現(xiàn)。
通常漢語語義分析被認(rèn)為是針對實(shí)詞的分析。同樣,在語義網(wǎng)絡(luò)中不對只有句法功能無實(shí)義的虛詞進(jìn)行分析。這就涉及到漢語實(shí)詞、虛詞分類的問題。而虛實(shí)分類又會觸及到棘手的漢語詞類問題。陸儉明[27]在《現(xiàn)代漢語語法研究教程》中就“漢語詞類問題是個老大難的問題”進(jìn)行了詳細(xì)論述,自中國第一部漢語語法專著《馬氏文通》*參看《馬氏文通》(馬建忠,1989)北京: 商務(wù)印書館,2007版.至今已有11個關(guān)于漢語詞類較為完整的分類體系(馬氏文通、黎錦熙、呂叔湘、王力、語法講話、中學(xué)體系、胡裕樹、黃廖本、朱德熙、北大本、張斌),這11個分類體系的看法有的部分一致、有的部分涉及詞類細(xì)化、有的完全相反,對漢語虛詞、實(shí)詞劃分也是在各自詞類分析的基礎(chǔ)上有自成一體的判斷。
考慮到漢語語義網(wǎng)絡(luò)構(gòu)建過程中必然要參考漢語語法研究已有的成就,但是不宜過甚陷入學(xué)術(shù)之爭。簡單說,我們基本采用《中學(xué)教學(xué)語法系統(tǒng)提要》*中學(xué)教學(xué)語法系統(tǒng)提要(人民教育出版社中學(xué)語文室,1984)根據(jù)1981年7月在哈爾濱舉行的“全國語法和語法教學(xué)討論會”上確定的原則起草。的分類制定適用于漢語信息處理的詞類標(biāo)注體系,并采用其對漢語實(shí)詞、虛詞的分類為參考進(jìn)行語義網(wǎng)絡(luò)的提取。原因有二: 一方面,中學(xué)體系影響教大,目前出版的標(biāo)注詞類的詞典大多沿用這個體系,辭書可以為具體的語料分析操作提供詳盡的有效參考;另一方面,中學(xué)體系經(jīng)歷長期的教學(xué)實(shí)踐,較大程度決定目前國民語言文字使用的實(shí)際水平,而我們實(shí)驗(yàn)的語料是來源于日常使用的真實(shí)語料,采用這個系統(tǒng)對語料進(jìn)行再分析符合構(gòu)建漢語網(wǎng)絡(luò)考察人腦對語言認(rèn)知原始狀態(tài)的預(yù)期。
從這兩個因素考慮,我們制定漢語12大詞類(名詞、數(shù)詞、量詞、形容詞、動詞、副詞、代詞、介詞、連詞、助詞、嘆詞、擬聲詞)和部分大類細(xì)分小類的標(biāo)注方案[28],認(rèn)為漢語虛詞是包含介詞、連詞、助詞、副詞、擬聲詞的類,需要明確的是,在此基礎(chǔ)上的語義標(biāo)注中“副詞”類存在較大問題: 黃伯榮、廖序東[29]認(rèn)為副詞是虛詞,邵敬敏[30]認(rèn)為副詞兼具實(shí)詞和虛詞,胡裕樹[31]認(rèn)為副詞是實(shí)詞。從副詞細(xì)分來看,《現(xiàn)代漢語副詞分類詞典》[32]有十小類的分法可供參考: 時(shí)間副詞、程度副詞、限度副詞(頂多、起碼、大約、恰好、到處)、情態(tài)副詞、語氣副詞(倒、到底、究竟、難道)、判斷副詞(的確、勢必、偶爾、或許、不)頻次副詞、關(guān)聯(lián)副詞、目的副詞、類比副詞。其中否定副詞“不”如果作為虛詞在語義分析中提出會影響語義正確表達(dá),在實(shí)際語義分析中我們較多遇到“不”的問題,故決定副詞“不”在語義分析時(shí)保留。
利用文本“人體是由數(shù)以億計(jì)的微小而有生命的細(xì)胞構(gòu)成的 這些細(xì)胞構(gòu)成各個不同的組織 器官 保證了人體的正常工作”構(gòu)建的實(shí)詞語義網(wǎng)包含19個實(shí)詞節(jié)點(diǎn),見圖8。與相應(yīng)文本的句法網(wǎng)絡(luò)相比去掉了虛詞節(jié)點(diǎn)“的、了、而”。微型實(shí)詞網(wǎng)絡(luò)的平均路徑長度、網(wǎng)絡(luò)直徑、節(jié)點(diǎn)入度、出度小于句法網(wǎng)絡(luò)相應(yīng)參數(shù)。平均路徑長度是網(wǎng)絡(luò)中任意兩個節(jié)點(diǎn)之間的最短路徑長度均值,它聚合了網(wǎng)絡(luò)所有成對節(jié)點(diǎn),是網(wǎng)絡(luò)全局性指標(biāo)。從網(wǎng)絡(luò)的平均路徑長度和直徑來看,實(shí)詞網(wǎng)絡(luò)的密度略高,這可能和網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)縮小相關(guān)。但是同文本句法網(wǎng)絡(luò)和語義網(wǎng)絡(luò)對比同現(xiàn)網(wǎng)絡(luò),前兩者具有明顯小的平均路徑和網(wǎng)絡(luò)直徑,如表3所示,這反映出從語言理論角度構(gòu)建的語言網(wǎng)絡(luò)可能具有更顯著的復(fù)雜網(wǎng)絡(luò)全局特征。語義網(wǎng)絡(luò)的聚集系數(shù)高于同文本的同現(xiàn)網(wǎng)絡(luò),但遠(yuǎn)落后于同文本句法網(wǎng)絡(luò)。聚集系數(shù)描述節(jié)點(diǎn)的相鄰節(jié)點(diǎn)互為鄰居的程度,它是反映網(wǎng)絡(luò)中三角關(guān)系的聚集傾向和集群形態(tài)的局部特征指標(biāo)。同比下句法網(wǎng)絡(luò)具有較高的聚集系數(shù),反映出句法網(wǎng)絡(luò)節(jié)點(diǎn)間具有更為緊密的聯(lián)系,去除了虛詞的語義網(wǎng)絡(luò),聚集系數(shù)降低,說明虛詞在連通語言網(wǎng)絡(luò)節(jié)點(diǎn)局部關(guān)系上起到一定作用,這一點(diǎn)有待擴(kuò)大網(wǎng)絡(luò)規(guī)模后的進(jìn)一步驗(yàn)證。
圖8 23節(jié)點(diǎn)句法網(wǎng)和20節(jié)點(diǎn)語義網(wǎng)
表3 三類網(wǎng)絡(luò)基本參數(shù)比較
在復(fù)雜網(wǎng)絡(luò)尤其是社會網(wǎng)絡(luò)分析中,網(wǎng)絡(luò)中心(centrality)描述單個節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置,網(wǎng)絡(luò)的中心性(centralization)定義整個網(wǎng)絡(luò)的性質(zhì)。如果網(wǎng)絡(luò)的中心節(jié)點(diǎn)和外圍節(jié)點(diǎn)有較為明顯的界限就表示這個網(wǎng)絡(luò)有較高的中心度。在中心度高的網(wǎng)絡(luò)中,信息更容易傳遞。社會網(wǎng)絡(luò)中,一個行動者(節(jié)點(diǎn))可以通過多種途徑之一占據(jù)網(wǎng)絡(luò)中心位置: 與許多其他行動者相連接(度中心性);能接觸到網(wǎng)絡(luò)中許多其他行動者(接近中心性);把彼此之間沒有直接聯(lián)系的行動者連接起來(中介中心性);與居于網(wǎng)絡(luò)中新位置的行動者有連接關(guān)系(特征向量中心性)。由此可見,在信息高效傳遞的網(wǎng)絡(luò)中,中心節(jié)點(diǎn)是必不可少的。那么,語言網(wǎng)絡(luò)作為一種包含豐富信息的網(wǎng)絡(luò),它的中心節(jié)點(diǎn)會不會因?yàn)椴煌木W(wǎng)絡(luò)構(gòu)造方法產(chǎn)生差異呢?這種差異會不會進(jìn)一步導(dǎo)致網(wǎng)絡(luò)局部特征和全局特征的差異呢?這些問題都有待進(jìn)一步探索。在此,我們先利用PAJEK提取了兩個句子文本的句法網(wǎng)、語義網(wǎng)的中心節(jié)點(diǎn)(Net-Vector-Centers),得到如表4所示排序。
表4 句法網(wǎng)和語義網(wǎng)的中心節(jié)點(diǎn)標(biāo)準(zhǔn)化排序(前三位)
在22個詞的句法網(wǎng)中,“的、構(gòu)成、有”具有較高的網(wǎng)絡(luò)中心位置,其中助詞“的”優(yōu)勢非常明顯。而在去除虛詞后剩余19個實(shí)詞節(jié)點(diǎn)的語義網(wǎng)絡(luò)中,中心節(jié)點(diǎn)發(fā)生了明顯變化,句法網(wǎng)的中心節(jié)點(diǎn)“的”在實(shí)詞語義網(wǎng)中被剔除,名詞節(jié)點(diǎn)“細(xì)胞”在句法網(wǎng)中原本不具中心性,卻成為了語義網(wǎng)絡(luò)的中心節(jié)點(diǎn)。部分虛詞和名詞類中心節(jié)點(diǎn)的變化是句法網(wǎng)、語義網(wǎng)最顯著的差異。通過網(wǎng)絡(luò)中心節(jié)點(diǎn)與文本中詞頻的比較,我們還發(fā)現(xiàn): “細(xì)胞”在文本中并非高頻詞,節(jié)點(diǎn)“細(xì)胞”能夠在句法網(wǎng)、語義網(wǎng)占據(jù)網(wǎng)絡(luò)中心位置,更多地說明名詞類節(jié)點(diǎn)在語義網(wǎng)絡(luò)中的重要作用。
運(yùn)用相同文本不同方法構(gòu)造的小型語言網(wǎng)絡(luò),在網(wǎng)絡(luò)的基本參數(shù)和網(wǎng)絡(luò)中心節(jié)點(diǎn)上表現(xiàn)出較大差異??紤]到復(fù)雜網(wǎng)絡(luò)技術(shù)是大規(guī)模節(jié)點(diǎn)計(jì)算的方法,兩個句子文本構(gòu)造網(wǎng)絡(luò)的參數(shù)測量只能算是構(gòu)造語言網(wǎng)絡(luò)的初探。小規(guī)模語言網(wǎng)絡(luò)構(gòu)造的目的是比較同現(xiàn)、句法、語義網(wǎng)絡(luò)的異同,強(qiáng)調(diào)語言多層系統(tǒng)、語言學(xué)理論與復(fù)雜網(wǎng)絡(luò)方法的聯(lián)系,這是結(jié)合網(wǎng)絡(luò)科學(xué)探究語言網(wǎng)絡(luò)邁出的第一步。本研究還將在現(xiàn)有理論基礎(chǔ)上進(jìn)一步擴(kuò)大語料規(guī)模以增加統(tǒng)計(jì)數(shù)據(jù)的有效性,觀察不同規(guī)模、不同層級語言網(wǎng)絡(luò)之間的差異,以檢驗(yàn)網(wǎng)絡(luò)模型應(yīng)用于語言分析的可靠程度。
[1] Briscoe E J. Language as a Complex Adaptive System: Coevolution of Language and of the Language Acquisition Device [C]//Proceedings of Eighth Computational Linguistics in the Netherlands Conference, 1998.
[2] Steels L. Language as a Complex Adaptive System[C]//Proceedings of PPSN VI, Lecture Notes in Computer Science. Berlin:. Springer-Verlag, 2000: 17-26.
[3] Liu H. The complexity of Chinese dependency syntactic networks[J]. Physica A., 2008a, 387: 3048-3058.
[4] Liu H. Statistical Properties of Chinese Semantic Networks[J]. Chinese Science Bulletin. 2009, 54(16): 2781-2785.
[5] Liu H. Linguistic Complex Networks: A new approach to language exploration[J]. Die Grundlagenstudien aus Kybernetik und Geisteswissenschaft (grkg/Humankybernetik) 2011; 52(4): 151-170.
[6] Cong J, Liu H. Approaching human language with complex networks[C]//Proceedings of the Physics of Life Reviews 2014.
[7] Liu H, Cong J. Empirical characterization of modern Chinese as a multi-level system from the complex network approach[J]. J Chin Linguist 2014;42:1 38.
[8] Pickering M J, Garrod S. Toward a mechanistic psychology of dialogue[J]. Behav. Brain Sci., 2004, 27: 169-226.
[9] Eguiluz V, Cecchi G, Chialvo D R, et al. Scale-free brain functional networks[J]. Phys. Rev. Lett. 2005, 92: 018102.
[10] Hudson R. Language Networks: The New Word Grammar[M]. Oxford: Oxford University Press, 2007.
[11] Ferrer i Cancho R. and Sol R V. The Small-World of Human Language[J]. Proc. R. Soc. Lond. Series B, 2001, 268: 2261-2266.
[12] 劉知遠(yuǎn), 孫茂松. 漢語詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標(biāo)度特性[J]. 中文信息學(xué)報(bào), 2007, 21 (6): 52-58.
[13] Ferrer i Cancho R, Solé R V, K?hler R. Patterns in syntactic dependency networks[J]. Physical Review E, 2004, 69: 051915.
[14] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[M]. Procs. Natl. Acad. Sci. USA, 2002, 99(3): 1742-1747.
[15] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science, 2005, 29(1): 41-78.
[16] Holanda A J, Torres Pisa I, Kinouchi O, et al. Thesaurus as a complex network[J]. Physica A, 2004, 344: 530-536.
[17] G?rnerup O, Karlgren J. Cross-lingual comparison between distributionally determined word similarity networks[C]//Proceedings of the 2010 Workshop on Graph-based Methods for Natural Language Processing, ACL 2010. Uppsala, Sweden, 2010: 48-54.
[18] Bickerton D (EDT), Szathmary E (EDT). Biological Foundations and Origin of Syntax (Str ngmann Forum Reports)[M]. The MIT Press, 2009.
[19] 劉海濤. 漢語句法網(wǎng)絡(luò)的復(fù)雜性研究[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2007b, 4(4): 38-44.
[21] Ferrer i Cancho, R. The structure of syntactic dependency networks: insights from recent advances in network theory[C]//Proceedings of Altmann, G.., Levickij, V., Perebyinis, V. (eds.). The problems of quantitative linguistics, Chernivtsi: Ruta, 2005: 60-75.
[22] Tesni re, L. El ments de la syntaxe structurale[M]. Paris: Klincksieck, 1959.
[23] 劉海濤. 泰尼埃的結(jié)構(gòu)句法理論[J]. 北華大學(xué)學(xué)報(bào)(社會科學(xué)版), 2007a, 8(5): 68-77.
[24] 劉海濤. 語言網(wǎng)絡(luò): 隱喻,還是利器? [J]. 浙江大學(xué)學(xué)報(bào)(人文社會科學(xué)版), 2011, 41(2): 160-179.
[25] 陳芯瑩, 劉海濤. 漢語句法網(wǎng)絡(luò)的中心節(jié)點(diǎn)研究[J]. 科學(xué)通報(bào),2011, 56(10): 735-740.
[26] Solé R, Corominas-Murtra B, Valverde S, et al. Language Networks: Their Structure, Function and Evolution[R]. Santa Fe Institute Working Paper, 2005.
[27] 陸儉明. 現(xiàn)代漢語語法研究教程[M]. 北京: 北京大學(xué)出版社,2004.
[28] Liu H, Huang W. A Chinese Dependency Syntax for Treebanking[C]//Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation: 126-133. Beijing: Tsinghua University Press, 2006.
[29] 黃伯榮, 廖序東. 現(xiàn)代漢語[M]. 北京: 高等教育出版社,1991.
[30] 邵敬敏. 漢語語法專題研究[M]. 北京: 北京大學(xué)出版社,2009.
[31] 胡裕樹. 現(xiàn)代漢語(重訂版)[M]. 上海: 上海教育出版社,1995
[32] 姜匯川. 現(xiàn)代漢語副詞分類實(shí)用詞典[M]. 北京: 對外貿(mào)易教育出版社. 1989.