秦克霄
(山西大學(xué) 圖書(shū)館,太原 030006)
19世紀(jì)以來(lái),隨著語(yǔ)言學(xué)的發(fā)展以及文學(xué)風(fēng)格和速記研究的需要,人們開(kāi)始對(duì)語(yǔ)言的成分進(jìn)行統(tǒng)計(jì)分析。德國(guó)語(yǔ)言學(xué)家F·W·凱丁(F.W.Kaeding)歷時(shí)七年,編纂了世界上第一部頻率詞典——《德語(yǔ)頻率詞典》(《H?ufigkeits w?rter buch der Deutschen Sprache》)被認(rèn)為是第一次現(xiàn)代意義上以統(tǒng)計(jì)調(diào)查方法完成的詞匯研究工作;20世紀(jì)初,美國(guó)教育學(xué)家兼心理學(xué)家E·L·桑迪克(E.L.Thorndike)先后編寫(xiě)了《教師二萬(wàn)詞詞書(shū)》(《Teacher’s Word Book of 20 000 Words》)和《教師三萬(wàn)詞詞書(shū)》(《Teacher’s World Book of 30 000 Words》),對(duì)英語(yǔ)的詞匯作了大量的頻率統(tǒng)計(jì)工作。伴隨著不同語(yǔ)言中有關(guān)詞頻資料的大量積累,詞語(yǔ)頻次的特征也不斷被揭示,人們開(kāi)始從理論上思考詞頻差異的現(xiàn)象。由于頻率詞典實(shí)際上就是一種詞表,而其中字詞的出現(xiàn)頻次與字詞序排列的序號(hào)等級(jí)是最基本的兩個(gè)數(shù)據(jù)指標(biāo),反映了字詞的地位和性質(zhì),因此,人們首先著重研究的就是這兩個(gè)基本數(shù)據(jù)之間的相互關(guān)系,試圖在一定的篇章范圍內(nèi)總結(jié)出語(yǔ)言成分出現(xiàn)頻次所滿足的嚴(yán)格的數(shù)學(xué)原理。哈佛大學(xué)語(yǔ)言學(xué)教授齊夫(G.K.Zipf)在前人研究的基礎(chǔ)上,對(duì)英語(yǔ)文獻(xiàn)中單詞出現(xiàn)的頻次進(jìn)行大量統(tǒng)計(jì)以檢驗(yàn)前人的定量化公式,在此基礎(chǔ)上,進(jìn)行系統(tǒng)的分析并提出了齊夫定律[1]:若把一篇較長(zhǎng)的文章中每個(gè)字詞出現(xiàn)的頻次從高到低進(jìn)行遞減排列,字詞出現(xiàn)的頻次f與它的位序r的乘積為一個(gè)常數(shù)c,即:
f·r=c。
該公式可以理解為:在自然語(yǔ)言的語(yǔ)料庫(kù)里,一個(gè)單詞出現(xiàn)的頻次與它在頻率表里的排名成反比(又稱(chēng)省力法則)。后又提出更加普適的公式:
將上式兩邊取自然對(duì)數(shù)可得:lnf+alnr=lnc,繪制lnf與lnr的關(guān)系曲線并作線性回歸,即可得到斜率a與截距l(xiāng)nc。齊夫定律表明,在英語(yǔ)單詞語(yǔ)料庫(kù)中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。
近些年來(lái),在文獻(xiàn)計(jì)量學(xué)和其它學(xué)科領(lǐng)域,針對(duì)齊夫定律或與其相關(guān)的領(lǐng)域有許多補(bǔ)充和深化的研究,國(guó)內(nèi)也有很多學(xué)者展開(kāi)了對(duì)齊夫定律本身[2]及其應(yīng)用[3-6]的研究。近年來(lái),江南大學(xué)的研究者以諾貝爾文學(xué)獎(jiǎng)得主莫言的《紅高粱》《蛙》和《透明的紅蘿卜》為主要研究對(duì)象,統(tǒng)計(jì)莫言作品中字頻、詞頻,發(fā)現(xiàn)都能滿足齊夫定律[7]。所得結(jié)果與包括英語(yǔ)、西班牙語(yǔ)、法語(yǔ)等在內(nèi)的多種語(yǔ)言研究結(jié)果一致。此研究結(jié)果從統(tǒng)計(jì)學(xué)角度闡明了莫言成為中國(guó)大陸首位諾貝爾文學(xué)獎(jiǎng)得主的可能原因之一。
本文以中國(guó)古代具有代表性的百科全書(shū)《夢(mèng)溪筆談》為例,考察齊夫定律對(duì)中國(guó)古代漢語(yǔ)語(yǔ)料的適用性。在統(tǒng)計(jì)詞語(yǔ)頻次時(shí),確定詞語(yǔ)等級(jí)多采用以下兩種方法:
(1)并列法。并列法是指遇到同頻詞時(shí),將這些同頻詞并列為一個(gè)詞級(jí),并延承上一個(gè)詞級(jí)。比如詞序?yàn)榈?至第8的詞是同頻詞,同時(shí),第5個(gè)詞的詞級(jí)為5,那么這些第5至第8的詞的詞級(jí)都是5;若詞序第9至第12的詞也是同頻詞,那么這些詞的詞級(jí)則延承上一詞級(jí),為6。在許文霞的《齊夫定律與中文詞頻分布機(jī)理》一文中采用的詞級(jí)確定方法就是并列法[8]。
(2)隨機(jī)法。齊夫第一定律在確立時(shí),最先使用的方法是隨機(jī)法。所謂隨機(jī)法,就是指在確立詞級(jí)的過(guò)程中,遇到同頻詞時(shí),按照詞語(yǔ)在統(tǒng)計(jì)文本的詞表中的自然詞序或隨機(jī)排列確定詞語(yǔ)的等級(jí),這樣每個(gè)詞的自然或隨機(jī)詞序就是這個(gè)詞的詞級(jí)。比如詞序?yàn)榈?至第8的詞是同頻詞,那么這些詞的詞級(jí)隨機(jī)排列為5、6、7、8。
(1)根據(jù)漢語(yǔ)自身的語(yǔ)言特點(diǎn),采用計(jì)算機(jī)自動(dòng)分詞統(tǒng)計(jì),以齊夫定律理論為基礎(chǔ),再參照《現(xiàn)代漢語(yǔ)詞典》條目所列出的詞語(yǔ)形態(tài),以保留詞語(yǔ)語(yǔ)義的完整性為前提。
(2)人名、地名等專(zhuān)有名詞均作為獨(dú)立的詞來(lái)劃分。
(3)統(tǒng)計(jì)時(shí),標(biāo)點(diǎn)符號(hào)等非漢字書(shū)寫(xiě)符號(hào)不計(jì)入內(nèi)。
根據(jù)文獻(xiàn)中出現(xiàn)的詞頻(字頻)與等級(jí)序號(hào)的統(tǒng)計(jì)數(shù)據(jù),建立橫坐標(biāo)表示詞的位序r,縱坐標(biāo)表示相應(yīng)的頻次f的直角坐標(biāo)系,得到一條雙曲線,即:齊夫分布曲線。再將位序r與頻次f都取對(duì)數(shù)坐標(biāo),則上圖中的圖像就變成一條直線,即:齊夫分布對(duì)數(shù)曲線。若滿足這種類(lèi)型的詞頻(字頻)分布,就叫做齊夫分布?!秹?mèng)溪筆談》作為我國(guó)古代的科學(xué)技術(shù)百科全書(shū),在科學(xué)史和文學(xué)史上都具有重要的地位和代表性,故此,我們選擇《夢(mèng)溪筆談雜志一》作為研究對(duì)象,考證齊夫定律對(duì)我國(guó)古漢語(yǔ)文本的適用性。
通過(guò)對(duì)文本《夢(mèng)溪筆談雜志一》的統(tǒng)計(jì)分析,此段語(yǔ)料共有4 740個(gè)書(shū)寫(xiě)符,其中,漢字共有4 739個(gè),累計(jì)總字?jǐn)?shù)為3 903個(gè),不同字?jǐn)?shù)為1 905個(gè),不同頻次數(shù)為39次(見(jiàn)表1)。
表1 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖1為頻次與詞級(jí)圖:
由圖1齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性特性可以看出,采用并列法,該文的字頻與位序大致滿足齊夫定律。
圖1 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖2所示。
圖2 lnf-lnr圖以及線性擬合
(3)求a和lnc以及c,如表2所示。
表2 圖2的線性擬合分析
由表2可知,修正決定系數(shù)Adj.R-Square=0.705 41,反應(yīng)了線性回歸的良好;a=-0.979 32,標(biāo)準(zhǔn)誤差為0.102 11。由結(jié)果可知,采用并列法得到的統(tǒng)計(jì)結(jié)果比較符合齊夫定律[7]。
表3 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖3為頻次與詞級(jí)圖。由圖3可以看出,采用隨機(jī)法時(shí)字頻與詞級(jí)很好地滿足齊夫定律。
圖3 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖4。
圖4 lnf-lnr圖以及線性擬合
(3)求a和lnc以及c,如表4所示。由表4可知,修正決定系數(shù)Adj.R-Square=0.957 68,反應(yīng)了線性回歸良好;斜率a=-0.869 05接近值-1,標(biāo)準(zhǔn)誤差為0.005 52。由此可知,采用隨機(jī)法得到的結(jié)果非常符合齊夫定律。
表4 圖4的線性擬合分析
此段語(yǔ)料共有4 740個(gè)書(shū)寫(xiě)符,其中漢字共有4 739個(gè),累計(jì)總詞數(shù)為3 120個(gè),不同詞數(shù)為1 439個(gè),不同頻次數(shù)為30次(見(jiàn)表5)。
表5 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖5為頻次與詞級(jí)圖。由圖5可以看出,采用并列法古漢語(yǔ)《夢(mèng)溪筆談雜志一》文本的詞頻與詞級(jí)也基本滿足齊夫定律。
圖5 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖6所示。
圖6 lnf-lnr圖以及線性擬合
(3)求斜率a和lnc以及c,如表6所示。
表6 圖6的線性擬合分析
由表6可知,修正決定系數(shù)Adj.R-Square=0.731 27,說(shuō)明線性回歸良好;斜率a=-0.992 51接近標(biāo)準(zhǔn)值-1,標(biāo)準(zhǔn)誤差為0.109 18。從結(jié)果可知,采用并列法得到的結(jié)果也比較符合齊夫定律,但不如隨機(jī)法符合效果好。
表7 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖7為頻次與詞級(jí)圖。由圖7可以看出,用隨機(jī)法時(shí)詞頻與詞級(jí)符合齊夫分布定律非常好。
圖7 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖8所示。
圖8 lnf-lnr圖以及線性擬合
(3)求a和lnc以及c,如表8所示。
表8 圖8的線性擬合分析
由表8可知,修正決定系數(shù)Adj.R-Square=0.918 08,反映了線性回歸優(yōu)良;斜率a=-0.655 7接近標(biāo)準(zhǔn)值-1,標(biāo)準(zhǔn)誤差=0.005 16,說(shuō)明詞頻的統(tǒng)計(jì)分析采用隨機(jī)法得到的結(jié)果非常好地符合齊夫定律。
本文同時(shí)采用并列法和隨機(jī)法對(duì)我國(guó)古代極具代表性的古漢語(yǔ)文本《夢(mèng)溪筆談雜志一》語(yǔ)料的字頻(詞頻)和字序(詞序)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)和分析,繪制出字頻(詞頻)和字序(詞序)的分布圖及對(duì)數(shù)化后的散點(diǎn)分布圖。研究結(jié)果表明:古漢語(yǔ)文本的字頻(詞頻)和字序(詞序)分布曲線呈現(xiàn)出較為明顯的雙曲線特征;利用專(zhuān)業(yè)Origin軟件對(duì)字頻(詞頻)和字序(詞序)的對(duì)數(shù)化后的散點(diǎn)圖作線性回歸處理,其分布曲線呈現(xiàn)出線性關(guān)系,斜率在-1左右,符合齊夫第一定律的設(shè)定,驗(yàn)證了齊夫定律對(duì)古漢語(yǔ)文本的適用性。從頻次與位序的數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果可以看出,無(wú)論字頻還是詞頻,采用隨機(jī)法擬合的結(jié)果修正決定系數(shù)大,標(biāo)準(zhǔn)誤差小,與齊夫定律符合得更好。從詞頻統(tǒng)計(jì)結(jié)果我們知道,頻次最高的十一個(gè)詞為“之、有、為、以、其、也、中、而、謂、皆、者”;字頻統(tǒng)計(jì)結(jié)果中頻次最高的十個(gè)為字“之、有、人、為、其、中、以、不、大、山”。由此可知,俗語(yǔ)云古人只懂“之乎者也”是有一定科學(xué)依據(jù)的,如同英文中的定冠詞“the”、介詞“of”和連詞“and”。
不同時(shí)代以及同時(shí)代不同作者具有不同的語(yǔ)言風(fēng)格特征。如果進(jìn)行大規(guī)模文本統(tǒng)計(jì),通過(guò)對(duì)語(yǔ)言的字頻詞頻等的分析,有助于甄別作品的作者和寫(xiě)作年代。比如:關(guān)于古典名著《紅樓夢(mèng)》的前八十回與后四十回的作者素有爭(zhēng)議,齊夫定律可以成為文獻(xiàn)考證的一個(gè)工具。事實(shí)上,齊夫定律除了在語(yǔ)言學(xué)、情報(bào)學(xué)領(lǐng)域運(yùn)用較多外。在非語(yǔ)言學(xué)領(lǐng)域如:地理學(xué)、經(jīng)濟(jì)學(xué)、信息科學(xué)等領(lǐng)域也有廣泛的應(yīng)用,例如:社會(huì)學(xué)領(lǐng)域中城市人口數(shù)量分析[9]、公司規(guī)模大小分析[10]等。研究表明,無(wú)論英語(yǔ)、漢語(yǔ)以及許多國(guó)家的語(yǔ)言,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用——人類(lèi)的語(yǔ)言具有經(jīng)濟(jì)省力性原則(或曰“惰性”)。莫言在一次訪談中說(shuō)到,他就上了小學(xué)五年級(jí),認(rèn)識(shí)大概五百多個(gè)漢字就開(kāi)始寫(xiě)作,后來(lái)可能又增加了五百多個(gè)漢字,現(xiàn)在大概是一千多個(gè)字。誠(chéng)如此言,紀(jì)錄片《搖搖晃晃的人間》的拍攝對(duì)象、2018年湖北文學(xué)獎(jiǎng)獲得者、央視《朗讀者》節(jié)目特邀嘉賓、湖北農(nóng)村腦癱女詩(shī)人余秀華創(chuàng)作詩(shī)歌二千多首,其語(yǔ)言使用的局限性和地域性也同樣值得研究和關(guān)注。
齊夫定律是描述詞頻分布規(guī)律的強(qiáng)大數(shù)學(xué)工具,作為經(jīng)驗(yàn)定律,它仍然有待進(jìn)一步完善[11]。比如:對(duì)高頻詞匯和低頻詞匯引入不同的權(quán)重因子或參數(shù),結(jié)果會(huì)更好地符合齊夫定律。這需要分析和研究大規(guī)模的文本語(yǔ)料庫(kù),如今在大數(shù)據(jù)和高性能計(jì)算機(jī)的時(shí)代將變?yōu)榭赡堋N覀兿嘈琵R夫定律的運(yùn)用將會(huì)取得更豐碩的成果。