秦克霄
(山西大學(xué)圖書(shū)館,山西太原,030006)
古代已有詞語(yǔ)頻次的觀念,人們很早就發(fā)現(xiàn)了語(yǔ)言中詞語(yǔ)使用的頻次是有差異的.19世紀(jì)以來(lái),隨著語(yǔ)言學(xué)的發(fā)展以及文學(xué)風(fēng)格和速記研究的需要,人們開(kāi)始對(duì)語(yǔ)言的成分進(jìn)行統(tǒng)計(jì)分析.德國(guó)語(yǔ)言學(xué)家F.W.Kaeding耗時(shí)七年編纂了H?ufigkeitsw?rterbuch der Deutschen Sprache,這是世界上第一部頻率詞典,是第一次現(xiàn)代意義上的以統(tǒng)計(jì)調(diào)查方法完成的詞匯研究工作.美國(guó)教育學(xué)家兼心理學(xué)家E.L.Thorndike,在20 世紀(jì)初先后編寫(xiě)了Teacher’s Word Book of 20,000 Words和 Teacher’s World Book of 30,000 Words,做了大量關(guān)于英語(yǔ)詞匯的頻率統(tǒng)計(jì)工作.由于有了大量不同語(yǔ)言中詞頻資料的積累,關(guān)于詞語(yǔ)頻次的特征不斷得到了揭示,人們開(kāi)始從理論上思考詞頻差異這種現(xiàn)象.頻率詞典實(shí)際上就是一種詞表,包含兩個(gè)最基本的數(shù)據(jù)就是詞的出現(xiàn)頻次和詞的等級(jí),二者反映了一個(gè)詞在詞表中的地位和性質(zhì),因此這兩個(gè)基本數(shù)據(jù)間的相互關(guān)系成為了人們要首先著重研究的,并試圖在一定的篇章范圍內(nèi)總結(jié)出語(yǔ)言成分出現(xiàn)頻次所滿足的嚴(yán)格的數(shù)學(xué)原理.如艾思杜、貢東、朱斯和芒代爾布羅等學(xué)者先后對(duì)這個(gè)問(wèn)題進(jìn)行了大量的研究.
美國(guó)哈佛大學(xué)語(yǔ)言學(xué)教授齊夫(G.K.Zipf)在前人研究的基礎(chǔ)上,收集了大量的文本語(yǔ)料,并進(jìn)行了系統(tǒng)的分析,正式創(chuàng)立了詞頻分布定律,驗(yàn)證下面的公式:若把一篇較長(zhǎng)的文章中每個(gè)詞出現(xiàn)的頻次從高到低進(jìn)行遞減排列,某個(gè)詞在文中出現(xiàn)的頻率次數(shù)f(詞頻)與它的排列序號(hào)數(shù)r(詞序)的乘積為一個(gè)常數(shù)c,即所謂的齊夫第一定律
齊夫定律表明,在自然語(yǔ)言文本中,文檔中詞匯的頻次與其排序等級(jí)呈現(xiàn)反比例關(guān)系,即兩者乘積保持為一常數(shù).對(duì)上式兩邊取自然對(duì)數(shù)可得:lnf+alnr=lnc.對(duì)統(tǒng)計(jì)數(shù)據(jù)結(jié)果繪制lnf與lnr的關(guān)系曲線,即可得到斜率-a與截距l(xiāng)nc.國(guó)內(nèi)也有很多學(xué)者展開(kāi)了對(duì)齊夫定律本身[1]及其應(yīng)用[2~4]的研究.近來(lái)江南大學(xué)的研究者以諾貝爾文學(xué)獎(jiǎng)得主莫言的《紅高粱》《蛙》和《透明的紅蘿卜》為主要研究對(duì)象,統(tǒng)計(jì)莫言作品中字頻、詞頻,發(fā)現(xiàn)都能滿足齊夫定律.所得研究結(jié)果與包括英語(yǔ)、西班牙語(yǔ)、法語(yǔ)等在內(nèi)的多種語(yǔ)言結(jié)果一致.這種研究結(jié)果從統(tǒng)計(jì)學(xué)角度提供了莫言可以成為中國(guó)大陸首位獲諾貝爾文學(xué)獎(jiǎng)得主的可能原因之一.在詞語(yǔ)頻次的統(tǒng)計(jì)中,主要采用以下兩種方法確定詞語(yǔ)等級(jí):
1)隨機(jī)法.齊夫第一定律在確立時(shí),最先使用的就是隨機(jī)法.隨機(jī)法是指詞級(jí)在確立的過(guò)程中,如果遇到同頻詞,則按照統(tǒng)計(jì)文本中詞語(yǔ)的自然詞序或隨機(jī)詞序排列確定詞語(yǔ)的等級(jí),這樣每個(gè)詞的詞級(jí)就是它的自然或隨機(jī)詞序.例如詞序?yàn)榈?5~8的詞是同頻詞,那么它們的詞級(jí)隨機(jī)排列則是 5,6,7,8.
2)并列法.徐文霞在《齊夫定律與中文詞頻分布機(jī)理》[5]一文中采用并列法來(lái)確定詞級(jí).并列法是指把遇到的同頻詞并列為一個(gè)詞級(jí),并延承上一個(gè)詞級(jí).例如詞序?yàn)榈?~8的詞是同頻詞,那么它們的詞級(jí)就是5;若詞序?yàn)榈?~12的詞也是同頻詞,那么這些詞的詞級(jí)則要延承上一個(gè)詞級(jí)成為6.
分詞原則:
(一)采用計(jì)算機(jī)自動(dòng)分詞統(tǒng)計(jì)時(shí),以齊夫定律理論為基礎(chǔ),根據(jù)漢語(yǔ)自身的語(yǔ)言特點(diǎn),參考《現(xiàn)代漢語(yǔ)詞典》條目所列出的詞語(yǔ)形態(tài),把保留詞語(yǔ)語(yǔ)義的完整性作為前提.
(二)地名、人名等這些專(zhuān)有名詞要作為獨(dú)立的詞來(lái)進(jìn)行劃分.
(三)標(biāo)點(diǎn)符號(hào)等非漢字書(shū)寫(xiě)符號(hào)在統(tǒng)計(jì)時(shí)不計(jì)入內(nèi).
根據(jù)文獻(xiàn)《十九大報(bào)告》中出現(xiàn)的詞頻(字頻)與等級(jí)序號(hào)的統(tǒng)計(jì)數(shù)據(jù),我們建立一個(gè)直角坐標(biāo)系,其橫坐標(biāo)表示詞的等級(jí)序號(hào)r,縱坐標(biāo)表示相應(yīng)的頻次f,描繪出這些點(diǎn)得到一條曲線,即齊夫分布曲線,類(lèi)似雙曲線的一支.再將等級(jí)序號(hào)r與頻次f都取對(duì)數(shù)坐標(biāo),則上述齊夫規(guī)律變成一線性關(guān)系,即齊夫分布對(duì)數(shù)曲線.若滿足這種類(lèi)型的分布,就叫做齊夫分布.我們選用《十九大報(bào)告》文本作為研究分析的語(yǔ)料庫(kù),此文本共有32384個(gè)書(shū)寫(xiě)符號(hào),其中漢字共有29255個(gè),累計(jì)總詞數(shù)3082個(gè),不同頻次71個(gè).
表1 十九大報(bào)告文本統(tǒng)計(jì)結(jié)果
續(xù)表
圖1 詞頻f—詞序r分布圖
圖2 詞頻—詞序?qū)?shù)分布圖以及線性回歸
由圖1、圖2中齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性性可以看出,用隨機(jī)法《十九大報(bào)告》文本中的詞頻與詞級(jí)極好地滿足齊夫分布定律(詳見(jiàn)表2線性擬合結(jié)果).
表2 圖2的線性擬合分析
由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率-a與lnc.如圖2.
由表2可知,修正決定系數(shù) Adj.R-Square=0.96036,反映了線性回歸的良好.截距l(xiāng)nc=7.80389(標(biāo)準(zhǔn)誤差 為0.02607),可知 c=2450.114409;斜率-a=-1.00258(標(biāo)準(zhǔn)誤差為0.00367)近似等于齊夫第一定律標(biāo)準(zhǔn)值-1,表明《十九大報(bào)告》文本語(yǔ)料庫(kù)采用隨機(jī)法的統(tǒng)計(jì)方法,其結(jié)果完全符合齊夫第一定律[6].
由圖3、圖4齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性性可以看出,采用并列法《十九大報(bào)告》文本中的詞頻與詞級(jí)亦極好地滿足齊夫分布定律(詳見(jiàn)表3線性擬合結(jié)果).
圖3 詞頻f—詞序r分布圖
圖4 詞頻—詞序?qū)?shù)分布圖以及線性回歸
由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率-a與lnc.如圖4.
表3 圖4的線性擬合分析
由表3可知,修正決定系數(shù)Adj.R-Square=0.76914反映了線性回歸的良好,截距l(xiāng)nc=7.3475(標(biāo)準(zhǔn)誤差為0.25002),可得c=1552.38851.斜率-a=-1.12717(標(biāo)準(zhǔn)誤差為0.07213),十分接近標(biāo)準(zhǔn)值-1.從數(shù)據(jù)結(jié)果可知,采用并列法符合情況不如隨機(jī)法好,但也基本符合齊夫分布和齊夫定律.
以上結(jié)果表明,隨機(jī)法和并列法的齊夫?qū)?shù)分布曲線回歸效果都很好,斜率-a的值都接近齊夫第一定律設(shè)定值-1,均符合齊夫第一定律.
本文主要通過(guò)《十九大報(bào)告》文本中語(yǔ)料庫(kù)的詞頻詞序的統(tǒng)計(jì)和分析,對(duì)齊夫定律在漢語(yǔ)中的適用性進(jìn)行了研究和驗(yàn)證.筆者分別采用隨機(jī)法和并列法,對(duì)《十九大報(bào)告》文本語(yǔ)料庫(kù)進(jìn)行了數(shù)據(jù)的統(tǒng)計(jì)和分析,并依據(jù)散點(diǎn)分布圖繪制出了齊夫分布曲線和齊夫?qū)?shù)分布曲線.利用數(shù)學(xué)軟件擬合出散點(diǎn)分布圖的線性回歸趨勢(shì)來(lái)進(jìn)行分析.依據(jù)這些散點(diǎn)圖,我們能看出齊夫分布曲線均呈現(xiàn)出了比較明顯的雙曲線特征,而齊夫?qū)?shù)分布曲線呈現(xiàn)線性關(guān)系,并且斜率值-a十分接近標(biāo)準(zhǔn)值-1,符合齊夫第一定律的設(shè)定.可見(jiàn),統(tǒng)計(jì)結(jié)果中的詞頻分布呈現(xiàn)出較為明顯的齊夫分布規(guī)律.在《十九大報(bào)告》文本中,頻次出現(xiàn)最高的十個(gè)詞依次為“的、和、黨、發(fā)展、人民、建設(shè)、中國(guó)、社會(huì)主義、是、堅(jiān)持 ”,此外,“新、特色、制度、體系、文化、政治、改革、創(chuàng)新、經(jīng)濟(jì)、安全”頻次也比較高,這體現(xiàn)了中國(guó)過(guò)去五年的發(fā)展?fàn)顩r以及未來(lái)五年的發(fā)展趨勢(shì).可以看出,齊夫定律對(duì)中文報(bào)告類(lèi)題材同樣具有其普適性.齊夫定律已經(jīng)在很多領(lǐng)域有了廣泛的應(yīng)用(如語(yǔ)言學(xué)、情報(bào)學(xué)、地理學(xué)、經(jīng)濟(jì)學(xué)、信息科學(xué)等),而且取得了可喜的成果.齊夫定律是描述詞頻分布規(guī)律的強(qiáng)大數(shù)學(xué)工具,作為經(jīng)驗(yàn)定律,它仍然有待進(jìn)一步完善.