洛陽師范學(xué)院 丁 政
Zipf定律及Zipf語言經(jīng)濟(jì)論剖析
洛陽師范學(xué)院 丁 政
Zipf認(rèn)為,因言者與聽者的行為均受最小努力原則支配,雙方立場上的省力是一對矛盾,基于言者經(jīng)濟(jì)的單一化力量與基于聽者經(jīng)濟(jì)的多樣化力量交鋒,造就了語流中詞語的一種規(guī)則的分布格局,即被后人稱為Zipf定律的序號頻率分布律(rank-frequency distribution)。然而,根據(jù)已達(dá)成共識的相關(guān)數(shù)學(xué)研究,Zipf定律另有原理。Zipf的語言經(jīng)濟(jì)論因此失去了一項其賴以成立的證據(jù)。不僅如此,語言學(xué)理性審視下,Zipf語言經(jīng)濟(jì)論實則遠(yuǎn)非無懈可擊。立足語言學(xué)視角,本文欲解決兩個問題:其一,以力求直觀的方式對Zipf定律一探究竟,明確該定律并非Zipf所謂兩種力量或言者聽者雙邊經(jīng)濟(jì)矛盾的產(chǎn)物;其二,為Zipf語言經(jīng)濟(jì)論提出去偽存真的評價。
Zipf定律、最小努力原則、語言經(jīng)濟(jì)論
為現(xiàn)代語言研究打開新局面的趨勢之一是具有人文傳統(tǒng)的語言學(xué)與數(shù)學(xué)、統(tǒng)計學(xué)相結(jié)合。語言經(jīng)濟(jì)思想的奠基者之一,美國語言學(xué)家George Kingsley Zipf就是這種研究范式的先驅(qū)者之一。Zipf最為世界所熟知的研究成果莫過于Zipf定律與最小努力原則。Zipf定律是最早提出的計量語言定律之一,究其來龍去脈,在前人成果的基礎(chǔ)上,Zipf以大量數(shù)據(jù)對該定律加以驗證,將其納入語言經(jīng)濟(jì)研究以及人類生態(tài)學(xué)范疇。最小努力原則是Zipf畢生治學(xué)歷程的結(jié)晶,這一歷程始于他對人類語言用詞經(jīng)濟(jì)效應(yīng)的鉆研,以其對用詞經(jīng)濟(jì)之心理本質(zhì)的哲思為積淀,最終歸于人類行為的基本規(guī)律。Zipf(1949)在著作《人類行為與最小努力原則:人類生態(tài)學(xué)引論》中提出最小努力原則。這部著作可謂Zipf畢生研究成果集大成之作,是人類生態(tài)學(xué)理論的重要組成部分。該書構(gòu)建了以最小努力原則為綱的語言經(jīng)濟(jì)論,并且他先前在用詞經(jīng)濟(jì)性研究中取得的重要成果均被重新詮釋,Zipf定律就是其中之一,該定律原名為“詞語序號頻率分布(rank-frequency distribution of words;以下簡稱序頻分布律)”(同上:25),本是Zipf用于論證其語言經(jīng)濟(jì)理論的一項實證依據(jù)。出于語言之混沌,自然文本詞語的序號頻率分布卻呈現(xiàn)一種耐人尋味的規(guī)則格局,加之序頻分布律在1949年著作的后半部分被Zipf推廣應(yīng)用于社區(qū)規(guī)模、城市人口等領(lǐng)域,Zipf的實證定律引起了科學(xué)界的濃厚興趣與廣泛關(guān)注,并被后人稱為Zipf定律、Zipf分布。
2.1 最小努力原則與語言經(jīng)濟(jì)機(jī)制假說
在《人類行為與最小努力原則:人類生態(tài)學(xué)引論》一書開篇,Zipf提出了最小努力原則,指出人類行為普遍受這一基本原則支配。最小努力之實質(zhì)包括兩個層面:其一,最小努力是“最小工作量的一種變體”(Zipf 1949:1);其二,最小努力是一種平均量。也就是說,人的行為不可能時時處處都做到最小努力,但行為路徑之多個步驟、解決系列問題之多個過程的平均工作量趨于最低。此外,以斧鋸刨鑿與木匠活、戰(zhàn)時轉(zhuǎn)產(chǎn)軍車的民用汽車廠等例子作比,Zipf(同上:8)為人類行為打了一個比方,或者說建構(gòu)了一個用以表述人類行為的模型,即工具與任務(wù)關(guān)系:在最小努力原則支配下,工具與任務(wù)之間相互選擇、相互依存;一方面,工具適應(yīng)任務(wù)才能有效降低工作量;另一方面,執(zhí)行何種任務(wù)能夠達(dá)成最小努力又取決于已經(jīng)掌握的工具。
提出最小努力原則后,Zipf(同上:19)明示:他對人類行為生態(tài)的研究首先關(guān)注人的語言行為;對語言行為的探討始于將人類言語視為一系列工具的組合,具體而言,將詞匯看作一系列工具的組合。基于這個工具任務(wù)關(guān)系,Zipf(同上:20-21)提出如下概述的假說。其一,語言中存在一種經(jīng)濟(jì)機(jī)制、一種潛勢,以或多或少盡量儉省的方式將詞語與意義結(jié)合起來。其二,從言者立場看,使用一個工具完成所有的任務(wù)最經(jīng)濟(jì),也就是僅使用一個詞語就能表達(dá)所有的意義;在聽者立場上,因為要在特定語境中解讀言者使用的詞語,所以最省力的方式是每個詞語僅表達(dá)一個意思。其三,Zipf構(gòu)想了“單一化(unification)”與“多樣化(diversification)”兩種力量,分別基于言者立場與聽者立場,單一化力量趨于將詞匯的數(shù)量減少至一詞,而多樣化力量則趨于將每詞表達(dá)的意義縮減到一個,兩種力量的交鋒決定了語流中存在多少詞語以及詞語承載多少意義。
2.2 序頻分布律與意義分布律
對于其語言經(jīng)濟(jì)論中的假說,Zipf進(jìn)行了如下概述的論證:假設(shè)存在兩種矛盾經(jīng)濟(jì)、兩種相對的力量,或許會造就某種“詞匯平衡(vocabulary balance)”。“詞匯平衡”為何物?Zipf(同上:22)如是說:“我們顯然尚不知道在假想的兩種力量之間是否真的存在這樣一個狀態(tài)”。可見所謂“詞匯平衡”,除字面意思外并無其他內(nèi)涵。在這種典型的Zipf式論述邏輯中,他提出了“詞匯平衡的實證依據(jù)”(同上:24),即被后人稱為Zipf定律的序頻分布律?;谛≌f《尤利西斯》的詞頻表,Zipf指出:將構(gòu)成文本的詞語按頻率降序排列,詞語在詞表中的序號r與其相對頻率f的乘積約等于一個常數(shù)C,即r×f=C。在雙對數(shù)(log-log)坐標(biāo)系中,序號頻率關(guān)系圖像呈45度角下傾直線形狀,其低頻部分呈階梯狀(同上:24),簡圖示例如圖1:
Zipf將45度角下傾直線形狀的序頻分布看作所謂詞匯平衡以及兩種力量之說的證據(jù)。至于該證據(jù)是否充分,Zipf的解釋相當(dāng)單?。盒蝾l分布圖像的作圖方式是將數(shù)據(jù)點標(biāo)于圖中,繪圖前沒有關(guān)于圖像是否規(guī)則的預(yù)期,若以線段將數(shù)據(jù)點連接起來,這些線段的角度隨機(jī),但繪圖后發(fā)現(xiàn)這些隨機(jī)線段的傾斜方向如此規(guī)則,所以詞頻分布勢必受到某種原則的支配(同上:27)。后有學(xué)者就序頻率分布圖像的傾角補(bǔ)充了如下解釋:
“如果一種語言只有一個單詞,它的出現(xiàn)率會是100%。相反,如果每個單詞都只有一個意義,那么,一個語篇的不同單詞數(shù)會跟總詞數(shù)一樣,而且各個單詞的出現(xiàn)次數(shù)都會是1。如果用坐標(biāo)表示,前者是一條豎線,后者是一條橫線。把它們合在一起,正好構(gòu)成一個90度直角?,F(xiàn)在的45度斜線,恰恰是前兩種情況的中和、妥協(xié)。既然前兩種情況分別只考慮了說話人利益,或聽話人利益,那么,中和前兩種情況的第三種情況就既考慮了說話人利益,又考慮了聽話人利益,就是‘單一化力量’和‘多樣化力量’之間平衡、妥協(xié)的結(jié)果”(Poosala 1997,轉(zhuǎn)引自姜望琪 2005:90)。
假想的一縱一橫兩直線何以至于在客觀數(shù)據(jù)之對數(shù)坐標(biāo)系圖像中構(gòu)成45度角下傾直線?以近乎栩栩如生的意象思維臆測語言問題的道理,有違最基本的科學(xué)嚴(yán)謹(jǐn),以上這段解釋非但不能支持Zipf的理論,反而更令人生疑。從兩種力量到45度角斜線,這個由前后相扣的假說、不甚嚴(yán)密的論證構(gòu)成的理論體系實則捉襟見肘,下文“Zipf語言經(jīng)濟(jì)論獻(xiàn)疑”一節(jié)將在理性思辨的基礎(chǔ)上批判其中破綻;至于Zipf定律規(guī)則的圖像奧秘何在,下文“Zipf定律原理剖析”一節(jié)將有透徹探討。
Zipf對兩種力量之說的論證并未止于序號頻率分布,序頻分布律還有一個稱為“意義分布律(law of meaning distribution)”的姊妹篇:既然詞頻分布規(guī)則,那么意義分布很可能也是規(guī)則的;兩種力量的交鋒之下,不存在能夠表達(dá)一切意義的詞語,但勢必有一些詞語能夠表達(dá)多種意義;設(shè)文本中最高頻詞語的頻次為F1,該詞語表達(dá)意義的數(shù)量為m1,則m1×f1=F1,其中f1是以該詞語表達(dá)各意義的平均頻率。因單一化與多樣化力量的平衡,m1與f1趨于相等,由此,,下標(biāo)r指的是詞語在詞頻降序排列中的序號;在橫軸為r、縱軸為mr的雙對數(shù)坐標(biāo)系中,預(yù)期得到一條斜率為-0.5的直線(Zipf 1949:28)。對于這個假設(shè),Zipf的實證檢驗采用Thorndike(1932)匯編的《教師20,000詞詞書》作為資料,該詞書以500為單位分組,并按照詞頻降序排列。Zipf記錄了Thorndike詞表中每組詞的詞典義項數(shù)量,按組求得詞均意義數(shù)量并繪制圖像。據(jù)Zipf對繪圖結(jié)果的總結(jié),得到了一組線性排列的數(shù)據(jù)點,圖像線性斜率接近-0.5(Zipf 1949:30)。
Zipf的意義分布律與統(tǒng)計檢驗缺乏說服力。其一,Zipf調(diào)查的是r~m關(guān)系,意義分布律公式陳述的是F~m關(guān)系,兩者顯然不能等同。其二,即便不深究前述這個破綻,必須充分論證r~m關(guān)系的線性斜率確實趨近-0.5才能為兩種力量之說提供令人信服的證據(jù)。所以,基于一個不甚嚴(yán)密的模型,用一次性的統(tǒng)計調(diào)查驗證一個玄虛有加的假說,Zipf的意義分布定律假說經(jīng)不起推敲。不過,Zipf的實證調(diào)查并非乏善可陳,推究意義分布律的前因后果,可溯及Zipf(1945:251)曾提出的一個稱為“頻率意義律(meaning frequency law)”的用詞經(jīng)濟(jì)法則:頻用詞語趨于具有更豐富的多義性。不難看出,意義分布律是頻率意義律在以最小努力原則為綱的語言經(jīng)濟(jì)論之下的再詮釋。Zipf的統(tǒng)計調(diào)查不足以支持意義分布律,卻是頻率意義律與用詞經(jīng)濟(jì)效應(yīng)的確鑿證據(jù)。
限于本文主旨,對Zipf著作的詳解止于觀研Zipf語言經(jīng)濟(jì)論的精髓部分以及Zipf獨特的論述模型:與其他人類行為一致,語言行為中的經(jīng)濟(jì)性無外乎最小努力;人類言語行為被解讀為工具(詞語)與任務(wù)(意義)的關(guān)系;語言經(jīng)濟(jì)之最小努力機(jī)制是言者與聽者的經(jīng)濟(jì)對立、單一化與多樣化兩種力量的交鋒與平衡;序頻分布律、意義分布律既是這種機(jī)制的現(xiàn)象,也是其證據(jù)。然而,正如上文已經(jīng)提出的若干評論,Zipf的語言經(jīng)濟(jì)論由雙邊經(jīng)濟(jì)論、兩種力量論等假說構(gòu)成,而Zipf對其假說的論證遠(yuǎn)非無懈可擊。因此,Zipf語言經(jīng)濟(jì)論遺留了一些值得商榷的問題:如何評價Zipf的假說?Zipf的實證定律能否作為這些假說的確鑿支持?
3.1 “于語言而論,Zipf定律甚淺”
為解答Zipf定律是否即所謂詞匯平衡、是否是兩種力量之確鑿證據(jù)的問題,不免涉及關(guān)于Zipf定律的數(shù)學(xué)研究。統(tǒng)計語言學(xué)家Herdan(1966:33)指出:“語言學(xué)家認(rèn)為Zipf發(fā)現(xiàn)了一個數(shù)學(xué)定律,而數(shù)學(xué)家認(rèn)為Zipf發(fā)現(xiàn)了一個語言學(xué)法則”。經(jīng)由此話,Herdan表達(dá)了一種主張:在Zipf定律這個問題上,語言學(xué)與數(shù)學(xué)兩個視角應(yīng)互通有無,否則語言學(xué)家有可能對Zipf定律的數(shù)學(xué)本質(zhì)不求甚解,而數(shù)學(xué)家為Zipf定律建立的解析模型未必符合語言實情。
Zipf本人關(guān)于Zipf定律原理的看法,即最小努力原則造就了Zipf定律,并沒有得到廣泛認(rèn)可。數(shù)學(xué)家Mandelbrot,心理學(xué)家、語言學(xué)者M(jìn)iller早已通過數(shù)學(xué)研究為該定律道破玄機(jī),Miller貢獻(xiàn)的啟示更加斐然。Mandelbrot率先提出了Zipf定律的數(shù)學(xué)論證以及數(shù)學(xué)推廣,即Zipf-Mandelbrot定律。Mandelbrot的研究顯然受到最小努力原則的啟發(fā),使用了一個抽象晦澀的“單位信息最小平均成本”模型(轉(zhuǎn)引自Miller 1957:313)。Miller(同上:311)沿用前者的數(shù)學(xué)模型,為其破除玄虛,提出Mandelbrot模型的一種直觀解釋,即“猴文本(monkey text)”?!昂镂谋尽笨山庾x為:猴子任意敲擊打字機(jī)鍵盤,產(chǎn)生隨機(jī)字母組合,隨機(jī)出現(xiàn)的空格將字母組合切分為形式詞符,形式詞符堆砌產(chǎn)生形式文本?;谶@一模型,Miller成功完成數(shù)學(xué)推導(dǎo)并得出結(jié)論:“簡單無奇的數(shù)學(xué)過程便能夠產(chǎn)生Zipf定律,無需為最小努力、最小成本之類原則建?!保ㄍ希?13)。猴文本研究后Miller曾多次發(fā)表旨在為Zipf定律去偽存真的看法,在為Zipf著作之再版撰寫的導(dǎo)讀中如此評價Zipf的研究:
“面對Zipf定律的數(shù)學(xué)秩序性,選擇無非有二:或以人類心理的某種共同屬性解讀定律,或視其為某種概率規(guī)則的必然結(jié)果。Zipf的選擇是制造假說,試圖以最小努力原則去解釋用詞行為中在似是而非的單一化與多樣化之間的某種平衡。其他人則大多尋求基于概率原理的解釋。三十多年的研究后,這個問題已經(jīng)明朗,后者才是正確的。視消息源為一個隨機(jī)過程,Zipf曲線所描述的無非是該過程的必然結(jié)果”(Miller 1965:vi)。
Miller & Chomsky(1963:463)也曾指出:“Zipf定律并不能說明存在某種能夠塑造人類語言交流行為的普遍心理作用”。Mandelbrot (1982:346)后來也承認(rèn)最小成本的概念并無必要,并提出一句言簡意賅的評論:“于語言而論,Zipf定律甚淺”。該如何理解Mandelbrot的這句話?人的身高是典型的正態(tài)分布總體,但不能從身高的生物學(xué)基礎(chǔ)為正態(tài)分布鐘形曲線找原因。同理,Zipf定律確系語言之特征,但并非語言之特有,至于Zipf曲線何以呈現(xiàn)規(guī)則形態(tài),并非一個語言學(xué)問題,而是一個數(shù)學(xué)問題。
3.2 Zipf定律成因之直觀模型
本文無意深入Zipf定律的數(shù)理分析,僅希望通過一種較直觀的方式闡明“于語言而論,Zipf定律甚淺”的道理,不妨從猴文本說起。猴文本是一個用于數(shù)學(xué)論證的模型,與自然文本有很大的區(qū)別,如下是一個模擬猴文本并分析其詞語序頻分布的R語言程序以及該程序輸出的圖像實例:
#程序1
alph="_ABCDEFGHI"
#代碼清晰起見,以下劃線表示空格
#以連字符表示字母間無空格
alph=unlist(strsplit(alph,split=NULL))
txt=paste(sample(alph, 50000, replace = TRUE),collapse="-")
ws=unlist(strsplit(txt,"_"))
ft=table(ws[which(ws!="-")])
ft=data.frame(ft)
f=sort(as.numeric(ft[[2]]),TRUE)
r=seq(1:length(f))
plot(log(r),log(f))
程序1的原理與步驟正如本文上節(jié)對猴文本模型的解釋,憑經(jīng)驗斟酌,設(shè)置了一個短小的字母表,生成盡可能接近自然文本的猴文本序頻分布。盡管有所干預(yù),程序1生成的序頻分布(如圖2)與自然文本的Zipf分布(如圖1)相去甚遠(yuǎn),但也顯現(xiàn)出整體格局的相似,這說明形式上的自然文本與猴文本本質(zhì)相通,所以不妨以后者為啟發(fā),構(gòu)思一個更接近自然語言的模型。
圖2. 猴文本序頻分布
猴文本的形式詞符是隨機(jī)字母組合,短者概率高,長者概率低,合乎自然語言詞符參差不齊的使用概率;猴文本可看作一個概率隨機(jī)模型,自然語言由詞符構(gòu)成語句的形式過程理論上也是如此。所謂概率隨機(jī),直觀起見,以投擲骰子作比。將一枚骰子看作一個消息源,其符號表含6個詞語,概率均為1/6,連續(xù)擲骰子的過程就是以此系統(tǒng)產(chǎn)生文本的隨機(jī)過程。由自然語言詞符構(gòu)造語句的過程與連續(xù)擲骰子相似,具有很高的隨機(jī)性。而自然語言詞符的概率分布參差不齊,封閉類詞語的使用概率普遍高于開放類詞語,后者之列也有較常用、較不常用的概率之別?;谏鲜鲈?,設(shè)計了如下R語言程序,輸出模擬序頻分布圖像:
#程序2
nw=50000;st=50000
#詞表長度與形式文本長度
mean=1;stdv=exp(1)
#對數(shù)正態(tài)分布參數(shù)(憑經(jīng)驗斟酌)
ws=as.character(seq(1:nw))
rn=rlnorm(nw,mean,stdv)
p=rn/sum(rn)
txt=sample(ws,st,TRUE,p)
f=sort(table(txt),TRUE)
f=as.numeric(f)
r=seq(1:length(f))
plot(log(r),log(f))
盒馬鮮生創(chuàng)始人侯毅在“雙十二供應(yīng)鏈升級溝通會”上表示,“我們進(jìn)入不同城市后發(fā)現(xiàn),一二三線城市的消費習(xí)慣、消費水平差異較大,包括主城區(qū)和郊區(qū)等差距都很大。這就促使我們需要分層經(jīng)營、分類經(jīng)營。可以說原來是舍命狂奔、現(xiàn)在要精細(xì)化運(yùn)營?!?/p>
程序2細(xì)節(jié)如下:(1)假設(shè)以數(shù)量為50,000的詞符集作為消息源,生成長度為50,000的隨機(jī)文本;(2)對于消息源的概率分布,采納Herdan(1960:42)的理論:“詞頻分布總體受對數(shù)正態(tài)分布律支配”,假設(shè)消息源服從對數(shù)正態(tài)分布。憑經(jīng)驗斟酌其參數(shù),選擇1為均值,以自然常數(shù)e為標(biāo)準(zhǔn)差;(3)從這個消息源連續(xù)隨機(jī)采樣50,000次,相當(dāng)于在一個概率隨機(jī)過程中生成如此長度的隨機(jī)文本,對隨機(jī)文本進(jìn)行頻率分析后繪制序頻關(guān)系的log-log圖像。以下是程序2運(yùn)行結(jié)果的一個實例:
圖3. 模擬自然語言形式文本序頻分布
由圖3可見,程序2模擬自然文本Zipf分布的效果顯然優(yōu)于程序1,在目測之下與自然文本Zipf曲線(如圖1)相差無幾,足以印證Miller所謂“簡單無奇的數(shù)學(xué)過程就能夠產(chǎn)生Zipf分布”。程序2的原理無外乎從對數(shù)正態(tài)分布總體隨機(jī)采樣,與猴文本模型一樣簡單無奇,且更符合自然語言形式上的語句構(gòu)造過程。
3.3 關(guān)于Zipf定律系數(shù)的研究
根據(jù)Joos、Mandelbrot等學(xué)者的研究(詳見馮志偉 1983),Zipf序頻分布律原公式缺乏普遍性,有失精確。實際應(yīng)用中的Zipf定律公式是Zipf原公式的修正與推廣,可寫作rBf=C,Zipf原公式是當(dāng)B=1時修正公式的特例。修正公式中B、C是兩個系數(shù),并非兩個常數(shù)。因為目測下形似斜線,Zipf分布被看作log-log坐標(biāo)系中的線性關(guān)系,由修正公式可推得:log(f)=log(C)-B(log(r))。該線性關(guān)系的截距是log(C),其斜率是-B。不過,Zipf分布實質(zhì)上比雙對數(shù)線性關(guān)系更復(fù)雜,尚無明確的線性擬合截距取值標(biāo)準(zhǔn),C取值不定,而B的測定一般采用最大似然估計(MLE)方法。以下程序中的B.MLE是基于MLE且專用于計算Zipf定律系數(shù)B的R語言函數(shù):
#程序3
B.MLE<-function(f)
{library(stats4)
LLH=function(B){
r=seq(1:length(f))
L=B*log(r)+log(sum(r^-B))
sum(f*L)}
fit=mle(LLH,start=list(B=-1))
B=as.numeric(fit@coef)
return(B)}
f = scan("data.txt")
#數(shù)據(jù)文件格式是空格分隔的自然數(shù)詞頻
B.MLE(f)
采用MLE方法對多個英文語料庫的Zipf定律系數(shù)實施精確測定,結(jié)果見下表:
表1. 11個英文語料庫的Zipf定律系數(shù)B及相關(guān)數(shù)據(jù)
基于11個英文語料庫測得的一系列B數(shù)值的均值為1.01,極差為0.072。這一調(diào)查結(jié)果說明英文文本的Zipf定律系數(shù)的確近似于1,或者說用45度角下傾直線擬合英文語料庫Zipf分布圖像的誤差不大。
一些學(xué)者曾指出,Zipf定律系數(shù)B因語言而異小幅變化,與詞匯豐富度(lexical richness)或類形比有關(guān)(Gelbukh & Sidorov 2001)。所謂類形比,是類符數(shù)與形符數(shù)的比率(type-token ratio,TTR),是詞匯豐富度的一個簡單指標(biāo)?;诒?所列數(shù)據(jù),實施相關(guān)性分析,結(jié)果如下:
表2. 基于表1數(shù)據(jù)的相關(guān)分析
由相關(guān)分析結(jié)果可見,B與TTR間存在高度相關(guān)(r=-0.952,p<0.01),Zipf定律系數(shù)受TTR影響。既然如此,Zipf定律圖像的線性傾角服從某個常數(shù)角度的趨勢不存在。確鑿證據(jù)再次表明序頻分布并非Zipf所謂兩種力量造就的詞匯平衡。
綜合本節(jié)中的實證研究,既然可以通過簡單數(shù)學(xué)模型生成Zipf分布,其奧秘?zé)o外乎Miller(1965:vi)所謂“視語言的消息源為一個隨機(jī)過程,Zipf曲線無非是該過程的必然結(jié)果”,并非最小努力的產(chǎn)物;既然Zipf分布的線性斜率與文本的類形比高度相關(guān),其直線形狀與線性傾角與所謂詞匯平衡無關(guān)?;谏鲜鼋Y(jié)論足以斷定Zipf定律與Zipf語言經(jīng)濟(jì)論的關(guān)系:后者不能解釋前者,且前者并非后者的有效證據(jù)。既然如此,Zipf的語言經(jīng)濟(jì)論因缺乏證據(jù)而成為無本之木,產(chǎn)生了另一個有待探討的問題:該如何評價Zipf的語言經(jīng)濟(jì)論。
4.1 兩種力量論之無端
Zipf的語言經(jīng)濟(jì)理論由統(tǒng)轄于最小努力原則之下的一系列假說構(gòu)成,而Zipf對這些假說的論證又不乏破綻。那么,Zipf的理論是否中肯?是否能夠揭示語言經(jīng)濟(jì)的奧秘?縝密的理性審視之下,Zipf的理論其實存在諸多破綻,其中最為致命的就是兩種力量論。造就所謂詞匯平衡的兩種力量是否存在?按Zipf的假說,言者希望用盡可能少的工具完成盡可能多的任務(wù),也就是希望詞語的多義性強(qiáng),在這個方向上存在趨于將多種意義集于一詞的單一化力量;聽者希望解讀詞匯的工作量盡可能小,也就是希望詞語的多義性弱,在這個方向上存在趨向于一詞僅表達(dá)一義的多樣化力量。不過,這種理論捉襟見肘,與語言的規(guī)約性相悖。語言是一個規(guī)約體系,詞語能表達(dá)何種、多少意義約定俗成,言者與聽者勢必遵循同一套規(guī)約,而自行裁定詞語之意義、能指之所指的自由度很小,所以根本不可能大刀闊斧地實現(xiàn)兩種力量。既然兩種力量不可能產(chǎn)生實質(zhì)效應(yīng),何談平衡,何至于左右詞頻分布格局?由此可見,兩種力量之論不僅缺乏證據(jù),且因違背了語言的基本屬性而站不住腳。
既然涉及語言的規(guī)約性,不妨從這個角度淺談?wù)Z言經(jīng)濟(jì)性的道理。規(guī)約性可謂語言經(jīng)濟(jì)性的基本要件。在這一點上語言與其他人造的或自然的通信體系一致。若言者與聽者不能構(gòu)成一個以共同知識為規(guī)約的通信體系,那么兩者之間或根本無法溝通,或必須為傳達(dá)消息付出許多額外工作。此外,規(guī)約機(jī)制為降低語言交流的開銷提供了一種必要的可能性,即最少僅用一個符號、一項語言手段就可以傳達(dá)一個意義實體,以至于一方面語言系統(tǒng)勢必動用大量符號為動態(tài)變化的、潛在數(shù)量無限的主客觀實體賦予稱謂,而另一方面,因為人腦有處理語境制約的能力,一詞多義也廣泛存在,兩方面均體現(xiàn)了語言之最小努力原則??梢姡Z言因規(guī)約性而省力,且為了省力,語言必然是一個規(guī)約體系。
4.2 雙邊經(jīng)濟(jì)之玄虛
兩種力量無端,與兩種力量相糾結(jié)的雙邊經(jīng)濟(jì)也并非順理成章。Zipf認(rèn)為言者、聽者經(jīng)濟(jì)立場上的單邊最小努力以兩種力量的方式交鋒,卻忽視了一個不言而喻的道理:只有交流成功才有省力可言,否則必然導(dǎo)致額外開銷,所以交流成功是達(dá)成最小努力的前提。誠然,單邊最小努力的矛盾是否存在是一個真?zhèn)坞y斷的問題,但強(qiáng)調(diào)這種玄虛的矛盾沒有實際意義,即使有某種對立,也只能是行為方式的對立:以實現(xiàn)成功交流為綱,言者付出表述的工作,聽者付出解讀的工作,達(dá)成最小努力的方式既相反且相成。對Zipf語言經(jīng)濟(jì)思想有所沿革的兩種著名理論,即Martinet的經(jīng)濟(jì)原則與Horn的R、Q原則,均明示或隱含了這個道理。
在提出R、Q原則的論文中,Horn(1984:11)開篇即引用了Zipf兩種力量之說,隨后又援引了Martinet的經(jīng)濟(jì)原則:“為了理解語言如何變化、為何變化,語言學(xué)者須謹(jǐn)記兩個永恒相悖的因素:其一,成功交流的要求、言者對成功傳達(dá)消息的要求;其二,以達(dá)成交際目標(biāo)為前提,將言者生理、心理能量付出降至最低的最小努力原則”(轉(zhuǎn)引自Horn 1984:11)。
對Zipf與Martinet的理論,Horn如此概括:“正如Zipf所謂‘兩種對立的經(jīng)濟(jì)極端矛盾’,Zipf、Martinet等認(rèn)為語言的變化正是在這個矛盾的熔爐中煉成的”(Horn 1984:11)。而后,Horn指出:“這兩種矛盾的力量及其交互作用就是Grice會話原則以及由其所衍生的語用推理機(jī)制之主要根源”(同上:12)。Horn將Zipf的雙邊經(jīng)濟(jì)之說與Martinet的經(jīng)濟(jì)原則混為一談,這分明是一個誤區(qū)。Martinet將最小努力原則納入了經(jīng)濟(jì)原則,也強(qiáng)調(diào)這是一個二元矛盾,但成功交流與最小努力的矛盾和Zipf所謂兩種經(jīng)濟(jì)的交鋒顯然有本質(zhì)區(qū)別,且經(jīng)濟(jì)原則的精髓所在就是強(qiáng)調(diào)成功交流是最小努力之前提。
盡管Horn將Zipf與Martinet的原則無差別概括為“兩種矛盾的力量及其交互作用”,他在此基礎(chǔ)上建構(gòu)的理論并沒有破綻。如下是Horn歸納的Q、R原則框架(同上:13):
1)Q原則(基于聽者):充分話語量;說得盡可能多(以R為前提);下限原則,誘發(fā)上限會話含義。
2)R原則(基于言者):必要話語量;只說必須說的(以Q為前提);上限原則,誘發(fā)下限會話含義。
強(qiáng)調(diào)R、Q互為前提就是對成功交流是最小努力之前提這一原則的尊重。所以盡管Horn沿用了Zipf的雙邊經(jīng)濟(jì),卻沒有延續(xù)其玄虛。此外,“‘基于言者’與‘基于聽者’相對,‘下限’與‘上限’相對……,這是一個工整的對稱”(Carston2005:305),R、Q兩原則體現(xiàn)了言者與聽者的方式相對與經(jīng)濟(jì)統(tǒng)一。Horn(2006:2)后來更新了他的理論,用“語用之陰陽互動”來描述其理論中的兩種宏觀對立的原則。既相反且相成,“陰陽互動”的提法顯然比片面強(qiáng)調(diào)交鋒更加合理。
Zipf是一位風(fēng)格獨特的語言學(xué)者,他視語言為一個生物、心理、社會過程,以統(tǒng)計、數(shù)學(xué)分析加哲學(xué)探討的方式研究語言,進(jìn)而將從語言研究中得出的哲理加以推廣。Zipf的理論與計量研究中之所以不乏破綻,一方面是因為在Zipf的時代以數(shù)論理的技術(shù)條件簡陋。另一方面,Zipf其人有一些值得計量、實證語言研究領(lǐng)域?qū)W者力戒的弱點:Zipf的數(shù)學(xué)能力有限、統(tǒng)計學(xué)知識不足,對數(shù)據(jù)之性質(zhì)不求甚解卻常在臆測理論的方向上漸行漸遠(yuǎn)(Wyllys 1981:47)。在以去偽存真的態(tài)度審視Zipf語言經(jīng)濟(jì)理論的同時,有兩點深刻的感受:瑕不掩瑜,盡管其理論不無瑕疵,Zipf開創(chuàng)的理論視野博大,時至今日尚未被充分探索且仍大有可為;以Zipf為先驅(qū)的研究范式,即計量調(diào)查加推究哲理,在今天的語言研究中仍有方興未艾之勢與廣闊的前景。
Carston, R. 2005. Relevance Theory, Grice and the neo-Griceans [J]. Intercultural Pragmatics 2(3): 303-319.
Gelbukh, A. & G. Sidorov. 2001. Zipf and Heaps Laws coefficients depend on Language [A]. In A.Gelbukh (ed.). Proceedings of Confenence on Intelligent Text Processing and Computational Linguistics [C]. Berlin: Springer-Verlag. 332-335.
Herdan, G. 1960. Type-Token Mathematics [M]. The Hague: Mouton.
Herdan, G. 1966. The Advanced Theory of Language as Choice and Chance [M]. Berlin: Springer.
Horn, L. 1984. Toward a new taxonomy for pragmatic inference: Q-based and R-based implicature[A]. In D. Schiffrin (ed.). Meaning, Form, and Use in Context: Linguistic Applications [C].Washington: Georgetown University Press. 11-42.
Horn, L. 2006. Speaker and hearer in Neo-Gricean pragmatics [J]. Journal of Foreign Languages(4): 2-26.
Mandelbrot, B. 1953. An informational theory of the statistical structure of languages [A]. In W.Jackson (ed.). Communication Theory [C]. Woburn, MA.: Butterworth. 486-502.
Mandelbrot, B. 1982. The Fractal Geometry of Nature [M]. San Francisco: Freeman.
Miller, G. 1957. Some effects of intermittent silence [J]. American Journal of Psychology 70(2):311-314.
Miller, G. & N. Chomsky. 1963. Finitary models of language users [A]. In R. Luce, R. Bush &E. Galanter (eds.). Handbook of Mathematical Psychology [C]. New York: John Wiley.419-492.
Miller, G. 1965. Introduction [A]. In G. Zipf (ed.). The Psycho-biology of Language: An Introduction to Dynamic Philology [C]. MA.: The MIT Press.
Thorndike, E. 1932. A Teacher’s Word Book of the Twenty Thousand Words [M]. Teachers College,Columbia University.
Wyllys, R. 1981. Empirical and theoretical bases of Zipf’s Law [J]. Library Trends 30(1): 53-64.
Zipf, G. 1945. The meaning-frequency relationship of words [J]. The Journal of General Psychology 33(2): 251-256.
Zipf, G. 1949. Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology [M]. Cambridge, MA.: Addison-Wesley.
馮志偉,1983,齊普夫定律的來龍去脈 [J],《情報科學(xué)》(2):37-41。
姜望琪,2005,Zipf與省力原則 [J],《同濟(jì)大學(xué)學(xué)報》(2):87-95。
通訊地址:471022 河南省洛陽市洛陽師范學(xué)院外國語學(xué)院