陳練軍
(閩南師范大學(xué)文學(xué)院,福建 漳州 363000)
復(fù)合詞的構(gòu)詞成分在不同時期分別構(gòu)造了多少復(fù)合詞,這一問題歷來都有人在討論。語料庫普遍應(yīng)用于漢語研究之前,通行的研究方法是對不同時期特定專書中出現(xiàn)的復(fù)合詞進行統(tǒng)計[1][2][3][4],或者根據(jù)辭書來統(tǒng)計由某一構(gòu)詞成分構(gòu)成的復(fù)合詞有多少個[5][6]。在將語料庫普遍應(yīng)用于漢語研究之后,漢語復(fù)合構(gòu)詞的能產(chǎn)性問題可采取新的計量方法進行研究,但在實際操作中也遇到了各種問題。下文將參考國內(nèi)外有關(guān)詞法能產(chǎn)性計量研究的文獻[7][8][9][10][11],重點討論如何對漢語復(fù)合構(gòu)詞的能產(chǎn)性變化進行計量研究。為便于討論,下文主要以“X+麗”復(fù)合構(gòu)詞的能產(chǎn)性變化為例,比較各種詞法能產(chǎn)性計量方法的優(yōu)劣,剖析當(dāng)前有關(guān)漢語復(fù)合詞能產(chǎn)性變化研究中所存在的問題,并嘗試著提出較為可行的研究策略。
在語料庫普遍應(yīng)用于漢語研究之前,大多通過專書統(tǒng)計來考察復(fù)合構(gòu)詞的能產(chǎn)性,這種做法在當(dāng)時是最切實可行的,研究者可借助專書引得(Index)或逐字索引進行統(tǒng)計,即使沒有工具書可資使用,通過人工統(tǒng)計也是不難做到的。
通過專書的檢索,可以得知特定構(gòu)詞成分所構(gòu)復(fù)合詞的類型數(shù)(即類頻率,Type Frequency)、每個復(fù)合詞的出現(xiàn)頻次(即例頻率,Token Frequency),比較不同時期的類頻率和例頻率,可以大致知曉相關(guān)構(gòu)詞成分能產(chǎn)性的變化。我們通過檢索《論衡》《世說新語》《敦煌變文校注》(下文簡稱“敦煌變文”)《金瓶梅詞話》《紅樓夢》和《皇城根兒》,統(tǒng)計了“X+麗”復(fù)合構(gòu)詞的情況,見表1。
表1 基于專書的“X+麗”復(fù)合構(gòu)詞情況
續(xù)表1
由表1可知,“X+麗”在東漢時期的能產(chǎn)性較低,其類頻率和例頻率都不高;至南北朝時期,其構(gòu)詞能產(chǎn)性達至最高峰,類頻率和例頻率都最高;唐五代以后,類頻率呈下降趨勢,例頻率則保持相對穩(wěn)定,這說明“X+麗”從唐代至明清時期,其詞匯化程度較高;在現(xiàn)代漢語中,“X+麗”的類頻率和例頻率較前代而言都是很低的,說明此時“X+麗”復(fù)合構(gòu)詞的能力很弱。如果根據(jù)表1來考察“X+麗”復(fù)合構(gòu)詞的情況,存在以下不足:
首先,專書抽樣調(diào)查存在語料不均衡及樣本大小不一的問題。如敦煌變文中“X+麗”復(fù)合構(gòu)詞的數(shù)量偏少,不太符合演變的預(yù)期,這可能跟文本的性質(zhì)或類型有關(guān)。如果以《全唐文》為調(diào)查語料,“X+麗”的類頻率和例頻率分別為68和341,這又高于其他時期的數(shù)據(jù),也不太合乎一般的演變預(yù)期,可能與文本的大小有關(guān)。
其次,表1中的“X+麗”復(fù)合詞會在不同時期重復(fù)出現(xiàn),表1未能體現(xiàn)哪個復(fù)合詞是否為新詞,而這一點對于復(fù)合詞的歷時演變來說是很重要的。
最后,由于是抽樣調(diào)查,所以有大量同期語料中已出現(xiàn)的復(fù)合詞在抽樣調(diào)查中未被發(fā)現(xiàn),這反映出抽樣調(diào)查的結(jié)果與實際構(gòu)詞情況的吻合度高低是個難以保障的問題。理論上說,要真實地反映特定時代某一成分的構(gòu)詞情況,就應(yīng)盡可能調(diào)查各時期的所有語料,而這在實際工作中是不可能完全做到的。
通過辭書統(tǒng)計,可得知特定構(gòu)詞成分所構(gòu)復(fù)合詞的類型數(shù)及新詞數(shù)。我們查檢了《漢語大詞典》(下文簡稱“《大詞典》”),“X+麗”復(fù)合構(gòu)詞的情況見表2。
表2 基于辭書的“X+麗”復(fù)合構(gòu)詞情況
將表2與表1相比較,發(fā)現(xiàn)二表所反映的構(gòu)詞數(shù)量變化曲線基本是一致的:構(gòu)詞數(shù)最多的時期是魏晉南北朝,唐以后構(gòu)詞數(shù)的總體趨勢是在減少,至現(xiàn)代漢語時期,構(gòu)詞數(shù)已經(jīng)較少。不過,二表所反映的近代漢語時期的變化曲線略有不同,即表1中唐宋的構(gòu)詞數(shù)量偏少,不太合乎預(yù)期,表2中從元明至清代未呈現(xiàn)遞減的趨勢。
基于辭書的詞法能產(chǎn)性計量的優(yōu)點體現(xiàn)在以下三方面:一是可操作性強,研究的可行性高。當(dāng)前已具有各類大型辭書的電子版和紙質(zhì)版,便于獲取資源并進行統(tǒng)計。二是辭書編撰是基于大規(guī)模語料調(diào)查來收集詞條的,所占有的語料資源較多,因此通過辭書可獲得更多的詞條以資研究,這一點遠勝于專書的語料調(diào)查。三是辭書具有豐富的詞義信息,優(yōu)質(zhì)的語言學(xué)歷史辭書可大致反映相關(guān)詞語的歷時演變線索,包括復(fù)合詞最早出現(xiàn)的時代、義項的增減等情況。
基于辭書的詞法能產(chǎn)性計量研究存在以下不足:一是統(tǒng)計結(jié)果無法反映相關(guān)復(fù)合詞的例頻率,也就不能體現(xiàn)相關(guān)復(fù)合詞的規(guī)約化程度,各個復(fù)合詞在不同語體的文本中的使用差異也反映不出來。二是辭書編撰出自眾手,收詞時把握復(fù)合詞判定標準的寬嚴度不一,且現(xiàn)有的大型辭書成書于互聯(lián)網(wǎng)應(yīng)用之前,詞條收集全靠手工處理,可能存在語料不全或檢索有疏漏的問題,導(dǎo)致辭書所收詞目不一定齊全或時代滯后等情況。如我們在語料庫檢索到“軋麗”“曜麗”“瑩麗”“賦麗”“貌麗”“香麗”“瑰麗”“和麗”“傲麗”等復(fù)合詞,《大詞典》未收錄。根據(jù)考察情況來看,這些復(fù)音組合是可以看作是復(fù)合詞的,只不過是出現(xiàn)頻率較低,后代未能傳承下來,多數(shù)是作者即興新創(chuàng)的詞,未完全規(guī)約化且未被詞典收錄;三是基于辭書的統(tǒng)計數(shù)據(jù)不能反映復(fù)合詞的詞匯化過程,各復(fù)合詞在不同時期的成詞度是有差異的,辭書無法反映這些內(nèi)容。
基于語料庫對構(gòu)詞能產(chǎn)性進行計量研究,是當(dāng)前構(gòu)詞法研究的新進展。國內(nèi)外的相關(guān)研究主要關(guān)注的是派生構(gòu)詞的能產(chǎn)性問題,有關(guān)復(fù)合構(gòu)詞的能產(chǎn)性研究相對較少,專注于漢語復(fù)合構(gòu)詞的歷時研究更是少之又少。
較之前兩種能產(chǎn)性的計量研究,基于語料庫的能產(chǎn)性計量研究在研究手段和研究思路方面有了很大的改進。從研究手段來說,語料庫可以非常迅捷地提供海量檢索數(shù)據(jù),大大提高了研究效率。從研究思路來說,基于語料庫的研究區(qū)分了實際(Realised)能產(chǎn)性和潛在(Possible)能產(chǎn)性,力圖降低因不可能窮盡統(tǒng)計所有語料所造成的負面影響。已有研究建議采取多個統(tǒng)計項目來綜合考察構(gòu)詞能產(chǎn)性,主要的統(tǒng)計項目包括類頻率、例頻率、單頻詞(Hapax Legomena或Hapaxe)和P值①將這些統(tǒng)計項目應(yīng)用于構(gòu)詞能產(chǎn)性研究時存在的優(yōu)缺點,參見陳練軍《詞法能產(chǎn)性的計量研究述評》。。
我們在自建的三百萬字漢語歷時語料庫中對“X+麗”復(fù)合構(gòu)詞的情況進行了調(diào)查統(tǒng)計,具體情況見表3。
表3 三百萬字語料中“X+麗”的復(fù)合構(gòu)詞情況②辭書的書證與語料庫中檢索到的詞出現(xiàn)于同一時代,用加黑和下劃虛線來表示其為新詞;語料庫中檢索到的詞比辭書書證的時代要早,用加黑和下劃實線來表示其為新詞;有的詞在語料庫中出現(xiàn)了,但辭書中未收錄,用斜體和下劃波浪線來表示;未加標注的詞為語料庫出現(xiàn)的時代晚于辭書書證的時代,不是新詞。
續(xù)表3
我們參照Plag、Trips等的研究方法[12](P537-556)[13],對不同時期“X+麗”復(fù)合構(gòu)詞的能產(chǎn)性情況進行了統(tǒng)計,見表4。
表4 “X+麗”復(fù)合構(gòu)詞的能產(chǎn)性計量結(jié)果①P指狹義能產(chǎn)性,即在包含特定詞法范疇的所有個例中找到新詞的概率,將單頻詞數(shù)除以例頻率即得到P值,P值越大,能產(chǎn)性越高;將例頻率除以類頻率即得到平均例頻率,平均例頻率的值越小,能產(chǎn)性就越高;新詞指將語料庫中檢索到的復(fù)合詞參照《大詞典》統(tǒng)計出的新詞數(shù)。
從表4的數(shù)據(jù)來看,依照類頻率給不同時期“X+麗”復(fù)合構(gòu)詞的能產(chǎn)性排序(從高到低)的話,其結(jié)果為:中古>近代1>近代2>上古>現(xiàn)代;依據(jù)新詞排序的結(jié)果是:中古>上古>近代1>近代2>現(xiàn)代;依據(jù)P值排序的結(jié)果是:上古>中古>近代1>近代2>現(xiàn)代;依據(jù)平均例頻率排序的結(jié)果是:上古>中古>近代1>近代2>現(xiàn)代。不同的能產(chǎn)性計量方法反映的是構(gòu)詞能產(chǎn)性的不同方面,多種計量方法得出的結(jié)果可能不盡相同。類頻率和新詞數(shù)受文本大小的影響較大,僅憑其中一個數(shù)據(jù)進行能產(chǎn)性計量,其結(jié)果的可信度不高。綜合起來看,參照P值和平均例頻率來計量能產(chǎn)性的結(jié)果比較一致,可信度也更高,因為二者是相對數(shù)值,在一定程度上降低了調(diào)查結(jié)果的或然性。P值和平均例頻率的不同之處在于,P值體現(xiàn)的是未然的構(gòu)造復(fù)合詞的概率,平均例頻率體現(xiàn)的是已然的現(xiàn)實構(gòu)詞情況。
基于語料庫對漢語復(fù)合構(gòu)詞的能產(chǎn)性變化進行計量研究時,也會遇到一些困難和問題:一是當(dāng)前缺乏可資歷時研究的精加工語料庫,語料庫的規(guī)模不夠大的話,可能會出現(xiàn)不少復(fù)合詞在辭書中有收錄,但語料庫樣本未出現(xiàn)。以“X+麗”復(fù)合構(gòu)詞為例,魏晉南北朝是復(fù)合詞類頻率最高的時期,但我們發(fā)現(xiàn)有大量辭書中收錄的復(fù)合詞未在我們所調(diào)查的語料中出現(xiàn),如“粲麗”“側(cè)麗”“琛麗”“侈麗”“楚麗”“工麗”“怪麗”“豪麗”“浩麗”“皓麗”“驕麗”“朗麗”“曼麗”“輕麗”“遒麗”“柔麗”“縟麗”“潤麗”“贍麗”“韶麗”“神麗”“顯麗”“修麗”“脩麗”“緼麗”“貞麗”“哀麗”“被麗”“英麗”。二是如果研究的對象是基于抽象的詞法模式所構(gòu)成的復(fù)合詞,就難以通過語料庫來搜集材料,因為復(fù)合詞的兩個構(gòu)詞成分都可能是變項,當(dāng)前的技術(shù)還難以設(shè)定檢索條件。如漢語中有“物品名+容器名”這種詞法模式[14](P112),“水桶、酒杯、茶碗、米缸、油瓶”等復(fù)合詞都是基于此模式生成的,如果想考察“物品名+容器名”這種詞法模式的構(gòu)詞能產(chǎn)性,就務(wù)必將語料中此類復(fù)合詞都檢索出來并加以統(tǒng)計。如果沒有對語料庫中所有詞進行語義標注,是不可能通過檢索將“物品名+容器名”式復(fù)合詞都找出來的,這是基于語料庫對漢語復(fù)合構(gòu)詞的能產(chǎn)性變化進行計量研究時遇到的一個實際問題。三是僅通過統(tǒng)計表難以體現(xiàn)能產(chǎn)性變化研究中復(fù)合詞的語義同一性問題,即有些復(fù)合詞的詞義發(fā)生了歷時變化,同一時期同一復(fù)合詞有多個相關(guān)義項,統(tǒng)計時該分開還是合并,這是需要酌情考慮的問題。
對漢語復(fù)合構(gòu)詞的能產(chǎn)性變化進行研究,可以將共時描寫和歷時比較、基于辭書的統(tǒng)計和基于語料庫的統(tǒng)計結(jié)合起來,這是當(dāng)前比較可行的研究方案。
共時描寫可從語料調(diào)查入手,將調(diào)查結(jié)果與辭書收錄情況進行比照,可有效反映出相關(guān)復(fù)合詞的演變動態(tài)。由于復(fù)合詞的形成是個漸變的過程,特定時期內(nèi)不少復(fù)音組合處于過渡狀態(tài),有的語境中更像是個復(fù)合詞,有的語境中則更像是個短語,這可能導(dǎo)致不同研究者對同一詞匯單位進行處理時意見分歧,判定標準從嚴者將其看作短語,體現(xiàn)在辭書編撰方面,就是不將其收入辭典;判定標準從寬者將其看作復(fù)合詞,辭書編撰時將其收入辭典。由于辭書出自眾手,判定標準不是截然統(tǒng)一,這會導(dǎo)致同一類型的復(fù)音組合有的被收入辭書,有的未收入辭書。這暴露出以往復(fù)合詞研究中存在的一個問題,即處理過渡階段的復(fù)音組合時主觀差異性很大。我們基于語言使用的演變觀,把復(fù)合詞演變的過渡狀態(tài)當(dāng)作一個獨立的類別加以考察,這樣易于觀察到在語料中驟現(xiàn)且符合詞法規(guī)則的新創(chuàng)復(fù)合詞,它們雖未實現(xiàn)規(guī)約化,仍屬于個人用詞現(xiàn)象,但卻是詞法能產(chǎn)性的一個重要體現(xiàn),以往的研究常將這類成分剔除在考察范圍之外。我們認為比較合理且易于操作的做法是,借鑒構(gòu)式語法的研究思路,將包含特定構(gòu)詞成分的復(fù)音組合看作一個完整的結(jié)構(gòu)式,并把演變中的復(fù)音結(jié)構(gòu)式根據(jù)其演變進程分為短語、介于短語與復(fù)合詞的過渡成分、復(fù)合詞(包括含類詞綴成分的復(fù)合詞)三類,分階段對其演變過程進行描寫分析。通過對不同階段的語料進行對比,會發(fā)現(xiàn)同一復(fù)音結(jié)構(gòu)的類別可能出現(xiàn)偏移,最終完成從短語到復(fù)合詞的演變。
以“X+麗”復(fù)合構(gòu)詞為例,在三百萬字語料庫中對先秦構(gòu)詞情況進行檢索,得到以下復(fù)音組合:“美麗”“昳麗”“高麗”“佳麗”“文麗”“壯麗”“淫麗”“夸麗”“奢麗”“大麗”,根據(jù)其詞匯化程度分為三類,分別羅列其詞義、例頻率、辭書收錄與否等情況,見表5。
表5 先秦“X+麗”結(jié)構(gòu)式的意義、頻率和辭書收錄情況①“類型”指“X+麗”結(jié)構(gòu)式的類別,“意義”指“X+麗”結(jié)構(gòu)式的意義,“例頻率”指“X+麗”結(jié)構(gòu)式在本文所限定的語料庫中出現(xiàn)的頻次,“新興”指該結(jié)構(gòu)式為本時期新出現(xiàn)的“X+麗”式復(fù)合詞,“收錄”指《大詞典》是否收錄此復(fù)合詞,不加任何符號的“X+麗”結(jié)構(gòu)式為復(fù)合詞,?表示該“X+麗”結(jié)構(gòu)式介于詞和短語的過渡狀態(tài),*表示該“X+麗”結(jié)構(gòu)式為短語。被標作“新興”的結(jié)構(gòu)式不一定是漢語史上首次出現(xiàn)的用例,僅指抽樣語料中最早出現(xiàn)此結(jié)構(gòu)式?!?”表示辭書收錄了該詞條,“-”表示辭書未收錄該詞條,“(+)”表示辭書所收錄的該詞條書證時代滯后。表6“新興”欄的“2/3”表示“壯麗”的第2、3個義項是西漢時期新出現(xiàn)的。
表5中“佳麗”等為第一類,歸入復(fù)合詞;“奢麗”等為第二類,被看作是從短語到復(fù)合詞的過渡成分;“大麗”為第三類,是復(fù)合短語。表5中所有條目都是從三百萬字語料庫中檢索出來的,其中有的條目不好判定是詞或短語,一是該詞為獨用例,是否已經(jīng)規(guī)約化不好判定;二是在語境中詞匯化程度還不高,做短語或復(fù)合詞都可以。這種情況下,我們將該詞在更大型的語料庫(如CCL)中去檢索,并與辭書收錄情況做對比,就可大致將該詞目的類型歸屬確定下來。這樣的做法有這么三個好處:一是依據(jù)規(guī)模有限的語料庫做抽樣調(diào)查,可確保工作量在可控范圍之內(nèi);二是借助更大型語料庫做補充,有效保障了調(diào)查結(jié)果的有效性;三是將辭書收錄結(jié)果結(jié)合起來考察,可更為細致地觀察到相關(guān)條目的語義變化和該條目的社會接受度的變化。
再以同樣的方式考察西漢時期“X+麗”復(fù)合構(gòu)詞的情況,見表6。
表6 西漢“X+麗”結(jié)構(gòu)式的意義、頻率和辭書收錄情況
比較表5和表6,觀察到的變化是:一,出現(xiàn)更多的新詞;二,舊詞產(chǎn)生新義,如“壯麗”??捎猛瑯拥霓k法將不同時期“X+麗”復(fù)合構(gòu)詞的情況做較為詳盡的共時描寫和分析,把各類的“X+麗”結(jié)構(gòu)式都囊括進來,這樣就可以對相關(guān)構(gòu)詞情況進行較為全面的觀察。
在對不同時期“X+麗”復(fù)合構(gòu)詞的情況做斷代描寫之后,可將各時期的統(tǒng)計項目做歷時的比較,由此觀察“X+麗”復(fù)合構(gòu)詞變化的大致軌跡,具體情況參見上文表4,此不贅述。
本文通過計量的方法來考察漢語復(fù)合構(gòu)詞的能產(chǎn)性變化,主要關(guān)注兩類變化:一是同一構(gòu)詞成分在不同時期的復(fù)合構(gòu)詞的能產(chǎn)性變化,如上文所舉“X+麗”復(fù)合構(gòu)詞的相關(guān)情況,另可參看陳練軍對包含語素“衣”“晨”的構(gòu)詞式的能產(chǎn)性變化所做的研究[15][16];二是同一類構(gòu)詞成分在不同時期復(fù)合構(gòu)詞的能產(chǎn)性變化,如表人類詞綴“者”“家”“員”“手”“師”等復(fù)合構(gòu)詞的能產(chǎn)性變化,筆者將另擬專文討論。
本文以“X+麗”復(fù)合構(gòu)詞的能產(chǎn)性變化為例,比較了基于專書、辭書和語料庫等詞法能產(chǎn)性計量方法的優(yōu)劣,剖析了當(dāng)前漢語復(fù)合構(gòu)詞的能產(chǎn)性變化的研究中存在的問題,并嘗試著提出較為可行的研究策略,即將共時描寫和歷時比較、基于辭書的統(tǒng)計和基于語料庫的統(tǒng)計結(jié)合起來,既用于考察同一構(gòu)詞成分在不同時期的復(fù)合構(gòu)詞的能產(chǎn)性變化,也用于觀察同一類構(gòu)詞成分在不同時期復(fù)合構(gòu)詞的能產(chǎn)性變化。
不過,在對復(fù)合構(gòu)詞情況進行統(tǒng)計時,會遇到語義變化問題,即同一詞形在不同時期的語義并不完全等同,同一詞形的不同意義分化到什么程度才需要分開統(tǒng)計,這一點在具體處理時較為棘手,如“佳麗”有名詞用法和形容詞用法,二者是分開統(tǒng)計還是合并統(tǒng)計?另外,研究中也遇到了以復(fù)合詞為構(gòu)成成分構(gòu)造出多重結(jié)構(gòu)復(fù)合詞的情況,即嵌入性(embed)構(gòu)詞問題,如“堂皇富麗”是否可算作是“X+麗”復(fù)合構(gòu)詞?以上問題有待今后進一步研究。