張平 蔡意
摘 要 文章通過對國家語言資源監(jiān)測語料庫的高頻詞表與《現(xiàn)代漢語詞典》第6版的對比分析,指出該詞典的動詞收錄存在新興高頻動詞未得到及時收錄和收詞標準不一兩方面的問題。文章逐一考察了高頻詞表標注為動詞的3239個語言單位,指出了10個應被收錄的新興高頻派生詞,以及一批由于詞和短語的界定問題導致的該收而未收和不該收卻予收錄的動詞性結構。
關鍵詞 動詞 詞典收錄 高頻詞表 《現(xiàn)代漢語詞典》
語言知識的動態(tài)更新是客觀存在的語言發(fā)展現(xiàn)象。張普(2000)從控制論的角度,指出更新語言知識的最好辦法是機器自動回收和專家進行評測相結合的協(xié)作性知識管理。詞典是語言知識的載體,也是人和計算機應用語言知識的指導用書?!半S著電子版的文本、數字化的媒體、因特網的網站的幾何級數的增加,各種新的知識呈加速度性增長”,詞典理應跟上語言更新的步伐,完成好它指導、規(guī)范語言文字應用的使命。
國家語言資源監(jiān)測語料庫收集報紙、廣播電視和網絡新聞中的海量語言信息,為詞典的編纂提供了好的“機器自動回收”?!冬F(xiàn)代漢語詞典》(以下簡稱《現(xiàn)漢》)第6版于2012年7月正式發(fā)行,新版詞典共收條目6.9萬余,增收新詞語和其他詞語近3000條。本文對比從國家語言資源監(jiān)測語料庫中統(tǒng)計獲得的高頻詞表和《現(xiàn)漢》第6版,專門討論詞典的動詞收錄問題。
一、高頻詞表與《現(xiàn)漢》比較的基礎
(一)高頻詞表的特點
高頻詞表由國家語言資源監(jiān)測與研究中心的三家媒體語料庫(平面媒體語料庫、有聲媒體語料庫和網絡媒體語料庫)從2005年至2008年四年中共用的帶詞性的高頻詞組成。集中反映了最近幾年通用領域高流通度、高使用度和高穩(wěn)定度的現(xiàn)代漢語詞匯。取詞方式為:
(1)每年三家媒體共用且頻率覆蓋率達到90%的高頻詞;(2)從各年高頻詞中取2005年至2008年四年共用的部分,排除人名、地名、其他專名和數字類的詞,最后得到10022條。
(二)比較的基礎和必要性
高頻詞表集中反映了2005年至2008年四年中通用領域高流通度、高使用度和高穩(wěn)定度的現(xiàn)代漢語詞匯?!冬F(xiàn)漢》第5版發(fā)行于2005年,第6版理應反映2005年之后漢語詞匯應用的實態(tài)。對比高頻詞表和《現(xiàn)漢》第6版,可以很好地展示《現(xiàn)漢》編纂的進步。
《現(xiàn)漢》的突出特點在于其規(guī)范性。它的編寫目的,是為現(xiàn)代漢語標準語確定詞匯規(guī)范。但在實際操作中,詞和非詞的劃界存在一定的困難,這使得不少人在使用《現(xiàn)漢》時,經常會對有些看似短語的單位收進了詞典、有些看似詞的單位卻沒有收錄感到疑惑。例如:《現(xiàn)漢》第6版收錄了三音節(jié)的“來得及”“來不及”,卻沒有收錄結構與之一致的“稱得上”“稱不上”;收錄了雙音節(jié)的“提及”,卻沒有收錄意義與之相近的“提到”。高頻詞表的詞雖然是機器切分的結果,存在一定的分詞錯誤,但換個角度看,無論它是真正意義上的詞還是短語,其高頻使用就證明了作為一個語言單位,它的內部成員已經具備了高同現(xiàn)的特征,在語感上向詞靠近。對比高頻詞表和《現(xiàn)漢》第6版,發(fā)現(xiàn)這些高同現(xiàn),并與《現(xiàn)漢》第6版已收錄的詞類似,但未被收錄的語言單位,能為《現(xiàn)漢》第6版的修訂提供參照性的數據,對其規(guī)范起建設性作用。
二、高頻詞表中的動詞在《現(xiàn)漢》第6版中的收錄情況
高頻詞表標注為動詞的單位有3239個,其中2896個被《現(xiàn)漢》第6版收錄,收錄率為89.4%。這說明《現(xiàn)漢》第6版很好地貫徹了收錄通用詞的原則。未被收錄的有343個,除明顯有分詞錯誤的“談談、有著”等2個外,剩下341個(以下簡稱“動詞性結構”)是本文討論的重點。
在341個動詞性結構中,雙音節(jié)有307個,三音節(jié)有34個。它們在結構方式上的分布和百分比情況如下:
這些高頻的動詞性結構未被收錄的原因,理論上大致有兩種可能:一是《現(xiàn)漢》認為它們不是詞,以其雙音節(jié)或三音節(jié)的特點,它們最有可能是短語,即機器自動分詞和專家語感在詞和短語上的分歧(劉慶隆 1982);第二種可能,是《現(xiàn)漢》認為它們尚不具備高流通度特征,不符合通用詞的條件。
就構造方式來看,13個附加結構未被收錄的原因必定是后者,因為詞根和詞綴組合而成的只能是詞。其他幾種結構未被收錄的原因,既有可能是前者,也有可能是后者。我們進一步考察了這328個非附加結構在2005年以前的使用情況,它們均已具備了通用特征,由此我們推斷,它們未被收錄的原因主要是前者。
從數量上看,未收錄詞中動補結構所占比重最大,這從一個側面展示了該結構在詞和短語的劃分上問題最多;其次是動賓結構,再次是狀中結構,最后是并列結構和主謂結構。下面,文章以有無分詞問題為綱,對比高頻詞表和《現(xiàn)漢》第6版,討論這些動詞性結構是否應該被收錄。
三、無分詞問題的動詞——附加結構的比較、分析
高頻詞表中的派生動詞,只有一種加后綴“化”的形式,共26個,將它們按詞頻的高低從1 到26 編號,被《現(xiàn)漢》第6版收錄的有16個,未被收錄的有10個,分別是:
未被收錄的10個派生詞在詞頻上并非都排在已收錄詞之后;雖然它們都是三音節(jié),但已收錄的派生詞中也有三音節(jié)的情況。鑒于與已收錄詞的類同性和高頻的特點,我們認為,這10個派生動詞,具備了被《現(xiàn)漢》收錄的條件。
四、有分詞問題的動詞性結構的比較、分析
(一)比較分析——以動補結構為例
在分詞問題上,動補結構最具代表性。以動補結構為例,考察未被收錄的176個單位,從形式標記的角度來看,最為突出的有“V+趨向動詞”“V/A+介詞”“V+到”“V+入”四類,共142個,占未收錄動補結構的80.7%,它們在高頻詞表中的分布和被《現(xiàn)漢》第6版收錄的情況如下:
(二)收錄理據分析
關于詞和短語的劃分,呂叔湘(1979)指出:語法原則和詞匯原則有時候有矛盾。語法原則強調的是這個組合不容易拆開,它的組成部分不能隨意擴展。詞匯原則強調的是這個組合不太長,有比較統(tǒng)一的意義。呂先生認為應該把這兩個原則結合起來。教學語法經常綜合使用三個原則:第一,意義上是否等于內部成分意義的加合,如果等于,是短語;如果不相等,且已經具有了特定的意義,是詞。第二,結構上是否固定,即能否被擴展,其內部成分能否單用,如果能夠擴展,內部成分能獨立運用,是短語;反之是詞。第三,語音上的長度,雙音節(jié)的多是詞,兩個音節(jié)以上的多是短語。(陳蒲清 1984)鑒于詞典指導語言文字應用的功能,以詞典收詞為目的的詞和短語的劃分,我們認為,如果三個原則有沖突,首先應該考慮意義。一個語言單位的意義不等于內部各成分意義的加合,會給理解帶來困難,需要詞典注釋。所以,結構原則和語音原則應該服從意義原則。其次是語音原則服從于結構原則,語音原則更多表現(xiàn)的是語感層面,結構原則是從語言單位的組合層面做出的理性判斷。endprint
綜合意義、結構和語音上的特點,對比高頻詞表中已被收錄和未被收錄的單位的具體情況,可以看到,《現(xiàn)漢》第6版在相當大一部分動詞性結構的收錄上很好地遵循了詞和短語的劃分原則。以《現(xiàn)漢》收錄的“V+來”結構的“到來”為例,《現(xiàn)漢》第6版對“到來”的注釋是“來到、來臨”,它不僅可以表示空間上的位移,還可以表示時間上的臨近,如“新年到來之際”,其意義已經不再是“到”和“來”的意義的簡單加合,且其結構不能擴展,所以把“到來”視為詞更合適。
但對于另一部分動詞性結構的收錄,《現(xiàn)漢》第6版表現(xiàn)出了標準的不一和態(tài)度的游移。一方面,有些更像是短語的單位被收進了詞典,而有些更像是詞的單位卻沒有被收進去。
例如,在動補結構的“V+趨向動詞”中,“V+去”收錄了“除去”,《現(xiàn)漢》第6版對該詞的動詞用法注釋為“去掉、除掉”,意義上等于“除”和“去”的結合——《現(xiàn)漢》第6版對動詞“除”的注釋中有“去掉”義項,對動詞“去”的注釋中有“除去、除掉”義項,并且結構上可以擴展為“除不去”,這些都符合短語的要求,和未被收錄的“免去”等類同。而且,《現(xiàn)漢》第6版收錄了意義和“免去”一致的“免除”,詞典對“免除”的注釋為“免去、除掉”。詞頻上,“除去”“免除”和“免去”三者中,“免去”的詞頻最高。綜合起來看,收錄前兩個卻不收錄“免去”,似不合理。
又如,在動賓結構的“停+”中,《現(xiàn)漢》第6版收錄了“停航”“停診”,對它們的解釋分別是“(飛機或輪船)等停止航行”“停止門診”,其意義分別是“?!焙汀昂健薄霸\”的加合,其結構可以擴展為“停了航”“停了診”,這些特點和高頻的“停產”“停賽”一致,但《現(xiàn)漢》第6版沒有收錄后兩者。
再如,在狀中結構的“不+”中,《現(xiàn)漢》第6版收錄了“不容”,解釋為“不許、不讓”,其意義等同于“不”和“容”的意義加合,其結構可以擴展為“不能容”,如:
(1)你想我舍得把我偷閑做成的“心”放棄掉么,縱然沒有紅線,也不能容/不容它流落。
而且,其內部成分可以獨立運用:
(2)你別急,容我再想想。
“不容”的這些特點,使它更像個短語。這和沒有被《現(xiàn)漢》第6版收錄的“不準”“不住”“不知”“不予”“不?!薄安慌隆薄安荒堋薄安幻鳌薄安豢稀薄安环钡阮愅?/p>
另一方面,有些高頻且在意義上不等于各成分意義加合的動詞性結構,它們更像是詞,卻未被《現(xiàn)漢》第6版收錄。例如動補結構中的“放下”。我們能在語言應用中看到“放下”的這樣一些用法:
(3)分手三年了,她顯然還是沒有放下前男友。
(4)就像兩個匆忙趕路的人,放下一切煩憂瑣事,靜靜地回顧走過的旅程。
(5)為了讓村民們放下疑慮,村支書克格介帶頭下山了。
(6)宮本放下臉來惡狠狠地咬著牙,陰沉地說:“你到底說不說?”
“放下”在以上四個例句中,分別有“忘記”“停止”“拋開”“拉長”的意思,對這幾個“放下”的理解,并不能靠“放”的某一義項與“下”的義項的簡單加合而獲得。
又如,并列結構中的“負有”,其意義并非“負”和“有”的意義的簡單加合,而是“擔負著、承擔著(責任、義務、職能、使命等)”和“享有(盛名等)”的意思,如:
(7)伊格爾伯格表示,美國和中國一樣,對改善和發(fā)展兩國關系也負有責任和義務。
(8)該校作為教會學校,在本地是負有盛名的。
這和同為并列的“+有”結構“享有”和“具有”類同,但《現(xiàn)漢》第6版收錄了“享有”和“具有”,卻沒有收錄“負有”。
再如,主謂結構中的“身為”,其意義也并非“身”和“為”意義的簡單相加。從漢語的實際使用情況來看,“身為”的意思不能簡單地理解為“身體作為”“自己作為”等。例如,下句中的“自己作為”就不能用“身為”替換:
(9)
瑞典希望在歐盟擴大進程中加強自己作為歐洲中小國家代言人的角色,反對建立歐洲聯(lián)邦體制。
*瑞典希望在歐盟擴大進程中加強身為歐洲中小國家代言人的角色,反對建立歐洲聯(lián)邦體制。
“身為”有它特定的句法環(huán)境和語義內涵。在句法上,“身為”后接表示身份的名詞性成分,主要做人名、人稱代詞等的定語,或者作為句首修飾語,用“,”與主語分開。這些特征使得它更趨近于介詞的用法:
(10)
身為一個副團職軍官,他是扛著行李步行來到鄭州市熱力公司的。
(11)5年后,身為校長的他考取了華東師范大學教育系。
以上兩例的“身為”不宜分析為動詞性結構,它已經詞化且虛化成了一個介詞?!吧頌椤钡挠梅ê妥鼋樵~用的“作為”一致。既然與之類同的“作為”被《現(xiàn)漢》第6版收錄,“身為”也理應做類似處置。
五、結 語
本文基于國家語言資源監(jiān)測語料庫的高頻詞表,對詞典的動詞收錄問題做了選擇式的考察。相比2005年出版的第5版,第6版《現(xiàn)漢》有明顯的進步與提高:新版詞典共收條目6.9萬余條,增收新詞語和其他詞語近3000條,在我們考察的高頻詞表中,“工業(yè)化、透過、趨于、增大、人性化、在家、前來、提高、進入”等35個第5版沒有收錄的高頻動詞,均被第6版收錄。但相對于當前的語言實際,第6版在收錄動詞時仍然存在一些問題,最為突出的是收詞標準不一。同是在高頻使用和較少造成理解困難的條件下,一方面,按照詞和短語的劃分原則,有些動詞性結構更像是短語,但其中的一部分被《現(xiàn)漢》第6版收錄,另一部分卻沒有,這樣的現(xiàn)象破壞了詞典收詞的系統(tǒng)性原則;另一方面,有些動詞性結構具備了詞的特征,但《現(xiàn)漢》第6版卻未加收錄,這樣又違背了詞典收詞的通用性原則和詞典對語言文字應用的指導功能。所以,在詞典修訂工作中,有必要關注這兩類現(xiàn)象,并將考察的視野擴大到所有的詞類,綜合考慮詞典規(guī)模和收詞的通用性、平衡性、系統(tǒng)性,做出恰當的取舍。而且,這一工作有必要借助基于真實文本的大規(guī)模語料庫來實現(xiàn)。
參考文獻
1.陳蒲清.教學語法答疑.長沙:湖南人民出版社,1984.
2.國家語言資源監(jiān)測與研究中心.中國語言生活狀況報告(2008)·下編.北京:商務印書館,2009.
3.韓敬體.增新刪舊,調整平衡——談《現(xiàn)代漢語詞典》第5版的收詞.中國語文,2006(2).
4.劉慶隆.現(xiàn)代漢語詞典的收詞原則.辭書研究,1982(1).
5.呂叔湘.漢語語法分析問題.北京:商務印書館,1979.
6.張普.信息處理用語言知識動態(tài)更新的總體思考.語言文字應用,2000(2).
7.張普.關于控制論與動態(tài)語言知識更新的思考.語言文字應用,2001(4).
8.張普.動態(tài)語言知識更新研究.北京:商務印書館,2009.
9.中國社會科學院語言研究所詞典編輯室.現(xiàn)代漢語詞典(第5、6版).北京:商務印書館,2005,2012.
(湖南大學中國語言文學學院 長沙 410082)(責任編輯 李瀟瀟)endprint