饒 琪 鄭友階
(華中師范大學(xué)文學(xué)院,湖北武漢,430079/湖北科技學(xué)院人文與傳媒學(xué)院,湖北咸寧,437100;黃岡師范學(xué)院外國語學(xué)院,湖北黃岡,438000)
回顧與展望:漢語詞和短語區(qū)分研究
饒 琪 鄭友階
(華中師范大學(xué)文學(xué)院,湖北武漢,430079/湖北科技學(xué)院人文與傳媒學(xué)院,湖北咸寧,437100;黃岡師范學(xué)院外國語學(xué)院,湖北黃岡,438000)
漢語中詞和短語的邊界并不清晰,如何有效地對(duì)二者進(jìn)行區(qū)分是一個(gè)長期存在的問題。文章主要對(duì)已有的相關(guān)研究進(jìn)行了全景式概述,在此基礎(chǔ)上主要分析研究中存在的幾個(gè)難點(diǎn)和關(guān)鍵性的問題,指出“詞感的一致性及其閾值的確定”是問題解決的核心,也試圖對(duì)這一問題的后續(xù)研究作出展望。
詞;短語;詞感
近年來在語言歷史演變、中文信息處理及神經(jīng)語言學(xué)等領(lǐng)域的推動(dòng)下,漢語的詞和短語區(qū)分問題被重新審視。注重實(shí)證是現(xiàn)階段研究的特點(diǎn),在王立的《漢語詞的社會(huì)語言研究》[1]、李晉霞的《詞與短語區(qū)分的理論與實(shí)踐》[2]兩本論著上有著充分體現(xiàn)。本文試圖對(duì)已有的相關(guān)研究進(jìn)行概述,并在此基礎(chǔ)上分析持續(xù)存在的幾個(gè)難點(diǎn)問題。
在討論詞和短語如何區(qū)分的問題之前,有一個(gè)前提需要明晰:漢語的詞是什么?
(一) 作為術(shù)語的“詞”
在比附和構(gòu)建漢語語法研究體系的過程中,章士釗在《中等國文典》里首次具體闡述了作為術(shù)語的“詞”,明確提出了詞和短語是不同級(jí)的語法單位[3]。但在當(dāng)時(shí)這一術(shù)語并沒有得到普遍性認(rèn)可,或仍使用“字”來表述詞,如劉復(fù)的《中國文法通論》[4];或?qū)υ~有別解,如陳承澤的《國文法草創(chuàng)》[5]。真正意義上讓術(shù)語“詞”被廣泛接受的是黎錦熙的《新著國語文法》一書,該書首次界定了詞,即說話的時(shí)候表示思想中一個(gè)觀念的語詞,明確提出了漢語的四級(jí)語法單位是字、詞、短語和句子[6]。盡管這一觀點(diǎn)不無瑕疵,但該書在當(dāng)時(shí)乃至此后的一段時(shí)期內(nèi)影響甚廣,幾乎被當(dāng)作唯一的語法教材在使用。據(jù)孫良明考證,《新著國語文法》一書先后再版24次之多[7],作為術(shù)語的“詞”逐步成為漢語研究的基礎(chǔ)術(shù)語。
建國初期,由于語法教學(xué)的需求和多種語文期刊的創(chuàng)辦,形成了語法知識(shí)普及化的浪潮。詞是什么的問題浮出了水面,曹伯韓、傅東華、彭楚南、林漢達(dá)、史存直、鄭林曦、趙恩柱等人先后撰有專文討論。從呂叔湘的一段話里不難明白為什么討論會(huì)如此熱烈:“我們講語法是從語言出發(fā)的,詞是語法里最基本的東西之一,所以非把詞的意義弄明白不可,否則就討論不下去了?!盵8]強(qiáng)調(diào)功能層面的“自由運(yùn)用”和句法上的“最小單位”是討論的共識(shí)。1956年刊行的《暫擬漢語教學(xué)語法系統(tǒng)》采取了提取最大共識(shí)的辦法,將詞定義為最小的、能夠自由運(yùn)用的語言單位。由于這一系統(tǒng)的巨大影響力和中小學(xué)語文教材的傳播效應(yīng),直到今天有關(guān)詞的基本認(rèn)識(shí)在知識(shí)傳授層面上依然沒有脫離這一范圍。
(二) 多元視野下的“詞”
漢語的使用者可能不關(guān)注詞的定義,但并不妨礙他們具有詞感。這里不打算對(duì)詞進(jìn)行完備定義,主要是討論有關(guān)“詞”的幾點(diǎn)認(rèn)識(shí)。
(1)詞具有心理現(xiàn)實(shí)性,是心理語言的基本存儲(chǔ)單位?!胺脖徽J(rèn)為是一個(gè)詞的必定當(dāng)作一個(gè)統(tǒng)一體標(biāo)記在心頭”,是陳望道在《文法簡論》中的前瞻性認(rèn)識(shí)[9]。有實(shí)證研究支持這一觀點(diǎn)。張珊珊、江火系列研究通過“學(xué)習(xí)——再認(rèn)”范式,運(yùn)用事件相關(guān)電位技術(shù)(ERPS),從記憶編碼加工的角度實(shí)證了詞是大腦中的基本語言單位[10]。研究發(fā)現(xiàn):短語和復(fù)合詞具有不同的加工機(jī)制,詞具有更好的通達(dá)和更有效的記憶編碼,這種差異在P2上體現(xiàn)明顯。同時(shí)詞的反應(yīng)時(shí)長均值要小于短語,說明了詞的通達(dá)更加迅速,在準(zhǔn)確率指標(biāo)上也要優(yōu)于短語。
(2)詞具有多種信息標(biāo)簽。以往研究主要關(guān)注詞的形式和意義兩端,這種觀察無疑生發(fā)在靜態(tài)層面,而動(dòng)態(tài)的語用通常會(huì)賦予詞幾何維度上的信息,建構(gòu)起詞的整體知識(shí)圖景。詞的信息標(biāo)簽以外顯或內(nèi)隱的方式存在:外顯是能夠被直接感知的,如韻律、結(jié)構(gòu)、高熟悉度的語義等信息;內(nèi)隱是需要進(jìn)一步挖掘才能獲得的信息,如頻率、情感、語體、極性等。
(3)詞感的影響因素是多方面的。語義、音節(jié)長度、結(jié)構(gòu)和頻率都有可能影響詞感的強(qiáng)弱。這里包含了兩個(gè)層次:第一,結(jié)構(gòu)與意義是詞感的基礎(chǔ)。一般而言,結(jié)構(gòu)穩(wěn)固、意義凝聚是詞的典型特征。整體義的浮現(xiàn)是漢語詞感知的重要方面。郭桃梅等采用了ERR手段來考察漢語詞匯產(chǎn)出中詞的各種信息通達(dá)過程,發(fā)現(xiàn)由語義信息引起的N200潛伏期要早于語音信息引起的N200潛伏期,實(shí)驗(yàn)表明在漢語詞匯產(chǎn)出中,語義加工要早于語音加工[11]。第二,結(jié)構(gòu)類型、音節(jié)長度和頻率呈現(xiàn)交互影響,高頻的雙音節(jié)動(dòng)賓結(jié)構(gòu)往往具有詞感,如“吃飯、喝水、關(guān)心、走路、跑步”等。
(4)詞是相對(duì)于某一具體的共時(shí)層面而言的。詞庫是歷時(shí)和共時(shí)交融的產(chǎn)物,其間有承傳,也有創(chuàng)新。近年來的詞匯化研究報(bào)道了漢語中不少從短語固化而來的詞,只是這種固化往往需要足夠時(shí)間或空間來獲得語用力量。因此在一個(gè)相對(duì)共時(shí)層面里面,語言單位可能存在詞和短語并置的情形。
怎樣區(qū)分詞和短語?已有研究可以分為三個(gè)階段:早期的理論探索、后續(xù)的應(yīng)用研究,以及近來的實(shí)證調(diào)查。
(一) 理論探索
王力(1944)提出“插入法”和“轉(zhuǎn)換法”來處理詞和短語頗難劃分的問題。[12]陸志韋(1957)在結(jié)構(gòu)主義語言學(xué)的視野下,初步運(yùn)用了“擴(kuò)展法”來探求漢語詞的邊界和形式特征[13]。趙元任(1968)進(jìn)一步具體了詞和短語的五條鑒別原則:(1)構(gòu)成成分帶輕聲的;(2)構(gòu)成成分是黏著的;(3)構(gòu)成成分拆不開;(4)內(nèi)部結(jié)構(gòu)為離心結(jié)構(gòu)的;(5)整體意義不是部分的組合[14]。呂叔湘(1979)對(duì)這一問題也有相似闡述[15]。他們的看法其實(shí)是一個(gè)從形式到意義、附加上語音的多元操作框架,在具體細(xì)則上可能有差異,但基本思想趨于一致。
王洪君(1994)試圖通過排除的方法來確定詞,分析了兩字復(fù)合短語規(guī)則,認(rèn)為詞是有內(nèi)部結(jié)構(gòu)但結(jié)構(gòu)方式不符合短語規(guī)則或句子規(guī)則的多音節(jié)音義結(jié)合體[16]。邢福義(1996)從音節(jié)優(yōu)選的角度出發(fā),主張?jiān)趨^(qū)分兩難的狀態(tài)下,雙音節(jié)單位應(yīng)該判定為詞,三音節(jié)結(jié)構(gòu)劃歸為短語(如豬肉為詞,野豬肉是短語)[17]。馮勝利(2009)在對(duì)趙元任的五條原則進(jìn)行檢驗(yàn)的基礎(chǔ)上,針對(duì)古漢語中的復(fù)合詞提出了語義綜合性標(biāo)準(zhǔn)[18]。
這些研究無疑在理論層面上拓展與深化了有關(guān)詞和短語區(qū)分的認(rèn)識(shí),但都未能得到大面積的應(yīng)用,主要是這些規(guī)則在面向大規(guī)模真實(shí)文本之時(shí),均表現(xiàn)出了可操作性不強(qiáng)的特征,在詞的判定上仍然十分依賴語感。
(二) 應(yīng)用研究
分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)是自然語言處理的基礎(chǔ)平臺(tái),無論何種分詞軟件和方法,優(yōu)秀的詞典構(gòu)建是分詞系統(tǒng)指標(biāo)優(yōu)化的不變基礎(chǔ),這個(gè)環(huán)節(jié)的困難主要和詞與短語的界限問題息息相關(guān)。盡管先后形成了《信息處理用現(xiàn)代漢語分詞規(guī)范(GB/T13715—92)》《現(xiàn)代漢語語料庫文本分詞規(guī)范》等綱領(lǐng)性文件,但仍難以在可操作層面上解決“什么是詞”的問題(參看孫茂松、鄒嘉彥,2001;黃昌寧、趙海,2007)[19][20],以至于相關(guān)文獻(xiàn)中術(shù)語“分詞單位”一直在使用,人機(jī)結(jié)合、定性與定量并舉的方法在詞典構(gòu)建上依然發(fā)揮著重要作用。
歧義切分和未登錄詞是影響分詞系統(tǒng)評(píng)測指標(biāo)的兩個(gè)重要方面,詞和短語的區(qū)分對(duì)覆蓋型字串的歧義消解有重要影響。SIGHAN已經(jīng)舉辦了數(shù)屆國際漢語分詞評(píng)測大賽,歷屆評(píng)測所提供的訓(xùn)練語料仍需人工的介入和干預(yù),黃昌寧、趙海(2007)報(bào)道了由于人工標(biāo)注的不一致所導(dǎo)致的評(píng)測誤差。
(三) 實(shí)證調(diào)查
有研究者很早就提出以語感作為確認(rèn)“詞”的標(biāo)準(zhǔn)(趙恩柱,1956)[21]。王立(1998)引入“公眾詞感”概念,采用問卷調(diào)查方式,對(duì)6種漢語普通話和對(duì)外漢語教材中的25個(gè)“V單+N單”動(dòng)賓結(jié)構(gòu)進(jìn)行考察[22]。研究表明,25個(gè)雙音節(jié)動(dòng)賓結(jié)構(gòu)認(rèn)定為“詞”的一致率高達(dá)95%,這和專家詞感差異顯著。她隨后兩次對(duì)43個(gè)雙音節(jié)定中結(jié)構(gòu)進(jìn)行了調(diào)查[23],調(diào)查顯示認(rèn)定為詞的概率值分別為99.47%和96.13%,結(jié)論基本趨向穩(wěn)態(tài)。
據(jù)胡明揚(yáng)(1999)報(bào)道,相似調(diào)查陳松岑也進(jìn)行過,見于其未刊稿《詞與非詞的界限——語法專家與群眾語感的異同》[24]。研究顯示專業(yè)因素和詞感存在關(guān)聯(lián),“藍(lán)天、白云、小鳥、湖邊、松樹”一般人認(rèn)為是“詞”,可大多數(shù)語言研究者和詞典編纂專家認(rèn)為這些是“短語”。王立(2002)主要研究的是“大眾詞感”,李宇明、李晉霞(2007)則集中討論了“專家詞感”,也采用“問卷調(diào)查”的方式對(duì)影響詞感的因素:頻率、結(jié)構(gòu)類型、音節(jié)長度、自由和黏著、概念類型等五個(gè)方面進(jìn)行了控制變量的逐一考察。研究發(fā)現(xiàn),詞感有顯著的頻率效應(yīng),不同的結(jié)構(gòu)類型對(duì)詞感的影響排序?yàn)椋憾ㄖ?聯(lián)合/狀中>主謂/動(dòng)補(bǔ)/動(dòng)賓[25]。李晉霞、王忠玲(2011)將研究對(duì)象擴(kuò)展到了三音節(jié)語言單位,對(duì)101個(gè)不同音節(jié)類型的三音節(jié)結(jié)構(gòu)進(jìn)行了詞感調(diào)查[26]。結(jié)果表明,在三音節(jié)結(jié)構(gòu)成詞傾向上[2+1]>[1+2]>[1+1+1],但細(xì)分起來,也和三音節(jié)結(jié)構(gòu)的內(nèi)部結(jié)構(gòu)類型、組構(gòu)方式有關(guān)。陳衡(2013)的實(shí)證研究構(gòu)建在大規(guī)模語料的基礎(chǔ)上[27],討論了頻率和詞感之間的關(guān)聯(lián),發(fā)現(xiàn)頻率和詞感之間并不存在必然關(guān)聯(lián),如頻率最高的雙音結(jié)構(gòu)“一個(gè)”就不是詞,而是短語。頻率的作用更多地存在于那些具有相同組構(gòu)、同構(gòu)造槽和相同概念域的候選串上。
在前文已略有論及影響詞感的因素,語義、語音、結(jié)構(gòu)類型以及頻率都有可能會(huì)對(duì)詞感產(chǎn)生制約作用。下面我們進(jìn)一步討論這個(gè)問題。
(一) 語義
語義是詞感通達(dá)的核心。張金橋(2011)探討了SOA在57ms、157ms和314ms條件下漢語的雙音節(jié)復(fù)合詞在語義、詞類和構(gòu)詞法等方面詞匯信息激活的相對(duì)時(shí)間進(jìn)程[28]。結(jié)果表明,在57ms時(shí)語義信息已經(jīng)被激活,在157ms時(shí)語義和詞類兩種信息均被激活,在314ms時(shí)激活了語義、詞類和構(gòu)詞法三類信息。結(jié)論表明語義信息在整個(gè)詞匯信息激活中的優(yōu)先地位。復(fù)合詞是“詞”和“短語”區(qū)分的交匯點(diǎn)。文獻(xiàn)中常使用“語義透明度”(semantic transparency)或“語義融合”(semantic compositionality)來刻畫組構(gòu)成分語義和整體語義的聯(lián)結(jié)情況,前者更為常見。對(duì)“語義透明度”的定義有兩種方式:一種和語義的可預(yù)測性相關(guān),高透明度詞可以根據(jù)這個(gè)詞的構(gòu)成來判斷它的詞義(Plag,2003:46),但這種推測會(huì)受到個(gè)體已有知識(shí)經(jīng)驗(yàn)的制約,表現(xiàn)出一定的局限性;另一種與可分析性有關(guān),完全透明的詞由它不同組成部分的當(dāng)下語義構(gòu)成(Zwisterlood,1994:344)。近年來,結(jié)合“語義透明度”的結(jié)構(gòu)體詞匯化程度考察已有不少,相關(guān)工作可參看(李晉霞,2008/2011;羅耀華,2015)[29]。
還有相關(guān)的兩個(gè)問題亟待解決:一是應(yīng)該借鑒心理學(xué)領(lǐng)域中量表設(shè)計(jì)的理念和方法,構(gòu)建通用的“語義透明度”測試量表。盡管有研究也對(duì)“語義透明度”有分層刻畫,但囿于個(gè)體知識(shí)經(jīng)驗(yàn)的不同,難以達(dá)到面對(duì)不同研究對(duì)象保持一致性。通用的“語義透明度”量表可以有效解決測試的標(biāo)準(zhǔn)化問題,對(duì)研究的信度和效度有顯著提升。二是加強(qiáng)復(fù)合詞語義通達(dá)方式的實(shí)證研究。盡管在復(fù)合詞的語義通達(dá)模式上已經(jīng)取得了較為一致的共識(shí):即構(gòu)成成分和整體都起作用,既有分解表征過程,也有整詞表征過程(參看彭聃齡、丁固盛,1997;陳曦、張積家,2005;丁固盛、彭聃齡,2006),但還沒有看到典型的復(fù)合詞和短語的比較研究,尤其是高頻組合造成的可離可合的“離合詞”應(yīng)當(dāng)成為這方面研究的“富礦”。
(二) 語音
語音是感知詞邊界的重要因素。語音上的停延最能直接感知詞的韻律邊界,輕重音是區(qū)分詞和短語的輔助手段。同時(shí),在漢語普通話中兒化、變調(diào)是成詞的語音手段,變韻是方言中大量報(bào)道出來的構(gòu)詞方式。這些充分說明了語音和詞的內(nèi)在關(guān)聯(lián),從已有研究來看,主要體現(xiàn)在兩方面:
一是雙音節(jié)是漢語詞的優(yōu)選音長形式。已有的詞匯計(jì)量研究充分表明了這一點(diǎn)。周薦(1999)統(tǒng)計(jì)了《現(xiàn)代漢語詞典(修訂本)》,在全部58481詞條中,雙音節(jié)詞條數(shù)為39548個(gè),占67.625%[30]。更大規(guī)模的語料統(tǒng)計(jì)也支持這一點(diǎn):2005年首次進(jìn)行了語言生活的大規(guī)模普查,課題組統(tǒng)計(jì)了來自全國15家主流報(bào)紙、6家新聞網(wǎng)站、13家電視臺(tái)、9家廣播電臺(tái)的總字符數(shù)高達(dá)909429700、詞種數(shù)1651749個(gè)的語料,顯示漢語的平均詞長為2.28音節(jié)。
二是韻律與漢語詞的交互作用。馮勝利(1997)明確提出了漢語的“基本韻律詞”是兩音節(jié)的“標(biāo)準(zhǔn)音步”,王洪君(1999)又進(jìn)一步從詞法—韻律兩方面定義了漢語的韻律詞、韻律類詞和韻律短語。三音節(jié)語言單位涉及韻律和詞匯的界面互動(dòng),韻律構(gòu)詞的基本觀點(diǎn)是:[2+1]構(gòu)成的超音步有成詞的可能,大部分的[1+2]是短語,詞的可接受度較低。端木三(1997)則發(fā)現(xiàn)了音節(jié)單雙在漢語構(gòu)詞中的不同作用,用“切菜刀”和“蔬菜加工刀”進(jìn)行對(duì)比說明,發(fā)現(xiàn)如果復(fù)合詞的定語是述賓結(jié)構(gòu),則音節(jié)上1-1配置的述賓式定語用VO語序,音節(jié)上2-2配置的述賓用OV語序,后續(xù)研究參看(莊會(huì)彬、劉振前,2011)[31]。
(三) 結(jié)構(gòu)
在通過定義的方式來界定詞的描述中,“結(jié)構(gòu)穩(wěn)定”往往被強(qiáng)調(diào)。黃月園(1995)從詞的組成部分和修飾語的組配、詞不允許插入和詞的組成不能夠并列三方面來論證了復(fù)合詞組成部分的不可分離性。結(jié)構(gòu)對(duì)詞感強(qiáng)弱的影響主要表現(xiàn)在以下兩方面:一是結(jié)構(gòu)緊密度,可以通過“互信息”來刻畫。但此方法拋開了語義,僅僅只能說明雙音結(jié)構(gòu)體之間的緊密度。二是結(jié)構(gòu)類型,需要調(diào)查不同結(jié)構(gòu)類型的語言單位詞感的強(qiáng)弱。漢語里面高頻的雙音節(jié)動(dòng)賓短語、動(dòng)補(bǔ)短語具有顯著詞感(如:吃飯、喝水、洗澡、理發(fā);打破、搞到)。李晉霞(2013)以問卷調(diào)查的方式對(duì)頻率水平相當(dāng)、意義具有字面性的不同類型的雙音結(jié)構(gòu)進(jìn)行了詞感調(diào)查。調(diào)查表明,定中結(jié)構(gòu)的詞感最強(qiáng),其次是聯(lián)合結(jié)構(gòu)和狀中結(jié)構(gòu),主謂結(jié)構(gòu)、動(dòng)補(bǔ)結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)的詞感最低:定中>聯(lián)合/狀中>主謂/動(dòng)補(bǔ)/動(dòng)賓。
(四) 頻率
頻率對(duì)詞感的形成具有催化作用。劉云(2009)討論了頻率對(duì)詞感的制約作用,詳細(xì)論述了頻率對(duì)詞感的動(dòng)力作用、高頻單位認(rèn)知的優(yōu)先性以及頻率對(duì)語言單位感知的效應(yīng)[32]。同時(shí),在歷史視角下討論詞的形成問題上,頻率一般都會(huì)作為原因之一被論及。高頻可能是導(dǎo)致相鄰語言單位的附著化和合并的一個(gè)重要?jiǎng)右颍瑫?huì)引起線性毗鄰的語言單位組塊化(Krug,1998/2000;Bybee,2002)。
頻率對(duì)詞的形成和詞感的制約研究還有兩方面問題需要進(jìn)一步具體討論。一是所謂的“高頻”并不具體,缺乏相應(yīng)的量化數(shù)值作為標(biāo)準(zhǔn),彭睿通過區(qū)分“籠統(tǒng)頻率”和“臨界頻率”,明確指出了單純的頻率統(tǒng)計(jì)并無意義,誘發(fā)語言單位演化的動(dòng)力是臨界狀態(tài)下的高頻使用[33]。二是“高頻”一定會(huì)帶來詞匯化嗎?頻率的高低同結(jié)構(gòu)體語法化、詞匯化的程度呈正相關(guān)嗎?彭睿(2011)通過對(duì)“的+N”在古今語料中頻次的對(duì)比,指出“的話”在“的+人”、“的+事”、“的+話”三類非結(jié)構(gòu)詞串中無論是古代漢語還是現(xiàn)代漢語中頻次都是最低的,但結(jié)果卻是“的話”成為典型詞。
漢語的詞和短語區(qū)分研究已經(jīng)走過了幾十年的歷程,但離圓滿解決還有不短的距離,這里面既有以往研究中存在的一些問題,也有一直存在的難點(diǎn)。
難點(diǎn)之一:詞感的一致性問題。漢語里面語言單位是詞還是短語缺乏標(biāo)準(zhǔn)答案,因而對(duì)不同的對(duì)象來說給出的答案可能并不一致。黃昌寧、趙海(2007)指出了漢語詞的認(rèn)同率均值在0.76左右。這種不一致現(xiàn)象對(duì)詞感實(shí)驗(yàn)和語料標(biāo)注都會(huì)有制約作用:造成了詞感實(shí)驗(yàn)難以對(duì)受試的正確率進(jìn)行統(tǒng)計(jì),語料標(biāo)注中不同標(biāo)注者的詞感差異常常導(dǎo)致標(biāo)注不一致的現(xiàn)象,所以早期的分詞評(píng)測采用“柔性標(biāo)準(zhǔn)”。
難點(diǎn)之二:詞感一致性的閾值。從已有的詞感實(shí)證研究來看,涉及詞的判斷這一塊,基本上采用的方法都是通過量表的方式來確定。目前所看到的研究而言,閾值確定的主觀性還是較強(qiáng)的,如王立(2003)使用了七點(diǎn)量表的方式,對(duì)受試的詞匯化程度進(jìn)行分層,70%是其設(shè)置的一個(gè)確定成詞的閾值,但是這一閾值的信度、可重復(fù)性還值得進(jìn)一步研究。
難點(diǎn)之三:是不是詞,誰說了算?從理論上來說,這個(gè)問題有三種可能答案:一是專家說了算,二是辭書說了算,三是語言使用者投票說了算。但細(xì)究起來,這幾個(gè)方案都有一定的局限:第一,專家和一般的語言使用者在詞的感知能力上應(yīng)該存在有差異。第二,應(yīng)該考慮到任何一本辭書都不可能囊括語言生活中可能存在的詞。有研究表明,語感中詞的數(shù)量要大于辭書收錄的范圍。第三,如果是語言使用者投票說了算的話,就會(huì)遇到前面討論過的閾值確定問題。
難點(diǎn)之四:個(gè)體已有的知識(shí)經(jīng)驗(yàn)是否會(huì)影響詞感?呂叔湘在《漢語語法分析問題》一書中指出,“不同文化程度的人對(duì)什么是詞的感覺是完全不一致的”,但并沒有證明。胡明揚(yáng)希望通過調(diào)查的方式來看專家和普通人的詞感是否存在差異。已有研究顯示出相左的觀點(diǎn):王立(1998)的第二次調(diào)查對(duì)象為不同年齡、不同職業(yè)、不同文化程度、不同工作單位的社會(huì)公眾,相關(guān)分析顯示,年齡、職業(yè)、文化程度等因素和詞的感知無顯著相關(guān);但前文談到了陳松岑在北京的調(diào)查卻顯示,擁有語言學(xué)知識(shí)的研究者和大眾的詞感是存在差異的。由于個(gè)體的知識(shí)經(jīng)驗(yàn)難以刻畫,這一問題在未來還難以得到有效實(shí)證,可行的方案應(yīng)該是分步驟、分批次地進(jìn)行控制變量的調(diào)查,首要的任務(wù)是比較專業(yè)知識(shí)是否會(huì)影響詞感。
*本文系國家社科基金重大招標(biāo)項(xiàng)目“面向網(wǎng)絡(luò)文本的多視角語義分析方法、語言知識(shí)庫及平臺(tái)建設(shè)研究”【12&ZD227】、教育部人文社會(huì)科學(xué)研究基金“基于大規(guī)模通用語料庫的漢語詞和短語區(qū)分研究”【12YJC740085】和華中師范大學(xué)優(yōu)秀博士學(xué)位論文培育計(jì)劃【2015YBYB062】階段性成果。
注釋:
[1] 王立:《漢語詞的社會(huì)語言學(xué)研究》,北京:商務(wù)印書館,2003年。
[2] 李晉霞:《詞語短語區(qū)分的理論與實(shí)踐》,北京:中國社會(huì)科學(xué)出版社,2013年。
[3] 章士釗:《中等國文典》,上海:商務(wù)印書館,1907年,第1頁。
[4] 劉復(fù):《中國文法通論》,北京:中華書局,第44~45頁。
[5] 陳承澤:《國文法草創(chuàng)》,上海:商務(wù)印書館,1922年,第22~23頁。
[6] 黎錦熙:《新著國語文法》,上海:商務(wù)印書館,1924年,第15頁。
[7] 孫良明:《黎氏文法重印24版,為全國大學(xué)中學(xué)漢語語法教學(xué)采用30多年及其原因——紀(jì)念劭西師〈新著國語文法〉出版90年(五之三)》,《魯東大學(xué)學(xué)報(bào)》2014年第5期。
[8] 呂叔湘:《語法學(xué)習(xí)》,北京:中國青年出版社,第3頁。
[9] 陳望道:《文法簡論》,上海:上海教育出版社,第18頁。
[10] 張珊珊、江火:《離合詞是詞還是短語?——一項(xiàng)來自神經(jīng)電生理學(xué)的證據(jù)》,《語言科學(xué)》2010年第5期。
[11] 郭桃梅等:《漢語詞匯產(chǎn)生中的義、音信息提取時(shí)間進(jìn)程的ERP研究》,《心理科學(xué)》2007年第5期。
[12] 王力:《中國語法理論》,上海:商務(wù)印書館,1944年,第46~47頁。
[13] 陸志韋:《漢語的構(gòu)詞法》,北京:科學(xué)出版社,1957年,第1~6頁。
[14] 趙元任:《漢語口語語法》,呂叔湘譯,北京:商務(wù)印書館,1979年,第65~84頁。
[15] 呂叔湘:《漢語語法分析問題》,北京:商務(wù)印書館,1979年,第19~29頁。
[16] 王洪君:《從字和字組看詞和短語——也談漢語中的詞的劃分標(biāo)準(zhǔn)》,《中國語文》1994年第2期。
[17] 邢福義:《漢語語法學(xué)》,長春:東北師范大學(xué)出版社,1996年,第152~153頁。
[18] 馮勝利:《漢語的韻律、詞法與句法》(修訂本),北京:北京大學(xué)出版社,2009年。
[19] 黃昌寧、趙海:《中文分詞十年回顧》,《中文信息處理學(xué)報(bào)》2007年第3期。
[20] 孫茂松、鄒嘉彥:《漢語自動(dòng)分詞研究評(píng)述》,《當(dāng)代語言學(xué)》2001年第1期。
[21] 向若等:《關(guān)于〈什么是詞兒〉一文的討論》,《中國語文》1956年第6期。
[22] 王立:《從“單音動(dòng)詞+單音名詞”結(jié)構(gòu)的拼寫看正詞法規(guī)則的客觀依據(jù)》,《語言文字應(yīng)用》1998年第1期。
[23] 王立:《“雙音節(jié)名詞偏正性結(jié)構(gòu)”詞化傾向之思考》,《華中師范大學(xué)學(xué)報(bào)》1998年專輯。
[24] 胡明揚(yáng):《說詞語》,《語言文字應(yīng)用》1999年第3期。
[25] 李宇明、李晉霞:《現(xiàn)代漢語詞感制約因素的問卷報(bào)告》,《漢藏語學(xué)報(bào)》2007年第1期。
[26] 李晉霞、王忠玲:《論音節(jié)模式、結(jié)構(gòu)類型對(duì)三音節(jié)詞感的影響》,《南開語言學(xué)刊》2011年第1期。
[27] 陳衡:《詞和短語區(qū)分的頻率因素:基于超大規(guī)模語料庫2-gram串的考察》,華中師范大學(xué)碩士學(xué)位論文,2013年。
[28] 張金橋:《漢語雙字復(fù)合詞識(shí)別中語義、詞類和構(gòu)詞法信息的激活》,《心理科學(xué)》2011年第1期。
[29] 羅耀華:《介詞并入與“V+到”類結(jié)構(gòu)的詞匯化研究》,《語言研究》2015年第2期。
[30] 周薦:《雙字組合與詞典收條》,《中國語文》1999年第4期。
[31] 莊會(huì)彬、劉振前:漢語復(fù)合詞的構(gòu)詞機(jī)制與韻律制約,《世界漢語教學(xué)》2011年第4期。
[32] 劉云、李晉霞:《論頻率對(duì)語感的制約》,《語言教學(xué)與研究》2009年第3期。
[33] 彭睿:《臨界頻率和非臨界頻率:頻率和語法化關(guān)系的重新審視》,《中國語文》2011年第4期。
【推薦人語】漢語中詞和短語的區(qū)分是漢語研究和應(yīng)用中長期存在的大難題。本文對(duì)這一問題的歷史淵源和研究現(xiàn)狀作了全面的介紹,在此基礎(chǔ)上探討了制約詞感的各種因素,并指出了若干需要解決的難點(diǎn)問題。本文對(duì)這一問題的認(rèn)識(shí)比較全面、深入,對(duì)最終妥善解決這一疑難問題具有一定的啟發(fā)性。(吳振國)