余一驕 賈 凌
(1.2.華中師范大學(xué)語言學(xué)系,湖北武漢,430079)
對頻率與互信息在漢語詞典編撰中的作用的實(shí)例考察
余一驕1賈 凌2
(1.2.華中師范大學(xué)語言學(xué)系,湖北武漢,430079)
頻率與互信息是近年來漢語新詞自動發(fā)現(xiàn)中最重要的特征,它們還被列入現(xiàn)代漢語詞典編撰選詞原則中。本文以《現(xiàn)代漢語詞典》(第6版)中全體包含“蛋”字的二字詞、三字詞為考察對象,分別在北京大學(xué)CCL語料庫、華中師范大學(xué)Cici語料庫中統(tǒng)計(jì)其頻次,計(jì)算互信息。對比被收錄詞和部分未被收錄詞的頻次和互信息卻發(fā)現(xiàn):部分被收錄詞的頻次、互信息都比一些未被收錄的詞低。分析多組頻次和互信息數(shù)值,可推測在《現(xiàn)代漢語詞典》編撰中,詞的頻次與互信息其實(shí)不如詞典編撰者的語感關(guān)鍵。
頻次 互信息 現(xiàn)代漢語詞典 詞 短語
詞典應(yīng)盡量多地收錄詞,收錄最常用的詞。“典型”的漢語詞應(yīng)具有結(jié)構(gòu)穩(wěn)固、意義凝聚、音節(jié)適長等特點(diǎn)[1],然而具有以上特征的漢字組既可能是詞,也可能是短語。在現(xiàn)代漢語中,詞、短語之間的界限不是很明確[2]。一些意義凝聚且使用頻繁的二字組、三字組到底是詞還是短語,有時(shí)語言學(xué)家們的意見也并不一致[3]。詞、短語難區(qū)分的特點(diǎn),給漢語詞典選詞帶來諸多挑戰(zhàn)。頻率是短語詞化的一個(gè)重要動力[4],漢字組的使用頻率對區(qū)分詞和短語起著關(guān)鍵性作用。另外,由于詞典收錄的詞數(shù)有限,哪些詞應(yīng)被優(yōu)先收錄往往也存在爭議。
電子詞典是在中文信息處理中必需的語言學(xué)資源,電子詞典的收詞數(shù)量、質(zhì)量直接影響中文信息處理結(jié)果的準(zhǔn)確性。面向中文信息處理用的電子詞典開發(fā)模式與傳統(tǒng)漢語詞典編撰模式有很大差異[5]。電子詞典大多是先由計(jì)算機(jī)程序統(tǒng)計(jì)漢字組的頻次、互信息(Mutual Information)等數(shù)值;然后采用特定的判別規(guī)則,分析頻次、互信息統(tǒng)計(jì)結(jié)果,從中自動發(fā)現(xiàn)備選詞集;最后將備選詞集提供給語言學(xué)本體研究者校驗(yàn)。與之相反,傳統(tǒng)的漢語詞典選詞以人工判斷為主,收詞原則嚴(yán)格,所收詞條數(shù)量遠(yuǎn)低于電子詞典。
漢字組的頻率對漢語語法化、詞法化研究很關(guān)鍵[6]。通過查詢大規(guī)模真實(shí)語料庫,獲得特定漢字組的使用頻次、頻次歷時(shí)變化狀況,如今成為漢語語法研究的常見手段。語法化、詞法化研究與漢語詞典編撰聯(lián)系緊密,十多年前就有研究者提出:《現(xiàn)代漢語詞典》在收詞上要充分吸收機(jī)器分詞的成果,要把詞的頻度作為一個(gè)重要參數(shù)加以利用[7]。《現(xiàn)代漢語詞典》(第6版)(以下簡稱為《現(xiàn)代漢語詞典》)的收詞原則就涉及詞的使用頻度[8]?!冬F(xiàn)代漢語詞典》應(yīng)用廣泛且具有極高的學(xué)術(shù)聲譽(yù),其收詞原則對電子詞典開發(fā)亦具有重要的指導(dǎo)意義。計(jì)算語言學(xué)研究有必要研究它的收詞原則,以及所收條目的頻次、互信息分布特點(diǎn)。
本文通過實(shí)驗(yàn)、計(jì)算和數(shù)據(jù)分析,試圖回答以下兩個(gè)問題:第一,《現(xiàn)代漢語詞典》所收錄詞的頻次、互信息分布有何特征;第二,選詞過程中,頻率、互信息與詞典編撰者的語感相比,哪個(gè)更關(guān)鍵。
《現(xiàn)代漢語詞典》共收條目69 000余條[9]。要對全體詞條進(jìn)行頻次統(tǒng)計(jì)、互信息計(jì)算,工作量太大,本文只能隨機(jī)挑選部分詞條進(jìn)行考察。鑒于“雞蛋”“鴨蛋”是詞還是短語曾有過長期爭議,本文特對涉及“蛋”字的漢字組進(jìn)行考察。
漢字組的頻次是指漢字組在語料庫中的出現(xiàn)次數(shù)。不同的語料庫其語料來源不一致,語料規(guī)模也有差異,因此在不同語料庫中查詢同一個(gè)漢字組所獲得的頻次會不同,計(jì)算出來的互信息也不一致。為了避免漢字組的頻次信息受單個(gè)語料庫的影響,我們特意檢索兩個(gè)獨(dú)立開發(fā)的大型語料庫:北京大學(xué)CCL語料庫、華中師范大學(xué)Cici語料庫。
CCL在線語料庫已被漢語研究者使用多年,是國內(nèi)最具影響的中文語料庫。它的現(xiàn)代漢語語料包括509 913 589個(gè)漢字,其中“蛋”字出現(xiàn)42 162次[10]。在CCL網(wǎng)絡(luò)語料庫中檢索漢字組,語料庫檢索系統(tǒng)能直接反饋包括該漢字組的語料條數(shù),卻不能反饋漢字組在語料庫中的總頻次。由于在一條檢索結(jié)果中可能多次出現(xiàn)檢索詞,例如輸入“雞蛋”得到“這是一個(gè)古老的問題,沒有雞何來雞蛋?但沒有雞蛋又何來雞呢?”的檢索結(jié)果。我們需要把CCL反饋的全部檢索結(jié)果下載到本地電腦,再用漢字組頻次統(tǒng)計(jì)軟件做統(tǒng)計(jì)。筆者開發(fā)的“中文文本N-gram串統(tǒng)計(jì)與檢索軟件Cici V2.0”具有對指定文本進(jìn)行任意漢字組頻次統(tǒng)計(jì)、互信息計(jì)算功能,本文研究中用該軟件統(tǒng)計(jì)來自CCL語料庫的檢索結(jié)果。
Cici是筆者自主開發(fā)的現(xiàn)代漢語語料庫,包括486 408 743個(gè)漢字,其中“蛋”字出現(xiàn)57 988次。Cici包含四大類語料:現(xiàn)當(dāng)代文學(xué)作品、政府公文、新聞、網(wǎng)絡(luò)小說。雖然它的語料來源不及CCL豐富,但卻收錄了不少近十年的語料,因此在反映近十年的漢語使用特點(diǎn)方面有一定優(yōu)勢。網(wǎng)絡(luò)文學(xué)在青少年中很流行,Cici包含較多網(wǎng)絡(luò)文學(xué)作品,能反映當(dāng)前對青少年讀者影響巨大的語言風(fēng)格。過去已用“中文文本N-gram串統(tǒng)計(jì)與檢索軟件Cici V2.0”對Cici的全體語料進(jìn)行窮盡式的漢字組頻次、互信息計(jì)算。在本文研究中,只需查詢過去的統(tǒng)計(jì)結(jié)果,就可以快速獲得漢字組的頻次、互信息。
《現(xiàn)代漢語詞典》收錄了14個(gè)“X蛋”格式的二字詞以及“臉蛋兒”一詞?!澳樀皟骸陛^多地使用在口語中,書面語中大多使用“臉蛋”。檢索CCL和Cici兩個(gè)語料庫,都是“臉蛋”的出現(xiàn)頻次遠(yuǎn)高于“臉蛋兒”。以下把“臉蛋兒”一詞作二字詞“臉蛋”處理,故被考察的“X蛋”格式的二字詞共15個(gè),表1列出了它們分別在CCL和Cici兩個(gè)語料庫中的出現(xiàn)頻次。
表1 被收錄“X蛋”格式的二字詞的頻次
從表1可知,“笨蛋”“彩蛋”“搗蛋”“紅蛋”“混蛋”“臉蛋”“完蛋”等詞在兩個(gè)語料庫中的頻次差異顯著。不妨以“混蛋”為例,考察語料來源對詞匯使用頻率的影響。為了吸引青少年讀者,網(wǎng)絡(luò)文學(xué)比傳統(tǒng)出版的文學(xué)作品口語化,且愛使用詈辭。Cici中包含較多網(wǎng)絡(luò)文學(xué)語料,因此“混蛋”等在Cici中的出現(xiàn)頻率比在CCL中的出現(xiàn)頻率高許多。由此例可知,漢語研究者在考察某個(gè)詞的使用頻率時(shí),其實(shí)很有必要查詢多個(gè)語料庫。
“變蛋”“零蛋”在兩個(gè)語料庫中的出現(xiàn)頻次均很低,沒超過50次。我們曾在華中師大語言學(xué)系近50名本科生和研究生中做關(guān)于“變蛋”一詞的調(diào)查,除了一位來自河南的學(xué)生明確表示知道該詞外,其他學(xué)生幾乎未曾聽說過該方言詞。但這位河南籍的學(xué)生并不認(rèn)同《現(xiàn)代漢語詞典》上將該詞釋義為“松花”,而是覺得“變蛋”是一種蛋清為黃色的“皮蛋”。
表2 被收錄的“蛋X”格式的二字詞的頻次
表2列出了《現(xiàn)代漢語詞典》收錄的13個(gè)“蛋X”格式的二字詞的頻次?!暗暗瘛薄暗案薄暗扒唷薄暗八薄暗皳椤薄暗傍啞钡念l次很低,沒超過60次。“蛋白質(zhì)”“蛋白酶”等三字詞均包括“蛋白”二字。在CCL語料庫中“蛋白質(zhì)”的頻次為6 579,“蛋白酶”的頻次為386,所以“蛋白”作為二字詞的出現(xiàn)頻次其實(shí)不超過5 088次。鑒于“蛋撻”是近年來從香港、澳門傳入內(nèi)地,并成為日趨常見的食品,它反映了人們生活的新變化。它被收錄到詞典,尚可以理解。但“蛋雕”“蛋鴨”等詞既具有見字明義的特點(diǎn),又頻次極低,為何它們能被收錄到《現(xiàn)代漢語詞典》有些讓人費(fèi)解。
表3 部分未被收錄的“蛋X”或“X蛋”二字組的頻次
“雞蛋”“鵝蛋”“鳥蛋”“咸蛋”“蛋殼”“蛋湯”等在日常生活中使用頻繁,它們在CCL和Cici語料庫中的使用頻次如表3所示。將表3分別與表1、表2做比較,“雞蛋”“鵝蛋”“鳥蛋”“咸蛋”的頻次遠(yuǎn)比“變蛋”“彩蛋”“零蛋”高。其中,“雞蛋”和“鴨蛋”的頻次差異更值得關(guān)注。因?yàn)椤冬F(xiàn)代漢語詞典》第6版中新增“鴨蛋”一詞,卻仍沒有收錄“雞蛋”。“蛋殼”的頻率比“蛋青”“蛋子”等高得多,卻沒被收錄。由此可知,《現(xiàn)代漢語詞典》收錄的詞條并不完全符合高頻優(yōu)先的選詞原則。
(1)
CCL網(wǎng)絡(luò)語料庫在線提供了現(xiàn)代漢語語料庫中各漢字的頻次[12],故可直接在其漢字頻次表中查詢f(a)、f(b)的值。根據(jù)公式(1)計(jì)算出表1所列“X蛋”格式二字組的互信息如表4所示,“蛋X”格式二字組的互信息如表5所示?!白兊啊币辉~的互信息在兩個(gè)語料庫中均小于零,自動構(gòu)建電子詞典時(shí)這樣的二字組,肯定不會列入備選詞集。
表4 被收錄的“X蛋”格式二字詞的互信息
在表4中,“笨蛋”“搗蛋”“混蛋”“臉蛋”“鴨蛋”等互信息很高,容易被電子詞典構(gòu)建軟件自動識別,并收錄到電子詞典。在表5中,“蛋雕”“蛋品”“蛋青”“蛋塔”“蛋子”等的互信息低于2。通常在基于互信息的二字詞識別中,互信息低于4的二字組不大會引起識別軟件的關(guān)注。然而這些詞卻被《現(xiàn)代漢語詞典》收錄,這說明電子詞典和傳統(tǒng)詞典的選詞標(biāo)準(zhǔn)存在不可忽視的區(qū)別。
表5 被收錄的“蛋X”格式二字詞的互信息
表6列出了表3所列二字組的互信息。“雞蛋”“咸蛋”的互信息比“變蛋”“彩蛋”“紅蛋”“零蛋”“下蛋”等高得多;“蛋殼”的互信息比“蛋雕”“蛋青”“蛋塔”“蛋子”等高得多?!冬F(xiàn)代漢語詞典》收錄了互信息較低的,卻沒收錄互信息較高的。
表6 部分未被收錄的“蛋X”或“X蛋”二字組的互信息
表1至表6中的數(shù)據(jù)反映了當(dāng)前中文信息處理中關(guān)于詞、短語區(qū)分的一個(gè)尷尬局面。漢語研究者按傳統(tǒng)的語言學(xué)規(guī)則來分辨詞和短語,但自20世紀(jì)50年代至今,他們越來越覺得僅靠純語言學(xué)信息難以明確分清二者。一些語言學(xué)研究者轉(zhuǎn)而期望通過借助頻率、互信息等定量、客觀的數(shù)值特征,來區(qū)分詞和短語。來自計(jì)算機(jī)背景的中文信息處理研究者因缺乏系統(tǒng)的語言學(xué)知識,大多堅(jiān)持根據(jù)概率、統(tǒng)計(jì)學(xué)知識,分析漢字組的頻次、互信息,從中總結(jié)出一些可行且正確率較高的漢語詞自動發(fā)現(xiàn)算法。然而表4、表5中所列漢語詞的互信息值顯示:有些漢語詞互信息較高,與源自概率理論的漢語詞自動發(fā)現(xiàn)原則是一致的,但“變蛋”“蛋塔”等語言學(xué)家確認(rèn)是詞的互信息卻極低。顯然,傳統(tǒng)詞典的選詞原則和電子詞典的選詞原則有沖突,到底哪種原則更適應(yīng)未來詞典編撰的需要,目前還不得而知。
漢語三字組的互信息I(abc)根據(jù)公式(2)來計(jì)算,其中f(abc)是三字組abc的頻次;f(a)、f(b)、f(c)是三個(gè)漢字的頻次;N是語料庫總字?jǐn)?shù)[13]。
(2)
《現(xiàn)代漢語詞典》收錄了15個(gè)包含“蛋”字的三字組,另包含“屁股蛋兒”一詞。類似對“臉蛋兒”的處理方式,在此把“屁股蛋兒”當(dāng)作“屁股蛋”來處理?!冬F(xiàn)代漢語詞典》中沒有標(biāo)注“吃鴨蛋”的詞性,因此將其當(dāng)短語處理。16個(gè)包含“蛋”字的三字組在CCL語料庫和Cici語料庫中的頻次和互信息如表7所示。
表7 被收錄含“蛋”字三字組的頻次與互信息
值得指出的是:“鴨蛋圓”在語料庫Cici中的頻次為0,故其互信息為負(fù)無窮大?!俺曾喌啊薄暗鞍纂恕薄盀觚?shù)啊薄傍喌扒唷薄傍喌皥A”等在兩個(gè)規(guī)模約5億字的語料庫中的出現(xiàn)頻次不超過10次,其使用頻率不到每五千萬字出現(xiàn)一次。它們不僅不滿足使用頻繁的選詞原則,其在不同領(lǐng)域的通用程度也值得懷疑。表8列出了一些常見的含“蛋”字的三字組的頻次與互信息。比較表8和表7,“王八蛋”“恐龍蛋”“鵪鶉蛋”“土雞蛋”等在書面語中頻繁使用,在口語中更是耳熟能詳;它們的互信息比表7中一些三字詞的互信息高。無論是定量比較頻次和互信息,還是普通百姓的語感,它們似乎更應(yīng)優(yōu)先收到詞典中。
表8 部分未被收錄含“蛋”字三字組的頻次與互信息
《現(xiàn)代漢語詞典》還收錄了“雞飛蛋打”“借雞生蛋”“血紅蛋白”“雞蛋里挑骨頭”。由于漢語研究中詞、短語難分辨主要集中在二字組、三字組,在此不對以上四字組、六字組的頻次和互信息做細(xì)致分析。
本文考察《現(xiàn)代漢語詞典》收錄的含“蛋”字的二字詞、三字詞在CCL和Cici兩個(gè)語料庫中的頻次和互信息分布特征,并將其與部分未被收錄的漢字組的頻次、互信息做對比。實(shí)驗(yàn)數(shù)據(jù)顯示,一些高頻詞沒被收錄,有些低頻詞卻被收錄;一些互信息高的漢字組沒被收錄,有些互信息極低的詞卻被收錄了。也許在詞典編撰過程中,詞典編撰者的語感比來自語料庫的頻次信息更關(guān)鍵。另外,現(xiàn)代漢語研究逐步采用頻率、互信息等數(shù)值特征來輔助漢語本體研究。如今權(quán)威的《現(xiàn)代漢語詞典》中的詞條頻次、互信息分布特點(diǎn)與中文信息處理中的新詞自動發(fā)現(xiàn)規(guī)則有沖突。電子詞典自動構(gòu)建理論缺乏明確的語言學(xué)規(guī)則指導(dǎo),阻礙了電子詞典開發(fā)與傳統(tǒng)詞典編撰的相互借鑒。語言學(xué)研究中該如何看待基于概率統(tǒng)計(jì)理論的漢語詞自動發(fā)現(xiàn)算法,這是一個(gè)值得進(jìn)一步研究的問題。
*本文系教育部人文社會科學(xué)研究項(xiàng)目“邏輯推理與詞義匹配相融合的中文網(wǎng)頁語義檢索技術(shù)研究”【10YJA740120】的階段性成果。
注釋:
[1] 劉云、李晉霞:《論頻率對詞感的制約》,《語言教學(xué)與研究》2009年第3期,第1~7頁。
[2] 胡明揚(yáng):《說“詞語”》,《語言文字應(yīng)用》1999年第3期,第3~9頁。
[3] 王洪君:《從字和字組看詞和短語——也談漢語中詞的劃分標(biāo)準(zhǔn)》,《中國語文》1994年第2期,第102~112頁。
[4] 劉云、李晉霞:《論頻率對詞感的制約》,《語言教學(xué)與研究》2009年第3期,第1~7頁。
[5] Jingshin Chang,Yichung Lin,and Kehyih Su.“Automatic Construction of a Chinese Electronic Dictionary”,ProceedingsofthirdworkshoponVeryLargeCorpora,Cambridge:MIT Press,1995,pp.107~120.
[6] 彭睿:《臨界頻率和非臨界頻率——頻率和語法化關(guān)系的重新審視》,《中國語文》2011年第1期,第3~18頁。
[7] 蘇新春、顧江萍:《“人”“機(jī)”分詞差異及規(guī)范詞典的收詞依據(jù)——對645條常用詞未見于〈現(xiàn)漢〉的思考》,《辭書研究》2000年第5期,第47~54頁。
[8] 江藍(lán)生:《〈現(xiàn)代漢語詞典〉第6 版概述》,《辭書研究》2013年第2期,第1~19頁。
[9] 江藍(lán)生:《〈現(xiàn)代漢語詞典〉第6 版概述》,《辭書研究》2013年第2期,第1~19頁。
[10] CCL:《現(xiàn)代漢語語料》。[2003年]http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.
[11] 孫茂松、肖明、鄒嘉彥:《基于無指導(dǎo)學(xué)習(xí)策略的無詞表?xiàng)l件下的漢語自動分詞》,《計(jì)算機(jī)學(xué)報(bào)》2004年第6期,第736~742頁。
[12] CCL:《現(xiàn)代漢語語料》。[2003年]http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.
[13] 余一驕、尹燕飛、劉芹:《基于大規(guī)模語料庫的高頻漢字組互信息分布規(guī)律分析》,《計(jì)算機(jī)科學(xué)》2014年第10期,第276~282頁。