駱 琳
(華中科技大學(xué) 中文系,武漢 430074)
“得”作為現(xiàn)代漢語中一個(gè)使用頻率極高、意義用法相當(dāng)復(fù)雜的漢字,在不同的語境和上下文組合中,代表了幾種不同層次、不同類屬的語言單位,具有不同的功能,表達(dá)不同的意義。從為計(jì)算機(jī)識(shí)別服務(wù)的目的出發(fā),立足于面向計(jì)算機(jī)的自然語言信息處理,將研究范圍限定在無論來源、無論讀音、無論詞性,凡字形相同的“得”字均納入我們的討論范圍。
以《漢語大詞典》、《現(xiàn)代漢語詞典》和《現(xiàn)代漢語八百詞》的分類為依托,我們將“得”字的用法分為六類:“得1”為普通動(dòng)詞,“得2”為能愿動(dòng)詞,“得3”為構(gòu)成述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)助詞,“得4”為動(dòng)態(tài)助詞,“得5”為構(gòu)詞語素,“得6”為專名、借詞用字等其他用法。另外還有一些誤為“得”的錯(cuò)別字,因著眼于計(jì)算機(jī)識(shí)別,不妨稱之為“得7”。“得7”與其他類型性質(zhì)根本不同,前六類根據(jù)需要或提取或排除,而“得7”是在文本預(yù)處理階段即應(yīng)予以校正的對象,永不會(huì)被提取。
我們的研究思路是在自建真實(shí)文本語料庫的基礎(chǔ)上,完成對封閉性訓(xùn)練語料的核對與標(biāo)注。使用Visual Basic.Net語言自行研制WordParse軟件,完成ACCESS格式的語料分析數(shù)據(jù)庫建設(shè)及數(shù)據(jù)統(tǒng)計(jì)分析。在自然語言信息處理的研究中,觀察和分析字符串的左右鄰接特征至關(guān)重要。DataWord軟件的研制則為我們建構(gòu)前后接續(xù)觀察和統(tǒng)計(jì)系統(tǒng),更直觀、更迅捷地觀察和統(tǒng)計(jì)字符串的前后接續(xù)狀況提供了便利。
限于篇幅,本文只討論研究成果中涉及對普通動(dòng)詞“得1”前后接續(xù)特征的觀察和統(tǒng)計(jì)。
判斷自然語言中字符串能否鄰接在語言信息處理研究的許多領(lǐng)域廣為使用,能否鄰接的判斷標(biāo)準(zhǔn)應(yīng)該由大規(guī)模的真實(shí)文本統(tǒng)計(jì)而出,然而由于自然語言中詞語分布的稀疏性,對判斷標(biāo)準(zhǔn)的準(zhǔn)確性和全面性所造成的干擾,使我們在對動(dòng)詞“得”的鄰接特征進(jìn)行判斷時(shí),不得不對統(tǒng)計(jì)出來的具體詞形進(jìn)行歸類,即在對語料庫中真實(shí)文本統(tǒng)計(jì)的基礎(chǔ)上通過內(nèi)省,并結(jié)合專家知識(shí)庫中的相關(guān)知識(shí),對詞語進(jìn)行歸類,用詞語類的接續(xù)關(guān)系代替詞形的接續(xù)關(guān)系作為判斷鄰接與限制的依據(jù),并通過數(shù)據(jù)的統(tǒng)計(jì)來說明動(dòng)詞“得”對鄰接詞語的選擇性。
“得”左鄰接詞類、頻次及頻率列表 表1
從表1中可以看出,在490例含動(dòng)詞“得”結(jié)構(gòu)中共有210個(gè)詞語、18種詞類(含標(biāo)點(diǎn))與“得”左鄰接,連接的詞語類別相對較多,并且各個(gè)詞類之間的分布也較為均勻。連接頻率最高的是副詞,出現(xiàn)127頻次,占總頻次的26%,這可能與“得”作為一個(gè)普通動(dòng)詞,在通常情況下能夠?yàn)楦痹~所修飾有關(guān)。其次是動(dòng)詞,出現(xiàn) 75頻次,占總頻次的 16%,其中以能愿動(dòng)詞和單音節(jié)典型動(dòng)詞為主。然后是名詞、代詞、助詞和形容詞,雖然數(shù)詞、量詞、時(shí)間詞、專有名詞和習(xí)用語也出現(xiàn)連接,但頻次極低。此外,與“得”左鄰接還出現(xiàn)了51頻次的空位和15頻次的標(biāo)點(diǎn),分別占了總頻次的11%和3%,這與含動(dòng)詞“得”結(jié)構(gòu)主要充當(dāng)謂語有關(guān)。
“得”右鄰接詞類、頻次及頻率列表 表2
表2中顯示,在490例含動(dòng)詞“得”結(jié)構(gòu)中共有172個(gè)詞語、18種詞類(含標(biāo)點(diǎn))與“得”右鄰接,同樣,連接的詞語類別相對較多,只是各個(gè)詞類之間的分布并不均勻,并且連接出現(xiàn)的高頻詞較為集中,如副詞“不”和時(shí)態(tài)助詞“了”均出現(xiàn)48頻次,各占連接總頻次的 10%。當(dāng)然,連接頻率最高的是名詞,出現(xiàn)179頻次,占總頻次的38%,這是由于作為普通動(dòng)詞,“得”具有一般動(dòng)詞的語法功能,在通常情況下,“得”后面都要帶賓語,只有在主謂謂語句中,“得”充當(dāng)謂語部分的小謂語,而全句的主語正是“得”語義上的關(guān)涉對象的情況下,“得”可以不帶賓語,再就是在“得”前帶有結(jié)構(gòu)助詞“所”的格式中,“得”后也可以不帶賓語,因此在“得”的右鄰接中出現(xiàn)了23頻次的空位,占總頻次的5%。其次是助詞,出現(xiàn) 70頻次,占總頻次的 15%,這也與一般動(dòng)詞能后接時(shí)態(tài)助詞“著、了、過”的語法功能有關(guān)。再就是副詞、動(dòng)詞、數(shù)詞、代詞、結(jié)構(gòu)助詞、形容詞、量詞、連詞和出現(xiàn)頻率極低的區(qū)別詞、語氣詞、介詞以及習(xí)用語。
為了進(jìn)一步驗(yàn)證對于動(dòng)詞“得”左右接續(xù)能力的考察,我們引入熵的計(jì)算,通過數(shù)據(jù)的演算進(jìn)一步說明“得”對左右鄰接詞語所具有的選擇性。
熵是一個(gè)描述隨機(jī)變量的不確定性的度量。就熵而言,一個(gè)隨機(jī)變量的熵越大,它的不確定性也越大,信息量也就越大,即正確估計(jì)其值的可能性就越??;相反,一個(gè)隨機(jī)變量的熵越小,它的不確定性也越小,信息量也就越小,即正確估計(jì)其值的可能性就越大。
熵的計(jì)算公式為:
如果X是一個(gè)離散隨機(jī)變量,其概率分布為P(x),x∈X,則X的熵H(X)是:
為了表現(xiàn)某個(gè)詞或某個(gè)詞類對于左右鄰接關(guān)系的選擇性,我們把這個(gè)詞或詞類記作 T,把與這個(gè)詞或詞類左鄰或右鄰的詞語單位看作隨機(jī)變量L和R,把L和R的取值記作c,則L和R對于T的條件熵(稱作T的左熵和右熵),分別為:
f表示頻次。
顯然,左熵和右熵越小,T左右鄰接詞語的不確定性越小,確定性越大,或者說T對左右鄰接語言單位的選擇性就越強(qiáng);反之,左熵和右熵越大,T左右鄰接詞語的不確定性越大,確定性越小,或者說T對左右鄰接語言單位的選擇性就越弱。
這里我們把“得”當(dāng)作 T,通過歸并,使與動(dòng)詞“得”鄰接的語言單位都以(詞)類的形式鄰接,然后在自建的真實(shí)文本數(shù)據(jù)庫中,計(jì)算出“得”的左熵和右熵,計(jì)算結(jié)果如下:
左熵H(L/T)= 0.979301 右熵H(R/T)=0.882221
從“得”左熵和右熵的計(jì)算結(jié)果可以看出,動(dòng)詞“得”的左熵和右熵都很高,并且左熵高于右熵,這說明動(dòng)詞“得”的左右鄰接詞語(類)的不確定性很大,即動(dòng)詞“得”對左右鄰接語言單位的選擇性強(qiáng),并且左邊的選擇性又強(qiáng)于右邊。這正說明“得”作為普通動(dòng)詞,其語法功能和句法組合具有較大的靈活性,能與其左右鄰接的詞語類別和詞形數(shù)量較多。
“得”不同接續(xù)關(guān)系的左熵與右熵 表3
從表3中熵的計(jì)算結(jié)果可以看出,動(dòng)詞“得”在與不同詞類的接續(xù)關(guān)系中熵值各不相同,甚至相差很遠(yuǎn)。例如,動(dòng)詞“得”對所有能與之鄰接的詞類表現(xiàn)出了較強(qiáng)的傾向性,在與副詞的鄰接中左熵最大,因此,對副詞的選擇不確定性強(qiáng),信息量大,正確估計(jì)其值的可能性小,這與“得”作為普通動(dòng)詞最易受到副詞的修飾相一致,而在與介詞的鄰接中右熵最小,因此,對介詞的選擇確定性強(qiáng),信息量小,正確估計(jì)其值的可能性大,這也說明了動(dòng)詞“得”的賓語更多時(shí)候?yàn)槊~性成分,而非謂詞性成分,故動(dòng)詞“得”與名詞接續(xù),右熵最大。
這一計(jì)算結(jié)果將為后續(xù)搭配概率的統(tǒng)計(jì)分析提供有利的數(shù)據(jù)支持。
在對漢語動(dòng)詞“得”的左右鄰接特征的考察中,我們以量化研究為基石,以概率統(tǒng)計(jì)為基本手段,以“數(shù)據(jù)驅(qū)動(dòng)”為基本理念,實(shí)現(xiàn)了在大規(guī)模的語料庫范圍內(nèi)采用基于統(tǒng)計(jì)的方法對動(dòng)詞“得”在真實(shí)文本中的前后接續(xù)情況進(jìn)行了窮盡性考察??疾旖Y(jié)果表明,“得”的左鄰接,連接詞類相對較多,且各詞類之間的分布也較為均勻,以副詞鄰接頻次最高,與動(dòng)詞鄰接,則以能愿動(dòng)詞和單音節(jié)典型動(dòng)詞為主;“得”的右鄰接,雖然連接的詞類同樣較多,但分布并不均勻,高頻詞較為集中,以名詞鄰接頻次最高。這與“得”作為一個(gè)普通動(dòng)詞,具有一般動(dòng)詞的語法功能,且含動(dòng)詞“得”結(jié)構(gòu)主要充當(dāng)謂語有關(guān)。
為了進(jìn)一步說明“得”對于左右鄰接關(guān)系的選擇性,我們引入了“熵”的概念,通過對“得”的左右熵及不同接續(xù)關(guān)系的左右熵的計(jì)算,其結(jié)果進(jìn)一步驗(yàn)證了我們在大規(guī)模真實(shí)文本中對于動(dòng)詞“得”左右鄰接特征的考察,也為今后搭配概率的統(tǒng)計(jì)分析提供了有利的數(shù)據(jù)支持。
白碩 1995《語言學(xué)知識(shí)的計(jì)算機(jī)輔助發(fā)現(xiàn)》,科學(xué)出版社。
陳曉明、周渝 2004 漢語部分句法分析的研究和發(fā)展趨勢,《貴州大學(xué)學(xué)報(bào)(自科版)》第4期。
馮志偉 1992 計(jì)算語言學(xué)對理論語言學(xué)的挑戰(zhàn),《語言文字應(yīng)用》第1期。
漢語大詞典編輯委員會(huì) 1991《漢語大詞典》,漢語大詞典出版社。
黃昌寧 1993 關(guān)于處理大規(guī)模真實(shí)文本的談話,《語言文字應(yīng)用》第2期。
李文浩 2013“都”的指向識(shí)別及相關(guān)“都”字句的表達(dá)策略,《漢語學(xué)報(bào)》第1期。
呂叔湘 1980《現(xiàn)代漢語八百詞》,商務(wù)印書館。
馬希文 1989 從計(jì)算語言學(xué)角度看語法研究,《國外語言學(xué)》第3期。
吳蔚天、羅建林 1994《漢語計(jì)算語言學(xué)——漢語形式語法和形式分析》,電子工業(yè)出版社。
俞士汶 1999《現(xiàn)代漢語語料庫加工——詞語切分與詞性標(biāo)注規(guī)范與手冊》,北京大學(xué)計(jì)算語言學(xué)研究所。
俞士汶等 1998《現(xiàn)代漢語語法信息詞典詳解》,清華大學(xué)出版社。
詹衛(wèi)東 2000 80年代以來漢語信息處理研究評述,《當(dāng)代語言學(xué)》第2期。
中國社會(huì)科學(xué)院語言研究所詞典編輯室 1996《現(xiàn)代漢語詞典》(修訂本),商務(wù)印書館。