王 萌,俞士汶
(1. 江南大學(xué) 人文學(xué)院,江蘇 無錫 214122;2. 北京大學(xué) 計算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
概念獲取(Concept Acquisition)又稱概念學(xué)習(xí)(Concept Learning),是自然語言理解領(lǐng)域中重要的研究課題,獲取的結(jié)果可以直接應(yīng)用于詞匯知識庫或者領(lǐng)域本體的建設(shè),也可服務(wù)于信息檢索(Information Retrieval)、詞義消歧(Word Sense Disambiguation)等應(yīng)用研究。目前大多數(shù)研究工作,是基于語料庫或者Web自動獲取概念的相關(guān)屬性信息或語法關(guān)系,然后通過聚類的方法來區(qū)分概念。Grefenstette提出用語料中自動獲取的語法關(guān)系(grammatical relations)來表達(dá)概念[1],例如,動詞—賓語(verb-object)、主語—動詞(subject-verb)、名詞—名詞(noun-noun)和形容詞—名詞(adjective-noun)等。Lin將名詞概念“狗 dog”表示為<語法關(guān)系, 值>對[2],如
本文提出了一種基于漢語量詞的名詞概念表示方法。該方法涉及的信息容易從語料中獲得,而且向量維數(shù)較低易于計算。實(shí)驗(yàn)結(jié)果表明基于量詞的名詞概念表達(dá)方式是有效的,可以區(qū)分大部分名詞概念。
早有研究者指出漢語量詞的主要功能是對名詞的語義做分類[4],Huang利用Shannon熵計算名詞量詞搭配的信息含量[5],推導(dǎo)出一個大致可行的漢語名詞語義分類架構(gòu)??疾炝棵钆涞奶攸c(diǎn),量詞所修飾的名詞通常是有限的(“個”是使用最為廣泛的量詞,幾乎所有的個體名詞都能論“個”),只能與某些類名詞搭配,而這一類中的名詞通常會有一些相近的特點(diǎn)。例如,量詞“條”,可以說“一條魚”、“一條蛇”及“一條河”,“條”隱含了其修飾的名詞是具備“長”、“柔軟”以及“像繩子一樣”等特征的物體;量詞“張”則隱含了物體有延展的平面,如“一張桌子”、“一張床”等。此外,還有一些約定俗成的搭配,例如,“一把扇子”、“一把鎖”等。
名詞也可有不同的量詞和它搭配,不同量詞反映了名詞不同方面的特征,例如,名詞“布”,既可以用“塊”修飾,表現(xiàn)了布的局部特征,又可用“匹”修飾,表現(xiàn)的是較大整體的卷狀形態(tài)。
量名搭配的特點(diǎn)啟發(fā)我們,既然量詞可以指示名詞的某種語義特征,那么是否與某個名詞搭配的所有的量詞的組合能夠在一定程度上描述該名詞的語義?換句話說,量詞能否作為名詞概念的一種描述方法為名詞的概念區(qū)分提供有效的信息?為此,本文設(shè)計以下實(shí)驗(yàn),首先,從《中文概念詞典》*CCD 是基于WordNet 構(gòu)建的,它根據(jù)漢語的特點(diǎn),繼承并優(yōu)化了WordNet 的語義分類體系,為中文選擇傾向的研究提供了基礎(chǔ),本文采用的是2006 年的版本。(CCD,Chinese Concept Dictionary)中抽取了11個不同語義類的名詞,共875個,用向量空間模型(VSM,Vector Space Model)將每個名詞表示為向量,向量中的每一維對應(yīng)一個量詞;其次,提出了一個權(quán)重計算方案,為每個名詞的向量賦值;最后,通過聚類的方法來計算名詞之間的語義相似度,并對聚類結(jié)果進(jìn)行評測。
向量空間模型的提出源自信息檢索領(lǐng)域,它與布爾模型(Boolean Model)和概率模型(Probability Model)同屬于該領(lǐng)域的代表性文本檢索模型,而向量空間模型是最有效的文本表示模型之一。一個向量空間是由一組線性無關(guān)的基本向量組成,向量維數(shù)與向量空間維數(shù)一致。向量空間模型具有表示簡潔和計算簡便的特點(diǎn),可以利用空間相似性來逼近語義相似性。本文采用該模型來表示名詞概念,每個名詞被表示為由所有量詞構(gòu)成的向量空間中的一個點(diǎn),下面介紹權(quán)重計算方法,即如何給每個向量賦值。
假設(shè)C是名詞概念集合,M是與C構(gòu)成搭配的所有量詞集合。通過以下三步來計算向量每一維的權(quán)重。
1. 量詞頻次(Classifying Word Frequency)
量詞頻次是指量詞m與名詞概念c之間的共現(xiàn)次數(shù),記為mfm,c。根據(jù)從語料中獲取的量名搭配對,計算每一對量名搭配的出現(xiàn)次數(shù),即可以得到量詞頻次。
2. 信息容量(Information Load)
對集合M中的每一個量詞m,如果它可以和集合C中的n個名詞搭配,按照公式(1)計算其信息容量,記為ilm。
信息容量表示了一個量詞的區(qū)分能力[5],反映了量詞的特異性。一個量詞的信息容量的值越高,說明與該量詞搭配的名詞越少,更具有區(qū)別性。反之,信息容量小說明該量詞更為通用,能與更多的名詞搭配。如果一個量詞可以和集合C中的所有名詞搭配,那么n=‖C‖,它的信息容量為0。
3. mf-ilm,c權(quán)重方案(mf-ilm,cWeighting Scheme)
量詞頻次是一個局部信息,它反映了一個量詞在某個名詞概念中的“密度”,而信息容量是一個全局信息,它反映了一個量詞在整個名詞概念集合中的“稀有”程度。綜合考慮二者,將局部信息和全局信息結(jié)合起來,構(gòu)成最終的權(quán)重計算公式,如式(2)所示。
對公式(2)中的mfm,c進(jìn)行歸一化,如公式(3)所示,其中mfmax是與名詞概念c搭配的量詞中的頻率最大值。
值得注意的是,由于數(shù)據(jù)稀疏問題,一些合理的量名搭配并沒有出現(xiàn)在真實(shí)語料中。例如,名詞“教官”可以和量詞“位、名、個”搭配,但是在語料中,“教官”只和量詞“位”共現(xiàn),如果僅基于語料獲取的量名搭配計算向量的權(quán)值,就會造成信息缺失。因此,本文用《現(xiàn)代漢語語法信息詞典》(GKB,Grammatical Knowledge Base)進(jìn)行加1平滑[6],對于那些合理但是沒有出現(xiàn)在語料中的量名搭配,將它們的mf值賦為1。
基于上述步驟,可以為每個名詞概念構(gòu)造一個向量,這些向量組合起來便構(gòu)成了一個矩陣,其中行代表名詞,列代表量詞。該矩陣將作為下一步聚類實(shí)驗(yàn)的輸入。
本文使用的聚類工具是CLUTO 2.1.2*該軟件網(wǎng)址: http://glaros.dtc.umn.edu/gkhome/views/cluto/,該工具實(shí)現(xiàn)了三種聚類算法: 劃分法、凝聚法和圖分割法[7]。CLUTO使用的是硬聚類算法,即每個概念只能被分配到一個類中。實(shí)驗(yàn)中的參數(shù)設(shè)置如下: clustering method = Repeated Bisection, similarity function = cosine, criterion function = I2,No.of classes=11。本文采用了多組參數(shù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,在該組參數(shù)設(shè)置下得到的結(jié)果最好。
聚類結(jié)果用以下五個指標(biāo)來評價: 準(zhǔn)確率(Accuracy,A)、精確率(Precision,P)、召回率(Recall,R)、F值和漏識率(Fallout,F(xiàn))。其中,準(zhǔn)確率(A)是聚類結(jié)果正確的概念個數(shù)占整個集合概念個數(shù)的百分比。對于系統(tǒng)產(chǎn)生的聚類結(jié)果,我們需要將它對應(yīng)到已有的語義類上,對應(yīng)的辦法是: 對于結(jié)果中的每一類,找出該類中每一個詞語實(shí)際的語義類,個數(shù)最多的語義類將被分配為該結(jié)果的語義類。那么,在該類中如果一個詞語的實(shí)際語義類與它所分配的語義類相同,則被看做是正確,不相同的則視為錯誤。在此結(jié)果上,就可以得到整個聚類結(jié)果的準(zhǔn)確率,準(zhǔn)確率在總體上反映了詞語是否被正確地分配到所屬的類中。
其余四個評價指標(biāo)是從聯(lián)立矩陣(Contingency Table)中計算得來的。這里需要將聚類結(jié)果轉(zhuǎn)化為聯(lián)立矩陣,為此本文引入“共現(xiàn)問題”以實(shí)現(xiàn)轉(zhuǎn)換[3]。具體方法如下:
對集合中任何一對名詞概念,提問“它們是否出現(xiàn)在同一類中?”,回答“是”或“否”。
那么,對于同一個“共現(xiàn)問題”,真實(shí)情況和系統(tǒng)聚類結(jié)果將會分別給出兩組不同的“是—否”答案。例如,有四個概念A(yù)、B、C、D,真實(shí)的情況是(A,B)和(C,D),即A和B同類,C和D同類,系統(tǒng)的聚類結(jié)果是(A)和(B,C,D),那么回答共現(xiàn)問題,可以得到如表1所示的結(jié)果。通過對“是”和“否”的組合計數(shù),就可以得到聯(lián)立矩陣,見表2所示。根據(jù)聯(lián)立矩陣,精確率(P)、召回率(R)、F值和漏識率(F)的計算方式如公式(4)~(7)所示。
表1 共現(xiàn)問題的系統(tǒng)答案及正確答案
表2 聯(lián)立矩陣
首先,從中文概念詞典CCD中抽取875個名詞,這些名詞來自11個不同的語義類,抽取過程是隨機(jī)的。在CCD的上下位關(guān)系中,同一類中的名詞都擁有共同的上位概念,表3給出了詞語語義類分布及部分樣例??梢钥闯?,大多數(shù)語義類中的名詞個數(shù)都大于80,只有三個語義類: 樹(65)、出版物(66)和事件(43),包含名詞個數(shù)少于80個,主要原因是屬于這三個語義類的詞語在語料中出現(xiàn)不多,觀察不到足夠的樣例。如果語料規(guī)模擴(kuò)大,可以得到更為平衡的實(shí)驗(yàn)數(shù)據(jù)集。
表3 實(shí)驗(yàn)名詞樣例
其次,基于在1998年上半年《人民日報》語料中獲取的真實(shí)量名搭配,共152 430對[8]。可以得到與這875個名詞構(gòu)成搭配的所有量詞,共計194個,這些量詞作為向量空間的每一維。對于每個量詞,計算其信息容量,表4給出了部分量詞的信息容量值。
表4 部分量詞的信息容量
對每一個名詞,按照第3節(jié)中介紹的權(quán)重計算方法,從量名搭配表中獲取量詞頻次,結(jié)合量詞的信息容量,生成其向量表示。
本文用CLUTOvcluster命令以及第4節(jié)中的參數(shù)設(shè)置進(jìn)行實(shí)驗(yàn),得到聚類結(jié)果后,通過回答“共現(xiàn)問題”將其轉(zhuǎn)化為聯(lián)立矩陣,結(jié)果如表5所示。五個評價指標(biāo)的詳細(xì)情況見表6。準(zhǔn)確率顯示, 在基于量詞的名詞概念描述方式下,大約86%的名詞概念都可以正確聚類。
表5 實(shí)驗(yàn)結(jié)果的聯(lián)立矩陣
表6 聚類結(jié)果評價
為了對聚類結(jié)果做詳細(xì)的分析,本文給出了混淆矩陣(confusion matrix),見表7。斜體字所對應(yīng)的語義類就是分配給系統(tǒng)結(jié)果的語義類,例如,表中的第一行序號為0的聚類結(jié)果的語義類為“資產(chǎn)”。從聚類結(jié)果中可以看出,“人、資產(chǎn)、事件”三類是最均質(zhì)的,因?yàn)樗鼈兏髯运拿~概念都聚集在同一類中。而“交通工具、衣物”這兩類最不均勻,內(nèi)部差異較大,它們包含的名詞概念分散在很多類中。以“交通工具”為例,該類的名詞被聚在不同的5個類中,其中50個屬于“交通工具”類,37個屬于“動物”類。
對上述現(xiàn)象給出解釋和分析。首先,擁有獨(dú)特量詞的詞語通常能夠被正確聚類。例如,“人”這一類名詞概念,通常和“位、名”等量詞搭配,如“一名商人、一位運(yùn)動員”,這些量詞通常不會修飾別的語義類的名詞概念。再如“資產(chǎn)”類名詞概念,也有比較固定的量詞與之搭配,如“筆、元”等,構(gòu)成“一筆報酬、50元獎金”,這些量詞通常也較少修飾其他語義類的名詞。同理,與“事件”類名詞搭配的量詞如“次、場”也非常固定,如“一場婚禮、一次宴會”等。因此,這三類名詞概念在基于量詞的描述方式下都非常容易地與其他類的名詞區(qū)分開來,聚類準(zhǔn)確率相對較高。
其次,對于那些內(nèi)部差異較大、非均質(zhì)的類,與不同下位名詞概念搭配的量詞會發(fā)生變化。換句話說,這一類的名詞概念不共享相同的量詞集合。以“交通工具”類為例,包含兩個子類,一是“機(jī)動車”類,例如,“汽車、巴士、吉普、計程車、摩托車、救護(hù)車”等,二是“船”類,例如,“油輪、小船、游艇、漁輪”等。對于“機(jī)動車”類名詞概念,通常與量詞“輛”搭配,對于“船”類名詞概念,通常與“艘、只”搭配。而量詞“只”同時是“動物”類名詞概念的常用量詞,因此,這是為什么聚類結(jié)果中“船”類名詞與“動物”類名詞被聚在同一類中的原因。
表7 混淆矩陣
本文提出了一種基于量詞的名詞概念描述方法,通過聚類實(shí)驗(yàn)探索了量詞對名詞語義區(qū)分的作用和貢獻(xiàn),實(shí)驗(yàn)結(jié)果表明量詞可以為大部分名詞語義類的區(qū)分提供有效信息。
本方法的一個局限性在于,它只能描述那些能夠與量詞搭配的名詞概念,對于那些不能受量詞修飾的名詞,如“心胸、長短”等,這種描述方法就不適用了。對《語法信息詞典》名詞庫中的所有名詞進(jìn)行考察,發(fā)現(xiàn)大于80%的名詞都可以受量詞修飾。因此,該方法適用于大部分名詞。此外,另外一個不可忽視的因素是,量詞與名詞之間的語義關(guān)系有時是不明確的,如一些約定俗成的搭配,這也一定程度上造成了該方法在某些語義類上表現(xiàn)較差。
下一步的工作可以從兩個方面入手,一是名詞概念的選擇,需要考慮概念的出現(xiàn)頻次及多義性等因素,選擇更為平衡的數(shù)據(jù);二是嘗試用層次聚類的方法,以反映細(xì)粒度的概念之間的同源關(guān)系。
[1] Grefenstette, Gregory. SEXTANT: Extracting Semantics from Raw Text Implementation Details[R]. Compater Science Technical keport, Cs92-05, University of Pittsburgh, Feb. 1992.
[2] D Lin. Automatic Retrieval and Clustering of Similar Words [C]//Proceedings of the COLING-ACL, 1998: 768-774.
[3] Almuhareb A, Poesio M. Attribute-based and value-based clustering: an evaluation [C]//Proceedings of the EMNLP, 2004.
[4] Tai, James H Y. Chinese Classifier Systems and Human Categorization [M]. In Honor of Professor William S-Y. Wang: Interdisciplinary Studies on Language and Language Change, Matthew Chen and Ovid Tseng, eds. Pyramid Publishing Company, 1994: 479-494.
[5] Huang Chu-ren, CHEN Keh-jiann, GAO Zhao-ming. Noun Class Extraction from a Corpus-based Collocation Dictionary: An Integration of Computational and Qualitative Approaches [J]. Quantitative and Computational Studies of Chinese Linguistics, 1998: 339-352.
[6] 俞士汶,朱學(xué)鋒,王惠等.現(xiàn)代漢語語法信息詞典詳解(第二版)[M].北京: 清華大學(xué)出版社,2003.
[7] Karypis G. CLUTO: A Clustering toolkit [R], Technical Report 02-017, University of Minnesota, 2002.
[8] 王萌,俞士汶,段慧明,孫薇薇. 現(xiàn)代漢語名詞語法屬性的計量研究初探[J],中文信息學(xué)報,2008,22(5): 22-27.
[9] Dongdong Zhang, Mu Li, Nan Duan. Measure Word Generation for English-Chinese SMT System [C]//Proceedings of the ACL, 2008: 89-96.
[10] Dominic Widdows, Beate Dorow. A Graph Model for Unsupervised Lexical Acquisition [C]//Proceedings of the COLING, 2002: 1093-1099.
[11] Hong Zhang. Numeral Classifiers in Mandarin Chinese [J], East Asian Linguist, 2007 (16): 43-59.