董 強(qiáng),郝長(zhǎng)伶,董振東
(加拿大智達(dá)有限公司,蒙特利爾,加拿大)
排除歧義是語(yǔ)言信息處理或計(jì)算語(yǔ)言學(xué)研究中的關(guān)鍵問(wèn)題。中文里的V-X-de-Y歧義性結(jié)構(gòu)在真實(shí)文本中是非常普遍存在的。我們?cè)?jīng)統(tǒng)計(jì)過(guò)一篇不到4頁(yè)的短文,里面竟有31個(gè)這樣的結(jié)構(gòu)。 我們將31個(gè)含有這樣結(jié)構(gòu)的句子,分別輸入兩個(gè)不同類型的機(jī)器翻譯系統(tǒng),可以清楚地看到這種歧義判別的正確與否會(huì)對(duì)自動(dòng)翻譯產(chǎn)生非常嚴(yán)重的影響。這個(gè)問(wèn)題不論采取何種機(jī)譯策略都是繞不過(guò)去的。讀者不妨也可以試試。
我們研究和開(kāi)發(fā)中文的排歧工具的目的有兩個(gè),一是用來(lái)檢驗(yàn)知網(wǎng)的理論與方法的正確性以及數(shù)據(jù)的規(guī)模和可靠性;二是檢驗(yàn)我們對(duì)于中文處理的觀點(diǎn)和方法,看看是否能夠?qū)⒅W(wǎng)有效地投入實(shí)用?;谶@樣的考慮我們除了不斷改進(jìn)、強(qiáng)化和提升知網(wǎng)知識(shí)庫(kù)性能外,還利用知網(wǎng)先后開(kāi)發(fā)了可同時(shí)適用中英兩種語(yǔ)言的概念相關(guān)性計(jì)算器(Concept Relevance Calculator, CRC)、概念相似度計(jì)算器(Concept Similarity Measure, CSM)等來(lái)作為排歧工具的預(yù)備性資源。 近一年來(lái)我們開(kāi)發(fā)完成了一個(gè)稱之為基于知網(wǎng)的中文句法結(jié)構(gòu)排歧工具(HowNet-based disambiguator of Chinese syntactic structures)。它被簡(jiǎn)稱為VXY。
VXY排歧工具所要排除的是中文里十分常見(jiàn)的句法結(jié)構(gòu)歧義,即很多學(xué)者曾經(jīng)討論過(guò)的V+NP1+的+NP2 (削蘋果的皮/削蘋果的刀)。中文的V+NP1+的+NP2結(jié)構(gòu)歧義的關(guān)鍵點(diǎn)是:V的管轄,即在這類結(jié)構(gòu)里V管轄的是NP1呢,還是NP2?與其他學(xué)者所討論的有所不同,我們要解決的是更加復(fù)雜和多樣的歧義,即在他們所列出的NP1和NP2的位置上可以是其他詞性的詞語(yǔ),如表1所示。 正因如此,我們更確切地命名我們的工具為:V-X-de-Y排歧工具,簡(jiǎn)稱為VXY。
表1 VXY的各種類型舉例
我們把V管轄的是Y的,定為type1;V管轄的是X的,則定為type2;如果在判別中某一短語(yǔ)既能適用某條type1規(guī)則,又能適用某條type2規(guī)則,那么就被判定為type3,也即它仍然存在歧義,如“罵鄰居的孩子”,這樣的歧義結(jié)構(gòu)應(yīng)該需要更大的語(yǔ)境來(lái)解決。
需要說(shuō)明一點(diǎn),V+NP1+的+NP2的管轄關(guān)系,還可能包括V處于被管轄的關(guān)系,例如“失事飛機(jī)的殘骸”、“進(jìn)口商品的關(guān)稅”、“遇害老人的親屬”等。然而我們不會(huì)利用VXY來(lái)解決這樣的歧義性結(jié)構(gòu)。這類歧義會(huì)利用我們正在開(kāi)發(fā)的其他判別工具解決。
VXY主要由以下三個(gè)部分組成:
(a) 判別器:它的主要功能是調(diào)用各種查詢和匹配函數(shù),進(jìn)行詞典訪問(wèn)、信息提取、規(guī)則匹配。用戶填入的詞語(yǔ)是它的輸入;被判別的結(jié)果是它的輸出。
(b) 規(guī)則庫(kù):存有判別確定V對(duì)于X或者Y的管轄關(guān)系的規(guī)則。到目前為止,VXY規(guī)則庫(kù)的規(guī)則總數(shù)約200條。
(c) VXY用戶界面:界面顯示四個(gè)部分:第一行列出V、X、Y測(cè)試短語(yǔ)輸入框;第二部分顯示判別器所選定的V、X、Y各自的DEF,即義項(xiàng)的概念定義;第三部分列出判別中所選用的規(guī)則;第四行給出了判別的最終結(jié)果。這個(gè)界面是供用戶測(cè)試的工具,也是供維護(hù)者調(diào)試和修改的工具。如圖1所示。
圖1 VXY判別工具界面
特別要指出,實(shí)際上,整個(gè)知網(wǎng)也應(yīng)視為VXY的組成部分。VXY是完全基于知網(wǎng)的,它直接利用知網(wǎng)的全部資源,特別是知識(shí)詞典。與知網(wǎng)其他的意義計(jì)算工具一樣,知網(wǎng)的更新會(huì)引起VXY內(nèi)容上的改善或充實(shí),但不會(huì)帶來(lái)結(jié)構(gòu)上的負(fù)面影響。
VXY的功能是對(duì)任意的VXY詞語(yǔ)組合結(jié)構(gòu)中的V對(duì)于X或者Y的管轄關(guān)系加以判別。判斷的條件是:(a)輸入的組合在意義上應(yīng)是合理的、真實(shí)的;(b)輸入的各個(gè)詞語(yǔ)是知網(wǎng)中所包含的。如前所述,判別的結(jié)果有三種:type1、type2 以及type3。
每一條VXY規(guī)則包括如下幾個(gè)部分:(a)規(guī)則名,(b)序號(hào),(c)規(guī)則內(nèi)容。規(guī)則內(nèi)容由兩部分組成:(a)條件部分,(b)動(dòng)作部分。條件部分是VXY三元組:其中CW代表當(dāng)前輸入的V詞語(yǔ);R1代表X,即V右鄰的詞語(yǔ);R2代表Y,實(shí)際上是“的”后鄰的詞語(yǔ)。
CW,R1和R2后面置于方括號(hào)[ ]中的是它們各自的語(yǔ)義內(nèi)容,它們由知網(wǎng)的意義計(jì)算函數(shù)及其賦值所構(gòu)成,三者之間由“;”分割,表示“和”。其中動(dòng)作部分由“$”引導(dǎo),@表示“調(diào)用”動(dòng)作類型。每條規(guī)則均以句號(hào)結(jié)束。例如:
VXY_TYPE_2 6360 CW[*DEF_HinDic={act|行動(dòng)}];R1[*DEF_HinDic={entity|實(shí)體}]; R2[*DEF_HinDic={method|方法}/{standpoint|立場(chǎng)}]$@type(2).
如前所述,VXY規(guī)則采用了知網(wǎng)的意義計(jì)算函數(shù)。這些函數(shù)是知網(wǎng)通用的,應(yīng)用于各個(gè)基于知網(wǎng)的意義計(jì)算工具,而并非是VXY所專用的。VXY現(xiàn)今采用如下函數(shù):DEF_HinDic,DEF_inDic,DEF_HostInDic,DEF_WinDic,它們的操作符分別是:=,-,>。
下面一條規(guī)則,是在判別“挫傷孩子的自尊心”時(shí),匹配成功的規(guī)則:
VXY_TYPE_12490CW[*DEF_HinDic={act|行動(dòng)}];R1[*DEF_HinDic={human|人}];
R2[*DEF_HinDic={mental|精神}]$@type(1).
根據(jù)知網(wǎng),CW詞語(yǔ)“挫傷”有如下兩個(gè)義項(xiàng),它們的DEF分別是:{wounded|受傷}和{discourage|潑冷水}。其中后者的類義原的上位在知網(wǎng)的分類體系(taxonomy)中表示為:
event|事件
==>act|行動(dòng)
==>ActSpecific|實(shí)動(dòng)
==>AlterSpecific|實(shí)變
==>AlterState|變狀態(tài)
==>AlterMental|變精神
==>AlterEmotion|變情感
==>excite|感動(dòng)
==>discourage|潑冷水
這樣,CW滿足了規(guī)則的條件:{act|行動(dòng)}。
R1詞語(yǔ)“孩子”有3個(gè)義項(xiàng),其類義原的上位在知網(wǎng)的分類體系(taxonomy)中都是:
entity|實(shí)體
==>thing|萬(wàn)物
==>physical|物質(zhì)
==>animate|生物
==>AnimalHuman|動(dòng)物
==>human|人
于是R1也滿足了規(guī)則的條件:{human|人}。最后R2,其詞語(yǔ)“自尊心”的類義原的上位在知網(wǎng)的分類體系(taxonomy)中是:
entity|實(shí)體
==>thing|萬(wàn)物
==>mental|精神
==>emotion|情感
也滿足了規(guī)則的條件:{mental|精神}。因此歧義結(jié)構(gòu)“挫傷孩子的自尊心”被判定為type1,即V(“挫傷”)管轄的是NP2(“自尊心”)。
應(yīng)注意,規(guī)則的意義計(jì)算同時(shí)兼有詞語(yǔ)義項(xiàng)選擇的功用。如前面CW本來(lái)是有兩個(gè)義項(xiàng),為何沒(méi)有選中{wounded|受傷}這一義項(xiàng)呢?那是因?yàn)樵摿x項(xiàng)類義原的上位在知網(wǎng)的分類體系(taxonomy)中是:
event|事件
==>static|靜態(tài)
==>state|狀態(tài)
==>StatePhysical|物理狀態(tài)
==>change|變
==>BeBad|衰變
==>SufferFrom|罹患
==>ill|病態(tài)
==>wounded|受傷
這樣就沒(méi)有一個(gè)上位可以滿足規(guī)則的條件的,而被摒棄了。
第一,歧義是語(yǔ)言信息處理的關(guān)鍵問(wèn)題。歧義有種種不同的類型及其不同的特點(diǎn),解決歧義也就應(yīng)該有不同的策略和方法。本文所介紹的中文排歧工具是專門對(duì)付中文里普遍存在的一種結(jié)構(gòu)性或管轄性歧義的。這類歧義的一個(gè)重要特點(diǎn)在于表面上似乎是因?yàn)樵~類分布產(chǎn)生的歧義(如V+N(V)+的+N(A/V)),但實(shí)際上它是高度語(yǔ)義依賴的,是由內(nèi)在的三元的語(yǔ)義約束決定的,是V對(duì)于X或Y的強(qiáng)支配性決定的。請(qǐng)比較下面一組例子:
該組的“V+N+的+N”的前一詞語(yǔ)詞性均為adj(“新穎的”、“容易”),但其中的第一例為type2,而第二例卻為type1。排除這種詞性組合的結(jié)構(gòu)歧義主要是要依靠、或也只能是依靠詞語(yǔ)本身的語(yǔ)義。只有當(dāng)其自身的語(yǔ)義不可能解決時(shí)(例如“咬死獵人的狗”),才需求助于更大的語(yǔ)境。
至于詞匯意義的歧義,雖然也是高語(yǔ)義依賴的,但它們?cè)谛再|(zhì)上是完全另外一種類型。因此我們將采用另外的策略和方法。知網(wǎng)已經(jīng)為此準(zhǔn)備好了三種資源:除前已提及的概念相關(guān)性計(jì)算器(Concept Relevance Calculator, CRC)、概念相似度計(jì)算器(Concept Similarity Measure, CSM)外,更重要的是知網(wǎng)的知識(shí)詞典中為多義詞語(yǔ)給出的實(shí)例。試以詞語(yǔ)“材料”為例,它的三個(gè)義項(xiàng)在知網(wǎng)的知識(shí)詞典中分別列出如下實(shí)例:
(1) DEF={InfoElement|信息元素},(英語(yǔ)=data)
實(shí)例:收集~,鮮活的~,熟悉~,調(diào)查~,整理~,給~分類編目,手頭的~,掌握~,考研~,又發(fā)給我們一堆學(xué)習(xí)~,參考~,第一手~,上報(bào)的~中有記載的,一本~
(2) {Quality|質(zhì)量:host={human|人}},(英語(yǔ)=makings)
實(shí)例:唱歌的~,跳舞的~,不是干這的~,上大學(xué)的~
(3) DEF={material|材料},(英語(yǔ)=material)
實(shí)例:建筑~,裝修~,買~,家裝~,航天飛機(jī)外殼是用什么~做的,房屋~,納米~,~科學(xué)
我們相信將上述三種資源有機(jī)地結(jié)合使用,是實(shí)用性地解決詞匯多義的有效途徑。
第二,進(jìn)一步討論關(guān)于VXY工具的規(guī)則。首先是規(guī)則的依據(jù)。知網(wǎng)的“事件語(yǔ)義角色框架”和“語(yǔ)義角色與典型演員”是規(guī)則的基本依據(jù)。知網(wǎng)的這兩個(gè)文件描述了語(yǔ)義角色與典型演員的強(qiáng)支配關(guān)系,例如:
“娶” 對(duì)于其possession角色:“人,女性”的強(qiáng)支配性
“開(kāi)辦”對(duì)于其PatientProduct角色:“機(jī)構(gòu)”的強(qiáng)支配性
“醫(yī)治”對(duì)于其content角色:“疾病”的強(qiáng)支配性
“買” 對(duì)于其cost 角色:“錢”的強(qiáng)支配性
其次是規(guī)則對(duì)于詞語(yǔ)的義項(xiàng)的選擇性。當(dāng)VXY三個(gè)詞語(yǔ)的任何一個(gè)有多個(gè)義項(xiàng)時(shí),規(guī)則有能力進(jìn)行自動(dòng)的選擇,這是很重要的機(jī)制。再者是規(guī)則的自動(dòng)的上下位查詢的機(jī)制。
第三,我們應(yīng)該采取怎樣的策略和方法來(lái)解決歧義問(wèn)題呢?現(xiàn)在我們看到有兩類做法,一類是本質(zhì)上應(yīng)屬于語(yǔ)言學(xué)本體研究的,或者屬于我們稱之為無(wú)計(jì)算的“計(jì)算語(yǔ)言學(xué)”(Computational Linguistics without Computation)的方法;另一類是眼下尚流行的“三部曲”(語(yǔ)料標(biāo)注、現(xiàn)成的算法、應(yīng)試性的評(píng)測(cè))方法。這兩種方法都不是我們所贊成的。我們主張的是:對(duì)于漢語(yǔ)的語(yǔ)言難點(diǎn)應(yīng)采取“定點(diǎn)清除”的策略,不同類型的歧義應(yīng)采用不同的方法去解決, 我們正在努力開(kāi)發(fā)不同類型的排歧插件,供用戶選擇、嵌入用戶自己的語(yǔ)言信息處理系統(tǒng),如文本挖掘、機(jī)器翻譯系統(tǒng)等。 換句話說(shuō),我們要的是可以經(jīng)得起任意考核的排歧系統(tǒng),而不是只能演示或評(píng)測(cè)幾十個(gè)多義詞的“玩具”。
我們現(xiàn)已將VXY上傳至http://hownet.kookge.com,我們將通過(guò)讀者和用戶的測(cè)試反饋來(lái)改進(jìn)和完善它。我們真心地愿意看到有人采用其他的方法(如詞性標(biāo)注下的“三部曲”)或其他的資源(如Chinese WordNet等)來(lái)做出類似的排歧工具并進(jìn)行開(kāi)放性的考核,我們相信這樣的比較才會(huì)更有意義。
如今,我們已開(kāi)始開(kāi)發(fā)新的中文排歧工具,如VN、NV工具,用以解決諸如“醫(yī)治疾病”/ “走私集團(tuán)”,“太空行走”/ “群眾抱怨”等管轄關(guān)系歧義。同時(shí)我們通過(guò)我們正在研發(fā)的基于知網(wǎng)的英中機(jī)器翻譯系統(tǒng),開(kāi)發(fā)英語(yǔ)的排歧工具。最后,我們?cè)敢馀c其他機(jī)構(gòu)合作共同開(kāi)發(fā)更多的實(shí)用的排歧工具。
[1] Zhendong Dong, Qian Dong, HowNet and the Computation of Meaning[M]. Singapore World Scientific, 2006.
[2] 馮志偉. 自然語(yǔ)言的計(jì)算機(jī)處理[M].上海:上海外語(yǔ)教育出版社,1996.
[3] 馮志偉.論歧義結(jié)構(gòu)的潛在性[J].中文信息學(xué)報(bào),1995,9(4):14-24.
[4] 苑春法,黃錦輝,等.基于語(yǔ)義知識(shí)的漢語(yǔ)句法結(jié)構(gòu)排歧[J].中文信息學(xué)報(bào),1999,13(1):1-8.
[5] 張克亮.基于HNC理論的句法結(jié)構(gòu)歧義消解[J].中文信息學(xué)報(bào),2004,18(6):43-52.
1. 關(guān)于建議設(shè)立“漢語(yǔ)句典”課題的芻議 V設(shè)立課題的芻議
2. 難以打開(kāi)局面的看法,的確反映了很多人的憂慮 A打開(kāi)局面的看法+反映很多人的憂慮
3. 較為新穎的基于語(yǔ)料庫(kù)的統(tǒng)計(jì)分析方法以外 A基于語(yǔ)料庫(kù)的方法
4. 那是值得研究的問(wèn)題 V1值得研究的問(wèn)題
5. 少數(shù)人期待有關(guān)自然語(yǔ)言的“日心說(shuō)”的出現(xiàn) N期待日心說(shuō)的出現(xiàn) (1)
6. 目前研究自然語(yǔ)言處理的方法好比托勒密的理論 N研究語(yǔ)言處理的方法
7. 堅(jiān)持這種扭曲的理論的結(jié)果是……。 堅(jiān)持理論的結(jié)果V
8. 兒童學(xué)習(xí)自然語(yǔ)言的過(guò)程 N學(xué)習(xí)自然語(yǔ)言的過(guò)程
9. 要是我們把觀察和思考問(wèn)題的角度變換一下 P思考問(wèn)題的角度V
10. 即采用適合計(jì)算機(jī)的特點(diǎn)的方法 V適合計(jì)算機(jī)的特點(diǎn) (1)
11. 可以用一套形式語(yǔ)法系統(tǒng)來(lái)描述是這種方法的基石 V是方法的基石 (1)
12. 也是處理這種語(yǔ)言的切入點(diǎn) V1處理語(yǔ)言的切入點(diǎn)
13. 支撐自然語(yǔ)言大廈的主要支柱可能不是 支撐大廈的支柱V
14. 我們仔細(xì)觀察小孩子學(xué)說(shuō)話的過(guò)程 N學(xué)說(shuō)話的過(guò)程
15. 一個(gè)一個(gè)地掌握各種句模的用法 Ad掌握句模的用法(1)
16. 從而提高他們的說(shuō)話和理解能力 Ad提高他們的能力 (1)
17. 尤其是在研究別人的言語(yǔ) Ad研究別人的言語(yǔ) (1)
18. 才打破了不能開(kāi)口的局面 Ad打破開(kāi)口的局面(1)
19. 我們也有教外國(guó)人的《漢語(yǔ)400句》了 V教外國(guó)人的漢語(yǔ)400句
20. 以上的說(shuō)法并不是完全否認(rèn)“語(yǔ)法”的作用 Ad否認(rèn)“語(yǔ)法”的作用(1)
21. 舊句模的消亡過(guò)程受到全社會(huì)成員的參與 N受到成員的參與(1)
22. 《漢語(yǔ)400句》就是一個(gè)《1級(jí)漢語(yǔ)句典》的雛形 N是句典的雛形(1)
23. 類似于人類自己掌握自然語(yǔ)言的過(guò)程 N掌握自然語(yǔ)言的過(guò)程
24. 容易考核工作的實(shí)際進(jìn)展 A考核工作的進(jìn)展(1)
25. 容易判斷自己工作的質(zhì)量 A判斷工作的質(zhì)量(1)
26. 我提出上述建立《句典》的建議 N建立句典的建議
27. 任一語(yǔ)句是否屬于本句型的算法 N屬于句型的算法(1)
28. 而這個(gè)課題所要解決的是面向計(jì)算機(jī)的句典 V1面向計(jì)算機(jī)的句典
29. 根本無(wú)法納入我們心目中的《句典》中 Aux納入心目中的句典(1)
30. 以上是個(gè)人的淺見(jiàn) A是個(gè)人的淺見(jiàn)(1)