孫道功,亢世勇
(1. 南京師范大學 文學院,江蘇 南京 210097; 2. 魯東大學 文學院,山東 煙臺 264025)
自然語言處理的迅速發(fā)展,不僅召喚語言研究向技術(shù)化層面延伸,同時也進一步凸顯了語義分析的重要性和迫切性。眾所周知,語義知識是語言信息處理的難點。如何解決語義問題,如何為計算機的理解生成提供可形式化、可計算化的語義網(wǎng)絡(luò),成為語義研究的核心[1]。從20世紀60年代歐美語言學實現(xiàn)從語形研究到語義研究的歷史性轉(zhuǎn)向后,越來越多的學派和學者開始關(guān)注語義問題。尤其從20世紀80年代中期開始,為了克服語言處理中普遍存在的“語義障礙”(semantic barrier),越來越多的國家開始開發(fā)語義詞典。
語義詞典作為自然語言處理系統(tǒng)的重要組成部分,為語言處理提供語義資源,目前比較有影響的語義知識詞典,國外如WordNet、MindNet、FrameNet等;國內(nèi)如《同義詞詞林》、 知網(wǎng)(HowNet)、《現(xiàn)代漢語語義詞典》(SKCC)、漢語框架語義知識庫(CFN)等。
國內(nèi)外語義詞典研究把“語義關(guān)系”作為描寫重點。作為20世紀80年代后國外語義詞典的重要代表,WordNet的特色表現(xiàn)為根據(jù)詞義關(guān)系而不是單純詞形標記組織詞匯信息。具體言之,首先基于詞義關(guān)系,把名詞、動詞和形容詞聚類為代表某一基本詞匯概念的同義詞集合,然后在這些同義詞集合之間建立語義關(guān)系。目前,WordNet已對95 600個不同的詞形(51 500個簡單詞和44 100個搭配詞)進行了分析,形成了70 100個詞義集合(或者說同義詞聚類)[2]。基于語義分類構(gòu)建聚類系統(tǒng)以及語義關(guān)系構(gòu)建關(guān)聯(lián)體系這一做法,成為國外語義知識詞典建構(gòu)的重要方法。FrameNet是以框架語義學理論為基礎(chǔ),以英語真實語料為依據(jù),涵蓋1 007個語義框架11 797個詞的在線語義詞典,目前已經(jīng)對近7 000個詞、9 000多個核心框架元素和30多個外圍元素進行了注釋和描寫。作為一個在線的詞典編纂工程, 在對語義框架、框架元素、句子語義標注體系處理方面富有特色,尤其是其研制思路和理念,對國內(nèi)語義知識庫構(gòu)建產(chǎn)生了很大影響[3]。MindNet 的特色表現(xiàn)為完全采用自動的方式來獲取語言知識,其理論基礎(chǔ)仍然是語義關(guān)系,庫中共定義了24種不同的語義關(guān)系標記,分析了近16萬個詞。在技術(shù)層面,仍然是基于規(guī)則的方法,采用廣域句法分析器(Broadcoverage Parser)獲取語義信息,其根本目的是建立一個范圍廣泛的自然語言理解系統(tǒng)[4]。
國內(nèi)語義詞典編纂歷史悠久,秦漢時期的《爾雅》是世界上最早的義類詞典。20世紀80年代之后,以《同義詞詞林》為先導(dǎo),國內(nèi)出現(xiàn)了多種不同的語義知識詞典?!锻x詞詞林》作為國內(nèi)最具影響力的語義詞典之一,通過對50 000多詞語約67 000義項進行整理分析,分為三個層級,其中大類12個,中類94個,小類1 428個。并在小類下列出所對應(yīng)的詞語(或義位)[5]?!锻x詞詞林》所建構(gòu)的語義分類體系被國內(nèi)語義詞典編撰者參考或模仿。
董振東等人開發(fā)的知網(wǎng),其實質(zhì)是基于英漢詞語所代表概念的描寫,揭示概念之間的相互聯(lián)系的在線語義知識庫。根據(jù)詞語的語義特征,在概念分類和關(guān)系描寫的基礎(chǔ)上,使語義信息形成了相互關(guān)聯(lián)的知識網(wǎng)絡(luò)系統(tǒng)。概念系統(tǒng)涵蓋萬物、時間、空間、屬性、屬性值、事件、部件七大類。但在語義分類上仍然兼顧了對應(yīng)的詞性信息,大致對應(yīng)情況是: 實體、屬性、單位對應(yīng)名詞;事件對應(yīng)動詞和部分形容詞;屬性值對應(yīng)形容詞和副詞。分別稱為N范疇、V范疇、A范疇。通過概念、屬性等縱橫交錯關(guān)系最終形成一個網(wǎng)狀知識系統(tǒng)[6]?!冬F(xiàn)代漢語語義詞典》(SKCC)在大類的劃分上采用詞性標準,小類上采用了語義標準,共收實詞66 539條,并以數(shù)據(jù)庫的形式進行呈現(xiàn),包括12個數(shù)據(jù)庫: 1個總庫,11個子庫,分別是: 名詞、時間詞、處所詞、方位詞、代詞、動詞、形容詞、區(qū)別詞、狀態(tài)詞、副詞、數(shù)詞;但是詞典中沒有設(shè)立虛詞庫。總庫中包括詞語、拼音、同形、義項、語義類、詞類、子類、兼類八個字段。每類詞的特有屬性填在各類詞庫中,如名詞庫設(shè)15個屬性字段,動詞庫設(shè)16個屬性字段。每個庫文件都詳細刻畫了詞語及其語義屬性的二維關(guān)系,最終目的是為計算機語義自動分析、詞義消歧等提供支持[7]。該詞典中的語義分類主要參考了WordNet的分類體系,在大類劃分上仍然基于詞性角度。另外,劉開瑛等人以框架語義學理論為基礎(chǔ),以FrameNet為參照, 構(gòu)建了漢語框架語義知識庫(CFN)。CFN 數(shù)據(jù)庫由框架庫、句子庫和詞元庫三部分組成。目前已構(gòu)建了130 個框架,涉及動詞詞元1 428個、形容詞詞元140個、事件名詞(即有配價的名詞)詞元192 個,句子8 200多條[8]。其特色表現(xiàn)為結(jié)合漢語特點,把詞元庫和句子庫結(jié)合起來,并不是對FrameNet的簡單漢化。
綜上所述,目前語義詞典尤其是國內(nèi)語義詞典編撰存在的問題,主要表現(xiàn)為四個方面: ①多數(shù)仍停留在詞語的語義分類層面,且分類依據(jù)一般是哲學或邏輯,通常以詞性標準為綱、詞義分類為輔,并不是完全意義上的語義分類。②在語義分類后僅列出符合某一義類的詞語,缺乏對內(nèi)部成員的分析描寫,尤其缺乏對不同義類成員的語義關(guān)系和語義差異的深度刻畫。③有些詞典雖然增設(shè)了詞匯語義關(guān)系的分析說明,但尚未對所收錄詞語的語義進行多維度刻畫,尤其是缺乏句法語義信息的深度描寫。④大都著眼于傳統(tǒng)的詞匯語義視角,尚未對批量詞匯進行詞匯語義和句法語義的一體化描寫,也未揭示其內(nèi)在關(guān)聯(lián)性。本文基于受限原則,先以少量詞匯為典型樣本,構(gòu)建語義詞典,解決上述存在的問題。
《現(xiàn)代漢語動詞語義知識詞典》(簡稱“詞典”)實質(zhì)上是一個在線語義知識庫,與常規(guī)詞典的不同之處主要表現(xiàn)為: 通過對批量動詞的詞匯語義和句法語義的標注,揭示了兩者的內(nèi)在關(guān)聯(lián),從而實現(xiàn)了對詞匯語義和句法語義一體化的分析和描寫,為語義形式化研究和語言信息處理提供語言資源。動詞語義詞典研制的首要任務(wù)就是要選取具有代表性的常用動詞作為典型分析對象,在此基礎(chǔ)上進行相關(guān)信息的標注和描寫。
結(jié)合本詞典的相關(guān)特點,確定了以下收詞原則[9]。
第一,典型原則。典型原則指詞典所收錄詞匯應(yīng)該具有代表性和權(quán)威性,使用頻度和熟知度高,是目前大部分動詞類辭書收錄詞匯的交集部分。基于《現(xiàn)代漢語詞典》(商務(wù)印書館第7版,2016)、《現(xiàn)代漢語頻率詞典》(北語語言教研所,1986)、《現(xiàn)代漢語動詞大詞典》(林杏光等,1994)、《現(xiàn)代漢語動詞分類詞典》(郭大方,1994)等篩選出交集部分的動詞。
第二,廣布原則。廣布原則指詞典所收錄詞匯應(yīng)該分布范圍廣,通行于各個領(lǐng)域,不應(yīng)該僅適用于某一特定領(lǐng)域或特定人群。這與典型原則有一定相似之處,但又有差異。典型原則強調(diào)使用率,即使用頻度高;廣布原則側(cè)重分布率,即使用領(lǐng)域廣。針對某些詞表在語域方面的局限性,選詞時會多方面兼顧,把多個語域中廣泛使用的詞語吸收進來,提高覆蓋率。
第三,單義原則。單義原則指詞語選擇和詞義描寫時,以詞元為單位。詞元是按照一形一音一義對應(yīng)原則對詞語進行分化的結(jié)果,一個詞元在語義上僅對應(yīng)一個能夠獨立使用的義項。故包含多個獨立運用的義項的詞語,可以分化為多個詞元,分別用A1、A2、A3……表示。之所以使用詞元對詞語進行分化,一方面,同一詞形對應(yīng)的多個詞元,其使用率和分布率并不相同,以詞元為單位可以使詞義描寫更加精細化;另一方面,同一詞語分化形成的多個詞元,在語義搭配、語義句模、“句法—語義”接口等方面的表現(xiàn)也大相徑庭。
基于以上原則,進行篩選并確定詞典的收錄對象。到目前為止,共選取6 000個詞元作為詞典分析對象。
具體研制思路如圖1所示。
圖1 語義詞典研制路線圖
為了滿足語義形式化和中文信息處理的需要,對所涉及范疇標注時盡量采用字母標記形式。與以往的動詞語義詞典相比,本《詞典》設(shè)置的屬性信息更為豐富,不僅涉及詞匯語義層面的常規(guī)信息,還涉及句法語義層面的信息,以及詞匯語義與句法語義的內(nèi)在關(guān)聯(lián)信息。具體如下:
(1) 常規(guī)信息,指詞典中所收錄詞元的拼音、聲調(diào)等信息。其中四聲分別用 “1,2,3,4”表示,例如,“吃”是“chi1”。如果是輕聲,則用“5”表示。
(2) 詞類信息,指詞元對應(yīng)的詞性信息。按照北京大學計算語言所的語法詞典的詞類標準和標記符號進行描寫。因為本文構(gòu)建的是動詞語義知識詞典,分析對象中的詞類僅涉及動詞一類,即動詞(V)。
(3) 釋義信息,指某詞元在《現(xiàn)代漢語詞典》中對應(yīng)釋義。雖然屬性信息中包含了義類信息字段,但是二者并不完全一樣。其內(nèi)在關(guān)聯(lián)主要表現(xiàn)為需要依據(jù)釋義信息來確定詞匯義類。
(4) 義類信息,指某詞元所屬的語義類,如動物、植物、人類等。與詞元對應(yīng)的釋義信息不同,義類信息著眼于詞元所屬的上位語義范疇。由于本文所開發(fā)的動詞語義詞典,其目的之一是對詞匯語義和句法語義進行一體化描寫,涉及語義框架的描寫,所以在句子標注中不能僅僅考察動詞義類。實際標注中涉及名詞、形容詞等非動詞的義類信息。該義類標記集包括10大類32小類,其中動詞(陳述類)的義類信息共涉及7類。括號內(nèi)為其語義類型和標記符號。如表1所示。
表1 詞語義類信息表
大規(guī)模的義類標注是規(guī)模浩大的語言工程。受時間、精力等多方面條件的制約,目前義類標注還停留在二級層面,共標注了32個小類。三級小類標注是下一步研究的重要任務(wù)。
(5) 義場層級信息,指從詞匯語義層級的角度,從高層到低層分別列出某詞元的上下位的語義關(guān)系圖。義類分析和義場建構(gòu)是互動的過程,基于所收錄6 000個詞元構(gòu)建了251個義場。
(6) 語義范疇信息,指句子中語塊所對應(yīng)的語義信息,包括核心范疇、角色范疇、情態(tài)范疇、超句范疇,目前超句范疇暫不標注。
具體標注時,以語塊為單位,標到語義體系的第二層級。為了便于統(tǒng)計和減少角色符號的重碼率,標注中所涉及范疇也都采用了對應(yīng)漢字拼音的首字母來表示。在同一大類中,如果首字母重合,會采用音節(jié)的第二個字母表示,如果依然重合,再采用第三個字母。語義范疇信息包括動核八類19種,基本角色九類32種,附加角色六類26種,共計77種。
動核包含的類型及標記符號如表2所示。
表2 動核類型信息表
基本角色范疇包含的類型及標記符號,如表3所示。
表3 基本角色類型信息表
注: ①表3中,因為施事和受事首字母重合,為了區(qū)分,施事使用了JS,受事使用了JSS。②表3和表4中,成事與處所、遭事與致事、所加與時間、受事與所使、共事與感事、變事與比事、當事與斷事、涉者與所遭,首字母相同。其中處所、遭事、時間、受事、共事、變事、當事、涉者仍然采用音節(jié)首字母表示,而成事、致事、所加、所使、感事、比事、斷事、所遭分別采用前音節(jié)首字母加后音節(jié)第二字母來表示,其中“J”表示角色。
附加角色范疇包含的類型及標記符號如表4所示。
情態(tài)范疇包括時體(TST)和評估(PPG)兩類。時體表示事件中動作行為的開始、進行、持續(xù)或完成等。評估表示對事件中所發(fā)生的動作行為推測、估計、評價、強調(diào)等。目前暫時標注到時體、評估大類層面。
(7) 句法范疇信息,指動核及關(guān)聯(lián)成分對應(yīng)的句法成分信息。雖然所要建構(gòu)的是語義詞典,但是語義范疇信息的標注以語塊為單位。同時句法范疇與語義范疇信息是密切關(guān)聯(lián)的,開發(fā)本語義詞典重要目的之一是為“句法—語義”接口的研究提供平臺和語言資源,故在信息庫中仍然保留了句法信息。包括主語、謂語、賓語、狀語、補語。定語通常和后面的中心語作為一個語塊承擔某種句法成分或語義角色,所以不分開標注。
表4 附加角色類型信息表
注: 因為歸者采用兩個音節(jié)首字母與感者重復(fù),采用第二字母又會與感事重合,所以采用前音節(jié)首字母和后音節(jié)第三個字母的組合形式。
(8) 句模信息,即句子對應(yīng)的語義結(jié)構(gòu)信息。根據(jù)語義知識庫中所標注的句法、語義范疇信息抽取某動詞詞元形成的句子語義模型,也是動詞語義詞典語義信息描寫的重要組成部分。如JS+HXD+JSS,指施事+協(xié)動核+受事。
(9) 義類與語義范疇對應(yīng)關(guān)系信息,指某詞元所屬義類與語義范疇的內(nèi)在關(guān)聯(lián)?;谡Z義知識庫提取動詞詞元關(guān)涉語義范疇所對應(yīng)的詞元信息,考察其義類,建立詞元義類與語義范疇的對應(yīng)關(guān)系模型。
《詞典》采用關(guān)系數(shù)據(jù)庫技術(shù),在Access下實現(xiàn)。文件中信息都盡量地用漢字表示。根據(jù)研究需要共設(shè)置了三個庫。其中總庫一個,另外兩個分別是: 詞匯義類信息庫、句法和語義范疇信息庫。這三個庫通過“詞匯、拼音”字段鏈接。其中總庫中包含了其他兩個庫的義類、語義范疇和句法成分標注信息。該詞典具有開放性,計劃先收錄10 000個詞元,目前已經(jīng)收錄并分析6 000個。
4.2.1 總庫的文件及屬性描述
總庫的具體屬性字段、字段寬度、屬性值,以口部動作詞“吃”為例,具體描述如表5所示。
4.2.2 詞匯義類信息庫文件結(jié)構(gòu)及屬性描述
該庫包含四個部分: 詞類信息、釋義信息、義類信息、義場層級信息。詞類信息和釋義信息如總庫中結(jié)構(gòu)信息表5中所述,不贅。義類信息相對簡單,即某詞元對應(yīng)的《語義詞類標記集》中的所屬類型。義場層級信息比較復(fù)雜,對詞典中所收錄詞元,庫文件中會分層級列出所屬的義場信息。同一義類動詞的義場層級信息相似度高。如“動作”大類中的手部動作義場的四個詞元“打2(毆打)、拿、指、托”對應(yīng)的義場層級信息,如圖2所示。
表5 總庫文件結(jié)構(gòu)信息表
第一層第二層第三層第四層第五層
打2動作——人類——上肢——手部——整手
拿 動作——人類——上肢——手部——手指
指 動作——人類——上肢——手部——手指
托 動作——人類——上肢——手部——手掌
圖2 義場層級圖示例
4.2.3 句法和語義范疇信息庫的文件結(jié)構(gòu)及屬性描述
該庫包含所收錄的動詞詞元以及帶有句法成分和語義范疇信息的句子實例。其中,句法成分包括S/V/O/D/P。語義范疇信息相對比較復(fù)雜,包括動核、角色和情態(tài),具體信息如詞典屬性信息部分所述。
在此選取了現(xiàn)代漢語非常復(fù)雜的手部動作詞“打”為例。“打”作為典型的動作動詞,其義項多達24個,其中最高頻義項是“打2”(毆打)。該詞元對應(yīng)了43種句模,43種句法語義對應(yīng)關(guān)系模式。其中原型句模是JS+HXD+JSS;原型句法結(jié)構(gòu)是S+V+O。在句法和語義范疇信息庫中提取的相關(guān)例句,具體如下:
1. {V打/xd}【HXD】{O他/cd} [JSS]啊/yq!
2. {D三/sl} [JJL] {V打/xd}【HXD】{O白骨精/mc} [JSS]。
3. {D棒/mc} [JGJ] {V打/xd}【HXD】{O鴛鴦/mc} [JSS]。
4. {D莫/pg}(PPG){V打/xd}【HXD】{O笑臉/mc 人/mc} [JSS]!
5. {D按/jy軍規(guī)/mc} [JYJ] {D要/pg}(PPG){V打/xd}【HXD】{O他/cd} [JSS] {O軍棍/mc} [JJL]。
6. {D一/sl棒/mc[JGJ]{V打/xd}【HXD】{P死/zz}[JJG]了/st{O妖精/mc}[JSS]!
7. {D由于/jy不/pg小心/zt}[JYY]{V打/xd}【HXD】{P破/xz}[JJG]了/st(TST){O水銀/mc溫度計/mc}[JSS]。
8. {V打/xd}【HXD】{P死/zz}[JJG]{O侵略軍/mc 400/sl多/sl人/mc}[JSS]。
9. {S他/cd}[JS] {D把/jy小三/mc}[JSS]{V打/xd}【HXD】了(TST)!
10. {S他/cd} [JS] {D把/jy人/mc}[JSS] {V給/jy打/xd}【HXD】{P死/zz}[JJG]{O一/sl個/jw}[JJL]?
11. {S兇殘/xz的/zg敵人/mc}[JS] {D把/jy這個/zb青年/mc}[JSS]{V打/xd}【HXD】{P暈/zt}[JJG]了/st(TST)!
12. {S敵人/mc} [JS] {D把/jy他/mc} [JSS] {P往/jy死/zz里/kj} [JCD]{V打/xd}【HXD】。
13. {S你/cd} [JS]{V打/xd}【HXD】{O我/cd} [JSS]啊/yq!
14. {S林沖/mc} [JS] {D棒/mc} [JGJ]{V打/xd}【HXD】{O洪教頭/mc} [JSS]。
15. {S外婆/mc} [JS] {D只/pg} [JFV]{V打/xd}【HXD】{O 淘氣/xz的/zg哥哥/mc} [JSS]!
16. {S你/cd}[JS] {D憑/jy什么/zb}[JYY]{V打/xd}【HXD】{O他/cd}[JSS]!
17. {S他/cd}[JS] {D為了/jy老婆/mc}[JMD]{V打/xd}【HXD】了(TST){O警察/mc}[JSS]。
18. {S那個/zb城管/mc}[JS] {D正在/sj}(TST){V打/xd}【HXD】{O人/mc}[JSS]呢/yq?
19. {S我/cd}[JS] {D一/sl拳/jw}[JGJ]{V打/xd}【HXD】{P爛/zt}[JJG] {你/cd的/zg狗頭/mc}[JSS]。
20. {S列車長/mc} [JS] {D狠狠/xz地/zg} [JFS]{V打/xd}【HXD】了/st(TST){O他/cd} [JSS] {O一/sl巴掌/mc} [JGJ]!
21. {S我/cd} [JS]{V打/xd}【HXD】{P斷/zt} [JJG] {O你/cd的/zg狗/mc腿/mc} [JSS]!
22. {S他們/cd} [JS] {D不敢/pg}(PPG){V打/xd}【HXD】{O你/cd}[JSS]!
23. {S武松/mc}[JS] {D酒/mc醉/zt后/sj}[JSJ] {D在/jy景陽岡/kj}[JCS] {D赤手空拳/fs}[JFS]{V打/xd}【HXD】{P死/zz}[JJG] {O老虎/mc}[JSS]。
24. {S泰森/mc}[JS] {D狠狠/xz地/zg}[JFS]{V打/xd}【HXD】{O他/cd}[JSS] {P一/sl拳/jw}[JGJ]。
25. {S你/cd家/mc孩子/mc}[JSS] {V被/jy打/xd}【HXD】了/st(TST)?
26. {S小販/mc}[JSS] {V被/jy打/xd}【HXD】{P死/zz}[JJG] {P在/jy臺階/mc前/kj}[JCS]。
27. {D立即/sj}(TST){D把/jy那/zb只/jw瘋狗/mc}[JSS]{V打/xd}【HXD】{死/zz}[JJG]!
28. {S他/cd的/zg右臉/mc}[JSS] {V被/jy打/xd}【HXD】{P腫/zt}[JJG]了/st(TST)!
29. {S媽媽/mc你/cd}[JS]{V打/xd}【HXD】啊/yq!
30. {S他/cd}[JS] {D很/qz重/xz地/zg}[JFS]{V打/xd}【HXD】{P下來/qx}[JQX]!
31. {S他/cd}[JS] {D一/sl棍子/mc}[JGJ] {D狠狠/xz地/zg}[JFS]{V打/xd}【HXD】{P過去/qx}[JQX]!
32. {S我/cd}[JS] {D沒/pg}(PPG){V打/xd}【HXD】啊/yq!
33. {D敢/pg}(PPG){V打/xd}【HXD】{P一/sl下/jw}[JJL]嗎/yq?
34. {D怎么/}(PPG){D朝/jy孩子/mc腦瓜/mc上/kj}[JCS]{V打/xd}【HXD】呢/yq?
35. {V打/xd}【HXD】{O哪兒/kj}[JCS]呢/yq?
36. {V打/xd}【HXD】{P得/zg哭/zd爹/mc喊/xd娘/mc}[JJG]!
37. {D一/sl記/yw重重/zt的/zg老/xz拳/mc}[JGJ]{V打/xd }【HXD】{P得/zg眼冒金星/zt}[JJG]。
38. {D給/jy我/cd}[JTZ]{V打/xd}【HXD】!
39. {D一/sl電棍/mc}[JGJ]{V打/xd}【HXD】{P在/jy他/cd腰/mc上/kj}[JCS]。
40. {D無緣無故/pg}(PPG){V被/jy打/xd}【HXD】了/st(TST){P一/sl個/jw多/sl小時/sj}[JSJ]!
41. {S老虎/mc}[JSS] {D被/jy武松/mc}[JS]{V打/xd}【HXD】{P死/zz}[JJG]了/st(TST)。
42. {S他/cd}[JSS] {D被/jy一/sl個/jw花白/xz胡子/mc的/zg人/mc}[JS]{D用/jy馬鞭/mc}[JGJ]{V打/xd}【HXD】{P暈/zt}[JJG]了/st(TST)。
43. {S嘎子/mc} [JS] {D趁/jy他/cd不/pg注意/sg} [JTJ]{V打/xd}【HXD】{O他/cd} [JSS] {P一/sl頓/jw} [JJL]。
動詞詞元在組合層面形成的句法結(jié)構(gòu)和語義句模信息,都是基于該庫中的句子實例的標注信息提取的。由于再大的語料庫也無法涵蓋所有的語言事實,隨著語料庫的擴大,手部動詞“打2”對應(yīng)的模式類型和數(shù)量可能會有所增加,但都是基于原型模式通過添加附加角色或情態(tài)范疇遞歸形成的。該庫為動詞詞元涉及的句法成分、語義范疇、句模形式的描寫提供了語言資源。
總庫的具體詞元樣例,因篇幅所限,僅能部分列舉分析,仍然以手部動作詞“打”進行說明?!按颉钡?4個義項中,有些已經(jīng)抽象化,屬于手部動作的轉(zhuǎn)義。在此僅分析與手部動作直接相關(guān)的七個具體義項,如表6所示。
表6 總庫文件樣例信息表
續(xù)表
與以往的語義詞典相比,本詞典的主要特點是對詞匯語義和句法語義信息進行一體化描寫,不僅標注了動詞詞元的義類信息,同時給出了在組合層面關(guān)涉的句法語義范疇以及形成的語義組合模式,為詞匯與句法語義關(guān)系的描寫,尤其是“句法—語義”接口研究提供了平臺和語言資源。
首先,《詞典》所標注詞匯語義和句法語義信息,可以應(yīng)用于詞匯語義計算。詞匯語義計算包括相關(guān)度計算和相似度計算兩種類型。相似度著眼于詞匯相互替換但不改變句法語義結(jié)構(gòu)。相關(guān)度雖然涵蓋了相似度的概念,但二者并不完全一致。目前學界對相關(guān)度的研究較少。基于《詞典》中標注的義類知識和義場層級信息,可以計算同一義場詞元的語義相似度,也可以計算不同義場詞元的語義相關(guān)度。詞匯語義計算的相關(guān)數(shù)據(jù)可以服務(wù)于信息檢索、詞義消歧、文本分類以及文本聚類等方面。
其次,《詞典》中標注的句法成分、語義角色以及句模等信息,可以服務(wù)于語義關(guān)系的自動獲取。目前獲取方法主要有基于統(tǒng)計的機器學習方法或基于語言組合特征的關(guān)系獲取算法等[10]。自然語言處理領(lǐng)域的語義關(guān)系有不帶標記和帶標記兩種類型。前者通?;谕F(xiàn)統(tǒng)計的方法獲得, 只能表明詞語之間存在關(guān)系,卻不能體現(xiàn)是何種關(guān)系;后者能體現(xiàn)出詞語存在關(guān)系以及何種關(guān)系。本《詞典》 標注的豐富的句法語義信息,尤其是組合中的語義范疇和語義關(guān)系類型,可以服務(wù)于語義關(guān)系的自動獲取,從而呈現(xiàn)出帶有標記的語義關(guān)系。
再次,《詞典》為“詞匯—句法語義”的接口(或鏈接/銜接)研究提供支持平臺。漢語中大部分句子都是以動詞為中心的,基于語料庫構(gòu)建的動詞語義知識詞典,對詞匯語義和句法語義進行了一體化描寫,為探討“詞匯—句法語義”的接口提供了基礎(chǔ)。具體思路是基于動詞語義詞典中所標注的詞匯語義和句法語義信息,考察詞匯單位實現(xiàn)為語義范疇,尤其是語義角色的機制、語義角色的排序機制、語義角色句法實現(xiàn)機制以及語用制約機制。因為某一義類的詞元類聚為同一義場,同一義場詞元往往具有相同的句法表現(xiàn)。具體考察時以義場為單位,基于《詞典》中的標注信息和統(tǒng)計數(shù)據(jù),考察并得出義類與角色范疇的對應(yīng)關(guān)系、角色范疇與句法成分的對應(yīng)關(guān)系,以及角色范疇句法實現(xiàn)時與語用的制約關(guān)系。
最后,基于《詞典》,開發(fā)了句法語義范疇標注工具。不僅可以對語料文本進行句法語義范疇的標注,還可以提取動詞關(guān)涉的語義角色頻度信息,以及所形成的語義結(jié)構(gòu)信息。如基于《詞典》提取的關(guān)于動詞“打2”(毆打)的部分語義結(jié)構(gòu)信息,具體如圖3所示。
圖3 “打2”的語義結(jié)構(gòu)模式圖
此外,《詞典》還可以應(yīng)用于: ①某一詞元的義類義場的提取和統(tǒng)計研究;②同一義場詞元形成語義框架的對比研究等,不再贅述。
綜上,本文在對國內(nèi)外語義詞典評述的基礎(chǔ)上,吸收動詞研究的已有相關(guān)成果,提出了動詞語義詞典開發(fā)的相關(guān)原則和研制思路,界定并描寫了詞典所涉及的相關(guān)屬性信息,并對詞典的總體文件結(jié)構(gòu)及其庫的信息進行了描寫和說明,并進一步指出了本詞典的主要用途和應(yīng)用前景。創(chuàng)新之處主要表現(xiàn)為: ①詞典中所確定的相關(guān)屬性信息及描寫方法為之后的動詞語義詞典開發(fā)提供了樣例和參考模板; ②對批量動詞詞元進行詞匯語義和句法語義的一體化描寫,為語義形式化和句法語義關(guān)系的獲取提供了基礎(chǔ); ③對常用動詞詞元從釋義、義類、語義層級、語義關(guān)系到語義差異進行多層次深度刻畫,為動詞的語義分析和處理提供豐富的語義資源;④基于語義詞典開發(fā)了相關(guān)的標注工具和軟件,為大規(guī)模語料的句法語義標注提供了便利。
受字數(shù)等諸多因素的限制,文中僅對詞典的整體框架進行展示,對于某些屬性信息及關(guān)系缺乏更充分的描寫和介紹。同時,動詞語義知識詞典的開發(fā),需要根據(jù)研制目的,制定相應(yīng)的標注規(guī)范和標注規(guī)模,其具體標注過程耗時費力,目前所開發(fā)的規(guī)模還比較小,希望在進一步的研究中擴大規(guī)模,完善標注信息,以期能夠更好地服務(wù)于語義形式化和語言信息處理研究。