汪夢(mèng)翔,王厚峰,劉 楊,饒 琪
(1. 北京大學(xué) 計(jì)算語言學(xué)研究所,北京 100871;2. 北京聯(lián)合大學(xué) 師范學(xué)院,北京 100011;3. 華中師范大學(xué) 文學(xué)院,湖北 武漢 430079)
我們先看兩個(gè)句子:
(1) 我在買菜
(2) 我在趕論文
一般情況下,目前計(jì)算機(jī)要理解和處理這兩個(gè)句子,必須理清其中謂詞和其所支配成分間的語義關(guān)系,而要準(zhǔn)確地反映這些語義關(guān)系,傳統(tǒng)做法是在確定核心動(dòng)詞的前提下,通過對(duì)其所支配的成分進(jìn)行相關(guān)的標(biāo)注,來反映動(dòng)詞和論元的關(guān)系。到底如何才能準(zhǔn)確標(biāo)注,這就需要建立一個(gè)以動(dòng)詞為核心的相應(yīng)的語義資源,陳列各種語義關(guān)系,來為計(jì)算機(jī)提供選擇的余地。傳統(tǒng)的動(dòng)詞語義資源都是以動(dòng)詞為核心,著眼于動(dòng)詞和其所支配成分間關(guān)系的刻畫。但是一旦這種核心動(dòng)詞缺省或者隱含,這種情況就無法通過計(jì)算機(jī)準(zhǔn)確地表達(dá)出來。例如(1)句中的核心動(dòng)詞是“買”,在相應(yīng)的語義資源中“買”的支配對(duì)象可以用“受事”表示,句中的“菜”直接標(biāo)為“受事”就能夠正確反映這種支配和被支配關(guān)系。但是(2)句中動(dòng)詞“趕”和“論文”沒有直接語義關(guān)聯(lián),其內(nèi)含語義關(guān)系應(yīng)該是“趕”和“寫”,以及“寫”和“論文”,但這個(gè)動(dòng)詞“寫”隱含了,這種關(guān)系自然就不能顯現(xiàn)。
目前國內(nèi)大部分語義資源都不能反映和再現(xiàn)謂詞間隱含的語義關(guān)系,而國外的Pustejovsky等人所構(gòu)建的Brandeis Semantic Ontology(BSO)雖然能夠揭示諸如“begin the novel”這樣的謂詞隱含現(xiàn)象,但這一數(shù)據(jù)資源庫主要是面向英語,而且缺乏句式的描述,所以本文就是想在前人的基礎(chǔ)上,構(gòu)建一種動(dòng)詞語義資源: 它能夠集句法形式與語義分析于一體,不僅能夠反映漢語中常規(guī)的動(dòng)動(dòng)以及動(dòng)名關(guān)系,還能夠找出非常規(guī)的、帶有隱含的謂詞邏輯關(guān)系。
本資源庫綜合了《動(dòng)詞大詞典》、《現(xiàn)代漢語動(dòng)詞大詞典》、《動(dòng)詞用法詞典》的數(shù)據(jù),包括拼音、釋義、義項(xiàng)、語義角色、例句等,另外又額外補(bǔ)充了自己收集的近200個(gè)常用動(dòng)詞,一共2 506個(gè)動(dòng)詞,3 299個(gè)詞項(xiàng)。在語義角色和句法格式的描述中,主要參考了《動(dòng)詞大詞典》的例句,對(duì)于一些詞典中沒有收錄的詞,我們?cè)诿枋鰰r(shí),主要是通過2002~2012年電子版的《人民日?qǐng)?bào)》和CCL語料庫中的例句資源,還有Chinese Giga Word的Xinhua News,此外還有部分?jǐn)?shù)據(jù)來源于作者的語感,為自造例句。
為凸顯動(dòng)詞內(nèi)部關(guān)聯(lián),多角度地描寫動(dòng)詞間、動(dòng)名間的常規(guī)或非常規(guī)關(guān)系,本文采用樹形的動(dòng)詞語義表示框架,外部將借鑒VerbNet語義層次構(gòu)建平臺(tái),聚合帶有相同語義或句法功能的動(dòng)詞集,并以此作為父節(jié)點(diǎn),內(nèi)部將通過事件結(jié)構(gòu)、物性結(jié)構(gòu)、論元角色、句法構(gòu)式的描寫來反映集合內(nèi)部成員的各方面特征,具體框架如圖所示。
圖1 CVL構(gòu)建框架
我們把動(dòng)詞劃分為四個(gè)層級(jí)。
第一層,我們主要依據(jù)動(dòng)詞的句法語義屬性,把動(dòng)詞分為: 行為動(dòng)詞、心理動(dòng)詞、交際動(dòng)詞、關(guān)系動(dòng)詞四類。
第二層,我們?cè)谝罁?jù)語義聚合關(guān)系的同時(shí)還根據(jù)一些動(dòng)詞的句法特征的有無,分為創(chuàng)造、活動(dòng)、動(dòng)作、認(rèn)知、言語交際等20類。這20類和第一個(gè)層次的繼承關(guān)系如下表所示。
表1 中級(jí)詞集層次關(guān)系表
在這20個(gè)類別中,有9種是屬于行為動(dòng)詞。
第三層,除了關(guān)系動(dòng)詞外,我們主要根據(jù)語義的近似度,對(duì)上一層詞集進(jìn)行分類,將上一層的20類擴(kuò)展為646個(gè)小類。其中行為動(dòng)詞最多,聚合了493類,其次是交際動(dòng)詞,聚合了108類,再次是心理動(dòng)詞,聚合了38類,關(guān)系動(dòng)詞最少是7類。
第四層,詞的層次,含有2 506個(gè)詞,3 299個(gè)詞項(xiàng)。
在對(duì)動(dòng)詞特征的發(fā)掘和規(guī)約上,我們采用了自頂向下和自底向上兩種模式。比如對(duì)于交際動(dòng)詞,其語義角色的基本框架一般為“施事+對(duì)象”,那么如果自頂向下發(fā)掘的話,下屬成員詞集的語義角色基本框架都會(huì)有“施事+對(duì)象”,比如“學(xué)習(xí)類”和“幫助類”基本框架都含有“施事+對(duì)象”,這樣它們就可以很容易和其他類動(dòng)詞進(jìn)行區(qū)別,但是內(nèi)部成員的差異性不容易凸顯。如果是自底向上的描述,比如“學(xué)習(xí)”和“幫助”這兩個(gè)詞,在最低級(jí)別的語義角色描述時(shí),其語義角色基本框架分別為“施事+對(duì)象(受事)”和“施事+對(duì)象”,以這兩個(gè)特征我們可以聚合一些詞語,形成“學(xué)習(xí)類”和“幫助類”,“學(xué)習(xí)類”的詞都是“施事+對(duì)象(受事)”,“幫助類”的詞則都是“施事+對(duì)象”,如果再往上一層級(jí)聚合,那么其能作為基本特征保留的只有“施事+對(duì)象”,這一特征也是交際動(dòng)詞的基本框架。這樣做雖然可以很好地凸顯成員的差異化,但最底層詞語的特征不易規(guī)約一致,且越往上丟失信息越多,且工程量也較大。
我們的做法是,先通過自頂向下規(guī)約基本特征,然后通過自底向上的描述補(bǔ)充差異性特征。具體思路下圖所示。
圖2 動(dòng)詞特征表示思路
這樣一方面保持了底層成員規(guī)約特征的一致性,凸顯了成員間的共性特征,使得其和集合外成員進(jìn)行有效區(qū)別,另一方面也考慮到一些集合內(nèi)部非典型性成員的個(gè)性化特征,并且讓這些個(gè)性化特征處于某一基本特征的管轄。
在動(dòng)詞事件特征知識(shí)庫中,我們主要涉及動(dòng)詞的事件結(jié)構(gòu)和是否為事件動(dòng)詞兩個(gè)特征。
這里的事件結(jié)構(gòu)(Event Structure)特征主要涉及事件內(nèi)部經(jīng)常會(huì)有事件的起始、持續(xù)、終結(jié)等以時(shí)間為衡量的特征。
我們知道動(dòng)詞內(nèi)部是含有時(shí)間結(jié)構(gòu)的,比如“開會(huì)”和“打”,一個(gè)是持續(xù)性動(dòng)作,一個(gè)是瞬間動(dòng)作,它們所隱含的時(shí)間特征有差別,所以這兩個(gè)動(dòng)詞從時(shí)間的維度上或者是體結(jié)構(gòu)(Tense)維度上劃分為兩個(gè)不同的類別。同樣,事件內(nèi)部也有時(shí)間結(jié)構(gòu),而且事件結(jié)構(gòu)主要就是指事件的起始、度量和界化(delimitation)等時(shí)間結(jié)構(gòu)特性。因?yàn)槭录饕縿?dòng)詞表現(xiàn),所以事件結(jié)構(gòu)和動(dòng)詞的體結(jié)構(gòu)關(guān)系緊密。
關(guān)于動(dòng)詞事件結(jié)構(gòu)的劃分,因?yàn)閯澐值慕嵌炔灰粯?,目的不一樣,自然劃分的結(jié)果也不一樣。我們結(jié)合前人的思想,決定依據(jù)動(dòng)詞的內(nèi)部時(shí)間情態(tài)來和動(dòng)詞的界性特征* 界性特征指的就是有界和無界的特征。有的動(dòng)詞界性特征強(qiáng),那么它的有界性就強(qiáng),界性特征弱就傾向于無界性。根據(jù)稅昌錫(2005)的研究,他依托動(dòng)詞的界性特征,把行為動(dòng)詞分為七種: 起始動(dòng)詞VP1(initiation verb)、持續(xù)動(dòng)詞VP2(duration verb)、活動(dòng)動(dòng)詞VP3(activity verb)、跨界動(dòng)詞VP4(transboundedness verb)、事件動(dòng)詞VP5(event verb)、達(dá)成動(dòng)詞VP6 (achievement verb)、完結(jié)動(dòng)詞VP7(Accomplishment verb)。界性特征(boundedness feature)從VP1到 VP7依次增強(qiáng)。來對(duì)動(dòng)詞所表達(dá)的事件結(jié)構(gòu)類型進(jìn)行劃分,本人認(rèn)為可分為3類: 狀態(tài)(state type)、過程(process type)和轉(zhuǎn)變(transition type):
狀態(tài): 這種事件結(jié)構(gòu)類型,一般是表示事情的起點(diǎn)或終點(diǎn),有時(shí)起點(diǎn)和終點(diǎn)合一。如果要細(xì)分的話,還可以分為3種,一種是起點(diǎn)狀態(tài),表示事件的起點(diǎn),如“開始”,一種是終點(diǎn)狀態(tài),表示事件進(jìn)行到終點(diǎn)的狀態(tài),如“結(jié)婚”,還有一種是瞬間狀態(tài),表示沒有明確的起始點(diǎn),也沒有明確的終點(diǎn),或者說起點(diǎn)終點(diǎn)重合,如“死”。一般這類事件結(jié)構(gòu)所對(duì)應(yīng)的動(dòng)詞只能出現(xiàn)一次(死、結(jié)束等)或者必須經(jīng)歷一段比較長的時(shí)間以后才可以再次出現(xiàn)(結(jié)婚、離婚等),一般可以帶“了”,也可不帶(如“發(fā)愁”),但是一般不能帶“著”。典型的是“死、喜歡、盼望、熱衷(于)、知道、主張、提倡、強(qiáng)調(diào)、放棄”等。
過程: 這種事件結(jié)構(gòu)類型,一般表示動(dòng)作由發(fā)生到結(jié)束的中間過程,一般不包括時(shí)間的起點(diǎn)和終點(diǎn)。表達(dá)這種事件結(jié)構(gòu)的動(dòng)詞,仍然是瞬間動(dòng)詞的另一個(gè)類別,而且是無界的,后面可以接結(jié)果性補(bǔ)語(如“摔破”),可以在短時(shí)間內(nèi)連續(xù)出現(xiàn),如果是雙音節(jié)形式都可以進(jìn)入“對(duì)NP2的V1”格式(如“對(duì)疾病的預(yù)防”),其有界性特征較前面兩類要強(qiáng),前面可以接“(正)在”,后面可以接“著”或“了”。例如“跑、殺、學(xué)習(xí)、防止、嘗試、預(yù)防”等。
轉(zhuǎn)變: 這類動(dòng)詞的時(shí)間特征具有兩面性,一方面可以處于進(jìn)行狀態(tài),具有“無界”的特征,因此可以前加“(正)在”,有時(shí)可以加“著”,如“正在建房子/房子正建著”。但另一方面,可以向終極時(shí)間點(diǎn)靠近,即將達(dá)成一種完結(jié)狀態(tài),一般不能跟“著”連用,如“建了一棟房子”。這類詞語主要為: 建、寫、制訂、安排等。
基本上,每一個(gè)事件結(jié)構(gòu)都有相應(yīng)特征的動(dòng)詞來與之對(duì)應(yīng),但是反過來對(duì)每一個(gè)動(dòng)詞來說就不一定了。因?yàn)檠芯空甙l(fā)現(xiàn),事件結(jié)構(gòu)除跟動(dòng)詞靜態(tài)的語義特征或時(shí)間特征有關(guān)外,在使用過程中,還會(huì)受到一些外在因素的影響,比如是否是動(dòng)補(bǔ)結(jié)構(gòu),是否有定,是否帶有時(shí)間助詞等等,因此我們可以說動(dòng)詞的事件結(jié)構(gòu)特征是組合性的。提取過程中,我們參考了《語法信息詞典》*即使《語法信息詞典》收錄了近2萬多個(gè)動(dòng)詞,但是實(shí)際只覆蓋了我們?cè)~庫中3192條詞項(xiàng),還有107條詞項(xiàng)的語法信息它沒有收錄。中關(guān)于動(dòng)詞的一些特征(主要通過是否能添加一些表示時(shí)效性的成分)的方式提取,如表2所示。
表2 動(dòng)詞事件結(jié)構(gòu)特征表
需要指出的是,漢語的形式表現(xiàn)和語義內(nèi)涵并不是完全對(duì)應(yīng)的關(guān)系,這種形式上的提取標(biāo)準(zhǔn)如同時(shí)滿足則比較嚴(yán)格,而《語法信息詞典》在描述這些信息時(shí)并不是完全正確,容易造成一定的數(shù)據(jù)稀疏。因此事實(shí)上,我們還要看動(dòng)詞的語義特征,包括[持續(xù)性]、[動(dòng)作性]、[完結(jié)性]等,來判斷動(dòng)詞所對(duì)應(yīng)的事件結(jié)構(gòu)。
另外需要注意的是,雖然每一種事件結(jié)構(gòu)都有相應(yīng)的動(dòng)詞與之對(duì)應(yīng),但是對(duì)于某一個(gè)動(dòng)詞來說,它所傳達(dá)的事件結(jié)構(gòu)并不一定是特定的某一種,也有可能可以傳達(dá)兩種事件結(jié)構(gòu)。比如“屠殺”從形式上判斷應(yīng)該是“過程類”動(dòng)詞,但是從語義上講,還包括“死”這個(gè)狀態(tài),所以它的事件結(jié)構(gòu)可以表達(dá)過程,也可以表達(dá)狀態(tài)。Pustejovesky在描述“kill”的事件結(jié)構(gòu)時(shí)就認(rèn)為kill可以傳達(dá)兩種事件結(jié)構(gòu)類型,一個(gè)是Process(過程),一個(gè)是State(狀態(tài))。
事件強(qiáng)迫是Pustejovsky生成詞庫理論的一種生成機(jī)制。Pustejovsky[1]認(rèn)為詞義單獨(dú)來看是相對(duì)穩(wěn)定的,但到了句子層面 ,一般會(huì)通過一些生成機(jī)制(分別是: 純粹類型選擇 (pure selection)、類型調(diào)節(jié) (type accommodation) 和類型強(qiáng)迫 (type coercion))獲得延伸意義。事件強(qiáng)迫就是類型強(qiáng)迫的一種。例如,begin要求其賓語是個(gè)事件論元,句法上通常表現(xiàn)為一個(gè) VP。但有時(shí)出現(xiàn)“begin the novel”這種非VP作賓語的情況,因此 begin 就會(huì)強(qiáng)迫這個(gè)NP 進(jìn)行類型轉(zhuǎn)換 (type shift),由一個(gè)物體名詞變成臨時(shí)的事件名詞,這就是事件強(qiáng)迫機(jī)制。
事件強(qiáng)迫其實(shí)就是一種語義壓縮形式,一些超常搭配往往是事件強(qiáng)迫的結(jié)果。比如“趕論文”就是“趕”和“寫論文”兩個(gè)事件的壓縮。
事件強(qiáng)迫要發(fā)生,一般要滿足幾個(gè)條件,首先語義上,一般帶有謂詞隱含,且隱含的謂詞多為虛義的輕動(dòng)詞,如“趕(做)論文”中“做”為隱含謂詞,而且意義比較虛,可理解為“寫”。其次是句法形式上,一般是出現(xiàn)在動(dòng)賓結(jié)構(gòu)中,比如“學(xué)鋼琴”、“喜歡餃子”。另外,對(duì)動(dòng)詞也有要求,動(dòng)詞一般必須能夠接VP作賓語,如“寫”這類動(dòng)詞不能接VP作賓語,那么就不可能存在事件強(qiáng)迫現(xiàn)象。之所以要提到事件強(qiáng)迫,那是因?yàn)橹挥惺录?dòng)詞才具有事件強(qiáng)迫的功能。
不過對(duì)于事件動(dòng)詞(eventive verb),學(xué)界的認(rèn)識(shí)還比較混亂。一種外延比較大,認(rèn)為事件動(dòng)詞是相對(duì)于性質(zhì)動(dòng)詞(property)或關(guān)系動(dòng)詞來說的,比如陳平[2];一種外延相對(duì)較小,指的是一般行為動(dòng)詞內(nèi)部一部分具有特殊時(shí)間性特征的動(dòng)詞,比如稅昌錫[3]就是把動(dòng)作時(shí)間開始轉(zhuǎn)向終止點(diǎn)的有界動(dòng)詞稱為事件動(dòng)詞,可以表示一個(gè)完整的事件,具有“完結(jié)”義。宋作艷[4]認(rèn)為事件動(dòng)詞應(yīng)該是不能獨(dú)立表示一個(gè)完整事件,但可以引發(fā)事件,因此是不具有“完結(jié)”義的動(dòng)詞。我們覺得前者應(yīng)該稱為“事件性動(dòng)詞”,后者才是真正意義的“事件動(dòng)詞”。
一般情況下,事件動(dòng)詞因?yàn)榭梢院蠼邮录?,因此具備引起事件?qiáng)迫的可能,但不是事件強(qiáng)迫發(fā)生的充分條件。比如“學(xué)英語”和“學(xué)鋼琴”。這里“學(xué)”是事件動(dòng)詞,但是一個(gè)有事件強(qiáng)迫,一個(gè)沒有。
對(duì)于事件動(dòng)詞的判定,我們不能根據(jù)是否有“完結(jié)”義來判定,因?yàn)樗巫髌G[4]就將動(dòng)詞“完成”視為事件動(dòng)詞,只不過宋作艷認(rèn)為“完成”是表示“達(dá)成”(achievement)。其實(shí)事件動(dòng)詞區(qū)別于其他動(dòng)詞的最典型特征是可以后接由VP構(gòu)成的事件,并且具有事件強(qiáng)迫功能。因此本文認(rèn)為: 如果一個(gè)動(dòng)詞不能單獨(dú)描述一個(gè)事件,必須借助其他動(dòng)詞或者依靠隱含動(dòng)詞的幫助才能描述一個(gè)完整事件,那么這樣的動(dòng)詞就稱為事件動(dòng)詞。這里要指出的是,謂詞的隱含不一定直接放在動(dòng)詞之后,如“避免交通事故”我們可以說,“避免交通事故的(發(fā)生)”。
因此形式上,只要滿足以下兩個(gè)條件任一個(gè),我們就可判定V1為事件動(dòng)詞:
A. NP1+V1+(V2)+NP2B. NP1+V1+NP2的V2
我們據(jù)此從3 299個(gè)詞項(xiàng)中,確定了213個(gè)動(dòng)詞為事件動(dòng)詞。提取事件動(dòng)詞的目的就是為了解釋或描述一些帶有省略的超常搭配組合,并且把它們內(nèi)在的關(guān)聯(lián)進(jìn)行還原和補(bǔ)充。
我們根據(jù)林杏光[5]的研究成果以及結(jié)合實(shí)際標(biāo)注語料的需要,提取了一個(gè)含有三個(gè)層級(jí),并帶有14種語義角色的體系。在這個(gè)體系中,我們對(duì)林杏光語義角色體系進(jìn)行了某種程度的規(guī)約,去除了“與事格”,提出了“對(duì)象格”*關(guān)于“對(duì)象格”的具體內(nèi)涵可以參考汪夢(mèng)翔(2012)、(2014),并對(duì)其他角色格和情景格進(jìn)行了一些整合,從數(shù)量上減少了8個(gè),這主要是從工程的角度來考慮。因?yàn)檎Z義角色的設(shè)置要充分保證在實(shí)際語料標(biāo)注過程中的可操作性。雖然從科學(xué)研究的角度來講,我們應(yīng)該把區(qū)分每一類的語義角色作為終極目標(biāo),但是對(duì)于目前的水平來說,過于精細(xì)的劃分在增加工作量的同時(shí),還不能保證標(biāo)注的準(zhǔn)確率。而向上規(guī)約自然可確定性就要高。需要指出的是,這不是此項(xiàng)研究的終點(diǎn),隨著研究的開展及人力、物力的跟進(jìn),以后還會(huì)進(jìn)一步在此基礎(chǔ)上細(xì)化,可以說這一體系為日后語義角色的深入研究留有了一定空間。
表3 本項(xiàng)目語義角色標(biāo)注體系和林杏光語義角色標(biāo)注體系比較
另外,在動(dòng)詞語義角色的描述過程中,我們參照了魯川《動(dòng)詞大詞典》的框架,對(duì)動(dòng)詞的語義角色框架進(jìn)行了基本式和擴(kuò)展式的描述?;臼揭话忝枋鰟?dòng)詞和其所接的必有論元的關(guān)系,而擴(kuò)展式一般描述動(dòng)詞和非必有論元的關(guān)系。
需要指出的是,必有論元并不是簡單指施事、受事、對(duì)象、結(jié)果等核心角色,非必有也不是單指時(shí)間、地點(diǎn)、原因等外圍角色,只要這個(gè)語義角色是動(dòng)詞的一個(gè)“價(jià)”,而且足以描述某個(gè)動(dòng)詞的語義角色關(guān)系特征,那么就可以作為必有論元,我們就可以把它納入到這個(gè)動(dòng)詞的基本式中進(jìn)行描述。比如,對(duì)于動(dòng)詞“削”,它的基本式是“施事+V+受事”,如“我[施事]削了一個(gè)梨[受事]”;而對(duì)于動(dòng)詞“住”,它的基本式就可能是“施事+V+地點(diǎn)”,如“我[施事]住酒店[地點(diǎn)]”,這里的“酒店”雖然是“地點(diǎn)”,但是也是必有的論元,可以體現(xiàn)這個(gè)動(dòng)詞的語義角色特征,所以必須納入到基本式中。
而擴(kuò)展式雖然針對(duì)的是非必有論元,但也不一定只能由非核心論元充當(dāng),比如,“小李為張三買了一件衣服”中“張三”是“買”的“對(duì)象”,但不是必有論元,這就應(yīng)該歸入到“買”的擴(kuò)展式中。所以無論是基本式還是擴(kuò)展式在語義角色的選擇上沒有嚴(yán)格的界限。我們選擇的標(biāo)準(zhǔn)參照了《動(dòng)詞大詞典》,基本式或擴(kuò)展式的例句,部分來源于《動(dòng)詞大詞典》,部分是人為造句,然后再根據(jù)我們的語義角色體系,進(jìn)行逐一描寫。
物性角色的相關(guān)概念及描述主要來源于生成詞庫理論(Generative Lexicon Theory,GLT)。這一理論最初是為了回答為什么會(huì)出現(xiàn)類似“begin the novel”這類雖不合語法但可以為人們所運(yùn)用和理解的句子。而這類現(xiàn)象傳統(tǒng)語法不能解釋,因?yàn)閭鹘y(tǒng)語法對(duì)詞義的描寫是靜態(tài)的列舉法、分義項(xiàng),這樣就阻止了詞義的滲透性,反映不了創(chuàng)新性用法的變化軌跡,從而無法還原詞義在上下文的變化。為了解釋詞的不同意義及其在上下文中的創(chuàng)新用法, 生成詞庫理論為每一個(gè)詞項(xiàng)設(shè)計(jì)了比較立體的語義表達(dá)平面,包括四個(gè)層面: 論元結(jié)構(gòu)、事件結(jié)構(gòu)、物性結(jié)構(gòu)和詞匯繼承結(jié)構(gòu)。
需指出的是,生成詞庫理論中的四種語義表達(dá)層面中,一般可能認(rèn)為論元結(jié)構(gòu)和事件結(jié)構(gòu)考察動(dòng)詞的語義特征顯得較為合適,而物性結(jié)構(gòu)比較適用于描述和考察名詞,因?yàn)槊~內(nèi)部本身帶有一定的繼承性和物性。但事實(shí)上,Pustejovsky所創(chuàng)立的物性結(jié)構(gòu)描寫體系是適用于所有詞項(xiàng)的(不僅限于名詞),而利用生成詞庫理論中的物性結(jié)構(gòu)來描述漢語中的動(dòng)詞,目前在漢語學(xué)界做的還不多。
對(duì)于漢語動(dòng)詞的物性角色,我們參考了Pustejovsky的描述體系,對(duì)其形式角色、構(gòu)成角色、功用角色、施成角色進(jìn)行了描述,并額外增加了動(dòng)詞的情感角色描述。所謂情感角色,就是對(duì)動(dòng)詞所傳達(dá)出來的感情傾向。一般分為積極、消極、中性。比如: “尊敬”的情感角色就是積極,而“勾結(jié)”的情感角色就是消極,“嘗試”的情感角色就是中性。對(duì)于動(dòng)詞情感色彩的判定,我們主要依據(jù)人的感知。我們采取了人工雙盲標(biāo)注,對(duì)每一個(gè)詞語進(jìn)行推敲,然后再挑出有分歧的詞語,從適用對(duì)象、實(shí)際句子語料、以及同義、反義對(duì)照的幾個(gè)方面,共確定積極動(dòng)詞詞項(xiàng)330個(gè),消極動(dòng)詞詞項(xiàng)458個(gè),中性動(dòng)詞詞項(xiàng)2 511個(gè)。它們的分布比例如圖3所示。
而對(duì)于動(dòng)詞的形式角色、構(gòu)成角色、功用角色、施成角色我們做了相應(yīng)的規(guī)定,其內(nèi)涵和Pustejo-vsky最初的定義有所出入。
圖3 動(dòng)詞情感角色分布圖
在生成詞庫論的理論體系中,詞項(xiàng)的形式角色一般指的是詞項(xiàng)的本體屬性(ontology)。比如Pustejovsky在描述“artifact”和“doctor”的形式角色時(shí),主要突出的是它們的歸屬,分別是“實(shí)體(entity)”和“人(person)”
因之前我們?cè)趧?dòng)詞層級(jí)劃分時(shí)就對(duì)動(dòng)詞的本體屬性有某種程度的涉及,所以在這里,形式角色的內(nèi)涵主要是指動(dòng)詞自主性特征。
對(duì)于功用和施成角色,我們主要從動(dòng)詞所接NP來進(jìn)行表現(xiàn)。我們認(rèn)為: 動(dòng)詞的功用角色,可以理解為動(dòng)詞后所接的受事NP;而動(dòng)詞的施成角色,可以理解為動(dòng)詞的結(jié)果NP。例如,“熬”的功用角色可以是“骨頭、樹葉”等,而施成角色可以是“湯、稀飯”等。動(dòng)詞的功用角色和施成角色都是通過動(dòng)詞所接的名詞性賓語來體現(xiàn)。只不過一個(gè)是支配,強(qiáng)調(diào)的是作用;一個(gè)是轉(zhuǎn)變關(guān)系,強(qiáng)調(diào)的是結(jié)果。為避免數(shù)據(jù)的繁雜,我們?cè)谔崛r(shí),對(duì)名詞性賓語做了相應(yīng)的規(guī)約,比如,就施成角色來說,熬(1)和熬(2)所接的名詞性賓語分別為“汁_粥_湯_婆_(tái)清湯_膏_稀飯”和“公婆_(tái)婆_(tái)精”,規(guī)約為“人工物”和“人”。如圖所示:
圖4 動(dòng)詞“熬”的施成角色描述
對(duì)于構(gòu)成角色的描述方式和角度,Pustejovsky缺乏一定的規(guī)范,針對(duì)這點(diǎn),我們就直接把動(dòng)前出現(xiàn)的名詞作為構(gòu)成角色的數(shù)據(jù)源。所以本項(xiàng)目所描述的構(gòu)成角色和生成詞庫中的構(gòu)成角色內(nèi)涵有所差別,其所指也不同。
我們可以把這幾種物性角色的內(nèi)涵簡單歸納為:
表4 CVL的幾種物性角色內(nèi)涵表
漢語的句法格式研究主要依托的理論是構(gòu)式語法(Construction Grammar)的相關(guān)理論。本文在漢語動(dòng)詞句法格式的提取上,一方面基于一定的數(shù)據(jù)庫語料,一方面參考了前人的研究成果,比如《動(dòng)詞大詞典》的數(shù)據(jù)。
在句式的判定和劃分上,我們首先以論元為依托。漢語中一般最多有三個(gè)論元參與到事件中,即主體、客體和鄰體。需要注意的是,這種句法層次的劃分和語義角色的劃分不是一個(gè)層次。雖然它們之間具有某種對(duì)應(yīng)關(guān)系(主體一般由施事格充當(dāng),客體一般由受事格充當(dāng),鄰體一般由對(duì)象格充當(dāng)),但是一些外圍角色也有可能成為主體或客體。比如“墻上掛了一幅畫”、“飛機(jī)直達(dá)倫敦”,這里“墻上”和“倫敦”都是地點(diǎn),但是一個(gè)是“掛”的主體,一個(gè)是“直達(dá)”的客體。而且鄰體是從形式上來說的,專門針對(duì)第三個(gè)論元的情況,是在客體論元不夠的時(shí)候,為區(qū)別客體而設(shè)置的,因此不可能出現(xiàn)“主體+鄰體”的情況。
另外漢語在使用中,往往包括一些省略,我們判斷一個(gè)動(dòng)詞的主體和客體還是要依據(jù)句法的最大自足性原則,也就是在盡量補(bǔ)足主體和客體的原型句式基礎(chǔ)上,再考察一些自足的句式。比如: “錢包丟了”,這句雖然能說,但不是最完整的句法結(jié)構(gòu)。而“我丟錢包了”這里主體和客體都有,因此,作為判斷主體客體的原型或基本句式這樣來看的話,“錢包丟了”這個(gè)句式中,“錢包”就不能看做是“主體”,而應(yīng)該看做是“客體”。
在漢語中,一個(gè)動(dòng)詞所聯(lián)系的主體、客體,有時(shí)還有鄰體,在表層結(jié)構(gòu)中,可以有多個(gè)位置,因此構(gòu)成了各種句子格式。比如“吃”的主體可以在句首或句中。如,“我吃了蘋果、蘋果我吃了,蘋果被我吃了”。根據(jù)排列組合的原則,如果主體、客體、鄰體和動(dòng)詞這四個(gè)成分組合的話有24種,但是實(shí)際上只有11種,很多情況不符合漢語的說話習(xí)慣。
為彰顯句法格式變換的系統(tǒng)性和區(qū)別性,我們是在三種常見句型的基礎(chǔ)上,再最大限度地羅列了可能的變換句式:
I無客式(不帶客體):
001主體+V 客人來了(常規(guī))
002 V+主體 來客人了
II帶客式(帶一個(gè)客體):
003主體+V+客體: 我吃了三個(gè)蘋果(常規(guī))
004客體+V: 蘋果吃了
005主體+客體+V: 我把蘋果吃了/我蘋果已經(jīng)吃了
006客體+主體+V: 蘋果被我吃了/蘋果我已經(jīng)吃了
III一客一鄰式(帶一個(gè)客體一個(gè)鄰體):
007主體+V+鄰體+客體: 我送他一支筆(常規(guī))
008主體+V+客體+鄰體: 我送一只筆(給)他
009主體+客體+V+鄰體: 我把一支筆送給他
010主體+鄰體+V+客體: 我向老師請(qǐng)教一個(gè)問題
011客體+主體+V+鄰體: 書(被)我送給他了
這里我們參考了《動(dòng)詞大詞典》的句法變換格式,但是我們也增加了一些《動(dòng)詞大詞典》沒有的句式,比如“客體+V”、“主體+鄰體+V+客體”。
另外,《動(dòng)詞大詞典》中把有無介詞作為劃分句型的條件之一,比如同是“主體+客體+V”,《動(dòng)詞大詞典》就認(rèn)為有“主體+客體+V”和“主體+介詞+客體+V”兩種。我們?cè)谶@里沒有采用,主要是因?yàn)樵谡?guī)的書面語中,一個(gè)論元如果不在常規(guī)位置,或者需要由句首或句末位置移至句中時(shí),一般都會(huì)加入形式標(biāo)記進(jìn)行區(qū)別(比如“我吃了蘋果→蘋果被我吃了→我把蘋果吃了”,而“蘋果我吃了”這樣的句式在口語中比較常見)。在我們的變換體系中,主要是凸顯主、客、鄰體的位置變換,而且這種變換已經(jīng)把介詞的因素考慮在內(nèi),因?yàn)橛行┱撛迫氲骄渲袝r(shí)必須加介詞,我們出于人力物力的考慮,現(xiàn)階段暫時(shí)不根據(jù)介詞的有無再進(jìn)行句式的細(xì)分。不過,在以后的研究中,如果有需要,我們還是有必要將某些句式根據(jù)介詞的有無或介詞的種類再進(jìn)行進(jìn)一步的劃分。
在面對(duì)同一種組合形式的詞組和句子時(shí),我們可通過動(dòng)詞的一些特征來進(jìn)行句法分析,因?yàn)閯?dòng)詞的特征是需要依賴名詞來體現(xiàn)的,所以我們必須要結(jié)合名詞的相關(guān)語義知識(shí)表示。
我們來看兩個(gè)形式一樣,但句法構(gòu)造不同的句子:
(1) 修理汽車的工人
(2) 搜查士兵的背包
這兩句構(gòu)造都是“VP+NP+的+NP”,但一個(gè)是偏正結(jié)構(gòu),一個(gè)是動(dòng)賓結(jié)構(gòu)。如何讓計(jì)算機(jī)區(qū)別,我們可以借助這兩個(gè)動(dòng)詞在本資源庫中的物性特征描述。
“修理”的功用角色一般為: 人工物
構(gòu)成角色一般為: 人
“搜查”的功用角色一般為: 具體物
構(gòu)成角色一般為: 人
然后我們需要結(jié)合名詞的語義類屬性來匹配,這里我們借助的是《北大中文概念詞典》中名詞的語義類屬性:
工人[語義類: 人] 汽車[語義類: 人工物]
背包[語義類: 具體物] 士兵[語義類: 人]
這樣,“修理”只能支配“汽車”,而不是“工人”,而“搜查”只能支配“背包”,而不是“士兵”。
具體分析過程如下圖所示:
圖5 動(dòng)詞物性角色在句法分析中的應(yīng)用
判定某些動(dòng)賓搭配是否帶有省略謂詞現(xiàn)象,我們可以依據(jù)我們語義資源庫的兩個(gè)特征: 一個(gè)是事件動(dòng)詞,一個(gè)是物性角色。其中是否為事件動(dòng)詞,是是否帶有謂詞省略的必要條件。而對(duì)于物性角色,我們主要關(guān)注施成或功用角色是否對(duì)應(yīng)。因?yàn)橹^詞的省略常常是事件強(qiáng)迫的結(jié)果,宋作艷(2011)指出“事件強(qiáng)迫結(jié)構(gòu)中所隱含的動(dòng)詞通常是賓語名詞的施成角色或功用角色”,所以要較好地確認(rèn)或者還原省略成分,必須從動(dòng)詞和名詞間的施成角色或功用角色是否對(duì)應(yīng)開始。那么如何利用我們上面提到的兩個(gè)特征來對(duì)謂詞省略現(xiàn)象進(jìn)行判別和還原呢?我們可以看兩組搭配:
(1) 趕論文 (2) 學(xué)英語
看論文 學(xué)鋼琴
在第一組中,動(dòng)詞不一樣,名詞一樣,都是“V+論文”模式,但是一個(gè)有謂詞省略,一個(gè)沒有謂詞省略。我們可以通過我們語義資源標(biāo)注的一些動(dòng)詞特征(比如是否為事件動(dòng)詞)來判斷是否有省略現(xiàn)象。在我們動(dòng)詞資源館中,“趕”是事件動(dòng)詞,“看”不是事件動(dòng)詞,因此“看”就不具備事件強(qiáng)迫的可能,也就不存在省略現(xiàn)象。而對(duì)于“趕”來說,因?yàn)槭鞘录?dòng)詞,所以具備了省略謂詞的可能。具體如何還原或補(bǔ)出謂詞,還需要借助名詞的物性角色特征。比如“趕論文”中“論文”的施成角色為“寫”,我們要確認(rèn)“寫”是否為隱含動(dòng)詞,可以利用“寫”的物性角色描述。比如我們資源庫中描述到“寫”的構(gòu)成角色為“人”,而且只有施成角色“人工物”,而“論文”屬于人工物,所以“寫”可以和“論文”搭配,并且照應(yīng)“論文”的施成角色?!摆s”作為狀態(tài)動(dòng)詞后可接狀態(tài)、轉(zhuǎn)變、過程類動(dòng)詞,且后接的動(dòng)詞必須是“do(做)”義的輕動(dòng)詞,這樣作為過程動(dòng)詞和帶有“do(做)”義的“寫”就符合“趕”后接成分的條件,因此可以和“趕”搭配,同時(shí)在CVL中“寫”的施成角色角色中也含有“論文”,這樣相互照應(yīng),就可以判定“趕論文”是帶有謂詞省略“寫”。
在第二組中,都是“學(xué)+NP”格式,因?yàn)椤皩W(xué)”本身屬于事件動(dòng)詞,因此它所接的賓語可能會(huì)有省略。事實(shí)上,“英語”的功能角色是“學(xué)”,而“鋼琴”的功能角色是“彈奏”,那么對(duì)于“學(xué)英語”來說就沒有省略,而對(duì)“學(xué)鋼琴”來說,省略了謂詞“彈奏”。
因此我們可以利用動(dòng)詞的事件特征和物性特征來幫助我們判斷某些動(dòng)賓搭配是否存在省略搭配現(xiàn)象,并可以加以適當(dāng)?shù)倪€原,這樣省略的語義就得到補(bǔ)充,語義表達(dá)更加明確。
由于北大多視圖漢語樹庫(PKT)的語義角色標(biāo)注體系和本項(xiàng)目所描述的語義角色是一個(gè)體系,所以我們利用本語義資源庫的語義角色體系,可以為北大多視圖漢語樹庫(PKT)的語義角色標(biāo)注提供部分支持。
北大多視圖漢語樹庫(PKT)的語義角色標(biāo)注采取的是機(jī)器標(biāo)注和人工標(biāo)注相結(jié)合的方法。在語義角色標(biāo)注過程中,我們可以依據(jù)動(dòng)詞的類別和特征,然后查閱相關(guān)動(dòng)詞對(duì)應(yīng)的語義角色框架,對(duì)實(shí)際語句中的動(dòng)詞和論元的語義關(guān)系進(jìn)行語義角色的分配。例如,“感謝”在我們?cè)~典中的語義角色配對(duì)一般是“施事+對(duì)象”。那么只要是“感謝”的客體我們都可以標(biāo)為“對(duì)象”,而“感謝”的主體我們都可以標(biāo)為“施事”。這種方法就需要利用我們的動(dòng)詞語義資源中關(guān)于語義角色的描述來做參考。具體思路如圖8所示。
圖6 語義角色標(biāo)注思路
圖7 PKT中句法分析實(shí)例
我們可以以實(shí)際語料中的標(biāo)注例子說明:
首先我們可以依據(jù)北大多視圖漢語樹庫已有的句法樹,提取出核心動(dòng)詞和論元,在這里有兩個(gè)動(dòng)詞“感謝”、“尋找”,所對(duì)應(yīng)的論元分別為“干警”和“親人”。
然后查找動(dòng)詞語義資源中這兩個(gè)動(dòng)詞的語義角色的基本格式,如圖8所示。
圖8 “感謝”和“尋找”的基本語義角色框架
緊接著可以依據(jù)語義資源庫中的語義角色分配,直接給實(shí)際語料中“感謝”和“尋找”的客體分派語義角色。結(jié)果如圖9所示。
圖9 PKT中語義角色標(biāo)注實(shí)例
以上的標(biāo)注方法可以說是一種靜態(tài)的標(biāo)注方法,它直接涉及到動(dòng)詞的分類,因?yàn)閯?dòng)詞類別的不同,其與名詞的語義關(guān)系就有所差別。但是在實(shí)際語料中,我們還要結(jié)合一些基于動(dòng)態(tài)語義關(guān)系的語義角色標(biāo)注。所謂動(dòng)態(tài)語義關(guān)系,就是說對(duì)于有些動(dòng)詞來說,它們和名詞間的語義關(guān)系有時(shí)并不是一成不變的,而是會(huì)隨著所接名詞自身的特征有所變化,這時(shí)我們主要根據(jù)實(shí)際句子中動(dòng)詞與名詞的語義關(guān)系進(jìn)行標(biāo)注。這個(gè)靈活性比較大,難度也比較大,比如動(dòng)詞“砍”,在我們的動(dòng)詞資源館中基本語義角色是“施事+受事”,如果按照靜態(tài)標(biāo)注的話,后面的語義角色就都是受事了。而有時(shí)這些行為動(dòng)詞所接名詞的語義角色隨著句子不同,語義關(guān)系也不同。如同樣是“砍”,所支配名詞的語義角色卻不同: 如“他把樹(受事)砍倒了”,“他把斧子(工具)砍壞了”,他砍了個(gè)洞(結(jié)果)。這時(shí),我們可以利用我們動(dòng)詞資源館中關(guān)于動(dòng)詞語義角色的非基本框架來作參考。
如圖10所示。
圖10 標(biāo)注實(shí)例動(dòng)詞的非基本語義框架樣例
由于動(dòng)詞的非基本語義角色搭配涉及到十幾種語義角色,這一步計(jì)算機(jī)是很難辨別的,所以只有人工來進(jìn)行核對(duì)。
此外,一般情況下利用動(dòng)詞資源館標(biāo)注語料的最大問題就是語料中每一個(gè)動(dòng)詞語義角色都要有所收錄,由于本樹形動(dòng)詞詞庫收詞不多,因此其資源庫作用的發(fā)揮受到了限制。但我們的做法是把這個(gè)動(dòng)詞向上規(guī)約,規(guī)約到我們比較大的層次中再去考慮語義角色的標(biāo)注。比如“打亂”,我們?cè)~典沒有收錄,但是我們可以把這些未收錄的詞上升到第二或者是第一層級(jí)進(jìn)行分類,歸為“行為動(dòng)詞”,那么行為動(dòng)詞的語義角色框架基本是“施事+受事”的語義框架,這樣也可以實(shí)現(xiàn)語義角色的標(biāo)注,當(dāng)然最終還是由人工來幫助核對(duì)。
當(dāng)然,CVL的應(yīng)用不止于此,由于篇幅所限,不進(jìn)一步論述。
本項(xiàng)目結(jié)合語義和句法對(duì)常用的2 506個(gè)動(dòng)詞,3 299個(gè)詞項(xiàng),進(jìn)行了四個(gè)層級(jí)的劃分,并作了多維度多特征的描述,除了傳統(tǒng)的靜態(tài)語義描述、語義角色描述和句法格式描述外,還加入了事件結(jié)構(gòu)特征和物性結(jié)構(gòu)特征。對(duì)判斷和還原一些帶有謂詞省略的超常動(dòng)賓搭配現(xiàn)象有一定的積極作用,有利于句法分析的進(jìn)一步開展。
只不過受到人力、物力和時(shí)間的限制,目前所構(gòu)建的漢語動(dòng)詞資源館收詞不多,這極大地制約了該項(xiàng)目在語義角色標(biāo)注、自動(dòng)問答等領(lǐng)域的作用發(fā)揮。因此,在今后的工作中,應(yīng)該進(jìn)一步擴(kuò)大收詞規(guī)模、完善動(dòng)詞知識(shí)庫的結(jié)構(gòu)、繼續(xù)核對(duì)數(shù)據(jù)的準(zhǔn)確性和有效性,爭(zhēng)取從更多的角度來揭示和描述動(dòng)詞的特征和屬性。
[1] Pustejovsky James. Type Theory and Lexical Decomposition [J]. Journal of Cognitive Science, 2006,(6):39-76.
[2] 陳平.論現(xiàn)代漢語時(shí)間系統(tǒng)的三元結(jié)構(gòu)[J].中國語文,1988,(6):401-421.
[3] 稅昌錫. VP界性特征對(duì)時(shí)量短語的語義約束限制[J].語言科學(xué),2006,(5):19-29.
[4] 宋作艷.輕動(dòng)詞、事件與漢語中的賓語強(qiáng)迫[J].中國語文,2011,(3):205-217.
[5] 林杏光等.現(xiàn)代漢語動(dòng)詞大詞典[M].北京:北京語言學(xué)院出版社,1994.
[6] Beth Levin. English Verbs Classes and Alternations [M]. Chicago: The University of Chicago Press, 1993.
[7] Dowty D.On Recent Analysis of the Studies of Control [J]. Linguistics and Philosophy, 1985(8):291-331.
[8] Fillmore C J.The Case for Case [M].New York :Holt, Rinehart and Winston,1968.
[9] Pustejovsky James. Introduction to Generative Lexicon [M]. Manuscript, 2005.
[10] Vendler Z. Linguistics in Philosophy [M]. Ithaca N. Y.: Cornell University Press. 1967.
[11] 戴耀晶.現(xiàn)代漢語時(shí)體系統(tǒng)研究[M].杭州:浙江教育出版社,1997.
[12] 宋作艷.現(xiàn)代漢語中的事件強(qiáng)迫現(xiàn)象研究[D].北京:北京大學(xué)博士論文,2009.
[13] 宋作艷.類詞綴與事件強(qiáng)迫[J].世界漢語教學(xué), 2010,(4):446-459.
[14] 魯川等.動(dòng)詞大詞典[M].北京:中國物質(zhì)出版社,1994.
[15] 孟琮、鄭懷德等.漢語動(dòng)詞用法詞典[M].北京:商務(wù)印書館,1999.
[16] 汪夢(mèng)翔.對(duì)象格語義范疇及相關(guān)語法理論研究[D].武漢:華中師范大學(xué)博士論文,2012.
[17] 汪夢(mèng)翔,王厚峰.現(xiàn)代漢語“對(duì)象格”自動(dòng)識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,(8):93-98.
[18] 楊 敏,常寶寶.基于北京大學(xué)中文網(wǎng)庫的語義角色分類[J].中文信息學(xué)報(bào),2011,25(3):3-8.
[19] 袁毓林.一套漢語動(dòng)詞的論元角色的語法指標(biāo)[J].世界漢語教學(xué),2003,(3):24-38.
[20] 袁毓林.基于生成詞庫論和論元結(jié)構(gòu)理論的語義知識(shí)體系研究[J].中文信息學(xué)報(bào),2013,27(6):23-31.