何保榮,邱立坤,孫盼盼
(魯東大學(xué) 文學(xué)院,山東 煙臺264025)
語義角色標(biāo)注是一種淺層語義標(biāo)注,其主要內(nèi)容是識別謂詞的論元,并為每個論元標(biāo)注一個語義角色[1]?,F(xiàn)有研究一般將語義角色標(biāo)注視為分類問題或序列標(biāo)注問題,通常使用最大熵模型、條件隨機場及RNN等深度學(xué)習(xí)模型予以實現(xiàn)。在訓(xùn)練數(shù)據(jù)較為充足的情況下,已取得較高精度。但現(xiàn)有自動標(biāo)注方法主要使用句法信息和詞匯信息,較少考慮謂詞的格框架及語義角色與句式之間的配合關(guān)系。
在之前的研究中,我們對“把”字句的句式及其與句模的對應(yīng)關(guān)系進行了分析,總結(jié)出“把”字句的語義角色標(biāo)注規(guī)則[2]。本文在已有研究工作的基礎(chǔ)上,對現(xiàn)代漢語句式及句模的對應(yīng)關(guān)系進行歸納,總結(jié)出一套語義角色標(biāo)注規(guī)則。本文的研究工作主要包括三方面: (1)對現(xiàn)代漢語句式及其句模的對應(yīng)關(guān)系進行歸納; (2)以《人民日報》新聞?wù)Z料語義角色標(biāo)注語料庫為依據(jù),基于人工標(biāo)注的開發(fā)集,總結(jié)出若干語義角色標(biāo)注規(guī)則; (3)驗證該語義角色標(biāo)注規(guī)則的有效性。
為了便于句式劃分和句模描寫,本文研究工作中句子的基本單位是單句(復(fù)句可拆分為多個單句)。
本文以《現(xiàn)代漢語》(黃伯榮、廖旭東)中對句式的劃分為依據(jù)[3]。在此基礎(chǔ)上,增加了“輕動詞句”*輕動詞句: 句子的謂語動詞為輕動詞,比如“我們要對學(xué)校安全設(shè)施進行檢查”,“進行”為輕動詞,充當(dāng)句子的謂語核心,后接表示實際意義的動詞賓語“檢查”。和“共享并列句”*共享并列句: 句子的謂語核心由兩個具有并列關(guān)系的動詞充當(dāng),且這兩個動詞都可以支配句子的賓語,比如“我們要建立、健全養(yǎng)老機制”,“建立”和“健全”共同充當(dāng)句子的謂語核心,且共享句子的賓語“養(yǎng)老機制”。兩種句式。根據(jù)一個句子的內(nèi)部結(jié)構(gòu),單句可分為主謂句和非主謂句。非主謂句主要是由定中結(jié)構(gòu)或狀中結(jié)構(gòu)的短語(好漂亮的裙子、真暖和)、感嘆詞(哎呦)、擬聲詞(嘩嘩)等構(gòu)成。其中,定中結(jié)構(gòu)的非主謂句可以構(gòu)成命題結(jié)構(gòu),其他類型非主謂句則一般不構(gòu)成命題結(jié)構(gòu),故本文不做討論。本文的主謂句有四類: 動詞謂語句、形容詞謂語句、名詞謂語句及主謂謂語句。動詞謂語句包括: “把”字句、“被”字句、兼語句、連謂句、比較句、雙賓句、輕動詞句、存現(xiàn)句、共享并列句及一般動詞謂語句等(見圖1)。
圖1 現(xiàn)代漢語句式
本文語義角色標(biāo)注是建立在句法角色標(biāo)注的基礎(chǔ)之上的[4]。在句法樹庫中,“VV”代表連謂動詞,“IC”代表小句的謂語中心語,“HED”代表謂語中心語。相應(yīng)地,在語義角色標(biāo)注語料庫中,“VV/IC/HED”表示命題的動詞核心;主語(SBV)、賓語(VOB)、間接賓語(IOB)、狀語(ADV)(動詞性狀語、副詞性狀語除外)等表示與動詞核心相關(guān)的論元成分。此外,若賓語(VOB)充當(dāng)主語(SBV)的父節(jié)點,則VOB一般也是動詞,但此時,VOB中也包含了一個命題。比如“我打算后天離開上?!?,“后天離開上?!弊鳛椤按蛩恪钡摹癡OB”,其內(nèi)部還有一個命題“離開上?!保吧虾!背洚?dāng)“離開”的“VOB”。這種情況規(guī)律性很強,也作為本文句模研究的對象。
下面分別分析和描寫動詞謂語句、形容詞謂語句、名詞謂語句及主謂謂語句的句模。
1.2.1 “把”字句
“把”字句是指用介詞“把”引出句子的“受事”,并對該“受事”加以處置的句式。最為典型的“把”字句是表示處置義的“把”字句?!鞍选弊志渲?,主語一般充當(dāng)“主事”,“把”介引的賓語則一般充當(dāng)“客事”。還有一種把字句經(jīng)常在口語中運用,該類“把”字句表示的是致使義[5],如“你們怎么把犯人跑了”。但由于該類“把”字句數(shù)量非常少,不具有典型性,故本文暫不討論。經(jīng)分析,“把”字句句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系如下:
(1) SBV+把+POB+IC/HED→ 主事+把+客事+IC/HED*句模中的句法成分標(biāo)記,在句法樹庫中一般由“IC/HED”“CMP”“VOB”“ATT”等(動詞或者形容詞)充當(dāng),這些動詞或形容詞在句子或者短語結(jié)構(gòu)中都充當(dāng)謂語核心。小王把桌子砸了。
(2) SBV+把+POB+IC/HED(當(dāng)作類)+VOB→主事+把+客事+IC/HED+結(jié)果 老張把我當(dāng)作好朋友。
(3) SBV+把+POB+IC/HED+(CMP+DEI)→主事+把+客事+IC/HED;把+主事+CMP 服務(wù)員把盤子打碎了。
(4) SBV+把+POB+IC/HED+CMP+VOB→主事+把+客事+IC/HED;把+主事+CMP+客事 父親把倉庫改成了廚房。
1.2.2 “被”字句
“被”字句指的是用介詞“被(讓、叫、給)”引出句子的“施事”,或單獨使用介詞“被”的句子?!氨弧币话闾幱谥^語動詞之前,“被”字句的主語一般充當(dāng)謂語動詞的“客事”(或“對象”和“與事”),介詞“被”的介引賓語則一般充當(dāng)“主事”。“被”字句句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系如下:
(1) SBV+被+POB+IC/HED→客事+被+主事+IC/HED 小王被別人舉報了。
(2) SBV+被+POB+IC/HED(給予類)+VOB→與事+被+主事+IC/HED+客事 王波被單位授予勞動模范的稱號。
(3) SBV+被+POB+IC/HED+VOB(v)→對象+被+主事+IC/HED+客事;主事+VOB 該廠被檢察院責(zé)令停止生產(chǎn)。
(4) SBV+被+POB+IC/HED+CMP→客事+被+主事+IC/HED;主事+CMP 小王被對手打傷了。
(5) SBV+被+POB+IC/HED+(CMP+DEI)→客事+被+主事+IC/HED;主事+DEI 院子被我打掃得干干凈凈。
(6) SBV+被+POB+IC/HED+CMP+VOB→客事+被+主事+IC/HED;主事+CMP+客事 她被公司任命為部長。
1.2.3 雙賓句
雙賓句是指有兩個賓語的句子。前一個賓語稱為“間接賓語”,一般指人;后一個賓語稱為“直接賓語”,一般指物。在本文中,雙賓句的直接賓語用“VOB”表示,間接賓語用“IOB”表示。雙賓句的句法結(jié)構(gòu)及其句模對應(yīng)關(guān)系描寫為:
(1) SBV+IC/HED +IOB+VOB→主事+IC/HED+與事+客事 老師送了我?guī)妆緟⒖紩?/p>
(2) SBV+IC/HED +VOB+IOB→主事+IC/HED+客事+與事 老師送了幾本參考書給我。
1.2.4 兼語句
黃伯榮、廖旭東《現(xiàn)代漢語》中把兼語句定義為: 由兼語短語充當(dāng)謂語或獨立成句的句子叫做兼語句[6]。如“劉經(jīng)理派我去北京”。語言學(xué)中兼語句可以表示為: N1(主語)+V1(謂語中心語)+N2(兼語)+(V2(第二個謂詞)+N3)。本文句法標(biāo)注體系中,兼語句形式化為: SBV+IC/HED+VOB+(ACT+VOB)。由于兼語句中都有語法標(biāo)簽“ACT”,因此可將兼語句單獨抽取。
兼語句中,兩個動詞分別都能構(gòu)成一個命題,故其句模是雙動核結(jié)構(gòu)。一般情況下,兼語句的主語充當(dāng)謂語動詞的主事,賓語充當(dāng)客事;同時,賓語還充當(dāng)?shù)诙€動詞“ACT”的主事,而謂語動詞和“ACT”之間則一般具有“結(jié)果”或“目的”的關(guān)系;“ACT”后的賓語一般充當(dāng)“ACT”的客事。兼語句的句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系如下:
SBV+IC/HED +VOB+ACT→主事+ IC/HED+客事;主事+ACT;IC/HED+目的/結(jié)果 經(jīng)理讓他立刻行動。
1.2.5 “比”字句
“比”字句指的是用“比”字介詞短語充當(dāng)狀語的句子。“比”字句又稱“差比句”?!氨取弊志湟话惆ā氨容^主體、比較對象、比較項目、比較結(jié)果”四部分。語言學(xué)中一般將“比”字句標(biāo)記為: X(比較主體)+比(比較對象)+Y(謂語中心語)+W(比較結(jié)果)。比如“我比她高兩公分”。本文中,“比”字句的句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系表示為:
(1) SBV+比+POB+IC/HED→比較主體+比+比較對象+IC/HED 我比她高。
(2) SBV+比+POB+IC/HED +VOB→比較主體+比+比較對象+IC/HED+比較結(jié)果 我比她高兩公分。
(3) TPC+SBV+比+POB+IC/HED+VOB→比較主體+比較項目+比+比較對象+IC/HED 我身高比她高兩公分。
1.2.6 連謂句
連謂句是指由連謂短語充當(dāng)句子謂語或由連謂短語單獨成句的句子。連謂句中,謂語動詞一般都存在時間上的先后。
通過語料標(biāo)注,我們發(fā)現(xiàn)絕大多數(shù)連謂句的謂語都是雙動詞結(jié)構(gòu),即謂語由兩個時間上具有先后順序的動詞構(gòu)成。在本文句法樹庫中,連謂用“VV”這一標(biāo)簽表示,如“老張騎上自行車就走了”,“騎”和“走”句法上的標(biāo)簽為“VV”。因為連謂句可構(gòu)成兩個(或者多個)命題,故其句模也是雙(多)動核結(jié)構(gòu)。連謂句句法結(jié)構(gòu)及句模對應(yīng)關(guān)系描述如下:
SBV+VV+IC/HED+VOB→主事+VV;主事+IC/HED+客事 他上街買菜。
1.2.7 共享并列句
句式的謂語結(jié)構(gòu)由兩個具有并列關(guān)系的動詞構(gòu)成,且這兩個動詞共享同一個賓語,本文稱之為“共享并列句”。該句式有兩個謂語動詞,可構(gòu)成兩個命題,句模為雙動核結(jié)構(gòu)。比如“我們要貫徹和落實黨的政策”?!柏瀼亍焙汀奥鋵崱惫蚕碣e語“政策”。共享并列句的句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系為:
SBV+COS+IC/HED+VOB→主事+COS+客事;主事+IC/HED+客事 我們要建立、健全社會保障制度。
1.2.8 輕動詞句
輕動詞是一種比較特殊的動詞,其意義較虛,且其后一般要與表示實在意義的動詞組合構(gòu)成動賓結(jié)構(gòu)(動賓結(jié)構(gòu)的賓語由表示實在意義的動詞充當(dāng))。較為常用的輕動詞有“進行、作、予以”等。比如“公司對他的事跡進行了宣傳”。其中,“進行”只表示主體實施了某項動作或行為,但具體動作或行為實際上是由動詞賓語“宣傳”發(fā)出的。故該句的意思是“公司宣傳了他的事跡”。輕動詞句的句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系為:
SBV+ADV+IC/HED(輕動詞)+VOB→主事+對象+IC/HED+客事;主事+客事+VOB 單位對他的建議予以了肯定。
1.2.9 名詞謂語句
名詞謂語句是指以名詞或名詞性短語充當(dāng)謂語的句子,如“今天教師節(jié)”。名詞謂語句實際上是動詞謂語句的一種變體(或一種省略形式)。在語義角色標(biāo)注時,本文將名詞謂語句按“省是句”來標(biāo)注。名詞謂語句的句法結(jié)構(gòu)和句模描寫情況如下:
SBV+IC/HED(n)→當(dāng)事+IC/HED 國內(nèi)生產(chǎn)總值80萬億元。
1.2.10 形容詞謂語句
形容詞謂語句指的是由形容詞或形容詞性短語充當(dāng)謂語的句子。形容詞或形容詞性短語用來表示主語的性質(zhì)或狀態(tài)。形容詞謂語句中,主語充當(dāng)謂語的“當(dāng)事”,如“這首歌好聽極了”。形容詞謂語句的句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系為:
SBV+IC/HED(a)→當(dāng)事+IC/HED 音樂很優(yōu)美。
1.2.11 主謂謂語句
主謂謂語句是指由主謂短語充當(dāng)句子謂語的句式。本文將主謂謂語句的大主語標(biāo)注為“話題”(TPC),主謂短語中的主語標(biāo)為主語(SBV)。主謂謂語句的句法結(jié)構(gòu)和句模的對應(yīng)關(guān)系描寫如下:
TPC+SBV+IC/HED+VOB→接事+主事+IC/HED+客事 她雙手捧著鮮花。
1.2.12 一般動詞謂句
除了上述幾種特殊句式外,動詞謂語句還有大量句法形式上無標(biāo)記的句式,本文稱之為一般動詞謂句。一般動詞謂句也就是簡單的主謂賓句。主謂賓句的主語一般充當(dāng)“主事”,賓語一般充當(dāng)“客事”,比如“他獲得了學(xué)業(yè)獎學(xué)金”。一般主謂句的句法結(jié)構(gòu)及其句模的對應(yīng)關(guān)系為:
SBV+IC/HED+VOB→主事+IC/HED+客事 他們收到了兩個包裹。
本文句模研究除了研究各種句式之外,還涵蓋包含關(guān)系從句的關(guān)系結(jié)構(gòu)?!瓣P(guān)系從句”是語言中普遍存在的、特殊的并帶有一定標(biāo)記的結(jié)構(gòu)。確切地說,所謂的關(guān)系從句并不是真正意義上的句子,只是一種短語結(jié)構(gòu)。為了便于理解,本文引用陳宗利的“關(guān)系結(jié)構(gòu)”這一說法: “關(guān)系結(jié)構(gòu)”是指包含關(guān)系從句的名詞性成分,由關(guān)系從句和中心語兩部分構(gòu)成,關(guān)系從句和中心語也可以帶數(shù)量詞和限定詞等修飾成分。[7]
不同于其他SO語序的語言,漢語關(guān)系結(jié)構(gòu)的語序比較特殊,關(guān)系從句處于核心名詞之前,如“我見過人”,“我見過”在“人”之前。漢語最普遍的關(guān)系結(jié)構(gòu)標(biāo)記類型是定語標(biāo)記“的”[8],比如“他讀過的小說”和“他的小說”共用一個“的”,且二者都是定中結(jié)構(gòu),但兩者定語部分的性質(zhì)不同。前者是關(guān)系從句作定語,后者是“的”字短語作定語。在句法結(jié)構(gòu)上,二者較容易區(qū)分: 前者是“NP1+V+的+NP2”;后者是“NP1+的+NP2”。
關(guān)系結(jié)構(gòu)中有兩個“NP”(“NP1”和“NP2”)。關(guān)系結(jié)構(gòu)表示為“NP1+V+的+NP2”。一般情況下,NP1充當(dāng)V的主事,NP2充當(dāng)V的客事、與事或外圍語義角色。有些時候,NP2與V不存在語義關(guān)系?!癗P1+V+的+NP2”對應(yīng)到句法樹庫可形式化表示為: SBV(NP1)+ATT(V)+的+ DE(NP2)。下面是關(guān)系結(jié)構(gòu)的句模類型:
(1) 主事+V+的+客事
施事+V+的+受事: 他吃的饅頭
施事+V+的+系事: 他購買的書籍
施事+V+的+內(nèi)容: 他提出的建議
施事+V+的+對象: 他提拔的員工
(2) 主事+V+的+外圍語義角色
施事+V+的+路徑: 他走過的路
施事+V+的+材料: 他繪畫的鉛筆
(3) 主事+V
施事+V: 他出發(fā)的時間/他撒謊的原因/飛機起飛的地點
上述三種關(guān)系結(jié)構(gòu)的句法結(jié)構(gòu)相同,但句模不同。這主要是由于關(guān)系結(jié)構(gòu)中動詞的“價”不同。(1)中的動詞都是二價動詞,比如“吃”“購買”“提出”等;(2)(3)則是一價動詞,比如“走”“繪畫”“出發(fā)”“撒謊”“起飛”等。在關(guān)系結(jié)構(gòu)的語義角色自動標(biāo)注過程中,根據(jù)動詞的格框架,采取動詞左側(cè)句法成分優(yōu)先標(biāo)注的原則,將格框架中的語義角色賦予NP1和NP2。綜合上述三種句模,關(guān)系結(jié)構(gòu)的句??蓺w納為:
主事+ATT+的+客事/外圍語義角色
根據(jù)上述句式和句模的對應(yīng)關(guān)系,本文總結(jié)出一套語義角色標(biāo)注規(guī)則。該規(guī)則旨在對大多數(shù)句子進行語義角色自動標(biāo)注,降低人工標(biāo)注的工作量,提高語義角色自動標(biāo)注的準(zhǔn)確率。
“在實際的語義角色標(biāo)注過程中,規(guī)則的使用具有先后順序。局部規(guī)則優(yōu)于全局規(guī)則?!盵9]現(xiàn)代漢語句子中,除了一般主謂賓句沒有特殊的標(biāo)記之外,其他句子都帶有一定標(biāo)記。比如,“把”字句、“被”字句、“比”字句中分別帶有介詞“把”“被”“比”;雙賓句的間接賓語的標(biāo)簽為“IOB”;兼語句中有“ACT”;連謂句中連謂結(jié)構(gòu)標(biāo)簽為“VV”;共享并列句中兩個動詞用“COS”標(biāo)注;主謂謂語句用“TPC”區(qū)分;輕動詞句可通過直接限定有限的輕動詞與其他句式區(qū)分;名詞謂語句和形容詞謂語句的謂語中心語的詞性分別為名詞和形容詞,也可以與其他句式區(qū)分開來。因此,本文語義角色標(biāo)注規(guī)則的運行順序是: 首先處理“把”字句、“被”字句、連謂句等特殊句式,然后處理一般主謂賓句。而關(guān)系結(jié)構(gòu)有可能出現(xiàn)在所有句式的句子當(dāng)中,故在每個句子中都要檢索是否存在關(guān)系結(jié)構(gòu)。根據(jù)局部規(guī)則優(yōu)于全局規(guī)則的原則以及關(guān)系結(jié)構(gòu)的特點,本文語義角色標(biāo)注規(guī)則歸納如下:
規(guī)則1判斷當(dāng)前句子中有無標(biāo)記詞介詞“把”,如果有,則進入規(guī)則2;如果沒有檢索到介詞“把”,則進入規(guī)則7;
規(guī)則2若句式為“SBV+把+POB+IC/HED+(CMP+DEI)”,則句模為“主事+把+客事+ IC/HED;把+主事+CMP”,并進入規(guī)則31;如果不是,則進入規(guī)則3;
規(guī)則3若句式為“SBV+把+POB+IC/HED+CMP+VOB”,則句模為“主事+把+客事+IC/HED;把+主事+CMP+客事”,并進入規(guī)則31;如果不是,則進入規(guī)則4;
規(guī)則4若句式為“SBV+把+POB+IC/HED+CMP”,則句模為“主事+把+客事+IC/HED;把+主事+CMP”,并進入規(guī)則31;如果不是,則進入規(guī)則5;
規(guī)則5若句式為“SBV+把+POB+IC/HED+VOB”,且IC/HED為“當(dāng)作、稱作、稱為、叫做”等三價動詞,則句模為“主事+把+客事+ IC/HED+結(jié)果”,并進入規(guī)則31;如果不是,則進入規(guī)則6;
規(guī)則6若“把”字句句式為“SBV+把+POB+IC/HED”,則句模為“主事+把+客事+IC/HED”,并進入規(guī)則31;如果不是,則進入規(guī)則7;
規(guī)則7判斷當(dāng)前句子中有無標(biāo)記詞介詞“被”,如果有,則進入規(guī)則8;如果沒有檢索到介詞“被”,則進入規(guī)則14;
規(guī)則8若“被”字句句式為“SBV+被+POB+IC/HED”,其句模為“客事+被+主事+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則9;
規(guī)則9若句式為“SBV+被+POB+IC/HED+VOB”,且IC/HED為“給予、授予、賦予、贈予”等動詞,其句模為“與事+被+主事+ IC/HED+客事”,則進入規(guī)則31;如果不是,則進入規(guī)則10;
規(guī)則10句式為“SBV+被+POB+IC/HED+VOB”,且VOB的詞性為“v”(動詞),則句模為“對象+被+主事+ IC/HED+客事;主事+VOB+客事”,并進入規(guī)則31;如果不是,則進入規(guī)則11;
規(guī)則11若句式是“SBV+被+POB+IC/HED+CMP”,句模為“客事+被+主事+ IC/HED;主事+CMP”,則進入規(guī)則31;如果不是,則進入規(guī)則12;
規(guī)則12若句式為“SBV+被+POB+IC/HED+(CMP+DEI)”,句模為“客事+被+主事+ IC/HED;主事+DEI”,則進入規(guī)則31;如果不是,則進入規(guī)則13;
規(guī)則13若句式為“SBV+被+POB+IC/HED+CMP+VOB”,則句模為“客事+被+主事+ IC/HED;主事+CMP+客事”,并進入規(guī)則31;如果不是,則進入規(guī)則14;
規(guī)則14判斷當(dāng)前句子中有無介詞“比”,若有,則進入規(guī)則15;如果沒有,則進入規(guī)則18;
規(guī)則15如果“比”字句句式為“SBV+比+POB+IC/HED”,其句模為“比較主體+比+比較對象+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則16;
規(guī)則16如果句式為“SBV+比+POB+IC/HED +VOB”,其句模為“比較主體+比+比較對象+ IC/HED+比較結(jié)果”,則進入規(guī)則31;如果不是,則進入規(guī)則17;
規(guī)則17如果句式為“TPC+SBV+比+POB+IC/HED+VOB”,其句模為“比較主體+比較項目+比+比較對象+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則18;
規(guī)則18判斷當(dāng)前句子的句法成分中有無“IOB”,如果有,則進入規(guī)則19;如果沒有則進入規(guī)則21;
規(guī)則19若雙賓句的句式為“SBV+IC/HED +IOB+VOB”,其句模為“主事+ IC/HED+與事+客事”,則進入規(guī)則31;如果不是,則進入規(guī)則20;
規(guī)則20若句式為“SBV+IC/HED +VOB+IOB”,其句模為“主事+ IC/HED+客事+與事”,則進入規(guī)則31;如果不是,則進入規(guī)則21;
規(guī)則21判斷當(dāng)前句子的句法成分中有無“ACT”,若有,則判斷當(dāng)前句的句式是否為“SBV+IC/HED +VOB+ACT+(VOB)”,如果是,則其句模為“主事+ IC/HED+客事;主事+ACT+(客事);IC/HED+目的/結(jié)果”,并進入規(guī)則31;若不是,則進入規(guī)則22;
規(guī)則22判斷當(dāng)前句子的句法成分中有無“VV”,若有,則判斷連謂句的句式是否為“SBV+VV+IC/HED +VOB”,如果是,則其句模為“主事+VV;主事+IC/HED+客事”,并進入規(guī)則31;若不是,則進入規(guī)則23;
規(guī)則23判斷當(dāng)前句子的句法成分中有無“COS”,若有,則判斷并列共享句的句式是否為“SBV+COS+IC/HED +VOB”,如果是,其句模為“主事+COS+客事;主事+ IC/HED+客事”,則進入規(guī)則31;如果不是,則進入規(guī)則24;
規(guī)則24判斷當(dāng)前句子的句法成分中有無“TPC”,若有,則判斷主謂謂語句的句式是否為“TPC+SBV+IC/HED+VOB”,若是,則其句模為“接事+主事+IC/HED+客體”,并進入規(guī)則31;若不是,則進入規(guī)則25;
規(guī)則25判斷當(dāng)前句子的“IC/HED”(謂語核心動詞)是否為“進行、給予、作”等動詞,且賓語詞性為“v”(動詞),如果是,則判斷輕動詞句的句式是否為“SBV+ADV(p+POB)+IC/HED+VOB”,其句模為“主事+對象+ IC/HED+客事;主事+客事+VOB”,則進入規(guī)則31;如果不是,則進入規(guī)則26;
規(guī)則26判斷當(dāng)前句子的“IC/HED”(謂語核心動詞)的詞性是否為“n”(名詞),如果是,則判斷名詞謂語句的句式是否為“SBV+ IC/HED”,其句模為“當(dāng)事+ IC/HED”,則進入規(guī)則31;若不是,則進入規(guī)則27;
規(guī)則27判斷當(dāng)前句子的“IC/HED”(謂語核心動詞)的詞性是否為“a”(形容詞),如果是,則進入規(guī)則28;若不是,則進入規(guī)則30;
規(guī)則28如果形容詞謂語句的句式為“SBV+ IC/HED”,其句模為“當(dāng)事+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則29;
規(guī)則29如果形容詞謂語句的句式為“SBV+ ADV(p+POB)+IC/HED”,其句模為“當(dāng)事+對象/客事+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則30;
規(guī)則30判斷當(dāng)前句子的句式是否為“SBV+IC/HED+VOB”,若是,則當(dāng)前句子的句模為“主事+IC/HED+客事”,并進入規(guī)則31;
規(guī)則31判斷當(dāng)前句子中是否存在句法結(jié)構(gòu)為“SBV+ATT+的+DE”,且“ATT”的詞性為“v”(動詞)的結(jié)構(gòu),如果存在,則該結(jié)構(gòu)的句模為“主事+ATT+的+客事/外圍語義角色”;如果不存在該結(jié)構(gòu),則不標(biāo)注。
本文語料庫來源為2000年1月份《人民日報》語料。該語料庫的句法標(biāo)注體系及構(gòu)建過程可參見文獻[10]。在原有句法樹庫的基礎(chǔ)上,對語料庫的前三萬個句子進行了語義角色標(biāo)注。在用基于規(guī)則的方法進行自動標(biāo)注時,前二萬句充當(dāng)開發(fā)集,后一萬句作為測試集。
為了與基于統(tǒng)計的標(biāo)注方法進行比較,我們還使用Mate-tools的語義角色標(biāo)注模塊[11]進行了對比實驗,同樣選擇前二萬句作為訓(xùn)練集,后一萬句作為測試集。該實驗全部使用默認(rèn)參數(shù),不需要調(diào)試參數(shù),因此未設(shè)置開發(fā)集。
在上述實驗中,我們用帶標(biāo)簽正確率(labeled precision, LP)、帶標(biāo)簽召回率(labeled recall, LR)和不帶標(biāo)簽正確率(unlabeled precision,UP)、不帶標(biāo)簽召回率(unlabeled recall,UR)來評價標(biāo)注質(zhì)量。UP和UR僅考慮弧的正確與否,即兩個詞之間是否存在語義依存關(guān)系;LP和LR則在考慮弧的基礎(chǔ)上,還要考慮語義角色標(biāo)簽的正確與否。
實驗結(jié)果如表1所示。
表1 自動標(biāo)注結(jié)果
整個測試集中,人工標(biāo)注的弧和標(biāo)簽個數(shù)為78 917個,基于規(guī)則自動標(biāo)注的弧個數(shù)是44 484個,正確個數(shù)為41 415,召回率為52.48%,正確率為93.10%;基于規(guī)則標(biāo)注的標(biāo)簽正確個數(shù)為35 024,正確率為78.73%,召回率為44.38%。假定弧正確的情況下,標(biāo)簽的正確率為84.57%(35 024÷41 415≈0.84 568)。
與之相比,基于統(tǒng)計的方法召回率較高,但正確率較低。雖然基于規(guī)則的自動標(biāo)注方法召回率不是很高,但其正確率卻達到了較高水平,運用該規(guī)則可降低約二分之一的標(biāo)注工作量,因此本文語義角色標(biāo)注規(guī)則在人工構(gòu)建語料庫時是可行的。
根據(jù)我們的初步分析,基于統(tǒng)計的方法標(biāo)注結(jié)果差異較大,人工校對時需要修改的地方較多;基于規(guī)則的方法標(biāo)注結(jié)果一致性較高,人工校對時需要修改的地方較少,而且比較一致,但是需要添加的弧更多一些。
錯誤分析表明,目前的規(guī)則還有待進一步細化,比如可根據(jù)動詞的類是一價動詞、二價動詞或三價動詞總結(jié)出更細致的規(guī)則。
在總結(jié)句式與句模對應(yīng)關(guān)系的基礎(chǔ)上,本文歸納出一套語義角色標(biāo)注規(guī)則,并對該規(guī)則的有效性進行了驗證,測試結(jié)果證明所總結(jié)的語義角色標(biāo)注規(guī)則具有較高的正確率。在人工校對語義角色標(biāo)注語料庫的過程中,基于規(guī)則的方法與基于統(tǒng)計的方法相比,具有一致性高、正確率高的優(yōu)點,這些優(yōu)點帶來的收益要大于召回率低的缺點,因此可以降低人工標(biāo)注的工作量。
與統(tǒng)計方法相比,本文基于規(guī)則的方法優(yōu)點在于從整體上考慮句子的結(jié)構(gòu),但由于規(guī)則考慮的因素還不夠細致,整體精度與統(tǒng)計方法相比并無優(yōu)勢。在今后的工作中,我們計劃進一步探討規(guī)則方法和統(tǒng)計方法的融合。
[1] Gildea D, Jurafsky D. Automatic labeling of semantic roles[J].Computational Linguistics,2002,28(3): 245-288.
[2] 何保榮,邱立坤,徐德寬.基于規(guī)則的把字句語義角色標(biāo)注[J].中文信息學(xué)報,2017,31(1): 84-93.
[3] 黃伯榮,廖旭東.現(xiàn)代漢語[M].增訂四版.北京: 高等教育出版社,2007: 102.
[4] Likun Q, Yue Z, Meishan Z. Dependency tree representations of predicate-argument structures[C]//Proceedings of the AAAI-16, 2016: 2645-2651.
[5] 范曉.三個平面的語法觀[M].北京: 北京語言學(xué)院出版社,1996: 201-209.
[6] 黃伯榮,廖旭東.現(xiàn)代漢語[M].增訂四版.北京: 高等教育出版社,2007: 90.
[7] 陳宗利.漢語關(guān)系從句的位置與關(guān)系結(jié)構(gòu)的特點[J].語言科學(xué),2009,(2): 155-164.
[8] 劉丹青.漢語關(guān)系從句標(biāo)記類型初探[J].中國語文,2005,(1): 3-15.
[9] 詹衛(wèi)東.面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[D].北京: 北京大學(xué)博士論文,1999.
[10] 邱立坤,史林林,王厚峰.多領(lǐng)域中文依存樹庫構(gòu)建與影響統(tǒng)計句法分析因素之分析[J].中文信息學(xué)報,2015,29(5): 71-77。
[11] Bj?rkelund A, Hafdell L, Nugues P. Multilingual semantic role labeling[C]//Proceedings of the CONLL 2009, 2009: 43-48.
E-mail: 1030158547@qq.com