郭麗娟,李正華,彭 雪,張 民
(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
依存句法分析的目標(biāo)是給定輸入句子,構(gòu)建一棵依存句法樹,捕捉句子內(nèi)部詞語之間的修飾或搭配關(guān)系,從而刻畫句子的句法和語義結(jié)構(gòu)[1]。圖1為一棵依存句法樹的示例。其中,$表示一個偽詞,指向句子根節(jié)點(diǎn)。作為依存樹的最基本單元,一條依存弧包含三要素: 核心詞(父親)、修飾詞(兒子)和依存關(guān)系標(biāo)簽。例如,(我←有, subj)這條依存弧表示“有”為核心詞,“我”為修飾詞,依存關(guān)系標(biāo)簽為subj(主語)。在此約定依存弧的方向由核心詞指向修飾詞。一棵合法的依存樹必須滿足兩個條件: ①單核心,即每個詞只有一個核心詞; ②連通,即$可沿弧的方向到達(dá)任何詞。與短語結(jié)構(gòu)句法相比,依存句法的優(yōu)點(diǎn)是: ①結(jié)構(gòu)扁平,形式簡單,容易理解,因此更適合普通人標(biāo)注; ②適用于不同語言; ③通過依存關(guān)系標(biāo)簽可以直接表達(dá)詞語之間的句法語義關(guān)系。因此,在過去十多年里依存句法分析得到越來越多的關(guān)注。
圖1 依存句法樹示例
近幾年來,隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的快速發(fā)展,依存句法分析準(zhǔn)確率也有了顯著提高。以CoNLL-2009漢語標(biāo)注評測數(shù)據(jù)集為例,基于傳統(tǒng)離散特征的模型最好準(zhǔn)確率(LAS)為78.51%[2]。斯坦福大學(xué)Chen和Manning提出一個基本的利用前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行移進(jìn)歸約分類的依存句法分析方法,準(zhǔn)確率為77.29%[3]。Zhou等[4]在Chen和Manning的方法中增加了全局正則化和概率優(yōu)化,這一思路后來被谷歌采用并做了更好的網(wǎng)絡(luò)優(yōu)化,準(zhǔn)確率達(dá)到80.85%[2]。斯坦福大學(xué)Dozat和Manning提出在基于圖的依存句法分析中,利用深層雙線性神經(jīng)網(wǎng)絡(luò)進(jìn)行依存弧分值預(yù)測,準(zhǔn)確率達(dá)到驚人的85.38%[5]。
雖然基于深度學(xué)習(xí)的依存句法分析方法在標(biāo)準(zhǔn)測試集上取得了85.00%的準(zhǔn)確率,然而眾所周知,當(dāng)處理有別于訓(xùn)練數(shù)據(jù)的文本時,依存句法分析的準(zhǔn)確率會急劇下降。2012年谷歌組織的parsing the web評測,面向郵件、博客、問題答案、新聞組、評論五個來源的英文網(wǎng)絡(luò)文本,標(biāo)注了小規(guī)模評測數(shù)據(jù),命名為Google English Web Treebank。評測結(jié)果發(fā)現(xiàn),在英文新聞文本測試集上最高準(zhǔn)確率為91.88%,而在英文網(wǎng)絡(luò)文本上的準(zhǔn)確率只能達(dá)到83.46%[6]。谷歌2016年基于神經(jīng)網(wǎng)絡(luò)的方法在英文新聞文本測試集上的準(zhǔn)確率為92.79%,在英文網(wǎng)絡(luò)文本上的準(zhǔn)確率為87.54%,仍然有約5%的差距[2]。
和英文相比,面向漢語網(wǎng)絡(luò)文本的依存句法樹構(gòu)建進(jìn)展更為遲緩,研究工作由于缺少一定規(guī)模的訓(xùn)練和評價數(shù)據(jù)而擱置。
基于上面的討論,我們認(rèn)為目前依存句法分析的最大挑戰(zhàn)不是算法和模型的創(chuàng)新[注]如何將語義知識,如動詞和名詞之間的配價關(guān)系,加入到深度學(xué)習(xí)模型中,也是很有挑戰(zhàn)且非常有價值的研究方向。,而是如何提高不同類型的網(wǎng)絡(luò)文本上的依存句法分析準(zhǔn)確率。考慮到自動領(lǐng)域移植方面的研究進(jìn)展緩慢,我們認(rèn)為最行之有效的方法就是數(shù)據(jù)標(biāo)注。即對不同類型的網(wǎng)絡(luò)文本,分別標(biāo)注一定規(guī)模的訓(xùn)練和測試語料。
然而,現(xiàn)階段依存句法樹庫的構(gòu)建卻存在很多的問題,主要體現(xiàn)在以下兩個方面。
(1) 目前學(xué)術(shù)界廣泛使用的依存句法樹庫大部分是由短語結(jié)構(gòu)樹庫基于規(guī)則自動轉(zhuǎn)換而來。知名度很高的Universal Dependency Treebank(UDT)[注]http://universaldependencies.org/treebanks/zh.cfl/index.html中包含了幾十種語言的依存句法樹庫。然而,大部分語言都只有短語結(jié)構(gòu)句法樹庫,需要通過基于規(guī)則的方法自動將短語結(jié)構(gòu)轉(zhuǎn)成依存結(jié)構(gòu),同時指定依存關(guān)系標(biāo)簽。經(jīng)過仔細(xì)研究,我們認(rèn)為UDT的依存句法結(jié)構(gòu)和關(guān)系標(biāo)簽并沒有考慮人工標(biāo)注的需求,無法作為一個嚴(yán)格的標(biāo)注規(guī)范指導(dǎo)人工進(jìn)行高質(zhì)量的標(biāo)注。例如,在45種依存關(guān)系標(biāo)簽中,存在一些實(shí)際標(biāo)注中很難區(qū)分的關(guān)系標(biāo)簽。
(2) 目前還沒有一個公開、完整、系統(tǒng)的漢語依存句法樹標(biāo)注規(guī)范。哈爾濱工業(yè)大學(xué)在Linguistic Data Consortium (LDC)[注]https://catalog.ldc.upenn.edu/LDC2012T05上發(fā)布了一個5萬句的漢語依存句法樹庫,本文稱之為 Harbin Institute Technology Chinese Dependency Treebank (HIT-CDT)[7]。邱立坤、金澎等標(biāo)注了一個大規(guī)模的漢語依存句法樹庫,但是目前還沒有公開發(fā)布這個數(shù)據(jù),本文稱之為Peking University Chinese Dependency Treebank (PKU-CDT)。同時,他們對HIT-CDT標(biāo)注規(guī)范進(jìn)行了擴(kuò)充,以便將依存結(jié)構(gòu)轉(zhuǎn)為短語結(jié)構(gòu)[8]。然而,這兩個樹庫并沒有公開發(fā)布一個完整、系統(tǒng)的標(biāo)注規(guī)范。
本文提出了一個新的適應(yīng)多領(lǐng)域多來源文本的漢語依存句法數(shù)據(jù)標(biāo)注規(guī)范。按照此規(guī)范,我們已經(jīng)標(biāo)注了約3萬句依存句法樹庫,并將其命名為“Soochow University Chinese Dependency Treebank (SU-CDT)”。最新的標(biāo)注規(guī)范(不斷更新)和最新樹庫(不斷擴(kuò)大)我們將發(fā)布在http://hlt.suda.edu.cn/index.php/SUCDT。
我們的目標(biāo)是面向多領(lǐng)域多來源文本,不斷積累、構(gòu)建大規(guī)模的依存句法樹庫。為了達(dá)到這個目標(biāo),我們必須制定一個科學(xué)(滿足語言學(xué)理論)、系統(tǒng)(條理清晰、容易掌握)、完整(覆蓋各種語言現(xiàn)象)的標(biāo)注規(guī)范,作為整個工作的基礎(chǔ),從而提高不同標(biāo)注者之間的一致性,保證標(biāo)注質(zhì)量。本文第二作者于2010年夏,主持了哈工大HIT-CDT樹庫的整個標(biāo)注過程。本文提出的標(biāo)注規(guī)范充分借鑒了哈工大標(biāo)注規(guī)范,同時吸取了HIT-CDT標(biāo)注過程中的經(jīng)驗(yàn)教訓(xùn)。在此,標(biāo)注規(guī)范編制的初衷和考慮因素總結(jié)如下:
(1) 針對漢語,設(shè)計一個盡可能精簡的依存關(guān)系標(biāo)簽集合。依存關(guān)系標(biāo)簽數(shù)量過多,會大大增加標(biāo)注難度。例如,目前UDT的依存關(guān)系標(biāo)簽有40多種。但是我們仔細(xì)研究后認(rèn)為,UDT中關(guān)系標(biāo)簽存在兩個問題: ①主要面向英語等印歐語系語言設(shè)計;②關(guān)系標(biāo)簽分類過細(xì),實(shí)際標(biāo)注時區(qū)分難度很大。哈工大標(biāo)注規(guī)范一共只有14種依存關(guān)系標(biāo)簽,我們進(jìn)一步精簡。例如,哈工大規(guī)范中左附加(LAD)和右附加(RAD),只是根據(jù)依存弧的方向區(qū)分,因此合并為一個附加關(guān)系(adjct)。
(2) 設(shè)計一個完整的依存關(guān)系標(biāo)簽集合,充分刻畫漢語的不同語言現(xiàn)象。我們在哈工大標(biāo)注規(guī)范的基礎(chǔ)上,增加了一些關(guān)系,如app(稱呼)、exp(進(jìn)一步解釋)、frag(片段)等,以刻畫不同語言現(xiàn)象(口語化、不規(guī)范表達(dá),甚至病句)。目前我們的規(guī)范包含了20種依存關(guān)系標(biāo)簽,如表1所示。
表1 依存關(guān)系標(biāo)簽匯總表
(3) 以謂語為核心,盡可能豐富地刻畫復(fù)雜句子內(nèi)部結(jié)構(gòu)。哈工大規(guī)范使用一個獨(dú)立結(jié)構(gòu)關(guān)系(IS)來標(biāo)注并列謂語之間的關(guān)系。我們將其細(xì)化為sasubj(同主語)、sasubj-obj(同主同賓)和dfsubj(不同主語)三種依存關(guān)系標(biāo)簽,從而更深入地表示句子內(nèi)多個謂語之間的關(guān)系,并為上層語義分析提供支持。
(4) 適應(yīng)不同分詞粒度。由于漢語中由詞素組成詞,由詞組成短語時,界線很模糊,因此學(xué)術(shù)界對于分詞的粒度沒有一個統(tǒng)一的界定。我們在規(guī)范制定過程中充分考慮了這一因素,并給出一些不同分詞粒度下的標(biāo)注示例。例如,“走向世界”中,如果“走向”作為一個詞,那么“世界”為賓語;如果作為兩個詞,那么“世界”是“向”的介詞賓語,“向”作為補(bǔ)語修飾“走”。
(5) 盡可能準(zhǔn)確地刻畫語義結(jié)構(gòu)。在滿足規(guī)范中闡述的具體規(guī)則的前提下,選擇最能準(zhǔn)確表達(dá)語義關(guān)系的依存樹。如圖2所示,“預(yù)計”的主語省略,而不是“教學(xué)樓”,將“教學(xué)樓明年竣工”標(biāo)注成“預(yù)計”的賓語從句,這樣才最能準(zhǔn)確表達(dá)語義。這種存在交叉弧的依存樹又稱為非投影樹。我們發(fā)現(xiàn),由于漢語語序靈活,一小部分句子的確需要用非投影樹標(biāo)注。
圖2 非投影樹示例
(6) 當(dāng)兩種標(biāo)注都滿足規(guī)范,且符合語義時,我們一定會明確規(guī)定一個優(yōu)先順序,幫助標(biāo)注者選擇,從而有效提高標(biāo)注一致性。
隨著標(biāo)注實(shí)踐的進(jìn)行,我們會深入研究實(shí)際標(biāo)注中遇到的問題,積極與其他專家交流,不斷學(xué)習(xí)語言學(xué)論著,持續(xù)完善和更新我們的規(guī)范。
此規(guī)范目前包含了20種關(guān)系標(biāo)簽,分為三個大類:
(1) 謂語對應(yīng)的依存關(guān)系標(biāo)簽: root, sasubj-obj, sasubj和dfsubj,此類依存關(guān)系標(biāo)簽全部為右弧,用于標(biāo)注主要謂語關(guān)系;
(2) 單句內(nèi)部主干關(guān)系標(biāo)簽: subj, subj-in, obj, pred, att, adv和cmp,用于標(biāo)注漢語句子中的主謂賓定狀補(bǔ)關(guān)系結(jié)構(gòu);
(3) 單句內(nèi)部其他關(guān)系標(biāo)簽: coo, pobj, iobj, de, adjct, app, exp, punc和frag,用于輔助標(biāo)注漢語句子的其他關(guān)系結(jié)構(gòu)。
以下將對這些依存關(guān)系標(biāo)簽逐一展開介紹。
漢語中謂語是用于說明或陳述主語的動作或狀態(tài)。動詞、形容詞、名詞、介詞、主謂結(jié)構(gòu)等都可以充當(dāng)謂語。
root(sentence root,根節(jié)點(diǎn)): 規(guī)定句子的第一個主要謂語以root關(guān)系修飾偽節(jié)點(diǎn)$。因?yàn)榫渥邮强梢郧短椎模纯梢杂兄髡Z從句、賓語從句、定語從句等,所謂“主要謂語”是指句子最頂層的一個或多個謂語,而不是在從句中的謂語。
sasubj-obj(same subject and object,同主語同賓語): 規(guī)定當(dāng)兩個同級的謂語共享主語和賓語時,后一個謂語以sasubj-obj關(guān)系修飾前一個謂語。
sasubj(same subject,同主語): 規(guī)定當(dāng)兩個同級的謂語共享主語但不共享賓語時,后一個謂語以sasubj關(guān)系修飾前一個謂語。
dfsubj(different subject,不同主語): 規(guī)定當(dāng)兩個同級的謂語具有不同主語時,后一個謂語以dfsubj關(guān)系修飾前一個謂語。
用于標(biāo)注主謂賓定狀補(bǔ)結(jié)構(gòu)。
subj(subject,主語): 主語是謂語的描述對象、施事或受事。由于這三種情況屬于語義的范疇,并且區(qū)分起來對標(biāo)注者的要求過高,因此大多數(shù)情況下我們不對其進(jìn)行詳細(xì)區(qū)分,具體介紹見第4節(jié)中對主語和賓語的明確規(guī)定。
subj-in(subject inside a subject-predicate pr-edicate,主謂謂語中的內(nèi)部主語): 句子中一個主謂短語整體作為謂語,稱為主謂謂語[9]。以subj-in專門標(biāo)注主謂謂語的內(nèi)部主語。
obj(object,賓語): 和主語類似,賓語是謂語的受事或施事,但通常位于謂語的后面。
pred(predicate,謂語): 用來刻畫漢語中獨(dú)特的兼語結(jié)構(gòu),如圖1所示。
att(attribute modifier,定語): 定語是名詞或代詞的修飾成分,通常位于核心詞的前面。
adv(adverbial modifier,狀語): 狀語是動詞或形容詞的修飾成分,通常位于核心詞的前面。
cmp(complement modifier,補(bǔ)語): 補(bǔ)語是動詞或形容詞的修飾成分,通常位于核心詞的后面。
coo(coordination construction,并列): 多個句法功能相同的詞(非謂語)并列在一起,通常中間會用“和”“與”或頓號連接,我們規(guī)定后一個詞以coo關(guān)系修飾前一個詞,形成波浪狀。
pobj(preposition object,介賓): 介詞和賓語構(gòu)成介賓短語時,賓語用pobj關(guān)系修飾介詞。
iobj(indirect-object,間賓): “給/送/授予/稱呼/叫”等動詞后面可以跟兩個名詞性賓語,為了區(qū)分,第一個賓語稱為間接賓語,以iobj關(guān)系修飾動詞。
de(de-construction,“的”字結(jié)構(gòu)): “的”字后面的名詞或代詞明顯省略的情況,例如,“我喜歡紅色的”,修飾詞“紅色”以de關(guān)系修飾“的”。
adjct(adjunct,附加成分): 句子中沒有實(shí)際意義的、只是為了讓句子結(jié)構(gòu)完整、或者講起來更有韻味(抑揚(yáng)頓挫)的詞,統(tǒng)一標(biāo)注為附加關(guān)系。
app(appellation,稱呼): 口語中句子最前面對人的稱呼語,以app關(guān)系修飾句子第一個主要謂語。
exp(explanation,進(jìn)一步解釋): 漢語中常用括號中的內(nèi)容或者冒號后面的內(nèi)容,對前面的詞、短語或句子進(jìn)一步解釋說明,規(guī)定解釋性的內(nèi)容以exp關(guān)系修飾被解釋的內(nèi)容。
punc(punctuation,標(biāo)點(diǎn)): 規(guī)定標(biāo)點(diǎn)以punc關(guān)系修飾核心詞。
frag(fragment,片段): 網(wǎng)絡(luò)文本中出現(xiàn)的不符合語法、支離破碎的病句,后一個成分以 frag關(guān)系修飾前一個成分,形成波浪狀。
同主語關(guān)系: 從句法的角度看,謂詞是句子中最重要的詞。和英語不同,漢語中可以使用標(biāo)點(diǎn)符號直接將幾個謂語句連成一個句子。如何確定多個謂語之間的搭配關(guān)系,是標(biāo)注規(guī)范必須妥善回答的問題。哈工大規(guī)范使用獨(dú)立結(jié)構(gòu)關(guān)系(IS)和并列關(guān)系(COO)來標(biāo)注多個謂語之間的關(guān)系,然而實(shí)際標(biāo)注中很難把握其界線,標(biāo)注者甚至需要考慮多個謂語句之間的語義邏輯關(guān)系,導(dǎo)致很多分歧。
根據(jù)目前學(xué)術(shù)界的標(biāo)準(zhǔn),多個謂語詞之間的邏輯語義關(guān)系,屬于語義和篇章分析的范疇,因此一般作為語義和篇章分析任務(wù)的處理對象。我們的規(guī)范的主要目標(biāo)是: 在保證標(biāo)注一致性和質(zhì)量的前提下,充分刻畫句子的句法結(jié)構(gòu)。而多個謂語之間的邏輯語義關(guān)系確實(shí)太復(fù)雜了,因此我們的規(guī)范明確規(guī)定不考慮多個謂語句之間的語義邏輯關(guān)系,僅僅考慮句法關(guān)系。根據(jù)多個謂語是否共享主語和賓語,細(xì)分出三種依存關(guān)系標(biāo)簽: sasubj、sasubj-obj和dfsubj,以便更深入地表示多個謂語之間的關(guān)系。這樣不僅可以標(biāo)注出句子的謂語信息,同時為上層語義標(biāo)注和分析提供支持,示例如圖3所示。
我們規(guī)劃未來在目前句法結(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步標(biāo)注語義信息,即作為一個新的語義標(biāo)注任務(wù),制定規(guī)范,進(jìn)而人工標(biāo)注。而不是嘗試在一個任務(wù)下把所有的信息都標(biāo)注上。
內(nèi)部主語關(guān)系: 趙元任先生提出“漢語句子里主語和謂語的語法意義是主題(topic)和述語(comment),而不是施動者(actor)和動作(action)”的觀點(diǎn)[10],引發(fā)了漢語研究的新一輪思考。石定栩先生的文章中講到“大部分語言學(xué)家主張主題和主語都是漢語句子的成分,而且具有不同的句法地位(省略原文中的引用)。不過,對于主題和主語的定義及其在句法過程中的地位,則還沒有定論。常見的做法之一是將主題或主語的功能和分布情況一一列舉。然后以這些功能和分布作為標(biāo)準(zhǔn),判斷某一成分是主語還是主題?!盵11]
從以上討論可以看出,漢語中主題和主語的區(qū)分,是非常困難的事情,需要很強(qiáng)的語言學(xué)專業(yè)背景和細(xì)膩的語感。哈工大標(biāo)注規(guī)范采用了回避和簡化的策略,將主題也當(dāng)作主語,允許一個謂語具有多個主語,如圖4所示。我們延續(xù)哈工大標(biāo)注規(guī)范的策略,不區(qū)分主題和主語,從而保證標(biāo)注者的一致性。
圖4 哈工大規(guī)范雙主語標(biāo)注示例按照哈工大規(guī)范,“慌張”對應(yīng)兩個主語“奶奶”和“心里”,并且將謂語“慌張”和“打轉(zhuǎn)”以COO標(biāo)注為并列。
俞士汶先生等在其《現(xiàn)代漢語語法信息詞典詳解》前言(第2版)中提到: “在主謂結(jié)構(gòu)中,不僅主語可以由另一個主謂結(jié)構(gòu)來充任,而且謂語也可以由另一個主謂結(jié)構(gòu)來充任(這就形成了所謂的‘主謂謂語句’或‘主謂謂語短語’)?!盵9]這一觀點(diǎn)在朱德熙先生的《語法講義》[12]中也得到印證。受這種觀點(diǎn)的啟發(fā),我們提出subj-in這個依存關(guān)系標(biāo)簽,專門標(biāo)注主謂謂語的內(nèi)部主語。雖然我們不刻意區(qū)分主題和主語,但在很多情況下,subj-in可以標(biāo)注出主謂謂語的內(nèi)部主語(一般是謂語詞的主語),而subj可以標(biāo)注出主謂結(jié)構(gòu)的主語(一般是句子的主題)。如圖5所示,“奶奶”實(shí)際上是整個句子的主題,同時也是主謂謂語“心里很慌張”和“淚水在打轉(zhuǎn)”的主語;“心里”是“很慌張”這個謂語詞的主語;“淚水”是“打轉(zhuǎn)”這個謂語詞的主語。對比圖4和圖5,我們認(rèn)為subj-in帶來幾點(diǎn)優(yōu)勢: ①將主謂謂語動詞的主語和句子的主題區(qū)分開;②方便刻畫多個謂語的同主語關(guān)系;③體現(xiàn)主謂謂語整體作為一個組塊的信息(傳統(tǒng)依存結(jié)構(gòu)實(shí)際上沒有組塊信息)。
圖5 蘇大規(guī)范雙主語標(biāo)注示例按照我們的規(guī)范,“奶奶”是主謂謂語“心里很慌”和“淚水在打轉(zhuǎn)”的主語,并且以sasubj將兩個主謂謂語標(biāo)注為同主語關(guān)系;“心里”是“很慌張”這個謂語詞的主語;“淚水”是“打轉(zhuǎn)”這個謂語詞的主語。
自從增加了subj-in這個依存關(guān)系標(biāo)簽后,我們標(biāo)注實(shí)踐時發(fā)現(xiàn),符合“N1+N2+謂語”結(jié)構(gòu)的句子(其中N1和N2分別表示兩個名詞),通常都適合標(biāo)注為含有subj-in結(jié)構(gòu)(N1←謂語, subj; N2←謂語, subj-in),因此從一定程度上驗(yàn)證了主述位理論的合理性。然而,這樣的句子同樣也可以按照傳統(tǒng)的att結(jié)構(gòu)標(biāo)注(N1←, att; N2←謂語, subj),兩種標(biāo)注之間的界線很難區(qū)分,我們既不能規(guī)定全部標(biāo)注為att,也不能全部標(biāo)注為subj-in。為了提高標(biāo)注結(jié)果一致性,我們明確規(guī)定當(dāng)兩種標(biāo)注方法都適用時,只有下面兩種情況標(biāo)注為 subj-in :
(1) 標(biāo)注為 subj-in,可以進(jìn)一步捕獲同主語關(guān)系,如圖5所示;
(2) 標(biāo)注為 subj-in,可以避免交叉弧的出現(xiàn),如圖6所示。
圖6 標(biāo)注subj-in避免交叉弧示例若標(biāo)注為(公司←效益, att ;確實(shí)←不佳, adv),會產(chǎn)生交叉,所以標(biāo)注為subj-in。
除以上兩種情況外,我們的規(guī)范將這種結(jié)構(gòu)標(biāo)注成(N1←, att;N2←謂語, subj)
對主語和賓語的明確規(guī)定: 我們了解到,從語言學(xué)角度上看,“施事”和“受事”屬于語義范疇,而主語和賓語屬于句法層面,并且目前句法分析標(biāo)注規(guī)范通常都只標(biāo)注到句法層面。我們在哈工大依存樹庫標(biāo)注中發(fā)現(xiàn),對主語進(jìn)行語義上的細(xì)分有時候非常困難,很難給出一個統(tǒng)一的標(biāo)準(zhǔn)。例如“經(jīng)濟(jì)發(fā)展得很快”這個句子中,有的標(biāo)注者認(rèn)為 “經(jīng)濟(jì)”是“發(fā)展”的對象(即受事),有的標(biāo)注者則認(rèn)為“發(fā)展”是對“經(jīng)濟(jì)”的狀態(tài)的描述(即描述對象),標(biāo)注一致性很低。因此我們要求標(biāo)注者根據(jù)焦點(diǎn)詞和謂語的相對位置,選擇subj或obj。也就是說,在實(shí)際標(biāo)注過程中,標(biāo)注人員大多數(shù)情況下不用區(qū)分“施事”和“受事”,直接將謂語前面的作為主語,謂語后面的作為賓語,如圖7所示。
圖7 對主語和賓語的明確確定示例1
當(dāng)“施事”和“受事”同時在謂語的左邊或右邊出現(xiàn)時,為了避免一個謂語有兩個主語或兩個賓語,我們要求標(biāo)注者嚴(yán)格區(qū)分“施事”和“受事”,將“施事”標(biāo)為主語,“受事”標(biāo)為賓語,如圖8所示。我們發(fā)現(xiàn),這種情況在實(shí)際標(biāo)注中遇到的概率非常低,并且標(biāo)注者很容易區(qū)分 “施事”和“受事”,歧義很小,一致性很高。
圖8 對主語和賓語的明確確定示例2
兼語結(jié)構(gòu)的標(biāo)注: 兼語結(jié)構(gòu)(V1+N+V2)是漢語中的一種非常獨(dú)特的語法結(jié)構(gòu),其中N是V1的賓語,同時又是V2的主語。為了準(zhǔn)確表達(dá)這種結(jié)構(gòu),我們引入pred這個關(guān)系標(biāo)簽,打破主語修飾謂語的慣例,讓謂語V2直接修飾主語N,如圖1所示(有→同學(xué), obj; 同學(xué)→叫, pred)。和HIT-CDT中(有→同學(xué), DBL; 有→叫, VOB)的標(biāo)注形式相比,我們認(rèn)為pred的引入,讓語義上更為緊密的N和V2直接連接,因此是一種更好的表達(dá)形式。
復(fù)合名詞短語內(nèi)部結(jié)構(gòu)的標(biāo)注: 漢語中有很多形如“W1W2W3”的復(fù)合名詞短語,名詞“W3”是整個短語的核心詞,難點(diǎn)在于其內(nèi)部的結(jié)構(gòu)如何標(biāo)注,即需要確定(W1←W2, att)或(W1←W2W3, att),這里可以把“W2W3”看成一個詞。我們的規(guī)范首次明確規(guī)定了復(fù)合名詞內(nèi)部標(biāo)注的優(yōu)先級規(guī)則: 仔細(xì)分析內(nèi)部的語義搭配強(qiáng)度(W1←W2W3, att) vs.(W1←W2, att);如果兩個標(biāo)注強(qiáng)度沒有明顯的差別,則優(yōu)先標(biāo)注成(W1←W2W3, att),如圖9所示;如果兩個標(biāo)注強(qiáng)度有明顯的差別,則按照標(biāo)注強(qiáng)度標(biāo)注,如圖10所示。
圖9 復(fù)合名詞短語內(nèi)部標(biāo)注示例1(全國←常委會, att ;人大←常委會, att)的修飾強(qiáng)度和(全國←人大, att ;人大←常委會, att)沒有明顯的差別,所以規(guī)定標(biāo)注為前者。
圖10 復(fù)合名詞短語內(nèi)部標(biāo)注示例2(俄羅斯←總統(tǒng), att ;總統(tǒng)←普京, att)的修飾強(qiáng)度要高于(俄羅斯←總統(tǒng), att ;俄羅斯←普京, att),所以規(guī)定標(biāo)注為前者。
為了更好地支持依存句法分析樹的標(biāo)注,我們自2014年起開發(fā)了一個標(biāo)注系統(tǒng),并根據(jù)實(shí)際需求不斷完善。此標(biāo)注系統(tǒng)中主要設(shè)計了三種核心角色: ①標(biāo)注人員,標(biāo)注分配的任務(wù),也可以對專家的答案提出投訴;②審核專家,對兩個標(biāo)注人員標(biāo)注不一致的任務(wù)進(jìn)行審核,并確定唯一答案。需要注意的是,同一個標(biāo)注任務(wù)的兩個標(biāo)注結(jié)果中只要有一條依存弧不相同,就會觸發(fā)審核。審核界面中會把不相同的地方突出出來,以方便標(biāo)注人員對比;③高級專家處理標(biāo)注人員的投訴任務(wù),確定最終答案。
圖11給出了一個任務(wù)(句子)的標(biāo)注流程。首先,標(biāo)注系統(tǒng)會將一個任務(wù)隨機(jī)分配給兩個標(biāo)注人員標(biāo)注。標(biāo)注完成后,如果兩個標(biāo)注結(jié)果完全一致,那么就認(rèn)為已確定答案,流程結(jié)束。如果兩個標(biāo)注結(jié)果至少有一條弧不一致,就會觸發(fā)審核機(jī)制,系統(tǒng)會將這個任務(wù)隨機(jī)分配給一位專家進(jìn)行審核,確定唯一答案。進(jìn)而,標(biāo)注系統(tǒng)會將審核過的答案,反饋給出錯的標(biāo)注人員進(jìn)行學(xué)習(xí)。學(xué)習(xí)過程中,如果標(biāo)注人員對答案不認(rèn)可,可以提出投訴。如果沒有出現(xiàn)投訴,那么就認(rèn)為已確定答案,流程結(jié)束。如果出現(xiàn)投訴,系統(tǒng)會將投訴任務(wù)隨機(jī)分配給一位高級專家,確定唯一答案。標(biāo)注人員投訴、審核專家審核及高級專家處理投訴時,可以把各自的理由寫出來,從而實(shí)現(xiàn)非常有效的異步溝通。除此之外,我們還會在線下通過在線聊天工具就一些問題進(jìn)行交流、搜集反饋、修改答案、完善規(guī)范。
圖11 標(biāo)注流程圖
為了最大程度降低人工付出,一方面我們開發(fā)了一個基于瀏覽器的在線標(biāo)注系統(tǒng),減輕了數(shù)據(jù)標(biāo)注管理者的負(fù)擔(dān);另一方面對于選取的數(shù)據(jù),我們采用局部標(biāo)注的方式,即只選擇句子中模型置信度較低的一定比例的詞,進(jìn)行標(biāo)注[13],從而節(jié)省標(biāo)注時間和成本,并且增強(qiáng)標(biāo)注者的注意力。同時,在一批新的數(shù)據(jù)批次中我們會將以前標(biāo)注過的有答案的任務(wù)作為地雷混入,我們稱之為地雷機(jī)制。我們放入地雷有兩大作用: ①自動評價標(biāo)注人員的標(biāo)注情況;②進(jìn)一步檢查之前的標(biāo)注結(jié)果,以便提高標(biāo)注答案質(zhì)量。標(biāo)注的過程中,隨著規(guī)范的更新,也需要更新以前的標(biāo)注結(jié)果。
總之,我們希望標(biāo)注系統(tǒng)設(shè)計和標(biāo)注流程管理處處從提高質(zhì)量的目標(biāo)出發(fā),并且最大程度減少數(shù)據(jù)標(biāo)注管理者的工作,將數(shù)據(jù)管理盡可能科學(xué)化、系統(tǒng)化,為大規(guī)模數(shù)據(jù)標(biāo)注提供便利。
為了持續(xù)標(biāo)注大規(guī)模的依存句法數(shù)據(jù),我們組織了幾十位蘇州大學(xué)本科生作為兼職數(shù)據(jù)標(biāo)注人員。首先我們向標(biāo)注人員詳細(xì)介紹我們的規(guī)范以及標(biāo)注系統(tǒng)的使用。進(jìn)而,標(biāo)注人員系統(tǒng)學(xué)習(xí)標(biāo)注規(guī)范,并且在標(biāo)注系統(tǒng)上模擬訓(xùn)練。最后,標(biāo)注人員進(jìn)行真實(shí)數(shù)據(jù)標(biāo)注工作。經(jīng)過一定時間考察,我們會選擇標(biāo)注質(zhì)量高的標(biāo)注人員作為審核專家。到目前為止我們通過標(biāo)注系統(tǒng)共標(biāo)注了約3萬句依存句法數(shù)據(jù),數(shù)據(jù)的來源見表2。
表2 數(shù)據(jù)來源說明表
我們通過對句子的標(biāo)注結(jié)果進(jìn)行統(tǒng)計與分析發(fā)現(xiàn),和最終答案相比,標(biāo)注者的平均依存弧準(zhǔn)確率為87.6%,標(biāo)注者之間的平均依存弧一致率為76.5%。而標(biāo)注者之間平均句子級別的一致率只有43.7%,即56.3%的句子需要審核專家進(jìn)一步檢查。這表明了句法標(biāo)注工作的困難性,以及為了保證標(biāo)注質(zhì)量,需要嚴(yán)格雙人標(biāo)注的重要性。
本文提出了一個新的適應(yīng)多領(lǐng)域多來源文本的漢語依存句法數(shù)據(jù)標(biāo)注規(guī)范,以指導(dǎo)大規(guī)模實(shí)際標(biāo)注工作。該規(guī)范考慮了多方面的因素,同時參考一些經(jīng)典的語言學(xué)著作,設(shè)計了20個依存關(guān)系標(biāo)簽,適應(yīng)于多領(lǐng)域多來源文本的漢語依存句法數(shù)據(jù)標(biāo)注,且可以盡可能準(zhǔn)確地刻畫大部分漢語文本的句子級句法結(jié)構(gòu);同時,該規(guī)范對很多難以理解并區(qū)分的語言現(xiàn)象進(jìn)行了比較詳細(xì)的總結(jié)。實(shí)際標(biāo)注結(jié)果表明,根據(jù)我們的標(biāo)注規(guī)范,可以達(dá)到較高的標(biāo)注一致性。
未來我們會按照該規(guī)范持續(xù)標(biāo)注多領(lǐng)域多來源文本,提高依存句法分析準(zhǔn)確率,也為領(lǐng)域移植研究工作提供數(shù)據(jù)支持。同時,我們會總結(jié)實(shí)際標(biāo)注過程中遇到的問題,不斷完善和更新。目前的規(guī)范可以滿足表2中數(shù)據(jù)的標(biāo)注需求,但是未來如果遇到規(guī)范不能涵蓋的語言現(xiàn)象,我們會增加新的依存關(guān)系標(biāo)簽,擴(kuò)充我們的規(guī)范。