曹 媛,朱巧明,李培峰
(蘇州大學(xué) 計算機科學(xué)和技術(shù)學(xué)院,江蘇 蘇州215006)
事件事實性表達(dá)了其是否是事實的確定性程度。事件的事實性是一種語義信息,對于很多自然語言處理應(yīng)用來講,都可以作為其基礎(chǔ)支撐或者用來提高其性能。在文本理解(Text Understanding)中,事件的事實性是作為理解篇章中事件的一類非常重要的依據(jù)。因為從事實性事件推斷出的結(jié)果與從可能事件推斷出的結(jié)果顯然有所不同。例如,在意見分析時,同樣的情況,對于不同的意見持有者,它可以是事實、可能發(fā)生的以及非事實。
目前,事件事實性的研究還處于萌芽階段,只有英文有了小規(guī)模的確定性信息語料庫。Fact-bank[1-3]以 TimeBank為基礎(chǔ)進(jìn)行標(biāo)注,把事件事實性分為五個類別,包括208個文檔,9 500個事件和超過77 000個詞。BioScope[4-6]標(biāo)注了生物論文中的模糊限制語及其作用范圍,共有近2萬句和超過38萬個詞。GENIA[7-8]標(biāo)記了事件的極性和確定性,包括1 000多個摘要。其他還有一些相關(guān)工作,這些工作或多或少不太完整。有的只是引入了事實性相關(guān)的某些概念或者其工作與事實性有關(guān)系,并沒有系統(tǒng)地介紹分析事件事實性或者其研究重點并不是事實性。如 Rubin[9]關(guān)注“確定(Certainty)”這個概念,并在新聞文章上做了標(biāo)注實驗。如SauríR[10]等為事件標(biāo)注 Modality屬性,這里的Modality表示事件源對其陳述事件所持的確定程度或者態(tài)度。
事件事實性的研究是一項相當(dāng)具有挑戰(zhàn)性的工作[1-3]。首先,事件事實性通過句子語法表達(dá),是一種主觀性信息,并不是具體的語言學(xué)系統(tǒng)。它的取值是一個從事實到非事實的連續(xù)空間。確定需要標(biāo)注的事實性相關(guān)信息時,既要兼顧語言學(xué)的分析也要考慮一般性常識推理。其次,事件的事實性是各種信息綜合作用的結(jié)果,例如,事件的極性、事件發(fā)生的時間、事件源對該事件的確定性程度,甚至不同的句子結(jié)構(gòu)也會對事件的事實性產(chǎn)生影響。
本文選取 ACE(Automatic Content Extraction)2005中文語料庫為基礎(chǔ)語料庫,標(biāo)注其中Movement事件的事實性,并給出了標(biāo)注規(guī)則和語料庫的統(tǒng)計分析。本文選取ACE 2005中文語料庫作為基礎(chǔ)語料庫的主要原因有:1)ACE語料庫中,有關(guān)事件和時間相關(guān)內(nèi)容已經(jīng)標(biāo)注,不用重復(fù)標(biāo)注,節(jié)省人力物力;2)ACE語料庫中語料來源廣,包括了新聞報道、廣播、網(wǎng)絡(luò)日志等;3)文本數(shù)量充足,語料庫規(guī)??蓴U充,為將來進(jìn)行半自動甚至自動標(biāo)注提供支持。
本文組織結(jié)構(gòu)如下:第2節(jié)說明事實性標(biāo)注相關(guān)內(nèi)容,包括事實性相關(guān)信息和標(biāo)注規(guī)則的介紹;第3節(jié)介紹語料標(biāo)注過程,包括標(biāo)注工具的使用和標(biāo)注結(jié)果的保存;第4節(jié)對已構(gòu)建好的語料庫進(jìn)行數(shù)據(jù)統(tǒng)計和分析;最后第5節(jié)對現(xiàn)有工作進(jìn)行了總結(jié)并提出了未來工作的展望。
事件的事實性,又稱確定性和真實性,它表述了事件是否是事實的不同程度。在本文中,事件的事實性不是真實世界中的事實性,是根據(jù)事件上下文,該事件對于某一事件源的事實性。例如,E1中,“校長辭職事件”對于事件源“鄭微微”是一個確定發(fā)生事件。又如E2,“王十離婚事件”對于該報道的發(fā)表者而言是一個可能發(fā)生事件。參考英文事件事實性標(biāo)注的類別[1,4,7],本文將事件事實性分為五大類:當(dāng)然發(fā)生(Fact),當(dāng)然不發(fā)生(Counterfact),可能發(fā)生(Probable),可能不發(fā)生(Not probable)以及不確定是否發(fā)生(Uncertain)。
E1:鄭微微說王校長辭職了。
E2:王十可能和他的妻子離婚了。
事實性相關(guān)信息是具體標(biāo)注的對事件事實性有影響的內(nèi)容,可從詞匯和句子結(jié)構(gòu)兩個層面分析。
首先從詞匯角度來看,有一類詞通常以事件觸發(fā)詞的上層謂詞的形式出現(xiàn),代表事件敘述者對該事件的立場與態(tài)度。例如E3中的“懷疑”,E5中的“計劃”等。這類詞在本文中稱之為事件選擇謂詞(Event Selecting Predicate),謂詞有級別屬性,表示不同的謂詞對事件事實性的確定程度,有“確定”、“可能”、“不確定”三種取值。此外,還有一類文章級謂詞,其作用范圍為整篇文檔,通常出現(xiàn)在新聞稿中,如“中央臺綜合報道”中的“報道”一詞就是一個文章級的謂詞。
事件源與事件選擇謂詞聯(lián)系緊密,事件源是事件的敘述者,對事件態(tài)度的持有者。一個事件可以有多個事件源,本文定義了三個層次的來源:1)發(fā)布該事件的媒體/網(wǎng)站等(媒體源);2)文章作者(作者源);3)文中該事件的描述者(直接源)。下文我們主要介紹直接源的標(biāo)注,如E3和E5中的“警方”和“他”都是直接源。
此外,有一類詞,它們一般是修飾觸發(fā)詞的副詞或者助詞,在語義上表示事實性的確定程度或者事件發(fā)生時間。在E3中,“可能”一詞表示事件“逃離”的確定性為可能。本文稱這類詞為程度詞。程度詞有時態(tài)和級別兩個屬性分別表示事件事實性的時態(tài)和確定性程度。時態(tài)有“過去”、“現(xiàn)在”、“將來”和“無”四種取值,級別有“確定”、“可能”、“不確定”和“無”四種取值。
最后一類詞,它們對事件的級性有著決定性的影響,那就是否定詞。比較E3和E4,E4中因為有了否定詞“沒有”而使其事實性從可能發(fā)生變成可能不發(fā)生。
E3:警方懷疑嫌犯可能逃離香港。
E4:警方懷疑嫌犯可能還沒有逃離香港。
E5:他明天計劃去北京。
除了詞匯,一些特定的句子結(jié)構(gòu)也影響事件的事實性。在本文中,提出兩種對事件事實性有影響的從句類型:條件從句和目的從句。例如E6和E7所示。
E6:如果你來,我就走。
E7:為了和小三結(jié)婚,王十要和妻子離婚。
因此,在本文中,事實性相關(guān)信息包括從詞匯和句子結(jié)構(gòu)兩個層面,具體有:事件選擇謂詞、事件源、程度詞、否定詞和從句五類。表1是對事件事實性相關(guān)信息的總結(jié)和歸納。
表1 事件事實性相關(guān)信息
E8:當(dāng)?shù)卣畇0指責(zé)其暴行并加派p0[級別:確定]警力前往e0邊境加強保護(hù)。
注意:在中文中主語缺省是一個普遍的現(xiàn)象。
本小節(jié)分別介紹事件事實性相關(guān)信息的標(biāo)注規(guī)則。在例子中出現(xiàn)的下標(biāo)意義如下:“s“、“p”、“e”、“n”、“d”和“c”分別表示事件源、事件選擇謂詞、觸發(fā)詞、否定詞、程度詞和從句,后面跟著的數(shù)字表示序號。有屬性的事實性相關(guān)信息,其屬性表示在該詞后面"[]"中。
2.3.1 標(biāo)注事件選擇性謂詞和事件源
在ACE 2005中文語料庫中,文檔的媒體來源包含在文檔名字中,如新華社的新聞稿文檔名以“XIN”開頭,這類媒體源識別簡單。作者源通常以固定形式出現(xiàn)在新聞題材或者博客文檔中,如“我是徐亞文,歡迎您繼續(xù)收聽新聞”中的“徐亞文”。本節(jié)主要介紹直接源的標(biāo)注,它通常和事件選擇謂詞一起出現(xiàn),因此將這兩者的標(biāo)注一起介紹。
一般情況下,事件選擇謂詞是動詞。除此之外,也會出現(xiàn)名詞情況。
1)事件選擇謂詞為動詞時,選擇謂詞通常為事件觸發(fā)詞的上層謂詞,事件在謂詞的論元中被提及。直接源是謂詞的主語。例如E8、E9所示。在這種情況下,事件選擇謂詞和事件觸發(fā)詞連著出現(xiàn),位于觸發(fā)詞前。
E9:明天,他s0計劃p0[級別:可能](他)到e0上海去。
2)事件選擇謂詞為名詞時,通常是以一個復(fù)句中的分句形式出現(xiàn)。如E10所示。
E10:根據(jù)被害人s0的證詞p0[級別:確定],大約是半夜十二點回到e0家的。
如果將事件選擇謂詞按語義分類,可以分成以下幾大類:
發(fā)表型謂詞:例如,宣稱、告訴、透露等。當(dāng)然也包括非口頭式的,如撰寫、公布、發(fā)表等。
認(rèn)知型謂詞:所謂認(rèn)知型謂詞是指對應(yīng)的事件源原本對這個事件有了解(例如,知道,了解,懂得,記得),或者發(fā)現(xiàn)了某件事(例如,發(fā)現(xiàn)),或者忘記某件事(例如,忘記,遺忘),或者對某件事表示認(rèn)可(例如,贊成,支持,承認(rèn),接受等)。
意見型謂詞:比較典型的意見型謂詞有:建議,認(rèn)為,覺得,猜測,考慮等。就是事件源對之所持有的態(tài)度意見想法或者建議。
疑問型謂詞:事件源對該事件懷有疑問。比較典型的有:懷疑,詢問,好奇等。
感覺型謂詞:例如,看到,聽到,感覺到等。
推理型謂詞:這一類謂詞可以表示一種推理或者推斷的過程,例如,推斷,得出(結(jié)論),引出等。
生理型謂詞:生理型謂詞是指事件源對該事件發(fā)生的反應(yīng),一般有:愧疚,悔恨,欣喜,感激等。
證明型謂詞:例如,證明,顯示,解釋等。
對應(yīng)的直接事件源也就是某言論的發(fā)表者,某意見或者疑問的持有者,有某種感覺或者反映的載體等。
2.3.2 標(biāo)注否定詞
否定詞表示否定意義的詞,一般是修飾動詞的副詞,有時也有動詞情形。在標(biāo)注否定詞的過程,要關(guān)注否定詞的作用范圍,在本文中只標(biāo)注本事件在其作用范圍內(nèi)的否定詞,否則一律不標(biāo)注。在例E11和E12中,否定詞的范圍用“[]”表示。
1)否定詞為副詞
在動詞前,修飾動詞,作用范圍為該動詞在內(nèi)的子句。
E11:因為天氣原因,[會議e0并沒有n0如期舉行]。
2)否定詞為動詞。否定詞為動詞時,其作用范圍通常為該否定詞所在的子句。
E12:匕首型刀刃如果不用應(yīng)該及時收好,[避免n0被利器割傷e0]。
2.3.3 標(biāo)注程度詞
程度詞表示事件的確定性程度,主要有副詞和助詞構(gòu)成,極少情況也會出現(xiàn)動詞和形容詞等。程度詞有時態(tài)和級別屬性,但不是所有的程度詞都同時具備這兩個屬性,有的只有其中之一,因此,把程度詞分為三類分別討論。
1)時間程度詞
時間程度詞也就是純時態(tài)詞,一般為表示時間的副詞,例如,剛剛、將、日前等。例E13中“將”是一個表示將來的時間程度詞,它并不表示事件確定性的程度,其級別屬性為無。
E13:越南國家主席陳德良將d0[時態(tài):將來,級別:無]在12月15號到29號訪問e0中國大陸。
2)級別程度詞
級別程度詞是表示語氣的副詞,位于動詞前修飾動詞,表示事件事實性的確定性的程度。例如,可能,大約,大概,必須,的確等。例E14中“可能”是一個表示可能的程度詞。
E14:譚梅清可能d0[時態(tài):無,級別:可能]離開e0上海了。
3)混合程度詞
混合程度詞比較特殊,既表示程度又表示時間。按詞性分類可以是助詞、動詞和副詞。
混合程度詞可以是助詞,接在動詞后,表示結(jié)果,例如,(涌進(jìn))了,(救)下等。例E15中“了”是一個表示過去、確定的混合程度詞。
E15:民眾由各地涌進(jìn)e0了d0[時態(tài):過去,級別:確定]市區(qū)。
混合程度詞可以是動詞,一般以能愿動詞為主,如:要,能等等。例E16中“要”是能愿動詞,表示事件源“她”的意愿,因此其時態(tài)屬性為將來,級別屬性為可能。
E16:她宣稱是要d0[時態(tài):將來,級別:可能]帶兒子到e0賓州的一所軍校就讀。
混合程度詞也可以是副詞,在動詞前修飾動詞。例E17中“已經(jīng)”,作為副詞修飾動詞“移居”,其時態(tài)屬性為過去,級別屬性為確定。
E17:彭春燕已經(jīng)d0[時態(tài):過去,級別:確定]移居e0美國了。
2.3.4 標(biāo)注從句
從句的識別相對比較簡單,本文只標(biāo)注顯示從句,只要根據(jù)顯示連接詞標(biāo)注即可。如下例E18中“如果”就是條件從句的顯式連接詞。
E18:如果你趕在國慶之前回來c0,我就不走e0。(顯式條件從句)
為了提高標(biāo)注效率,我們開發(fā)了一個標(biāo)注工具。在標(biāo)注過程中,標(biāo)注人員只需在“全文”欄中選中需要標(biāo)注的內(nèi)容,然后點擊相應(yīng)的標(biāo)簽按鈕即可。例如,標(biāo)注事件源,首先在“全文”欄中選中事件源(如“新華社”),然后點擊“源”標(biāo)簽按鈕,在“標(biāo)注結(jié)果”框中就會顯示相應(yīng)標(biāo)注的結(jié)果。
在本文中,標(biāo)注工作在ACE 2005中文語料庫的基礎(chǔ)上展開,標(biāo)記方式遵循ACE 2005語料庫的標(biāo)記方法。標(biāo)注結(jié)果以XML標(biāo)簽的形式存儲在ACE 2005原有的apf文檔中。
其中,<facutality>表示事實性信息的根結(jié)點,<event_selecting_predicate>、<txt_predicate>、<source>、<txt_source>、<text_source>、<clause>、<negative_word>、<degree>作為<facutality>的子標(biāo)簽分別表示事件選擇謂詞、文章級謂詞、直接源、作者源、媒體源、從句、否定詞、程度詞的具體標(biāo)注內(nèi)容,例E19是一個標(biāo)注示例。
E19:
<factuality>//中文事件的事實性
<degree LEVEL="無"TENSE="過去">//程度詞
事件事實性的標(biāo)注工作只是我們工作的第一步,未來我們希望能夠?qū)崿F(xiàn)自動抽取事件的事實性信息,并利用事實性信息來提高事件抽取系統(tǒng)的性能。因此,本小節(jié)中,我們對此次標(biāo)注的語料庫進(jìn)行一系列的統(tǒng)計和分析,希望為我們即將開展的工作提供基礎(chǔ)性的指導(dǎo),便于我們分析具體的語言現(xiàn)象。
目前本文已經(jīng)標(biāo)注的語料有297篇文檔,標(biāo)注對象是ACE 2005中文語料庫中Movement事件的事實性。表2是五類事實性相關(guān)信息的標(biāo)注數(shù)量,其中事件選擇謂詞不包括文檔級別的謂詞,事件源的個數(shù)不包括作者源和媒體源的個數(shù)。從表2可以發(fā)現(xiàn),事件選擇謂詞和事件源的數(shù)量相當(dāng),因為它們通常結(jié)對出現(xiàn),極少數(shù)情況會省略源。另外,文檔級別的謂詞一般出現(xiàn)在新聞題材的文章中,其標(biāo)注情況如圖1a)所示,可以發(fā)現(xiàn)其出現(xiàn)的項相對集中穩(wěn)定。作者源的標(biāo)注,根據(jù)其題材的不同而不同。其中新聞稿和廣播的作者源以標(biāo)注具體的新聞社或者媒體平臺為主,沒有則標(biāo)注記者名。博客部分標(biāo)注發(fā)布者的名字,一般為網(wǎng)絡(luò)名。其統(tǒng)計情況如圖1b)所示。
表2 中文事件事實性信息語料庫具體標(biāo)注項統(tǒng)計
圖1 a)文檔級別的謂詞標(biāo)注情況統(tǒng)計圖;b)作者源的標(biāo)注情況統(tǒng)計圖
圖2是程度詞的時態(tài)屬性和級別屬性標(biāo)注結(jié)果的統(tǒng)計圖。圖2a)中,過去時態(tài)的程度詞最多,占總數(shù)一半以上;圖2b)中,級別為確定的程度詞最多,占總數(shù)一半以上;級別程度詞和時間程度詞,分別占總數(shù)的13%和28%。表3是程度詞的時態(tài)和級別屬性對標(biāo)注結(jié)果的統(tǒng)計情況。從表3發(fā)現(xiàn),(過去,可能)、(過去,不確定)、(現(xiàn)在,可能)和(現(xiàn)在,不確定)這四種屬性對出現(xiàn)次數(shù)均為0,這符合常識推理,因為一般過去和現(xiàn)在發(fā)生的事件都是確定的,這既表現(xiàn)在句子的詞語之間的相互呼應(yīng)和支撐,如“已經(jīng)……了”等。這也表現(xiàn)在具體的詞語的語義上,但是如果要表示過去的某件事并不能確定的語義情況,只能通過句子的不同表達(dá)方法來表達(dá),如“可能已經(jīng)……了”等。通過一個詞語既要表現(xiàn)過去或者現(xiàn)在的時態(tài),又要表示可能或不確定的語義,現(xiàn)實中是不存在的。表3的最后一行和最后一列是時間程度詞和級別程度詞的個數(shù),其中表示將來的時間程度詞最多,表示可能的級別程度詞最多。
圖2 a)程度詞的時態(tài)屬性標(biāo)注情況統(tǒng)計圖;b)程度詞的級別屬性標(biāo)注情況統(tǒng)計圖
表3 程度詞的屬性對標(biāo)注情況統(tǒng)計
表4是謂詞的級別屬性統(tǒng)計情況表,其中級別為確定的事件選擇謂詞最多,其次是可能,表示不確定的謂詞個數(shù)為0。表5是事實性結(jié)果的統(tǒng)計表,確定發(fā)生的事件最多,達(dá)到了66%,其次是可能發(fā)生事件,達(dá)到了20%。
表4 謂詞的級別屬性標(biāo)注情況統(tǒng)計
表5 事件的事實性標(biāo)注結(jié)果統(tǒng)計
最后,我們采用Kappa值作為衡量語料標(biāo)注一致性的指標(biāo)。在這里,我們利用兩位標(biāo)注者的標(biāo)注結(jié)果進(jìn)行一致性計算,由于結(jié)果Kappa值很理想,因此,沒有另外再請第三位標(biāo)注者進(jìn)行標(biāo)注。其中,五項事實性相關(guān)信息和三維體系的一致性分開獨立計算,互不影響。在計算一致性過程中,對于從句采用模糊匹配。例如,“為了和小三結(jié)婚”這個目的從句,標(biāo)注“為了”或者“為了和小三結(jié)婚”都可。其余的采用完全匹配的方式,只有當(dāng)兩位標(biāo)注者標(biāo)注的內(nèi)容完全一致時,才認(rèn)為兩位標(biāo)注者一致同意該實例的標(biāo)注。具體一致性統(tǒng)計結(jié)果,如表6、7所示。最后,還統(tǒng)計并且計算了兩位標(biāo)注者對事件事實性結(jié)果的一致度,大約為68.0%。
從表6中可以看出,否定詞的Kappa值不高,主要原因是進(jìn)行標(biāo)注工作的兩位標(biāo)注者,一位是標(biāo)準(zhǔn)規(guī)則的制定者,另一位標(biāo)注者則是其他項目組的成員,對本次標(biāo)注領(lǐng)域并沒有特別深刻的研究,因此在否定詞標(biāo)注過程中,只標(biāo)注了“顯式否定詞”,如“不”,“沒有”等等,對于一些具有否定性推理意義的詞并沒有標(biāo)注,如“原定”,“押后”等。
表6 事件事實性相關(guān)項的Kappa值統(tǒng)計
表7 三維體系Kappa值統(tǒng)計
本文首先介紹了中文事件事實性信息語料庫構(gòu)建的必要性和當(dāng)前存在的問題,然后介紹了中文事件事實性和一組影響事實性的具體項——事實性相關(guān)信息。本文重點介紹了這一組事實性相關(guān)信息的標(biāo)注規(guī)則,并且在ACE 2005中文語料庫的基礎(chǔ)上,標(biāo)注了Movement事件的事實性。最后對目前完成標(biāo)注的小型語料庫進(jìn)行統(tǒng)計分析,為下一步工作的開展提供基礎(chǔ)。從統(tǒng)計結(jié)果發(fā)現(xiàn),確定發(fā)生的事件比率最高,超過總數(shù)的一半。Movement事件事實性的標(biāo)注是標(biāo)注工作的一部分,標(biāo)注其他類型事件事實性以擴大語料庫規(guī)模是下一階段的工作,將來我們希望可以自動抽取事件的事實性相關(guān)信息,并利用事實性信息來提高事件抽取系統(tǒng)的性能。
[1]SauríR,Pustejovsky J FactBank:A Corpus Annotated with Event Factuality[J].2009,43(3):227-268.
[2]SauríR,Pustejovsky J.Are you sure that this hap-pened?Assessing the Factuality Degree of Events in Text[J].Computational Linguistics,2012,38(2):261-299.
[3]SauríR.FactBank1.0Annotation Guidelines[C]//Proceedings of the International Conference on Semantic Computing.2007:509-516.
[4]Vincze V,Szarvas G,F(xiàn)arkas R,et al.The BioScope Corpus:BioMedical Texts Annotated for Uncertainty,Negation and Their Scopes[J].BMC Bioinformatics,2008,9:11.
[5]Riza T,Sophia A.Building a Coreference-Annotated Corpus from the Domain of Biochemistry[C]//Proceedings of the 2011Workshop on Biomedical Natural Language Processing,ACL-HLT,2011:83-91.
[6]Vincze V.Speculation and Negation Annotation in Natural Language Texts:What the Case of BioScope might(not)Reveal[C]//Proceedings of the Workshop on Negation and Speculation in Natural Language Pro-cessing.Association for Computational Linguistics,2010:28-31.
[7]Kim J,Tomoko O,Junichi T.Corpus Annotation for Mining Biomedical Events from Literature[J].BMC Bioinformatics,2008:9-10.
[8]Ohta T,Tateisi Y,Kim J.The GENIA Corpus:An Annotated Research Abstract Corpus in Molecular Biology Domain[C]//Proceedings of the 2nd International Conference on Human Language Technology Research,2002:82-86.
[9]Rubin V L.Stating with certainty or stating with doubt:intercoder reliability results for manual annotation of epistemically modalized statements[C]//Proceedings of the NAACL-HLT,2007:141-144.
[10]SauríR,Verhagen M,Pustejovsky J.Annotating and Recognizing Event Modality in Text[C]//Proceedings of the 19th International FLAIRS Conference,F(xiàn)LAIRS,2006:333-339.