張牧宇,秦兵,劉挺
(哈爾濱工業(yè)大學(xué),黑龍江哈爾濱150001)
隨著詞匯語義、句子語義研究的逐漸成熟,篇章級(jí)語義分析逐漸成為研究熱點(diǎn),作為篇章語義分析的重要內(nèi)容,篇章句間關(guān)系研究(Discourse Relation)也開始受到越來越多的關(guān)注。該研究以分析文本塊間的因果、比較等語義關(guān)聯(lián)為目標(biāo),在缺少篇章級(jí)資源和方法的情況下,利用篇章句間關(guān)系將詞匯語義融合成為篇章級(jí)語義信息,成為語義分析的重要解決途徑之一,對(duì)自動(dòng)文摘[1]、自動(dòng)問答[2]、傾向性分析[3-4]以及文本質(zhì)量評(píng)價(jià)[5]、文本連貫性評(píng)價(jià)[6]等許多NLP任務(wù)起到了很大的幫助。
根據(jù)依賴的核心內(nèi)容不同,傳統(tǒng)的語義分析方法大致可以分為以下3類。
(1)以詞匯語義為核心的分析理論。詞匯鏈理論(Lexical Cohesion)通過分析詞匯語義構(gòu)建主題詞匯鏈,利用主題詞匯的分布和轉(zhuǎn)移情況分析篇章語義[7]。該理論的操作性較強(qiáng),但以詞匯為主要分析對(duì)象,表現(xiàn)力比較有限;中心理論[8]在給定的句子中跟蹤焦點(diǎn)變化,通過定義不同的焦點(diǎn)變化方式來描述篇章結(jié)構(gòu)并獲知語義信息。該理論主要關(guān)注句子間的焦點(diǎn)轉(zhuǎn)換,對(duì)篇章信息關(guān)注較少,轉(zhuǎn)移關(guān)系類型比較單一。
(2)以語義資源為核心的分析理論。框架語義學(xué)(FrameNet)通過構(gòu)建“語義框架”將語義知識(shí)轉(zhuǎn)化為計(jì)算機(jī)詞典[9],用詞義間的關(guān)聯(lián)反映語義。山西大學(xué)劉開瑛教授、李茹教授領(lǐng)導(dǎo)的課題組研究構(gòu)建了中文框架語義知識(shí)庫(kù)(Chinese FrameNet,CFN)。該理論語義信息豐富,便于計(jì)算機(jī)使用,但專業(yè)性極強(qiáng),構(gòu)建過程耗時(shí)耗力,腳本理論將文本語義轉(zhuǎn)化為具體的情景知識(shí),通過對(duì)典型場(chǎng)景建模將文本語義具體化[10]。該理論構(gòu)思巧妙,但現(xiàn)實(shí)場(chǎng)景無法窮盡,限制了實(shí)用性。
(3)以篇章結(jié)構(gòu)為核心的分析理論。修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,RST)將語義分析轉(zhuǎn)換為文本間的修辭結(jié)構(gòu)分析,用修辭結(jié)構(gòu)樹表示文本語義信息[11]。該理論非常完善,但關(guān)系定義偏近于修辭結(jié)構(gòu),操作性不強(qiáng);文本意義段劃分(Text tiling)通過統(tǒng)計(jì)詞匯共現(xiàn)和分布情況識(shí)別段落主題,并以主題為單位合并文本段,將篇章轉(zhuǎn)換為多個(gè)“意義段”的組合[12]。該理論以段落為分析對(duì)象,對(duì)分析語義結(jié)構(gòu)幫助較大,但分析過程依賴詞匯統(tǒng)計(jì),對(duì)語義信息使用較少。
第一類方法最為直觀,操作性強(qiáng),但以詞匯語義為核心,表現(xiàn)力略有不足;第二類方法表現(xiàn)力強(qiáng),但構(gòu)建過程費(fèi)時(shí)費(fèi)力,限制了實(shí)用性。第三類方法兼有表現(xiàn)力和實(shí)用性,但偏近于結(jié)構(gòu)分析,不利于操作。在這種情況下PDTB(Penn Discourse Treebank)[13]應(yīng)運(yùn)而生,該理論在PTB樹庫(kù)基礎(chǔ)上,以篇章關(guān)聯(lián)詞語為核心,從語義角度出發(fā)構(gòu)建了篇章句間關(guān)系樹庫(kù),語義信息豐富且操作性強(qiáng)。該理論以篇章關(guān)聯(lián)詞為核心,從任務(wù)定義、體系設(shè)計(jì)再到標(biāo)注方法,都是面向英文展開,考慮到中英文關(guān)聯(lián)詞使用和語義關(guān)系都存在一些差異,將PDTB體系直接平移到中文可能會(huì)出現(xiàn)偏差。
本文首次提出面向中文的篇章級(jí)句間語義關(guān)系體系,將基于篇章級(jí)句間關(guān)系的語義分析方法應(yīng)用于中文,通過分析中英文的差異指出中文體系的必要性,詳細(xì)介紹面向中文的語義關(guān)系體系并通過語料標(biāo)注證明了中文體系的一致性和完備性。余下內(nèi)容組織如下:第2節(jié)介紹篇章句間語義關(guān)系相關(guān)工作;第3節(jié)分析中英文的差異,說明中文體系的必要性;第4節(jié)介紹本文提出的中文篇章級(jí)句間語義關(guān)系體系;第5節(jié)介紹中文篇章級(jí)句間語義關(guān)系語料標(biāo)注及問題分析;第6節(jié)給出結(jié)論。
篇章句間關(guān)系理論包括RST和PDTB兩類,其中RST理論[11]的出現(xiàn)是篇章句間關(guān)系研究的第一次高潮。Marcu[14]在RST框架下提出了一種篇章樹結(jié)構(gòu)的分析方法;隨后Soricut[15]使用概率模型結(jié)合詞匯特征和句法特征分析了句子級(jí)的篇章結(jié)構(gòu);DuVerle[16]使用豐富的詞匯、句法和結(jié)構(gòu)化特征,采用SVM方法訓(xùn)練兩個(gè)獨(dú)立模型識(shí)別文本間的修辭關(guān)系;VW Feng[17]以RST體系為基礎(chǔ),使用了大量的語言學(xué)特征構(gòu)建了文本分析器。
PDTB體系提出并開放樹庫(kù)之后[13]出現(xiàn)了一系列相關(guān)研究。Pitler[5]通過統(tǒng)計(jì)關(guān)聯(lián)詞識(shí)別顯式關(guān)系(存在關(guān)聯(lián)詞的篇章句間關(guān)系),取得了非常好的效果;隨后Piter[18]使用句法信息分析篇章關(guān)聯(lián)詞的歧義問題,并對(duì)隱式關(guān)系識(shí)別進(jìn)行了探索[19];Wellner[20]和Elwell[21]分別使用了機(jī)器學(xué)習(xí)方法,以關(guān)聯(lián)詞為核心進(jìn)行了關(guān)系元素識(shí)別。
對(duì)于不存在關(guān)聯(lián)詞的關(guān)系(隱式關(guān)系)Lin[22]使用4類特征進(jìn)行了識(shí)別,證明句法產(chǎn)生規(guī)則最為有效;隨后Lin[23]提出了基于PDTB體系的篇章分析器,實(shí)現(xiàn)了篇章關(guān)聯(lián)詞識(shí)別、元素識(shí)別、關(guān)系分類等功能;Wang[24]采用核函數(shù)方法,結(jié)合時(shí)序信息識(shí)別篇章句間關(guān)系,取得了當(dāng)時(shí)的最佳效果;Zhou[25]選擇關(guān)聯(lián)詞插入隱式關(guān)系,并利用該關(guān)聯(lián)詞識(shí)別隱式關(guān)系類型;Chiarcos[26]利用事件關(guān)系指示詞幫助識(shí)別篇章句間關(guān)系。
目前除英文PDTB之外,印度語[27]、土耳其語[28]、阿拉伯語[29]也有類似的篇章句間關(guān)系研究出現(xiàn)。在中文上,Xue[30]針對(duì)篇章關(guān)聯(lián)詞進(jìn)行了研究,隨后Zhou[31]采用英文PDTB體系標(biāo)注了部分中文語料,但沒有提出適合中文特點(diǎn)的語義關(guān)系體系。本文提出面向中文的篇章句間語義關(guān)系體系,指出中文體系的必要性,并進(jìn)行了中文語料標(biāo)注和分析工作。
PDTB已經(jīng)出現(xiàn)并獲得了發(fā)展,但我們發(fā)現(xiàn)中英文間存在一些明顯差異,使得英文體系平移到中文時(shí)會(huì)出現(xiàn)一些偏差,主要包括以下幾個(gè)方面。
“英文重結(jié)構(gòu),中文重語義”,中文中有許多獨(dú)特的語義關(guān)系在英文PDTB體系中沒有體現(xiàn),平移到中文時(shí)體系覆蓋不完整,會(huì)出現(xiàn)信息丟失。
例1 為了報(bào)效祖國(guó),他苦練殺敵本領(lǐng)。
例2 他不但還清了債,還蓋了新房子。
例1表示目的語義,例2表示遞進(jìn)語義。這兩類關(guān)系在中文里非常常見,但英文PDTB體系沒有對(duì)應(yīng)的關(guān)系類型,對(duì)該類句子不進(jìn)行標(biāo)注,遺漏了很大一部分信息。本文通過定義“目的關(guān)系”、“遞進(jìn)關(guān)系”覆蓋以上兩類語義信息。
“英文多從句,中文多分句”,中文篇章經(jīng)常出現(xiàn)多個(gè)語義地位相似的連續(xù)分句,描述問題的若干方面,語義獨(dú)立且地位并列,英文PDTB體系沒有覆蓋并列語義的關(guān)系類型。
例3 一方面通過限購(gòu)和限貸減少市場(chǎng)上的投機(jī)性需求;另一方面,增加保障性住房和普通商品房的供應(yīng)。
例3中兩個(gè)分句說明并列的兩方面舉措,這種用法在中文非常常見。英文PDTB體系缺少對(duì)應(yīng)的關(guān)系類型,通常會(huì)識(shí)別為“擴(kuò)展關(guān)系”等,在后續(xù)使用中(例如問答)常常會(huì)將后半部作為附屬丟棄,導(dǎo)致信息丟失,實(shí)際上二者并沒有內(nèi)容上的從屬關(guān)系。本文通過定義“并列關(guān)系”獲得元素間的語義并列。
英文PDTB體系中包含面向時(shí)態(tài)信息定義的關(guān)系類型,由于中文缺少明顯的時(shí)態(tài)和從句信息,相關(guān)類型平移到中文時(shí)會(huì)導(dǎo)致識(shí)別困難,并影響信息間的區(qū)分方式。
例4 If they had this much trouble with Chicago,they are going to have an awful time with the rest.
例4屬于英文PDTB體系中“條件關(guān)系”下屬的“過去事實(shí)”,定義中使用了動(dòng)詞的時(shí)態(tài)信息。類似信息在中文里識(shí)別困難,而且依靠時(shí)態(tài)區(qū)別各類關(guān)系會(huì)隱藏信息間的其他區(qū)別。本文提出的中文體系刪除了時(shí)態(tài)相關(guān)關(guān)系類型,并采用其他區(qū)分標(biāo)準(zhǔn)重構(gòu)條件關(guān)系。
根據(jù)傳統(tǒng)的任務(wù)定義[13],篇章句間關(guān)系包括兩個(gè)元素,在偏正復(fù)句中兩者功能不同[32],需要在識(shí)別過程中加以區(qū)分。英文PDTB體系根據(jù)關(guān)聯(lián)詞的修飾關(guān)系區(qū)分元素:關(guān)聯(lián)詞修飾的元素稱為Arg2,另一個(gè)元素稱為Arg1。
例5 如果做完了功課(Arg2),你可以出去玩一會(huì)(Arg1)。
例6 做完了功課(Arg1),你就可以出去玩一會(huì)(Arg2)。
這種定義以關(guān)聯(lián)詞為核心,配合英文對(duì)關(guān)聯(lián)詞的嚴(yán)格限制可以滿足英文的處理要求。但該定義平移到中文時(shí)可能出現(xiàn)一些偏差,主要包括以下幾個(gè)方面。
(1)平行關(guān)聯(lián)詞
英文復(fù)句通常只允許一個(gè)關(guān)聯(lián)詞出現(xiàn),而中文復(fù)句允許多個(gè)關(guān)聯(lián)詞語同時(shí)出現(xiàn),兩個(gè)元素均有關(guān)聯(lián)詞修飾,按照英文定義無法區(qū)分Arg1和Arg2(例7)。
例7 因?yàn)楹永锝Y(jié)了冰,所以輪船開不出去了。
(2)關(guān)聯(lián)詞換位
英文關(guān)聯(lián)詞使用比較嚴(yán)格,以條件關(guān)系為例:關(guān)聯(lián)詞通常只出現(xiàn)在條件分句中(例5),因此英文PDTB條件關(guān)系只能覆蓋Arg1描述結(jié)果的實(shí)例,忽略Arg1描述條件的情況(例6)。中文關(guān)聯(lián)詞經(jīng)常在句子中換位出現(xiàn),平移英文定義會(huì)丟失例6中的語義關(guān)系。
(3)語義歧義
同一個(gè)語義內(nèi)容可以使用不同的關(guān)聯(lián)詞(例8~9)。按照英文PDTB的定義方式,同一個(gè)句子在語義內(nèi)容不變的情況下可以對(duì)應(yīng)兩種關(guān)系,這會(huì)導(dǎo)致更多的語義歧義。
例8 河里結(jié)了冰,所以輪船開不出去了。(原因關(guān)系)
例9 因?yàn)楹永锝Y(jié)了冰,輪船開不出去了。(結(jié)果關(guān)系)
本文提出基于物理順序的元素定義方法:將前置的元素設(shè)為Arg1,后置的為Arg2。該方法識(shí)別簡(jiǎn)便,適用任何語言變化,在平行關(guān)聯(lián)詞、關(guān)聯(lián)詞換位和隱式關(guān)系處理上優(yōu)勢(shì)明顯;此外,在這種定義下例8~9將具有相同的關(guān)系類型,更加符合語義邏輯。
“英文是法制的,中文是人治的”[32]。中英文的差異較大:從語義表現(xiàn)上講,中文缺少時(shí)態(tài)、從句等標(biāo)識(shí),句子間往往通過語義關(guān)聯(lián),關(guān)系更為豐富;從表達(dá)方式上講,中文關(guān)聯(lián)詞的使用更為隨意,行文非常靈活;從組織方式上講,中文沒有明顯的修飾結(jié)構(gòu),句子分割靈活,元素構(gòu)成更加復(fù)雜,因此直接使用英文體系處理中文存在一定偏差,有必要提出面向中文的篇章語義關(guān)系體系。
類似于傳統(tǒng)篇章句間關(guān)系[13],中文篇章句間語義關(guān)系體系包含3個(gè)層次內(nèi)容:篇章句間關(guān)系、關(guān)系元素、語義關(guān)系體系。
篇章句間關(guān)系 兩個(gè)文本塊間存在的語義關(guān)聯(lián),通常由關(guān)聯(lián)詞進(jìn)行標(biāo)識(shí)。根據(jù)關(guān)聯(lián)詞語不同可以分為以下3類。
(1)顯式關(guān)系:存在明顯的關(guān)聯(lián)詞語作標(biāo)識(shí)的篇章句間關(guān)系。
(2)隱式關(guān)系:缺少關(guān)聯(lián)詞語,需要進(jìn)行推理識(shí)別的篇章句間關(guān)系。
(3)替換關(guān)系:缺少關(guān)聯(lián)詞語,但具有功能類似的短語或其他成分的。
關(guān)系元素 構(gòu)成篇章句間關(guān)系的文本單元。根據(jù)關(guān)系類型不同可以分為以下3類。
(1)顯式關(guān)系元素:顯式關(guān)系元素以語義獨(dú)立為主、關(guān)聯(lián)詞為輔,允許嵌套情況,組成單位包括簡(jiǎn)單句、短語、復(fù)句、指代表達(dá)式4類。
(2)隱式關(guān)系元素:英文隱式關(guān)系只能位于段內(nèi)的相鄰句之間,考慮到中文跨句關(guān)系較多,中文體系取消了這個(gè)限制,隱式關(guān)系元素定義同顯式關(guān)系。
(3)替換關(guān)系元素:本文按照顯式關(guān)系處理替換關(guān)系,元素定義同顯式關(guān)系。
語義關(guān)系體系 篇章句間關(guān)系所有可能類型組成的層級(jí)體系,下面進(jìn)行詳細(xì)介紹。
中文篇章句間語義關(guān)系體系具有多層級(jí)結(jié)構(gòu):每個(gè)一級(jí)類目都包括若干二級(jí)類目,部分二級(jí)類目可以細(xì)化為三級(jí)類目。這種層級(jí)結(jié)構(gòu)符合多標(biāo)注一致性規(guī)則,保證定義的精確性,并且支持一些非常實(shí)用的推理。本文用Arg1標(biāo)識(shí)位置前置的元素,Arg2標(biāo)識(shí)位置后置的元素,用下劃線標(biāo)識(shí)關(guān)聯(lián)詞語。
4.2.1 時(shí)序關(guān)系
兩個(gè)元素是通過時(shí)序聯(lián)系起來,稱之為“時(shí)序關(guān)系”。
·同步關(guān)系
兩個(gè)元素存在一定時(shí)間重合,稱之為“同步關(guān)系”。
例10 當(dāng)[他打籃球]Arg1的時(shí)候,[天突然下起了雨]Arg2。
·異步關(guān)系
兩個(gè)元素存在時(shí)間上的先后順序,稱之為“異步關(guān)系”。
兩個(gè)元素中Arg1在Arg2之前發(fā)生,稱之為“先序關(guān)系”。
例11在[上課鈴打響]Arg1之后,[他才跑回了教室]Arg2。
兩個(gè)元素中Arg1在Arg2之后發(fā)生,稱之為“后序關(guān)系”。
例12在[上課鈴打響]Arg1之前,[他飛快地跑回了教室]Arg2。
4.2.2 條件關(guān)系
兩個(gè)元素中一個(gè)提出某種條件或場(chǎng)景,另一個(gè)說明產(chǎn)生的結(jié)果,稱之為“條件關(guān)系”。
·直接條件關(guān)系
兩個(gè)元素分別描述條件和結(jié)果,兩者存在直接的條件影響,稱之為“直接條件關(guān)系”。
條件元素為真時(shí),結(jié)果元素一定為真,稱之為“充分條件”。
例13只要[你通過了初試]Arg1,就[能參加面試了]Arg2。
結(jié)果元素為真時(shí),條件元素一定為真,稱之為“必要條件”。
例14只有[贏下這場(chǎng)比賽]Arg1,[他們才能進(jìn)入下一輪]Arg2。
無論條件元素是否為真,結(jié)果元素都將發(fā)生,稱之為“無條件”。
例15無論[明天是否晴天]Arg1,[我們都將上路]Arg2。
·形式條件關(guān)系
兩個(gè)元素中一個(gè)提出某種場(chǎng)景,另一個(gè)以此為背景展開內(nèi)容,不存在直接的條件影響,而是形式上的鋪墊,稱之為“形式條件關(guān)系”。
例16如果[誰要鑒賞我國(guó)的園林]Arg1,[蘇州園林就不該錯(cuò)過]Arg2。
4.2.3 比較關(guān)系
兩個(gè)元素描述的內(nèi)容存在某些差異,并且突出這種差異時(shí),稱之為“比較關(guān)系”。
·直接對(duì)比關(guān)系
兩個(gè)元素存在某些相似的屬性,突出兩者在該屬性上的差異,稱之為“直接對(duì)比關(guān)系”。
兩個(gè)元素在公用屬性上具有同趨勢(shì)的取值,稱之為“同向?qū)Ρ取薄?/p>
例17 2009年[公司盈利提升了69%]Arg1。但是[同年互聯(lián)網(wǎng)方面的開銷增加85%]Arg2。
兩個(gè)元素在公共屬性上具有不同趨勢(shì)的取值,存在一定語義轉(zhuǎn)折,稱之為“反向?qū)Ρ取薄?/p>
例18 [公司的銷售額提升了]Arg1。但是[利潤(rùn)卻沒有增加]Arg2。
·間接對(duì)比關(guān)系(轉(zhuǎn)折關(guān)系)
兩個(gè)元素沒有明顯的屬性對(duì)比,而是語氣轉(zhuǎn)折或話題轉(zhuǎn)換,稱之為“間接對(duì)比關(guān)系”。
例19 [中國(guó)的奢侈品消費(fèi)增長(zhǎng)如此之快]Arg1。但是[消費(fèi)者的眼光也越來越挑剔了]Arg2。
4.2.4 因果關(guān)系
兩個(gè)元素間存在事實(shí)性的因果影響,稱之為“因果關(guān)系”。
·直接因果關(guān)系(說明因果)
兩個(gè)元素中一個(gè)說明原因,另一個(gè)說明該原因?qū)е碌慕Y(jié)果,兩者均為客觀事實(shí),稱之為“直接因果關(guān)系”。
兩個(gè)元素中Arg1說明原因,Arg2說明該原因?qū)е碌慕Y(jié)果,稱之為“原因關(guān)系”。
例20 [他昨天淋了雨]Arg1。所以[今天有點(diǎn)發(fā)燒]Arg2。
兩個(gè)元素中Arg2說明原因,Arg1說明該原因?qū)е碌慕Y(jié)果,稱之為“結(jié)果關(guān)系”。
例21 [他不能來開會(huì)了]Arg1,因?yàn)椋鬯×耍軦rg2。
·間接因果關(guān)系(推論因果)
兩個(gè)元素中一個(gè)提出某些依據(jù),另一個(gè)由此得出主觀結(jié)論,稱之為“間接因果關(guān)系”。
例22 [警察認(rèn)定他撒了謊]Arg1。[他們?cè)谒淖∷业搅耸е鞯腻X包]Arg2。
·目的關(guān)系
兩個(gè)元素中一個(gè)提出某種目標(biāo),另一個(gè)指出該目標(biāo)所需的行動(dòng),稱之為“目的關(guān)系”。
例23 [為了讓老師相信他]Arg1,[他寫了八百多字的保證書]Arg2。
4.2.5 擴(kuò)展關(guān)系
兩個(gè)元素間存在內(nèi)容上的擴(kuò)展,推動(dòng)行文向前,稱之為“擴(kuò)展關(guān)系”。
·細(xì)化關(guān)系
兩個(gè)元素中一個(gè)是對(duì)另一個(gè)的展開和細(xì)化描述,稱之為“細(xì)化關(guān)系”。
兩個(gè)元素中Arg2是對(duì)Arg1的進(jìn)一步解釋,稱之為“解釋說明”。
例24 [這是一個(gè)很古老的故事]Arg1。[它發(fā)生在500年前那個(gè)混亂的年代]Arg2。
兩個(gè)元素中一個(gè)覆蓋了某個(gè)集合,另一個(gè)描述該集合的特定實(shí)例,稱之為“實(shí)例關(guān)系”。
例25 [今年他獲得了很多大獎(jiǎng)]Arg1。其中一個(gè)[是季度之星]Arg2。
兩個(gè)元素中一個(gè)提出某個(gè)理論,另一個(gè)指出例外情況,稱之為“例外關(guān)系”。
例26 [中國(guó)男足一直無法突破世界杯預(yù)選賽]Arg1,除了[02年韓日世界杯]Arg2。
·泛化關(guān)系
兩個(gè)元素中Arg2是對(duì)Arg1的總結(jié)和泛化時(shí),稱之為“泛化關(guān)系”。
例27 [這個(gè)蒸鍋可以蒸玉米、番薯、熱飯啥的,還可以煲湯]Arg1,總之[用處蠻大滴]Arg2。
·遞進(jìn)關(guān)系
兩個(gè)元素間是層進(jìn)關(guān)系,Arg2比Arg1更進(jìn)一層,稱之為“遞進(jìn)關(guān)系”。
例28 [他不但表達(dá)能力強(qiáng)]Arg1,而且[動(dòng)手能力也相當(dāng)不錯(cuò)]Arg2。
4.2.6 并列關(guān)系
兩個(gè)元素的內(nèi)容和語義相互并列,處于同等地位,稱之為“并列關(guān)系”。
·平行關(guān)系
兩個(gè)元素分別陳述幾個(gè)問題,或同一問題的幾個(gè)方面,稱之為“平行關(guān)系”。
例29 [近來開發(fā)商資金越來越緊張]Arg1,同時(shí)[政府的調(diào)控也在加強(qiáng)]Arg2。
·選擇關(guān)系
兩個(gè)元素描述一種選擇情況,稱之為“選擇關(guān)系”。
兩個(gè)元素均可供選擇并且都鼓勵(lì)嘗試,稱之為“相容選擇”。
例30 建議你[平時(shí)多多讀書]Arg1,或者[多和其他人交流]Arg2。
兩個(gè)元素只能二中選一,不能同時(shí)出現(xiàn),稱之為“互斥選擇”。
例31 要么[驕傲的死去]Arg1,要么[恥辱的活著]Arg2。
為了檢驗(yàn)中文篇章句間語義關(guān)系體系的合理性和完備性,本文首次進(jìn)行了中文體系上的語料標(biāo)注工作。我們認(rèn)為:如果多名標(biāo)注人員的一致性較高,說明語言實(shí)例到中文體系的映射比較一致,從而證明中文語義關(guān)系體系一致性較好;如果多名標(biāo)注者完全不同的實(shí)例較少,說明絕大多數(shù)關(guān)系實(shí)例都存在對(duì)應(yīng)的合適類型,從而證明中文語義關(guān)系體系的完備性。
顯式關(guān)系標(biāo)注:要求識(shí)別所有存在關(guān)聯(lián)詞標(biāo)識(shí)的篇章句間關(guān)系并確定類型,這里的關(guān)聯(lián)詞除常用詞外,還包括“面對(duì)著”、“一上來”、“其中一個(gè)”等短語活用現(xiàn)象。
隱式關(guān)系標(biāo)注:要求識(shí)別所有不存在關(guān)聯(lián)詞標(biāo)識(shí)的篇章句間關(guān)系,包括相鄰和跨句兩種情況,在識(shí)別之后需要標(biāo)注人員選擇合適的關(guān)聯(lián)詞插入句子標(biāo)識(shí)該關(guān)系。
元素標(biāo)注:要求識(shí)別構(gòu)成篇章句間關(guān)系的文本塊,包括短語、分句、分句組合、復(fù)句、句群等,并且允許嵌套。
本次標(biāo)注使用互聯(lián)網(wǎng)新聞?wù)Z料,來源包括新浪和搜狐兩個(gè)門戶網(wǎng)站。在網(wǎng)站新聞?lì)l道下屬的各個(gè)頂級(jí)類別下各選擇一篇質(zhì)量較好的語料,并分為兩組用于培訓(xùn)和測(cè)試。數(shù)據(jù)標(biāo)注由三名標(biāo)注者執(zhí)行,均有自然語言研究背景,但均無篇章句間關(guān)系研究經(jīng)歷。
為了證明中文體系的一致性,本文把語義標(biāo)注看成分類問題,采用標(biāo)準(zhǔn)Kappa值(式1)計(jì)算多名標(biāo)注人員的標(biāo)注一致性,并統(tǒng)計(jì)了多名標(biāo)注者結(jié)果完全相同的實(shí)例數(shù)目。
注:P(A)表示多名標(biāo)注者評(píng)定一致的百分比,P(E)表示理論上評(píng)定一致的百分比。
為了證明中文體系的完備性,本文統(tǒng)計(jì)了多名標(biāo)注人員結(jié)果完全不同的實(shí)例數(shù)目。如果這種強(qiáng)歧義的關(guān)系實(shí)例較多,說明現(xiàn)有體系中缺少合適的關(guān)系類型;反之則說明現(xiàn)有體系能覆蓋絕大多數(shù)關(guān)系實(shí)例。
本文采用嚴(yán)格匹配的方法計(jì)算3名標(biāo)注者(A1、A2、A3)的標(biāo)注一致性Kappa值:只有多個(gè)標(biāo)簽全部細(xì)化到底層類別,并且結(jié)果一致才認(rèn)為結(jié)果相同,詳細(xì)結(jié)果如表1所示。
分析下表可知:A2與A3標(biāo)注一致(A2=A3)的Kappa值最高,達(dá)到了74.10%;A1與A3標(biāo)注一致(A1=A3)的Kappa值為66.70%;而三名標(biāo)注者全部一致的Kappa值達(dá)到59.90%,整體Kappa值較高。根據(jù)之前分析,較高的標(biāo)注一致性說明中文篇章句間語義關(guān)系體系一致性較好。此外三名標(biāo)注者結(jié)果完全不同的實(shí)例極少,說明絕大部分實(shí)例都可以劃入合適的類別,從而證明中文體系的完備性。
另外值得注意的是三個(gè)標(biāo)注者彼此間標(biāo)注一致性差異較大:A2與A3標(biāo)注一致(A2=A3)的Kappa值達(dá)到了74.10%,而A1與A2標(biāo)注一致(A1=A2)的Kappa值只有59.30%;整體而言,標(biāo)注人員A1與A2、A3的一致性低于A2與A3的一致性。這從一個(gè)側(cè)面說明了語義問題的復(fù)雜性,標(biāo)注結(jié)果一定程度上依賴于標(biāo)注人員。語義問題本身具有歧義,再加上中文的變化較多,很難應(yīng)用統(tǒng)一的標(biāo)準(zhǔn)判別,為自動(dòng)處理增加了難度。
表1 標(biāo)注結(jié)果分析
語義問題本身具有一定的歧義性,再加上中文組織方式靈活,使得中文篇章句間關(guān)系分析更加困難。下面分析標(biāo)注過程中遇到的問題,并給出解決方案。
5.4.1 信息缺失
中文短句較多,很多分句的句法成分并不完整(例32加黑部分),但具有相對(duì)完整的語義(例如,省略、指代、特定表達(dá)),是否允許它們作為元素參與構(gòu)成關(guān)系值得我們思考。
例32 谷歌向開發(fā)人員提供這些工具還有什么意義呢?誰又愿意去開發(fā)那些需要ICS功能的應(yīng)用呢,更何況是Android 5.0?
目前考慮解決方案如下:
5.4.2 句法與語義關(guān)系的區(qū)別
中文允許分句作為句法成分,例32中“指出”以分句作為賓語,對(duì)行文展開有一定推動(dòng)作用,類似的句法關(guān)系是否屬于篇章句間關(guān)系的處理范圍值得我們思考。
例33 國(guó)外媒體今日撰文指出,谷歌每年推出一款重大升級(jí)的做法似乎并不恰當(dāng)。
目前考慮解決方案如下:
5.4.3 語義歧義
語義問題具有一定歧義性,加之中文語義表達(dá)方式豐富,使得很多關(guān)系類別的判定依賴于標(biāo)注人員。例34加黑部分介于“遞進(jìn)關(guān)系”與“解釋說明”之間,如何標(biāo)注類似的歧義關(guān)系值得我們思考。
例34 Android 4.0操作系統(tǒng)(代號(hào)“冰淇淋三明治”)自發(fā)布以來,僅占整個(gè)Android市場(chǎng)份額的1%。目前僅有一少部分手機(jī)和平板電腦采用Android4.0。
目前考慮解決方案如下:
本文首次提出了面向中文的篇章句間語義關(guān)系體系,對(duì)中文篇章句間關(guān)系研究進(jìn)行了初步嘗試,基于中文體系進(jìn)行了新聞?wù)Z料標(biāo)注,分析了標(biāo)注過程中遇到的問題并給出解決辦法,對(duì)中文篇章句間關(guān)系研究進(jìn)行了初步嘗試。
本文提出的篇章句間語義關(guān)系體系符合中文語言學(xué)相關(guān)理論,通過語料標(biāo)注和多名標(biāo)注人員的標(biāo)注一致性分析驗(yàn)證了中文篇章句間語義關(guān)系體系的合理性,同時(shí)反映語義問題自身的歧義性。通過對(duì)比中英文的差異指出英文體系平移時(shí)可能遇到的問題,指出中文體系的必要性,并提出針對(duì)性的調(diào)整方案。
在此基礎(chǔ)上,我們計(jì)劃開展以下工作內(nèi)容:中文篇章句間關(guān)系語料標(biāo)注及語料庫(kù)構(gòu)建;中文篇章句間關(guān)系類型的自動(dòng)識(shí)別方法;中文篇章句間關(guān)系元素的定義域自動(dòng)識(shí)別方法;文本多級(jí)語義關(guān)系嵌套問題的分析與解決;文本語義分析器的設(shè)計(jì)與實(shí)現(xiàn)。
[1] D Marcu.The theory and practice of discourse parsing and summarization[M].MIT Press,2000.
[2] R Girju.Automatic detection of causal relations for questions answering[C]//Proceedings of the ACL 2003Workshop on Multilingual Summarisation and Question Answering,2003:76-83.
[3] S Somasundaran,J Wiebe,J Ruppenhofer.Discourselevel opinion interpretation[C]//Proceedings of Coling 2008.
[4] Zhou L,Li B,Gao W,et al.Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities[C]//Proceedings of EMNLP 2011(Oral presentation),Edinburgh,Scotland,July 27-31,2011.
[5] E Pitler,A Nenkova.Revisiting readability:A unified framework for predicting text quality[C]//Proceedings of EMNLP 2008:186-195.
[6] Ziheng Lin,Hwee Tou NG,Min-Yen Kan.Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of ACL-HLT:997-1006.
[7] Morris J,Hirst G.Lexical cohesion computed by thesaural relations as an indicator of the structure of text[J].Computational Linguistics,1991,17(1):21-48.
[8] Grosz Barbara J,Aravind K Joshi,Scott Weinstein.Centering:A Framework for Modelling the Local Coherence of Discourse[J].Computational Linguistics,1995,21/2:203-25.
[9] Fillmore,Charles J.Frame semantics and the nature of language[J].In Annals of the New York Academy of Sciences:Conference on the Origin and Development of Language and Speech,1976,280:20‐32.
[10] Schank,R C,A belson,R Scripts,Plans,Goals,and Understanding[M].Hillsdale,N J:Earlbaum Assoc,1977.
[11] Mann William C,Sandra A Thompson.Rhetorical structure theory[C]//Proceedings of Toward a fanctional theory of text organizition Text 8.3.1988:243-281.
[12] Marti A.Hearst.TextTiling:Segmenting text into multi-paragraph subtopic passages[J].Computational Linguistics,1997,23(1):33-64.
[13] R Prasad,N Dinesh,A Lee,et al.The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and E-valuation(LREC 2008).
[14] Daniel Marcu.The Rhetorical Parsing[C]//Proceedings of Summarization,and Generation of Natural Language Texts.PhD thesis,University of Toronto,1997.
[15] Radu Soricut,Daniel Marcu.Sentence level discourse parsing using syntactic and lexical information[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Edmonton,Canada,2003.
[16] David duVerle,Helmut Prendinger.A novel discourse parser based on Support Vector Machine classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,2009.
[17] VW Feng,Hirst.Text-level Discourse Parsing with Rich Linguistic Features[C]//Proceedings Of ACL 2012.
[18] E Pitler,Ani Nenkova.Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP 2009,Conference Short Papers,Singapore,2009.
[19] E Pitler,Annie Louis,Ani Nenkova.Automatic sense prediction for implicit discourse relations in text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,2009.
[20] Ben Wellner,James Pustejovsky.Automatically identifying the arguments of discourse connectives[C]//Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Czech Republic,2007.
[21] Robert Elwell,Jason Baldridge.Discourse connective argument identification with connective specific rankers[C]//Proceedings of the IEEE International Conference on Semantic Computing,Washington,DC,USA,2008.
[22] Ziheng Lin,Min-Yen Kan,Hwee Tou Ng.Recognizing implicit discourse relations in the Penn Discourse Treebank[C]//Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing,Singapore,2009.
[23] Ziheng Lin,Hwee Tou Ng,Min-Yen Kan.A PDTB-styled end-to-end discourse parser[C]//Proceedings of Technical Report TRB8/10,School of Computing,National University of Singapore,August,2010.
[24] WenTing Wang,Jian Su,Chew Lim Tan.Kernel based discourse relation recognition with temporal ordering information[C]//Proceedings of the 48th Annual Meeting of the Association for Computation,2010.
[25] Z Zhou,Y Xu,Z Niu,et al.Predicting discourse connectives for implicit discourse relation recognition[C]//Proceedings of Coling 2010:1507-1514.
[26] C Chiarcos.Towards the Unsupervised Acquisition of Discourse Relations[C]//Proceedings of ACL,2012.
[27] Rashmi Prasad,Samar Husain,Dipti Sharma,Aravind Joshi.Towards an annotated corpus of discourse relations in Hindi[C]//Proceedings of the Third International Joint Conference on Natural Language Processing,Hyderabad,India,2008b.
[28] Deniz Zeyrek,Bonnie Webber.A Discourse Resource for Turkish:Annotating Discourse Connectives in the METU Corpus[C]//Proceedings of IJCNLP-2008.Hyderabad,India,2008.
[29] Amal Al-Saif and Katja Markert.Modelling discourse relations for Arabic[C]//Proceedings,Empirical Methods in Natural Language Processing,2011:736-747.
[30] Xue Nianwen.Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of The ACL Workshop in Frontiers in Annotation II:Pie in the Sky.Ann Arbor,Michigan:ACL,2005.
[31] Yuping Zhou,Nianwen Xue.PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of ACL 2012.
[32] 王力.《王力文集》.山東:山東教育出版社.1984:35-36.