劉露
(四川大學(xué)計算機(jī)學(xué)院,成都610065)
自然語言處理(Natural Language Processing,NLP)的研究從表層的詞匯理解延伸到更深層次的句法語義,研究粒度從單個的詞的語義到短語、句子,直至篇章。隨著詞匯、句子語義研究的不斷發(fā)展和逐漸成熟,篇章分析慢慢變成了研究的重點(diǎn)。
篇章是指由一系列連續(xù)的子句、句子或語段構(gòu)成的語言的整體單位。一篇文章、一段會話都可以看成是篇章。在一個篇章內(nèi)的各個篇章單元(子句、句子或語段)之間不是簡單的排列堆疊,而是具有一定的層次結(jié)構(gòu)和語義關(guān)系。篇章分析任務(wù)旨在研究同一篇章內(nèi)各個單元之間的內(nèi)在邏輯關(guān)系。進(jìn)行篇章分析研究能夠輔助許多其它的自然語言處理任務(wù),具有重要的研究意義。例如,篇章的因果關(guān)系可用于自動問答(Question An?swering)[1]和事件關(guān)系抽?。‥vent Relation Extraction)[2];對比關(guān)系可用于情感分析(Sentiment Analysis)[3];擴(kuò)展關(guān)系可用于自動文摘(Text Summarization)[4]。
現(xiàn)有的篇章分析研究主要分為了基于修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,RST)的文本級篇章分析和基于賓州篇章樹庫理論(Penn Discourse Treebank,PDTB)的句子級篇章分析。不管是文本級的篇章分析還是句子級的篇章分析,其研究的難點(diǎn)問題都是篇章單元之間的關(guān)系識別。
篇章關(guān)系根據(jù)篇章文本中有無連接詞(如“thus”,“however”)出現(xiàn)分為了顯式和隱式兩種。由于連接詞對篇章關(guān)系有很強(qiáng)的指示作用(如“thus”指示因果關(guān)系,“however”指示轉(zhuǎn)折關(guān)系),顯式的篇章關(guān)系識別已經(jīng)取得了較好的效果,僅使用連接詞作為特征就能達(dá)到93%的準(zhǔn)確率[5]。而隱式篇章關(guān)系識別由于缺乏連接詞作為“線索”,只能通過兩個篇章單元的語義來推斷篇章關(guān)系,是目前篇章關(guān)系識別研究的瓶頸問題。
本文主要介紹了隱式篇章關(guān)系識別研究任務(wù)并總結(jié)了現(xiàn)有的研究工作。本文的后續(xù)內(nèi)容如下,第1小節(jié)介紹現(xiàn)有的主要的篇章分析理論及語料;第2小結(jié)詳細(xì)闡述了隱式篇章關(guān)系識別任務(wù);第3小節(jié)給出了針對隱式篇章關(guān)系識別研究的相關(guān)工作和研究現(xiàn)狀;最后,在第4小節(jié)進(jìn)行了總結(jié)并討論了未來的改進(jìn)和研究方向。
早在上世紀(jì)70年代,就有學(xué)者對篇章分析進(jìn)行了研究,為了更好地定義、實(shí)現(xiàn)篇章分析這一任務(wù),產(chǎn)生大量的篇章分析理論,包括中心理論(Centering)、修辭結(jié)構(gòu)理論(RST)、篇章圖樹庫理論(Discourse Graph?Bank)和賓州篇章樹庫理論(PDTB)。這些理論在一定程度上推動了篇章分析任務(wù)的發(fā)展?,F(xiàn)有的篇章分析研究主要基于修辭結(jié)構(gòu)理論RST和賓州篇章樹庫理論P(yáng)DTB兩種。
Mann和Thompson等人[6]提出的修辭結(jié)構(gòu)理論(RST)是最廣泛接受的語篇分析框架之一。在修辭結(jié)構(gòu)理論RST中,篇章文本劃分成了基本篇章單元(Ele?mentary Discourse Units,EDU)。關(guān)聯(lián)性強(qiáng)的EDU單元通過修辭關(guān)系進(jìn)行組合,形成大的語篇單元(Span),大的語篇單元再根據(jù)修辭關(guān)系組合形成更大的語篇單元,直至形成一棵覆蓋語篇所有單元的樹。修辭關(guān)系可分為單核(Mononuclear)和多核(Multinuclear)。單核關(guān)系包含一個“核”(Nucleus)語句和一個“衛(wèi)星”(Satellite)語句,其中“核”表達(dá)主要的文本信息,“衛(wèi)星”表達(dá)次要的其他信息。而多核關(guān)系包含兩個或多個語句,它們都是“核”。基于修辭結(jié)構(gòu)理論的篇章分析可看做文本級的篇章分析,其主要子任務(wù)為EDU界定、篇章關(guān)系識別、核-衛(wèi)星識別和篇章結(jié)構(gòu)生成。
根據(jù)修辭結(jié)構(gòu)理論RST,Carlson等人標(biāo)注了RST語篇樹庫(RST-DT),由LDC于2002年發(fā)布①https://catalog.ldc.upenn.edu/LDC2002T07.。該語料包括了來自Wall Street Journal的385篇文檔,標(biāo)注了78種篇章關(guān)系(53種單核,25種多核)。圖1中展示了RST-DT中的一條示例。該示例文本片段由四個EDU(edu1-edu4)組成,并用方括號分隔。在該文本片段的樹形篇章結(jié)構(gòu)中,edu1和edu2通過單核關(guān)系A(chǔ)t?tribution關(guān)聯(lián)形成語篇單元edu1-edu2,其中edu1為“核”,edu2為“衛(wèi)星”,箭頭由“衛(wèi)星”語句指向“核”語句;edu1-edu2和edu3通過多核關(guān)系Same-Unit關(guān)聯(lián)形成edu1-edu3;最后edu1-edu3和edu4通過單核關(guān)系Condition關(guān)聯(lián)形成了完整的句子的篇章樹。
Miltsakaki和Prased等人[7]遵循篇章詞匯化樹型連接語法D-LTAG(Discourse Lexicalized Tree Adjoining Grammar)標(biāo)注了賓州篇章樹庫PDTB(Penn Discourse Tree Bank)。PDTB采用“謂詞-論元”(Predicate-Argu?ments)的思想,將篇章文本標(biāo)注為“連接詞-論元”(Con?nective-Argument)的結(jié)構(gòu)。其中,連接詞所銜接的兩個文本片段稱為論元(Argument),分別記為Arg1和Arg2。不同于修辭結(jié)構(gòu)理論RST,它只是從相鄰、相近的篇章單元推導(dǎo)出部分的篇章結(jié)構(gòu),并不直接形成整體篇章的樹形結(jié)構(gòu)。篇章關(guān)系根據(jù)文本中有無連接詞(如however,thus)的出現(xiàn)分為了顯式和隱式?;谫e州篇章樹庫理論的篇章分析可看做句子級的篇章分析,其主要子任務(wù)為論元切分、連接詞識別、顯式篇章關(guān)系識別和隱式篇章關(guān)系識別。
圖1 RST-DT篇章結(jié)構(gòu)樹示意圖
LDC于2008年發(fā)布PDTB2.0是目前規(guī)模最大的英文篇章關(guān)系語料庫,它包括了來自Wall Street Journal的2500多篇文檔,共四萬多個篇章關(guān)系實(shí)例。PDTB中將篇章關(guān)系分成了三層,第一層4類(Contingency,Comparison,Expansion,Temporal),第二層16類,第三層23類,共43類。圖2展示了PDTB2.0中的兩條篇章關(guān)系樣例。其中,第一條(a)為顯式篇章關(guān)系,根據(jù)論元Arg2中“but”連接詞可知為Comparison關(guān)系;第二條(b)為隱式篇章關(guān)系,根據(jù)兩個論元的語義可推斷是Expansion關(guān)系。
圖2 PDTB2.0篇章關(guān)系樣例
隱式篇章關(guān)系的識別可看作多類別的分類問題,可使用多個二元分類器或多分類器實(shí)現(xiàn)。處理這個任務(wù)一般分為兩個步驟,一是確定一組理想的特征來表示兩個論元,二是將這些特征應(yīng)用到分類器中進(jìn)行分類。圖3展示了處理隱式篇章關(guān)系識別問題的一般框架。首先,通過嵌入層將輸入的兩個論元Arg1、Arg2的詞序列轉(zhuǎn)換為對應(yīng)的詞向量;然后通過編碼器En?coder(如卷積神經(jīng)網(wǎng)絡(luò)CNN、長短時記憶網(wǎng)絡(luò)LSTM、遞歸神經(jīng)網(wǎng)絡(luò)等)編碼論元的語義信息以獲取論元的表示;通過注意力機(jī)制、張量神經(jīng)網(wǎng)絡(luò)NTN等方式捕捉論元對之間的交互信息作為論元對的特征;最后,將這些特征應(yīng)用到分類器(如多層感知器MLP)中進(jìn)行分類。
圖3 處理隱式篇章關(guān)系識別任務(wù)的一般框架
由于具有隱式篇章關(guān)系的文本中不存在對篇章關(guān)系有指示作用的連接詞,因此需要根據(jù)論元的語義來識別篇章關(guān)系,這是目前研究的難點(diǎn)。隨著PDTB 2.0數(shù)據(jù)集的公開,已經(jīng)有很多針對隱式篇章關(guān)系識別任務(wù)的研究工作。
早期的工作主要是使用人工構(gòu)造特征的方法設(shè)計各種特征表示論元,如詞性標(biāo)簽(Part-of-speechtags)、動詞(Verbs)、極性詞(Plority)、論元開頭的詞和結(jié)尾詞(First-Last,First3)、句法樹(Production Rules)以及分別來自兩個論元的詞對信息(Word Pairs)等。Pitler[8]、Lin[9]、Park[10]等人通過實(shí)驗(yàn),證明了不同特征對不同篇章關(guān)系的有效性,正確的特征組合可以有效促進(jìn)隱式篇章關(guān)系識別分類器任務(wù)的效果。但人工構(gòu)造特征的方式具有耗時費(fèi)力、工作量大,句法樹、詞性等這類特征需要依賴于外部資源,詞對特征等十分有效卻會遭遇稀疏問題等缺點(diǎn)。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,且神經(jīng)網(wǎng)絡(luò)在一定程度上能夠自己學(xué)習(xí)特征,減少人工構(gòu)造特征的代價,捕獲深層次的語義特征,基于神經(jīng)網(wǎng)絡(luò)的方法逐漸應(yīng)用于隱式篇章關(guān)系識別任務(wù)中。隱式篇章關(guān)系識別的神經(jīng)網(wǎng)絡(luò)方法主要集中于解決兩個問題:一是如何建模句子以捕獲論元語義;二是如何捕獲論元間的語義交互。
現(xiàn)有的工作多使用卷積神經(jīng)網(wǎng)絡(luò)CNN,遞歸神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)RNN及其變體LSTM、BiLSTM、Tree-LSTM編碼論元的語義和語法信息。使用注意力機(jī)制,神經(jīng)張量網(wǎng)絡(luò)NTN等捕獲論元之間的交互信息。由于淺層的詞對特征存在稀疏問題和語義鴻溝(sematic gap)問題,Chen[11]等人提出使用預(yù)先訓(xùn)練的詞向量并通過BiLSTM編碼論元中的每個詞,然后通過門相關(guān)網(wǎng)絡(luò)(Gate Relevance Network)捕獲詞對之間的線性和非線性交互信息作為特征進(jìn)行分類。Liu[12]等人根據(jù)人們常通過重復(fù)閱讀理解句子語義的習(xí)慣,提出多層注意力(Multi-level Attention)機(jī)制模擬重復(fù)閱讀的過程以獲取更好的論元表示,從而促進(jìn)隱式篇章關(guān)系識別的效果。Bai[13]等人通過不同粒度的文本表示(包括字符、子詞、詞、句子和句子對)來增強(qiáng)論元的語義表達(dá),在最后的句子對層中使用雙向注意力(Bi-Atten?tion)捕捉論元對之間的交互信息,Bai的方法在PDTB2.0的第一層四分類上的識別結(jié)果F1值達(dá)到了51.06%。Cai[14]等人根據(jù)人們順序閱讀的習(xí)慣,通常會帶著第一個論元(Arg1)的信息閱讀第二論元(Arg2),提出配對感知的句子建模(Pair-aware Sentence Modeling)網(wǎng)絡(luò),在編碼Arg2中的詞時通過注意力機(jī)制考慮當(dāng)前詞與Arg1中每個詞的交互作用,促進(jìn)Arg2獲得更好的論元表示。Guo[15]等人使用交互注意力和稀疏學(xué)習(xí)的張量網(wǎng)絡(luò)(Neural Tensor Network with Interactive At?tention and Sparse Learning)捕捉論元之間重要的交互信息來識別隱式篇章關(guān)系。
另外一些工作通過引入其他信息輔助隱式篇章關(guān)系的識別。Zhou[16]等人先預(yù)測可能的連接詞,再將連接詞作為特征進(jìn)行隱式的篇章關(guān)系識別。Qin[17]、Xu[18]等人試圖利用顯式的篇章關(guān)系樣例進(jìn)行數(shù)據(jù)擴(kuò)充以解決隱式篇章關(guān)系的標(biāo)注數(shù)據(jù)少的問題。Liu[19]、Lan[20]等人使用多任務(wù)的方式,希望通過其他相關(guān)任務(wù)如連接詞預(yù)測、顯式篇章關(guān)系識別任務(wù)來促進(jìn)隱式篇章關(guān)系的識別效果。
本文介紹了主流的篇章分析理論和語料,闡述了隱式篇章關(guān)系識別研究內(nèi)容,并總結(jié)了相關(guān)的研究工作。隨著PDTB2.0數(shù)據(jù)集的公布,雖然已經(jīng)有了很多針對隱式篇章關(guān)系識別的研究工作,并取得了不錯的效果,但目前隱式篇章關(guān)系識別準(zhǔn)確率仍不高(低于60%),不能滿足實(shí)際應(yīng)用的需要。一方面如何建模論元獲取更好的特征表達(dá)很困難,另一方面神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的樣例,但能獲取的標(biāo)注數(shù)據(jù)有限,且各類別的數(shù)據(jù)分布極其不均衡,因此進(jìn)一步的隱式篇章關(guān)系的識別研究可從這兩方面著手。隨著語義研究的深入和自動擴(kuò)充數(shù)據(jù)技術(shù)的成熟,隱式篇章關(guān)系識別的效果將進(jìn)一步提升。