李 婧,徐 昇,李培峰
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
事件時(shí)序關(guān)系描述了不同事件發(fā)生的先后順序[1](如前(BEFORE),后(AFTER)等)。在該任務(wù)中,事件通常指一個(gè)單獨(dú)的詞語,例如,在句子S1中,事件“示威”發(fā)生在“受傷”之前,因此,“示威”和“受傷”的時(shí)序關(guān)系為“BEFORE”。事件時(shí)序關(guān)系識別是自然語言處理中的一個(gè)重要課題,獲得了越來越多的研究者的重視,該任務(wù)對于特定領(lǐng)域的相關(guān)工作有很大幫助。例如,在自動摘要[2]中,可以通過理清事件發(fā)展的順序而梳理文本脈絡(luò),有效進(jìn)行摘要的推理與生成;在自動問答[3]中,可以為一些涉及到時(shí)間關(guān)系的問題提供線索,為其匹配更加合理的答案。
S1: 在警方驅(qū)散示威人群的過程中,至少有5個(gè)人受傷。
近年來,比較流行的事件時(shí)序關(guān)系語料庫有TimeBank[4]和TimeBank-Dense[5]等,然而這些語料庫都只聚焦于句子級事件時(shí)序關(guān)系,即兩個(gè)事件出現(xiàn)在同句或者鄰句中。句子級事件時(shí)序關(guān)系不適合應(yīng)用于篇章級別的自然語言處理任務(wù)中,如文本時(shí)間軸構(gòu)建和故事時(shí)間線構(gòu)造等。此外,受限于語料庫,目前絕大多數(shù)事件時(shí)序關(guān)系識別研究聚焦于英文,中文事件時(shí)序關(guān)系識別研究進(jìn)展較慢。相對于英文而言,中文表達(dá)方式更多變,句間連接詞更少,給該任務(wù)帶來了更大挑戰(zhàn)[6]。
為了進(jìn)一步挖掘整篇文章中各事件間的時(shí)序關(guān)系,本文將研究篇章級中文事件時(shí)序關(guān)系識別,研究對象包括同句、鄰句和跨句的中文事件時(shí)序關(guān)系。相較于句子級中文事件時(shí)序方法,篇章級方法可更多地考慮到相距較遠(yuǎn)的兩個(gè)事件間的時(shí)序關(guān)系,這對于一些篇章級別的下游任務(wù)有很大的現(xiàn)實(shí)應(yīng)用價(jià)值。如圖1所示,本文在該篇章中標(biāo)出了6個(gè)事件實(shí)例(用事件觸發(fā)詞表示),為了簡化此圖,只列出了其中5個(gè)時(shí)序關(guān)系(實(shí)際上任意兩個(gè)事件實(shí)例間都存在某種時(shí)序關(guān)系),包括同句、鄰句和跨句關(guān)系。該篇章圍繞一個(gè)主題展開,包含多個(gè)事件實(shí)例。為了梳理清楚事件的發(fā)展脈絡(luò),將所有事件實(shí)例進(jìn)行時(shí)序關(guān)系識別很有必要。如果僅僅在句子級研究時(shí)序關(guān)系,那么一整條時(shí)間軸將會被割裂,從而無法很好地梳理篇章脈絡(luò)及大意,無法為下游任務(wù)服務(wù)。
圖1 篇章級別事件時(shí)序關(guān)系識別示例圖
相較句子級事件時(shí)序關(guān)系識別,篇章級任務(wù)更加困難。由于跨句的兩個(gè)事件在物理上孤立,事件之間缺乏必要的句法級別的交互信息(如連接詞、共用的事件論元等)。因此,模型很難學(xué)習(xí)到兩者之間的聯(lián)系,從而難以識別兩者的時(shí)序關(guān)系。Reimers等人[7]和Naik等人[8]指出,在現(xiàn)有的語料庫中,篇章級事件時(shí)序關(guān)系標(biāo)注的流行程度較低,這使得以前僅考慮事件對局部特征的模型不適用于篇章級事件時(shí)序關(guān)系識別,例如,最短依存路徑(Shortest Dependence Path,SDP)[9]。此外,傳遞性是事件時(shí)序關(guān)系的特有屬性,篇章級事件時(shí)序關(guān)系識別任務(wù)更需要利用不同事件實(shí)例間的時(shí)序關(guān)系傳遞性特性,以達(dá)到利用中間事件實(shí)例作為橋梁來連接相隔較遠(yuǎn)事件實(shí)例的效果。
針對以上挑戰(zhàn),本文提出一種基于篇章圖模型的中文事件時(shí)序關(guān)系識別模型,主要貢獻(xiàn)如下: (1)本文提出一種事件時(shí)序關(guān)系識別方法,有效地通過兩種圖模型提升篇章時(shí)序關(guān)系識別性能; (2)本文通過篇章圖模型將一個(gè)篇章中的所有事件相互連接交互信息以加強(qiáng)跨句的時(shí)序關(guān)系識別性能; (3)在篇章級中文事件時(shí)序關(guān)系語料上的實(shí)驗(yàn)表明,本文方法的性能優(yōu)于現(xiàn)有最好的方法。
目前幾乎所有事件時(shí)序關(guān)系語料庫都集中在英文上,例如,TimeBank[4],TimeBank-Dense[5]和MATRES[10],這些語料庫都只標(biāo)注了句子級時(shí)序關(guān)系,卻忽視了篇章級時(shí)序關(guān)系。在TimeBank-Dense的基礎(chǔ)上,Naik[9]等人第一次構(gòu)建了一個(gè)篇章級別的英文事件時(shí)序關(guān)系語料TDD。中文事件時(shí)序關(guān)系語料庫相較于英文更加少,Li等人[6]創(chuàng)建的由700多條句子組成的時(shí)序語料庫和TempEval[1]中的一個(gè)小型事件時(shí)序關(guān)系數(shù)據(jù)集都規(guī)模太小。大部分中文事件時(shí)序關(guān)系識別的研究都在ACE2005-extended時(shí)序關(guān)系語料庫[11]上展開,該語料庫將一篇文章中預(yù)先定義類型的事件兩兩之間全部標(biāo)注上時(shí)序關(guān)系,包括同句、鄰句和跨句,由此形成了全連接的篇章級中文事件時(shí)序關(guān)系語料庫。
絕大部分的事件時(shí)序關(guān)系識別研究是句子級且針對英文。在英文上,傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)方法[12-14]專注于提取文本中的各種特征,如實(shí)體特征,詞性特征和形態(tài)學(xué)特征等,并在此基礎(chǔ)上使用分類器進(jìn)行分類,如支持向量機(jī),決策樹和最大熵分類器等。
隨著機(jī)器學(xué)習(xí)的發(fā)展,近期的工作多數(shù)使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行事件時(shí)序關(guān)系識別。受Xu等人[15]的啟發(fā),Cheng和Miyao[16]使用最短依存路徑作為雙向長短期記憶網(wǎng)絡(luò)的輸入來識別同句和鄰句的事件時(shí)序關(guān)系,在不使用任何手工特征的情況下,取得了和當(dāng)時(shí)最好的模型相當(dāng)?shù)男阅?。Zhang等人[17]構(gòu)建了一個(gè)句法導(dǎo)向圖模型來獲取事件間深層次的聯(lián)系。為了獲取更加豐富的特征表示,聯(lián)合學(xué)習(xí)[18]和多任務(wù)學(xué)習(xí)[19]的方法也被應(yīng)用于該任務(wù)中。為了克服輸入端信息過少的限制,外部知識庫被用來增加更多的信息以達(dá)到更好的分類性能[20]。相較于句子級別的事件時(shí)序關(guān)系識別,較少的工作集中在篇章級別任務(wù)上。
篇章級事件時(shí)序關(guān)系識別相關(guān)研究較少。Naik等人[8]在篇章級語料庫TDD上復(fù)現(xiàn)了一些常規(guī)的方法(如MAJORITY、Bi-LSTM)。Liu等人[21]將每篇文章看作一個(gè)無導(dǎo)向的圖,結(jié)點(diǎn)代表事件,邊代表事件間時(shí)序關(guān)系,通過遮掩邊的方法來訓(xùn)練模型讓其學(xué)習(xí)事件間的時(shí)序依賴關(guān)系。
只有很少的研究集中在中文上。與英文上的研究類似,早期的工作都是使用統(tǒng)計(jì)學(xué)習(xí)的方法,如概率決策樹(Probabilistic Decision Tree)[22]和樸素貝葉斯模型(Naive Bayesian Classifier)[23]等被用來分析句子間的時(shí)序關(guān)系。Li等人[11]第一次使用詞匯特征、句法特征和全局優(yōu)化的方法(如事件相關(guān)性和連接約束)進(jìn)行篇章級別的中文事件時(shí)序關(guān)系識別。
綜上所述,無論在英文上還是中文上,大多數(shù)方法只是針對句子級別的事件時(shí)序關(guān)系識別。本文提出了一種篇章級事件時(shí)序關(guān)系識別方法,通過事件句間的相鄰關(guān)系來構(gòu)建篇章級別的圖模型,讓相隔較遠(yuǎn)的事件詞之間可以進(jìn)行信息交互,以達(dá)到讓事件間的關(guān)系可以互相傳遞的目的。
本文構(gòu)建兩種圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[24],分別編碼事件句的句法信息和交互篇章中所有的事件信息,再結(jié)合事件句的語義信息,對一個(gè)篇章中所有的事件對進(jìn)行時(shí)序關(guān)系識別,模型圖的總體架構(gòu)如圖2所示,共包含四個(gè)模塊: 1)語義信息編碼模塊: 將事件詞所在的事件句進(jìn)行拼接,同時(shí)添加事件詞相關(guān)的屬性信息,獲取完整的語義信息; 2)句法信息編碼模塊: 根據(jù)以事件詞為起點(diǎn)的最短依存路徑構(gòu)建句內(nèi)圖模型,獲取與事件詞高度相關(guān)的句法信息; 3)事件信息交互模塊: 根據(jù)事件詞所在事件句的相鄰關(guān)系構(gòu)建篇章圖模型,讓事件詞之間可以更好地交互信息; 4)時(shí)序關(guān)系分類模塊: 將上述特征進(jìn)行融合,使用Softmax對其進(jìn)行時(shí)序關(guān)系的分類預(yù)測。下面針對模型的相關(guān)模塊進(jìn)行詳細(xì)說明。
圖2 模型架構(gòu)圖
為了更好地獲取事件句完整的語義信息,在輸入端,本文將兩個(gè)事件句進(jìn)行拼接,用[E1]和[E2]分別表示兩個(gè)事件詞的開始,[E1/]和[E2/]分別表示兩個(gè)事件詞的結(jié)束。介于BERT[25]在處理序列相關(guān)任務(wù)上較優(yōu)的性能,本文選用BERT在中文上的變體BERT-wwm[24]作為事件句的編碼器,并在事件詞后面添加與之密切相關(guān)的五種屬性(時(shí)態(tài)(Tense),類型(Type),極性(Polarity),泛型(Genericity),形態(tài)(Modality))以進(jìn)一步擴(kuò)充事件詞的特征[26]。五種事件屬性信息插入事件詞的后面,事件詞開始標(biāo)簽[E1][E2]和結(jié)束標(biāo)簽[E1/][E2/]分別插入兩個(gè)事件詞開始之前與屬性信息結(jié)束之后。輸入端構(gòu)造如式(1)所示。
(1)
其中,[CLS]表示句子的開始,兩個(gè)[SEP]用來分隔兩個(gè)句子和表示句子的結(jié)束。{w1,…,wm}和{t1,…,tn}分別表示兩個(gè)事件句。m和n為兩個(gè)事件句的長度。{wi,…,wj}(i≥1,j≤m)和{tk,…,tl}(k≥1l≤n)分別表示兩個(gè)事件詞,長度分別為j-i+1,k+1。兩個(gè)事件詞的五種屬性分別表示為attributes_1={e1,e2,…,e5}和attributes_2={f1,f2,…,f5}。取BERT-wwm輸出端的[CLS]的表示ci作為兩個(gè)事件句融合后的語義表示,記q為一個(gè)篇章中所有事件的個(gè)數(shù),將篇章中所有事件對語義向量兩兩融合后表示為oc={c(1,2),c(1,3)…c(2,1),c(2,3)…c(i,j)…c(q,q-q)}(i≠j),(q*(q-1))/2為篇章中所有的時(shí)序關(guān)系數(shù)。
句法信息在很大程度上可以幫助模型理清一句話的結(jié)構(gòu),從而排除一些無用的冗余信息。本文使用最短依存路徑作為與事件詞相關(guān)的句法結(jié)構(gòu)信息,以獲取與事件詞高度相關(guān)的句法信息。最短依存路徑是句法樹中兩個(gè)特定詞之間連接到某個(gè)相同結(jié)點(diǎn)的最短路徑,Cheng等人[16]首次將該方法應(yīng)用于事件時(shí)序關(guān)系識別任務(wù)且提出一種公共根的假說。本文中使用的最短依存路徑是從事件詞為起點(diǎn),以每個(gè)事件句的根結(jié)點(diǎn)為終點(diǎn),構(gòu)造一條從事件詞到根節(jié)點(diǎn)的最短依存路徑。
圖卷積神經(jīng)網(wǎng)絡(luò)[27]通過鄰居結(jié)點(diǎn)之間的傳播和聚合來學(xué)習(xí)更加豐富的特征,被廣泛用于學(xué)習(xí)圖結(jié)構(gòu)的高級特征,并取得了顯著的效果。因此,本文使用GCN作為句法信息的編碼器,以最短依存路徑上的詞語為結(jié)點(diǎn),詞語間是否有依存關(guān)系為邊(有關(guān)系則為1,否則為0),邊為雙向且加入自環(huán),構(gòu)造一種句子級別的圖模型。結(jié)構(gòu)如圖2的句法信息編碼模塊所示,其輸入端的SDP為圖1中句子S8的最短依存路徑。
在圖模型的輸入端,本文使用Li[28]等人提出的一種中文詞向量,將最短依存路徑上的詞語通過該詞向量映射為實(shí)值向量集合iadp={i1,i2,…,is},其中s為最短依存路徑的序列長度,該向量集合作為圖模型的結(jié)點(diǎn)特征,圖模型的傳播如式(2)所示。
(2)
篇章級別的事件時(shí)序關(guān)系大多數(shù)關(guān)系都為跨句關(guān)系。由于跨句的事件實(shí)例相隔較遠(yuǎn)距離,語義不連續(xù),句子結(jié)構(gòu)無法通過Cheng等人[16]提出的虛擬根相連。因此,此前專注于研究同句和鄰句的時(shí)序識別方法并不適用于跨句。提升篇章級別事件時(shí)序關(guān)系識別的性能,必須要提升跨句事件時(shí)序關(guān)系的識別準(zhǔn)確度。鑒于時(shí)序關(guān)系特有的傳遞性,本文將一個(gè)篇章中所有的事件構(gòu)建成篇章級圖卷積模型,通過節(jié)點(diǎn)之間的特征傳遞聚合,以補(bǔ)充兩個(gè)相隔較遠(yuǎn)的事件詞之間的額外信息,以此來提升跨句事件時(shí)序關(guān)系分類的性能。
在構(gòu)建篇章級別圖模型時(shí),以一個(gè)篇章中所有的事件詞作為結(jié)點(diǎn),以兩個(gè)事件詞所在的事件句是否相鄰作為邊,若相鄰則為1,否則為0,且為雙向的關(guān)系,對每個(gè)事件句都加入自環(huán),如圖2中的事件信息交互模塊所示。這樣可以通過相鄰句的不斷傳播擴(kuò)散特征,來豐富跨句事件詞的特征,以達(dá)到將跨句事件相連的目的。
圖模型的傳播公式與2.2節(jié)相同。該篇章級別圖模型與2.2節(jié)的句內(nèi)圖模型不共享參數(shù),圖模型的層數(shù)設(shè)置為2,在輸入端,事件詞的特征為2.2節(jié)中的h,σ為ReLu函數(shù)。事件特征集合中的每個(gè)事件詞在句內(nèi)圖模型中都聚合了其所在的最短依存路徑的句法特征,因此在篇章級圖模型中每個(gè)事件將攜帶豐富的句法特征,通過將句法特征進(jìn)行傳播融合以連接本來無法相連的跨句事件詞。在圖模型的輸出端,獲取一個(gè)篇章中所有事件詞的表示d={d1,d2,…,di,dj,…,dq},將兩兩事件表示進(jìn)行拼接,得到od={d(1,2),d(1,3),…,d(2,1),d(2,3),…d(i,j)…,d(q,q-1)}(i≠j),其中,d(i,j)=di⊕dj,⊕表示拼接,每個(gè)篇章中的時(shí)序關(guān)系數(shù)為(q*(q-1))/2。每個(gè)拼接的事件對除了包含了自身事件句的句法特征,還融合了篇章中其他事件句的句法特征,以幫助模型進(jìn)行時(shí)序關(guān)系識別。
該模塊將上述模塊所獲得的所有事件對(T個(gè))的語義信息Oc以及融合后的句法信息Od進(jìn)行全連接融合,使用激活函數(shù)ReLu進(jìn)行非線性融合,再使用Softmax進(jìn)行時(shí)序關(guān)系分類預(yù)測后得到結(jié)果O。計(jì)算公式如式(3)所示,其中,Oc為T*m的語義矩陣,Od為T*n的句法矩陣,m和n分別為語義模塊和句法模塊的維度數(shù)。W和b分別為全連接層的權(quán)重矩陣和偏置。本文采用學(xué)習(xí)率為3e-5的Adam優(yōu)化器來最小化交叉熵?fù)p失(Cross-Entropy)并且通過反向傳播來更新參數(shù)。
O=Softmax(ReLu(W* (oc⊕od)+b))
(3)
本節(jié)首先介紹數(shù)據(jù)集和實(shí)驗(yàn)相關(guān)參數(shù)的設(shè)置;接著對比本文的模型和其他模型運(yùn)行效果;最后進(jìn)行消融實(shí)驗(yàn)分析。
本文采用Li等人[11]標(biāo)注的基于ACE2005-extended中文事件時(shí)序關(guān)系語料庫,該語料庫標(biāo)注了每兩個(gè)事件詞之間的時(shí)序關(guān)系并形成了一個(gè)全連接圖,該語料庫標(biāo)注了四種時(shí)序關(guān)系: 前(BEFORE)、后(AFTER)、重疊(OVERLAP)和未知(UNKNOWN),樣本統(tǒng)計(jì)如表1所示。可以看出,跨句的事件對占比高達(dá)71.8%,這足以說明跨句的事件時(shí)序關(guān)系識別對于篇章級別的事件時(shí)序關(guān)系識別非常重要。
表1 ACE2005-extended樣本統(tǒng)計(jì)
本文采用和Li[11]等人一致的數(shù)據(jù)劃分和評測標(biāo)準(zhǔn)。采用五折交叉驗(yàn)證(具體劃分與Li一致)并且使用相同的評估指標(biāo)Accuracy,該指標(biāo)在該任務(wù)中與Micro-F1相同,因?yàn)槊績蓚€(gè)事件間的時(shí)序關(guān)系必然屬于上述四種時(shí)序關(guān)系之一。
本文使用Pytorch作為深度學(xué)習(xí)的框架,在每一折中本文訓(xùn)練15個(gè)epochs,batch的大小為2,并加入Early Stopping和Dropout防止過擬合,分別設(shè)置為5和0.5。外部詞向量的維度為300,BERT-wwm的輸出維度為768。
為了驗(yàn)證本文提出模型的性能,本文將與其他6個(gè)基準(zhǔn)系統(tǒng)比較,具體如下:
(1)MAJORITY: 給所有事件對的事件時(shí)序關(guān)系分配一個(gè)占比最多的時(shí)序標(biāo)簽;
(2)GIM[11]: 使用傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行時(shí)序關(guān)系推理的方法,輸入端使用多種特征,結(jié)合自反性和傳遞性進(jìn)行全局優(yōu)化;
(3)DGIM[11]: 在GIM基礎(chǔ)上融入了事件相關(guān)性約束、連接約束、事件同指約束等全局優(yōu)化方法,是目前在ACE2005-extended上中文事件時(shí)序關(guān)系分類任務(wù)效果最優(yōu)的方法;
(4)SDP[16]: 在TimeBank-Dense語料庫中首次使用SDP,將SDP上的詞語、詞性、依存關(guān)系拼接作為雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,Bi-LSTM)的輸入,本文將其模型復(fù)現(xiàn)后在中文語料庫上進(jìn)行實(shí)驗(yàn);
(5)GCN[29]: 在TimeBank-Dense語料庫中利用圖卷積神經(jīng)網(wǎng)絡(luò)獲取最短依存路徑上不相鄰的詞語的依存關(guān)系。本文將其復(fù)現(xiàn)后在中文語料庫上進(jìn)行實(shí)驗(yàn);
(6)TRIMI[26]: 利用BERT-wwm和Bi-LSTM分別編碼語義信息和聯(lián)合SDP上的句法信息,在ACE2005-extended上進(jìn)行實(shí)驗(yàn)。
表2給出了基準(zhǔn)模型和本文所提出模型的整體和三個(gè)子類別(同句、鄰句和跨句)的Micro-F1??梢钥闯?本文所提出的模型在整體Micro-F1獲得了最優(yōu)性能71.87%,且本文所針對的跨句時(shí)序關(guān)系識別性能比目前最優(yōu)的模型TRIMI提升了1.68。此外,通過相鄰事件句的信息交互可以將兩個(gè)事件句的語義信息和句法信息相連接,鄰句的識別性能提升0.82。然而,同句的識別性能相較于TRIMI下降了0.4,這可能是由于同句的事件之間本身具有較強(qiáng)的語義信息和句法連結(jié),篇章圖模型的傳播聚合為其引入了一些冗余信息,使得模型混淆進(jìn)而無法正確判斷其時(shí)序關(guān)系。表2中的實(shí)驗(yàn)結(jié)果充分證明了本文方法在篇章級別事件時(shí)序關(guān)系識別任務(wù)中的有效性。
表2 不同模型在ACE2005-extended事件時(shí)序關(guān)系語料庫上的結(jié)果(顯著性測試: p<0.05)(結(jié)果省略%)
從表2可以看出,在未依賴大量手工標(biāo)注特征的情況下,本文所提出的方法與傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)的方法GIM和DGIM相比,在總體Micro-F1獲得了更優(yōu)的性能(+7.75/+3.51)。雖然DGIM針對該任務(wù)融合了多種約束進(jìn)行全局優(yōu)化,然而在三個(gè)子類別尤其在跨句上,本文所提出的方法相較于DGIM提升了3.49。由此可見,篇章級圖模型的構(gòu)造對跨句的事件時(shí)序關(guān)系識別有很大的幫助。
神經(jīng)網(wǎng)絡(luò)方法SDP和GCN主要是針對同句事件時(shí)序關(guān)系識別,因此應(yīng)用于篇章級事件時(shí)序關(guān)系語料庫ACE2005-extended時(shí),并未取得很高的性能。此外,由于ACE2005-extended語料庫中同句占比很小(11.1%),這兩種方法在同句事件時(shí)序關(guān)系識別上也并未取得很好的性能。而本文所提出的方法在整體和三個(gè)子類別的性能上都相較于SDP和GCN有了很大的提升,這說明本文根據(jù)最短依存路徑構(gòu)造的句內(nèi)圖模型和篇章級別的圖模型可以很大程度上提升篇章級別的事件時(shí)序關(guān)系識別性能。相較于目前最優(yōu)的模型TRIMI,除了同句該子類別外,本文提出的方法都獲得了一定的提升,即使TRIMI中也使用了Bi-LSTM編碼句法結(jié)構(gòu)信息,但本文采用圖模型來編碼句法信息,并接著將篇章中的所有事件信息進(jìn)行交互,使得跨句事件可能獲得更多的信息,足以說明本文提出方法的有效性。
為了驗(yàn)證本文所提出不同信息對整體、同句、鄰句和跨句的影響,本文設(shè)計(jì)了以下消融實(shí)驗(yàn): (1)-句內(nèi)GCN: 刪除句內(nèi)圖模型。即直接使用外部詞向量Embedding后的事件詞表示作為篇章級圖模型的輸入; (2)-篇章GCN: 刪除篇章級圖模型。即在圖2中刪除事件信息交互模塊;(3)句內(nèi)GCN替換為Bi-LSTM: 將句內(nèi)圖模型替換成Bi-LSTM。即在句法信息編碼模塊中,將最短依存路徑作為Bi-LSTM的輸入,將最后一個(gè)時(shí)間步的雙向向量表示拼接后作為篇章級圖模型的輸入。結(jié)果如表3所示。若去除本文模型中的句內(nèi)GCN(-句內(nèi)GCN),而直接使用編碼后的事件詞作為篇章級圖模型的結(jié)點(diǎn),性能在整體下降了0.94,且在三個(gè)子類別上皆有所下降(-0.56/-1.07/-0.62)。這是由于句法信息對提升事件時(shí)序關(guān)系識別的性能有所幫助,GCN可以很好地聚合不相鄰詞語間的特征。以這樣的事件詞表示來構(gòu)建篇章級GCN的節(jié)點(diǎn),可以為其他事件提供更多有關(guān)本事件的信息,以彌補(bǔ)輸入端信息過少的缺陷。
表3 消融實(shí)驗(yàn)結(jié)果(結(jié)果省略%)
刪除篇章級圖模型(-篇章GCN),整體和跨句的性能下降較多(-2.63/-2.68),因?yàn)槠录墑e的事件時(shí)序關(guān)系中絕大部分還是跨句,而針對于跨句的事件時(shí)序關(guān)系識別。本文使用篇章級GCN將不同事件之間的特征進(jìn)行傳播聚合,若去除了該部分,則跨句的性能會大幅下降??缇涞氖录吉?dú)立存在,不連續(xù)的語義和句法信息都容易導(dǎo)致模型將其錯(cuò)誤分類。如圖1所示,其中S1中的“砍殺”和“送往”的時(shí)序關(guān)系是“AFTER”,然而僅靠兩個(gè)事件句無法將兩個(gè)事件詞進(jìn)行相連。由于輸入到篇章圖模型的事件詞表示都融合了最短依存路徑信息,因此通過中間句子的事件詞“嗑藥”、“行兇”等,可以將S1中的砍殺的主人公“一名男子”與S8中的“精神恍惚的歹徒”進(jìn)行連接,進(jìn)一步判斷“砍殺”和“送往”的時(shí)序關(guān)系為“AFTER”。對比實(shí)驗(yàn)結(jié)果證明本文提出的圖模型GCN能更好地提升跨句的事件時(shí)序關(guān)系識別性能。
此前Bi-LSTM通常被應(yīng)用于編碼最短依存路徑,而相較于Bi-LSTM,GCN作為最短依存路徑的編碼器性能更優(yōu)(+0.74),這是因?yàn)锽i-LSTM是按照時(shí)間步來處理詞語,即使有正和反兩個(gè)方向,SDP上離得較遠(yuǎn)的詞語在傳播的過程中依然會丟失一些特征,無法獲取長期依賴,而GCN是通過鄰居結(jié)點(diǎn)來不斷地傳播聚合,相較于Bi-LSTM可以更好地保留特征。
本文提出了一種基于篇章圖模型的中文事件時(shí)序關(guān)系識別方法。該方法利用句內(nèi)圖模型編碼最短依存路徑,構(gòu)造篇章級別事件圖來交互信息,再加以進(jìn)一步融合兩個(gè)事件句的語義信息,以更好地進(jìn)行篇章級別事件時(shí)序關(guān)系的識別。在ACE2005-extended上的實(shí)驗(yàn)表明,本模型在跨句和整體性能上都取得了最佳性能。