徐 昇,王體爽,李培峰,朱巧明
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計(jì)算機(jī)信息技術(shù)處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
作為自然語(yǔ)言處理中的一個(gè)基礎(chǔ)任務(wù),篇章分析專注于分析文本單元(例如,子句、句子、句群)之間的關(guān)系和結(jié)構(gòu),從而將文本解析為篇章樹。篇章關(guān)系識(shí)別是篇章分析中一個(gè)重要的子任務(wù),其目的在于識(shí)別出兩個(gè)連續(xù)文本單元(稱之為論元)Arg1和Arg2之間的語(yǔ)義聯(lián)系。自動(dòng)識(shí)別篇章關(guān)系可以為許多下游的應(yīng)用提供幫助,例如,文本摘要和信息抽取。已有的研究表明,連接詞是篇章關(guān)系識(shí)別中的一個(gè)重要線索,對(duì)于存在連接詞的顯式篇章關(guān)系識(shí)別而言,一個(gè)簡(jiǎn)單的基于頻率的映射就能達(dá)到很高的分類精度[1],而對(duì)無連接詞的隱式篇章關(guān)系的識(shí)別則一直是一個(gè)難題[2],因?yàn)槠渫耆蕾囉趯?duì)文本的語(yǔ)義理解。例1給出了一個(gè)論元之間存在因果關(guān)系的例子,其中Arg1是Arg2的原因。
例1 [Arg1]上海浦東近年來頒布實(shí)行了涉及經(jīng)濟(jì)、貿(mào)易、建設(shè)、規(guī)劃、科技、文教等領(lǐng)域的七十一件法規(guī)性文件,
[Arg2]確保了浦東開發(fā)的有序進(jìn)行。
[隱式連接詞]由此
[篇章關(guān)系]因果關(guān)系
目前,大部分的隱式篇章關(guān)系識(shí)別工作專注于直接識(shí)別兩個(gè)論元之間的篇章關(guān)系,包括: ①抽取語(yǔ)言學(xué)特征后運(yùn)用機(jī)器學(xué)習(xí)模型的傳統(tǒng)方法[2-3]; ②通過對(duì)論元建模之后捕獲論元之間語(yǔ)義聯(lián)系的神經(jīng)網(wǎng)絡(luò)方法[4-7];也有部分工作先預(yù)測(cè)出連接詞[8],或者使用標(biāo)注的連接詞信息來進(jìn)行數(shù)據(jù)增強(qiáng)[9];還有一些工作利用未標(biāo)記的數(shù)據(jù),進(jìn)行了多任務(wù)或無監(jiān)督方法的探索[10]。傳統(tǒng)方法依賴于手工構(gòu)建的特征工程,不僅工作量大,而且淺層的語(yǔ)言學(xué)特征難以捕獲論元的深層語(yǔ)義,因而在篇章關(guān)系任務(wù)上表現(xiàn)不佳。神經(jīng)網(wǎng)絡(luò)模型在論元表示上更具優(yōu)勢(shì)[4],并且能夠從語(yǔ)義層面捕獲論元之間的聯(lián)系,因而相比于傳統(tǒng)方法獲得了可比較、甚至更好的性能,且存在很大的提升空間。
篇章關(guān)系識(shí)別本質(zhì)上是一個(gè)“論元對(duì)”分類問題,因而對(duì)于神經(jīng)網(wǎng)絡(luò)方法來說,需要思考的就是如何對(duì)論元建模以及如何捕獲論元之間的語(yǔ)義聯(lián)系。已有的工作大多采用各種Bi-LSTM或者CNN的變體對(duì)論元進(jìn)行編碼[4,6],但是循環(huán)網(wǎng)絡(luò)難以并行,而卷積網(wǎng)絡(luò)在捕獲全局信息方面存在不足。在捕獲語(yǔ)義聯(lián)系方面,常見的方法[5,11]是在兩個(gè)論元之間運(yùn)用記憶單元或Bilinear[12]等模型捕獲向量之間的交互,或者直接通過注意力機(jī)制來對(duì)交互建模。特別地,考慮到大部分方法都僅模擬了對(duì)文本的單程閱讀過程,難以勝任篇章關(guān)系識(shí)別這種需要深入理解文本語(yǔ)義的任務(wù),Liu和Li[6]從人類閱讀理解的角度出發(fā),提出了重復(fù)堆疊注意力網(wǎng)絡(luò),用于模擬人類的重復(fù)閱讀過程。Guo等[7]認(rèn)為現(xiàn)有的方法大多在表示階段忽略了論元之間的雙向交互,因而從視覺感知的兩階段模型出發(fā),提出了一種交互注意力(interactive attention)機(jī)制來增強(qiáng)論元的表示。
受文獻(xiàn)[6-7]的啟發(fā),本文提出了一個(gè)三層注意力網(wǎng)絡(luò)模型(TLAN),用于識(shí)別隱式篇章關(guān)系。首先通過Self-Attention層對(duì)論元進(jìn)行初步編碼,在一定程度上克服了Bi-LSTM和CNN的不足。之后在Guo等[7]工作的基礎(chǔ)上,采用一種計(jì)算粒度更小的Interactive Attention層來模擬人類的雙向閱讀過程,從而在論元的編碼過程中就考慮了論元之間的交互,并且通過非線性變換提取了論元對(duì)的外部記憶。最后通過Liu和Li[6]提出的包含外部記憶的注意力層來模擬人類的重復(fù)閱讀過程,并且把論元對(duì)記憶作為一個(gè)貫穿全局的向量來引導(dǎo)論元最終表示的生成。
本文的主要貢獻(xiàn)有:
(1) 提出了一個(gè)三層注意力神經(jīng)網(wǎng)絡(luò)模型,結(jié)合了模擬人類雙向閱讀和重復(fù)閱讀過程的方法;
(2) 使用Self-Attention層對(duì)論元進(jìn)行編碼,使得輸出序列不僅保留了論元的原始信息,還包含了全局的信息;
(3) 使用Interactive Attention層對(duì)論元之間的交互建模,采用細(xì)粒度的計(jì)算方法,對(duì)于每一個(gè)注意力權(quán)重向量都生成對(duì)應(yīng)的語(yǔ)義表示。
隨著語(yǔ)料庫(kù)PDTB[13]和RST-DT[14]的發(fā)布,許多工作采用傳統(tǒng)方法[2-3,15]或者神經(jīng)網(wǎng)絡(luò)方法[4-7,9]對(duì)英語(yǔ)隱式篇章關(guān)系識(shí)別任務(wù)進(jìn)行了探索。
Zhang等[4]提出了一個(gè)淺層卷積網(wǎng)絡(luò)用于識(shí)別篇章關(guān)系,通過結(jié)合多種卷積操作來獲得論元不同層面的語(yǔ)義特征信息。Chen等[5]提出了一個(gè)帶有門控單元的神經(jīng)網(wǎng)絡(luò)模型,在論元之間同時(shí)捕獲線性和非線性交互信息,從而產(chǎn)生匹配矩陣來分析論元之間的語(yǔ)義聯(lián)系。Li等[16]在包含注意力機(jī)制的Bi-LSTM的基礎(chǔ)上,通過基于張量的轉(zhuǎn)換函數(shù)來捕獲論元之間的語(yǔ)義交互特征。Qin等[9]提出了一種新穎的對(duì)抗方法,通過與顯式關(guān)系網(wǎng)絡(luò)進(jìn)行對(duì)抗,使得隱式關(guān)系網(wǎng)絡(luò)能夠模仿學(xué)習(xí)到將顯式連接詞的可辨性轉(zhuǎn)化為隱藏特征的能力。
針對(duì)中文,目前隱式篇章關(guān)系識(shí)別的研究工作主要在CTB[17]和CDTB[18]兩個(gè)語(yǔ)料庫(kù)上進(jìn)行,由于語(yǔ)言資源的缺乏,已有的研究工作數(shù)量較少,而且大多借鑒了英語(yǔ)任務(wù)上采用的方法。
已有的研究工作[19-21]大多采用傳統(tǒng)方法,其中Kong等[21]提出了一個(gè)端到端的篇章分析器,使用上下文、詞匯和依存樹等手工構(gòu)建的語(yǔ)言學(xué)特征,通過最大熵分類器對(duì)篇章關(guān)系進(jìn)行識(shí)別。也有部分工作[11,22]采用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了研究。其中,R?nnqvist等[22]提出了包含注意力機(jī)制的Bi-LSTM模型,通過插入特殊標(biāo)簽的方式連接兩個(gè)論元,然后使用注意力機(jī)制來捕獲序列上的重要信息。Liu[11]提出了一個(gè)記憶增強(qiáng)注意力模型,通過門控單元來對(duì)存儲(chǔ)論元交互信息的記憶槽進(jìn)行檢索,利用記憶槽中學(xué)習(xí)到的特征來幫助判斷篇章關(guān)系。
本文提出了一個(gè)用于識(shí)別隱式篇章關(guān)系的三層注意力神經(jīng)網(wǎng)絡(luò)模型(TLAN),其整體結(jié)構(gòu)如圖1所示。
圖1 三層注意力模型整體結(jié)構(gòu)
目前的工作[4,6]大多采用Bi-LSTM或者一維CNN來對(duì)輸入序列進(jìn)行編碼,但是它們都存在一些不足: Bi-LSTM因?yàn)槠溲h(huán)結(jié)構(gòu)訓(xùn)練費(fèi)時(shí);而CNN因?yàn)榫矸e核的視野有限,在捕獲全局信息方面存在不足。因而最近的一些工作[23-24]嘗試通過注意力機(jī)制直接對(duì)輸入序列進(jìn)行編碼,如式(1)所示。
(1)
xi=[wi,pi]
(2)
Self-Attention采用式(1)對(duì)輸入序列進(jìn)行編碼,輸入的query,key,value序列是同一論元對(duì)應(yīng)的詞語(yǔ)序列E1(或E2),如式(3)所示。
(3)
早期的神經(jīng)網(wǎng)絡(luò)方法忽略序列之間的交互,對(duì)兩個(gè)序列分開進(jìn)行編碼[4,6],因而最近的很多工作[5,7]將焦點(diǎn)放在如何對(duì)這種交互進(jìn)行建模。常見的方法是在兩個(gè)序列的向量之間運(yùn)用Bilinear[12]和Single Layer Network[25]等模型捕獲向量之間的線性和非線性交互,然后在生成的匹配矩陣上通過卷積操作來捕獲交互特征[5]。
也有部分工作嘗試通過注意力機(jī)制直接對(duì)序列之間的交互建模,并且提出了一些Interactive Attention[7,26]。Guo等[7]從人類閱讀的角度入手,發(fā)現(xiàn)人類在判斷兩個(gè)論元之間的關(guān)系時(shí)往往需要來回閱讀這兩個(gè)論元,特別是考慮兩個(gè)論元中聯(lián)系緊密的詞語(yǔ)之間的語(yǔ)義聯(lián)系,因而提出了一種模擬雙向閱讀的Interactive Attention。
(4)
(5)
(6)
相比于Guo的模型,本文采用了一種更細(xì)粒度的語(yǔ)義相似度計(jì)算方法,因而得到的論元表示更加準(zhǔn)確,能夠充分捕獲論元之間的語(yǔ)義聯(lián)系。并且本文還通過非線性變換來進(jìn)一步捕獲對(duì)論元對(duì)的理解,使得最終獲得的論元對(duì)記憶能夠存儲(chǔ)豐富的論元交互信息。
已有的工作大多模擬了人類的單程閱讀,雖然能夠快速地理解文本,但是難以勝任篇章關(guān)系識(shí)別這種需要深入分析文本語(yǔ)義信息的任務(wù)。受Liu和Li[6]的啟發(fā),本文構(gòu)建了一個(gè)包含外部記憶的注意力層來模擬人類的重復(fù)閱讀過程。研究[28]表明,當(dāng)人類讀者以特定的學(xué)習(xí)目標(biāo)進(jìn)行重復(fù)閱讀后,不僅可以提高閱讀的流暢性,還可以加深對(duì)文本的理解。因此對(duì)于篇章關(guān)系識(shí)別任務(wù),進(jìn)行重復(fù)閱讀是有幫助的。因?yàn)楹?jiǎn)單的單程閱讀難以充分捕獲重要的語(yǔ)義線索,即使是人類通常也需要通過多次閱讀,才能準(zhǔn)確把握文本中詞語(yǔ)對(duì)于判斷論元之間關(guān)系的重要性。
(7)
(8)
其中,Wt∈R∈Rwt×2ds,bt∈R∈Rwt,Ws∈R∈Rc×wt,bs∈R∈Rc是層中的參數(shù),c是篇章關(guān)系類別的個(gè)數(shù)。
對(duì)于包含k個(gè)樣本的訓(xùn)練集,本文使用Adam優(yōu)化器[29],通過最小化AM-Softmax損失函數(shù)[30]來優(yōu)化網(wǎng)絡(luò)中的參數(shù),如式(9)所示。
(9)
其中,t是softmax層的輸入,Wj是參數(shù)矩陣Ws中對(duì)應(yīng)每一個(gè)類別的參數(shù)行,c是分類類別的個(gè)數(shù)。為了防止過擬合,在輸入到softmax層的參數(shù)向量之上進(jìn)行了dropout操作。在實(shí)驗(yàn)部分,本文會(huì)報(bào)告模型中所有超參數(shù)的設(shè)置。
本文在CDTB[18]上對(duì)模型中文隱式篇章關(guān)系識(shí)別的性能進(jìn)行了評(píng)估。
CDTB采用連接依存樹的形式對(duì)抽取自CTB[17]中的500篇新聞文本進(jìn)行了標(biāo)注,共標(biāo)注有隱式篇章關(guān)系5 496個(gè),關(guān)系類型分為兩層,包含4大類17小類。跟隨之前的工作[20-21],本文選擇相同的450篇文章作為訓(xùn)練集,50篇文章作為測(cè)試集,在最上層的3個(gè)類上進(jìn)行了實(shí)驗(yàn)(剔除了占比極低的轉(zhuǎn)折類),并且將所有的非二叉樹都轉(zhuǎn)換為左二叉樹。3類隱式篇章關(guān)系的統(tǒng)計(jì)信息如表1所示。
表1 CDTB中隱式篇章關(guān)系的數(shù)量統(tǒng)計(jì)
詞向量的維度設(shè)置為300,使用Word2Vec[31]進(jìn)行預(yù)訓(xùn)練,詞性向量的維度設(shè)置為50。在Self-Attention層和Interactive Attention層中,轉(zhuǎn)換矩陣映射到的維度ds和di都被設(shè)置為350。外部記憶的維度dm被設(shè)置為700,非線性變換中的wt被設(shè)置為256。參照原論文[30]中的設(shè)置,將AM-softmax中的參數(shù)s和m分別設(shè)置為30和0.35。droupout率設(shè)置為0.5。本文使用HanLP(1)https://github.com/hankcs/HanLP對(duì)CDTB語(yǔ)料進(jìn)行了預(yù)處理,包括分詞和詞性標(biāo)注,使用Keras庫(kù)(2)https://keras.io/來實(shí)現(xiàn)模型。
為了展示本文提出模型的有效性,本文選取了Bi-LSTM和CNN作為本文的基準(zhǔn),此外還包含三個(gè)已有工作中提出的模型: ①Kong: Kong等[24]提出的端到端篇章分析器,使用上下文特征、詞匯特征和依存樹特征通過最大熵分類器識(shí)別隱式篇章關(guān)系; ②Liu和Li: Liu和Li[6]提出的重復(fù)堆疊注意力模型,在通過Bi-LSTM編碼后的論元上堆疊包含外部記憶的多層注意力機(jī)制來模擬人類的重復(fù)閱讀過程; ③R?nnqvist: R?nnqvist等[22]提出的包含注意力機(jī)制的Bi-LSTM模型,通過插入特殊標(biāo)簽的方式將論元對(duì)連接起來,然后使用包含注意力機(jī)制的Bi-LSTM識(shí)別篇章關(guān)系; ④Guo: Guo等[7]提出的神經(jīng)張量網(wǎng)絡(luò),通過Bi-LSTM和交互注意力機(jī)制對(duì)論元建模,之后通過神經(jīng)張量網(wǎng)絡(luò)捕獲論元之間的交互信息。
在CDTB上進(jìn)行的四分類實(shí)驗(yàn)結(jié)果如表2所示,可以看到本文提出的模型在Micro-F1和Macro-F1上都取得了最好的性能。相比于依賴人工構(gòu)建語(yǔ)言學(xué)特征的傳統(tǒng)方法,神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出了可比較的性能,特別是在“解說”關(guān)系上F1值獲得了從2.1到5.8的提升,充分說明了神經(jīng)網(wǎng)絡(luò)方法能夠有效地捕獲論元中的深層語(yǔ)義信息,對(duì)于篇章關(guān)系識(shí)別任務(wù)是有效的。
表2 模型的實(shí)驗(yàn)結(jié)果
CNN憑借卷積核強(qiáng)大的特征捕獲能力,取得了與傳統(tǒng)方法接近的性能表現(xiàn),在Micro-F1上還有小幅的性能提升。相比于基礎(chǔ)的循環(huán)網(wǎng)絡(luò)模型Bi-LSTM,R?nnqvist、Guo、Liu和Li模型在Micro-F1和Macro-F1上均有性能提升,這是因?yàn)樽⒁饬C(jī)制能夠從Bi-LSTM的輸出序列上挑選出重要的語(yǔ)義信息。特別地,Guo的模型使用交互注意力機(jī)制在編碼過程中就考慮了論元之間的交互,并且通過神經(jīng)張量網(wǎng)絡(luò)(NTN)進(jìn)一步提取交互特征,在Micro-F1和Macro-F1上相比R?nnqvist分別獲得了2.2和1.0的性能提升;而Liu和Li模型使用多層注意力機(jī)制,并且引入包含論文對(duì)信息的外部記憶,在Micro-F1和Macro-F1上相比R?nnqvist分別獲得了2.7和0.9的性能提升。
本文提出的模型在Micro-F1和Macro-F1上超過了所有的基準(zhǔn)模型,在Micro-F1上取得了從0.7到3.6的性能提升,在Macro-F1上取得了從1.4到5.1的性能提升。相比側(cè)重于直接獲得論元語(yǔ)義表示的Bi-LSTM、CNN和R?nnqvist,本文的模型通過交互注意力機(jī)制,能夠獲得包含論元交互信息的論元表示。相比于Guo,本文通過包含外部記憶的注意力層將論元交互信息融入對(duì)論元的重復(fù)編碼中,因而不僅模擬了雙向閱讀,還模擬了人類的重復(fù)閱讀過程。相比于Liu和Li,本文的模型在包含交互信息的論元表示上,通過非線性變換來捕獲論元之間的差異特征和交互信息,因而能夠獲得包含對(duì)論元對(duì)充分理解的外部記憶。
本文也比較了不同類型篇章關(guān)系的識(shí)別性能,從表2可以看到,本文的模型在“因果”和“并列”類別的識(shí)別上相比于其他基準(zhǔn)取得了近似的性能,在“解說”類別的識(shí)別上取得了從1.7到5.8的顯著提升。其中“因果”類別相比于采用傳統(tǒng)方法的Kong甚至還有0.8的性能下降,而“并列”類與Liu和Li相比只有0.4的微小提升,因而本文提出的TLAN模型主要是提高了“解說”類關(guān)系的識(shí)別性能。這可以從兩方面進(jìn)行解釋: ①相比于抽取語(yǔ)言學(xué)淺層特征的傳統(tǒng)方法來說,神經(jīng)網(wǎng)絡(luò)模型能夠挖掘到更深層次的語(yǔ)義信息,這對(duì)于在數(shù)據(jù)集中占比較小的 “解說”類 (22.6%) 來說,更容易通過神經(jīng)網(wǎng)絡(luò)模型捕獲到細(xì)微的語(yǔ)義特征,從而獲得性能上的提升,而“因果”類 (13.9%) 樣本數(shù)量過少,難以通過訓(xùn)練捕獲到足夠的特征。②本文提出的TLAN模型通過Self-Attention和Interactive Attention結(jié)構(gòu)對(duì)論元進(jìn)行編碼,它們都是通過度量詞語(yǔ)之間的語(yǔ)義聯(lián)系來生成注意力權(quán)重,相比于其他兩類關(guān)系,存在“解說”關(guān)系的兩個(gè)論元的詞語(yǔ)之間通常存在更強(qiáng)的語(yǔ)義關(guān)聯(lián),因?yàn)椤敖庹f”本質(zhì)就是進(jìn)一步的解釋說明。
為了分析每一個(gè)注意力層對(duì)整個(gè)模型的貢獻(xiàn),本文還在多個(gè)模型的變體上進(jìn)行了實(shí)驗(yàn),結(jié)果如表3所示。首先以循環(huán)網(wǎng)絡(luò)Bi-LSTM作為基礎(chǔ)模型Base,通過在其上添加TLAN模型中的Self-Attention層和Interactive Attention層來分析注意力機(jī)制在篇章關(guān)系識(shí)別任務(wù)上的性能。為了與TLAN模型進(jìn)行直觀的比較,本文還構(gòu)建了: ①Bi-LSTM將模型的Self-Attention層替換為Bi-LSTM;②Att(Guo) 將模型的第二個(gè)注意力層替換為Guo[7]提出的Interactive Attention層。
表3 TLAN模型變體的實(shí)驗(yàn)結(jié)果
Self-Attention層通過度量每一個(gè)詞語(yǔ)與周圍所有詞語(yǔ)的相似度,使得重新編碼后的序列包含了論元的全局信息,因而在添加到基礎(chǔ)模型Base之后,增強(qiáng)了論元經(jīng)過Bi-LSTM編碼后的結(jié)果,在三個(gè)類別上都獲得了小幅的性能提升。Interactive-Attention層在對(duì)論元的重新編碼中,還考慮到了兩個(gè)論元之間的語(yǔ)義聯(lián)系,而這種語(yǔ)義聯(lián)系正是對(duì)篇章關(guān)系識(shí)別任務(wù)非常有用的語(yǔ)義線索,因而在添加后取得了顯著的性能提升(Micro-F1 2.3,Macro-F1 2.9),這說明TLAN模型模擬人類雙向閱讀的方法是有效的,特別是在兩個(gè)占比較少的類別的識(shí)別性能上有明顯的提升(因果4.1,解說2.8),這充分說明Interactive-Attention模型能夠捕獲論元之間的交互信息。TLAN模型中的包含外部記憶的Attention層直接使用了Liu和Li[6]提出的模型結(jié)構(gòu),其在篇章關(guān)系識(shí)別上的有效性已經(jīng)得到了證明,因而本文沒有對(duì)其做單獨(dú)的分析。
Bi-LSTM使用Bi-LSTM替換Self-Attention來對(duì)論元進(jìn)行初步編碼,在Micro-F1和Macro-F1上出現(xiàn)了2.1和2.5的性能下降,這也驗(yàn)證了基礎(chǔ)模型Base的實(shí)驗(yàn)結(jié)果,表明簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)模型難以有效地捕獲論元與篇章關(guān)系識(shí)別相關(guān)的語(yǔ)義線索,而Self-Attention在這個(gè)任務(wù)上是更有效的論元編碼模型。
Att(Guo) 將Interactive Attention層替換為Guo[7]提出的版本,在Micro-F1和Macro-F1上分別有1.0和2.3的性能下降。與本文采用的模型一樣,Guo也是通過度量?jī)蓚€(gè)論元的詞語(yǔ)之間的語(yǔ)義相似度來生成注意力權(quán)重,但是Guo通過計(jì)算平均值的方法直接得到最終的權(quán)重向量,因而計(jì)算粒度較大。而本文采用的方法對(duì)于每一個(gè)權(quán)重向量都先生成對(duì)應(yīng)的語(yǔ)義表示,最后再通過Mean Pooling得到最終的論元表示,因而得到的語(yǔ)義表示更準(zhǔn)確。特別是在樣本占比較小的因果和解說類別的識(shí)別上,相比于本文的TLAN模型,Guo的模型分別出現(xiàn)了4.9和2.0的性能下降,這說明本文模型中Interactive Attention層的細(xì)粒度計(jì)算方法是更有效的捕獲論元之間語(yǔ)義聯(lián)系的方法。
表4展示了本文提出的TLAN模型在中文隱式篇章關(guān)系識(shí)別上的錯(cuò)誤統(tǒng)計(jì)。
表4 錯(cuò)誤分類樣本的比例(%)
從表4中可以看到,54.4% 的因果關(guān)系類樣本和 34.3% 的解說關(guān)系類樣本被TLAN模型錯(cuò)誤地識(shí)別為了并列類,這說明錯(cuò)誤主要是出在判斷一個(gè)樣本是不是并列關(guān)系上。這主要是由兩個(gè)原因?qū)е碌模?①訓(xùn)練集中的并列關(guān)系類樣本超過半數(shù); ②許多論元之間雖然不是并列關(guān)系,但是語(yǔ)義上很相似。例2給出了一個(gè)這樣的例子。
例2 [Arg1]甘肅省積極實(shí)施科技興農(nóng)戰(zhàn)略,推廣地膜覆蓋、節(jié)水灌溉、集雨節(jié)灌等農(nóng)業(yè)適用技術(shù)和增產(chǎn)措施,
[Arg2]農(nóng)業(yè)獲得較好收成,全年糧食總產(chǎn)量達(dá)七十六點(diǎn)六億公斤。
[隱式連接詞]因此
[篇章關(guān)系]因果關(guān)系
例2中Arg1是Arg2的原因,因而論元之間的篇章關(guān)系為因果。但是從語(yǔ)義層面來看,Arg1中的 “農(nóng)業(yè)”“灌溉”“增產(chǎn)”等詞語(yǔ),與Arg2中的“收成”“糧食”“產(chǎn)量”等詞語(yǔ)存在非常強(qiáng)的語(yǔ)義相似度,而本文模型中的注意力層會(huì)將這種高相似度視為“并列”關(guān)系的特征,進(jìn)而將其篇章關(guān)系錯(cuò)分為并列。
最后本文將模型運(yùn)用到PDTB上,進(jìn)行了英語(yǔ)隱式篇章關(guān)系識(shí)別的實(shí)驗(yàn)。PDTB是最大的篇章關(guān)系英語(yǔ)語(yǔ)料庫(kù),對(duì)來自于華爾街日?qǐng)?bào)的2 312篇章文章進(jìn)行了標(biāo)注。跟隨之前Pitler等[2]的工作,本文選擇2~20章作為訓(xùn)練集、21~22章作為測(cè)試集、0~1章作為開發(fā)集,在最上層的4個(gè)類別上進(jìn)行了one-versus-all的二分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,相比于目前的性能最優(yōu)系統(tǒng),本文的模型取得了介于普通神經(jīng)網(wǎng)絡(luò)方法[4,6]和對(duì)抗方法[9]之間的性能。這是因?yàn)椋?①對(duì)抗方法針對(duì)該任務(wù)做了精心的設(shè)計(jì),表現(xiàn)出了比普通神經(jīng)網(wǎng)絡(luò)模型更好的性能; ②本文提出的模型可能存在一定的語(yǔ)言相關(guān)性,中文通常在句法上更加自由,因而本文提出的模型專注于捕獲文本的語(yǔ)義信息,在捕獲語(yǔ)言學(xué)特征方面可能存在不足。
本文針對(duì)中文隱式篇章關(guān)系識(shí)別任務(wù),提出了一個(gè)三層注意力神經(jīng)網(wǎng)絡(luò)模型TLAN。首先通過Self-Attention層對(duì)論元進(jìn)行初步編碼,使得模型充分閱讀每一個(gè)論元,并盡可能保留了原始輸入的信息。然后通過Interactive Attention層來模擬人類的雙向閱讀過程,通過度量?jī)蓚€(gè)論元詞語(yǔ)之間的語(yǔ)義聯(lián)系來生成包含交互信息的論元表示,并且進(jìn)一步通過非線性變換獲得“論元對(duì)”信息的外部記憶。最后,通過包含外部記憶的注意力層來模擬人類的重復(fù)閱讀過程,在重復(fù)閱讀論元初步編碼信息的基礎(chǔ)上,把論元對(duì)記憶作為一個(gè)貫穿全局的向量來引導(dǎo)論元最終表示的生成。在CDTB的實(shí)驗(yàn)中,本文提出模型在Micro-F1和Macro-F1上超過了多個(gè)強(qiáng)基準(zhǔn)模型,在PDTB上本文的模型也取得了與其他性能最優(yōu)系統(tǒng)可比較的性能,充分說明了本文提出的模型在隱式篇章關(guān)系識(shí)別任務(wù)上的有效性。