阮慧彬,徐揚(yáng),孫雨,洪宇,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
篇章關(guān)系識(shí)別是自然語言處理(Natural Language Processing,NLP)中的一項(xiàng)基礎(chǔ)任務(wù),對(duì)其他自然語言處理任務(wù)具有廣泛應(yīng)用價(jià)值,如情感分析[1]、事件抽取[2-3]、問答[4]、自動(dòng)文摘[5]及機(jī)器翻譯[6-8]等。篇章關(guān)系識(shí)別旨在判定兩個(gè)連續(xù)的文本片段(即“論元”)Arg1和Arg2之間的語義關(guān)系。具體地,給定兩個(gè)論元Arg1和Arg2,通過分類器判斷兩者間的篇章關(guān)系,其任務(wù)框架如圖1所示。
圖1 篇章關(guān)系識(shí)別任務(wù)框架Fig.1 Task framework of discourse relation recognition
作為篇章關(guān)系識(shí)別研究任務(wù)的重要語料資源,賓州篇章樹庫[9](Penn Discourse Treebank,PDTB)將篇章關(guān)系分為四大類:對(duì)比關(guān)系(Compa-rison)、偶然性關(guān)系(Contingency)、擴(kuò)展關(guān)系(Expansion)、時(shí)序關(guān)系(Temporal)。此外,依據(jù)論元對(duì)之間是否存在顯式連接詞,PDTB將篇章關(guān)系分為兩類:顯式篇章關(guān)系(Explicit Discourse Relation)和隱式篇章關(guān)系(Implicit Discourse Relation)。
例1 [Arg1] The computer system was operating
(譯文:電腦系統(tǒng)正在運(yùn)行)
[Arg2] [Explicit=so] orders could be taken.
(譯文:[所以]可以接受訂單)
[篇章關(guān)系] Contingency.Cause.Result。
例2 [Arg1] I’m not so young anymore.
(譯文:我已經(jīng)不再年輕)
[Arg2] [Implicit=So] I won’t be throwing 90 mph.
(譯文:我的拋出速度不會(huì)超過90英里/小時(shí))
[篇章關(guān)系] Contingency.Cause.Result。
顯式篇章關(guān)系指直接由連接詞觸發(fā)的篇章關(guān)系類型,其論元間的篇章關(guān)系可根據(jù)連接詞來判定。如例1中的Arg2是Arg1的結(jié)果,其因果關(guān)系可通過連接詞“so”推斷得到。而如例2所示,隱式篇章關(guān)系缺乏連接詞等直觀推理線索,導(dǎo)致其難以被直接識(shí)別。因此,隱式篇章關(guān)系識(shí)別更依賴于深層的語義、句法以及上下文特征。本文主要研究隱式篇章關(guān)系識(shí)別。
傳統(tǒng)的隱式篇章關(guān)系識(shí)別方法主要依賴于特征工程,如Pitler[10]等抽取論元對(duì)的詞對(duì)、動(dòng)詞類型、動(dòng)詞短語長度及情感詞的極性等作為分類特征,在PDTB的四大類關(guān)系上取得優(yōu)于隨機(jī)分類的性能。Lin[11]等在Pitler[10]等的基礎(chǔ)上提出使用句法結(jié)構(gòu)特征和依存特征構(gòu)建分類器。Rutherford和Xue[12]使用布朗聚類特征替代傳統(tǒng)的詞對(duì)特征,一定程度上緩解了特征表示稀疏問題,同時(shí),他們還使用指代消解獲取實(shí)體級(jí)特征,以更好地對(duì)論元進(jìn)行表示。Li[13]等進(jìn)一步優(yōu)化句法特征的表示方法,以解決特征表示稀疏問題。
近年來,由于分布式詞表示[14]一定程度上緩解了表示稀疏問題,且神經(jīng)網(wǎng)絡(luò)模型在自然語言處理領(lǐng)域獲得一定成果。越來越多的研究者們構(gòu)建精巧的神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行隱式篇章關(guān)系識(shí)別。如 Zhang等[15]使用淺層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對(duì)隱式篇章關(guān)系進(jìn)行分類,其在四種關(guān)系上的分類性能均有所提升。Qin等[16]通過同一個(gè)CNN提取兩個(gè)論元的特征,在高速公路模型(Highway Network)的基礎(chǔ)上引入新的門控機(jī)制,來約束論元特征的交互。Chen等[17]采用門控機(jī)制來表征論元詞對(duì)之間的相關(guān)性。Guo等[18]對(duì)論元表示進(jìn)行交互式注意力計(jì)算,以得到加權(quán)后的論元表示,作為張量神經(jīng)網(wǎng)絡(luò)(Neural Tensor Network,簡稱為NTN)的輸入,并設(shè)計(jì)了包含L1和L2正則項(xiàng)的目標(biāo)函數(shù)。Bai和Zhao[19]使用不同粒度的詞向量對(duì)論元進(jìn)行表示,并使用卷積和遞歸編碼塊捕獲單個(gè)論元向量的信息,通過殘差及注意力機(jī)制獲得最終表示。Nguyen等[20]在Bai和Zhao[19]的基礎(chǔ)上,將關(guān)系表示和連接詞表示映射到同一空間中來實(shí)現(xiàn)知識(shí)遷移,從而提升隱式篇章關(guān)系識(shí)別性能。此外,為了緩解隱式篇章關(guān)系語料不足的問題,前人引入外部知識(shí)來輔助隱式篇章關(guān)系識(shí)別,如Liu等[21]融合了CNN和多任務(wù)學(xué)習(xí)(Multi-Task)的思想,以隱式篇章關(guān)系分類為主任務(wù),顯式篇章關(guān)系分類、連接詞分類等任務(wù)為輔助任務(wù),并引入了RST-DT、New York Times Corpus等外部語料擴(kuò)充訓(xùn)練語料,從而提升分類器性能。Lan等[22]提出基于注意力機(jī)制的多任務(wù)學(xué)習(xí)方法進(jìn)行隱式篇章關(guān)系識(shí)別,并引入外部語料BLLIP訓(xùn)練詞向量。Wu等[23]利用中英文平行語料中顯隱式不匹配的特性(即中文顯式語料對(duì)應(yīng)的英文語料中不存在連接詞),從中挖掘隱式英文篇章關(guān)系語料用于擴(kuò)充PDTB訓(xùn)練集。
在隱式篇章關(guān)系識(shí)別任務(wù)上,前人將基于注意力機(jī)制(Attention Mechanism)的神經(jīng)網(wǎng)絡(luò)模型作為捕捉論元關(guān)鍵信息的核心方法之一[17-22]。注意力機(jī)制能夠捕捉詞義信息間的關(guān)聯(lián)性,借以對(duì)詞義特征的重要性進(jìn)行判定,如篇章領(lǐng)域最具代表性的上下文信息等特征。然而,相關(guān)研究僅僅關(guān)注論元之間交互特性對(duì)論元表示的約束,而忽略了論元自身的關(guān)鍵語義特征。針對(duì)以上問題,本文提出了一種基于堆疊式注意力機(jī)制(Stacked Attention)的神經(jīng)網(wǎng)絡(luò)模型,并將其用于隱式篇章關(guān)系識(shí)別。這一方法融合了自注意力機(jī)制(Self-Attention)和交互式注意力機(jī)制(Interactive Attention),不僅能夠挖掘論元本身的有效特征,還融合了論元之間的交互信息。
本文在PDTB 標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)上述方法進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明融合兩種注意力機(jī)制的方法在隱式篇章關(guān)系分類上表現(xiàn)優(yōu)于基準(zhǔn)模型,且其在擴(kuò)展關(guān)系(Expansion)和時(shí)序關(guān)系(Temporal)上優(yōu)于目前的隱式篇章關(guān)系識(shí)別模型。
本文提出的堆疊式注意力機(jī)制模型主要分為四個(gè)部分:首先,通過雙向長短時(shí)記憶[24](Bi-direc-tional Long Short-Term Memory,Bi-LSTM)分別編碼Arg1和Arg2得到論元表示;其次,在論元表示上進(jìn)行自注意力權(quán)重計(jì)算,借以得到自注意力分布式特征;然后,將其用于交互式注意力權(quán)重的計(jì)算,以得到堆疊式注意力表示;最后,拼接兩個(gè)論元的堆疊式注意力表示,并將其輸入全連接層進(jìn)行非線性變換,然后送入softmax層得到關(guān)系分類結(jié)果。
圖2展示了模型整體框架,其中,對(duì)于論元中的每個(gè)單詞,我們先通過預(yù)訓(xùn)練好的詞向量表將其映射為向量xw∈de,以初始化每個(gè)單詞的分布式表示,并對(duì)其進(jìn)行拼接得到論元Arg1和Arg2的向量表示:
(1)
(2)
其中,L1和L2分別為Arg1和Arg2的長度。
在此基礎(chǔ)上,本文通過執(zhí)行以下學(xué)習(xí)過程實(shí)現(xiàn)論元關(guān)系的分類。
圖2 基于堆疊式注意力機(jī)制的模型框架圖Fig.2 Framework of the stack-attention based model
藏狀態(tài)表示H1和H2;
2) 自注意力層將論元的隱藏狀態(tài)表示H1和H2作為輸入,分別通過矩陣運(yùn)算得到每個(gè)單詞的自注意力權(quán)重分布,并以此獲得論元的自注意力表示R-SelfArg1和R-SelfArg2。
4) 我們拼接R-StackArg1和R-StackArg2,作為全連接層(Fully Connected Layer)的輸入,并將最終的向量表示輸入softmax層進(jìn)行篇章關(guān)系分類。
在輸入序列長度較大時(shí),傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)Recurrent Neural Network,RNN)存在遠(yuǎn)距離信息丟失和梯度爆炸等問題。針對(duì)RNN的不足,Hochreiter和Schmidhuber[24]提出長短時(shí)記憶神經(jīng)網(wǎng)絡(luò),其采用輸入門、遺忘門和輸出門來控制網(wǎng)絡(luò)結(jié)構(gòu)中細(xì)胞狀態(tài)的記憶程度,計(jì)算公式如下:
(3)
(4)
ht=ot⊙tanh(ct),
(5)
其中,it,ot及ft分別為輸入門、輸出門及遺忘門,ct為細(xì)胞狀態(tài),ht為當(dāng)前時(shí)刻的隱藏狀態(tài),w∈4dh×(dh+de)為權(quán)重矩陣,b∈4dh為偏置,σ為sigmoid激活函數(shù)。
(6)
(7)
(8)
(9)
(10)
(11)
α1=softmax(μ1),
(12)
R-SelfArg1=α1H1。
(13)
同理,根據(jù)式(11)(12)和(13),我們可計(jì)算得到Arg2的自注意力表示R-SelfArg2。
在Ma等[26]工作的基礎(chǔ)上,本文對(duì)其2.2節(jié)中每個(gè)單詞的隱藏狀態(tài)ht進(jìn)行累加,以作為Arg1和Arg2的論元表示:
(14)
(15)
(16)
(17)
其中,γ(·)的計(jì)算公式如下(以Arg1為例):
(18)
其中,W∈2dh×2dh為權(quán)重矩陣,b∈2dh為偏置?;谡撛慕换ナ阶⒁饬?quán)重ρt,我們對(duì)論元中每個(gè)單詞的隱藏狀態(tài)ht進(jìn)行更新,并對(duì)其內(nèi)積結(jié)果進(jìn)行累加,以得到論元的交互式注意力表示R-Inter。具體計(jì)算公式如下:
(19)
(20)
為了對(duì)論元進(jìn)行更好的表示,本文將1.3節(jié)提到的自注意力機(jī)制,堆疊于1.4節(jié)介紹的交互式注意力機(jī)制之上,以構(gòu)建表示能力更強(qiáng)的堆疊式注意力機(jī)制。具體地,針對(duì)1.4節(jié)的式(16)和(17),本文用1.3節(jié)所獲得的自注意力表示R-SelfArg1和R-SelfArg2,替換簡單的論元表示RArg1和RArg2,以得到堆疊式注意力權(quán)重向量βt。具體計(jì)算公式如下:
(21)
(22)
基于論元的堆疊式注意力權(quán)重βt,我們對(duì)論元中每個(gè)單詞的隱藏狀態(tài)ht進(jìn)行更新,并累加其內(nèi)積結(jié)果得到論元的堆疊式注意力表示R-Stack。具體計(jì)算公式如下:
(23)
(24)
我們拼接論元的堆疊式注意力表示R-StackArg1和R-StackArg2,并使用全連接層對(duì)其進(jìn)行降維,將降維后的特征向量送入softmax層進(jìn)行分類,從而獲得論元對(duì)的類別標(biāo)簽。
在各個(gè)關(guān)系上,我們使用隨機(jī)抽樣的方法,來構(gòu)造正負(fù)例平衡的訓(xùn)練集。對(duì)于每個(gè)類別的分類器,我們采用Momentum[27]優(yōu)化器對(duì)參數(shù)進(jìn)行更新,并通過交叉熵(Cross-Entropy)損失函數(shù)[28]度量每個(gè)樣本的預(yù)測(cè)代價(jià)。在實(shí)際操作中,給定一個(gè)論元對(duì)(R1,R2)及其類別標(biāo)簽y,其損失函數(shù)定義如下:
訪談中得知,除部分對(duì)英語非常感興趣的學(xué)生外,大部分學(xué)生以四、六級(jí)通過來“終結(jié)”英語學(xué)習(xí),在通過四、六級(jí)考試后大大減少了花費(fèi)在英語學(xué)習(xí)上的時(shí)間,加之大三之后學(xué)校沒有開設(shè)公共英語課程,學(xué)生接觸英語的機(jī)會(huì)越來越少,導(dǎo)致其英語水平隨年級(jí)升高而退步。
(25)
本文在PDTB數(shù)據(jù)集上對(duì)模型的隱式篇章關(guān)系識(shí)別性能進(jìn)行評(píng)估,并以F1值(F1-score)和準(zhǔn)確率(Accuracy)作為性能評(píng)價(jià)標(biāo)準(zhǔn)。依據(jù)前人工作[16],本文采用Sec 02-20作為訓(xùn)練集,Sec 00-01作為開發(fā)集(又稱為“驗(yàn)證集”),Sec 21-22作為測(cè)試集。其中,具體四大類篇章關(guān)系Comparison(Comp.)、Contingency(Cont.)、Expansion(Expa.)和Temporal(Temp.)的語料分布情況如表1所示。
表1 PDTB隱式篇章關(guān)系數(shù)據(jù)分布
由表1可知,各個(gè)關(guān)系類別上的數(shù)據(jù)分布不均衡,其中,擴(kuò)展關(guān)系(Expansion)的樣本數(shù)量遠(yuǎn)多于時(shí)序關(guān)系(Temporal)。因此,直接用所有數(shù)據(jù)訓(xùn)練模型并進(jìn)行測(cè)試的方法傾向于判定實(shí)例為樣本數(shù)量多的類別。同時(shí),在每個(gè)關(guān)系類別上,其訓(xùn)練集正負(fù)例分布不均衡(負(fù)例個(gè)數(shù)遠(yuǎn)多于正例)。所以針對(duì)每個(gè)關(guān)系類別,我們對(duì)負(fù)例隨機(jī)抽樣來構(gòu)造平衡數(shù)據(jù),并用其訓(xùn)練一個(gè)二分類器。這也是目前隱式篇章關(guān)系識(shí)別研究中通用的評(píng)測(cè)方法[18-22]。
本節(jié)針對(duì)所提模型Stacked-Attention設(shè)計(jì)了消融實(shí)驗(yàn),來展示所提模型不同部分對(duì)分類性能的影響。在實(shí)驗(yàn)過程中,所有對(duì)比模型的參數(shù)設(shè)置與本文所提模型保持一致。
1) Bi-LSTM(基準(zhǔn)系統(tǒng)):將Arg1和Arg2的詞向量表示分別作為Bi-LSTM的輸入,以得到每個(gè)單詞的隱藏狀態(tài),將其分別拼接作為論元的隱藏狀態(tài)表示H1和H2。最后,拼接H1和H2并輸入全連接層進(jìn)行關(guān)系分類。
2) Self-Attention(自注意力機(jī)制):通過Bi-LSTM得到論元的隱藏狀態(tài)表示后,使用式(12)計(jì)算得到論元的自注意力權(quán)重,并通過式(13)更新論元表示向量,以得到的自注意力表示。最后,拼接Arg1和Arg2的自注意力表示向量,作為全連接層的輸入并進(jìn)行分類。
4) Stacked-Attention(堆疊式注意力機(jī)制):通過Bi-LSTM編碼得到論元的隱藏狀態(tài)表示后,使用Self-Attention獲得Arg1和Arg2的自注意力表示,并將其用于交互式注意力權(quán)重的計(jì)算(見式(21)和式(22)),以得到堆疊式注意力權(quán)重。在此基礎(chǔ)上,使用權(quán)重向量更新論元表示,以得到Arg1和Arg2的堆疊式注意力表示,將其拼接作為全連接層的輸入并進(jìn)行關(guān)系分類。
本文采用預(yù)訓(xùn)練好的Glove[14]向量來初始化論元詞向量,并設(shè)定詞向量維度de為50。在訓(xùn)練過程中,批(Batch size)大小為32, LSTM隱藏層的單元數(shù)dh為50,自注意力層的權(quán)重矩陣維度da為80。本文使用包含一個(gè)隱藏層的全連接層,其隱藏層神經(jīng)元個(gè)數(shù)為80。為了避免過擬合,我們?cè)谌B接層之后使用了dropout,其比率設(shè)置為0.1。本文采用交叉熵?fù)p失[28]作為模型的損失函數(shù),并使用Momentum[27]優(yōu)化器對(duì)參數(shù)進(jìn)行更新,其學(xué)習(xí)率設(shè)置為0.001。
本文針對(duì)所提模型進(jìn)行了消融實(shí)驗(yàn)。在PDTB四大類關(guān)系上,基準(zhǔn)模型Bi-LSTM、基于自注意力機(jī)制、交互式注意力機(jī)制和堆疊式注意力機(jī)制的模型分類性能如表2所示。
實(shí)驗(yàn)結(jié)果表明,相較于基準(zhǔn)模型Bi-LSTM,Self-Attention在F1值和準(zhǔn)確率上都有所提升,其原因在于自注意力機(jī)制能夠捕獲論元表示中對(duì)自身較為重要的特征。同時(shí),Interactive-Attention相較于Bi-LSTM在四大類關(guān)系上的分類性能也有所提升,其原因在于交互式注意力機(jī)制能夠捕獲論元之間的交互信息,并使用這一信息對(duì)論元表示進(jìn)行更新,來得到含有交互信息的論元特征。而使用堆疊式注意力機(jī)制的模型分類性能優(yōu)于單獨(dú)使用自注意力機(jī)制或交互式注意力機(jī)制,其原因在于基于堆疊式注意力的方法有效地結(jié)合了兩種注意力機(jī)制的信息,不僅關(guān)注了論元本身的特征,還融入了另一論元的特征信息。此外,堆疊式注意力機(jī)制在四大類關(guān)系上的分類性能均優(yōu)于基準(zhǔn)系統(tǒng),尤其在Temporal關(guān)系上,其F1值和準(zhǔn)確率相對(duì)于基準(zhǔn)系統(tǒng)分別提高了6.57和3.82個(gè)百分點(diǎn)。
我們與前人工作進(jìn)行了對(duì)比,具體性能如表3所示(表3中前人工作的性能來自原文獻(xiàn))。其中,Bai等[19]使用基于字符、單詞、論元及論元對(duì)等不同粒度的特征表示方法,且在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,使用了殘差機(jī)制和注意力機(jī)制。相較之下,本文所提的Stacked-Attention在模型與論元的表示上較為簡單,只使用了預(yù)訓(xùn)練好的詞向量。盡管如此,本文所提方法仍能在Expansion和Temporal關(guān)系上超越該方法。Liu[21]等引入了RST-DT、New York Times Corpus等外部語料庫訓(xùn)練多任務(wù)模型,以隱式篇章關(guān)系識(shí)別為主任務(wù),顯式篇章關(guān)系識(shí)別等為輔助任務(wù)。對(duì)于不同任務(wù),Liu[21]等引入了詞、詞性、共現(xiàn)等人工特征以增加論元信息量。而本文只使用了標(biāo)準(zhǔn)PDTB隱式語料,并未引入外部特征,但在多個(gè)關(guān)系上的分類性能仍可超越其方法。
表2 消融實(shí)驗(yàn)結(jié)果
表3 與現(xiàn)有模型對(duì)比(%)
由表3可知,Guo等[18]的工作在所有關(guān)系上超越了本文所提模型,他們采用Bi-LSTM分別對(duì)兩個(gè)論元進(jìn)行編碼,使用交互式注意力機(jī)制更新得到新的論元表示,將新的論元表示輸入張量神經(jīng)網(wǎng)絡(luò)中得到論元交互特征矩陣。Guo等[18]采用了L1正則化對(duì)張量項(xiàng)進(jìn)行約束,采用L2正則化對(duì)其他參數(shù)進(jìn)行約束。為了更好地對(duì)比本文所提堆疊式注意力機(jī)制和Guo等[18]的工作,我們對(duì)其工作進(jìn)行了復(fù)現(xiàn),并使用堆疊式注意力機(jī)制代替他們?cè)闹械慕换ナ阶⒁饬C(jī)制來進(jìn)行對(duì)比。由于Guo等[18]暫時(shí)沒有公布其源碼,且其原文中有些細(xì)節(jié)并未詳細(xì)說明(如L1正則化項(xiàng)的系數(shù)等)。因此,本文的復(fù)現(xiàn)結(jié)果并未達(dá)到其原文中的結(jié)果。在復(fù)現(xiàn)Guo等[18]工作的過程中,本文采用的L1正則化項(xiàng)系數(shù)為0.01,L2正則化項(xiàng)系數(shù)為0.01,且在張量神經(jīng)網(wǎng)絡(luò)中采用的激活函數(shù)為tanh。
表4展示了本文復(fù)現(xiàn)的Guo等[18]工作的結(jié)果(即Guo*)和使用本文所提堆疊式注意力機(jī)制代替他們的交互式注意力機(jī)制的結(jié)果(即Stacked-Attention*)。由表4可知,堆疊式注意力機(jī)制在各個(gè)關(guān)系上的F1值超過了Guo等[18]使用的交互式注意力機(jī)制。
本文使用自注意力機(jī)制、交互式注意力機(jī)制以及堆疊式注意力機(jī)制分別編碼例3中的論元對(duì),以展示不同注意力機(jī)制對(duì)論元中各個(gè)成分的關(guān)注程度(見圖3)。其中,每個(gè)單詞對(duì)應(yīng)的色塊顏色越深,表示該單詞獲得的注意力權(quán)重越大。在通常情況下,權(quán)重越大的單詞會(huì)直接影響最后的分類結(jié)果。
例3 [Arg1]Lastspring,thecomptroller'sofficecalledahalttoMr.Paul'sfling,givinghimsixmonthstosellthepaintings.
(譯文:去年春天,檢察官辦公室制止了保羅先生的胡鬧,給了他六個(gè)月的時(shí)間來賣這些畫。)
[Arg2] [Implicit=Because]Theacquisitionswere"unsafe,unsoundandunauthorized".
(譯文:這些對(duì)畫的收購是“不安全、不健全、未經(jīng)授權(quán)”。)
[篇章關(guān)系] Contingency.Cause.Reason。
由圖3可知,自注意力機(jī)制的特征學(xué)習(xí)能力較差,對(duì)“a”和“the”這種無意義的單詞也賦予較高的權(quán)重。同樣地,交互式注意力機(jī)制為Arg1中的“l(fā)astspring”和“sixmonth”及Arg2中的“were”賦予了較高的權(quán)重,因此其很容易導(dǎo)致此句被誤分類為時(shí)序關(guān)系(Temporal)。而堆疊式注意力機(jī)制對(duì)Arg1中“paintings” 及Arg2中的“unsafe”、“unsound”和“unauthorized”給予了較高的權(quán)重,其中,Arg2中的這三個(gè)詞解釋了Arg1中“sellthepainting”發(fā)生的原因,因而基于堆疊式注意力機(jī)制的方法能將這個(gè)樣例正確地分類為偶然性關(guān)系(Contingency),但基于另外兩種注意力機(jī)制的方法則無法對(duì)其正確分類。
本文旨在研究隱式篇章關(guān)系分類任務(wù),并為其提出了基于堆疊式注意力機(jī)制的篇章關(guān)系分類模型。實(shí)驗(yàn)結(jié)果表明,本文所提模型獲得了比基準(zhǔn)系統(tǒng)更好的性能,且其與目前最優(yōu)的隱式篇章關(guān)系分類模型性能可比。但同時(shí),隱式篇章關(guān)系分類任務(wù)仍然具有很大的挑戰(zhàn)性。其主要原因在于訓(xùn)練數(shù)據(jù)的缺乏,所以目前的分類方法在Temporal等類別上的分類性能仍然不高。因此,在下一步的工作中我們將從兩個(gè)方面展開研究,首先針對(duì)數(shù)據(jù)缺乏問題,將對(duì)PDTB語料進(jìn)行擴(kuò)充,從外部數(shù)據(jù)中篩選出優(yōu)質(zhì)的正負(fù)樣例樣本以擴(kuò)充PDTB語料訓(xùn)練集;其次,將繼續(xù)優(yōu)化分類模型,借鑒目前先進(jìn)的多任務(wù)、對(duì)抗學(xué)習(xí)等方法提高模型的判別能力。
表4 與Guo等工作進(jìn)行對(duì)比(%)
圖3 例3在不同注意力機(jī)制下的注意力分布灰度圖Fig.3 Grey-scale map for attention distribution of example 3 under different attention mechanisms