竇祖俊,洪 宇,李 曉,周國棟
(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
篇章分析是自然語言處理領(lǐng)域中一項重要的研究任務(wù),其旨在根據(jù)語義信息、句法信息和相關(guān)領(lǐng)域知識等,判定相鄰的文本片段(“論元”)之間的語義關(guān)系。隱式篇章關(guān)系識別對許多下游的自然語言處理任務(wù)具有廣泛的應(yīng)用價值,如事件抽取[1-2]、問答[3]、篇章關(guān)系分析[4-5]、機(jī)器翻譯[6-7]等。
賓州篇章樹庫[8](Penn Discourse Treebank 2.0,PDTB 2.0)是篇章關(guān)系識別的重要語料庫。將篇章關(guān)系分為四大類主關(guān)系: 對比關(guān)系(Comparison)、偶然性關(guān)系(Contingency)、擴(kuò)展關(guān)系(Expansion)、時序關(guān)系(Temporal)。
隱式篇章關(guān)系分類是篇章分析的子任務(wù),側(cè)重在連接詞缺失的情況下準(zhǔn)確判別論元的語義關(guān)系。其難點在于,直接表征關(guān)系的顯式連接詞并未與論元共同出現(xiàn),語義關(guān)系感知必須建立在論元語義的精確表示和理解之上。比如,例1中的兩個論元(陳述句)具有隱式因果(Causality)關(guān)系(Causality是主關(guān)系“偶然性”的子類型關(guān)系),其潛在的連接詞“because”被省略了。
例1:
[Arg1] Psyllium’s not a good crop.(譯文: 車前草不是一個好的作物)
[Arg2] You get a rain at the wrong time and the crop is ruined.(譯文: 在錯誤的時間下雨,莊稼會被毀了)
[篇章關(guān)系]Contingency.Causality
例2:
[Arg1]Manufacturers’backlogs of unfilled ordersrose0.5% in September to $497.34 billion(譯文: 制造商未交付的訂單九月份上漲0.5%,至4973.4億美元)
[Arg2]Excluding these orders, backlogsdeclined0.3%.(譯文: 除了這些訂單,未交付的訂貨下降0.3%)
[篇章關(guān)系]Comparison
探尋論元的語義關(guān)系對于詞級的關(guān)聯(lián)線索有著極高的依賴作用。如例2的關(guān)聯(lián)線索來自前置論元Arg1中的詞項“rose”(“上升”),以及后置論元Arg1中的詞項“declined”(“下降”),兩者是隱含指向?qū)Ρ汝P(guān)系的關(guān)鍵信息。顯然,感知這類詞項的詞義,并在論元的整體表示學(xué)習(xí)中強(qiáng)化它們的注意力權(quán)重,對于機(jī)器正確判定論元語義關(guān)系非常重要。然而,在實際建模過程中,難以繞過如下瓶頸:
(1) 單純地建立關(guān)系詞表并追求詞義的表示學(xué)習(xí)違背了泛化原則,如實際測試樣本中的對比關(guān)系可能源自“increase”(“增加”)和“decrease”(“減少”),其不同于例2的詞級關(guān)系線索,且從未出現(xiàn)于人工建立的關(guān)系詞表(甚至訓(xùn)練數(shù)據(jù))。表示學(xué)習(xí)的偏差和信息遺漏,將負(fù)面地影響語義關(guān)系的有效感知。
(2) 現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)的編碼方法(如LSTM、Transformer和BERT)能夠結(jié)合上下文信息建立詞項的嵌入表示,提升泛化的感知能力。然而,其并非毫無前提。用于訓(xùn)練的數(shù)據(jù)資源是否充分,涵蓋語言現(xiàn)象的總量高低和語用形式的多樣與否,都將影響基于上下文的詞義編碼,進(jìn)而影響基于詞級關(guān)聯(lián)線索的關(guān)系分類。如相比于例2,測試樣本中的“increase”(“增加”)和“decrease”(“減少”)處于完全不同的上下文,小規(guī)模的訓(xùn)練數(shù)據(jù)集極大可能無法提供泛化學(xué)習(xí)所需的同質(zhì)異構(gòu)(同意但不同表述)上下文。
針對上述瓶頸,本文嘗試借助預(yù)訓(xùn)練掩碼語言模型[9]解決“上下文依賴”的詞義表示學(xué)習(xí),其不僅在大規(guī)模語言學(xué)資源中學(xué)習(xí)了大量語義和語用特征,且在自學(xué)習(xí)過程中“領(lǐng)教了”各類上下文的同質(zhì)異構(gòu)現(xiàn)象,具有較高的泛化感知能力。特別地,本文采用掩碼重構(gòu)的生成模型,專門針對篇章分析數(shù)據(jù)(PDTB中的樣本)進(jìn)行局部詞項的隨機(jī)遮蔽和“上下文依賴”的表示學(xué)習(xí),將詞項的缺失(遮蔽)視作提升論元編碼表示靈活性的契機(jī),其模擬了數(shù)據(jù)增強(qiáng)的基礎(chǔ)原理。在此基礎(chǔ)上,本文將交互注意力機(jī)制引入掩碼語言模型,在進(jìn)行選擇詞項遮蔽的過程中,增加關(guān)鍵詞級關(guān)聯(lián)線索的注意力加權(quán)。本文將上述方法稱為交互注意力掩碼語言模型(Interactive-Attention-based Mask Language Model, IAMLM)。在此基礎(chǔ)上,本文將IAMLM與RoBERTa[10]分類模型結(jié)合,集成到多任務(wù)學(xué)習(xí)框架中,其中IAMLM側(cè)重論元的泛化表示、數(shù)據(jù)增強(qiáng)和關(guān)聯(lián)線索注意力加權(quán),后者則作為論元整體語義表示和關(guān)系判定的模塊。
本文在PDTD 2.0標(biāo)準(zhǔn)數(shù)據(jù)集上對上述方法進(jìn)行測試。實驗結(jié)果顯示,本文方法取得了顯著的性能提升,消融實驗證明,關(guān)聯(lián)線索交互注意力產(chǎn)生的性能優(yōu)化明顯,其與掩碼語言模型形成了較好的協(xié)作關(guān)系。
在Penn Discourse Treebank 2.0(PDTB 2.0)發(fā)布后,產(chǎn)生了大量與淺層篇章結(jié)構(gòu)分析相關(guān)的工作。隱式篇章關(guān)系分類的性能目前普遍較低,許多研究者對其進(jìn)行深入研究以提高該任務(wù)的性能。以往的研究主要集中在線性分類器上進(jìn)行特征工程,對隱式篇章關(guān)系進(jìn)行分類。Pitler[11]等的研究集中在文本跨度層面和句子層面的語言特征生成和選擇。Lin[12]等在Pitler[11]等的基礎(chǔ)上提出使用句法結(jié)構(gòu)特征和依存特征構(gòu)建分類器。
近年來,為了從樣本中學(xué)習(xí)更豐富的語義信息,用來增強(qiáng)編碼表示,研究者們做了很多工作。如Zhang[13]等提出了更靈活的深層神經(jīng)架構(gòu),使用了淺層卷積神經(jīng)網(wǎng)絡(luò)對隱式篇章關(guān)系進(jìn)行分類。Chen[14]等采用門控機(jī)制來捕獲論元詞對之間的語義交互,并使用池化層來聚合這些交互表示,以選擇信息最豐富的交互。Qin[15]等更深入地挖掘現(xiàn)有的數(shù)據(jù),通過預(yù)測隱含連接詞用于多任務(wù)框架中,得到額外的顯著特征。最近,注意力機(jī)制[16]被廣泛應(yīng)用于自然語言處理任務(wù)中,這是一種模仿人類選擇性關(guān)注部分信息的閱讀習(xí)慣的方法。Guo[17]等對論元表示進(jìn)行交互注意力計算,以從論元對中挖掘出最相關(guān)的詞對,并將其整合到雙向長短期記憶網(wǎng)絡(luò)[18]產(chǎn)生的論元表示中。同時,提出了張量神經(jīng)網(wǎng)絡(luò)(Neural Tensor Network)來探索更重要的成對模式,以充分識別篇章關(guān)系。Bai和Zhao[19]使用不同粒度的詞向量對論元進(jìn)行表示,并使用卷積及注意力機(jī)制獲得最終表示。Nguyen[20]等在Bai和Zhao[19]的基礎(chǔ)上,將關(guān)系表示和連接詞表示映射到同一空間中來實現(xiàn)知識遷移,緩解了隱式篇章關(guān)系語料稀疏問題。Varia[21]等引入詞對卷積,以捕獲顯示或隱式關(guān)系分類的論元之間的相互作用。He[22]等使用多級編碼器挖掘論元關(guān)系實例的潛在幾何結(jié)構(gòu)信息,進(jìn)一步利用論元的語義特征來輔助篇章理解。Ruan[23]等提出堆疊式注意力機(jī)制,使用雙通道網(wǎng)絡(luò)開發(fā)了一個傳播性注意力學(xué)習(xí)模型,同時利用自注意力機(jī)制和交互注意力機(jī)制來增強(qiáng)編碼,產(chǎn)生更易識別的表示。Liu[24]等研究表明,不同層次的表征學(xué)習(xí)對隱式篇章關(guān)系分類都很重要,于是使用融合了多頭注意力和門控機(jī)制的模塊來深入理解文本,模型得到顯著的性能提升。
本節(jié)首先介紹模型的總體結(jié)構(gòu),隨后詳細(xì)描述模型各個模塊的內(nèi)部結(jié)構(gòu)以及模塊之間的聯(lián)系。
圖1示了模型的整體框架。本文提出的基于交互注意力掩碼語言模型主要分為四個部分: ①首先,混合表示層將每個單詞映射到字符和單詞級的嵌入表示,并在編碼層通過RoBERTa編碼Arg1和Arg2,增強(qiáng)詞嵌入的表示能力。②在論元表示上進(jìn)行交互注意力權(quán)重計算,以得到一個注意力矩陣,代表Arg1每個詞對應(yīng)Arg2每個詞的權(quán)重;然后,將其用于計算Arg2所有詞對應(yīng)Arg1每個詞的權(quán)重之和,根據(jù)權(quán)重之和,選擇Arg1中權(quán)重前30%大的詞進(jìn)行遮蔽;同理,選擇Arg2中權(quán)重前30%大的詞進(jìn)行遮蔽。③將被遮蔽關(guān)鍵詞的Arg1和Arg2拼接送入和編碼層同一個RoBERTa編碼,用于進(jìn)行預(yù)測關(guān)鍵詞任務(wù),并將該模型集成到一個多任務(wù)學(xué)習(xí)框架中,借助于遮蔽關(guān)鍵詞來將語義空間傾向?qū)?yīng)的隱式篇章關(guān)系。④將最先計算的注意力表示輸入全連接層進(jìn)行非線性變換,然后送入softmax層得到關(guān)系分類結(jié)果。
圖1 基于交互注意力掩碼語言模型框架圖
對于論元中的每個單詞,本文先通過RoBERTa的Byte-level Byte-Pair Encoding對其進(jìn)行分詞,并將分詞結(jié)果映射到向量表示,如(1)、式(2)所示。
其中,SEP是一種特殊的標(biāo)記詞嵌入,用來表示句子連接的邊界。
在此基礎(chǔ)上,本文將Arg1和Arg2拼接而成的詞向量表示作為RoBERTa網(wǎng)絡(luò)的輸入,以得到論元對的上下文表示[e0,e1,…,eM+N+2,eM+N+3]。
接著,該模型將論元對的上下文表示分割成兩個論元,如(4)、式(5)所示。
(4)
(5)
為了有效地捕捉論元間特征與特征之間復(fù)雜多樣的關(guān)系,本文將使用多頭交互注意力機(jī)制[14]。
多頭注意力允許模型共同關(guān)注來自論元不同位置的不同表示。復(fù)雜的篇章關(guān)系通常不容易從論元對的表面特征中導(dǎo)出,因此,本文將定義一個多頭注意力來表示兩個論元之間的交互注意力,如(7)、式(8)所示。
multi-head(Q,K,V)=concat(h1,…,hh)Wo
(7)
(8)
本文將分別以Q設(shè)為EArg2,K、V設(shè)為EArg1,生成交互注意力表示t1,如(9)~式(11)所示。
同理,以Q設(shè)為EArg1,K、V設(shè)為EArg2,生成交互注意力表示t2。
一方面,該模型將t1和t2對應(yīng)的交互注意力矩陣送入Attention-based遮蔽層中,用于選擇論元中權(quán)重高的詞語進(jìn)行遮蔽,將被遮蔽關(guān)鍵詞的論元對重新通過同一個編碼層,并進(jìn)行預(yù)測關(guān)鍵詞任務(wù)。另一方面,該模型將t1和t2送入融合層中更新論元表示,用于隱式篇章關(guān)系分類任務(wù)。
編碼層得到的論元對經(jīng)過第2.3節(jié)提到的交互注意力模型,本文得到了論元對的交互注意力表示t1和t2,這種注意力機(jī)制使模型能夠關(guān)注兩個論元相關(guān)聯(lián)的特征,這對于識別篇章關(guān)系至關(guān)重要。然后,該模型連接t1和t2,以獲得論元對表示Tpair=[t1,t2]。此時,論元對融合交互信息,將更新后的論元對表示進(jìn)行隱式篇章關(guān)系的預(yù)測,如圖1右側(cè)部分所示。
最后,本文將論元對向量Tpair進(jìn)行層歸一化,并使用全連接層對其進(jìn)行降維,將降維后的特征向量送入softmax層,該層為分類任務(wù),輸出論元對類別標(biāo)簽的概率。本文選擇softmax層的輸出和真實類別標(biāo)簽之間的交叉熵?fù)p失[25]作為該模型主任務(wù)的損失(Lossmain)。
第2.4節(jié)提出的模型本身可以實現(xiàn)隱式篇章關(guān)系識別。然而,與深度學(xué)習(xí)中的許多模型相似,該任務(wù)的一個大問題是缺乏標(biāo)記數(shù)據(jù),且類別分布十分不平衡。因此,本文提出一個基于交互注意力掩碼語言模型,通過將上述模型集成到一個多任務(wù)學(xué)習(xí)框架中,借助于大量的未標(biāo)記的數(shù)據(jù)來進(jìn)行掩碼語言模型的自監(jiān)督任務(wù),將預(yù)訓(xùn)練的語義空間傾向該實驗的任務(wù)數(shù)據(jù)。圖1左側(cè)顯示了論元對在得到交互注意力表示后,基于交互注意力進(jìn)行掩碼、預(yù)測詞項任務(wù)的網(wǎng)絡(luò)傳輸流程。
為了在屏蔽關(guān)鍵詞的情況下仍希望模型能很好地學(xué)習(xí)上下文的表示,本文使用第2.3節(jié)得到的兩個交互注意力表示t1、t2,得到其對應(yīng)的交互注意力矩陣,分別代表Arg1中每個詞、Arg2中每個詞,以及Arg2中每個詞對Arg1中每個詞的影響權(quán)重大小,將其送入Attention-based遮蔽層中用于選擇論元詞遮蔽。以t1為例,本文將計算Arg2中所有詞對Arg1中每個詞的權(quán)重之和,得到Arg1中每個詞對Arg2影響的權(quán)重向量,計算過程如圖2所示。根據(jù)得到的權(quán)重向量,將Arg1中的前30%大的權(quán)重對應(yīng)的詞進(jìn)行遮蔽,即,Arg1 中選出的詞用[mask]進(jìn)行替換。同理,使用得到的權(quán)重向量,對Arg2中的前30%大的權(quán)重對應(yīng)的詞進(jìn)行遮蔽。
圖2 基于交互注意力選擇關(guān)鍵詞示意圖(V為Arg1為例)
最后,本文將遮蔽關(guān)鍵詞后的Arg1、Arg2拼接,送入和編碼層同一個RoBERTa中,得到論元對的上下文表示,并使用全連接層進(jìn)行升維,將升維后的特征向量送入softmax層進(jìn)行單詞預(yù)測。這里,該模型選擇softmax層的輸出和原始單詞之間的交叉熵?fù)p失作為輔助任務(wù)的損失(Lossaux)。
關(guān)于從輔助任務(wù)到主任務(wù)的知識共享策略,如圖1最頂端連接操作所示,本文將聯(lián)合右側(cè)主任務(wù)和左側(cè)輔助任務(wù),給主任務(wù)和輔助任務(wù)賦予不同的權(quán)重,如式(12)所示。
其中,α∈(0,1]是一個權(quán)重參數(shù)。顯然,α值越低意味著輔助任務(wù)的重要性越低。
本節(jié)首先介紹了隱式篇章關(guān)系的實驗數(shù)據(jù)以及常用的評價指標(biāo),隨后描述了多組實驗設(shè)置和參數(shù)設(shè)置,最后對實驗結(jié)果等方面進(jìn)行分析。
本文在PDTB 2.0數(shù)據(jù)集上進(jìn)行了實驗。為了進(jìn)行比較,本文采用Sec 02-20作為訓(xùn)練集,Sec 00-01作為開發(fā)集,Sec 21-22作為測試集。其中,具體四大篇章關(guān)系Comparison(Comp.)、Expansion(Expa.)、Contingency(Cont.)和Temporal(Temp.)的語料分布情況如表1所示。
表1 PDTB隱式篇章關(guān)系數(shù)據(jù)分布
由表1可知,各個關(guān)系類別上的數(shù)據(jù)分布不均衡,其中,時序關(guān)系(Temporal)的樣本數(shù)量遠(yuǎn)小于其他任一種關(guān)系。因此,用所有數(shù)據(jù)直接訓(xùn)練模型并進(jìn)行測試的方法難以判定實例為樣本數(shù)量小的類別。由于在每個關(guān)系類別上,其訓(xùn)練集正負(fù)例分布不均衡(正例個數(shù)遠(yuǎn)小于負(fù)例)。本文除了在四分類模型上用宏平均F1值(Macro-averagedF1)評估該任務(wù)的模型,還針對每個關(guān)系類別,對負(fù)例隨機(jī)抽樣來構(gòu)造平衡數(shù)據(jù),并用其訓(xùn)練一個二分類器,使用F1值(F1-score)作為性能評價標(biāo)準(zhǔn)。
本節(jié)針對所提模型基于交互注意力掩碼語言模型設(shè)計了消融實驗,來展示所提模型不同部分對分類性能的影響。在實驗過程中,所有對比模型的參數(shù)設(shè)置與本文所提的模型保持一致。
(1)RoBERTa-base(基準(zhǔn)模型):將通過RoBERTa的Byte-level Byte-Pair Encoding分詞后的Arg1和Arg2,拼接后作為RoBERTa的輸入,以得到論元對的上下文表示。最后,將其輸入全連接層進(jìn)行關(guān)系分類。
(2)交互注意力機(jī)制(Interactive-Attention):通過RoBERTa得到論元對的上下文表示,使用式(7)計算出Arg1和Arg2的交互注意力表示,將其拼接并作為全連接層的輸入來進(jìn)行關(guān)系分類。
(3)隨機(jī)掩碼語言模型(Random-based Mask Language Model,RMLM): 通過RoBERTa得到論元對的上下文表示,將其直接作為全連接層的輸入來進(jìn)行關(guān)系分類。同時,隨機(jī)遮蔽論元30%的詞,將被遮蔽詞的論元對作為RoBERTa的輸入,得到論元對的上下文表示后,進(jìn)行預(yù)測詞任務(wù),將其作為輔助任務(wù)。
(4)RMLM+Interactive-Attention:通過RoBERTa得到論元對的上下文表示,使用式(7)計算出Arg1和Arg2的交互注意力表示,將其拼接并作為全連接層的輸入來進(jìn)行關(guān)系分類。同時,隨機(jī)遮蔽論元30%的詞,將被遮蔽詞的論元對作為RoBERTa的輸入,得到論元對的上下文表示后,進(jìn)行預(yù)測詞任務(wù),將其作為輔助任務(wù)。
(5) 交互注意力掩碼語言模型(IAMLM): 通過RoBERTa得到論元對的上下文表示,使用式(7)計算出Arg1和Arg2的交互注意力表示,將其拼接并作為全連接層的輸入來進(jìn)行關(guān)系分類。同時,使用Arg1和Arg2得到的交互注意力矩陣,選出權(quán)重前30%大的關(guān)鍵詞進(jìn)行遮蔽(見2.5節(jié)),將被遮蔽詞的論元對作為RoBERTa的輸入,得到論元對的上下文表示后,進(jìn)行預(yù)測詞任務(wù),將其作為輔助任務(wù)。
本文使用RoBERTa-base作為該模型的上下文表示層,并設(shè)定RoBERTa的每個隱藏層維度d為768。論元的長度統(tǒng)一設(shè)置為126(M=N=126),論元對表示的長度設(shè)置為256(252加4個分隔符)。在訓(xùn)練過程中,批(Batch size)大小為8,交互注意力的權(quán)重矩陣維度dmodel為128。輔助任務(wù)損失權(quán)重α設(shè)置0.5。本文使用包含一個隱藏層的全連接層,其隱藏層神經(jīng)元個數(shù)為256,為了避免過擬合,該模型在每層之后使用了dropout,其比率設(shè)置為0.2。本文使用交叉熵?fù)p失作為模型的損失函數(shù),并使用Adam[26]優(yōu)化器對參數(shù)進(jìn)行更新,其學(xué)習(xí)率設(shè)置為0.000 05。
本文針對所提模型進(jìn)行消融實驗,檢驗了四種主要關(guān)系類型的二元分類性能,包括Comparison(COM)、Contingency(CON)、Expansion(EXP)和Temporal(TEM)。在PDTB四大類關(guān)系上,基準(zhǔn)模型RoBERTa-base、Interactive-Attention、RMLM、RMLM+Interactive-Attention和IAMLM的分類性能如表2所示。實驗結(jié)果表明,相較于基準(zhǔn)模型RoBERTa-base,Interactive-Attention在F1值上有所提升,其原因在于多頭交互注意力機(jī)制能夠捕捉論元對之間的交互信息,并使用這一信息對論元表示進(jìn)行增強(qiáng),可獲得含有交互信息的論元特征。同時,RMLM相較于基準(zhǔn)模型在四大類關(guān)系上的分類性能均有所提升,其原因在于掩碼語言模型能夠在理解上下文的基礎(chǔ)上“重構(gòu)掩碼區(qū)域語義表示”,用遮蔽詞項來提升論元編碼表示的靈活性。但是由于隨機(jī)遮蔽的詞項之間存在非關(guān)鍵信息,訓(xùn)練時容易包含噪聲,會學(xué)到部分與任務(wù)相關(guān)性不大的上下文表示。而IAMLM可以針對論元對之間關(guān)聯(lián)性強(qiáng)的關(guān)鍵詞來進(jìn)行遮蔽、掩碼重構(gòu),從而形成更有針對性的數(shù)據(jù)增強(qiáng)。此外,IAMLM在四大類關(guān)系上的分類性能均優(yōu)于基準(zhǔn)模型,尤其在Contingency和Temporal關(guān)系上,其F1值相對于基準(zhǔn)系統(tǒng)分別提高了 6.46%和6.56%。
表2 消融實驗結(jié)果 (單位: %)
本文與其他前沿工作在四分類和四種主要關(guān)系的二分類任務(wù)上進(jìn)行了對比。宏平均F1值(Macro-averagedF1)和準(zhǔn)確率(Accuracy)是四分類的主要性能評價指標(biāo),F(xiàn)1值(F1-score)用于評估對于二分類每個類別的性能,具體性能如表3所示。
表3 與最先進(jìn)模型的比較結(jié)果 (單位: %)
本文首先評估該任務(wù)的四分類模型,其在所有隱式篇章關(guān)系分類設(shè)置上取得了最好的性能和實質(zhì)性的改進(jìn)。接著,在二分類場景(一個關(guān)系類和其他關(guān)系類)中,它具有與Liu等[24]使用基于RoBERTa-base的上下文感知多視角融合模型相當(dāng)?shù)男阅堋Ec此前最佳的模型相比,在Contingency上提升了4.78%,在Expansion上提升了0.98%。然而,Liu等[24]的工作在Comparison和Temporal上均超過該模型性能,他們采用RoBERTa對論元對進(jìn)行編碼,使用多視角余弦相似度匹配論元,將新的論元表示輸入到有門控單元的多頭注意力,得到論元的交互特征矩陣,且對其使用了卷積操作。相較之下,本文所提的基于交互注意力掩碼語言模型在模型與論元表示上較為簡單。盡管如此,本文所提方法,仍能在Contingency和Expansion關(guān)系上超越該方法。Varia等[21]在Temporal關(guān)系上也優(yōu)于本文模型,這是因為Varia等[21]使用了擴(kuò)展語料,其捕獲了顯式及隱式關(guān)系分類的論元之間的相互作用。而本文所提出的模型并沒有使用其他的語料進(jìn)行輔助訓(xùn)練。
此外,為了顯示輔助任務(wù)權(quán)重α大小對模型性能的影響,本文對不同α的取值進(jìn)行實驗,在該任務(wù)的二分類模型上進(jìn)行評估,實驗結(jié)果如圖3所示。實驗結(jié)果表明,輔助任務(wù)權(quán)重α大小過低或過高都會使得模型性能退化,當(dāng)α取0.5時,模型綜合表現(xiàn)最好。
圖3 模型在不同輔助任務(wù)權(quán)重大小下的表現(xiàn)
最后,為了顯示不同遮蔽論元比例對模型性能的影響,本文對根據(jù)交互注意力權(quán)重來選詞遮蔽的比例取值進(jìn)行了實驗,在該任務(wù)的二分類模型上進(jìn)行了評估,實驗結(jié)果如圖4所示。本文對照不進(jìn)行遮蔽論元的實驗組,在選詞遮蔽比例在0%~20%的情況下,模型性能和基準(zhǔn)模型性能相當(dāng),這是因為在遮蔽詞比例較小的情況下,對關(guān)鍵詞的遮蔽存在較大的偶然性,模型學(xué)習(xí)到的語義信息并不完整。而隨著比例的增加,模型的性能在30%處達(dá)到峰值,而后比例在35%~45%時,模型性能開始退化,說明了遮蔽詞數(shù)量過多,反而會讓模型引入噪聲,無法正確重構(gòu)掩碼區(qū)域語義表示,從而降低模型分類的性能。最終,本文選擇性能綜合表現(xiàn)最好的遮蔽詞比例30%作為最終取值。
圖4 模型在不同遮蔽比例下的表現(xiàn)
為了驗證本文模型能夠顯著提升性能,并且排除偶然性的影響,本小節(jié)進(jìn)行了顯著性檢驗分析[32],即重復(fù)進(jìn)行多次實驗(本文5次),計算使用RMLM、IAMLM與其基準(zhǔn)模型RoBERTa在測試集上F1值指標(biāo)的p值。本文采用Johnson[33]的建議,將閾值設(shè)置為0.05。在顯著性檢驗中,當(dāng)p值小于閾值時,認(rèn)為結(jié)果存在顯著差異,否則差異不明顯。實驗結(jié)果如表4所示,本文提出的IAMLM在PDTB 2.0測試集上多個類別計算出的p值遠(yuǎn)小于0.05,結(jié)果存在著顯著提升。
表4 顯著性檢驗結(jié)果
本文旨在研究隱式篇章關(guān)系分類任務(wù),并提出了基于交互注意力掩碼語言模型的隱式篇章關(guān)系識別方法。該方法無需外部語料,通過上下文的表示來預(yù)測交互注意力選出的關(guān)鍵詞,以此得到更好的語義空間。實驗結(jié)果表明,本文所提方法在基準(zhǔn)模型的基礎(chǔ)上有所提升,取得了與目前最優(yōu)的模型相當(dāng)?shù)男阅堋?/p>
數(shù)據(jù)分析表明,PDTB語料中,同一個論元對可能伴隨著兩種不同的關(guān)系。因此,在下一步的工作中,我們將設(shè)計一個上下文感知的對抗模型,以選擇性地為中心論元分配注意力權(quán)重。同時,因為訓(xùn)練數(shù)據(jù)的缺乏,目前的分類方法在Temporal等類別上的性能仍然不高。為此,我們將借鑒元學(xué)習(xí)等方法從少量數(shù)據(jù)中提高模型的判別能力。