于媛芳 張勇 左皓陽 張連發(fā) 王婷婷
北京大學(xué)學(xué)報(自然科學(xué)版) 第59卷 第1期 2023年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)
10.13209/j.0479-8023.2022.064
國家自然科學(xué)基金(61977032)、中央高?;究蒲袠I(yè)務(wù)費(CCNU22QN014, CCNU22QN015, CCNU20TD006)和國家語言文字工作委員會“十四五”科研規(guī)劃項目(YB145-2)資助
2022–05–29;
2022–07–27
基于角色信息引導(dǎo)的多輪事件論元抽取
于媛芳 張勇?左皓陽 張連發(fā) 王婷婷
華中師范大學(xué)計算機學(xué)院, 武漢 430079; ? 通信作者, E-mail: ychang@ccnu.edu.cn
針對通用領(lǐng)域的事件論元抽取研究中角色信息利用不足和論元間缺少交互兩個問題, 提出角色信息引導(dǎo)的多輪事件論元抽取模型, 用于增強文本的語義信息和論元之間的交互能力, 提升事件論元抽取的性能。首先, 為了更好地利用角色知識來引導(dǎo)論元的抽取, 該模型根據(jù)角色定義構(gòu)造角色知識, 對角色信息和文本獨立編碼, 并采用基于注意力機制的方法獲取標(biāo)簽知識增強的文本表示, 進而采用增強嵌入來預(yù)測各角色論元的起始和結(jié)束位置。同時, 為了在抽取過程中充分利用事件論元之間的交互, 受多輪對話模型的啟發(fā), 設(shè)計一種多輪事件論元抽取算法。該算法參照“先易后難”的自然邏輯, 每次選擇預(yù)測概率最大, 也是最容易確定的角色進行抽取。在論元抽取過程中, 為了對論元之間的交互進行建模, 模型引入歷史嵌入, 并在每一次預(yù)測結(jié)束后更新歷史嵌入, 幫助下一輪事件論元的抽取。實驗結(jié)果表明, 角色信息的引導(dǎo)和多輪抽取算法均有效地提升了論元抽取的性能, 使得該模型的表現(xiàn)優(yōu)于其他基線模型。
事件論元抽取; 角色知識; BERT; 信息融合; 多輪抽取
隨著網(wǎng)絡(luò)新聞行業(yè)和社交平臺的迅猛發(fā)展, 網(wǎng)絡(luò)新聞用戶快速增長。因網(wǎng)絡(luò)的實時性和設(shè)備的便利性, 在網(wǎng)絡(luò)平臺上瀏覽新聞資訊成為日常。然而面對海量的數(shù)據(jù), 用戶不可能一一閱讀, 因此有效的數(shù)據(jù)篩選尤為重要。新聞文檔中包含的事件往往是關(guān)鍵信息, 它能在短時間內(nèi)讓用戶了解事件發(fā)生的地點、時間及涉及的相關(guān)人員等。因此, 新聞文檔中的事件抽取技術(shù)備受關(guān)注。事件抽取任務(wù)可細分為事件檢測(或稱觸發(fā)詞識別)子任務(wù)和事件論元抽取子任務(wù), 本文僅針對事件論元抽取子任務(wù)進行研究。
在論元抽取任務(wù)相關(guān)研究中, 很多學(xué)者開始應(yīng)用角色標(biāo)簽知識。例如, 在句子“Valls took a jet plane to Berlin.”中, “jet plane”意為噴氣式飛機, 若已知“Vehicle”的標(biāo)簽含義為轉(zhuǎn)移事件中搭乘的交通工具, 那么預(yù)測“jet plane”在 Transport 事件中為Vehicle 類型的論元便十分簡單。同理, 作為城市, “Berlin”有極大可能扮演目的地(Destination)這一角色。這就需要解決如何讓模型明確抽取目標(biāo)的問題, 一種方法是在文本編碼過程中融合角色知識, 讓模型主動學(xué)習(xí)抽取目標(biāo), 從而幫助模型有目的地抽取論元。然而, 當(dāng)前融合角色信息的方法較為單一, 拼接文本的方法增加了文本編碼的長度, 并且不夠靈活。
一個事件中通常存在多個論元, 但此前大部分研究中將論元抽取作為一次分類任務(wù)。事實上, 論元角色間的潛在關(guān)系能夠幫助論元的抽取, 但同時抽取所有論元的方式忽視了論元之間的交互影響。在圖 1 所示例句中, 存在以“killed”為觸發(fā)詞的Attack 類事件。在確定位于右側(cè)的“them”為事件中Target 角色的情況下, 左側(cè)的主語“The mob”將很有可能扮演 Attacker 角色。因此, 將論元抽取拆分成多次任務(wù), 每次僅抽取一個角色的論元, 將每一輪的結(jié)果傳遞下去, 以便影響后續(xù)預(yù)測, 最終實現(xiàn)論元間的交互。為了在抽取過程中向當(dāng)前角色的識別傳遞其他論元角色的預(yù)測信息, 需要針對論元或角色間的關(guān)系進行建模。
面對上述問題, 本文選擇單獨編碼的方式, 對文本信息和角色信息分別建模, 然后進行信息聚合, 以便在文本表示中加入角色知識的引導(dǎo)。本文還提出多輪論元抽取算法, 旨在利用抽取過程中論元間的交互影響來提升事件論元抽取的性能。
對于特定領(lǐng)域的事件抽取, 許多研究者積極引入領(lǐng)域信息, 加入外部資源庫, 用來豐富文本中詞的表示。尤其在生物醫(yī)學(xué)領(lǐng)域, 文本中不少實體名屬于未登錄詞, 而專業(yè)知識庫中存在相應(yīng)的實體信息, 因此引入外部知識庫有助于事件抽取。Li 等[1]提出基于外部知識庫(knowledge base, KB)驅(qū)動的事件抽取模型, 從基因本體論中提取實體的屬性和類型描述, 并分別編碼, 作為 KB 概念嵌入。Wang 等[2]在 PubMed 語料上使用文本分類工具 FastText 訓(xùn)練詞嵌入, 即構(gòu)建單詞的語義空間, 以此提高觸發(fā)詞檢測的性能。
不同于特定領(lǐng)域的事件, 由于通用領(lǐng)域中事件類型較多, 且多為新聞報道的熱點, 引入知識庫的方法并不適用。因此, 作為為數(shù)不多的外部信息, 官方文檔中的論元角色定義受到關(guān)注。已有實驗證明角色信息的引導(dǎo)能有效地提高模型性能, 常見的做法是拼接角色知識作為原始文本的上下文。如Du 等[3]和 Li 等[4]將觸發(fā)詞識別和論元抽取任務(wù)轉(zhuǎn)換成 QA (question answering)問題, 用角色標(biāo)簽的信息拼接原始文本, 作為模型的輸入, 通過 BERT 模型, 以共同編碼的方式在詞表示中加入角色的引導(dǎo), 從而抽取相應(yīng)角色的論元。
在編碼前, 必須將每個文本轉(zhuǎn)換為||對(|C|是標(biāo)簽類別集的大小), 這種轉(zhuǎn)換同時增加了樣本集合的大小和文本序列的長度, 若使用 BERT 模型編碼, 還需注意最大長度限制。同時, 僅用[sep]符號對二者進行分割, 不能明顯地區(qū)分主要信息和次要信息。在實際任務(wù)中, 原始語句的信息更為重要, 但類似拼接的方法不易調(diào)整“關(guān)注度”。于是, Yang等[5]提出在命名實體識別和觸發(fā)詞識別任務(wù)中分別對標(biāo)簽知識和預(yù)測語句單獨進行編碼的方法, 并將標(biāo)簽知識顯式地集成到文本表示中, 解決標(biāo)簽知識利用不足的問題。
圖1 論元之間的交互影響
在論元抽取任務(wù)中, 有研究者嘗試用顯式方法建模觸發(fā)詞類型之間、觸發(fā)詞類型與論元角色乃至論元角色之間的關(guān)系。如 JRNN[6]和 dbRNN[7]模型中使用的記憶向量和 SMA (self-matching attention)矩陣, 其中僅有一種構(gòu)建方式經(jīng)實驗證明有效, 且均難以學(xué)習(xí)到論元之間的關(guān)系。由于論元角色之間的顯式關(guān)系難以捕捉, 因此出現(xiàn)將論元抽取過程建模為多輪問答的方法[4], 通過增加歷史嵌入, 為后續(xù)角色的抽取傳遞信息, 隱式地建模了觸發(fā)詞、事件類型和論元之間豐富的交互。
然而, 固定角色順序抽取論元的方法未考慮每一文本的特性, 若當(dāng)前事件中某些角色的預(yù)測概率極低(即可能不存在相應(yīng)論元), 依照此方法仍需做無用的預(yù)測。本文受多輪對話任務(wù)啟發(fā), 提出多輪抽取算法, 遵循“先易后難”的思想, 根據(jù)文本表示的預(yù)測概率, 無固定順序地對各角色論元進行抽取, 并更新歷史嵌入, 為后續(xù)抽取提供信息。
早先, 事件論元抽取多被視為序列標(biāo)注任務(wù), 缺點是無法正確地預(yù)測同一個 token 扮演多個角色的現(xiàn)象。后來, 更多的研究者將事件論元的抽取作為跨度抽取任務(wù)來處理。Sheng 等[8]為了解決角色重疊問題, 設(shè)計一組特定于角色的標(biāo)注器, 預(yù)測每一個 token 是否為論元的起始位置和結(jié)束位置, 然后使用解碼策略來確定論元。此外, Yang 等[9]和Ahmad 等[10]先后提出不同的文本跨度解碼策略來提升論元抽取的性能。本文效仿上述做法, 通過預(yù)測起始和結(jié)束位置來確定論元。
受前人工作啟發(fā), 本文提出角色信息引導(dǎo)的多輪事件論元抽取模型。該模型分為語義編碼層、角色信息融合層、歷史嵌入層和多輪論元抽取層幾個模塊, 結(jié)構(gòu)如圖 2 所示。模型輸入包括文本和角色知識集。首先, 兩個輸入分別由預(yù)訓(xùn)練的 BE-RT 模型進行編碼, 其編碼器共享權(quán)重。在角色信息融合層, 將得到的文本嵌入和角色標(biāo)簽知識嵌入進行融合, 得到標(biāo)簽知識增強的文本嵌入。然后, 采用增強嵌入來預(yù)測每個 token 是否為某類別的起始位置或結(jié)束位置。最后, 按照多輪抽取算法, 根據(jù)預(yù)測的概率分布, 每次僅抽取一個類型的論元, 直至完成當(dāng)前事件中所有可能的論元角色預(yù)測。
圖2 角色信息引導(dǎo)的多輪事件論元抽取模型
本文實驗均在 ACE05 數(shù)據(jù)集上進行。與引入外部知識庫的方法不同, 本文使用的類別標(biāo)簽知識僅來源于事件抽取任務(wù)的官方文檔中給出的定義, 僅對部分角色的注釋做了調(diào)整, 大部分角色與文檔給出的釋義保持一致, 如表 1 中 Transport 事件包括交通工具(Vehicle)和目的地(Destination)在內(nèi)的 7 種角色。
與其他角色不同, 時間(Time)類別又分為 8 個子類型, 已發(fā)生、正在發(fā)生和將要發(fā)生的事件具有不同的子類型, 并且一個事件可同時存在多個子類型, 但官方文檔中僅給出 Time 角色大類的釋義。于是, 本文通過在尾部添加關(guān)鍵詞來區(qū)分子類型(表2)。
對于輸入文本和角色知識, 均采用預(yù)訓(xùn)練的BERT 模型[11]進行編碼。對于長度為的輸入語句(1,2, …,), 經(jīng)過 BERTarg編碼所得結(jié)果如式(1)所示:
取最后一層隱藏狀態(tài)作為嵌入。
信息融合模塊旨在用角色知識顯式地增強文本表示。將經(jīng)過共享編碼器產(chǎn)生的文本嵌入和類別嵌入進行融合, 得到類別知識增強的文本表示。首先, 在編碼層分別增加全連接層1和2, 將兩種嵌入表示映射到同一個語義空間中, 如式(3)和(4)所示:
表1 Transport類事件中的論元角色及對應(yīng)標(biāo)簽釋義
表2 Time角色的 8 個子類型及對應(yīng)標(biāo)簽釋義
余弦相似度是一種傳統(tǒng)的相似度計算方法, 常用于推薦系統(tǒng)中計算文章內(nèi)容和物品相似度。另外, 考慮到經(jīng)過轉(zhuǎn)換后類別信息和原始文本在同一個語義環(huán)境中, 故采用 Luong 等[12]提出的 attention機制進行關(guān)注度計算, 從而融合角色信息。兩種融合方式的操作步驟如下。
其中, 1≤≤, 1≤≤。
根據(jù)注意力分?jǐn)?shù)計算角色知識中每個 token 的加權(quán)和后, 為了在融合的過程中保留原始文本表示, 加上原始編碼層的語義表示, 通過式(7)中向量加法得到融合信息表示:
為了緩解反向傳播過程中梯度消失問題, 在全連接層添加 tanh 激活函數(shù), 如式(8)所示:
對于歷史嵌入向量, 直覺上可以根據(jù)角色類型編碼不同的歷史嵌入, 類似依存標(biāo)簽的應(yīng)用。但是, 當(dāng)前絕大多數(shù)的依存句法應(yīng)用中, 都未使用依存標(biāo)簽, 而是用簡單的二值化方法來區(qū)分是否存在支配與從屬關(guān)系。Cui 等[13]指出, 區(qū)分依存類型會導(dǎo)致過度參數(shù)化。同理, 本文模型選擇使用兩個嵌入向量和來區(qū)分 token 是否在前幾輪的抽取中被預(yù)測為某個角色的論元, 其中和的初始化是隨機的。為了探究多標(biāo)簽歷史嵌入是否有效, 我們在對比實驗中設(shè)計了各種歷史嵌入向量, 包括生成可訓(xùn)練的多類別嵌入和間接使用角色知識嵌入等。
經(jīng)過編碼層得到 token 的表示之后, 需要對其進行分類。為了確定論元 span, 本文模型使用起始分類器(start-classifier)和結(jié)束分類器(end-classifier)分別預(yù)測論元在句子中的起始位置和結(jié)束位置。對于每一個 tokens, 預(yù)測為一個角色的論元起始或結(jié)束位置概率的計算方法如式(11)和(12)所示:
(,)的結(jié)果來源于角色 mask 矩陣, 當(dāng)角色屬于類型的事件時其值為 1, 否則為 0。
由于同樣的角色標(biāo)簽在不同的事件類型中的標(biāo)簽知識不盡相同, 所以歸為不同角色類別。但是, 這也導(dǎo)致角色數(shù)量成倍增加。為了保證在事件中抽取論元時僅考慮屬于此類型的角色, 使用角色mask 矩陣來存儲它們的對應(yīng)關(guān)系, 矩陣的“行”表示一類事件中包含的角色類別, “列”表示該角色存在的事件類型。
在得到預(yù)測概率之后, 根據(jù)本文設(shè)計的算法 1來確定當(dāng)前一輪提取的角色。
秉持先易后難的原則, 本文算法設(shè)計的初衷是優(yōu)先抽取較易確定的角色。當(dāng)一個 token 被預(yù)測為某個角色時, 相應(yīng)地, 該 token 作為其他類型角色的概率降低。循環(huán)抽取, 以此提高抽取的準(zhǔn)確度。算法 1 的主要步驟如下。
1)假設(shè)每個 token 對所有角色的預(yù)測起始位置概率構(gòu)成一個×的矩陣, 找出矩陣中的最大值(,), 其中為最大值對應(yīng)的角色編號。
2)判斷是否達到抽取閾值, 低于閾值則結(jié)束論元抽取, 高于閾值則使用 get_span 函數(shù)解碼, 將結(jié)果記為 result spans。關(guān)于解碼規(guī)則, 目前應(yīng)用最廣泛的是“最近匹配原則”, 該方法將類別的起始位置與距離最近的下一個結(jié)束位置相匹配。但是, 為了更合理地抽取出 span, 本文使用 Yang 等[9]提出的“啟發(fā)式匹配原則”。
循環(huán)執(zhí)行上述 3 個步驟, 直至某輪的抽取結(jié)果為空, 結(jié)束論元抽取。
本文實驗均在 ACE2005 英文數(shù)據(jù)集上進行訓(xùn)練和測試。ACE05 數(shù)據(jù)集[14]: 由 ACE2005 給出, 用于 ACE2005 定義的實體識別、關(guān)系抽取和事件抽取任務(wù)。數(shù)據(jù)來源主要有微博(weblogs)、廣播新聞(broadcast news)、新聞專線(newsgroup)和廣播對話(broadcast conversation), 其中數(shù)據(jù)的語言含中文、英語和阿拉伯語三類。為了便于實驗結(jié)果的直接比較, 本文保持與既有工作相同的數(shù)據(jù)分割, 40篇新聞專線文檔用于驗證集, 30 篇文檔用于測試集, 剩余 529 篇文檔分配給訓(xùn)練集。三類數(shù)據(jù)子集的統(tǒng)計結(jié)果見表 3。
表3 ACE05數(shù)據(jù)集中文檔和句子數(shù)量
本文模型框架的構(gòu)建以及訓(xùn)練和測試均通過Pytorch 實現(xiàn)。在語義編碼層, 使用預(yù)訓(xùn)練的 bert-base-uncased, 獲得的詞嵌入維度為 768。在歷史嵌入層, 為已抽取過和未抽取過的論元分別設(shè)置和兩個向量。在抽取之前, 向量隨機初始化, 并將其維度設(shè)置為 250。此外, 在論元抽取過程中, 起始和結(jié)束位置的預(yù)測閾值為 0.5。
在論元抽取任務(wù)被開發(fā)后, 研究者提出眾多模型, 本研究只選取以下 6 種具有代表性的模型進行 對比。
1) Li’s BASELINE[15]: 提出基于特征的系統(tǒng), 使用根據(jù)專家知識設(shè)計的詞匯和語法特征。
2) DMCNN[16]: 采用 CNN 和分段動態(tài)池化方式來獲取句子級語義特征, 然后拼接詞級特征, 對觸發(fā)詞和候選論元關(guān)系進行分類。
3)JRNN[6]: 是一種基于 RNN 的事件抽取聯(lián)合模型, 并且為了利用潛在觸發(fā)詞與論元角色間的關(guān)系, 設(shè)計了事件類型間與角色間的記憶向量。
4) DYGIE++[17]: 是一個基于 BERT 的信息抽取框架, 通過對捕獲了句內(nèi)信息和跨句信息的 spans進行枚舉和打分來完成各類信息抽取任務(wù)。
5)BERT_QA_Arg[3]: 將論元抽取任務(wù)建模成 QA問題, 根據(jù)角色知識來構(gòu)造問題, 使用 BERT 獲取原始語句中的上下文表示, 最后針對問題中的角色進行 span 抽取。
6)MQAEE[4]: 用多輪對話的形式完成論元抽取任務(wù), 每輪抽取使用前輪的歷史回答信息, 且固定角色抽取順序。
3.3.1 模型對比
表 4 中, 只有 Li’s BASELINE 模型采用傳統(tǒng)的手動特征工程, 由于人工構(gòu)建的語法規(guī)則較為強硬, 約束性較強, 所以準(zhǔn)確率較高, 召回率較低。DM-CNN 和 JRNN 模型均未使用 BERT 生成上下文相關(guān)的詞嵌入, 但事件抽取聯(lián)合模型 JRNN 仍然表現(xiàn)出很強的競爭力。JRNN 的實驗結(jié)果表明, 雖然設(shè)計的記憶向量對觸發(fā)詞檢測階段沒有幫助, 但在提高論元預(yù)測性能方面非常有效。
與本文所提模型相同, DYGIE++也使用 BERT獲取詞的上下文嵌入, 但沒有用到豐富的角色知識, 也忽略了抽取過程中論元之間產(chǎn)生的交互影響, 導(dǎo)致模型效果一般。模型 BERT_QA_Arg 和 MQAEE對事件論元抽取任務(wù)的處理方式相似, 均建模為閱讀理解問題, 并且使用官方文檔中的類別注釋來引導(dǎo)答題, 不同點在于 MQAEE 使用多輪問答, 在抽取過程中加入歷史回答信息。
本文模型的特點在于將角色的知識和文本獨立編碼后進行信息融合, 既能避免文本編碼長度的增加, 又使得文本 token 能夠充分關(guān)注論元角色信息而不被文本自身的 token 分散注意力。并且, 在抽取階段, 本文設(shè)計了遵循“先易后難”循環(huán)抽取思想的算法, 隱式地捕捉事件論元之間的交互。因此, 對比其他模型, 本文模型獲得較有競爭力的表現(xiàn)。
3.3.2 消融實驗
1)探究歷史嵌入的設(shè)計和維度大小帶來的影響。實驗中設(shè)計 3 種歷史嵌入向量: ①使用隨機初始化的方法, 生成字典大小為 label_num+1 的嵌入表(label_num 為角色數(shù)量, 加上一種非論元類型); ②間接使用角色知識嵌入, 即將角色知識嵌入輸入全連接層進行降維, 得到歷史嵌入向量; ③使用二值歷史嵌入向量, 僅用兩個不同的可訓(xùn)練向量表示當(dāng)前 token 是否已經(jīng)被抽取。實驗結(jié)果表明, 使用前兩種方法時, 模型在數(shù)據(jù)集上訓(xùn)練多個 epoch 后仍然無法收斂。
表4 各模型在 ACE05 論元抽取任務(wù)上的表現(xiàn)(%)
另外, 實驗中對歷史嵌入加入的位置也進行了多種嘗試, 在初始文本與類別信息融合之前和之后分別拼接歷史嵌入向量。但是, 在信息融合模塊之前進行拼接, 模型效果很差, 原因可能是歷史嵌入與文本和角色知識的編碼不在同一個語義空間。
為了探究歷史嵌入維度對性能的影響, 本文模型分別在 3 種不同維度的二值化歷史嵌入向量上進行實驗, 性能的變化如表 5 所示。當(dāng)維度為 250 時, F1 值最高。前兩種設(shè)置的模型訓(xùn)練結(jié)果不太穩(wěn)定, 平均來看, 幾乎與同時抽取的效果持平, 最優(yōu)結(jié)果略好。表 5 中給出的是較穩(wěn)定的結(jié)果。
2)兩種信息融合方式的性能比較。在本文的實驗中使用余弦相似度和 attention 機制的效果差距不明顯, 原因可能是使用句子級語義已經(jīng)足夠引導(dǎo)分類器抽取。另外, 事件論元抽取任務(wù)的和 F1 值難以提升的原因也許并不在于角色標(biāo)簽理解方面的 困難。
3)角色 mask 矩陣和多輪抽取算法的有效性??紤]到論元角色眾多, 角色 mask 矩陣的使用顯然是必要的。由于論元抽取任務(wù)的整體準(zhǔn)確率不算太高, 多輪抽取算法企圖利用潛在的論元之間交互是否有效, 還需實驗加以證明。因此, 本文設(shè)計 3 組實驗來證明兩種方法的正向作用, 結(jié)果列于表 6。首先測試不加角色 mask 矩陣的情況, 結(jié)果顯示 F1值不到 0.35。使用 mask 矩陣之后,值和值均大幅度上升。在此基礎(chǔ)上使用多輪抽取模塊, 在設(shè)置歷史嵌入維度為 250 的條件下, 又將 F1 值提高近一個百分點。實驗結(jié)果表明, 多輪抽取算法有不錯的 效果。
表5 不同維度的歷史嵌入下模型性能(%)
注: *效果最佳設(shè)置, 下同。
表6 角色mask矩陣和多輪抽取算法的影響(%)
本文提出角色信息引導(dǎo)的多輪論元抽取模型, 將獨立編碼的文本表示和角色知識表示用信息聚合技術(shù)生成知識增強的嵌入, 以便加入角色知識的引導(dǎo)。本文還設(shè)計多輪抽取算法, 通過使用論元抽取的中間結(jié)果, 間接地捕捉論元間的交互。通過與其他模型結(jié)果的對比和消融實驗, 驗證了角色知識這一外部信息在抽取過程中對文本表示的有效引導(dǎo)以及多輪抽取算法的有效性。
[1]Li Diya, Huang Lifu, Ji Heng, et al. Biomedical event extraction based on Knowledge-driven Tree-LSTM // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computa-tional Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, 2019: 1421–1430
[2]Wang Yan, Wang Jian, Lin Hongfei, et al. Bidirec-tional long short-term memory with CRF for detecting biomedical event trigger in FastText semantic space. BMC Bioinformatics, 2018, 19(20): 59–66
[3]Du Xinya, Cardie C. Event extraction by answering (almost) natural questions // Proceedings of the 2020 Conference on Empirical Methods in Natural Lan-guage Processing. Demos, 2020: 671–683
[4]Li Fayuan, Peng Weihua, Chen Yuguang, et al. Event extraction as multi-turn question answering // Find-ings of the Association for Computational Linguistics: EMNLP. Online Meeting, 2020: 829–838
[5]Yang Pan, Cong Xin, Sun Zhengyun, et al. Enhanced language representation with label knowledge for span extraction // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Proces-sing. Punta Cana, 2021: 4623–4635
[6]Nguyen T H, Cho K, Grishman R. Joint event extrac-tion via recurrent neural networks // Conference of the North American Chapter of the Association for Com-putational Linguistics: Human Language Technolo-gies. San Diego, 2016: 300–309
[7]Sha Lei, Qian Feng, Chang Baobao, et al. Jointly extracting event triggers and arguments by depen-dency-bridge RNN and tensor-based argument interac-tion // Proceedings of the AAAI Conference on Arti-ficial Intelligence. New Orleans, 2018: 5916–5923
[8]Sheng Jiawei, Guo Shu, Yu Bowen, et al. CasEE: a joint learning framework with cascade decoding for overlapping event extraction // Findings of the Asso-ciation for Computational Linguistics: ACL-IJCNLP. Online Meeting, 2021: 164–174
[9]Yang Sen, Feng Dawei, Qiao Linbo, et al. Exploring pre-trained language models for event extraction and generation // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Flo-rence, 2019: 5284–5294
[10]Ahmad W U, Peng N Y, Chang K W, et al. GATE: graph attention transformer encoder for cross-lingual relation and event extraction // Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelli-gence. Online Meeting, 2021, 4: 74–75
[11]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for langu-age understanding // Proceedings of the 2019 Confe-rence of the North American Chapter of the Asso-ciation for Computational Linguistics: Human Lan-guage Technologies. Minneapolis, 2019: 4171–4186
[12]Luong M T, Hieu P, Manning C D.Effective app-roaches to attention-based neural machine translation [EB/OL]. (2015–09–20) [2022–01–15]. https://arxiv. org/abs/1508.04025
[13]Cui Shiyao, Yu Bowen, Liu Tingwen, et al. Edgeen-hanced graph convolution networks for event detec-tion with syntactic relation // Findings of the Asso-ciation for Computational Linguistics: EMNLP. On-line Meeting, 2020: 2329–2339
[14]Walker C, Strassel S, Medero J, et al. ACE 2005 multilingual training corpus. Linguistic Data Consor-tium, Philadelphia, 2006, 57: 45. (2006–02–15) [2021– 09–22]. https://catalog.ldc.upenn.edu/LDC-2006T06
[15]Li Qi, Ji Heng, Huang Liang. Joint event extraction via structured prediction with global features // Pro-ceedings of the 51st Annual Meeting of the Associa-tion for Computational Linguistics (Volume 1: Long Papers). Sofia, 2013: 73–82
[16]Chen Yubo, Xu Liheng, Liu Kang. Event extraction via dynamic multi-pooling convolutional neural net-works // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Lan-guage Processing (Volume 1: Long Papers). Beijing, 2015: 167–176
[17]Wadden D, Wennberg U, Luan Y, et al. Entity, rela-tion, and event extraction with contextualized span representations // Proceedings of the 2019 Conferen-ce on Empirical Methods in Natural Language Pro-cessing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, 2019: 5784–5789
Multi-turn Event Argument Extraction Based on Role Information Guidance
YU Yuanfang, ZHANG Yong?, ZUO Haoyang, ZHANG Lianfa, WANG Tingting
School of Computer, Central China Normal University, Wuhan 430079; ? Corresponding author, E-mail: ychang@ccnu.edu.cn
Aiming at the two problems of insufficient utilization of role information and lack of interaction between arguments in general domain event argument extraction research, a role information-oriented multi-turn event argument extraction model is proposed to enhance the semantic information of texts and interactions between arguments. The interactive capability can improve the performance of event argument extraction. First, to better utilize role knowledge to guide argument extraction, the model builds role knowledge based on role definitions, independently encodes role information and text, and uses a method based on attention mechanism to obtain label-knowledge-enhanced representations. Then the augmented embeddings are used to predict whether or not each token is a start or end position for some category. At the same time, in order to make full use of the interaction between event arguments in the extraction process, inspired by the multi-turn dialogue model, this paper designs a multi-turn event argument extraction algorithm. The algorithm refers to the natural logic of “easiness to hardness”, and selects the character with the highest prediction probability, that is, the most predictable character, for extraction each time. In the process of argument extraction, in order to model the interaction between arguments, the model introduces historical embedding, and updates the historical embedding after each prediction to help the extraction of the next round of event arguments. The experimental results show that the guidance of role information and multi round extraction algorithm effectively improve the performance of argument extraction, and the method achieves state-of-the-art performance.
event argument extraction; role knowledge; BERT; information fusion; multi-turn extraction