武國亮,徐繼寧
(北方工業(yè)大學(xué)電氣與控制工程學(xué)院,北京 100144)
近年來,公共安全突發(fā)事件頻發(fā)。網(wǎng)絡(luò)的普及使得公共事件相關(guān)的有價(jià)值的信息散布在各類網(wǎng)絡(luò)文本中,事件抽取(Event Extraction,EE)在這類信息的挖掘和提取方面有著極其重要的作用。事件發(fā)生時(shí),對(duì)社交網(wǎng)絡(luò)上的相關(guān)事件描述文本進(jìn)行事件抽取,能夠及時(shí)地了解事態(tài)信息,使應(yīng)急部門快速做出反應(yīng)。在事件發(fā)生后,通過事件抽取對(duì)報(bào)道中事件信息的結(jié)構(gòu)化提取,建立相應(yīng)的案例庫,從而為下一步的事件分析和制定防范預(yù)案做有力的支撐。
事件抽取主要分為模式匹配方法[1-4]和機(jī)器學(xué)習(xí)方法[5-8]。在基于機(jī)器學(xué)習(xí)的事件抽取方法中,數(shù)據(jù)和特征決定模型學(xué)習(xí)的上限,因此提高數(shù)據(jù)質(zhì)量和優(yōu)化特征選擇顯得尤為重要。前者屬于數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理范疇,難以通過對(duì)模型的改進(jìn)來提高,但后者可以通過語義特征挖掘來實(shí)現(xiàn)。命名實(shí)體識(shí)別(Named Entity Recognition,NER)和事件抽取是信息抽取的兩個(gè)子任務(wù),實(shí)體是事件抽取內(nèi)容的組成部分,基于此學(xué)者們通過命名實(shí)體識(shí)別進(jìn)行實(shí)體語義信息的挖掘,進(jìn)而提高事件抽取任務(wù)的學(xué)習(xí)效果。Li等[5]提出了一個(gè)結(jié)構(gòu)化預(yù)測(cè)模型,能同時(shí)實(shí)現(xiàn)實(shí)體、關(guān)系和事件三個(gè)信息抽取任務(wù)。Yang等[6]提出了篇章內(nèi)的事件和實(shí)體聯(lián)合抽取模型,通過采用聯(lián)合因子圖模型來聯(lián)合學(xué)習(xí)每個(gè)事件內(nèi)部的結(jié)構(gòu)化信息、篇章內(nèi)不同事件間的關(guān)系和實(shí)體信息。吳文濤等[7]提出了一種混合神經(jīng)網(wǎng)絡(luò)模型HNN-EE(Hybrid Neural Network for Entity and Event Extraction),能同時(shí)對(duì)實(shí)體和事件進(jìn)行抽取,深度挖掘了兩者之間的依賴關(guān)系。仲偉峰等[8]利用基于注意力機(jī)制的序列標(biāo)注模型聯(lián)合抽取句子級(jí)事件的觸發(fā)詞和實(shí)體,通過多層感知機(jī)判斷實(shí)體在事件中扮演的角色。上述文獻(xiàn)都證實(shí)了實(shí)體識(shí)別能夠明顯提高事件抽取效果。
與英文事件抽取不同的是,中文語料中表達(dá)語義的基本單位為詞語,但詞語間沒有顯示間隔,且中文語料中存在著大量的多義歧義詞,如果分詞錯(cuò)誤則會(huì)使模型對(duì)句子語義理解造成明顯的誤差,從而對(duì)事件抽取結(jié)果帶來負(fù)面影響。因此直接對(duì)中文語料進(jìn)行分詞預(yù)處理的效果大幅度依賴分詞工具的準(zhǔn)確性,適用性較弱。針對(duì)該問題,Zhang 等[9]基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)提出一種用于命名實(shí)體識(shí)別任務(wù)的Lattice(點(diǎn)陣)機(jī)制,通過該機(jī)制有效地利用豐富的詞語邊界信息,將詞典融合到字符級(jí)的中文語料中使其附加詞語語義信息。Liu 等[10]對(duì)前者的工作進(jìn)行了優(yōu)化和拓展,直接在字向量中融入詞語向量,并采用4 種不同的方法對(duì)多詞同首和多詞同尾的特殊情況進(jìn)行處理。Xue 等[11]將自注意力機(jī)制與Lattice機(jī)制進(jìn)行融合形成新型點(diǎn)陣變換編碼器,能夠以批處理模型捕獲字符與匹配的詞語之間的依存關(guān)系,使模型處理速度得到明顯的提高。針對(duì)上述研究現(xiàn)狀,本文以開放領(lǐng)域的中文突發(fā)事件數(shù)據(jù)作為研究對(duì)象,對(duì)僅能獲取字粒度語義信息的雙向長短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)(Bidirectional Long Short-Term Memory network-Conditional Random Field,BiLSTM-CRF)事件抽取模型進(jìn)行詞語維度和實(shí)體維度的語義特征增強(qiáng),提出一種基于命名實(shí)體識(shí)別任務(wù)反饋增強(qiáng)的事件抽取改進(jìn)模型FB-Latiice-BiLSTM-CRF(FeedBack-Lattice-BiLSTM-CRF)。該模型增加了命名實(shí)體識(shí)別輔助任務(wù)并將其輸出反饋至輸入端,反饋信息與輸入融合得到動(dòng)態(tài)實(shí)體分詞結(jié)果;將Lattice 機(jī)制與雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)進(jìn)行結(jié)合,使反饋得到的動(dòng)態(tài)實(shí)體分詞信息通過該機(jī)制輸入到模型后增強(qiáng)輸入的實(shí)體語義特征,句子其他部分通過自組詞查詢得到相關(guān)詞語結(jié)果;最后通過最大化同方差不確定性的最大高斯似然估計(jì)方法對(duì)各任務(wù)損失進(jìn)行了平衡處理。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)模型相較于基準(zhǔn)模型在事件抽取各項(xiàng)評(píng)價(jià)指標(biāo)和模型訓(xùn)練收斂速度上都有明顯的提升。
本文使用的實(shí)驗(yàn)數(shù)據(jù)來源之一是中文突發(fā)事件語料庫(Chinese Emergencies Corpus,CEC)[12],該語料庫是由上海大學(xué)語義智能實(shí)驗(yàn)室所構(gòu)建。根據(jù)國務(wù)院頒布的《國家突發(fā)公共事件總體應(yīng)急預(yù)案》的分類體系,從互聯(lián)網(wǎng)上收集了合計(jì)332篇地震、火災(zāi)、交通事故、恐怖襲擊和食物中毒共5類突發(fā)事件新聞報(bào)道作為生語料,然后再對(duì)生語料進(jìn)行文本預(yù)處理、文本分析以及一致性檢查等處理,最后將結(jié)果保存到語料庫中。與ACE2005(Automatic Content Extraction 2005)中文語料庫和TimeBank 語料庫相比,CEC 語料庫對(duì)事件和事件要素的標(biāo)注更為全面。
由于訓(xùn)練本文提出的神經(jīng)網(wǎng)絡(luò)模型需要一定數(shù)量的數(shù)據(jù),因此需要對(duì)原語料庫進(jìn)行擴(kuò)充。以CEC 語料庫的數(shù)據(jù)為參考,本文爬取了國家突發(fā)事件預(yù)警信息發(fā)布網(wǎng)“近期突發(fā)事件”和微博平臺(tái)“中國新聞網(wǎng)”發(fā)布的公共突發(fā)事件報(bào)道,通過數(shù)據(jù)篩選和數(shù)據(jù)清洗后,與CEC語料庫合并最終得到1 847篇實(shí)驗(yàn)語料,共計(jì)206 383字符。
經(jīng)過打亂數(shù)據(jù)排列順序獲得特征分布近似均勻的數(shù)據(jù)后,本文按照8∶1∶1 的比例將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用于訓(xùn)練模型參數(shù);驗(yàn)證集用于每隔一定的迭代之后測(cè)試模型的效果,從而及時(shí)保存訓(xùn)練過程中達(dá)到更好效果的模型參數(shù);測(cè)試集用于評(píng)估訓(xùn)練完成的模型效果。
根據(jù)數(shù)據(jù)特征種類及稀疏程度,同時(shí)參考CEC 語料庫的數(shù)據(jù)標(biāo)簽及標(biāo)注內(nèi)容,本文將事件抽取標(biāo)簽重新定義并分為七類:事件觸發(fā)詞(Event Trigger Word)、事件類型(Event Type)、事發(fā)時(shí)間(Happened Time)、事發(fā)地點(diǎn)(Location)、事件參與者(Event Participant)、受影響對(duì)象(Affect Object)和受影響對(duì)象狀態(tài)變化(Affect State)。其中,受影響對(duì)象狀態(tài)變化是指該對(duì)象自身狀態(tài)因受到事件發(fā)生的影響而產(chǎn)生的改變,如房屋“被摧毀”,車輛“被損壞”,人員“被困”“受傷”“死亡”等。
本文設(shè)計(jì)的算法中使用命名實(shí)體識(shí)別作為輔助學(xué)習(xí)任務(wù),因此需要定義命名實(shí)體識(shí)別的標(biāo)簽信息。根據(jù)數(shù)據(jù)的特征定義了五類標(biāo)簽,分別是:時(shí)間(Time)、地點(diǎn)(Location)、組織(Orgnization)、人(Person)和設(shè)備(Equipment)。
在本文實(shí)驗(yàn)中,事件抽取任務(wù)和命名實(shí)體識(shí)別任務(wù)全部轉(zhuǎn)化為序列標(biāo)注問題,并選擇BIO 標(biāo)注法對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。尾字母B 表示標(biāo)簽對(duì)應(yīng)的第一個(gè)字,I表示標(biāo)簽對(duì)應(yīng)的中間或最后一個(gè)字,O 表示無關(guān)字符。對(duì)訓(xùn)練集進(jìn)行事件抽取和命名實(shí)體識(shí)別聯(lián)合標(biāo)注,對(duì)驗(yàn)證集和測(cè)試集僅依據(jù)事件抽取標(biāo)簽進(jìn)行了標(biāo)注。
雖然事件抽取和命名實(shí)體識(shí)別的標(biāo)簽定義中有重合部分,但在標(biāo)注方法上存在以下不同:
1)EE標(biāo)注僅針對(duì)描述事件的信息,NER 標(biāo)注針對(duì)所有符合實(shí)體標(biāo)簽的信息。以時(shí)間信息標(biāo)注為例:“中新網(wǎng)4月12日電據(jù)鞏義市政府新聞辦公室官方微博消息,4 月10 日22 時(shí)左右,鞏義市發(fā)生一起自備火車沖出避難線傾覆事故?!盓E 標(biāo)注只關(guān)注后半句中的事發(fā)時(shí)間“4月10日22時(shí)左右”,而NER 標(biāo)注將句中的兩個(gè)時(shí)間實(shí)體信息全部進(jìn)行標(biāo)注。
2)EE標(biāo)注以事件要素整體為單位,NER 標(biāo)注以實(shí)體為單位。以地點(diǎn)信息標(biāo)注為例,EE 標(biāo)注和NER 標(biāo)注對(duì)比如表1所示。
表1 在地點(diǎn)信息上標(biāo)注事件抽取和命名實(shí)體識(shí)別Tab.1 Labeling event extraction and named entity identification on location information
BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示:首先將輸入文本通過Embedding 層進(jìn)行字符編碼后輸入到BiLSTM 網(wǎng)絡(luò)中,再通過正反向傳播計(jì)算使得各字符融合相應(yīng)的上下文語義信息;線性層對(duì)BiLSTM 層的輸出進(jìn)行特征提取并將其維度調(diào)整到符合條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)層的輸入維度要求;最后通過CRF 層學(xué)習(xí)標(biāo)簽序列的潛在規(guī)則信息并計(jì)算出最優(yōu)的預(yù)測(cè)序列進(jìn)行輸出。
圖1 BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 BiLSTM-CRF network structure
BiLSTM-CRF 綜合了BiLSTM 對(duì)上下文的語義獲取能力和CRF 對(duì)序列預(yù)測(cè)結(jié)果的優(yōu)化能力,使得其在處理事件抽取、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)上展現(xiàn)出較好的效果。
2.1.1 LSTM
BiLSTM-CRF 的BiLSTM 網(wǎng)絡(luò)層主要由LSTM[13]神經(jīng)元構(gòu)成。LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),其單元內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 LSTM單元內(nèi)部結(jié)構(gòu)Fig.2 Internal structure of LSTM unit
LSTM單元的內(nèi)部結(jié)構(gòu)為其增加了信息存儲(chǔ)和更新機(jī)制,而這些機(jī)制通過一系列門結(jié)構(gòu)來實(shí)現(xiàn),其中遺忘門ft選擇性丟棄一些傳遞信息,輸入門it整合該時(shí)刻的輸入信息,輸出門ot為輸出提供輸入分量信息,從而解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的長遠(yuǎn)依賴問題。LSTM 單元內(nèi)部信息計(jì)算公式如下:
其中:[a,b]表示向量a與向量b進(jìn)行拼接操作;ht-1和ht分別表示神經(jīng)元上一時(shí)刻和該時(shí)刻狀態(tài)的輸出信息;ct-1和ct分別表示神經(jīng)元上一時(shí)刻和該時(shí)刻狀態(tài)的細(xì)胞狀態(tài)信息;表示候選細(xì)胞狀態(tài),Wf、Wi、Wc和Wo表示權(quán)重,對(duì)應(yīng)的偏置項(xiàng)為bf、bi、bc和bo。
2.1.2 CRF
CRF 是一種特殊的隱馬爾可夫模型。在序列標(biāo)注任務(wù)中,模型雖然能夠直接預(yù)測(cè)輸出,但每個(gè)輸出的標(biāo)簽前后之間沒有關(guān)聯(lián)性,難以符合標(biāo)簽序列中隱含的規(guī)則。CRF 能夠?qū)W習(xí)標(biāo)簽序列中的規(guī)則信息,例如輸出序列不能以LOC-I開頭、LOC-I 不能接在TM-B 后面等,從而大幅度提升了序列標(biāo)注任務(wù)的準(zhǔn)確率。
若CRF 層的給定序列為x=,標(biāo)簽序列為,其最大條件似然估計(jì)公式如下:
其中:P表示原序列到預(yù)測(cè)序列對(duì)應(yīng)的概率。定義s(x,y)為輸入序列到標(biāo)簽序列的評(píng)分函數(shù),則概率P計(jì)算公式如下:
基于單任務(wù)事件抽取基準(zhǔn)模型BiLSTM-CRF 的缺陷,本文提出了一種基于命名實(shí)體識(shí)別任務(wù)反饋增強(qiáng)的事件抽取改進(jìn)模型FB-Latiice-BiLSTM-CRF,主要結(jié)構(gòu)如圖3 所示。針對(duì)基準(zhǔn)模型僅能學(xué)習(xí)到字粒度語義特征的問題,本文將Lattice機(jī)制融入BiLSTM網(wǎng)絡(luò),借用詞向量對(duì)輸入語料的語義增強(qiáng)效果提高了模型對(duì)數(shù)據(jù)特征的學(xué)習(xí)能力;此外通過增加命名實(shí)體識(shí)別任務(wù)預(yù)測(cè)輸出反饋機(jī)制,使模型獲得動(dòng)態(tài)實(shí)體信息,為Lattice-LSTM機(jī)制提供了定向的實(shí)體分詞結(jié)果,減少實(shí)體部分自組詞數(shù)量大帶來的運(yùn)算負(fù)荷;針對(duì)多任務(wù)損失不平衡問題,本文使用最大高斯似然估計(jì)的方法,使各任務(wù)的損失同方差不確定性最大化,從而實(shí)現(xiàn)各任務(wù)損失達(dá)到平衡,同時(shí)增加主輔任務(wù)控制系數(shù)引導(dǎo)命名實(shí)體識(shí)別任務(wù)輔助事件抽取任務(wù)的學(xué)習(xí)。
圖3 FB-Lattice-BiLSTM-CRF結(jié)構(gòu)Fig.3 FB-Lattice-BiLSTM-CRF structure
2.2.1 Lattice-LSTM機(jī)制
中文語料的事件抽取和命名實(shí)體識(shí)別關(guān)注的目標(biāo)一般是詞語或是詞語構(gòu)成的短語,所以與分詞具有很強(qiáng)的關(guān)聯(lián)性,He 等[14]通過研究證實(shí)了將分詞結(jié)果的詞語信息作為輸入能夠增加語義特征從而有效的提升模型的性能。在序列標(biāo)注任務(wù)中,將分詞結(jié)果融入輸入序列通常有兩類方法:一類是使用第三方工具直接對(duì)輸入語料進(jìn)行分詞預(yù)處理,然后通過Embedding 層進(jìn)行詞粒度嵌入,但這種方法的效果很大程度上取決于分詞結(jié)果的準(zhǔn)確性。例如“南京市長江大橋”應(yīng)分詞為“南京市,長江大橋”,也可能被分詞為“南京,市長,江大橋”,后者出現(xiàn)了歧義詞,將會(huì)對(duì)模型訓(xùn)練產(chǎn)生負(fù)面影響。另一類是將遍歷的詞信息融入字粒度的輸入中,代表方法是Zhang 等[9]基于LSTM 網(wǎng)絡(luò)提出的點(diǎn)陣長短期記憶網(wǎng)絡(luò)(Lattice-Long Short-Term Memory network,Latiice-LSTM)機(jī)制,其主要結(jié)構(gòu)如圖4所示。
圖4 Lattice-LSTM結(jié)構(gòu)Fig.4 Lattice-LSTM structure
Lattice-LSTM 機(jī)制定義了一個(gè)新神經(jīng)單元,如圖4 中陰影單元所示,其內(nèi)部結(jié)構(gòu)與LSTM 單元相似,唯一不同的是該單元沒有輸出門,即傳遞信息中只有細(xì)胞狀態(tài)c而沒有直接輸出信息h。此外,字嵌入和詞嵌入過程分別使用不同的Embedding網(wǎng)絡(luò)Ec和Ew進(jìn)行。
若詞的長度為n,詞首字對(duì)應(yīng)時(shí)刻的LSTM 細(xì)胞狀態(tài)信息為c1,則新單元將c1作為輸入,計(jì)算得到新單元輸出的細(xì)胞狀態(tài)cw;Lattice-LSTM機(jī)制會(huì)把詞信息融入詞尾字作為輸入對(duì)應(yīng)時(shí)刻LSTM 網(wǎng)絡(luò)的輸入細(xì)胞狀態(tài)cn-1中,即新單元輸出的細(xì)胞狀態(tài)cw和cn-1進(jìn)行拼接形成新的細(xì)胞狀態(tài)[cw,cn-1],由于新的細(xì)胞狀態(tài)維度與原維度不同,因此需要定義一個(gè)新的門來進(jìn)行轉(zhuǎn)換,公式如下:
如果多個(gè)自組詞的詞尾指向相同位置字符,則進(jìn)行歸一化處理后求和得到融合后的細(xì)胞狀態(tài)如下:
針對(duì)Lattice-LSTM 自組詞的詞量多,語義泛化增強(qiáng)可能引起特征過度增加的問題,本文將通常作為輔助任務(wù)的命名實(shí)體識(shí)別結(jié)果反饋到輸入端,和原始語料數(shù)據(jù)進(jìn)行融合,從而形成實(shí)體分詞信息;再將分詞信息輸入到Lattice-LSTM 機(jī)制中進(jìn)行定向詞信息融入。一方面,分詞信息的加入對(duì)事件抽取任務(wù)具有增強(qiáng)效果;另一方面,定向的實(shí)體分詞使得命名實(shí)體識(shí)別任務(wù)形成正反饋,能夠有效加速模型的收斂過程。與對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分詞預(yù)處理效果不同的是,該模型融合反饋信息的分詞結(jié)果是動(dòng)態(tài)的,會(huì)隨著命名實(shí)體識(shí)別任務(wù)效果的提高而不斷優(yōu)化,避免了因分詞錯(cuò)誤而產(chǎn)生歧義的問題。
對(duì)于除實(shí)體以外包含動(dòng)詞、介詞等的剩余句子部分,進(jìn)行逐個(gè)字符遍歷,同時(shí)分別查詢從當(dāng)前字符起的前2、3、4 個(gè)連續(xù)字符組合是否存在于中文詞典中,如果存在則返回自組詞結(jié)果。由于歧義性大且自組詞數(shù)量較多的實(shí)體部分已經(jīng)得到確定結(jié)果,句子整體的自組詞數(shù)量會(huì)明顯減少,從而使Lattice-LSTM部分的運(yùn)算量得到有效的優(yōu)化。
2.2.2 多任務(wù)損失平衡
為了解決多任務(wù)損失失衡問題,Cipolla 等[15]提出一種通過最大化同方差不確定性的最大高斯似然估計(jì)的方法。該方法以回歸任務(wù)和分類任務(wù)為例進(jìn)行了任務(wù)分析、方法定義和相應(yīng)的公式推導(dǎo)。參考該方法解決多任務(wù)損失平衡問題的思路,本文對(duì)CRF 層輸出的序列標(biāo)注任務(wù)定義了如下概率分布函數(shù):
其中:L1(W)、L2(W)分別為事件抽取任務(wù)和命名實(shí)體識(shí)別任務(wù)的交叉熵?fù)p失;σ1和σ2是可學(xué)習(xí)參數(shù),通過網(wǎng)絡(luò)訓(xùn)練進(jìn)行更新。隨著σ1和σ2的優(yōu)化,各任務(wù)的損失將逐漸趨于平衡。
在FB-Lattice-BiLSTM-CRF 模型中,命名實(shí)體識(shí)別只是事件抽取的輔助任務(wù),為避免兩任務(wù)在模型訓(xùn)練后期出現(xiàn)過度對(duì)抗競(jìng)爭的問題,增加超參數(shù)主輔任務(wù)控制系數(shù)K作為事件抽取任務(wù)關(guān)聯(lián)項(xiàng)的系數(shù),總損失如下:
在模型訓(xùn)練過程中,σ1和σ2的更新受到學(xué)習(xí)率的限制,使得兩任務(wù)的損失不會(huì)迅速達(dá)到平衡,因而即使超參數(shù)K取相同的值仍可以在模型的迭代過程中持續(xù)影響σ1和σ2的更新。若希望K能夠全程調(diào)節(jié)主輔任務(wù)在網(wǎng)絡(luò)中的作用,則要求K為一個(gè)變量。
本文的實(shí)驗(yàn)環(huán)境為:操作系統(tǒng)Ubuntu 18.04,CUDA 10.01;GPU 1080ti,顯存11 GB;編程語言Python 3.7,機(jī)器學(xué)習(xí)框架Pytorch 1.6;編譯器Pycharm Profession
實(shí)驗(yàn)參數(shù)如表2所示。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Tab.2 Experimental parameter setting
可學(xué)習(xí)參數(shù)σ1和σ2初始值為0.1。此外,經(jīng)實(shí)驗(yàn)測(cè)定K滿足{K|K2=d+4,K>0}時(shí),模型有較好效果,其中d為迭代次數(shù)。
本文實(shí)驗(yàn)中使用序列標(biāo)注任務(wù)常用的準(zhǔn)確率P(Precision)、召回率R(Recall)和F1(F1 值)作為模型性能的評(píng)價(jià)指標(biāo),計(jì)算公式如下:
其中:TP(True Positive)表示測(cè)試集中被正確識(shí)別的標(biāo)簽數(shù)量,F(xiàn)P(False Positive)表示被錯(cuò)誤識(shí)別的標(biāo)簽數(shù)量,F(xiàn)N(False Negative)表示測(cè)試集中沒有被識(shí)別的標(biāo)簽數(shù)量。
為了驗(yàn)證模型的有效性,本文設(shè)置了三組對(duì)比實(shí)驗(yàn),各對(duì)比實(shí)驗(yàn)?zāi)P头謩e是:
1)BiLSTM-CRF(單任務(wù)):基于BiLSTM-CRF 的單任務(wù)事件抽取模型,在本實(shí)驗(yàn)中該模型為基準(zhǔn)模型;
2)BiLSTM-CRF(多任務(wù)):基于BiLSTM-CRF 的事件抽取和命名實(shí)體識(shí)別多任務(wù)聯(lián)合學(xué)習(xí)模型,較基準(zhǔn)模型增加了對(duì)實(shí)體語義特征的提?。?/p>
3)BiLSTM-CRF(多任務(wù)+Lattice 機(jī)制):基于Lattice-BiLSTM-CRF 的事件抽取和命名實(shí)體識(shí)別多任務(wù)聯(lián)合學(xué)習(xí)模型,該模型中的Lattice機(jī)制全部使用自組詞查詢結(jié)果,較基準(zhǔn)模型增加對(duì)實(shí)體語義特征提取的同時(shí),將詞語語義信息融入相應(yīng)的字向量中。
此外,由于FB-Latiice-BiLSTM-CRF 模型存在輸出反饋機(jī)制,在訓(xùn)練方式上與對(duì)比實(shí)驗(yàn)?zāi)P筒煌T撃P蛦未蔚挠?xùn)練過程如圖5所示。
圖5 FB-Latiice-BiLSTM-CRF單次迭代訓(xùn)練過程Fig.5 Single iteration training process of FB-Latiice-BiLSTM-CRF
四種模型在相同的超參數(shù)設(shè)置下進(jìn)行訓(xùn)練,訓(xùn)練過程中分別取驗(yàn)證集上有最好結(jié)果的模型進(jìn)行保存,最后在測(cè)試集上進(jìn)行事件抽取的預(yù)測(cè)結(jié)果如表3 所示??梢钥闯?,實(shí)體維度和詞語維度的語義增強(qiáng)都對(duì)基準(zhǔn)模型有明顯提升;同時(shí),本文提出的FB-Latiice-BiLSTM-CRF 相較于基準(zhǔn)模型,在準(zhǔn)確率、召回率和F1 值分別提升了7.63、4.41 和5.95 個(gè)百分點(diǎn),驗(yàn)證了針對(duì)基準(zhǔn)模型缺陷進(jìn)行的模型結(jié)構(gòu)改進(jìn)和損失平衡優(yōu)化是有效的。
表3 四種事件抽取模型在測(cè)試集的結(jié)果評(píng)價(jià) 單位:%Tab.3 Result evaluation of four event extraction models on test set unit:%
FB-Latiice-BiLSTM-CRF 模型由于將輸出結(jié)果反饋到輸入,實(shí)體分詞位置信息與結(jié)果預(yù)測(cè)的實(shí)體位置信息相同,在命名實(shí)體識(shí)別任務(wù)上相當(dāng)于正反饋?zhàn)饔?,這會(huì)加速該任務(wù)的訓(xùn)練過程,進(jìn)而提高整個(gè)模型訓(xùn)練的收斂速度。本模型和基準(zhǔn)模型在驗(yàn)證集上F1值評(píng)價(jià)變化如圖6所示。
圖6 模型訓(xùn)練過程中在驗(yàn)證集上的F1值曲線Fig.6 F1 value during model training on verification set
針對(duì)BiLSTM-CRF 模型在中文突發(fā)事件抽取任務(wù)上可學(xué)習(xí)語義特征維度較低的問題,本文提出了端到端的改進(jìn)模型FB-Latiice-BiLSTM-CRF。該模型通過增加命名實(shí)體識(shí)別任務(wù)輸出反饋機(jī)制和Lattice 機(jī)制,使用最大化同方差不確定性的最大高斯似然估計(jì)方法平衡各任務(wù)損失,提高了模型對(duì)詞語和實(shí)體語義特征的學(xué)習(xí)能力。對(duì)比實(shí)驗(yàn)表明,改進(jìn)后的模型在準(zhǔn)確率、召回率和F1 值上均有明顯提升,同時(shí)提高了模型訓(xùn)練中的收斂速度。該改進(jìn)方法未對(duì)模型中間層進(jìn)行限制,因此也可應(yīng)用于其他使用LSTM 或門控循環(huán)單元(Gate Recurrent Unit,GRU)網(wǎng)絡(luò)為底層網(wǎng)絡(luò)的語言模型中,例如增加注意力機(jī)制的BiLSTM-Att-CRF(Bidirectional Long Short-Term Memory network-Attention-Conditional Random Field)模型,以BiLSTM 作為Encoder 的Seq2Seq 模型,預(yù)訓(xùn)練語言模型ELMo(Embeddings from Language Models)等。
本文提出的模型由于存在輸出反饋機(jī)制,使用通用方法進(jìn)行模型訓(xùn)練時(shí),復(fù)雜度有所提高;此外,模型中主輔任務(wù)控制系數(shù)K的測(cè)定還缺少針對(duì)性的研究,目前只是在小范圍值域內(nèi)進(jìn)行了局部優(yōu)化。今后將針對(duì)這兩個(gè)方向做進(jìn)一步研究探索。