張洪寬,宋 暉,徐 波,王舒怡
(1. 東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620;2. 上海市計(jì)算機(jī)軟件評(píng)測(cè)重點(diǎn)實(shí)驗(yàn)室,上海 201100)
近年來互聯(lián)網(wǎng)快速發(fā)展,網(wǎng)絡(luò)媒體每天產(chǎn)生大量的新聞、公告等非結(jié)構(gòu)化信息。信息抽取技術(shù)研究如何從海量的信息中快速有效地捕獲有價(jià)值的信息,以幫助人們針對(duì)特定信息做分析、決策。事件抽取是信息抽取的分支,旨在從非結(jié)構(gòu)化的自然語言文本中抽取出用戶感興趣的事件信息并以結(jié)構(gòu)化的形式展示[1]。事件抽取在很多領(lǐng)域均有廣泛應(yīng)用,如構(gòu)建事件知識(shí)圖譜、信息檢索、自動(dòng)問答以及輔助其他自然語言處理任務(wù)等。
事件抽取分為開放域事件抽取和限定域事件抽取[2]。開放域事件抽取研究通常沒有領(lǐng)域范圍限制,事件類型及事件的框架結(jié)構(gòu)未知,主要利用無監(jiān)督方法從文本中發(fā)現(xiàn)事件[3-5]。限定域事件抽取往往針對(duì)特定領(lǐng)域(如醫(yī)療、金融、司法等)的數(shù)據(jù)進(jìn)行建模,識(shí)別用戶感興趣的信息。與開放域事件抽取相比,限定域事件抽取有清晰的事件類型定義及對(duì)應(yīng)的事件框架,能夠獲得具有實(shí)用價(jià)值的信息,近年來成為研究和應(yīng)用的熱點(diǎn)。
事件抽取從文本粒度上也可分為句子級(jí)別事件抽取和篇章級(jí)別事件抽取。句子級(jí)別事件抽取研究從單個(gè)句子中識(shí)別所關(guān)注的內(nèi)容,目前主流方法為基于深度學(xué)習(xí)的方法。首先采用深度神經(jīng)網(wǎng)絡(luò),如動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)[6]、結(jié)合LSTM和CNN的卷積雙向LSTM神經(jīng)網(wǎng)絡(luò)[7]等方法將句子進(jìn)行嵌入(Embedding)表示,然后識(shí)別其中的事件元素和角色。事件及其元素識(shí)別通常采用管道式方法,用兩個(gè)子任務(wù)實(shí)現(xiàn),這類方法忽略了任務(wù)之間的聯(lián)系,容易導(dǎo)致錯(cuò)誤級(jí)聯(lián)傳播問題。針對(duì)管道式模型存在的問題,Li等[8]和 Nguyen等[9]采用聯(lián)合模型捕獲實(shí)體與事件之間的語義關(guān)系,同時(shí)識(shí)別事件和實(shí)體,提高了事件抽取的準(zhǔn)確率。
篇章級(jí)的事件抽取旨在從整篇文檔中識(shí)別事件并提取出相應(yīng)的事件元素,相比于句子級(jí)事件抽取,其挑戰(zhàn)在于文檔中可能存在多個(gè)事件,事件元素分布在不同句子中,多個(gè)事件之間存在元素重疊(圖1)。
圖1 文檔中存在“臨時(shí)停牌”與“復(fù)牌”兩個(gè)事件,且共享事件元素“N華盛昌(角色為證券簡(jiǎn)稱)”和“本所(角色為執(zhí)行方)”。
目前篇章級(jí)的事件抽取大多采用管道式方法,如Yang等[10]基于句子抽取結(jié)果及文本特征發(fā)現(xiàn)核心事件,采用元素補(bǔ)齊策略得到篇章級(jí)別的事件信息;仲等[11]在句子級(jí)抽取結(jié)果的基礎(chǔ)上利用整數(shù)線性規(guī)劃進(jìn)行全局推理,融合共指事件的元素,實(shí)現(xiàn)篇章級(jí)事件抽取。由于管道模式前序建模產(chǎn)生的錯(cuò)誤會(huì)傳導(dǎo)至后續(xù)模型中,研究人員開始探討端到端的方法。Yang等[12]提出通過采用聯(lián)合因子圖模型來聯(lián)合學(xué)習(xí)每個(gè)事件內(nèi)部的結(jié)構(gòu)化信息、篇章內(nèi)不同事件間的關(guān)系和實(shí)體信息,但是該工作使用了大量人工特征,不利于領(lǐng)域泛化。
Zheng等[13]采用端到端模型首先識(shí)別句子級(jí)別的事件元素,再利用二分類策略判定事件類型,然后將元素角色識(shí)別轉(zhuǎn)化為有向無環(huán)圖的生成過程。該方法能夠較好地處理單事件單實(shí)例和單事件多實(shí)例的樣本,但在元素分布較分散且存在元素重合的多事件多實(shí)例樣本上性能略差。針對(duì)以上問題,本文在已有篇章級(jí)的抽取研究工作基礎(chǔ)上,針對(duì)限定域的中文文檔,提出了基于BERT[14]的端到端事件抽取模型DLEMC(Document-Level End-to-end Model in Chinese),該模型無須將文章按句子分割分別處理,盡可能保留完整的文本,減少信息損失;在事件元素識(shí)別中引入了事件類型嵌入增強(qiáng)文本特征,并在元素角色分類中利用注意力機(jī)制引入事件類型和實(shí)體嵌入表示,以便準(zhǔn)確識(shí)別事件元素及其在不同事件中的角色。
DLEMC模型分為4層: 輸入編碼層、事件檢測(cè)層、事件元素識(shí)別層以及元素角色識(shí)別層。輸入編碼層接收輸入的文本信息并輸出對(duì)應(yīng)的嵌入表示;事件檢測(cè)層采用多個(gè)分類器對(duì)同一個(gè)文本特征向量進(jìn)行多標(biāo)簽事件分類;事件元素識(shí)別層通過引入事件特征學(xué)習(xí)不同事件中元素的語義信息,進(jìn)行事件元素的識(shí)別;元素角色識(shí)別層利用注意力機(jī)制來提高模型對(duì)確定事件中每個(gè)元素特征的關(guān)注度,判斷其在對(duì)應(yīng)事件中扮演的角色。最后基于事件的嵌入表示計(jì)算余弦相似度,進(jìn)行主從事件劃分及融合共指元素,得到篇章級(jí)結(jié)構(gòu)化事件信息。實(shí)驗(yàn)證明,DLEMC模型的性能與現(xiàn)有工作相比具有明顯的提升。
本文的主要貢獻(xiàn)總結(jié)如下:
(1) 依據(jù)金融領(lǐng)域上市公司公告組織了一個(gè)篇章級(jí)的事件抽取語料集,并針對(duì)該語料定義了事件及事件表示框架。
(2) 提出了篇章級(jí)的事件抽取模型,該模型采用端到端方式進(jìn)行聯(lián)合學(xué)習(xí),同時(shí)對(duì)事件檢測(cè)、事件元素識(shí)別及元素角色識(shí)別進(jìn)行訓(xùn)練,實(shí)驗(yàn)證明了該模型的有效性。
(3) 在事件元素識(shí)別中引入事件類型特征,以提高不同類型事件下的元素識(shí)別能力。為了更準(zhǔn)確地識(shí)別多事件文檔中的元素角色,我們將事件檢測(cè)層輸出的事件類型及事件元素的嵌入表示作為注意力引入模型的角色分類層,以提高不同事件類型下元素角色識(shí)別的準(zhǔn)確率。
隨著金融科技的發(fā)展,在金融領(lǐng)域每天都有海量的數(shù)據(jù)產(chǎn)生,金融事件抽取研究能夠幫助人們進(jìn)行金融風(fēng)險(xiǎn)監(jiān)控、輔助投資決策、大數(shù)據(jù)分析等。目前該領(lǐng)域的中文事件抽取研究缺乏數(shù)據(jù)支持,已有相關(guān)領(lǐng)域的研究大多沒有公開數(shù)據(jù)集,論文中涉及的事件類型比較集中且類別較少(Yang等[10]4類,Zheng等[13]5類,去掉重復(fù)后共5類),為擴(kuò)充金融領(lǐng)域事件研究的數(shù)據(jù),本文組織構(gòu)建了一定規(guī)模的金融領(lǐng)域中文篇章事件抽取數(shù)據(jù)集,并依據(jù)自動(dòng)內(nèi)容抽取(Automatic Context Extraction,ACE)定義的事件抽取任務(wù),說明如下。
事件(Event): 在某個(gè)時(shí)間點(diǎn)或時(shí)間段,一個(gè)或多個(gè)機(jī)構(gòu)的金融產(chǎn)品的狀態(tài)主動(dòng)地或被動(dòng)地發(fā)生了變化。
實(shí)體(Entity): 語義類別中的一類或一組對(duì)象,本文討論的實(shí)體包括命名實(shí)體、金融產(chǎn)品、時(shí)間和數(shù)值。
事件元素(Event argument): 在事件中具有特定作用的實(shí)體。
元素角色(Argument Role): 事件元素在事件中承擔(dān)的角色。
針對(duì)本文研究的金融公告信息,事件定義為: event=def(T,O,F,D,N)。
其中T為事件類型,共計(jì)11類,O、F、D、N為事件中的4類角色,分別表示組織機(jī)構(gòu)、金融產(chǎn)品、時(shí)間、數(shù)值,每一類下有若干小類,共計(jì)22類事件角色。
(1) 事件類型,事件所屬的類別,如“臨時(shí)停牌”“復(fù)牌”“上市交易”等。
(2) 組織機(jī)構(gòu),參與事件的一類實(shí)體,如“東灃科技集團(tuán)股份有限公司”。
(3) 金融產(chǎn)品,金融領(lǐng)域中的相關(guān)產(chǎn)品,如“證券名稱”“證券簡(jiǎn)稱”。
(4) 時(shí)間,指事件發(fā)生的具體時(shí)間點(diǎn)或者事件持續(xù)發(fā)生且產(chǎn)生作用的時(shí)間間隔,如“10時(shí)00分01秒”。
(5) 數(shù)值,衡量事件中某一屬性具體量的多少,如“票面利率4%”“標(biāo)準(zhǔn)交易單位10張”等。
其中,事件類型、組織機(jī)構(gòu)、金融產(chǎn)品和時(shí)間的實(shí)例在事件文本中一定會(huì)出現(xiàn),數(shù)值實(shí)例不一定會(huì)出現(xiàn)。
篇章級(jí)事件抽取研究識(shí)別文檔中存在的事件和相關(guān)元素,并判斷元素在事件中扮演的角色。給定文檔集doc={s0,s1,…,sNs},每篇文檔包含標(biāo)題句s0和內(nèi)容句{s1,…,sNs},Ns為句子數(shù)量。模型DLEMC首先對(duì)文檔標(biāo)題和內(nèi)容分別進(jìn)行事件檢測(cè),得到文檔包含的事件類型{t0,t1,t2,…},其中t0為標(biāo)題中的事件,其他為內(nèi)容中的事件,然后識(shí)別出文檔內(nèi)容中每類事件的相關(guān)元素{e1,e2,…}及每個(gè)元素對(duì)應(yīng)的角色{role1,role2,…}。
DLEMC模型由4部分組成(圖2),包括輸入編碼層、事件檢測(cè)層、事件元素識(shí)別層和元素角色識(shí)別層。
輸入編碼層基于BERT對(duì)輸入的句子進(jìn)行編碼,得到句子對(duì)應(yīng)的向量以及句子中每個(gè)token的向量。
事件檢測(cè)層將編碼層輸出的句向量作為輸入,預(yù)測(cè)該句中包含的事件,一個(gè)句子中可能存在多個(gè)事件。
事件元素識(shí)別層識(shí)別句子中參與事件的實(shí)體。將句子的token向量與事件類型對(duì)應(yīng)的向量進(jìn)行拼接作為輸入,預(yù)測(cè)每個(gè)token對(duì)應(yīng)的BIO標(biāo)簽,從而識(shí)別出事件元素對(duì)應(yīng)的實(shí)體。
元素角色識(shí)別層對(duì)上一步識(shí)別出的確定事件類型下的實(shí)體進(jìn)行角色分類。將事件類型t和實(shí)體e對(duì)應(yīng)的嵌入表示求平均之后作為注意力的查詢向量,重新計(jì)算token的向量表示,再對(duì)每個(gè)事件元素的角色進(jìn)行識(shí)別。
模型訓(xùn)練時(shí)分別計(jì)算事件檢測(cè)層、事件元素識(shí)別層以及元素角色識(shí)別層的損失,并將三者求和作為模型最終的優(yōu)化目標(biāo)。
本文采用預(yù)訓(xùn)練語言模型BERT對(duì)文檔進(jìn)行編碼,考慮BERT模型的有效位置編碼序列長(zhǎng)度以及實(shí)際訓(xùn)練的模型規(guī)模,我們?cè)O(shè)置最大序列長(zhǎng)度max length。對(duì)于給定的文檔,將標(biāo)題作為獨(dú)立的句子;對(duì)于文檔內(nèi)容,若文本序列長(zhǎng)度大于max length,則依據(jù)中文標(biāo)點(diǎn)符號(hào)將其切分成多個(gè)句子,反之則將整篇文檔作為一個(gè)句子。
經(jīng)過以上處理,本文將一篇文檔表示為一系列句子集合doc={s0,s1,…,sNs},Ns為句子總數(shù),sj為文檔中第j個(gè)句子,s0為文檔標(biāo)題句。每個(gè)句子表示為 {tok1,j,tok2,j,…,tokNw,j},Nw為句子中token序列的長(zhǎng)度,tok1,j為第j個(gè)句子中的第1個(gè)token,每個(gè)句子經(jīng)BERT編碼后得到的token向量序列為Htok={h1,j,h2,j,…,hNw,j},其中,hi,j為第j個(gè)句子中第i個(gè)token對(duì)應(yīng)的向量,維度為d,句子向量序列為{h0,h1,…,hNs},h0為標(biāo)題句向量表示,hj為文檔中第j個(gè)句子的向量表示,維度為d。
事件檢測(cè)的目的是檢測(cè)句子中包含的事件,本文的數(shù)據(jù)集樣本中可能存在多個(gè)事件,受Liu等[15]啟發(fā),我們將事件檢測(cè)建模為多標(biāo)簽分類任務(wù)。事件檢測(cè)樣本的標(biāo)注形式如表1所示。
表1 事件檢測(cè)數(shù)據(jù)標(biāo)注實(shí)例
其中,s為句子,t1、t2為不同的事件類型,標(biāo)簽為1表示句子s中包含事件t1,標(biāo)簽為0則表示句子s不包含對(duì)應(yīng)的事件。
對(duì)于給定文檔的句子向量表示{h0,h1,...hNs},我們依次將文檔中的句子向量作為全連接層的輸入,如式(1)所示。
Hed=Wedhj+bed
(1)
其中,Wed為參數(shù)矩陣,bed為偏置,hj為第j個(gè)句子sj的隱層向量表示。對(duì)所有事件類型使用sigmoid分類器進(jìn)行分類,式(2)給出了對(duì)某類事件預(yù)測(cè)的計(jì)算方法。
(2)
此層的預(yù)測(cè)錯(cuò)誤使用交叉熵作為損失函數(shù),如式(3)所示。
(3)
本文將事件元素識(shí)別建模為序列標(biāo)注任務(wù),使用BIO標(biāo)簽?zāi)J?Begin: 字段開頭,Inside: 字段內(nèi)部,Outside: 其他字段)為每個(gè)token賦予一個(gè)實(shí)體標(biāo)簽。
對(duì)于給定文檔中的句子sj,首先通過事件檢測(cè)層預(yù)測(cè)得到對(duì)應(yīng)的文檔標(biāo)題事件和文檔內(nèi)容事件,然后依次識(shí)別文檔內(nèi)容中每個(gè)事件的相關(guān)元素。為提高不同事件類型下實(shí)體的語義表示,本文在實(shí)體識(shí)別部分引入事件特征。具體做法如下: 為每種事件類型定義d維(與token向量維度相同)的向量,通過查表的方式得到事件類型對(duì)應(yīng)的向量tvec,我們將句子中的每個(gè)token向量與事件類型向量tvec進(jìn)行拼接作為最終的特征向量,式(4)為計(jì)算某token的特征向量。
hvce.i=hi,j⊕tvec
(4)
hi,j為第j個(gè)句子中第i個(gè)token的向量表示,hvce.i為句子中第i個(gè)token最終的特征向量,⊕表示拼接,將特征向量hvce={hvce.i,hvce.2,…,hvce.Nw}作為全連接層的輸入,使用softmax分類器預(yù)測(cè)每個(gè)token對(duì)應(yīng)的標(biāo)簽,如式(5)所示。
P=sofmax(WnerHvec+bner)
(5)
Wner為參數(shù)矩陣,bner為偏置。使用交叉熵計(jì)算該部分的損失,如式(6)所示。
(6)
N為樣本總數(shù),K為標(biāo)簽類別總數(shù),第i個(gè)樣本預(yù)測(cè)為第K個(gè)標(biāo)簽的概率為Pi.k,第i個(gè)樣本真實(shí)的標(biāo)簽為yi.k。
元素角色識(shí)別的目標(biāo)是為確定事件類型下的實(shí)體賦予預(yù)定義的事件角色,本文將角色識(shí)別建模為多分類任務(wù)。為更好地區(qū)分實(shí)體扮演的角色,將利用注意力機(jī)制來增強(qiáng)文本的特征表示,依次判斷每個(gè)實(shí)體在事件中扮演的角色。
實(shí)體往往包含多個(gè)token,對(duì)于給定句子sj中識(shí)別出的實(shí)體集E={e1,e2,…},其中每個(gè)實(shí)體包含該句中的第i至第k個(gè)token,[toki,j,…,tokk,j]。本文取實(shí)體中的所有字符向量的均值作為該實(shí)體的嵌入表示c,維度為d,采用這種均值向量可以有效避免模型過擬合問題[16]。計(jì)算如式(7)所示,hi,m為第m個(gè)句子中的第i個(gè)token。
(7)
然后,我們將Evec中的第m個(gè)實(shí)體的向量表示cm與包含該實(shí)體的事件類型對(duì)應(yīng)的向量表示tvec進(jìn)行相加再求平均得到維度為d的注意力機(jī)制查詢向量q,如式(8)所示。
(8)
最終得到查詢向量集合Q={q1,q2,…},使用q與當(dāng)前句子sj中的每個(gè)token向量計(jì)算得到注意力值αk,計(jì)算如式(9)所示。
(9)
V=a*Htok
(10)
將V作為全連接層的輸入,使用softmax分類器進(jìn)行分類,如式(11)所示。
y*=softmax(WrtV+brt)
(11)
(12)
我們將事件檢測(cè)、事件元素識(shí)別以及元素角色分類同時(shí)進(jìn)行訓(xùn)練,模型的訓(xùn)練目標(biāo)是綜合3部分的損失達(dá)到最小,訓(xùn)練時(shí)分別計(jì)算事件檢測(cè)層的二分類交叉熵?fù)p失Led,以及事件元素識(shí)別層與元素角色分類層的多分類交叉熵?fù)p失Lner與Lrt,我們將3個(gè)損失求和作為模型最終的優(yōu)化目標(biāo):Lfinal=Led+Lner+Lrt。
模型訓(xùn)練時(shí)采用Adam[17]作為優(yōu)化器,通過驗(yàn)證集選擇最好的模型進(jìn)行預(yù)測(cè)。
文檔中包含多個(gè)事件時(shí),將根據(jù)標(biāo)題事件進(jìn)行主從事件劃分,然后對(duì)同指事件元素進(jìn)行融合,從而得到篇章級(jí)事件抽取結(jié)果。文檔標(biāo)題往往能概括一篇文檔的主要內(nèi)容,故本文將文檔標(biāo)題中的事件作為主事件,其他事件作為從事件。
對(duì)于文檔中的事件集Events={e0,e1,e2,…},其中,e0為文檔標(biāo)題預(yù)測(cè)出的事件,其他的均為文檔內(nèi)容預(yù)測(cè)出的事件。事件類型以及事件元素使用從DLEMC模型中獲得的嵌入表示,基于余弦相似度計(jì)算兩個(gè)事件的相似程度,如式(13)所示。
obj=sim(e0,ei)
(13)
obj為相似度得分,用于衡量e0與ei兩個(gè)事件的共指程度,我們?nèi)∽罡叩梅謱?duì)應(yīng)的那組事件作為文檔的主事件,其他事件為從事件。
主從事件融合的目的是對(duì)同一個(gè)文檔里多個(gè)事件之間的共指事件元素進(jìn)行合并,從而得到規(guī)范的篇章級(jí)事件信息。本文通過計(jì)算不同事件中事件元素的語義相似度來衡量它們的共指程度,具體規(guī)則為: 語義相似度超過設(shè)定閾值γ的事件元素作為共指元素,否則為非共指元素。兩個(gè)事件中不同元素的相似度基于余弦相似度計(jì)算,如式(14)所示。
score=sim(t1,i,t2,j)i,j∈{1,2,…}
t1,i,t2,j∈(T,O,F,D,N)
(14)
其中,t1,i與t2,j分別表示事件e1的第i個(gè)元素與e2的第j個(gè)元素,score為計(jì)算得到的語義相似度的得分,若該得分大于閾值γ,就將該項(xiàng)對(duì)應(yīng)的兩個(gè)事件元素合并。
本文將從互聯(lián)網(wǎng)上搜集的上市公司公告作為實(shí)驗(yàn)數(shù)據(jù)集。共有文檔總數(shù)23 067,其中5 056個(gè)文檔中包含多個(gè)事件,占比21.9%,將總文檔按照8:1:1劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)據(jù)集中標(biāo)注的實(shí)體類別包括NUM(Number,數(shù)值)、ORG(Organization,組織機(jī)構(gòu))、FIN(Finance,金融產(chǎn)品)、TIM(Time,日期、時(shí)間)。事件分為11類: 上市交易、臨時(shí)停牌、停牌、復(fù)牌、摘牌、名稱變更、支付利息、債券轉(zhuǎn)讓、暫停上市、終止上市、到期兌付。各類樣本數(shù)如表2所示。
表2 數(shù)據(jù)集樣本統(tǒng)計(jì)
為了驗(yàn)證遠(yuǎn)程監(jiān)督標(biāo)注事件的質(zhì)量,我們從每類事件中隨機(jī)選取20個(gè)樣本進(jìn)行人工標(biāo)注,作為真實(shí)值,再用遠(yuǎn)程監(jiān)督方法標(biāo)注它們作為預(yù)測(cè)值,依據(jù)4.2節(jié)中的評(píng)價(jià)指標(biāo)進(jìn)行驗(yàn)證,如表3所示,遠(yuǎn)程監(jiān)督方法標(biāo)注的語料具有較高的精確率,以及不錯(cuò)的召回率和F1值,可以作為人工標(biāo)注的一種替代方法。
表3 遠(yuǎn)程監(jiān)督事件標(biāo)注質(zhì)量 (單位: %)
本文采用精確率(Precision,P)、召回率(Recall,R)和F1(F1-score,F(xiàn)1)值作為評(píng)價(jià)指標(biāo),一個(gè)事件類型與某一事件元素及其角色為一個(gè)統(tǒng)計(jì)項(xiàng)。在事件類型預(yù)測(cè)正確的前提下,若事件元素及其對(duì)應(yīng)的角色均與標(biāo)注相同則視為正確,否則視為預(yù)測(cè)錯(cuò)誤,若事件類型預(yù)測(cè)錯(cuò)誤則將所有的元素與角色均視為預(yù)測(cè)錯(cuò)誤。具體計(jì)算如式(15)~式(17)所示。
(17)
本文的實(shí)驗(yàn)基于BERT_base模型來初始化詞向量,維度為786,dropout的比率為0.4,batch size為16,模型學(xué)習(xí)率為3e-5,訓(xùn)練10個(gè)epoch,最大文本序列長(zhǎng)度max length為200,
事件類型向量隨機(jī)初始化生成,維度為768。
為驗(yàn)證本文方法的有效性,我們和一些基準(zhǔn)方法進(jìn)行了比較。它們分別是DCFEE[10]和Doc2EDAG[13],以及基于BERT的管道模型BERT-P。在BERT-P中事件檢測(cè)部分與本文提出的方法DLEMC相同,但在實(shí)體識(shí)別任務(wù)中未增加事件特征,在角色分類任務(wù)中未利用事件和實(shí)體特征注意力,DLEMC-P為DLEMC的管道模式。我們將DCFEE、BERT-P和Doc2EDAG作為本文的baseline,在包含全部11類事件的測(cè)試集上進(jìn)行各項(xiàng)測(cè)試。
(1) 為驗(yàn)證本文的模型DLEMC在事件類型檢測(cè)上的有效性,我們?cè)跍y(cè)試集上對(duì)模型進(jìn)行了評(píng)價(jià),實(shí)驗(yàn)結(jié)果如表4所示。
表4 事件類型檢測(cè)評(píng)價(jià)結(jié)果 (單位: %)
表4中看出,利用序列標(biāo)注識(shí)別事件觸發(fā)詞DCFEE模型效果比較差。通過分類模型檢測(cè)事件的BERT-P、DLEMC-P、DLEMC、Doc2EDAG模型在各項(xiàng)指標(biāo)上均優(yōu)于DCFEE,其中端到端聯(lián)合學(xué)習(xí)模型DLEMC、Doc2EDAG在各項(xiàng)指標(biāo)上均優(yōu)于管道式模型。本文提出的DLEMC模型在準(zhǔn)確率上略低于采用二分類策略的Doc2EDAG模型,但召回率和F1值均優(yōu)于Doc2EDAG,其中F1提高了0.2%,實(shí)驗(yàn)表明,多標(biāo)簽分類模型在多事件檢測(cè)中有較好的表現(xiàn)。
(2) 為驗(yàn)證模型在篇章事件元素識(shí)別和角色分類時(shí)的有效性,我們?cè)跍y(cè)試集上對(duì)模型進(jìn)行了評(píng)價(jià),實(shí)驗(yàn)結(jié)果如表5所示。
表5 篇章級(jí)別事件抽取評(píng)價(jià)結(jié)果 (單位: %)
由表5可以看出,基于預(yù)訓(xùn)練語言模型BERT詞向量表征的事件抽取模型BERT-P明顯優(yōu)于使用Word2Vec[18]的DCFEE模型。本文提出的DLEMC模型則在P、R、F1等3個(gè)指標(biāo)上都優(yōu)于BERT-P,其中F1值提升了4.1%。
DLEMC-P保留增強(qiáng)的文本嵌入表示,但采用管道式方法完成事件抽取的子任務(wù),實(shí)驗(yàn)表明其在準(zhǔn)確率上有提升,但是召回率上大幅下降,但F1值仍然比直接基于管道的BERT-P提升了1.5%。端到端模型Doc2EDAG和DLEMC在準(zhǔn)確率上略低于DLEMC-P,但召回率和F1值較管道式方法均有大幅提升。得益于DLEMC在實(shí)體識(shí)別部分加入事件類型特征,在角色分類部分加入事件類型與實(shí)體注意力特征,本文的DLEMC在各項(xiàng)指標(biāo)上均優(yōu)于Doc2EDAG。
(3) 為了驗(yàn)證DLEMC在處理多事件時(shí)的有效性,我們將數(shù)據(jù)集劃分為單事件(S-Event)與多事件(M-Event)兩個(gè)子集,并分別用這兩個(gè)子集對(duì)模型進(jìn)行評(píng)價(jià),實(shí)驗(yàn)結(jié)果如表6所示。
表6 單事件與多事件評(píng)價(jià)F1值與平均值 (單位: %)
表6中的實(shí)驗(yàn)結(jié)果表明,DCFEE中的基于核心事件進(jìn)行元素補(bǔ)全策略存在局限性,不能較好地處理多事件樣本。而BERT-P以及DLEMC-P基于優(yōu)秀的詞嵌入方法,提高了特征表達(dá)能力,在單事件和多事件樣本上性能均有較大改善,但由于管道模式不可避免地將前序任務(wù)中的錯(cuò)誤信息傳遞至后序任務(wù),模型的整體性能低于端到端的模型Doc2EDAG和DLEMC。實(shí)驗(yàn)表明,對(duì)于被分割的樣本,DLEMC有效增強(qiáng)了文本中的事件特征表示,提高了在同一類型事件的多實(shí)例和不同類型事件的多實(shí)例情況下的性能,其在單事件和多事件評(píng)價(jià)上均優(yōu)于Doc2EDAG。
為得到完整的結(jié)構(gòu)化篇章事件信息,我們?cè)贒LEMC事件抽取結(jié)果的基礎(chǔ)上對(duì)包含多個(gè)事件的文檔進(jìn)行了主從事件劃分和主從事件元素融合,實(shí)驗(yàn)結(jié)果如表7、表8所示。
表7 主從事件劃分評(píng)價(jià)結(jié)果 (單位: %)
表8 主從事件元素融合評(píng)價(jià)結(jié)果 (單位: %)
由表7可看出,主從事件劃分的效果是可接受的,由于主從事件劃分依賴事件檢測(cè)的結(jié)果,使得該部分仍具有較大提升空間。
表8給出了對(duì)正確識(shí)別且角色判定正確的事件元素進(jìn)行同指事件元素融合實(shí)驗(yàn)的評(píng)價(jià)結(jié)果。事件元素融合的性能受到句子級(jí)事件抽取結(jié)果的影響,導(dǎo)致最終的性能指標(biāo)偏低。
目前事件抽取方法可以分為兩類: 基于模式匹配方法和基于統(tǒng)計(jì)學(xué)習(xí)方法。模式匹配方法[19-20]在特定領(lǐng)域有較高的準(zhǔn)確率,但是通常需要編寫大量的人工模板,且普適性較差。統(tǒng)計(jì)學(xué)習(xí)方法可以分為兩類:傳統(tǒng)的基于特征工程的機(jī)器學(xué)習(xí)方法以及基于深度學(xué)習(xí)的方法。傳統(tǒng)特征工程主要依賴自然語言處理工具獲取有效的特征(如句法、詞匯、詞性等),然后利用傳統(tǒng)的分類模型(如最大熵、支持向量機(jī))進(jìn)行分類[21-22]?;谏疃葘W(xué)習(xí)的方法依靠神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征,在事件抽取中取得了不錯(cuò)的效果,如吳[23]使用一種混合神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)體和事件的聯(lián)合學(xué)習(xí);Chen[6]使用一種動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)來捕獲多個(gè)特征,提升了事件抽取的性能。Zeng[7]使用一個(gè)卷積雙向LSTM神經(jīng)網(wǎng)絡(luò)分別從詞級(jí)別和字級(jí)別進(jìn)行觸發(fā)詞和實(shí)體的識(shí)別。
事件抽取任務(wù)依據(jù)是否具有預(yù)定義的事件框架(事件類型及每類事件對(duì)應(yīng)的角色)可以分為開放域事件抽取和限定域事件抽取,開放域事件抽取目標(biāo)在于識(shí)別自然語言文本中的事件,一般沒有領(lǐng)域限制,不需要預(yù)定義事件框架。限定域事件抽取會(huì)預(yù)先定義好要抽取的事件類型,如“襲擊”事件、“審判”事件等,同時(shí)也會(huì)定義每類事件參與者的角色,如“審判”事件中包含“被審判人”“審判時(shí)間”“地點(diǎn)”等角色。
從文本粒度來看,目前事件抽取的相關(guān)研究主要集中在句子級(jí),即識(shí)別句子中的事件并提取相應(yīng)的事件元素[7]。句子級(jí)事件抽取主要有兩種建模方式,管道方式和聯(lián)合方式。管道式方法通常將事件識(shí)別和元素提取分為兩個(gè)獨(dú)立的任務(wù),忽略了事件與元素之間的聯(lián)系,導(dǎo)致效果不夠理想。聯(lián)合模型一般同時(shí)識(shí)別句子中的事件并提取相關(guān)元素,利用深度神經(jīng)網(wǎng)絡(luò)捕獲事件與元素之間的語義聯(lián)系,模型訓(xùn)練時(shí)能夠互相影響并優(yōu)化,性能一般要優(yōu)于管道式模型。
現(xiàn)實(shí)中的文本信息往往是以篇章形式出現(xiàn)的,針對(duì)篇章級(jí)事件抽取能夠獲得更完整、規(guī)范的信息。篇章級(jí)的事件抽取研究方法通常首先對(duì)給定文檔中的句子進(jìn)行處理,然后再對(duì)句子級(jí)的事件信息進(jìn)行合并,從而得到篇章級(jí)的事件抽取結(jié)果。目前篇章級(jí)的事件抽取大多采用管道式模型,如仲等[11]采用觸發(fā)詞和實(shí)體聯(lián)合標(biāo)注的方法同時(shí)抽取句子級(jí)的觸發(fā)詞和實(shí)體,然后使用多層感知機(jī)對(duì)實(shí)體進(jìn)行角色分類,并利用整數(shù)線性規(guī)劃進(jìn)行同指事件的融合,實(shí)現(xiàn)篇章級(jí)的事件抽取。Yang[10]基于句子抽取結(jié)果以及文本特征發(fā)現(xiàn)主事件描述,并利用上下文元素補(bǔ)齊策略得到篇章事件結(jié)構(gòu)化信息。
總體來講,目前篇章級(jí)的事件抽取研究較少,且集中在特定領(lǐng)域,通常依賴大量人工規(guī)則,難以進(jìn)行領(lǐng)域拓展。而句子級(jí)的事件抽取日趨成熟,應(yīng)用領(lǐng)域更廣,但得到的結(jié)果無法提供較好的篇章級(jí)事件信息。
本文針對(duì)金融領(lǐng)域篇章級(jí)事件抽取任務(wù)定義了事件表示框架,在該框架下提出基于深度學(xué)習(xí)的端到端模型抽取事件信息,模型用3層分別實(shí)現(xiàn)多標(biāo)簽分類的事件檢測(cè)、基于融合事件類型特征的事件元素識(shí)別以及基于注意力機(jī)制的元素角色分類。對(duì)獲取的多個(gè)事件,利用余弦相似度進(jìn)行主從事件劃分以及多事件的元素融合,得到篇章級(jí)事件結(jié)構(gòu)化信息。我們構(gòu)建了金融領(lǐng)域事件抽取語料對(duì)本文方法進(jìn)行驗(yàn)證,實(shí)驗(yàn)證明本文方法明顯優(yōu)于基準(zhǔn)方法。
由于事件元素之間存在較強(qiáng)的相似性,如“上市交易”事件中的“股份總數(shù)160 000 000股,其中40 000 000股自上市之日起開始上市交易”,模型可能會(huì)將“股份總數(shù)”與“上市股數(shù)”錯(cuò)誤分類。如何提高相似元素的特征表示及其分類效果,從而提升篇章級(jí)事件抽取的整體性能,是未來的改進(jìn)方向。