魏 優(yōu),劉茂福,胡慧君
(1.武漢科技大學計算機科學與技術(shù)學院,湖北 武漢 430065; 2.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢 430065)
生物醫(yī)學文獻數(shù)量龐大且增長迅速,對現(xiàn)有生物醫(yī)學文獻的信息抽取而言,理解生物醫(yī)學事件的上下文更具有重要意義。因而,更多的研究者專注于生物醫(yī)學事件抽取這項關(guān)鍵且極具挑戰(zhàn)性的任務,其目標是識別某一類型事件的觸發(fā)詞和與之相關(guān)的要素。如例1所示,從句子中可以抽取2個生物醫(yī)學事件,事件1是1個Blood vessel development(血管發(fā)育)類型的事件,用E1表示,包括事件觸發(fā)詞“angiogenesis”和對應的AtLoc類型要素“tumor”;事件2是1個Regulation(調(diào)控)類型事件,用E2表示,包括事件觸發(fā)詞“play a role”,1個Theme類型要素E1,1個Cause類型要素“Mps”。其中事件E2是1個嵌套事件,參與的Theme要素是事件E1。
例1句子“Mps also play a role in tumor angiogenesis.”存在事件,其結(jié)構(gòu)化表示:Event E1(Type:Blood vessel development,Trigger:angiogenesis,Theme:tumor);Event E2(Type:Regulation,Theme:E1,Cause:Mps)
生物醫(yī)學事件抽取任務一經(jīng)提出就吸引了大量關(guān)注,先前大部分用于生物醫(yī)學事件抽取的方法都是基于規(guī)則或基于傳統(tǒng)機器學習的?;谝?guī)則的方法需要人工構(gòu)建規(guī)則,花費大量時間,并且還需要專業(yè)人員的參與;而基于傳統(tǒng)機器學習的方法,比如支持向量機SVM(Support Vector Machine)和條件隨機場CRF(Conditional Radom Field)等,與基于規(guī)則的方法相比抽取性能更好,但是依賴大量的復雜特征,泛化能力很差,并且缺乏詞的語義信息。近年來,隨著神經(jīng)網(wǎng)絡的興起,基于預訓練詞向量和神經(jīng)網(wǎng)絡的深度學習方法相繼被提出,詞向量通??梢垣@取詞與詞之間的語義信息作為神經(jīng)網(wǎng)絡模型的輸入,同時神經(jīng)網(wǎng)絡模型可以自動學習一些抽象的特征,使用神經(jīng)網(wǎng)絡方法進行事件抽取取得了更好的效果。雖然現(xiàn)有神經(jīng)網(wǎng)絡方法表現(xiàn)出一定的優(yōu)勢,但是仍然存在一些問題需要解決。(1)根據(jù)不同的上下文,同樣的單詞作為觸發(fā)詞可以表示不同的事件類型,比如,例2中句子1和句子2,2個句子中有相同的單詞“formation”,前者表示Binding類型事件,后者表示Development類型事件。(2)與例1類似的嵌套事件的抽取效果仍然不夠理想,特別是多層嵌套關(guān)系的事件抽取。
例2
句子1“VEGF165 mediatesformationof complexes containing VEGFR-2 and neuropilin-1 that enhance VEGF165-receptor binding.”中有事件Binding〈formation〉(Theme:VEGFR-2,Theme:neuropilin-1).
句子2“In addition,the endostatin vector treatment completely prevented theformationof pulmonary micrometastases in Lewis lung carcinoma (P = 0.0001).”中有事件Development〈formation〉(Theme:pulmonary micrometastases).
本文使用基于預訓練語言模型的深層語境詞表示來處理第1個問題,預訓練語言模型可以根據(jù)上下文動態(tài)捕獲詞的含義,同一單詞對應不同的上下文就有不同的詞表示,將這樣的動態(tài)詞表示作為序列標注模型的輸入,與靜態(tài)的預訓練詞向量作為輸入相比可以獲得更好的效果;另外,本文中要素檢測實質(zhì)上是識別觸發(fā)詞-要素候選對(包括觸發(fā)詞與實體或觸發(fā)詞與觸發(fā)詞)的關(guān)系類型,對此本文提出基于自注意力的多分類模型,使用自注意力機制,不僅可以關(guān)注句子中對于候選對關(guān)系識別比較重要的部分,還可以捕獲句子中不同的相關(guān)特征,更有助于候選對關(guān)系識別。
隨著生物醫(yī)學自然語言處理BioNLP(Biomedical Natural Language Processing)的生物醫(yī)學事件共享任務BioNLP-ST(BioNLP Shared Task)[1 - 4]的多次舉辦,生物醫(yī)學事件抽取獲得的關(guān)注度也越來越高,許多系統(tǒng)和方法也相繼被提出。基于規(guī)則的方法,比如Kilicoglu等[5,6]提出的事件抽取方法ConcordU和Bui等[7]提出的事件抽取方法BioSEM,這些方法準確率較高,但召回率卻非常低,并且其規(guī)則是針對特定數(shù)據(jù)集定義的,泛化能力較差。傳統(tǒng)機器學習方法中,SVM是最具代表性的方法,比如圖爾庫大學提出的TEES(Turku Event Extraction System)系統(tǒng)[8],將事件抽取分為觸發(fā)詞識別和要素檢測2個子任務,并將2個子任務視為多分類任務,結(jié)合詞匯信息、語境信息、依存句法信息等構(gòu)成的豐富特征采用SVM作為分類器,在歷屆BioNLP-ST共享任務中都取得了非常好的成績。Xia等[9]在TEES的基礎(chǔ)上,提出了一種特征累積有效性評估算法,通過梯度搜索的方式分析每一種特征對于整體性能的貢獻,找到最優(yōu)的特征組合,進一步提升了TEES系統(tǒng)性能。Venugopal等[10]提出一種基于馬爾科夫邏輯網(wǎng)絡MLN(Markov Logic Networks)的連接模型,采用SVM模型對高維特征進行編碼。Wei等[11]結(jié)合SVM和CRF來進行事件觸發(fā)詞識別;Zhou等[12]提出了一種基于句子結(jié)構(gòu)和主題分布相似性的半監(jiān)督學習方法來挖掘未注釋語料的知識,輔助生物醫(yī)學事件抽取任務的研究。
近年來深度學習在一些自然語言處理任務上得到廣泛應用,并取得了很好的效果,結(jié)合詞向量的神經(jīng)網(wǎng)絡模型也被應用到生物醫(yī)學事件抽取任務中。Nie等[13]提出詞向量輔助神經(jīng)網(wǎng)絡預測模型進行生物醫(yī)學事件觸發(fā)詞識別;Li等[14]提出一種在動態(tài)擴展樹上的長短時記憶神經(jīng)網(wǎng)絡模型用于生物醫(yī)學事件抽??;Wang等[15]提出一種基于依存分析的詞向量和深度學習模型的觸發(fā)詞識別方法;Bj?rne等[16]將TEES系統(tǒng)中的SVM用卷積神經(jīng)網(wǎng)絡CNN(Convolutional Neural Network)替代,進一步提升了系統(tǒng)的性能;Rahul等[17]提出基于GRU(Gated Recurrent Unit)的神經(jīng)網(wǎng)絡模型用于生物醫(yī)學事件觸發(fā)詞識別;Li等[18]提出要素注意力模型直接將要素信息用于輔助觸發(fā)詞識別;Li等[19]提出一種并行多池化卷積神經(jīng)網(wǎng)絡模型用于生物醫(yī)學事件抽取,在MLEE(Multi-Level Event Extraction)[20]數(shù)據(jù)集上取得了目前最好的結(jié)果。
目前,雙向長短時記憶神經(jīng)網(wǎng)絡Bi-LSTM(Bidirectional Long Short-Term Memory)結(jié)合CRF的模型在序列標注任務中用得最多,模型效果也較好。Bi-LSTM可以捕獲句子前向和后向有用的上下文信息,而CRF在預測當前標簽時具有利用句子級別和相鄰標簽信息的優(yōu)勢。Lample等[21]和Ma等[22]都使用Bi-LSTM-CRF神經(jīng)網(wǎng)絡結(jié)構(gòu)結(jié)合字符級詞表示進行命名實體識別,所不同的是前者使用Bi-LSTM生成字符級詞表示,后者使用CNN得到字符級詞表示?;贐i-LSTM和CRF的神經(jīng)網(wǎng)絡模型也被廣泛應用到生物醫(yī)學領(lǐng)域的序列標注任務中[23 - 26]。注意力機制在自然語言處理任務中的首次應用是在機器翻譯領(lǐng)域,因其出色的表現(xiàn)而后被廣泛地應用到各類NLP(Natural Language Processing)任務中,并在各個任務中也取得了不錯的效果。隨著注意力機制的深入研究,各種注意力皆被提出,其中,自注意力(Self-attention)因其可以捕獲長距離依賴的優(yōu)勢而成為近期的研究熱點,在語義角色標注[27]、實體識別[28]、關(guān)系抽取[29]等任務上都有成功應用。以往的研究表明,使用word2vec[30]、Glove[31]等獲得的預訓練詞向量可以提升模型的性能,但是預訓練詞向量仍然不能充分利用詞的含義及其上下文信息,因此基于上下文生成詞表示是至關(guān)重要的。Peters等[32]和Radford等[33]提出不同的預訓練語言模型,這些模型可以根據(jù)不同的上下文產(chǎn)生動態(tài)的深層語境詞表示,在多項NLP任務中都表現(xiàn)出強大的性能。
流水線式的生物醫(yī)學事件抽取流程包括3步,即事件觸發(fā)詞識別、事件要素檢測和后處理生成完整事件,其中最重要的是前2步。本文將觸發(fā)詞識別看作序列標注問題,將預訓練詞向量組合基于Bi-LSTM的字符級詞表示、預訓練詞向量組合基于CNN的字符級詞表示和基于預訓練語言模型的深層語境詞表示分別輸入到Bi-LSTM-CRF模型進行觸發(fā)詞識別,整體框架如圖1所示。觸發(fā)詞識別之后,接著進行事件要素檢測,本文沿用以前的方法,依舊將要素檢測看作一個多分類問題,提出一個基于自注意力的多分類模型。
觸發(fā)詞識別模型整體框架如圖1所示,其中最重要的2部分是詞表示和Bi-LSTM-CRF結(jié)構(gòu)。本文將觸發(fā)詞識別看作序列標注問題,使用BIO(Begin Inside Outside)標簽對觸發(fā)詞進行標注,B-type代表組成觸發(fā)詞的開始單詞,I-type代表中間單詞,O代表不是觸發(fā)詞,type代表觸發(fā)詞類型。
Figure 1 Overview of trigger recognition model 圖1 觸發(fā)詞識別模型整體框架
3.1.1 字符級詞表示
字符級別的詞表示考慮了單詞在形態(tài)學方面的信息和知識,比如單詞的前綴和后綴信息。大量研究[21,22,34]表明,將字符級的詞表示與預訓練詞向量結(jié)合使用可以優(yōu)化序列標注任務的效果。本文參考文獻[34]以2種方式獲取字符級別的詞表示,一是基于Bi-LSTM的方式,將字符表中的字符進行向量隨機初始化,得到字符向量表,單詞中的每個字符映射為字符向量后,輸入Bi-LSTM進行編碼得到字符級詞表示;另一種是基于CNN的方式,依然將單詞中的每個字符映射為字符向量后,然后經(jīng)過卷積,再經(jīng)過最大池化得到基于CNN的字符級詞表示。
獲得基于Bi-LSTM的字符級詞表示和基于CNN的字符級詞表示后,將它們分別與用word2vec訓練的基于單詞的預訓練詞向量拼接,得到最終的詞表示,并將其輸入到Bi-LSTM-CRF模型中。
3.1.2 深層語境詞表示
近來BERT(Bidirectional Encoder Representations from Transformers)[35]因在11項NLP任務中打破記錄而獲得極大的關(guān)注,因此預訓練語言模型被廣泛地運用到各類NLP任務中,包括序列標注、文本分類等,并且效果都得到很大的提升。目前將預訓練語言模型應用到下游任務主要有2種形式,一是基于特征的方式,二是基于微調(diào)的方式。本文采取基于微調(diào)的方式,使用BioBERT(Bidirectional Encoder Representations from Transformers for Biomedical text mining)[36]來獲取深層語境詞表示,然后將其輸入到Bi-LSTM-CRF模型中。BERT使用大量的通用領(lǐng)域語料比如English Wikipedia、BooksCorpus等進行訓練,而BioBERT在此基礎(chǔ)上再使用生物醫(yī)學領(lǐng)域的語料PubMed(PubMed Abstracts)和PMC(PMC full-text articles)進行訓練,更有利于生物醫(yī)學領(lǐng)域自然語言處理。
與預訓練詞向量不同的是,通過合并上下文信息,采用預訓練語言模型獲取的深層語境詞表示允許相同的單詞有不同的上下文含義。
3.1.3 Bi-LSTM-CRF
LSTM很好地解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡在訓練過程中存在的梯度消失和梯度爆炸問題,同時可以更好地對長距離依賴關(guān)系進行建模,因而被廣泛應用。在LSTM神經(jīng)元中,狀態(tài)的保存與更新由輸入門、遺忘門、輸出門決定,輸入門控制可以保存到狀態(tài)中的輸入信息,遺忘門決定歷史狀態(tài)的保留信息,輸出門控制輸出更新后的狀態(tài)信息。LSTM神經(jīng)元中t時刻各個單元的計算如下所示:
it=σ(Wiht-1+Uixt+bi)
(1)
ft=σ(Wfht-1+Ufxt+bf)
(2)
(3)
(4)
ot=σ(Woht-1+Uoxt+bo)
(5)
ht=ot⊙tanhct
(6)
其中,it、ft、ot、ct分別代表t時刻神經(jīng)元的輸入門、遺忘門、輸出門和細胞狀態(tài),xt是t時刻的輸入向量,ht是t時刻的隱藏狀態(tài)(輸出向量),σ代表sigmoid激活函數(shù),tanh代表tanhyperbolic激活函數(shù),⊙代表元素級乘法計算,U和W是權(quán)重矩陣,b是偏置向量。
在Bi-LSTM-CRF模型中,CRF主要是進一步增強前后標注的約束。對于Bi-LSTM的輸出序列h={h1,h2,…,hn},通過概率模型CRF獲得候選標簽序列y={y1,y2,…,yn},CRF原理如公式(7)所示:
(7)
L(W,b)=∑ilogp(y|h;W,b)
(8)
(9)
Figure 2 Model overview of argument detection圖2 要素檢測模型整體框架
模型整體結(jié)構(gòu)如圖2所示,主要包括:(1)輸入,將句子中的每個詞轉(zhuǎn)換成對應的詞向量作為模型的輸入;(2)自注意力,使用多頭注意力獲取詞與詞之間的相關(guān)特征;(3)Bi-LSTM,順序編碼自注意力層的輸出;(4)實體注意力,計算候選觸發(fā)詞-實體對或觸發(fā)詞-觸發(fā)詞對,其它單詞與候選對的相對距離,實體類型以及事件類型的注意力權(quán)重,最終這些特征將作為句子特征用于最后的分類。
3.2.1 自注意力層
自注意力,也叫內(nèi)部注意力,是注意力機制的一種特殊情況,它能夠關(guān)注句子本身從而學習句子內(nèi)部的詞依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。自注意力有許多不同的實現(xiàn)方式,本文使用的自注意力稱之為多頭注意力,主要包括線性變換、縮放點積注意力和拼接。
多頭注意力的輸入是3個相同的向量矩陣:查詢Q(Query)、鍵K(Key)和值V(Value),本文中Q=K=V=X,X={x1,x2,…,xn},xi∈Rdw(dw代表詞向量維度)為輸入句子的詞向量序列。首先對Q、K和V分別進行線性變換,然后進行縮放點積注意力(Scaled Dot-Product Attention)計算,計算公式如下所示:
(10)
其中縮放點積注意力結(jié)合線性變換需要進行h次,一次計算一個頭,并且是并行計算的,這樣可以使得模型在不同子空間學習相關(guān)信息。多頭注意力計算如式(11)和式(12)所示:
Multihead(Q,K,V)=WM[head1;…;headh]
(11)
(12)
3.2.2 Bi-LSTM層
經(jīng)過自注意力層獲取句子的豐富信息后, 本文接著使用Bi-LSTM進行順序編碼,具體表示如下所示:
(13)
(14)
(15)
3.2.3 實體注意力層
將觸發(fā)詞識別出來后,要素檢測實際上是判斷句子中觸發(fā)詞-要素候選對的關(guān)系,這樣的候選對有2類:觸發(fā)詞與實體候選對,觸發(fā)詞與觸發(fā)詞候選對。因此,候選對的信息對于要素檢測是非常重要的。本文采用實體注意力來充分利用候選對的信息,所采用的特征包括:(1)H={h1,h2,…,hn},是將從自注意力層得到的表示向量M輸入到Bi-LSTM進行編碼后得到的隱層輸出;(2)相對位置特征;(3)事件類型特征;(4)候選對及其類型特征。具體的注意力機制計算如下所示,其中z∈R2dh就是最終得到的句子特征。
WE[he1;te1;he2;te2])
(16)
(17)
(18)
(19)
(20)
其中,K是實體類型數(shù)量,ri表示第i個實體類型向量。
然后將實體隱層狀態(tài)he1、he2和對應的類型te1、te2連接起來再通過矩陣WE∈Rda×(4dh+4dh)進行線性變換,最后通過式(17)和式(18)得到z。其中,v是權(quán)重矩陣。
3.2.4 分類輸出層
通過實體注意力層得到句子特征z后將其送入全連接層,再使用softmax進行最后的分類,則所有要素類別的條件概率如式(21)所示,y表示預測要素類別,S表示輸入句子,θ是模型要學習的所有參數(shù),包括Wo∈R|R|×2dh和bo∈R|R|,|R|代表要素類別數(shù)量。
p(y|S,θ)=softmax(Woz+bo)
(21)
本文使用交叉熵L作為損失函數(shù),定義如式(22)所示:
(22)
其中,|D|代表訓練集大小,(S(i),y(i))代表數(shù)據(jù)集S和y中第i個樣本,本文使用AdaDelta優(yōu)化器來更新模型參數(shù)θ。為防止過擬合,本文使用系數(shù)為λ的L2正則化,另外也分別在詞向量層、Bi-LSTM和實體信息注意力之后加入Dropout(隨機失活),減少隱藏神經(jīng)元的聯(lián)合適應性。
The general form of surface potential ψsλ(y) in GSGCDMT-SON MOSFET can be obtained by solving the second order differential equation given in Eq. (11). Its solution is given as
本文以MLEE語料集為基礎(chǔ)進行實驗,與BioNLP-ST共享任務語料集,只針對分子水平的事件抽取相比,MLEE語料集旨在抽取更廣泛的病理學過程中不同層級上的生物機制,包括分子、細胞、器官甚至整個生物機體。按照BioNLP-ST共享任務的數(shù)據(jù)標注標準,有針對性地定義了16種實體與19種事件結(jié)構(gòu)類型,從而進行生物醫(yī)學事件抽取。MLEE語料集的19種生物事件類型分為4個大類別,分別為“Anatomical”“Planned”“Molecular”和“General”,描述了解剖、病理、分子和通用等生物過程以及治療方面的處理過程。在各個大類下,設有一系列的精確事件類型,如血管發(fā)育(Blood vessel development)、死亡(Death)、去磷酸化(Dephosphorylation)等,每種事件涉及指定的實體類型。表1給出了MLEE語料中的19類生物醫(yī)學事件的定義。本文將會對表1中定義的主要事件類型進行抽取,其中“Blood vessel development”事件類型可以沒有參與要素,“Regulation”“Positive regulation”“Negative regulation”和“Planned process”事件類型的要素可以是另一事件,這4類事件為可嵌套事件。
MLEE數(shù)據(jù)集分為訓練集、驗證集和測試集,其統(tǒng)計信息如表2所示,從中可以看出數(shù)據(jù)集中標注了大量的實體和事件信息,為事件抽取模型提供了足夠的訓練樣本。
在本文實驗中,模型先使用訓練集進行訓練,驗證集調(diào)整模型參數(shù),然后訓練集和驗證集合并訓練得到最后的模型。另外,實體由官方給出,無需進行實體識別。本文使用精確率P(Precision)、召回率R(Recall)、F1值(F1-Score)作為評價指標。
4.2.1 觸發(fā)詞識別結(jié)果
將預訓練詞向量組合字符級詞表示,和基于預訓練語言模型的深層語境詞表示分別作為序列標注模型Bi-LSTM-CRF的輸入,得到觸發(fā)詞識別結(jié)果,如表3所示。
Table 1 Definition of primary events表1 主要事件的定義
Table 2 Statistical information of MLEE表2 MLEE數(shù)據(jù)集統(tǒng)計信息
Table 3 Experimental results of trigger recognition with different word representation表3 基于不同詞表示的觸發(fā)詞識別結(jié)果 %
(1)Bi-LSTM-CRF+CNN-Char:字符級詞表示通過CNN得到,并與預訓練詞向量結(jié)合作為Bi-LSTM-CRF模型的輸入;
(2)Bi-LSTM-CRF+LSTM-Char:字符級詞表示通過Bi-LSTM得到,并與預訓練詞向量結(jié)合作為Bi-LSTM-CRF模型的輸入;
(3)Bi-LSTM-CRF+BioBERT:深層語境詞表示通過預訓練語言模型BioBERT得到,作為Bi-LSTM-CRF模型的輸入;
(4)CG[37]是一個與MLEE類似的數(shù)據(jù)集,“+CG”表示在原有模型基礎(chǔ)上訓練集加入CG語料。
由表3可知,Bi-LSTM-CRF+LSTM-Char的F1值比Bi-LSTM-CRF+CNN-Char的高0.54%,說明基于LSTM的字符級詞表示比基于CNN的字符級詞表示可以更好地學習到單詞的形態(tài)學信息,而在本文中CNN只考慮單詞的三元距離,并且是與位置無關(guān)的,意味著不能區(qū)分三元組字符在單詞中的位置;LSTM考慮單詞中的所有字符,并且是與位置有關(guān)的,意味著可以區(qū)分單詞開頭和結(jié)尾的字符。對于觸發(fā)詞識別來說,位置依賴是很重要的信息,與CNN相比,在字符與單詞的關(guān)系建模方面,LSTM更有優(yōu)勢。Bi-LSTM-CRF+BioBERT的F1值比Bi-LSTM-CRF+LSTM-Char的F1值高2.86%,并且精確率和召回率都有明顯提升,證明了深層語境詞表示比組合字符級詞表示的預訓練詞向量更加有效。另外,由表3可知,模型在加入CG語料擴充訓練集之后與加入之前比,整體F1值提高了0.5%,說明加入語料有利于模型效果提升;而從召回率和精確率來看,召回率有提升而精確率有所下降。其原因可能是擴充的語料可以讓模型學到一些有利特征作為補充,模型能夠預測出更多正確的觸發(fā)詞,因而召回率上升;但與此同時也加入了一些噪聲,比如單詞“sensitizing”在CG語料中被標注為觸發(fā)詞,但在MLEE語料中卻未被標注為觸發(fā)詞,另外有些單詞或短語分別在訓練集和測試集可以作為不同類型事件的觸發(fā)詞,并且有的單詞或短語比如“play a role”可以是觸發(fā)詞也可以不是,加入CG語料也使得這類單詞或短語有所增加,模型將原來不作為觸發(fā)詞的單詞預測為觸發(fā)詞或者將觸發(fā)詞類型判斷錯誤,從而使得精確率下降。
表4列出了已有方法的結(jié)果,前3種模型結(jié)合大量人工或工具獲得的特征,采用SVM模型進行觸發(fā)詞識別。4~8種模型基于詞向量采用神經(jīng)網(wǎng)絡模型進行觸發(fā)詞識別。其中Li等[19]基于依存關(guān)系的詞向量使用并行多池化卷積神經(jīng)網(wǎng)絡進行觸發(fā)詞識別,取得了當前最好的性能,F(xiàn)1值為80.27%,而本文基于深層語境詞表示的Bi-LSTM-CRF即Bi-LSTM-CRF+ BioBERT模型,比其高0.88%,加入CG后即Bi-LSTM-CRF+BioBERT+CG模型的F1值比其高1.38%,這說明了本文模型的有效性。與Li等模型相比,本文模型的優(yōu)越性在于召回率的提高,而精確率略低于Li等模型。根據(jù)分析,由于生物醫(yī)學事件結(jié)構(gòu)復雜,依存分析對句子中事件觸發(fā)詞識別的精確率具有較好的正向作用,Li等模型采用了詞語間的句法關(guān)系來訓練依存上下文信息,從而得到依存詞向量。
Table 4 Trigger recognition performances of different models表4 不同模型的觸發(fā)詞識別性能 %
4.2.2 事件抽取結(jié)果
在完成要素檢測后,得到了觸發(fā)詞與實體或觸發(fā)詞與觸發(fā)詞的關(guān)系類型,再經(jīng)過后處理生成符合任務定義的完整事件,最終的事件抽取結(jié)果如表5所示。
Table 5 Event extraction performances of different models表5 不同模型的事件抽取性能 %
Pyysalo等[20]使用SVM進行事件抽??;Zhou等[12]使用一個基于隱藏主題的半監(jiān)督學習框架進行事件抽?。籛ang等[40]使用卷積神經(jīng)網(wǎng)絡結(jié)合句法詞向量以及額外的語義特征包括主題特征、詞性特征等進行事件抽??;Li等[19]使用并行多池化卷積神經(jīng)網(wǎng)絡結(jié)合基于依存關(guān)系的詞向量進行事件抽取。
從表5可知,本文提出的模型取得的整體事件抽取性能F1值為60.04%,比Pyysalo等[20]模型高4.81%,比Zhou等[12]模型高2.63%,比Wang等[40]模型高1.73%,比目前最好結(jié)果Li等[19]模型高0.39%,說明本文提出的模型對于生物醫(yī)學事件抽取是有效的。從召回率上來看,本文模型低于Zhou等[12]模型的,Zhou等提出一個半監(jiān)督學習框架,基于句子結(jié)構(gòu)和隱藏主題計算未標注數(shù)據(jù)和標注數(shù)據(jù)的語義距離,從而對未標注數(shù)據(jù)進行事件標注,然后將新標注的數(shù)據(jù)與原MLEE語料訓練集一起用于模型訓練,最終使得召回率有很大的提升。與Zhou等模型相比,本文模型加入一個與MLEE類似的語料,但是Zhou等模型新標注了5 143個句子,而本文加入的CG語料是1 803個句子,訓練數(shù)據(jù)小可能導致召回率偏低,另外后處理生成事件方式的不同也可能是本文模型召回率偏低原因之一。從精確率來看,本文模型低于Li等[19]模型的,一方面,由于串行方式進行事件抽取的錯誤傳播性,第1階段觸發(fā)詞識別是關(guān)鍵,本文模型觸發(fā)詞識別精確率低于Li等[19]模型的,觸發(fā)詞識別錯誤會造成第2階段要素識別的精確率降低,從而影響生成事件的精確率;另一方面,不同的后處理生成事件方式也可能導致本文精確率偏低。
從表6可以看出,本文模型在“Regulation”“Positive regulation”“Negative regulation”和“Planned process”4類事件類型上的抽取結(jié)果要好于Li等[19]模型的,而這4類事件是可嵌套的復雜事件,說明了本文提出的自注意力對于從不同方面捕獲更深層語義關(guān)系和特征的有效性。
本文采用基于不同詞表示的Bi-LSTM-CRF觸發(fā)詞識別模型和結(jié)合自注意力與Bi-LSTM的要素檢測模型,在生物醫(yī)學事件抽取上取得的結(jié)果和目前最好模型的結(jié)果相當,這說明了本文提出的模型對于生物醫(yī)學事件抽取的有效性。同時,本文還對比了結(jié)合字符級詞表示的預訓練詞向量和基于預訓練語言模型的深層語境詞表示對于觸發(fā)詞識別的影響,實驗表明,深層語境詞表示更有助于觸發(fā)詞識別。
然而,本文采用的事件抽取方式依然是流水線模式,先進行觸發(fā)詞識別再進行要素檢測,而此類方式存在錯誤傳播,即觸發(fā)詞識別錯誤會導致要素檢測也是錯誤的,同時也忽略了這2個任務之間的聯(lián)系,所以可以考慮聯(lián)合模型同時進行觸發(fā)詞和要素的識別。另外,MLEE數(shù)據(jù)集不均衡,有些類別的事件數(shù)量很少,這個問題也亟待解決。還可以考慮不同預訓練語言模型生成的深層語境詞表示以及預訓練詞向量與深層語境詞表示結(jié)合使用對于模型效果的影響。
Table 6 Comparison of detailed event extraction results with the current state-of-the-art models表6 與當前最好模型的詳細事件抽取結(jié)果對比 %