白 璐,周子雅,李斌陽,劉宇涵,3,邵之宣,吳華瑞
(1.國際關(guān)系學(xué)院 網(wǎng)絡(luò)空間安全學(xué)院,北京100091;2.北京市農(nóng)業(yè)信息技術(shù)研究中心,北京100097;3.中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京101408)
事理演化圖譜(以下簡稱事理圖譜)是一個描述事件之間順承、因果關(guān)系的事理演化邏輯有向圖[1]。作為知識圖譜的延伸,事理演化圖譜以事件為節(jié)點,以事件間關(guān)系為連接節(jié)點的邊,這使得事理圖譜較之知識圖譜具有更豐富的信息表達(dá)形式及更強(qiáng)的事件間邏輯關(guān)系描述能力。事理演化圖譜應(yīng)用場景十分廣泛,主要原因是其具備良好的描述事件間演化規(guī)律和模式的能力,尤其在以具體事件間關(guān)系作為研究對象的學(xué)科中,如金融、醫(yī)療和歷史學(xué)等領(lǐng)域,構(gòu)建相關(guān)學(xué)科的事理圖譜具有重要意義。
“政治學(xué)作為一門社會科學(xué)學(xué)科,主要研究國家和社會公共權(quán)力的活動、形式和關(guān)系及其發(fā)展規(guī)律,政治學(xué)研究重視揭露事件間的因果關(guān)聯(lián),在分析過程中,運(yùn)用歸納與演繹、分析與綜合、抽象與概括等方法,并結(jié)合人類主觀經(jīng)驗判斷,從而認(rèn)識事物本質(zhì)、揭示內(nèi)在規(guī)律”[2]。在政治學(xué)領(lǐng)域,研究事件間關(guān)系不僅可以有效輔助研究人員挖掘?qū)е抡问录l(fā)生的深層因素,更能夠從宏觀層面衡量相關(guān)重大政治事件的影響,預(yù)測其未來走勢。因此,亟待構(gòu)建一套面向政治領(lǐng)域的事理圖譜,以輔助政治學(xué)研究。
圖1展示了中美雙邊貿(mào)易相關(guān)的重要事件及其關(guān)聯(lián)關(guān)系。圖中主要包含了五個事件以及事件間的關(guān)系,事件關(guān)系包括順承關(guān)系和因果關(guān)系兩種。其表達(dá)的隱含信息可解釋為,“取消加征關(guān)稅”是“習(xí)特會”達(dá)成的共識,隨之“貨幣匯率反彈”“雙方股價增長”,促成了“中美貿(mào)易戰(zhàn)暫告一段落”。為了更好地輔助研究人員展開政治領(lǐng)域的研究工作,理想的政治領(lǐng)域事理圖譜應(yīng)包含相關(guān)事件及事件間的邏輯關(guān)系。例如,研究人員可以利用圖1預(yù)測中美貿(mào)易戰(zhàn)的未來走勢。
圖1 中美雙邊貿(mào)易事理圖譜
然而,政治領(lǐng)域事理圖譜的構(gòu)建面臨諸多挑戰(zhàn),其原因是政治事件類型和事件內(nèi)容較為復(fù)雜,且政治事件抽取較為困難,主要表現(xiàn)在以下三個方面。
(1)用于圖譜構(gòu)建的政治領(lǐng)域語料庫匱乏。政治領(lǐng)域語料庫是構(gòu)建領(lǐng)域事理演化圖譜的基礎(chǔ),是進(jìn)行事件抽取和政治事件間關(guān)系挖掘的前提。但目前可用語料庫匱乏,其原因有兩個方面。一方面,圖譜構(gòu)建對于政治領(lǐng)域數(shù)據(jù)集的要求較高,需保證數(shù)據(jù)的真實性及客觀性,即數(shù)據(jù)文本所描述信息必須符合事實,且不含有明顯的立場偏向和個人主觀色彩;另一方面,對于政治領(lǐng)域事件類型尚無明確的劃分標(biāo)準(zhǔn)。傳統(tǒng)事件抽取任務(wù)中定義的面向開放域的事件標(biāo)注方式(如Automatic Content Extraction會議所制定的事件類型劃分標(biāo)準(zhǔn)[3])并不適用于政治領(lǐng)域事件。語料庫的匱乏嚴(yán)重影響了封閉域事理圖譜的構(gòu)建工作。
(2)政治類事件抽取任務(wù)精度較低。作為事理圖譜的節(jié)點,事件抽取的精度影響著圖譜構(gòu)建的效果。由于自然語言的表達(dá)具有靈活性和歧義性,且政治領(lǐng)域文本句式結(jié)構(gòu)普遍較為復(fù)雜,這為從非結(jié)構(gòu)化文本中準(zhǔn)確抽取事件帶來了困難。
(3)政治事件間關(guān)系復(fù)雜,深層關(guān)系提取困難。對于一些領(lǐng)域的事理圖譜,事件之間的關(guān)系是清晰明確的。例如,在金融事理圖譜中,“國際資本的流入”“經(jīng)濟(jì)增長模式的轉(zhuǎn)變”可能會導(dǎo)致“貨幣超發(fā)”,從而產(chǎn)生對“農(nóng)產(chǎn)品價格”“交易房屋價格”及“貨幣匯率”等相關(guān)事件的影響(1)http://eeg.8wss.com,而政治領(lǐng)域的事理圖譜因事件錯綜復(fù)雜的關(guān)系導(dǎo)致了構(gòu)建的難度大大增加。
針對上述挑戰(zhàn),本文在領(lǐng)域?qū)<抑笇?dǎo)下,結(jié)合政治事件的特點,以搜集的近20年兩岸重大政治事件整理為語料庫,設(shè)計了一套事件分類標(biāo)準(zhǔn)和標(biāo)注模板。其中,包括16個事件類別以及針對每個類別所定義的事件觸發(fā)詞和論元;在此基礎(chǔ)上,標(biāo)注了一套適用于政治領(lǐng)域的事理圖譜語料庫,命名為政治事理圖譜(political eventic graph,PEG)。PEG語料庫共包含約1 700個事件及1 500個事件間關(guān)系。此外,本文提出了一套面向政治領(lǐng)域的事理圖譜自動構(gòu)建框架。針對政治領(lǐng)域文本包含大量長句及縮寫的表達(dá)特點,提出了一種融合注意力機(jī)制與字嵌入修正的神經(jīng)網(wǎng)絡(luò),并采用一種BERT+BiLSTM模型框架用于事件抽取及論元抽取。通過實驗驗證,在PEG語料庫上進(jìn)行事件分類與論元分類任務(wù),F(xiàn)1指標(biāo)均有所提高。
為構(gòu)建政治領(lǐng)域的事理圖譜,本文選用了“華夏新聞網(wǎng)(2)http://www.huaxia.com/lasd/twdsj/index.html”上近20年關(guān)于兩岸關(guān)系的政治新聞作為數(shù)據(jù)集。采納領(lǐng)域?qū)<乙庖妼?shù)據(jù)集進(jìn)行標(biāo)注,并設(shè)計了一套針對政治領(lǐng)域事件的標(biāo)注模板。
與Automatic Content Extraction[3]定義的事件標(biāo)注模板相比,該模板在服務(wù)于政治領(lǐng)域的事件抽取方面具有更強(qiáng)的事件覆蓋度和領(lǐng)域?qū)I(yè)性。首先,該模板根據(jù)事件內(nèi)容對16類政治事件進(jìn)行定義,其中包括訪問行為、選舉行為、偵查行為、庭審行為等。其次,由觸發(fā)詞作為定義一個事件的標(biāo)識,通過專家指導(dǎo)和大量文本分析的方式,羅列出各事件類型的主要觸發(fā)詞。最后,針對每類事件的內(nèi)容組成和句式結(jié)構(gòu),提出事件主要論元組成成分,包括主體、客體、時間、地點等特殊要素(3)事件類別屬性是指針對某些特定的事件類型所特有的論元。。綜上,本文提出的政治領(lǐng)域事件標(biāo)注模板主要由事件類型、觸發(fā)詞、論元三部分組成,具體如表1所示。為方便理解,表中提供了對于事件類型的詳細(xì)解釋。
表1 政治領(lǐng)域事件標(biāo)注模板
續(xù)表
本標(biāo)注模板可幫助構(gòu)建政治領(lǐng)域事件抽取任務(wù)的數(shù)據(jù)集,以此輔助后續(xù)事件抽取模型的訓(xùn)練。所提事件標(biāo)注方法也可拓展到其他領(lǐng)域,以豐富訓(xùn)練語料。
為了便于理解,下面就選舉類事件的標(biāo)注進(jìn)行舉例說明。在例句“前民主進(jìn)步黨主席蔡英文宣布參選下屆民進(jìn)黨主席?!敝?,觸發(fā)詞是“參選”,論元包括:(1)主體:選舉人(蔡英文);(2)客體:職位(下屆民進(jìn)黨主席)。
選舉類案件
本文提出了一套面向政治領(lǐng)域事理圖譜的自動構(gòu)建框架。該框架主要由制定標(biāo)注模板、事件抽取、關(guān)系抽取以及圖譜展示等四部分組成。本節(jié)主要介紹其中的兩個核心部分,即事件抽取和關(guān)系抽取。
事件抽取任務(wù)包括觸發(fā)詞抽取和事件論元抽取兩部分,即識別輸入句子中的觸發(fā)詞和判定句中實體是否為某種事件類型的論元。本文主要提出兩種事件抽取任務(wù)模型:①流水線模型(pipeline model):按順序完成觸發(fā)詞抽取模型和論元抽取模型的訓(xùn)練。如本文將事件抽取視為分類任務(wù),使用DMCNN網(wǎng)絡(luò)[4]先進(jìn)行觸發(fā)詞抽取并確定事件類型,再根據(jù)事件類型進(jìn)行該場景下的論元抽取。②聯(lián)合模型(joint model):將任務(wù)整合為結(jié)構(gòu)預(yù)測問題,通過一次模型訓(xùn)練完成觸發(fā)詞及實體論元的抽取。本文采用的聯(lián)合抽取方式相較于流水線方式能夠有效消除誤差傳遞的問題,從而提高模型性能。
與英文分詞使用空格作為天然分隔符不同,中文分詞會因為數(shù)據(jù)預(yù)處理工具的好壞而影響分詞的效果,進(jìn)而導(dǎo)致誤差傳遞,尤其對于具有實際意義的單字的分詞會有很大偏差,從而導(dǎo)致了中文事件抽取任務(wù)的難度更高。在對數(shù)據(jù)集的觀察過程中,我們發(fā)現(xiàn)詞語的單字簡稱問題在政治領(lǐng)域文本中比較普遍,如國家、領(lǐng)導(dǎo)人名稱的簡寫(“中國”簡稱為“中”,“蔡英文”簡稱為“蔡”)。以詞向量為輸入的網(wǎng)絡(luò)模型不能很好地捕捉到文本中每個字符所蘊(yùn)含的語義信息,進(jìn)而影響觸發(fā)詞及論元的識別性能,導(dǎo)致事件抽取的準(zhǔn)確率較低,最終影響事理圖譜的構(gòu)建。
為了解決上述問題,本文在借鑒Lin等人[5]工作的基礎(chǔ)上,引入注意力機(jī)制,并針對政治領(lǐng)域的事件抽取任務(wù)提出了一種融合字向量的深度學(xué)習(xí)網(wǎng)絡(luò)CM-DMCNN(char-modified dynamic multi-pooling CNN),網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。整個網(wǎng)絡(luò)由五部分組成,分別是字表示層、注意力機(jī)制層、動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)層、字修正混合表示層和輸出層。其中,輸入為文本的向量表示,輸出為論元類別。本文引入注意力機(jī)制,用以捕獲長句中觸發(fā)詞與論元間的依賴關(guān)系,以解決CNN無法獲取全局特征的問題。本文采用一種字修正混合表示,以應(yīng)對政治文本中頻繁出現(xiàn)的簡稱現(xiàn)象,即在詞向量基礎(chǔ)上融合了字向量,以便更好地捕捉單字的語義特征。以下對網(wǎng)絡(luò)結(jié)構(gòu)中的每一層進(jìn)行詳細(xì)介紹。
圖2 CM-DMCNN模型網(wǎng)絡(luò)結(jié)構(gòu)
2.1.1 字表示層
不失一般性地,我們令由n個詞組成的輸入句子表示為S={w1,w2…,wn}。通過訓(xùn)練能將詞轉(zhuǎn)化為向量表示的向量矩陣M∈k×|V|,其中k為詞向量維度,V為可變詞表長度,查表得到輸入詞對應(yīng)的k維詞向量xW∈Rk。為了更好地獲取觸發(fā)詞及論元候選詞間的依賴關(guān)系,詞表示ti由三部分組成,即傳統(tǒng)詞向量xW、相對位置向量xP和事件類型向量xE。那么對于第i個詞或字,其表示向量ti如式(1)所示。
這里我們僅以詞表示為例進(jìn)行說明,對于字可以采用相似方式的表示,為了行文方便,我們將字和詞統(tǒng)一表示為token。
2.1.2 注意力機(jī)制層
如前所述,在政治事件文本中普遍存在長句。使得在長句中觸發(fā)詞與論元間隔較長,詞間依賴關(guān)系較弱。因此,我們引入注意力機(jī)制來有針對性地增加某些詞語的權(quán)重,從而獲取間隔較長的詞之間的依賴關(guān)系。計算如式(2)、式(3)所示。
其中,vT,Wa,ba均是模型中需要訓(xùn)練的參數(shù),αi為系數(shù)。為了保留每一個token的語義信息,我們將所有ti與系數(shù)αi相乘所得的向量拼接起來作為本層輸出,即X1:n。
2.1.3 DMCNN層
在卷積層,我們利用CNN進(jìn)一步獲取詞的深層語義特征。具體地,使用大小為h的窗口將ti和ti+h-1經(jīng)過注意力層的輸出Xi和Xi+h-1連接,并分別與各層卷積核進(jìn)行卷積計算,如式(4)所示。
其中,wj為卷積層的第j個卷積核,bj∈R為偏置項,卷積結(jié)果C∈m×(n-h+1)。
為了解決觸發(fā)詞的歧義問題,同時最大程度地保留語義信息,采用動態(tài)多池化方法,在池化層將各層卷積結(jié)果按候選觸發(fā)詞和論元進(jìn)行劃分,對每部分的結(jié)果進(jìn)行池化并將其拼接,以此得到每個token詞級別的特征fword。同理可得字符級別的特征fchar。
2.1.4 混合表示層
本模型借鑒了Lin等人[5]的思想,采用了混合特征表示學(xué)習(xí)方法,在得到詞級別的特征fword和字符級別的特征fchar之后,統(tǒng)一將其轉(zhuǎn)化為維度d′的向量,即f′word和f′char,并使用sigmoid函數(shù)將其混合在一起得到包含更豐富信息的混合特征表示fC。過程如式(5)、式(6)所示。
其中,s為sigmoid函數(shù),WC、UC為權(quán)重矩陣,WC∈Rd′×d′,UC∈Rd′×d′,bC為偏置值,ZC為一個d′維的向量,調(diào)節(jié)f′char、f′word在混合表示fC中的權(quán)重。
2.1.5 輸出層
在得到融合字向量的混合表示fC后,通過一個softmax全連接網(wǎng)絡(luò),得到結(jié)果向量O,其中第i個元素對應(yīng)分類標(biāo)簽i(論元角色),由此得到條件概率P(i|x,θ),如式(7)所示。
其中,m為論元角色的數(shù)目。
本文在訓(xùn)練模型時,選擇交叉熵作為損失函數(shù),如式(8)所示。
其中,m為分類類別的數(shù)量,P(i)為預(yù)測分類標(biāo)簽的概率。
以上CM-DMCNN模型為流水線模型,對于聯(lián)合模型,本文引入預(yù)訓(xùn)練模型BERT,采用BERT+BiLSTM序列標(biāo)注模型應(yīng)用于事件抽取任務(wù)。作為可以同時抽取事件觸發(fā)詞和論元的聯(lián)合模型,該方法可有效減少誤差傳遞。預(yù)訓(xùn)練模型BERT能很好地提取句子中的不同層次的特征關(guān)系,全面反映句法特征,且能獲取更多語義信息,避免歧義問題的出現(xiàn)。在BERT的下游添加RNN網(wǎng)絡(luò)可以很好地補(bǔ)充對于句子序列特征的獲取。針對中文事件抽取問題,之前針對神經(jīng)網(wǎng)絡(luò)方法的一種較好改進(jìn)是加入字向量,而我們使用的BERT預(yù)訓(xùn)練模型對中文并不進(jìn)行分詞,而是將單字作為輸入文本的基本單元,這有效解決了中文事件抽取對于分詞結(jié)果的依賴性和減少了誤差傳遞。模型網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 BERT+BiLSTM模型圖
基于BERT+BiLSTM的聯(lián)合事件抽取框架主要有以下三部分組成。
(1) 基于BERT的詞向量表示層
由于BERT對于中文文本的輸入是以單字為基本單元的,即BERT層的輸入為一句話中的每個字和位置向量,經(jīng)BERT層輸出得到每個字的向量表示xi,輸入文本的表示為X=(x1,x2…xn)。其中,i為字向量的維度,n為輸入文本的字符長度。
(2) 基于BiLSTM的特征捕捉層
將得到的向量表示輸入一個雙向LSTM神經(jīng)網(wǎng)絡(luò),如式(9)所示。
(9)
(3) 輸出層
(10)
其中,f為激活函數(shù),yti為第i個詞的觸發(fā)詞標(biāo)注標(biāo)簽。
在完成觸發(fā)詞的抽取之后,我們將其他實體的表示和觸發(fā)詞聚合在一起后接全連接層來預(yù)測實體在該觸發(fā)詞場景下的論元角色標(biāo)簽,如式(11)所示。
(11)
其中,Ej為實體向量,Ti為已標(biāo)注的候選觸發(fā)詞向量,[Ti,Ej]是將兩個向量拼接,yaij為第j個實體在第i個觸發(fā)詞的場景下是論元的概率。
由于當(dāng)前我們主要聚焦于政治領(lǐng)域事件間的順承、因果兩種關(guān)系,且政治領(lǐng)域的事件間關(guān)系較為隱晦,為了保證準(zhǔn)確率,本文利用基于關(guān)鍵詞匹配的方法來進(jìn)行關(guān)系抽取。
具體地,首先基于已標(biāo)注的事件,根據(jù)其論元信息(如所研究的國家、機(jī)構(gòu)等)與相關(guān)事件進(jìn)行匹配,然后基于關(guān)鍵詞進(jìn)行事件關(guān)系抽取。部分順承及因果關(guān)系的關(guān)鍵詞如表4所示。利用上述框架,我們可以構(gòu)建出面向政治領(lǐng)域的事理圖譜,并在實驗部分展示圖譜示例。
表4 順承、因果關(guān)系關(guān)鍵詞表
我們在PEG語料庫上進(jìn)行了一系列實驗,以驗證面向政治領(lǐng)域事理圖譜構(gòu)建框架的效果。PEG語料庫由約1 000條文本構(gòu)成,共包含16個事件類型,約1 700個政治事件;1 500個事件間關(guān)系,其中因果關(guān)系約300條,其余為順承關(guān)系。將全部文本按照4∶1的比例劃分為訓(xùn)練集和測試集進(jìn)行實驗。
針對事件抽取任務(wù),我們采用CM-DMCNN模型,分別訓(xùn)練了100維的字向量和詞向量,并將二者最大長度設(shè)置為250字和150詞。同時,在模型的動態(tài)卷積池化部分,分別設(shè)置字卷積核以及詞卷積核窗口大小為5和3,以對其進(jìn)行訓(xùn)練。此外,將f′word和f′char均設(shè)置為400維,令dropout=0.5。我們針對觸發(fā)詞識別和論元檢測任務(wù)采用相同設(shè)置,在觸發(fā)詞識別過程中,沒有使用事件類別向量xE。對于BERT+BiLSTM模型,其中使用BERT(base)版本[6],對于BiLSTM層,設(shè)置層數(shù)為1且每層100個神經(jīng)元。令dropout=0.5,batchsize=64,learningrate=5e-5。
為了評估實驗效果,我們采用精確率(Precision)、召回率(Recall)和F1值作為評價指標(biāo),如式(12)所示。
(12)
在實驗中[7],我們對比了CM-DMCNN、BERT+BiLSTM和未使用字向量的Word-DMCNN(Chen等人[4])在事件觸發(fā)詞分類、事件論元分類子任務(wù)上的表現(xiàn),結(jié)果如表5、表6所示。
表5 事件觸發(fā)詞分類結(jié)果
表6 事件論元分類結(jié)果
實驗結(jié)果表明,本文所提模型在觸發(fā)詞分類以及論元分類任務(wù)中均取得了不錯的效果,且其相較于Word-DMCNN在F1上均有較大提升。對于CM-DMCNN,這說明融入字向量和注意力機(jī)制可有效提高政治領(lǐng)域事件抽取的準(zhǔn)確率。事實上,我們在語料庫中發(fā)現(xiàn),政治事件的表述當(dāng)中大量存在單字簡稱,例如“臺當(dāng)局對菲啟動制裁措施”中的“臺”和“菲”二字分別是“臺灣”和“菲律賓”的簡稱。因此,融合字向量的詞嵌入表示可以有效地獲取單字簡稱的語義信息。對于BRRT+BiLSTM,BERT具有強(qiáng)大的特征提取功能,添加的RNN網(wǎng)絡(luò)可以很好地補(bǔ)充對于句子序列特征的獲取。但BERT模型較大,在下游接復(fù)雜神經(jīng)網(wǎng)絡(luò)容易產(chǎn)生嚴(yán)重的過擬合,因此,將下游RNN層數(shù)設(shè)為1層,可有效提高任務(wù)性能。
為了更好地說明如何利用事理圖譜對政治領(lǐng)域事件進(jìn)行分析預(yù)測,我們給出了一個自動構(gòu)建的圖譜示例,如圖4所示。圖中節(jié)點表示某一政治事件,邊表示事件之間的關(guān)系,其中淺色邊表示順承關(guān)系,深色邊表示因果關(guān)系。該圖譜共包含6個節(jié)點,4個因果關(guān)系,1個順承關(guān)系。該圖譜可解釋為,“撤出核電電力供應(yīng)”引發(fā)“大規(guī)模停電事故”,而“大規(guī)模停電事故”“蔡當(dāng)局推進(jìn)年金改革”和“民進(jìn)黨通過‘勞動基準(zhǔn)法’修正草案”這三個事件共同導(dǎo)致了“蔡支持率走低”,而在隨后的九合一選舉中“國民黨人任16席縣市長”。
圖4 圖譜示例
本文的工作重點在于如何構(gòu)建面向政治領(lǐng)域的事理圖譜,因此本節(jié)對事理圖譜的研究現(xiàn)狀及其兩個核心技術(shù)——事件抽取方法與關(guān)系抽取方法的相關(guān)工作進(jìn)行介紹。
事理圖譜最初是由Yang等人[8]提出的。在之后的幾年,業(yè)界在多領(lǐng)域?qū)κ吕韴D譜進(jìn)行研究并積極實踐,在不同應(yīng)用場景構(gòu)建事理圖譜。如丁等人構(gòu)建的(4)http://eeg.8wss.com金融事理圖譜,即通過大規(guī)模的財經(jīng)新聞?wù)Z料抽取金融事件,挖掘事件間因果關(guān)系,并由事件泛化得到不同文本中的共指事件,該圖譜可用以挖掘金融事件間的內(nèi)在關(guān)系。除此之外,在出行、輿情、安全等多個領(lǐng)域,如李等人提出的出行領(lǐng)域事理圖譜、周京艷等人[9]構(gòu)建的面向情報應(yīng)用的事理圖譜,以上圖譜均可用以整合信息,歸納聯(lián)系,幫助用戶及研究人員綜合了解事件信息及掌握事態(tài)發(fā)展規(guī)律。
然而,目前尚缺少面向政治領(lǐng)域事理圖譜的研究。為了填補(bǔ)這一空白,本文設(shè)計了一套政治事件的分類標(biāo)準(zhǔn)和事件標(biāo)注模板,構(gòu)建了一套面向政治領(lǐng)域的事理圖譜。
事件抽取是文本處理領(lǐng)域的一個重要任務(wù),其研究方法大體可以分為兩類——知識驅(qū)動方法和數(shù)據(jù)驅(qū)動方法[10]。知識驅(qū)動的抽取方法主要依賴于人為制定的一些既有規(guī)則,如Yakushiji等人[11]提出了使用規(guī)則匹配并結(jié)合語法樹抽取事件樣本,再抽象生成生物醫(yī)療領(lǐng)域的事件模板。知識驅(qū)動的方法在準(zhǔn)確率上有著不錯的表現(xiàn),但是由于過分依賴現(xiàn)有知識,因此其難以擴(kuò)展。數(shù)據(jù)驅(qū)動方法的核心思想是將機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的算法用于事件抽取。Li等人[12]提出借鑒命名實體識別的序列化標(biāo)注思想,結(jié)合Zhao[13]提出的結(jié)構(gòu)化的感知機(jī)(structured perceptron)來對事件進(jìn)行抽取。即對輸入句子中的每一個詞語,人為地構(gòu)造大量特征,例如該詞的近義詞、詞根、該詞是否為非指稱代詞等。然后將上述特征輸入到感知機(jī)中進(jìn)行事件預(yù)測。上述基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法仍然需要人為構(gòu)造大量特征,于是Nguyen等人[14]引入神經(jīng)網(wǎng)絡(luò),通過自動提取特征來對事件進(jìn)行抽取,但該方法無法有效解決事件抽取中論元的歧義性問題。Chen等人[4]提出將動態(tài)池化卷積神經(jīng)網(wǎng)絡(luò)(DMCNN)應(yīng)用到事件抽取中,該方法能夠有效地識別同一詞語在不同事件中所扮演的角色。實驗結(jié)果表明,DMCNN在處理多角色問題上表現(xiàn)出色。針對中文表達(dá)特點,Lin等人[5]通過融合字嵌入的方法有效地提高了事件抽取效果。本文旨在抽取政治領(lǐng)域事件,而該領(lǐng)域文本包含大量長句及縮寫,因此本文在文獻(xiàn)[5]的基礎(chǔ)上,進(jìn)一步融合了注意力機(jī)制,將其應(yīng)用于事件抽取以及論元抽取中,有效提高了面向政治領(lǐng)域的事件抽取的準(zhǔn)確率。
關(guān)系抽取任務(wù)通常基于以下兩種方法完成:基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。楊健[15]基于事件元素的語義信息,構(gòu)建事件以及事件元素間的語義關(guān)聯(lián)性,對候選事件進(jìn)行因果關(guān)系的識別。干紅華等人[16]提出了一種基于結(jié)構(gòu)分析的事件因果關(guān)系抽取方法。Marcu等人[17]采用樸素貝葉斯模型,通過分析相鄰句子間的詞對概率來抽取因果關(guān)系。Sorgente等人[18]首先通過定制的規(guī)則抽取事件因果關(guān)系,然后通過貝葉斯推理優(yōu)化結(jié)果。本文由于受限于數(shù)據(jù)集規(guī)模,主要采用了基于關(guān)鍵詞匹配的方法進(jìn)行關(guān)系抽取。
本文旨在構(gòu)建面向政治領(lǐng)域的事理圖譜。為此,我們搜集了近20年的兩岸重大政治事件,設(shè)計了一套事件分類標(biāo)準(zhǔn)和標(biāo)注模板,標(biāo)注了一套適用于政治領(lǐng)域的事理圖譜語料庫。同時,本文提出了一套面向政治領(lǐng)域的事理圖譜自動構(gòu)建框架。具體地,針對政治領(lǐng)域文本包含大量長句及縮寫的表達(dá)特點,分別提出了一種融合注意力機(jī)制與字嵌入修正的神經(jīng)網(wǎng)絡(luò)CM-DMCNN和一種BERT+BiLSTM模型框架用于事件抽取及論元抽取。通過在PEG數(shù)據(jù)集上進(jìn)行實驗驗證,在事件分類與論元分類任務(wù)中,F(xiàn)1指標(biāo)與基準(zhǔn)模型相比均有了較大提升。
未來工作將主要集中在以下兩個方面。
第一,擴(kuò)大數(shù)據(jù)規(guī)模。本文主要使用與“兩岸關(guān)系”相關(guān)的新聞事件作為數(shù)據(jù)集,未來我們將擴(kuò)展政治研究領(lǐng)域,以進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模。
第二,豐富事件間的關(guān)系類型。目前,本文僅對因果和順承兩種事件間的關(guān)系進(jìn)行研究,并不能完全覆蓋政治事件間的復(fù)雜關(guān)系。未來我們將引入更多關(guān)系類型的事件,以豐富構(gòu)建的事理圖譜的信息,促進(jìn)相關(guān)領(lǐng)域研究。