黨雪云,王 劍*
(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2.云南省人工智能重點實驗室,云南 昆明 650500)
新聞要素關(guān)系抽取可以看作實體關(guān)系抽取(Relation Extraction,RE)任務(wù)。實體關(guān)系抽取是指抽取兩個實體之間可能存在的語義關(guān)系,是信息抽取、構(gòu)建問答系統(tǒng)的關(guān)鍵基礎(chǔ)任務(wù)之一。以涉案輿情新聞為例,法院與人之間包含“審判”關(guān)系,人與罪名之間包含“涉嫌罪名”關(guān)系,原告和被告之間包含“涉事雙方”關(guān)系等,從新聞中自動抽取這些關(guān)系,對于人們快速理解輿情信息起著重要作用。當(dāng)前,篇章級的要素關(guān)系抽取任務(wù)面臨標(biāo)注數(shù)據(jù)較少、任務(wù)復(fù)雜度更高的問題,導(dǎo)致抽取效果不佳,是一個值得研究的方向?,F(xiàn)有的關(guān)系抽取方法主要側(cè)重于從單個句子中抽取要素關(guān)系,通過對大量新聞文本進行分析會發(fā)現(xiàn)很多實體關(guān)系常??缇渥哟嬖?,如圖1 所示,通過整篇文本可分析出“品某良”和“張某雷”兩者都是案件當(dāng)事人,明顯存在關(guān)系,但僅從其中某一個句子并不能抽取兩者之間存在的關(guān)系,因為二者沒有在同一句子同時出現(xiàn)過。通過對文章中多個句子中的要素關(guān)系進行分析,結(jié)合上下文語義,才能推斷出兩者之間存在的關(guān)系。因此,本文提出一種通過異構(gòu)圖模型融合多個句子的鄰接關(guān)系、從屬關(guān)系、句法依賴關(guān)系、要素間的多跳關(guān)系等多種特征的方法,通過挖掘篇章級文本中潛在的上下文信息,提升跨句子要素關(guān)系抽取的準(zhǔn)確率和性能。
圖1 篇章級要素關(guān)系問題分析
目前,按照訓(xùn)練文本的類型,關(guān)系抽取任務(wù)可以分為句子級關(guān)系抽取和篇章級關(guān)系抽取兩大類,本文主要針對篇章級的要素關(guān)系抽取任務(wù)。篇章級關(guān)系抽取的目的主要是識別出整篇文章中要素之間的關(guān)系,包括單個句子中存在的實體關(guān)系,也包括跨多個句子存在的要素關(guān)系。根據(jù)輸入文本的結(jié)構(gòu),可以將篇章級的實體關(guān)系抽取方法分為基于序列的篇章級實體關(guān)系抽取模型和基于圖的篇章級實體關(guān)系抽取模型兩類。
基于序列的篇章級實體關(guān)系抽取模型利用不同的序列編碼獲得詞語表示,之后通過平均池化、注意力池化等各種池化操作計算實體關(guān)系的表示。ZENG等人[1]使用卷積神經(jīng)網(wǎng)絡(luò)進行正則化的研究,利用外部知識資源如WordNet、位置相關(guān)特征、詞對信息以及詞匯特征集等特征拼接為特征向量作為輸入,進行關(guān)系分類;WANG 等人[2]在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)上引入了一種新的多級注意力機制來捕獲特定于要素的注意力和特定于目標(biāo)關(guān)系的注意力,使其能夠檢測到更微妙的線索以自動學(xué)習(xí)與關(guān)系分類相關(guān)的部分;HE 等人[3]提出了一種帶有注意力機制的長短期記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò),該方法避免了標(biāo)注數(shù)據(jù)存在誤報,在提取過程中不采用人為設(shè)計的規(guī)則來提升效率,因此本研究利用詞級別的注意特征提取關(guān)系,結(jié)合實例級別的注意機制處理數(shù)據(jù)中的誤報問題;MIWA 等人[4]討論的一種方法使用了雙向LSTM,將實體識別視為序列標(biāo)注問題,模型嵌入層主要處理單詞、依賴類型、詞性標(biāo)簽及要素標(biāo)簽的嵌入,序列層主要用于單詞在句子中的順序信息,下一層通過一個神經(jīng)網(wǎng)絡(luò),從左向右以一種貪心的策略分配要素標(biāo)簽,最后一個單詞的標(biāo)簽用來預(yù)測當(dāng)前的單詞標(biāo)簽,最后一層提取預(yù)測到的要素之間的關(guān)系;GAO 等人[5]提出了神經(jīng)雪球的方法,只需要使用少數(shù)的新關(guān)系樣例,便可利用現(xiàn)有關(guān)系的先驗知識從未標(biāo)注數(shù)據(jù)中迭代地積累新的實例和事實,從而訓(xùn)練一個較好的神經(jīng)關(guān)系分類器,實驗結(jié)果進一步表明了其模型的效率和魯棒性。
為了進一步捕獲長期依賴關(guān)系,基于圖的實體關(guān)系抽取模型被提出,通過構(gòu)造圖結(jié)構(gòu),距離較遠(yuǎn)的單詞或者要素均可以成為相鄰節(jié)點。相對序列編碼器而言,圖編碼器可以聚合來自所有鄰居節(jié)點的信息以捕獲更長的依賴關(guān)系。ZENG[6]等人為了更好地處理篇章級關(guān)系抽取任務(wù),提出一種雙圖模型,引入了一種要素級別的異構(gòu)圖和一種圖神經(jīng)網(wǎng)絡(luò)來模擬文章中不同要素之間的交互,他們還引入了要素級圖并提出了一種新的路徑推理機制,用于要素之間的關(guān)系推理;CHRISTOPOULOU[7]等人提出一種新的面向邊的圖神經(jīng)網(wǎng)絡(luò)模型用于篇章級關(guān)系抽取,該模型不同于現(xiàn)有模型,它專注于構(gòu)建獨特的節(jié)點和邊,將信息編碼為邊表示而不是節(jié)點表示;ZHANG[8]等人提出一種新穎的篇章級關(guān)系抽取模型,該模型構(gòu)建雙層異構(gòu)圖用于連續(xù)建模文章結(jié)構(gòu)并實現(xiàn)關(guān)系推理;YANG[9]等人針對關(guān)系抽取提出了兩種樹結(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò)的改進策略,一種策略是集成層次化注意力機制和主體、對象之間的相關(guān)性分析分別生成句子和要素向量,另一種策略合并命名實體識別子網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)樹結(jié)構(gòu),以實現(xiàn)關(guān)系抽取和要素抽取的聯(lián)合學(xué)習(xí)。
本文將篇章級的實體關(guān)系抽取任務(wù)定義如下:給定一篇標(biāo)注文章,實體集合為,其中表示第i個句子中有個單詞,而表示第i個實體中有個單詞,最終的目標(biāo)是預(yù)測每個實體對之間的所有句內(nèi)和句間關(guān)系。經(jīng)過對長文本的大量分析發(fā)現(xiàn),許多要素關(guān)系其實是跨多個句子存在的,所以篇章級的關(guān)系抽取任務(wù)比傳統(tǒng)的句子級的關(guān)系抽取任務(wù)要更復(fù)雜,篇章級的關(guān)系抽取模型需要較強的語義建模能力和關(guān)系推理能力。
圖2 是本文關(guān)系抽取模型的系統(tǒng)架構(gòu)圖。該模型主要分為五層:輸入層主要負(fù)責(zé)將輸入的詞進行向量化表征,文本編碼層是任意的序列編碼器,用于為每個單詞生成上下文表示;結(jié)構(gòu)化建模層負(fù)責(zé)建模文本中固有的結(jié)構(gòu)信息,包括文本的鄰接關(guān)系、從屬關(guān)系以及句法依賴關(guān)系;關(guān)系推理層負(fù)責(zé)捕獲文本中要素間的多跳關(guān)系,最后是輸出層,負(fù)責(zé)輸出可能存在的要素關(guān)系,相當(dāng)于一個多標(biāo)簽分類層。
圖2 雙層異構(gòu)圖模型
輸入層負(fù)責(zé)對單詞的語義信息、擴充信息進行編碼并嵌入到單詞的輸入特征中。具體來說,就是先使用dw維的詞向量wi來表征文本的上下文語義信息,再增加要素的類型表征ti用于表征每個要素的類型信息;其次,增加指代特征ci用于標(biāo)記指代詞所屬的要素,幫助模型獲取要素共指的信息;最后將這三種表征拼接起來構(gòu)成輸入特征xi=[wi;ti;ci]∈,其中[·;·]表示向量拼接的操作,dx=dw+dt+dc。
文本編碼層負(fù)責(zé)捕獲單詞的上下文信息。具體來講,把整篇文章看作一個包含n個單詞的長序列,然后使用序列編碼器雙向LSTM 來編碼長序列中每個單詞的上下文信息。若將LSTM 單元對xi的操作表示為LSTM(xi),則該單詞的上下文語義信息可以表示為:
式中:hi和F是一個線性函數(shù),dh表示LSTM 單元的隱藏層的維度。通過這種方式,可以捕獲特定時間單詞的前向狀態(tài)和后向狀態(tài)的特征表示,最后使用HW={h1,h2,…,hn}作為輸入序列的表征向量。
結(jié)構(gòu)化建模層將文本序列的每一個句子、每一個單詞均視為圖中的一個節(jié)點。通常,一篇文章由多個句子組成,一個句子由多個單詞組成,所以本文采用以下5 種類型的邊來建模文章內(nèi)在結(jié)構(gòu)信息:
(1)字-字鄰接邊,在文章每兩個相鄰的字節(jié)點之間建立一條邊,以保持文章中每個字的自然順序結(jié)構(gòu);
(2)句子-句子鄰接邊,在文章每兩個相鄰句子節(jié)點之間建立一條邊,以保持文章中句子間的自然順序結(jié)構(gòu);
(3)句子-句子補全邊,將文章中沒有相鄰的句子節(jié)點之間連接一條邊,以增強圖結(jié)構(gòu)的連通性;
(4)詞-詞依賴關(guān)系邊,為了對語法結(jié)構(gòu)進行編碼,如果兩個單詞節(jié)點在句子級的依存關(guān)系樹中相鄰的話,則在它們之間連一條邊;
(5)詞-句子關(guān)聯(lián)邊,為了建模文章的層次結(jié)構(gòu),將單詞節(jié)點和它們所在的句子節(jié)點之間連一條邊。
結(jié)構(gòu)化建模層直接利用文本編碼層的輸出作為單詞節(jié)點的初始化特征,對每個句子中的所有單詞節(jié)點進行最大池化操作得到句子節(jié)點的表示,即,最后,然后利用圖神經(jīng)網(wǎng)絡(luò)中常用的消息傳播策略更新單詞和句子節(jié)點的表示:
式中:Hs={s1,…,sNs}指一篇文章中所有句子節(jié)點表征的集合,HW是輸入序列的詞表征,WR(·)表示圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的消息傳播機制。最后對于每個單詞節(jié)點,將其在WR之前和之后的特征拼接起來作為輸出的表示,這種表示方式結(jié)合了詞節(jié)點和句子節(jié)點的順序特征和結(jié)構(gòu)特征,為下一步推理提供基礎(chǔ)。
關(guān)系推理層中將要素提及及要素當(dāng)作圖中的節(jié)點,建立如下4 種類型的邊:
(1)提及共現(xiàn)邊,在同一句中的兩個提及或要素之間建立一條邊,用于表征句內(nèi)關(guān)系;
(2)提及共指邊,如果兩個提及節(jié)點指向同一個實體,則在它們之間連一條邊,用于表征句內(nèi)關(guān)系;
(3)提及要素關(guān)聯(lián)邊,如果提及指向某要素,則在它們之間連一條邊,用于傳遞提及層面的消息到要素層面;
(4)要素-要素互補邊,將所有要素兩兩之間連一條邊,用于防止出現(xiàn)不連通圖,增強多跳關(guān)系。
具體來講,對于文本中第s個單詞到第t個單詞組成的提及m,將其表征初始化為m=1/[(s-t+1),則一個要素e的表征可以表示為其所有提及表征的平均值,即e=(∑jmj)/(nm),與結(jié)構(gòu)化建模層中的消息傳播機制類似,,其中HM和HE分別指提及節(jié)點和要素節(jié)點的表征集合,經(jīng)過L次的消息傳遞之后,便能得到所有節(jié)點的最終表征。
將關(guān)系預(yù)測看作一個多標(biāo)簽分類問題,對于每個要素對(ei,ej),將這些要素特征和相對距離表征向量拼接起來,并使用一個雙線性函數(shù)來計算每個關(guān)系的概率:
本文使用的新聞要素關(guān)系語料集一共包含1 200 篇新聞文本數(shù)據(jù),共4 類關(guān)系。其中,涉案人員-涉案人員關(guān)系共2 352 組,涉案人員-受理法院關(guān)系共1 348 組,涉案人員-涉嫌罪名關(guān)系共1 732 組,受理法院-判處罪名關(guān)系共1 285 組,具體信息如表1 所示。
表1 涉案輿情篇章級要素關(guān)系抽取語料庫信息
實驗采用128 維的詞向量對輸入文本進行初始化,得到其向量化表示。訓(xùn)練時,Dropout 設(shè)置為0.8,學(xué)習(xí)率lr 設(shè)置為0.01,訓(xùn)練輪次epoch 設(shè)置為200,batch_size 設(shè)置為10,優(yōu)化器使用SGD。
本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-Measure,F(xiàn)1)作為評價指標(biāo),其計算公式如下:
式中:TP表示把正例預(yù)測為正的概率,F(xiàn)P表示把負(fù)例預(yù)測為正的概率,F(xiàn)N表示把正例預(yù)測成負(fù)的概率。
本文采用如下3 個基準(zhǔn)模型:ME-CNN 模型[10]使用具有語言特征的最大熵模型、具有多級語義特征的卷積神經(jīng)網(wǎng)絡(luò)分別用于提取句間要素關(guān)系和句內(nèi)要素關(guān)系,并在訓(xùn)練階段考慮要素之間的上位詞關(guān)系以構(gòu)建更精確的訓(xùn)練實例;RPCNN 模型[11]提出一個將領(lǐng)域知識、注意力機制、分段池化以及多實例學(xué)習(xí)策略結(jié)合的篇章級循環(huán)分段卷積神經(jīng)網(wǎng)絡(luò);GCNN 模型[12]提出了一種使用圖卷積神經(jīng)網(wǎng)絡(luò)來捕獲本地和非本地依賴關(guān)系的句間關(guān)系抽取模型,在篇章級的圖上構(gòu)建了一個帶標(biāo)簽邊的圖卷積神經(jīng)網(wǎng)絡(luò),這也是在篇章級關(guān)系抽取中利用圖神經(jīng)網(wǎng)絡(luò)的首次嘗試。實驗結(jié)果如表2 所示,本文模型與其他模型相比,F(xiàn)1 值有0.46~4.09 個百分點的提升;對比ME-CNN 和RPCNN,實驗結(jié)果表明圖神經(jīng)網(wǎng)絡(luò)模型的確具有一定的優(yōu)越性;對比GCNN,結(jié)果表明了雙層異構(gòu)圖在要素關(guān)系抽取任務(wù)上的多跳推理能力。
表2 本文模型與基準(zhǔn)模型實驗對比結(jié)果
本文還進行了消融實驗,逐一去掉模型中不同類型的邊特征進行實驗,實驗結(jié)果如表3 所示。
表3 消融實驗結(jié)果
分析表3 的結(jié)果可知,字字鄰接邊表征了文章中每個字的自然順序,對模型的準(zhǔn)確率做出了較大貢獻;詞句關(guān)聯(lián)邊對模型的層次進行建模,有效提高了模型的性能;句子-句子鄰接邊保證了句子的順序結(jié)構(gòu),也增強了模型的準(zhǔn)確性;提及共現(xiàn)邊捕捉了提及之間的全局關(guān)系;提及實體關(guān)聯(lián)邊傳遞提及和實體間的關(guān)系。這些邊的建立提高了模型的整體性能。
本文針對新聞要素關(guān)系抽取任務(wù),通過對新聞文本中的詞、句子作為圖節(jié)點建模,根據(jù)節(jié)點間的位置及語義關(guān)系精心設(shè)計多種邊特征,捕獲了文本的序列、語法、層次等固有結(jié)構(gòu)信息,并利用圖模型的多跳推理能力,對新聞文本上下文信息進行有效的表征,最終篇章級要素關(guān)系抽取的性能得到了較好的提升。