艾鑫
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著互聯(lián)網(wǎng)的快速發(fā)展,在信息爆炸式增長的今天,如何高效獲取所需信息是一個熱門研究問題,信息抽取技術(shù)應(yīng)運(yùn)而生[1]。實(shí)體識別和關(guān)系抽取是信息抽取中的兩個子任務(wù),實(shí)體識別是指從文本中識別出專有名稱和有意義的數(shù)量短語并加以歸類[2],而關(guān)系抽取在此基礎(chǔ)上進(jìn)行,目的是識別實(shí)體對之間存在的語義關(guān)系。例如:“中國的首都是北京”,首先識別文本中的實(shí)體:“北京”、“中國”,然后識別實(shí)體間關(guān)系,通常使用<主體,關(guān)系,客體>三元組表示,如<中國,首都,北京>。為了便于敘述,本文統(tǒng)稱三元組中的客體和主體為關(guān)系的論元。實(shí)體關(guān)系抽取是構(gòu)建知識庫和知識圖譜的基礎(chǔ),并且為問答系統(tǒng)、智能檢索等下游應(yīng)用提供支持,其意義不言而喻。
為了從文本中抽取關(guān)系三元組,Zelenko等[3]采用了一種流水線方法,即先進(jìn)行實(shí)體識別,然后對已經(jīng)抽取出的實(shí)體進(jìn)行關(guān)系預(yù)測。但是,這種方法存在兩個缺點(diǎn):1)錯誤傳播;2)忽略了實(shí)體識別和關(guān)系抽取的內(nèi)在聯(lián)系。因此,研究者提出了聯(lián)合抽取方法。初期的聯(lián)合抽取工作多數(shù)基于人工構(gòu)造特征[4-5],特征提取耗時耗力。隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取工作占據(jù)主流。如:Miwa等[6]、Gupta等[7]把使用神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的聯(lián)合抽取、Zheng等[8]提出了一個新標(biāo)注模式并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行序列標(biāo)注。
目前基于深度學(xué)習(xí)的聯(lián)合抽取方法大致可以分為兩類:一是通過聯(lián)合訓(xùn)練的方式,讓兩個子任務(wù)共享部分參數(shù),如:Miwa等[6]首次提出端到端抽取的神經(jīng)網(wǎng)絡(luò)模型;二是采用聯(lián)合建模的方式,直接對關(guān)系三元組進(jìn)行建模,如:Zheng等[8]新標(biāo)注模式(NovelTaging)、Zeng等[9]拷貝生成模型(CopyRE)。以下對這兩類模型中幾個具有代表性的工作進(jìn)行詳細(xì)闡述。
Miwa等[4]在2016年首次將神經(jīng)網(wǎng)絡(luò)的應(yīng)用于實(shí)體和關(guān)系的聯(lián)合抽取,如圖1所示。模型大致可分為三部分:編碼層、實(shí)體識別層、關(guān)系抽取層。編碼層使用的是一個雙向的循環(huán)神經(jīng)網(wǎng)絡(luò),可以讓每個時刻的隱藏表達(dá)同時編碼前后文的信息。另外,模型還將每個詞的詞性信息也編碼到隱藏狀態(tài)中。對文本編碼完成后,即可進(jìn)行實(shí)體識別。該模型把實(shí)體識別看作是一個序列標(biāo)注任務(wù),使用編碼層的輸出生成實(shí)體標(biāo)簽序列。最后,在實(shí)體識別的基礎(chǔ)上,模型將實(shí)體進(jìn)行兩兩配對,輸出最終的關(guān)系抽取結(jié)果。為了提高關(guān)系抽取的準(zhǔn)確度,該模型引入了依存語法信息,并使用一個雙向的樹神經(jīng)網(wǎng)絡(luò)(Bi-Tree LSTM)編碼兩個實(shí)體間的最短依存路徑。從嚴(yán)格意義上講,這并不是一個聯(lián)合抽取模型,兩個子任務(wù)依然是分開決策的,只是通過共享底層編碼信息來捕捉任務(wù)間的關(guān)聯(lián)。但是該模型最早把深度學(xué)習(xí)應(yīng)用于聯(lián)合抽取,為之后的聯(lián)合建模等工作奠定基礎(chǔ)?;谠撃P瓦@種架構(gòu)的工作還有許多,特點(diǎn)是共享參數(shù),但是兩個子任務(wù)分開決策,如:Li等[10]、Katiyar等[11]、Giannis等[12]。
圖1 聯(lián)合訓(xùn)練模型圖
Zheng等[5]直接對三元組建模,提出了NovelTag?ging方法,這是第一個真正意義上的聯(lián)合建模(抽?。┕ぷ?。Zheng等把實(shí)體和關(guān)系的聯(lián)合抽取轉(zhuǎn)換為序列標(biāo)注問題,通過一套精心設(shè)計(jì)的標(biāo)簽體系,同時表達(dá)實(shí)體信息和語義關(guān)系,其模型如圖2所示。模型架構(gòu)和普通的序列標(biāo)注模型基本一致,主要分為:編碼層、解碼層。編碼層是一個Bi-LSTM,解碼層是一個LSTM,輸出的是一個實(shí)體關(guān)系標(biāo)簽序列。關(guān)系標(biāo)簽可以分為三部分:實(shí)體邊界、語義關(guān)系、主體客體(實(shí)體一或?qū)嶓w二),非關(guān)系標(biāo)簽“O”表示不存在語義關(guān)系。該模型輸出的不是完整的關(guān)系三元組,最終還需要將同一個關(guān)系對應(yīng)的實(shí)體一和實(shí)體二組合起來才完整。但是這一過程卻存在一個問題,如果文本中同一個關(guān)系出現(xiàn)兩次,此時無法對關(guān)系標(biāo)簽進(jìn)行準(zhǔn)確配對。雖然作者提出一個就近原則,但這無疑是不準(zhǔn)確的。另外,該模型對每個詞只打一個標(biāo)簽,而現(xiàn)實(shí)情況是實(shí)體可能會參與多種關(guān)系。NovelTagging是第一個聯(lián)合建模工作,但是存在關(guān)系標(biāo)簽配對、實(shí)體無法參與多關(guān)系的問題。
圖2 NovelTagging模型圖
通常實(shí)體可能會參與多種關(guān)系,即存在三元組重疊現(xiàn)象,如:A、B、C三個實(shí)體,可能AB、AC都存在某種語義關(guān)系。Zheng的標(biāo)注模式無法處理三元組重疊,因此Zeng等[9]于2018年提出拷貝生成模型。Zeng等將三元組抽取任務(wù)規(guī)約為序列生成問題,即輸入一段文本,然后輸出完整的關(guān)系三元組序列。模型架構(gòu)和一般的序列框架類似,主要由編碼器和解碼器組成。編碼器使用的是Bi-LSTM,每個時刻的輸出代表每個詞的隱藏狀態(tài)。解碼器使用的是一個單向的LSTM,每個時刻的輸出代表關(guān)系三元組的一個部分(關(guān)系或?qū)嶓w)。這個生成過程和普通的生成過程有些不同,三元組中的關(guān)系采用生成的方式,而兩個實(shí)體則采用拷貝的方式(實(shí)體必定存在于原文本中)。模型的解碼過程以三為周期循環(huán)執(zhí)行,先解碼生成關(guān)系,然后根據(jù)關(guān)系分別拷貝實(shí)體一、實(shí)體二,直到生成表示結(jié)束的關(guān)系三元組<NA,NA,NA>。Zeng的模型基本解決了標(biāo)注模式所存在的不足,應(yīng)該算是比較完整的聯(lián)合抽取工作,但是卻存在一個明顯缺陷,不能識別實(shí)體的邊界。在這個工作中,實(shí)體是用單個詞表示的,由多個詞組成的實(shí)體取最后一個詞。
隨后又有不少工作針對拷貝生成模型進(jìn)行改進(jìn),Takanobu等[13]于2019年提出了一個基于強(qiáng)化學(xué)習(xí)的層級網(wǎng)絡(luò)模型(Hierarchical Framework with Reinforce?ment Learning,HRL)。HRL模型分為上下兩層,上層為關(guān)系識別層,下層為實(shí)體標(biāo)注層。對于關(guān)系識別,Takanobu提出了一個關(guān)系指示器概念(Relation Indica?tor),即文本中某個可指示語義關(guān)系的位置,關(guān)系指示器可能是詞或者標(biāo)點(diǎn)符號等,與關(guān)系觸發(fā)詞有所不同。但是,關(guān)系數(shù)據(jù)集不存在這樣的標(biāo)注,而如果采用人工標(biāo)注,費(fèi)時費(fèi)力。因此,作者采用了強(qiáng)化學(xué)習(xí)的方式。在關(guān)系識別過程中,代理(Agent)根據(jù)歷史狀態(tài)信息判斷每個位置是否產(chǎn)生關(guān)系,動作空間為{NR}∪R,NR表示沒有關(guān)系,R表示關(guān)系類型集合,如果存在某種關(guān)系則帶著當(dāng)前狀態(tài)轉(zhuǎn)到實(shí)體識別層。實(shí)體識別層也是采用強(qiáng)化學(xué)習(xí)的方式,動作空間為({S,T,O}×{B,I})∪{N},S、T分別表示參與關(guān)系的主體、客體,O表示普通實(shí)體(沒有參與當(dāng)前關(guān)系),B、I表示實(shí)體邊界,N表示普通詞。當(dāng)實(shí)體識別完畢后,下層會把狀態(tài)傳回上層,繼續(xù)進(jìn)行關(guān)系識別。這個工作較好地解決了實(shí)體邊界問題,但是強(qiáng)化學(xué)習(xí)并不穩(wěn)定,實(shí)驗(yàn)結(jié)果難以重現(xiàn)。
關(guān)系抽取的數(shù)據(jù)集根據(jù)標(biāo)注方式,可分為兩類。一類是Miwa等[6]使用的人工標(biāo)注的數(shù)據(jù)集,如:ACE(Automatic Content Extraction)[14]數(shù)據(jù)集。另一類則是Zheng等[8]使用的遠(yuǎn)監(jiān)督[15]產(chǎn)生的數(shù)據(jù)集,如:紐約時代(New York Times,NYT)數(shù)據(jù)集。
關(guān)系抽取任務(wù)最初是由美國國防高級研究計(jì)劃委員會(Defense Advanced Research Projects Agency,DAR?PA)資助的MUC(Message Understanding Conference)[16]會議于1988年首次正式提出的,其發(fā)展最初由MUC[16]評測會議所推動,后來NIST舉辦的ACE替代了該會議。ACE會議每年都會發(fā)布與信息抽取相關(guān)的任務(wù),主要包括命名實(shí)體識別、關(guān)系抽取等。ACE數(shù)據(jù)集便來源于此,該數(shù)據(jù)集是由人手工標(biāo)注的,其中包含了會議定義的3大類和6子類實(shí)體關(guān)系。
NYT數(shù)據(jù)集是通過遠(yuǎn)程標(biāo)注產(chǎn)生的。該數(shù)據(jù)集使用1987-2007年紐約時代新聞文章作為語料,并從中采樣出118萬個句子作為樣例進(jìn)行標(biāo)注。目前該數(shù)據(jù)集有兩個版本,一個是由Riedel等[17]發(fā)布,包含了29種有效關(guān)系以及74345個句子,而另一個相對較小的NYT11則由Ren等[18]發(fā)布,包含了24種有效關(guān)系。遠(yuǎn)監(jiān)督產(chǎn)生的數(shù)據(jù)集包含大量噪聲,但是在實(shí)驗(yàn)過程中,多數(shù)工作把該數(shù)據(jù)集直接作為有監(jiān)督標(biāo)注數(shù)據(jù),不考慮噪聲影響,而目前也有些工作在研究如何對數(shù)據(jù)集進(jìn)行去噪或者容噪處理。Zeng等[9]還在實(shí)驗(yàn)中使用了網(wǎng)絡(luò)自然文本生成(Web Natural Language Generation,WebNLG)數(shù)據(jù)集[19],這個數(shù)據(jù)集是用來測試模型的生成能力的,在關(guān)系抽取中的任務(wù)中并不常用。
實(shí)體和關(guān)系的聯(lián)合抽取是近年來一個熱門研究問題,自Miwa等[6]首次將神經(jīng)網(wǎng)絡(luò)引入聯(lián)合抽取后,該任務(wù)在后續(xù)幾年里有了較大提高,但是目前這塊的研究依然存在一些問題。一個是聯(lián)合建模(或者聯(lián)合解碼),一些工作雖然自稱為”聯(lián)合建?!?,其實(shí)不然,兩個子任務(wù)是分開決策的,無法避免錯誤傳播問題,Zheng等[8]是較早采用聯(lián)合建模的工作,隨后的一些工作在聯(lián)合建模方面仍存在爭議。另一個問題是數(shù)據(jù)問題,深度學(xué)習(xí),特別是有監(jiān)督學(xué)習(xí),依賴于大量且高質(zhì)量的標(biāo)注數(shù)據(jù),但是目前并沒有這樣一個大型數(shù)據(jù)集。而且,Zeng等[9]研究提出的三元組重疊問題,在傳統(tǒng)的關(guān)系數(shù)據(jù)集(ACE)中出現(xiàn)較少,因而只能采用遠(yuǎn)監(jiān)督標(biāo)注的數(shù)據(jù)集(利用知識庫可以對句子進(jìn)行更全面的標(biāo)注),但該數(shù)據(jù)集噪聲較大。
因此,未來的工作一方面應(yīng)該是繼續(xù)探索聯(lián)合建模的方式以及優(yōu)化模型結(jié)構(gòu),聯(lián)合決策應(yīng)該是未來工作的重點(diǎn)。另一方面則是對遠(yuǎn)監(jiān)督關(guān)系數(shù)據(jù)集的去噪研究,畢竟遠(yuǎn)監(jiān)督能利用已有的知識庫進(jìn)行大規(guī)模標(biāo)注,雖然該數(shù)據(jù)可能會包含大量噪聲數(shù)據(jù),但是如果能將噪聲程度控制在較低水平,再依靠深度學(xué)習(xí)的容噪能力,聯(lián)合抽取工作將迎來進(jìn)一步的發(fā)展。