陳佳灃 滕沖
摘 要:針對現(xiàn)有的基于遠(yuǎn)程監(jiān)督的實(shí)體和關(guān)系抽取方法存在著標(biāo)簽噪聲問題,提出了一種基于強(qiáng)化學(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取方法。該模型有兩個模塊:句子選擇器模塊和實(shí)體關(guān)系聯(lián)合抽取模塊。首先,句子選擇器模塊選擇沒有標(biāo)簽噪聲的高質(zhì)量句子,將所選句子輸入到實(shí)體關(guān)系聯(lián)合抽取模型;然后,實(shí)體關(guān)系聯(lián)合抽取模塊采用序列標(biāo)注方法對輸入的句子進(jìn)行預(yù)測,并向句子選擇器模塊提供反饋,指導(dǎo)句子選擇器模塊挑選高質(zhì)量的句子;最后,句子選擇器模塊和實(shí)體關(guān)系聯(lián)合抽取模塊同時訓(xùn)練,將句子選擇與序列標(biāo)注一起優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該模型在實(shí)體關(guān)系聯(lián)合抽取中的F1值為47.3%,與CoType為代表的聯(lián)合抽取模型相比,所提模型的F1值提升了1%;與LINE為代表的串行模型相比,所提模型的F1值提升了14%。結(jié)果表明強(qiáng)化學(xué)習(xí)結(jié)合實(shí)體關(guān)系聯(lián)合抽取模型能夠有效地提高序列標(biāo)注模型的F1值,其中句子選擇器能有效地處理數(shù)據(jù)的噪聲。
Abstract: Existing entity and relation extraction methods that rely on distant supervision suffer from noisy labeling problem. A model for joint entity and relation extraction from noisy data based on reinforcement learning was proposed to reduce the impact of noise data. There were two modules in the model: an sentence selector module and a sequence labeling module. Firstly, high-quality sentences without labeling noise were selected by instance selector module and the selected sentences were input into sequence labeling module. Secondly, predictions were made by sequence labeling module and the rewards were provided to sentence selector module to help the module select high-quality sentences. Finally, two modules were trained jointly to optimize instance selection and sequence labeling processes. The experimental results show that the F1 value of the proposed model is 47.3% in the joint entity and relation extraction, which is 1% higher than those of joint extraction models represented by CoType and 14% higher than those of serial models represented by LINE(Large-scale Information Network Embedding). The results show that the joint entity and relation extraction model in combination with reinforcement learning can effectively improve F1 value of sequential labeling model, in which the sentence selector can effectively deal with the noise of data.
Key words: reinforcement learning; joint extraction; sequence tagging; named entity recognition; relation classification
0 引言
實(shí)體和關(guān)系的聯(lián)合抽取是從非結(jié)構(gòu)化文本中同時檢測實(shí)體引用和識別它們的語義關(guān)系,如圖1所示。不同于Banko等[1]從給定句子中抽取關(guān)系詞的開放信息抽取,在本任務(wù)中,關(guān)系詞是從預(yù)定義的關(guān)系集中抽取的,該關(guān)系集可能不會出現(xiàn)在給定句子中。它是知識抽取和知識庫自動構(gòu)建中的一個重要途徑。
傳統(tǒng)方法以串行的方式處理此任務(wù),即Nadeau等[2]先抽取實(shí)體,然后Rink等[3]識別它們的關(guān)系。這個串行的框架使任務(wù)易于處理,并且每個組件可以更靈活;但是它忽略了這兩個子任務(wù)之間的相關(guān)性,并且每個子任務(wù)都是一個獨(dú)立的模型。Li等[4]提出實(shí)體識別的結(jié)果可能會影響關(guān)系分類的效果,并導(dǎo)致錯誤的傳遞。
與傳統(tǒng)方法不同,聯(lián)合學(xué)習(xí)框架是使用單個模型將實(shí)體識別和關(guān)系抽取結(jié)合在一起。它能有效地整合實(shí)體信息和關(guān)系信息,在這項(xiàng)任務(wù)中取得了較好的效果。大多數(shù)現(xiàn)有的聯(lián)合方法是基于特征的結(jié)構(gòu)化系統(tǒng)[4]。它們需要復(fù)雜的特性工程,并且嚴(yán)重依賴于其他自然語言處理(Natural Language Processing, NLP)工具包,這也可能導(dǎo)致錯誤傳播。為了減少特征抽取中的手工工作,Miwa等[5]提出了一種基于神經(jīng)網(wǎng)絡(luò)的端到端實(shí)體和關(guān)系聯(lián)合抽取方法。雖然聯(lián)合模型可以在單個模型中讓實(shí)體識別模塊與關(guān)系分類模塊共享參數(shù),但它們也是分別抽取實(shí)體和關(guān)系,并生成冗余信息。例如,圖1中的句子包含三個實(shí)體:“United States”“Trump”和“Apple Inc”,但只有“United States”和“Trump”才有固定的關(guān)系“Country-President”。在這句話中,實(shí)體“Apple Inc”與其他實(shí)體沒有明顯的關(guān)系,因此,從這句話中抽取的結(jié)果是{United States,Country-President,Trump},它在這里稱為三元組。Zheng等[6]提出了一個標(biāo)簽方案,將聯(lián)合抽取任務(wù)轉(zhuǎn)換為標(biāo)簽問題。通過建立含有關(guān)系信息的標(biāo)簽,使用序列標(biāo)注模型直接抽取實(shí)體及其關(guān)系,而不單獨(dú)識別實(shí)體和關(guān)系。
大多數(shù)現(xiàn)有的工作都需要高質(zhì)量的標(biāo)注數(shù)據(jù)。為了獲得大規(guī)模的訓(xùn)練數(shù)據(jù),Mintz等[7]提出了遠(yuǎn)程監(jiān)督的方法,假設(shè)兩個實(shí)體在給定的知識庫中有關(guān)系,則包含這兩個實(shí)體的所有句子都會提到這種關(guān)系。遠(yuǎn)程監(jiān)督雖然能有效地實(shí)現(xiàn)數(shù)據(jù)的自動標(biāo)注,但存在著標(biāo)簽噪聲的問題。以三元組{Barack Obama,BornIn,United States}為例,由遠(yuǎn)程監(jiān)督標(biāo)注的數(shù)據(jù)“Barack Obamba is the 44th president of the United State”就是一個噪聲數(shù)據(jù),遠(yuǎn)程監(jiān)督認(rèn)為這個句子中Barack Obama與United States的關(guān)系是“BornIn”,即使這句話根本沒有描述“BornIn”關(guān)系。
因此,以往的基于遠(yuǎn)程監(jiān)督的數(shù)據(jù)集上的實(shí)體關(guān)系聯(lián)合抽取的研究存在著標(biāo)簽噪聲的問題。噪聲語句產(chǎn)生錯誤的標(biāo)簽,會對聯(lián)合抽取模型產(chǎn)生不良影響。Feng等[8]提出了一種基于噪聲數(shù)據(jù)的句子級關(guān)系分類模型,其模型包括兩個模塊:句子選擇器和關(guān)系分類器。句子選擇器通過強(qiáng)化學(xué)習(xí)選擇高質(zhì)量的句子,將所選句子輸入到關(guān)系分類器;關(guān)系分類器進(jìn)行句子預(yù)測,并為句子選擇器提供反饋。他們的模型能夠有效地處理數(shù)據(jù)的噪聲,在句子層次上獲得更好的關(guān)系分類效果。
本文提出了一種由句子選擇器和序列標(biāo)注模型兩個模塊組成的序列標(biāo)注模型。通過使用句子選擇器,可以從一個句子包中選擇高質(zhì)量的句子,然后通過序列標(biāo)注模型預(yù)測句子的標(biāo)簽。目前主要的挑戰(zhàn)是當(dāng)句子選擇器不清楚哪些句子的標(biāo)簽錯誤時,如何有效地聯(lián)合訓(xùn)練這兩個模塊。
本文將句子選擇任務(wù)當(dāng)作強(qiáng)化學(xué)習(xí)問題來解決[9]。直觀地說,雖然模型沒有對句子選擇器進(jìn)行顯式監(jiān)督,但是可以把所選語句作為一個整體進(jìn)行評估,因此,句子選擇過程具有以下兩個性質(zhì):一是試錯搜索,即句子選擇器試圖從每個實(shí)體的句子集合中選擇一些句子,并獲得對所選句子質(zhì)量的反饋;二是只有當(dāng)句子選擇器完成了句子選擇過程,才能獲得從序列標(biāo)注模塊的反饋,這個反饋通常是延遲的。這兩個特性讓本文使用強(qiáng)化學(xué)習(xí)技術(shù)。
本文工作中的貢獻(xiàn)包括:
1)提出了一種新的序列標(biāo)注模型,該模型由句子選擇器和序列標(biāo)注模型組成。這個模型能夠在相對沒有噪聲的數(shù)據(jù)中進(jìn)行實(shí)體和關(guān)系的聯(lián)合抽取。
2)將句子選擇定義為一個強(qiáng)化學(xué)習(xí)問題,使得模型能夠在沒有明確的句子級標(biāo)注情況下執(zhí)行句子選擇,通過序列標(biāo)注模型較弱的監(jiān)督信號提供反饋。
3)根據(jù)實(shí)體將數(shù)據(jù)分成不同的集合,句子選擇器選擇實(shí)體集合中的高質(zhì)量句子,然后所有的集合中選擇的數(shù)據(jù)作為干凈的數(shù)據(jù)訓(xùn)練序列標(biāo)注模型。
1 相關(guān)工作
實(shí)體識別和關(guān)系分類是構(gòu)建知識庫的重要步驟,對許多NLP任務(wù)都有幫助。兩種主要框架被廣泛應(yīng)用于解決實(shí)體識別及其關(guān)系抽取的問題:一種是流水線方法,另一種是聯(lián)合學(xué)習(xí)方法。
流水線方法將此任務(wù)視為兩個獨(dú)立的任務(wù),即命名實(shí)體識別(Named Entity Recognition, NER)和關(guān)系分類(Relation Classification, RC)。經(jīng)典的NER模型是線性統(tǒng)計(jì)模型,如隱馬爾可夫模型(Hidden Markov Model, HMM)和條件隨機(jī)場(Conditional Random Field, CRF)[10],其中CRF模型結(jié)合了最大熵模型和隱馬爾可夫模型的優(yōu)點(diǎn)[11]。向曉雯等[12]、佘俊等[13]、張金龍等[14]采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法研究命名實(shí)體識別任務(wù),取得了較好的結(jié)果。近幾年,Chiu等[15]、Huang等[16]、Lample等[17]幾種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已成功應(yīng)用于NER,將命名實(shí)體識別任務(wù)處理成序列標(biāo)注任務(wù)。現(xiàn)有的關(guān)系分類方法也可分為手工抽取特征的方法[3]和基于神經(jīng)網(wǎng)絡(luò)的方法。
聯(lián)合模型使用單個模型抽取實(shí)體和關(guān)系,而大多數(shù)聯(lián)合方法是基于特征的結(jié)構(gòu)化系統(tǒng),例如Ren等[18]、Singh等[19]、Miwa等[5]、Li等[4]提出的方法。最近,Miwa等[5]使用基于長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)的模型抽取實(shí)體和關(guān)系,這可以減少手工工作。Zheng等[6]提出了一個標(biāo)簽方案,可以將聯(lián)合抽取任務(wù)轉(zhuǎn)換為序列標(biāo)注問題?;谶@種標(biāo)簽方案,研究不同的端到端模型,可以直接抽取實(shí)體及其關(guān)系,而不單獨(dú)識別實(shí)體和關(guān)系。本文所提出的方法是基于一種特殊的標(biāo)簽方式,因此可以很容易地使用端到端模型來抽取結(jié)果,而不需要運(yùn)用NER和RC分別進(jìn)行。
一般來說,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型需要大量的標(biāo)簽數(shù)據(jù),人工標(biāo)注數(shù)據(jù)是非常耗時的。為了解決這個問題,Mintz等[7]提出了遠(yuǎn)程監(jiān)督方法,該方法假設(shè)所有關(guān)于三元組中的兩個實(shí)體的句子都描述了三元組中的關(guān)系。盡管遠(yuǎn)程監(jiān)督取得了成功,但這種方法存在著標(biāo)簽噪聲問題。為了解決這一問題,Lin等[20]、Ji等[21]提出了多個句子級別的注意力機(jī)制,可以降低噪聲句子的權(quán)重。然而,這種多句子學(xué)習(xí)模型并不能直接過濾掉噪聲數(shù)據(jù)的影響。Feng等[8]提出了一個基于噪聲數(shù)據(jù)的句子級關(guān)系分類模型,首先在強(qiáng)化學(xué)習(xí)框架下選擇正確的句子[22],然后預(yù)測過濾后數(shù)據(jù)中每個句子的關(guān)系。本文提出的方法首先在強(qiáng)化學(xué)習(xí)的框架下選擇正確的句子,然后從干凈的數(shù)據(jù)中預(yù)測每個句子的標(biāo)簽序列。
2 方法介紹
本文提出一個句子選擇器和序列標(biāo)注的聯(lián)合抽取模型,雙向長短期記憶條件隨機(jī)場(Bidirectional Long Short-Term Memory Conditional Random Field, Bi-LSTM-CRF)模型來聯(lián)合抽取實(shí)體及其關(guān)系,句子選擇器來選擇高質(zhì)量的句子。在本章中,首先介紹如何將抽取問題改為標(biāo)簽問題,然后介紹用于選擇高質(zhì)量句子的強(qiáng)化學(xué)習(xí)模型。
2.1 標(biāo)簽?zāi)P?/p>
圖2是對訓(xùn)練集標(biāo)注的示例。句子中的每個詞都被打上一個有助于提取結(jié)果的標(biāo)簽。標(biāo)簽“O”表示“其他”標(biāo)簽,這意味著相應(yīng)的單詞獨(dú)立于提取的結(jié)果。除“O”外,其他標(biāo)簽還包括三個部分:實(shí)體中的單詞位置、關(guān)系類型和關(guān)系角色。本文使用實(shí)體開始(Begin,B)、實(shí)體內(nèi)部(Inner,I)、實(shí)體結(jié)尾(End,E)、單個實(shí)體(Single,S)等符號來表示實(shí)體中單詞的位置信息。關(guān)系類型信息從一組預(yù)定義的關(guān)系中獲取,關(guān)系角色信息由數(shù)字“1”和“2”表示。提取的結(jié)果由三元組表示:(Entity1;RelationType;Entity2)。“1”是指單詞屬于三元組中的第一個實(shí)體,“2”是指關(guān)系類型后面的第二個實(shí)體,因此,標(biāo)簽總數(shù)為N=2*4*r+1,其中r是預(yù)定義關(guān)系集的大小。
輸入語句標(biāo)簽以及結(jié)果如圖2所示。輸入語句包含兩個三元組:{United States,Country-President,Trump}和{Apple Inc,Company-Founder,Steven Paul Jobs},其中“Country-President”和“Company-Founder”是預(yù)定義的關(guān)系類型。單詞“United”“States”“Trump”“Apple”“Inc”“Steven”“Paul”和“Jobs”都與最終提取的結(jié)果相關(guān),因此,它們是根據(jù)本文的特殊標(biāo)簽進(jìn)行標(biāo)注的。例如,“United”這個詞是實(shí)體“United States”的第一個詞,與“Country-President”的關(guān)系有關(guān),所以它的標(biāo)簽是“B-CP-1”。另一個與“United States”相對應(yīng)的實(shí)體“Trump”被標(biāo)簽為“S-CP-2”。另外,其他與最終結(jié)果無關(guān)的詞被標(biāo)簽為“O”。
2.2 從標(biāo)簽獲取結(jié)果
從圖2的標(biāo)簽序列中,可以知道“Trump”和“United States”共享相同的關(guān)系類型“Country-President”;“Apple Inc”和“Steven Paul Jobs”共享相同的關(guān)系類型“Company-Founder”。最后將具有相同關(guān)系類型的實(shí)體組合成一個三元組以得到最終結(jié)果,因此,“Trump”和“United States”可以合并成三元組,關(guān)系類型為“Country-President”。因?yàn)椤癟rump”的關(guān)系角色是“2”,“United States”是“1”,最終結(jié)果是{United States,Country-President,Trump}。同樣可以得到三元組{Apple Inc,Company-Founder,Steven Paul Jobs}。
此外,如果一個句子包含兩個或兩個以上具有相同關(guān)系類型的三元組,模型會根據(jù)就近的原則將每兩個實(shí)體組合成一個三元組。例如,如果圖2中的關(guān)系類型“Country-President”是“Company-Founder”,那么在給定的句子中會有四個具有相同關(guān)系類型的實(shí)體?!癠nited States”最接近實(shí)體“Trump”,“Apple Inc”最接近“Steven Paul Jobs”,因此結(jié)果將是{United States,Company-Founder,Trump}、{Apple Inc,Company-Founder,Steven Paul Jobs}。
2.3 詞向量
詞向量是神經(jīng)網(wǎng)絡(luò)的輸入。對于詞嵌入的方法,本文選擇CBOW(Continuous Bag-Of-Words model)而不是Skip-Gram。本文的選擇是基于這樣一個考慮:CBOW是根據(jù)上下文預(yù)測一個詞,或者通過查看上下文最大化目標(biāo)詞的概率進(jìn)行預(yù)測,而Skip-Gram的輸入是當(dāng)前詞的詞向量,而輸出是周圍詞的詞向量。也就是說,通過當(dāng)前詞來預(yù)測周圍詞,即用于預(yù)測上下文。Skip-Gram需要更多的數(shù)據(jù)來訓(xùn)練,這樣它就可以學(xué)會理解很多單詞,甚至是罕見的單詞。對于NER任務(wù),是根據(jù)上下文預(yù)測詞的標(biāo)簽,而不是預(yù)測上下文,因此,本文訓(xùn)練CBOW嵌入模型以獲得雙向長短期記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)編碼器的輸入表示。
2.4 Bi-LSTM-CRF模型
2.4.1 CRF
條件隨機(jī)場結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種無向圖模型,近年來在分詞、詞性標(biāo)注和命名實(shí)體識別等序列標(biāo)注任務(wù)中取得了很好的效果。條件隨機(jī)場是一個典型的判別式模型,其聯(lián)合概率可以寫成若干勢函數(shù)聯(lián)乘的形式,其中最常用的是線性鏈條件隨機(jī)場。若讓x=(x1,x2,…,xn)表示被觀察的輸入數(shù)據(jù)序列,y=(y1,y2,…,yn)表示一個狀態(tài)序列,在給定一個輸入序列的情況下,序列標(biāo)注通常公式化為:
其中:tj(yi-1,yi,x,i)是一個轉(zhuǎn)移函數(shù),代表在標(biāo)注序列中,第i-1個和第i個的標(biāo)注與整個觀測序列之間的特征關(guān)系;sk(yi,x,i)是一個狀態(tài)函數(shù),代表標(biāo)注序列中第i個標(biāo)注與此時相對應(yīng)的觀測序列中的值的特征;λj和μk的值均是從訓(xùn)練數(shù)據(jù)中進(jìn)行估計(jì),較大的負(fù)值代表其對應(yīng)的特征模板可信度低,而較大的非負(fù)值代表其對應(yīng)的特征事件可信度高,其中Z(x)代表歸一化因子,其公式如下:
最終的最優(yōu)化輸出序列計(jì)算公式如下:
以往的研究表明,特征選擇在傳統(tǒng)的概念抽取中起著重要的作用。NER的性能在很大程度上取決于不同意見的領(lǐng)域知識的構(gòu)建和研究。
2.4.2 LSTM與Bi-LSTM
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)模型是一種在序列標(biāo)注任務(wù)上表現(xiàn)優(yōu)異的神經(jīng)網(wǎng)絡(luò)模型,因?yàn)樾蛄袠?biāo)注任務(wù)中,無論是序列內(nèi)部還是序列的邊界對上下文信息都是敏感的,而循環(huán)神經(jīng)網(wǎng)絡(luò)RNN與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,恰好有著時間序列這一特性,它更能充分地利用前面序列的信息,因此它更加適用于序列標(biāo)注的任務(wù)。長短期記憶(Long Short Term Memory, LSTM)網(wǎng)絡(luò)模型采用LSTM單元來替代原先循環(huán)神經(jīng)網(wǎng)絡(luò)RNN模型中的隱藏層,該模型能夠有效處理較長距離的依賴關(guān)系以及解決梯度消失問題。
LSTM區(qū)別于RNN的地方,主要就在于它在算法中加入了一個判斷信息有用與否的“處理器”,這個處理器作用的結(jié)構(gòu)被稱為細(xì)胞(cell)。一個cell當(dāng)中被放置了三扇門,分別叫作輸入門(i)、遺忘門(f)和輸出門(o)。一個信息進(jìn)入LSTM的網(wǎng)絡(luò)當(dāng)中,可以根據(jù)規(guī)則來判斷是否有用。只有符合算法認(rèn)證的信息才會留下,不符的信息則通過遺忘門被遺忘。一個細(xì)胞的結(jié)構(gòu)如圖3所示。
i、 f、o分別表示輸入門、遺忘門和輸出門。W和b表示權(quán)重矩陣和偏移向量。遺忘門是決定需要從細(xì)胞狀態(tài)中丟棄什么信息,它會讀取ht-1和xt,輸出一個在0到1之間的數(shù)值。1表示“完全保留”,0表示“完全舍棄”。遺忘門的計(jì)算公式如下:
f=σ(Wf[ht-1,xt]+bf)(4)此處是否遺漏了公式,后面的參數(shù)說明中沒有看到Ct、sig等函數(shù)?;貜?fù):沒有遺漏公式,其中包括了對圖三的說明,Ct,Sig符號可以在圖三中看到
其中:ht-1表示的是上一個LSTM單元的輸出,xt表示的是當(dāng)前細(xì)胞的輸入,Ct-1是前一個單元的記憶,ht是當(dāng)前網(wǎng)絡(luò)的輸出,Ct是當(dāng)前單元的記憶。Sig表示sigmoid函數(shù),Mul表示向量乘法,Con表示向量加法,tanh為激活函數(shù)。
輸入門決定讓多少新的信息加入到cell狀態(tài)中來。實(shí)現(xiàn)這個需要包括兩個步驟:首先,一個叫作“輸入門”的sigmoid層決定哪些信息需要更新;一個tanh層生成一個向量,也就是備選的用來更新的內(nèi)容,Ct。在下一步,把這兩部分聯(lián)合起來,對cell的狀態(tài)進(jìn)行一個更新。
接下來是更新舊細(xì)胞狀態(tài),Ct-1更新為Ct。需要把舊狀態(tài)與ft相乘,丟棄確定需要丟棄的信息。得到新的候選值后,根據(jù)決定更新每個狀態(tài)的程度進(jìn)行變化。公式如下:
輸出門需要確定輸出什么值。這個輸出將會基于當(dāng)前的細(xì)胞狀態(tài),也是一個過濾后的版本。首先,模型運(yùn)行一個sigmoid層來確定細(xì)胞狀態(tài)的哪個部分將輸出;接著,模型把細(xì)胞狀態(tài)通過tanh進(jìn)行處理(得到一個在-1到1之間的值)并將它和sigmoid層的輸出相乘,最終僅僅會輸出確定輸出的那部分。公式如下:
雙向長短期記憶(Bi-LSTM)網(wǎng)絡(luò)模型是由前向的LSTM與后向的LSTM結(jié)合而成,Bi-LSTM的計(jì)算流程與單向長短期記憶網(wǎng)絡(luò)LSTM模型在本質(zhì)上是一樣的,也是利用LSTM的公式計(jì)算每個LSTM單元的細(xì)胞狀態(tài)與隱藏層輸出,不同的是,Bi-LSTM首先針對逆時序的隱藏層增加了和正時序的隱藏層處理相對應(yīng)的權(quán)重參數(shù)矩陣與偏置向量,正時序和逆時序?qū)⑼ㄟ^各自的權(quán)重參數(shù)矩陣與偏置向量得到隱藏層的輸出向量ht,再對這兩個輸出向量進(jìn)行合并操作,對于不同的應(yīng)用,它們的合并方式會略有差異,本文將采用連接的方式將兩個輸出向量進(jìn)行合并。
2.4.3 Bi-LSTM-CRF
上面介紹了在序列標(biāo)注問題上效果比較優(yōu)異的傳統(tǒng)統(tǒng)計(jì)模型的代表?xiàng)l件隨機(jī)場(CRF)模型和被廣泛應(yīng)用于序列標(biāo)注任務(wù)中的Bi-LSTM網(wǎng)絡(luò)模型。其中,CRF模型的優(yōu)點(diǎn)在于能夠通過特征模板去掃描整個輸入文本,從而對整個文本局部特征的線性加權(quán)組合有著更多的考量,最關(guān)鍵的是,序列標(biāo)注中的X和Y代表的都是整個輸入文本和標(biāo)注序列,并非獨(dú)立的詞語或標(biāo)注,所以CRF模型優(yōu)化的目標(biāo)是出現(xiàn)概率最高的一個序列,而不是找出序列的每個位置出現(xiàn)最高概率的標(biāo)注;而它的缺點(diǎn)在于,首先特征模板的選取需要對訓(xùn)練語料有一定的先驗(yàn)知識,需要從語料中相關(guān)信息的統(tǒng)計(jì)數(shù)據(jù)中分析出對標(biāo)注有著重要影響的特征,特征的數(shù)量多了會使模型出現(xiàn)過擬合的現(xiàn)象,特征數(shù)量少了則會使模型出現(xiàn)欠擬合的現(xiàn)象,特征之間如何組合是一項(xiàng)比較困難的工作;其次,條件隨機(jī)場模型在訓(xùn)練過程中,由于受限于特征模板制定的窗口大小,所以難以考察長遠(yuǎn)的上下文信息。Bi-LSTM網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)在某種程度上與CRF模型恰恰相反,它在序列標(biāo)注任務(wù)的表現(xiàn)上異常強(qiáng)大,可以有效地將長遠(yuǎn)的上下文信息利用進(jìn)來,同時它還具備了神經(jīng)網(wǎng)絡(luò)本身的對于非線性數(shù)據(jù)的擬合能力,然而從圖3.5中可以看出,然而從圖3.5中可以將看到,這一句話需要去掉Bi-LSTM模型的輸出層輸出的標(biāo)注yt由當(dāng)前時刻的輸入文本向量xt和將正時序LSTM單元與逆時序LSTM單元的記憶輸出合并而成的隱藏層的輸出ht決定,而與其他時刻k的輸出層輸出的標(biāo)注yk沒有關(guān)系,因此,Bi-LSTM模型的優(yōu)化目標(biāo)是對于每個時刻都尋找到在這個時刻出現(xiàn)概率最大的標(biāo)注,再由這些標(biāo)注構(gòu)成序列,這往往會導(dǎo)致模型對標(biāo)注序列的輸出發(fā)生不連貫的現(xiàn)象。
這兩種模型的優(yōu)缺點(diǎn)恰好互補(bǔ),于是將兩者結(jié)合起來的模型Bi-LSTM-CRF出現(xiàn)了,即在傳統(tǒng)的Bi-LSTM模型的隱藏層上在加入一層線性CRF層,如圖4所示。
2.5 句子選擇器
本文將句子選擇作為一個強(qiáng)化學(xué)習(xí)問題來處理。句子選擇器稱為代理“Agent”,它與由數(shù)據(jù)和序列標(biāo)注模型組成的環(huán)境“Environment”進(jìn)行交互。“Agent”遵循一個策略來決定在每個狀態(tài)“State”(包括當(dāng)前句子、所選句子集)時執(zhí)行什么操作“Action”(選擇當(dāng)前句子或不選擇當(dāng)前句子),然后在作出所有選擇時從Bi-LSTM-CRF模型獲得反饋“Reward”。
如前所述,只有在完成對所有訓(xùn)練語料的選擇后,句子選擇器模型才能從序列標(biāo)注模型中獲得延遲反饋,因此,對于整個訓(xùn)練數(shù)據(jù)的每次遍歷,如果只更新一次策略函數(shù),這顯然是低效的。為了獲得更多的反饋并提高訓(xùn)練過程的效率,本文將訓(xùn)練語料X={x1,x2,…,xn}分到N個集合B={B1,B2,…,BN}中,并且當(dāng)完成一個集合的篩選后就計(jì)算一次反饋。集合根據(jù)實(shí)體進(jìn)行劃分,每個集合對應(yīng)一個不同的實(shí)體,每個包bk是一個包含同一個實(shí)體的句子序列{xk1,xk2,…,xk|Bk|},但是實(shí)體的標(biāo)簽是有噪聲的。本文將動作定義為根據(jù)策略函數(shù)選擇句子或不選擇句子。一旦在一個包上完成選擇,就會計(jì)算反饋。當(dāng)句子選擇器的訓(xùn)練過程完成后,將每個包中的所有選定語句合并,得到一個干凈的數(shù)據(jù)集X,然后,將干凈的數(shù)據(jù)用于訓(xùn)練序列標(biāo)注模型。
本文將介紹句子選擇器(即狀態(tài)、行動、反饋、優(yōu)化)如下。
1)狀態(tài)。
狀態(tài)si表示當(dāng)前句子和已選定的句子。本文將狀態(tài)表示為連續(xù)實(shí)值向量F(si),它編碼以下信息:a)從序列標(biāo)注模型中獲得的當(dāng)前句子的向量表示;b)已選句子集的表示,它是所有已選句子的向量的平均值。
2)動作。
本文定義了一個動作ai∈{0,1}來表示句子選擇器是否會選擇包B的第i個句子,通過策略函數(shù)πΘ(si,ai)來決定ai的取值,將一個邏輯函數(shù)作為策略函數(shù)表示如下:
其中:F(si)表示狀態(tài)向量,σ(·)表示sigmoid函數(shù),參數(shù)Θ={W,b}。
3)反饋。
反饋函數(shù)代表所選句子質(zhì)量的標(biāo)志。對于一個集合B={x1,x2,…,x|B|},本文為每個句子選擇一個動作,以確定是否應(yīng)該選擇當(dāng)前句子。假設(shè)模型在完成所有選擇后有一個最終反饋,因此,句子選擇器模型只在最終狀態(tài)S|B|+1收到延遲反饋。其他狀態(tài)的反饋為零,因此,反饋的定義如下:
其中:B^為選擇的句子集合,是集合B的子集;r是集合代表的實(shí)體;p(r|xj)是由序列標(biāo)注模型計(jì)算出來的,對于特殊情況B^=,將反饋設(shè)置為訓(xùn)練集所有句子的平均值,這樣可以過濾掉全是噪聲的集合。
在選擇過程中,不僅最終的行為有助于反饋,所有先前的行為都有助于反饋,因此,這種反饋是延遲的,并且可以通過強(qiáng)化學(xué)習(xí)技術(shù)很好地處理。
4)優(yōu)化。
對于一個集合B,本模型希望得到最大的反饋,目標(biāo)函數(shù)定義如下:
2.6 句子選擇器+序列標(biāo)注模型
如圖5所示,左邊為句子選擇器,右邊為序列標(biāo)注模型,句子選擇器由策略函數(shù)、反饋函數(shù)等組成,用來在訓(xùn)練集中挑選高質(zhì)量的句子,作為序列標(biāo)注模型的輸入,序列標(biāo)注模型接收句子選擇器的輸入,然后給句子選擇器提供反饋,指導(dǎo)句子選擇器選出高質(zhì)量的句子。
3 實(shí)驗(yàn)介紹
3.1 數(shù)據(jù)集
為了評估本文方法的性能,本文使用由遠(yuǎn)程監(jiān)督方法生成的公共數(shù)據(jù)集紐約時報(New York Times, NYT)[18],采用遠(yuǎn)程監(jiān)督方式,無需人工標(biāo)注,即可獲得大量的訓(xùn)練數(shù)據(jù)。測試集是人工標(biāo)注的以確保其質(zhì)量。總的來說,訓(xùn)練數(shù)據(jù)包含353000個三元組,測試集包含3880個三元組。此外,關(guān)系集的大小為24。
3.2 評估策略
本文采用準(zhǔn)確率(Precision, P)、召回率(Recall, R)和F1值對結(jié)果進(jìn)行評估。與傳統(tǒng)方法不同的是,本文方法可以在不知道實(shí)體類型信息的情況下抽取三元組。換句話說,本文沒有使用實(shí)體類型的標(biāo)簽來訓(xùn)練模型,因此在評估中不需要考慮實(shí)體類型。當(dāng)三元組的關(guān)系類型和兩個對應(yīng)實(shí)體的位置偏移都正確時,則認(rèn)為它是正確的。本文從測試集隨機(jī)抽取10%的數(shù)據(jù)來創(chuàng)建驗(yàn)證集,并根據(jù)Ren等[18]的建議將剩余數(shù)據(jù)用作評估。本文將每個實(shí)驗(yàn)運(yùn)行10次,然后記錄平均結(jié)果。
3.3 參數(shù)設(shè)置
本文的模型由一個Bi-LSTM-CRF序列標(biāo)注模型和一個句子選擇器模型組成。詞向量是通過在NYT訓(xùn)練語料上運(yùn)行Word2vec[23]生成的。詞向量的維度為300。本文在嵌入層上使用droupout來防止過擬合,大小為0.5。LSTM隱藏層維度為300。對于句子選擇器的參數(shù),本文分別在預(yù)訓(xùn)練階段和聯(lián)合訓(xùn)練階段將學(xué)習(xí)率設(shè)置為0.02和0.01。延遲系數(shù)τ為0.001。
3.4 基準(zhǔn)線
將本文的方法與幾種經(jīng)典的三元組提取方法進(jìn)行了比較,這些方法可分為以下幾類:基于本文的標(biāo)記方案的流水線方法、聯(lián)合提取方法和Bi-LSTM-CRF方法。
對于流水線方法,本文遵循Ren等[18]的設(shè)置:通過CoType方法獲得NER結(jié)果,然后使用幾種經(jīng)典的關(guān)系分類方法檢測關(guān)系。這些方法包括:
1)2009年Mintz等[7]提出的DS-Logistic模型,這是一種遠(yuǎn)程監(jiān)督和基于特征的方法;
2)2015年Tang等[24]提出的LINE(Large-scale Information Network Embedding)模型,這是一種網(wǎng)絡(luò)嵌入方法,適用于任意類型的信息網(wǎng)絡(luò);
3)2015年Gormley等[25]提出的FCM(Fuzzy C-Mean)模型,這是一種復(fù)合方法,將詞匯化語言語境和嵌入詞結(jié)合起來進(jìn)行關(guān)系提取的模式。
本文采用的聯(lián)合提取方法如下:
4)2014年Li等[4]提出的DS-Joint模型,這是一種有監(jiān)督的方法,它利用人工標(biāo)注數(shù)據(jù)集上的結(jié)構(gòu)化感知器聯(lián)合提取實(shí)體和關(guān)系;
5)2011年Hoffmann等[26]提出的MULTIR(MULTi-Instance learning which handles overlapping Relations請補(bǔ)充MULTIR的英文全稱)模型,這是一種典型的基于多句子學(xué)習(xí)算法的遠(yuǎn)程監(jiān)控方法,用于對抗噪聲訓(xùn)練數(shù)據(jù);
6)2017年Ren等[18]提出的CoType模型,這是一個獨(dú)立于領(lǐng)域的框架,將實(shí)體信息、關(guān)系信息、文本特征和類型標(biāo)簽共同嵌入到有意義的表示中。
此外,本文方法還與經(jīng)典的端到端標(biāo)注模型進(jìn)行了比較:2016年Lample等[17]提出的LSTM-CRF模型,利用雙向LSTM對輸入句子進(jìn)行編碼,利用條件隨機(jī)場預(yù)測實(shí)體標(biāo)簽序列,實(shí)現(xiàn)實(shí)體識別的LSTM-CRF算法。
3.5 實(shí)驗(yàn)結(jié)果
本文的實(shí)驗(yàn)分為三個部分進(jìn)行,包括序列標(biāo)注模型的訓(xùn)練、句子選擇器模型的訓(xùn)練以及聯(lián)合訓(xùn)練。其中前面兩個模型的訓(xùn)練為預(yù)訓(xùn)練,目的是為了聯(lián)合模型能夠盡快地收斂。本文通過實(shí)驗(yàn)得到了不同方法的對比結(jié)果,其中LSTM-CRF模型與RL-LSTM-CRF(Reinforcement Learning for LSTM-CRF)本文方法的縮寫是Bi-LSTM-CRF,不是RL-LSTM-CRF吧?這個名稱也沒有英文縮寫,全文是否需要統(tǒng)一,請明確。回復(fù):LSTM-CRF模型上文介紹了是利用雙向LSTM編碼的模型,也就是Bi-LSTM-CRF模型的縮寫。RL-LSTM-CRF中RL指的是加入強(qiáng)化學(xué)習(xí)的模型,RL是Reinforcement Learning的縮寫,LSTM-CRF同上。如果不明確的話,需要給RL-LSTM-CRF加上說明RL-LSTM-CRF(Reinforcement Learning for LSTM-CRF)。
模型不僅記錄下了準(zhǔn)確率、召回率、F1值,還將實(shí)驗(yàn)的標(biāo)準(zhǔn)差記錄下來,標(biāo)準(zhǔn)差是將每個模型運(yùn)行10次的結(jié)果,如表1所示。
可以看出,本文的方法RL-LSTM-CRF在F1分?jǐn)?shù)上優(yōu)于所有其他方法,與聯(lián)合抽取CoType模型相比本文模型的F1值提升了1%,與串行抽取LINE模型相比本文模型的F1值提升了14%。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。此外,從表1中還可以看出,聯(lián)合提取方法優(yōu)于流水線方法,標(biāo)注方法優(yōu)于大多數(shù)聯(lián)合提取方法。它還驗(yàn)證了本文的標(biāo)簽方案對于聯(lián)合提取實(shí)體和關(guān)系的任務(wù)的有效性。與傳統(tǒng)方法相比,端到端模型的精度有了顯著提高,基于神經(jīng)網(wǎng)絡(luò)的方法能很好地擬合數(shù)據(jù),因此,它們可以很好地學(xué)習(xí)訓(xùn)練集的共同特征。
4 結(jié)語
本文提出了一個新的模型,該模型由句子選擇器和序列標(biāo)注模型組成,通過強(qiáng)化學(xué)習(xí)框架在噪聲數(shù)據(jù)集中聯(lián)合抽取實(shí)體和關(guān)系。句子選擇器為序列標(biāo)注模型選擇高質(zhì)量的數(shù)據(jù)。Bi-LSTM-CRF模型預(yù)測句子級別的序列標(biāo)簽,并作為弱監(jiān)督信號向選擇器提供反饋,以監(jiān)督句子選擇過程。大量的實(shí)驗(yàn)表明,本文模型能夠過濾掉有噪聲的句子,并比現(xiàn)有的模型更好地執(zhí)行聯(lián)合實(shí)體和關(guān)系提取。
此外,本文的解決方案可以推廣到使用噪聲數(shù)據(jù)或遠(yuǎn)程監(jiān)督的其他任務(wù)中,這將是未來的工作。后期打算用更優(yōu)的端到端的模型來替換本文現(xiàn)有的序列標(biāo)注模型,例如用LSTM解碼層替換CRF解碼層等。本文只考慮一個實(shí)體屬于一個三元組的情況,并將重疊關(guān)系的識別留給以后的工作。
參考文獻(xiàn) (References)
[1] BANKO M, CAFARELLAM J, SODERLAND S, et al. Open information extraction from the Web[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. New York: ACM, 2007: 2670-2676.
[2] NADEAU D, SEKINE S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2005, 30(1): 3-26.
[3] RINK B, HARABAGIU A. UTD: classifying semantic relations by combining lexical and semantic resources[C]// Proceedings of the 5th International Workshop on Semantic Evaluation. New York: ACM, 2010: 256-259.
[4] LI Q, JI H. Incremental joint extraction of entity mentions and relations[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 402-412.
[5] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1105-1116.
[6] ZHENG S C, WANG F. Joint extraction of entities and relations based on a novel tagging scheme[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 1227-1236.
[7] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]// Proceedings of the 2009/47th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2009: 1003-1011
[8] FENG J, HUANG M, ZHAO L, et al. Reinforcement learning for relation classification from noisy data[C]// Proceedings of the 2018/32nd Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2018:5779-5786
[9] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054-1054.
[10] LUO G, HUANG X J, LIN C Y, et al. Joint entity recognition and disambiguation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 879-888.
[11] 馮元勇,孫樂,張大鯤,等.基于小規(guī)模尾字特征的中文命名實(shí)體識別研究[J].電子學(xué)報,2008,36(9):1833-1838.(FENG Y Y, SUN L, ZHANG D K, et al. Study on the Chinese named entity recognition using small scale tail hints[J]. Acta Electronica Sinaca, 2008, 36(9): 1833-1838.)
[12] 向曉雯,史曉東,曾華琳.一個統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2005,25(10):2404-2406.(XIANG X W, SHI X D, ZENG H L. Chinese named entity recognition system using statistics-based and rules-based method [J]. Journal of Computer Applications, 2005, 25(10): 2404-2406.)
[13] 佘俊,張學(xué)清.音樂命名實(shí)體識別方法[J].計(jì)算機(jī)應(yīng)用,2010,20(11):2928-2931.(SHE J, ZHANG X Q. Musical named entity recognition method [J]. Journal of Computer Applications, 2010, 30(11): 2928-2931.)
[14] 張金龍,王石,錢存發(fā).基于CRF和規(guī)則的中文醫(yī)療機(jī)構(gòu)名稱識[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(3):159-162.(ZHANG J L, WANG S, QIAN C F. CRF and rules-based recognition of medical institutions name in Chinese [J]. Computer Applications and Software, 2014, 31(3): 159-162.)
[15] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[C]// Proceedings of the 2016 Transactions of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 357-370
[16] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. [2018-12-02]. https://arxiv.org/pdf/1508.01991.pdf.
[17] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.
[18] REN X, WU Z, HE W, et al. CoType: joint extraction of typed entities and relations with knowledge bases[C]// Proceedings of the 26th International Conference on World Wide Web. New York: ACM, 2017: 1015-1024.
[19] SINGH S, RIEDEL S, MARTIN B, et al. Joint inference of entities, relations, and coreference[C]// Proceedings of the 2013 Workshop on Automated Knowledge Base Construction. New York: ACM, 2013: 1-6.
[20] LIN Y, SHEN S, LIU Z, et al. Neural relation extraction with selective attention over instances[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2124-2133.
[21] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]// Proceedings of the Thirty-First Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2017: 3060-3066.
[22] NARASIMHAN K, YALA A, BARZILAY R. Improving information extraction by acquiring external evidence with reinforcement learning[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2355-2365.
[23] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[24] TANG J, QU M, WANG M, et al. LINE: large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 1067-1077.
[25] GORMLEY M R, YU M, DREDZE M. Improved relation extraction with feature-rich compositional embedding models[C]// Proceedings of the 2015 Conference on Empirical Method in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1774-1784.
[26] HOFFMANN R, ZHANG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 541-550.