袁運新,樊騰飛,聶為之
(1. 天津大學 電氣自動化與信息工程學院,天津 300072;2. 天津大學 國際工程師學院,天津 300072)
近年來,隨著大數(shù)據(jù)時代的到來,文本數(shù)據(jù)海量增長,通過自然語言處理來獲取文本數(shù)據(jù)中的有效信息,可以更智能地應對用戶需求,給予用戶更好的使用體驗,因此該技術(shù)在電商平臺的智能客服系統(tǒng)、社交媒體平臺的輿情監(jiān)控以及購物平臺的個性化商品推薦等多個領(lǐng)域有著越來越廣泛的應用。在自然語言處理中,命名實體的有效識別,對相關(guān)信息的挖掘和分析起著至關(guān)重要的作用,其效果對于自然語言處理的后續(xù)任務,如關(guān)系抽取、問答系統(tǒng)、語義解析等有著直接聯(lián)系。
命名實體識別技術(shù)是自然語言處理領(lǐng)域中的一個重要分支,它是通過對文本數(shù)據(jù)進行序列標注,并設計有效的命名實體識別算法,從海量的文本數(shù)據(jù)中抽取出文本中的人名、地名、機構(gòu)名等具有實體意義的專有名稱并加以歸類,因此命名實體識別技術(shù)可以作為一種多分類任務,實現(xiàn)對海量文本數(shù)據(jù)中實體的準確識別。由于深度學習模型具有強大的泛化能力,利用神經(jīng)網(wǎng)絡方法使用大量人工標注數(shù)據(jù)集,能夠針對特定數(shù)據(jù)訓練得到高性能的實體識別模型,并取得不錯的效果,但是隨著大數(shù)據(jù)時代的不斷發(fā)展,文本數(shù)據(jù)中的實體類型變得愈發(fā)復雜多樣,特別是社交媒體[1]、生物醫(yī)學[2]等領(lǐng)域,實體組成結(jié)構(gòu)復雜,在不同領(lǐng)域場景下存在實體分類模糊等情況,使得用人工標注的方法標注大量訓練數(shù)據(jù)變得異常困難,耗時、耗力且代價昂貴,已經(jīng)無法滿足用戶需求。因此,如何經(jīng)濟、高效地從海量文本數(shù)據(jù)中獲取更多有效的監(jiān)督數(shù)據(jù)進行命名實體識別已經(jīng)成為自然語言處理中的重點研究問題。
針對實體信息的抽取,至今已經(jīng)有很多優(yōu)秀的方案和算法被提出,Lample等[3]提出的LSTM-CRF模型和Ma、Hovy等[4]提出的LSTM-CNNs-CRF模型利用句子整體語義信息識別實體,取得較好成果;Cetoli等[5]利用圖嵌入網(wǎng)絡挖掘句子中字詞依賴關(guān)系進行命名實體識別,但這些方法往往忽略了實體與句子中其他詞語的關(guān)聯(lián)關(guān)系,同時也不符合人實際的認知過程。在人工標注實體的工作中,人為識別句子中實體的方式一般是通過句子中相關(guān)短語和重要的詞進行判斷,例如,推理“Jack traveled a lot last month in Swadzxc.”這句話中的實體,可以根據(jù)“traveled ...in”這個短語推測單詞“in”后應該是一個地點實體,也就是可以選擇句子中的短語或者詞組來進行推理得到實體。但是通常在文本數(shù)據(jù)中短語類別繁多且詞組構(gòu)成復雜,這些短語和詞組數(shù)據(jù)若是通過人工標注獲取同樣顯得異常困難。因此,本文擬在現(xiàn)有實體標注數(shù)據(jù)的基礎(chǔ)之上,基于文本信息自身的相關(guān)性,并利用句子中的實體和其他詞之間的語義關(guān)聯(lián)性,來提高在開放環(huán)境下實體識別準確率。基于此思路,本文提出“實體聯(lián)合器”的概念,“實體聯(lián)合器”可以看作是實體的伴生詞語或伴生實體,往往一同出現(xiàn),屬于固定搭配,在語義表達上有一定的關(guān)聯(lián)性和一致性,這種“實體聯(lián)合器”可作為額外的監(jiān)督數(shù)據(jù)幫助模型進行命名實體識別。同時,實體聯(lián)合器往往由多個詞組成,具有一定的模式化,可以采用無監(jiān)督的方式,實現(xiàn)對未知文本中“實體聯(lián)合器”的識別,進而有效減少人工成本,實現(xiàn)對文本數(shù)據(jù)中實體的準確識別。
針對上述問題,本文提出一種基于語義相關(guān)性的命名實體識別模型。模型整體框架如圖1所示,首先,針對“實體聯(lián)合器”的識別問題,充分考慮實體聯(lián)合器組合的模式化及其與句子整體的關(guān)聯(lián)信息,利用圖結(jié)構(gòu)對關(guān)聯(lián)信息的表征作用,實現(xiàn)對文本信息中“實體聯(lián)合器”的有效識別。之后,通過實體聯(lián)合器與實體的強關(guān)聯(lián)性,構(gòu)建基于實體聯(lián)合器表征的實體識別模型,利用實體聯(lián)合器對實體特征的促進作用,實現(xiàn)實體識別模型魯棒性的提升,進而提升對文本數(shù)據(jù)實體識別的準確率。模型主要包含兩個子模塊: 實體聯(lián)合器識別模型和實體識別模型,后面會對其進行詳細介紹。本文主要貢獻如下:
(1) 提出“實體聯(lián)合器”的概念,并基于此提出一種基于語義關(guān)聯(lián)性的實體聯(lián)合器識別模型,通過文本關(guān)聯(lián)結(jié)構(gòu)信息實現(xiàn)對無標簽句子中實體聯(lián)合器的獲取。
(2) 基于實體聯(lián)合器表征的實體識別模型,充分利用句子、實體聯(lián)合器和實體的語義關(guān)聯(lián)性,構(gòu)建兩種有效的約束機制,即實體類型約束和特征一致性約束,加強實體聯(lián)合器在特征學習過程中的指導作用,實現(xiàn)對實體表征模型的性能提升,從而提高實體識別的準確性。
(3) 本文在公開的數(shù)據(jù)集CoNLL03和NCBI Disease上評估了模型的性能,并與現(xiàn)在具有代表性的命名實體識別模型進行比較分析,通過實驗證明了本文方法的優(yōu)越性。
隨著深度學習的不斷進步和發(fā)展,命名實體識別研究的重點已經(jīng)由原來的基于統(tǒng)計機器學習方法轉(zhuǎn)變?yōu)榛谏疃葘W習方法。通過神經(jīng)網(wǎng)絡方法利用現(xiàn)有的大量標注數(shù)據(jù)訓練命名實體識別模型,并取得了巨大成功。因此,本節(jié)將針對當前主流的命名實體識別算法進行介紹。Hammerton等[6]首次利用長短時記憶網(wǎng)絡(Long Short-Term Memory, LSTM)來處理命名實體識別任務,通過引入“門控”機制來控制信息的累計速度,從而解決了遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)中存在的長距離依賴問題;Collobert等[7]提出的CNN-CRF 模型將神經(jīng)網(wǎng)絡方法和條件隨機場結(jié)合,在命名實體識別中取得突破性進展;Huang等[8]將雙向長短時記憶網(wǎng)絡和CRF相結(jié)合來學習文本序列的上下文信息,并減少對字詞嵌入的依賴。Bahdanau等[9]首次將注意力機制與NLP領(lǐng)域相結(jié)合;Tan等[10]探索了將自注意力機制應用在序列標注問題中,學習句子內(nèi)部信息;ELMo[11]和BERT[12]等預訓練語言模型的出現(xiàn),通過對通用領(lǐng)域的文本進行預訓練,在命名實體識別任務中獲得顯著的性能提升。這些方法的共同點是利用現(xiàn)有的只標注實體的數(shù)據(jù)集訓練模型,但高質(zhì)量實體識別模型需要大量的人工標注數(shù)據(jù)。
近年來,關(guān)于如何減少人工標注以及高效利用現(xiàn)有的語料庫獲取額外的監(jiān)督信息問題越來越受關(guān)注。其中面對低資源的命名實體識別研究,主要工作是集中在基于詞典的遠程監(jiān)督方法上[13-14],這些方法使用特定領(lǐng)域?qū)嶓w詞典學習命名實體模型,不需要額外的人工;Lin等[15]和Shen等[16]利用主動學習方法進行序列標注,要求高效利用人工標注有用的實例進行命名實體識別;遷移學習方法[17-18]利用源域數(shù)據(jù)和模型完成目標域任務模型構(gòu)建,降低了目標域模型對標注數(shù)據(jù)數(shù)量的需求;Lan等[19]提出的Connet框架通過利用多源數(shù)據(jù)進行訓練,可以使用少量的監(jiān)督信息實現(xiàn)命名實體識別;Lin 和Lee等[20]通過人工標注額外的監(jiān)督信息進行命名實體識別。這些方法在一定程度上解決了人工標注費時費力的問題,并在部分公開數(shù)據(jù)集上取得了較好的識別效果,但這些方法要么是擺脫訓練數(shù)據(jù)或缺乏明確的標注過程,要么是通過人工標注額外的監(jiān)督信息來訓練模型以減少成本。因此,針對上述問題,本文考慮減少人工標注的同時,高效利用現(xiàn)有語料庫數(shù)據(jù),通過文本信息自身的相關(guān)性獲取更多重要的監(jiān)督數(shù)據(jù),幫助模型進行命名實體識別。
本文提出了一種基于語義相關(guān)性的命名實體識別算法模型(圖1),主要包含實體聯(lián)合器識別模型Cm和實體識別模型Em兩個子模型,訓練過程通過兩階段訓練: 先進行實體聯(lián)合器識別模型訓練,將其輸出的結(jié)果再次作用于實體識別模型,并進行實體識別模型訓練,進而提升對輸入文本數(shù)據(jù)的識別準確度,具體如下: ①實體聯(lián)合器識別模型: 通過對文本數(shù)據(jù)的預處理構(gòu)造句子圖Gs,并以中心詞節(jié)點xi的一階鄰居詞節(jié)點子圖進行分解,將中心詞節(jié)點所對應的N個詞節(jié)點子圖Gw作為圖嵌入網(wǎng)絡的輸入獲取詞節(jié)點嵌入特征矩陣Fw,設計一個分類器實現(xiàn)了詞節(jié)點的分類,進而獲取句子中的實體聯(lián)合器; ②實體識別模型: 將實體聯(lián)合器識別模型的輸出結(jié)果以及原始文本數(shù)據(jù)作為實體識別模型的輸入,通過詞嵌入層,并經(jīng)由BiLSTM層和Structured Attention層之后獲取更全面的語義信息,形成基于注意力表征的句子特征fs和實體聯(lián)合器特征fc,為了學習與增強實體聯(lián)合器的特征表示,本文設計了兩種約束機制,強化實體聯(lián)合器在特征學習過程中的指導作用;基于全局注意力機制融合原始句子隱藏層狀態(tài)特征H和fc,獲取實體聯(lián)合器增強表示的句子特征H′;將H′與H相連接作為CRF的輸入進行序列標注,實現(xiàn)了對句子中實體的精準識別。下面對本文方法進行詳細介紹。
該網(wǎng)絡模型的輸入為文本信息,對于給定的訓練數(shù)據(jù)集中的一個句子x={x1,x2,…,xN},對應標簽為y={y1,y2,…,yN},其中,xi表示句子中每個詞,yi為每個詞xi所對應的標簽類別,可以為{O, B-PER, I-PER, B-MISC, I-MISC, …}。由于句子中實體詞和非實體詞之間存在一定的語義關(guān)系,因此本文利用詞向量之間的語義相似度,獲取句子中和實體語義密切相關(guān)的一系列詞,并將其作為額外的監(jiān)督數(shù)據(jù)幫助模型進行命名實體識別,這些詞被定義為: 實體聯(lián)合器,即實體e可由實體聯(lián)合器表示:t={(x1,x2…)→e}。高質(zhì)量的詞向量表示對于實體聯(lián)合器的獲取至關(guān)重要,為了更準確獲取低頻詞的詞向量并充分捕獲每個單詞內(nèi)部結(jié)構(gòu)信息,本文采用基于詞級別和字符級別的向量,得到每一個詞xi所對應的詞向量Wi=[wi:ci],其中詞級別向量wi從100維Glove[21]預訓練詞向量中獲取,字符級別向量ci利用Xin等[22]所提方法進行學習。通過句子中實體詞向量We和其他非實體詞向量Wo相互內(nèi)積得到內(nèi)積分數(shù)Escore=〈We,Wo〉,再利用歸一化方法將Escore歸一化到區(qū)間[0,1],選擇歸一化分數(shù)大于閾值α1(0≤α1≤1)的詞作為實體聯(lián)合器詞。如圖2所展示的示例,實體詞和另外7個非實體詞所對應的詞向量內(nèi)積分數(shù)Escore的歸一化分數(shù)分別為“0.66,1,0.81,0.87,0.13,0.77,0”,若取α1=0.7時,則選擇“had a pleasant ... with”作為Thomas這個B-PER實體的實體聯(lián)合器t1={x2,x3,x4,x6}。由于句子中可能存在多個實體{e1,e2,…},因此需要先轉(zhuǎn)換數(shù)據(jù)格式以確保每個句子中僅僅存在一個實體標注,最終獲取的新訓練數(shù)據(jù)包含一個實體和該實體所對應的實體聯(lián)合器標注數(shù)據(jù)。
圖2 實體聯(lián)合器示例
通常情況下,句子中實體聯(lián)合器詞個數(shù)多于實體詞個數(shù),所以句子中實體聯(lián)合器一般比實體含有更加豐富的結(jié)構(gòu)信息,同時由于實體聯(lián)合器往往為固定的搭配,彼此的關(guān)聯(lián)性更緊密,而圖嵌入網(wǎng)絡能夠很好地捕獲這些結(jié)構(gòu)信息,因此本文探索了引入圖嵌入網(wǎng)絡并基于子圖之間的關(guān)聯(lián)性,充分利用句子中實體聯(lián)合器的結(jié)構(gòu)信息,通過文本關(guān)聯(lián)結(jié)構(gòu)信息實現(xiàn)實體聯(lián)合器的抽取。實體聯(lián)合器識別模型如圖3所示,主要包括圖構(gòu)造和圖嵌入兩部分,下面進行具體介紹。
圖3 實體聯(lián)合器識別模型結(jié)構(gòu)圖
2.2.1 圖構(gòu)造
由于原始句子是沒有圖結(jié)構(gòu)的純文本,并且自然語言語句中包含歧義現(xiàn)象,在圖構(gòu)造過程中會存在語句與圖的映射之間在語義上形成一對多的關(guān)系,因此本文基于輸入的文本序列信息,利用詞與詞之間的語義相似度關(guān)系,通過順序邊和語義邊進行融合,構(gòu)造一張圖Gs=(V,E)保存這個句子的語義信息和結(jié)構(gòu)信息,其中,V是詞節(jié)點x1,x2,…,xN的集合,E是邊的集合,具體邊構(gòu)造方式如下: ①順序邊: 按照句子中詞節(jié)點x1,x2,…,xN的順序依次連接,保證了詞節(jié)點間的結(jié)構(gòu)順序,允許利用句子的上下文信息; ②語義邊: 根據(jù)句子中詞節(jié)點xi和xj對應的詞向量Wi和Wj相互內(nèi)積得到內(nèi)積分數(shù)Escore=〈Wi,Wj〉,其中1≤i,j≤N且i≠j,利用歸一化方法將Escore歸一化到區(qū)間[0,1],選擇歸一化分數(shù)大于閾值α2的詞節(jié)點xi和xj進行連接,保存了語義相關(guān)的詞與詞之間的結(jié)構(gòu)信息。
2.2.2 圖嵌入
為了進一步對句子圖的詞節(jié)點進行分類,依次選取詞節(jié)點xi作為中心詞節(jié)點,并取其一階鄰居子圖將句子圖Gs分解為N個詞節(jié)點子圖Gw,并添加一個節(jié)點特征,從而區(qū)分詞節(jié)點子圖的中心詞節(jié)點和其他詞節(jié)點;然后利用圖神經(jīng)網(wǎng)絡(GNN)[23]嵌入詞節(jié)點子圖Gw,捕獲中心詞節(jié)點的一階鄰居子圖的結(jié)構(gòu)信息,并將這些結(jié)構(gòu)信息聚合到中心詞節(jié)點xi,獲取每一個中心詞節(jié)點的嵌入特征fi,得到詞節(jié)點嵌入特征矩陣Fw={f1,f2,…,fN},最終通過一個分類器,獲取每一個中心詞節(jié)點的分數(shù)Si,如式(1)所示。
Si=Softmax(Q2relu(Q1Fw))
(1)
其中,Q1,Q2分別為可學習參數(shù)矩陣。
為了對句子圖中的詞節(jié)點進行分類,進而獲取句子中的實體聯(lián)合器詞,將標注為實體聯(lián)合器的詞節(jié)點作為真實標簽,并引入交叉熵損失函數(shù),如式(2)所示。
Lgraph=-∑S′ilog(Si)
(2)
其中,S′i代表當前樣本所屬類別的one-hot編碼。
為了將實體聯(lián)合器作為額外的監(jiān)督數(shù)據(jù),聯(lián)合句子幫助模型進行實體識別,增強模型的泛化、遷移能力,通過特征增強和序列標注兩個階段聯(lián)合訓練實現(xiàn)對句子中實體的精準識別。其中,特征增強階段采用經(jīng)典的BiLSTM網(wǎng)絡提取句子中詞語的語義表征,并引入兩種注意力機制分別關(guān)注句子和實體聯(lián)合器中的局部和全局語義信息,通過利用兩種約束機制對實體聯(lián)合器特征進行增強表示,即設計兩種損失函數(shù)分別對實體類型和特征一致性進行約束,確保實體聯(lián)合器在特征學習過程中的指導作用;序列標注階段利用條件隨機場(CRF)[24]作為解碼器獲取實體。
特征增強階段對于輸入的帶有實體和實體聯(lián)合器標注的新訓練數(shù)據(jù),通過詞嵌入層獲取每一個詞xi所對應的詞向量Wi,并輸入到BiLSTM層提取句子中每個詞xi所對應的隱藏層狀態(tài)特征hi;為了更多地關(guān)注句子局部的語義信息,通過引入結(jié)構(gòu)化注意力機制(Structured Attention)[25]學習多組權(quán)重向量來擬合句子中不同成份的重要性,深入捕獲句子和實體聯(lián)合器語義信息,獲取基于注意力表征的句子特征fs和實體聯(lián)合器特征fc,從而增強句子和實體聯(lián)合器的語義特征表示,并有效去除文本冗余信息。計算方式如式(3)、式(4)所示。
其中,H代表了句子中所有詞的隱藏層特征矩陣,C代表了句子中所有實體聯(lián)合器詞的隱藏層特征矩陣,U1和和U2代表了計算句子和實體聯(lián)合器注意力分數(shù)的可學習參數(shù)矩陣,αs和αc分別代表了句子和實體聯(lián)合器特征的注意力權(quán)重。
為了把關(guān)聯(lián)實體的類型作為監(jiān)督來指導實體聯(lián)合器特征表示,采用了經(jīng)典的交叉熵損失函數(shù)實現(xiàn)對實體類型約束,如式(5)所示。
LC=-∑logP(type(e)|fc)
(5)
其中,type(e)表示實體e的標簽類別。
(6)
其中,margin為邊界閾值,s(·)為特征相似度度量函數(shù),本文采用歐氏距離來計算兩兩特征之間的距離。
為了進一步融合原始句子的隱藏層特征H和基于注意表征的實體聯(lián)合器特征fc,獲取基于實體聯(lián)合器增強表示的句子特征H′,通過引入全局注意力機制(Global Attention)[26],關(guān)注當前單詞與句子中其他單詞的相關(guān)性,得到該單詞在句子層面的特征表示,深入學習句級別的語義信息,如式(7)所示。
(7)
其中,v,W1,W2為可學習參數(shù)矩陣,α為實體聯(lián)合器增強的句子特征的注意力權(quán)重。將原始句子隱藏層特征H和H′相連接(H+H′)作為CRF層的輸入。
序列標注階段本文所使用的CRF已經(jīng)被廣泛應用在最優(yōu)的命名實體識別模型中[3-4]。CRF主要是通過在兩個連續(xù)標簽之間添加轉(zhuǎn)移分數(shù)來增強標簽之間的依賴性,以及在解碼過程利用維特比算法計算最佳標注序列,從而幫助模型進行更好的判別分類。對于輸入文本序列x的標注序列y的分數(shù)Score(x,y),如式(8)所示。
(8)
其中,Pi,yi表示第i個詞對應的第j個標簽的得分,Tyi,yi+1表示標簽yi到y(tǒng)i+1的轉(zhuǎn)移分數(shù)。
則標注序列y的概率為:
(9)
在訓練階段,采用極大對數(shù)似然估計進行目標優(yōu)化,如式(10)所示。
(10)
最終進行解碼獲取最高分數(shù)的序列標注結(jié)果,如式(11)所示。
(11)
綜合上述分析,序列標注模型的損失函數(shù)如式(12)所示。
L=LCRF+λLC+βLM
(12)
其中,λ,β為訓練超參數(shù)。
因此基于語義相關(guān)性的命名實體識別算法步驟如算法1所示。
算法1: 基于語義相關(guān)性的命名實體識別算法輸入: 輸入文本x和實體標簽y,實體聯(lián)合器t輸出: 文本中每個詞對應的實體標簽y*(1) 初始化實體聯(lián)合器識別模型Cm和實體識別模型Em的參數(shù);(2) 固定Em的模型參數(shù),基于式(2)優(yōu)化實體聯(lián)合識別模型Cm的參數(shù)(3) 重復(2)的步驟,優(yōu)化式(2)(4) 將實體聯(lián)合器識別模型的輸出t*以及x作為實體識別模型的輸入(5) 固定Cm的模型參數(shù),基于式(12)優(yōu)化實體識別模型Em的參數(shù)(6) 重復(4)-(5)的步驟,優(yōu)化式(12)(7) 返回文本中每個詞對應的實體標簽y*
對于無標簽文本數(shù)據(jù)的實體識別,由于不能依賴實體標注信息獲取實體聯(lián)合器,首先將輸入的無標簽句子通過先前訓練好的實體聯(lián)合器識別模型,準確獲取無標簽句子中與實體高相關(guān)性的實體聯(lián)合器,并將其作為額外的監(jiān)督數(shù)據(jù)聯(lián)合無標簽句子共同通過實體識別模型,增強模型泛化、遷移能力,進而高效實現(xiàn)對無標簽句子中實體的精準識別。無標簽文本數(shù)據(jù)的實體識別過程如圖4所示。
圖4 無標簽文本數(shù)據(jù)的實體識別過程
為了充分地對本文模型性能進行評測,采用經(jīng)典的命名實體識別數(shù)據(jù)集CoNLL03[27]、NCBI Disease[28]。其中,CoNLL03是通用領(lǐng)域數(shù)據(jù)集,由1 393篇英文新聞文章組成,包含22 137個句子,通過人工標注四種實體類型: 地名(LOC)、組織機構(gòu)名(ORG)、人名(PER)、混合型(MISC),參考經(jīng)典方法[4]中的數(shù)據(jù)集劃分方式。NCBI Disease為生物醫(yī)學領(lǐng)域數(shù)據(jù)集,由793篇文章中的題目和摘要組成,通過人工標注6 892個疾病(DISEASE)實體,訓練集、驗證集、測試集分別取593、100、100篇文章中的句子組成。對于命名實體識別任務,采用精確率(P),召回率(R)和F1值(F1)評估實體識別的效果,若人工標注的實體類別和預測的實體類別完全一致,則認為識別正確。
參考流行方法[3-4],使用BiLSTM-CRF作為本文模型的基本網(wǎng)絡框架,對于輸入的文本數(shù)據(jù),利用公開的100維預訓練詞向量Glove[21]以及Xin等[22]所提方法訓練字符向量,實體聯(lián)合器識別模型和實體識別模型所使用的學習率分別為1e-4和1e-3,并利用Adam對其參數(shù)進行優(yōu)化;α1和α2閾值都設置為0.7;GNN和BiLSTM的隱藏層設置分別設置為64和200。
為了驗證本文所提方法的有效性,本文在CoNLL03和NCBI Disease數(shù)據(jù)集上與其他現(xiàn)存的先進方法進行性能對比實驗。實驗結(jié)果如表1和表2所示。由于所使用的數(shù)據(jù)集屬于不同領(lǐng)域,我們將對比模型分為兩類: ①對于通用領(lǐng)域CoNLL03數(shù)據(jù)集采用以下對比模型: Ma和Hovy等[4]提出的BiLSTM-CRF網(wǎng)絡充分利用句子上下文語義信息進行實體識別;Yang和Zhang等[29]公開的一個序列標注工具包NCRF++;Qian等[30]基于圖網(wǎng)絡學習局部和非局部上下文語義表示來改善實體識別模型性能;Reimers等[31]和Souza等[32]引入預訓練模型進行命名實體識別任務。②對于生物醫(yī)學領(lǐng)域NCBI Disease數(shù)據(jù)集采用以下對比模型: Zhao等[33]通過聯(lián)合多種詞嵌入方式,使用卷積神經(jīng)網(wǎng)絡捕獲相鄰標簽之間的信息進行命名實體識別;Yoon等[34]提出了CollaboNet模型協(xié)同多個NER模型,解決數(shù)據(jù)缺乏和實體類型錯誤分類問題;Ling等[35]提出了一種基于知識增強的LSTM-CRF模型,用于疾病命名實體識別領(lǐng)域;Wang等[36]通過多任務學習框架MTM-CW,以共同使用不同類型的訓練數(shù)據(jù)改善模型性能;Derbel等[37]通過捕獲單詞間依賴關(guān)系并結(jié)合BiLSTM網(wǎng)絡對生物醫(yī)學領(lǐng)域文本進行實體提取。
表1 CoNLL03數(shù)據(jù)集上的模型性能對比 (單位: %)
表2 NCBI Disease數(shù)據(jù)集上的模型性能對比 (單位: %)
在CoNLL03數(shù)據(jù)集上,本文方法相比于最優(yōu)的GrpahIE具有更優(yōu)的性能,在F1值上提升了0.35%;而相比于采用預訓練模型的ELMo+BILSTM,在F1值上提升0.59%,并且本文方法相較于對比模型的精確率和召回率都有一定的提升;在NCBI Disease數(shù)據(jù)集上,相比于最優(yōu)的MTM-CW算法,本文模型在F1值上提升了1.2%,相較于利用知識增強思想的KE-LSTM-CRF模型,本文方法在F1值提升了2.04%,除此之外,相關(guān)對比方法一般是針對生物醫(yī)學領(lǐng)域的實體識別。對比實驗結(jié)果表明,本文方法通過將實體聯(lián)合器作為額外的監(jiān)督數(shù)據(jù),聯(lián)合句子進行命名實體識別,能夠有效提高模型的泛化、遷移能力,在不同領(lǐng)域的數(shù)據(jù)集上相對于其他對比模型都取得最優(yōu)的結(jié)果,并且針對小數(shù)據(jù)集提升效果更加明顯。
表3給出了本文所提出實體聯(lián)合器識別模型性能分析對比實驗結(jié)果。在CoNLL03和NCBI Disease數(shù)據(jù)集上,對于實體聯(lián)合器識別任務,采用實體聯(lián)合器識別模型所獲取的F1比BiLSTM-CRF分別提升7.22%和10.1%;對于實體識別任務,本文方法引入實體聯(lián)合器識別模型,相較于沒有實體聯(lián)合器識別模型作用的基準模型BILSTM-CRF,具有更優(yōu)的性能,在這兩個數(shù)據(jù)集上分別提升0.88%和1.54%。實驗結(jié)果表明,本文所提出的實體聯(lián)合器識別模型能夠充分利用句子和實體聯(lián)合器之間的關(guān)聯(lián)信息,通過圖結(jié)構(gòu)對關(guān)聯(lián)信息的表征作用,準確獲取文本數(shù)據(jù)中的實體聯(lián)合器。同時,本文方法將所獲取的實體聯(lián)合器作為額外的監(jiān)督數(shù)據(jù)和句子共同作用于實體識別模型進行命名實體識別,能夠基于實體聯(lián)合器與實體的強關(guān)聯(lián)性提升模型的魯棒性,充分利用句子、實體聯(lián)合器和實體的語義關(guān)聯(lián)性,進而提高模型對于文本數(shù)據(jù)實體識別的準確性。
表3 實體聯(lián)合器識別模型性能分析實驗結(jié)果 (單位: %)
本文針對實體識別模型的目標優(yōu)化函數(shù)設計了三個重要的損失函數(shù)項,通過對不同損失函數(shù)項所對應網(wǎng)絡結(jié)構(gòu)的調(diào)整,分析了不同損失函數(shù)組合對模型性能的影響。表4給出了本文模型在CoNLL03和NCBI Disease數(shù)據(jù)集上不同損失函數(shù)組合的實驗結(jié)果。通過分析表4可知,單獨采用LCRF損失函數(shù)得到的F1值要低于多損失函數(shù)聯(lián)合優(yōu)化的性能。其中,加入LC損失后,在CoNLL03數(shù)據(jù)集上F1值提升0.48%,NCBI Disease數(shù)據(jù)集上F1值提升了1.08%;加入LM損失后,在CoNLL03和NCBI Disease數(shù)據(jù)集上F1值分別提升了0.27%和0.63%;兩者都加入時,在CoNLL03和NCBI Disease數(shù)據(jù)集上F1值分別提升了0.8%和1.67%。該結(jié)果表明,所設計的實體類型約束和特征一致性約束,強化了實體聯(lián)合器在特征學習過程中的指導作用,進而提高模型實體抽取能力。
表4 消融實驗結(jié)果 (單位: %)
為了進一步證明本文所提出的實體聯(lián)合器作為額外監(jiān)督數(shù)據(jù)能夠增強模型的實體識別能力,圖5和圖6給出了本文方法和基準模型BiLSTM-CRF在不同比例大小的CoNLL03和NCBI Disease數(shù)據(jù)集上模型性能對比實驗。通過實驗結(jié)果分析可知,在兩個數(shù)據(jù)集上都呈現(xiàn)相似的結(jié)果,對于不同比例大小的訓練集,本文方法的F1值相較于基準模型BiLSTM-CRF都有所提升。從圖中結(jié)果也可以看出,本文方法在CoNLL03和NCBI Disease數(shù)據(jù)集上,分別使用15%和20%的訓練數(shù)據(jù)便可達到BiLSTM-CRF模型使用60%的效果,并且使用50%的訓練數(shù)據(jù)便可獲得BiLSTM-CRF模型使用全部訓練數(shù)據(jù)的結(jié)果。該結(jié)果表明,利用本文方法將實體聯(lián)合器作為額外的監(jiān)督數(shù)據(jù)訓練模型不僅可以使用更少的人工標注數(shù)據(jù)減少人工成本,而且對于增強小數(shù)據(jù)集上模型性能具有促進作用。
圖5 不同比例的CoNLL03訓練集上模型性能對比
圖6 不同比例的NCBI Disease訓練集上模型性能對比
圖7展示了本文所提出方法在命名實體識別任務上的定性對比實驗結(jié)果。如圖7中所展示的4個示例,通過使用本文模型能夠正確識別其中三個示例,而利用BiLSTM-CRF模型僅能正確識別一個示例,從而直觀地證明了本文所提方法的有效性。通過示例2和示例3對比分析可以發(fā)現(xiàn),對于BiLSTM-CRF模型識別文本數(shù)據(jù)中的實體存在識別實體標簽不完全和順序不一致問題,而本文方法通過將實體聯(lián)合器作為額外的監(jiān)督數(shù)據(jù),能夠有助于模型正確識別文本數(shù)據(jù)中的實體,解決了上述問題,進而證明了本文方法的合理性;但是進一步分析發(fā)現(xiàn),本文方法的實體識別效果仍具有改進空間,比如示例4中所識別實體標簽類別相較于BiLSTM-CRF模型雖然更完善,但是與真實實體標簽類別還不完全一致,推測原因可能是由于實體聯(lián)合器的識別效果對于模型性能存在一定影響,不過對于存在的相關(guān)問題還需進一步分析模型的實體識別結(jié)果,從而探索更優(yōu)化的算法模型。
圖7 命名實體識別案例
本文提出了一種基于語義相關(guān)性的命名實體識別算法。首先經(jīng)濟高效地利用現(xiàn)有語料庫,通過文本自身信息的語義相關(guān)性引入“實體聯(lián)合器”作為額外的監(jiān)督數(shù)據(jù),幫助模型進行命名實體識別。在此基礎(chǔ)上,提出了基于語義關(guān)聯(lián)性的實體聯(lián)合器識別模型,充分利用句子和實體聯(lián)合器的關(guān)聯(lián)信息,通過圖結(jié)構(gòu)強化關(guān)聯(lián)信息的特征表示,從而有效識別無標簽句子中的實體聯(lián)合器,并將其作用于實體識別模型,通過特征融合機制將實體聯(lián)合器和句子進行融合,充分捕獲實體聯(lián)合器和句子的語義信息,同時構(gòu)建兩種損失函數(shù),強化實體聯(lián)合器在特征學習過程中的指導作用,增強模型泛化、遷移能力,進而提高模型對文本數(shù)據(jù)中實體識別的準確性。通過在兩個流行數(shù)據(jù)集上的評測,證明了所提方法在命名實體識別任務中的優(yōu)越性和網(wǎng)絡結(jié)構(gòu)合理性。