胡新棒,于溆喬,李邵梅,張建朋
(1.中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué) 信息技術(shù)研究所,鄭州 450003;2.墨爾本大學(xué),澳大利亞 墨爾本3010)
命名實體識別(Named Entity Recognition,NER)旨在從非結(jié)構(gòu)化的文本中抽取人名、地名、結(jié)構(gòu)名等實體,是自然語言處理中的重要任務(wù)之一,也通常被認為是關(guān)系抽?。?]、語義解析[2]、問答系統(tǒng)[3]等下游任務(wù)的基礎(chǔ)?,F(xiàn)有的命名實體識別方法主要分為基于傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)兩種。最大熵模型[4]、隱馬爾科夫模型[5-6]、條件隨機場(Conditional Ramdom Field,CRF)[7]等基于傳統(tǒng)機器學(xué)習(xí)的命名實體識別方法需要投入大量的人力進行語料標注與特征模板設(shè)計,實現(xiàn)成本較高?;谏疃葘W(xué)習(xí)的命名實體識別方法由于具有強大的泛化能力,因此成為當前的主流方法。對于基于深度學(xué)習(xí)的中文命名實體識別模型而言,當模型使用字符嵌入時受未登錄(Out-of-Vocabulary,OOV)詞影響較小[8-9],當模型使用詞嵌入時能充分利用詞邊界信息并減少一字多義的干擾。為兼顧兩者的優(yōu)勢,文獻[10]聯(lián)合字符嵌入與詞嵌入,提出Lattice LSTM 模型,通過融合字詞信息,提高了模型的泛化能力。然而,由于無法獲取詞內(nèi)部信息,該模型在融合過程中存在信息損失的問題,同時,由于長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的單向鏈式結(jié)構(gòu),模型無法并行計算,因此時間復(fù)雜度較高。在此基礎(chǔ)上,各種改進模型不斷被提出。為減少字詞信息融合過程中的信息損失,文獻[11-13]將字詞信息融合過程由鏈式結(jié)構(gòu)轉(zhuǎn)換為圖結(jié)構(gòu),分別提出基于協(xié)作圖網(wǎng)絡(luò)的CGN 模型、增強全局信息捕捉能力的LGN 模型、通過多維圖解決詞典匹配沖突的Multi-digraph 模型。為提高運行速度:文獻[14]通過構(gòu)建SoftLexicon 策略,將字詞信息融合改為靜態(tài)加權(quán)方式,降低融合成本;文獻[15]提出LR-CNN 模型,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的并行化優(yōu)勢,代替長短時記憶網(wǎng)絡(luò)進行特征抽取;文獻[16-17]分別提出FLAT 模型和PLTE 模型,引入transformer 進行序列編碼,提高模型并行能力。
隨著基于字詞聯(lián)合的命名實體識別模型不斷被提出,中文命名實體的識別效果得到了較大提升,但仍有一些共性問題難以解決。人名、地名等專有名詞在通用語料中出現(xiàn)頻率較低且構(gòu)詞方式無固定規(guī)律,模型中所用word2vec[18]構(gòu)建的詞向量對這些低頻詞的覆蓋率不高,相應(yīng)的未登錄詞會干擾實體邊界的界定。以“代表團視察了約旦河”為例,由于“約旦河”在詞向量中屬于未登錄詞,基于字詞聯(lián)合的命名實體識別模型更傾向于將“約旦”識別為一個實體?;谏疃葘W(xué)習(xí)的命名實體識別模型依賴于大規(guī)模訓(xùn)練語料,而大多數(shù)人工標記的實體識別數(shù)據(jù)集規(guī)模相對較小,如何利用小樣本學(xué)習(xí)方法提升中文命名實體識別的效果有待進一步研究。
為解決上述問題,本文在現(xiàn)有的LR-CNN 模型上進行改進,提出一種基于知識增強的命名實體識別模型AKE。使用改進位置編碼的多頭注意力機制捕捉長距離依賴,彌補傳統(tǒng)注意力機制丟失位置信息的缺陷,以提高模型上下文信息捕捉能力。加入知識增強模塊,在序列編碼過程中融入實體類別、邊界等附加知識,弱化未登錄詞的影響并緩解模型在小數(shù)據(jù)集上性能表現(xiàn)不佳等問題。
本文提出的AKE 模型的整體結(jié)構(gòu)如圖1 所示,根據(jù)功能可大致分為字詞聯(lián)合、知識增強、解碼3 個模塊。字詞聯(lián)合模塊根據(jù)匹配詞長度,對字詞信息進行分層融合。在各層中,首先依據(jù)CNN 所用卷積核尺度不同,獲取所在層相應(yīng)長度的詞組序列;然后經(jīng)由改進位置編碼的自注意力機制,捕獲序列的長距離依賴;最后與匹配詞進行信息融合,得到本層的字詞聯(lián)合結(jié)果。知識增強模塊通過查詢基于領(lǐng)域知識等構(gòu)建的實體詞典,指導(dǎo)字詞聯(lián)合模塊中不同層所得信息的整合,在最終的序列編碼中加入實體邊界、類別等附加知識。解碼模塊使用條件隨機場對知識增強后的編碼進行標注,得到標注結(jié)果序列。依據(jù)處理流程,下文將分別對模型的3 個模塊進行介紹。
圖1 AKE 模型的整體結(jié)構(gòu)Fig.1 Overall structure of AKE model
GUI 等[15]利用CNN 局部特征提取的天然優(yōu)勢和優(yōu)秀的并行能力,提出LR-CNN 模型,為字詞信息的融合提供了新的思路。然而,盡管該模型的字詞聯(lián)合模塊中,各層CNN 的層內(nèi)可以充分利用并行計算的優(yōu)勢,但CNN 層間為串行執(zhí)行,當CNN 層數(shù)較多時,模型依然存在復(fù)雜度較高的問題。本文在LR-CNN 模型的基礎(chǔ)上,對其中的字詞聯(lián)合模塊進行改進,首先將各層CNN 改為層間并行,各層同時進行特征抽取,提高模型運行速度,然后用基于相對位置編碼的多頭注意力機制捕獲長距離依賴,進一步提高字詞聯(lián)合模塊的表征能力。
字詞聯(lián)合模塊中各層字詞信息的融合結(jié)果,由CNN 所提取的n-gram 的特征信息、對應(yīng)詞嵌入序列、上一層融合結(jié)果經(jīng)門控網(wǎng)絡(luò)得到,其計算過程可分為基于CNN 的n-gram 特征信息提取、字詞信息初步融合、字詞信息融合權(quán)重調(diào)整3 個步驟。
1.1.1 基于CNN 的n-gram 特征信息提取
在字詞融合模塊中具有3 層CNN,CNN1、CNN2、CNN3的卷積核分別為HC、HD、HT,以輸入序列X={x1,x2,…,xn}長度為n為例。在各層中,CNN分別對1-gram、2-gram、3-gram 的片段進行特征提取,經(jīng)非線 性變換,得 到C={c1,c2,…,cn}、D={d1,d2,…,dn}、T={t1,t2,…,tn}特征序列,對于時刻τ(1≤τ≤n):
其中:bC、bD、bT為偏置。
受CNN 感受野限制,得到的特征序列C、D、T缺少長距離信息,在LR-CNN 模型中,傳統(tǒng)注意力機制雖然對此問題進行了彌補,但由于位置編碼存在的缺陷,模型會損失距離信息與方向信息。對于命名實體識別等序列標注任務(wù),上文標注內(nèi)容會影響下文標注結(jié)果,距離與方向信息的損失會對模型產(chǎn)生負面影響。為解決上述問題,采用基于相對位置編碼的多頭注意力機制[19-20]構(gòu)建上下文關(guān)系。在新的注意力機制中,對于輸入序列中的時刻t,將時刻j的相對位置嵌入定義如下:
因此,針對不同方向的相對位置τ與-τ,可得到如式(3)所示的相對位置嵌入。顯然,相比傳統(tǒng)注意力機制中的位置嵌入,該位置嵌入方式能夠在表征距離信息的同時保留方向信息。
在改進位置嵌入的基礎(chǔ)上,注意力機制的具體計算如下:對于長度為l、嵌入維度為d的輸入序列I,由式(4)得到注意力機制中嵌入維度為dk的Q、K、V,進而由式(5)計算時刻j對序列中的時刻t的注意力概率分布,由式(6)和式(7)得到整個序列的注意力。
經(jīng)多頭注意力機制后,將得到的C′、D′、T′送入下一步進行字詞信息的融合。
1.1.2 字詞信息初步融合
各層字詞信息的融合可由式(7)中所提取n-gram 的特征信息C′、D′、T′,對應(yīng)詞嵌入序列Z、下層融合結(jié)果經(jīng)門控網(wǎng)絡(luò)得到。由于word2vec 構(gòu)建的詞向量會對低頻詞進行過濾,而常用詞一般較短,使得詞長度越長時未登錄詞越普遍,通過在門控網(wǎng)絡(luò)中引入下層融合結(jié)果,可以緩解上層未登錄詞較多導(dǎo)致詞義偏差過大的問題。
本節(jié)以雙字層序列D″={d″1,d″2,…,d″n}的獲取為例,說明各層字詞信息的融合過程,具體計算為:將2-gram 提取到的特征序列D′與雙字詞的詞嵌入序列ZD進行初步融合得到u1,同時引入殘差連接促進前后向信息傳播。融合結(jié)果D1的獲取過程如式(8)~式(12)所示:
在得到2-gram 的特征信息與雙字詞詞嵌入序列的融合結(jié)果D1后,將字符層序列C″與D1融合,得到字詞信息的初步融合結(jié)果
其中:Wg、bg為線性函數(shù)中的權(quán)重系數(shù)與偏置。經(jīng)過這一步融合,上層序列融入了下層的信息,并不斷向上進行傳遞,緩解了未登錄詞過多導(dǎo)致詞義偏差過大的問題。經(jīng)過同樣的操作,得到單字層、三字層的初步融合結(jié)果中融入了各層的信息。
1.1.3 字詞信息融合權(quán)重調(diào)整
雖然字詞信息初步融合中操作對字級信息、詞級信息、下層信息進行了融合,但得到時三者融合的權(quán)重可能不夠合理。同時,字詞信息初步融合中得到的最高層序列中融入了各層的信息,為緩解上述權(quán)重不合理的問題,按照式(15)~式(19),將初步融合結(jié)果中最上層序列作為附加輸入,與2-gram提取到的特征序列D′、雙字詞的詞嵌入序列ZD進行融合,調(diào)整融合過程中的權(quán)重。
現(xiàn)有中文命名實體識別模型難以取得重大突破的重要原因在于:大多數(shù)中文人名、常用地名等專有名詞構(gòu)詞方式無固定規(guī)律,實體邊界確定困難;低頻實體在詞向量中存在大量未登錄詞,識別效果較差。因此,解決這些問題是命名實體識別研究的重要內(nèi)容。但是,中文人名、常用地名、特定領(lǐng)域名詞等實體的數(shù)量相對有限,基于這些知識構(gòu)建實體詞典較為容易。因此,充分利用此類實體詞典,在模型中加入先驗知識,對增強命名實體識別模型的泛化能力、遷移能力,提高在小數(shù)據(jù)集和特定領(lǐng)域的實體識別效果具有重要意義。然而,如何利用實體詞典存在一定的挑戰(zhàn)。首先,由于新詞引入、統(tǒng)計缺漏、實體劃分粒度差異等問題,基于現(xiàn)有知識構(gòu)建的實體詞典很難覆蓋領(lǐng)域內(nèi)所有實體;其次,通過實體詞典得到的匹配結(jié)果存在部分錯誤,如“戰(zhàn)爭全方位爆發(fā)了”這句話中,“全方”可能被誤識別為人名實體。由于上述缺漏與匹配錯誤的情況,當使用神經(jīng)網(wǎng)絡(luò)中常用的向量拼接、向量相加等特征組合方式,將實體詞典中的知識融入模型時,反而可能因噪聲問題對模型產(chǎn)生負面影響。
受注意力機制的啟發(fā),本文在字詞聯(lián)合模塊的基礎(chǔ)上,通過影響不同層序列的權(quán)重整合進行知識增強。如圖2 所示,對于經(jīng)字詞聯(lián)合分別得到單字、雙字、三字層序列C″、D″、T″,時刻τ的對應(yīng)編碼分別為c″τ、d″τ、t″τ,通過加 權(quán)求和 各層中 相應(yīng)位 置的權(quán) 重可以得到該時刻的最終編碼xτ′:
對于圖2 中類似“代表團”中的“代”字,因為實體詞典中無匹配項,所以模型將按照式(23)計算各層權(quán)重:
圖2 知識增強流程Fig.2 Procedure of knowledge enhancement
由于“約旦河”為輸入序列在實體詞典中的一個匹配實體,且長于匹配詞“約旦”,模型可依據(jù)式(24),將Δ與匹配實體所在層對應(yīng)位置的編碼相乘,計算“約旦河”三字的最終編碼。
其 中,Δ=ΔLOC且Δ取值為1.05~1.35。由于公 式0、x>0 時,函數(shù)單調(diào)遞增。因此,在本例中,相比式(23)中權(quán)重計算方式,在“約旦河”的權(quán)重計算過程中,模型能夠給予三字層中相應(yīng)字更高的權(quán)重,使得到的最終編碼更貼近“約旦河”的向量表示,而雙字層“約旦”的詞向量和單字層的字向量對模型的影響權(quán)重降低。在這個過程中,潛在實體得到了模型的更多關(guān)注,利于發(fā)現(xiàn)未識別實體,提高模型召回率。同時,增強過程引入的詞邊界信息能在一定程度上緩解邊界識別錯誤的影響?!皩ψ铋L匹配實體進行增強”的規(guī)則減少了類似圖2 中“約旦”這樣的嵌套實體對詞邊界判定的干擾。對于上文中所提到類似“全方”這樣的匹配錯誤問題,由于不同類別的實體詞典在不同語料中導(dǎo)致的匹配錯誤比例存在差異,因此處理過程中模型在1.05~1.35 范圍內(nèi)隨機產(chǎn)生增強權(quán)重,防止匹配錯誤對結(jié)果影響過大,并通過模型訓(xùn)練得到所用語料中各實體類型的最佳增強權(quán)重。對于缺漏實體問題,模型將按照式(23)中方式計算各層權(quán)重,即不進行知識增強,消除了實體匹配缺漏對模型產(chǎn)生的影響。
條件隨機場是序列標注任務(wù)中常用的解碼器。對于知識融合后的輸出序列,若其對應(yīng)的標注序列為Y={y1,y2,…,yn},所有可能的標注序列集合為L(X′),則標注序列y的概率如下:
其中:ψi(yi-1,yi,X′)=exp(WiX′+bi);Wi與bi為標簽對(yi-1,yi)對應(yīng)的權(quán)重和偏置。在模型訓(xùn)練過程中,本文采用預(yù)測值和真實值的最大化對數(shù)似然作為優(yōu)化目標:
為充分評估本文模型的識別效果,除常用的Resume[10]、MSRA[21]、Weibo[22-23]等評估數(shù)據(jù)集外,本文引入OntoNotes5.0[24]、People Daily[25]、Boson 等 公開數(shù)據(jù)集,使得數(shù)據(jù)集的規(guī)模大小、語料來源、劃分粒度覆蓋更全面,評估結(jié)果更客觀。Resume、MSRA、Weibo 數(shù)據(jù)集與Lattice LSTM[10]中使用相同且有分詞信息;OntoNotes5.0 在OntoNotes4.0 的基礎(chǔ)上加入了更多的數(shù)據(jù),實體類別劃分更細,也含有分詞等附加信息;People Daily 來源于1998 年的人民日報;Boson 來自bosonnlp 提供的公開數(shù)據(jù)集。
在實驗過程中,OntoNotes5.0 依據(jù)官方提供的代碼進行數(shù)據(jù)集切分;People Daily 與fastnlp 提供的切分相同;Boson 數(shù)據(jù)集按照8∶1∶1 的比例進行數(shù)據(jù)集切分。表1 給出了實驗中各數(shù)據(jù)集詳細統(tǒng)計信息。
表1 數(shù)據(jù)集詳細統(tǒng)計信息Table 1 Detailed statistics of datasets
與Lattice LSTM[10]相同,本文采用由word2vec訓(xùn)練得到的字符向量與詞向量[26],并在訓(xùn)練中進行微調(diào)。實驗所用PER、ORG、LOC 等實體詞典來源于公開數(shù)據(jù)。在實驗過程中,模型使用Adamax[27]作為優(yōu)化函 數(shù),并設(shè)置0.5 的dropout[28]防止過擬合。按照語料規(guī)模,將MSRA、OntoNotes5.0、People Daily歸類為大數(shù)據(jù)集,將Boson、Resume、Weibo 歸類為小數(shù)據(jù)集。對于3 個大數(shù)據(jù)集,設(shè)定隱藏層節(jié)點數(shù)為300,CNN 層數(shù)為5;對于3 個小數(shù)據(jù)集,設(shè)定隱藏層節(jié)點數(shù)為200,CNN 層數(shù)為4。Weibo 語料來源于社交媒體,口語化比較嚴重,模型收斂較慢,學(xué)習(xí)率設(shè)為0.005;MSRA 語料較為規(guī)范,學(xué)習(xí)率過大容易導(dǎo)致模型無法收斂,實驗中學(xué)習(xí)率設(shè)置為0.000 5;其他數(shù)據(jù)集學(xué)習(xí)率設(shè)為0.001 5。對于實驗中的各對比模型,超參數(shù)設(shè)置都參考其原始的論文描述,以MSRA、Resume 為基準,分別設(shè)置在大數(shù)據(jù)集和小數(shù)據(jù)集上的超參數(shù)。
命名實體識別通常被作為序列標注任務(wù),其標注規(guī)范包括BIO、BMESO、BIOES 等多種形式。實驗采用BMESO 標注方法,對于數(shù)據(jù)集中的實體,根據(jù)長度與類別,將單字實體標注為S-TYPE,將多字實體的開始、中間、結(jié)尾字符分別標注為B-TYPE、M-TYPE、ETYPE,其中,TYPE 為實體類別,其他字符標注為O。
將準確率(P)、召回率(R)和F1 值(F)作為評價指標,具體定義如下:
其中:Tp為模型識別出的實體數(shù)量;Fp為模型誤識別的實體數(shù)量;Fn為模型未識別出的實體數(shù)量。
相對于LR-CNN 模型,本文主要做了提高模型并行能力、使用改進位置編碼的多頭注意力機制替代傳統(tǒng)注意力機制、添加知識增強模塊融入先驗知識3 個方面的改進。提高模型并行能力的改進主要影響模型效率,為評估其他兩種改進策略對模型性能的影響,分別做了僅改進注意力機制(AKE w/o K)、改進注意力機制且進行知識增強時的模型性能評估(AKE)。同時,對于有分詞信息的OntoNotes5.0、Weibo 兩個數(shù)據(jù)集,分析分詞信息對模型的影響(AKE with seg)。此外,與近兩年的主流模型,包括基于字詞聯(lián)合的Lattice LSTM 模型[10]、LGN 模型[12]、SoftLexicon 模型[14]、LR-CNN 模型[15]、FLAT 模型[16]、基于字的TENER 模型[19]在 多個數(shù)據(jù)集上進行對比。取3 次實驗結(jié)果的平均值作為最終結(jié)果,相關(guān)評估結(jié)果如表2、表3 所示,其中,“—”表示相關(guān)論文未列出實驗結(jié)果或數(shù)據(jù)集不支持進行相應(yīng)實驗,最優(yōu)指標值用加粗字體標示。下文從改進策略對模型識別性能影響、模型整體識別性能與魯棒性、模型復(fù)雜度3 個角度,分別對多頭注意力及知識增強對模型識別性能的提升、不同模型處理來源各異且規(guī)模不等數(shù)據(jù)集的能力、各模型的時間與空間成本等方面進行分析。
表2 大數(shù)據(jù)集上命名實體識別性能對比Table 2 Comparison of NER performance on big datasets %
表3 小數(shù)據(jù)集上命名實體識別性能對比Table 3 Comparison of NER performance on small datasets %
2.3.1 改進策略對模型識別性能的影響分析
通過對表2、表3 進行分析,可得出以下結(jié)論:1)在改進注意力機制對模型性能的影響方面,在使用改進位置編碼的多頭注意力機制之后,模型的召回率、F1 值均有明顯提高,準確率在多個數(shù)據(jù)集上也有更好表現(xiàn),證明了在實體識別等序列標注任務(wù)中文字距離與方向信息的重要性,也驗證了改進位置編碼的多頭注意力機制的有效性;2)關(guān)于知識增強的改進,在進行知識增強后,模型的召回率有了進一步的提高,通過融入先驗知識,模型識別出了更多的實體,雖然受實體詞典錯誤匹配所產(chǎn)生噪聲的干擾,準確率在部分數(shù)據(jù)集上有所下降,但總體F1 值依然有所增加;3)在分詞信息對模型性能的影響方面,在加入分詞信息后,OntoNotes5.0、Weibo 數(shù)據(jù)和其子集的識別效果都得到了提高,證明了詞邊界在命名實體識別任務(wù)中依然是非常重要的,分詞信息的加入在一定程度上減緩了字詞聯(lián)合模塊中詞邊界確定困難的問題。
為進一步探究知識增強過程中實體詞典對數(shù)據(jù)集中標記實體的覆蓋率(entity coverage)、實體詞典錯誤匹配所產(chǎn)生的噪聲比率(noise rate)、數(shù)據(jù)規(guī)模、實體劃分粒度等對模型召回率與F1 值的影響,將知識增強對模型性能提升情況與上述覆蓋率與噪聲比率依據(jù)數(shù)據(jù)規(guī)模作折線圖如圖3 所示。
圖3 實體詞典匹配對模型識別性能提升的影響Fig.3 The effect of entity dictionary matching on the improvement of model recognition performance
結(jié)合表1 中各數(shù)據(jù)集詳細信息,對圖3 進行分析可以得出以下結(jié)論:
1)在總體上,在進行知識增強后,隨著數(shù)據(jù)集規(guī)模變化,模型的F1、召回率提升值與實體詞典對數(shù)據(jù)集中標記實體的覆蓋率呈現(xiàn)一定的正相關(guān)性,進一步驗證了知識增強提高了模型發(fā)現(xiàn)實體的能力。
2)在數(shù)據(jù)規(guī)模影響方面,相對于大數(shù)據(jù)集,知識增強在小數(shù)據(jù)集上對模型性能的提升效果更為明顯。在工程應(yīng)用中,由于人工標注成本高、特定領(lǐng)域數(shù)據(jù)量小、數(shù)據(jù)受隱私保護等原因,大規(guī)模標注數(shù)據(jù)的獲取往往較為困難,因此本文提出的知識增強方式通過在模型中融入領(lǐng)域先驗知識提高模型性能,在實際工程應(yīng)用中具有重要意義。
3)在實體類別劃分粒度上,由于People Daily 實體種類較少、數(shù)據(jù)規(guī)模較大,模型訓(xùn)練較為充分,雖然知識增強提高了模型的召回率,但對模型整體F1 值的提升效果不夠明顯。相比之下,盡管OntoNotes5.0 數(shù)據(jù)集規(guī)模更大,但實體類別劃分粒度較細、語料中有大量口語化的內(nèi)容,模型識別能力有進一步提升空間,知識增強對模型的性能提升更為明顯。
4)在抗噪聲干擾方面,由于Weibo 數(shù)據(jù)集的子集WeiboNAM 與WeiboNOM 的實體個數(shù)較少,模型訓(xùn)練不充分,同時實體詞典匹配到的噪聲比率較高,模型的性能受影響波動較大。
5)從實體詞典對數(shù)據(jù)集中標記實體的覆蓋率、實體詞典錯誤匹配所產(chǎn)生的噪聲比率來看,雖然本文知識增強模塊在一定程度上提高了模型性能,但標記實體的覆蓋率總體不高,同時處理過程中所用降噪方法仍較為簡單。
在后續(xù)任務(wù)中,如何擴充實體詞典提高對標記實體的覆蓋率、改進知識增強模塊降低對匹配噪聲的影響,將是需重點研究的內(nèi)容。
2.3.2 模型整體識別性能與魯棒性分析
為分析模型的性能及魯棒性,以Lattice LSTM 模型為基準,計算各模型的F1 值的相對提升幅度,如圖4所示。為保證圖像的差值范圍,將TENER模型在People Daily 數(shù)據(jù)集上的F1 提升值設(shè)為0。
圖4 6 種模型在不同數(shù)據(jù)集上相對Lattice LSTM 模型的F1 值提升情況Fig.4 The improvement of the F1 value of the six models relative to the Lattice LSTM model on different datasets
通過對圖4 進行分析可得出以下結(jié)論:1)基于字的TENER 模型總體表現(xiàn)不如其他基于字詞聯(lián)合的模型,證明基于字詞聯(lián)合的模型相對于基于字的模型能夠捕捉更多的上下文信息,具有較大優(yōu)勢;2)TENER 模型在不同數(shù)據(jù)集上F1 值波動較大,在People Daily 數(shù)據(jù)集上表現(xiàn)較差,魯棒性不強;3)在字詞聯(lián)合模型中,LGN 模型與LR-CNN 模型表現(xiàn)一般,相對基線模型提升不夠明顯,且識別性能提升幅度受數(shù)據(jù)集影響較大;4)SoftLexicon 模型在各數(shù)據(jù)集上表現(xiàn)穩(wěn)定,具有較強的魯棒性,但由于該模型中字詞信息融合采用靜態(tài)方式,在具體語境中可能會出現(xiàn)偏差,影響識別效果;5)FLAT 模型在多個數(shù)據(jù)集上均有優(yōu)異表現(xiàn),但由于參數(shù)量較多,在Resume、Weibo 等小數(shù)據(jù)集上學(xué)習(xí)不充分,模型魯棒性有待提高;6)本文模型相對其他模型在多個數(shù)據(jù)集上取得了最好的識別效果,且在不同數(shù)據(jù)集上表現(xiàn)較為穩(wěn)定,具有一定的魯棒性。
2.3.3 模型復(fù)雜度分析
除上述性能評估外,為對模型有更全面的分析,實驗中以Lattice LSTM 模型為基準,對比各字詞聯(lián)合模型在OntoNotes5.0 數(shù)據(jù)集上的推理速度與計算資源占用情況,對比結(jié)果如圖5 所示,其中,F(xiàn)LAT 模型批大小為10,其他模型均為1。
圖5 字詞聯(lián)合模型推理速度與計算資源占用情況對比Fig.5 Comparison of reasoning speed and computing resource occupancy of character-word joint models
由圖5 可以看出:相比Lattice LSTM 模型,F(xiàn)LAT模型雖然使用并行化提高了推理速度,但計算資源占用激增;其他模型大多在推理速度方面提升不大,資源占用稍有增加;本文AKE 模型由于字詞融合模塊中多頭注意力機制的使用和知識增強模塊的加入,推理速度稍有下降,資源占用量相對較多,后續(xù)有較大的改進空間。
本文在LR-CNN 模型的基礎(chǔ)上,提出一種基于知識增強的命名實體識別模型。通過改進字詞聯(lián)合模塊,提高模型并行性與上下文信息捕捉能力。加入知識增強模塊融入實體邊界、實體類別等先驗知識,緩解未登錄詞影響和模型在小數(shù)據(jù)集上學(xué)習(xí)不充分的問題。實驗結(jié)果表明,相比基于字詞聯(lián)合的命名實體識別主流模型,本文模型能夠提高實體識別的召回率與F1 值,同時具有較強的魯棒性和泛化能力。此外,通過使用不同領(lǐng)域的實體詞典,融入相應(yīng)先驗知識,賦予模型較強的遷移能力,并且所提出的知識增強思想在其他自然語言處理任務(wù)中也具有一定的借鑒意義。下一步將重點改進模型的知識增強策略,減少實體詞典匹配錯誤所產(chǎn)生的噪聲干擾,優(yōu)化字詞融合模塊,降低模型復(fù)雜度。