劉建華,吳 超
(1.西安郵電大學(xué) 信息中心,陜西 西安 710121;2.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710121)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是指在一段自然語(yǔ)言文本中標(biāo)注實(shí)體詞的位置和類型,其支撐著關(guān)系抽取、事件抽取以及知識(shí)圖譜構(gòu)建[1]等任務(wù)。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,如隱馬爾可夫模型(Hidden Markov Model,HMM),條件隨機(jī)場(chǎng)[2](Conditional Random Field,CRF)和支持向量機(jī)(Support Vector Machine,SVM)等,這些方法對(duì)人工制作特征的依賴性較強(qiáng)。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,利用監(jiān)督學(xué)習(xí)將命名實(shí)體識(shí)別任務(wù)轉(zhuǎn)為序列標(biāo)注任務(wù)。特征提取采用卷積神經(jīng)網(wǎng)絡(luò)[3](Convolutional Neural Networks,CNN)或者循環(huán)神經(jīng)網(wǎng)絡(luò)[4](Recurrent Neural Network,RNN),求解最優(yōu)標(biāo)注序列運(yùn)用CRF,這些模型泛化能力大幅度增強(qiáng)。但是,中文字向量[5]和英文詞向量[6]的本質(zhì)不同,造成中文命名實(shí)體識(shí)別任務(wù)在字嵌入層編碼時(shí)會(huì)出現(xiàn)未登錄詞(Out of Vocabulary,OoV)以及分詞錯(cuò)誤等諸多問題,因而影響命名實(shí)體識(shí)別的任務(wù)表現(xiàn)。
早期將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在命名實(shí)體識(shí)別領(lǐng)域的是Hammerton等人[7],他們提出了單向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。Lample 等[8]對(duì)傳統(tǒng)的Bi-LSTM-CRF模型進(jìn)行了改造,使用了結(jié)合詞匯特征的字符級(jí)LSTM對(duì)句子進(jìn)行編碼。Strubell等[9]提出了一種基于IDCNN的命名實(shí)體識(shí)別方法,使用CNN代替RNN,很大程度上提升了訓(xùn)練的速度。Lin等[10]提出了一種觸發(fā)詞機(jī)制,用少量樣本訓(xùn)練達(dá)到大量樣本訓(xùn)練的效果。文獻(xiàn)[11]加入了Dropout機(jī)制,減少訓(xùn)練時(shí)的過擬合現(xiàn)象。Zhang等[12]提出結(jié)合了詞匯信息的網(wǎng)格網(wǎng)絡(luò)。文獻(xiàn)[13]提出結(jié)合特征的網(wǎng)絡(luò)安全領(lǐng)域?qū)嶓w識(shí)別方法。文獻(xiàn)[14]利用遷移學(xué)習(xí)思想將分詞和命名實(shí)體識(shí)別融合在一個(gè)模型中訓(xùn)練。但是,上述方法存在的問題主要是對(duì)字向量信息的提取較單一。
針對(duì)中文命名實(shí)體識(shí)別任務(wù)中字向量信息提取單一的問題,在傳統(tǒng)NER任務(wù)模型的基礎(chǔ)上,增加了一個(gè)預(yù)處理階段,擬提出結(jié)合實(shí)體關(guān)聯(lián)標(biāo)注器(Entity-Related Annotator,ERA)的命名實(shí)體識(shí)別模型。該模型在階段一使用實(shí)體關(guān)聯(lián)標(biāo)注器,其通過對(duì)所有訓(xùn)練樣本用對(duì)比損失函數(shù)進(jìn)行訓(xùn)練,得到一個(gè)實(shí)體詞信息的注意力模型,再利用這個(gè)模型得出每句話中所有字相對(duì)于該句中實(shí)體詞的注意力等級(jí)標(biāo)注。將這部分的等級(jí)標(biāo)注信息編碼到字向量中,就是在字向量中補(bǔ)充了該字與實(shí)體詞的語(yǔ)義密切程度信息,以此作為語(yǔ)義級(jí)別信息的補(bǔ)充。再在階段二進(jìn)行標(biāo)注命名實(shí)體識(shí)別序列標(biāo)注任務(wù)。
為了提升命名實(shí)體識(shí)別算法的識(shí)別效果,提出一種結(jié)合ERA的中文命名實(shí)體識(shí)別模型。模型分為訓(xùn)練實(shí)體關(guān)聯(lián)標(biāo)注器和融合實(shí)體關(guān)聯(lián)信息的序列標(biāo)注任務(wù)模型兩個(gè)階段。
命名實(shí)體識(shí)別的標(biāo)準(zhǔn)流程包括輸入和輸出。對(duì)于輸入的一段文字S=(s1,s2,…,sn),其中si為這句話的第i個(gè)字,經(jīng)過一系列的運(yùn)算,最終的輸出為O=(o1,o2,…,on),oi為這句話第i個(gè)字對(duì)應(yīng)的命名實(shí)體標(biāo)簽。模型整體結(jié)構(gòu)如圖1所示。
圖1 模型整體結(jié)構(gòu)
ERA由兩部分組成,分別是實(shí)體編碼模塊和基于語(yǔ)義的實(shí)體匹配模塊。
1.1.1 實(shí)體編碼模塊
對(duì)于一段文字S=(s1,s2,…,sn),把這句話中所有的實(shí)體詞及其位置標(biāo)注出來(lái)。通過將每句話與該句中的實(shí)體配對(duì)創(chuàng)建一個(gè)訓(xùn)練實(shí)例{Entity,Position}。模型第一層是字向量嵌入層,使用100維度的字向量作為字的輸入,字向量提前由word2vec[15]訓(xùn)練好。模型的第二層是Bi-LSTM,輸入為第一層獲取的100維字向量,字向量經(jīng)過這層神經(jīng)網(wǎng)絡(luò),得到LSTM的前向隱藏層序列和后向隱藏層序列。將對(duì)應(yīng)位置的前向、后向隱藏層輸出拼接,得到雙向隱藏層的輸出序列(h1,h2,…,hn),將雙向隱藏層對(duì)應(yīng)位置的輸出作拼接處理,得到該位置的字向量輸出,表示為hi,其表達(dá)式為
(1)
注意力機(jī)制早期應(yīng)用在圖像處理領(lǐng)域,后來(lái)在語(yǔ)音處理領(lǐng)域、自然語(yǔ)言處理領(lǐng)域得到了發(fā)展。自然語(yǔ)言的注意力機(jī)制最初來(lái)源于機(jī)器翻譯的seq2seq模型[16],其原理是按某一種參照目標(biāo),提取與目標(biāo)關(guān)聯(lián)程度最大化的句子級(jí)別的語(yǔ)義信息,突破了經(jīng)典Bi-LSTM在編碼階段依賴序列固定順序的限制。先用經(jīng)典編碼器得到輸入序列的隱藏狀態(tài),然后訓(xùn)練一種權(quán)重選擇機(jī)制,對(duì)輸出的隱藏狀態(tài)進(jìn)行加權(quán),并最終得到加權(quán)后的完整序列輸出,是對(duì)Bi-LSTM的各個(gè)時(shí)刻的隱藏狀態(tài)進(jìn)行加權(quán)求和。
為了學(xué)習(xí)基于注意力的實(shí)體詞和句子的表示,采用Lin等[17]在ICLR 2017中提出的注意機(jī)制。將矩陣H應(yīng)用于句級(jí)注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Attention Bi-LSTM),得到一個(gè)向量vs,其是一句話在注意力的加權(quán)作用下得到的語(yǔ)義信息。As為注意力分?jǐn)?shù)矩陣,注意力分?jǐn)?shù)矩陣是矩陣H與兩個(gè)參數(shù)矩陣W1和W2進(jìn)行矩陣乘法運(yùn)算后,再經(jīng)過softmax函數(shù)得到。然后,對(duì)表示實(shí)體的矩陣E取字級(jí)別的平均值得到向量ve,表示這個(gè)句子中所有實(shí)體的語(yǔ)義信息總和。vs和ve就是句子語(yǔ)義的向量表示和該句中實(shí)體詞語(yǔ)義的向量表示。為了將基于注意力的句子語(yǔ)義向量與該句中的實(shí)體詞語(yǔ)義向量聯(lián)系起來(lái),用表示實(shí)體詞語(yǔ)義的向量ve作為監(jiān)督訓(xùn)練的樣本,則注意力分?jǐn)?shù)矩陣和句子語(yǔ)義向量的表達(dá)式分別為
As=softmax[W2tanh(W1H)]
(2)
vs=AsH
(3)
1.1.2 基于語(yǔ)義的實(shí)體匹配模塊
為了匹配注意力機(jī)制加權(quán)后的句子語(yǔ)義向量與實(shí)體詞語(yǔ)義向量,利用對(duì)比損失函數(shù)contrastive loss[18]作為階段一訓(xùn)練的損失函數(shù)。該函數(shù)最初用在降維算法中,即本來(lái)相似的樣本經(jīng)過特征提取后,在特征空間中仍舊相似,而原本不相似的樣本在特征提取后仍舊不相似。同樣,該損失函數(shù)能很好地表達(dá)對(duì)樣本的匹配程度。contrastive loss的表達(dá)式為
(4)
d=‖vs-ve‖2
式中:d表示兩個(gè)樣本特征vs和ve的歐氏距離;U為兩個(gè)樣本是否匹配的標(biāo)簽,U=1表示實(shí)體詞在當(dāng)前句子中,U=0表示實(shí)體詞不是當(dāng)前句子中的實(shí)體;r為設(shè)定的閾值。當(dāng)U=1時(shí),如果兩個(gè)樣本特征的歐式距離較大,則說明此時(shí)的模型不好,損失函數(shù)值較大。而當(dāng)U=0時(shí),如果兩個(gè)樣本特征的歐式距離較大,則損失值函數(shù)值較小??紤]到實(shí)體匹配模塊需要用正負(fù)樣本一起訓(xùn)練,通過隨機(jī)打亂句子和該句對(duì)應(yīng)的實(shí)體詞的方式,構(gòu)造訓(xùn)練所需要的正負(fù)樣本。訓(xùn)練完成后提取出所有語(yǔ)料的注意力分?jǐn)?shù)矩陣As,再按這個(gè)分?jǐn)?shù)將語(yǔ)料中的每個(gè)字劃分等級(jí),最終得到的這個(gè)等級(jí)標(biāo)注就是實(shí)體關(guān)聯(lián)標(biāo)注器的標(biāo)注結(jié)果。將標(biāo)注結(jié)果映射到維度為20的向量空間,一句話的標(biāo)記結(jié)果可記為
T=(t1,t2,…,tn)
模型第一層是字向量嵌入層,使用提前訓(xùn)練好的100維度的字向量作為字的輸入,字向量記為序列X=(x1,x2,…,xn)。接著拼接上一階段實(shí)體關(guān)聯(lián)標(biāo)注器提供的信息T,融合后的字向量表示為
Z=(z1,z2,…,zn)
其中,zi為xi與ti作拼接,zi的表達(dá)式為
zi=[xi?ti]
(5)
模型的第二層是雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),該層的處理流程與實(shí)體編碼模塊的Bi-LSTM處理流程相同。模型的第三層是CRF層,Bi-LSTM的輸出是按序列的先后順序排列的,CRF算法是序列建模算法,其實(shí)是一種概率化無(wú)向圖模型,通過用一組隨機(jī)變量獲取另一組隨機(jī)變量的條件概率分布。CRF沒有HMM嚴(yán)格的獨(dú)立性假設(shè)條件,可以容納任意的上下文信息計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率。同時(shí),CRF改善了最大熵馬爾科夫模型標(biāo)記偏執(zhí)缺點(diǎn)。在計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率分布時(shí),CRF結(jié)合輸出序列前后的標(biāo)簽信息對(duì)標(biāo)簽進(jìn)行優(yōu)化,考慮到輸出結(jié)果的合理性,評(píng)分S與Y的概率P的表達(dá)式分別為
(6)
(7)
式中:e是自然對(duì)數(shù);矩陣N表示Bi-LSTM的輸出,n為輸出序列長(zhǎng)度;Ni,j表示矩陣中第i行第j列的概率;M是概率轉(zhuǎn)移矩陣;Mi,j表示標(biāo)簽i到j(luò)的概率。給定已知序列X和預(yù)測(cè)序列Y,可計(jì)算此次預(yù)測(cè)的得分,然后通過softmax層得到標(biāo)簽序列Y的概率P(Y|S)。
訓(xùn)練目標(biāo)是使正確標(biāo)注序列的概率最大化,Y′表示真實(shí)標(biāo)記值,則概率最大的一組序列輸出為
Y*=argmaxs(X,Y′)
(8)
為了分析ERA模型的性能表現(xiàn),在Resume數(shù)據(jù)集和人民日?qǐng)?bào)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Resume數(shù)據(jù)集是采集自新浪財(cái)經(jīng)的1 027份簡(jiǎn)歷資料,總共標(biāo)注5種命名實(shí)體,分別為教育機(jī)構(gòu)名、人名、組織機(jī)構(gòu)名、專業(yè)名和職位名。人民日?qǐng)?bào)數(shù)據(jù)集采集自1998年人民日?qǐng)?bào)語(yǔ)料,由北京大學(xué)語(yǔ)言研究所和富士通研究開發(fā)中心有限公司共同研發(fā)的自然語(yǔ)言處理任務(wù)數(shù)據(jù)集,使用的數(shù)據(jù)集共標(biāo)注了3種命名實(shí)體,分別為地名、人名和組織機(jī)構(gòu)名。表1是兩個(gè)數(shù)據(jù)集的具體信息,統(tǒng)計(jì)訓(xùn)練集、驗(yàn)證集和測(cè)試集中字符和句子的數(shù)量。
表1 數(shù)據(jù)集信息
實(shí)驗(yàn)環(huán)境為操作系統(tǒng)Windows 10,CPU Intel i5 9600,顯卡RTX 2070 S,內(nèi)存32 G,Pytorch 版本1.5.0 cuda 10.1。
實(shí)驗(yàn)代碼基于 Pytorch 框架實(shí)現(xiàn),訓(xùn)練使用Adam優(yōu)化方法[19],學(xué)習(xí)速率取值為0.02,LSTM 的hidden size為100,Batch size 為10。為了防止過擬合,在神經(jīng)網(wǎng)絡(luò)輸出時(shí)選取0.5的Dropout,這些參數(shù)設(shè)置具體如表2所示。
表2 參數(shù)設(shè)置
命名實(shí)體識(shí)別任務(wù)常用的標(biāo)注方式有BIO(B-begin,I-inside,O-outside),BIOE(B-begin,I-inside,O-outside,E-end),BMES(B-begin,M-middle,E-end,S-single)等不同體系,選用BMES體系標(biāo)注數(shù)據(jù)集中的實(shí)體,采用MUC評(píng)測(cè)會(huì)議上所提出的NER任務(wù)評(píng)價(jià)指標(biāo)準(zhǔn)確率(P),召回率(R)和F1值,計(jì)算表達(dá)式分別為
(9)
(10)
(11)
式中:PT表示真正例,真實(shí)值為正,預(yù)測(cè)值也為正;PF表示假正例,真實(shí)值為負(fù),但預(yù)測(cè)值為正;NF表示假反例,真實(shí)值為正,但預(yù)測(cè)值為負(fù);NT表示真反例,真實(shí)值為負(fù),預(yù)測(cè)值也為負(fù)。
ERA模型實(shí)驗(yàn)代碼采用Pytorch框架,對(duì)于每個(gè)epoch,模型訓(xùn)練時(shí)會(huì)把整個(gè)訓(xùn)練數(shù)據(jù)分批處理,每一批數(shù)據(jù)的大小由參數(shù)Batch size決定。當(dāng)模型開始訓(xùn)練,首先對(duì)參數(shù)進(jìn)行初始化,再按步驟分兩個(gè)階段完成訓(xùn)練的過程。
階段一實(shí)體關(guān)聯(lián)標(biāo)注器的訓(xùn)練。一是利用Bi-LSTM模型前向傳播,對(duì)句子進(jìn)行編碼;二是利用一個(gè)注意力層提取Bi-LSTM編碼后句子的特征;三是利用這個(gè)特征匹配該句中的實(shí)體詞向量,再用對(duì)比損失函數(shù)計(jì)算其loss值;四是誤差反向傳播,更新參數(shù)。階段一訓(xùn)練結(jié)束后提取出模型中的注意力層的參數(shù),按等級(jí)分層作為實(shí)體關(guān)聯(lián)標(biāo)注信息。
階段二實(shí)體關(guān)聯(lián)信息增強(qiáng)的序列標(biāo)注模型的訓(xùn)練。首先,將word2vec字向量與階段一的實(shí)體關(guān)聯(lián)標(biāo)記信息融合;其次,將Bi-LSTM 模型前向傳播,CRF 前向和后向傳播,計(jì)算序列的似然概率;最后,將Bi-LSTM 模型后向傳播,更新參數(shù)。
選取LSTM、Bi-LSTM、融合分詞信息的Bi-LSTM(Bi-LSTM-seg)、Lattice-LSTM和改進(jìn)的ERA模型進(jìn)行對(duì)比。使用LSTM、Bi-LSTM和Bi-LSTM-seg主要是為了對(duì)比基準(zhǔn)模型LSTM和使用了雙向輸入的BiLSTM以及在Bi-LSTM基礎(chǔ)上融入分詞信息后的效果。Lattice-LSTM和ERA都添加了語(yǔ)義信息,前者是結(jié)合了詞匯信息的網(wǎng)格網(wǎng)絡(luò);后者是結(jié)合了實(shí)體關(guān)聯(lián)標(biāo)注器,將每個(gè)字向量添加該字與實(shí)體詞關(guān)聯(lián)程度的信息。這兩個(gè)模型都是在Bi-LSTM基礎(chǔ)上添加了語(yǔ)義信息,通過兩個(gè)模型的對(duì)比,可以體現(xiàn)出添加不同的語(yǔ)義信息的實(shí)驗(yàn)效果。
為了對(duì)ERA模型進(jìn)行客觀的評(píng)測(cè),在Resume數(shù)據(jù)集和人民日?qǐng)?bào)數(shù)據(jù)集上進(jìn)行了多組對(duì)比實(shí)驗(yàn)。Resume數(shù)據(jù)集和人民日?qǐng)?bào)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分別如表3和表4所示。
表3 Resume數(shù)據(jù)集的對(duì)比結(jié)果
表4 人民日?qǐng)?bào)數(shù)據(jù)集的對(duì)比結(jié)果
在Resume數(shù)據(jù)集中,先比較LSTM和Bi-LSTM的實(shí)驗(yàn)結(jié)果,可以看出雙向LSTM的F1值比單向LSTM高出0.84%。再看人民日?qǐng)?bào)數(shù)據(jù)集的表現(xiàn),雙向LSTM的F1值比單向LSTM高出3.92%。由此表明,Bi-LSTM采用前向和后向獲取編碼信息,可以獲得更多信息,效果要優(yōu)于單向的方式。在嵌入層加入分詞信息的Bi-LSTM-CRF-seg的實(shí)驗(yàn)結(jié)果中,在Resume數(shù)據(jù)集中,該模型的F1值比單向LSTM和雙向LSTM分別高出1.08%和0.24%。而在人民日?qǐng)?bào)數(shù)據(jù)集上,該模型的表現(xiàn)更好,F(xiàn)1值比單向LSTM和雙向LSTM分別高出5.44%和1.52%,說明分詞這種語(yǔ)義信息的加入能夠更好地在嵌入層提出特征信息。Lattice-LSTM模型使用了創(chuàng)新的網(wǎng)格LSTM,更合理地利用了詞與詞之間的序列信息,實(shí)驗(yàn)數(shù)據(jù)引用自原論文,在Resume數(shù)據(jù)集中F1值達(dá)到了94.46%。ERA模型在Bi-LSTM-CRF的基礎(chǔ)上加入實(shí)體關(guān)聯(lián)標(biāo)注信息,從實(shí)驗(yàn)的各項(xiàng)指標(biāo)來(lái)看,效果理想,在Resume數(shù)據(jù)集中,準(zhǔn)確率、召回率和F1值分別達(dá)到了95.18%,94.62%和94.81%,比Bi-LSTM模型F1值提高了1.47%,比Lattice-LSTM的F1值高出了0.35%。在人民日?qǐng)?bào)數(shù)據(jù)集中的準(zhǔn)確率、召回率和F1值分別達(dá)到了91.47%,89.95%和90.19%,比Bi-LSTM模型的F1值提高了2.07%。這表明在加入了實(shí)體關(guān)聯(lián)標(biāo)注信后,該模型在嵌入層可以充分的提取字符級(jí)、詞級(jí)和實(shí)體詞相關(guān)的特征,從而使LSTM層能接收到更全面的句子信息,進(jìn)而增強(qiáng)模型泛化能力,提高命名實(shí)體識(shí)別的性能。
在特定領(lǐng)域命名實(shí)體識(shí)別任務(wù)中,更關(guān)注某一些實(shí)體類型的識(shí)別,需要突出其特定實(shí)體的識(shí)別效果,提出了一種新的訓(xùn)練模式。以單個(gè)實(shí)體類型作為實(shí)體匹配模塊的監(jiān)督訓(xùn)練樣本,訓(xùn)練出一個(gè)針對(duì)某一特定實(shí)體類別的實(shí)體關(guān)聯(lián)標(biāo)注網(wǎng)絡(luò),進(jìn)而再展開標(biāo)準(zhǔn)NER任務(wù)訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示,這種訓(xùn)練方式的模型在單個(gè)實(shí)體類別的識(shí)別中達(dá)到了非常好的效果。
表5和表6分別展示了在Resume數(shù)據(jù)集和人民日?qǐng)?bào)數(shù)據(jù)集中識(shí)別單個(gè)實(shí)體類別的實(shí)驗(yàn)結(jié)果。先看Resume數(shù)據(jù)集的情況,教育機(jī)構(gòu)名、人名、組織機(jī)構(gòu)名、專業(yè)名和職位名這5個(gè)實(shí)體類別的F1值比經(jīng)典模型Bi-LSTM-CRF分別高出1.82%,3.2%,0.99%,3.36%和0.83%。其余3個(gè)實(shí)體類別由于兩個(gè)模型的F1值都為100%,無(wú)法比較。在人民日?qǐng)?bào)數(shù)據(jù)集中,地名,人名和組織機(jī)構(gòu)名這3個(gè)實(shí)體類別比Bi-LSTM的F1值分別高2.76%,1.74%和1.16%。從對(duì)比數(shù)據(jù)還可以看出,經(jīng)典模型Bi-LSTM-CRF的單個(gè)實(shí)體分類的準(zhǔn)確率和召回率差值較大,而ERA模型在每個(gè)實(shí)體的準(zhǔn)確率和召回率都非常接近,模型表現(xiàn)相對(duì)平衡和穩(wěn)定。
表5 Resume數(shù)據(jù)集單個(gè)實(shí)體類別對(duì)比結(jié)果
表6 人民日?qǐng)?bào)數(shù)據(jù)集單個(gè)實(shí)體類別對(duì)比結(jié)果
為了展現(xiàn)模型的訓(xùn)練情況,分別對(duì)比了兩個(gè)數(shù)據(jù)集前40輪的F1值的對(duì)比變化情況,具體實(shí)驗(yàn)結(jié)果分別如圖2和圖3所示。
圖2 Resume數(shù)據(jù)集訓(xùn)練時(shí)F1值的變化
圖3 人民日?qǐng)?bào)數(shù)據(jù)集訓(xùn)練時(shí)F1值的變化
由圖2和圖3可以看出,在模型訓(xùn)練初期,ERA模型的F1值分別達(dá)到了82.66%和89.91%,明顯高于其他模型。接著持續(xù)上升,在訓(xùn)練到20輪左右達(dá)到峰值,最后保持在較高水平。而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型,在初期F1值處于非常低的位置,只有經(jīng)過多輪次迭代訓(xùn)練,F(xiàn)1值才會(huì)緩慢提高。
為了對(duì)改進(jìn)模型的實(shí)驗(yàn)結(jié)果做出更客觀的評(píng)價(jià),將模型設(shè)置為以下情況進(jìn)行了消融實(shí)驗(yàn),具體內(nèi)容包括初始模型LSTM,在LSTM基礎(chǔ)上增加雙向輸入的Bi-LSTM,LSTM結(jié)合實(shí)體關(guān)聯(lián)標(biāo)注器的NER模型,Bi-LSTM結(jié)合實(shí)體關(guān)聯(lián)標(biāo)注器的NER模型等4個(gè)方面,消融實(shí)驗(yàn)結(jié)果分別如表7和表8所示。
表7 Resume數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果
表8 人民日?qǐng)?bào)數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果
由表7和表8可以看出,在模型去掉實(shí)體關(guān)聯(lián)標(biāo)注器后,整體評(píng)測(cè)結(jié)果大幅下降。當(dāng)初始模型LSTM加入實(shí)體關(guān)聯(lián)標(biāo)注器后,準(zhǔn)確率、召回率和F1值都有一定的提升,當(dāng)使用Bi-LSTM結(jié)合實(shí)體關(guān)聯(lián)標(biāo)注器后,實(shí)驗(yàn)結(jié)果得到了進(jìn)一步的提升。由此可以看出,實(shí)體關(guān)聯(lián)標(biāo)注器有助于提升語(yǔ)義信息,進(jìn)而提升各項(xiàng)評(píng)測(cè)指標(biāo)。
針對(duì)中文命名實(shí)體識(shí)別任務(wù)的字向量信息單一的問題,增加了一個(gè)預(yù)處理階段,提出了結(jié)合ERA命名實(shí)體識(shí)別模型。先訓(xùn)練出每句話中與實(shí)體詞關(guān)聯(lián)程度的標(biāo)記,再將標(biāo)記信息融入字向量層,增加與實(shí)體詞相關(guān)的語(yǔ)義特征,避免了常規(guī)分詞方法會(huì)產(chǎn)生誤差的影響,該模型適用于訓(xùn)練數(shù)據(jù)充足的命名實(shí)體識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果表明,ERA模型比經(jīng)典的Bi-LSTM-CRF模型和基于分詞的NER模型在準(zhǔn)確率、召回率和F1值的評(píng)價(jià)指標(biāo)都有所提升。該模型應(yīng)用于中文命名實(shí)體識(shí)別任務(wù)時(shí)的準(zhǔn)確率更高。
后續(xù)研究將在該模型中融入更多的語(yǔ)義信息,結(jié)合預(yù)訓(xùn)練語(yǔ)義模型,應(yīng)用到更多訓(xùn)練資源匱乏的領(lǐng)域,從而進(jìn)一步提高中文命名實(shí)體模型的性能。