范鈺程,梁鳳梅,鄔志勇
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600)
命名實(shí)體識(shí)別的核心任務(wù)就是從文本中識(shí)別出人名、地名、機(jī)構(gòu)名等實(shí)體的邊界和類(lèi)別,是問(wèn)答系統(tǒng)、機(jī)器翻譯、情感分析、知識(shí)圖譜等NLP 任務(wù)的關(guān)鍵[1-2]。
在新聞文本中,詞語(yǔ)更新速度快,且存在著大量一詞多義的現(xiàn)象[3-4],之前的方法無(wú)法在進(jìn)行特征提取的同時(shí)兼顧局部特征信息和上下文含義,對(duì)同一個(gè)詞在不同上下文中的不同含義區(qū)分度較差。該文結(jié)合預(yù)訓(xùn)練語(yǔ)言模型ALBERT(A Lite BERT)和字詞融合(Char and Word,CAW)方法,提出一種命名實(shí)體識(shí)別模型ALBERT-CAW-BiLSTM,充分利用文本的局部特征信息和上下文關(guān)聯(lián)語(yǔ)義,通過(guò)對(duì)比實(shí)驗(yàn)證明了在新聞命名實(shí)體識(shí)別中的有效性。
文獻(xiàn)[5]提出的Lattice LSTM 模型,對(duì)輸入文本和潛在詞匯進(jìn)行了編碼。文獻(xiàn)[6]中采用融合字詞BiLSTM(Bi-directional Long Short-Term Memory)的命名實(shí)體識(shí)別方法,該方法獨(dú)立處理字模型和詞模型。文獻(xiàn)[7]把能獲取更復(fù)雜語(yǔ)義的預(yù)訓(xùn)練語(yǔ)言模型BERT 應(yīng)用于實(shí)體識(shí)別。文獻(xiàn)[8]采用了BERT 的改進(jìn)版ALBERT,在模型參數(shù)少的情況下達(dá)到了更好的效果。
文獻(xiàn)[9]提出了一種基于新詞的新聞命名實(shí)體識(shí)別方法,該方法借助新詞詞典提升了新詞的識(shí)別準(zhǔn)確率,但是對(duì)詞典未覆蓋的未登錄詞基本上沒(méi)有識(shí)別能力。文獻(xiàn)[10]采用基于注意力機(jī)制的BiLSTM 結(jié)合條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型,能獲在取局部特征的同時(shí)兼顧上下文語(yǔ)義,但該模型使用ngram2vec 訓(xùn)練詞向量,對(duì)比于ALBERT 并沒(méi)有充分提取文本信息。
如圖1 所示,該文模型主要由四部分組成,包括ALBERT、CAW、BiLSTM 和CRF。
圖1 ALBERT-CAW-BiLSTM 模型
1)采用預(yù)訓(xùn)練語(yǔ)言模型ALBERT 獲取文本的動(dòng)態(tài)詞向量;
2)在CAW 層利用多層CNN 提取詞語(yǔ)局部特征,使用LSTM 獲得詞語(yǔ)的前后語(yǔ)義信息,將兩者的結(jié)果融合成包含豐富信息的動(dòng)態(tài)特征;
3)在BiLSTM 層獲取CAW 層已經(jīng)捕捉實(shí)體在序列中的上下文信息,獲取M維概率分布;
4)通過(guò)CRF 層進(jìn)行解碼,得到實(shí)體標(biāo)注信息,完成對(duì)實(shí)體邊界和類(lèi)別的識(shí)別。
ALBERT 模型采用雙向transformer 提取語(yǔ)言特征,具體結(jié)構(gòu)如圖2所示。E1,E2,…,En是輸入序列中的字符,在經(jīng)過(guò)多層transformer 訓(xùn)練之后得到輸出的文本特征向量T1,T2,…,Tn。模型中每個(gè)字符對(duì)應(yīng)的詞向量由三個(gè)向量組成:字向量(Token Embeddings)、文本向量(Segment Embeddings)和位置向量(Position Embeddings),模型輸入為字向量、文本向量和位置向量的和。其中,文本向量代表的是全局的語(yǔ)義信息,且和單字的語(yǔ)義信息相融合;位置向量是人為給定的序列位置向量。
圖2 ALBERT模型
Transformer的結(jié)構(gòu)為Encoder-Decoder,ALBERT使用的是Encoder 特征抽取器,其具體結(jié)構(gòu)如圖3所示。
圖3 Transformer Encoder結(jié)構(gòu)
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型相比,ALBERT 能有效提取上下文信息,語(yǔ)義信息豐富,能較好地處理一詞多義的問(wèn)題。
詞向量的獲取有基于字符和基于詞兩種方法。基于字符的方法處理的基本單位是字,不需要對(duì)輸入文本進(jìn)行分詞,減少了未登錄詞的干擾,但是中文大多不是以單字作為表達(dá)語(yǔ)意最小單位,因此其相比基于詞存在著語(yǔ)義信息不足等問(wèn)題。基于詞的方法首先需要對(duì)輸入文本進(jìn)行分詞,分詞的效果直接影響最終命名實(shí)體識(shí)別的效果。兩者各有優(yōu)缺點(diǎn),因此,該文綜合考慮后采用融合字詞語(yǔ)義的方式提取文本特征,其結(jié)構(gòu)如圖4 所示。
圖4 CAW結(jié)構(gòu)
2.2.1 CNN
CNN 的核心是卷積層,主要思想是參數(shù)共享和局部連接,特征提取依靠的是對(duì)單詞的卷積運(yùn)算。將不同大小的輸入特征局部窗口與卷積核進(jìn)行卷積,將結(jié)果通過(guò)非線(xiàn)性激活函數(shù)f處理得到輸出,公式如下:
其中,常用的f包括sigmoid、tanh 和ReLU 等,W是卷積核,X是輸入詞向量,b1是偏置。
在池化層使用最大池化的方法提取最大的特征值,計(jì)算公式為:
其中,pj是池中第j個(gè)區(qū)域內(nèi)最大的特征值,cj是卷積得到的新特征。
2.2.2 Bi-LSTM
LSTM 是常用的命名實(shí)體識(shí)別模型,能解決RNN常見(jiàn)的梯度消失和梯度爆炸問(wèn)題[13]。其結(jié)構(gòu)如圖5所示。
圖5 LSTM細(xì)胞
其中,xt代表當(dāng)前t時(shí)刻的輸入,ht是t時(shí)刻隱藏層輸出,ct代表t時(shí)刻細(xì)胞的記憶狀態(tài),σ是sigmoid 函數(shù)。LSTM 的3 個(gè)門(mén)控單元為輸入門(mén)it、遺忘門(mén)ft和輸出門(mén)ot,其更新公式如下:
其中,W為隱藏層權(quán)重參數(shù)矩陣,b為偏置矩陣。
LSTM 細(xì)胞的記憶狀態(tài)ct和隱藏層ht公式如下:
LSTM 能在一定程度上解決梯度消失和梯度爆炸的問(wèn)題,但是在序列標(biāo)注任務(wù)中,還存在著其他問(wèn)題,LSTM 只能利用前向信息,無(wú)法使用對(duì)t+1 時(shí)刻的信息,因此提出了雙向LSTM(BiLSTM),結(jié)構(gòu)如圖6所示。
圖6 BiLSTM結(jié)構(gòu)
正向輸入LSTM 得到輸出可以理解成“歷史信息”,將序列反向輸入LSTM 得到“未來(lái)信息”,對(duì)兩者進(jìn)行連接合并。需要注意的是,前向LSTM 和后向LSTM 參數(shù)并不共享。BiLSTM 模型能很好地提取上下文信息,獲得更佳的語(yǔ)義信息[11-13]。
2.2.3 CAW的實(shí)現(xiàn)
考慮到使用CNN 雖然能夠高效地提取文本局部特征,但是卻無(wú)法挖掘上下文信息;LSTM 能有效地使用上下文信息,但是因?yàn)樽陨硌h(huán)遞歸的設(shè)定,網(wǎng)絡(luò)復(fù)雜度較大。因此該文提出字詞向量融合的方法,同時(shí)輸入字向量和詞向量,用CNN 和LSTM 分開(kāi)處理字向量和詞向量,盡可能挖掘文本局部信息和上下文語(yǔ)義信息。
用CNN 訓(xùn)練字向量的過(guò)程如下:對(duì)于字向量,按照分詞結(jié)果將其輸入CNN 來(lái)提取信息,根據(jù)CNN的窗口大小,不等長(zhǎng)的用padding 進(jìn)行填充,通過(guò)卷積操作和最大池化抽取詞語(yǔ)所包含的特征,得到新的詞級(jí)別的特征向量對(duì)于詞向量,使用BiLSTM提取詞向量特征的前后語(yǔ)義,將輸入詞向量Ew通過(guò)BiLSTM 網(wǎng)絡(luò)訓(xùn)練,即可得到新的初步提取過(guò)語(yǔ)義信息的詞向量,最后將兩者進(jìn)行Concat 拼接融合,獲得拼接后的詞向量Ecaw。例如,在處理“國(guó)務(wù)院總理”時(shí),會(huì)根據(jù)分詞“國(guó)務(wù)院”“總理”將詞語(yǔ)的語(yǔ)義信息拼接到各自的動(dòng)態(tài)特征中。
條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)是序列標(biāo)注任務(wù)的概率化模型,是根據(jù)輸入序列預(yù)測(cè)輸出序列標(biāo)簽的判別式模型[14]。CRF 能在給定一組輸入的條件下,給出另一組輸出變量的條件概率分布模型,可以對(duì)分詞、詞性和實(shí)體等特征進(jìn)行預(yù)測(cè)。
CRF 的判別公式如下:
s(x,y)是評(píng)估分?jǐn)?shù),A為轉(zhuǎn)移矩陣,p(y|x)為輸入序列到標(biāo)簽序列的對(duì)應(yīng)概率,Yx是所有可能的標(biāo)簽序列,最終使用維特比算法解碼獲得最可能的標(biāo)簽。
該文選擇的數(shù)據(jù)來(lái)源是爬取近一年(2020年1月-2021 年1 月)的人民日?qǐng)?bào)圖文數(shù)據(jù)庫(kù)(http://paper.people.com.cn/)時(shí)政新聞數(shù)據(jù)。人民日?qǐng)?bào)分要聞、評(píng)論、理論、文化、國(guó)際、經(jīng)濟(jì)、體育和國(guó)際等多個(gè)版塊,該實(shí)驗(yàn)爬取要聞、文化、經(jīng)濟(jì)、體育和國(guó)際等版塊,標(biāo)注了其中3 100 篇時(shí)政新聞數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集,按照7∶3 的比例劃分訓(xùn)練集和測(cè)試集。同時(shí)根據(jù)爬取的數(shù)據(jù)自建詞典,收錄近年的熱點(diǎn)名詞,提升了分詞的準(zhǔn)確率。
在制定標(biāo)注規(guī)則時(shí)該文考慮新聞的人物、地點(diǎn)、事件等要素,將實(shí)體劃分為七類(lèi)。例如,人物要素可以分割成人名和職位兩類(lèi)實(shí)體。數(shù)據(jù)標(biāo)注均采用BIO 三段標(biāo)記法,“B”代表每個(gè)實(shí)體的第一個(gè)字,“I”代表實(shí)體中除第一個(gè)字以外的字,“O”代表無(wú)關(guān)字。實(shí)體分類(lèi)標(biāo)注格式如表1 所示。例如,國(guó)“B-GOV”、務(wù)“I-GOV”、院“I-GOV”、總“B-POS”、理“I-POS”、李“B-PER”、克“I-PER”、強(qiáng)“I-PER”、近“O”、日“O”。
表1 實(shí)體分類(lèi)
該文采用的評(píng)價(jià)指標(biāo)為精準(zhǔn)率P(Precision)、召回率R(Recall)和F1 值,P表示正確識(shí)別的實(shí)體占識(shí)別出實(shí)體的比例,R表示正確識(shí)別實(shí)體占應(yīng)識(shí)別出實(shí)體的比例,F(xiàn)1 是綜合P和R的評(píng)價(jià)指標(biāo)。具體公式如下:
其中,Tp是正確識(shí)別的實(shí)體個(gè)數(shù),F(xiàn)p是識(shí)別出的錯(cuò)誤實(shí)體個(gè)數(shù),F(xiàn)n是沒(méi)有識(shí)別出的實(shí)體個(gè)數(shù)。
實(shí)驗(yàn)環(huán)境如表2 所示。
表2 實(shí)驗(yàn)環(huán)境
該文的實(shí)驗(yàn)參數(shù)中預(yù)訓(xùn)練模型采用ALBERTbase,優(yōu)化器為Adam,學(xué)習(xí)率初始值設(shè)置為2×10-5,迭代次數(shù)epoch 設(shè)置為40。
該文設(shè)置了4組對(duì)比實(shí)驗(yàn),分別采用Word2Vec和jieba 獲取詞向量的BiLSTM[11-13]模型,采用Word2Vec和jieba獲取詞向量的CNN模型,ALBERT-BiLSTM[15]模型和該文字向量與詞向量融合的ALBERT-CAWBiLSTM 模型。
表3 是ALBERT-CAW-BiLSTM 模型在時(shí)政新聞數(shù)據(jù)集上的P、R和F1 值。
根據(jù)表3 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),除了活動(dòng)識(shí)別的F1 值較低,只有76.2%,其他命名實(shí)體的F1 值均高于83%,說(shuō)明該模型在時(shí)政新聞數(shù)據(jù)集標(biāo)簽種類(lèi)較多的情況下表現(xiàn)良好。法律制度類(lèi)的實(shí)體適用場(chǎng)景特殊,對(duì)這些實(shí)體中的未登錄詞的識(shí)別效果最好。例如,在“發(fā)布新修訂的《軍隊(duì)院校教育條例(試行)》”文本中,法律制度實(shí)體“《軍隊(duì)院校教育條例(試行)》”能被正確識(shí)別。語(yǔ)句“聯(lián)合國(guó)、世界衛(wèi)生組織等國(guó)際組織發(fā)出要團(tuán)結(jié)、不要污名化的呼吁”中,模型識(shí)別出了“聯(lián)合國(guó)”、“世界衛(wèi)生組織”為組織機(jī)構(gòu)實(shí)體?!霸诹?xí)近平總書(shū)記親自指揮、親自部署下”識(shí)別出“習(xí)近平”為人名實(shí)體,“總書(shū)記”為職位實(shí)體。檢查數(shù)據(jù)集中識(shí)別效果不佳的活動(dòng)實(shí)體,發(fā)現(xiàn)是因?yàn)榛顒?dòng)名稱(chēng)命名沒(méi)有規(guī)律,容易出現(xiàn)未登錄詞和歧義詞,模型對(duì)活動(dòng)實(shí)體的識(shí)別能力有所下降。例如在“自然資源調(diào)查監(jiān)測(cè)底圖年底將完成”語(yǔ)句中,僅僅識(shí)別出“調(diào)查監(jiān)測(cè)”,正確識(shí)別的活動(dòng)實(shí)體應(yīng)為“自然資源調(diào)查監(jiān)測(cè)”。
從表4 中的結(jié)果可以看出,該文模型在P、R和F1 值上比BiLSTM 高出9.5%、7.6%、8.5%,比CNN 模型高出13.5%、20.9%、17.7%,這是因?yàn)锽iLSTM 和CNN 均是使用word2vec 來(lái)獲取靜態(tài)詞向量,雖然有較強(qiáng)的通用性,但是無(wú)法解決一詞多義及同義詞問(wèn)題。這一結(jié)果證明了該文模型使用預(yù)訓(xùn)練語(yǔ)言模型,在學(xué)習(xí)特征、語(yǔ)義抽取方面性能表現(xiàn)優(yōu)秀,能充分利用句子中的上下文信息。在特征提取的過(guò)程中,CNN 模型使用池化層對(duì)文本特征進(jìn)行降維會(huì)導(dǎo)致語(yǔ)義信息損失過(guò)多,BiLSTM 只考慮到上下文的語(yǔ)義信息,兩者都不能充分使用文本信息。對(duì)比ALBERT-BiLSTM 模型,該文模型F1 值提高了2.9%,召回率R提高了3.7%,準(zhǔn)確率P提高了1.9%,在自身模型已經(jīng)識(shí)別效果較好的情況下,證明了引入字詞融合(CAW)的方法能更充分地利用文本中上下文語(yǔ)義信息和局部特征信息,有效地劃分出實(shí)體邊界,提高命名實(shí)體的識(shí)別效果。
表4 不同模型結(jié)果對(duì)比
例如文本“會(huì)澤縣城有新時(shí)代文明實(shí)踐中心”中的組織機(jī)構(gòu)實(shí)體“新時(shí)代文明實(shí)踐中心”。CNN 模型標(biāo)注為“O”完全無(wú)法識(shí)別出實(shí)體信息;BiLSTM 模型能利用上下文語(yǔ)義信息識(shí)別出一部分:實(shí)“B-ORG”、踐“I-ORG”、中“I-ORG”、心“I-ORG”;ALBERTBiLSTM 模型和ALBERT-CAW-BiLSTM 模型均能識(shí)別出新“B-ORG”、時(shí)“I-ORG”、代“I-ORG”、文“IORG”、明“I-ORG”、實(shí)“I-ORG”、踐“I-ORG”、中“IORG”、心“I-ORG”,證明充分使用了局部特征和上下文語(yǔ)義。在文本“全國(guó)中小學(xué)體育教學(xué)指導(dǎo)委員會(huì)、中國(guó)教育發(fā)展基金會(huì)、耐克體育公益部聯(lián)合舉辦”中,ALBERT-BiLSTM 模型雖然將3 個(gè)實(shí)體都識(shí)別出來(lái)了,前兩個(gè)正確識(shí)別為組織機(jī)構(gòu)ORG 實(shí)體,但是錯(cuò)誤地將第三個(gè)實(shí)體識(shí)別成政府部門(mén)GOV 實(shí)體,而ALBERT-CAW-BiLSTM 模型則成功識(shí)別3 個(gè)實(shí)體。
該文提出了基于ALBERT-CAW 的時(shí)政新聞?lì)I(lǐng)域?qū)嶓w識(shí)別模型,采用預(yù)訓(xùn)練語(yǔ)言模型ALBERT 獲取文本的字詞向量,在字詞融合層利用CNN 和LSTM 初步提取的上下文語(yǔ)義和詞語(yǔ)語(yǔ)義,將結(jié)果融合后,通過(guò)BiLSTM 層兼顧上下文語(yǔ)義提取深層特征,最終輸入CRF 層進(jìn)行解碼,得到實(shí)體標(biāo)注信息,完成對(duì)實(shí)體邊界和類(lèi)別的識(shí)別。該文設(shè)計(jì)了4 組對(duì)比實(shí)驗(yàn),經(jīng)過(guò)在自建的人民日?qǐng)?bào)時(shí)政新聞數(shù)據(jù)集上進(jìn)行驗(yàn)證,獲得了87.3%的F1 值,與傳統(tǒng)模型相比在準(zhǔn)確率P、召回率R和F1 值上均有較大程度的提升,證明了該文模型能充分利用上下文信息,較好地解決一詞多義問(wèn)題,提高了識(shí)別準(zhǔn)確率,模型能有效地完成時(shí)政新聞命名實(shí)體識(shí)別的任務(wù)。為進(jìn)一步提升模型的性能,后續(xù)可以從細(xì)化和完善各類(lèi)實(shí)體的標(biāo)記規(guī)則、替換為ALBERT-large 的預(yù)訓(xùn)練模型、拓展語(yǔ)料規(guī)模和減少標(biāo)注謬誤等方面著手進(jìn)行優(yōu)化。