摘要:
針對獸藥領(lǐng)域信息專業(yè)性強(qiáng)、關(guān)聯(lián)性強(qiáng)、局部特征明顯和一詞多義的特點(diǎn),以及主流的命名實(shí)體識別模型未充分利用詞匯信息的問題,提出一種基于字詞融合和注意力機(jī)制的獸藥文本命名實(shí)體識別模型。首先,將BERT預(yù)訓(xùn)練模型得到的字向量和Word2vec得到的詞向量融合。然后,在雙向長短期記憶網(wǎng)絡(luò)中提取全局上下文特征的基礎(chǔ)上加入多頭自注意力機(jī)制挖掘序列的局部特征。最后,通過條件隨機(jī)場獲得最佳標(biāo)簽序列來完成實(shí)體識別任務(wù)。在獸藥文本數(shù)據(jù)集上進(jìn)行多組對比試驗(yàn),結(jié)果表明,該模型識別的準(zhǔn)確率、召回率和F1值分別為94.73%、95.29%和95.01%,性能均優(yōu)于對比模型。
關(guān)鍵詞:獸藥文本;命名實(shí)體識別;字詞融合;多頭自注意力機(jī)制
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-5553 (2025) 03-0336-08
收稿日期:2023年7月10日" 修回日期:2023年8月23日*
基金項(xiàng)目:國家重點(diǎn)研發(fā)計劃政府間/港澳臺重點(diǎn)專項(xiàng)(2019YFE0103800);山東省自然科學(xué)基金面上項(xiàng)目(ZR2022MG070)
第一作者:顏士軍,女,1998年生,山東棗莊人,碩士;研究方向?yàn)樽匀徽Z言處理、知識圖譜。E-mail: 2317368792@qq.com
通訊作者:朱紅梅,女,1969年生,上海人,博士,副教授;研究方向?yàn)檎Z義Web、知識工程、知識圖譜。E-mail: zhm@sdau.edu.cn
Named entity recognition of veterinary drug text based on character and word fusion
and attention mechanism
Yan Shijun1, Zhu Hongmei1, Wang Yatong2, Zhang Liang1
(1." School of Information Science and Engineering, Shandong Agricultural University, Tai’an, 271018, China;
2. Information Center of Dongfang Electronics Group Co., Ltd., Yantai, 264000, China)
Abstract:
In view of the characteristics of strong professionalism, strong relevance, obvious local features, and polysemy of the information in the field of veterinary drugs and the problem that the mainstream named entity recognition model does not make full use of vocabulary information, a named entity recognition model of veterinary drug text based on character and word fusion and the attention mechanism is proposed. Firstly, the character vector obtained by the pre-training model BERT and the word vector obtained by Word2vec are fused. Secondly, it utilizes a bidirectional long short-term memory network (BiLSTM) to capture overall contextual information and employs a multi-head self-attention mechanism (MHA) to extract local features from sequences. Lastly, a conditional random field (CRF) is utilized to determine the optimal sequence of labels for named entity recognition. Multiple sets of experiments on the veterinary drug text dataset show that the recognition precision, recall rate, and F1—score of the model are 94.73%, 95.29%, and 95.01%, respectively. The performance of the model is better than the comparison model.
Keywords:
veterinary drug text; named entity recognition; character and word fusion; multi-head self-attention mechanism
0 引言
現(xiàn)代畜牧業(yè)生產(chǎn)中投入了大量的信息系統(tǒng)和數(shù)字化設(shè)備,產(chǎn)生了大量以電子文本形式存在的信息,獸藥相關(guān)文本信息是其中一個重要組成部分,與畜牧業(yè)產(chǎn)品的質(zhì)量安全密切相關(guān),獸藥信息咨詢服務(wù)已經(jīng)逐漸成為畜牧業(yè)知識服務(wù)的標(biāo)準(zhǔn)配置。從非結(jié)構(gòu)化數(shù)據(jù)中抽取出結(jié)構(gòu)化的獸藥知識,進(jìn)行知識的結(jié)構(gòu)化表示,構(gòu)建獸藥領(lǐng)域知識庫,幫助相關(guān)人員能夠快速準(zhǔn)確地獲取有用信息,對實(shí)現(xiàn)獸藥領(lǐng)域的智能發(fā)展具有十分重要的意義,同時也為后續(xù)獸藥關(guān)系抽取[1]、知識圖譜構(gòu)建[2]、知識問答系統(tǒng)[3]等任務(wù)的研究提供基礎(chǔ)和技術(shù)支持。如何充分挖掘和利用獸藥領(lǐng)域的知識文本數(shù)據(jù),自動準(zhǔn)確、快速地識別和抽取獸藥數(shù)據(jù)集中的相關(guān)實(shí)體,是實(shí)現(xiàn)畜牧業(yè)智能服務(wù)的關(guān)鍵問題。
早期對命名實(shí)體識別的研究主要是基于字典和規(guī)則的模式匹配以及傳統(tǒng)機(jī)器學(xué)習(xí)等方法?;谧值浜鸵?guī)則的模式匹配方法耗時耗力且通用性差[4]。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,命名實(shí)體的識別被看作是一個序列標(biāo)注問題,并且已取得一系列的研究成果。其中,條件隨機(jī)場(CRF)在預(yù)測實(shí)體類別中具有較高的準(zhǔn)確性,因此被廣泛應(yīng)用于各種命名實(shí)體識別任務(wù)中。Malarkodi等[5]利用CRF實(shí)現(xiàn)了從不同農(nóng)業(yè)領(lǐng)域的真實(shí)農(nóng)業(yè)數(shù)據(jù)中提取實(shí)體。李想等[6]利用標(biāo)注好的數(shù)據(jù)訓(xùn)練CRF模型,對語料進(jìn)行分類并識別其在復(fù)合命名實(shí)體中的位置。但是傳統(tǒng)機(jī)器學(xué)習(xí)方法嚴(yán)重依賴人工選取特征。
近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,研究人員逐漸將其應(yīng)用于命名實(shí)體識別任務(wù)中?;谏疃葘W(xué)習(xí)的方法便成為了命名實(shí)體識別的主流方法且被廣泛應(yīng)用于電子病歷、生物醫(yī)學(xué)、農(nóng)業(yè)等領(lǐng)域。雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)由兩層方向相反的LSTM[7]組成,憑借其能夠整合序列前后項(xiàng)信息獲取更大范圍的上下文依賴關(guān)系的優(yōu)勢,被廣泛應(yīng)用于序列標(biāo)注任務(wù)。Huang等[8]首次聯(lián)合采用BiLSTM和CRF對序列數(shù)據(jù)進(jìn)行預(yù)測,大大提高了命名實(shí)體識別的準(zhǔn)確率。為增強(qiáng)深度學(xué)習(xí)在特征提取方面的能力,Devlin等[9]基于Transformer提出了BERT預(yù)訓(xùn)練語言模型,采用新的MLM來生成深度的雙向語言表征,在各類自然語言處理任務(wù)上均達(dá)到了目前最好的結(jié)果。陳劍等[10]在BiLSTM—CRF模型中加入BERT層,對司法文書語料庫進(jìn)行實(shí)體識別,克服了特征提取效率低的困難。Strubell等[11]將迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)(IDCNN)與CRF組合形成IDCNN—CRF模型,不僅提升了識別效果還提高了模型的訓(xùn)練速度。李妮等[12]在上述模型的基礎(chǔ)上加入BERT預(yù)訓(xùn)練模型,使BERT參數(shù)在訓(xùn)練時保持不變,既保持了多義性又減少了訓(xùn)練的參數(shù)。
基于字符的命名實(shí)體識別方法在識別領(lǐng)域特點(diǎn)強(qiáng)烈且實(shí)體種類繁多的實(shí)體時容易出現(xiàn)語義錯誤。因?yàn)樘囟I(lǐng)域的文本中會包含大量的具有領(lǐng)域特色的詞匯,而基于字符的實(shí)體識別方法無法充分提取這些豐富的詞匯特征。為充分使用詞匯信息,Zhang等[13]提出了一種Lattice LSTM模型,融合了字符信息和詞匯信息,相比于基于字的方法不會因?yàn)榉衷~錯誤而影響實(shí)體識別效果,但其僅考慮以該字符結(jié)尾的詞匯。李書琴等[14]針對獼猴桃種植領(lǐng)域?qū)嶓w識別問題,在BiGRU—CRF模型的基礎(chǔ)上融合字詞語義信息,提高了模型識別的準(zhǔn)確率。
注意力機(jī)制是深度學(xué)習(xí)研究的一個熱點(diǎn),由于其善于抓住與數(shù)據(jù)或特征之間的內(nèi)在關(guān)聯(lián),因此被研究人員廣泛使用[15, 16]。Guo等[17]基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制搭建命名實(shí)體識別模型,有效識別農(nóng)業(yè)病蟲害等實(shí)體。羅熹等[18]將多頭自注意力機(jī)制應(yīng)用到中文電子病歷命名實(shí)體識別上,提升了模型的識別效果。
目前國內(nèi)外在獸藥文本命名實(shí)體識別的研究較少,王雅童[19]在ALBERT—BiGRU—CRF模型的基礎(chǔ)上引入自注意力機(jī)制獲取獸藥文本序列內(nèi)部的上下文特征信息,使模型識別的F1值達(dá)到79.44%,取得一定效果。但是,該模型并沒有考慮到詞匯信息對實(shí)體識別的影響,其識別的準(zhǔn)確性不是很高。海量的獸藥相關(guān)文本專業(yè)性強(qiáng)、關(guān)聯(lián)性強(qiáng)、結(jié)構(gòu)復(fù)雜、局部特征明顯,實(shí)體種類繁多,具有鮮明的領(lǐng)域特殊性和一詞多義的特點(diǎn)。針對這些特點(diǎn),本文提出一種基于字詞融合(CWF)和注意力機(jī)制的獸藥文本命名實(shí)體識別模型CWF—BiLSTM—MHA—CRF。
1 獸藥文本數(shù)據(jù)清洗與標(biāo)注
1.1 文本收集
為保證數(shù)據(jù)的真實(shí)可靠性,2022年3月從國家獸藥數(shù)據(jù)庫中獲取與獸藥相關(guān)的文本,經(jīng)篩選去重后,最終獲得1 000份獸藥文本作為本文的數(shù)據(jù)集。
1.2 數(shù)據(jù)清洗
為提高識別的準(zhǔn)確性,得到更好的訓(xùn)練結(jié)果,在訓(xùn)練數(shù)據(jù)前先進(jìn)行清洗工作。原始的獸藥文本中含有許多不規(guī)范的文字和符號,對正確識別出實(shí)體不僅沒有幫助甚至具有干擾作用。有必要找出并改正這些可識別的錯誤,清除無效值和數(shù)據(jù)整理。無效值主要包括項(xiàng)目符號、特殊字符、干擾詞和無意義的句子。使用Python程序清除無效值,刪除原始獸藥文本中無意義的空格、特殊字符、冗余字符和某些錯誤符號。數(shù)據(jù)整理包括補(bǔ)全缺失數(shù)據(jù)和長句劃分。各獸藥文本的格式并不是完全固定的,需要進(jìn)行缺項(xiàng)處理,對缺失數(shù)據(jù)進(jìn)行補(bǔ)全,把數(shù)據(jù)整理為統(tǒng)一格式的文本數(shù)據(jù)。對于過長的句子,按照標(biāo)點(diǎn)符號對其進(jìn)行分句處理,保證每個句子的長度不多于256個字。
1.3 實(shí)體標(biāo)注
采用BIO標(biāo)注策略,并使用開源文本標(biāo)注工具doccano對獸藥文本進(jìn)行標(biāo)注,總共標(biāo)注了藥物、成分、疾病、用藥方式、用藥頻次、用藥劑量、用藥單位、藥物類別、休藥期、藥物禁忌、貯藏方式、用藥動物12種實(shí)體類別。具體類別定義如表1所示。
在進(jìn)行試驗(yàn)前,先對人工標(biāo)記的實(shí)體進(jìn)行檢查,如果發(fā)現(xiàn)標(biāo)記的實(shí)體出現(xiàn)起始位置開始過早或終點(diǎn)位置結(jié)束過晚等錯誤情況則對其進(jìn)行修改更正。
2 模型結(jié)構(gòu)
所提CWF—BiLSTM—MHA—CRF模型由字詞融合層、BiLSTM層、注意力機(jī)制層和CRF推理層4部分構(gòu)成,其模型結(jié)構(gòu)如圖1所示。在BERT模型獲取字向量的基礎(chǔ)上融入Word2vec得到的詞向量作為字詞融合層的輸出;然后通過BiLSTM模型學(xué)習(xí)獸藥文本序列的全局語義信息;再通過多頭自注意力機(jī)制挖掘序列局部特征;最后利用CRF推理層對注意力機(jī)制層的輸出進(jìn)行解碼,得到一個預(yù)測標(biāo)注序列,從而完成識別任務(wù)。
2.1 字詞融合層
在命名實(shí)體識別任務(wù)中,使用最為廣泛的是基于字符的識別方法,雖然該方法能獲得豐富的字符級語義信息,但是容易失去詞匯的語義信息。因此,本文在基于字符方法的基礎(chǔ)上融入詞匯信息,作為字詞融合層的輸出。
在獸藥文本中,實(shí)體在不同語境下可能會有不同的含義,比如“苯酚”在不同的語境下可能屬于獸藥名,也可屬于獸藥成分。為充分利用語句的上下文信息,獲取豐富的字符級語義表示,引入BERT預(yù)訓(xùn)練模型來對獸藥文本進(jìn)行預(yù)訓(xùn)練,充分獲得序列的字向量表示。
BERT模型以雙向Transformer神經(jīng)網(wǎng)絡(luò)作為編碼器,并利用大規(guī)模文本數(shù)據(jù)的自監(jiān)督性質(zhì)構(gòu)建兩個預(yù)訓(xùn)練任務(wù),分別是掩蔽語言模型(MLM)和下一句預(yù)測(NSP)。MLM在每次迭代中會隨機(jī)屏蔽15%的詞語,結(jié)合上下文的語句預(yù)測出屏蔽處的原有詞語,很好地解決獸藥文本一詞多義的問題。NSP的作用是為了讓模型捕捉兩個句子的聯(lián)系,理解句子之間的關(guān)系。
如圖2所示,BERT模型將字向量(Token Embedding)、片段向量(Segment Embedding)和位置向量(Position Embedding)三者之和作為模型的輸入。
其中,[CLS]、[SEP]分別用來表示句子的開始位置與結(jié)束位置,Token Embedding通過查詢字向量表將文本序列的每個字轉(zhuǎn)換為一維向量。Segment Embedding的取值在模型訓(xùn)練過程中自動生成,主要用于標(biāo)定兩個子句的上下文關(guān)系。Position Embedding包含上下文相對位置信息,用于對不同語句以及不同位置的字所攜帶的語義信息進(jìn)行區(qū)分。
BERT模型結(jié)構(gòu)如圖3所示,將輸入向量(e1,e2,…,en)輸入到12層的雙向Transformer網(wǎng)絡(luò)中,最后得到具有語義特征的字向量表示(t1,t2,…,tn)。
使用jieba分詞工具對獸藥文本進(jìn)行分詞,并加入自定義獸藥領(lǐng)域詞典來優(yōu)化分詞。分詞后采用預(yù)訓(xùn)練的Word2vec模型得到每個詞的詞向量。若通過jieba分詞得到的文本序列為W=(w1,w2,…,wm),則第i個詞wi的詞向量vi的計算如式(1)所示。
vi=ev×d(wi)
(1)
式中: ev×d——
Word2vec模型的詞向量映射;
v——詞匯表的大?。?/p>
d——詞向量的維度。
將通過BERT模型得到的字向量T=(t1,t2,…,tn)和Word2vec模型得到的詞向量V=(v1,v2,…,vm)進(jìn)行拼接。但由于一個詞可能會由多個字構(gòu)成,為對齊每個字向量和詞向量,按照每個詞含有的字?jǐn)?shù)將詞向量拼接到每個字向量之后,具體實(shí)現(xiàn)方法如圖4所示,得到該層的輸出S=(s1,s2,…,sn)。
2.2 BiLSTM層
長短期記憶網(wǎng)絡(luò)(LSTM)采用輸入門、遺忘門和輸出門3個門控制單元,解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中存在的梯度消失以及梯度爆炸問題。LSTM模型如圖5所示。
輸入門it用來確定當(dāng)前輸入中被保存在單元狀態(tài)ct中的個數(shù),遺忘門ft用來決定保存多少上一時刻的單元狀態(tài)ct-1到當(dāng)前時刻ct,輸出門ot決定單元狀態(tài)ct傳輸多少個輸出到當(dāng)前隱藏層輸出值ht。3個門的狀態(tài)更新方式如式(2)~式(6)所示。
it=σ(Wi·hi-1,xt+bi)
(2)
ft=σ(Wf·ht-1,xt+bf)
(3)
ot=σ(Wo·ht-1,xt+bo)
(4)
ct=
ft×ct-1+it×tanh(Ws·ht-1,xt+bs)
(5)
ht=ot×tanh (ct)
(6)
式中: σ——Sigmoid激活函數(shù);
W——權(quán)重矩陣;
b——偏置項(xiàng);
xt——當(dāng)前單元的輸入。
單向的LSTM網(wǎng)絡(luò)僅能獲得目標(biāo)詞單向的特征信息。例如:獸藥名稱“黃馬白鳳丸”,LSTM僅可以獲取“鳳”的前文序列“白”的特征信息,無法獲取下文序列“丸”的特征信息。BiLSTM由兩層方向相反的LSTM組成,訓(xùn)練時既能接受前文序列也能接受后文序列,可以充分獲得目標(biāo)詞過去和將來的特征信息,其模型結(jié)構(gòu)如圖6所示。
BiLSTM將字詞融合層的輸出S=(s1,s2,…,sn)作為輸入,分別利用前向和后向的LSTM計算任意輸入字符的前向表示ht和后向表示ht,然后拼接得到t時刻BiLSTM的輸出結(jié)果ht,將作為注意力機(jī)制層的輸入,其計算如式(7)所示。
ht=htht
(7)
2.3 注意力機(jī)制層
盡管BiLSTM能夠獲得全局上下文信息,但它并不能完全捕捉到句子中的局部重要信息,并且在處理長句時,還容易丟失一些非常關(guān)鍵的信息。為充分挖掘輸入序列的局部特征并篩選出重要信息,在模型中引入注意力機(jī)制層。
自注意力機(jī)制通過計算文本序列字符之間的相關(guān)性來捕捉文本中的長距離依賴關(guān)系,多頭自注意力機(jī)制則是將多個并行的自注意力機(jī)制結(jié)合起來,從更多的角度和更多的層次獲得更全面的相關(guān)特征。采用多頭自注意力機(jī)制可以使模型更有效地學(xué)習(xí)句子的上下文依賴信息,且其具有更強(qiáng)的并行執(zhí)行能力和更快的訓(xùn)練速度。因此,在BiLSTM模型后加入多頭自注意力機(jī)制從字符、詞語以及句子的層面捕捉多重語義特征來進(jìn)一步提升獸藥文本命名實(shí)體識別的效果。
注意力機(jī)制將BiLSTM層的輸出矩陣H投影到3個矩陣:Q、K和V。采用放縮點(diǎn)積注意力進(jìn)行計算,如式(8)所示。
Attention(Q,K,V)=
SoftmaxQKTdkV
(8)
式中: Q——查詢矩陣;
K——鍵矩陣;
V——值矩陣;
dk——
神經(jīng)網(wǎng)絡(luò)的隱層單元數(shù),用來控制Q和K的點(diǎn)積,防止其結(jié)果過大。
將許多不同比例的放縮點(diǎn)積注意進(jìn)行拼接會產(chǎn)生多頭注意,其結(jié)構(gòu)如圖7所示。
多頭的本質(zhì)是多個獨(dú)立的attention計算,多頭就是復(fù)制多個單頭,能夠考慮到不同位置表示子空間中提取信息的必要性并提取多重語意的含義。具體的實(shí)現(xiàn)過程是分別對查詢矩陣、鍵矩陣和值矩陣進(jìn)行h次線性投影,計算如式(9)、式(10)所示。
headi=Attention(QWQi,KWKi,VWVi)
(9)
MultiHead(Q,K,V)=Concat(head1,…,headh)W0
(10)
式中: WQi——Q的權(quán)重矩陣;
WKi——K的權(quán)重矩陣;
WVi——V的權(quán)重矩陣;
W0——
h個注意力頭計算后產(chǎn)生結(jié)果對應(yīng)的權(quán)重矩陣。
2.4 CRF層
條件隨機(jī)場常用于序列標(biāo)注問題,是一種根據(jù)輸入序列預(yù)測輸出序列的判別式模型。在獸藥文本命名實(shí)體識別任務(wù)中,對于實(shí)體的預(yù)測標(biāo)簽需要遵循一定的規(guī)則,比如“B-DRUG、I-DRUG”標(biāo)簽中I標(biāo)簽一定在B標(biāo)簽之后,而且必須與B標(biāo)簽具有相同的標(biāo)簽后綴DRUG。因此需要對預(yù)測標(biāo)簽進(jìn)行約束,本文采用CRF模型對預(yù)測標(biāo)簽之間的依賴關(guān)系進(jìn)行約束來獲得最優(yōu)的標(biāo)簽序列。
對于輸入句子x=(x1,x2,…,xn),其對應(yīng)標(biāo)簽序列y=(y1,y2,…,yn)的評估分?jǐn)?shù)的計算見式(11)。
score(x,y)=
∑ni=0Ayi,yi+1+∑ni=1Pi,yi
(11)
式中: Ayi,yi+1——
從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的分?jǐn)?shù);
Pi,yi——
第i個字被預(yù)測為標(biāo)簽yi的分?jǐn)?shù)。
使用Softmax函數(shù)對已知句子x的標(biāo)簽序列y的條件概率進(jìn)行計算,如式(12)所示。
P(y|x)=exp[score(x,y)]∑y′∈Yxexp[score(x,y′)]
(12)
式中: y′——真實(shí)標(biāo)簽;
Yx——
已知句子x的所有可能的標(biāo)簽集合。
使用最大似然函數(shù)對模型進(jìn)行訓(xùn)練,見式(13)。
logP(y|x)=score(x,y)-log∑y′∈Yxexp[score(x,y′)]
(13)
在最后的解碼階段,使用維特比算法得到全局最優(yōu)解作為模型的最終結(jié)果,如式(14)所示。
y*=argmaxy′∈Yxscore(x,y′)
(14)
3 試驗(yàn)與結(jié)果分析
3.1 試驗(yàn)數(shù)據(jù)
試驗(yàn)選用前文構(gòu)建的獸藥文本數(shù)據(jù)集作為訓(xùn)練樣本,將其按照7∶1∶2的比例劃分訓(xùn)練集、驗(yàn)證集和測試集,具體統(tǒng)計信息如表2所示。
3.2 試驗(yàn)環(huán)境與模型參數(shù)設(shè)置
試驗(yàn)采用Pytorch框架,詳細(xì)試驗(yàn)環(huán)境配置如表3所示。涉及到的訓(xùn)練參數(shù)主要包含BERT預(yù)訓(xùn)練模型中使用的Transformer結(jié)構(gòu)為12層,BiLSTM隱藏層維度為128,選取Adam優(yōu)化算法。采用Dropout機(jī)制來減輕模型過擬合問題,其值設(shè)置為0.5。詳細(xì)的訓(xùn)練參數(shù)設(shè)置如表4所示。
3.3 評價指標(biāo)
使用準(zhǔn)確率P、召回率R和F1值3項(xiàng)評價指標(biāo)對獸藥文本識別結(jié)果進(jìn)行評價。各評價標(biāo)準(zhǔn)的計算如式(15)~式(17)所示。
P=TPTP+FP×100%
(15)
R=TPTP+FN×100%
(16)
F1=2×P×RP+R×100%
(17)
式中: TP——
實(shí)際上為正且被判斷為正的實(shí)體數(shù)量;
FP——
實(shí)際上為負(fù)但被判斷為正的實(shí)體數(shù)量;
FN——
實(shí)際上為正但被判斷為負(fù)的實(shí)體數(shù)量。
3.4 試驗(yàn)結(jié)果分析
3.4.1 主流模型對比試驗(yàn)
為驗(yàn)證所提CWF—BiLSTM—MHA—CRF模型對獸藥文本數(shù)據(jù)集的命名實(shí)體識別效果,將其與IDCNN—CRF、BERT—IDCNN—CRF、BiLSTM—CRF、BERT—BiLSTM—CRF、XLNet—Word2vec—BiLSTM—MHA—CRF等主流模型進(jìn)行對比分析,具體試驗(yàn)結(jié)果如表5所示。
1)" 與IDCNN—CRF模型相比,BERT—IDCNN—CRF模型在準(zhǔn)確率、召回率、F1值這3項(xiàng)評價指標(biāo)上分別提高4.03%、5.77%、4.90%。表明BERT預(yù)訓(xùn)練模型可以充分利用語句的上下文信息,獲取豐富的字符級語義表示,緩解獸藥文本一詞多義的問題。BERT—BiLSTM—CRF模型相比于BiLSTM—CRF模型,在準(zhǔn)確率、召回率、F1值這3項(xiàng)評價指標(biāo)上也都得到提升,充分證明BERT在特征提取方面的優(yōu)越性。
2)" BiLSTM—CRF模型與IDCNN—CRF模型相比,BiLSTM—CRF模型的準(zhǔn)確率、召回率和F1值分別提高了3.34%、5.52%和4.42%。因?yàn)锽iLSTM全局上下文特征提取能力比IDCNN更加強(qiáng)大,BiLSTM對整個輸入序列進(jìn)行特征學(xué)習(xí),可以從全局上掌握實(shí)體的上下文信息,從而實(shí)現(xiàn)對更多實(shí)體的識別。
3)" CWF—BiLSTM—MHA—CRF模型與前4種主流模型的對比試驗(yàn)中,其識別的準(zhǔn)確率、召回率、F1值均有顯著提升。XLNet—Word2vec—BiLSTM—MHA—CRF模型在獸藥文本實(shí)體識別任務(wù)中得到其準(zhǔn)確率、召回率、F1值分別為93.24%、95.83%、94.52%,除召回率比本文模型的95.29%高以外,其準(zhǔn)確率和F1值比本文模型的94.73%和95.01%低。XLNet使用自回歸方式和排列語言模型,訓(xùn)練復(fù)雜性較高,需要更多的時間和計算資源來訓(xùn)練一個有效的模型。本文模型則是使用效率更高的BERT模型來獲取字向量表示,且在其基礎(chǔ)上融入詞匯信息并加入注意力機(jī)制層,可以更加充分獲取獸藥文本中的有效信息。從試驗(yàn)結(jié)果來看,使用BERT提取的字向量融合Word2vec得到的詞向量作為字詞融合層的輸出確實(shí)能夠更有效地提升獸藥文本的識別效果。由此可知,本文模型對獸藥文本中的實(shí)體識別有顯著提升效果,充分證明該模型的有效性。
3.4.2 消融試驗(yàn)
為進(jìn)一步驗(yàn)證本文所提基于字詞融合和注意力機(jī)制的獸藥文本命名實(shí)體識別模型加入詞匯特征和多頭注意力機(jī)制的有效性,設(shè)計消融試驗(yàn)。該試驗(yàn)以BERT—BiLSTM—CRF模型為基礎(chǔ),將增加詞匯特征記為“+Word2vec”,增加多頭注意力機(jī)制記為“+MHA”,具體試驗(yàn)結(jié)果如表6所示。
1)" 在基礎(chǔ)模型BERT—BiLSTM—CRF上“+Word2vec”后,準(zhǔn)確率、召回率、F1值均有提高,說明在字的基礎(chǔ)上融入詞匯信息是有效果的,驗(yàn)證獸藥文本實(shí)體識別中詞匯信息的重要性。
2)" 在基礎(chǔ)模型BERT—BiLSTM—CRF上“+MHA”后,相比于“+Word2vec”的召回率和F1值有所提升。因?yàn)槎囝^自注意力機(jī)制能夠使模型將更多的注意力放在關(guān)鍵的字和標(biāo)簽上,即對所提取到的特征進(jìn)行權(quán)重分配以強(qiáng)化關(guān)鍵局部特征,從而提高實(shí)體識別的準(zhǔn)確性。
3)" CWF—BiLSTM—MHA—CRF模型在BERT—BiLSTM—CRF模型的基礎(chǔ)上“+Word2vec”和“+MHA”,其識別效果相比于單獨(dú)加入其中一種均有所提高。因?yàn)榧热谌肓嗽~匯信息,考慮到詞語語義信息的重要性,又加入多頭注意力機(jī)制,充分挖掘序列的局部特征,關(guān)注更多的有用信息,進(jìn)而提升了識別的準(zhǔn)確性。
3.4.3 識別結(jié)果
為更加清楚地看出CWF—BiLSTM—MHA—CRF模型的試驗(yàn)結(jié)果,將其對12類實(shí)體的預(yù)測結(jié)果具體展開,如表7所示。
由表7可知,本文模型對各類實(shí)體的識別準(zhǔn)確率較高,尤其是在藥物、成分、用藥頻次、藥物類別、貯藏方式以及用藥動物等一些特征比較明顯的實(shí)體上,F(xiàn)1值都在96%以上。除此之外,如用藥方式、用藥劑量、用藥單位、休藥期等,也取得比較好的識別效果,F(xiàn)1值都達(dá)到93%以上。由于疾病和藥物禁忌這兩類實(shí)體存在周圍特征不夠明顯、實(shí)體描述信息各式各樣的現(xiàn)象,所以其識別結(jié)果相較于其他實(shí)體較差。但本文模型融合了詞匯信息,增加了語義信息的完整度,同時經(jīng)過多頭自注意力機(jī)制的處理,能夠充分挖掘序列的局部特征,關(guān)注更多的有用信息,因此對疾病、藥物禁忌這種難以識別的實(shí)體也能達(dá)到80%以上的F1值。
4 結(jié)論
1)" 針對獸藥文本中存在的專業(yè)性強(qiáng)、結(jié)構(gòu)復(fù)雜、實(shí)體種類繁多和一詞多義的問題,提出一種基于字詞融合和注意力機(jī)制的獸藥文本命名實(shí)體識別模型。該模型使用具有強(qiáng)大表義能力的BERT模型提取字符特征,使用Word2vec獲取詞匯特征,將二者融合獲取完整的語義信息。在使用BiLSTM模型捕捉全局上下文信息的基礎(chǔ)上加入多頭自注意力機(jī)制挖掘序列的局部特征。
2)" 試驗(yàn)與主流的模型進(jìn)行對比,采用的模型在獸藥文本數(shù)據(jù)集上獲得最高的F1值(95.01%),證明其在獸藥文本命名實(shí)體識別任務(wù)中的優(yōu)越性。所實(shí)現(xiàn)的獸藥文本命名實(shí)體識別為以后進(jìn)行相關(guān)領(lǐng)域的信息抽取以及知識圖譜的構(gòu)建等工作打下基礎(chǔ),并在此基礎(chǔ)上擴(kuò)大獸藥領(lǐng)域數(shù)據(jù)集的規(guī)模,增加各類實(shí)體的數(shù)量并對實(shí)體類別進(jìn)行更加細(xì)致的劃分,以進(jìn)一步提高命名實(shí)體識別模型的性能。
參 考 文 獻(xiàn)
[1] Liu J, Yang Y, He H. Multi-level semantic representation enhancement network for relationship extraction [J]. Neurocomputing, 2020, 403: 282-293.
[2] 張善文, 王振, 王祖良. 結(jié)合知識圖譜與雙向長短時記憶網(wǎng)絡(luò)的小麥條銹病預(yù)測[J]. 農(nóng)業(yè)工程學(xué)報, 2020, 36(12): 172-178.
Zhang Shanwen, Wang Zhen, Wang Zuliang.Prediction of wheat stripe rust disease by combining knowledge graph and bidirectional long short term memory network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(12): 172-178.
[3] Do P, Phan T H V. Developing a BERT based triple classification model using knowledge graph embedding for question answering system [J]. Applied Intelligence, 2022, 52(1): 636-651.
[4] 鄭麗敏, 齊珊珊, 田立軍, 等. 面向食品安全事件新聞文本的實(shí)體關(guān)系抽取研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2020, 51(7): 244-253.
Zheng Limin, Qi Shanshan, Tian Lijun, et al. Entity relationextraction of news texts for food safety events [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(7): 244-253.
[5] Malarkodi C S, Lex E, Devi S L. Named entity recognition for the agricultural domain [J]. Research in Computing Science, 2016, 117(1): 121-132.
[6] 李想, 魏小紅, 賈璐, 等. 基于條件隨機(jī)場的農(nóng)作物病蟲害及農(nóng)藥命名實(shí)體識別[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2017, 48(S1): 178-185.
Li Xiang, Wei Xiaohong, Jia Lu, et al. Recognition ofcrops, diseases and pesticides named entities in Chinese based on conditional random fields [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1): 178-185.
[7]
Hochreiter S, Schmidhuber J. Long short-term memory [J].Neural Computation, 1997, 9(8): 1735-1780.
[8]
Huang Z, Xu W, Yu K. Bidirectional LSTM—CRF models for sequence tagging [J]. Computer Science, 2015, 4(1): 1508-1519.
[9]
Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [J]. arXiv preprint arXiv:1810.04805, 2018.
[10] 陳劍, 何濤, 聞英友, 等. 基于BERT模型的司法文書實(shí)體識別方法[J]. 東北大學(xué)學(xué)報(自然科學(xué)版), 2020, 41(10): 1382-1387.
Chen Jian, He Tao, Wen Yingyou, et al. Entity recognition method for judicial documents based on BERT model [J]. Journal of Northeastern University (Natural Science), 2020, 41(10): 1382-1387.
[11] Strubell E, Verga P, Belanger D, et al. Fast and accurate entity recognition with iterated dilated convolutions [C]. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017: 2670-2680.
[12] 李妮, 關(guān)煥梅, 楊飄, 等. 基于BERT—IDCNN—CRF的中文命名實(shí)體識別方法[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2020, 55(1): 102-109.
Li Ni, Guan Huanmei, Yang Piao, et al. BERT—IDCNN—CRF for named entity recognition in Chinese [J]. Journal of Shandong University (Natural Science), 2020, 55(1): 102-109.
[13]
Zhang Y, Yang J. Chinese NER using lattice LSTM [C].Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018: 1554-1564.
[14] 李書琴, 張明美, 劉斌. 融合字詞語義信息的獼猴桃種植領(lǐng)域命名實(shí)體識別研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2022, 53(12): 323-331.
Li Shuqin, Zhang Mingmei, Liu Fu. Kiwifruit planting entity recognition based on character and word information fusion [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(12): 323-331.
[15] Li M Y, Kong F. Combined self-attention mechanism for named entity recognition in social media [J]. Journal of Tsinghua University (Science and Technology), 2019, 59(6): 461-467.
[16] 劉歆寧. 融合多特征及協(xié)同注意力的醫(yī)學(xué)命名實(shí)體識別[J]. 計算機(jī)工程與應(yīng)用, 2024, 60(6): 188-198.
Liu Xinning. Medical named entity recognition based on multi-feature and co-attention [J]. Computer Engineering and Applications, 2024, 60(6): 188-198.
[17] Guo X, Zhou H, Su J, et al.Chinese agricultural diseases and pests named entity recognition with multi-scale local context features and self-attention mechanism [J]. Computers and Electronics in Agriculture, 2020, 179(5): 105830.
[18] 羅熹, 夏先運(yùn), 安瑩,等. 結(jié)合多頭自注意力機(jī)制與BiLSTM—CRF的中文臨床實(shí)體識別[J]. 湖南大學(xué)學(xué)報(自然科學(xué)版), 2021, 48(4): 45-55.
Luo Xi, Xia Xianyun, An Ying, et al. Chinese CNER combined with multi-head self-attention and BiLSTM—CRF [J]. Journal of Hunan University (Natural Sciences), 2021, 48(4): 45-55.
[19] 王雅童. 基于知識圖譜的獸藥知識問答系統(tǒng)研究與實(shí)現(xiàn)[D].泰安: 山東農(nóng)業(yè)大學(xué), 2022.
Wang Yatong. Research and implementation of veterinary drug knowledge question answering system based on knowledge graph [D]. Tai’an: Shandong Agricultural University, 2022.