劉合兵,張德夢,熊蜀峰,馬新明,席 磊+
1.河南農(nóng)業(yè)大學(xué) 信息與管理科學(xué)學(xué)院,鄭州450046
2.農(nóng)田監(jiān)測與控制河南省工程實(shí)驗室,鄭州450002
小麥?zhǔn)侨蜃钪匾募Z食作物之一。在小麥種植過程中,會出現(xiàn)各種各樣的病蟲害,病蟲害的發(fā)生將直接影響小麥的產(chǎn)量和品質(zhì)。小麥病蟲害防治的相關(guān)信息存在于海量非結(jié)構(gòu)化的專業(yè)書籍和文獻(xiàn)中,人們無法快速獲取到準(zhǔn)確的病蟲害防治信息,無法進(jìn)行精準(zhǔn)預(yù)防。構(gòu)建小麥病蟲害領(lǐng)域知識圖譜,以結(jié)構(gòu)化的形式表述病蟲害和防治藥劑數(shù)據(jù),可以幫助人們高效準(zhǔn)確地定位到有價值的信息,對小麥病蟲害的精準(zhǔn)防治具有重要意義。小麥病蟲害命名實(shí)體識別是構(gòu)建小麥病蟲害領(lǐng)域知識圖譜的關(guān)鍵步驟,旨在從這些非結(jié)構(gòu)化數(shù)據(jù)中識別和分類出相關(guān)命名實(shí)體,識別結(jié)果的好壞直接決定知識圖譜的質(zhì)量[1-2]。
近年來,命名實(shí)體識別(named entity recognition,NER)已廣泛應(yīng)用于垂直領(lǐng)域,并且隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的方法成為中文命名實(shí)體識別的主流模型。劉新亮等[3]提出BERT(bidirectional encoder representation from transformer)與CRF(conditional random field)相結(jié)合的模型,實(shí)現(xiàn)了生鮮蛋供應(yīng)鏈領(lǐng)域的命名實(shí)體識別,準(zhǔn)確率達(dá)到91.82%。羊艷玲等[4]將BiLSTM(bi-directional long short-term memory)與CRF 結(jié)合實(shí)現(xiàn)了中醫(yī)案例領(lǐng)域的命名實(shí)體識別。許力等[5]提出基于BERT-BiLSTM-CRF(bidirectional encoder representation from transformer+bidirectional long short-term memory+conditional random field)模型,進(jìn)行生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識別,有效地解決了靜態(tài)詞向量表征語義識別準(zhǔn)確率不高的問題。沈同平等[6]提出基于BERT-BiLSTM-CRF 模型,在MSRA和人民日報語料庫均取得優(yōu)異結(jié)果。上述模型在其領(lǐng)域訓(xùn)練語料充足的情況下均達(dá)到了很好的識別效果,但無法直接用于語料匱乏的小麥病蟲害領(lǐng)域。
在農(nóng)業(yè)領(lǐng)域,Malarkodi等[7]、Guo等[8]通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取文本的局部特征,再結(jié)合BiLSTM+CRF 模型實(shí)現(xiàn)農(nóng)業(yè)病蟲害領(lǐng)域的命名實(shí)體識別。閆麗華[9]、于合龍等[10]使用BiLSTM+CRF模型分別實(shí)現(xiàn)對葡萄病蟲害和水稻病蟲害的命名實(shí)體識別。文獻(xiàn)[7-10]中的方法均取得了不錯的結(jié)果,但傳統(tǒng)詞向量模型易受分詞結(jié)果的影響,無法表征一詞多義現(xiàn)象。李悅[11]、任妮等[12]、鄭泳智等[13]將BERT 預(yù)訓(xùn)練語言模型和BiLSTM+CRF 模型相結(jié)合,實(shí)現(xiàn)農(nóng)業(yè)病蟲害領(lǐng)域的命名實(shí)體識別。文獻(xiàn)[11-13]中使用BERT 代替?zhèn)鹘y(tǒng)的詞向量模型,有效地降低了分詞錯誤帶來的影響,解決了一詞多義問題,但是BERT 模型依賴上億級的參數(shù)量,訓(xùn)練耗時長、成本高。
以上垂直領(lǐng)域命名實(shí)體識別方法為本文開展小麥病蟲害領(lǐng)域的實(shí)體識別提供了參考,但這些文獻(xiàn)通常只識別病害、蟲害、品種、防治藥劑和危害部位等實(shí)體類別,在其類別較少的情況下識別效果較好。目前,在農(nóng)業(yè)病蟲害領(lǐng)域命名實(shí)體識別的研究中,缺乏對實(shí)體語料庫的研究,該領(lǐng)域存在訓(xùn)練數(shù)據(jù)匱乏、實(shí)體類型多樣、實(shí)體結(jié)構(gòu)復(fù)雜及實(shí)體分布不均勻等問題,以上實(shí)體類別無法充分提取文本中隱含的信息,不足以說明農(nóng)業(yè)病蟲害領(lǐng)域的命名實(shí)體問題。
為了解決小麥病蟲害領(lǐng)域的命名實(shí)體識別問題,本文構(gòu)建了小麥病蟲害命名實(shí)體識別語料庫(wheat pests and diseases Chinese named entity recognition,WpdCNER)和小麥病蟲害領(lǐng)域詞典(wheat pests and diseases dictionary,WpdDict),并提出一種融合規(guī)則的深度學(xué)習(xí)模型WPD-RA(wheat pests and diseaserules amendment model),該模型采用輕量級動態(tài)詞向量模型ALBERT(a lite bidirectional encoder representation from transformer)與BiLSTM-CRF 模型相結(jié)合的策略。針對病原、麥區(qū)等實(shí)體類別數(shù)據(jù)較少的問題,本文提出兩種數(shù)據(jù)增廣方法,通過相似詞替換來補(bǔ)充句子語義,以彌補(bǔ)訓(xùn)練數(shù)據(jù)的匱乏,有效地提高了小樣本的情況下小麥病蟲害命名實(shí)體識別的結(jié)果。針對防治藥劑、癥狀等邊界模糊的特殊實(shí)體定義具體規(guī)則來校準(zhǔn)實(shí)體邊界,進(jìn)一步提高模型整體識別結(jié)果,從而為小麥病蟲害知識圖譜構(gòu)建和小麥病蟲害知識問答等下游任務(wù)提供支撐。
針對小麥病蟲害命名實(shí)體識別的研究,本文通過語料采集與預(yù)處理、語料標(biāo)注兩個步驟構(gòu)建小麥病蟲害領(lǐng)域的實(shí)體語料庫WpdCNER。
1.1.1 語料采集與預(yù)處理
為了保證數(shù)據(jù)正確可靠,小麥病蟲害數(shù)據(jù)來源于兩部分:一是《小麥病蟲害識別與防治》和《小麥病蟲害診斷與防治圖譜》兩本權(quán)威書籍;二是通過爬蟲從中國作物種質(zhì)信息網(wǎng)、國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心、百度百科等權(quán)威網(wǎng)站抓取的數(shù)據(jù)。首先通過OCR(optical character recognition)識別算法對兩本書籍作電子化和文本格式轉(zhuǎn)換處理,人工修改錯別字和亂碼;其次人工對網(wǎng)頁數(shù)據(jù)去除空格、空行及特殊符號;最后去除重復(fù)數(shù)據(jù)和無效數(shù)據(jù),最終構(gòu)建了包含病害、蟲害、防治措施等6 000多條樣本的數(shù)據(jù)集,約22萬字符。
1.1.2 語料標(biāo)注
在領(lǐng)域?qū)<业闹笇?dǎo)下,深入剖析小麥病蟲害的數(shù)據(jù)本身特征,充分挖掘其隱含知識,將小麥病蟲害實(shí)體類別細(xì)粒度劃分為16 類,以保證WpdCNER 實(shí)體類別的完整性,包括病害、蟲害、害蟲生育期、病原、病原類型、小麥器官、防治藥劑、小麥生育期、小麥品種、麥區(qū)、癥狀、器官癥狀、危害作物、危害地區(qū)、屬目、屬科。
使用BIO(begin inside outside)標(biāo)記方案對小麥病蟲害原始語料庫WpdCNER 進(jìn)行標(biāo)記。特定領(lǐng)域?qū)嶓w識別語料標(biāo)注任務(wù)常采用純?nèi)斯?biāo)注的模式,這種標(biāo)注模式效率低、錯誤率高[14]。為了降低標(biāo)注成本,保證實(shí)體標(biāo)注的一致性,本文采用基于詞典匹配與人工修正相結(jié)合的半自動標(biāo)注方式,構(gòu)建小麥病蟲害實(shí)體識別語料庫。首先,結(jié)合領(lǐng)域?qū)<抑R,在數(shù)據(jù)預(yù)處理的過程中提取公共實(shí)體及其同類詞,構(gòu)建了一個包含4 125 個實(shí)體名和實(shí)體標(biāo)簽的領(lǐng)域詞典WpdDict。其次,根據(jù)構(gòu)建的領(lǐng)域詞典WpdDict對原始語料庫進(jìn)行字符匹配,實(shí)現(xiàn)自動標(biāo)記實(shí)體。最后,針對詞典匹配結(jié)果中出現(xiàn)的標(biāo)注錯誤、漏標(biāo)實(shí)體等問題,通過人工修正的方式進(jìn)一步調(diào)整和改進(jìn),并在此過程中動態(tài)更新領(lǐng)域詞典WpdDict。具體的標(biāo)注過程如圖1所示。
經(jīng)過以上處理,最終構(gòu)建了小麥病蟲害實(shí)體識別語料庫WpdCNER,包含16類實(shí)體類別11 670個實(shí)體,各實(shí)體類別的數(shù)量分布如表1所示。標(biāo)注示例如表2 所示,其中B-表示實(shí)體的起始位置,I-表示實(shí)體的中間或終止位置,O表示非實(shí)體。
表2 BIO標(biāo)注示例Table 2 Annotation example of BIO
1.1.3 語料特點(diǎn)分析
通過對小麥病蟲害語料庫WpdCNER 的全面剖析,發(fā)現(xiàn)該領(lǐng)域命名實(shí)體的特點(diǎn)主要體現(xiàn)在以下四方面:
(1)小麥病蟲害語料庫中部分實(shí)體邊界特征不明顯,容易拆分錯誤。例如,“33%多·酮可濕性粉劑”。
(2)小麥病蟲害實(shí)體結(jié)構(gòu)復(fù)雜,部分實(shí)體由數(shù)字、字母和漢字共同組成。例如,“鄭州8915”“5%溴氰菊酯乳油”等實(shí)體。
(3)小麥病蟲害語料庫中部分實(shí)體之間存在嵌套情況。例如,病原實(shí)體“小麥紅矮病毒”中嵌套病害實(shí)體“小麥紅矮病”等。
(4)小麥病蟲害語料庫包含的實(shí)體類別多。構(gòu)建的語料庫WpdCNER 包含16 類實(shí)體,多于同一領(lǐng)域語料庫JE-DPW[15]。
本文采用基于數(shù)據(jù)增廣的WPD-RA 模型進(jìn)行小麥病蟲害命名實(shí)體識別,該模型采用ALBERTBiLSTM-CRF與規(guī)則修正相結(jié)合的策略,模型總體架構(gòu)如圖2所示。
圖2 基于數(shù)據(jù)增廣的WPD-RA模型總架構(gòu)Fig. 2 Overall architecture of WPD-RA model based on data augmentation
首先針對病原、麥區(qū)等數(shù)量較少的實(shí)體類別作數(shù)據(jù)增廣以擴(kuò)充其語義信息,并將增廣后的語料庫WpdCNER作為ALBERT的輸入;其次通過輕量級預(yù)訓(xùn)練模型ALBERT生成包含上下文信息的動態(tài)詞向量,有效緩解了一詞多義問題;同時為了提升ALBERT層輸出特征的準(zhǔn)確度,將該詞向量輸入到BiLSTM層進(jìn)一步建模上下文特征;最后通過CRF 和規(guī)則共同對BiLSTM層輸出的序列標(biāo)簽進(jìn)行約束和修正,得到最終的預(yù)測標(biāo)簽序列。
1.2.1 數(shù)據(jù)增廣
近年來,基于深度學(xué)習(xí)的實(shí)體識別方法已廣泛應(yīng)用于很多領(lǐng)域,但是深度學(xué)習(xí)模型需要大量的訓(xùn)練數(shù)據(jù)。在小麥病蟲害領(lǐng)域,由于訓(xùn)練數(shù)據(jù)匱乏、實(shí)體結(jié)構(gòu)復(fù)雜、實(shí)體類型多樣及實(shí)體分布不均勻等問題,該領(lǐng)域命名實(shí)體識別的研究具有一定挑戰(zhàn)性。目前,面向少量標(biāo)注數(shù)據(jù)的命名實(shí)體識別方法分為知識鏈接(knowledge linkage)、遷移學(xué)習(xí)(transfer learning)、數(shù)據(jù)增廣(data augmentation,DA)、特征變換(feature transformation)這4 類[16]。針對特定領(lǐng)域的實(shí)體識別任務(wù),數(shù)據(jù)增廣是應(yīng)用最廣泛的一種數(shù)據(jù)擴(kuò)充方法[17]。該類方法采用的策略是篩選出高質(zhì)量訓(xùn)練樣本擴(kuò)充數(shù)據(jù)集規(guī)模,豐富句子的語義信息,進(jìn)而彌補(bǔ)標(biāo)注數(shù)據(jù)的匱乏。
因此,針對小麥病蟲害領(lǐng)域命名實(shí)體識別存在的問題,在確保不丟失句子語義信息的前提下,提出兩種改進(jìn)的數(shù)據(jù)增廣方法,其主要思想是在傳統(tǒng)數(shù)據(jù)增廣的基礎(chǔ)上,將增廣后的文本重新復(fù)制回原數(shù)據(jù)集,進(jìn)而增加目標(biāo)實(shí)體的數(shù)量,豐富訓(xùn)練樣本的多樣性,擴(kuò)充數(shù)據(jù)集規(guī)模,提高小麥病蟲害領(lǐng)域命名實(shí)體的識別結(jié)果。
(1)數(shù)據(jù)增廣方法1,簡稱DA1:最大限度保證句子序列完整性的情況下,隨機(jī)打亂原數(shù)據(jù)集中的文本段落,并將打亂后的段落重新復(fù)制回原數(shù)據(jù)集。該方法的主要目的是為了擴(kuò)充數(shù)據(jù)集規(guī)模,豐富訓(xùn)練樣本多樣性,增加實(shí)體數(shù)量。
(2)數(shù)據(jù)增廣方法2,簡稱DA2:從小麥病蟲害文本數(shù)據(jù)中隨機(jī)選擇一個實(shí)體,然后從自建的領(lǐng)域詞典WpdDict 中隨機(jī)選擇該實(shí)體的一個同義詞進(jìn)行替換,并將替換后的文本數(shù)據(jù)復(fù)制回原數(shù)據(jù)集。該方法的目的是為了豐富上下文的語義信息,擴(kuò)充訓(xùn)練樣本。
1.2.2 ALBERT層
在NLP(natural language processing)領(lǐng)域中,將文本數(shù)據(jù)轉(zhuǎn)化為詞向量常用的語言模型有Word2Vec[18]、GloVe(global vectors for word representation)[19]、One-Hot 等模型,但上述模型訓(xùn)練輸出的詞向量是靜態(tài)的,無法表征一詞多義的現(xiàn)象。
BERT是谷歌提出的一種預(yù)訓(xùn)練語言模型,它是一種基于Transformer[20]神經(jīng)網(wǎng)絡(luò)構(gòu)造的雙向的編碼器網(wǎng)絡(luò),不僅可以獲取到包含上下文信息的詞級特征,還能有效捕捉句子級別特征[21]。相比傳統(tǒng)的詞向量模型,由BERT模型訓(xùn)練得到的詞向量是基于上下文信息生成動態(tài)詞向量,有效地解決了一詞多義的問題。盡管BERT在各項任務(wù)中的表現(xiàn)十分優(yōu)異,但其參數(shù)量達(dá)到1.08×108,訓(xùn)練時需要大規(guī)模語料,成本較高。
為解決BERT 參數(shù)量的問題,Lan 等[22]提出了一種輕量級預(yù)訓(xùn)練語言模型ALBERT。在模型結(jié)構(gòu)上ALBERT 與BERT 相差無幾,但參數(shù)量僅是BERT 的1/9。在保證BERT 模型性能的基礎(chǔ)上,它還作了以下三點(diǎn)改進(jìn),極大地減少了模型的占用空間,訓(xùn)練速度明顯提升。
(1)對詞嵌入作因式分解:ALBERT 中先將One-Hot 向量映射到一個低維空間,再將其映射到隱藏層,BERT模型到ALBERT模型的參數(shù)量計算復(fù)雜度變換如式(1):
其中,V是詞匯表長度,H是隱藏層維度,E是詞嵌入維度。在BERT中E=H,而在ALBERT中,E?H。
(2)跨層參數(shù)共享:ALBERT 中在全連接層和注意力層均進(jìn)行參數(shù)共享,也就是共享Encoder內(nèi)所有的參數(shù),極大地減少了模型參數(shù)量,提升了訓(xùn)練速度,但模型參數(shù)量的減少使其性能也有所降低。
(3)句間連貫性預(yù)測:為了彌補(bǔ)參數(shù)量減少帶來的性能損失,ALBERT 提出句間連貫性預(yù)測(sentence order prediction,SOP)來提升模型性能。不同于BERT 模型原有的下一句預(yù)測(next sentence prediction,NSP)任務(wù),SOP 去除了主題預(yù)測的影響,只保留關(guān)系一致性預(yù)測。
1.2.3 BiLSTM層
ALBERT 的Encoder 部分采用Self-Attention 機(jī)制,導(dǎo)致抽取的相對位置信息不準(zhǔn)確,輸出的特征缺乏順序性。因此,本文采用BiLSTM模型進(jìn)一步建模上下文特征。
LSTM(long short-term memory)[23]在RNN(recurrent neural network)的基礎(chǔ)上作了改進(jìn),有效地解決了長序列文本中出現(xiàn)的梯度爆炸或梯度消失的問題。然而,單向的LSTM 只能學(xué)習(xí)前向信息,而無法學(xué)習(xí)后向信息。因此,Graves等[24]提出由前向LSTM和后向LSTM 組成的BiLSTM。其基本思想是對序列中的每個詞都分別進(jìn)行前向傳播和后向傳播,然后將結(jié)果連接起來輸出,進(jìn)而更好地捕獲長序列文本的雙向信息。BiLSTM模型的結(jié)構(gòu)如圖3所示。
圖3 BiLSTM模型Fig. 3 BiLSTM model
1.2.4 CRF層
雖然BiLSTM層能夠進(jìn)一步學(xué)習(xí)上下文特征,但其未考慮相鄰標(biāo)簽之間的依賴關(guān)系,總是選擇概率最大的標(biāo)簽作為輸出,可能會出現(xiàn)B-lable1 后接Ilabel2 的情況。由于CRF 模型可以學(xué)習(xí)相鄰標(biāo)簽之間的依賴關(guān)系,在BiLSTM 層之后,引入CRF 以提高模型預(yù)測的準(zhǔn)確率。
CRF 由Lafferty 等[25]首次提出,主要用于序列標(biāo)注。在模型訓(xùn)練過程中,CRF 可以自動學(xué)習(xí)句子之間的約束,得到標(biāo)簽轉(zhuǎn)移概率,進(jìn)而保證預(yù)測標(biāo)簽的合法性,減少錯誤的預(yù)測序列,具體約束有以下三點(diǎn):
(1)句子中第一個詞總是以標(biāo)簽“B-”或“O”開始,而不是“I-”。
(2)標(biāo)簽“B-label1 I-label2 I-label3 I-…”,label1、label2、label3 應(yīng)該屬于同一類實(shí)體。例如,“B-DIS IDIS”是合法標(biāo)簽序列,而“B-DIS I-DRU”是非法標(biāo)簽序列。
(3)實(shí)體的首個標(biāo)簽應(yīng)該以“B-”開始,而不是“I-”。例如,“O B-DIS”是合法標(biāo)簽序列,而“O IDIS”是非法標(biāo)簽序列。
在本研究中,CRF層主要是對BiLSTM層輸出的標(biāo)簽序列進(jìn)行條件約束,從而得到具有最大概率的合理序列。
1.2.5 規(guī)則修正
根據(jù)小麥病蟲害領(lǐng)域數(shù)據(jù)本身的特點(diǎn),并全面剖析ALBERT-BiLSTM-CRF模型識別結(jié)果中預(yù)測錯誤的實(shí)體標(biāo)簽,針對病害、蟲害、防治藥劑、器官癥狀4類實(shí)體,通過人工定義3類規(guī)則,本文對模型初步預(yù)測結(jié)果進(jìn)行修正,旨在進(jìn)一步提升這4類實(shí)體的識別結(jié)果,從而優(yōu)化模型整體識別性能。規(guī)則之間是互補(bǔ)關(guān)系,不同時執(zhí)行,具體規(guī)則如下:
(1)對于病害實(shí)體、蟲害實(shí)體,若其前邊出現(xiàn)危害作物實(shí)體,則將其整體修正為病害實(shí)體、蟲害實(shí)體;對于癥狀實(shí)體,若其緊鄰詞匯出現(xiàn)了器官實(shí)體,則將其整體修正為器官癥狀實(shí)體。
在規(guī)則修正過程中,以目標(biāo)實(shí)體“病害、蟲害、癥狀”為中心,設(shè)置大小為1的滑動窗口,對上下文搜索1 個實(shí)體,若相鄰預(yù)測標(biāo)簽是“危害作物、器官”類型實(shí)體,則查找對應(yīng)規(guī)則將其整體修正為“病害、蟲害、器官癥狀”3 類正確實(shí)體;否則以原目標(biāo)實(shí)體為準(zhǔn)。具體規(guī)則如表3所示。
表3 病蟲害和器官癥狀規(guī)則Table 3 Rules of diseases and pests and organ-symptoms
(2)病害名稱常以“病”字結(jié)尾,將該類實(shí)體的最后一個字“病”與其緊鄰的下一個字進(jìn)行拼接,若能作為一個整詞分割,則將其整體修正為病原實(shí)體;防治藥劑常由濃度和藥劑名稱組成,而濃度常由數(shù)字和符號組成,難以正確識別,人工編寫Regex將數(shù)字、符號和漢字作為整體識別。具體規(guī)則如表4所示。
表4 病害和防治藥劑實(shí)體規(guī)則Table 4 Rules of diseases and drugs
(3)對ALBERT-BiLSTM-CRF 模型所有的預(yù)測結(jié)果進(jìn)行修正,如將“I-label”標(biāo)記開頭的錯誤實(shí)體修正為“B-label”標(biāo)記開頭;“B-label1 I-label2”中l(wèi)abel1和label2屬于不同類型實(shí)體的錯誤預(yù)測,將其整體修正為label1類型實(shí)體。
實(shí)驗研究依賴的硬件環(huán)境是Intel?Xeon?Silver4116 CPU@2.10 GHz;軟件環(huán)境是Python3.6 和tensorflow1.14。模型參數(shù)設(shè)置如下:基于ALBERT_Base 版本,含有12 個transformer 層,768 維隱藏層和12 頭多頭注意力機(jī)制。最大序列長度為256,BiLSTM 包含256 維隱藏層,學(xué)習(xí)率為5E-5,訓(xùn)練批次為64,dropout為0.5,clip為0.5,優(yōu)化器選擇Adam,迭代次數(shù)為100。通過準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值3 個指標(biāo)來評測模型識別結(jié)果。具體公式如式(2)~(4)所示:
其中,TP表示預(yù)測正確的正樣本個數(shù),F(xiàn)P表示預(yù)測錯誤的正樣本個數(shù),F(xiàn)N表示預(yù)測錯誤的負(fù)樣本個數(shù)。
將構(gòu)建的語料庫WpdCNER,按照8∶1∶1 的比例劃分為訓(xùn)練集、測試集和驗證集。根據(jù)2.1節(jié)提出的3個評測指標(biāo)來比較不同模型的識別結(jié)果。
2.2.1 不同模型的性能對比
針對劃分好的訓(xùn)練集、測試集和驗證集,設(shè)置4組模型Word2Vec-IDCNN-CRF、Word2Vec-BiLSTMCRF、BERT-BiLSTM-CRF、ALBERT-BiLSTM-CRF分別進(jìn)行實(shí)驗,實(shí)驗結(jié)果如表5所示。
表5 模型性能評價結(jié)果Table 5 Evaluation results of model performance 單位:%
從表5 可以看出,基于Word2Vec-BiLSTM-CRF的識別效果明顯優(yōu)于Word2Vec-IDCNN-CRF,這是因為IDCNN 只能獲取局部特征,而BiLSTM 能獲取全局特征,在長文本序列的情況下,BiLSTM 的識別效果更好,該模型的準(zhǔn)確率、召回率和F1值分別提升了2.04個百分點(diǎn)、3.71個百分點(diǎn)和2.88個百分點(diǎn)。以BiLSTM-CRF 為基準(zhǔn)模型,比較Word2Vec 和BERT兩種向量嵌入模型。從表5可以發(fā)現(xiàn),基于BERT模型的召回率提升了2.43 個百分點(diǎn),F(xiàn)1 值提升了1.43個百分點(diǎn),證明BERT 能有效表征一詞多義,提升模型識別效果。
在BERT 和ALBERT 兩個預(yù)訓(xùn)練語言模型之間進(jìn)行對比發(fā)現(xiàn),基于ALBERT模型的整體表現(xiàn)更優(yōu),準(zhǔn)確率和F1值分別提升了1.33個百分點(diǎn)和0.06個百分點(diǎn)。除此之外,BERT-BiLSTM-CRF模型迭代訓(xùn)練100 次所需時間長達(dá)25.30 h,而ALBERT-BiLSTMCRF 的訓(xùn)練時間為18.17 h,這說明參數(shù)量的減少使ALBERT模型的訓(xùn)練速度有明顯提升。
2.2.2 不同DA方法識別結(jié)果對比
從2.2.1 小節(jié)中4 組模型的實(shí)驗結(jié)果來看,ALBERT-BiLSTM-CRF 模型在小麥病蟲害數(shù)據(jù)集WpdCNER中取得最高的F1值91.45%。本小節(jié)將在該模型基礎(chǔ)上,引入兩種數(shù)據(jù)增廣方法以擴(kuò)展數(shù)據(jù)集WpdCNER的規(guī)模,增廣后的實(shí)驗結(jié)果如表6所示。
表6 數(shù)據(jù)增廣后模型總體性能Table 6 Model performance after data augmentation 單位:%
從表6可以看出,兩種數(shù)據(jù)增廣方法均能提高模型的整體識別結(jié)果。兩種方法的F1 值分別提升了1.02 個百分點(diǎn)和0.56 個百分點(diǎn),說明DA1 對模型性能有更大的提升:一部分原因是DA1 在更大程度上增加了數(shù)據(jù)集規(guī)模;另一部分原因是DA1改變了文本結(jié)構(gòu),豐富上下文語義信息,提升了模型的泛化性。將兩種數(shù)據(jù)增廣方法結(jié)合后,ALBERT-BiLSTM-CRF模型在擴(kuò)展后的WpdCNER上取得了最高的準(zhǔn)確率、召回率和F1值,分別為93.01%、94.89%和93.94%。
2.2.3 各實(shí)體識別結(jié)果
結(jié)合兩種數(shù)據(jù)增廣方法對原數(shù)據(jù)集WpdCNER進(jìn)行增廣后,基于ALBERT-BiLSTM-CRF 模型進(jìn)行小麥病蟲害命名實(shí)體的識別,16 類實(shí)體具體的準(zhǔn)確率、召回率和F1值如表7所示。
表7 各實(shí)體識別結(jié)果Table 7 Recognition results of each entity 單位:%
從表7 可以看出,害蟲生育期、小麥生育期、麥區(qū)、屬目、屬科的召回率均為100%,因為這5 類實(shí)體均有明確的邊界特征,分別以“蟲”“期”“區(qū)”“目”和“科”字結(jié)尾。病原類型、癥狀和器官癥狀的準(zhǔn)確率均低于90%,因為這3 類實(shí)體靈活多樣難以識別。除了這3類實(shí)體,其他13類實(shí)體的準(zhǔn)確率、召回率和F1值均高于90%,且屬目和屬科的F1值達(dá)到了100%,說明ALBERT-BiLSTM-CRF模型整體識別性能較好。
2.2.4 規(guī)則修正前后識別結(jié)果對比
從2.2.2 小節(jié)的識別結(jié)果來看,結(jié)合兩種數(shù)據(jù)增廣方法擴(kuò)展數(shù)據(jù)集WpdCNER后,ALBERT-BiLSTMCRF 模型的識別結(jié)果最優(yōu)。在此基礎(chǔ)上,加入1.2.5小節(jié)制定的規(guī)則,修正病害、蟲害、防治藥劑、器官癥狀4類實(shí)體的預(yù)測結(jié)果,以進(jìn)一步提高這4類實(shí)體的預(yù)測結(jié)果,從而提升模型整體識別性能。
規(guī)則修正后模型識別準(zhǔn)確率達(dá)到94.72%,召回率達(dá)到95.23%,F(xiàn)1 值達(dá)到94.97%,相比規(guī)則修正前準(zhǔn)確率提升1.71 個百分點(diǎn),召回率提升0.34 個百分點(diǎn),F(xiàn)1值提升1.03個百分點(diǎn),說明規(guī)則修正在一定程度上優(yōu)化了模型識別性能,修正了部分預(yù)測錯誤的實(shí)體標(biāo)簽,且修正正確的標(biāo)簽數(shù)量多于修正錯誤的標(biāo)簽數(shù)量。病害、蟲害、防治藥劑、器官癥狀4類實(shí)體的具體識別結(jié)果如表8所示。
表8 WPD-RA模型識別結(jié)果Table 8 Recognition results of WPD-RA model 單位:%
病害、蟲害、防治藥劑、器官癥狀4類實(shí)體加入規(guī)則修正前后的結(jié)果對比如圖4 所示。從圖4 中可以看出,對ALBERT-BiLSTM-CRF 模型定義規(guī)則修正后,蟲害、防治藥劑兩類實(shí)體的召回率并未改變,這是因為規(guī)則修正導(dǎo)致部分實(shí)體邊界預(yù)測錯誤,影響規(guī)則修正的結(jié)果。但4類實(shí)體的F1 值均有不同程度的提升,分別提升了1.24 個百分點(diǎn)、1.22 個百分點(diǎn)、1.22個百分點(diǎn)、1.7個百分點(diǎn),其中器官癥狀的提升最明顯。
圖4 規(guī)則修正前后識別結(jié)果對比Fig. 4 Recognition result comparison before and after rule amendment
(1)針對小麥病蟲害領(lǐng)域命名實(shí)體識別任務(wù)中訓(xùn)練數(shù)據(jù)匱乏、實(shí)體結(jié)構(gòu)復(fù)雜、實(shí)體類型多樣及實(shí)體分布不均勻等問題,提出基于數(shù)據(jù)增廣的WPD-RA模型。該模型結(jié)合兩種數(shù)據(jù)增廣方法擴(kuò)展句子語義信息,提升了模型對數(shù)量較少的實(shí)體類別的準(zhǔn)確率,有效解決了小樣本情況下命名實(shí)體識別的問題,模型識別準(zhǔn)確率為94.72%,召回率為95.23%,F(xiàn)1 值為94.97%。
(2)基于輕量級ALBERT 模型預(yù)訓(xùn)練得到動態(tài)的詞嵌入向量,能夠捕獲實(shí)體上下文形態(tài)特征,豐富小麥病蟲害文本的語義表示,有效緩解一詞多義的表征問題,提升模型識別性能。
(3)定義具體規(guī)則修正ALBERT-BiLSTM-CRF模型的預(yù)測結(jié)果,通過實(shí)驗證明規(guī)則修正緩解了實(shí)體邊界模糊、實(shí)體間嵌套的問題,在一定程度上優(yōu)化了模型性能。
與通用語料庫相比,本文構(gòu)建的包含16 類實(shí)體類別的小麥病蟲害語料庫WpdCNER,對實(shí)體分類更精細(xì)。根據(jù)小麥病蟲害文本特點(diǎn),有針對性地提出基于數(shù)據(jù)增廣的WPD-RA模型,實(shí)驗結(jié)果表明,與其他NER 模型相比,該模型能夠更好地識別小麥病蟲害領(lǐng)域命名實(shí)體,為食品安全、生物等其他領(lǐng)域命名實(shí)體識別提供了一種可借鑒的思路。