關(guān)鍵詞:水利領(lǐng)域;命名實體識別;數(shù)據(jù)增強;機器閱讀理解
中圖分類號:TP391.1;TV21 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.09.023
引用格式:朱永明,邢丹艷.基于數(shù)據(jù)增強的MRC 水利領(lǐng)域命名實體識別模型研究[J].人民黃河,2024,46(9):156-160.
隨著我國水利信息技術(shù)的發(fā)展,水利行業(yè)積累了大量數(shù)據(jù),然而這些數(shù)據(jù)沒有被有效利用。水利知識涵蓋范圍廣,涉及河流、湖泊、水庫等多種管理對象,以及水旱災(zāi)害防御、水資源管理、水土保持等多種業(yè)務(wù),知識來源有結(jié)構(gòu)、半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)[1] 。自然語言處理技術(shù)具有強大的語義處理能力,可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),充分發(fā)掘數(shù)據(jù)的價值,實現(xiàn)水利信息資源的高效利用。命名實體識別是信息處理的基礎(chǔ),通過命名實體識別技術(shù)可以充分利用文本中的寶貴信息。水利領(lǐng)域命名實體識別是指識別水利文本中具有特定意義的實體,包括河流(RIV)、湖泊(LAK)、水庫(RES)、水電站(HYD)、大壩(DAM)等。科研人員利用命名實體識別技術(shù)識別出重要信息,這些信息可以服務(wù)于水利智能問答系統(tǒng)構(gòu)建[2] 、水利知識圖譜構(gòu)建[3] 等。
神經(jīng)網(wǎng)絡(luò)具有自動提取特征、能夠找到更深層次和更加抽象的特征的優(yōu)點,因此基于神經(jīng)網(wǎng)絡(luò)的命名實體識別在各個領(lǐng)域逐漸得到廣泛應(yīng)用。劉雪梅等[4] 基于水利工程巡檢文本,利用BERT-BiLSTMCRF模型智能識別巡檢文本中的風(fēng)險事件、工程等實體。顧干暉等[5] 利用BERT 預(yù)訓(xùn)練語言模型對自建水利文本語料進行訓(xùn)練,并引入FreeLB 增強訓(xùn)練模型的泛化能力,最后通過條件隨機場(CRF)識別水利實體。段浩等[1] 在2021 年提出了水利綜合知識體系的描述方法,使用BiLSTM-CRF 模型識別非結(jié)構(gòu)化和半結(jié)構(gòu)化實體。伴隨著ChatGPT、文心一言、訊飛星火等大模型的出現(xiàn),學(xué)者們陸續(xù)把研究重心放到大模型上。清華大學(xué)開源了一個具有62 億參數(shù)的支持中英雙語對話的語言模型ChatGLM - 6B。百川智能公司基于Transformer 結(jié)構(gòu)在大約1.2 萬億tokens 上訓(xùn)練了一個具有70 億參數(shù)的大規(guī)模預(yù)訓(xùn)練語言模型baichuan-7B。學(xué)者們針對各個領(lǐng)域任務(wù)微調(diào)這些大模型,取得了不錯的效果。然而,已有方法在預(yù)測精度和適應(yīng)性上還有提升空間,沒有充分利用水利文本中一些潛在特征信息,比如詞匯特征信息和實體類型標簽特征信息。本文以MRC 模型為主架構(gòu),結(jié)合數(shù)據(jù)增強技術(shù),提出MRC-WLE 命名實體識別模型,基于水利文本數(shù)據(jù)集驗證MRC-WLE 模型的有效性,以期更好地服務(wù)于水利智能問答系統(tǒng)、水利知識圖譜構(gòu)建等。
1相關(guān)理論介紹
1.1機器閱讀理解(MRC)
MRC 是一種自然語言處理技術(shù),讓機器能夠理解文本內(nèi)容并回答問題,針對某一問題在文本中提取答案所在片段,即預(yù)測答案所在片段的開始位置和結(jié)束位置。
MRC 步驟如下:1)將傳統(tǒng)的命名實體識別數(shù)據(jù)集的標注格式轉(zhuǎn)換為三元組格式( Query, Answer,Context)。對于每種實體類型都用一個自然語言問題進行描述,將Context(文本)與Query(實體類型描述)進行拼接,若有m 種實體類型,則構(gòu)造m 種實體類型描述,從而生成m 條新文本。2)用預(yù)訓(xùn)練模型對生成的文本進行編碼。3)通過2 個全連接層識別每條文本中實體的頭和尾,譯碼匹配采用就近原則,頭位置索引找離它最近的尾位置索引,從而構(gòu)造出一個實體。
1.2長短期記憶網(wǎng)絡(luò)(LSTM)
LSTM[6-8] 對循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進行了一定改進,主要用來解決長距離依賴問題。LSTM 在RNN 的基礎(chǔ)上增加了門控機制和一個單元狀態(tài)(cell state),用來獲得長期的序列狀態(tài),其結(jié)構(gòu)見圖1。
1.3BERT模型
傳統(tǒng)的word2vec 無法處理一詞多義問題。BERT(Bidirectional Encoder Representation from Transform?ers)[9] 模型采用捕捉語義能力更強的雙向編碼器Transformer 進行訓(xùn)練,可以獲得每一層文本雙向特征信息,有效解決一詞多義問題。Transformer 是一種新的序列建模方法,采用self-attention 機制替代傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)或RNN,這種機制能夠更好地捕捉序列中的依賴關(guān)系。Transformer 具有可并行計算、長距離依賴建模等性能,目前被廣泛應(yīng)用于自然語言處理的各個下游任務(wù),并取得較好的效果。
BERT模型的輸入根據(jù)下游任務(wù)確定,模型結(jié)構(gòu)見圖2,其可將中文字符用向量表示。
圖2 中以“[CLS]小浪底水庫庫區(qū)[SEP]”為例,[CLS]用于標記文本的開頭,[SEP]表示文本結(jié)尾,E表示字符的向量表示,T 表示Transformer。
3MRC-WLE模型性能測試及評價
3.1測試數(shù)據(jù)
采用中國水利水電科學(xué)研究院在中國工程科技知識中心水利專業(yè)知識服務(wù)系統(tǒng)開放的水利標注數(shù)據(jù)測試MRC-WLE 模型的性能,其中:水利文本數(shù)據(jù)共4 919條,命名實體類型共10 類。10 類命名實體概況見表1。水利領(lǐng)域命名實體識別實驗中使用隨機分層抽樣的方式將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集,三者數(shù)據(jù)量比例為8∶1∶1。
3.2設(shè)置訓(xùn)練參數(shù)及評價指標
水利領(lǐng)域命名實體識別實驗使用的編程語言為Python,深度學(xué)習(xí)框架為Pytorch、Transformers,批數(shù)據(jù)量為8,訓(xùn)練次數(shù)為10 次,學(xué)習(xí)率為2×10-5,損失函數(shù)采用交叉熵損失函數(shù)。評價模型時選用微平均F1 值作為主要評價指標,以精準度(Precision) 和召回率(Recall)作為輔助評價指標。
3.3模型測試和評價結(jié)果
為更好地評價模型的性能,引入BERT -CRF、BERT - CRF - Word、BERT - BiLSTM - CRF、BERT -BiLSTM- CRF - Word、BERT - Cascade、ChatGLM - P -Tuning 模型作為對照。模型的評價指標對比見表2,可以看出,MRC-WLE 模型的評價指標值整體高于其他模型的。
各模型的優(yōu)缺點如下:BERT-CRF 和BERT-BiL?STM-CRF 模型不能很好地利用文本信息,識別實體的時候會出現(xiàn)實體斷鏈現(xiàn)象。BERT-Cascade 模型是基于多任務(wù)學(xué)習(xí)方法的命名實體識別模型,其任務(wù)是抽取實體和判斷實體類型,該模型雖縮減了標簽詞表規(guī)模,但是先抽取實體會出現(xiàn)實體傳播錯誤問題,導(dǎo)致后續(xù)判斷實體類型錯誤。BERT-CRF-Word 和BERTBiLSTM-CRF-Word 模型雖然同時對字符和詞匯進行編碼,有效地利用字符級信息和詞匯級信息,但是分詞工具不能完全適用于水利領(lǐng)域,因此會造成實體詞匯錯誤傳播,進而容易造成識別錯誤。ChatGLM -P -Tuning 模型是對ChatGLM-6B 基座大模型進行領(lǐng)域微調(diào),具有強大的對話能力,因此ChatGLM-P-Tuning 模型能根據(jù)指令從文本中抽取出完整的實體。MRCWLE模型針對每種實體類型都生成一條新文本,在每一條文本中只識別Query 對應(yīng)的實體,并且該模型能夠利用實體類型的先驗知識,很好地解決實體易混淆問題。此外,MRC-WLE 模型同時對字符和詞匯進行編碼,提高了模型識別實體邊界的準確率,召回更多的實體。
不同模型識別不同實體的微平均F1 值見圖5。相較于其他模型,MRC-WLE 模型識別湖泊、人名、機構(gòu)、大壩、水利術(shù)語、水庫實體類型的F1 值最高。原因是這些實體內(nèi)部都有一定的構(gòu)成規(guī)則,比如湖泊類型的實體大部分以湖結(jié)尾,MRC-WLE 模型引入實體類型嵌入,輸入一定的指令,能較好地將實體識別出來。此外,所有模型識別OTH 的F1 值都為0%,這可能與該類型實體數(shù)量較少且構(gòu)成規(guī)律比較復(fù)雜有關(guān)。
為研究詞匯特征信息和實體類型標簽特征信息對模型的影響,基于數(shù)據(jù)集對MRC-WLE 模型進行消融實驗,評價指標見表3。與MRC-WLE 模型相比,去掉詞嵌入模塊( - Word)、實體類型標簽嵌入模塊(-Lable)后微平均F1 值都有所降低,去掉詞嵌入模塊(-Word) 的降幅較大。與MRC 模型相比,MRCWLE模型的微平均F1 值提高了0.85%。
4結(jié)論
本文針對水利領(lǐng)域命名實體識別提出了一種基于數(shù)據(jù)增強的MRC 模型,在編碼層引入詞匯特征信息和實體類型標簽特征信息,通過學(xué)習(xí)字符與字符、詞匯與詞匯、詞匯與實體類型標簽之間的內(nèi)在相關(guān)性,獲得文本語義特征信息,提高了水利領(lǐng)域命名實體邊界和類型識別的準確性。基于機器閱讀理解的方法可以較好地引入知識信息,今后將引入部首、字形、拼音等多粒度語言學(xué)特征信息,將多任務(wù)學(xué)習(xí)納入機器閱讀理解框架,以提升模型識別長實體的能力。