袁清波,杜曉明,姚 奕,楊 帆,蔣 祥
(陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210007)
指揮控制(command and control,C2)簡稱指控,是指參謀人員利用設(shè)備、器材,通過對信息進行收集、傳輸、處理和利用,從而為指揮員提供作戰(zhàn)輔助決策的一門科學(xué)。近年來,大量新型指控裝備陸續(xù)配發(fā)到各級部隊,給部隊的信息保障工作提出了新的要求。當(dāng)前,圍繞對指控系統(tǒng)的保障,部隊一方面積累了大量的技術(shù)手冊數(shù)據(jù)資料,另一方面由于這些數(shù)據(jù)資料散落各處、形態(tài)各異,造成部隊在使用上效率低下、效益不高。因此,如何對這些數(shù)據(jù)資料進行挖掘處理和高效融合應(yīng)用,已成為當(dāng)前部隊指控保障領(lǐng)域急需解決的重要問題之一。
知識圖譜(knowledge graph,KG)技術(shù)在進行關(guān)鍵數(shù)據(jù)獲取、有效信息融合、知識驅(qū)動應(yīng)用等方面則展現(xiàn)出巨大優(yōu)勢,已成為當(dāng)前及未來知識及大數(shù)據(jù)應(yīng)用領(lǐng)域的一個重要研究方向。命名實體識別(named entity recognition,NER)則主要完成從多源異構(gòu)數(shù)據(jù)文本中識別出特定類型的實體,是自動化構(gòu)建知識圖譜過程中的一項重要基礎(chǔ)性工作。具體到軍事領(lǐng)域中的命名實體識別工作,已有很多學(xué)者展開了研究。馮蘊天等針對軍事文本提出了一種基于CRF 模型的半監(jiān)督命名實體識別方法;宋瑞亮針對軍事領(lǐng)域提出了一種結(jié)合CRF 的半監(jiān)督學(xué)習(xí)算法模型Tri-Training 來進行軍事命名實體識別;朱佳暉等提出了一種基于雙向LSTM 和CRF 的實體識別鏈接框架,以用于軍事語料文本中作戰(zhàn)相關(guān)命名實體的識別和鏈接;王學(xué)鋒等針對傳統(tǒng)軍事命名實體識別方法存在人工構(gòu)建特征復(fù)雜和軍事文本分詞不準(zhǔn)確等問題,提出了一種基于深度學(xué)習(xí)的軍事命名實體識別模型character+Bi-LSTM+CRF;單義棟等針對當(dāng)前雙向LSTM 模型存在提取特征不充分的特點,提出了一種基于注意力機制的命名實體識別模型;張曉海等針對軍事命名實體識別任務(wù)的特點,提出了一種基于自注意力機制的軍事命名實體識別方法;車金立等針對軍事領(lǐng)域的命名實體識別問題,提出了一種融合詞位字向量的命名實體識別方法;徐樹奎等針對軍事情報分析領(lǐng)域難以快速準(zhǔn)確抽取軍事目標(biāo)活動相關(guān)屬性和事件要素的問題,提出了一種基于Bi-LSTM-CRF 模型的軍事目標(biāo)實體識別方法;尹學(xué)振對基于多神經(jīng)網(wǎng)絡(luò)協(xié)作的中文軍事領(lǐng)域命名實體識別方法進行了相關(guān)研究,提出了基于BERT-BiLSTM-CRF 的多神經(jīng)網(wǎng)絡(luò)協(xié)作軍事領(lǐng)域?qū)嶓w識別模型。
本文提出了一種融合漢字多特征的指控保障領(lǐng)域命名實體識別方法,過程框架如圖1 所示。在運用有監(jiān)督深度學(xué)習(xí)方法進行領(lǐng)域命名實體識別時主要包含以下內(nèi)容:1)確定實體類別,需在領(lǐng)域本體構(gòu)建的基礎(chǔ)上進行;2)文本數(shù)據(jù)預(yù)處理,主要包括文檔格式轉(zhuǎn)換、數(shù)據(jù)清洗和語句分割等內(nèi)容,原始數(shù)據(jù)處理的越好,后期在進行語料標(biāo)注和模型算法訓(xùn)練時效果越好;3)命名實體識別語料庫構(gòu)建,對經(jīng)過數(shù)據(jù)預(yù)處理后的文本,按照語料標(biāo)注規(guī)范構(gòu)建出可用于模型訓(xùn)練的語料庫;4)文本數(shù)據(jù)向量化,在字符嵌入向量的基礎(chǔ)上,融合了漢字的拼音特征、五筆編碼特征、分詞邊界特征,以提高模型效果;5)模型訓(xùn)練、評估和調(diào)整,將向量化后的命名實體識別語料庫劃分為訓(xùn)練集、驗證集和測試集,用于對模型算法進行訓(xùn)練、評估和調(diào)整,以生成最終的命名實體識別預(yù)測模型。本文將重點對第4)點和第5)點內(nèi)容進行研究。
圖1 命名實體識別過程框架圖
采用了融合漢字多特征的BiLSTM-CRF 模型對指控保障領(lǐng)域技術(shù)手冊文本中的命名實體進行識別。該模型核心主要包含3 個層次:嵌入層、雙向LSTM 層和CRF 層。模型結(jié)構(gòu)如圖2 所示。
圖2 融合漢字多特征的命名實體識別模型結(jié)構(gòu)
嵌入層結(jié)構(gòu)如圖3 所示,主要完成輸入分布式表示,完成輸入字符序列到特征向量的轉(zhuǎn)化。嵌入層共融合了4 種特征,分別為字符特征(char embeddings)、拼音特征(pinyin embeddings)、五筆編碼特征(wubi embeddings)、分詞邊界特征(seg embeddings)。將以上字符各特征向量拼接后形成總特征向量E,用作后續(xù)雙向LSTM 層的輸入。
圖3 嵌入層結(jié)構(gòu)
為了縮短模型訓(xùn)練時間和提升效果,其中字符特征采用了預(yù)訓(xùn)練的100 維word2vec 字向量。拼音特征、五筆編碼特征和分詞邊界特征,采用映射方式將對應(yīng)特征轉(zhuǎn)化為了數(shù)字id,通過查詢向量詞表,來獲取對應(yīng)字符的初始化嵌入向量,從而送入后續(xù)網(wǎng)絡(luò)模型進行處理。
LSTM(Long Short Term Memory),即長短時記憶網(wǎng)絡(luò),在基礎(chǔ)RNN 模型上對隱藏層進行了改進,改善了梯度消失問題,并可以更好地捕捉到深層網(wǎng)絡(luò)的連接信息。單向LSTM 前向傳播過程如圖4所示。
圖4 單向LSTM 前向傳播過程
雙向LSTM 層可以進一步結(jié)合上下文信息形成特征矩陣,能夠有效解決軍事指揮保障領(lǐng)域中較長實體識別中的遠距離依賴問題。雙向LSTM 層以嵌入層形成的詞向量E 作為輸入,在前向LSTM 序列F 和后向LSTM 序列B 的參與下進行上下文特征結(jié)合,生成特征矩陣H,H 用作后續(xù)CRF 層的輸入。
CRF 層以雙向LSTM 層生成的特征矩陣H 作為輸入,基于相鄰標(biāo)簽間的依賴關(guān)系,通過Viterbi算法來獲得全局最優(yōu)的標(biāo)簽序列Y。
為了驗證模型在指控保障領(lǐng)域的有效性,本文以指控裝備保障相關(guān)手冊文本為基礎(chǔ),構(gòu)建了指控保障領(lǐng)域命名實體識別語料庫C2NER。利用基于實體詞典的自動標(biāo)注及Brat 系統(tǒng)手工標(biāo)注方式,共標(biāo)注了5 種命名實體類型。標(biāo)注文件采用了BIEO 編碼格式進行保存,具體如表1 所示,所有類型實體以外的字符均用“O”進行標(biāo)注。
表1 不同類別實體BIEO 編碼格式
C2NER 語料庫按照8∶1∶1 的比例劃分為了訓(xùn)練集、驗證集和測試集,其中的各實體類別數(shù)量統(tǒng)計如表2 所示。
表2 C2NER 語料庫中各實體類別數(shù)量
表3 實驗中超參數(shù)設(shè)置
為了深入了解漢字中各特征信息對模型所帶來的影響,在基線Char+BiLSTM+CRF 模型的基礎(chǔ)上分別加入了單個漢字的拼音特征、五筆編碼特征、分詞邊界特征。按照3.2 中的超參數(shù)進行設(shè)置后,模型在迭代30 次時在訓(xùn)練集和驗證集上的實驗結(jié)果如表4 所示。
表4 各模型實驗結(jié)果
圖5 和下頁圖6 分別顯示了基于字符以及加入拼音特征、五筆編碼特征、分詞邊界特征后的模型,在訓(xùn)練集和驗證集上經(jīng)過多次迭代后的準(zhǔn)確率、召回率和F1 值。從圖5 訓(xùn)練集上的結(jié)果可以看出,各特征對于提高模型在訓(xùn)練集上的性能都有所幫助,拼音特征將基線模型準(zhǔn)確率從96.25%提升到了96.83%,分詞邊界特征將基線模型召回率從97.13%提升到了97.73%、F1 值從96.68%提升到了97.25%。從圖6 驗證集上的結(jié)果可以看出,分詞邊界特征對于提升基線模型的性能最為明顯,準(zhǔn)確率、召回率和F1 值分別從69.29%、65.26%和67.21%提升到了71.95%、68.83%和70.23%。與分詞邊界特征相比,拼音特征與五筆特征對于驗證集性能提升則沒有那么明顯,這可能是因為在命名實體識別任務(wù)中,實體的起始和結(jié)束位置對于實體能否正確識別起到重要的作用,而分詞邊界特征從一定程度上帶有位置信息,因此,會提高模型的性能。
圖5 各模型在訓(xùn)練集上的性能表現(xiàn)
圖6 各模型在驗證集上的性能表現(xiàn)
在基線Char+BiLSTM+CRF 模型的基礎(chǔ)上加入分詞邊界特征后,形成的char+seg 模型在測試集上的實驗結(jié)果如表5 所示。對所有實體的識別結(jié)果中,對功能參數(shù)類實體的識別率最高,F(xiàn)1 值達到了81.62%,最有可能的原因是功能參數(shù)類實體較為固定,且大多與數(shù)字相關(guān)。而對檢查維修類的實體識別率較低,F(xiàn)1 值僅為54.73%,最有可能的原因是在日常工作中檢查維修的方法和程序較為靈活,涉及到的實體數(shù)量較多,而訓(xùn)練語料庫內(nèi)的此類實體數(shù)量較為有限,因此,很多實體不能很好地被識別出來。
表5 char+seg 模型在測試集上的實驗結(jié)果
本文重點對軍事指控保障領(lǐng)域相關(guān)文本的命名實體識別方法進行研究,提出了一種融合漢字多特征的BiLSTM+CRF 模型方法。該模型方法主要對嵌入層結(jié)構(gòu)進行了改進,在基線模型的基礎(chǔ)上加入了拼音特征、五筆編碼特征和分詞邊界特征,以此來提高模型的性能。通過在自行構(gòu)建的軍事指控保障領(lǐng)域命名實體識別語料庫C2NER 上進行實驗,實驗結(jié)果表明分詞邊界特征對于模型性能的提升效果較為明顯,而拼音特征和五筆編碼特征則對模型性能影響較小。在后續(xù)研究過程中,將對漢字的偏旁部首特征、筆畫特征和字形結(jié)構(gòu)特征進行實驗,以檢驗這些特征對于模型命名實體識別效果的影響。