Design and Verification of Aeronautical Fault Reasoning Algorithm for Integrated Avionics Information System
GAO Yongmei1 HUANG Chengwenyuan2 WEN Jia2 (1. China Productivity Center for Machinery Co.,Ltd.; 2.The 10th Research Institute ofChina Electronics Technology Group Corporation)
Abstract: Aimingat the problemthatthefaultdiagnosis ofintegratedavionics informationsystem depends on theexperience ofmaintenancepersonnel,withinsufcientdegreeofintelligenceandlowaccuracyoffaultisolation,thepaperdesignsan avionics fault reasoning algorithm based on fusion BERT model. First, the BERT + CRF algorithm is used to extract and disambiguatetheentityof thefeldfaultdescriptiontext,andlocatethefaulttothemoduleobject.Then,theBERTsemantic similaritymodel is usedtoaccurately matchthefaulttothe standard failuremode,andthe troubleshooting scheme inthe historicalfaultdatabaseismatchedtoguidethemaitenancepersonneltotroubleshoot.Finallybyconstructingrealdata set,itisverifedtatteccuracycallandFsoreofteeasoningalgorithaegreatlyimproved,omparedwiththe three intelligent algorithms ofBiLSTM,LSTMand cosine similarity.
Keywords:fault library; knowledge reasoning; entity extraction; semantic similarity;BERTmodel
0 引言
綜合化和一體化的方向發(fā)展,系統(tǒng)內功能子系統(tǒng)間的界限日益模糊,設備與模塊間數字和射頻信號交聯(lián)復雜,使得系統(tǒng)故障表現(xiàn)出復雜性、層次性、現(xiàn)代航空綜合電子信息系統(tǒng)的設計不斷朝著相關性和不確定性的特征]。傳統(tǒng)故障排查方法受限于維修人員經驗,不同人員排故水平參差不齊導致航空綜合電子信息系統(tǒng)故障隔離定位準確率低,返修模塊內場故障不復現(xiàn)來回周轉,進而增加了維修周期和備件成本。故障推理是通過構建融合設計師知識、故障案例數據、維修人員經驗等多種知識的故障庫,以故障現(xiàn)象為索引,采用智能推理算法,向用戶推薦最佳排故步驟,引導維修人員快速、準確定位和排除故障。這種方式極大地降低了故障定位對單個維修人員經驗知識的依賴,可有效提高排故效率[2]。
然而,故障推理的難點在于知識庫中故障案例條目多、現(xiàn)象描述主觀性強、完整性差,不同案例紀錄之間甚至存在矛盾,使得故障知識準確匹配和推理難度大。傳統(tǒng)基于數據庫的檢索方法對于原始文本字詞差異大但語義相似的情況容易出現(xiàn)誤判,無法滿足現(xiàn)場維修故障快速、準確定位的需求。因此,業(yè)內引入智能算法、分詞等方法,以解決故障案例匹配、知識推薦的準確率問題。祖月芳提出了一種融合詞性、語義及詞序因子的裝備故障文本相似度計算方法。該方法將中在余弦公式的基礎上,通過裝備故障文本中的詞匯之間的相似度與詞性權重的關聯(lián)關系,改進相似度計算方法,并引入詞序相似度進一步優(yōu)化文本相似度。王少麗4設計和實現(xiàn)了一個航空裝備故障管理與分析平臺,該平臺擁有故障案例分析能力,主要是在大數據的基礎上通過Redis數據庫緩存,實現(xiàn)對用戶搜索信息做智能推薦相關的航空裝備故障案例的分析功能。賈寶惠提出了一種基于民航維修文本數據的BERT-LightGBM故障診斷模型,該模型使用BERT分類模型與LightGBM網絡相結合,從而實現(xiàn)對上下文的雙向語義的充分捕捉,將故障描述分類定位到專家整理的幾十種故障原因類型上。上述研究主要采用了基于大數據搜索或傳統(tǒng)自然語言處理的方法,在面向航空綜合電子信息系統(tǒng)多層次、強相關、不確定的故障情況時,推理算法的精度無法滿足排故的需求。
本文提出了一種基于融合BERT模型的故障推理算法,將高語義理解能力的深度神經網絡與故障診斷業(yè)務流程深度融合,構建了標準故障模式庫,通過故障實體抽取、消歧、信息重組、語義相似度計算和故障模式排序等步驟,實現(xiàn)了故障現(xiàn)象完整、準確描述以及故障模式精準、可靠的匹配,提升了故障推理的準確度,能夠為航空綜合電子信息系統(tǒng)故障定位提供技術支撐。
故障推理算法設計
1.1算法流程
航空綜合電子信息系統(tǒng)故障傳遞和耦合關系復雜,故障行為描述涉及產品組成結構、功能信號、發(fā)生時機、故障條件、故障表現(xiàn)、測試指標等多個要素,如何引導維修人員將不完整、不規(guī)范的故障現(xiàn)象文本準確映射到故障空間中某個標準故障模式,是故障推理算法設計的難點。本文采用基于BERT的實體抽取和相似度算法,從海量文本數據中提取語義信息,彌補數據不完整性和非結構化的缺陷;同時,利用BERT的語義理解能力和擅長處理上下文相關的語義信息方面的優(yōu)勢,挖掘故障記錄中的潛在規(guī)律和關聯(lián),精準識別故障模式,從而提高故障推理的準確性和效率。
基于融合BERT模型的故障推理算法流程如圖1所示。
第一步:故障實體抽取。將飛行員的故障描述文本輸人到BERT的實體抽取模型,提取出模塊信息、關鍵詞和相關的描述詞匯。
第二步:模塊實體消歧。消除提取出來的模塊、關鍵詞和相關的描述詞匯的歧義。舉例來說,超短波又有收發(fā)信機、電臺和UV等別稱,但由于模塊和功能在航空系統(tǒng)種類在兩位數以內,而他們的別稱一般也不超過十個,數據量并不算大,可以將別稱存人字典中,直接使用字典搜索對應匹配到模塊的標準名稱,從而再對應到該模塊的若干條標準故障模式。
第三步:信息重組。將提取出來的模塊、關鍵詞和相關的描述詞匯組成一個新的更為精簡的句子,提高后續(xù)匹配精度。
第四步:語義相似度計算。將新的句子和匹配到的若干條標準故障模式組成句子對作為BERT相似度計算模型的輸入,計算出相似度分數后,如果分數超過設定值,則進人結果庫。
第五步:排序。在對故障描述與該模塊所有標準故障模式進行相似度計算后,把存入結果庫的標準故障模式及相關排故方案進行排序,推薦給維修人員指導排故。
1.2基于BERT CRF的實體抽取
故障匹配任務中,對故障描述文本進行實體抽取主要實現(xiàn)以下2個自的:(1)從故障描述的文本中查找故障模塊或功能的實體,通過字典消歧后快速定位到標準故障庫中該模塊的名稱,以便后續(xù)與該模塊的標準故障模式進行匹配,否則直接與整個庫的標準模式進行匹配需要的運算量巨大;(2)提取與故障推理相關的字詞和句子,去除無關干擾信息,提高后續(xù)匹配精度。
在BERT模型之前,自然語言處理常使用的神經網絡(如:LSTM等)大多數都只考慮單向文本信息,而BERT模型使用雙向Transformer結構,所有層的特征表示依賴于左右兩側的上下文,因此在自然語言處理的各種任務中都有非常優(yōu)秀的表現(xiàn)。
圖2為BERT模型的總體結構圖,可以發(fā)現(xiàn)BERT最關鍵的結構是Transformer的Encoder,Transformer是一種圖神經網絡,Encoder是Transformer網絡的編碼器結構,如圖3所示。Transformer利用了自注意力機制,通過詞與詞之間的關聯(lián)程度來調整權重參數來獲取詞的表征[8]:
在文本相似度計算任務中,需要先構建一個包含句子對和標簽信息的數據集,標簽只有0和1,0代表語義相似,1代表不相似,如圖5所示。從而,相似度計算被轉化為了一個二分類問題。
然后,將句子對輸入到Tokenization層進行分詞和拼接,分詞需要到單個字的細粒度,然后使用分隔符【CLS】作為句子對的開頭,分隔符【SEP】作為句子對的拼接符和結束符。經過分詞和拼接后,再將處理后的句子輸入到Embedding層進行編碼,在編碼過程中,由于BERT的雙向Attention機制,互為上下文的兩個句子會相互影響,最終就可以學習到兩個句子的相似程度。通過Bert模型進行計算后,可以在輸出層得到拼接句子的最終編碼,將結果輸入進Dropout層,抑制算法的過擬合。在Dropout之后連接一個輸出維度為2的全連接層,再使用計算得到相似和不相似的概率。相似度計算模型如圖6所示。
最終進行相似度計算預測時,主要利用每個句子首部的[CLS]標簽,設[CLS]對應的Embedding為c,W為softmax分類器的輸入矩陣,則相似度計算可以表示為[10]:
P=softmax(cW)
由于這是一個二分類模型,因此P是一個長度為2的向量,向量內第一個值表示句子對標簽為0的概率,第二個值表示句子對標簽為1的概率。
2 算法驗證
2.1標準故障庫的構建
航空綜合電子信息系統(tǒng)在維護和返修的過程中,積累了大量的維修和排故記錄,但目前這些記錄往往還是以手冊的形式存在,載體往往也只是孤立的文檔或者表格,并沒有構建成一個系統(tǒng)的數據庫,人工查閱所需時間很長。故障庫匹配功能,就是要在輸入一段故障描述后,匹配到某一個標準的故障模式,從而為保障人員推送此類標準故障模式對應的故障原因、維修記錄和排故方法等有用的信息。而這一切的前提,是要構建一個標準的故障庫,這需要專業(yè)人員通過總結和提煉大量的故障案例。舉例來說,本文超短波話音功能對應的故障案例可能就有上千條,但總結后在功能級上其故障模式僅有23條。部分功能故障記錄和故障模式統(tǒng)計見表1。
2.2實體抽取
深度學習算法模型在使用前必須先在特定的數據集上進行訓練,因此需要對航空故障推理任務中實體抽取的數據集進行收集和標注。本文采用的實體抽取數據集是大量的外場真實故障描述記錄文本,標注后實體規(guī)模見表2。
需要標記和識別的3種實體類型:模塊、關鍵詞和描述,采用BIO體系對數據庫進行打標簽,因此共有7種標簽類型:“O”“B-MK”“I-MK”“B-GJC”“I-GJC”“B-MS”和“I-MS”。
本實驗是基于Pytorch對模型進行搭建,具體配置和參數設置見3。
本文采用精確度、召回率、值3個指標來評判實體抽取模型的性能\"\":
式中, a 是識別的正確的實體數,A是總實體個數。 B 是識別出的實體數。
本文將LSTM、LSTM-CRF、BERT3種模型與本文所用的BERT-CRF算法進行比較,結果見表4。
最后,對于實體抽取后的模塊信息,在建立的字典中直接查詢其標準的名稱,最終就可以定位到故障的模塊信息,然后使用相似度計算模型來匹配到正確的故障模式。
2.3語義相似度計算
要構建相似度計算的數據,需要人工構建將外場故障描述與標準故障模式一一對應的數據集。針對每一條該集合中的故障描述,將實體抽取算法抽取出模塊、關鍵詞和描述信息組成去除干擾信息后的故障描述,并與正確匹配的故障模式組成句子對并標記為“1”,作為一條正樣本;同時,隨機抽取同模塊四條非正確匹配的標準故障模式,標記為“0”,作為負樣本。雖然這樣會導致負例:正例 =4:1 ,但由于此任務是在庫中匹配正確的故障模式,實驗證明,在本文所提案例中,負樣本高于正樣本一定比例能減少誤匹配現(xiàn)象。最終構建的語義相似度計算的樣本規(guī)模見表5。
相似度計算的具體分數合理性難以用指標評價,因此,用句子對的二分類問題的評價指標來評價算法的性能。對于二分類問題的精確率,召回率和F1分數值具體計算公式如下:
式中, Tp 表示算法預測值為正類,真實值也是正類的個數; TN 表示算法預測值為負類,真實值也是負類的個數; FN 表示算法預測值為負類,真實值是正類的個數; Fp 表示算法預測值為正類,真實值是負類的個數。
本文將BERT相似度計算模型與余弦相似度,LSTM,BiLSTM進行對比,其中,余弦相似度并非基于分類模型而是直接計算文本相似度,因此設定為相似度高于0.7則判定為相似,結果見表6。
2.4結果分析
對實驗結果進行分析,針對表3的實驗結果,可以發(fā)現(xiàn)基于BERT的實體抽取模型在精確度、召回率和F1得分上都遠高于傳統(tǒng)的LSTM實體抽取模型,其中BERT模型相對于LSTM模型在 P R 和F13 項指標上分別提升了 13.81% , 17.67% , 15.73% ,BERT-CRF模型相對于LSTM-CRF模型在 P,R 和F13 項指標上分別提升了 13.21% , 14.94% , 14.07% 可以發(fā)現(xiàn)由于BERT預訓練模型可以充分利用上下文文本信息,提取出更為準確的字詞間語義特征,實體識別的精度會比常規(guī)的深度學習神經網絡高很多;同時,由于CRF模塊能夠充分利用彼此相鄰標簽的關聯(lián)性,加入CRF模塊后兩種算法的精度都有所提升,其中BERT模型在加入CRF模塊后在 P R 和 F13 項指標上分別提升了 0.74% 0.82% , 0.77% 。
針對表5的實驗結果,基于BERT的相似度模型相比于余弦相似度算法、LSTM、BiLSTM在精確度、召回率和F1得分上都取得了很大的提升,其中,在 P 指標上,相比于余弦相似度、LSTM、BiLSTM分別提升了 29.94% , 13.30% , 8.74% ,在R指標上,相比于余弦相似度、LSTM、BiLSTM分別提升了31.84% , 18.28% , 9.70% ,在 F1 指標上,相比于余弦相似度、LSTM、BiLSTM分別提升了 30.90% ,15.79% , 8.84% 。實驗結果證明BERT模型在中文語義相似度計算上仍有很明顯的優(yōu)越性,加人神經網絡提取語義特征后在3項指標上都比只計算原始文本相似度的余弦相似度算法模型高了 30% 左右,而由于BERT預訓練模型對文本語義特征的提取更加準確,因此比LSTM和BiLSTM的精確度仍然高很多,這說明了基于BERT的航空故障文本匹配算法具有較強的實用性。
3結語
本文建立了航空綜合電子信息系統(tǒng)模塊級和功能級的標準故障庫,解決了主觀故障描述的完整性和不一致問題。采用BERT-CRF模型對外場故障文本進行了實體抽取,將提取到的模塊級實體進行語義消歧后即可定位到故障模塊,再使用BERT語義相似度計算模型計算模塊的標準故障模式與故障描述的文本相似度,提高了故障案例匹配的準確度。通過基于真實故障記錄數據集對算法進行驗證和測試表明:BERT預訓練模型在兩個NLP任務中有較強的特征提取和推理能力,算法準確度可滿足航空綜合電子信息系統(tǒng)故障定位的要求。
參考文獻
[1]文佳.基于多信號模型的綜合化航電系統(tǒng)故障診斷算法設計[J].電訊技術,2014,54(3):361-367.
[2] 徐丹丹,張帝.基于數據驅動和本體建模的數控機床主軸故障診斷與推理[J].機床與液壓,2024,52(12):244-252.
[3]祖月芳,凌海風,呂永順.基于NLP技術的裝備故障文本匹配算法研究[J].兵器裝備工程學報,2021,42(11):204-208.
[4] 王少麗.航空裝備故障管理與分析平臺的設計與實現(xiàn)[D].大連:大連理工大學,2021.
[5] 賈寶惠,姜番,王玉鑫,王杜.基于民機維修文本數據的故障診斷方法研究[J/OL].航空學報:1-15[2022-10-09].http://kns.cnki.net/kcms/detail/11.1929.V.20220304.1727.008.html.
[6]Devlin J,Chang MW,Lee K,etal.Bert:Pre-trainingof deep bidirectional transformers forlanguageunderstanding[J]. arXiv preprint arXiv:1810.04805,2018.
[7].Zeng,Donghuo,Chengjie,et al.Entropy[J].LSTM-CRFforDrug-Named Entity Recognition. 2017(19):283.
[8] VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyou need[C]//Advances in Neural Information ProcessingSystems.2017:5998-6008.
[9] 田梓函,李欣.基于BERT-CRF模型的中文事件檢測方法研究[J].計算機工程與應用,2021,57(11):135-139.
[10]吳炎,王儒敬.基于BERT的語義匹配算法在問答系統(tǒng)中的應用[J].儀表技術,2020(6):19- -22+30
[11]謝騰,楊俊安,劉輝.基于BERT-BiLSTM-CRF模型的中文實體識別[J].計算機系統(tǒng)應用,2020,29(7):48-55.