關鍵詞:知識圖譜;特情處置;空中交通管制;深度學習;決策支持
中圖分類號:V355.1+1 文獻標志碼:A DOI:10.12305/j.issn.1001-506X.2024.12.20
0引言
飛行特情主要指飛行過程中出現的超出預期的情況或預期情況未包含的現象,其主要表現形式包括航空器本身和系統的安全問題(如舵面卡阻、起火、通信中斷或異常等)、復雜天氣環(huán)境問題(如雷雨、積冰、風切變等)、機組對航空器的誤操作等[1]。特情在民航運輸過程中時有發(fā)生[2],若不能對其進行恰當有效的處置,將引發(fā)重特大事故,直接威脅航空安全。
特情處置本身是應急安全管理的重要組成部分,也是近年來備受關注的熱點問題之一。民航的首要任務之一是確保飛行安全,這在很大程度上取決于空中交通管制(簡稱空管)人員在特情發(fā)生時能否正確和及時地采取行動[3]。目前,特情的處置工作主要依賴于“人的經驗”,即當出現新特情時,空管人員需通過檢索規(guī)章、檢查單等文本數據并結合自身經驗給出處置方案。這種處置方式需要空管人員在短時間內從大量文件中查找到與當前特情相對應的檢查單,效率較低且準確性無法保證。另外,隨著民航運輸量的不斷增加,規(guī)章和檢查單已無法涵蓋所有可能發(fā)生的特情,僅僅機械地執(zhí)行規(guī)章和檢查單中的程序化條款難以應對復雜多變的特情。因此,空管特情處置亟需借助智能化技術,將海量非結構化的特情處置文本凝煉成結構化的知識,并將這些知識進行可視化展示[45]。在特情發(fā)生時,幫助空管人員快速掌握特情處置的關鍵信息,并進行輔助決策,以提高空管人員針對特情的應急處置能力。
2012年,Google正式提出了知識圖譜技術[6],其目的是為了優(yōu)化用戶搜索體驗。從知識圖譜的深層邏輯來看,知識圖譜是一種語義網絡,網絡中的“結點”代表實體或者概念,“邊”代表實體/概念之間的各種語義關系[78]。知識圖譜可將多樣的非結構化信息以圖的形式存儲起來,以支持高效的數據調取。因此,通過構建空管特情處置知識圖譜,將特情處置知識進行組織和存儲,可為特情處置工作提供智能化的服務與決策參考。
近年來,已有許多學者針對民航特情的應急決策方法進行了研究。Xiong 等[9] 提出擴展加權平均(extendedpoweraverage,EPA)算子的概念,將EPA 用于多屬性決策,為民航應急預案選擇提供了更高效的方法;Wang等[10]提出一種綜合多屬性群體決策方法,結合故障樹分析方法對航空救援進行應急決策。由此可見,當前的空管特情處置決策研究多采用傳統的決策方法,甚少有知識圖譜技術的參與,因此將知識圖譜引入空管特情處置決策研究具有廣闊的發(fā)展前景與現實意義。
目前,國內外學者已對知識圖譜在應急管理方面的應用進行了許多探索。文獻[11]構建多模態(tài)洪澇災害知識圖譜,實現多源異構數據到多模態(tài)知識的轉化,在災害不同時期提供相應的應急措施。文獻[12]開發(fā)建筑工地安全知識圖譜,該知識圖譜可以在遵守安全法規(guī)的同時自動準確地識別危險。文獻[13]構建水利工程應急預案知識圖譜,并通過知識檢索和推理生成應急預案。文獻[14]基于知識圖譜和關系圖卷積網絡(relational-graphconvolutionalnet-work,R-GCN)模型提出一種城市軌道交通突發(fā)事件演化結果預測方法,為軌道交通應急管理提供方法和技術支持。文獻[15]基于知識圖譜建立一個能適應多種事故信息描述層次的應急任務推薦模型,解決任務推薦中案例特征輸入模糊的問題。
近年來,知識圖譜技術逐漸在民航領域得到應用,但在空管特情處置領域尚屬起步階段[16]。文獻[17]采用雙向長短期記憶(bi-directionallongshort-term memory,BiL-STM)網絡算法進行飛機電源系統故障手冊的實體抽取,接著采用基于自注意力(self-attention,SA)的BiLSTM 網絡進行關系抽取,進而構建飛機電源系統故障診斷知識圖譜。文獻[18]采用BiLSTM 和條件隨機場(conditionalradomfields,CRF)等深度學習技術實現知識自主抽取,實現潤滑系統故障知識智能問答和故障歸因分析應用。文獻[19]提出一種結合注意力機制與雙向門控循環(huán)單元的關系抽取模型,進行民航突發(fā)事件領域本體的關系抽取。然而,在空管特情處置領域,特情案例記錄的文本數量較少,案例記錄中的領域性詞匯較多,且訓練數據標注耗時長、人工成本高,故在自然語言處理中常用的深度學習算法在空管特情處置知識抽取上難以取得較好的效果。
雙向轉換編碼器(bi-directionalencoderrepresentationsfromtransformers,BERT)是Google于2018年提出的預訓練模型[20]。首先,在公共語料集上進行模型預訓練,實現模型參數的獲取。接著,結合所用數據集的領域特征對參數進行微調,從而解決人工標注大規(guī)模訓練數據集費時、費力的問題[4]。同時,空管特情案例記錄存在專業(yè)名詞多、英文縮寫多及記錄格式不規(guī)范等問題,在BERT 模型后連接深度學習模型,并融合基于規(guī)則的實體抽取,能在一定程度上提高空管特情案例記錄的實體抽取任務的實施效率。
綜上所述,本文針對當前特情處置存在的弊端,以規(guī)章數據、特情處置檢查單數據及特情案例數據為研究對象,提出空管特情處置知識圖譜的構建框架。首先,根據所用非結構化文本特性及專家知識構建領域本體。然后,利用開頭、中間、非實體(begin,inside,outside,BIO)標注的文本訓練基于BERT-BiLSTM-CRF模型,并基于規(guī)則抽取補全實體,實現實體抽取。進一步,利用關系標注后的文本訓練BiLSTM+SA模型,實現關系抽取。最后,將抽取到的(實體1,實體2,關系)形式的三元組利用圖數據庫Neo4j進行信息存儲、查詢和可視化展示,并基于空管特情處置知識圖譜實現了特情處置決策支持。
1空管特情知識圖譜數據分析
1.1空管特情處置數據采集
目前,可用于輔助空管特情處置決策的數據包括民航規(guī)章、特情處置檢查單及特情處置案例記錄。民航規(guī)章為中國民用航空局頒布的《民用航空空中交通管理規(guī)則》,其對特情處置工作做了總體規(guī)定。特情處置檢查單為空管部門針對各類特情制定的具體處置流程,可用于處置常規(guī)特情。特情案例記錄為空管部門對過往特情發(fā)生過程及處置措施等的詳細記錄,其中包含了許多特情處置經驗知識和應對未知特情的關鍵信息。本文采用的檢查單和特情案例記錄均由地區(qū)空管局提供。3類數據的數據類型和選用部分如表1所示。
1.2空管特情處置數據特點
由表1可知,空管特情處置數據中各類文本具有各自的特征。
(1)規(guī)章和檢查單文本形式統一規(guī)范,具有強規(guī)則性。
(2)特情案例記錄數據多為人工撰寫,由于個人經驗和習慣的差異,同一事物可能會出現多種表征形式,并且由于特情案例記錄在格式上尚未形成統一的規(guī)范,特情案例記錄通常偏口頭化,其中的實體和關系難以被直接抽取出來,數據處理難度較大。
(3)特情案例記錄屬于特定領域文本,其中包含大量領域性知識和特殊名詞的英文縮寫,訓練集標注成本高。
(4)特情的發(fā)生在民航運輸過程中屬于小概率事件,特情案例記錄數量有限。
針對以上數據特征,需選取不同的知識抽取方法。對于規(guī)章和檢查單,使用短文本形式人工實現知識抽??;對于特情案例記錄,使用BERT-BiLSTM-CRF+ 正則表達式(regularexpression,RE)模型開展實體抽取工作,對抽取到的實體使用BiLSTM+SA模型進行關系抽取,并將實體和關系整理為三元組形式。
2基于知識圖譜的空管特情處置決策框架體系設計與流程
2.1知識圖譜構建框架設計
知識圖譜通常有3種構建方式:自頂向下、自底向上和兩者混合[21]。自頂向下的構建方式先獲取本體信息,構建模式層,并在模式層的框架下從數據源中抽取知識,構建數據層;自底向上的構建方式則是先從數據源中抽取知識,在知識抽取的過程中逐步歸納出模式層,并對組織架構不斷更新;兩者混合的構建方式先初步定義模式層,并隨著知識抽取的進行對模式層進行改進更新,形成更具有可信度的知識架構。
空管特情處置數據專業(yè)性較強,非結構化文本中包含的信息要素較多,各要素之間的關系錯綜復雜且沒有統一規(guī)范的架構,因此本文采用自頂向下的方式構建空管特情處置知識圖譜,構建框架如圖1 所示。模式層是對特定領域共享概念模型的一種明確的、形式化、規(guī)范的說明[22],在圖1中,首先采用數據和專家知識構建模式層,為后續(xù)圖譜的構建提供規(guī)范。數據層構建主要包括知識抽取和圖譜構建。在本文中,知識抽取分為實體抽取和關系抽取,即在模式層的指導下,采用智能算法將實體和關系從非結構化的文本數據中抽取出來,并將其整合成結構化知識。圖譜構建分為知識融合、知識存儲和圖譜應用,知識融合包含實體消歧和共指消解等子任務,旨在解決實體的一詞多義或近義詞問題;知識存儲指選用符合應用需求的存儲方式將知識進行存儲,形成知識圖譜。最后,通過圖譜應用,可將構建的知識圖譜用于實際場景。
2.2基于知識圖譜的空管特情處置決策流程
通過構建空管特情處置知識圖譜,將大量的非結構化知識轉化為以圖數據庫存儲的結構化知識,即可實現空管特情處置決策的智能化。本文設計的基于知識圖譜的特情處置方案決策流程如圖2所示,包括基礎數據層、圖譜構建層和圖譜應用層。
圖2中,基礎數據層為構建知識圖譜所需的基礎語料。圖譜構建層通過人工和深度學習相結合的方法從基礎語料中抽取實體和關系,并對抽取到的實體進行語義融合,最終將其以三元組的形式存儲在知識圖譜圖數據庫中。圖譜應用層是基于知識圖譜實現空管特情處置決策的應用模塊,其借助本文所構建的知識圖譜,可實現信息檢索、處置方案推薦及多方信息協同等功能。
3基于知識圖譜的空管特情處置決策模型
3.1基于BERT-BiLSTM-CRF+RE的實體抽取模型
實體抽取是對文本中具有特定含義的實體進行邊界確定和類別識別的過程。本文搭建BERT-BiLSTM-CRF+RE模型實現空管特情處置知識圖譜的實體抽取。針對訓練數據標注成本高、數據量較小的問題,該模型在BiLSTM模型前加入預訓練過的BERT層模型,以避免標注大量的訓練數據,從而用較小的訓練集取得較好的訓練效果。后續(xù)引入的CRF層可對前端的輸出進行概率計算,其同時考慮了標簽的發(fā)射概率和標簽之間的轉移概率,能有效地提升輸出標簽序列的準確率。BERT-BiLSTM-CRF模型具體架構如圖3 所示。圖中,B表示實體開始,I表示實體結束,O表示非實體。
針對空管特情案例記錄中領域詞匯較多、專業(yè)名詞英文縮寫難以被有效抽取的問題,本文在使用BERT-BiL-STM-CRF模型實現實體抽取后,根據空管特情規(guī)范增補識別領域性實體,獲得最終實體集。綜合考慮特情處置領域中實體的強領域特征,使用RE構建強領域特征實體抽取規(guī)則[23]。每條抽取規(guī)則由實體類型、實體規(guī)則、實體位置3個部分組成,并由分隔符連接。
4算例分析
4.1算例情況
空管特情的種類多達50余種,主要分為空中交通服務類、運行環(huán)境類和航空器類,其中航空器類特情包含的具體情況最為復雜,且發(fā)生頻率較高,成為了特情處置研究的關鍵。在航空器類特情中,危險接近特情發(fā)生頻率最高[1]。構建全部空管特情的知識圖譜過于復雜,因此本文選擇危險進近特情進行驗證,說明方法的有效性。
本文以《民用航空空中交通管理規(guī)則》、空管局使用的特情處置檢查單及其提供的2000~2019年特情案例記錄為基礎語料,其中共包含245份特情案例記錄數據,將其劃分為單獨語句,即1274條文本數據。對非結構化文本數據,利用本文方法構建空管特情處置知識圖譜。
4.3模式層構建
本文在空管人員的協助下對文本數據進行詳細分析,總結提煉出了空管特情處置知識圖譜模式層,如圖6所示。
圖6中,空管特情處置知識圖譜的模式層由特情屬性、特情響應和特情評估三大要素及它們之間的相互關系構成,其中三大要素又可細分為特情名稱、特情原因、響應措施等11個實體,這些實體間共定義了8種關系。
4.4實體抽取實驗
本文先使用原始語料構建訓練集,訓練BERT-BiLSTM-CRF模型,并在BERT-BiLSTM-CRF模型抽取結果的基礎上,融合規(guī)則抽取結果,完成空管特情處置知識圖譜的實體抽取。
4.4.1模型參數設置
表2展示了本文使用的實體抽取模型的參數設置。
4.4.2實體抽取實驗及結果分析
在訓練模型之前,需要標注一定數量的文本,并按8∶1∶1的比例將標注語料劃分為訓練集、驗證集和測試集。本文利用語料標注工具對原始語料中的句子進行BIO詞性標注。其中,B表示實體開始,I表示實體結束,O表示非實體。以“自動化系統出現告警,管制員立即進行沖突解脫。”句子為例,標注結果如圖7所示。使用標注工具展示文本標注效果,如圖8所示。在完成實體標注后,以訓練集語料為輸入,以標注結果為標簽,訓練BERT-BiLSTM-CRF模型,接著將驗證集文本送入訓練好的模型驗證實體抽取效果,最后用訓練好的模型抽取剩余原始語料中的實體,完成實體的識別;進一步地,本文在BERT-BiLSTM-CRF 模型輸出結果的基礎上,通過規(guī)則的再抽取,對實體消融后,輸出實體抽取結果。
為說明本文構建的BERT-BiLSTM-CRF+RE 模型在訓練數據量較小且領域性強的空管特情案例記錄實體抽取任務上的有效性,本文選用BiLSTM、BiLSTM-CRF、BERT-BiLSTM-CRF模型進行對照實驗,通過評價指標的數值說明模型在實體抽取任務上的表現,實驗結果如表3所示。
從表3可以看出,在BiLSTM 模型后銜接CRF層后,模型的實體抽取表現(犉1 值)提升了8% 左右,原因是CRF層中有轉移特征,可為最后預測的標簽添加一些約束,以保證預測的準確性。在引入BERT 預訓練模型后,模型在實體抽取任務上取得了更好的性能,其各項評價指標提升了7%左右,主要原因是BiLSTM-CRF模型的輸入為單個字符,沒有利用文本中上下文之間的關聯信息,而BERT 預訓練模型作為一種動態(tài)嵌入方式,在字符輸入的基礎上融合了上下文的語義信息,同時其本身復雜的網絡結構在面向空管特情復雜文本表示時能夠取得有效的識別效果,因此優(yōu)化了模型的性能。在BERT-BiLSTM-CRF 模型輸出結果上融合規(guī)則知識抽取結果,模型抽取效果提升了5% 左右,原因是規(guī)則知識抽取彌補了BERT-BiLSTM-CRF 模型在領域實體和英文縮寫抽取方面的缺陷。
4.5關系抽取實驗
4.5.1模型參數設置
表4展示了本文使用的關系抽取模型的參數設置。
4.5.2模型參數設置
類似于實體抽取,在訓練模型之前,要對文本中的關系進行標注,并按8∶1∶1的比例劃分為訓練集、測試集和驗證集。接著,以“頭實體尾實體關系所在句子”整理訓練集中的語料,整理結果如表5所示。
表5中,實體“自動化系統”與實體“短期沖突預警”之間的關系為“出現”,因此生成的語料為“自動化系統短期沖突預警出現自動化系統出現短期沖突預警,兩機水平間隔29.6km”。使用標注工具對空管特情案例記錄中的關系進行標注,可視化展示如圖9 所示。使用處理后的訓練集文本訓練BiLSTM+SA關系抽取模型,并用訓練好的網絡完成原始語料的關系抽取任務。各類型關系的識別結果如表6所示。
由表6可知,關系抽取模型在不同關系上的F1均值為0.9195,整體關系抽取效果良好。然而,模型在不同關系上的表現不盡相同,其中“觸發(fā)”“產生”關系的犉1 值明顯低于其他關系,主要原因是“觸發(fā)”“產生”關系樣本所占比例較低,模型沒有足夠的數據進行學習。
5知識圖譜可視化及應用
5.1空管特情處置知識圖譜可視化
在諸多圖譜構建工具中,Neo4j具有高性能、設計靈活、結構直觀等優(yōu)點,Neo4j存儲了原生的圖數據,圖數據結構中的遍歷算法可通過關系實現節(jié)點與其關聯節(jié)點之間的快速連接,在面對大量數據時查找效率更高。因此,針對空管特情案例的特點及特情處置的應用場景,本文選?。危澹铮矗曜鳛橹R存儲工具。
基于本文所提知識圖譜構建方法,對所有危險接近特情案例記錄進行知識抽取,并結合從對應的規(guī)章和檢查單中人工抽取的知識,整合為三元組數據,導入Neo4j圖數據庫中進行儲存和可視化展示,構建可視化的空管特情處置知識圖譜,知識圖譜的展示如圖10所示。
圖10以管制員為中心點,展示了與管制員含義相同的節(jié)點,以及由管制員導致的特情發(fā)生的原因和部分飛行狀態(tài)。通過“引起”“察覺”等關系將人員、特情原因和飛行狀態(tài)連接起來,構建不同實體間的相關關系,將整個空管系統的特情處置知識連接起來,形成一個完整的空管特情處置知識圖譜,為知識圖譜技術在空管特情處置中的應用提供了可靠的數據支撐。
5.2基于空管特情處置知識圖譜的處置決策支持
基于空管特情處置知識圖譜,在特情發(fā)生后,可從智能信息檢索、特情處置方案推薦、特情協同處理3個方面為特情處置人員提供決策支持,其應用流程如圖11所示。
智能信息檢索。傳統的空管特情處置方式通過人工檢索檢查單來完成,空管人員難以在短時間內檢索到相應的檢查單。通過構建知識圖譜,將空管特情處置知識以圖的形式進行表示,能準確地表達知識之間的關系。借助知識圖譜強大的信息檢索能力,在面對單一特情時,特情處置人員可通過關鍵字快速檢索到對應的特情處置措施,保障了對特情快速、準確的響應。
特情處置方案推薦。由于特情復雜多變的特點,特情處置人員往往需要依賴自身的工作經驗和已有規(guī)章、手冊等給出特情處置方案,要求特情處置人員能實時解析特情狀況??展芴厍樘幹弥R圖譜詳細記錄了過往各類特情信息及通用的特情處置措施。在特情發(fā)生后,根據特情的特點,通過相似度匹配對知識圖譜進行檢索,可實現基于知識圖譜的特情處置方案推薦,降低人為因素對處置結果的影響。同時,利用新發(fā)生特情的案例信息對知識圖譜進行實時更新,可使知識圖譜生成更符合實際情況的特情處置推薦方案。
特情協同處置。傳統的特情處置信息交互通過人工實現,效率較低且難以保證準確率。利用空管特情處置知識圖譜,可建立軍管、監(jiān)管局、空管、機場、航司等多方統一協調的特情處置平臺,為協同處置特情、統一調配各方資源提供技術支撐,通過互通數據接口,實現多方資源協同及快速調動的特情處置。
在上述空管特情處置知識圖譜應用流程的基礎上,進一步地,本文提出了空管特情處置決策支持模型,如圖12所示,該模型主要體現了基于所構建的知識圖譜實現空管特情處置方案推薦的過程。
在圖12中,當新特情發(fā)生時,特情處置人員將新特情的相關信息語句輸入決策支持系統。緊接著,系統基于設定的文本關鍵特征提取算法提取出輸入語句中的關鍵特征,以此作為空管特情處置方案推薦的依據。對于輸入的關鍵特征,系統將首先啟用檢查單匹配模塊,通過詞頻逆向文件頻率(termfrequency-inversedocumentfrequency,TF-IDF)文本相似度匹配檢查單條例,如航空器TCAS告警現場處置。如航空器TCAS告警現場處置,將達到設定閾值且相似度排名靠前的特情處置檢查單輸出,供特情處置人員參考。若在檢查單匹配模塊未能匹配到相似度達到閾值的檢查單,系統將啟用知識圖譜實體匹配模塊,通過Word2Vec模型匹配知識圖譜中的實體,并利用Neo4j查詢功能鏈接實體對應的案例信息,從案例信息中獲取當前特情處置可參考的信息和依據,為特情處置人員的決策提供支持。
6結論
針對傳統的特情處置智能化不足、效率和準確率均較低的問題,本文以空管特情案例記錄、規(guī)章和檢查單文本為對象,提出一種自頂向下的空管特情處置知識圖譜構建方法,并搭建空管特情處置知識圖譜應用框架:
利用空管特情處置多源信息,提出了以規(guī)章、檢查單和空管案例記錄為對象構建空管特情處置知識圖譜的具體方法和流程,規(guī)章和檢查單采用“人工+ 短文本”完成知識抽取,案例記錄采用深度學習模型實現知識抽取;
針對空管特情案例記錄可訓練數據體量少、標注成本高且領域專業(yè)性強的情況,借助BERT 預訓練模型優(yōu)秀的上下文信息獲取能力和規(guī)則知識抽取手段,優(yōu)化實體抽取效果,模型犉1值提升了10%左右;
在命名實體識別的基礎上,構建BiLSTM+SA 模型實現關系抽取,將特情案例記錄轉化為三元組信息。模型犉1值達到91.95%,抽取效果較好;
將三元組信息輸入Neo4j圖數據庫進行空管特情處置知識圖譜構建效果展示,并對其輔助決策的實現過程進行了詳細闡述說明。最后,利用Neo4j圖數據庫對構建的空中交通管制特情處置知識圖譜進行可視化,并對其在民航空中交通管制特情處置決策支持中的應用前景進行分析,為空中交通管制部門的實際應用提供參考。
作者簡介
彭珂(1999—),女,碩士研究生,主要研究方向為民航安全工程、知識圖譜在民航空管特情處置中的應用。
王華偉(1974—),女,教授,博士研究生導師,博士,主要研究方向為民航安全工程、民航維修工程、可靠性工程。
侯召國(1996—),男,博士研究生,主要研究方向為故障診斷、航空器健康管理。
曾嘯寒(1999—),男,碩士研究生,主要研究方向為機場道面損傷識別檢測。
羅通(1997—),男,碩士研究生,主要研究方向為民航安全工程。