王 航,張宏軍,程 愷,徐有為,申秋慧,李大碩
(1.陸軍工程大學 指揮控制工程學院,江蘇 南京 210007; 2.中國洛陽電子裝備試驗中心,河南 洛陽 471000)
隨著現(xiàn)代科技的不斷進步,作戰(zhàn)手段不斷發(fā)展,各國在電子對抗領(lǐng)域的爭奪也越來越激烈,研究電子對抗發(fā)展的前沿,分析對手的強弱點,審視自身的發(fā)展情況就顯得尤為重要[1]。目前,不斷革新的電子戰(zhàn)技術(shù)和電子信息裝備的廣泛使用,使數(shù)據(jù)產(chǎn)生速度呈指數(shù)增加,電子戰(zhàn)領(lǐng)域正在面臨著來源廣泛、格式多樣、數(shù)據(jù)價值密度低、數(shù)據(jù)體量大、種類繁多的數(shù)據(jù)困境[2],如何充分挖掘領(lǐng)域數(shù)據(jù)資源中有價值的信息,是電子戰(zhàn)研究需要解決的問題。近年來,由于人工智能、知識工程等技術(shù)的高速發(fā)展,知識圖譜在知識的自動獲取、知識表征和推理學習、基于圖的深度挖掘等方面取得了突破性進展[3],已經(jīng)被用于解決公安、醫(yī)療、金融、軍事等垂直領(lǐng)域的相關(guān)問題。作為一種高效、智能的知識組織手段,知識圖譜可以幫助用戶快速、準確地獲取自身關(guān)注的信息[3],這些特點使其成為現(xiàn)階段解決電子戰(zhàn)領(lǐng)域知識體系化的最佳方案。
電子戰(zhàn)領(lǐng)域知識圖譜的構(gòu)建不是一次性的工作,隨著領(lǐng)域數(shù)據(jù)資源的快速累積,需要不斷對知識圖譜進行更新。因此,系統(tǒng)需要建立規(guī)范的知識圖譜構(gòu)建流程,協(xié)助技術(shù)人員進行規(guī)范構(gòu)建;需要設(shè)計統(tǒng)一的數(shù)據(jù)標準和接口,提供數(shù)據(jù)全生命周期的存儲與管理,確保新加入知識的準確性和規(guī)范性。從而使電子戰(zhàn)領(lǐng)域知識圖譜能夠不斷積累知識,豐富完善領(lǐng)域知識體系,更好地滿足領(lǐng)域業(yè)務(wù)需求。主要完成了以下工作:通過研究電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源特點,分析了系統(tǒng)建設(shè)需求;參照垂直領(lǐng)域知識圖譜構(gòu)建方法,進行系統(tǒng)總體架構(gòu)、系統(tǒng)設(shè)計,闡述了系統(tǒng)從總體架構(gòu)到技術(shù)細節(jié)的設(shè)計方案,包括系統(tǒng)功能模塊設(shè)計和數(shù)據(jù)的混合存儲策略;研究了系統(tǒng)關(guān)鍵技術(shù)及實現(xiàn)方法,進行了數(shù)據(jù)存儲、可視化、知識應(yīng)用等工程實現(xiàn)方法實踐。
在現(xiàn)代戰(zhàn)爭中,幾乎每個作戰(zhàn)單元都配備有電子設(shè)備和電子對抗裝備,大量電子技術(shù)裝備運用于軍事領(lǐng)域以后,極大地拓展了電子戰(zhàn)的范圍,使其已上升為重要的戰(zhàn)略要素,成為一種相對獨立的作戰(zhàn)手段和方式,貫穿于現(xiàn)代戰(zhàn)爭的始終[4],電子戰(zhàn)數(shù)據(jù)資源也隨著電子戰(zhàn)的飛速發(fā)展呈指數(shù)級增長。
1.1.1 數(shù)據(jù)資源分類及特點
電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源類型繁雜,按照來源可分為如下3類:一是電子裝備產(chǎn)生的工作數(shù)據(jù),這一類型的數(shù)據(jù)主要包括電磁頻譜數(shù)據(jù)、裝備運行參數(shù)、裝備工作日志等,具有極強的專業(yè)性。二是內(nèi)部數(shù)據(jù)庫,這一類型數(shù)據(jù)主要包括各單位自建的面向本單位具體業(yè)務(wù)需求的小規(guī)模數(shù)據(jù)庫,數(shù)據(jù)結(jié)構(gòu)化程度、準確性較高,具有較強的業(yè)務(wù)傾向性。三是互聯(lián)網(wǎng)數(shù)據(jù),這一類數(shù)據(jù)主要包括互聯(lián)網(wǎng)上的百科、新聞、論文、圖書等資料,數(shù)據(jù)資源龐大、價值密度稀疏[5]。
1.1.2 數(shù)據(jù)資源應(yīng)用存在的問題
根據(jù)電子戰(zhàn)領(lǐng)域業(yè)務(wù)需求,結(jié)合領(lǐng)域數(shù)據(jù)資源分類及特點進行分析可發(fā)現(xiàn),目前電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源應(yīng)用存在以下需解決的問題:
專業(yè)門檻高。電子戰(zhàn)領(lǐng)域從專業(yè)上可以分為雷達對抗、通信對抗、光電對抗、戰(zhàn)場信息網(wǎng)絡(luò)對抗等多個專業(yè)領(lǐng)域[6],專業(yè)領(lǐng)域覆蓋面廣、知識繁雜、專業(yè)性較強。大多數(shù)軍事人員自身不具備系統(tǒng)的電子戰(zhàn)知識體系,面對海量電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源時難以從中快速獲取有用信息,導致電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源不能完全發(fā)揮出應(yīng)有作用。
存在信息壁壘。電子戰(zhàn)領(lǐng)域資料存在的形態(tài)主要包括各類紙質(zhì)和電子文檔資料、網(wǎng)頁資料以及各單位自建的數(shù)據(jù)庫,公開數(shù)據(jù)較少,有效集成困難,由于軍事領(lǐng)域數(shù)據(jù)安全的重要性,所采用的傳統(tǒng)數(shù)據(jù)共享手段效率低下,很難支持頻繁的數(shù)據(jù)交換,缺少一種有效且安全可靠的數(shù)據(jù)管理、使用和共享方法。目前,除了一些市面上發(fā)行的書籍報刊和互聯(lián)網(wǎng)上存在的少量公開資料,其他諸如裝備參數(shù)、性能指標、應(yīng)用方式等關(guān)鍵數(shù)據(jù)共享難度較高。
研究工作相對滯后。電子戰(zhàn)是針對性極強的斗爭,一種干擾或一種反干擾樣式一旦被對手偵測獲取,就會失去作戰(zhàn)價值,裝備需要不斷更新以適應(yīng)作戰(zhàn)需求。因此,更新周期短是電子對抗設(shè)備的生存規(guī)律[7]。這導致電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源隨裝備和技術(shù)更新速度較快,而這種更新很難在第一時間被領(lǐng)域研究人員察覺,導致相應(yīng)的研究工作則相對滯后,難以跟上技術(shù)發(fā)展。
根據(jù)電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源特點,需要將數(shù)據(jù)資源整合成一個統(tǒng)一的、結(jié)構(gòu)化的知識體系,提高電子戰(zhàn)領(lǐng)域數(shù)據(jù)利用效率。知識圖譜和人工智能在各領(lǐng)域的廣泛應(yīng)用為電子戰(zhàn)領(lǐng)域需求提供了解決思路。目前,知識圖譜在電子戰(zhàn)領(lǐng)域的應(yīng)用尚屬空白,電子戰(zhàn)領(lǐng)域知識圖譜構(gòu)建及知識應(yīng)用技術(shù)有助于把現(xiàn)有領(lǐng)域數(shù)據(jù)資源整合成統(tǒng)一的、結(jié)構(gòu)化的、準確全面的電子戰(zhàn)知識體系,以滿足電子戰(zhàn)數(shù)據(jù)的快速檢索與深層次的數(shù)據(jù)挖掘與應(yīng)用,解決電子戰(zhàn)領(lǐng)域數(shù)據(jù)高效應(yīng)用問題,為用戶提供準確、高效、智能的知識服務(wù),支撐軍事專家和技術(shù)人員開展相關(guān)業(yè)務(wù)。
為滿足上述需求,所構(gòu)建的電子戰(zhàn)領(lǐng)域知識圖譜系統(tǒng)應(yīng)具有以下三個特點:
知識易更新。為適應(yīng)電子戰(zhàn)領(lǐng)域數(shù)據(jù)的更新速度,知識圖譜構(gòu)建完成后能夠根據(jù)數(shù)據(jù)源的改變自動更新,快速擴大知識積累的廣度和深度,降低知識運維的人工成本,確保知識的時效性。
知識易共享。用戶登錄系統(tǒng)后,能夠通過內(nèi)部網(wǎng)絡(luò)瀏覽知識圖譜,并根據(jù)不同的用戶權(quán)限,獲取相應(yīng)權(quán)限的知識和服務(wù)。
安全可靠。由于電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源較為敏感,系統(tǒng)應(yīng)具備安全可靠的數(shù)據(jù)管理機制,確保每一環(huán)節(jié)的數(shù)據(jù)都在系統(tǒng)管控之中。
根據(jù)系統(tǒng)需求分析,按照高內(nèi)聚、低耦合的系統(tǒng)設(shè)計思想,并充分考慮系統(tǒng)可靠性、安全性和易用性等原則[8],系統(tǒng)總體架構(gòu)如圖1所示。
圖1 系統(tǒng)總體架構(gòu)
從功能實現(xiàn)的角度設(shè)計,系統(tǒng)自底向上分為數(shù)據(jù)層、業(yè)務(wù)層、應(yīng)用層。數(shù)據(jù)層利用混合存儲策略,存儲知識圖譜構(gòu)建全生命周期中的各類數(shù)據(jù),包括原始資料、基礎(chǔ)語料、算法模型等系統(tǒng)基礎(chǔ)數(shù)據(jù)和最終形成的知識圖譜產(chǎn)品;業(yè)務(wù)層提供系統(tǒng)實現(xiàn)的具體業(yè)務(wù)邏輯,包括系統(tǒng)所用到的自然語言處理技術(shù)和知識圖譜構(gòu)建技術(shù),能夠?qū)?shù)據(jù)進一步處理形成結(jié)構(gòu)化、體系化的知識,為電子戰(zhàn)領(lǐng)域知識應(yīng)用提供支撐;應(yīng)用層提供電子戰(zhàn)領(lǐng)域知識應(yīng)用,提供頻譜管控、情報分析、輔助決策等方面的具體業(yè)務(wù)應(yīng)用。
電子戰(zhàn)領(lǐng)域知識圖譜對構(gòu)建準確性、知識深度和更新便捷等方面要求較高,因此,系統(tǒng)采取自頂向下和自底向上相結(jié)合的方式構(gòu)建知識圖譜,該方式的核心步驟如下:首先進行知識建模,通過電子戰(zhàn)領(lǐng)域?qū)<胰斯ぞ幹?,定義電子戰(zhàn)領(lǐng)域本體,完成頂層概念到下層概念的逐步細化,形成結(jié)構(gòu)良好的分類層次結(jié)構(gòu);再通過知識抽取,將通過知識抽取模塊得到的實體及屬性添加到定義好的概念體系當中;最后,在知識更新過程中通過知識融合和知識計算[9]進行本體和知識圖譜的迭代更新。這種方式既能保證電子戰(zhàn)知識圖譜構(gòu)建的準確性,又有利于抽取出新的知識,從而適應(yīng)不斷發(fā)展的電子戰(zhàn)領(lǐng)域裝備和技術(shù),提高知識圖譜構(gòu)建準確性和知識更新的自動化程度。
以上述知識圖譜構(gòu)建方法為基礎(chǔ),設(shè)計數(shù)據(jù)管理、電子戰(zhàn)領(lǐng)域知識圖譜構(gòu)建、電子戰(zhàn)領(lǐng)域知識應(yīng)用等3個子系統(tǒng),系統(tǒng)功能架構(gòu)如圖2所示。
圖2 系統(tǒng)功能架構(gòu)
系統(tǒng)中的數(shù)據(jù)層是多層體系中最為關(guān)鍵和重要的一層,數(shù)據(jù)建模是對數(shù)據(jù)進行分析和設(shè)計的一種有效手段[10],應(yīng)當結(jié)合知識圖譜系統(tǒng)中知識圖譜構(gòu)建和知識更新等下游任務(wù),對系統(tǒng)數(shù)據(jù)進行數(shù)據(jù)模型設(shè)計。以特征庫的概念模型設(shè)計為例,設(shè)計如下:
特征庫存儲語料的原始特征集合包括原始特征集合和特定任務(wù)的特征子集。其中,原始特征集合包括原始語料特征、電子戰(zhàn)軍語詞典特原始語料字典特征及文本統(tǒng)計特征。特定任務(wù)的特征子集是指面向特定自然語言處理任務(wù)和知識圖譜構(gòu)建任務(wù)所需要的特征子集,這些任務(wù)包括命名實體識別、關(guān)系抽取、屬性抽取、本體對齊、實體匹配和知識推理等,每個算法和模型可根據(jù)需要,從原始特征集合中經(jīng)特征工程處理獲取所需的特征子集,以減少知識圖譜構(gòu)建過程中的重復計算,降低系統(tǒng)開銷。特征庫ER圖如圖3所示。
圖3 特征庫ER圖
系統(tǒng)采用B/S架構(gòu),以MTV模式構(gòu)建,使系統(tǒng)組件之間保持松耦合關(guān)系[11]。目前,系統(tǒng)開發(fā)常用的PythonWeb三大框架中,Django的受歡迎程度最高。Django具有前后端分離的MTV框架模式、模型和數(shù)據(jù)庫連接的ORM機制和自帶的Admin管理系統(tǒng),這些特性提高了系統(tǒng)開發(fā)效率,增強了系統(tǒng)的穩(wěn)定性和易維護性。本系統(tǒng)采用Django作為系統(tǒng)開發(fā)的web應(yīng)用框架,來實現(xiàn)業(yè)務(wù)層的中各個業(yè)務(wù)邏輯。系統(tǒng)開發(fā)技術(shù)框架如圖4所示。
圖4 系統(tǒng)開發(fā)技術(shù)框架
系統(tǒng)采取Mysql和Neo4j相結(jié)合的混合存儲的策略來存儲系統(tǒng)數(shù)據(jù),知識圖譜存儲在圖數(shù)據(jù)庫中,用于查詢和可視化展示,其他知識圖譜構(gòu)建全生命周期中所需要和用到的數(shù)據(jù),如相關(guān)資料、語料、提取出的特征等,依托關(guān)系型數(shù)據(jù)庫存儲,便于數(shù)據(jù)分類和管理。
4.2.1 基礎(chǔ)數(shù)據(jù)的存儲
系統(tǒng)基礎(chǔ)數(shù)據(jù)存儲在Mysql數(shù)據(jù)庫中,作為一款關(guān)系型數(shù)據(jù)庫,Mysql難以應(yīng)對復雜的關(guān)系數(shù)據(jù),對于2度以上的查詢請求,其反應(yīng)時間較長,因此關(guān)系型數(shù)據(jù)庫并不適合存儲關(guān)系復雜、知識深度較深且查詢需求較多的電子戰(zhàn)領(lǐng)域知識圖譜,但其具有高度結(jié)構(gòu)化的數(shù)據(jù)存儲方式及較低的空間占用等特點[12],適合作為系統(tǒng)存儲基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)庫。系統(tǒng)所構(gòu)建的資料庫、語料庫、特征庫等基礎(chǔ)數(shù)據(jù)庫數(shù)據(jù)量大、種類較多,但數(shù)據(jù)間關(guān)系并不復雜,系統(tǒng)調(diào)用數(shù)據(jù)時執(zhí)行的查詢請求較少,所以本系統(tǒng)選擇使用Mysql數(shù)據(jù)庫存儲系統(tǒng)基礎(chǔ)數(shù)據(jù)。
4.2.2 知識圖譜的存儲
系統(tǒng)采用Neo4j圖形數(shù)據(jù)庫存儲系統(tǒng)所構(gòu)建的電子戰(zhàn)領(lǐng)域知識圖譜。目前,圖形數(shù)據(jù)庫由于其包含的節(jié)點、關(guān)系及屬性三種元素可以與知識圖譜中的關(guān)鍵知識很好的映射,在儲存知識圖譜方面獲得了很好的效果,成為了主流方式[13]。Neo4j作為圖形數(shù)據(jù)庫的典型代表,可輕松穩(wěn)定地儲存及管理上億的節(jié)點及關(guān)系,具有較高的可靠性及擴展性,并支持完整的ACID事務(wù),可高效地完成對知識圖譜的儲存、更新、管理與檢索。
為了確定API設(shè)計的應(yīng)用效果,展示實現(xiàn)方法的可行性,假設(shè)系統(tǒng)已完成知識抽取并以Mysql數(shù)據(jù)庫表存儲抽取出的實體、關(guān)系和屬性,設(shè)置以下實驗過程:隨機生成12類共50個實體和5類共280個關(guān)系,考慮到保密問題,實體名稱、屬性、關(guān)系都隨機生成且采取無實際意義的編號表示,系統(tǒng)調(diào)用知識存儲API將知識存儲在Noe4j數(shù)據(jù)庫中。示例如圖5所示。
圖5 Neo4j存儲示例
系統(tǒng)前端框架采用jQuery,UI框架采用Bootstrap,圖可視化引擎采用AntV G6。jQuery和Bootstrap是常用的前端框架,具有強大的功能和良好的兼容性。拓撲框架采用圖可視化引擎AntV G6,它由螞蟻集團數(shù)據(jù)可視化團隊提供,可支持圖的繪制、布局、分析、交互、動畫等圖可視化的基礎(chǔ)能力,對關(guān)系復雜的數(shù)據(jù)具有強大的表現(xiàn)能力。基于AntV G6,可以快速搭建圖分析或圖編輯應(yīng)用,支持大規(guī)模圖數(shù)據(jù)的交互與探索[14],與本系統(tǒng)的知識圖譜可視化需求十分契合。
系統(tǒng)后臺將經(jīng)過可視化模塊處理完成的數(shù)據(jù)以json格式返回給前端,前端接收到數(shù)據(jù)后進行可視化處理,并將可視化結(jié)果在web頁面顯示??梢暬KAPI偽碼如圖6所示。
圖6 知識圖譜可視化模塊API偽碼
系統(tǒng)采取的可視化方案對知識圖譜的實體、關(guān)系和屬性等要素的展示效果較好,可以充分滿足系統(tǒng)需求。另外,基于此可視化方案的可視化接口設(shè)計簡單清晰,提高了系統(tǒng)開發(fā)效率。
根據(jù)電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源特點和主要業(yè)務(wù)需求,目前,電子戰(zhàn)領(lǐng)域知識圖譜的應(yīng)用主要包括頻譜管理[15]、情報研究[16]、輔助決策[17]等三大方向,結(jié)合具體應(yīng)用場景可細分為頻譜智能管控、智能用頻推薦、電磁態(tài)勢分析、電磁目標識別、領(lǐng)域情報分析、領(lǐng)域知識問答、領(lǐng)域熱點預測、配屬方案推薦、對抗方案生成等。由于不同應(yīng)用場景對知識圖譜構(gòu)建的要求不同,在此只選取情報研究場景,構(gòu)建知識圖譜并利用測試數(shù)據(jù)實現(xiàn)知識應(yīng)用。
以情報查詢?yōu)槔?,電子?zhàn)領(lǐng)域的情報分析較為關(guān)注知識間的關(guān)聯(lián)關(guān)系,期望可以從現(xiàn)有情報中挖掘出隱藏的關(guān)聯(lián)關(guān)系或者新的知識,而不是簡單地查詢到某個孤立的知識。例如檢索某支作戰(zhàn)力量時,用戶希望獲取此作戰(zhàn)力量所擁有的電子戰(zhàn)平臺的種類、數(shù)量等情報信息,以此判斷該作戰(zhàn)力量的電子戰(zhàn)能力。因此,系統(tǒng)提供的情報查詢服務(wù)除了需要能夠準確查詢到某個知識,還應(yīng)提供與該知識存在關(guān)聯(lián)關(guān)系的其他知識。
情報查詢模塊功能如下:系統(tǒng)后臺獲取用戶在前端搜索框內(nèi)輸入的內(nèi)容,通過調(diào)用Cypher語句查詢相關(guān)節(jié)點和與此節(jié)點相鄰的關(guān)聯(lián)節(jié)點,并將節(jié)點信息傳遞給可視化接口,在前端用戶頁面高亮顯示。情報查詢模塊API偽碼如圖7所示。
圖7 情報查詢模塊API偽碼
根據(jù)電子戰(zhàn)數(shù)據(jù)資源特點及實際應(yīng)用需求,對系統(tǒng)的整體設(shè)計和工程實現(xiàn)關(guān)鍵技術(shù)進行了探索,提出了系統(tǒng)總體架構(gòu)和功能架構(gòu),設(shè)計了對系統(tǒng)全生命周期數(shù)據(jù)進行規(guī)范存儲和管理的混合數(shù)據(jù)存儲策略,形成了系統(tǒng)開發(fā)技術(shù)框架,研究了知識圖譜在電子戰(zhàn)領(lǐng)域的應(yīng)用方法,并通過示例數(shù)據(jù)驗證了系統(tǒng)設(shè)計和開發(fā)技術(shù)的可行性。這項研究工作對電子戰(zhàn)領(lǐng)域知識圖譜的構(gòu)建方法及系統(tǒng)的落地應(yīng)用具有一定的參考價值。在下一步的研究工作中,還需要進一步完善數(shù)學模型和算法實現(xiàn)細節(jié),根據(jù)實際應(yīng)用效果對系統(tǒng)進行進一步的改進,并結(jié)合應(yīng)用需求和知識圖譜構(gòu)建技術(shù)改進現(xiàn)有算法,提高知識圖譜構(gòu)建的準確性和產(chǎn)品的可用性,拓展其在電子戰(zhàn)領(lǐng)域應(yīng)用業(yè)務(wù)范圍,為電子戰(zhàn)領(lǐng)域數(shù)據(jù)資源的充分利用提供切實可行的解決方案。