衛(wèi) 婧,向 君,朱廣劼,司 群,付曉丹
(1. 中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;2. 中國國家鐵路集團有限公司 科技和信息化部,北京 100844)
復雜多變的網(wǎng)絡環(huán)境和攻擊使網(wǎng)絡安全面臨更加嚴峻的挑戰(zhàn)。目前,知識圖譜在語義搜索、智能問答、個性化推薦、輔助決策、識別反欺詐潛在風險、不一致性驗證識別等方面已經(jīng)得到了廣泛應用,也可利用知識圖譜將網(wǎng)絡空間中零散、雜亂的相關數(shù)據(jù)組織在一起,挖掘出其中潛在的語義關系,從而在態(tài)勢感知、風險分析、應急處置等方面發(fā)揮作用。所以將知識圖譜應用于網(wǎng)絡安全領域,可以幫助我們對網(wǎng)絡空間實施高效的管理及有效的安全監(jiān)測和防護,全方位分析面臨的威脅信息,判斷當前的網(wǎng)絡空間安全態(tài)勢,進而對面臨的威脅進行預測和預警,成為網(wǎng)絡事件分析、網(wǎng)絡安全保障與決策的前提和重要基石[1]。
目前鐵路網(wǎng)絡安全綜合防護能力還存在欠缺,而解決信息資產(chǎn)“查不清”“摸不準”“找不到”“管不了”的問題,是提升鐵路網(wǎng)絡安全綜合防護能力的前提和基礎。因此,有必要全面、準確地梳理鐵路信息化資產(chǎn),研究鐵路網(wǎng)絡安全領域知識圖譜的構建技術。
通過知識圖譜的數(shù)據(jù)分析及可視化技術,構建、分析和展示涵蓋鐵路信息化資產(chǎn)基本信息、資產(chǎn)測繪信息、基于鐵路網(wǎng)絡安全標準制度測評分析的資產(chǎn)風險信息等網(wǎng)絡安全關系的鐵路網(wǎng)絡安全知識圖譜;通過直觀、高交互性的鐵路網(wǎng)絡安全知識圖譜,研究資產(chǎn)的風險關聯(lián)特性等[2],形成可視化展示、時空分析及應用支撐能力,從而實現(xiàn)鐵路網(wǎng)絡安全領域資產(chǎn)與風險關聯(lián)關系的可視化。
本文以鐵路網(wǎng)絡安全資產(chǎn)臺賬、鐵路網(wǎng)絡安全指標、鐵路網(wǎng)絡安全標準及制度、信息化資產(chǎn)測繪數(shù)據(jù)、資產(chǎn)地理數(shù)據(jù)等為數(shù)據(jù)源,針對鐵路信息化資產(chǎn)本體模型,分析鐵路資產(chǎn)屬性、資產(chǎn)類別、配置信息、地理信息、漏洞信息和風險態(tài)勢等要素,構建鐵路網(wǎng)絡安全知識圖譜。
如圖1所示,鐵路網(wǎng)絡安全領域知識圖譜構建基本流程可分為知識的抽取、表示、整合、更新和篩選。采用不同的方法從多樣結構的數(shù)據(jù)源中抽取出該知識圖譜的三元組(實體、關系、屬性)等,用符號等形式表示,進而對數(shù)據(jù)進行整合,知識整合包括實體對齊和本體構建,并保持對知識的更新,對知識庫進行更新及知識篩選,最終完成知識圖譜的構建[3]。
圖1 知識圖譜構建基本流程
知識抽取過程是從不同的多樣數(shù)據(jù)源中提取出構建知識圖譜所需的知識,再通過不同的方式完成數(shù)據(jù)庫存儲的過程。鐵路網(wǎng)絡安全領域的知識圖譜數(shù)據(jù)來源廣泛,數(shù)據(jù)結構各不相同。
鐵路網(wǎng)絡安全知識圖譜的知識抽取主要分為實體識別和關系抽取2個方面[4]。
(1)針對資產(chǎn)臺賬基本信息、鐵路信息化資產(chǎn)測繪數(shù)據(jù)、鐵路網(wǎng)絡安全指標和鐵路資產(chǎn)風險數(shù)據(jù),這些數(shù)據(jù)多為結構化數(shù)據(jù)及半結構化數(shù)據(jù),可采用傳統(tǒng)的規(guī)則和模板的方法并借助語義數(shù)據(jù)映射模型,將不同模式語法向知識圖譜表示模型進行映射和實體識別。
(2)針對鐵路資產(chǎn)地理數(shù)據(jù),多為非結構化的數(shù)據(jù),可綜合運用傳統(tǒng)的規(guī)則、傳統(tǒng)機器學習、深度學習等實體識別方法,對其實體、實體的屬性進行識別。
(3)針對實體間關系較為鮮明、規(guī)范的基本信息及標準制度采取枚舉的方式對表示關系的詞語進行手動輸入,基于傳統(tǒng)的規(guī)則、模板的方法及專家的經(jīng)驗知識對實體關系進行抽取。
(4)針對鐵路風險數(shù)據(jù)、鐵路資產(chǎn)地理數(shù)據(jù)等實體關系相對復雜的可采用基于統(tǒng)計機器學習、基于深度學習等方法對關系進行抽取。
將抽取出的鐵路網(wǎng)絡安全知識用符號等形式表示出來就是知識表示??捎萌M(資產(chǎn)及風險實體集合、資產(chǎn)及風險關系集合、資產(chǎn)及風險屬性值)表示法表示抽取到的鐵路網(wǎng)絡安全知識,用符號可表示為:G=(E,R,S)。其中,E={E1,E2,E3,···,Ei}表示所有資產(chǎn)及風險實體的集合;R={R1,R2,R3,···,Rj}表示所有資產(chǎn)之間、風險之間、資產(chǎn)與風險之間關系的集合;S={S1,S2,S3,···,Sn}表 示 資 產(chǎn) 及 風 險 所 有 屬 性 的集合,每種實體E或關系R都可能擁有不同的n個屬性。
使用圖數(shù)據(jù)庫對三元組進行表示,如圖2所示,圖中的節(jié)點表示知識圖譜中的實體;邊表示知識圖譜中的關系,每個實體都有多個屬性。
圖2 三元結構示例
構建鐵路網(wǎng)絡安全領域知識圖譜的數(shù)據(jù)是多源異構的,不同數(shù)據(jù)源之間的知識有可能存在重復、缺乏深入關聯(lián)等問題。知識整合就是將異構、多樣化的知識按規(guī)則將重復的數(shù)據(jù)進行消歧,尋找不同數(shù)據(jù)間的關聯(lián)特性,建立相關鏈接,再將數(shù)據(jù)進行融合的過程。鐵路網(wǎng)絡安全領域知識的整合包括:實體對齊,用來確定待整合的實體在整個大數(shù)據(jù)中是否指向同一個數(shù)據(jù)元;知識庫融合,是在解決知識庫中對象融合困難的問題時加入的新的考慮。
知識整合時將數(shù)據(jù)進行語義的映射,分析不同實體之間在語義上的關聯(lián)關系;在語義模式層進行語義融合,將多樣的數(shù)據(jù)源集合成為統(tǒng)一的知識庫;將不同數(shù)據(jù)源中相關聯(lián)的實體在實體層面進行融合。
鐵路網(wǎng)絡安全領域的知識圖譜是動態(tài)的而不是一成不變的,它是一個可迭代的關系網(wǎng)絡,因此,知識圖譜除簡單的知識存儲外還應該實現(xiàn)知識的更新及推理。
知識更新的過程是豐富數(shù)據(jù)庫的過程,通過挖掘已有的鐵路網(wǎng)絡安全領域知識庫中的知識,從而發(fā)現(xiàn)新的關系并推斷出可能缺失的知識和關系。
整合后的知識存在不準確的情況,通過知識篩選過濾掉質量評估較低的知識,將質量評估高的知識存入知識庫。知識篩選可提高鐵路網(wǎng)絡安全知識圖譜的準確度,是確保構建成的知識圖譜有較高的效率和精確度的關鍵。
鐵路網(wǎng)絡安全領域的知識圖譜用圖數(shù)據(jù)庫作為存儲的引擎,對多源異構數(shù)據(jù)進行整合處理,形成鐵路網(wǎng)絡安全領域的知識庫。使用Neo4j圖數(shù)據(jù)庫建立鐵路網(wǎng)絡安全領域知識圖譜示例,如圖3所示。
圖3 鐵路網(wǎng)絡安全領域知識圖譜示例
其中,實體包括鐵路信息系統(tǒng)、交換機、路由器、服務器、防火墻、終端、權屬部門、負責人、機房、地理位置、數(shù)據(jù)庫漏洞、風險端口和弱口令風險等;實體間關系包括配備、位于、擁有、負責和屬于等。通過知識圖譜可直觀地展示資產(chǎn)的位置、風險等信息,并可分析出不同資產(chǎn)之間、不同風險之間及資產(chǎn)與風險之間的相互關系。
網(wǎng)絡安全知識圖譜既能夠宏觀、整體地呈現(xiàn)網(wǎng)絡空間的安全態(tài)勢,通過知識圖譜的知識推理[5]能夠為網(wǎng)絡安全分析提供有力的支撐。在網(wǎng)絡空間態(tài)勢感知、網(wǎng)絡安全分析等方面,知識圖譜都發(fā)揮著重要作用[6-8]。
通過對某鐵路局集團公司互聯(lián)網(wǎng)網(wǎng)站群平臺承載的幾個信息系統(tǒng)進行基本情況調研、資產(chǎn)測繪、地理位置信息建模,采用知識圖譜構建技術建立的某鐵路局集團公司互聯(lián)網(wǎng)安全知識圖譜,如圖4所示。
圖4 某鐵路局集團公司互聯(lián)網(wǎng)安全知識圖譜
通過互聯(lián)網(wǎng)安全知識圖譜,可將該鐵路局集團公司的資產(chǎn)屬性、資產(chǎn)類別、配置信息、地理信息、漏洞信息和風險態(tài)勢等要素組織在一起,分析資產(chǎn)的關聯(lián)特性、分布特點、行為特征和變化趨勢,全方位掌握威脅信息,對當前的網(wǎng)絡安全態(tài)勢做出判斷,實現(xiàn)對該鐵路局集團公司互聯(lián)網(wǎng)安全態(tài)勢的動態(tài)監(jiān)測與響應。構建形成的“IP+設備+位置+人”全量的鐵路網(wǎng)絡安全地理知識圖譜,還可作為該鐵路局集團公司網(wǎng)絡安全資產(chǎn)的核心知識庫縱向對接其他各類平臺,提供網(wǎng)絡安全資產(chǎn)及風險信息的基礎數(shù)據(jù)。
通過鐵路網(wǎng)絡安全知識圖譜可以建立的企業(yè)基礎、動態(tài)、全量、關鍵的數(shù)字化全量資產(chǎn)庫,如圖5所示。
圖5 數(shù)字化全量資產(chǎn)庫框架
(1)基礎數(shù)據(jù)平臺。通過知識圖譜收集存儲散落在網(wǎng)絡空間各處的有效存活資產(chǎn),識別資產(chǎn)相關屬性及風險信息,這些信息包含在線主機的系統(tǒng)、開放的端口、運行的服務及相關聯(lián)風險等。
(2)資產(chǎn)底賬管理。通過知識圖譜存儲的資產(chǎn)信息進行全量、動態(tài)的數(shù)字化資產(chǎn)底賬管理,包括資產(chǎn)出入庫、資產(chǎn)動態(tài)監(jiān)控和底賬報告等。
(3)資產(chǎn)多維畫像。通過知識圖譜中資產(chǎn)的基本信息、權屬信息、開放端口、組件服務等屬性進行單個資產(chǎn)的多維畫像。
(4)資產(chǎn)分層畫像。通過知識圖譜中各個資產(chǎn)及屬性之間的關系進行所有資產(chǎn)硬件層、服務層、應用層的分層畫像。
(5)資產(chǎn)關聯(lián)分析。通過資產(chǎn)關聯(lián)分析、可視化,實現(xiàn)資產(chǎn)與數(shù)據(jù)、業(yè)務等的關聯(lián)分析及資產(chǎn)動態(tài)全景可視。
(6)可視化服務場景。全量資產(chǎn)庫還可為日常巡檢、安全運營維護和攻防演練提供保障,并為業(yè)務梳理和運營決策提供依據(jù)。
將鐵路網(wǎng)絡安全知識圖譜與建??梢暬夹g相結合,形成涵蓋網(wǎng)絡關系在內的設備信息、位置信息等圖形化展示界面,可進一步提高資產(chǎn)安全風險可視化的能力。通過全量資產(chǎn)庫和知識圖譜的漏洞精準匹配,可快速確認漏洞影響范圍,并可通過可視化紅色高亮展示。通過知識圖譜將漏洞關聯(lián)資產(chǎn)定位至責任人、業(yè)務系統(tǒng)、管理單元和機房信息等,相關人員可及時獲取風險相關信息,實現(xiàn)漏洞精準匹配及高效處置。當出現(xiàn)零日漏洞時,還能通過威脅情報,根據(jù)漏洞關聯(lián)的操作系統(tǒng)、端口等屬性信息快速定位出可能涉及的相關資產(chǎn),準確地啟動響應措施,從而實現(xiàn)零日漏洞威脅預防。資產(chǎn)漏洞可視化界面,如圖6所示。
圖6 資產(chǎn)漏洞分析可視化界面
通過鐵路網(wǎng)絡安全知識圖譜可全面描述和展示鐵路網(wǎng)絡信息化資產(chǎn)的相關信息。從網(wǎng)絡資產(chǎn)管理的角度看,可通過資產(chǎn)硬件版本、操作系統(tǒng)等屬性信息關聯(lián)出相應資產(chǎn),進行資產(chǎn)的統(tǒng)一的軟硬件版本更新和升級管理;通過知識圖譜的推理,還可以發(fā)現(xiàn)非法資產(chǎn),利用知識圖譜的關系分析非法資產(chǎn)的責任關系,進而在發(fā)生安全威脅時可及時處理,降低相應的損失。根據(jù)知識圖譜中所有網(wǎng)絡資產(chǎn)的屬性信息,可以優(yōu)化網(wǎng)絡安全設備的規(guī)則庫,過濾不相關的規(guī)則,提高匹配規(guī)則效率,更快發(fā)現(xiàn)安全威脅。
構建鐵路網(wǎng)絡安全領域知識圖譜,結合知識圖譜技術對篩選整合出的鐵路信息資產(chǎn)進行資產(chǎn)全量信息的圖譜描繪與定責,通過對鐵路資產(chǎn)安全風險的可視化,增強鐵路網(wǎng)絡安全主動防御能力。本文針對鐵路信息化資產(chǎn)研究了構建鐵路網(wǎng)絡安全領域知識圖譜的數(shù)據(jù)源、構建流程及構建技術,應用該技術構建了某鐵路局集團公司互聯(lián)網(wǎng)安全知識圖譜,在鐵路網(wǎng)絡安全領域取得了良好的應用效果。下一
步可將網(wǎng)絡威脅情報融合技術、人工智能技術、大數(shù)據(jù)特征分析挖掘技術與鐵路網(wǎng)絡安全領域知識圖譜相結合,用于網(wǎng)絡資產(chǎn)刻畫、網(wǎng)絡性能評價、網(wǎng)絡攻擊預警與溯源、態(tài)勢推演等,建立鐵路網(wǎng)絡安全的高效檢索機制,進而高效管理鐵路的網(wǎng)絡空間,快速應對突發(fā)的網(wǎng)絡安全事件。