郭 莉, 曹亞男, 蘇馬婧, 尚燕敏, 朱宇佳, 張 鵬, 周 川
1中國科學(xué)院信息工程研究所 信息內(nèi)容安全技術(shù)國家工程實驗室 北京 中國100093
2中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院 北京 中國 100049
網(wǎng)絡(luò)空間已經(jīng)成為人類生產(chǎn)生活的“第二類生存空間”, 關(guān)系到經(jīng)濟(jì)、文化、科研、教育和社會生活的方方面面, 成為國家發(fā)展的重要基礎(chǔ)。隨著網(wǎng)絡(luò)技術(shù)日新月異的發(fā)展, 網(wǎng)絡(luò)空間中的資源種類越加豐富, 不僅包括傳統(tǒng)的設(shè)備、邏輯拓?fù)涞溶浻布A(chǔ)設(shè)施, 也包括網(wǎng)絡(luò)用戶、應(yīng)用服務(wù)等動態(tài)多變的虛擬資源。傳統(tǒng)的網(wǎng)絡(luò)測量技術(shù)已不足以全面刻畫網(wǎng)絡(luò)空間的特性, 發(fā)展網(wǎng)絡(luò)空間資源測繪技術(shù)刻不容緩。
網(wǎng)絡(luò)空間資源測繪是對網(wǎng)絡(luò)空間中的各類資源及其屬性進(jìn)行探測、融合分析和繪制。通過繪制網(wǎng)絡(luò)空間資源全息地圖, 全面描述和展示網(wǎng)絡(luò)空間信息, 能夠為各類應(yīng)用(如網(wǎng)絡(luò)資產(chǎn)評估、設(shè)備漏洞發(fā)現(xiàn)等)提供數(shù)據(jù)和技術(shù)支撐。因此, 研究網(wǎng)絡(luò)空間資源測繪技術(shù), 全面掌握網(wǎng)絡(luò)空間特性及其資源分布,對于推動國民經(jīng)濟(jì)和保障國家安全都具有十分重要的理論意義和應(yīng)用價值。
近年來, 國內(nèi)外相繼出現(xiàn)了網(wǎng)絡(luò)空間資源測繪的相關(guān)工作。美國是最早進(jìn)行網(wǎng)絡(luò)空間資源測繪的國家, 目前已形成了較為完整的網(wǎng)絡(luò)空間探測基礎(chǔ)設(shè)施和體系, 其中代表性的工作包括: 美國國防局的X計劃[1], 美國國土局的SHINE計劃[2], 美國國安局的藏寶圖計劃[3]等。 其中X計劃以繪制網(wǎng)絡(luò)空間地圖、提高網(wǎng)絡(luò)空間作戰(zhàn)能力為目標(biāo), 探測網(wǎng)絡(luò)邏輯拓?fù)浜驮O(shè)備數(shù)據(jù), 開發(fā)網(wǎng)絡(luò)戰(zhàn)場地圖引擎和端到端網(wǎng)絡(luò)戰(zhàn)場地圖感知平臺, 研發(fā)單兵作戰(zhàn)支持平臺和集團(tuán)作戰(zhàn)支持平臺。藏寶圖計劃以全網(wǎng)態(tài)勢感知、偵察和攻擊推演為目標(biāo), 對網(wǎng)絡(luò)空間進(jìn)行多層次的信息探測和數(shù)據(jù)分析, 形成大規(guī)模情報能力, 探測內(nèi)容包括: BGP、AS和IP地址空間信息。SHINE計劃主要針對美國本土網(wǎng)絡(luò)安全態(tài)勢感知, 建立美國本土網(wǎng)絡(luò)空間關(guān)鍵基礎(chǔ)設(shè)施信息數(shù)據(jù)庫, 監(jiān)測關(guān)鍵行業(yè)網(wǎng)絡(luò)可達(dá)性及安全態(tài)勢, 發(fā)現(xiàn)弱點設(shè)備和系統(tǒng)。在國內(nèi), 知道創(chuàng)宇公司的Zoomeye[4]可對全球一些地區(qū)的路由設(shè)備、工業(yè)聯(lián)網(wǎng)設(shè)備、物聯(lián)網(wǎng)設(shè)備以及攝像頭等基礎(chǔ)設(shè)施進(jìn)行探測。FOEYE[5]在全面網(wǎng)絡(luò)資產(chǎn)測繪基礎(chǔ)上, 重新定義了安全事件處理和漏洞掃描形式, 形成集資產(chǎn)探測管理、安全事件驗證、智能統(tǒng)計分析、安全態(tài)勢感知、持續(xù)安全監(jiān)控為一體的全方位安全體系。
以上工作大多基于傳統(tǒng)的網(wǎng)絡(luò)測量技術(shù), 僅對網(wǎng)絡(luò)空間的基礎(chǔ)設(shè)施和邏輯拓?fù)溥M(jìn)行探測和分析,并沒有覆蓋網(wǎng)絡(luò)空間的全部資源。相關(guān)研究表明, 由于目前在學(xué)術(shù)界和業(yè)界尚未形成對于網(wǎng)絡(luò)空間資源測繪相關(guān)概念的統(tǒng)一認(rèn)知, 缺乏對網(wǎng)絡(luò)空間資源測繪技術(shù)體系的頂層設(shè)計, 網(wǎng)絡(luò)空間資源測繪技術(shù)仍處于起步階段。因此, 本文主要圍繞網(wǎng)絡(luò)空間資源測繪的概念和技術(shù)體系進(jìn)行研究和探討, 旨在為網(wǎng)絡(luò)空間資源測繪理論和技術(shù)的研究和發(fā)展奠定基礎(chǔ)。
本文主要包含三部分內(nèi)容: 首先介紹網(wǎng)絡(luò)空間資源測繪的相關(guān)概念, 提出網(wǎng)絡(luò)空間測繪對象的分類體系和屬性框架; 然后, 提出網(wǎng)絡(luò)空間資源測繪的技術(shù)體系模型, 并從“協(xié)同探測”、“融合分析”和“全息繪制”三個層次探討網(wǎng)絡(luò)空間資源測繪的關(guān)鍵技術(shù)和研究思路; 最后, 從資產(chǎn)評估、服務(wù)測繪兩個方面, 對網(wǎng)絡(luò)空間資源測繪的應(yīng)用前景進(jìn)行詳細(xì)的闡述。
網(wǎng)絡(luò)空間的概念最早出現(xiàn)在1984年美國科幻小說《神經(jīng)漫游者》中, 作者威廉·吉布森[6]將其描述為通過計算機(jī)設(shè)備進(jìn)入的數(shù)據(jù)庫空間。此后, 國內(nèi)外學(xué)者對網(wǎng)絡(luò)空間概念進(jìn)行了研究和闡述, 基于不同應(yīng)用需求及研究領(lǐng)域, 網(wǎng)絡(luò)空間被賦予了不同的內(nèi)涵和外延??偟膩碚f, 已有定義可概括為以下三類:(1)強(qiáng)調(diào)網(wǎng)絡(luò)空間的物質(zhì)屬性。Sterling B[7]認(rèn)為網(wǎng)絡(luò)空間依存于硬件、軟件設(shè)備等物質(zhì)基礎(chǔ), 是互聯(lián)網(wǎng)(Internet)與萬維網(wǎng)( World Wide Web)的近似概念。(2)強(qiáng)調(diào)網(wǎng)絡(luò)空間的社會屬性。Adams P C[8]與Hillis K[9]認(rèn)為網(wǎng)絡(luò)空間是人基于互聯(lián)網(wǎng)技術(shù)與社交行為結(jié)合產(chǎn)生的“空間感”, 并將網(wǎng)絡(luò)空間看作是關(guān)于人在交流和再現(xiàn)的空間中對社會的感知。Wellman B等[10]認(rèn)為社會性的交互活動比技術(shù)內(nèi)容更能體現(xiàn)網(wǎng)絡(luò)空間的本質(zhì)內(nèi)涵。(3)強(qiáng)調(diào)網(wǎng)絡(luò)空間中的操作和活動。Mayer M和Martino L[11]認(rèn)為: 網(wǎng)絡(luò)空間是創(chuàng)造、儲存、調(diào)整、交換、共享、提取、使用和消除信息與分散的物質(zhì)資源的全球動態(tài)領(lǐng)域。
從上述定義中可以看出, 網(wǎng)絡(luò)空間具有物質(zhì)屬性(軟硬件等基礎(chǔ)設(shè)施)和社會屬性(人的交互行為及其操作)。早期的定義從不同角度強(qiáng)調(diào)了網(wǎng)絡(luò)空間中的某種組成要素, 但是均未全面、系統(tǒng)地對網(wǎng)絡(luò)空間的要素進(jìn)行概括和描述。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展, 網(wǎng)絡(luò)空間的內(nèi)涵和外延也在不斷發(fā)生變化。方濱興院士[12]進(jìn)一步將網(wǎng)絡(luò)空間的組成要素分為4種類型: 載體、信息、主體和操作。其中, 網(wǎng)絡(luò)空間載體是網(wǎng)絡(luò)空間的軟硬件設(shè)施,是提供信息通信的系統(tǒng)層面的集合; 網(wǎng)絡(luò)空間信息是在網(wǎng)絡(luò)空間中流轉(zhuǎn)的數(shù)據(jù)內(nèi)容, 包括人類用戶及機(jī)器用戶能夠理解、識別和處理的信號狀態(tài); 網(wǎng)絡(luò)空間主體是互聯(lián)網(wǎng)用戶, 包括傳統(tǒng)互聯(lián)網(wǎng)中的人類用戶以及未來物聯(lián)網(wǎng)中的機(jī)器和設(shè)備用戶; 網(wǎng)絡(luò)空間的操作是對信息的創(chuàng)造、存儲、改變、使用、傳輸、展示等活動。
綜合以上要素, 網(wǎng)絡(luò)空間可被定義為“構(gòu)建在信息通信技術(shù)基礎(chǔ)設(shè)施之上的人造空間, 用以支撐人們在該空間中開展各類信息通信技術(shù)相關(guān)的活動。其中, 信息通信技術(shù)基礎(chǔ)設(shè)施包括互聯(lián)網(wǎng)、各種通信系統(tǒng)與電信網(wǎng)、各種傳播系統(tǒng)與廣電網(wǎng)、各種計算機(jī)系統(tǒng)、各類關(guān)鍵工業(yè)設(shè)施中的嵌入式處理器和控制器。信息通信技術(shù)活動包括人們對信息的創(chuàng)造、保存、改變、傳輸、使用、展示等操作過程, 及其所帶來的對政治、 經(jīng)濟(jì)、文化、社會、軍事等方面的影響”。其中, “載體”和“信息”在技術(shù)層面反映出“賽博”的屬性, 而“主題”和“操作”是在社會層面反映出“空間”的屬性, 從而形成網(wǎng)絡(luò)空間。
網(wǎng)絡(luò)空間可以劃分為物理層、邏輯層和認(rèn)知層。物理層的內(nèi)涵是實體的空間位置信息、實體間的連接關(guān)系存在于物理世界, 可直接觀察, 易于感知; 邏輯層則是由邏輯拓?fù)?、業(yè)務(wù)流動和用戶操作構(gòu)成的復(fù)雜網(wǎng)絡(luò), 無法直接觀察, 必須借助于工具進(jìn)行感知; 認(rèn)知層作為網(wǎng)絡(luò)空間客觀精神的外化, 承載著意識形態(tài)上層建筑, 無法直接觀察, 只能根據(jù)其外在產(chǎn)物推測。
可見, 不同的網(wǎng)絡(luò)空間層次包含了網(wǎng)絡(luò)空間中的不同資源和資源的不同屬性, 而同一類資源可能跨越不同的網(wǎng)絡(luò)空間層次。例如, 硬件設(shè)備既包含位置屬性(物理層)又包含設(shè)備間的邏輯拓?fù)潢P(guān)系(邏輯層); 網(wǎng)絡(luò)用戶既包含位置屬性(物理層), 具有用戶操作(邏輯層), 同時也具有意識形態(tài)(認(rèn)知層)。
廣義的網(wǎng)絡(luò)空間資源是網(wǎng)絡(luò)空間中“載體”、“信息”、“主體”等各類要素的總和, 不僅覆蓋通信基礎(chǔ)設(shè)施、IP網(wǎng)絡(luò)、覆蓋網(wǎng)絡(luò)、應(yīng)用支撐系統(tǒng)等互聯(lián)網(wǎng)基礎(chǔ)設(shè)施實體資源, 而且覆蓋承載在實體設(shè)施之上的信息內(nèi)容、用戶等虛擬資源。傳統(tǒng)的網(wǎng)絡(luò)資源分類體系無法全面涵蓋當(dāng)前多種多樣的網(wǎng)絡(luò)空間資源,因此我們提出了全新的網(wǎng)絡(luò)空間資源分類體系和屬性圖譜。
網(wǎng)絡(luò)空間絕大多數(shù)資源已有相應(yīng)的分類命名,如硬件資源(路由器、交換機(jī)、服務(wù)器等)和軟件資源(視頻、社交、電商網(wǎng)站等)。這些分類方法大多是基于行業(yè)角度的局部分類: 如計算機(jī)軟件按照計算機(jī)體系結(jié)構(gòu)的標(biāo)準(zhǔn)可分為系統(tǒng)軟件和應(yīng)用軟件, 按照《軟件產(chǎn)業(yè)統(tǒng)計制度修訂說明》的標(biāo)準(zhǔn)則分為基礎(chǔ)軟件、中間件、應(yīng)用軟件等??傊? 這些分類方法并沒有涵蓋整個網(wǎng)絡(luò)空間資源。相對于這些局部分類方法, 愛爾蘭梅努斯大學(xué)的 Rob Kitchin教授[13]在2001年將網(wǎng)絡(luò)空間資源自下而上劃分為網(wǎng)絡(luò)實體、邏輯網(wǎng)絡(luò)和賽博人, 初步對網(wǎng)絡(luò)空間資源進(jìn)行了全面劃分。然而這種劃分方法是從觀察者的視覺劃分網(wǎng)絡(luò)空間, 并沒有真正從網(wǎng)絡(luò)空間視角去剖析和命名網(wǎng)絡(luò)空間資源。
針對目前網(wǎng)絡(luò)空間資源分類體系的缺失, 我們深入分析了各類網(wǎng)絡(luò)空間資源的特點, 借鑒生物圖譜、地學(xué)圖譜、知識圖譜等相關(guān)領(lǐng)域圖譜的研究經(jīng)驗, 從理論與機(jī)理研究、分類方法探索等方面入手,定義了全新的網(wǎng)絡(luò)空間資源分類體系(如圖1所示)。從物質(zhì)形態(tài)和社會形態(tài), 將網(wǎng)絡(luò)空間資源為實體資源和虛擬資源。實體資源分為交換設(shè)備和接入設(shè)備:其中交換設(shè)備包括交換機(jī)、路由器、Wifi、基站等; 接入設(shè)備包括移動接入設(shè)備(手機(jī)/筆記本等)和物聯(lián)/工控接入設(shè)備(攝像頭/DVR等)。虛擬資源分為虛擬人、虛擬服務(wù)和虛擬內(nèi)容: 其中虛擬人包括各類網(wǎng)絡(luò)帳號; 虛擬服務(wù)包括基礎(chǔ)服務(wù)(DNS/CDN 等)和應(yīng)用服務(wù)(網(wǎng)站/郵件等); 虛擬內(nèi)容則包括消息(聊天/通訊等)和文檔(文本/視頻等)。
網(wǎng)絡(luò)空間資源屬性是指網(wǎng)絡(luò)空間資源具備的所有共同性質(zhì)或獨(dú)有性質(zhì)的總和, 是資源必然的、基本的、不可分離的特性。以虛擬用戶為例, 其共同屬性涉及了用戶名、性別、年齡等, 但不同的用戶類別也可能具有其獨(dú)有的屬性。總之, 在網(wǎng)絡(luò)空間資源測繪中, 資源屬性塑造了資源的形態(tài), 決定了資源的行為, 反映了資源間的關(guān)系。屬性既直接從屬于資源,又能容納和解釋數(shù)據(jù), 因此對資源屬性進(jìn)行描述有助于深入理解網(wǎng)絡(luò)空間資源, 清晰認(rèn)知網(wǎng)絡(luò)空間。
圖2 網(wǎng)絡(luò)空間資源屬性描述模型Figure 2 Description Model of Cyberspace Resources
網(wǎng)絡(luò)空間資源屬性描述是指對網(wǎng)絡(luò)空間資源的構(gòu)成要素及屬性進(jìn)行統(tǒng)一組織和編碼。國內(nèi)外有關(guān)網(wǎng)絡(luò)空間資源屬性描述的典型研究有 Joseph W.Yoder等人[14]提出的AOM自適應(yīng)對象模型, 通過屬性的復(fù)合化, 對對象內(nèi)部進(jìn)行屬性細(xì)分。另外,Wille R[15]提出概念格來描述屬性, 將概念格的每個節(jié)點表示為一個形式概念, 并將外延(概念所覆蓋的實例)和內(nèi)涵(覆蓋實例的共同特征)嵌入其中?;趯傩灾匾院完P(guān)系的知識發(fā)現(xiàn)方法也是一種屬性描述方法, 該方法描述蘊(yùn)含在事例中的屬性。除此之外,基于關(guān)聯(lián)的多屬性決策分析、知識表示、關(guān)系挖掘等都是屬性描述的常用方法。
表1 網(wǎng)絡(luò)空間資源屬性示例Table 1 Samples of Cyberspace Resources Attributes
然而, 已有的屬性描述方法存在劃分層次重疊問題。由于網(wǎng)絡(luò)空間可以劃分為物理層、邏輯層和認(rèn)知層, 在對網(wǎng)絡(luò)空間資源進(jìn)行探測和感知時, 處于不同層次的資源會表現(xiàn)出不同的狀態(tài)和行為, 即不同層次的資源屬性各不相同。這種因?qū)佣惖奶匦援a(chǎn)生了資源的全屬性劃分。因此, 我們將網(wǎng)絡(luò)空間資源屬性按物理層、邏輯層和認(rèn)知層進(jìn)行層級劃分,作為網(wǎng)絡(luò)空間資源屬性的標(biāo)簽; 屬性可以依附于資源本體也可以依附于資源間的連接(如圖2所示)。表1給出了網(wǎng)絡(luò)空間資源在各個層次上的部分典型屬性的示例。
“測繪”的概念最初源于地理測繪學(xué), 是指“對自然地理要素或者地表人工設(shè)施的形狀、大小、空間位置及其屬性等進(jìn)行測定、采集和繪制”。地理測繪的概念包括了“測量”和“制圖”兩項主要內(nèi)容。
相對于地理測繪的目標(biāo)是描述和標(biāo)注地理位置,最初的網(wǎng)絡(luò)空間測繪的概念主要是“采用一些技術(shù)方法, 來探測全球互聯(lián)網(wǎng)空間上的節(jié)點分布情況和網(wǎng)絡(luò)關(guān)系索引, 構(gòu)建全球互聯(lián)網(wǎng)圖譜的一種方法”。已有的網(wǎng)絡(luò)空間測繪系統(tǒng)大多采用主動或被動探測的方法, 來繪制網(wǎng)絡(luò)空間中的設(shè)備畫像。例如, 知道創(chuàng)宇公司的 Zoomeye[3]可對全球一些地區(qū)的路由設(shè)備、工業(yè)聯(lián)網(wǎng)設(shè)備、物聯(lián)網(wǎng)設(shè)備等基礎(chǔ)設(shè)施進(jìn)行探測; Shodan[16]采用搜索引擎技術(shù), 可以讓用戶使用各種過濾器查找連接到互聯(lián)網(wǎng)的特定類型的設(shè)備;Caida[17]在全球范圍內(nèi)分布大量測量探針, 發(fā)現(xiàn)網(wǎng)絡(luò)拓?fù)浜凸?jié)點設(shè)備; ANT實驗室開展的 AMITé、MR-Net項目[18]通過探測互聯(lián)網(wǎng)資源的使用現(xiàn)狀、跟蹤拓?fù)浜土髁康淖兓厔? 并在網(wǎng)絡(luò)地圖上標(biāo)注出相關(guān)信息以幫助研究者更好地改善網(wǎng)絡(luò)的安全性和提高防御能力。其他類似的系統(tǒng)還包括 Foeye[5]、Gperf[19]等。
上述概念和系統(tǒng)僅強(qiáng)調(diào)了對網(wǎng)絡(luò)基礎(chǔ)設(shè)施和網(wǎng)絡(luò)拓?fù)涞奶綔y和繪制, 測繪的對象不全面, 方法也局限于傳統(tǒng)的網(wǎng)絡(luò)測量技術(shù)。由于網(wǎng)絡(luò)空間資源涵蓋了基礎(chǔ)設(shè)施、數(shù)據(jù)資源、虛擬用戶等網(wǎng)絡(luò)空間要素, 網(wǎng)絡(luò)空間資源測繪的涵義需要覆蓋所有的網(wǎng)絡(luò)空間資源類型。網(wǎng)絡(luò)空間資源測繪是網(wǎng)絡(luò)測量的發(fā)展和延伸, 與網(wǎng)絡(luò)測量有著許多共通之處, 網(wǎng)絡(luò)測量的數(shù)據(jù)獲取和分析建模的技術(shù)均可用于網(wǎng)絡(luò)空間資源測繪中, 但網(wǎng)絡(luò)空間資源測繪與網(wǎng)絡(luò)測量存在一些不同之處, 主要包括:
(1) 目標(biāo)不同: 兩者均是為了更好地了解、認(rèn)識和優(yōu)化網(wǎng)絡(luò), 網(wǎng)絡(luò)測量的目的是對網(wǎng)絡(luò)拓?fù)浜途W(wǎng)絡(luò)性能進(jìn)行度量以及對網(wǎng)絡(luò)的規(guī)律進(jìn)行建模; 但網(wǎng)絡(luò)空間資源測繪的目的在于全面掌握網(wǎng)絡(luò)空間資源的屬性和狀態(tài), 繪制網(wǎng)絡(luò)空間資源全息地圖。
(2) 方法不同: 網(wǎng)絡(luò)測量的過程主要是數(shù)據(jù)獲取和分析建模, 存在一系列的測量方法、平臺和技術(shù); 網(wǎng)絡(luò)空間資源測繪除了“探測”、“分析”外, 還有“繪制”的過程?!胺治觥背税▽蝹€對象進(jìn)行建模, 還包括對多類對象的融合分析、從社會空間向物理空間的映射等。測繪方法主要采用“協(xié)同探測”、“融合分析”、“迭代演進(jìn)”、“全息繪制”等技術(shù)思路。
(3) 對象和范圍不同: 網(wǎng)絡(luò)測量的對象主要是網(wǎng)絡(luò)拓?fù)浜途W(wǎng)絡(luò)性能等, 測量范圍根據(jù)需要確定, 可以是局部網(wǎng)絡(luò), 可以是某一類型的全網(wǎng)絡(luò), 也可以是跨多個網(wǎng)絡(luò); 而網(wǎng)絡(luò)空間資源測繪的測量內(nèi)容包括實體資源和虛擬資源, 包括網(wǎng)絡(luò)空間的全部要素,測量的范圍為整個網(wǎng)絡(luò)空間。
(4) 結(jié)果和應(yīng)用不同: 網(wǎng)絡(luò)測量的結(jié)果是一系列的模型、規(guī)律、特征等, 各類測量之間具有較強(qiáng)的獨(dú)立性, 每種測量結(jié)果通??梢灾苯討?yīng)用于對網(wǎng)絡(luò)的模擬和性能優(yōu)化; 網(wǎng)絡(luò)空間資源測繪的結(jié)果是一個網(wǎng)絡(luò)空間資源全息地圖, 是多類型測量結(jié)果的融合,因而可以更廣泛地支持資產(chǎn)風(fēng)險評估、網(wǎng)絡(luò)性能評價、病毒主動預(yù)警、攻擊軌跡刻畫等。
通過上述分析, 我們將網(wǎng)絡(luò)空間資源測繪定義為“對網(wǎng)絡(luò)空間中的各類虛實資源及其屬性進(jìn)行探測、分析和繪制的全過程”。具體內(nèi)容包括: 通過網(wǎng)絡(luò)探測、采集或挖掘等技術(shù), 獲取網(wǎng)絡(luò)交換設(shè)備、接入設(shè)備等實體資源以及信息內(nèi)容、用戶和服務(wù)等虛擬資源及其網(wǎng)絡(luò)屬性; 通過設(shè)計有效的定位算法和關(guān)聯(lián)分析方法, 將實體資源映射到地理空間, 將虛擬資源映射到社會空間, 并將探測結(jié)果和映射結(jié)果進(jìn)行可視化展現(xiàn); 將網(wǎng)絡(luò)空間、地理空間和社會空間進(jìn)行相互映射, 將虛擬、動態(tài)的網(wǎng)絡(luò)空間資源繪制成一份動態(tài)、實時、可靠的網(wǎng)絡(luò)空間地圖。
網(wǎng)絡(luò)空間資源測繪是對網(wǎng)絡(luò)空間進(jìn)行探測、分析和繪制的過程。與傳統(tǒng)的網(wǎng)絡(luò)測量方法相比, 網(wǎng)絡(luò)空間資源測繪技術(shù)體系, 除了包含傳統(tǒng)的數(shù)據(jù)獲取和分析建模方法外, 還具備“協(xié)同探測”、“迭代演進(jìn)”、“融合分析”和“全息繪制”技術(shù)特點。下面, 我們對網(wǎng)絡(luò)空間資源測繪技術(shù)體系和其中的關(guān)鍵技術(shù)點進(jìn)行闡述。
網(wǎng)絡(luò)空間資源測繪體系是一個“探測(Detecting)、分析(Analyzing)、繪制(Visualizing)、應(yīng)用(Applying)”的循環(huán)過程(DAVA Loop), 對各種網(wǎng)絡(luò)空間資源進(jìn)行協(xié)同探測, 獲取探測數(shù)據(jù), 對這些數(shù)據(jù)進(jìn)行融合分析和多域映射, 形成網(wǎng)絡(luò)空間資源知識庫; 在此基礎(chǔ)上, 通過多域疊加和綜合繪制來構(gòu)建網(wǎng)絡(luò)空間資源全息地圖; 最后, 根據(jù)不同的場景目標(biāo)按需應(yīng)用這一全息地圖, 通過迭代演進(jìn)使得測繪能力不斷提升。如圖3所示, 其中:
探測(Detecting): 精確全面地獲取網(wǎng)絡(luò)空間實體資源和虛擬資源測量數(shù)據(jù)的過程, 測量的內(nèi)容包括資源及其屬性和數(shù)字化活動, 對實體資源測量又包含實體測量、IP測量、拓?fù)錅y量等, 對虛擬資源的測量又包含用戶測量、服務(wù)測量等。網(wǎng)絡(luò)空間資源測量方法應(yīng)該滿足以下四方面的需求: “穩(wěn)定”、“準(zhǔn)確”、“全面”、“可重復(fù)”。穩(wěn)定性要求網(wǎng)絡(luò)空間資源輕微變化不會導(dǎo)致測量方法失效, 準(zhǔn)確性要求測量結(jié)果能夠準(zhǔn)確反映網(wǎng)絡(luò)空間資源的真實情況, 全面性要求測量方法和結(jié)果能夠盡可能全面地獲取和覆蓋被測資源各種參數(shù)數(shù)據(jù), 可重復(fù)則是在相同測量條件下, 多次測量結(jié)果應(yīng)是一致的。
分析(Analyzing): 從測量結(jié)果中提取資源及其屬性, 并進(jìn)行分析建模和關(guān)聯(lián)映射的過程, 實現(xiàn)對網(wǎng)絡(luò)空間資源高精度全景畫像和追蹤定位。分析的內(nèi)容包括對實體資源和虛擬資源的屬性提取、關(guān)聯(lián)和畫像, 以及向物理空間和社會空間的關(guān)聯(lián)映射。網(wǎng)絡(luò)空間資源分析需要解決復(fù)雜屬性解析、缺失屬性填充、多表征歸一、跨域映射等一系列關(guān)鍵問題, 分析的結(jié)果是形成一系列網(wǎng)絡(luò)空間資源知識庫。
繪制(Visualizing): 基于測量結(jié)果和分析結(jié)果,將多維的網(wǎng)絡(luò)空間資源及其關(guān)聯(lián)關(guān)系投影到一個低維的可視化空間, 構(gòu)建網(wǎng)絡(luò)空間資源的分層次、可變粒度的網(wǎng)絡(luò)地圖, 實現(xiàn)對多變量時變型網(wǎng)絡(luò)資源的可視化過程。繪制需要對數(shù)量巨大、多源異構(gòu)的信息數(shù)據(jù), 進(jìn)行時間、空間、類型等一體化組織, 基于統(tǒng)一的時空基準(zhǔn)數(shù)據(jù)模型和資源標(biāo)識, 對數(shù)據(jù)進(jìn)行有效關(guān)聯(lián)組織和可視化表達(dá), 對網(wǎng)絡(luò)空間資源的分布、狀態(tài)、發(fā)展趨勢等進(jìn)行全方位動態(tài)展示。
應(yīng)用(Applying): 根據(jù)網(wǎng)絡(luò)空間資源全息地圖,面向不同的綜合業(yè)務(wù), 應(yīng)用不同的層次數(shù)據(jù)。如地理地圖一樣, 網(wǎng)絡(luò)空間資源全息地圖既可以獨(dú)立使用,也可以與其他資源、狀態(tài)、外部信息、知識圖譜等疊加。網(wǎng)絡(luò)空間資源測繪的結(jié)果可以應(yīng)用于改進(jìn)網(wǎng)絡(luò)部署、提升網(wǎng)絡(luò)性能、評估網(wǎng)絡(luò)安全態(tài)勢、主動預(yù)警和防御網(wǎng)絡(luò)攻擊等場景
圖3 網(wǎng)絡(luò)空間資源測繪技術(shù)體系Figure 3 Technical Architecture of Cyberspace Resources Surveying and Mapping (DAVA Loop)
在傳統(tǒng)的網(wǎng)絡(luò)測量中, 探測方法有多種分類標(biāo)準(zhǔn)。按探測方式, 可以分為主動探測和被動探測; 按探測點的多少, 可以分為單點探測和多點探測; 按探測內(nèi)容, 可分為拓?fù)涮綔y、性能探測和流量探測等;按探測點所在層次, 可分為網(wǎng)絡(luò)層探測和應(yīng)用層探測; 按探測者是否主動配合, 分為協(xié)作式和非協(xié)作式; 按探測所采用的協(xié)議, 分為基于BGP協(xié)議、基于TCP/IP協(xié)議、基于SNMP協(xié)議以及基于應(yīng)用層協(xié)議(如HTTP)等。每種探測方法都有相應(yīng)的優(yōu)點和缺點,許多相關(guān)工作[20-26]已經(jīng)對此進(jìn)行了詳細(xì)綜述。
與傳統(tǒng)的網(wǎng)絡(luò)測量方法不同, 為實現(xiàn)對大規(guī)模復(fù)雜多樣的網(wǎng)絡(luò)空間資源進(jìn)行探測, 對網(wǎng)絡(luò)空間資源的探測需要采用“協(xié)同探測”的方法, 即主被動協(xié)同、多點協(xié)同、協(xié)作協(xié)同。
1) 主被動協(xié)同
主動探測根據(jù)探測需要構(gòu)造特定的探測包并向網(wǎng)絡(luò)注入探測流量, 通過接收探測包流經(jīng)網(wǎng)絡(luò)時各網(wǎng)絡(luò)參與者或探測目標(biāo)的響應(yīng)來獲得探測結(jié)果。被動探測是在網(wǎng)絡(luò)中選擇一組探測節(jié)點(關(guān)鍵網(wǎng)絡(luò)設(shè)置或者主機(jī))并在其上部署探針進(jìn)行監(jiān)聽, 通過收集經(jīng)過該節(jié)點的流量或發(fā)往該節(jié)點的請求來獲得探測結(jié)果。主被動協(xié)同探測是通過主動方式進(jìn)行資源探測并擴(kuò)散被動探測節(jié)點, 通過被動方式獲取信息, 再針對這些信息通過主動方式進(jìn)一步在網(wǎng)絡(luò)空間探測,進(jìn)而獲得更多更全面的結(jié)果。
主被動協(xié)同探測可以利用主動探測和被動探測的優(yōu)點, 彌補(bǔ)不足, 從而獲得更為準(zhǔn)確全面的探測結(jié)果。主動探測的優(yōu)點在于能夠有針對性地對目標(biāo)進(jìn)行探測, 即使這些目標(biāo)不主動產(chǎn)生流量或者流量不經(jīng)過探測節(jié)點, 探測程序部署位置也較為靈活。但是, 主動探測也具有一定的局限性, 當(dāng)目標(biāo)對探測行為進(jìn)行檢測并主動屏蔽時, 則無法獲得準(zhǔn)確的探測結(jié)果, 主動探測也無法準(zhǔn)確獲得一些網(wǎng)絡(luò)節(jié)點之間的通聯(lián)關(guān)系, 此外, 主動探測會產(chǎn)生新的探測流量, 因而會增加網(wǎng)絡(luò)負(fù)載, 并且主動探測不可避免地會對網(wǎng)絡(luò)當(dāng)前狀態(tài)產(chǎn)生干擾, 使探測結(jié)果產(chǎn)生一定的偏差。被動探測由于不需要發(fā)送探測數(shù)據(jù)包, 或者僅在收到用戶請求時才發(fā)送必要的響應(yīng)數(shù)據(jù),對網(wǎng)絡(luò)影響較少, 探測結(jié)果更為準(zhǔn)確, 也可以獲得一些主動探測無法獲得的數(shù)據(jù)。但是被動探測也有一定的局限性, 如探測實現(xiàn)復(fù)雜度較高, 尤其是骨干鏈路, 高速網(wǎng)絡(luò)流量的獲取和分析都是探測需要解決的難點問題, 探測范圍和結(jié)果準(zhǔn)確度依賴于探測程序的部署位置、處理能力等。在設(shè)計和實施主被動協(xié)同探測時應(yīng)盡可能減少對網(wǎng)絡(luò)的影響,提高探測的結(jié)果的準(zhǔn)確性, 同時還應(yīng)注意通過協(xié)同方式盡量避免流量捕獲和解析等帶來隱私和安全問題。
2) 多點協(xié)同
網(wǎng)絡(luò)空間資源的分布廣泛、種類復(fù)雜多樣, 在研究初期、資源有限或?qū)δ骋环秶M(jìn)行探測時可采用單點探測, 但單個探測點的能力有限, 大規(guī)模大范圍的網(wǎng)絡(luò)探測通常需要分布式部署多個探測節(jié)點,綜合多點的信息以獲得更全面準(zhǔn)確的探測結(jié)果。多點協(xié)同探測在探測基礎(chǔ)設(shè)施中表現(xiàn)的是探測網(wǎng)絡(luò)組織結(jié)構(gòu)是多地多點部署, 在探針方面表現(xiàn)的是多探針分布式部署、探測任務(wù)并發(fā)執(zhí)行、多種探針聯(lián)動等。多點協(xié)同探測需要解決探測點部署位置、探測任務(wù)調(diào)度、探測網(wǎng)絡(luò)通信等問題。
為了對這些廣泛分布的異構(gòu)探測節(jié)點進(jìn)行統(tǒng)一組織, 還需構(gòu)建一套網(wǎng)絡(luò)空間資源協(xié)同探測的基礎(chǔ)設(shè)施, 解決探測網(wǎng)絡(luò)組織模型、探測任務(wù)調(diào)度策略、平臺運(yùn)維管理等問題, 支持對互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、工控網(wǎng)等網(wǎng)絡(luò)空間中各類實體資源和虛擬資源探測。探測平臺既可以兼容現(xiàn)有的探測平臺, 如 Archipelago[23]、DIMES[27]、iPlane[28]、RIPE Atlas[29]、SamKnows[30]、BISmark[31-33]等, 也可以獨(dú)立建設(shè)。探測平臺的網(wǎng)絡(luò)接入位置包括網(wǎng)絡(luò)邊緣和網(wǎng)絡(luò)核心, 網(wǎng)絡(luò)接入方式包括固網(wǎng)接入和移動接入, 平臺的組成既有通用服務(wù)器也有專用的硬件設(shè)備, 平臺主要以分布式部署為主, 設(shè)備來源既可以有眾籌的方式也可以獨(dú)立維護(hù)運(yùn)行。
3) 協(xié)作協(xié)同
協(xié)作協(xié)同包括兩方面: 探測參與者的協(xié)作和探測實施者的協(xié)作。探測參與者的協(xié)作是指探測目標(biāo)或管理者對探測知情或主動配合, 是一種協(xié)作式探測, 相較于非協(xié)作探測, 能夠更容易獲得準(zhǔn)確的探測結(jié)果。被動探測在部署探測點時通常需要相應(yīng)的管理者協(xié)助, 但一些探測目標(biāo)和網(wǎng)絡(luò)管理者出于隱私和安全的角度均更傾向于不配合網(wǎng)絡(luò)探測, 雖然采用主動探測的方式能夠不依賴于探測參與者主動配合, 但網(wǎng)絡(luò)空間資源測繪試圖建立一種網(wǎng)絡(luò)開發(fā)者、管理者、用戶的合作模式, 既保護(hù)用戶隱私不被侵犯, 又能夠增加對網(wǎng)絡(luò)空間資源的認(rèn)知和理解,從而更好地創(chuàng)建、管理、使用網(wǎng)絡(luò)空間資源。探測實施者的協(xié)作, 是指在構(gòu)建探測平臺或?qū)嵤┨綔y時,各組織機(jī)構(gòu)合作, 平臺共享、資源共享、能力共享、結(jié)果共享。
網(wǎng)絡(luò)空間資源種類和屬性豐富, 表現(xiàn)形式多樣,資源數(shù)量巨大、關(guān)系復(fù)雜, 這對數(shù)據(jù)分析和處理的及時性、準(zhǔn)確性和可靠性提出了新的要求。目前, 單源少量數(shù)據(jù)的分析已無法滿足需求, 需要采用更有效的分析方法, 實現(xiàn)對大規(guī)模流式數(shù)據(jù)、多源數(shù)據(jù)的深度融合分析。總的來說, 網(wǎng)絡(luò)空間資源分析方法呈現(xiàn)以下三方面的發(fā)展趨勢:
1) 從小數(shù)據(jù)離線分析到大數(shù)據(jù)在線分析
網(wǎng)絡(luò)空間的數(shù)據(jù)規(guī)模巨大。以虛擬資源為例, 網(wǎng)絡(luò)空間中存在億級服務(wù)資源[34], 數(shù)十億級虛擬用戶[35],ZB級內(nèi)容和數(shù)據(jù)。同時, 由于網(wǎng)絡(luò)空間資源數(shù)據(jù)具有很強(qiáng)的實時性和動態(tài)性, 這就要求分析技術(shù)能夠?qū)Υ笠?guī)模流式數(shù)據(jù)進(jìn)行快速、準(zhǔn)確的處理。在實時流數(shù)據(jù)處理中, 由于數(shù)據(jù)持續(xù)不斷更新, 無法一次性存儲在數(shù)據(jù)庫中, 因此需要使用概要提取[36,37]技術(shù), 在內(nèi)存中保留處理過的概要數(shù)據(jù)代表以前的歷史數(shù)據(jù), 同時采用增量方式對概要數(shù)據(jù)進(jìn)行更新。以良好的概要數(shù)據(jù)結(jié)構(gòu)設(shè)計為基礎(chǔ), 各類基礎(chǔ)流數(shù)據(jù)分析技術(shù)包括流數(shù)據(jù)聚類[38]、分類[39]、時序預(yù)測[40],事件流預(yù)測[41]等。在數(shù)據(jù)處理平臺方面, 可采用MapReduce[42]、Hadoop[43]和 Spark[44]等分布式處理模式, 或使用Spark Streaming、Storm、Flink為代表的流處理大數(shù)據(jù)系統(tǒng)。
2) 從淺層分析方法到深度分析模型
淺層模型在有限的樣本和計算單元的條件下,對于復(fù)雜問題的泛化能力有限, 不能很好地解決多類網(wǎng)絡(luò)空間資源的分析和計算問題。深度學(xué)習(xí)相對于淺層學(xué)習(xí)而言, 能夠通過學(xué)習(xí)一種深層的非線性網(wǎng)絡(luò)結(jié)構(gòu), 實現(xiàn)復(fù)雜函數(shù)逼近, 為實現(xiàn)“端到端”的網(wǎng)絡(luò)空間資源分析系統(tǒng)提供了契機(jī)。
隨著深度學(xué)習(xí)技術(shù)的日益成熟, 深度學(xué)習(xí)模型也初步應(yīng)用于網(wǎng)絡(luò)空間資源測繪領(lǐng)域: 在實體設(shè)備數(shù)據(jù)分析方面, 相關(guān)研究通過對GSM信號進(jìn)行分析,確定設(shè)備的指紋特征, 同時利用BP神經(jīng)網(wǎng)絡(luò)對信號的指紋特征進(jìn)行分類,以識別發(fā)射設(shè)備的類型; 在虛擬用戶畫像建模處理方面, 采用卷積神經(jīng)網(wǎng)絡(luò)方法實現(xiàn)對虛擬用戶缺失屬性推斷和用戶興趣挖掘[45,46],采用用戶嵌入表示學(xué)習(xí)方法實現(xiàn)跨社交網(wǎng)絡(luò)賬號關(guān)聯(lián)[47,48]; 在虛擬用戶行為分析方面, 采用長短時記憶網(wǎng)絡(luò)實現(xiàn)用戶的異常行為檢測和隱私對抗[49-51];在服務(wù)分析方面, 采用自編碼器和多種深度神經(jīng)網(wǎng)絡(luò)對網(wǎng)站指紋進(jìn)行構(gòu)建和識別[52]; 在內(nèi)容分析方面,采用循環(huán)神經(jīng)網(wǎng)絡(luò)實現(xiàn)惡意軟件檢測[53,54]; 采用深度神經(jīng)網(wǎng)絡(luò)與生成對抗訓(xùn)練、強(qiáng)化學(xué)習(xí)等融合框架實現(xiàn)文本、視頻等多媒體內(nèi)容分析[55,56]。在以上應(yīng)用領(lǐng)域中, 深度分析模型所實現(xiàn)的效果均超過了目前最好的淺層模型。
3) 從單一對象和數(shù)據(jù)源分析到融合分析
針對單一數(shù)據(jù)源的簡單分析無法囊括不斷擴(kuò)大的網(wǎng)絡(luò)空間資源對象和復(fù)雜的數(shù)據(jù)類型, 需要采用數(shù)據(jù)融合技術(shù), 對多源信息進(jìn)行綜合處理, 實現(xiàn)對網(wǎng)絡(luò)空間資源及其屬性的精準(zhǔn)刻畫。數(shù)據(jù)融合主要是針對各類可用數(shù)據(jù)形式化表達(dá)的信息融合, 數(shù)據(jù)關(guān)聯(lián)質(zhì)量與效果的優(yōu)劣關(guān)系到系統(tǒng)對融合結(jié)果的處理。因此, 為了實現(xiàn)資源精準(zhǔn)分析, 如何利用各類網(wǎng)絡(luò)空間資源獨(dú)有的數(shù)據(jù)特征和資源之間的相互關(guān)系,進(jìn)行數(shù)據(jù)的交叉驗證和關(guān)聯(lián)映射, 將成為實現(xiàn)資源精準(zhǔn)分析的關(guān)鍵。
1) 基于多類資源融合的交叉驗證
對網(wǎng)絡(luò)空間不同類型的資源屬性進(jìn)行交叉分析驗證, 可實現(xiàn)資源特定維度屬性的填充, 并發(fā)現(xiàn)數(shù)據(jù)之間的不一致性。在實體資源交叉驗證方面, 可利用多種信息源(如Web服務(wù)器地標(biāo)信息、互聯(lián)網(wǎng)機(jī)構(gòu)主頁、黃頁等), 挖掘?qū)嶓w設(shè)備地標(biāo), 綜合各類信息源對地標(biāo)的可信度進(jìn)行評估。在實體和虛擬資源交叉驗證方面, 一方面, 利用實體資源定位技術(shù), 獲取實體設(shè)備 IP的對應(yīng)地理位置; 另一方面, 從流量或文本等數(shù)據(jù)源中挖掘操作該實體的虛擬用戶的位置,可實現(xiàn)實體資源和虛擬用戶位置的一致性驗證。在虛擬資源交叉驗證方面, 可利用異常用戶對虛擬服務(wù)、虛擬內(nèi)容的訪問行為分析, 實現(xiàn)對異常服務(wù)、異常內(nèi)容的發(fā)現(xiàn); 與此同時, 利用異常服務(wù)和異常內(nèi)容的用戶訪問日志, 再發(fā)現(xiàn)新的異常用戶。這是一個迭代分析、協(xié)同訓(xùn)練的過程。
2) 基于多源數(shù)據(jù)融合的關(guān)聯(lián)映射
由于網(wǎng)絡(luò)空間資源的隱匿性特點, 存在“人物多身份、服務(wù)多鏡像、內(nèi)容多副本”的特點。通過對不同數(shù)據(jù)源下網(wǎng)絡(luò)空間資源的多維屬性、關(guān)系和行為特征進(jìn)行融合分析, 能夠?qū)崿F(xiàn)多源數(shù)據(jù)中同一資源對象的關(guān)聯(lián)映射。在人物身份識別方面, 可利用虛擬用戶關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)、用戶屬性和用戶行為特征, 學(xué)習(xí)用戶的嵌入表示和網(wǎng)絡(luò)的嵌入表示, 實現(xiàn)跨網(wǎng)絡(luò)多賬號用戶之間的關(guān)聯(lián)映射, 將虛擬用戶映射到社會空間, 識別用戶的真實身份[57]。在同源服務(wù)識別方面, 首先利用基于視覺信息的網(wǎng)頁分割算法定義網(wǎng)頁的語義結(jié)構(gòu), 每一個節(jié)點代表一個語義塊, 每個語義塊都有一個 DOC值描述其內(nèi)部內(nèi)容的關(guān)聯(lián)性; 然后, 對網(wǎng)站進(jìn)行分塊, 利用向量相似度度量(EMD)進(jìn)行網(wǎng)頁相似度檢測, 將具有相似主頁的網(wǎng)站看作是同源網(wǎng)站[58,59]。在相似內(nèi)容檢測方面, 通過計算詞級、短語級、句子級的嵌入表示, 在嵌入向量空間計算文本之間的相似度, 從語義層面解決各個層次的文本相似性檢測問題[60,61]; 將兩張圖片看成一張雙通道的圖像,采用Siamese網(wǎng)絡(luò)對兩張圖片的特征向量構(gòu)造相似度損失函數(shù), 通過對網(wǎng)絡(luò)進(jìn)行訓(xùn)練, 能夠判別任意兩張圖像是否匹配[62,63]。
網(wǎng)絡(luò)空間資源繪制技術(shù)是在網(wǎng)絡(luò)空間資源探測和分析的基礎(chǔ)上, 將多維的網(wǎng)絡(luò)空間資源及其關(guān)聯(lián)關(guān)系投影到一個低維可視化空間, 旨在構(gòu)建網(wǎng)絡(luò)空間資源的層次化、可變粒度的網(wǎng)絡(luò)地圖, 實現(xiàn)對多變量時變型網(wǎng)絡(luò)資源的可視化呈現(xiàn)[64]。
在繪制理論方面, 美國科學(xué)家Marc A.Smith和愛爾蘭 Rob Kitchin教授先后提出了網(wǎng)絡(luò)空間的社區(qū)、地圖和映射的理論[65], 介紹了如何利用地理學(xué)、制圖學(xué)、計算機(jī)通信、信息可視化等領(lǐng)域的研究成果建立網(wǎng)絡(luò)空間可視化的方法。武漢大學(xué)艾廷華教授在2016年提出了網(wǎng)絡(luò)空間資源表達(dá)的符號可視化理論以及應(yīng)用數(shù)學(xué)法則進(jìn)行測量的方法[66]。
在繪制技術(shù)方面, 國內(nèi)外研究團(tuán)隊雖然提出了一些準(zhǔn)則, 如網(wǎng)絡(luò)空間地理學(xué)圖像的電信網(wǎng)絡(luò)分析方法、網(wǎng)絡(luò)空間景觀制圖的若干法則[67]、拓?fù)淇梢暬痆68]等。然而, 已有研究主要基于地理空間對實體設(shè)備和拓?fù)潢P(guān)系的可視化, 如何對高維、動態(tài)的虛擬資源進(jìn)行繪制, 如何將網(wǎng)絡(luò)空間中的多類資源投影到地理空間進(jìn)行繪制缺乏系統(tǒng)和成熟的技術(shù)思路。因此, 需要綜合可視化、圖形學(xué)、數(shù)據(jù)挖掘理論與方法, 研究新的網(wǎng)絡(luò)空間資源測繪理論模型和可視化方法。在繪制全息地圖的需求下,“疊加繪制”和“時空建?!睂⒊蔀榫W(wǎng)絡(luò)空間資源繪制的研究重點。
1) 網(wǎng)絡(luò)空間多類資源疊加繪制
針對網(wǎng)絡(luò)空間資源數(shù)據(jù)的時間特性和空間特性,結(jié)合數(shù)據(jù)間的關(guān)聯(lián)性, 建立數(shù)據(jù)可視化關(guān)聯(lián)模型,動態(tài)維護(hù)關(guān)聯(lián)關(guān)系, 并根據(jù)網(wǎng)絡(luò)空間資源所涉及多種屬性進(jìn)行資源聚類, 計算節(jié)點的分布位置, 實現(xiàn)在虛擬空間和現(xiàn)實空間上的數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)流向、數(shù)據(jù)分布展示; 針對網(wǎng)絡(luò)資源探測的大規(guī)模多種類別數(shù)據(jù)信息, 結(jié)合空間、地點、時間等多個維度, 打破地圖上數(shù)據(jù)信息展示單一的格局, 對不同數(shù)據(jù)進(jìn)行多方面、多層次的處理, 并將不同維度數(shù)據(jù)進(jìn)行合理的疊加處理, 將組織關(guān)系、物理位置、網(wǎng)絡(luò)行為、通聯(lián)日志等數(shù)據(jù)以網(wǎng)絡(luò)拓?fù)湟晥D、地理分布視圖以及時間維度等多種方式展現(xiàn)于全息地圖之上, 實現(xiàn)數(shù)據(jù)處理全過程的靈活操控。
2) 地理空間與網(wǎng)絡(luò)空間時空建模
研究虛擬網(wǎng)絡(luò)空間與實體地理空間中對象時空變化機(jī)理和模型、統(tǒng)一時空基準(zhǔn)建立與維持、時空坐標(biāo)系轉(zhuǎn)換、時空動態(tài)語義和時空演化模型等, 構(gòu)建虛擬網(wǎng)絡(luò)空間和實體地理空間統(tǒng)一描述的時空坐標(biāo)體系, 為網(wǎng)絡(luò)空間資源的測繪建立時空基準(zhǔn)框架,實現(xiàn)虛擬網(wǎng)絡(luò)空間和實體地理空間資源中多源異構(gòu)、海量高維、動態(tài)變化的時空數(shù)據(jù)的融合與統(tǒng)一管理、描述與應(yīng)用。針對網(wǎng)絡(luò)空間資源屬性的動態(tài)時變特性, 研究網(wǎng)絡(luò)空間資源的多維度、跨尺度、實時動態(tài)繪制技術(shù), 實現(xiàn)虛擬網(wǎng)絡(luò)空間與真實地理空間場景的一體化真三維繪制與動態(tài)切換、網(wǎng)絡(luò)空間地圖要素符號自動綜合、網(wǎng)絡(luò)空間三維景觀動態(tài)交互等。
在第三節(jié)中, 我們給出了網(wǎng)絡(luò)空間資源測繪的DAVA Loop通用體系結(jié)構(gòu)。下面我們以區(qū)域資產(chǎn)評估和服務(wù)測繪為例, 闡述DAVA Loop在具體應(yīng)用中的工作流程, 并說明其有效性。
圖4 基于測繪體系的區(qū)域資產(chǎn)評估框架Figure 4 The Technical Architecture of Network Assets Evaluation
區(qū)域資產(chǎn)是對組織具有價值的信息或資源, 是安全策略保護(hù)的對象。威脅、脆弱性以及風(fēng)險都是針對資產(chǎn)而客觀存在的。準(zhǔn)確掌握某一資產(chǎn)的攻擊面是防御和攻擊的關(guān)鍵。通過網(wǎng)絡(luò)空間測繪技術(shù), 對某個區(qū)域的網(wǎng)絡(luò)資產(chǎn)進(jìn)行識別和控制, 可以更好地保護(hù)個人和組織的數(shù)據(jù), 防范已經(jīng)存在和可能存在的風(fēng)險。
為了獲得精準(zhǔn)的區(qū)域資產(chǎn)信息, 基于 DAVA Loop的資產(chǎn)測繪對區(qū)域內(nèi)的網(wǎng)絡(luò)資產(chǎn)進(jìn)行協(xié)同測量,通過對數(shù)據(jù)進(jìn)行融合分析和多域映射, 形成區(qū)域資產(chǎn)信息知識庫; 在此基礎(chǔ)上, 通過多域疊加和綜合繪制來構(gòu)建網(wǎng)絡(luò)空間資產(chǎn)全息地圖; 最后, 根據(jù)區(qū)域資產(chǎn)發(fā)現(xiàn)和識別場景、漏洞引起的業(yè)務(wù)風(fēng)險監(jiān)測場景、預(yù)警違規(guī)外聯(lián)、數(shù)據(jù)泄密隱患場景、資產(chǎn)管理評估場景和網(wǎng)絡(luò)空間反欺詐場景等目標(biāo), 應(yīng)用這一面向資產(chǎn)的全息地圖, 通過迭代演進(jìn)使得資產(chǎn)測繪能力不斷提升。
1) 區(qū)域資產(chǎn)協(xié)同探測
區(qū)域資產(chǎn)協(xié)同測量主要分為主動探測和被動監(jiān)測。其中, 主動探測主要包括設(shè)備端口開放性檢測、主機(jī)存活性檢測、WEB框架偵察、系統(tǒng)指紋發(fā)現(xiàn)、服務(wù)指紋發(fā)現(xiàn)和漏洞掃描等; 被動解析子模塊主要有高速流量獲取、協(xié)議識別和字段解析、IDS/IPS日志匯聚等功能。
主動探測在探測前需要測試網(wǎng)絡(luò)范圍, 除了窮舉網(wǎng)絡(luò)地址, 也可使用Dmitry、Scapy等專用工具查詢目標(biāo)網(wǎng)絡(luò)中的IP地址和域名信息, 測試網(wǎng)絡(luò)范圍;此外, 反掃描設(shè)備的存在以及地址空間過大等問題,使得主動探測在確定掃描范圍存在盲區(qū), 且無法獲得實時的資產(chǎn)狀態(tài)。因此本文的資產(chǎn)測繪使用了主被動協(xié)同測量的框架。一方面主動探測采用傳統(tǒng)的網(wǎng)絡(luò)范圍測試手段, 另一方面, 由被動流量中過濾得到的IP、端口和域名等信息, 作為主動探測的目標(biāo)輸入。被動流量過濾得到的 IP、端口和域名等信息包括本區(qū)域內(nèi)部的資產(chǎn)和與本區(qū)域相關(guān)聯(lián)的資產(chǎn)信息組成。
2) 區(qū)域資產(chǎn)關(guān)聯(lián)標(biāo)識
通過主動探測得到的資產(chǎn)標(biāo)識與被動監(jiān)測得到的資產(chǎn)標(biāo)識具有明顯的差異。一方面, 主動探測具有資產(chǎn)標(biāo)識細(xì)節(jié)信息更加明確, 更適合局域網(wǎng)資產(chǎn)(如打印機(jī)、DVR、NVR等)的探測發(fā)現(xiàn)等特點; 另一方面, 類似防火墻的網(wǎng)絡(luò)隔離使得主動探測需要設(shè)計針對復(fù)雜網(wǎng)絡(luò)的繞過技術(shù), 實現(xiàn)代價陡增。與之對應(yīng)的被動監(jiān)測得到的資產(chǎn)標(biāo)識具有實時性高、監(jiān)測代價小的優(yōu)點, 但是被動流量種類和屬性豐富, 協(xié)議多樣, 數(shù)量巨大、關(guān)系復(fù)雜, 同時具有加密和云化特點。
在設(shè)計區(qū)域資產(chǎn)關(guān)聯(lián)時需要充分考慮兩種測量方式的優(yōu)劣, 針對數(shù)據(jù)分析和處理的及時性、準(zhǔn)確性和可靠性, 建立精準(zhǔn)資產(chǎn)識別框架, 采用數(shù)據(jù)融合技術(shù), 從網(wǎng)絡(luò)結(jié)構(gòu)、設(shè)備指紋、服務(wù)指紋、瀏覽器指紋等細(xì)節(jié)處對多源信息進(jìn)行綜合處理, 實現(xiàn)對區(qū)域資產(chǎn)及其屬性的精準(zhǔn)刻畫。
在主被動測量數(shù)據(jù)下, 利用各類不同類型資產(chǎn)的行為特點、品牌特點、功能特點、網(wǎng)絡(luò)結(jié)構(gòu)特點等, 發(fā)現(xiàn)獨(dú)有的數(shù)據(jù)特征和資源之間的相互關(guān)系,進(jìn)行數(shù)據(jù)的交叉驗證和關(guān)聯(lián)映射, 形成對多維度多屬性的通用高精度識別框架; 針對不同類型、品牌訓(xùn)練不同參數(shù), 通過優(yōu)化的機(jī)器學(xué)習(xí)算法進(jìn)行設(shè)備的分層識別; 利用多維度關(guān)聯(lián)驗證方法, 對設(shè)備型號等綜合屬性進(jìn)行驗證過濾, 剔除不精確的判斷, 提升識別精度。
3) 區(qū)域資產(chǎn)繪制
以可視化的方式呈現(xiàn)區(qū)域資產(chǎn)信息, 包括基礎(chǔ)屬性、網(wǎng)絡(luò)屬性、位置屬性、通聯(lián)屬性等。例如基礎(chǔ)屬性包括設(shè)備名稱、設(shè)備型號、設(shè)備類型、生產(chǎn)廠家、基本參數(shù)(CPU、內(nèi)存等)、出廠日期、外型參數(shù)等; 網(wǎng)絡(luò)屬性包括設(shè)備IP、使用協(xié)議、開放端口、運(yùn)行系統(tǒng)信息(系統(tǒng)類別、版本號)、發(fā)現(xiàn)時間、漏洞信息、banner信息、頁面特征等; 位置屬性包括時區(qū)、國家、區(qū)域代碼、所在地、經(jīng)緯度、地址等; 通聯(lián)屬性包括相關(guān)組件號、關(guān)系類型、映射信息等。區(qū)域資產(chǎn)地圖可與其他資源、狀態(tài)、外部信息、知識圖譜等疊加, 按需展示關(guān)注點。
圖5 基于測繪體系的虛擬服務(wù)評估框架Figure 5 The Technical Architecture of Virtualization Service Evaluation
4) 區(qū)域資產(chǎn)測繪應(yīng)用
根據(jù)資產(chǎn)測繪地圖, 面向不同的業(yè)務(wù)場景, 應(yīng)用不同的層次數(shù)據(jù), 提供決策支持, 并通過迭代演進(jìn)使得資產(chǎn)測繪能力不斷提升。典型應(yīng)用場景如下:
(1) 區(qū)域資產(chǎn)發(fā)現(xiàn)和識別場景: 通過主動掃描、流量監(jiān)控等多種資產(chǎn)采集方式, 自動獲取資產(chǎn)和開啟的服務(wù)。對關(guān)注區(qū)域內(nèi)的資產(chǎn)進(jìn)行分析與統(tǒng)計, 便于安全監(jiān)管部門, 對區(qū)域內(nèi)重要信息系統(tǒng)資產(chǎn)、物聯(lián)網(wǎng)設(shè)備資產(chǎn)等了解和掌控。
(2) 漏洞引起的業(yè)務(wù)風(fēng)險監(jiān)測場景: 根據(jù)系統(tǒng)預(yù)置常見、熱門漏洞, 根據(jù)資產(chǎn)組件特征判斷漏洞影響資產(chǎn)數(shù)量; 基于對資產(chǎn)和漏洞的統(tǒng)計分析, 對資產(chǎn)的數(shù)量、分布、組件應(yīng)用以及漏洞、威脅資產(chǎn)進(jìn)行深入的態(tài)勢感知及告警, 實現(xiàn)資產(chǎn)、漏洞的安全監(jiān)測。
(3) 預(yù)警違規(guī)外聯(lián)、數(shù)據(jù)泄密隱患場景: 自動發(fā)現(xiàn)管理網(wǎng)內(nèi)同時連接內(nèi)網(wǎng)和互聯(lián)網(wǎng)的設(shè)備, 上報設(shè)備內(nèi)網(wǎng)IP地址、互聯(lián)網(wǎng)出口IP地址、外聯(lián)時間及訪問的網(wǎng)址。自動發(fā)現(xiàn)內(nèi)網(wǎng)環(huán)境下連通互聯(lián)網(wǎng)的風(fēng)險設(shè)備點, 上報設(shè)備信息, 及時預(yù)警。
(4) 資產(chǎn)管理評估場景: 監(jiān)控資產(chǎn)設(shè)備使用規(guī)范性; 發(fā)現(xiàn)企業(yè)內(nèi)部的違規(guī)性行為; 精準(zhǔn)推送資產(chǎn)漏洞并結(jié)合特制漏洞專掃、弱口令專掃等, 實現(xiàn)區(qū)域內(nèi)網(wǎng)絡(luò)資產(chǎn)合規(guī)性、違規(guī)性、存活性、脆弱性的綜合檢測與評估。
(5) 網(wǎng)絡(luò)空間反欺詐場景: 繪制網(wǎng)絡(luò)空間上設(shè)備的網(wǎng)絡(luò)節(jié)點和網(wǎng)絡(luò)連接關(guān)系圖, 給各設(shè)備的畫像; 結(jié)合風(fēng)控理論, 在反欺詐和黑灰產(chǎn)發(fā)現(xiàn)的實踐中, 為電商、支付、在線信貸等行業(yè)提供精準(zhǔn)的身份識別。
網(wǎng)絡(luò)空間服務(wù)是指網(wǎng)絡(luò)空間軟件設(shè)施中的各種泛在應(yīng)用, 其中最典型的一種應(yīng)用就是網(wǎng)站。網(wǎng)絡(luò)空間服務(wù)包含內(nèi)在的屬性和外延的關(guān)系, 其中屬性又可以分為功能屬性和非功能屬性, 功能屬性包括服務(wù)IP地址, 服務(wù)內(nèi)容, 服務(wù)提供者, 服務(wù)協(xié)議, 服務(wù)狀態(tài), 服務(wù)使用者等。非功能屬性包括服務(wù)性能(吞吐量和延遲), 服務(wù)可靠性, 服務(wù)價格等。關(guān)系主要包括服務(wù)之間的關(guān)系和服務(wù)與使用者之間的關(guān)系。
網(wǎng)絡(luò)空間服務(wù)具有隱匿化, 小眾化和加密化的特點, 網(wǎng)絡(luò)空間服務(wù)測繪的目標(biāo)就是利用主被動協(xié)同探測和智能分析手段, 發(fā)現(xiàn)動態(tài)、時變、隱匿的服務(wù)屬性和關(guān)系, 通過“地圖”的方式進(jìn)行可視化展示,以支撐網(wǎng)絡(luò)空間安全的各種應(yīng)用?;贒AVA Loop循環(huán)的服務(wù)測繪體系結(jié)構(gòu)包括以下方面:
1) 服務(wù)數(shù)據(jù)探測
主被動協(xié)同測量主要分為主動探測和被動監(jiān)測。其中, 主動探測基于服務(wù)指紋構(gòu)造特定的探測請求, 通過接收探測包流經(jīng)網(wǎng)絡(luò)時各網(wǎng)絡(luò)參與者或探測目標(biāo)的響應(yīng)來獲得測量結(jié)果; 通過主動探測, 可探測得到服務(wù)功能、服務(wù)性能、服務(wù)質(zhì)量、服務(wù)指紋等。被動監(jiān)測基于服務(wù)指紋在網(wǎng)絡(luò)流量中進(jìn)行匹配, 然后對匹配命中結(jié)果進(jìn)行過濾和統(tǒng)計; 通過被動監(jiān)測, 可獲取高速流量、進(jìn)行協(xié)議識別和字段解析、IDS/IPS日志匯聚等。
2) 同源服務(wù)關(guān)聯(lián)分析
在主被動測量數(shù)據(jù)下, 利用同源服務(wù)的內(nèi)容、品牌、結(jié)構(gòu)相似的特點, 發(fā)現(xiàn)獨(dú)有的數(shù)據(jù)特征和服務(wù)之間的相互關(guān)系, 進(jìn)行數(shù)據(jù)的交叉驗證和關(guān)聯(lián)映射,形成對同源服務(wù)的高精度識別框架。這里的同源服務(wù)是指服務(wù)內(nèi)容相同或者相似的服務(wù)。
關(guān)聯(lián)分析模塊首先利用極大似然估計法和多重插補(bǔ)方法對測量結(jié)果進(jìn)行真值判定并且對缺失屬性值進(jìn)行填充。接著對同源服務(wù)進(jìn)行聚類。最后對服務(wù)關(guān)系進(jìn)行挖掘, 最終生成包括服務(wù)實體, 服務(wù)關(guān)系, 服務(wù)屬性和服務(wù)類別的服務(wù)知識庫。
3) 服務(wù)知識庫可視化
該模塊采用文本可視化、網(wǎng)絡(luò)可視化和時空可視化對服務(wù)知識庫進(jìn)行展示, 并且通過網(wǎng)絡(luò)空間坐標(biāo)系, 以“地圖”的形式呈現(xiàn)特定區(qū)域的服務(wù)畫像。
服務(wù)畫像包括基礎(chǔ)屬性、網(wǎng)絡(luò)屬性、位置屬性、通聯(lián)屬性等。例如基礎(chǔ)屬性包括企業(yè)法人、主辦單位名稱、網(wǎng)站備案/許可證號、網(wǎng)站名稱、網(wǎng)站首頁網(wǎng)址等; 網(wǎng)絡(luò)屬性包括網(wǎng)站IP、網(wǎng)站域名、AS號碼等; 位置屬性包括國家、區(qū)域代碼、所在地、經(jīng)緯度、地址等; 通聯(lián)屬性包括外鏈網(wǎng)址, 服務(wù)使用者IP等。服務(wù)信息在時空范圍內(nèi)可與其他資源信息等疊加,按需展示關(guān)注點。
4) 服務(wù)測繪應(yīng)用
根據(jù)服務(wù)測繪地圖, 面向不同的業(yè)務(wù)場景, 應(yīng)用不同的層次數(shù)據(jù), 提供決策支持, 并通過迭代演進(jìn)使得服務(wù)測繪能力不斷提升。典型應(yīng)用場景如下:
(1) 特定服務(wù)發(fā)現(xiàn)和識別場景: 通過主動掃描、流量監(jiān)控等多種探測方式, 獲取特定服務(wù)的信息。對關(guān)注區(qū)域內(nèi)的特定服務(wù)進(jìn)行分析與統(tǒng)計, 便于安全監(jiān)管部門。
(2) 區(qū)域服務(wù)狀態(tài)評估場景: 繪制網(wǎng)絡(luò)空間上服務(wù)影響范圍狀態(tài)圖, 在網(wǎng)絡(luò)攻防的實踐中, 為網(wǎng)絡(luò)靶場等應(yīng)用提供精準(zhǔn)的攻擊效果評估。
(3) 特定服務(wù)的用戶分析場景: 繪制網(wǎng)絡(luò)空間上服務(wù)和用戶的連接關(guān)系圖, 對特定服務(wù)的用戶以及潛在用戶進(jìn)行群體分析。
(4) 特定用戶的服務(wù)推薦場景: 繪制網(wǎng)絡(luò)空間上服務(wù)和服務(wù)的連接關(guān)系圖, 對特定用戶進(jìn)行服務(wù)推薦。
面向新時代網(wǎng)絡(luò)空間技術(shù)的應(yīng)用需求, 傳統(tǒng)的網(wǎng)絡(luò)測量技術(shù)逐漸發(fā)展為對網(wǎng)絡(luò)空間各類資源的發(fā)現(xiàn)、分析和展示(即網(wǎng)絡(luò)空間資源測繪)技術(shù)??傮w而言, 網(wǎng)絡(luò)空間資源測繪的相關(guān)研究還處于起步階段,缺乏對網(wǎng)絡(luò)空間資源測繪概念的統(tǒng)一認(rèn)知, 尚未建立一套完整的網(wǎng)絡(luò)空間資源理論模型和技術(shù)體系。
本文首先介紹了網(wǎng)絡(luò)空間、網(wǎng)絡(luò)空間資源及網(wǎng)絡(luò)空間資源測繪等概念的內(nèi)涵和外延, 提出了網(wǎng)絡(luò)空間資源的分類體系和屬性圖譜; 然后,提出了網(wǎng)絡(luò)空間資源測繪的通用技術(shù)體系(DAVA Loop), 并對“探測”、“分析”、“繪制”等關(guān)鍵技術(shù)的研究思路和相關(guān)工作進(jìn)行了綜述和探討; 最后, 基于該技術(shù)體系的基本框架, 以網(wǎng)絡(luò)資產(chǎn)評估和服務(wù)測繪為具體應(yīng)用場景, 分析了技術(shù)體系的有效性。網(wǎng)絡(luò)空間資源測繪領(lǐng)域存在大量的理論和技術(shù)問題, 需要我們進(jìn)一步探討和研究。在未來工作中, 我們將圍繞“協(xié)同探測”、“融合分析”和“全息繪制”開展更加深入和具體的研究工作。
致謝本課題得到國家重點研發(fā)計劃“網(wǎng)絡(luò)空間測繪”項目(2016YFB0801300)資助。