趙帆,羅向陽(yáng),劉粉林
(1. 解放軍信息工程大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,河南 鄭州 450001;2. 解放軍信息工程大學(xué)數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001)
網(wǎng)絡(luò)空間測(cè)繪技術(shù)研究
趙帆1,2,羅向陽(yáng)1,2,劉粉林1,2
(1. 解放軍信息工程大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,河南 鄭州 450001;2. 解放軍信息工程大學(xué)數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001)
網(wǎng)絡(luò)空間測(cè)繪技術(shù)是一種網(wǎng)絡(luò)共性基礎(chǔ)與應(yīng)用技術(shù),對(duì)網(wǎng)絡(luò)空間測(cè)繪相關(guān)技術(shù)的研究進(jìn)展進(jìn)行了綜述和討論。首先,闡述了網(wǎng)絡(luò)空間測(cè)繪的內(nèi)涵,給出了網(wǎng)絡(luò)空間測(cè)繪一般技術(shù)框架;然后,從探測(cè)層、映射層和繪制層分別闡述了網(wǎng)絡(luò)空間測(cè)繪相關(guān)技術(shù)的研究進(jìn)展;最后,指出了網(wǎng)絡(luò)空間測(cè)繪亟待解決的一些關(guān)鍵問(wèn)題。
網(wǎng)絡(luò)空間測(cè)繪;探測(cè);映射;繪制;地理空間;社會(huì)空間
隨著計(jì)算機(jī)技術(shù)的發(fā)展,網(wǎng)絡(luò)已經(jīng)成為國(guó)家政治、經(jīng)濟(jì)、軍事等社會(huì)系統(tǒng)存在和發(fā)展的重要基礎(chǔ),網(wǎng)絡(luò)空間已經(jīng)成為人類(lèi)生產(chǎn)生活的“第二類(lèi)生存空間”,網(wǎng)絡(luò)一旦受損,幾乎所有的社會(huì)系統(tǒng)都將無(wú)法運(yùn)行或發(fā)揮作用。因此,亟需對(duì)網(wǎng)絡(luò)空間實(shí)施高效的管理、合理的資源分配以及有效的安全監(jiān)測(cè)和防護(hù)。
地圖是描繪地理空間信息的重要載體,自古以來(lái)就是運(yùn)籌帷幄、指揮作戰(zhàn)的重要工具,是指揮員的“眼睛”“行軍的無(wú)聲向?qū)А薄皡f(xié)同作戰(zhàn)的共同語(yǔ)言”。隨著互聯(lián)網(wǎng)的發(fā)展,地圖的應(yīng)用越來(lái)越廣,已成為面向位置的服務(wù)(LBS)的核心基礎(chǔ)。然而,網(wǎng)絡(luò)空間尚缺乏類(lèi)似地理空間地圖的、可全面描述和展示網(wǎng)絡(luò)空間信息的“網(wǎng)絡(luò)地圖”。類(lèi)似于地理空間測(cè)繪,構(gòu)建網(wǎng)絡(luò)空間地圖的技術(shù)稱(chēng)為“網(wǎng)絡(luò)空間測(cè)繪”。
網(wǎng)絡(luò)空間測(cè)繪技術(shù)通過(guò)網(wǎng)絡(luò)探測(cè)、采集、處理、分析等方式,獲得網(wǎng)絡(luò)空間基礎(chǔ)設(shè)施、用戶(hù)及服務(wù)等網(wǎng)絡(luò)資源在網(wǎng)絡(luò)空間、地理空間以及社會(huì)空間的相關(guān)屬性,并將這些屬性以邏輯圖和地理信息圖的形式繪制出來(lái),從而直觀實(shí)時(shí)地反映出當(dāng)前網(wǎng)絡(luò)空間資源各個(gè)屬性的狀態(tài)、發(fā)展趨勢(shì)等。
當(dāng)前,與網(wǎng)絡(luò)空間測(cè)繪技術(shù)相關(guān)的研究工作已經(jīng)開(kāi)展,如美國(guó)國(guó)防部國(guó)防高級(jí)研究計(jì)劃局于2012年9月啟動(dòng)的網(wǎng)絡(luò)戰(zhàn)發(fā)展項(xiàng)目“X計(jì)劃”[1],目的是生成網(wǎng)絡(luò)空間作戰(zhàn)態(tài)勢(shì)圖、制定作戰(zhàn)方案、實(shí)施網(wǎng)絡(luò)作戰(zhàn)行動(dòng)等;美國(guó)國(guó)家安全局和英國(guó)國(guó)家通信總局(GCHQ)聯(lián)合開(kāi)展的研究項(xiàng)目“藏寶圖(treasure map)”計(jì)劃,聚焦于邏輯層捕獲路由及自治系統(tǒng)的數(shù)據(jù),試圖繪制出一張“近乎實(shí)時(shí)的、交互式的全球互聯(lián)網(wǎng)地圖”[2]。上述研究的主要技術(shù)均屬網(wǎng)絡(luò)空間測(cè)繪研究范疇,可見(jiàn),網(wǎng)絡(luò)空間測(cè)繪技術(shù)在國(guó)家安全和軍事領(lǐng)域具有十分廣泛的應(yīng)用前景。
本文首先闡述網(wǎng)絡(luò)空間測(cè)繪概念的基本內(nèi)涵,然后從探測(cè)層、映射層和繪制層3個(gè)層次分別介紹網(wǎng)絡(luò)空間測(cè)繪相關(guān)的關(guān)鍵技術(shù)及研究現(xiàn)狀,最后指出網(wǎng)絡(luò)空間測(cè)繪技術(shù)亟待解決的一些關(guān)鍵問(wèn)題。
2.1 網(wǎng)絡(luò)空間測(cè)繪技術(shù)的定義
目前,尚未見(jiàn)正式的公開(kāi)文獻(xiàn)對(duì)網(wǎng)絡(luò)空間測(cè)繪技術(shù)進(jìn)行嚴(yán)格定義。本文從狹義和廣義2個(gè)角度分別闡述網(wǎng)絡(luò)空間測(cè)繪技術(shù)的基本內(nèi)涵。
從狹義上講,網(wǎng)絡(luò)空間測(cè)繪技術(shù)主要指在互聯(lián)網(wǎng)環(huán)境下,利用網(wǎng)絡(luò)探測(cè)、采集或挖掘等技術(shù),獲取網(wǎng)絡(luò)設(shè)備等實(shí)體資源、用戶(hù)和服務(wù)等虛擬資源的網(wǎng)絡(luò)屬性,通過(guò)設(shè)計(jì)有效的定位算法和關(guān)聯(lián)分析方法,將實(shí)體資源映射到地理空間,將虛擬資源映射到社會(huì)空間,并將探測(cè)結(jié)果和映射結(jié)果繪制出來(lái)。
從廣義上講,網(wǎng)絡(luò)空間測(cè)繪的研究范圍包括互聯(lián)網(wǎng)、電信網(wǎng)、工業(yè)控制網(wǎng)等各種類(lèi)型的網(wǎng)絡(luò),探測(cè)對(duì)象除互聯(lián)網(wǎng)資源外,還包括其他各種網(wǎng)絡(luò)上的資源。
本文討論的主要是狹義的網(wǎng)絡(luò)空間測(cè)繪技術(shù)。
2.2 網(wǎng)絡(luò)空間測(cè)繪主要研究?jī)?nèi)容
網(wǎng)絡(luò)空間測(cè)繪技術(shù)研究的對(duì)象包括實(shí)體資源和虛擬資源兩類(lèi)。實(shí)體資源根據(jù)設(shè)備用途可分為網(wǎng)絡(luò)基礎(chǔ)設(shè)施和接入設(shè)備,也可根據(jù)有無(wú)IP分為有IP化的實(shí)體網(wǎng)元和無(wú)IP化的基礎(chǔ)資源;虛擬資源包括網(wǎng)絡(luò)虛擬人物,網(wǎng)絡(luò)虛擬社區(qū),以及文本信息內(nèi)容、音視頻、網(wǎng)站等網(wǎng)絡(luò)服務(wù)等。
網(wǎng)絡(luò)空間測(cè)繪技術(shù)的目標(biāo)是實(shí)現(xiàn)對(duì)來(lái)源眾多、類(lèi)型各異的互聯(lián)網(wǎng)資源的全面測(cè)繪,涉及的技術(shù)較多。本文從探測(cè)層、映射層和繪制層3個(gè)層次分別給出網(wǎng)絡(luò)空間測(cè)繪技術(shù)的相關(guān)研究?jī)?nèi)容,總體框架如圖1所示。
圖1 網(wǎng)絡(luò)空間測(cè)繪技術(shù)總體框架
其中,探測(cè)層是網(wǎng)絡(luò)空間測(cè)繪技術(shù)的基礎(chǔ)層,為映射層提供探測(cè)基礎(chǔ)數(shù)據(jù),主要研究實(shí)體資源的拓?fù)涮綔y(cè)技術(shù),組件識(shí)別技術(shù)和對(duì)文本信息內(nèi)容、音視頻、網(wǎng)站等的探測(cè)分析技術(shù),可簡(jiǎn)要?dú)w納為探測(cè)通道與平臺(tái)技術(shù)、多種探測(cè)技術(shù)和探測(cè)結(jié)果分析技術(shù);映射層是網(wǎng)絡(luò)空間測(cè)繪技術(shù)的核心層,主要研究實(shí)體資源向地理空間映射技術(shù)和網(wǎng)絡(luò)虛擬人物、虛擬社區(qū)等虛擬資源向社會(huì)空間映射技術(shù),并將映射結(jié)果提供給繪制層;繪制層將探測(cè)結(jié)果和映射結(jié)果可視化,主要研究邏輯圖繪制技術(shù)和地理信息圖繪制技術(shù)。
下面分別介紹網(wǎng)絡(luò)空間測(cè)繪中探測(cè)層、映射層和繪制層主要相關(guān)技術(shù)基本原理及研究進(jìn)展。
3.1 探測(cè)層技術(shù)框架
探測(cè)層是網(wǎng)絡(luò)空間測(cè)繪技術(shù)的基礎(chǔ)層,主要作用是基于統(tǒng)一的高效探測(cè)通道和平臺(tái),利用針對(duì)特定對(duì)象的探測(cè)技術(shù),分別獲取網(wǎng)絡(luò)實(shí)體資源和虛擬資源的相關(guān)網(wǎng)絡(luò)屬性,并對(duì)探測(cè)結(jié)果進(jìn)行分析。圖2為探測(cè)層的總體技術(shù)框架。
圖2 探測(cè)層技術(shù)框架
如圖2所示,探測(cè)層研究的主要內(nèi)容包括網(wǎng)絡(luò)探測(cè)通道與平臺(tái)技術(shù)、探測(cè)技術(shù)和探測(cè)結(jié)果分析技術(shù)。其中,根據(jù)探測(cè)對(duì)象的不同,探測(cè)技術(shù)分為實(shí)體資源探測(cè)技術(shù)和虛擬資源探測(cè)技術(shù)兩類(lèi)。下面分別簡(jiǎn)要介紹這3種技術(shù)。
3.2 探測(cè)通道與平臺(tái)技術(shù)
網(wǎng)絡(luò)空間資源多樣、規(guī)模龐大,為了能夠高效、迅速地對(duì)網(wǎng)絡(luò)空間資源發(fā)起探測(cè),且不影響網(wǎng)絡(luò)的正常運(yùn)行,需要構(gòu)建統(tǒng)一的網(wǎng)絡(luò)探測(cè)通道與平臺(tái)。探測(cè)通道與平臺(tái)技術(shù)通過(guò)構(gòu)建統(tǒng)一的分布式網(wǎng)絡(luò)探測(cè)平臺(tái),實(shí)現(xiàn)廣泛分布式部署的探測(cè)終端統(tǒng)一化管理和高效持續(xù)探測(cè),為發(fā)起可靠探測(cè)提供探測(cè)環(huán)境和技術(shù)保障。目前,分布式探測(cè)系統(tǒng)已成為研究人員了解網(wǎng)絡(luò)狀態(tài)的首選工具。比較有代表性的分布式探測(cè)系統(tǒng)有塞浦路斯大學(xué)的IPMicra[3]、比爾肯大學(xué)的SE4SEE[4]、佐治亞理工學(xué)院的Apoidea[5]等。Spring等[6]的RocketFuel項(xiàng)目首次全面探測(cè)了大型ISP拓?fù)洹atz-Bassett[7]實(shí)現(xiàn)了reverse-traceroute,利用時(shí)間戳和記錄路由選項(xiàng)來(lái)識(shí)別反向路徑。在掃描工具方面有業(yè)內(nèi)常用的功能強(qiáng)大的Nmap[8],也有最近出現(xiàn)的以快著稱(chēng)、45 min掃描整個(gè)IPv4空間的Zmap[9]。
3.3 探測(cè)技術(shù)
根據(jù)探測(cè)的對(duì)象不同,網(wǎng)絡(luò)空間探測(cè)技術(shù)可分為實(shí)體資源探測(cè)技術(shù)和虛擬資源探測(cè)技術(shù)兩類(lèi),根據(jù)探測(cè)的方式不同,網(wǎng)絡(luò)空間探測(cè)技術(shù)還可分為主動(dòng)探測(cè)和被動(dòng)探測(cè)兩類(lèi),本文主要根據(jù)前者分類(lèi)進(jìn)行介紹。
3.3.1 實(shí)體資源探測(cè)技術(shù)
實(shí)體資源探測(cè)技術(shù)的探測(cè)目標(biāo)包括網(wǎng)絡(luò)基礎(chǔ)設(shè)施和各種接入設(shè)備,涉及的技術(shù)主要包括網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)技術(shù)和網(wǎng)絡(luò)設(shè)備組件識(shí)別技術(shù)等。
網(wǎng)絡(luò)層拓?fù)浒l(fā)現(xiàn)一般可分為4個(gè)層次:IP接口級(jí)拓?fù)浒l(fā)現(xiàn)、路由器級(jí)拓?fù)浒l(fā)現(xiàn)、入網(wǎng)點(diǎn)(PoP,point of presence)級(jí)拓?fù)浒l(fā)現(xiàn)和AS(自治系統(tǒng))級(jí)拓?fù)浒l(fā)現(xiàn)。對(duì)網(wǎng)絡(luò)空間測(cè)繪而言,通常更關(guān)注前3個(gè)層次。在IP接口級(jí)拓?fù)錅y(cè)量方面,現(xiàn)有主要方法包括基于簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(SNMP,simple network management protocol)[10,11]、基于網(wǎng)際組管理協(xié)議(IGMP, Internet group management protocol)[12~14]、基于Traceroute工具等拓?fù)錅y(cè)量方法。在路由器級(jí)網(wǎng)絡(luò)拓?fù)錅y(cè)量方面,研究的重點(diǎn)是解決路由器別名問(wèn)題,即別名解析[15]。近年來(lái),研究者們主要利用IP時(shí)間戳選項(xiàng)來(lái)解決別名歸并的問(wèn)題。Sherry等[16]提出了基于IP時(shí)間戳選項(xiàng)的別名判別方法,Marchetta等[17]提出了基于時(shí)間戳選項(xiàng)和UDP的Pythia算法來(lái)用于別名解析。在PoP級(jí)網(wǎng)絡(luò)拓?fù)錅y(cè)量方面,首次嘗試探索PoP級(jí)網(wǎng)絡(luò)拓?fù)涞氖荢pring等[18],提出了基于DNS解析的PoP提取算法,通過(guò)對(duì)大量探測(cè)結(jié)果進(jìn)行分析,以網(wǎng)絡(luò)服務(wù)提供商(ISP)的命名慣例提取合并不同的PoP。Madhyastha等[19]提出iPlane方法,利用Mercator方法對(duì)各個(gè)IP進(jìn)行別名歸并,并通過(guò)Rocketfuel和Sarangworld這2個(gè)數(shù)據(jù)源,將DNS域名指定到盡可能多的網(wǎng)絡(luò)接口。Feldman等[20]提出的PoP提取算法通過(guò)延遲進(jìn)行初步劃分,接著采取一種結(jié)構(gòu)性的方法進(jìn)一步劃分,在初步劃分的結(jié)果中尋找具有特定結(jié)構(gòu)的二分子圖,進(jìn)而完成PoP的劃分提取。Shavitt等[21,22]提出了基于IP地理位置數(shù)據(jù)庫(kù)和時(shí)延測(cè)量提高PoP級(jí)的網(wǎng)絡(luò)拓?fù)涠ㄎ粶?zhǔn)確性的算法。經(jīng)過(guò)多年研究,網(wǎng)絡(luò)拓?fù)涮綔y(cè)與分析技術(shù)研究已取得很大進(jìn)展。然而,如何得到完整準(zhǔn)確的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)仍存在一些亟待研究的問(wèn)題,探測(cè)路徑中的匿名路由器、路由器的別名歸并等仍是研究的難點(diǎn)。對(duì)網(wǎng)絡(luò)空間測(cè)繪技術(shù)而言,探測(cè)分析區(qū)域性的網(wǎng)絡(luò),得到探測(cè)目標(biāo)所在區(qū)域的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)更具針對(duì)性,也是需解決的關(guān)鍵問(wèn)題之一。
網(wǎng)絡(luò)設(shè)備組件的探測(cè)識(shí)別技術(shù)能夠?yàn)榫W(wǎng)絡(luò)空間測(cè)繪提供更詳細(xì)的設(shè)備信息,如設(shè)備類(lèi)型、操作系統(tǒng)等。該技術(shù)通常通過(guò)設(shè)備在通信過(guò)程中攜帶的某種信息對(duì)其進(jìn)行認(rèn)證和辨識(shí),實(shí)現(xiàn)的方式主要包括主動(dòng)和被動(dòng)2種。其中,主動(dòng)式主要是從探測(cè)源將構(gòu)造的信息發(fā)送給待識(shí)別的目標(biāo)設(shè)備,目的是通過(guò)觸發(fā)某些期望的設(shè)備回應(yīng)來(lái)對(duì)設(shè)備進(jìn)行辨識(shí);被動(dòng)式不主動(dòng)向目標(biāo)發(fā)送信息,而是根據(jù)設(shè)備向外發(fā)送請(qǐng)求時(shí),從其中攜帶的信息來(lái)分析判斷。被動(dòng)的識(shí)別方式對(duì)應(yīng)用環(huán)境的要求較低,對(duì)網(wǎng)絡(luò)狀態(tài)影響較小,但其能夠提供的信息量和可靠性不如主動(dòng)式。目前,針對(duì)設(shè)備識(shí)別的研究通常是被動(dòng)式的。Kohno 等在文獻(xiàn)[23]中提出了根據(jù)設(shè)備時(shí)鐘的偏移值對(duì)遠(yuǎn)程網(wǎng)絡(luò)設(shè)備進(jìn)行識(shí)別的方法,F(xiàn)ink[24]對(duì)該方法進(jìn)行了改進(jìn),引入線(xiàn)性回歸的統(tǒng)計(jì)方法來(lái)判斷時(shí)鐘偏移,并給出了需要某種程度的準(zhǔn)確度時(shí)樣本數(shù)量的計(jì)算公式,使這種設(shè)備識(shí)別的準(zhǔn)確度可控。
3.3.2 虛擬資源探測(cè)技術(shù)
在網(wǎng)絡(luò)空間測(cè)繪技術(shù)的相關(guān)研究中,開(kāi)展虛擬資源探測(cè),涉及的現(xiàn)有技術(shù)主要包括特定信息內(nèi)容快速探測(cè)和話(huà)題發(fā)現(xiàn)技術(shù)、音視頻內(nèi)容探測(cè)技術(shù)、網(wǎng)站自動(dòng)探測(cè)技術(shù)等。目前,對(duì)上述技術(shù)的研究已取得了一定進(jìn)展。
在文本資源探測(cè)方面,主要包括內(nèi)容分析、關(guān)聯(lián)分析、社會(huì)信息網(wǎng)絡(luò)挖掘等問(wèn)題。向量空間模型(VSM, vector space model)、潛在語(yǔ)義模型(LSI, latent semantic indexing)等都試圖在語(yǔ)法甚至語(yǔ)義層面給2個(gè)文本一個(gè)相似性度量[25~27]。在特定信息內(nèi)容快速探測(cè)和話(huà)題發(fā)現(xiàn)方面,文獻(xiàn)[28]提出利用概念性動(dòng)態(tài)隱含狄利克雷(CDLDA,conceptual dynamic latent dirichlet allocation)模型對(duì)文本中的動(dòng)詞和名詞的比例分析,來(lái)對(duì)會(huì)話(huà)內(nèi)容中的話(huà)題進(jìn)行檢測(cè)和追蹤;文獻(xiàn)[29]提出利用增量聚類(lèi)框架,并應(yīng)用一系列內(nèi)容和時(shí)間相關(guān)的特點(diǎn)來(lái)探測(cè)新的熱門(mén)話(huà)題。特定音頻內(nèi)容快速探測(cè)分析包括多語(yǔ)言識(shí)別和固定音頻檢索。2006年,Hinton等[30]將深度神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域并取得良好效果。音頻檢索包括基于直方圖統(tǒng)計(jì)階段和基于音頻指紋DNA的散列檢索階段。特定視頻內(nèi)容的探測(cè)分析主要包括視頻的特征表示、語(yǔ)義屬性分析以及多模融合識(shí)別等內(nèi)容。遞歸神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于視頻的時(shí)空特征提取上。語(yǔ)義的屬性分析也同樣依賴(lài)于近期圖像物體識(shí)別與目標(biāo)檢索方面的進(jìn)展來(lái)進(jìn)行特定人物、標(biāo)志、物體等的分析與識(shí)別。
3.4.1 實(shí)體資源探測(cè)結(jié)果分析
對(duì)主機(jī)、路由器、服務(wù)器等實(shí)體資源的定位而言,獲取可靠的網(wǎng)絡(luò)拓?fù)涫种匾W(wǎng)絡(luò)安全防護(hù)、路由器負(fù)載均衡、匿名路由等多種因素嚴(yán)重影響了探測(cè)結(jié)果的可用性,因此,需要對(duì)網(wǎng)絡(luò)探測(cè)的結(jié)果進(jìn)行融合分析,以獲得高可靠性可用的網(wǎng)絡(luò)拓?fù)浣Y(jié)果。下面簡(jiǎn)要介紹網(wǎng)絡(luò)設(shè)備拓?fù)浣Y(jié)構(gòu)融合分析涉及的主要技術(shù)。
1) 網(wǎng)絡(luò)路徑重構(gòu)技術(shù)
網(wǎng)絡(luò)路徑重構(gòu)技術(shù)主要用于解決目標(biāo)網(wǎng)絡(luò)拓?fù)涮綔y(cè)結(jié)果中由于路由器多個(gè)別名導(dǎo)致的路徑冗余、目標(biāo)所在子網(wǎng)的判別等問(wèn)題。
2) 拓?fù)浞治黾夹g(shù)
在將實(shí)體資源映射到地理空間時(shí),通常需要獲取目標(biāo)實(shí)體資源與周邊區(qū)域網(wǎng)絡(luò)節(jié)點(diǎn)的連接情況,如時(shí)延、跳數(shù)等。區(qū)域性拓?fù)浞治黾夹g(shù)能夠從海量的拓?fù)涮綔y(cè)結(jié)果中,分析得到目標(biāo)相關(guān)的可用拓?fù)湫畔?,為后期的?shí)體資源地理位置映射提供數(shù)據(jù)基礎(chǔ)。面向網(wǎng)絡(luò)可達(dá)性與起源變化的拓?fù)浞治黾夹g(shù)能夠從探測(cè)結(jié)果中分析得到不同源與不同目標(biāo)之間的連通性和可達(dá)性,可為后期定位算法的設(shè)計(jì)提供幫助。
3) 拓?fù)湔Z(yǔ)義標(biāo)注技術(shù)
對(duì)網(wǎng)絡(luò)設(shè)備類(lèi)型、操作系統(tǒng)、性能、重要性等多種屬性的準(zhǔn)確了解能夠?yàn)槿嬲莆站W(wǎng)絡(luò)狀態(tài)提供幫助,網(wǎng)絡(luò)拓?fù)湔Z(yǔ)義標(biāo)注技術(shù)能夠根據(jù)需求,從不同的層面對(duì)網(wǎng)絡(luò)拓?fù)溥M(jìn)行準(zhǔn)確的描述。
3.4.2 虛擬資源探測(cè)結(jié)果分析
網(wǎng)絡(luò)空間虛擬資源探測(cè)結(jié)果分析技術(shù)主要圍繞文本內(nèi)容、音視頻網(wǎng)站、博客論壇以及其他互聯(lián)網(wǎng)平臺(tái)上的特定內(nèi)容資源,開(kāi)展快速發(fā)現(xiàn)、關(guān)聯(lián)分析、內(nèi)容分析與理解等方面的研究,主要技術(shù)如下。
1) 特定信息內(nèi)容快速發(fā)現(xiàn)和關(guān)聯(lián)分析技術(shù)
特定信息內(nèi)容快速發(fā)現(xiàn)和關(guān)聯(lián)分析技術(shù)主要用于快速發(fā)現(xiàn)多個(gè)網(wǎng)絡(luò)平臺(tái)上的特定信息內(nèi)容,并對(duì)其進(jìn)行重要性與話(huà)題特征的標(biāo)注或多語(yǔ)種的翻譯等。通過(guò)對(duì)發(fā)現(xiàn)的信息內(nèi)容的關(guān)聯(lián)分析,可以從中挖掘到潛在的信息,得到特定信息內(nèi)容的傳播規(guī)律和分布特點(diǎn)等。
2) 特定音頻內(nèi)容的檢索與識(shí)別技術(shù)
特定音頻內(nèi)容的檢索與識(shí)別技術(shù)主要對(duì)復(fù)雜多變聲學(xué)環(huán)境下的音頻進(jìn)行處理,對(duì)海量多語(yǔ)言網(wǎng)絡(luò)音頻數(shù)據(jù)中的特定語(yǔ)種、說(shuō)話(huà)人和特定內(nèi)容進(jìn)行檢測(cè),對(duì)音頻的語(yǔ)種進(jìn)行識(shí)別,以及對(duì)互聯(lián)網(wǎng)海量數(shù)據(jù)下的音頻模板進(jìn)行匹配,最終實(shí)現(xiàn)對(duì)包含特定信息的音頻檢索與識(shí)別。
3) 特定視頻內(nèi)容的檢測(cè)和識(shí)別技術(shù)
特定視頻內(nèi)容的檢測(cè)和識(shí)別技術(shù)通過(guò)對(duì)視頻中的人、物等關(guān)鍵元素的提取,形成針對(duì)視頻內(nèi)容的結(jié)構(gòu)化描述,利用有效的視頻識(shí)別算法,實(shí)現(xiàn)對(duì)視頻中特定場(chǎng)景的檢測(cè)和識(shí)別,并能夠根據(jù)給定的樣例檢索出相關(guān)視頻。
4.1 映射層技術(shù)框架
映射層的主要目的是利用探測(cè)層提供的相關(guān)數(shù)據(jù),將網(wǎng)絡(luò)實(shí)體資源映射到地理空間,將網(wǎng)絡(luò)虛擬資源映射到社會(huì)空間。映射層的技術(shù)框架如圖3所示。
圖3 映射層技術(shù)框架
其中,實(shí)體資源向地理空間映射技術(shù)主要包括地標(biāo)挖掘與采集技術(shù)、目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)分析技術(shù)、網(wǎng)絡(luò)實(shí)體定位技術(shù)等,虛擬資源向社會(huì)空間映射技術(shù)主要包括虛擬人畫(huà)像技術(shù)和虛擬社區(qū)發(fā)現(xiàn)技術(shù)等。
4.2 實(shí)體資源向地理空間映射技術(shù)
4.2.1 基本概念和主要步驟
在實(shí)體資源向地理空間映射技術(shù)中,本文重點(diǎn)討論具有IP的網(wǎng)絡(luò)實(shí)體資源的地理位置定位技術(shù),涉及的基本概念主要如下。
目標(biāo):待定位的IP地址,通常假設(shè)其有一個(gè)固定的地理位置。
探測(cè)源:給目標(biāo)發(fā)送探測(cè)分組的主機(jī),一般自身地理位置已知。
地標(biāo):自身地理位置已知的IP地址,與探測(cè)點(diǎn)不同的是,它不能主動(dòng)發(fā)送與定位有關(guān)的數(shù)據(jù)分組,只能響應(yīng)探測(cè)分組。
定位服務(wù)器:用于向探測(cè)源發(fā)送測(cè)量等命令,收集、處理探測(cè)源提交的測(cè)量數(shù)據(jù),執(zhí)行定位算法,并將最終的定位結(jié)果反饋給用戶(hù)。
實(shí)體資源的定位過(guò)程如圖4所示,可簡(jiǎn)要概括為:首先,定位服務(wù)器在收到待定位目標(biāo)的IP地址后,根據(jù)定位精度需求和定位算法的需要部署探測(cè)源,并向各探測(cè)源發(fā)送相應(yīng)的測(cè)量或查詢(xún)指令;其次,探測(cè)源根據(jù)收到的定位服務(wù)器的指令,執(zhí)行相應(yīng)的操作,如測(cè)量與目標(biāo)或地標(biāo)的時(shí)延或拓?fù)溥B接關(guān)系等,并將測(cè)量的結(jié)果提交給定位服務(wù)器;最后,定位服務(wù)器將探測(cè)源提交的信息進(jìn)行處理后,執(zhí)行定位算法,將定位的結(jié)果存入地標(biāo)庫(kù)并輸出。
圖4 實(shí)體資源定位過(guò)程
4.2.2 主要相關(guān)技術(shù)
1) 實(shí)體地標(biāo)獲取與評(píng)估技術(shù)
地標(biāo)是實(shí)現(xiàn)將網(wǎng)絡(luò)實(shí)體映射到地理位置的基準(zhǔn)點(diǎn)。在一個(gè)區(qū)域內(nèi)數(shù)量較大且分布均勻的地標(biāo)點(diǎn),既可為該區(qū)域內(nèi)的目標(biāo)實(shí)體定位提供支撐,也可用于驗(yàn)證定位算法的有效性?,F(xiàn)有地標(biāo)獲取方法主要有兩類(lèi):基于Web挖掘的地標(biāo)獲取方法和基于IP定位數(shù)據(jù)庫(kù)的地標(biāo)獲取方法。
在基于Web挖掘的地標(biāo)獲取研究方面,文獻(xiàn)[31]通過(guò)對(duì)特定互聯(lián)網(wǎng)論壇的挖掘來(lái)獲得大量的城市級(jí)可靠地標(biāo),文獻(xiàn)[32]提出的方法首先向地圖服務(wù)發(fā)送指定區(qū)域的查詢(xún)請(qǐng)求,地圖服務(wù)會(huì)將該區(qū)域內(nèi)或附近的公司、學(xué)術(shù)機(jī)構(gòu)及政府機(jī)關(guān)等組織機(jī)構(gòu)以列表的形式返回,列表中包含這些組織機(jī)構(gòu)詳細(xì)的地理位置及其主頁(yè)域名;然后由域名解析出其IP地址,從而得到<域名、IP地址、地理地址>映射關(guān)系。該方法可以有效地在Web服務(wù)發(fā)達(dá)的地區(qū)獲取街道級(jí)地標(biāo),文獻(xiàn)[32,33]等都采用此方法采集街道級(jí)地標(biāo)。
在基于IP定位數(shù)據(jù)庫(kù)的地標(biāo)獲取方面,目前有很多公司在維護(hù)和發(fā)布將IP地址映射到地理位置的數(shù)據(jù)庫(kù),如MaxMind[34]、IP2Location[35]及Quova[36]等。此外,WHOIS數(shù)據(jù)庫(kù)[37]中也有IP地址塊的地理位置信息,即利用Whois查詢(xún)可得到一個(gè)IP地址所在地址塊在WHOIS數(shù)據(jù)庫(kù)中記錄的位置?;贗P定位數(shù)據(jù)庫(kù)的地標(biāo)獲取方法,通常選取多個(gè)定位數(shù)據(jù)庫(kù)中地理位置一致的IP用于實(shí)驗(yàn)研究。
2) 網(wǎng)絡(luò)實(shí)體定位技術(shù)
網(wǎng)絡(luò)實(shí)體定位技術(shù)是實(shí)現(xiàn)將實(shí)體資源映射到地理空間的核心技術(shù)。從公開(kāi)的文獻(xiàn)來(lái)看,國(guó)際上關(guān)于網(wǎng)絡(luò)實(shí)體定位技術(shù)的研究已經(jīng)開(kāi)展了十余年,取得了一些優(yōu)秀的研究成果;國(guó)內(nèi)的解放軍信息工程大學(xué)網(wǎng)絡(luò)空間測(cè)繪課題組率先開(kāi)展了網(wǎng)絡(luò)空間測(cè)繪相關(guān)研究,并提出了一些新的網(wǎng)絡(luò)實(shí)體定位方法。現(xiàn)有網(wǎng)絡(luò)實(shí)體定位方法大致可分為3類(lèi):基于數(shù)據(jù)庫(kù)查詢(xún)的定位、基于數(shù)據(jù)挖掘的定位和基于網(wǎng)絡(luò)測(cè)量的定位。
基于數(shù)據(jù)庫(kù)查詢(xún)的定位方法由于不需要大量測(cè)量,且定位速度快、計(jì)算開(kāi)銷(xiāo)小而得到廣泛應(yīng)用。當(dāng)前互聯(lián)網(wǎng)上已有多種對(duì)外提供查詢(xún)的IP定位數(shù)據(jù)庫(kù),如Maxmind[34]、IP2location[35]、Quoval[36]、Whois數(shù)據(jù)庫(kù)[37]等。這些數(shù)據(jù)庫(kù)包含IP地址及其地理位置的映射關(guān)系,并對(duì)外提供查詢(xún)接口。用戶(hù)只需提交要查詢(xún)的IP地址,通常能夠很快獲得查詢(xún)結(jié)果。此外,文獻(xiàn)[38]通過(guò)引入IP Number的概念,自主構(gòu)建了IPMapping數(shù)據(jù)庫(kù),文獻(xiàn)[39]利用分布式爬蟲(chóng)等技術(shù)提高了IP2location數(shù)據(jù)庫(kù)的覆蓋范圍和城市級(jí)定位準(zhǔn)確率。
基于數(shù)據(jù)挖掘的定位算法試圖從具有組織機(jī)構(gòu)和用戶(hù)地理位置信息的網(wǎng)站、手機(jī)應(yīng)用等數(shù)據(jù)來(lái)源中,挖掘地理位置與IP地址之間的關(guān)系。典型的定位方法主要包括Structon[33]、Checkin—Geo[40]等。Structon算法首先使用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)上抓取機(jī)構(gòu)等的主頁(yè)信息,從中提取電話(huà)區(qū)號(hào)、聯(lián)系地址等能夠表達(dá)地理位置的信息,然后通過(guò)查詢(xún)域名將URL轉(zhuǎn)化為IP,從而將IP地址與地理位置關(guān)聯(lián)起來(lái),最后將IP按照地址段進(jìn)行迭代推導(dǎo),擴(kuò)大可定位的IP地址范圍,該方法的準(zhǔn)確性依賴(lài)于所抽取的主頁(yè)位置信息與IP地址的映射關(guān)系是否準(zhǔn)確,易受服務(wù)器托管等情況的影響。Checkin—Geo算法首先從某種手機(jī)端應(yīng)用獲取“用戶(hù)ID—地理位置”關(guān)系數(shù)據(jù),再?gòu)膶?duì)應(yīng)的PC端應(yīng)用程序中獲取“用戶(hù)ID—LOG信息—IP地址”關(guān)系數(shù)據(jù),最后利用機(jī)器學(xué)習(xí)等方法掌握用戶(hù)活動(dòng)規(guī)律,建立起“IP地址—地理位置”關(guān)系以實(shí)現(xiàn)目標(biāo)IP定位。該方法可對(duì)用戶(hù)所處的位置進(jìn)行較為可靠的分析,將用戶(hù)定位至家庭、工作場(chǎng)所或特定的區(qū)域,但需要從手機(jī)服務(wù)提供商和網(wǎng)絡(luò)服務(wù)提供商處獲得關(guān)于目標(biāo)的大量歷史數(shù)據(jù),因此難以適用于非協(xié)作環(huán)境。
基于網(wǎng)絡(luò)測(cè)量的定位方法通過(guò)測(cè)量探測(cè)源與目標(biāo)節(jié)點(diǎn)之間的時(shí)延(或在此基礎(chǔ)上結(jié)合拓?fù)湫畔ⅲ?,用不同的方法將時(shí)延轉(zhuǎn)換為地理距離,以不同的方式對(duì)目標(biāo)節(jié)點(diǎn)產(chǎn)生距離約束,然后估計(jì)出目標(biāo)節(jié)點(diǎn)的位置。根據(jù)產(chǎn)生距離約束的方式不同,可進(jìn)一步分為基于時(shí)延的定位算法、基于概率估計(jì)的定位算法和基于拓?fù)涞亩ㄎ凰惴?類(lèi)。
基于時(shí)延的定位算法主要包括Shortest Ping[41]、GeoPing[41]、CBG (constraint-based geolocation)[42]、SPRG(segmented polynomial regression approach)[43]、Geo-RX[44]、GeoWeight[45]等,這些方法直接根據(jù)時(shí)延的特點(diǎn)判斷目標(biāo)距離探測(cè)源(地標(biāo))的遠(yuǎn)近,或?qū)r(shí)延以某種關(guān)系轉(zhuǎn)換為距離約束(通常為目標(biāo)距離探測(cè)源的最遠(yuǎn)距離),進(jìn)而估計(jì)出目標(biāo)的可能位置,算法的原理較為簡(jiǎn)單,但容易受到時(shí)延測(cè)量不準(zhǔn)確的影響,定位精度不高。基于概率估計(jì)的典型定位算法主要包括:LBG(learning-based geolocation)[46]、ELC (enhanced learning classifier)[47]、MLE-based Approach(maximum likelihood estimation based approach)[48]、Spotter[49]、GBLC[50]等,這些算法不假設(shè)時(shí)延和地理距離符合某種線(xiàn)性關(guān)系,而是通過(guò)對(duì)大量的時(shí)延—距離數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得出時(shí)延大小與地理距離的概率統(tǒng)計(jì)關(guān)系,能夠降低單次時(shí)延測(cè)量不準(zhǔn)確的影響,但往往定位精度較低,通常僅能夠給出城市級(jí)定位?;谕?fù)涞牡湫投ㄎ凰惴ㄖ饕蠸LG(street-level geolocation)[32]、GeoTrack[41]、TBG(topology-based geolocation)[51]、Octant[52]、GBRF[53]、GBPF[54]等,這些算法使用目標(biāo)的路徑或地標(biāo)的拓?fù)湫畔?,或在時(shí)延基礎(chǔ)上結(jié)合拓?fù)湫畔?,然后進(jìn)行交互驗(yàn)證來(lái)實(shí)現(xiàn)對(duì)目標(biāo)的定位,定位精度較高,但容易受到匿名路由的影響。
圖5 虛擬資源向社會(huì)空間映射技術(shù)框架
表1 典型定位算法的誤差比較
現(xiàn)有典型定位算法在測(cè)試算法性能時(shí),通常是在理想的實(shí)驗(yàn)網(wǎng)絡(luò)(如PlanetLab)或連通性較好的網(wǎng)絡(luò)環(huán)境下進(jìn)行的,部分算法的定位誤差如表1所示。由表1可知,現(xiàn)有定位算法通常只能實(shí)現(xiàn)區(qū)域級(jí)或城市級(jí)的定位精度,僅有少量的算法(如表1中的SLG算法)能夠?qū)崿F(xiàn)較高精度的定位。
4.3 虛擬資源向社會(huì)空間映射技術(shù)
4.3.1 技術(shù)框架
虛擬資源向社會(huì)空間映射技術(shù)框架如圖5所示。
虛擬資源向社會(huì)空間映射技術(shù)實(shí)現(xiàn)將網(wǎng)絡(luò)社會(huì)成員映射到現(xiàn)實(shí)社會(huì)成員?;具^(guò)程可簡(jiǎn)要概括為:首先,利用3.3.2節(jié)中的虛擬資源探測(cè)技術(shù)對(duì)網(wǎng)絡(luò)上與用戶(hù)相關(guān)的多源海量網(wǎng)絡(luò)日志發(fā)起探測(cè)或采集,對(duì)得到的來(lái)源不同、結(jié)構(gòu)各異的基礎(chǔ)信息進(jìn)行處理,實(shí)現(xiàn)一體化表達(dá);其次,利用虛擬人物活動(dòng)地點(diǎn)推斷方法、虛擬群體關(guān)系挖掘方法、虛擬群體軌跡發(fā)現(xiàn)方法等將網(wǎng)絡(luò)社會(huì)成員與現(xiàn)實(shí)社會(huì)成員相關(guān)聯(lián),實(shí)現(xiàn)將網(wǎng)絡(luò)社會(huì)成員向社會(huì)成員的映射;最后,將映射結(jié)果存入虛擬人畫(huà)像知識(shí)庫(kù)。
4.3.2 主要相關(guān)技術(shù)
實(shí)現(xiàn)虛擬資源向社會(huì)空間映射涉及的技術(shù)主要包括虛擬人物活動(dòng)地點(diǎn)推斷、虛擬群體關(guān)系挖掘和虛擬群體軌跡發(fā)現(xiàn)等技術(shù)。其中,虛擬人物活動(dòng)地點(diǎn)推斷技術(shù)從采集到的數(shù)據(jù)中綜合分析與位置相關(guān)的信息,以推斷虛擬人物的活動(dòng)地點(diǎn),尤其在社交網(wǎng)絡(luò)環(huán)境下,人們常常有意或無(wú)意地通過(guò)交互內(nèi)容來(lái)透露自己的地理信息和短期活動(dòng)計(jì)劃,因此,從原始用戶(hù)產(chǎn)生文本中檢索虛擬人物在其中涉及的地理興趣點(diǎn)(POI)詞條,通過(guò)設(shè)計(jì)有效的消歧義算法確定真實(shí)的POI,結(jié)合POI資源庫(kù)和用戶(hù)行為模式,可推斷POI的具體地理位置,最終實(shí)現(xiàn)對(duì)特定人物位置信息的挖掘,如Rae等[55]提出了一個(gè)基于線(xiàn)性條件隨機(jī)場(chǎng)CRF模型的POI抽取算法,實(shí)現(xiàn)了對(duì)常規(guī)文本中的POI抽取。
虛擬群體關(guān)系挖掘技術(shù)通過(guò)挖掘不同虛擬人物之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)對(duì)虛擬群體的有效描述。
虛擬群體軌跡發(fā)現(xiàn)技術(shù)通過(guò)對(duì)群體中虛擬人的活動(dòng)規(guī)律、活動(dòng)軌跡的關(guān)聯(lián)分析,來(lái)獲取整個(gè)群體的行為特點(diǎn)、活動(dòng)方式,實(shí)現(xiàn)對(duì)特定虛擬群體軌跡模式的發(fā)現(xiàn)。
5.1 繪制層技術(shù)框架
網(wǎng)絡(luò)空間繪制技術(shù)在探測(cè)結(jié)果和映射結(jié)果的基礎(chǔ)上,將多維的網(wǎng)絡(luò)空間資源及其關(guān)聯(lián)關(guān)系投影到一個(gè)低維的可視化空間,構(gòu)建網(wǎng)絡(luò)空間的分層次、可變粒度的網(wǎng)絡(luò)地圖,實(shí)現(xiàn)對(duì)多變量時(shí)變型網(wǎng)絡(luò)資源的可視化。繪制層的技術(shù)框架如圖6所示。
圖6 繪制層技術(shù)框架
網(wǎng)絡(luò)空間的繪制主要包括邏輯圖繪制和地理信息圖繪制,其中邏輯圖繪制主要是通過(guò)構(gòu)建拓?fù)淇梢暬P?,利用二維、三維等空間布局方法將探測(cè)得到的網(wǎng)絡(luò)拓?fù)淇梢暬?,地理信息圖繪制技術(shù)利用數(shù)據(jù)同化技術(shù)、集成可視化技術(shù)、輔助分析技術(shù)等將網(wǎng)絡(luò)空間資源的網(wǎng)絡(luò)屬性和地理空間屬性進(jìn)行可視化。
5.2 邏輯圖繪制技術(shù)
網(wǎng)絡(luò)空間邏輯圖的繪制主要指對(duì)網(wǎng)絡(luò)拓?fù)鋱D的繪制,主要目標(biāo)是將網(wǎng)絡(luò)中的節(jié)點(diǎn)和連接狀況以符合其內(nèi)在特性的方式完整清晰地展現(xiàn)在用戶(hù)眼前,從而為人們了解和分析網(wǎng)絡(luò)空間的整體狀況提供直觀素材和操作平臺(tái)。在繪制邏輯圖時(shí),往往要求將其性質(zhì)、度量及模型等體現(xiàn)在可視化結(jié)果中,研究重點(diǎn)通常為解決可視區(qū)域和邏輯圖規(guī)模之間的矛盾,以及便于理解的可視化策略的選擇或設(shè)計(jì)。
5.3 地理信息圖繪制技術(shù)
網(wǎng)絡(luò)空間地理信息圖繪制技術(shù)主要實(shí)現(xiàn)基于地理空間基礎(chǔ)數(shù)據(jù)的網(wǎng)絡(luò)空間測(cè)繪數(shù)據(jù)可視化表達(dá),在繪制網(wǎng)絡(luò)空間地理信息圖時(shí),涉及的技術(shù)主要包括地理空間和網(wǎng)絡(luò)空間數(shù)據(jù)的同化技術(shù)、網(wǎng)絡(luò)空間信息和地理空間信息的集成可視化技術(shù)、網(wǎng)絡(luò)節(jié)點(diǎn)輔助分析技術(shù)等。其中,地理空間和網(wǎng)絡(luò)空間數(shù)據(jù)的同化技術(shù)是一種數(shù)據(jù)處理技術(shù),用于將來(lái)自網(wǎng)絡(luò)空間和地理空間的不同格式、不同性質(zhì)、不同模型的數(shù)據(jù)進(jìn)行融合處理,為可視化提供可用的基礎(chǔ)數(shù)據(jù);網(wǎng)絡(luò)空間信息和地理空間信息的集成可視化技術(shù)用于集成同化后的網(wǎng)絡(luò)數(shù)據(jù)和地理數(shù)據(jù),以便于用戶(hù)理解和后期查詢(xún)、預(yù)測(cè)等應(yīng)用方式進(jìn)行展示;網(wǎng)絡(luò)節(jié)點(diǎn)輔助分析技術(shù)通過(guò)對(duì)映射結(jié)果周邊的網(wǎng)絡(luò)環(huán)境和地理環(huán)境的分析,來(lái)評(píng)估映射結(jié)果的合理性、可信度和可用性,為修正映射結(jié)果提供依據(jù)。
通過(guò)上述對(duì)網(wǎng)絡(luò)空間測(cè)繪技術(shù)研究進(jìn)展的梳理可知,當(dāng)前關(guān)于網(wǎng)絡(luò)空間測(cè)繪技術(shù)的研究已經(jīng)取得了一定進(jìn)展,但是,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)空間資源的精確測(cè)繪,仍有一些問(wèn)題亟待解決,具體如下。
1) 如何實(shí)現(xiàn)對(duì)內(nèi)網(wǎng)和暗網(wǎng)資源的探測(cè)?
分布或存儲(chǔ)在內(nèi)網(wǎng)和暗網(wǎng)中的資源豐富,是網(wǎng)絡(luò)空間資源態(tài)勢(shì)的重要組成部分。但是,內(nèi)網(wǎng)中的資源或特定目標(biāo)往往處于防火墻、VPN等多種技術(shù)保護(hù)之下,暗網(wǎng)中的資源無(wú)法通過(guò)標(biāo)準(zhǔn)的搜索引擎進(jìn)行查找,如何在不影響設(shè)備正常工作、不侵犯用戶(hù)個(gè)人隱私的情況下,全面掌握內(nèi)網(wǎng)資源或快速發(fā)現(xiàn)內(nèi)網(wǎng)和暗網(wǎng)中的特定目標(biāo)是網(wǎng)絡(luò)空間探測(cè)技術(shù)亟待解決的問(wèn)題之一。
2) 如何實(shí)現(xiàn)對(duì)實(shí)體資源的高精度地理位置映射?
服務(wù)器、路由器、網(wǎng)絡(luò)主機(jī)等網(wǎng)絡(luò)實(shí)體資源是網(wǎng)絡(luò)空間資源的重要組成部分,是網(wǎng)絡(luò)空間測(cè)繪技術(shù)關(guān)注的重要對(duì)象之一。但上述網(wǎng)絡(luò)實(shí)體資源自身通常不具備定位功能,且無(wú)法向外界通告自身位置,其網(wǎng)絡(luò)唯一標(biāo)識(shí)IP地址也不包含位置信息?,F(xiàn)有基于IP的網(wǎng)絡(luò)實(shí)體定位方法雖然取得了很大進(jìn)展,但大多僅能給出城市級(jí)的位置信息,且可靠性難以保證,因此,定位精度和定位結(jié)果的可靠性仍有待提高。
3) 如何利用大數(shù)據(jù)分析技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)虛擬人物/社團(tuán)的精確畫(huà)像?
大數(shù)據(jù)時(shí)代已然來(lái)臨,網(wǎng)絡(luò)上與虛擬人物相關(guān)的信息規(guī)模龐大,但這些數(shù)據(jù)往往類(lèi)型多樣,既包含結(jié)構(gòu)化的數(shù)據(jù),又包含非結(jié)構(gòu)化數(shù)據(jù),且數(shù)據(jù)的真?zhèn)坞y辨。如何從海量數(shù)據(jù)中挖掘、分析與虛擬人物/社團(tuán)相關(guān)的信息,進(jìn)而將網(wǎng)絡(luò)虛擬人物與其社會(huì)身份準(zhǔn)確關(guān)聯(lián)起來(lái),是網(wǎng)絡(luò)空間映射技術(shù)需要解決的問(wèn)題之一。
4) 如何將海量數(shù)據(jù)進(jìn)行可視化?
網(wǎng)絡(luò)空間資源類(lèi)型多樣,規(guī)模龐大,地理空間數(shù)據(jù)同樣多源異構(gòu),如何將2種空間數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、時(shí)空基準(zhǔn)統(tǒng)一及信息融合,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)空間數(shù)據(jù)和地理空間數(shù)據(jù)的一體化實(shí)時(shí)動(dòng)態(tài)可視化表達(dá),并能夠基于地理空間基礎(chǔ)數(shù)據(jù)對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的地理位置映射精度和可靠性進(jìn)行分析,是網(wǎng)絡(luò)空間繪制技術(shù)需要解決的問(wèn)題之一。
本文對(duì)網(wǎng)絡(luò)空間測(cè)繪技術(shù)研究進(jìn)展進(jìn)行了綜述。首先,給出了網(wǎng)絡(luò)空間測(cè)繪技術(shù)的定義和主要研究?jī)?nèi)容,提出了網(wǎng)絡(luò)空間測(cè)繪技術(shù)框架,主要包括探測(cè)層、映射層和繪制層3個(gè)層次;其次,分別介紹了3個(gè)層次涉及的相關(guān)技術(shù)及其研究進(jìn)展,其中,探測(cè)層主要包括探測(cè)通道與平臺(tái)技術(shù)、多種探測(cè)技術(shù)和探測(cè)結(jié)果分析技術(shù),映射層主要包括實(shí)體資源向地理空間映射技術(shù)和虛擬資源向社會(huì)空間映射技術(shù),繪制層主要包括邏輯圖繪制技術(shù)和地理信息圖繪制技術(shù);最后,給出了網(wǎng)絡(luò)空間測(cè)繪技術(shù)目前亟待解決的幾個(gè)關(guān)鍵問(wèn)題。網(wǎng)絡(luò)空間測(cè)繪作為網(wǎng)絡(luò)空間安全和應(yīng)用的重大共性關(guān)鍵基礎(chǔ)技術(shù),必將越來(lái)越多地受到學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。
[1] [EB/OL]. https://en.wikipedia.org/wiki/Plan_X.
[2] [EB/OL].http://mobile.businessinsider.com/nsa-treasure-map-project-2014-9.
[3] PAPAPETROU O, SAMARAS G. Ipmicra: toward a distributed and adaptable location aware Web crawler[C]//The 8th East European Conference on Advances in Databases and Information Systems. 2004.
[4] CAMBAZOGLU B B, TURK A, KARACA E, et al. SE4SEE: a grid-enabled search engine for south-east Europe[C]//The International Conference on Hypermedia and Grid Systems. 2005: 223-227.
[5] SINGH A, SRIVATSA M, LIU L, et al. Apoidea: a decentralized peer-to-peer architecture for crawling the world wide Web[C]//International Workshop on Distributed Information Retrieval. 2003: 126-142.
[6] SPRING N, MAHAJAN R, WETHERALL D. Measuring ISP topologies with rocketfuel[J]. ACM Sigcomm Computer Communication Review, 2002, 32(4): 133-145.
[7] KATZ-BASSETT E, MADHYASTHA H, ADHIKARI V, et al. Reverse traceroute[C]//The 7th Usenix Symposium on Networked Systems Design and Implementations (NSDI). 2010: 219-234.
[8] Nmap: a free network mapping and security scanning tool[EB/OL]. http://nmap.org/.
[9] DURUMERIC Z, WUSTROW E, HALDERMAN J A. ZMap: fast internet wide scanning and its security applications[C]//The 22nd Usenix Security Symposium. 2013: 605-620.
[10] LI J. Network topology discovery based on SNMP[C]//The 9th International Conference on Computational Intelligence and Security(CIS). 2013: 194-199.
[11] YIN J B, LI Y M, WANG Q, et al. SNMP-based network topology discovery algorithm and implementation[C]//The International Conference on Fuzzy Systems and Knowledge Discovery(FSKD). 2012: 2241-2244.
[12] MARCHETTA P, MéRINDOL P, DONNET B, et al. Topology discovery at the router level: a new hybrid tool targeting ISP networks[J]. Selected Areas in Communications, 2011, 29(9):1776-1787.
[13] MARCHETTA P, Mérindol P, DONNET B, et al. Quantifying and mitigating IGMP filtering in topology discovery[C]//The Conference on Global Communications (GLOBECOM). 2012: 1871-1876.
[14] MARCHETTA P, PESCAPE A. DRAGO: detecting, quantifying and locating hidden routers in traceroute IP paths[C]//The 32nd IEEE International Conference on Computer Communications(INFOCOM). 2013: 3237-3242.
[15] GUNES M H, SARAC K. Resolving IP aliases in building traceroute-based Internet maps[J]. IEEE/ACM Transactions on Networking (ToN), 2009, 17(6): 1738-1751.
[16] SHERRY J, KATZ-BASSETT E, PIMENOVA M, et al. Resolving IP aliases with prespecified timestamps [C]//The 10th ACM Sigcomm Conference on Internet Measurement. 2010: 172-178.
[17] MARCHETTA P, PERSICO V, PESCAPè A. Pythia: yet another active probing technique for alias resolution [C]//The 9th ACM Conference on Emerging Networking Experiments and Technologies. 2013: 229-234.
[18] SPRING N, MAHAJAN R, WETHERALL D, et al. Measuring ISP topologies with rocketfuel[J]. IEEE/ACM Transactions on Networking, 2004, 12(1): 2-16.
[19] MADHYASTHA H V, ISDAL T, PIATEK M, et al. iPlane: an information plane for distributed services[C]//The 7th Symposium on Operating Systems Design and Implementation. 2006: 367-380.
[20] FELDMAN D, SHAVITT Y. Automatic large scale generation of internet pop level maps[C]//The Conference on Global Communications (GLOBECOM). 2008: 1-6.
[21] SHAVITT Y, ZILBERMAN N. Geographical internet pop level maps[C]//The International Conference on Traffic Monitoring & Analysis. 2012: 121-124.
[22] SHAVITT Y, ZILBERMAN N. Improving IP geolocation by crawling the Internet PoP level graph[C]//The Conference on IFIP Networking. 2013: 1-9.
[23] KOHNO T, BROIDO A, CLAFFY K C. Remote physical device fingerprinting[J]. IEEE Transactions on Dependable and Secure Computing, 2005, 2(2): 93-108.
[24] FINK R. A statistical approach to remote physical device fingerprinting[C]//The Conference on Military Communications. 2007:1-7.
[25] DANISMAN T, ALPKOCAK A. Feeler: emotion classification of text using vector space model[C]//The AISB Convention on Communication, Interaction and Social Intelligence. 2008: 53-59.
[26] TANG B, WU Y, JIANG M, et al. Recognizing and encoding discorder concepts in clinical text using machine learning and vector space model[C]//Working Notes for CLEF 2013 Conference. 2013:23-26.
[27] ALSALLAL M, IQBAL R, AMIN S, et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry[C]//The 6th International Conference on Developments in eSystems Engineering (DeSE). 2013: 145-150.
[28] YEH J F, TAN Y S, LEE C H. Topic detection and tracking for conversational content by using conceptual dynamic latent dirichlet allocation[J]. Neurocomputing, 2016.
[29] CHEN Y, AMIRI H, LI Z, et al. Emerging topic detection for organizations from microblogs[C]//The 36th International ACM Sigir Conference on Research and Development in Information Retrieval. 2013: 43-52.
[30] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
[31] ZHU G, LUO X, LIU F, et al. An algorithm of city-level landmark mining based on Internet forum[C]//The 18th International Conference on Network-Based Information Systems(NBiS). 2015: 294-301.
[32] WANG Y, BURGENER D, FLORES M, et al. Towards street-level client-independent IP geolocation[C]//The 8th Conference on Networked Systems Design and Implementation (NSDI). 2011: 27-27.
[33] GUO C, LIU Y, SHEN W, et al. Mining the web and the Internet for accurate IP address geolocations[C]//The 28th IEEE Conference on Computer Communications (INFOCOM). 2009: 2841-2845.
[34] [EB/OL]. https://www.maxmind.com/zh/home.
[35] [EB/OL]. http://www.ip2location.com.
[36] [EB/OL]. https://www.neustar.biz/services/ip-intelligence.
[37] [EB/OL]. https://www.whois.net.
[38] 陳鵬. 網(wǎng)絡(luò)實(shí)體地理定位IP Mapping系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué), 2008. CHEN P. Design and implementation of network entity geo- location IP Mapping system[D]. Changsha: National University of Defense Technology, 2008 .
[39] 李威. 基于 IP 地址的網(wǎng)絡(luò)實(shí)體地理位置定位技術(shù)研究與實(shí)現(xiàn)[D].北京: 北京交通大學(xué), 2008. LI W. Research and implementation of the network entities location positioning technology based on the IP address[D]. Beijing: Beijing Jiaotong University, 2008.
[40] LIU H, ZHANG Y, ZHOU Y, et al. Mining checkins from location-sharing services for client-independent IP geolocation[C]//The 33th IEEE Conference on Computer Communications (INFOCOM). 2014: 619-627.
[41] PADMANABHAN V N, SUBRAMANIAN L. An investigation of geographic mapping techniques for internet hosts[J]. ACM Sigcomm Computer Communication Review, 2001, 31(4): 173-185.
[42] GUEYE B, ZIVIANI A, CROVELLA M, et al. Constraint-based geolocation of internet hosts[J]. IEEE/ACM Transactions on Networking, 2006, 14(6): 1219-1232.
[43] DONG Z, PERERA R D W, CHANDRAMOULI R, et al. Network measurement based modeling and optimization for IP geolocation[J]. Computer Networks, 2012, 56(1): 85-98.
[44] LAKI S, MáTRAY P, HáGA P, et al. A model based approach for improving router geolocation[J]. Computer Networks, 2010, 54(9):1490-1501.
[45] ARIF M J, KARUNASEKERA S, KULKARNI S. GeoWeight:Internet host geolocation based on a probability model for latency measurements[C]//The 33rd Australasian Conference on Computer Science. 2010: 89-98.
[46] ERIKSSON B, BARFORD P, SOMMERSY J, et al. A learning-based approach for IP geolocation[C]//The 11th InternationalConference on Passive and Active Measurement. 2010: 171-180.
[47] MAZIKU, HELLEN, SHETTY, et al. Enhancing the classification accuracy of IP geolocation[C]//The Conference on Military Communications. 2012: 1-6.
[48] ARIF M J, KARUNASEKERA S, KULKARNI S, et al. Internet host geolocation using maximum likelihood estimation technique[C]//The 24th IEEE International Conference on Advanced Information Networking and Applications. 2010: 422-429.
[49] LAKI S, MáTRAY P, HáGA P, et al. Spotter: a model based active geolocation service[C]//The 30th IEEE Conference on Computer Communications (INFOCOM). 2011: 3173-3181.
[50] ZHU G, LUO X, LIU F, et al. City-level geolocation algorithm of network entities based on landmark clustering[C]//The 18th International Conference on Advanced Communication Technology(ICACT). 2016: 306-309.
[51] KATZ-BASSETT E, JOHN J P, KRISHNAMURTHY A, et al. Towards IP geolocation using delay and topology measurements[C]//The 6th ACM Sigcomm Conference on Internet Measurement. 2006: 71-84.
[52] WONG B, STOYANOV I, SIRER E G. Octant: a comprehensive framework for the geolocalization of Internet hosts[C]//The 4th Usenix Symposium on Networked Systems Design & Implementation. 2007: 313-326.
[53] ZHAO F, SONG Y, LIU F, et al. City-level geolocationbased on routing feature[C]//The 29th International Conference on Advanced Information Networking and Applications. 2015: 414-419.
[54] CHEN J, LIU F, WANG T, et al. Towards region-level IP geolocation based on the path feature[C]//The 17th International Conference on Advanced Communication Technology (ICACT). 2015:468-471.
[55] RAE A, MURDOCK V, POPESCU A, et al. Mining the web for points of interest[C]//The 35th International ACM Sigir Conference on Research and Development in Information Retrieval. 2012:711-720.
趙帆(1989-),男,江蘇徐州人,解放軍信息工程大學(xué)博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)空間測(cè)繪與實(shí)體定位。
羅向陽(yáng)(1978-),男,湖北荊門(mén)人,解放軍信息工程大學(xué)副教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)空間測(cè)繪與實(shí)體定位、多媒體安全。
劉粉林(1964-),男,江蘇溧陽(yáng)人,解放軍信息工程大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。
Research on cyberspace surveying and mapping technology
ZHAO Fan1,2, LUO Xiang-yang1,2, LIU Fen-lin1,2
(1. School of Cyberspace Security, Zhengzhou Science and Technology Institute, Zhengzhou 450001, China;2. State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengzhou Science and Technology Institute, Zhengzhou 450001, China)
Cyberspace surveying and mapping technology is a network common foundation and application technology. The research progress of cyberspace surveying and mapping technology was reviewed and discussed. Firstly, the connotation and principle framework of cyberspace surveying and mapping technology was described. Secondly, relevant technologies were introduced in probing layer, mapping layer and drawing layer. Finally, some open problems in this field were discussed, and some interesting directions that may be worth researching in the future were indicated.
cyberspace surveying and mapping, probing, mapping, drawing, geographic space, social space
s: The National Natural Science Foundation of China (No.61379151, No.61272489, No.61302159,No.61401512, No.61572052), The Technology Innovation Excellent Youth Foundation of Henan Province (No. 144100510001)
TP393
A
10.11959/j.issn.2096-109x.2016.00097
2016-06-17;
2016-08-06。通信作者:羅向陽(yáng),xiangyangluo@126.com
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61379151, No.61272489, No.61302159, No.61401512, No.61572052);河南省科技創(chuàng)新杰出青年基金資助項(xiàng)目(No. 144100510001)
網(wǎng)絡(luò)與信息安全學(xué)報(bào)2016年9期