魏德賓 魏 寧 楊 力 孔志翔
1(大連大學(xué)信息工程學(xué)院 遼寧 大連 116622)2(大連大學(xué)通信與網(wǎng)絡(luò)重點實驗室 遼寧 大連 116622)3(南京理工大學(xué)自動化學(xué)院 江蘇 南京 210094)
空間信息網(wǎng)絡(luò)中的衛(wèi)星節(jié)點和鏈路都暴露在空中,易受到環(huán)境干擾和蓄意破壞,其中衛(wèi)星突然癱瘓造成流量中斷異常,流量集中過大引起突發(fā)異常,以及惡意流量的攻擊破壞衛(wèi)星節(jié)點正常運行,都是網(wǎng)絡(luò)受到干擾和破壞的重要表現(xiàn)形式。因此,建立有效的數(shù)據(jù)流檢測安全機(jī)制對空間信息網(wǎng)絡(luò)的正常運行具有十分重要的意義。
異常數(shù)據(jù)流是指流量集中過大引起突發(fā)異常以及惡意攻擊節(jié)點的數(shù)據(jù)流,反之為正常數(shù)據(jù)流。文獻(xiàn)[1]針對空間信息網(wǎng)絡(luò)易受到異常流量的攻擊行為,提出一種基于主成分分析和相似性分析的異常流量檢測措施。此方法對流量模型中的特征因子采用主成分分析法進(jìn)行降維,并分析降維后所形成特征因子的多維特征相關(guān)性,判斷是否存在異常。但是該方法對于閾值的設(shè)定采用固定閾值檢測方法,具備一定的局限性,不能滿足實踐的安全需要。文獻(xiàn)[2]設(shè)計了衛(wèi)星通信網(wǎng)絡(luò)的分布式入侵檢測系統(tǒng)。采用基于誤用的異常流量檢測機(jī)制,容許擴(kuò)展各種異常流量檢測規(guī)則,通過規(guī)則庫對數(shù)據(jù)流量進(jìn)行匹配檢測,判別是否為異常流量。但是該系統(tǒng)檢測的是地面站流入空間信息網(wǎng)絡(luò)的流量,對其內(nèi)部產(chǎn)生的異常流量還不能檢測。
文獻(xiàn)[3]提出一種運用遺傳算法進(jìn)行流量檢測的方法,該方法同時考慮時間和空間編碼信息,有助于識別復(fù)雜的行為模式,該系統(tǒng)能夠防止大量惡意流量的破壞,但該系統(tǒng)的弱點在于會引起錯誤警報。文獻(xiàn)[4]提出一種多級異常流量檢測模型框架MSML,采用分層半監(jiān)督K-均值算法找出所有的純聚類,并應(yīng)用基于集群的方法來尋找這些未知模式,細(xì)粒度分類模塊可以實現(xiàn)對未知模式樣本的細(xì)粒度分類,模型更新模塊為再訓(xùn)練提供了一種機(jī)制,但模型參數(shù)的選擇不夠靈活,具有一定的經(jīng)驗性。
軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN),其突出的特點是數(shù)據(jù)平面和控制平面既高度集中又互相分離,促進(jìn)對網(wǎng)絡(luò)資源的優(yōu)化,提高網(wǎng)絡(luò)資源的利用率[5-8]。文獻(xiàn)[9]設(shè)計了一種MADMAS方法,該方法利用了軟件定義網(wǎng)絡(luò)特性,在應(yīng)用平面和控制平面之間,使用數(shù)據(jù)探索技術(shù)來識別應(yīng)用層數(shù)據(jù)特征,對網(wǎng)絡(luò)流量分類,結(jié)合獨立分量分析和主成分分析技術(shù)來減少特征空間和特征處理時間。文獻(xiàn)[10]提出一種ARIMA-SVR的檢測方法。根據(jù)軟件定義網(wǎng)絡(luò)的特性,周期性地獲得網(wǎng)絡(luò)流量,采用自回歸積分滑動平均模型對流量進(jìn)行預(yù)測,之后通過支持向量回歸模型將預(yù)測結(jié)果進(jìn)行校正。這些方法僅思考數(shù)據(jù)流特征與類別之間的相關(guān)性,疏忽了數(shù)據(jù)流特征之間的相關(guān)性,沒有很好地去除冗余性,在流量識別分類方面沒有較好的準(zhǔn)確率。
針對SDN架構(gòu)的空間信息網(wǎng)絡(luò),本文將空間信息網(wǎng)絡(luò)數(shù)據(jù)流分為正常和異常兩種狀態(tài),提出一種基于mRMR-SVM的空間網(wǎng)絡(luò)數(shù)據(jù)流檢測方法。首先在數(shù)據(jù)平面收集空間信息網(wǎng)絡(luò)中的數(shù)據(jù)流,根據(jù)控制器下發(fā)的流表規(guī)則,采用最大相關(guān)與最小冗余(mRMR)方法,提取與每種狀態(tài)相關(guān)性最大并且特征屬性之間冗余最小的特征;然后采用加權(quán)歐氏距離改進(jìn)采用徑向基核函數(shù)的SVM訓(xùn)練分類器,并通過粒子群算法優(yōu)化分類器的精度,以提高區(qū)分正常流量和異常流量的準(zhǔn)確性;最后將數(shù)據(jù)流分為正常和異常兩種類別,丟棄異常數(shù)據(jù)流量,轉(zhuǎn)發(fā)正常數(shù)據(jù)流,保證空間信息網(wǎng)絡(luò)的安全性。
軟件定義網(wǎng)絡(luò)是一種新型的網(wǎng)絡(luò)框架,它的核心思想是數(shù)控分離,完成了數(shù)據(jù)平面和控制平面的高度解耦,分布和集中控制綜合網(wǎng)絡(luò)系統(tǒng)。借由SDN的思想,空間信息網(wǎng)絡(luò)的架構(gòu)采用分層設(shè)計,分為應(yīng)用平面、控制平面和數(shù)據(jù)平面,如圖1所示。
圖1 基于SDN的空間信息網(wǎng)絡(luò)架構(gòu)
基于SDN的空間信息網(wǎng)絡(luò)中應(yīng)用平面建立在空間站中或者地面上,在該層面進(jìn)行編程操作。通過北向接口可對控制平面應(yīng)用模塊進(jìn)行更新,方便對網(wǎng)絡(luò)配置和應(yīng)用業(yè)務(wù)的快速部署。
控制平面由GEO衛(wèi)星組成,通過OpenFlow協(xié)議調(diào)度全網(wǎng)衛(wèi)星,獲取網(wǎng)絡(luò)狀態(tài)。該層面中控制器對數(shù)據(jù)平面的檢測結(jié)果分析處理,查找異常狀態(tài)流量產(chǎn)生原因,通過全局調(diào)度來減少異常狀態(tài)流量的產(chǎn)生。
數(shù)據(jù)平面由LEO組成,包含數(shù)據(jù)流檢測模塊,負(fù)責(zé)數(shù)據(jù)流的檢測和轉(zhuǎn)發(fā)。當(dāng)基站發(fā)出的數(shù)據(jù)到達(dá)數(shù)據(jù)平面時,使用數(shù)據(jù)流檢測模塊進(jìn)行實時檢測,識別出正常和異常狀態(tài)流量,進(jìn)行轉(zhuǎn)發(fā)或剔除,并將識別的結(jié)果上傳至控制平面。
空間信息網(wǎng)絡(luò)中的異常流對網(wǎng)絡(luò)進(jìn)行惡意攻擊會對網(wǎng)絡(luò)的安全造成隱患,對實時到達(dá)的數(shù)據(jù)流進(jìn)行檢測,識別出正常和異常數(shù)據(jù)流,能夠提高空間信息網(wǎng)絡(luò)的安全性。本文基于SDN的空間信息網(wǎng)絡(luò)數(shù)據(jù)流檢測流程如圖2所示。
圖2 基于SDN的空間信息網(wǎng)絡(luò)數(shù)據(jù)流檢測流程
數(shù)據(jù)平面衛(wèi)星節(jié)點在某一時刻對空間信息網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行統(tǒng)計和處理,根據(jù)控制器下發(fā)的流表規(guī)則,對數(shù)據(jù)進(jìn)行流檢測識別,識別出正常和異常狀態(tài)的數(shù)據(jù)流并處理。識別的結(jié)果上傳至控制平面,控制器分析結(jié)果對空間信息網(wǎng)絡(luò)進(jìn)行維護(hù)。數(shù)據(jù)平面的數(shù)據(jù)流檢測方法通過最大相關(guān)與最小冗余準(zhǔn)則來計算影響數(shù)據(jù)流分類的主要特征屬性,采用加權(quán)歐氏距離和徑向基核函數(shù)方法改進(jìn)SVM訓(xùn)練分類器,再通過粒子群方法優(yōu)化分類器的精度,從而檢測出空間信息網(wǎng)絡(luò)正常和異常狀態(tài)的數(shù)據(jù)流。
數(shù)據(jù)流特征屬性的重要程度將直接影響網(wǎng)絡(luò)流量正?;虍惓顟B(tài)的準(zhǔn)確檢測。隨著提取特征維數(shù)的不斷增加,會產(chǎn)生一些不相關(guān)和冗余的特征。特征選擇是通過消除不相關(guān)和冗余的特征,獲取含有最佳辨識能力的子集的過程。本文設(shè)定流包數(shù)均值、流平均字節(jié)數(shù)、流表項增速、流請求速率、源IP增速、端口增速、協(xié)議的熵等7個特征屬性,根據(jù)控制器下發(fā)的表規(guī)則,采用最大相關(guān)與最小冗余(mRMR)方法提取網(wǎng)絡(luò)流量的主要特征。
控制器下發(fā)的流表[11-12]中,包含了數(shù)據(jù)流的12項信息,其中,交換機(jī)入端口(Ingress Port)屬于一層的標(biāo)識;源MAC地址(Ether Source)、目的MAC地址(Ether Dst)、以太網(wǎng)類型(Ether Type)、VLAN標(biāo)簽(VLAN id)、VLAN優(yōu)先級(VLAN priority)屬于二層標(biāo)識;源IP(IP src)、目的IP(IP dst)、IP協(xié)議字段(IP proto)、IP服務(wù)類型(IP ToS bits)屬于三層標(biāo)識;TCP/UDP源端口號(TCP/UDP Src Port)、TCP/UDP目的端口號(TCP/UDP Dst Port)屬于四層的標(biāo)識。這些匹配的字段較好地標(biāo)識出“流”,提供了更為精細(xì)的粒度。流表的格式如圖3所示。
Ingress PortEther SourceEther DstEther TypeVLAN idVLAN priorityIP srcIP dstIP protoIP ToS bitsTCP/UDP Src PortTCP/UDP Dst Port
對某一時刻流量統(tǒng)計后,通過皮爾遜相關(guān)系數(shù)(PCC)和最大信息系數(shù)(MIC)的相關(guān)性度量系數(shù)MPC來描述變量之間的關(guān)系,三種參數(shù)表示為:
(1)
式中:F和C分別表示特征屬性和類別變量;I(F;C)表示F和C之間的互信息量。設(shè)C={c1,c2,…,cl},l表示類別總數(shù),本文區(qū)分空間信息網(wǎng)絡(luò)流量分為正常流量和異常流量,則C={c1,c2}。F={F1,F2,…,Fn}表示特征集合,F(xiàn)i表示第i個特征。根據(jù)有監(jiān)督的特征選擇,特征Fi與類別標(biāo)簽C的相關(guān)度量系數(shù)可以定義為:
(2)
根據(jù)最大相關(guān)與最小冗余準(zhǔn)則中的最大相關(guān)原則,被選擇的特征Fi應(yīng)該與類別C具有最大相關(guān)性,即為D(Fi,C)取最大值時的Fi,記為Fmax,表示為:
Fmax=arg maxD(Fi,C)
(3)
同樣,根據(jù)mRMR中的最小冗余準(zhǔn)則,被挑選的特征Fi之間具有最小冗余性,冗余度計算公式和最小冗余值Fmin表示為:
(4)
Fmin=arg minR(F)
(5)
利用增量搜索方法來獲取由Φ(·)定義的近似最佳特征,算子Φ(D,R)用來定義優(yōu)化最大相關(guān)和最小冗余信息。結(jié)合D與R,那么最佳特征Fopt挑選準(zhǔn)則表示為:
Φ(D,R)=D(Fi,C)-R(F)
(6)
Fopt=arg maxΦ(D,R)
(7)
如果實驗已經(jīng)獲取了k-1個特征的特征子集Fk-1,那么第k個特征Fk需要從特征集合F-Fk-1中挑選,則通過Φ(D,R),F(xiàn)k的詳細(xì)挑選準(zhǔn)則表示為:
(8)
根據(jù)Fk的計算結(jié)果,訓(xùn)練分類器。
SVM[13-16]是一類按監(jiān)督學(xué)習(xí)形式對數(shù)據(jù)進(jìn)行二元分類的分類器,其目的是找到一個超平面把兩類數(shù)據(jù)分開,適合二分類問題。支持向量機(jī)通過核函數(shù)將輸入向量映射到高維空間,在高維空間找到最佳分類面并進(jìn)行分類。本文采用加權(quán)歐氏距離和徑向基核函數(shù)方法改進(jìn)SVM,找到滿足分類要求的最大分類間隔超平面,使得正常數(shù)據(jù)和異常數(shù)據(jù)正確分離。該方法適用于空間信息網(wǎng)絡(luò)復(fù)雜的大數(shù)據(jù)環(huán)境。
向量機(jī)的問題是使用分解方法將大規(guī)模問題分解為小規(guī)模問題,迭代地解決子問題。首先為檢測的數(shù)據(jù)集的每個特征屬性賦予一定的權(quán)重,使用權(quán)重向量w修改標(biāo)準(zhǔn)歐幾里得距離:
(9)
式中:dw(xi,xj)是兩條流量xi和xj之間的加權(quán)歐幾里得距離;xik是第i條流量的第k個特征屬性值;w=(w1,w2,…,wn)是權(quán)重向量。權(quán)重向量是每個特征屬性的重要度量。權(quán)重向量w使用計算的mRMR歸一化定義:
(10)
exp(-Gamma[(xi-xj)TPPT(xi-xj)]
(11)
特征屬性加權(quán)矩陣是n階對角矩陣:
(12)
參數(shù)Gamma影響分類器分類的精度:
(13)
Gamma越小,σ越大,支持向量越多,Gamma越大,σ越小,支持向量越少。本文采用粒子群算法(Particle Swarm Optimization,PSO)[17-20]優(yōu)化SVM分類器的精度。粒子群優(yōu)化是參數(shù)優(yōu)化的一種啟發(fā)式方法,可以提高正常流量和異常流量識別的準(zhǔn)確性。將空間信息網(wǎng)絡(luò)流量集定義為一組m個粒子:
Z={z1,z2,…,zm}
(14)
每個粒子代表數(shù)據(jù)集的一個數(shù)據(jù)流,將其映射為空間D中的一個點,設(shè)D的維數(shù)為p。
zi=[zi1,zi2,…,zip]T∈Ai=1,2,…,m
(15)
式中:A代表搜索空間。定義優(yōu)化的適應(yīng)度函數(shù)為:
(16)
若干粒子組合成一個群體,群體包含當(dāng)前適應(yīng)度的信息。通過先前位置的最佳適應(yīng)度以及隨機(jī)添加的一個或多個其他粒子群的最佳適合度來確定其在搜索空間中的移動。粒子將在搜索空間A中迭代地移動,移動和移動位置的機(jī)制使用速度其表示:
vi=[vi1,vi2,…,vip]Ti=1,2,…,m
(17)
在PSO中有一個Q參數(shù),它是一個存儲集,存儲最佳位置被標(biāo)記為本地最佳(Qbest)。
Qbest=[qi01,qi02,…,qi0p]T∈A
(18)
從每一個群體中獲得全局最佳值,其表明所有群體的最佳粒子值。
Gbesti=Qbesti∈A
(19)
為了獲得Gbesti值,則必須在每次迭代時更新粒子的位置,更新位置和速度變換公式為:
(20)
式中:k1、k2是加速度常數(shù),用來調(diào)節(jié)學(xué)習(xí)最大步長;θ1,θ2∈[0,1]為隨機(jī)數(shù),以增加搜索隨機(jī)性。
(21)
根據(jù)上述公式和適應(yīng)度函數(shù)來優(yōu)化SVM,提高區(qū)分正常流量和異常流量的準(zhǔn)確度。由于迭代次數(shù)的增多會增加分類器的復(fù)雜性,所以本文使用的迭代次數(shù)是10次。通過適應(yīng)度函數(shù)f可以評估種群數(shù)據(jù)是否正常。適應(yīng)度值越小,正常流量和異常流量的分類程度越好;反之,則分類程度越差。
本文算法的時間復(fù)雜度主要由粒子移動組成。假設(shè)粒子數(shù)為r,迭代次數(shù)為k,適應(yīng)度計算的時間復(fù)雜度O(N),因此,本文算法的時間復(fù)雜度為O(rkN)。
本文算法的空間復(fù)雜度主要指SVM訓(xùn)練的空間復(fù)雜度:1) 核函數(shù)的計算;2) 粒子群的移動占據(jù)空間約為O(rN)。因此,本文算法空間復(fù)雜度為O(rN)。
在虛擬機(jī)VMware下安裝Ubuntu系統(tǒng),使用Mininet搭建一個SDN網(wǎng)絡(luò)環(huán)境,Mininet能夠簡單迅速地創(chuàng)建用戶自定義拓?fù)?。將floodlight控制器作為GEO節(jié)點,OpenVSwich節(jié)點表示LEO作為數(shù)據(jù)平面,建立一個11顆衛(wèi)星的小型星座表示基于SDN的空間信息網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)。使用KDDCup’99數(shù)據(jù)集中10%的訓(xùn)練子集和測試子集作為實驗仿真數(shù)據(jù),通過仿真工具M(jìn)ininet和Python腳本可根據(jù)數(shù)據(jù)信息生成數(shù)據(jù)流,發(fā)送給交換機(jī)。SDN控制器通過OpenFlow協(xié)議與SDN交換機(jī)進(jìn)行網(wǎng)絡(luò)交互,基于OpenFlow協(xié)議下發(fā)流表。
衛(wèi)星節(jié)點信息如表1所示。
表1 衛(wèi)星節(jié)點信息表
用STK構(gòu)建衛(wèi)星網(wǎng)絡(luò)如圖4所示。
圖4 衛(wèi)星網(wǎng)絡(luò)2D拓?fù)浣Y(jié)構(gòu)示意圖
本文設(shè)計3顆GEO衛(wèi)星,高度為35 860 km,8顆LEO衛(wèi)星,LEO衛(wèi)星網(wǎng)絡(luò)參數(shù)如表2所示。
表2 LEO衛(wèi)星網(wǎng)絡(luò)參數(shù)表
本文通過提取流表項中與數(shù)據(jù)流相關(guān)的信息,選擇出對分類有效的相關(guān)特征子集,特征子集設(shè)定如下:
(1) 流包數(shù)均值(Average Number of Packets,ANPF)。
式中:PacketsNumi是一定時間間隔內(nèi)第i條流中數(shù)據(jù)包的數(shù)目;FlowsNum是這個時間間隔內(nèi)流的總數(shù)。通過連續(xù)隨機(jī)快速地生成大量的異常流,每條流的數(shù)據(jù)包數(shù)量將減少。
(2) 流平均字節(jié)數(shù)(Average Bytes per Flow,ABF)。
式中:BitNumi是一定時間間隔內(nèi)第i條流的字節(jié)總數(shù)。同ANPF,異常流的字節(jié)數(shù)不是太高就是太低,因此,ABF成為檢測異常流的重要特性。
(3) 流表項增速(Rate of Flow Entries,RFE)。
式中:FlowTableNum是一定時間間隔內(nèi)流表項的總數(shù);ΔT為時間間隔,異常流會使控制器產(chǎn)生大量的流表信息。
(4) 流請求速率(Flow Request Rate,FRR)。
式中:FlowsNum是一定時間間隔內(nèi)流的總數(shù)。異常流的生成速度會顯著提高,所以異常流的請求速率會比正常流大。
(5) 源IP增速(Source IP Growing Speed,SGS)。
式中:sIPNum指一定時間間隔內(nèi)源IP地址的數(shù)目。異常流可能生成大量虛假IP地址對目標(biāo)衛(wèi)星進(jìn)行破壞,所以源IP地址的增速一定會明顯提升。
(6) 端口增速(Ports Gennerating Speed,PGS)。
式中:PortsNum是一定時間間隔內(nèi)不同端口的數(shù)量。正常情況下端口的變化量比較穩(wěn)定,而異常流不但會偽造IP地址,還會隨機(jī)生成端口號。
(7) 協(xié)議的熵(Entropy of Protocol Type,EPT)。
式中:TypeNum是一定時間間隔內(nèi)不同協(xié)議的數(shù)量。異常流量越多,流量協(xié)議的隨機(jī)性就越小,導(dǎo)致異常流量協(xié)議的熵比正常流量的熵小。
在流量識別中評估分類器的分類能力,通常使用真正數(shù)、假正數(shù)、真負(fù)數(shù)、假負(fù)數(shù)、準(zhǔn)確率和誤判率等。對任一輸出類別A,真正數(shù)TP(True Positive)是指類別為A的流被判定為類別A的流個數(shù);假正數(shù)FP(False Positive)是指類別非A的流被誤判為類別A的流個數(shù);真負(fù)數(shù)TN(True Negative)是指類別非A被判定為非A的流個數(shù);假負(fù)數(shù)FN(False Negative)是指類別為A誤判為非A的流個數(shù)。準(zhǔn)確率和誤判率代表分類器對每種類別的檢測能力,基于SDN的空間信息網(wǎng)絡(luò)數(shù)據(jù)流檢測模型性能的指標(biāo):
本文的實驗仿真數(shù)據(jù)包括訓(xùn)練子集和測試子集,數(shù)據(jù)集中共有39種異常類型,訓(xùn)練集中包括22種,其余17種異常類型在測試集中。圖5-圖7是訓(xùn)練子集中上述7個特征參數(shù)隨時間變化情況統(tǒng)計圖。
圖5 流包數(shù)均值、源IP增速、端口增速、協(xié)議的熵變化情況統(tǒng)計圖
圖6 流平均字節(jié)數(shù)隨時間變化情況統(tǒng)計圖
圖7 流表項增速和流請求速率隨時間變化情況統(tǒng)計圖
可以看出,隨著時間的變化,7個特征都會出現(xiàn)不同程度的變化,流表項增速、流請求速率、源IP增速、端口增速的提高,流包數(shù)均值、協(xié)議的熵的降低,以及流平均字節(jié)數(shù)的大幅度提高和降低都是異常數(shù)據(jù)流的聚集區(qū)。異常數(shù)據(jù)流增多,特征參數(shù)會出現(xiàn)明顯的變化。
上述7個特征變化情況服從正態(tài)分布,其參數(shù)如表3所示。
表3 7個特征變化情況正態(tài)分布參數(shù)
采用粒子群算法優(yōu)化SVM參數(shù)Gamma,提高分類器的精度,因此,本文的Gamma值取0.9時,分類器的精度達(dá)到最佳。分類器精度隨參數(shù)Gamma變化情況如圖8所示。
圖8 Gamma和分類器精度關(guān)系
將本文算法與文獻(xiàn)[9]MADMAS算法和文獻(xiàn)[10]ARIMA-SVR算法進(jìn)行對比,這兩種算法都是基于SDN技術(shù),與本文算法都是在同等條件下的應(yīng)用。ARIMA-SVR算法是一種輕量級算法,相比之下可以證明本文算法在空間信息網(wǎng)絡(luò)的適用性;MADMAS算法對數(shù)據(jù)流細(xì)粒度分類,對異常數(shù)據(jù)流檢測精確度較好,相比之下可證明本文算法的精確性。本文方法與MADMAS、ARIMA-SVR的對比分析如下。數(shù)據(jù)集包含正常和異常兩種狀態(tài)的數(shù)據(jù),在相同的數(shù)據(jù)集下對比其檢測正常和異常兩種狀態(tài)數(shù)據(jù)流的準(zhǔn)確率和正常數(shù)據(jù)流被檢測為異常數(shù)據(jù)流的誤判率。
圖9表示檢測數(shù)據(jù)流正常和異常的準(zhǔn)確率??梢钥闯觯S著數(shù)據(jù)數(shù)量的增加,三種方法檢測準(zhǔn)確率略有下降。但本文方法整體準(zhǔn)確率要比其他兩種方法高,因為本文所采用的mRMR算法提取流量中狀態(tài)相關(guān)性最大、特征屬性之間冗余最小的特征,改進(jìn)的SVM算法適合大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流檢測,優(yōu)化分類器參數(shù)提高分類器的精度,提高識別正常和異常數(shù)據(jù)流的準(zhǔn)確率。本文方法的檢測的平均準(zhǔn)確率比MADMAS提高了2.1百分點,比ARIMA-SVR提高了4.9百分點,對數(shù)據(jù)流的檢測具有較高的準(zhǔn)確率。
圖9 數(shù)據(jù)流檢測準(zhǔn)確率
圖10表示正常數(shù)據(jù)流檢測為異常數(shù)據(jù)流的誤判率。隨著數(shù)據(jù)數(shù)量的增加,三種方法誤判率有所上升,但本文方法要比其他兩種方法誤判率低,因為特征提取的mRMR算法在數(shù)據(jù)增多、流量種類變多時會影響對數(shù)據(jù)流檢測的結(jié)果。通過實驗對比分析,本文方法檢測的平均誤判率比MADMAS提高了6.1%,比ARIMA-SVR提高了11.4%。
圖10 數(shù)據(jù)流檢測誤判率
圖11是三種方法的檢測時間對比??梢钥闯?,隨著數(shù)據(jù)數(shù)量的增加,三種方法的檢測時間都有所增多。在開始階段,本文方法所用的檢測時間高于其他兩種方法,數(shù)據(jù)平面包含數(shù)據(jù)流檢測和轉(zhuǎn)發(fā)功能,特征提取和優(yōu)化分類器參數(shù)會有一定的時間消耗。本文方法檢測時間總體介于MADMAS和ARIMA-SVR之間。
圖11 數(shù)據(jù)流檢測時間
本文提出一種基于SDN的空間信息網(wǎng)絡(luò)的數(shù)據(jù)流檢測方法。該方法根據(jù)設(shè)定的7個特征屬性,采用mRMR算法提取數(shù)據(jù)流的主要特征,采用加權(quán)歐氏距離和徑向基核函數(shù)改進(jìn)SVM訓(xùn)練分類器,再通過粒子群方法優(yōu)化分類器的精度,對數(shù)據(jù)流實時檢測。最后對本文方法、MADMAS和ARIMA-SVR的性能進(jìn)行仿真對比,本文方法的準(zhǔn)確率更高,誤判率更低。但是隨著數(shù)據(jù)數(shù)量的增加,檢測時間有所增加,是本文方法代價體現(xiàn)。在未來的研究中可以考慮降低檢測算法的復(fù)雜度,減少數(shù)據(jù)平面的資源消耗和檢測時間,提高空間信息網(wǎng)絡(luò)的安全性。