李 靜
(河南大學(xué)濮陽工學(xué)院,河南 濮陽 457000)
無線多跳網(wǎng)絡(luò)作為一種可以動態(tài)的持續(xù)擴張的網(wǎng)絡(luò)構(gòu)架,可以完成處于不同區(qū)域無線設(shè)備間的數(shù)據(jù)傳輸,現(xiàn)已經(jīng)成為了人們?nèi)粘I畹闹匾A(chǔ)設(shè)施。它作為人類社會所有活動的基礎(chǔ)性、全局性數(shù)字平臺,發(fā)揮著前所未有的重要性。隨著網(wǎng)民數(shù)量日益增加,信息量的增加,對網(wǎng)絡(luò)安全要求也與日俱增,但是部分漏洞會使得網(wǎng)絡(luò)安全保護變得特別復(fù)雜,其中以多維異常數(shù)據(jù)最為困難,對此國內(nèi)外學(xué)者提出了以下幾種解決方法。
文獻(xiàn)[1]首先構(gòu)建無線多跳網(wǎng)絡(luò)數(shù)據(jù)分布模型,從而得到多維異常數(shù)據(jù)分布狀況,然后經(jīng)過關(guān)聯(lián)規(guī)則挖掘算法得到其相似度,憑借相似度對隸屬度進行估算。最后結(jié)合模糊集合理論獲得一種改進的關(guān)聯(lián)聚類算法,通過該算法對多維異常數(shù)據(jù)進行隔離處理。但是該方法中,需要通過關(guān)聯(lián)規(guī)則來獲取所有多維異常數(shù)據(jù)的相似度,這就導(dǎo)致在找尋異常數(shù)據(jù)相似度時,無法同時進行下一步工作,使得整體效率變慢。文獻(xiàn)[2]首先使用寄存器對異常狀況進行編碼優(yōu)化處理,再在計算浮點函數(shù)的過程內(nèi),通過幾種計算方法對核心運算隔離,然后對異常數(shù)據(jù)進行分段式處理,最后融合基礎(chǔ)數(shù)字函數(shù)算法的優(yōu)點,以最小的誤差冪計算與求和為基礎(chǔ),實現(xiàn)適用于多維異常數(shù)據(jù)隔離。但是該方法需要對數(shù)據(jù)進行大量的計算和重新編碼,這就導(dǎo)致其容易出現(xiàn)數(shù)據(jù)丟失問題。文獻(xiàn)[3]首先使用SPRT算法對網(wǎng)絡(luò)濾波殘差進行異常檢測,在確定異常部分后測量隔離異常尺寸,然后重新構(gòu)建卡爾曼濾波觀測方程并完成量測數(shù)據(jù)更新,最后將濾波結(jié)果當(dāng)做下一次的濾波初值,通過該值來隔離多維異常數(shù)據(jù)。但是該方法需要對異常數(shù)據(jù)濾波,并測量其尺寸,這個過程可能會導(dǎo)致在對異常數(shù)據(jù)進行隔離時,有一定幾率會將正常數(shù)據(jù)也一并進行隔離。
針對上述問題,本文提出了一種無線多跳網(wǎng)絡(luò)多維異常數(shù)據(jù)動態(tài)隔離,該方法通過相似度統(tǒng)計算法提取出完整的多維異常數(shù)據(jù)特征,然后經(jīng)過當(dāng)前的網(wǎng)絡(luò)拓?fù)錁?gòu)架找到開斷開關(guān),切斷異常數(shù)據(jù)的節(jié)點,從而達(dá)到將多維異常數(shù)據(jù)隔離的目的,通過對比實驗驗證此方法的有效性。
針對多維異常數(shù)據(jù)檢測來說,需要經(jīng)過收集實況數(shù)據(jù)來得到初始數(shù)據(jù),同時進行分析獲得所有特征的分布情況,本文的特征提取能夠在IP/TCP協(xié)議的不同階層進行操作,例如:協(xié)議類型、TCP包頭里的源、指定IP源,指定目標(biāo)的端口等。利用特征的分布情況擬定標(biāo)準(zhǔn)的運轉(zhuǎn)模型[4],把實況內(nèi)的特征分布和正常數(shù)據(jù)進行對比,發(fā)現(xiàn)其數(shù)據(jù)與正常數(shù)據(jù)之間存在較大差距時,則能夠懷疑其是多維異常數(shù)據(jù),在經(jīng)過接下來的跟蹤分析確保多維異常情況。
為了在無線多跳網(wǎng)絡(luò)中發(fā)現(xiàn)多維異常狀態(tài),本文經(jīng)過分析大流量對象的動態(tài)情況來評測是否出現(xiàn)網(wǎng)絡(luò)多維異常情況。本文擬定的是含有一定規(guī)模的多維異常模型,即經(jīng)過多維異常在收集樣本[5]時間內(nèi),其所接收的數(shù)據(jù)能夠進入至監(jiān)控范圍中的全部對象流量排名的前N位。所以就只檢測排在前N位的目標(biāo),檢測目標(biāo)的測評標(biāo)準(zhǔn)為通過源/目的IP地址,源/目的的端口、數(shù)據(jù)包與協(xié)議大小等信息。
為了方便表達(dá),只使用相似度的標(biāo)準(zhǔn)來設(shè)計其相鄰時間內(nèi)的高頻統(tǒng)計結(jié)果的相似度。維n變量X和Y的類似度定義如下所示
(1)
類似度r含有以下性質(zhì):
1)r≤1。
2)r=1的關(guān)鍵條件為P(Y=a+bX)=1,其中a,b代表常數(shù)。
通過上述1)、2)能夠看出,r越靠近1,X和Y越含有線性關(guān)系。而r的絕對值為1時,其Y與X中則具有著線性關(guān)系[6]。X與Y之間的關(guān)聯(lián)系數(shù)r代表刻畫Y和X內(nèi)線性關(guān)系的關(guān)聯(lián)程度特征數(shù)字。類似度的特征可以用來評測兩個樣本內(nèi)的具體情況,通過比對相似度的變化情況,就可以找出多維異常數(shù)據(jù)。
對一次多維異常過程中收集的樣本時間段,利用估算獲得其相似度序列,并進行分析之后發(fā)現(xiàn),其多維異常數(shù)據(jù)在影響正常數(shù)據(jù)之前時,相似度都處于一種穩(wěn)定的、水平較高情況下,在異常開始之后,因為受到影響,網(wǎng)絡(luò)流量會出現(xiàn)很大程度的增加,導(dǎo)致進入排名之前N位,或者是開始時就處于排名前的N位,由于流量的增加而致使排名提高,都會將相似度的值下降到很低的程度,而之后的若干時間中,因為一直在被多維異常數(shù)據(jù)攻擊,受到干擾的網(wǎng)絡(luò)流量還是會在排名前N位中的臨近位置,同時相似度的值又將強制提高至較高的水平,直到多維異常數(shù)據(jù)干擾結(jié)束,這時因為受到干擾,網(wǎng)絡(luò)流量[7]將大幅度減少,致使類似度產(chǎn)生大幅度下降,然后又回轉(zhuǎn)到了受異常干擾的狀態(tài)。
憑借上述分析,擬定ti,ti+1,…,tn時刻(i 受異常影響開始時相似度的下降階段:其關(guān)鍵是ri-ri+1>α; 受異常印象結(jié)束時相似度的上升階段:其關(guān)鍵是rk-ri+1>β,其中k為大于i+1的某種標(biāo)準(zhǔn)值; 受異常持續(xù)影響時相似度的值回歸到穩(wěn)定狀態(tài)階段:其關(guān)鍵是|rj+1-rj|<ε,其中k+1 上述條件內(nèi)所有參數(shù)的解釋:α代表實現(xiàn)確準(zhǔn)的相似度下降閾值,β代表事先確準(zhǔn)的累速度上升閾值,ε代表受異常影響時的閾值穩(wěn)定情況。 若tn時刻在滿足儲存的相似度序列上述條件,則tn就是可疑點。同時需要注意其中的上升階段使用第k點與第i+1點進行較比,這時因為異常影響開始的時候不會直接進入穩(wěn)定狀態(tài),所以相似度上升也不會非???,因此這里跳過k-i+1個時刻。 無線多跳網(wǎng)絡(luò)中擁有數(shù)據(jù)傳輸量龐大、數(shù)據(jù)傳輸效率高以及傳輸時延短等特點。在提取特征的時,不直接進行提取,而是通過傳輸特性對其實行異常實時檢測,因此,能夠采用實時反饋方法來對無線多跳網(wǎng)絡(luò)的多維異常數(shù)據(jù)進行檢測。具體過程如下:1)信息粗過濾[8]:在找出多維異常數(shù)據(jù)時,能夠不關(guān)注其總體特征,只是獲取一小部分特征,根據(jù)該部分的特征對數(shù)據(jù)進行粗過濾。2)反饋的異常特征:采用粗過濾方式來獲取信息,需要收集更多特征,把提取的特征與起始的特征進行融合從而形成一個完整的特征,將其返還至過濾系統(tǒng),以此進行更加精準(zhǔn)的過濾。3)重復(fù)上述流程,直到?jīng)]有能夠提取的特征為止,使獲得的特征更加完整。若存在多維異常數(shù)據(jù),首先是無線多跳網(wǎng)絡(luò)里的ICMP出現(xiàn)影響,于是信息粗過濾會將ICMP進行分析,進而得出ICMP的尺寸大部分都是93,于是將這些信息返還至粗過濾系統(tǒng),將所有尺寸是93的數(shù)據(jù)進行分析,從而發(fā)現(xiàn)這些數(shù)據(jù)包[9]多部分都屬于Request包,也重新將這些數(shù)據(jù)信息返還至粗過濾系統(tǒng),接下來通過信息粗過濾分析尺寸是93的ICMP的Request包,反復(fù)其過程,直至發(fā)現(xiàn)多維異常的全部特征為止,下列為具體過程。 1)尺寸有限隊列特征提取 尺寸有限序列反應(yīng)的為指定尺寸數(shù)據(jù)包種的多維異常合集特征,而當(dāng)無線多跳網(wǎng)絡(luò)中某個數(shù)據(jù)包的尺寸突然提升時,就將這些數(shù)據(jù)包的尺寸當(dāng)做一種特征融入至敏感序列中,一旦這些特征到達(dá)了一定的閾值,分析序列就能將這些尺寸特征轉(zhuǎn)移到警戒序列。 其尺寸有限序列的主要特征是分析多維異常數(shù)據(jù)包,具體有以下幾個步驟: ①數(shù)據(jù)包的協(xié)議類型 在一個分析周期的時間段內(nèi),使用上述標(biāo)準(zhǔn)尺寸的數(shù)據(jù)類型作為記錄,假如pi(i=1…255)就是協(xié)議類型為i的數(shù)據(jù)包占的百分比,得到協(xié)議類型為I并使p1=max(pi)成立。 ②數(shù)據(jù)包的源和指定端口 憑借上述協(xié)議種類的分析,I代表TCP或者UDP,那么對該尺寸種類是I的數(shù)據(jù)包記錄端口信息。si(i=1…65535)與di(j=1…65535)分別代表目標(biāo)端口i與初始端口j的數(shù)據(jù)包所使用的百分比。分別取I,J使得si=max(si)dj=max(dj)(i,j=1…65535)。擬定閾值P,假如s1>P判定初始端口是I,Dj>P的目標(biāo)端口是J。即兩種都不滿足,說明該多維異常是特征的端口。 ③數(shù)據(jù)包中的多維異常特征 憑借上述理論,處理數(shù)據(jù)包中的內(nèi)容。為了提高處理的速度,從整體上考慮數(shù)據(jù)包的內(nèi)容。 設(shè)定:數(shù)據(jù)包的尺寸是l,data0,data1,…datal-1分別代表字節(jié)值出現(xiàn)最多的頻率,p0,p1…pl-1代表這些值在對應(yīng)的節(jié)點中出現(xiàn)的頻率。 分別估算出p0,p1…pl-1的方差E(p)與均值D(p) (2) 憑借E(p)與D(p)的值,擬定合適的閾值,以此判斷數(shù)據(jù)包中是否出現(xiàn)了多維異常的狀態(tài)。 經(jīng)過上述過程獲得多維異常所在的線路區(qū)段特征信息,但是要想隔離多維異常還要找出能夠開斷的開關(guān),因為無線多跳網(wǎng)絡(luò)運行軌道為DG多邊形[10],每次隔離同樣的多維異常區(qū)域所使用的開斷開關(guān)可能都是不同的。所以,完整的無線多跳網(wǎng)絡(luò)多維異常隔離算法,在判斷出多維異常區(qū)域的基礎(chǔ)上,必須可以融合當(dāng)前的網(wǎng)絡(luò)拓?fù)錁?gòu)架來判定需要開斷的開關(guān)。 多維異常隔離算法也是經(jīng)過合集運算的方法實現(xiàn),首先擬定一種一維矩陣F,用在儲存Fault合集內(nèi)的異常區(qū)域標(biāo)號。C1代表和異常區(qū)域正前方直接連通的節(jié)點集合、C2代表和異常區(qū)域反方向直接連通的節(jié)點集合、C3代表出現(xiàn)過的網(wǎng)絡(luò)數(shù)據(jù)節(jié)點集合,表達(dá)公式別分為 C1=Dcolpos(Drowpos(f(i))(i)) (3) C2=Dcolrev(Drowrev(f(i))(i)) (4) C=Growpos∪Growrev (5) 那么開斷開關(guān)的合集Cut是 Cut=(C1∪C2)∩C3 (6) 同理,擬定M1,M2代表異常點,那么 F=[1,11] (7) C1={1,11},C2={2,6} (8) C3={1,2,3,4,5,7,10,11} (9) Cut=(C1∪C2)∩C3={1,2,11} (10) 如果上述的結(jié)果正確,開斷開關(guān)K1,K2,K11能夠快速的切斷多維異常。 在進行多維異常定位時有可能出現(xiàn)異常信息錯誤,異常信息丟失或者通信系統(tǒng)異常等情況。所以,異常定位和隔離算法應(yīng)該擁有一定的容錯性[11],以應(yīng)變對異常定位和隔離過程中可能發(fā)生的突發(fā)情況。在無線多跳網(wǎng)絡(luò)的信息傳輸過程中,常見的問題可以分為信息錯誤與信息丟失兩大類,下面將分別進行方法驗證。 2.4.1 多維異常丟失 在某個網(wǎng)絡(luò)節(jié)點的異常信息丟失時,在正向異常信息矩陣Gpos和反向異常信息矩陣Grev內(nèi),把該節(jié)點返回的信息擬定成1,之后通過正常流程進行多維異常定位。 若某種節(jié)點的異常信息丟失,擬定Gpos(3)=Grev(3)=1。 (11) (12) (13) (14) F1={2,3,4,10,9}F2={2,7} (15) F3={1,3}F4={1,2,3,4} (16) Fault=F-(F1∪F2)∩(F3∪F4)={1} (17) 同理:Cut=(C1∪C2)∩C3={1,2} 通過上述結(jié)論能夠得知異常信息丟失時,本文方法也能通過相似度統(tǒng)計異常檢測算法對丟失的信息進行定位,從而完成對多維異常的隔離,以減少異常數(shù)據(jù)丟失的情況。 2.4.2 異常信息錯誤 在無線多跳網(wǎng)絡(luò)正常的狀態(tài)下 (18) (19) 如果節(jié)點返回的信息是1,錯誤判斷是0,返現(xiàn)異常信息矩陣更新如下所示 (20) (21) F1={2,3,10,9}F2={7} (22) F3={1}F4={1,2,4} (23) Fault=F-(F1∪F2)∩(F3∪F4)=〈1,4〉 (24) Cut=(C1∪C2)∩C3={1,2} (25) 通過上述能夠看出,開斷的異常開關(guān)序列不受信息錯誤的影響,即憑借開斷開關(guān)的集合Cut對多維異常區(qū)間集合Fault進行修正,如果評測出的某個多維異常區(qū)域不是開斷開關(guān)[12]相鄰的區(qū)域,就認(rèn)定為實際情況下,該區(qū)域是正常區(qū)域。 仿真環(huán)境為Intel Celeron Tulatin1GHz CPU和384MB SD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。為了進一步證明本文方法對無線多跳網(wǎng)絡(luò)多維異常數(shù)據(jù)隔離的性能,通過實際的實驗對本文方法的性能進行驗證。 為了驗證多維異常數(shù)據(jù)隔離效果,需要進行實驗,實驗指標(biāo)設(shè)定如下: 1) 多維數(shù)據(jù)受損率 通過比較數(shù)據(jù)受損率,分析不同方法下數(shù)據(jù)的受損率。數(shù)據(jù)受損率越高,數(shù)據(jù)隔離效果越差;反正,數(shù)據(jù)隔離效果越好。受損率計算公式為 Dr=Dn/Ds×100% (26) 其中,Dn代表受損數(shù)據(jù)量,Ds代表數(shù)據(jù)總量。 2)多維數(shù)據(jù)完整度 通過多維數(shù)據(jù)完整度對數(shù)據(jù)隔離效果進行驗證。多維數(shù)據(jù)完整度越高,數(shù)據(jù)隔離效果越好;反正,數(shù)據(jù)隔離效果越差。完整度計算公式為 (27) 其中,Ld代表丟失數(shù)據(jù)。 3)多維異常數(shù)據(jù)吞吐率 多維異常數(shù)據(jù)吞吐率越高,單位時間內(nèi)數(shù)據(jù)請求次數(shù)越多,證明數(shù)據(jù)傳輸效果越高,保護作用也就越好,多維異常數(shù)據(jù)的隔離效果也就越好;同樣的,多維異常數(shù)據(jù)吞吐率越低,說明單位時間內(nèi)數(shù)據(jù)請求次數(shù)越少,數(shù)據(jù)的保護作用也就越差,多維異常數(shù)據(jù)的隔離效果差。數(shù)據(jù)吞吐率Td計算公式為 Td=Dreqs/td (28) 其中,Dreqs代表數(shù)據(jù)請求量,td時間。 根據(jù)上述三個指標(biāo)對本文方法的性能進行驗證。 采用本文方法、文獻(xiàn)[2]方法與文獻(xiàn)[3]方法檢測多維數(shù)據(jù)受損率,具體結(jié)果如圖1所示。 圖1 不同方法的多維數(shù)據(jù)受損率 分析圖1可知,三種方法的多維數(shù)據(jù)受損率與數(shù)據(jù)量相關(guān),當(dāng)數(shù)據(jù)量為100MB時,本文方法數(shù)據(jù)受損率為0.05%,文獻(xiàn)[2]方法數(shù)據(jù)受損率為0.6%,文獻(xiàn)[3]方法數(shù)據(jù)受損率為0.9%;數(shù)據(jù)量增大到500MB時,三種方法的數(shù)據(jù)受損率都增大,文獻(xiàn)[2]方法數(shù)據(jù)受損率為5.7%,文獻(xiàn)[3]方法數(shù)據(jù)受損率為8.9%;本文方法數(shù)據(jù)受損率僅為0.21%,數(shù)據(jù)受損率在三種方法中最低,且不超過1%,數(shù)據(jù)隔離效果佳。 采用文獻(xiàn)[2]方法、文獻(xiàn)[3]方法與本文方法對多維異常數(shù)據(jù)隔離后,檢測數(shù)據(jù)的完整度。結(jié)果見下表。 分析表1可知,不同方法在不同數(shù)據(jù)量下數(shù)據(jù)完整性不同。當(dāng)數(shù)據(jù)量為5MB時,文獻(xiàn)[2]方法數(shù)據(jù)完整度為98.6%,文獻(xiàn)[3]方法數(shù)據(jù)完整度為97.9%,本文方法數(shù)據(jù)完整度99.8%,此時三種方法的數(shù)據(jù)完整性相差不大;當(dāng)數(shù)據(jù)量提升到15MB時,文獻(xiàn)[2]方法數(shù)據(jù)完整度為92.5%,文獻(xiàn)[3]方法數(shù)據(jù)完整度為92.1%,本文方法數(shù)據(jù)完整度高達(dá)99.2%。說明本文方法擁有較好的數(shù)據(jù)數(shù)據(jù)隔離效果,同時不會因為數(shù)據(jù)量的增多,而隔離效果下降。 表1 不同方法的多維數(shù)據(jù)完整度 在上述實驗基礎(chǔ)上進行步對多維數(shù)據(jù)吞吐率進行對比,得到數(shù)據(jù)吞吐率結(jié)果如下。 分析圖2可知,在不同下內(nèi)數(shù)據(jù)吞吐量不同。當(dāng)時間為1s時,文獻(xiàn)[2]方法吞吐率為4×103reqs/s,文獻(xiàn)[3]方法吞吐率為3×103reqs/s,本文方法吞吐率為8×103reqs/s。隨著時間的增加,數(shù)據(jù)的吞吐率增大,當(dāng)時間為6s時,文獻(xiàn)[2]方法吞吐率為27×103reqs/s,文獻(xiàn)[3]方法吞吐率為32×103reqs/s,本文方法吞吐率為132×103reqs/s,本文的吞吐率最大。這就說明本文方法對隔離多維異常數(shù)據(jù)較為深入,能夠精準(zhǔn)的定位多維異常數(shù)據(jù)并隔離開來,而傳統(tǒng)方法會出現(xiàn)多維異常數(shù)據(jù)丟失的現(xiàn)象,導(dǎo)致后期會漏掉很多需要隔離的多維異常數(shù)據(jù)。 圖2 不同方法的數(shù)據(jù)吞吐率 本文針對無線多跳網(wǎng)絡(luò)無法有效的對多維異常數(shù)據(jù)進行隔離,提出了一種基于相似度統(tǒng)計的異常數(shù)據(jù)隔離算法。本文通過多維數(shù)據(jù)受損率、多維數(shù)據(jù)完整度及數(shù)據(jù)吞吐率三組實驗對數(shù)據(jù)隔離效果進行驗證,得出本文方法能夠快速的隔離出多維異常數(shù)據(jù)的結(jié)論。同時,此方法下多維異常數(shù)據(jù)完整度高、數(shù)據(jù)吞吐率大,具有高效的數(shù)據(jù)傳輸效率,為網(wǎng)絡(luò)安全奠定堅實基礎(chǔ)。2.2 多維異常特征提取
2.3 含DG的無線多跳網(wǎng)絡(luò)多維異常隔離算法
2.4 容錯率性能驗證
3 仿真證明
3.1 實驗指標(biāo)
3.2 多維數(shù)據(jù)受損率對比
3.3 多維數(shù)據(jù)完整度對比
3.4 數(shù)據(jù)吞吐率對比
4 結(jié)論