楊 波,徐勝超,毛明揚(yáng),陳 剛,王宏杰
(廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣州 511300)
隨著經(jīng)濟(jì)發(fā)展的數(shù)字化轉(zhuǎn)型和5G技術(shù)的發(fā)展,當(dāng)前很多企業(yè)在云上部署業(yè)務(wù),不僅業(yè)務(wù)更方便,同時(shí)大大減輕了企業(yè)的負(fù)擔(dān),這樣就加快了經(jīng)濟(jì)的發(fā)展。利用“云”的方式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)入侵檢測(cè)、網(wǎng)絡(luò)異常流量檢測(cè)、負(fù)載均衡、物理主機(jī)資源充分利用、盡最大可能節(jié)省數(shù)據(jù)中心的能量消耗,符合國(guó)家節(jié)能減排的主要政策。
當(dāng)數(shù)據(jù)上云后,能否很好地開展業(yè)務(wù),云任務(wù)在復(fù)雜系統(tǒng)中的運(yùn)行,在傳輸數(shù)據(jù)時(shí)是否會(huì)被竊取,延遲很高導(dǎo)致傳輸速度很慢等等問(wèn)題,就是一直存在的。為了保證云網(wǎng)的安全穩(wěn)定運(yùn)行,減少入侵風(fēng)險(xiǎn),如果我們將安全防護(hù)策略部署在云端,可以有效減低企業(yè)維護(hù)安全設(shè)備軟硬件的人力物力資源,安全平臺(tái)提供開放的接口標(biāo)準(zhǔn),快速的實(shí)現(xiàn)零門檻的安全軟件/硬件部署,實(shí)現(xiàn)企業(yè)網(wǎng)絡(luò)安全防護(hù)。
為了實(shí)現(xiàn)滿足云安全服務(wù)長(zhǎng)期穩(wěn)定可靠運(yùn)行需求、監(jiān)管合規(guī)、建設(shè)安全運(yùn)營(yíng)平臺(tái),實(shí)現(xiàn)云安全“可視”、“可控”。城域網(wǎng)區(qū)域互聯(lián)網(wǎng)攻擊源IP地址檢測(cè)是云安全中的一個(gè)重要的研究方向[1]。目前,許多研究人員通過(guò)分析網(wǎng)絡(luò)流量數(shù)據(jù)來(lái)檢測(cè)互聯(lián)網(wǎng)攻擊源IP地址[2]。然而,傳統(tǒng)的基于規(guī)則和特征的檢測(cè)方法存在一定的局限性,比如需要事先定義規(guī)則或特征,并且對(duì)新型攻擊的檢測(cè)能力較弱。因此,基于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)的檢測(cè)方法逐漸成為研究熱點(diǎn)[3]。
互聯(lián)網(wǎng)攻擊源檢測(cè)在識(shí)別攻擊和確保計(jì)算機(jī)網(wǎng)絡(luò)安全方面發(fā)揮著重要作用。基于該問(wèn)題,很多專家和學(xué)者依據(jù)各種算法提出了檢測(cè)方法。例如文獻(xiàn)[4]為了有效識(shí)別網(wǎng)絡(luò)環(huán)境中大量網(wǎng)絡(luò)流中未知的惡意攻擊行為,提出了一種基于人工免疫網(wǎng)絡(luò)與密度峰值(ADAID,artificial immune network and density peak)的檢測(cè)方法,研究中引入了聚類標(biāo)記算法和流異常檢測(cè)算法,利用前者標(biāo)記每個(gè)簇是否惡意,并將標(biāo)記的簇視為檢測(cè)器,利用后者識(shí)別攻擊網(wǎng)絡(luò)流量。文獻(xiàn)[5]提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的攻擊檢測(cè)方法,使用NS2網(wǎng)絡(luò)模擬器收集網(wǎng)絡(luò)流量并創(chuàng)建數(shù)據(jù)集,然后以此為輸入,利用人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)不同的DoS攻擊檢測(cè)。文獻(xiàn)[6]提出了一種基于隱馬爾可夫模型改進(jìn)算法的攻擊檢測(cè)方法,研究中為了提高算法的學(xué)習(xí)能力和適應(yīng)性,利用Baum-Welch算法改進(jìn)隱馬爾可夫模型,最后利用優(yōu)化維特比算法檢測(cè)攻擊行為。文獻(xiàn)[7]提出基于XGBoost回歸分類器的網(wǎng)絡(luò)攻擊行為檢測(cè)方法,該方法首先對(duì)XGBoost回歸分類器的工作原理進(jìn)行說(shuō)明,采集網(wǎng)絡(luò)運(yùn)行中的各項(xiàng)數(shù)據(jù),將采集的數(shù)據(jù)輸入到XGBoost回歸分類器中,實(shí)現(xiàn)分布式拒絕服務(wù)、網(wǎng)絡(luò)釣魚、跨站點(diǎn)腳本攻擊的檢測(cè)。文獻(xiàn)[8]提出基于半監(jiān)督學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)攻擊行為檢測(cè)方法,通過(guò)無(wú)監(jiān)督學(xué)習(xí)模型棧式稀疏自編碼器提取網(wǎng)絡(luò)流量的新特征值向量與原始特征權(quán)重向量,將提取的兩類向量輸入到深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行迭代訓(xùn)練。采用k-means聚類方法對(duì)訓(xùn)練輸出結(jié)果進(jìn)行聚類處理,完成網(wǎng)絡(luò)攻擊的識(shí)別。
以上5種研究方法在攻擊檢測(cè)中都發(fā)揮了一定的作用,但是隨著網(wǎng)絡(luò)攻擊朝著隱蔽性、復(fù)雜性、多步驟等方向發(fā)展,如果不考慮網(wǎng)絡(luò)流量特征,則會(huì)降低攻擊源的檢測(cè)精度。針對(duì)上述問(wèn)題,本文提出一種基于流量特征的區(qū)域互聯(lián)網(wǎng)攻擊源IP地址檢測(cè)方法。
當(dāng)下攻擊方式具有很強(qiáng)的隨機(jī)非線性、欺騙性、偽裝性,使得要想準(zhǔn)確定位攻擊源IP地址困難[7]。面對(duì)這種情況,為了抵御惡意攻擊者的惡意攻擊,研究一種基于流量特征的區(qū)域互聯(lián)網(wǎng)攻擊源IP地址檢測(cè)方法,檢測(cè)方法的主要內(nèi)容包括IP網(wǎng)絡(luò)流量采集、IP網(wǎng)絡(luò)流量預(yù)處理、流量特征提取以及攻擊源IP地址檢測(cè)實(shí)現(xiàn)。下面針對(duì)上述步驟進(jìn)行具體分析。
攻擊源檢測(cè)需要依據(jù)一定的數(shù)據(jù)來(lái)確定某一用戶存在攻擊行為,然后針對(duì)這一行為進(jìn)行追蹤,定位攻擊源IP地址,完成攻擊溯源[8]。從上述整個(gè)過(guò)程中可以看出依據(jù)數(shù)據(jù)是基礎(chǔ),后續(xù)所有檢測(cè)步驟都是圍繞該數(shù)據(jù)進(jìn)行挖掘和分析,最終得出結(jié)果?;诖?,依據(jù)數(shù)據(jù)的獲取至關(guān)重要。依據(jù)數(shù)據(jù)類型主要有兩種:一是互聯(lián)網(wǎng)日志,二是網(wǎng)絡(luò)流量[9]。在本研究中,選擇后者作為基礎(chǔ)。采集方法為NetFlow技術(shù),采集具體過(guò)程如圖1所示。
圖1 IP網(wǎng)絡(luò)流量采集流程
任何用戶在進(jìn)入互聯(lián)網(wǎng)后,一切操作都會(huì)產(chǎn)生一定數(shù)據(jù)流量。數(shù)據(jù)流量會(huì)隨著操作行為的不同而表現(xiàn)出差異性?;诖?,只要把握住這種差異性就能反向觀察用戶行為,判斷其是否存在攻擊行為[10]。
網(wǎng)絡(luò)流量數(shù)據(jù)具有一定的突變性特征,該特征主要是用戶設(shè)備和互聯(lián)網(wǎng)連接異常造成的,這種流量數(shù)據(jù)的存在很容易與攻擊用戶所產(chǎn)生的流量數(shù)據(jù)混淆,二者十分相似,因此會(huì)干擾檢測(cè)結(jié)果準(zhǔn)確性[11]。面對(duì)這種現(xiàn)象,需要找出其中的突變網(wǎng)絡(luò)流量數(shù)據(jù),提高IP網(wǎng)絡(luò)流量數(shù)據(jù)質(zhì)量。具體過(guò)程如下:
步驟1:輸入IP網(wǎng)絡(luò)流量數(shù)據(jù);
步驟2:通過(guò)互補(bǔ)聚合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN,complete EEMD with adaptive noise)方法對(duì)IP網(wǎng)絡(luò)流量數(shù)據(jù)分解,得到k個(gè)子序列IP網(wǎng)絡(luò)流量,記為S={si|i=1,2,...,k}。
步驟3:計(jì)算S中每個(gè)子序列的分散熵,記為bi;
步驟6:將ci與設(shè)定的均值變化率閾值T進(jìn)行對(duì)比。當(dāng)ci≥T時(shí),將第i個(gè)子序列歸入去突變模態(tài)集合;否則將第i個(gè)子序列歸入保留模態(tài)集合。
步驟7:參照根據(jù)CEEMDAN的分解規(guī)律,將去突變模態(tài)集合中的子序列IP網(wǎng)絡(luò)流量劃分為高、中、低頻三類。
步驟8:對(duì)其中的高頻部分進(jìn)行舍棄,對(duì)其中相對(duì)中頻子模態(tài)利用小波閾值方法去除突變網(wǎng)絡(luò)流量數(shù)據(jù),低頻部分則保持不變,不進(jìn)行任何處理[12]。
步驟9:將低頻部分與去除突變后的低頻部分進(jìn)行重構(gòu),完成IP網(wǎng)絡(luò)流量突變預(yù)處理。
經(jīng)過(guò)上述流程,完成IP網(wǎng)絡(luò)流量突變預(yù)處理,避免了突變流量數(shù)據(jù)帶來(lái)的干擾[13]。
IP網(wǎng)絡(luò)流量突變預(yù)處理流程如圖2所示。
圖2 IP網(wǎng)絡(luò)流量突變預(yù)處理
根據(jù)1.2節(jié)中的處理結(jié)果,本節(jié)正式進(jìn)入數(shù)據(jù)分析環(huán)節(jié)。IP網(wǎng)絡(luò)流量中包含了很多特征參數(shù),如表1所示。
表1 IP網(wǎng)絡(luò)流量數(shù)據(jù)特征參數(shù)表
從表1中可以看出,IP網(wǎng)絡(luò)流量中特征參數(shù)有很多,雖然都可以用于最后的攻擊源檢測(cè),但是過(guò)多的特征參數(shù)不僅會(huì)大大增加后期檢測(cè)工作的計(jì)算量,而且對(duì)提高檢測(cè)精度并沒(méi)有太大的幫助[14]。針對(duì)這種情況,只要從上述表1中選出N個(gè)最優(yōu)特征參數(shù)就可以。在這里N取值4[15]。通過(guò)計(jì)算最小冗余最大相關(guān)性,選取排名前4的特征參數(shù),具體選取流程如下:
步驟1:計(jì)算第i個(gè)特征參數(shù)pi與類別Q之間,特征參數(shù)pi和pj之間的互信息值,記為R(pi,Q)、W(pi,pj)。
步驟2:計(jì)算R(pi,Q)、W(pi,pj)的平均值,公式如下:
(1)
式中,P代表特征數(shù)量。
步驟3:計(jì)算最小冗余最大相關(guān)性。計(jì)算公式如下:
(2)
式中,Gi代表第i個(gè)特征參數(shù)的最小冗余最大相關(guān)性。
步驟4:按照從大到小的順序排列Gi。
步驟5:選取Gi值排前4的特征參數(shù)作為選取結(jié)果。
計(jì)算4個(gè)流量特征的信息熵值,統(tǒng)一參數(shù)值[16]。熵值計(jì)算公式如下:
(3)
式中,Hi代表第i個(gè)網(wǎng)絡(luò)流量特征的熵值;g(Gi)代表Gi出現(xiàn)的概率。
經(jīng)過(guò)上述過(guò)程,完成了流量特征的選擇工作,為攻擊源IP地址的精準(zhǔn)檢測(cè)奠定基礎(chǔ)。
攻擊源IP地址檢測(cè)是本研究的最后一部分,該部分的工作主要分為兩步:攻擊流量檢測(cè)和攻擊源IP地址定位[17]。下面將對(duì)這兩個(gè)步驟進(jìn)行具體分析與研究。
1.4.1 攻擊流量檢測(cè)
攻擊流量檢測(cè)是指基于網(wǎng)絡(luò)流量數(shù)據(jù)特征判斷是否存在攻擊流量[18]。結(jié)合極限學(xué)習(xí)機(jī)與k均值算法來(lái)構(gòu)建攻擊流量監(jiān)測(cè)模型,攻擊流量監(jiān)測(cè)模型的結(jié)構(gòu)如圖3所示。
為了進(jìn)一步攻擊流量檢測(cè)的精度,基于極限學(xué)習(xí)機(jī)和k均值算法進(jìn)行攻擊流量檢測(cè)。首先利用k均值算法對(duì)原始數(shù)據(jù)進(jìn)行聚類分析,將數(shù)據(jù)劃分為不同的簇;然后,將每個(gè)簇的數(shù)據(jù)作為輸入,利用極限學(xué)習(xí)機(jī)算法進(jìn)行分類預(yù)測(cè)。通過(guò)不斷迭代優(yōu)化,可以得到一個(gè)精度較高的分類模型,用于對(duì)未知數(shù)據(jù)進(jìn)行分類識(shí)別。其具體流程如下:
步驟1:設(shè)定攻擊流量檢測(cè)模型的相關(guān)參數(shù)。
步驟2:構(gòu)建極限學(xué)習(xí)機(jī)。
步驟3:確定K-Mean算法中的近鄰數(shù)。
步驟4:輸入訓(xùn)練樣本到極限學(xué)習(xí)機(jī)當(dāng)中,經(jīng)過(guò)三層處理,在映射函數(shù)的幫助下,將網(wǎng)絡(luò)流量特征訓(xùn)練樣本(信息熵)映射到L維特征空間中[19]。
步驟5:執(zhí)行k均值算法檢測(cè)流程。具體如下:
1)從L維特征空間中選取初始聚類中心,選取數(shù)量為M。
2)計(jì)算其余所有特征矢量與M個(gè)初始聚類中心之間的加權(quán)距離D,計(jì)算公式如下:
(4)
式中,Oj表示第j個(gè)聚類中心;N表示特征數(shù),這里取值4;wi表示特征對(duì)應(yīng)的權(quán)值,取值一般在0~1之間,由于本研究有4個(gè)特征參數(shù),這4個(gè)特征參數(shù)合計(jì)需要等于1。
3)根據(jù)D將特征矢量分配到某一類。在這里主要是指兩類,一類為正常,一類為攻擊。
4)更新聚類中心。
5)中心是否發(fā)生變化?若發(fā)生,回到步驟2);否則,停止并輸出檢測(cè)結(jié)果[20-23]。
1.4.2 攻擊源IP地址定位
在完成攻擊流量檢測(cè)之后,進(jìn)行攻擊源IP地址定位。具體過(guò)程如下:
步驟1:通過(guò)水印添加器在檢測(cè)出來(lái)的攻擊流量中嵌入水印。水印添加器可以直接在攻擊流量中嵌入目標(biāo)水印,不需要額外進(jìn)行操作,可以在確保水印嵌入可靠性的基礎(chǔ)上,提高水印嵌入的效率[24-27]。水印添加器添加水印的流程如圖4所示。
圖4 水印添加器添加水印的流程圖
步驟2:依據(jù)嵌入的水印得到一條從發(fā)送端到終點(diǎn)站的流量傳輸路徑。
步驟3:對(duì)路徑進(jìn)行追蹤并實(shí)時(shí)提交提交本機(jī)(IP,檢測(cè)時(shí)間戳,水印參數(shù)名)。
步驟4:通過(guò)定位到的用戶服務(wù)器的IP地址,可以實(shí)施防御策略,以擊退攻擊并保護(hù)網(wǎng)絡(luò)安全。
為保證本文檢測(cè)方法的實(shí)際應(yīng)用效果,在設(shè)置的算例下,進(jìn)行攻擊源IP地址檢測(cè)測(cè)試。為進(jìn)一步凸顯該方法性能,與基于ADAID、人工神經(jīng)網(wǎng)絡(luò)、改進(jìn)隱馬爾可夫模型的檢測(cè)方法應(yīng)用結(jié)果進(jìn)行對(duì)比。
實(shí)驗(yàn)采用某個(gè)區(qū)域互聯(lián)網(wǎng)作為模擬測(cè)試環(huán)境,通過(guò)極限學(xué)習(xí)進(jìn)行預(yù)測(cè)建模,再采用均值算法對(duì)數(shù)據(jù)進(jìn)行挖掘,并最終通過(guò)水印添加器對(duì)其進(jìn)行數(shù)字版權(quán)和內(nèi)容安全保護(hù)。在該環(huán)境中,共有1153個(gè)網(wǎng)絡(luò)用戶,其中321個(gè)用戶為網(wǎng)絡(luò)攻擊用戶,其余用戶為合法上網(wǎng)用戶。
2.1.1 實(shí)驗(yàn)參數(shù)設(shè)置
K-mean算法的參數(shù)設(shè)置如表2所示。
表2 K-mean算法的參數(shù)設(shè)置
極限學(xué)習(xí)機(jī)方法的參數(shù)設(shè)置如表3所示。
表3 極限學(xué)習(xí)機(jī)方法的參數(shù)設(shè)置
2.1.2 實(shí)驗(yàn)軟件與硬件設(shè)置
1)軟件設(shè)置:
(1)操作系統(tǒng):選擇Windows10的操作系統(tǒng)。
(2)網(wǎng)絡(luò)安全軟件:安裝防火墻、入侵檢測(cè)系統(tǒng)(IDS)網(wǎng)絡(luò)安全軟件來(lái)保護(hù)實(shí)驗(yàn)環(huán)境。
(3)流量分析工具:使用Wireshark工具對(duì)流量進(jìn)行抓取和分析。
(4)信息采集:在網(wǎng)絡(luò)用戶的終端設(shè)備內(nèi)安裝NetFlow軟件,采集這些用戶為期30天的網(wǎng)絡(luò)流量數(shù)據(jù)。
2)硬件設(shè)置:
(1)網(wǎng)絡(luò)設(shè)備:交換機(jī)、路由器等用于構(gòu)建實(shí)驗(yàn)網(wǎng)絡(luò)環(huán)境,并保證流量傳輸?shù)姆€(wěn)定。
(2)流量生成工具:使用流量生成器模擬的攻擊流量,用于實(shí)驗(yàn)測(cè)試。
實(shí)驗(yàn)共計(jì)3 000多條記錄,每條記錄包含3個(gè)特征和1個(gè)類別標(biāo)簽。以其中1條流量數(shù)據(jù)為例,數(shù)據(jù)樣本如圖5所示。
圖5 網(wǎng)絡(luò)流量示例
對(duì)于網(wǎng)絡(luò)流量中的每條正常流量數(shù)據(jù)和攻擊流量數(shù)據(jù),根據(jù)已知的攻擊類型對(duì)數(shù)據(jù)包進(jìn)行匹配和標(biāo)記。每條流量數(shù)據(jù)將被標(biāo)記為攻擊包或非攻擊包。為了消除數(shù)據(jù)偏差,在要輸入數(shù)據(jù)來(lái)訓(xùn)練檢測(cè)模型時(shí),將所有攻擊數(shù)據(jù)包與隨機(jī)數(shù)目的合法數(shù)據(jù)包混合,然后重新采樣以獲得訓(xùn)練模型的輸入數(shù)據(jù)。
為了從較多的流量特征參數(shù)中,選取出與攻擊源IP地址檢測(cè)最為相關(guān)的特征,并減少后續(xù)的計(jì)算量,通過(guò)最小冗余最大相關(guān)性Gi來(lái)進(jìn)行流量特征參數(shù)的選擇。最小冗余最大相關(guān)性Gi的計(jì)算結(jié)果如表4所示。
表4 網(wǎng)絡(luò)流量數(shù)據(jù)特征參數(shù)的最小冗余最大相關(guān)性表
從表4中可以看出,結(jié)合本文方法的優(yōu)點(diǎn),可以對(duì)選出的4個(gè)流量特征進(jìn)行豐富。以下是一個(gè)具體的描述:根據(jù)最小冗余最大相關(guān)性的排序結(jié)果,本文選擇了總報(bào)文數(shù)、TCP連接數(shù)、發(fā)生跳變的報(bào)文的比例以及空閑時(shí)間比例作為關(guān)鍵的流量特征。這四個(gè)特征的選擇是基于本文方法的優(yōu)點(diǎn)來(lái)進(jìn)行的。首先,總報(bào)文數(shù)作為一個(gè)基本的統(tǒng)計(jì)特征,可以提供關(guān)于流量負(fù)載的整體信息。它能夠反映網(wǎng)絡(luò)中數(shù)據(jù)包的總體流量情況;其次,TCP連接數(shù)是一個(gè)重要的指標(biāo),用于衡量潛在的攻擊行為。攻擊者通常會(huì)引發(fā)大量的非正?;驉阂獾腡CP連接,因此監(jiān)測(cè)和分析TCP連接數(shù)可以有效檢測(cè)和識(shí)別攻擊行為;第三,發(fā)生跳變的報(bào)文比例是一個(gè)針對(duì)網(wǎng)絡(luò)流量異常變化的特征。異常的報(bào)文跳變可能表示網(wǎng)絡(luò)中出現(xiàn)了異常事件或攻擊行為。通過(guò)監(jiān)測(cè)和分析該比例,可以快速發(fā)現(xiàn)網(wǎng)絡(luò)中的可疑活動(dòng);最后,空閑時(shí)間比例是一個(gè)與網(wǎng)絡(luò)利用率和活動(dòng)程度相關(guān)的特征。攻擊者可能會(huì)利用網(wǎng)絡(luò)的空閑時(shí)間來(lái)進(jìn)行攻擊,因此監(jiān)測(cè)和分析空閑時(shí)間比例可以幫助識(shí)別潛在的攻擊行為。通過(guò)選取這四個(gè)流量特征,可以充分利用最小冗余最大相關(guān)性的方法,在保持簇間相關(guān)性最小且簇內(nèi)相關(guān)性最大的同時(shí),捕獲到網(wǎng)絡(luò)流量數(shù)據(jù)中的關(guān)鍵信息,從而提高攻擊源IP地址檢測(cè)的準(zhǔn)確性和效果。
針對(duì)選出四個(gè)最優(yōu)網(wǎng)絡(luò)流量特征,計(jì)算每條網(wǎng)絡(luò)流量數(shù)據(jù)的信息熵。隨機(jī)選取10條作為示例,其信息熵統(tǒng)計(jì)結(jié)果如表5所示。
表5 特征信息熵示例表
分析表5可知,信息熵越高表示流量數(shù)據(jù)中的不確定性和復(fù)雜性越大。通過(guò)計(jì)算信息熵,可以量化每條流量數(shù)據(jù)的信息量大小,從而更好地理解其在整體數(shù)據(jù)集中的重要程度。根據(jù)實(shí)驗(yàn)結(jié)果,觀察到不同流量數(shù)據(jù)的信息熵有所差異。這意味著某些網(wǎng)絡(luò)流量數(shù)據(jù)可能包含更多的信息,對(duì)于識(shí)別攻擊源IP地址具有更高的潛力。通過(guò)進(jìn)一步分析和挖掘這些高信息熵的流量數(shù)據(jù),可以更好地理解網(wǎng)絡(luò)中的異常行為,并提高對(duì)潛在攻擊的檢測(cè)能力。通過(guò)計(jì)算選定網(wǎng)絡(luò)流量特征的信息熵,可以更深入地了解流量數(shù)據(jù)的信息量,并為后續(xù)的攻擊源IP地址檢測(cè)工作提供有價(jià)值的參考
應(yīng)用本文方法、基于ADAID的檢測(cè)方法、基于人工神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法、基于改進(jìn)隱馬爾可夫模型的檢測(cè)方法進(jìn)行互聯(lián)網(wǎng)攻擊源IP地址檢測(cè)。根據(jù)計(jì)算結(jié)果,計(jì)算檢測(cè)質(zhì)量指數(shù),公式如下:
(5)
式中,Y代表正確檢測(cè)出來(lái)的攻擊源IP地址數(shù);J代表檢測(cè)質(zhì)量指數(shù);U代表用戶IP地址總數(shù);X、Z代表方法檢測(cè)出來(lái)和實(shí)際攻擊源IP地址數(shù)目。當(dāng)J越大,認(rèn)為檢測(cè)準(zhǔn)確性越高。結(jié)果如圖6所示。
圖6 檢測(cè)質(zhì)量指數(shù)對(duì)比圖
從圖6中可以看出,基于ADAID的檢測(cè)方法的質(zhì)量指數(shù)為0.83,基于人工神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法的質(zhì)量指數(shù)為0.65,基于改進(jìn)隱馬爾可夫模型的檢測(cè)方法的矢量指數(shù)為0.68,均低于本文方法。本文方法的檢測(cè)質(zhì)量指數(shù)為0.97,說(shuō)明本文方法的檢測(cè)準(zhǔn)確性更高。本文方法具有較高的檢測(cè)質(zhì)量指數(shù)的原因在于采用了NetFlow技術(shù)對(duì)區(qū)域互聯(lián)網(wǎng)中的IP數(shù)據(jù)流進(jìn)行采集,并在最小冗余最大相關(guān)性的約束下提取了流量特征。將流量特征的信息熵輸入到極限學(xué)習(xí)機(jī)中,通過(guò)k均值算法確定互聯(lián)網(wǎng)攻擊源的IP地址。
為了能夠有效阻止攻擊,保護(hù)數(shù)據(jù)安全,進(jìn)行基于流量特征的區(qū)域互聯(lián)網(wǎng)攻擊源IP地址檢測(cè)研究。該研究以訪問(wèn)用戶的流量數(shù)據(jù)為基礎(chǔ),通過(guò)提取流量特征,利用檢測(cè)模型實(shí)現(xiàn)攻擊流量檢測(cè),確定攻擊地址,為防御策略提供了重要的參考。在未來(lái)的工作中將嘗試在具有真實(shí)網(wǎng)絡(luò)流量的網(wǎng)絡(luò)環(huán)境中實(shí)施此方法,進(jìn)一步驗(yàn)證方法的有效性。