李麗娟,李曼,畢紅軍,周華春
基于混合深度學習的多類型低速率DDoS攻擊檢測方法
李麗娟,李曼,畢紅軍,周華春
(北京交通大學,北京 100044)
低速率分布式拒絕服務(wù)攻擊針對網(wǎng)絡(luò)協(xié)議自適應(yīng)機制中的漏洞實施攻擊,對網(wǎng)絡(luò)服務(wù)質(zhì)量造成了巨大威脅,具有隱蔽性強、攻擊速率低和周期性的特點。現(xiàn)有檢測方法存在檢測類型單一和識別精度低的問題,因此提出了一種基于混合深度學習的多類型低速率DDoS攻擊檢測方法。模擬不同類型的低速率DDoS攻擊和5G環(huán)境下不同場景的正常流量,在網(wǎng)絡(luò)入口處收集流量并提取其流特征信息,得到多類型低速率DDoS攻擊數(shù)據(jù)集;從統(tǒng)計閾值和特征工程的角度,分別分析了不同類型低速率DDoS攻擊的特征,得到了40維的低速率DDoS攻擊有效特征集;基于該有效特征集采用CNN-RF混合深度學習算法進行離線訓練,并對比該算法與LSTM-LightGBM和LSTM-RF算法的性能;在網(wǎng)關(guān)處部署CNN-RF檢測模型,實現(xiàn)了多類型低速率DDoS攻擊的在線檢測,并使用新定義的錯誤攔截率和惡意流量檢測率指標進行了性能評估。結(jié)果顯示,在120 s的時間窗口下,所提方法能夠在線檢測出4種類型的低速率DDoS攻擊,包括Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和Shrew攻擊,錯誤攔截率達到11.03%,惡意流量檢測率達到96.22%。結(jié)果表明,所提方法能夠顯著降低網(wǎng)絡(luò)入口處的低速率DDoS攻擊流量強度,并在實際環(huán)境中部署和應(yīng)用。
多類型;低速率DDoS攻擊;混合深度學習;特征分析;攻擊檢測
分布式拒絕服務(wù)(DDoS,distributed denial of service)攻擊是一種大范圍分布式且具有極強危害性的網(wǎng)絡(luò)攻擊方式,能夠?qū)Ψ?wù)的可用性產(chǎn)生嚴重影響,逐漸成為互聯(lián)網(wǎng)面臨的最大安全威脅之一。隨著攻擊技術(shù)的不斷演變和更新,衍生出一種新的攻擊變種,即低速率DDoS攻擊。該攻擊利用網(wǎng)絡(luò)協(xié)議自適應(yīng)機制中存在的漏洞,發(fā)送較低速率的攻擊數(shù)據(jù)包,達到降低受害端服務(wù)質(zhì)量的目的,具有隱蔽性強和攻擊速率低的特征。網(wǎng)絡(luò)環(huán)境中存在著多種協(xié)議的低速率DDoS攻擊,同時,存在著周期性和非周期性的攻擊模式[1]。因此,如何準確地檢測出多種類型的低速率DDoS攻擊流量是亟待解決的問題。
本文主要針對5G環(huán)境下的網(wǎng)絡(luò)提出了一種基于混合深度學習的多類型低速率DDoS攻擊檢測方法。首先,模擬不同類型低速率攻擊和正常通信行為得到了實驗數(shù)據(jù)集;之后,分析了不同類型低速率DDoS攻擊的特征信息,根據(jù)該特征信息進行特征選擇;然后,結(jié)合混合深度學習算法實現(xiàn)檢測模型的離線訓練和優(yōu)化;最后,將檢測模型部署至網(wǎng)絡(luò)入口處,實現(xiàn)多類型低速率DDoS攻擊的在線檢測。
本文主要貢獻有以下幾點。
1)模擬了多種類型低速率DDoS攻擊和5G環(huán)境下不同場景的正常通信,獲取指定時間段內(nèi)網(wǎng)絡(luò)流量的特征信息,得到已進行標簽標記的低速率DDoS攻擊數(shù)據(jù)集。
2)提出了多類型低速率DDoS攻擊特征集,從統(tǒng)計閾值和特征工程的角度,分析不同類型低速率DDoS攻擊和正常流量的特征信息,得到低速率DDoS攻擊的40種有效特征。
3)提出了多類型低速率DDoS攻擊檢測方法?;诘退俾蔇DoS攻擊特征集實現(xiàn)混合深度學習模型的離線訓練、在線部署及檢測。檢測結(jié)果顯示,通過選擇最優(yōu)時間窗口,本文提出的方法能夠有效地檢測Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和Shrew攻擊共4種類型的低速率DDoS攻擊。
一直以來,對于低速率DDoS攻擊的研究受到國內(nèi)外學者的廣泛關(guān)注。21世紀初,Kuzmanovic[2]提出了Shrew攻擊的定義,采集了低速率DDoS攻擊的相關(guān)數(shù)據(jù)并進行了相關(guān)分析和研究。對于低速率DDoS攻擊檢測防御的研究主要包括以下兩類方法。
一類是基于統(tǒng)計分析的檢測方法。Wu等[3]提出了基于Pearson相關(guān)性的低速率DoS攻擊檢測方法,使用網(wǎng)絡(luò)流量的Hilbert譜的Pearson相關(guān)系數(shù)表征網(wǎng)絡(luò)流量信息,將該信息與閾值進行比較實現(xiàn)檢測針對TCP的低速率攻擊。Wu等[4]從序列匹配的角度分析受害端低速率DDoS攻擊脈沖之間的序列相似性,使用Smith-Waterman算法并設(shè)計雙閾值規(guī)則,實現(xiàn)對基于TCP的低速率攻擊的檢測。Kaur等[5]提出基于網(wǎng)絡(luò)自相似的方法,分析低速率攻擊對流量自相似特性的影響,使用H-指數(shù)結(jié)合閾值識別攻擊和合法流量。以上幾種檢測低速率攻擊的方法,均僅對基于TCP的低速率攻擊實施檢測,且依賴于閾值的設(shè)定,極易受到網(wǎng)絡(luò)環(huán)境的隨機性影響,無法達到優(yōu)異的檢測效果。
另一類是基于機器學習的檢測方法,該方法通過提取流量特征并結(jié)合機器學習算法實現(xiàn)檢測低速率DDoS攻擊。Zhang等[6]提出了基于主成分分析和支持向量機的方法,用于檢測基于TCP的低速率攻擊,主成分分析算法過濾環(huán)境中的噪聲,實現(xiàn)有效采樣網(wǎng)絡(luò)流量中的特征。Liu等[7]提出了邊緣環(huán)境下針對TCP的低速率DDoS攻擊檢測方法,利用局部敏感特征提取和深度卷積神經(jīng)網(wǎng)絡(luò)自動學習原始數(shù)據(jù)的最佳特征分布,并采用深度強化學習Q網(wǎng)絡(luò)作為決策者,提高攻擊檢測的決策精準度。Wu等[8]提出基于分解機的低速率DDoS攻擊檢測方法,引入特征組合機制,建立特征樣本之間的相關(guān)性,實現(xiàn)對基于HTTP低速率攻擊的檢測。文獻[9]提出使用機器學習算法檢測SDN環(huán)境下的低速率DDoS攻擊,包括J48、隨機樹、REP樹、隨機森林、多層感知器和支持向量機共6種模型,檢測基于HTTP的低速率DDoS攻擊,但該方法的誤報率較高。
混合深度學習算法能夠充分利用機器學習和深度學習算法的優(yōu)點,Malik等[10]提出了基于長短期記憶(LSTM,long short-term memory)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)的混合深度學習框架,用于檢測CICIDS2017數(shù)據(jù)集中的Bot、Post Scan和XSS攻擊,經(jīng)驗證該檢測系統(tǒng)具有優(yōu)異的檢測能力。Garg等[11]提出了基于深度學習的混合異常檢測系統(tǒng),將受限玻爾茲曼機和支持向量機算法相結(jié)合,減小數(shù)據(jù)的特征維度,但實驗使用的數(shù)據(jù)集是KDD99,未對DoS攻擊進行細粒度分類檢測。Guo等[12]提出了基于長短期記憶網(wǎng)絡(luò)和LightGBM的混合時間序列預(yù)測模型,將其用于股票預(yù)測,具有優(yōu)異的預(yù)測性能。Hu等[13]提出基于長短期記憶網(wǎng)絡(luò)和隨機森林(RF,random forest)的混合深度學習模型,與單一的機器學習方法相比,其具有更加優(yōu)異的預(yù)測效果。
上述低速率DDoS攻擊檢測方法僅針對單類型的低速率DDoS攻擊實施檢測,存在檢測類型單一和檢測精度低的問題。因此,本文針對以上問題,提出了基于CNN-RF混合深度學習的低速率DDoS攻擊檢測方法,該方法能夠?qū)W習不同類型攻擊流量的特征,提高多類型低速率DDoS攻擊在線檢測的準確率。
本文將低速率DDoS攻擊分為兩類:一類是基于HTTP的低速率DDoS攻擊;另一類是基于TCP的低速率DDoS攻擊[1]。
基于HTTP的低速率DDoS攻擊包括Slow Headers攻擊、Slow Body攻擊和Slow Read攻擊[14]。該類攻擊利用現(xiàn)有HTTPKeep-Alive機制的漏洞,長時間保持連接并持續(xù)占用服務(wù)器資源,導(dǎo)致Web服務(wù)器產(chǎn)生拒絕服務(wù)。其中,Slow Headers攻擊實施者發(fā)送以字符‘ ’為結(jié)尾的不完整HTTP請求,導(dǎo)致服務(wù)器認為請求未發(fā)送完畢并繼續(xù)等待,最終連接數(shù)達到服務(wù)器上限,無法處理新的請求而產(chǎn)生拒絕服務(wù)攻擊。Slow Body攻擊實施者向服務(wù)器發(fā)送內(nèi)容長度值較大的POST請求,但服務(wù)器每次只發(fā)送含少量字節(jié)數(shù)的數(shù)據(jù)包,請求數(shù)目足夠多時耗盡服務(wù)器資源。Slow Read攻擊實施者向服務(wù)器發(fā)送讀取大數(shù)據(jù)文件的合法請求,但將TCP滑動窗口設(shè)置為較小值,服務(wù)器與攻擊者之間需長時間建立通信連接,當連接數(shù)目足夠多時將無法提供服務(wù)。
基于TCP的低速率DDoS攻擊有許多種,本文主要分析Shrew攻擊,該攻擊利用TCP超時重傳機制的漏洞[2],周期性地發(fā)送高速突發(fā)脈沖數(shù)據(jù)包,降低受害端的服務(wù)質(zhì)量和性能。本文主要通過攻擊工具和Python腳本模擬Slow Headers攻擊、Slow Boby攻擊、Slow Read攻擊、Shrew攻擊4種類型的低速率DDoS攻擊。
低速率DDoS攻擊的特征分析主要基于原始低速率DDoS攻擊的特征信息。CICFlowMeter流特征提取工具能夠自動按照時間窗口提取雙向流的詳細參數(shù),雙向流表示包括正向和反向數(shù)據(jù)流的特征。除標簽值外,該工具共生成83種特征信息,包括流ID、五元組信息、流級特征和包級特征。流ID由五元組{源IP地址,目的IP地址,源端口,目的端口,協(xié)議}表示,用于唯一標記流。流級特征包括流處于活躍時間的統(tǒng)計特征、流持續(xù)時間和每秒的流字節(jié)數(shù)等。包級特征包括每秒的前/反向數(shù)據(jù)包數(shù)目、數(shù)據(jù)包長度的統(tǒng)計特征、SYN/FIN/RST標志位計數(shù)等。
本節(jié)首先介紹檢測框架組成,然后介紹數(shù)據(jù)集生成模塊的原理和實現(xiàn),最后詳細介紹混合深度學習模型的離線訓練模塊和在線檢測模塊的具體實現(xiàn)和關(guān)鍵技術(shù)。
檢測框架主要由數(shù)據(jù)集生成模塊、特征分析及選擇模塊、離線訓練模塊和在線檢測模塊組成。低速率DDoS攻擊檢測框架如圖1所示,該框架分為數(shù)據(jù)處理部分和混合深度學習部分。
數(shù)據(jù)處理部分負責對獲取到的網(wǎng)絡(luò)流量進行初步處理,分為數(shù)據(jù)集生成模塊和特征分析及選擇模塊。數(shù)據(jù)集生成模塊用于獲取指定時間段內(nèi)的網(wǎng)絡(luò)流量,提取流特征信息并進行數(shù)據(jù)清洗,得到包含4種類型低速率DDoS攻擊和正常流量的低速率DDoS攻擊數(shù)據(jù)集。特征分析及選擇模塊從統(tǒng)計閾值和特征工程的角度分別分析不同類型低速率DDoS攻擊的特征信息,總結(jié)得到多類型低速率DDoS攻擊的有效特征。
圖1 低速率DDoS攻擊檢測框架
混合深度學習部分負責檢測不同類型的低速率DDoS攻擊,分為離線訓練模塊和在線檢測模塊。離線訓練模塊基于有效特征對數(shù)據(jù)集進行特征選擇,采用混合深度學習算法進行訓練和測試,根據(jù)分類結(jié)果進行性能評估及相關(guān)參數(shù)優(yōu)化,選擇最優(yōu)的攻擊檢測模型。在線檢測模塊將已訓練好的混合深度學習檢測模型部署至網(wǎng)絡(luò)入口處,通過實時抓取流量實現(xiàn)對多類型低速率DDoS攻擊的在線檢測,模型的輸出信息用于指示待檢測流量的低速率DDoS攻擊具體類型。
數(shù)據(jù)集生成模塊用于獲取一定時間段內(nèi)的網(wǎng)絡(luò)流量,通過流特征提取工具CICFlowMeter提取流特征信息,得到低速率DDoS攻擊數(shù)據(jù)集。該數(shù)據(jù)集包含多類型低速率DDoS攻擊和5G場景下的正常通信流量,能夠反映真實環(huán)境下的流量規(guī)律。
文獻[15]根據(jù)第三代合作計劃(3GPP)[16]和電氣和電子工程師協(xié)會(IEEE)[17]對不同5G應(yīng)用場景下設(shè)備的真實流量規(guī)律,建模并生成了海量正常通信模擬請求。該規(guī)律通過真實場景下收集的流量數(shù)據(jù)得到,其結(jié)果包含各種環(huán)境因素的影響,能夠反映真實場景下的請求情況。本文對該方法加以改進,生成了正常通信流量,并結(jié)合利用攻擊工具和腳本所生成的4種低速率DDoS攻擊流量,得到一個新的低速率DDoS攻擊數(shù)據(jù)集。
本文通過攻擊工具發(fā)送流量實現(xiàn)攻擊,基于網(wǎng)絡(luò)環(huán)境安全問題考慮,低速率網(wǎng)絡(luò)流量的捕獲基于VMware vSphere虛擬化實驗平臺實現(xiàn),實驗環(huán)境基本接近真實環(huán)境,反映實際環(huán)境下的流量統(tǒng)計情況。之后,部署安裝流量采集工具Tcpdump抓取網(wǎng)絡(luò)中的數(shù)據(jù)包,數(shù)據(jù)集采集點在網(wǎng)絡(luò)入口的接入網(wǎng)關(guān)處,可完整捕獲網(wǎng)絡(luò)中的通信流量。最后,使用CICFlowMeter提取網(wǎng)絡(luò)流量的特征信息。同時,根據(jù)表1中的攻擊計劃對提取出的特征信息進行標簽標記,將標記的數(shù)據(jù)集用于檢測模型的訓練和驗證。
本文研究的Slow Headers攻擊、Slow Body攻擊和Slow Read攻擊3種類型的低速率DDoS攻擊方式通過修改SlowHttpTest慢速Http攻擊工具的參數(shù)發(fā)送攻擊流量[1],Shrew攻擊則通過編寫Python腳本實現(xiàn)發(fā)送攻擊流量。正常通信請求則基于5G環(huán)境下不同場景的統(tǒng)計規(guī)律,使用Python腳本模擬發(fā)送海量連接正常請求流量。
從圖3可知:八五○農(nóng)場地下水從1997—2006年地下水位下降1.470 m,平均年下降0.134 m。隨著水田面積的增加,單井下降的速率沒有明顯變化。
基于以上實現(xiàn)方式,本文在低速率DDoS攻擊和正常通信行為下收集流量并自動提取流特征信息。捕獲期從2021年5月19日的08:00開始,至5月24日的17:00結(jié)束。在此期間,發(fā)起不同類型的攻擊,包括低速率DDoS攻擊、網(wǎng)絡(luò)層DDoS攻擊、應(yīng)用層DDoS攻擊和分布式反射性放大攻擊等,其中,低速率DDoS發(fā)起攻擊計劃如表1所示。
表1 低速率DDoS攻擊計劃
基于上述攻擊計劃獲取的網(wǎng)絡(luò)流量pcap文件,使用流特征提取工具CICFlowMeter提取流量的特征信息,得到多類型低速率DDoS攻擊數(shù)據(jù)集。數(shù)據(jù)集中各流量類型數(shù)據(jù)樣本數(shù)及與正常流量樣本數(shù)的比例情況如表2所示??梢?,正常流量的數(shù)據(jù)樣本數(shù)遠大于每種低速率DDoS攻擊的數(shù)據(jù)樣本數(shù),體現(xiàn)了低速率DDoS攻擊速率低的特性。
表2 各流量類型數(shù)據(jù)樣本數(shù)及比例
為實現(xiàn)對低速率DDoS攻擊的有效檢測,基于原始網(wǎng)絡(luò)流量提取的特征信息,本文從統(tǒng)計閾值和特征工程的角度,分別對4種類型的低速率DDoS攻擊進行特征分析和選擇,利用攻擊特征描述不同的攻擊特性,降低低速率DDoS攻擊數(shù)據(jù)集的特征維度,減小檢測系統(tǒng)的時間復(fù)雜度,提高檢測模型的泛化能力。
在統(tǒng)計閾值方面,分別查看低速率DDoS攻擊流量和正常流量的各個特征值分布直方圖,選取直方圖分布存在明顯差異的特征;分別從攻擊原理、攻擊源碼、特征值生成源碼和攻擊時序圖角度,結(jié)合發(fā)起攻擊時Wireshark等工具的抓包情況,分析特征閾值分布及產(chǎn)生該分布的原因,總結(jié)各個特征的閾值情況及閾值分布原理。
在特征工程方面,本文選擇使用斯皮爾曼相關(guān)系數(shù)法、遞歸特征消除法、XGBoost、基于Gini系數(shù)的隨機森林和基于信息熵的隨機森林共5種方法[18],分別對每種類型的低速率DDoS攻擊進行特征選擇,依據(jù)特征重要性排序選取特征。最終選擇至少3種方法含有的特征,作為每種類型低速率DDoS攻擊特征分析的結(jié)論。
根據(jù)上述特征選擇和分析步驟,對于4種類型的低速率DDoS攻擊,分別確定可表征每種類型低速率DDoS攻擊特性的特征信息,匯總得到多類型低速率DDoS攻擊的40種有效特征。低速率DDoS攻擊的有效特征如圖2所示。例如,對于Slow Read攻擊而言,F(xiàn)low Duration反映該攻擊長期保持連接的特性;Active Max反映該攻擊發(fā)包間隔時間長和周期性的特性;ACK Flag Cnt反映發(fā)起攻擊時頻繁建立和關(guān)閉HTTP連接時的交互情況;Flow Byts/s反映攻擊發(fā)包數(shù)目少且攻擊速率低的特性。
為驗證特征分析的有效性,基于本文得到的多類型低速率DDoS攻擊數(shù)據(jù)集和設(shè)計的檢測模型,使用模型的訓練時間、測試時間和準確率3個指標比較特征選擇前后同一檢測模型的相關(guān)性能,如表3所示。從表3可知,使用有效特征不僅將訓練時間降低約5.2%,測試時間降低約12.5%,而且將準確率提高了約1%。因此,使用圖2中的特征信息可描述多類型低速率DDoS攻擊實施時的相關(guān)特性,有利于降低模型的時間復(fù)雜度。
圖2 低速率DDoS攻擊的有效特征 Figure 2 Low-Rate DDoS attack effective characteristics
基于混合深度學習的低速率DDoS檢測方法主要用于區(qū)分4種不同類型的低速率攻擊流量和正常流量。本文將模擬的4種低速率DDoS攻擊均標識為攻擊流量,進行統(tǒng)一的檢測和防御。本文使用的檢測方法流程如圖3所示,使用混合深度學習算法構(gòu)建攻擊檢測模型,利用生成的數(shù)據(jù)集實現(xiàn)模型的離線訓練,并將其部署至虛擬環(huán)境中實施在線檢測。
本文提出使用混合深度學習算法實現(xiàn)多類型低速率DDoS攻擊的在線檢測。所構(gòu)建的攻擊檢測模型利用深度學習算法學習低速率DDoS攻擊數(shù)據(jù)集的隱藏特征,將機器學習算法作為分類器實現(xiàn)多類型低速率DDoS攻擊的在線檢測,最終準確地檢測出多種類型的低速率DDoS攻擊。
圖3 基于混合深度學習的低速率DDoS檢測方法流程
Figure 3 Process of low-rate DDoS detection method based on hybrid deep learning
卷積神經(jīng)網(wǎng)絡(luò)引入權(quán)值共享、池化層和局部感受野[19],改善了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)存在的缺陷。權(quán)值共享特性保證卷積平面中的所有卷積單元共享同一個卷積核值;池化層則減小了數(shù)據(jù)的尺寸,改善過擬合問題;局部感受野使得每個神經(jīng)元映射到局部特征,減少訓練的權(quán)值參數(shù)。隨機森林則采用CART決策樹作為弱分類器,通過Bagging的集成學習方法,將形成的許多決策樹結(jié)合起來形成森林,通過投票得到最終分類結(jié)果[19]。該算法能夠有效處理高維度數(shù)據(jù)和不平衡數(shù)據(jù),檢測不同特征之間的相關(guān)性關(guān)系。因此,本文提出使用隨機森林代替卷積神經(jīng)網(wǎng)絡(luò)原有的輸出層作分類,克服CNN訓練時間過長的問題,提高模型的檢測準確率。
本文提出的CNN-RF混合深度學習模型,能夠充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)在特征提取方面的優(yōu)勢和隨機森林速度快且不易過擬合的優(yōu)點。該模型使用卷積層和池化層提取輸入數(shù)據(jù)集特征間的隱藏特性,之后將其輸入RF分類器中得到分類結(jié)果。
模型的離線訓練階段,構(gòu)建包含卷積層、池化層、全連接層和隨機森林算法的CNN-RF混合深度學習模型。其中,卷積層通過權(quán)值共享和稀疏連接保證單層卷積具有較小的訓練參數(shù);池化層用于保留輸入數(shù)據(jù)集的顯著特征;全連接層則作為卷積層和池化層之間的連接層,輸出CNN提取的隱藏特征?;谔卣鞣治鼋Y(jié)論,使用經(jīng)特征選擇的低速率DDoS特征集進行混合深度學習算法的訓練和測試,并根據(jù)精確率和召回率等性能指標表現(xiàn)對模型進行調(diào)參優(yōu)化,最后選擇分類性能最優(yōu)的檢測模型。
本文提出的CNN-RF混合深度學習模型結(jié)構(gòu)如圖4所示,包含3個卷積層,3個最大池化層,兩個零值填充層,一個AlphaDropout層及兩個全連接層,最后一個全連接層的輸出作為隨機森林分類器的輸入,分類器的輸出則作為檢測結(jié)果。輸入的流特征向量經(jīng)過第一個卷積層以提取抽象的高維度特征,然后對這些特征進行最大池化處理,實現(xiàn)特征降維和數(shù)據(jù)壓縮。之后,經(jīng)過第二個卷積層和第二個最大池化層,提取更深層次的特征。同時,使用零值填充層,用于保持數(shù)據(jù)的邊界信息。經(jīng)過第3個卷積層、最大池化層和第二個零值填充層,得到更高維度的特征向量。之后,經(jīng)過AlphaDropout層按照一定的概率將神經(jīng)網(wǎng)絡(luò)訓練單元從網(wǎng)絡(luò)中移除,增加各個特征之間的正交性。最后,將這些高維特征向量輸入全連接層,經(jīng)過該層的非線性變化提取特征之間的關(guān)聯(lián)。最終,在輸出端使用隨機森林分類器,并通過超參數(shù)搜索進行參數(shù)調(diào)優(yōu),選擇性能最優(yōu)的模型作為最后的隨機森林分類器。
圖4 CNN-RF混合深度學習模型結(jié)構(gòu)
Figure 4 CNN-RF hybrid deep learning model structure
本文通過小批量分批次的方式標準化處理輸入數(shù)據(jù)的特征。該方式對輸入數(shù)據(jù)進行規(guī)范化處理,通過縮放和平移使得丟棄后仍能保證數(shù)據(jù)的自規(guī)范性,防止在提取特征時,模型出現(xiàn)收斂較慢或特征無效等現(xiàn)象。
為了進一步提升模型的泛化性、克服模型的過擬合問題,本文使用了AlphaDropout技術(shù)。在CNN傳遞特征向量數(shù)據(jù)的過程中,AlphaDropout層將其中50%的隱藏神經(jīng)元輸出設(shè)置為0,即丟棄對后續(xù)分類沒有貢獻的神經(jīng)元,使神經(jīng)網(wǎng)絡(luò)模型變得稀疏。因此,該方式能夠使CNN模型學習更多輸入流特征數(shù)據(jù)本身的特性,提高RF分類器的分類精度。
為驗證本文提出的CNN-RF混合深度學習算法的性能,將與同文獻[12]提出的LSTM- LightGBM算法和文獻[13]提出的LSTM-RF算法進行對比,分別在精確率、召回率和1值等方面衡量模型的分類性能。
在線測試環(huán)境中,重放不同類型的低速率DDoS攻擊流量和5G環(huán)境中不同場景下的正常通信流量,基于訓練好的CNN-RF混合深度學習模型在線檢測多類型低速率DDoS攻擊。輸出正常流量和不同類型低速率DDoS攻擊的檢測分類結(jié)果,并基于統(tǒng)計的方法分析模型的惡意流量檢測率和準確率等性能。
在采用CNN-RF混合深度學習模型實現(xiàn)多類型低速率DDoS攻擊在線檢測時,引入檢測時間窗口的概念。本文通過自定義改變檢測時間窗口,實現(xiàn)對網(wǎng)絡(luò)環(huán)境中不同類型低速率DDoS攻擊的檢測。由于較長的檢測時間窗口能夠存儲更多的低速率DDoS攻擊流量,并且可以更完整地反映低速率DDoS攻擊活動。因而引入檢測時間窗口,對于多類型低速率DDoS攻擊行為的檢測具有一定的說服力。
基于多類型低速率DDoS攻擊特征集中Flow Duration的分析,得到低速率DDoS攻擊的基準檢測時間窗口。通過繪制其核密度估計圖,能夠直觀地看到特征值的分布特征。以Slow Body攻擊為例,該攻擊Flow Duration特征值的核密度估計如圖5所示,可見該攻擊特征值分布在0.6×10?8的概率最大,特征值計數(shù)單位為毫秒,則表示分布在60 s的概率最大,其他3種類型的低速率攻擊表現(xiàn)相同。因此,多類型低速率DDoS攻擊的基準檢測時間窗口為60 s。
圖5 Flow Duration的核密度估計圖
Figure 5 A kernel density estimate for Flow Duration
按照選定的檢測時間窗口獲取網(wǎng)絡(luò)流量并提取流特征信息,依據(jù)特征分析結(jié)論進行特征選擇,得到低速率DDoS攻擊特征集。在線讀取已訓練好的多類型低速率DDoS攻擊檢測模型結(jié)構(gòu)及參數(shù),依次將緩存區(qū)的低速率DDoS攻擊數(shù)據(jù)集輸入攻擊檢測模型。該模型輸出信息包含預(yù)測標簽和真實標簽,基于統(tǒng)計的方法計算惡意流量檢測率和準確率等指標,分析模型在線檢測的性能。
本文實驗?zāi)M5G環(huán)境下多種類型的低速率DDoS攻擊和正常通信請求,分別進行了不同混合深度學習檢測模型的性能評估及不同檢測時間窗口下的在線檢測性能測試。
為驗證本文方法對于多類型低速率DDoS攻擊的檢測效果,在網(wǎng)絡(luò)平臺采用真實的網(wǎng)絡(luò)設(shè)備搭建了相關(guān)測試平臺,其拓撲結(jié)構(gòu)如圖6所示。
圖6 低速率DDoS攻擊實驗拓撲結(jié)構(gòu)
Figure 6 Low-Rate DDoS attack experimental topology
本文實驗搭建了基于Vmware vSphere的虛擬平臺作為實驗環(huán)境。實驗一共使用9臺主機,其中包含兩臺路由器、一臺客戶端主機、4臺傀儡主機和兩臺Web服務(wù)器。本文實驗基于TensorFlow框架構(gòu)建混合深度學習模型,編程語言采用Python3.8,并使用TensorFlow2.1、Keras2.2.4的機器學習庫進行模型搭建,軟件環(huán)境為Ubuntu18.04 Server操作系統(tǒng),虛擬核數(shù)為8,內(nèi)存為8 GB。圖6中將4臺主機作為傀儡主機,兩臺搭建Web服務(wù)器的虛擬機作為被攻擊服務(wù)器,在網(wǎng)絡(luò)入口路由器處實施檢測,并提供數(shù)據(jù)的采集和數(shù)據(jù)清洗功能。
如圖6所示,正常用戶使用Python腳本在客戶端和服務(wù)端之間建立連接,基于此連接模擬了包含公共服務(wù)、智能家居、PC機上網(wǎng)及MTC通信的4種場景,生成了海量正常通信數(shù)據(jù)請求。低速率DDoS攻擊由攻擊者控制4臺傀儡主機周期性地向Web服務(wù)器發(fā)送基于HTTP協(xié)議和基于TCP協(xié)議的低速率DDoS攻擊。實驗的低速率DDoS攻擊類型選擇基于HTTP協(xié)議的Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和基于TCP協(xié)議的Shrew攻擊。
低速率DDoS攻擊檢測框架基于混合深度學習算法對多類型低速率DDoS攻擊數(shù)據(jù)實現(xiàn)離線訓練和在線檢測。離線訓練主要通過準確率、精確率、召回率、1值、檢測時間和混淆矩陣6個評估指標來分析模型的分類性能。其中,準確率表示模型分類正確樣本數(shù)占總樣本數(shù)的比例;精確率表示模型判斷為攻擊類型的樣本數(shù)中,真正為攻擊類型樣本數(shù)所占的比例;召回率表示模型判斷為攻擊類型的樣本數(shù)占所有該攻擊類型樣本數(shù)的比例;1值綜合了查準率和查全率的結(jié)果,表示兩者的調(diào)和平均值,能夠更準確地反映模型性能;檢測時間反映模型的時間復(fù)雜度情況,用于衡量模型的時間效率;混淆矩陣則用于分析模型的分類效果及預(yù)測標簽與實際標簽相匹配的程度,在數(shù)值上與召回率相對應(yīng)。
此外,為分析在線檢測的分類情況,新定義評估指標:錯誤攔截率和惡意流量檢測率,將其用于評估正常和惡意流量的在線檢測情況。其中,錯誤攔截率表示將正常流量誤判為不同類型低速率DDoS攻擊的比例,計算如式(1)所示;惡意流量檢測率表示檢測出的惡意流量占總惡意流量樣本數(shù)的比例,如式(2)所示。
其中,F表示經(jīng)在線檢測后將網(wǎng)絡(luò)環(huán)境中的正常流量誤判為其他4種類型低速率DDoS攻擊流量的數(shù)據(jù)樣本數(shù);表示網(wǎng)絡(luò)環(huán)境中正常流量的總數(shù)據(jù)樣本數(shù);T則表示經(jīng)在線檢測后網(wǎng)絡(luò)環(huán)境中低速率DDoS攻擊流量未被檢測出的數(shù)據(jù)樣本數(shù);A表示網(wǎng)絡(luò)環(huán)境中不同類型低速率DDoS攻擊的總數(shù)據(jù)樣本數(shù)。
基于3.1節(jié)數(shù)據(jù)集生成模塊得到的低速率DDoS攻擊數(shù)據(jù)集,對其進行數(shù)據(jù)清洗,包括處理特征值為空及處理特征值為無窮大的特征數(shù)據(jù)等。根據(jù)圖2所示的40種有效特征進行特征選擇,并以7:3的比例劃分為訓練集和測試集,數(shù)據(jù)集如表4所示。低速率DDoS攻擊特征數(shù)據(jù)集的總數(shù)據(jù)樣本數(shù)為794 919條,其中包括訓練集556 444條,測試集238 475條。
表4 低速率DDoS攻擊數(shù)據(jù)集
在輸入相同低速率DDoS攻擊數(shù)據(jù)集和特征值的情況下,通過超參數(shù)搜索獲得最優(yōu)性能時的CNN-RF模型。同時,將本文提出的CNN-RF模型同LSTM-LightGBM模型和LSTM-RF模型作比較,從中選擇最優(yōu)的混合深度學習模型實現(xiàn)多類型低速率DDoS攻擊的在線檢測。本文使用了檢測時間、精確率、1值和混淆矩陣4個評估指標。圖7展示了3種混合深度學習模型的混淆矩陣表現(xiàn)。由圖7可知,LSTM-LightGBM模型對每種流量類型的識別準確率表現(xiàn)差異較大,尤其是對Slow Body攻擊的識別準確率僅為0.556 5,對Slow Headers攻擊產(chǎn)生0.269 5的誤報率;LSTM- RF模型對5種流量類型的識別準確率均優(yōu)于LSTM-LightGBM模型,尤其對Slow Read攻擊的識別準確率達到0.999 2左右,但在識別Slow Body攻擊時會產(chǎn)生0.078 8的誤報率;CNN-RF模型的準確率表現(xiàn)均優(yōu)于LSTM-RF,特別是對Slow Read攻擊和Shrew攻擊的識別準確率可達到0.999 9,同時對于Slow Headers攻擊流量的識別準確率也可達到0.956 6。
圖8展示了3種模型在精確率和1值方面的性能表現(xiàn)。由圖8可知,對于正常良性流量的識別,CNN-RF模型在精確率和1值上的表現(xiàn)均優(yōu)于其他兩種模型;對于Slow Headers攻擊流量的檢測,CNN-RF模型的精確率表現(xiàn)最優(yōu),LSTM-RF
圖7 不同模型的混淆矩陣對比
Figure 7 Comparison of confusion matrix of different models
和LSTM-LightGBM模型在1值上表現(xiàn)相似;對于Slow Body和Slow Read攻擊流量的檢測,LSTM-LightGBM模型在精確率和1分數(shù)上的表現(xiàn)都較差,CNN-RF模型的表現(xiàn)最優(yōu);對于Shrew攻擊流量的檢測,3種模型在兩種評估指標中均表現(xiàn)良好。
Figure 8 Comparison of precision and1 scores of different models
不同混合深度學習模型的檢測時間對比如表5所示。由表5可知,CNN-RF模型的檢測時間為268.235 4 s,比LSTM-LightGBM模型檢測時間多約9 s,相比LSTM-RF模型檢測時間減少約40 s。但LSTM-LightGBM模型在檢測精確率和1分數(shù)方面,均明顯低于CNN-RF模型。因此,CNN-RF模型在檢測時間較短的同時,對于各類別低速率DDoS攻擊和正常流量的精確率和1值均有更為優(yōu)異的表現(xiàn)。
表5 不同模型的檢測時間對比
綜合上述評價指標可以得出,相較于LSTM- LightGBM模型和LSTM-RF模型,本文提出的CNN-RF模型在正常流量、Slow Headers攻擊、Slow Body攻擊、Slow Read攻擊和Shrew攻擊流量的檢測分類方面均表現(xiàn)出優(yōu)異的性能,能夠準確檢測出不同類型的低速率DDoS攻擊。
經(jīng)4.3節(jié)離線訓練實驗及分析表明CNN-RF模型具有優(yōu)異的檢測性能。為進一步說明該模型在線檢測時性能仍為最優(yōu),本節(jié)從準確率、錯誤攔截率和惡意流量檢測率方面,對比了LSTM- LightGBM、LSTM-RF和CNN-RF模型的性能。最終,選擇最優(yōu)時間窗口下性能最優(yōu)且已訓練好的模型,部署實現(xiàn)多類型低速率DDoS攻擊的細粒度在線檢測。首先,在線重放多類型低速率DDoS攻擊流量文件,使用Tcpdump抓取指定檢測時間窗口內(nèi)的網(wǎng)絡(luò)流量,并通過CICFlowMeter提取流特征信息;然后,讀取已訓練好的檢測模型結(jié)構(gòu)及參數(shù)并實施在線檢測,模型輸出檢測分類標簽、真實標簽及惡意流量IP地址;最后,基于統(tǒng)計的方法查看模型的檢測準確率和惡意流量檢測率等指標。
本節(jié)依據(jù)基準檢測時間窗口60 s,將其與120 s和180 s的檢測時間窗口進行性能對比,并分別比較LSTM-LightGBM、LSTM-RF和CNN-RF模型的性能表現(xiàn),選擇最優(yōu)檢測模型下的最優(yōu)檢測時間窗口作為最終的在線檢測參數(shù)。表6展示了不同模型在不同時間窗口下的準確率、錯誤攔截率和惡意流量檢測率的性能對比。
表6 不同模型在不同時間窗口下在線檢測性能對比
由表6可知,在120 s的時間窗口下,LSTM- LightGBM、LSTM-RF和CNN-RF模型均表現(xiàn)出相對最優(yōu)的檢測性能。LSTM-RF模型的準確率達到0.924 3,惡意流量檢測率為0.919 3。而當檢測時間窗口為180 s時,LSTM-RF模型的準確率下降至0.897 6;同時,錯誤攔截率提高至0.192 7,表示將大量的正常良性流量誤判為惡意流量。在120 s的時間窗口下,LSTM-LightGBM模型表現(xiàn)最差,準確率僅為0.896 5,錯誤攔截率則是0.203 1。對于CNN-RF模型,當在線檢測時間窗口為120 s時,錯誤攔截率最低為0.110 3,即正常流量被誤判為惡意流量的比例最低;同時,通過該檢測機制檢測出的惡意流量數(shù)據(jù)樣本數(shù)所占比例達0.962 2。經(jīng)分析,120 s的檢測時間窗口下完整地包含不同類型低速率DDoS攻擊的特征信息,反映了完整的低速率DDoS攻擊活動,從而有效區(qū)分不同類型的低速率DDoS攻擊和正常流量。
因此,將檢測時間窗口設(shè)置為120 s,部署性能最優(yōu)的CNN-RF模型實現(xiàn)在線檢測。通過在線檢測得到針對不同類型低速率攻擊及正常流量的檢測性能,如表7所示。由表7可得,CNN-RF混合深度學習模型對于Slow Headers攻擊、Shrew攻擊和正常流量的精確率均達到0.95以上;對于Slow Read攻擊和Slow Body攻擊流量的精確率和召回率均為0.86以上,兩種攻擊類型間產(chǎn)生較少的誤判。綜上,CNN-RF混合深度學習模型對于每種類型低速率DDoS攻擊和正常流量的檢測準確率達到0.965 2,能夠準確地在線檢測出不同類型的低速率DDoS攻擊。
表7 120 s時間窗口下的在線檢測性能
通過上述分析可見,本文提出的CNN-RF混合深度學習模型在線檢測性能優(yōu)異,能夠?qū)崿F(xiàn)對4種類型低速率DDoS攻擊的在線檢測。同時,每種低速率DDoS攻擊的精確率均達0.85以上,能夠防止該攻擊給網(wǎng)絡(luò)造成更大的破壞;惡意流量檢測率達到0.962 2,檢測準確率達到0.965 2,能夠有效地在線檢測出網(wǎng)絡(luò)中的惡意流量,降低了網(wǎng)絡(luò)入口處的低速率DDoS攻擊流量強度。
本文針對4種類型的低速率DDoS攻擊,獲得了低速率DDoS攻擊數(shù)據(jù)集,分析得到了低速率DDoS攻擊的40種有效特征,提出了一種基于CNN-RF混合深度學習的多類型低速率DDoS攻擊檢測方法,在線部署該模型實現(xiàn)了多類型低速率DDoS攻擊的在線檢測。此外,提出在線檢測時間窗口的概念,并使用錯誤攔截率和惡意流量檢測率評估了在線檢測性能。實驗表明基于CNN-RF混合深度學習算法的模型能夠準確檢測出不同類型的低速率DDoS攻擊。同時,本文的檢測方法有高度的可移植性,所用的低速率DDoS攻擊數(shù)據(jù)集接近真實情況,可以部署并應(yīng)用在實際環(huán)境中。
混合深度學習模型在針對多類型低速率DDoS攻擊實現(xiàn)訓練和檢測時,不同場景下在線檢測精度有所下降,與攻擊流量發(fā)送速率和正常流量在檢測窗口中的占空比有關(guān)系。未來將研究優(yōu)化模型及時間窗口,分析時間窗口與數(shù)據(jù)集和特征選擇之間的關(guān)系,使該模型更好地適應(yīng)環(huán)境且具有更高的準確率和檢測效率。
[1] 陳興蜀, 滑強, 王毅桐, 等. 云環(huán)境下SDN網(wǎng)絡(luò)低速率DDoS攻擊的研究[J]. 通信學報, 2019, 40(6): 210-222.
CHEN X S, HUA Q, WANG Y T, et al. Research on low-rate DDoS attack of SDN network in cloud environment[J]. Journal on Communications, 2019, 40(6): 210-222.
[2] KUZMANOVIC A, KNIGHTLY E W. Low-rate TCP-targeted denial of service attacks and counter strategies[J]. IEEE/ACM Transactions on Networking, 2006, 14(4): 683-696.
[3] WU X, TANG D, TANG L, et al. A low-rate DoS attack detection method based on Hilbert spectrum and correlation[C]//Proceedings of 2018 IEEE Smart-World, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation. 2018: 1358-1363.
[4] WU Z, PAN Q, YUE M, et al. Sequence alignment detection of TCP-targeted synchronous low-rate DoS attacks[J]. Computer Networks, 2019, 152: 64-77.
[5] KAUR G, SAXENA V, GUPTA J P. Detection of TCP targeted high bandwidth attacks using self-similarity[J]. Journal of King Saud University: Computer and Information Sciences, 2020, 32(1): 35-49.
[6] ZHANG D, TANG D, TANG L, et al. Pca-svm-based approach of detecting low-rate DoS attack[C]//Proceedings of 2019 IEEE 21st International Conference on High Performance Computing and Communications. 2019: 1163-1170.
[7] LIU Z, YIN X, HU Y. CPSS LR-DDoS detection and defense in edge computing utilizing DCNN Q-Learning[J]. IEEE Access, 2020, 8: 42120-42130.
[8] WU Z J, XU Q, WANG J J, et al. Low-rate DDoS attack detection based on factorization machine in software defined network[J]. IEEE Access, 2020, 8: 17404-17418.
[9] PéREZ-DíAZ J A, VALDOVINOS I A, CHOO K K R, et al. A flexible SDN-based architecture for identifying and mitigating low-rate DDoS attacks using machine learning[J]. IEEE Access, 2020, 8: 155859-155872.
[10] MALIK J, AKHUNZADA A, BIBI I, et al. Hybrid deep learning: an efficient reconnaissance and surveillance detection mechanism in SDN[J]. IEEE Access, 2020, 8: 134695-134706.
[11] GARG S, KAUR K, KUMAR N, et al. Hybrid deep-learning-based anomaly detection scheme for suspicious flow detection in SDN: a social multimedia perspective[J]. IEEE Transactions on Multimedia, 2019, 21(3): 566-578.
[12] GUO Y K, LI Y Y, XU Y. Study on the application of LSTM-LightGBM model in stock rise and fall prediction[J]. MATEC Web of Conferences, 2021, 336: 05011.
[13] HU W, SHI Y X. Prediction of online consumers’ buying behavior based on LSTM-RF model[C]//Proceedings of 2020 5th International Conference on Communication, Image and Signal Processing (CCISP). 2020: 224-228.
[14] JAZI H H, GONZALEZ H, STAKHANOVA N, et al. Detecting HTTP-based application layer DoS attacks on web servers in the presence of sampling[J]. Computer Networks, 2017, 121: 25-36.
[15] 王子恒. 基于區(qū)塊鏈的海量連接管理架構(gòu)設(shè)計與實現(xiàn)[D]. 北京: 北京交通大學, 2021.
WANG Z H. Design and implementation of mass connection management architecture based on blockchain[D]. Beijing: Beijing Jiaotong University, 2021.
[16] ROSENBROCK K H, ANDERSEN N P S. The third generation partnership project (3GPP)[M]//GSM and UMTS. Chichester, UK: John Wiley & Sons, Ltd, : 221-261.
[17] PACKET S. Institute of electrical and electronics engineers[J]. IEEE Standard Computer Dictionary a Compilation of IEEE Standard Computer Glossaries, 2009, 3(8): 128.
[18] GUALBERTO E S, DE SOUSA R T, DE BRITO VIEIRA T P, et al. The answer is in the text: multi-stage methods for phishing detection based on feature engineering[J]. IEEE Access, 2020, 8: 223529-223547.
[19] SUSILO B, SARI R F. Intrusion detection in IoT networks using deep learning algorithm[J]. Information, 2020, 11(5): 279.
Multi-type low-rate DDoS attack detection method based on hybrid deep learning
LI Lijuan, LI Man, BI Hongjun, ZHOU Huachun
Beijing Jiaotong University, Beijing 100044, China
Low-Rate distributed denial of service (DDoS) attack attacks the vulnerabilities in the adaptive mechanism of network protocols, posing a huge threat to the quality of network services. Low-Rate DDoS attack was characterized by high secrecy, low attack rate, and periodicity. Existing detection methods have the problems of single detection type and low identification accuracy. In order to solve them, a multi-type low-rate DDoS attack detection method based on hybrid deep learning was proposed. Different types of low-rate DDoS attacks and normal traffic in different scenarios under 5G environment were simulated. Traffic was collected at the network entrance and its traffic characteristic information was extracted to obtain multiple types of low-rate DDoS attack data sets. From the perspective of statistical threshold and feature engineering, the characteristics of different types of low-rate DDoS attacks were analyzed respectively, and the effective feature set of 40-dimension low-rate DDoS attacks was obtained. CNN-RF hybrid deep learning algorithm was used for offline training based on the effective feature set, and the performance of this algorithm was compared with LSTM-LightGBM and LSTM-RF algorithms. The CNN-RF detection model was deployed on the gateway to realize the online detection of multiple types of low-rate DDoS attacks, and the performance was evaluated by using the newly defined error interception rate and malicious traffic detection rate indexes. The results show that the proposed method can detect four types of low-rate DDoS attacks online, including Slow Headers attack, Slow Body attack, Slow Read attack and Shrew attack, and the error interception rate reaches 11.03% in 120 s time window. The detection rate of malicious traffic reaches 96.22%. It can be judged by the results that the proposed method can significantly reduce the intensity of low-rate DDoS attack traffic at the network entrance, and can be deployed and applied in the actual environment.
multi-type, low-rate DDoS attack, hybrid deep learning, feature analysis, attack detection
李麗娟, 李曼, 畢紅軍, 等. 基于混合深度學習的多類型低速率DDoS攻擊檢測方法[J]. 網(wǎng)絡(luò)與信息安全學報, 2022, 8(1): 73-85. Citation Format: LI L J, LI M, BI H J, et al. Multi-typelow-rate DDoS attack detection method based on hybrid deep learning[J]. Chinese Journal of Network and Information Security, 2022, 8(1): 73-85.
TP393
A
2021?07?20;
2021?10?22
李麗娟,19120069@bjtu.edu.cn
國家重點研發(fā)計劃(2018YFA0701604)
10.11959/j.issn.2096?109x.2022001
李麗娟(1997? ),女,山東泰安人,北京交通大學碩士生,主要研究方向為人工智能、網(wǎng)絡(luò)安全。
李曼(1997? ),女,河南洛陽人,北京交通大學博士生,主要研究方向為網(wǎng)絡(luò)安全、智能通信。
畢紅軍(1965? ),男,山東濰坊人,北京交通大學副教授,主要研究方向為光通信、網(wǎng)絡(luò)安全。
周華春(1965? ),男,博士,北京交通大學教授、博士生導(dǎo)師,主要研究方向為智能通信、移動互聯(lián)網(wǎng)、網(wǎng)絡(luò)安全與衛(wèi)星網(wǎng)絡(luò)。
The National Key R&D Program of China (2018YFA0701604)