胡 斌,周志洪,b,姚立紅,李建華,b
(上海交通大學(xué) a.網(wǎng)絡(luò)空間安全學(xué)院; b.上海市信息安全綜合管理技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,上海 200240)
為保障網(wǎng)絡(luò)通信中用戶和企業(yè)數(shù)據(jù)信息安全,網(wǎng)絡(luò)流量加密成為主流措施,應(yīng)用SSL/TLS協(xié)議是實(shí)現(xiàn)此類網(wǎng)絡(luò)流量加密的主要手段。加密流量可以在一定程度上保護(hù)私人信息的機(jī)密性和完整性,但也給網(wǎng)絡(luò)惡意行為提供了庇護(hù)。2015年約有21%的網(wǎng)絡(luò)流量被加密,而到2019年可能有超過80%的網(wǎng)絡(luò)流量被加密,同比增長超過90%[1]。攻擊者將網(wǎng)絡(luò)加密傳輸協(xié)議作為隱藏惡意行為的工具。2018年思科公司對(duì)40多萬的惡意軟件進(jìn)行分析,發(fā)現(xiàn)其中有超過70%的惡意軟件在通信時(shí)使用了加密技術(shù)[2]。然而,自2017年6月1日起,《中華人民共和國網(wǎng)絡(luò)安全法》正式實(shí)施[3],其中第三章第三十五條規(guī)定:關(guān)鍵信息基礎(chǔ)設(shè)施的運(yùn)營者采購網(wǎng)絡(luò)產(chǎn)品和服務(wù),可能影響國家安全的,應(yīng)當(dāng)通過國家網(wǎng)信部門會(huì)同國務(wù)院有關(guān)部門組織的國家安全審查。在審查的全過程中需對(duì)使用加密協(xié)議的網(wǎng)絡(luò)流量進(jìn)行審查,從而判斷其是否進(jìn)行惡意行為或遭受惡意攻擊。
目前,學(xué)者們對(duì)網(wǎng)絡(luò)加密惡意流量進(jìn)行大量研究并取得了一定的成果。文獻(xiàn)[4]提取TLS流量的側(cè)信道特征作為統(tǒng)計(jì)數(shù)據(jù),使用機(jī)器學(xué)習(xí)模型作為分類器。文獻(xiàn)[5]通過檢測(cè)與TLS流相關(guān)聯(lián)的前向后向域名系統(tǒng)(Domain Name System,DNS)和HTTP流中的關(guān)鍵信息來判斷惡意TLS流量,但該方法依賴于流量的五元組特征。文獻(xiàn)[6]將原始流量用作卷積神經(jīng)網(wǎng)絡(luò)分類器的輸入,識(shí)別不同應(yīng)用的SSL流量,但該方法的數(shù)據(jù)集采集環(huán)境較單一。文獻(xiàn)[7]通過n-gram方法將網(wǎng)絡(luò)流中的域名字符串分段為多個(gè)重疊的子串并作為LSTM網(wǎng)絡(luò)的輸入,識(shí)別加密流量惡意域名,但該方法僅使用一種特征,因此無法對(duì)域名更新頻率極快的惡意流量進(jìn)行檢測(cè)。在五元組信息復(fù)雜的網(wǎng)絡(luò)環(huán)境下,若將惡意流量頻繁更換的五元組信息作為重要特征,會(huì)對(duì)模型識(shí)別精度產(chǎn)生影響。若去除流量的五元組特征后使用上述方法檢測(cè)加密惡意流量,則其識(shí)別率將會(huì)大幅降低。因此,本文提出一種加密惡意流量檢測(cè)方法,將網(wǎng)絡(luò)流量的多重特征歸納為報(bào)文負(fù)載特征和流指紋特征,使其在復(fù)雜網(wǎng)絡(luò)環(huán)境下的差異性更大,并從兩個(gè)特征維度[8]出發(fā)對(duì)網(wǎng)絡(luò)流量的位置分布進(jìn)行描述,同時(shí)使用邏輯回歸模型進(jìn)行復(fù)雜網(wǎng)絡(luò)環(huán)境下的加密惡意流量檢測(cè)。
一般而言,加密惡意流量按其特點(diǎn)、行為等分為惡意代碼加密通信、惡意行為加密通信和惡意或非法加密應(yīng)用3類[9],如表1所示。相比惡意代碼可在本地計(jì)算機(jī)軟件和硬件層面進(jìn)行識(shí)別,惡意行為更多通過流量檢測(cè)方式進(jìn)行識(shí)別;相比惡意或非法加密應(yīng)用,惡意行為的破壞范圍更廣、危害更大。因此,本文選用惡意行為加密通信所產(chǎn)生的加密惡意流量作為研究對(duì)象[10]。
表1 加密惡意流量分類
為對(duì)惡意流量和正常流量進(jìn)行分類,需要使用邏輯回歸模型對(duì)加密惡意流量數(shù)據(jù)集和加密正常流量數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。本文研究中的惡意流量數(shù)據(jù)集來自布拉格捷克理工大學(xué)的CTU13數(shù)據(jù)集[11]。該數(shù)據(jù)集包含13個(gè)不同僵尸網(wǎng)絡(luò)樣本在大量真實(shí)網(wǎng)絡(luò)環(huán)境中捕獲的僵尸網(wǎng)絡(luò)流量、正常流量和背景流量,將所有場(chǎng)景中的惡意流量合并為惡意流量數(shù)據(jù)集,確保本文方法的泛化性。正常流量數(shù)據(jù)集來自布拉格捷克理工大學(xué)的CTU-Normal數(shù)據(jù)集,其選擇CTU-Normal-21、CTU-Normal-23、CTU-Normal-24這3個(gè)數(shù)據(jù)集,它們由排名為Alexa[12]前1 000的網(wǎng)站所生成的HTTPS(HTTP on SSL/TLS)流量合并為正常流量數(shù)據(jù)集,數(shù)據(jù)格式為PCAP文件。CTU13數(shù)據(jù)集和CTU-Normal數(shù)據(jù)集構(gòu)成如表2、表3所示。其中,總流量為樣本中包含的惡意流量、正常流量、背景流量的總數(shù),C&C惡意流量括號(hào)內(nèi)數(shù)據(jù)為惡意流量在總流量中的占比,Total Size為總流量的實(shí)際大小。
表2 CTU13數(shù)據(jù)集構(gòu)成
表3 CTU-Normal數(shù)據(jù)集構(gòu)成
由于本文研究目標(biāo)是識(shí)別SSL/TLS流量中的惡意流量,需要更加精確的數(shù)據(jù)集,而這些數(shù)據(jù)集中包含了大量背景流量及非加密流量,因此需要先提取出其中的SSL/TLS加密部分作為研究對(duì)象,提取CTU13數(shù)據(jù)集中的C& C通信所產(chǎn)生的SSL惡意流量共0.698 GB,正常流量數(shù)據(jù)集大小為0.76 GB,正負(fù)數(shù)據(jù)集的大小滿足了訓(xùn)練數(shù)據(jù)的平衡性。
PCAP文件由不同傳輸層數(shù)據(jù)包組成,將相同源和目的IP的數(shù)據(jù)包合并形成一個(gè)單向流,將相同IP的數(shù)據(jù)包合并形成雙向流。文獻(xiàn)[13-14]指出雙向流在流量識(shí)別中表現(xiàn)更出色,因?yàn)殡p向流保證了數(shù)據(jù)的完整性,且能從雙向流中獲得服務(wù)器和客戶端信息。雙向流的形成過程具體如下:
in.source address=out.destination address
in.destination address=out.source address
in.source port=out.destination port
in.destination port=out.source port
in.protocol=out.protocol
(1)
由于近幾年加密流量攻擊的增加,防御者提出應(yīng)對(duì)加密惡意流量的指紋識(shí)別方法,因此惡意行為也試圖通過頻繁改變五元組信息進(jìn)行偽裝并規(guī)避檢測(cè)[15]。大部分研究將一個(gè)完整的流特征分為五元組特征和自定義特征:五元組特征即一個(gè)流量會(huì)話的客戶端IP地址、客戶端端口號(hào)、服務(wù)器IP地址、服務(wù)器端口號(hào)和協(xié)議;自定義特征根據(jù)研究?jī)?nèi)容由研究者自行定義,一般是對(duì)于需要識(shí)別的目標(biāo)流量影響較大的特征。五元組特征相當(dāng)于一個(gè)流量會(huì)話的身份ID,而自定義特征相當(dāng)于一個(gè)流量會(huì)話的指紋。
研究人員需要保證自定義特征的穩(wěn)定性以達(dá)到高識(shí)別率。穩(wěn)定性是指同一類樣本的某一特征變化在一個(gè)可識(shí)別的范圍內(nèi)。對(duì)于將通信流量偽裝為SSL/TLS加密協(xié)議的惡意樣本,其產(chǎn)生的流量自定義特征具有穩(wěn)定性[16],與正常的SSL通信相比,在加密惡意流量協(xié)議、支持的密碼套件和擴(kuò)展字段數(shù)等方面有較大差異[17]。但對(duì)于一個(gè)惡意樣本產(chǎn)生的惡意流量,或者同一類型僵尸網(wǎng)絡(luò)產(chǎn)生的惡意流量,它們的五元組特征不穩(wěn)定。若同一個(gè)樣本運(yùn)行在不同地點(diǎn)和網(wǎng)絡(luò)環(huán)境下,則客戶端和服務(wù)器端的IP地址不同。為規(guī)避傳統(tǒng)基于規(guī)則的惡意流量識(shí)別軟件的檢測(cè),惡意樣本或者僵尸網(wǎng)絡(luò)主機(jī)通常會(huì)混淆端口或者使用隨機(jī)端口,但會(huì)造成五元組中的端口特征不穩(wěn)定。由此可見,惡意樣本或僵尸網(wǎng)絡(luò)生成的SSL/TLS通信流量的五元組特征不穩(wěn)定,不適合作為邏輯回歸模型學(xué)習(xí)的特征。若使用這些特征,則會(huì)降低模型辨識(shí)性特征的密度,使得模型擬合過慢,導(dǎo)致整體識(shí)別度下降。
然而,現(xiàn)階段大部分研究仍將五元組特征作為檢測(cè)SSL/TLS加密流量的主要特征。在樣本數(shù)較少且采集環(huán)境單一的情況下,加密流量的五元組特征高度相似,而在樣本數(shù)較多且采集環(huán)境復(fù)雜的情況下,加密流量的五元組特征無規(guī)律性。這導(dǎo)致了檢測(cè)同一類僵尸網(wǎng)絡(luò),不同數(shù)據(jù)集訓(xùn)練出的模型檢測(cè)效果不同。采集環(huán)境單一的數(shù)據(jù)集訓(xùn)練出的模型采用相同數(shù)據(jù)集進(jìn)行檢測(cè),分類效果較好,但一旦應(yīng)用不同網(wǎng)絡(luò)環(huán)境的同類數(shù)據(jù)集進(jìn)行檢測(cè),其檢測(cè)效果則會(huì)大幅降低,然而現(xiàn)階段研究多數(shù)實(shí)驗(yàn)使用采集環(huán)境單一的數(shù)據(jù)集。由于其特征提取無法滿足復(fù)雜網(wǎng)絡(luò)環(huán)境下的加密惡意流量識(shí)別,因此需要一種排除非穩(wěn)定性特征的特征提取方式。本文采用五元組特征規(guī)避法,將所有會(huì)話流量的IP地址和端口號(hào)采取一致化處理,使其不具備特征性。
報(bào)文負(fù)載就是從報(bào)文內(nèi)容層面對(duì)信息進(jìn)行篩選和處理,從而得到這一維度的流量特征。SSL/TLS協(xié)議握手協(xié)商階段流程如圖1所示,啟動(dòng)TLS會(huì)話后,客戶端向服務(wù)器發(fā)送ClientHello數(shù)據(jù)包,其生成方式取決于構(gòu)建客戶端應(yīng)用程序所使用的軟件包和方法。如果接收連接,則服務(wù)器將使用基于服務(wù)器端庫和配置以及ClientHello消息中的詳細(xì)信息創(chuàng)建ServerHello數(shù)據(jù)包進(jìn)行響應(yīng),之后服務(wù)器端發(fā)送Certificate、ServerKeyExchange和ServerHelloDone完成ServerHello的消息發(fā)送??蛻舳耸盏较⒑髸?huì)利用Certificate中的Public Key進(jìn)行ClientKeyExchange的Session Key交換,之后發(fā)送ChangeCipherSpec指示Server從現(xiàn)在開始發(fā)送的消息都需經(jīng)過加密,最終以Finished結(jié)尾。服務(wù)器收到消息后發(fā)送同樣性質(zhì)的消息進(jìn)行確認(rèn),之后便按照之前協(xié)商的SSL協(xié)議規(guī)范收發(fā)應(yīng)用數(shù)據(jù),其中握手協(xié)商階段的報(bào)文內(nèi)容為明文,應(yīng)用數(shù)據(jù)傳輸階段的內(nèi)容為密文。傳統(tǒng)方法采用中間人破解的方式審查SSL/TLS流量的密文內(nèi)容,不僅時(shí)間耗費(fèi)長,且違背了加密流量的初衷。但由于TLS協(xié)商是以明文的方式進(jìn)行傳輸,因此可以從報(bào)文內(nèi)容層面使用Hello數(shù)據(jù)包中的詳細(xì)信息對(duì)客戶端應(yīng)用程序進(jìn)行指紋識(shí)別。
圖1 SSL/TLS協(xié)議握手協(xié)商階段流程
由于SSL協(xié)議在構(gòu)建不同應(yīng)用程序時(shí)使用的軟件包和方法不同,因此其生成的ClientHello包中的元素也不同,但是這些元素在每個(gè)客戶端會(huì)話之間保持靜態(tài),可構(gòu)建指紋以識(shí)別后續(xù)會(huì)話中的特定客戶端[18]。本文選取ClientHello和ServerHello報(bào)文中的Version、Cipher、Extension、EllipticCurvePointFormat、EllipticCurve元素作為報(bào)文負(fù)載的特征,如表4所示。這5種元素的組合數(shù)據(jù)不僅在任何特定客戶端的靜態(tài)識(shí)別方面具有較強(qiáng)的可靠性,且相比評(píng)估單個(gè)密碼組件的方法提供了更細(xì)粒度的識(shí)別結(jié)果及差異更明顯的SSL指紋[19]。將5種元素的組合數(shù)據(jù)歸一化為專有的報(bào)文負(fù)載特征:
X正=[x1,x2,x3,x4,x5]
(2)
其中,X正為報(bào)文負(fù)載特征向量,x1、x2、x3、x4、x5分別為Version、Cipher、Extension、EllipticCurvePointFormat和EllipticCurve所代表的向量。
表4 報(bào)文負(fù)載特征
流指紋是指流在時(shí)間和空間上的統(tǒng)計(jì)特征及包到達(dá)間隔時(shí)間、包長度等流量特征。本文將包長度、包到達(dá)間隔時(shí)間[20-21]及能夠提供應(yīng)用程序數(shù)據(jù)編碼信息的字節(jié)分布數(shù)據(jù)作為流指紋特征[22]。
1)包長度和包到達(dá)間隔時(shí)間。本文首先將數(shù)據(jù)包長度和包到達(dá)間隔時(shí)間數(shù)據(jù)離散為相同大小的窗口,對(duì)于包長度數(shù)據(jù)使用大小為150 Byte的窗口,當(dāng)數(shù)據(jù)大小為[0 Byte,150 Byte)時(shí)放入第1個(gè)bin,數(shù)據(jù)大小為[150 Byte,300 Byte)時(shí)放入第2個(gè)bin,以此類推。然后構(gòu)造矩陣A[i,j],計(jì)算第i個(gè)bin和第j個(gè)bin之間的轉(zhuǎn)換次數(shù)。最后對(duì)A進(jìn)行標(biāo)準(zhǔn)化處理,確保得到一個(gè)合適的馬爾科夫鏈并將A作為該項(xiàng)數(shù)據(jù)的特征。
2)字節(jié)分布。字節(jié)分布是一個(gè)長度為256的數(shù)組,其對(duì)流中每一個(gè)包的有效負(fù)載中的每一個(gè)字節(jié)值進(jìn)行計(jì)數(shù)。將該計(jì)數(shù)除以數(shù)據(jù)包有效負(fù)載中發(fā)現(xiàn)的字節(jié)總數(shù),可以得到每一個(gè)字節(jié)值出現(xiàn)的概率。不同應(yīng)用程序的字節(jié)分布提供了大量關(guān)于該應(yīng)用程序數(shù)據(jù)編碼的信息。此外,字節(jié)分布還可以提供SSL/TLS協(xié)議握手信息包與整個(gè)流的負(fù)載比、握手信息的字節(jié)組成以及字節(jié)的香農(nóng)熵和平均偏差。
將這兩項(xiàng)的組合數(shù)據(jù)歸一化為專有的流指紋特征:
Y側(cè)=[y包,y字]=[A標(biāo),y字]
(3)
其中,Y測(cè)為流指紋特征向量,y包、y字分別為包長度和包到達(dá)間隔時(shí)間以及字節(jié)分布所表示的向量,A標(biāo)為A[i,j]標(biāo)準(zhǔn)化處理后得到的關(guān)于包長度和包到達(dá)間隔時(shí)間的向量。
實(shí)驗(yàn)首先從原始數(shù)據(jù)集中提取TLS流量并對(duì)其進(jìn)行統(tǒng)一的雙向流化處理,然后規(guī)避流的五元組特征信息。將這部分流按照原始標(biāo)簽分為CTU13惡意流量數(shù)據(jù)集和CTU-Normal正常流量數(shù)據(jù)集。將CTU13作為復(fù)雜網(wǎng)絡(luò)環(huán)境下的惡意流量數(shù)據(jù)集,其中的CTU13-9數(shù)據(jù)集作為單一網(wǎng)絡(luò)環(huán)境下的惡意流量數(shù)據(jù)集;將CTU-Normal-21、CTU-Normal-23、CTU-Normal-24作為復(fù)雜網(wǎng)絡(luò)環(huán)境下的正常流量數(shù)據(jù)集,其中的CTU-Normal-21作為單一網(wǎng)絡(luò)環(huán)境下的正常流量數(shù)據(jù)集。本文只從兩類單一網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)集中提取流量的報(bào)文負(fù)載和流指紋特征,經(jīng)過一系列整合和標(biāo)準(zhǔn)化操作后,輸入邏輯回歸模型進(jìn)行訓(xùn)練,并最終使用復(fù)雜網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)集進(jìn)行驗(yàn)證。加密惡意流量檢測(cè)流程如圖2所示。
圖2 加密惡意流量檢測(cè)流程
在測(cè)試過程中需要對(duì)邏輯回歸模型性能進(jìn)行評(píng)估,對(duì)于二分類問題可將每一個(gè)樣例根據(jù)真實(shí)情況與預(yù)測(cè)情況的組合劃分為真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)、假反例(False Negative,FN)4類[23],如表5所示。假設(shè)數(shù)據(jù)總數(shù)為S,則有:
S=TP+FP+TN+FN
(4)
表5 二分類問題的分類結(jié)果
本文定義準(zhǔn)確率(Accuracy)為分類正確的樣例數(shù)占總樣例數(shù)的比例,計(jì)算公式如式(5)所示。將精確度(Precision)、召回率(Recall)和F1-measure作為性能評(píng)價(jià)指標(biāo),計(jì)算公式如式(6)~式(8)所示。精確度和召回率表示分類器在每個(gè)類別上的分類能力,準(zhǔn)確率反映了分類器的整體性能,F1-measure是精確度和召回率的綜合評(píng)估指標(biāo),其值越高,表示分類性能越好。
(5)
(6)
(7)
(8)
在實(shí)驗(yàn)中分別選取CTU13-9數(shù)據(jù)集和CTU-Normal-21數(shù)據(jù)集作為單一網(wǎng)絡(luò)環(huán)境下的惡意流量數(shù)據(jù)集和正常流量數(shù)據(jù)集,選取全部惡意流量數(shù)據(jù)集和正常流量數(shù)據(jù)集作為復(fù)雜網(wǎng)絡(luò)環(huán)境下的惡意流量數(shù)據(jù)集和正常流量數(shù)據(jù)集,并以7∶3的比例來劃分訓(xùn)練集和測(cè)試集。
將單一網(wǎng)絡(luò)環(huán)境產(chǎn)生的流量作為訓(xùn)練數(shù)據(jù)集訓(xùn)練邏輯回歸模型,若以流量的五元組信息和報(bào)文負(fù)載或者流指紋信息作為分類特征,那么五元組特征會(huì)在邏輯回歸模型的分類權(quán)重中占比較大,其主要原因?yàn)閮H憑五元組特征就能夠精確地分類出不同流量,但該模型對(duì)于頻繁變換五元組特征(主要是IP地址和端口號(hào))的加密惡意流量毫無抵抗力。為規(guī)避該問題,本文利用將報(bào)文負(fù)載或者流指紋作為分類特征的邏輯回歸模型,其檢測(cè)準(zhǔn)確率相比采用五元組的邏輯回歸模型約下降17個(gè)和12個(gè)百分點(diǎn),檢測(cè)結(jié)果表6和圖3所示??梢钥闯?以單一網(wǎng)絡(luò)環(huán)境產(chǎn)生的流量為訓(xùn)練集,選取的特征中包含五元組的邏輯回歸模型比不包含五元組特征的邏輯回歸模型F1-measure結(jié)果約提升16個(gè)百分點(diǎn),說明五元組特征對(duì)于分類結(jié)果的影響較大,在邏輯回歸模型分類權(quán)重中占比較大。
表6 單一網(wǎng)絡(luò)環(huán)境下包含和不包含五元組特征的邏輯回歸模型檢測(cè)結(jié)果
圖3 單一網(wǎng)絡(luò)環(huán)境下4種特征提取方式的檢測(cè)結(jié)果
若按照傳統(tǒng)方法選取流量的五元組特征和某一維度特征(報(bào)文負(fù)載特征或流指紋特征),且模型訓(xùn)練數(shù)據(jù)集由單一網(wǎng)絡(luò)環(huán)境下采集的數(shù)據(jù)構(gòu)成,其分類效果對(duì)于單一網(wǎng)絡(luò)環(huán)境下采集的測(cè)試數(shù)據(jù)集具有較好的分類效果,主要原因?yàn)槲逶M特征非常重要,但對(duì)于不同網(wǎng)絡(luò)環(huán)境下采集的測(cè)試數(shù)據(jù)集,分類效果會(huì)顯著降低,其主要原因?yàn)槲逶M特征訓(xùn)練出的模型不適用于復(fù)雜網(wǎng)絡(luò)環(huán)境,檢測(cè)結(jié)果如表7、圖4所示。可以看出,單一網(wǎng)絡(luò)環(huán)境下包含五元組特征的邏輯回歸模型只適用于測(cè)試單一網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)集,若使用包含五元組特征的邏輯回歸模型測(cè)試復(fù)雜網(wǎng)絡(luò)環(huán)境下的多個(gè)數(shù)據(jù)集,則其檢測(cè)準(zhǔn)確率約平均降低35個(gè)百分點(diǎn)。
表7 單一和復(fù)雜網(wǎng)絡(luò)環(huán)境下包含五元組特征的邏輯回歸模型檢測(cè)結(jié)果
圖4 單一和復(fù)雜網(wǎng)絡(luò)環(huán)境下2種特征提取方式的檢測(cè)結(jié)果
本文將流量特征中的五元組特征模糊化,而將報(bào)文負(fù)載與流指紋的聯(lián)合特征作為分類器模型的輸入,檢測(cè)結(jié)果如表8、圖5所示。若將加密流量的報(bào)文負(fù)載特征與流指紋特征各自獨(dú)立訓(xùn)練模型,則準(zhǔn)確率僅分別為80.99%和78.82%[4]。本文將所有流量特征歸類為報(bào)文負(fù)載特征和流指紋特征后,從兩個(gè)維度對(duì)流量進(jìn)行刻畫,并使用這兩個(gè)維度的特征訓(xùn)練邏輯回歸模型,最終得到的結(jié)果在單一網(wǎng)絡(luò)環(huán)境和復(fù)雜網(wǎng)絡(luò)環(huán)境下均能夠達(dá)到97%以上的檢測(cè)準(zhǔn)確率,相比復(fù)雜網(wǎng)絡(luò)環(huán)境下使用五元組與報(bào)文負(fù)載特征的傳統(tǒng)檢測(cè)方法提升36.05%。
表8 單一和復(fù)雜網(wǎng)絡(luò)環(huán)境下包含聯(lián)合特征的邏輯回歸模型檢測(cè)結(jié)果
圖5 單一和復(fù)雜網(wǎng)絡(luò)環(huán)境下聯(lián)合特征提取方式的檢測(cè)結(jié)果
本文將兩個(gè)維度的流量特征歸一化后,在二維平面坐標(biāo)上給出復(fù)雜網(wǎng)絡(luò)環(huán)境下所有加密流量的位置分布,如圖6、圖7所示??梢钥闯?惡意流量的報(bào)文負(fù)載特征和流指紋特征歸一化值主要集中于(0.00,0.05)和(0.00,0.10)∪(0.80,1.00),正常流量的報(bào)文負(fù)載特征和流指紋特征歸一化值主要集中于(0.0,0.1)。由于復(fù)雜網(wǎng)絡(luò)環(huán)境下的正常流量來自不同網(wǎng)站的正常SSL/TLS通信流量,其TLS的Version、Cipher、Extension、EllipticCurvePointFormat、EllipticCurve 因各自SSL證書不同而差異較大,因此歸一化值分布于(0.0,1.0),而惡意流量因?yàn)闊o法獲得正規(guī)渠道的合法SSL證書,只能采用版本較舊的SSL/TLS協(xié)議且支持的密碼套件及擴(kuò)展字段也較少,所以歸一化值分布區(qū)域有限。
圖6 聯(lián)合特征描述的SSL/TLS加密惡意流量分布
圖7 聯(lián)合特征描述的SSL/TLS加密正常流量分布
本文提出一種基于邏輯回歸模型訓(xùn)練加密流量報(bào)文負(fù)載特征和流指紋特征的惡意流量識(shí)別方法。通過加密流量預(yù)處理及IP地址和端口號(hào)規(guī)避操作后,將選取的特征歸類為報(bào)文負(fù)載和流指紋特征,并以單一網(wǎng)絡(luò)環(huán)境中的惡意流量為數(shù)據(jù)集訓(xùn)練邏輯回歸模型,同時(shí)不依賴加密流量的五元組特征,從而識(shí)別出復(fù)雜網(wǎng)絡(luò)環(huán)境流量中的惡意流量。實(shí)驗(yàn)結(jié)果表明,本文方法提高了邏輯回歸模型對(duì)于復(fù)雜網(wǎng)絡(luò)環(huán)境流量的檢測(cè)準(zhǔn)確率,且只需從單一網(wǎng)絡(luò)環(huán)境流量中訓(xùn)練邏輯回歸模型,泛化性更強(qiáng)。下一步將在加密流量標(biāo)簽未知的情況下對(duì)原始加密流量進(jìn)行聚類,并根據(jù)聚類特性對(duì)流量安全性進(jìn)行評(píng)估,實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境下未知類型的惡意流量檢測(cè)。