孟 楠,周成勝,趙 勛,王 斌,姜喬木
(1.中國(guó)信息通信研究院 安全研究所,北京 100191;2.廣州匯智通信技術(shù)有限公司,廣東 廣州 510639)
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新興信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)規(guī)模呈現(xiàn)指數(shù)級(jí)、爆發(fā)式增長(zhǎng)趨勢(shì),社會(huì)各行各業(yè)開(kāi)始廣泛地應(yīng)用互聯(lián)網(wǎng)技術(shù)開(kāi)展工作,網(wǎng)絡(luò)的穩(wěn)定可靠運(yùn)行對(duì)社會(huì)平穩(wěn)運(yùn)行和快速發(fā)展具有重要意義。
為保障網(wǎng)絡(luò)穩(wěn)定可靠運(yùn)行,需要通過(guò)部署網(wǎng)絡(luò)流量監(jiān)測(cè)設(shè)備(如流量探針)對(duì)特定網(wǎng)絡(luò)出入口的流量進(jìn)行多維度實(shí)時(shí)監(jiān)測(cè),將關(guān)鍵網(wǎng)絡(luò)節(jié)點(diǎn)的流量數(shù)據(jù)通過(guò)鏡像或分光的方式進(jìn)行采集,并發(fā)送至網(wǎng)絡(luò)安全分析監(jiān)測(cè)系統(tǒng),然后對(duì)網(wǎng)絡(luò)流量行為、傳輸協(xié)議和數(shù)據(jù)內(nèi)容進(jìn)行深度包解析,通過(guò)與內(nèi)置的安全威脅情報(bào)庫(kù)進(jìn)行匹配,從而對(duì)惡意加密流量行為實(shí)現(xiàn)實(shí)時(shí)檢測(cè)和預(yù)警[1]。然而,針對(duì)網(wǎng)絡(luò)中的加密流量數(shù)據(jù)(如HTTPS協(xié)議流量),現(xiàn)有深度包探測(cè)技術(shù)難以實(shí)現(xiàn)數(shù)據(jù)內(nèi)容的有效提取和分析,因此難以進(jìn)行安全監(jiān)測(cè)預(yù)警,只能通過(guò)關(guān)聯(lián)資源、種子站等外圍信息進(jìn)行模糊分析[2]。針對(duì)上述問(wèn)題,相關(guān)領(lǐng)域的研究者開(kāi)展了針對(duì)加密網(wǎng)絡(luò)流量的異常行為檢測(cè),通過(guò)分析流量中的結(jié)構(gòu)化信息(不包含加密載荷),實(shí)現(xiàn)惡意加密流量行為檢測(cè)[3],采集的流量統(tǒng)計(jì)信息包括流量的上行、下行的瞬時(shí)流量大小或數(shù)據(jù)包數(shù)量,以及流量中各類(lèi)傳輸協(xié)議的占比情況,同時(shí)還可以分析訪問(wèn)源地址所屬的國(guó)家或地區(qū)[4]?;诰W(wǎng)絡(luò)流量監(jiān)測(cè)信息,可以實(shí)現(xiàn)對(duì)加密網(wǎng)絡(luò)流量中的異常行為和網(wǎng)絡(luò)攻擊進(jìn)行實(shí)時(shí)檢測(cè)和追蹤溯源[5-7]。為了對(duì)不同協(xié)議下的惡意加密流量進(jìn)行有效檢測(cè),相關(guān)領(lǐng)域的研究者設(shè)計(jì)了一種基于隱馬爾可夫模型的惡意加密流量檢測(cè)方法,通過(guò)提取生物信息學(xué)上的基因序列特征進(jìn)行比對(duì)分析,匹配關(guān)鍵基因子序列,實(shí)現(xiàn)惡意加密流量識(shí)別[5]。為了解決傳統(tǒng)機(jī)器學(xué)習(xí)算法需要大量標(biāo)記數(shù)據(jù),且難以識(shí)別未知惡意流量的問(wèn)題,相關(guān)領(lǐng)域的研究者進(jìn)一步設(shè)計(jì)了一種基于孿生神經(jīng)網(wǎng)絡(luò)的惡意加密流量識(shí)別方法,實(shí)現(xiàn)端到端的單樣本檢測(cè)[6]。另外,針對(duì)單模型檢測(cè)算法對(duì)多粒度特征適用性差和復(fù)雜惡意加密流量檢測(cè)的誤報(bào)率高的問(wèn)題,相關(guān)領(lǐng)域的研究者設(shè)計(jì)了一種基于Stacking與多特征融合的加密惡意流量檢測(cè)技術(shù)[7]。
然而,在現(xiàn)有的基于馬爾可夫模型、孿生神經(jīng)網(wǎng)絡(luò)和復(fù)雜特征融合的惡意加密流量檢測(cè)算法中[5-7],當(dāng)流量監(jiān)測(cè)設(shè)備采集的數(shù)據(jù)維度較多時(shí),實(shí)時(shí)處理海量的高維數(shù)據(jù)將會(huì)帶來(lái)極大的計(jì)算負(fù)擔(dān)。因此,有必要通過(guò)采用壓縮感知和稀疏編碼等降維分析方法,將測(cè)量數(shù)據(jù)從高維空間映射至低維空間,同時(shí)保留數(shù)據(jù)中的有效信息,從而實(shí)現(xiàn)處理復(fù)雜度的降低[8]。
主成分分析技術(shù)(Principal Component Analysis,PCA)是數(shù)據(jù)分析領(lǐng)域中一種有效的降維處理方法,由于具有計(jì)算簡(jiǎn)便性和非參數(shù)特性,該方法被廣泛應(yīng)用于高維數(shù)據(jù)特征提取和異常數(shù)據(jù)檢測(cè)應(yīng)用[9]。在主成分分析技術(shù)中,首先將長(zhǎng)時(shí)間采集的測(cè)量數(shù)據(jù)組合為數(shù)據(jù)矩陣。接著,通過(guò)計(jì)算測(cè)量數(shù)據(jù)的統(tǒng)計(jì)均值和方差,將測(cè)量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再計(jì)算標(biāo)準(zhǔn)化處理數(shù)據(jù)的協(xié)方差矩陣?;跍y(cè)量數(shù)據(jù)協(xié)方差矩陣,利用奇異值分解方法(Singular Value Decomposition,SVD)求解協(xié)方差矩陣的特征值和特征向量。通過(guò)計(jì)算特征值之間的占比情況,將數(shù)據(jù)空間劃分為模型空間和殘差空間,其中模型空間對(duì)應(yīng)的特征向量就是測(cè)量數(shù)據(jù)的主成分分量。利用主成分分量重構(gòu)狀態(tài)數(shù)據(jù),可以實(shí)現(xiàn)高維數(shù)據(jù)的低維映射表示。同時(shí),考慮到正常情況下測(cè)量數(shù)據(jù)的殘差分量趨近于0,可以利用實(shí)時(shí)測(cè)量數(shù)據(jù)的殘差分量判斷數(shù)據(jù)是否出現(xiàn)異常[10]。
在本文中,利用主成分分析技術(shù),基于多維度監(jiān)測(cè)的流量信息構(gòu)建時(shí)間維度和空間維度的流量變化模型。通過(guò)計(jì)算流量模型預(yù)測(cè)結(jié)果與實(shí)際采集流量間的平方預(yù)測(cè)誤差,實(shí)時(shí)檢測(cè)網(wǎng)絡(luò)流量中的惡意加密流量。同時(shí),通過(guò)構(gòu)建不同國(guó)家和地區(qū)的網(wǎng)絡(luò)流量模型,實(shí)現(xiàn)惡意加密流量來(lái)源的追蹤溯源。
為了保障重點(diǎn)目標(biāo)(如關(guān)鍵基礎(chǔ)設(shè)施)的正常網(wǎng)絡(luò)運(yùn)行,防止DoS攻擊、DDoS攻擊和Infiltration攻擊等惡意網(wǎng)絡(luò)攻擊導(dǎo)致網(wǎng)絡(luò)通聯(lián)狀態(tài)異常,通常需要實(shí)時(shí)對(duì)重點(diǎn)目標(biāo)網(wǎng)絡(luò)系統(tǒng)的出口流量進(jìn)行多維度監(jiān)測(cè)[11]。利用主流的高端網(wǎng)絡(luò)流量監(jiān)測(cè)探針,可以每?jī)煞昼姍z測(cè)一次網(wǎng)絡(luò)的出口流量信息,采集的流量可按照訪問(wèn)重點(diǎn)目標(biāo)的源IP所在的國(guó)家、省份或地區(qū)劃分,共分為263個(gè)地區(qū),包含31個(gè)境內(nèi)省份地區(qū)和232個(gè)境外國(guó)家或地區(qū)。在第k時(shí)刻,網(wǎng)絡(luò)流量監(jiān)測(cè)探針采集的第i個(gè)地區(qū)信息如表1所示。
表1 網(wǎng)絡(luò)流量監(jiān)測(cè)探針采集信息匯總表
利用上述實(shí)時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)信息,可以提取時(shí)間維度和空間維度的網(wǎng)絡(luò)流量行為特征,構(gòu)建高維網(wǎng)絡(luò)流量信息矢量。
1.1.1 時(shí)間維度網(wǎng)絡(luò)流量監(jiān)測(cè)模型
在第d天第m分鐘,基于時(shí)間維度的瞬時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
yINST(d,m)=[fUP(k),fDOWN(k),pUP(k),pDOWN(k),fTCP(k),fUDP(k),fOTHER(k),pTCP(k),pUDP(k),pOTHER(k)]T
(1)
其中,流量信息的采集時(shí)刻k可以表示為k=d×24×60+m,yINST(d,m)為10×1維的列向量。由于流量探針監(jiān)測(cè)設(shè)備每?jī)煞昼姴杉淮瘟髁啃畔?,m的取值范圍為{0,2,4,6,…,24×60=1 440}。
第d天基于時(shí)間維度的網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
(2)
則yDAY(d)為7 200×1維的列向量。
為了分析網(wǎng)絡(luò)流量在一天24 h內(nèi)的變化情況,需要對(duì)歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)的變化規(guī)律進(jìn)行分析。在第d天,可以對(duì)前d-1天的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,則基于時(shí)間維度的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
YTEMP(d)=[yDAY(1),yDAY(2),…,yDAY(d-1)]
(3)
1.1.2 空間維度網(wǎng)絡(luò)流量監(jiān)測(cè)模型
在第k個(gè)網(wǎng)絡(luò)流量信息采集時(shí)刻,對(duì)于第i個(gè)地區(qū)的瞬時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
yDIST(k,i)=[fOUT[district(i),k],fIN[district(i),k],pOUT[district(i),k],pIN[district(i),k]]T
(4)
其中1≤i≤263,yDIST(k,i)為4×1維的列向量。
在第k個(gè)網(wǎng)絡(luò)流量信息采集時(shí)刻,基于空間維度的網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
(5)
則ySPAT(k)為1 052×1維的列向量。
為了分析網(wǎng)絡(luò)流量在空間維度的變化情況,需要對(duì)歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)的變化規(guī)律進(jìn)行分析。在第k個(gè)網(wǎng)絡(luò)流量信息采集時(shí)刻,可以對(duì)前k-1個(gè)時(shí)刻的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,則基于空間維度的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
YSPAT(k)=[ySPAT(1),ySPAT(2),…,ySPAT(k-1)]
(6)
根據(jù)1.1節(jié)的網(wǎng)絡(luò)流量監(jiān)測(cè)模型,為了實(shí)現(xiàn)網(wǎng)絡(luò)流量變化規(guī)律的建模分析,需要對(duì)大量監(jiān)測(cè)數(shù)據(jù)進(jìn)行采集,其中時(shí)間維度的網(wǎng)絡(luò)流量測(cè)量模型每一時(shí)刻會(huì)生成一個(gè)7 200×1維的測(cè)量向量,空間維度的網(wǎng)絡(luò)流量測(cè)量模型每一時(shí)刻會(huì)生成一個(gè)1 052×1維的測(cè)量向量,高維度向量的特征提取和實(shí)時(shí)處理將帶來(lái)極大的計(jì)算負(fù)擔(dān),同時(shí)可能出現(xiàn)過(guò)擬合效應(yīng),難以提取有效信息。
針對(duì)上述情況,有必要利用降維分析方法,壓縮網(wǎng)絡(luò)流量檢測(cè)數(shù)據(jù)的維度,提升實(shí)時(shí)數(shù)據(jù)處理效率,同時(shí)保留原有數(shù)據(jù)中包含的有效信息。
主成分分析技術(shù)是數(shù)據(jù)分析領(lǐng)域一種常用于數(shù)據(jù)降維分析的方法,通過(guò)對(duì)數(shù)據(jù)的信號(hào)空間進(jìn)行特征分解,分析信號(hào)空間中權(quán)重占比較大的信號(hào)分量,分析數(shù)據(jù)樣本中潛在的時(shí)空變化規(guī)律。主成分分析技術(shù)一方面可將高維度向量壓縮為低維度向量,另一方面還可以保留原始信號(hào)中與真實(shí)信號(hào)相匹配的信號(hào)分量,將信號(hào)中的隨機(jī)噪聲剔除。主成分分析技術(shù)的主要應(yīng)用領(lǐng)域分為兩類(lèi):(1)用于高維度向量的降維分析,降低數(shù)據(jù)處理的計(jì)算復(fù)雜度;(2)用于異常信號(hào)檢測(cè),通過(guò)提取殘差空間對(duì)應(yīng)的特征值和特征向量,將測(cè)量數(shù)據(jù)映射到殘差空間中,考慮到正常信號(hào)的測(cè)量噪聲通常較低,若測(cè)量數(shù)據(jù)在殘差空間投影幅值顯著升高,則可以判斷信號(hào)出現(xiàn)異常,進(jìn)而通過(guò)多維度分析研判,確認(rèn)信號(hào)異常的原因,如環(huán)境劇烈變化、設(shè)備故障、網(wǎng)絡(luò)攻擊等[12]。
(7)
對(duì)樣本協(xié)方差矩陣進(jìn)行特征分解,可以表示為[13]:
Cx=UΣxUT
(8)
其中,Σx=diag(λ1,λ2,…,λN)為N×N維的對(duì)角矩陣,且滿(mǎn)足λ1≥λ2≥…≥λN≥0;矩陣U=[u1,u2,…,uN]為N×N維的酉矩陣,滿(mǎn)足UUT=I。在以上公式中,λi表示矩陣Cx的第i個(gè)特征值,ui表示特征值λi對(duì)應(yīng)的特征向量,也稱(chēng)為數(shù)據(jù)向量x的第i個(gè)主成分,1≤i≤N。第i個(gè)主成分的貢獻(xiàn)率表示為:
(9)
前i個(gè)主成分的累計(jì)貢獻(xiàn)率表示為:
(10)
為了實(shí)現(xiàn)數(shù)據(jù)降維分析和異常檢測(cè),需要對(duì)數(shù)據(jù)進(jìn)行空間劃分和主成分提取。根據(jù)文獻(xiàn)[14],可以將數(shù)據(jù)向量x的信號(hào)空間劃分為模型空間(model space)和殘差空間(residual space),則式(8)的特征分解過(guò)程可以變形為:
(11)
其中,UM表示模型空間對(duì)應(yīng)的特征向量,ΣM=diag(λ1,λ2,…,λI)表示模型空間對(duì)應(yīng)的特征值,UR表示殘差空間對(duì)應(yīng)的特征向量,ΣR=diag(λI+1,λI+2,…,λN)表示殘差空間對(duì)應(yīng)的特征值。I表示主成分?jǐn)?shù)量,根據(jù)如下主成分累計(jì)貢獻(xiàn)率的判定準(zhǔn)則確定MI≥ρ,MI-1<ρ,0≤ρ≤1,ρ表示預(yù)先設(shè)定的判決門(mén)限。
基于式(11)中的數(shù)據(jù)空間劃分準(zhǔn)則,可以計(jì)算數(shù)據(jù)向量x落在模型空間和殘差空間的投影分量,模型空間投影分量可以表示為:
(12)
殘差空間投影分量可以表示為:
(13)
利用1.1節(jié)的實(shí)時(shí)流量監(jiān)測(cè)模型,可以從時(shí)間和空間維度挖掘分析網(wǎng)絡(luò)流量變化規(guī)律,利用歷史統(tǒng)計(jì)的多維流量信息進(jìn)行流量特征提取,再對(duì)網(wǎng)絡(luò)中存在的異常加密流量行為進(jìn)行實(shí)時(shí)檢測(cè)和預(yù)警。
通過(guò)分析挖掘一天24 h內(nèi)網(wǎng)絡(luò)流量的升降變化規(guī)律,判斷流量高峰期和低谷期,并分析各個(gè)時(shí)間段的歷史流量瞬時(shí)測(cè)量值的峰值、均值、中位數(shù)、方差、標(biāo)準(zhǔn)差等多維度特征,從而建立流量時(shí)間維度的變化模型。當(dāng)某一時(shí)刻網(wǎng)絡(luò)瞬時(shí)流量顯著偏離正常時(shí)間變化模型時(shí),可以判斷出現(xiàn)異常加密網(wǎng)絡(luò)流量行為[15],從而進(jìn)行進(jìn)一步的網(wǎng)絡(luò)攻擊分析研判,采取流量清洗、黑洞路由等處置措施。
在第d天,針對(duì)式(3)表示的基于時(shí)間維度的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)模型,可以構(gòu)建歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)矩陣YTEMP(d)的協(xié)方差矩陣:
CTEMP(d)=[YTEMP(d)-μYTEMP(d)11×D]·
[YTEMP(d)-μYTEMP(d)11×D]T/(d-1)
(14)
利用基于時(shí)間維度的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)協(xié)方差矩陣,可以根據(jù)式(11)構(gòu)建測(cè)量數(shù)據(jù)時(shí)間維度的模型空間和殘差空間,即:
(15)
在第d天第m分鐘,基于時(shí)間維度的瞬時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)模型可以表示為:
(16)
其中,由于第m分鐘之后的網(wǎng)絡(luò)流量信息還無(wú)法獲取,因此利用歷史數(shù)據(jù)的均值進(jìn)行預(yù)測(cè)和填充,第mF(m+2≤mF≤1 440)分鐘的網(wǎng)絡(luò)流量信息預(yù)測(cè)結(jié)果可以表示為:
(17)
測(cè)量數(shù)據(jù)時(shí)間維度的殘差空間投影分量可以表示為:
y′DAY(d,m)
(18)
根據(jù)文獻(xiàn)[16],可以構(gòu)建平方預(yù)測(cè)誤差(Squared Prediction Error,SPE),如下:
(19)
當(dāng)平方預(yù)測(cè)誤差超過(guò)預(yù)設(shè)門(mén)限時(shí),可以判定第m分鐘網(wǎng)絡(luò)流量出現(xiàn)異常,即異常加密網(wǎng)絡(luò)流量行為的判決規(guī)則如下:
(20)
利用2.1節(jié)中基于時(shí)間維度主成分分析的惡意加密流量行為檢測(cè)方法,可以對(duì)網(wǎng)絡(luò)中的惡意加密流量行為進(jìn)行實(shí)時(shí)檢測(cè),判斷當(dāng)前時(shí)刻是否存在網(wǎng)絡(luò)攻擊(如DDoS攻擊)。
為了對(duì)網(wǎng)絡(luò)攻擊進(jìn)行溯源,需要判斷攻擊來(lái)源所屬的國(guó)家或地區(qū)。為了實(shí)現(xiàn)攻擊來(lái)源省份追溯,本研究進(jìn)一步設(shè)計(jì)了一種基于空間維度主成分分析的惡意加密流量行為檢測(cè)方法,通過(guò)提取每一時(shí)刻各個(gè)國(guó)家和地區(qū)流量的多維統(tǒng)計(jì)結(jié)果,分析各個(gè)國(guó)家和地區(qū)的流量相對(duì)比較結(jié)果,建立空間維度的網(wǎng)絡(luò)流量行為模型。當(dāng)某個(gè)地區(qū)或國(guó)家的網(wǎng)絡(luò)流量出現(xiàn)異常急劇上升,則可以判斷網(wǎng)絡(luò)攻擊的主要來(lái)源為該國(guó)家或地區(qū)。
針對(duì)式(6)中基于空間維度的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)模型,可以構(gòu)建歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)矩陣YSPAT(k)的協(xié)方差矩陣:
CSPAT(k)=[YSPAT(k)-μYSPAT(k)11 052×K]·
[YSPAT(k)-μYSPAT(k)11 052×K]T/(k-1)
(21)
利用基于空間維度的歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)協(xié)方差矩陣,可以根據(jù)式(11)構(gòu)建測(cè)量數(shù)據(jù)空間維度的模型空間和殘差空間,即:
(22)
在第k個(gè)網(wǎng)絡(luò)流量信息采集時(shí)刻,測(cè)量數(shù)據(jù)空間維度的殘差空間投影分量可以表示為:
(23)
根據(jù)文獻(xiàn)[16],可以構(gòu)建每個(gè)地區(qū)district(i)流量監(jiān)測(cè)數(shù)據(jù)的平方預(yù)測(cè)誤差(SPE)如下:
(24)
當(dāng)Edistrict(i)(k)超過(guò)預(yù)設(shè)門(mén)限時(shí),可判定在第k個(gè)網(wǎng)絡(luò)流量信息采集時(shí)刻,地區(qū)district(i)的網(wǎng)絡(luò)流量出現(xiàn)異常,例如來(lái)自地區(qū)district(i)的主機(jī)對(duì)重點(diǎn)目標(biāo)發(fā)起了DDoS攻擊,即惡意加密流量行為的判決規(guī)則如下:
(25)
利用第2節(jié)提出的基于時(shí)空主成分分析的惡意加密流量檢測(cè)方法,本節(jié)設(shè)計(jì)了一種可以用于現(xiàn)網(wǎng)部署的算法實(shí)現(xiàn)流程,如圖1所示。
圖1 基于時(shí)空主成分分析的惡意加密流量檢測(cè)算法流程圖
首先,通過(guò)時(shí)間維度主成分分析方法,對(duì)歷史網(wǎng)絡(luò)流量的變化規(guī)律進(jìn)行分析歸納和統(tǒng)計(jì),構(gòu)建流量變化模型。面向現(xiàn)網(wǎng)實(shí)時(shí)采集的網(wǎng)絡(luò)流量信息,根據(jù)流量變化模型對(duì)網(wǎng)絡(luò)流量時(shí)間維度的變化情況進(jìn)行線性預(yù)測(cè),再計(jì)算流量模型預(yù)測(cè)結(jié)果與實(shí)際流量數(shù)據(jù)的平方預(yù)測(cè)誤差SPE,當(dāng)某一時(shí)刻SPE幅值過(guò)大時(shí),判斷該時(shí)刻網(wǎng)絡(luò)流量中出現(xiàn)惡意加密流量行為(如DDoS攻擊)。
當(dāng)某一時(shí)刻觀測(cè)到網(wǎng)絡(luò)流量中出現(xiàn)惡意加密流量行為時(shí),接下來(lái)進(jìn)一步利用空間維度主成分分析方法對(duì)惡意加密流量行為的來(lái)源進(jìn)行追蹤溯源。利用歷史沉淀的空間維度網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù),構(gòu)建空間維度的網(wǎng)絡(luò)流量變化模型。面向出現(xiàn)惡意加密流量行為的瞬時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)信息,根據(jù)空間維度流量變化模型,對(duì)各個(gè)國(guó)家和地區(qū)訪問(wèn)目標(biāo)地址的網(wǎng)絡(luò)流量進(jìn)行線性預(yù)測(cè),再計(jì)算模型預(yù)測(cè)結(jié)果與實(shí)際測(cè)量數(shù)據(jù)的平方預(yù)測(cè)誤差SPE。當(dāng)某一國(guó)家或地區(qū)流量的SPE幅值過(guò)大時(shí),則判斷該國(guó)家或地區(qū)的網(wǎng)絡(luò)流量中出現(xiàn)惡意加密流量行為,即該國(guó)家或地區(qū)為網(wǎng)絡(luò)攻擊的來(lái)源地。
基于時(shí)空主成分分析的惡意加密流量行為檢測(cè)過(guò)程可以總結(jié)為算法1。利用所提出的分析算法,可以實(shí)現(xiàn)惡意加密流量實(shí)時(shí)檢測(cè)和追蹤溯源。
算法1:基于時(shí)空主成分分析的惡意加密流量行為檢測(cè)算法
(1)輸入?yún)?shù)
①時(shí)間維度的瞬時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)yINST(d,m),d≥1,m≥1;
②空間維度的瞬時(shí)網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)ySPAT(k),k≥1。
(2)系統(tǒng)初始化
③利用式(14)構(gòu)建初始時(shí)刻的時(shí)間維度網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)協(xié)方差矩陣CTEMP(3);
④利用式(21)構(gòu)建初始時(shí)刻的空間維度網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)協(xié)方差矩陣CSPAT(3)。
(3)時(shí)間維度網(wǎng)絡(luò)流量變化模型構(gòu)建
⑤ for (d= 4 toD,d++)do
⑥ 構(gòu)建歷史網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù)協(xié)方差矩陣:
CTEMP(d)=[(d-2)CTEMP(d-1)+
⑦利用式(15)構(gòu)建測(cè)量數(shù)據(jù)時(shí)間維度的模型空間和殘差空間,得到模型空間的投影矩陣UTEMP,M(d)。
(4)時(shí)間維度惡意加密流量行為檢測(cè)
⑧ for (m= 2 to 1 440,m=m+2)do
⑨ 利用式(19)計(jì)算每一時(shí)刻流量的時(shí)間維度平方預(yù)測(cè)誤差ETEMP(d,m)。
⑩ ifETEMP(d,m)>φTEMPdo
(5)空間維度網(wǎng)絡(luò)流量模型構(gòu)建
(6)空間維度惡意加密流量行為檢測(cè)
(7)輸出參數(shù)
在現(xiàn)有的基于馬爾可夫模型、孿生神經(jīng)網(wǎng)絡(luò)和復(fù)雜特征融合的惡意加密流量檢測(cè)算法中,隨著流量監(jiān)測(cè)設(shè)備的統(tǒng)計(jì)信息維度的增加,惡意加密流量檢測(cè)算法的計(jì)算復(fù)雜度呈指數(shù)級(jí)上升[5-7]。因此,為了降低計(jì)算復(fù)雜度,現(xiàn)有算法只能通過(guò)降低時(shí)空特征變量yDAY(d)和ySPAT(k)的維度實(shí)現(xiàn)整體計(jì)算復(fù)雜度的下降。然而,降低時(shí)空特征變量的維度將導(dǎo)致信息量的損失,最終導(dǎo)致惡意加密流量檢測(cè)性能的下降。
為了保證時(shí)空特征變量中所包含的信息量盡可能完整,同時(shí)實(shí)現(xiàn)計(jì)算復(fù)雜度的降低,算法1采用了時(shí)空主成分分析方法,其中,步驟⑦和步驟分別利用主成分分析方法提取了時(shí)間維度和空間維度的模型空間成分分量,實(shí)現(xiàn)了主成分分量的保留和擾動(dòng)噪聲分量的過(guò)濾。
與現(xiàn)有的惡意加密流量檢測(cè)算法相比,本文提出的基于時(shí)空主成分分析的惡意加密流量檢測(cè)算法可以支持在流量監(jiān)測(cè)設(shè)備統(tǒng)計(jì)數(shù)據(jù)維度較高的情況下,實(shí)現(xiàn)更高的檢測(cè)準(zhǔn)確率和更低的計(jì)算復(fù)雜度,可適用于多源異構(gòu)網(wǎng)絡(luò)安全監(jiān)測(cè)系統(tǒng)同時(shí)部署運(yùn)行和協(xié)同分析的場(chǎng)景。
本文基于實(shí)時(shí)采集的多維度網(wǎng)絡(luò)流量監(jiān)測(cè)信息,利用時(shí)空主成分分析技術(shù),提出了一種針對(duì)惡意加密流量行為的實(shí)時(shí)檢測(cè)預(yù)警和溯源追蹤方法。首先,從時(shí)間維度對(duì)歷史積累網(wǎng)絡(luò)流量監(jiān)測(cè)信息進(jìn)行主成分分析,構(gòu)建一天24 h內(nèi)網(wǎng)絡(luò)流量的變化模型,將數(shù)據(jù)空間劃分為模型空間和殘差空間。通過(guò)計(jì)算模型預(yù)測(cè)流量與實(shí)際監(jiān)測(cè)流量之間的平方預(yù)測(cè)誤差,從而構(gòu)建惡意加密流量檢測(cè)判決準(zhǔn)則,判定網(wǎng)絡(luò)流量中出現(xiàn)惡意加密流量的時(shí)刻。接著,從空間維度對(duì)網(wǎng)絡(luò)中發(fā)現(xiàn)的惡意加密流量進(jìn)行溯源追蹤,利用歷史積累的各國(guó)家和地區(qū)的網(wǎng)絡(luò)流量監(jiān)測(cè)數(shù)據(jù),分析各國(guó)家和地區(qū)的流量相對(duì)比較情況,構(gòu)建空間維度的網(wǎng)絡(luò)流量行為變化模型。通過(guò)計(jì)算各個(gè)國(guó)家和地區(qū)的模型預(yù)測(cè)流量與實(shí)際監(jiān)測(cè)流量之間的平方預(yù)測(cè)誤差,對(duì)惡意加密流量行為的來(lái)源地進(jìn)行追蹤溯源。最后本文設(shè)計(jì)了一種可以用于現(xiàn)網(wǎng)部署的算法實(shí)現(xiàn)流程,并分析了相比其他已有算法帶來(lái)的能力提升。