徐星辰
(1.中共懷寧縣委黨校,安徽 安慶 246121;2.寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
近年來隨著互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,網(wǎng)絡(luò)與人民大眾的聯(lián)系越來越密切[1]。從日常的信息處理、網(wǎng)上購物到互聯(lián)網(wǎng)金融,網(wǎng)絡(luò)已經(jīng)深入到了與經(jīng)濟和民生息息相關(guān)的各處[2]。我國互聯(lián)網(wǎng)用戶的數(shù)量因國家的政策傾斜和日常的剛需而有著井噴式的增長,到目前為止我國互聯(lián)網(wǎng)用戶總量已超過8億[3]。換言之,全國有著超過一半的人口通過互聯(lián)網(wǎng)保持著與外界的信息互聯(lián),互聯(lián)網(wǎng)已經(jīng)可以稱得上是新時代的公共基礎(chǔ)設(shè)施[4]?;ヂ?lián)網(wǎng)為廣大網(wǎng)民提供了海量信息交互的平臺,為資源的優(yōu)化配置和海量信息的快速傳遞提供了極大的便利[5]。由于我國互聯(lián)網(wǎng)相關(guān)產(chǎn)業(yè)發(fā)展過快,相關(guān)的安全機制并未及時跟進(jìn)。雖然互聯(lián)網(wǎng)方便了信息的傳遞、保存以及檢索等,但是在互聯(lián)和共享的過程中的安全性卻沒有得到足夠的保障。安全的威脅主要來自于網(wǎng)絡(luò)自身的漏洞和惡意者的蓄意攻擊,網(wǎng)絡(luò)的開放性和互聯(lián)性反而使得廣大網(wǎng)民的信息安全暴露在了不法之徒的威脅之下。
另一方面,隨著大眾需求的日益提高,操作系統(tǒng)也逐漸在進(jìn)行大數(shù)據(jù)化的發(fā)展,隨著技術(shù)革新不可避免的會留有大量的漏洞。而作為每個網(wǎng)絡(luò)用戶進(jìn)行網(wǎng)絡(luò)活動的基礎(chǔ)組件,操作系統(tǒng)受到威脅使危害更加嚴(yán)重。相較于過去通過病毒以及釣魚網(wǎng)站等傳統(tǒng)方式,網(wǎng)絡(luò)的威脅已經(jīng)不僅僅局限于這些危害較小的手段,攻擊者對網(wǎng)絡(luò)薄弱環(huán)節(jié)的利用也趨于更加的復(fù)雜化、更加隱蔽。這使得網(wǎng)絡(luò)的防御工作更加困難。尤其是當(dāng)下的網(wǎng)絡(luò)攻擊都是具有明確的以非法經(jīng)濟利益為目標(biāo)的,組織化的行為。傳統(tǒng)的網(wǎng)絡(luò)防御與監(jiān)控手段已經(jīng)無法對網(wǎng)絡(luò)安全實現(xiàn)有效的防護(hù)。如何對網(wǎng)絡(luò)的安全狀況進(jìn)行準(zhǔn)確以及全面的評估和預(yù)測已經(jīng)成為了當(dāng)前互聯(lián)網(wǎng)安全領(lǐng)域的重大課題。
網(wǎng)絡(luò)安全狀況不能僅僅停留在定性分析的階段,需要實時對當(dāng)前網(wǎng)絡(luò)的安全態(tài)勢進(jìn)行合理有效且準(zhǔn)確的量化評估,才能及時糾察網(wǎng)絡(luò)中所存在的隱患,才能為網(wǎng)絡(luò)安全走勢的預(yù)測提供強有力的依據(jù),將網(wǎng)絡(luò)安全威脅降低至最小。當(dāng)下對于網(wǎng)絡(luò)安全態(tài)勢的量化評估方法雖然取得了已有的成果,但是有著各自的缺陷和局限。簡而言之,模型設(shè)定過于復(fù)雜則響應(yīng)的及時性大打折扣;反之,則評估的準(zhǔn)確性不佳。
針對性地建立問題分析的體系,實現(xiàn)對于安全態(tài)勢的量化評估。評估模型為了保障較強的適應(yīng)性,需要針對網(wǎng)絡(luò)中所存在的單體和群體攻擊形式均能夠評估,并且對于安全態(tài)勢通過數(shù)字形式直觀表達(dá)。
網(wǎng)絡(luò)安全態(tài)勢的基本評估流程是:通過收集傳感器或安全設(shè)備的警報信息,并將之進(jìn)行整合、解析,建立與網(wǎng)絡(luò)危害的關(guān)聯(lián)性,據(jù)此來獲得網(wǎng)絡(luò)安全態(tài)勢。要求評估后產(chǎn)生的數(shù)值能夠直觀量化當(dāng)前網(wǎng)絡(luò)所處的安全狀況,進(jìn)而獲知網(wǎng)絡(luò)所面臨的威脅,為指導(dǎo)網(wǎng)絡(luò)安全防御工作提供堅實的依據(jù)。值得注意的是,網(wǎng)絡(luò)安全態(tài)勢的數(shù)值并不能孤立地呈現(xiàn)網(wǎng)絡(luò)的安全狀況,且單一的態(tài)勢值也無法用于對網(wǎng)絡(luò)的安全走勢的預(yù)測工作。需要通過對一段時間內(nèi)網(wǎng)絡(luò)安全的數(shù)據(jù)進(jìn)行采集分析,形成一條曲線,而曲線的變化規(guī)律則可明確地表達(dá)網(wǎng)絡(luò)安全的發(fā)展態(tài)勢。
結(jié)合現(xiàn)有的研究成果,評估的方法主要可以分為如圖1所表示的幾個類型。
圖1 典型網(wǎng)絡(luò)安全態(tài)勢評估方法
1.2.1 人工免疫系統(tǒng)
該框架的目的是獲得各領(lǐng)域人工免疫的實用方法,識別和獲取免疫學(xué)的重要加工機制,并通過詳細(xì)的生物學(xué)研究和分析進(jìn)行定期驗證實驗,可用于推導(dǎo)新的算法設(shè)計思路。整個框架被反復(fù)實施,包括生物系統(tǒng)測試,觀察,實驗,結(jié)果簡化,抽象,表示和模型構(gòu)建。該框架可以為類似應(yīng)用算法提供更好的靈感,如圖2所示。
圖2 免疫系統(tǒng)框架
事實上,計算機網(wǎng)絡(luò)安全系統(tǒng)和免疫系統(tǒng)有很多共同之處。換句話說,系統(tǒng)必須在動態(tài)環(huán)境中穩(wěn)定。生物免疫系統(tǒng)通過系統(tǒng)免疫細(xì)胞識別并殺死病毒抗原,抗體數(shù)量隨抗原達(dá)到閾值后進(jìn)行克隆,濃度上升;相反,在去除抗原的同時,抗體受到限制并且其濃度相應(yīng)的降低,最終使生物免疫系統(tǒng)狀態(tài)幾乎穩(wěn)定。因此,通過測量每種抗體的濃度,可以估計抗原侵入的類型和由抗原引起的風(fēng)險水平。類似的,人工免疫系統(tǒng)通過繼承生物免疫系統(tǒng)的多樣特征,提供高強度的適應(yīng)性和見狀性。
如圖3所示,通過感知系統(tǒng)中表征安全態(tài)勢的元素,建立安全態(tài)勢評估系統(tǒng)。系統(tǒng)可在大量的網(wǎng)絡(luò)數(shù)據(jù)包中解析出有用的信息,以實現(xiàn)對網(wǎng)絡(luò)安全態(tài)勢的整體把控。
圖3 網(wǎng)絡(luò)安全態(tài)勢評估模型
1.2.2 檢測器的進(jìn)化過程
檢測器的進(jìn)化機制為:當(dāng)非成熟檢測器的耐受到達(dá)α?xí)r進(jìn)化為成熟檢測器,當(dāng)成熟檢測器的抗原數(shù)到達(dá)β,其對自己進(jìn)行克隆以進(jìn)化至記憶檢測器;當(dāng)成熟檢測器的抗體監(jiān)測到抗原后,檢測器中為其所克隆者歸并至成熟檢測器和非成熟檢測器。這就是檢測器的耐受和克隆。
當(dāng)處于耐受階段時,非成熟檢測器的免疫耐受條件為成熟檢測器在α內(nèi)沒有匹配自我集合的元素;若非如此,其被剔除掉。檢測器與抗原或自我集合的親和力通過Hamming距離匹配方法來獲得。
fmatch(x,y)={1faffinity/ld>γ
0others
(1)
式(1)解析了自我集合元素x對非成熟檢測器y的識別。其中,ld表示檢測器長度,fmatch的取值0和1用于描述非成熟檢測器與x的匹配情況,faffinity表征x和y的親和力。
ftolerance(x,y)={1 ?x∈Self,fmatch(x,y)=1
0others
(2)
式(2)描述了y對x的耐受情況,當(dāng)ftolerance(x,y)的值為1時,非成熟檢測器的耐受值進(jìn)行累加,直到t≥α?xí)r,非成熟檢測器進(jìn)化為成熟檢測器。
1.2.3 威脅檢測
網(wǎng)絡(luò)的活動在抗原監(jiān)測階段由成熟檢測器和記憶檢測器進(jìn)行監(jiān)控。在初始階段,記憶檢測器進(jìn)行抗原監(jiān)測??乖诜亲陨砜乖c抗體配對成功后,從抗原集合AG中剔除。若自身抗原成功匹配其抗體,則其集合MD將會剔除掉記憶檢測器??乖O(jiān)測則改由成熟檢測器進(jìn)行,并將其從AG中剔除。如果成熟檢測器在生命周期λ內(nèi)對抗原的匹配次數(shù)大于β,成熟檢測器變異為記憶檢測器,β為匹配次數(shù)閾值。反之,成熟檢測器在其生命周期內(nèi)未激活或抗體與抗原成功匹配時被剔除掉。自我集合將添加余下的抗原,并對非成熟檢測器進(jìn)行匹配,以實現(xiàn)自我集合的更新,這也可以保障檢測器的動態(tài)進(jìn)化。
設(shè)記憶檢測器的抗體濃度為η1,記憶檢測器的抗體判定因子為η2。成熟檢測器的匹配次數(shù)大于β時,其被激發(fā),并被添加到記憶檢測器中克?。?/p>
Md=Md∪{d|d∈Td,d·p=η1d.age=0}
(3)
記憶檢測器的抗體濃度如式(4),表征其相對應(yīng)的抗原被消滅。
其中,θ>0是記憶檢測器穩(wěn)定后的抗體濃度值。
據(jù)此可得到網(wǎng)絡(luò)安全威脅的檢測模型如圖4。
圖4 威脅檢測模型
1.2.4 網(wǎng)絡(luò)安全態(tài)勢評估模型的建立
在t時刻的網(wǎng)絡(luò)攻擊強度用st(t)表征,st(t)的值域為[0,1]。st(t)值域的上下界1和0分別表示最高威脅與完全沒有威脅。st(t)可用于描述網(wǎng)絡(luò)威脅的態(tài)勢。
網(wǎng)絡(luò)中的第i號主機在承受第j攻擊時,其網(wǎng)絡(luò)安全態(tài)勢為:
(5)
其中φj(0≤φj≤1)用于描述危險程度,μj(0≤μj≤1)用于描述服務(wù)權(quán)重,ωi(0≤ωi≤1)用于描述主機的權(quán)重。
則在式(5)的基礎(chǔ)之上,主機i對應(yīng)的網(wǎng)絡(luò)態(tài)勢為:
進(jìn)行攻擊形成的網(wǎng)絡(luò)安全態(tài)勢為:
全網(wǎng)的總安全態(tài)勢為:
網(wǎng)絡(luò)安全態(tài)勢的量化預(yù)測一般有兩種方式。
1.通過主觀經(jīng)驗判斷?;谀炒稳肭值念A(yù)測結(jié)果,結(jié)合每種網(wǎng)絡(luò)威脅分布比例,對后續(xù)的網(wǎng)絡(luò)安全態(tài)勢進(jìn)行預(yù)測;
2.通過歷史安全態(tài)勢數(shù)據(jù),對后續(xù)的網(wǎng)絡(luò)安全態(tài)勢進(jìn)行預(yù)測。
相較之下,第一種方法更加依賴于系統(tǒng)設(shè)計者的經(jīng)驗,對結(jié)果的導(dǎo)向控制不夠客觀。
RBF神經(jīng)網(wǎng)絡(luò),即徑向基函數(shù)神經(jīng)網(wǎng)絡(luò),其于80年代提出。RBF神經(jīng)網(wǎng)絡(luò)是一種典型的前饋神經(jīng)網(wǎng)絡(luò),在它的結(jié)構(gòu)中總共有三層,其中包含一個隱藏層。作為一種前饋神經(jīng)網(wǎng)絡(luò),RBF神經(jīng)網(wǎng)絡(luò)具有局部的最佳逼近性能。
該神經(jīng)網(wǎng)絡(luò)的三個層分別負(fù)責(zé):
1)輸入層:隱藏層的信號來源;
2)隱藏層:通過徑向基函數(shù)處理來源信號,并將結(jié)果輸送至輸出層;
3)輸出層:對來自于隱藏層的信號重新聚合輸出。
其結(jié)構(gòu)如圖5所示。
圖5 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
輸入層的輸入用向量X=(x1,x2,……,xn)T∈Rn表示,輸出層的輸出用向量y∈Rm表示,wjk為權(quán)值矩陣W的元素,用以調(diào)整隱含層到輸出層的輸出信號,該信號用Φ=(φ1,φ2,……,φn)T表示,Φ為徑向基函數(shù)向量。Φ中元素取值為:
(9)
式(9)所描述的φi是一個高斯函數(shù),ci為其中心,σi為其寬度,L為隱藏層節(jié)點個數(shù)。
隱藏層到輸出層的信號需要進(jìn)行加權(quán)調(diào)整,最終網(wǎng)絡(luò)輸出為:
(10)
由于RBF神經(jīng)網(wǎng)絡(luò)的輸出為局部最佳逼近結(jié)果,想要獲得全局最佳逼近還需要經(jīng)過處理。而遺傳算法剛好可以勝任這個工作。遺傳算法通常用于進(jìn)行全局搜索,可在搜索過程中進(jìn)行自適應(yīng)尋優(yōu)。
下面描述遺傳算法求解問題的流程,具體流程圖如圖6所示。
圖6 遺傳算法流程
鑒于徑向神經(jīng)網(wǎng)絡(luò)方法的收斂速度較慢且獲得的是局部最佳逼近結(jié)果,將其與混合遞階遺傳算法相結(jié)合可以將局部最優(yōu)延拓至全局最優(yōu)改善全局搜索性能。
神經(jīng)網(wǎng)絡(luò)結(jié)合混合遞階遺傳算法的優(yōu)化流程如下:
1)對控制基因和參數(shù)基因進(jìn)行編碼;
2)初始化種群P1;
3)對基因進(jìn)行組合和解碼構(gòu)造RBF隱藏層;
4)最小二乘法確定輸出層權(quán)值;
5)計算個體適應(yīng)度;
6)如果滿足終止條件則停止訓(xùn)練得到優(yōu)化后的RBF神經(jīng)網(wǎng)絡(luò),否則繼續(xù)下一步驟;
7)選擇、復(fù)制:確定各父代種群中的個體是否進(jìn)入下一代種群P2;
8)交叉:對父代以概率Pc進(jìn)行交換操作得到種群P3;
9)變異:對父代以概率Pm進(jìn)行變異操作,得到新種群P4,并回歸到第5步。
2.3.1 HGA編碼
控制基因和參數(shù)基因共同構(gòu)成了HGA中的染色體。控制基因編碼為二進(jìn)制方式,隱藏層節(jié)點的存在用1表示,反之,不存在用0表示,兩種狀態(tài)分別對應(yīng)了參數(shù)基因是否有效。HGA編碼如圖7所示。
圖7 HGA編碼
2.3.2 初始化
遺傳算法的收斂依賴于合適的種群規(guī)模,初始化設(shè)定種群規(guī)模為Q,在計算的復(fù)雜度和計算結(jié)果的理想程度之間取得一個折中??刂苹虺跏蓟癁镸,參數(shù)基因在[0,1]上隨機初始化。
2.3.3 適應(yīng)度函數(shù)
網(wǎng)絡(luò)的精度目標(biāo)函數(shù):
(11)
網(wǎng)絡(luò)復(fù)雜度的目標(biāo)函數(shù)為:
F2=L
(12)
式(12)中可見網(wǎng)絡(luò)的復(fù)雜度由隱藏層節(jié)點數(shù)決定。則為保障RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果,適應(yīng)度函數(shù)為:
(13)
其中,yi為期望輸出,N為樣本容量,y'i為訓(xùn)練網(wǎng)絡(luò)輸出,L為隱藏層節(jié)點數(shù)量。f的值與SSE和L負(fù)相關(guān)。
2.3.4 遺傳操作
個體的期望值為:
(14)
式(14)中,通過個體適應(yīng)度和平均適應(yīng)度描述了個體的期望值的取值。
種群中個體是否進(jìn)行多一次優(yōu)化是由個體期望值決定的,種群由P1變?yōu)镻2。進(jìn)而通過交叉變異過程,使得新種群P3出現(xiàn),因此需要對二者進(jìn)行交叉以確保種群基因多樣性。選取父代中的個體x1和x2,產(chǎn)生新的后代:
{y1=αx2+(1-α)x1
y2=αx1+(1-α)x2
(15)
α為[0,1]上的一個隨機數(shù)。
在自然的生物環(huán)境中,種群的基因多樣性是由基因突變造成的,類似地在遺傳算法中,變異可以模擬出基因突變來確保更廣闊的搜索空間。種群P3中的變異個體選擇是隨機的,并對該個體的基因進(jìn)行隨機的變異來形成新的種群P4。
變異概率Pm和交叉概率Pc均與種群內(nèi)部的適應(yīng)度有關(guān):
式(16)和式(17),其中k1,k2,k3,k4在(0,1)上取值,最終選定k1=k3=1,k2=k4=0.5。Pc和Pm的值與種群的適應(yīng)度的分散程度是負(fù)相關(guān)的。
為驗證本文所設(shè)計的評估預(yù)測模型的有效性,并且對于網(wǎng)絡(luò)安全態(tài)勢的預(yù)測具有較高的精度。采用HoneyNet數(shù)據(jù)集作為模型的學(xué)習(xí)樣本。基于該數(shù)據(jù)集,對其中的15天網(wǎng)絡(luò)安全態(tài)勢進(jìn)行預(yù)測,真實值與預(yù)測值如圖8所呈現(xiàn)。
圖8 原始數(shù)據(jù)與預(yù)測值對比圖
從圖8對比可知,基于混合遞階—RBF神經(jīng)網(wǎng)絡(luò)預(yù)測模型的網(wǎng)絡(luò)安全態(tài)勢預(yù)測值與樣本實際值較為接近。平均相對誤差、均方根誤差均可用來衡量兩組數(shù)據(jù)的差異性,同時將預(yù)測值視為對原始值的擬合結(jié)果,通過求解預(yù)測值曲線的可決系數(shù)可評估預(yù)測值對于原始值的還原程度。其結(jié)果如下表1所示
表1 預(yù)測值精度
從表1可見,平均相對誤差以及均方根誤差的值很小表示預(yù)測值與實際數(shù)據(jù)的總偏差很小,而可決系數(shù)高達(dá)0.9613的含義是,預(yù)測值中有96.13%的值符合真實值的走勢,具有代表意義,由此可見采用本文所設(shè)計的評估預(yù)測模型對網(wǎng)絡(luò)安全態(tài)勢的預(yù)測是可靠的
本文所設(shè)計的基于人工免疫系統(tǒng)的網(wǎng)絡(luò)安全態(tài)勢評估模型和基于混合遞階算法—RBF神經(jīng)網(wǎng)絡(luò)的安全態(tài)勢預(yù)測模型相結(jié)合可完成對網(wǎng)絡(luò)安全狀況的整體把控和態(tài)勢走向的準(zhǔn)確預(yù)測。實驗結(jié)果表明預(yù)測的平均相對誤差和均方根誤差均較小,而代表整體預(yù)測準(zhǔn)確度的可決系數(shù)為0.9613,可簡單理解為預(yù)測的準(zhǔn)確度達(dá)到96.13%,這個結(jié)果已經(jīng)可以非常精確地刻畫網(wǎng)絡(luò)安全狀況的走勢。