巢巍, 劉濤, 崔洋, 鄭波, 陳彬, 楊真
(中國移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司湖南分公司, 湖南, 長沙 410003)
無線通信系統(tǒng)發(fā)展迅速,許多黑客利用網(wǎng)絡(luò)中的安全缺陷和漏洞攻擊網(wǎng)絡(luò),DDoS攻擊、病毒木馬植入、網(wǎng)絡(luò)釣魚和漏洞式攻擊等網(wǎng)絡(luò)攻擊方式對(duì)無線通信系統(tǒng)安全提出嚴(yán)峻挑戰(zhàn)[1]。目前無線通信系統(tǒng)中部署大量入侵防御系統(tǒng)、防火墻、防病毒網(wǎng)關(guān)等相關(guān)網(wǎng)絡(luò)安全設(shè)備,這些設(shè)備雖可實(shí)現(xiàn)網(wǎng)絡(luò)漏洞管理、內(nèi)部威脅檢測(cè)等危險(xiǎn)檢測(cè),但運(yùn)行過程中會(huì)形成大量日志文件[2],海量日志文件中的信息所描述網(wǎng)絡(luò)安全態(tài)勢(shì)存在較高的誤報(bào)以及漏報(bào)情況,無法實(shí)現(xiàn)無線通信系統(tǒng)整體安全態(tài)勢(shì)精準(zhǔn)感知預(yù)測(cè)[3]。
安全態(tài)勢(shì)感知具有較高動(dòng)態(tài)性,可體現(xiàn)整體感知網(wǎng)絡(luò)攻擊能力[4-6]。目前已有大量高科技技術(shù)應(yīng)用于無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)中,大數(shù)據(jù)分析技術(shù)以及機(jī)器學(xué)習(xí)技術(shù)是目前應(yīng)用于無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)中的有效方法。通過大數(shù)據(jù)分析技術(shù)的關(guān)聯(lián)規(guī)則挖掘方法挖掘可能影響無線通信系統(tǒng)安全態(tài)勢(shì)的重要信息[7],利用高效的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)無線通信系統(tǒng)安全態(tài)勢(shì)精準(zhǔn)感知預(yù)測(cè),提升無線通信系統(tǒng)整體網(wǎng)絡(luò)安全態(tài)勢(shì)感知預(yù)測(cè)實(shí)時(shí)性。
目前針對(duì)網(wǎng)絡(luò)安全態(tài)勢(shì)感知研究較多:陳維鵬等[8]研究基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)空間態(tài)勢(shì)感知系統(tǒng)安全評(píng)估;韓曉露等[9]研究基于IFS-NARX模型的網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè),均可實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢(shì)感知,但感知精度較差,不具備實(shí)用性。研究機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析的無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè),將機(jī)器學(xué)習(xí)技術(shù)與大數(shù)據(jù)分析技術(shù)相結(jié)合,實(shí)現(xiàn)無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè),提升無線通信系統(tǒng)的通信安全性。
無線通信系統(tǒng)中包含眾多的安全設(shè)備,其中包含海量報(bào)警信息量,報(bào)警信息中包含虛假報(bào)警以及真實(shí)報(bào)警信息,利用關(guān)聯(lián)分析技術(shù)可明確海量日志信息的安全態(tài)勢(shì)感知的信息來源[10]。大數(shù)據(jù)具有數(shù)據(jù)類型復(fù)雜、價(jià)值密度低以及數(shù)量巨大的特點(diǎn),利用大數(shù)據(jù)分析技術(shù)可提升海量數(shù)據(jù)處理準(zhǔn)確性、效率性以及實(shí)時(shí)性。研究機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析的無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè),針對(duì)無線通信系統(tǒng)內(nèi)安全態(tài)勢(shì)數(shù)據(jù)具有的多模式、多力度以及海量特點(diǎn),并行處理海量數(shù)據(jù),提升安全態(tài)勢(shì)感知預(yù)測(cè)精度。所研究的無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)總體結(jié)構(gòu)圖如圖1所示。從圖1可以看出,通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析以及安全態(tài)勢(shì)展示層5部分實(shí)現(xiàn)無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)。采集無線通信系統(tǒng)內(nèi)的報(bào)警信息,對(duì)所采集數(shù)據(jù)實(shí)施數(shù)據(jù)清洗、數(shù)據(jù)集成等預(yù)處理,將完成預(yù)處理數(shù)據(jù)存儲(chǔ)于HDFS分布式文件系統(tǒng)以及HBase非關(guān)系型分布式數(shù)據(jù)庫中,便于大數(shù)據(jù)分析技術(shù)中的關(guān)聯(lián)規(guī)則挖掘調(diào)取,挖掘數(shù)據(jù)中所包含關(guān)聯(lián)規(guī)則后,利用GA-RBF算法實(shí)現(xiàn)安全態(tài)勢(shì)感知預(yù)測(cè),并將預(yù)測(cè)結(jié)果發(fā)送至展示界面。
圖1 總體結(jié)構(gòu)圖
利用模糊分區(qū)聚類的大數(shù)據(jù)關(guān)聯(lián)挖掘算法實(shí)現(xiàn)海量關(guān)聯(lián)數(shù)據(jù)區(qū)域分割處理[11]。G(L1,L2,…,Ln-1,Ln,E)表示海量大數(shù)據(jù)關(guān)聯(lián)語義規(guī)則特征量層次網(wǎng)絡(luò),其中Li與E?(U(Li×Li+1))分別表示各模糊分區(qū)網(wǎng)格內(nèi)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)以及數(shù)據(jù)聚類內(nèi)關(guān)聯(lián)組Li+1和鄰近數(shù)據(jù)聚類中心Li相連的集合,用uv表示數(shù)據(jù)聚類中心分布集合內(nèi)隨機(jī)元素,節(jié)點(diǎn)v(v∈Li+1)與聚類后所建立層次圖u(u∈Li)相連屬于一組有向向量集。
用m與G(F)={F1,F2,…,Fm}分別表示關(guān)聯(lián)數(shù)據(jù)挖掘的集合基數(shù)以及第一層節(jié)點(diǎn)依據(jù)權(quán)值聚類所獲取與k關(guān)聯(lián)的變?cè)獙?duì)象集合,獲取關(guān)聯(lián)數(shù)據(jù)挖掘規(guī)則特征分布公式如下:
(1)
式中,ni與nj分別為二維數(shù)據(jù)的相關(guān)度以及層次聚類的收斂系數(shù),α與β分別表示屬性權(quán)重以及相似度閾值,wl表示可確定模糊分區(qū)的關(guān)聯(lián)語義集。通過以上過程利用模糊分區(qū)方法實(shí)現(xiàn)優(yōu)化聚類所提取的數(shù)據(jù)關(guān)聯(lián)特征。
依據(jù)聚類結(jié)果實(shí)現(xiàn)無線通信系統(tǒng)相關(guān)數(shù)據(jù)語義劃分,建立依據(jù)檢驗(yàn)準(zhǔn)則和判別統(tǒng)計(jì)量實(shí)現(xiàn)數(shù)據(jù)挖掘的聚類屬性判斷[12],獲取大數(shù)據(jù)關(guān)聯(lián)挖掘判決統(tǒng)計(jì)量公式如下:
(2)
(3)
利用隨機(jī)二維關(guān)聯(lián)數(shù)據(jù)挖掘相關(guān)度獲取相關(guān)度矩陣如下:
(4)
獲取數(shù)據(jù)關(guān)聯(lián)挖掘判斷準(zhǔn)則公式如下:
(5)
(6)
設(shè)置閾值Qc,當(dāng)Q0與〈Qs〉間絕對(duì)誤差高于Qc時(shí),令:
p(|Q0-〈Qs〉|>Qc)≤0.05
(7)
設(shè)數(shù)據(jù)關(guān)聯(lián)挖掘置信度為95%,利用均勻正態(tài)分布特性可得公式如下:
(8)
式中,S≥2時(shí),表明數(shù)據(jù)挖掘在模糊分區(qū)聚類中心收斂概率為95%,原假設(shè)成立,關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘結(jié)果可符合收斂條件。
安全態(tài)勢(shì)感知預(yù)測(cè)是定量分析網(wǎng)絡(luò)安全性的重要手段,可精細(xì)度量網(wǎng)絡(luò)安全狀態(tài),對(duì)于提升網(wǎng)絡(luò)安全具有重要意義。
安全態(tài)勢(shì)感知預(yù)測(cè)需依據(jù)態(tài)勢(shì)指標(biāo)時(shí)間序列特點(diǎn)[13],利用合適的粗度粒度分析安全態(tài)勢(shì)指標(biāo)實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)。選取GA-RBF算法實(shí)現(xiàn)安全態(tài)勢(shì)感知預(yù)測(cè)。x=f(t)表示依據(jù)態(tài)勢(shì)指標(biāo)粗度粒度所建立時(shí)間與權(quán)值抽象序列,分類指標(biāo)建立時(shí)間序列安全態(tài)勢(shì)向量集合用X={xj|xj∈R}表示。安全態(tài)勢(shì)感知預(yù)測(cè)實(shí)際上是將各數(shù)據(jù)從輸入空間RN映射至輸出空間RM。RBF神經(jīng)網(wǎng)絡(luò)是作為安全態(tài)勢(shì)感知預(yù)測(cè)訓(xùn)練模型具有較高優(yōu)勢(shì)的神經(jīng)網(wǎng)絡(luò),精確性以及收斂性高,通過全局搜索算法提升隱層節(jié)點(diǎn)確定精度。將控制因子與遺傳因子數(shù)據(jù)集合設(shè)置為徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)初始集合[14],所獲取精度符合神經(jīng)網(wǎng)絡(luò)訓(xùn)練需求時(shí),可快速實(shí)現(xiàn)收斂。
精度訓(xùn)練函數(shù)公式如下:
(9)
利用式(9)所獲取精度確定復(fù)雜度收斂速度,體現(xiàn)期望值與真實(shí)值變化趨勢(shì)。確定安全態(tài)勢(shì)感知預(yù)測(cè)的直接反應(yīng)收斂速度公式如下:
F2=L
(10)
利用所獲取目標(biāo)函數(shù)實(shí)現(xiàn)適應(yīng)度建立,獲取適應(yīng)度函數(shù)公式如下:
(11)
利用式(11)所獲取的適應(yīng)度獲取樣本副本,利用適應(yīng)度將所獲取樣本副本遺傳至下一代。適應(yīng)度值應(yīng)為最優(yōu),利用以下公式確定適應(yīng)度值有效性:
(12)
式中,f與fsum分別表示i值的適應(yīng)值以及全部集合適應(yīng)值,N表示全部集合數(shù)量。
利用適應(yīng)度值確定下一個(gè)集合優(yōu)化,個(gè)體i待復(fù)制數(shù)量為Vi時(shí),需充分考慮初始集合以及隱含層節(jié)點(diǎn)寬度,實(shí)現(xiàn)控制因子參數(shù)的因子值確定。通過參數(shù)因子以及控制因子交叉確定新集合公式如下:
(13)
式中,a表示隨機(jī)變換因子。
通過以上交叉因子以及控制因子組合運(yùn)算,實(shí)現(xiàn)生物遺傳突變過程模擬,通過獲取新種群實(shí)現(xiàn)快速準(zhǔn)確集合變異,獲取神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)以及確定最終種群,通過以上過程實(shí)現(xiàn)無線通信系統(tǒng)安全態(tài)勢(shì)感知精準(zhǔn)預(yù)測(cè)。
為驗(yàn)證所研究機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析的無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)方法對(duì)于無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)有效性,選取某校園網(wǎng)網(wǎng)管中的無線通信系統(tǒng)作為實(shí)驗(yàn)環(huán)境,將校園網(wǎng)數(shù)據(jù)庫中的3 000個(gè)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),利用SQL Server 2008作為所安裝硬件資產(chǎn),選取其中1臺(tái)臺(tái)式機(jī)作為客戶端,全部操作集中于該臺(tái)式機(jī)上,另設(shè)置3臺(tái)電腦為攻擊終端。選取改進(jìn)BP神經(jīng)網(wǎng)絡(luò)方法以及IFS-NARX方法作為對(duì)比方法。
統(tǒng)計(jì)采用3種方法挖掘無線通信系統(tǒng)中通信數(shù)據(jù)執(zhí)行時(shí)間隨挖掘次數(shù)變化情況如圖2所示。從圖2實(shí)驗(yàn)結(jié)果可以看出,采用本研究所提方法挖掘無線通信系統(tǒng)網(wǎng)絡(luò)通信數(shù)據(jù),不同挖掘次數(shù)情況下的挖掘時(shí)間均低于另2種方法。本研究所提方法由于采用大數(shù)據(jù)分析技術(shù),具有較高的數(shù)據(jù)分析效率,針對(duì)網(wǎng)絡(luò)數(shù)據(jù)具有較高的挖掘效率,為保障數(shù)據(jù)安全提供基礎(chǔ)。
圖2 挖掘時(shí)間對(duì)比
采用本研究所提方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模糊分區(qū)聚類挖掘關(guān)聯(lián)規(guī)則,測(cè)試不同迭代次數(shù)情況下無線通信系統(tǒng)吞吐量變化情況,對(duì)比結(jié)果如圖3所示。從圖3實(shí)驗(yàn)結(jié)果可以看出,采用本研究所提方法挖掘?qū)嶒?yàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則均具有較高的吞吐量,采用另2種方法挖掘?qū)嶒?yàn)數(shù)據(jù)中關(guān)聯(lián)規(guī)則吞吐量明顯低于本研究所提方法。吞吐量越高表明無線通信系統(tǒng)的通信性能越優(yōu),有效驗(yàn)證本研究所提方法具有較高的收斂性能,系統(tǒng)的通信性能較強(qiáng),關(guān)聯(lián)規(guī)則挖掘效果較好,能夠?qū)踩珣B(tài)勢(shì)關(guān)聯(lián)規(guī)則數(shù)據(jù)準(zhǔn)確挖掘,提升安全態(tài)勢(shì)精準(zhǔn)預(yù)測(cè)能力。
圖3 吞吐量變化對(duì)比
將實(shí)驗(yàn)數(shù)據(jù)隨機(jī)分為6組,每組數(shù)據(jù)數(shù)量不固定。統(tǒng)計(jì)采用本研究所提方法挖掘不同數(shù)據(jù)量情況下關(guān)聯(lián)規(guī)則的挖掘均方誤差,挖掘結(jié)果如圖4所示。從圖4實(shí)驗(yàn)結(jié)果可以看出,采用本研究所提方法挖掘不同數(shù)據(jù)量情況下關(guān)聯(lián)規(guī)則的均方誤差均明顯低于另2種方法,說明采用本研究所提方法具有較高的數(shù)據(jù)挖掘性能,可應(yīng)用于無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)中。
圖4 挖掘均方誤差對(duì)比
統(tǒng)計(jì)采用本研究所提方法在不同時(shí)刻下感知預(yù)測(cè)安全態(tài)勢(shì)走勢(shì)圖,并將本研究所提方法預(yù)測(cè)結(jié)果與實(shí)際安全態(tài)勢(shì)走勢(shì)對(duì)比,驗(yàn)證本研究所提方法的安全態(tài)勢(shì)感知預(yù)測(cè)有效性,預(yù)測(cè)結(jié)果如圖5所示。從圖5實(shí)驗(yàn)結(jié)果可以看出,采用本研究所提方法感知預(yù)測(cè)無線通信系統(tǒng)的安全態(tài)勢(shì)預(yù)測(cè)值與實(shí)際安全態(tài)勢(shì)值極為接近,驗(yàn)證本研究所提方法具有較高的安全態(tài)勢(shì)預(yù)測(cè)效果。本研究所提方法采用大數(shù)據(jù)分析技術(shù)分析實(shí)驗(yàn)數(shù)據(jù),利用遺傳算法優(yōu)化徑向基神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)安全態(tài)勢(shì)感知預(yù)測(cè),有效提升安全態(tài)勢(shì)感知預(yù)測(cè)結(jié)果,具有較高應(yīng)用性。
圖5 態(tài)勢(shì)感知對(duì)比圖
統(tǒng)計(jì)采用本研究所提方法感知預(yù)測(cè)無線通信系統(tǒng)安全態(tài)勢(shì)結(jié)果的預(yù)測(cè)精度,并將本研究所提方法與另2種方法對(duì)比,對(duì)比結(jié)果如圖6所示。從圖6實(shí)驗(yàn)結(jié)果可以看出,采用本研究所提方法感知預(yù)測(cè)無線通信網(wǎng)絡(luò)安全態(tài)勢(shì)的預(yù)測(cè)精度均高于99%,采用另2種方法感知預(yù)測(cè)無線通信系統(tǒng)安全態(tài)勢(shì)預(yù)測(cè)精度均低于98.5%,對(duì)比結(jié)果有效驗(yàn)證本研究所提方法具有較高的安全態(tài)勢(shì)感知預(yù)測(cè)性能。
圖6 預(yù)測(cè)精度對(duì)比
統(tǒng)計(jì)采用本研究所提方法感知預(yù)測(cè)無線通信系統(tǒng)安全態(tài)勢(shì)的漏告警率,并將本研究所提方法與另2種方法對(duì)比,對(duì)比結(jié)果如圖7所示。從圖7實(shí)驗(yàn)結(jié)果可以看出,采用本研究所提方法感知預(yù)測(cè)無線通信系統(tǒng)安全態(tài)勢(shì)漏告警率明顯低于另2種方法,再次驗(yàn)證采用本研究所提方法感知預(yù)測(cè)無線通信系統(tǒng)安全態(tài)勢(shì)精準(zhǔn)性。
圖7 漏告警率對(duì)比
無線通信系統(tǒng)中包含海量數(shù)據(jù),從海量數(shù)據(jù)中挖掘影響安全態(tài)勢(shì)的風(fēng)險(xiǎn)數(shù)據(jù)是安全態(tài)勢(shì)感知的基礎(chǔ)。將機(jī)器學(xué)習(xí)技術(shù)與大數(shù)據(jù)分析技術(shù)相結(jié)合應(yīng)用于無線通信系統(tǒng)安全態(tài)勢(shì)感知預(yù)測(cè)中,通過實(shí)驗(yàn)驗(yàn)證采用該方法感知預(yù)測(cè)安全態(tài)勢(shì)具有較高有效性,可應(yīng)用于無線通信系統(tǒng)網(wǎng)絡(luò)安全防護(hù)中。本文研究方法可從整體體現(xiàn)無線通信系統(tǒng)安全狀況,對(duì)于通信網(wǎng)絡(luò)未來安全趨勢(shì)同樣具有較強(qiáng)預(yù)測(cè)精準(zhǔn)性,但研究還存在不足之處,在安全態(tài)勢(shì)感知預(yù)測(cè)過程中未能針對(duì)網(wǎng)絡(luò)波動(dòng)問題作出有效解決方案,今后會(huì)著重針對(duì)該問題進(jìn)行深入研究。