徐成桂,徐廣順
(成都理工大學(xué)工程技術(shù)學(xué)院,四川 樂(lè)山 614000)
近年來(lái),計(jì)算機(jī)技術(shù)飛速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)[1]規(guī)模愈加龐大,隨著網(wǎng)絡(luò)使用范圍的增加,計(jì)算機(jī)網(wǎng)絡(luò)安全問(wèn)題逐漸成為各個(gè)國(guó)家的重點(diǎn)關(guān)注對(duì)象。數(shù)據(jù)流異常數(shù)據(jù)挖掘因其高強(qiáng)度網(wǎng)絡(luò)防御特性,受到廣泛應(yīng)用。云端數(shù)據(jù)流作為計(jì)算機(jī)網(wǎng)絡(luò)的重要組成部分,對(duì)其有效的異常數(shù)據(jù)檢測(cè)[2]是計(jì)算機(jī)領(lǐng)域亟待解決的問(wèn)題之一。
早于20世紀(jì)90年代,哥倫比亞大學(xué)就有學(xué)者就數(shù)據(jù)流異常數(shù)據(jù)挖掘的檢測(cè)給出了具體方法,從而為云端數(shù)據(jù)流的異常序列挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。在此背景下,當(dāng)前也出現(xiàn)了較多的研究成果。文獻(xiàn)[3]提出基于BiGRU-SVDD的ADS-B異常數(shù)據(jù)檢測(cè)模型。該方法基于神經(jīng)網(wǎng)絡(luò)方法計(jì)算數(shù)據(jù)差值;再將獲取的計(jì)算結(jié)果放入支持向量機(jī)中進(jìn)行訓(xùn)練,完成數(shù)據(jù)分類;最后依據(jù)分類結(jié)果確定數(shù)據(jù)滑動(dòng)窗口,縮減神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間,從而建立數(shù)據(jù)的異常檢測(cè)模型,實(shí)現(xiàn)數(shù)據(jù)異常檢測(cè)。該方法由于未能在模型建立前,提取數(shù)據(jù)融合特征,所以該方法建立的模型數(shù)據(jù)挖掘時(shí)間長(zhǎng)。文獻(xiàn)[4]提出基于三次指數(shù)平滑模型與DBSCAN聚類的電量數(shù)據(jù)異常檢測(cè)。該方法首先依據(jù)歷史數(shù)據(jù)預(yù)測(cè)當(dāng)前時(shí)刻數(shù)據(jù)量,計(jì)算與實(shí)際值的殘差;使用DBSCAN聚類算法對(duì)數(shù)據(jù)殘差進(jìn)行聚類處理,最后依據(jù)三次指數(shù)平滑模型建立數(shù)據(jù)的異常檢測(cè)模型,實(shí)現(xiàn)異常數(shù)據(jù)的檢測(cè)。該方法在對(duì)數(shù)據(jù)聚類處理時(shí)存在問(wèn)題,導(dǎo)致該方法建立模型的挖掘效果差。文獻(xiàn)[5]提出基于逆向習(xí)得推理的網(wǎng)絡(luò)異常行為檢測(cè)模型。該方法依據(jù)提取的數(shù)據(jù)特征項(xiàng)對(duì)數(shù)據(jù)進(jìn)行離散化處理,并對(duì)離散結(jié)果進(jìn)行歸一化處理;再利用改進(jìn)的ALI算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練處理,生成數(shù)據(jù)檢測(cè)集;最后使用異常數(shù)據(jù)檢測(cè)函數(shù)判斷數(shù)據(jù)距離是否異常,將深層結(jié)構(gòu)能量模型與高斯編碼混合模型進(jìn)行結(jié)合,完成異常數(shù)據(jù)檢測(cè)模型的建立,從而實(shí)現(xiàn)異常數(shù)據(jù)的檢測(cè)。該方法在判斷數(shù)據(jù)距離時(shí),存在較大誤差,所以該方法建立的模型數(shù)據(jù)的挖掘性能差。
為了解決上述傳統(tǒng)方法的應(yīng)用弊端,本研究提出云端大數(shù)據(jù)流序列異常挖掘數(shù)學(xué)建模方法。實(shí)驗(yàn)結(jié)果證明了所構(gòu)建的模型應(yīng)用效率果高,相關(guān)系數(shù)和召回率指標(biāo)也均高于文獻(xiàn)方法,說(shuō)明所提方法具有可行性。
在對(duì)云端大數(shù)據(jù)流的異常序列挖掘前,需要結(jié)合神經(jīng)網(wǎng)絡(luò)與布谷鳥算法[6]提取云端大數(shù)據(jù)流的數(shù)據(jù)特征。數(shù)據(jù)流在進(jìn)行特征提取時(shí)需要檢測(cè)數(shù)據(jù)流信息,獲取數(shù)據(jù)流多項(xiàng)信息特征并進(jìn)行特征重構(gòu),利用布谷鳥搜索算法對(duì)重構(gòu)特征尋優(yōu)處理,從而提取云端數(shù)據(jù)流的特征。
設(shè)定云端數(shù)據(jù)流的神經(jīng)網(wǎng)絡(luò)模型[7]共分為三層架構(gòu),分別為輸入層a、輸出層c以及隱含層b,由若干節(jié)點(diǎn)q組合而成。將神經(jīng)網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù)量設(shè)定成x,隱含層節(jié)點(diǎn)數(shù)量標(biāo)記z形式,輸出層節(jié)點(diǎn)數(shù)量標(biāo)記y,網(wǎng)路訓(xùn)練權(quán)值為ω,建立云端數(shù)據(jù)流神經(jīng)網(wǎng)絡(luò)模型,具體模型結(jié)構(gòu)如圖1所示。
圖1 大數(shù)據(jù)流神經(jīng)網(wǎng)絡(luò)具體結(jié)構(gòu)
神經(jīng)網(wǎng)絡(luò)模型建立后,基于大數(shù)據(jù)流參數(shù)確定神經(jīng)網(wǎng)絡(luò)各個(gè)層級(jí)權(quán)重ω,其中輸出層至隱含層單元權(quán)重標(biāo)記ωij形式,隱含層至輸出層權(quán)重標(biāo)記ωjk,通過(guò)確定的單元權(quán)重對(duì)大數(shù)據(jù)流數(shù)據(jù)進(jìn)行訓(xùn)練,過(guò)程中需要建立相關(guān)激活函數(shù),過(guò)程如下式所示
(1)
式中,激活函數(shù)標(biāo)記f(h)形式,指數(shù)函數(shù)標(biāo)記exp(-h)形式,數(shù)據(jù)流訓(xùn)練樣本數(shù)量標(biāo)記h。通過(guò)對(duì)網(wǎng)絡(luò)閾值的調(diào)節(jié),獲取數(shù)據(jù)流[8]信息的均方誤差值?,結(jié)果如下式所示
?=1/2(Jn-Ln)
(2)
式中,云端數(shù)據(jù)流樣本信息的均方誤差標(biāo)記?形式,樣本信息的訓(xùn)練結(jié)果標(biāo)記Jn,誤差函數(shù)標(biāo)記Ln,神經(jīng)網(wǎng)路訓(xùn)練樣本數(shù)量標(biāo)記n。
首先依據(jù)上述獲取的均方誤差函數(shù)對(duì)數(shù)據(jù)流進(jìn)行分割處理,將云端數(shù)據(jù)流D分成若干數(shù)據(jù)段,并將其作為數(shù)據(jù)流滑動(dòng)窗口Dm。依據(jù)滑動(dòng)窗口建立數(shù)據(jù)流的調(diào)度集函數(shù),結(jié)果如下式所示
(3)
式中,云端大數(shù)據(jù)的數(shù)據(jù)平均熵sn(u),信息樣本集中心點(diǎn)標(biāo)記n形式,數(shù)據(jù)流信息譜特征量標(biāo)記kn(u)形式,神經(jīng)網(wǎng)絡(luò)迭代次數(shù)標(biāo)記u,大數(shù)據(jù)流中的數(shù)據(jù)總量標(biāo)記E形式。依據(jù)上述計(jì)算結(jié)果獲取數(shù)據(jù)流信息譜α,通過(guò)信息融合提取數(shù)據(jù)的多維時(shí)間序列。
結(jié)合上述建立的神經(jīng)網(wǎng)絡(luò)與提取的數(shù)據(jù)流多維時(shí)間序列,建立數(shù)據(jù)流的空間融合模型[9],結(jié)果如下式所示
pm(u)=(aj+δj(u))+(bj+εj(u))
(4)
式中,融合模型參數(shù)標(biāo)記aj和bj,誤差擾動(dòng)標(biāo)記δj(u),數(shù)據(jù)均值噪聲標(biāo)記εj(u)。提取數(shù)據(jù)流融合特征時(shí),設(shè)定數(shù)據(jù)段Yj初始分割點(diǎn)為Yj(1),并以此獲取模型參數(shù)向量β。通過(guò)上述計(jì)算,獲取數(shù)據(jù)流的融合特征集R=(supk1(r),…supkf(r)),并使用聚類算法[10]計(jì)算數(shù)據(jù)段聚類迭代方程,結(jié)果如下式所示
(5)
(6)
使用布谷鳥算法計(jì)算數(shù)據(jù)流融合特征值,從而搜索數(shù)據(jù)流的最佳特征。過(guò)程如下:
1)初始化數(shù)據(jù)流
2)更新循環(huán)鳥窩位置
(7)
3)替換位置較差的鳥窩
對(duì)獲取的鳥窩位置進(jìn)行高斯擾動(dòng),獲取新的鳥窩位置P″,通過(guò)對(duì)比測(cè)試將鳥群中位置較差的鳥窩進(jìn)行替換處理。
4)尋找最佳鳥窩位置
替換后,搜索鳥群中最佳的鳥窩位置,獲取數(shù)據(jù)流的最佳融合特征,結(jié)束搜索。
最后通過(guò)上述搜索流程輸出結(jié)果,獲取云端數(shù)據(jù)流的最佳融合特征信息。
云端大數(shù)據(jù)流由若干n數(shù)據(jù)序列組合而成,并會(huì)隨著時(shí)間的變化而發(fā)生改變,表現(xiàn)形式標(biāo)記{z1,z1,…,zn},數(shù)據(jù)流[12]的最大近似序列用zn表述。
(8)
(9)
式中,數(shù)據(jù)流序列的閾值調(diào)整條件標(biāo)記G形式,調(diào)整因子標(biāo)記μ形式,當(dāng)序列閾值比重為0時(shí),t可作為常數(shù)處理。
設(shè)定云端大數(shù)據(jù)流序列之間的相關(guān)系數(shù)[13]為F(0),長(zhǎng)度用l表示,若序列長(zhǎng)度小于l,則默認(rèn)序列長(zhǎng)度為0,說(shuō)明該序列為滯后序列。一般來(lái)說(shuō),計(jì)算云端大數(shù)據(jù)流序列相關(guān)系數(shù)時(shí),可使用皮埃爾系數(shù)ρ完成相關(guān)系數(shù)的計(jì)算,結(jié)果如下式所示
(10)
(11)
式中,序列滯后相關(guān)系數(shù)標(biāo)記R(l)形式。
基于上述數(shù)據(jù)流序列相關(guān)系數(shù)的計(jì)算,引入遺忘機(jī)制建立模型相關(guān)約束條件。
在建立數(shù)據(jù)流異常序列挖掘模型時(shí),設(shè)定序列的決策變量為A,遺忘因子為Y,序列衰減因子用σi(N)表示,并以此建立數(shù)據(jù)流異常序列挖掘模型的約束條件,過(guò)程如下式所示
(12)
式中,序列的最大相關(guān)系數(shù)標(biāo)記Rmax(l),最小相關(guān)標(biāo)記Rmin(l)。
基于上述確定的閾值、序列相關(guān)系數(shù)以及約束條件,建立云端大數(shù)據(jù)流序列的異常挖掘模型[15],過(guò)程如下式所示
(13)
式中,云端大數(shù)據(jù)流序列異常挖掘模型標(biāo)記P(x)形式。
最后將云端大數(shù)據(jù)流中相關(guān)待檢測(cè)序列放入模型中,通過(guò)模型輸出,獲取數(shù)據(jù)流異常序列值。
為了驗(yàn)證上述云端數(shù)據(jù)流序列異常挖掘模型建立方法整體有效性,需要對(duì)此方法進(jìn)行測(cè)試。
分別采用云端大數(shù)據(jù)流序列異常挖掘數(shù)學(xué)建模仿真(本文所提方法)、基于BiGRU-SVDD的ADS-B異常數(shù)據(jù)檢測(cè)模型(文獻(xiàn)[3]方法)、基于三次指數(shù)平滑模型與DBSCAN聚類的電量數(shù)據(jù)異常檢測(cè)(文獻(xiàn)[4]方法)進(jìn)行測(cè)試;
在建立異常挖掘模型時(shí),數(shù)據(jù)流序列挖掘時(shí)間的長(zhǎng)短、相關(guān)系數(shù)的大小以及檢測(cè)效果的優(yōu)劣都會(huì)給模型的檢測(cè)性能帶來(lái)影響,采用本文所提方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法建立異常數(shù)據(jù)挖掘模型時(shí),利用上述測(cè)試指標(biāo)檢測(cè)三種模型的模型檢測(cè)性能。
1)模型挖掘時(shí)間測(cè)試
在建立異常數(shù)據(jù)挖掘模型時(shí),模型檢測(cè)時(shí)間的長(zhǎng)短能夠直接反映模型的檢測(cè)性能,采用本文所提方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法建立異常數(shù)據(jù)挖掘模型時(shí),對(duì)三種模型的異常數(shù)據(jù)挖掘時(shí)間進(jìn)行測(cè)試,測(cè)試結(jié)果如圖2所示。
圖2 不同模型異常數(shù)據(jù)檢測(cè)時(shí)間測(cè)試結(jié)果
分析圖2可知,檢測(cè)次數(shù)的增加會(huì)提高模型對(duì)異常數(shù)據(jù)的檢測(cè)時(shí)間。在測(cè)試初期,文獻(xiàn)[3]方法測(cè)試結(jié)果與本文所提方法測(cè)試結(jié)果相一致,隨著檢測(cè)次數(shù)不斷增加,二者之間差距拉開,本文所提方法測(cè)試結(jié)果低于文獻(xiàn)[3]方法檢測(cè)結(jié)果。本文所提方法的測(cè)試結(jié)果同樣會(huì)隨著檢測(cè)次數(shù)的增加而提升,但是當(dāng)檢測(cè)次數(shù)達(dá)到一定范圍時(shí),本文所提方法能夠?qū)惓?shù)據(jù)挖掘時(shí)間穩(wěn)定在固定時(shí)間內(nèi)。由此可知,本文所提方法的異常數(shù)據(jù)檢測(cè)時(shí)間低于其它兩種方法,文獻(xiàn)[3]方法測(cè)試結(jié)果略高于本文所提方法,文獻(xiàn)[4]方法測(cè)試結(jié)果較差。
2)模型相關(guān)系數(shù)測(cè)試
在建立異常數(shù)據(jù)挖掘模型時(shí),模型相關(guān)系數(shù)的大小會(huì)對(duì)模型的挖掘效果帶來(lái)影響。設(shè)定皮埃爾系數(shù)ρ為模型相關(guān)系數(shù)指標(biāo),最佳區(qū)間為[0,1],模型的相關(guān)系數(shù)越高,模型的挖掘效果越好,反之則越差。采用本文所提方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法建立異常數(shù)據(jù)挖掘模型時(shí),測(cè)試三種方法的模型相關(guān)系數(shù),測(cè)試結(jié)果如圖3所示。
圖3 不同模型的相關(guān)系數(shù)測(cè)試結(jié)果
分析圖3可知,模型相關(guān)系數(shù)的大小會(huì)隨著檢測(cè)次數(shù)的增加而有所下降。在測(cè)試初期,文獻(xiàn)[4]方法檢測(cè)出的模型相關(guān)系數(shù)與本文所提方法測(cè)試結(jié)果相一致,隨著測(cè)試的進(jìn)行,文獻(xiàn)[4]方法測(cè)試結(jié)果急速下降,直至低于文獻(xiàn)[5]方法測(cè)試結(jié)果。本文所提方法雖然也會(huì)隨著檢測(cè)次數(shù)的增加有所降低,但是測(cè)試出的模型相關(guān)系數(shù)依然高于其它模型。這主要是因?yàn)楸疚乃岱椒ㄔ诮惓?shù)據(jù)挖掘模型前,提取了數(shù)據(jù)流融合特征,所以本文所提方法建立的異常序列挖掘模型具備較高的相關(guān)系數(shù)。由此可證明本文所提方法的挖掘效果好。
3)檢測(cè)效果測(cè)試
基于上述測(cè)試結(jié)果,選定5000個(gè)待挖掘數(shù)據(jù),采用本文所提方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法建立異常數(shù)據(jù)挖掘模型時(shí),對(duì)三種方法的模型挖掘效果進(jìn)行測(cè)試,測(cè)試結(jié)果如表1所示。
表1 不同方法的模型挖掘效果測(cè)試結(jié)果
分析表1可知,本文所提方法在挖掘數(shù)據(jù)流異常序列時(shí),檢測(cè)出的挖掘效率、召回率高,檢測(cè)出的數(shù)據(jù)誤報(bào)個(gè)數(shù)低。
綜上所述,本文所提建立的數(shù)據(jù)挖掘模型在進(jìn)行異常數(shù)據(jù)挖掘時(shí)的挖掘時(shí)間短、挖掘效果好、挖掘性能高。
隨著網(wǎng)絡(luò)應(yīng)用范圍的增加,云端數(shù)據(jù)流的異常序列檢測(cè)就變得尤為重要。針對(duì)傳統(tǒng)數(shù)據(jù)流異常數(shù)據(jù)挖掘方法中存在的問(wèn)題,提出云端大數(shù)據(jù)流序列異常挖掘數(shù)學(xué)建模方法。該方法依據(jù)提取的云端數(shù)據(jù)流融合特征,獲取模型的自適應(yīng)閾值;再通過(guò)相關(guān)系數(shù)以及約束條件的建立,完成異常挖掘模型的建立,實(shí)現(xiàn)數(shù)據(jù)流序列的異常挖掘。