符太東,劉松旭,李育強(qiáng)
(1. 吉林大學(xué)大數(shù)據(jù)和網(wǎng)絡(luò)管理中心,吉林 長(zhǎng)春 130000;2. 電子科技大學(xué)信息中心,四川 成都 611731)
網(wǎng)絡(luò)作為存儲(chǔ)著大量數(shù)據(jù)合集的高質(zhì)量無線傳感設(shè)備,主要由電子技術(shù)[1]和無線通信技術(shù)[2]搭建而成,在檢索目標(biāo)信息與處理相位信道并行問題時(shí)起到通信補(bǔ)償和線性修正的作用。數(shù)據(jù)作為網(wǎng)絡(luò)智能分析能力的核心,其檢測(cè)技術(shù)是目前社會(huì)的熱議話題。由于網(wǎng)絡(luò)遭受惡意攻擊的概率居高不下,因此網(wǎng)絡(luò)數(shù)據(jù)出現(xiàn)異常的頻率也相對(duì)較高。為了及時(shí)檢測(cè)網(wǎng)絡(luò)大數(shù)據(jù)異常點(diǎn),定位疑似異常點(diǎn)數(shù)據(jù)并優(yōu)化網(wǎng)絡(luò)智能分析能力,成為重點(diǎn)的研究?jī)?nèi)容。
孟永偉等人[3]提出利用殘差分析的網(wǎng)絡(luò)異常流量檢測(cè)方法,通過提取網(wǎng)絡(luò)節(jié)點(diǎn)流量特征,將節(jié)點(diǎn)流量特征分為兩組屬性矩陣,并將其輸入網(wǎng)絡(luò)異常檢測(cè)模型中,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)智能檢測(cè),該方法存在檢測(cè)精度低的問題。神顯豪等人[4]通過將具備檢測(cè)價(jià)值的異常數(shù)據(jù)注入卷積神經(jīng)網(wǎng)絡(luò)中,創(chuàng)建基于卷積神經(jīng)網(wǎng)絡(luò)的混淆數(shù)據(jù)歸一化檢測(cè)模型。在限制模型全連接層相關(guān)閾值的前提下,促使模型公開數(shù)據(jù)集內(nèi)的異常節(jié)點(diǎn)失去自主學(xué)習(xí)能力,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)智能檢測(cè)。李忠等人[5]通過自動(dòng)編碼器采集無監(jiān)督網(wǎng)絡(luò)的結(jié)構(gòu)信息和屬性信息,同時(shí)將兩種信息解碼為網(wǎng)絡(luò)原始數(shù)據(jù)節(jié)點(diǎn)。通過識(shí)別網(wǎng)絡(luò)原始數(shù)據(jù)節(jié)點(diǎn)的異常度量,實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)智能檢測(cè),上述兩種方法存在檢測(cè)效率不高的問題。
為了解決上述方法中存在的問題,提出盲均衡算法下網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)智能檢測(cè)方法。通過采集網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),并對(duì)其去噪處理,利用盲均衡技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)的檢測(cè)。
通過分類的方式檢測(cè)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn),應(yīng)建立網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)的采集模型。由于數(shù)據(jù)節(jié)點(diǎn)存在關(guān)聯(lián)規(guī)則[6],因此選擇融合關(guān)聯(lián)規(guī)則的模糊關(guān)聯(lián)規(guī)則挖掘模型作為初始框架,并向其中添加與節(jié)點(diǎn)信息流感測(cè)范圍適配度較高的空間調(diào)度窗口,促使初始框架的關(guān)聯(lián)譜信息與網(wǎng)絡(luò)大數(shù)據(jù)區(qū)域信息融合。經(jīng)過融合處理的初始框架,在數(shù)據(jù)源整合和節(jié)點(diǎn)空間分布兩方面具有較高的網(wǎng)絡(luò)識(shí)別能力,此時(shí)將初始框架與網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)結(jié)合,即可實(shí)現(xiàn)數(shù)據(jù)節(jié)點(diǎn)的有序采集。這種建立在模糊關(guān)聯(lián)規(guī)則挖掘模型基礎(chǔ)上的采集模型,又稱為傳感序列采集模型。模型建立及局部數(shù)據(jù)節(jié)點(diǎn)采集過程如下圖1所示。
圖1 模型建立及局部數(shù)據(jù)節(jié)點(diǎn)采集過程
模糊關(guān)聯(lián)規(guī)則挖掘模型的表達(dá)式如下:
(1)
式中,z表示關(guān)聯(lián)規(guī)則的隨機(jī)部署條件;q表示綜合調(diào)度時(shí)長(zhǎng);y表示模型接收功率;θ表示數(shù)據(jù)傳輸速率;t表示載波頻率;s表示鄰接節(jié)點(diǎn)的歐氏距離;h表示鄰接節(jié)點(diǎn)的關(guān)聯(lián)程度。
節(jié)點(diǎn)信息流感測(cè)范圍的計(jì)算公式如下:
(2)
傳感序列采集模型的表達(dá)式如下:
(3)
式中,dr表示連續(xù)采樣時(shí)刻數(shù);g表示輸出負(fù)載量;ds表示待采節(jié)點(diǎn)的能量閾值。
經(jīng)過傳感序列采集模型獲取的網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)由于存在分量較高的高斯白噪聲[7],不能作為訓(xùn)練樣本投入到最終檢測(cè)中。為了獲取更為精確的檢測(cè)結(jié)果,在徹底分類訓(xùn)練樣本前,利用去噪算法消除網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)噪聲。
DHA去噪方法又稱網(wǎng)絡(luò)感知數(shù)據(jù)自適應(yīng)去噪方法,該方法不僅能消除不同密度、不同網(wǎng)絡(luò)環(huán)境的節(jié)點(diǎn)噪聲,還能最大限度節(jié)省能量,即便是面對(duì)惡劣噪聲環(huán)境造成的網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)損壞,該方法也能在不丟失數(shù)據(jù)包的前提下有效去噪。DHA去噪方法對(duì)節(jié)點(diǎn)密度分散情況和節(jié)點(diǎn)密度聚集情況的去噪流程并不相同。
1)節(jié)點(diǎn)密度分散情況
DHA去噪方法的核心思路是提高節(jié)點(diǎn)置信度,以確保孤立節(jié)點(diǎn)的噪聲均值落入網(wǎng)絡(luò)感知數(shù)據(jù)允許范圍內(nèi)。利用Kalman濾波器[8]優(yōu)化達(dá)到置信度要求,且噪聲均值不超過給定范圍的數(shù)據(jù)節(jié)點(diǎn),得到去噪后的優(yōu)化數(shù)據(jù)節(jié)點(diǎn)。節(jié)點(diǎn)置信度提高公式如下:
(4)
噪聲均值的計(jì)算公式如下:
(5)
Kalman濾波器的函數(shù)表達(dá)式如下:
(6)
2)節(jié)點(diǎn)密度聚集情況
不同于節(jié)點(diǎn)密度分散情況,稠密的節(jié)點(diǎn)分布關(guān)系會(huì)加重網(wǎng)絡(luò)信息堵塞和通信能量消耗,因此DHA去噪方法的核心思路是限制節(jié)點(diǎn)通信路徑,僅開放鄰接信道,減少過量通信任務(wù)的同時(shí),控制活躍節(jié)點(diǎn)個(gè)數(shù)。根據(jù)單位節(jié)點(diǎn)的額外消耗將網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)劃分為多組矩陣,并分批次提高矩陣置信度。利用Kalman濾波器優(yōu)化達(dá)到置信度要求的矩陣,得到去噪后的優(yōu)化數(shù)據(jù)節(jié)點(diǎn)。節(jié)點(diǎn)通信路徑限制公式如下:
(7)
盲均衡技術(shù)是利用均衡器[9]修正網(wǎng)絡(luò)信道的非線性特性,使網(wǎng)絡(luò)最小相位信道與最大相位信道能在補(bǔ)償作用下達(dá)到理想均衡狀態(tài)。在以智能檢測(cè)為目標(biāo)的網(wǎng)絡(luò)大數(shù)據(jù)異常點(diǎn)識(shí)別工作中,盲均衡技術(shù)能夠提供一種常數(shù)模算法,即盲均衡算法[10],用以實(shí)時(shí)捕捉收斂途中異常節(jié)點(diǎn)特征,為后續(xù)分類奠定堅(jiān)實(shí)的基礎(chǔ)。
盲均衡算法因具有信道均衡效果[11-12],因此在提取網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)特征方面具有獨(dú)特的優(yōu)勢(shì),其具體操作過程如下:根據(jù)信道傳輸原理嚴(yán)格控制節(jié)點(diǎn)適應(yīng)度。經(jīng)過適應(yīng)度控制的任意節(jié)點(diǎn)在逼近任意信道時(shí)均會(huì)受到盲均衡算法的約束,呈現(xiàn)網(wǎng)絡(luò)收斂速度全局統(tǒng)一的穩(wěn)定狀態(tài)。此時(shí)根據(jù)網(wǎng)絡(luò)收斂速度設(shè)定節(jié)點(diǎn)加權(quán)因子,并按可變因子及可變程度、非可變因子及非可變程度標(biāo)注節(jié)點(diǎn),即可在實(shí)現(xiàn)真正網(wǎng)絡(luò)均衡控制效果的同時(shí),提取網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)特征。信道傳輸原理的表達(dá)式如下:
M=xij(n)-α
(8)
式中,xij表示誤碼率;n表示信道權(quán)值;α表示傳輸操作算子。
盲均衡算法的表達(dá)式如下
V=[(k1)2-(k2)2]/2
(9)
式中,k1表示盲均衡實(shí)數(shù)編碼;k2表示節(jié)點(diǎn)最大適應(yīng)度值。
K-Means聚類算法[13]是針對(duì)大數(shù)據(jù)集合的分簇聚類算法,因具備較為優(yōu)越的聚類效果,K-Means聚類算法常被應(yīng)用于不同種類的數(shù)據(jù)聚類之中。將網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)特征作為訓(xùn)練樣本輸入K-Means聚類算法中,該算法通過將初始聚類中心[14]歸為一簇,再沿聚類搜索范圍的上界、下界延伸出n個(gè)歐式形態(tài)距離[15],以此獲取延伸途中特征指標(biāo)的最佳聚類結(jié)果。根據(jù)K-Means聚類算法輸出的最佳聚類結(jié)果,即可實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)的智能檢測(cè)。K-Means聚類算法的表達(dá)式如下:
(10)
為了驗(yàn)證盲均衡算法下網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)智能檢測(cè)的整體有效性,需要對(duì)其測(cè)試,采用的仿真軟件為MATLAB2021b。
1)檢測(cè)精度
采用計(jì)算機(jī)模擬兩種網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)分布情況,第一種是稀疏度較高的分散型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),第二種是稀疏度較低的聚集型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)。已知網(wǎng)絡(luò)在靜止?fàn)顟B(tài)下,正常數(shù)據(jù)節(jié)點(diǎn)的信號(hào)值趨近于0mV,異常數(shù)據(jù)節(jié)點(diǎn)的信號(hào)值忽高忽低,可能較正常數(shù)據(jù)節(jié)點(diǎn)時(shí)頻波動(dòng)更低,表現(xiàn)為負(fù)信號(hào)值,也可能較正常數(shù)據(jù)節(jié)點(diǎn)時(shí)頻波動(dòng)更高,表現(xiàn)為正信號(hào)值。在兩種網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)分布情況中標(biāo)注各數(shù)據(jù)節(jié)點(diǎn)的實(shí)際信號(hào)值,實(shí)際信號(hào)值如下圖2所示。
圖2 分散型與聚集型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)實(shí)際信號(hào)值
由上圖2可知,在分散性網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)中,節(jié)點(diǎn)1、2、8屬于正常節(jié)點(diǎn),信號(hào)值為0mV;節(jié)點(diǎn)3、4、5、6、7、9屬于異常節(jié)點(diǎn),且異常節(jié)點(diǎn)的信號(hào)值并不統(tǒng)一。在聚集型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)中,節(jié)點(diǎn)b、f、l、m、o屬于正常節(jié)點(diǎn),信號(hào)值為0mV;節(jié)點(diǎn)a、c、d、e、g、h、i、j、k、n、p屬于異常節(jié)點(diǎn),且異常節(jié)點(diǎn)的信號(hào)值不統(tǒng)一。
采用網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn)信號(hào)值探測(cè)器追蹤一段時(shí)間內(nèi),分散型網(wǎng)絡(luò)大數(shù)據(jù)正常節(jié)點(diǎn)1、2和異常節(jié)點(diǎn)3、9及聚集型網(wǎng)絡(luò)大數(shù)據(jù)正常節(jié)點(diǎn)b、m和異常節(jié)點(diǎn)c、h的信號(hào)值波動(dòng)情況。探測(cè)器追蹤到的節(jié)點(diǎn)信號(hào)值波動(dòng)情況如下圖3所示。
圖3 數(shù)據(jù)節(jié)點(diǎn)信號(hào)值波動(dòng)情況
分別采用所提方法、利用殘差分析的網(wǎng)絡(luò)異常流量檢測(cè)方法(參考文獻(xiàn)[3]方法)和基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)節(jié)點(diǎn)異常數(shù)據(jù)檢測(cè)方法(參考文獻(xiàn)[4]方法)檢測(cè)兩種分布情況中的數(shù)據(jù)節(jié)點(diǎn)1、2、3、9、b、m、c、h的信號(hào)值波形情況,通過對(duì)比不同方法的檢測(cè)結(jié)果,判斷不同方法對(duì)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)的檢測(cè)性能。不同方法的檢測(cè)結(jié)果如下圖4所示。
圖4 不同方法的檢測(cè)結(jié)果
如上圖4可見,所提方法無論是面對(duì)分散型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),還是面對(duì)聚集型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),其檢測(cè)到的各數(shù)據(jù)節(jié)點(diǎn)信號(hào)值波動(dòng)情況均與實(shí)際信號(hào)值波動(dòng)情況吻合,說明所提方法能夠準(zhǔn)確檢測(cè)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn),即所提方法的檢測(cè)精度較高。因?yàn)樗岱椒ㄔ跈z測(cè)網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)前,優(yōu)先利用去噪算法優(yōu)化網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),這樣獲取的檢測(cè)結(jié)果可信度更高、精確度更高。而參考文獻(xiàn)[3]方法和參考文獻(xiàn)[4]方法無論是面對(duì)分散型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),還是面對(duì)聚集型網(wǎng)絡(luò)大數(shù)據(jù)節(jié)點(diǎn),二者檢測(cè)到的各數(shù)據(jù)節(jié)點(diǎn)信號(hào)值波動(dòng)情況均與實(shí)際信號(hào)值波動(dòng)情況存在較大差距,且檢測(cè)結(jié)果中存在正常數(shù)據(jù)節(jié)點(diǎn)錯(cuò)判為異常數(shù)據(jù)節(jié)點(diǎn)及異常數(shù)據(jù)節(jié)點(diǎn)錯(cuò)判為正常數(shù)據(jù)節(jié)點(diǎn)的問題,說明參考文獻(xiàn)[3]方法和參考文獻(xiàn)[4]方法的檢測(cè)精度較低。經(jīng)上述對(duì)比,可知所提方法對(duì)網(wǎng)絡(luò)大數(shù)據(jù)異常點(diǎn)的檢測(cè)精度明顯優(yōu)于其它兩種方法。
2)檢測(cè)效率
為了進(jìn)一步驗(yàn)證所提方法的實(shí)用性,分別采用所提方法、參考文獻(xiàn)[3]方法和參考文獻(xiàn)[4]方法檢測(cè)兩種分布情況中的異常節(jié)點(diǎn),并記錄不同方法的響應(yīng)時(shí)間。不同方法的響應(yīng)時(shí)間如下表1所示。
表1 不同方法的響應(yīng)時(shí)間
如上表1可見,采用所提方法檢測(cè)兩種分布情況中的異常節(jié)點(diǎn),其響應(yīng)時(shí)間均為超過1.0ms,說明所提方法的檢測(cè)效率較高。采用參考文獻(xiàn)[3]方法和參考文獻(xiàn)[4]方法檢測(cè)兩種分布情況中的異常節(jié)點(diǎn),二者的響應(yīng)時(shí)間均超過1.0ms,說明參考文獻(xiàn)[3]方法和參考文獻(xiàn)[4]方法的檢測(cè)效率較低。經(jīng)上述對(duì)比,進(jìn)一步驗(yàn)證了所提方法的實(shí)用性。
網(wǎng)絡(luò)的大規(guī)模應(yīng)用促使多種領(lǐng)域的經(jīng)濟(jì)發(fā)展邁入新的高度,在網(wǎng)絡(luò)給人類生活帶來便利的同時(shí),異常節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的負(fù)面影響越來越強(qiáng)。因此,提出盲均衡算法下網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)智能檢測(cè)方法。經(jīng)過實(shí)驗(yàn)分析得知,所提方法的檢測(cè)精度高,且響應(yīng)時(shí)間低于1ms,說明所提方法整體有效。如何在保證網(wǎng)絡(luò)大數(shù)據(jù)異常節(jié)點(diǎn)智能檢測(cè)性能的同時(shí),對(duì)異常節(jié)點(diǎn)檢測(cè)過程實(shí)時(shí)監(jiān)控,是研究人員下一步工作的重點(diǎn)。