蘭瑞樂,唐 忠,劉曉紅
(1.南寧師范大學網絡信息中心,廣西南寧 530001;2.廣西醫(yī)科大學人文社會科學學院,廣西南寧 530021;3.廣西醫(yī)科大學信息中心,廣西南寧 530021)
在網絡信道內,受無線信道帶寬內碼間干擾影響,易出現通信信道配置不均衡的問題[1],由此造成異常負載。為避免這一問題,需檢測網絡內大數據異常負載,降低網絡干擾,提升網絡通信輸出的準確性[2]。由此相關的大數據異常負載檢測方法成為網絡通信領域研究熱點[3]。
文獻[4]提出基于多窗口機制的高維大數據流連續(xù)異常點檢測方法。使用時間序列和滑動窗口過濾高維在線監(jiān)視連續(xù)數據流,向過濾后的候選異常數據中添加時間和類型標簽,并使用K-means聚類方法收集具有時間標簽的候選異常數據集,獲取一組潛在的異常點。近似機制用于搜索正常點聚類的屬性以消除異常錯誤判斷,局部密度機制用于對從第一次聚類檢測中獲得的異常點進行分類,并再次準確地排除可能的正常數據點。使用時間權重來計算多個滑動窗口的檢測結果,以獲得最終的異常數據點集;文獻[5]提出CPU-GPU異構數據分析系統上的負載均衡處理策略。使用流水線模型分解工作量,并基于流水線設計了一種負載均衡模型,以將工作量合理地分配給異構處理器,從而減少了系統的總執(zhí)行時間。
作為一種有效的統計方法,高階統計特征可有效反映信號的非高斯性與非線性特征,因此在數據信息統計領域中被普遍使用。為提升大數據異常負載檢測的性能,提出基于高階統計特征的大數據異常負載檢測方法,并利用相關軟件進行仿真測試,以此驗證該方法的應用性能。
大數據異常負載檢測的主要目的是判斷大數據負載狀態(tài)是否出現異常,大數據負載的狀態(tài)可通過特征集合表示。
利用一個特征矢量集合描述大數據負載的特征函數,將其定義為正常子空間。利用Se?S表示大數據負載處于正常狀態(tài),利用Non_Se表示Se?S的補集,其計算公式如下
Non_Se=S-Se
(1)
通常情況下,可用特征函數定義Se或Non_Se集合
(2)
(3)
在大數據負載異常檢測實際應用過程中,大數據負載分析過程通常會產生非高斯與非線性特征。利用高階統計特征描述大數據負載分析過程[6],能夠獲取偏離高斯特性的大數據負載信息特征,反映大數據負載信息的相位特性,為便于大數據負載信息產生過程的分析與理論,可以頻域信息取代時域信息,用于闡述大數據負載信息的其它特征[7]。三階累加矩的頻域類似于能量譜通過二階矩頻域表示,可通過雙譜表示,利用式(4)可描述雙譜定義:
W(f1,f2)=DD[c3(τ1,τ2)]
=E[X(f1)X(f2)X*(f1+f2)]
(4)
式(4)內,DD和X(f)分別表示雙傅里葉變換和時間序列x(t)的傅里葉變換,c3(τ1,τ2)表示雙能量譜。在點(W(f1,f2),f1,f2)的雙譜值檢測頻率f1和f2間的相關性,或檢測的頻率相關性受大數據負載產生系統內非線性特征影響[8],基于此,利用雙譜值檢測可檢測大數據負載信息的非線性特征。雙譜估計依賴式(5)描述的二階譜屬性,可實現無偏差估計:
var((f1,f2))∞P(f1)P(f2)P(f1+f2)
(5)
式(5)內,P(f)表示大數據負載信息在f處的能量??紤]大數據負載信息雙譜估計受雙頻直接影響,能量較高的雙頻處,估計值的偏差相對較高,相對的能量較低的雙頻處,估計值的偏差也較低,這表明雙譜估計結果存在明顯偏差。針對這一問題,可采用標準化處理過程對雙譜實施處理,降低檢測結果的偏差同大數據負載信息能量之間的相關性。以雙相關值描述標準化處理后的雙譜,其公式描述為
(6)
通過以上過程可獲取大數據負載中的高階統計特征,構建高階統計特征集合F。
利用人工免疫理論,以高階統計特征為基礎,構建大數據異常負載檢測器,圖1所示為檢測器生成過程。
以高階統計特征集合F對正常大數據負載樣本編碼生成“自我”集合。不成熟檢測器是通過使用大數據負載樣本編碼,隨機生成過程和高親和力檢測器克隆突變后代而形成的。陰性選擇算法用于將“自身”集中的元素與未成熟檢測器一一匹配,如果降低匹配閾值,則可以通過免疫耐受將其轉換為成熟檢測器。成熟檢測器在檢測足夠大數據負載樣本的條件下可升級為記憶檢測器,利用記憶檢測器可有效進行大數據異常負載檢測。
圖1 檢測器構建過程
2.3.1 高階統計特征編碼
二進制編碼與實值編碼是普遍使用的編碼形式,考慮實值編碼可有效降低編碼過程時間與空間復雜度,因此構建檢測器時選取實值編碼方式提升編碼效率。用F={f1,f2,…fN}表示高階統計特征集合,利用其待檢測的大數據負載信息樣本實施編碼處理。
利用y表示大數據負載信息樣本,對其實施反匯編處理,利用n-gram模型獲取指令序列片段,用L表示。統計F內各特征fi在L中出現的頻率,利用式(7)確定各特征的頻率TFf
(7)
式(7)內,Nf、K和k分別表示樣本y的匯編助記符序列內特征f出現的次數、樣本y獲取的全部特征集合和集合K內的特征。
將TFf作為編碼后實值特征向量V內該維度的取值,通過計算獲取樣本y編碼后的特征Vy=(v1,v2,…,vN)。
2.3.2 檢測器成熟過程分析
檢測器成熟過程中所利用的陰性選擇算法擴展了未成熟檢測器的開源,歸納其來源主要分為:更能代表異常狀態(tài)的大數據負載樣本信息提取的高階統計特征、用于擴大檢測器非我空間搜索范圍的隨機生成、通過遺傳優(yōu)良基因變異出更優(yōu)后代的優(yōu)秀成熟檢測器克隆變異。
逐一匹配“自我”集合內各元素與未成熟檢測器,將通過免疫耐受(同全部自我集合內元素均未匹配成功)的未成熟檢測器作為成熟檢測器。利用式(8)表示檢測器d同“自我”元素m間的歐氏距離Ed(d,m)
(8)
在Ed(d,m)≤rd的條件下,“自我”元素m在檢測器d覆蓋的檢測范圍內,表示此未成熟檢測器與正常大數據負載樣本相匹配,此時可丟棄未成熟檢測器。
2.3.3 檢測器優(yōu)化
在大數據異常負載檢測器優(yōu)化過程中引入克隆選擇算法,以獲取更準確的檢測結果。利用式(9)可確定給定檢測器d的親和度
q(d)=yq(d,G)
(9)
式(9)內,q(d,G)表示檢測器d同“非我”抗原集合G內全部元素親和度之和。
(10)
(11)
選取q(d)值較大,也就是親和度較高的檢測器實施克隆與變異處理。針對檢測器d,可利用式(12)就按其克隆數量
N(d)=θ×q(d)
(12)
式(12)內,θ表示克隆系數。
變異操作采用非均一變異法,具體操作過程為
用d=(d1,d2,…,dN)表示待變異檢測器,用[maxd,mind]表示檢測器的di取值,由此通過計算可獲取變異后的取值d′i
(13)
其中:t和δ分別表示當前凈化的代數和隨機變量,t值越大Δ(t,x)越接近0,δ取值為[0,1]。Δ(t,x)表示[0,x]內符合非均勻分布的一個隨機數,其計算公式如下
(14)
式(14)內,T、h和b分別表示最大凈化代數、[0,1]內隨機分布的實數,和隨機數對于凈化代數的依賴程度。
用Th表示成熟度閾值,對比檢測器親和度與Th,在前者大于后者的條件下,檢測器可不參與克隆與變異過程。
同時在檢測器構建過程中引入記憶細胞機制,在整體生命周期內,如果檢測器能夠匹配足夠的抗原,則可轉換為記憶檢測器,相反則被淘汰。用Ci表示記憶細胞集合的容量上限值,利用最近最少原更替記憶細胞,將被替換的記憶細胞轉換為新生成熟檢測器。最終利用記憶檢測器實現大數據異常負載檢測。
為測試本文提出的基于高階統計特征的大數據異常負載檢測方法,以某區(qū)域光纖網絡為測試對象,進行仿真測試并分析測試結果。采用Matlab實施大數據負載檢測方法設計,利用Spss1.6統計軟件統計并分析大數據異常負載特征。仿真過程中相關參數設定如表1所示。
表1 仿真參數設定
基于以上設定的仿真環(huán)境與相關參數,進行研究對象大數據異常負載檢。圖2所示為待檢測的大數據負載樣本序列。
圖2 大數據負載樣本序列
以圖2中列出的樣本數據為基礎,進行異常負載檢測,采用所提方法提取異常負載的統計特征,結構譜分析方法,獲取研究對象大數據異常負載檢測輸出時序波形,結果如圖3所示。
圖3 異常負載檢測輸出時序波形
分析圖3得到,采用所提方法進行研究對象大數據異常負載檢測,輸出樣本序列具有較高的特征分辨能力,可有效抑制大數據負載樣本序列內的重疊干擾,提升研究對象內大數據傳輸的準確性。
以文獻[4]方法、文獻[5]方法作為實驗對比方法,利用仿真軟件對三種三不同檢測方法檢測性能進行仿真,對比不同檢測方法的準確率、耗費流量等方面,結果如下。
3.2.1 檢測結果準確率分析
為對比不同檢測方法的準確率,采用所提方法與兩種對比方法實施異常負載檢測,所得檢測結果的準確率對比結果與研究對象輸出誤碼率對比結果分別如表2和表3所示。
表2 檢測結果準確率對比
表3 輸出誤碼率對比
分析表2和表3得到的仿真結果可得,在研究對象內干擾信噪比逐漸提升的條件下,不同檢測方法干擾強度降低,即不同方法對大數據異常負載檢測結果的準確性呈整體上升狀態(tài)。當研究對象內干擾信噪比達到30時,所提方法檢測結果的準確率達到99.9%,顯著高于對比方法,且所提方法的輸出誤碼率與對比方法相比也顯著下降,由此可說明所提方法具有較高的檢測精度。
3.2.2 耗費流量分析
對比所提方法與對比方法在進行大數據異常負載檢測過程中,約定時間內,不同方法通過時間標簽發(fā)送信號的掉線負載情況,仿真結果如圖4所示。
圖4 不同方法耗費流量對比
分析圖4得到,不同檢測方法檢測過程中,檢測流量均表現出隨著待檢測負載提升而提升的狀態(tài)。對比之下可得,所提方法耗費流量顯著低于對比方法。
3.2.3 性能對比
基于仿真結果,對所提方法與對比方法的優(yōu)勢與劣勢進行定性分析,結果如表4所示。
分析表4可得,相較于其它兩種對比方法,所提方法能夠獲取偏離高斯特性的大數據負載信息特征,反映大數據負載信息的相位特性,可檢測并度量大數據負載時序信息的非線性特征,以此提升最終檢測結果的準確性。
表4 定性分析結果
本文研究基于高階統計特征的大數據異常負載檢測方法,提取大數據負載信息中的高階統計特征,以此為基礎,構建大數據異常負載檢測器,利用記憶檢測器實現大數據異常負載檢測。仿真結果顯示該方法能夠準確檢測大數據異常負載,表明該方法具有一定的應用性。