諶裕勇,陸興華
(廣東工業(yè)大學(xué)華立學(xué)院,廣東 廣州 511325)
計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,使得各行業(yè)數(shù)據(jù)均呈爆炸性增長(zhǎng),龐大數(shù)據(jù)量已成為互聯(lián)網(wǎng)重要研究目標(biāo)之一[1]。數(shù)據(jù)抽取可實(shí)現(xiàn)海量數(shù)據(jù)內(nèi)高效獲取目標(biāo)信息與知識(shí),數(shù)據(jù)規(guī)模大、多樣化是大數(shù)據(jù)的基本特征。海量數(shù)據(jù)內(nèi)通常會(huì)存在少量數(shù)據(jù)對(duì)象與正常數(shù)據(jù)期望行為不同,通常將其稱(chēng)為大數(shù)據(jù)的異常值[2],恰當(dāng)處理此類(lèi)異常數(shù)據(jù)是維護(hù)大數(shù)據(jù)正常應(yīng)用的必要途徑。在此背景下,有許多專(zhuān)家對(duì)此問(wèn)題進(jìn)行研究,得到了一些較好成果。
文獻(xiàn)[3]按照異常網(wǎng)絡(luò)數(shù)據(jù)的混合分類(lèi)屬性完成大數(shù)據(jù)之間的相似度分析,獲得數(shù)值屬性特征與分類(lèi)屬性特征。運(yùn)用聯(lián)合關(guān)聯(lián)規(guī)則對(duì)異常網(wǎng)絡(luò)數(shù)據(jù)完成模糊融合,建立異常網(wǎng)絡(luò)數(shù)據(jù)分類(lèi)模糊集,在模糊數(shù)據(jù)集中完成數(shù)據(jù)混合加權(quán)與自適應(yīng)分塊匹配,提取異常數(shù)據(jù)弱關(guān)聯(lián)化特征量,將提取的特征量輸入到模糊神經(jīng)網(wǎng)絡(luò)分類(lèi)器中實(shí)行數(shù)據(jù)分類(lèi)識(shí)別,達(dá)到異常大數(shù)據(jù)目標(biāo)挖掘。但由于大數(shù)據(jù)具有較高隨機(jī)性,導(dǎo)致該方法的應(yīng)用準(zhǔn)確性不高。文獻(xiàn)[4]提出大數(shù)據(jù)集合中冗余特征排除的聚類(lèi)算法。利用一致性聚類(lèi)算法抽取各種子集樣本,完成大數(shù)據(jù)冗余特征排除,并得到排除冗余特征的大數(shù)據(jù)集聚類(lèi)結(jié)果。采用特征聚類(lèi)和隨機(jī)子空間的識(shí)別算法,聚類(lèi)大數(shù)據(jù)集合冗余特征,實(shí)現(xiàn)大數(shù)據(jù)異常的抽取。但該方法存在計(jì)算開(kāi)銷(xiāo)大及復(fù)雜度高等問(wèn)題。
針對(duì)以上傳統(tǒng)方法存在的問(wèn)題,提出大數(shù)據(jù)異常抽取算法。對(duì)大數(shù)據(jù)流量分流處理,利用預(yù)處理端與儲(chǔ)存端監(jiān)測(cè)異常數(shù)據(jù)風(fēng)險(xiǎn),有效降低大數(shù)據(jù)異常抽取的耗時(shí)?;诖耍瑯?gòu)建不相關(guān)性檢驗(yàn)?zāi)P?,引入模糊遺傳方法算出異常數(shù)據(jù)流匯聚于多層空間內(nèi)的模糊聚類(lèi)中心,耦合關(guān)聯(lián)訓(xùn)練集與所屬類(lèi)型,大大增加大數(shù)據(jù)異常抽取的精度,最終實(shí)現(xiàn)高精度大數(shù)據(jù)異常抽取。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法能夠低耗時(shí)、高精度的完成大數(shù)據(jù)的異常抽取。
在完成大數(shù)據(jù)異常抽取過(guò)程中,大數(shù)據(jù)全局風(fēng)險(xiǎn)趨勢(shì)分析是必要的[5],可有效估計(jì)大數(shù)據(jù)異常概率。建立基于Hadoop的大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)監(jiān)測(cè)平臺(tái),預(yù)判斷大數(shù)據(jù)是否存在異常問(wèn)題,判別大數(shù)據(jù)安全等級(jí),為不相關(guān)數(shù)據(jù)分析提供借鑒。
大數(shù)據(jù)具有體量龐大、類(lèi)別復(fù)雜等特征,所以平臺(tái)在Hadoop操作原理前提下進(jìn)行規(guī)劃,采用Map/Reduce分布式形態(tài)對(duì)大數(shù)據(jù)實(shí)時(shí)操作,過(guò)程如圖1所示。圖中將大數(shù)據(jù)內(nèi)的異常數(shù)據(jù)監(jiān)測(cè)任務(wù)劃分成多類(lèi)子任務(wù),各類(lèi)子任務(wù)依次經(jīng)過(guò)一個(gè)節(jié)點(diǎn),最終將結(jié)果傳輸至數(shù)據(jù)庫(kù)管理節(jié)點(diǎn)內(nèi),主管理節(jié)點(diǎn)融合所有結(jié)果后,所得數(shù)據(jù)即為異常風(fēng)險(xiǎn)數(shù)據(jù)監(jiān)測(cè)成果。
圖1 Hadoop操作示意圖
圖1中大數(shù)據(jù)平臺(tái)通過(guò)計(jì)算端與操控端構(gòu)成,利用接口1將其相連到同一個(gè)路徑,增強(qiáng)大數(shù)據(jù)傳輸適用性。接口2即為平臺(tái)作為操控端輸入網(wǎng)絡(luò)參變量重置標(biāo)準(zhǔn),SDN控制器對(duì)大數(shù)據(jù)的控制就是將參變量重置后的大數(shù)據(jù)流進(jìn)行分流,將大數(shù)據(jù)依次傳輸至監(jiān)測(cè)板塊,使得監(jiān)測(cè)板塊能實(shí)時(shí)精準(zhǔn)的異常數(shù)據(jù)風(fēng)險(xiǎn)趨勢(shì)監(jiān)測(cè)。監(jiān)測(cè)板塊內(nèi)包含預(yù)處理端與儲(chǔ)存端,并設(shè)定預(yù)警電路與緩沖電路,增強(qiáng)系統(tǒng)對(duì)風(fēng)險(xiǎn)趨勢(shì)預(yù)測(cè)可靠性。本文運(yùn)用最小二乘向量機(jī)監(jiān)測(cè)大數(shù)據(jù)平臺(tái)異常風(fēng)險(xiǎn)[6-7],設(shè)定大數(shù)據(jù)平臺(tái)內(nèi)的異常數(shù)據(jù)監(jiān)測(cè)樣本集合為
D={(xk,yk)|k=1,2,…,N}
(1)
徑向基函數(shù)為核函數(shù)ψ(·,·),運(yùn)算過(guò)程為
(2)
其中,σ代表徑向基函數(shù)寬度參變量。
最小二乘支持向量機(jī)的最佳決策函數(shù)運(yùn)算方程是
(3)
其中,γ表示內(nèi)正則化參變量。
在式(3)內(nèi)引入拉格朗日乘子方法,得到:
L(w,b,e,a)=φ(w,b,e)=akyk[wTφ(xk)+b]-1+ek
(4)
其中,ak∈R表示拉格朗日乘子。
按照Mercer定理可知Ω=ZZT,即:
Ωkl=yky1φT(xl)=yky1Ψ(xk,xl)
(5)
將最小二乘支持向量機(jī)最佳決策函數(shù)轉(zhuǎn)換為式(12),實(shí)現(xiàn)大數(shù)據(jù)風(fēng)險(xiǎn)趨勢(shì)計(jì)算全過(guò)程。
(6)
通過(guò)上述過(guò)程計(jì)算出大數(shù)據(jù)具有異常風(fēng)險(xiǎn)狀態(tài)后,為獲得更加準(zhǔn)確的大數(shù)據(jù)不相關(guān)數(shù)據(jù)特征,代入Fisher函數(shù)等價(jià)模式[8],構(gòu)建不相關(guān)性檢驗(yàn)?zāi)P?。若樣本?lèi)間散布矩陣是Sb,類(lèi)內(nèi)散布矩陣是Sw,那么Fisher函數(shù)表達(dá)式為
(7)
不相關(guān)性檢驗(yàn)?zāi)P褪菫榱颂綄げ幌嚓P(guān)檢驗(yàn)向量而提出的,其目標(biāo)是找出符合Si共軛正交條件,同時(shí)讓Fisher函數(shù)完成極值最佳檢驗(yàn)向量φ1,φ2,…,φd。在真實(shí)操作中,第一個(gè)檢驗(yàn)向量是Fisher最優(yōu)檢驗(yàn)矢量。若現(xiàn)階段k個(gè)檢驗(yàn)向量φ1,…,φk被求出后,則第k+1個(gè)不相關(guān)性檢驗(yàn)向量φk+1可由式(8)進(jìn)行求解
(8)
以式(8)為前提,可明確第k+1個(gè)不相關(guān)性檢驗(yàn)向量是以下廣義特征方程最大特征值相對(duì)的特征矢量,記作
PSbφ=λSwφ
(9)
式中
(10)
(11)
I=diag{1,1,…,1}
(12)
在不相關(guān)性檢驗(yàn)向量的運(yùn)算表達(dá)式中可知,各個(gè)檢驗(yàn)向量相對(duì)的p的運(yùn)算均牽涉數(shù)量較多的矩陣計(jì)算,中間還包含較多矩陣逆運(yùn)算。在大數(shù)據(jù)不相關(guān)性檢驗(yàn)向量數(shù)量較多時(shí)[9],求解全部檢驗(yàn)向量的計(jì)算代價(jià)很高。下面改進(jìn)不相關(guān)性檢驗(yàn)?zāi)P停员憬鉀Q計(jì)算代價(jià)高的問(wèn)題。
式(13)是Fisher函數(shù)表達(dá)式的等價(jià)模式,記作
(13)
按照Fisher檢驗(yàn)分析定理,應(yīng)當(dāng)計(jì)算出讓J′(φ)得到極值的φ,通常把J′(φ)模式的極值問(wèn)題和以下廣義特征方程問(wèn)題進(jìn)行統(tǒng)一解決
Sbφ=λStφ
(14)
利用式(14)來(lái)描述Fisher函數(shù),那么不相關(guān)性檢驗(yàn)向量集問(wèn)題模型就變換成以下問(wèn)題模型:首個(gè)檢驗(yàn)向量是式(14)最大特征值相對(duì)的特征矢量,第r+1個(gè)不相關(guān)檢驗(yàn)向量通過(guò)式(15)求解,呈現(xiàn)大數(shù)據(jù)中數(shù)據(jù)實(shí)時(shí)狀態(tài)
(15)
不相關(guān)性檢驗(yàn)?zāi)P蜑榇髷?shù)據(jù)異常抽取提供精準(zhǔn)的數(shù)據(jù)特征依據(jù),下面采用模糊遺傳算法實(shí)現(xiàn)大數(shù)據(jù)異常抽取目標(biāo),為大數(shù)據(jù)安全及數(shù)據(jù)平穩(wěn)傳輸發(fā)揮積極作用。
傳統(tǒng)方法使用遺傳算法對(duì)大數(shù)據(jù)異常抽取的具體操作是設(shè)計(jì)一個(gè)種群適應(yīng)度函數(shù)及各種遺傳操作,包含交叉變異、收斂條件等[10]。
如果在c個(gè)類(lèi)型相對(duì)的樣本類(lèi)型ωm是已知值,假設(shè)被求解的參數(shù)是Q,Xi是參數(shù)Q空間內(nèi)的解,針對(duì)各個(gè)Xi相對(duì)的函數(shù),fi為Xi的適應(yīng)度函數(shù),所獲得的最佳解即為讓xm和函數(shù)值fm均是最大或最小的值。
遺傳算法內(nèi)的染色體被劃分成三個(gè)子模塊,分別是連接順序和網(wǎng)絡(luò)節(jié)點(diǎn)挑選、副本關(guān)聯(lián)挑選及網(wǎng)絡(luò)半連接控制。使用勻稱(chēng)隨機(jī)方法生成二個(gè)交叉點(diǎn),然后把二個(gè)交叉點(diǎn)交叉過(guò)程中涵蓋的區(qū)域設(shè)定成匹配范圍,將其記作
(16)
其中,αt(i)是大數(shù)據(jù)內(nèi)異常數(shù)據(jù)的監(jiān)測(cè)節(jié)點(diǎn)信道誤差,bj(ot+1)代表平均值是0,方差是1的復(fù)高斯過(guò)程。
設(shè)定異常數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)融合濾波器系統(tǒng)函數(shù)是
(17)
其中,Sd(f)表示多普勒功率譜。
使用遺傳算法應(yīng)用到異常數(shù)據(jù)特征迭代過(guò)程中,會(huì)產(chǎn)生一個(gè)種群,此時(shí)適應(yīng)度強(qiáng)、遺傳性質(zhì)較優(yōu)的染色體變成算法的首要挑選目標(biāo)[11]。本文設(shè)計(jì)一種模糊遺傳方式完成異常數(shù)據(jù)特征選擇,遺傳迭代查詢散布解析式為
pri(t)=p(t)*hi(t)+npi(t)
(18)
其中,hi(t)是p(t)在大數(shù)據(jù)異常特征抽取時(shí)的變異矢量。算出大數(shù)據(jù)內(nèi)異常數(shù)據(jù)特征響應(yīng)函數(shù)為
(19)
(20)
使用模糊遺傳方法算出異常數(shù)據(jù)流匯聚于多層空間內(nèi)的模糊聚類(lèi)中心,那么j為i的激活因子,得到
(21)
把訓(xùn)練集和其所屬類(lèi)型實(shí)時(shí)關(guān)聯(lián),獲得異常數(shù)據(jù)屬性集分類(lèi)的信息增益解析式
(22)
通過(guò)式(22)可知,使用模糊遺傳算法完成大數(shù)據(jù)異常抽取時(shí),能夠把隨機(jī)變異轉(zhuǎn)換為換位控制,兩個(gè)等位基因相互交換,數(shù)據(jù)染色體交叉之后無(wú)需修復(fù)。副本選擇基因與半連接基因全部運(yùn)用勻稱(chēng)雜交方法,增強(qiáng)異常數(shù)據(jù)抽取性能。
異常數(shù)據(jù)特征對(duì)最小二乘支持向量機(jī)性能影響較多,對(duì)其余特征影響較少,采取歸一化手段清除此類(lèi)不良影響[12],具體過(guò)程為
(23)
其中,n代表訓(xùn)練樣本數(shù)量,xstd代表標(biāo)準(zhǔn)差。
使用模糊數(shù)學(xué)隸屬函數(shù)值方法抽取大數(shù)據(jù)內(nèi)的異常數(shù)據(jù),隸屬函數(shù)值運(yùn)算公式為
R(Xi)=(Xi-Xmin)/(Xmax-Xmin)
(24)
其中,Xi是指標(biāo)檢測(cè)值,Xmax、Xmin依次是數(shù)據(jù)異常某項(xiàng)指標(biāo)的最大值與最小值。
利用以上過(guò)程即可完成準(zhǔn)確的大數(shù)據(jù)異常抽取,為數(shù)據(jù)流的正常使用提供有效解決途徑。
為檢驗(yàn)所提方法性能,在Cslogs大數(shù)據(jù)集上對(duì)所提方法與文獻(xiàn)[3]、文獻(xiàn)[4]算法進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)在Windows 10環(huán)境中進(jìn)行,計(jì)算機(jī)CPU是Pentium(R)DualCore T4300@2.10GHz,內(nèi)存2.0GB,硬盤(pán)是320GB。
在輸入數(shù)據(jù)量固定時(shí),按照最小支持度改變量,對(duì)比三種方法性能。關(guān)于大數(shù)據(jù)異常抽取算法,支持度適應(yīng)能力是一個(gè)關(guān)鍵指標(biāo)。圖2是所提算法與文獻(xiàn)算法的大數(shù)據(jù)異常抽取運(yùn)行效率對(duì)比。
圖2 三種方法大數(shù)據(jù)異常抽取時(shí)間對(duì)比
從圖2中可知,最小支持度從0.03減少至0.01,以抽取效率角度而言,所提方法在大數(shù)據(jù)異常抽取時(shí)的消耗時(shí)長(zhǎng)遠(yuǎn)低于文獻(xiàn)[3]及文獻(xiàn)[4]方法,原因在于所提方法利用不相關(guān)性檢驗(yàn)?zāi)P?,很好地展現(xiàn)數(shù)據(jù)真實(shí)狀態(tài),有效提高大數(shù)據(jù)異常抽取速率。
為驗(yàn)證所提算法的大數(shù)據(jù)異常抽取準(zhǔn)確性,隨機(jī)選取大數(shù)據(jù)集合(來(lái)源:caesar0301/awesome-public-datasets·GitHub),對(duì)大數(shù)據(jù)訓(xùn)練集進(jìn)行可視化區(qū)域劃分,利用思邁特軟件對(duì)大數(shù)據(jù)進(jìn)行可視化處理,得到異常數(shù)據(jù)較多區(qū)域,以60cm×70cm網(wǎng)格為實(shí)驗(yàn)區(qū)域,大數(shù)據(jù)中的異常數(shù)據(jù)用星狀表示,具體實(shí)驗(yàn)結(jié)果如圖3。
圖3 不同算法的大數(shù)據(jù)異常抽取對(duì)比測(cè)試
由圖3的實(shí)驗(yàn)結(jié)果可知,在大數(shù)據(jù)的實(shí)驗(yàn)測(cè)試區(qū)域內(nèi),文獻(xiàn)[3]算法和文獻(xiàn)[4]算法只能抽取出較為密集的異常數(shù)據(jù)區(qū)域,抽取結(jié)果與實(shí)際情況相差較大,說(shuō)明傳統(tǒng)算法的異常數(shù)據(jù)抽取誤差偏大。相比之下,所提方法的大數(shù)據(jù)異常抽取結(jié)果與實(shí)際情況基本一致,進(jìn)一步驗(yàn)證了所提算法的應(yīng)用有效性。
1)為提升大數(shù)據(jù)異常抽取時(shí)效性與準(zhǔn)確性,引入不相關(guān)性檢驗(yàn),設(shè)計(jì)新的大數(shù)據(jù)異常抽取算法。
2)實(shí)驗(yàn)結(jié)果顯示:在最小支持度從0.03減少至0.01過(guò)程中,所提方法的耗時(shí)由7s增加到了9s,與傳統(tǒng)方法相比耗時(shí)有明顯下降。且所提方法的大數(shù)據(jù)異常抽取結(jié)果與實(shí)際情況基本一致。以上實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法能夠高速率、高精度的完成大數(shù)據(jù)異常抽取,應(yīng)用魯棒性強(qiáng),有效增強(qiáng)了大數(shù)據(jù)異常辨識(shí)能力。
3)但在本次研究中,對(duì)大數(shù)據(jù)異常風(fēng)險(xiǎn)產(chǎn)生原因研究不夠具體,不能從根源減少問(wèn)題的發(fā)生,下一步會(huì)著重在此方面進(jìn)行探究。