張德宇,羅玉梅
(貴州師范大學(xué)國(guó)際教育學(xué)院,貴州 貴陽(yáng) 550001)
大數(shù)據(jù)具有多屬性特征,對(duì)網(wǎng)絡(luò)安全的防護(hù)起到重要作用,而對(duì)于其混合屬性特征的識(shí)別技術(shù)仍處于未開(kāi)發(fā)階段,因此對(duì)網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征進(jìn)行識(shí)別是極其重要的。網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征的準(zhǔn)確識(shí)別不僅可以觀測(cè)目標(biāo)網(wǎng)絡(luò)的整體運(yùn)行情況,同時(shí)還能夠針對(duì)特定數(shù)據(jù)屬性進(jìn)行高精度監(jiān)管,做到既不影響網(wǎng)絡(luò)運(yùn)行情況的同時(shí),還能夠?qū)W(wǎng)絡(luò)惡意攻擊行為發(fā)出預(yù)警。然而,隨著網(wǎng)絡(luò)惡意攻擊手段的不斷更新,現(xiàn)有的混合屬性特征檢測(cè)方法在當(dāng)前較為復(fù)雜的網(wǎng)絡(luò)環(huán)境下都存在著難以突破和逾越的技術(shù)瓶頸。
文獻(xiàn)[1]提出基于特征選擇的網(wǎng)絡(luò)入侵檢測(cè)方法。該方法采用特征選擇算法生成具有顯著差異的多個(gè)屬性特征子集,并對(duì)不同的屬性特征子集進(jìn)行統(tǒng)一處理,利用相關(guān)分類(lèi)算法對(duì)統(tǒng)一化處理后的屬性特征進(jìn)行學(xué)習(xí)建模,完成混合屬性特征檢測(cè)。但該方法的特征選擇操作復(fù)雜,并且會(huì)占用大量的存儲(chǔ)空間,導(dǎo)致檢測(cè)大數(shù)據(jù)時(shí)效率降低。文獻(xiàn)[2]提出基于特征和分類(lèi)器參數(shù)組合優(yōu)化的網(wǎng)絡(luò)入侵檢測(cè)方法。該方法分開(kāi)考慮了屬性特征、分類(lèi)器參數(shù)對(duì)混合屬性特征檢測(cè)結(jié)果的影響,組建相應(yīng)的組合優(yōu)化模型,利用生物地理學(xué)優(yōu)化算法求解組合優(yōu)化模型最優(yōu)解,完成混合屬性特征檢測(cè)。但該方法的檢測(cè)過(guò)程存在不穩(wěn)定因素,導(dǎo)致檢測(cè)結(jié)果有不小的誤差。文獻(xiàn)[3]提出基于深度信念網(wǎng)絡(luò)和線性單分類(lèi)SVM的混合屬性特征檢測(cè)方法。該方法利用深度信念網(wǎng)絡(luò)先進(jìn)行網(wǎng)絡(luò)大數(shù)據(jù)混合特征提取,實(shí)現(xiàn)屬性降維;將降維處理后的屬性特征輸入到單分類(lèi)支持向量機(jī)中,實(shí)現(xiàn)混合屬性特征的檢測(cè)。該方法在處理屬性特征時(shí)經(jīng)常含有大量的冗余特征,使大數(shù)據(jù)屬性特征的提取消耗大量資源,導(dǎo)致使用性差,影響檢測(cè)效果。
上述方法還普遍存在檢測(cè)速度慢的問(wèn)題,該現(xiàn)象會(huì)造成混合數(shù)據(jù)特征漏檢、誤檢情況的發(fā)生,進(jìn)而影響目標(biāo)網(wǎng)絡(luò)數(shù)據(jù)安全。為此,提出一種基于粗糙集的網(wǎng)絡(luò)大數(shù)據(jù)混合特征檢測(cè)方法。利用粗糙集理論對(duì)屬性特征和冗余屬性特征進(jìn)行簡(jiǎn)約,通過(guò)分類(lèi)裝置檢測(cè)出冗余的屬性特征信息,并進(jìn)行刪除,從而提高了大數(shù)據(jù)混合屬性特征檢測(cè)時(shí)的效率和精準(zhǔn)度。
粗糙集能在保證分類(lèi)性能不變的情況下對(duì)大數(shù)據(jù)屬性特征進(jìn)行約簡(jiǎn),建立于信息系統(tǒng)的基礎(chǔ)上,采用粗糙集理論對(duì)大數(shù)據(jù)混合屬性進(jìn)行分析。
首先構(gòu)建一個(gè)四元組,并在四元組中任意選取一個(gè)鄰域信息,通過(guò)鄰域信息的距離系數(shù)分析,獲取信息的長(zhǎng)度函數(shù)。為有效實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征的約簡(jiǎn),本文將通過(guò)結(jié)合粗糙集理論利用長(zhǎng)度函數(shù)獲取數(shù)據(jù)相似值,最后完成鄰域熵的求解。
1)四元組I=(U,A,V,f)是一個(gè)信息系統(tǒng),其中U是有限對(duì)象的集合,稱(chēng)之為論域;A是大數(shù)據(jù)屬性集合,V∈Va,Va是屬性a的值域:f是函數(shù)信息,它為所有數(shù)據(jù)屬性都給予唯一值,即對(duì)任意u∈U和a∈A有f(u,a)∈Va。
在傳統(tǒng)的粗糙集[4]中,擁有相同特征屬性的對(duì)象應(yīng)當(dāng)歸入一個(gè)集合中。如果價(jià)值相同的特征都有同樣的標(biāo)簽,則可認(rèn)為特征是一致的,這是因?yàn)樵谶B續(xù)性特征中,同等價(jià)值的特征對(duì)象出現(xiàn)的幾率較小。因此,相關(guān)研究學(xué)者用鄰域來(lái)代替等價(jià)特征。
2)擬定一個(gè)鄰域信息SU,其鄰域可表示為
δSU(xi)={xj|xj∈U,d(xi,xj)≤δ}
(1)
其中,d(xi,xj)表示xi到xj的距離的距離,δ是鄰域的大小。
其中,距離的獲取公式為
(2)
其中,k=1,2.…,N。當(dāng)P=1時(shí),該長(zhǎng)度為曼哈頓長(zhǎng)度[5];當(dāng)P=2時(shí),該長(zhǎng)度為歐幾里德長(zhǎng)度;當(dāng)P=∞時(shí),該長(zhǎng)度為契比雪夫長(zhǎng)度[6]。
根據(jù)大數(shù)據(jù)混合屬性數(shù)據(jù)集的特點(diǎn),提出新的鄰域信息測(cè)度來(lái)檢測(cè)大數(shù)據(jù)混合屬性特征。由于大數(shù)據(jù)混合屬性信息的決策屬性是按照排列形式出現(xiàn)的,為了衡量排列間的距離長(zhǎng)度,距離需要滿足以下兩個(gè)條件
a)d(xi,xj)≠0;
b)δS(xi)>d(xi,xj)。
為了把兩個(gè)排列之間的長(zhǎng)度融入到鄰域粗糙集的規(guī)劃框中,針對(duì)標(biāo)簽混合屬性數(shù)據(jù)集的決策屬性,需根據(jù)距離擬定新的長(zhǎng)度函數(shù),該長(zhǎng)度函數(shù)可以測(cè)量?jī)蓚€(gè)排列之間的相似度[7]。
3)設(shè)π和σ是u個(gè)標(biāo)簽的兩個(gè)排列,那么這兩個(gè)排列之間的相似度可用式(3)表示
(3)
經(jīng)前文描述可知,兩數(shù)據(jù)排列間的長(zhǎng)度距離函數(shù)可表示為相似度判斷函數(shù)。式(3)中,該距離可以滿足上述兩條性質(zhì),取值為[0,1]時(shí),d(π,σ)=0,則可推出π=σ;若d(π,σ)=1,則表示π和σ之間是互逆的。
因?yàn)闃?biāo)簽排列混合屬性數(shù)據(jù)集中存在不同種類(lèi)的屬性特征,在鄰域粗糙集中,也要同時(shí)使用兩種不同類(lèi)型的距離測(cè)度,即對(duì)條件屬性使用歐幾里德距離[8],對(duì)決策屬性使用上述(3)中的長(zhǎng)度函數(shù)。依據(jù)兩種不同類(lèi)別的距離測(cè)度獲得的樣本xi的鄰域分別標(biāo)記為δ1(xi)和δ2(xi),相應(yīng)的其閾值[9]也分別標(biāo)記為δ1和δ2,則
(4)
(5)
其中,πi代表樣本xi的標(biāo)簽排列,l為排列πi的長(zhǎng)度。
4)設(shè)N是一個(gè)決策屬性,則其鄰域熵可用公式表示為
a)若B?C,則
(6)
b)若B=D,則
(7)
結(jié)合粗糙集理論和鄰域熵的求解,完成了網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征的約簡(jiǎn)。
對(duì)約簡(jiǎn)后的網(wǎng)絡(luò)大數(shù)據(jù)混合屬性約簡(jiǎn)特征集進(jìn)行檢測(cè)。傳統(tǒng)的統(tǒng)計(jì)學(xué)方法都是以大數(shù)據(jù)為基礎(chǔ)進(jìn)行討論,要求數(shù)據(jù)樣本的數(shù)量足夠充足。然而在實(shí)際使用中,因?yàn)楦鞣矫娴牟欢ㄐ砸蛩兀瑱z測(cè)結(jié)果往往很難得到準(zhǔn)確保證。
基于粗糙集理論提出的支持向量機(jī)充分減少了算法設(shè)計(jì)的隨機(jī)性,并且解決了上述小樣本實(shí)現(xiàn)高效分類(lèi)的問(wèn)題。支持向量機(jī)分類(lèi)的基本思想是通過(guò)函數(shù)轉(zhuǎn)換的方法,將大數(shù)據(jù)混合屬性的分類(lèi)問(wèn)題變換為線性可分問(wèn)題,然后在新的空間中求解最佳分類(lèi)面。
支持向量機(jī)最初用于對(duì)數(shù)據(jù)進(jìn)行二值分類(lèi)處理,對(duì)線性可分問(wèn)題,擬定訓(xùn)練樣本{(x1,y1),(x2,y2),…,(xN,yN)},期望輸出Y∈{-1,1},分別表示不同類(lèi)別標(biāo)識(shí)[12]。用于分類(lèi)的大數(shù)據(jù)混合屬性最優(yōu)超平面方程為
f(x)=ωx+b
(8)
其中,ω為權(quán)重向量,x為輸入向量,b為誤差值。支持向量機(jī)的目的是為了尋找一個(gè)劃分邊緣最大的超平面,使不同類(lèi)別的數(shù)據(jù)屬性最大程度地分離,與最佳超平面距離較近的數(shù)據(jù)屬性樣本,將其稱(chēng)作支持向量。對(duì)于任意一確定的最佳分類(lèi)超平面,所有數(shù)據(jù)混合屬性樣本都滿足
yif(x)≥1,i=1,2,…,N
(9)
大數(shù)據(jù)混合屬性非線性可分模式的分類(lèi)問(wèn)題,會(huì)存在一些不滿足式(9)的約束條件,影響分類(lèi)結(jié)果。因此需要適當(dāng)?shù)姆艑捈s束,將其變更為
yif(x)+ξi≥1,i=1,2,…,N
(10)
式中,加入了松弛變量ξi,i=1,2,…,它用于度量一個(gè)數(shù)據(jù)特征點(diǎn)對(duì)線性可分理想條件的誤差程度。當(dāng)0≤ξ≤1時(shí),特征點(diǎn)落入分離區(qū)域的內(nèi)部,并且在分類(lèi)平面正確的方向;當(dāng)滿足ξ>1時(shí),特征點(diǎn)進(jìn)入分類(lèi)器超平面錯(cuò)誤的方向;當(dāng)滿足ξ=0時(shí),出現(xiàn)特征可分問(wèn)題。
針對(duì)非特征問(wèn)題,尋找ω和b的最優(yōu)值,使其在式(10)的約束下,將ω和ξi的目標(biāo)函數(shù)關(guān)系最小化,即
(11)
其中,Ck為錯(cuò)誤系數(shù)。
使用Lagrange法求解上述最優(yōu)化問(wèn)題,上述方程可變更為下列問(wèn)題
(12)
約束條件
0≤ai≤Ck,i=1,2,…,N
(13)
其中,e為單位矩陣,Q為半正定矩陣。采用的RBF函數(shù)求解約簡(jiǎn)特征集檢測(cè)結(jié)果為
(13)
綜上所述,采用粗糙集理論對(duì)網(wǎng)絡(luò)大數(shù)據(jù)混合屬性進(jìn)行分析,約簡(jiǎn)屬性特征。利用支持向量機(jī),對(duì)約簡(jiǎn)后的屬性特征集進(jìn)行檢測(cè),實(shí)現(xiàn)粗糙集下網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征的檢測(cè)。
為了驗(yàn)證所提粗糙集下網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)方法的有效性,進(jìn)行了如下仿真。
仿真環(huán)境為Intel Xeon500雙CPU,512M內(nèi)存,80G硬盤(pán),WindowsNT操作系統(tǒng)的服務(wù)器,所有仿真均在Intel Xeon500雙CPU上進(jìn)行。
為了驗(yàn)證提出的粗糙集下網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)方法的準(zhǔn)確性和時(shí)間性能,實(shí)驗(yàn)選取基于LFR基準(zhǔn)程序生成的網(wǎng)絡(luò)大數(shù)據(jù)集,其詳細(xì)內(nèi)容如表1所示。
表1 LFR基準(zhǔn)程序生成的網(wǎng)絡(luò)大數(shù)據(jù)集
通過(guò)基于LFR基準(zhǔn)程序生成的網(wǎng)絡(luò)大數(shù)據(jù)集來(lái)對(duì)比所提方法和文獻(xiàn)[2]提出的基于特征和分類(lèi)器參數(shù)組合優(yōu)化的網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)方法的優(yōu)劣。
表2給出的是所提方法和文獻(xiàn)[2]檢測(cè)方法特征選擇數(shù)量的結(jié)果。
表2 不同方法屬性特征約簡(jiǎn)結(jié)果
分析表2可以看出,所提方法和文獻(xiàn)[2]方法都能有效約簡(jiǎn)屬性,相比原基于LFR基準(zhǔn)程序生成的網(wǎng)絡(luò)大數(shù)據(jù)集,很多冗雜屬性均被消除,尤其對(duì)于wdbc數(shù)據(jù)集,所提方法將混合屬性從大小為34GB的數(shù)據(jù)約簡(jiǎn)至22.8GB。說(shuō)明所提方法對(duì)于高維混合大數(shù)據(jù)集,能夠選擇出更少的屬性特征集。
根據(jù)上述網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征約簡(jiǎn)的結(jié)果,對(duì)屬性特征重新整合構(gòu)成新的屬性集,經(jīng)過(guò)屬性約簡(jiǎn)后的屬性特征不會(huì)影響網(wǎng)絡(luò)數(shù)據(jù)之間的相關(guān)性,而且可以降低存儲(chǔ)空間。在后續(xù)通過(guò)支持向量機(jī)進(jìn)行屬性特征檢測(cè)的時(shí)候,根據(jù)約簡(jiǎn)后的屬性特征,對(duì)屬性特征樣本集進(jìn)行支持向量機(jī)的構(gòu)建。
在表1獲取數(shù)據(jù)的基礎(chǔ)上,另外向上述數(shù)據(jù)集各添加100條無(wú)關(guān)數(shù)據(jù),并分別應(yīng)用本文方法、文獻(xiàn)[2]方法以及文獻(xiàn)[3]方法進(jìn)行檢測(cè),判斷采集的數(shù)據(jù)是否為原始數(shù)據(jù)量大小,并檢查該數(shù)據(jù)是否為數(shù)據(jù)集包含內(nèi)容。得到檢測(cè)數(shù)據(jù)數(shù)量如表3所示。
表3 不同方法屬性特征約簡(jiǎn)結(jié)果
根據(jù)表3檢測(cè)結(jié)果進(jìn)行數(shù)據(jù)獲取的查全率性能對(duì)比,圖2為所提方法與文獻(xiàn)[2]屬性特征檢測(cè)方法檢測(cè)查全率(%)的對(duì)比。
圖2 不同方法檢測(cè)查全率對(duì)比結(jié)果圖
通過(guò)圖2進(jìn)行分析可以看出,所提方法的屬性特征檢測(cè)串查全率明顯高于文獻(xiàn)[2]及文獻(xiàn)[3]的屬性特征檢測(cè)方法地檢測(cè)查全率,主要原因在于所提方法結(jié)合粗糙集理論進(jìn)行混合屬性特征約簡(jiǎn),去除了大量冗余特征,保證了后續(xù)網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)的準(zhǔn)確性。
所提的粗糙集下網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)方法,其所使用的粗糙集使網(wǎng)絡(luò)大數(shù)據(jù)混合屬性從1120個(gè)約簡(jiǎn)至37個(gè),大幅度減少了計(jì)算復(fù)雜度:
1)所提方法、基于特征和分類(lèi)器參數(shù)組合優(yōu)化的網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)方法,兩者的屬性約簡(jiǎn)數(shù)量級(jí)有很大差別,從實(shí)驗(yàn)數(shù)據(jù)來(lái)看所提方法極具優(yōu)勢(shì);
2)使用粗糙集屬性約簡(jiǎn)的檢測(cè)方法比傳統(tǒng)檢測(cè)方法檢測(cè)準(zhǔn)確率更高;
3)相對(duì)于原始基于LFR基準(zhǔn)程序生成的網(wǎng)絡(luò)大數(shù)據(jù)集,所提方法通過(guò)使用粗糙集屬性約簡(jiǎn)后,檢測(cè)精度有顯著提高。
所提粗糙集下網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征檢測(cè)方法雖取得一定的成果,具有一定的優(yōu)越性,但仍存在不足之處。未來(lái)將針對(duì)網(wǎng)絡(luò)大數(shù)據(jù)混合屬性特征的約簡(jiǎn)速率進(jìn)行深入研究,從約簡(jiǎn)速率提升的角度來(lái)提高屬性特征的檢測(cè)速度,在保證檢測(cè)準(zhǔn)確性的基礎(chǔ)上,進(jìn)一步提高檢測(cè)的效率。