陳金鑫
(皖西學(xué)院,安徽 六安 237012)
雖然網(wǎng)絡(luò)技術(shù)可以使用戶充分感受大數(shù)據(jù)帶來的便利,但是隨著數(shù)據(jù)量的增多,網(wǎng)絡(luò)安全問題也逐漸顯現(xiàn),因此有必要對(duì)網(wǎng)絡(luò)安全檢測技術(shù)進(jìn)行研究。而無線網(wǎng)絡(luò)入侵特征提取是網(wǎng)絡(luò)安全檢測的關(guān)鍵技術(shù)之一,是近年來相關(guān)領(lǐng)域的重點(diǎn)問題。
很多研究人員提出了入侵特征檢測方法,其中楊文虎[1]提出了基于云計(jì)算的船舶通信網(wǎng)絡(luò)入侵特征提取方法,該方法通過對(duì)入侵問題進(jìn)行描述,對(duì)特征數(shù)據(jù)進(jìn)行信號(hào)處理,從而確定入侵特征數(shù)據(jù),構(gòu)建了特征檢測框架,實(shí)現(xiàn)對(duì)特征的提?。幌木懊鱗2]等提出基于改進(jìn)隨機(jī)森林分類器的網(wǎng)絡(luò)入侵檢測方法,該方法利用高斯混合模型將特征數(shù)據(jù)劃分成不同簇,通過隨機(jī)森林分類器對(duì)不同簇進(jìn)行訓(xùn)練,并在訓(xùn)練好的簇中提取入侵特征。上述研究方法雖然能夠在大數(shù)據(jù)環(huán)境中對(duì)網(wǎng)絡(luò)入侵特征進(jìn)行有效提取,但是特征提取過程中會(huì)遺漏部分特征數(shù)據(jù),存在一定的漏檢率。
針對(duì)現(xiàn)有方法存在的問題,提出基于支持向量機(jī)的無線網(wǎng)絡(luò)入侵特征提取算法,通過建立入侵特征提取原則,提升算法實(shí)現(xiàn)的理論性,能夠在先驗(yàn)知識(shí)不足的條件下保證特征提取的全面性,并能夠挖掘無線網(wǎng)絡(luò)中固有的冗余入侵?jǐn)?shù)據(jù),解決傳統(tǒng)方法由于訓(xùn)練結(jié)果誤差導(dǎo)致的特征缺失問題。
在開始入侵特征提取之前,要建立面向海量入侵?jǐn)?shù)據(jù)的提取原則,在該原則指導(dǎo)下,保證特征提取的科學(xué)性,具體原則如下:
全面性原則:由于無線網(wǎng)絡(luò)中包含各種數(shù)據(jù)類型,不同數(shù)據(jù)類型之間組成了一個(gè)又一個(gè)整體結(jié)構(gòu),因此,特征提取要對(duì)無線網(wǎng)絡(luò)結(jié)構(gòu)中的數(shù)據(jù)類型進(jìn)行檢測,入侵特征提取指標(biāo)要具有全面性[3]。
層次性原則:為保證特征提取結(jié)果的全面性,需要選取大量指標(biāo),但是不同入侵?jǐn)?shù)據(jù)的重要程度是不一樣的,如果忽略了部分指標(biāo)會(huì)違反全面性原則,因此,可以根據(jù)層次性原則,有效避免特征提取過程中造成特征遺漏問題。
獨(dú)立性原則:由于部分特征數(shù)據(jù)會(huì)存在重疊現(xiàn)象,如果不考慮該因素會(huì)造成指標(biāo)冗余,增加工作量,還會(huì)對(duì)提取結(jié)果產(chǎn)生影響,造成結(jié)果誤差偏大的問題。因此,指標(biāo)選取時(shí),盡可能選擇概括性較強(qiáng)、具有代表性的指標(biāo)。
依據(jù)入侵特征提取原則,采用支持向量機(jī)對(duì)無線網(wǎng)絡(luò)入侵特征進(jìn)行提取研究。支持向量機(jī)(Support Vector Machine,SVM)具有在先驗(yàn)知識(shí)不足的條件下對(duì)不同類型數(shù)據(jù)進(jìn)行精準(zhǔn)分類的功能[4],因此,采用支持向量機(jī)對(duì)無線網(wǎng)絡(luò)中的入侵?jǐn)?shù)據(jù)進(jìn)行分類,在分類結(jié)果的基礎(chǔ)上,篩選入侵特征指標(biāo),最終構(gòu)建一個(gè)矩陣,實(shí)現(xiàn)對(duì)入侵特征的提取。
篩選無線網(wǎng)絡(luò)入侵特征指標(biāo)時(shí),參考入侵特征提取原則,假設(shè)無線網(wǎng)絡(luò)中存在n個(gè)數(shù)據(jù)樣本S={s1,s2,sn},引入一個(gè)映射函數(shù)η,將整體特征數(shù)據(jù)映射至高維可用空間中,得到可用映射值特征數(shù)據(jù)集η(s1),η(s2),…,η(sn),映射值需要滿足下列條件:
(1)
其中,j表示入侵特征維度。在滿足公式(1)的基礎(chǔ)上,篩選不同維度的入侵特征主成分,得出:
η(sk)=T×[θ(si)-θ(sj)]
(2)
其中,T表示特征提取周期,θ表示全部特征向量,si表示入侵?jǐn)?shù)據(jù)之間的特征關(guān)系,sj表示冗余特征。
根據(jù)入侵特征主成分,構(gòu)建一個(gè)入侵特征篩選矩陣:
(3)
其中,b表示入侵特征分量。根據(jù)公式(3)給出的矩陣,篩選最優(yōu)特征向量,篩選結(jié)果可以表示為:
(4)
其中,αik表示最優(yōu)特征向量。
通過上述計(jì)算過程,剔除了無線網(wǎng)絡(luò)入侵特征中的冗余特征,實(shí)現(xiàn)對(duì)無線網(wǎng)絡(luò)入侵特征的準(zhǔn)確提取,能夠?yàn)榫W(wǎng)絡(luò)環(huán)境安全與威脅檢測提供技術(shù)支撐。
為驗(yàn)證基于支持向量機(jī)的無線網(wǎng)絡(luò)入侵特征提取算法能否實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)入侵特征的有效提取,選擇基于云計(jì)算的船舶通信網(wǎng)絡(luò)入侵特征提取方法和基于改進(jìn)隨機(jī)森林分類器的網(wǎng)絡(luò)入侵檢測方法作為對(duì)比方法,以特征提取中特征數(shù)據(jù)的漏檢率為指標(biāo),進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證。
以KDD CUP-99數(shù)據(jù)集為基礎(chǔ)數(shù)據(jù)集,其中包含各種用戶類型數(shù)據(jù)、網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)及網(wǎng)絡(luò)安全風(fēng)險(xiǎn)歷史數(shù)據(jù),并由不同網(wǎng)絡(luò)攻擊手段生成了大量的真實(shí)數(shù)據(jù)集。在該數(shù)據(jù)集中選取700 M攻擊數(shù)據(jù)作為樣本,對(duì)其進(jìn)行特征提取,對(duì)比不同方法提取過程中的入侵特征漏檢率,結(jié)果如圖1所示。
圖1 不同方法的入侵特征漏檢率Fig.1 Intrusion omission ratio of different methods
通過圖1可以看出,對(duì)無線網(wǎng)絡(luò)入侵特征提取的過程中,隨著數(shù)據(jù)量的增加,不同方法均呈現(xiàn)出整體上升趨勢,但是與文獻(xiàn)[1]方法和文獻(xiàn)[2]方法相比,所提算法的入侵特征漏檢率明顯更低,其漏檢率最高值僅為46%,而文獻(xiàn)[1]方法和文獻(xiàn)[2]方法的漏檢率最高值分別為86%和83%。通過數(shù)據(jù)對(duì)比可知,隨著入侵?jǐn)?shù)據(jù)量的增加,所提算法仍然能夠保持較高水平,充分驗(yàn)證了該算法的優(yōu)勢性。該算法利用支持向量機(jī)精準(zhǔn)分類的優(yōu)勢,對(duì)入侵特征進(jìn)行篩選,并提取其中的冗余特征,減少了工作量,降低了漏檢率。
網(wǎng)絡(luò)入侵是一種常見的網(wǎng)絡(luò)安全威脅,對(duì)不同類型的入侵特征進(jìn)行提取能夠?qū)θ肭诛L(fēng)險(xiǎn)進(jìn)行防范,因此提出了一種基于支持向量機(jī)的無線網(wǎng)絡(luò)入侵特征提取算法。通過實(shí)驗(yàn)結(jié)果可知,該算法在特征提取過程中造成的漏檢率明顯低于傳統(tǒng)方法,說明該算法得出的提取結(jié)果更加全面,能夠涵蓋更多的入侵特征,為網(wǎng)絡(luò)安全保護(hù)提供可靠的理論支撐。