萬愛華
【摘要】隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,網(wǎng)絡(luò)攻擊和威脅已經(jīng)滲透到我們生活的方方面面,網(wǎng)絡(luò)安全成為人們關(guān)注的焦點(diǎn)。在面對網(wǎng)絡(luò)攻擊的研究中,入侵檢測作為保證網(wǎng)絡(luò)安全的一道防線,起著至關(guān)重要的作用。針對當(dāng)前入侵檢測收集的各類數(shù)據(jù)集中存在的數(shù)據(jù)不平衡問題,提出了一種基于深度學(xué)習(xí)的平衡數(shù)據(jù)生成模型,利用數(shù)據(jù)生成模型生成平衡數(shù)據(jù)集,使用這個(gè)模型框架進(jìn)行入侵檢測,最終保證網(wǎng)絡(luò)數(shù)據(jù)鏈絡(luò)的安全。
【關(guān)鍵詞】入侵檢測;深度學(xué)習(xí);異常檢測
中圖分類號:G221? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ?DOI:10.12246/j.issn.1673-0348.2021.01.042
隨著信息和通信的飛速發(fā)展,網(wǎng)絡(luò)中的產(chǎn)生的海量數(shù)據(jù)傳輸越來越多,這將給入侵檢測系統(tǒng)帶來負(fù)擔(dān),因?yàn)楹A康臄?shù)據(jù)在傳輸過程中需要檢測處理,為了提高入侵檢測系統(tǒng)的有效性和準(zhǔn)確性,入侵檢測系統(tǒng)不能再依賴于一些簡單或明顯的特征來識別攻擊,而必須能夠更深入地觀察和檢測,因此在侵檢測系統(tǒng)中需要觀察更多的特征。
1. 入侵檢測系統(tǒng)
入侵檢測系統(tǒng)是用來監(jiān)視和檢測信息系統(tǒng)或網(wǎng)絡(luò)系統(tǒng)的入侵行為的。入侵檢測系統(tǒng)可分為主機(jī)入侵檢測系統(tǒng)和網(wǎng)絡(luò)入侵檢測系統(tǒng)。入侵檢測系統(tǒng)通過軟件或硬件的形式在網(wǎng)絡(luò)或系統(tǒng)上檢測安全,在入侵檢測系統(tǒng)中,入侵檢測系統(tǒng)會從監(jiān)視的系統(tǒng)中或是網(wǎng)絡(luò)環(huán)境中獲得信息,當(dāng)檢測到入侵活動或疑似入侵行為時(shí)會發(fā)出通知,如檢測到攻擊時(shí),會發(fā)出警報(bào),或者系統(tǒng)中出現(xiàn)可疑的異常活動,會提醒用戶注意設(shè)備是否安全,并針對這些信息加以分析,在經(jīng)過分析與比對后,會針對分析后的結(jié)果采取后續(xù)的反映,這些反應(yīng)可能是對使用者發(fā)出警報(bào),或是采取較為積極主動的反應(yīng)措施,并針對這些行為做記錄,這些記錄將用以提供給下次作為分析時(shí)使用。以保障網(wǎng)絡(luò)中系統(tǒng)的完整性、隱私性及可用性。但入侵檢測技術(shù)也存在的誤報(bào)率高、海量數(shù)據(jù)下檢測率低和數(shù)據(jù)不平衡下檢測率低等問題。
2. 入侵檢測系統(tǒng)技術(shù)
深度學(xué)習(xí):深度學(xué)習(xí)是由多個(gè)隱含層組成的人工神經(jīng)網(wǎng)絡(luò)。多層的存在使得網(wǎng)絡(luò)能夠?qū)W習(xí)到更多的抽象特征。其實(shí)質(zhì)是當(dāng)海量數(shù)據(jù)通過多個(gè)隱含層時(shí),深層網(wǎng)絡(luò)會自動學(xué)習(xí)有用特征,實(shí)現(xiàn)任意線性變換,最終提高預(yù)測準(zhǔn)確性。深度神經(jīng)網(wǎng)絡(luò)(DNN)最簡單的結(jié)構(gòu)包含輸入層,隱藏層和輸出層。深度學(xué)習(xí)算法能很好地實(shí)現(xiàn)模式特征的自動學(xué)習(xí),并將特征學(xué)習(xí)融入到建模中,減少人為設(shè)計(jì)特征造成的不完整性。這種學(xué)習(xí)算法能夠在大量數(shù)據(jù)集中突出其強(qiáng)大的優(yōu)越性能。深度神經(jīng)網(wǎng)絡(luò)的基本網(wǎng)絡(luò)結(jié)構(gòu)如圖1。
人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元素被用來形成復(fù)雜的假設(shè)。當(dāng)神經(jīng)網(wǎng)絡(luò)包含更多的神經(jīng)元素時(shí),神經(jīng)網(wǎng)絡(luò)形成的假設(shè)就變得更加復(fù)雜。當(dāng)輸入通過神經(jīng)網(wǎng)絡(luò)傳播到輸出時(shí),輸出結(jié)果被分類。我們可以評估輸出與真實(shí)目標(biāo)之間的差異,并在這一階段使用梯度,這樣我們就可以在反向傳播的過程中通過神經(jīng)網(wǎng)絡(luò),將輸出節(jié)點(diǎn)中的誤差推回到網(wǎng)絡(luò)中去估計(jì)隱藏節(jié)點(diǎn)中的誤差。因此,可以計(jì)算成本函數(shù)的梯度。經(jīng)過訓(xùn)練,神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以學(xué)習(xí)和創(chuàng)建模式。
自動編碼機(jī):在深度學(xué)習(xí)研究中自動編碼器是一種非監(jiān)督式學(xué)習(xí)的方法訓(xùn)練而成的神經(jīng)網(wǎng)絡(luò),它主要的功能為學(xué)習(xí)如何重建出最初的輸入,因?yàn)樽詣泳幋a器具被重建輸入的功能,因此如果一組資料經(jīng)過編碼后,這一組編碼能夠被還原成原始的特征,那就代表這組編碼包含了原始資料的精華特征,在過去,這些特征提取的技術(shù)和資料化簡的技術(shù)主要在通過改進(jìn)特征的表現(xiàn)方式或降低計(jì)算復(fù)雜度來改良一般的數(shù)據(jù)分析過程。自動編碼器的理想的特性之一是能夠提供更強(qiáng)大的非線性標(biāo)準(zhǔn)化,在自動編碼器上,通過應(yīng)用倒傳遞算法能輔助所需的維度降低,該算法通過類神經(jīng)網(wǎng)絡(luò)的輸出值和類神經(jīng)網(wǎng)絡(luò)的輸入值相等來實(shí)現(xiàn),自動編碼器通常具有輸入層、輸出層和隱藏層,在自動編碼機(jī)中,通常輸出層和輸入曾有相同的維度,隱藏層的維度通常比輸入層的維度小,這個(gè)隱藏層的位置在自動編碼器這個(gè)架構(gòu)的正中心,這個(gè)編碼層可以被當(dāng)作是原始資料被壓縮過后的特征向量,可以被使用于分類,這個(gè)隱藏層用于創(chuàng)建高維度資料的低維版本,就是所謂的編碼。通過降低維度,自動編碼器被強(qiáng)迫要挖掘出數(shù)據(jù)分布的最顯著特征,在理想的情況下,自動編碼器生成的數(shù)據(jù)特性將提供比原始數(shù)據(jù)本身更好的數(shù)據(jù)呈現(xiàn)方式。
3. 入侵檢測系統(tǒng)的挑戰(zhàn)
隨著近年來信息通信的快速發(fā)展,人們使用的傳輸量也在不斷增加。此外,大量物聯(lián)網(wǎng)設(shè)備的使用,這也造成了大量的數(shù)據(jù)傳輸。隨著這些流量的產(chǎn)生,將對入侵檢測系統(tǒng)提出挑戰(zhàn)。入侵檢測系統(tǒng)遭遇的挑戰(zhàn)主要有三個(gè)方面:
一是在網(wǎng)絡(luò)中大量生成的資料,網(wǎng)絡(luò)中大量生成的資料主要是因?yàn)榫W(wǎng)絡(luò)和通信的發(fā)展迅速,且物聯(lián)網(wǎng)設(shè)備的發(fā)展也日漸多元,因此造成大量的設(shè)備進(jìn)入市面,因而造成大量的信息在網(wǎng)絡(luò)中傳輸,產(chǎn)生的海量數(shù)據(jù)信息,這將會對入侵檢測系統(tǒng)造成負(fù)擔(dān),因?yàn)榇罅康馁Y料在傳輸?shù)倪^程中,需要保障數(shù)據(jù)信息正確性、完整性,需要進(jìn)行信息安全的處理,即使在計(jì)算機(jī)性能提高的情況下,仍然不足以應(yīng)付日漸增加的傳輸量。
二是入侵檢測系統(tǒng)檢測的深度,在入侵檢測系統(tǒng)檢測的深度方面,為了提升入侵檢測系統(tǒng)的有效性和準(zhǔn)確性,入侵檢測系統(tǒng)不能再依靠一些簡易或明顯的特征來辨識攻擊與否,而必須要能更深度來觀察與檢測,這也意謂入侵檢測系統(tǒng)需要觀察更多特征。
三是多樣的協(xié)議和資料,隨著網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)上的流量越來越多樣化,產(chǎn)生了更多的協(xié)議。這將造成很多多余的特征出現(xiàn)。當(dāng)我們對流量進(jìn)行測試時(shí),必須測試更多的數(shù)據(jù),這些多余的特征將影響我們對于流量是否是異常行為造成誤導(dǎo),造成我們判斷上產(chǎn)生誤判,因此,需要去除這些冗余特征。而深度學(xué)習(xí)對于特征壓縮方面,非線性的特征去除方法取得了很好的效果。然而,我們發(fā)現(xiàn)利用深度學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)特征壓縮時(shí),會影響訓(xùn)練數(shù)據(jù)的平衡,因此,為了解決不平衡數(shù)據(jù)集對訓(xùn)練模型的影響,利用可變自動編碼器來平衡訓(xùn)練數(shù)據(jù)集,并利用平衡數(shù)據(jù)集訓(xùn)練非對稱自動編碼器去除冗余特征。深度學(xué)習(xí)能夠讓機(jī)器從經(jīng)驗(yàn)中去學(xué)習(xí)知識,因此可以節(jié)省大量的人力消耗在操作或指定機(jī)器應(yīng)該具備的知識,這讓機(jī)器可以用比較簡單的架構(gòu)來建立復(fù)雜的概念。
這三個(gè)問題是近年來入侵檢測系統(tǒng)主要面對的挑戰(zhàn)。在我們的生活中,網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的普及對網(wǎng)絡(luò)安全提出了更高的要求。為了滿足數(shù)據(jù)的完整性、機(jī)密性和可用性這些需求,我們必須提高網(wǎng)絡(luò)使用的安全性,保護(hù)脆弱的操作系統(tǒng)和網(wǎng)絡(luò),防止未經(jīng)授權(quán)的訪問和避免數(shù)據(jù)被盜的風(fēng)險(xiǎn),入侵檢測系統(tǒng)必須掃描和檢測網(wǎng)絡(luò)上傳輸?shù)乃邪L試通過合適的算法將流量分為入侵和非入侵,這是入侵檢測系統(tǒng)面臨的挑戰(zhàn)。其中最主要的挑戰(zhàn)便是面對日益龐大的傳輸資料,該如何從中有效且快速的將大量的資料做分類,這樣的分類必須準(zhǔn)確的,同時(shí),處理的速度也必須有一定的要求,否則將會造成檢測的時(shí)間過長,將會造成整體系統(tǒng)效率的下降,為了要達(dá)到快速檢測的目的,必須要在檢測特征的數(shù)量上做權(quán)衡,因此需要對入侵檢測系統(tǒng)進(jìn)行檢測、選擇、去除冗余特征,避免影響到入侵檢測系統(tǒng)的準(zhǔn)確性。
4. 深度學(xué)習(xí)平衡資料生成模型
深度學(xué)習(xí)能夠通過大量數(shù)據(jù)資料的訓(xùn)練并從中自動找到資料和類別中的相關(guān)性,深度自動編碼器由兩個(gè)對稱的深度神經(jīng)網(wǎng)絡(luò)組成,通常有數(shù)個(gè)隱藏層用于編碼,另一組用數(shù)個(gè)隱藏層來解碼,利用深度自動編碼器實(shí)現(xiàn)了從高維數(shù)據(jù)到低維數(shù)據(jù)的深度學(xué)習(xí)算法,取得了良好的效果。
深度學(xué)習(xí)可以應(yīng)用于自動編碼器,其中隱藏層是簡單的概念,而多個(gè)隱藏層用于提供深度,這種技術(shù)稱為深度自動編碼器。這種增加的深度可以降低計(jì)算成本和所需的訓(xùn)練數(shù)據(jù)量,并產(chǎn)生更高程度的準(zhǔn)確性,來自每個(gè)隱藏層的輸出被用作逐步提高級別的輸入。因此,堆棧式自動編碼器的第一層通常在原始輸入中學(xué)習(xí)一階特性,第二層通常在一階特征出現(xiàn)時(shí)學(xué)習(xí)與模式相關(guān)的二階特征,后續(xù)的更高層次學(xué)習(xí)更高階的特性,圖2顯示了一個(gè)深度自動編碼器的表示,在這里,上標(biāo)簽表示該神經(jīng)網(wǎng)絡(luò)層的名稱,下面表示神經(jīng)網(wǎng)絡(luò)層中間連接的情況。
通過平衡資料,我們可以讓特征壓縮模型變得更加穩(wěn)健,也可以讓模型在訓(xùn)練時(shí)避免過度適應(yīng)訓(xùn)練資料的情況,但我們先前取得平衡資料時(shí)并沒有考量平衡資料的平衡程度差別,首先要了解平衡資料的合理性,如果過多的平衡資料,會造成太多因?yàn)檫^多資料是屬于人工生成而產(chǎn)生的偏差,因此訓(xùn)練模型的資料各類別是必須要平衡的,但盡可能讓兩者間生成的數(shù)量不能過多,以免因?yàn)樯傻挠?xùn)練資料過多而產(chǎn)生偏離資料真實(shí)性的發(fā)生。使用平衡的資料集來訓(xùn)練特征壓縮模型,以免不平衡的資料會使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練產(chǎn)生影響,通過驗(yàn)證使用平衡資料所訓(xùn)練的特征壓縮模型受益于平和的資料集,而避免特定類別的資料訓(xùn)練不足的情況,而產(chǎn)生對特定類別的資料檢測準(zhǔn)確率下降的結(jié)果,資料量的提升有助于訓(xùn)練后模型的準(zhǔn)確度,但較大的資料量會造成模型訓(xùn)練時(shí),因所需的資料量龐大,而發(fā)生訓(xùn)練時(shí)間拉長的結(jié)果。訓(xùn)練時(shí)間代表模型的速度,較好的硬件效能會使訓(xùn)練時(shí)間加快,減少資料量也會使模型訓(xùn)練時(shí)間縮短,但卻會降低模型最終的準(zhǔn)確率。
利用資料生成模型生成平衡的資料集,讓模型面對各種類別的資料是屬于平等的狀態(tài),讓使用該資料集訓(xùn)練所得到入侵檢測模型在分類上有更好的表現(xiàn),利用平衡資料集來訓(xùn)練特征壓縮模型,由于用神經(jīng)網(wǎng)路作為特征壓縮模型,可以從資料中學(xué)習(xí)出關(guān)鍵的特征,這樣不僅減少大量人力去針對資料作分析并花費(fèi)大量時(shí)間以取得關(guān)鍵的特征,并使用關(guān)鍵特征去訓(xùn)練模型,還可以減輕傳統(tǒng)機(jī)器學(xué)習(xí)在分類上的負(fù)擔(dān),也降低分類上的復(fù)雜度,也讓深度學(xué)習(xí)的優(yōu)點(diǎn)與傳統(tǒng)機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)相結(jié)合,取得更好的成果與效能。
參考文獻(xiàn):
[1]諸俊.計(jì)算機(jī)網(wǎng)絡(luò)安全入侵檢測技術(shù)分析[J].電子技術(shù)與軟件工程.2015(09):233.
[2]吳燕妮.基于網(wǎng)絡(luò)入侵檢測的分析研究[J].價(jià)值工程.2012(20):215-216.
[3]甘宏,潘丹.基于網(wǎng)絡(luò)安全入侵檢測技術(shù)與防火墻結(jié)合的應(yīng)用研究[J].科技廣場.2011(01):45-47.
[4]管廷昭.持續(xù)攻擊下智能網(wǎng)絡(luò)入侵主動防御系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工.2018(18):44-48.
[5]丁順鶯.基于深度學(xué)習(xí)的大數(shù)據(jù)網(wǎng)絡(luò)安全防御模式研究[J].信息與電腦(理論版).2018(17):194-195.