楊 怡,張興蘭
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
入侵檢測系統(tǒng)是一種網(wǎng)絡(luò)安全設(shè)備,它可以對網(wǎng)絡(luò)流量傳輸進行實時的監(jiān)控,從中檢測出異常的攻擊行為。由于網(wǎng)絡(luò)技術(shù)的快速發(fā)展和廣泛應(yīng)用,網(wǎng)絡(luò)流量變得越來越復(fù)雜,各種新型的攻擊行為更是層出不窮,這就對入侵檢測模型提出了更高的要求。
在三國時期,箏作為一個非常優(yōu)雅的樂器,在當時引起了學(xué)者、隱士和文人普遍的高度關(guān)注。直到東漢末年,古箏才逐漸登上高雅殿堂,社會開始廣泛認可。
隨著人工智能的興起與發(fā)展,機器學(xué)習(xí)算法被應(yīng)用于許多領(lǐng)域,在網(wǎng)絡(luò)安全領(lǐng)域貝葉斯算法被用于過濾垃圾郵件[1],隨機森林被用于惡意域名檢測[2],聚類以及深度神經(jīng)網(wǎng)絡(luò)算法被應(yīng)用于網(wǎng)絡(luò)入侵檢測[3-4]。深度學(xué)習(xí)出現(xiàn)之后,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)架構(gòu)的深度學(xué)習(xí)算法降低了對于特征工程的依賴,能夠?qū)W(wǎng)絡(luò)攻擊的特征進行自動的提取和識別,更加有利于發(fā)現(xiàn)未知、潛在的攻擊行為。但機器學(xué)習(xí)模型本身也存在著安全問題,它極容易受到對抗樣本的攻擊。Szegedy等[5]提出:對輸入樣本故意添加一些人無法察覺的細微的干擾,導(dǎo)致模型以高置信度來輸出一個錯誤的結(jié)果,于是提出了對抗樣本的概念[6-7]。他們的研究提到,很多情況下,在訓(xùn)練集的不同子集上訓(xùn)練得到的具有不同結(jié)構(gòu)的模型都會對相同的對抗樣本實現(xiàn)誤分,這意味著對抗樣本成為了訓(xùn)練算法的一個盲點。Nguyen等人發(fā)現(xiàn)面對一些人類完全無法識別出差異的對抗樣本,深度學(xué)習(xí)模型會以高置信度將它們錯誤分類,從而攻擊成功[8]。深度學(xué)習(xí)對于對抗樣本的脆弱性在很多的機器學(xué)習(xí)模型中普遍存在,因此進一步研究對抗樣本實際上有利于整個機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的進步。
入侵檢測模型會受到對抗樣本的攻擊,說明現(xiàn)存的入侵檢測模型是不安全的,已知的各種攻擊算法,大部分都是在時域數(shù)據(jù)上基于決策邊界,使損失函數(shù)最大化,這種攻擊方式是有一定效果的,但是入侵檢測數(shù)據(jù)之間具有關(guān)聯(lián)性,利用損失函數(shù)最大化修改的數(shù)據(jù)容易失去其原有的相關(guān)性。該文提出了一種基于頻域的攻擊方式,利用傅里葉變換把數(shù)據(jù)轉(zhuǎn)換到頻域上,很多在時域內(nèi)看不見的特性在頻域內(nèi)能很清楚地得到,從而提取數(shù)據(jù),把低頻的移動到數(shù)據(jù)中心,把高頻的數(shù)據(jù)去掉,通過低通濾波器,對較少的特征進行改變,生成攻擊效果更好的對抗樣本。
采用SPSS 21.0軟件對數(shù)據(jù)進行分析處理,兩組患者的AST、ALT、ALB、AKP、Cr、BUN、DBIL、TBIL水平等計量資料用(均數(shù)±標準差)表示,用t檢驗,檢驗水準α=0.05,以P<0.05表示差異具有統(tǒng)計學(xué)意義。
入侵檢測(Intrusion Detection,ID)[9]是在20世紀80年代由James Anderson最先提出的概念,隨后學(xué)者Heberlein等人[10]基于James Anderson理論提出網(wǎng)絡(luò)入侵檢測系統(tǒng)概念。有學(xué)者指出,入侵主要包括以下三方面:一是未經(jīng)授權(quán)即進行信息的訪問;二是不可靠的行為;三是操作造成系統(tǒng)的不穩(wěn)定[11]。
研究入侵檢測技術(shù)主要分為以下兩點:特征的提取及分類。其中,特征提取在入侵檢測中非常關(guān)鍵。深度學(xué)習(xí)作為表征學(xué)習(xí)的代表,能夠在高維海量數(shù)據(jù)中獲取其本質(zhì)特征,進而提高分類準確率。深度學(xué)習(xí)在各個領(lǐng)域已得到廣泛應(yīng)用,其也被應(yīng)用于入侵檢測中。文獻[12]提出了基于一維卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測方法,該方法可以自動提取原始數(shù)據(jù)的特征。文獻[13]分析了遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進行入侵檢測的可行性,通過將網(wǎng)絡(luò)流量建模為狀態(tài)序列來檢測網(wǎng)絡(luò)流量的行為。文獻[14]驗證了長短時記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)在入侵流量分類中的性能,結(jié)果表明LSTM可以學(xué)習(xí)到隱藏在訓(xùn)練數(shù)據(jù)中的攻擊。文獻[15]提出了一種基于自動編碼器(Auto Encoder,AE)的網(wǎng)絡(luò)和長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的網(wǎng)絡(luò)入侵檢測方法。通過疊加多個自編碼網(wǎng)絡(luò),將高維數(shù)據(jù)映射到低維空間,構(gòu)建了自編碼網(wǎng)絡(luò)模型。然后利用優(yōu)化后的LSTM模型提取特征、訓(xùn)練數(shù)據(jù)并預(yù)測入侵檢測類型。實驗結(jié)果表明,該模型和傳統(tǒng)的算法相比,對網(wǎng)絡(luò)流量進行分類的效果是更優(yōu)的。Kasongo等人[16]使用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,FNN)和基于濾波器的特征選擇算法,提出了一種基于深度學(xué)習(xí)的入侵檢測系統(tǒng),將其與支持向量機、決策樹、K近鄰等機器學(xué)習(xí)方法進行比較,FNN的準確性有所提高。張文瀧等人[17]針對深度學(xué)習(xí)模型在網(wǎng)絡(luò)入侵檢測中進行參數(shù)訓(xùn)練時因梯度消失而導(dǎo)致深度學(xué)習(xí)模型過擬合在測試集上準確率下降的問題,提出了一種結(jié)合Relu激活函數(shù)與ResNet的網(wǎng)絡(luò)入侵檢測算法,即CA-ResNet,結(jié)果表明,提高了網(wǎng)絡(luò)的特征提取能力和對尺度的適應(yīng)性。
其中,sign函數(shù)保證與梯度函數(shù)方向一致,ε代表學(xué)習(xí)率,控制擾動的程度。
羅曼·羅蘭說過:“唯有創(chuàng)造,才是歡樂”。孩子們從這些創(chuàng)新的活動中,嘗到了樂趣,他們喜歡英語課并且愛上英語課。在孩子們的創(chuàng)新活動中,我不斷給予激勵,讓學(xué)生充分受到成功的喜悅。此外,我還運用階段性比賽來鞏固這創(chuàng)作性成果,讓每個孩子身心力行,全方位的投入探索、創(chuàng)造的快樂中去,從而挖掘?qū)W生的創(chuàng)作潛能。
其中,x為原始數(shù)據(jù),Y為輸出,DFT為離散傅里葉變換,δDFT(x)為擾動向量,Y*為對抗輸出。
綜上,入侵檢測模型會受到對抗樣本的攻擊,說明現(xiàn)存的入侵檢測模型是不安全的,所以在此基礎(chǔ)上,該文將研究的重點放在入侵檢測對抗樣本的生成方法上,并且分析入侵檢測的流量數(shù)據(jù)之間的關(guān)聯(lián)性,生成在攻擊效果更好的對抗樣本同時更加符合真實世界中的網(wǎng)絡(luò)流量數(shù)據(jù)。
傅里葉變換(Fourier Transform)是一種線性積分變換,用于信號在時域和頻域之間的轉(zhuǎn)換,從物理效果看,傅里葉變換是將信號從空間域轉(zhuǎn)換到頻域,逆變換就是將信號從頻域轉(zhuǎn)換到空間域。使用傅里葉變換,可以把頻域中最重要的信號表達出來,并且得到和原始信號非常接近的波形。通常將這種波的快慢的性質(zhì),稱為波的頻域。傅里葉頻譜圖上看到明暗不一的亮點,實際上是信號中某一點與鄰域點差異的強弱,即梯度的大小,也就是頻域的大小。傅里葉變換的實際意義就是對一個特定的信號曲線進行分解重組,具體操作就是將一個信號曲線分解成若干個正弦曲線,這些正弦的頻域代表了原信號曲線的頻域變化情況,同一頻域下的信號被分到了一個正弦曲線上,這樣就有了若干個不同頻域的正弦曲線。如果直接在時域上進行處理是比較麻煩的,因此一般都會先將時域數(shù)據(jù)按照不同的頻域振幅分解成若干個音頻和振幅不同的音頻信號圖,再將這些不同的信號圖按照不同的振幅映射到一個平面圖上,就是頻域圖。離散傅里葉變換公式如下:
(1)
其中,0 高頻指變化劇烈的灰度分量,如圖像的邊緣輪廓區(qū)域。低頻指變換緩慢的灰度分量,如圖像中輪廓的填充,非邊緣區(qū)域。人類視覺系統(tǒng)對高頻分量的敏感度低于低頻分量,因此利用傅里葉變換將時域數(shù)據(jù)轉(zhuǎn)變?yōu)轭l域數(shù)據(jù),構(gòu)造一個和原數(shù)據(jù)大小相同,數(shù)值全為0的掩模底板,獲取原始數(shù)據(jù)頻域為0的中心坐標,以此為中點,這個區(qū)域的掩模內(nèi)的像素值為255,把掩模覆蓋到原始頻譜圖上,得到所有的低頻點。利用低通濾波器,保留更多的低頻信息,去除掉部分高頻信息,再利用反傅里葉變換把修改后的數(shù)據(jù)轉(zhuǎn)換回時域。 FGSM是由GoodFellow在其論文《Explaining and Harnessing Adversarial Examples》中提出。通過求出模型對輸入的導(dǎo)數(shù)得到其具體的梯度方向,接著乘以一個步長,得到的“擾動”加在原來的輸入上就得到了對抗樣本。假設(shè)輸入樣本為x,分類結(jié)果為F(x),在輸入樣本上疊加擾動,得到對抗樣本x'。 (2) 隨著深度學(xué)習(xí)應(yīng)用到入侵檢測系統(tǒng),基于已有數(shù)據(jù)的入侵檢測系統(tǒng)的分類任務(wù)已經(jīng)完成得比較好,但是對于惡意攻擊中的對抗樣本的方式,入侵檢測的數(shù)據(jù)集在這方面的表現(xiàn)確實不盡如人意?,F(xiàn)在對抗樣本攻擊的研究主要是涉及梯度攻擊和優(yōu)化攻擊,還有一部分分為對圖像進行全像素添加擾動以及部分添加像素擾動。Goodfellow等人[18]提出的快速梯度符號法(Fast Gradient Sign Method,FGSM)利用損失函數(shù)的導(dǎo)數(shù),通過在原樣本上添加噪聲,使其沿著損失函數(shù)梯度上升的方向移動,從而生成分類錯誤的圖像對抗樣本。Moosavi等人[19]提出了一種基于超平面分類的生成方法DeepFool,在不同的平面上代表不同的類別,利用迭代計算添加擾動將處于平面邊界的圖像樣本逐步移動到另一個平面,讓其呈現(xiàn)不同的分類結(jié)果。Papemot等人[20]在2015年提出了JSMA(Jacobin Saliency Map Attack)算法,JSMA是利用雅可比矩陣計算了模型對每個特征的敏感度,得到了其中的顯著像素點,并通過迭代的過程,每次修改一個顯著像素點,最終達到改變分類結(jié)果的攻擊效果。Li等[21]提出了一個通過學(xué)習(xí)對抗樣本的書分布來對深度神經(jīng)網(wǎng)絡(luò)模型進行黑盒攻擊的方法,通過找到以原樣本為中心的小區(qū)域內(nèi)的概率密度分布,從中選擇可能造成攻擊的對抗樣本。除以之外,Sayantan等人[22]提出了一種應(yīng)用在黑盒場景下的目標攻擊方法,針對目標的通用擾動方法(Universal Perturbations for Steering to Exact Targets,UPSET),基于殘差梯度網(wǎng)絡(luò),可以對特定的目標類別生成一個通用擾動,使得將該擾動添加到任何一張圖像上都可以使其被錯誤分類為目標類別。 JSMA是利用擾動一組輸入特征的信息從而導(dǎo)致深度模型分類器分類出錯。這與修改大多數(shù)輸入特征的FGSM攻擊不同,JSAM產(chǎn)生的對抗樣本更具有攻擊性,而且更易生成真實的網(wǎng)絡(luò)數(shù)據(jù)流。JSMA算法主要包括三個過程:計算前向?qū)?shù)得到不同特征對分類結(jié)果的影響程度,構(gòu)建基于前向?qū)?shù)的對抗性顯著圖,通過顯著圖尋找對攻擊影響程度最大的輸入特征添加擾動。前向?qū)?shù)就是計算神經(jīng)網(wǎng)絡(luò)最后一層的每一個輸出對輸入的每個特征的偏導(dǎo)。計算過程是采用鏈式法則。FGSM是對損失函數(shù)求導(dǎo)得到的,而JSMA中前向?qū)?shù)是通過對神經(jīng)網(wǎng)絡(luò)最后一層輸出求導(dǎo)得到的。前向?qū)?shù)的計算公式為: (3) (4) 其中,Fj是第j個隱藏層的輸出向量,fn+1,j是這層的第j個神經(jīng)元輸出的激活函數(shù),Wn+1,j為第n+1層,第j個神經(jīng)元與前一層相連的權(quán)重向量,bn+1,j為第n+1層,第j個神經(jīng)元的偏置bias。 通過得到的前向?qū)?shù),可以計算其對抗性顯著圖,即對分類器特定輸出影響程度最大的輸入。為了達到攻擊的效果,需要增大分類錯誤的特征,減少使得分類正確的特征,從而達到攻擊目標。顯著圖有正向擾動(見式(5))和反向擾動(見式(6))。 (5) (6) 若對應(yīng)位置的導(dǎo)數(shù)值為正值,則增大該位置像素值;若對應(yīng)位置的導(dǎo)數(shù)值為負數(shù),則減少該位置像素。JSMA算法修改程度不受限制,但修改的數(shù)量受到限制,盡量減少對原始樣本修改像素的個數(shù),可以使得生成的對抗樣本更具有真實性[27]。 該文提出D-FGSM(Discrete Fourier Transform-Fast Gradient Sign Method)攻擊算法,將原始數(shù)據(jù)集進行傅里葉變換,通過低通濾波器,過濾部分的高頻信息,再利用梯度方向進行擾動和攻擊。 人都走盡了,陶水旺手又伸上來,朝表姐身上摸。表姐一邊躲著,一邊求他,我懷孕了。陶水旺以為這又是表姐的借口。以前,表姐大多以身上來了為借口。 argminδDFT(x)|δDFT(x)| s.t.F(DFT(x)+δDFT(x)= (7) 其中,DFT函數(shù)是離散傅里葉變換。 6.S←Saliency_map(▽F(Xadv),ζ,Y) 輸入:干凈的樣本數(shù)據(jù)X,模型權(quán)重參數(shù)θ,分類結(jié)果Y,神經(jīng)網(wǎng)絡(luò)J,學(xué)習(xí)率ε,擾動值δ,傅里葉變換DFT 輸出:對抗樣本Xadv 1.初始化:X 我選擇了調(diào)整畫筆工具,將羽化和流量滑塊均設(shè)置為100,濃度設(shè)置為20。接著,在上方設(shè)置中我將清晰度和去霧均設(shè)置為+100,其余選項歸零,然后在遠景的山上涂抹將其清晰度提高。隨后,我又將黑色設(shè)置為-100,白色設(shè)置為+100更進一步強化其對比度。 3.Xadv←DFT(X) 3.WhileF(xadv)=Ydo 授之以魚,不如授之以漁。在知識傳授的過程注重學(xué)習(xí)能力的培養(yǎng),引導(dǎo)學(xué)生掌握自學(xué)的方法,鍛煉學(xué)生的自學(xué)能力,是具有深遠意義的。隨著學(xué)生年齡的增長,教師和學(xué)生都具有較大的靈活性和自由度。教師應(yīng)該漸漸放開手讓學(xué)生自己去學(xué),自己支配課余時間,給學(xué)生以充分的獨立空間。 4.損失函數(shù)求導(dǎo)▽xJ(θ,DFT(x),Y) 5.δx←ε·sign(▽xJ(θ,DFT(x),Y)) 6.Xadv←DFT(x)+δx 7.end While 8.ReturnXadv 以NSL-KDD數(shù)據(jù)集進行特征分析,每個連接有41個特征,可以分為三個部分:網(wǎng)絡(luò)數(shù)據(jù)包的基本連接信息,數(shù)據(jù)包中包含的一些負載信息以及當前連接的一些流量信息。在進行入侵檢測對抗攻擊中,應(yīng)該具體分析各個特征對結(jié)果的影響,更具有針對性的對抗攻擊。Saliency Map(顯著圖)是通過神經(jīng)網(wǎng)絡(luò)預(yù)測類別的概率對輸入特征(例如圖像中的每個像素)求梯度,根據(jù)顯著圖的值判斷出輸入特征中對該類別的影響程度。該文利用傅里葉變換將數(shù)據(jù)轉(zhuǎn)換到頻域上,保留了更多相關(guān)性的特征,通過Saliency Map在這些特征中找到對輸出結(jié)果影響程度較大的特征,對該特征進行擾動修改,即D-JSMA(Discrete Fourier Transform -Jacobian-based Saliency Map Attack)攻擊算法。 程式語對習(xí)得英語的作用,學(xué)界從不懷疑,程式語的固定性特征激起了學(xué)者們想找到一條放之四海而皆準的普遍規(guī)則,然而程式語半固定性特征又決定了“普遍規(guī)則”只能在特定語境下適用并非放之四海而皆準。在討論程式語時,應(yīng)該先把程式語分類,再討論不同類別的程式語的異同。即便是分類后的程式語,討論其特征時還不能離開語境。只有在語境的框架下進行討論,才有可能準確地描述其特征和規(guī)律。語言是活的語言,交際就是把語言用活,研究語言脫離交際也就失去意義了。因此不管是研究程式語的習(xí)得還是使用都不能脫離使用語言的背景。 xadv=DFT(x)+ε·sign(▽xJ(DFT(x,y))) Y*) (8) 有一些研究者通過將一些對抗樣本生成算法應(yīng)用在入侵檢測分類模型上,成功探索了入侵檢測分類器中可能出現(xiàn)的攻擊,并對入侵檢測對抗樣本的特征進行分析。Rigaki[23]分別使用JSMA和FGSM方法在NSL-KDD數(shù)據(jù)集上成功生成了入侵檢測對抗樣本,并對兩種方法修改的特征數(shù)量和耗費的時間進行了比較。Wang[24]在論文中總結(jié)了四種對抗樣本生成方法在入侵檢測領(lǐng)域的攻擊效果,詳細比較了FGSM、JSMA、DeepFool和C&W attack在NSL-KDD數(shù)據(jù)集上的效果,并分析了各方法對特征的修改情況。還有一些研究者從別的角度出發(fā),也為入侵檢測領(lǐng)域的對抗樣本研究提供了新的思路。丁燁等人[25]在頻譜上綜合分析了現(xiàn)有的攻擊方法和數(shù)據(jù)集,發(fā)現(xiàn)大部分的對抗樣本在頻域都出現(xiàn)了嚴重的偽影,提出一種通用的改進算法IAA-DCT。Li等人[26]提出基于決策的攻擊方式通常會進行過多的查詢,導(dǎo)致攻擊很容易被發(fā)現(xiàn),基于自然圖像的傅里葉光譜大部分集中在低頻域,提出頻域?qū)构舴绞?提高了攻擊效率。 算法2:D-JSMA 網(wǎng)絡(luò)信息的海量化和獲取的便利化,造成相當一部分學(xué)生做作業(yè)時對電腦產(chǎn)生依賴,主要表現(xiàn)為遇到問題時不是進行認真的思考和研究,而是動輒上網(wǎng)搜索,在網(wǎng)絡(luò)上尋找答案。因此,在新媒體環(huán)境下,如何提高學(xué)生的鉆研精神和創(chuàng)新意識,減少網(wǎng)絡(luò)依賴,杜絕網(wǎng)絡(luò)抄襲,成為學(xué)校和老師必須重視的問題。 輸入:干凈的樣本數(shù)據(jù)x,神經(jīng)網(wǎng)絡(luò)F,分類結(jié)果Y,特征變化參數(shù)θ,最大的對抗擾動λ 一方面,鄉(xiāng)村經(jīng)濟發(fā)展緩慢,農(nóng)民經(jīng)濟收入難以滿足消費需求。為了解決農(nóng)村貧困問題,平衡城鄉(xiāng)貧富差距,促進平等發(fā)展、共同富裕,鄉(xiāng)村必然成為改革前線。另一方面,近年來我國城市建設(shè)快速發(fā)展,積累了大量過剩的工商資本,急需開發(fā)新的市場并挖掘潛力。其實質(zhì)是以鄉(xiāng)村為載體,通過資本下鄉(xiāng)、產(chǎn)品下鄉(xiāng)、設(shè)計下鄉(xiāng)實現(xiàn)價值再生產(chǎn)、資本再循環(huán),實施精準扶貧,實現(xiàn)村民富裕、城鄉(xiāng)共同發(fā)展。 輸出:對抗樣本Xadv 1.初始化:X 2.ζ={1,2,…,|x|} 2.x←DFT(X) 4.WhileF(xadv)=Yand |δx|<λdo 5.計算前向?qū)?shù)▽F(Xadv) 算法1:D-FGSM 7.ModifyXadvbyθs.t.imax=argmaxiS(X,Y)[i] 8.δx←Xadv-X 2. 唐咸亨元年《宋世文暨妻車氏墓志》:“爰屬太武皇帝干維纘統(tǒng),云羅英,是用征公,期之不次?!?[11] 9.end While 總之,音樂是情感藝術(shù),“樂”由情起,這說明音樂由情感引起。情感教育在小學(xué)音樂教學(xué)中無處不在。在小學(xué)音樂教學(xué)實踐中我們應(yīng)以情感教育為核心,牢牢地把握情感教育原則,不時點燃學(xué)生的情感火花,使情感教育在小學(xué)音樂教學(xué)中真正實現(xiàn)其教育功能,在素質(zhì)教育中發(fā)揮其應(yīng)有的作用。 10.ReturnXadv 實驗使用的數(shù)據(jù)集是NSL-KDD,one-hot編碼將名義特征轉(zhuǎn)變?yōu)閿?shù)字特征,例如“協(xié)議類型”有三類值,分別是“tcp,udp,icmp”,使用one-hot編碼表示為“[1,0,0],[0,1,0],[0,0,1]”,編碼后離散特征與連續(xù)特征之間會有較大的極差,這會影響到權(quán)值攻擊類型。因此,該文對特征進行歸一化,使其都在[0,1]范圍內(nèi)。NSL-KDD數(shù)據(jù)集包含39種攻擊類型,屬于4大類:拒絕服務(wù)(DOS)、探測(Probe)、用戶到根(R2L)、遠程和本地(U2R),該文主要是做無目標攻擊,因此將結(jié)果修改為二分類的任務(wù)。實驗包括了126 003個訓(xùn)練集和22 544個測試集。實驗樣本NSL-KDD數(shù)據(jù)集的分布如表1所示。 表1 NSL-KDD數(shù)據(jù)集分布2.2 FGSM算法
2.3 JSMA算法
2.4 D-FGSM算法
2.5 D-JSMA算法
3 實驗分析
3.1 數(shù)據(jù)集
3.2 實驗步驟