嚴(yán)飛,張銘倫,張立強(qiáng)
基于邊界值不變量的對(duì)抗樣本檢測方法
嚴(yán)飛,張銘倫,張立強(qiáng)
(武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430072)
目前,深度學(xué)習(xí)成為計(jì)算機(jī)領(lǐng)域研究與應(yīng)用最廣泛的技術(shù)之一,在圖像識(shí)別、語音、自動(dòng)駕駛、文本翻譯等方面都取得良好的應(yīng)用成果。但人們逐漸發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)容易受到微小擾動(dòng)圖片的影響,導(dǎo)致分類出現(xiàn)錯(cuò)誤,這類攻擊手段被稱為對(duì)抗樣本。對(duì)抗樣本的出現(xiàn)可能會(huì)給安全敏感的應(yīng)用領(lǐng)域帶來災(zāi)難性的后果?,F(xiàn)有的防御手段大多需要對(duì)抗樣本本身作為訓(xùn)練集,這種對(duì)抗樣本相關(guān)的防御手段是無法應(yīng)對(duì)未知對(duì)抗樣本攻擊的。借鑒傳統(tǒng)軟件安全中的邊界檢查思想,提出了一種基于邊界值不變量的對(duì)抗樣本檢測防御方法,該方法通過擬合分布來尋找深度神經(jīng)網(wǎng)絡(luò)中的不變量,且訓(xùn)練集的選取與對(duì)抗樣本無關(guān)。實(shí)驗(yàn)結(jié)果表明,在LeNet、vgg19模型和Mnist、Cifar10數(shù)據(jù)集上,與其他對(duì)抗檢測方法相比,提出的方法可有效檢測目前的常見對(duì)抗樣本攻擊,并且具有低誤報(bào)率。
深度神經(jīng)網(wǎng)絡(luò);邊界檢查;不變量;對(duì)抗樣本檢測
深度神經(jīng)網(wǎng)絡(luò)(DNN)在許多應(yīng)用中取得了非常明顯的成功,如人臉識(shí)別[1]、自動(dòng)駕駛汽車[2]、惡意軟件分類[3]和專用網(wǎng)絡(luò)連接歸屬[4]。但隨著時(shí)間的推移,研究人員發(fā)現(xiàn)了DNN容易受到對(duì)抗樣本的影響[5],即攻擊者可以干擾良性輸入,加入擾動(dòng),使DNN出現(xiàn)分類錯(cuò)誤的情況。目前對(duì)抗樣本的攻擊方法主要分為兩種:基于梯度的方法和基于內(nèi)容的方法。在基于梯度的方法中,攻擊者將生成對(duì)抗樣本視為優(yōu)化問題,并進(jìn)行梯度搜索以找到對(duì)抗樣本[6-10]。在基于內(nèi)容的方法中,攻擊者更追求現(xiàn)實(shí)世界中的可用性,通常為輸入數(shù)據(jù)加入補(bǔ)丁,這些補(bǔ)丁與現(xiàn)實(shí)世界相符,如圖像上的水印和由攝像機(jī)鏡頭上的污垢造成的黑點(diǎn)等[11]。
目前對(duì)這類問題的解決思路主要包括兩個(gè)方向:提升DNN系統(tǒng)自身穩(wěn)健性和檢測對(duì)抗樣本。在提升DNN穩(wěn)健性方面,比較典型的工作包括對(duì)抗訓(xùn)練[7]和梯度遮掩[12]。對(duì)抗訓(xùn)練主要是將對(duì)抗樣本加入DNN的訓(xùn)練過程中,以此來增強(qiáng)DNN模型本身,這種技術(shù)對(duì)于已知攻擊十分有效,對(duì)于未知攻擊效果有限。梯度遮掩則是通過對(duì)于梯度進(jìn)行遮掩,使攻擊者難以利用梯度進(jìn)行對(duì)抗樣本生成。然而,攻擊者已經(jīng)開發(fā)了針對(duì)此類防御更高級(jí)的攻擊手段。文獻(xiàn)[13-16]不試圖加強(qiáng)模型本身,而是在操作過程中檢測對(duì)抗樣本。例如,Ma等[15]提出使用基于局部內(nèi)在維度的異常檢測度量來檢測對(duì)抗樣本;Xu[16]等使用精心構(gòu)造的濾波器來檢查原始圖像與轉(zhuǎn)換后圖像的預(yù)測的不一致性;MagNet[17]和HGD[18]則通過訓(xùn)練編碼器和解碼器來去除對(duì)抗樣本的附加噪聲。
調(diào)查發(fā)現(xiàn)目前多數(shù)針對(duì)對(duì)抗樣本的防御,往往考慮的是正常圖片與對(duì)抗樣本之間基于圖片像素之間的差異,通過這些差異進(jìn)行對(duì)抗樣本的檢測防御。同時(shí),大多數(shù)方法都需要對(duì)抗樣本作為訓(xùn)練數(shù)據(jù),由于新式對(duì)抗樣本攻擊方法層出不窮,因此并不能有效防御未知對(duì)抗樣本攻擊手段。本文借鑒軟件安全中的邊界檢查概念,僅僅通過訓(xùn)練數(shù)據(jù)進(jìn)行檢測器的訓(xùn)練,提出了基于邊界值不變量的對(duì)抗樣本檢測方法(簡稱BVI),該方法通過擬合分布來尋找深度神經(jīng)網(wǎng)絡(luò)中的不變量,具備對(duì)抗樣本攻擊手法無關(guān)的檢測能力。實(shí)驗(yàn)表明,該方法與同類工作相比,不僅可以檢測未知新型對(duì)抗樣本攻擊,還具有誤報(bào)率低的優(yōu)勢。
本節(jié)將對(duì)深度神經(jīng)網(wǎng)絡(luò)以及常見的對(duì)抗樣本攻擊和防御手段進(jìn)行介紹。
本文集中于-class分類模型。對(duì)于-class分類模型,模型輸出是一個(gè)維的vector,每一維表示輸入被分類為該類別的概率。定義一個(gè)神經(jīng)網(wǎng)絡(luò),如式(1)所示。
DNN受到對(duì)抗樣本的影響。對(duì)抗樣本是在被正常分類的輸入上加入一些擾動(dòng),使分類器對(duì)其分類錯(cuò)誤。目前的工作主要有兩種不同類別的生成對(duì)抗樣本的方法:基于梯度的方法與基于內(nèi)容的方法。
(1)基于梯度的方法
因此,生成對(duì)抗樣本可以被看作優(yōu)化問題,targeted攻擊如式(4)所示,untargeted攻擊如式(5)所示。
(2)基于內(nèi)容的攻擊
本節(jié)將討論針對(duì)DNN模型的4種現(xiàn)有的代表性攻擊,包括基于梯度的攻擊和基于內(nèi)容的攻擊。雖然一般情況下機(jī)器學(xué)習(xí)模型存在對(duì)抗性攻擊[23],但本文主要關(guān)注DNN模型上的對(duì)抗性樣本。
(1)快速梯度符號(hào)方法(FGSM,fast gradient sign method)
(2)DeepFool
Moosavi等[24]設(shè)計(jì)了DeepFool攻擊,首先假設(shè)模型是完全線性的。在這個(gè)假設(shè)下,有一個(gè)多面體可以分離各個(gè)類。生成對(duì)抗樣本成為一個(gè)更簡單的問題,因?yàn)轭惖倪吔缡蔷€性平面,整個(gè)區(qū)域(對(duì)于這個(gè)類)是一個(gè)多面體。DeepFool攻擊通過使用2距離搜索特定區(qū)域內(nèi)具有最小擾動(dòng)的對(duì)抗樣本,采用幾何中的方法來指導(dǎo)搜索對(duì)抗樣本的過程。對(duì)于模型不完全線性的情況,通過利用迭代線性化過程導(dǎo)出近似多面體,并在找到真正的對(duì)抗樣本時(shí)終止該過程。該攻擊的變化是在原始對(duì)象附近。DeepFool是untargeted攻擊。
(3)基于雅可比的顯著性圖攻擊(JSMA,Jacobian-based saliency map attack)方法
(4)Carlini and Wagner attacks(C&W)
目前,主流防御手段主要分為模型本身防御與外置的檢測手段。
對(duì)于現(xiàn)有的防御手段,防御技術(shù)通過強(qiáng)化DNN模型以防止對(duì)抗樣本攻擊[27-29]。Papernot等[30]全面研究了現(xiàn)有的防御機(jī)制,并將其分為兩大類:對(duì)抗性訓(xùn)練和梯度掩蔽。
Goodfellow等[7]介紹了對(duì)抗性訓(xùn)練的思想。對(duì)抗訓(xùn)練擴(kuò)展了訓(xùn)練數(shù)據(jù)集,包括帶有正確標(biāo)簽的對(duì)抗樣本。但是,對(duì)抗訓(xùn)練需要事先了解所有可能的攻擊,因此無法處理新的攻擊方法。
梯度遮掩[12]的基本思想是通過訓(xùn)練具有微小(如接近0)梯度的模型來增強(qiáng)訓(xùn)練過程,使模型對(duì)輸入中的微小變化不敏感。然而,實(shí)驗(yàn)表明梯度遮掩可能導(dǎo)致正常輸入樣本的準(zhǔn)確性降低。Papernot等[31]引入防御性蒸餾來強(qiáng)化DNN模型。它通過平滑現(xiàn)有DNN的預(yù)測結(jié)果來訓(xùn)練模型。通過將softmax函數(shù)平滑,來隱藏來自攻擊者的梯度信息。然而,此類模型可以通過高級(jí)攻擊[9-10,32]來打破。Athalye等[33]研究表明,通過梯度近似可以避免混淆梯度。Papernot等[30]得出結(jié)論,由于對(duì)抗樣本的可傳遞性,在訓(xùn)練中控制梯度信息對(duì)防御對(duì)抗性攻擊的影響有限,傳遞性意味著從某模型生成的對(duì)抗樣本可用于攻擊不同的模型。
對(duì)于現(xiàn)有檢測方面,對(duì)抗樣本檢測用于確定特定輸入樣本是否是對(duì)抗樣本。許多之前的研究[14,34-37]已經(jīng)建立了檢測系統(tǒng)?,F(xiàn)有的檢測手段可分為兩大類:基于度量的方法與基于預(yù)測不一致的方法。
(1)基于度量的方法
有關(guān)研究人員已經(jīng)提出對(duì)輸入(和激活值)進(jìn)行統(tǒng)計(jì)測量以檢測對(duì)抗樣本。FEINMAN等[13]提出使用核密度估計(jì)(KD)和貝葉斯不確定性(BU)來識(shí)別對(duì)抗子空間,以分離正常輸入和對(duì)抗樣本。Carlini等[38]表明這種方法可以被繞過,但也認(rèn)為這種方法是有希望的方向。受到來自異常檢測社區(qū)的想法的啟發(fā),Ma等[15]最近提出使用被稱為局部內(nèi)在維度(LID)的測量。對(duì)于給定的樣本輸入,該方法估計(jì)LID值,該LID值通過計(jì)算樣本的距離分布和各個(gè)層鄰居的數(shù)量來評(píng)估樣本周圍區(qū)域的空間填充能力。該文獻(xiàn)表明,對(duì)抗樣本往往具有較大的LID值。他們的研究結(jié)果表明,LID在對(duì)抗樣本檢測中優(yōu)于BU和KD,目前代表了這類型探測器的最精確水平。這些技術(shù)的關(guān)鍵挑戰(zhàn)是如何定義高質(zhì)量的統(tǒng)計(jì)指標(biāo),使該指標(biāo)可以清楚地分辨正常樣本和對(duì)抗樣本之間的差異。Lu等[39]研究表明LID對(duì)攻擊部署的置信參數(shù)很敏感,并且容易受到對(duì)抗樣本傳遞性的影響。
(2)基于預(yù)測不一致的方法
許多其他工作[6,40-41]都基于預(yù)測不一致的方法,即對(duì)抗樣本具有擾動(dòng),利用其他檢測手段與原輸出進(jìn)行比較,一致為正常樣本,不一致則為對(duì)抗樣本。TAO等[41]提出通過測量原始神經(jīng)網(wǎng)絡(luò)和用人類可感知屬性增強(qiáng)的神經(jīng)網(wǎng)絡(luò)之間的不一致來檢測對(duì)抗性的例子,然而,這種方法需要人類定義的檢測屬性。最先進(jìn)的檢測技術(shù)Feature Squeezing[16]可以實(shí)現(xiàn)對(duì)各種攻擊非常高的檢測率,文獻(xiàn)指出,DNN具有不必要的大輸入特征空間,這允許對(duì)手產(chǎn)生對(duì)抗樣本。因此,他們提出使用擠壓技術(shù)(即減小圖像的顏色深度和平滑圖像),以產(chǎn)生一些壓縮圖像。特征擠壓限制了對(duì)手可用的自由度,然后DNN模型獲取所有壓縮圖像和原始種子圖像,并單獨(dú)進(jìn)行預(yù)測。通過測量原始種子輸入的預(yù)測矢量和每個(gè)壓縮圖像之間的距離來檢測對(duì)抗性樣本。如果其中一個(gè)距離超過閾值,則種子輸入被視為惡意。然而,根據(jù)文獻(xiàn)[16],該技術(shù)在FGSM、BIM和一些基于內(nèi)容的攻擊方法在CIFAR和ImageNet上表現(xiàn)不佳。這是因?yàn)槠湫阅芨叨纫蕾囉谠O(shè)計(jì)的擠壓器的質(zhì)量。
假設(shè)對(duì)手知道原始分類器的所有內(nèi)容(包括訓(xùn)練的權(quán)重),以便攻擊者可以構(gòu)建強(qiáng)攻擊,如CW攻擊。同時(shí)檢測器不知道用于生成對(duì)抗樣本的方法。根據(jù)攻擊者對(duì)于檢測器的了解程度,可以分成多種場景。最弱的攻擊場景是對(duì)手對(duì)探測器一無所知,在這種情況下,攻擊者僅了解原始分類器。最強(qiáng)大的攻擊場景是對(duì)手完全了解使用的探測器。
由于探測器本身也是一個(gè)分類器,這使它容易受到對(duì)抗性樣本的影響[42]。不過,此限制并非特定于本文的技術(shù),因?yàn)槠渌F(xiàn)有檢測技術(shù)也遇到相同的問題。在如此強(qiáng)大的威脅模型下,與其他技術(shù)相比,本文的技術(shù)具有更好的彈性。如第3.2節(jié)所述,本文采用的檢測器基于多個(gè)子特征。在檢測器的訓(xùn)練期間,在激活的神經(jīng)元上分別擬合分布以產(chǎn)生多個(gè)分布函數(shù),這能夠靈活地生成多個(gè)檢測器。在運(yùn)行時(shí),可以使用不同的檢測器(或它們的組合)來檢測對(duì)抗樣本,這大大提高了產(chǎn)生對(duì)抗樣本的難度。但是,完全防止對(duì)抗樣本對(duì)于所有的DNN是幾乎不可能的。本文的目標(biāo)是建立一個(gè)通用而實(shí)用的解決方案來大幅提高攻擊者的攻擊門檻。
邊界檢查在程序設(shè)計(jì)中是指在使用某一個(gè)變量前,檢查該變量是否處在一個(gè)特定范圍之內(nèi)。最常見的是數(shù)組的下標(biāo)檢查,防止下標(biāo)超出數(shù)組范圍而覆蓋其他數(shù)據(jù)。若邊界檢查未能有效發(fā)現(xiàn)錯(cuò)誤,最常見的結(jié)果是程序出現(xiàn)異常并終止運(yùn)行,但也可能出現(xiàn)其他現(xiàn)象。將邊界檢查應(yīng)用到神經(jīng)網(wǎng)絡(luò)中,每一個(gè)神經(jīng)元經(jīng)過訓(xùn)練集的訓(xùn)練后,都可以得到一組該神經(jīng)元關(guān)于訓(xùn)練集的輸出集合,如式(7)所示。
同時(shí),由于DNN擁有多層結(jié)構(gòu)與大量神經(jīng)元,因此通過計(jì)算每個(gè)神經(jīng)元的邊界值開銷過大。基于對(duì)抗樣本是對(duì)于原圖片擾動(dòng)的假設(shè),在神經(jīng)網(wǎng)絡(luò)開始的層擾動(dòng)帶來的影響更大。后續(xù)的層擾動(dòng)經(jīng)過傳遞逐漸減弱,每一層點(diǎn)的分布開始和正常樣本趨于一致。
對(duì)抗樣本本質(zhì)是在正常圖片中加入擾動(dòng),該擾動(dòng)造成傳遞過程中輸出值的改變,從而最終影響分類結(jié)果。在神經(jīng)網(wǎng)絡(luò)中,低層往往提取的是最基本的特征。對(duì)抗樣本為了造成分類錯(cuò)誤,對(duì)于低層擾動(dòng)更大,更可能造成其分布與正常樣本不同,因此可以通過擬合前面幾層的數(shù)據(jù)分布作為訓(xùn)練監(jiān)測模型的特征。
對(duì)于輸入,需要了解是否符合中的所有分布。由于是對(duì)單個(gè)輸入,并且目標(biāo)中的分布不一定是正態(tài)分布,所以采用K-S(Kolmogorov- Smirnov)檢驗(yàn)。K-S檢驗(yàn)是以兩位蘇聯(lián)數(shù)學(xué)家Kolmogorov和Smirnov的名字命名的,它是一個(gè)擬合優(yōu)度檢驗(yàn),研究樣本觀察值的分布和設(shè)定的理論分布是否吻合,通過對(duì)兩個(gè)分布差異的分析確定是否有理由認(rèn)為樣本的觀察結(jié)果來自所假定的理論分布總體。因此,對(duì)于輸入,計(jì)算關(guān)于所有分布的K-S檢驗(yàn),得到的pvalue值為輸入關(guān)于分布f的置信度,也就是關(guān)于神經(jīng)元的邊界檢查置信度。該置信度值為后面訓(xùn)練檢測器所使用的特征。
本文檢測器的一大特點(diǎn)是僅使用良性樣本,也就是只使用訓(xùn)練樣本作為檢測器的訓(xùn)練集,這使該檢測器不同于那些基于對(duì)抗訓(xùn)練的防御方法以及需要對(duì)抗樣本作為訓(xùn)練集的檢測器。因此,本文的檢測器是與對(duì)抗樣本攻擊無關(guān)的,不需要考慮具體的對(duì)抗樣本攻擊手段,這樣對(duì)于未知的對(duì)抗樣本也具有很好的防御效果。
本文將不含對(duì)抗樣本的訓(xùn)練任務(wù)建模為一個(gè)單分類任務(wù)。在單分類任務(wù)中,大部分訓(xùn)練樣本是正例,在測試時(shí)包含所有種類輸入(如不同環(huán)境下的對(duì)抗樣本攻擊)。單分類任務(wù)在文獻(xiàn)[37,43]中經(jīng)過詳細(xì)討論。盡管單分類不如正負(fù)分類精確,但在本文的場景中非常適合,因?yàn)槭褂昧硕嘟M不變量聯(lián)合作為決策依據(jù),因此可以有效緩和單分類的不精確問題。
本文使用One-class SVM[37]算法作為分類器。One-class SVM的基本思想是在不同類別之間假設(shè)一個(gè)決策邊界,通過訓(xùn)練集來學(xué)習(xí)決策邊界的參數(shù)。對(duì)于OSVM來說,最常用到的是RBF核,在本文的條件中,大部分輸入是不合法的(如大多數(shù)隨機(jī)圖片是不真實(shí)的),合法輸入都聚集在一個(gè)小空間中,因此使用RBF可以得到很好的效果。使用之前得到的輸入關(guān)于中分布的K-S檢驗(yàn)置信度作為特征進(jìn)行OSVM的訓(xùn)練,核為RBF核,由此得到本文的檢測器。其正例輸出為1,則為正常樣本;輸出?1,則為對(duì)抗樣本。
1) 數(shù)據(jù)集。本文采用兩個(gè)流行的圖像數(shù)據(jù)集MNIST[44],CIFAR-10[45]。MNIST是用于手寫數(shù)字識(shí)別的灰度數(shù)據(jù)圖像。CIFAR-10是用于對(duì)象識(shí)別的彩色圖像數(shù)據(jù)集。本文選擇這兩個(gè)數(shù)據(jù)集是因?yàn)樗鼈兪谴巳蝿?wù)中使用最廣泛的數(shù)據(jù)集,并且目前大部分攻擊都是針對(duì)它們執(zhí)行的。其中MNIST數(shù)據(jù)集具有60 000張訓(xùn)練圖片,10 000張測試圖片。CIFAR-10具有50 000張彩色訓(xùn)練圖片,10 000張測試圖片。MNIST和CIFAR-10均為多分類問題。
2) 對(duì)抗樣本攻擊手段。本文評(píng)估了第2節(jié)描述的4種攻擊的檢測。對(duì)于FGSM、JSMA攻擊,使用Foolbox庫[46]來生成對(duì)抗樣本,而對(duì)于其他攻擊,參考了文獻(xiàn)[24-25]。對(duì)于這4種攻擊,F(xiàn)GSM采用untargeted攻擊方式,因?yàn)橄啾萾argeted方式,untargeted修改的幅度更小,更難被檢測出來。對(duì)于CW和JSMA攻擊,采用兩種攻擊配置:下一類別攻擊(記作Next),即使圖片錯(cuò)誤分類成它的下一個(gè)類別(如將2分類成3)最小類別攻擊(記作LL),將圖片錯(cuò)誤分類成其差異最大的類別(如將1分類成8)。
3) 模型。本文在兩種流行的模型上評(píng)估提出的技術(shù)。對(duì)于MNIST數(shù)據(jù)集,使用LeNet家族中的LeNet-5模型[45];對(duì)于CIFAR-10數(shù)據(jù)集,采用VGG19模型[47]。
4) 比較。同樣和頂尖的檢測器進(jìn)行對(duì)比。基于度量的防御方法選取LID[15];降噪的防御方法選取MagNet[17];基于預(yù)測不一致的防御方法,選取Feature Squeezing[16]。
本文方法對(duì)于對(duì)抗樣本檢測的結(jié)果如表1所示。從結(jié)果可以看出,除了JSMA攻擊,其余都基本全部檢測出來。由于JSMA是0攻擊,修改的像素點(diǎn)較少,因此邊界檢查即分布擬合的違反較小,所以準(zhǔn)確率相較于其他方法較低。
本文方法與其他檢測器的檢測結(jié)果的比較如表2所示。每一行代表一個(gè)檢測器方法,每一列代表一種攻擊手段。從表2可以看出,本文的檢測手段基本達(dá)到了目前最高水準(zhǔn)的準(zhǔn)確率。同時(shí),具有目前最低的誤報(bào)率,這是基于測試集分布與訓(xùn)練集基本一樣得到的,這意味著本文的檢測器模型最大程度上避免將良性樣本分類成對(duì)抗樣本,因此本文的分類器分類結(jié)果最為可信。
表1 本文方法對(duì)于對(duì)抗體檢測的結(jié)果
表2 本文方法與其他檢測器的檢測結(jié)果的比較
本文基于傳統(tǒng)軟件安全領(lǐng)域的邊界檢查,通過擬合輸出的分布,構(gòu)建了一種不依賴于攻擊方式的對(duì)抗樣本防御手段。本文的防御手段只使用了訓(xùn)練集和圖像本身的信息,而不需要任何特定對(duì)抗樣本攻擊知識(shí)。實(shí)驗(yàn)結(jié)果表明,采用邊界不變量的檢測手段達(dá)到了目前最好的檢測效果級(jí)別,同時(shí)擁有極低的誤報(bào)率,可以更有效地進(jìn)行對(duì)抗樣本檢測。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2012: 1097-1105.
[2] BOJARSKI M, Del TESTA D, DWORAKOWSKI D, et al. End to end learning for self-driving cars[J]. arXiv preprint arXiv:1604.07316, 2016.
[3] DAHL G E, STOKES J W, DENG L, et al. Large-scale malware classification using random projections and neural networks[C]// 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013: 3422-3426.
[4] MIRSKY Y, DOITSHMAN T, ELOVICI Y, et al. Kitsune: an ensemble of autoencoders for online network intrusion detection[J]. arXiv preprint arXiv:1802.09089, 2018.
[5] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.
[6] DHILLON G S, AZIZZADENESHELI K, LIPTON Z C, et al. Stochastic activation pruning for robust adversarial defense[J]. arXiv preprint arXiv:1803.01442, 2018.
[7] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[J]. arXiv: preprint arXiv: 1412. 6572, 2014.
[8] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.
[9] CARLINI N, WAGNER D. Defensive distillation is not robust to adversarial examples[J]. arXiv preprint arXiv:1607.04311, 2016.
[10] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy (EuroS&P). 2016: 372-387.
[11] LIU Y, MA S, AAFER Y, et al. Trojaning attack on neural networks[C]// Network and Distributed System Security Symposium. 2018.
[12] GU S, RIGAZIO L. Towards deep neural network architectures robust to adversarial examples[J]. arXiv preprint arXiv:1412.5068, 2014.
[13] FEINMAN R, CURTIN R R, SHINTRE S, et al. Detecting adversarial samples from artifacts[J]. arXiv preprint arXiv:1703.00410, 2017.
[14] GROSSE K, MANOHARAN P, PAPERNOT N, et al. On the (statistical) detection of adversarial examples[J]. arXiv preprint arXiv:1702.06280, 2017.
[15] MA X, LI B, WANG Y, et al. Characterizing adversarial subspaces using local intrinsic dimensionality[J]. arXiv preprint arXiv: 1801.02613, 2018.
[16] XU W, EVANS D, QI Y. Feature squeezing: detecting adversarial examples in deep neural networks[J]. arXiv preprint arXiv: 1704.01155, 2017.
[17] MENG D, CHEN H. Magnet: a two-pronged defense against adversarial examples[C]//The 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 135-147.
[18] LIAO F, LIANG M, DONG Y, et al. Defense against adversarial attacks using high-level representation guided denoiser[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1778-1787.
[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[20] BROWN T B, MANé D, ROY A, et al. Adversarial patch[J]. arXiv preprint arXiv:1712.09665, 2017.
[21] EYKHOLT K, EVTIMOV I, FERNANDES E, et al. Robust physical-world attacks on deep learning models[J]. arXiv preprint arXiv:1707.08945, 2017.
[22] PEI K, CAO Y, YANG J, et al. Deepxplore: automated whitebox testing of deep learning systems[C]//The 26th Symposium on Operating Systems Principles. 2017: 1-18.
[23] BIGGIO B, ROLI F. Wild patterns: ten years after the rise of adversarial machine learning[J]. Pattern Recognition, 2018, 84: 317-331.
[24] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2574-2582.
[25] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 39-57.
[26] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.
[27] ROUHANI B D, SAMRAGH M, JAVAHERIPIM, et al. Deepfense: online accelerated defense against adversarial deep learning[C]//IEEE/ACM International Conference on Computer-Aided Design (ICCAD). 2018: 1-8.
[28] SONG Y, KIM T, NOWOZIN S, et al. Pixeldefend: leveraging generative models to understand and defend against adversarial examples[J]. arXiv preprint arXiv:1710.10766, 2017.
[29] XIE C, WANG J, ZHANG Z, et al. Mitigating adversarial effects through randomization[J]. arXiv preprint arXiv:1711.01991, 2017.
[30] PAPERNOT N, MCDANIEL P, SINHA A, et al. Towards the science of security and privacy in machine learning[J]. arXiv preprint arXiv:1611.03814, 2016.
[31] PAPERNOT N, MCDANIEL P, WU X, et al. Distillation as a defense to adversarial perturbations against deep neural networks[C]//2016 IEEE Symposium on Security and Privacy (SP). 2016: 582-597.
[32] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.
[33] ATHALYE A, CARLINI N, WAGNER D. Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples[J]. arXiv preprint arXiv:1802.00420, 2018.
[34] BHAGOJI A N, CULLINA D, MITTAL P. Dimensionality reduction as a defense against evasion attacks on machine learning classifiers[J]. arXiv preprint arXiv:1704.02654, 2017.
[35] GONG Z, WANG W, KU W S. Adversarial and clean data are not twins[J]. arXiv preprint arXiv:1704.04960, 2017.
[36] HENDRYCKS D, GIMPEL K. Early methods for detecting adversarial images[J]. arXiv preprint arXiv:1608.00530, 2016.
[37] TAX D M J, DUIN R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 20(11-13): 1191-1199.
[38] CARLINI N, WAGNER D. Adversarial examples are not easily detected: bypassing ten detection methods[C]//The 10th ACM Workshop on Artificial Intelligence and Security. 2017: 3-14.
[39] LU P H, CHEN P Y, YU C M. On the limitation of local intrinsic dimensionality for characterizing the subspaces of adversarial examples[J]. arXiv preprint arXiv:1803.09638, 2018.
[40] GUO C, RANA M, CISSE M, et al. Countering adversarial images using input transformations[J]. arXiv preprint arXiv:1711.00117, 2017.
[41] TAO G, MA S, LIU Y, et al. Attacks meet interpretability: attribute-steered detection of adversarial samples[C]//Advances in Neural Information Processing Systems. 2018: 7717-7728.
[42] GILMER J, METZ L, FAGHRI F, et al. Adversarial spheres[J]. arXiv preprint arXiv:1801.02774, 2018.
[43] PERERA P, PATEL V M. Learning deep features for one-class classification[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5450-5463.
[44] TAX D M J, DUIN R P W. Data domain description using support vectors[C]//ESANN. 1999, 99: 251-256.
[45] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[R]. Technical Report, University of Toronto, 2009.
[46] RAUBER J, BRENDEL W, BETHGE M. Foolbox: a Python toolbox to benchmark the robustness of machine learning models[J]. arXiv preprint arXiv:1707.04131, 2017.
[47] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
Adversarial examples detection method based on boundary values invariants
YAN Fei, ZHANG Minglun, ZHANG Liqiang
Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education, School of Cyber Science and Engineering, Wuhan University, Wuhan 430072, China
Nowadays, deep learning has become one of the most widely studied and applied technologies in the computer field. Deep neural networks(DNNs) have achieved greatly noticeable success in many applications such as image recognition, speech, self-driving and text translation. However, deepneural networks are vulnerable to adversarial examples that are generated by perturbing correctly classified inputs to cause DNN modes to misbehave. A boundary check method based on traditional programs by fitting the distribution to find the invariants in the deep neural network was proposed and it use the invariants to detect adversarial examples. The selection of training sets was irrelevant to adversarial examples. The experiment results show that proposed method can effectively detect the current adversarial example attacks on LeNet, vgg19 model,Mnist, Cifar10 dataset, and has a low false positive rate.
deep neuron network, boundary checking, invariant, adversarial examples detecting
s: The National Basic Research Program of China (973 Program) (2014CB340601),The National Natural Science Foundation of China (No.61272452 )
TP309.2
A
10.11959/j.issn.2096?109x.2020012
嚴(yán)飛(1980? ),男,湖北武漢人,武漢大學(xué)副教授、碩士生導(dǎo)師,主要研究方向?yàn)橄到y(tǒng)安全、可信計(jì)算、系統(tǒng)安全驗(yàn)證與形式化分析和移動(dòng)目標(biāo)防御。
張銘倫(1995? ),男,江蘇連云港人,武漢大學(xué)碩士生,主要研究方向?yàn)槿斯ぶ悄芟到y(tǒng)本身的安全防護(hù)問題。
張立強(qiáng)(1979? ),男,黑龍江哈爾濱人,武漢大學(xué)講師,主要研究方向?yàn)橄到y(tǒng)安全、可信計(jì)算和安全測評(píng)。
論文引用格式:嚴(yán)飛, 張銘倫, 張立強(qiáng). 基于邊界值不變量的對(duì)抗樣本檢測方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(1): 38-45.
YAN F, ZHANG M L, ZHANG L Q. Adversarial examples detection method based on boundary values invariants [J]. Chinese Journal of Network and Information Security, 2020, 6(1): 38-45.
2019?09?11;
2020?02?02
張立強(qiáng),zhanglq@whu.edu.cn
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340601 );國家自然科學(xué)基金資助項(xiàng)目(No.61272452)