• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向深度學習模型的對抗攻擊與防御方法綜述

    2021-01-15 07:17:14張立國
    計算機工程 2021年1期
    關鍵詞:對抗性擾動梯度

    姜 妍,張立國

    (哈爾濱工程大學計算機科學與技術學院,哈爾濱 150001)

    0 概述

    隨著人工智能技術的快速發(fā)展,深度學習已廣泛應用于圖像分類[1-3]、目標檢測[4-6]和語音識別[7-9]等領域,但由于其自身存在若干技術性不足,導致深度學習在給人們生活帶來極大便利的同時也面臨著較多挑戰(zhàn),模型算法的安全隱患更是加劇了深度學習技術被對抗樣本欺騙以及隱私泄露等安全風險,因此深度學習的安全問題[10]引起了研究人員的廣泛關注。在早期研究中,針對深度學習算法潛在攻擊以及相應防御方法的研究,主要關注模型的攻擊成功率以及是否能夠成功規(guī)避某種攻擊方法。以傳統(tǒng)的分類模型為例,其存在判斷準確度越高則模型魯棒性越低這一問題,因此,學者們開始關注模型魯棒性和準確度的平衡問題。

    現(xiàn)有綜述性文獻多數(shù)傾向于闡述傳統(tǒng)的對抗攻擊與防御方法。近年來,對抗樣本的研究變得多樣化,早期研究通常將對抗樣本視為神經網絡的一種威脅,近期學者們聚焦于如何在不同領域利用對抗樣本的特性來更好地完成分類和識別等任務。

    2013 年,SZEGEDY等人[11]利用難以察覺的擾動來揭示深度神經網絡的脆弱特性。2014 年,GOODFELLOW等人[12]提出對抗樣本的概念。此后,越來越多的研究人員專注于該領域的研究。早期的研究工作致力于分析不同深度學習模型(如循環(huán)神經網絡、卷積神經網絡等)中的漏洞以及提高模型對對抗樣本的魯棒性。BARRENO 等人[13]對深度學習的安全性進行了調研,并針對機器學習系統(tǒng)的攻擊進行分類。PAPERNOT 等人[14]總結了已有關于機器學習系統(tǒng)攻擊和相應防御的研究成果,并系統(tǒng)分析機器學習的安全性和隱私性,提出機器學習的威脅模型。近年來,針對對抗樣本的研究更加多樣化。2019 年,XIE 等人[15]提出利用對抗樣本改進圖像識別模型精度的方法。2020 年,DUAN 等人[16]利用風格遷移技術[17]使對抗樣本在物理世界變得人眼不可察覺,以達到欺騙算法的目的。由于深度學習模型存在脆弱性,類似的對抗攻擊同樣會威脅深度學習在醫(yī)療安全、自動駕駛等方面的應用。

    自從對抗攻擊的概念被提出之后,研究人員不斷提出新的攻擊方法和防御手段?,F(xiàn)有的對抗攻擊方法研究主要針對對抗樣本的生成方法以及如何提高對模型的攻擊成功率,對抗防御研究主要關注基于對抗樣本的檢測與提高模型魯棒性2 個方面。本文介紹對抗樣本的概念、產生的原因及對抗樣本的可遷移性,分析現(xiàn)階段經典的對抗樣本生成方法以及檢測手段,并歸納針對上述檢測手段的防御策略,通過梳理分析較為先進的對抗樣本應用方法以展望該領域未來的研究方向。

    1 對抗攻擊

    1.1 深度學習

    深度學習[18]是一種深層模型,其利用多層非線性變換進行特征提取,由低層特征抽取出高層更抽象的表示。從廣義上而言,深度學習所用到的神經網絡主要分為循環(huán)神經網絡[19]、深度置信網絡[20]和卷積神經網絡[21]等。與所有連接主義模型固有的脆弱性問題相同,深度學習系統(tǒng)很容易受到對抗樣本的攻擊。

    1.2 對抗攻擊的概念

    對抗樣本指人為構造的樣本。通過對正常樣本x添加難以察覺的擾動η,使得分類模型f對新生成的樣本x'產生錯誤的分類判斷。新生成的對抗樣本為x'=x+η,即:

    目前,尋找擾動的主流方法包括快速梯度攻擊(FGSM)[12]、C&W 攻擊[22]、替代黑盒攻擊[23]、DeepFool攻擊[24]、單像素攻擊(One-Pixel Attack,OPA)[25]、AdvGAN 攻擊[26]、通用對抗擾動[27]和后向傳遞可微近似(Backward Pass Differentiable Approximation,BPDA)方法[28]等。一些研究成功攻擊了除卷積神經網絡和深度神經網絡之外的其他深度學習模型,甚至在現(xiàn)實世界中產生對抗的實例,如對抗眼鏡[29]、對抗停止標志[30]等,這些都對物理世界中的深度學習系統(tǒng)造成了干擾。

    圖1 所示為通過FGSM 方法生成的對抗樣本,加入了擾動的對抗樣本使左圖的熊貓被錯誤分類為長臂猿。FGSM 方法在各個維度上移動相同大小的一步距離,雖然一步很小,但每個維度上的效果相加,也足以對分類器的判別結果產生顯著影響,因此,F(xiàn)GSM 攻擊方法可應用于任何可以計算?x L(x,y)的深度學習模型。

    圖1 FGSM 方法生成的對抗樣本Fig.1 Adversarial samples generated by FGSM method

    對抗樣本可以輕易欺騙某種深度神經網絡模型,且其具有可遷移性[31],可用于欺騙其他模型。對抗樣本的可遷移性分為以下3 種類別:

    1)在同一數(shù)據(jù)集訓練的不同模型之間的可遷移性,如深層神經網絡下的VGG16[32]和ResNet[2]之間。

    2)在不同機器學習技術之間的可遷移性,如支持向量機[33]和深度神經網絡之間。

    3)在執(zhí)行不同任務的模型之間的可遷移性,如語義分割[34]、圖像分割和目標檢測模型之間。

    影響樣本可遷移性的4 個因素具體如下:

    1)模型類型。PAPERNOT 等人[35]研究發(fā)現(xiàn),深度神經網絡和k 近鄰算法對跨技術可遷移性更為穩(wěn)健,但對技術內可遷移性較為脆弱,線性回歸[36]、支持向量機、決策樹[37]和集成方法對技術內可遷移性更為穩(wěn)健,但對跨技術可遷移性較為脆弱。

    2)對抗樣本的攻擊力。KURAKIN 等人[38]研究發(fā)現(xiàn),能夠穿透堅固防御模型的更強的對抗樣本不太可能遷移到其他模型,而生成攻擊但并未成功攻擊防御模型的對抗樣本更容易遷移,為滲透特定防御方法而產生的對抗樣本可能“過擬合”欺騙特定模式。

    3)非目標攻擊比目標攻擊更容易遷移。LIU 等人[39]通過研究ImageNet 數(shù)據(jù)集的可遷移性,發(fā)現(xiàn)可遷移的非目標對抗樣本比目標樣本更多,且不同模型的決策邊界一致。

    4)數(shù)據(jù)的統(tǒng)計規(guī)律。JO 和BENGIO[32]認為卷積神經網絡傾向于學習數(shù)據(jù)中的統(tǒng)計規(guī)律而非抽象概念。由于對抗樣本具有可遷移性,使其在同一數(shù)據(jù)集上訓練的模型之間可遷移,這些模型可能學習相同的統(tǒng)計信息從而落入同樣的“陷阱”。

    1.3 對抗樣本的產生原因

    自從對抗樣本被發(fā)現(xiàn)以來,其產生原因一直是學者們爭議的熱點。

    2014 年,SZEGEDY 等人[11]認為對抗樣本位于數(shù)據(jù)流形的低概率區(qū)域,由于分類器在訓練階段只學習局部子區(qū)域,而對抗樣本超出了學習的子集,導致深度神經網絡分類錯誤。如圖2 所示,A 類和B 類分別表示不同的樣本空間,模型訓練所得的分類邊界(曲線)與真實決策邊界(直線)并不重合,在曲線與直線相交的區(qū)域出現(xiàn)樣本會導致模型判斷失誤,曲線和直線包圍的區(qū)域即為對抗區(qū)域。

    圖2 對抗樣本區(qū)域Fig.2 The area of adversarial samples

    2015年,GOODFELLOW 等人[12]反駁了SZEGEDY等人的觀點,認為深度神經網絡的脆弱性是由于模型的局部線型特性所導致,特別是模型使用如ReLU[35]或Maxout[40]等線性激活函數(shù)時,更容易受到對抗樣本的攻擊。雖然神經網絡也使用非線性激活函數(shù),但是為避免出現(xiàn)梯度消失等現(xiàn)象[40-42],研究人員通常在激活函數(shù)的線性區(qū)域內訓練網絡。此外,GOODFELLOW 等人認為快速梯度攻擊是基于線性假設而設計的,能夠有效欺騙深層神經網絡,從而驗證了神經網絡行為類似于線性分類器的論點。

    2017 年,ARPIT 等人[31]通過分析神經網絡對訓練數(shù)據(jù)的記憶能力,發(fā)現(xiàn)記憶能力強的模型更容易受到對抗樣本的影響。

    2018 年,GILMER等人[43-44]認為數(shù)據(jù)流形的高維幾何結構產生了對抗樣本,他們在合成數(shù)據(jù)集的基礎上對對抗樣本與數(shù)據(jù)流形高維幾何結構之間的關系進行了分析論證。

    截至目前,深度學習模型易受對抗樣本攻擊的原因仍然是一個開放的研究課題,缺乏完備的理論體系,這也制約著深度學習系統(tǒng)的進一步發(fā)展。

    2 對抗樣本的攻擊方式及目標

    根據(jù)攻擊者掌握的模型信息可將攻擊分為白盒攻擊與黑盒攻擊2 種,通過攻擊者選擇的攻擊目標可將攻擊分為目標攻擊、無目標攻擊和通用攻擊3 種。

    2.1 攻擊方式

    白盒攻擊與黑盒攻擊具體如下:

    1)白盒攻擊:攻擊者了解攻擊模型的詳細信息,如數(shù)據(jù)預處理方法、模型結構和模型參數(shù)等,某些情況下攻擊者還能掌握部分或全部的訓練數(shù)據(jù)信息。在白盒攻擊環(huán)境中,攻擊者對可攻擊的模型擁有控制能力,能夠觀測并設計相應的攻擊策略并更改程序運行時的內部數(shù)據(jù)。

    2)黑盒攻擊:攻擊者不了解攻擊模型的關鍵細節(jié),攻擊者僅能夠接觸輸入和輸出環(huán)節(jié),不能實質性地接觸任何內部操作和數(shù)據(jù)。在黑盒攻擊環(huán)境中,攻擊者可以通過對模型輸入樣本并根據(jù)模型的輸出信息來對模型的某些特性進行推理。

    2.2 攻擊目標

    目標攻擊、無目標攻擊和通用攻擊具體如下:

    1)目標攻擊:攻擊者指定攻擊范圍和攻擊效果,使被攻擊模型不但樣本分類錯誤并且將樣本錯誤分類成指定的類別。

    2)無目標(無差別)攻擊:攻擊者的攻擊目標更為寬泛,攻擊目的只是讓被攻擊模型對樣本進行錯誤分類但并不指定分類成特定類別。

    3)通用攻擊:攻擊者設計一個單一的轉換,例如圖像擾動,該轉換是對所有或者多數(shù)輸入值造成模型輸出錯誤的攻擊。

    3 對抗樣本的生成方法

    現(xiàn)階段較為經典的攻擊方法是FGSM 方法及其變體、C&W 攻擊、替代黑盒攻擊、DeepFool 攻擊、單像素攻擊、AdvGAN 攻擊、通用對抗擾動、后向傳遞可微近似方法,具體如下:

    1)FGSM 方法。FGSM 方法最早由GOODFELLOW等人[12]提出,其工作原理是計算輸入的損失函數(shù)的梯度,并通過將一個選定的小常數(shù)乘以梯度的符號向量來產生一個小的擾動,如下:

    其中,ε表示調節(jié)系數(shù),?x L(x,y)是相對于輸入x損失函數(shù)的一階導數(shù)。FGSM 是早期經典的攻擊方法,此后衍生出許多以FGSM 為基礎的對抗攻擊方法,如基本迭代方法(Basic Iterative Method,BIM)、動量迭代的FGSM 方法和多樣性的FGSM 方法等。

    (1)基本迭代方法。BIM 是FGSM 的一種拓展,由KURAKIN 等人[38]提出。BIM 通過迭代的方式沿著梯度增加的方向進行多步小的擾動,并且在每一小步后重新計算梯度方向,迭代過程如下:

    其中,Clip{·}約束坐標的每個輸入特征,如像素,將其限制在輸入x的擾動鄰域以及可行的輸入空間中,n為迭代總數(shù)量,α為步長。BIM相比FGSM 能構造出更加精準的擾動,攻擊效果更好,并在諸多對抗樣本攻防比賽中得到了廣泛應用,但是其不足之處是提高了計算量。

    (2)動量迭代的FGSM 方法。2018 年,DONG 等人[45]提出一種優(yōu)化的基于動量迭代[46]的FGSM(Momentum Iterative FGSM,MI-FGSM)方法。使用動量能夠穩(wěn)定擾動的更新方向,也有助于逃離局部極大值,從而提高樣本的可遷移性并提升攻擊的成功率。將動量融入到基本迭代的方法中從而產生擾動,首先輸入到分類器f以得到梯度,通過式(4)累積梯度方向上的速度矢量從而更新gt+1,然后應用式(5)中的符號梯度來更新,最后產生擾動。

    上述過程能夠證明BIM 生成的對抗樣本比FGSM 生成的對抗樣本更不可遷移,更強的樣本通常更不可遷移,與FGSM 和BIM 攻擊相比,MIFGSM 提高了對抗樣本的可遷移性。

    其中,T(·)表示圖像變換。DI-FGSM 方法可以和其他攻擊方法相結合,例如PGD 和C&W。實驗結果表明,加入多樣性的D-C&W 的攻擊成功率明顯高于原始的C&W 攻擊。使用DI-FGSM 方法能夠同時實現(xiàn)白盒攻擊和黑盒攻擊的高成功率,并在此基礎上提高對抗樣本的可遷移性。DI-FGSM 方法的更新過程與基本迭代方法相似。

    圖3 所示為FGSM 方法及其變體的轉換關系,其中,N表示可遷移性概率,μ表示衰減因子,p表示總的迭代數(shù)量。

    圖3 FGSM 方法及其變體之間的轉換關系Fig.3 Transformation relationship between FGSM method and its variants

    2)C&W攻擊。CARLINI 和WAGNER[22]提出3 種對抗攻擊方法(L0攻擊、L2攻擊、L∞攻擊),用于尋找能夠最小化各種相似性度量的擾動。通過限制L0、L2、L∞范數(shù),使得擾動近似于無法被察覺。實驗結果表明,這3 種攻擊以100%的成功率繞過了防御蒸餾,同時在L0、L2和L∞范數(shù)下保持對抗樣本與原始輸入相似,具有很強的可遷移性。在MNIST、CIFAR10和ImageNet 上進行評估時,C&W 方法優(yōu)于同一時期較先進的攻擊方法,如BIM 攻擊,即使在現(xiàn)階段,C&W 攻擊依舊被廣泛應用。

    3)替代黑盒攻擊。PAPERNOT等人[23]提出一種早期的黑盒攻擊方法,即替代黑盒攻擊(Substitute Blackbox Attack,SBA)。SBA 攻擊訓練一個模仿黑盒模型的替代模型,在該替代模型上使用白盒攻擊。具體而言,攻擊者首先從目標模型收集一個合成數(shù)據(jù)集,訓練一個替代模型來模擬目標模型的預測。在訓練替代模型后,可以使用任何白盒攻擊生成對抗樣本,原因是替代模型的細節(jié)已知。SBA 可用于攻擊其他機器學習模型,如邏輯回歸和支持向量機等模型。通過在MNIST 數(shù)據(jù)集上定位來自亞馬遜、谷歌和MetaMind 的真實世界圖像識別系統(tǒng)來評估SBA,結果表明,SBA 能夠以高精度(>80%)欺騙所有目標,且其可以規(guī)避依賴梯度掩蔽的防御方法。

    4)DeepFool 攻擊。MOOSAVI 等人[24]提出一種不對原始樣本擾動范圍進行限制的新方法DeepFool,其為一種早期的對抗樣本生成方法,可以生成比快速梯度攻擊更小的擾動。DeepFool 首先初始化原始圖像并假定分類器的決策邊界限制圖像分類的結果,然后通過每一次迭代,沿著決策邊界方向進行擾動,逐步地將分類結果向決策邊界另一側移動,使得分類器分類錯誤。和FGSM 相比,DeepFool計算速度更快,可以生成更精確的擾動。

    5)單像素攻擊。OPA[25]是一種“半黑盒”攻擊方法,其使用差分進化算法策略來尋找對抗性擾動。OPA 的目的是通過只修改給定圖像x的一個特征來欺騙目標模型。通過對原有數(shù)據(jù)修改3 個或5 個像素來產生對抗樣本,在多種模型下都可達到誤分類的效果,好的情況下修改1 個像素即可產生誤分類結果。

    6)AdvGAN 攻擊。XIAO 等人[26]提出一種基于生成對抗網絡(GAN)框架的對抗生成方法AdvGAN,AdvGAN 主要由3 個部分組成,分別為生成器G、判別器D和目標神經網絡C。該方法將原始樣本x通過GAN 生成器G映射成對抗擾動G(x),然后將擾動輸入原始樣本x中,一旦經過訓練,網絡可以迅速產生新的對抗樣本x+G(x),判別器D判別輸入的樣本是否為對抗樣本,同時用生成的對抗樣本欺騙目標神經網絡C。AdvGAN 在對抗性訓練中的表現(xiàn)優(yōu)于快速梯度攻擊和C&W,其產生的對抗樣本在視覺上與真實樣本難以區(qū)分。但是,AdvGAN 方法存在一個潛在問題,盡管其被證明能夠繞過阻礙快速梯度攻擊和C&W 方法的防御方法,但與其他基準對抗性攻擊和防御方法相比,AdvGAN 在對抗性訓練設置中較為單一,可能不會被廣泛應用。

    7)通用對抗擾動。通用對抗擾動(Universal Adversarial Perturbation,UAP)[27]是一種適用于不同網絡模型的通用擾動計算方法,其工作原理是累積單個輸入的擾動,以這種方式產生的擾動v可以添加到每個數(shù)據(jù)樣本中,以便將它們推向目標的決策邊界附近,重復此過程,直至樣本被錯誤分類。實驗結果表明,各種模型均存在通用擾動,通用擾動在這些模型之間表現(xiàn)出較高的可轉換性。UAP 攻擊的一個潛在缺陷是其不能保證每一個更新的通用擾動v對更新前出現(xiàn)的數(shù)據(jù)點仍然具有對抗性。

    采取SPSS16.0軟件對整理后的數(shù)據(jù)做進一步的描述統(tǒng)計分析、獨立樣本T檢驗、相關分析以及一元回歸分析。

    8)后向傳遞可微近似方法。ATHALYE 等人[28]針對現(xiàn)有多數(shù)防御方法依賴于模糊模型梯度的問題,提出利用防御模型的可微近似來獲得有意義的對抗梯度估計從而修改對抗攻擊的方法,該方法稱為BPDA 方法。BPDA 方法結合期望大于轉化攻擊(Expectation over Transformation,EoT)方法[40],可以攻破混淆梯度防御。BPDA 方法給定輸入樣本數(shù)據(jù)x,假設神經網絡可寫為函數(shù)f1,2,…,j(x),在計算對抗樣本梯度時,攻擊者可以用另一個函數(shù)g(x)來進行計算,在前向傳播驗證對抗樣本是否成功時仍然使用f1,2,…,j(x)進行判斷。BPDA 方法成功攻破了7種基于混淆梯度的防御方法。

    本文總結以上8 種比較經典的對抗攻擊方法,包括攻擊類型、目標、學習方式、攻擊強度及算法優(yōu)勢和劣勢。學習方式可分為單次迭代和多次迭代,單次迭代方法可以快速生成對抗樣本,并用于對抗訓練從而提高模型的魯棒性;多次迭代方法則需要更多的計算時間來生成對抗樣本,但其攻擊效果強且難以防范。以上經典對抗攻擊方法的對比分析結果如表1所示,其中,單步表示單次迭代,迭代表示多次迭代,W 表示白盒攻擊,B 表示黑盒攻擊,T 表示有目標攻擊,NT 表示無目標攻擊,*的數(shù)量代表攻擊強度。

    表1 攻擊方法性能對比結果Table 1 Performance comparison results of attack methods

    4 對抗防御

    對抗樣本的存在促使學者開始思考如何成功防御對抗攻擊,從而避免模型識別錯誤。對抗防御主要分為對抗攻擊檢測和提高模型魯棒性2 種方式,檢測方法獨立于防御方法,可以單獨用來檢測樣本的對抗性,也可以與防御方法結合使用。

    4.1 對抗攻擊的檢測

    對抗樣本產生原因的復雜性使得對于對抗樣本的通用化檢測變得十分困難。對抗攻擊檢測通過檢測樣本的對抗性來判斷其是否為對抗樣本。對抗攻擊檢測主要包括如下方法:

    1)H&G 檢測方法。HENDRYCKS 等人[49]提出3 種對抗性檢測方法,統(tǒng)稱為H&G 檢測方法。從廣義上而言,H&G 檢測方法利用了正常樣本和擾動問題之間的經驗差異來區(qū)分正常樣本和對抗樣本。3 種對抗性檢測方法具體如下:

    (1)通過對對抗樣本的主成分分析白化輸入系數(shù)的方差從而檢測樣本的對抗性。當攻擊者不知道防御措施是否到位時,該方法可用于檢測FGSM 和BIM 攻擊。

    (2)正常輸入和對抗輸入之間的Softmax分布不同,H&G 檢測方法利用該分布差異執(zhí)行對抗檢測,測量均勻分布和Softmax 分布之間的Kullback-Leibler 散度,然后對其進行基于閾值的檢測。研究發(fā)現(xiàn),正常樣本的Softmax 分布通常比對抗樣本的均勻分布離散,原因是模型傾向于以高置信度預測輸入。

    (3)在以邏輯為輸入的分類器模型中加入一個輔助譯碼器重構圖像從而檢測對抗樣本,解碼器和分類器只在正常樣本上聯(lián)合訓練,檢測通過創(chuàng)建一個檢測器網絡來完成,該網絡以重建邏輯和置信度得分為輸入,輸出一個輸入具有對抗性的概率,其中,探測器網絡在正常樣本和對抗樣本上都受過訓練。該方法能夠檢測FGSM 和BIM 產生的對抗樣本。

    2)對抗性檢測網絡。METZEN 等人[50]提出對抗性檢測網絡(Adversary Detector Network,ADN),其為一種用二元檢測器網絡擴充預訓練神經網絡的檢測方法,檢測器網絡被訓練以區(qū)分正常樣本和對抗樣本。ADN 方法能有效檢測FGSM、DeepFool 和BIM 攻擊,但CARLINI 等人[51]發(fā)現(xiàn)該方法對C&W等強攻擊具有較高的假陽性,并可以通過SBA 攻擊來規(guī)避。GONG 等人[52]對ADN 方法進行改進,改進方法中的二進制分類器是一個與主分類器完全分離的網絡,其不是針對檢測器生成對抗樣本,而是為預訓練分類器生成對抗樣本,并將這些對抗樣本添加到原始訓練數(shù)據(jù)中以訓練二進制分類器。但CARLINI 等人[51]指出,該改進方法在CIFAR10 模型上測試時具有較高的假陽性,并且容易受到C&W攻擊。

    3)核密度法和貝葉斯不確定性估計法。FEINMAN等人[53]假設對抗樣本不在非對抗性數(shù)據(jù)流形中,在此情況下提出核密度法和貝葉斯不確定性估計(Bayesian Uncertainty Estimates,BUE)2 種對抗性檢測方法。使用核密度估計(Kernel Density Estimates,KDE)的目的是確定一個數(shù)據(jù)點是否遠離類流形,而BUE 可以用來檢測靠近KDE 無效的低置信區(qū)域的數(shù)據(jù)點。BUE 是較難欺騙的檢測方法,作為現(xiàn)有網絡的附加組件,其實現(xiàn)也相對簡單。

    4)特征壓縮。XU 等人[54]認為輸入特征的維度通常過大,導致出現(xiàn)一個大的攻擊面。根據(jù)該原理,他們提出基于特征壓縮的檢測方法(FS),用以比較壓縮和非壓縮輸入之間的預測結果。特征壓縮的目的是從輸入中去除不必要的特征,以區(qū)分正常樣本與對抗樣本。如果模型對壓縮和非壓縮輸入的預測結果之間的L1范數(shù)差大于某個閾值T,則該輸入被標記為對抗性輸入。FS 方法獨立于防御模型,因此,其可以與其他防御技術結合使用。特征壓縮被證明能夠在攻擊者不了解所使用的防御策略的情況下檢測由FGSM、BIM、DeepFool、JSMA[55]和C&W攻擊生成的對抗樣本。

    5)逆交叉熵檢測。2017 年,PANG 等人[56]提出利用新的目標函數(shù)進行反向檢測的逆交叉熵(Reverse Cross-Entropy,RCE)方法,該方法訓練一個神經網絡以區(qū)分對抗樣本和正常樣本。在FGSM、BIM/ILLCM、C&W、MNIST 和CIFAR10 數(shù)據(jù)集上進行評估,結果表明RCE 具有有效性。與使用標準交叉熵作為目標函數(shù)的方法相比,RCE 不僅允許用戶進行對抗性檢測,而且在總體上提高了模型的魯棒性。

    本節(jié)總結現(xiàn)階段主要的對抗攻擊檢測方法的性能,結果如表2 所示。

    表2 對抗攻擊檢測方法性能對比結果Table 2 Performance comparison results of adversarial attacks detection methods

    4.2 對抗攻擊的防御

    為了使模型對對抗性攻擊更加具有魯棒性,研究人員提出不同的防御方法,這些方法建立在對抗性和正常輸入下同樣具有良好表現(xiàn)的模型上,使模型對輸入的不相關變化不太敏感,從而有效地正則化模型以減少攻擊面,并限制對非流形擾動的響應。目前,針對對抗攻擊的防御方式主要分為以下4 類:

    1)數(shù)據(jù)擴充,該方法通過在訓練集中加入對抗樣本進行再訓練,從而提高模型的魯棒性。

    2)預處理方法,該方法通過對原有數(shù)據(jù)進行處理從而降低對抗樣本的有效性。

    3)正則化方法,該方法使用防御蒸餾方法降低網絡梯度的大小,提高發(fā)現(xiàn)小幅度擾動對抗樣本的能力。

    4)數(shù)據(jù)隨機化處理,該方法通過對輸入進行隨機調整來消除擾動。

    4.2.1 數(shù)據(jù)擴充

    具有代表性的數(shù)據(jù)擴充方法如下:

    1)對抗訓練。為提高神經網絡模型在對抗攻擊環(huán)境下的魯棒性,很多學者對對抗樣本進行代入訓練[12]。在每次迭代訓練中,通過在訓練集中注入對抗樣本來對模型進行再訓練。由于單步對抗訓練的魯棒性主要由梯度掩蔽引起,因此該模型可以被其他類型的攻擊所規(guī)避。此外,單步對抗訓練可能會出現(xiàn)標簽泄漏問題,容易導致模型過度擬合。

    2)映射梯度下降對抗訓練。2018 年,MADRY 等人[57]改進了對抗訓練,提出一種映射梯度下降對抗訓練(Projected Gradient Descent,PGD)。標準對抗訓練方法是在正常樣本和對抗樣本上訓練模型,而在PDG框架中,模型只在對抗樣本上訓練。PGD 方法在白盒和黑盒2 種設置下對各種類型的攻擊都保持一致的魯棒性,但其模型可能無法達到最優(yōu)的性能。由于PGD的計算代價隨迭代次數(shù)的增加而提高,因此該方法的計算代價通常高于標準對抗訓練。

    3)綜合性對抗訓練。2018 年,針對傳統(tǒng)對抗訓練容易出現(xiàn)過擬合的問題,TRAMER 等人[58]提出綜合性對抗訓練,其為對抗性訓練的另一種變體。在綜合性對抗訓練中,模型根據(jù)生成的對抗樣本進行再訓練,以攻擊其他各種預先訓練的模型。這種目標模型和對抗訓練實例的分離能夠有效克服傳統(tǒng)對抗訓練的過擬合問題。

    4)邏輯配對防御機制。KANNAN 等人[59]提出邏輯配對防御(ALP)機制,其鼓勵輸入對(即對抗性和非對抗性輸入對)的邏輯相似,并設計對抗性邏輯配對和正常邏輯配對(CLP)2 種不同的邏輯配對策略。ALP 在原始輸入及其對抗輸入之間強制執(zhí)行邏輯不變性,而CLP 在任何一對輸入之間強制執(zhí)行邏輯不變性。KANNAN 等人發(fā)現(xiàn)PGD 攻擊的對抗性訓練與ALP 相結合,在ImageNet 模型上對白盒攻擊與黑盒攻擊都具有較優(yōu)的魯棒性。

    4.2.2 預處理方法

    通過對數(shù)據(jù)進行預處理能夠降低對抗樣本的有效性,現(xiàn)有的預處理方法主要包括:

    1)通過學習非對抗性數(shù)據(jù)集的分布,將對抗性輸入投射到學習的非對抗性流形中。

    2)通過對對抗樣本的過濾或去噪將其轉化為純凈樣本。

    3)對輸入進行變換處理,使攻擊者難以計算模型的梯度,從而達到防御對抗攻擊的目的。

    4)對輸入數(shù)據(jù)進行量化和離散化處理,有效消除對抗性擾動的影響。

    具有代表性的預處理方法具體如下:

    1)去噪特征映射方法。XIE 等人[60]研究發(fā)現(xiàn),與原始輸入相比,對抗性擾動導致模型生成的特征圖所發(fā)生的變化較大,基于此,他們提出一種去噪特征映射(FDB)方法。實驗結果表明,去噪塊不會大幅降低非對抗性輸入的性能,當與PGD 對抗訓練相結合時,無論是在黑盒還是白盒模式下,F(xiàn)DB 防御都能達到當時較優(yōu)的對抗魯棒性。

    2)綜合分析方法。一些基于生成對抗網絡的防御機制相繼被提出,如基于生成模型的GAN 防御方法,該方法學習非對抗性數(shù)據(jù)集的分布,以將對抗性輸入投射到學習的非對抗性流形中。SCHOTT 等人[61]提出了綜合分析(ABS)防御方法,該方法并非學習整個數(shù)據(jù)集的輸入分布,而是學習每個類的輸入分布。在MNIST 數(shù)據(jù)集上,ABS 在對抗L0和L2對抗樣本時表現(xiàn)出比PGD 對抗性訓練更優(yōu)、更健壯的效果,但針對L∞對抗樣本時ABS 的魯棒性較低。

    3)ME-Net 方法。YANG等人[62]提出基于預處理的防御方法ME-Net,其對輸入進行預處理,以破壞對抗性噪聲的結構。ME-Net 方法的工作原理是根據(jù)一定的概率r隨機丟棄輸入圖像中的像素點,假設該概率r可以破壞對抗干擾,使用矩陣估計算法重建圖像。ME-Net 方法是從噪聲觀測中恢復矩陣數(shù)據(jù)的方法,在CIFAR-10、MNIST、SVHN 和小型ImageNet 數(shù)據(jù)集上的黑盒和白盒模式中,ME-Net 測試各種L∞攻擊時都表現(xiàn)出了很強的健壯性。

    4)總方差最小化和圖像拼接方法。在分類之前,可以對輸入圖像應用各種圖像變換方法,在這些圖像變換方法中,GUO 等人[63]研究發(fā)現(xiàn)總方差最小化和圖像拼接最有效,特別是當模型在轉換后的圖像上訓練時,總方差最小化和圖像拼接都引入了隨機性,并且都是不可微的操作,使得攻擊者很難計算模型的梯度。該防御是模型不可知的,意味著模型無需再訓練或微調,且這種防御方法可以與其他防御方法結合使用。

    5)溫度計編碼防御方法。BUCKMAN 等人[64]提出神經網絡的線性使其易受攻擊的假設,并根據(jù)該假設提出溫度計編碼防御(TE)方法。TE 防御對輸入數(shù)據(jù)進行量化和離散化處理,有效消除了通常由對抗性攻擊引起的對抗擾動影響。TE 防御和對抗訓練相結合后具有很高的對抗穩(wěn)健性,可以超過PGD 對抗訓練,但是,TE 防御依賴梯度掩蔽,可以使用BPDA 攻擊繞過。

    4.2.3 正則化方法

    正則化方法包括深度壓縮網絡[65]和防御蒸餾[66]等。防御蒸餾是早期較為經典的一種方法,“蒸餾”一詞由HINTON 等人[67]引入,是一種將深層神經網絡集合中的知識壓縮為單一神經網絡的方法。防御蒸餾由原始網絡和蒸餾網絡2 個網絡組成,原始網絡也叫教師網絡,一般為參數(shù)多且結構復雜的網絡,蒸餾網絡也叫學生網絡,一般為參數(shù)少且結構簡單的網絡。蒸餾方法可以將教師網絡的知識有效地遷移到學生網絡,從而起到壓縮網絡的作用。防御蒸餾對由早期攻擊方法生成的對抗樣本具有健壯性,但是,這種防御易受到C&W 與SBA 變體的攻擊。

    4.2.4 數(shù)據(jù)隨機化處理

    數(shù)據(jù)隨機化處理包括隨機調整大小、填充、隨機激活剪枝[68]等。XIE 等人[69]提出基于隨機調整大小和填充(RRP)的防御機制,其通過輸入變換消除擾動,并在推理過程中引入隨機性,使得相對于輸入的損失梯度更難計算。該機制不需要對防御模型進行微調就能保證精確性,并且可以與如對抗性訓練等其他防御方法相結合,對FGSM、BIM、DeepFool 和C&W 等白盒攻擊都表現(xiàn)出良好的性能。

    現(xiàn)階段主要的4類防御方法總結對比如表3所示。在保證計算成本的情況下,目前較常用的防御方法是數(shù)據(jù)擴充方法。隨著攻擊手段的提高,未來可能會以多種方法相結合的方式來提高模型的魯棒性,并且使得模型的魯棒性與準確率達到平衡。

    表3 各種防御方法總結對比結果Table 3 Summary and comparison results of various defense methods

    5 對抗樣本應用實例

    隨著對抗樣本研究的多樣化發(fā)展,學者們開始從不同角度探索對抗樣本的特性,發(fā)現(xiàn)除對抗樣本對神經網絡模型構成威脅之外,還可以利用對抗樣本的特性提高模型性能,具體如下:

    1)利用對抗樣本提高圖像識別準確率。XIE 等人[15]研究發(fā)現(xiàn)已有方法可以共同訓練原始圖像和對抗樣本,但此類方法往往會導致最終圖像識別準確率下降,即使從不同的分布中提取圖像,也會導致同樣的結果。由此他們假設原始圖像與對抗樣本之間分布不匹配是導致此類方法性能下降的關鍵因素,基于該假設,XIE 等人提出一種新的訓練方法——AdvProp 方法,其通過一種簡單且高效的兩批次標準方法來解決分布不匹配的問題。使用2 個批處理規(guī)范統(tǒng)計信息,一個用于原始樣本,另一個用于對抗樣本,2 個批處理規(guī)范在歸一化層正確分散了2 個分布,以進行準確的統(tǒng)計估計。實驗結果表明,AdvProp大幅提高了卷積網絡的模型識別準確率。

    2)利用對抗性特征解決超分辨率問題。感知損失函數(shù)在解決圖像超分辨率問題時雖然取得了較好效果,但也會在超分辨輸出中產生不期望的圖案偽像。TEJ 等人[70]針對圖像超分辨率不確定的問題,提出利用內容損失函數(shù)增強現(xiàn)有感知損失函數(shù)的方法,該函數(shù)使用鑒別器網絡的潛在特征來過濾多個對抗相似性級別上的不需要的偽像。實驗結果表明,上述損失函數(shù)具有互補的優(yōu)勢,相結合后可以有效提高超分辨率重建的保真度。

    3)利用對抗擾動檢測木馬。ZHANG 等人[71]針對深度神經網絡木馬中毒的問題,提出一種驗證預訓練模型是否被特洛伊木馬攻擊的方法。該方法利用從網絡梯度中學到的對抗性擾動的形式捕獲神經網絡指紋,在系統(tǒng)后門插入神經網絡會更改其決策邊界,這些系統(tǒng)后門可以在其對抗性干擾中有效地進行編碼,從其全局(L∞和L2有界)擾動以及每個擾動內的高能量局部區(qū)域訓練2 個流網絡來檢測木馬。前者對網絡的決策邊界進行編碼,后者對未知的觸發(fā)形狀進行編碼,并設計一種不會改變觸發(fā)類型、觸發(fā)大小、訓練數(shù)據(jù)和網絡架構的異常檢測方法來識別木馬網絡中的目標類。實驗結果表明,該方法能夠取得92%以上的檢測精度。

    6 未來研究展望

    深度學習技術的迅速發(fā)展,使得其在圖像分類、目標檢測等領域取得重大進展的同時也暴露了數(shù)據(jù)、模型等安全隱患。針對在深度學習系統(tǒng)中出現(xiàn)的安全問題,研究人員開展了一系列攻擊防御方法研究,但是,對于深度學習系統(tǒng)的安全性能而言,未來還有很多問題等待解決。本文總結以下3 個未來的研究方向:

    1)應用對抗樣本技術作為數(shù)據(jù)增強的手段。對抗樣本可用于提升模型的泛化性,起到數(shù)據(jù)增強的作用,目前通常在圖像分類中提高分類準確率,也可以在惡意軟件檢測中提升對惡意軟件的檢測率。相較于普通的數(shù)據(jù)增強,對抗樣本的優(yōu)勢是可以根據(jù)模型自身去調整正則化的強度,從而更好地優(yōu)化模型。

    2)改進對抗訓練。對抗訓練是目前較優(yōu)的提高模型魯棒性的方法,但其存在速度慢、在小數(shù)據(jù)集上訓練會過擬合等問題。后續(xù)將在兼顧計算效率與效果的情況下,結合不同的損失函數(shù)或者改進應用的網絡結構。

    3)研究除范數(shù)約束和對抗訓練之外的攻擊防御方法?,F(xiàn)有的攻擊防御大多是基于范數(shù)約束和對抗訓練,而這些方法不是唯一有效的攻擊防御手段,例如,通過風格遷移技術可以生成對抗樣本、利用3D打印技術能夠實現(xiàn)攻擊等。因此,在物理場景中應用并開展對抗樣本防御的研究,從不同角度探索其他的攻擊防御方式也具有實際意義。

    7 結束語

    針對深度學習技術的安全問題,本文介紹對抗樣本和對抗攻擊的概念,對比分析目前比較經典的對抗攻擊方法,在此基礎上,總結現(xiàn)階段相應的防御方法和對抗攻擊檢測方法的性能。深度學習模型的安全領域未來仍有許多問題需要解決,對抗樣本防御技術將與統(tǒng)計學習等方法相結合,為同時提升模型的泛化性和魯棒性提供新思路,加快推進深度學習模型的安全建設,保護人們的信息隱私安全。

    猜你喜歡
    對抗性擾動梯度
    Bernoulli泛函上典則酉對合的擾動
    一個改進的WYL型三項共軛梯度法
    技能主導類隔網對抗性項群運動訓練特征和實戰(zhàn)技巧研究——以網球為例
    一種自適應Dai-Liao共軛梯度法
    (h)性質及其擾動
    缺乏陽剛的男孩子要多參加對抗性運動
    一類扭積形式的梯度近Ricci孤立子
    關于羽毛球教學中多球訓練的探討
    東方教育(2018年19期)2018-08-23 08:58:06
    技戰(zhàn)能主導類格斗對抗性項群的競技特點與訓練要求
    小噪聲擾動的二維擴散的極大似然估計
    太仓市| 资兴市| 托里县| 龙州县| 乐陵市| 公主岭市| 广昌县| 和龙市| 马尔康县| 丹寨县| 喀喇沁旗| 仲巴县| 泗水县| 都江堰市| 宁远县| 博白县| 威宁| 巴南区| 南皮县| 大丰市| 札达县| 天祝| 葵青区| 浮山县| 山东省| 广西| 襄城县| 分宜县| 玛纳斯县| 定兴县| 五大连池市| 广安市| 图木舒克市| 三门县| 大冶市| 高邮市| 田东县| 尚志市| 石阡县| 台南市| 常德市|