王飛宇,張帆,杜加玉,類紅樂,祁曉峰
(1.信息工程大學(xué) 信息技術(shù)研究所,鄭州 450002;2.國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,鄭州 450002;3.網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室,南京 211111)
近年來,深度學(xué)習(xí)[1]的發(fā)展十分迅速,被廣泛應(yīng)用于自然語(yǔ)言處理[2]、語(yǔ)音識(shí)別[3]、計(jì)算機(jī)視覺[4]等領(lǐng)域,特別是在許多圖像分類任務(wù)中,深度學(xué)習(xí)的能力甚至能夠超越人類。然而,深度學(xué)習(xí)的不可解釋性導(dǎo)致輸出缺乏可信性。因此,將深度學(xué)習(xí)模型應(yīng)用于實(shí)際的生活場(chǎng)景中,如自動(dòng)駕駛汽車[5]、生物醫(yī)學(xué)[6]等,須著重考慮該模型的安全性和可靠性[7-8]。文獻(xiàn)[9]提出對(duì)抗樣本的概念。研究人員指出,在面對(duì)對(duì)抗樣本時(shí),深度學(xué)習(xí)模型會(huì)表現(xiàn)得非常脆弱。文獻(xiàn)[5]中在“停止”的路牌上,攻擊者添加一些擾動(dòng)標(biāo)記(不影響人眼判斷)后,無人駕駛汽車會(huì)把該路牌識(shí)別為“限速”,從而可能造成嚴(yán)重的安全事故。因此,有效防御對(duì)抗樣本已成為人工智能安全領(lǐng)域的重點(diǎn)。
圖像分類中防御對(duì)抗樣本的方法[10-11]可分為完全防御和檢測(cè)防御。檢測(cè)防御因其不影響模型正常工作的特點(diǎn)而得到研究人員的廣泛關(guān)注。文獻(xiàn)[12]提出對(duì)抗性檢測(cè)網(wǎng)絡(luò)(Adversary Detection Network,ADN),該方法在模型中附加ADN 來檢測(cè)對(duì)抗樣本。ADN 是二分類器,將模型某個(gè)中間層的輸出作為輸入進(jìn)行訓(xùn)練。文獻(xiàn)[13]從隱寫術(shù)的角度分析輸入來檢測(cè)對(duì)抗樣本,隱寫分析通過對(duì)自然圖像相鄰像素間的相關(guān)性建模來檢測(cè)由對(duì)抗攻擊所引起的修改。該方法利用正常樣本和對(duì)抗樣本的隱寫分析特征來訓(xùn)練分類器。文獻(xiàn)[14]使用最近鄰影響函數(shù)(Nearest Neighbors Influence Function,NNIF)來檢測(cè)對(duì)抗樣本,正常樣本的最有用與最近鄰的訓(xùn)練樣本在PCA 嵌入空間中非常接近,但是對(duì)抗樣本沒有表現(xiàn)出這種特性。上述方法雖然檢測(cè)性能較優(yōu),但是存在依賴已知的對(duì)抗樣本或計(jì)算時(shí)間過長(zhǎng)的問題。
針對(duì)以上檢測(cè)方法的不足,本文提出一種基于圖像降噪與壓縮的檢測(cè)方法,利用圖像降噪或壓縮方法破壞對(duì)抗擾動(dòng)或提取必要特征的特性來壓縮對(duì)抗樣本可利用的特征空間,通過比較原樣本與壓縮特征空間后的樣本在深度學(xué)習(xí)模型中的預(yù)測(cè)差來判斷該樣本是否為對(duì)抗樣本。由于該方法未改變?cè)诸惸P停虼四軌蚺c其他防御方法相結(jié)合進(jìn)行協(xié)同防御。
對(duì)抗樣本是由SZEGEDY等[9]發(fā)現(xiàn)并提出的。對(duì)抗樣本是指在正常樣本上故意添加細(xì)微的人眼難以察覺的擾動(dòng)后形成的樣本,而且該樣本可以讓目標(biāo)模型高置信度地給出錯(cuò)誤輸出。生成的對(duì)抗樣本使目標(biāo)模型誤判的攻擊就是對(duì)抗攻擊。
自L-BFGS 算法[9]提出以來,對(duì)抗攻擊算法[15-16]發(fā)展迅速。目前經(jīng)典的對(duì)抗攻擊方法主要有快速梯度符號(hào)法(Fast Gradient Sign Method,F(xiàn)GSM)、BIM、C&W、DeepFool、JSMA。
文獻(xiàn)[17]提出FGSM,該方法的原理是先對(duì)輸入求出其損失函數(shù)的梯度,然后選擇1 個(gè)超參數(shù)與該梯度的符號(hào)向量相乘,從而產(chǎn)生1 個(gè)擾動(dòng)。該方法的攻擊成功率與選擇的超參數(shù)有關(guān)。FGSM 能快速產(chǎn)生對(duì)抗樣本,但攻擊性能難以保證,其生成的對(duì)抗樣本可描述如下:
文獻(xiàn)[18]提出BIM 攻擊方法,該方法由FGSM衍生得出,沿著輸入損失函數(shù)的梯度增加方向,迭代設(shè)計(jì)多步的小擾動(dòng),而且在完成每一小步后,都會(huì)重新計(jì)算該損失函數(shù)的梯度方向。該方法生成的對(duì)抗樣本可描述如下:
其中:i為迭代次數(shù);x0=x為正常輸入;Clip 為裁剪函數(shù),可將擾動(dòng)限制在像素點(diǎn)的ε鄰域內(nèi)。相比FGSM,BIM 能生成更精準(zhǔn)的擾動(dòng),但是計(jì)算量較大。
文獻(xiàn)[19]提出C&W 攻擊方法,該方法通過限制L0、L2 或L∞范數(shù)來優(yōu)化擾動(dòng),其目標(biāo)函數(shù)包含最大化損失函數(shù)和最小化擾動(dòng)的優(yōu)化問題。該方法生成的對(duì)抗樣本可描述如下:
其中:D(·)為距離度量的函數(shù);x為正常樣本;t為對(duì)抗樣本;δ為每次迭代所添加的擾動(dòng);參數(shù)c可控制添加的擾動(dòng)值與錯(cuò)誤分類置信度間的平衡;f(·)為設(shè)計(jì)的目標(biāo)函數(shù)。f(·)定義如下:
其中:Z(·)為Softmax 前一層的邏輯值;i為標(biāo)簽類別;t為目標(biāo)攻擊的標(biāo)簽類別;參數(shù)k能控制對(duì)抗樣本被誤判的置信度,k越大,對(duì)抗攻擊的成功率越高。該方法攻擊效果較好,但成本較高。
文獻(xiàn)[20]提出DeepFool 攻擊方法,該方法根據(jù)正常樣本到對(duì)抗樣本決策邊界的最小距離來設(shè)計(jì)擾動(dòng),在多次迭代后,正常樣本會(huì)越過某決策邊界,從而達(dá)到使目標(biāo)模型分類錯(cuò)誤的攻擊目的。該方法生成的擾動(dòng)比較精確,但它不能進(jìn)行目標(biāo)攻擊。
文獻(xiàn)[21]提出JSMA 攻擊方法,認(rèn)為不同的輸入特征對(duì)目標(biāo)模型輸出的影響程度不同。該方法首先通過計(jì)算前向?qū)?shù)得到目標(biāo)模型的雅可比矩陣;然后利用該雅可比矩陣構(gòu)造對(duì)抗性顯著圖,該對(duì)抗性顯著圖可體現(xiàn)輸入特征對(duì)目標(biāo)模型輸出的影響程度;最后選擇對(duì)抗性顯著值最大的像素來設(shè)計(jì)對(duì)抗擾動(dòng)。該方法能進(jìn)行目標(biāo)攻擊,但可遷移性較差。
在圖像分類中,對(duì)抗樣本防御方法的研究主要包括完全防御和檢測(cè)防御2 個(gè)方面。
完全防御是讓模型在處理對(duì)抗樣本時(shí)仍輸出其正確的標(biāo)簽,主要分為對(duì)抗訓(xùn)練、梯度掩蔽和輸入轉(zhuǎn)換3類。對(duì)抗訓(xùn)練[17]是在模型的訓(xùn)練階段加入帶有正確標(biāo)簽的對(duì)抗樣本。該方法實(shí)現(xiàn)簡(jiǎn)單,但是需要大量的對(duì)抗樣本對(duì)原模型重新訓(xùn)練,成本較高。梯度掩蔽是通過遮掩模型的梯度來防御對(duì)抗攻擊。文獻(xiàn)[22]提出防御性蒸餾,該方法利用蒸餾算法為原模型訓(xùn)練蒸餾模型,可降低模型對(duì)輸入擾動(dòng)的敏感性,但是對(duì)抗樣本具有可遷移性,這類方法依然能被攻破。輸入轉(zhuǎn)換是在測(cè)試階段對(duì)輸入樣本進(jìn)行轉(zhuǎn)換以減少對(duì)抗擾動(dòng),并將處理后的樣本輸入到原模型中進(jìn)行預(yù)測(cè)。文獻(xiàn)[23]提出像素偏轉(zhuǎn),該方法首先利用語(yǔ)義圖與隨機(jī)化選擇少量像素,然后將其替換為相鄰像素,最后通過小波去噪消除噪聲。該類方法不須改變?cè)P?,但是?huì)影響正常樣本的分類。
檢測(cè)防御是判斷樣本是否為對(duì)抗樣本,主要分為基于度量的方法與基于預(yù)測(cè)不一致的方法。基于度量的方法是識(shí)別對(duì)抗樣本與正常樣本特征之間的區(qū)別,從而利用可區(qū)分兩者的特征來訓(xùn)練檢測(cè)器。文獻(xiàn)[24]利用對(duì)抗樣本的局部?jī)?nèi)在維度(Local Intrinsic Dimensionality,LID)值大于正常樣本的特性來檢測(cè)樣本的對(duì)抗性,其中,LID 值可根據(jù)該樣本與其鄰近樣本的距離來近似估計(jì)。但是此類方法依賴已知的對(duì)抗樣本進(jìn)行訓(xùn)練?;陬A(yù)測(cè)不一致的方法是利用轉(zhuǎn)換方法對(duì)樣本進(jìn)行處理,并將模型對(duì)處理前后樣本的輸出結(jié)果進(jìn)行比較,若有顯著變化,則視其為對(duì)抗樣本。文獻(xiàn)[25]首先隨機(jī)擦除樣本中的某些像素,然后利用修復(fù)技術(shù)進(jìn)行恢復(fù),最后通過分析原樣本和經(jīng)過該處理后樣本的分類結(jié)果來檢測(cè)對(duì)抗樣本。研究發(fā)現(xiàn),對(duì)抗樣本在這種處理前后通常會(huì)有不同的分類結(jié)果,而正常樣本沒有。這類方法無須對(duì)抗樣本來訓(xùn)練檢測(cè)器且具有較優(yōu)的檢測(cè)效果,但其性能高度依賴設(shè)計(jì)的轉(zhuǎn)換方法。
文獻(xiàn)[26]認(rèn)為對(duì)抗樣本的攻擊面與輸入特征的維度有關(guān),即輸入特征的維數(shù)越大,對(duì)抗樣本的攻擊面就越大。自編碼器可以重構(gòu)輸入,在降維和去噪方面具有較優(yōu)的性能。因此,本文引入2 種具有簡(jiǎn)單結(jié)構(gòu)的自編碼器,并讓它們與像素深度壓縮與非局部均值平滑方法一起來減少樣本中不必要的特征。利用以上圖像降噪或壓縮方法對(duì)輸入樣本進(jìn)行處理,使得對(duì)抗樣本的可用攻擊面減少,從而讓處理前后的對(duì)抗樣本在深度學(xué)習(xí)模型中的分類結(jié)果產(chǎn)生較明顯的變化。由于在正常樣本中不存在攻擊者精心設(shè)計(jì)的對(duì)抗擾動(dòng),而且這些方法都是去除樣本中的不必要特征,因此處理前后的正常樣本在深度學(xué)習(xí)模型中的分類結(jié)果變化較小?;谏鲜鲈恚疚睦蒙疃葘W(xué)習(xí)模型對(duì)壓縮特征空間前后正常樣本的預(yù)測(cè)差來訓(xùn)練檢測(cè)器的閾值,若輸入樣本的預(yù)測(cè)差大于閾值,則為對(duì)抗樣本。
通過不同的圖像降噪或壓縮方法刪除樣本中不必要特征的能力是有區(qū)別的,因此,各單一方法的檢測(cè)效果不同。為提升檢測(cè)器的檢測(cè)能力,本文結(jié)合這些方法對(duì)輸入進(jìn)行處理,并在這幾個(gè)經(jīng)各單一方法得到的預(yù)測(cè)差中選擇最大值來訓(xùn)練檢測(cè)器。
圖像降噪就是利用傳統(tǒng)降噪方法或深度學(xué)習(xí)降噪方法對(duì)圖像進(jìn)行降噪,能夠減少對(duì)抗擾動(dòng),從而去除圖像中不必要的特征。常見的降噪方法有自編碼器和非局部均值平滑。
自編碼器是一類常用于半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),分為編碼器和解碼器2 個(gè)部分。編碼器主要負(fù)責(zé)獲取輸入在隱含層的特征,解碼器主要負(fù)責(zé)將編碼器獲取的隱含層特征盡可能地還原為原始輸入。自編碼器作為一種有損的數(shù)據(jù)壓縮算法,能夠壓縮輸入信息并提取有用的輸入特征,常被用于數(shù)據(jù)降噪和降維。為減少圖像或視頻信號(hào)空間信息丟失且有效學(xué)習(xí)到魯棒性較強(qiáng)的有用特征,研究人員提出卷積自編碼器[27]和降噪自編碼器[28]。卷積自編碼器與傳統(tǒng)自編碼器類似,不同的是卷積自編碼器利用卷積神經(jīng)網(wǎng)絡(luò)的卷積與池化對(duì)輸入進(jìn)行特征提取。降噪自編碼器會(huì)給輸入數(shù)據(jù)添加1 個(gè)隨機(jī)的噪聲擾動(dòng),從而使學(xué)習(xí)到的自編碼器具有更強(qiáng)的泛化能力。本文設(shè)計(jì)的降噪自編碼器與卷積自編碼器的結(jié)構(gòu)相似,不同之處在于:降噪自編碼器在卷積自編碼器的第1 層前加入Dropout層,而且它的輸入是在卷積自編碼器輸入的基礎(chǔ)上添加隨機(jī)高斯噪聲。本文設(shè)計(jì)的自編碼器結(jié)構(gòu)如圖1 所示。
圖1 本文自編碼器結(jié)構(gòu)Fig.1 Auto-encoder structures in this paper
非局部均值平滑的基本思想:對(duì)圖像中像素的估計(jì)值是由圖像中與它具有相似鄰域結(jié)構(gòu)的像素進(jìn)行加權(quán)平均后得到的。非局部均值平滑執(zhí)行過程如圖2 所示。
圖2 非局部均值平滑的執(zhí)行過程Fig.2 Executive process of non-local means smoothing
該方法利用整幅圖像進(jìn)行去噪,從效率方面考慮,通常會(huì)設(shè)搜索窗口和鄰域窗口2 個(gè)固定尺寸的窗口。不以待平滑點(diǎn)為中心的鄰域窗口會(huì)在以待平滑點(diǎn)為中心的搜索窗口中進(jìn)行滑動(dòng)。根據(jù)該鄰域窗口與以待平滑點(diǎn)為中心的鄰域窗口的相似程度來確定權(quán)值,相似程度越大則權(quán)值越大。該方法能夠充分利用圖像中的冗余信息,不僅可以有效去噪,而且可以較完整地保留圖像的細(xì)節(jié)特征。
圖像壓縮可以去除圖像中的多余數(shù)據(jù),以及刪除輸入中的不必要特征。本文選用的壓縮方法是像素深度壓縮,其原理是減少表示圖像像素的顏色深度,常見的深度有24 bit、8 bit等。在現(xiàn)實(shí)生活中,像素深度較大的圖像與人眼中的自然圖像更接近,但是識(shí)別圖像并不需要很大的像素深度,例如,人們能識(shí)別很多黑白圖像(像素深度為1 bit)。像素深度壓縮的圖像示例如圖3 所示。本文將MNIST 的“5”和CIFAR-10“狗”的像素深度壓縮至1~8 bit。圖3 從右向左依次為壓縮像素深度1~8 bit 的圖像。從圖3 可以看出,經(jīng)合適的像素深度壓縮后的圖像仍能被人們識(shí)別。
圖3 像素深度壓縮的圖像示例Fig.3 Image examples with pixel depth compression
基于第2.1 節(jié)的原理,本文檢測(cè)方法可分為2 個(gè)階段,具體流程如圖4 所示。在訓(xùn)練階段,首先讓深度學(xué)習(xí)模型預(yù)測(cè)用于訓(xùn)練的正常樣本(訓(xùn)練樣本),得到預(yù)測(cè)結(jié)果p0(可能類別的概率分布)。利用圖像降噪或壓縮方法對(duì)訓(xùn)練樣本進(jìn)行處理,并得到它們?cè)谏疃葘W(xué)習(xí)模型中的預(yù)測(cè)結(jié)果p1,2,…,n。利用L1 范數(shù)衡量模型對(duì)壓縮特征空間前后訓(xùn)練樣本的預(yù)測(cè)差d1,2,…,n=‖p1,2,…,n-p0‖1。聯(lián)合檢測(cè)方法將某訓(xùn)練樣本的max(d1,2,…,n)作為該樣本的預(yù)測(cè)差。最后,各檢測(cè)方法根據(jù)設(shè)定的假陽(yáng)性率(低于5%)在得到的預(yù)測(cè)差中選擇對(duì)應(yīng)值作為閾值(各單一檢測(cè)方法的閾值為T1,2,…,n,聯(lián)合檢測(cè)方法的閾值為Tmax)。在測(cè)試階段,通過對(duì)測(cè)試樣本(包含正常樣本和對(duì)抗樣本)進(jìn)行與訓(xùn)練樣本相同的處理,得到深度學(xué)習(xí)模型對(duì)壓縮特征空間前后測(cè)試樣本的預(yù)測(cè)結(jié)果為和,并 用L1 范數(shù)衡量它們 之間的預(yù)測(cè)差聯(lián)合檢測(cè)方法 將某測(cè)試樣本 的max(作為該樣本的預(yù)測(cè)差,最后將或max()分別與閾值T1,2,…,n或Tmax進(jìn)行比較,若其大于閾值,則判斷該測(cè)試樣本為對(duì)抗樣本,否則為正常樣本。
圖4 本文方法的檢測(cè)流程Fig.4 Detection procedure of the proposed method
本節(jié)將在MNIST 和CIFAR-10 上驗(yàn)證本文方法的有效性。本節(jié)實(shí)驗(yàn)分為3 個(gè)部分:1)利用降噪或壓縮方法對(duì)正常樣本和對(duì)抗樣本進(jìn)行壓縮特征空間的對(duì)比實(shí)驗(yàn)并分析;2)在2 個(gè)數(shù)據(jù)集上使用各單一檢測(cè)方法和聯(lián)合檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn)并分析;3)將本文方法與其他檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn)并分析。
本文選用MNIST 數(shù)據(jù)集和CIFAR-10 數(shù)據(jù)集。MNIST 數(shù)據(jù)集包含60 000 張訓(xùn)練圖像與10 000 張測(cè)試圖像,其圖像標(biāo)簽可分成10 個(gè)類別,即0~9 的數(shù)字。MNIST 數(shù)據(jù)集中的圖像都為灰度圖像,尺寸為28×28 像素。MNIST 數(shù)據(jù)集易于訓(xùn)練且運(yùn)算量不高。CIFAR-10 數(shù)據(jù)集包含50 000 張訓(xùn)練圖像與10 000 張測(cè)試圖像,其圖像標(biāo)簽也可分成10 個(gè)類別,即飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。CIFAR-10 數(shù)據(jù)集中的圖像都為彩色圖像,尺寸為32×32 像素。CIFAR-10 數(shù)據(jù)集的圖像描述真實(shí)的彩色物體,更貼合對(duì)抗樣本的應(yīng)用場(chǎng)景。因考慮成本,本文從各數(shù)據(jù)集的測(cè)試集中選擇前100 個(gè)被正確分類的樣本,以生成各攻擊方法的對(duì)抗樣本。該檢測(cè)器的數(shù)據(jù)集包含各攻擊方法的對(duì)抗樣本以及與對(duì)抗樣本數(shù)量相同的正常樣本,被隨機(jī)分成訓(xùn)練集和驗(yàn)證集2 個(gè)部分。
分類模型:訓(xùn)練1 個(gè)7 層卷積神經(jīng)網(wǎng)絡(luò)[29]作為MNIST 數(shù)據(jù)集的分類模型,其分類準(zhǔn)確率為99.43%,平均置信度為99.39%;訓(xùn)練1 個(gè)DenseNet[30]作為CIFAR-10 數(shù)據(jù)集的分類模型,其分類準(zhǔn)確率為94.76%,平均置信度為92.15%。
對(duì)抗樣本:設(shè)計(jì)的對(duì)抗攻擊可以分為目標(biāo)攻擊和非目標(biāo)攻擊。目標(biāo)攻擊使用下一類(真實(shí)類的索引加1,記為next)和最不可能類(模型對(duì)某輸入的預(yù)測(cè)概率最小,記為ll)2 種目標(biāo)類。對(duì)于MNIST 的分類模型,非目標(biāo)攻擊有FGSM 和BIM;目標(biāo)攻擊有C&W0、C&W2、C&W∞和JSMA。對(duì)于CIFAR-10 的分類模型,非目標(biāo)攻擊有FGSM、BIM 和DeepFool;目標(biāo)攻擊有C&W0、C&W2、C&W∞和JSMA。以上針對(duì)二分類模型設(shè)計(jì)的FGSM、BIM 和JSMA 是用CleverHans庫(kù)來實(shí)現(xiàn)的,DeepFool、C&W0、C&W2和C&W∞是用其作者提供的方法來實(shí)現(xiàn)的。
圖像降噪與壓縮方法:選用的圖像降噪方法是非局部均值平滑和自編碼器,自編碼器包括卷積自編碼器(CAE)和降噪自編碼器(DAE);選用的圖像壓縮方法是像素深度壓縮。上述方法的參數(shù)設(shè)置如下:非局部均值平滑將搜索窗口的尺寸設(shè)為13×13,鄰域窗口的尺寸設(shè)為3×3,控制平滑程度的參數(shù)設(shè)為2,記為NLM_13_3_2;在MNIST 實(shí)驗(yàn)中,將圖像的像素深度壓縮到1 bit 或2 bit,在CIFAR-10實(shí)驗(yàn)中,將圖像的像素深度壓縮到5 bit,分別記為bit_depth_1、bit_depth_2 和bit_depth_5。MNIST 和CIFAR-10數(shù)據(jù)集的卷積自編碼器和降噪自編碼器中的Conv.ReLU均為3×3×3。MNIST 數(shù)據(jù)集的卷積自編碼器和降噪自編碼器中的Conv.Sigmoid 均為3×3×1,Dropout 為0.050。CIFAR-10 數(shù)據(jù)集的卷積自編碼器和降噪自編碼器中的Conv.Sigmoid均為3×3×3,Dropout 為0.075。對(duì)MNIST 自編碼器和CIFAR-10 自編碼器分別訓(xùn)練100 輪和400輪,優(yōu)化方法都采用學(xué)習(xí)率為0.000 1 的Adam,batch_size 都設(shè)為256,添加高斯噪聲的均值都為0 且其標(biāo)準(zhǔn)差都為0.01。Dropout 對(duì)MNIST 和CIFAR-10 的降噪自編碼器方法的影響如圖5 所示。從圖5 可以看出,這2 個(gè)數(shù)據(jù)集的降噪自編碼器方法對(duì)攻擊成功的對(duì)抗樣本的檢測(cè)率分別在Dropout 為0.050 和0.075 時(shí)最高。
圖5 Dropout 對(duì)降噪自編碼器方法的影響Fig.5 Influence of Dropout on denoising auto-encoders
評(píng)價(jià)指標(biāo):對(duì)攻擊成功的對(duì)抗樣本檢測(cè)率(SAE)和平均檢測(cè)率(ASAE)、假陽(yáng)性率(FPR)以及對(duì)攻擊失敗的對(duì)抗樣本檢測(cè)率(FAE)。
3.2.1 輸入樣本在壓縮特征空間前后的對(duì)比實(shí)驗(yàn)
正常樣本和對(duì)抗樣本在圖像降噪或壓縮方法處理前后的結(jié)果如圖6 和圖7 所示。第1 行都是未處理的圖像,圖6 中第2~5 行是分別經(jīng)bit_depth_1、bit_depth_2、DAE1、CAE1 處理后的圖像,圖7 中第2~5 行是分別經(jīng)bit_depth_5、NLM_13_3_2、DAE2 和CAE2 處理后的圖像。從圖6 和圖7 可以看出,各方法去除對(duì)抗擾動(dòng)的能力存在區(qū)別。為定量分析樣本在經(jīng)圖像降噪或壓縮方法處理前后的變化,本文列出了圖6 和圖7 對(duì)應(yīng)的樣本在處理前后的預(yù)測(cè)差,分別如表1 和表2 所示。從表1 和表2可以看出,通常深度學(xué)習(xí)模型對(duì)壓縮特征空間前后的對(duì)抗樣本的預(yù)測(cè)差比對(duì)相同處理前后的正常樣本要大。經(jīng)bit_depth_1、bit_depth_2、DAE1 和CAE1 處理正常樣本的預(yù)測(cè)差分別為7.566×10-7、5.657×10-7、7.872×10-7和9.541×10-7。經(jīng)bit_depth_5、NLM_13_3_2、DAE2 和CAE2 處理正常樣本的預(yù)測(cè)差分別為3.284×10-4、3.388×10-5、9.219×10-4和1.803×10-4。
表1 經(jīng)圖像降噪或壓縮方法處理前后的MNIST 樣本的預(yù)測(cè)差Table 1 Prediction differences of the MNIST examples before and after image denoising or image compression
表2 經(jīng)圖像降噪或壓縮方法處理前后的CIFAR-10 樣本的預(yù)測(cè)差Table 2 Prediction differences of the CIFAR-10 examples before and after image denoising or image compression
圖6 經(jīng)圖像降噪或壓縮方法處理前后的MNIST 樣本的效果圖Fig.6 Effect imaging of the MNIST examples before and after image denoising or image compression
圖7 經(jīng)圖像降噪或壓縮方法處理前后的CIFAR-10 樣本的效果圖Fig.7 Effect imaging of the CIFAR-10 examples before and after image denoising or image compression
3.2.2 各單一檢測(cè)方法與聯(lián)合檢測(cè)方法的對(duì)比實(shí)驗(yàn)
表3和表4所示為本文方法在MNIST和CIFAR-10數(shù)據(jù)集上的檢測(cè)率,其中檢測(cè)率是指對(duì)攻擊成功的對(duì)抗樣本檢測(cè)率(SAE)。
表3 在MNIST 數(shù)據(jù)集上不同檢測(cè)方法的檢測(cè)率Table 3 Detection rates among different detection methods on MNIST dataset
表4 在CIFAR-10 數(shù)據(jù)集上不同檢測(cè)方法的檢測(cè)率Table 4 Detection rates among different detection methods on CIFAR-10 dataset
從表3 可以看出,在MNIST 數(shù)據(jù)集上,檢測(cè)效果最好的單一檢測(cè)方法是DAE1,它對(duì)攻擊成功的對(duì)抗樣本的平均檢測(cè)率(ASAE)為93.15%,對(duì)6 種攻擊成功的對(duì)抗樣本的檢測(cè)率(SAE)達(dá)到了100%,而且其假陽(yáng)性率為3.64%,對(duì)正常樣本的影響較小,不足之處是它對(duì)BIM 攻擊的SAE 較低。而1 bit 像素深度壓縮方法對(duì)BIM 攻擊的SAE 為100%。除此之外,在MNIST 數(shù)據(jù)集上的各單一檢測(cè)方法都不能有效分辨出攻擊失敗的對(duì)抗樣本。
從表4 可以看出,在CIFAR-10 數(shù)據(jù)集上,檢測(cè)效果最好的單一檢測(cè)方法是DAE2。DAE2 的ASAE為85.91%,對(duì)其中3 種攻擊的SAE 高達(dá)100%,而且它的假陽(yáng)性率是單一方法中最低的,對(duì)正常樣本的影響最小。然而,包括DAE2 在內(nèi)的各單一檢測(cè)方法對(duì)較大擾動(dòng)的BIM 和FGSM 攻擊的檢測(cè)效果都不佳,而且各單一檢測(cè)方法的FAE 也普遍不高。
從MNIST 和CIFAR-10 數(shù)據(jù)集的單一檢測(cè)方法效果中可發(fā)現(xiàn)它們各有所長(zhǎng)。本文的聯(lián)合檢測(cè)方法就是為了在保證低假陽(yáng)性率的同時(shí),盡可能地去除樣本中不必要的特征,從而達(dá)到更優(yōu)的檢測(cè)效果。本文對(duì)這2 個(gè)數(shù)據(jù)集進(jìn)行多種聯(lián)合檢測(cè)方法的實(shí)驗(yàn),得到性能最優(yōu)的聯(lián)合檢測(cè)方法的檢測(cè)結(jié)果。該聯(lián)合檢測(cè)方法不是簡(jiǎn)單地將某攻擊檢測(cè)效果最佳的單一檢測(cè)方法的結(jié)果進(jìn)行組合,MNIST 數(shù)據(jù)集上的各單一檢測(cè)方法對(duì)C&W0攻擊的檢測(cè)率都低于聯(lián)合檢測(cè)方法對(duì)C&W0攻擊的檢測(cè)率。
從表3 和表4 可以看出,在MNIST 數(shù)據(jù)集和CIFAR-10 數(shù)據(jù)集上,聯(lián)合檢測(cè)方法的檢測(cè)效果均最優(yōu),對(duì)各攻擊的ASAE 分別是99.77%和87.90%,而且它們的FAE 都不低于性能最優(yōu)的單一檢測(cè)方法。雖然它們的假陽(yáng)性率在可接受的范圍內(nèi),但是都比性能最優(yōu)的單一檢測(cè)方法略高。此外,因?yàn)槁?lián)合檢測(cè)方法的閾值一般都比較大,所以導(dǎo)致部分對(duì)抗樣本誤判為正常樣本。CIFAR-10 數(shù)據(jù)集上的聯(lián)合檢測(cè)方法對(duì)JSMAll攻擊的檢測(cè)率低于CAE2 對(duì)JSMAll攻擊的檢測(cè)率。
3.2.3 本文方法與其他檢測(cè)方法的對(duì)比實(shí)驗(yàn)
不同方法的檢測(cè)效果對(duì)比如表5 所示。本文方法(聯(lián)合檢測(cè)方法)與Feature squeezing[26]和MagNet[31]的檢測(cè)效果進(jìn)行對(duì)比。在MNIST 數(shù)據(jù)集上,雖然本文方法對(duì)攻擊成功的對(duì)抗樣本的平均檢測(cè)率(ASAE)與MagNet 都為99.77%,但是本文方法的假陽(yáng)性率相比MagNet 降低了9.11 個(gè)百分點(diǎn),對(duì)正常樣本的影響較小。在CIFAR-10 數(shù)據(jù)集上,本文方法的ASAE相比Feature squeezing 和MagNet分別提高5.16 和12.30 個(gè)百分點(diǎn),而且本文方法的假陽(yáng)性率是這3 種方法中最低的。因此,本文方法的檢測(cè)性能優(yōu)于其他2 種方法。
表5 本文方法與其他檢測(cè)方法的檢測(cè)效果對(duì)比Table 5 Comparison of the detection effect of the proposed method and other detection methods %
本文針對(duì)圖像分類模型的對(duì)抗攻擊問題,從預(yù)測(cè)結(jié)果不一致的角度出發(fā),提出一種不依賴對(duì)抗樣本的檢測(cè)方法。使用圖像降噪或壓縮方法刪除樣本中的不必要特征,并通過比較處理前后的輸入樣本在深度學(xué)習(xí)模型中的預(yù)測(cè)差來檢測(cè)該樣本的對(duì)抗性。該檢測(cè)方法易于部署而且無須對(duì)原圖像分類模型進(jìn)行調(diào)整,其普適性較強(qiáng)。實(shí)驗(yàn)結(jié)果表明,本文檢測(cè)方法相比其他檢測(cè)方法,能夠在有效檢測(cè)出對(duì)抗樣本的同時(shí)降低對(duì)正常樣本的影響。然而本文在CIFAR-10 的實(shí)驗(yàn)中對(duì)擾動(dòng)較大的對(duì)抗樣本檢測(cè)效果不佳,而且在訓(xùn)練聯(lián)合檢測(cè)器時(shí)使用最大預(yù)測(cè)差選擇閾值,影響對(duì)非正常樣本的檢測(cè)性能。后續(xù)將尋找可去除較大對(duì)抗擾動(dòng)的方法,并設(shè)計(jì)新的策略訓(xùn)練聯(lián)合檢測(cè)器的閾值,以構(gòu)建更有效的對(duì)抗樣本檢測(cè)方法。