張濟(jì)慈,范純龍,李彩龍,鄭學(xué)東
基于幾何關(guān)系的跨模型通用擾動(dòng)生成方法
張濟(jì)慈,范純龍*,李彩龍,鄭學(xué)東
(沈陽(yáng)航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽(yáng) 110136)( ? 通信作者電子郵箱FanCHL@sau.edu.cn)
對(duì)抗攻擊通過在神經(jīng)網(wǎng)絡(luò)模型的輸入樣本上添加經(jīng)設(shè)計(jì)的擾動(dòng),使模型高置信度地輸出錯(cuò)誤結(jié)果。對(duì)抗攻擊研究主要針對(duì)單一模型應(yīng)用場(chǎng)景,對(duì)多模型的攻擊主要通過跨模型遷移攻擊來實(shí)現(xiàn),而關(guān)于跨模型通用攻擊方法的研究很少。通過分析多模型攻擊擾動(dòng)的幾何關(guān)系,明確了不同模型間對(duì)抗方向的正交性和對(duì)抗方向與決策邊界間的正交性,并據(jù)此設(shè)計(jì)了跨模型通用攻擊算法和相應(yīng)的優(yōu)化策略。在CIFAR10、SVHN數(shù)據(jù)集和六種常見神經(jīng)網(wǎng)絡(luò)模型上,對(duì)所提算法進(jìn)行了多角度的跨模型對(duì)抗攻擊驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,給定實(shí)驗(yàn)場(chǎng)景下的算法攻擊成功率為1.0,二范數(shù)模長(zhǎng)不大于0.9,相較于跨模型遷移攻擊,所提算法在六種模型上的平均攻擊成功率最多提高57%,并且具有更好的通用性。
深度學(xué)習(xí);對(duì)抗樣本生成;對(duì)抗攻擊;跨模型攻擊;分類器
對(duì)抗攻擊的提出,更加凸顯了神經(jīng)網(wǎng)絡(luò)在實(shí)際生活和生產(chǎn)中的安全問題,因此,研究對(duì)抗攻擊算法,不僅能夠理解神經(jīng)網(wǎng)絡(luò)的內(nèi)部機(jī)制和脆弱性,還能進(jìn)一步探索如何提升神經(jīng)網(wǎng)絡(luò)的安全性和魯棒性,對(duì)神經(jīng)網(wǎng)絡(luò)可解釋性的發(fā)展也有著重要的意義。
在經(jīng)典的圖像分類領(lǐng)域中,對(duì)抗攻擊可以根據(jù)攻擊的場(chǎng)景分為白盒和黑盒算法,二者的區(qū)別在于攻擊者是否可以獲得所攻擊模型的詳細(xì)信息,如網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)等?,F(xiàn)有的一些攻擊方法是針對(duì)單樣本-單模型設(shè)計(jì)的,如在典型的白盒應(yīng)用場(chǎng)景中,快速梯度下降法(Fast Gradient Sign Method, FGSM)[1]認(rèn)為神經(jīng)網(wǎng)絡(luò)因?yàn)榫哂芯€性性質(zhì)而容易受對(duì)抗擾動(dòng)的影響,采用了一種基于梯度符號(hào)進(jìn)行單步攻擊的方法;PGD(Projected Gradient Descent)[2]采用了一種min-max最優(yōu)化框架,利用多步迭代的方式尋找對(duì)抗樣本,解決了FGSM可能在極小范圍內(nèi)變化劇烈的復(fù)雜非線性模型上,解無法收斂的問題;DeepFool[3]同時(shí)考慮了梯度信息和神經(jīng)網(wǎng)絡(luò)分類器的函數(shù)景觀,將對(duì)抗擾動(dòng)的求解從多元仿射分類器推廣到多元可微分類器中,這種迭代的貪心策略在實(shí)踐中取得了不錯(cuò)的效果;CW[4]同時(shí)兼顧高攻擊成功率和低對(duì)抗擾動(dòng)兩個(gè)方面,是攻破模型蒸餾防御的有效方法。在黑盒場(chǎng)景中,One pixel[5]針對(duì)單模型進(jìn)行攻擊,采用差分進(jìn)化算法求得最優(yōu)解,該方法僅改變一個(gè)像素點(diǎn)就能使神經(jīng)網(wǎng)絡(luò)分類器決策失誤;受CW啟發(fā),ZOO(Zeroth Order Optimization)[6]采用了一種基于零階優(yōu)化的算法,以無導(dǎo)數(shù)的方式對(duì)梯度進(jìn)行估計(jì),并對(duì)一批坐標(biāo)進(jìn)行隨機(jī)梯度下降,提高了計(jì)算效率;NATTACK[7]通過求出對(duì)抗樣本的空間分布,可以針對(duì)一個(gè)樣本生成無數(shù)個(gè)對(duì)抗樣本。
以上單樣本-單模型的方法在單模型上表現(xiàn)較好,但沒有考慮到樣本級(jí)別的通用性,即擾動(dòng)對(duì)樣本集中大部分樣本是通用的。因此研究者們又針對(duì)多樣本-單模型的場(chǎng)景提出大量的樣本通用攻擊方法,如UAP(Universal Adversarial Perturbation)[8]以及UAP的改進(jìn)算法[9-10],UAP表明了分類器高維決策邊界之間的幾何相關(guān)性,并利用每個(gè)樣本決策邊界的相關(guān)性和冗余性得到整個(gè)樣本集的通用擾動(dòng)。還有一些數(shù)據(jù)無關(guān)的工作被提出,如FFF(Fast Feature Fool)[11]采用一種數(shù)據(jù)無關(guān)的方法生成目標(biāo)數(shù)據(jù)不可知的擾動(dòng),證明了對(duì)網(wǎng)絡(luò)中單個(gè)層的特征激活進(jìn)行改變就可以改變分類的結(jié)果;AAA(Ask, Acquire, and Attack)[12]通過引入生成對(duì)抗網(wǎng)絡(luò)計(jì)算通用擾動(dòng)。
以上研究在樣本級(jí)別上考慮充分,但都只考慮了單模型。目前針對(duì)多模型的研究主要集中在對(duì)抗樣本的遷移性上,它衡量了一個(gè)模型生成的對(duì)抗樣本在另一個(gè)模型上的表現(xiàn)。文獻(xiàn)[13]中利用局部平滑梯度代替?zhèn)鹘y(tǒng)梯度,提出了一個(gè)方差減小攻擊來提高對(duì)抗樣本的遷移性;文獻(xiàn)[14]中通過結(jié)合生成對(duì)抗網(wǎng)絡(luò)進(jìn)行對(duì)抗攻擊;文獻(xiàn)[15]中通過調(diào)整輸入的多樣性提高遷移成功率;文獻(xiàn)[16]中通過結(jié)合優(yōu)化方法和數(shù)據(jù)增強(qiáng)來提高對(duì)抗樣本的遷移性,具體是利用Nesterov算法跳出局部最優(yōu)解,同時(shí)加入縮放不變性;文獻(xiàn)[17]中對(duì)基于動(dòng)量的攻擊進(jìn)行改進(jìn),不僅考慮了圖像時(shí)域的梯度,還考慮了圖像空間域的梯度,獲得了較好的遷移成功率;文獻(xiàn)[18]的研究考慮了前一次迭代的梯度方差,通過方差調(diào)整當(dāng)前梯度,從而穩(wěn)定更新方向,提高對(duì)抗樣本的遷移性。也有部分研究深入探索了對(duì)抗樣本具有遷移性的內(nèi)在機(jī)制,如文獻(xiàn)[19]中通過大量實(shí)驗(yàn)對(duì)神經(jīng)網(wǎng)絡(luò)模型的決策邊界和幾何特性進(jìn)行分析,發(fā)現(xiàn)不同模型之間梯度方向是近似正交的;文獻(xiàn)[20]的研究從類感知的可轉(zhuǎn)移性進(jìn)行分析,認(rèn)為對(duì)抗樣本使不同模型出現(xiàn)相同錯(cuò)誤和不同錯(cuò)誤的原因是對(duì)非魯棒性特征的使用方式不同。
這些針對(duì)對(duì)抗樣本遷移性的研究取得了大量的優(yōu)秀成果,但實(shí)質(zhì)上還是沒有針對(duì)多模型進(jìn)行攻擊,這就意味著這些方法僅針對(duì)單樣本-單模型或者多樣本-單模型。盡管這些研究在單模型上有著優(yōu)異的效果,但當(dāng)場(chǎng)景轉(zhuǎn)換為多模型時(shí),這些方法的攻擊效率并不能得到保證。在圖像分類領(lǐng)域中,跨模型攻擊的研究還較少,其中文獻(xiàn)[21]中提出了一種集成機(jī)制,能保證非目標(biāo)攻擊的成功率,但它攻擊成功的評(píng)價(jià)標(biāo)準(zhǔn)并不是擾動(dòng)同時(shí)在多個(gè)模型上生效,因此并不是完全意義上的跨模型通用攻擊;文獻(xiàn)[22]中設(shè)計(jì)一種自適應(yīng)模型權(quán)重的方法在集成模型中進(jìn)行部分像素攻擊,對(duì)擾動(dòng)模長(zhǎng)和模型的組合權(quán)重進(jìn)行自適應(yīng)選擇,但是實(shí)驗(yàn)的分析和評(píng)價(jià)指標(biāo)略有欠缺。從目前的研究現(xiàn)狀來看,跨模型通用攻擊還有很多細(xì)節(jié)值得探索。
綜上所述,本文將研究重點(diǎn)放在單樣本-多模型的對(duì)抗樣本生成方法上。根據(jù)兩個(gè)幾何特性,提出了一種基于幾何關(guān)系的維度累加跨模型通用白盒攻擊算法,并提出對(duì)抗樣本的二范數(shù)模長(zhǎng)優(yōu)化方法,實(shí)驗(yàn)結(jié)果表明,本文算法可以有效地解決跨模型通用攻擊問題,并在攻擊成功率和效率方面均取得了良好的效果。本文的主要工作如下:
1)分析了不同模型間對(duì)抗性方向的關(guān)系和對(duì)抗性方向與決策邊界間的關(guān)系,得到兩個(gè)幾何特性結(jié)論,證明了跨模型通用攻擊的可解性;
2)提出基于幾何關(guān)系的維度累加跨模型通用攻擊方法,利用樣本點(diǎn)到?jīng)Q策邊界的最短距離確定單模型擾動(dòng)向量,從多角度驗(yàn)證方法在多模型上的有效性;
3)提出基于二分搜索策略的擾動(dòng)二范數(shù)模長(zhǎng)優(yōu)化方法,可以有效地降低擾動(dòng)的二范數(shù)模長(zhǎng)大小,并保證擾動(dòng)仍是跨模型通用的。
根據(jù)式(3),跨模型通用攻擊成功的評(píng)價(jià)指標(biāo)是所施加的擾動(dòng)必須在多模型上同時(shí)生效,顯然,這個(gè)問題在多個(gè)深度神經(jīng)網(wǎng)絡(luò)中是高度復(fù)雜的,需要更深入地研究對(duì)抗樣本的本質(zhì)以及神經(jīng)網(wǎng)絡(luò)模型的性質(zhì)。
文獻(xiàn)[16]的研究發(fā)現(xiàn),不同模型之間梯度方向是近似正交的,此外,文獻(xiàn)[23-24]的研究從兩種角度詮釋了對(duì)抗樣本存在的原因,其中文獻(xiàn)[23]構(gòu)建了一種更容易被人類理解的方法,從特征的魯棒性與非魯棒性出發(fā),提出了對(duì)抗擾動(dòng)是一種特征的本質(zhì);文獻(xiàn)[24]則從幾何流形的角度分析對(duì)抗樣本的特性,文中提到的流形數(shù)據(jù)與非流形數(shù)據(jù)與魯棒和非魯棒特征是理解問題的兩種不同角度,這兩篇文章都對(duì)對(duì)抗樣本的內(nèi)在特性進(jìn)行了深入解讀。
受上述研究的啟發(fā),本文設(shè)計(jì)了一種基于幾何關(guān)系的維度累加白盒方法解決跨模型通用攻擊問題。該方法集成了不同模型的敏感擾動(dòng),使最終的擾動(dòng)包含多個(gè)模型的擾動(dòng)特性。
1)對(duì)抗擾動(dòng)與模型邊界的關(guān)系。如圖1(a)所示,對(duì)于一個(gè)二元線性分類器,沿著梯度的方向可以以最快速度找到對(duì)抗性擾動(dòng),最小的擾動(dòng)可以用式(4)表示,直觀的理解就是樣本點(diǎn)到?jīng)Q策平面的距離。
在非線性的情況下,根據(jù)神經(jīng)網(wǎng)絡(luò)決策邊界近似線性性質(zhì),同樣可以通過樣本點(diǎn)到?jīng)Q策平面的距離得到對(duì)抗性擾動(dòng)的方向和大小。這與文獻(xiàn)[24]中對(duì)樣本點(diǎn)和決策邊界的分析一致,該文中通過凹槽流形解釋對(duì)抗樣本的內(nèi)在性質(zhì)及其存在的原因,作者認(rèn)為訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)通過在圖像流形中引入凹槽形成了神經(jīng)網(wǎng)絡(luò)的決策邊界,而樣本的對(duì)抗性方向近似垂直于圖像流形。通過該理論解釋和圖1(b)中直觀的幾何關(guān)系,可以推斷出在一個(gè)逼近復(fù)雜非線性關(guān)系的神經(jīng)網(wǎng)絡(luò)模型中,一個(gè)樣本點(diǎn)的梯度方向即對(duì)抗性方向,垂直于該點(diǎn)的決策邊界。
圖1 二元線性分類器和二元非線性分類器下的對(duì)抗擾動(dòng)求解
不同訓(xùn)練方式下的同種模型(NiN模型)的對(duì)抗性方向夾角值如圖3所示,可以看出,模型之間的對(duì)抗性方向的夾角范圍在76°~90°,在這種情況下,本文方法依然可以找到跨模型擾動(dòng)的可行解,因?yàn)閷_動(dòng)疊加之后,仍然可以保證最終的擾動(dòng)中包含其他模型的擾動(dòng)特性。
圖3 不同訓(xùn)練方式下同種模型(NiN)的對(duì)抗性方向夾角值
根據(jù)1.2節(jié)的描述,可以推出兩個(gè)有關(guān)幾何特性的結(jié)論:
結(jié)論1 在單個(gè)模型中,一個(gè)樣本點(diǎn)的對(duì)抗性方向與決策邊界近似正交。
結(jié)論2 在多個(gè)模型中,模型間的對(duì)抗性方向即梯度方向近似正交。
圖4 跨兩個(gè)二元線性分類器的對(duì)抗擾動(dòng)求解
圖5 跨三個(gè)二元線性分類器的對(duì)抗擾動(dòng)求解
前面分析了線性分類器中跨模型通用對(duì)抗樣本的可解性,根據(jù)神經(jīng)網(wǎng)絡(luò)局部決策邊界近似線性這一依據(jù),將多維線性分類器中擾動(dòng)生成的思想進(jìn)一步向深度神經(jīng)網(wǎng)絡(luò)的非線性場(chǎng)景中推廣,可以得出一個(gè)跨模型通用攻擊的可行策略。
圖6 跨兩個(gè)二元非線性分類器的對(duì)抗擾動(dòng)求解
算法1 候選擾動(dòng)算法。
8) end if
9) end for
算法1中的new_deepfool算法的輸入為待攻擊樣本、攻擊模型和已攻擊過的標(biāo)簽列表,它與原DeepFool算法的區(qū)別是不會(huì)再次攻擊之前攻擊過的標(biāo)簽,這就保證了它不會(huì)在原始攻擊點(diǎn)和當(dāng)前攻擊點(diǎn)之間停留,而是繼續(xù)向前尋找下一個(gè)可能存在的對(duì)抗樣本。該算法的攻擊原理與DeepFool相同,都是通過迭代地找到將輸入圖像推向分類模型的決策邊界的最小擾動(dòng)量來工作,該擾動(dòng)是在最接近決策邊界的方向上添加的,然后重復(fù)該過程直到圖像被錯(cuò)誤分類。
算法2 跨模型對(duì)抗樣本生成算法。
13) end for
14) end for
15) end for
前面具體描述了跨模型的通用攻擊方法,為了提高生成的對(duì)抗樣本的圖像質(zhì)量,設(shè)計(jì)了二分模長(zhǎng)縮減算法對(duì)擾動(dòng)的二范數(shù)模長(zhǎng)進(jìn)行優(yōu)化。
圖7 跨模型擾動(dòng)與跨模型決策邊界關(guān)系
本文選用CIFAR10[26]和SVHN[27]數(shù)據(jù)集,以及NiN[28]、VGG11[29]、ResNet18[30]、DenseNet121[31]、GoogleNet[32]、MobileNet[33]六種典型神經(jīng)網(wǎng)絡(luò)分類器,每個(gè)分類器通過設(shè)置不同的網(wǎng)絡(luò)參數(shù)初始化方式和學(xué)習(xí)率得到24種神經(jīng)網(wǎng)絡(luò)分類器,具體可以分為四種訓(xùn)練方式:方式1(Kaiming初始化+學(xué)習(xí)率1);方式2(Kaiming初始化+學(xué)習(xí)率2);方式3(Xavier初始化+學(xué)習(xí)率1);方式4(Xavier初始化+學(xué)習(xí)率2)。從測(cè)試集中隨機(jī)選取了1 000張圖片進(jìn)行對(duì)抗攻擊實(shí)驗(yàn),對(duì)本文算法的有效性及性能進(jìn)行了驗(yàn)證。所有實(shí)驗(yàn)均在一臺(tái)搭載NVIDIA GeForce RTX 2080Ti GPU 的 Linux 工作站上完成,算法采用Python3.8開發(fā)環(huán)境及PyTorch1.6框架編程實(shí)現(xiàn)。
為驗(yàn)證本文攻擊算法的效果和性能,設(shè)置了如下幾個(gè)指標(biāo),分別為攻擊成功率、二范數(shù)平均模長(zhǎng)、圖像質(zhì)量評(píng)估。
3)圖像質(zhì)量評(píng)估指標(biāo)。
b)峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)是一種評(píng)價(jià)圖像的客觀標(biāo)準(zhǔn),它的值越大,說明失真越少。
為了驗(yàn)證設(shè)計(jì)算法的攻擊質(zhì)量,從CIFAR10、SVHN測(cè)試集中隨機(jī)抽取1 000個(gè)樣本進(jìn)行性能測(cè)試,實(shí)驗(yàn)分別從兩個(gè)方面進(jìn)行測(cè)試:第一個(gè)方面是采用不同訓(xùn)練方式下的同種模型(模型共4個(gè),具體見表1,每一行為一個(gè)模型組)的算法性能;第二個(gè)方面是同種訓(xùn)練方式的不同模型(模型共6個(gè),具體見表1,每一列為一個(gè)模型組)的算法性能,對(duì)比算法選擇旨在提高對(duì)抗樣本遷移性的SINIFGSM[16]、VMIFGSM[18]和VNIFGSM[18],這些算法在跨模型遷移攻擊中表現(xiàn)良好。
表1 模型訓(xùn)練方式
具體結(jié)果見表2、3,從第一個(gè)方面(表2)可以看出無論是CIFAR10還是SVHN數(shù)據(jù)集,算法的攻擊成功率都是1.0,且生成的對(duì)抗樣本圖像質(zhì)量良好;從第二個(gè)方面(表3)看,無論是在CIFAR10還是SVHN數(shù)據(jù)集中,算法的跨模型攻擊成功率也同樣為1.0,生成的對(duì)抗樣本圖像質(zhì)量良好;無論從哪個(gè)方面來看,生成的對(duì)抗樣本圖像質(zhì)量良好,二范數(shù)模長(zhǎng)均不大于0.9;SVHN的擾動(dòng)二范數(shù)模長(zhǎng)和平均樣本迭代次數(shù)均略大于CIFAR10數(shù)據(jù)集,其中采用Kaiming初始化方法訓(xùn)練的模型攻擊效果更好。以上的實(shí)驗(yàn)結(jié)果說明,本文算法在有限個(gè)不同模型和相同模型之間的跨模型對(duì)抗樣本生成問題中都有著良好的效果。
對(duì)于表2、3中CIFAR10數(shù)據(jù)集上的表現(xiàn)效果略優(yōu)于SVHN數(shù)據(jù)集的結(jié)果,可以解釋如下:在模型訓(xùn)練中,實(shí)驗(yàn)中用到的模型在SVHN數(shù)據(jù)集上的收斂速度和測(cè)試正確率都高于CIFAR10數(shù)據(jù)集,這意味著SVHN數(shù)據(jù)集上的預(yù)測(cè)值更具有魯棒性,不易被攻擊,因此,它的跨模型通用擾動(dòng)的二范數(shù)模長(zhǎng)和平均樣本迭代次數(shù)會(huì)高于CIFAR10。圖8是算法生成的跨模型對(duì)抗樣本的二模長(zhǎng)范數(shù)分布情況,可以看出在CIFAR10上生成的擾動(dòng)模長(zhǎng)更集中于數(shù)值較小的區(qū)間,相對(duì)于CIFAR10,SVHN數(shù)據(jù)集下的擾動(dòng)模長(zhǎng)分布跨度較大。
表2 算法2在不同種訓(xùn)練方式下的同種模型間跨模型攻擊性能
表3 算法2在同種訓(xùn)練方式下的不同模型間跨模型攻擊性能
圖8 對(duì)抗樣本模長(zhǎng)分布情況
在算法2的基礎(chǔ)上加入二分模長(zhǎng)縮減策略的攻擊質(zhì)量如表4、5所示,可以看出,加入二分模長(zhǎng)搜索策略后攻擊成功率仍然與原始性能相當(dāng)。從跨不同訓(xùn)練方式的相同模型攻擊的角度看,在CIFAR10、SVHN數(shù)據(jù)集中,平均二范數(shù)模長(zhǎng)下降了10%左右;從跨不同模型攻擊的角度看,在CIFAR10數(shù)據(jù)集中平均二范數(shù)模長(zhǎng)下降了10%,在SVHN數(shù)據(jù)集中,平均二范數(shù)模長(zhǎng)下降了9%;同時(shí),在這兩個(gè)數(shù)據(jù)集上,生成的跨模型通用對(duì)抗樣本的圖片質(zhì)量較之前也有提升,由此可見該策略對(duì)于模長(zhǎng)的縮減是有效的。
表6顯示的是三種對(duì)比算法在CIFAR10數(shù)據(jù)集和六種常見模型(方式1模型組)上的攻擊成功率,通過將三種算法在源模型產(chǎn)生的對(duì)抗樣本遷移到目標(biāo)模型來獲得跨模型遷移成功率,從表中數(shù)據(jù)可以看出本文算法在攻擊成功率上比SINIFGSM、VMIFGSM、VNIFGSM這三種算法都更好,在六種模型上的平均攻擊成功率最多提高57%。圖9展示了部分對(duì)抗樣本,從生成的對(duì)抗樣本質(zhì)量來看,本文算法相較于對(duì)比算法有著更低的人眼敏感度。
表4 模長(zhǎng)優(yōu)化在不同種訓(xùn)練方式下的同種模型間的跨模型攻擊性能
表5 模長(zhǎng)優(yōu)化在同種訓(xùn)練方式下的不同模型間的跨模型攻擊性能
圖9 對(duì)抗樣本示例
如圖10,實(shí)驗(yàn)中發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,在CIFAR10數(shù)據(jù)集上,將每個(gè)模型上的分?jǐn)_動(dòng)和跨模型擾動(dòng)分別在模型上的攻擊結(jié)果進(jìn)行比較,發(fā)現(xiàn)單模型擾動(dòng)與跨模型擾動(dòng)的攻擊預(yù)測(cè)標(biāo)簽值在分布上是基本一致的。這說明單模型擾動(dòng)與跨模型擾動(dòng)在同一模型上的預(yù)測(cè)表現(xiàn)基本一致,這一現(xiàn)象可能是由于跨模型擾動(dòng)是由多個(gè)正交的單模型擾動(dòng)組合而來,這個(gè)組合的跨模型擾動(dòng)保留了多個(gè)模型產(chǎn)生擾動(dòng)的特征,使它可以在多個(gè)模型中生效。而在SVHN數(shù)據(jù)集上,這種現(xiàn)象變得不那么明顯,我們推測(cè)是SVHN數(shù)據(jù)集簡(jiǎn)單、模型的決策邊界更魯棒所導(dǎo)致的。本實(shí)驗(yàn)結(jié)果表現(xiàn)出來的預(yù)測(cè)一致性,也可以用非魯棒性特征[21]解釋,即跨模型擾動(dòng)保留了不同模型最敏感的非魯棒性特征。
除此之外,還分析了本文算法下的跨模型攻擊之間的類別敏感度,圖11展示了跨不同模型攻擊場(chǎng)景下,模型原始預(yù)測(cè)類別和算法攻擊后的預(yù)測(cè)類別之間的分布關(guān)系??梢钥闯?,在CIFAR10數(shù)據(jù)集中,原始預(yù)測(cè)類別到攻擊后預(yù)測(cè)類別的轉(zhuǎn)換有著明顯的傾向性,攻擊后預(yù)測(cè)類別為3的樣本最多;而在SVHN數(shù)據(jù)集中,這種傾向性表現(xiàn)為攻擊后預(yù)測(cè)類別為2的樣本最多。
表6 對(duì)比算法在CIFAR10數(shù)據(jù)集和六種常見模型上的攻擊成功率
注:*表示源模型與目標(biāo)模型相同。
圖10 實(shí)驗(yàn)數(shù)據(jù)集上不同訓(xùn)練方式下的單模型攻擊與跨不同模型攻擊預(yù)測(cè)結(jié)果對(duì)比
本文面向跨模型的通用對(duì)抗攻擊場(chǎng)景,根據(jù)模型之間和模型內(nèi)部的正交性,在DeepFool算法的基礎(chǔ)上,提出了一種基于幾何關(guān)系的跨模型通用攻擊方法,并有針對(duì)性地提出了一種二分模長(zhǎng)優(yōu)化方法,在保證有效愚弄多個(gè)模型的同時(shí),降低了人眼對(duì)擾動(dòng)的可察覺性。
使用CIFAR10、SVHN數(shù)據(jù)集和NiN、VGG11、ResNet18、DenseNet121、GoogleNet、MobileNet六種典型卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行性能驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文算法在攻擊成功率和二范數(shù)模長(zhǎng)上都具有很好的效果。但需要指出的是,本文算法在跨模型個(gè)數(shù)的方面仍有限制,未來工作的一個(gè)重要方向是圍繞更加通用的跨模型攻擊框架展開設(shè)計(jì)。
圖11 實(shí)驗(yàn)數(shù)據(jù)集上跨不同模型的對(duì)抗樣本類別敏感度
[1] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. (2015-03-20) [2022-12-16].https://arxiv.org/pdf/1412.6572.pdf.
[2] M?DRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. (2019-09-04) [2022-12-16].https://arxiv.org/pdf/1706.06083.pdf.
[3] MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2574-2582.
[4] CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 39-57.
[5] SU J, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841.
[6] CHEN P Y, ZHANG H, SHARMA Y, et al. ZOO: zeroth order optimization based black-box attacks to deep neural networks without training substitute models[C]// Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. New York: ACM, 2017: 15-26.
[7] LI Y, LI L, WANG L, et al. NATTACK: learning the distributions of adversarial examples for an improved black-box attack on deep neural networks[C]// Proceedings of the 36th International Conference on Machine Learning. New York: JMLR.org, 2019: 3866-3876.
[8] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 86-94.
[9] ZHANG C, BENZ P, IMTIAZ T, et al. CD-UAP: class discriminative universal adversarial perturbation[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 6754-6761.
[10] MOPURI K R, GANESHAN A, BABU R V. Generalizable data-free objective for crafting universal adversarial perturbations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(10): 2452-2465.
[11] MOPURI K R, GARG U, BABU R V. Fast feature fool: a data independent approach to universal adversarial perturbations[C]// Proceedings of the 2017 British Machine Vision Conference. Durham: BMVA Press, 2017: No.30.
[12] MOPURI K R, UPPALA P K, BABU R V. Ask, acquire, and attack: data-free UAP generation using class impressions[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11213. Cham: Springer, 2018: 20-35.
[13] WU L, ZHU Z, TAI C, et al. Understanding and enhancing the transferability of adversarial examples[EB/OL]. (2018-02-27) [2022-12-16].https://arxiv.org/pdf/1802.09707.pdf.
[14] LI Y, ZHANG Y, ZHANG R, et al. Generative transferable adversarial attack[C]// Proceedings of the 3rd International Conference on Video and Image Processing. New York: ACM, 2019: 84-89.
[15] XIE C, ZHANG Z, ZHOU Y, et al. Improving transferability of adversarial examples with input diversity[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 2725-2734.
[16] LIN J, SONG C, HE K, et al. Nesterov accelerated gradient and scale invariance for adversarial attacks[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1908.06281.pdf.
[17] WANG G, YAN H, WEI X. Improving adversarial transferability with spatial momentum[EB/OL]. [2022-12-16].https://arxiv.org/pdf/2203.13479.pdf.
[18] WANG X, HE K. Enhancing the transferability of adversarial attacks through variance tuning[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021:1924-1933.
[19] LIU Y, CHEN X, LIU C, et al. Delving into transferable adversarial examples and black-box attacks[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1611.02770.pdf.
[20] WASEDA F, NISHIKAWA S, LE T N, et al. Closer look at the transferability of adversarial examples: how they fool different models differently[C]// Proceedings of the 2023 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2023: 1360-1368.
[21] HE Z, WANG W, XUAN X, et al. A new ensemble method for concessively targeted multi-model attack[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1912.10833.pdf.
[22] WU F, GAZO R, HAVIAROVA E, et al. Efficient project gradient descent for ensemble adversarial attack[EB/OL].[2022-12-16].https://arxiv.org/pdf/1906.03333.pdf.
[23] ILYAS A, SANTURKAR S, TSIPRAS D, et al. Adversarial examples are not bugs, they are features[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 125-136.
[24] SHAMIR A, MELAMED O, BenSHMUEL O. The dimpled manifold model of adversarial examples in machine learning[EB/OL]. [2022-12-16].https://arxiv.org/pdf/2106.10151.pdf.
[25] KNUTH D E. The Art of Computer Programming: Volume 3, Sorting and Searching[M]. Reading, MA: Addison Wesley, 1973.
[26] KRIZHEVSKY A. Learning multiple layers of features from tiny images[R/OL]. [2022-12-16].https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf.
[27] NETZER Y, WANG T, COATES A, et al. Reading digits in natural images with unsupervised feature learning[EB/OL]. [2022-12-16].http://ufldl.stanford.edu/housenumbers/nips2011_housenumbers.pdf.
[28] LIN M, CHEN Q, YAN S. Network in network[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1312.4400.pdf.
[29] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1409.1556.pdf.
[30] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[31] HUANG G, LIU Z, MAATEN L van der, et al. Densely connected convolutional networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2261-2269.
[32] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[33] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2022-12-16].https://arxiv.org/pdf/1704.04861.pdf.
Cross-model universal perturbation generation method based on geometric relationship
ZHANG Jici, FAN Chunlong*, LI Cailong, ZHENG Xuedong
(,,110136,)
Adversarial attacks add designed perturbations to the input samples of neural network models to make them output wrong results with high confidence. The research on adversarial attacks mainly aim at the application scenarios of a single model, and the attacks on multiple models are mainly realized through cross-model transfer attacks, but there are few studies on universal cross-model attack methods. By analyzing the geometric relationship of multi-model attack perturbations, the orthogonality of the adversarial directions of different models and the orthogonality of the adversarial direction and the decision boundary of a single model were clarified, and the universal cross-model attack algorithm and corresponding optimization strategy were designed accordingly. On CIFAR10, SVHN datasets and six common neural network models, the proposed algorithm was verified by multi-angle cross-model adversarial attacks. Experimental results show that the attack success rate of the algorithm in a given experimental scenario is 1.0, and the L2-norm is not greater than 0.9. Compared with the cross-model transfer attack, the proposed algorithm has the average attack success rate on the six models increased by up to 57% and has better universality.
deep learning; adversarial sample generation; adversarial attack; cross-model attack; classifier
1001-9081(2023)11-3428-08
10.11772/j.issn.1001-9081.2022111677
2022?11?11;
2023?04?06;
國(guó)家自然科學(xué)基金資助項(xiàng)目(61972266)。
張濟(jì)慈(1998—),女,遼寧海城人,碩士研究生,CCF會(huì)員,主要研究方向:深度學(xué)習(xí)、對(duì)抗攻擊; 范純龍(1973—),男,遼寧沈陽(yáng)人,教授,博士,CCF會(huì)員,主要研究方向:神經(jīng)網(wǎng)絡(luò)可解釋性、復(fù)雜網(wǎng)絡(luò)分析、智能系統(tǒng)驗(yàn)證; 李彩龍(1997—),男,江西上饒人,碩士研究生,主要研究方向:深度學(xué)習(xí)、對(duì)抗攻擊; 鄭學(xué)東(1977—),男,黑龍江五常人,教授,博士,主要研究方向:DNA計(jì)算、人工智能。
TP391
A
2023?04?11。
This work is partially supported by National Natural Science Foundation of China (61972266).
ZHANG Jici, born in 1998, M. S. candidate. Her research interests include deep learning, adversarial attack.
FAN Chunlong, born in 1973, Ph. D., professor. His research interests include neural network interpretability, complex network analysis, intelligent system validation.
LI Cailong, born in 1997, M. S. candidate. His research interests include deep learning, adversarial attack.
ZHENG Xuedong, born in 1977, Ph. D., professor. His research interests include DNA computing, artificial intelligence.