田 鵬,左大義,高艷春,陳海兵,丁 灝
(1.中國(guó)電子科技集團(tuán)第三十研究所,四川 成都 610000;2.中電科網(wǎng)絡(luò)空間安全研究院有限公司,北京 100191)
人工智能技術(shù)正在迅速應(yīng)用于網(wǎng)絡(luò)空間安全、自動(dòng)駕駛等關(guān)鍵領(lǐng)域,而人工智能中的一系列安全問(wèn)題,并沒(méi)有得到解決,不安全的人工智能技術(shù)的冒進(jìn)應(yīng)用,必然會(huì)帶來(lái)一系列新型安全隱患。對(duì)人工智能技術(shù)中出現(xiàn)的安全問(wèn)題的研究,形成了所謂的對(duì)抗性機(jī)器學(xué)習(xí)研究領(lǐng)域,其中對(duì)抗樣本是一個(gè)研究的熱點(diǎn)[1]。
對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)源于2013年,Szegedy[2]發(fā)現(xiàn):通過(guò)對(duì)樣本添加極微小、經(jīng)過(guò)計(jì)算的擾動(dòng),可以使深度學(xué)習(xí)分類器得到完全不同的結(jié)果,從而提出了“對(duì)抗樣本”的概念,這標(biāo)志著對(duì)抗性機(jī)器學(xué)習(xí)的正式誕生。從谷歌的統(tǒng)計(jì)數(shù)據(jù)上[3]來(lái)看,自2013年提出抗性機(jī)器學(xué)習(xí)直到2016年底,對(duì)抗性機(jī)器學(xué)習(xí)在學(xué)術(shù)界內(nèi)保持了一般的研究熱度,但從2017年發(fā)現(xiàn)了用于現(xiàn)實(shí)世界的對(duì)抗樣本,以及OpenAI等機(jī)構(gòu)的宣傳,學(xué)術(shù)界和行業(yè)界對(duì)對(duì)抗樣本、對(duì)抗性機(jī)器學(xué)習(xí)的興趣顯著提升。
對(duì)抗樣本是一類被惡意設(shè)計(jì)來(lái)攻擊機(jī)器學(xué)習(xí)模型的樣本,是攻擊者故意設(shè)計(jì)的,它們與真實(shí)樣本的區(qū)別幾乎無(wú)法用肉眼分辨,但是卻會(huì)導(dǎo)致模型進(jìn)行錯(cuò)誤的判斷。就像是讓機(jī)器在視覺(jué)上產(chǎn)生幻覺(jué)一樣。例如文獻(xiàn)[4]中描述,在“panda”圖片中,加入精心制作的微小擾動(dòng),即可使神經(jīng)網(wǎng)絡(luò)模型判斷錯(cuò)誤,以99.3%的高置信度識(shí)別為“gibbon”長(zhǎng)臂猿,如圖1所示。
圖1 對(duì)抗樣本的形成
對(duì)抗樣本的形成原理,Goodfollow[4]認(rèn)為是在高維空間中,模型中存在線性化部分,而非線性化;另一個(gè)解釋是認(rèn)為對(duì)抗樣本不是數(shù)據(jù)的主要部分,即不在數(shù)據(jù)流行內(nèi)。有研究人員認(rèn)為[5],內(nèi)部矩陣中較大的奇異值會(huì)讓分類器在面臨輸入中的小波動(dòng)時(shí)變得更加脆弱。另外有研究認(rèn)為對(duì)抗樣本這種現(xiàn)象本質(zhì)上是由數(shù)據(jù)流形的高維度造成的。
1.1.1 白盒攻擊
白盒攻擊,攻擊者掌握深度學(xué)習(xí)網(wǎng)絡(luò)模型結(jié)構(gòu)、模型參數(shù)等詳細(xì)信息。早期研究針對(duì)特定目標(biāo)的對(duì)抗樣本提出了經(jīng)典的基于約束的L-BFGS白盒算法。在隨后的生成機(jī)制研究中,除了增加分類損失的方向上采取單步來(lái)干擾樣本的思路外,還可以基于迭代,在每個(gè)步驟之后調(diào)整方向的同時(shí)采取多個(gè)小步驟,由此提出了一系列的經(jīng)典迭代算法,四種較為主流的白盒攻擊方法分別是L-BFGS、FGSM、I-FGSM、C&W。
L-BFGS攻擊,Szegedy[6]等人根據(jù)神經(jīng)網(wǎng)絡(luò)損失函數(shù),構(gòu)建使模型做出誤分類的最小擾動(dòng)模型,通過(guò)方程求解的方式得到最優(yōu)攻擊。但由于方程求解復(fù)雜度過(guò)高,在求解過(guò)程中通過(guò)尋找最小損失函數(shù)正則項(xiàng),將原問(wèn)題進(jìn)行簡(jiǎn)化,利用L-BFGS對(duì)問(wèn)題進(jìn)行凸優(yōu)化,具體為:
minc|r|+lossf(x+r,l)
(1)
其中,lossf(x+r,l)是神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)的損失函數(shù);l是錯(cuò)誤分類的類別標(biāo)記;c是懲罰參數(shù)。
快速梯度符號(hào)法(FGSM)是最簡(jiǎn)單最廣泛的非目標(biāo)對(duì)抗攻擊方法之一?;舅枷胧峭ㄟ^(guò)迭代優(yōu)化的思路尋找對(duì)抗樣本[4]。給定一個(gè)原始圖像x,以及一個(gè)目標(biāo)分類器損失函數(shù)loss(x,lx),F(xiàn)GSM的目標(biāo)是在x的lx正無(wú)窮鄰域中尋找一個(gè)類似的圖像x來(lái)欺騙分類器,將x分類為標(biāo)簽lx。然后將問(wèn)題轉(zhuǎn)化為最大化loss(x,lx),該損失是將圖像x分類為標(biāo)簽lx的成本,同時(shí)保持?jǐn)_動(dòng)較小。FGSM通過(guò)在ε的圖像空間中從x進(jìn)行一步梯度更新來(lái)解決該優(yōu)化問(wèn)題。更新步長(zhǎng)ε對(duì)于每個(gè)像素是相同的,并且更新方向由該像素處的梯度信號(hào)確定。這里模型損失函數(shù)的梯度方向?yàn)間=sign(x'J(θ,X,Y)),其中設(shè)定步長(zhǎng)ε實(shí)現(xiàn)損失函數(shù)最大化。生成對(duì)抗樣本的過(guò)程為xadv=x+εg,其中J是每個(gè)樣本的損失函數(shù),f(x,θ)是輸入x時(shí)模型預(yù)測(cè)的輸出,θ是模型參數(shù),Y是正確分類。
基本迭代方法(I-FGSM)是在FGSM基礎(chǔ)上進(jìn)行優(yōu)化的方法[7],通過(guò)擴(kuò)展FGSM將單步的擾動(dòng)變?yōu)槎啻蔚臄_動(dòng),迭代公式為:
(2)
C&W攻擊方法是目前白盒攻擊中效果最好的靶向攻擊方法,可以攻破防御性蒸餾等神經(jīng)網(wǎng)絡(luò)防御方法[8]。C&W算法的損失函數(shù)中包含兩部分,一是對(duì)抗樣本x與原始輸入x之間的范數(shù)約束;另一部分為衡量模型識(shí)別對(duì)抗樣本是否是目標(biāo)分類的最大差異值。C&W攻擊方法將問(wèn)題轉(zhuǎn)化成一個(gè)優(yōu)化問(wèn)題,通過(guò)最小化損失函數(shù)來(lái)尋找對(duì)抗樣本。并通過(guò)樣本的可轉(zhuǎn)移性,實(shí)現(xiàn)黑盒攻擊。具體方法是:
(3)
其中,f是C&W攻擊方法定義的優(yōu)化的目標(biāo)函數(shù),對(duì)于給定輸入圖像x,攻擊方法尋求較小的擾動(dòng)δ,且能夠達(dá)到欺騙分類器的目的。測(cè)試平衡二者的參數(shù)。F和δ的形式為:
(4)
(5)
1.1.2 黑盒攻擊
在實(shí)際的攻擊場(chǎng)景下,攻擊者往往很難獲得相關(guān)模型的架構(gòu)、訓(xùn)練參數(shù)和網(wǎng)絡(luò)超參數(shù)等關(guān)鍵信息,只能采取黑盒攻擊方式,對(duì)模型進(jìn)行有限次數(shù)的樣本查詢,并基于反饋信息進(jìn)行設(shè)計(jì)攻擊行為。
目前常見(jiàn)的黑盒攻擊算法主要分為兩類,一類是基于一定的算法結(jié)構(gòu)輸入,然后根據(jù)模型的反饋不斷迭代修改輸入,比較典型的就是單像素攻擊算法和本地搜索攻擊算法;另一類是基于遷移學(xué)習(xí)的思想,使用與白盒攻擊類似的開(kāi)源模型,之后用生成的對(duì)抗樣本進(jìn)行黑盒攻擊。
單像素攻擊(one pixel attack)是基于改變樣本中的一個(gè)像素以實(shí)現(xiàn)對(duì)目標(biāo)模型的擾動(dòng),是一種低成本的對(duì)抗攻擊策略。Su等人[9]利用差分進(jìn)化算法,通過(guò)迭代修改像素值產(chǎn)生變種,并將變種與母樣本比較,從候選像素點(diǎn)中逐步篩選出稀疏像素點(diǎn),最后根據(jù)選擇攻擊效果最好的變種作為對(duì)抗樣本,有效攻擊分類模型,損失函數(shù)如下:
(6)
基于單像素和多像素的對(duì)抗樣本搜索空間如圖2所示,三維空間中,任一坐標(biāo)點(diǎn)即為待修改坐標(biāo)。即三條平面交線組成了單像素對(duì)抗樣本的搜索空間,同樣,三個(gè)灰色的二維平面組成了兩像素對(duì)抗樣本的搜索空間,對(duì)抗樣本的生成過(guò)程轉(zhuǎn)化為對(duì)應(yīng)空間的搜索過(guò)程。
圖2 單像素攻擊模型
通常的對(duì)抗樣本生成方法允許擾動(dòng)所有的像素,然后對(duì)所有像素的變化量之和進(jìn)行整體約束來(lái)構(gòu)造目標(biāo)函數(shù),而這里所考慮的攻擊方法是相反的,其只關(guān)注于被修改像素的數(shù)量,但不限制單個(gè)變化量的大小。
通用對(duì)抗攻擊(UAP)算法:?jiǎn)蜗袼毓?、local search attack等方法生成的對(duì)抗擾動(dòng)只對(duì)某個(gè)特定的圖像有效[9],而通用擾動(dòng)(UAP)攻擊生成的對(duì)抗擾動(dòng)疊加在任何圖片上均能使分類器出錯(cuò),并且這些擾動(dòng)對(duì)人類而言是不可見(jiàn)的[10]。UAP攻擊的主要思想是通過(guò)分析對(duì)抗性質(zhì)將圖像逐步偏離分類邊界。該方法對(duì)于ResNet網(wǎng)絡(luò)效果較好,并且這種擾動(dòng)可以泛化到其他網(wǎng)絡(luò)上。UAP攻擊的主要模型為:
PIc~φc(c(Ic)≠c(Ic+ρ))≥δ
(7)
其中,ρ(·)表示概率;δ∈(0,1]為擾動(dòng)率。
基于遷移算法的黑盒攻擊:可遷移能力是對(duì)抗樣本的重要屬性,也是對(duì)抗樣本研究面對(duì)的另一個(gè)重要的理論問(wèn)題。近期研究發(fā)現(xiàn),對(duì)抗樣本不僅在不同網(wǎng)絡(luò)結(jié)構(gòu)間存在可遷移能力,在不同算法、分類類別及數(shù)據(jù)集之間也存在遷移能力。利用可遷移能力能夠在不具備對(duì)目標(biāo)模型完備知識(shí)的前提下構(gòu)建具有足夠欺騙能力的對(duì)抗樣本,從而構(gòu)成黑盒攻擊的基礎(chǔ)。利用類別間的可遷移能力,能夠大幅提升構(gòu)建對(duì)抗樣本的效率。文獻(xiàn)[11]分別從遷移性和失真度兩個(gè)標(biāo)準(zhǔn)來(lái)衡量對(duì)抗樣本的遷移攻擊能力。
對(duì)抗樣本轉(zhuǎn)移性衡量:通過(guò)計(jì)算一個(gè)模型生成的對(duì)抗樣本能被另一個(gè)模型正確分類的準(zhǔn)確率,來(lái)衡量非目標(biāo)攻擊的遷移性,且和非目標(biāo)攻擊的遷移性呈反比。反之,針對(duì)特定目標(biāo)攻擊,則以匹配度衡量遷移性,且呈正比表示,表1為不同模型之間的對(duì)抗樣本的遷移性表示。
表1 遷移準(zhǔn)確率
對(duì)抗樣本失真度衡量:除了可轉(zhuǎn)移性之外,另一個(gè)重要因素是對(duì)抗圖像與原始圖像之間的扭曲度。失真度可以通過(guò)下面的公式進(jìn)行計(jì)算。
(8)
其中,x*和x是對(duì)抗圖像和原始圖像的向量表示,N是x*和x的維數(shù),xi是x在第i維度上的像素值(0~255)。
在進(jìn)一步分析對(duì)抗圖像樣本的遷移能力和失真度的基礎(chǔ)上,比較對(duì)抗樣本在不同數(shù)據(jù)集、不同模型之間的遷移能力,為遷移性更強(qiáng)的黑盒對(duì)抗攻擊方法構(gòu)建及其應(yīng)用奠定基礎(chǔ)。
在對(duì)抗性攻擊研究的同時(shí),如何使模型更具有魯棒性、更好地進(jìn)行防護(hù),得到了廣泛關(guān)注。對(duì)抗樣本的防御可分為兩類:
(1)對(duì)網(wǎng)絡(luò)本身結(jié)構(gòu)進(jìn)行更改,例如,針對(duì)模型中相關(guān)函數(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)本身進(jìn)行變更,形成防御,如Papernot[12]提出的網(wǎng)絡(luò)蒸餾法。
(2)在對(duì)抗的基礎(chǔ)上,采用更改過(guò)的對(duì)抗樣本進(jìn)行再訓(xùn)練,在樣本的輸入階段,彌補(bǔ)樣本的多樣性缺陷,使模型更加魯棒的訓(xùn)練[13],如Goodfellow提出的對(duì)抗性訓(xùn)練法等。
防御蒸餾法:蒸餾是一種將復(fù)雜網(wǎng)絡(luò)模型轉(zhuǎn)化為簡(jiǎn)單網(wǎng)絡(luò)模型的技術(shù)[14]。由于防御蒸餾技術(shù)應(yīng)用了圖像梯度,因此也可以看成是一種基于梯度掩模的方法。2016年P(guān)apernot等人基于知識(shí)蒸餾設(shè)計(jì)了一種提高網(wǎng)絡(luò)魯棒性能的方法[12]。就是在進(jìn)行模型訓(xùn)練時(shí),使用一些平滑處理的方法,將模型梯度中陡峭的地方平滑掉,使得模型的分類輸出對(duì)于輸入數(shù)據(jù)的一定擾動(dòng)不那么敏感。這樣就可以降低模型對(duì)于對(duì)抗樣本中的正常圖像上增加的噪聲擾動(dòng)的脆弱性,從而使得訓(xùn)練得到的模型具備一定的對(duì)抗魯棒能力,這種知識(shí)通過(guò)輸入向量的分類概率提取,并且反饋訓(xùn)練原始的模型。實(shí)驗(yàn)表明這種方法增加了網(wǎng)絡(luò)對(duì)于微小擾動(dòng)的魯棒性,如圖3所示。
圖3 蒸餾法原理
在實(shí)際場(chǎng)景中,往往攻擊者無(wú)法完全控制輸入模型的數(shù)據(jù),對(duì)于模型如何預(yù)處理原始數(shù)據(jù)也一無(wú)所知。只能通過(guò)攝像頭、麥克風(fēng)這類物理設(shè)備,經(jīng)過(guò)一系列黑盒的預(yù)處理后才能真正進(jìn)入模型[15]。文中從實(shí)際場(chǎng)景出發(fā),基于預(yù)處理階段和實(shí)際應(yīng)用場(chǎng)景,分析對(duì)抗樣本攻擊的方式和方法:
2.1.1 預(yù)處理階段攻擊
根據(jù)不同的應(yīng)用場(chǎng)景,模型系統(tǒng)可能會(huì)采集到各種規(guī)格的輸入圖像,相比于實(shí)際的采集圖像,經(jīng)典模型在訓(xùn)練過(guò)程中的圖像通常較小且固定,例如Inception-v3:299×299,VGGNet:224×224,AlexNet:224×224,GoogleNet:224×224,ResNet:224×224。固定的尺寸可以確保訓(xùn)練和預(yù)測(cè)的效率,因此,圖像采集后,往往會(huì)有縮放步驟[16],對(duì)數(shù)據(jù)進(jìn)行歸一化操作。它們被廣泛用于深度學(xué)習(xí)框架(Tensorflow,Caffe,Pytorch)中。
在數(shù)據(jù)采集縮放過(guò)程中,實(shí)際采集和模型中圖像的不匹配生成對(duì)抗樣本,實(shí)現(xiàn)對(duì)模型的下采樣攻擊。如圖4所示,即在對(duì)抗樣本相似性約束的前提下,通過(guò)將屬于目標(biāo)類并具有網(wǎng)絡(luò)規(guī)定輸入大小的小圖像(Target Image T)嵌入到原始圖像(Source Image S)中來(lái)構(gòu)造縮放攻擊圖像(Attack Image A)[17]。
圖4 預(yù)處理攻擊
2.1.2 子塊(Patch)攻擊
之前的大部分工作都集中在對(duì)輸入的微小或難以察覺(jué)的變化進(jìn)行攻擊和防御上,而在實(shí)際場(chǎng)景下,精確地給一個(gè)目標(biāo),定制一個(gè)對(duì)抗擾動(dòng)是不切實(shí)際的。針對(duì)此缺陷,惡意攻擊者會(huì)將一個(gè)與圖像無(wú)關(guān)的補(bǔ)丁添加到輸入圖像中,即使能夠注意此補(bǔ)丁,也不能理解其意圖[18],或?qū)⑵浜雎?,如圖5中路牌的小廣告、涂鴉等形式。在實(shí)際路標(biāo)檢測(cè)中,需要幾個(gè)小小的標(biāo)簽,就能讓YOLOv2[15]無(wú)法檢測(cè)出路標(biāo)。而這些小標(biāo)簽?zāi)軅窝b成涂鴉藝術(shù)之類的東西融入到路標(biāo)圖像中,讓人們難以察覺(jué),即使是發(fā)現(xiàn)了也往往不會(huì)在意。
圖5 patch攻擊
現(xiàn)有的攻擊策略還遠(yuǎn)遠(yuǎn)不能生成具有較強(qiáng)攻擊能力的視覺(jué)天然斑塊,為進(jìn)一步提高patch的攻擊能力,引入圖像上下文的相關(guān)性和視覺(jué)注意力機(jī)制進(jìn)行子塊的優(yōu)化處理?;诖?,文獻(xiàn)[19]提出了一種感知敏感生成對(duì)抗網(wǎng)絡(luò)(PS-GAN),該方法提出了一種用于生成敵對(duì)patch的感知敏感GAN (PSGAN)。PS-GAN利用被攻擊網(wǎng)絡(luò)的感知敏感性,保證生成的敵對(duì)patch具有自然的外觀,并在對(duì)抗性生成過(guò)程中耦合注意機(jī)制,保證生成的對(duì)抗性補(bǔ)丁具有較強(qiáng)的攻擊能力。
實(shí)際場(chǎng)景下,數(shù)據(jù)輸入的形式往往多種多樣,針對(duì)此問(wèn)題,單純針對(duì)研究模型結(jié)構(gòu)來(lái)克服對(duì)抗樣本的干擾比較困難?;诖?,基于各類樣本在空間分布的差異性的檢測(cè)技術(shù)引起了廣泛關(guān)注[20],現(xiàn)有的檢測(cè)手段可分為兩大類,基于度量的方法與基于預(yù)測(cè)不一致的方法。
(1)基于度量的方法,對(duì)輸入(和激活值)進(jìn)行統(tǒng)計(jì)測(cè)量以檢測(cè)對(duì)抗樣本。這些技術(shù)的關(guān)鍵挑戰(zhàn)是如何定義高質(zhì)量的統(tǒng)計(jì)指標(biāo),使該指標(biāo)可以清楚地分辨正常樣本和對(duì)抗樣本之間的差異。
(2)基于預(yù)測(cè)不一致的方法,許多其他工作都基于預(yù)測(cè)不一致的方法,即對(duì)抗樣本具有擾動(dòng),利用其他檢測(cè)手段與原輸出進(jìn)行比較,一致為正常樣本,不一致則為對(duì)抗樣本。
人工智能技術(shù)已經(jīng)滲透到各個(gè)領(lǐng)域,以由初期的圖像對(duì)抗樣本領(lǐng)域拓展到當(dāng)前階段的針對(duì)音頻、文本、生物、二進(jìn)制應(yīng)用和網(wǎng)絡(luò)流量等各類數(shù)據(jù)的對(duì)抗樣本:
無(wú)人車:自動(dòng)駕駛引起了業(yè)界和學(xué)術(shù)界越來(lái)越多的關(guān)注。在自動(dòng)駕駛中,分類模型被廣泛使用并部署在定位和感知模塊中,其關(guān)鍵是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它根據(jù)攝像機(jī)和激光雷達(dá)的傳感器輸出做出實(shí)時(shí)決策,為回歸模型提供精細(xì)粒度的上下文信息。研究表明,CNN易受對(duì)抗性攻擊,相應(yīng)地通用物體識(shí)別系統(tǒng)也易受對(duì)抗性攻擊,但目前通用主流物體識(shí)別模型的脆弱點(diǎn)對(duì)于自動(dòng)駕駛中物體識(shí)別系統(tǒng)的適用性未知。近兩年優(yōu)步和谷歌的自動(dòng)駕駛汽車相繼發(fā)生事故,主要原因可能是物體識(shí)別模塊對(duì)于特定情況下(如行駛速度、天氣、背景環(huán)境等復(fù)雜環(huán)境和道路條件)的識(shí)別任務(wù)不準(zhǔn)確導(dǎo)致的[21]。同時(shí),系統(tǒng)中回歸模型強(qiáng)依賴于分類模型,使得分類模型結(jié)果的簡(jiǎn)單變化很容易影響回歸模型,從而造成不安全危害。這些因素使得自動(dòng)駕駛中物體識(shí)別系統(tǒng)面臨的安全威脅更特殊、更復(fù)雜,同時(shí)后果更嚴(yán)重。
路標(biāo)識(shí)別攻擊:最近一項(xiàng)研究表明[17],只要在路上貼上幾個(gè)不起眼的小貼紙,智能汽車或許就無(wú)法識(shí)別出這些路標(biāo)了。研究人員對(duì)路標(biāo)進(jìn)行了有目標(biāo)指向的全局?jǐn)_動(dòng),然后將其以海報(bào)的形式全尺寸打印了出來(lái),覆蓋在原來(lái)的STOP路標(biāo)上。在測(cè)試中,視覺(jué)感知系統(tǒng)從不同的距離和角度,對(duì)這個(gè)對(duì)抗樣本進(jìn)行識(shí)別,結(jié)果在大多數(shù)情況下,其將STOP路標(biāo)識(shí)別為了限速標(biāo)志,如圖6所示。
圖6 路牌識(shí)別攻擊
語(yǔ)音領(lǐng)域的對(duì)抗攻擊可分為兩種類型:Speech-to-Label、Speech-to-Text[21]。Speech-to-Label是指通過(guò)構(gòu)造對(duì)抗樣本,可以讓音頻識(shí)別系統(tǒng)將該樣本分類為任意指定的標(biāo)簽;這個(gè)類別的攻擊和基于圖像的對(duì)抗樣本攻擊很類似[21]。然而,由于標(biāo)簽的種類是有限的,因此這種類別的攻擊有很大的局限性。Speech-to-Text則是通過(guò)構(gòu)造對(duì)抗樣本,可以讓音頻識(shí)別系統(tǒng)將該樣本轉(zhuǎn)錄為任意指定的字符串。
常規(guī)語(yǔ)音領(lǐng)域?qū)构舻臉?gòu)造如圖7所示,其中x是輸入的原始音頻向量,δ是在原始音頻向量上添加的擾動(dòng)。音頻對(duì)抗樣本攻擊就是通過(guò)向原始音頻向量x添加一些擾動(dòng)δ,使得語(yǔ)音識(shí)別系統(tǒng)ASR可以將構(gòu)造的新樣本x+δ識(shí)別為攻擊者指定的文本t,但人耳并不能分辨出新樣本和原始音頻的區(qū)別[21]。這個(gè)過(guò)程可以表示為f(x+δ)=t。構(gòu)造音頻對(duì)抗樣本的過(guò)程就是通過(guò)計(jì)算損失函數(shù)(·)的梯度然后不斷更新x的過(guò)程,直到構(gòu)造的對(duì)抗樣本滿足終止條件,其中常用的損失函數(shù)表示為:
l(x,δ,t)=lmodel(f(x+δ),t)+
c·lmetric(x,x+δ)
(9)
其中,lmodel是語(yǔ)音識(shí)別模型本身的損失函數(shù)。
目前還沒(méi)有方法可以在分鐘級(jí)時(shí)間內(nèi)構(gòu)造出低噪聲、高魯棒性的音頻對(duì)抗樣本,生成過(guò)程要兼顧音頻樣本質(zhì)量、魯棒性和生成速度之間的權(quán)衡。
人工智能技術(shù)賦能網(wǎng)絡(luò)空間安全領(lǐng)域的關(guān)鍵因素是帶來(lái)安全增益的同時(shí),必須具有高安全性能。在網(wǎng)絡(luò)空間領(lǐng)域,已發(fā)表了一系列針對(duì)現(xiàn)有安全相關(guān)算法造成挑戰(zhàn)的成果:入侵檢測(cè)(IDS)算法、惡意軟件檢測(cè)算法、動(dòng)態(tài)生成域名(DGA)檢測(cè)算法、惡意流量檢測(cè)算法[22]等,均出現(xiàn)了對(duì)抗性機(jī)器學(xué)習(xí)算法。
NDSS會(huì)議上,Kitsune技術(shù)方案[22]作為基于深度學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測(cè)的典型例子引起了廣泛關(guān)注。Kitsune異常檢測(cè)功能的核心是自編碼學(xué)習(xí)網(wǎng)絡(luò)。針對(duì)Kitsune進(jìn)行白盒攻擊研究表明,基于機(jī)器學(xué)習(xí)的Kitsune入侵檢測(cè)技術(shù),面對(duì)經(jīng)典對(duì)抗樣本攻擊算法FGSM、JSMA、C&W、ENW等表現(xiàn)非常脆弱,其誤報(bào)率、漏報(bào)率都達(dá)到100%,即能夠產(chǎn)生正常網(wǎng)絡(luò)流量使Kitsune識(shí)別為異常流量,以及產(chǎn)生異常流量使得Kitsune識(shí)別為正常流量。
當(dāng)前移動(dòng)設(shè)備已廣泛使用,例如手機(jī)移動(dòng)端,許多都運(yùn)行著android系統(tǒng),基于android系統(tǒng)具有開(kāi)放、共享等特點(diǎn),快速形成了以android系統(tǒng)為基礎(chǔ)的軟件生態(tài)系統(tǒng),而針對(duì)移動(dòng)端軟件系統(tǒng)的惡意攻擊呈上升態(tài)勢(shì)[22],而將對(duì)抗樣本思想融入惡意代碼檢測(cè)是新型的前沿方向。Xu[23]提出利用遺傳算法將干擾信息注入惡意樣本,模型將其錯(cuò)誤識(shí)別為正確樣本,成功繞過(guò)檢測(cè)模型。Kolosnjaji等[24]在保持惡意樣本的功能的同時(shí),針對(duì)惡意樣本數(shù)據(jù)中特定字段的修改,成功躲避惡意軟件檢測(cè)系統(tǒng)。
人工智能在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理、網(wǎng)絡(luò)安全等領(lǐng)域均取得了跨越式的發(fā)展和廣泛應(yīng)用。而對(duì)抗性機(jī)器學(xué)習(xí)是人工智能技術(shù)實(shí)踐過(guò)程中的極大威脅。如何確保人工智能技術(shù)安全、可靠、可控發(fā)展的同時(shí),最大限度降低、規(guī)避智能應(yīng)用風(fēng)險(xiǎn)是一個(gè)嚴(yán)峻的挑戰(zhàn)。文中在對(duì)國(guó)內(nèi)外智能安全研究調(diào)研和分析的基礎(chǔ)上,首先從攻、防兩個(gè)方面梳理了智能安全發(fā)展的脈絡(luò):攻擊方面,分別從白盒攻擊、黑盒攻擊、全像素攻擊、單像素攻擊對(duì)攻擊方法進(jìn)行分類討論;防御方面,從反應(yīng)式和主動(dòng)式分類進(jìn)行了分析。同時(shí),針對(duì)實(shí)際場(chǎng)景,文中分別從對(duì)抗樣本產(chǎn)生形式和實(shí)際場(chǎng)景下對(duì)抗樣本的檢測(cè)進(jìn)行了歸納總結(jié)。最后,結(jié)合基于實(shí)用場(chǎng)景,分別在不同領(lǐng)域?qū)?duì)抗樣本的表現(xiàn)形式、效果影響進(jìn)行了討論。