◆楊奎武 張?zhí)?/p>
深度學(xué)習(xí)中的對(duì)抗樣本攻擊技術(shù)
◆楊奎武 張?zhí)?/p>
(解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 河南 450001)
作為人工智能核心的深度學(xué)習(xí)技術(shù)目前已被廣泛應(yīng)用于自然語(yǔ)言處理、機(jī)器視覺(jué)、決策推理等領(lǐng)域。相比于以往深度學(xué)習(xí)更加關(guān)注模型或算法的效率和性能,當(dāng)前深度學(xué)習(xí)面臨的安全問(wèn)題也成為學(xué)術(shù)界研究的焦點(diǎn),尤其是對(duì)抗樣本攻擊更是對(duì)深度學(xué)習(xí)的安全性和魯棒性造成了影響。本文在對(duì)對(duì)抗樣本的概念及其成因介紹的基礎(chǔ)上,重點(diǎn)對(duì)對(duì)抗樣本的分類(lèi)方法、生成方法進(jìn)行了分析和闡述,并給出了相關(guān)對(duì)比結(jié)果。最后論文從應(yīng)用角度對(duì)對(duì)抗樣本的作用進(jìn)行了分析與總結(jié),給出了未來(lái)對(duì)抗樣本攻擊的重點(diǎn)研究領(lǐng)域。
人工智能;深度學(xué)習(xí);對(duì)抗攻擊;對(duì)抗樣本
隨著人工智能的快速發(fā)展,深度學(xué)習(xí)相關(guān)理論和技術(shù)目前已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理、機(jī)器視覺(jué)、決策推理、關(guān)聯(lián)分析等領(lǐng)域,但由于深度學(xué)習(xí)技術(shù)自身可解釋性差、對(duì)訓(xùn)練數(shù)據(jù)依賴(lài)性強(qiáng)、相關(guān)模型或算法魯棒性弱等原因,因此,深度學(xué)習(xí)技術(shù)在給我們生活帶來(lái)方便的同時(shí),也面臨著非常嚴(yán)峻的安全問(wèn)題,這其中對(duì)抗樣本攻擊就是深度學(xué)習(xí)模型和算法需要面對(duì)的一種典型攻擊方式。
圖1 Inception-v3中快速對(duì)抗樣本生成
對(duì)抗樣本的成因有多種解釋?zhuān)琒zegedy等人[1]認(rèn)為對(duì)抗樣本是分布在低概率區(qū)域的數(shù)據(jù),屬于樣本數(shù)據(jù)的盲區(qū),由于深度模型的泛化性不夠,使得盲區(qū)數(shù)據(jù)成為對(duì)抗樣本,如圖2所示。
圖2 對(duì)抗樣本“盲區(qū)”假說(shuō)示意圖
Goodfellow等人[3]認(rèn)為神經(jīng)網(wǎng)絡(luò)的高維線性是對(duì)抗樣本的主要成因,輸入數(shù)據(jù)的微小變化,經(jīng)過(guò)網(wǎng)絡(luò)線性放大,就可能造成判決失誤。Moosavi-Dezfooli 等人[4]則提出了決策面假說(shuō),認(rèn)為存在一個(gè)低維子空間包含了決策邊界的大多數(shù)法向量,而屬于該子空間的對(duì)抗擾動(dòng)便可以干擾大多數(shù)分類(lèi)模型。由于深度學(xué)習(xí)模型的高度復(fù)雜性使其難以進(jìn)行數(shù)學(xué)描述,因此不同的假說(shuō)往往具有不同的側(cè)重點(diǎn),很難達(dá)成數(shù)理層面的統(tǒng)一認(rèn)識(shí)。這也為對(duì)抗樣本攻擊提供了空間,使其難以防御。
在白盒攻擊中,攻擊者需要對(duì)目標(biāo)模型有著準(zhǔn)確的把握,比如掌握目標(biāo)模型的網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)、應(yīng)用場(chǎng)景等等。而在黑盒攻擊中,通常假設(shè)攻擊者對(duì)目標(biāo)模型內(nèi)部并不了解,只能通過(guò)不斷向模型進(jìn)行數(shù)據(jù)輸入,然后觀察模型的輸出來(lái)實(shí)現(xiàn)和模型的互動(dòng)。
有目標(biāo)攻擊也稱(chēng)為針對(duì)性攻擊,是指攻擊者可以設(shè)定攻擊范圍和攻擊效果,從而使被攻擊模型不但對(duì)樣本進(jìn)行錯(cuò)誤分類(lèi),而且把樣本分類(lèi)為攻擊者想要的類(lèi)別。無(wú)目標(biāo)攻擊也稱(chēng)為可靠性攻擊,攻擊者的攻擊目的只有一個(gè),就是使被攻擊模型出現(xiàn)決策錯(cuò)誤,但并不指定分類(lèi)的類(lèi)別。
范數(shù)是一種強(qiáng)化了的距離概念,在對(duì)抗樣本中用于測(cè)量擾動(dòng)的大小,范數(shù)的定義為:
對(duì)抗樣本在計(jì)算機(jī)、數(shù)字世界中的攻擊行為被稱(chēng)為數(shù)字攻擊;基于數(shù)字世界中的對(duì)抗樣本,設(shè)計(jì)生成能夠物理實(shí)現(xiàn)的對(duì)抗樣本并對(duì)深度學(xué)習(xí)等模型進(jìn)行攻擊的方式稱(chēng)為物理攻擊。比如利用對(duì)抗樣本技術(shù)設(shè)計(jì)具有特殊圖案的眼鏡對(duì)深度學(xué)習(xí)人臉檢測(cè)系統(tǒng)進(jìn)行干擾使其識(shí)別錯(cuò)誤。
對(duì)抗樣本的生成更多以黑盒攻擊和白盒攻擊進(jìn)行分類(lèi),早期基于白盒攻擊的方法相對(duì)更多,但黑盒攻擊往往更具有現(xiàn)實(shí)意義。當(dāng)前比較典型的對(duì)抗樣本生成方法有基于梯度的FGSM生成算法、深度欺騙攻擊、JSMA攻擊等。
圖3 不同閾值攻擊效果圖
為了使得擾動(dòng)盡量接近最優(yōu),基于白盒攻擊FGSM又提出了很多方法,比較典型的就是BIM[5](又稱(chēng)Iterative-FGSM,I-FGSM),它是在FGSM的基礎(chǔ)上加入了迭代過(guò)程,產(chǎn)生的擾動(dòng)更加接近最優(yōu)。該方法沿著損失函數(shù)梯度增加的方向通過(guò)每次迭代增加較小的擾動(dòng),采用多步小步的方式計(jì)算擾動(dòng)值,迭代過(guò)程如下:
圖4 多分類(lèi)問(wèn)題DeepFool方法示意
基于不同點(diǎn)的像素值對(duì)輸出判決結(jié)果影響程度的不同,Papernot等人[7]提出了JSMA方法。FGSM和DeepFool一般生成的是非定向?qū)箻颖荆鳭SMA以特征對(duì)輸出結(jié)果的影響程度為依據(jù),可以達(dá)到生成定向?qū)箻颖镜哪康摹SMA通過(guò)計(jì)算前向?qū)?shù)生成對(duì)抗性顯著圖,顯著圖則體現(xiàn)了輸入的不同特征對(duì)輸出的影響程度,該方法也屬于白盒攻擊。
單像素攻擊[8]是一種黑盒攻擊方法,它使用遺傳進(jìn)化算法來(lái)發(fā)現(xiàn)擾動(dòng)應(yīng)該添加的位置。單像素攻擊的目的是通過(guò)只在原始圖像的一個(gè)像素點(diǎn)上添加擾動(dòng)來(lái)影響目標(biāo)模型的判決[9]。這種攻擊方法是典型的黑盒攻擊方法,無(wú)須對(duì)目標(biāo)模型有深入的了解,實(shí)驗(yàn)表明該攻擊在多種模型下都有較好的攻擊效果。由于單個(gè)影響較大的像素點(diǎn)不容易發(fā)現(xiàn),因此單像素攻擊通常也會(huì)對(duì)多個(gè)像素點(diǎn)進(jìn)行修改。
表1從攻擊類(lèi)型、攻擊目標(biāo)、學(xué)習(xí)方式、攻擊強(qiáng)度及算法優(yōu)劣五個(gè)方面對(duì)以上幾種對(duì)抗樣本生成方法進(jìn)行了分析。
表1 對(duì)抗樣本攻擊方法及對(duì)比
以深度學(xué)習(xí)為典型代表的人工智能技術(shù)的快速發(fā)展,在給我們生活帶來(lái)便利的同時(shí),也面臨著以對(duì)抗樣本攻擊為代表的安全威脅,嚴(yán)重?fù)p害了深度學(xué)習(xí)模型的完整性與可用性;但同時(shí),對(duì)抗樣本技術(shù)也可以用來(lái)對(duì)用戶(hù)信息進(jìn)行主動(dòng)防護(hù),防止敵對(duì)設(shè)備對(duì)用戶(hù)信息的有效識(shí)別與獲取,起到防止泄密的作用。
本文對(duì)對(duì)抗樣本攻擊基本情況進(jìn)行了概述,并對(duì)其典型的生成方法進(jìn)行了總結(jié)和分析。除圖像領(lǐng)域外,對(duì)抗樣本攻擊在文本數(shù)據(jù)、語(yǔ)音數(shù)據(jù)、圖數(shù)據(jù)等領(lǐng)域也廣泛存在,這也將是人工智能安全以及對(duì)抗樣本未來(lái)研究的熱點(diǎn)。
[1]Szegedy C,Zaremba W,Sutskever I,et al. Intriguing Properties of Neural Networks[C/OL].Proc of ICLR.[2019-11-01]. https://arxiv.org/abs/1312.6199.
[2]Yinpeng D,F(xiàn)angzhou L,Tianyu P,et al. Boosting Adversarial Attacks with Momentum[C],Proc of CVPR2018:9185-9193.
[3]Goodfellow I,Shlens J,Szegedy C,et al. Explaining and Harnessing Adversarial Examples[C/OL].Proc of Int Conf on Learning Representations.[2019-11-01]. https://arxiv.org/abs/1412.6572.
[4]Moosavidezfooli S,F(xiàn)awzi A,F(xiàn)awzi O,et al. Universal Adversarial Perturbations[C].The IEEE Conference on Computer Vision and Pattern Recognition. 2017:1765-1773.
[5]Kurakin A,Goodfellow I,Bengio S,et al. Adversarial Machine Learning at Scale[C],Proc of ICLR.2017.
[6]Moosavidezfooli S,F(xiàn)awzi A,F(xiàn)rossard P,et al. DeepFool:A Simple and Accurate Method to Fool Deep Neural Networks[C]. Computer Vision and Pattern Recognition,2016:2574-2582.
[7]Papernot N,Mcdaniel P,Jha S,et al. The Limitations of Deep Learning in Adversarial Settings[C]. IEEE European Symposium on Security and Privacy,2016:372-387.
[8]Jiawei SU,Vasconcellos D V,Sakurai K. One pixel attack for fooling deep neural networks[J]. Proceedings of IEEE Transactions on Evolutionary Computation,2019, 23(5):828-841.
[9]姜妍,張立國(guó),面向深度學(xué)習(xí)模型的對(duì)抗攻擊與防御方法綜述[J],計(jì)算機(jī)工程,2021,47(01):1-11.