張宇,李海良
基于RSA的圖像可識(shí)別對(duì)抗攻擊方法
張宇,李海良
(暨南大學(xué),廣東 廣州 510632)
基于密碼學(xué)中的RSA簽名方案與RSA加密方案,提出了一種能夠讓特定分類器輸出對(duì)抗樣本正確分類的對(duì)抗攻擊方法。通過(guò)單像素攻擊的思想使正常圖像在嵌入附加信息的同時(shí)能夠具有讓其余分類器發(fā)生錯(cuò)誤分類的能力。所提方法可以應(yīng)用在分類器授權(quán)管理與在線圖像防偽等領(lǐng)域。實(shí)驗(yàn)結(jié)果表明,所提方法生成的對(duì)抗樣本對(duì)于人眼難以察覺(jué),并能被特定分類器識(shí)別。
對(duì)抗攻擊;簽名方案;加密方案;密碼學(xué);分類器;圖像識(shí)別
隨著深度學(xué)習(xí)技術(shù)[1]的研究與發(fā)展,越來(lái)越多的領(lǐng)域適應(yīng)了深度學(xué)習(xí)技術(shù)帶來(lái)的巨大變革,各類深度學(xué)習(xí)應(yīng)用如圖像分類[2]、人臉識(shí)別[3]、語(yǔ)音識(shí)別[4]、自然語(yǔ)言處理[5]等進(jìn)入了人們的生活,為人們的工作和生活提供便利。這些技術(shù)的廣泛應(yīng)用帶動(dòng)了人工智能的普及與發(fā)展,但同時(shí)這些應(yīng)用面臨的一些安全性問(wèn)題引起了研究者的關(guān)注與探討,這些安全性問(wèn)題主要涉及數(shù)據(jù)隱私與錯(cuò)誤分類等方面。對(duì)這些安全性問(wèn)題的研究是深度學(xué)習(xí)應(yīng)用能夠進(jìn)一步推廣落實(shí)的重要前提,一個(gè)良好的深度學(xué)習(xí)應(yīng)用需要使用大量的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程所需要的時(shí)間成本與硬件成本是使用者必須考慮的問(wèn)題。訓(xùn)練完成后得到的各項(xiàng)參數(shù)以及使用的深度學(xué)習(xí)網(wǎng)絡(luò)模型結(jié)構(gòu)往往成為商業(yè)應(yīng)用中的機(jī)密信息。使用者不希望花費(fèi)了大量資源的深度學(xué)習(xí)應(yīng)用面臨隱私泄露或在實(shí)際使用中發(fā)生分類錯(cuò)誤的風(fēng)險(xiǎn),因?yàn)檫@些風(fēng)險(xiǎn)意味著巨大的信譽(yù)下降和財(cái)產(chǎn)損失。
在深度學(xué)習(xí)的安全性研究中,對(duì)抗攻擊是非常重要的研究方向,也是研究的熱點(diǎn)之一。對(duì)抗攻擊和對(duì)抗樣本的概念最早由Szegedy在2013年提出:一個(gè)經(jīng)過(guò)良好訓(xùn)練的深度學(xué)習(xí)分類器會(huì)以高置信度輸出一幅看起來(lái)十分正常的圖片的錯(cuò)誤分類,這類圖片被命名為對(duì)抗樣本[6]。
圖1為一張Imagenet數(shù)據(jù)集[7]的正常圖像,以及對(duì)其使用快速梯度下降法[6](fast gradient sign method)生成的對(duì)抗樣本,其原圖像的識(shí)別結(jié)果是“鴕鳥(niǎo)”。但在同一個(gè)分類器下,其添加了噪聲后所產(chǎn)生的對(duì)抗樣本識(shí)別結(jié)果卻是“起重機(jī)”。這類擾動(dòng)噪聲盡管人眼難以察覺(jué),但對(duì)于計(jì)算機(jī)來(lái)說(shuō)卻非常明顯。如圖1所示,人眼中相差無(wú)幾的圖像對(duì)于計(jì)算機(jī)而言差別極大,以至于可使一個(gè)經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練的分類器做出錯(cuò)誤的判斷。如果放在各類商業(yè)應(yīng)用中,當(dāng)人臉識(shí)別、自動(dòng)駕駛等過(guò)程發(fā)生識(shí)別錯(cuò)誤,則必然會(huì)造成巨大的損失,可見(jiàn)這類人眼不可察覺(jué)的擾動(dòng)噪聲對(duì)深度學(xué)習(xí)分類器的威脅是巨大的。
圖1 對(duì)抗樣本及其噪聲
Figure 1 Adversarial example and noise
在2019年的一份研究機(jī)器學(xué)習(xí)安全性的綜述文章中,作者所調(diào)查的論文中有關(guān)對(duì)抗攻擊的文章占總數(shù)的50%[8],這說(shuō)明研究者同樣認(rèn)可對(duì)抗攻擊對(duì)于機(jī)器學(xué)習(xí)安全性的巨大威脅。但目前對(duì)抗攻擊的研究[9-13]大部分集中在如何更高效地生成對(duì)抗樣本;如何生成隱蔽性更小的對(duì)抗樣本;如何生成具有物理魯棒性的對(duì)抗樣本等。而對(duì)于對(duì)抗樣本的識(shí)別和防御更多集中在通過(guò)針對(duì)性訓(xùn)練[14-15]、過(guò)濾[16]、蒸餾[17]、壓縮還原[18]等方法,來(lái)提高分類器的魯棒性。
這些攻擊方法與防御策略的出發(fā)點(diǎn)都是希望減少對(duì)抗攻擊對(duì)深度學(xué)習(xí)分類器的威脅。在研究了多種對(duì)抗攻擊算法與防御策略后,本文提出了一種能夠令特定分類器輸出對(duì)抗樣本正確分類的對(duì)抗攻擊方法。該方法結(jié)合了密碼學(xué)中的簽名與加密機(jī)制,能夠保證具有密鑰的深度學(xué)習(xí)分類器正確輸出由本文方法生成的對(duì)抗樣本正確分類。而在不具有密鑰的分類器中,這些對(duì)抗樣本則會(huì)讓該分類器發(fā)生分類錯(cuò)誤。
結(jié)合以上特性,本文提出的對(duì)抗攻擊方法有望能應(yīng)用在分類器授權(quán)管理與圖像防偽等領(lǐng)域。在數(shù)據(jù)資產(chǎn)越來(lái)越重要的今天,數(shù)據(jù)私有化與信息安全性成為商業(yè)應(yīng)用中必須考慮的問(wèn)題。本文提出的對(duì)抗攻擊能夠使獲得密鑰的分類器擁有對(duì)本類對(duì)抗樣本完全的防御能力,而密鑰的分配由使用者決定,可以結(jié)合其余密碼學(xué)方法構(gòu)建對(duì)多個(gè)分類器的授權(quán)機(jī)制。獲得授權(quán)的分類器能夠得到對(duì)應(yīng)的密鑰,用以對(duì)輸入的圖像進(jìn)行識(shí)別,在密鑰不泄露的情況下能夠防止非授權(quán)用戶通過(guò)竊取深度學(xué)習(xí)模型參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)來(lái)獲取利益,如圖2所示。
圖2 分類器授權(quán)管理
Figure 2 Classifier authorization management
本文方法的主要貢獻(xiàn)和創(chuàng)新可以總結(jié)為3個(gè)方面。
①將密碼學(xué)與對(duì)抗攻擊相結(jié)合,提出了一種基于密碼學(xué)困難性問(wèn)題的可特定識(shí)別對(duì)抗攻擊方法。
②現(xiàn)有的對(duì)抗攻擊防御策略中效果最佳的針對(duì)性訓(xùn)練難以達(dá)到對(duì)對(duì)應(yīng)類別對(duì)抗攻擊的完全防御,會(huì)有較多數(shù)量的對(duì)抗樣本成功地讓分類器發(fā)生錯(cuò)誤分類,但本文方法產(chǎn)生的對(duì)抗樣本能夠被特定的分類器識(shí)別。
③本文方法中使用到的簽名信息和密文信息受到實(shí)際使用的密碼學(xué)方案的影響,其長(zhǎng)度和形式均有較強(qiáng)的可拓展性。在未來(lái)的研究中可以通過(guò)使用不同的密碼學(xué)方案來(lái)實(shí)現(xiàn)更好的攻擊效果或提高生成效率。
本節(jié)主要介紹所提對(duì)抗攻擊方法涉及的相關(guān)定義與研究現(xiàn)狀。
(1)對(duì)抗攻擊
對(duì)抗攻擊是一種攻擊深度學(xué)習(xí)模型的攻擊方法[19],可由下述方式定義。
根據(jù)攻擊者對(duì)目標(biāo)模型信息的掌握程度,對(duì)抗攻擊可以分為三類[20-22]:黑盒攻擊、灰盒攻擊和白盒攻擊。
黑盒攻擊:攻擊者不了解目標(biāo)模型的結(jié)構(gòu)和參數(shù),只能通過(guò)正常的輸入得到模型的輸出。通過(guò)不斷地與模型進(jìn)行正常交互來(lái)設(shè)計(jì)與實(shí)現(xiàn)攻擊。
灰盒攻擊:攻擊者能夠得知目標(biāo)模型的結(jié)構(gòu)和參數(shù),并在這些信息的基礎(chǔ)上構(gòu)造攻擊算法和實(shí)現(xiàn)攻擊。
白盒攻擊:攻擊者能夠得知目標(biāo)模型的所有信息,包括但不限于模型的結(jié)構(gòu)、參數(shù)、訓(xùn)練集、測(cè)試集等信息。通常來(lái)講,白盒攻擊對(duì)模型的攻擊效果最好。
根據(jù)對(duì)抗攻擊的攻擊結(jié)果,對(duì)抗攻擊可以分為定向攻擊和非定向攻擊。前者的目的是讓目標(biāo)深度學(xué)習(xí)分類器輸出攻擊者指定的分類結(jié)果;后者的目的是讓目標(biāo)深度學(xué)習(xí)分類器輸出錯(cuò)誤的分類結(jié)果。
(2)簽名機(jī)制與加密機(jī)制
一個(gè)數(shù)字簽名方案通常由3個(gè)算法組成[23]:密鑰生成算法、簽名算法和確定性驗(yàn)證算法。
密鑰生成算法Gen負(fù)責(zé)輸出一對(duì)密鑰(vk,sik),vk稱為驗(yàn)證密鑰,sik稱為簽名密鑰。
公鑰加密方案的思想最早由Diffie和Hellman提出[24],最早實(shí)現(xiàn)是由Rivest、Shamir和Adleman在1978年提出的RSA方法[25]。
常用的公鑰加密方案通常由3個(gè)算法構(gòu)成:密鑰生成算法、加密算法和解密算法。
密鑰生成算法Gen輸出一個(gè)密鑰對(duì)(pk,sk),pk稱為公鑰,sk稱為私鑰。
加密算法Enc接收公鑰pk與加密的明文作為輸入,輸出一個(gè)密文。
解密算法Dec接收私鑰sk與解密的密文作為輸入,輸出一個(gè)明文。
使用公鑰加密方案能夠保證明文信息不被敵手獲知,敵手唯一能夠獲得明文信息的方式就是解密。但在不具有私鑰的情況下,一個(gè)可證明安全性的公鑰加密方案是難以被攻破的。在本文方法中對(duì)抗樣本真實(shí)分類的標(biāo)簽被加密為密文,以此來(lái)避免信息泄露。
對(duì)抗攻擊能夠直接影響深度學(xué)習(xí)分類器的識(shí)別能力,成為深度學(xué)習(xí)安全研究的熱點(diǎn),目前,對(duì)于對(duì)抗攻擊的研究分為攻擊與防御兩方面。
在對(duì)抗攻擊的攻擊方面,主要的對(duì)抗攻擊方法有基于梯度的攻擊、基于分?jǐn)?shù)的攻擊與基于決策的攻擊?;谔荻鹊墓舻闹饕悸肥窃诎缀协h(huán)境下,對(duì)輸入的圖像像素?cái)?shù)據(jù)進(jìn)行求導(dǎo),得到具體的梯度方向,根據(jù)該方向進(jìn)行擾動(dòng)噪聲的計(jì)算,使生成的對(duì)抗樣本發(fā)生錯(cuò)誤分類;基于分?jǐn)?shù)的攻擊與基于決策的攻擊主要應(yīng)用在黑盒環(huán)境下,通過(guò)多次查詢模型得到的信息進(jìn)行計(jì)算。
在防御對(duì)抗攻擊方面,目前較為良好的防御方式是針對(duì)性訓(xùn)練,該方式主要在訓(xùn)練階段加入對(duì)抗樣本數(shù)據(jù),通過(guò)訓(xùn)練過(guò)程讓模型學(xué)習(xí)對(duì)抗樣本與正常圖片間的細(xì)微差別,從而達(dá)到在使用階段可以正確識(shí)別該類對(duì)抗樣本的目的。2020年的一篇探究圖像識(shí)別分類器魯棒性的論文指出[26]:目前在cafir10數(shù)據(jù)集上較好的針對(duì)性訓(xùn)練方法[27]能達(dá)到的識(shí)別精度為87.3%,在Imagenet數(shù)據(jù)集上效果較好的方法能達(dá)到的精度則為73.5%[14]??梢钥吹?,仍然難以達(dá)到100%的識(shí)別精度。
2018年,在識(shí)別特定的對(duì)抗樣本方面,Hyun等[28]提出了一種多目標(biāo)對(duì)抗攻擊方法,產(chǎn)生的對(duì)抗樣本能夠被友善的分類器正確分類,其應(yīng)用場(chǎng)景主要針對(duì)軍事戰(zhàn)略領(lǐng)域。作者指出對(duì)抗攻擊可以用來(lái)欺騙敵方的分類器,如修改戰(zhàn)場(chǎng)上的路標(biāo)以欺騙敵人的自動(dòng)駕駛汽車。但該對(duì)抗樣本的產(chǎn)生主要通過(guò)機(jī)器學(xué)習(xí)方法來(lái)實(shí)現(xiàn),并且對(duì)于圖像,計(jì)算出敵方分類器與友方分類器之間的識(shí)別差異,需要較長(zhǎng)的運(yùn)行時(shí)間。同時(shí),在計(jì)算過(guò)程中需要了解模型的內(nèi)部信息,但在商業(yè)行為中的深度學(xué)習(xí)模型信息往往被視為商業(yè)機(jī)密而加以保護(hù),使用者通常難以得到其模型的內(nèi)部信息。
本文所提的對(duì)抗攻擊方法可以概括為:將一張能夠被分類器正確識(shí)別的圖像通過(guò)嵌入附加信息的方式改造為只有在特定分類器中才能正確識(shí)別的對(duì)抗樣本。與一般的對(duì)抗攻擊方法相比,本文方法中的擾動(dòng)噪聲包含了原圖像的兩項(xiàng)重要信息(圖像簽名信息與正確分類信息),這兩項(xiàng)信息通過(guò)密碼學(xué)中的簽名方案和加密方案生成,在處理后通過(guò)隱蔽的方式嵌入原圖像,如圖3所示。
圖3 本文提出的對(duì)抗攻擊的流程
Figure 3 The flow of our adversarial attack
本文方法是一種非定向黑盒攻擊,不指定攻擊的目標(biāo)分類,同時(shí)攻擊過(guò)程不涉及目標(biāo)深度學(xué)習(xí)模型的內(nèi)部結(jié)構(gòu)和參數(shù),僅通過(guò)反復(fù)與目標(biāo)模型進(jìn)行正常交互來(lái)獲得攻擊所需的信息。
RSA的簽名方案與加密方案,基本形式與一般的數(shù)字簽名方案和公鑰加密方案一致,其安全性以大整數(shù)分解的困難性為前提。具體的方案構(gòu)造如下。
基于GenRSA算法,RSA的數(shù)字簽名方案如下。
密鑰生成算法Gen接收一個(gè)安全參數(shù)作為輸入,將安全參數(shù)輸入GenRSA中,得到一組參數(shù)(,,)。令驗(yàn)證密鑰vk為(,),簽名密鑰sik為(,)。
簽名算法Sign接收簽名密鑰sik和消息作為輸入,計(jì)算簽名。
當(dāng)前,國(guó)內(nèi)學(xué)界對(duì)高???jī)效評(píng)估內(nèi)涵的理解存在著簡(jiǎn)單化、機(jī)械化和片面性的問(wèn)題。一方面,績(jī)效意識(shí)不足,學(xué)者們更重視探究應(yīng)然層面的績(jī)效評(píng)價(jià)指標(biāo)構(gòu)建和實(shí)踐的應(yīng)用操作,而對(duì)為什么要實(shí)施績(jī)效評(píng)價(jià)以及高等教育內(nèi)部是否具有實(shí)施績(jī)效評(píng)價(jià)的需求研究很少。⑩另一方面,在績(jī)效內(nèi)涵上認(rèn)識(shí)不夠全面,往往是重業(yè)績(jī)輕效率,重投入輕產(chǎn)出,忽視了辦學(xué)效率。
(.)為摘要函數(shù),接收任意長(zhǎng)度的比特串輸入,輸出一個(gè)固定長(zhǎng)度的hash函數(shù)值。
基于RSA的公鑰加密方案如下。
密鑰生成算法Gen接收一個(gè)安全參數(shù)作為輸入,將安全參數(shù)輸入GenRSA中,得到一組參數(shù)(,,)。令公鑰pk為(,),私鑰sk為(,)。
加密算法Enc接收公鑰pk和消息作為輸入,計(jì)算密文。
解密算法Dec接受私鑰sk與密文作為輸入,計(jì)算明文。
基于RSA方案,本文對(duì)抗樣本的生成與識(shí)別可劃分為以下4個(gè)階段。
(1)密鑰生成階段
分類器在得到密鑰后應(yīng)該將其存儲(chǔ)在安全的環(huán)境中,因?yàn)榉诸惼髦忻荑€泄露導(dǎo)致的安全性問(wèn)題暫不在本文方法的考慮范圍內(nèi)。
(2)圖像信息獲取階段
這一階段的目的是獲得輸入的正常圖像的簽名信息與正確分類信息。本文方法使用RSA簽名算法與RSA加密算法進(jìn)行簽名與加密,并使用MD5算法對(duì)圖像進(jìn)行hash運(yùn)算,得到可以進(jìn)行RSA簽名的圖像hash函數(shù)值。
算法過(guò)程如下。
算法1 圖像簽名信息與分類信息提取方法
原圖像信息提取過(guò)程如圖4所示。
圖4 原圖像信息提取過(guò)程
Figure 4 Clean image information extraction process
關(guān)于本階段涉及的簽名與密文長(zhǎng)度,以224×224的圖像舉例,其行長(zhǎng)為224。目前的實(shí)例化采用的RSA算法產(chǎn)生的密鑰長(zhǎng)度為1 024 bit,簽名與密文長(zhǎng)度均為172 bit。
(3)擾動(dòng)像素嵌入階段
這一階段的目的是得到足以讓分類器發(fā)生錯(cuò)誤分類的擾動(dòng),并將擾動(dòng)像素和上一階段得到的簽名信息和分類密文信息一同嵌入圖像的首行和尾行。簽名信息與正確分類信息分別和擾動(dòng)像素組成向量,稱為簽名擾動(dòng)向量與分類擾動(dòng)向量。簽名擾動(dòng)向量替換圖像首行像素的第一通道;分類擾動(dòng)向量替換圖像尾行像素的第一通道。
在目前的實(shí)例化中,上一階段得到的簽名信息和正確分類密文均為一串長(zhǎng)度固定的字符串,字符串中的字符會(huì)轉(zhuǎn)化為ASCII碼,與計(jì)算得到的擾動(dòng)像素一同組成長(zhǎng)度為圖像行向量長(zhǎng)度的向量。一條擾動(dòng)向量的基本構(gòu)成如下:
其中,inf為上一階段得到的簽名與密文信息對(duì)應(yīng)的ASCII碼向量,noisy為本階段反復(fù)迭代測(cè)試得到的足以讓分類器發(fā)生錯(cuò)誤分類的像素向量,oripixel為原圖像行向量中不改動(dòng)的位置的像素向量。
擾動(dòng)向量生成過(guò)程如圖5所示。
圖5 擾動(dòng)向量生成過(guò)程
Figure 5 Disturbance vector generation process
可以看到,簽名信息和分類密文信息對(duì)應(yīng)的像素起始位置為得到的擾動(dòng)向量的起始位置,噪聲向量與圖像原像素則直接連在簽名信息與分類密文信息之后。
以224×224的圖像為例,簽名信息與分類密文信息均為172 bit,則兩個(gè)擾動(dòng)向量中的前172 bit分別用來(lái)存放兩種圖像附加信息,之后的52 bit則用來(lái)存放噪聲向量和圖像原像素。
本文方法中噪聲像素的生成方法借鑒了單像素攻擊[30]的攻擊思路。這類對(duì)抗攻擊的主要思想是在黑盒模型下反復(fù)改動(dòng)圖像中的像素,每改動(dòng)一次就查詢一次分類器查詢分類,直到找到能夠讓分類器發(fā)生錯(cuò)誤分類的像素為止。
在本文方法的理想實(shí)現(xiàn)中,算法會(huì)將圖像首行與尾行像素中除去包含簽名像素與分類信息像素的剩余部分視為噪聲生成位置,在保持其余像素不變的情況,按照從小到大的位置關(guān)系對(duì)圖像像素進(jìn)行改動(dòng),其最終輸出的像素值大小范圍為0~255。但為了算法的運(yùn)行效率,本文在實(shí)例化中統(tǒng)一規(guī)定噪聲向量的長(zhǎng)度為32 bit。每次迭代算法都會(huì)生成一串長(zhǎng)度為32 bit的隨機(jī)像素向量,通過(guò)擴(kuò)大噪聲位置來(lái)提高噪聲像素的攻擊能力。假如直到迭代上限也沒(méi)有找到能夠讓圖像發(fā)生錯(cuò)誤分類的噪聲,則視為攻擊失敗。
從理論的角度分析,多目標(biāo)分類的深度學(xué)習(xí)模型大部分的分類平面極其復(fù)雜,當(dāng)對(duì)輸入的實(shí)例做出細(xì)微差別后,其與分類邊界的距離必然會(huì)發(fā)生改動(dòng),所以通過(guò)反復(fù)迭代修改固定位置的單個(gè)像素或多個(gè)像素均有相當(dāng)大的概率讓該實(shí)例越過(guò)周圍的某個(gè)分類邊界,從而發(fā)生分類變化。這一點(diǎn)已經(jīng)在實(shí)驗(yàn)中得到驗(yàn)證,本文方法正是通過(guò)反復(fù)迭代修改首行像素與尾行像素中不涉及簽名信息與分類信息的像素,直到找到能夠讓分類器識(shí)別錯(cuò)誤的像素?cái)_動(dòng)信息。
最后,本階段輸出一張?zhí)鎿Q了首行與尾行像素的圖像作為本文方法生成的對(duì)抗樣本。
(4)識(shí)別階段
這一階段的目的是驗(yàn)證生成的對(duì)抗樣本能夠被擁有密鑰的分類器正確驗(yàn)證,并輸出正確的分類信息。
具有密鑰的分類器在接收到一張圖像的輸入后,會(huì)先將該圖像分成三部分,分別對(duì)應(yīng)圖像首行信息、圖像主體信息與圖像尾行信息。假如該圖像是本文方法生成的對(duì)抗樣本,因?yàn)楹灻畔⑴c密文信息存放的位置固定,且均在第一通道,則分類器可以簡(jiǎn)單地從圖像首行與尾行的第一通道中得到簽名信息和分類信息,并使用存儲(chǔ)的密鑰對(duì)簽名信息和圖像主體像素信息進(jìn)行驗(yàn)證,驗(yàn)證通過(guò)后再使用同一密鑰對(duì)的另一密鑰對(duì)分類信息進(jìn)行解密,得到圖像的真實(shí)分類結(jié)果并直接輸出;假如輸入的圖像是一張正常圖像,則分類器同樣進(jìn)行上述步驟,但在簽名驗(yàn)證階段無(wú)法得到簽名通過(guò)的結(jié)果,分類器此時(shí)會(huì)直接對(duì)圖像進(jìn)行深度學(xué)習(xí)識(shí)別過(guò)程,輸出圖像的識(shí)別分類。
本文提出的可識(shí)別對(duì)抗攻擊的核心是密碼學(xué)中的簽名與加密方案,其理想情況是能夠?qū)σ粡堈D像輸出其可識(shí)別的對(duì)抗樣本。擁有密鑰的分類器能夠識(shí)別這一對(duì)抗樣本,同時(shí)這種對(duì)抗攻擊只能由擁有密鑰的使用者來(lái)實(shí)行。
本文對(duì)抗攻擊的構(gòu)造可以讓敵手難以偽造出這類對(duì)抗樣本。為了定義和分析其安全性,假設(shè)存在一個(gè)敵手希望偽造一張對(duì)抗樣本來(lái)欺騙擁有密鑰的分類器,則一個(gè)簡(jiǎn)單的安全性實(shí)驗(yàn)序列設(shè)計(jì)如下。
算法2 對(duì)抗樣本偽造攻擊
如果對(duì)于任意敵手A,均有
當(dāng)敵手希望偽造出一張對(duì)抗樣本欺騙擁有密鑰的分類器時(shí),其必然需要構(gòu)造出能夠通過(guò)驗(yàn)證的簽名向量和能夠正確解密出分類信息的正確分類向量。本文方法目前的實(shí)例化采用RSA算法,敵手必須要克服RSA困難問(wèn)題,才能夠構(gòu)造出順利通過(guò)驗(yàn)證和解密的圖像。目前,很難找到一個(gè)擁有足夠計(jì)算能力的敵手來(lái)實(shí)現(xiàn)對(duì)本方法中生成的對(duì)抗樣本進(jìn)行偽造。
如果敵手期望通過(guò)計(jì)算以外的方式來(lái)生成對(duì)抗樣本,則可能選用的方法是利用其得到的對(duì)抗樣本中的簽名信息和密文信息。因?yàn)楹灻蛄亢头诸愊蛄勘恢苯犹鎿Q為圖像首行與尾行的第一通道,敵手可以直接通過(guò)替換像素的方式將已有的簽名向量和分類向量替換到其構(gòu)造的圖像上。但這種替換像素的偽造方法依然無(wú)法繞過(guò)RSA困難性問(wèn)題,因?yàn)楹灻?yàn)證過(guò)程需要首行像素信息與主體像素信息共同參與,同時(shí)密文解密過(guò)程使用的密鑰必然與簽名過(guò)程使用的驗(yàn)證密鑰相匹配。敵手只有在同時(shí)替換了首行像素和主體像素的情況下才能通過(guò)驗(yàn)證過(guò)程,但分類密文解密過(guò)程仍然需要面對(duì)RSA困難問(wèn)題。在不具備量子計(jì)算能力與密鑰的前提下,敵手所偽造的密文會(huì)以極大概率解密得到一串無(wú)意義的字符串或無(wú)法解密,依然會(huì)被分類器察覺(jué)。而其余像素替換方法均無(wú)法繞開(kāi)驗(yàn)證過(guò)程的RSA困難問(wèn)題。
本文方法在實(shí)例化中使用的是RSA簽名方案與RSA加密方案,其使用的密鑰長(zhǎng)度為1 024 bit,輸出的簽名和密文長(zhǎng)度均為172 bit。
實(shí)驗(yàn)的軟硬件環(huán)境為4 GPU的Linux服務(wù)器,系統(tǒng)為64位Ubuntu18.04.4LTS,內(nèi)存256 GB,處理器為Intel Xeon CPU E5-2683 V3 @ 2.00 GHz,GPU型號(hào)是Gtx 1080ti,顯存12 GB。使用的數(shù)據(jù)集為Imagenet數(shù)據(jù)集,實(shí)驗(yàn)中的圖像尺寸均為224×224。使用的RSA簽名方案代碼與RSA加密方案代碼由Python中的Crypto庫(kù)提供。
為了衡量本文方法的攻擊成功率,本文對(duì)隨機(jī)1 000張ImageNet的圖像進(jìn)行了模擬攻擊實(shí)驗(yàn)。實(shí)驗(yàn)使用的模型為Torchvision提供的VGG-16預(yù)訓(xùn)練模型。在對(duì)圖像進(jìn)行識(shí)別前,圖像的首尾兩行像素被替換為噪聲像素。隨著迭代次數(shù)的增加,模型的識(shí)別結(jié)果發(fā)生了改變,其中,原始識(shí)別標(biāo)簽的圖像數(shù)量變化如表1所示。
從表1中可以看到,迭代次數(shù)的增加能提高模型攻擊的成功率,但由于噪聲位置的限制,一張可識(shí)別對(duì)抗樣本的生成通常需要較高的迭代次數(shù)。
表1 迭代次數(shù)對(duì)攻擊成功率的影響
實(shí)驗(yàn)的實(shí)例化輸出如下:實(shí)驗(yàn)中生成的對(duì)抗樣本均可在擁有密鑰的分類器中被正確驗(yàn)證并通過(guò)分類密文解密得到對(duì)應(yīng)的正確分類。
圖6為本文方法中的一個(gè)輸出實(shí)例,圖內(nèi)正常圖片的分類標(biāo)簽為13,生成的對(duì)抗樣本的分類標(biāo)簽為16。
圖6 輸出實(shí)例1
Figure 6 Output example 1
圖7為另一個(gè)輸出實(shí)例,圖內(nèi)正常圖片的分類標(biāo)簽為13,生成的對(duì)抗樣本的分類標(biāo)簽為20。
圖7 輸出實(shí)例2
Figure 7 Output example 2
輸出實(shí)例中的簽名信息與分類密文可以被正常讀取,敵手在無(wú)法偽造能順利通過(guò)驗(yàn)證的簽名與能夠解密的密文的情況下難以偽造本對(duì)抗攻擊。
圖8為測(cè)試中輸出其余部分圖片的效果展示,圖內(nèi)的數(shù)字為該圖像的識(shí)別分類結(jié)果??梢钥闯觯M管本文方法相比單像素攻擊改動(dòng)的像素較多,但依然具備人眼難以察覺(jué)的特性,同時(shí)能讓分類器發(fā)生錯(cuò)誤分類。
圖8 輸出實(shí)例3
Figure 8 Output example 3
本文方法與其他4種經(jīng)典對(duì)抗攻擊方法的簡(jiǎn)單對(duì)比總結(jié)如表2所示。
表2 對(duì)抗攻擊方法對(duì)比
其中,Deepfool攻擊生成的擾動(dòng)是模型的最小近似擾動(dòng),其擾動(dòng)噪聲的范圍針對(duì)全局像素;C&W攻擊的全稱是Carlini&Wagner攻擊,是一種迭代優(yōu)化的低擾動(dòng)對(duì)抗樣本生成算法,其擾動(dòng)噪聲發(fā)生的范圍同樣是全局像素。從擾動(dòng)的角度來(lái)分析,除單像素攻擊與本文方法以外的3種經(jīng)典攻擊方法的目的是生成足以讓分類器發(fā)生錯(cuò)誤分類的擾動(dòng),這需要對(duì)圖像上的所有像素進(jìn)行計(jì)算和分析,得到期望的最優(yōu)擾動(dòng)噪聲并分布在圖像的所有像素中。而單像素攻擊與本文方法則對(duì)擾動(dòng)噪聲生成的位置和范圍做出了限制,單像素攻擊要求生成的擾動(dòng)噪聲只存在一個(gè)像素上,本文方法生成的擾動(dòng)噪聲只存在兩行像素向量中,從像素改動(dòng)個(gè)數(shù)的角度來(lái)看,本文對(duì)抗攻擊方法改動(dòng)的像素?cái)?shù)量比其余3種全局?jǐn)_動(dòng)的攻擊方法少,也僅有本文攻擊方法具有能讓特定的分類器100%識(shí)別的可特定識(shí)別性。
本文提出了一種新的對(duì)抗攻擊方法,該方法的特點(diǎn)是將密碼學(xué)與對(duì)抗攻擊相結(jié)合,使擁有密鑰的分類器能夠輸出由本文方法生成的對(duì)抗樣本的正確分類。這種識(shí)別方式可以保證特定分類對(duì)此類對(duì)抗樣本具有高的識(shí)別能力。希望這一方法能夠在未來(lái)的深度學(xué)習(xí)應(yīng)用中提供一種新的安全性研究視角。
本文提出的對(duì)抗攻擊方法的實(shí)例化采用了RSA方案。在保證密鑰能同時(shí)運(yùn)用在簽名和加密方案的前提下,RSA方案可以替換為其他密碼學(xué)方案。更好的密碼學(xué)方案可以讓本文的對(duì)抗攻擊安全性更高,且能夠構(gòu)造出長(zhǎng)度更短的簽名與密文信息,留出更多的空間用于計(jì)算擾動(dòng)像素。這可以給擾動(dòng)像素留出更多計(jì)算空間,讓最終生成的擾動(dòng)向量更加隱蔽和不明顯。
在擾動(dòng)噪聲的位置上,本文方法選用的嵌入位置較為簡(jiǎn)單,未來(lái)可以從計(jì)算機(jī)視覺(jué)的角度在圖像全局像素中尋找更優(yōu)的嵌入位置,來(lái)實(shí)現(xiàn)更好的攻擊效果。而限于密碼學(xué)方案中對(duì)于密文信息和簽名信息的完整性要求,如何為本文方法引入物理魯棒性仍然是一個(gè)富有挑戰(zhàn)性的問(wèn)題。
[1] LE-CUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[3] GUO G, ZHANG N. A survey on deep learning based face recognition[J]. Computer Vision and Image Understanding, 2019, 189: 102805.
[4] DENG L, HINTON G, KINGSBURY B. New types of deep neural network learning for speech recognition and related applications: an overview[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013: 8599-8603.
[5] YOUNG T, HAZARIKA D, PORIA S, et al. Recent trends in deep learning based natural language processing[J]. IEEE Computational Intelligence Magazine, 2018, 13(3): 55-75.
[6] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[J]. arXiv preprint arXiv:1412.6572, 2014.
[7] DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. 2009: 248-255.
[8] 何英哲, 胡興波, 何錦雯, 等. 機(jī)器學(xué)習(xí)系統(tǒng)的隱私和安全問(wèn)題綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2019, 56(10): 2049.
HE Y Z, HU X B, HE J W, et al. Overview of the privacy and security issues of machine learning systems[J]. Computer Research and Development, 2019, 56(10): 2049.
[9] ZHENG T, CHEN C, REN K. Distributionally adversarial attack[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019: 2253-2260.
[10] XIAO C, LI B, ZHU J Y, et al. Generating adversarial examples with adversarial networks[J]. arXiv preprint arXiv:1801.02610, 2018.
[11] QIU S, LIU Q, ZHOU S, et al. Review of artificial intelligence adversarial attack and defense technologies[J]. Applied Sciences, 2019, 9(5): 909.
[12] AKHTAR N, MIAN A. Threat of adversarial attacks on deep learning in computer vision: a survey[J]. IEEE Access, 2018, 6: 14410-14430.
[13] KURAKIN A, GOODFELLOW I, BENGIO S, et al. Adversarial attacks and defences competition[M]//The NIPS'17 Competition: Building Intelligent Systems. 2018: 195-231.
[14] TRAMèR F, KURAKIN A, PAPERNOT N, et al. Ensemble adversarial training: attacks and defenses[J]. arXiv preprint arXiv:1705.07204, 2017.
[15] MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[J]. arXiv preprint arXiv:1706.06083, 2017.
[16] LIANG B , LI H , SU M , et al. Detecting adversarial image examples in deep neural networks with adaptive noise reduction[J]. IEEE Transactions on Dependable and Secure Computing, 2018: 1-10.
[17] PAPERNOT N, MCDANIEL P, WU X, et al. Distillation as a defense to adversarial perturbations against deep neural networks[C]//2016 IEEE Symposium on Security and Privacy (SP). 2016: 582-597.
[18] JIA X, WEI X, CAO X, et al. Comdefend: an efficient image compression model to defend adversarial examples[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 6084-6092.
[19] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.
[20] 張思思, 左信, 劉建偉. 深度學(xué)習(xí)中的對(duì)抗樣本問(wèn)題[J]. 計(jì)算機(jī)學(xué)報(bào),2019,42(8): 1886-1904.
ZHANG S S, ZUO X, LIU J W, The problem of adversarial examples in deep learning[J]. Chinese Journal of Computers, 2019, 42(8): 1886-1904.
[21] 段廣晗, 馬春光, 宋蕾, 等. 深度學(xué)習(xí)中對(duì)抗樣本的構(gòu)造及防御研究[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(2): 1-11.
DUAN G H, MA C G, SONG L, et al. Research on structure and defense of adversarial example in deep learning[J]. Chinese Journal of Network and Information Security, 2020, 6(2): 1-11.
[22] 劉西蒙, 謝樂(lè)輝, 王耀鵬, 等. 深度學(xué)習(xí)中的對(duì)抗攻擊與防御[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(5): 36-53.
LIU X M, XIE L H, WANG Y P, et al. Adversarial attacks and defenses in deep learning[J]. Chinese Journal of Network and Information Security, 2020, 6(5): 36-53.
[23] 薛銳.公鑰加密理論[M].北京:科學(xué)出版社,2016.
XUE R. Public key encryption theory[M]. Beijing: Science Press, 2016.
[24] DIFFIE W, HELLMAN M. New directions in cryptography[J]. IEEE Transactions on Information Theory, 1976, 22(6): 644-654.
[25] RIVEST R L, SHAMIR A, ADLEMAN L. A method for obtaining digital signatures and public-key cryptosystems[J]. Communications of the ACM, 1978, 21(2): 120-126.
[26] DONG Y, FU Q A, YANG X, et al. Benchmarking adversarial robustness on image classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 321-331.
[27] MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[J]. arXiv preprint arXiv:1706.06083, 2017.
[28] HYUN K, KIM Y, PARK K W, et al. Friend-safe evasion attack: an adversarial example that is correctly recognized by a friendly classifier[J]. Computers & Security, 2018, 78: 380-397.
[29] SU J, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841.
RSA-based image recognizable adversarial attack method
ZHANG Yu, LI Hailiang
Jinan University, Guangzhou 510632, China
Adversarial attack is an important part of deep learning security research. Relying on the RSA signature schemes and RSA encryption schemes in cryptography, an adversarial attack method that adversarial examples can be recognized by a specific classifier is proposed. Through the idea of one pixel attack, the normal image can have the ability to make other classifier misclassify while embedding additional information. It can be used in classifier authorization management, online image anti-counterfeiting, etc. The experiment show that the adversarial examples can be recognized under the specific classifier, and the disturbance noise is difficult to detect by the human eye.
adversarial attack, signature scheme, encryption scheme, cryptography, classifier, image recognition
TP181
A
10.11959/j.issn.2096?109x.2021065
2020?11?01;
2021?03?15
李海良,lihailiang@jnu.edu.cn
廣東省重點(diǎn)研發(fā)計(jì)劃(2020B0101090004);廣東省科技創(chuàng)新戰(zhàn)略專項(xiàng)資金(pdjh2021b0058)
Key Research and Development Program of Guangdong Province (2020B0101090004), Special Funds for the Cultivation of Guangdong College Students’ Scientific and Technological Innovation (pdjh2021b0058)
張宇, 李海良. 基于RSA的圖像可識(shí)別對(duì)抗攻擊方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(5): 40-48.
ZHANG Y, LI H L. RSA-based image recognizable adversarial attack method[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 40-48.
張宇(1995? ),男,河南許昌人,暨南大學(xué)博士生,主要研究方向?yàn)樯疃葘W(xué)習(xí)安全、對(duì)抗樣本。
李海良(1981? ),男,河南商丘人,暨南大學(xué)副教授,主要研究方向?yàn)閳D像識(shí)別與網(wǎng)絡(luò)安全。