*基金項(xiàng)目:福建省中青年教師教育科研項(xiàng)目(編號(hào) JAT210496)的成果之一.
收稿日期:2024-5-12
作者簡(jiǎn)介:何天蘭(1985-),福建龍巖人,講師,碩士,研究方向:網(wǎng)絡(luò)安全.Email:971875976@qq.com.
摘要:多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)可以同時(shí)執(zhí)行人臉檢測(cè)和人臉特征標(biāo)記而成為研究熱點(diǎn).而現(xiàn)有研究表明任何基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)都容易遭受對(duì)抗攻擊.因此,研究人員致力于發(fā)展更魯棒的模型和更有效的防御策略,以提高模型在實(shí)際應(yīng)用中的安全性和可靠性.然而,由于物理域存在環(huán)境變化使其比數(shù)字域攻擊更具挑戰(zhàn)性.所以,文章提出了一種對(duì)MTCNN物理域和數(shù)字域的人臉檢測(cè)系統(tǒng)攻擊方法.首先采用數(shù)據(jù)增強(qiáng)的思路將生成的補(bǔ)丁與原圖疊加作為P-Net的輸入,將人臉特征與補(bǔ)丁相融合,在訓(xùn)練對(duì)抗補(bǔ)丁時(shí),在批處理的多個(gè)圖像上最小化損失,減少不同大小補(bǔ)丁和不同亮度的圖片損失;其次,采用投影變換的思路對(duì)補(bǔ)丁具有彎曲的邊界進(jìn)行近似,進(jìn)一步增強(qiáng)補(bǔ)丁與人臉的融合;最后,通過(guò)檢測(cè)最大貢獻(xiàn)度尺度,降低人臉被檢測(cè)的概率.實(shí)驗(yàn)在兩個(gè)公開(kāi)數(shù)據(jù)集與其他方法相比較.在兩個(gè)公開(kāi)數(shù)據(jù)集上,相比于現(xiàn)有方案攻擊成功率分別平均提高了12.63%和14.47%.在物理域中實(shí)現(xiàn)了91%的攻擊成功率.此外,還進(jìn)行了多組參數(shù)分析,驗(yàn)證了所提方案對(duì)縮放步長(zhǎng)、訓(xùn)練集大小和訓(xùn)練集數(shù)據(jù)質(zhì)量并不敏感,在不同參數(shù)設(shè)置下都具有較好的攻擊成功率.因此,所提方法可以實(shí)現(xiàn)對(duì)MTCNN在物理域和數(shù)字域的有效攻擊.
關(guān)鍵詞:MTCNN,對(duì)抗攻擊,物理攻擊
中圖分類號(hào):U495
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-9545(2024)02-0000-(07)
DOI:10.19717/j.cnki.jjun.2024.02.012
深度學(xué)習(xí)系統(tǒng)在人臉檢測(cè)方面的卓越表現(xiàn),超越了人類的能力,并導(dǎo)致了日常生活中各個(gè)領(lǐng)域的應(yīng)用激增[1],特別是在安全相關(guān)領(lǐng)域.這些先進(jìn)的人臉檢測(cè)系統(tǒng)越來(lái)越多地集成到FaceID等技術(shù)中,這對(duì)識(shí)別罪犯或優(yōu)化出入境政策具有重要意義.傳統(tǒng)的人臉檢測(cè)算法存在一些局限性.例如,基于Haar特征與Ada-Boost算法和基于尺度不變特征變換計(jì)算量較大不適用于實(shí)時(shí)性要求高的應(yīng)用中;基于局部二值模式(local binary pattern,LBP)以及方向梯度直方圖(histogram of oriented gradient,HOG)在處理尺度變化和遮擋時(shí)效果較差.隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的提出以及廣泛應(yīng)用,CNN可以自動(dòng)學(xué)習(xí)圖像特征,具有較高的準(zhǔn)確性.一些輕量級(jí)的CNN架構(gòu)也能夠滿足實(shí)時(shí)性要求,因此CNN在人臉檢測(cè)技術(shù)上實(shí)現(xiàn)了有很大的突破,例如:SSD(single shot multibox detector)和MTCNN(multi‐task convolutional neural network)[2].當(dāng)前最廣泛使用的級(jí)聯(lián)檢測(cè)器是多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(multi-task convolutional neural network,MTCNN)[3],它可以同時(shí)執(zhí)行人臉檢測(cè)和人臉特征標(biāo)記,被廣泛應(yīng)用于安全驗(yàn)證、視頻監(jiān)控和人員控制等領(lǐng)域[4-7].MTNN仍被提議用于最先進(jìn)的人臉識(shí)別系統(tǒng)[3].此外,它被用于GitHub上最流行的FaceNet[8]的公共人臉識(shí)別.
不幸的是,現(xiàn)有研究表明任何基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)都容易遭受對(duì)抗攻擊.對(duì)抗性攻擊利用神經(jīng)網(wǎng)絡(luò)的弱點(diǎn),在輸入數(shù)據(jù)中加入精心設(shè)計(jì)的擾動(dòng),導(dǎo)致模型做出錯(cuò)誤的預(yù)測(cè).例如,在數(shù)字域的白盒攻擊中,攻擊者可以完全掌握模型架構(gòu)和參數(shù),并且可以像素級(jí)地改變輸入圖像,以生成可以欺騙人臉檢測(cè)系統(tǒng)的對(duì)抗樣本[9].對(duì)抗性攻擊是人工智能領(lǐng)域的活躍研究領(lǐng)域之一.研究人員致力于發(fā)展更魯棒的模型和更有效的防御策略,以提高模型在實(shí)際應(yīng)用中的安全性和可靠性.目前尚沒(méi)有解決方案可以完全消除對(duì)抗性攻擊的風(fēng)險(xiǎn).雖然這個(gè)結(jié)果從理論的角度來(lái)看非常有趣,但在現(xiàn)實(shí)世界的人臉檢測(cè)系統(tǒng)中,處理圖像通常來(lái)自相機(jī)等物理設(shè)備,攻擊者無(wú)法直接訪問(wèn)輸入,這稱為物理域攻擊.物理域攻擊通常比數(shù)字域攻擊更具挑戰(zhàn)性,因?yàn)樗鼈儽仨毧紤]物理世界的變化,例如環(huán)境、照明和傳感器噪聲的變化.這些變化會(huì)使對(duì)抗性例子的效果降低,甚至完全無(wú)效.文章提出了一種對(duì)MTCNN人臉檢測(cè)系統(tǒng)的攻擊方法.針對(duì)物理世界中環(huán)境因素導(dǎo)致攻擊失敗的問(wèn)題,通過(guò)采用期望轉(zhuǎn)換(expectation over transformation,EoT)技術(shù)在批處理的多個(gè)圖像上最小化損失,以最大限度地減少具有不同大小補(bǔ)丁和不同亮度的圖片損失,提高對(duì)抗攻擊在不同環(huán)境下具有魯棒性;為了使矩形補(bǔ)丁可以在不同的表面上應(yīng)用,使用投影映射對(duì)其進(jìn)行近似;最后通過(guò)找到對(duì)檢測(cè)貢獻(xiàn)最大的尺度,降低人臉被檢測(cè)的概率.實(shí)驗(yàn)結(jié)果表明:該攻擊該方法實(shí)現(xiàn)了在數(shù)字世界和物理世界對(duì)MTCNN的對(duì)抗攻擊.
1預(yù)備知識(shí)
1.1對(duì)抗攻擊
對(duì)抗攻擊是指有意修改輸入數(shù)據(jù),以欺騙機(jī)器學(xué)習(xí)模型的行為.這種攻擊導(dǎo)致模型做出錯(cuò)誤的預(yù)測(cè)或分類.對(duì)輸入圖像進(jìn)行微小變化會(huì)以誤導(dǎo)網(wǎng)絡(luò),使其將圖片中描繪的對(duì)象進(jìn)行高置信度的錯(cuò)誤分類.對(duì)抗攻擊的存在表明神經(jīng)網(wǎng)絡(luò)在某些情況下可能對(duì)輸入數(shù)據(jù)的微小變化非常敏感,這是一個(gè)安全和魯棒性方面的挑戰(zhàn).
假設(shè)分類器映射f∶IRm→{1,…,k}.損失函數(shù)表示為L(zhǎng)f∶IRm×{1,…,k}→IR+,并且是連續(xù)的.假設(shè)x∈IRm表示一張圖像,l∈{1,…,k}為一個(gè)標(biāo)簽,這個(gè)問(wèn)題可以公式化為:
minf(x+r)=l‖r‖(1)
其中,x+r∈[0,1]m.
在文獻(xiàn)[6]中,提出使用盒約束的L-BFGS來(lái)找到滿足條件的r:
minx+r∈[0,1]m=lc‖r‖+Lf(x+r,l)(2)
之后文獻(xiàn)[7]發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)具有線性性質(zhì).這一事實(shí)使攻擊能夠通過(guò)使用快速梯度符號(hào)法(fast gradient sign method,F(xiàn)GSM)以更高效的方式進(jìn)行攻擊:
xadv=x+∈sign(xJ(x,ytrue))(3)
然而,在某些情況下,F(xiàn)GSM的一次迭代可能是不夠的.因此,在文獻(xiàn)[8]中將FGSM擴(kuò)展為迭代版本:
xadvN+1=ClipxadvN,∈{x+αsing(xJ(xadvN,ytrue))}(4)
為了進(jìn)一步改進(jìn)優(yōu)化過(guò)程,使對(duì)抗攻擊更具魯棒性,在文獻(xiàn)[10]中,在迭代FGSM中添加了動(dòng)量,該方法通常被稱為MI-FGSM,該方法可以在迭代中通過(guò)較差的局部極小值或極大值記住梯度方向.
一般假設(shè),對(duì)網(wǎng)絡(luò)權(quán)重和結(jié)構(gòu)已知稱為白盒攻擊.但在現(xiàn)實(shí)世界中,可能會(huì)出現(xiàn)模型信息不可用的情況,這被稱為黑盒攻擊.
1.2物理域中的攻擊
物理領(lǐng)域的對(duì)抗攻擊更具挑戰(zhàn)性.輸入到網(wǎng)絡(luò)的輸入圖像會(huì)受到現(xiàn)實(shí)世界施加的各種變換:透視變換、旋轉(zhuǎn)等.對(duì)抗攻擊搜索過(guò)程應(yīng)該考慮到這些因素,并生成能夠容忍這種變換的輸入.這種容差通常是通過(guò)一種名為期望轉(zhuǎn)換(expectation over transformation,EoT)[11]的技術(shù)來(lái)實(shí)現(xiàn)的.EoT的關(guān)鍵點(diǎn)是在優(yōu)化過(guò)程中對(duì)輸入中的固有擾動(dòng)進(jìn)行建模.因此,可以把擾動(dòng)定義為:
δ=IEt~T[d(t(xadv),t(x)](5)
其中,t(x)為一種特定變化.
物理世界中的對(duì)抗性攻擊是更具挑戰(zhàn)性的問(wèn)題,攻擊者可以以非侵入性的方式誤導(dǎo)網(wǎng)絡(luò).例如,隨著自動(dòng)駕駛汽車的興起,攻擊者可以為停車標(biāo)志構(gòu)建對(duì)抗樣本以欺騙自動(dòng)駕駛汽車[12].在文獻(xiàn)[13]中生成了一個(gè)特定的模式,以避免被基于YOLO的人檢測(cè)器檢測(cè)到.該補(bǔ)丁經(jīng)過(guò)訓(xùn)練,并考慮了各種變換,以實(shí)現(xiàn)真實(shí)世界的攻擊.
1.3 MTCNN
MTCNN是一種人臉檢測(cè)神經(jīng)網(wǎng)絡(luò)模型,其用于人臉檢測(cè)和面部特征對(duì)齊.MTCNN是一個(gè)三級(jí)聯(lián)網(wǎng)絡(luò),其工作流程如圖1所示,包含P-Net、R-Net和O-Net.
(1)P-Net通過(guò)計(jì)算邊界盒回歸向量并使用非極大值抑制(non-maximum suppression,NMS)減少窗口,以實(shí)現(xiàn)快速生成候選窗,其結(jié)構(gòu)如圖2所示.
原始圖像經(jīng)圖像金字塔處理后,逐層輸入到P-Net中,獲取一系列的候選框后,依據(jù)圖像空間信息還原到原有位置,繼而根據(jù)圖像金字塔的層級(jí)按比例將候選框還原至原圖大小,進(jìn)行邊框回歸調(diào)整窗口,并用NMS進(jìn)行大部分窗口的過(guò)濾,即可得到P-Net部分的最終輸出結(jié)果.
(2)R-Net通過(guò)計(jì)算邊框盒回歸并用NMS減少窗口,以實(shí)現(xiàn)對(duì)候選窗進(jìn)行精篩,其結(jié)構(gòu)如圖3所示.
3R-Net位于MTCNN的中間層,相較于P-Net要復(fù)雜一些,模型容量也更大,但輸出格式與P-Net是基本相同的.在上一層P-Net輸出出多個(gè)人臉框之后,按照人臉框的位置對(duì)原圖進(jìn)行切圖,在將圖片尺寸調(diào)整至24×24的大小,繼而輸入值R-Net網(wǎng)絡(luò)中,對(duì)網(wǎng)絡(luò)輸出進(jìn)行坐標(biāo)回歸及NMS后再次得到一批候選框.
(3)O-Net輸出最終人臉框以及5個(gè)人臉特征點(diǎn),其結(jié)構(gòu)如圖4所示.
O-Net是MTCNN的最后一層,相較于R-Net又復(fù)雜了一些,但數(shù)據(jù)處理流程與R-Net完全一樣.R-Net輸出的高精度候選框的位置在原圖上進(jìn)行切圖,將圖片尺寸調(diào)整至48x48,作為O-Net的輸入,然后對(duì)網(wǎng)絡(luò)輸出進(jìn)行坐標(biāo)回歸及NMS后,最后所得的輸出即為模型最終將結(jié)果.R-Net與O-Net都用于對(duì)P-Net的輸出結(jié)構(gòu)進(jìn)行精篩.MTCNN由于能夠處理不同比例、姿勢(shì)和方向的人臉,已被用于人臉識(shí)別、情緒識(shí)別、人臉屬性分析等涉及人臉檢測(cè)與分析的各種應(yīng)用中.
2 MTCNN對(duì)抗攻擊
在本節(jié)中,將描述生成補(bǔ)丁的整個(gè)過(guò)程.MTCNN的每個(gè)子網(wǎng)絡(luò)都有三個(gè)輸出層:人臉?lè)诸?、邊界框回歸和人臉特征點(diǎn)定位.為此,存在四種可能的攻擊方法:①攻擊P-Net的人臉?lè)诸悓?;②攻擊P-Net的邊界框?qū)樱谖墨I(xiàn)[14]中描述了針對(duì)YOLO的類似方法,它利用了一種不安全的非極大值抑制(non max suppression,NMS)算法;③攻擊O-Net的輸出層;④攻擊整個(gè)網(wǎng)絡(luò).
與其他方法相比,第一種方法對(duì)架構(gòu)的要求最低.因此,將對(duì)P-Net進(jìn)行攻擊.攻擊流程如圖5所示.
首先,隨機(jī)生成兩個(gè)補(bǔ)丁,然后在原始圖像上疊加補(bǔ)丁,得到應(yīng)用了補(bǔ)丁的圖像.接著,將經(jīng)過(guò)增強(qiáng)的圖像輸入到P-Net中,獲得人臉?lè)诸悡p失.同時(shí),計(jì)算補(bǔ)丁的損失.最后將獲得損失求和再反向傳播生成新的補(bǔ)丁.
2.1期望轉(zhuǎn)換(expectation-over-transformation,EoT)
對(duì)于對(duì)抗攻擊來(lái)說(shuō),要想在物理領(lǐng)域取得成功,保持健壯性是很重要的.通過(guò)EoT技術(shù)來(lái)完成,具體方法流程如下:當(dāng)訓(xùn)練對(duì)抗補(bǔ)丁時(shí),不是在單張圖像上最小化損失函數(shù),而是在由頭部不同位置的多個(gè)圖像組成的批處理上最小化損失.該方法最大限度地減少了具有不同大小補(bǔ)丁和不同亮度的圖片損失,因此在現(xiàn)實(shí)世界中,可以對(duì)不同類型的變換具有魯棒性.
2.2投影變換
為了在不同的表面上應(yīng)用矩形補(bǔ)丁,使用投影映射.投影映射是由它的八個(gè)系數(shù)定義的.首先,在現(xiàn)實(shí)世界中,在矩形的邊緣標(biāo)記補(bǔ)丁位置.如果補(bǔ)丁具有彎曲的邊界,則可以使用矩形網(wǎng)格對(duì)其進(jìn)行近似.然后計(jì)算投影變換的系數(shù),并使用該補(bǔ)丁.圖6給出了具體的示例.
2.3 MTCNN檢測(cè)器
在原始圖像上疊加補(bǔ)丁后,對(duì)生成的圖像進(jìn)行增強(qiáng),然后將增強(qiáng)后的圖像調(diào)整為各種尺度,最后將它們送給P-Net.MTCNN首先需要建立一個(gè)具有給定尺度步長(zhǎng)因子的圖像金字塔.但是使用相同尺度步長(zhǎng)因子是不可行的,因?yàn)樗鼘?duì)資源的要求更高.為了解決這個(gè)問(wèn)題,設(shè)計(jì)了兩種可能的方法.①找到對(duì)檢測(cè)貢獻(xiàn)最大的尺度,并將其與上鄰尺度和下鄰尺度結(jié)合使用;②找到對(duì)檢測(cè)貢獻(xiàn)最大的尺度,并使用稍微大一點(diǎn)的尺度(最初沒(méi)有在金字塔中呈現(xiàn))和稍微小一點(diǎn)的尺度,即進(jìn)行尺寸增強(qiáng).
為了找到貢獻(xiàn)最大的尺度,將圖像輸入P-Net,并手動(dòng)跟蹤給R-Net提供最有意義結(jié)果的尺度.傳遞給R-Net的人臉圖像越多,人臉檢測(cè)成功的可能性就越大.一旦以上述方式選擇了三個(gè)尺度,就創(chuàng)建了金字塔,并計(jì)算輸出的損失函數(shù).
2.4損失函數(shù)
優(yōu)化過(guò)程由兩個(gè)主要部分和一個(gè)可選部分組成:
(1)人臉?lè)诸悡p失.主要目的是降低概率,這樣人臉就不會(huì)被檢測(cè)到.因此,使用兩種損失計(jì)算分類損失Lclf:Linf和L2.兩者都顯示出相當(dāng)好的結(jié)果.當(dāng)使用三層時(shí),對(duì)每個(gè)部分的損失求和.
(2)TV損失.為了使優(yōu)化優(yōu)先選擇沒(méi)有尖銳顏色過(guò)渡和噪聲的圖案,根據(jù)給定位置(i,j)的像素值的補(bǔ)丁計(jì)算LTV:
LTV(Pi,j-pi+1,j)2+(pi,j-pi,j+1)2(6)
變化越平滑,LTV值越小.
(3)黑色懲罰損失.在生成對(duì)抗口罩的情況下,減少補(bǔ)丁上的黑色是合理的,這使得補(bǔ)丁顯得合理.為了減少黑色,使用LBLK:
LBLK=∑i,j1-pi,j(7)
最后,為了平衡每個(gè)優(yōu)化系數(shù)的貢獻(xiàn),將上述損失相加,總損失為:
L=∑i=1,2,3Lclfi+αLTV+βLBLK(8)
3實(shí)驗(yàn)
對(duì)于數(shù)字世界的攻擊,使用與Edgar等人[15]相同的MTCNN參數(shù)進(jìn)行三個(gè)實(shí)驗(yàn).圖像金字塔的最小尺寸為21像素,三個(gè)子網(wǎng)的閾值分別為0.6、0.7和0.7,縮放步長(zhǎng)因子為0.709.這些參數(shù)在實(shí)踐中被廣泛使用.對(duì)于物理世界的攻擊,需要想要逃避人臉檢測(cè)模型的人的若干張人臉圖像,這些圖像應(yīng)該是在不同的條件下(距離、燈光)得到的,然后使用這些圖像來(lái)訓(xùn)練特定的對(duì)抗補(bǔ)丁.然后他就可以在他的臉頰貼上訓(xùn)練的對(duì)抗補(bǔ)丁,以攻擊現(xiàn)實(shí)世界中的人臉檢測(cè)模型.對(duì)于數(shù)字世界的攻擊,采用WIDERFace和CelebA數(shù)據(jù)集.WIDERFace數(shù)據(jù)集是一個(gè)廣泛用于人臉檢測(cè)任務(wù)的大規(guī)模數(shù)據(jù)集,特別是在復(fù)雜場(chǎng)景中檢測(cè)人臉.其包含了大約32,203張圖像,這些圖像中包含了多個(gè)人臉實(shí)例,總共標(biāo)注了393703個(gè)人臉數(shù)據(jù).此外,每張人臉還包含了詳細(xì)的信息,包括模糊程度、遮擋、表情、光照和姿態(tài)等屬性.這個(gè)數(shù)據(jù)集的特點(diǎn)是人臉在遮擋、妝容、姿勢(shì)、尺度、表情和光照等方面具有較大的差異.CelebA數(shù)據(jù)集是一個(gè)廣泛用于人臉相關(guān)研究的大規(guī)模人臉數(shù)據(jù)集,擁有超過(guò)20萬(wàn)張人臉圖像,并對(duì)每張圖像進(jìn)行了40個(gè)屬性的標(biāo)注.這個(gè)數(shù)據(jù)集非常廣泛地用于計(jì)算機(jī)視覺(jué)領(lǐng)域的各種任務(wù),包括人臉關(guān)鍵點(diǎn)定位、人臉屬性檢測(cè)、人臉識(shí)別等.
3.1攻擊的有效性
(1)數(shù)字世界的攻擊.在WIDERFace數(shù)據(jù)集中隨機(jī)選擇了1000張可以被MTCNN檢測(cè)到的人臉圖像.然后對(duì)這1000張圖像生成對(duì)抗樣本,最后有982張圖像不能被MTCNN檢測(cè)到,因此攻擊成功率為98.2%.在CelebA數(shù)據(jù)集中隨機(jī)選擇了5000張可以被MTCNN檢測(cè)到的圖像,這些圖像都是大小為178x218的單人圖像.對(duì)這5000張圖像生成對(duì)抗樣本后,4580張圖像不能被MTCNN檢測(cè)到,因此攻擊成功率為99.6%.
(2)物理世界的攻擊.使用普通的打印機(jī)打印生成的補(bǔ)丁,然后將其貼在人臉上以欺騙MTCNN檢測(cè)系統(tǒng).邀請(qǐng)了20個(gè)志愿者進(jìn)行實(shí)驗(yàn),從不同場(chǎng)景重復(fù)測(cè)試50次,最終統(tǒng)計(jì)了平均攻擊成功率為91.6%.
(3)與現(xiàn)有對(duì)抗樣本的比較.選擇三個(gè)最新的對(duì)抗樣本工作在兩個(gè)數(shù)據(jù)集上進(jìn)行比較,分別是OPATCH[16]、TEA[17]和SPG[18].實(shí)驗(yàn)結(jié)果如表1所示.
從表1中可以看出,文章所提方案在兩個(gè)數(shù)據(jù)集上攻擊成功率都高于現(xiàn)有方案.其中OPATCH[16]的攻擊效果與文章所提方案接近,是因?yàn)镺PATCH[16]與文章方案都是補(bǔ)丁攻擊,生成的對(duì)抗補(bǔ)丁可以很好的迷惑目標(biāo)檢測(cè)系統(tǒng).而TEA[17]能夠使模型失效是使模型的非極大值抑制機(jī)制失效,從而引導(dǎo)生成的候選框偏離預(yù)測(cè)的關(guān)注區(qū)域.該方法依賴候選框的大小,因此使非極大值抑制機(jī)制失效具有局限性,導(dǎo)致攻擊成功率并不理想,在CelebA和WIDERFace數(shù)據(jù)集上的攻擊成功率只是接近80%左右.SPG[18]與TEA[17]的攻擊效果接近,而SPG則是利用圖像的紋理信息進(jìn)行對(duì)抗,首先在難以被人眼察覺(jué)的高紋理區(qū)域增加擾動(dòng),然后限制修改的像素點(diǎn)數(shù)目,并搜索具有最佳L2范數(shù)度量的對(duì)抗擾動(dòng),從而欺騙目標(biāo)檢測(cè)器.該方法可以有效隱藏添加的對(duì)抗擾動(dòng),然而較少的擾動(dòng)會(huì)大幅度降低攻擊成功率,在CelebA和WIDERFace數(shù)據(jù)集上的攻擊成功率不超過(guò)82%.
3.2縮放步長(zhǎng)因子的影響
(1)數(shù)字世界的攻擊.為了說(shuō)明所提方案的有效性,測(cè)試了不同縮放步長(zhǎng)因子下的攻擊成功率,實(shí)驗(yàn)結(jié)果如圖7所示.
由圖7可以看出,在所有的縮放尺度下攻擊成功率都接近于99%.不同縮放步長(zhǎng)因子影響了MTCNN檢測(cè)的性能,縮放步長(zhǎng)因子越大,雖然會(huì)使得計(jì)算量變大,但也使得P-Net可以找出更多的候選框,從而提高檢測(cè)性能,進(jìn)而導(dǎo)致攻擊效果略微下降,但整體上攻擊成功率都高于90%.
(2)物理世界的攻擊.類似于數(shù)字世界中攻擊,也測(cè)試了不同縮放步長(zhǎng)因子在物理世界中對(duì)攻擊成功率的影,實(shí)驗(yàn)結(jié)果如圖8所示.
在所有的縮放尺度下攻擊成功率都接近于88%.攻擊成功率略微下降的原因與數(shù)字世界相同,都是由于縮放步長(zhǎng)因子越大,候選框越多,人臉檢測(cè)的性能越好,因此提升了欺騙的難度,導(dǎo)致攻擊成功率略微下降,但整體上攻擊成功率都高于80%.此外,與數(shù)字世界中的攻擊相比,物理世界中的攻擊成功率略低.這可以說(shuō)明物理世界的攻擊比數(shù)字世界更難實(shí)現(xiàn).
3.3物理世界攻擊的訓(xùn)練集質(zhì)量研究
對(duì)于物理世界的攻擊,需要想要逃避人臉檢測(cè)模型的人的若干張人臉圖像作為訓(xùn)練集,然后使用這些圖像來(lái)訓(xùn)練特定的對(duì)抗補(bǔ)丁,以攻擊MTCNN人臉檢測(cè)模型.
(1)訓(xùn)練集大小.訓(xùn)練集的大小直接影響了欺騙效果,因此測(cè)試了想要欺騙檢測(cè)系統(tǒng)所需的單個(gè)人的人臉圖像.設(shè)置了一組單個(gè)人的人臉圖像張數(shù)為{2,4,8,16,32}的訓(xùn)練集,然后比較攻擊效果.實(shí)驗(yàn)結(jié)果展示在表2中.當(dāng)單個(gè)人的人臉圖像數(shù)量超過(guò)8時(shí),攻擊成功率已超過(guò)80%.隨著人臉圖像數(shù)量的增加,欺騙效果呈上升趨勢(shì),最終趨于平穩(wěn)狀態(tài).因此,可以看到,想要欺騙MTCNN最少需要8張不同場(chǎng)景下的人臉圖像.
(2)訓(xùn)練集圖像質(zhì)量.這里的圖像質(zhì)量是指采集人臉的環(huán)境變化.考慮了光照的明暗、人臉的遠(yuǎn)近、背景的干凈與雜亂、人臉是否化妝等場(chǎng)景.設(shè)置了包含這四種環(huán)境不同的情況的訓(xùn)練集,即,單人圖像只包含一種場(chǎng)景,單人圖像包含兩種場(chǎng)景,單人圖像包含三種場(chǎng)景以及單人圖像包含四種場(chǎng)景.圖9是這四種不同情況的攻擊成功率.發(fā)現(xiàn)當(dāng)訓(xùn)練集只包含一種場(chǎng)景時(shí),即使單人圖像超過(guò)8張,攻擊成功率也并不是很理想.當(dāng)訓(xùn)練集中單人圖像包含的場(chǎng)景越多,攻擊效果越好.
4結(jié)論
文章找到了攻擊數(shù)字領(lǐng)域流行的MTCNN人臉檢測(cè)模型的方法,然后用EoT技術(shù)將此攻擊轉(zhuǎn)移到物理領(lǐng)域,最后在數(shù)字域和物理域驗(yàn)證攻擊的有效性.實(shí)驗(yàn)結(jié)果表明,所提攻擊方法在數(shù)字世界實(shí)現(xiàn)了高達(dá)98%的攻擊成功率,在物理世界實(shí)現(xiàn)了91%的攻擊成功率.也就是說(shuō),一個(gè)魯棒的人臉檢測(cè)網(wǎng)絡(luò)仍然存在安全漏洞,研究人員應(yīng)該找到可能的方法來(lái)解決這個(gè)安全漏洞.未來(lái)應(yīng)考慮在MTCNN檢測(cè)模型中使用不同的攻擊位置進(jìn)行攻擊,并考慮如何提高M(jìn)TCNN的安全性.
第2期""""""""" 何天蘭:對(duì)MTCNN人臉檢測(cè)系統(tǒng)的物理世界對(duì)抗攻擊
參考文獻(xiàn):
[1]J Deng,J Guo,Y Zhou,et al. Retinaface: Single-stage dense face localisation in the wild[J]. ArXiv, vol.abs/1905.00641,2019.
[2]李麗平,許營(yíng)坤,王嘉航.基于錨框稀疏圖像金字塔的MTCNN人臉檢測(cè)方法[J].浙江工業(yè)大學(xué)學(xué)報(bào),2023,51(3):298.
[3]KZhang,Z Zhang,Z Li,et al. Joint face detection andalignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters,23(10):1499.
[4]盧嫚,鄧浩敏.一種基于MTCNN和MobileFaceNet人臉檢測(cè)及識(shí)別方法[J].自動(dòng)化與儀表,2023,38(2):76.
[5]藍(lán)雯飛,張盛蘭,朱容波,等.基于改進(jìn)MTCNN的人臉檢測(cè)算法[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,39(6):637.
[6]賈小碩,曾上游,潘兵,等.基于改進(jìn)MTCNN網(wǎng)絡(luò)的目標(biāo)人臉快速檢測(cè)[J].計(jì)算機(jī)工程與科學(xué),2020,42(7):1262.
[7]孫軍梅,潘振雄,李秀梅,等.面向人臉驗(yàn)證的可遷移對(duì)抗樣本生成方法[J].電子與信息學(xué)報(bào),2023,45(5):1842.
[8]J Deng,J Guo,SP Zafeiriou. Arcface:additive angular margin loss for deep face recognition[J]. ArXiv,2018,18(1):07698.
[9]王志波,王雪,馬菁菁,等.面向計(jì)算機(jī)視覺(jué)系統(tǒng)的對(duì)抗樣本攻擊綜述[J].計(jì)算機(jī)學(xué)報(bào),2023,46(2):436.
[10]Y Dong,F(xiàn) Liao,T Pang,et al. Boosting adversarial attacks with momentum[J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2017,91(1):9185.
[11]AAthalye,L Engstrom,A Ilyas,et al. Synthesizing robust adversarial examples[C]. ICML,2017.
[12]KEykholt,I Evtimov,E Fernandes,et al. Physical adversarial examples forobject detectors[C]. Proceedings of the 12th USENIX Conference on Offensive Technologies,ser. WOOT’18. Berkeley, CA,USA:USENIX Association,2018,1.
[13]SThys,WV Ranst,T Goedem′e. Fooling automated surveillance cameras:adversarial patches to attack person detection[J]. ArXiv,2019,19(4):08653.
[14]D Wang,C Li,S Wen,et al. Daedalus:breaking non-maximum suppression in object detection via adversarial examples[J]. ArXiv,2019,19(2):02067.
[15]Liu Z,Luo P,Wang X,et al. Deep learning face attributes in the wild[J]. In Proceedings of the IEEE international conference on computer vision,3730.
[16]官榕林,李秀瀅,張健毅.一種新型的目標(biāo)識(shí)別對(duì)抗攻擊方法研究[J].北京電子科技學(xué)院學(xué)報(bào),2023,31(2):60.
[17]王燁奎,曹鐵勇,鄭云飛,等.基于特征圖關(guān)注區(qū)域的目標(biāo)檢測(cè)對(duì)抗攻擊方法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(2):261.
[18]丁程,史再峰,佟博文,等.針對(duì)目標(biāo)檢測(cè)的隱蔽式對(duì)抗擾動(dòng)生成方法[J].光電子·激光,2023,34(9):915.
Physical World Adversarial Attack on MTCNN Face Detection System
HE Tianlan
(School of Engineering and Technology, Yangon University Quanzhou, Quanzhou,F(xiàn)ujian 362014,China)
ABSTRACT" Multi task convolutional neural network (MTCNN) had become a research hotspot due to its ability to simultaneously perform face detection and facial feature labeling. Existing research had shown that any neural network-based system was susceptible to adversarial attacks. Therefore, researchers were committed to developing more robust models and more effective defense strategies to improve the security and reliability of models in practical applications. However, due to environmental changes in the physical domain, it was more challenging than attacks in the digital domain. Therefore, the article proposed an attack method on face detection systems in both the physical and digital domains of MTCNN. Firstly, the data augmentation approach was adopted to overlay the generated patch with the original image as input to P-Net. Facial features were fused with the patch, and during the training of adversarial patches, the loss was minimized on multiple batch processed images, reducing the loss of images with different patch sizes and brightness; Secondly, the projection transformation approach was adopted to approximate the curved boundaries of the patch, further enhancing the fusion between the patch and the face; Finally, by detecting the maximum contribution scale, the probability of facial detection was reduced. The experiment was compared with other methods on two publicly available datasets. On two publicly available datasets, the attack success rates had increased by an average of 12.63% and 14.47% compared to existing schemes, respectively. A 91% attack success rate was achieved in the physical domain. In addition, multiple parameter analyses were conducted to verify that the proposed scheme was not sensitive to scaling step size, training set size, and training set data quality, and had a good attack success rate under different parameter settings. Therefore, the proposed method could effectively attack MTCNN in both physical and digital domains.
KEY WORDS" MTCNN;adversarial attack; physical attack
(責(zé)任編輯" 王一諾)