賴振強,葉 鋒,2,3,黃麗清,2,3,黃添強,2,3,羅海峰,2,3
(1.福建師范大學(xué)計算機與網(wǎng)絡(luò)空間安全學(xué)院,福建 福州 350117;2.數(shù)字福建大數(shù)據(jù)安全技術(shù)研究所,福建 福州 350117;3.福建省公共服務(wù)大數(shù)據(jù)挖掘與應(yīng)用工程技術(shù)研究中心,福建 福州 350117)
深度人臉偽造是指利用深度學(xué)習(xí)技術(shù)對人臉圖像進行篡改偽造,根據(jù)李旭嶸等[1]和王任穎等[2]的綜述,深度偽造技術(shù)可以分為人臉交換和面部重演.由于生成對抗網(wǎng)絡(luò)技術(shù)的發(fā)展,生成的人臉圖像越來越逼真,肉眼難以分辨,如圖1.該技術(shù)的使用門檻極低,人們很容易使用這項技術(shù)對圖像和視頻進行篡改,導(dǎo)致了深度人臉偽造技術(shù)的濫用.2017年,一名用戶將色情視頻女主角的臉替換成某女明星的臉并發(fā)布在Reddit社交平臺;2018年,BuzzFeed發(fā)布了奧巴馬的deepfake演講;2019年,國內(nèi)的“ZAO” APP利用該項技術(shù)進行AI換臉供大眾娛樂,后來因為侵犯隱私等原因被下架[3].如果任由此類視頻在互聯(lián)網(wǎng)上傳播,將會產(chǎn)生輿論失控和信任危機等諸多問題,因此,迫切需要高效的深度人臉偽造檢測方法.
圖1 不同篡改方法的樣例
為了解決深度人臉偽造帶來的問題,近年來,研究人員不斷致力于開發(fā)各種檢測方法來識別偽造視頻和圖像.Fridrich等[4]利用手工提取的隱寫特征和SVM進行檢測.Cozzolino等[5]在手工提取的隱寫特征的基礎(chǔ)上結(jié)合CNN分類網(wǎng)絡(luò)進行檢測.Bayar等[6]則使用帶約束卷積的網(wǎng)絡(luò)進行檢測.Rahmouni等[7]使用帶最大池化的不同CNN網(wǎng)絡(luò)來計算均值、方差、最大值和最小值4種統(tǒng)計量進行檢測.此類主要基于傳統(tǒng)方法的檢測精度都較差.為了獲得更準(zhǔn)確、更高效的深度人臉偽造檢測模型,R?ssler等[8]使用MesoNet網(wǎng)絡(luò)[9]和帶可分離卷積的Xception網(wǎng)絡(luò)[10]來檢測視頻中的人臉篡改.Yang等[11]利用多尺度的紋理差異信息進行檢測.Li等[12]通過顯示圖片中是否存在偽造邊界的方法進行深度偽造檢測.Masi等[13]使用雙分支模型進行深度偽造檢測.Liu等[14]利用真實人臉和偽造人臉之間在相位譜中的差異,結(jié)合深度學(xué)習(xí)進行篡改檢測.上述利用深度學(xué)習(xí)技術(shù)的方法可以實現(xiàn)更佳的檢測性能.為了進一步提升人臉偽造檢測的效果,本文利用紋理和注意力機制進行檢測.
2019年,Zhang等[15]發(fā)現(xiàn)深度偽造過程中的上采樣操作會產(chǎn)生偽影,可以被網(wǎng)絡(luò)捕捉并識別真假,并且偽影和區(qū)域不一致性在紋理信息中更顯著.Liu等[16]研究發(fā)現(xiàn)原圖和對抗網(wǎng)絡(luò)生成的人臉圖像之間紋理信息統(tǒng)計存在較大差異.基于上述發(fā)現(xiàn),本文提出基于紋理增強和注意力機制的方法進行深度偽造檢測.首先,為了提取包含豐富偽影的特征,引入圖像分解技術(shù)提取圖像的紋理部分.其次,結(jié)合注意力機制增強紋理信息,然后與相應(yīng)的圖像信息進行融合達(dá)到紋理增強的目的.為了消除網(wǎng)絡(luò)中的噪聲等無用信息的影響,在網(wǎng)絡(luò)結(jié)構(gòu)中設(shè)計了一個多注意力機制,讓網(wǎng)絡(luò)關(guān)注更加重要的部分,最后使用一個二分類器對網(wǎng)絡(luò)提取的特征進行真假分類.為了證明本方法的有效性,進行了大量對比實驗和消融實驗,結(jié)果表明,本文設(shè)計的各個模塊都可以提高深度人臉偽造檢測性能,并且優(yōu)于其他檢測方法.
本節(jié)提出了一個基于紋理增強和注意力的網(wǎng)絡(luò)結(jié)構(gòu),主要包含3個部分:圖像分解模塊(IDM)、注意力引導(dǎo)紋理增強模塊(AGTE)和多注意力模塊(MAM).
所提算法的總體流程如圖2所示,If表示輸入圖像,大小為H1×W1×C1。其中,C1是通道數(shù),H1和W1分別表示高度和寬度.然后,利用圖像分解技術(shù)獲得輸入圖像If的紋理信息It,大小為H1×W1×C1,其中包含豐富的偽影信息可用于深度人臉偽造檢測.再將紋理信息輸入AGTE模塊,通過注意力塊獲得注意力圖A用于指導(dǎo)紋理增強,與相應(yīng)的空間域信息融合作為主干網(wǎng)絡(luò)的輸入.對于主干網(wǎng)絡(luò)初期的特征圖,應(yīng)用MAM強迫網(wǎng)絡(luò)專注于更重要的人臉區(qū)域,從而提取出更具代表性的特征.最終提取語義特征g用于分類.
圖2 基于紋理和注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)圖
在深度偽造檢測領(lǐng)域,紋理特征的差異對檢測具有重要意義.為了獲取紋理信息,將圖像分解算法引入深度偽造檢測領(lǐng)域.通過圖像分解技術(shù),可以將圖像If分解為內(nèi)容部分Ic和紋理部分It,如下式:
If=It+Ic.
(1)
本文采用非凸低秩紋理正則化方法[17]對圖像進行分解,該方法通過最小化問題(2),同時考慮了紋理分量It的自相似性和內(nèi)容分量Ic的分段光滑性.
(2)
其中,α和β為平滑參數(shù),Φt和Φc分別表示紋理分量和內(nèi)容分量的正則化項,其表示如下:
(3)
為了解決問題(2),引入交替方向乘子法(ADMM),得到分離后的2個子問題.
對于Ic子問題:
(4)
對于It子問題:
(5)
采用交替迭代法求解上述2個子問題(4)和(5),如圖3.首先輸入人臉圖像If,設(shè)置超參數(shù)α、β,迭代次數(shù)MaxIt設(shè)為50,每次循環(huán)依次優(yōu)化公式(4)和(5),最小化內(nèi)容部分Ic和紋理部分It,最后根據(jù)公式(1)得到人臉圖像的紋理分量.流程見算法1.
算法1:圖像分解算法輸入人臉圖像If步驟1:設(shè)置參數(shù)α、β,初始化k=0,MaxIt=50步驟2:循環(huán)步驟3:優(yōu)化公式(4)步驟4:優(yōu)化公式(5)步驟5:k = k + 1步驟6:判斷循環(huán)終止條件:k = MaxIt步驟7:根據(jù)公式(1)輸出人臉圖像的紋理部分It
圖3 圖像分解示意圖
真實人臉和偽造人臉之間的紋理有很大的差異,但是用肉眼難以分辨紋理差異,因此對輸入圖像的紋理信息進行增強.將紋理部分It輸入到注意力塊中,獲得像素級紋理增強的權(quán)重注意力圖A,用于引導(dǎo)紋理增強,其大小為H1×W1×1.如圖4所示,設(shè)計的注意力塊是一個輕量級的模塊,包含2個卷積層、2個批歸一化層和1個Sigmoid非線性激活函數(shù)層.本實驗紋理增強只對圖像的紋理信息增強,因此,根據(jù)公式(6)將紋理信息和空域信息進行直接融合,從而達(dá)到紋理增強的目的.
圖4 注意力塊結(jié)構(gòu)組成
Im=If+A×It,
(6)
其中,Im表示融合后的圖像信息.
1.4 多注意力模塊(MAM)
為了讓網(wǎng)絡(luò)學(xué)習(xí)更重要的臉部區(qū)域.本方法設(shè)計了一個多注意力模塊,流程如圖5.其中,網(wǎng)絡(luò)中輸出的特征圖X大小為H2×W2×C2.通過一個多注意力塊,獲得k張注意力圖M,大小為H2×W2×k,Mi表示第i張注意力圖,該注意力塊的組成如圖4.采用一個在像素級取最大值的操作將多張?zhí)卣鲌D融合為1張最顯著的特征圖M′.
圖5 多注意力模塊
M′(x,y)=max{M1(x,y),M2(x,y),…,Mk(x,y)},
(7)
其中,1≤x≤W2,1≤y≤H2.X和M′之間進行一個乘法操作,得到輸出X′.通過對特征圖賦予不同的權(quán)重,使網(wǎng)絡(luò)傾向于學(xué)習(xí)更重要的區(qū)域.將得到的X′作為后續(xù)網(wǎng)絡(luò)的輸入以提取全局表示g,最后通過由全連接層組成的分類器進行分類,由交叉熵?fù)p失進行監(jiān)督.
深度人臉偽造檢測中應(yīng)用最廣泛的是在FaceForensics++(FF++)[8]數(shù)據(jù)集上進行測試.它包含1 000個真視頻和4 000個篡改視頻.采用了4種篡改方法的子數(shù)據(jù)集,包括Deepfakes、Face2Face、FaceSwap和NeuralTextures.每種篡改方法代表FF++中1個子數(shù)據(jù)集,包含1 000個假視頻.此外,F(xiàn)F++數(shù)據(jù)集有3種不同壓縮率版本,即低質(zhì)量版本LQ、高質(zhì)量版本HQ和無損版本RAW.本文遵循Rossler等[8]的數(shù)據(jù)劃分,720個視頻用于訓(xùn)練,140個視頻用于驗證,140個視頻用于測試.采用準(zhǔn)確率(ACC)和RoC曲線下面積(AUC)作為實驗對比的評價指標(biāo),并取驗證集上最佳的模型用于測試.分別進行了單個篡改方法數(shù)據(jù)集和混合4種篡改方法數(shù)據(jù)集的實驗,與多種檢測算法進行對比.
圖像預(yù)處理上利用dlib[18]提取視頻中的人臉圖像作為網(wǎng)絡(luò)的輸入,大小為299×299.使用在ImageNet[19]上預(yù)訓(xùn)練好的Xception網(wǎng)絡(luò)[10]作為主干網(wǎng)絡(luò),根據(jù)實驗經(jīng)驗數(shù)據(jù),IDM中紋理提取的超參數(shù)α和β分別設(shè)為0.000 4和0.005 0實驗效果最好,MAM中的注意圖k的數(shù)量設(shè)為3,batch size設(shè)為32,選擇Adam優(yōu)化器,學(xué)習(xí)率為1e-4,訓(xùn)練30輪,每5輪學(xué)習(xí)率衰減為原來的0.9.
為了驗證本模型可以檢測不同的深度人臉偽造,在FF++中4種篡改方法數(shù)據(jù)集上分別進行了對比實驗.使用每種篡改方法的HQ版本數(shù)據(jù)進行單獨實驗,每個視頻采樣30幀.實驗結(jié)果如表1所示,粗體表示最好結(jié)果.實驗結(jié)果表明,在大多數(shù)篡改方法數(shù)據(jù)集的檢測上,本方法優(yōu)于其他檢測方法.在Deepfake、Face2Face和FaceSwap上的準(zhǔn)確率都達(dá)99%以上,在NeuralTextures上達(dá)到95.25%.在Face2Face上,MTD-Net[11]利用了多尺度的紋理差異進行檢測,取得了最好的效果.這也進一步說明了真實人臉和篡改人臉的紋理信息差異對檢測是有效的.本方法在Deepfakes、FaceSwap和NeuralTextures篡改方法數(shù)據(jù)集上實現(xiàn)了最優(yōu)的檢測結(jié)果,證明對不同篡改方法數(shù)據(jù)集的有效性.
表1 在4種不同篡改方法數(shù)據(jù)集上的準(zhǔn)確率對比實驗結(jié)果
本文還在FF++中不同壓縮率版本的混合篡改方法數(shù)據(jù)集上進行了實驗.具體來說,在包含4種篡改方法的高質(zhì)量版本HQ和低質(zhì)量版本LQ的數(shù)據(jù)集上進行實驗.為了保證真假類別標(biāo)簽的平衡,在原始視頻上取40幀,篡改視頻取10幀.實驗結(jié)果如表2所示.本文在HQ和LQ上的檢測準(zhǔn)確率分別達(dá)到95.83%和84.23%,在低質(zhì)量版本上相較于次優(yōu)的SPSL算法[14],檢測準(zhǔn)確率提高了2.66%.在AUC指標(biāo)上,本方法在HQ和LQ上的準(zhǔn)確率分別達(dá)到了99.11%和91.86%,同次優(yōu)的方法Two-Branch[13]相比,在低質(zhì)量版本上提升了5.27%,在高質(zhì)量版本上提升了0.41%.本方法在HQ和LQ上都取得了最好的性能,進一步證明了在混合篡改方法數(shù)據(jù)集上優(yōu)秀的檢測能力.
表2 混合篡改方法數(shù)據(jù)集在不同壓縮率版本上的對比實驗結(jié)果
2.4.1 紋理信息的有效性
根據(jù)公式(1),圖像由紋理成分和內(nèi)容成分組成.因此,為了驗證紋理成分在檢測中的作用,使用不同成分在混合4種篡改方法的HQ和LQ版本上進行實驗.設(shè)置如下:(1)只使用圖像的內(nèi)容成分進行訓(xùn)練;(2)僅使用圖像的紋理成分進行訓(xùn)練;(3)使用人臉圖像進行訓(xùn)練,其中包括內(nèi)容成分和紋理成分.
此實驗所用的模型沒有應(yīng)用AGTE模塊,因為該模塊是為融合紋理信息和空間信息而設(shè)計的.然而,消融實驗中僅使用了兩種成分中的一種.實驗結(jié)果如表3所示.與僅使用內(nèi)容成分(表3第1行)相比,使用人臉圖像訓(xùn)練(表3第3行)在HQ和LQ上都有更好的效果.證明了紋理信息對深度偽造檢測具有輔助作用,說明通過紋理增強來提高模型的檢測能力是可行的.然而,僅使用紋理成分進行訓(xùn)練(表3第2行),HQ的準(zhǔn)確率僅為72.31%,LQ的準(zhǔn)確率為63.73%.而僅使用內(nèi)容部分進行訓(xùn)練,在HQ上準(zhǔn)確率達(dá)到95.09%,LQ上達(dá)到83.16%.這是因為內(nèi)容部分包含了豐富的空間信息,這有利于網(wǎng)絡(luò)學(xué)習(xí)更具判別性的特征.因此,本文通過結(jié)合內(nèi)容成分和紋理成分進行深度人臉偽造檢測的模型設(shè)計.
表3 不同數(shù)據(jù)成分在FF++全數(shù)據(jù)集上的消融實驗結(jié)果
2.4.2 設(shè)計模塊的有效性
為了確認(rèn)AGTE和MAM的有效性,在HQ版本的混合篡改方法的數(shù)據(jù)集上進行了消融實驗.結(jié)果如表4所示.基線在HQ上準(zhǔn)確率為95.25%.當(dāng)分別應(yīng)用AGTE和MAM模塊時,準(zhǔn)確率提升到95.56%和95.41%.與基線相比,檢測準(zhǔn)確率都有提升,這證明了AGTE和MAM模塊的有效性.應(yīng)用所有模塊時,準(zhǔn)確率達(dá)到95.83%,優(yōu)于只應(yīng)用AGTE模塊或MAM模塊的實驗結(jié)果,進一步證明了MAM和AGTE模塊的有效性.
表4 不同模塊的消融實驗結(jié)果
2.4.3 多注意力圖數(shù)量k的影響以及可視化
為了研究不同數(shù)量的注意力圖對網(wǎng)絡(luò)的影響,對不同數(shù)量k的注意力圖在HQ版本上進行了消融實驗.實驗結(jié)果如表5所示,發(fā)現(xiàn)k=3時性能最好.圖6對網(wǎng)絡(luò)中的注意力圖進行了可視化.圖6第2行是AGTE模塊中注意力圖A的可視化結(jié)果,可知AGTE模塊更加關(guān)注面部區(qū)域,并通過注意機制學(xué)習(xí)紋理增強的權(quán)值,使AGTE模塊可以自適應(yīng)地增強紋理.圖6第3行表示MAM中在像素級取最大值的操作后的注意力圖M′.可以觀察到,它們都更注重面部區(qū)域,因為面部是深度人臉偽造的主要篡改區(qū)域.
表5 不同注意力圖數(shù)量k對模型的影響
圖6 注意力圖可視化
本研究從真臉和篡改人臉之間的紋理信息出發(fā),通過增強紋理獲取更多的偽影信息,從而實現(xiàn)更佳的檢測性能.具體來說,本研究將圖像分解方法引入到深度人臉偽造檢測任務(wù)中,并提出了一種基于紋理和注意力機制的深度人臉偽造檢測網(wǎng)絡(luò).該網(wǎng)絡(luò)由注意力引導(dǎo)紋理增強模塊和多注意力模塊組成.實驗表明,本方法在不同篡改方法數(shù)據(jù)集上的檢測準(zhǔn)確率都較高,但該方法還存在不足,比如泛化性和魯棒性不強.現(xiàn)有方法的泛化能力都比較弱,即只對單一數(shù)據(jù)集有較好的結(jié)果,當(dāng)檢測其他未見過的數(shù)據(jù)集時,檢測準(zhǔn)確率急劇下降.在魯棒性方面,當(dāng)模型檢測高度壓縮的圖片或視頻時,檢測準(zhǔn)確率較低.未來要著力提升現(xiàn)有模型的泛化性和魯棒性.