左 邦
(安徽理工大學計算機科學與工程學院,安徽 淮南 232001)
隨著深度偽造技術(shù)的快速發(fā)展,各種算法被提出用于生成逼真的人臉圖像以及視頻,這些多媒體內(nèi)容能夠讓人眼或人臉識別系統(tǒng)無法分辨,因此極有可能被濫用于非道德和惡意的用途,比如進行政治宣傳、生成虛假新聞以及電信欺詐等等。給民眾和社會帶來巨大的惡劣影響?;谠摫尘?人臉偽造檢測已成為多媒體信息安全領(lǐng)域的研究者的研究熱點。
出于安全方面的考慮,最近幾年有一系列的深度偽造檢測算法被提出。這些方法通?;诰矸e神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)并在數(shù)據(jù)集內(nèi)取得了有效的檢測精度。但是當這些已訓練的方法在其他數(shù)據(jù)集上的測試精度會大幅下降。這是因為這些基于CNN的方法通過學習局部紋理信息來分辨?zhèn)卧烀襟w內(nèi)容,然而不同數(shù)據(jù)集樣本之間的局部紋理偽造信息具有差異性,不足以作為深度偽造泛化性檢測的依據(jù)[1]。
盡管深度偽造媒體復雜多樣,但是它們都面臨一個問題:局部紋理部分正常但全局視野下則扭曲異常。比如,偽造圖像中會出現(xiàn)不能匹配的面部表情,非正常的頭部姿態(tài),異常的顏色或光照等全局視野下的偽造痕跡。因此,需要根據(jù)全局語義確定局部偽造區(qū)域,并在空域中建立長距離依賴關(guān)系以此向網(wǎng)絡提供全局偽造信息。
近期研究表明,基于vision transformer (ViT)[2]網(wǎng)絡結(jié)構(gòu)的模型在很多視覺任務中取得了優(yōu)異的指標。ViT利用一種其固有的多頭注意力機制作用于一系列圖像分塊,有效拓寬了網(wǎng)絡的感受野,從而有利于全局信息的捕獲。因此,可以應用transformer來解決圖像中長距離依賴關(guān)系建模困難的問題。因此基于多頭注意力機制并應用transformer模塊,設(shè)計一種多層次transformer網(wǎng)絡,通過構(gòu)建長距離依賴關(guān)系提升網(wǎng)絡全局信息獲取能力,從而有利于獲取更多具備泛化性的全局偽造模式用于深度偽造泛化性檢測。
此外,為了減半輸入特征的空間尺寸并加倍特征的維數(shù),結(jié)合MBConv[3]設(shè)計了一種下采樣模塊(Downsample Module, DM),其中MBConv融合了通道注意力機制[4],通過特征圖通道層面篩選出模型感興趣的偽造區(qū)域,達到偽造特征精煉的效果。
由于偽造數(shù)據(jù)集中存在較小尺寸的偽造人臉,在經(jīng)過多個層次網(wǎng)絡會有大量有效的偽造信息丟失的問題,因此采用多層次特征增強策略(Multi-Layer Feature Enhance Strategy, MLFE),通過基于ImageNet[5]上預先訓練的ConvNeXt[6]增強檢測網(wǎng)絡的空間感知局部能力,從而改善網(wǎng)絡不同層次的表征能力。
因此,針對以上的分析提出了一種基于全局視野多層次特征增強的人臉偽造檢測模型。該模型使用基于transformer的網(wǎng)絡作為骨干模型,通過對輸入一系列的圖像塊構(gòu)建長距離依賴關(guān)系解決網(wǎng)絡提取全局偽造特征,從而提升算法的泛化性檢測能力;其次,結(jié)合所設(shè)計的DM模塊對特征圖進行下采樣,進一步精煉所提取的篡改痕跡并形成多層次網(wǎng)絡結(jié)構(gòu)。最后,采用MLFE策略提升網(wǎng)絡的空間感知局部能力以應對數(shù)據(jù)集中小尺寸篡改人臉的檢測精度。結(jié)合以上的三種設(shè)計思路來最大限度地提升模型對于未知類型深度偽造媒體內(nèi)容的泛化性檢測水平。
絕大多數(shù)的人臉偽造檢測方法從空域中提取細微的篡改痕跡。早期的檢測方法通過媒體內(nèi)在的統(tǒng)計規(guī)律或者人工構(gòu)造特征對空域篡改特征的建模[7-8]。隨著深度學習的興起,有研究工作[9]訓練CNN架構(gòu)的模型從偽造輸入中尋找可區(qū)分性的篡改特征。近幾年,一些工作開始關(guān)注檢測器的泛化能力,如跨越數(shù)據(jù)集評估其測試性能。Face X-ray[10]使用CNN模型來檢測偽造人臉的混合邊界來提升偽造人臉檢測器泛化性能。Patch-DFD[11]則將人臉部位劃分固定的幾個區(qū)域分別使用CNN模型進行檢測。這些方法通過基于CNN的模型取得了優(yōu)越的檢測性能,然而CNN模型的局限性使得檢測器泛化性能的進一步提升受到限制。
基于CNN結(jié)構(gòu)的模型利用局部感受野,參數(shù)共享以及空域下采樣機制對于局部特征的學習比較擅長,但是它由于感受野尺寸限制而無法獲取圖像的全局信息。相反,基于自注意力機制的transformer架構(gòu)對全局關(guān)系以及長距離特征依賴的良好建模,使得網(wǎng)絡提取全局偽造痕跡特征成為可能。對于人臉檢測領(lǐng)域,早期基于CNN架構(gòu)的檢測模型由于感受野尺寸限制而無法獲取全局篡改模式。最近一段時間,FTCN[12]使用transformer架構(gòu)來探究時空域不連續(xù)的偽造信息。M2TR[13]和LiSiam[14]進一步將transformer架構(gòu)和CNN架構(gòu)相結(jié)合,從而將特征塊中建立全局關(guān)系以及獲取局部偽造痕跡兩個方面優(yōu)勢互補,促使模型捕獲更多的細微偽造特征用于泛化性檢測。
全局視野多層次特征增強的人臉偽造檢測方法分別由基于transformer架構(gòu)的骨干模型(Base),不同層級進行下采樣特征精煉的Downsample模塊(DM)以及結(jié)合ConvNeXt網(wǎng)絡構(gòu)建的多層次特征增強策略(MLFE)構(gòu)成。如圖1所示。
圖1 模型總體設(shè)計
由于局部紋理偽造特征因為不同數(shù)據(jù)集而呈現(xiàn)不同差異,而全局偽造模式,如不協(xié)調(diào)的嘴形,真實與偽造區(qū)域之間的光照,色彩與紋理等全局偽造痕跡相對于局部特征更具有泛化性。因此,使用基于transformer模塊的Base網(wǎng)絡能夠發(fā)揮基于CNN網(wǎng)絡不具備的對圖像分塊構(gòu)建長距離依賴關(guān)系能力,從而捕獲偽造圖像中的全局偽造特征。首先將輸入圖像通過MTCNN[15]網(wǎng)絡裁剪人臉,排除掉其他冗余的干擾區(qū)域。此時得到人臉圖像I∈H×W×C,作為Base輸入。Base網(wǎng)絡由多個結(jié)構(gòu)相同的transformer塊構(gòu)建,其中transformer塊包含多頭注意力機制(MSA),多層感知機(MLP)和Layer歸一化(LN),MSA機制如圖2所示。輸入圖像經(jīng)過分塊操作后得到x∈N×D,N表示圖像被切分的塊數(shù),D表示每個塊進行拉平并通過線性層MLP投射得到的向量維數(shù)。因此,MSA結(jié)合M注意力頭部數(shù)的公式描述:
Q=xWq,K=xWk,V=xWv
(1)
(2)
z=cat(z1,…,zM)Wo
(3)
其中σ(·)表示softmax函數(shù),d表示D/M,是每個頭部的維數(shù)。Qm,Km,Vm∈N×D分別表示嵌入向量Query,Key以及Value。Wa,Wk,Wv,Wo∈D×D分別是MLP的參數(shù)。MSA的輸出被LN層進行歸一化得到嵌入向量,并輸入到MLP中進行域映射,MLP層包含有兩個線性層以及一個GELU非線性激活層。MLP產(chǎn)生的輸出作為下一個transformer塊的輸入。
借助transformer結(jié)構(gòu)中的多頭注意力機制對偽造圖像塊建模長距離依賴關(guān)系,從而使得Base網(wǎng)絡能夠捕獲具有泛化性的全局特征。
圖2 MSA機制
Base網(wǎng)絡不同層之間需要對輸入特征進行下采樣操作,從而去除冗余信息得到偽造語義特征。從CNN模型中的借鑒空間域收縮理論,通過減少維度的同時強制施加局部偏置以及跨通道交互,因此設(shè)計了一種下采樣模塊(DM),如圖3所示。它包含有一個MBConv模塊,一個3×3,步長為2的卷積算子以及一個Layer歸一化層。其中MBConv模塊和文獻[3]類似:
(4)
其中SE,GELU,DWConv3×3分別指通道注意力機制,高斯誤差線性單元以及深度可分離卷積。MBConv在這個下采樣模塊設(shè)計中提供了歸納偏置以及多通道依賴的特性,從而將CNN模型的優(yōu)勢結(jié)合起來為偽造特征提取提供有利條件。
圖3 MLFE策略
針對數(shù)據(jù)集中存在小尺寸的偽造人臉,在Base網(wǎng)絡提取關(guān)鍵偽造特征時丟失了一些紋理信息后,人臉圖像存留的關(guān)鍵信息較少使得Base網(wǎng)絡容易產(chǎn)生誤判的問題。借鑒CNN模型對于獲取局部紋理信息能力強于基于transformer架構(gòu)的Base網(wǎng)絡,借助ResNet的改進版本ConvNeXt網(wǎng)絡[6]設(shè)計了多層次特征增強策略MLFE。Base網(wǎng)絡與ConvNeXt網(wǎng)絡被劃分為4個階段,將圖像I∈H×W×C分別輸入兩個網(wǎng)絡中,ConvNeXt網(wǎng)絡每個階段提取的偽造特征分別和Base網(wǎng)絡對應階段特征進行相加操作,從而改善了提取的小尺寸人臉在正向傳播過程中的信息減益問題,使得Base網(wǎng)絡提取的特征得到了增幅。其中ConvNeXt網(wǎng)絡如圖3所示。
1)相關(guān)數(shù)據(jù)集介紹:實驗用到的數(shù)據(jù)集分別是常見并且公開的FaceForensics++(FF++)和CelebDF數(shù)據(jù)集。FF++數(shù)據(jù)集中包含有1000個原始視頻以及由四種不同偽造手法:Deepfakes(DF),FaceSwap(FS),Face2Face(F2F)和NeuralTexture(NT)得到的共4000個偽造視頻。并對這些視頻進行了3中級別的壓縮:Raw(無壓縮),c23(高質(zhì)量)以及c40(低質(zhì)量)。其中c23版本作為實驗對象。所有視頻按照官方預定的劃分比例750:150:150,分別為訓練集,驗證集以及測試集。而CelebDF數(shù)據(jù)集包含有590個真實視頻以及5639個偽造視頻。我們按照官方預設(shè)的測試集列表作為實驗中跨越數(shù)據(jù)集驗證對象。
2)模型實現(xiàn)細節(jié):實驗中使用PyTorch框架。MLFE策略所使用的ConvNeXt網(wǎng)絡在ImageNet-1K上預先訓練。使用了Adam優(yōu)化器,其中學習率為2e-5且權(quán)重衰減系數(shù)為1e-5。輸入人臉是由MTCNN網(wǎng)絡對視頻進行截取幀裁剪得到的,尺寸為224×224×3,批量大小為8,迭代25個輪次。
3)實驗使用測試指標:準確率ACC以及ROC曲線下面積AUC。
將所提出的方法和當前的深度偽造檢測方法在FF++數(shù)據(jù)集上進行比較,實驗結(jié)果如表1所示,與同類方法相比,所提出方法能夠達到先進水平的檢測精度。本方法在AUC指標上遠遠超過ADT,達到了98.34%,雖然ACC相差不多,但說明了所提出方法相比于ADT有較高的準確性和穩(wěn)定性。此外,所提出方法均高于其他三種方法,尤其是基準模型Xception。但由于模型缺乏對偽造圖像提供掩碼并進行解碼進而增強模型對于偽造區(qū)域定位的精確性,因此數(shù)據(jù)集內(nèi)的準確率相對于M2TR稍有落后??傮w而言,在檢測偽造人臉方面達到了先進水平。
因為目前的大多數(shù)檢測方法能夠在單個數(shù)據(jù)集內(nèi)取得優(yōu)異的檢測精度,但是往往無法對未知類型的偽造內(nèi)容提供有效的檢測結(jié)果,因此關(guān)于人臉偽造檢測方法跨越數(shù)據(jù)集檢測泛化能力得到了研究者的關(guān)注。將FF++數(shù)據(jù)集上訓練的檢測方法和所提出方法進行了跨越數(shù)據(jù)集檢測能力的對比實驗,如表2所示。相比于表中所列舉的模型測試結(jié)果,所提出方法在跨越數(shù)據(jù)集檢測的AUC得分均高于其他方法,達到了74.12%,體現(xiàn)了檢測能力的優(yōu)越性。
表1 與同類方法在FF++(c23)上的比較結(jié)果
表2 與同類方法在CelebDF上的泛化性AUC得分結(jié)果比較
為了探究所提出模型中骨干網(wǎng)絡,DM模塊以及MLFE策略對于檢測性能的貢獻,對所提出模型進行修改,分別得到兩個子模型和所提出方法本身,并將分別在FF++數(shù)據(jù)集上訓練,CelebDF上進行測試得到AUC結(jié)果,如表3所示??梢钥吹?借助骨干網(wǎng)絡,通過對偽造圖像的長距離關(guān)系建模,從而捕獲具有泛化性的全局特征。實驗中AUC得分取得了69.71%,說明了這一點。借助DM模塊,將每一個層次網(wǎng)絡提取特征進行精煉,迫使網(wǎng)絡提升感知偽造區(qū)域能力進而將AUC得分提升到72.43%。為了解決樣本中存在小尺寸偽造人臉檢測難度大的問題,提出了MLFE策略,通過提升骨干網(wǎng)絡每個層次的空間局部感知能力,進而提升網(wǎng)絡對于小尺寸偽造人臉檢測能力,實驗中CelebDF數(shù)據(jù)集檢測得分74.12%證明了這一點。
表3 所提出方法消融研究的AUC得分比較結(jié)果
提出的這種基于全局視野的多層次檢測網(wǎng)絡。通過基于transformer架構(gòu)的骨干網(wǎng)絡對偽造圖像塊之間的長距離依賴關(guān)系進行建模,從而提取全局性偽造特征,有利于提升檢測模型對于未知類型偽造內(nèi)容檢測能力。并借助DM模塊,對骨干網(wǎng)絡不同層次提取的特征進行精煉,去除冗余干擾信息進而提升網(wǎng)絡的偽造區(qū)域定位能力。最后為了解決數(shù)據(jù)集中存有的小尺寸偽造人臉檢測不精確的問題,提出了MLFE策略,通過對網(wǎng)絡各個層次進行空間局部區(qū)域感知能力增強進而提升模型的偽造檢測性能。在數(shù)據(jù)集內(nèi)以及跨越數(shù)據(jù)集檢測實驗中驗證了所提出方法的有效性。此外,對模型的消融實驗驗證了各個模塊對于模型檢測精度的貢獻。