賴志茂,章 云,李 東
(1.廣東工業(yè)大學(xué) 自動化學(xué)院, 廣東 廣州 510006;2.中國人民警察大學(xué) 移民管理學(xué)院(廣州) , 廣東 廣州 510663)
隨著生成式人工智能和深度學(xué)習(xí)技術(shù)的快速發(fā)展,生成極具真實感的偽造人臉圖像與視頻變得越來越容易。然而,大眾依然普遍持有“眼見為實”的理念,相關(guān)偽造視頻無疑對當(dāng)今社會的信任體系造成了極大的沖擊。2017年,一個名為“Deepfake”的Reddit社交網(wǎng)站用戶,在社交網(wǎng)站上發(fā)布了蓋爾·加朵等女明星“換臉”視頻,標志著人臉深度偽造技術(shù)的興起,此后“Deepfake”和“換臉”也被引用成為了該技術(shù)的代名詞[1]。在俄烏沖突過程中,假冒烏克蘭總統(tǒng)澤連斯基的投降片段和偽造俄羅斯總統(tǒng)普京的緊急講話視頻,引發(fā)了民眾的恐慌情緒。此外,一些不法分子利用智能AI換臉和擬聲技術(shù)實施電信詐騙的新騙局走入了公共視野,引起社會多方重視。為應(yīng)對深度偽造技術(shù)帶來的社會風(fēng)險和挑戰(zhàn),越來越多的研究團隊開展人臉深度偽造檢測技術(shù)研究。
早期的檢測技術(shù)主要以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs) 為基礎(chǔ)[2-12],提取人臉區(qū)域作為輸入,基于生成過程中引入的偽造痕跡信息,從空域、頻域、時域等多個維度中學(xué)習(xí)到有關(guān)偽造痕跡的特征進行二分類(真/假)判別,達到人臉圖像和視頻真?zhèn)舞b別的目的。受限于卷積神經(jīng)網(wǎng)絡(luò)感受野的大小和特征交互學(xué)習(xí)能力弱,基于卷積神經(jīng)網(wǎng)絡(luò)的檢測技術(shù)提取到的人臉偽造特征往往更為局部和單一,難以考慮到圖像中全局像素之間的關(guān)系和視頻中的時序關(guān)聯(lián)[13-15],模型泛化能力不足。
為了提高人臉深度偽造檢測技術(shù)的泛化性,最新的研究工作開始引入一種基于自注意力機制的神經(jīng)網(wǎng)絡(luò)Transformer[16-19]。相對于CNNs模型,Transformer模型在人臉深度偽造檢測任務(wù)上具有以下4個特點:(1) Transformer模型利用自注意力機制來捕捉輸入數(shù)據(jù)中的長距離依賴關(guān)系。這使得它能夠更好地理解輸入數(shù)據(jù)之間的關(guān)聯(lián),這對于檢測深度偽造非常重要,因為偽造可能涉及到遠距離的上下文信息。相比之下,CNNs主要用于捕捉局部特征,而較難捕捉全局信息。(2) 深度偽造檢測可以被看作是一個序列到序列問題,其中輸入序列是視頻幀或圖像,輸出序列是二元標簽(真實或偽造) 。Transformer在序列建模任務(wù)中表現(xiàn)出色,因為它非常適用于處理可變長度的輸入序列。CNNs通常需要固定大小的輸入,因此在處理可變序列時可能需要額外的預(yù)處理步驟。(3) Transformer模型已經(jīng)在大規(guī)模的文本數(shù)據(jù)上進行了預(yù)訓(xùn)練,然后可以遷移到視覺任務(wù)上。這種遷移學(xué)習(xí)使得Transformer能夠受益于大規(guī)模的多模態(tài)數(shù)據(jù),從而提高泛化能力。CNNs通常需要在特定的圖像數(shù)據(jù)集上進行訓(xùn)練,泛化能力較弱。(4) 深度偽造技術(shù)可能涉及對抗性攻擊,其中偽造者試圖使檢測器產(chǎn)生錯誤的結(jié)果。Transformer模型通常對對抗性攻擊更加抵抗,因為它們在訓(xùn)練時包含了更多的數(shù)據(jù)多樣性和復(fù)雜性,從而更難受到攻擊。
到目前為止還沒有文獻對基于Transformer的人臉深度偽造檢測技術(shù)進行全面的分析和總結(jié)。鑒于此, 本文首先簡要介紹了該領(lǐng)域研究背景,闡述了人臉深度偽造生成典型技術(shù),然后對現(xiàn)有基于Transformer的檢測技術(shù)進行總結(jié)和歸納,最后探討人臉深度偽造檢測技術(shù)面臨的挑戰(zhàn)和未來研究方向。本文對如何設(shè)計具有良好泛化性能的人臉深度偽造檢測技術(shù)有重要借鑒意義。
現(xiàn)有的人臉深度偽造生成技術(shù)大致可分為以下4種類型:人臉生成、人臉交換、局部偽造和人臉重現(xiàn)。其中,人臉交換和人臉重現(xiàn)是目前深度偽造方向上最流行的方法。
人臉交換可以實現(xiàn)讓原始人物出現(xiàn)在他/她從來沒有出現(xiàn)過的場景中,需要提供一組原始人臉和目標人臉作為訓(xùn)練數(shù)據(jù)進行偽造。典型技術(shù)包括Deepfake[20]、FaceSwap[21]等。Deepfake基本原理如圖1所示,圖中原始視頻和目標視頻選自公開數(shù)據(jù)集Faceforensics++[2]。Deepfake技術(shù)需要先提取源視頻中的人臉以及目標視頻中的人臉,并對提取到的人臉進行裁剪和對齊,如調(diào)整統(tǒng)一大小。在訓(xùn)練編解碼器階段,使用原始人臉A和目標人臉B作為訓(xùn)練數(shù)據(jù),訓(xùn)練一個權(quán)值共享的編碼器,用于提取A和B的共有面部屬性;隨后,A和B各自訓(xùn)練一個獨立的解碼器分別學(xué)習(xí)A和B特有的面部信息,完成對應(yīng)人臉重構(gòu)。在測試生成階段,待A和B的編解碼器訓(xùn)練好后,為了實現(xiàn)原始人臉A和目標人臉B之間的人臉交換,首先利用編碼器對B進行面部屬性編碼,接著用A的解碼器對B的面部屬性編碼特征進行解碼重構(gòu)人臉,生成具有人臉A外貌特征同時保留人臉B面部表情動作的深度偽造人臉。延續(xù)類似的思路,研究者提出和發(fā)展了更多的人臉交換方法,如FaceShifter[22]、SimSwap[23]等,使得生成的偽造人臉質(zhì)量大幅提高。
人臉重現(xiàn)是利用目標人臉的姿態(tài)和表情來驅(qū)動源人臉,使修改后的人臉保留目標人臉的長相和原始人臉的表情與姿態(tài)。典型技術(shù)包括Face2Face[24]和FsGAN[25]等。Face2Face是由Thies等提出的一種基于經(jīng)典計算機圖形學(xué)進行人臉重現(xiàn)的技術(shù)[24]。它能夠在保持身份信息不變的情況下將源人臉的表情轉(zhuǎn)移到目標人臉,并可以使目標視頻人臉實時模仿口型和表情。首先通過攝像頭實時捕獲源人臉視頻作為源序列幀,并利用密集的光照一致性特征來實時跟蹤源和目標視頻的面部表情,分別生成對應(yīng)的面部表情掩碼。然后,通過一種新傳遞函數(shù)在二維空間中有效地傳遞形變,從而將源人臉表情實時傳遞給目標人臉。最后,利用生成的表情轉(zhuǎn)換掩碼文件重新渲染目標人臉,在目標人臉和表情轉(zhuǎn)換掩碼融合的基礎(chǔ)上處理平滑痕跡,并進行光照強度的匹配得到最終合成的效果圖。Face2Face基本原理如圖2所示。
圖2 Face2Face基本原理框圖Fig.2 Framework of Face2Face
2.1.1 Transformer核心模塊
Transformer[16]是一種基于自注意力機制的深度神經(jīng)網(wǎng)絡(luò),首先應(yīng)用于自然語言處理(Natural Language Processing,NLP) 任務(wù),并逐漸在計算機視覺領(lǐng)域中得到廣泛應(yīng)用。Transformer核心模塊是基于編碼器和解碼器架構(gòu),而編碼器和解碼器由多個層構(gòu)成。在編碼器和解碼器的結(jié)構(gòu)中,編碼器負責(zé)提取特征,解碼器負責(zé)將提取到的特征轉(zhuǎn)化為結(jié)果。其中,編碼器由注意力層和全連接層組成。注意力機制主要能讓神經(jīng)網(wǎng)絡(luò)更聚焦于輸入中的相關(guān)信息,減少無關(guān)信息的干擾,通過權(quán)值來決定賦予輸入數(shù)據(jù)的注意力高低。同時,Transformer具有長距離依賴建模能力和更廣闊的感受野,從而更準確地提取和處理圖像特征[26]。從數(shù)學(xué)角度來分析,計算注意力可以被描述為一個查詢(Query) 到一系列鍵值對(Key-Value) 的映射。主要有以下3個步驟:
1) 對輸入序列z∈RN×d,通過線性映射矩陣UQKV將其投影得到Q、K和V三個向量,分別代表查詢向量、被查詢向量和信息向量:
2)計算查詢向量Q和被查詢向量K的點積,并添加一個縮放因子1/,得到相似性權(quán)重系數(shù)f(Q,K):
3) 利用softmax函數(shù)將相似性權(quán)重進行歸一化處理,并依據(jù)權(quán)重對信息向量進行求和得到注意力:
而多頭注意力就是通過h個不一樣的線性變換一起對輸入的Q、K、V進行投影,并進行點積注意力計算,最后再把不同的結(jié)構(gòu)拼接起來。多頭注意力計算公式如下所示:
2.1.2 視覺Transformer
ViT(Vision Transformer)[17]是在Transformer的基礎(chǔ)上修改形成,主要應(yīng)用于計算機視覺中的圖像分類,是視覺Transformer的標準架構(gòu)。ViT首先將輸入的圖像X∈RH×W×C進行分塊處理,得到N=HW/P2個圖像塊 (patch) ,對應(yīng)于NLP中的單詞(token) ,將其排列成一維向量X∈RN×(P2×C)作為編碼器的輸入,其中(H,W)是原始輸入圖像的分辨率,C是通道數(shù),P是每個圖像塊的分辨率。隨后,利用正弦曲線或余弦曲線對每一個方塊進行位置編碼。位置編碼可以看作是一個特殊的嵌入層,它將位置信息編碼成一個向量,并將其加入到輸入數(shù)據(jù)中,用作分類的類別預(yù)測結(jié)果表示。在進行注意力計算時,模型也能同時區(qū)分不同位置的信息,更好地理解輸入序列中的上下文關(guān)系。最后,通過一個全連接層輸出結(jié)果。ViT的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 ViT的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Architecture of ViT
為擴大視覺Transformer的適用性,研究者們相繼提出了適合不同視覺任務(wù)的變體[26]。根據(jù)變體模型的特點和達到的處理效果,大致可分為4類:
1) 卷積Transformer。為了增強模型對于局部特征的提取能力,在Transformer模型中引入卷積操作,有效結(jié)合歸納偏差與自注意力。典型模型代表有DeiT[27]、CvT[28]和ConViT[29]。
2) 局部Transformer。為了增強模型對于長序列數(shù)據(jù)的建模能力,減少內(nèi)存開銷,并提高模型在處理長序列數(shù)據(jù)時的效率,在Transformer模型中放棄全局特性采取局部注意力,靈活處理來自不同空間尺度的特征,提高特征的表達和交互能力。典型模型代表有Swin Transformer[18]、TwinsS-VT[30]和RegionViT[31]。
3) 分層Transformer。為了有效減少梯度消失和梯度爆炸等訓(xùn)練過程中的問題,使得模型訓(xùn)練更加穩(wěn)定和高效,在Transformer模型中采用分層策略,可以提高模型的訓(xùn)練性能,更好地捕捉圖像中的不同尺度和層次結(jié)構(gòu)特征。典型模型代表有PVT[32]和Tokens-to-Token ViT[33]。
4) 深度Transformer。為了減少模型的計算復(fù)雜度,可以設(shè)計不同的注意力機制來代替Transformer中的自注意力結(jié)構(gòu),構(gòu)建出更深層次的Transformer模型以達到更好的效果。典型模型代表有DeepViT[34]、CaiT[35]和CrossVit[19]。
隨著深度偽造生成技術(shù)的日益精細化,研究人員開始引入基于Transformer架構(gòu)的檢測技術(shù),以提升檢測器在跨數(shù)據(jù)集下的泛化性能。根據(jù)Transformer表征學(xué)習(xí)的任務(wù)類型可分為基于視覺模態(tài)學(xué)習(xí)的檢測技術(shù)、基于視覺和聽覺跨模態(tài)關(guān)聯(lián)學(xué)習(xí)的檢測技術(shù)兩類。其中,基于視覺模態(tài)學(xué)習(xí)包含了空間上下文關(guān)聯(lián)學(xué)習(xí)和時間上下文關(guān)聯(lián)學(xué)習(xí)。表1對Transformer模型在人臉深度偽造檢測任務(wù)中的應(yīng)用做出分類并簡要說明了各個模型的特點和主要作用。
表1 Transformer模型在人臉深度偽造檢測任務(wù)中的應(yīng)用Table 1 The applicetion of Transformer model in Deepfake detection tasks
2.2.1 基于視覺模態(tài)學(xué)習(xí)的檢測技術(shù)
1) 基于空間上下文關(guān)聯(lián)學(xué)習(xí)的檢測技術(shù)。
CNNs架構(gòu)擅長于通過使用局部感受野、共享權(quán)值來學(xué)習(xí)局部特征。但由于CNNs的感受野有限,它難以捕獲全局信息。相反,Transformer的自注意力機制將全局關(guān)系和長距離特征依賴關(guān)系建模為視覺表示。對于人臉深度偽造檢測,基于空間上下文關(guān)聯(lián)學(xué)習(xí)的檢測技術(shù)主要從空域和頻域挖掘局部和全局的不一致線索。
相比于真實圖像在相鄰區(qū)域的自然連續(xù)性,深度偽造人臉圖像的人臉區(qū)域與其上下文區(qū)域具有不同的圖像來源,導(dǎo)致其存在不一致的現(xiàn)象?;诳沼蚓€索的檢測技術(shù)側(cè)重于捕獲圖像空間的不一致信息(如顏色紋理、噪聲指紋、視覺偽影等) ,以學(xué)習(xí)更為本質(zhì)的篡改檢測特征。然而,當(dāng)遇到各種破壞性形式的圖像退化時(如圖像壓縮、視頻編解碼轉(zhuǎn)換等) 或者數(shù)據(jù)域不匹配的條件下,這種低級別的紋理不一致信息很容易受到干擾,從而導(dǎo)致檢測方法的性能急劇下降。為此,Dong X等[36]提出基于ViT的身份一致性檢測模型(Identity Consistency Transformer,ICT) ,學(xué)習(xí)人臉高級語義信息,特別是檢測對象的身份信息,通過在輸入端嵌入序列中添加兩個額外的可學(xué)習(xí)的嵌入標記,從而利用內(nèi)部和外部面孔區(qū)域的身份不一致性來檢測可疑的人臉。該模型在獲得身份提取網(wǎng)絡(luò)后不需要任何額外的訓(xùn)練,且可以在沒有任何由人臉操作方法生成的假視頻情況下進行訓(xùn)練。但是,此種方法需要大量的身份信息標記進行訓(xùn)練,且只能針對存在身份不一致的人臉交換視頻,無法檢測人臉重現(xiàn)的偽造視頻,因其身份前后保持一致。為了減少數(shù)據(jù)標記工作,解決由于數(shù)據(jù)域不匹配導(dǎo)致檢測性能下降的問題,Chen H等[37]提出用一個兩階段的自監(jiān)督范式(Transformer-Based Self-Supervised,TBSS) 來提高深度偽造檢測的泛化能力。在第一階段的自監(jiān)督掩蔽圖像建模(Masked Image Modeling,MIM) 和預(yù)訓(xùn)練中,利用沒有任何圖像類注釋的序列掩蔽和預(yù)測策略來訓(xùn)練一個Swin Transformer編碼器,并通過強大的長期依賴建模能力對像素之間的關(guān)系建模,提取類內(nèi)一致性特征。其中,圖像序列是視覺Transformer的基本處理單元,在序列級別上操作可以實現(xiàn)可見或掩蔽,從而通過重建被掩蔽破壞的圖像來學(xué)習(xí)有用的表示,更好地保存圖像信息。經(jīng)過預(yù)訓(xùn)練后的第二階段,用標記數(shù)據(jù)對預(yù)訓(xùn)練后的編碼器進行微調(diào),以提高其鑒別性能。雖然該模型在檢測泛化性能上有了一定的提升,但由于采用了大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),需要對一個龐大的骨干網(wǎng)絡(luò)進行預(yù)訓(xùn)練,導(dǎo)致了較大的計算成本。
此外,研究人員[3-4,7]在研究中發(fā)現(xiàn),深度偽造生成網(wǎng)絡(luò)中的反卷積上采樣操作無法重建自然圖像頻譜分布,在頻域上呈現(xiàn)網(wǎng)格化特征從而導(dǎo)致合成假臉與真實人臉的頻譜分布存在差異。因此,部分研究工作采取融合空域和頻域特征進行檢測的研究路線。Wang J等[38]引入了一個多模態(tài)多尺度檢測網(wǎng)絡(luò)(Multi-modal Multi-scale Transformer,M2TR) ,將輸入圖像分割成不同大小的序列塊,并使用卷積Transformer集成多尺度信息,用于捕捉圖像塊序列在不同空間層次的局部不一致性。而頻率濾波器用于捕捉頻域內(nèi)的細微偽造痕跡,作為一種互補的模式。在空頻域交叉模態(tài)融合塊上,采用Transformer的查詢-鍵-值自注意力機制融合成一個統(tǒng)一的表示。該方法雖然面對高壓縮的偽造圖像時具有較強的偽造檢測能力,但面對未知偽造方法時檢測能力仍會急劇下降。為了學(xué)習(xí)不同空間層次的特征,Tan Z等[39]從全局角度出發(fā),提出了一種具有局部特征補償和聚合檢測框架(Transformer-based Framework with Feature Compensation and Aggregation,Trans-FCA) ,除了利用Transformer捕獲全局線索外,還利用卷積來捕獲局部細節(jié)偽造缺陷。在局部特征補償模塊,提出的全局-局部交叉注意取代Transformer自注意力模塊,融合了全局Transformer特征和局部卷積特征。在聚合模塊,提出了一個頻導(dǎo)融合模塊來交互頻域中的所有特征,旨在分層聚集與頻率相關(guān)的特征,隨后,使用多頭聚類投影將所有特征聚合到單個聚類(特征向量) 中進行深度偽造檢測。該方法是Transformer和CNNs 兩種架構(gòu)集成的典型代表,揭示了局部偽造模式和全局關(guān)系表示是深度偽造檢測器泛化能力的關(guān)鍵,為后續(xù)工作提供了很好的研究思路。受此啟發(fā),中國科學(xué)技術(shù)大學(xué)的繆長濤等[40]提出一種雙分支的分層頻率輔助交互網(wǎng)絡(luò)(Hierarchical Frequencyassisted Interactive Networks,HFI-Net) ,以更好地利用Transformer和CNNs架構(gòu)各自優(yōu)勢,分別捕獲全局上下文信息和局部細節(jié)。具體來說,所提出的雙分支網(wǎng)絡(luò)采用可分離的卷積模塊和Transformer模塊來集中捕獲局部偽影和全局特征,利用中高頻模式來細化雙分支網(wǎng)絡(luò)的特征,加強兩個分支之間的互補特征交互。該方法證明了局部偽造偽影和全局上下文信息具有強烈互補關(guān)系,改善了深度偽造檢測在跨壓縮、跨庫檢測時的效果;但并沒有優(yōu)化Transformer體系結(jié)構(gòu)的自注意力機制,只是將多個Transformer模塊和CNNs進行簡單的組合。為了增強視覺Transformer自注意力機制捕獲細粒度的特征細節(jié),該研究團隊提出高頻細粒度檢測網(wǎng)絡(luò)(Fine-Grained Transformer,F(xiàn)2Trans)[41],在Transformer架構(gòu)中引入中心差分算子,專門設(shè)計了一個單流高頻微粒度模型用于人臉偽造檢測任務(wù),充分利用了在空域和頻域的細粒度偽造痕跡信息。該網(wǎng)絡(luò)包含兩個核心組件:中心差分注意(Central Difference Attention,CDA)和高頻小波采樣(High-frequency Wavelet Sampler,HWS) 。其中,中心差分注意利用卷積來生成局部紋理特征作為自注意力的查詢,然后由中心微分算子對查詢特征的鄰居之間的局部關(guān)系進行建模,生成自注意力的鍵值對,從而增強了Transformer自注意力機制的細粒度表示能力,以捕獲更多的信息特征。高頻小波采樣組件對特征圖的高頻偽造線索進行層次探索,并關(guān)注局部頻域信息,有效遏制了低頻分量引起的模型干擾。但是,該方法在遇到不可見的擾動時,性能下降明顯。
2) 基于時間上下文關(guān)聯(lián)學(xué)習(xí)的檢測技術(shù)。
上述基于空間上下文關(guān)聯(lián)學(xué)習(xí)的檢測方法大多針對偽造人臉圖像或者偽造視頻中的單幀圖像進行檢測, 而對于偽造視頻來說, 還可以利用時間域線索提高偽造檢測算法的性能?;跁r間上下文關(guān)聯(lián)學(xué)習(xí)的檢測技術(shù)主要從不同時間尺度挖掘更精細和全面的時域不一致線索,以檢測深度偽造視頻。為了提取時間域信息,以往采用的長短期記憶(Long Short-Term Memory,LSTM)[42]機制通過設(shè)計門控狀態(tài),從而記住需要長期記住的東西,忘記不重要的信息來控制傳輸狀態(tài)。而在Transformer的自注意力機制中,視頻幀序列中的每一幀都可以與所有其他幀進行關(guān)系計算。因此,與LSTM相比,可以更好地捕捉遠距離幀的關(guān)系,從而提供更有效的時間上下文關(guān)聯(lián)。
由于現(xiàn)有的偽造視頻大多都是對真實視頻中每一幀圖像進行偽造,再將偽造圖像進行拼接,最后得到偽造視頻。因此,不可避免地會導(dǎo)致明顯的閃爍和不連續(xù)面部區(qū)域。為了挖掘幀間的動態(tài)不一致性,Zheng Y等[43]提出一個端到端框架來學(xué)習(xí)更一般的時間不相關(guān)性。它包括兩個主要的階段:第一階段是一個全時態(tài)卷積網(wǎng)絡(luò)(Fully Temporal Convolution Network,F(xiàn)TCN) ,為了鼓勵時空卷積網(wǎng)絡(luò)學(xué)習(xí)時間上的不相干性,重新設(shè)計了卷積算子,將所有空間(高度和寬度) 維的核大小設(shè)置為1,并在三維卷積算子中保持時間維的原始核大小,有助于模型提取時間特征;第二階段是一個時間Transformer網(wǎng)絡(luò),在偽造視頻中面部的皺紋或痣可能會逐漸出現(xiàn)或消失,利用Transformer沿著時間維度捕獲這種長期依賴關(guān)系。相比之前需要依賴于預(yù)訓(xùn)練的檢測技術(shù),該方法可以在沒有任何人工標注的情況下,定位和可視化面部偽造視頻中的時間不一致性,更具靈活性和通用性。但由于這種時間不相干性容易受到噪聲、壓縮等因素的干擾,仍然存在對后處理的魯棒性問題。為進一步利用局部低水平線索和時間信息,Guan J等[44]提出了基于局部和時間感知的深度偽造檢測框架(Local & Temporal aware Transformer-based Deepfake Detection,LTTD) 。該框架采用了一個局部到全局的學(xué)習(xí)協(xié)議,特別關(guān)注局部序列內(nèi)有價值的時間信息。具體地說,作者提出了一種局部Transformer序列,模擬了有限空間區(qū)域序列的時間一致性,其中低水平信息通過學(xué)習(xí)的三維濾波器的淺層分層增強,并以全局對比的方式實現(xiàn)最終的分類。該方法考慮到了局部出現(xiàn)的時間差異信息,這種潛在的時間模式受到空間干擾的影響較小,使得低級建模更加魯棒。考慮到深度偽造生成和對抗性訓(xùn)練的不斷進步,該方法將會遇到在低水平和時間上反向增強的深度偽造視頻,預(yù)測的可信度有待驗證。此外,考慮到已有基于Transformer 的深度偽造檢測缺乏可解釋性,Zhao C等[45]提出了一種具備可解釋性的分離時空自注意力網(wǎng)絡(luò)(Interpretable Spatial-Temporal Video Transformer,ISTVT) 。它包括一種新分解的時空自注意力和一種自減法機制來捕獲空間偽影和時間不一致,并通過相關(guān)性傳播算法來可視化空間和時間維度的區(qū)分區(qū)域,提供了在Transformer 內(nèi)的時間與空間維度的可解釋性。該方法有助于研究人員理解Transformer模型如何在時空維度上檢測到深度偽造視頻,從而改進檢測模型的設(shè)計。但是,由于該方法側(cè)重于學(xué)習(xí)短期的幀間不一致,在光照條件和頭部姿勢一致的數(shù)據(jù)集上表現(xiàn)不如FTCN算法。為了挖掘更詳細的時空信息,Yu Y等[46]提出了一種具有局部時空視圖和全局時空視圖的多時空視圖網(wǎng)絡(luò)
(Multiple Spatiotemporal Views Transformer,MSVT) 。首先,為了建立局部時空視圖,不同于現(xiàn)有的稀疏采樣單幀來構(gòu)建輸入序列,作者使用局部連續(xù)時間視圖來捕獲動態(tài)不一致性。此外,將每組內(nèi)提取的幀特征輸入時間轉(zhuǎn)換器,生成組級時空特征。然后,通過加入全局時空視圖和特征融合模塊,建立全局時空視圖。最后,利用Transformer集成這些多層次的特征,以挖掘更微妙和全面的特征。該方法論證了局部連續(xù)幀的不一致性在偽造人臉視頻檢測中所起的重要作用。
2.2.2 基于視覺和聽覺跨模態(tài)關(guān)聯(lián)學(xué)習(xí)的檢測技術(shù)
除了從視頻的空域、頻域、時域等提取信息,部分研究人員也嘗試結(jié)合音頻信息,從跨模態(tài)的視角來進行人臉深度偽造檢測。相比于CNNs,Transformer具有更強的跨模態(tài)融合能力,且魯棒性更好。由于Transformer的自注意力機制可以將不同模態(tài)的信息合在一起變成一維長序列,提取序列特征,計算不同序列的相關(guān)性,從而更好地捕捉跨模態(tài)數(shù)據(jù)之間的內(nèi)在聯(lián)系。因此,它能夠很好地處理多種類型的數(shù)據(jù),如圖像、音頻和文本等,并且對于一些噪聲或異常數(shù)據(jù)也有很好的處理能力。
由于現(xiàn)實場景中的深度偽造視頻通常由視覺和聽覺兩種模態(tài)組合而成,針對跨模態(tài)深度偽造的檢測方法和多模態(tài)深度偽造基準,成為了近期的研究熱點方向。之前的深度偽造檢測工作大多只關(guān)注視覺或聽覺單模態(tài)的檢測任務(wù),致力于捕獲模態(tài)內(nèi)的偽造信息?;谝曈X和聽覺跨模態(tài)關(guān)聯(lián)學(xué)習(xí)檢測的關(guān)鍵思想是利用同一視頻中提取的視頻和音頻模式之間的關(guān)聯(lián)信息。相比于真實視頻,現(xiàn)有偽造技術(shù)難以保持偽造視頻在視覺和聽覺的自然一致性。
早期基于跨模態(tài)的檢測方法主要利用語音內(nèi)容挖掘不一致的嘴部動態(tài)和擴展輔助訓(xùn)練數(shù)據(jù)。然而,這類方法關(guān)注的是部分面部特征,無法檢測視聽協(xié)同偽造視頻。為了克服這種缺點,受跨模態(tài)生物特征匹配思想的啟發(fā),Cheng H等[47]設(shè)計了語音-面孔匹配檢測算法(Voice-Face matching Detection,VFD) 。鑒于假視頻中聲音和人臉背后的身份往往不匹配,且聲音和人臉在一定程度上具有同質(zhì)性的特點。作者首先在一個通用的視聽數(shù)據(jù)集對模型進行訓(xùn)練,采用ViT自注意力機制提取與身份相關(guān)的語音和人臉多模態(tài)特征,然后對下游的深度偽造數(shù)據(jù)進行微調(diào)。該模型是第一個通過面部和音頻的內(nèi)在相關(guān)性來進行深度偽造檢測,專注于聲音和人臉的一般匹配目標,并且可以快速遷移到各種深度偽造數(shù)據(jù)集,而不是關(guān)注指定的人臉區(qū)域。其次,采用預(yù)訓(xùn)練微調(diào)范式減輕了對輔助數(shù)據(jù)的需求。但是,該方法遇到臉部光照不足或側(cè)臉的視頻檢測能力有限,且對特定的面部屬性編輯視頻檢測失效。為提高對側(cè)臉視頻的檢測性能,Ilyas H等[48]提出基于Swin Transfomer的端到端檢測模型(Audio-Visual Deefakes Detection,AVFakeNet),并提供了一個同時操縱音頻和視覺模式數(shù)據(jù)集FakeAVCeleb。該模型利用Swin Transfomer捕獲全局的長期依賴性和密集的層次特征,能夠正確地分類側(cè)擺姿勢的面孔。其中,密集層對網(wǎng)絡(luò)體系結(jié)構(gòu)中的輸入圖像和Swin Transfomer進行了精細編碼,提取了具有全局感知屬性的特征圖,建立了不同圖像特征之間的關(guān)系,能夠檢測出具有極端側(cè)臉的假視頻。此外,所提供的音頻-視頻多模態(tài)深度偽造檢測數(shù)據(jù)集,促進了基于視聽覺跨模態(tài)檢測模型的發(fā)展。與此同時,Yang W等[49]同樣建立了一個多模態(tài)深度偽造檢測基準DefakeAVMiT,并提出利用視聽不一致性的聯(lián)合學(xué)習(xí)方法(Audio-Visual Joint Learning for Detecting Deepfake,AVoiD-DF) 進行多模態(tài)偽造檢測。具體來說,AVoiD-DF首先在時空編碼器中嵌入時間序列和空間位置信息,然后設(shè)計了具有交叉注意機制的聯(lián)合解碼器學(xué)習(xí)內(nèi)在關(guān)系,最后采用一個跨模態(tài)分類器來檢測具有模態(tài)間和模態(tài)內(nèi)不一致的操作。為探索基于兩種模態(tài)之間更常見的不一致關(guān)系,F(xiàn)eng C等[50]提出一種基于異常檢測的方法(Audio-Visual Anomaly Detection,AVAD),訓(xùn)練一個自回歸Transformer模型來生成視聽特征序列,使用了兩個Transformer的解碼器學(xué)習(xí)視頻幀和音頻之間的時間同步特征分布。該方法以自監(jiān)督的方式提取真實視頻中的自然視聽覺對應(yīng),然后以學(xué)習(xí)到的真實對應(yīng)作為目標,指導(dǎo)后續(xù)視聽覺不一致的提取,挖掘視覺和音頻信號之間的細微不一致,并且單獨使用真實的、未標記的數(shù)據(jù)進行訓(xùn)練。但是,該模型無法檢測嘴部運動和音頻之間保持相對一致的偽造視頻,比如只改變說話者面部外觀而嘴的運動保持不變。由于不同模態(tài)存在差距,其固有的視聽覺關(guān)系難以提取,且受視聽覺協(xié)同偽造操作影響,導(dǎo)致上述自監(jiān)督方法的輔助性能有限,Yang Y等[51]提出了預(yù)測性視覺與音頻對齊自監(jiān)督的多模態(tài)深度偽造檢測方法(Predictive Visual-Audio Alignment Seaf-Supervision for Multimodal Deepfake Detection,PVASS-MDD)。它由預(yù)測性視聽覺對齊自監(jiān)督輔助階段PVASS和多模態(tài)檢測階段MDD組成。在真實視頻的PVASS輔助階段,設(shè)計了一個基于Swin Transfomer的三支路網(wǎng)絡(luò),將兩個增強的視覺視圖與相應(yīng)的音頻線索關(guān)聯(lián)起來,從而基于交叉視圖學(xué)習(xí)探索常見的視聽覺對應(yīng)。其次,引入了一種新的跨模態(tài)預(yù)測對齊模塊來消除視聽覺間隙,以提供固有的視聽覺對應(yīng)。在MDD階段,提出了輔助損失,利用凍結(jié)的PVASS網(wǎng)絡(luò)來對齊真實視頻的視聽覺特征,以更好地幫助多模態(tài)深度偽造檢測器捕獲細微的視聽覺不一致性,提高泛化性能。
雖然,基于視覺和聽覺跨模態(tài)的檢測方法得到了眾多研究者的青睞,但這類跨模態(tài)的方法需要偽造視頻中包含音頻信息,而當(dāng)前的主流數(shù)據(jù)集往往只包含視覺內(nèi)容,只有少部分數(shù)據(jù)集包含音頻內(nèi)容,因此這類方法的發(fā)展也受到了一定制約。
為了降低深度偽造人臉圖像與視頻所帶來的負面影響,給相應(yīng)的檢測技術(shù)奠定數(shù)據(jù)對抗基礎(chǔ),已有一些學(xué)者組織了一批人臉深度偽造數(shù)據(jù)集,用于訓(xùn)練以及評估檢測模型的性能。根據(jù)數(shù)據(jù)集的視覺質(zhì)量和規(guī)模,現(xiàn)有常用的深度偽造公開數(shù)據(jù)集可分為三代,如表2所示。第一代數(shù)據(jù)集包括FaceForensics++[2]、DeepfakeDetection[52]、DFDC-preview[53]、Celeb-DFv1[54]、Celeb-DF-v2[55]、WildDeepfake[56];第二代數(shù)據(jù)集包括DFDC[57]、DeepForensics-1.0[58]、 Vox-Deepfake[59]、FFIW-10K[60]、ForgeryNet[61];第三代數(shù)據(jù)集包括K o D F[62]、F a k e A V C e l e b[48]、L A V D F[63]、DefakeAVMiT[49]。
表2 Deepfake檢測主要數(shù)據(jù)集基本情況Table 2 Overview of mainstream Deepfake detection datasets
檢測模型的性能評價指標主要包括準確率(Accuracy,ACC) 和接受者操作特征曲線(Receiver Operating Characteristic curve,ROC) 下的面積(Area Under Curve,AUC) 。深度偽造人像視頻檢測問題也可以看成是一個二分類問題,即樣本存在正負兩個標簽。由于準確率ACC往往會受到正負樣本數(shù)量分布的影響,因此,在進行跨數(shù)據(jù)集測試時,主要采用AUC作為評價指標。AUC表示ROC曲線下的面積,主要表示預(yù)測結(jié)果中正樣本排在負樣本前面的概率,值越接近于1分類效果越好。AUC不會受到正負樣本數(shù)量分布的影響,能夠客觀地衡量模型分類效果的好壞,尤其適用于二分類的問題。
為了評估基于視覺模態(tài)的人臉偽造檢測器在跨數(shù)據(jù)集下的泛化能力,構(gòu)建了一個跨數(shù)據(jù)集測試協(xié)議。具體地說,分別收集整理了8個基于CNNs模型和8個基于Transformer模型的代表性檢測算法,統(tǒng)一在FaceForensics++訓(xùn)練集中的所有4類偽造數(shù)據(jù)上進行訓(xùn)練,并在3個未知數(shù)據(jù)集上進行測試,包括Celeb-DF-v2、DFDC和DeepForensics-1.0。具體結(jié)果如表3所示。從實驗結(jié)果可以看出,在測試集Celeb-DF-v2上,基于Transformer模型的LTTD算法AUC達到了最高AUC值89.3%,其次是MSVT算法88.81%;在測試集DFDC上,基于Transformer模型的LTTD算法AUC達到了最高AUC值80.3%,其次是MSVT算法76.79%;在測試集DeepForensics-1.0上,基于CNNs模型的PCL+I2G算法AUC達到了最高AUC值99.4%,但是該算法在其他兩個測試集性能較低,且多個基于Transformer模型的算法AUC值也都超過了98%。總體來看,基于Transformer模型的檢測算法泛化性能普遍高于基于CNNs模型的算法。目前來看,基于Transformer模型的LTTD算法整體上具有最優(yōu)的檢測性能,這主要得益于所提出的局部Transformer捕獲局部序列內(nèi)有價值的時間差異信息,受空間干擾較小。
表3 基于視覺模態(tài)的人臉深度偽造檢測代表性模型跨數(shù)據(jù)集AUC結(jié)果Table 3 The AUC of cross-dataset experiments for Deepfake detection based on visual modes%
為了評估基于視覺和聽覺跨模態(tài)的人臉偽造檢測器的泛化能力,收集整理了3個基于CNNs模型和3個基于Transformer模型的代表性檢測算法,利用3個多模態(tài)公開數(shù)據(jù)集DFDC、FakeAVCeleb和DefakeAVMiT進行跨數(shù)據(jù)集比較。選取其中一個數(shù)據(jù)集進行訓(xùn)練,其他2個數(shù)據(jù)集測試。具體結(jié)果如表4所示。從實驗結(jié)果可以看出,在不同跨數(shù)據(jù)集測試條件下,基于Transformer模型的跨模態(tài)檢測算法的泛化性能都優(yōu)于基于CNNs模型。其中,基于Transformer模型的PVASS-MDD算法取得了最優(yōu)的檢測性能,這主要得益于采用基于Swin Transfomer的自監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)視聽覺對應(yīng)關(guān)系,以及引入了跨模態(tài)預(yù)測對齊模塊來消除視聽覺間隙,更好地捕獲細微的視聽覺不一致性。
表4 基于視覺和聽覺跨模態(tài)的人臉深度偽造檢測代表性模型跨數(shù)據(jù)集AUC結(jié)果Table 4 The AUC of cross-dataset experiments for Deepfake detection based on visual-audio modes%
本文重點總結(jié)分析了Transformer模型在人臉深度偽造檢測器性能提升中發(fā)揮的作用和技術(shù)特點。主要包括基于視覺模態(tài)和基于視聽覺跨模態(tài)兩類:在基于視覺模態(tài)的檢測技術(shù)中,Transformer的自注意力機制發(fā)揮其全局關(guān)系和長距離特征依賴關(guān)系建模能力,更好地捕獲到偽造人臉圖像區(qū)域與其上下文區(qū)別的空間不一致信息,以及視頻幀之間的時間連續(xù)性,以改善深度偽造檢測在跨壓縮、跨庫檢測時的效果;基于視聽覺跨模態(tài)聯(lián)合學(xué)習(xí)的檢測技術(shù)中,Transformer發(fā)揮其更優(yōu)異的跨模態(tài)融合能力,能更好地捕捉跨模態(tài)數(shù)據(jù)之間的內(nèi)在聯(lián)系,挖掘深度偽造視頻在不同模態(tài)間的不一致關(guān)系。
由于如Stable Diffusion等視覺生成模型的快速發(fā)展,高保真度的人臉圖片可以自動化地偽造,而且一些技術(shù)開始進行視聽協(xié)同偽造,制造越來越嚴重的DeepFake問題。Transformer由于其具備全局交互能力和大模型預(yù)訓(xùn)練能力,有助于人臉深度偽造檢測器獲取更通用的特征和數(shù)據(jù)融合能力,有效提升其檢測器的泛化能力,有望成為未來的主流模型之一。但也面臨一些挑戰(zhàn),包括:
(1) Transformer模型通常需要大規(guī)模的數(shù)據(jù)進行訓(xùn)練,以便獲得強大的泛化能力。在深度偽造檢測領(lǐng)域,獲得大規(guī)模的帶有標簽的深度偽造和真實數(shù)據(jù)集可能相對困難,因此數(shù)據(jù)收集和標注成為一個挑戰(zhàn)。
(2) Transformer模型通常需要大量的計算資源來進行訓(xùn)練和推理,尤其是大型的預(yù)訓(xùn)練模型。這可能對硬件和能源資源產(chǎn)生壓力,使得部署成本高昂。
(3) 深度偽造制作者可能會嘗試對抗深度偽造檢測,通過對抗性技巧來生成更具迷惑性的深度偽造視頻。雖然Transformer模型相對于CNNs模型更能抵抗對抗性攻擊,但仍然需要采取額外的對抗性訓(xùn)練和防御機制來應(yīng)對這一挑戰(zhàn)。
(4) 雖然Transformer模型在很多任務(wù)上表現(xiàn)出色,但在某些特定任務(wù)或數(shù)據(jù)集上,它們可能無法取得最佳性能。這需要更多的研究和調(diào)優(yōu),以適應(yīng)深度檢測的特定需求。