林佳瀅,周文柏,張衛(wèi)明,俞能海
空域頻域相結(jié)合的唇型篡改檢測方法
林佳瀅1,2,周文柏1,2,張衛(wèi)明1,2,俞能海1,2
(1. 中國科學(xué)院電磁空間信息重點實驗室,安徽 合肥 230027;2. 中國科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,安徽 合肥 230027)
近年來,社交網(wǎng)絡(luò)中的“換臉”視頻層出不窮,對說話者進行唇型篡改是其中的視頻代表之一,這給大眾生活增添娛樂的同時,對于網(wǎng)絡(luò)空間中的個人隱私、財產(chǎn)安全也帶來了不小隱患。大多數(shù)唇型篡改檢測方法在無損條件下取得了較好的表現(xiàn),但廣泛存在于社交媒體平臺、人臉識別等場景中的壓縮操作,在節(jié)約像素和時間冗余的同時,會對視頻質(zhì)量造成影響,破壞空域上像素與像素、幀與幀之間的連貫完整性,導(dǎo)致其檢測性能的下降,從而引發(fā)對真實視頻的錯判情況。當(dāng)空域信息無法提供足夠有效的特征時,能夠抵抗壓縮干擾的頻域信息就自然而然地成為重點研究對象。針對這一問題,通過分析頻率信息在圖像結(jié)構(gòu)和梯度反饋上的優(yōu)勢,提出了空域頻域相結(jié)合的唇型篡改檢測方法,有效利用空域、頻域信息的各自特點。對于空域上的唇型特征,設(shè)計了自適應(yīng)提取網(wǎng)絡(luò)和輕量級的注意力模塊;對于頻域上的頻率特征,設(shè)計了不同分量的分離提取與融合模塊。隨后,通過對空域上的唇型特征和頻域上的頻率特征進行有側(cè)重的融合,保留更多關(guān)鍵紋理信息。此外,在訓(xùn)練中設(shè)計細粒度約束,分開真假唇型特征類間距離的同時,拉近類內(nèi)距離。實驗結(jié)果表明,得益于頻率信息,所提方法能有效改善壓縮情況下的檢測準(zhǔn)確性,并具備一定的遷移性。另外,在對核心模塊開展的消融實驗中,相關(guān)結(jié)果驗證了頻率分量對于抗壓縮的有效性,以及雙重損失函數(shù)在訓(xùn)練中的約束作用。
人臉偽造;人臉偽造檢測防御;唇型篡改檢測;抗壓縮;深度學(xué)習(xí)
2017年,第一個針對名人的換臉視頻在社交平臺上發(fā)布,從此人臉偽造技術(shù)開始走進公眾視野。根據(jù)篡改區(qū)域的不同,人臉偽造技術(shù)分為全臉替換和局部篡改。前者通常將整個源臉替換成目標(biāo)臉;后者修改部分臉部區(qū)域,如篡改唇型來匹配音頻內(nèi)容,并達到視覺上的同步。前者篡改區(qū)域大,且伴隨著身份屬性的改變;后者篡改區(qū)域小,身份屬性不變但視頻內(nèi)容會發(fā)生更改,因而后者產(chǎn)生的社會危害更大。隨著攻防一體化的發(fā)展,針對人臉偽造的檢測技術(shù)應(yīng)運而生,同樣按照篡改區(qū)域劃分為全臉檢測技術(shù)和局部檢測技術(shù)兩大類。無損情況下,唇型篡改視頻中淺層紋理特征能夠得到完整保留且具有連貫性,現(xiàn)有的局部檢測模型依靠該空域信息即可提取到具有區(qū)分性的特征,在真實、篡改視頻的鑒別任務(wù)中取得較好的表現(xiàn)。
然而實際生活中,壓縮作為一種基本的數(shù)據(jù)處理方式,普遍存在于各個數(shù)字平臺中。從像素空間冗余壓縮、時間冗余壓縮以及編碼冗余壓縮3個維度對視頻的分辨率和尺寸進行改變,能夠有效節(jié)約帶寬資源,防止自身數(shù)據(jù)冗余造成不必要的消耗。倘若外界施加的壓縮強度過大,在包括信道傳輸損失等多路干擾的疊加下,視頻畫面極易產(chǎn)生大幅度的缺陷,甚至出現(xiàn)人眼都無法分辨清楚視頻內(nèi)容的情況。常見的壓縮導(dǎo)致的視頻受損情況有高斯噪聲、像素腐蝕以及高斯模糊等。
毫無疑問,對視頻采取的壓縮強度越大,淺層紋理特征就越容易被破壞,像素與像素、幀與幀之間的連貫完整性因此被削弱。原本未經(jīng)篡改的真實視頻此時在基于深度神經(jīng)網(wǎng)絡(luò)的檢測模型看來,由于噪聲的影響其極有可能被認為是經(jīng)過篡改的假視頻而發(fā)生錯判。作為一種廣泛使用的后處理操作,壓縮對當(dāng)前的局部唇型篡改檢測提出了新的挑戰(zhàn)。
當(dāng)空域信息所剩無幾,面對此類困難場景,本質(zhì)上需要解答一個問題,即什么信息對于高壓縮視頻的檢測是有效的,這也是人臉偽造檢測發(fā)展至今,學(xué)者們不斷從各個領(lǐng)域借鑒新思路試圖解決的問題。傳統(tǒng)圖像處理領(lǐng)域除了研究空域信息外,另一個重點研究對象是頻域。頻域信息能很好地反映圖像的不同結(jié)構(gòu),表征梯度的變化,這一特性使得某些操作在頻域上的效果會優(yōu)于空域,因而將其引入同屬于圖像處理細分下的人臉偽造檢測任務(wù)中,具備充分的合理性。
綜合上述研究背景,本文提出了空域頻域相結(jié)合的唇型篡改檢測方法。從空域頻域兩個方面入手,分別提取各自特征并采取有側(cè)重的融合方式,進一步突出紋理信息;另外,為了更好地區(qū)分不同真假唇型特征,拉近相同特征,在訓(xùn)練中引入雙重損失函數(shù),對模型構(gòu)成細粒度約束。面對壓縮環(huán)境下的人臉偽造場景,從多個角度對檢測模型開展積極探索,促進實際人臉安全防御體系的構(gòu)建。
早期的局部唇型篡改主要基于單幅圖像或者純視頻,現(xiàn)階段為了進一步營造出自然逼真的效果,通常會與音頻進行結(jié)合,生成可以說話的偽造人臉視頻。其核心思想是篡改目標(biāo)人物的唇型以匹配當(dāng)前音頻的說話內(nèi)容,因而在生成過程中會涉及音頻、視頻等多模態(tài)的特征信息。通過音頻結(jié)合的局部唇型篡改技術(shù),偽造方可以達到操控目標(biāo)人物說出他們希望說的話的目的。
通過音頻生成的唇型在完成張開閉合動作的同時,還要盡可能形狀準(zhǔn)確,符合人類發(fā)音規(guī)律。為了實現(xiàn)這一任務(wù),深度學(xué)習(xí)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)模型成為首選。對音頻進行編碼后作為特征輸入生成模型中,得到對應(yīng)的唇型關(guān)鍵點或者3D重建參數(shù),再將這些唇型特征送到解碼器中還原出當(dāng)前唇型。
相關(guān)唇型篡改方法包括Obama lip-sync[1]、First order motion[2]、Audio-driven[3]和Wav2Lip[4]等。其中,Obama lip-sync通過奧巴馬的每周總統(tǒng)演講視頻,學(xué)習(xí)其特定的說話方式和表情姿勢;Audio-driven利用3D重建分別提取音頻、表情參數(shù),將屬性和身份特征分開;First order motion則通過視頻驅(qū)動單幅原始人臉圖像。Wav2Lip通過輸入一段動態(tài)視頻和一段音頻,即可實現(xiàn)任意人的唇型篡改。Wav2Lip框架如圖1所示,由3個模塊組成:音頻驅(qū)動的人臉唇型生成器、生成人臉視覺質(zhì)量判別器、音頻唇型同步判別器。不同于先前方法在每幀視頻上進行篡改,該方法一次性輸入連續(xù)5 幀,經(jīng)過編解碼器結(jié)構(gòu)得到相應(yīng)的人臉輸出幀,使用 L1 重建損失約束生成人臉與真實人臉間的距離,同時視覺質(zhì)量判別器會對生成人臉進行真假判斷,形成對抗式訓(xùn)練。
圖1 Wav2Lip框架
Figure 1 The framework of Wav2Lip
對局部唇型檢測方法的發(fā)展過程進行大致追溯可以發(fā)現(xiàn),其主要從語音識別、唇型識別等真人音視頻任務(wù)上遷移而來。利用在真實大規(guī)模數(shù)據(jù)集上經(jīng)過嚴密訓(xùn)練和測試的語音、唇讀等預(yù)訓(xùn)練模型,可以很好地對當(dāng)前偽造人臉特征進行初步篩選過濾。固定網(wǎng)絡(luò)的前層模塊,損失函數(shù)在迭代訓(xùn)練中更新調(diào)整最后一個全連接層的權(quán)重,實現(xiàn)預(yù)訓(xùn)練模型在人臉偽造數(shù)據(jù)集上的微調(diào)。
受到以上研究視角的啟發(fā),來自Facebook的團隊率先提出了Lip Forensics算法[5],其框架如圖2所示,核心思想是挖掘高級語義在嘴部運動中存在的不規(guī)則性,如超出正常人嘴唇的開合幅度,或者相反地,不能自如地完成嘴唇的閉合動作。唇讀預(yù)訓(xùn)練模型的優(yōu)勢在于空間上提取 3D 特征,時間上使用 MS-TCN網(wǎng)絡(luò)[6]描述時序特征,學(xué)習(xí)真實自然場景下嘴部運動特有的高級語義表征。因此,能有效避免一些過擬合的情況,如檢測網(wǎng)絡(luò)過于依賴低層次語義表征或者某種生成方法產(chǎn)生的特定偽影。
圖2 Lip Forensics框架
Figure 2 The framework of Lip Forensics
圖3 空域頻域相結(jié)合的唇型篡改檢測方法的框架
Figure 3 The framework of lip forgery detection via spatial-frequency domain combination
值得一提的是,雖然預(yù)訓(xùn)練模型在庫內(nèi)和跨數(shù)據(jù)庫間的實驗上展現(xiàn)了優(yōu)異的性能,但其龐大的模型結(jié)構(gòu)導(dǎo)致適用范圍受到局限,在大企業(yè)的大平臺上更具備施展空間。日常生活中,面向計算機和手機等靈活終端,往往要求模型輕量化、易部署,且對于壓縮場景具備一定檢測能力。
按照常規(guī)的幾種頻率變換方法如離散傅里葉變換、離散余弦變換,可以將圖像從空域轉(zhuǎn)到頻域。在此基礎(chǔ)上對頻率特征進行劃分,進而得到低頻、中頻、高頻3個基本分量。低頻信號往往占比最高,主要描述了圖像中梯度變化平緩的區(qū)域,這意味著在顏色和內(nèi)容上的波動幅度不大,與空域中的低維紋理特征具有相同性質(zhì)。高頻信號則與此不同,其刻畫了梯度變化劇烈的部分。在圖像內(nèi)容出現(xiàn)明顯轉(zhuǎn)換的地方,高頻信號所蘊含的能量越多,因而大多對應(yīng)空域中的高維細節(jié)特征如邊緣、輪廓等,甚至少部分的噪聲。中頻信號的梯度變化介于兩者之間,一方面,減少對圖像內(nèi)容的補充;另一方面,增加對細節(jié)的描繪。
實際上圍繞頻率信息,已經(jīng)有相關(guān)的人臉偽造檢測工作展開。例如,文獻[7]和文獻[8]均指出空域上低維淺層紋理特征的重要性,另外,文獻[9]探討了不同頻率分量對檢測模型的有效性。
因此,不僅要引入頻率特征與空域上的唇型特征相結(jié)合,還要對頻率特征進行劃分得到不同分量。在頻率分量的基礎(chǔ)上進行特征融合,起到引導(dǎo)和增強的作用,有利于模型在壓縮情況下的檢測判斷。
壓縮操作會引發(fā)圖像空域出現(xiàn)一定缺陷,頻率信號卻因自身在結(jié)構(gòu)、梯度上的特性,能很好地抵抗此類影響。為了盡可能捕捉到更多有效特征減小干擾,可將空域、頻域二者結(jié)合,相互取長補短,共同用于壓縮場景下的唇型篡改檢測任務(wù)。檢測方法的框架如圖3所示,采用空域頻域相結(jié)合的方式,在空域上提取唇型特征,在頻域上提取頻率特征,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)將兩者進行特征融合,最終得到真實、篡改的判斷。
其中,在空域的唇型特征提取模塊,使用區(qū)域生成網(wǎng)絡(luò)(RPN,region proposal network)[10]實現(xiàn)唇型候選區(qū)域的自適應(yīng)提取,在隨后的特征編碼階段引入輕量級的注意力模塊分別作用于通道和空間維度,調(diào)整每個通道的權(quán)重,關(guān)注感受野中激勵更強的區(qū)域。在頻率特征提取模塊中,利用離散余弦變換去相關(guān)性得到頻域信號,濾波器濾波后提取低、中、高3個頻帶信息,再利用離散余弦反變換回空域,得到3個頻帶各自對應(yīng)的圖像信號。經(jīng)過特征堆疊網(wǎng)絡(luò)將3個圖像信號合并,形成最終的頻率特征。在特征融合階段,將兩路分支提取的特征進行結(jié)合,經(jīng)過CNN 中的卷積、池化和全連接層,輸出最終的判決結(jié)果。
唇型特征提取模塊的目的在于直接從空域獲取顯著的低維紋理特征,核心由自適應(yīng)提取模塊和輕量級注意力模塊組成。
RPN自適應(yīng)提取模塊如圖4所示,目標(biāo)人臉圖像經(jīng)過卷積提取特征圖后,進入RPN特征提取網(wǎng)絡(luò)。對該特征圖進行卷積得到兩路分支,上支路進行 Softmax 和 Reshape 操作生成初步的候選框,下支路保留該特征圖并與上支路結(jié)合,得到最終的唇型候選框。在特征響應(yīng)較大的人臉下半?yún)^(qū)域,唇型候選框經(jīng)過多次迭代優(yōu)化,具有一定動態(tài)性,當(dāng)遇到臉部出現(xiàn)較大轉(zhuǎn)動或外界遮擋的情況,候選框的大小與位置會做出靈活調(diào)整。與先前基于人臉關(guān)鍵點進行唇型特征提取的方法相比,本文方法減少了人工干預(yù)和尺寸固定的限制。
圖4 RPN自適應(yīng)提取模塊
Figure 4 RPN adaptive extraction module
輕量級注意力模塊如圖5所示,本文分別設(shè)計了通道注意力模塊和空間注意力模塊,前者注重內(nèi)容理解找到關(guān)鍵信息,后者確定關(guān)鍵信息所在的具體位置。為了使特征更好地聚合并減少參數(shù)量,在注意力圖的生成過程中添加了兩種池化操作,分別為平均池化(AvgPool)和最大值池化(MaxPool),前者能保留全局范圍內(nèi)的反饋,后者能突出強調(diào)局部響應(yīng)大的反饋,相互補充。
圖5 輕量級注意力模塊
Figure 5 The light-weighted attention module
為了更好地發(fā)揮頻率特征的優(yōu)勢,頻率特征提取模塊采取先分離后融合的策略,如圖6所示,本文設(shè)計了頻率特征分離模塊和頻率特征融合模塊。
圖6 頻率特征提取模塊
Figure 6 Frequency feature extraction module
首先進行頻率特征分離操作。選用離散余弦變換得到人臉頻譜圖。其中,低頻分量密度大,集中在左上角;中頻分量信號靠近中間呈帶狀分布;高頻分量的密度較低,占據(jù)整個右下角。設(shè)計3種二分類濾波器將低頻、中頻、高頻分量各自提取出來,其本質(zhì)是由 0、1構(gòu)成的二進制掩碼。
在頻率分量的特征融合階段,依次經(jīng)過卷積和平均池化得到尺寸相同的編碼特征。隨后,在通道方向上按照低、中、高的順序進行拼接,保持各頻率分量獨立的同時得到融合后的頻率特征。
特征融合是特征處理的關(guān)鍵模塊,空域頻域融合后的總體特征將對模型的最終決策起到指導(dǎo)作用。
在權(quán)重的指導(dǎo)下,相乘后的新頻率特征能呈現(xiàn)更多檢測所需的紋理信息。相比起均勻融合,以唇型特征為主的有側(cè)重融合,能突出有效特征,增強網(wǎng)絡(luò)的學(xué)習(xí)能力。
針對壓縮場景下的唇型篡改檢測任務(wù),本文設(shè)計雙重損失函數(shù),改善原先方法中普遍采取的基于二分類任務(wù)的粗粒度約束,進一步優(yōu)化模型的檢測性能。損失函數(shù)模塊如圖8所示,輸入的融合特征經(jīng)過卷積、平均池化后,再通過全連接層進行矩陣變換,與樣本標(biāo)記空間建立映射得到當(dāng)前的輸出結(jié)果。隨后,由 Softmax Loss[12]和 Center Loss[13]構(gòu)成的雙重損失函數(shù)模塊對輸出結(jié)果進行誤差計算。
圖7 特征融合模塊
Figure 7 Feature fusion module
圖8 損失函數(shù)模塊
Figure 8 Loss function module
Softmax Loss計算公式如下:
Center loss計算公式如下:
進一步,求得偏導(dǎo)為:
顯然,兩個損失函數(shù)的作用有所不同。在特征空間中,Softmax Loss 將不同類別間的各點分開,Center Loss 將同一類別中的各點向中心方向收縮,共同對唇型篡改檢測任務(wù)形成細粒度的約束。模型在上述迭代優(yōu)化中,逐漸學(xué)習(xí)真實、篡改唇型間更具有區(qū)分性的特征,提升檢測性能。而大多數(shù)方法采用的二分類交叉熵則屬于粗粒度約束,僅從輸出結(jié)果與標(biāo)簽之間的距離進行衡量,導(dǎo)致類內(nèi)特征不夠緊湊,在唇型篡改的關(guān)鍵痕跡獲取上更難把握。
本節(jié)首先介紹實驗設(shè)置,包括數(shù)據(jù)集和評價指標(biāo)等,隨后對提出的唇型篡改檢測方法進行實驗,包括庫內(nèi)的真假分類評估、跨方法評估,跨數(shù)據(jù)庫的遷移性評估以及關(guān)鍵模塊的消融實驗。
本文實驗采用人臉偽造數(shù)據(jù)集FaceForensics++[14]和Celeb-DF[15]。
FaceForensics++數(shù)據(jù)集使用4 種人臉偽造方法,其中,F(xiàn)aceSwap[16]和Face2Face[17]是基于計算機圖形學(xué)的方法,而DeepFakes[18]和 Neural Textures[19]則是基于學(xué)習(xí)的方法,在不同方法間可進行檢測評估。此外,采用H.264編解碼器對視頻進行不同程度的壓縮,得到相應(yīng)的高質(zhì)量視頻(HQ,C23)和低質(zhì)量視頻(LQ,C40)。該數(shù)據(jù)集是目前首個引入壓縮操作的大型公開數(shù)據(jù)集。
Celeb-DF數(shù)據(jù)集則以視頻制作精良,檢測難度較大為顯著特點,是評估模型遷移性較為理想的測試數(shù)據(jù)集之一。
評價指標(biāo)方面,采用準(zhǔn)確率(ACC,accuracy)[23]和ROC曲線面積(AUC,area under thecurve)[20]對本文實驗進行評估。
為了評估不同壓縮強度下模型的檢測性能,在FaceForensics++數(shù)據(jù)集的C23和C40上分別進行訓(xùn)練和測試,并與現(xiàn)有方法在ACC 和AUC指標(biāo)上進行對比,得到的實驗結(jié)果如表1所示。
表1 真假分類評估結(jié)果
在比較的方法中,Steg. Features[22]是基于隱寫分析特征的人工檢測方法,從Cozzolino等到XceptionNet的5種方法[23-27]則是基于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)檢測方法。從表1中結(jié)果可以看出,本文方法在兩種壓縮場景下的性能均優(yōu)于先前方法。在高壓縮的C40上,通過結(jié)合頻率特征捕捉到關(guān)鍵篡改痕跡,取得了更大的增幅。
在FaceForensics++數(shù)據(jù)集的不同方法間使用留一法進行評估,即選擇3類作為訓(xùn)練集,剩下一類作為測試集,總共產(chǎn)生4類測試結(jié)果。為了保障公平客觀性,本文實驗統(tǒng)一使用C40高壓縮下的視頻進行訓(xùn)練和測試,ACC作為評價指標(biāo),并與真假分類評估中的檢測方法進行比較,結(jié)果如表2所示。
表2 庫內(nèi)跨方法評估結(jié)果
在4種篡改方法中,DeepFakes上的檢測準(zhǔn)確率普遍較高,而在Neural Textures的檢測上則呈現(xiàn)一定差距,這可能與篡改方法自身的原理有關(guān)。DeepFakes和FaceSwap屬于早期的篡改方法,Neural Textures和Face2Face則在前兩者的基礎(chǔ)上改進,提高了生成視頻的質(zhì)量。雖然不同方法間的檢測難度有所不同,本文方法依然在庫內(nèi)跨方法評估上取得了更好的表現(xiàn)效果。
為了更好地模擬真實場景,本文進行了跨數(shù)據(jù)庫遷移性評估。本文實驗采用FaceForensics++的C23視頻作為訓(xùn)練集,Celeb-DF作為測試數(shù)據(jù)集,AUC作為評價指標(biāo),并與主打遷移性的4種相關(guān)檢測方法進行比較,具體的實驗設(shè)置如表3所示。其中,Two-stream[28]采用雙流網(wǎng)絡(luò)結(jié)構(gòu);Multi-task[29]不僅判斷人臉圖像是否經(jīng)過篡改,還定位分割出篡改區(qū)域;VA-LogReg[30]使用邏輯回歸模型,聚焦于篡改方法在眼睛、牙齒上留下的視覺偽影;FWA[31]則捕捉插值和尺寸縮放引起的形變痕跡。上述方法分別從不同的檢測視角出發(fā)。
從同時列出的FaceForensics++(C23)和Celeb-DF的實驗結(jié)果來看,兩個數(shù)據(jù)集的特征分布存在明顯差異,模型在后者上的表現(xiàn)出現(xiàn)普遍下降。雖然Celeb-DF在檢測上具有相當(dāng)?shù)奶魬?zhàn)難度,本文方法依然取得了AUC上的提升,達到66.24%,在跨數(shù)據(jù)庫間展現(xiàn)出一定的遷移性。
表3 跨數(shù)據(jù)集遷移性評估結(jié)果
3.5.1 頻率分量選擇實驗
低頻、中頻、高頻分量分別包含不同的圖像特征,在壓縮場景下的唇型篡改檢測中產(chǎn)生的作用也不盡相同。設(shè)計實驗對不同頻率信號下的模型檢測性能進行評估,結(jié)果如表4所示。
表4 頻率分量選擇實驗結(jié)果
表4中第一行基線模型XceptionNet 作為對照組,沒有頻率分量輸入。從壓縮程度來看,在高壓縮的C40上,性能提升幅度更大;從頻率信息來看,相比高頻信息,加入低頻和中頻信息的提升作用更大,但3個分量的加入均對模型的檢測起到正向作用。
3.5.2 損失函數(shù)選擇實驗
本文方法的損失函數(shù)由Softmax Loss和Center Loss 兩部分組成,實驗如表5所示。與第一行僅使用Softmax Loss的粗粒度約束場景相比,加上Center Loss的約束項后,在C23和C40的場景中模型的性能均有所提高。結(jié)果表明,改進后的損失函數(shù)在模型訓(xùn)練中進行了細粒度約束,在分開不同特征的同時,引導(dǎo)同一類特征向中心方向更加靠攏。
表5 損失函數(shù)選擇結(jié)果
針對網(wǎng)絡(luò)空間中廣泛存在的壓縮操作,對當(dāng)前唇型篡改檢測帶來的挑戰(zhàn),本文充分挖掘頻率信號抗干擾的特性,提出了空域頻域相結(jié)合的唇型篡改檢測方法??沼蛏希捎肦PN自適應(yīng)提取與輕量級注意力兩個模塊,關(guān)注局部重點區(qū)域,實現(xiàn)唇型特征的靈活提?。活l域上,使用離散余弦變換與反變化,提取低頻、中頻、高頻率分量再進行通道上的堆疊,保持各分量獨立性。隨后,在唇型特征指導(dǎo)下對兩路特征進行有側(cè)重的融合。訓(xùn)練階段,為了對模型形成細粒度約束,采用由Softmax Loss 和 Center Loss 構(gòu)成的雙重損失函數(shù)。實驗結(jié)果表明,與現(xiàn)有方法相比,本文方法在檢測準(zhǔn)確性與遷移性上取得更好表現(xiàn)。此外,消融實驗的結(jié)果證明了頻率分量和細粒度約束的有效性。
隨著人臉偽造方法的精細化發(fā)展,未來的檢測工作除了考慮現(xiàn)有的空域、頻域外,還可能拓展至?xí)r域,從3種特征維度上挖掘出更多潛在篡改痕跡,突破先前框架,進一步提升面向?qū)嶋H的檢測性能。
[1] SUWAJANAKORN S, SEITZ S M, KEMELMACHER- SHLIZERMAN I. Synthesizing Obama: learning lip sync from audio[J]. ACM Transactions on Graphics (TOG), 2017, 36: 1-13.
[2] SIAROHIN A, LATHUILIèRE S, TULYAKOV S, et al. First order motion model for image animation[J]. ArXiv, 2019, abs/2003.00196.
[3] YI R, YE Z, ZHANG J, et al. Audio-driven talking face video generation with learning-based personalized head pose[J]. arXiv: 2002. 10137v2, 2020.
[4] PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 484-492.
[5] HALIASSOS A, VOUGIOUKAS K, PETRIDIS S, et al. Lips don't lie: a generalisable and robust approach to face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 5037-5047.
[6] FARHA Y A, GALL J. MS-TCN: multi-stage temporal convolutional network for action segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 3570-3579.
[7] QIAN Y Y, YIN G J, SHENG L, et al. Thinking in frequency: face forgery detection by mining frequency-aware clues[C]//Proceedings of Computer Vision – ECCV 2020. 2020: 86-103.
[8] LI J M, XIE H T, LI J H, et al. Frequency-aware discriminative feature learning supervised by single-center loss for face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 6454-6463.
[9] CHEN S, YAO T P, CHEN Y, et al. Local relation learning for face forgery detection[J]. arXiv:2105.02577, 2021.
[10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[11] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2261-2269.
[12] SUN Y, WANG X G, TANG X O. Deep learning face representation from predicting 10, 000 classes[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1891-1898.
[13] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[C]//Proceedings of Computer Vision – ECCV 2016. 2016: 499-515.
[14] R?SSLER A, COZZOLINO D, VERDOLIVA L, et al. FaceForensics++: learning to detect manipulated facial images[C]//Proceed- ings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 1-11.
[15] LI Y Z, YANG X, SUN P, et al. Celeb-DF: a large-scale challenging dataset for DeepFake forensics[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 3204-3213.
[16] Faceswap. Faceswap github[EB].
[17] THIES J, ZOLLH?FER M, STAMMINGER M, et al. Face 2 face: real-time face capture and reenactment of RGB videos[J]. ArXiv, 2019, abs/2007.14808.
[18] DeepFakes. Deepfakes github[EB].
[19] THIES J, ZOLLH?FER M, NIE?NER M, et al. Real-time expression transfer for facial reenactment[J]. ACM Transactions on Graphics, 2015, 34(6): 1-14.
[20] LI L Z, BAO J M, ZHANG T, et al. Face X-ray for more general face forgery detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 5000-5009.
[21] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. CoRR, 2015, abs/1412.6980.
[22] FRIDRICH J J, KODOVSKY J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
[23] AFCHAR D, NOZICK V, YAMAGISHI J, et al. MesoNet: a compact facial video forgery detection network[J]. 2018 IEEE International Workshop on Information Forensics and Security (WIFS), 2018: 1-7.
[24] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1800-1807.
[25] COZZOLINO D, POGGI G, VERDOLIVA L. Recasting residual-based local descriptors as convolutional neural networks: an application to image forgery detection[C]//Proceedings of the 5th ACM Workshop on Information Hiding and Multimedia Security. 2017: 159-164.
[26] BAYAR B, STAMM M C. A deep learning approach to universal image manipulation detection using a new convolutional layer[C]// Proceedings of the 4th ACM Workshop on Information Hiding and Multimedia Security. 2016: 5-10.
[27] RAHMOUNI N, NOZICK V, YAMAGISHI J, et al. Distinguishing computer graphics from natural images using convolution neural networks[J]. 2017 IEEE Workshop on Information Forensics and Security (WIFS), 2017: 1-6.
[28] ZHOU P, HAN X T, MORARIU V I, et al. Two-stream neural networks for tampered face detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017: 1831-1839.
[29] NGUYEN H H, FANG F M, YAMAGISHI J, et al. Multi-task learning for detecting and segmenting manipulated facial images and videos[C]//Proceedings of 2019 IEEE 10th International Conference on Biometrics Theory, Applications and Systems. 2019: 1-8.
[30] MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose deepfakesand face manipulations[J]. 2019 IEEE Winter Applications of Computer Vision Workshops(WACVW), 2019: 83-92.
[31] LI Y, LYU S. Exposing DeepFake videos by detecting face warping artifacts[J]. ArXiv, 2019, abs/1811.00656.
Lip forgery detection via spatial-frequency domain combination
LIN Jiaying1,2, ZHOU Wenbo1,2,ZHANG Weiming1,2,YU Nenghai1,2
1. Key Laboratory of Electromagnetic Space Information, Chinese Academy of Sciences, Hefei 230027, China 2. School of Cyber Science, University of Science and Technology of China, Hefei 230027, China
In recent years, numerous “face-swapping” videos have emerged in social networks, one of the representatives is the lip forgery with speakers. While making life more entertaining for the public, it poses a significant crisis for personal privacy and property security in cyberspace. Currently, under non-destructive conditions, most of the lip forgery detection methods achieve good performance. However, the compression operations are widely used in practice especially in social media platforms, face recognition and other scenarios. While saving pixel and time redundancy, the compression operations affect the video quality and destroy the coherent integrity of pixel-to-pixel and frame-to-frame in the spatial domain, and then the degradation of its detection performance and even misjudgment of the real video will be caused. When the information in the spatial domain cannot provide sufficiently effective features, the information in the frequency domain naturally becomes a priority research object because it can resist compression interference. Aiming at this problem, the advantages of frequency information in image structure and gradient feedback were analyzed. Then the lip forgery detectionvia spatial-frequency domain combination was proposed, which effectively utilized the corresponding characteristics of information in spatial and frequency domains. For lip features in the spatial domain, an adaptive extraction network and a light-weight attention module were designed. For frequency features in the frequency domain, separate extraction and fusion modules for different components were designed. Subsequently, by conducting a weighted fusion of lip features in spatial domain and frequency features in frequency domain, more texture information was preserved. In addition, fine-grained constraints were designed during the training to separate the inter-class distance of real and fake lip features while closing the intra-class distance. Experimental results show that, benefiting from the frequency information, the proposed method can enhance the detection accuracy under compression situation with certain transferability. On the other hand, in the ablation study conducted on the core modules, the results verify the effectiveness of the frequency component for anti-compression and the constraint of the dual loss function in training.
DeepFake forgery, DeepFake detection and defense, lipforgery detection, anti-compression, deep learning
TP309.2
A
10.11959/j.issn.2096?109x.2022075
2022?04?06;
2022?07?09
周文柏,welbeckz@ustc.edu.cn
國家自然科學(xué)基金(U20B2047,62072421,62002334,62102386,62121002);中國科技大學(xué)探索基金項目(YD3480002001);中央高?;A(chǔ)研究基金(WK2100000011)
The NationalNatural Science Foundation of China (U20B2047, 62072421, 62002334, 62102386, 62121002), Exploration Fund Project of University of Science and Technology of China(YD3480002001), Fundamental Research Funds for the Central Universities(WK2100000011)
林佳瀅, 周文柏, 張衛(wèi)明, 等. 空域頻域相結(jié)合的唇型篡改檢測方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2022, 8(6): 146-155.
LIN J Y, ZHOU W B, ZHANG W M, et al. Lip forgery detection via spatial-frequency domain combination[J]. Chinese Journal of Network and Information Security, 2022, 8(6): 146-155.
林佳瀅(1997? ),女,江西贛州人,中國科學(xué)技術(shù)大學(xué)碩士生,主要研究方向為人工智能安全、信息隱藏。
周文柏(1992? ),男,安徽合肥人,中國科學(xué)技術(shù)大學(xué)特任副研究員,主要研究方向為信息隱藏、人工智能安全。
張衛(wèi)明(1976? ),男,河北定州人,中國科學(xué)技術(shù)大學(xué)教授、博士生導(dǎo)師,主要研究方向為信息隱藏、多媒體內(nèi)容安全、人工智能安全。
俞能海(1964? ),男,安徽無為人,中國科學(xué)技術(shù)大學(xué)教授、博士生導(dǎo)師,主要研究方向為多媒體信息檢索、圖像處理與視頻通信、數(shù)字媒體內(nèi)容安全。