李杏清,王志兵,楊潤豐,張金旺,詹寶容
(1. 東莞職業(yè)技術(shù)學(xué)院建筑學(xué)院,東莞 523808;2. 東莞職業(yè)技術(shù)學(xué)院電子信息學(xué)院,東莞 523808;3. 廣東創(chuàng)新科技職業(yè)學(xué)院信息工程學(xué)院,東莞 523960)
近年來,人工智能技術(shù)發(fā)展迅猛,智能機(jī)器人在很多細(xì)分領(lǐng)域超越了普通人,甚至是該領(lǐng)域的專家,例如說無人駕駛、阿爾法狗等。但是,隨著人工智能的深入應(yīng)用,一些負(fù)面的影響也逐步呈現(xiàn)出來,深度偽造(Deepfake)就是其中的一種,深度偽造由于應(yīng)用了深度學(xué)習(xí)的框架和方法,在人臉圖像合成或者視頻生成方面都取得了很大的進(jìn)步,很多時(shí)候可以做到以假亂真[1]。
2015 年,生成對(duì)抗網(wǎng)絡(luò)的出現(xiàn),在視頻生成中取得了突破性的進(jìn)展,使得深度偽造技術(shù)更加的成熟,人們可以輕易編輯功能強(qiáng)大且輕便的圖像,甚至可以制作合成圖像和偽造視頻。合成圖像編輯和視頻生成一方面給人類帶來了極大的便利,另一方面又給社會(huì)帶來了潛在的威脅,以前的照片和視頻是交通場景和法庭上非常有力的證據(jù),但是現(xiàn)在卻不得不去檢測這些圖像和視頻的真?zhèn)?,是否有人為編輯和軟件生成的痕跡。因?yàn)楹铣珊蟮膱D像和視頻非常容易誤導(dǎo)我們對(duì)事情的分析和判定,甚至歪曲犯罪事實(shí)[2]。因此,找到有效檢測深度偽造視頻的方法非常重要。
本文采用改進(jìn)的基于雙流分析的網(wǎng)絡(luò)模型來檢測深度偽造視頻,該模型可以有效捕獲深度偽造視頻時(shí)域特征和空間域特征不一致的特性,解決了泛化性差的問題,在準(zhǔn)確率和曲線面積等性能上優(yōu)于各基線模型方法。
此外,我們?cè)谟?xùn)練網(wǎng)絡(luò)權(quán)重的時(shí)候考慮到輸入圖像中的遮擋信息,并鼓勵(lì)網(wǎng)絡(luò)關(guān)注未被遮擋的面部區(qū)域。該方法在兩個(gè)公開數(shù)據(jù)集上進(jìn)行了評(píng)估,并與幾種基線方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,該方法在遮擋下的精度和魯棒性都優(yōu)于基線方法。
傳統(tǒng)的視頻偽造檢測技術(shù)主要依賴于視頻編輯痕跡檢測、復(fù)制移動(dòng)檢測、嵌入式水印技術(shù)和音頻分析等方法[3]:
視頻編輯痕跡檢測旨在檢測視頻中的編輯痕跡,如剪切、粘貼、疊加等。常見的技術(shù)包括幀差分析、幀間距離度量和關(guān)鍵幀提取,以查找不一致或異常的幀。復(fù)制移動(dòng)檢測用于檢測視頻中物體的復(fù)制和移動(dòng)。它通過分析視頻中的物體運(yùn)動(dòng)模式來查找不正常的復(fù)制或移動(dòng)。嵌入式水印技術(shù)經(jīng)常用于一些制造和分發(fā)視頻的機(jī)構(gòu),在視頻中嵌入特定信息,以驗(yàn)證視頻的真實(shí)性。這種水印可以是可見的或不可見的。由于音頻數(shù)據(jù)也可以用于視頻偽造檢測,所以通過分析視頻中的音頻軌道,可以檢測是否存在不合理的剪輯或添加。
隨著技術(shù)的不斷發(fā)展,視頻偽造技術(shù)也在不斷進(jìn)步,因此傳統(tǒng)的檢測方法可能需要不斷更新和改進(jìn),以適應(yīng)新的偽造技術(shù)。新興技術(shù)如深度學(xué)習(xí)和人工智能也正在被應(yīng)用于視頻偽造檢測領(lǐng)域,以提高檢測的準(zhǔn)確性和效率。
近年來,基于深度學(xué)習(xí)的視頻偽造檢測技術(shù)逐漸成為研究熱點(diǎn),越來越多的學(xué)者從事相關(guān)的研究和改進(jìn),有基于單幀的圖像特征的視頻檢測,有基于不同幀之間的時(shí)間特征的視頻檢測等。
Masi 等[4]提出一種隔離視頻深度造假的雙分支循環(huán)網(wǎng)絡(luò),該方法基于稠密連接層的雙分支表示提取器,使用多尺度拉普拉斯高斯算子學(xué)習(xí)組合來自色域和自由頻率域的信息,高斯運(yùn)算符抑制低級(jí)特性映射中出現(xiàn)的圖像內(nèi)容,充當(dāng)帶通濾波器來放大偽影。該方法還使用了一種新穎的損失函數(shù),促進(jìn)了自然的面孔表征的緊密性,并推開被操縱的面孔,以獲得更好、更寬的分離邊界,這與使用二元交叉熵來檢測面部操縱的方法不同。
Qian 等[5]把頻率引入人臉偽造檢測中,提出了一種新的人臉偽造頻率網(wǎng)絡(luò)(F3-Net),利用兩種不同但互補(bǔ)的頻率感知線索,頻率感知分解圖像分量和局部頻率統(tǒng)計(jì),深度挖掘偽造模式,并通過雙流協(xié)作學(xué)習(xí)框架,應(yīng)用DCT 作為頻域變換。通過綜合實(shí)驗(yàn)研究,證明了所提出的F3-Net 模型在所有壓縮質(zhì)量上明顯優(yōu)于當(dāng)時(shí)其他檢測方法,特別是在具有挑戰(zhàn)性的face Forensics++數(shù)據(jù)集中取得了良好的實(shí)驗(yàn)效果。
Zhao等[6]將深度偽造檢測描述為一個(gè)細(xì)粒度的分類問題,并提出了一種新的多注意力深度偽造檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)由三個(gè)模塊組成:多空間注意力模塊、紋理特征增強(qiáng)模塊和特征融合模塊,多空間注意力使網(wǎng)絡(luò)關(guān)注不同的局部部分;紋理特征增強(qiáng)塊放大淺層特征中的細(xì)微偽影;特征融合模塊對(duì)低層次的紋理特征和高層次的語義特征進(jìn)行聚合。此外,為了解決該網(wǎng)絡(luò)的學(xué)習(xí)困難,作者進(jìn)一步引入了一種新的區(qū)域獨(dú)立性損失和一種注意力引導(dǎo)的數(shù)據(jù)增強(qiáng)策略。通過在不同數(shù)據(jù)集上的大量實(shí)驗(yàn),證明了該方法優(yōu)于普通的二元分類器,并實(shí)現(xiàn)了較好的性能。
對(duì)于深度偽造視頻,針對(duì)拍攝場景的不同、拍攝角度的差異和遮擋程度的不同,最后得出的識(shí)別效果差別很大,因此,在檢測之前,我們需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理。首先需要定位人臉位置,通過算法來檢測人臉并使用邊界框來定位人臉位置,如果是視頻中變化的人臉,我們會(huì)把視頻中的圖像分成幾個(gè)小的幀結(jié)構(gòu),每個(gè)幀結(jié)構(gòu)識(shí)別出一個(gè)人臉圖像,通過識(shí)別框來定位人臉位置,將每幀的識(shí)別框轉(zhuǎn)換為視頻。實(shí)驗(yàn)中我們將視頻分為128幀,每幀的人臉視頻裁剪為128*128大小,檢測模型總體框圖如圖1所示。
圖1 檢測模型總體框圖
R(2+1)D 包含空間卷積和時(shí)間卷積兩個(gè)模塊,這兩個(gè)模塊是相互獨(dú)立的,一個(gè)是2D 的空間卷積,一個(gè)是1D 的時(shí)間卷積,如果分解后的網(wǎng)絡(luò)和3D 網(wǎng)絡(luò)采用相同的參數(shù)量,分解后的R(2+1)D更容易優(yōu)化。
MC3 網(wǎng)絡(luò)和R(2+1)D 不同,MC3 網(wǎng)絡(luò)先是針對(duì)圖像高級(jí)特征進(jìn)行了2D 卷積處理,然后針對(duì)圖像低級(jí)特征,在淺層進(jìn)行3D 卷積運(yùn)算,同時(shí)具備了2D 卷積和3D 卷積的優(yōu)勢,訓(xùn)練圖像的分辨率采用128*128,損失函數(shù)采用交叉熵?fù)p失函數(shù)。
我們結(jié)合R(2+1)D 網(wǎng)絡(luò)和MC3 網(wǎng)絡(luò)的優(yōu)缺點(diǎn),設(shè)計(jì)了自己的Deeper 網(wǎng)絡(luò),該網(wǎng)絡(luò)全部使用3D 卷積,加快了訓(xùn)練速度,提高了網(wǎng)絡(luò)的性能。我們使用兩個(gè)小的3*3 的卷積核代替大的7*7 卷積核,訓(xùn)練圖像的分辨率采用128*128,激活函數(shù)選用ReLU 函數(shù),這樣既可以獲得MC3網(wǎng)絡(luò)3D 卷積的優(yōu)勢,又可以通過小卷積核代替大卷積核減小訓(xùn)練參數(shù)數(shù)量和計(jì)算機(jī)內(nèi)存損耗。R(2+1)D 網(wǎng)絡(luò)、MC3 網(wǎng)絡(luò)和Deeper 網(wǎng)絡(luò)如圖2所示。
圖2 R(2+1)D網(wǎng)絡(luò)、MC3網(wǎng)絡(luò)和Deeper網(wǎng)絡(luò)
本文在3D CNN 的基礎(chǔ)上,利用自己訓(xùn)練出的Deeper 網(wǎng)絡(luò),設(shè)計(jì)出改進(jìn)的雙流分析網(wǎng)絡(luò)模型,該模型采用兩個(gè)通道同時(shí)處理RGB 數(shù)據(jù)和光流數(shù)據(jù),一個(gè)通道進(jìn)行RGB 數(shù)據(jù)處理,一個(gè)通道進(jìn)行光流數(shù)據(jù)處理,通過Deeper 網(wǎng)絡(luò)后進(jìn)行疊加,最后得出分類的判定,是真實(shí)的還是偽造的。在實(shí)驗(yàn)中,Deeper 網(wǎng)絡(luò)輸入的數(shù)據(jù)為128 幀,每幀圖像分辨率為128*128,激活函數(shù)選用ReLU 函數(shù),最后一層使用softmax 函數(shù)來輸出分類結(jié)果,在縮減訓(xùn)練參數(shù)的同時(shí)提高了運(yùn)算速度,并且解決了泛化性不足的問題,改進(jìn)的雙流分析結(jié)構(gòu)圖如圖3所示,改進(jìn)的基于雙流分析的網(wǎng)絡(luò)模型如圖4所示。
圖3 改進(jìn)的雙流分析結(jié)構(gòu)圖
圖4 改進(jìn)的基于雙流分析的網(wǎng)絡(luò)模型
本節(jié)描述了所進(jìn)行的實(shí)驗(yàn),以評(píng)估本文提出的網(wǎng)絡(luò)模型在深度偽造視頻檢測中的性能。
隨著Deepfake 偽造技術(shù)的發(fā)展,更大規(guī)模和更高質(zhì)量的數(shù)據(jù)集不斷被發(fā)布,我們使用Deepfake 數(shù)據(jù)集中Face Forensics++[7]來訓(xùn)練以及評(píng)估檢測模型的性能。該數(shù)據(jù)集包含1000 real,4000 fake,一共四種偽造方法,包含三種分辨率,整體質(zhì)量偏低,有明顯偽像。
實(shí)驗(yàn)的主要評(píng)估指標(biāo)有準(zhǔn)確率(ACC)、ROC曲線面積(AUC),HQ和LQ分別代表低壓縮率和高壓縮率。
其中:TP和FP表示正確檢測到的像素?cái)?shù)量和錯(cuò)誤檢測到的像素?cái)?shù)量,F(xiàn)N為錯(cuò)誤遺漏像素的數(shù)量。FPR為負(fù)正類率,即ROC曲線的橫坐標(biāo),TPR為真正類率,即ROC曲線的縱坐標(biāo)。
實(shí)驗(yàn)中,我們分別在FF++HQ和FF++LQ測試數(shù)據(jù)集中進(jìn)行了測試和驗(yàn)證。在FF+ +HQ數(shù)據(jù)集中,驗(yàn)證得到的ACC和AUC都高于基線方法,其中,ACC的效果比較明顯。在FF++LQ數(shù)據(jù)集中,得到的ACC和AUC都取得了較好的效果。實(shí)驗(yàn)結(jié)果見表1。
表1 FF + +HQ和FF + +LQ數(shù)據(jù)集中測試的結(jié)果(%)
實(shí)驗(yàn)結(jié)果表明,Deeper 網(wǎng)絡(luò)和卷積核的大小對(duì)網(wǎng)絡(luò)性能的影響最為顯著。去掉這些組件會(huì)顯著降低網(wǎng)絡(luò)模型的測檢率和魯棒性。同時(shí),我們發(fā)現(xiàn)引入不同的損失函數(shù)和訓(xùn)練數(shù)據(jù)集也會(huì)對(duì)網(wǎng)絡(luò)性能產(chǎn)生一定的影響。通過實(shí)驗(yàn),我們可以更好地了解網(wǎng)絡(luò)模型中不同組件的貢獻(xiàn),并進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略,以提高網(wǎng)絡(luò)性能。
本文主要研究基于AI 安全的深度視頻偽造檢測技術(shù),針對(duì)實(shí)際應(yīng)用偽造類型多樣化,而檢測過程中只檢測單一偽造數(shù)據(jù)類型等問題,提出了一種新的數(shù)據(jù)預(yù)處理方法,解決了視頻中運(yùn)動(dòng)圖像容易連續(xù)重疊的問題。針對(duì)人臉模糊偽造、側(cè)面人臉偽造和遮擋人臉偽造問題,利用小卷積核代替大卷積核的方法訓(xùn)練出自己的Deeper網(wǎng)絡(luò);針對(duì)幀插入、幀復(fù)制、幀修改、幀內(nèi)篡改四種常見的深度視頻偽造,尤其是在測試領(lǐng)域差距較大的情況下,容易產(chǎn)生泛化性不足的問題,設(shè)計(jì)了一種基于雙流分析的深度偽造視頻檢測模型,在Face Forensics++數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該模型在ACC和AUC都取得了較好的效果。