• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的人臉篡改檢測(cè)方法

      2021-04-23 04:32:44張韓鈺吳志昊
      關(guān)鍵詞:人臉準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

      張韓鈺,吳志昊,徐 勇,陳 斌

      1.哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳518000

      2.深圳市目標(biāo)檢測(cè)與判別重點(diǎn)實(shí)驗(yàn)室,廣東 深圳518000

      3.深圳市云天勵(lì)飛技術(shù)有限公司,廣東 深圳518040

      當(dāng)前,隨著計(jì)算機(jī)視覺的發(fā)展,圖像和視頻篡改變得越來越容易,甚至可以達(dá)到以假亂真的程度。人臉這種具有身份標(biāo)志性的特征,如果被篡改,會(huì)帶來身份被盜用或被“嫁接”的嚴(yán)重問題。近年,經(jīng)由Deepfake這種深度學(xué)習(xí)換臉?biāo)惴óa(chǎn)生的假視頻在互聯(lián)網(wǎng)上廣泛傳播,已經(jīng)對(duì)不少公眾人物產(chǎn)生了很大的負(fù)面影響。

      識(shí)別一張人臉是否被篡改是一個(gè)典型的二分類問題。2012 年,F(xiàn)ridrich 等人[1]手動(dòng)提取圖像特征并使用SVM[2]方法判斷圖像是否被篡改。2016年,Rahmouni等人[3]利用CNN 架構(gòu)并使用全局池化層計(jì)算特征的統(tǒng)計(jì)信息來判斷圖像的真假情況。2017年,Zhou等人[4]提出了兩階段神經(jīng)網(wǎng)絡(luò)算法,但是存在結(jié)構(gòu)復(fù)雜、準(zhǔn)確率低等問題。2018年Afchar等人[5]提出了一個(gè)基于Inception[6]的MesoInception-4模型,并達(dá)到了不錯(cuò)的效果。2019年,Sabir 等人[7]提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來從時(shí)序上判斷人臉視頻是否被篡改。R?ssler等人[8]發(fā)布了一個(gè)人臉視頻篡改的數(shù)據(jù)集,并使用預(yù)訓(xùn)練模型Xception[9]訓(xùn)練了一個(gè)效果不錯(cuò)的模型。這些方法都在一定程度上解決了換臉視頻檢測(cè)問題,但是基本上都存在準(zhǔn)確率較低、訓(xùn)練過程復(fù)雜或者對(duì)未知篡改方式泛化能力低下等問題。

      鑒于此,本文基于一個(gè)性能優(yōu)異的預(yù)訓(xùn)練模型resnext101_32x8d_WSL[10]進(jìn)行人臉篡改檢測(cè)。為了減輕模型訓(xùn)練時(shí)的過擬合并增強(qiáng)模型的魯棒性,在訓(xùn)練時(shí)使用cutout[11]數(shù)據(jù)增強(qiáng)技術(shù),隨機(jī)遮蓋圖片的一部分,使得神經(jīng)網(wǎng)絡(luò)不會(huì)過分依賴人臉圖像的某一個(gè)特征來區(qū)分圖像的真假。此外,本文使用labelsmoothing[12]作為損失函數(shù),并在訓(xùn)練中后期借鑒知識(shí)蒸餾[13]的思想對(duì)labelsmothing[12]進(jìn)行修改,這樣可以進(jìn)一步增加模型泛化性能的能力。

      1 方法

      本文的算法流程如圖1所示。訓(xùn)練流程總共分為7個(gè)步驟,具體解釋如下:

      (1)從原始訓(xùn)練集和驗(yàn)證集視頻中隨機(jī)抽取1幀或等間距抽取5幀(見步驟1)。

      (2)對(duì)每一幀做人臉檢測(cè)(見步驟2)。

      (3)根據(jù)人臉檢測(cè)的邊框截取人臉圖像(見步驟3)。

      (4)對(duì)人臉圖像做Cutout操作(見步驟4)。

      (5)將做完Cutout 操作的人臉圖像輸入神經(jīng)網(wǎng)絡(luò)(見步驟5)。

      (6)神經(jīng)網(wǎng)絡(luò)輸出二分類概率值(見步驟6)。

      (7)計(jì)算二分類概率值的損失,并進(jìn)行反向傳播(見步驟7)。

      測(cè)試流程總共分為5個(gè)步驟,具體解釋如下:

      (1)從原始測(cè)試集視頻中隨機(jī)抽取1幀或等間距抽取5幀(抽取方式與訓(xùn)練時(shí)保持一致)(見步驟1)。

      (2)對(duì)每一幀做人臉檢測(cè)(見步驟2)。

      (3)根據(jù)人臉檢測(cè)的邊框截取人臉圖像(見步驟3)。

      (4)將人臉圖像輸入神經(jīng)網(wǎng)絡(luò)(見步驟5)。

      (5)神經(jīng)網(wǎng)絡(luò)輸出二分類概率值即為預(yù)測(cè)結(jié)果(見步驟6)。

      以下對(duì)關(guān)鍵步驟做出詳細(xì)解釋。

      1.1 人臉檢測(cè)與提取

      由于換臉?biāo)惴ㄖ惶鎿Q了人的臉或者對(duì)其進(jìn)行了部分修改,而人的其他部位并沒有改動(dòng),所以本文的重點(diǎn)關(guān)注對(duì)象應(yīng)該是人臉,只對(duì)人臉的特征進(jìn)行分析,以判別出其真?zhèn)巍U{(diào)用dlib 庫中的一個(gè)訓(xùn)練好的人臉檢測(cè)器[14],使用該檢測(cè)器檢測(cè)圖像會(huì)得到4個(gè)坐標(biāo)值,然后根據(jù)這4個(gè)坐標(biāo)值畫出截取人臉的邊框(見圖1中步驟2),然后根據(jù)邊框裁剪出一張人臉圖像(見圖1中步驟3)。

      1.2 數(shù)據(jù)增強(qiáng)方法

      不同的換臉?biāo)惴óa(chǎn)生的人臉圖像有不同的篡改痕跡,甚至未來更加先進(jìn)的換臉?biāo)惴óa(chǎn)生的圖像的篡改痕跡更加隱匿,單純使用已有的換臉?biāo)惴óa(chǎn)生的有限數(shù)據(jù)訓(xùn)練出來的模型泛化能力不強(qiáng),只能識(shí)別與原始圖像差異很大的篡改痕跡,而那些比較小的痕跡則很難被檢測(cè)出來。Cutout[11]方法則可以較好地緩解該問題。Cutout[11]覆蓋圖像的某一個(gè)或多個(gè)區(qū)域,這樣會(huì)使神經(jīng)網(wǎng)絡(luò)尋找其他有差異的特征進(jìn)行分類,而且每一張圖像覆蓋的區(qū)域是隨機(jī)產(chǎn)生的,這樣訓(xùn)練多次可以使網(wǎng)絡(luò)盡可能多地識(shí)別不同的篡改痕跡。

      具體過程為對(duì)于一張輸入的人臉圖像,首先將其縮放到224×224,然后隨機(jī)將其中1/4 面積的區(qū)域像素值設(shè)為0,并使每張圖像所遮蓋的區(qū)域是隨機(jī)選取的(見圖1中步驟4)。

      1.3 神經(jīng)網(wǎng)絡(luò)模型

      神經(jīng)網(wǎng)絡(luò)[15-16],尤其是深度卷積的神經(jīng)網(wǎng)絡(luò)[17]已經(jīng)在圖像處理中獲得巨大的成功[18-20]。由于ResNet[21]在ImageNet[22]上的準(zhǔn)確率取得大幅度提升,殘差網(wǎng)絡(luò)已成為一個(gè)廣為使用的分類模型。因此,使用基于ResNext[23]的預(yù)訓(xùn)練模型resnext101_32x8d_WSL[10]來提升分類效果。ResNext[23]與Resnet[21]一樣使用了殘差網(wǎng)絡(luò)模塊,不同之處在于ResNext[23]將ResNet[21]中的通道分組,即將ResNet[21]模塊中的256個(gè)通道每8個(gè)分成一組,總共分為32組,文獻(xiàn)[23]中定義該組數(shù)為網(wǎng)絡(luò)的基數(shù)(cardinality),作者何愷明等人通過實(shí)驗(yàn)證明增加網(wǎng)絡(luò)的基數(shù)(cardinality)比增加網(wǎng)絡(luò)的深度和寬度更加有效,而且還能降低模型的復(fù)雜度。在文獻(xiàn)[10]中,作者仍然使用Resnext[23]模型,只是先利用Instagram庫的9.4億張圖片做弱監(jiān)督預(yù)訓(xùn)練,然后利用ImageNet[22]做微調(diào),這樣訓(xùn)練的效果相比僅僅只在ImageNet[22]上訓(xùn)練的ResNext[23]的效果有顯著提升。在Resnext[23]模型家族中,resnext101_32x8d_WSL比resnext101_32x4d_WSL準(zhǔn)確率更高,且比resnext101_32x16d_WSL 模型參數(shù)少。綜合考慮,resnext101_32x8d_WSL是一個(gè)性能優(yōu)異且運(yùn)行效率較高的模型,所以本文決定使用該預(yù)訓(xùn)練模型。將該模型的最后一層全連接層改為2 048×2,以適應(yīng)本文的二分類任務(wù)。

      圖1 方法主要流程

      1.4 損失函數(shù)

      在圖像分類任務(wù)中,交叉熵(Cross Entropy)是最常見的損失函數(shù),但是交叉熵使用的one-hot 編碼產(chǎn)生的真實(shí)標(biāo)簽概率值(0和1)不能保證模型的泛化能力。0-1概率標(biāo)簽促使某一類圖像的預(yù)測(cè)概率盡可能靠近1,其他類的預(yù)測(cè)概率盡可能靠近0,但是本次任務(wù)中,原始圖像與換臉的圖像只在一些細(xì)節(jié)處有差異,無限制地增加2類圖像的預(yù)測(cè)概率的差距會(huì)使模型容易過擬合。本文所使用的labelsmoothing[12]就是將0-1 標(biāo)簽平滑化,這樣更能反映原始圖像與換臉圖像的真實(shí)差距,使得預(yù)測(cè)的結(jié)果不會(huì)過于極端,起到提高魯棒性的作用。

      對(duì)于樣本x,softmax 層的輸出對(duì)應(yīng)每個(gè)標(biāo)簽的概率為,其真實(shí)標(biāo)簽值為q(k|x),此時(shí)交叉熵如式(1)所示:

      為了減小0-1 標(biāo)簽帶來的過擬合,對(duì)標(biāo)簽做平滑處理,如式(2)所示:

      ε是超參數(shù),文獻(xiàn)[12]中取值為0.1。u(k)服從均勻分布,按照文獻(xiàn)[12]的做法,定義,其中K為類別數(shù)。從而,labelsmoothing[12]損失函數(shù)為式(3)所示:

      另外,在訓(xùn)練過程的后半部分時(shí)間,借鑒知識(shí)蒸餾[13]里面的軟目標(biāo)(softtarget)將softmax進(jìn)行修改,使得在神經(jīng)網(wǎng)絡(luò)能夠繼續(xù)擬合而且還能避免過擬合的風(fēng)險(xiǎn)。修改方式如下:

      在softmax 公式中增加一個(gè)參數(shù)T,此時(shí)改進(jìn)的softmax的公式為:

      然后改進(jìn)的labesmoothing為:

      在此公式中,定義T為分類的類別數(shù),即T=2。

      2 實(shí)驗(yàn)結(jié)果及分析

      為了驗(yàn)證本文所使用的方法的有效性,本章在FaceForensics++[8]數(shù)據(jù)集上做測(cè)試。該數(shù)據(jù)集是由Andreas Rossler團(tuán)隊(duì)從互聯(lián)網(wǎng)上收集了1 000個(gè)包含人臉的短視頻,視頻時(shí)間長度基本上在10 s 到20 s 之間,然后作者分別使用了4 個(gè)不同的換臉?biāo)惴▽?duì)原視頻進(jìn)行了篡改,并分別產(chǎn)生1 000個(gè)對(duì)應(yīng)的視頻,這4種換臉?biāo)惴ǚ謩e為Deepfake、Face2Face[24]、FaceSwap、Neural-Textures[25]。此外,作者還對(duì)原視頻做了兩種不同程度的壓縮,分別為輕度壓縮(c23)和重度壓縮(c40),然后對(duì)壓縮后的視頻使用4 種換臉?biāo)惴▽?duì)視頻進(jìn)行篡改。由于原視頻和經(jīng)過輕度壓縮的視頻在作者給出的測(cè)試結(jié)果上準(zhǔn)確率已經(jīng)超過了98%[8],再繼續(xù)研究已經(jīng)沒有太大意義,所以使用重度壓縮的視頻來驗(yàn)證本文方法。

      如圖2 所示,(a)為各數(shù)據(jù)集原始圖像的示例圖,(b)為截取人臉后的示例圖,可以看出,確實(shí)憑借肉眼比較難分辨這些圖像的真假。文獻(xiàn)[8]中取視頻的所有幀進(jìn)行訓(xùn)練,但是這樣效率很低,所以在本次實(shí)驗(yàn)中并不使用所有幀,而是對(duì)每個(gè)視頻分別取1幀和5幀。取1幀的方法是對(duì)每個(gè)視頻隨機(jī)取1 幀,取5 幀的方法是對(duì)每個(gè)視頻的幀數(shù)按照最大間距取5 幀。最后與文獻(xiàn)[8]一樣,將數(shù)據(jù)集分成3部分,訓(xùn)練集720個(gè)視頻,驗(yàn)證集140個(gè)視頻,測(cè)試集140個(gè)視頻。當(dāng)每個(gè)視頻取5幀時(shí),測(cè)試集視頻的準(zhǔn)確率是其對(duì)應(yīng)的5張圖像的預(yù)測(cè)值的平均值。

      表1是在4個(gè)數(shù)據(jù)集上單獨(dú)訓(xùn)練的結(jié)果,表中R101指Resnext101_WSL[10],CU指方法cutout[11],LS指損失函數(shù)labelsmoothing[12],TLS 指改進(jìn)的損失函數(shù),見式(5),DF 指Deepfakes,F(xiàn)2F 指Face2Face[24],F(xiàn)S 指FaceSwap,NT 指NeuralTextures[25],文獻(xiàn)[5]和[8]中沒有做Neural-Textures的實(shí)驗(yàn),用”—”代替??梢钥吹剑词故窃诿總€(gè)視頻取1幀或5幀時(shí),使用的模型Resnext101_WSL[10]比文獻(xiàn)[8]中使用的XceptionNet性能相差無幾或者更加優(yōu)異,而且從表1 最后2 列來看,本文所使用的數(shù)據(jù)增強(qiáng)cutout[11]方法和labelsmoothing[12]損失函數(shù)的確起到了很好的抑制過擬合、增強(qiáng)泛化能力的作用。最后一列的實(shí)驗(yàn)是在訓(xùn)練的后30次迭代中使用本文改進(jìn)的損失函數(shù)(見式(5))替換labelsmoothing,訓(xùn)練的結(jié)果比只用labelsmoothing 要好,同時(shí)也都超過了對(duì)比實(shí)驗(yàn)[8]中使用所有幀訓(xùn)練的結(jié)果。

      此外,將4種不同換臉方式產(chǎn)生的視頻與原視頻混合在一起做了一個(gè)5分類訓(xùn)練,這樣訓(xùn)練的結(jié)果不僅能看出圖像是否被篡改,還能看出使用了哪一種篡改方式。除了數(shù)據(jù)集混合訓(xùn)練之外,其他的操作方式和訓(xùn)練參數(shù)與上面分開訓(xùn)練的一樣。結(jié)果如表2和表3所示。

      表1 各種方法在不同數(shù)據(jù)集上單獨(dú)訓(xùn)練的準(zhǔn)確率 %

      表2 各種方法在不同數(shù)據(jù)集上混合訓(xùn)練的準(zhǔn)確率 %

      圖2 各數(shù)據(jù)集示例圖

      表3 各種方法在不同數(shù)據(jù)集上混合訓(xùn)練的綜合準(zhǔn)確率

      表2 的結(jié)果是不同數(shù)據(jù)混合訓(xùn)練后在各個(gè)數(shù)據(jù)集的測(cè)試集上單獨(dú)測(cè)試的結(jié)果??梢钥吹?,當(dāng)每個(gè)視頻只取1 幀時(shí),由于數(shù)據(jù)太少,所以模型基本上沒有泛化能力,但是當(dāng)每個(gè)視頻等間距取5幀時(shí),使用本文方法在4個(gè)數(shù)據(jù)集上得到的結(jié)果已經(jīng)超過了文獻(xiàn)[8]里面使用所有幀訓(xùn)練得到的結(jié)果。表3 是將各個(gè)換臉數(shù)據(jù)集的測(cè)試集混合在一起之后整體測(cè)試的結(jié)果??梢钥闯?,當(dāng)每個(gè)視頻取5幀時(shí),能夠以高達(dá)92.22%的準(zhǔn)確率識(shí)別出使用不同換臉?biāo)惴óa(chǎn)生的視頻。

      表4 是本文方法與兩種對(duì)比方法平均測(cè)試一個(gè)視頻所花的時(shí)間,表中模型參數(shù)的計(jì)算使用的神經(jīng)網(wǎng)絡(luò)框架為Pytorch-1.0.1,測(cè)試時(shí)間所使用的硬件為i7-8700(CPU)。本文提出的方法中有測(cè)1 幀和測(cè)5 幀的情況,Ours一列的數(shù)據(jù)是指測(cè)5幀的情況??梢钥吹?,由于本文方法對(duì)每個(gè)視頻只需取5 幀,從整體來看,本文的方法平均測(cè)一個(gè)視頻所花的時(shí)間更少,效率更高。

      表4 各種方法的模型參數(shù)與檢測(cè)時(shí)間對(duì)比

      為了更好地復(fù)現(xiàn)本文所達(dá)到的效果,本段說明本文訓(xùn)練時(shí)所使用的參數(shù)。使用的優(yōu)化器為隨機(jī)梯度下降(Stochastic Gradient Descent,SGD),學(xué)習(xí)率設(shè)置為0.005,批量訓(xùn)練大小為64,訓(xùn)練60 輪并保存驗(yàn)證集上準(zhǔn)確率最高的模型。在cutout[15]中,參數(shù)n_holes 取為1,參數(shù)length取為112。Labelsmoothing[17]使用默認(rèn)參數(shù)。

      3 結(jié)束語

      判斷視頻中的人臉是否被篡改是一個(gè)典型的二分類問題,本文使用了一個(gè)性能優(yōu)異的預(yù)訓(xùn)練網(wǎng)絡(luò),并結(jié)合了一個(gè)數(shù)據(jù)增強(qiáng)方法和一個(gè)減少過擬合的損失函數(shù),在數(shù)據(jù)集FaceForensics++[8]上對(duì)4種不同的換臉?biāo)惴óa(chǎn)生的視頻的檢測(cè)都取得了很好的效果。未來將繼續(xù)探索更加高效的算法。

      猜你喜歡
      人臉準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
      有特點(diǎn)的人臉
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      三國漫——人臉解鎖
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      襄城县| 石门县| 汝南县| 南汇区| 绍兴市| 祥云县| 牟定县| 平潭县| 自治县| 静乐县| 金溪县| 揭东县| 福泉市| 香港| 永宁县| 彰武县| 上犹县| 东平县| 远安县| 钦州市| 西安市| 崇信县| 门源| 蒲城县| 河源市| 东方市| 博白县| 远安县| 丰宁| 千阳县| 仁寿县| 饶平县| 霸州市| 岐山县| 万荣县| 尼玛县| 汝州市| 龙江县| 萨嘎县| 慈溪市| 荣昌县|