毛典輝,趙 爽,黃暉煜,郝治昊
(1. 北京工商大學(xué)計算機學(xué)院,北京 100048;2. 北京工商大學(xué)農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國家工程實驗室,北京 100048)
隨著移動互聯(lián)網(wǎng)的發(fā)展和短視頻社交平臺迅速崛起,數(shù)字信息傳播速度更快、范圍更廣。但其中存在的Deepfake(深度偽造人臉視頻)等AI技術(shù)[1-4]可能會被利用從事危害國家安全、侵犯他人合法權(quán)益等法律法規(guī)禁止的活動,對社會穩(wěn)定造成不良影響。2019年11月,國家互聯(lián)網(wǎng)信息辦公室等部門出臺監(jiān)管文件[5]強調(diào)“網(wǎng)絡(luò)音視頻信息服務(wù)提供者應(yīng)當(dāng)部署應(yīng)用非真實音視頻鑒別技術(shù),發(fā)現(xiàn)音視頻信息服務(wù)基于深度學(xué)習(xí)、虛擬現(xiàn)實等的虛假圖像、音視頻生成技術(shù)制作、發(fā)布、傳播信息內(nèi)容的,應(yīng)采取警示整改、限制功能、暫停更新、關(guān)閉賬號等處置措施,保存有關(guān)記錄”。因此,針對Deepfake人臉偽造視頻內(nèi)容的監(jiān)管得到廣泛社會關(guān)注。
如今,基于深度偽造人臉視頻內(nèi)容的監(jiān)管方式由人工檢測與機器檢測[6]相互補充。但由于Deepfake技術(shù)獨特的生成機制,以及生成Deepfake內(nèi)容GAN模型樣本量不斷增加[7]使其具有自我修正的能力,使得人工檢測方法日趨失效。同時,在實際運營的短視頻社交平臺中視頻質(zhì)量參差不齊,服務(wù)器端存儲的視頻圖像分辨率相對較高,受實際帶寬傳輸限制,平臺一般借助壓縮技術(shù)對視頻進行重新編碼使得客戶端播放的視頻圖像分辨率較低。因此,依據(jù)單一獨立特征的Deepfake人臉偽造視頻檢測方法[8-10]難以適應(yīng)邊緣用戶與中心服務(wù)器間復(fù)雜的檢測要求。除此之外,由于短視頻社交平臺數(shù)億級的傳播圖像數(shù)據(jù)具有視頻文件大、因轉(zhuǎn)發(fā)傳播造成重復(fù)存儲同一數(shù)據(jù)文件等特點,監(jiān)管平臺面臨著巨大的計算成本壓力。
針對以上問題,本文基于區(qū)塊鏈存證技術(shù)設(shè)計出一種Deepfake人臉視頻圖像內(nèi)容監(jiān)管方法。首先,針對存儲視頻文件大及數(shù)據(jù)冗余問題,引入?yún)^(qū)塊鏈存證技術(shù),構(gòu)建了IPFS-超級賬本存儲環(huán)境,實現(xiàn)了鏈上存儲哈希值與鏈下存儲原始視頻源文件相結(jié)合的數(shù)據(jù)存儲方式。其次,針對Deepfake視頻內(nèi)容監(jiān)管準(zhǔn)確率問題,設(shè)計出一種混合Deepfake人臉視頻內(nèi)容檢測方法,該方法以圖像分辨率為標(biāo)準(zhǔn),低分辨率視頻采用基于微調(diào)神經(jīng)網(wǎng)絡(luò)的分類器,高分辨率視頻則依據(jù)圖像頻譜特征進行分類,通過兩種方法線性組合增強了檢測方法魯棒性。同時,針對Deepfake內(nèi)容監(jiān)管效率問題,采用了一種邊緣端與服務(wù)器端協(xié)同工作的監(jiān)管架構(gòu),該架構(gòu)引入邊緣端設(shè)備,通過將部分(低分辨率)檢測模塊神經(jīng)網(wǎng)絡(luò)附加輕量級網(wǎng)絡(luò)MobileNet V3實現(xiàn),降低監(jiān)管平臺計算壓力的同時提高了檢測效率。
近幾年,Deepfake人臉視頻檢測方法主要包括基于幀間時間特性或基于幀內(nèi)人為視覺效果兩大類。利用幀間時間特性通常使用遞歸分類方法,基于幀內(nèi)人為視覺效果則在提取特定特征后用深層或淺層的分類器來完成檢測。Li[11]等研究的Deepfake人臉視頻生成模型由于計算資源和制作時間的限制,只能合成有限分辨率的人臉視頻,并且必須對Deepfake人臉視頻圖像進行仿射變換,扭曲面區(qū)域和周圍環(huán)境的圖像分辨率不一致在生成的Deepfake人臉視頻中留下了獨特特征,這一特征可以被經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)模型(如VGG,ResNet等)有效學(xué)習(xí)。Matern[12]等人也同樣關(guān)注到人為視覺效果特征,通過眼睛、牙齒、面部輪廓可以檢測出一些人為視覺特性。該工作研究將人為視覺特征分為全局一致性、光照估計、幾何估計等類別,通過提取這些特征組成特征向量完成Deepfake人臉視頻檢測。除此之外,Hasan[13]等人提供了一個基于區(qū)塊鏈技術(shù)的解決方案和通用框架,以追蹤數(shù)字內(nèi)容的來源和歷史到其原始來源判斷視頻中是否存在深度偽造人臉內(nèi)容。但是,隨著短視頻社交平臺等互聯(lián)網(wǎng)應(yīng)用的發(fā)展,以及Deepfake人臉視頻生成技術(shù)的不斷提升,單一的檢測方法逐漸被替代,多種檢測特征相結(jié)合的混合方法逐漸成為發(fā)展趨勢。
區(qū)塊鏈(Blockchain)最早被Satoshi Nakamoto提出,是一種基于數(shù)據(jù)加密、分布式存儲、點對點傳輸、時間戳、共識機制等技術(shù)的去中心化數(shù)據(jù)管理模式。區(qū)塊鏈技術(shù)的分布式架構(gòu)及共識機制可以有效防止數(shù)據(jù)被篡改并進行精準(zhǔn)追溯,自動化執(zhí)行智能合約的實現(xiàn)為監(jiān)管方法提供了可能。區(qū)塊鏈存證方法基于區(qū)塊鏈技術(shù),將證據(jù)數(shù)據(jù)文件利用多種Hash算法計算多個Hash值并存儲在區(qū)塊鏈上。
雖然區(qū)塊鏈技術(shù)解決了傳統(tǒng)的中心化存儲方式容易出現(xiàn)篡改及數(shù)據(jù)文件丟失問題,但區(qū)塊鏈區(qū)塊存儲量小,僅適用于存儲數(shù)據(jù)的數(shù)字摘要。針對這一問題,相關(guān)研究提出區(qū)塊鏈架構(gòu)作為存證方法底層網(wǎng)絡(luò),結(jié)合分布式存儲技術(shù)實現(xiàn)存證文件的安全存儲的方式實現(xiàn)去中心化存證技術(shù)。這種基于區(qū)塊鏈的分布式架構(gòu)在Sharma[14]等人的研究中得到了較高的性能表現(xiàn),其支持實時數(shù)據(jù)傳輸,具有高擴展性、低延遲率及安全性,同時邊緣計算、霧計算等云計算新興技術(shù)顯著降低了網(wǎng)絡(luò)計算壓力。近幾年來,IPFS[15]星際文件方法(InterPlanetary File System)、Storj[16]、Frameup[17]等分布式云存儲項目的陸續(xù)出現(xiàn)也使得相關(guān)技術(shù)成為研究熱點,例如chen[18]等人提供了一種基于IPFS和區(qū)塊鏈技術(shù)的P2P文件方法改進方案;Ali[19]等人關(guān)注于利用該存儲方式保護物聯(lián)網(wǎng)數(shù)據(jù)隱私;Confais[20]等人將IPFS與Scale-Out NAS解決方案結(jié)合使用,提出了霧計算和邊緣計算基礎(chǔ)設(shè)備解決云計算平臺的延遲問題。因此,區(qū)塊鏈云存儲模式不僅保障了數(shù)據(jù)存儲安全性,也使數(shù)字內(nèi)容的傳播變得可追溯、透明化,為本文深度偽造人臉視頻內(nèi)容監(jiān)管存證提供可行性。
針對短視頻社交平臺的視頻內(nèi)容數(shù)據(jù)文件大、文件數(shù)量多、圖像質(zhì)量復(fù)雜、傳播數(shù)據(jù)文件冗余等特點,本文提出了基于區(qū)塊鏈存證的Deepfake人臉視頻內(nèi)容監(jiān)管方法,對短視頻社交平臺上視頻傳播中的Deepfake內(nèi)容進行有效檢測,并對相關(guān)用戶進行追溯懲罰。該方法采用混合檢測方法將幀內(nèi)時間特性和頻譜特征線性組合。一方面適應(yīng)短視頻社交平臺復(fù)雜多樣的視頻圖像內(nèi)容,另一方面部分檢測方法采用輕量級網(wǎng)絡(luò)下放至客戶端或邊緣端設(shè)備,減輕了內(nèi)容監(jiān)管平臺的網(wǎng)絡(luò)計算壓力。同時,該方法框架基于區(qū)塊鏈云存儲存證環(huán)境,依據(jù)區(qū)塊鏈鏈上哈希值取證視頻文件,也可依據(jù)哈希值對轉(zhuǎn)發(fā)深度偽造人臉視頻用戶進行追溯懲罰。
Deepfake內(nèi)容監(jiān)管方法網(wǎng)絡(luò)架構(gòu)如圖1所示,核心思想是:①平臺用戶通過各種用戶終端設(shè)備上傳原始視頻,通過Hyperledger Fabric 鏈上存儲視頻文件Hash值,IPFS鏈下存儲視頻文件;②用戶編輯視頻發(fā)布后,通過用戶邊緣端設(shè)備對發(fā)布視頻(低分辨率視頻)內(nèi)容進行初步檢測;③監(jiān)管方法依據(jù)初步檢測結(jié)果調(diào)取原始視頻文件;④服務(wù)器端設(shè)備依據(jù)原始視頻文件(高分辨率視頻)完成監(jiān)管方法剩余檢測部分;⑤測結(jié)果上傳存證至區(qū)塊鏈,并調(diào)用用戶行為評價模塊;⑥監(jiān)管平臺反饋給客戶端用戶行為懲罰方案,完成Deepfake內(nèi)容監(jiān)管。
圖1 Deepfake內(nèi)容監(jiān)管方法框架圖
在這一小節(jié)中,依據(jù)上文所劃分的不同模塊對深度偽造人臉視頻內(nèi)容監(jiān)管方法的實現(xiàn)進行描述。首先,區(qū)塊鏈存證模塊采用了區(qū)塊鏈云存儲環(huán)境,不僅通過IPFS去中心化技術(shù)解決了視頻文件大、數(shù)據(jù)冗余問題,提高了數(shù)字文件存取效率;并保證了該監(jiān)管方法對Deepfake內(nèi)容的有效追溯。其次,檢測模塊實現(xiàn)了一種混合檢測方法,兼容不同質(zhì)量的圖像內(nèi)容同時,引用了輕量級網(wǎng)絡(luò)通過邊緣端設(shè)備完成部分檢測工作,保證了檢測模塊結(jié)果準(zhǔn)確率和及時性。最后,監(jiān)管方法中用戶行為評價模塊建立在區(qū)塊鏈存儲環(huán)境的基礎(chǔ)上,對檢測出Deepfake內(nèi)容的相關(guān)聯(lián)用戶執(zhí)行相應(yīng)懲罰措施,實現(xiàn)短視頻社交平臺Deepfake內(nèi)容監(jiān)管方法監(jiān)管完整性。
檢測模塊即Deepfake內(nèi)容監(jiān)管方法的主要功能。首先,該模塊必須保證對深度偽造人臉圖像內(nèi)容的有效檢測。其中,Deepfake人臉視頻生成模型的不斷改進使通過單一的特征或單一的方法進行Deepfake內(nèi)容檢測準(zhǔn)確率降低;并且,短視頻社交平臺的億級數(shù)據(jù)傳播量導(dǎo)致視頻內(nèi)容必須經(jīng)過壓縮后傳播,即傳播的圖像內(nèi)容分辨率相比于上傳平臺原始視頻大幅降低,Deepfake內(nèi)容檢測準(zhǔn)確率降低。其次,該模塊必須解決監(jiān)管方法檢測及時性的問題,短視頻社交平臺日傳播量達億級,傳統(tǒng)檢測方法依賴于深度學(xué)習(xí)神經(jīng)網(wǎng)格結(jié)構(gòu),Deepfake內(nèi)容檢測計算時間過長。因此,如何在可應(yīng)用的時間范圍內(nèi)滿足各種質(zhì)量視頻內(nèi)容的有效檢測成為了該功能模塊的重點。
本文設(shè)計了一種混合Deepfake人臉視頻內(nèi)容檢測方法,將檢測模塊按照視頻內(nèi)容特點分為低分辨率檢測模塊L和高分辨率檢測模塊H,兩者之間為線性關(guān)系。模塊L運用輕量級網(wǎng)絡(luò)應(yīng)用與客戶邊緣端設(shè)備,提高了整體監(jiān)管方法的檢測效率;模塊H在內(nèi)容監(jiān)管服務(wù)器端運行,保證了Deepfake內(nèi)容檢測準(zhǔn)確率;這種線性組合方式提高了整體方法檢測方法的魯棒性。
4.1.1 低分辨率檢測模塊L
本文采用了一種輕量級的微調(diào)神經(jīng)網(wǎng)絡(luò)模型。在傳統(tǒng)Deepfake檢測方法中深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上引入微調(diào)結(jié)構(gòu)[21],微調(diào)結(jié)構(gòu)核心思想是一個基于圖像的自注意力模塊(Fine-tune Transformer),該模塊通過少量預(yù)處理圖像對預(yù)訓(xùn)練模型網(wǎng)絡(luò)進行微調(diào),得到新的特征空間集用于Deepfake內(nèi)容檢測。
模塊L網(wǎng)絡(luò)模型如圖2所示,對數(shù)據(jù)集視頻序列進行人臉檢測,裁剪調(diào)整得到正方形人臉圖像作為模塊正負樣本輸入;①將少量正負樣本輸入微調(diào)結(jié)構(gòu),其余正負樣本數(shù)據(jù)輸入預(yù)訓(xùn)練模型Xception網(wǎng)絡(luò);②將輕量級網(wǎng)絡(luò)MobileNet V3附加至預(yù)訓(xùn)練主網(wǎng)絡(luò)模型;③在預(yù)訓(xùn)練特征空間上通過殘差轉(zhuǎn)置結(jié)構(gòu)和線性瓶頸來有效提取特征空間;④通過自注意力模塊提取自我注意特征圖,對輸入圖像進行微調(diào);⑤得到新的特征空間集對輸入圖像進行分類。
圖2 低分辨率檢測模塊L
首先,模塊L預(yù)訓(xùn)練主卷積神經(jīng)網(wǎng)絡(luò)(Pre-trained model)的選擇為Xception網(wǎng)絡(luò)。Xception[22]是谷歌繼Inception后提出的對Inception-v3的改進網(wǎng)絡(luò),Xception網(wǎng)絡(luò)結(jié)構(gòu)基于殘差網(wǎng)絡(luò),采用分離卷積替換原有的卷積操作,使得重新設(shè)計Inception模塊得到了Xception網(wǎng)絡(luò)模型。這種網(wǎng)絡(luò)結(jié)構(gòu)在減少參數(shù)量的情況下增加了網(wǎng)絡(luò)模型的層數(shù),減少了存儲空間的同時增強了網(wǎng)絡(luò)模型的表達能力。然后,微調(diào)遷移部分(Fine-tune Transformer)由三個子自注意力模塊構(gòu)成,如圖3所示,使用1×1卷積濾波器,將輸入X表示為三個特征空間(x)、(x)、h(x),式(1)即特征空間計算方式,其中Wf、Wg、Wh分別代表每個特征空間的濾波器權(quán)重;注意力圖β是特征空間f和g的Softmax函數(shù)輸出(式(2));之后,注意力圖β乘以特征空間h得到批處理點o(式(3)),并將輸入圖像X添加到o,最終輸出自我注意特征圖y(式(4))。
圖3 微調(diào)結(jié)構(gòu)
f(x)=Wfx,g(x)=Wgx,h(x)=Whx
(1)
βj,i=Softmax(f(xi)Tg(xj))
(2)
oj=Batchdot(βj,i,h(x))
(3)
yi=γoj+xi
(4)
whereReLU6[x]=min(max(0,x),6)
(5)
最后,為減小Deepfake內(nèi)容監(jiān)管方法整體網(wǎng)絡(luò)計算壓力,本文將低分辨率檢測模塊L安裝在客戶邊緣端設(shè)備進行檢測,所以模塊L選擇輕量級網(wǎng)絡(luò)MobileNet V3附加至該模塊的預(yù)訓(xùn)練主網(wǎng)絡(luò)模型上。該網(wǎng)絡(luò)結(jié)構(gòu)僅使用到少量參數(shù)。MobileNet V3是以MobileNet為基礎(chǔ),通過殘差轉(zhuǎn)置結(jié)構(gòu)(residual transposition structures)和線性瓶頸(anbottlenecks.)探索圖像特征空間。不同于基礎(chǔ)的MobileNet,MobileNetV3采用互補搜索技術(shù)組合,并對網(wǎng)絡(luò)結(jié)構(gòu)改進。具體將最后一步的平均池化層前移并移除最后一個卷積層,引入h-swish(式(5))非線性的激活函數(shù),該模塊迭代4次后大幅提高了神經(jīng)網(wǎng)絡(luò)模型的整體性能。
4.1.2 高分辨率檢測模塊H
在上一小節(jié)中,通過低分辨率檢測模塊L檢測Deepfake內(nèi)容準(zhǔn)確率較低,難以滿足短視頻社交平臺對深度偽造人臉視頻內(nèi)容監(jiān)管方法的需要。其原因是,由于用戶對發(fā)布視頻的編輯處理以及短視頻社交平臺對視頻壓縮傳輸造成圖像分辨率降低,模塊L中特征空間集部分特征失效造成檢測準(zhǔn)確率降低。針對上述問題,本文關(guān)注到GAN框架下Deepfake人臉視頻生成基于卷積的上采樣方法來生成非標(biāo)量輸出視頻,這種轉(zhuǎn)置卷積會導(dǎo)致生成的Deepfake人臉無法正確再現(xiàn)出訓(xùn)練樣本中自然的頻譜分布,且這種特征與底層架構(gòu)無關(guān)。所以,高分辨率檢測模塊H將頻譜特征作為分類特征[23],利用用戶上傳的原始視頻內(nèi)容進行二次檢測,線性組合低分辨率檢測模塊L的方法提高了整體檢測模塊的準(zhǔn)確率。
相比于低分辨率檢測模塊L,模塊H對輸入圖像的要求更為嚴格,具體表現(xiàn)在對視頻內(nèi)容進行人臉檢測后截取人臉圖像的預(yù)處理。首先,從用戶原始上傳視頻文件中進行人臉檢測,但在人臉檢測過程中不能人為地調(diào)整圖像大小、比例,原因是這種調(diào)整會使頻譜特征失真從而導(dǎo)致Deepfake內(nèi)容檢測方法失效。然后,通過一維功率譜插值到一個固定的大小300,并將其除以第0個頻率分量進行標(biāo)準(zhǔn)化為正方形灰度圖片作為輸入。
圖4 高分辨率檢測模塊 H
模塊H網(wǎng)絡(luò)模型如圖4所示,基于經(jīng)典頻域分析,模塊H使用DFT功率譜上的方位角積分提取特征。通過上述預(yù)處理過程后得到大小為M*N的圖片輸入I,輸入I利用離散傅里葉變換F(式(6))計算表示輸入I的二維功率譜(Amplitude Spectrum 2D),再通過radial frequencies(σ)計算方位角積分(azimuthal integral)得到一維功率譜(1D Power Spectrum)(式(7)),并以結(jié)果一維功率譜作為為特征使用支持向量機SVM進行訓(xùn)練實現(xiàn)分類。
k=0,…,M-1,l=0,…,N-1
(6)
k=0,…,M/2-1
(7)
區(qū)塊鏈存證模塊為深度偽造人臉視頻內(nèi)容監(jiān)管方法的基本功能。首先,該模塊提供了一個可追溯、防篡改的存儲數(shù)據(jù)環(huán)境,在檢測出Deepfake內(nèi)容后應(yīng)能夠精準(zhǔn)高效地追溯相關(guān)用戶及所有轉(zhuǎn)發(fā)視頻內(nèi)容,防止篡改內(nèi)容的同時對相關(guān)用戶進行懲罰。其次,短視頻社交平臺不僅日傳播數(shù)億級的短視頻內(nèi)容,其中大量轉(zhuǎn)發(fā)傳播視頻造成了存儲視頻文件環(huán)境存在著大量的重復(fù)視頻數(shù)據(jù)文件,因此該模塊在保證視頻內(nèi)容存儲的情況下必須解決冗余數(shù)據(jù)問題,該要求同時可以簡化內(nèi)容監(jiān)管方法的追溯成本。最后,對已檢測出的Deepfake內(nèi)容進行追溯,并對相關(guān)用戶進行權(quán)限變更、封號等一系列懲罰措施。根據(jù)以上要求,本文選擇區(qū)塊鏈云存儲環(huán)境實現(xiàn)存證。針對視頻文件數(shù)據(jù)較大、短視頻社交平臺視頻數(shù)據(jù)量較多,鏈上存儲成本較高的問題,本文將Hyperledger Fabric數(shù)據(jù)存儲結(jié)構(gòu)與IPFS去中心化技術(shù)結(jié)合,組成區(qū)塊鏈存證模塊。鏈下云儲存視頻文件,鏈上僅存儲視頻文件哈希值。同時,同一哈希值的不同視頻文件數(shù)據(jù)塊僅存儲一次,解決了因轉(zhuǎn)發(fā)視頻內(nèi)容產(chǎn)生的數(shù)據(jù)冗余問題。
存證模塊功能設(shè)計主要通過區(qū)塊鏈智能合約與IPFS實現(xiàn)以下兩個功能:①視頻文件上鏈:計算用戶上傳原始視頻文件Hash值,并通過調(diào)用底層Fabric區(qū)塊鏈SDK/API接口,將計算結(jié)果和視頻信息存證入鏈;②存證、取證功能:調(diào)用IPFS-api將原始視頻文件存入IPFS網(wǎng)絡(luò)。將視頻文件存儲至IPFS網(wǎng)絡(luò)后,可以依據(jù)multiHash查詢下載視頻文件,算法主要通過ipfs.add與ipfs.get實現(xiàn)。同時,檢測出Deepfake內(nèi)容后,監(jiān)管方法首先阻止原圖像內(nèi)容與所有相關(guān)聯(lián)的圖像內(nèi)容傳播,并取證所有相關(guān)聯(lián)的平臺用戶。然后,依次扣除相關(guān)用戶信譽分,并依據(jù)剩余信譽分值進行權(quán)限懲罰。最后,若檢測結(jié)果發(fā)生改變或未檢測出Deepfake內(nèi)容,則將視頻內(nèi)容發(fā)布。該模塊的所有操作均通過智能合約關(guān)聯(lián)至區(qū)塊鏈進行存證。
本文提出的深度偽造人臉視頻內(nèi)容監(jiān)管方法采用Hyperledger Fabric集群與IPFS節(jié)點搭建,實驗環(huán)境如表1所示,采用Kafka共識模式,搭建Kafka與Zookeeper集群,依賴Docker、Docker Compose執(zhí)行節(jié)點及智能合約,并選擇Ubuntu 16.04服務(wù)器搭建IPFS節(jié)點。
表1 軟件及硬件要求
本文采用了兩個數(shù)據(jù)集 DeepfakeDetection、Celeb-DF進行實驗,并使用分類準(zhǔn)確率ACC(Accuracy)作為實驗結(jié)果的評價指標(biāo)。以下對兩個數(shù)據(jù)集構(gòu)成做詳細介紹:
FaceForensics++[24]是一個經(jīng)典視頻數(shù)據(jù)集,由1000個原始視頻序列組成,所有視頻均包含可追蹤且大部分沒有遮擋的人臉正面。該數(shù)據(jù)集中子數(shù)據(jù)集的DeepfakeDetection包含來自28個演員在不同場景中的3000多個Deepfake人臉圖像視頻,其中數(shù)據(jù)集包含兩個部分:第一部分為原始視頻original_sequences,包括28個演員、16個不同場景的363個原始視頻;第二部分為Deepfake人臉視頻manipulated_sequences,包括對于28個演員、16個不同場景至多26種人臉變換的2068個Deepfake人臉視頻序列。
Celeb-DF[25]數(shù)據(jù)集最新發(fā)布的Celeb-DF-v2版本擴展至590個原始視頻,以及5639個相對應(yīng)的Deepfake人臉視頻,該數(shù)據(jù)集視頻也具有不同年齡、種族和性別的主題。該數(shù)據(jù)集在jiang[26]等人對Deepfake公共數(shù)據(jù)集真實性評價中得到了61.0%的置信率高分。
針對上文中對短視頻社交平臺傳播視頻內(nèi)容分析及檢測模塊對圖像預(yù)處理的不同要求,本文對 DeepfakeDetection和Celeb-DF數(shù)據(jù)集預(yù)處理得到兩種不同圖像質(zhì)量的預(yù)處理數(shù)據(jù)集如圖5所示,圖左分辨率大小為64×64,圖右分辨率大小為1024×1024。
圖5 預(yù)處理樣本
由于低分辨率檢測模塊L與高分辨率檢測模塊H對輸入的不同要求,采用了不同的方法對視頻序列進行數(shù)據(jù)預(yù)處理得到Datasets L和Datasets H,預(yù)處理過程包括人臉檢測與裁剪人臉兩個部分,具體樣本量如表2所示。
表2 預(yù)處理數(shù)據(jù)集
具體實現(xiàn)方法如下:
1)為了滿足實際應(yīng)用要求并增加實驗難度,直接使用基于CNN網(wǎng)絡(luò)的含有68個特征點的dlib_model,包括mmod_human_face_detector.dat與shape_predictor_68_face_landmarks,然后裁剪調(diào)整出人臉及周邊正方形區(qū)域后,直接將樣本圖像分辨率調(diào)整為64×64大小作為預(yù)處理樣本結(jié)果Datasets L。
2)上述過程中對檢測出的人臉圖像的裁剪調(diào)整會導(dǎo)致樣本頻譜特征失真,視頻序列中識別出人臉后,將一維功率譜插值到一個固定的大小300,并將其除以第0個頻率分量進行標(biāo)準(zhǔn)化,輸出結(jié)果組成Datasets H仍為正方形圖片數(shù)據(jù)集,但樣本圖像頻譜特征沒有改變。
本文深度偽造人臉視頻內(nèi)容監(jiān)管方法評價實驗分為三個部分:頻譜特征驗證、檢測準(zhǔn)確率評估和區(qū)塊鏈性能評價。
5.3.1 頻譜特征驗證
該方法中高分辨率視頻檢測模塊H,是將Datasets H數(shù)據(jù)集中每個圖像樣本從空間域轉(zhuǎn)換到1D頻域,將1024×1024的高質(zhì)量彩色圖像還原為含有722個特征的1D 功率譜。如圖6所示繪制了所有樣本的1D功率譜的平均值和標(biāo)準(zhǔn)差,因Datasets H數(shù)據(jù)集中屬于同類別屬性的圖像在1D功率譜的相似性,可以得出real與fake的圖像樣本在高頻下表現(xiàn)出明顯不同的光譜信息,利用此頻譜特征對Deepfake內(nèi)容進行檢測具有可行性。
圖6 Datasets H一維功率譜統(tǒng)計
同時,本文進行了補充實驗,確定不同頻率成分的相關(guān)性。圖7顯示了在高分辨率檢測模塊H中SVM分類器的精度結(jié)果,其中縱坐標(biāo)表示頻率的分塊開始位置,橫坐標(biāo)表示其結(jié)束位置。由此可以得出結(jié)論,Deepfake人臉視頻頻譜特征主要影響頻率段為500-722,這一結(jié)果與圖6表現(xiàn)一致,進一步驗證了頻譜特征的有效性。
圖7 支持向量機分類器頻率統(tǒng)計
5.3.2 檢測準(zhǔn)確率評估
將Datasets L分為Train、Validation、Test、fine-tune四個子數(shù)據(jù)集。子數(shù)據(jù)集樣本大小如表3所示,本文在訓(xùn)練集中對real圖像和fake圖像分別微調(diào)了500個樣本,并通過Test子數(shù)據(jù)集用于檢查訓(xùn)練策略。
表3 微調(diào)網(wǎng)絡(luò)子數(shù)據(jù)集
首先,檢測子模塊L采用隨機梯度下降算法在數(shù)據(jù)集上進行300 epochs動量訓(xùn)練,設(shè)置學(xué)習(xí)率初始化為0.3,并使用余弦函數(shù)Simulated Annealing算法,采用提前停止的方法,初始化所有其它權(quán)重參數(shù)。另外將動量率設(shè)置為0.9,mini-batch大小設(shè)置為128。其次,檢測子模塊H訓(xùn)練部分僅使用圖像樣本1D功率譜作為分類特征。在實驗中,基于徑向基函數(shù)內(nèi)核的支持向量機(SVM)分類器,采用不同樣本數(shù)量進行并取最優(yōu)結(jié)果。檢測模塊實驗結(jié)果如表4所示。
表4 ACC實驗結(jié)果評估
如表4展示了本文深度偽造人臉視頻內(nèi)容監(jiān)管方法測試模塊中總體性能,其中RestNetV2、Xception作為主流檢測方法與本文檢測模塊功能進行比較,本文Deepfake內(nèi)容監(jiān)管方法在Celeb-DF數(shù)據(jù)集中準(zhǔn)確率提高了20%,并在DeepfakeDetection數(shù)據(jù)集中準(zhǔn)確率達到93.10%。通過實驗結(jié)果,可以得出結(jié)論,該方法整體檢測準(zhǔn)確率相比單一的檢測方法略有提升,對不同質(zhì)量圖像樣本的數(shù)據(jù)集均表現(xiàn)出良好的檢測性能,因此,該線性混合Deepfake內(nèi)容檢測方法有較強的魯棒性,本文內(nèi)容監(jiān)管方法應(yīng)用在復(fù)雜圖像內(nèi)容的短視頻社交平臺具有可行性。
同時,表4展示了子模塊的檢測性能,針對DeepfakeDetection數(shù)據(jù)集,模塊L準(zhǔn)確率高于檢測模塊H;在Celeb-DF數(shù)據(jù)集中,結(jié)果相反。這一結(jié)果表明DeepfakeDetection數(shù)據(jù)集圖像質(zhì)量相比于Celeb-DF數(shù)據(jù)集圖像質(zhì)量較低,這與jiang[26]等人對主流Deepfake公共數(shù)據(jù)集的評估結(jié)果保持一致。
5.3.3 區(qū)塊鏈性能評價
在保證檢測準(zhǔn)確率的基礎(chǔ)上,本文對區(qū)塊鏈存證方法進行了評估。區(qū)塊鏈的交易性能決定了內(nèi)容監(jiān)管方法存證功能的交易性能,利用Caliper工具對區(qū)塊鏈網(wǎng)絡(luò)進行壓力測試。將吞吐量及交易延遲作為評估標(biāo)準(zhǔn)。實驗交易寫入速度初始值為50tps,并以50tps梯度增長進行6輪性能測試。
實驗結(jié)果如圖8所示,在圖8(a)中所示,吞吐量在第3輪測試后維持在150tps左右,即吞吐量峰值為150tps;如圖8(b)中所示,交易延遲在第3輪之后大幅提升(150tps)并且該方法保持較高交易效率。實驗結(jié)果表明,隨著寫入速度的提升,區(qū)塊鏈網(wǎng)絡(luò)吞吐量受到影響;但區(qū)塊鏈網(wǎng)絡(luò)運行穩(wěn)定,且交易完成率100%,無數(shù)據(jù)丟失情況;本文所提出的深度偽造人臉視頻內(nèi)容監(jiān)管方法對Deepfake內(nèi)容檢測具有可行性。
圖8 實驗結(jié)果
本文針對短視頻社交平臺設(shè)計了一個基于區(qū)塊鏈存證的深度偽造人臉視頻內(nèi)容監(jiān)管方法,該方法對短視頻社交平臺用戶發(fā)布的視頻內(nèi)容進行Deepfake內(nèi)容檢測,并具有完整的懲罰存證機制,可以與現(xiàn)有的內(nèi)容監(jiān)管平臺更好地融合。本文在區(qū)塊鏈架構(gòu)環(huán)境的基礎(chǔ)上引入IPFS去中心化技術(shù),保證了用戶信息及行為的可追溯性與不可篡改性,同時減小了原有存儲方式視頻數(shù)據(jù)冗余問題。同時,針對短視頻社交平臺用戶傳播視頻圖像內(nèi)容特點,該方法將兩種檢測方法線性組合,并將部分檢測工作運行于客戶端或邊緣端設(shè)備,減輕了傳統(tǒng)服務(wù)端網(wǎng)絡(luò)的計算壓力,整體內(nèi)容監(jiān)管方法保證了準(zhǔn)確率并提升了檢測速度。最后,基于區(qū)塊鏈存證的用戶行為評價機制保證了該方法的完整性與可應(yīng)用性。
但是,該內(nèi)容監(jiān)管方法仍然存在幾個限制。首先,本文著重研究圖像內(nèi)容中深度偽造人臉視頻檢測,對視頻圖像內(nèi)容中可能存在的深度偽造的聲音內(nèi)容及文字內(nèi)容為空白,仍需要更多的嘗試;其次,本文只是驗證了該內(nèi)容監(jiān)管方法的可行性,采用的檢測方法效果并沒有達到最優(yōu),因此,在未來的工作中,將對該內(nèi)容監(jiān)管方法的檢測方法進行改進,并對方法環(huán)節(jié)中的細節(jié)進行完善。