關(guān)鍵詞:視頻幀插值;數(shù)字視頻取證;被動取證;真實性鑒別
中圖分類號:TP309 文獻標志碼:A 文章編號:1001-8395(2023)04-0438-10
doi:10. 3969 / j. issn. 1001-8395. 2023. 04. 002
1 研究背景
受惠于智能手機等便攜式視頻采集設(shè)備的普及和便利的移動互聯(lián)網(wǎng)等,數(shù)字視頻已成為人們?nèi)粘I钪袀鬟f和獲取信息的重要載體. 同時,AdobePremier、愛剪輯等視頻編輯軟件的發(fā)展,使得數(shù)字視頻編輯越來越容易. 尤其是近幾年使用生成對抗網(wǎng)絡(luò)(GAN)的深度偽造和基于深度修復(fù)的Deep Nude等造假技術(shù),合成的虛假視頻達到了前所未有的、足以“以假亂真”的程度. 如果這些惡意篡改的虛假視頻在主流社交媒體中廣泛傳播,例如普京和特朗普等政治人物在社交媒體中涌現(xiàn)的虛假視頻,不僅損害數(shù)字視頻“眼見為實”的可信性,而且可能誤導(dǎo)社會輿論,嚴重影響公共信任秩序,甚至危害國家安全和社會穩(wěn)定. 實際上,幾乎在每一次的重大事件中,社交媒體中都會出現(xiàn)誤導(dǎo)性視頻和照片,尤其是在人工智能時代出現(xiàn)的深度偽造視頻. 深度偽造的視頻,已經(jīng)成為人工智能時代不可回避的網(wǎng)絡(luò)空間安全問題. 因此,迫切需要發(fā)展相應(yīng)的取證技術(shù),對傳播的數(shù)字視頻進行識別和取證.
為了防范和打擊深度視頻內(nèi)容偽造的惡意使用,需要“法防”和“技防”并舉. 為此,我國頒布了《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》等法律法規(guī),以防范深度視頻偽造等可能帶來的政治和社會風(fēng)險. 同時,為了有效地辨識深度視頻偽造等虛假信息并提供有說服力的證據(jù),迫切需要發(fā)展數(shù)字媒體取證技術(shù). 近些年涌現(xiàn)的深度視頻篡改,不再采取簡單地搜索空間或時間上的相似片去填充待篡改視頻幀的傳統(tǒng)方法,而通過數(shù)據(jù)驅(qū)動方式,學(xué)習(xí)視頻數(shù)據(jù)集的潛在規(guī)律或潛在特征分布,從而合成待篡改視頻幀. 這種方式嚴重削弱甚至完全克服了傳統(tǒng)視頻篡改所遺留的取證痕跡,在很大程度上弱化了現(xiàn)有被動取證方法的性能,甚至使之失效. 因此,針對深度視頻篡改的被動取證更加具有挑戰(zhàn)性,也是現(xiàn)階段視頻被動取證亟待解決的新問題[1-2].
視頻幀插值利用運動估計/ 補償策略或深度學(xué)習(xí)技術(shù)實現(xiàn)視頻幀率上轉(zhuǎn)(FRUC),包括傳統(tǒng)的運動補償幀插值(MCFI)和深度視頻幀插值(DVFI),其中,人工智能時代衍生的深度視頻幀插值獲得了越來越多的關(guān)注. 它最開始應(yīng)用于影視節(jié)目的制作,生成慢運動效果和視頻預(yù)測的外插幀,提升視頻的幀率. 然而,它也可以被用于更改視頻原始語義或者屬性等惡意用途. 例如,在社交媒體網(wǎng)站中,偽造者可能會通過拼接不同設(shè)備捕捉的不同幀率/ 碼率的視頻,采用視頻幀插值技術(shù)或軟件,比如FFMPEG 和愛剪輯等,提升幀率,以吸引用戶的關(guān)注和訪問. 當這些虛假高幀率的視頻充斥在視頻共享網(wǎng)絡(luò)時,既浪費存儲空間,也誤導(dǎo)用戶在線觀看從而浪費流量. 此外,這些視頻也可能來源于視頻監(jiān)控,偽造者可能利用視頻幀插值技術(shù)消除連續(xù)幀刪除或不同時段捕捉的視頻拼接后的畫面跳躍感,使得視頻內(nèi)容不再真實反映客觀事實,給案件偵破和司法取證造成負面影響. 由于FRUC 能消除幀間篡改引起的跳躍效應(yīng),可用作反取證手段使得基于光流連續(xù)性的視頻幀間篡改取證工具失效. 因此,迫切需要發(fā)展針對視頻幀插值,尤其是深度視頻幀插值的被動檢測技術(shù).
本文針對視頻幀插值篡改檢測技術(shù)展開綜述,從視頻幀插值固有的原理特性和視頻幀插值技術(shù)手段遺留痕跡的角度,分析和總結(jié)現(xiàn)有的視頻幀插值篡改手段和檢測取證方法,并且對未來本領(lǐng)域的發(fā)展進行展望.
2視頻幀插值技術(shù)及其痕跡分析
本節(jié)從視頻幀插值的插值原理和采用的合成技術(shù)2 個角度出發(fā),分析傳統(tǒng)視頻幀插值和深度視頻幀插值技術(shù)可能遺留的取證線索,其技術(shù)細節(jié)和遺留痕跡總結(jié)如表1 所示.
2. 1 視頻幀插值原理和痕跡分析 視頻幀插值的基本原理是在連續(xù)兩幀間生成n 個插值幀(n≥1).假設(shè)F(x,y,t)= RM × N × T 為待插值的原始視頻序列,其中x、y 和t 分別表示空間橫、縱坐標和時間索引[16],x∈[1,2,…,M],y∈[1,2,…,N],t∈[1,2,…,T],那么Fi(x,y,t + i)(0 < i < 1)表示在(t,t +1)間的t + i 位置插入的合成幀. 圖1 是i = 1 /8 的幀插值示例,其中,實線框為2 個連續(xù)的原始視頻幀,虛線框為合成的插值幀.
根據(jù)運動估計方式,現(xiàn)有的視頻幀插值技術(shù)一般采用2 種形式:迭代插值和矢量平均插值. 迭代插值采用隱式運動估計的視頻幀插值方法,每次合成的視頻幀通常都需要參考相鄰的幀(可能是原始視頻幀也可能是已經(jīng)產(chǎn)生的插值幀),再循環(huán)迭代log2 n 產(chǎn)生,如圖1(a)所示,為了在2 個連續(xù)視頻幀間合成7 個視頻幀,循環(huán)迭代了3 次視頻幀插值技術(shù),分別對應(yīng)第1 次、第2 次和第3 次插值,合成了1 個、2 個和4 個視頻幀. 矢量平均插值基于顯式運動估計,由于建模了運動對象間的運動軌跡,通常假設(shè)對象的運動為線性運動且將兩幀之間運動強度沿運動方向平分為n 份,依據(jù)平分的運動矢量一次插值7 個視頻幀,如圖1(b).
采用迭代生成的插值幀,利用相鄰幀合成插值幀,通常會在2 個連續(xù)的原始幀之間形成以連續(xù)插值幀的中間幀為中心、左右對稱的周期性痕跡模式,如圖1(c)所示. 采用運動矢量平均對齊插值,其合成的插值幀的運動軌跡出現(xiàn)逐幀線性對稱且呈現(xiàn)一致的平均瞬時加速度. 從而,視頻幀插值特有的合成原理特性所遺留的周期性模式和平均瞬時加速度為視頻幀插值的篡改檢測提供了取證痕跡,也催生了部分取證方法. 他們利用周期性模糊度量[1718]和子軌跡平均瞬時加速度[1921]實現(xiàn)了待檢視頻是否屬于虛假高幀率視頻的檢測.
2. 2 傳統(tǒng)視頻幀插值技術(shù)和痕跡分析 視頻幀插值方法按照采用的技術(shù),可以分為簡單幀插值、MCFI 和DVFI 3 類. 其中,前2 種統(tǒng)稱為傳統(tǒng)視頻幀插值技術(shù). 簡單幀插值就是幀重復(fù)和幀平均,前者插值的幀由前一幀直接復(fù)制獲得;后者生成的插值幀為插值點前后兩幀求平均后取整獲得. 由于簡單幀插值不考慮視頻中運動對象的運動模式,對于非平穩(wěn)視頻合成的高幀率視頻通常產(chǎn)生閃爍、卡頓和疊影現(xiàn)象.
為了改進高幀率視頻的可視質(zhì)量,基于運動補償?shù)膸逯导夹g(shù)被引入. 它根據(jù)相鄰參考幀,采用各種運動假設(shè)和運動估計策略以及像素合成方案,結(jié)合顏色和紋理細節(jié)做后處理,合成出逼真的視頻插值幀. 它通常包括運動估計和運動補償插值2 個主要步驟. 前者用于估計運動對象在相鄰幀間的空間位移,后者利用估計出的對象運動合成插值幀.因此,MCFI 技術(shù)的視覺效果主要由這2 個步驟采用的策略決定. 雖然它考慮了對象的運動,克服了簡單幀插值遺留的取證痕跡,但是,在實際的運動估計過程中,由于視頻幀中存在的遮擋問題和剛性運動對象的假設(shè)以及短時間內(nèi)的運動對稱性假設(shè),從而導(dǎo)致不準確運動矢量的估計. 雖然運動補償插值步驟盡可能的緩解不準確運動矢量估計造成的影響,但是,依然在高紋理區(qū)域和運動對象區(qū)域產(chǎn)生明顯的模糊效應(yīng)[16].
2. 3 深度視頻幀插值技術(shù)和痕跡分析 深度視頻幀插值技術(shù)不同于傳統(tǒng)視頻幀插值技術(shù),它通過視頻數(shù)據(jù)驅(qū)動,利用復(fù)雜的網(wǎng)絡(luò)模型與非線性激活函數(shù),在提取樣本高維特征的同時,不斷去除與目標特征無關(guān)的信息,根據(jù)前、后視頻幀推理運動矢量,在兩者間插入的視頻幀中合成運動對象,填充由對象運動導(dǎo)致的孔洞區(qū)域. 它通過學(xué)習(xí)真實視頻對象的運動行為或特征模式分布,能夠減弱傳統(tǒng)幀插值視頻遺留的痕跡. 現(xiàn)有的深度視頻幀插值技術(shù)根據(jù)運動推理和像素合成方式可分為4 種:卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuralnetworks,CNN)直接預(yù)測、基于相位的幀插值、基于卷積核的幀插值和基于光流的幀插值. 具體實現(xiàn)細節(jié)和可能遺留的痕跡分析如下:
1)CNN 直接預(yù)測[3]. 這類方法訓(xùn)練編碼器解碼器網(wǎng)絡(luò)模型[3]直接預(yù)測中間插值幀. 它通常從視頻幀的空域角度建模,逐幀合成插值幀,所以不能有效建模時域的對象變化. 由于不能有效推理運動變化產(chǎn)生的紋理差異,會在運動對象區(qū)域產(chǎn)生偽影現(xiàn)象.
2)基于相位的幀插值[4]. 僅有解碼器,利用像素局部有限的相位差空間捕捉運動信息,在多尺度金字塔下操作相位信息合成插值幀. 它的運動推理假設(shè)來源于在相位信息中高頻內(nèi)容、中頻內(nèi)容和低頻內(nèi)容具有一致的運動,雖然解決了2 個差分時間步中相位值具有可比性,但是這類模型沒有編碼層,直接依靠帶通濾波的相位信息合成修復(fù)幀. 同時,相位帶通濾波本質(zhì)上就遺失了相位一定的高頻信息,這就必然在插值幀中的運動對象和對象邊緣產(chǎn)生細微的模糊現(xiàn)象,甚至還可能會出現(xiàn)鏡像環(huán)和顏色偏差效應(yīng).
3)基于卷積核的幀插值[5-7]. 這類方法主要采用深度全卷積網(wǎng)絡(luò),估計所有像素的自適應(yīng)卷積核(二維的或2 個一維的),要求其所有系數(shù)非負且和為1,其中卷積核模式有規(guī)則卷積核[5-6]和不規(guī)則卷積核[7]. 它能有效地捕捉運動和重采樣信息,同時完成運動估計和像素合成. 這類方法的取證痕跡必須從其所設(shè)計的卷積核角度考慮:對于背景區(qū)域,由于沒有運動,卷積核中心點值為1,其他區(qū)域值為0;對于運動區(qū)域,根據(jù)運動程度的不同,卷積核的非零值主要在運動方向或?qū)ο筮吔绶较蛏锨揖哂胁煌暮讼禂?shù),其他區(qū)域為0. 這就與常用的高斯濾波器或均值濾波器具有類似結(jié)構(gòu),可以推斷在運動對象邊緣區(qū)域必然存在細微的模糊現(xiàn)象. 同時,其設(shè)計的損失函數(shù)過程中,強制假設(shè)局部區(qū)域的卷積核變化緩慢,而在實際情況中,對象與背景的過渡區(qū)域卷積核具有較大的變化,這與假設(shè)并不相符,也就導(dǎo)致該區(qū)域存在模糊效應(yīng).
4)基于光流的幀插值[8-15]. 這類方法主要包含光流預(yù)測和warp 層,有些還考慮遮擋區(qū)域自適應(yīng)融合組成. 不同的深度視頻幀插值方法在這3 個部分存在差異. 例如光流預(yù)測采用單向光流估計[8]、單雙向光流預(yù)測[11]和增強的變形可分離卷積[13]等;warp 層采用直接warp 操作[8]、自適應(yīng)warp 層[10]以及根據(jù)構(gòu)建的光流有選擇的進行warp變形[14]等;進行遮擋處理時涵蓋的信息———上下文信息[14]、景深信息[10]和異常運動圖[12]等;損失函數(shù)一般考慮像素間的損失,感知損失和時域一致性損失,此外還有顏色損失[10]和循環(huán)一致性損失[9]等. 它的可視效果主要依賴光流的估計精度,而光流精度的不確定性容易導(dǎo)致輸入幀沒有很好的對齊,不可避免的產(chǎn)生模糊效應(yīng). 其次,插值幀的對象運動一般都是假設(shè)為線性運動,但是該假設(shè)對于非剛性對象并不成立,也就必然導(dǎo)致光流對齊的不一致性. 最后,雖然遮擋掩模自適應(yīng)融合能一定程度的緩解遮擋和不精確光流引起的效應(yīng),但是,它從前、后幀和初始插值幀中通過度量選取合適的像素或片時,可能由于選取的差異性導(dǎo)致最終輸出區(qū)域紋理的不連續(xù)性或邊界的不一致性.
此外,這4 類深度視頻幀插值方法中都存在雙線性上采樣層和帶權(quán)平均操作,這些操作有助于高分辨率和高質(zhì)量視頻的合成,也必然在插值幀中遺留下細微的奇異信號. 因此,深度視頻幀插值雖然采用精度更高的光流和深度學(xué)習(xí)網(wǎng)絡(luò),合成出“以假亂真”的修復(fù)幀,依然遺留下該帶權(quán)平均操作的微弱痕跡.
3 視頻幀插值檢測技術(shù)
依據(jù)取證技術(shù)手段,現(xiàn)有的視頻幀插值檢測技術(shù)可以大致分為兩大類:第一類是基于手工提取特征的篡改檢測技術(shù),這類檢測技術(shù)主要從遺留痕跡角度有針對性地設(shè)計取證特征,普遍采用“遺留痕跡挖掘+ 取證特征設(shè)計+ 支持向量機”的框架實現(xiàn)虛假高幀率視頻或插值幀的真假判別;第二類利用以卷積神經(jīng)網(wǎng)絡(luò)CNN 為代表的深度學(xué)習(xí),自主學(xué)習(xí)潛在的特征表征,設(shè)計前置處理層和空時域特征學(xué)習(xí)實現(xiàn)視頻幀插值的篡改檢測. 到目前為止,視頻幀插值檢測技術(shù)在國內(nèi)、外團隊研究成果如表2 所示.
3. 1 基于手工提取特征的視頻幀插值篡改檢測技術(shù) 這類檢測技術(shù)依據(jù)提取的篡改痕跡而專門設(shè)計的取證手段,主要針對傳統(tǒng)的視頻幀插值技術(shù).根據(jù)針對的視頻幀插值技術(shù),這類篡改檢測技術(shù)可以劃分為基于簡單幀插值的篡改檢測技術(shù)和基于運動補償?shù)囊曨l幀插值的篡改檢測技術(shù)[16].
3. 1. 1 基于簡單幀插值的篡改檢測技術(shù) 由于簡單插值手段不考慮幀內(nèi)對象的運動軌跡,插值幀與前一幀具有較高的相似度. 這類檢測技術(shù)主要從這個角度展開研究. Farid 團隊[22]首先提出運動自適應(yīng)算法檢測交織和去交織視頻中簡單插值手段,但是僅僅只在自建的一個視頻中進行了測試. 隨后,通過分析商業(yè)軟件ImTOO、AVS video converter 和Any video converter 合成的虛假高幀率視頻,中山大學(xué)的Bian 等[24]發(fā)現(xiàn),這些合成的高幀率視頻的插值幀與前一幀間的結(jié)構(gòu)相似度存在異常高的奇異值,并在頻率域中存在峰值,推斷出虛假高幀率視頻的原始幀率. 該算法在未壓縮和壓縮格式的視頻上都獲得了99% 的檢測精度. 基于文獻[24]的發(fā)現(xiàn),林晶等[37]從光流的角度檢測幀復(fù)制的篡改. 作者首先采用傳統(tǒng)的光流計算方法逐幀計算光流強度,并計算相鄰幀之間光流強度差值,再利用傅里葉變化,轉(zhuǎn)入到頻域分析峰值與平均值之間的比例閾值判斷當前待檢測視頻是否為虛假高幀率視頻.雖然這類檢測方法對壓縮視頻具有一定的魯棒性和較高的檢測精度,但是,這類方法不能推斷插值幀的位置和所采用的幀插值方法類型.
3. 1. 2 基于運動補償?shù)囊曨l幀插值(MCFI)的篡改檢測技術(shù) MCFI 技術(shù)合成的虛假高幀率視頻因為考慮運動對象的運動軌跡,保持了視頻的時域連貫性,具有較好的視覺效果. 因此,不存在顯著的幀間相似度引起的異常峰值,從而使得文獻[22,24,34]提出的檢測技術(shù)無效. 因此,此類篡改操作吸引更多的學(xué)者深入探究,挖掘底層痕跡,提出了一些有針對性的取證方案.
Bestagini 團隊[23]首創(chuàng)地提出基于MCFI 篡改虛假高幀率視頻的原始幀率估計方法. 該方法首先利用任意形式的MCFI 技術(shù)逐幀合成一個與待測視頻同幀率的新的虛假高幀率視頻,再計算待測視頻與新的虛假高幀率視頻間的像素差值均方誤差,轉(zhuǎn)化為一維信號,再轉(zhuǎn)入到頻域,根據(jù)峰值判定出原始幀率. 采用與Bestagini 類似的方案,夏明等[25]利用峰值信噪比從頻域估計原始幀率. 隨后,Yao 團隊[18]針對MCFI 方法在運動對象邊界遺留不連續(xù)或過平滑痕跡,使用邊界算法計算逐幀邊界強度,再引入卡夫曼自適應(yīng)運動平均算法構(gòu)造自適應(yīng)閾值曲線,從而根據(jù)幀邊界強度的不連續(xù)性區(qū)分插值幀和原始幀. 依據(jù)相同的遺留痕跡位置,文獻[17]
從視頻幀的運動對象紋理異常角度提出幀級平均紋理變化曲線,根據(jù)頻域的周期性估計待測虛假視頻的原始幀率. 這些方法都是直接根據(jù)視頻幀空域遺留的可視痕跡. 但是,一旦針對的MCFI 技術(shù)通過后處理修復(fù)運動區(qū)域的不連續(xù)邊界和紋理細節(jié),這些方法因無法有效選取合適的閾值而導(dǎo)致估計出的原始幀率出現(xiàn)嚴重偏差. 李然團隊[28-29]從噪聲角度考慮. 他們首先發(fā)現(xiàn)噪聲異常主要來源于插值幀合成過程中的平均操作;隨后,他們分別提取模式噪聲或高斯白噪聲,利用小波和傅里葉變化,提取噪聲變化的周期性,從而檢測MCFI 篡改. 該方法對于原始視頻具有滿意的性能,但是,未討論壓縮狀態(tài)下的檢測性能. 此外,李然等設(shè)計出的算法閾值為固定值,來源于所依賴的訓(xùn)練視頻,當測試視頻與訓(xùn)練視頻不匹配時,將出現(xiàn)性能的明顯下降,也不適合實際的取證環(huán)境. Jung 團隊[19]和Ding 團隊[20-21]都發(fā)現(xiàn)從虛假高幀率視頻提取的運動矢量和光流強度上都存在不連續(xù)性,通過對運動矢量和光流建模,利用周期性和Markov 特征分別檢測出虛假視頻.
最近,我們針對視頻插幀,分別分析其遺留的微弱可視效應(yīng),例如模糊和邊緣紋理變化強度的周期性以及殘差信號等,提出了相應(yīng)的取證算法. 尤其是,提出的一種基于殘差信號的幀插值操作類型識別取證方法[27]. 通過實驗觀察發(fā)現(xiàn),不同類型的幀插值方法所遺留的殘差信號存在一定的差異,為此對殘差信號進行理論建模,從而將幀插值方法的識別問題轉(zhuǎn)化為區(qū)分不同的殘差信號的問題. 顯然,該算法對于同時經(jīng)歷了幀插值和高效壓縮的視頻,能夠揭示幀插值操作的具體類型,包括幀平均、幀重復(fù)、運動補償幀差值和多種公開的幀插值軟件工具等,實現(xiàn)視頻被動取證更深層次的目標. 此外,該團隊還發(fā)現(xiàn),篡改幀的運動區(qū)域呈現(xiàn)高殘差能量[26],由此,設(shè)計一個效應(yīng)指示器揭露效應(yīng)區(qū)域與高殘差能量間的相關(guān)性,再利用高階切比雪夫矩絕對值的均值捕捉時域的不連續(xù)性,通過滑動窗口動態(tài)地識別插值幀. 該方法能有效地抵抗噪聲、模糊和壓縮的干擾,具有較強的魯棒性. 隨后,蔣興浩團隊[36]系統(tǒng)闡述了MCFI 技術(shù)檢測領(lǐng)域的現(xiàn)狀,從幀插值方法和篡改檢測方法的算法框架以及檢測結(jié)果等方面對比現(xiàn)有的檢測技術(shù). 但是,對于深度視頻幀插值的研究現(xiàn)狀和基于深度學(xué)習(xí)的篡改取證方法未作研究. 近期,Zhao 團隊[33]從反取證和慢運動效果角度分別利用全局和局部聯(lián)合特征以及幀差周期痕跡的自相關(guān)系數(shù)和Markov 特征[34]檢測插值幀視頻,彌補了基于光流的視頻刪幀取證的缺陷.
3. 2 基于深度學(xué)習(xí)的視頻幀插值篡改檢測技術(shù) 依據(jù)深度學(xué)習(xí)較強的學(xué)習(xí)能力,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)也被引入到視頻被動取證領(lǐng)域,自主學(xué)習(xí)潛在的特征表征,出現(xiàn)了一些基于深度學(xué)習(xí)的視頻幀插值篡改檢測技術(shù)的代表性工作. 其中,Ding 團隊[31-32]通過實驗觀察發(fā)現(xiàn)視頻幀插值在空時邊界和遮擋區(qū)域存在明顯的效應(yīng)現(xiàn)象,提出將這些痕跡植入已有的隱寫分析網(wǎng)絡(luò)模型傳遞先驗知識、檢測插值幀位置并識別所采用的運動補償幀插值方法. 隨后,Lee 團隊[30]利用CNN 學(xué)習(xí)空時特征實現(xiàn)最近鄰插值、雙線性插值和運動補償插值3 種方式的檢測. 近期,Zhao 團隊[35]從AVC到HEVC 轉(zhuǎn)碼異常角度檢測視頻幀插值,他們認為在視頻轉(zhuǎn)碼過程中并不是所有的視頻幀都發(fā)生了轉(zhuǎn)碼過程,對于采用視頻幀插值插入的合成幀并沒有轉(zhuǎn)碼過程. 通過分析AVC 到HEVC 轉(zhuǎn)碼和HEVC編碼在解碼視頻幀間的差異,預(yù)測單元的劃分和位置信息構(gòu)成幀級預(yù)測單元圖來捕獲局部效應(yīng),最后將解碼幀和預(yù)測單元圖作為輸入,使用包含卷積模塊和自適應(yīng)融合模塊的雙通路網(wǎng)絡(luò)提取自學(xué)習(xí)特征,完成轉(zhuǎn)碼幀的檢測和定位,也間接地檢測視頻幀插值技術(shù)合成的插值幀.
近年來,深度視頻幀插值技術(shù)利用深度學(xué)習(xí)的優(yōu)勢,結(jié)合空時一致性約束、雙向光流估計和幀間/幀內(nèi)上下文信息等,預(yù)測未知的視頻幀. 此類方法通過學(xué)習(xí)真實視頻對象的運動行為或特征模式分布,能夠減弱MCFI 技術(shù)遺留的痕跡. 顯然,這將在很大程度上使得現(xiàn)有的取證方法/ 工具的檢測性能明顯下降甚至失效,從而使其應(yīng)用范圍受到很大的局限. 鑒于此,Ding 等[32]提出了一種基于雙流融合網(wǎng)絡(luò)模型的深度視頻幀插值取證方法. 它包括干擾預(yù)處理模塊、痕跡增強模塊和特征提取、融合模塊3個部分. 其中,干擾預(yù)處理模塊主要解決P 幀中的異常和波動問題;痕跡增強分別采用時間窗口的中值濾波差值和運動矢量推理差值實現(xiàn);特征提取采用ResNet-50 作為骨干網(wǎng)絡(luò),使用膨脹卷積替換原有卷積獲得特征圖的提??;特征融合采用帶權(quán)關(guān)注融合的機制實現(xiàn),最終得到視頻的真假判別. 雖然該方法獲得85. 16% 的平均識別率,但是該方法不能有效的區(qū)分告警是正確檢測報警還是對自然媒體形成的虛警,也受雙壓效應(yīng)的影響.
3. 3 算法優(yōu)缺點對比 視頻幀插值篡改檢測技術(shù)的原始幀率估計、插值幀定位和篡改方式識別的優(yōu)缺點分析如表3 所示. 總體來說,每種視頻幀插值篡改檢測技術(shù)采用不同的取證特征,具有不同的優(yōu)勢. 在視頻幀插值篡改檢測領(lǐng)域,未來還需要深入研究深度視頻幀插值技術(shù),朝著多域特征融合的方向發(fā)展,以實現(xiàn)多任務(wù)取證和通用取證,從而提升檢測技術(shù)的泛化性和檢測精度.
4 存在的挑戰(zhàn)和未來的研究展望
現(xiàn)階段,視頻幀插值的被動取證研究主要集中在傳統(tǒng)視頻幀插值領(lǐng)域. 深度視頻幀插值擺脫了傳統(tǒng)視頻幀插值對于領(lǐng)域知識的依賴,采用端到端的訓(xùn)練模式,通過數(shù)據(jù)驅(qū)動,有效地緩解和掩蓋了傳統(tǒng)視頻幀插值可能遺留的痕跡. 針對深度視頻幀插值,研究切實有效的檢測手段,是視頻幀插值取證領(lǐng)域的未來研究方向,值得深入研究:
1)深度視頻幀插值的溯源分析. 深度視頻幀插值技術(shù)是當前最紅火的技術(shù),合成的視頻看上去“可怕的真實”. 因此,惡意篡改者會盡可能借助先進的技術(shù)手段進行虛假高幀率視頻的合成,改變視頻原始屬性,掩蓋操作痕跡. 目前,深度視頻幀插值的被動取證研究雖然得到一些關(guān)注,但無法給出可靠且有說服力的視頻內(nèi)容偽造識別取證結(jié)果,而溯源取證技術(shù)能夠提供更加可靠且有說服力的偽造識別取證結(jié)果. 因此,開展深度視頻幀插值的溯源分析是一個亟待解決的新方向.
2)開放環(huán)境下的深度視頻幀插值被動取證.深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,不斷涌現(xiàn)“以假亂真”程度更高的視頻幀插值網(wǎng)絡(luò)模型,致使遺留的篡改痕跡更加細微. 尤其是取證工作通常滯后于篡改手段,使得針對此類新型篡改手段的取證很可能面臨開放集環(huán)境,導(dǎo)致取證分析者難以估計待測視頻的篡改方式. 如果針對深度視頻修復(fù)的被動取證能進一步區(qū)分各種深度視頻修復(fù)方法,尤其是在開放集環(huán)境下,將滿足更深層次的取證要求.
5 結(jié)論
視頻幀插值根據(jù)2 個連續(xù)視頻幀合成中間幀,實現(xiàn)高幀率視頻的合成. 本文重點圍繞利用深度學(xué)習(xí)技術(shù)優(yōu)異的特征表征能力衍生的深度視頻幀插值,分析其幀合成的機理特點和網(wǎng)絡(luò)模型,深入挖掘其特有的細微痕跡以及對檢測的指導(dǎo)意義. 從視頻幀插值技術(shù)的分類、篡改痕跡和特征設(shè)計3 個角度歸納和總結(jié)了視頻幀插值篡改檢測技術(shù)領(lǐng)域的研究進展. 最后,對未來針對深度視頻幀插值篡改檢測技術(shù)的發(fā)展趨勢進行了探討. 可以預(yù)計,在深度視頻幀插值的取證領(lǐng)域,溯源分析和開放環(huán)境下的檢測將是未來的研究熱點.