蘇立超, 黃添強, 鄭明魁
(1. 福建師范大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院, 福建 福州 350007; 2. 福州大學(xué)物理與信息工程學(xué)院, 福建 福州 350116)
一種基于特征提取與追蹤的視頻復(fù)制粘貼篡改檢測方法
蘇立超1, 黃添強1, 鄭明魁2
(1. 福建師范大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院, 福建 福州 350007; 2. 福州大學(xué)物理與信息工程學(xué)院, 福建 福州 350116)
提出一種基于特征提取與追蹤的視頻篡改檢測方法. 首先對視頻序列按照一定幀間隔進(jìn)行特征提取, 尋找出首個篡改幀及其篡改區(qū)域; 其次采用追蹤算法對該篡改區(qū)域進(jìn)行學(xué)習(xí), 并定位該幀之后的每個視頻幀的可疑區(qū)域; 最后對可疑區(qū)域再使用特征提取算法進(jìn)行相似點匹配, 確定出視頻篡改幀的位置及其篡改區(qū)域. 結(jié)果證明了方法的有效性和魯棒性, 以及在執(zhí)行時間上相對于已有算法的優(yōu)越性.
視頻篡改; 特征提??; 壓縮追蹤; 視頻幀
隨著數(shù)字多媒體技術(shù)的發(fā)展, 數(shù)碼照相機與數(shù)碼攝像機等視頻采集設(shè)備已日益漸普及. 與此同時, 功能強大的視頻處理軟件不斷涌現(xiàn), 使得非專業(yè)人員也可以方便地利用這些軟件工具對視頻的內(nèi)容進(jìn)行修改. 隨著視頻篡改、 偽造越來越容易, 也給防偽、 取證等工作帶來巨大的挑戰(zhàn). 因此, 對視頻的真實性和完整性的認(rèn)證顯得日益重要和緊迫, 并已逐漸成為學(xué)術(shù)界的研究熱點[1].
視頻的取證方法主要分為兩大類: 主動取證和被動取證. 主動取證需要提前在視頻生成的過程中向視頻嵌入驗證信息, 這種方法在實際應(yīng)用中局限性較大. 被動取證則不需要依賴驗證信息, 僅通過視頻本身提供的信息來判斷其真實性和完整性, 這類方法在實際運用中更為有效.
針對視頻的被動取證研究近年來已被廣泛重視并取得重要進(jìn)展. 王俊文等[2]提出一種基于模式噪聲的數(shù)字視頻篡改檢測算法. 它通過維納小波濾波器從視頻中提取每幀相對穩(wěn)定的殘留模式噪聲, 并取該殘留模式噪聲的平均值從而建立模式噪聲, 通過比較待鑒別幀的噪聲與模式噪聲之間的相關(guān)性, 判別定位篡改區(qū)域. 但是如果篡改的視頻均來自同一部設(shè)備, 這種方法就失去其有效性. 文獻(xiàn)[3-4]利用視頻在篡改后必然會經(jīng)過二次壓縮這一步驟, 并由于系數(shù)的雙重量化會引入塊效應(yīng), 達(dá)到視頻篡改檢測的目的, 這種算法對一定范圍內(nèi)的壓縮率是魯棒的. 文獻(xiàn)[5]則提出利用篡改區(qū)域周圍的紋理特征來檢測篡改的痕跡, 但該方法需要根據(jù)經(jīng)驗配置多個參數(shù), 且容易受拍攝場景中樹木、 花草等環(huán)境影響.
采用幀內(nèi)復(fù)制-粘貼的常見的視頻篡改方式, 但對這種視頻篡改方式的檢測方法研究目前還比較少見. 文獻(xiàn)[6]提出了利用視頻時空域的相關(guān)性來實現(xiàn)對區(qū)域復(fù)制篡改的檢測方法, 但是當(dāng)篡改區(qū)域較小時, 這種檢測方法檢測精度不高; 文獻(xiàn)[7]提出了基于HOG(histogram of oriented gradient) 特征的視頻空域和時域篡改檢測方法, 使得檢測的魯棒性方面有所提高, 但需消耗較多時間.
通過分析根據(jù)視頻有意義篡改所具有的特征和視頻復(fù)制-粘貼篡改的特點, 結(jié)合數(shù)字視頻的特性, 提出了將特征提取與追蹤算法相結(jié)合的檢測方法. 首先通過對視頻序列按照一定間隔, 采用具備旋轉(zhuǎn)、 尺度縮放和亮度變化保持不變性的SIFT算法提取特征, 尋找首個篡改幀及其篡改區(qū)域;其次, 使用壓縮追蹤算法對該篡改區(qū)域進(jìn)行學(xué)習(xí)并定位其后的每個視頻幀的可疑區(qū)域; 最后, 對所獲得的可疑區(qū)域使用SIFT算法進(jìn)行相似點的匹配, 確定出整個視頻的篡改幀位置及其具體篡改區(qū)域. 仿真分析表明, 本算法在保證準(zhǔn)確度和魯棒性的前提下, 較之前的算法擁有更快的檢測速度, 而且對于放大、 縮小和旋轉(zhuǎn)等多種幀內(nèi)篡改方式具有很好的適應(yīng)性.
SIFT(scale invariant feature transform)算子是Lowe[8]于2004年正式提出的一種基于尺度空間的、 對圖像縮放、 旋轉(zhuǎn)甚至仿射變換保持不變性的圖像局部特征描述算法, 其基本思想是在尺度空間尋找極值點, 提取位置、 尺度、 旋轉(zhuǎn)不變量, 該算法包括四個步驟.
1) 尺度空間極值點檢測. 建立尺度空間, 搜索所有尺度上的圖像位置, 通過高斯微分函數(shù)來識別潛在的對于尺度和旋轉(zhuǎn)不變的興趣點. 一個圖像的尺度空間L(x,y,σ)定義為一個變化尺度的高斯函數(shù)G(x,y,σ)與原圖像I(x,y)的卷積, 如(1)式所示:
在(1)式中,G(x,y,σ)=1/(2πσ2)e-[(x-m/2)2+(y-n/2)2]/2σ2,σ表示尺度因子. 尺度空間在實現(xiàn)時使用高斯金字塔表示, 高斯差分圖像(differenceofgaussian,DOG)由高斯金字塔每組中相鄰上下兩層圖像相減所得. 特征點是由DOG空間的局部極值點組成的. 為了尋找DOG函數(shù)的極值點, 每一像素點要與它同尺度的8個相鄰點和上下相鄰尺度對應(yīng)的9×2個點共26個點比較, 以確保在尺度空間和二維圖像空間都檢測到極值點.
2) 特征點定位. 根據(jù)上述方法得到的極值點是離散空間的極值點, 需通過擬合三維二次函數(shù)來精確確定特征點的位置和尺度, 并去除低對比度的特征點和不穩(wěn)定的邊緣響應(yīng)點, 以增強匹配穩(wěn)定性、 提高抗噪聲能力.
3) 特征點方向確定. 為了使描述算子具有旋轉(zhuǎn)不變性, 需要利用圖像的局部特征為給每一個特征點分配一個基準(zhǔn)方向, 使用圖像梯度的方法求取局部結(jié)構(gòu)的穩(wěn)定方向, 梯度的模值和方向分別按照公式(2)與公式(3)計算:
在完成特征點的梯度計算后, 使用直方圖統(tǒng)計鄰域內(nèi)像素的梯度和方向. 梯度直方圖將0°~360°的方向范圍分為36個柱(bins), 其中每柱10°, 以直方圖中最大值作為該特征點的主方向. 為了增強匹配的魯棒性, 保留峰值大于主方向峰值80%的方向作為該特征點的輔方向.
4) 生成特征點描述子. 通過以上步驟, 對于每一個特征點, 擁有三個信息: 位置、 尺度以及方向. 用一組向量將這個特征點描述出來, 使其不隨各種變化, 如光照、 視覺變化等而變化. 根據(jù)文獻(xiàn)[2],Lowe建議描述算子使用在特征點尺度空間內(nèi)4×4的窗口中計算的8個方向的梯度信息, 共4×4×8=128維向量表征.
圖1 基于特征提取與追蹤的視頻篡改檢測算法流程Fig.1 The flow diagram of proposed method based on features extracting and tracking
采用幀內(nèi)復(fù)制-粘貼篡改方法時, 為了盡量消除篡改痕跡, 篡改者往往不會簡單地復(fù)制一個區(qū)域, 而是對該區(qū)域進(jìn)行一定的幾何變換, 如旋轉(zhuǎn), 縮放; 或者后處理, 如模糊濾波, 噪聲污染等. 雖然SIFT特征提取算法具備良好的特性而在在圖像篡改檢測領(lǐng)域中取得了良好的效果. 但在視頻應(yīng)用中, 如果對每幀都使用SIFT算法提取特征并進(jìn)行檢測的話, 其效率將十分低下, 時間消耗將難以接受. 針對上述問題, 結(jié)合視頻信號的特點, 本文提出在視頻幀序列中間隔使用SIFT算法尋找首個篡改幀, 從而在不影響實際效果的條件下節(jié)省檢測時間; 通過k-means聚類算法將首個篡改幀中的SIFT特征點根據(jù)其位置分成兩類, 確定出該幀的被篡改區(qū)域; 在此基礎(chǔ)上, 引入壓縮追蹤算法對該篡改區(qū)域進(jìn)行學(xué)習(xí)并定位此幀之后每個視頻幀的可疑區(qū)域; 然后對可疑區(qū)域使用SIFT特征提取算法進(jìn)行相似性計算, 最終確定整個視頻的篡改幀的位置及其具體篡改區(qū)域, 并輸出檢測結(jié)果. 本算法的具體流程如圖1所示.
2.1 特征提取與匹配
根據(jù)視頻幀內(nèi)復(fù)制-粘貼篡改其源區(qū)域和復(fù)制區(qū)域之間存在相似性的特點, 采用SIFT算法來尋找可疑視頻序列中被篡改序列的起始幀, 并確定其具體篡改區(qū)域. 在通常情況下, 僅僅篡改視頻序列中的幾幀毫無意義, 且視頻序列中相鄰幾幀的內(nèi)容幾乎是相近, 因此可以按照較大的幀數(shù)確定檢測間隔(設(shè)為t), 以提高算法的檢測效率.
輸入可疑視頻序列后, 記當(dāng)前幀序號為current, 當(dāng)前幀表示為Icurrent. 將其灰度化后, 使用SIFT算法提取該幀的特征點X={x1,x2, …,xn}, 對于每個特征點, 包含描述算子{f1,f2, …,fm}(本文m=128). 接著對任意兩個特征點進(jìn)行相似度計算, 尋找匹配點. 本文采用歐式距離作為相似度度量, 記xik為第i個特征點對應(yīng)的第k個描述子,xjk為第j個特征點對應(yīng)的第k個描述子, 則第i個特征點和第j個特征點的相似度計算用(4)式表示:
根據(jù)(4)式可知, 在閾值Tdis的選擇上, 閾值越大則得到的匹配的特征點越多, 其誤匹配點就越多; 若閾值越小, 則誤匹配點就越少, 但正確的匹配點也越少. 本文根據(jù)大量的實驗效果進(jìn)行權(quán)衡后, 將閾值Tdis設(shè)定為0.006. 通過相似度計算, 得到該幀的匹配點集合.
2.2 確定篡改區(qū)域
根據(jù)復(fù)制-粘貼篡改的特點, 為保證其篡改的內(nèi)容具有意義且不易被觀察者發(fā)現(xiàn), 被篡改的視頻通常具備三個特征: 1)篡改區(qū)域為有一定尺寸的連通區(qū)域, 2)源區(qū)域和復(fù)制區(qū)域具有相對集中的相似特征點, 3)篡改的視頻幀為多個(至少數(shù)十幀)連續(xù)幀. 針對上述視頻有意義篡改的第一個特征, 本文算法首先計算匹配點對的個數(shù). 如果匹配點對的個數(shù)小于5, 則認(rèn)為該幀未被篡改, 則取第current=current+t幀作為下一次檢測的當(dāng)前幀Icurrent, 返回算法的第一部分繼續(xù)檢測; 否則認(rèn)為該幀已經(jīng)被篡改, 此時需要確定篡改區(qū)域: 根據(jù)上述視頻有意義篡改的第二個特征, 使用k-means聚類算法將該幀內(nèi)所有特征點根據(jù)其在幀內(nèi)的位置分成兩類, 即源區(qū)域和復(fù)制區(qū)域; 接著分別對兩類區(qū)域作外接矩形, 記錄該幀被篡改區(qū)域的坐標(biāo)Q′和W′, 標(biāo)出其被篡改位置.
2.3 篡改區(qū)域的追蹤和驗證
根據(jù)視頻有意義篡改的第三個特征, 本文使用目標(biāo)追蹤算法對這個篡改區(qū)域進(jìn)行學(xué)習(xí), 并在該幀之后的視頻幀中對該這一區(qū)域進(jìn)行追蹤, 找出其相應(yīng)位置. 相比于以往的目標(biāo)追蹤算法, 實時追蹤算法(RCT)是一種簡單高效的基于壓縮感知的追蹤算法, 其運行效率可以達(dá)到實時跟蹤的效果, 并且其也擁有較強的魯棒性[9].
圖2 篡改區(qū)域的追蹤和驗證算法流程圖Fig.2 The flow diagram of tracking and authentication algorithm for tampered region
使用RCT算法對檢測到的被篡改的首幀Q′進(jìn)行學(xué)習(xí), 回退t幀后, 對接下來的所有視頻幀進(jìn)行追蹤, 直到目標(biāo)區(qū)域消失或者視頻結(jié)束, RCT算法停止運行, 記下追蹤后得到的每幀的可疑區(qū)域坐標(biāo)α1. 然后, 再使用RCT算法對被篡改的首幀W′進(jìn)行學(xué)習(xí), 回退t幀后, 對接下來的所有視頻幀除α1以外的部分進(jìn)行追蹤, 得到一組新的可疑區(qū)域坐標(biāo)α2. 此時,α1(i)和α2(i)分別對應(yīng)于第i幀的兩個可疑區(qū)域坐標(biāo), 記兩次RCT算法停止所在的幀序號最小值為stop. 接著, 算法對追蹤得到的結(jié)果進(jìn)行驗證, 再使用SIFT算法依次對α1和α2中記錄的每幀的兩個可疑區(qū)域進(jìn)行匹配. 如果匹配點數(shù)目大于5(經(jīng)驗數(shù)), 則判定該幀被篡改, 該幀追蹤得到的區(qū)域即為篡改區(qū)域, 否則判定該幀未被篡改.
由于RCT算法的魯棒性較高, 能抵抗多種干擾因素, 如放大、 縮小、 模糊、 抖動、 遮擋等, 因而即使視頻拍攝條件較差, RCT算法依然能給出準(zhǔn)確的追蹤結(jié)果; 而且RCT追蹤算法具有實時性, 使用SIFT匹配追蹤后的兩個目標(biāo)位置只是視頻幀中的小塊區(qū)域, 這兩個步驟的時間消耗相對較少. 因此, 本文通過這種方式避免了大量使用SIFT算法導(dǎo)致時間效率降低, 提高了運行效率的同時也保證了算法的魯棒性.
最后, 如果完成了視頻最后一幀的目標(biāo)追蹤的匹配, 則整個算法停止, 否則令current=stop, 返回算法第一部分繼續(xù)檢測, 本節(jié)篡改區(qū)域的追蹤和驗證的執(zhí)行流程如圖2所示.
本文的實驗視頻序列主要來自相機實地拍攝或從互聯(lián)網(wǎng)上下載, 并使用Adobe Photoshop CS6和Imagineer Systems Mokey 4.1.4兩款軟件對其進(jìn)行幀內(nèi)復(fù)制-粘貼篡改. 實驗所使用的計算機配置為: 中央處理器采用Intel Q8300四核處理器, 時鐘為2.50 GHz, 內(nèi)存2 G, 顯卡采用NVIDIA GeForce GTS450, 操作系統(tǒng)為Microsoft Windows XP SP3. 代碼使用MATLAB Version 2010a進(jìn)行編寫和運行.
3.1 篡改區(qū)域無后處理的檢測結(jié)果
實驗采用互聯(lián)網(wǎng)下載的3種不同的視頻序列見圖3. 其中, 視頻(1)的分辨率為320×240, 幀數(shù)為100幀; 視頻(2)的分辨率為320×240, 幀數(shù)為250幀; 視頻(3)的分辨率為1 100×620, 幀數(shù)為150幀. 3個視頻的篡改區(qū)域不經(jīng)過任何后處理. 采用本檢測算法的具體檢測算法參數(shù)為: 檢測間隔t=5 s、 閾值Tdis=0.006. 圖3給出了3個視頻被篡改前后的視頻幀對比, 以及采用本算法的檢測結(jié)果. 3個視頻的篡改檢測時間分別為: 視頻(1)的檢測時間為37 s, 視頻(2)的檢測時間為106 s, 視頻(3)的檢測時間為254 s.
3.2 篡改區(qū)域有后處理的檢測結(jié)果
實驗中采用數(shù)碼相機拍攝的3個視頻, 其分辨率均為640×480, 幀率為25 s-1, 幀數(shù)為100幀. 3個視頻均進(jìn)行了篡改后處理, 其中視頻1的篡改區(qū)域經(jīng)過放大處理, 視頻2的篡改區(qū)域經(jīng)過縮小并進(jìn)行旋轉(zhuǎn)180°操作, 視頻3在拍攝時存在輕微晃動而使視頻有點模糊. 采用本檢測算法的具體檢測算法參數(shù)為: 檢測間隔t=5 s、 閾值Tdis=0.006. 圖4給出了3個視頻被篡改前后的視頻幀對比, 以及采用本算法的檢測結(jié)果. 3個視頻的篡改檢測時間分別為: 視頻1的檢測時間為106 s, 視頻2的檢測時間為64 s, 視頻(3)的檢測時間為300 s.
圖3 對進(jìn)行過復(fù)制-粘貼的3個視頻序列的檢測實驗Fig 3 The detection results of three video sequences tampered by copy-paste
圖4 對采用不同篡改后處理的3個視頻序列的檢測實驗Fig .4 The tamper detection result of three video sequences
3.3 實驗結(jié)果分析
從3.1的實驗結(jié)果可以看出, 針對多種不同分辨率的視頻進(jìn)行幀內(nèi)復(fù)制-粘貼篡改后, 采用本算法進(jìn)行處理后, 每幀的篡改與否, 篡改的源區(qū)域和其對應(yīng)的復(fù)制區(qū)域的坐標(biāo)會被記錄, 并用紅框在視頻幀中標(biāo)出. 在實驗中, 無論篡改區(qū)域的大小, 本文的算法均準(zhǔn)確地判定了視頻是否經(jīng)過復(fù)制-粘貼篡改, 并且準(zhǔn)確地確定了被篡改的位置.
從3.2中的實驗結(jié)果可以看出, 在應(yīng)對各種篡改的后處理方面, 本文提出的檢測算法有著良好的魯棒性, 其中包括對復(fù)制的區(qū)域進(jìn)行180°旋轉(zhuǎn), 放大和縮小等處理. 即使當(dāng)被篡改的視頻在拍攝時有輕微晃動而造成視頻質(zhì)量下降的情況下, 采用本文的檢測算法, 也可以精確地確定篡改的位置, 并且極大地提高了算法效率, 節(jié)約了系統(tǒng)資源.
從以上兩個實驗結(jié)果可以看出, 采用本文提出的檢測算法, 針對不同分辨率的視頻序列, 其檢測所需的時間也不同. 一般情況下, 視頻的分辨率越高、 視頻包含的紋理細(xì)節(jié)越多、 所做篡改的區(qū)域越大, 檢測算法執(zhí)行的時間也越長. 針對圖4中的3種相同分辨率(640×480)的視頻序列進(jìn)行統(tǒng)計, 可以得出本檢測算法的平均時間為每幀1.34 s, 與同類型檢測算法[6-7]相比, 在相同的檢測準(zhǔn)確率情況下, 檢測執(zhí)行速度大約提高30%左右.
根據(jù)視頻有意義篡改所具有的特征和視頻復(fù)制-粘貼的篡改特點, 并結(jié)合視頻的特性, 提出了基于SIFT特征提取和RCT追蹤算法的視頻篡改檢測方法. 該方法通過對視頻序列按照一定間隔使用SIFT算法提取特征, 尋找首個篡改幀及其篡改區(qū)域; 然后使用RCT算法對該篡改區(qū)域進(jìn)行學(xué)習(xí)并定位該幀之后每個視頻幀的可疑區(qū)域; 最后對得到的可疑區(qū)域使用SIFT算法進(jìn)行相似點的匹配, 確定整個視頻的篡改幀的位置及其具體篡改區(qū)域. 實驗結(jié)果證明了本文方法的有效性和魯棒性, 以及在執(zhí)行時間上的優(yōu)越性.
[1] 陳威兵, 楊高波, 陳日超. 數(shù)字視頻真實性和來源的被動取證[J]. 通信學(xué)報, 2010, 32(6): 177-183.
[2] 王俊文, 劉光杰, 張湛. 基于模式噪聲的數(shù)字視頻篡改取證[J]. 東南大學(xué)學(xué)報: 自然科學(xué)版, 2008, 38(A2): 13-17.
[3] Wang Weihong, Farid H. Exposing digital forgeries in video by detecting double quantization[C]//Proceeding of The 11th ACM Workshop on Multimedia and Security. Princeton: ACM, 2009: 39-48.
[4] Chen Wen, Shi Yun. Detection of double mpeg compression based on first digit statistics[C]//Lecture Notes in Computer Science, Digital Watermarking. Busan: Springer, 2009: 16-30.
[5] Zhang Jing, Su Yuting. Exposing digital video forgery by ghost shadow artifact[C]//Proceeding of First ACM Workshop on Multimedia in Forensics. Beijing: ACM, 2009: 49-54.
[6] Wang Weihong, Farid H. Exposing digital forgeries in video by detecting duplication[C]//Proceedings of The 9th Workshop on Multimedia & Security. Dallas: ACM, 2007: 35-42.
[7] Subramanyam A, Emmanuel S. Video forgery detection using HOG features and compression properties[C]//2012 IEEE 14th International Workshop on Multimedia Signal Processing. Hangzhou: IEEE, 2012: 89-94.
[8] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[9] Zhang Kaihua, Zhang Lei, Yang M H. Real-time compressive tracking[M]//Fitzgibbon A, Lazebnik S, Perona P,etal. Computer Vision-ECCV. Berlin: Springer, 2012: 864-877.
(責(zé)任編輯: 林曉)
A copy-paste video tamper detection method based on features extracting and tracking
SU Lichao1, HUANG Tianqiang1, ZHENG Mingkui2
(1. School of Mathematics and Computer Science, Fujian Normal University, Fuzhou, Fujian 350007, China;
2. College of Physics and Information Engineering, Fuzhou University, Fuzhou, Fujian 350116, China)
In this paper, a novel video tamper detection method is proposed. In the method, the SIFT algorithm is firstly used to extract features of video sequence according to inspection interval parameter and seek out the first tampering frame and the tampered area. Then, the compression tracking algorithm is used to study the tampered area and locate the suspicious area of each video frame. Finally, the SIFT algorithm is used to calculate the similarity of suspicious area obtained and the position of tampered frames of the whole video and their specific tampered areas are confirmed. The experimental result show that this method are more effective, robust and quick than that of before.
video forgery; feature extracting; compressive tracking; video frame
10.7631/issn.1000-2243.2015.04.0450
1000-2243(2015)04-0450-06
2013-11-21
黃添強(1971- ), 教授, 主要從事機器學(xué)習(xí)與數(shù)據(jù)挖掘方面研究, 651424071@qq.com
國家自然科學(xué)基金資助項目(61070062); 福建省高校服務(wù)海西建設(shè)重點項目(2008HX200941-4-5); 福建省高校新世紀(jì)優(yōu)秀人才基金資助項目(JA11038); 福建省科技重大專項(2014HZ0003-3)
TN919.8
A