楚雪玲, 魏為民, 華秀茹, 李思纖, 栗風(fēng)永
(上海電力學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
隨著圖像處理技術(shù)的不斷改進(jìn),篡改技術(shù)越來越高明,偽造的圖像越來越難以被人眼察覺。如果在軍事、政治方面或法庭等重要場(chǎng)合發(fā)生圖像篡改,將不可避免地對(duì)國(guó)家的安全和穩(wěn)定以及人民的生活產(chǎn)生不可估量的影響。
主動(dòng)取證和被動(dòng)取證技術(shù)是目前數(shù)字取證的兩種主要技術(shù)。主動(dòng)取證技術(shù)是指將脆弱的水印或者簽名預(yù)先嵌入數(shù)字圖像中,利用提取水印或簽名的方法進(jìn)行取證的技術(shù);數(shù)字圖像被動(dòng)取證技術(shù),即盲取證技術(shù),是在沒有預(yù)簽名或者預(yù)嵌入信息提取的情況下,來驗(yàn)證圖像的真實(shí)性和來源的一種技術(shù)[1]。相對(duì)主動(dòng)取證來說,被動(dòng)取證具有較高的應(yīng)用和研究?jī)r(jià)值,但獲取證據(jù)的難度較大。JPEG作為目前流行的圖像格式之一,其優(yōu)點(diǎn)是在壓縮率較高的情況下仍能夠獲得較好的圖像質(zhì)量,并且速度處理相對(duì)較快。因此,對(duì)JPEG篡改圖像進(jìn)行的盲取證研究具有非常重要的意義和應(yīng)用前景。
利用圖像軟件篡改圖像時(shí),JPEG圖像在篡改完成后,可能會(huì)使用與原始圖像壓縮因子(QF1)不同的質(zhì)量因子(QF2)再一次壓縮存儲(chǔ),即JPEG圖像是雙重壓縮,如圖1所示。
圖1 雙JPEG壓縮過程
針對(duì)雙重JPEG篡改的圖像已研究出很多盲取證的算法。文獻(xiàn)[2-4]研究了通過估計(jì)圖像第一次壓縮量化表來定位篡改區(qū)域的方法;文獻(xiàn)[5]使用不同的質(zhì)量因子來重新壓縮待檢測(cè)的JPEG圖像,當(dāng)壓縮因子等于篡改區(qū)域的壓縮因子時(shí),被篡改區(qū)域的統(tǒng)計(jì)特性失真程度沒有很大變化,從而實(shí)現(xiàn)對(duì)篡改區(qū)域的檢測(cè)。文獻(xiàn)[6]首次實(shí)現(xiàn)了對(duì)JPEG圖像篡改區(qū)域的自動(dòng)檢測(cè)和定位。該方法可以檢測(cè)不同合成方法處理過的圖像,不需要完全解壓縮JPEG圖像,且對(duì)JPEG圖像具有更好的壓縮效果,尤其是在壓縮質(zhì)量較高的情況下。但該方法不適用于異源復(fù)制—粘貼圖像和經(jīng)歷了低質(zhì)量因子的圖像。文獻(xiàn)[7]通過估計(jì)DCT系數(shù)和量化步長(zhǎng)的兼容性,獲得了估計(jì)的量化步長(zhǎng)。該方法僅能夠檢測(cè)圖像篡改后以BMP格式保存的圖像,對(duì)JPEG雙壓縮格式無效。
針對(duì)上述檢測(cè)算法的局限性,文獻(xiàn)[8]提出了一種可以實(shí)現(xiàn)自動(dòng)檢測(cè)圖像篡改區(qū)域的算法。首先,利用雙壓縮量化效應(yīng)原理,計(jì)算DCT系數(shù)條件概率,用直方圖周期的平均概率密度來近似篡改區(qū)域;然后,運(yùn)用貝葉斯定理計(jì)算出圖像塊中某一類的后驗(yàn)概率,結(jié)合后驗(yàn)概率密度圖來實(shí)現(xiàn)篡改區(qū)域的定位。文獻(xiàn)[9]在文獻(xiàn)[8]的基礎(chǔ)上,利用粒子群算法設(shè)定自適應(yīng)閾值優(yōu)化后驗(yàn)概率密度圖,然后對(duì)閾值進(jìn)行分類判斷,通過后驗(yàn)概率密度圖實(shí)現(xiàn)篡改區(qū)域的檢測(cè)和分離。實(shí)驗(yàn)證明,該方法可以自動(dòng)快速準(zhǔn)確地檢測(cè)和提取篡改區(qū)域,而且當(dāng)QF1大于QF2時(shí),檢測(cè)結(jié)果比其他算法有顯著提高。 文獻(xiàn)[10-11]遍歷被檢測(cè)圖像的所有可能的質(zhì)量因子,并試著進(jìn)行了第三次壓縮,然后對(duì)圖像失真程度進(jìn)行分析,能夠檢測(cè)出待檢測(cè)圖像的原始?jí)嚎s因子的大小。
在成像設(shè)備市場(chǎng),目前百萬像素智能手機(jī)的普及率呈爆炸式增長(zhǎng),使用各種照片編輯工具也可以輕松地對(duì)圖像進(jìn)行操作。因此,智能手機(jī)圖像的認(rèn)證和捕獲后操作的識(shí)別是數(shù)字取證的重要內(nèi)容。為了提高對(duì)JPEG雙壓縮的檢測(cè),文獻(xiàn)[12]移植了JPEG隱寫分析中相鄰邊緣密度特征,并將該密度特征與DCT域邊緣密度特征進(jìn)行融合,作為學(xué)習(xí)分類器的檢測(cè)器,并利用邊緣密度和相鄰關(guān)節(jié)密度特征,以實(shí)現(xiàn)智能手機(jī)源的識(shí)別和捕獲后操作。
文獻(xiàn)[13]提出了一種基于塊內(nèi)和塊間相關(guān)性的移位雙JPEG(SDJPEG)壓縮篡改檢測(cè)方法。該方法利用差分二維數(shù)組描述塊內(nèi)和塊間相鄰JPEG量化DCT系數(shù)之間的大小差異,使用閾值技術(shù)對(duì)差異的二維數(shù)組進(jìn)行處理,結(jié)合共生矩陣對(duì)這些差分二維數(shù)組進(jìn)行建模,最后應(yīng)用支持向量機(jī)(Support Vector Machine,SVM)分類器對(duì)SDJPEG壓縮圖像進(jìn)行分類,通過開發(fā)的特征集將SDJPEG壓縮圖像塊與單個(gè)JPEG壓縮圖像塊進(jìn)行區(qū)分。
文獻(xiàn)[14]提出了一種在JPEG壓縮圖像位圖中利用網(wǎng)格定位對(duì)其異常進(jìn)行圖像偽造指標(biāo)檢測(cè)的新方法。該方法根據(jù)擬合函數(shù)對(duì)多個(gè)網(wǎng)格位置進(jìn)行評(píng)估,并將貢獻(xiàn)較小的區(qū)域標(biāo)識(shí)為網(wǎng)格不連續(xù)區(qū)域和可能被篡改的區(qū)域。
JPEG雙壓縮圖像檢測(cè)可分為基于不同量化和相同量化矩陣的壓縮檢測(cè)[15]。具體算法的特征分類和檢測(cè)效果如表1所示。
近年來,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的深入研究,深度學(xué)習(xí)的方法也應(yīng)用在圖像取證方面[27-31]。文獻(xiàn)[32]基于雙JPEG壓縮,提出了一種卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)算法,文獻(xiàn)[33-34]分別采用樸素貝葉斯分類器和SVM分類器對(duì)雙JPEG壓縮圖像進(jìn)行了檢測(cè)取證。
表2和表3是文獻(xiàn)[32-34]3種算法分別在小圖數(shù)據(jù)集[35]和大圖數(shù)據(jù)集[36]下的Area Under Curve(AUC)的值。
表1 JPEG雙壓縮圖像具體的特征分類和檢測(cè)效果
表2 小圖數(shù)據(jù)集下文獻(xiàn)[32-34]的AUC值
表3 大圖數(shù)據(jù)集下文獻(xiàn)[32-34]的AUC值
由表2和表3可知,兩種數(shù)據(jù)集下文獻(xiàn)[32]算法均優(yōu)于文獻(xiàn)[33-34]兩種算法,尤其在QF2 JPEG編碼時(shí),采用分塊后分別對(duì)每個(gè)子塊執(zhí)行二維DCT變換,這樣DCT變換的運(yùn)算量能明顯減少,但也可能忽略原有子塊間像素值的相關(guān)性。在下一個(gè)量化過程階段,為了實(shí)現(xiàn)圖像壓縮,高頻位置的量化步長(zhǎng)在量化表中一般會(huì)較大,因此在量化之后,每個(gè)子塊邊緣處的大部分高頻的分量將丟失,導(dǎo)致在解碼圖像中塊的邊界處會(huì)出現(xiàn)不連續(xù)的現(xiàn)象,從而形成塊效應(yīng)[37]。量化步驟將導(dǎo)致JPEG壓縮期間丟失大量信息,所以在取整操作時(shí)要引入量化誤差,記為e(u,v),則量化步驟可以表示為 u,v=0,1,2,…,7 (1) 在解碼端進(jìn)行反量化操作,可獲得反量化后的DCT系數(shù) (2) 然后進(jìn)行DCT反變換以獲得解碼后的圖像,從而可以在整個(gè)解碼圖像中得出解碼量化誤差e(u,v)×Q(u,v)的分布。在JPEG圖像分塊處理時(shí),解碼量化誤差會(huì)被疊加,進(jìn)而導(dǎo)致解碼后破壞圖像中每個(gè)子塊間的相關(guān)性,由此在子塊邊界處形成塊效應(yīng)現(xiàn)象。一幅未被篡改的JPEG圖像的塊效應(yīng)應(yīng)該是相同的,但被篡改后圖像的局部塊效應(yīng)會(huì)發(fā)生變化,因此可以通過檢測(cè)塊效應(yīng)來確定圖像是否已被篡改。 近年來,國(guó)內(nèi)外研究人員提出了許多消除塊效應(yīng)的算法[38-43]。但這些算法會(huì)在塊效應(yīng)消除的同時(shí)也模糊圖像被篡改的證據(jù)。因此,圖像塊效應(yīng)消除的算法雖能提高壓縮圖像的質(zhì)量,而對(duì)于JPEG篡改圖像盲取證的苛刻條件,并沒有得到提高。文獻(xiàn)[44]首次提出了一種檢測(cè)JPEG塊效應(yīng)的快速有效的方法,即在沒有壓縮的情況下,與塊邊界交叉的相鄰像素之間的差異應(yīng)該與塊內(nèi)部相鄰像素之間的差異相似,但經(jīng)過JPEG壓縮后與塊邊界交叉的相鄰像素之間的差異將不同,如圖2所示。圖2中,(x,y)表示每個(gè)塊中的位置坐標(biāo);A~H表示塊的位置。 圖2 JPEG圖像塊效應(yīng)差異實(shí)例 圖2中,Lena圖像中壓縮質(zhì)量因子為85的各個(gè)8×8塊內(nèi)與塊邊界交叉的像素之間是不同的,即 Z′(x,y)=|A+D-B-C| Z″(x,y)=|E+H-F-G| (3) 3個(gè)位置(4,4)、(2,4)、(3,3)的Z′(x,y)和Z″(x,y)的直方圖H1和H2構(gòu)造塊效應(yīng)的差異強(qiáng)度為 K(x,y)(n)=|H1(n)-H2(n)| n∈[0, 255×2] (4) 式中,H1(n)和H2(n)分別表示Z′和Z″直方圖中的bin值為n的總數(shù)。 由此可看出JPEG圖像塊效應(yīng)差異在塊邊界交叉處最大。 文獻(xiàn)[23]選取圖像的某一個(gè)區(qū)域,對(duì)此區(qū)域的DCT系數(shù)進(jìn)行了傅里葉變換,根據(jù)頻域特性估計(jì)出原始量化矩陣,當(dāng)計(jì)算整個(gè)圖的塊效應(yīng)時(shí),通過利用該區(qū)域的量化矩陣,將具有差異較大的區(qū)域表示為篡改區(qū)域。但是此方法僅適用于壓縮質(zhì)量因子較大的圖像。文獻(xiàn)[45]提出了針對(duì)JPEG頻譜的塊效應(yīng)測(cè)度的度量算法來鑒定圖像的真?zhèn)涡?。該算法在頻譜分析的基礎(chǔ)上對(duì)圖像進(jìn)行二階差分,并定義了圖像塊效應(yīng)測(cè)量的新指標(biāo),用于篡改圖像的盲取證。文獻(xiàn)[46]提出了一種新的技術(shù),即利用量化噪聲模型來檢測(cè)由雙JPEG壓縮引起的塊效應(yīng),以及在空間和變換域上表示JPEG圖像的周期特征。其使用的源圖像都是JPEG格式。量化噪聲模型為 Ax=c=c1+n1=c2+n2 (5) 式中:A——尺寸為64×64的DCT基礎(chǔ)矩陣; x——8×8塊的初始強(qiáng)度; c1,c2——初次和第二次壓縮之后的量化DCT系數(shù)向量; n1,n2——相對(duì)應(yīng)的量化噪聲。 JPEG圖像壓縮次數(shù)越多,噪聲量化直方圖越接近高斯分布。該方法能根據(jù)塊效應(yīng)原理對(duì)圖像進(jìn)行解塊,然后進(jìn)行低頻補(bǔ)償,但僅補(bǔ)償?shù)皖l的15個(gè)DCT系數(shù),最后修正量化噪聲模型,以檢測(cè)塊對(duì)齊或不對(duì)齊的雙壓縮塊效應(yīng)。 很多學(xué)者對(duì)篡改區(qū)域的塊效應(yīng)網(wǎng)格與背景區(qū)域之間的網(wǎng)格不匹配現(xiàn)象進(jìn)行了研究,根據(jù)塊效應(yīng)網(wǎng)格的提取來識(shí)別篡改區(qū)域。文獻(xiàn)[47]提出根據(jù)圖像塊效應(yīng)網(wǎng)格的錯(cuò)配來檢測(cè)和定位JPEG偽造圖像的篡改區(qū)域。該檢測(cè)方法可以有效地處理通過平均鄰近像素的值來平滑復(fù)制區(qū)域邊界的圖像,以實(shí)現(xiàn)對(duì)JPEG壓縮過程中塊處理引入的塊效應(yīng)網(wǎng)格的提取和分析,但圖像進(jìn)行多次壓縮將會(huì)產(chǎn)生塊效應(yīng)網(wǎng)格偏移。文獻(xiàn)[48]在重獲取圖像過程中引入與原始圖像無關(guān)的背景信息,利用圖像的平均信息損失量進(jìn)行塊效應(yīng)網(wǎng)格的檢測(cè);與傳統(tǒng)方法相比,該方法具有更高的精度和更短的平均檢測(cè)時(shí)間。 原始JPEG圖像的塊效應(yīng)網(wǎng)格與篡改區(qū)域的塊效應(yīng)網(wǎng)格一定會(huì)發(fā)生錯(cuò)配不一致的現(xiàn)象?;谠摷僭O(shè),盲取證在大多數(shù)情況下都是有效的,且如果粘貼的篡改區(qū)域與周圍的原始圖像塊效應(yīng)網(wǎng)格恰好重合對(duì)齊,則檢測(cè)會(huì)失敗,但這種情況發(fā)生的可能性僅僅為1/64,即1.56%。 圖像處理技術(shù)的快速發(fā)展,使得圖像篡改趨于常態(tài)化。JPEG圖像篡改盲取證技術(shù)雖然取得了一定的效果,但近些年來突破不大,沒有完善的體系結(jié)構(gòu),主要表現(xiàn)在以下幾個(gè)方面。 (1) 方法針對(duì)性強(qiáng)。JPEG圖像篡改的盲取證大多針對(duì)某一種特定的篡改方式進(jìn)行取證,比如單次壓縮、雙重壓縮、拼接、復(fù)制粘貼等。因?yàn)榉治鲆环鶊D像時(shí)如果不具有任何先驗(yàn)的知識(shí),待檢測(cè)圖像偽造的特征很難檢測(cè)到,所以為了符合實(shí)際需求,需要研究出一種融合的算法,能夠檢測(cè)復(fù)雜的圖像篡改。 (2) 基于JPEG圖像統(tǒng)計(jì)特性的算法取證過于依賴分類器及訓(xùn)練樣本的選取。多數(shù)取證算法需要依靠預(yù)先訓(xùn)練,對(duì)于常見的盲檢測(cè)性能不佳,大多數(shù)取證的方法都沒有一個(gè)統(tǒng)一的衡量標(biāo)準(zhǔn)。 (3) 缺少圖像測(cè)試的公用數(shù)據(jù)庫(kù)?,F(xiàn)有的很多方法使用的都是自創(chuàng)的數(shù)據(jù)庫(kù)或者某些開源數(shù)據(jù)庫(kù),這些圖像可能來自于不同的電子數(shù)碼設(shè)備。由于訓(xùn)練樣本和測(cè)試樣本不同,這些差異性的耦合度較低,將會(huì)導(dǎo)致同一算法在不同的圖像數(shù)據(jù)庫(kù)中產(chǎn)生不同的檢測(cè)結(jié)果,因此無法有效比較各算法之間的優(yōu)劣,對(duì)于實(shí)驗(yàn)結(jié)果的判斷沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)模型。為了能夠客觀地分析和比較各種類型的篡改圖像和檢測(cè)技術(shù),有必要建立一個(gè)公用的圖像數(shù)據(jù)庫(kù)以及統(tǒng)一的系統(tǒng)評(píng)估規(guī)范和方法。 JPEG圖像篡改檢測(cè)主要有雙JPEG壓縮檢測(cè)和塊效應(yīng)不一致性檢測(cè),但目前的解決方法并未完全成熟,與實(shí)際應(yīng)用還存在一定的差距。特別是大多數(shù)JPEG圖像雙重壓縮的方法僅在QF2>QF1時(shí)才有效;當(dāng)QF2≤QF1時(shí),算法檢測(cè)效果很差。在QF2較大的情況下,取證算法檢測(cè)依然有效的方法是未來的研究重點(diǎn)。 此外,當(dāng)用一個(gè)較低的壓縮質(zhì)量因子篡改圖像時(shí),被篡改區(qū)域原來的JPEG壓縮痕跡會(huì)遭到破壞,篡改檢測(cè)的難度將會(huì)增加。所以,當(dāng)以比原始圖像更低的質(zhì)量因子再次壓縮保存篡改圖像時(shí),基于塊效應(yīng)測(cè)度的JPEG篡改圖像盲取證方法所檢測(cè)的效果通常會(huì)較差,甚至無效。用小于原始圖像的質(zhì)量因子對(duì)此類圖像再次壓縮的JPEG偽造圖像,可以嘗試結(jié)合其他特性,比如與JPEG圖像的雙量化相結(jié)合等。 近年來,隨著信息與計(jì)算機(jī)等領(lǐng)域的快速發(fā)展,一些與數(shù)字圖像盲取證研究相關(guān)的領(lǐng)域也在不斷創(chuàng)新和進(jìn)步。當(dāng)前迅速發(fā)展的統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大數(shù)據(jù)等都能夠?yàn)镴PEG圖像篡改盲取證技術(shù)提供有價(jià)值的參考。2 JPEG塊效應(yīng)不一致性檢測(cè)
2.1 JEPG圖像塊效應(yīng)的產(chǎn)生
2.2 基于JEPG圖像塊效應(yīng)的算法
3 存在問題
4 結(jié) 語