李明則,向 陽,張文華,梁 禮
(西安通信學(xué)院 a.研究生管理大隊(duì);b.信息服務(wù)教研室;c.基礎(chǔ)部,西安 710106)
隱寫分析是隱寫的逆過程,它主要利用信息嵌入會(huì)改變載體數(shù)據(jù)統(tǒng)計(jì)特性這一事實(shí),來檢測提取或破壞隱藏在載體數(shù)據(jù)中的秘密信息。根據(jù)適應(yīng)范圍,隱寫分析可分為2類:專用隱寫分析[1]與通用隱寫分析[2-4]。前者針對(duì)特定的隱寫算法進(jìn)行檢測,效果較好但適應(yīng)性不高;后者能分析多類隱寫算法,但對(duì)具體的隱寫算法,檢測效果較差。在現(xiàn)實(shí)應(yīng)用中,由于無法得知被測文件所用的隱寫方法,因此通用隱寫分析開始占據(jù)主流?,F(xiàn)今的通用隱寫分析方法大都是針對(duì)小范圍隱寫算法來研究,如:文獻(xiàn)[2]提出在DCT域結(jié)合Markov鏈與直方圖特征,能較好地檢測JPEG域直接嵌入隱寫;文獻(xiàn)[3]根據(jù)DCT系數(shù)之間的依賴性,提取共生矩陣特征,對(duì)變換域隱寫算法的檢測效果較好;文獻(xiàn)[4]根據(jù)空域相鄰像素的相關(guān)性提取共生矩陣特征,它對(duì)空域隱寫算法檢測效果較好,但是至今沒有一種通用的特征能綜合有效地分析各種類型的隱寫算法。
盡管現(xiàn)代隱寫利用各種技術(shù)減小嵌入失真,但仍會(huì)不可避免地改變載體的統(tǒng)計(jì)特性。不同的隱寫算法會(huì)對(duì)載體的不同統(tǒng)計(jì)特性產(chǎn)生影響,所以從單域空間提取的特征難以捕捉到不同隱寫所帶來的統(tǒng)計(jì)變化。本文從不同域提取21個(gè)特征子集,合計(jì)6424維特征,構(gòu)成一個(gè)多樣性特征組合模型。它由3個(gè)部分組成:(1)DCT域特征:系數(shù)直方圖特征函數(shù)、塊內(nèi)塊間系數(shù)殘差的共生矩陣特征以及塊內(nèi)塊間聯(lián)合系數(shù)密度統(tǒng)計(jì)特征;(2)空域特征:相鄰像素殘差共生矩陣特征與相鄰像素殘差直方圖統(tǒng)計(jì)特征;(3)小波域特征:三級(jí)小波系數(shù)低頻直方圖特征函數(shù)與一級(jí)小波系數(shù)殘差共生矩陣特征。為了驗(yàn)證模型的有效性,選用了 4種典型的JPEG隱寫算法:nsF5,PQE,MB,BCHopt,在小嵌入率下測試。針對(duì)特征維數(shù)大訓(xùn)練耗時(shí)長的問題,本文通過前向選擇與窮舉結(jié)合的方法,從多樣性特征組合模型中選取最優(yōu)的4個(gè)特征子集,將其維數(shù)降到1500以內(nèi),以優(yōu)化檢測效果。
自然數(shù)字圖像的相鄰系數(shù)(像素)之間存在一定相關(guān)性,隱寫嵌入后這種相關(guān)性會(huì)遭到破壞[5]。由于圖像之間本身差異遠(yuǎn)超過了含密圖像與其載體之間的差異,因此直接用圖像相鄰系數(shù)(像素)的共生矩陣很難體現(xiàn)隱寫帶來的影響,相鄰系數(shù)(像素)之差(殘差)則能很好地消除圖像內(nèi)容的影響,殘差共生矩陣能更好地區(qū)分載體和含密圖像。
本文構(gòu)建的多樣性特征組合(Diversity Features Combination, DFC)模型,主要從不同域提取相鄰系數(shù)(像素)各階殘差的各階共生矩陣輔以直方圖作為特征。DFC模型包含21個(gè)特征子集,共6424維特征。
所有共生矩陣中提到的閾值都滿足:
特征名的表示方式:domain_type_other表示在domain域用type方法的特征(如domain_aDbD表示domain域a階殘差b階共生矩陣)。domain:JPEG域塊內(nèi)為dctIntra,塊間為dctInter;空域?yàn)閟patial,小波域?yàn)閣avelet。HCF表示直方圖特征函數(shù),hist表示直方圖統(tǒng)計(jì)特征。other表示其他。對(duì)于共生矩陣的閾值,1階閾值為5,2階閾值為4,3階閾值為3,4階閾值為2。
DCT域具有以下特征:
(1)dctIntra_1D1D:從DCT域塊內(nèi)的水平、垂直、對(duì)角、反對(duì)角 4個(gè)方位求聯(lián)合密度共生矩陣,再結(jié)合微觀校準(zhǔn)方式得到特征,然后結(jié)合校準(zhǔn)前后之間的差值、商值得到216維特征。
(2)dctIntra_HCF:通過文獻(xiàn)[3]中提到的DCT相鄰系數(shù)之間的關(guān)系,提取直方圖特征函數(shù)193維。
(3)dctIntra_HCF_New:結(jié)合微觀校準(zhǔn)與文獻(xiàn)[2]的直方圖特征函數(shù)提取方式,得到新校準(zhǔn)的193維特征。
(4)dctIntra_HCF_diff:dctIntra_HCF_New 與 dctIntra_HCF的差值。
(5)dctIntra_HCF_div:dctIntra_HCF_New 與 dctIntra_HCF的商值。
(6)dctIntra_aDbD(dctInter_aDbD):對(duì)塊內(nèi)(塊間)DCT 域系數(shù)從水平、垂直、對(duì)角、反對(duì)角 4個(gè)方位取其殘差的共生矩陣的平均值。
(7)dctIntra_aDbD_Car(dctInter_aDbD_Car):上面特征的笛卡爾積校準(zhǔn)[6]。其中,a取1和3;b取3。
空域具有以下特征:
(1)spatial_aDbD(spatial_aDbD_ix):從水平、垂直、對(duì)角、反對(duì)角 4個(gè)方位對(duì)其相鄰像素的殘差求共生矩陣,然后取其平均值,ix表示以上4個(gè)方向的反向特征。其中,a取3;b取3和4。
(2)spatial_hist_2D(spatial_hist_3D):分別求圖像相鄰像素取 2(3)階殘差,然后對(duì)殘差后的系數(shù)取直方圖統(tǒng)計(jì)特征各256維。
小波域具有以下特征:
(1)wavelet_HCF:圖像經(jīng)小波三級(jí)分解后得到13個(gè)小波子帶,然后對(duì)這些子帶的系數(shù)直方圖進(jìn)行傅里葉變換,最后計(jì)算變換之后子帶的3階特征函數(shù),得到39維特征,然后參考 xuan[7]的校準(zhǔn),提取相同特征,最后得到一個(gè)78維的直方圖特征函數(shù)。
(2)wavelet_2D2D:取圖像一級(jí)小波分解的低頻子帶,提取其水平、垂直、對(duì)角、反對(duì)角,4個(gè)方位的塊內(nèi)塊間2階殘差2階共生矩陣,取其平均值各81維,合成162維特征。
綜上所述,DFC模型包含特征子集為:DCT域13個(gè),空域6個(gè),小波域2個(gè),共21個(gè)特征子集,總共6424維。
為了分析該組合模型性能,實(shí)驗(yàn)用了 4種典型隱寫算法,分類器選用了對(duì)高低維特征都有速度快且分類效果穩(wěn)定的 ensemble分類器[8]。它是從特征集中選取不同的特征子空間,利用 Fisher線性分類器分類來構(gòu)建多個(gè)最優(yōu)學(xué)習(xí)機(jī)(用最低錯(cuò)誤率決定其特征子空間的維數(shù)),最后由這些學(xué)習(xí)機(jī)投票決定分類結(jié)果。
實(shí)驗(yàn)選用了 4種隱寫算法,分別是nsF5、MB、PQ、BCHopt。
nsF5[9]是在傳統(tǒng) F5[10]的基礎(chǔ)上的加入了綜合編碼的優(yōu)化算法,MB[11]是由Sallee提出的基于整體模型匹配的隱寫算法,兩者都屬于在JPEG域直接隱寫的算法。
PQ[12]是選取量化過程中失真較小的系數(shù)進(jìn)行嵌入,達(dá)到減小擾動(dòng)量,并結(jié)合濕紙編碼[13](wet paper codes)來達(dá)到量化失真最小原則。本文選用的PQ算法是在PQ操作的基礎(chǔ)上加入了權(quán)值操作 energy的 PQE算法,它的抗檢測性更強(qiáng)。
BCHopt[14]是在 DCT域?qū)]有取整的 DCT系數(shù)使用BCH糾錯(cuò)編碼方法來最小化嵌入失真,然后加入啟發(fā)式優(yōu)化來隱藏信息,它屬于邊信息嵌入編碼。
實(shí)驗(yàn)所用圖像庫是 ucid[15]經(jīng)灰度處理后的圖像庫,圖像尺寸為512×384(384×512),共1337張。實(shí)驗(yàn)生成圖像庫是從圖像庫中隨機(jī)抽取1000張圖像當(dāng)成訓(xùn)練載體,剩余圖像為測試圖像,這里采用統(tǒng)一的質(zhì)量因子75。
對(duì)于每種隱寫算法都使用了不同的嵌入率,即在每位非零 AC系數(shù)中的嵌入改變率,然后分別對(duì)它們構(gòu)建分類器,最后進(jìn)行測試,測試的標(biāo)準(zhǔn)如式(2)所示:
參與比較的特征有:
Liu[3]:利用塊內(nèi)塊間相鄰系數(shù)密度的依賴性關(guān)系求聯(lián)合密度矩陣216維特征。
ccchen[16]:利用卷積的方法求塊內(nèi)塊間共生矩陣特征,并結(jié)合笛卡爾積校準(zhǔn)組合而成的972維特征。
ccpev[2]:融合DCT域塊內(nèi)之間的依賴性得到193維直方圖特征與一階共生矩陣81維特征,再結(jié)合笛卡爾積校準(zhǔn)組成的548維特征。
CDF1234:從空域8個(gè)方位提取三階共生矩陣686維特征,即spam[4],再與DCT域特征ccpev組合成1234維特征。
ccJRM[17]:利用塊內(nèi)塊間DCT系數(shù)之間的統(tǒng)計(jì)依賴性關(guān)系,從DCT域各個(gè)方位提取系數(shù)絕對(duì)值、系數(shù)殘差共生矩陣特征,組合成22510維特征。
為了能夠更好地分析DFC模型對(duì)于各類隱寫算法的檢測率,實(shí)驗(yàn)選用多種高低維特征與之比較,結(jié)果如表 1所示。
表1 不同特征對(duì)于小嵌入率隱寫算法的檢測效果
從表1可以看出,DFC模型對(duì)于各種嵌入率下的隱寫算法檢測效果都比較好,從實(shí)驗(yàn)也可以得出以下結(jié)論:
融合了ccpev與spam的特征CDF在分析檢測PQE與BCHopt算法時(shí),有一定的優(yōu)勢,尤其是對(duì)于PQE算法的檢測優(yōu)勢明顯,但是對(duì)于MB與nsF5算法,它的檢測準(zhǔn)確率反而比ccpev要低,從中可以看出,簡單的跨域特征結(jié)合并不意味著分析檢測效果就能提高。
對(duì)于不同的隱寫算法,都有對(duì)它檢測效果較好的特征。如:Liu對(duì)MB檢測效果較好,CDF對(duì)PQE檢測效果較好,ccJRM能較好地檢測nsF5、MB、BCHopt,但是對(duì)于PQE,它的檢測效果并不理想。基于多樣性特征融合的DFC模型能很好檢測以上所有算法,并且與ccJRM的22510維特征相比,它的維數(shù)要低得多。
盡管DFC模型在隱寫分析中具備一定優(yōu)勢,但它的維數(shù)太大,影響了隱寫分析的性能。為了降低特征維數(shù),實(shí)驗(yàn)通過選擇最優(yōu)特征子集組合進(jìn)行降維操作。
3.4.1 前向選擇法
實(shí)驗(yàn)選用DCF模型21個(gè)特征子集中檢測效果最好的前8個(gè),通過前向選擇方法得到的檢測結(jié)果如圖1所示,其中,圖1(a)中[1~8]分別表示的是dctIntra_1D1D,dctInter_3D3D_Car,dctIntra_3D3D_Car,dctIntra_HCF,dctIntra_HCF_diff,dctIntra_3D3D,dctIntra_HCF_div,spatial_3D3D;圖1(b)中[1~8]分別表示的是:spatial_3D4D,wavelet_HCF,spatial_3D3D,spatial_3D4D_ix,dctIntra_2D2D,wavelet_2D2D,dctInter_3D3D_Car,spatial_3D3D_ix;圖 1(c)中[1~8]分別表示的是:dctIntra_1D1D,dctIntra_HCF,dctInter_3D3D_Car,dctIntra_HCF_diff,dctIntra_3D3D_Car,dctIntra_1D3D_Car,dctIntra_HCF_New,spatial_3D3D_ix;圖 1(d)中[1~8]分別表示的是:dctIntra_1D1D,dctIntra_ 3D3D_ Car,dctInter_3D3D_Car,dctIntra_HCF,dctIntra_ HCF_diff,dctIntra_1D3D_Car,dctIntra_HCF_New,spatial_ hist_3D。
圖1 前向選擇特征對(duì)各隱寫算法的檢測結(jié)果
實(shí)驗(yàn)結(jié)果表明,前向選擇法得不到穩(wěn)定結(jié)果,當(dāng)子集數(shù)低于4時(shí),前向選擇檢測準(zhǔn)確率呈上升趨勢,超過4后,則無規(guī)律可循。說明特征子集數(shù)量與檢測結(jié)果不是等價(jià)的正比關(guān)系,它不僅跟隱寫算法有關(guān),還與選用的特征有關(guān)。從中可得到一個(gè)結(jié)論:并不是把檢測效果好的特征進(jìn)行組合就一定能起到促進(jìn)作用,有時(shí)會(huì)起到反效果,如在圖1(a)~圖1(d)中,當(dāng)子集超過4個(gè)后,檢測效果都有所下降。
3.4.2 最優(yōu)四元組
窮舉法能獲取各隱寫算法的最優(yōu)特征子集組合,但它的復(fù)雜度太大。根據(jù)上面實(shí)驗(yàn),當(dāng)子集數(shù)為 4時(shí),分類結(jié)果最接近最優(yōu)解。所以,本文先從21個(gè)子集中選擇最優(yōu)的12個(gè)子集,然后通過窮舉法,從12個(gè)子集中選擇效果最好的4子集組合,生成最優(yōu)四元組子集,最后把它與整個(gè)DFC模型做比較。檢測結(jié)果如圖2所示。
圖2 各隱寫算法的檢測結(jié)果
在圖 2(a)中,1~12分別表示的是:dctIntra_1D1D,dctInter_3D3D_Car,dctIntra_3D3D_Car,dctIntra_HCF,dctIntra_HCF_diff,dctIntra_3D3D,dctIntra_HCF_div,spatial_3D3D,dctIntra_1D3D_Car wavelet_HCF,dctInter_1D3D,spatial_hist_3D;在圖2(b)中,1~12分別表示的是:spatial_3D4D,wavelet_HCF,spatial_3D3D,spatial_3D4D_ix,dctIntra_2D2D,wavelet_2D2D,dctInter_3D3D_Car,spatial_3D3D_ix,dctIntra_3D3D_Car,dctIntra_HCF_diff,dctIntra_HCF,spatial_hist_3D;在圖 2(c)中,1~12分別表示的是:dctIntra_1D1D,dctIntra_HCF, dctInter_3D3D_Car,dctIntra_HCF_diff,dctIntra_3D3D_Car,dctIntra_1D3D_Car,dctIntra_HCF_New,spatial_3D3D_ix,spatial__3D4D,wavelet_HCF,spatial_3D3D,spatial_3D4D_ix;在圖 2(d)中,1~12 分別表示的是:dctIntra_1D1D,dctIntra_3D3D_Car,dctInter_3D3D_Car, dctIntra_HCF,dctIntra_HCF_diff,dctIntra_1D3D_Car,dctIntra_HCF_New,spatial_hist_3D,spatial_3D4D_ix,spatial_3D3D_ix,spatial_3D3D,wavelet_HCF。圖中13表示最優(yōu)四元組,all表示DFC模型。圖2(a)中 13由 1、4、9、11組成;圖 2(b)中 13由 1、3、9、10組成;圖2(c)中13由1、3、4、8組成;圖2(d)中13由2、5、10、11組成。
(1)單個(gè)子集比較
對(duì)于不同的隱寫算法,單個(gè)子集檢測結(jié)果差異較大。如圖2(b)中第2個(gè)子集spatial_3D3D檢測PQE效果較好,但檢測BCHopt時(shí),準(zhǔn)確率排第11,這說明各個(gè)子集對(duì)不同的算法有著不同的貢獻(xiàn)。
對(duì)于同殘差的不同共生矩陣,高階共生矩陣比低階共生矩陣的檢測效果要好。但是對(duì)于同共生矩陣的不同殘差,高階殘差并不一定比低階殘要好。如圖2(b)中DCT域塊間的3階共生矩陣,3階殘差dctInter_3D3D_Car比1階殘差dctInter_1D3D_Car要好,而在圖2(a)中,DCT域塊間1階殘差dctInter_1D3D比3階殘差dctInter_3D3D要好。
經(jīng)笛卡爾積校準(zhǔn)的特征子集檢測性能,比沒經(jīng)過笛卡爾積校準(zhǔn)的特征子集檢測性能要好,而差值校準(zhǔn)、商值校準(zhǔn)剛好相反。
(2)子集組合比較
最優(yōu)四元組并不是前向選擇組合,它與前向選擇相比正確檢測率要更高。如:對(duì)于PQE的檢測,圖1(b)前向選擇檢測準(zhǔn)確率最高為 0.72,而圖 2(b)中最優(yōu)四元組檢測正確率超過了 0.75。從圖2也可以看出,盡管有些單個(gè)子集檢測率很低,如:圖2(d)中第11個(gè)子集spatial_3D3D,它單獨(dú)檢測時(shí)比最優(yōu)單個(gè)子集要低 10%以上,但是它們參與的最優(yōu)組合,要比單獨(dú)檢測表現(xiàn)最好的 4個(gè)子集的組合檢測率更高。
所以,最優(yōu)的特征組合并不是簡單地對(duì)檢測性能好的特征進(jìn)行拼湊,要盡量選擇互補(bǔ)的特征,這樣才能充分檢測出隱寫帶來的統(tǒng)計(jì)特性變化。最優(yōu)四元組跟整個(gè)特征模型相比,它的維數(shù)能降到1500以下,但是檢測性能不但沒有降低,有的甚至略有提高。這也說明,該種降維方法是行之有效的。
本文根據(jù)各域空間系數(shù)(像素)之間存在的依賴性關(guān)系,從各域空間中提取不同特征構(gòu)建多樣性特征組合模型,該模型對(duì)于小嵌入率的不同隱寫,檢測效果好于已有算法。通過前向選擇與最優(yōu)四元組2種選擇方法,對(duì)DFC特征集進(jìn)行降維。實(shí)驗(yàn)結(jié)果表明,由各個(gè)檢測性能差異大的特征子集組成的最優(yōu)四元組特征,檢測效果明顯優(yōu)于前向選擇方法構(gòu)造的由 4個(gè)獨(dú)立檢測效果最優(yōu)的特征子集組合而成的特征集,這說明單獨(dú)檢測效果好的特征的疊加并不是提高分類效果的最好方法,特征選擇考慮從多樣性特征的組合著手,利用互補(bǔ)原則提高隱寫分析檢測性能。對(duì)于最優(yōu)特征組合,盡管檢測效果得到提高,但組合擇優(yōu)選擇時(shí)間太長,下一步將針對(duì)多樣性特征組合選擇更好的降維方法。
[1]張 濤, 平西建, 徐長勇.基于圖像平滑度的空域 LSB 嵌入的檢測算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2006,18(10): 1607-1612.
[2]Pevny T, Fridrich J.Merging Markov and DCT Features for Multi-class JPEG Steganalysis[C]//Proceedings of SPIE’07.San Jose, USA: [s.n.], 2007: 1-34.
[3]Liu Qing.Steganalysis of DCT-embedding Based Adaptive Steganography and YASS[C]//Proceedings of ACM Multimedia & Security Workshop.[S.1.]: ACM Press, 2011: 77-86.
[4]Pevny T, Bas P, Fridrich J.Steganalysis by Subtractive Pixel Adjacency Matrix[J].IEEE Transactions on Information Forensics and Security, 2010, 5(2): 215- 224.
[5]黃方軍, 黃繼武.基于圖像校準(zhǔn)的通用型JPEG隱寫分析[J].中國科學(xué)F輯: 信息科學(xué), 2009, 39(4): 383-390.
[6]Kodovsky J, Fridrich J.Calibration Revisited[C]//Proceedings of the 11th ACM Multimedia & Security Workshop.[S.1.]:ACM Press, 2009: 63-74.
[7]Shi Yunqing, Xuan Guorong, Yang Chengyun, et al.Effective Seganalysis Based on Statistical Moments of Wavelet Characteristic Function[C]//Proceedings of IEEE International Conference on Information Technology.[S.1.]: IEEE Press,2005, 768-773.
[8]Kodovsky J, Fridrich J.Steganalysis in High Dimensions:Fusing Classifiers Built on Random Subspaces[C]//Proceedings of SPIE Electronic Imaging, Watermarking,Security and Forensics of Multimedia XIII.San Francisco,USA: [s.n.], 2011: 1-13.
[9]Kodovsk J, Fridrich J, Pevny T.Statistically Undetectable JPEG Steganography: Dead Ends, Challenges and Opportunities[C]//Proceedings of the 9th ACM Multimedia & Security Workshop.[S.1.]: ACM Press, 2007: 20-21.
[10]Westfeld A.F5-A Steganographic Algorithm High Capacity Despite Better Steganalysis[C]//Proceedings of the 4th International Workshop on Information Hiding.[S.1.]: IEEE Press, 2001, 289-302.
[11]Sallee P.Model-based Steganography[C]//Proceedings of International Workshop on Digital Watermarking.Berlin,Germany: Springer-Verlag, 2004: 154-167.
[12]Fridrich J, Goljan M, Soukal D.Perturbed Quantization Steganography Using Wet Paper Codes[C]//Proceedings of the 6th ACM Multimedia & Security Workshop.[S.1.]: ACM Press, 2004: 4-15.
[13]Fridrich J, Goljan M, Soukal D, et al.Wet Paper Codes with Improved Embedding Efficiency[J].IEEE Transactions on Information Forensics and Security, 2006, 1(1): 102-110.
[14]Sachnev V, Kim H J.Less Detectable JPEG Steganography Method Based on Heuristic Optimization and BCH Syndrome Coding[C]//Proceedings of the 11th ACM Multimedia &Security Workshop.[S.1.]: ACM Press, 2009: 131-140.
[15]Schaefer G, Stich M.Uncompressed Colour Image Database v2.03[EB/OL].(2010-08-16).http://vision.cs.aston.ac.uk/ datasets/UCID/data/ucid.v2.tar.gz.
[16]Chen Chunhua, Shi Yunqing.JPEG Image Steganalysis Utilizing Both Intrablock and Interblock Correlations[C]//Proceedings of IEEE International Symposium on Circuits and Systems.Seattle, USA: IEEE Press, 2008: 3029-3032.
[17]Fridrich J, Kodovsky J.Rich Models for Steganalysis of Digital Images[D].New York, USA: Department of Electrical and Computer Engineering, Binghamton University, 2012.