李薇,張舒,祁銳
(海軍工程大學(xué)理學(xué)院,武漢430033)
基于單類集成分類器的JPEG通用隱寫分析*
李薇,張舒,祁銳
(海軍工程大學(xué)理學(xué)院,武漢430033)
針對JPEG圖像通用隱寫檢測問題,提出了一種基于單類集成分類器的新方法。算法提取圖像DCT塊內(nèi)、塊間和小波層內(nèi)、層間的共生特征以及小波子帶系數(shù)的直方圖特征對圖像進(jìn)行描述,并計算檢測圖像及其原始估計圖像所提共生矩陣和直方圖分布的對稱交互熵作為隱寫分析特征;然后,隨機(jī)構(gòu)造若干個特征子空間,利用bootstrap方法構(gòu)造載體圖像訓(xùn)練子集,分別進(jìn)行單類訓(xùn)練得到數(shù)個基分類器;最后,將基分類器的分類結(jié)果按多數(shù)投票法進(jìn)行融合作為單類集成分類器的分類結(jié)果。實(shí)驗結(jié)果表明,單類集成分類器能顯著提高算法的檢測效果,而且,本方法相比基于多超球面OC-SVM分類器的單類隱寫分析方法,具有更高檢測率。
隱寫分析,共生矩陣,對稱交互熵,單類集成分類器
隱寫分析(steganalysis)的目的是檢測隱密載體中秘密信息的存在性,繼而估計出秘密信息的嵌入比率和嵌入位置,最終提取出秘密信息。其中,秘密信息檢測是嵌入比率估計和秘密信息提取的前提,也是當(dāng)前隱寫分析技術(shù)研究的熱點(diǎn)問題。通常采用基于統(tǒng)計的方法,通過挖掘載體圖像和隱寫圖像間的統(tǒng)計差異構(gòu)造特征向量集,采用分類器進(jìn)行隱寫判別。因此,隱寫分析實(shí)質(zhì)上是多維特征空間的模式分類器,設(shè)計與特征空間相匹配的分類器對于提高算法的檢測效果具有十分重要的意義。
根據(jù)分類器的差異,隱寫分析主要可分為二類隱寫分析和單類隱寫分析。前者采用二類分類器進(jìn)行訓(xùn)練,需要載體圖像及其隱寫圖像兩類訓(xùn)練樣本[1-2];后者采用單類分類器進(jìn)行訓(xùn)練,僅需要載體圖像一類訓(xùn)練樣本[3]。對此,本文在文獻(xiàn)[4-9]的基礎(chǔ)上設(shè)計了單類集成分類器,提出了一種基于對稱交互熵差異特征的JPEG通用隱寫分析方法。實(shí)驗結(jié)果驗證了該方法的有效性,而且發(fā)現(xiàn),單類集成分類器能有效提高算法的檢測效果。
由于通用隱寫分析實(shí)質(zhì)上是多維特征空間的模式分類器,因此,設(shè)計高效的特征空間對于提高算法的檢測效果具有非常重要的意義,見文獻(xiàn)[7-8,10]。對此,本文從DCT塊內(nèi)、塊間相關(guān)性特征,DWT層內(nèi)、層間相關(guān)性特征以及DWT子帶系數(shù)直方圖特征3個方面對圖像進(jìn)行描述,采用圖像校準(zhǔn)方法估計檢測圖像的原始圖像,計算兩者所提共生矩陣和直方圖分布的對稱交互熵作為隱寫分析特征,從而使特征空間更加豐富和敏感,同時降低特征的維數(shù)。
1.1 DCT域特征
JPEG隱寫術(shù)主要在圖像DCT系數(shù)上進(jìn)行嵌入操作,不可避免的會破壞相鄰DCT系數(shù)的相關(guān)性[10]。在文獻(xiàn)[10]的基礎(chǔ)上,本文利用共生矩陣挖掘水平、垂直、對角線、反對角線4個方向上圖像DCT塊內(nèi)、塊間相鄰系數(shù)的共生矩陣作為DCT域特征。下面以計算DCT系數(shù)矩陣D∈RM×N在水平方向上的共生矩陣特征為例進(jìn)行說明。
其中:u,v∈{-T,…,T},δ(x,y)=1,當(dāng)且僅當(dāng)x,y兩個條件同時成立,否則為0。對應(yīng)閾值T,共生矩陣的大小為(2T+1)×(2T+1)。
1.2 DWT域特征
實(shí)際上,除了相鄰DCT系數(shù)間存在相關(guān)性,文獻(xiàn)[11]還發(fā)現(xiàn)圖像小波系數(shù)間也具有類似的相關(guān)性,并利用Markov矩陣來刻畫DWT層內(nèi)、層間的相關(guān)性。在文獻(xiàn)[11]的基礎(chǔ)上,本文采用共生矩陣來挖掘圖像DWT層內(nèi)、層間的相關(guān)性特征。同時,提取DWT子帶系數(shù)的統(tǒng)計直方圖分布作為特征,進(jìn)一步豐富特征空間。
先把JPEG圖像(大小為M×N)中R、G、B 3個顏色通道的灰度矩陣合并成一個3M×N大小的灰度矩陣,再對其進(jìn)行2級Haar小波分解得到6個子帶系數(shù)矩陣:LH1子帶系數(shù)矩陣H1,HL1子帶系數(shù)矩陣V1,HH1子帶系數(shù)矩陣D1,LH2子帶系數(shù)矩陣H2,HL2子帶系數(shù)矩陣V2,HH2子帶系數(shù)矩陣D2。對每個子帶系數(shù)矩陣進(jìn)行閾值處理(閾值為T)得到、和,分別計算其水平、垂直、對角線、反對角線4個方向上反映DWT層內(nèi)系數(shù)相關(guān)性的共生特征,最終得到24個共生矩陣。同時,根據(jù)下式計算水平、垂直、對角線3個方向DWT層間的相關(guān)性特征:
同樣取閾值T=4,則總共得到27個9×9大小的共生矩陣,它們反映了DWT層內(nèi)、層間系數(shù)的二階統(tǒng)計相關(guān)性。進(jìn)一步,計算每個子帶系數(shù)矩陣的一階直方圖分布,取系數(shù)值落在范圍{-15,-14,…,14,15}內(nèi)的概率分布作為特征,共得到6個長度為31的特征向量,豐富了特征空間。
1.3 對稱交互熵差異特征
根據(jù)上面的分析,本文的特征空間包含了35個反映頻域系數(shù)統(tǒng)計相關(guān)性的共生矩陣和6個反映DWT系數(shù)直方圖分布的特征向量,總的特征維數(shù)為3 021維。為了降低特征的維數(shù),文獻(xiàn)[10-11]對各方向共生矩陣或Markov矩陣進(jìn)行加權(quán)融合,雖然降低了算法的計算復(fù)雜度,但同時也丟失了一部分特征信息。對此,本文引入信息論中的對稱交換熵,從而描述隱寫前后圖像共生矩陣或直方圖分布發(fā)生的變化。記CP和CQ分別為兩個直方圖分布或由兩個共生矩陣展開的一維向量,其對稱交互熵可以表示為:
首先,利用文獻(xiàn)[12]中的圖像校準(zhǔn)方法估計檢測圖像的原始圖像,然后計算檢測圖像及其原始估計圖像所提共生矩陣和直方圖分布的對稱交互熵作為隱寫分析特征,它反映了圖像隱寫前后共生矩陣和直方圖分布的差異程度。本文總共提取35個共生矩陣和6個直方圖分布,不妨記Ck(1)、Ck(2)(k=1,…,41)分別為從檢測圖像及其原始估計圖像提取的共生矩陣和直方圖分布,結(jié)合式(6)進(jìn)行如下計算:
本文稱F為對稱交互熵差異特征,特征維數(shù)為41維,僅為原始特征維數(shù)的1.36%。圖1為從300幅載體圖像及其隱寫圖像(嵌入率為100%)提取的第1維特征F(1)??梢钥闯觯狠d體圖像F(1)的數(shù)值較小且分布集中,而隱寫圖像F(1)的數(shù)值較大且分布較為松散。即載體圖像對稱交互熵差異特征的均值和標(biāo)準(zhǔn)差小于隱寫圖像。這說明,對稱交互熵差異特征具有很好的敏感性以及獨(dú)立性,能明顯地區(qū)分開載體圖像和隱寫圖像。
圖1 載體圖像及其隱寫圖像的第1維特征
2.1 單類分類器
根據(jù)上面的分析,載體圖像對稱交互熵差異特征的均值和標(biāo)準(zhǔn)差明顯小于隱寫圖像?;谶@樣的特點(diǎn),設(shè)計如下單類分類器:
其中,N為特征的維數(shù);μk和σk分別為第k維特征的平均值和標(biāo)準(zhǔn)差;為柔化因子,控制分類器的虛警率:較小的值對應(yīng)較大的虛警率和較小的漏檢率。可見,式(8)確定了載體圖像集的分布范圍:如果檢測圖像的對稱交互熵差異特征滿足式(8),則判為載體圖像,否則判為隱寫圖像。同時還發(fā)現(xiàn),式(8)的單類分類器的訓(xùn)練過程即為計算特征的均值和標(biāo)準(zhǔn)差的過程,具有計算復(fù)雜度低的特點(diǎn)。
2.2 單類集成分類器
為了進(jìn)一步提高單類分類器的分類精度,設(shè)計單類集成分類器進(jìn)行隱寫判別。集成分類器主要包括特征子空間構(gòu)造、基分類器訓(xùn)練和集成策略3個部分,其基本思想是[9]:首先構(gòu)造原始特征空間的隨機(jī)特征子空間,然后構(gòu)造具有良好差異性的訓(xùn)練子集,并分別進(jìn)行訓(xùn)練得到基分類器,最后將基分類器的結(jié)果按照一定的集成策略進(jìn)行融合作為最終的分類結(jié)果。
結(jié)合對稱交互熵差異特征的特點(diǎn),本文按如下思路設(shè)計單類集成分類器:隨機(jī)產(chǎn)生L個具有較低維數(shù)的特征子空間Fi∈Rdsub(i=1,…,L,L為基分類器個數(shù),d0為原始特征空間的維數(shù)且dsub<<d0),利用bootstrap方法構(gòu)造載體圖像的訓(xùn)練樣本子集,分別按式(8)進(jìn)行訓(xùn)練得到基分類器Bi,再把所有基分類器的分類結(jié)果按多數(shù)投票法進(jìn)行融合作為單類集成分類器的分類結(jié)果。C={ci∈Rd0|i=1,…,NC}為載體圖像訓(xùn)練集,S={si∈Rd0|i=1,…,NS}為測試圖像集。
2.3 分類器參數(shù)優(yōu)化
由于構(gòu)造檢測率高、差異性大的基分類器是集成學(xué)習(xí)的關(guān)鍵,因此,集成分類器的分類精度與分類器參數(shù)L和dsub的設(shè)定密切相關(guān)。對此,本文利用少量載體圖像ci(i=1,…,N)及其隱寫圖像si作為測試樣本進(jìn)行參數(shù)優(yōu)化。設(shè)B(n,d)為特征子空間維數(shù)取d、基分類器個數(shù)取n時的融合判決函數(shù),利用B(n,d)對測試樣本進(jìn)行檢驗,其平均檢測率(載體圖像檢測率和隱寫圖像檢測率的平均值)可表示為:
為了研究R(n,d)與n以及d的關(guān)系,從UCID、BOWS2以及自采集的圖像庫中選取6 000幅載體圖像以及1 000幅混雜隱寫圖像(包含F(xiàn)5、MB1、Outguess、Jphs和Steghide 5種隱寫圖像以及25%、50%、100%3種嵌入率)進(jìn)行如下實(shí)驗:①在不同的n和d下,對5 000幅載體圖像進(jìn)行集成訓(xùn)練,利用剩余的1 000幅載體圖像及其隱寫圖像進(jìn)行檢驗,計算其平均檢測率;②考慮到在構(gòu)造特征子空間時具有較大的隨機(jī)性,重復(fù)實(shí)驗①50次后計算平均值作為最終的平均檢測率R(n,d)。實(shí)驗結(jié)果如圖2所示。
可以看出:R(n,d)隨著n的增大而變大且逐漸收斂于某一固定值。這是因為隨著基分類器個數(shù)的增加,基分類器之間的重復(fù)程度逐漸變大,集成分類的檢測率隨之趨于穩(wěn)定;當(dāng)d較小時,R(n,d)隨著d的增加顯著提高;當(dāng)d較大時,R(n,d)隨著d的增加反而出現(xiàn)略微下降。原因是當(dāng)d較小時特征子空間維數(shù)較少,因特征信息不足而影響了基分類器的分類精度;當(dāng)d較大時,每個特征子空間相似度較高,缺乏差異性。結(jié)合以上結(jié)論,本文就可以對分類器參數(shù)進(jìn)行合理的優(yōu)化。
①L優(yōu)化。R(n,d)隨著n增大會逐漸收斂,那么L優(yōu)化的關(guān)鍵就在于判斷R(n,d)何時達(dá)到穩(wěn)定?;谶@樣的思路,采用下式來計算基分類器個數(shù):
其中,d為某一固定值;μ為整數(shù)、ε為常數(shù),用以控制計算復(fù)雜度和計算精度。
②dsub的優(yōu)化。從圖2看出,當(dāng)4≤d≤20時,R(n,d)具有較好的穩(wěn)定性,而當(dāng)d>20時R(n,d)開始下降。對此,本文同樣采用式(10)的方法來優(yōu)化特征子空間的維數(shù)dsub,計算公式為(n為固定值):
對應(yīng)不同的基分類器個數(shù)n,優(yōu)化的特征子空間維數(shù)d(n)可能存在差異。因此,無法同時使用式(10)和式(11)進(jìn)行參數(shù)優(yōu)化。根據(jù)對圖2的分析,對應(yīng)不同的d值,R(n,d)隨著n的增大逐漸收斂且?guī)缀跏諗坑谙嗤臄?shù)值。對此,本文首先計算不同特征子空間維數(shù)d(d∈[5,30])下的優(yōu)化基分類器個數(shù)L(d),求其均值并取整作為最優(yōu)的基分類器個數(shù)L;然后根據(jù)L的值構(gòu)造集成分類器,按式(11)計算相應(yīng)的d(L)作為最優(yōu)的特征子空間維數(shù)dsub。
本文取μ=3和ε=0.001進(jìn)行計算,得到最優(yōu)的分類器參數(shù)分別為L=19,dsub=8。
3.1 實(shí)驗準(zhǔn)備
為了驗證本文方法的有效性,從UCID、BOWS2以及自采集的圖像庫選取1 000幅載體圖像、15 000幅隱寫圖像和4 000幅混雜圖像進(jìn)行實(shí)驗。其中,圖像大小均為512×318或318×512,質(zhì)量因子為80;隱寫圖像采用MB1、F5、Outguess、Jphs和Steghide(SH)等5種隱寫算法進(jìn)行嵌入且每種算法均為3000幅(嵌入率分別為25%、50%和100%);混雜圖像包含1 000幅載體圖像,且在每種嵌入率(25%、50%、100%)下均包含了以上5種隱寫圖像各200幅。為了衡量算法的檢測性能,傳統(tǒng)的作法是使用ROC曲線,但它只能進(jìn)行定性的描述。為了定量的描述算法的檢測效果,本文參考文獻(xiàn)[2]的作法,定義陰性檢測率(TNR,True Negative Rate)和陽性檢測率(TPR,True Positive Rate)的平均值的最大值為正確檢測率(AR,Accuracy Rate),作為衡量算法檢測性能的指標(biāo)。計算公式為:
其中,AR為正確檢測率,TNR為陰性檢測率,TPR(TNR)表示陰性檢測率為TNR時的陽性檢測率。
3.2 單類集成分類器對檢測性能的影響
本文在式(8)的單類分類器的基礎(chǔ)上設(shè)計了單類集成分類器。為了分析單類集成分類器對算法檢測性能的影響,分別采用式(8)的單類分類器以及本文設(shè)計的單類集成分類器進(jìn)行隱寫判別(L=19, dsub=8),檢測結(jié)果如圖3所示,其中“Ensemble”和“Single”分別表示單類集成分類器和式(8)的單類分類器。
圖3 兩種單類分類器的檢測結(jié)果
從圖3可以看出,單類集成分類器的正確檢測率相比式(8)的單類分類器有了較大幅度的提高,這說明單類集成分類器能有效提高算法的檢測性能。分析原因,在于式(8)的單類分類器僅訓(xùn)練得到一個超球體作為分類邊界,導(dǎo)致球體內(nèi)部包含了較多的隱寫圖像樣本,從而影響了算法的正確檢測率。與之不同,單類集成分類器通過構(gòu)造多個特征子空間分別進(jìn)行訓(xùn)練,得到由多個超球體組成的分類邊界,再利用多數(shù)投票法進(jìn)行融合,減少了超球體內(nèi)部的隱寫樣本,能夠更準(zhǔn)確區(qū)分載體圖像和隱寫圖像,提高了算法的檢測效果。
同時也發(fā)現(xiàn),相比低嵌入率隱寫圖像,單類集成分類器更能提高對高嵌入率隱寫圖像的檢測精度。這是因為高嵌入率隱寫圖像的特征具有較大的數(shù)值,與載體圖像的特征差異性更大,使得基分類器具有更高分類精度,從而提高了單類集成分類器的檢測效果。這也驗證了設(shè)計具有較高檢測率的基分類器是集成學(xué)習(xí)的關(guān)鍵之一。
3.3 不同方法檢測性能比較
為了更加全面地評價本文方法的檢測性能,將其與文獻(xiàn)[7-8]兩種基于多超球面OC-SVM分類器的單類檢測方法進(jìn)行比較。3種方法的檢測結(jié)果如表1所示,進(jìn)一步繪制3種方法對混雜圖像庫檢測結(jié)果的ROC曲線,如圖4所示。
表1 3種單類方法的檢測結(jié)果(%)
提出了一種基于單類集成分類器的JPEG通用隱寫分析方法。提取反映DCT塊內(nèi)、塊間和DWT層內(nèi)、層間相關(guān)性的共生特征以及DWT子帶系數(shù)直方圖分布特征對圖像進(jìn)行描述,計算檢測圖像及其原始估計圖像所提共生矩陣和直方圖分布的對稱交互熵作為隱寫分析特征,在提高特征空間豐富性和敏感性的同時大大降低了特征的維數(shù),使其更加有效;然后,針對對稱交互熵差異特征的特點(diǎn),設(shè)計了單類集成分類器進(jìn)行隱寫判別,進(jìn)一步提高了算法的分類精度。實(shí)驗結(jié)果驗證了本文方法的有效性,而且,本文設(shè)計的單類集成分類器具有良好的通用性,可以用于構(gòu)造基于OC-SVM、SVDD的單類集成分類器。
圖4 不同嵌入率下3種單類方法的ROC曲線
[1]熊鋼,平西建,張濤,等.一種基于圖像內(nèi)容的最低有效位匹配隱寫分析方法[J].電子與信息學(xué)報,2012,34(6):1380-1387.
[2]FRIDRICH J,KODOVSKY J.Rich models for steganalysis of digital images[J].IEEE Transactions on Information Forensics and Security,2012,7(3):868-882.
[3]PEVNY T,F(xiàn)RIDRICH J.Novelty detection in blind steganalysis[C]//ACM workshop on Multimedia and Security,2008,167-176.
[4]毛家發(fā),林家駿.基于凈圖描述的通用隱寫分析技術(shù)[J].計算機(jī)學(xué)報,2010,33(3):569-579.
[5]毛家發(fā),鈕心忻,楊義先,等.基于JPEG凈圖定量描述的隱寫分析方法[J].電子學(xué)報,2011,39(8):1907-1912.
[6]戴蒙,林家駿,劉云翔.基于FCM聚類的多超球體一類分類數(shù)字圖像隱藏信息檢測[J].中國圖象圖形學(xué)報,2008,13(10):1918-1921.
[7]LUO P S.Research on simulated annealing clustering algorithm in the steganalysis of image based on the one-class support vector machine[C]//International Conference on Computer Application and System Modeling,2010,446-450.
[8]郭艷卿,孔祥維,尤新剛.基于共生特征和集成多超球面OC-SVM的JPEG隱密分析方法[J].電子與信息學(xué)報,2009,31(5):1180-1184.
[9]KODOVSKY J,F(xiàn)RIDRICH J,HOLUB V.Ensemble classifiers for steganalysis of digital media[J].IEEE Transactions on Information Forensics and Security,2012,7(2):432-444.
[10]李卓,陳健,蔣曉寧,等.基于多域特征的JPEG圖像盲檢測算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2011,45(9):1528-1538.
[11]張敏情,雷雨.基于小波系數(shù)相關(guān)性的空域隱寫分析方法[J].光電子·激光,2012,23(5):972-979.
[12]KODOVSKY J,F(xiàn)RIDRI CH J.Calibration revisited[C]// ACM Workshop on Multimedia and Security,2009,63-74.
JPEG Universal Steganalysis Based on One-class Ensemble Classifier
LI Wei,ZHANG Shu,QI Rui
(School of Science,Naval University of Engineering,Wuhan 430033,China)
To make a universal steganography detector for JPEG images,a novel method based on one-class ensemble classifier is proposed.The co-occurrence features among neighboring coefficients in both Discrete Cosine Transform(DCT)domain and Discrete Wavelet Transform(DWT)domain and the histogram features of DWT subband coefficients are captured to describe the statistical characteristics of images.The symmetrical cross entropy of the co-occurrence matrices and histogram distributions captured from detection images and their estimated original images is calculated as the steganographicfeatures.Furthermore,aone-classensembleclassifierisdesignedtomake classification,which consists of many base learners using majority rule.Each base learner is independently trained on a cover bootstrap sample building on a randomly selected subspace of the feature space.Experimental results show that the one-class ensemble classifier further improves the algorithm’s detection capability and the proposed method outperforms several multi-hyperspheres OCSVM classifier based one-class steganalysis schemes for higher detection rate.
steganalysis,co-occurrence matrix,symmetrical cross entropy,one-class ensemble classifier
TP391.41
A
1002-0640(2016)12-0036-05
2015-11-05
2015-12-29
國家自然科學(xué)基金(61074191);海軍工程大學(xué)自然科學(xué)基金資助項目(HJGSK2014G120)
李薇(1970-),女,江蘇儀征人,副教授,碩士生導(dǎo)師。研究方向:信息隱藏算法設(shè)計。