李長(zhǎng)隆, 劉佳, 鈕可
基于集成相關(guān)向量機(jī)的數(shù)字圖像隱寫分析*
李長(zhǎng)隆1, 劉佳2, 鈕可2
(1.武警部隊(duì)參謀部機(jī)要局,北京100089;2.武警工程大學(xué)電子技術(shù)系,陜西西安710086)
圖像隱寫分析中,特征維數(shù)越來越高,目前多采用集成分類器進(jìn)行隱寫分析,在相關(guān)向量機(jī)(RVM)的基礎(chǔ)上,提出了一種新的機(jī)器學(xué)習(xí)方法:由隨機(jī)森林實(shí)現(xiàn)的集成相關(guān)向量機(jī)(RVM)分類器,采用成對(duì)采樣策略構(gòu)建選擇性集成分類器,將其用于圖像隱寫分析領(lǐng)域。實(shí)驗(yàn)表明提出的集成分類器是一種有效的工具,使得能夠快速構(gòu)建隱寫檢測(cè)器,并能明顯降低隱寫分析系統(tǒng)的檢測(cè)錯(cuò)誤率(BER),同時(shí)對(duì)大榮量隱寫嵌入方法具有較高的檢測(cè)率。
隱寫分析;集成分類器;相關(guān)向量機(jī)
隱寫分析的目標(biāo)是檢測(cè)在目標(biāo)載體中秘密信息的存在性。但是,利用統(tǒng)計(jì)描述子的方法很難對(duì)載體精確地建模,這進(jìn)一步增加了對(duì)嵌入改變進(jìn)行檢測(cè)的難度?;谳d體和隱寫載體中提取的統(tǒng)計(jì)特性來估計(jì)潛在概率分布的檢測(cè)方法是非常困難的。因此,隱寫分析問題一般被當(dāng)做是一個(gè)機(jī)器學(xué)習(xí)中的監(jiān)督分類問題。
支持向量機(jī)(SVM)[1]是監(jiān)督分類中最受歡迎的方法。這主要是由于,SVM具有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),它是基于統(tǒng)計(jì)學(xué)習(xí)理論同時(shí)它能克服過學(xué)習(xí)以及當(dāng)特征維數(shù)比樣本個(gè)數(shù)大的時(shí)候仍能給出不錯(cuò)的結(jié)果。可以下載到穩(wěn)健以及有效的開源的軟件。
早期的基于特征的隱寫分析方法只用一些較少的特征,例如72維的用QMFs變換后的系數(shù)的的高階統(tǒng)計(jì)矩作為特征[2],18維的二值相似度量[3],23維DCT特征[4],以及小波系數(shù)的高階統(tǒng)計(jì)矩[5].隨著隱寫算法復(fù)雜性的提高,隱寫分析算法也開始利用高維的特征向量。在文獻(xiàn)[6]中,JPEG圖像的特征為274維。同時(shí)在文獻(xiàn)[7-8]中,分別提出了324維和486維的特征向量。SPAM即像素差得二階馬爾科夫模型特征的維數(shù)為686維[9]。
為了解決隱寫分析方法中的復(fù)雜性問題,在本文提出一個(gè)集成相關(guān)向量機(jī)分類器,這個(gè)集成分類器是建立在隨機(jī)森林的基礎(chǔ)上,通過融合由基學(xué)習(xí)器產(chǎn)生的決策來進(jìn)行分類,這些基學(xué)習(xí)器很容易進(jìn)行訓(xùn)練。通過研究學(xué)習(xí)器以及其融合策略,文中給出了一個(gè)簡(jiǎn)單有效的設(shè)計(jì)方法。
本文提出的集成分類器由多個(gè)基學(xué)習(xí)器在一組載體圖像和隱寫圖像上獨(dú)立訓(xùn)練得到的。每一個(gè)基學(xué)習(xí)器就是一個(gè)簡(jiǎn)單的分類器,這個(gè)分類器建立在隨機(jī)(均勻)選取的特征空間的子空間上。給定一個(gè)測(cè)試集合中的一個(gè)樣本,最終的決策由單個(gè)基學(xué)習(xí)器決策結(jié)果的累積構(gòu)成。這個(gè)監(jiān)督集成分類策略當(dāng)且僅當(dāng)每一個(gè)單獨(dú)的基學(xué)習(xí)器足夠分散的時(shí)候才能成立,也就是說,它們對(duì)未知數(shù)據(jù)由不同的錯(cuò)誤率。為了進(jìn)一步增加基學(xué)習(xí)器之間相互分散的程度,每一個(gè)學(xué)習(xí)器在一個(gè)Bootstrap樣本中進(jìn)行訓(xùn)練,而不是整個(gè)訓(xùn)練集。Bootstrap樣本是從整個(gè)訓(xùn)練集中隨機(jī)采樣得到的。這個(gè)策略在機(jī)器學(xué)習(xí)中被稱為Bootstrap aggregating(自舉聚集)或是bagging,這使得能夠獲得一個(gè)測(cè)試誤差的精確地估計(jì),使得對(duì)確定一個(gè)優(yōu)化的集成參數(shù)很有幫助。注意到自舉樣本是成對(duì)(by pairs)構(gòu)成的,例如保證載體特征和隱寫特征對(duì)成對(duì)出現(xiàn)。這種限制對(duì)隱寫分析而言是相當(dāng)重要的,因?yàn)橐呀?jīng)證明了將載體-隱寫對(duì)集合分成兩個(gè)部分,一個(gè)用于訓(xùn)練,另一個(gè)用于測(cè)試以及誤差估計(jì),這種劃分可以給出一個(gè)偏度誤差估計(jì)同時(shí)給出一個(gè)次優(yōu)化的性能。本文的方法類似于文獻(xiàn)[10]中的策略。文獻(xiàn)[10]第一次提出了利用集成分類器實(shí)現(xiàn)隱寫分析。
為了描述集成分類器,本文引入下面的記號(hào)。d表示特征空間的維數(shù),dsub表示每一個(gè)基學(xué)習(xí)器操作的子空間維數(shù)。Ntrn和Ntst是每一個(gè)分類器中訓(xùn)練樣本和測(cè)試樣本的個(gè)數(shù),L是基學(xué)習(xí)器的個(gè)數(shù)。另外,表示從訓(xùn)練集中提取的載體和隱寫特征向量,表示從測(cè)試的載體和隱寫樣本中提取的特征向量。所有的訓(xùn)練和測(cè)試樣本表示為是一個(gè)D維的特征向量,這個(gè)特征向量是從x中采樣得到的,保留了原始的維數(shù)順序。
每一個(gè)基學(xué)習(xí)器Bl,l=1,…,L,都是一個(gè)Rd→{0,1}的映射,其中0表示載體,1表示隱寫圖像。需要注意的是,盡管學(xué)習(xí)器定義在Rd上,所有的基學(xué)習(xí)器的特征空間的維數(shù)dsub可以選擇比全維度d小得多的值,這使得能夠極大的降低計(jì)算復(fù)雜度。盡管每一個(gè)單獨(dú)的基學(xué)習(xí)器的分類性能很弱,但是L的值足夠大時(shí),在進(jìn)行策略融合后,精確度將得到極大地提高,并且最終可以收斂。每一個(gè)基學(xué)習(xí)器的決策閾值被調(diào)整為在等先驗(yàn)的情況下,最小化訓(xùn)練集的錯(cuò)位分類數(shù):式中,PFA,PMD分別是是虛警和錯(cuò)分的概率?;炯煞诸惼鞯慕Y(jié)構(gòu)圖如圖1所示。
圖1 集成相關(guān)向量機(jī)分類框架
本文采用相關(guān)向量機(jī)[11]來作為每一個(gè)基學(xué)習(xí)器的學(xué)習(xí)工具,相關(guān)向量機(jī)(relevance vector machine)是一種用于分類和回歸的貝葉斯稀疏核技術(shù),它具有很多SVM的特性,同時(shí)避免了它的一些主要的限制。另外,它還能在保證一定的泛性誤差的同時(shí),給出更系數(shù)的模型,并在測(cè)試集上的運(yùn)算更加塊速。
相關(guān)向量機(jī)分類方法類似于一種基于拉普拉斯逼近的回歸算法.例如,如果要預(yù)測(cè)輸入向量x的部分后驗(yàn)概率,一般可以根據(jù)統(tǒng)計(jì)學(xué)的知識(shí),利用函數(shù)σ(y)=1/(1+e-y)對(duì)一種線性模型y(x)進(jìn)行歸一化,其分布表達(dá)式為:
根據(jù)定義,目標(biāo)函數(shù)為tn∈{0,1},需要注意的是在式(2)中,并沒有增加噪聲函數(shù).
分類過程中,不能利用卷積方式計(jì)算權(quán)重,所以并不能給出p(w|t,α)或邊緣分布p(t|α)的解析解.因此,需要利用拉普拉斯逼近的近似解求得,具體過程如下:
(1)首先保持α的值不變,求解出模型的后驗(yàn)概率分布的位置,從而得到權(quán)值wMP的最可能值。因?yàn)閜(w|t,α)正比于p(t|w)p(w|α),因此該過程等價(jià)于求解(3)的最小值這樣的優(yōu)化問題:
式中,yn=σ{y(xn;w)}。
(2)拉普拉斯近似(Laplace approximation),這個(gè)方法的目標(biāo)是找到一個(gè)定義在連續(xù)變量集合上的概率密度的一個(gè)高斯近似。
式中,B=diag(β1,β2,...,βN))是一個(gè)對(duì)角線矩陣,其中βn=σ(y(xn))[1-σ(y(xn))].對(duì)于高斯近似的逼近來說,權(quán)值主要集中在wMP,并且通過式(6),能夠獲得協(xié)方差矩陣Σ.(3)利用Σ和wMP的高斯逼近(代替μ),α超參數(shù)可用來不斷更新。
在模型p(w|t,α),利用式(3)以及?Wlgp(w|t,α)|wMP??梢缘玫?
可以看出拉普拉斯逼近方法實(shí)際上是一種將分類問題映射為回歸問題的有效方法。
整個(gè)集成分類器的偽碼在算法1中進(jìn)行了描述,下面是算法1的思想流程。
算法1相關(guān)向量機(jī)集成分類器:
1.for對(duì)每一個(gè)子分類器而言l=1:L。
2.隨機(jī)選擇一個(gè)子空間Dsub。
3.在子空間上Dsub,訓(xùn)練一個(gè)基分類器Bl。
4.對(duì)所有的測(cè)試樣本,y,在第l個(gè)分類器上進(jìn)行決策。
5.end for
6.最終的決策由最大投票策略決定:
在集成分類器訓(xùn)練過程中,參數(shù)L和Dsub的選擇類似文獻(xiàn)[10]中的方法。
目前基于集成分類器的隱寫分析算法中,大多訓(xùn)練過程中的訓(xùn)練樣本是成對(duì)出現(xiàn)的,然而大多數(shù)分類器訓(xùn)練過程并沒有考慮這種成對(duì)樣本的特殊性。本文在Bagging抽樣方法的基礎(chǔ)上,中提出的選擇性集成策略構(gòu)建集成分類器。
2.1樣本選擇
首先,利用有放回地抽樣方法,抽取2M個(gè)次,在每一次抽取的樣本對(duì)中隨機(jī)選擇一個(gè)樣本。樣本的選擇由下式給出:
也就是等概率在每對(duì)樣本中選擇一個(gè),采用這個(gè)過程將使得最終得到的樣本集大小與原樣本集大小保持一致。當(dāng)該樣本對(duì)再次被抽時(shí),可依式(7)選擇樣本的方法,未單獨(dú)列出,以下采樣策略如圖2所示,該方法即在在成對(duì)樣本中,在每一次采樣一對(duì)成對(duì)樣本的基礎(chǔ)上,隨機(jī)選取其中一個(gè)樣本,可能是隱寫圖像,也可能是正常圖像,抽樣2M次,即可獲得M}個(gè)訓(xùn)練樣本。
圖2 成對(duì)樣本的采樣策略
2.2選擇性集成
選擇性集成是借助于某種選擇策略,考慮基分類器不同差異的情況下,基于某種有策略對(duì)基分類器進(jìn)行優(yōu)化的基礎(chǔ)上構(gòu)建集成分類器的有效方法。周志華等[12]在相關(guān)文獻(xiàn)中表明在使用部分基分類器的效果甚至比使用全部基分類器進(jìn)行集成具有更好的分類性能。本文的選擇性集成策略是在文獻(xiàn)[13]的基礎(chǔ)上,利用遺傳算法進(jìn)行優(yōu)化選擇。首先定義基分類器對(duì)應(yīng)的測(cè)試誤差OOB和歸一化測(cè)試誤差OOB?分別為:
其中:B(i)(Xj)為第i個(gè)基分類器在特征X的檢測(cè)結(jié)果;Ntrn為訓(xùn)練樣本集大小。選擇性集成流程如圖3所示。
圖3 選擇性集成流程
其中步驟四中的基于遺傳算法的選擇性集成算法具體實(shí)現(xiàn)可參考文獻(xiàn)[13]。
本文的實(shí)驗(yàn)在一些圖像隱寫分析數(shù)據(jù)庫,例如BOWS2、BOSSBass 0.92以及Camera圖像庫,選擇5 000幅載體圖像。試驗(yàn)中采用了不同的基分類器、訓(xùn)練樣本采樣策略,以及不同訓(xùn)練集大小、嵌入率和嵌入算法情況下,進(jìn)行圖像隱寫分析算法驗(yàn)證,同時(shí)與當(dāng)前一些隱寫分析算法進(jìn)行性能比較。其中,所有圖像的質(zhì)量因子設(shè)定為75,圖像隱寫特征則采用維數(shù)適中的CC-PEV特征。實(shí)驗(yàn)采用了Michael E.Tipping開發(fā)的Sparse-Bayes工具箱[14],實(shí)現(xiàn)了對(duì)相關(guān)向量機(jī)的學(xué)習(xí)和分類。實(shí)驗(yàn)一對(duì)正常載體圖像庫分別使用JP Hide&Seek(JPHS)、F5、MB1、MB2、OutGuess Steghide等算法進(jìn)行信息嵌入,嵌入率分別為最高載體嵌入量的25%,50%,100%。其中訓(xùn)練集由4 000幅的載體圖像以及400幅隱寫圖像構(gòu)成,測(cè)試集由1 000幅載體圖像和1 000幅隱寫圖像構(gòu)成。經(jīng)過實(shí)驗(yàn),得到結(jié)果如表1所示。
表1 集成相關(guān)向量機(jī)與集成SVM,集成KNN的對(duì)比結(jié)果
其中,E-SVM,E-RVM E-KNN分別表示集成SVM,集成RVM和集成KNN分類器。從實(shí)驗(yàn)結(jié)果可以看出,E-RVM具有較好的分類效果。
實(shí)驗(yàn)2驗(yàn)證了測(cè)試訓(xùn)練集大小不同情況下,對(duì)測(cè)試性能的影響。樣本采樣策略采用成對(duì)樣本隨機(jī)選取一個(gè)的方法進(jìn)行。設(shè)隨機(jī)抽取N個(gè)成對(duì)的樣本,其中一半樣本用于訓(xùn)練、一半樣本用于測(cè)試。實(shí)驗(yàn)2采用nsF5隱寫算法,隱寫嵌入率為0.2bpac,隱寫分析特征與實(shí)驗(yàn)1相同,表2給出了20次實(shí)驗(yàn)的平均值。
表2 不同樣本集大小時(shí)的性能對(duì)比
其中M為樣本數(shù)量,ER表示平均錯(cuò)誤率,AUC表示準(zhǔn)確率提升。
本文針對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)的分類器中存在的缺陷,提出了一種基于集成相關(guān)向量機(jī)的圖像隱寫分析方法,同支持向量機(jī)相比,相關(guān)向量機(jī)最大的優(yōu)點(diǎn)就是極大地減少了核函數(shù)的計(jì)算量,并且也克服了所選核函數(shù)必須滿足Mercer條件的缺點(diǎn)。文章?lián)藰?gòu)建集成分類器,為了更好的利用樣本以及增加基分類器之間的差異,本文選擇成對(duì)樣本的采樣以及基于遺傳算法的采樣策略設(shè)計(jì)隱寫分析方案,在對(duì)掩密圖片進(jìn)行檢測(cè)的實(shí)驗(yàn)中,集成RVM表現(xiàn)了良好的分類精度,取得了較好的效果。
[1] Chang CC and Lin CJ.LIBSVM:a Library for Support Vector Machines[J].Acm Transactions on Intelligent Systems&Technology,2011,2(3):389-396.
[2] Farid H and Si wei.L.Detecting hidden messages using higher-order statistics and support vector machines[C].InformationHiding,5thInternationalWorkshop2002,2578: 340—354.
[3] Avcba?,Kharrazi M,Memon N D,and Sankur B.Image steganalysis with binary similarity measures[J].Journal on Applied Signal Processing,2005,17:2749-2757.
[4] Fridrich J.Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes[C]. Information Hiding,6th International Workshop,2004,3200: 67-81.
[5] Goljan M,F(xiàn)ridrich J,and Holotyak T.New blind steganalysis and its implications[C].Proceedings SPIE,Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents VIII,2006,60(72):1-13.
[6] Pevny T and Fridrich J.Merging Markov and DCT features for multi-class JPEG steganalysis[C].Proceedings SPIE,Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents IX,2007,6505:1-3.
[7] Shi Y Q,Chen C,and Chen W.A Markov process based approach to eff ective attacking JPEG steganography.Information Hiding[C],8th International Workshop,volume 2006,4437: 249-264.
[8] Chen C and Shi YQ.JPEG image steganalysis utilizing both intrablock and interblock correlations[C].In Circuits and Systems,ISCAS,2008:3029-3032
[9] Bryll R,Gutierrez-Osuna R,and Quek F.Attribute bagging: Improving accuracy of classifier ensembles by using random feature subsets[J].Pattern Recognition,2003,36(6): 1291-1302.
[10] Kodovsky J,F(xiàn)ridrich J and Holub V.Ensemble Classifiers for Steganalysis of Digital Media[J].IEEE Transactions on Information Forensics and Security,2012.7(2): 432-444.
[11] Tipping M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,1(3):211-244.
[12] Zhou Zhi-hua,Wu Jian-xin,Tang Wei.Ensembling neural networks:Many could be better than all[J].Artificial Intelligence,2002,137(1-2):239-263
[13] 狄富強(qiáng),張敏情,劉佳.一種基于成對(duì)采樣和選擇性集成的隱寫分析算法[J].光電子.激光,2015 26(4):746-751.
[14] Tipping M E and Faul A C.Fast marginal likelihood maximisation for sparse Bayesian models[C].Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics,2010:3-6
Image Steganalysis based on Ensemble Relevance Vector Machines
LI Chang-long1,LIU Jia2,NIU Ke2
(1.Joint Staff of the PAP,Beijing 100010,China;2.Engineering University of PAP,Xi’an Shaanxi 710086,China)
In this paper,an alternative and well-known machine learning tool—ensemble RVM(Relevance Vector Machines)classifier implemented as random forest is proposed,and experiment indicates this proposed ensemble classifier is an effective tool,quite suitable for steganalysis with high dimension feature.Ensemble classifiers could quickly consititutes steganography detector,remarkably reduce the detection erroer-rate of steganalysis system.Meanwhile,this ensemble classifier is of fairly high detection rate for the large-capacity steganographic embedment.So ensemble classification is portrayed as a powerful developing tool that allows fast construction of steganography detectors with markedly improved detection accuracy across a wide range of embedding methods.
steganalysis;ensemble classiffier;RVM
TN91
A
1009-8054(2016)08-0087-04
?2016-03-28
國(guó)家自然科學(xué)基金(No.61379152,No.61403417)
李長(zhǎng)隆(1982—),男,碩士生,工程師,主要研究方向?yàn)閳D像隱寫分析,機(jī)器學(xué)習(xí);
劉 佳(1982—),男,博士,講師,主要研究方向?yàn)槟J阶R(shí)別,信息隱藏。
鈕 可(1981—),男,博士生,講師,主要研究方向?yàn)橐曨l信息隱藏?!?/p>