孔祥維 郭維廓 馮超禹 張 祎 楊明亮
(大連理工大學電子信息與電氣工程學部 遼寧大連 116024)
?
網(wǎng)絡(luò)大數(shù)據(jù)下的信息隱藏分析
孔祥維 郭維廓 馮超禹 張 祎 楊明亮
(大連理工大學電子信息與電氣工程學部 遼寧大連 116024)
(kongxw@dlut.edu.cn)
隨著網(wǎng)絡(luò)信息爆炸式的增長,近年來信息安全引起了廣泛的關(guān)注.信息隱藏作為信息安全領(lǐng)域的熱門方向,也同樣面臨著大數(shù)據(jù)帶來的挑戰(zhàn).網(wǎng)絡(luò)中存在著海量的數(shù)據(jù)且這些數(shù)據(jù)來源多樣、質(zhì)量不一等諸多特點,使很多實驗室環(huán)境下的信息隱藏分析方法因此失效.以數(shù)字圖像為例:首先分析了網(wǎng)絡(luò)大數(shù)據(jù)下數(shù)字圖像的特點.然后闡述了實驗室環(huán)境下信息隱藏分析方法的國內(nèi)外研究成果.通過實驗說明了實驗室環(huán)境下信息隱藏分析方法的優(yōu)異性能在網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下急劇下降,重點從對數(shù)據(jù)集研究、對特征的處理、對分類器的改進以及整體結(jié)構(gòu)的改變4個方面介紹了當前針對網(wǎng)絡(luò)大數(shù)據(jù)下存在的信息隱藏分析失配問題進行的研究工作.最后指出了網(wǎng)絡(luò)大數(shù)據(jù)下信息隱藏分析的潛在問題與未來挑戰(zhàn).為解決大數(shù)據(jù)下信息隱藏分析問題提供了有效的方法借鑒.
信息隱藏分析;大數(shù)據(jù);網(wǎng)絡(luò);大數(shù)據(jù)安全;比較研究
信息安全成為世界性的現(xiàn)實問題.它牽涉到國家的政治安全、經(jīng)濟安全、社會安全、軍事安全乃至文化安全,世界主要國家和地區(qū)均將信息安全視為國家安全戰(zhàn)略的重要基石.近5年來互聯(lián)網(wǎng)發(fā)達國家密集出臺國家網(wǎng)絡(luò)安全新戰(zhàn)略,加速戰(zhàn)略核心內(nèi)容的落地部署.自2013年投入103億美元的網(wǎng)絡(luò)安全預算以來,美國用于網(wǎng)絡(luò)安全的資金投入近年來呈穩(wěn)步增長趨勢,美國總統(tǒng)奧巴馬提議在2016 財年預算中,擬撥款140億美元用于加強美國網(wǎng)絡(luò)安全,以便更好地保護聯(lián)邦政府和私有企業(yè)網(wǎng)絡(luò)免遭黑客威脅[1].截至2014年,已經(jīng)有40多個國家相繼頒布了網(wǎng)絡(luò)空間國家安全戰(zhàn)略,僅美國就頒布了40多份與網(wǎng)絡(luò)安全有關(guān)的文件.在歐洲,德國總理默克爾與法國總統(tǒng)奧朗德擬從戰(zhàn)略層面繞開美國以強化數(shù)據(jù)安全.在亞洲,日本與印度也積極行動,日本于2013年6月出臺了《網(wǎng)絡(luò)安全戰(zhàn)略》,明確提出“網(wǎng)絡(luò)安全立國”.印度于2013年5月出臺《國家網(wǎng)絡(luò)安全策略》,目標是“安全可信的計算機環(huán)境.可以看出,加強網(wǎng)絡(luò)信息安全建設(shè)已經(jīng)成為世界范圍內(nèi)公認的重要戰(zhàn)略決策之一.
我國是一個網(wǎng)絡(luò)大國,但并不是網(wǎng)絡(luò)強國,當前的信息安全形勢非常嚴峻.習近平總書記曾明確指出:沒有網(wǎng)絡(luò)安全,就沒有國家安全,網(wǎng)絡(luò)安全和信息化是事關(guān)國家安全和國家發(fā)展、事關(guān)廣大人民群眾工作生活的重大戰(zhàn)略問題.政府已制定和實施《國家安全戰(zhàn)略綱要》,提出“網(wǎng)絡(luò)空間立國”的思路,同時《國家中長期科學技術(shù)發(fā)展規(guī)劃》也將面向核心應(yīng)用的信息安全列為重點發(fā)展的優(yōu)先主題[2].
網(wǎng)絡(luò)空間環(huán)境下的網(wǎng)絡(luò)信息戰(zhàn)重要技術(shù)之一是隱蔽通信及其對抗,“9·11”事件使得全球反恐成為重點,也使得信息隱藏與信息隱藏分析成為隱蔽通信的研究熱點.用于隱蔽通信的信息隱藏或隱寫術(shù)(data hiding或steganography)是具有古老歷史并沿用至今的隱蔽通信方式.steganography源自希臘文中的“掩蔽書寫”,描述了一種創(chuàng)造隱藏信道的技術(shù),其基本思想是把秘密消息隱藏在正常載體中,通過隱藏秘密消息的存在性來構(gòu)建隱蔽通信.與古代相比,現(xiàn)在利用信息隱藏進行秘密數(shù)據(jù)的嵌入方法更加復雜,偽裝所用的載體更為廣泛.信息隱藏不僅限于要隱藏正在發(fā)送消息通信這一事實,還要讓發(fā)送者和接收者對于監(jiān)聽者來說不可檢測到,因此也需具備匿名性和隱私性.與加密成密文亂碼讓他人不懂的密碼術(shù)比較,信息隱藏掩飾了通信的存在,讓監(jiān)聽者查不出有隱蔽通信發(fā)生.基于數(shù)字多媒體信息隱藏的隱蔽通信最先發(fā)展并在近10多年最先受到以美國為首的先進國家以及國際學術(shù)界的重要關(guān)注[3-4],繼而又發(fā)展了其他多媒體、自然語言、文件系統(tǒng)、網(wǎng)絡(luò)協(xié)議等多樣的載體形式[5].任何信息安全技術(shù)都是對抗性的,安全分析是發(fā)現(xiàn)系統(tǒng)的安全問題的重要手段.信息隱藏的安全分析——信息隱藏分析(steganalysis)集中在檢測隱蔽通信的存在.但是,矛與盾這2個方面的研究并不平衡,這一點可以從信息隱藏軟件工具的比例表明,信息隱藏嵌入軟件遠遠多于信息隱藏分析檢測軟件.截至2012年2月,最大的信息隱藏工具商業(yè)數(shù)據(jù)庫包含1 025種應(yīng)用軟件.
當前日益普及的數(shù)碼相機、智能手機、多種信息處理軟件以及蓬勃發(fā)展的互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)大大提高了人們記錄、處理、傳播、交流多媒體內(nèi)容的能力,使得網(wǎng)絡(luò)上大量涌現(xiàn)的多媒體大數(shù)據(jù)可以對新聞、紀實、社會、生活等方面進行現(xiàn)場記錄和事實重現(xiàn).社交網(wǎng)絡(luò)成為人人都可參與的互動平臺,人人可以成為網(wǎng)民記者,可以成為攝影師,可以上傳自己的拍照作品,隨意下載網(wǎng)絡(luò)的圖像.固有的觀念:百聞不如一見,有圖有真相,一幅圖勝過千言萬語等等在網(wǎng)絡(luò)上得以落地.在眾多的網(wǎng)絡(luò)多媒體數(shù)據(jù)當中,圖像視覺具有的直觀性、沖擊力和寫實性使得當前的網(wǎng)絡(luò)正在進入讀圖時代,網(wǎng)絡(luò)圖像成為當前不可或缺的記錄真實世界和社會現(xiàn)實的富媒體.
網(wǎng)絡(luò)上海量的數(shù)字圖像由于其直觀可視特性得到了廣泛的傳播和應(yīng)用.從宏觀角度看,網(wǎng)絡(luò)上的圖像數(shù)量龐大、來源繁多;從微觀角度看,網(wǎng)絡(luò)上的圖像來源各異,導致其質(zhì)量良莠不齊、魚龍混雜.下面我們從安全角度分析網(wǎng)絡(luò)上圖像的來源和處理狀況.
第2種情況是隱藏了秘密信息的載密圖像與未含有秘密信息的載體圖像并存.在網(wǎng)絡(luò)上出現(xiàn)的多種以圖像作為掩護載體內(nèi)嵌秘密信息的信息隱藏軟件,這些信息隱藏軟件相比傳統(tǒng)的加密方法具有更好的隱蔽性和偽裝性,可以在正常的圖像通信中包含著秘密通信,使人眼難辨的偽裝載體圖像通過網(wǎng)絡(luò)任意地傳播.但隱蔽通信技術(shù)在政治、經(jīng)濟、軍事等領(lǐng)域帶來便利的同時,也遭到了不法分子的惡意使用,在非法通信、恐怖信息秘密傳遞中越來越多.2001年,《今日美國》發(fā)表文章指出“9·11”事件中極端主義分子使用信息隱藏技術(shù)來進行秘密聯(lián)系,以策劃和密謀恐怖事件[6].2006年,印度媒體報道稱,7月11日發(fā)生在孟買的火車連續(xù)爆炸事件中恐怖分子使用了信息隱藏技術(shù).2007年,美國全國廣播公司報道指出了信息隱藏技術(shù)在伊斯蘭基地組織中的應(yīng)用.2010年,美國聯(lián)邦調(diào)查局揭露了冷戰(zhàn)以來俄羅斯在美國的最大間諜組織使用信息隱藏技術(shù)通過網(wǎng)絡(luò)上的數(shù)字圖像進行聯(lián)系.另外,有消息稱恐怖組織在其內(nèi)部文章中鼓勵不法分子使用信息隱藏技術(shù)進行通信,以達到不為人知的目的.除此之外,還有一些不法分子在商業(yè)活動中使用信息隱藏技術(shù)來傳遞和泄露商業(yè)機密,通過信息隱藏多媒體和正常媒體一起在網(wǎng)上到處傳播,承擔著傳遞秘密信息的任務(wù).
綜上所述,在實際網(wǎng)絡(luò)環(huán)境下呈現(xiàn)出來的是混合多源圖像,包含多種圖像來源、多種圖像質(zhì)量、多種圖像內(nèi)容、多種偽造圖像、多種藏密圖像等等.這些網(wǎng)絡(luò)圖像呈現(xiàn)出真實和虛假、載體和載密等圖像同時并存的狀況,“有圖有真相”的傳統(tǒng)觀念受到了嚴重質(zhì)疑.網(wǎng)絡(luò)上多源數(shù)字圖像的特點可以總結(jié)為如下4點:
1) 圖像多源.網(wǎng)絡(luò)圖像的多來源包括多種類型的手機、相機圖像傳感器所生成的原始圖像,還包括修改圖像、偽造圖像、載密圖像、社交網(wǎng)絡(luò)圖像等.
2) 圖像異質(zhì).網(wǎng)絡(luò)上存在著原始圖像,使用圖像處理軟件進行幾何轉(zhuǎn)換、格式轉(zhuǎn)換、JPEG壓縮、社交網(wǎng)絡(luò)限制等形成的多種質(zhì)量、多種形式、多種參數(shù)的異質(zhì)圖像.
3) 圖像偽造.網(wǎng)絡(luò)上存在著從原始圖像變化而生成的美化圖像、拼接圖像、增刪圖像等多種篡改偽造圖像.
4) 圖像藏密.信息隱藏中的圖像是一種偽裝載體,其中嵌入了秘密信息,成為圖中藏密,且不影響正常圖像的使用價值.
從以上分析可以看出,網(wǎng)絡(luò)空間中竟然還有這么多來源不一、良莠不齊的圖像,直觀的網(wǎng)絡(luò)圖像中存在不可見的深度信息,這些事例顛覆了“眼見為實”的傳統(tǒng)觀念.人們不僅質(zhì)疑網(wǎng)絡(luò)上傳播的圖像的真實性,而且深度質(zhì)疑這圖像僅僅是幅表面呈現(xiàn)的圖像還是幅隱藏著什么秘密的載體.這一系列質(zhì)疑使得網(wǎng)絡(luò)大數(shù)據(jù)下的信息隱藏分析已經(jīng)成為當前多媒體信息安全研究領(lǐng)域最為緊迫的挑戰(zhàn)之一.然而現(xiàn)有的信息隱藏分析大多數(shù)是在實驗室環(huán)境下進行,實驗室環(huán)境下的信息隱藏分析應(yīng)用于網(wǎng)絡(luò)大數(shù)據(jù)仍有很多問題尚未解決.2013年Ker等8位[7]本領(lǐng)域最具有名望的學者聯(lián)合撰文,呼吁學術(shù)界加強實用信息隱藏技術(shù)和信息隱藏分析技術(shù)的研究,力求使這2項技術(shù)從實驗室推向?qū)嶋H應(yīng)用.孔祥維等人[8]曾對多媒體信息安全研究現(xiàn)狀進行研究,分析各個方向領(lǐng)域的研究背景及研究現(xiàn)狀.指出多媒體信息隱藏分析從科學研究走向現(xiàn)實仍面臨非常大的挑戰(zhàn).
信息隱藏分析的目標是利用訓練中載體圖像與載密圖像的特征集合構(gòu)建分類模型,再利用該模型來判定待測圖像是否為隱藏信息.
當前實驗室環(huán)境下的信息隱藏分析主要由3個部分組成:圖像數(shù)據(jù)庫、信息隱藏分析特征與分類器,其框架如圖1所示.下面將分別對其研究現(xiàn)狀進行介紹.
圖1 傳統(tǒng)信息隱藏分析流程圖
1.1 實驗室環(huán)境下的數(shù)據(jù)庫
目前圖像信息隱藏分析常用的圖像庫有BOWS庫、BOSSbase庫和相機庫等.BOWS庫中的圖像是不同尺寸的自然圖像經(jīng)縮放和裁剪得到的,包括10 000幅尺寸為512×512的灰度圖像.BOSSbase庫由來自7個不同相機的未壓縮的圖像經(jīng)過轉(zhuǎn)換為灰度圖像并裁剪成512×512尺寸組成.這2個圖像庫都是轉(zhuǎn)換圖庫,可以用圖像處理軟件將圖像壓縮為某種特定質(zhì)量因數(shù)的JPEG圖像.相機庫中的圖像來自常見的尼康、佳能、索尼等品牌.
1.2 信息隱藏分析的特征及性能分析
近10年來,隨著信息隱藏技術(shù)和信息隱藏分析技術(shù)的發(fā)展,用于信息隱藏分析的圖像特征也層出不窮.從時間和維數(shù)來看:2006年,Shi等人[9]提出了利用馬爾可夫過程來描述信息嵌入前后JPEG系數(shù)的方法,并得到324維圖像特征集合,它對OutGuess,MB1,MB2等的檢測正確率可達93%以上(圖像的嵌入率為0.1,以下涉及到藏密的圖像均是0.1的嵌入率);2007年,F(xiàn)ridrich等人將曾于2004年被提出的23維CFB特征[10]與324維的特征進行融合,得到274維的PEV特征集合[11],它對OutGuess的檢測正確率可達99%以上,但是對MB1,MB2的檢測正確率只有70%~75%;2008年,Chen等人[12]提出了基于塊內(nèi)和塊間DCT系數(shù)共生矩陣的486維特征,它對OutGuess的檢測正確率達到99%以上,且對MB1,MB2的檢測正確率達到了95%;2010年,Pevny等人[13]將笛卡兒校準方法應(yīng)用到以上方法中,提出了一種基于空域的686維特征SPAM, 2010年,Kodovsky等人[14]將PEV特征集合進行笛卡兒校準,得到CC-PEV特征集合,并且將其與SPAM特征進行進一步融合,得到了能很好對抗YASS的1 234維的CDF特征,它對YASS和MBS的檢測正確率可達92%以上;2011年,Kodovsky等人[15]首次提出了基于DCT系數(shù)的共生矩陣對的48 600維高維數(shù)的特征集合CC-C300,并提出了空域的高維數(shù)特征集合SRM系列特征[16],其中常用的特征集合量階為q1的特征SRMQ1,共12 753維;2011年,Liu等人[17]提出了基于DCT系數(shù)絕對值差分比例的216維特征Liu,它對MBS的檢測率達91.8%;2012年,Kodovsky等人繼續(xù)提出7 850維緊湊的高維特征集合CF*[18]、比較流行的有JRM(11 255維)[19]、CC-JRM(22510維)[19]、CC-JRM和SRMQ1的融合特征JSRM(35 263維)[19],其中,CC-JRM檢測MBS,YASS,nsF5的正確率可達96%,97%,83%,JSRM的檢測正確率比CC-JRM可提高2%左右;2013年和2015年Holub等人又提出了2種高維數(shù)的特征PSRM[20]和DCTR[21],DCTR對nsF5的檢測正確率為80%,但是隨著嵌入率的增長,DCTR的檢測能力相對于其他高維特征更強一點.
除此之外,還有很多新的特征集合已經(jīng)出現(xiàn):PHARM[22],CFA-aware CRM[23],GFR[24]等.總體而言,現(xiàn)有的特征對2010年之前出現(xiàn)的大多數(shù)的信息隱藏方法(MB1,YASS,OutGuess等)的檢測性能可達95%以上,但是對較新的信息隱藏方法(如UNIWARD,HUGO,WOW等)的檢測性能還低于70%.
1.3 信息隱藏分析的分類器及性能分析
將從圖像中提取的特征通過分類器進行處理,其輸出就可以從待測圖像中區(qū)分哪些圖像是載體圖像,而哪些是含密圖像.
從時間上來看,人們最早使用的是多元回歸,然后是Fisher線性分類器和SVM分類器[25].然而隨著特征維數(shù)的不斷升高,SVM分類器中的搜索超分類面參數(shù)的計算量越來越大,使其越來越不能滿足信息隱藏分析的要求.為了解決檢測器訓練的復雜度增長的問題,F(xiàn)LD集成分類器(fisher linear discriminant ensemble classifier)因其良好的分類性能和較低的復雜度而越來越受信息隱藏分析者的青睞.FLD集成分類器是由一系列的線性分類器組成的.它首先將特征空間隨機分成L個子空間.然后在每個子空間中應(yīng)用Fisher線性分類器.最后,對L個基分類器的結(jié)果進行“大多數(shù)投票”確定最終的結(jié)果.因此,對于維數(shù)很高的特征,F(xiàn)LD集成分類器仍有很好的分類能力.并且,由于簡化了計算的復雜度,F(xiàn)LD集成分類器有更快的速度.利用SVM和FLD集成分類器進行信息隱藏分析性能對比如表1、表2所示:
表1 nsF5藏密、CC-PEV特征、0.1嵌入率條件下分類器性能對比
表2 nsF5藏密、CF*特征、0.1嵌入率條件下分類器性能對比
表中,G-SVM表示高斯核的SVM分類器,L-SVM表示線性核的SVM分類器.由表中數(shù)據(jù)可知,在特征維數(shù)較高的情況下,集成分類器的檢測正確率與SVM相當,但是分類所需時間大大減少.
實驗室環(huán)境下的信息隱藏分析是在已知測試樣本的一些先驗信息的情況下進行的,通過已知的先驗信息選擇最優(yōu)的訓練數(shù)據(jù)進行信息隱藏分析.這些先驗知識包括已知信息隱藏方法、已知量化表和嵌入率等,因而訓練數(shù)據(jù)和測試數(shù)據(jù)的特性近似,我們稱之為匹配信息隱藏分析.然而在網(wǎng)絡(luò)大數(shù)據(jù)下,由于待測試的圖像數(shù)據(jù)組成極其復雜,網(wǎng)絡(luò)圖像具有多來源和質(zhì)量不一特性,包含了多種圖像來源的混合多源圖像,無法保證測試圖像與訓練圖像之間的相機品牌、質(zhì)量因數(shù)、嵌入率、信息隱藏方法等因素的一致性.測試圖像與訓練圖像之間的差別會導致訓練數(shù)據(jù)和測試數(shù)據(jù)的統(tǒng)計特性和特征分布的差異很大,使信息隱藏分析檢測正確率大幅度下降,這就造成了訓練樣本和測試樣本數(shù)據(jù)特性不匹配,導致信息隱藏分析來源失配現(xiàn)象產(chǎn)生.我們稱之為失配信息隱藏分析.失配對信息隱藏分析的影響我們可以通過實驗來說明,其實驗結(jié)果如表3所示:
表3 失配與匹配情形信息隱藏分析準確率對比 %
表3中失配情況的信息隱藏分析相較于匹配情況下降了30%左右,因此研究在網(wǎng)絡(luò)大數(shù)據(jù)的失配情況下的信息隱藏分析非常必要,針對網(wǎng)絡(luò)大數(shù)據(jù)下的信息隱藏分析存在的失配問題,需要考慮到測試圖像的來源多樣、質(zhì)量因數(shù)各異、隱藏方法不同等因素,國內(nèi)外學者開展了一系列的研究,具體主要分為以下4個方面.
2.1 對數(shù)據(jù)多源和失衡的研究
現(xiàn)有的信息隱藏分析方法大多是針對原始圖像和載密圖像的二元分類.然而,網(wǎng)絡(luò)環(huán)境中存在著諸如增強圖像、PS圖像以及偽造圖像等復雜的圖像類別.如何在眾多圖像類別中進行多類分類或化為二分類信息隱藏分析成為網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下首先需要解決的一大問題.針對該問題,馮悅[26]提出多元混合圖像信息隱藏分析系統(tǒng)框架,提出一種基于DCT系數(shù)構(gòu)建馬爾可夫模型檢測重壓縮的算法和基于圖像偏移量的篡改定位算法.該方法可以對網(wǎng)絡(luò)中多源混雜的圖像進行分類,將原始圖像、載密圖像同偽造圖像、社交網(wǎng)絡(luò)圖像、PS圖像多源混合圖像區(qū)分開以便進一步進行信息隱藏分析.馮悅提出的方法是基于原始圖像為信息隱藏載體的前提.然而,在網(wǎng)絡(luò)大數(shù)據(jù)的環(huán)境下,信息隱藏者不僅利用原始圖像作為信息隱藏的載體,還利用PS圖像、偽造圖像、增強圖像以及社交網(wǎng)絡(luò)圖像等多次壓縮的圖像作為信息隱藏載體,這就為在網(wǎng)絡(luò)環(huán)境下進行信息隱藏分析提出了更大的挑戰(zhàn).李星等人[27]提出一種新的結(jié)合重壓縮檢測的JPEG圖像多類信息隱藏分析方法.該方法可以估計待測圖像的壓縮質(zhì)量因數(shù),將經(jīng)過一種質(zhì)量因數(shù)壓縮的圖像和經(jīng)過不同質(zhì)量因數(shù)組合壓縮的圖像進行分類,為一次壓縮圖像和重壓縮圖像分別設(shè)計了不同的信息隱藏算法檢測器,以實現(xiàn)一次壓縮和重壓縮圖像中多種算法的識別.其系統(tǒng)框架分別如圖2、圖3所示:
圖2 多元混合圖像壓縮檢測框圖
圖3 JPEG信息隱藏算法多類分類器框圖
網(wǎng)絡(luò)中樣本多來源、多質(zhì)量、多形式、多參數(shù)等特點,造成了網(wǎng)絡(luò)中圖像樣本數(shù)量大且類別多,而且每一類別中樣本的數(shù)目可能會很少.這會導致我們不可能像在實驗室環(huán)境下為每一類樣本都建立信息隱藏模型,這對信息隱藏分析模型的建立也會造成一定的影響.所以,針對網(wǎng)絡(luò)大數(shù)據(jù)的信息隱藏分析還需考慮如何解決訓練樣本類別多且每一類樣本數(shù)目少的數(shù)據(jù)失衡問題.
曾利凱等人[28]提出用多任務(wù)學習的方法可以解決網(wǎng)絡(luò)中圖像具有多來源而每種來源訓練樣本少的問題.該方法將多源JPEG圖像按照圖像的不同來源及圖像的壓縮量化表分成若干個子圖像庫,再將每個子圖像庫的訓練圖像的特征融合采用多任務(wù)訓練方式進行模型訓練.多任務(wù)學習通過并行學習各個任務(wù)并利用相關(guān)任務(wù)訓練樣本中包含的域信息來提高學習效果.該方法可以提高獨立訓練信息隱藏分析框架在訓練樣本不充足時的模型泛化能力.Pasquet等人[29]提出了EC-FS算法和訓練樣本預處理算法.預處理算法通過k-means聚類為訓練樣本進行聚類,為每一類樣本訓練分類器,獲得測試數(shù)據(jù)時計算測試數(shù)據(jù)與每個聚類中心的距離,找到最近距離,用相應(yīng)的分類器進行信息隱藏分析.該方法通過將集成分類器與特征選擇結(jié)合可以成倍地減少訓練集的大小而不影響信息隱藏分析的性能.
圖5 k-means聚類的混合異構(gòu)圖像信息隱藏分析
以上提出的方法雖然可以從不同角度研究由網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下樣本來源與種類繁多、質(zhì)量差異大、樣本數(shù)量不同等特點造成的信息隱藏分析來源失配的問題.但是,網(wǎng)絡(luò)上圖像的多種操作方法以及各大社交網(wǎng)絡(luò)特有的壓縮與剪裁方式等造成載體圖像具有的多樣性依然對網(wǎng)絡(luò)環(huán)境下信息隱藏分析模型的構(gòu)建造成了一定的影響,如何更好地解決由圖像多源、異質(zhì)造成的信息隱藏來源失配問題仍是信息隱藏分析面臨的一大挑戰(zhàn).
2.2 失配信息隱藏分析的特征
信息隱藏分析準確率與圖像特征密切相關(guān).現(xiàn)有的信息隱藏分析特征主要針對的是實驗室環(huán)境下的匹配信息隱藏分析,對于網(wǎng)絡(luò)大數(shù)據(jù)造成的失配信息隱藏分析,性能急劇下降.眾多學者針對圖像特征開展了深入研究,提出利用特征集中特征映射以及構(gòu)建新特征等思路進行失配的信息隱藏分析. Ker等人[30]提出了運用特征聚合和集成的思想提高失配檢測正確率.特征聚合通過對訓練集和測試集載體樣本特征質(zhì)心進行處理來增強特征聚合度;特征集成通過利用多個樣本特征獲得多個訓練模型,利用這些模型組合成為混雜模型應(yīng)用同時到測試集,針對不同分類器分配不同的判決權(quán)重值獲取最終的分析結(jié)果.Li等人[31]引入遷移學習的思想,通過特征映射的方式尋找新的特征空間以增加訓練集和測試集特征分布相似度.該方法主要分為2步:第1步通過領(lǐng)域校準學習一個新的線性變換增大訓練集與測試集間的類內(nèi)相似度;第2步通過學習得到一個共有的特征空間使訓練集和測試集統(tǒng)計分布差異最小化.從而獲得訓練集和測試集新的特征表示,訓練獲得最終的信息隱藏分析模型.該方法針對隱藏方法失配和量化表失配有較好的效果,同時不需要構(gòu)建大量多樣的訓練庫.Zeng等人[32]從已有JPEG圖庫中選取多個與測試圖像相近的子圖庫作為訓練庫,對訓練圖像和測試圖像提取特征,并使用魯棒判別特征變換方法對特征進行處理得到新的特征表示.該方法提出了2個互補的建模原則:最小化訓練數(shù)據(jù)和測試數(shù)據(jù)之間的特征離散度和最大化訓練數(shù)據(jù)的特征辨識度,這2個互補原則在降低訓練特征和測試特征之間特征分布差異的同時可以保持訓練數(shù)據(jù)(含標簽)的分類能力.利用非線性變換可以將原始的訓練特征集和測試特征集轉(zhuǎn)換到新的特征表示空間.在新的變換特征空間中再進行信息隱藏分析.Gul等人[33]提出了一種新的信息隱藏分析特征.該特征是利用馬爾可夫隨機場來構(gòu)建k元變量概率密度函數(shù),進一步將DCT系數(shù)進行統(tǒng)計獲得的.該特征分為198維(k=2時)和657維(k>2時)2種,657維的檢測能力特征比198維的檢測能力特征高1%~2%.實驗表明,該特征的檢測性能比SHI,CHEN等特征提升了2%左右.同時,在圖像庫的來源失配情況下,其檢測性能不受影響.
2.3 失配信息隱藏分析分類器
由于信息隱藏分析分類器的性能會直接影響最終結(jié)果,近年來,針對失配信息隱藏分析失配情況,不少學者開展了針對分類器的改進研究.Wu等人[34]針對嵌入率失配的問題提出了一種對集成分類器進行改進的方案.首先,在訓練樣本的每個隨機子空間,利用線性判別式獲得訓練空間到判別空間的映射向量.然后將測試樣本映射到判別空間后,進行k-means聚類,得到聚類結(jié)果.最后,將每個子空間的結(jié)果進行大多數(shù)投票,得到最終的判決結(jié)果.這個改進的分類器主要是利用k-means聚類代替了集成分類器中的閾值判決過程,從而緩解了嵌入率失配帶來的影響.Xu等人[35]提出通過挑選多樣且具有代表性的樣本特征并構(gòu)建重分權(quán)重的集成分類器模型的方法,來解決載體來源失配的問題.首先尋找類內(nèi)差異大且冗余少的樣本擴充訓練樣本庫,再利用結(jié)合的思想,對訓練多個集成分類器模型,通過分配不同的權(quán)重值,結(jié)合多個分類器結(jié)果進行最終判決.該方法增強了分類模型對高度類內(nèi)變化的魯棒性,從而獲取有效的信息隱藏分析模型.Wu等人[36]提出了一種新的結(jié)構(gòu),將有監(jiān)督的加權(quán)費舍爾線性分類器與無監(jiān)督的k-means聚類整合到統(tǒng)一的半監(jiān)督學習框架中,解決了網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下經(jīng)常出現(xiàn)的數(shù)據(jù)失衡的問題.Dong等人[37]提出了一種基于多超球面的一元支持向量機的半監(jiān)督學習方法.該方法主要分為2個階段:第1階段首先利用多超球面一元支持向量機,僅僅使用原始圖像作為訓練樣本訓練出一個信息隱藏分析模型.隨后,利用該模型針對測試圖像進行信息隱藏分析.第2階段是將原始圖像和第1階段測試得到的載密圖像共同作為訓練樣本,利用軟判決支持向量機進行分類模型訓練得出最終的信息隱藏分析模型.這種方法在網(wǎng)絡(luò)大數(shù)據(jù)的環(huán)境下避免了使用大量的載密圖像作為訓練樣本,同時利用半監(jiān)督學習的方法可以達到較好的信息隱藏分析效果.
2.4 端到端的信息隱藏分析結(jié)構(gòu)
近年來深度學習的一些特性引起了人們的廣泛關(guān)注.深度學習能夠自動地從圖像中提取出特征表示,并在很多領(lǐng)域顯示出更好的性能,因此信息隱藏分析領(lǐng)域也有學者嘗試將深度學習與信息隱藏分析相結(jié)合以期獲得更好的分析結(jié)果.Qian等人[38]改進了傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)構(gòu),首先利用一個設(shè)計好的高通濾波器對圖像進行預處理,相對地放大了隱藏信息引入的弱信號,接下來將傳統(tǒng)CNN所使用的激活函數(shù)改為高斯激活函數(shù),使得傳統(tǒng)CNN網(wǎng)絡(luò)更適用于信息隱藏分析情景.Pibre等人[39]在Qian等人研究的基礎(chǔ)上進行了進一步的研究,他們對傳統(tǒng)CNN進行了各種改進,通過大量的實驗證明了CNN結(jié)構(gòu)與FNN結(jié)構(gòu)用于信息隱藏分析時,由于能夠求得系統(tǒng)的聯(lián)合最優(yōu)化參數(shù),其性能要高于傳統(tǒng)的Rich Models與集成分類器結(jié)合,且對于來源失配具有一定的魯棒性.
然而,雖然針對將深度學習應(yīng)用于信息隱藏分析的研究正在展開也取得了一定的進展,但遇到了很多挑戰(zhàn).
一方面,與傳統(tǒng)的機器學習方法相比,深度學習從流程到思想有著明顯的不同.如上文所述,傳統(tǒng)機器學習解決信息隱藏分析問題的結(jié)構(gòu)一般分為2步:首先傳統(tǒng)機器學習會通過人為的特征提取方式對圖像進行特征提取,然后利用提取出的特征訓練出一個模型進行分類.而深度學習則能夠自動地利用多個層從圖像中提取一種特征表示,其分類過程與特征提取是在一個統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu)下完成的.Qian等人[38]在其研究中通過圖6對比了2種結(jié)構(gòu)的不同.從圖6中我們可以看出傳統(tǒng)機器學習算法與深度學習算法在結(jié)構(gòu)上存在著明顯的差異,傳統(tǒng)機器學習方法特征提取與分類過程依次進行,2個過程互不影響,因此也很難同時達到最優(yōu),這在很大程度上限制了傳統(tǒng)機器學習方法的性能.與之相比,深度學習在一個統(tǒng)一的網(wǎng)絡(luò)模型下通過不斷迭代,在迭代過程中不斷調(diào)整每一層的參數(shù)從而使得算法系統(tǒng)達到最優(yōu),這在直覺上對信息隱藏分析性能的提高是有益的,在Qian等人[38]與Pibre等人[39]的研究中通過實驗證實了這一假設(shè).
圖6 傳統(tǒng)信息隱藏分析與深度學習信息隱藏分析流程對比
另一方面,盡管深度學習在很多領(lǐng)域(如圖像檢索、語言識別等)取得了很好的成果,圖像信息隱藏分析由于其任務(wù)的獨特性對深度學習本身提出了更高的要求,現(xiàn)有的隱藏算法大多具有視覺不可感知性,隱藏加密過程只引入了很小的信號變化,當嵌入率較低時這個信號變化會更小.這個小信號不容易檢測且很容易被破壞,這對深度學習提出了很大的挑戰(zhàn).盡管深度學習在很多現(xiàn)有領(lǐng)域有著出色的表現(xiàn),但是現(xiàn)有的深度學習方法并沒有考慮到統(tǒng)計特性在信息隱藏分析過程中的重要性,其對圖像進行的一些典型操作(如降采樣、池化等)都會破壞信息隱藏過程引起的微小改變,從而使得信息隱藏分析過程失敗.因此,若想在信息隱藏分析領(lǐng)域應(yīng)用深度學習方法,必須對現(xiàn)有深度學習網(wǎng)絡(luò)進行改進.在Qian等人[38]與Pibre等人[39]的網(wǎng)絡(luò)結(jié)構(gòu)中去掉了降采樣過程,并將目前深度學習在其他領(lǐng)域中廣泛應(yīng)用的最大池化改為平均值池化,以更好地保護隱藏算法引入的信息.
雖然信息隱藏分析任務(wù)的獨特性對深度學習帶來了很大的挑戰(zhàn),但信息隱藏分析也具有一些其他領(lǐng)域不具備的特性,如果對于這些特性加以利用將會使深度學習用于信息隱藏分析取得更好的效果.首先,信息隱藏分析可以獲得大量的原始圖像與藏密圖像,這些有標簽數(shù)據(jù)使得深度學習過程有了大量可靠的訓練數(shù)據(jù),對于訓練出一個更加準確的模型有一定幫助.其次,由于信息隱藏算法對于圖像的改變很小,因此用于信息隱藏分析的深度學習網(wǎng)絡(luò)可能不需要很多層就能獲得較好的效果.在Pibre等人[39]的研究中,他們對CNN進行了各種不同形式的改進并測試其性能,令人意外的是,取得最低的錯誤檢測率的卷積神經(jīng)網(wǎng)絡(luò)只有2個卷積層,這會很大程度上減少需要通過迭代訓練的參數(shù)數(shù)量,從而減小算法的運算成本,這個結(jié)果為接下來人們的研究提供了一個新穎的思路.
總的來說,現(xiàn)階段將深度學習與信息隱藏分析相結(jié)合尚屬起步階段,其面臨的挑戰(zhàn)還很多,但將深度學習引入圖像信息隱藏分析領(lǐng)域,為圖像的信息隱藏分析注入了一絲新鮮的血液,這很可能將成為信息隱藏分析領(lǐng)域研究的熱點之一.
隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)中傳遞的信息正在以驚人的速度增長,大數(shù)據(jù)時代已經(jīng)到來.本文在全面說明了實驗室環(huán)境下信息隱藏分析的結(jié)構(gòu)和方法的基礎(chǔ)上,分別梳理和分析了目前國內(nèi)外針對網(wǎng)絡(luò)大數(shù)據(jù)下的信息隱藏分析所開展的研究.
網(wǎng)絡(luò)中的數(shù)據(jù)規(guī)模巨大、來源復雜、擴散迅速,這對于實驗室環(huán)境下的各種研究來說既是機遇也是挑戰(zhàn).
網(wǎng)絡(luò)數(shù)據(jù)來源多樣,造成多源分類下的信息隱藏分析的性能降低,如何在真假圖像混雜情況下提高分析性能是一個挑戰(zhàn).
對于網(wǎng)絡(luò)大數(shù)據(jù)下的信息隱藏失配分析新問題,針對傳統(tǒng)分析結(jié)構(gòu)基礎(chǔ)上的改進能局部提高分析性能,但多方面的綜合失配分析是實用需要解決的關(guān)鍵問題.
網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下可能出現(xiàn)多樣新的隱藏范式,傳統(tǒng)的特征和分類器的信息隱藏分析結(jié)構(gòu)處于被動的應(yīng)對策略,端到端的新結(jié)構(gòu)雖然也能進行信息隱藏分析,在目前還沒有性能提升,但在圖像識別和人工智能的巨大進步影響下,將是一條嶄新的道路.
總之,信息隱藏分析已經(jīng)逐步從實驗室環(huán)境走向更為廣闊的網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境,盡管目前已經(jīng)有一些積極的嘗試與探索性的研究工作正在展開,但總體上來說,網(wǎng)絡(luò)大數(shù)據(jù)下的信息隱藏分析尚且存在著很多亟待解決的問題.
[1]中國日報網(wǎng). 奧巴馬擬撥款140億美元增強網(wǎng)絡(luò)安全建設(shè)[OL]. [2016-04-01]. http:world.chinadaily.com.cn2015-0213content_19573777.htm
[2]新華社. 國家中長期科學和技術(shù)發(fā)展規(guī)劃綱要[OL]. [2016-04-01]. http:www.gov.cnjrzg2006-0209content_183787.htm
[3]Cheddad A, Condell J, Curran K, et al. Digital image steganography: Survey and analysis of current methods[J]. Signal Processing, 2010, 90(3): 727-752
[4]Fridrich J. Modern trends in steganography and steganalysis[M]Digital Forensics and Watermarking. Berlin: Springer, 2012: 1-1
[5]Zielińska E, Mazurczyk W, Szczypiorski K. Trends in steganography[J]. Communications of the ACM, 2014, 57(3): 86-95
[6]Kelley J. Terror groups hide behind Web encryption[JOL]. USA Today, [2016-04-01]. http:usatoday30.usatoday.comtechnews2001-02-05-binladen.htm
[7]Ker A D, Bas P, B?hme R, et al. Moving steganography and steganalysis from the laboratory into the real world[C]Proc of ACM Workshop on Information Hiding & Multimedia Security. New York: ACM, 2013: 45-58
[8]孔祥維, 王波, 李曉龍. 多媒體信息安全研究綜述[J]. 信息安全研究, 2015, 1(1): 44-53
[9]Shi Y Q, Chen C, Chen W. A Markov process based approach to effective attacking JPEG steganography[C]Information Hiding. Berlin:Springer, 2006: 249-264
[10]Fridrich J. Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes[C]Information Hiding. Berlin: Springer, 2004: 67-81
[11]Pevny T, Fridrich J. Merging Markov and DCT features for multi-class JPEG steganalysis[C]Proc of SPIE6506: Security, Steganography, and Watermarking of Multimedia Contents IX. Bellingham, WA: SPIE, 2007: 650503
[12]Chen C, Shi Y Q. JPEG image steganalysis utilizing both intrablock and interblock correlations[C]Proc of IEEE Int Symp on Circuits and Systems. Piscataway, NJ: IEEE, 2008: 3029-3032
[13]Pevny T, Bas P, Fridrich J. Steganalysis by subtractive pixel adjacency matrix[J]. IEEE Trans on Information Forensics and Security, 2010, 5(2): 215-224
[16]Fridrich J, Kodovsky J. Rich models for steganalysis of digital images[J]. IEEE Trans on Information Forensics and Security, 2012, 7(3): 868-882
[17]Liu Q. Steganalysis of DCT-embedding based adaptive steganography and YASS[C]Proc of the 13th ACM Multimedia Workshop on Multimedia and Security. New York: ACM, 2011: 77-86
[18]Kodovsky J, Fridrich J, Holub V. Ensemble classifiers for steganalysis of digital media[J]. IEEE Trans on Information Forensics and Security, 2012, 7(2): 432-444
[20]Holub V, Fridrich J. Random projections of residuals for digital image steganalysis[J]. IEEE Trans on Information Forensics and Security, 2013, 8(12): 1996-2006
[21]Holub V, Fridrich J. Low-complexity features for JPEG steganalysis using undecimated DCT[J]. IEEE Trans on Information Forensics and Security, 2015, 10(2): 219-228
[22]Holub V, Fridrich J. Phase-aware projection model for steganalysis of JPEG images[C]Proc of SPIE9409: Media Watermarking, Security, and Forensics 2015. SPIE, 2015. Bellingham, WA: SPIE, 94090T
[23]Goljan M, Fridrich J. CFA-aware features for steganalysis of color images[C]Proc of SPIE9409: Media Watermarking, Security, and Forensics 2015. Bellingham, WA: SPIE, 2015: 94090V
[24]Song X, Liu F, Yang C, et al. Steganalysis of adaptive JPEG steganography using 2D Gabor filters[C]Proc of the 3rd ACM Workshop on Information Hiding and Multimedia Security. New York: ACM, 2015: 15-23
[25]Sch?lkopf B, Smola A J. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond[M]. Cambridge: MIT Press, 2002
[26]馮悅. 多元混合圖像的特征分析與取證研究[D]. 大連: 大連理工大學, 2015
[27]李星, 張濤, 何贊園, 等. 結(jié)合重壓縮檢測的JPEG圖像多類隱寫分析[J]. 應(yīng)用科學學報, 2013, 31(2): 190-196
[28]曾利凱, 白雪葵, 孔祥維, 等. 基于多任務(wù)學習的JPEG圖像信息隱藏分析[COL]第11屆全國信息隱藏暨多媒體信息安全學術(shù)大會CIHW2012論文集. 2012 [2016-04-01]. http:d.wanfangdata.com.cnConference8310750
[29]Pasquet J, Bringay S, Chaumont M. Steganalysis with cover-source mismatch and a small learning database[C]Proc of Signal Processing Conf. Piscataway, NJ: IEEE, 2014: 2425-2429
[30]Ker A D, Pevny T. A mishmash of methods for mitigating the model mismatch mess[C]Proc of Society of Photo-Optical Instrumentation Engineers (SPIE) Conf Series. Bellingham, WA: SPIE, 2014: 79-85
[31]Li X, Kong X, Wang B, et al. Generalized transfer component analysis for mismatched JPEG steganalysis[C]Proc of IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2013: 4432-4436
[32]Zeng L, Kong X, Li M, et al. JPEG quantization table mismatched steganalysis via robust discriminative feature transformation[C]Proc of SPIE9409: Media Watermarking, Security, and Forensics 2015. Bellingham, WA: SPIE, 2015: 94090U
[33]Gul G, Kurugollu F. JPEG image steganalysis using multivariate PDF estimates with MRF cliques[J]. IEEE Trans on Information Forensics & Security, 2013, 8(8): 578-587
[34]Wu A, Feng G. Payload mismatch detection of image steganalysis using ensemble linear discriminant clustering[C]Proc of IEEE Int Conf on Signal Processing, Communications and Computing. Piscatawany, NJ: IEEE, 2015
[35]Xu X, Dong J, Wang W, et al. Robust steganalysis based on training set construction and ensemble classifiers weighting[C]Proc of IEEE Int Conf on Image Processing (ICIP). Piscataway, NJ: IEEE, 2015: 1498-1502
[36]Wu A, Feng G, Zhang X, et al. Unbalanced JPEG image steganalysis via multiview data match[J]. Journal of Visual Communication & Image Representation, 2015, 34: 103-107
[37]Dong Y, Zhang T, Xi L. Blind steganalysis method for JPEG steganography combined with the semisupervised learning and soft margin support vector machine[J]. Journal of Electronic Imaging, 2015, 24(1): 013008-013008
[38]Qian Y, Dong J, Wang W, et al. Deep learning for steganalysis via convolutional neural networks[C]Proc of SPIE9409 Media Watermarking, Security, and Forensics 2015. Bellingham, WA: SPIE, 2015: 94090J
[39]Pibre L, Pasquet J, Ienco D, et al. Deep learning is a good steganalysis tool when embedding key is reused for different images, even if there is a cover sourcemismatch[C]Proc of Media Watermarking, Security, and Forensics. Bellingham, WA: SPIE, 2016: 79-95
孔祥維
教授,博士生導師, 主要研究方向為多媒體信息安全、數(shù)字圖像處理和識別、大數(shù)據(jù)下的多媒體語義理解、多媒體知識管理和商務(wù)智能、多源信息感知和信息融合等.
kongxw@dlut.edu.cn
郭維廓
碩士研究生,主要研究方向為多媒體信息安全、 圖像語義分析和分類.
guoweikuo@mail.dlut.edu.cn
馮超禹
碩士研究生,主要研究方向為信息隱藏分析.
fengchaoyu@mail.dlut.edu.cn
張 祎
碩士研究生,主要研究方向為信息隱藏分析.
yiz@mail.dlut.edu.cn
楊明亮
碩士研究生,主要研究方向為信息隱藏分析.
yangml@mail.dlut.edu.cn
Steganalysis of the Big Data over Network
Kong Xiangwei, Guo Weikuo, Feng Chaoyu, Zhang Yi, and Yang Mingliang
(DepartmentofElectronicsandInformationEngineering,DalianUniversityofTechnology,Dalian,Liaoning116024)
With the explosive growth of information on the Internet, information security has caused wide public concern over the recent years. Steganalysis as a popular direction in the field of information security, is also facing the challenges posed by big data. The data over network always presents in huge amount and comes from multiple sources and different qualities, which makes the steganalysis methods under laboratory become invalid. This paper takes digital images as an example, at first introduces the research situation of steganalysis under laboratory environment, and then analyzes the characteristics of image under the big data over network. Steganalysis methods under laboratory always have dramatic performance decrease under the big data over network by experiment. The paper focuses on the research on the mismatch of steganalysis of the big data over networks, researches on the key technology and the latest progress form four aspects which are the research on the data set, the process on the feature, the improvement of the classifier and the change of steganalysis framework . In the end, the potential problems and future challenges of steganalysis of the big data over network are pointed out, which provide a relatively comprehensive reference basis for future research.
steganalysis; big data; network; big data security; comparison study
2016-04-12
國家自然科學基金創(chuàng)新群體基金項目(71421001);國家自然科學基金項目(61502076)
TP393.08