趙曉蕾 張 菁,2 卓 力,2 陳 璐 耿文浩 周倩蘭 張 潔
1.北京工業(yè)大學(xué)信息學(xué)部 北京 100124 2.北京工業(yè)大學(xué)計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100124 3.中國地質(zhì)大學(xué)(武漢)資源學(xué)院資源信息工程系 武漢 430074
成像光譜技術(shù)是一種可以同時(shí)獲取目標(biāo)地物圖像和光譜曲線的技術(shù),本文主要研究遙感領(lǐng)域的成像光譜圖像(Spectral imagery).由于成像光譜圖像
具有很高的空間分辨率和豐富的光譜信息,包括從可見光到短波紅外波段范圍內(nèi)的數(shù)十個(gè)甚至上百個(gè)光譜波段,在城市規(guī)劃、環(huán)境監(jiān)測、軍事偵查、生態(tài)研究等領(lǐng)域發(fā)揮著重要的作用.隨著光譜成像技術(shù)的迅猛發(fā)展,產(chǎn)生了大量的成像光譜圖像數(shù)據(jù)[1],數(shù)據(jù)量呈指數(shù)增長,以中國自行研制的實(shí)用型模塊化成像光譜儀(Operational modular imaging spectrometer,OMIS)數(shù)據(jù)為例,一幅圖像的數(shù)據(jù)量就高達(dá) 400 MB 以上.如何高效地組織和管理海量的成像光譜圖像數(shù)據(jù)成為遙感影像領(lǐng)域的一個(gè)挑戰(zhàn)性問題[2-3].基于內(nèi)容的成像光譜圖像檢索技術(shù)是近年來的研究熱點(diǎn),通過利用圖像內(nèi)容特性(如紋理、空間和光譜等),從海量數(shù)據(jù)庫中尋找和返回用戶感興趣的圖像,為組織和管理海量成像光譜圖像提供了一種有效的技術(shù)手段和方法[4].傳統(tǒng)的采用手工設(shè)計(jì)特征的圖像檢索方法,由于一直未能很好地解決低層特征和和高層語義之間的語義鴻溝問題,難以形成對成像光譜圖像有效的特征表達(dá),從而制約了成像光譜圖像檢索技術(shù)的進(jìn)一步發(fā)展[5].深度學(xué)習(xí)(Deep learning)技術(shù)迅猛發(fā)展,它通過建立多層彈性的非線性映射來模擬人腦多層次認(rèn)知機(jī)理,最終實(shí)現(xiàn)多層次的特征表達(dá),為成像光譜圖像的特征提取與表示提供了新的研究思路[6].然而現(xiàn)有的成像光譜圖像檢索技術(shù)所關(guān)注的是如何設(shè)計(jì)有效的機(jī)制來提高檢索性能,往往忽略了圖像內(nèi)容的安全性問題.針對海量成像光譜圖像,如何在保證圖像檢索性能的同時(shí),有效地保障成像光譜圖像的安全性則具有重要的實(shí)際研究意義和廣泛的工程應(yīng)用價(jià)值.近年來,研究者已經(jīng)開始探索加密域(Encryption domain)的圖像檢索,即對加密圖像直接進(jìn)行特征相似性匹配,在一定程度上兼顧了安全和檢索效率[7].
本文將總結(jié)近年來基于內(nèi)容的成像光譜圖像安全檢索的主要技術(shù),并討論其發(fā)展、挑戰(zhàn)和應(yīng)用.本文的結(jié)構(gòu)安排如下:第1 節(jié)介紹成像光譜圖像的特征提取與表示;第2 節(jié)介紹主要的特征降維技術(shù);第3 節(jié)介紹加密域圖像安全檢索技術(shù);第4 節(jié)介紹圖像安全檢索的性能評價(jià)準(zhǔn)則;最后為結(jié)論與展望.
成像光譜圖像從可見光和不可見光波段對地物成像,蘊(yùn)含了豐富的地物光譜信息,可以精細(xì)表達(dá)地物.與自然圖像相比,成像光譜圖像不僅包含了低層視覺特征,還包括其特有的光譜特征[8].近年來,人工智能領(lǐng)域的最新研究成果——深度學(xué)習(xí)技術(shù)的提出,被證明在自然圖像的特征提取表示上具有更高的語義性和抽象性.鑒于深度學(xué)習(xí)在特征表達(dá)的突破性進(jìn)展,一些學(xué)者們開始研究成像光譜圖像的深度特征表示方法[9].
傳統(tǒng)的成像光譜圖像主要采用紋理、形狀以及光譜等手工設(shè)計(jì)特征進(jìn)行表示.
1.1.1 視覺特征
成像光譜圖像的信息融合了空間域和光譜域,是一種特殊的三維立方體圖像,其中空間域中含有類似于自然圖像的視覺特征,例如紋理特征、形狀特征等[10].
紋理特征通過像素及其周圍領(lǐng)域的灰度分布來表示,具有周期性特點(diǎn),可以體現(xiàn)出成像光譜圖像物體表面的緩慢變化和周期性結(jié)構(gòu)變化[11].紋理特征描述方法主要有統(tǒng)計(jì)方法、幾何法、模型法、信號處理法等[12].Tan 等[13]利用灰度共生矩陣法提取降維后第一個(gè)主波段圖像的紋理特征,通過結(jié)合光譜特征和空間自相關(guān)特征,分類準(zhǔn)確率達(dá)到93.14%.
形狀特征是描述地物目標(biāo)的一種重要特征,不同的地物目標(biāo)具有明顯可區(qū)分的形狀.Benediktsson 等[14]用數(shù)學(xué)形態(tài)學(xué)形成了多尺度的空間特征剖面,提取地物的空間特征進(jìn)行分類,準(zhǔn)確率達(dá)到97.2%.Segl 等[15]用種子點(diǎn)填充和迭代的方式,結(jié)合不同地物的形狀模板提取成像光譜圖像的形狀特征,這種方法可以將城市中的建筑物和其鄰近的開放空間分隔開,實(shí)現(xiàn)了城市地表覆蓋類型的空間分布.由于成像光譜圖像獲得的地物目標(biāo)較小,因而邊緣可能很模糊、形狀表達(dá)不明顯,易受旋轉(zhuǎn)、平移等變換的影響.
1.1.2 光譜特征
光譜特征是成像光譜圖像區(qū)別于普通圖像的一個(gè)獨(dú)有的特征,反映了成像光譜圖像中地物的反射率隨入射波長變化的規(guī)律,具有很好的表達(dá)能力.成像光譜圖像中的地面輻射或發(fā)射信號數(shù)據(jù)是以像元為單位的,每個(gè)像元通常代表不同的覆蓋地物,不同地物對應(yīng)不同的光譜曲線.常采用提取端元來表示光譜特征,經(jīng)典的方法有N-FINDR 算法、迭代誤差分析法、純像元指數(shù)法等.Plaza 等[16]利用NFINDR 算法將端元問題轉(zhuǎn)化為求單形體的頂點(diǎn),通過體積的不斷膨脹求出端元作為光譜特征,當(dāng)圖像內(nèi)容較為復(fù)雜時(shí),提取的結(jié)果不穩(wěn)定.王強(qiáng)[17]使用迭代方法,得出具有光譜相似性和空間相關(guān)性的聚類分區(qū),實(shí)驗(yàn)證明此方法能夠提取準(zhǔn)確的端元.純像元指數(shù)法將光譜空間的像元進(jìn)行投影,投影后的端點(diǎn)是純凈像元,增加對應(yīng)的像元指數(shù),選取像元指數(shù)最大的為端元.Wang 等[18]對純像元指數(shù)法進(jìn)行了改進(jìn),提出了自動純像元指數(shù)法(Automatic pure pixel index,APPI),提高了算法的穩(wěn)定性,并且實(shí)現(xiàn)了自動化.然而,自動純像元指數(shù)法在投影過程中存在圖像弱信號被忽略的問題,會影響提取端元的全面性.我們已有的研究工作改進(jìn)了自動純像元指數(shù)法中投影向量的生成過程,提出了一種改進(jìn)的自動純像元指數(shù)法[19]來生成像元投影向量,克服了原方法提取端元不全面的問題.
現(xiàn)有的很多研究往往采用融合多種特征的方式來表示成像光譜圖像.我們已有工作中設(shè)計(jì)了一個(gè)基于多特征的成像光譜圖像檢索系統(tǒng)[20-21],利用改進(jìn)的自動純凈像元指數(shù)法提取成像光譜圖像端元光譜特征,端元提取的流程如圖1所示,然后利用灰度共生矩陣提取圖像的紋理特征,將兩種特征融合共同表示圖像,完成成像光譜圖像的檢索[21].實(shí)驗(yàn)
圖1 成像光譜圖像端元提取流程Fig.1 The flowchart of end member extraction of spectral imagery
表明,這種融合多種特征的方法可以提取出更全面的圖像端元種類,檢索平均查準(zhǔn)率達(dá)到80.32%.
在特征表示方面,我們的另一個(gè)工作提出了用光譜單詞來表示成像光譜圖像[22-25].如圖2所示,首先利用可見光譜分割法對成像光譜圖像進(jìn)行光譜分割,將可見光譜段圖像合成灰度圖像提取尺度不變特征變換(Scale-invariant feature transform,SIFT)特征;然后利用最小噪聲分離(Minimum noise fraction,MNF)變換對圖像進(jìn)行降維,基于改進(jìn)的APPI 算法提取圖像的端元作為光譜特征;最后利用K 均值聚類分別對SIFT 特征與光譜特征聚類,構(gòu)建出光譜單詞,成像光譜圖像與其對應(yīng)的光譜單詞直方圖如圖3所示.進(jìn)一步,我們采用光譜單詞進(jìn)行成像光譜圖像檢索,實(shí)驗(yàn)得到的檢索查準(zhǔn)率達(dá)到了83.26%[25],說明光譜單詞特征具有很好的圖像描述能力.
圖2 光譜單詞特征構(gòu)建流程Fig.2 The flowchart of spectral words creation
圖3 成像光譜圖像與其光譜單詞直方圖Fig.3 The spectral imagery and the histogram of the spectral words
近年來,深度學(xué)習(xí)可以從大量圖像中自動地學(xué)習(xí)特征,包含有成千上萬的參數(shù),已經(jīng)廣泛應(yīng)用于語音識別[26]、目標(biāo)識別和檢測[27]、自然語言處理[28]、人體姿態(tài)估計(jì)[29-32]等各個(gè)領(lǐng)域.在大數(shù)據(jù)的背景下,利用復(fù)雜強(qiáng)大的深度學(xué)習(xí)模型對大規(guī)模成像光譜圖像數(shù)據(jù)進(jìn)行訓(xùn)練,可以從根本上揭示圖像中潛在的豐富的數(shù)據(jù)信息,從而得到大量更具代表性的特征[33].深度學(xué)習(xí)方法主要分為有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)兩種特征學(xué)習(xí)方式,有監(jiān)督學(xué)習(xí)的方式主要依賴于對大量有標(biāo)注圖像的訓(xùn)練[34],由于成像光譜圖像數(shù)據(jù)量大、標(biāo)記困難,常采用無監(jiān)督的深度特征提取方法.常用的無監(jiān)督方法有自動編碼(Auto-encoder,AE)、深度置信網(wǎng)絡(luò)(Deep belief network,DBN)和深度卷積生成對抗網(wǎng)絡(luò)(Deep convolutional generative adversarial network,DCGAN)等.
1.2.1 自動編碼方法
自動編碼AE 方法是深度學(xué)習(xí)中一種典型的算法,是由Rumelhart 于1986年提出的[35],通過無監(jiān)督學(xué)習(xí)進(jìn)行逐層訓(xùn)練,能夠很好地表示數(shù)據(jù)空間的固有幾何結(jié)構(gòu).例如,Zhang 等[36]提出了一種無監(jiān)督的遞歸自動編碼機(jī)(Recursive auto encoders,RAE)的深度網(wǎng)絡(luò)模型,提取成像光譜圖像的深度光譜-空間特征,分類準(zhǔn)確率可以達(dá)到80%.張洪群等[33]用稀疏自動編碼在未標(biāo)注的遙感圖像上得到特征字典,使用訓(xùn)練出來的特征字典進(jìn)行卷積和池化,得到每幅圖像的特征圖,檢索準(zhǔn)確率達(dá)到90.6%.
自動編碼方法在無監(jiān)督學(xué)習(xí)和非線性特征提取過程中起到了至關(guān)重要的作用,最大的優(yōu)點(diǎn)是模型的表達(dá)能力強(qiáng),可以保證輸出數(shù)據(jù)和輸入數(shù)據(jù)基本一致,降低了隱含層的維度,但是傳統(tǒng)的自動編碼方法在隱含層提取特征時(shí)會出現(xiàn)激活節(jié)點(diǎn)數(shù)相同,造成特征的區(qū)分度不大等情況.
1.2.2 深度置信網(wǎng)絡(luò)
深度置信網(wǎng)絡(luò)DBN 是由多層無監(jiān)督的限制玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)網(wǎng)絡(luò)和一層有監(jiān)督的反向傳播(Back propagation,BP)網(wǎng)絡(luò)組成[37].Hinton 等[38]首先利用DBN 對MNIST 手寫數(shù)字圖片提取特征進(jìn)行識別,正確率達(dá)到98.8%,說明了DBN 模型可用于提取成像光譜圖像特征.Jiang 等[39]利用DBN 提取成像光譜圖像的特征,首先使用多層的RBM 進(jìn)行非監(jiān)督學(xué)習(xí),之后有監(jiān)督地微調(diào)網(wǎng)絡(luò)參數(shù),提取出圖像特征進(jìn)行分類,在Indian Pine 數(shù)據(jù)集上分類準(zhǔn)確率達(dá)到了99.23%.
深度置信網(wǎng)絡(luò)靈活性很好,在小目標(biāo)檢測上具有較高的精度,適用于大尺寸成像光譜圖像中面積較小地物特征的提取.但是只對輸入一維數(shù)據(jù)的建模效果較好,處理圖像時(shí)需要將其圖像矩陣一維向量化.
1.2.3 深度卷積生成對抗網(wǎng)絡(luò)
深度卷積生成對抗網(wǎng)絡(luò)DCGAN 是一種由生成模型和判別模型組成的無監(jiān)督深度學(xué)習(xí)模型,用來生成新的樣本以擴(kuò)充數(shù)據(jù)[40].DCGAN 網(wǎng)絡(luò)能夠用圖生成圖的方式生成相似樣本,說明DCGAN 網(wǎng)絡(luò)模型在生成樣本的過程中利用其中的卷積結(jié)構(gòu)無監(jiān)督地學(xué)習(xí)到了具有較強(qiáng)圖像內(nèi)容表征能力的特征.為此,我們提出將DCGAN 用于成像光譜圖像實(shí)現(xiàn)無監(jiān)督的深度特征提取.DCGAN 網(wǎng)絡(luò)中的生成器由一系列反卷積組成,用于生成圖像,判別器由一系列卷積層組成,用于對生成的圖像進(jìn)行判別.
我們已有工作提出利用DCGAN 提取成像光譜圖像的深度特征[41–42],對圖像內(nèi)容進(jìn)行特征表示.提取深度光譜-空間特征的DCGAN 網(wǎng)絡(luò)模型如圖4所示,主要分為三部分:
1)光譜-空間向量獲取.首先手工選擇成像光譜圖像的純凈像元,提取出純凈像元的光譜向量,然后對原圖像進(jìn)行1 BT 變換得到主分量波段,選擇純凈像元的鄰域像素作為空間向量,用向量疊加的方式把兩者融合成為光譜-空間向量.
2)DCGAN 網(wǎng)絡(luò)模型訓(xùn)練.DCGAN 網(wǎng)絡(luò)模型由生成器和判別器兩部分組成,如圖4所示.傳統(tǒng)的DCGAN 網(wǎng)絡(luò)模型主要用于生成樣本,生成器的輸入是一個(gè)100 維均勻分布的向量,通過4 層反卷積生成樣本,判別器的輸入是生成樣本或者真實(shí)樣本,通過4 層卷積結(jié)構(gòu),輸出是判斷為真實(shí)樣本的概率.由于傳統(tǒng)的DCGAN 網(wǎng)絡(luò)模型不能直接用來進(jìn)行特征學(xué)習(xí),而判別器中卷積結(jié)構(gòu)在圖像特征表示方面具有強(qiáng)大能力,為此,我們對傳統(tǒng)DCGAN網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),采用去掉全連接層的判別器,通過最大池化來提取輸入樣本的深度特征.首先將光譜-空間向量作為DCGAN 網(wǎng)絡(luò)模型判別器的輸入,在判別器中對四個(gè)卷積特征(Conv1,Conv2,Conv3,Conv4)分別做最大池化,將四個(gè)池化(Max pooling 1,Max pooling 2,Max pooling 3,Max pooling 4)輸出的深度光譜-空間特征進(jìn)行級聯(lián),得到成像光譜圖像的深度光譜-空間特征.其中,采用最大池化的原因是由于特征圖大小不等、數(shù)量過多,直接級聯(lián)會導(dǎo)致特征維數(shù)過高,為了方便級聯(lián)的同時(shí)降低特征維數(shù),需要把每一層卷積層的特征圖進(jìn)行最大池化輸出再級聯(lián).
圖4 用于提取深度光譜-空間特征的DCGAN 網(wǎng)絡(luò)模型Fig.4 The DCGAN model for extracting deep spectral-spatial features
3)深度光譜-空間特征提取.按照1)的方法提取圖像的光譜向量和空間向量,用向量疊加的方式把兩者融合成為光譜-空間向量,最后輸入到訓(xùn)練好的DCGAN 網(wǎng)絡(luò)模型里獲取成像光譜圖像的深度光譜-空間特征.
我們對比了五種特征表示方法測試了圖像檢索的查準(zhǔn)率和查全率[42-43],如圖5所示.第1 種是我們之前的方法,用APPI 提取的端元和紋理特征相結(jié)合[20],記為M.APPI,平均查準(zhǔn)率為78.49%;第2 種是結(jié)合光譜特征和空間特征[44],記為M.SS,平均查準(zhǔn)率為73.22%;第3 種是利用端元來表示圖像的方法[45],記為M.EM,平均查準(zhǔn)率為73.18%;第4 種是用DBN 提取深度光譜空間特征的方法[46],記為M.DBN,平均查準(zhǔn)率為81.33%;第5 種是我們利用DCGAN 網(wǎng)絡(luò)提取深度光譜空間特征的方法[42-43],記為M.DSS,平均查準(zhǔn)率為86.49%.可以看出利用DCGAN 提取深度特征進(jìn)行檢索的性能要優(yōu)于其他的方法.
圖5 五種方法的查準(zhǔn)查全率曲線Fig.5 The precision-recall curves of five different methods
傳統(tǒng)的手工設(shè)計(jì)特征提取很耗時(shí),耗費(fèi)大量人力,主要依賴于大量的先驗(yàn)知識,在成像光譜圖像數(shù)量龐大和具有大量復(fù)雜信息的情況下是難以完成的.手工設(shè)計(jì)特征可以有效地表示圖像低層次的特征,但難以表達(dá)圖像更高層語義的內(nèi)容,而深度特征對圖像的描述能力更強(qiáng),可以獲得更好的檢索效果.
成像光譜圖像作為一種復(fù)雜的三維立方體數(shù)據(jù),包含數(shù)十到數(shù)百個(gè)光譜波段,含有大量冗余信息,內(nèi)容表示會產(chǎn)生較高維度的特征,特別是深度特征表示,更加重了成像光譜圖像的“維度災(zāi)難”問題,會影響檢索效率.特征降維是為了去除特征中的冗余信息,最大保留有效信息,最終實(shí)現(xiàn)對特征數(shù)據(jù)維度的一種有效約簡技術(shù),而有效的降維技術(shù)可以提高特征的表達(dá)能力、簡化計(jì)算機(jī)存儲和提高檢索計(jì)算效率[42-43,47].特征降維技術(shù)主要包括主成分分析方法(Principal component analysis,PCA)、最小噪聲分離(Minimum noise fraction,MNF)、投影尋蹤(Projection pursuit,PP)以及非線性流形學(xué)習(xí)(Nonlinear manifold learning,NML)等.
主成分分析方法PCA 是一種經(jīng)典的無監(jiān)督降維方法[47],在成像光譜圖像處理中運(yùn)用比較廣泛.通過線性變換把原數(shù)據(jù)轉(zhuǎn)化成一組線性無關(guān)的表示,提取主要特征分量替代原始高維數(shù)據(jù),從而實(shí)現(xiàn)降維,在圖像分類、檢索中得到了廣泛的應(yīng)用.Plaza 等[48]對原始光譜圖像降維,提取出主要的幾個(gè)波段,然后再提取主要波段的光譜特征.Emre 等[49]提取空間特征向量,首先用PCA 對圖像進(jìn)行降維,在每個(gè)PCA 段的子窗口分別提取SIFT 描述符.但是PCA 在處理成像光譜圖像時(shí),降維過程中存在兩個(gè)缺點(diǎn):一方面圖像特征輸入數(shù)值的變化會對降維結(jié)果產(chǎn)生明顯的影響,穩(wěn)定性差;另外此變換對噪聲比較敏感,信息量大的主成分分量,信噪比不一定高.
最小噪聲分離MNF 本質(zhì)上是含有兩次疊加處理的主成分分析,第一次變換用于分離和重新調(diào)節(jié)數(shù)據(jù)中的噪聲,第二次是對噪聲白化數(shù)據(jù)的標(biāo)準(zhǔn)主成分變換[47,50].不像PCA 變換按照方差由大到小排列,克服了噪聲對圖像質(zhì)量的影響.但采用基于空間特征進(jìn)行噪聲估計(jì)的MNF 進(jìn)行圖像降維時(shí),第一主成分往往不是重要性程度最高的,即不能保證各成分按照真實(shí)的重要程度進(jìn)行排序,在降維過程中得到的結(jié)果并不是最優(yōu)的.Nielsen[51]提出了核MNF,通過核函數(shù)將樣本變換為核函數(shù)矩陣映射到高維特征空間,在特征空間中進(jìn)行線性MNF 運(yùn)算,不僅可以使圖像各波段間的信號正交化,同時(shí)也使噪聲正交化,彌補(bǔ)了MNF 處理非線性問題的不足.
PCA 方法能夠保留背景信息,且對數(shù)據(jù)壓縮明顯,大大減少了計(jì)算量.MNF 變換可以將噪聲從波段中分離,在實(shí)現(xiàn)降維的同時(shí)抑制噪聲對圖像的影響,適用于噪聲在圖像各個(gè)波段分布不均勻的現(xiàn)象.我們已有工作結(jié)合兩種方法對成像光譜圖像進(jìn)行并行降維變換,變換后得到兩種成分分量的圖像,不僅消除了原始圖像的噪聲,還保留了圖像的全局特征[50].
投影尋蹤PP 方法屬于直接由樣本數(shù)據(jù)驅(qū)動的探索性數(shù)據(jù)分析方法,是一種專門處理高維數(shù)據(jù)的降維方法.王強(qiáng)[17]主要思想是把高維數(shù)據(jù)映射到可視子空間上,尋找到一個(gè)能反映高維數(shù)據(jù)結(jié)構(gòu)或特征的投影,通過分析和研究投影數(shù)據(jù)達(dá)到了解原始數(shù)據(jù)的目的.PP 算法用一維統(tǒng)計(jì)方法解決了成像光譜圖像特征維數(shù)過高的問題,但是存在計(jì)算量過大、高度非線性問題研究效果不好的缺點(diǎn).
流形學(xué)習(xí)是處理非線性降維的主要方法之一,從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,從而實(shí)現(xiàn)維數(shù)約簡或數(shù)據(jù)可視化[6,52].與前面的幾種方法相比較,非線性流形學(xué)習(xí)考慮了數(shù)據(jù)的局部結(jié)構(gòu).成像光譜圖像的光譜分辨率很高,數(shù)據(jù)在高維空間中是呈非線性分布的,因此成像光譜圖像的高維數(shù)據(jù)更適合采用非線性的降維方法處理.
現(xiàn)有的非線性流形學(xué)習(xí)NML 方法包括等度量映射(Isometric mapping,ISOMAP)[53]、局部線性嵌入(Locally linear embedding,LLE)[54]和隨機(jī)近鄰嵌入(Stochastic neighbor embedding,SNE)[55]等.ISOMAP 的優(yōu)點(diǎn)是對單一流形結(jié)構(gòu)降維過程能夠判斷出流形的內(nèi)在維數(shù),對于特定數(shù)據(jù)集如人臉數(shù)據(jù)集效果比較好,缺點(diǎn)在于無法定義樣本空間到嵌入空間的映射,不能直接得到未知點(diǎn)的映射值.與ISOMAP 不同,LLE 是通過局部線性的擬合得到內(nèi)在的全局線性結(jié)構(gòu),該算法不用計(jì)算距離矩陣,求解過程簡單,但是需要在嵌入空間保持近鄰數(shù)據(jù)間的順序,得出求取近鄰數(shù)據(jù)的權(quán)值求解方法,但對于這一權(quán)值矩陣的使用沒有固定的規(guī)則[54].SNE是Hinton 等[55]在2002年提出來的一個(gè)算法,把高維空間的歐氏距離轉(zhuǎn)化為條件概率來表示數(shù)據(jù)之間的相似性.為了優(yōu)化隨機(jī)近鄰嵌入,Hinton 等[56]提出對稱SNE(Symmetric SNE),用聯(lián)合概率代替條件概率,對稱的SNE 計(jì)算簡潔,但會引入異常值和“擁擠問題”,之后又提出t-分布領(lǐng)域嵌入算法(tdistributed stochastic neighbor embedding,t-SNE)[56],優(yōu)化了降維的效果,在高維數(shù)據(jù)降維中廣泛應(yīng)用.Du 等[57]利用ISOMAP 對成像光譜圖像的特征進(jìn)行降維處理.將ISOMAP 與MNF 方法進(jìn)行比較,發(fā)現(xiàn)ISOMAP 在光譜規(guī)范化特征值方面優(yōu)于 MNF 變換,降維后的信息量保持方面取得了很好的結(jié)果,揭示了成像光譜圖像數(shù)據(jù)的內(nèi)在非線性結(jié)構(gòu).胡英杰[58]用基于穩(wěn)定的空間信息 LLE 算法對原始的高光譜數(shù)據(jù)進(jìn)行非線性降維,然后再進(jìn)行端元的提取,這種方法獲得了較高的端元提取效果.我們已有工作利用 t-SNE 對提取到的成像光譜圖像的深度光譜-空間特征進(jìn)行降維處理[42-43].如圖6所示,首先對成像光譜圖像的深度光譜-空間特征采用模糊C 均值聚類(Fuzzy C-means,FCM)獲得聚類中心點(diǎn)作為代表數(shù)據(jù)[59],然后利用t-SNE的非線性流形方法實(shí)現(xiàn)對聚類中心點(diǎn)的降維,最后應(yīng)用歸納流形哈希實(shí)現(xiàn)全部成像光譜圖像深度光譜-空間特征的非線性流形哈希降維.
圖6 t-SNE 的降維流程圖Fig.6 The dimensionality reduction method of t-SNE based nonlinear Hashing
在我們已有工作中,提出利用哈希降維算法來提高海量成像光譜圖像的檢索效率,在實(shí)驗(yàn)中對比了4 種哈希降維方法的平均精度均值(Mean average precision,mAP)分?jǐn)?shù)來驗(yàn)證檢索性能[42-43].圖7 分別是譜哈希(Spectral Hashing,SH)[60]降維方法、自學(xué)習(xí)哈希(Self-taught Hashing,STH)[61]降維方法、圖哈希(Graph Hashing,GH)[62]降維方法和基于t-SNE 的非線性流形哈希(t-SNE-NMH)降維方法[42-43],在碼長64 比特時(shí),平均精度均值分別為43.5%、54.9%、66.45%和79.20%.從實(shí)驗(yàn)結(jié)果可以看出,我們提出的t-SNE-NMH 降維方法的mAP分?jǐn)?shù)更高,檢索性能更好.
圖7 4 種哈希降維方法的mAP 分?jǐn)?shù)Fig.7 The mAP of the four Hashing methods
隨著互聯(lián)網(wǎng)的發(fā)展和普及,信息安全問題日益突出,含有重要信息的成像光譜圖像應(yīng)具有嚴(yán)格的保密性,要確保檢索過程中不發(fā)生泄密事件[25,63].近年來,研究者已經(jīng)開始探索加密域的圖像安全檢索,即對加密圖像直接進(jìn)行特征相似性匹配,在一定程度上兼顧了安全性和檢索效率[7,64].這種方法在不解密或部分解密的情況下直接進(jìn)行檢索,為了保障圖像檢索的準(zhǔn)確性,必須使特征加密前后的相似性保持一致.加密域圖像安全檢索的基本框架如圖8所示,當(dāng)用戶輸入圖像之后,首先采用前面介紹的特征提取和數(shù)據(jù)降維方法提取圖像特征并降維,然后對特征進(jìn)行加密,之后在加密域度量加密特征間的相似度,返回相似的加密圖像,最后通過解密,得到圖像檢索結(jié)果.具有代表性的特征加密方法有同態(tài)加密、檢索索引隨機(jī)化和隨機(jī)化操作特征加密等方法.
圖8 加密域圖像安全檢索基本框架Fig.8 The framework of secure image retrieval based on feature encryption
同態(tài)加密[65]是一種允許直接對密文進(jìn)行操作
的加密變換.對經(jīng)過同態(tài)加密的數(shù)據(jù)直接進(jìn)行解密,其結(jié)果與用相同方法處理未加密的原始數(shù)據(jù)結(jié)果是一樣的.在保證特征安全性的同時(shí)可以保證特征向量間的距離不變.Gentry[66]在2009年提出了“全同態(tài)加密”算法,在不解密的條件下對加密數(shù)據(jù)進(jìn)行和明文域上相同的運(yùn)算.Vercauteren 等[67]利用全同態(tài)加密算法對圖像數(shù)據(jù)以及圖像特征進(jìn)行加密保護(hù),在加密域直接進(jìn)行相似性度量,實(shí)現(xiàn)圖像的安全檢索.在我們已有的研究工作中[68-69],提出了一種利用Paillier 同態(tài)加密算法進(jìn)行圖像安全檢索的技術(shù).首先提取圖像的顏色、形狀和紋理特征,采用局部保留投影算法(Locality preserving projections,LPP)等流形學(xué)習(xí)算法進(jìn)行降維,然后選用Paillier 同態(tài)加密算法,對整數(shù)化后的特征進(jìn)行保護(hù),在加密域進(jìn)行相似度度量,最后返回前K幅相似圖像,在查全率為0.1 時(shí),查準(zhǔn)率達(dá)到87.9%.基于同態(tài)加密的方法可以獲得很好的檢索結(jié)果以及安全性,但計(jì)算復(fù)雜度極高,檢索的效率受到很大的影響,實(shí)用性較差.
檢索索引隨機(jī)化技術(shù)有保序加密(Order preserving encryption,OPE)[70]和最小哈希(Min-Hash)[71]加密方法.OPE 方法是對倒排索引進(jìn)行OPE 加密,保留了明文的排序信息,主要包括數(shù)據(jù)分布建模、平鋪、變換三個(gè)步驟.OPE 加密數(shù)據(jù)具有單調(diào)變化性,可以使得數(shù)據(jù)保持順序不變.Min-Hash 方法是對提取的特征利用隨機(jī)Hash 函數(shù)進(jìn)行映射,保留了明文中最小哈希值相等的數(shù)量,不僅可以提供兩個(gè)數(shù)據(jù)的原始內(nèi)容是否相等的信息,同時(shí)還可以反映不相等的原始內(nèi)容之間的差異程度.其中Min-Hash 方法能有效地降低特征維度,簡化計(jì)算量,但兩種方法都存在著一定的明文信息泄露隱患.OPE 和Min-Hash 的加密方法通過Jaccard 相似性度量方法判斷特征相似程度,是用兩個(gè)集合中不同元素占所有元素的比例來衡量兩個(gè)集合的差異性.
此外,我們已有工作使用保序加密方法對成像光譜圖像的特征進(jìn)行保護(hù)[24-25],首先提取圖像紋理特征和光譜單詞特征,然后構(gòu)建圖像特征的倒排索引,最后采用保序加密算法對檢索索引進(jìn)行加密保護(hù),加密前后數(shù)據(jù)頻數(shù)的方差平均值分別為456.3164 和0.2474,加密后數(shù)據(jù)的分布更為均勻,安全性較高,加密后平均查準(zhǔn)率達(dá)到83.26%,實(shí)驗(yàn)證明基于OPE的特征加密方法獲得了很好的檢索性能.此外,Lu 等[72]采用基于詞匯樹的檢索方法,利用Min-Hash 算法對視覺詞匯進(jìn)行加密,檢索圖像時(shí),對計(jì)算出的視覺詞匯用Min-Hash 進(jìn)行信息摘要.
隨機(jī)化操作方法有基于比特平面隨機(jī)化[73]、隨機(jī)投影[74]和隨機(jī)一元編碼[75]的特征加密方法.比特平面隨機(jī)化方法是對特征向量的兩個(gè)位平面進(jìn)行相同二進(jìn)制向量的異或,或者當(dāng)兩個(gè)位平面進(jìn)行相同模式的置換時(shí),它們的漢明距離可以近似保持不變.隨機(jī)投影方法是利用特征向量在隨機(jī)投影后,相似性距離近似不變的特性,在保護(hù)圖像特征的同時(shí),實(shí)現(xiàn)圖像的安全檢索.隨機(jī)一元編碼方法是將整數(shù)特征向量通過一元編碼以二進(jìn)制形式表示,經(jīng)過異或和隨機(jī)排列操作后達(dá)到保護(hù)特征的目的.這三種加密方法采用漢明距離計(jì)算特征相似性,漢明距離指兩個(gè)相等長度向量,將其中一個(gè)變?yōu)榱硗庖粋€(gè)所需要做的最小替換次數(shù),向量的漢明距離越小說明其相似度越高.我們已有工作提出了采用比特平面隨機(jī)化的視頻加密方案[73],獲得了較好的安全性和較高的計(jì)算效率.Tang 等[74]提出基于隨機(jī)投影分割和混沌體系的圖像加密算法,將輸入圖像分成幾個(gè)重疊塊,再將其分成一組投影線,最后通過隨機(jī)投影線完成數(shù)據(jù)加密.
在上述加密方法的基礎(chǔ)上,Lu 等[76]提出了一種特征隨機(jī)化加密技術(shù),可以省去對給定特征進(jìn)行一元編碼,直接對特征進(jìn)行異或、置亂和特征維度的隨機(jī)化映射操作,此外可以保證加密前后漢明距離不變.我們已有工作采用特征隨機(jī)化加密技術(shù)對降維后的深度光譜-空間特征進(jìn)行加密[42,77],包括特征比特平面的異或和隨機(jī)置亂加密、特征維度的隨機(jī)映射加密兩部分內(nèi)容.前者是通過改變特征元素中0 和1 數(shù)量,打亂特征內(nèi)部元素的位置,破壞分布規(guī)律,達(dá)到對特征位置信息保護(hù)的目的,后者可以通過改變哈希碼的長度,實(shí)現(xiàn)對特征維度信息的保護(hù),然后選擇多索引哈希計(jì)算漢明距離檢索相似圖像,最后在系統(tǒng)檢索過程中引入了相關(guān)反饋機(jī)制,進(jìn)一步優(yōu)化檢索結(jié)果.
我們對比了保序加密和特征隨機(jī)化加密方法的檢索性能,查全率-查準(zhǔn)率如圖9所示[42,77].實(shí)驗(yàn)數(shù)據(jù)集包括5 000 幅成像光譜圖像,是由AVIRIS 高光譜成像儀獲取的美國和德國地區(qū)數(shù)據(jù),數(shù)據(jù)包含224 個(gè)光譜波段,波譜覆蓋的范圍為0.4~2.5 m,空間分辨率為20 m,光譜分辨率為10 nm,采用DCGAN 提取的深度光譜-空間特征.另外,我們比較了兩種加密方法的加密時(shí)間和檢索時(shí)間,如表1所示.在這兩種特征加密方法的比較中可以看出,特征隨機(jī)化加密方法在檢索準(zhǔn)確性和速度上都優(yōu)于保序加密.
圖9 兩種不同加密方法的查全率-查準(zhǔn)率曲線Fig.9 The precision-recall curves of two different feature encryption methods
表1 兩種不同特征加密方法的加密時(shí)間和檢索時(shí)間比較(s)Table 1 The time cost of feature encryption and retrieval between two different methods(s)
安全性能主要是指在圖像檢索過程中圖像內(nèi)容是否存在泄漏的可能,主要考慮了服務(wù)器端安全性、用戶端安全性、交互通信安全性以及密碼安全性等方面.
1)服務(wù)器端無法獲取查詢圖像的明文信息,避免了已知明文信息推斷出查詢圖像內(nèi)容,從而泄露查詢圖像信息的問題.
2)用戶端無法獲得存儲在服務(wù)器端圖像庫中的信息,避免圖像信息在用戶端泄露.
3)在檢索過程中,用戶與服務(wù)器會進(jìn)行交互通信,為避免信息在此過程中被第三方竊取,需要考慮通信過程中的安全性.
4)密碼安全性指的是加密算法抵抗各種密碼攻擊的能力,主要判斷方法有窮舉法破解和加密前后數(shù)據(jù)的分布形態(tài)[78].窮舉法與加密私鑰的長度有關(guān),加密使用的私鑰長度為S比特,窮舉次數(shù)為 2S,即窮舉攻擊次數(shù)超過108 時(shí)可以抵御窮舉攻擊[79].
比特密鑰加密前后的數(shù)據(jù)分布形態(tài)通過比較數(shù)據(jù)的相同位數(shù),越大表示分布差異性越大,安全性越高,相同位數(shù)B計(jì)算為
其中,Eb為加密前的數(shù)據(jù),Ea為加密后的數(shù)據(jù),⊕表示異或運(yùn)算,若Ea與Eb值相同,運(yùn)算結(jié)果為0,否 則結(jié)果為1.
圖像檢索性能評判標(biāo)準(zhǔn)主要采用查準(zhǔn)率(Precision)和查全率(Recall).查準(zhǔn)率反映了一個(gè)檢索算法的準(zhǔn)確性,而查全率反映了檢索算法的全面性.定義檢索結(jié)果中相似圖像的數(shù)量為 SIR(Number of similar images retrieved),檢索結(jié)果中不相似的圖像數(shù)量為 NSIR(Number of non-similar images retrieved),以及沒有檢索到的相似圖像數(shù)量為SINR(Number of similar images not retrieved)[20].查準(zhǔn)率和查全率的定義為
其中,查準(zhǔn)率P表示檢出的相關(guān)圖像與檢出的全部圖像的百分比,查全率R表示檢出的相關(guān)圖像數(shù)量與檢索系統(tǒng)中相關(guān)圖像總量的比率.
隨著成像光譜技術(shù)的迅猛發(fā)展,成像光譜圖像在城市規(guī)劃、環(huán)境監(jiān)測、軍事偵查、生態(tài)研究等領(lǐng)域發(fā)揮著必不可少的作用.成像光譜圖像承載著巨大的重要地物信息,因其龐大的信息數(shù)據(jù)量和廣泛的應(yīng)用需求,快速準(zhǔn)確地檢索出有用的信息是當(dāng)前亟需解決的問題.此外,在保證圖像安全檢索性能的基礎(chǔ)上保障圖像的安全性也是一個(gè)重要的研究任務(wù).
本文總結(jié)了目前成像光譜圖像安全檢索技術(shù)的研究現(xiàn)狀,包括特征提取與表示、特征降維和加密域安全檢索技術(shù).深層網(wǎng)絡(luò)可以提取出魯棒性更高的深度特征,從而使檢索準(zhǔn)確性更高,基于深度學(xué)習(xí)的無監(jiān)督特征提取方法在未來的研究中具有很大的潛力.非線性降維方法在減少了計(jì)算復(fù)雜度之外,還保留了成像光譜圖像數(shù)據(jù)的全局結(jié)構(gòu),在處理成像光譜圖像數(shù)據(jù)中應(yīng)用廣泛.另外特征加密技術(shù)逐漸成熟,現(xiàn)有的特征加密技術(shù)保證了檢索準(zhǔn)確率同時(shí)保障了數(shù)據(jù)的安全.成像光譜圖像安全檢索技術(shù)有很大的應(yīng)用前景,在今后的研究發(fā)展中仍存在著一些挑戰(zhàn)[80-82]:
1)今后應(yīng)該更深入考慮各種深度網(wǎng)絡(luò)模型的特點(diǎn),提取出表征能力更強(qiáng)的深度特征.針對成像光譜圖像數(shù)據(jù)量大、標(biāo)注樣本少的問題,要深入研究更多的無監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu),以利用大量的、無標(biāo)注的圖像提取深度特征.此外,如何設(shè)計(jì)有監(jiān)督的模型,充分利用有限的有標(biāo)注數(shù)據(jù)提取更具代表性的深度特征,也是未來發(fā)展的一個(gè)挑戰(zhàn).
2)成像光譜圖像信息豐富,數(shù)據(jù)量龐大,在現(xiàn)有技術(shù)的基礎(chǔ)上,針對成像光譜圖像特征數(shù)據(jù)非線性分布的特征,應(yīng)深入研究更有效的非線性降維方法,在保留原有數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,減少計(jì)算復(fù)雜度,提高檢索效率.
3)信息保護(hù)方面,在檢索過程中防止成像光譜圖像信息不被泄露是很重要的一個(gè)環(huán)節(jié).今后需要深入研究更嚴(yán)密的特征加密算法,尋找到安全性更高的特征加密策略.如何設(shè)計(jì)出保密性好、準(zhǔn)確率高的加密算法在未來的研究中是一個(gè)難點(diǎn).
4)在未來的研究中應(yīng)擴(kuò)充成像光譜圖像數(shù)據(jù)庫,提供共享服務(wù),以方便研究者投入研究.另外,可以利用有監(jiān)督的深度學(xué)習(xí)方法研究有效的自動樣本標(biāo)注方法,增加成像光譜圖像有標(biāo)注樣本的數(shù)量,利于今后的研究工作.