李曉斌,江碧濤,王生進(jìn)
(1.北京市遙感信息研究所,北京 100192; 2.清華大學(xué) 電子工程系 智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
分類是光學(xué)遙感圖像處理分析的重要內(nèi)容,在城市規(guī)劃、土地利用及環(huán)境監(jiān)測(cè)等國(guó)民經(jīng)濟(jì)建設(shè)領(lǐng)域有著廣泛的應(yīng)用。按分類粒度的不同,光學(xué)遙感圖像分類可分為基于像素和基于目標(biāo)的分類[1]。對(duì)于空間分辨率相對(duì)較低的光學(xué)遙感圖像,基于像素的分類方法常被采用[2-6],該類方法依據(jù)一定的特征對(duì)圖像中的像素逐個(gè)進(jìn)行分類。近年來(lái),隨著遙感成像技術(shù)的快速發(fā)展,光學(xué)遙感圖像空間分辨率不斷提高,基于目標(biāo)的分類逐漸成為研究熱點(diǎn),涌現(xiàn)出大量的相關(guān)文獻(xiàn)[7-8]。該類方法更多地利用了語(yǔ)義信息,將圖像中的場(chǎng)景作為一個(gè)整體進(jìn)行分類,因此常被稱作場(chǎng)景分類。
目前已有大量的光學(xué)遙感圖像場(chǎng)景分類方面的文獻(xiàn),但缺少綜述性的文獻(xiàn)。文獻(xiàn)[7-8]可看作場(chǎng)景分類方面的綜述性文獻(xiàn),但其重點(diǎn)是介紹和評(píng)測(cè)光學(xué)遙感圖像場(chǎng)景分類數(shù)據(jù)集,對(duì)于場(chǎng)景分類技術(shù)的總結(jié)不夠全面和具體。本文從場(chǎng)景分類方法、分類性能評(píng)價(jià)準(zhǔn)則和數(shù)據(jù)集和分類性能比較3個(gè)方面對(duì)光學(xué)遙感圖像場(chǎng)景分類技術(shù)進(jìn)行綜述和比較,期望能為相關(guān)從業(yè)人員提供參考和借鑒。對(duì)于場(chǎng)景分類方法,本文按所用特征的不同將其分為基于人工設(shè)計(jì)特征的方法和基于深度特征的方法。對(duì)于分類性能評(píng)價(jià)準(zhǔn)則和數(shù)據(jù)集,本文重點(diǎn)介紹常用的2種評(píng)價(jià)準(zhǔn)則和5種數(shù)據(jù)集。
影響場(chǎng)景分類性能的決定性因素是特征,按所用特征的不同,光學(xué)遙感圖像場(chǎng)景分類可分為基于人工設(shè)計(jì)特征的方法和基于深度特征的方法。
人工設(shè)計(jì)特征是指設(shè)計(jì)者針對(duì)場(chǎng)景的特點(diǎn)和分類的目的,經(jīng)精心設(shè)計(jì),直觀、顯式地提取的特征。人工設(shè)計(jì)特征通常是低層密集特征,含有大量的冗余信息,分類性能不佳。因此,特征編碼方法常被用于人工設(shè)計(jì)特征,以提高其稀疏性和旋轉(zhuǎn)、尺度等不變性,進(jìn)而提高分類性能。
1. 1. 1 人工設(shè)計(jì)特征
用于光學(xué)遙感圖像場(chǎng)景分類的人工設(shè)計(jì)特征大致可歸為3類:光譜特征、紋理特征和結(jié)構(gòu)特征。光譜特征一般只利用圖像的顏色信息,沒(méi)有考慮空間信息;而紋理特征和結(jié)構(gòu)特征考慮空間信息。以上3類特征一般組合使用,以便利用更多的信息。
常用的光譜特征包括圖像灰度值、灰度值均值和灰度值方差。文獻(xiàn)[9-11]直接利用圖像灰度值作為一種分類特征,文獻(xiàn)[12-16]則將灰度值均值和方差作為分類特征。
常用的紋理特征包括局部二值模式(Local Binary Pattern,LBP)、灰度共生矩陣(Gray-Level Co-Occurrence Matrix,GLCM)和基于形狀的不變紋理指數(shù)(Shape-Based Invariant Texture Index,SITI)等。文獻(xiàn)[17]提出一種基于顯著性的多尺度、多分辨率、多結(jié)構(gòu)LBP特征,用于光學(xué)遙感圖像場(chǎng)景分類。文獻(xiàn)[13]將GLCM作為一種分類特征。GLCM可有效描述圖像的紋理結(jié)構(gòu),由4種統(tǒng)計(jì)特征組成,包括相關(guān)性、能量、對(duì)比度和均勻性。SITI是一種基于形狀的紋理特征,利用了形狀的延伸率和緊湊度等信息,最早被用于紋理圖像檢索和分類,后被文獻(xiàn)[12-13]用于光學(xué)遙感圖像場(chǎng)景分類。
尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[18]是一種有效的用于分類的結(jié)構(gòu)特征。它最早被用于自然圖像目標(biāo)識(shí)別,具有尺度和旋轉(zhuǎn)不變性,并對(duì)視角變化、光照變化和噪聲有一定的魯棒性,后被廣泛用于自然圖像分類[19]和光學(xué)遙感圖像場(chǎng)景分類[12-17,20-22]。SIFT特征提取的主要步驟包括:① 尺度空間極值檢測(cè):搜索所有尺度上的圖像位置,通過(guò)高斯微分函數(shù)來(lái)識(shí)別潛在的對(duì)于尺度和旋轉(zhuǎn)不變的興趣點(diǎn)。② 關(guān)鍵點(diǎn)定位:在每個(gè)候選位置上,通過(guò)一個(gè)擬合模型來(lái)確定位置和尺度。關(guān)鍵點(diǎn)的選擇依賴于它們的穩(wěn)定程度。③ 方向確定:基于圖像局部的梯度方向,分配給每個(gè)關(guān)鍵點(diǎn)位置1個(gè)或多個(gè)方向。后續(xù)所有的對(duì)圖像數(shù)據(jù)的操作都相對(duì)于關(guān)鍵點(diǎn)的方向、尺度和位置進(jìn)行變換,從而提供對(duì)于這些變換的不變性。④ 關(guān)鍵點(diǎn)描述:在每個(gè)關(guān)鍵點(diǎn)周圍的鄰域內(nèi),在選定的尺度上測(cè)量圖像局部的梯度。這些梯度被變換成一種表征,這種表征容忍比較大的局部形狀的變形和光照變化。除SIFT特征外,還有其他一些用于場(chǎng)景分類的結(jié)構(gòu)特征。文獻(xiàn)[23]利用直線段作為分類特征,文獻(xiàn)[15]和文獻(xiàn)[24]分別利用小波變換和Gabor變換提取結(jié)構(gòu)特征用于場(chǎng)景分類。
1. 1. 2 人工設(shè)計(jì)特征編碼方法
從近幾年的文獻(xiàn)看,幾乎所有的人工設(shè)計(jì)特征都是經(jīng)過(guò)編碼后用于遙感圖像場(chǎng)景分類,目的是去除冗余信息,增加特征的稀疏性和旋轉(zhuǎn)、尺度等不變性,進(jìn)而提高分類性能。用于光學(xué)遙感圖像場(chǎng)景分類的人工設(shè)計(jì)特征編碼方法主要包括:視覺(jué)詞袋(Bag-Of-Visual-Words,BOVW)模型、概率主題模型(Probabilistic Topic Model,PTM)和稀疏編碼。
(1) BOVW模型
BOVW模型的基本思想:提取訓(xùn)練圖像的特征后,利用聚類方法將特征分成多個(gè)類,每個(gè)類作為一個(gè)視覺(jué)單詞,多個(gè)視覺(jué)單詞組成視覺(jué)字典;利用得到的視覺(jué)字典量化待分類圖像的特征,將待分類圖像表示為詞頻直方圖,即
BW=t1,t2,…,tM,
(1)
式中,tm為單詞m在圖像中出現(xiàn)的次數(shù);M為字典的尺寸,即字典中單詞的數(shù)量。
文獻(xiàn)[13]利用BOVW模型在直方圖層次將局部特征和全局特征有效編碼后,實(shí)現(xiàn)光學(xué)遙感圖像場(chǎng)景分類。文獻(xiàn)[25]首先利用BOVW模型建立視覺(jué)字典,然后利用稀疏主成分分析進(jìn)行特征選擇。文獻(xiàn)[23]借鑒BOVW的思想,提出一種線袋模型(Bag-Of-Lines,BOL)用于場(chǎng)景分類。BOVW模型沒(méi)有考慮圖像的空間布局,為彌補(bǔ)這一缺陷,文獻(xiàn)[20-21]對(duì)BOVW模型進(jìn)行擴(kuò)展,分別將BOVW模型與空間共生核(Spatial Co-Occurrence Kernel,SCK)和空間金字塔共生核(Spatial Pyramid Co-Occurrence Kernel,SPCK)聯(lián)合,考慮圖像的相對(duì)空間布局,提高了分類性能。
(2) PTM
PTM在BOVW模型的基礎(chǔ)上引入一個(gè)隱含變量,將圖像表示為主題的概率分布,增加了特征的語(yǔ)義信息。常用的PTM包括概率潛語(yǔ)義分析(probabilistic Latent Semantic Analysis,pLSA)和隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)。pLSA利用一個(gè)圖模型表示圖像、主題和視覺(jué)單詞之間的關(guān)系。pLSA將概率和統(tǒng)計(jì)理論與BOVW模型聯(lián)合后,共生矩陣中的每個(gè)元素可轉(zhuǎn)換成聯(lián)合概率p(wj,di),它表示的是視覺(jué)單詞wj出現(xiàn)在圖像di中的概率。根據(jù)相關(guān)概率理論,有
pwj,di=p(di)p(wj|di),
(2)
(3)
式中,{p(wj|z1),…,p(wj|zk),…,p(wj|zK)}組成一組基向量,p(zk|di)表示的是圖像的主題概率分布,即潛語(yǔ)義。這樣,利用pLSA可將圖像表示為一組向量{p(z1|di),…,p(zk|di),…,p(zK|di)},進(jìn)而用于分類。在pLSA中,圖像僅僅是主題的離散概率的超數(shù)字化表示,這會(huì)導(dǎo)致過(guò)擬合現(xiàn)象;另外,pLSA無(wú)法為訓(xùn)練樣本之外的圖像賦概率值。為解決以上問(wèn)題,LDA被提出。LDA將主題混合參數(shù)看作服從狄利克雷分布的變量,為原始的潛語(yǔ)義分布定義了一個(gè)概率函數(shù)。
文獻(xiàn)[24]利用LDA實(shí)現(xiàn)光學(xué)遙感圖像場(chǎng)景分類,并與BOVW模型進(jìn)行比較,結(jié)果表明LDA可提供更為簡(jiǎn)潔、語(yǔ)義信息更豐富的圖像表征。文獻(xiàn)[14]提出一種基于PTM的特征融合策略,將光譜特征、紋理特征和結(jié)構(gòu)特征進(jìn)行有效融合。文獻(xiàn)[15]提出一種全稀疏的PTM,克服傳統(tǒng)PTM存在的語(yǔ)義信息冗余、時(shí)間消耗大等缺點(diǎn)。
(3) 稀疏編碼
稀疏編碼的目的是利用字典和稀疏特征,以最小誤差重建輸入特征。假定輸入特征為X=x1,x2,…,xn∈Rd×n,字典為B∈Rd×p,稀疏特征為W=w1,w2,…,wn∈Rp×n,則稀疏編碼的目標(biāo)函數(shù)為:
(4)
非監(jiān)督的場(chǎng)景分類方法,一般先使用K均值聚類方法學(xué)習(xí)得到字典,然后進(jìn)行稀疏編碼,例如文獻(xiàn)[10-12,26]。文獻(xiàn)[27]使用整體投影(Ensemble Projection,EP)方法學(xué)習(xí)字典。文獻(xiàn)[28]在考慮類間可分性和類內(nèi)緊湊度的基礎(chǔ)上,提出一種距離度量學(xué)習(xí)方法。該方法首先提取圖像的SIFT特征,然后通過(guò)約束類間可分性和類內(nèi)緊湊度對(duì)特征進(jìn)行稀疏編碼。在完成特征編碼后,文獻(xiàn)[10-12]還利用池化操作進(jìn)一步降低特征的維數(shù)。
深度特征是指利用深度神經(jīng)網(wǎng)絡(luò)提取的特征。近年來(lái),深度學(xué)習(xí)[30]成為人工智能領(lǐng)域的研究熱點(diǎn),它在自然語(yǔ)言處理、自然圖像處理和棋牌游戲等領(lǐng)域取得了巨大成功,并在遙感圖像處理領(lǐng)域得到越來(lái)越廣泛的應(yīng)用。深度學(xué)習(xí)的本質(zhì)是深度神經(jīng)網(wǎng)絡(luò),用于光學(xué)遙感圖像場(chǎng)景分類的深度神經(jīng)網(wǎng)絡(luò)主要包括自動(dòng)編碼機(jī)(Auto Encoder,AE)、深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。文獻(xiàn)[31]提出一種基于視覺(jué)顯著性的非監(jiān)督特征學(xué)習(xí)方法,用于光學(xué)遙感圖像場(chǎng)景分類。該方法在學(xué)習(xí)特征時(shí),使用的是稀疏AE。文獻(xiàn)[32]使用一個(gè)具有4個(gè)隱含層的DBN進(jìn)行場(chǎng)景分類。文獻(xiàn)[33]首先利用去卷積神經(jīng)網(wǎng)絡(luò)提取特征,然后使用空間金字塔進(jìn)行特征聚合,最后利用支持向量機(jī)(Support Vector Machine,SVM)完成場(chǎng)景分類。在光學(xué)遙感圖像場(chǎng)景分類領(lǐng)域,使用最多的深度神經(jīng)網(wǎng)絡(luò)是CNN,以下首先簡(jiǎn)要介紹CNN的基本原理,然后根據(jù)所使用的CNN特征,將場(chǎng)景分類方法分為基于單一深度特征的方法和基于融合深度特征的方法。
1. 2. 1 CNN基本原理
CNN主要由卷積層、全連接層和輸出層組成。其中,卷積層執(zhí)行卷積操作,全連接層執(zhí)行點(diǎn)乘操作。卷積層和全連接層通常使用校正線性單元(rectified linear unit,ReLU)作為激活函數(shù):
yij=max(0,xij),
(5)
式中,yij和xij分別為位置i,j處的神經(jīng)元的輸出和輸入。卷積層后常跟一個(gè)池化層,執(zhí)行平均池化或最大池化操作,用于降低特征維數(shù),提高特征的平移不變性等。輸出層執(zhí)行點(diǎn)乘操作,輸出層得到特征向量x后,通常利用soft-max函數(shù)得到類概率y為:
x=x1,x2,…,xC,y=y1,y2,…,yC,
(6)
(7)
式中,C為類的數(shù)量。在訓(xùn)練過(guò)程中,CNN利用后向傳播算法,通過(guò)最小化下式所示的目標(biāo)函數(shù)來(lái)更新權(quán)重W:
(8)
近年來(lái),CNN在自然圖像分類[34]和目標(biāo)檢測(cè)[35-36]領(lǐng)域取得巨大成功,其中有代表性的CNN包括AlexNet[37],CaffeNet[38],VGGNet[39],GoogleNet[40],ResNet[41]和OverFeat[42]等。其中,VGGNet和OverFeat根據(jù)網(wǎng)絡(luò)層數(shù)的不同有多個(gè)變種,這些CNN在大型自然圖像數(shù)據(jù)集上進(jìn)行了充分訓(xùn)練,常被稱作預(yù)訓(xùn)練CNN,具有很強(qiáng)的泛化能力,可遷移到自然圖像場(chǎng)景分類。
1. 2. 2 基于單一深度特征的方法
基于單一深度特征的方法[43-48]只使用了CNN某一層的特征。常用的特征包括全連接層特征和soft-max層特征。使用全連接層特征時(shí),需要分類器與之配合,常用的分類器是SVM。使用soft-max層特征時(shí),可直接得到分類結(jié)果,不需要額外的分類器。
文獻(xiàn)[43]從一個(gè)預(yù)訓(xùn)練CNN的最后一個(gè)全連接層提取特征后,利用一個(gè)AE實(shí)現(xiàn)光學(xué)遙感圖像場(chǎng)景分類。文獻(xiàn)[44]對(duì)CaffeNet調(diào)優(yōu)后,直接利用其soft-max層特征完成場(chǎng)景分類。文獻(xiàn)[45]將AlexNet、VGGNet和GoogleNet應(yīng)用于光學(xué)遙感圖像場(chǎng)景分類,并提出了2種分類策略:① 利用CNN的最后一個(gè)全連接層的特征和SVM;② 對(duì)CNN調(diào)優(yōu)后,利用soft-max層特征。文獻(xiàn)[46]基于遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)技術(shù),對(duì)CaffeNet、GoogleNet和RestNet調(diào)優(yōu)后實(shí)現(xiàn)場(chǎng)景分類。文獻(xiàn)[47]將AlexNet、CaffeNet和OverFeat等應(yīng)用于光學(xué)遙感圖像場(chǎng)景分類,并使用了多種策略:直接利用預(yù)訓(xùn)練CNN的soft-max層特征進(jìn)行分類;直接利用預(yù)訓(xùn)練CNN的全連接層特征和SVM進(jìn)行分類;對(duì)CNN調(diào)優(yōu)后,利用soft-max層特征進(jìn)行分類;對(duì)CNN調(diào)優(yōu)后,利用全連接層特征和SVM進(jìn)行分類。結(jié)果表明,最后一種策略的分類性能最佳。文獻(xiàn)[48]聯(lián)合AlexNet的全連接層特征和極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)實(shí)現(xiàn)場(chǎng)景分類。
1. 2. 3 基于融合深度特征的方法
基于融合深度特征的方法[49-56]通過(guò)融合1個(gè)或多個(gè)CNN的不同層的特征,增加融合特征的信息量,提高分類性能。該類方法融合的特征主要是全連接層特征和卷積層特征。與基于單一深度特征的方法不同,基于融合深度特征的方法一般直接使用預(yù)訓(xùn)練CNN,即不進(jìn)行調(diào)優(yōu)。
文獻(xiàn)[49]通過(guò)串聯(lián)的方式將OverFeat和CaffeNet的全連接層特征融合后,大幅提高了分類性能。文獻(xiàn)[50]將OverFeat的2個(gè)全連接層的特征串聯(lián)后輸入到一個(gè)專門設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò),對(duì)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練后,利用其soft-max層特征實(shí)現(xiàn)分類。文獻(xiàn)[51]利用判別相關(guān)性分析(Discriminant Correlation Analysis,DCA)融合VGGNet的,2個(gè)全連接層的特征,在保持分類精度基本不變的同時(shí)降低了特征維數(shù)。文獻(xiàn)[52]借鑒BOVW模型的思想,提出一種卷積特征袋方法用于光學(xué)遙感圖像場(chǎng)景分類,將CNN的卷積層特征以特征袋的方式進(jìn)行融合。文獻(xiàn)[55]首先將CaffeNet的卷積層和全連接層的特征融合,得到一種新的特征,然后利用VGGNet得到另一種新的特征,最后采用線性組合的方法將2種新的特征融合。文獻(xiàn)[56]以VGGNet和ResNet為研究對(duì)象,首先對(duì)卷積層特征進(jìn)行編碼和降維,得到一種全局特征;然后對(duì)全連接層特征進(jìn)行池化,得到另一種全局特征;最后將2種全局特征串聯(lián)后用于光學(xué)遙感圖像場(chǎng)景分類。
光學(xué)遙感圖像場(chǎng)景分類常用的性能評(píng)價(jià)準(zhǔn)則是全局精度(overall accuracy,OA)和混淆矩陣(confusion matrix)。OA的定義如下:
(9)
式中,C為類的數(shù)量;Mi為屬于第i類且被正確分為第i類的樣本數(shù)量;Ni為屬于第i類的樣本總數(shù)量?;煜仃嚨亩x如下:
aij=Mij/Ni,
(10)
式中,aij為混淆矩陣中第i行、第j列的元素;Mij為屬于第i類、但被分為第j類的樣本數(shù)量;Ni為屬于第i類的樣本總數(shù)量。
光學(xué)遙感圖像場(chǎng)景分類常用的數(shù)據(jù)集包括UC Merced[21],WHU-RS[57],AID[7]和NWPU-RESISC45[8]等。UC Merced數(shù)據(jù)集中的圖像為機(jī)載圖像,包含農(nóng)田、飛機(jī)和棒球場(chǎng)等21類場(chǎng)景,每類場(chǎng)景有100幅圖像,圖像大小均為256×256像素,空間分辨率為0. 3 m。WHU-RS數(shù)據(jù)集采集自Google Earth,包含機(jī)場(chǎng)、海灘和橋梁等19類場(chǎng)景,每類場(chǎng)景有50幅圖像,圖像大小均為600×600像素。AID數(shù)據(jù)集包含機(jī)場(chǎng)、裸地和棒球場(chǎng)等30類場(chǎng)景,每類場(chǎng)景中的圖像數(shù)量從220~440不等,圖像大小均為600×600像素,空間分辨率從0. 5~8 m不等。NWPU-RESISC45數(shù)據(jù)集包含飛機(jī)、機(jī)場(chǎng)和棒球場(chǎng)等45類場(chǎng)景,每類場(chǎng)景有700幅圖像,圖像大小均為256×256像素,空間分辨率從0. 2~30 m不等。其中,UC Merced數(shù)據(jù)集的示例圖像如圖1所示。
圖1 UC Merced數(shù)據(jù)集示例
UC Merced數(shù)據(jù)集是應(yīng)用最廣泛的光學(xué)遙感圖像場(chǎng)景分類數(shù)據(jù)集,同時(shí)考慮到同一分類方法的性能在不同的數(shù)據(jù)集上是基本一致的,本文基于該數(shù)據(jù)集對(duì)場(chǎng)景分類方法進(jìn)行性能比較,如表1所示。
表1 基于UC Merced數(shù)據(jù)集的分類性能比較
從表1可以看出,基于深度特征的方法的分類性能在總體上優(yōu)于基于人工設(shè)計(jì)特征的方法,且基于融合深度特征的方法的分類性能優(yōu)于基于單一深度特征的方法。從表1還可以看出,UC Merced數(shù)據(jù)集上的分類性能已經(jīng)接近飽和,后續(xù)應(yīng)重點(diǎn)使用NWPU-RESISC45和AID數(shù)據(jù)集。
光學(xué)遙感圖像場(chǎng)景分類技術(shù)是遙感圖像處理分析領(lǐng)域的研究熱點(diǎn),本文對(duì)近年來(lái)公開(kāi)發(fā)表的相關(guān)文獻(xiàn)進(jìn)行了分析和總結(jié),期望能為相關(guān)從業(yè)人員提供參考和借鑒。得益于公開(kāi)的數(shù)據(jù)集和統(tǒng)一的性能評(píng)價(jià)準(zhǔn)則,光學(xué)遙感圖像場(chǎng)景分類技術(shù)不斷發(fā)展,從基于人工設(shè)計(jì)特征的方法發(fā)展到基于深度特征的方法,分類性能也不斷提高,在UC Merced數(shù)據(jù)集上的分類精度由約95%提高到99%以上?;谏疃忍卣鞯姆椒ǚ诸愋阅茈m然相對(duì)較好,但對(duì)訓(xùn)練數(shù)據(jù)的依賴性較強(qiáng),需要大量的樣本對(duì)算法進(jìn)行訓(xùn)練或調(diào)優(yōu)。當(dāng)增加新的場(chǎng)景類型時(shí),同樣需要進(jìn)行訓(xùn)練或調(diào)優(yōu)。后續(xù)應(yīng)重點(diǎn)加強(qiáng)無(wú)監(jiān)督和弱監(jiān)督的場(chǎng)景分類方法研究,提高算法的泛化能力和在實(shí)際應(yīng)用中的魯棒性。