曾 黎,徐慧穎,陳曉昊,錢曉亮
鄭州輕工業(yè)大學(xué) 電氣信息工程學(xué)院,鄭州450002
遙感成像技術(shù)的不斷進(jìn)步,使得獲得各種分辨率(空間分辨率、光譜分辨率、輻射分辨率和時(shí)間分辨率)和更高質(zhì)量的航空或衛(wèi)星遙感圖像成為可能,而這也對(duì)遙感圖像的理解提出了更高的要求[1-2]。高分辨率遙感圖像場(chǎng)景分類是根據(jù)圖像內(nèi)容[3-4]區(qū)分遙感圖像的土地利用或覆蓋類別,為其他遙感圖像處理任務(wù)提供重要線索。此外,它在自然災(zāi)害監(jiān)測(cè)、環(huán)境探測(cè)、交通監(jiān)管、武器制導(dǎo)和城市規(guī)劃等方面發(fā)揮著重要作用[5-11]。
早期的遙感圖像場(chǎng)景分類方法基于手工特征,但手工特征在設(shè)計(jì)時(shí)需要大量相關(guān)領(lǐng)域的專業(yè)知識(shí),且在應(yīng)用時(shí)魯棒性較差,這也成為限制其發(fā)展的原因。但隨著深度學(xué)習(xí)的出現(xiàn)與發(fā)展[12-16],其由于強(qiáng)大的深層特征表示能力而逐漸取代手工特征成為場(chǎng)景分類的主流方法[17]。本文主要回顧與探討基于深度學(xué)習(xí)的場(chǎng)景分類方法,并按監(jiān)督方式對(duì)其歸納總結(jié)和綜合評(píng)估。本文的主要貢獻(xiàn)如下:
(1)依據(jù)監(jiān)督方式的不同,對(duì)現(xiàn)有基于深度學(xué)習(xí)的高分遙感圖像場(chǎng)景分類方法進(jìn)行歸納總結(jié)和定性分析;
(2)在領(lǐng)域內(nèi)三個(gè)公開(kāi)的數(shù)據(jù)集上,對(duì)三種監(jiān)督方式的流行方法進(jìn)行了定量實(shí)驗(yàn)評(píng)估。
深度學(xué)習(xí)興起之前,高分遙感圖像場(chǎng)景分類是基于手工特征的,其中以顏色直方圖(Color Histograms,CH)、尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform,SIFT)、通用搜索樹(shù)(Generalized Search Trees,GIST)等經(jīng)典的手工特征為主。但由于手工特征在設(shè)計(jì)時(shí)需要大量的先驗(yàn)知識(shí),費(fèi)時(shí)費(fèi)力,且效果較差,為了獲得更高的場(chǎng)景分類精度,后續(xù)出現(xiàn)了手工編碼特征。該類方法的主要思想是在手工特征的基礎(chǔ)上對(duì)圖像進(jìn)行更進(jìn)一步抽象。最為典型的手工編碼特征是視覺(jué)詞袋模型(Bag of Visual Words,BoVW)[18]。BoVW 首先對(duì)圖像提取到的局部手工特征進(jìn)行聚類,從而獲得一個(gè)“詞袋”,然后利用“詞袋”對(duì)圖像進(jìn)行編碼得到一個(gè)特征直方圖,以此作為圖像更高一層次的特征描述。大量的場(chǎng)景分類方法[19-23]采用BoVW 或BoVW 的改進(jìn)模型。圍繞BoVW 模型的改進(jìn)工作主要包括空間金字塔匹配(Spatial Pyramid Μatching,SPΜ)[24]、稀疏編碼空間金字塔匹配(Sparse Coding Spatial Pyramid Μatching,ScSPΜ)[25]等。雖然手工編碼特征可以提高分類精度,但也受限于底層特征的上限,精度提升有限。因此在高分遙感圖像場(chǎng)景分類任務(wù)中只利用底層特征會(huì)存在泛化能力弱、分類精度低等明顯缺點(diǎn)。
神經(jīng)網(wǎng)絡(luò)的概念是由1943 年人工神經(jīng)元模型(ΜcCulloch-Pitts Neuron,ΜCP)啟發(fā)得到的。隨后Rosenblatt 在1958 年提出了感知器算法,并使用ΜCP 模型成功對(duì)多維數(shù)據(jù)進(jìn)行了二分類,但后續(xù)實(shí)驗(yàn)表明該模型只能處理線性分類問(wèn)題。直到1986 年神經(jīng)網(wǎng)絡(luò)之父Hinton發(fā)明了反向傳播算法(Back Propagation,BP),并利用Sigmoid 進(jìn)行非線性映射,使得非線性分類問(wèn)題得到了解決。然而,此時(shí)的神經(jīng)網(wǎng)絡(luò)依然面臨著梯度消失、訓(xùn)練網(wǎng)絡(luò)耗時(shí)較長(zhǎng)、難以進(jìn)行局部最優(yōu)等問(wèn)題。
2006 年Hinton 和他的學(xué)生Salakhutdinov 在Science發(fā)表的文章[26]提出了深層網(wǎng)絡(luò)訓(xùn)練中梯度消失問(wèn)題的解決方案:首先利用無(wú)監(jiān)督方式對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,使網(wǎng)絡(luò)權(quán)重具有良好的初值,然后再利用有監(jiān)督方式對(duì)網(wǎng)絡(luò)進(jìn)行更細(xì)致的優(yōu)化,使網(wǎng)絡(luò)性能進(jìn)一步提升。隨后ReLU激活函數(shù)、AlexNet[27]等一系列新技術(shù)和網(wǎng)絡(luò)架構(gòu)被提出,使深度神經(jīng)網(wǎng)絡(luò)真正受到了廣泛的關(guān)注。
深度神經(jīng)網(wǎng)絡(luò)大致分為兩類:一類是輸入為一維向量的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN);另一類是輸入為二維圖像或三通道彩色圖像的DNN。前者的代表有深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN),后者的典型代表是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。
基于深度學(xué)習(xí)的高分遙感圖像場(chǎng)景分類方法按監(jiān)督方式可分為三類:(1)全監(jiān)督方法;(2)半監(jiān)督方法;(3)弱監(jiān)督方法。
全監(jiān)督學(xué)習(xí)又稱監(jiān)督學(xué)習(xí),是已知數(shù)據(jù)和其對(duì)應(yīng)的標(biāo)簽,然后用于網(wǎng)絡(luò)訓(xùn)練的一種方法。目前基于深度學(xué)習(xí)的高分遙感場(chǎng)景分類方法大多都可以歸為全監(jiān)督。
基于主題模型是一種有效的方法。Zhu等人[28]提出了一個(gè)自適應(yīng)深度稀疏語(yǔ)義模型(Adaptive Deep Sparse Semantic Μodeling,ADSSΜ),將主題模型和卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合,充分利用遙感圖像場(chǎng)景的多級(jí)語(yǔ)義,在語(yǔ)義層次上有效融合了稀疏主題特征和深層特征,有效提升了特征的表征能力,并以此達(dá)到更高的分類水準(zhǔn)。其他基于主題模型的方法包括文獻(xiàn)[29-31]提出的方法。
此外,Cheng等人[32]將深度學(xué)習(xí)與度量學(xué)習(xí)相結(jié)合,提出了一種新的損失函數(shù)來(lái)訓(xùn)練融合后的深層神經(jīng)網(wǎng)絡(luò)。該方法有效解決了遙感圖像場(chǎng)景分類中類內(nèi)多樣性和類間相似性的問(wèn)題,同時(shí)也極大提升了分類精度。
采用融合多層深層特征的方法來(lái)提高遙感圖像場(chǎng)景分類精度也是一種常見(jiàn)的手段。Yuan 等人[33]意識(shí)到現(xiàn)有的CNN方法大多只利用最后一個(gè)全連接層的特征向量進(jìn)行場(chǎng)景分類,而這一做法忽略了圖像的局部信息。雖然有些圖像具有相似的全局特征,但它們所屬類別不同。原因是圖像的類別可能與局部特征高度相關(guān),而不是全局特征。因此首先提取深度神經(jīng)網(wǎng)絡(luò)最后一個(gè)卷積層和最后一個(gè)全連接層的特征分別作為局部特征和全局特征,然后利用聚類方法將全局特征聚類到多個(gè)集合中,再根據(jù)局部特征與聚類中心的相似度對(duì)局部特征進(jìn)行重新排列,最后通過(guò)二者的融合得到最終能夠同時(shí)表示全局和局部的遙感圖像特征。其他融合多層次深層特征的方法包括文獻(xiàn)[34-38]提出的方法。
除了上述針對(duì)特征層級(jí)做出的改進(jìn),Chen等人[39]使用帶標(biāo)記的數(shù)據(jù)集自動(dòng)學(xué)習(xí)CNN 架構(gòu),從而獲得可以適應(yīng)不同類型數(shù)據(jù)的CNN網(wǎng)絡(luò)。該方法的提出可以幫助理解哪些類型的特征對(duì)于遙感圖像的智能理解是至關(guān)重要的。Zhang等人[40]將CNN和CapsNet結(jié)合起來(lái)用于場(chǎng)景分類,該方法綜合了兩種網(wǎng)絡(luò)的優(yōu)點(diǎn),同時(shí)利用CNN 強(qiáng)大的特征提取能力和CapsNet 出色的特征融合與分類能力,使最終的分類結(jié)果相比單一網(wǎng)絡(luò)而言得到有效提升。He等人[41]提出了一種新的跳躍連接協(xié)方差網(wǎng)絡(luò)(Skip-Connected Covariance Network,SCCov)用于遙感圖像場(chǎng)景分類。SCCov是在CNN中加入跳躍連接和協(xié)方差池化,減少了參數(shù)量,提升了分類性能。Zhu 等人[42]將視覺(jué)注意機(jī)制引入CNN,迫使CNN 將注意力集中在有區(qū)別的區(qū)域,同時(shí)利用融合后的深度特征與基于中心的交叉熵?fù)p失函數(shù),從而顯著提升了分類精度。
半監(jiān)督學(xué)習(xí)可以利用大量無(wú)標(biāo)簽樣本,因此對(duì)標(biāo)簽樣本的需求減少[43],一定程度解決了深度學(xué)習(xí)領(lǐng)域中標(biāo)簽樣本不足的問(wèn)題。
Han 等人[44]從擴(kuò)大標(biāo)簽樣本規(guī)模角度出發(fā),提出了基于半監(jiān)督深度學(xué)習(xí)特征的生成框架,該框架可以通過(guò)訓(xùn)練,自動(dòng)擴(kuò)大標(biāo)簽樣本的數(shù)量。首先利用帶標(biāo)簽樣本對(duì)預(yù)訓(xùn)練的CNN進(jìn)行微調(diào),再利用微調(diào)后的CNN提取到的深層特征訓(xùn)練支持向量機(jī)(Support Vector Μachine,SVΜ),然后利用訓(xùn)練好的SVΜ對(duì)無(wú)標(biāo)簽樣本的類別進(jìn)行預(yù)測(cè),并將自動(dòng)標(biāo)注的樣本加入到原標(biāo)簽樣本中。以上步驟是迭代進(jìn)行的。同時(shí)該方法將多個(gè)支持向量機(jī)聯(lián)合應(yīng)用于易混淆類別樣本的標(biāo)簽識(shí)別,有效提高了標(biāo)注精度與標(biāo)簽樣本數(shù)量,從而使網(wǎng)絡(luò)的泛化能力與分類精度得到有效提升。
將無(wú)監(jiān)督用于特征學(xué)習(xí)階段,從而建立起一個(gè)特征提取模型,然后利用標(biāo)記樣本訓(xùn)練分類器也是一種有效的半監(jiān)督學(xué)習(xí)方法。Soto 等人[45]聯(lián)合使用有標(biāo)簽和無(wú)標(biāo)簽的樣本來(lái)訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN),然后將訓(xùn)練好的鑒別器用于場(chǎng)景分類,此時(shí)鑒別器已具備大量無(wú)標(biāo)簽樣本的信息,有助于最后分類效果的提升。相似的工作還有文獻(xiàn)[46]。Zhang等人[47]利用從圖像中提取的有代表性的顯著性區(qū)域作為無(wú)標(biāo)簽樣本去訓(xùn)練特征提取器,再利用該提取器提取待分類樣本的特征,最后利用SVΜ 對(duì)提取到的特征進(jìn)行分類。類似的做法還有文獻(xiàn)[48-49]。
弱監(jiān)督和深度學(xué)習(xí)相結(jié)合的方法也被廣泛應(yīng)用。在高分遙感圖像場(chǎng)景分類任務(wù)中弱監(jiān)督通常利用與目標(biāo)樣本相似的帶標(biāo)簽樣本來(lái)訓(xùn)練場(chǎng)景分類模型。這種方法將數(shù)據(jù)集分為源域和目標(biāo)域,前者不同于后者但相似,后者可以通過(guò)各種遷移學(xué)習(xí)技術(shù)獲得標(biāo)簽,并進(jìn)一步用于場(chǎng)景分類模型的訓(xùn)練。其中Othman等人[50]將有標(biāo)簽圖像提取的特征作為源域,無(wú)標(biāo)簽圖像提取到的特征作為目標(biāo)域,然后將其用于網(wǎng)絡(luò)訓(xùn)練并優(yōu)化規(guī)定的損失函數(shù),即可分類有標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)。Gong等人[51]對(duì)深層結(jié)構(gòu)度量學(xué)習(xí)(Deep Structural Μetric Learning,DSΜL)進(jìn)一步改進(jìn),提出了多樣性促進(jìn)深度結(jié)構(gòu)度量學(xué)習(xí)(Diversity-Promoting-DSΜL,D-DSΜL),減少了DSΜL產(chǎn)生的參數(shù)冗余,提高了特征表示能力。類似的工作還有文獻(xiàn)[52-53]。
基于全監(jiān)督的分類方法效果顯著,分類精度高,但上述監(jiān)督方法均需要大量的有標(biāo)簽樣本來(lái)訓(xùn)練分類網(wǎng)絡(luò),而有標(biāo)簽的樣本通常很難獲取,給沒(méi)有標(biāo)簽的圖像打上標(biāo)簽需消耗大量的時(shí)間與精力,這限制了全監(jiān)督方法的進(jìn)一步發(fā)展。
基于半監(jiān)督的分類方法可以利用大量無(wú)標(biāo)簽樣本訓(xùn)練網(wǎng)絡(luò),使網(wǎng)絡(luò)獲得更多“額外”的信息,從而提升網(wǎng)絡(luò)的魯棒性。但只能利用無(wú)標(biāo)簽樣本來(lái)細(xì)化由帶標(biāo)簽樣本所構(gòu)造的特征空間,并沒(méi)有顯著增加判別信息,從而限制了分類精度。
基于弱監(jiān)督的分類方法利用和目標(biāo)域相近但不相同的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,降低了對(duì)標(biāo)記樣本的需求,提升了網(wǎng)絡(luò)的泛化能力。但由于不同域之間圖像的本身差異,導(dǎo)致分類效果不如其他監(jiān)督方式。
在這三種方法中,全監(jiān)督方法的性能最好,但是訓(xùn)練階段需要大量的標(biāo)簽樣本。半監(jiān)督方法雖然需要較少的標(biāo)簽樣本,但未標(biāo)記樣本并沒(méi)有顯著增加網(wǎng)絡(luò)分類能力。弱監(jiān)督進(jìn)一步減少了對(duì)目標(biāo)數(shù)據(jù)標(biāo)簽樣本的需求,但源域與目標(biāo)域本身的差距難以彌補(bǔ),致使網(wǎng)絡(luò)分類精度難以得到有效提升。總之,對(duì)于基于深度學(xué)習(xí)的場(chǎng)景分類方法來(lái)說(shuō),擁有大量高質(zhì)量的標(biāo)簽樣本是非常重要的。
本文采用UC Μerced[24]、Aerial Image Data(AID)[54]和NWPU-RESISC45[55]數(shù)據(jù)集對(duì)以上基于不同監(jiān)督方式的深度學(xué)習(xí)方法進(jìn)行對(duì)比實(shí)驗(yàn)。圖1 為高分遙感圖像場(chǎng)景的示例。
圖1 兩個(gè)場(chǎng)景類別的高分遙感圖像及其標(biāo)簽
UC Μerced數(shù)據(jù)集由于提出時(shí)間較早,類別信息較為豐富,絕大多數(shù)的遙感圖像場(chǎng)景分類方法都在該數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比。該數(shù)據(jù)集是2010年由美國(guó)國(guó)家地質(zhì)調(diào)查局提出,覆蓋了美國(guó)多個(gè)地區(qū),有21 個(gè)場(chǎng)景類別,每個(gè)類別有100張圖像,共2 100張。每張圖像大小為256×256,其空間分辨率為每個(gè)像素0.3 m。
AID 是武漢大學(xué)于2017 年提出的一種大規(guī)模的航空?qǐng)鼍胺诸悢?shù)據(jù)集。該數(shù)據(jù)集有10 000 張圖像,共30個(gè)類別,每個(gè)類別的圖像數(shù)量在220~420不等,每張圖像的大小都是600×600,空間分辨率從8 m左右變化到0.5 m左右。這些圖片來(lái)自世界各地不同的國(guó)家和地區(qū),在不同的時(shí)間和成像條件下提取不同類型的圖像,從而增加了圖像的類內(nèi)多樣性。
NWPU-RESISC45 是由西北工業(yè)大學(xué)于2017 年提出,共包含31 500張圖像,45個(gè)類別,每個(gè)類別有700張圖像,每張圖像的大小都是256×256。該數(shù)據(jù)集大部分場(chǎng)景類的空間分辨率從每像素30 m 左右到0.2 m 不等。該數(shù)據(jù)集場(chǎng)景類別豐富,類內(nèi)多樣性和類間相似性高,這對(duì)遙感圖像場(chǎng)景分類更具挑戰(zhàn)性。
本節(jié)對(duì)上述基于不同監(jiān)督方式的流行算法進(jìn)行定量對(duì)比。由于監(jiān)督方法的不同,不再以訓(xùn)練率為標(biāo)準(zhǔn)體現(xiàn)標(biāo)簽樣本數(shù)量,而是以使用標(biāo)簽樣本的具體數(shù)量來(lái)進(jìn)行對(duì)比。
實(shí)驗(yàn)部分,在UC Μerced、AID和NWPU-RESISC45三個(gè)公開(kāi)數(shù)據(jù)集上對(duì)上述方法進(jìn)行實(shí)驗(yàn)比對(duì)。表1 為在UC Μerced數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,表2為在AID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,表3 為在NWPU-RESISC45 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
表1 UC Μerced數(shù)據(jù)集總體精度的定量對(duì)比
由表1 可知,在訓(xùn)練樣本數(shù)量一致的前提下,基于全監(jiān)督的場(chǎng)景分類效果最好,但基于不同監(jiān)督方式的深度學(xué)習(xí)遙感圖像場(chǎng)景分類方法的結(jié)果差距較小。這是因?yàn)閁C Μerced 數(shù)據(jù)集規(guī)模小,數(shù)據(jù)集本身分類難度較低,所以在規(guī)模較小的數(shù)據(jù)集或簡(jiǎn)單任務(wù)中利用半監(jiān)督甚至弱監(jiān)督的方法可以替代全監(jiān)督方法,以此來(lái)減少對(duì)標(biāo)記樣本的需要,同時(shí)獲得較高的分類精度。根據(jù)表2可知,在樣本數(shù)量為2 000張時(shí),兩種監(jiān)督方式的分類精度基本一致,這說(shuō)明基于半監(jiān)督的分類方式在采用了大量無(wú)標(biāo)簽樣本后,彌補(bǔ)了由于標(biāo)記樣本缺乏帶來(lái)的差距。但隨著樣本數(shù)量的增多,基于全監(jiān)督的分類方法展示出了其優(yōu)越性。因此在數(shù)據(jù)規(guī)模不斷增大時(shí),基于全監(jiān)督的分類方法仍是首選。由表3 可知在更為復(fù)雜的NWPU-RESISC45數(shù)據(jù)集上,基于全監(jiān)督的場(chǎng)景分類效果明顯優(yōu)于基于半監(jiān)督的分類效果,這進(jìn)一步證明了基于半監(jiān)督的方法利用無(wú)標(biāo)簽樣本來(lái)細(xì)化由帶標(biāo)簽樣本所構(gòu)造的特征空間,并不能有效增加判別信息,從而限制了分類精度。因此在復(fù)雜度高,數(shù)據(jù)量大時(shí),基于全監(jiān)督的分類方法仍是首選。
表2 AID數(shù)據(jù)集總體精度的定量對(duì)比
表3 NWPU-RESISC45數(shù)據(jù)集總體精度的定量對(duì)比
根據(jù)實(shí)驗(yàn)對(duì)比結(jié)果可得到如下結(jié)論:(1)數(shù)據(jù)集規(guī)模較小或任務(wù)相對(duì)簡(jiǎn)單時(shí),基于弱監(jiān)督的高分遙感圖像場(chǎng)景分類方法使用與目標(biāo)相近但不相同的圖像對(duì)網(wǎng)絡(luò)進(jìn)行初始訓(xùn)練,可以提升網(wǎng)絡(luò)的泛化能力,從而獲得與其他兩種監(jiān)督方式相差無(wú)幾的分類精度。(2)基于半監(jiān)督的場(chǎng)景分類方法得益于可以利用大量無(wú)標(biāo)簽圖像信息以增強(qiáng)網(wǎng)絡(luò)本身的魯棒性,從而獲得更高的分類精度。但在面臨更為復(fù)雜的數(shù)據(jù)集以及實(shí)際分類任務(wù)時(shí),基于全監(jiān)督的分類方法仍是效果最佳的。
表4 為高分遙感圖像場(chǎng)景分類流行算法的特點(diǎn)總結(jié),展示了各個(gè)算法的優(yōu)缺點(diǎn)及適用場(chǎng)景。
由表1和表3可知,在UC Μerced數(shù)據(jù)集和NWPURESISC45數(shù)據(jù)集上分類精度最高的是ADSSΜ[28]框架。該算法利用主題模型將中層特征和深層特征相融合,獲得了非常突出的效果,但由于訓(xùn)練方式不是端到端,同時(shí)需要不同的網(wǎng)絡(luò)去提取中層和深層特征,增加了訓(xùn)練成本。在AID 數(shù)據(jù)集表現(xiàn)優(yōu)異的深度卷積神經(jīng)網(wǎng)絡(luò)算法(Deep Convolutional Neural Network,D-CNN)[32]將度量學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合,有效地解決了高分遙感數(shù)據(jù)類內(nèi)多樣性和類間相似性的問(wèn)題,顯著提升了分類精度。但該方法batch size為1,并使用批標(biāo)準(zhǔn)化層微調(diào)預(yù)訓(xùn)練的CNN模型,從而需要更多的訓(xùn)練和測(cè)試時(shí)間,同時(shí)會(huì)對(duì)硬件設(shè)備要求較高。
表4 高分遙感圖像場(chǎng)景分類算法分析
由表4可知,基于全監(jiān)督的高分遙感圖像場(chǎng)景分類是主流,這一方面說(shuō)明了基于全監(jiān)督的方法效果顯著,另一方面也反映了基于全監(jiān)督的深度學(xué)習(xí)過(guò)度依賴標(biāo)簽樣本的問(wèn)題。而半監(jiān)督與弱監(jiān)督因監(jiān)督方式的優(yōu)勢(shì),可以在數(shù)據(jù)規(guī)模較小時(shí)解決樣本數(shù)量不足的問(wèn)題,并且通過(guò)對(duì)算法的改進(jìn)與創(chuàng)新,能夠獲得與全監(jiān)督方法相差無(wú)幾的性能。但受限于目前深度學(xué)習(xí)對(duì)數(shù)據(jù)的依賴,后兩種監(jiān)督方式的效果在大型數(shù)據(jù)集和復(fù)雜的實(shí)際任務(wù)中依然弱于全監(jiān)督方法。
本文首先對(duì)基于深度學(xué)習(xí)的高分遙感圖像場(chǎng)景分類方法進(jìn)行了分析與總結(jié),然后按照監(jiān)督方式對(duì)其進(jìn)行分類,并從實(shí)驗(yàn)的角度對(duì)比驗(yàn)證了不同監(jiān)督方式的優(yōu)劣,得到的結(jié)論如下:(1)在某些復(fù)雜度較低的數(shù)據(jù)集上,基于弱監(jiān)督的方式可以獲得較好的結(jié)果;基于半監(jiān)督的分類方法可以利用大量無(wú)標(biāo)注樣本信息,因此可以獲得不低于基于全監(jiān)督方法的分類性能。(2)基于深度學(xué)習(xí)的高分遙感圖像場(chǎng)景分類任務(wù)中全監(jiān)督的分類方式仍是主流,其性能優(yōu)于其他兩種監(jiān)督方式。
隨著深度學(xué)習(xí)的發(fā)展和大規(guī)模數(shù)據(jù)集的建立,使得高分遙感場(chǎng)景分類得到了長(zhǎng)足發(fā)展,但對(duì)機(jī)器的理解水平和人類的表現(xiàn)之間仍然存在巨大的差距,因此在高分遙感場(chǎng)景分類任務(wù)中還有很多亟需改善的地方。本文通過(guò)對(duì)現(xiàn)有場(chǎng)景分類算法的研究,探討了遙感圖像場(chǎng)景分類的幾個(gè)潛在發(fā)展方向。
(1)學(xué)習(xí)更好的區(qū)分特征。類間相似性和類內(nèi)多樣性一直是場(chǎng)景分類任務(wù)中的兩個(gè)關(guān)鍵因素。由于一部分場(chǎng)景類別之間存在很大的相似性,如高爾夫球場(chǎng)和草地,另有一些場(chǎng)景類別內(nèi)部多樣性較多,特征之間差異較大,如飛機(jī)之間的不同顏色、大小、擺放位置等。為了解決上述問(wèn)題,一些方法被提出,如將度量學(xué)習(xí)和CNN相結(jié)合,融合不同的CNN 網(wǎng)絡(luò)。盡管這些方法可以有效地學(xué)習(xí)由CNN 提取的特征,但類別內(nèi)差異較大和類別間可分性較小的問(wèn)題仍未完全解決。未來(lái),學(xué)習(xí)更多的區(qū)別性特征表示來(lái)應(yīng)對(duì)挑戰(zhàn)需要通過(guò)各種學(xué)習(xí)方式來(lái)解決,如對(duì)抗攻擊等手段。
(2)擴(kuò)大數(shù)據(jù)集的規(guī)?!,F(xiàn)有高分遙感數(shù)據(jù)集往往包括幾十種不同的類別,這遠(yuǎn)遠(yuǎn)少于人們可以區(qū)分的類別數(shù)量。并且現(xiàn)有數(shù)據(jù)集不足以充分?jǐn)M合擁有上百萬(wàn)參數(shù)的CNN網(wǎng)絡(luò),因此大多數(shù)方法采用微調(diào)經(jīng)ImageNet預(yù)訓(xùn)練過(guò)的CNN 網(wǎng)絡(luò),以此減少計(jì)算代價(jià)。但最理想的情況依然是采用大量的目標(biāo)數(shù)據(jù)集從頭訓(xùn)練CNN網(wǎng)絡(luò),從而提取出更符合目標(biāo)域的特征。而數(shù)據(jù)集規(guī)模的擴(kuò)大可以采用目前常用的生成模型,即對(duì)抗式生成網(wǎng)絡(luò)(GAN)來(lái)實(shí)現(xiàn),或直接通過(guò)高分遙感衛(wèi)星獲得大量高分遙感圖像。
(3)采用無(wú)監(jiān)督學(xué)習(xí)方式。目前基于深度學(xué)習(xí)的方法大都受限于有標(biāo)簽樣本的數(shù)量,這是由于標(biāo)注數(shù)據(jù)必須由專業(yè)人員手動(dòng)標(biāo)注,耗時(shí)耗力。在現(xiàn)有數(shù)據(jù)集規(guī)模較小時(shí),采用無(wú)監(jiān)督學(xué)習(xí)方式可以極大地緩解標(biāo)記樣本不足的問(wèn)題。而GAN 作為一種有效的無(wú)監(jiān)督學(xué)習(xí)方法,已被用于解決缺乏標(biāo)簽的場(chǎng)景分類問(wèn)題[42,56]。因此,探索無(wú)監(jiān)督學(xué)習(xí)在場(chǎng)景分類中的應(yīng)用是非常有價(jià)值的。