代林沅
摘要:該文介紹了對(duì)深度學(xué)習(xí)原理的理解和對(duì)深度學(xué)習(xí)中殘差網(wǎng)絡(luò)方法的一些思考。從應(yīng)用深度學(xué)習(xí)分類(lèi)方法出發(fā)比較了遙感地物分類(lèi)的特點(diǎn)。分析了現(xiàn)有中高分辨率遙感地物樣本庫(kù)的現(xiàn)狀和存在的問(wèn)題。
關(guān)鍵詞:深度學(xué)習(xí);遙感;分類(lèi)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)04-0206-02
1 對(duì)深度學(xué)習(xí)的理解
通過(guò)算法進(jìn)行分類(lèi)一般有這樣三步過(guò)程:首先定義特征,然后建立分類(lèi)規(guī)則,最后通過(guò)分類(lèi)規(guī)則完成分類(lèi)。對(duì)于人類(lèi)大腦來(lái)說(shuō),分類(lèi)用到的特征規(guī)則都不是一塵不變的,是隨著外界刺激的不斷增加而不斷訓(xùn)練優(yōu)化的過(guò)程。深度學(xué)習(xí)試圖模擬人腦神經(jīng)元傳遞刺激的方式,構(gòu)造盡可能理想的方程,實(shí)現(xiàn)從外界刺激(輸入)到分類(lèi)結(jié)果(輸出的自動(dòng)轉(zhuǎn)化,如圖1所示。
實(shí)際上,在以往的分類(lèi)方法中或多或少會(huì)利用已經(jīng)被人類(lèi)知識(shí)預(yù)選過(guò)的“特征”或“規(guī)則”。例如:對(duì)于最簡(jiǎn)單的線性分類(lèi)而言,約束輸入和輸出間的一次線性關(guān)系就是這個(gè)預(yù)選的“規(guī)則”;對(duì)于各種基于概率的分類(lèi)法而言,除了通常會(huì)先提取“特征”外,還會(huì)人為規(guī)定這些特征計(jì)算概率的方法以及概率之間的組合方法。
一些研究[2,3]取出訓(xùn)練后的網(wǎng)絡(luò)隱藏層的卷積核和輸出值分別可視化以后發(fā)現(xiàn):隱藏層輸出值自動(dòng)的由低層次到高層次逐層的學(xué)習(xí)到了不同的特征,而每層的卷積核則會(huì)被訓(xùn)練成為如何提取這些特征的算子。
采用深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型成為了當(dāng)前使用的深度學(xué)習(xí)1。深度學(xué)習(xí)網(wǎng)絡(luò)既可以是線性的也可以加入非線性的層或參數(shù)變成非線性的。一個(gè)有三個(gè)輸入的典型神經(jīng)元模型,如圖2所示。
深度學(xué)習(xí)的學(xué)習(xí)能力是依賴于多層/多次帶來(lái)的復(fù)雜非線性變化。2006年,Hinton提出深度學(xué)習(xí)這個(gè)概念,他認(rèn)為深度學(xué)習(xí)是一種“使用多層隱變量學(xué)習(xí)高層表示的方法”。以往的人工神經(jīng)網(wǎng)絡(luò)模型(DBN, CNN,RNN等)都是這樣一種深度學(xué)習(xí)的模型,只是層數(shù)和神經(jīng)元個(gè)數(shù)上增加了不少。
目前深度學(xué)習(xí)一部分研究和應(yīng)用的熱點(diǎn)在于對(duì)日常生活中接觸物(人臉、指紋、數(shù)字、文字、聲音等)進(jìn)行識(shí)別、標(biāo)注或者分類(lèi)。就拿CIFAR-10[4]這個(gè)經(jīng)常用到的圖片分類(lèi)樣本庫(kù)來(lái)說(shuō),其中有10類(lèi)每類(lèi)6000張樣本。如圖3所示。這里把這類(lèi)樣本庫(kù)叫做日常生活樣本庫(kù)。
2 遙感地物分類(lèi)的特點(diǎn)
從空中一定距離獲取的地表電磁波反射數(shù)據(jù),不論是通道數(shù)的多少(可見(jiàn)光影像、多光譜數(shù)據(jù))還是波段頻率自身反射的特性(可見(jiàn)光、紅外、微波)都體現(xiàn)了跟上面提到的近距離而且非由上至下豎直拍攝的日常生活樣本庫(kù)的區(qū)別。
遙感數(shù)據(jù)分辨率越低,地物細(xì)節(jié)就越不清楚。即便是在較高分辨率的遙感數(shù)據(jù)上,地表上覆蓋的大多數(shù)地物都不具備像日常生活樣本庫(kù)一樣豐富的特征。
實(shí)際情況是,單個(gè)特征分類(lèi)的精度(特征本身的類(lèi)代表性)、特征間的相關(guān)性和特征的數(shù)量一起決定了分類(lèi)的精度??梢赃@樣來(lái)證明:假設(shè)有 個(gè)特征,單個(gè)特征分類(lèi)的正確率都為 ,且假設(shè)這些特征間相互獨(dú)立,令 為單個(gè)分類(lèi)正確的個(gè)數(shù),通過(guò) 的方式?jīng)Q定是否屬于某類(lèi),那么最終錯(cuò)誤率為:
那么當(dāng) ,有Hoeffding邊界:
當(dāng) 時(shí),帶入后得到:
上式顯示,隨著相互獨(dú)立的特征數(shù)目的增加,最終錯(cuò)誤率會(huì)指數(shù)級(jí)下降,并趨近于零。與日常生活樣本庫(kù)不同的一點(diǎn),因?yàn)榉直媛实南拗?,遙感數(shù)據(jù)本身含有的類(lèi)別數(shù)量要少一些。美國(guó)地質(zhì)勘探局在第一次國(guó)土地表覆蓋數(shù)據(jù)庫(kù)(National Land Cover Database, NLCD[7])中采用的是一套有9個(gè)一級(jí)類(lèi)22個(gè)二級(jí)類(lèi)的分類(lèi)標(biāo)準(zhǔn)[8],其后這個(gè)標(biāo)準(zhǔn)也在不斷變化,最新公布的的NLCD2011數(shù)據(jù)是采用的16個(gè)類(lèi)的分類(lèi)標(biāo)準(zhǔn)。我國(guó)第一次地理國(guó)情普查中地表覆蓋分類(lèi)數(shù)據(jù)采集中使用了10個(gè)大類(lèi)46個(gè)二級(jí)類(lèi),這些二級(jí)類(lèi)下面還細(xì)分有更多的三級(jí)類(lèi)[9]。在實(shí)際工程應(yīng)用中,大量地物分類(lèi)需要外業(yè)實(shí)地確定。
近年來(lái),盡管比不上一些深度學(xué)習(xí)應(yīng)用研究領(lǐng)域的熱度,但是對(duì)于遙感地物分類(lèi)的研究,特別是中高分辨率遙感數(shù)據(jù)地物分類(lèi)研究還是不少。但是,因?yàn)槿鄙僖粋€(gè)統(tǒng)一的實(shí)驗(yàn)數(shù)據(jù),很多研究也都只給出了結(jié)果而沒(méi)有給出具體的參數(shù)、算法和代碼,所以并沒(méi)有產(chǎn)生CIFAR-10, IMAGENET, COCO等日常生活樣本庫(kù)中形成共識(shí)的評(píng)價(jià)標(biāo)準(zhǔn)。早些年像美國(guó)的NLCD項(xiàng)目和歐洲的CORINE項(xiàng)目這一類(lèi)面向全國(guó)資源利用概略調(diào)查應(yīng)用的一般都是依靠分辨率較低的影像(10-30米左右)。
3 中高分辨率遙感地物樣本庫(kù)現(xiàn)狀
深度學(xué)習(xí)通常需要大量樣本進(jìn)行訓(xùn)練。當(dāng)前分享的中高分辨率遙感地物樣本庫(kù),如:UCMerced Land-use Dataset[10], RSSCN7 Dataset[11]都不太能滿足深度學(xué)習(xí)研究對(duì)樣本數(shù)量的需求,如表1所示。
樣本數(shù)量上的不足只是一個(gè)方面?,F(xiàn)有的遙感樣本庫(kù)都只有最多30種地物類(lèi)型,這主要是考慮到地物選擇的典型性和細(xì)節(jié)豐富程度,而沒(méi)有考慮需要全面涵蓋遙感影像的地物類(lèi)型。恰恰地表覆蓋分類(lèi)的應(yīng)用中需要樣本庫(kù)有更全面的地物類(lèi)型。另一個(gè)需要注意的問(wèn)題是在樣本庫(kù)制作時(shí)要盡量避免不同標(biāo)簽地物的混淆,盡管這種情況很常見(jiàn),如圖4所示。
避免不同標(biāo)簽地物的混雜一方面需要設(shè)計(jì)更合理的分類(lèi),保證類(lèi)內(nèi)部有一定多樣性的同時(shí)保證類(lèi)間保持一定的可分性;另外一方面,也可以采用多標(biāo)簽樣本的方案,這可能更適合遙感地物的特點(diǎn)。
4 總結(jié)與討論
對(duì)深度學(xué)習(xí)的原理和它為什么有效現(xiàn)在并沒(méi)有一個(gè)統(tǒng)一具有說(shuō)服力的解釋方法。用復(fù)雜非線性系統(tǒng)來(lái)解釋深度學(xué)習(xí)可以幫助我們更好的理解訓(xùn)練過(guò)程中出現(xiàn)的各種各樣匪夷所思的問(wèn)題。比如,在對(duì)抗性生成網(wǎng)絡(luò)中為什么加入一個(gè)微小的噪聲就可以使得分類(lèi)的結(jié)果大相徑庭?為什么實(shí)驗(yàn)中更結(jié)構(gòu)更復(fù)雜的網(wǎng)絡(luò)卻不不能比普通的殘差網(wǎng)絡(luò)精度更好?
現(xiàn)有的中高分辨率遙感樣本庫(kù)訓(xùn)練的網(wǎng)絡(luò)并不能用于地物分類(lèi),但是它們可以用來(lái)研究網(wǎng)絡(luò)本身,不過(guò)問(wèn)題是:這樣的遙感樣本庫(kù)與CIFAR-10一類(lèi)樣本庫(kù)的區(qū)別在哪里?
注釋?zhuān)?/p>
1. “深度”一詞是相對(duì)20世紀(jì)90年代陸續(xù)出現(xiàn)的各種淺層學(xué)習(xí)模型而言的,例如:SVM和Boosting都可以看出帶一層隱藏節(jié)點(diǎn)的學(xué)習(xí)模型,當(dāng)前多數(shù)回歸學(xué)習(xí)都是淺層結(jié)構(gòu)的模型。
參考文獻(xiàn):
[1] M. D. Zeiler. Visualizing and Understanding Convolutional Networks[C]. ECCV, 2014.
[2] J. Yosinski. Understanding Neural Networks Through Deep Visualization[C]. ICML, 2015.
[3] A. Krizhevsky. Learning Multiple Layers of Features from Tiny Images[D]. Masters thesis, 2009.
[4] R. K. Srivastava et al. Highway networks[C]. ICML, 2015.
[5] K. He et al. Deep Residual Learning for Image Recognition[C]. CVPR, 2016.
[6] J.A.Fry et al. Completion of the National Land Cover Database (NLCD)[R].1992-2001 Land Cover Change Retrofit product: U.S. Geological Survey Open-File Report,2008,1379(18).
[7] J.R. Anderson et al. A Land Use And Land Cover Classification System For Use With Remote Sensor Data[R]. 1976.
[8] 地理國(guó)情普查數(shù)據(jù)規(guī)定與采集要求,GDPJ 03-2013[S].
[9] Y. Yang et al. Bag-Of-Visual-Words and Spatial Extensions for Land-Use Classification[C]. ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems (ACM GIS). 2010.
[10] Q. Zou et al. Deep learning based feature selection for remote sensing scene classification[J] Geoscience and Remote Sensing Letters, IEEE,2015.
[11] G. Huang et al. Deep Networks with Stochastic Depth[C]. ECCV, 2016.