許夙暉,慕曉冬,趙 鵬,馬 驥
火箭軍工程大學(xué)信息工程系,陜西 西安 710025
?
利用多尺度特征與深度網(wǎng)絡(luò)對(duì)遙感影像進(jìn)行場(chǎng)景分類
許夙暉,慕曉冬,趙鵬,馬驥
火箭軍工程大學(xué)信息工程系,陜西 西安 710025
摘要:針對(duì)因樣本量小而導(dǎo)致的遙感圖像場(chǎng)景分類精度不高的問題,結(jié)合非下采樣Contourlet變換(NSCT)、深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和多核支持向量機(jī)(MKSVM),提出了一種基于多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(MS-DCNN)的遙感圖像場(chǎng)景分類方法。首先利用非下采樣Contourlet變換方法對(duì)遙感圖像多尺度分解,然后對(duì)分解后的高頻子帶和低頻子帶分別用DCNN訓(xùn)練得到了不同尺度的圖像特征,最后采用MKSVM綜合多尺度特征并實(shí)現(xiàn)遙感圖像場(chǎng)景分類。對(duì)標(biāo)準(zhǔn)遙感圖像分類數(shù)據(jù)集的試驗(yàn)結(jié)果表明,本算法能夠結(jié)合低頻和高頻子帶對(duì)不同類別場(chǎng)景的識(shí)別優(yōu)勢(shì),對(duì)遙感圖像場(chǎng)景取得較好的分類結(jié)果。
關(guān)鍵詞:遙感圖像;場(chǎng)景分類;深度卷積神經(jīng)網(wǎng)絡(luò);非下采樣輪廓波變換;多核支持向量機(jī)
遙感圖像場(chǎng)景分類是遙感圖像分析解譯的重要手段,在災(zāi)情監(jiān)測(cè)、武器制導(dǎo)、交通監(jiān)管等軍事和民用領(lǐng)域均有重要應(yīng)用價(jià)值。場(chǎng)景分類的核心是遙感圖像特征提取,傳統(tǒng)的k最近鄰域、支持向量機(jī)(support vector machine,SVM)、最大熵方法、提升方法(boosting)等分類方法,僅提取圖像顏色、形狀、紋理等低層特征,缺乏對(duì)圖像中層語義的表述,難以跨越低層到高層語義的鴻溝[1-2],泛化能力差[3]。隨著遙感圖像分辨率的增加,以及可見光、紅外、高光譜和雷達(dá)等多種遙感系統(tǒng)的應(yīng)用,遙感圖像更加趨向于背景的復(fù)雜性和目標(biāo)的多樣性,對(duì)此研究能夠表達(dá)遙感圖像高層次抽象特征的分類方法成為該領(lǐng)域的發(fā)展趨勢(shì)[4-5]。
近年來,深度學(xué)習(xí)作為模式識(shí)別中新的智能方法,成為機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn),在圖像、音頻、文字識(shí)別與分類中得到了廣泛應(yīng)用[6-8]。通過構(gòu)建深度網(wǎng)絡(luò)結(jié)構(gòu)將低級(jí)特征組合并變換得到更高層次的抽象特征,特別是其中的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN),利用卷積操作的網(wǎng)絡(luò)層次,更適合于圖像特征的提取[9-10]。文獻(xiàn)[11]構(gòu)造的DCNN,在ILSVRC-2012數(shù)據(jù)集上獲得了top-5測(cè)試錯(cuò)誤率為15.3%的最好測(cè)試結(jié)果。此后,DCNN在圖像分類中得到廣泛應(yīng)用。文獻(xiàn)[12]將DCNN的最后一個(gè)卷積層和最大采樣層的特征圖分成多塊,以提取不同尺度上的圖像特征,設(shè)計(jì)了一種混合深度卷積神經(jīng)網(wǎng)絡(luò)(HDNN)方法,并將其應(yīng)用到遙感圖像的車輛檢測(cè)中,顯著提高了檢測(cè)精度。文獻(xiàn)[13]將DCNN與SVM相結(jié)合,利用DCNN提取特征,輸入SVM中實(shí)現(xiàn)目標(biāo)分類與識(shí)別,提出了一種hybrid CNN-SVM方法,在手寫體數(shù)字識(shí)別中相比DCNN方法取得了更高的分類精度。
DCNN在提取圖像深層次特征時(shí),構(gòu)建了多層的網(wǎng)絡(luò)結(jié)構(gòu)(通常大于6層)[14-15],這就需要大量的帶標(biāo)簽樣本來訓(xùn)練網(wǎng)絡(luò)參數(shù),而實(shí)際的遙感圖像中人工標(biāo)記的代價(jià)大,遙感場(chǎng)景分類中往往樣本量小,采用傳統(tǒng)的DCNN方法分類精度不高。針對(duì)上述問題,本文提出一種基于多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(multi-scale DCNN,MS-DCNN)的遙感圖像場(chǎng)景分類方法,以獲得多尺度的圖像特征,提高小樣本數(shù)據(jù)下的分類精度。
1基于多尺度DCNN的遙感圖像分類
通常獲取的遙感圖像數(shù)據(jù)往往受到噪聲的干擾,并且光照條件變化等外部環(huán)境也會(huì)影響圖像的全局特征,此外圖像還存在與目標(biāo)特征無關(guān)的冗余信息[16]。由此可以采用多尺度變換的方法對(duì)遙感圖像分解,得到圖像對(duì)應(yīng)的低頻和高頻子帶,低頻子帶保留了圖像中空間位置關(guān)系,高頻子帶體現(xiàn)了圖像的細(xì)節(jié)和邊緣信息。對(duì)各個(gè)子帶分別采用DCCN網(wǎng)絡(luò)學(xué)習(xí)特征,考慮到各個(gè)網(wǎng)絡(luò)對(duì)不同子帶學(xué)習(xí)的特征差異,在最后輸出層采用多核支持向量機(jī)作為圖像分類器,將多子帶特征有效融合,能夠顯著提高圖像分類的泛化能力。
1.1基于非下采樣Contourlet變換的多尺度分解
Contourlet變換是一種帶有方向性的圖像稀疏表示方法,通過拉普拉斯金字塔和方向?yàn)V波器組來得到不同尺度的方向子帶。但Contourlet變換在圖像分解和重構(gòu)的過程中都包含了采樣的步驟,因此分解后的圖像不具備平移不變性。為此,文獻(xiàn)[17]提出了一種非下采樣Contourlet變換(nonsubsampled Contourlet transform,NSCT)方法,對(duì)應(yīng)地采用非下采樣金字塔和方向?yàn)V波器組來實(shí)現(xiàn)多尺度分解,得到與源圖像尺寸大小相同的子帶圖像中,保證了平移不變性。NSCT的圖像分解原理如圖1所示。
圖1 非下采樣Contourlet變換原理圖Fig.1 Schematic of nonsubsampled Contourlet transform
由圖1可以看出,NSCT由兩部分組成:一是非下采樣金字塔分解,獲得與拉普拉斯金字塔分解類似的且具備平移不變性的濾波器結(jié)構(gòu),保證變換的多尺度性,圖像經(jīng)過第一級(jí)雙通濾波器得到一個(gè)低頻圖像和高頻圖像,此后每一級(jí)濾波均在低頻圖像上迭代產(chǎn)生,下一級(jí)濾波器是用濾波矩陣D=2I對(duì)上一級(jí)濾波得到。二是非下采樣方向?yàn)V波器組,由兩通道的非下采樣濾波器構(gòu)造而成,將非下采樣金字塔產(chǎn)生的高頻帶通信號(hào)分解到多個(gè)方向子帶上,使得變換具有多方向性。圖2為非下采樣Contourlet變換對(duì)一遙感圖像進(jìn)行3層分解的結(jié)果,分解后的各層能提供特征學(xué)習(xí)的直接有用信息,并且各子帶圖像與源圖像尺寸相同,可以采用同樣的DCNN進(jìn)行特征學(xué)習(xí)。
圖2 非下采樣Contourlet 3層分解示意圖Fig.2 Schematic of NSCT three layers decomposition
1.2多核支持向量機(jī)
將支持向量機(jī)(SVM)與DCNN網(wǎng)絡(luò)相結(jié)合,用SVM分類器代替原DCNN網(wǎng)絡(luò)的輸出層,可以提高圖像分類精度。然而多個(gè)子帶圖像利用DCNN提取的特征差異較大,如果采用單個(gè)核映射進(jìn)行處理并不合理,因此,本文運(yùn)用多個(gè)核函數(shù)的線性組合構(gòu)造多核支持向量機(jī)(multiple-kernel SVM,MKSVM)分類器。定義多核函數(shù)為[18]
(1)
式中,M為基核函數(shù)的個(gè)數(shù);Km為基核函數(shù)。常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)和高斯核函數(shù),本文采用多個(gè)高斯核函數(shù)作為基核函數(shù),其表達(dá)式為
(2)
式中,σ為高斯核參數(shù),取不同值即可得到多個(gè)高斯核函數(shù)。
多核支持向量機(jī)的優(yōu)化問題需要同時(shí)求解超平面權(quán)重和核函數(shù)權(quán)重dm。通過兩步交替優(yōu)化的方式求解,首先固定核函數(shù)權(quán)重求解基本的SVM問題,然后構(gòu)造關(guān)于dm的目標(biāo)函數(shù),固定超平面權(quán)重,再用梯度下降法求解。
1.3多尺度DCNN模型
本文提出的多尺度深度卷積神經(jīng)網(wǎng)絡(luò)模型分為3個(gè)部分,如圖3所示,第1部分為多尺度分解,利用非下采樣Contourlet變換將輸入圖像分解為相同大小的n幅圖像;第2部分為深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)于分解后的每幅圖像分別用DCNN進(jìn)行訓(xùn)練,提取各個(gè)圖像的特征;第3部分為多核支持向量機(jī)分類,將多核支持向量機(jī)代替原DCNN網(wǎng)絡(luò)的Softmax輸出層,對(duì)MKSVM進(jìn)一步訓(xùn)練,即利用訓(xùn)練好的DCNN模型得到各圖像的特征,將分解后所有圖像的特征向量作為MKSVM的輸入樣本,訓(xùn)練MKSVM并最終輸出圖像分類結(jié)果。
圖3 多尺度DCNN示意圖Fig.3 Schematic of multi-scale DCNN
在本文的試驗(yàn)中,考慮到數(shù)據(jù)集圖像的分辨率不高,經(jīng)過非下采樣Contourlet變換后的第3層及之后的圖像包含的特征很少,因此,本文的試驗(yàn)取兩層的非下采樣Contourlet變換圖像,即包括1個(gè)低頻子帶和1個(gè)高頻子帶;MKSVM中采用2個(gè)高斯核函數(shù),σ的取值分別為0.7和0.45。DCNN采用文獻(xiàn)[11]提出的8層卷積神經(jīng)網(wǎng)絡(luò),該架構(gòu)前5層為卷積層,后3層是全連接層。
Layer1使用了96個(gè)11×11×3的濾波器對(duì)輸入224×224×3的圖像進(jìn)行卷積,步長為4個(gè)像素,輸出尺寸為55×55×96的特征層。
Layer2使用了256個(gè)5×5×48的濾波器對(duì)上層濾波,形成的特征層的尺寸為27×27×256。
Layer3和Layer4都使用了384個(gè)3×3×256的濾波器對(duì)上層濾波。
Layer5有256個(gè)卷積核,大小為3×3×192。
Layer1、Layer2和Layer5在卷積后進(jìn)行了下采樣,采樣方式為最大池下采樣,尺寸為3×3,步長為2;在Layer1和Layer2進(jìn)行下采樣后對(duì)同層相鄰節(jié)點(diǎn)的響應(yīng)進(jìn)行局部歸一化。后3層為全連接層,最后由Softmax函數(shù)輸出分類結(jié)果。每一個(gè)卷積和全連接后都使用ReLU的激活函數(shù)。此外,為了減小過擬合,在前兩個(gè)全連接層后增加Dropout層。
2試驗(yàn)結(jié)果與分析
2.1試驗(yàn)數(shù)據(jù)集
試驗(yàn)數(shù)據(jù)集1為美國土地使用分類數(shù)據(jù)集UCM_LandUse,包括農(nóng)田、建筑、河流等21類遙感圖像,每類圖像包含100幅256×256像素的圖像,圖4給出了各類圖像的示例。在本文的試驗(yàn)中均隨機(jī)取每類圖像中的80幅作為訓(xùn)練數(shù)據(jù),其余20幅圖為測(cè)試數(shù)據(jù)。
試驗(yàn)數(shù)據(jù)集2為武漢大學(xué)高分衛(wèi)星遙感圖像場(chǎng)景數(shù)據(jù)集HRSS,包括19類共1005幅高分辨率遙感圖像,每類場(chǎng)景約50幅,圖像分辨率為600×600像素。試驗(yàn)中隨機(jī)取每類中的40幅作為訓(xùn)練數(shù)據(jù),其余為測(cè)試數(shù)據(jù)。
2.2多尺度圖像DCNN訓(xùn)練收斂性能分析
利用DCNN網(wǎng)絡(luò)分別對(duì)UCM_LandUse數(shù)據(jù)集的源圖像、1個(gè)低頻子帶和1個(gè)高頻子帶圖像進(jìn)行訓(xùn)練,得到訓(xùn)練10 000代的收斂曲線如圖5所示,其中,源圖像、低頻子帶和高頻子帶的分類正確率分別為87.9%、89.0%和78.6%。從圖5可以看出,低頻子帶與源圖像的收斂曲線基本重合,低頻子帶的收斂速度和正確率均稍好于源圖像。高頻子帶包含的圖像特征最少,其分類正確率最低。由仿真結(jié)果可得,經(jīng)過多尺度變換后的圖像保留了源圖像中的有用信息,特別是低頻圖像,在去除與目標(biāo)特征無關(guān)的冗余信息后,得到更高的分類正確率。
圖4 21類遙感場(chǎng)景示例Fig.4 Sample charts of 21 classes of remote sensing scene
圖5 多尺度圖像DCNN訓(xùn)練收斂曲線Fig.5 The convergence curves of DCNN training for multi-scale images
2.3各類別遙感圖像識(shí)別能力分析
傳統(tǒng)的DCNN網(wǎng)絡(luò)的輸出層利用Softmax函數(shù)實(shí)現(xiàn)分類,本文利用傳統(tǒng)的DCNN網(wǎng)絡(luò)預(yù)訓(xùn)練后,將Softmax層替換為多核SVM,繼續(xù)訓(xùn)練SVM并實(shí)現(xiàn)遙感場(chǎng)景分類。為了比較MKSVM和Softmax的優(yōu)劣,以UCM_LandUse數(shù)據(jù)集為例,分別對(duì)源圖像和多尺度圖像進(jìn)行分類,將DCNN預(yù)訓(xùn)練后的圖像特征通過以上兩種分類器進(jìn)行分類,分類結(jié)果列入表1。由仿真結(jié)果可以看出,MKSVM與Softmax在處理源圖像分類時(shí)精度相當(dāng);但對(duì)于多尺度圖像,由于不同數(shù)據(jù)源提供圖像特征的差異性,Softmax分類精度顯著降低,而MKSVM利用多核的組合空間對(duì)特征參數(shù)進(jìn)行映射,得到的場(chǎng)景分類結(jié)果優(yōu)于Softmax。
表1MKSVM和Softmax對(duì)不同圖像數(shù)據(jù)的分類正確率
Tab.1Classification accuracy of different image data by MKSVM and Softmax
利用本文的MS-DCNN算法對(duì)UCM_LandUse數(shù)據(jù)集的21類遙感圖像進(jìn)行分類,各類別的識(shí)別概率如圖6所示。同時(shí),為了驗(yàn)證本算法采用多尺度圖像訓(xùn)練的優(yōu)勢(shì),將DCNN訓(xùn)練源圖像、低頻子帶圖像和高頻子帶圖像的識(shí)別概率也列入圖6中。
圖6 21類遙感場(chǎng)景分類識(shí)別概率Fig.6 Identification probabilities for 21 classes of remote sensing scene
對(duì)比圖6中4組試驗(yàn)對(duì)各類圖像的識(shí)別概率可得,盡管源圖像包含了更豐富的圖像特征,但低頻圖像和高頻圖像在部分類別仍獲得更高的識(shí)別概率。其中,低頻圖對(duì)十字路口、中等密度住宅區(qū)、網(wǎng)球場(chǎng)等類更容易識(shí)別,這是因?yàn)榈皖l圖保留了圖像的空間位置關(guān)系,有利于目標(biāo)位置關(guān)系明確的場(chǎng)景識(shí)別;低頻圖對(duì)其他類場(chǎng)景的識(shí)別概率與源圖像相當(dāng);高頻圖對(duì)建筑物、停車場(chǎng)、儲(chǔ)油罐等類有更高的識(shí)別概率,這是因?yàn)楦哳l圖體現(xiàn)了圖像的細(xì)節(jié)和邊緣信息,更容易識(shí)別出含有大量目標(biāo)且輪廓特征明顯場(chǎng)景。本文算法采用多核支持向量機(jī)作為分類器,綜合了高頻子帶和低頻子帶的優(yōu)勢(shì),得到每類的識(shí)別概率均比源圖像高。
MS-DCNN算法對(duì)兩個(gè)數(shù)據(jù)集遙感場(chǎng)景分類的混淆矩陣如圖7所示,由圖7(a)可以看出UCM_LandUse數(shù)據(jù)集中農(nóng)田(AgL)、海灘(BcH)、灌木叢(ChL)、機(jī)場(chǎng)跑道(RwY)等紋理差異性小的場(chǎng)景分類準(zhǔn)確度高,對(duì)于建筑物(BuD)、密集住宅區(qū)(DrL)、網(wǎng)球場(chǎng)(TsC)等包含多個(gè)目標(biāo)的復(fù)雜場(chǎng)景分類準(zhǔn)確率低,特別是對(duì)于建筑物和密集住宅區(qū)等存在二義性的場(chǎng)景容易出現(xiàn)誤分。對(duì)于HRSS數(shù)據(jù)集,由圖7(b)可得,海灘(BcH)、森林(FeT)、農(nóng)田(FlD)等場(chǎng)景分類精度高,與UCM_LandUse數(shù)據(jù)集分類結(jié)果一致;而工業(yè)區(qū)(IdL)、商業(yè)區(qū)(CmL)等分類效果較差。
2.4遙感圖像分類算法對(duì)比
為了驗(yàn)證算法的優(yōu)勢(shì),針對(duì)UCM_LandUse和HRSS兩個(gè)數(shù)據(jù)集,將本文MS-DCNN算法與現(xiàn)有文獻(xiàn)中的算法對(duì)比,各算法的分類結(jié)果列入表2和表3。
圖7 MS-DCNN場(chǎng)景分類的混淆矩陣Fig.7 The confusion matrix of scene classification in MS-DCNN
Tab.2Classification accuracy of different algorithms for UCM_LandUse data sets
algorithmclassificationaccuracy/(%)SVM[19]78.57SVM-LDA[20]80.33BOVW+SCK[21]77.71MNCC[22]88.26CCM-BOVW[23]86.64ConvNet[24]89.79AE-SVD[25]86.67UFL-SC[26]90.26SIFT+SC[27]81.67MS-DCNN91.34
表3不同算法對(duì)HRSS數(shù)據(jù)集的分類正確率
Tab.3Classification accuracy of different algorithms for HRSS data sets
algorithmclassificationaccuracy/(%)DCNN[11]85.42HybridCNN-SVM[13]87.67MNCC[22]84.73PCANet[2]84.28IFK[28]87.08MS-DCNN90.05
從表2試驗(yàn)對(duì)比結(jié)果可以看出,基于深度神經(jīng)網(wǎng)絡(luò)的算法(MNCC、ConvNet和MS-DCNN)可以訓(xùn)練得到高層次的語義信息,分類正確度高于只能獲得低層特征的SVM和BOVW算法。深度神經(jīng)網(wǎng)絡(luò)中ConvNet與MNCC分類效果基本相當(dāng)。由表3可得,混合了SVM后的DCNN網(wǎng)絡(luò)結(jié)構(gòu)能夠提高分類精度;本文MS-DCNN利用非下采樣Contourlet變換得到不同尺度的圖像,通過DCNN網(wǎng)絡(luò)提取了不同尺度的圖像特征,結(jié)合多核SVM對(duì)圖像場(chǎng)景進(jìn)行分類,顯著提高了分類精度。
2.5高分辨率遙感圖像分類
利用MS-DCNN算法對(duì)某城市大幅高分辨率遙感圖像進(jìn)行分類,如圖8(a)所示,該遙感圖像分辨率為13 312×7680像素,包含有農(nóng)田、建筑、公路、河流和裸地5類場(chǎng)景,試驗(yàn)中將該大幅遙感圖像分為52×30個(gè)子場(chǎng)景,每個(gè)子場(chǎng)景為256×256像素。結(jié)合地面真實(shí)數(shù)據(jù)每類各選取50幅作為訓(xùn)練圖像,其余1310幅作為待分類圖像。將分類結(jié)果用不同的顏色塊表示,如圖8(b)所示,可以看出算法能夠較好地解析出高分辨率遙感圖像中的場(chǎng)景,大致反映了該地區(qū)農(nóng)田區(qū)域、居民區(qū)域等真實(shí)的地物分布。
圖8 某城市高分辨率圖像分類Fig.8 High-resolution remote sensing image classification of the city
3結(jié)論
本文提出的遙感圖像場(chǎng)景分類方法,利用非下采樣Contourlet變換方法對(duì)遙感圖像多尺度分解,通過DCNN訓(xùn)練得到了不同尺度的圖像特征,最后采用多核SVM綜合多尺度特征并實(shí)現(xiàn)遙感圖像場(chǎng)景分類。在標(biāo)準(zhǔn)遙感圖像場(chǎng)景數(shù)據(jù)集上試驗(yàn)的結(jié)果表明,本算法能夠綜合高頻子帶和低頻子帶的優(yōu)勢(shì),在圖像場(chǎng)景的分類中有明顯的優(yōu)勢(shì),對(duì)UCM_LandUse和HRSS兩個(gè)數(shù)據(jù)集的分類正確率分別達(dá)到91.34%和90.05%,并且采用多核SVM后提高了網(wǎng)絡(luò)學(xué)習(xí)的泛化能力,增強(qiáng)了解析高分辨率遙感數(shù)據(jù)的實(shí)用性。此外,算法本身的網(wǎng)絡(luò)結(jié)構(gòu)很適合并行處理,可以通過集群計(jì)算、GPU等方式提高訓(xùn)練時(shí)間,用于大規(guī)模高分辨率遙感圖像的分類與識(shí)別中。
參考文獻(xiàn):
[1]李德仁, 張良培, 夏桂松. 遙感大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘[J]. 測(cè)繪學(xué)報(bào), 2014, 43(12): 1211-1216. DOI: 10.13485/j.cnki.11-2089.2014.0187.LI Deren, ZHANG Liangpei, XIA Guisong. Automatic Analysis and Mining of Remote Sensing Big Data[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(12): 1211-1216. DOI: 10.13485/j.cnki.11-2089.2014.0187.
[2]CHAN T H, JIA Kui, GAO Shenghua, et al. PCANet: A Simple Deep Learning Baseline for Image Classification[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5017-5032.
[3]章錦文, 宋小春, 趙廣州, 等. 橋梁目標(biāo)識(shí)別方法綜述[J]. 紅外與激光工程, 2012, 41(12): 3429-3435.ZHANG Jinwen,SONG Xiaochun,ZHAO Guangzhou,et al. Summary of Bridge Recognition Methods[J]. Infrared and Laser Engineering, 2012, 41(12): 3429-3435.
[4]趙理君, 唐娉, 霍連志, 等. 圖像場(chǎng)景分類中視覺詞包模型方法綜述[J]. 中國圖象圖形學(xué)報(bào), 2014, 19(3): 333-343.
ZHAO Lijun, TANG Ping, HUO Lianzhi, et al. Review of the Bag-of-visual-words Models in Image Scene Classification[J]. Journal of Image and Graphics, 2014, 19(3): 333-343.
[5]李昭慧, 張建奇. 城市街區(qū)星載光學(xué)遙感圖像車輛目標(biāo)自動(dòng)檢測(cè)方法[J]. 紅外與激光工程, 2014, 43(11): 3751-3755.
LI Zhaohui, ZHANG Jianqi. Automatic Vehicle Detection Using Spaceborne Optical Remote Sensing Images in City Area[J]. Infrared and Laser Engineering, 2014, 43(11): 3751-3755.
[6]SCHMIDHUBER J. Deep Learning in Neural Networks: An Overview[J]. Neural Networks, 2015, 61: 85-117
[7]鄭胤, 陳權(quán)崎, 章毓晉. 深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J]. 中國圖象圖形學(xué)報(bào), 2014, 19(2): 175-184.ZHENG Yin, CHEN Quanqi, ZHANG Yujin. Deep Learning and Its New Progress in Object and Behavior Recognition[J]. Journal of Image and Graphics, 2014, 19(2): 175-184.
[8]YAMASHITA T, WATASUE T. Hand Posture Recognition Based on Bottom-up Structured Deep Convolutional Neural Network with Curriculum Learning[C]∥Proceedings of 2014 IEEE International Conference on Image Processing. Paris: IEEE, 2014: 853-857.
[9]SMIRNOV E A, TIMOSHENKO D M, ANDRIANOV S N. Comparison of Regularization Methods for Image Net Classification with Deep Convolutional Neural Networks[J]. AASRI Procedia, 2014, 6: 89-94.
[10]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[11]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Image Net Classification with Deep Convolutional Neural Networks[C]∥Proceeding of the 26th Annual Conference on Neural Information Processing Systems. Lake Tahoe, California: Neural Information Processing Systems Foundation, Inc, 2012: 1097-1105.
[12]CHEN Xueyun, XIANG Shiming, LIU Chenglin, et al. Vehicle Detection in Satellite Images by Hybrid Deep Convolutional Neural Networks[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(10): 1797-1801.
[13]NIU Xiaoxiao, SUEN C Y. A Novel Hybrid CNN-SVM Classifier for Recognizing Handwritten Digits[J]. Pattern Recognition, 2012, 45(4): 1318-1325.
[14]SELTZER M L, DROPPO J. Multi-task Learning in Deep Neural Networks for Improved Phoneme Recognition[C]∥Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 6965-6969.
[15]SPENCER M, EICKHOLTL J, CHENG Jianlin. A Deep Learning Network Approach to ab initio Protein Secondary Structure Prediction[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2015, 12(1): 103-112.
[16]許妙忠, 叢銘, 萬麗娟, 等. 視覺感受與Markov隨機(jī)場(chǎng)相結(jié)合的高分辨率遙感影像分割法[J]. 測(cè)繪學(xué)報(bào), 2015, 44(2): 198-205. DOI:10.11947/j.AGCS.2015.20130453.
XU Miaozhong, CONG Ming, WAN Lijuan, et al. A Methodology of Image Segmentation for High Resolution Remote Sensing Image Based on Visual System and Markov Random Field[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(2): 198-205. DOI:10.11947/j.AGCS.2015.20130453.
[17]CUNHA A L D, ZHOU J, DO M N. The Nonsubsampled Contourlet Transform: Theory, Design, and Applications[J]. IEEE Transactions on Image Processing, 2006, 15(10): 3089-3101.
[18]CHEN Zhenyu, LI Jianping, WEI Liwei, et al. Multiple-kernel SVM Based Multiple-task Oriented Data Mining System for Gene Expression Data Analysis[J]. Expert Systems with Applications, 2011, 38(10): 12151-12159.
[19]ZHENG Xinwei, SUN Xian, FU Kun, et al. Automatic Annotation of Satellite Images via Multifeature Joint Sparse Coding with Spatial Relation Constraint[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 10(4): 652-656.
[20]ZHANG Fan, DU Bo, ZHANG Liangpei. Saliency-guided Unsupervised Feature Learning for Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(4): 2175-2184.
[21]YANG Yi, NEWSAM S. Bag-of-visual-words and Spatial Extensions for Land-use Classification[C]∥Proceedings of the 18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2010: 270-279.
[22]劉揚(yáng), 付征葉, 鄭逢斌. 基于認(rèn)知神經(jīng)計(jì)算模型的高分辨率遙感圖像場(chǎng)景分類[J]. 系統(tǒng)工程與電子技術(shù), 2015, 37(11): 2623-2633.LIU Yang, FU Zhengye, ZHENG Fengbin. Scene Classification of High-resolution Remote Sensing Image Based on Multimedia Neural Cognitive Computing[J]. Systems Engineering and Electronics, 2015, 37(11): 2623-2633.
[23]ZHAO Lijun, TANG Ping, HUO Lianzhi. Land-use Scene Classification Using a Concentric Circle-structured Multiscale Bag-of-visual-words Model[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(12): 4620-4631.
[24]NOGUEIRA K, MIRANDA W O, SANTOS J A D. Improving Spatial Feature Representation from Aerial Scenes by Using Convolutional Networks[C]∥Proceedings of the 2015 28th SIBGRAPI Conference on Graphics, Patterns and Images. Salvador: IEEE, 2015: 289-296.
[25]CHENG Gong, ZHOU Peicheng, HAN Junwei, et al. Auto-encoder-based Shared Mid-level Visual Dictionary Learning for Scene Classification Using Very High Resolution Remote Sensing Images[J]. IET Computer Vision, 2015, 9(5): 639-647.
[26]HU Fan, XIA Guisong, WANG Zifeng, et al. Unsupervised Feature Learning via Spectral Clustering of Multidimensional Patches for Remotely Sensed Scene Classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(5): 2015-2030. [27]CHERIYADAT A M. Unsupervised Feature Learning for Aerial Scene Classification[J]. IEEE Transactions on Geoscience Remote Sensing, 2014, 52(1): 439-451.
[28]PERRONNIN F, SNCHEZ J, MENSINK T. Improving the Fisher Kernel for Large-scale Image Classification[C]∥Proceedings of the 11th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2010: 143-156.
(責(zé)任編輯:陳品馨)
修回日期: 2016-03-30
E-mail: xu_suhui@163.com
中圖分類號(hào):P237
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-1595(2016)07-0834-07
收稿日期:2015-12-10
第一作者簡(jiǎn)介:許夙暉(1989—),女, 博士生, 研究方向?yàn)檫b感圖像處理和模式識(shí)別。First author: XU Suhui(1989—),female, PhD candidate, majors in remote sensing image processing and pattern recognition.
Scene Classification of Remote Sensing Image Based on Multi-scale Feature and Deep Neural Network
XU Suhui,MU Xiaodong,ZHAO Peng,Ma Ji
Department of Information Engineering, Rocket Force Engineering University, Xi’an 710025, China
Abstract:Aiming at low precision of remote sensing image scene classification owing to small sample sizes, a new classification approach is proposed based on multi-scale deep convolutional neural network (MS-DCNN), which is composed of nonsubsampled Contourlet transform (NSCT), deep convolutional neural network (DCNN), and multiple-kernel support vector machine (MKSVM). Firstly, remote sensing image multi-scale decomposition is conducted via NSCT. Secondly, the decomposing high frequency and low frequency subbands are trained by DCNN to obtain image features in different scales. Finally, MKSVM is adopted to integrate multi-scale image features and implement remote sensing image scene classification. The experiment results in the standard image classification data sets indicate that the proposed approach obtains great classification effect due to combining the recognition superiority to different scenes of low frequency and high frequency subbands.
Key words:remote sensing image; scene classification; deep convolutional neural network; nonsubsampled Contourlet transform; multiple-kernel support vector machine
引文格式:許夙暉,慕曉冬,趙鵬,等.利用多尺度特征與深度網(wǎng)絡(luò)對(duì)遙感影像進(jìn)行場(chǎng)景分類[J].測(cè)繪學(xué)報(bào),2016,45(7):834-840. DOI:10.11947/j.AGCS.2016.20150623.XU Suhui,MU Xiaodong,ZHAO Peng,et al.Scene Classification of Remote Sensing Image Based on Multi-scale Feature and Deep Neural Network[J]. Acta Geodaetica et Cartographica Sinica,2016,45(7):834-840. DOI:10.11947/j.AGCS.2016.20150623.