吳 列,齊 華,郎 垚, ,南 軻
1. 四川電力設(shè)計(jì)咨詢有限責(zé)任公司,四川 成都 610016;
2. 西南交通大學(xué) 地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756;
3. 四川省公路規(guī)劃勘察設(shè)計(jì)研究院有限公司,四川 成都610046
隨著對(duì)地觀測(cè)技術(shù)的發(fā)展,高分辨率遙感影像被廣泛地應(yīng)用于土地利用、城市規(guī)劃、環(huán)境監(jiān)測(cè)等領(lǐng)域中[1-3]。遙感影像分類是高分辨率遙感影像信息提取的前提和基礎(chǔ),實(shí)現(xiàn)高精度的分類具有重要的作用和意義[4]。但是,高分辨率遙感影像存在同物異譜、異物同譜、波段較少、高度細(xì)節(jié)化等特點(diǎn),這些都給高分辨率遙感影像的高精度分類帶來了困難[5-6]。傳統(tǒng)的面向?qū)ο蠓诸惙椒ㄒ詫?duì)象作為分析基元,充分利用影像中豐富的形狀、紋理、拓?fù)涞刃畔ⅲ且环N更適合高分辨率遙感影像的分類方法[7]。然而,該方法需要人工設(shè)計(jì)特征,耗時(shí)煩瑣、特征魯棒性不強(qiáng)[8]。深度學(xué)習(xí)的出現(xiàn)為面向?qū)ο蠓诸悗砹诵碌陌l(fā)展,其核心優(yōu)勢(shì)在于能自動(dòng)從影像對(duì)象中提取復(fù)雜的深層次特征[9]?,F(xiàn)在已經(jīng)有諸多學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用于遙感影像面向?qū)ο蠓诸愌芯恐?,主要從分割算法?yōu)化和用于特征提取的模型選擇上開展研究[10-15]。ZHAO等[10]利用5層卷積神經(jīng)網(wǎng)絡(luò)從以像素為中心的對(duì)象中提取深層次特征,并分別在3種展現(xiàn)不同城市場(chǎng)景的高分辨率遙感影像上進(jìn)行分類實(shí)驗(yàn);滕文秀[11]將面向?qū)ο蠛蜕顚哟翁卣飨嘟Y(jié)合用于樹種分類,利用VGGNet網(wǎng)絡(luò)實(shí)現(xiàn)樹種分類;陳斌等[12]利用GoogleNet網(wǎng)絡(luò)從分割對(duì)象中提取特征,實(shí)現(xiàn)中分辨率遙感影像的分類;ZHANG等[15]在分割階段采用最小生成樹分割算法,設(shè)計(jì)雙輸入網(wǎng)絡(luò)進(jìn)行特征提取和分類。
基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型隨著網(wǎng)絡(luò)層數(shù)不斷增加,提取的特征表達(dá)不盡相同,淺層特征表達(dá)的是結(jié)構(gòu)特征,深層特征表達(dá)的則是語(yǔ)義特征[16]。而現(xiàn)有的面向?qū)ο蠓诸惙椒ㄖ胁捎玫纳疃葘W(xué)習(xí)模型未考慮淺層特征和深層特征之間的相互聯(lián)系,提取的特征仍為單一層次特征,存在特征表達(dá)不充分的問題,如何自動(dòng)提取表達(dá)更充分的多層次特征是提高高分辨率遙感影像分類精度的關(guān)鍵。
DenseNet網(wǎng)絡(luò)的核心在于卷積層之間的密集連接。密集連接方式能實(shí)現(xiàn)每一次層輸入都是前面所有層的信息的匯總,可以有效顧及各個(gè)層之間特征的聯(lián)系。鑒于此,本文研究了一種結(jié)合密集連接和特征重標(biāo)定的高分辨率遙感影像分類方法。首先結(jié)合數(shù)字表面模型參與影像分割得到初始分割圖斑;然后以具有密集連接結(jié)構(gòu)的DenseNet作為基礎(chǔ)網(wǎng)絡(luò),在此基礎(chǔ)上引入SE模塊,SE模塊能自動(dòng)評(píng)估不同特征的重要程度,并為不同特征賦予不同的權(quán)重,進(jìn)一步提高特征的代表性和區(qū)分性,設(shè)計(jì)最優(yōu)的SE_DenseNet網(wǎng)絡(luò)結(jié)構(gòu),提取表達(dá)更充分的多層次融合特征;最后利用最優(yōu)SE_DenseNet網(wǎng)絡(luò)進(jìn)行影像分類,并在公開數(shù)據(jù)集上通過實(shí)驗(yàn)驗(yàn)證本文方法的有效性。
DenseNet網(wǎng)絡(luò)[17]是由黃高和劉壯等人提出的一種卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)因卷積層之間密集連接的方式而得名,即任何層與所有后續(xù)層都直接連接,每一次的輸入都是前面集體知識(shí)的總和,構(gòu)建了多層次的融合特征,最終分類器根據(jù)提取的特征做出準(zhǔn)確的分類預(yù)判。標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)與DenseNet網(wǎng)絡(luò)的連接方式對(duì)比如圖1所示,此處H1、H2、H3、H4是諸如卷積、池化、批量歸一化或整流線性單位等操作的函數(shù)組合,X0、X1、X2、X3、X4表示每一次經(jīng)過上述操作后得到的特征圖。前者只在鄰近層之間有連接,第4層卷積的輸入只包括第3層卷積單一層次的輸出;后者在所有層之間都直接相連,第4層卷積的輸入是前面所有卷積層X0、X1、X2、X3輸出的串聯(lián)總和。因此,DenseNet網(wǎng)絡(luò)可以有效顧及各個(gè)層次特征之間的直接聯(lián)系,更適合蘊(yùn)含復(fù)雜信息的高分辨率遙感影像的分類任務(wù)。
圖1 標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)與DenseNet網(wǎng)絡(luò)連接方式對(duì)比Fig.1 Comparison between standard convolutional neural network and DenseNet network
DenseNet網(wǎng)絡(luò)主要由DenseNet(密集模塊)、Transitonlayer(過渡層)兩個(gè)結(jié)構(gòu)交替組成(圖2),前者是通過密集連接的方式提取多層次的卷積特征,使特征表達(dá)更充分;后者是對(duì)密集模塊輸出特征圖進(jìn)行下采樣,從而實(shí)現(xiàn)尺度的變化。DenseNet網(wǎng)絡(luò)根據(jù)層數(shù)的不同分為 DenseNet121、DenseNet169、DenseNet201,本文采用DenseNet121網(wǎng)絡(luò)作為基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)[17],如圖2所示,N表示一個(gè)密集模塊中密集層的個(gè)數(shù),Conv表示卷積,Pool表示池化,BN表示批量歸一化,F(xiàn)C表示全連接。
圖2 DenseNet 121網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 DenseNet 121 network structure
SE(Squeeze-and-Excitation)模塊是由HU等[18]在2017年提出的一種注意力機(jī)制,是一個(gè)新的架構(gòu)單元,可以靈活集成在卷積神經(jīng)網(wǎng)絡(luò)的不同位置,并非一個(gè)獨(dú)立的網(wǎng)絡(luò)。SE架構(gòu)可以自動(dòng)學(xué)習(xí)在卷積過程中每個(gè)特征圖的重要程度,對(duì)所含信息的價(jià)值進(jìn)行衡量,為不同特征圖賦予不同的權(quán)重,改善相同特征權(quán)重導(dǎo)致的網(wǎng)絡(luò)對(duì)特征敏感度降低的問題。
SE模塊進(jìn)行特征重標(biāo)定的過程如圖3所示,在一般的卷積神經(jīng)網(wǎng)絡(luò)中,給定一個(gè)輸入 ,經(jīng)過一系列卷積操作得到新的特征 。添加了SE模塊的網(wǎng)絡(luò)模型通過壓縮、激發(fā)、特征重標(biāo)定等3個(gè)操作來重標(biāo)定前面得到的Y中每個(gè)特征通道的權(quán)重,最終得到帶權(quán)重的輸出Ys,其中 表示在經(jīng)過壓縮操作后得到的降維特征向量值。
圖3 SE模塊示意圖Fig.3 SE module structure
因此,本文在DenseNet網(wǎng)絡(luò)中引入SE模塊實(shí)現(xiàn)特征重標(biāo)定策略,提高網(wǎng)絡(luò)對(duì)特征的敏感度,增加特征的區(qū)分性和代表性,使特征表達(dá)得更加充分。
SE模塊可以靈活地集成在DenseNet網(wǎng)絡(luò)中,不同的集成策略會(huì)產(chǎn)生不同的效果。針對(duì)高分辨遙感影像分類任務(wù),選擇合適的集成策略可以更好地提升網(wǎng)絡(luò)模型的性能,取得更好的分類精度。本文根據(jù)SE模塊集成的位置不同,設(shè)計(jì)了4種集成策略(圖4):集成策略1,SE模塊被設(shè)置在密集模塊中的每個(gè)密集層之后和每個(gè)過渡層之前;集成策略2,SE模塊被集成在密集模塊中的每個(gè)密集層之后;集成策略3,在每個(gè)密集模塊和過渡層之前設(shè)置SE模塊;集成策略4,SE模塊只出現(xiàn)在每個(gè)密集模塊之前。
圖4 SE_DenseNet的4種集成策略結(jié)構(gòu)圖Fig.4 Four integration strategies of SE_DenseNet
本文通過實(shí)驗(yàn)對(duì)比不同集成策略的效果,4種集成策略的模型精度對(duì)比如圖5所示,集成策略2的模型精度最高,集成策略4的模型精度最低。因此,本文選集成策略2構(gòu)建最優(yōu)的SE_DenseNet網(wǎng)絡(luò)。
圖5 SE_DenseNet的4種集成策略精度對(duì)比Fig.5 Accuracy comparison of different integration strategies
本文以DenseNet121網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),分為密集模塊、過渡層兩個(gè)結(jié)構(gòu),每個(gè)密集模塊由不同個(gè)數(shù)的密集層組成,每個(gè)密集層的結(jié)構(gòu)為BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)。將SE模塊集成到密集模塊中的每一個(gè)密集層之后構(gòu)成新的結(jié)構(gòu)SE_Denseblock,具體 結(jié) 構(gòu) 為 BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)-SE。其中,Conv(m×m)表示卷積層中卷積核的大小為m×m;Relu表示激勵(lì)函數(shù)為Relu激勵(lì)函數(shù)。
完整的SE_DenseNet網(wǎng)絡(luò)模型結(jié)構(gòu)如圖6所示,主要由4個(gè)SE_Denseblock和3個(gè)過渡層交替組成,其中4個(gè)SE_Denseblock中的密集層數(shù)量分別為6、12、24、16。在經(jīng)過上述結(jié)構(gòu)后,利用一個(gè)全局平均池化層求每一個(gè)特征圖的所有像素值的平均值,再進(jìn)行全局空間信息求和,最后采用全連接層將學(xué)習(xí)到的特征映射到樣本標(biāo)記空間的7維向量,得到最終的分類結(jié)果。
胃癌患者就診時(shí),病情大都已經(jīng)發(fā)展至中晚期,患者單純接受保守治療的效果欠佳,臨床上均強(qiáng)調(diào)為患者以手術(shù)治療。臨床上為胃癌患者行手術(shù)治療時(shí),麻醉藥物的選擇尤為關(guān)鍵,本次研究中旨在對(duì)右美托咪啶對(duì)胃癌手術(shù)麻醉應(yīng)激反應(yīng)的抑制作用作探討?,F(xiàn)報(bào)告如下。
圖6 最優(yōu)SE_DenseNet結(jié)構(gòu)Fig.6 Optimal SE_DenseNet structure
根據(jù)面向?qū)ο蠓诸惖乃枷?,本文方法的分類流程包括影像分割、樣本集建立、模型?xùn)練、影像分類4個(gè)步驟(圖7)。
圖7 分類方法技術(shù)流程圖Fig.7 Workflow of classification method
首先,采用數(shù)字表面模型約束下的多尺度分割算法獲得分割圖斑作為分析基元,多尺度分割算法采用分型網(wǎng)絡(luò)演化算法[19],在數(shù)字表面模型約束下的多源數(shù)據(jù)協(xié)同分割能改善地物分割質(zhì)量;其次,按照真實(shí)地物類別對(duì)分割圖斑進(jìn)行樣本標(biāo)注,建立訓(xùn)練樣本集和測(cè)試樣本集,分割圖斑是分割對(duì)象最小外接矩形,背景值以0填充,通過拉伸放縮操作固定到統(tǒng)一尺寸;再次,通過ImageNet數(shù)據(jù)集得到預(yù)訓(xùn)練的SE_DenseNet模型,并利用訓(xùn)練樣本集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到最優(yōu)模型;最后,將待分類影像采用相同方法進(jìn)行分割,再利用訓(xùn)練好的最優(yōu)模型實(shí)現(xiàn)影像的高精度分類,得到分類結(jié)果圖。
本文實(shí)驗(yàn)硬件平臺(tái)CPU為Inter(R) Xeon(R)E5-2640 v4 2.40GHz,GPU為NVIDIA Tesla P40 24GB,內(nèi)存為128G配置,采用PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)具體卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
本文實(shí)驗(yàn)使用國(guó)際攝影測(cè)量與遙感協(xié)會(huì)ISPRS公開的Vaihingen城市分類和三維建筑重建遙感數(shù)據(jù)集。該數(shù)據(jù)集包括數(shù)字正射影像、數(shù)字表面模型、數(shù)字航空影像、機(jī)載激光掃描數(shù)據(jù)和影像對(duì)應(yīng)的真實(shí)地物類別等數(shù)據(jù)。圖8所示為實(shí)驗(yàn)數(shù)據(jù)集中的數(shù)字航空影像及對(duì)應(yīng)的數(shù)字表面模型。本文實(shí)驗(yàn)樣本數(shù)據(jù)集參照ISPRS分類標(biāo)準(zhǔn)將樣本采集影像共分為7類地物,分別為不透水面、建筑物、樹木、草地、裸地、水體、車輛。影像分割后在易康軟件中按照類別對(duì)樣本進(jìn)行標(biāo)注,導(dǎo)出不同類別的面矢量文件,通過打碎、批量裁剪等操作方式變成能輸入模型的尺寸統(tǒng)一的規(guī)則圖斑。樣本數(shù)據(jù)采取幾何變換的方式進(jìn)行數(shù)據(jù)增強(qiáng),最終得到的訓(xùn)練樣本和測(cè)試樣本數(shù)量分別為83 094個(gè)和11 516個(gè)。
圖8 實(shí)驗(yàn)數(shù)據(jù)Fig.8 Experimental data
1)在影像分割階段,利用分形網(wǎng)絡(luò)演化算法對(duì)分類的高分辨率遙感影像進(jìn)行數(shù)字表面模型參與下的多尺度分割。參考論文[20]參數(shù)設(shè)置并借助目視解譯分割,分割尺度設(shè)置為245,形狀參數(shù)和緊致度參數(shù)設(shè)置為0.2和0.4,波段權(quán)重都設(shè)置為1。
2)在模型訓(xùn)練階段,利用在ImageNet數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練后的網(wǎng)絡(luò)參數(shù)對(duì)SE_DenseNet進(jìn)行參數(shù)初始化,再利用訓(xùn)練樣本集對(duì)模型進(jìn)行訓(xùn)練,采用交叉熵[21]計(jì)算損失值,采用隨機(jī)梯度下降[22]的方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。模型迭代的輪數(shù)最大為50,批訓(xùn)練的樣本數(shù)量設(shè)置為60,學(xué)習(xí)率隨著訓(xùn)練的深入不斷調(diào)整,初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量為0.09,學(xué)習(xí)率衰減的步長(zhǎng)為5,學(xué)習(xí)率衰減的乘數(shù)因子為0.2。
3)在影像分類階段,采用同樣的分割參數(shù)對(duì)分類影像進(jìn)行分割,再利用訓(xùn)練完成的模型實(shí)現(xiàn)影像分類。
本文以F1-score作為影像分類精度的定量評(píng)價(jià)指標(biāo)。F1-score是精度與召回率的調(diào)和平均數(shù),能夠全面地反映網(wǎng)絡(luò)模型對(duì)樣本的識(shí)別與區(qū)分能力,計(jì)算公式如下:
本文方法的分類結(jié)果如圖9所示,影像整體分類效果與真實(shí)地類相似度高,所有地物均能分到正確的類別中。
圖9 分類結(jié)果與真實(shí)地類對(duì)比圖Fig.9 Comparison map between classification result and real land type
為了科學(xué)地評(píng)價(jià)本文方法的性能,將其與DT(決策樹)、RF(隨機(jī)森林)等傳統(tǒng)機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)方法中的 AlexNet[23]、VGGNet[24]、GoogleNet[25]、ResNet[26]、DenseNet等網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)(圖10)。
圖10 分類結(jié)果對(duì)比圖Fig.10 Comparison of classification results
從圖10可以看出,傳統(tǒng)機(jī)器學(xué)習(xí)分類方法RF、DT錯(cuò)分現(xiàn)象明顯,無法有效識(shí)別陰影區(qū)域。AlexNet和VGG網(wǎng)絡(luò)錯(cuò)分現(xiàn)象較少,但在細(xì)碎的建筑圖斑及樹木和草地的區(qū)分等方面分類效果不佳。GoogLeNet、ResNet網(wǎng)絡(luò)整體分類效果較好,但在不同類別的地物分類上表現(xiàn)不夠穩(wěn)定,且一些建筑物邊緣的細(xì)碎圖斑分類仍不夠準(zhǔn)確。DenseNet網(wǎng)絡(luò)在不同類別的地物分類上表現(xiàn)較穩(wěn)定,且對(duì)建筑物邊緣的細(xì)碎圖斑識(shí)別效果較好。本文方法整體分類效果最好,能有效地區(qū)分建筑物和不透水面、樹木和草地等易混淆地類,準(zhǔn)確識(shí)別陰影區(qū)域地物類別。
表1顯示了不同方法的每一類地物的F1值和平均F1值??偟膩砜?,傳統(tǒng)的面向?qū)ο蠓诸惙椒ǎ―T、RF)平均F1值較低,僅為82.3%、84.5%,這是由于傳統(tǒng)的面向?qū)ο蠓诸惙椒槭止ぴO(shè)計(jì)的淺層特征,無法滿足高分辨率遙感影像的分類要求。AlexNet和VGGNet網(wǎng)絡(luò)在平均F1值與傳統(tǒng)方法大致相同,分別為83.1%、85.2%,這是由于AlexNet、VGG網(wǎng)絡(luò)為單一連接結(jié)構(gòu),利用單一層次特征進(jìn)行分類,無法實(shí)現(xiàn)多層次特征信息融合,分類精度較低。ResNet和GoogLeNet網(wǎng)絡(luò)平均F1值有所提高,分別達(dá)到90.7%、90.9%。但是二者對(duì)不同地物的識(shí)別效果表現(xiàn)不穩(wěn)定,如前者在樹木和草地上的分類精度優(yōu)于后者,但后者在建筑物上的分類精度更高。這是由于兩種網(wǎng)絡(luò)卷積層之間采取的連接策略不同,特征表達(dá)不全面,針對(duì)性有所差異,難以滿足不同地類的分類要求。
表1 分類精度對(duì)比表Tab.1 Comparison of classification accuracy
DenseNet網(wǎng)絡(luò)的平均F1值為91.5%,相較于前幾種網(wǎng)絡(luò)中F1值最高的ResNet網(wǎng)絡(luò)提升了0.6%,這表明通過密集連接方式融合的多層次特征的表達(dá)力更充分,分類精度更高。本文方法的平均F1值達(dá)到93.4%,在每一類別的分類精度上均有改善,對(duì)地物類別識(shí)別能力更穩(wěn)定,相比其他方法在草地和樹木這兩類地物分類上表現(xiàn)突出,F(xiàn)1值達(dá)到了88.3%、92.4%。這說明通過密集連接和特征重標(biāo)定的方式構(gòu)建的深層次特征表達(dá)能力最強(qiáng),模型預(yù)測(cè)能力更佳,能實(shí)現(xiàn)高分辨率遙感影像高精度分類。
本文研究了基于深度學(xué)習(xí)的高分辨率遙感影像面向?qū)ο蠓诸惙椒ǎ瑥臉?gòu)建具有代表性和區(qū)分性的多層次融合特征角度出發(fā),提出一種結(jié)合密集連接和特征重標(biāo)定的分類方法。本文的創(chuàng)新工作主要在于構(gòu)建了最優(yōu)SE_DenseNet網(wǎng)絡(luò),其中作為基礎(chǔ)的DenseNet網(wǎng)絡(luò)因有密集連接方式,可顧及不同層次特征之間的聯(lián)系從而增強(qiáng)特征表達(dá)力;將SE模塊集成到DenseNet基礎(chǔ)網(wǎng)絡(luò)中,設(shè)計(jì)的SE_DenseNet網(wǎng)絡(luò)在注意力機(jī)制的引導(dǎo)下,能為重要程度不同的特征圖賦予不同的權(quán)重,從而進(jìn)一步增強(qiáng)特征的表達(dá)力。通過ISPRS公開的Vaihingen遙感數(shù)據(jù)集測(cè)試驗(yàn)證,結(jié)果表明,本文方法設(shè)計(jì)的網(wǎng)絡(luò)提取的帶有權(quán)重的多層次融合特征表達(dá)能力更強(qiáng),優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和其他深度學(xué)習(xí)分類方法,能提高影像分類精度,更適合于地物信息復(fù)雜的高分辨率遙感影像分類任務(wù)。
如何在影像分類階段通過波段疊加或者特征階段聯(lián)合的方式引入多源數(shù)據(jù),為深層次網(wǎng)絡(luò)模型提供更多可學(xué)習(xí)信息是下一步研究工作的重點(diǎn)。