徐勝軍,歐陽(yáng)樸衍,郭學(xué)源,Khan Taha Muthar
(1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055;2.清華大學(xué)建筑設(shè)計(jì)院有限公司,北京 100084)
遙感圖像的分割是圖像分割領(lǐng)域中一項(xiàng)具有挑戰(zhàn)的任務(wù)。遙感圖像建筑物語(yǔ)義分割在國(guó)防安全、國(guó)土資源管理和土地規(guī)劃等方面有著重要的研究意義和應(yīng)用價(jià)值。
遙感圖像建筑物分割的實(shí)質(zhì)是通過(guò)提取有效的圖像特征,建立輸入圖像與輸出建筑物特征之間的映射關(guān)系。傳統(tǒng)遙感圖像分割方法[1-4]通過(guò)在特征空間的基礎(chǔ)上利用數(shù)學(xué)方法建立分割又模型,常用傳統(tǒng)方法有基于邊緣的分割方法、基于閾值的分割方法和基于區(qū)域的分割方法等。Li等[1]提出一種利用嵌入置信度的邊緣檢測(cè)器檢測(cè)邊緣信息,來(lái)提升對(duì)弱邊界的分割并有效減少遙感圖像建筑物的過(guò)度分割。Wang等[2]提出了一種基于多尺度特征區(qū)域融合和空間規(guī)則歸納的圖像特征提取方法,提升高空間分辨率遙感圖像分割精度。Deng等[3]提出了一種利用圖像的灰度直方圖確定閾值范圍的方法處理圖像,獲取遙感圖像分割結(jié)果。傳統(tǒng)方法分割遙感圖像過(guò)程中特征表達(dá)通常通過(guò)人工設(shè)計(jì),對(duì)圖像表達(dá)多數(shù)為低層次特征,受多閾值選擇限制、圖像邊界信息不連續(xù)和遙感圖像空間關(guān)系應(yīng)用較少等因素影響較大。
近年來(lái),利用深度學(xué)習(xí)算法實(shí)現(xiàn)建筑物自動(dòng)分割得到廣泛關(guān)注。與傳統(tǒng)方法相比,深度學(xué)習(xí)算法[5-14]可以有效克服人工目視解譯,人工勞動(dòng)成本高和效率低等問(wèn)題,針對(duì)具體的遙感圖像分割問(wèn)題自主學(xué)習(xí)合適的圖像特征,自動(dòng)建立圖像到分割目標(biāo)間的映射關(guān)系。Lin等[5]提出了一種基于AlexNet[6]深度監(jiān)督策略的方法來(lái)提高AlexNet遙感場(chǎng)景分類模型中間層的泛化能力,細(xì)化圖像特征,有效解決過(guò)擬合等問(wèn)題實(shí)現(xiàn)遙感圖像分割目的。Wang等[7]提出了一種基于ResNet(residual network,ResNet)[8]豐富層次信息提取圖像特征的方法,充分描述遙感圖像中的豐富語(yǔ)義信息提升圖像分割精度。Li等[9]提出了一種基于UNet(Unity Networking,UNet)[10]的帶有收縮路徑和擴(kuò)展路徑結(jié)構(gòu)的深度卷積網(wǎng)絡(luò)模型,改進(jìn)UNet結(jié)構(gòu)模塊連接方式來(lái)提升遙感圖像分割精度。Yang等[11]等提出了一種基于SegNet[12]應(yīng)用于遙感圖像建筑物提取的方法,實(shí)現(xiàn)高維特征的低維提取,解碼器網(wǎng)絡(luò)將低分辨率特征映射傳遞到高空間分辨率特征映射來(lái)實(shí)現(xiàn)遙感圖像建筑物的提取和分割。Xu等[13]提出一種基于端到端的全卷積神經(jīng)網(wǎng)絡(luò)FCN(fully convolutional networks,FCN),將網(wǎng)絡(luò)通道分組,在不同任務(wù)通道上分別對(duì)圖像進(jìn)行特征提取并共享特征再進(jìn)行融合,提升圖像分割精度。
上述基于深度學(xué)習(xí)分割遙感圖像建筑物的幾種模型一定程度上可以提升圖像的分割效果,但對(duì)于遙感圖像中多尺度的建筑物無(wú)法完整自適應(yīng)提取,建筑物邊界所提取的特征存在不清晰和丟失等現(xiàn)象。針對(duì)以上問(wèn)題,提出一種利用膨脹卷積提取特征并多尺度特征融合的深度網(wǎng)絡(luò)模型(multiscale- feature fusion deep neural networks with dilated convolution,MDNNet),自動(dòng)提取多尺度遙感圖像建筑物特征,解決傳統(tǒng)深度網(wǎng)絡(luò)模型提取遙感圖像建筑物受道路、樹(shù)木、陰影等因素影響提取目標(biāo)邊界特征不清晰和丟失等問(wèn)題,提升建筑物分割精度。
提出模型MDNNet以ResNet殘差網(wǎng)絡(luò)結(jié)構(gòu)中的ResNet101為基礎(chǔ)網(wǎng)絡(luò)模型,主要由膨脹卷積網(wǎng)絡(luò)模塊,多尺度特征融合模塊和特征解碼模塊組成。首先利用不同擴(kuò)張率的膨脹卷積獲取不同尺度的遙感圖像建筑物特征信息,提取過(guò)程不對(duì)圖像進(jìn)行下采樣處理可以避免由于分辨率降低造成圖像細(xì)節(jié)信息損失;其次從不同尺度融合圖像特征來(lái)獲取不同尺度的上下文信息,加強(qiáng)模型對(duì)不同尺寸大小建筑物目標(biāo)的提取能力;最終利用解碼模塊將經(jīng)過(guò)特征融合模塊的各級(jí)特征綜合利用,恢復(fù)圖像原有分辨率輸出分割結(jié)果,實(shí)現(xiàn)對(duì)目標(biāo)邊界的精細(xì)化分割。提出的MDNNet模型結(jié)構(gòu)如圖1所示。
圖1 MDNNet模型結(jié)構(gòu)
深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)中隨著網(wǎng)絡(luò)層數(shù)的逐漸增多,會(huì)出現(xiàn)誤差增高,梯度消失等現(xiàn)象,使得訓(xùn)練效果變差。ResNet殘差網(wǎng)絡(luò)在深度神經(jīng)網(wǎng)絡(luò)中增加殘差結(jié)構(gòu),學(xué)習(xí)目標(biāo)是多個(gè)網(wǎng)絡(luò)層輸入和輸出間的殘差,其映射關(guān)系為:
fResNet(i,w)=fR(i,w)-i=hi-i
(1)
式中,i為網(wǎng)絡(luò)輸入,hi為網(wǎng)絡(luò)輸出,w為深度神經(jīng)網(wǎng)絡(luò)權(quán)重,fResNet為ResNet網(wǎng)絡(luò)輸入圖像和輸出特征之間的映射關(guān)系,fR(i,w)是常規(guī)網(wǎng)絡(luò)結(jié)構(gòu)入圖像和輸出特征之間的映射關(guān)系。訓(xùn)練結(jié)果在保證信息完整性的同時(shí)簡(jiǎn)化學(xué)習(xí)目標(biāo),輸入的變化可以反應(yīng)損失函數(shù)的變化產(chǎn)生較大梯度,避免梯度消失,加快訓(xùn)練過(guò)程中收斂速度。
ResNet的基礎(chǔ)模塊由Building block或bottleneck組成。Building block結(jié)構(gòu)包含一個(gè)殘差支路和short-cut支路,與傳統(tǒng)結(jié)構(gòu)相比多了一個(gè)short-cut支路。Building block結(jié)構(gòu)如圖2。
圖2 Building block結(jié)構(gòu)
Bottleneck通過(guò)一個(gè)1×1的卷積減少通道數(shù),最后的1×1卷積來(lái)恢復(fù)通道數(shù)量,使結(jié)構(gòu)中輸出通道數(shù)輸入通道數(shù)相同。Bottleneck結(jié)構(gòu)如圖3。
圖3 Bottleneck結(jié)構(gòu)
ResNet101網(wǎng)絡(luò)整體模型由1×1、3×3、1×1的卷積堆疊而成,整體模型結(jié)構(gòu)如圖4。
圖4 ResNet101網(wǎng)絡(luò)結(jié)構(gòu)
在利用ResNet101提取遙感圖像特征時(shí),連續(xù)的池化和其他采樣操作通過(guò)降低圖像尺寸的方法增大提取特征,使圖像分辨率損失從而丟失大量局部細(xì)節(jié)信息,不利于圖像邊緣信息提取。為了解決以上問(wèn)題,當(dāng)利用殘差模塊使圖像分辨率縮小到原圖1/8時(shí),在ResNet101中引入膨脹卷積模塊。模塊中利用不同擴(kuò)張率的膨脹卷積代替普通卷積來(lái)依次增大卷積核感受野。
膨脹卷積與普通卷積相比增添了一個(gè)“擴(kuò)張率(dilation rate,rate)”的參數(shù),來(lái)定義卷積核處理數(shù)據(jù)時(shí)各值的間距,卷積內(nèi)剩下點(diǎn)的權(quán)重用0填充,使得在增加卷積感受野的同時(shí)不增加卷積的參數(shù)量。擴(kuò)張率的選取由圖像原始尺寸的大小和提取特征圖的大小來(lái)決定,分別以rate=6、rate=12、rate=18的擴(kuò)張率的膨脹卷積來(lái)從多個(gè)角度提取建筑物特征信息,具體結(jié)構(gòu)如圖5所示。
圖5 膨脹卷積結(jié)構(gòu)
膨脹卷積提取特征圖的大小會(huì)因膨脹卷積的擴(kuò)張率不同而改變,運(yùn)算如下:
k′=d(k-1)+1
(2)
h′=(h+2p-k′)/s+1
(3)
式中,s為步長(zhǎng),d為膨脹率,k為原始卷積尺寸,k′為膨脹卷積尺寸,為輸入特征圖的分辨率大小,h′為輸出特征圖分辨率大小,p為填充大小。
為了在訓(xùn)練過(guò)程中令每次權(quán)重的更新保持相同,克服隨著卷積層數(shù)增多,卷積運(yùn)算帶來(lái)的輸入和輸出的數(shù)據(jù)分布變化,降低訓(xùn)練難度,在每個(gè)卷積層輸入前增加BN(Batch Normalization)層,將數(shù)據(jù)轉(zhuǎn)化成均值為0和方差為1 的規(guī)范形式。BN層的運(yùn)算如表1所示。
表1 BN層運(yùn)算表
γ的初始值為1,β的初始值為0,變化率如下:
(4)
(5)
(6)
(7)
(8)
(9)
引入膨脹卷積后的ResNet101 卷積層通過(guò)依次增大擴(kuò)張率使得卷積核的感受野依次增大,獲取不同尺度的遙感圖圖像特征信息;膨脹卷積在不增加參數(shù)量的基礎(chǔ)上擴(kuò)大感受野,不需要下采樣降低圖像的分辨率,利于較高層語(yǔ)義特征的學(xué)習(xí)。
在遙感圖像建筑物特征提取時(shí),在利用膨脹卷積提取的多尺度特征無(wú)法精確對(duì)不同尺寸大小的建筑物完成自適應(yīng)的識(shí)別,為了進(jìn)一步對(duì)膨脹卷積提取的多尺度特征分析,將膨脹卷積提取的特征放入多尺度特征模塊,對(duì)重疊的不同尺度特征通過(guò)全局平均池化進(jìn)行特征融合生成不同空間分辨率的特征,有效利用圖像空間上下文信息。
多尺度特征融合結(jié)構(gòu)包含1×1的普通卷積核采樣率rate分別為6、12、18的膨脹卷積,輸出通道為256,最后包含一個(gè)BN層。多尺度特征融合結(jié)構(gòu)如圖6所示。
圖6 膨脹卷積結(jié)構(gòu)
膨脹卷積提取的第i層特征的輸出為:
(10)
式中,第i層的卷積輸入為X(i),輸出為Z(i),權(quán)重參數(shù)為b(i)。膨脹卷積輸出的各級(jí)特征Z(i)經(jīng)過(guò)多尺度特征融合多個(gè)層次特征,模塊中帶有4個(gè)基礎(chǔ)全局平均池化單元,根據(jù)遙感圖像的分辨率和被提取建筑物的分辨率大小的不同進(jìn)行調(diào)整,全局池化后特征圖的分辨率大小分別為1×1、3×3、6×6和12×12。由于全局池化后獲取的特征權(quán)重較大,通過(guò)卷積核為1×1的卷積層減少輸出的通道數(shù),減小權(quán)重后的特征圖通道數(shù)是經(jīng)過(guò)N次多尺度特征融合的1/N。A(i)為第i層多尺度融合特征,各層輸出尺寸如表2。
表2 多尺度特征融合輸出表
遙感圖像通過(guò)膨脹卷積提取特征和多尺度特征融合對(duì)特征融合后,利用特征解碼模塊將各層特征圖的空間分辨率恢復(fù)到與輸入多尺度特征融合模塊相同的分辨率。特征解碼模塊為下采樣的逆過(guò)程。遙感圖像分割過(guò)程中,圖像的輸入為向量為X=x1,x2,…xmT,輸出向量為Y=y1,y2,…ynT,解碼模塊輸出的損失函數(shù)為Q,則卷積的方向傳播如下:
(11)
(12)
式中,C為遙感圖像輸入輸出的卷積矩陣,Cij為矩陣C第i行第j列元素,Call,i=C1,i…Cm,i,解碼模塊輸出為:
(13)
通過(guò)解碼模塊將不同尺度的特征圖和原始特征圖恢復(fù)到輸入圖像的原始尺寸,輸出遙感圖像建筑物分割結(jié)果。
實(shí)驗(yàn)基于Linux操作系統(tǒng),采用2個(gè)NVIDIA TitanV Volta 12 G顯卡作為GPU處理單元,32 G內(nèi)存,CPU Inter E5處理器,pytorch-1.0.2的深度學(xué)習(xí)框架,Nvidia公司CUDA8.0GPU運(yùn)算平臺(tái)及cuDNN6.0深度學(xué)習(xí)GPU加速庫(kù)。實(shí)驗(yàn)選取WHU Building change detection dataset遙感圖像數(shù)據(jù)集驗(yàn)證提出模型的有效性,數(shù)據(jù)集包含建筑物、樹(shù)木、道路、湖泊、草地等多類地表物,圖像的原始空間分辨率為0.075米。將原始圖片裁剪成像素大小為512×512的8 189張含有遙感圖像建筑物的圖片,為了避免選區(qū)樣本的偶然性并有效評(píng)估提出模型的泛化能力,將裁剪的圖片中4 736張作為訓(xùn)練集,1 036張作為驗(yàn)證集,2 416張作為測(cè)試集。
提出網(wǎng)絡(luò)模型初始化權(quán)值來(lái)自在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的結(jié)果,其他參數(shù)初始值為零,通過(guò)梯度下降法訓(xùn)練模型,迭代總次數(shù)為250 000,基本學(xué)習(xí)率為0.01,每迭代5 000次學(xué)習(xí)率下降0.1倍,學(xué)習(xí)率變換如下:
lr′=lr×(1-i/m)power
(14)
式中,lr′為變換后的學(xué)習(xí)率,lr變換前的學(xué)習(xí)率,i當(dāng)下迭代次數(shù),m迭代總次數(shù),power是多項(xiàng)式的冪來(lái)控制學(xué)習(xí)率衰減。
為了對(duì)提出模型進(jìn)行量化分析,對(duì)比不同方法分割結(jié)果,采用像素準(zhǔn)確率(pixel accuracy, PA)、平均交并比(mean Intersection over Union, mIoU)和召回率(Recall Rate,Recall)作為定量評(píng)價(jià)指標(biāo)。
評(píng)價(jià)指標(biāo)像素準(zhǔn)確率PA表示正確識(shí)別出建筑物占真實(shí)建筑物的比例,指標(biāo)的計(jì)算公式如下:
(15)
式中,k為識(shí)別類別總數(shù),pij為像素類i被預(yù)測(cè)為像素類j的總量,pii為像素類i,的像素被預(yù)測(cè)為像素類i的總量。
評(píng)價(jià)指標(biāo)平均交并比mIoU表示圖像真實(shí)值集合與圖像預(yù)測(cè)值集合的交集和并集的比例,指標(biāo)的計(jì)算公式如下:
(16)
式中,k為識(shí)別類別總數(shù),nii表示第i類實(shí)際類別預(yù)測(cè)結(jié)果為j的像素點(diǎn)數(shù)量,ti為i類的像素點(diǎn)總數(shù),pi為i類預(yù)測(cè)結(jié)果的總像素?cái)?shù)量。
評(píng)價(jià)指標(biāo)召回率Recall表示在不考慮遙感圖像背景時(shí),分割建筑物的像素點(diǎn)與真實(shí)標(biāo)注像素點(diǎn)比例,指標(biāo)的計(jì)算公式如下:
(17)
其中:Bseg為圖像分割中與標(biāo)注圖像相比正確分割的像素點(diǎn)數(shù)量,Iunseg為與標(biāo)注圖像系相比未正確分割的像素點(diǎn)數(shù)量。
為了驗(yàn)證提出模型的有效性,對(duì)比幾種不同模型之間的量化指標(biāo)差異,對(duì)比模型包括:FCN模型[15]、ResNet模型[8]和ResNetCRF(ResNet Conditional Random Fields,ResNetCRF)模型[16],訓(xùn)練過(guò)程如圖7~9所示。
圖7 PA訓(xùn)練過(guò)程
圖8 mIoU訓(xùn)練
圖9 Recall訓(xùn)練過(guò)程
不同方法網(wǎng)絡(luò)模型大小與訓(xùn)練速度如表3所示。
表3 網(wǎng)絡(luò)模型大小與訓(xùn)練時(shí)間
不同方法遙感圖像分割性能定量分析如表4所示。
表4 實(shí)驗(yàn)結(jié)果性能評(píng)價(jià)指標(biāo)對(duì)比
從表3、表4可以看出,提出模型與對(duì)比模型相比較取得了最高的像素準(zhǔn)確率(PA)、最高的平均交并比(mIoU)和最高的召回率(Recall),且在訓(xùn)練時(shí)長(zhǎng)上僅高于ResNet模型。實(shí)驗(yàn)結(jié)果表明,提出模型通過(guò)膨脹卷積增大遙感圖像感受野限制特征圖分辨率損失;通過(guò)多尺度特征融合獲取上下文特征信息形成不同分辨率的特征圖等可有效提升遙感圖像建筑物的分割精度。
不同方法建筑物分割結(jié)果圖如圖10所示。
圖中10(a)列為分辨率為512×512的遙感圖像,(b)列為地表真實(shí)值,(c)列為FCN模型分割結(jié)果,(d)列為ResNet模型分割結(jié)果,(e)列為ResNet模型分割結(jié)果,(f)列為MDNNet模型分割結(jié)果。
圖10 遙感圖像分割結(jié)果
FCN模型分割圖像主要是將模型網(wǎng)絡(luò)中間層的含有較高分辨率的特征圖和反卷積操作輸出的特征圖融合,對(duì)提取建筑物的細(xì)節(jié)信息不夠明顯,分割結(jié)果中建筑物之間存在多數(shù)粘連現(xiàn)象且該模型不能有效識(shí)別建筑物邊界,存在對(duì)樹(shù)木、道路等誤分割。ResNet模型分割圖像建立以解碼器-編碼器模塊為基礎(chǔ)的深度學(xué)習(xí)框架,解碼器模塊以自動(dòng)提取建筑物的特征,編碼器模塊采用反卷積實(shí)現(xiàn)對(duì)特征圖的上采樣完成對(duì)建筑物的分割。分割結(jié)果表明該模型有效抑制建筑物間出現(xiàn)的粘連現(xiàn)象,但對(duì)目標(biāo)提取結(jié)果細(xì)節(jié)表達(dá)不明顯,建筑物邊緣信息不夠完整。ResNetCRF模型在ResNet模型的基礎(chǔ)上增加全連接條件隨機(jī)場(chǎng)對(duì)參數(shù)同步訓(xùn)練,分割結(jié)果中看出全連接條件隨機(jī)場(chǎng)可以有效彌補(bǔ)下采樣過(guò)程細(xì)節(jié)損失,使建筑物輪廓更清晰,但建筑物邊界細(xì)節(jié)上仍與真值圖相比差異較大,存在部分問(wèn)分割現(xiàn)象,且模型訓(xùn)練時(shí)間高于其他對(duì)比模型。以上3種模型由于對(duì)多尺度特征提取建模不充分,對(duì)不同尺寸大小建筑物的自適應(yīng)提取能力有限。
MDNNet模型通過(guò)在ResNet101模型中引入膨脹卷積提取建筑物特征,有效抑制目標(biāo)特征圖分辨率過(guò)低從而保留更多建筑物邊緣細(xì)節(jié)特征信息,利用多尺度特征融合模塊使得模型可以獲取多個(gè)尺度建筑物特征信息,對(duì)不同尺寸大小的建筑物完成自適應(yīng)提取,分割結(jié)果表明對(duì)于較大型建筑物的分割也更加完整,與其他模型相比誤分割現(xiàn)象較少,建筑物邊界輪廓更加清晰完整。
本文提出的MDNNet模型應(yīng)用于遙感圖像建筑物分割領(lǐng)域中,在ResNet101殘差網(wǎng)絡(luò)模型中增加膨脹卷積,并利用多尺度特征融合獲取多個(gè)尺度的建筑物特征信息。該模型有效提升建筑物邊緣輪廓特征分割精度,實(shí)現(xiàn)對(duì)不同尺寸大小建筑物的自適應(yīng)提取。在WHU Building change detection dataset數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出方法在分割精度上明顯優(yōu)于FCN、ResNet和ResNetCRF對(duì)比實(shí)驗(yàn)?zāi)P?,分割結(jié)果圖中建筑物邊緣信息的完整性且對(duì)不同尺寸大小建筑物的分割效果均明顯提升。