黃 杰,蔣 豐
(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣州 510006)
建筑物是人們?cè)诠ぷ骱蛯W(xué)習(xí)中不可或缺的活動(dòng)場所,從遙感影像中提取建筑物相關(guān)目標(biāo)對(duì)于GIS數(shù)據(jù)庫更新、土地利用、城市規(guī)劃和自然災(zāi)害探測等工程具有重要意義[1].因此研究人員針對(duì)建筑物的提取提出了許多基于傳統(tǒng)或者深度學(xué)習(xí)的分割方法.
建筑物目標(biāo)豐富的直線、直角和陰影等特性可被傳統(tǒng)方法作為建模和分割的依據(jù).然而傳統(tǒng)方法的構(gòu)建需強(qiáng)烈依賴于對(duì)特定目標(biāo)的先驗(yàn)知識(shí),過程費(fèi)時(shí)費(fèi)力,因此近年來,更多基于深度學(xué)習(xí)語義分割的建筑物提取方法被研究人員所提出.Zhong等人[2]利用預(yù)訓(xùn)練參數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過對(duì)比分析FCN網(wǎng)絡(luò)中解碼器的特征融合層數(shù)對(duì)模型精度的影響,提出了改善后的網(wǎng)絡(luò)模型,但由于其較為簡單的網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整,得到的遙感影像仍存在信息缺失問題.尚群鋒等人[3]針對(duì)遙感影像中小物體特征在高緯度難以被提取的問題,提出了改進(jìn)的DeconvNet網(wǎng)絡(luò),該網(wǎng)絡(luò)通過記錄編碼過程的池化索引并將其應(yīng)用到解碼恢復(fù)過程的方式改進(jìn)網(wǎng)絡(luò)解碼部分,從而減少了圖像恢復(fù)的盲目性,并最終提高了對(duì)小物體的分割效果,但該方法需占用較大的機(jī)器內(nèi)存,對(duì)于大物體容易出現(xiàn)邊緣不平滑的情況.趙斐等人[4]提出了一種端到端的語義分割模型.該模型秉承Unet算法中編解碼結(jié)構(gòu)的思想,通過引入注意力機(jī)制調(diào)整金字塔中各個(gè)通道中特征的權(quán)重,提取具有信息側(cè)重的多尺度特征,解決物體邊緣分割模糊的問題,同時(shí)小目標(biāo)漏檢情況也得到了改善.蘇健民等人[5]專注于像素間的聯(lián)系問題,引入神經(jīng)網(wǎng)絡(luò)中常被人們忽略的后處理操作并提出了一種基于Unet的改進(jìn)方法,其首先采用集成學(xué)習(xí)的策略,為建筑、道路和水體等每一類地物目標(biāo)訓(xùn)練一個(gè)二分類模型,隨后將各預(yù)測的子圖進(jìn)行組合以生成最終的分割結(jié)果,該模型性能雖獲得一定的提高,但是“分類訓(xùn)練+后處理”的分割策略在操作上仍稍顯繁瑣,且部分空間信息仍存在丟失問題.
盡管上述方法相比傳統(tǒng)方法能更便捷地實(shí)現(xiàn)對(duì)遙感影像中建筑物等目標(biāo)的分割,但他們未能綜合考慮建筑物目標(biāo)輪廓的多樣性、網(wǎng)絡(luò)編碼過程空間和細(xì)節(jié)信息的丟失以及深層語義信息間上下文聯(lián)系存在不足等問題,導(dǎo)致了網(wǎng)絡(luò)模型在面對(duì)建筑物邊緣以及對(duì)應(yīng)的分割完整性上仍有提升的空間.為此本文基于經(jīng)典Unet算法[6],通過設(shè)計(jì)下采樣旁路網(wǎng)絡(luò)和聯(lián)合變形卷積的殘差金字塔網(wǎng)絡(luò),提出了多尺度融合的變形殘差金字塔網(wǎng)絡(luò)方法,有效提高了模型的分割精度.
本文所提多尺度融合的變形殘差金字塔網(wǎng)絡(luò)模型(Multi-scale fusion of Deformation Residual Pyramid Network,MDRP-Net)如圖1所示.其主要包含3個(gè)部分:下采樣旁路主干網(wǎng)絡(luò)、聯(lián)合變形卷積的殘差金字塔網(wǎng)絡(luò)結(jié)構(gòu)和級(jí)聯(lián)上采樣解碼器.下采樣旁路主干網(wǎng)絡(luò)由VGG16[7]主干網(wǎng)絡(luò)和下采樣旁路網(wǎng)絡(luò)組成,主干網(wǎng)絡(luò)主要用于挖掘建筑物深層次特征; 下采樣旁路網(wǎng)絡(luò)結(jié)構(gòu)則把輸入影像進(jìn)行不同程度的下采樣,用于對(duì)VGG16網(wǎng)絡(luò)獲取的多層次特征圖進(jìn)行融合補(bǔ)充.對(duì)于VGG16主干網(wǎng)絡(luò)次末端的卷積層輸出,其既作為提取網(wǎng)絡(luò)最深層特征的卷積層輸入,也作為聯(lián)合變形卷積的殘差金字塔網(wǎng)絡(luò)結(jié)構(gòu)的初始輸入,以并行融合方式增加深層語義的豐富程度.網(wǎng)絡(luò)的級(jí)聯(lián)上采樣解碼器,接收綜合下采樣旁路主干網(wǎng)絡(luò)和聯(lián)合變形卷積的殘差金字塔結(jié)構(gòu)兩部分的多層次、多尺度特征信息圖,然后把獲取的多特征融合圖向前上采樣逐步恢復(fù)圖像尺寸與細(xì)節(jié),最后將其送入網(wǎng)絡(luò)的末端判別器實(shí)現(xiàn)對(duì)遙感建筑物影像的預(yù)測和分割
圖1 多尺度融合的變形殘差金字塔網(wǎng)絡(luò)模型
1.2.1 下采樣旁路主干網(wǎng)絡(luò)
經(jīng)典Unet模型被廣泛地應(yīng)用醫(yī)學(xué)圖像分析的領(lǐng)域,但由于簡單的編碼結(jié)構(gòu),使其無法適應(yīng)背景信息更為復(fù)雜、干擾信息更多的對(duì)象.而VGG網(wǎng)絡(luò)相比18個(gè)主流特征提取網(wǎng)絡(luò)具有更優(yōu)的遷移性[8],因此本文把網(wǎng)絡(luò)的編碼結(jié)構(gòu)使用VGG16網(wǎng)絡(luò)將其替換并作為主干網(wǎng)絡(luò),同時(shí),對(duì)修改后主干網(wǎng)絡(luò)進(jìn)一步添加一個(gè)下采樣旁路結(jié)構(gòu)作為網(wǎng)絡(luò)補(bǔ)充.
在該旁路網(wǎng)絡(luò)中,本文使用最大池化操作將網(wǎng)絡(luò)最初輸入影像分別下采樣至原大小的1/4、1/16、1/64和1/256倍,此時(shí)能得到4種不同尺寸的圖像,并將其記錄為scale1-scale4.在主干網(wǎng)絡(luò)中,每個(gè)包含卷積池化的blockl(l=1,2,3,4)塊也能得到4種不同分辨率的輸出圖像,這些輸出圖像剛好與scalel圖像大小相同.我們將blockl塊的輸出圖像和scalel的圖像進(jìn)行相加融合,分別作為下一層網(wǎng)絡(luò)的輸入進(jìn)而使下一層卷積層獲得兩個(gè)尺度的特征信息.
1.2.2 聯(lián)合變形卷積的殘差金字塔結(jié)構(gòu)
根據(jù)變形卷積方法的思想[9],其可通過訓(xùn)練獲取卷積核偏移坐標(biāo)從而指導(dǎo)卷積核采樣點(diǎn)的選取.這意味著利用該偏移坐標(biāo)網(wǎng)絡(luò)可以更針對(duì)性地對(duì)建筑物輪廓特征進(jìn)行模擬與提取.然而偏移坐標(biāo)存在著偏移大小的限制,這使得變形卷積核的感受野與傳統(tǒng)卷積核相差不大,導(dǎo)致變形卷積在面對(duì)多尺度目標(biāo)時(shí)仍存在不足,因此本文引入金字塔池化結(jié)構(gòu)以擴(kuò)大變形卷積對(duì)不同尺度特征的捕獲能力.同時(shí),在Deeplab[10]系列中,作者強(qiáng)調(diào)空洞卷積的使用和提出ASPP模塊來聚合不同模塊和不同尺度間的上下文信息.這些方法雖然有效,但是他們僅簡單地對(duì)尾部特征進(jìn)行拼接的方式會(huì)導(dǎo)致上下文間仍存在語義鴻溝的問題.綜合上述問題,本文設(shè)計(jì)一種聯(lián)合變形卷積的殘差金字塔模塊(Deformation Residual Spatial Pyramid,DRSP),如圖2所示.
圖2 聯(lián)合變形卷積的殘差金字塔結(jié)構(gòu)
與DeepLabV3+[11]方法使用金字塔結(jié)構(gòu)的方式相比,本文提出的DRSP模塊是基于主干網(wǎng)絡(luò)block4特征圖作為輸入的,其首先經(jīng)過變形卷積獲取變形特征,再進(jìn)一步對(duì)變形特征提取多尺度上下文信息.同時(shí),為了減少上下文語義信息的差距,不同尺度特征之間使用殘差模塊來逐層聚合它們.在形式上可描述為式(1).
其中,Xraspp為DRSP模塊的最終聚合特征,dn為卷積核膨脹率,H([.])為通道串聯(lián)操作,Xn代表從變形特征獲取的不同尺度特征,f代表殘差模塊[12],⊕表示元素求和.在DRSP模塊逐層聚合上下文信息的過程中,卷積核膨脹率逐漸增大,同時(shí)其膨脹率大小根據(jù)Wang等人[13]的公式推薦以及實(shí)驗(yàn)的嘗試,設(shè)定為1、2、5、9、13.
本實(shí)驗(yàn)數(shù)據(jù)集選取遙感建筑物影像Massachusetts Buildings[14].數(shù)據(jù)集中包含了137張訓(xùn)練影像數(shù)據(jù)、4張驗(yàn)證影像數(shù)據(jù)、10張測試影像數(shù)據(jù),每張圖像尺寸為1500×1500像素.為了適應(yīng)硬件條件和便于訓(xùn)練,本文對(duì)原圖按256×256像素大小進(jìn)行裁剪.裁剪后按隨機(jī)旋轉(zhuǎn)、引入高斯噪聲、隨機(jī)縮放策略對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)增,最終獲得訓(xùn)練集大小為11 664張,測試集大小為360張,驗(yàn)證集大小為144張.
實(shí)驗(yàn)設(shè)計(jì)部分,選用兩個(gè)使用了金字塔池化結(jié)構(gòu)的網(wǎng)絡(luò)方法PSPNet[15]和DeepLabV3+與本文方法進(jìn)行對(duì)比,同時(shí),另設(shè)計(jì)3組實(shí)驗(yàn)對(duì)比各改動(dòng)方法對(duì)網(wǎng)絡(luò)性能的影響.實(shí)驗(yàn)1:在經(jīng)典Unet算法基礎(chǔ)上,單獨(dú)添加下采樣旁路主干網(wǎng)絡(luò); 實(shí)驗(yàn)2:在經(jīng)典Unet算法上,單獨(dú)添加DRSP模塊; 實(shí)驗(yàn)3:在經(jīng)典Unet算法上,同時(shí)添加下采樣旁路主干網(wǎng)絡(luò)和DRSP模塊.
訓(xùn)練樣本輸入大小為256×256,batchsize大小為4,訓(xùn)練100代.網(wǎng)絡(luò)訓(xùn)練過程,不同網(wǎng)絡(luò)模型使用超參數(shù)相同:初始學(xué)習(xí)率為0.01,學(xué)習(xí)率衰減率為1e-2,動(dòng)量值為0.9.訓(xùn)練過程中使用監(jiān)測器對(duì)測試集損失值進(jìn)行監(jiān)測,當(dāng)損失值連續(xù)50代沒有下降,則認(rèn)為模型訓(xùn)練完畢,訓(xùn)練提前停止.
對(duì)于建筑物遙感影像語義分割,是屬于二分類的任務(wù),網(wǎng)絡(luò)模型在訓(xùn)練過程中將使用交叉熵作為損失函數(shù),其表達(dá)式如下:
其中,n表示類別數(shù)量,yi表示真值,?i表示當(dāng)前像素預(yù)測的值.
實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)采用均交并比MIoU[2]和可用于衡量二分類模型精確度的指標(biāo)F1-score[16],計(jì)算公式如下:
式中,Pii表示預(yù)測正確的像素,Pij表示預(yù)測為建筑物,實(shí)際為非建筑物的像素,Pji表示預(yù)測為非建筑物,實(shí)際為建筑物的像素,Precision表示精確率,Recall表示召回率.
圖3和表1分別是各實(shí)驗(yàn)?zāi)P蛽p失值對(duì)比曲線和模型測試結(jié)果的匯集.
表1 模型測試結(jié)果匯集
圖3 損失函數(shù)值對(duì)比曲線
PSPNet與DeepLabV3+是語義分割網(wǎng)絡(luò)中具有代表性的方法,兩者曾在PASCAL VOC-2012數(shù)據(jù)集獲得過優(yōu)異的成績,盡管在面對(duì)遙感建筑物數(shù)據(jù)集時(shí)其損失函數(shù)曲線相比Unet更加平滑,然而兩者在最終的評(píng)價(jià)指標(biāo)以及可視化結(jié)果上的表現(xiàn)均不如經(jīng)典的Unet網(wǎng)絡(luò).
實(shí)驗(yàn)1通過將VGG16主干網(wǎng)絡(luò)與下采樣旁路網(wǎng)絡(luò)兩者特征按層次融合的方式,使得網(wǎng)絡(luò)在挖掘更深層特征的同時(shí)具備與淺層特征信息的聯(lián)系.相比改進(jìn)前的網(wǎng)絡(luò),改進(jìn)后網(wǎng)絡(luò)損失函數(shù)值波動(dòng)幅度明顯減小,整體損失值降低了約0.02,且訓(xùn)練迭代約75次時(shí)損失值再度降低并最終進(jìn)入穩(wěn)態(tài).經(jīng)測試,改進(jìn)后網(wǎng)絡(luò)最終在F1-score和MIoU指標(biāo)分別獲得了1.1%和1.4%的提升.
實(shí)驗(yàn)2將DRSP結(jié)構(gòu)與主干網(wǎng)絡(luò)兩者的輸出特征進(jìn)行融合,盡管該網(wǎng)絡(luò)損失值函數(shù)曲線沒有實(shí)驗(yàn)1平滑,但相比改進(jìn)前網(wǎng)絡(luò)其損失函數(shù)波動(dòng)浮動(dòng)和損失值均有一定程度地改善,經(jīng)測試,實(shí)驗(yàn)2網(wǎng)絡(luò)在F1-score和MIoU指標(biāo)獲得了0.6%和0.8%的提升.
實(shí)驗(yàn)3通過把實(shí)驗(yàn)1與實(shí)驗(yàn)2改進(jìn)方法共同作用于原網(wǎng)絡(luò),圖3中對(duì)應(yīng)的曲線顯示表明改進(jìn)后的網(wǎng)絡(luò)緩解了單獨(dú)引入DRSP模塊時(shí)存在的損失函數(shù)曲線的波動(dòng),且訓(xùn)練至大約20代時(shí)就達(dá)到此前實(shí)驗(yàn)最優(yōu)損失值附近,同時(shí)在迭代約60代時(shí)進(jìn)入穩(wěn)態(tài).最終測試結(jié)果也比兩組單獨(dú)的改進(jìn)實(shí)驗(yàn)效果更好,最終其在F1-score和MIoU指標(biāo)上相比Unet算法分別提升了1.6%和2.1%.
為了更直觀感受模型的改進(jìn)對(duì)分割性能所帶來的影響,本文把個(gè)各實(shí)驗(yàn)?zāi)P驼Z義分割的部分預(yù)測圖進(jìn)行了可視化,如圖4所示.圖中展示了本文所提方法的優(yōu)勢,其主要體現(xiàn)在建筑物與背景模糊分界的區(qū)域以及對(duì)中大型建筑物分割的完整性這兩個(gè)方面.受光線和陰影影響,建筑物邊緣與背景區(qū)域區(qū)分度低,如圖4(a)-圖4(d)中建筑物邊緣存在綠植、陰影或者顏色相似的道路等干擾,導(dǎo)致建筑物與背景出現(xiàn)分界模糊的情況,但相較原Unet網(wǎng)絡(luò),本文所提方法能更好地區(qū)分此類建筑物的邊界區(qū)域,以改善對(duì)建筑物邊緣分割的準(zhǔn)確性.另一方面,由于原始模型僅使用單一規(guī)則的卷積核和較簡單主干網(wǎng)絡(luò),致使其對(duì)不同尺寸特別是較大型建筑物特征信息捕獲能力存在一定限制,如圖4(e)-圖4(g)中建筑物中間部分出現(xiàn)的漏空現(xiàn)象.可以看出,相對(duì)未改進(jìn)的方法,本文所提方法擁有更強(qiáng)的多尺度目標(biāo)的適應(yīng)能力和特征信息保留的能力,從而在面對(duì)中大型建筑物時(shí)具有更完整的分割.
圖4 各實(shí)驗(yàn)?zāi)P徒ㄖ锓指钚Ч麑?duì)比
本文研究了相關(guān)語義分割網(wǎng)絡(luò)在遙感建筑物影像中的應(yīng)用,針對(duì)網(wǎng)絡(luò)中傳統(tǒng)卷積核模擬幾何結(jié)構(gòu)特征能力存在不足、對(duì)目標(biāo)尺寸適應(yīng)能力不足和編碼網(wǎng)絡(luò)中特征信息容易丟失的問題,提出了下采樣旁路主干網(wǎng)絡(luò)和多尺度融合的變形殘差金字塔卷積網(wǎng)絡(luò).該網(wǎng)絡(luò)模型融合下采樣旁路主干網(wǎng)絡(luò)、變形殘差金字結(jié)構(gòu)和級(jí)聯(lián)上采樣解碼器3部分特征,實(shí)現(xiàn)了對(duì)原模型網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化.最后,本文在Mnih遙感建筑物數(shù)據(jù)集上進(jìn)行了對(duì)照實(shí)驗(yàn),其實(shí)驗(yàn)指標(biāo)和可視化結(jié)果均驗(yàn)證了本文改進(jìn)措施的有效性.