于 文 玲,劉 波,2*,劉 華,2,杜 梓 維,鄒 時 林,蘇 友 能,劉 娜 娜
(1.東華理工大學(xué)測繪工程學(xué)院,江西 南昌 330013;2.自然資源部環(huán)鄱陽湖區(qū)域礦山環(huán)境監(jiān)測與治理重點(diǎn)實(shí)驗室,江西 南昌 330013)
近年來,深度語義分割算法在遙感影像建筑物提取時效果良好[1-5],其中,U-Net模型[6]通過組合解碼層、編碼層的方法,提高了遙感影像建筑物的提取精度。為進(jìn)一步提高模型精度,Chhor等[7]在U-Net模型訓(xùn)練時,用Adam優(yōu)化算法代替SGD優(yōu)化算法,并添加批量標(biāo)準(zhǔn)化處理,使用基于Dice系數(shù)的損失函數(shù);Ji等[8]利用特征金字塔網(wǎng)絡(luò)與U-Net模型相結(jié)合,以降低遙感影像中建筑物尺度不一致對提取結(jié)果的影響,提高建筑物提取精度;任欣磊等[9]提出一種低維特征增強(qiáng)改進(jìn)的U-Net模型,通過引入特征金字塔中的低維特征圖增強(qiáng)網(wǎng)絡(luò)傳遞過程中低維細(xì)節(jié)信息的特征表達(dá),能在后向傳遞過程中防止細(xì)節(jié)信息丟失,提高模型對建筑物細(xì)節(jié)的獲取能力;Kim等[10]將空間金字塔池模塊集成到U-Net模型中,解決了U-Net模型在多次特征融合后地物邊界特征損失的問題;Ranjan 等[11]將MRA結(jié)構(gòu)運(yùn)用于U-Net模型中,提升了遙感影像地物信息提取的精度;顧煉等[12]將FlowNet中的細(xì)化結(jié)構(gòu)運(yùn)用于U-Net模型中,建筑物提取結(jié)果的F1分?jǐn)?shù)高達(dá)0.943;Abdollahi等[13]結(jié)合SegNet與U-Net提取馬薩諸塞州高分辨率遙感影像建筑物,精度達(dá)92.73%;Alom等[14]基于U-Net模型、殘差網(wǎng)絡(luò)及遞歸卷積神經(jīng)網(wǎng)絡(luò)提出R2U-Net模型,該模型相比U-Net及其改進(jìn)模型,加深了網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了特征提取和特征表達(dá)能力,提取精度更高。
綜上,雖然U-Net、R2U-Net等眾多U-Net改進(jìn)模型展現(xiàn)了深度卷積神經(jīng)網(wǎng)絡(luò)在遙感影像特征提取中的巨大優(yōu)勢,但多數(shù)模型特征表達(dá)能力有限,多尺度泛化能力較弱,特別是在提取特征時,較多的卷積池化操作會造成提取的建筑物邊緣信息不完整、內(nèi)部信息缺失、建筑物與非建筑物特征混淆等問題。為此,本文提出基于Attention Gates(AG)和R2U-Net的遙感影像建筑物提取方法(AGR2U-Net),利用改進(jìn)后的AG模型強(qiáng)化R2U-Net的多尺度特征信息,以提高R2U-Net模型對建筑物特征的響應(yīng)及靈敏度,增強(qiáng)其多尺度泛化能力,從而提升該模型的遙感影像建筑物提取精度。
R2U-Net模型[14]與U-Net模型結(jié)構(gòu)類似,由編碼路徑和解碼路徑組成(圖1)。編碼路徑和解碼路徑中的卷積塊被循環(huán)殘差卷積模塊(Recurrent Residual Convolutional Units,RRCU)代替,RRCU的卷積層由3×3的卷積核、批標(biāo)準(zhǔn)化(Batch Normalization,BN)、線性整流函數(shù)(Rectified Linear Unit,ReLU)組成。R2U-Net模型的優(yōu)勢在于:1)在U-Net模型之外進(jìn)行逐元素特征求和,在保留U-Net優(yōu)勢的同時,融合了高維抽象特征信息與低維細(xì)節(jié)特征信息;2)RRCU結(jié)構(gòu)內(nèi)部的特征積累能確保更強(qiáng)大的特征表示,并有效增加網(wǎng)絡(luò)結(jié)構(gòu)的深度;3)從U-Net 模型中刪除裁剪單元,僅使用復(fù)制串聯(lián)操作,從而形成一種簡潔實(shí)用、性能更好[15,16]的體系結(jié)構(gòu)。
圖1 R2U-Net模型結(jié)構(gòu)[14]Fig.1 Structure of R2U-Net model
圖2 AG模型結(jié)構(gòu)[17]Fig.2 Structure of AG model
為保證所有AG模型輸出的特征圖與R2U-Net模型初始輸入影像大小一致,并減少重采樣操作造成的特征損失,本文對原始AG模型進(jìn)行改進(jìn)(圖3),即將原始AG模型中的重采樣操作移至模型輸出前。為更詳細(xì)地表示AG模型的特征輸出情況,以初始影像維度為(3,256,256)為例,將R2U-Net模型第二層與第三層輸入至改進(jìn)后的AG模型,得到的輸出圖像維度如表1所示。
圖3 改進(jìn)的AG模型結(jié)構(gòu)Fig.3 Structure of the improved AG model
表1 改進(jìn)的AG模型輸出的圖像維度Table 1 Image dimension output by the improved AG model
AGR2U-Net模型(圖4)首先將原始R2U-Net模型中每層的分類結(jié)果直接輸出,代替原模型只在第一層輸出分類結(jié)果;其次將每層輸出的特征圖與其相鄰層的特征圖輸入至改進(jìn)的AG中,由于R2U-Net模型輸出的相鄰兩層特征圖大小不一致,因此需將其下層的特征圖上采樣至上層特征圖大小后再輸入至改進(jìn)的AG中,最終得到與初始輸入影像圖大小一致的特征圖;最后對由改進(jìn)的AG模型得到的特征影像進(jìn)行融合,獲取最終分類結(jié)果。該方法在不破壞R2U-Net內(nèi)部結(jié)構(gòu)的情況下,利用改進(jìn)的AG模型強(qiáng)化R2U-Net模型所得特征,可得到更精確、完整的建筑物特征信息,最終輸出的分類結(jié)果影像也包含多個尺度信息,可增強(qiáng)模型多尺度泛化能力。
圖4 AGR2U-Net模型結(jié)構(gòu)Fig.4 Structure of AGR2U-Net model
為驗證本文方法精度,與U-Net、Improved U-Net[9]、SegU-Net[13]和R2U-Net 4種模型進(jìn)行精度對比試驗,同時對比分析實(shí)驗結(jié)果的局部特征。使用交并比(Intersection over Union,IOU)、像素準(zhǔn)確率(Pixel Accuracy,PA)和召回率(Recall)對實(shí)驗精度進(jìn)行評價[18],計算公式分別為:
IOU=TP/(FP+TP+FN)
(1)
PA=(TP+TN)/(FP+TP+FN+TN)
(2)
Recall=TP/(TP+FN)
(3)
式中:TP表示實(shí)際為正樣本、預(yù)測為正樣本的樣本數(shù);TN表示實(shí)際為負(fù)樣本、預(yù)測為負(fù)樣本的樣本數(shù);FP表示實(shí)際為負(fù)樣本、預(yù)測為正樣本的樣本數(shù);FN表示實(shí)際為正樣本、預(yù)測為負(fù)樣本的樣本數(shù)。
實(shí)驗數(shù)據(jù)為武漢大學(xué)季順平團(tuán)隊[8]基于衛(wèi)星遙感影像制作并發(fā)布的WHU satellite dataset Ⅰ數(shù)據(jù)集(簡稱數(shù)據(jù)集Ⅰ)和基于航空影像制作并發(fā)布的WHU aerial imagery dataset數(shù)據(jù)集(簡稱數(shù)據(jù)集Ⅱ)。
2.1.1 數(shù)據(jù)集Ⅰ 數(shù)據(jù)集Ⅰ共有204張512×512大小的遙感影像和對應(yīng)的標(biāo)簽圖像,來自ZY-3號、IKONOS、Worldview系列衛(wèi)星的不同傳感器和不同空間分辨率(0.3~2.3 m)影像,涵蓋了歐洲、中國、南北美洲以及非洲的不同城市區(qū)域,能對建筑物提取算法的魯棒性進(jìn)行有效檢驗,數(shù)據(jù)集Ⅰ部分示例如圖5所示。為增加樣本數(shù)量,本文首先將原始數(shù)據(jù)集影像裁剪為256×256大小的子圖集,然后對子圖集進(jìn)行旋轉(zhuǎn)、沿y軸鏡像處理、均值濾波、椒鹽噪聲增強(qiáng)以及高斯噪聲增強(qiáng)處理,共得到20 094張影像。最后將處理后的數(shù)據(jù)集按照8∶1∶1的比例劃分成訓(xùn)練集、驗證集與測試集,影像數(shù)量分別為16 076、2 009、2 009,其中訓(xùn)練集用于擬合模型,驗證集用于調(diào)試超參數(shù)以及監(jiān)控模型是否發(fā)生擬合,測試集用于評估最終的模型泛化能力。
圖5 WHU衛(wèi)星影像數(shù)據(jù)集Ⅰ部分示例Fig.5 Examples of WHU satellite dataset Ⅰ
2.1.2 數(shù)據(jù)集Ⅱ 數(shù)據(jù)集Ⅱ位于新西蘭的克萊斯特徹奇市(圖6),該數(shù)據(jù)集中①區(qū)域為訓(xùn)練區(qū)域,②區(qū)域為驗證區(qū)域,③、④區(qū)域為測試區(qū)域,影像空間分辨率為0.075 m,將數(shù)據(jù)下采樣到0.3 m,并裁剪為512×512大小影像,其中訓(xùn)練集、驗證集、測試集分別有4 736、1 036、2 416張影像以及對應(yīng)標(biāo)簽圖。為防止內(nèi)存溢出并增加樣本容量,將其進(jìn)一步裁剪為256×256大小,得到訓(xùn)練集、驗證集、測試集影像數(shù)量分別為18 944、4 144、9 664。
圖6 WHU航空影像數(shù)據(jù)集Fig.6 WHU aerial imagery dataset
根據(jù)本文實(shí)驗環(huán)境(表2),本文方法及其對比模型選取多次實(shí)驗后效果最佳的訓(xùn)練參數(shù)(表3),并依據(jù)數(shù)據(jù)集規(guī)模及反復(fù)實(shí)驗結(jié)果,將數(shù)據(jù)集Ⅰ、數(shù)據(jù)集Ⅱ?qū)嶒灥牡螖?shù)最終分別設(shè)置為20和12。
表2 實(shí)驗配置Table 2 Configuration of experiment
表3 模型訓(xùn)練參數(shù)Table 3 Model training parameters
3.1.1 精度對比分析 使用U-Net、Improved U-Net、SegU-Net、R2U-Net及AGR2U-Net 5種模型分別提取數(shù)據(jù)集Ⅰ測試集遙感影像中的建筑物,選取其中5個地區(qū)進(jìn)行精度評價,結(jié)果(表4)表明,本文AGR2U-Net的IOU均值比U-Net、Improved U-Net、SegU-Net、R2U-Net分別提高7.36%、4.56%、4.34%、2.68%,PA均值分別提高5.2%、3.85%、3.69%、2.2%,Recall均值分別提高4.65%、4.54%、4.04%、3.08%,可見本文方法在5個地區(qū)的建筑物提取精度均屬最高。
表4 5種模型的衛(wèi)星影像建筑物提取精度對比Table 4 Comparison of building extraction accuracy in satellite imagery of five models
3.1.2 局部特征對比分析 為更好地展示本文方法的優(yōu)越性,在U-Net、Improved U-Net、SegU-Net、R2U-Net和AGR2U-Net 5種模型的遙感影像測試集提取結(jié)果中隨機(jī)選取若干建筑物提取結(jié)果進(jìn)行對比(圖7),結(jié)果顯示:1)數(shù)據(jù)1建筑物表面特征單一且分布均勻,5種模型均能識別此類建筑物,但選取的對比模型對建筑物形態(tài)檢測效果較差,部分區(qū)域有明顯椒鹽噪聲,AGR2U-Net模型不僅能減少噪聲干擾,還能精確識別建筑物輪廓。2)數(shù)據(jù)2建筑物大小不一、形狀多樣,且存在陰影干擾,5種模型均能識別此類建筑物,但均出現(xiàn)陰影部分漏檢情況。相較于其他模型,AGR2U-Net模型對建筑物的檢測更敏感,能更好地傳遞尺度信息,不僅能完整檢測出較大建筑物的內(nèi)部信息,而且能檢測出小建筑物的邊緣信息。3)數(shù)據(jù)3建筑物分布零散,4種對比模型未能準(zhǔn)確識別此類建筑物的輪廓,且易出現(xiàn)誤檢、漏檢現(xiàn)象,AGR2U-Net模型雖然也出現(xiàn)誤檢、漏檢現(xiàn)象,但對建筑物輪廓的識別能力優(yōu)于其他模型。4)數(shù)據(jù)4建筑物分布較緊密,4種對比模型對此類建筑物的邊緣識別不靈敏且粘連情況較嚴(yán)重,出現(xiàn)建筑物內(nèi)部漏檢情況,AGR2U-Net模型能更準(zhǔn)確地檢測出建筑物的邊緣。整體而言,本文方法優(yōu)于U-Net、Improved U-Net、SegU-Net和R2U-Net模型。
圖7 衛(wèi)星影像建筑物提取結(jié)果的局部特征Fig.7 Local features of building extracted using different models in satellite imagery
3.2.1 精度對比分析 從基于數(shù)據(jù)集Ⅱ測試集的分類結(jié)果精度(表5)可以看出,本文方法的精度最高,其IOU、PA、Recall比表現(xiàn)次優(yōu)的R2U-Net模型分別高2.07%、2.17%、2.10%,說明在數(shù)據(jù)集較大的情況下,本文方法也能達(dá)到很好的效果。
表5 5種模型的航空影像建筑物提取精度對比Table 5 Comparison of building extraction accuracy in aerial imagery of five models
3.2.2 局部特征對比分析 為更直觀地展示本文方法在數(shù)據(jù)集Ⅱ的良好表現(xiàn),從該數(shù)據(jù)集的測試集實(shí)驗結(jié)果中選取部分提取結(jié)果與其他方法進(jìn)行對比(圖8)。從數(shù)據(jù)1和數(shù)據(jù)3的結(jié)果可知:本文方法對大型建筑物的輪廓檢測更靈敏、準(zhǔn)確,不易受建筑物周邊物體干擾;在不規(guī)則建筑物(如數(shù)據(jù)2)識別上,受噪聲干擾較少,識別出的建筑物邊緣更平滑;在小型建筑物(如數(shù)據(jù)4和數(shù)據(jù)5)的識別上,能解決建筑物內(nèi)部漏檢、邊界模糊及相鄰建筑物邊緣粘連等問題,且建筑物提取精度更高。
圖8 航空影像建筑物提取結(jié)果的局部特征Fig.8 Local features of building extracted using different models in aerial imagery
為解決R2U-Net在遙感影像建筑物提取任務(wù)中多尺度泛化能力弱、特征提取信息易損失等問題,本文提出一種基于AG和R2U-Net的遙感影像建筑物提取方法。通過基于WHU衛(wèi)星影像數(shù)據(jù)集(數(shù)據(jù)集Ⅰ)和WHU航空影像數(shù)據(jù)集(數(shù)據(jù)集Ⅱ)對本文方法與U-Net、Improved U-Net、SegU-Net和R2U-Net模型進(jìn)行對比,得出以下結(jié)論:1)本文方法中,AG模型能利用R2U-Net模型特征提取時得到的多尺度特征信息,增強(qiáng)了建筑物特征的表達(dá)能力,提升了模型靈敏度和建筑物提取精度。2)基于數(shù)據(jù)集Ⅰ和數(shù)據(jù)集Ⅱ的建筑物提取精度表明,本文方法的IOU、PA、Recall均優(yōu)于U-Net、Improved U-Net、SegU-Net和R2U-Net模型。3)從提取結(jié)果的局部特征看,在不同環(huán)境的遙感影像建筑物提取任務(wù)中,本文方法提取的建筑物邊緣最完整,減少了建筑物漏檢和誤檢情況,而且在提高精度的同時,能精準(zhǔn)識別出建筑物的細(xì)節(jié)信息。但本文方法提取結(jié)果仍存在建筑物邊緣粘連情況,有待進(jìn)一步研究。