陳雪梅, 劉志恒,*, 周綏平, 余 航, 劉彥明
(1. 西安電子科技大學(xué)空間科學(xué)與技術(shù)學(xué)院, 陜西 西安 710126; 2. 自然資源部礦山地質(zhì)災(zāi)害成災(zāi)機(jī)理與防控重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710054)
隨著遙感技術(shù)和分辨率的快速發(fā)展和提高, 道路信息被視為遙感領(lǐng)域不可或缺的一個(gè)方面,在測(cè)繪、救災(zāi)、軍事等領(lǐng)域有重要用途[1-2]。因此,如何從高分辨率遙感影像中自動(dòng)、快速地提取高精度的道路信息是一個(gè)重要的挑戰(zhàn)[3-4]。遙感道路分割模型目前面臨的主要難點(diǎn)有:① 遙感圖像的光譜信息有限[5],致使道路與具有相似光譜特征的其他特征(如停車場或建筑物)難以區(qū)分,這可能會(huì)導(dǎo)致道路提取過程中的錯(cuò)誤。② 道路信息復(fù)雜,易受周圍地物和天氣的影響,難以從遙感圖像中準(zhǔn)確提取道路信息[6],導(dǎo)致預(yù)測(cè)效果較差。
目前,道路提取方法通常分為傳統(tǒng)和深度學(xué)習(xí)兩種方法[7]。基于傳統(tǒng)的方法主要有模板匹配法[8-9]、知識(shí)驅(qū)動(dòng)法[10-11]和面向?qū)ο蠓╗12-13]等。文獻(xiàn)[14]使用Kullback-Leibler散度作為相似性度量的模板匹配自動(dòng)跟蹤道路,能夠自動(dòng)、準(zhǔn)確、快速地從高分辨率遙感圖像中提取道路信息。文獻(xiàn)[15]提出基于自適應(yīng)形態(tài)學(xué)的知識(shí)驅(qū)動(dòng)遙感圖像道路提取方法,來實(shí)現(xiàn)道路提取的完整性。文獻(xiàn)[16]基于高分三號(hào)衛(wèi)星,采用面向?qū)ο蠓?利用光譜特征、形狀特征等信息實(shí)現(xiàn)提取道路的邊界平整。雖然傳統(tǒng)的道路提取方法是有效的,但也有一些缺點(diǎn),例如模板匹配法需要?jiǎng)?chuàng)建模板,非常耗時(shí)并且由于光照、比例等的變化,導(dǎo)致結(jié)果準(zhǔn)確度不高;知識(shí)驅(qū)動(dòng)法依賴于先驗(yàn)知識(shí)的指導(dǎo),不適用于未知數(shù)據(jù)并會(huì)受到現(xiàn)有知識(shí)數(shù)量的限制;面向?qū)ο蠓▊?cè)重于檢測(cè)和分割單個(gè)對(duì)象,對(duì)于復(fù)雜、混亂的對(duì)象邊界難以準(zhǔn)確分離。
基于深度學(xué)習(xí)的道路提取方法[17-19]靈活、準(zhǔn)確并且高效。其中,一類方法基于編解碼結(jié)構(gòu),例如U-Net[20]、嵌套UNet(nested UNet, UNet++)[21],大多是利用部分收縮的路線來捕捉上下文。另一類方法基于空洞卷積結(jié)構(gòu),例如金字塔場景解析網(wǎng)絡(luò)(pyramid scene parsing network, PSPNet)[22]和DeeplabV3+[23]使用擴(kuò)張卷積來增加感受野的分割網(wǎng)絡(luò)。然而,上述網(wǎng)絡(luò)容易導(dǎo)致邊界和小目標(biāo)附近空間細(xì)節(jié)丟失,而且淺層網(wǎng)絡(luò)無法有效地區(qū)分不同特征。為解決上述問題,研究人員提出了不同的道路分割網(wǎng)絡(luò)模型。文獻(xiàn)[24]提出改進(jìn)DeeplabV3+的高分辨率遙感影像道路提取模型,原始的主干網(wǎng)絡(luò)Xception被替換為MobileNetV2[25],模型提取效率得到了提升。文獻(xiàn)[26]開發(fā)了一種基于預(yù)測(cè)訓(xùn)練卷積和空洞卷積的神經(jīng)網(wǎng)絡(luò)(linknet with pre-trained encoder and dilated convolution, D-LinkNet)和注意力機(jī)制的圖像分割算法,有助于提高上采樣時(shí)子模塊的利用率。盡管這些方法提高了道路提取的準(zhǔn)確性和效率,但在道路提取方面仍然存在著如下挑戰(zhàn):① 在深度學(xué)習(xí)前向傳播中,重復(fù)的最大池化層[27]會(huì)降低特征圖的分辨率,導(dǎo)致詳細(xì)的道路信息丟失。② 由于像素的感受野不同,不同深度的卷積層產(chǎn)生的特征圖含有不同大小的特征信息。不同尺度上特征的整合值得進(jìn)一步研究,以提高道路提取的準(zhǔn)確性。
本文提出了改進(jìn)高分辨網(wǎng)絡(luò)(high-resolution net, HRNet)[28]在高分辨率遙感上進(jìn)行道路分割的應(yīng)用。HRNet可以在整個(gè)過程中保持高分辨率表示,并通過反復(fù)交換平行流中的信息來執(zhí)行迭代式多分辨率融合。本文對(duì)HRNet進(jìn)行改進(jìn),通過將淺層特征與深層特征融合,經(jīng)過非局部塊[29],再進(jìn)行上采樣,使輸出結(jié)果既擁有淺層次的空間細(xì)節(jié)信息,也擁有深層次的語義信息,優(yōu)化了輸出結(jié)構(gòu),并提高了分割的精度。
傳統(tǒng)的深度學(xué)習(xí)模型在對(duì)特征層進(jìn)行上采樣之前對(duì)各層進(jìn)行下采樣,以恢復(fù)各層的大小直至初始值。然而,這增加了模型的復(fù)雜性和計(jì)算機(jī)操作。HRNet的并行連接也可以通過重復(fù)整合同級(jí)、多級(jí)特征來進(jìn)行多尺度特征整合操作。
HRNet V1[30]最初用于人類姿勢(shì)檢測(cè),通過融合不同分辨率分支來保留高分辨率圖像并增強(qiáng)高分辨率表示。但是,HRNet V1只輸出最高分辨率的卷積,而HRNet V2[28]集成了所有并行卷積,以支持高分辨率的表達(dá)。HRNet V2的這種擴(kuò)展將原來的3分辨率表示形式增加到4分辨率,從而增強(qiáng)了特征表示形式,如圖1所示。這種調(diào)整在語義分割和人臉關(guān)鍵點(diǎn)檢測(cè)等視覺任務(wù)中有非常重要的作用。
圖1 HRNet V2的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of HRNet V2
本文對(duì)原有的HRNet進(jìn)行了兩個(gè)方面的改進(jìn):① 在特征提取過程中,融合分辨率相同的特征圖,將淺層特征包含的空間信息傳遞給深層特征;② 利用非局部塊處理分割模型網(wǎng)絡(luò)輸出的不同分辨率特征圖。
(1) 特征圖的拼接。HRNet使用并行連接將高分辨率子網(wǎng)鏈接到低分辨率子網(wǎng),在網(wǎng)絡(luò)特征提取中,雖然添加了不同分辨率特征之間的交互,但網(wǎng)絡(luò)層數(shù)多致使輸出層含有的空間位置和細(xì)節(jié)信息減少。子網(wǎng)在轉(zhuǎn)換結(jié)構(gòu)前會(huì)產(chǎn)生不同尺寸的特征圖。在這些子網(wǎng)產(chǎn)生的特征圖中,本文將尺寸相同的特征圖進(jìn)行拼接的方式包含以下優(yōu)點(diǎn):① 不同層的特征通常包含有關(guān)圖像的不同信息。淺層特征通常包含有關(guān)圖像的細(xì)節(jié)信息,而深層特征則包含有關(guān)圖像的更高層次的結(jié)構(gòu)信息。② 淺層特征對(duì)于精確地定位圖像中的小對(duì)象和邊界具有非常重要的作用,但很難識(shí)別圖像中的大型連通區(qū)域。深層特征能更好地識(shí)別大型連通區(qū)域,但對(duì)細(xì)節(jié)的感知有限,難以準(zhǔn)確地定位邊界。將淺層特征與深層特征融合,可以提供更全面的信息,從而提高圖像分割的準(zhǔn)確性和精度。③ 將淺層特征與深層特征相結(jié)合,可以提高模型的泛化能力。因?yàn)闇\層特征和深層特征都包含有關(guān)圖像的不同信息,所以將其融合可以使模型更好地適應(yīng)不同的圖像。
(2) 非局部塊的使用。非局部塊是一種常用的深度學(xué)習(xí)模塊,其結(jié)構(gòu)如圖2所示。其中,T、H、W和數(shù)字分別表示批大小、高度、寬度和通道數(shù)。非局部塊的工作原理是對(duì)于每個(gè)輸入數(shù)據(jù),通過1×1卷積壓縮通道數(shù),得到θ,φ,g特征,將φ對(duì)應(yīng)的特征圖張量進(jìn)行轉(zhuǎn)置操作,將該結(jié)果與θ對(duì)應(yīng)的特征圖進(jìn)行矩陣乘法,獲得親和矩陣,計(jì)算與所有其他位置的關(guān)聯(lián)性。親和矩陣經(jīng)過Softmax操作,得到注意力權(quán)重。最后,將該自注意力權(quán)重乘以g對(duì)應(yīng)的特征圖張量,再經(jīng)過另一個(gè)1×1卷積擴(kuò)展為輸出通道大小,并與網(wǎng)絡(luò)的輸入進(jìn)行殘差運(yùn)算,獲得模塊輸出。
圖2 非局部信息統(tǒng)計(jì)注意力模塊Fig.2 Block of non-local information statistics attention module
與另一種常用的基于通道和空間的卷積塊注意力模塊(convolutional block attention module, CBAM)[31]相比,CBAM模塊的優(yōu)點(diǎn)在于其通過對(duì)每個(gè)位置的注意力權(quán)重進(jìn)行通道級(jí)和空間級(jí)調(diào)整,使網(wǎng)絡(luò)更加靈活。因此,CBAM更適用于需要對(duì)通道和空間位置進(jìn)行分別注意的任務(wù)。非局部塊考慮每個(gè)像素與其他像素之間的關(guān)系,提高模型對(duì)圖像細(xì)節(jié)的捕捉能力。非局部塊更容易識(shí)別出物體的輪廓以及與背景的界限,并且提高模型的預(yù)測(cè)準(zhǔn)確度。
改進(jìn)的網(wǎng)絡(luò)如圖3所示,該網(wǎng)絡(luò)將淺層特征和深層特征充分利用,可以提高模型的準(zhǔn)確性。增加非局部塊后,網(wǎng)絡(luò)可以計(jì)算不同分辨率特征圖的每個(gè)位置與特征圖整體的關(guān)聯(lián)性,幫助網(wǎng)絡(luò)更好地理解圖像的全局結(jié)構(gòu)和語義。
圖3 本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure designed by this paper
損失函數(shù)是用來衡量預(yù)測(cè)值與真實(shí)值之間的差異的一種函數(shù),是深度學(xué)習(xí)模型的核心部分[32]。因此,選擇合適的損失函數(shù)對(duì)于模型的訓(xùn)練和性能而言都很重要。為了保留道路更多的細(xì)節(jié)特征,本文模型的損失函數(shù)使用包括交叉熵?fù)p失函數(shù)[33]和Dice Loss[34]損失函數(shù)的混合損失函數(shù)。
交叉熵?fù)p失函數(shù)被廣泛用于分類任務(wù),并且由于分割是像素級(jí)分類,可以有效地度量真實(shí)值與預(yù)測(cè)值之間的距離,其定義如下所示:
LCE=-[(yt)ln(yp)+(1-yt)ln(1-yp)]
(1)
Dice Loss損失函數(shù)是基于區(qū)域的損失函數(shù),即給定像素的損失不僅依賴于像素本身的預(yù)測(cè)值,還依賴于其他像素的預(yù)測(cè)值。因此,Dice Loss損失函數(shù)在正樣本和負(fù)樣本之間存在顯著不平衡的情況下(如道路數(shù)據(jù)集)表現(xiàn)非常好。Dice Loss損失函數(shù)的定義如下所示:
(2)
基于上述分析,本文模型使用的混合損失函數(shù)如下所示:
(3)
式(1)~式(3)中:yt是真實(shí)值;yp是預(yù)測(cè)值;r為大于0的超參數(shù),用作損失函數(shù)的權(quán)重因子;本文r取0.5,以降低損失函數(shù)值并減少錯(cuò)誤懲罰。
本文在CHN6-CUG道路數(shù)據(jù)集[35]上進(jìn)行實(shí)驗(yàn),以評(píng)估改進(jìn)的HRNet的性能。CHN6-CUG包含4 511張分辨率為512像素×512像素大小的圖像,其中3 247張用于模型訓(xùn)練,812張用于模型驗(yàn)證,452張用于測(cè)試以及結(jié)果評(píng)估,圖像分辨率為50 cm/pixel。所有的實(shí)驗(yàn)都在NVIDIA RTX3090 GPU服務(wù)器上運(yùn)行。圖像的數(shù)據(jù)增強(qiáng)包含水平翻轉(zhuǎn)、隨機(jī)高斯模糊和圖像標(biāo)準(zhǔn)化。
本文使用的評(píng)估算法包括U-Net、全卷積網(wǎng)絡(luò)(fully convolutional network, FCN)[36]、PSPNet、DeeplabV3+、D-LinkNet50[37]和HRNet。所有提到的網(wǎng)絡(luò)都遵循相同的訓(xùn)練策略。本研究使用均方根傳播(root mean square prop, RMSprop)[38]優(yōu)化算法,批大小設(shè)置為8,迭代訓(xùn)練為200個(gè)epoch,動(dòng)量為0.9,權(quán)重衰減為5e-4。初始學(xué)習(xí)率為0.001,學(xué)習(xí)率使用poly策略進(jìn)行動(dòng)態(tài)調(diào)整。
實(shí)驗(yàn)選取的評(píng)價(jià)標(biāo)準(zhǔn)包括召回率(Recall)、精確率(Precision)、均交并比(mean intersection over union, MIoU)和F1分?jǐn)?shù),其計(jì)算分別如下所示:
(4)
(5)
(6)
(7)
式中:TP為真陽性;TN為真陰性;FP為假陽性;FN為假陰性。陽性和陰性分別代表道路和背景。
(1) 消融實(shí)驗(yàn)
為驗(yàn)證本文所提出的改進(jìn)HRNet中各模塊的有效性,比較了HRNet、剔除非局部塊的本文方法與本文方法的性能。如表1所示,剔除非局部塊的本文方法比HRNet在Recall、MIoU和F1性能上分別提高了1.44%、3.97%和0.35%,表明本文方法在HRNet結(jié)構(gòu)上增加了跳躍連接,增強(qiáng)了特征的重用,促進(jìn)了特征傳播。使用非局部塊的本文方法比剔除該模塊的本文方法在Recall、Precision、MIoU和F1上分別提高了1.02%、1.29%、1.66%和0.44%,說明非局部塊有效增強(qiáng)了網(wǎng)絡(luò)通道之間像素相關(guān)性的信息交流,提高了道路分割精度。
表1 消融實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)對(duì)比Table 1 Comparison of evaluation indexes of ablation experiment %
(2) 對(duì)比實(shí)驗(yàn)
為了綜合評(píng)價(jià)改進(jìn)后的HRNet模型的分割性能,選擇了U-Net、FCN、DeeplabV3+、PSPNet、D-LinkNet、HRNet進(jìn)行比較,并利用測(cè)試集對(duì)訓(xùn)練后的模型進(jìn)行性能測(cè)試。本文改進(jìn)的HRNet和其他網(wǎng)絡(luò)分割結(jié)果的能力評(píng)估比較如表2和圖4所示。本文改進(jìn)的HRNet在Recall、MIoU、F1分?jǐn)?shù)性能提升比例取得最高,分別達(dá)到了97.26%、84.91%、97.25%,與原始HRNet相比分別提高了2.46%、5.63%、0.79%。以上結(jié)果表明,本文改進(jìn)的HRNet有助于提高道路分割的準(zhǔn)確性。
表2 不同模型的道路分割評(píng)價(jià)指標(biāo)對(duì)比Table 2 Comparison of road segmentation evaluation indexes of different models %
圖4 不同模型的道路分割評(píng)價(jià)指標(biāo)對(duì)比直方圖Fig.4 Comparison histogram of road segmentation evaluation indexes of different models
本文方法與對(duì)比模型的道路分割結(jié)果如圖5所示,由黃色方框指出的分割部分可以明顯觀察到本文方法實(shí)現(xiàn)的高分辨率遙感影像道路分割邊緣具有更清晰、更準(zhǔn)確、道路細(xì)節(jié)保留程度更高的特點(diǎn)。相比之下,其他分割方法,例如D-LinkNet,易受到類似道路目標(biāo)像素(土地)的干擾,從而導(dǎo)致分割效果差。同樣,其他語義分割網(wǎng)絡(luò)表現(xiàn)出道路的不連貫特性,出現(xiàn)錯(cuò)分和漏分現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)HRNet并結(jié)合非局部塊的分割網(wǎng)絡(luò)模型,能夠捕獲更廣泛的道路特征,從而獲得更完整的分割結(jié)果。即使圖像中存在大小和形狀不同的道路像素,本文方法也可以生成包含連續(xù)線性道路的分割預(yù)測(cè)圖。因此,本文方法對(duì)道路分割產(chǎn)生了最為有效的結(jié)果,并且保留了更完整的目標(biāo)像素。
圖5 本文方法模型與對(duì)比模型的道路分割結(jié)果圖Fig.5 Road segmentation results of the method model in this paper and the comparison model
(3) 模型復(fù)雜度分析
本文方法與本文對(duì)比模型的復(fù)雜度比較如表3所示,其網(wǎng)絡(luò)的輸入數(shù)據(jù)大小為(1,3,512,512),預(yù)測(cè)時(shí)間為單張圖像的平均道路預(yù)測(cè)時(shí)間。由表3可知,HRNet的參數(shù)量(9.64 MB)、計(jì)算量(18.66 GFLOPs)最小,這是由于HRNet并行了多個(gè)分辨率的分支,并保持特征圖的高空間分辨率,同時(shí)與傳統(tǒng)網(wǎng)絡(luò)相比,減少了需要多層才能達(dá)到相同分辨率的參數(shù)數(shù)量。本文方法的參數(shù)量(12.38 MB)、計(jì)算量(60.46 GFLOPs)、預(yù)測(cè)時(shí)間(0.46 s)與其他對(duì)比模型相比都較小。D-LinkNet50的編碼器基于ResNet50架構(gòu),并且使用了擴(kuò)張卷積來增大感受野,因此其參數(shù)量(217.65 MB)、計(jì)算量(120.39 GFLOPs)、預(yù)測(cè)時(shí)間(0.78 s)與其他模型相比都是最大的。
表3 不同模型的復(fù)雜度對(duì)比Table 3 Comparison of complexity of different models
針對(duì)現(xiàn)有語義分割算法在高分辨率遙感圖像道路分割中存在的道路不連續(xù)、細(xì)節(jié)丟失、陰影誤分類等局限性,本文提出一種改進(jìn)的HRNet新方法,并引入非局部塊。該方法針對(duì)遙感道路分割背景復(fù)雜、目標(biāo)遮擋高、道路目標(biāo)像元少等特點(diǎn)進(jìn)行了研究。具體而言,該方法通過融合HRNet中具有相同分辨率的子網(wǎng)輸出和輸出層結(jié)果,增加深層特征圖的感知域,補(bǔ)充了語義和空間信息,提高了圖像特征的魯棒性。非局部塊的引入幫助網(wǎng)絡(luò)識(shí)別出了不同像素之間的關(guān)系,提升了圖像道路特征像素的恢復(fù)能力。在高分辨率遙感道路數(shù)據(jù)集CHN6-CUG上進(jìn)行了評(píng)估,并與同類方法進(jìn)行比較,表明該方法在道路分割方面具有顯著優(yōu)勢(shì)。該方法也可以推廣應(yīng)用至來自不同來源的遙感數(shù)據(jù)的其他類型目標(biāo)分割。