李代棟,赫曉慧,李盼樂(lè),田智慧,周廣勝,3
1.鄭州大學(xué) 信息工程學(xué)院,鄭州 450001
2.鄭州大學(xué) 地球科學(xué)與技術(shù)學(xué)院,鄭州 450052
3.中國(guó)氣象科學(xué)研究院,北京 100081
近年來(lái),從高分辨率遙感影像中提取道路已成功應(yīng)用在眾多領(lǐng)域,例如城市規(guī)劃、實(shí)時(shí)地理信息系統(tǒng)和交通導(dǎo)航等[1]。在理想情況下,道路作為提取對(duì)象,應(yīng)具有規(guī)則的形狀、均勻分布、固定寬度以及相互連接的拓?fù)浣Y(jié)構(gòu)。然而從遙感圖像提取道路存在如下困難:(1)多樣性,道路類型包括高速公路、城市干線道路和鄉(xiāng)村道路等,具有多尺度的特征;(2)狹長(zhǎng)的結(jié)構(gòu),與建筑物之類的大型物體相比,道路是一段狹長(zhǎng)的區(qū)域,很可能導(dǎo)致不連續(xù)的提??;(3)地物干擾較多,遙感圖像中的道路容易被樹木遮蓋或與空地相混淆,從而導(dǎo)致模棱兩可的提取結(jié)果。因此,從遙感影像中自動(dòng)、準(zhǔn)確地提取道路是一項(xiàng)艱巨的工作。
隨著深度語(yǔ)義分割領(lǐng)域的快速發(fā)展,例如全卷積網(wǎng)絡(luò)(FCN)[2]、編碼器-解碼器網(wǎng)絡(luò)(U-net[3]、SegNet[4])、DeepLab[5-6]和金字塔場(chǎng)景解析網(wǎng)絡(luò)(PSPNet)[7]等深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)展現(xiàn)了優(yōu)異的性能。在復(fù)雜的遙感影像信息提取工作中,國(guó)內(nèi)外研究人員也越來(lái)越關(guān)注DCNN在其中的應(yīng)用。例如蘇健民等人[8]提出一種基于U-Net改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了端到端的遙感影像分割。祖寶開等人[9]基于分塊低秩表示的方法,對(duì)城市遙感影像的不同區(qū)域進(jìn)行劃分。李森森等人[10]提出了一種改進(jìn)的Mask R-CNN卷積神經(jīng)網(wǎng)絡(luò),能夠?qū)b感影像中多個(gè)目標(biāo)進(jìn)行檢測(cè)與分割。而文獻(xiàn)[11-15]和針對(duì)道路結(jié)構(gòu)修正的RSRCNN[16]等,則針對(duì)Massachusetts航空影像數(shù)據(jù)集對(duì)道路分割進(jìn)行了大量研究。
基于DCNN的道路提取方法,憑借其捕獲高級(jí)語(yǔ)義的能力在道路分割方面取得了顯著進(jìn)展。但大多數(shù)DCNN方法利用性能優(yōu)異的分類網(wǎng)絡(luò)結(jié)構(gòu),去掉用于分類的全連接層來(lái)提取道路。這些方法通過(guò)堆棧卷積和池化操作,沒(méi)有考慮道路的結(jié)構(gòu)特點(diǎn),因此很難較好地提取復(fù)雜的道路區(qū)域。對(duì)于細(xì)節(jié)信息豐富的道路結(jié)構(gòu),經(jīng)過(guò)多個(gè)池化操作后盡管高級(jí)語(yǔ)義信息豐富,但低層位置信息等嚴(yán)重不足。賀浩等人[17]因此設(shè)計(jì)了較淺深度、分辨率較高的道路提取網(wǎng)絡(luò),減少了重復(fù)池化的影響,提高了網(wǎng)絡(luò)的細(xì)節(jié)表示能力。其次,由于道路呈帶狀分布的特點(diǎn),感受野的大小至關(guān)重要,而僅使用較大的正方形池化操作不能很好地解決此問(wèn)題,因?yàn)槠洳豢杀苊馐艿酱罅縼?lái)自背景區(qū)域的信息干擾[18]。而Zhou等人[19]利用空洞卷積[20],在不引入額外參數(shù)的情況下擴(kuò)大感受野范圍,提高了道路提取能力。此外,改善感受野的研究是空間金字塔池化[7,18],其通過(guò)一組具有固定大小的方形內(nèi)核進(jìn)行并行池化操作,網(wǎng)絡(luò)能夠捕獲大范圍的上下文信息。例如宋延強(qiáng)等人[21]利用空間金字塔池化模塊,改善了遙感圖像中識(shí)別結(jié)果過(guò)度分割,以及小物體識(shí)別差的問(wèn)題。上述方法在道路提取中應(yīng)用廣泛,但由于只應(yīng)用了方形內(nèi)核,限制了獲取遙感影像中帶狀道路信息的靈活性,因此在道路提取任務(wù)中利用上下文信息的能力有限。最后,盡管已經(jīng)提出眾多基于DCNN方法的道路提取網(wǎng)絡(luò),但現(xiàn)有網(wǎng)絡(luò)的訓(xùn)練大多采用交叉熵作為損失函數(shù)[2,8-11,18,21],在道路邊界及背景中存在大量模糊預(yù)測(cè),嚴(yán)重影響道路提取質(zhì)量。
為解決上述問(wèn)題,進(jìn)一步提升道路提取效果,本文設(shè)計(jì)了SPUD-ResNet的道路提取網(wǎng)絡(luò):首先利用空洞卷積構(gòu)建D-ResNet101網(wǎng)絡(luò)作為編碼器,增加低維特征向高維特征的跳躍連接,通過(guò)多級(jí)特征融合,能夠聚合多尺度的上下文信息,并保留豐富的低維細(xì)節(jié)特征以及高維語(yǔ)義特征;其次根據(jù)帶狀分布的道路特點(diǎn),利用條形池化模塊,側(cè)重沿水平或垂直空間維度獲取道路區(qū)域的長(zhǎng)距離依賴關(guān)系,同時(shí)區(qū)分局部細(xì)節(jié)信息;然后基于條形池化和金字塔池化,設(shè)計(jì)混合池化模塊,通過(guò)融合條形內(nèi)核和不同尺寸的方形內(nèi)核來(lái)獲取更加豐富的上下文信息;最后根據(jù)道路結(jié)構(gòu)特點(diǎn),設(shè)計(jì)混合損失函數(shù),在網(wǎng)絡(luò)訓(xùn)練過(guò)程中從像素級(jí)別到區(qū)域級(jí)別關(guān)注道路提取中的錯(cuò)誤分類,進(jìn)一步精細(xì)化道路目標(biāo)邊界與背景質(zhì)量。為驗(yàn)證所提方法的有效性,本文通過(guò)實(shí)驗(yàn)測(cè)試了模型結(jié)構(gòu)、池化模塊與損失函數(shù)的性能。
本文對(duì)Resnet-101網(wǎng)絡(luò)進(jìn)行如下改進(jìn):
(1)取消Resnet-101分類網(wǎng)絡(luò)的全連接層,利用空洞卷積減少下采樣次數(shù),保持更大尺寸的特征圖,并增加基于跳躍連接的對(duì)應(yīng)解碼器。
(2)根據(jù)帶狀的道路結(jié)構(gòu)特點(diǎn),構(gòu)建條形池化模塊,沿水平或垂直空間維度獲取長(zhǎng)距離上下文信息。
(3)通過(guò)融合金字塔池化和條形池化,提出混合池化模塊,對(duì)不同類型的上下文信息進(jìn)行融合。
SPUD-ResNet道路提取網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,主要由適合道路提取的UD-ResNet101編碼器-解碼器網(wǎng)絡(luò)、SPM模塊和MPM模塊組成。
1.1.1 UD-ResNet101網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)的深度對(duì)視覺(jué)識(shí)別任務(wù)至關(guān)重要[22]。CNN可以提取低、中、高層次的特征,網(wǎng)絡(luò)層次越多,能夠提取的特征“層次”就豐富。然而簡(jiǎn)單地增加深度會(huì)導(dǎo)致梯度分散或梯度爆炸,精度達(dá)到飽和后迅速下降。文獻(xiàn)[23]通過(guò)引入殘差網(wǎng)絡(luò)解決了退化問(wèn)題,且性能優(yōu)異。但道路是線形且具有網(wǎng)狀分布的特殊結(jié)構(gòu),其細(xì)節(jié)信息豐富,而語(yǔ)義信息較為簡(jiǎn)單。經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)面對(duì)的圖像復(fù)雜多樣,對(duì)于語(yǔ)義信息的提取要求更高,輸入圖像經(jīng)過(guò)重復(fù)的池化和下采樣導(dǎo)致分辨率大幅下降,位置信息容易丟失且難以恢復(fù)。如文獻(xiàn)[16]采用FCN架構(gòu),最小的中間特征圖被壓縮了32倍,因而丟失了目標(biāo)的部分細(xì)節(jié)信息。因此,針對(duì)道路提取問(wèn)題的特殊性,本文設(shè)計(jì)了下采樣次數(shù)較少,特征圖尺寸較大且性能優(yōu)異的D-ResNet101編碼器網(wǎng)絡(luò)。
D-ResNet101的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,該網(wǎng)絡(luò)舍棄Resnet101分類網(wǎng)絡(luò)的全連接層,構(gòu)成全卷積網(wǎng)絡(luò),可以接受任意大小圖像,并確保網(wǎng)絡(luò)輸出的空間維度。原始的ResNet101網(wǎng)絡(luò)會(huì)對(duì)輸入影像進(jìn)行多次下采樣,網(wǎng)絡(luò)得到的最小特征圖尺寸被壓縮32倍。下采樣雖然能夠擴(kuò)大感受野范圍,提取主要信息,但由于圖像分割需要將池化操作后較小的圖像尺寸,再通過(guò)上采樣的方式恢復(fù)至原始的圖像尺寸進(jìn)行預(yù)測(cè)。因此連續(xù)池化和下采樣容易導(dǎo)致空間信息的丟失、小目標(biāo)信息無(wú)法重建等問(wèn)題,會(huì)嚴(yán)重影響網(wǎng)絡(luò)性能。在卷積核不變的情況下,相比于常規(guī)卷積,空洞卷積保留的特征圖周圍像素信息更豐富,更有利于圖像語(yǔ)義分割像素點(diǎn)分類的準(zhǔn)確性。在網(wǎng)絡(luò)中第Conv4和Conv5卷積塊中采用空洞率為2的空洞卷積進(jìn)行替代部分池化層,可以降低池化層對(duì)圖像信息丟失的影響,并且能夠有效地聚合多尺度上下文信息。除此之外,還可維持與原網(wǎng)絡(luò)相同的感受野大小。經(jīng)過(guò)改進(jìn)后的編碼器網(wǎng)絡(luò)只經(jīng)過(guò)三次下采樣處理,可以減少信號(hào)下采樣的程度,其最小特征圖的尺寸仍有原圖1/8,因而能夠更多地保留道路的局部細(xì)節(jié)特征。
圖1 SPUD-ResNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SPUD-ResNet network architecture
表1 D-ResNet101網(wǎng)絡(luò)結(jié)構(gòu)Table 1 D-ResNet101 Network Structure
UD-ResNet101網(wǎng)絡(luò)則是在D-ResNet101網(wǎng)絡(luò)基礎(chǔ)上,構(gòu)建相應(yīng)解碼器,通過(guò)逐步恢復(fù)物體的細(xì)節(jié)和空間維度的方式,將編碼器輸出的特征圖恢復(fù)到原圖大小。能夠減少道路結(jié)構(gòu)的細(xì)節(jié)信息的丟失,改善分割的邊界粗糙的問(wèn)題。并通過(guò)增加跳躍連接,將網(wǎng)絡(luò)的低層局部特征與高層語(yǔ)義特征進(jìn)行融合,有助于更加精確的定位道路邊緣信息,提升對(duì)道路結(jié)構(gòu)的語(yǔ)義信息和細(xì)節(jié)信息的獲取能力。
1.1.2 條形池化模塊
道路是呈帶狀分布的特殊結(jié)構(gòu),傳統(tǒng)池化方式僅能夠從固定的正方形區(qū)域內(nèi)收集信息,如圖2(a)所示,其利用上下文信息的能力有限。為了更有效地捕獲道路結(jié)構(gòu)的長(zhǎng)距離依賴關(guān)系,SPUD-ResNet利用條形池化來(lái)擴(kuò)大感受野范圍并獲取上下文信息。與普通池化方法相比,條形池化具有兩個(gè)顯著優(yōu)點(diǎn)。首先,如圖2(b)頂部所示,它沿水平或豎直空間維度設(shè)置了較長(zhǎng)的內(nèi)核形狀,因此可以捕獲孤立道路區(qū)域(矩形框)的長(zhǎng)距離關(guān)系。其次,如圖2(b)其余部分所示,通過(guò)該條狀內(nèi)核的設(shè)計(jì),有助于捕獲局部道路結(jié)構(gòu)的上下文信息,并防止無(wú)關(guān)區(qū)域的干擾。通過(guò)集成這種長(zhǎng)而窄的條形池化,SPUD-ResNet能夠同時(shí)聚合全局和本地的上下文信息。
圖2 普通池化、條形池化和對(duì)應(yīng)標(biāo)簽Fig.2 General pooling,strip pooling,and corresponding labels
本文構(gòu)建的條形池化模塊(SPM)由兩條路徑組成,分別側(cè)重于沿水平或垂直空間維度獲取長(zhǎng)距離上下文信息,能夠有效擴(kuò)大網(wǎng)絡(luò)的接收范圍。對(duì)于影像中的每個(gè)空間位置,對(duì)其水平和垂直信息進(jìn)行編碼,然后通過(guò)平衡其自身的權(quán)重以進(jìn)行特征細(xì)化。如圖3所示,在條形池化模塊中,輸入的特征圖尺寸為H×W,通道數(shù)為C。對(duì)任一通道的特征圖,x∈RH×W經(jīng)過(guò)水平和垂直條形池化的處理后尺寸為H×1和1×W,再對(duì)其特征值分別進(jìn)行平均。其中水平池化的輸出結(jié)果yh∈RH如式(1)所示:
垂直池化的輸出結(jié)果yv∈RW如式(2)所示:
兩個(gè)輸出結(jié)果分別沿著垂直和水平方向進(jìn)行擴(kuò)容,并將尺寸相同的特征圖通過(guò)對(duì)應(yīng)位置求和的方式進(jìn)行融合。在維度不變的情況下,融合兩個(gè)特征圖信息,得到與輸入尺寸相同的特征圖。融合結(jié)果如式(3)所示:
最后,對(duì)融合結(jié)果依次通過(guò)1×1卷積和sigmoid操作,再與原特征圖通過(guò)對(duì)應(yīng)位置相乘的方式進(jìn)行結(jié)合,得到SPM模塊的最終輸出結(jié)果。
特征圖在經(jīng)過(guò)SPM模塊后,輸出特征圖中的每個(gè)位置都與水平或垂直方向建立了聯(lián)系。通過(guò)多次重復(fù)該模塊的聚合過(guò)程,能夠?qū)λ刑卣餍畔?gòu)建長(zhǎng)距離依賴關(guān)系。與普通池化操作相比,本文改進(jìn)方法中條形池化考慮的是較長(zhǎng)但較窄的范圍,更加側(cè)重沿水平或垂直方向獲取道路特征信息,避免了與相距較遠(yuǎn)的背景之間建立不必要的關(guān)系。
1.1.3 混合池化模塊
金字塔池化模塊(PPM)是增強(qiáng)語(yǔ)義分割網(wǎng)絡(luò)的有效方法[7]。本文利用標(biāo)準(zhǔn)空間池化和條形池化的優(yōu)點(diǎn),設(shè)計(jì)了混合池模塊(MPM)。該模塊利用不同內(nèi)核形狀和尺寸的池化操作來(lái)探測(cè)復(fù)雜的遙感影像,獲取更加全面和豐富的特征信息,進(jìn)一步在高語(yǔ)義級(jí)別上對(duì)長(zhǎng)距離上下文信息進(jìn)行建模,使道路和背景的特征表示更具區(qū)分性。
MPM模塊由金字塔池化和條形池化組成,可同時(shí)捕獲不同位置之間的長(zhǎng)距離和短距離依賴關(guān)系,對(duì)于提高道路分割網(wǎng)絡(luò)的性能有極大幫助。對(duì)于長(zhǎng)距離依賴關(guān)系,與全局平均池化層不同,同時(shí)使用水平和垂直條狀池化操作來(lái)收集此類信息。條形池化不僅在離散分布的道路區(qū)域之間構(gòu)建聯(lián)系,而且能夠?qū)l形道路區(qū)域進(jìn)行編碼。但對(duì)于部分區(qū)域道路分布較為緊密的特點(diǎn),采用金字塔池化模塊提高捕獲本地上下文信息的能力。該模塊結(jié)構(gòu)如圖4所示,在MPM模塊之前,首先需要通過(guò)1×1卷積層用于channel縮減,其輸出結(jié)果經(jīng)過(guò)融合并由另一個(gè)1×1卷積層進(jìn)行channel擴(kuò)展。
圖3 SPM模塊Fig.3 Strip pooling module
圖4 MPM模塊Fig.4 Mixed pooling module
道路提取是區(qū)分道路及背景的二分類問(wèn)題,通常利用二分類交叉熵?fù)p失函數(shù)對(duì)道路提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其定義如式(4)所示:
在式(4)中,yi為第i個(gè)像素對(duì)應(yīng)二值化標(biāo)簽的值,該值等于0時(shí)為背景,等于1時(shí)則為道路;而ai為網(wǎng)絡(luò)對(duì)于第i個(gè)像素的預(yù)測(cè)值,其值在0到1之間,網(wǎng)絡(luò)預(yù)測(cè)為道路的概率越高,其值越趨近于1。但傳統(tǒng)二分類交叉熵?fù)p失函數(shù)對(duì)所有像素的損失分配了相同的權(quán)重,忽略了像素所處位置與其分類的聯(lián)系?;诖擞^點(diǎn),RSRCNN[16]將損失函數(shù)改進(jìn)為如式(5)所示:
在式(5)中,di表示第i個(gè)像素根據(jù)標(biāo)簽計(jì)算出與道路區(qū)域的最小歐氏距離,T是判斷該像素距離道路是否足夠遠(yuǎn)的閾值,RSRCNN[16]將其設(shè)置為。當(dāng)di的值為0時(shí),f(di)為0;當(dāng)0<di<T時(shí),其值為;當(dāng)di>T時(shí),其值為。該損失函數(shù)的設(shè)計(jì)對(duì)道路附近的像素施加了更大的負(fù)樣本懲罰,使得道路結(jié)構(gòu)的連續(xù)性能夠?qū)p失函數(shù)產(chǎn)生影響。Ld損失函數(shù)能夠改善提取任務(wù)中道路結(jié)構(gòu)的表現(xiàn)效果,但其僅考慮了單個(gè)像素的位置關(guān)系,未考慮相鄰區(qū)域的標(biāo)簽,因此在道路分割中經(jīng)常遇到提取結(jié)果模糊的問(wèn)題。為改善此問(wèn)題,本文引入用于評(píng)估圖像質(zhì)量結(jié)構(gòu)相似性(SSIM)[24]指標(biāo),其定義如式(6)所示:
SSIM是區(qū)域級(jí)別的度量,其考慮了每個(gè)像素局部鄰域的影響,并通過(guò)比較亮度,對(duì)比度和結(jié)構(gòu)來(lái)評(píng)估兩個(gè)圖像之間的相似性,較高的SSIM意味著更清晰的結(jié)果[25]。因此,將SSIM作為損失函數(shù)訓(xùn)練本文所提網(wǎng)絡(luò),能夠有效減少提取結(jié)果模糊的問(wèn)題,進(jìn)一步提升道路分割質(zhì)量。本文將遙感影像劃分為N個(gè)區(qū)域,x和y則分別表示某個(gè)區(qū)域的道路預(yù)測(cè)概率圖與對(duì)應(yīng)標(biāo)簽,LSSIM損失函數(shù)如式(7)所示:
在式(7)中,C1=0.012,C2=0.032,μx和μy分別表示x和y的平均值,σx和σy分別表示x和y的標(biāo)準(zhǔn)差,σxy表示x和y的協(xié)方差。LSSIM損失函數(shù)在訓(xùn)練開始時(shí)給邊界區(qū)域分配較高的權(quán)重,沿邊界的損失最大,它有助于專注優(yōu)化道路邊界。LSSIM損失函數(shù)則隨著訓(xùn)練的進(jìn)行,道路區(qū)域的SSIM損失減少,背景損失成為主導(dǎo),仍然有足夠的梯度來(lái)推動(dòng)模型的學(xué)習(xí)。并且直到背景的預(yù)測(cè)非常接近標(biāo)簽時(shí),其損失值才迅速下降為0,對(duì)于模型的訓(xùn)練十分有幫助。因此能夠消除背景中模糊的預(yù)測(cè),整體背景的預(yù)測(cè)更加清晰。
由于道路邊界和背景質(zhì)量對(duì)道路提取結(jié)果至關(guān)重要,因此本文在Ld損失函數(shù)的基礎(chǔ)上,利用LSSIM損失函數(shù)改善其模糊預(yù)測(cè)的問(wèn)題。本文設(shè)計(jì)的混合損失函數(shù)Lds,能夠從像素級(jí)別和區(qū)域級(jí)別對(duì)道路邊界進(jìn)行優(yōu)化,并在訓(xùn)練后期優(yōu)化背景部分,其定義如式(8)所示:
為驗(yàn)證算法對(duì)遙感影像道路提取的有效性,利用遙感影像數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練、測(cè)試與驗(yàn)證。實(shí)驗(yàn)基于Tensorflow深度學(xué)習(xí)框架設(shè)計(jì),運(yùn)行環(huán)境中CPU為InterCorei7-8700 4.6 GHz,GPU為NVIDIA TeslaP100 16 GB。
實(shí)驗(yàn)采用Massachusetts道路數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集共涵蓋1 171張3通道影像及對(duì)應(yīng)的2通道分割標(biāo)簽,其影像空間分辨率為1 m,每張影像的尺寸為1 500像素×1 500像素。標(biāo)簽為二值化圖像,其道路像素值為1,背景像素值為0。首先通過(guò)人工篩選方式去除數(shù)據(jù)集中誤差較大的影像和標(biāo)簽,將每張影像及其對(duì)應(yīng)標(biāo)簽分別裁剪為128像素×128像素大小的影像,并將道路數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。此外,為有效擴(kuò)增訓(xùn)練數(shù)據(jù),本文對(duì)原始影像及標(biāo)簽隨機(jī)進(jìn)行旋轉(zhuǎn)或水平、垂直的鏡像映射,將訓(xùn)練數(shù)據(jù)量擴(kuò)充為原來(lái)的8倍。
本文采用評(píng)估遙感影像道路提取方法質(zhì)量的普遍評(píng)價(jià)指標(biāo),即精確度(precision)、召回率(recall)和F1-score,其定義分別如式(9)~(11)所示:
在式(9)~(11)的定義中,TP(True-Positive)代表標(biāo)簽為道路,預(yù)測(cè)像素也為道路;FP(False-Positive)代表標(biāo)簽為背景,預(yù)測(cè)為道路;FN(False-Negative)代表標(biāo)簽為道路,預(yù)測(cè)為背景。
2.3.1 不同網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)對(duì)比
為了驗(yàn)證本文所提出網(wǎng)絡(luò)結(jié)構(gòu)的有效性,本文選取RSRCNN、U-net、U-Resnet101、UD-ResNet101和SPUDResNet101,在Massachusetts Roads數(shù)據(jù)集上進(jìn)行驗(yàn)證測(cè)試,各項(xiàng)性能指標(biāo)如表2所示。
表2 各模型提取結(jié)果對(duì)比Table 2 Comparison of extraction results of each model
從表2中可知,RSRCNN的設(shè)計(jì)是基于FCN網(wǎng)絡(luò)框架,其特征提取部分采用了預(yù)訓(xùn)練的VGG16模型,由于網(wǎng)絡(luò)結(jié)構(gòu)的限制和過(guò)低的特征圖尺寸,其F1-score僅為66.2%。U-net則采用了更加先進(jìn)的Encoder-Decoder網(wǎng)絡(luò)結(jié)構(gòu),能夠有效提升分割精度;但其主要運(yùn)用于醫(yī)學(xué)影像的處理,其模型設(shè)計(jì)并不能完全適應(yīng)復(fù)雜的遙感影像道路提取任務(wù)。而U-Resnet101則利用強(qiáng)大的殘差網(wǎng)絡(luò)和Encoder-Decoder網(wǎng)絡(luò)結(jié)構(gòu),有效提升了特征編碼能力,能夠獲取更加豐富的道路特征信息,與U-net相比各項(xiàng)指標(biāo)都有所進(jìn)步。而本文在U-Resnet101網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)的UD-ResNet101,利用空洞卷積減少下采樣次數(shù),在擴(kuò)大感受野的同時(shí)保證特征圖尺寸,提升了道路提取性能。同時(shí),根據(jù)遙感影像中道路結(jié)構(gòu)特點(diǎn),融合條形池化模塊和混合池化模塊的SPUD-ResNet101,更加適合獲取條形的道路特征,在細(xì)節(jié)辨識(shí)能力上明顯優(yōu)于其他方法,與UD-ResNet101相比,Recall值提升1.2%,道路提取結(jié)果更加完整。各方法的道路分割結(jié)果如圖5所示,其中圖5(a)~(g)分別是原始影像、對(duì)應(yīng)標(biāo)簽、RSRCNN、U-net、U-Resnet101、UD-ResNet101和SPUD-ResNet101的道路提取結(jié)果。
如圖5所示,RSRCNN方法受限于網(wǎng)絡(luò)結(jié)構(gòu)缺陷,導(dǎo)致其細(xì)節(jié)提取能力較差,存在較多誤檢測(cè)區(qū)域,對(duì)于并行的雙車道無(wú)法有效分離。U-net及U-Resnet101憑借更先進(jìn)的結(jié)構(gòu),提升了道路提取效果,但仍不能準(zhǔn)確地提取部分道路區(qū)域,其道路形狀和結(jié)構(gòu)均存在不同程度的問(wèn)題。由于上述方法都直接利用了針對(duì)分類任務(wù)進(jìn)行設(shè)計(jì)的VGG、Resnet分類網(wǎng)絡(luò),對(duì)輸入影像進(jìn)行了4次下采樣,最小特征圖尺寸僅為輸入圖像的1/32,導(dǎo)致道路細(xì)節(jié)表達(dá)存在缺陷。UD-ResNet101則利用空洞卷積保持了較高的分辨率,較好地保存了道路結(jié)構(gòu)細(xì)節(jié)信息,改善了網(wǎng)絡(luò)的細(xì)節(jié)表達(dá)能力。而增加SPM模塊和MPM模塊后,更加適合條形道路結(jié)構(gòu)提取,整體的提取結(jié)果更加完整,進(jìn)一步提升了道路提取質(zhì)量。但上述兩種方法所提取的道路邊緣較為粗糙,并且背景中存在部分模糊不清的道路,嚴(yán)重影響了道路提取效果。
2.3.2 不同損失函數(shù)實(shí)驗(yàn)對(duì)比
在本文所提SPUD-ResNet101網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,分別利用Ld損失函數(shù)、LSSIM損失函數(shù)和混合損失函數(shù)Lds對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其測(cè)試結(jié)果如表3。
表3 不同損失函數(shù)提取結(jié)果對(duì)比Table 3 Comparison of extraction results of different loss functions
從表3中可知,本文所提網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練過(guò)程中,Ld損失函數(shù)在提升道路提取完整度方面效果明顯。而LSSIM損失函數(shù)則通過(guò)對(duì)比局部區(qū)域的亮度,對(duì)比度和結(jié)構(gòu),得到了更為準(zhǔn)確清晰的結(jié)果。最后,在對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)的基礎(chǔ)上,引入本文所提混合損失函數(shù),約束道路邊緣并優(yōu)化整體效果;與上述兩種損失函數(shù)相比,Precision和F1-score達(dá)到了84.5%和83.9%,進(jìn)一步提升了道路提取質(zhì)量。本文所提損失函數(shù)除了在各項(xiàng)性能指標(biāo)上表現(xiàn)更好,其優(yōu)勢(shì)更在于能夠保留道路細(xì)節(jié)信息,得到更加精確清晰的道路提取結(jié)果。利用各損失函數(shù)訓(xùn)練的道路提取結(jié)果如圖6所示,其中圖6(a)~(e)分別是利用Ld損失函數(shù)、LSSIM損失函數(shù)和本文方法的提取結(jié)果。
圖5 各模型提取結(jié)果Fig.5 Extraction results of each model
圖6 各損失函數(shù)提取結(jié)果Fig.6 Extraction results of each loss function
如圖6所示,利用Ld損失函數(shù)對(duì)道路附近的像素施加了更大的負(fù)樣本懲罰,能夠獲取更完整的道路結(jié)構(gòu)。但由于Ld損失函數(shù)只關(guān)注道路附近的像素,當(dāng)兩個(gè)道路結(jié)構(gòu)較近時(shí)容易造成誤判,且對(duì)于距道路結(jié)構(gòu)較遠(yuǎn)位置的噪聲無(wú)法有效消除。而LSSIM損失函數(shù)通過(guò)對(duì)比圖像區(qū)域級(jí)別結(jié)構(gòu)的相似性,優(yōu)化道路結(jié)構(gòu)邊緣及背景的模糊預(yù)測(cè),提取結(jié)果更加準(zhǔn)確。但同時(shí)也存在將部分正確預(yù)測(cè)消除的現(xiàn)象,影響了整體提取結(jié)果。本文所提方法在混合損失函數(shù)的幫助下,能夠明顯減少道路結(jié)構(gòu)缺損,同時(shí)消除大部分模糊預(yù)測(cè)的干擾,提取結(jié)果與標(biāo)簽圖像達(dá)到更高的相似度,整體的道路提取效果更加精準(zhǔn)。
針對(duì)遙感影像中道路目標(biāo)特點(diǎn),本文提出基于SPUDResNet的遙感影像道路提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)以殘差深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),采用Encoder-Decoder網(wǎng)絡(luò)框架,并由SPM模塊和MPM模塊組成。其中D-ResNet101作為編碼器的主要部分,利用空洞卷積擴(kuò)大感受野范圍并保證特征圖尺寸;解碼器則通過(guò)跳躍連接,同時(shí)獲取高等級(jí)的全局信息和低等級(jí)的細(xì)節(jié)信息。SPM模塊相比傳統(tǒng)池化方式,能夠獲取更加豐富的上下文信息,更適合于對(duì)帶狀的道路結(jié)構(gòu)進(jìn)行提取。而MPM模塊則采用多種內(nèi)核形狀進(jìn)行池化操作,更加充分地利用全局信息。最后,不同于以往的道路提取算法,本文提出利用道路結(jié)構(gòu)幾何信息和結(jié)構(gòu)相似性構(gòu)成混合損失函數(shù),對(duì)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行實(shí)時(shí)監(jiān)督。在Massachusetts道路數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提方法的各項(xiàng)性能指標(biāo)表現(xiàn)優(yōu)異,其召回率、精確度和F值分別達(dá)到了83.4%、84.5%和83.9%,在道路提取任務(wù)中具有廣泛的應(yīng)用前景。下一步工作和研究的重點(diǎn)是提升SPUD-ResNet的適用范圍,使其能夠更加廣泛地應(yīng)用在各種目標(biāo)提取任務(wù)中。