孔祥穩(wěn),王常穎,張世超,李勁華,隋毅
(青島大學 計算機科學技術(shù)學院,山東 青島 266071)
高質(zhì)量的道路信息提取在許多實際應(yīng)用中起著重要作用[1]。傳統(tǒng)的自動提取道路方法主要包括基于光譜特征的方法[2]、面向?qū)ο蟮姆椒╗3]、淺層機器學習方法[4]等。然而隨著遙感影像分辨率的提高,影像包含的地物細節(jié)更加豐富,以上方法提取道路的精度已經(jīng)不能達到實際需求。
近幾年,深度學習技術(shù)在計算機視覺領(lǐng)域得到了廣泛的應(yīng)用。如經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5]和全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,F(xiàn)CN)[6]以及包括U-Net、SegNet[7]和DeepLab[8]在內(nèi)的編碼-解碼網(wǎng)絡(luò)在語義分割應(yīng)用中都展現(xiàn)了優(yōu)異的性能。道路分割作為語義分割問題的一個子集,國內(nèi)外學者對其做了大量的研究,得到了較大的發(fā)展。Wang等[9]利用滑動窗口方法預測道路樣本,提出了一種提取道路網(wǎng)絡(luò)的神經(jīng)動態(tài)框架。Wei等[10]使用FCN架構(gòu)提取道路得到了較好的結(jié)果,但該方法無法完全恢復輸入圖像的分辨率,在分割小細節(jié)方面表現(xiàn)不佳。王卓等[11]提出一種基于U-Net改進的深度神經(jīng)網(wǎng)絡(luò),改善了道路提取精度。U-Net、SegNet、DeepLab等高性能的編碼-解碼網(wǎng)絡(luò)模型使用一系列卷積和池化操作來提高道路提取效率,但由于沒有考慮道路的結(jié)構(gòu)特征,對于較為復雜的區(qū)域提取效果不佳。
綜上可以看出,必須要結(jié)合道路目標的結(jié)構(gòu)特性改進模型,才能更適合解決道路提取問題??紤]到道路目標呈現(xiàn)細長形狀,而且寬度極其有限,不同的感受野大小設(shè)置在道路提取任務(wù)中至關(guān)重要。研究發(fā)現(xiàn),空洞卷積在擴大感受野的同時不會引入額外的計算參數(shù)。此外,空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)也可以改善感受野的大小,馬天浩等[12]將空洞空間金字塔池化引用到道路識別場景中,有效改善了局部道路提取完整性。分析原理可知,空洞空間金字塔池化只是將一個正方形窗口變成了多個尺寸的正方形窗口進行并行池化操作,仍然會不可避免地捕捉到不相關(guān)區(qū)域的干擾信息,最終限制捕捉長條狀的道路區(qū)域,依然難以實現(xiàn)高精度的道路提取。
為解決上述問題,進一步提升道路提取的完整性,結(jié)合U-Net網(wǎng)絡(luò)和遙感影像數(shù)據(jù)特征,本文提出了一種結(jié)合條紋池化模塊(strip pooling module,SPM)和混合池化模塊(mixed pooling module,MPM)[13]的SM-Unet網(wǎng)絡(luò),并以國產(chǎn)高分二號影像為數(shù)據(jù)源開展了基于SM-Unet的道路提取實驗。
如圖1所示,U-Net網(wǎng)絡(luò)是一種高度對稱的編碼器-解碼器網(wǎng)絡(luò)。在編碼器部分設(shè)置兩個3×3大小的卷積層提取特征,然后使用2×2大小的最大池化模塊對特征圖進行下采樣。解碼器部分的每個模塊都包含一個上采樣操作,通過2×2大小的反卷積模塊實現(xiàn)。并且該網(wǎng)絡(luò)在同一層次使用了跳躍連接,這樣能夠保證恢復后的特征圖可以融合更多低水平的特征,也可以使不同尺寸的特征得到融合。
在高分辨率遙感影像中道路多呈現(xiàn)狹窄的長條狀,總體上呈網(wǎng)狀分布。由于高分辨率遙感影像中道路目標特征復雜且背景地物多樣,其細節(jié)信息非常豐富,這就對用語義分割模型提取語義信息提出了更高的要求。U-Net網(wǎng)絡(luò)通過級聯(lián)對應(yīng)層次的特征圖,復用低層次語義信息,然而U-Net網(wǎng)絡(luò)進行下采樣擴大感受野范圍的同時,也會忽略部分細小道路目標信息,因此,使用U-Net網(wǎng)絡(luò)在高分辨率遙感影像上進行道路提取存在局限性。
本文提出的SM-Unet網(wǎng)絡(luò)是以U-Net網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)進行改進的,網(wǎng)絡(luò)主要由編碼器和解碼器兩部分組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 SM-Unet網(wǎng)絡(luò)結(jié)構(gòu)圖
針對從高分辨率遙感影像中提取道路任務(wù)的特殊性,本文結(jié)合U-Net網(wǎng)絡(luò),設(shè)計了SM-Unet。U-Net網(wǎng)絡(luò)編碼器部分進行四次下采樣來擴大感受野范圍。然而下采樣在擴大感受野的同時,可能會導致部分細小道路目標信息丟失甚至無法重建。為了提取到更多有效的細節(jié)信息,在下采樣前加入條紋池化模塊。該模塊限制池化區(qū)域,能夠結(jié)合道路的形狀特征,既能捕獲遠距離孤立道路區(qū)域信息,同時又關(guān)注局部細節(jié)。因此,在編碼器的最后一層卷積塊加入混合池化模塊,通過混合池化模塊收集更多不同位置豐富的上下文信息。最后,將編碼器產(chǎn)生的特征圖饋送到解碼器。
1)條紋池化模塊。道路是呈現(xiàn)長條狀分布的特殊網(wǎng)狀結(jié)構(gòu),多條道路互相交錯會形成道路網(wǎng),且道路在影像中總體呈現(xiàn)連貫帶狀,很少出現(xiàn)斷頭路。如圖3(a)所示,傳統(tǒng)的空間池化僅使用固定大小的正方形窗口提取特征,考慮到道路結(jié)構(gòu)的特殊性,使用傳統(tǒng)的池化方法會限制提取道路場景中的各種上下文信息,同時也會不可避免地提取到不相干區(qū)域的干擾信息。SM-Unet網(wǎng)絡(luò)使用條紋池化方法可以有效地擴大感受野范圍并且收集上下文信息。如圖3(b)所示,相比于傳統(tǒng)池化,條紋池化主要有兩個優(yōu)點。第一,條紋池化方法沿著一個空間維度設(shè)計了N×1的長條狀的池化核形狀,該池化核形狀可以很好應(yīng)用到長條狀的道路上,且在長條形窗口內(nèi)更容易獲取道路孤立區(qū)域的遠距離關(guān)系。第二,它沿著另一個空間維度設(shè)計了1×N的狹窄核形狀,這有助于捕獲空間中的局部上下文信息,并且能有效防止不相關(guān)區(qū)域的無用信息干擾標簽的預測。條紋池化與傳統(tǒng)的僅從固定的正方形窗口收集上下文的空間池化有本質(zhì)的不同。本文網(wǎng)絡(luò)集成條紋池化模塊,這種條紋池化考慮的是較長較窄的范圍,而不是整個特征圖,避免了在相距較遠的位置之間建立不必要的連接,同時更能聚合全局和上下文信息。
圖3 普通池化、條紋池化和對應(yīng)標簽圖
傳統(tǒng)池化將方形區(qū)域?qū)?yīng)位置上特征圖的像素值求平均,以該值作為池化輸出值。池化的輸出結(jié)果如式(1)所示。
(1)
式中:x∈R,為任意二維輸入張量,R為實數(shù)集;H和W分別為池化核的高度和寬度;y的每個空間位置對應(yīng)一個大小為H×W的池化窗口;i0和j0分別指當前池化區(qū)域相對于所有池化區(qū)域在高度方向和寬度方向的相對位置;i和j分別表示在池化區(qū)域中的高度和寬度坐標。由式(1)也可以看出,當該池化處理的對象為不規(guī)則形狀時,會不可避免地包含許多不相關(guān)的信息。
本文引入的條紋池化模塊由兩條路徑組成,如圖4所示。這兩條路徑分別沿著垂直和水平兩個空間維度執(zhí)行池化,以有效擴大主干的感受野范圍。對于收集到的遙感影像中的每個空間信息,對全局的水平和垂直信息進行編碼,然后使用編碼來平衡其自身的權(quán)重以進行特征細化。與傳統(tǒng)池化不同,條紋池化先將輸入的二維張量通過水平和垂直條紋池化后變?yōu)镠×1和1×W,再對水平和垂直條形區(qū)域?qū)?yīng)位置上特征圖的像素分別求平均,以該值作為池化輸出值。水平池化輸出結(jié)果如式(2)所示,垂直池化輸出結(jié)果如式(3)所示。
圖4 條紋池化模塊
(2)
(3)
式中:h、v分別代表條帶合并方向,h為水平方向,v為垂直方向;y為池化輸出,其每個空間位置對應(yīng)一個大小為H×1和1×W的池化窗口;H和W分別為水平池化和垂直池化的長度,此處的i與j分別代表當前池化像素在整個池化區(qū)域x中的高度和寬度坐標。
水平和垂直池化輸出結(jié)果經(jīng)過卷積核大小為3的1D卷積沿著左右和上下方向進行擴容,擴容后得到兩個尺寸相同的特征圖,對擴容后的特征圖對應(yīng)相同位置求和得到與輸入尺寸相同的大小為H×W的融合特征圖。融合特征圖結(jié)果如式(4)所示。
(4)
最后,融合特征圖結(jié)果通過1×1卷積和sigmoid處理后,再與原輸入圖對應(yīng)位置像素相乘得到條紋池化的最終輸出結(jié)果。
在條紋池化過程中,輸出特征圖中的每個位置都和輸入特征圖中的水平和垂直位置建立了關(guān)系。在條紋池化過程中,重復聚合上述過程幾次,能夠?qū)崿F(xiàn)在遙感影像中對所有的特征信息構(gòu)建長距離依賴關(guān)系。
2)混合池化模塊。金字塔池化模塊(pyramid pooling module,PPM)[14]是增強語義分割網(wǎng)絡(luò)的有效方法。不同的金字塔級別有不同的池內(nèi)核,但在擴大主干網(wǎng)絡(luò)感受野用金字塔池化時可能會包含對某一位置預測無用甚至誤導的信息,所以有必要限制池化的區(qū)域。結(jié)合標準池化和條紋池化的優(yōu)點,設(shè)計了混合池化模塊。該模塊結(jié)合不同尺寸和各種不同正方形內(nèi)核形狀、條形內(nèi)核形狀的池化操作,聚合高分辨率遙感影像中不同類型的上下文信息,從而使道路特征表示更有辨別力。
混合池化模塊由條紋池化和金字塔池化共同組成,首先用1×1卷積層減少通道數(shù)量,然后將兩個子模塊的輸出串聯(lián)到一起,引入另一個1×1卷積層擴展通道數(shù)量。該模塊進行池化操作時能獲取各種不同位置之間的短距離和長距離相關(guān)關(guān)系。對于長距離依賴關(guān)系,使用水平和垂直條紋池化可以聚合此類信息。結(jié)合高分辨率遙感影像中道路的特點,條紋池化可以收集離散分布的道路區(qū)域的特征信息,對長條形道路區(qū)域進行編碼。高分辨率遙感影像中道路區(qū)域也會存在分布緊密的情況,所以也需要采用金字塔池化模塊,標準空間池化不僅能收集短距離信息,也能更好地獲取道路區(qū)域的上下文信息。如圖5所示,在編碼-解碼網(wǎng)絡(luò)之間插入混合池化模塊,編碼器生成的特征圖通過使用混合池化模塊進行處理,最后結(jié)果被反饋到解碼器。
圖5 混合池化模塊
為驗證本文提出的SM-Unet模型在高分二號遙感影像上提取道路的有效性,利用制作的高分二號遙感影像數(shù)據(jù)集進行訓練、驗證、測試。實驗基于Tensorflow+Keras深度學習框架設(shè)計。硬件設(shè)備為Intel(R)CPU E5-2690 V4 2.60 GHz,128 GB內(nèi)存,同時使用一塊Nvidia Tesla K80 GPU進行加速。
采用2019年6月中國天津地區(qū)的部分高分二號遙感影像作為訓練數(shù)據(jù)。高分二號遙感影像由4 m分辨率的多光譜圖像和1 m分辨率的全色圖像融合而成,融合后的圖像為tif格式的4通道影像,圖像空間分辨率為1 m。使用ENVI用目視解譯的方法對高分辨率遙感影像中的感興趣道路區(qū)域進行勾畫,得到對應(yīng)的標簽圖像。標簽圖為二值圖,道路像素值為1,非道路像素值為0??紤]到單幅遙感影像數(shù)據(jù)量較大且現(xiàn)有硬件設(shè)備GPU的內(nèi)存有限,從該地區(qū)的遙感影像中分別截取14幅3 000像素×3 000像素大小的影像切片,其中10幅作為訓練樣本,4幅作為測試樣本。
本文選擇使用大小為256像素×256像素,且步長為120的滑動窗口在遙感影像與其對應(yīng)的標簽圖上進行樣本子圖像截取。此外,為了有效擴增訓練樣本數(shù)據(jù),對原始遙感影像和對應(yīng)的標簽旋轉(zhuǎn)90°,并隨機進行水平和垂直遷移,最終得到10 912張大小為256像素×256像素的樣本子影像。將其以9∶1的比例分成9 820張訓練集圖片、1 092張驗證集圖片,輸入到本文提出的SM-Unet網(wǎng)絡(luò)中。在訓練模型時采用Adam優(yōu)化器,學習率設(shè)置為0.001,訓練集和驗證集的批處理樣本大小均設(shè)置為4,迭代期(epoch)設(shè)置為30。在30輪迭代中,每結(jié)束一輪訓練,都會在驗證集上計算一次損失率和精度,最終選擇使用在驗證集上訓練效果最好的模型。
從遙感影像中提取道路是從像素級別實現(xiàn)的語義分割二分類問題。道路像素為正,非道路像素為負,由此可知,預測結(jié)果可以分為四種:真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)。TP表示被正確分類的道路像素的數(shù)量;TN表示被正確分類的非道路像素數(shù)量;FP表示非道路被錯分為道路像素的數(shù)量;FN表示道路被錯分為非道路像素的數(shù)量?;谝陨纤姆N預測結(jié)果,本文從定量角度采用精確率(precision)、召回率(recall)、F1分值和平均交并比(IoU)作為評估指標,評價本文從遙感影像中提取道路方法的質(zhì)量。
用SM-Unet網(wǎng)絡(luò)和消融實驗搭建的網(wǎng)絡(luò)在高分二號遙感影像數(shù)據(jù)集上進行分析。實驗中所用到的對比網(wǎng)絡(luò)和本文的網(wǎng)絡(luò)均為相同環(huán)境和相同參數(shù)設(shè)置。對高分二號遙感影像數(shù)據(jù)上訓練完的模型,使用測試集進行預測時的輸入圖像與訓練集圖像大小一致,均為3 000像素×3 000像素。預測結(jié)果如圖6~圖9所示。
圖6 研究區(qū)域1四種網(wǎng)絡(luò)的提取結(jié)果對比
圖6~圖9展示了四張包含不同類型道路且地物背景復雜的遙感影像原輸入圖像、目視真值圖,及U-Net、Unet-SPM、Unet-MPM、SM-Unet預測結(jié)果圖。其中,Unet-SPM、Unet-MPM網(wǎng)絡(luò)分別是在原U-Net網(wǎng)絡(luò)上搭建的在編碼器前四次下采樣前加入條紋池化模塊、編碼器最后一層加入混合池化模塊的網(wǎng)絡(luò)。上述四景測試圖具體表現(xiàn)為:城區(qū)主干道路與影像中其他地物對比鮮明,道路邊緣相互平行且道路網(wǎng)狀多為密集;居民住宅區(qū)域道路狹窄且多被建筑物陰影遮擋;道路區(qū)域大多不會孤立存在,主干道路會和其他支路相互交錯形成網(wǎng)狀結(jié)構(gòu)。通過預測結(jié)果圖可以看出,相比于其他三種網(wǎng)絡(luò),本文網(wǎng)絡(luò)在增加了條紋池化模塊和混合池化模塊后,能更完整地提取狹窄細小的道路和遠距離的長條形道路,達到較全面的提取效果。
圖7 研究區(qū)域2四種網(wǎng)絡(luò)的提取結(jié)果對比
圖8 研究區(qū)域3四種網(wǎng)絡(luò)的提取結(jié)果對比
圖9 研究區(qū)域4四種網(wǎng)絡(luò)的提取結(jié)果對比
本節(jié)使用上文提到的道路提取質(zhì)量評價指標驗證本文網(wǎng)絡(luò)的有效性,在高分二號遙感影像數(shù)據(jù)集上進行測試,各項評價指標如表1所示。
表1 各模型在高分二號遙感影像測試集上結(jié)果對比
從評價指標可以看出,本文提出的SM-Unet網(wǎng)絡(luò)的預測結(jié)果在各項指標上都明顯優(yōu)于原U-Net網(wǎng)絡(luò)。U-Net網(wǎng)絡(luò)采用編碼器-解碼器對稱結(jié)構(gòu),將同一層次的特征圖拼接在一起,形成更厚的特征,能夠有效提升地物分割精度,但該網(wǎng)絡(luò)主要用于處理醫(yī)學影像,模型結(jié)構(gòu)的設(shè)計并不完全適合提取高分辨率遙感影像中的道路。由對比結(jié)果可知,本文提出的網(wǎng)絡(luò)在精確率、召回率、F1分值和平均交并比上分別提高了3.67%、6.12%、3.3%、4.22%。同時,對比表1中的Unet-SPM、Unet-MPM網(wǎng)絡(luò),本文網(wǎng)絡(luò)的預測結(jié)果只有召回率比Unet-MPM略低0.42%,其他指標都明顯優(yōu)于對比網(wǎng)絡(luò)。
下面討論SM-Unet網(wǎng)絡(luò)與現(xiàn)有的其他網(wǎng)絡(luò)在高分二號遙感影像數(shù)據(jù)集上的分割結(jié)果對比。預測結(jié)果如圖10~圖13所示。
圖10 研究區(qū)域1七種網(wǎng)絡(luò)的提取結(jié)果對比
圖11 研究區(qū)域2七種網(wǎng)絡(luò)的提取結(jié)果對比
圖12 研究區(qū)域3七種網(wǎng)絡(luò)的提取結(jié)果對比
圖13 研究區(qū)域4七種網(wǎng)絡(luò)的提取結(jié)果對比
如圖10~圖13所示,相比于其他網(wǎng)絡(luò),本文網(wǎng)絡(luò)在高分二號遙感影像測試集上分割道路時,能更加完整地提取到主干道路和支路,居民區(qū)域狹窄細小的道路也能較好地識別到,雙向車道的邊界信息提取也很清晰。FCN網(wǎng)絡(luò)進行四次下采樣,中間生成的最小特征圖僅為輸入圖像的1/32,導致不能很好地識別道路的細小部分。DeepLabV3+應(yīng)用了從編碼器網(wǎng)絡(luò)逐漸恢復分辨率的思想,恢復到輸入圖像分辨率的1/4,雖然加入了多尺度提取模塊,但仍然不足以完成道路提取任務(wù)。ResNet101網(wǎng)絡(luò)加入殘差網(wǎng)絡(luò)提高了神經(jīng)網(wǎng)絡(luò)的性能,但該網(wǎng)絡(luò)在編碼器部分進行四次下采樣后直接在解碼器部分進行四次上采樣,缺少多尺度語義信息,不能很好地提升模型的分割精度。BiSeNet雙邊網(wǎng)絡(luò)中的空間路徑的卷積層數(shù)過多,導致空間信息損失,因而不能達到理想的道路提取效果。HRNet和DANet網(wǎng)絡(luò)提取的道路區(qū)域均存在較明顯的孔洞和斷裂。高分辨率網(wǎng)絡(luò)HRNet中四個從低到高分辨率的分支編碼特征被連接在一起以生成特征,但上下文信息并沒有得到充分利用,該網(wǎng)絡(luò)也沒有解碼階段,不能很好地恢復細節(jié)信息。DANet提出雙重注意網(wǎng)絡(luò),以集成局部特征和全局依賴,與本文網(wǎng)絡(luò)相比仍不可避免地會忽略細節(jié)信息,不能夠很好地應(yīng)用到提取道路任務(wù)上。
表2展示了本文網(wǎng)絡(luò)和其他網(wǎng)絡(luò)在高分二號遙感影像測試集上的平均精確率、平均召回率、平均F1分值和平均交并比。由表2可以得出,上述對比網(wǎng)絡(luò)模型均未從特征篩選方面考慮,本文網(wǎng)絡(luò)在各項評價指標上均優(yōu)于其他模型。
表2 七種模型在高分二號遙感影像數(shù)據(jù)集上結(jié)果對比
本文對高分二號遙感影像中道路信息的提取進行研究,結(jié)合道路目標特點,為提高分割精確率,獲得更好的道路提取質(zhì)量,基于U-Net網(wǎng)絡(luò)設(shè)計了簡潔、高度對稱的解碼器-編碼器網(wǎng)絡(luò)SM-Unet,得到如下結(jié)論。
1)加入條紋池化模塊,限制池化區(qū)域,能夠有效獲取長距離依賴關(guān)系并且關(guān)注局部細節(jié)信息。
2)考慮到道路尺度信息的多樣性,加入混合池化模塊,通過各種匯集操作獲取不同類型的上下文信息,同時捕獲不同位置之間的短距離和長距離相關(guān)性,能同時較好地提取到分布離散的長條形道路區(qū)域和狹窄區(qū)域,從而提升網(wǎng)絡(luò)在復雜場景的遙感影像中提取道路信息的能力。
3)和原U-Net網(wǎng)絡(luò)提取道路結(jié)果中出現(xiàn)明顯的漏分、斷裂現(xiàn)象相比,本文網(wǎng)絡(luò)的提取結(jié)果能得到明顯改善,輸出影像中的多尺度道路目標相對完整連續(xù)。且與現(xiàn)有的其他語義分割模型相比,本文網(wǎng)絡(luò)的提取結(jié)果在精確率、召回率、F1分值和平均交并比四項評價指標上表現(xiàn)優(yōu)異,能夠應(yīng)用到地物背景復雜的遙感影像中的道路提取任務(wù)中。