趙昊罡,崔紅霞,張芳菲,顧海燕,穆瀟瑩
(1.渤海大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 錦州 121003;2.中電太極(集團(tuán))有限公司,北京 100083;3.中國測繪科學(xué)研究院,北京 100086)
高分辨率遙感影像擁有豐富的地物信息,而建筑物一直都是其主要的地物目標(biāo),從高分辨率遙感影像中提取建筑物對于開展遙感領(lǐng)域各項任務(wù)都具有重要的意義[1]。由于建筑物幾何形狀、建筑物周邊環(huán)境以及高分辨率遙感成像角度、分辨率等多種因素的復(fù)雜性,通過傳統(tǒng)方法進(jìn)行建筑物的提取不僅效率低下并且精度較低。傳統(tǒng)的語義分割方法沒有訓(xùn)練過程,分割效果并不理想[2]。計算機(jī)視覺領(lǐng)域技術(shù)在圖像識別、目標(biāo)檢測等方面的快速應(yīng)用和發(fā)展,深度學(xué)習(xí)深度卷積神經(jīng)網(wǎng)絡(luò)在語義分割方面的快速發(fā)展,都為遙感影像中自動化、高精度提取建筑物帶來了機(jī)遇,其效果遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法[3]。
卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural networks)在處理圖像任務(wù)上具有強(qiáng)大的特征提取能力,是傳統(tǒng)方法所無法比擬的,為各類圖像的語義分割任務(wù)提供了自動化、高精度的解決方案,也是本文所選擇的解決方案。卷積神經(jīng)網(wǎng)絡(luò)具有極其強(qiáng)大的泛化能力,其成功依賴于兩個固有的歸納偏置,即平移不變性與局部相關(guān)性,通過固定大小的卷積核可以從圖片中捕獲到許多空域間和通道間的信息,并且可以通過共享卷積核來提取圖像特征,這大大減少了模型的計算復(fù)雜度并提升了效率,近年來卷積神經(jīng)網(wǎng)絡(luò)層出不窮,如AlexNet[4]、VGG[5]、GoogLeNet[6]、 ResNet[7]等都具有強(qiáng)有力的捕獲豐富空間特征和多尺度信息的能力[8]。給語義分割領(lǐng)域帶來了無窮的前景,許多基于深度卷積網(wǎng)絡(luò)的語義分割網(wǎng)絡(luò)相繼發(fā)表:Jonathan Long等人[9]提出了全卷積神經(jīng)網(wǎng)絡(luò),通過去掉全連接層適應(yīng)不同尺寸的圖片,通過跳級連接將不同池化層的結(jié)果上采樣并融合,該網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量大,訓(xùn)練效率低并且分割精度低;Ronneberger等人提出[10]U-net網(wǎng)絡(luò),通過使用跳躍連接實現(xiàn)編碼部分的特征拼接,上采樣的過程中減少了信息的丟失,此網(wǎng)絡(luò)多用于醫(yī)學(xué)圖像分割領(lǐng)域;Badrinarayanan等人[11]提出SegNet網(wǎng)絡(luò),引入了最大池化索引進(jìn)行上采樣,該網(wǎng)絡(luò)的性能相較U-net沒有過多的提升,但是大大的減少了訓(xùn)練時間與內(nèi)存的消耗;Hengshuang Zhao等人提出了PSPnet[12],通過引入金字塔池化模塊(PPM,pyramid pooling module)融合多尺度特征細(xì)節(jié),但其不足是會丟失目標(biāo)邊界細(xì)節(jié);Liang-Chieh Chen等人提出了DeepLab系列網(wǎng)絡(luò)[13-16],將條件隨機(jī)場融入網(wǎng)絡(luò)結(jié)構(gòu)并參與訓(xùn)練,以及以空洞卷積為基礎(chǔ)構(gòu)造空洞金字塔池化模型(ASPP,atrous spatial pyramid pooling),通過提升特征圖的感受野獲取更多的圖像細(xì)節(jié),提高了物體邊界分割的精準(zhǔn)度,可是模型計算成本較高,并且像素位置信息的丟失會影響特征圖的局部一致性。
相較于低、中分辨率遙感影像,高分辨率影像的幾何結(jié)構(gòu)和紋理特征更加豐富。然而,豐富的信息導(dǎo)致遙感影像“同譜異物”和“同物異譜”現(xiàn)象更為明顯。由于卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)越性,近些年來許多學(xué)者將深度學(xué)習(xí)語義分割網(wǎng)絡(luò)應(yīng)用于遙感圖像的語義分割:盧徹[17]等人為解決高分辨率遙感影像中存在同譜異物的問題,利用殘差網(wǎng)絡(luò)思想改進(jìn)U-net網(wǎng)絡(luò);薛明[18]等人運用殘差網(wǎng)絡(luò)思想對SegNet網(wǎng)絡(luò)進(jìn)行修改,解決了梯度消失問題;李國清[19]等人在U-net網(wǎng)絡(luò)加入多尺度損失函數(shù)、跳躍連接和注意力機(jī)制以提高網(wǎng)絡(luò)精度;Ziran Ye[20]等人在FCN的基礎(chǔ)上引入注意力機(jī)制,通過加權(quán)來融合不同階段的特征。
建筑物是高分辨率遙感影像中最重要的地物,對該類地物的信息提取必須同時關(guān)注提取精度和邊緣細(xì)節(jié)。然而,傳統(tǒng)的語義分割網(wǎng)絡(luò)在地物提取的識別精度以及邊緣細(xì)節(jié)處理方面,還缺少普適性、實用性的方法。本文提出改進(jìn)的SegNet語義分割網(wǎng)絡(luò)并用于建筑物自動提取,以具有較強(qiáng)遷移性的VGG16作為網(wǎng)絡(luò)的主干部分,引入ASPP模型加強(qiáng)編碼階段對建筑物特征的提取,解碼階段構(gòu)建特征金字塔網(wǎng)絡(luò)(FPN,feature pyramid networks)優(yōu)化上采樣結(jié)構(gòu),最后使用全連接條件隨機(jī)場(CRF,fully connected/dense crf)進(jìn)行建筑物分割圖像的后處理,對網(wǎng)絡(luò)分割圖像進(jìn)行進(jìn)一步的邊界優(yōu)化。
SegNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,在FCN的基礎(chǔ)上加入了解碼部分,形成了Encode(編碼)-Decode(解碼)結(jié)構(gòu),實現(xiàn)對圖像端到端的像素級分類。本文編碼部分使用VGG16作為編碼器,去掉了其中的全連接層,使通過VGG16得到的特征圖層直接與解碼器相連接,解碼部分對特征圖層進(jìn)行上采樣得到原始圖片大小,最后利用Softmax層對逐個像素進(jìn)行預(yù)測。
圖1 SegNet網(wǎng)絡(luò)結(jié)構(gòu)圖
SegNet的創(chuàng)新之處在于編碼部分的最大池化操作會記錄像素點的坐標(biāo)即“最大池化索引”,在解碼部分則會使用到這些坐標(biāo)值來進(jìn)行上采樣,在保留圖像特征細(xì)節(jié)的同時增大圖像的尺寸[21],最大池化索引的上采樣過程如圖2所示,在上采樣過程中將像素點還原至其記錄的索引位置,剩余位置則用0進(jìn)行補(bǔ)充,這一過程無需參數(shù)的學(xué)習(xí),大大的減少了網(wǎng)絡(luò)的計算量,提高了訓(xùn)練效率也提高了網(wǎng)絡(luò)預(yù)測的精度。
圖2 SegNet中的上采樣操作
如圖3所示,展示了空洞卷積在不同擴(kuò)張率下的感受野的大小。空洞卷積相較于普通卷積引入了擴(kuò)張率(Dilation rate)的參數(shù),通過改變擴(kuò)張率來改變圖像的感受野大小??斩淳矸e可以在不改變圖像分辨率的情況下,使其圖像獲得不同的感受野,從而獲取更多的圖像信息,并且此操作不會增加額外計算量[22]。本文使用的ASPP模型于DeepLabv3+語義分割網(wǎng)絡(luò)中提出,在金字塔池化模型的基礎(chǔ)上引入空洞卷積,ASPP模型中含有3個并行的膨脹率不同的空洞卷積,還有一個普通卷積以及一個全局平均池化層,通過ASPP模型將得到5個相同分辨率但是感受野不同的特征層,最后將其進(jìn)行線性融合。
圖3 不同膨脹率下感受野的變化
FPN的結(jié)構(gòu)如圖4所示,利用了編碼階段卷積神經(jīng)網(wǎng)絡(luò)金字塔形狀的層級特征,自頂向下通過對低分辨率特征進(jìn)行上采樣并與高分辨率特征橫向融合,從而創(chuàng)建了形似金字塔的多尺度特征融合模型[23],F(xiàn)PN通過融合多尺度的特征信息來彌補(bǔ)網(wǎng)絡(luò)在上采樣過程中細(xì)節(jié)的丟失。
圖4 特征金字塔
在1.1一節(jié)中所述的SegNet網(wǎng)絡(luò)結(jié)構(gòu)是基于Encode(編碼)-Decode(解碼)結(jié)構(gòu)的語義分割網(wǎng)絡(luò),編碼部分運用層級結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)提取不同分辨率大小的圖像特征,解碼部分則利用得到的特征圖逐步上采樣,恢復(fù)到原圖分辨率大小,然后進(jìn)行逐像素點預(yù)測。如圖1所示,原始SegNet網(wǎng)絡(luò)的編碼部分使用深度卷積神經(jīng)網(wǎng)絡(luò)得到進(jìn)行上采樣的最終特征層。由于深度卷積神經(jīng)網(wǎng)絡(luò)對圖片特征提取的感受野的局限性,其特征范圍根據(jù)卷積核大小而定[24],若想要通過增大卷積核來擴(kuò)大感受野則會帶來巨大的計算量,并且池化層對特征圖分辨率大小的影響,會丟失過多圖像的細(xì)節(jié)。此外,在SegNet原始結(jié)構(gòu)的解碼部分,雖然使用最大池化索引來進(jìn)行上采樣在一定程度上能夠減少圖像特征細(xì)節(jié)的丟失,但僅僅使用編碼部分得到的最后一個特征層進(jìn)行上采樣,并恢復(fù)到原圖大小進(jìn)行逐像素點預(yù)測,這樣仍是不夠的,網(wǎng)絡(luò)編碼部分其他特征層的高分辨率特征信息都未進(jìn)行利用,這也導(dǎo)致了最終網(wǎng)絡(luò)性能并不理想。
基于以上問題,本文提出改進(jìn)的SegNet網(wǎng)絡(luò),如圖5所示,分別對編碼部分和解碼部分進(jìn)行了改進(jìn)(虛線框的“1”和“2”)。如圖5中改進(jìn)1部分所示,改進(jìn)的SegNet網(wǎng)絡(luò)中我們使用VGG16作為主干網(wǎng)絡(luò)進(jìn)行圖像特征的提取,并引入帶有空洞卷積的ASPP模型對VGG16得到的特征進(jìn)行進(jìn)一步的加強(qiáng),ASPP是加入了空洞卷積的金字塔池化模型,其目的也是為了盡可能多的去提取圖像特征橫。如圖5中改進(jìn)2部分所示,改進(jìn)的SegNet網(wǎng)絡(luò)的解碼部分通過構(gòu)建FPN模型優(yōu)化上采樣結(jié)構(gòu),改進(jìn)傳統(tǒng)SegNet網(wǎng)絡(luò)的多層特征融合的解碼結(jié)構(gòu)。
圖5 改進(jìn)SegNet結(jié)構(gòu)
傳統(tǒng)的VGG16它是由牛津大學(xué)的Visual Geometry Group[5]提出的,是目前常見且成熟的卷積神經(jīng)網(wǎng)絡(luò),具有良好的遷移性,被廣泛運用于圖像領(lǐng)域的各項任務(wù)。VGG16網(wǎng)絡(luò)的結(jié)構(gòu)包含卷積層、最大池化層、全連接層和softmax層,通過堆疊卷積層、最大池化層來形成層級的特征提取模塊,降低圖像的分辨率并且提升其通道數(shù)。
在編碼部分,去掉主干特征提取網(wǎng)絡(luò)VGG16的全連接層以及softmax層,使其得到的特征層直接與ASPP相連接。首先,VGG16的結(jié)構(gòu)可以分為5個子模塊,每個子模塊都是卷積層的堆疊與一個最大池化層,卷積層用來改變圖像的通道數(shù)并且提取特征信息,并且由于池化層的存在,圖像特征的分辨率是逐層遞減的,在VGG16中卷積層卷積核的大小均為3*3,在此將5個子模塊得到的特征層其記為f1、f2、f3、f4、f5,以原圖大小H*W*3為例,5個特征層對應(yīng)的分辨率大小分別為下采樣2、4、8、16、32倍,每個特征層的通道數(shù)記為c1、c2、c3、c4、c5。其次,將VGG16與帶有空洞卷積的ASPP模型相結(jié)合,輸入圖片通過編碼部分的VGG16模型得到5個特征層,將大小為(H/32)*(W/32)*c5的特征層f5輸入ASPP模型,并行地得到5個新的特征圖,這5個特征圖具有與f5相同的大小,然后將其進(jìn)行通道數(shù)的疊加,并通過一個卷積層調(diào)整特征的通道數(shù),此時將會得到所需要的最終特征層,其分辨率大小以及通道數(shù)仍保持與特征層f5相同。其中,ASPP中3個空洞卷積的擴(kuò)張率分別調(diào)整為2、6、10,以適應(yīng)不同幾何尺寸的建筑物檢測;其感受野大小則由式(1)導(dǎo)出:
K=k+(k-1)(r-1)
(1)
其中:K表示感受野的大小,k表示傳統(tǒng)卷積核的大小,一般為3*3,r表示擴(kuò)張率,根據(jù)公式計算擴(kuò)張率分別為2、6、10的空洞卷積其感受野分別為5、13、21。
如圖5所示,在解碼部分,僅僅使用SegNet結(jié)構(gòu)編碼部分得到的最后一個特征層進(jìn)行上采樣,恢復(fù)到原圖大小進(jìn)行逐像素點預(yù)測,雖然使用最大池化索引進(jìn)行上采樣操作減少了參數(shù)量優(yōu)化了內(nèi)存消耗,但是不可避免的丟失了圖像特征細(xì)節(jié),也因此使得原本網(wǎng)絡(luò)的預(yù)測效果并不理想。改進(jìn)網(wǎng)絡(luò)的編碼部分通過VGG16與ASPP的結(jié)合,得到了擁有更多特征細(xì)節(jié)的最終特征層,解碼部分則通過構(gòu)建FPN模型優(yōu)化上采樣結(jié)構(gòu)。
利用通過ASPP獲得的最終特征圖層進(jìn)行上采樣并用一個1*1大小的卷積層調(diào)整其通道數(shù),使其與f4特征層的分辨率大小以及通道數(shù)相同,即(H/16)*(W/16)*c4,此目的是為了將不同的特征層的對應(yīng)元素相加,以此來完成特征的融合,如果通道數(shù)以及分辨率大小不相同則無法進(jìn)行此操作,通過特征融合后得到的特征層記為ff4,ff4由式(2)導(dǎo)出:
ff4=Add(Conv(UpSampling(f5)),f4)
(2)
為了消除兩個特征圖對應(yīng)元素相加可能帶來的融合不充分的問題,通過一個3*3大小的卷積層進(jìn)行平滑處理。處理后的特征層記為ff3,對ff3進(jìn)行上采樣,使其與f#特征層的分辨率以及通道數(shù)相同,再進(jìn)行融合操作;重復(fù)此步驟,直到將特征圖恢復(fù)到原圖的分辨率,實現(xiàn)FPN模型的構(gòu)建。通過解碼部分的上采樣操作特征圖恢復(fù)到原圖大小,通過一個卷積層調(diào)整其通道數(shù)為所需分類的數(shù)量,例如本文使用數(shù)據(jù)集將圖片的背景與建筑物分割,則分類數(shù)量為2,最后,通過Softmax層進(jìn)行逐像素點的預(yù)測。本文構(gòu)建的FPN結(jié)構(gòu)融合了不同尺度的特征信息、實現(xiàn)各階段特征圖的特征融合,有利于不同幾何尺寸的建筑物提取且減少了上采樣中的信息丟失現(xiàn)象。
在上文中我們通過引入ASPP以及構(gòu)建FPN來提高網(wǎng)絡(luò)對特征的提取并減少上采樣中信息的丟失,然而卷積神經(jīng)網(wǎng)絡(luò)存在一個普遍的問題,即卷積操作更多的是提取圖像中的空間特征信息,而并未考慮像素點間上下文的關(guān)系,這也是導(dǎo)致最終網(wǎng)絡(luò)預(yù)測目標(biāo)邊界不清晰的重要原因,為了優(yōu)化建筑物提取的邊緣,本文引入CRF模型進(jìn)行后處理。CRF是一種判別式模型,對初步的網(wǎng)絡(luò)預(yù)測結(jié)果進(jìn)行概率建模,并優(yōu)化預(yù)測結(jié)果[25],這是全連接條件隨機(jī)場模型在圖像語義分割領(lǐng)域上的運用,可以充分考慮像素點之間的關(guān)系,從而提高語義分割的精度并且平滑分割區(qū)域的邊緣。
在此以本文SegNet為例,其網(wǎng)絡(luò)的分割結(jié)果為一組變量(X1, ,XN)上的隨機(jī)場X,其每一個變量的范圍為標(biāo)簽L={l1,l2, ,lk};另有一定義在變量{I1, ,IN}上的隨機(jī)場I,I的范圍為可能輸入的N個圖片并且X的范圍為像素可能的標(biāo)簽,Ij為像素j的顏色信息,Xj為像素j的在標(biāo)簽中所屬類別。(I,X)即組成一個隨機(jī)場,遵循Gibbs分布:
(3)
在式(2)中,G表示X上的一個圖,CG為G中的最大子圖集,c為CG中的一個最大子圖,Φc則是這個最大子圖的勢函數(shù),P(X|I)則表示在I的前提下計算所有像素點屬于某一類別的條件概率[26]。全連接條件隨機(jī)場的Gibbs能量函數(shù)為:
(4)
在式(3)中,ψu(yù)(xi)為一元勢函數(shù),表示觀測場與標(biāo)簽像素獨立推斷的結(jié)果,在本文中即為網(wǎng)絡(luò)的預(yù)測結(jié)果;ψp為二元勢函數(shù),即考慮像素之間成對關(guān)系的推斷結(jié)果,通過考慮像素點間各項因素,進(jìn)一步對像素點所屬類別進(jìn)行判別。由于需要考慮距離、顏色等因素的關(guān)系,因此能夠起到了在邊界處分割的效果,從而進(jìn)一步優(yōu)化分割物體的邊界。
本文使用公開數(shù)據(jù)集Inria Aerial Image Labeling Dataset,數(shù)據(jù)集中包含180張大小為5 000*5 000的城市航空影像,進(jìn)行預(yù)處理將每一張圖片裁剪為有像素重疊的大小為512*512的圖像,如圖6所示,然后按照8:1:1的比列將裁剪后得到的數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集,最終得到訓(xùn)練集24 336張,驗證集與測試集均為3 042張。網(wǎng)絡(luò)與模型由Tensorflow與Python進(jìn)行構(gòu)建,采用遷移學(xué)習(xí)思想初始化網(wǎng)絡(luò)權(quán)重,網(wǎng)絡(luò)初始學(xué)習(xí)率為1×10-4,優(yōu)化函數(shù)選用Adam,損失函數(shù)選用交叉熵?fù)p失函數(shù)(categorical crossentropy loss)。
圖6 數(shù)據(jù)集預(yù)處理
在深度學(xué)習(xí)任務(wù)中,在數(shù)據(jù)集并不壯大的情況下,使用遷移學(xué)習(xí)可以很好地進(jìn)行網(wǎng)絡(luò)訓(xùn)練,由于其強(qiáng)大的泛化能力可以捕捉數(shù)據(jù)間的關(guān)聯(lián)性,并且可以減少訓(xùn)練時間、防止過擬合現(xiàn)象的發(fā)生[27]。本文運用遷移學(xué)習(xí)的思想(Transfer learning)[28]在網(wǎng)絡(luò)的編碼階段對VGG16加載ImageNet預(yù)訓(xùn)練權(quán)重。
本文將原始SegNet模型,稱為Model1;改進(jìn)SegNet模型,稱為Model2;改進(jìn)SegNet+CRF模型,稱為Model3,并與經(jīng)典語義分割模型Unet網(wǎng)絡(luò)以及Deeplabv3+網(wǎng)絡(luò)進(jìn)行結(jié)果對比;采用像素準(zhǔn)確率(PA,pixel accuracy),召回率(Recall),平均交并比(MIoU,mean intersection over union)定量分析不同模型建筑物提取的精度、穩(wěn)健性。3種評價標(biāo)準(zhǔn)的計算參數(shù)如表1所示,由表1中的參數(shù)可得到3種評價標(biāo)準(zhǔn)的公式,像素準(zhǔn)確率表示分類正確的像素在總像素個數(shù)中的占比,如式(5)所示;召回率表示預(yù)測值為1、真實值也為1的像素在真實值為1的像素中的占比,如式(6)所示;平均交并比表示真實值和預(yù)測值兩個集合的交集和并集之比,如式(7)所示。
表1 真值表
(5)
(6)
(7)
將不同模型在訓(xùn)練集與驗證集上完成訓(xùn)練后,在測試集上進(jìn)行圖像的預(yù)測,隨后將各模型預(yù)測結(jié)果進(jìn)行語義分割評價指標(biāo)的對比,如表2所示。
表2 不同網(wǎng)絡(luò)性能量化數(shù)據(jù)對比
由表2可知,本文提出的模型2以及加入CRF后處理的模型3相較于Unet以及Deeplabv3+各項指標(biāo)均有明顯提升,模型3的PA指數(shù)相較于Unet、Deeplabv3+增加2.12%、0.17;Recall指標(biāo)增加4.09%、1.18%;MIoU指數(shù)增加3.84%、1.89%。模型2相比模型1的PA指數(shù)提升0.33%、Recall指數(shù)提升0.85%、MIoU指數(shù)提升1.45%。模型3相比模型1的PA指數(shù)提升0.48%、Recall指數(shù)提升1.29%、MIoU指數(shù)提升2.36%,其中,Recall指數(shù)與MIoU指數(shù)增長較多。
為檢測本文改進(jìn)方法中各個模塊對網(wǎng)絡(luò)性能提升的有效性,對網(wǎng)絡(luò)進(jìn)行消融實驗,在去除不同模塊的條件下比對網(wǎng)絡(luò)預(yù)測結(jié)果的MIoU指標(biāo),如表3所示。從表中不難看出,移除任意一個模塊都可能導(dǎo)致網(wǎng)絡(luò)性能的下降,在分別單獨使用ASPP模塊和FPN模塊后的MIoU指數(shù),相比原始的SegNet網(wǎng)絡(luò)具有明顯的增長;并且在同時使用3種模塊后MIoU指數(shù)相比原始網(wǎng)絡(luò)增長了2.36%。
在進(jìn)行網(wǎng)絡(luò)預(yù)測結(jié)果的定量分析后,隨機(jī)選擇三張圖片及其預(yù)測結(jié)果,從圖片上直觀地對比不同訓(xùn)練模型的預(yù)測差異。由圖7和圖8的圓圈標(biāo)記的區(qū)域可視化顯示,可以看出,SegNet的預(yù)測圖相比原數(shù)據(jù)集的標(biāo)注圖,建筑物分割區(qū)域有明顯的膨脹,并且建筑物之間存在粘連現(xiàn)象,主要存在于尺度較小的并排建筑物之間,并且建筑物邊緣并不平滑且具有鋸齒現(xiàn)象;Unet以及Deeplabv3+的預(yù)測結(jié)果中并排小建筑間的間隙相較于SegNet的預(yù)測結(jié)果有些許改善,分割較為清晰,但仍有很多并排小建筑物間的粘連現(xiàn)象,并且個別較大建筑識別不完全;反觀本文使用的方法,總體上較傳統(tǒng)方法提取的建筑物邊界更加清晰可見、更加平滑,鋸齒現(xiàn)象以及區(qū)域膨脹現(xiàn)象明顯改善,更加接近標(biāo)注圖的識別效果;如圖9所示,圖中包含幾個較大的建筑物,CRF對邊緣的改進(jìn)效果非常明顯,而原始SegNet得到的預(yù)測圖中建筑物的邊緣鋸齒狀較為嚴(yán)重,通過本文改進(jìn)網(wǎng)絡(luò)以及CRF的后處理邊緣更加平滑,大大減少了鋸齒現(xiàn)象,并且識別效果更加接近標(biāo)注圖像;反觀Unet以及Deeplabv3+的預(yù)測圖,不難看出這兩個模型在較大建筑物的識別上效果稍差,不僅邊緣非常的粗糙,周圍還帶有識別錯誤的錯分像素,大建筑更是有較為明顯的識別不完全現(xiàn)象。
表3 消融實驗
圖7 原圖,標(biāo)簽以及各模型預(yù)測結(jié)果
圖8 原圖,標(biāo)簽以及各模型預(yù)測結(jié)果
圖9 原圖,標(biāo)簽以及各模型預(yù)測結(jié)果
傳統(tǒng)的語義分割網(wǎng)絡(luò)模型存在上采樣階段丟失過多的特征細(xì)節(jié),忽略了像素點間的上下文關(guān)系問題。以傳統(tǒng)語義分割網(wǎng)絡(luò)直接用于高分辨率遙感影像建筑物信息提取,存在提取精度低、邊緣細(xì)節(jié)丟失的問題。本文提出改進(jìn)的SegNet網(wǎng)絡(luò)與CRF后處理結(jié)合的方法來改善以上問題。首先,在改進(jìn)的網(wǎng)絡(luò)中通過引入空洞卷積來獲取更多的圖像特征細(xì)節(jié),并構(gòu)建FPN融合多尺度的特征信息,減少特征細(xì)節(jié)的丟失;其次,引入CRF的后處理,通過構(gòu)建像素點間的成對關(guān)系,來考量像素間的上下文關(guān)系,從而對分割圖像進(jìn)一步的細(xì)化,糾正錯分的像素點,細(xì)化原本粗糙的物體邊界。此外,通過加載預(yù)訓(xùn)練權(quán)重來訓(xùn)練網(wǎng)絡(luò),一方面減少訓(xùn)練時間,另一方面彌補(bǔ)數(shù)據(jù)集有限的問題。實驗表明,本文提出的高分辨率遙感影像建筑物提取方法是可行的,且可以拓展到其它類似的網(wǎng)絡(luò)。但是,對于密集建筑物的分割,分割精度有待進(jìn)一步提高;結(jié)合建筑物的幾何特點,進(jìn)一步優(yōu)化SegNet的編、解碼網(wǎng)絡(luò)是今后需要研究的問題。