肖雨彤,張繼賢,黃國滿,顧海燕,盧麗君
(1.中國測繪科學(xué)研究院,北京 100036;2. 國家測繪產(chǎn)品質(zhì)量檢驗測試中心,北京 100036)
建筑區(qū)域是地物類別中的核心內(nèi)容,也是地圖制圖中的重要成圖元素。隨著近幾年城市建筑用地不斷增加,如何提高建筑區(qū)域的識別與提取精度,在民用領(lǐng)域和軍用領(lǐng)域都有比較重要的意義。目前,在光學(xué)影像中對建筑區(qū)的提取已經(jīng)取得了較好的研究成果,但光學(xué)傳感器成像依賴于光照條件,在云雨霧雪天氣、夜間環(huán)境中,無法完成持續(xù)有效的監(jiān)測,而合成孔徑雷達(synthetic aperture radar,SAR)影像則不存在這些問題。
極化合成孔徑雷達(polarimetric synthetic aperture radar,簡稱PolSAR或者極化SAR)是一種多參數(shù)、多通道的成像雷達系統(tǒng)。不同于單極化SAR數(shù)據(jù)只能通過單一極化發(fā)射通道來獲取數(shù)據(jù),PolSAR可以通過設(shè)置不同的極化發(fā)射通道和接收通道來獲取物體在相異極化通道下的數(shù)據(jù),獲取更多的極化信息。利用SAR影像對地物進行解譯有更大優(yōu)勢[1-3]。根據(jù)現(xiàn)有的研究成果,利用PolSAR影像提取建筑區(qū)域的方法可分為:基于幾何紋理信息的建筑物提取,如Chellappa[4]提出的基于主線條和陰影的矩形輪廓進行提取的方法;基于極化散射特征的建筑物提取,如Lee等[5]提出的結(jié)合復(fù)Wishart分布和H/A/α分解的H/a-Wishart方法;基于多特征融合的建筑物提取,如Schuler等[6]提出的基于規(guī)范化相關(guān)系數(shù)和地物目標(biāo)散射機理的提取方法。然而,這3類方法均無法充分利用影像特征信息。
深度學(xué)習(xí)起源于人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),是一種對深層人工神經(jīng)網(wǎng)絡(luò)進行有效訓(xùn)練的方法。其中,全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[7]、SegNet[8]等基于像素的語義分割網(wǎng)絡(luò)模型具有自學(xué)習(xí)能力,能夠?qū)⒌蛯犹卣鞒橄蠼M合為高層特征,廣泛應(yīng)用于圖像處理領(lǐng)域,用以提取特定物體或進行圖像分割。
因此,本文考慮將語義分割網(wǎng)絡(luò)FCN引入PolSAR建筑區(qū)域提取研究。利用語義分割網(wǎng)絡(luò)可以逐像素進行分類的優(yōu)勢,嘗試提高PolSAR影像建筑區(qū)域提取的精度。然而,基于像素的提取方法最常出現(xiàn)的問題就是出現(xiàn)許多孤立點。考慮到這一問題,對FCN網(wǎng)絡(luò)的提取結(jié)果進行基于條件隨機場(conditional random field,CRF)[9-10]的后處理,利用其能聯(lián)系上下文信息的特點,提高提取區(qū)域的完整性。
PolSAR影像具有非常豐富的地物極化散射信息,但對每一類地物缺乏對應(yīng)的具體物理解釋。為了更充分地應(yīng)用這些極化散射信息進行地物解譯,學(xué)者們提出了多種極化目標(biāo)分解方法,將目標(biāo)的散射過程分解為代表不同散射機理的若干項。本文選用經(jīng)典的Freeman 3分量極化目標(biāo)分解方法[11-12],對PolSAR影像進行預(yù)處理。Freeman分解是非相干目標(biāo)極化分解方法中常用的一種基于協(xié)方差矩陣C或相干矩陣T的分解方法,它將協(xié)方差矩陣C或相干矩陣T分解成粗糙表面的Bragg散射、由二面角反射器得到的偶次散射和由一系列隨機取向偶極子得到的體散射3種散射模型進行疊加。這一過程充分利用了雷達散射的物理特性,使得到的3種成分可以用來初步確定哪種散射機制成分占主要地位,并通過將3種散射分量與R、G、B一一對應(yīng)合成假彩色圖像,來對分解結(jié)果進行可視化處理。由此可以初步得到利于建筑物提取的極化散射特征。然而,這些特征都是需要先驗知識判定的低層的特征,傳統(tǒng)分割方法并不能良好地利用影像的語義信息,容易將同一內(nèi)容的區(qū)域分割成不同的區(qū)域。因此,需要引入深度學(xué)習(xí)的方法來更好地應(yīng)用圖像的語義信息進行語義分割[13],使具有同一內(nèi)容信息的像素劃分到同一語義類中,從而提高建筑區(qū)域提取的精度。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[14-15]在卷積層后連接3個全連接層,得到的結(jié)果是一個固定長度的特征向量。而FCN將全連接層去掉,換成了3個卷基層,這使得FCN可以接受任意尺寸的輸入圖像。在圖像輸出前,利用反卷積層對最后一個卷積層的特征圖進行上采樣,使它恢復(fù)到與輸入圖像相同的尺寸。在這個過程中,可以對每個像素都產(chǎn)生一個預(yù)測,同時可以保留原始輸入圖像中的空間信息;最后在與輸入圖像等大小的特征圖像上對每個像素進行分類,逐像素地用softmax分類計算損失,相當(dāng)于每個像素對應(yīng)一個訓(xùn)練樣本。
其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在傳統(tǒng)的CNN結(jié)構(gòu)中,前5層是卷積層,第6層和第7層分別是一個長度為4 096的一維向量,第8層是長度為1 000的一維向量,分別對應(yīng)1 000個類別的概率,而FCN將這3層表示為卷積層。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
對最后一個卷積層的特征圖進行上采樣,也可以理解為反卷積過程。首先根據(jù)原圖像大小判斷是否需要對特征圖各神經(jīng)元之間進行0填充,即上池化;然后進行卷積運算,最后得到一張與輸入圖尺寸相同的結(jié)果圖。經(jīng)過上一步的操作,基本可以實現(xiàn)語義分割,但是直接將全卷積后的結(jié)果進行反卷積,得到的結(jié)果往往比較粗糙。因此,引入跳級連接的策略,以加入更多前層的細節(jié)信息。根據(jù)結(jié)合層不同分為3種。
1)FCN-32s。上采樣步長為32,運算后得到與原圖像大小一致的結(jié)果,但這樣做會導(dǎo)致?lián)p失過多的信息,結(jié)果不夠精細。
2)FCN-16s。首先將最后一層上采樣;然后和池4層的預(yù)測結(jié)合起來,最后再上采樣恢復(fù)為原圖大小。
3)FCN-8s。同樣地,先上采樣再結(jié)合更高層信息;最后上采樣為原圖大小。使用跳級結(jié)構(gòu)使網(wǎng)絡(luò)能夠更好地預(yù)測細節(jié),同時保留高級別的語義信息。
雖然FCN可以從像素級別對圖像進行分析,但得到的結(jié)果依舊比較模糊散亂,對像素間的聯(lián)系考慮不充分,缺乏空間一致性。因此,需要引入CRF進行后處理,利用CRF能聯(lián)系上下文的特性,完善建筑區(qū)域的提取。
CRF被定義為:在給定一組輸入隨機變量條件下,另外一組輸出隨機變量的條件概率分布模型,它是一種判別式的概率無向圖模型。CRF的輸出隨機變量假設(shè)是一個無向圖模型或者馬爾科夫隨機場,CRF的圖模型結(jié)構(gòu)理論上可以任意給定,但在實際應(yīng)用中經(jīng)常應(yīng)用定義在線性鏈上的特殊的條件隨機場,即線性鏈條件隨機場。
設(shè)有線性鏈結(jié)構(gòu)的隨機變量序列X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn),在線性鏈條件隨機場中,在給定觀察序列X的條件下,隨機變量序列Y的條件概率分布為P(Y|X)。根據(jù)定義,最終條件隨機場的條件概率可表達為式(1)。
(1)
式中:
(2)
由此可見,在運算過程中,目標(biāo)像素點的屬性判斷與相鄰元素的屬性相關(guān),相鄰元素的特征越相似,則越可能被賦予相同的屬性。
本文采用廣州地區(qū)高分三號PolSAR數(shù)據(jù)進行實驗,分辨率為8 m。為防止影像噪聲對結(jié)果產(chǎn)生影響,首先采用Lee refined濾波對影像進行去噪,再對去噪后的影像進行Freeman 3分量分解。將得到的3分量分別對應(yīng)R、G、B 3個通道合成假彩色圖像,得到的假彩色圖像即為初步的特征提取影像。利用它再進行深度特征提取,并引入條件隨機場進行結(jié)果優(yōu)化,得到最終的建筑區(qū)域提取結(jié)果。技術(shù)流程圖如圖2所示。
圖2 技術(shù)流程圖
選取經(jīng)典的Lee refined濾波算法對圖像進行濾波。該方法既能避免通道間的串?dāng)_,又能保持均勻區(qū)域的極化信息。對濾波后的影像結(jié)果進行Freeman分解,并將表面散射成分賦為藍色,偶次散射成分賦為紅色,體散射成分賦為綠色,得到的假彩色合成結(jié)果分別如圖3所示。
圖3 濾波分解后影像
不同地物在假彩色合成后區(qū)分度較高,說明散射功率能夠反映地物間的不同。由于植被、樹木的形狀結(jié)構(gòu)比較隨機,且普遍為圓柱形散射體,因此可以用偶極子進行建模。電磁波被高矮不同的植被向各個方向隨機的散射,其散射類型為體散射,在假彩色圖中以綠色為主(山體被樹木覆蓋,依舊以體散射為主,呈現(xiàn)綠色)。農(nóng)田相對來說,表面平坦,主要產(chǎn)生表面散射,但也有部分農(nóng)作物高矮不同形狀多枝葉,會產(chǎn)生一定的體散射,因此農(nóng)田在假彩色圖中呈藍綠混雜色。人造建筑物的墻壁和地面構(gòu)成二面角結(jié)構(gòu),所以以二面角散射為主。但是,建筑物區(qū)域的結(jié)構(gòu)比較復(fù)雜,也會存在大量的體散射成分,所以在假彩色圖中的人造建筑物區(qū)域既有粉色又有綠色,極個別強反射建筑會呈現(xiàn)高亮白色。
高分三號是2016年我國成功發(fā)射升空的一顆遙感衛(wèi)星,由于其升空時間較短,人們對它所獲得的數(shù)據(jù)研究不夠充分,目前還沒有成形的地物標(biāo)注圖。所以,針對實驗所應(yīng)用的廣州地區(qū)影像,需要人工手動采集建筑區(qū)域標(biāo)記。
利用Freeman分解得到的假彩色圖,進行建筑區(qū)域樣本集制作。將勾取的建筑區(qū)域柵格文件視為掩膜文件,將柵格文件與極化SAR影像文件進行大小為1 024、每次窗口移動步長為500的重疊剪裁,將得到的SAR切片記為Image、得到的掩膜切片記為Label,同時按4∶1的比例,將其分為訓(xùn)練集和測試集。其中,訓(xùn)練集用于網(wǎng)絡(luò)模型的訓(xùn)練;測試集用于訓(xùn)練完成后測試模型精度。由于采用的FCN網(wǎng)絡(luò)需要大量樣本,所以將整合好的樣本數(shù)據(jù)集進行進一步的擴充操作[16]。為保證標(biāo)簽和影像的一一對應(yīng),現(xiàn)階段主要使用鏡像和旋轉(zhuǎn)操作(圖4)。
圖4 樣本示意圖
基于FCN的前半段與VGG19架構(gòu)相同,直接使用了VGG19預(yù)訓(xùn)練好的權(quán)重。VGG19包括16個激勵層、5個池化層。其中,設(shè)卷積層卷積步長為1,padding=‘SAME’。池化層采用平均池化。根據(jù)輸入影像大小,將核大小設(shè)為2×2,步長為[1,2,2,1],padding=‘SAME’。據(jù)此,每經(jīng)過一個池化層,影像的長和寬就變?yōu)樵镜?/2。經(jīng)過全部池化層后,影像大小變?yōu)樵瓉淼?/32。FCN的中段將CNN網(wǎng)絡(luò)原有的全連接層改為全卷積層,設(shè)置反卷積層卷積核的大小為7×7,1×1,1×1,padding=0,步長為1。根據(jù)文獻[7]所闡述,F(xiàn)CN-8s結(jié)果普遍好于FCN-32s及FCN-16s,因此后段直接采用FCN-8s的思想,將淺層特征與深層特征聯(lián)合,可具體表達為((conv7×2+pool4)×2+pool3)×8。
由于模型要求輸入數(shù)據(jù)為3個通道的歸一化影像,因此,網(wǎng)絡(luò)搭建好之后,將影像的R、G、B對應(yīng)的3個通道作為模型的輸入對網(wǎng)絡(luò)進行訓(xùn)練,設(shè)置批量訓(xùn)練大小為20,學(xué)習(xí)速率為0.000 1。
將測試數(shù)據(jù)集輸入上一步驟中訓(xùn)練好的網(wǎng)絡(luò)模型中,得到FCN網(wǎng)絡(luò)模型提取的建筑區(qū)域結(jié)果,并將其作為CRF模型的輸入。具體步驟如下。
1)數(shù)據(jù)的輸入。將FCN-8s的結(jié)果作為原始圖像輸入CRF模型,輸入值為R、G、B 3個通道及坐標(biāo)位置x、y。
2)二次像素分類。利用FCN模型所得到softmax(具有概率分布),結(jié)合輸入數(shù)據(jù),進行再一次的像素點分類。由于建筑區(qū)域提取影像只分背景與建筑區(qū)域2種,因此softmax維度為2。隨后,利用最大似然估計法對函數(shù)進行優(yōu)化,直到模型收斂(本次實驗迭代次數(shù)為15時收斂)。此時,可以通過模型求出每個像素的上下文信息,并可以根據(jù)計算的概率,推測出給定的一幅測試圖像中像素是否屬于建筑物。
為了驗證本文FCN結(jié)合CRF方法的有效性,與其他2種經(jīng)典的極化SAR分類方法——H/a-Wishart方法和支持向量機SVM方法的結(jié)果作對比,并用未經(jīng)過CRF優(yōu)化處理的FCN-8s結(jié)果驗證優(yōu)化處理的有效性。實驗結(jié)果如圖5所示。
由圖5可以看出,對于不同大小的建筑區(qū)域,本文FCN結(jié)合CRF的方法均能較好地識別和提取,說明模型具有多尺度要素分割的能力。相較于未加CRF優(yōu)化的FCN-8s結(jié)果,利用CRF優(yōu)化處理后的結(jié)果,可以更準(zhǔn)確地提取出建筑區(qū)域的輪廓,還原建筑區(qū)域的真實細節(jié)特征。相較于H/a-Wishart法和SVM法,本文FCN結(jié)合CRF的方法在視覺效果上最為貼近真實地物。同時,本文方法出現(xiàn)的誤分區(qū)域遠遠少于其他2種經(jīng)典方法,證明了本文方法可以有效避免傳統(tǒng)方法中由于建筑區(qū)域的極化散射特征復(fù)雜、不能很好地聯(lián)系上下文信息等原因造成的建筑區(qū)域容易與其他地物混分的情況。實驗結(jié)果表明,將語義分割網(wǎng)絡(luò)FCN應(yīng)用于PolSAR影像進行建筑區(qū)域提取,可以實現(xiàn)高層特征與低層特征的聯(lián)合,這種聯(lián)合既保留了多維深度特征的精確性,又結(jié)合了低層特征的準(zhǔn)確性,同時引入能聯(lián)系上下文信息的CRF進行后處理,可以進一步利用臨近像元信息輔助判斷該像元的屬性,盡可能地避免出現(xiàn)漏分錯分,提高細節(jié)及輪廓提取精度。然而,本文方法依舊存在個別區(qū)域無法提取的問題,主要是由于樣本選擇時未能很好地做到均衡選擇,個別特征樣本選擇數(shù)量過少導(dǎo)致網(wǎng)絡(luò)對該特征學(xué)習(xí)不夠。
圖5 實驗結(jié)果圖
利用深度學(xué)習(xí)中常用的精度評價指標(biāo)F1分數(shù)(F1 score)進行測評。F1分數(shù)又稱平衡F分數(shù),它被定義為精確率和召回率的調(diào)和平均數(shù)。精確率和召回率同等重要,最大為1,最小為0。其計算如式(3)所示。
(3)
式中:Recall表示為正確識別為1的個數(shù)/所有真值為1的個數(shù);Precision表示為正確識別為1的個數(shù)/所有認為是1的個數(shù),具體結(jié)果如表1所示。
表1 精度評價表
由表1看到,本文方法精度遠高于H/a-Wishart方法,略高于SVM法,實現(xiàn)了提高建筑區(qū)域提取精度的目的。
本文提出FCN與CRF相結(jié)合的方法提取建筑區(qū)域,用以減少基于像素的提取方法易出現(xiàn)大量孤立點的問題,并利用高分三號全極化SAR影像進行實驗。實驗結(jié)果表明,利用極化分解方法進行低層特征提取后,再利用深度學(xué)習(xí)網(wǎng)絡(luò)提取高層特征,對于提取建筑區(qū)域有較好的效果。但同時依舊存在一些問題,如小面積建筑區(qū)域提取不完整、部分建筑區(qū)域無法提取等,考慮主要是由于樣本選擇量不均勻?qū)е履P蛯€別特征學(xué)習(xí)不夠充分。因此,在以后的研究中,需要針對不同幾何結(jié)構(gòu)的建筑區(qū)研究其極化散射特征,并盡量均衡地選擇樣本,從而進一步提高建筑區(qū)域提取精度。