江 滔
(中鐵第四勘察設(shè)計院集團有限公司, 武漢 430063)
隨著傳感器技術(shù)的發(fā)展,遙感影像分辨率逐漸提升,基于高分辨率影像的地物分類也成為了遙感領(lǐng)域的重要研究方向之一.高分辨率遙感影像蘊含了地表更加豐富的細節(jié)信息,但是同時會導(dǎo)致地物光譜與紋理特征類內(nèi)方差變大,類間方差變小,對地物的識別能力降低[1].
許多的研究者通過使用幾何特征[2]來提高地物識別的精度,隨著空中三角測量、多視幾何、密集匹配、SLAM等相關(guān)技術(shù)的成熟,越來越多的研究者通過密集匹配算法恢復(fù)地表三維信息以生成數(shù)字表面模型(digital surface model, DSM)來輔助進行遙感影像分類[3-4].
由于受到地形的影響,DSM的像素值不能直接代表地物高度.因此歸一化 DSM 特征(normalized DSM,nDSM)[5]被提出并用作表征地物高度的分類特征.nDSM的獲取需要首先利用地面濾波算法將 DSM 分為地面像素和非地面像素[6],然后對于所有的非地面像素,假設(shè)離它最近的地面像素為相關(guān)的地面點,最后通過將離地點的高度減少指定的地面點的高度以計算出該點的歸一化高度.
隨著深度學(xué)習(xí)、高性能計算的普及,越來越多的研究者通過深度卷積神經(jīng)網(wǎng)絡(luò)對遙感影像進行語義分割以實現(xiàn)地物識別[7-9].通常神經(jīng)網(wǎng)絡(luò)輸入可見光影像,并通過將預(yù)測的語義分割結(jié)果與真實結(jié)果對比計算損失函數(shù),結(jié)合反向傳播算法[10]更新網(wǎng)絡(luò)參數(shù),得到最終分類模型.但是僅僅使用光譜信息制約了分類精度的提升,因此許多研究者將提出基于RGBD影像的深度神經(jīng)網(wǎng)絡(luò)以融合光譜特征和距離(深度)特征[11-12],其中最直接的方法就是將常用的三波段輸入網(wǎng)絡(luò)模型的輸入層進行擴展以輸入四波段或者更多的波段.在遙感領(lǐng)域,許多研究者使用RGBD網(wǎng)絡(luò)處理nDSM特征,將網(wǎng)絡(luò)輸入的深度影像換成nDSM影像,從而對網(wǎng)絡(luò)進行訓(xùn)練以增強影像語義分割的效果.
基于nDSM的卷積神經(jīng)網(wǎng)絡(luò)語義分割精度與nDSM特征精度有關(guān),而nDSM的精度依賴于地面濾波算法[6].目前尚未有一種成熟的濾波算法可以在大場景范圍內(nèi)自動提取高精度的地面點,通常需要人工對算法進行調(diào)參,針對不同場景進行設(shè)計,或者對濾波結(jié)果進行人工的修飾,因此降低了影像分類的效率和自動化程度;此外nDSM特征通常是片狀的,也影響了基于nDSM的地物識別精度.
本文提出一種考慮局部歸一化高度的雙分支語義分割網(wǎng)絡(luò),避免了通過提取nDSM來表征地物高度.該方法假設(shè)在輸入卷積神經(jīng)網(wǎng)絡(luò)的局部區(qū)域內(nèi)存在地面點,且該點的DSM值在區(qū)域內(nèi)最小,通過將該區(qū)域內(nèi)所有點的DSM值減去最低點的DSM值可以計算切片區(qū)域內(nèi)所有地物點高度.最后通過提出的雙分支深度神經(jīng)網(wǎng)絡(luò)對光譜影像和高度特征進行聯(lián)合訓(xùn)練以充分學(xué)習(xí)地物多模態(tài)信息.
基于深度學(xué)習(xí)的遙感影像語義分割方法通?;谌矸e神經(jīng)網(wǎng)絡(luò),如圖1是遙感影像語義分割的全卷積網(wǎng)絡(luò)框架.全卷積網(wǎng)絡(luò)[13]由用于下采樣的編碼器和用于上采樣的解碼器兩個部分組成,編碼器提取不同尺度的影像特征,通常是將VGG[14]、GoogLeNet[15]、ResNet[16-18]等經(jīng)典網(wǎng)絡(luò)框架的全連接層舍去,直接保留最后一個卷積層的特征圖作為解碼器的輸入.解碼器將特征影像通過反卷積等方法逐步上采樣以構(gòu)建原始分辨率的語義分割結(jié)果[19].圖1中編碼器可以換成任意一種經(jīng)典網(wǎng)絡(luò)架構(gòu),不同網(wǎng)絡(luò)框架具有不同的深度和卷積技巧,圖1中卷積模塊可以是普通卷積、空洞卷積[20]或者殘差模塊[18]等.
語義分割網(wǎng)絡(luò)中通常使用跳躍連接來融合編碼器不同尺度的特征,編碼器淺層的網(wǎng)絡(luò)層具有豐富的細節(jié)信息,但是語義信息較差,而深層的網(wǎng)絡(luò)層具有豐富的語義信息,但是細節(jié)較差,因此通過跳躍連接融合不同層的特征可以更好的建模多尺度的影像特征,得到更高精度的語義分割結(jié)果.
圖1 語義分割網(wǎng)絡(luò)框架Fig.1 Semantic segmentation network framework
經(jīng)典的語義分割網(wǎng)絡(luò)通常處理三波段輸入的可見光影像,而幾何信息的缺乏限制了語義分割精度進一步的提升.光譜圖像和深度圖像所表現(xiàn)的識別能力不同,比如無明顯結(jié)構(gòu)表征的區(qū)域主要依靠光譜進行識別,而對于紋理不明顯的區(qū)域需要依靠幾何特征進行區(qū)分.許多研究者將三波段輸入網(wǎng)絡(luò)模型的輸入層進行擴展以輸入四波段或者更多的波段,并將nDSM作為一個波段與光譜影像一起輸入到網(wǎng)絡(luò)中,這種方法沒有考慮光譜信息和幾何信息的差異,提升了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的難度,同時nDSM的片狀、精度不穩(wěn)定的特點也制約了分類精度的提升.
本文提出一種考慮局部歸一化高度的遙感影像語義分割網(wǎng)絡(luò),首先設(shè)計了一種雙分支輸入結(jié)構(gòu),在兩個分支分別提取光譜特征和幾何特征,并通過跳躍連接進行融合,以更加充分的學(xué)習(xí)地物多模態(tài)信息;之后提出了基于局部歸一化的高度特征代替nDSM來表征地物高度,以實現(xiàn)高效、高精度、高自動化程度的遙感影像語義分割.
基于RGBD的語義分割網(wǎng)絡(luò)主要思想是利用距離影像對光譜圖進行語義上的信息補充,通過多層卷積提取影像光譜和幾何信息的復(fù)合深度特征以表征地物類型.可見光影像描述地物的光譜特征,可以有效識別無明顯結(jié)構(gòu)表征的區(qū)域,而高度特征影像描述地物的幾何特征,可以有效識別紋理不明顯的區(qū)域.如何在神經(jīng)網(wǎng)絡(luò)中有效的利用高度特征影像來為光譜特征影像進行語義補充以提高語義分割精度是網(wǎng)絡(luò)框架設(shè)計的目標.
部分研究將基于可見光影像的語義分割網(wǎng)絡(luò)輸入層進行擴充,直接將高度特征影像作為額外的波段與可見光影像一起輸入到神經(jīng)網(wǎng)絡(luò)中.這種方法沒有考慮幾何特征與光譜特征的差異,不能充分學(xué)習(xí)多模態(tài)信息.針對這個問題,本問題設(shè)計了一種雙分支輸入網(wǎng)絡(luò)結(jié)構(gòu),如圖2顯示本文使用的RGBD網(wǎng)絡(luò)框架,網(wǎng)絡(luò)分為編碼器和解碼器,其中編碼器有兩個網(wǎng)絡(luò)分支,每個分支具有相同的網(wǎng)絡(luò)結(jié)構(gòu),不同的是一個分支輸入三波段的光譜影像,令一個分支輸入單波段的高度影像.為了充分挖掘地物多模態(tài)信息,將高度特征影像分支的卷積結(jié)果跳躍連接到可見光分支,以融合光譜與幾何特征.之后解碼器通過卷積和上采樣層逐步提高特征圖分辨率,同時通過跳躍連接將編碼器與解碼器對應(yīng)分辨率的特征影像直接連接,以提高最終影像細節(jié)部分的分類效果.
圖2 RGBD網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.2 RGBD network framework
遙感影像分類使用的高度特征通常是nDSM.首先通過地面濾波算法[6]獲取DSM上地面點的像素,令地面點高度值記為0,之后計算非地面點的高度值,即該點DSM值與其最近地面點的DSM值之差.令DSM上像素i的值記為hi,最鄰近地面點的像素的 DSM值記為hi_nearest,那么該點的歸一化高度為:
hi_norm=hi-hi_nearest.
(1)
通過這種方法計算得到的高度特征稱為歸一化高度特征.這種方法有三個缺點,首先地面點提取的精度依賴于地面濾波算法,而目前尚未有一個通用性強且精度高的地面濾波算法能適用各種場景和數(shù)據(jù)源;其次,雖然在nDSM中消除了起伏的地形對地物高度表示的影響,但是這種方法未考慮局部約束(例如水平脊線),因此該方法無法計算準確的高度,例如當一棟建筑物周圍的地面高度變化時,這些高度是不準確的;最后,當某區(qū)域距離地面較遠時,歸一化高度特征無法消除該區(qū)域地形起伏的影響.
針對這些問題,本文提出了一種基于局部歸一化的高度特征(local normalized DSM, lnDSM).圖3顯示了lnDSM的示意圖,該特征不使用地面濾波算法來提取地面點,而是假設(shè)在一定大小的局部區(qū)域內(nèi),一定存在地面點,且該點的DSM值在區(qū)域內(nèi)最小.由于受到GPU的限制,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練首先需要對遙感影像進行切片,如圖3中DSM在輸入神經(jīng)網(wǎng)絡(luò)前會被切片,對于每一個切片區(qū)域,假設(shè)該區(qū)域內(nèi)存在地面點,且地面點為該區(qū)域內(nèi)DSM值最小的點,令DSM切片內(nèi)最低像素值記為hmin,那么切片內(nèi)像素對于地面點的高度值為:
圖3 局部歸一化高度特征示意圖Fig.3 Schematic diagram of local normalized height feature
hi_localnorm=hi-hi_min.
(2)
將InDSM輸入到本文網(wǎng)絡(luò)的高度特征分支,與光譜影像一起訓(xùn)練,得到預(yù)測結(jié)果后結(jié)合真實結(jié)果計算Focal Loss損失函數(shù)[21],并用以更新網(wǎng)絡(luò)參數(shù).
(3)
精確率(pre)是指分類正確的正樣本占預(yù)測為正的樣本個數(shù)的比例;召回率(rec)指分類正確的正樣本占真正的正樣本個數(shù)的比例,那么F1-score的值(F1)的計算公式為:
(4)
本文實驗使用的硬件平臺中 CPU型號 為 Intel(R) Xeon(R) Gold 6140 CPU 2.30 GHz 2.29 GHz,內(nèi)存128 GB;GPU 為 兩塊 NVIDIA GeForce RTX 2080 Ti,其中每塊GPU的專用內(nèi)存為 11 GB,共22 GB.本文實驗使用的操作系統(tǒng)是Windows 10,深度學(xué)習(xí)框架是tensorflow 2.6.
本文使用的實驗數(shù)據(jù)是ISPRS Vaihingen 數(shù)據(jù)集提供的德國韋興根市某區(qū)域的航空攝影影像,利用Trimble INPHO 和OrthoVista軟件生成DSM 和TDOM,采樣分辨率都是9 cm,其中TDOM有近紅外、紅和藍(IR-R-G)三個波段.將DSM 和TDOM分成33個區(qū)域,每個區(qū)域提供了對應(yīng)類別標注.該城市區(qū)域存在較為明顯的地形起伏,適合用于測試提取的高對語義分割精度的提升作用.
圖4顯示了本文實驗的數(shù)據(jù)集中區(qū)域2的示例數(shù)據(jù).圖4(b)顯示了DSM影像,可以看出圖下部區(qū)域地面高度明顯高于上部區(qū)域的地面,由于地形起伏的影響,地勢低區(qū)域的房屋高程值可能低于地勢高處的地面,因此DSM的數(shù)值不能直接用于地物識別.圖4(c)顯示了nDSM影像,nDSM消除了地形起伏的影響,更加準確的表征了地物高度.圖4(e)和4(f)分別顯示了局部放大的DSM和nDSM影像,nDSM影像上地物具有明顯的片狀特性,這是由于nDSM影像像素值計算該像素的DSM值減去離該像素最近的地面點的DSM值,而地物不同位置的最近地面點可能不同,當由地形差距導(dǎo)致地物附近地面高程不同時,地物的nDSM會呈現(xiàn)明顯的片狀特性.
圖4 Vaihingen數(shù)據(jù)集區(qū)域2影像Fig.4 Area-2 image of Vaihingen dataset
圖4(f)的左側(cè)中間的房屋,屋頂上下兩邊的nDSM值存在明顯差異,中間有一條明顯的高度差異線,這是由于房屋上下兩側(cè)像素最鄰近的地面點的DSM值存在較大差異,從圖(e)可以看出,該房屋下邊地面的DSM值高于房屋上邊的地面.
圖4(d)是人工標注的分類結(jié)果影像,共有六個類別,分別是樹(綠色)、建筑(藍色)、矮植被(青色)、不透水層(白色)、汽車(黃色)、背景(紅色).
將33塊區(qū)域的影像分為訓(xùn)練集和測試集,其中訓(xùn)練集包含16幅切片影像,測試集包含17幅切片影像.在訓(xùn)練階段,首先對訓(xùn)練數(shù)據(jù)進行切片,切片影像大小為256×256.實驗使用三種特征,一個是三波段的IR-R-G的光譜特征,一個是nDSM特征,一個是本文提出的lnDSM特征,共組成三種特征組合用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,分別是:1)光譜影像;2)光譜影像+nDSM;3)光譜影像+lnDSM.
為了充分驗證本文提出特征的有效性,在編碼器中使用VGG-19[14],GoogLeNet-V3[15],Resnet-101[16]三種不同的網(wǎng)絡(luò)框架進行對比實驗.
表1顯示了單獨使用光譜影像,以及分別結(jié)合nDSM與lnDSM的分類精度評價.首先對比不同網(wǎng)絡(luò)框架的分類精度,對于三種特征組合,Resnet的總體精度都是最高的,說明殘差網(wǎng)路可以更有效地提取深度特征,提高對地物的識別能力.
從表中可以發(fā)現(xiàn),相比于僅使用光譜特征,三種框架的神經(jīng)網(wǎng)絡(luò)在使用lnDSM特征后分類的總體精度提高了4.5%至4.7%,并且各類地物的F1-score都有明顯提升,說明本文設(shè)計的網(wǎng)絡(luò)可以很好提取多模態(tài)特征,提高地物識別精度.
相較于使用nDSM特征,三種框架的神經(jīng)網(wǎng)絡(luò)在使用lnDSM特征后分類的總體精度提高了0.7%至0.8%,其中樹、建筑和不透水層的F1-score都得到提高,說明相較于使用nDSM,本文提出的InDSM可以更好地表征地物的高度特征.
如圖5顯示了區(qū)域2通過Resnet分類nDSM和InDSM的結(jié)果圖.相較于圖5(b),圖5(a)中虛線圓色區(qū)域內(nèi)房屋不完整,實線矩形區(qū)域內(nèi)小房屋被漏提,實線橢圓區(qū)域內(nèi)房屋邊界不平滑,存在一些突起區(qū)域,錯誤的將樹識別為房屋.基于InDSM特征識別的地物更加完整,邊界更加平滑,對地物表征能力優(yōu)于nDSM.此外,nDSM計算過程需要進行地面濾波,對于濾波算法錯誤的區(qū)域需要人工進行交互和修改,而InDSM計算過程簡單、高效、自動,具有更好的實用性.
表1 不同高度特征的語義分割算法精度評價Tab.1 Accuracy assessment of semantic segmentation of different height features
圖5 區(qū)域2不同特征組合的分類結(jié)果Fig.5 Classification result of different feature combinations of area-2
高分辨率遙感影像蘊含了地表更加豐富的細節(jié)信息,但是同時會導(dǎo)致地物光譜與紋理差特征類內(nèi)方差變大,類間方差變小,對地物的識別能力降低.光譜影像描述地物的光譜特征,可以有效識別無明顯結(jié)構(gòu)表征的區(qū)域,而高度特征影像描述地物的幾何特征,可以有效識別紋理不明顯的區(qū)域,融合兩種特征可以有效提升地物識別精度.歸一化數(shù)字表面模型是表征地物高度的重要特征,但是其片狀、精度不穩(wěn)定的特性制約了分類精度的提升.
本文提出了一種考慮局部歸一化高度的雙分支輸入語義分割網(wǎng)絡(luò),一方面設(shè)計了一種雙分支輸入結(jié)構(gòu)以高效地提取和融合地物光譜和幾何特征,充分學(xué)習(xí)地物多模態(tài)信息;另一方面提出了局部歸一化高度模型來代替nDSM,以提升高度特征的精度和提取效率.
通過在ISPRS Vaihingen 數(shù)據(jù)集提供的德國韋興根市某區(qū)域的遙感影像上進行對比試驗,證明了相較于僅使用光譜影像,本文方法總體精度提升了4.5%~4.7%,比使用nDSM具有更高的分類精度、計算效率和自動化程度.
華中師范大學(xué)學(xué)報(自然科學(xué)版)2022年3期