王月紅,孟凡效,丁樂樂
(1.天津市自然資源調查與登記中心,天津 300000;2.天津市勘察設計院集團有限公司,天津 300000)
隨著深度學習在計算機視覺領域的成熟應用,深度學習在遙感影像解譯領域獲得廣泛關注[1-3],并被應用于大棚檢測[4-6]。針對大棚提取任務,本文對比分析了深度學習模型FCN[7],UNet[8]和HRNet[9]在高分辨率遙感影像大棚檢測任務上的性能,對多種模型在大棚檢測方面的效果進行定量和定性分析。
本文提出的方法主要包括3個部分,即高分影像預處理、深度特征提取和農業(yè)大棚識別3個部分,對于給定高分影像,首先對其進行歸一化、數(shù)據(jù)增強等預處理,然后輸入深度卷積神經網(wǎng)絡進行深度特征提取,最后利用分類器對提取得到的特征進行識別。在訓練階段,根據(jù)真實標準值和識別的結果計算損失函數(shù),計算參數(shù)的偏導數(shù),更新網(wǎng)絡參數(shù)。
1.1.1 數(shù)據(jù)預處理
設輸入影像為I?RH×W×3及其對應的標注影像Y?RH×W×2,其中H,W分別表示影像的行、列??紤]到訓練過程中顯存的限制,本文將H,W設置為512。即訓練階段將影像裁剪成規(guī)格為512×512 的數(shù)據(jù)用于訓練模型。為增加模型的魯棒性和泛化能力,本文首先對數(shù)據(jù)進行隨機旋轉、拉伸、平移等預處理操作:
式中,RandomRot(?)、RandomScale(?)、RandomShift(?)分別為隨機旋轉、拉伸和平移操作。
在經過預處理操作后,將得到的數(shù)據(jù)輸入深度網(wǎng)絡中進行深度特征提取。在本文中,分別利用FCN,UNet,和HRNet等3個網(wǎng)絡進行深度特征提取。
1.1.2 深度特征提取
FCN和UNet是典型的語義分割網(wǎng)絡,其通過對輸入數(shù)據(jù)進行編碼和解碼得到深度特征,其中在編碼的過程中,F(xiàn)CN和UNet逐步降低輸入數(shù)據(jù)的分辨率,然后在解碼中通過反卷積等上采樣算子恢復特征的分辨率,而且為利用多尺度特征,F(xiàn)CN和UNet將編碼層和解碼層特征進行融和。雖然UNet 和FCN 網(wǎng)絡通過編碼—解碼這一結構來提取特征和保持分辨率,然而這一結構在特征編碼時仍將喪失圖像細節(jié)信息,針對這一問題,HRNet 網(wǎng)絡設計為4 分支網(wǎng)絡,并令第一分支網(wǎng)絡空間分辨率不變,在提取的過程中4 分支網(wǎng)絡交互傳遞信息。
FCN:FCN 為用于影像語義分割的經典網(wǎng)絡,在本文中,使用ResNet-50[12]作為FCN 的backbone 用于特征提取。在ResNet-50中,基本邏輯構成單位為Basic Block,Basic Block 含有跨層連接,便于信息的直接流通和梯度傳遞,若干個Basic Block 堆疊形成Stage Block。4個Stage Block 構 成ResNet-50深度網(wǎng)絡。本文中選用第4個Stage Block 的輸出特征同于大棚檢測。由于在進行深度特征的提取過程中,影像空間分辨率會下降,因此本文采用線性差值將提取得到的特征圖拉伸到和原圖像一樣大小,則特征圖上每一個位置(x,y)的通道被作為該處像元的特征向量。
UNet:為彌補深度特征提取過程中空間分辨降低,細節(jié)信息丟失的問題,UNet將低層的高分辨特征和高層的低分辨率特征進行疊加融合,在本文中,同樣使用ResNet-50作為UNet的backbone。
HRNet:為在提取特征的過程中保持空間細節(jié)信息,HRNet 采用4個網(wǎng)絡分支用于提取不同尺度的特征,不同尺度的分支之間相互傳遞信息,進行多尺度融合。
在本文中將深度特征提取過程用函數(shù)Net(?),則深度特征提取表示為:
式中,Net(?)可取值為FCN,UNet以及HRNet,x?RH×W×C為提取得到特征圖,C為提取的特征圖通道數(shù)。
對于得到的深度特征圖x,將其輸入分類器Soft-Max獲得識別結果:
式中,p(t|Ij)為像素Ij屬于類別t的概率;n為總的類別個數(shù),在本文中取值為2,即分類為農業(yè)大棚和非農業(yè)大棚兩類;xj為像素Ij的深度特征向量;wcls為分類器SoftMax中的參數(shù)矩陣w?Rn×n的第cls行。
在訓練階段,根據(jù)最大似然估計方法,計算交叉熵損失函數(shù),使得樣本被正確分類的概率最大:
式中,Yj?R2為像素Ij的one-hot 類別編碼;*為向量內積運算。根據(jù)鏈式法則計算網(wǎng)絡損失函數(shù)J對參數(shù)的偏導數(shù)并更新參數(shù):
式中,par 為網(wǎng)絡參數(shù);lr為學習率。
本文實驗數(shù)據(jù)包括800 張高分影像,單張影像大小2 000×2 000,圖像分辨率為0.5 m,其中隨機抽取400 張影像用于訓練,剩余400 張影像用于測試。訓練學習率為0.000 03,訓練迭代次數(shù)為15 000。本文使用正確率Acc以及交并比IOU作為評價指標:
式中,Acci和IOUi為類i的正確率和IOU;TPi為i樣本被正確分類的樣本數(shù)、FNi為i樣本被錯誤分類的樣本數(shù);Numi為類i樣本的總個數(shù);FPi為被錯誤分為類i的樣本數(shù)。
表1 給出了FCN,UNet 和HRNet 在測試數(shù)據(jù)集上的識別精度。從表1可以看出,F(xiàn)CN,UNet和HRNet 3個網(wǎng)絡對大棚的識別正確率都可以達到91%以上,IOU 精度高于86%。相比于UNet,F(xiàn)CN 對于農業(yè)大棚的識別正確率和IOU 略高,分別有0.4%和0.39%的提升。在3個網(wǎng)絡中,由于HRNet 在細節(jié)信息保持方面更具優(yōu)勢,因此在測試數(shù)據(jù)集上取得最優(yōu)的提取精度。
表1 FCN,UNet和HRNet在測試數(shù)據(jù)集上的識別精度
圖1 給出了3個網(wǎng)絡模型在其中一張測試數(shù)據(jù)上的識別結果圖。從圖1 可以看出,F(xiàn)CN,UNet 和HRNet 3個網(wǎng)絡的提取結果從視覺上來看與人工標注的結果并無太大差異。其中圖中區(qū)域1 為人工遺漏標記的大棚,F(xiàn)CN沒有正確將其檢測出來,UNet識別出部分區(qū)域,而HRNet將其成功的提取出來。對于區(qū)域2,雖然3個網(wǎng)絡都能將其范圍內的大棚正確識別,然而,F(xiàn)CN網(wǎng)絡由于丟失細節(jié)信息較UNet和HRNet較為嚴重,因此在大棚之間的區(qū)域,在FCN中也被錯誤地識別為大棚,而UNet和HRNet都可以將這些間隔區(qū)域正確識別。
圖1 深度學習模型大棚提取結果
作為重要的農業(yè)基礎設施,及時獲得大棚的空間分布信息為相關農業(yè)部門提供農業(yè)管理和資源分配的依據(jù),具有重要意義。針對這一任務,本文分析對比了深度學習模型FCN,UNet 和HRNet 在大棚檢測上的精度。在所用數(shù)據(jù)中,3個網(wǎng)絡都可達到90%以上的正確率,IOU 可達到85%以上,其中HRNet 由于其網(wǎng)絡可以更好地保留空間細節(jié)信息,識別精度最高,正確率和IOU分別達到92.79%和87.32%。實驗表明,基于深度學習的大棚檢測方法可為快速精確獲取大棚分布信息提供技術支撐,具有實用價值。