梁碧儀,陳 穎,黃梓煌,聶佩林
(1.華南師范大學地理科學學院,廣東 廣州 510631;2.佛山科學技術學院環(huán)境與化學工程學院,廣東 佛山 528000)
隨著遙感數(shù)據(jù)的空間分辨率、時間分辨率、光譜分辨率和輻射分辨率的提高以及數(shù)據(jù)類型的不斷增加[1],傳統(tǒng)的遙感圖像分類(非監(jiān)督分類和監(jiān)督分類)在復雜的地表環(huán)境下難以滿足分類精度的需求,需要花費大量的時間與人力,已不適合當前的遙感識別需要。而基于智能算法的非參數(shù)分類器成了遙感影像分類與識別研究的熱點,尤其是基于神經(jīng)網(wǎng)絡的深度學習。大量研究表明,深度學習與遙感影像技術結合在數(shù)據(jù)降維方面尤為突出,可高精度提取遙感影像的特征,改善遙感影像工作分類難、精度低的現(xiàn)狀。
當前主流的圖像自動識別算法采用Faster R-CNN技術選取候選方框,并對候選方框的目標進行分類,從而達到目標的檢測識別[2]。但Faster R-CNN只能實現(xiàn)分類和回歸,分割還要另外處理。
Mask R-CNN是可以實現(xiàn)“分類、回歸和分割”并行的目標檢測方法。2017年HE K M等人提出了基于區(qū)域的掩膜卷積網(wǎng)絡(Mask R-CNN)實例目標分割[3]。Mask R-CNN是一個小巧、靈活的通用對象實例分割框架,其技術延伸了Fast R-CNN技術,不僅可對圖像中的目標進行檢測,還可以對每一個目標給出一個高質(zhì)量的分割結果。目前Mask R-CNN技術在人臉檢測、車輛檢測、行人檢測等領域應用較為廣泛,但在遙感圖像識別領域的應用尚未成熟。本文主要簡述了深度學習模型結構在遙感圖像分類識別中的應用。
本實驗基于深度卷積神經(jīng)網(wǎng)絡,運用Mask R-CNN算法技術,對衛(wèi)星影像進行自動識別。獲取衛(wèi)星影像數(shù)據(jù)后,把衛(wèi)星影像分成水系、綠地、一般道路、高速公路、工業(yè)區(qū)、居住區(qū)、其他地區(qū)這7類進行標注,完成數(shù)據(jù)預處理;接著通過Mask R-CNN技術對衛(wèi)星影像進行目標檢測,同時把每個類別的目標像素分割出來,實現(xiàn)“分類、回歸和分割”并行。數(shù)據(jù)處理后,導出圖片,用700張經(jīng)過標注的圖片進行大量的訓練學習,從而生成深度學習網(wǎng)絡。最后用300張沒有經(jīng)過標注的圖片進行測試,以檢測該訓練網(wǎng)絡的準確性。具體流程如圖1所示。
圖1 流程圖
(1)地圖下載器中獲取衛(wèi)星影像數(shù)據(jù),用標注軟件對衛(wèi)星影像的地物進行7個類別的分類標注,完成數(shù)據(jù)預處理。
(2)通過Mask R-CNN技術,對衛(wèi)星影像進行目標檢測,同時把每個類別的目標像素分割出來,實現(xiàn)“分類、回歸和分割”并行。具體來說,利用該技術中的ROI分類來進行類別預測;再分別對衛(wèi)星影像中的每個類別設置二進制掩膜。分離掩膜的好處就是不需要在類別間進行競爭,用FCN對每個像素分類,以像素到像素的方式預測遙感圖像[4]。
Mask R-CNN算法技術的基本構成如下:
A. Faster R-CNN部分:輸入預處理過的衛(wèi)星影像到神經(jīng)網(wǎng)絡中,獲得對應的特征圖Feature Map,對特征圖中的點設定ROI,將這些ROI輸入到RPN網(wǎng)絡進行分類,過濾篩選出一部分ROI。
B. ROIAlign部分:對上一步處理完的ROI進行ROIAlign,基于雙線性插值方法,利用Feature Map上距離采樣點最近的四個像素得到像素值。
C. FCN部分:對每一個ROI進行FCN操作,生成Mask掩膜[5]。
Mask R-CNN算法技術的基本構成如圖2所示。
圖2 Mask R-CNN算法技術構成圖
(3)完成數(shù)據(jù)處理后導出圖片,對700張圖片進行訓練學習,進而生成人工智能訓練網(wǎng)絡,再對300張圖片進行測試,以檢驗訓練網(wǎng)絡的準確性。
本實驗在具備Windows10(64bit)操作系統(tǒng)、Intel(R)Corel(TM)i7CPU、GTX1660TiGPU和16GRAM的計算機進行,使用Microsoft Visual Studio Code搭建 Python3.7開發(fā)環(huán)境,程序后端為Tensorflow,編碼框架為Keras,IDE為Pycharm[6]。
數(shù)據(jù)范圍包括禪城區(qū)、南海區(qū)和順德區(qū)。以禪城區(qū)地圖為主,外加順德區(qū)和南海區(qū)中毗鄰禪城區(qū)的一部分區(qū)域。下載的地圖數(shù)據(jù)為天地圖,級別19級,采用WGS 84坐標系,最大分辨率高達0.6 m。地圖數(shù)據(jù)由10 165個瓦片組成,導出時每張圖片格式為3×3瓦片,即9個瓦片,故折算起來總共下載了1 152張地圖。圖片每36張分為一組,每組前35張分辨率為768×768,第36張分辨率為768×512。本次實驗訓練圖片的數(shù)量為1 000張,測試圖片數(shù)量約為300張。
3.3.1 數(shù)據(jù)預處理
導入1 152張衛(wèi)星遙感影像到標注軟件Via-1.0.4中,對各地物的輪廓進行描繪并添加標注,這一步驟需要人工判斷,且命名規(guī)范要一致。對描繪形成的區(qū)域分為7類:水系(River System)、綠地(Green Space)、一般道路(Ordinary Road)、高速公路(Highway)、工業(yè)區(qū)(Industrial Zone)、居住區(qū)(Residence Zone)、其他功能區(qū)(Other Regions)。標注后將結果導出為JSON格式,便于后續(xù)導入生成人工智能訓練網(wǎng)絡。標注過程如圖3所示。
圖3 標注過程
3.3.2 訓練網(wǎng)絡
本實驗采用的Mask R-CNN技術是Faster R-CNN技術的擴展形式,在有效檢測圖像目標的同時,能夠輸出高質(zhì)量的實例分割掩碼。在預處理過的衛(wèi)星遙感影像中,選1 000張放到卷積神經(jīng)網(wǎng)絡(CNN)中,獲得對應的特征圖(Feature Map)?;谙惹暗臉俗?卷積神經(jīng)網(wǎng)絡對1 000張地圖提取感興趣的區(qū)域(ROI)。在每個感興趣區(qū)域(ROI)上添加用于預測分割編碼的分支,與用于分類和邊界框回歸的現(xiàn)有分支并行,使其訓練更加簡單且更容易推廣到其他任務中。
本技術采用交叉驗證的方式。隨著訓練樣本的增加,誤差變低。將1 000張樣本分為訓練集和驗證集。其中,訓練集占700張。經(jīng)過大量的訓練、學習,最終生成人工智能訓練網(wǎng)絡,訓練過程中如表1所示,總誤差L= 0.002 6+0.002 5+0.044 2+0.012 8+0.056 5=0.118 6,以此創(chuàng)建訓練模型。用訓練模型對300張圖片進行檢測,并創(chuàng)建檢測模型(表2),檢測結果的參數(shù)如表3所示。
表1 訓練誤差
表2 創(chuàng)建驗證模型
表3 檢測結果
3.3.3 基于ENVI的遙感圖像分類
采用傳統(tǒng)監(jiān)督分類方法中的“最大似然法”,在ENVI上對相同數(shù)據(jù)集中的50張圖片進行遙感圖像分類。目前的遙感影像自動分類方法主要是利用地物(或?qū)ο?在遙感影像上反映出來的光譜特征來進行識別與分類[7]。最大似然分類方法對于光譜特性呈正態(tài)分布的遙感影像能提供較高的分類精度;而對于光譜特性呈非正態(tài)分布或偏離正態(tài)分布總體的遙感影像,實際分類效果并不理想[8]??傮w上看,因為水域和綠地的光譜特性最接近正態(tài)分布,所以分類誤差低,精度較高,分類效果較好,但也有小部分區(qū)域劃分為其他類別的用地,類別之間沒有完全區(qū)分開。而其他類別,如道路、工業(yè)區(qū)等分類精度低,主要原因是光譜特征非常相近,分類過程中容易出現(xiàn)噪點較多、相互錯分等問題。
3.3.4 網(wǎng)絡測試與結果分析
生成人工智能訓練網(wǎng)絡后,對未經(jīng)訓練的近300張衛(wèi)星遙感影像進行測試。利用Mask R-CNN對不同類別的地塊進行分類,不同的顏色即RPN經(jīng)過訓練學習之后得到的分類結果。以兩張訓練原圖為例(圖4-圖5),圖6和圖7分別是圖4和圖5基于ENVI最大似然法的遙感圖像分類,圖8和圖9分別是圖4和圖5基于Mask R-CNN的遙感圖像分類??傮w來說,基于Mask R-CNN的圖像分類結果準確率能達到80%以上,如圖10所示。其中,識別率最高的是道路、水系、綠地,準確率達到85%,原因在于這些地塊的輪廓清晰、特征明顯、面積較大。識別率較低的是居住區(qū)、商業(yè)區(qū)和部分工業(yè)區(qū),只達到65%的準確率。其原因為:① 這些場景的相似度較高;② 數(shù)據(jù)集的數(shù)量較少;③ 尺寸過大的目標在候選框選取過程中,容易將小目標包括進去,造成在特征提取和目標識別結果分析中,出現(xiàn)小目標漏檢的情況;④ 缺乏對目標的輪廓描述和像素描述,導致很多具有局部特征的非目標地物被檢測為目標,為精細化識別帶來困難。
圖4 訓練原圖A
圖5 訓練原圖B
圖6 ENVI遙感分類圖A
圖7 ENVI遙感分類圖B
圖8 Mask R-CNN分類圖A
圖9 Mask R-CNN分類圖B
基于ENVI最大似然法的遙感圖像分類,雖計算的時間較短,但需要手動選取特征,且由于遙感圖像本身的空間分辨率的限制以及同物異譜、異物同譜現(xiàn)象的存在,往往出現(xiàn)較多的錯分、漏分現(xiàn)象,噪點較多,導致分類精度不高,這種分類方法更適合中低分辨率、數(shù)據(jù)量較少的遙感圖像分類工作;而基于Mask R-CNN的遙感圖像分類,對衛(wèi)星影像進行目標檢測的同時,把每個類別的目標像素分割出來,實現(xiàn)“分類、回歸和分割”并行,雖計算時間較長,但只要標注樣本,就無須對所有圖像手工選取特征,通過網(wǎng)絡模型自主訓練,精度較高、不存在噪點,類別之間劃分清晰,更適合分辨率高、數(shù)據(jù)量大的遙感圖像分類工作。
針對傳統(tǒng)的地物識別方法效率低、檢測速度慢、誤檢率和漏檢率高的問題[9],本文提出了一種基于Mask R-CNN技術的衛(wèi)星影像自動數(shù)字化技術。通過利用Mask R-CNN算法技術對遙感圖像進行識別,對經(jīng)過數(shù)據(jù)處理后的衛(wèi)星影像進行訓練,并提取其幾何特征。最后能夠?qū)τ跋竦闹匾獙ο筇卣鬟M行識別??傮w上,全部圖像分類的結果準確率達到80%以上,可實現(xiàn)衛(wèi)星影像的自動數(shù)字化。不足的是,訓練數(shù)據(jù)的分辨率較低,導致個別類別識別不全。該項技術的目標識別準確率還有待提高,需加強對目標的輪廓描述和像素描述。同時還需加強樣本多樣化,提高樣本庫的數(shù)量和質(zhì)量,引入數(shù)據(jù)增廣算法,從數(shù)據(jù)方面增強學習的準確性和泛化性;網(wǎng)絡結構需針對大場景、多尺度的密集目標進行改進,提出更加符合遙感目標特性的神經(jīng)網(wǎng)絡結構[10]。
隨著未來商業(yè)衛(wèi)星的數(shù)量增多,該項技術有利于商用衛(wèi)星進行數(shù)據(jù)分析?;谏疃葘W習的衛(wèi)星影像自動數(shù)字化技術在未來市場應用中具有非常好的前景。