王玉龍 蒲軍 趙江華 黎建輝
摘 要:針對傳統(tǒng)的基于地物紋理和空間特征的方法很難精確識別地面新增建筑的問題,提出了一種基于生成對抗網(wǎng)絡(luò)的新增建筑變化檢測模型(CDGAN)。首先,使用Focal損失函數(shù)改進(jìn)傳統(tǒng)圖像分割網(wǎng)絡(luò)(Unet),并以此作為模型的生成器(G),用于生成遙感影像的分割結(jié)果;然后,設(shè)計(jì)了一個(gè)16層的卷積神經(jīng)網(wǎng)絡(luò)(VGGnet)作為鑒別器(D),用于區(qū)分生成的結(jié)果和人工標(biāo)注(GT)的真實(shí)結(jié)果;最后,對生成器和判別器進(jìn)行對抗訓(xùn)練,從而得到具有分割能力的生成器。實(shí)驗(yàn)結(jié)果表明,CDGAN模型的檢測準(zhǔn)確率達(dá)到92%,比傳統(tǒng)Unet模型的平均區(qū)域重合度(IU)提升了3.7個(gè)百分點(diǎn),有效地提升了遙感影像中地面新增建筑物的檢測精度。
關(guān)鍵詞:生成對抗網(wǎng)絡(luò);遙感影像;變化檢測;圖像語義分割;Focal損失
中圖分類號:TP751.1
文獻(xiàn)標(biāo)志碼:A
Abstract: Aiming at the inaccuracy of the methods based on ground textures and space features in detecting new ground buildings, a novel Change Detection model based on Generative Adversarial Networks (CDGAN) was proposed. Firstly, a traditional image segmentation network (Unet) was improved by Focal loss function, and it was used as the Generator (G) of the model to generate the segmentation results of remote sensing images. Then, a convolutional neutral network with 16 layers (VGGnet) was designed as the Discriminator (D), which was used for discriminating the generated results and the Ground Truth (GT) results. Finally, the Generator and Discriminator were trained in an adversarial way to get a Generator with segmentation capability. The experimental results show that, the detection accuracy of CDGAN reaches 92%, and the IU (Intersection over Union) value of the model is 3.7 percentage points higher than that of the traditional Unet model, which proves that the proposed model effectively improves the detection accuracy of new ground buildings in remote sensing images.
英文關(guān)鍵詞Key words: Generative Adversarial Network (GAN); remote sensing image; change detection; image semantic segmentation; Focal loss
0 引言
違規(guī)建筑是未經(jīng)國土資源部審批的建筑,在國土監(jiān)察工作中,監(jiān)管地面建筑物的改、擴(kuò)、拆、建是一項(xiàng)十分重要的工作。傳統(tǒng)方法一般是基于高分辨率遙感影像提取建筑物變化信息,但由于地物的紋理和結(jié)構(gòu)特征往往存在類內(nèi)高方差和類間低方差的問題,因此識別效果較差[1]。為提高變化檢測結(jié)果的準(zhǔn)確性,很多研究人員利用影像的空間特征進(jìn)行地物變化檢測, 例如: Walter等[2]提出一種灰度共生矩陣,基于對象劃分的思想將變化檢測問題轉(zhuǎn)換為分類問題;Celik[3]首先使用馬爾可夫隨機(jī)場的方法對多時(shí)序的遙感影像進(jìn)行了多尺度的變換檢測, 在之后的工作中,Celik基于小波變換提出一種主動輪廓模型[4]。此外,形態(tài)學(xué)剖面方法也是一種常用的基于空間特征的地物變換檢測方法[5]。這些方法主要基于原始圖像的空間特征,但是空間特征往往涉及參數(shù)較多從而產(chǎn)生高維的特征空間,在處理大尺度遙感圖像時(shí)會產(chǎn)生泛化性低和魯棒性差等問題[2]。
除了傳統(tǒng)的基于地物紋理和空間特征的方法,研究者們也提出了一些基于機(jī)器學(xué)習(xí)的方法來進(jìn)行變化檢測: CampsValls等[6]引入了多時(shí)相圖像分類和改變基于復(fù)合內(nèi)核的檢測框架;張志強(qiáng)等[7]提出基于像元級的圖像分割方法,即利用光譜特征、紋理特征等特征作為機(jī)器學(xué)習(xí)方法的特征構(gòu)造分類器,逐像元進(jìn)行變化檢測;李亮等[8]利用直方圖相交距離法進(jìn)行遙感影像分割,通過比較兩期遙感影像的像斑變化向量進(jìn)行變化檢測;Volpi等[9]利用支持向量機(jī)的監(jiān)督學(xué)習(xí)方法進(jìn)行變換檢測。同時(shí),一些利用半監(jiān)督學(xué)習(xí)的方法,例如高斯過程[10]和自組織特征映射神經(jīng)網(wǎng)絡(luò)[11]也在地物變換檢測領(lǐng)域取得較大的突破。
在使用多時(shí)相的遙感影像進(jìn)行變化檢測時(shí),由于任意兩期遙感影像會受到拍攝角度、拍攝季節(jié)、拍攝天氣、有無云霧遮擋等因素的影響,因此精確識別地面新增建筑很困難。而且,通常地面新增建筑像素點(diǎn)數(shù)量占整個(gè)遙感影像的像素點(diǎn)數(shù)比例較小,即正負(fù)樣本比例失衡,這導(dǎo)致了大多數(shù)模型的擬合效果較差。隨著計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的方法逐漸成為了圖像處理領(lǐng)域研究的熱點(diǎn), 其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[12]經(jīng)過多領(lǐng)域的實(shí)驗(yàn)論證,在圖像分類和分割方面取得了廣泛的應(yīng)用。之后,對CNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)的工作不斷增多。2014年,加州大學(xué)伯克利分校的Long等[13]提出了全卷積網(wǎng)絡(luò)(Fully Convolution Neutral Network, FCN),與經(jīng)典的圖像識別網(wǎng)絡(luò)(例如ResNet152)相比,F(xiàn)CN不需要添加全連接層就可以進(jìn)行密集型像素預(yù)測。由于卷積神經(jīng)網(wǎng)絡(luò)的池化層在擴(kuò)大感受域和聚合語義的同時(shí),會造成原始影像的位置信息丟失,為解決這個(gè)問題,Ronneberger等[14]在FCN的基礎(chǔ)上提出了Unet模型,并使用該網(wǎng)絡(luò)檢測醫(yī)學(xué)圖像中的細(xì)胞邊緣;2014年,蒙特利爾大學(xué)的Goodfellow等[15]提出了生成對抗網(wǎng)絡(luò)(Generative Adversarial Net, GAN),該模型的核心思想是博弈論中的納什均衡。博弈雙方分別是生成器(Generator, G)和鑒別器(Discriminator, D),生成器的主要目的是學(xué)習(xí)真實(shí)數(shù)據(jù)的分布,鑒別器的主要目的是判斷輸入數(shù)據(jù)是來源于真實(shí)數(shù)據(jù)還是生成數(shù)據(jù)。GAN的強(qiáng)大之處在于GAN可以充分學(xué)習(xí)原始樣本集的數(shù)據(jù)分布[15]。2016年, Luc等[16]第一次將對抗網(wǎng)絡(luò)應(yīng)用到了圖像分割領(lǐng)域中。
雖然Unet模型得到較為廣泛的應(yīng)用,然而其依然存在很多弊端,例如Unet嚴(yán)重依賴訓(xùn)練樣本數(shù)量和分布, 模型很容易過擬合,模型的域適應(yīng)性較弱。為了使模型魯棒性更強(qiáng)、防止過擬合、消除模型對訓(xùn)練樣本空間的過度依賴,針對遙感影像變化檢測任務(wù),本文提出了一種用于變化檢測的生成對抗網(wǎng)絡(luò)模型(Generative Adversarial Nets for Change Detection, CDGAN),使用該模型檢測兩期遙感影像中的新增建筑變化區(qū)域。
1 本文方法
本文提出了用于變化檢測的生成對抗網(wǎng)絡(luò)模型,即CDGAN,生成器使用改進(jìn)Unet模型,鑒別器為一個(gè)帶有全連接層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(VGGnet)[17]。鑒別器的結(jié)構(gòu)與
常規(guī)的圖像分類模型類似(如VGGnet和ResNet[17-18]),鑒別器用來解決二分類問題。
在實(shí)驗(yàn)之前需要將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集三部分:訓(xùn)練集用于訓(xùn)練模型,數(shù)據(jù)量占整個(gè)標(biāo)注數(shù)據(jù)集的80%;驗(yàn)證集用于在訓(xùn)練過程中驗(yàn)證模型的擬合狀態(tài),其數(shù)據(jù)量占整個(gè)標(biāo)注數(shù)據(jù)集的10%;測試集數(shù)據(jù)在經(jīng)過訓(xùn)練后的模型上進(jìn)行預(yù)測,對模型進(jìn)行整體評估,其數(shù)據(jù)量占整個(gè)標(biāo)注集的10%。模型訓(xùn)練和測試流程如圖1所示。
在訓(xùn)練模型之前,需要對原始遙感影像進(jìn)行預(yù)處理,包括合并和數(shù)據(jù)增強(qiáng)兩個(gè)步驟。首先,合并兩期遙感圖像子圖,得到六通道的三維矩陣數(shù)據(jù),并對三維數(shù)據(jù)進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)等處理,與此同時(shí)以相同變換形式對人工標(biāo)注(Ground Truth,GT)作規(guī)范化處理,處理后的GT即為訓(xùn)練模型時(shí)需要的label值。GT為兩通道的圖像,第一通道表示該像素點(diǎn)是非新增建筑的概率,第二通道表示該像素點(diǎn)是地面新增建筑的概率。數(shù)據(jù)增強(qiáng)對模型的魯棒性和不變性具有至關(guān)重要的作用,同時(shí)又能防止樣本較少造成的模型過擬合問題, 因此,本文對遙感影像進(jìn)行了數(shù)據(jù)增強(qiáng)處理(如圖2所示),數(shù)據(jù)增強(qiáng)的方法包括水平翻轉(zhuǎn)、上下翻轉(zhuǎn)、平移、旋轉(zhuǎn)和仿射。圖2中第1、4列為2006年的某區(qū)域遙感影像,第2、5列為2013年對應(yīng)地區(qū)的遙感影像,第3、6列為對應(yīng)2013年比2006年地面新增建筑區(qū)域標(biāo)注。
1.2 CDGAN模型
CDGAN是以GAN為出發(fā)點(diǎn)根據(jù)特定場景設(shè)計(jì)出的模型[15],主要用于圖像語義分割問題,其結(jié)構(gòu)如圖3所示。
在CDGAN的訓(xùn)練階段,鑒別器被不斷的優(yōu)化,直至鑒別器能夠精確地判斷數(shù)據(jù)來源。生成器與鑒別器交替訓(xùn)練,最終達(dá)到納什均衡。
CDGAN的訓(xùn)練過程如下:
1)訓(xùn)練生成器。首先固定鑒別器模型參數(shù)。針對訓(xùn)練樣本x,生成器輸出結(jié)果記為G(x),G(x)值與GT值產(chǎn)生交叉熵?fù)p失。使用梯度下降算法最小化該損失。將原始樣本x與G(x)合并為512×512×8像元的中間數(shù)據(jù)(G(x),x),作為鑒別器的輸入數(shù)據(jù)。鑒別器輸出結(jié)果記為D(G(x),x),D(G(x),x)以正樣本計(jì)算交叉熵?fù)p失,最小化該損失優(yōu)化生成器。
2)訓(xùn)練鑒別器。訓(xùn)練鑒別器所使用的負(fù)樣本由生成器輸出圖像和原始待分割圖像合并得到,正樣本由原始待分割圖像和該原始圖像對應(yīng)的GT合并得到。在訓(xùn)練階段,首先固定生成器模型參數(shù),規(guī)定(G(xi),xi)作為鑒別器負(fù)樣本,(GT,xi)作為鑒別器正樣本,最小化二分類交叉熵?fù)p失來優(yōu)化鑒別器。
生成器和鑒別器損失函數(shù)的定義如下:
GLoss=∑Ni=1lfc(G(xi),gti)+lbce(D(G(xi),xi),1)(1)
DLoss=∑Ni=1lbce(D(gti,xi),1)+lbce(D(G(xi),xi),0)(2)
其中:N表示樣本個(gè)數(shù),gti表示第i個(gè)樣本的GT,xi表示第i個(gè)樣本,lbce表示交叉熵?fù)p失,lfc表示Focal損失[19]。
1.2.1 改進(jìn)的Unet模型
CDGAN模型中的生成器是改進(jìn)的Unet模型,該模型是一種端到端的全卷積網(wǎng)絡(luò)模型,即模型的網(wǎng)絡(luò)結(jié)構(gòu)中沒有出現(xiàn)全連接層。Unet模型網(wǎng)絡(luò)結(jié)構(gòu)左半部分為收縮路徑,右半部分為膨脹路徑。改進(jìn)的Unet模型的具體結(jié)構(gòu)如圖4所示。
3 結(jié)語
本文首先提出了面臨的問題以及問題背景,即從兩期相同地區(qū)的遙感影像中獲取地面新增建筑的位置,隨后提出了解決該問題的思路。解決方法的第一階段是通過將兩期遙感影像合并成一張六通道的圖像作為樣本數(shù)據(jù),并采用多種數(shù)據(jù)增強(qiáng)方法使原始數(shù)據(jù)集覆蓋面更廣,既可以擴(kuò)大訓(xùn)練樣本數(shù)量,又能提升分割模型的魯棒性,為后期訓(xùn)練分割模型作準(zhǔn)備; 第二階段提出了針對多通道圖像數(shù)據(jù)的兩種分割網(wǎng)絡(luò)Unet 和CDGAN,并詳細(xì)介紹了這兩種網(wǎng)絡(luò)的設(shè)計(jì)與訓(xùn)練方法,兩種模型使用交叉熵?fù)p失和Focal損失進(jìn)行對比。結(jié)果表明, 使用Focal損失函數(shù)的CDGAN模型分割效果最佳。
因?yàn)檫b感數(shù)據(jù)集涉及政府甚至國家的一些機(jī)密,所以在遙感影像變化檢測數(shù)據(jù)集選擇過程中沒有統(tǒng)一的標(biāo)準(zhǔn),各大研究機(jī)構(gòu)的人工標(biāo)注質(zhì)量也各不相同。我們也非常期待遙感研究的相關(guān)機(jī)構(gòu)公開高質(zhì)量標(biāo)注數(shù)據(jù)集,方便對遙感影像變化檢測進(jìn)行更深入的研究。
參考文獻(xiàn) (References)
[1] ??? WEN D, HUANG X, ZHANG L, et al. A novel automatic change detection method for urban highresolution remotely sensed imagery based on multiindex scene representation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(1): 609-625.
[2] ??? WALTER V. Objectbased classification of remote sensing data for change detection[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2004, 58(3/4): 225-238.
[3] ??? CELIK T. Multiscale change detection in multitemporal satellite images[J]. IEEE Geoscience and Remote Sensing Letters, 2009, 6(4): 820-824.
[4] ??? CELIK T, MA K. Multitemporal image change detection using undecimated discrete wavelet transform and active contours[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(2): 706-716.
[5] ??? MURA M D, BENEDIKTSSON J A, BOVOLO F, et al. An unsupervised technique based on morphological filters for change detection in very high resolution images[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(3): 433-437.
[6] ??? CAMPSVALLS G, GOMEZCHOVA L, MUNOZMARI J, et al. Kernelbased framework for multitemporal and multisource remote sensing data classification and change detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2008, 46(6): 1822-1835.
[7] ??? 張志強(qiáng), 張新長, 辛秦川, 等. 結(jié)合像元級和目標(biāo)級的高分辨率遙感影像建筑物變化檢測[J]. 測繪學(xué)報(bào), 2018,47(1): 102-112. (ZHANG Z Q, ZHANG X C, XIN Q C, et al. Combining the pixelbased methods for building change detection using highresolution remote sensing images[J]. Acta Geodaetica et Cartographica Sinica, 2018,47(1): 102-112.)
[8] ??? 李亮, 王蕾, 孫曉鵬, 等. 面向?qū)ο笞兓蛄糠治龅倪b感影像變化檢測[J]. 遙感信息, 2017, 32(6): 71-77. (LI L, WANG L, SUN X P, et al. Remote sensing change detection method based on objectoriented change vector analysis[J]. Remote Sensing Information, 2017, 32(6): 71-77.)
[9] ??? VOLPI M, TUIA D, BOVOLO F, et al. Supervised change detection in VHR images using contextual information and support vector machines[J]. International Journal of Applied Earth Observation and Geoinformation, 2013, 20(2): 77-85.
[10] ?? CHEN K, HUO C, ZHOU Z, et al. Semisupervised change detection via Gaussian processes[C]// Proceedings of the 2009 IEEE International Geoscience and Remote Sensing Symposium. Piscataway, NJ: IEEE, 2009: 996-999.
[11] ?? GHOSH S, ROY M, GHOSH A. Semisupervised change detection using modified selforganizing feature map neural network[J]. Applied Soft Computing, 2014, 15: 1-20.
[12] ?? LECUN Y, BOTTOU L, BENGIO Y, et al. Gradientbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[13] ?? LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39(4): 640-651.
[14] ?? RONNEBERGER O, FISCHER P, BROX T, et al. UNet: Convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and ComputerAssisted Intervention. Berlin: Springer, 2015: 234-241.
[15] ?? GOODFELLOW I J, POUGETABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-2680.
[16] ?? LUC P, COUPRIE C, CHINTALA S, et al. Semantic segmentation using adversarial networks[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1611.08408[2016-11-25]. https://arxiv.org/abs/1611.08408.
[17] ?? SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for largescale image recognition[J/OL]. arXiv Preprint, 2014, 2014: arXiv:1409.1556 (2014-09-04)[2015-04-10]. https://arxiv.org/abs/1409.1556.
[18] ?? HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.
[19] ?? LIN T, GOYAL P, GIRSHICK R B, et al. Focal loss for dense object detection[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1708.02002 (2017-08-07)[2018-02-07]. https://arxiv.org/abs/1708.02002.
[20] ?? IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// Proceedings of the 32nd International Conference on International Conference on Machine Learning. New York: ACM, 2015: 448-456.
[21] ?? 楊朔, 陳麗芳, 石瑀, 等. 基于深度生成式對抗網(wǎng)絡(luò)的藍(lán)藻語義分割[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(6): 1554-1561. (YANG S, CHEN L F, SHI Y, et al. Semantic segmentation of bluegreen algae based on deep generative adversarial net[J]. Journal of Computer Applications, 2018, 38(6): 1554-1561.)
[22] ?? 高凱珺, 孫韶媛, 姚廣順, 等. 基于深度學(xué)習(xí)的無人車夜視圖像語義分割[J].應(yīng)用光學(xué),2017,38(3): 421-428. (GAO K J, SUN S Y, YAO G S, et al. Semantic segmentation of night vision images for unmanned vehicles based on deep learning[J]. Journal of Applied Optics, 2017, 38(3): 421-428.)