摘? 要: 精確快速地提取海岸線對(duì)于海岸帶的開發(fā)規(guī)劃、實(shí)時(shí)監(jiān)測等具有重要意義。使用遙感圖像進(jìn)行海陸分割是提取海岸線的一項(xiàng)基礎(chǔ)工作。本文利用深度學(xué)習(xí)技術(shù)的語義分割方法來進(jìn)行海陸分割,提取海岸線。網(wǎng)絡(luò)模型以UNet為基本結(jié)構(gòu),并使用殘差塊來代替其中的卷積層,最后一層再加入一個(gè)殘差A(yù)SPP進(jìn)一步提升分割精度。使用殘差塊在加深了網(wǎng)絡(luò)的同時(shí),提高效率提升了網(wǎng)絡(luò)的性能。殘差A(yù)SPP結(jié)構(gòu)能同時(shí)捕獲遙感圖像的光譜信息和上下文信息。在一組來自高分一號(hào)遙感影像的實(shí)驗(yàn)表明,基于我們提出的網(wǎng)絡(luò)模型結(jié)構(gòu)與其他深度學(xué)習(xí)的網(wǎng)絡(luò)模相比有著較好的結(jié)果,能夠?qū)崿F(xiàn)海岸線的提取與應(yīng)用。
關(guān)鍵詞: 遙感圖像;深度學(xué)習(xí);殘差網(wǎng)絡(luò);空洞卷積;海陸分割;UNet
中圖分類號(hào): TP391.41? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.054
本文著錄格式:楊坤. 基于改進(jìn)的UNet連云港海岸線提取研究[J]. 軟件,2020,41(10):208212
【Abstract】: Accurate and rapid extraction of coastline is of great significance for the development planning and real-time monitoring of coastal zone. Land sea segmentation using remote sensing image is a basic work of Coastline Extraction. This paper uses the semantic segmentation method of deep learning technology to segment land and sea, and extract coastline. The network model takes u-net as the basic structure, and uses the residual block to replace the convolution layer. In the last layer, a residual ASPP is added to further improve the segmentation accuracy. The residual block not only deepens the network, but also improves the efficiency and performance of the network. The residual ASPP structure can capture both spectral and contextual information of remote sensing images. Experiments on a set of remote sensing images from gaofen-1 show that the proposed network model structure has better results than other deep learning network models, and can realize Coastline Extraction and application.
【Key words】: Remote sensing image; Deep learning; Residual network; Hole convolution; Land sea segmentation; UNet
0? 引言
海岸線是海洋與陸地的分界線,是重要的地物類型之一。我國是一個(gè)海洋大國,中國海岸線包括大陸海岸線與島嶼海岸線,橫跨了22個(gè)緯度帶。其中,中國大陸海岸線長達(dá)1.8萬多千米,島嶼海岸線長達(dá)1.4萬多千米,總海岸線長度達(dá)到了3.2萬千米之多。海岸帶是實(shí)現(xiàn)海洋高質(zhì)量發(fā)展戰(zhàn)略要地的關(guān)鍵地區(qū)。在這樣的條件下,我國有著豐富的海洋資源。由于我國東部沿海發(fā)展迅速,人口主要集中在這片區(qū)域,國民生產(chǎn)總值也主要集中在沿海區(qū)域,所以海岸帶經(jīng)濟(jì)在中國的經(jīng)濟(jì)總量中占有十分重要的地位。近年來,隨著沿海地區(qū)工業(yè)化和城鎮(zhèn)化進(jìn)程的不斷推進(jìn),海岸帶地區(qū)發(fā)展和保護(hù)的矛盾沖突日益顯著。一方面高密度的人口給沿海地區(qū)帶來了巨大的壓力,另一方面,我國海岸帶地區(qū)承載了眾多的基于陸地和基于海洋的人類活動(dòng)和其他用途。包括圍海養(yǎng)殖、港口航運(yùn)、漁業(yè)捕撈、濱海旅游、石油和天然氣勘探開發(fā)等。這使得海岸帶成為容易受到破壞的地區(qū)之一。此外,民眾進(jìn)入海灘、保護(hù)瀕危棲息地的權(quán)利等新興的或不斷增長的利益,使得各種沖突更加復(fù)雜。因此,能夠及時(shí)地對(duì)海岸線進(jìn)行提取和動(dòng)態(tài)監(jiān)測對(duì)于海岸建設(shè)、沿海開發(fā)、環(huán)境保護(hù)等意義重大,分析和研究海陸的語義分割非常有必要[1]。
由于遙感技術(shù)觀測范圍廣、成像分辨率高、獲取信息速度快周期短等特點(diǎn)因此被廣泛應(yīng)用于農(nóng)業(yè)發(fā)展、災(zāi)害監(jiān)測、海洋監(jiān)測等各個(gè)領(lǐng)域[2]。通過遙感技術(shù)成像的遙感影像,分辨率高、范圍廣、光譜信息豐富,能夠快速獲取海岸地貌類型及其相關(guān)的地面信息,非常適合大范圍的海岸研究。傳統(tǒng)上,通常對(duì)遙感圖像歸一化后使用分割方法以實(shí)現(xiàn)海陸分割任務(wù)。閾值分割方法首先使用遙感影像的不同波段進(jìn)行歸一化來提取水體,然后通過選取閾值將低于閾值的像素歸為負(fù)類(陸地),將高于閾值的像素歸為正類(水體),以此來實(shí)現(xiàn)海陸語義分割。但是傳統(tǒng)的閾值分割方法有來著明顯的缺陷,首先它僅僅基于單個(gè)像素的光譜信息,而遙感圖像中存在諸如海中陰影與陸地的波長相似等其他同譜異物現(xiàn)象,因此很難正確區(qū)分,同時(shí)對(duì)于不同傳感器、不同地區(qū)甚至不同時(shí)間的圖像往往需要選取不同的閾值,對(duì)于包含大范圍區(qū)域遙感圖像往往難以兼顧,因此閾值分割方法存在著閾值選取困難的問題。此外,傳統(tǒng)方法只能應(yīng)用到小范圍內(nèi),需要消耗大量的人力物力。
最近幾年,隨著大數(shù)據(jù)的興起以及計(jì)算機(jī)性能的提升,推動(dòng)了深度學(xué)習(xí)的發(fā)展?;诰矸e神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型在計(jì)算機(jī)視覺中主要有三方面應(yīng)用,第一個(gè)方面是利用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像分類任務(wù)[4], 其次是R-CNN的目標(biāo)檢測任務(wù)[5]以及基于FCN的語義分割任務(wù)[6]。深度學(xué)習(xí)的語義分割方法近年來發(fā)展迅速,例如:Ronneberger O等人繼承FCN網(wǎng)絡(luò)的思想提出了一種對(duì)稱語義分割網(wǎng)絡(luò)U-Net,在生物醫(yī)學(xué)圖像的圖像分割上取得了良好的效果[7]。SegNet 應(yīng)用了VGG16框架,去掉全連接層,搭建對(duì)稱模型,以此來實(shí)現(xiàn)端到端像素級(jí)別的語義分割[8]。Liang-Chieh Chen等提出的DeepLabv3+架構(gòu),主要以DeepLabv3做Encoder架構(gòu),Decoder采用一個(gè)簡單卻有效的模塊。并探索了改進(jìn)的Xception和深度可分離卷積在模型中的應(yīng)用,進(jìn)一步提升了模型在語義分割任務(wù)上的性能。語義分割技術(shù)的日趨成熟也推動(dòng)了海岸線提?。êj懛指睿┑目焖俑咝Оl(fā)展。
但是,遙感影像中往往存在著同譜異物現(xiàn)象,例如靠近海岸的水塘以及陸上養(yǎng)殖區(qū)等地物的光譜信息與海洋相似,并且淺灘的光譜信息與陸地比較接近。同時(shí),由于遙感圖像的成像條件成像時(shí)間不同,不同的遙感圖像中相同地物往往有著不同的光譜信息,因此對(duì)模型的泛化性能提出了極高的要求。針對(duì)上述問題,我們提出了一種基于改進(jìn)UNet的語義分割網(wǎng)絡(luò)模型用于海陸語義分割任務(wù)。該網(wǎng)絡(luò)引入殘差塊來代替UNet中的卷積層,目的是在內(nèi)部并行優(yōu)化,用來捕捉詳細(xì)的邊界信息,這樣一來,我們的網(wǎng)絡(luò)拓展了深度,能夠提取到更高維度的特征而不會(huì)引起梯度爆炸等問題。除此之外,我們?cè)诮獯a器的最后一層加入了殘差A(yù)SPP結(jié)構(gòu),將殘差思想和空間金字塔池化結(jié)合到一起,其中空間金字塔池化能夠有效地增大感受野,更好地捕捉上下文語義信息,以解決同譜異物現(xiàn)象引起的誤分類問題。在一組來自高分一號(hào)的遙感影像數(shù)據(jù)集上的實(shí)驗(yàn)證明,我們提出的網(wǎng)絡(luò)能夠有效地處理同譜異物現(xiàn)象引起的誤分類問題。與經(jīng)典的語義分割模型相比,我們提出的網(wǎng)絡(luò)獲得了更好的精度和F1測度分?jǐn)?shù)。
1? 相關(guān)工作
在本部分我們將回顧傳統(tǒng)的FCN網(wǎng)絡(luò)與UNet網(wǎng)絡(luò),同時(shí)對(duì)殘差思想,ASPP模塊進(jìn)行詳細(xì)介紹。
1.1? FCN和UNet
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于圖像分類任務(wù),例如經(jīng)典的手寫數(shù)字識(shí)別。CNN網(wǎng)絡(luò)的主要特點(diǎn)是輸出與預(yù)測類別具有相同維度的向量,以此來表示每個(gè)類別的概率。與經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)相比,F(xiàn)CN中用卷積層代替了最后的全連接層,可以讓卷積網(wǎng)絡(luò)在一張更大的圖片上滑動(dòng),得到每個(gè)區(qū)域的輸出,同時(shí)可以適應(yīng)任意尺寸的輸入;結(jié)合不同深度層結(jié)果的skip結(jié)構(gòu),可以確保魯棒性和精確性;FCN使用上采樣(反卷積來實(shí)現(xiàn))操作來恢復(fù)到原圖的分辨率,做到逐像素預(yù)測以達(dá)到端到端輸出的目的。正是因?yàn)镕CN擁有上述特點(diǎn),因此可以很好地用于圖像像素分割任務(wù)中。
在UNet中作者采用了優(yōu)雅的對(duì)稱結(jié)構(gòu),整個(gè)網(wǎng)絡(luò)分為編碼器部分(下采樣)和解碼器部分(上采樣),結(jié)構(gòu)簡單但很有效,在生物醫(yī)學(xué)圖像的分割任務(wù)中取得了出色的效果。在編碼器部分中采用最大池化操作來縮小特征圖,提取更高層次的特征,用來獲取場景信息;在解碼器部分使用上采樣操作來恢復(fù)到原始圖像大小,上采樣的過程是結(jié)合了下采樣各層信息和上采樣的輸入信息來還原細(xì)節(jié)信息。
1.2? 殘差思想
由于CNN能夠提取低層中層或高層次的特征,因此網(wǎng)絡(luò)的層數(shù)越多,意味著能夠提取到不同層的特征越豐富[9]。并且,越深的網(wǎng)絡(luò)提取的特征越抽象,越具有語義信息。但是如果僅僅是簡單地增加網(wǎng)絡(luò)層數(shù)則會(huì)導(dǎo)致梯度彌散或者梯度爆炸以及退化問題。He K等人提出了殘差模塊用來解決這個(gè)問題[10]。作者把網(wǎng)絡(luò)設(shè)計(jì)為H(x)=F(x)+x,如圖1。我們可以轉(zhuǎn)換為學(xué)習(xí)一個(gè)殘差函數(shù)F(x)=H(x)–x。只要F(x)=0,就構(gòu)成了一個(gè)恒等映射H(x)=x。這樣擬合殘差就會(huì)更加容易。基于殘差的思想,網(wǎng)絡(luò)可以達(dá)到更深的深度,提取到更深層次的信息,而不會(huì)引起梯度爆炸或者退化等問題。
1.3? 殘差A(yù)SPP模塊
ASPP模塊是在空間維度上實(shí)現(xiàn)金字塔型的空洞池化atrous spatial pyramid pooling(ASPP)[10]。這樣的機(jī)構(gòu)設(shè)計(jì)對(duì)所給定的輸入以不同采樣率的空洞卷積并行采樣,相當(dāng)于以多個(gè)比例捕捉圖像的上下文信息。而殘差A(yù)SPP模塊,殘差思想通過shortcut connection體現(xiàn),通過shortcut將這個(gè)ASPP模塊的輸入和輸出進(jìn)行一個(gè)element-wise的加疊,通過這個(gè)簡單的加法并不會(huì)給網(wǎng)絡(luò)額外的參數(shù)和計(jì)算量,同時(shí)卻可以大大增加模型的訓(xùn)練速度、提高訓(xùn)練效果,而且當(dāng)模型的參數(shù)加深時(shí),這個(gè)簡單的結(jié)構(gòu)能夠很好地解決退化問題。如圖2所示。
2? 實(shí)驗(yàn)提出方法介紹
在本節(jié)中,我們首先介紹針對(duì)海陸分割(海岸線提取)的一般過程。然后,我們?cè)敿?xì)描述了改進(jìn)了UNet網(wǎng)絡(luò)。
2.1? 海岸線提取的一般過程
基于深度學(xué)習(xí)方法的海陸分割主要分為三個(gè)階段:數(shù)據(jù)預(yù)處理階段,訓(xùn)練階段,模型測試階段。在數(shù)據(jù)預(yù)處理階段,我們利用ArcMap進(jìn)行真值圖的標(biāo)記,將遙感圖像分成兩個(gè)類。海洋和陸地。然后對(duì)遙感圖像進(jìn)行裁切,我們將實(shí)驗(yàn)圖像裁成256×256的小塊,并將裁切后的圖像劃分為訓(xùn)練集和驗(yàn)證集,轉(zhuǎn)為numpy數(shù)組格式,為模型訓(xùn)練做準(zhǔn)備。在訓(xùn)練階段,模型將訓(xùn)練圖像的numpy格式讀進(jìn)去訓(xùn)練,流程圖如圖3所示。最后是測試階段,在這一階段,把訓(xùn)練好的最佳模型用來測試圖像,得到海岸線的提取工作。
2.2? 模型結(jié)構(gòu)及參數(shù)介紹
圖3展示了我們提出的基于改進(jìn)UNet的海岸線提取模型結(jié)構(gòu)流程圖。模型整體保留UNnet的對(duì)稱結(jié)構(gòu),但由于使用殘差塊來代替原始UNet結(jié)構(gòu)的卷積操作,這里UNet的對(duì)稱結(jié)構(gòu)又加深了一層,是因?yàn)楦畹膶訑?shù)可以帶來更加豐富的語義信息,提取到的特征越豐富,而殘差思想可以確保模型結(jié)構(gòu)加深而不會(huì)帶來梯度爆炸等問題。在解碼器的最后一層,加入殘差A(yù)SPP結(jié)構(gòu),同時(shí)利用殘差思想和不同采樣率帶來的多尺度上下文語義信息,確保分割效果更佳。最后使用sigmoid激活函數(shù)得到最后的預(yù)測結(jié)果,從而實(shí)現(xiàn)端到端的遙感圖像海陸分割任務(wù)。表1顯示了基于改進(jìn)UNet的完整網(wǎng)絡(luò)結(jié)構(gòu)和詳細(xì)配置。
3? 實(shí)驗(yàn)與評(píng)估
3.1? 實(shí)驗(yàn)數(shù)據(jù)
我們使用的實(shí)驗(yàn)訓(xùn)練、驗(yàn)證數(shù)據(jù)集是連云港附近的6幅高分一號(hào)遙感圖像,測試集圖像從另外3幅高分一號(hào)遙感圖像中進(jìn)行裁切的,拍攝日期在2016,2017,2018年份內(nèi),其分辨率為8 m,包含4個(gè)波段(紅波段,綠波段,藍(lán)波段,以及近紅外波段)。其中的某幅訓(xùn)練圖像及其真值圖如圖4所示。我們將研究區(qū)域的數(shù)據(jù)進(jìn)行海陸分割(海岸線提?。?shí)驗(yàn),包括海洋和陸地兩個(gè)類別,其中0代表海洋,255代表陸地。然后將已標(biāo)記的圖像進(jìn)行裁剪,并分為訓(xùn)練集、驗(yàn)證集和測試集,其中,訓(xùn)練集和驗(yàn)證集圖像大小均為256×256,訓(xùn)練集圖像和真值圖有1348幅,驗(yàn)證集圖像及其真值圖有158幅,測試集圖像大小為1024× 1024。
3.2? 模型訓(xùn)練
我們實(shí)驗(yàn)使用 NVIDIA Tesla P100 16GB的GPU進(jìn)行訓(xùn)練。實(shí)驗(yàn)?zāi)P褪褂肒eras框架進(jìn)行實(shí)現(xiàn),采用Tensorflow作為后端。實(shí)驗(yàn)使用Adaptive Moment Estimation作為優(yōu)化器,該優(yōu)化器可以在訓(xùn)練過程中自適應(yīng)地調(diào)整學(xué)習(xí)率,我們把初始學(xué)習(xí)率設(shè)置為0.0001,batch size設(shè)置為2,迭代周期為100次。模型構(gòu)建完成后,我們將1348張訓(xùn)練圖像和158張驗(yàn)證圖像存儲(chǔ)在Numpy數(shù)組中以方便實(shí)驗(yàn)。為了使模型能夠處理遙感想,我們將所有模型的輸入通道均調(diào)整為4個(gè)通道,模型訓(xùn)練完成后,我們使用3幅測試圖像來驗(yàn)證模型的有效性。
3.3? 實(shí)驗(yàn)結(jié)果與分析
這里我們除了實(shí)驗(yàn)自己模型的同時(shí),還加入了UNet,DeepLabv3,以及SegNet等同我們的模型進(jìn)行了對(duì)比實(shí)驗(yàn),使用三幅圖像進(jìn)行測試,并且實(shí)驗(yàn)采用三種評(píng)價(jià)指標(biāo)來驗(yàn)證模型的有效性。分別為準(zhǔn)確率、召回率以及F1分?jǐn)?shù),其中準(zhǔn)確率表示正確預(yù)測正樣本占實(shí)際預(yù)測為正樣本的比例如公式1所示,召回率表示正確預(yù)測正樣本占正樣本的比例,如公式2所示。F1分?jǐn)?shù)被定義為精準(zhǔn)率和召回率的調(diào)和平均數(shù),用于綜合反映整體的指標(biāo)如公式3所示。
其中,TP代表樣本為正,預(yù)測結(jié)果為正;FP代表樣本為負(fù),預(yù)測結(jié)果為正;FN代表樣本為正,預(yù)測結(jié)果為負(fù)。下圖分別展示了在四個(gè)測試集上進(jìn)行海陸分割的不同方法的結(jié)果圖,褐色表示提取的陸地,藍(lán)色表示海洋。測試圖像及其對(duì)比圖像分別如圖5、6、7所示。其中褐色代表陸地,藍(lán)色代表海洋。
通過觀察圖5、6、7我們可以看出,我們提出的改進(jìn)的UNet模型比其它三種模型的分割效果更好,尤其是在紅色矩形框標(biāo)注的地方,本位提出的方法對(duì)比其他三個(gè)模型都是最佳的分割效果。實(shí)驗(yàn)結(jié)果表明,我們提出的網(wǎng)絡(luò)模型對(duì)于連云港海岸線的海陸分割任務(wù)有更好的效果。表2給出了我們提出的模型與其他三個(gè)模型的Precision,recall以及F1分?jǐn)?shù)的最終結(jié)果。
表2使用了上面介紹的三種評(píng)價(jià)指標(biāo)對(duì)不同深度學(xué)習(xí)模型進(jìn)行了詳細(xì)的比較,從中我們可以看出,只有在第一幅測試圖像中召回率我們提出的網(wǎng)絡(luò)略低于UNet模型,除此之外,本文提出的模型方法的準(zhǔn)確率、召回率和F1分?jǐn)?shù)在測試圖像上的測試結(jié)果幾乎全部高于其他深度學(xué)習(xí)方法。
4? 結(jié)論
在本文中,我們基于UNet結(jié)構(gòu)進(jìn)行了改進(jìn),使用殘差結(jié)構(gòu)來代替卷積層,并在最后一層加入了殘差A(yù)SPP結(jié)構(gòu),加深網(wǎng)絡(luò)層數(shù)的同時(shí)獲得了更多的細(xì)節(jié)特征,提升了連云港海岸線遙感圖像的分割精度,得到了較好的海岸線提取結(jié)果。最后,在未來的光學(xué)遙感圖像海陸分割的研究中,應(yīng)考慮如何識(shí)別細(xì)長的堤壩更好地保留邊界信息,以及對(duì)于低分辨率圖像的海陸分割問題,從而取得更好地結(jié)果。在未來我們需要繼續(xù)改進(jìn)我們的模型,并且考慮不同衛(wèi)星拍攝的影像,來更加適應(yīng)相關(guān)部門的需要。
參考文獻(xiàn)
[1]Wei Junjie. Research and implementation of median filtering and segmentation algorithm for waterfront image[D]. Chang chun: Jilin University, 2011.
[2]Shao Yun, Zhang Fengli, Tian Wei, et al. Progresses on application of microwave remote sensing in ocean environment[J]. Journal of Remote Sensing, 2009, 13(S1): 154-159.
[3]Yuan Xinzhe, Lin Mingsen, Liu Jianqiang, et al. Application of GF-3 satellite in ocean[J]. Satellite Application, 2018(6): 17-21.
[4]LeCun, Y. and Bengio, Y., 1995. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10), 1995.
[5]Wei Junjie. Research and implementation of median filtering and segmentation algorithm for waterfront image[D]. Changchun: Jilin University, 2011.
[6]McFeeters S K. The use of the normalized difference water index(NDWI)in the delineation of open water features[J]. International Journal of Remote Sensing, 1996, 17(7): 1425- 1432.
[7]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[J]. 2015.
[8]Badrinarayanan V, Kendall A, Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. 2015.
[9]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[10]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[11]Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 40(4): 834-848.