張博洋 倪海明 胡馨月 戚大偉
摘 要:針對傳統(tǒng)方法進(jìn)行圖像分割易受噪聲影響的問題,提出一種基于U-Net網(wǎng)絡(luò)的無人機(jī)圖像語義分割網(wǎng)絡(luò)模型。該模型不需要對圖像進(jìn)行預(yù)處理,利用反卷積恢復(fù)圖像分辨率,采用U型結(jié)構(gòu)連接低層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)的特征圖,利用跳躍連接降低網(wǎng)絡(luò)復(fù)雜度,同時使用Dropout正則化隨機(jī)激活網(wǎng)絡(luò)隱藏單元以防止過擬合。實驗結(jié)果表明:該網(wǎng)絡(luò)模型可以自動定位林木信息,準(zhǔn)確分割林木區(qū)域,進(jìn)一步優(yōu)化邊緣分割結(jié)果,實現(xiàn)端對端的圖像分割。該模型具有良好的泛化能力,在其他圖像分割領(lǐng)域也具有應(yīng)用價值。
關(guān)鍵詞:無人機(jī)圖像;圖像分割;U-Net;跳躍連接
中圖分類號:S758.5??? 文獻(xiàn)標(biāo)識碼:A?? 文章編號:1006-8023(2021)02-0067-07
Research on Tree Image Segmentation Based on U-Net Network
ZHANG Boyang, NI Haiming, HU Xinyue, QI Dawei*
(College of Science, Northeast Forestry University, Harbin 150040, China)
Abstract:Aiming at the problem that traditional image segmentation is susceptible to noise, a U-Net network-based semantic segmentation network model for UAV images is proposed. The model does not need to preprocess the image, uses deconvolution to restore the image resolution, uses a U-shaped structure to connect the feature maps of the low-level network and the high-level network, uses skip connection to reduce network complexity, and uses Dropout regularization to randomly activate network hiding Unit to prevent overfitting. The experimental results show that the network model can automatically locate forest information, accurately segment the forest area, further optimize the edge segmentation results, and achieve end-to-end image segmentation. The model has good generalization ability and has application value in other image segmentation fields.
Keywords:UAV image; image segmentation; U-Net; skip connection
收稿日期:2020-11-09
基金項目:國家自然科學(xué)基金項目(31570712)
第一作者簡介:張博洋,碩士研究生。研究方向為圖像處理與模式識別。E-mail: zhangbyang0624@163.com
通信作者:戚大偉,博士,教授。研究方向為圖像處理與模式識別。E-mail: qidw9806@126.com
引文格式:張博洋,倪海明,胡馨月,等.基于U-Net網(wǎng)絡(luò)的林木圖像分割研究[J].森林工程,2021,37(2):67-73.
ZHANG B Y, NI H M, HU X Y, et al. Research on tree image segmentation based on U-Net Network [J]. Forest Engineering,2021,37(2):67-73.
0 引言
林木資源是我國生態(tài)系統(tǒng)的重要組成部分,在維持生態(tài)系統(tǒng)穩(wěn)定方面具有決策性的作用。一旦林木資源遭到破壞,會很難恢復(fù),從而造成巨大的經(jīng)濟(jì)損失。由于傳統(tǒng)圖像分割方法難以處理復(fù)雜場景下的分割任務(wù)[1],準(zhǔn)確率低,耗時長,難以大規(guī)模部署。因此,如何精確識別出每個像素的所屬類別一直是圖像語義分割領(lǐng)域內(nèi)最具挑戰(zhàn)的問題之一[2]。
傳統(tǒng)的圖像分割方法包括閾值分割[3-6]、邊緣檢測和分水嶺算法[7]等。針對這些方法進(jìn)行的模型優(yōu)化提高了分割精度,減少了計算量,但是難以處理復(fù)雜的分割任務(wù),一般不會在圖像語義分割領(lǐng)域部署應(yīng)用。近年來,卷積神經(jīng)網(wǎng)絡(luò)的提出對于圖像分割具有獨特的優(yōu)勢[8]。LONG等[9]提出了全卷積網(wǎng)絡(luò)(FCN),拉開了使用深度學(xué)習(xí)進(jìn)行圖像語義分割的序幕。將條件隨機(jī)場(CRF)融合到全卷積網(wǎng)絡(luò)(FCN)中[10-11],可以對全卷積網(wǎng)絡(luò)(FCN)的分割結(jié)果進(jìn)行精化。擴(kuò)大感受野和融合多尺度上下文信息往往是提高圖像語義分割精度的重要方法,為解決這個問題,研究人員相繼提出了多種模型和方法。其中,以RefineNet[12-13]、GCN[14]、DFN[15]、ParseNet[16]等算法為代表。除此之外,ZHAO等[17]將PSPNet引入全局平均池化到空間金字塔池化(SPP)結(jié)構(gòu)中,加快了網(wǎng)絡(luò)收斂速度。DeepLab v3網(wǎng)絡(luò)中提出了帶孔卷積和金字塔池化[18],保持了特征圖的感受野以及分辨率。馬玥[19]利用卷積網(wǎng)絡(luò)結(jié)合殘差模塊對土地的多種植被預(yù)測分類,有效提高了預(yù)測準(zhǔn)確率。王琢等[20]構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò),采用有監(jiān)督的學(xué)習(xí)方法,實現(xiàn)了對葉片端對端的分割。以上方法雖然能夠過濾掉噪聲,但也丟失了一定的空間信息,不能夠?qū)o人機(jī)圖像的林木區(qū)域得到精細(xì)實時的分割。
針對上述所存問題,為使得網(wǎng)絡(luò)能夠精確分割林木區(qū)域,精準(zhǔn)定位林木信息。本文在利用無人機(jī)獲取林場圖像的基礎(chǔ)上,提出一種基于U-Net網(wǎng)絡(luò)的無人機(jī)圖像語義分割網(wǎng)絡(luò)結(jié)構(gòu),使得低層網(wǎng)絡(luò)的林木信息和高層網(wǎng)絡(luò)的林木信息能夠有效融合,彌補(bǔ)了之前網(wǎng)絡(luò)模型輸出邊緣粗造的缺陷,同時提高了網(wǎng)絡(luò)的分割精度。經(jīng)實驗驗證,該模型可以細(xì)化林木圖像邊緣,能夠在林木圖像上實現(xiàn)精確分割。
1 基本理論
1.1 激活函數(shù)
ReLU是近幾年在圖像語義分割領(lǐng)域使用較為廣泛的激活函數(shù),其函數(shù)為:
f(x)=max(0,x)。(1)
圖1是ReLU的可視化圖,當(dāng)輸入值大于0時,神經(jīng)元被激活,梯度得到保證,始終是1,不會隨著輸入值的改變逐漸變成0。當(dāng)輸入值小于0時,神經(jīng)元沒有被激活。該激活函數(shù)避免反向傳播過程中調(diào)節(jié)權(quán)重的梯度消失等問題,計算簡單方便。
1.2 優(yōu)化算法
RMSProp是基于AdaGrad優(yōu)化算法的改進(jìn)算法,在迭代過程中,該算法既能增大學(xué)習(xí)率,又能降低學(xué)習(xí)率,通過引入一個衰減系數(shù),讓衰減率(γ)每回合都衰減一定比例。其計算公式為:
G1=γGt-1+(1-γ)g2t。(2)
Δθ=-ηGt+ε。(3)
式中:gt是第t時刻參數(shù)的梯度;γ是衰減率;ε是常數(shù);η是基礎(chǔ)學(xué)習(xí)率;Gt表示對梯度的平方做了一次平滑處理。
1.3 反卷積
反卷積(Transposed Convolution),又稱轉(zhuǎn)置卷積,對應(yīng)于卷積操作的后向和前向傳播,在優(yōu)化上做顛倒。按照一定比例通過外圍全補(bǔ)零操作來擴(kuò)大圖像的尺寸,與正常卷積相比,網(wǎng)絡(luò)能夠直接將誤差信息傳遞到所需要的位置,快速恢復(fù)圖像尺度,加快訓(xùn)練速度。反卷積結(jié)構(gòu)如圖2所示。
1.4 跳躍連接
跳躍連接(Skip Connection),指的是在普通的卷積神經(jīng)網(wǎng)絡(luò)中,較淺層網(wǎng)絡(luò)的輸出結(jié)果作為相鄰下一層網(wǎng)絡(luò)的輸入,或者可以作為更深一層網(wǎng)絡(luò)層或者多層網(wǎng)絡(luò)層的輸入。也就是建立了低層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)的連接通路,淺層網(wǎng)絡(luò)用來解決像素定位的問題,深層網(wǎng)絡(luò)用來解決像素分類的問題,這樣使得信息能夠跨通道的融合,可以向高層網(wǎng)絡(luò)提供底層網(wǎng)絡(luò)的信息特征來輔助進(jìn)行圖像重構(gòu)。此外,跳躍連接不僅能夠精化分割結(jié)果,還可以減少網(wǎng)絡(luò)參數(shù),減小計算量和內(nèi)存消耗。
1.5 損失函數(shù)
網(wǎng)絡(luò)對林木圖像中所有像素點的交叉熵和取平均值作為該模型的損失函數(shù)(Loss Function),如公式所示:
J(θ)=-1N∑mi=1∑kj=11yi=jlneθTjxi∑kj=1θTixi。 (4)
式中:N為樣本數(shù),k為標(biāo)簽數(shù);θ是計算概率值的偏移量;對于其中一幅林木圖像m來說,(xi,yi)表示像素i及其對應(yīng)的類別標(biāo)記,最后通過梯度下降更新參數(shù)。
圖3是損失函數(shù)學(xué)習(xí)方式。由圖3可知,通過對無人機(jī)拍攝的大量林木圖像進(jìn)行網(wǎng)絡(luò)模型的迭代訓(xùn)練,選定提到的損失函數(shù),來計算U-Net網(wǎng)絡(luò)得到的林木提取結(jié)果與樣本標(biāo)簽的差異,從而判斷該網(wǎng)絡(luò)模型是否能夠適應(yīng)數(shù)據(jù)集以及模型對林木圖像的分割能力能否達(dá)到預(yù)期標(biāo)準(zhǔn)。將得到的誤差信號傳遞到U-Net神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)接收之后,自我學(xué)習(xí)訓(xùn)練林木標(biāo)簽和輸入的林木圖像之間的非線性關(guān)系,通過不斷地調(diào)節(jié)超參數(shù)來加快網(wǎng)絡(luò)模型的收斂速度,使得誤差逐漸降低且穩(wěn)定收斂,從而提高邊緣分割的準(zhǔn)確率。
2 網(wǎng)絡(luò)結(jié)構(gòu)
本文的實驗框架是基于U-Net模型,如圖4所示。U-Net網(wǎng)絡(luò)模型短小而又精悍,不僅可以在小樣本數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練,而且網(wǎng)絡(luò)收斂較快和分割速度很快。網(wǎng)絡(luò)整體由2大部分組成:收縮路徑和擴(kuò)張路徑。收縮路徑不斷提取豐富的林木特征,用于捕獲林木圖像中完整的上下文信息,使得局部信息和全局信息得以充分融合,不易丟失空間信息。在收縮路徑中,每兩個3×3的卷積操作之后,會有一個2×2的最大池化操作,連續(xù)4次下采樣,特征圖分辨率逐漸降低,通道數(shù)逐漸增大;擴(kuò)張路徑對稱于收縮路徑,用來精確定位輸入圖像中待分割的林木區(qū)域,網(wǎng)絡(luò)采用2×2的上采樣層恢復(fù)圖像分辨率,后接2個3×3的卷積層,使用ReLU函數(shù)作為整個網(wǎng)絡(luò)的激活函數(shù)。網(wǎng)絡(luò)的最后一層采用1×1的卷積核進(jìn)行跨通道之間的信息交互和融合,最后通過softmax獲得最終的分類結(jié)果。
網(wǎng)絡(luò)結(jié)構(gòu)有兩個最大特點:U型結(jié)構(gòu)和跳躍連接。編碼器的特征圖和每個對應(yīng)階段解碼器通過上采樣操作得到的特征圖進(jìn)行拼接,從而形成一個U型;通過跳躍連接的結(jié)構(gòu),在每個階段都將編碼器在池化過程中丟失的相關(guān)特征提供給解碼器進(jìn)行學(xué)習(xí)。為了能夠重構(gòu)圖像特征,網(wǎng)絡(luò)采用跳躍連接的方式,使得低層網(wǎng)絡(luò)的特征圖和高層網(wǎng)絡(luò)的特征圖連接,較淺的網(wǎng)絡(luò)層體現(xiàn)細(xì)節(jié)特征,用于林木信息定位;較深的網(wǎng)絡(luò)層體現(xiàn)語義特征,用于林木和非林木信息的分類。無人機(jī)圖像的林木區(qū)域分割需要處理豐富的邊緣細(xì)節(jié)特征,該網(wǎng)絡(luò)能夠有效實現(xiàn)精確的像素級分割效果。
3 實驗及結(jié)果分析
3.1 實驗軟硬件配置
實驗在Windows 10系統(tǒng)上使用python語言,PyCharm 2019.2.2平臺,基于pytorch框架實現(xiàn),所用的計算機(jī)配置是Intel四核2.50 GHz處理器,內(nèi)存是4 GB,GPU內(nèi)存是8 GB。
3.2 實驗數(shù)據(jù)集
本文使用的基礎(chǔ)數(shù)據(jù)集拍攝于黑龍江省哈爾濱市香坊區(qū)的某實驗林場,使用水平鏡像、上下翻轉(zhuǎn)等方法對無人機(jī)采集到的林木圖像進(jìn)行數(shù)據(jù)增強(qiáng),共得到985張512×512大小的林木圖像,按照訓(xùn)練集和測試集4∶1的比例劃分?jǐn)?shù)據(jù)集,得到788張林木訓(xùn)練集,197張林木測試集,如圖5所示,主要使用這兩種數(shù)據(jù)集對U-Net模型進(jìn)行訓(xùn)練和測試,實驗分為林木和空地2個類別;通過labelme圖像標(biāo)注工具對林木圖像進(jìn)行標(biāo)注,如圖6所示。
[4]馬軍,賈鶴鳴,趙國強(qiáng),等.基于優(yōu)化粒子群的最大熵閾值法葉片圖像分割[J].森林工程,2019,35(3):63-68.
MA J, JIA H M, ZHAO G Q, et al. Leaf image segmentation based on the maximum entropy threshold method of optimized particle swarm[J]. Forest Engineering, 2019, 35(3): 63-68.
[5]張浩然,東佳毅,張岱,等.木材節(jié)子缺陷圖像分割方法比較研究[J].林業(yè)機(jī)械與木工設(shè)備,2020,48(8):22-26.
ZHANG H R, DONG J Y, ZHANG D, et al. Comparative study on image segmentation methods of wood knot defects[J]. Forestry Machinery & Woodworking Equipment, 2020, 48(8):22-26.
[6]郭康樂,黃元,楊妮,等.基于TVCV模型的多通道木材缺陷圖像分割算法[J].林業(yè)機(jī)械與木工設(shè)備,2020,48(9):22-26.
DUO K L, HUANG Y, YANG N, et al. Multi-channel wood defect image segmentation algorithm based on TVCV models[J]. Forestry Machinery & Woodworking Equipment, 2020, 48(9):22-26.
[7]孫釗,潘磊,謝運鴻,等.分水嶺算法在林業(yè)中的應(yīng)用[J/OL].世界林業(yè)研究:1-6[2020-11-03].
SUN Z, PAN L, XIE Y H, et al. Application of watershed algorithm in forestry[J/OL]. World Forestry Research:1-6[2020-11-03].
[8]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv:1409.1556[cs.CV].
[9]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[10]李宇,肖春姣,張洪群,等.深度卷積融合條件隨機(jī)場遙感圖像語義分割[J].國土資源遙感,2020,32(3):15-22.
LI Y, XIAO C J, ZHANG H Q, et al. Remote sensing image semantic segmentation using deep fusion convolutional networks and conditional random field[J]. Remote Sensing for Land & Resources, 2020, 32(3):15-22.
[11]林朝劍,張廣群,楊潔,等. 基于遷移學(xué)習(xí)的林業(yè)業(yè)務(wù)圖像識別[J]. 南京林業(yè)大學(xué)學(xué)報(自然科學(xué)版), 2020, 44(4): 215-221.
LIN C J, ZHANG G Q, YANG J,et al. Transfer learning based recognition for forestry business images[J].Journal of Nanjing Forestry University (Natural Science Edition), 2020, 44(4): 215-221.
[12]LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[EB/OL]. 2016: arXiv:1611.06612[cs.CV].
[13]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[14]PENG C, ZHANG X Y, YU G, et al. Large kernel matters: improve semantic segmentation by global convolutional network[EB/OL]. 2017: arXiv:1703.02719[cs.CV].
[15]YU C Q, WANG J B, PENG C, et al. Learning a discriminative feature network for semantic segmentation[EB/OL]. 2018: arXiv:1804.09337[cs.CV].
[16]RABINOVICH A, LIU W, BERG A C. ParseNet: looking wider to see better[EB/OL]. 2015: arXiv:1506.04579[cs.CV].
[17]ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2881-2890.
[18]CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]. Cham: Springer International Publishing, 2018.
[19]馬玥.基于多源遙感信息綜合的濕地土地覆被分類研究[D].長春:吉林大學(xué),2018.
MA Y. Land cover classification of wetland based on multi-source remote sensing[D]. Changchun: Jilin University, 2018.
[20]王琢,汪雅婷,宋文龍,等.基于深度學(xué)習(xí)的葉片圖像分割算法[J].森林工程,2019,35(1):42-46.
WANG Z, WANG Y T, SONG W L, et al. Leaf image segmentation algorithm based on deep learning [J]. Forest Engineering, 2019, 35(1): 42-46.