汪慶,杜煒,馬春,谷宗運(yùn)
少樣本條件下的復(fù)雜葉片圖像語(yǔ)義分割
汪慶,杜煒,馬春,谷宗運(yùn)*
(安徽中醫(yī)藥大學(xué) 醫(yī)藥信息工程學(xué)院,合肥 230012)
針對(duì)少樣本條件下復(fù)雜葉片分割精確度不高的問(wèn)題,提出一種基于數(shù)據(jù)增強(qiáng)的圖像語(yǔ)義分割方法。使用翻轉(zhuǎn)、平移方法對(duì)訓(xùn)練集中的圖像進(jìn)行增強(qiáng)擴(kuò)充,利用VGG19代替原SegNet語(yǔ)義分割模型的VGG16主干網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,在包含180幅復(fù)雜背景葉片的圖像數(shù)據(jù)集上,使用該方法的評(píng)價(jià)指數(shù)MPA和MIOU達(dá)到了98.02%和95.79%,相比未使用數(shù)據(jù)增強(qiáng)的原模型分別提高了9.96%和15.27%。
語(yǔ)義分割;SegNet模型;VGG19;少樣本;復(fù)雜葉片;數(shù)據(jù)增強(qiáng)
圖像分割是圖像識(shí)別的重要預(yù)處理步驟,優(yōu)秀的分割算法能夠提高圖像特征提取的效率,提升識(shí)別率。自然界中獲取的葉片圖像通常含有復(fù)雜的自然場(chǎng)景,葉片圖像分割的主要任務(wù)就是將葉片從復(fù)雜的背景中提取出來(lái)。
常見(jiàn)的植物圖像分割方法有:基于邊緣檢測(cè)的圖像分割[1]、基于聚類的葉片圖像分割[2]、基于支持向量機(jī)的圖像分割[3]等。傳統(tǒng)的分割方法雖然可以將葉片區(qū)域從圖像背景中分割出來(lái),但是這些方法對(duì)于存在葉面不均勻光照、非主要干擾葉片、雜草背景、變色葉片等復(fù)雜場(chǎng)景下,往往不能得到令人滿意的效果。
近年來(lái),不少學(xué)者使用深度學(xué)習(xí)的方法在植物圖像分割領(lǐng)域開(kāi)展了一系列研究工作,通常這些模型訓(xùn)練需要較多的樣本作為數(shù)據(jù)支撐。胡靜等[4]使用全卷積神經(jīng)網(wǎng)絡(luò)FCN對(duì)Leafsnap數(shù)據(jù)庫(kù)中7719張圖像背景較簡(jiǎn)單的葉片圖像進(jìn)行分割,使用召回率RR和誤報(bào)率FAR作為評(píng)價(jià)標(biāo)準(zhǔn)并使用ROC曲線進(jìn)行分析;熊俊濤等[5]使用Deeplab V3模型結(jié)合ResNet34主干網(wǎng)絡(luò)訓(xùn)練模型,在675幅荔枝花葉圖像數(shù)據(jù)集上分割,得到了平均交并比mIoU達(dá)到0.734,準(zhǔn)確率達(dá)到87%的結(jié)果;Yang等[6]采用Mask Region-based Convolutional Neural Network(Mask R-CNN)作為葉片分割訓(xùn)練網(wǎng)絡(luò),結(jié)合VGG16訓(xùn)練分類模型,在2500幅復(fù)雜背景的葉片圖像數(shù)據(jù)集上分割平均準(zhǔn)確率達(dá)到了91.5%;Zou等[7]采用簡(jiǎn)化的U-net算法對(duì)800張農(nóng)田雜草進(jìn)行分割,算法降低了分割圖像的速度,但保持了較高的分割精度,評(píng)價(jià)標(biāo)準(zhǔn)IoU、ACC分別達(dá)到了92.91%、98.24%;Kan等[8]使用U-Net模型結(jié)合Resnet50網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,在Imagenet和DUTS dataset中選取1000幅葉子圖像作為訓(xùn)練數(shù)據(jù)集,對(duì)比顏色指數(shù)方法取得了更優(yōu)秀的分割效果;Kolhar等[9]使用基于修正殘差U-Net的CNN進(jìn)行植物葉片分割,在包含800幅葉片圖像的Leaf Segmentation Challenge(LSC)數(shù)據(jù)集上分割準(zhǔn)確率達(dá)到了91.25%;Agarwal等[10]提出了一種差分進(jìn)化改進(jìn)的SegNet壓縮版本,對(duì)800幅簡(jiǎn)單背景的馬鈴薯葉片分割病變區(qū)域,在不影響mIoU指數(shù)的情況下對(duì)模型進(jìn)行了壓縮。
本文針對(duì)圖像語(yǔ)義分割訓(xùn)練中訓(xùn)練圖像樣本不足的問(wèn)題,結(jié)合VGG19主干網(wǎng)絡(luò)并通過(guò)引進(jìn)增強(qiáng)變換擴(kuò)充樣本數(shù)據(jù)量,以提高葉片圖像分割的準(zhǔn)確率。
SegNet模型[11]是一種語(yǔ)義分割網(wǎng)絡(luò),該模型具有語(yǔ)義分割網(wǎng)絡(luò)基于像素分割的共同特征,通過(guò)遍歷圖像中的每個(gè)像素按內(nèi)容進(jìn)行分類。相比圖像分類圖像跟蹤算法,語(yǔ)義分割需要更大的計(jì)算量和對(duì)圖像邊緣更精細(xì)的處理。由于圖像中包含的每個(gè)像素都需要被分類,被分割目標(biāo)的各個(gè)部分是被精準(zhǔn)分類的,目標(biāo)分割邊緣也相對(duì)更加清晰。
SegNet模型引入了編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu),Encoder端是使用了VGG16網(wǎng)絡(luò)的16層卷積神經(jīng)網(wǎng)絡(luò)中的前13個(gè)卷積層,網(wǎng)絡(luò)深度為5,卷積子層數(shù)分別為2, 2, 3, 3, 3。該模型的主要特點(diǎn)是:在Encoder階段,最大池化操作時(shí)只需要記錄最大值所在位置,建立索引查詢節(jié)省內(nèi)存空間;而在Decoder階段,直接使用記錄的索引來(lái)進(jìn)行去池化操作,從而在上采樣階段就無(wú)需學(xué)習(xí),不用反卷積操作。為了具有更好的分割效果,本文引入VGG19網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)包含19層卷積神經(jīng)網(wǎng)絡(luò),Encoder端使用去除全連接層的前16個(gè)卷積層,網(wǎng)絡(luò)深度仍設(shè)置為5,卷積子層分別2, 2, 4, 4, 4。引入VGG19的SegNet模型網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 引入VGG19的SegNet模型網(wǎng)絡(luò)結(jié)構(gòu)
為了確定圖像分割標(biāo)準(zhǔn),需要對(duì)訓(xùn)練的葉片圖像進(jìn)行像素級(jí)標(biāo)記。圖像分割的任務(wù)是把葉片從復(fù)雜的背景中分離出來(lái),所以將圖像的像素點(diǎn)標(biāo)記背景區(qū)域和葉片區(qū)域,對(duì)圖像按像素進(jìn)行手工標(biāo)記分類,其中,標(biāo)記背景區(qū)域?yàn)閎ack,標(biāo)記葉片區(qū)域?yàn)閘eaf。
所有葉片圖像來(lái)自于ImageCLEF2012PlantIdentification數(shù)據(jù)集[12],該數(shù)據(jù)集圖像采集自法國(guó)地中海地區(qū)的126種樹(shù)種,包含11572張圖片,其中訓(xùn)練數(shù)據(jù)8422張圖像,測(cè)試數(shù)據(jù)3150張圖像,主要包括:掃描的葉片、白色均勻背景的葉片和自然條件下的葉片,數(shù)據(jù)集的主要任務(wù)是用于基于葉片圖像的樹(shù)種識(shí)別。為了更科學(xué)地進(jìn)行模型訓(xùn)練,本文隨機(jī)選取180幅自然場(chǎng)景下復(fù)雜背景的葉片圖像。其中90幅圖像來(lái)源于該數(shù)據(jù)集的訓(xùn)練集作為該實(shí)驗(yàn)的訓(xùn)練集,90幅圖像來(lái)源于該數(shù)據(jù)集的測(cè)試集作為該實(shí)驗(yàn)的測(cè)試集,以保證實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集的圖像不重復(fù)。
為了進(jìn)一步增強(qiáng)少樣本條件下模型訓(xùn)練的精確度,本文使用數(shù)據(jù)增強(qiáng)方法將數(shù)據(jù)集倍增擴(kuò)充,這些增強(qiáng)方法包括:
(1)翻轉(zhuǎn):翻轉(zhuǎn)增強(qiáng)包括水平隨機(jī)翻轉(zhuǎn)和垂直隨機(jī)翻轉(zhuǎn),當(dāng)使用水平隨機(jī)翻轉(zhuǎn)表示圖像沿著左右方向以50%的概率隨機(jī)翻轉(zhuǎn);當(dāng)使用垂直隨機(jī)翻轉(zhuǎn)表示圖像沿著上下方向以50%的概率隨機(jī)翻轉(zhuǎn)。
(2)平移:平移增強(qiáng)表示圖像沿著軸或者軸坐標(biāo)在指定的范圍內(nèi)進(jìn)行隨機(jī)按像素平移,如指定[-10 10]表示在正負(fù)10個(gè)像素之間隨機(jī)移動(dòng)。
根據(jù)前面描述的內(nèi)容,本文設(shè)計(jì)了一個(gè)基于改進(jìn)的SegNet模型的葉片圖像語(yǔ)義分割方法。該方法首先標(biāo)記出所有的圖像樣本的背景區(qū)域和待分割的葉片區(qū)域作為標(biāo)準(zhǔn)真值圖像,然后利用2.2節(jié)描述的數(shù)據(jù)增強(qiáng)擴(kuò)充方法將所有測(cè)試集樣本圖像進(jìn)行倍增,在設(shè)置好訓(xùn)練模型的超參數(shù)前提下,使用SegNet模型結(jié)合VGG19主干網(wǎng)絡(luò)訓(xùn)練語(yǔ)義分割模型,最后利用模型進(jìn)行分割測(cè)試。整個(gè)算法步驟描述如下:
步驟1:將數(shù)據(jù)集按像素手工標(biāo)記出背景區(qū)域和葉片區(qū)域;
步驟2:將數(shù)據(jù)集隨機(jī)劃分為不相交的測(cè)試集、訓(xùn)練集;
步驟3:對(duì)訓(xùn)練集數(shù)據(jù)增強(qiáng)擴(kuò)充;
步驟4:設(shè)置訓(xùn)練超參數(shù)進(jìn)行模型訓(xùn)練;
步驟5:使用訓(xùn)練完成的模型對(duì)測(cè)試集進(jìn)行分割。
該算法的程序流程圖如圖2所示。
圖2 葉片圖像語(yǔ)義分割程序流程圖
本文的實(shí)驗(yàn)環(huán)境為Windows Server 2008 R2 64位,Intel Xeon CPU E5-2620 v3@2.4G,32GB RAM,仿真軟件使用MATLAB 2020a版本,模型輸入圖片分辨率標(biāo)準(zhǔn)化為224×224。
數(shù)據(jù)增強(qiáng)階段,實(shí)驗(yàn)使用翻轉(zhuǎn)、平移兩種方法將訓(xùn)練集樣本擴(kuò)充20倍,原訓(xùn)練集記為L(zhǎng)eafSetI,倍增后的數(shù)據(jù)集分別記為L(zhǎng)eafSetII。翻轉(zhuǎn)沿著/軸隨機(jī)進(jìn)行,平移范圍為沿著/軸正負(fù)10個(gè)像素點(diǎn)。
訓(xùn)練超參數(shù)設(shè)置階段,對(duì)模型訓(xùn)練超參數(shù)進(jìn)行初始化,模型超參數(shù)設(shè)置如表1所示。
表1 模型超參設(shè)置表
為了評(píng)估該模型的分割效果,使用平均像素精確度(Mean pixel Accuracy, MPA)和平均交并比(Mean Intersection Over Union, MIOU)進(jìn)行評(píng)價(jià),它們的定義如下:
為了更好地分析模型訓(xùn)練過(guò)程,實(shí)驗(yàn)對(duì)模型訓(xùn)練集訓(xùn)練過(guò)程記錄了精確度Accuracy曲線幫助分析訓(xùn)練趨勢(shì),如圖3所示,橫坐標(biāo)下方數(shù)字代表迭代次數(shù),橫坐標(biāo)上方代表最大訓(xùn)練周期,縱坐標(biāo)代表精確度百分比,圖3(a)和圖3(b)分別代表在原模型和本文方法在數(shù)據(jù)集LeafSetI上的訓(xùn)練過(guò)程,圖3(c)和圖3(d)分別代表在原模型和本文方法在數(shù)據(jù)集LeafSetII上的訓(xùn)練過(guò)程。
圖3 模型在不同訓(xùn)練集上訓(xùn)練過(guò)程
根據(jù)式(1), (2),再對(duì)測(cè)試集中的圖像計(jì)算MPA和MIOU,結(jié)果如表2所示,未使用數(shù)據(jù)增強(qiáng)的本文模型比原模型MPA和MIOU分別提高了3.03%和1.63%,使用數(shù)據(jù)增強(qiáng)的本文模型比原模型MPA和MIOU分別提高了1.77%和2.70%,比未使用數(shù)據(jù)增強(qiáng)的原模型MPA和MIOU分別提高了9.96%和15.27%。
表2 不同方法實(shí)驗(yàn)結(jié)果對(duì)比表
為了進(jìn)一步說(shuō)明本文方法的優(yōu)勢(shì),圖4提供了部分?jǐn)?shù)據(jù)增擴(kuò)前后部分葉片圖像分割對(duì)比效果圖。其中圖4(a)列表示測(cè)試集圖像;圖4(b)列表示手工標(biāo)準(zhǔn)分割結(jié)果;圖4(c)列表示原模型使用LeafSetI訓(xùn)練的分割結(jié)果;圖4(d)列表示本文模型使用LeafSetI訓(xùn)練的分割結(jié)果;圖4(e)列表示原模型使用LeafSetII訓(xùn)練的分割結(jié)果;圖4(f)列表示本文模型使用LeafSetII訓(xùn)練的分割結(jié)果。從分割效果圖中可以看出,使用數(shù)據(jù)增強(qiáng)后模型分割效果在復(fù)雜的自然環(huán)境下仍具有較好的效果。
針對(duì)少樣本條件下的葉片圖像分割,本文使用了一種基于數(shù)據(jù)增強(qiáng)的葉片圖像語(yǔ)義分割算法。該算法首先標(biāo)記出所有圖像的背景和葉片區(qū)域,然后利用數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練集樣本擴(kuò)充,最后使用SegNet深度學(xué)習(xí)框架結(jié)合VGG19主干網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練分割。實(shí)驗(yàn)結(jié)果表明,本文的算法提高了復(fù)雜場(chǎng)景中葉片圖像分割的精確度,將評(píng)價(jià)指標(biāo)MPA和MIOU分別提高了9.96%和15.27%,表明了該算法在小型數(shù)據(jù)集上的有效性。
圖4 不同方法葉片圖像分割效果對(duì)比
[1] 李凱,張建華,韓書(shū)慶,等. 基于改進(jìn)C-V模型的棉花葉片目標(biāo)提取方法[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2019, 24(02): 132-144.
[2] 陳浩,裴瑞杰,汪鑫. 基于ACO和K-means算法相結(jié)合的生菜葉片圖像分割方法[J]. 現(xiàn)代計(jì)算機(jī),2019(21): 45-49.
[3] 袁芊芊,鄧洪敏,王曉航. 基于超像素快速模糊C均值聚類與支持向量機(jī)的柑橘病蟲(chóng)害區(qū)域分割[J]. 計(jì)算機(jī)應(yīng)用,2021, 41(02): 563-570.
[4] 胡靜,陳志泊,楊猛,等. 基于全卷積神經(jīng)網(wǎng)絡(luò)的植物葉片分割算法[J]. 北京林業(yè)大學(xué)學(xué)報(bào),2018, 40(11): 131-136.
[5] 熊俊濤,劉柏林,鐘灼,等. 基于深度語(yǔ)義分割網(wǎng)絡(luò)的荔枝花葉分割與識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021, 52(6): 252-258.
[6] YANG K, ZHONG W, LI F. Leaf segmentation and classification with a complicated background using deep learning[J]. Agronomy, 2020, 10(11): 1721.
[7] ZOU K, CHEN X, WANG Y, et al. A modified U-Net with a specific data argumentation method for semantic segmentation of weed images in the field[J]. Computers and Electronics in Agriculture, 2021, 187(3): 106242.
[8] KAN J, GU Z, MA C, et al. Leaf segmentation algorithm based on improved u-shaped network under complex background[C]//2021IEEE 4th Advanced Information Management, Communicates, Electronic and Automation Control Conference(IMCEC), 2021: 87-92.
[9] KOLHAR S, JAGTAP J. Convolutional neural network based encoder-decoder architectures for semantic segmentation of plants[J]. Ecological Informatics, 2021, 64: 101373.
[10] AGARWAL M, GUPTA S K, BISWAS K K. A compressed and accelerated SegNet for plant leaf disease segmentation: a differential evolution based approach[C]//The Pacific-Asia Conference on Knowledge Discovery and Data Mining(PAKDD), 2021: 272-284.
[11] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[12] ImageCLEF: Plant Identification 2012.[EB/OL]. (2012-03-01)[2021-11-10]. https://www.imageclef.org/2012/plant.
Complex leaf image semantic segmentation under condition of few samples
WANG Qing,DU Wei,MA Chun,GU Zong-yun*
(College of Medicine Information Engineering, Anhui University of Chinese Medicine, Hefei 230012, China)
To solve the problem that the segmentation accuracy of complex leaves is not high under the condition of few samples, a method of image semantic segmentation based on data enhancement is proposed. Use flip and translation methods to enhance and expand the images in the training set, and use VGG19 to replace the VGG16 backbone network of the original SegNet semantic segmentation model for model training. The experimental results show that using this method on the image data set containing 180 leaves with complex background, the evaluation indexes MPA and MIOU reach 98.02% and 95.79%, which are 9.96% and 15.27% higher than the original model without data enhancement.
semantic segmentation;SegNet model;VGG19;few samples;complex leaves;data enhancement
2021-10-29
安徽省高校自然科學(xué)重點(diǎn)研究項(xiàng)目(KJ2020A0392);安徽中醫(yī)藥大學(xué)校級(jí)自然重點(diǎn)項(xiàng)目(2020zrzd16);安徽中醫(yī)藥大學(xué)校級(jí)自然一般項(xiàng)目(2020zryb09)
汪慶(1983-),男,安徽壽縣人,實(shí)驗(yàn)師,碩士,主要從事人工智能應(yīng)用研究,wangqing@ahtcm.edu.cn。
TP391
A
1007-984X(2022)03-0021-05