官申珂,林 曉,鄭曉妹,朱媛媛,馬利莊
結(jié)合超像素分割的多尺度特征融合圖像語義分割算法
官申珂1,林 曉1,鄭曉妹1,朱媛媛1,馬利莊2
(1. 上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海 200234;2.上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)
深度學(xué)習(xí)的發(fā)展加快了圖像語義分割的研究。目前,最有效的圖像語義分割研究方法大部分都是基于全卷積神經(jīng)網(wǎng)絡(luò)(FCNN),盡管現(xiàn)有的語義分割方法能有效地對(duì)圖像進(jìn)行整體分割,但對(duì)于圖像中的重疊遮擋物體不能清晰地識(shí)別出邊緣信息,也不能有效地融合圖像高低層的特征信息。針對(duì)以上問題,在采用FCNN來解決圖像語義分割問題的基礎(chǔ)上,利用超像素分割對(duì)物體邊緣的特殊優(yōu)勢(shì)作為輔助優(yōu)化,對(duì)粗糙分割結(jié)果進(jìn)行優(yōu)化。同時(shí)在FCNN中利用空洞卷積設(shè)計(jì)了一個(gè)聯(lián)合局部跨階段的多尺度特征融合模塊,其能有效地利用圖像的空間信息。此外還在網(wǎng)絡(luò)的上采樣模塊中加入跳躍連接結(jié)構(gòu),用來增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,在訓(xùn)練過程中采用2個(gè)損失函數(shù)來保證網(wǎng)絡(luò)穩(wěn)定收斂和提升網(wǎng)絡(luò)的性能,圖像語義分割網(wǎng)絡(luò)在公開的數(shù)據(jù)集PASCAL VOC 2012上進(jìn)行訓(xùn)練測(cè)試。實(shí)驗(yàn)結(jié)果表明,該改進(jìn)算法在像素精度和分割準(zhǔn)確率方面均有提升,且具有較強(qiáng)的魯棒性。
全卷積神經(jīng)網(wǎng)絡(luò);多尺度特征融合;超像素分割
近年來,圖像語義分割已成為計(jì)算機(jī)視覺領(lǐng)域中研究最為廣泛的問題之一。隨著場(chǎng)景理解[1-2]、自動(dòng)駕駛[3]、醫(yī)學(xué)圖像處理[4-5]、圖像分割[6]等計(jì)算機(jī)視覺問題研究的深入,圖像語義分割作為上述研究的基礎(chǔ),也變得越來越重要。隨著圖像數(shù)據(jù)的增長(zhǎng)和人工智能的普及,本文提出一種準(zhǔn)確且高效的圖像語義分割算法,不僅能幫助計(jì)算機(jī)更好地理解圖像信息,還能更加方便人們的生活[7]。
圖像語義分割的研究發(fā)展大致可以分為2個(gè)階段。第一個(gè)階段是傳統(tǒng)圖像語義分割方法,其方法多種多樣,其中基于圖劃分的Normalized Cut[8]和Grab Cut[9]算法最為常用。隨著深度學(xué)習(xí)的發(fā)展和圖像數(shù)據(jù)的增長(zhǎng),傳統(tǒng)的圖像語義分割方法已經(jīng)不能滿足實(shí)際需求,研究者們?cè)谏疃葘W(xué)習(xí)中找到了新的研究方向。圖像語義分割研究進(jìn)入了第二階段,文獻(xiàn)[10]提出的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,F(xiàn)CNN)開辟了深度學(xué)習(xí)在圖像語義分割中的應(yīng)用,其利用卷積層替換了卷積神經(jīng)網(wǎng)絡(luò)VGG[11]中傳統(tǒng)的全連接層,并提出一種跳躍結(jié)構(gòu)(skip)用來結(jié)合高層和低層信息,讓預(yù)測(cè)結(jié)果圖有更好的細(xì)節(jié)表現(xiàn)。文獻(xiàn)[12]在FCNN的基礎(chǔ)上提出了一種具有對(duì)稱結(jié)構(gòu)的編碼器-解碼器網(wǎng)絡(luò)Segnet,其利用編碼器去提取圖像特征,通過記住池化操作中的位置信息利用解碼器通過上采樣操作將特征圖還原為輸入圖像大小。文獻(xiàn)[13-16]在FCNN和編碼器-解碼器結(jié)構(gòu)的基礎(chǔ)上提出了DeepLab系列網(wǎng)絡(luò),其通過空洞卷積(atrous convolution)[17]操作擴(kuò)大感受野,再結(jié)合空洞卷積和空間金字塔池化[18]提出空洞空間金字塔池化方法(atous spatial pyramid pooling,ASPP),利用ASPP融合多尺度特征信息,設(shè)計(jì)了一個(gè)解碼器結(jié)構(gòu)去恢復(fù)空間信息得到一個(gè)清晰的邊界信息。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的圖像語義分割方法在準(zhǔn)確性和速度性能上有了很大地提高。
盡管現(xiàn)有的語義分割方法在圖像整體分割準(zhǔn)確率上已經(jīng)達(dá)到相當(dāng)?shù)乃剑侨悦媾R著許多挑戰(zhàn),如物體之間的重疊和遮擋使得物體的邊緣不能清晰辨認(rèn)、低層特征包含豐富的空間信息,高層的圖像特征包含豐富的語義信息,兩者應(yīng)該如何融合等。
為了解決物體邊緣分割不清晰的問題,本文采用結(jié)合超像素分割的輔助方法。超像素分割[19]能將圖像中顏色、紋理等屬性相似的像素集合成一個(gè)超像素,不僅能提供豐富準(zhǔn)確的圖像邊緣信息,還能大大提高分割算法的運(yùn)行效率。目前常用的超像素分割算法有SLIC[20],SEEDS[21]和GMMSP[22]等。
為了能有效地融合低層和高層的圖像特征,本文在研究現(xiàn)有深度學(xué)習(xí)模型的基礎(chǔ)上,提出了一種結(jié)合超像素分割和多尺度特征融合方法的改進(jìn)圖像語義分割算法。聯(lián)合多層特征圖利用不同空洞率的空洞卷積對(duì)圖像進(jìn)行局部跨階段特征提取,并融合多尺度特征,可得到包含豐富語義信息的特征圖。首先通過解碼器結(jié)構(gòu)對(duì)特征進(jìn)行上采樣操作,得到粗糙的分割結(jié)果圖,然后利用超像素分割圖對(duì)粗糙結(jié)果圖進(jìn)行邊緣優(yōu)化,最終得到完整的分割結(jié)果圖。在訓(xùn)練時(shí),本文在解碼器結(jié)構(gòu)中采用DiceLoss和交叉熵相結(jié)合的損失函數(shù),DiceLoss用來計(jì)算2個(gè)樣本間的像素相似度,交叉熵?fù)p失用來計(jì)算真實(shí)概率分布與預(yù)測(cè)概率分布間的差異,每一個(gè)損失函數(shù)對(duì)應(yīng)一個(gè)尺度的真值圖,使網(wǎng)絡(luò)充分地學(xué)習(xí)全局信息,增強(qiáng)算法的魯棒性。
本文提出用一個(gè)端到端的結(jié)合超像素分割的多尺度FCNN來訓(xùn)練圖像語義分割圖。本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。處理過程大致可以分為2個(gè)階段,第一階段首先將原始圖像送入一個(gè)有監(jiān)督訓(xùn)練的FCNN,該網(wǎng)絡(luò)包含有10個(gè)模塊,包括5個(gè)下采樣模塊、1個(gè)多尺度特征融合模塊和4個(gè)上采樣模塊。通過對(duì)原始圖像進(jìn)行5次下采樣操作得到語義信息豐富的特征圖,但是過度的下采樣操作會(huì)嚴(yán)重?fù)p失圖像的空間信息,本文設(shè)計(jì)了一個(gè)聯(lián)合多層特征圖的局部跨階段多尺度特征融合模塊,在模塊中具有多個(gè)不同空洞因子的3×3并行空洞卷積模塊,對(duì)圖像特征進(jìn)行多尺度提取并進(jìn)行融合,空洞卷積能增大感受野并降低空間特征的損失。然后將得到的圖像特征送入上采樣模塊逐漸將特征還原到原始圖像大小。本文還分別在2個(gè)上采樣模塊中設(shè)有損失函數(shù),目的是讓網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠更好地收斂。在第二階段通過對(duì)原始圖像進(jìn)行超像素分割,利用分割圖對(duì)網(wǎng)絡(luò)預(yù)測(cè)圖進(jìn)行邊緣優(yōu)化,得到最終的結(jié)果圖。
圖1 本文算法流程圖
2.1.1 全卷積網(wǎng)絡(luò)結(jié)構(gòu)
本文的第一階段是有監(jiān)督訓(xùn)練的FCNN,其任務(wù)是對(duì)原始圖像進(jìn)行特征提取后最終得到一個(gè)粗糙的語義分割結(jié)果圖。如圖1所示,該網(wǎng)絡(luò)共有10個(gè)卷積子模塊,每個(gè)模塊都包含卷積層、BN層和激活層,激活函數(shù)采用ReLU。其中前5個(gè)卷積模塊為下采樣模塊,利用卷積操作對(duì)圖像進(jìn)行特征提取,每經(jīng)過一個(gè)下采樣操作后圖像尺寸會(huì)減小,這樣能讓網(wǎng)絡(luò)提取出更高維的語義信息。下采樣操作雖然能提取出高維的語義信息,但是過度下采樣操作會(huì)嚴(yán)重?fù)p失圖像的空間信息,因此本文在下采樣模塊之后設(shè)計(jì)了一個(gè)多尺度特征融合模塊,受文獻(xiàn)[23]的啟發(fā),在此模塊中,首先聯(lián)合3層特征圖進(jìn)行卷積操作降低維度,然后將特征圖進(jìn)行分塊分階段進(jìn)行處理,并利用空洞因子為2,4,8的空洞卷積對(duì)圖像特征進(jìn)行多尺度提取并融合,可以有效提取出圖像的空間信息,并擴(kuò)大了感受野,降低了計(jì)算復(fù)雜度。在特征融合過程中采用Concat操作將不同空洞率卷積產(chǎn)生的特征圖進(jìn)行融合。然后是上采樣操作模塊,通過上采樣操作逐漸增大特征圖尺寸,將特征圖還原到原始圖像大小,通過類別顏色對(duì)應(yīng)就能得到一個(gè)粗糙的語義分割結(jié)果。為了防止在上采樣過程中損失高維特征,本文加入了類似殘差網(wǎng)絡(luò)[24]的跳躍連接結(jié)構(gòu),在上采樣操作中除了接收上一個(gè)模塊的輸出以外,還接收下采樣模塊中與其大小對(duì)應(yīng)的輸出特征,利用Concat操作將特征進(jìn)行融合,既可以保證網(wǎng)絡(luò)學(xué)習(xí)到充分的特征,又能逐漸將特征還原到原始圖像大小。
如圖1所示,其中每層網(wǎng)絡(luò)所接收的特征圖輸入為上一層網(wǎng)絡(luò)的輸出特征圖,激活函數(shù)ReLU為
其中,為輸入特征圖的大?。?i>為輸入特征圖的第個(gè)值;為對(duì)應(yīng)的輸出。另外,激活函數(shù)Softmax為
其中變量符號(hào)與式(1)類似。
圖2在下采樣模塊之后設(shè)計(jì)了一個(gè)多尺度特征融合模塊。首先對(duì)前3層特征圖進(jìn)行卷積降維處理并進(jìn)行結(jié)合,然后對(duì)得到的特征圖利用CSPNet[25]方法進(jìn)行分塊分階段處理,將特征圖分為2塊,第一階段利用空洞率為2,4,8的3個(gè)3×3空洞卷積對(duì)第1塊特征圖進(jìn)行處理,擴(kuò)大感受野,有效提取圖像空間信息;第二階段將第2塊特征圖與第一階段得到的結(jié)果進(jìn)行結(jié)合再進(jìn)行卷積計(jì)算。在多尺度特征融合模塊中,聯(lián)合部分計(jì)算式為
其中,x為輸入第層特征圖;( )為卷積操作;[ ]為Concat操作;為輸出結(jié)果。
局部跨階段部分計(jì)算式為
其中,d為空洞率為的空洞卷積操作;1為聯(lián)合部分結(jié)果的第1分塊;2為第2分塊;為結(jié)果輸出,其余與式(3)類似。
由于本文在空洞卷積模塊中采用了分塊分階段的處理方式,則可知該模塊的計(jì)算復(fù)雜度由原來的3×3×in×out×變?yōu)楝F(xiàn)在的3×3×(in/2)×out×。其中in,out和分別代表輸入維度、輸出維度和空洞卷積數(shù)量。
最后,本文在上采樣模塊中加入了跳躍連接結(jié)構(gòu)用來結(jié)合上層卷積的結(jié)果,修復(fù)還原的圖像,增強(qiáng)網(wǎng)絡(luò)的精確度和魯棒性。
圖2 聯(lián)合局部跨階段多尺度特征融合
2.1.2 多級(jí)損失函數(shù)
本文采用多級(jí)損失函數(shù)的方式來進(jìn)行訓(xùn)練,如圖1所示,在上采樣模塊中設(shè)有2個(gè)損失函數(shù),并期望在第2和第4上采樣模塊的輸出可以還原與真值圖接近的語義分割圖,所以對(duì)第2上采樣模塊的輸出特征圖進(jìn)行4倍卷積上采樣操作得到預(yù)測(cè)結(jié)果圖,因此第一個(gè)損失函數(shù)采用DiceLoss可表達(dá)為
由于第4上采樣模塊最后采用的激活函數(shù)是Softmax函數(shù),輸出的結(jié)果為一個(gè)概率圖,因此第二個(gè)損失函數(shù)可以利用交叉熵作為度量,即
最后將2個(gè)損失函數(shù)進(jìn)行融合訓(xùn)練,最終損失函數(shù)為
本文卷積神經(jīng)網(wǎng)絡(luò)采用多級(jí)損失函數(shù)進(jìn)行優(yōu)化,不僅增加了網(wǎng)絡(luò)的精確度,而且還提高了網(wǎng)絡(luò)的泛化能力。
本文在第二階段利用超像素分割圖對(duì)粗糙語義預(yù)測(cè)結(jié)果圖進(jìn)行邊緣優(yōu)化。超像素分割能有效地提取出物體的邊緣信息,對(duì)預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化,如圖3所示,由于SLIC算法運(yùn)行速度快所以本文采用其對(duì)圖像進(jìn)行超像素分割,選擇合適的參數(shù)(為預(yù)生成超像素塊數(shù)量,為圖像每個(gè)維度的預(yù)處理的高斯平滑核的寬度)可以利用超像素分割提取出豐富準(zhǔn)確的邊緣信息。本文利用超像素分割圖對(duì)粗糙語義分割圖進(jìn)行邊緣優(yōu)化,首先對(duì)原始圖像進(jìn)行超像素分割,然后利用超像素分割圖中的每塊超像素做掩膜(mask),最后通過每塊掩膜對(duì)粗糙語義分割圖進(jìn)行邊緣優(yōu)化。優(yōu)化效果如圖4所示。利用掩膜進(jìn)行優(yōu)化時(shí)總體可以分為2種情況,即標(biāo)簽像素在掩膜內(nèi)和不在掩膜內(nèi)。當(dāng)標(biāo)簽像素不在掩膜內(nèi)可以直接忽略,當(dāng)標(biāo)簽像素在掩膜內(nèi)則可以分為2種情況,即包含單標(biāo)簽像素和包含多標(biāo)簽像素。只包含單標(biāo)簽像素時(shí),可以計(jì)算標(biāo)簽像素的覆蓋率若標(biāo)簽像素覆蓋率大于設(shè)置參數(shù)(超像素塊中的類別標(biāo)簽像素所占比例),則將掩膜內(nèi)所有像素設(shè)置為標(biāo)簽像素;若小于設(shè)置參數(shù),則直接忽略。包含多標(biāo)簽像素時(shí),首先計(jì)算每種標(biāo)簽像素的覆蓋率,若總覆蓋率小于設(shè)置參數(shù),則直接忽略;若總覆蓋率大于設(shè)置參數(shù),則利用覆蓋率最大的標(biāo)簽像素填充掩膜內(nèi)像素。具體實(shí)現(xiàn)的算法如下:
圖3 M=40時(shí)SLIC超像素分割結(jié)果
圖4 超像素塊掩膜
算法1.超像素掩膜優(yōu)化算法
1. 輸入圖像為I,粗糙語義分割圖為L(zhǎng)。 2. 對(duì)圖像I進(jìn)行SLIC超像素分割,得到K個(gè)超像素塊,S(S1,S2,S3,···,SK),其中Si為第i個(gè)超像素塊。 3. 外循環(huán)for i=1:K(1) 利用每個(gè)超像素塊掩膜對(duì)L進(jìn)行優(yōu)化,使用P=(p1,p2,p3, ···,pl)表示Si中的每個(gè)像素,統(tǒng)計(jì)每個(gè)像素的所屬類別,并統(tǒng)計(jì)每種類別的像素總數(shù)C=(c1,c2,c3, ···,cn)。(2) if C==0:continue下一超像素塊。(3) if C==1:計(jì)算類別像素所占比例。if: 用類別像素填充該超像素塊。else:continue下一超像素塊。(4) else:內(nèi)循環(huán)for j=1:n計(jì)算每種類別像素的所占比例q=(q1,q2,q3, ···,qn)。if qSUM>=80%:用所占比例最大的類別像素填充該像素塊。else:continue下一超像素塊。結(jié)束。 4. 輸出優(yōu)化后的結(jié)果。
本文的網(wǎng)絡(luò)模型是基于Pytorch框架進(jìn)行開發(fā)的,在Intel(R) Core i7 3.4 GHz CPU,16 GB RAM, 12 GB Titan X的設(shè)備上進(jìn)行網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。在訓(xùn)練中,本網(wǎng)絡(luò)以梯度下降法訓(xùn)練300輪,批處理大小設(shè)置為12張圖片。初始學(xué)習(xí)率為1e-4,然后每10輪衰減10%,動(dòng)量設(shè)置為0.9,基礎(chǔ)網(wǎng)絡(luò)為ResNet101。本文提出的算法在公開數(shù)據(jù)集PASCAL VOC 2012[26]上進(jìn)行訓(xùn)練和測(cè)試。PASCAL VOC是一個(gè)國(guó)際計(jì)算機(jī)視覺挑戰(zhàn)賽,其數(shù)據(jù)集涉及物體共21類,包含人類、動(dòng)物、交通工具、室內(nèi)場(chǎng)景等,其中包含1 416張訓(xùn)練圖片和1 449張驗(yàn)證圖片,且圖片大小不固定。本文從定性和定量2個(gè)方面對(duì)本文提出的算法進(jìn)行分析對(duì)比。
本文采用像素準(zhǔn)確率(pixel accuracy,PA)和平均交并比(mean inetersection over union,mIoU)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行衡量。PA用來計(jì)算正確分割的像素?cái)?shù)量與圖像像素總量的比值,即
其中,為圖像像素的類別數(shù)量;p為預(yù)測(cè)和實(shí)際類型為的像素;T為第類像素總數(shù),一般PA值越大,說明算法準(zhǔn)確率越高。
mIoU是表示分割結(jié)果與原始圖像真值的重合程度,即
其中,為實(shí)際類型為,預(yù)測(cè)類型為的像素總數(shù),其余符號(hào)與式(8)中的類似,一般mIoU值越大,說明算法分割結(jié)果越符合真值圖像。
3.2.1 實(shí)驗(yàn)結(jié)果定性分析
圖5為本文算法在PASCAL VOC 2012數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,圖5(a)~(f)分別代表輸入圖像、SLIC超像素分割圖、真實(shí)(ground truth)語義標(biāo)簽、FCN-8s分割結(jié)果、添加多尺度特征融合模塊后的分割結(jié)果、結(jié)合超像素分割后的結(jié)果即本文算法分割結(jié)果。由圖5可知,本文算法實(shí)現(xiàn)的分割效果更好,分割結(jié)果最接近真實(shí)語義標(biāo)簽。
圖5 分割效果對(duì)比((a)原始圖像;(b)超像素分割圖;(c)真值圖;(d)FCN-8s;(e)多尺度特征融合;(f)本文算法)
逐行對(duì)比圖5中的結(jié)果可知,F(xiàn)CNN中FCN-8s對(duì)于單一大目標(biāo)的類別均能準(zhǔn)確地識(shí)別并且分割效果良好,但對(duì)于有遮擋的復(fù)雜場(chǎng)景,就不能有效地進(jìn)行分割,通過添加多尺度特征融合模塊后分割效果得到提升,之后再利用超像素分割對(duì)分割結(jié)果邊緣進(jìn)行優(yōu)化,所以本文算法在邊緣處理上有更好的效果。
3.2.2 實(shí)驗(yàn)結(jié)果定量分析
為了確定超像素分割的參數(shù)和驗(yàn)證超像素優(yōu)化模塊的有效性,本文選取了不同的超像素分割數(shù)量進(jìn)行驗(yàn)證,如圖6所示。
為了進(jìn)一步驗(yàn)證超像素優(yōu)化模塊對(duì)算法性能的提升,本文對(duì)比了不同取值的參數(shù)(超像素塊中的類別標(biāo)簽像素所占比例)對(duì)算法性能的影響,見表1。
圖6 超像素?cái)?shù)量對(duì)分割效果的影響
表1 不同參數(shù)取值對(duì)比
本文使用公認(rèn)的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)FCN-8s、添加超像素優(yōu)化模塊后的算法和本文算法進(jìn)行定量對(duì)比分析。圖7為各個(gè)算法在PASCAL VOC 2012數(shù)據(jù)集中的21個(gè)類別的IoU評(píng)分柱狀圖,圖中橫坐標(biāo)表示類別,縱坐標(biāo)表示IoU評(píng)分。
本文還與語義分割的主流算法進(jìn)行對(duì)比,各個(gè)算法在PASCAL VOC 2012數(shù)據(jù)集上的PA評(píng)分、mIoU評(píng)分和網(wǎng)絡(luò)參數(shù)量見表2。從表2可以看出,本文算法的PA評(píng)分和mIoU評(píng)分有一定提升。
圖7 PASCAL VOC 2012各類別評(píng)分
表2 不同算法定量對(duì)比
表2中,雖然本文算法在mIoU評(píng)分上與先進(jìn)算法還有差距,但是在PA評(píng)分上達(dá)到先進(jìn)。由于本文算法的基礎(chǔ)網(wǎng)絡(luò)采用的是ResNet101,與其他先進(jìn)算法最優(yōu)結(jié)果采用的基礎(chǔ)網(wǎng)絡(luò)有所不同,所以在結(jié)果上會(huì)有差距,但是本文算法在網(wǎng)絡(luò)參數(shù)量評(píng)價(jià)上有一定優(yōu)勢(shì)。
圖8顯示了一些失敗樣例,其中本文算法對(duì)于背景復(fù)雜或包含眾多小目標(biāo)的圖片不能有效分割。在圖8(b)中本文算法能識(shí)別出物體類別,但對(duì)于人腿和馬腿這樣細(xì)小的目標(biāo)不能有效地分割。圖8(c)對(duì)于復(fù)雜的背景圖像也不能有效地分割。因此后期需考慮對(duì)細(xì)小物體和復(fù)雜背景進(jìn)行優(yōu)化。
由實(shí)驗(yàn)可知,本文算法在PA和mIoU上均有提升,說明結(jié)合超像素分割圖對(duì)圖像語義分割進(jìn)行邊緣優(yōu)化方法是提高圖像語義分割準(zhǔn)確率的有效方法之一。
圖8 失敗樣例((a)原始圖像;(b)真值圖;(c)分割結(jié)果)
本文提出了一種2階段端到端的結(jié)合超像素分割的多尺度FCCN來解決圖像語義分割問題。相比之前的基于深度學(xué)習(xí)的研究方法,本算法有3點(diǎn)創(chuàng)新。首先是在FCCN中加入聯(lián)合局部跨階段特征融合模塊對(duì)特征圖進(jìn)行多尺度特征融合,有效利用圖像空間信息降低計(jì)算復(fù)雜度,在上采樣模塊中加入對(duì)應(yīng)尺寸的下采樣特征,充分利用特征信息。其次是在上采樣模塊中融合了2個(gè)損失函數(shù)進(jìn)行訓(xùn)練,不僅能保證網(wǎng)絡(luò)穩(wěn)定收斂還能提高網(wǎng)絡(luò)的準(zhǔn)確率。最后利用超像素分割對(duì)物體邊緣敏感的性質(zhì)對(duì)原始圖像進(jìn)行分割,利用超像素分割圖對(duì)網(wǎng)絡(luò)預(yù)測(cè)圖進(jìn)行邊緣優(yōu)化。本文還在公開的數(shù)據(jù)集PASCAL VOC 2012上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果證明本文提出的網(wǎng)絡(luò)算法在像素精度和分割準(zhǔn)確率方面都有提升。
[1] WANG J L, LU Y H, LIU J B, et al. A robust three-stage approach to large-scale urban scene recognition[J]. Science China Information Sciences, 2017, 60(10): 235-247.
[2] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 3213-3223.
[3] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 3354-3361.
[4] MOON N, BULLITT E, VAN LEEMPUT K, et al. Automatic brain and tumor segmentation[M]//Medical Image Computing and Computer-Assisted Intervention — MICCAI 2002. Heidelberg: Springer, 2002: 372-379.
[5] 段杰, 崔志明, 沈藝, 等. 一種改進(jìn)FCN的肝臟腫瘤CT圖像分割方法[J]. 圖學(xué)學(xué)報(bào), 2020, 41(1): 100-107.
DUAN J, CUI Z M, SHEN Y, et al. A CT image segmentation method for liver tumor by an improved FCN[J]. Journal of Graphics, 2020, 41(1): 100-107 (in Chinese).
[6] GARCIA-GARCIA A, ORTS-ESCOLANO S, OPREA S, et al. A survey on deep learning techniques for image and video semantic segmentation[J]. Applied Soft Computing, 2018, 70: 41-65.
[7] 田萱, 王亮, 丁琪. 基于深度學(xué)習(xí)的圖像語義分割方法綜述[J]. 軟件學(xué)報(bào), 2019, 30(2): 440-468.
TIAN X, WANG L, DING Q. Review of image semantic segmentation based on deep learning[J]. Journal of Software, 2019, 30(2): 440-468 (in Chinese).
[8] SHI J B, MALIK J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888-905.
[9] ROTHER C, KOLMOGOROV V, BLAKE A. “GrabCut”: interactive fore-ground extraction using iterated graph cuts[J]. ACM Transactions on Graphics, 2004, 23(3): 309-314.
[10] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2015: 640-651.
[11] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-24]. https://arxiv.org/abs/1409.1556.
[12] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[13] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. [2020-06-12]. http://de.arxiv.org/ pdf/1412.7062.
[14] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[15] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. [2020-06-11]. http://arxiv.org/abs/1706.05587.
[16] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Heidelberg: Springer, 2018: 833-851.
[17] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[EB/OL]. [2020-06-10]. https://arxiv.org/pdf/1511. 07122.
[18] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[19] REN X, MALIK J. Learning a classification model for segmentation[C]//The 9th IEEE International Conference on Computer Vision. New York: IEEE Press, 2003: 10-17.
[20] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282.
[21] VAN DEN BERGH M, BOIX X, ROIG G, et al. SEEDS: superpixels extracted via energy-driven sampling[M]// Computer Vision – ECCV 2012. Heidelberg: Springe, 2012: 13-26.
[22] BAN Z H, LIU J G, CAO L. Superpixel segmentation using Gaussian mixture model[J]. IEEE Transactions on Image Processing, 2018, 27(8): 4105-4117.
[23] WU H K, ZHANG J G, HUANG K Q, et al. FastFCN: rethinking dilated convolution in the backbone for semantic segmentation[EB/OL]. [2021-04-09]. https://www.researchgate. net/publication/332070826_FastFCN_Rethinking_Dilated_Convolution_in_the_Backbone_for_Semantic_Segmentation.
[24] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[25] WANG C Y, LIAO H Y, MARK Y, et al. CSPNet: a new backbone that can enhance learning capability of CNN[EB/OL]. [2021-04-09]. https://www.researchgate.net/ publication/332070826_FastFCN_Rethinking_Dilated_Convolution_in_the_Backbone_for_Semantic_Segmentation.
[26] EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[27] ZHAO H S, SHI J P, QI X J. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and pattern Rewgnition (CVPR). New York: IEEE Press, 2017: 2881-2890.
[28] TIAN Z, HE T, SHEN C, et al. Decoders matter for semantic segmentation: data-dependent decoding enables flexible feature aggregation[EB/OL]. [2021-04-09]. https://www. researchgate.net/publication/331562072_Decoders_Matter_for_Semantic_Segmentation_Data-Dependent_Decoding_Enables_Flexible_Feature_Aggregation.
[29] OLUWASANMI A, AFTAB M U, SHOKANBI A, et al. Attentively conditioned generative adversarial network for semantic segmentation[J]. IEEE Access, 2020(99): 1-1.
[30] KRAPAC J, SEGVIC I. Ladder-style DenseNets for semantic segmentation of large natural images[EB/OL]. [2021-04-09]. https://www.researchgate.net/publication/322646439_Ladder-Style_DenseNets_for_Semantic_Segmentation_of_Large_Natural_Images.
A semantic segmentation algorithm using multi-scale feature fusion with combination of superpixel segmentation
GUAN Shen-ke1, LIN Xiao1, ZHENG Xiao-mei1, ZHU Yuan-yuan1, MA Li-zhuang2
(1. College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 200234, China;2. College of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
The advancement of deep learning has boosted the research on image semantic segmentation. At present, most effective methods for this research are based on the fully convolutional neural networks. Although the existing semantic segmentation methods can effectively segment the image as a whole, they cannot clearly identify the edge information of the overlapped objects in the image, and cannot effectively fuse the high- and low-layer feature information of the image. To address the above problems, superpixel segmentation was employed as an auxiliary optimization to optimize the segmentation results of object edges based on the fully convolutional neural network. At the same time, the design of a joint cross-stage partial multiscale feature fusion module can enable the utilization of image spatial information. In addition, a skip structure was added to the upsampling module to enhance the learning ability of the network, and two loss functions were adopted to ensure network convergence and improve network performance. The network was trained and tested on the public datasets PASCAL VOC 2012. Compared with other image semantic segmentation methods, the proposed network can improve the accuracies in pixel and segmentation, and displays strong robustness.
fully convolutional neural network; multiscale feature fusion; superpixel segmentation
TP 391
10.11996/JG.j.2095-302X.2021030406
A
2095-302X(2021)03-0406-08
2020-09-30;
2020-11-21
30 September,2020;
21 November,2020
國(guó)家自然科學(xué)基金項(xiàng)目(61872242)
National Natural Science Foundation of China (61872242)
官申珂(1994-),男,云南曲靖人,碩士研究生。主要研究方向?yàn)閳D像語義分割。E-mail:guan-shenke@qq.com
GUAN Shen-ke (1994-), male, master student. His main research interest covers image semantic segmentation processing. E-mail:guan-shenke@qq.com
林 曉(1978-),女,河南南陽人,教授,博士。主要研究方向?yàn)橐曨l圖像處理。E-mail:lin6008@shnu.edu.cn
LIN Xiao (1978-), female, professor, Ph.D. Her main research interests cover video and digital image processing. E-mail:lin6008@shnu.edu.cn