朱蕾蕾
(河南省科學(xué)技術(shù)交流中心,河南 鄭州 450002)
圖像分割是圖像理解的基石,也是計(jì)算機(jī)視覺研究的關(guān)鍵。傳統(tǒng)圖像分割方法大多是基于手工特征提取和概率圖模型,如隨機(jī)森林(Random For?est)、條件隨機(jī)場(CRF)、馬爾科夫隨機(jī)場(MRF)等,這些方法很難產(chǎn)生準(zhǔn)確的分割結(jié)果。
圖像語義分割是通過像素水平理解來識別圖片內(nèi)容,通過對圖像中的每個像素點(diǎn)進(jìn)行分類標(biāo)注,并分割出語義相同的像素區(qū)域。2014年,Hari?haran等[1]提出SDS語義分割方法,該模型對目標(biāo)監(jiān)測和語義分割進(jìn)行協(xié)同,導(dǎo)致訓(xùn)練時間長、內(nèi)存消耗大。為進(jìn)一步降低內(nèi)存開銷,提升語義分割的精度,2015年,Long等[2]提出全卷積網(wǎng)絡(luò)FCN,該模型采用卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)圖像像素到像素類別的變換,開啟圖像語義分割算法的新時代。之后國內(nèi)外學(xué)者又相繼提出了Deeplab[3]、GroupViT[4]等基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割算法。
上述圖像語義分割方法大多是基于卷積神經(jīng)網(wǎng)絡(luò)建構(gòu)的,這類模型僅能學(xué)習(xí)到圖像的局部特征信息,很難對全局上下文的依賴關(guān)系進(jìn)行建模,導(dǎo)致分割結(jié)果不理想。此外,現(xiàn)有的圖像語義分割研究大多是基于大樣本數(shù)據(jù),有關(guān)小樣本數(shù)據(jù)的研究較少?;诖?,本研究提出基于深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)和雙向門限遞歸 單 元(Bi?directionalGated Recurrent Unit,Bi?GRU)的圖像語義分割模型ResNet?BiGRU。該模型利用深度卷積網(wǎng)絡(luò)來獲取局部特征信息,利用雙向GRU網(wǎng)絡(luò)對全局上下文特征信息進(jìn)行建模,利用改進(jìn)的空間金字塔池化方法(ASPP)來解決物體的多尺度問題。試驗(yàn)結(jié)果表明,本研究提出的語義分割模型能產(chǎn)生分辨率高、邊界清晰的語義分割結(jié)果。
本研究在Deeplabv2圖像語義分割模型的基礎(chǔ)上進(jìn)行改進(jìn),提出適用于對全局上下文特征信息進(jìn)行建模的圖像語義分割模型ResNet?BiGRU模型。ResNet?BiGRU語義分割模型由級聯(lián)的深度殘差網(wǎng)絡(luò)、基于雙向GRU的循環(huán)網(wǎng)絡(luò)、改進(jìn)的ASPP模塊組成(見圖1)。
深度卷積網(wǎng)絡(luò)的層數(shù)越深,可抽取到的特征信息也就越豐富,但在實(shí)際應(yīng)用中可能會出現(xiàn)網(wǎng)絡(luò)退化、梯度消失的現(xiàn)象。因此,本研究選取ResNet101為基準(zhǔn)網(wǎng)絡(luò)來構(gòu)建級聯(lián)深度殘差網(wǎng)絡(luò)。其中,Dee?plabv2模型中的ResNet101網(wǎng)絡(luò)由5個卷積組構(gòu)成,第一卷積組Conv1在完成卷積操作和第一次池化Pool1操作后,輸出步長為4的特征圖,空間分辨率降低1/4;第三卷積組Conv3在進(jìn)行特征提取后,特征圖的空間分辨率降低1/2,輸出步長為8;其他卷積組沒有降采樣操作,最終得到降采樣8倍的特征圖。在ResNet101第五卷積組Conv5后增加第六卷積組Conv6,從而構(gòu)成級聯(lián)的深度殘差網(wǎng)絡(luò),Conv6和Conv5具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。以此類推,在ResNet101網(wǎng)絡(luò)后可增加多個卷積組,試驗(yàn)發(fā)現(xiàn),在增加第七卷積組后,模型的語義分割精度不再繼續(xù)提高。6個卷積組構(gòu)成級聯(lián)的深度殘差網(wǎng)絡(luò)如圖2所示。其中,第四卷積組Conv4、第五卷積組Conv5、第六卷積組Conv6使用空洞卷積,空洞率分別為2、4、4。
CNN網(wǎng)絡(luò)受限于自身拓?fù)浣Y(jié)構(gòu),導(dǎo)致層與層之間在面對建模序列問題時只能利用當(dāng)前局部特征信息,很難獲取圖像的全局特征信息。而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能很好地處理特征信息的長依賴關(guān)系,還能有效捕捉長時記憶特征。因此,考慮將RNN網(wǎng)絡(luò)堆疊在CNN網(wǎng)絡(luò)上進(jìn)行建模學(xué)習(xí),獲取全局上下文特征信息。
常見的循環(huán)神經(jīng)網(wǎng)絡(luò)有長短時記憶網(wǎng)絡(luò)LSTM、門限遞歸單元GRU。GRU是LSTM的一種變體,其比LSTM網(wǎng)絡(luò)參數(shù)更少、網(wǎng)絡(luò)結(jié)構(gòu)更簡單,且更易收斂。而雙向RNN網(wǎng)絡(luò)比單向RNN網(wǎng)絡(luò)多一組反向傳播的循環(huán)神經(jīng)網(wǎng)絡(luò),這使得雙向RNN網(wǎng)絡(luò)比單向RNN網(wǎng)絡(luò)能獲取更多的特征信息。因此,本研究選取雙向GRU來構(gòu)建循環(huán)網(wǎng)絡(luò)來對全局上下文信息的長依賴關(guān)系進(jìn)行建模。
借鑒Visin等[5]提出的ReNet網(wǎng)絡(luò)建模思想,構(gòu)建由2個雙向GRU組成的循環(huán)網(wǎng)絡(luò),該循環(huán)網(wǎng)絡(luò)包含4個獨(dú)立的GRU,能從4個方向進(jìn)行水平、垂直掃描特征圖,建模學(xué)習(xí)像素的依賴關(guān)系,獲取全局特征信息。首先,將輸入圖像或前一層的特征圖X劃分成M×N個不重疊的像素區(qū)域塊;然后,對劃分的像素區(qū)域塊按列進(jìn)行垂直掃描,得到2個序列(一個自上向下掃描,一個自下向上掃描),并將2個序列輸入到2個門限遞歸單元中;每個GRU通過建模來獲取非重疊像素區(qū)域塊的特征信息,并將2個GRU輸出的隱層狀態(tài)值按坐標(biāo)索引進(jìn)行連接,得到新的特征圖。同樣對新特征圖進(jìn)行自左向右、自右向左的水平掃描計(jì)算,并得到新的特征圖,其具有來自整個圖像的全局上下文信息。為保證循環(huán)網(wǎng)絡(luò)輸出特征圖的空間分辨率與輸入保持一致,將循環(huán)網(wǎng)絡(luò)劃分的像素區(qū)域塊的大小設(shè)置為1×1。為平衡計(jì)算能力和內(nèi)存使用,循環(huán)網(wǎng)絡(luò)中每個GRU的隱層記憶單元個數(shù)設(shè)置為130。
Deeplabv2模型中改進(jìn)的空間金字塔池化(ASPP)模塊通過不同空洞率的4個并行空洞卷積來獲取圖像的多尺度特征,空洞率設(shè)置的越大,相應(yīng)卷積操作的卷積核就越小,導(dǎo)致邊緣像素分割的效果很差。為整合更多的特征信息,提升像素邊緣分割精度,本研究對Deeplabv2模型中的原始ASPP方法進(jìn)行改進(jìn)。
改進(jìn)的ASPP模塊借鑒“Network in Network”方法中的1×1卷積降維思想,設(shè)置一個1×1標(biāo)準(zhǔn)卷積分支來保留前一層的原始特征信息,并去掉原始ASPP方法中空洞率為24的卷積分支。
為了驗(yàn)證ResNet?BiGRU語義分割算法的性能,選取Weizmann Horse數(shù)據(jù)集進(jìn)行試驗(yàn)。該數(shù)據(jù)集由尺寸不同的328幅圖像組成,包含馬和背景2個類別,且分割目標(biāo)受色彩、背景、光照等信息的干擾,使語義分割任務(wù)更具挑戰(zhàn)性。從中隨機(jī)選取200張作為訓(xùn)練圖像,并通過數(shù)據(jù)增強(qiáng)操作將訓(xùn)練圖像增加至12 000張,其余128張作測試圖像。
圖像語義分割算法性能的評價標(biāo)準(zhǔn)一般為平均交并比(Miou),見式(1)。
式中:Miou為計(jì)算真實(shí)值與預(yù)測結(jié)果的交集和并集之比;k為標(biāo)記類別;k+1為包含背景的總標(biāo)記類別;pij為屬于i類但被識別為j類的像素點(diǎn)的個數(shù);pii為被正確預(yù)測為i類的像素?cái)?shù)量;pji為屬于j類但被識別為i類的像素?cái)?shù)量。
ResNet?BiGRU網(wǎng)絡(luò)模型是基于深度學(xué)習(xí)框架Pytorch編寫的。級聯(lián)的深度殘差網(wǎng)絡(luò)初始化參數(shù)與Deeplabv2模型中ResNet101網(wǎng)絡(luò)預(yù)訓(xùn)練模型參數(shù)相同。在進(jìn)行模型訓(xùn)練時,將輸入的圖片統(tǒng)一裁剪為(320,320)固定尺寸,模型訓(xùn)練仍采用ploy學(xué)習(xí)策略,初始學(xué)習(xí)率設(shè)為0.003,批大小設(shè)為10,動量項(xiàng)系數(shù)設(shè)為0.9,總迭代次數(shù)為13 000次,power設(shè)為0.9,權(quán)重衰減系數(shù)設(shè)為0.000 1。
為了驗(yàn)證ResNet?BiGRU算法的性能,在Weiz?mann Horse數(shù)據(jù)集中進(jìn)行試驗(yàn)分析,一是對ResNet?BiGRU模型和ResNet?BiLSTM模型語義分割結(jié)果進(jìn)行對比,二是對ResNet?BiGRU模型與其他語義分割模型的算法性能進(jìn)行對比。
將Weizmann Horse數(shù)據(jù)集分別在ResNet?BiGRU模型和ResNet?BiLSTM模型中進(jìn)行試驗(yàn),二者的初始參數(shù)設(shè)置相同。2個網(wǎng)絡(luò)模型在測試圖像上的語義分割結(jié)果如圖3所示,分別為RGB原圖像、Groundtruth標(biāo)簽圖像、ResNet?BiGRU模型的語義分割圖、ResNet?BiLSTM模型的語義分割圖。對試驗(yàn)結(jié)果分析發(fā)現(xiàn),在ResNet?BiGRU語義分割結(jié)果中,馬的姿態(tài)分割的清晰完整,且錯分情況較少,可知ResNet?BiGRU模型的分割性能優(yōu)于ResNet?BiLSTM模型。
為進(jìn)一步驗(yàn)證ResNet?BiGRU模型算法的性能,以Miou為評價標(biāo)準(zhǔn),對PatchCut、CRF learning、CD?FFD+CRF等方法在Weizmann Horse數(shù)據(jù)集上的語義分割準(zhǔn)確率進(jìn)行對比(見表1)。
表1 不同方法在Weizmann Horse數(shù)據(jù)集上的語義分割準(zhǔn)確率
由表1可知,本研究提出的ResNet?BiGRU方法與基于深度學(xué)習(xí)的分割方法或傳統(tǒng)分割方法相比,語義分割的準(zhǔn)確率有所提升。與PatchCut、CRF learning相 比,ResNet?BiGRU的Miou提高 了8.8%;與CD?FFD+CRF相比,ResNet?BiGRU的Miou提高了2.7%;與ResNet?BiLSTM相比,ResNet?BiGRU的Miou提高了1.5%。
CNN網(wǎng)絡(luò)受自身拓?fù)浣Y(jié)構(gòu)的限制,很難建模學(xué)習(xí)全局上下文特征信息。針對該問題,本研究提出基于深度殘差網(wǎng)絡(luò)和雙向GRU的語義分割方法ResNet?BiGRU,該方法充分利用CNN和雙向GRU的特征學(xué)習(xí)優(yōu)勢,通過算法建模來獲取更多的局部和全局特征信息,產(chǎn)生邊界清晰、分辨率高的語義分割結(jié)果。然而,本研究構(gòu)建的網(wǎng)絡(luò)模型存在時間復(fù)雜度較高的問題,如何進(jìn)一步優(yōu)化算法性能、提升模型的泛化能力和對小目標(biāo)物體的分割能力是下一步要進(jìn)行探索的方向。