摘 要: 為提升水下圖像分割效果,提出一種利用三分支注意力模塊改進(jìn)U-net結(jié)構(gòu)的水下圖像分割方法,即利用注意力機(jī)制來(lái)實(shí)現(xiàn)跨通道交互信息,在實(shí)現(xiàn)多維交互的同時(shí)不降低維度.通過(guò)在VOC2007和SUIM數(shù)據(jù)集上的實(shí)驗(yàn)表明,文中方法在VOC2007數(shù)據(jù)集上mIOU值為72.05,mPA值為81.3,優(yōu)于傳統(tǒng)U-net網(wǎng)絡(luò)mIOU值58.74和mPA值71.13;在SUIM水下數(shù)據(jù)集上mIOU值為70.374,mPA值為82.838,優(yōu)于傳統(tǒng)U-net網(wǎng)絡(luò)mIOU值68.89和mPA值82.51,能夠更好的進(jìn)行水下圖像分割.
關(guān)鍵詞: 注意力機(jī)制;圖像分割;水下圖像;深度學(xué)習(xí)
中圖分類號(hào):TP391.41"" 文獻(xiàn)標(biāo)志碼:A"""" 文章編號(hào):1673-4807(2024)02-053-05
Underwater image segmentation based on attentionmechanism and the U-net model
Abstract:To improve the effect of underwater image segmentation, this paper proposes an underwater image segmentation model that uses a three-branch attention module to enhance the U-net model. Specifically, the attention mechanism achieves cross-channel interactive information, which realized multi-dimensional interaction without reducing the dimensionality. The experiments on the VOC2007 and SUIM datasets show that the mIOU value of the proposed method is 72.05 and the mPA value 81.3 on the VOC2007 dataset, which are better than the traditional U-net network with mIOU value 58.74 and mPA value 71.13. The mIOU value is 70.374 and the mPA value 82.838 of the proposed method on SUIM dataset, which is better than the traditional U-net network′s mIOU value 68.89 and mPA value 82.51. The proposed method can better perform underwater image segmentation.
Key words:attention mechanism, image segmentation, underwater image, deep learning
海洋是人類資源的寶庫(kù),蘊(yùn)含著各種各樣的資源,隨著人類對(duì)海洋的不斷探索,計(jì)算機(jī)視覺(jué)技術(shù)在水下任務(wù)中發(fā)揮著越來(lái)越重要的作用.我國(guó)作為海洋大國(guó),在十八大報(bào)告中制定了海洋開(kāi)發(fā)的戰(zhàn)略部署[1],但是水下圖像受成像條件影響,水下拍攝的圖片易受介質(zhì)和光照不充分因素的影響,圖像分割精度往往不高,因此研究水下圖像分割技術(shù)很有必要.圖像語(yǔ)義分割是對(duì)圖像中的每一個(gè)像素都進(jìn)行相應(yīng)的分類,即實(shí)現(xiàn)圖像在像素級(jí)別上的分類[2].圖像語(yǔ)義分割的常用方法有閾值法[3]、邊緣檢測(cè)法、小波變換法[4]等,將深度學(xué)習(xí)應(yīng)用于圖像分類[5]、圖像分割[6]、目標(biāo)檢測(cè)[7]、人臉識(shí)別[8]等領(lǐng)域.文獻(xiàn)[9]將深度學(xué)習(xí)應(yīng)用于圖像語(yǔ)義分割領(lǐng)域,用卷積層來(lái)替代卷積神經(jīng)網(wǎng)絡(luò)中的全連接層,以此來(lái)適應(yīng)不同尺寸的輸入,同時(shí)通過(guò)跳躍連接來(lái)結(jié)合低語(yǔ)義特征和高語(yǔ)義特征,最后通過(guò)反卷積來(lái)對(duì)最后一次卷積產(chǎn)生的特征圖進(jìn)行上采樣,使特征圖恢復(fù)到輸入圖像的大小,從而對(duì)每一個(gè)像素進(jìn)行預(yù)測(cè),最后在上采樣的特征圖從而實(shí)現(xiàn)每一個(gè)像素的分類.文獻(xiàn)[10]提出了基于編解碼結(jié)構(gòu)的U-net網(wǎng)絡(luò),包含一個(gè)捕獲上下文的收縮路徑和一個(gè)允許精確定位的對(duì)稱擴(kuò)展路徑,收縮路徑通過(guò)卷積對(duì)特征圖進(jìn)行提取信息,通過(guò)下采樣來(lái)對(duì)特征圖進(jìn)行壓縮,擴(kuò)展路徑使用上采樣來(lái)對(duì)特征圖進(jìn)行逐步擴(kuò)大,逐步恢復(fù)出圖像的細(xì)節(jié),并通過(guò)跳躍連接來(lái)融合低語(yǔ)義信息.文獻(xiàn)[11]提出了一種金字塔場(chǎng)景解析網(wǎng)絡(luò),將復(fù)雜的場(chǎng)景上下文特征嵌入到基于全卷積網(wǎng)絡(luò)進(jìn)行像素預(yù)測(cè).
注意力機(jī)制在自然語(yǔ)言處理[12]和計(jì)算機(jī)視覺(jué)領(lǐng)域[13]對(duì)于提升神經(jīng)網(wǎng)絡(luò)的性能有著非常明顯的作用.文獻(xiàn)[14]提出了自注意力機(jī)制,它完全依賴于關(guān)注機(jī)制來(lái)繪制輸入和輸出之間的全局依賴體系,廣泛應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域,并對(duì)網(wǎng)絡(luò)模型產(chǎn)生了較好的提升效果.文獻(xiàn)[15]提出了一種輕量、即插即用的通道注意力模塊(squeeze-and-excitation networks,SENet),通過(guò)明確建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng),通過(guò)擠壓操作將全局空間信息擠壓到對(duì)應(yīng)的通道中,通過(guò)激勵(lì)將權(quán)重賦予到對(duì)應(yīng)的通道上,為卷積神經(jīng)網(wǎng)絡(luò)帶來(lái)了顯著的提升效果.
文中提出一種利用三分支注意力模塊改進(jìn)U-net結(jié)構(gòu)的水下圖像分割方法,從而改善水下圖像的分割效果.
1 文中方法
1.1 網(wǎng)絡(luò)的整體結(jié)構(gòu)
網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1,命名為T(mén)AU-net,由傳統(tǒng)的U-net、三分支注意力模塊組成.采用U-net網(wǎng)絡(luò)作為主體架構(gòu),同時(shí)對(duì)U-net的編碼部分添加三分支注意力模塊,對(duì)于每次編碼之后的特征圖進(jìn)行三分支注意力調(diào)整,然后對(duì)調(diào)整之后的特征圖繼續(xù)進(jìn)行下采樣卷積等操作,同時(shí)通過(guò)跳躍連接將三分支注意力模塊調(diào)整后的特征圖和上采樣之后的特征圖進(jìn)行融合,以此實(shí)現(xiàn)低語(yǔ)義信息和高語(yǔ)義信息的融合,從而使特征圖的細(xì)節(jié)信息更加完善.
整體算法描述為:
1.2 三分支注意力機(jī)制
三分支注意力機(jī)制是通過(guò)捕獲交叉維度交互計(jì)算權(quán)重的方法,在不降維的情況下建立簡(jiǎn)單而有效的注意力機(jī)制.三分支注意力機(jī)制的結(jié)構(gòu)如圖2,由三個(gè)平行的分支構(gòu)成,其中兩個(gè)維度負(fù)責(zé)捕獲通道C和通道H、W之間的跨維度交互,另外一個(gè)分支用于構(gòu)建空間注意力.第一個(gè)分支是通道C和空間W維度進(jìn)行交互,首先對(duì)特征圖進(jìn)行permute,然后對(duì)H維度進(jìn)行Z-Pool,再進(jìn)行7×7卷積、批規(guī)范化、Sigmoid激活等操作,并于Permute之后的特征圖相乘,再次進(jìn)行Permute操作,得到C×H×W的特征圖;對(duì)于第二個(gè)分支,首先進(jìn)行一個(gè)通道池化,再進(jìn)行一個(gè)7×7卷積,然后進(jìn)行一個(gè)批規(guī)范化,最后通過(guò)Sigmoid激活函數(shù)得到空間注意力權(quán)重,和輸入特征進(jìn)行相乘得到C×H×W的特征圖;第三個(gè)分支類似于第一個(gè)分支,不同的是第三個(gè)分支是對(duì)通道C和空間H維度進(jìn)行交互,其他操作均與第一個(gè)分支相同,得到C×H×W的特征圖.最后對(duì)各分支輸出的特征圖進(jìn)行相加操作,并求平均值,得到一個(gè)和輸入特征尺寸完全一致的特征圖.
三分支注意力算法偽代碼為:
2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)
實(shí)驗(yàn)環(huán)境為:Windows 10 操作系統(tǒng),32G內(nèi)存,處理器為Intel(R) Xeon(R) CPU E5-2678 v3 2.50 GHz,顯卡為NVIDIA Tesla K80,顯存24 G,Cuda10.1,深度學(xué)習(xí)框架為Pytorch.
文中數(shù)據(jù)集為VOC2007公共數(shù)據(jù)集和SUIM水下數(shù)據(jù)集,其中VOC2007數(shù)據(jù)集是選自生活場(chǎng)景中的照片,包含背景、人、鳥(niǎo)、貓、牛、狗、馬、羊、飛機(jī)、自行車(chē)、船、公交車(chē)、汽車(chē)、摩托車(chē)、火車(chē)、瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視21個(gè)分類,其中訓(xùn)練集和驗(yàn)證集共計(jì)12 031張,測(cè)試集共計(jì)210張.SUIM水下數(shù)據(jù)集包含超過(guò)1 500張圖像,其中訓(xùn)練集1 525張,測(cè)試集110張,并對(duì)魚(yú)類(脊椎動(dòng)物)、珊瑚礁(無(wú)脊椎動(dòng)物)、水生植物、沉船/廢墟、潛水員、機(jī)器人和海底8個(gè)對(duì)象類別進(jìn)行像素標(biāo)注.
參數(shù)設(shè)置為:批處理數(shù)為2,優(yōu)化器采用Adam,世代次數(shù)為100,初始學(xué)習(xí)率為1×10-4,每訓(xùn)練一個(gè)世代,學(xué)習(xí)率下降8%,損失函數(shù)采用交叉熵?fù)p失函數(shù)為:
式中:M為進(jìn)行分類的類別數(shù)量;yic為符號(hào)函數(shù),如果圖像類別等于c則取1,否則取0;pic為圖像i屬于類別c的預(yù)測(cè)概率.
2.2 實(shí)驗(yàn)結(jié)果及分析
首先使用VOC2007數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練集為10 582張,驗(yàn)證集為1 449張,并利用210張測(cè)試集來(lái)對(duì)網(wǎng)絡(luò)模型進(jìn)行評(píng)估,分割之后的圖像如圖3,可以看出文中的TAU-net分割結(jié)果更加精細(xì).
實(shí)驗(yàn)結(jié)果如表1,TAU-net在13類目標(biāo)上的mIOU都明顯高于PSPNet和U-net,在14類目標(biāo)上的mPA都明顯高于PSPNet和U-net,同時(shí)TAU-net所有類別mIOU和mPA的平均值相比PSPNet和U-net都有不同程度的提升,尤其是自行車(chē)、船、公交車(chē)、貓、椅子、盆栽植物、摩托車(chē)、電視、火車(chē)、沙發(fā)、羊等類別的效果提升顯著.從圖中也可以看到TAU-net的分割結(jié)果相較于PSPNet和U-net來(lái)說(shuō)更加精確,說(shuō)明使用三分支注意力模塊對(duì)于提升分割精度是有幫助的.
為了驗(yàn)證文中算法在水下圖像數(shù)據(jù)集上的有效性,實(shí)驗(yàn)選用SUIM水下數(shù)據(jù)集,分別使用PSPNet、U-net、Nested U-Net、TAU-net訓(xùn)練模型,從圖4中可以看到所提方法在水下圖像數(shù)據(jù)集上取得了較好的效果.實(shí)驗(yàn)結(jié)果如表2,可以看出,所提出的TAU-net仍然是最優(yōu)的模型,這也再次證明了文中模型的有效性.
對(duì)比圖4(d)和圖4(f),U-net網(wǎng)絡(luò)出現(xiàn)了較為嚴(yán)重的誤判的情況,TAU-net雖然也有誤判情況產(chǎn)生,但是誤判情況較為輕微,基本上和標(biāo)注圖像保持一致,具有良好的分割效果.相比于圖4(c)和圖4(e),提出的TAU-net仍然具有較好的分割效果.
各模型的參數(shù)量和浮點(diǎn)運(yùn)算數(shù)如表3,由表可知TAU-net的參數(shù)量略高于U-net,但增加的參數(shù)量是微乎其微的,同時(shí)TAU-net的浮點(diǎn)運(yùn)算數(shù)和U-net的浮點(diǎn)運(yùn)算數(shù)是保持一致的,驗(yàn)證了TAU-net可以在幾乎不增加參數(shù)量和浮點(diǎn)運(yùn)算量的情況下超越U-net網(wǎng)絡(luò)的性能.
3 結(jié)論
(1) 文中提出的利用三分支注意力模塊改進(jìn)的水下圖像分割方法,即TAU-net模型,成功搭建并在SUIM水下圖像分割數(shù)據(jù)集上進(jìn)行驗(yàn)證.結(jié)果顯示,該模型通過(guò)引入注意力機(jī)制實(shí)現(xiàn)跨通道信息交互,不降低維度的特點(diǎn),使得平均交并比和平均像素精度分別達(dá)到了70.374和82.838,較傳統(tǒng)U-net網(wǎng)絡(luò)的性能有顯著提升.
(2) 在VOC2007圖像分割數(shù)據(jù)集上驗(yàn)證,結(jié)果表明TAU-net模型具有良好的泛化能力,平均交并比和平均像素精度分別達(dá)到了72.05和81.3.證明該模型在水上數(shù)據(jù)集上依然能夠保持較好的性能表現(xiàn),顯示出其對(duì)不同數(shù)據(jù)集的適應(yīng)性和魯棒性.
(3) TAU-net模型在幾乎不增加參數(shù)量和運(yùn)算量的情況下,對(duì)U-net網(wǎng)絡(luò)的性能有一定的提升.未來(lái)的研究可以通過(guò)擴(kuò)大水下圖像分割數(shù)據(jù)集,進(jìn)一步提高模型的泛化能力,同時(shí)探索更好地利用低語(yǔ)義信息來(lái)進(jìn)一步提升網(wǎng)絡(luò)模型的性能,為水下圖像分割領(lǐng)域提供更為優(yōu)秀的技術(shù)支持和解決方案.
參考文獻(xiàn)(References)
[1] 賁可榮, 王斌. 海洋裝備智能化與智能化裝備思考[J]. 江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 35(2): 1-11.
[2] 梁新宇, 羅晨, 權(quán)冀川,等. 基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用, 2020, 56(2): 18-28.
[3] 鄒峰, 王炳輝, 姜朋明. 基于二值圖像處理技術(shù)的砂土顆粒統(tǒng)計(jì)方法[J]. 江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 29(2):180-185.
[4] 谷昱良, 羿旭明. 基于小波變換的權(quán)重自適應(yīng)圖像分割模型[J]. 圖學(xué)學(xué)報(bào), 2020, 41(5): 733-739.
[5] HE K, ZHANG X, RENS, et al. Deep residual learning for image recognition[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2016: 770-778.
[6] 陳慧珺, 王建華, 李垣江. 基于引力搜索算法參數(shù)優(yōu)化的改進(jìn)PCNN遙感圖像分割[J]. 江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 32(1): 100-105.
[7] ZHAO Z Q, ZHENG P, XU S, et al. Object detection with deep learning: A review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3212-3232.
[8] 胡春龍, 陳建軍, 徐丹, 等. 基于人臉圖像的年齡估計(jì)研究綜述[J]. 江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 34(5): 42-50.
[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.USA:IEEE, 2015: 3431-3440.
[10] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]∥ International Conference on Medical Image Computing and Computer-assisted Intervention. Cham:Springer, 2015: 234-241.
[11] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2017: 2881-2890.
[12] 梁斌, 劉全, 徐進(jìn), 等. 基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2017, 54(8): 1724-1735.
[13] 殷曉航, 王永才, 李德英. 基于U-Net結(jié)構(gòu)改進(jìn)的醫(yī)學(xué)影像分割技術(shù)綜述[J]. 軟件學(xué)報(bào), 2021, 32(2): 519-550.
[14] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30:5998-6008.
[15] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2018: 7132-7141.