摘要:針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人像分割任務(wù)時由于圖像的復(fù)雜性及目標(biāo)區(qū)域的多樣性,導(dǎo)致圖像在邊緣區(qū)域分割不完全和圖像上下文特征信息利用不充分的問題,采用改進(jìn)的UNet網(wǎng)絡(luò),該網(wǎng)絡(luò)采用LeWin Transformer Block代替普通的卷積模塊,該模塊能將卷積神經(jīng)網(wǎng)絡(luò)的局部信息關(guān)聯(lián)能力和Transformer的全局信息捕捉能力相結(jié)合。用于增強(qiáng)網(wǎng)絡(luò)獲取不同尺度特征的能力。同時在跳躍連接部分引入卷積注意力機(jī)制(CBAM),對編碼器得到的各層次特征依據(jù)其重要性實(shí)現(xiàn)不同程度的加權(quán),加強(qiáng)網(wǎng)絡(luò)對圖像細(xì)節(jié)特征的學(xué)習(xí)。
關(guān)鍵詞:語義分割;UNet;Transformer;卷積注意力機(jī)制
中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)24-0014-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
人像語義分割是將輸入的人像圖像分割成不同的語義區(qū)域的過程,是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)關(guān)鍵任務(wù)。人像分割可以用于人臉識別中,人像分割可以幫助提取出人臉區(qū)域,從而更準(zhǔn)確地識別人臉,同時還可以用于自動駕駛和智能交通以及醫(yī)學(xué)影像分析、圖像編輯和后期處理等,整體來說人像分割技術(shù)不僅可以提升圖像處理和計(jì)算機(jī)視覺應(yīng)用的效果和性能,還可以推動多個領(lǐng)域的科技進(jìn)步,為人類生活和產(chǎn)業(yè)發(fā)展帶來更多便利性和可能性。
在人像語義分割領(lǐng)域,已經(jīng)有許多前人做出了重要的研究成果。傳統(tǒng)的方法主要依賴于手工設(shè)計(jì)的特征提取和基于圖像分割技術(shù)的規(guī)則,這些方法往往需要大量的人工標(biāo)注數(shù)據(jù)和復(fù)雜的特征工程,且在處理復(fù)雜場景和人像細(xì)節(jié)時表現(xiàn)不佳。隨著人工智能技術(shù)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像分割中取得了很大成功。UNet[1]作為一種經(jīng)典的語義分割網(wǎng)絡(luò)同時也屬于卷積神經(jīng)網(wǎng)絡(luò),在許多領(lǐng)域取得了顯著的成果。然而,傳統(tǒng)的UNet網(wǎng)絡(luò)在處理人像時存在著一些問題,如邊緣模糊、細(xì)節(jié)損失等。劉祥[2]等人 將UNet中傳統(tǒng)的CBR下采樣模塊替換為ResNet50,同時將CA注意力機(jī)制和hardswish激活函數(shù)引入U(xiǎn)Net,以提高圖像特征的提取能力,增強(qiáng)圖像分割效果,徐旺旺[3]等人在UNet結(jié)構(gòu)上采用了Swin架構(gòu)來代替分割任務(wù)中的下采樣和上采樣過程,實(shí)現(xiàn)局部和全局特征的交互。利用Transformer來獲取更多的全局信息和不同層次特征來取代短連接,實(shí)現(xiàn)多尺度特征融合,從而精準(zhǔn)分割,顧天君[4]等人在特征提取模塊中,將傳統(tǒng)卷積變?yōu)樯疃瓤煞蛛x卷積,減少了網(wǎng)絡(luò)特征提取模塊的參數(shù)量以及計(jì)算量,并引入殘差學(xué)習(xí)模塊解決網(wǎng)絡(luò)退化問題,提高計(jì)算效率與分割精度,然而在人像語義分割任務(wù)中,仍存在分割不完全等問題。
針對前人研究不足以及存在的問題,提出了一種改進(jìn)的UNet網(wǎng)絡(luò)模型,通過引入LeWin Transformer Block模塊和在跳躍連接部分引入卷積注意力機(jī)制,提升模型在人像語義分割任務(wù)上的性能。
1 網(wǎng)絡(luò)模型及改進(jìn)
1.1 UNet網(wǎng)絡(luò)模型
UNet網(wǎng)絡(luò)采用編碼器-解碼器的結(jié)構(gòu),由兩部分組成,如圖1所示。編碼器負(fù)責(zé)將輸入圖像逐漸降低分辨率,提取圖像的高層語義特征;解碼器則將低分辨率的特征逐漸上采樣,并與編碼器的特征進(jìn)行融合,最終輸出與輸入圖像相同分辨率的分割結(jié)果。編碼器由多個卷積層和池化層組成,其中卷積層用于提取圖像的特征,而池化層用于降低圖像的分辨率。編碼器使得網(wǎng)絡(luò)能夠機(jī)制,將編碼器中的低級特征與解碼器中的高級特征進(jìn)行融合,更好地保留圖像的細(xì)節(jié)信息。
跳躍連接在UNet網(wǎng)絡(luò)中起到了關(guān)鍵作用。跳躍連接是將編碼器中同一分辨率下的特征圖與解碼器中對應(yīng)分辨率下的特征圖進(jìn)行拼接的操作。跳躍連接較好地捕捉到不同尺度的特征信息。解碼器與編碼器結(jié)構(gòu)相反,采用逐步上采樣的操作,通過反卷積層逐步恢復(fù)分辨率,同時借助跳躍連接和特征融合,這樣可以使解碼器更好地還原原始圖像的細(xì)節(jié),并提高分割結(jié)果的準(zhǔn)確性。通過跳躍連接,網(wǎng)絡(luò)可以跳過較低級的特征提取層,直接使用高級特征進(jìn)行預(yù)測,從而提高網(wǎng)絡(luò)的性能。
1.2 UNet算法改進(jìn)
為了彌補(bǔ)傳統(tǒng)卷積存在的不足,在UNet的基礎(chǔ)上加以改進(jìn)來實(shí)現(xiàn)人像分割,改進(jìn)后的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。改進(jìn)后的UNet網(wǎng)絡(luò)保存了原有的U形網(wǎng)絡(luò)結(jié)構(gòu),將網(wǎng)絡(luò)編碼器、解碼器部分的傳統(tǒng)卷積模塊替換為Lewin Transformer模塊[5],同時在跳躍連接操作中添加卷積注意力機(jī)制來對編碼器得到的各層次特征依據(jù)其重要性實(shí)現(xiàn)不同程度的加權(quán),加強(qiáng)網(wǎng)絡(luò)模型對圖像細(xì)節(jié)特征的學(xué)習(xí)。
具體實(shí)現(xiàn)流程為,輸入圖像先進(jìn)行patch partition,每個patch大小為4×4,輸入維度為H/4[×]W/4[×]48,經(jīng)過linear embedding和兩個Lewin Transformer block后特征圖尺寸為H/4[×]W/4[×]C,然后通過patch merging進(jìn)行下采樣,再經(jīng)過兩個Lewin Transformer block后特征圖尺寸變?yōu)镠/8[×]W/8[×]2C,最后再進(jìn)行一次同樣的下采樣操作完成編碼器的操作。編碼器每次按照2倍來縮小patch的數(shù)量,然后按照3倍來擴(kuò)大特征維度的數(shù)量。然后是解碼器部分,解碼器主要由patch expanding來實(shí)現(xiàn)上采樣,作為一個完全對稱的網(wǎng)絡(luò)結(jié)構(gòu),解碼器也是每次擴(kuò)大2倍進(jìn)行上采樣,核心模塊由Lewin Transformer block和patch expanding組成。最后是跳躍連接。跳躍連接是UNet的特色,改進(jìn)的模型在跳躍連接過程中添加卷積注意力機(jī)制,提高模型對細(xì)節(jié)特征的提取能力。
1.2.1 Lewin Transformer 模塊
圖像分割中使用transformer有兩個問題。第一是經(jīng)典的transformer模型可以計(jì)算所有token之間的全局自注意力,計(jì)算復(fù)雜度是token數(shù)量的二次方,所以在圖像分割這種高分辨率的任務(wù)中會帶來巨大的計(jì)算成本,不適合直接使用;第二是因?yàn)榫植可舷挛男畔⒃趫D像分割中也比較重要,然而先前的研究表明trnasformer在獲取局部信息存在局限性。而locally-enhanced window (LeWin) Transformer block,結(jié)構(gòu)如圖3所示,既利用了自注意力機(jī)制捕獲長程信息,也加入了卷積層捕獲局部信息。對于輸入特征圖 ,通過W-MSA和LeFF兩種結(jié)構(gòu)對其進(jìn)行處理,既降低了模型的計(jì)算復(fù)雜度,同時也可捕獲更多的特征信息。
W-MSA: non-overlapping Window-based Multi-head Self-Attention ,窗口之間不重疊,如圖4所示。
[ΩMSA=4hwC2+2(hw)2C]
[ΩW-MSA=4hwC2+2MhwC]
W-MSA不同于標(biāo)準(zhǔn)Transformer的全局自注意力,在非重疊局部窗口執(zhí)行自注意力,這種方式可以有效降低計(jì)算量。給定2D輸入特征[X∈RC×H×W],先將X拆分為大小為M[×]M的非重疊塊并得到每個窗口的平展與轉(zhuǎn)置特征[Xi∈RM2×C]。接下來,在每個窗口上執(zhí)行自注意力。由于Window內(nèi)部的patch數(shù)量遠(yuǎn)小于圖片patch數(shù)量,并且Window數(shù)量是保持不變的,W-MSA的計(jì)算復(fù)雜度和圖像尺寸呈線性關(guān)系,從而大大降低了模型的計(jì)算復(fù)雜度。
LeFF即Locally-enhanced Feed-Forward Network (LeFF) ,標(biāo)準(zhǔn)Transformer中的前饋網(wǎng)絡(luò)具有非常有限的局部上下文信息捕獲能力??紤]近鄰像素對于圖像分割的重要性,在前饋網(wǎng)絡(luò)中添加了一個深度卷積以捕獲局部上下文信息,如圖5所示。首先采用線性投影層提升每個詞的維度;然后將詞reshape為2D特征并采用3[×]3卷積捕獲局部信息;其次將上述特征平展并通過另一個線性層收縮維度以匹配輸入通道。
2 實(shí)驗(yàn)與分析
2.1實(shí)驗(yàn)數(shù)據(jù)集
本文采用數(shù)據(jù)集為P3M10k人像數(shù)據(jù)集,該數(shù)據(jù)集包含10 421張通過面部模糊處理的匿名高分辨率肖像圖像及其對應(yīng)的高質(zhì)量的 alpha 遮罩標(biāo)注圖片。其中訓(xùn)練集中有9 421張圖像,測試集中有500張圖像。
2.2實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
本實(shí)驗(yàn)所進(jìn)行的實(shí)驗(yàn)環(huán)境如表1所示。
2.3 實(shí)驗(yàn)結(jié)果及分析
改進(jìn)后的算法與原UNet算法評價指標(biāo)對比如表2所示。對于分割過程中的評價標(biāo)準(zhǔn)采用Dice相似系數(shù),Dice系數(shù)是一種集合相似度度量指標(biāo),通常用于計(jì)算兩個樣本的相似度,值的范圍0~1,分割結(jié)果最好時值為1,最差時值為0。改進(jìn)后的網(wǎng)絡(luò)在人像分割任務(wù)中dice系數(shù)為81.05%,提升2.91個百分點(diǎn)。因此改進(jìn)后的算法可以更好地分割出人像信息。
3 結(jié)束語
為滿足在復(fù)雜場景中的人像分割任務(wù)要求,提出一種改進(jìn)UNet的人像語義分割算法,算法中,采用LeWin Transformer Block代替普通的卷積模塊,同時在跳躍連接部分引入卷積注意力機(jī)制(CBAM),加強(qiáng)網(wǎng)絡(luò)對圖像細(xì)節(jié)特征的學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,所提改進(jìn)算法在復(fù)雜場景的人像分割任務(wù)中,表現(xiàn)出良好的fe66243e5973ff49146f74b85f194290性能,檢測精度高,魯棒性及泛化能力強(qiáng),證明所提算法的有效性及優(yōu)越性[6-8]。
參考文獻(xiàn):
[1] RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2015:234-241.
[2] 劉祥,田敏,梁金艷.基于RCH-UNet的新疆密植棉花圖像快速分割及產(chǎn)量預(yù)測[J].農(nóng)業(yè)工程學(xué)報(bào),2024,40(7):230-239.
[3] 徐旺旺,許良鳳,李博凱,等.TransAS-UNet:融合Swin Transformer和UNet的乳腺癌區(qū)域分割[J].中國圖象圖形學(xué)報(bào),2024,29(3):741-754.
[4] 顧天君,孫陽光,林虎.基于輕量級UNet的復(fù)雜背景字符語義分割網(wǎng)絡(luò)[J].中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,43(2):273-279.
[5] WANG Z D,CUN X D,BAO J M,et al.Uformer:a general U-shaped transformer for image restoration[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022.New Orleans,LA,USA.IEEE,2022:17683-17693.
[6] GONG Q Y,ZHAO X,BI C Y,et al.Maximum entropy multi-threshold image segmentation based on improved particle swarm optimization[J].Journal of Physics:Conference Series,2020,1678(1):012098.
[7] MEHIDI I,BELKHIAT D E C,JABRI D.Automatic brain tumor segmentation using multi-OTSU thresholding and morphological reconstruction[M]//Lecture Notes in Networks and Systems.Cham:Springer International Publishing,2021:289-300.
[8] KASS M,WITKIN A,TERZOPOULOS D.Snakes:Active contour models[J].International Journal of Computer Vision,1988,1(4):321-331.
【通聯(lián)編輯:朱寶貴】