摘 要:針對(duì)現(xiàn)有醫(yī)學(xué)圖像分割網(wǎng)絡(luò)存在計(jì)算量大、對(duì)硬件資源要求高和推理速度慢等不足,提出一種輕量級(jí)快速分割網(wǎng)絡(luò)MCNet.MCNet采用編碼器-解碼器架構(gòu),使用多層感知機(jī)(MLP)和卷積分別提取并融合醫(yī)學(xué)圖像的全局特征和局部特征,以減少網(wǎng)絡(luò)參數(shù)量并提高分割精度.在編碼階段使用卷積分支和多層感知機(jī)分支分別提取多尺度的局部特征和全局特征.通過(guò)跳躍連接融合這些特征并送入解碼器.在解碼階段使用注意力門控機(jī)制進(jìn)行特征增強(qiáng).在BUSI和ISIC2018數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).和當(dāng)前最優(yōu)方法相比,MCNet的Dice相似系數(shù)和均交并比在BUSI數(shù)據(jù)集上分別提高0.11%和0.09%、在ISIC2018數(shù)據(jù)集上分別提高0.64%和0.95%.同時(shí),MCNet顯著減少了網(wǎng)絡(luò)參數(shù)量、降低了浮點(diǎn)運(yùn)算次數(shù)并縮短了CPU推理時(shí)間.
關(guān)鍵詞:醫(yī)學(xué)圖像分割;深度神經(jīng)網(wǎng)絡(luò);多層感知機(jī)(MLP);輕量級(jí)網(wǎng)絡(luò)
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A文章編號(hào):1000-2367(2025)03-0096-08
深度學(xué)習(xí)近年來(lái)在醫(yī)學(xué)圖像處理和分析領(lǐng)域取得顯著進(jìn)展,特別是在醫(yī)學(xué)圖像分割領(lǐng)域.卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1]具有出色的局部信息提取能力,但對(duì)全局特征的捕獲能力不強(qiáng).基于注意力機(jī)制的網(wǎng)絡(luò)能夠有效地建模全局上下文,但對(duì)局部信息建模能力弱,并且計(jì)算成本較高.最近,結(jié)合卷積運(yùn)算的多層感知機(jī)(multi-layer perceptron,MLP)使用線性移位操作和全連接層提取全局上下文信息,取得了與注意力機(jī)制相當(dāng)?shù)男Ч?,且顯著減少了參數(shù)量和計(jì)算復(fù)雜度.
本文提出一種用于病變區(qū)域分割的輕量級(jí)快速深度神經(jīng)網(wǎng)絡(luò)MCNet.MCNet以U-Net為基本架構(gòu),在編碼階段使用MLP分支和Convolution分支分別提取醫(yī)學(xué)圖像的全局和局部特征,同時(shí)使用融合模塊將二者融合.和現(xiàn)有方法相比,MCNet顯著降低了網(wǎng)絡(luò)的參數(shù)量和計(jì)算復(fù)雜度并提高了分割精度.本文主要貢獻(xiàn)如下:(1)MCNet對(duì)經(jīng)典的編碼器-解碼器網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn),在編碼階段引入MLP分支和Convolution分支,分別提取醫(yī)學(xué)圖像的全局特征和局部特征;(2)在編碼階段使用BiFusion融合模塊充分融合MLP提取的全局特征和Convolution提取的局部特征,以增強(qiáng)MCNet的特征表達(dá)能力;(3)在BUSI和ISIC2018數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn).和現(xiàn)有方法相比,MCNet取得了最好的分割結(jié)果、顯著減少了參數(shù)量并縮短了CPU推理時(shí)間.
1 相關(guān)工作
不同于自然圖像分割,醫(yī)學(xué)圖像分割具有以下特點(diǎn):(1)分割難度更大.受成像設(shè)備、患者個(gè)體和成像條件之間差異的影響,不同患者的組織或器官成像時(shí)呈現(xiàn)出較強(qiáng)的類內(nèi)差異和類間相似性.這導(dǎo)致醫(yī)學(xué)圖像分割任務(wù)的難度更大.(2)精度要求更高.雖然人體組織或器官的類別有限,但對(duì)它們的準(zhǔn)確分割至關(guān)重要.因?yàn)樯鲜鲈颍t(yī)學(xué)圖像分割與自然圖像分割常采用不同的網(wǎng)絡(luò)架構(gòu).目前,大多數(shù)基于深度神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割模型源于經(jīng)典U-Net架構(gòu):通過(guò)編碼器提取圖像的高級(jí)語(yǔ)義特征,再由解碼器融合淺層與深層特征生成分割結(jié)果.近年來(lái),這類模型往往融入了各種卷積或注意力模塊,旨在提升分割精度和模型魯棒性.
基于CNN的方法.RONNEBERGER等[2]開(kāi)創(chuàng)性地提出用于醫(yī)學(xué)圖像分割的U-Net.該網(wǎng)絡(luò)已經(jīng)成為醫(yī)學(xué)圖像分割的基礎(chǔ)網(wǎng)絡(luò)架構(gòu).XIAO等[3]提出的ResUNet給U-Net的跳躍連接加入殘差以避免梯度消失并直接進(jìn)行特征融合.ZHOU等[4]設(shè)計(jì)的U-Net++使用稠密塊替代標(biāo)準(zhǔn)卷積以更高效地學(xué)習(xí)多尺度特征.基于CNN的方法使用卷積提取醫(yī)學(xué)圖像的局部信息,顯著提高了醫(yī)學(xué)圖像的分割精度,但對(duì)全局信息的提取能力不足.
基于Transformer的方法.DOSOVITSKIY等[5]提出基于Transformer的視覺(jué)模型ViT.ViT將輸入圖像等分為多個(gè)圖像塊,對(duì)每個(gè)圖像塊進(jìn)行線性嵌入和位置編碼.LIU等[6]提出一種新的視覺(jué)模型Swin Transformer.該模型引入窗口機(jī)制將圖像劃分為非重疊的窗口,并且只在窗口內(nèi)使用自注意力機(jī)制.VALANARASU等[7]采用局部全局訓(xùn)練方法融合圖像塊和圖像整體的關(guān)聯(lián)信息.TransFuse構(gòu)建了包含CNN和Transformer的雙分支網(wǎng)絡(luò)結(jié)構(gòu)[8].基于Transformer的方法通過(guò)表征圖像蘊(yùn)含的全局信息提高圖像分割精度.但是,這類方法的計(jì)算復(fù)雜度高、計(jì)算開(kāi)銷大.
基于MLP的方法.MLP使用線性移位操作和全連接層提取特征之間的遠(yuǎn)程依賴,這顯著減少了網(wǎng)絡(luò)參數(shù)并提高了推理速度.TOLSTIKHIN等[9]提出一種完全基于MLP的架構(gòu)MLP-Mixer.該架構(gòu)借助通道混合和Token混合機(jī)制實(shí)現(xiàn)自注意力機(jī)制.UNeXt[10]是第一個(gè)基于MLP和CNN的輕量級(jí)醫(yī)學(xué)圖像分割混合網(wǎng)絡(luò). MSS-UNet[11]使用雙空間移位MLP模塊實(shí)現(xiàn)不同空間位置之間的通信.與基于Transformer的方法相比,基于MLP的網(wǎng)絡(luò)顯著減少了參數(shù)量并提高了推理速度,但對(duì)局部信息的提取能力不足.
受現(xiàn)有工作啟發(fā),本文設(shè)計(jì)了一個(gè)新的醫(yī)學(xué)圖像病變區(qū)域分割網(wǎng)絡(luò)MCNet.不同于現(xiàn)有方法,MCNet在編碼階段包含Convolution分支、MLP分支和特征融合模塊,有效提取并融合醫(yī)學(xué)圖像的局部特征與全局特征,以此增強(qiáng)編碼器的特征表達(dá)能力.特別地,MLP分支使用線性移位操作實(shí)現(xiàn)同注意力機(jī)制相當(dāng)?shù)奶卣魈崛⌒Ч@著減少了網(wǎng)絡(luò)的參數(shù)量和計(jì)算復(fù)雜度.
2 MCNet
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
MCNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.該網(wǎng)絡(luò)基于經(jīng)典的編碼器-解碼器架構(gòu),包括上下5層.在編碼階段,每一層都將特征圖的分辨率減少至1/2、特征通道數(shù)增加兩倍;在解碼階段,每一層將特征圖的分辨率增加兩倍、特征通道數(shù)減少至1/2.在編碼器階段,MLP分支和Convolution分支分別生成獨(dú)立的特征圖.這兩種特征圖經(jīng)過(guò)BiFusion模塊進(jìn)行融合,得到一個(gè)充分融合全局信息和局部信息的特征圖.MCNet的跳躍連接引入了AG[12]模塊.AG模塊可以突出顯著特征并以較少的計(jì)算開(kāi)銷提高模型的分割精度.在解碼階段,AG模塊生成的特征圖與對(duì)應(yīng)解碼層輸出的特征圖沿通道拼接;之后進(jìn)行兩個(gè)核為3×3的卷積運(yùn)算和一個(gè)核為1×1的卷積運(yùn)算.此外每個(gè)解碼層還引入Dropout以防止過(guò)擬合.解碼器的最后一層使用雙線性插值將特征圖的分辨率恢復(fù)至輸入圖像的原始分辨率大?。蝗缓蠼?jīng)過(guò)核為1×1的卷積運(yùn)算將特征圖的通道數(shù)降至1.最后使用sigmoid函數(shù)將特征圖的每個(gè)像素值映射到[0,1],從而得到分割結(jié)果.
2.2 MLP分支
MLP分支包含5個(gè)MLP模塊,每個(gè)MLP模塊的輸出被用作下一層MLP模塊的輸入.MLP模塊包含PatchEmbed和ShiftBlock兩個(gè)子模塊.PatchEmbed包含卷積層、reshape層和LayerNorm層.其中卷積層的核大小為3×3、步長(zhǎng)為2、padding為1.PatchEmbed通過(guò)卷積提取特征,同時(shí)使圖像的分辨率降低至1/2.ShiftBlock包含LayerNorm層、ShiftedMLP層和DropPath層.
ShiftedMLP通過(guò)線性移位操作獲取特征之間的遠(yuǎn)程依賴.首先對(duì)特征圖進(jìn)行填充,填充大小為k/2(k為超參數(shù)).然后沿通道方向?qū)⑻卣鲌D平均劃分為k組,并沿高度方向進(jìn)行平移,平移步長(zhǎng)為(-k/2,-k/2+1,...,0,…,k/2-1,k/2).接著將k組平移后的特征沿通道方向拼接.最后將拼接后的特征圖送入全連接層、深度方向卷積層、GeLU激活函數(shù)和Dropout函數(shù).沿寬度方向重復(fù)上述分組和平移操作.MLP下采樣模塊的計(jì)算式為:
XiP=φL(Conv(Xi-1M)),(1)
XiM=X+σ(? (φL(XiP))),(2)
其中,輸入特征Xi-1M∈RCi-1×H×W,輸出特征XiM∈RCi×(H/2)×(W/2),i表示下采樣的次數(shù),從1開(kāi)始.當(dāng)i=1時(shí),X0M對(duì)應(yīng)初始輸入圖像X.Ci表示特征圖的通道數(shù),H、W分別表示特征圖的高度和寬度.Conv(·)表示卷積,φL(·)表示層歸一化.σ(·)表示隨機(jī)丟棄,?(·)表示ShiftedMLP.
2.3 Convolution分支
Convolution分支包含5個(gè)Convolution模塊,每個(gè)Convolution模塊包含一個(gè)卷積層、一個(gè)歸一化層、一個(gè)池化層以及一個(gè)激活函數(shù).卷積核的大小為3×3、步幅和padding均為1.池化層的窗口大小為2×2.激活函數(shù)選用ReLU,以提高模型逼近復(fù)雜函數(shù)的能力.CNN下采樣模塊的計(jì)算式為:
XiC=Re(MP(φB(Conv(Xi-1C)))),(3)
其中,輸入特征Xi-1C∈RCi-1×H×W,輸出特征XiC∈RCi×(H/2)×(W/2),當(dāng)i=1時(shí),X0C對(duì)應(yīng)初始輸入圖像X.φB(·)表示批次歸一化,MP(·)為最大池化,Re(·)為ReLU激活函數(shù).
2.4 融合模塊
MCNet使用BiFusion模塊[8]融合MLP分支得到的全局特征與Convolution分支獲取的局部特征.BiFusion使用壓縮激勵(lì)機(jī)制[13]以增強(qiáng)對(duì)通道特征的感知能力.首先使用全局平均池化算子對(duì)特征圖進(jìn)行壓縮.接著借助兩個(gè)全連接層表征通道間的相關(guān)性,并輸出與輸入特征尺寸大小相同的權(quán)重以實(shí)現(xiàn)激勵(lì).再使用一個(gè)全連接層將通道特征維度降低到輸入的1/N,其中N為超參數(shù),分別取1、1、1、2、4.然后使用ReLU激活函數(shù)和另一個(gè)全連接層將特征圖的大小上調(diào)至原始尺寸.采用多組全連接層的收益在于提供更多非線性操作以更好地?cái)M合通道之間的相關(guān)性,并顯著減少參數(shù)量.使用Sigmoid函數(shù)獲得標(biāo)準(zhǔn)化的權(quán)重.最后通過(guò)逐元素相乘將通道權(quán)重與原特征圖相乘,以生成最終的特征圖.壓縮注意力子模塊的計(jì)算式為:
XiMSE=XiM⊙(S(FC(AP(XiM)))),(4)
其中,XiMSE表示經(jīng)過(guò)壓縮注意力機(jī)制之后得到的特征圖,AP(·)表示平均池化,F(xiàn)C為全連接層,S(·)為sigmoid函數(shù),⊙表示點(diǎn)乘操作.
為增強(qiáng)Convolution分支對(duì)局部細(xì)節(jié)的建模能力,引入空間注意力子模塊[14].首先沿輸入特征圖的通道維度分別進(jìn)行最大池化和平均池化操作.之后將這兩個(gè)池化操作的結(jié)果沿通道方向拼接得到新的特征圖.接著引入一個(gè)額外的1×1卷積層,將特征圖的通道數(shù)降至1以便進(jìn)行特征加權(quán)與融合.卷積層的輸出結(jié)果經(jīng)sigmoid激活函數(shù)映射到0~1,以表示每個(gè)位置的注意力權(quán)重.最后將這些注意力權(quán)重與原始特征圖進(jìn)行逐元素相乘,生成強(qiáng)調(diào)關(guān)鍵信息的新特征表示.這種結(jié)合最大池化和平均池化的空間注意力子模塊能夠有效聚焦關(guān)鍵特征,實(shí)現(xiàn)自適應(yīng)的特征重新加權(quán).該子模塊的計(jì)算式為:
XiCSA=XiC⊙(S(Conv(Ct(MP(XiC),AP(XiC))))),(5)
其中,XiC是Convolution分支的輸出,XiCSA表示經(jīng)過(guò)空間注意力操作之后得到的特征圖,Ct(·)為拼接操作.
融合MLP模塊和Convolution模塊生成的特征圖,以增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力.具體而言,通過(guò)卷積提取特征,之后將這兩組特征逐元素相乘,然后通過(guò)核為1×1的卷積減少特征圖的通道數(shù),最后使用雙線性池化減小特征圖的尺寸.這樣得到綜合全局上下文和局部上下文兩種信息的低維特征表達(dá).對(duì)應(yīng)的計(jì)算式為:
XiBP=BP(Conv(φB(Conv(XiM))⊙φB(Conv(XiC)))),(6)
其中,XiBP為得到的特征圖,BP(·)表示雙線性池化.
融合先前獲取3個(gè)特征圖以產(chǎn)生更豐富的信息.首先將兩個(gè)分支網(wǎng)絡(luò)的輸出XiMSE、XiCSA和雙線性池化的輸出XiBP沿通道維度拼接.接著通過(guò)卷積層和ReLU激活層從拼接的特征圖學(xué)習(xí)到更高級(jí)的特征表達(dá).然后使用核為1×1的卷積減少特征圖的通道數(shù).最后引入殘差連接,將上述第2步與第3步的結(jié)果連接.殘差結(jié)構(gòu)有助于緩解梯度消失,并使網(wǎng)絡(luò)在更深層次學(xué)習(xí)到新的特征表示.這種多分支的結(jié)構(gòu)設(shè)計(jì)充分融合了不同分支的輸出特征,從而增強(qiáng)了網(wǎng)絡(luò)的表征能力.上述操作的計(jì)算式為:
XiF=Ct(XiMSE,XiCSA,XiBP),(7)
XiFuse=Conv(XiF)+Conv(Re(φB(XiF))),(8)
其中,XiF為沿通道拼接X(jué)iMSE、XiCSA、XiBP得到的特征圖,XiFuse是融合模塊的輸出.
2.5 Loss函數(shù)
使用加權(quán)二元交叉熵與交并比的和作為損失函數(shù)L(·)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.其定義為:
Ltotal=αL(G,YPred)+βL(G,X5Fuse)+γL(G,X5M),(9)
其中,YPred是網(wǎng)絡(luò)的最終預(yù)測(cè)結(jié)果,X5Fuse是MLP分支與Convolution分支最深層融合的輸出結(jié)果,X5M是MLP分支最深層的輸出結(jié)果,α,β,γ是超參數(shù),實(shí)驗(yàn)中分別設(shè)置為0.5、0.3、0.2.G為真實(shí)標(biāo)簽,Ltotal為總損失函數(shù).
3 實(shí)驗(yàn)結(jié)果與分析
分別在BUSI[15]和ISIC2018[16]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比本文模型和其他先進(jìn)方法.
3.1 數(shù)據(jù)集
BUSI數(shù)據(jù)集包含780幅超聲圖像和對(duì)應(yīng)的分割掩碼,這些圖像被分為3類:正常、良性和惡性.我們只使用良性和惡性圖像,共647幅.ISIC2018數(shù)據(jù)集包含2 594幅皮膚癌圖像與對(duì)應(yīng)的分割圖.使用5折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn).
3.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)在配置有Intel Xeon E5-2620 CPU和NVIDIA A100-PCIE-80GB GPU的工作站上進(jìn)行.設(shè)置學(xué)習(xí)率為0.001,使用動(dòng)量為0.9的Adam[17]優(yōu)化器.訓(xùn)練總輪數(shù)為300,批次大小為8.若總損失函數(shù)經(jīng)過(guò)連續(xù)100個(gè)epoch不下降則停止訓(xùn)練.數(shù)據(jù)增強(qiáng)策略為圖像水平翻轉(zhuǎn)、圖像垂直翻轉(zhuǎn)和圖像對(duì)比度隨機(jī)改變.
3.3 評(píng)價(jià)指標(biāo)
使用參數(shù)量、GFLOPs、平均CPU推理時(shí)間、Dice相似系數(shù)(DSC)和均交并比(Um)作為評(píng)價(jià)指標(biāo).DSC的定義為:
DSC=(2(P∩T)/P∪T),(10)
其中,P為預(yù)測(cè)標(biāo)簽,T為真實(shí)標(biāo)簽.
Um的定義為:
Um=(1/c+1)∑c/i=0(TP/TP+FP+FN),(11)
其中,c為類別數(shù),TP為被正確預(yù)測(cè)的前景像素個(gè)數(shù);FP為被錯(cuò)誤預(yù)測(cè)為前景的像素個(gè)數(shù);FN為被錯(cuò)誤預(yù)測(cè)為背景的像素個(gè)數(shù).
3.4 結(jié)果分析
將MCNet與經(jīng)典的CNN方法比較,包括U-Net、UNet++和ResUNet;同時(shí)將其與基于Transformer的方法TransFuse和MedT、基于MLP的方法UNeXt進(jìn)行比較.實(shí)驗(yàn)結(jié)果如表1所示,其中加粗字體對(duì)應(yīng)每列最優(yōu)值.可以看出,本文提出的MCNet在BUSI和ISIC2018數(shù)據(jù)集上都取得了最好的結(jié)果.
由表1可見(jiàn),MCNet在BUSI數(shù)據(jù)集上的DSC為79.32%,比U-Net、UNet++、ResUNet、MedT、TransFuse和UNeXt分別提升了5.65%、5.15%、14.90%,12.08%,0.11%,3.27%.其Um為70.84%,較以上6種模型分別提高6.22%、10.76%、17.04%、13.99%、0.09%和8.34%.在ISIC2018數(shù)據(jù)集上,MCNet的DSC為89.62%,比以上6種模型分別提高10.17%、0.79%、2.99%、4.75%、0.64%和0.30%.MCNet的Um為82.97%,比以上6種模型分別提高11.94%、2.61%、3.71%、6.23%、0.95%和1.86%.在參數(shù)量方面,MCNet的參數(shù)量為3.66 M,雖然比參數(shù)量最少的UNeXt多1.19 M,但比U-Net、UNet++、ResUNet和TransFuse分別減少88.21%、60.04%、71.93%、86.01%.在計(jì)算復(fù)雜度方面,MCNet的FLOPs為1.21 G,比UNeXt僅多出0.63 G;比U-Net、UNet++、ResUNet、MedT和TransFuse分別減少97.83%、96.53%、98.51%、94.30%和86.01%.在Intel Xeon E5-2620 CPU上對(duì)分辨率為192×256的圖像進(jìn)行推理:MCNet的平均CPU推理時(shí)間為1 034 ms,分別比U-Net、UNet++、ResUNet、MedT和TransFuse減少77.12%、82.64%、84.11%、91.57%和35.47%.綜合考慮分割精度、參數(shù)數(shù)量和平均CPU推理時(shí)間等評(píng)價(jià)指標(biāo),MCNet均優(yōu)于現(xiàn)有先進(jìn)網(wǎng)絡(luò).
3.5 消融實(shí)驗(yàn)
在BUSI和ISIC2018數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)以驗(yàn)證Convolution分支和MLP分支的有效性.更改MCNet的網(wǎng)絡(luò)結(jié)構(gòu),分別關(guān)閉MLP分支(-MLP)和Convolution分支(-CNN)并測(cè)試其分割性能,結(jié)果如表2所示,其中加粗字體對(duì)應(yīng)每列最優(yōu)值.從表2可以看出,編碼器僅使用Convolution分支時(shí),網(wǎng)絡(luò)(-MLP)在BUSI數(shù)據(jù)集上的DSC為75.62%,比MCNet低3.7%;網(wǎng)絡(luò)的Um為66.5%,比MCNet低4.34%.網(wǎng)絡(luò)(-MLP)在ISIC2018數(shù)據(jù)集上的DSC為89.15%,比MCNet低0.47%;網(wǎng)絡(luò)的Um為82.25%,比MCNet低0.72%.顯然,編碼器僅使用Convolution分支容易導(dǎo)致全局信息丟失,從而降低分割精度.編碼器僅使用MLP分支時(shí),網(wǎng)絡(luò)(-CNN)在BUSI數(shù)據(jù)集上的DSC為78.95%,比MCNet降低0.37%;Um為70.40%,比MCNet降低0.44%.網(wǎng)絡(luò)在ISIC2018數(shù)據(jù)集上的DSC為89.46%,比MCNet降低0.16%;Um為82.84%,比MCNet降低0.13%.這表明MLP分支獲取的全局特征對(duì)提高網(wǎng)絡(luò)分割精度起重要作用.
3.6 分割結(jié)果可視化
為了展示MCNet的優(yōu)越性,將其與其他網(wǎng)絡(luò)在BUSI和ISIC2018數(shù)據(jù)集上的分割結(jié)果進(jìn)行可視化對(duì)比,結(jié)果如圖2和圖3所示.
圖2展示了BUSI數(shù)據(jù)集上的分割結(jié)果.首先,U-Net、U-Net++、ResUNet和MedT的分割結(jié)果較差、出現(xiàn)誤分割的現(xiàn)象,這是因?yàn)檫@些方法僅關(guān)注局部特征或全局特征.特別是在從上到下第1行和第4行,這些方法無(wú)法準(zhǔn)確地分割出目標(biāo)對(duì)象.其次,U-Net和TransFuse在第2行和第3行的分割結(jié)果也不理想.盡管TransFuse融合了局部特征和全局特征,但其分割結(jié)果與真實(shí)值之間仍存在較大的差異,這表明其對(duì)全局特征的提取不夠充分.MedT在第3行生成了大面積的欠分割結(jié)果,這表明僅提取全局特征不能有效解決這類復(fù)雜的分割問(wèn)題.本文提出的MCNet在所有樣例上都取得了最好的分割結(jié)果,這表明其融合全局和局部特征的能力最強(qiáng),分割效果最好.
圖3展示了ISIC2018數(shù)據(jù)集上的分割結(jié)果.從上到下,第1行的結(jié)果中,ResUNet出現(xiàn)了中心區(qū)域欠分割的現(xiàn)象.這是由于ResUNet在處理中心區(qū)域時(shí)無(wú)法準(zhǔn)確地捕捉到局部細(xì)節(jié)信息,導(dǎo)致目標(biāo)區(qū)域的欠分割.在第2行,U-Net++和ResUNet的分割結(jié)果都出現(xiàn)嚴(yán)重的誤分割現(xiàn)象.這是因?yàn)檫@兩種方法在處理復(fù)雜場(chǎng)景時(shí)不能很好地捕捉全局上下文信息.在第3行和第4行,現(xiàn)有方法不能很好地處理分割結(jié)果的邊緣細(xì)節(jié).與其他網(wǎng)絡(luò)相比,MCNet仍取得了最好的分割結(jié)果.
4 結(jié) 論
研究快速準(zhǔn)確的醫(yī)學(xué)圖像分割方法具有重要的理論意義和應(yīng)用價(jià)值.使用多層感知機(jī)代替Transformer能夠更有效地提取全局特征、減少參數(shù)數(shù)量并提高推理速度.本文提出一種融合多層感知機(jī)與卷積的雙分支網(wǎng)絡(luò)MCNet,實(shí)現(xiàn)了輕量快速準(zhǔn)確的醫(yī)學(xué)圖像分割.MCNet采用編碼器-解碼器架構(gòu),在編碼階段包含卷積和多層感知機(jī)兩個(gè)分支,以分別提取醫(yī)學(xué)圖像的局部特征和全局特征;在解碼階段通過(guò)特征融合模塊有效融合這兩種特征,從而提高分割精度并減少參數(shù)量.與其他主流方法相比,MCNet在BUSI和ISIC2018兩個(gè)數(shù)據(jù)集上都取得了最好的分割結(jié)果.MCNet的分割結(jié)果仍然存在分割邊緣不準(zhǔn)確、不平滑等不足.未來(lái)將針對(duì)這些問(wèn)題開(kāi)展研究,以進(jìn)一步優(yōu)化其分割性能.
參 考 文 獻(xiàn)
[1] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:3431-3440.
[2]RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2015:234-241.
[3]XIAO X,LIAN S,LUO Z M,et al.Weighted res-UNet for high-quality retina vessel segmentation[C]//2018 9th International Conference on Information Technology in Medicine and Education.Hangzhou:IEEE,2018:327-331.
[4]ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al.UNet++:redesigning skip connections to exploit multiscale features in image segmentation[J].IEEE Transactions on Medical Imaging,2020,39(6):1856-1867.
[5]DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16x16 words:Transformers for image recognition at scale[C]//2021 International Conference on Learning Representations.[S.l.:s.n.],2021:1-22.
[6]LIU Z,LIN Y T,CAO Y,et al.Swin Transformer:hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:10012-10022.
[7]VALANARASU J M J,OZA P,HACIHALILOGLU I,et al.Medical transformer:gated axial-attention for medical image segmentation[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2021:36-46.
[8]ZHANG Y D,LIU H Y,HU Q.TransFuse:fusing transformers and CNNs for medical image segmentation[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2021:14-24.
[9]TOLSTIKHIN I O,HOULSBY N,KOLESNIKOV A,et al.MLP-mixer:An all-MLP architecture for vision[C]//2021 International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2021:24261-24272.
[10]VALANARASU J M J,PATEL V M.UNeXt:MLP-based rapid medical image segmentation network[M]//Lecture Notes in Computer Science.Cham:Springer Nature Switzerland,2022:23-33.
[11]ZHU W H,TIAN J Y,CHEN M Z,et al.MSS-UNet:a multi-spatial-shift MLP-based UNet for skin lesion segmentation[J].Computers in Biology and Medicine,2024,168:107719.
[12]SCHLEMPER J,OKTAY O,SCHAAP M,et al.Attention gated networks:learning to leverage salient regions in medical images[J].Medical Image Analysis,2019,53:197-207.
[13]HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[14]WOO S,PARK J,LEE J Y,et al.CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19.
[15]AL-DHABYANI W,GOMAA M,KHALED H,et al.Dataset of breast ultrasound images[J].Data in Brief,2020,28:104863.
[16]CODELLA N C F,GUTMAN D,CELEBI M E,et al.Skin lesion analysis toward melanoma detection:a challenge at the 2017 international symposium on biomedical imaging(ISBI),hosted by the international skin imaging collaboration(ISIC)[C]//2018 IEEE 15th International Symposium on Biomedical Imaging.Washington:IEEE,2018:168-172.
[17]KINGMA DP,BA J.Adam:A method for stochastic optimization[C]//2015 3rd International Conference on Learning Representations.San Diego:[s.n.],2015.
MCNet:a lightweight lesion segmentation network integrating multilayer perceptrons and convolutions
Shen Hualeia,b,c, Shangguan Guoqinga, Yuan Chengyua, Chen Yanhaoa,b,c,Liu Donga,b,c
(a. School of Computer and Information Engineering; b. Henan Key Laboratory of Educational Artificial Intelligence and
Personalized Learning; c. Big Data for Teaching Resources and Educational Quality Evaluation
Henan Engineering Laboratory, Henan Normal University, Xinxiang 453007, China)
Abstract: To address the shortcomings of existing medical image segmentation networks, such as high computational demands, significant hardware resource requirements, and slow inference speeds, a lightweight and fast segmentation network named MCNet is proposed. MCNet adopts an encoder-decoder architecture, utilizing both multilayer perceptron(MLP) and convolutions to extract and fuse global and local features of medical images, respectively, thereby reducing network parameters and improving segmentation accuracy. During the encoding stage, convolutional branches and MLP branches are used to extract multi-scale local and global features. These features are fused via skip connections and passed to the decoder. In the decoding stage, an attention gating mechanism is employed to enhance feature representation. Experiments were conducted on the BUSI and ISIC2018 datasets. Compared with state-of-the-art methods, MCNet achieves improvements in Dice similarity coefficient and mean Intersection over Union of 0.11% and 0.09% on the BUSI dataset, and 0.64% and 0.95% on the ISIC2018 dataset, respectively. Additionally, MCNet significantly reduces the number of network parameters, decreases the number of floating-point operations, and shortens CPU inference time.
Keywords: medical image segmentation; deep neural network; multi-layer perceptron(MLP); lightweight network
[責(zé)任編校 趙曉華 劉洋]
河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年3期