摘" 要:精準(zhǔn)的醫(yī)學(xué)影像分割對(duì)臨床診斷具有重要價(jià)值。然而,病灶在醫(yī)學(xué)影像中常呈現(xiàn)形狀不規(guī)則、邊緣模糊等特征,給快速篩查與精準(zhǔn)診斷帶來(lái)了極大挑戰(zhàn)。為此,該研究提出基于多尺度減法機(jī)制的網(wǎng)絡(luò)模型M2SNet,并將其應(yīng)用于醫(yī)學(xué)影像中的息肉檢測(cè)。在五個(gè)息肉數(shù)據(jù)集上,與U-Net、Attention-UNet、TransUNet和ResUNet等主流模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示,M2SNet展現(xiàn)出更優(yōu)的分割性能。M2SNet的核心創(chuàng)新在于,通過(guò)多尺度減法單元有效濾除特征冗余,強(qiáng)化不同層級(jí)特征間的互補(bǔ)性,進(jìn)而實(shí)現(xiàn)病灶的精準(zhǔn)定位與邊界清晰分割。相較于傳統(tǒng)U-Net,該模型在保持結(jié)構(gòu)簡(jiǎn)潔性的同時(shí),顯著提升了邊緣細(xì)節(jié)的刻畫能力。
關(guān)鍵詞:醫(yī)學(xué)影像分割;M2SNet;結(jié)直腸息肉圖像;機(jī)器學(xué)習(xí)
中圖分類號(hào):TP391.4" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2025)03-0037-07
Colorectal Polyp Image Segmentation Based on M2SNet
LIU Lei1, ZHOU Mengyu2
(1.Chinese People's Armed Police Force Sichuan Provincial Corps Hospital, Leshan" 614000, China;
2.Sichuan Province Zigong Fushun County Maternal and Child Health Hospital, Zigong" 643200, China)
Abstract: Accurate medical image segmentation is of great value for clinical diagnosis. However, lesions often present irregular shapes, blurred edges and other features in medical images, posing great challenges to rapid screening and accurate diagnosis. To this end, this study proposes a network model M2SNet based on the multi-scale subtraction mechanism and applies it to polyp detection in medical images. On five polyp datasets, it conducts comparative experiments with mainstream models such as U-Net, Attention-UNet, TransUNet, ResUNet, and so on. The results show that M2SNet shows better segmentation performance. The core innovation of M2SNet is to effectively filter out feature redundancy through multi-scale subtraction units, strengthen the complementarity between different levels of features, and then achieve accurate positioning and clear boundary segmentation of lesions. Compared with the traditional U-Net, this model significantly improves the ability to depict edge details while maintaining structural simplicity.
Keywords: medical image segmentation; M2SNet; colorectal polyp image; Machine Learning
0" 引" 言
隨著高新技術(shù)的不斷發(fā)展,精確、快捷的醫(yī)學(xué)影像分割已成為現(xiàn)代醫(yī)學(xué)診斷的重要技術(shù)之一,能夠?yàn)獒t(yī)生的臨床治療提供重要的可靠依據(jù)。結(jié)直腸癌是全球高發(fā)的下消化道惡性腫瘤,疾病負(fù)擔(dān)極為嚴(yán)重,并且由于發(fā)病機(jī)制尚不明確,這給早期預(yù)防帶來(lái)了巨大的挑戰(zhàn)[1]。根據(jù)國(guó)家癌癥中心的估計(jì),我國(guó)2022年的結(jié)直腸癌新診斷和死亡的人數(shù)分別為59.2萬(wàn)和30.9萬(wàn)人,增長(zhǎng)十分顯著,相應(yīng)地,對(duì)于結(jié)直腸癌的早期篩查和防治的需求也在不斷提高[2]。通常,結(jié)直腸癌是由消化道內(nèi)異常息肉生長(zhǎng)引起的。根據(jù)解剖結(jié)果,息肉的表面可以是平坦的、升高的或帶梗的,可通過(guò)顏色、大小和表面類型與正常黏膜區(qū)分開來(lái)。臨床數(shù)據(jù)顯示,晚期結(jié)直腸癌的5年生存率僅為10%,而早期診斷和治療下的5年生存率高達(dá)90%[3]。因此,結(jié)合醫(yī)學(xué)影像精準(zhǔn)地識(shí)別消化道內(nèi)的息肉是當(dāng)前篩查和防止癌變的主要方法。然而,醫(yī)學(xué)影像的識(shí)別需要大量的專業(yè)技能和人力投入,常受到人為誤判的影響,從而貽誤最佳治療時(shí)機(jī)[4]。隨著人工智能技術(shù)的發(fā)展,計(jì)算機(jī)輔助能夠高效準(zhǔn)確醫(yī)學(xué)影像中地分離正常黏膜和息肉,這能夠極大地降低了內(nèi)鏡醫(yī)師主觀性帶來(lái)的分割錯(cuò)誤發(fā)生率,有效提高了醫(yī)學(xué)影像在診斷和治療中發(fā)揮的作用。
目前,針對(duì)息肉的分割方法主要分為傳統(tǒng)的分割方法和基于深度學(xué)習(xí)分割方法。傳統(tǒng)的分割方法又可大致分為:閾值和區(qū)域生長(zhǎng)法、聚類法、活動(dòng)輪廓模型、基于數(shù)學(xué)模型[5-8]?;谏疃葘W(xué)習(xí)的分割方法分為2D分割網(wǎng)絡(luò)和3D分割網(wǎng)絡(luò)[9]。盡管傳統(tǒng)的分割方法無(wú)須大量標(biāo)簽數(shù)據(jù)與模型訓(xùn)練,但其性能容易受到數(shù)據(jù)集的影響,且往往需要進(jìn)一步人工干預(yù)。這種方法主要基于圖像的灰度、紋理等淺層特征信息實(shí)現(xiàn)息肉的分割。而基于深度學(xué)習(xí)的方法能夠根據(jù)預(yù)訓(xùn)練模型快速有效的從醫(yī)學(xué)圖像中分割出息肉。卷積神經(jīng)網(wǎng)絡(luò)利用卷積提取醫(yī)學(xué)圖像的特征,最初的卷積神經(jīng)網(wǎng)絡(luò)為全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolution Net-work, FCN)[10],F(xiàn)CN被提出后被廣泛應(yīng)用于圖像分割的各個(gè)領(lǐng)域,但是沒(méi)有考慮全局上下文信息,對(duì)圖像的細(xì)節(jié)不夠敏感,不利于醫(yī)學(xué)圖像的分割。Ronneberger等[11]在FCN的基礎(chǔ)上提出適用于醫(yī)學(xué)圖像分割的U-Net網(wǎng)絡(luò)。如圖1所示,U-Net通過(guò)跳躍連接將低分辨率信息和高分辨率信息結(jié)合,更有利于分割邊界模糊的醫(yī)學(xué)圖像,其中低分辨率信息用于目標(biāo)識(shí)別,高分辨率信息用于分割的定位。因此,U-Net作為基礎(chǔ)模型衍生出多種改進(jìn)算法。Zhou等[12]在U-Net的基礎(chǔ)上提出了UNet++,利用密集的跳躍連接,使網(wǎng)絡(luò)可以進(jìn)一步地獲取不同層次的特征,達(dá)到多尺度融合。Huang等[13]提出全尺度分割網(wǎng)絡(luò)UNet3+,通過(guò)全尺度跳躍連接,將不同尺度的低級(jí)特征與高級(jí)特征相結(jié)合,提高分割精度。因?yàn)樽⒁饬C(jī)制通過(guò)改變通道的權(quán)重來(lái)突出目標(biāo)區(qū)域抑制無(wú)關(guān)區(qū)域[14-16]。為了更好地對(duì)小目標(biāo)區(qū)域進(jìn)行分割,將U-Net與注意力機(jī)制結(jié)合。SE block[17]自動(dòng)計(jì)算每個(gè)特征通道的權(quán)重,Wang等[18]將擠壓-激勵(lì)模塊嵌入U(xiǎn)-Net的解碼器中,將解碼器的特征圖進(jìn)行通道注意力計(jì)算,再與解碼器對(duì)應(yīng)的特征圖相結(jié)合,成功應(yīng)用于肝臟分割。Oktay等[19]設(shè)計(jì)注意力門使解碼器的特征對(duì)相應(yīng)編碼器的特征進(jìn)行監(jiān)督,重新調(diào)整跳躍連接的輸出對(duì)肝臟進(jìn)行分割。但是由于卷積計(jì)算的局限性,基于CNN的方法通常在建模遠(yuǎn)程關(guān)系時(shí)存在局限性[20],而Transformer[21]在全局上下文建模展現(xiàn)出強(qiáng)大的能力。因此,將純Transformer應(yīng)用于圖像補(bǔ)丁序列編碼[22],再逐級(jí)的上采樣恢復(fù)圖像分辨率實(shí)現(xiàn)語(yǔ)義分割[23],由于直接通過(guò)上采樣恢復(fù)分辨率會(huì)導(dǎo)致空間定位信息的缺失,不利于小目標(biāo)的分割。然而,Transformer對(duì)圖像沒(méi)有感應(yīng)偏置,在醫(yī)學(xué)圖像數(shù)據(jù)集中無(wú)法體現(xiàn)其優(yōu)越的性能,為了解決這一問(wèn)題,UTNet[24]將自我注意力集成到卷積神經(jīng)網(wǎng)絡(luò)中,用于增強(qiáng)醫(yī)學(xué)圖像分割。UTNet在編碼器和解碼器中都應(yīng)用了自我注意模塊,以最小的開銷捕獲不同規(guī)模的遠(yuǎn)程依賴。然而,密集的跳躍連接會(huì)削弱重要特征的表達(dá),不同層次的特征具有不同的特性,簡(jiǎn)單的級(jí)聯(lián)易導(dǎo)致病灶邊緣無(wú)法被精細(xì)化。同時(shí),Transformer的加入會(huì)增加算法的復(fù)雜度。
因此,針對(duì)以上不足,Zhao等人[25]提出M2SNet,該算法是在一種基于U-Net結(jié)構(gòu)的新多尺度減法網(wǎng)絡(luò)。旨在解決融合不同層次特征而產(chǎn)生冗余信息,從而導(dǎo)致病灶邊緣模糊的問(wèn)題。首先,M2SNet設(shè)計(jì)了一個(gè)減法單元(Subtraction Unit, SU),用于突出特征之間的有用差異信息,并消除了冗余部分的干擾。其次,在多尺度減法模塊中,利用提出的多尺度方法提取多尺度極值信息。對(duì)于層間多尺度信息,通過(guò)級(jí)聯(lián)多個(gè)減法單元來(lái)捕獲大跨度的信息。然后,聚合特定級(jí)別的特征和多路徑跨級(jí)別差分特征,在解碼器中生成最終的預(yù)測(cè)。對(duì)于層內(nèi)多尺度信息,通過(guò)一組不同核大小的濾波器將單尺度減法單元改進(jìn)為多尺度減法單元,在不引入額外參數(shù)的情況下實(shí)現(xiàn)自然的多尺度減法聚合。
1" 研究方法介紹
1.1" M2SNet與UNet的區(qū)別
M2SNet[25]的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,UNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,M2SNet與UNet相似,M2SNet包含編碼器塊(Ei,i∈{1,2,3,4,5}),一個(gè)多尺度減法模塊(MMSM)和四個(gè)解碼器塊(D i,i∈{1,2,3,4,5}),使用ResNet-50[26]作為主干網(wǎng)絡(luò)提取五個(gè)不同層次的特征,提取的特征作為MMSM的輸入,MMSM輸出五個(gè)互補(bǔ)增強(qiáng)的特征,最后經(jīng)過(guò)Di生成預(yù)測(cè)結(jié)果。在訓(xùn)練階段,LossNet以標(biāo)簽與預(yù)測(cè)結(jié)果作為輸入,達(dá)到實(shí)時(shí)檢測(cè)的目的。
1.2" 多尺度減法模塊
FA和FB表示相鄰的特征圖,經(jīng)過(guò)ReLU激活的處理。文獻(xiàn)[25]提出了一種基礎(chǔ)減法單元(SU),其形式如式(1)所示:
(1)
這里?表示逐元素相減,|?|表示取絕對(duì)值,Conv(?)表示卷積操作。傳統(tǒng)的單尺度減法只在單個(gè)像素層面建立差異關(guān)系,忽視了病灶的區(qū)域聚集特性。相比早期版本的MSNet中使用的單尺度減法單元,SU優(yōu)化了MSNet成為M2SNet。利用不同尺寸(1×1、3×3和5×5)的多尺度卷積濾波器來(lái)處理特征差異。通過(guò)這些具有權(quán)重和為1的固定濾波器,能夠在像素與區(qū)域?qū)用娌蹲蕉喑叨鹊募?xì)節(jié)和結(jié)構(gòu)差異,這種方法無(wú)須增加額外的參數(shù),也能夠高效訓(xùn)練,因此M2SNet在計(jì)算量不增加的情況下,提升了模型的精度。多尺度減法過(guò)程如式(2)所示:
(2)
其中,F(xiàn)ilter(?)n×n表示尺寸為n×n的固定濾波器。MSU不僅可以捕捉FA與FB之間的差異,還能從多角度、多層次提供豐富的特征信息。為了進(jìn)一步獲取多層特征之間的高階互補(bǔ)信息,將多個(gè)MSU在不同維度上拼接,生成了具有不同感受野和順序的差異特征。
1.3" LossNet
訓(xùn)練的總損失如式(3)所示:
(3)
其中,表示加權(quán)IoU損失,表示加權(quán)的二值交叉熵(BCE)損失,這兩者在分割任務(wù)中已被廣泛應(yīng)用。該損失函數(shù)引入了一個(gè)額外的LossNet來(lái)從細(xì)節(jié)到整體優(yōu)化分割結(jié)果。采用了在ImageNet上預(yù)訓(xùn)練的分類網(wǎng)絡(luò),如VGG-16分別提取預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽的多尺度特征。接著,計(jì)算它們的特征差異,作為損失,其表示式如式(4)所示:
(4)
其中,和分別表示從預(yù)測(cè)和真實(shí)標(biāo)簽中提取的第i層特征圖。通過(guò)計(jì)算它們的歐式距離(L2損失)來(lái)獲?。ㄈ缡剑?)所示),并在像素級(jí)別上進(jìn)行監(jiān)督:
(5)
2" 實(shí)驗(yàn)分析
實(shí)驗(yàn)使用五個(gè)不同彩色結(jié)腸鏡成像數(shù)據(jù)集用于評(píng)價(jià)M2SNet模型:CVC-300[27]、CVC-ColonDB[28]、CVC-ClinicDB[29]、ETIS[30]和Kvasir-Seg[31]。60%的圖像用于訓(xùn)練,20%用于驗(yàn)證,20%用于測(cè)試。在數(shù)據(jù)集訓(xùn)練階段,batchsize=16,最大迭代次數(shù)=50,SGD作為優(yōu)化器,初始學(xué)習(xí)率為0.05,動(dòng)量為0.9,衰減率為5×10-4,為了防止過(guò)擬合,對(duì)該數(shù)據(jù)集進(jìn)行圖像增廣、隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)、隨機(jī)更改亮度、對(duì)比度和飽和度等處理數(shù)據(jù)。所有實(shí)驗(yàn)代碼由Python 3.7在PyTorch 1.11.0中實(shí)現(xiàn),模型的訓(xùn)練是在Ubuntu 20.04+AMD 5900HX+NVIDIA GeForce RTX 3080 Laptop GPU中完成。
2.1" 評(píng)價(jià)指標(biāo)
醫(yī)學(xué)影像分割常用平均Dice、平均mIoU、加權(quán)F-measure()[32]、S-measure(Sα)[33]、E-measure[34]和平均絕對(duì)誤差(MAE)作為評(píng)價(jià)指標(biāo),這些評(píng)價(jià)指標(biāo)被廣泛地用于息肉分割。其中MAE的值越低越好,其他值越高越好。計(jì)算式如下:
(6)
(7)
(8)
其中,TP、TN、FP、FN分別表示真陽(yáng)性、真陰性、假陽(yáng)性、假陰性。、表示不同位置和鄰域信息,ω表示不同的誤差分配的權(quán)重。β表示對(duì)Recall(R)的重視程度。
2.2" 實(shí)驗(yàn)結(jié)果
為了評(píng)價(jià)M2SNet對(duì)息肉分割的性能,本文與U-Net[11]、Swin-UNet[29]、TransUNet[20]、Attention-UNet[19]、UTNet[24]、SAR-UNet[18]、UNet3+[13]進(jìn)行對(duì)比實(shí)驗(yàn)和分析。從表1可見(jiàn),綜合考慮每個(gè)網(wǎng)絡(luò)對(duì)各個(gè)數(shù)據(jù)集的分割結(jié)果得分,M2SNet的性能最佳。盡管TransUNet、UNet3+和UTNet在某些情況下提供了更好的結(jié)果,但M2SNet始終提供最佳結(jié)果。M2SNet對(duì)UNet的改進(jìn)是因?yàn)椴煌瑢哟蔚奶卣骶哂胁煌奶攸c(diǎn),直接使用逐元素加法或級(jí)聯(lián)來(lái)融合不同層次的特征會(huì)損失不同級(jí)別特征的差異,會(huì)產(chǎn)生冗余信息,從而減少真正有用特征的表達(dá)[25]。
由圖4可知,Swin-UNet很難分割出病灶區(qū)域,因?yàn)镾win-UNet的編碼器由TransFomer構(gòu)成,而TransFormer與CNN相比,需利用大型圖像數(shù)據(jù)集訓(xùn)練(比如ImageNet)才能突出TransFormer的優(yōu)勢(shì)。醫(yī)學(xué)影像的數(shù)據(jù)集不但難制作,還需要專業(yè)醫(yī)學(xué)人員標(biāo)記,極大地增加了人工成本,因此,醫(yī)學(xué)影像的數(shù)據(jù)集較小,可能不適合TransFormer結(jié)構(gòu)的網(wǎng)絡(luò)。TransUNet利用ResNet提取特征,通過(guò)TransFormer改善CNN遠(yuǎn)程依賴受限的問(wèn)題,UTNet是利用卷積層來(lái)提取局部強(qiáng)度特征,以避免Transformer的大規(guī)模預(yù)訓(xùn)練,同時(shí)使用自注意力機(jī)制來(lái)捕獲長(zhǎng)距離關(guān)聯(lián)信息。因此,TransUNet與UTNet相對(duì)于Swin-UNet能夠獲得更好的結(jié)果。UNet3+因?yàn)槠浯直┑奶卣魅诤戏绞剑瑢?dǎo)致其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練時(shí)間更長(zhǎng),在結(jié)直腸息肉分割的表現(xiàn)上,較UNet的提升不明顯,與M2SNet也相差較遠(yuǎn)。M2SNet在沒(méi)有使用TransFormer優(yōu)化CNN的情況下,依然取得最好的結(jié)果,這表明,提取多尺度特征之間的差異信息,為編碼器提供高效的目標(biāo)特征是一種簡(jiǎn)單高效的方法。TransUNet和UTNet被證明,TransFormer和CNN的結(jié)合,能夠增強(qiáng)網(wǎng)絡(luò)細(xì)性能,因此,將自注意力加入減法單元可能會(huì)進(jìn)一步提升病灶區(qū)域的識(shí)別率。
3" 結(jié)" 論
在本文中,我們對(duì)M2SNet在結(jié)直腸息肉圖像分割方面的性能進(jìn)行了定量分析。在UNet中使用多尺度減法單元,比標(biāo)準(zhǔn)的UNet架構(gòu)以及其他幾種最先進(jìn)的方法提供了更高的性能。多尺度減法單元能夠提取不同層次特征之間的互補(bǔ)信息,并與其他層次特征有效結(jié)合,增強(qiáng)多尺度特征的表示,凸出和學(xué)習(xí)更加有效的信息。我們建議可以將M2SNet應(yīng)用在其他結(jié)直腸分割、肺結(jié)節(jié)分割、細(xì)胞分割等醫(yī)學(xué)圖像分割任務(wù)。
參考文獻(xiàn):
[1] 何家镠,朱永敬,范習(xí)康,等.消化道腫瘤發(fā)病風(fēng)險(xiǎn)的系統(tǒng)流行病學(xué)研究進(jìn)展 [J].中國(guó)腫瘤,2024,33(10)871-878.
[2] 黃彥欽,蔡善榮,張?zhí)K展.結(jié)直腸癌人群防治實(shí)踐若干問(wèn)題探討 [J/OL].科學(xué)通報(bào)2025:1-7[2025-02-12].http://kns.cnki.net/kcms/detail/11.1784.N.20240416.1443.004.html.
[3] YUAN L,XU Z Y,RUAN S M,et al. Long Non-Coding RNAs Towards Precision Medicine in Gastric Cancer: Early Diagnosis, Treatment, and Drug Resistance [J].Molecular Cancer,2020,19(1):1-22.
[4] DZOBO K,ADOTEY S,THOMFORD N E,et al. Integrating Artificial and Hu-man Intelligence: A Partnership for Responsible Innovation in Biomedical Engi-neering and Medicine [J].Omics: A Journal of Integrative Biology,2020,24(5):247-263.
[5] BRUNTHA P M,JAISIL R D,SHRUTHI A T,et al. Application Of Selective Region Growing Algorithm in Lung Nodule Segmentation [C]//2018 4th Internation-al Conference on Devices, Circuits and Systems(ICDCS).Coimbatore:IEEE,2018:319-322.
[6] SANGAMITHRAA P B,GOVINDARAJU S. Lung Tumour Detection and Classifica-tion Using EK-Mean Clustering [C]//2016 International Conference on Wireless Communications, Signal Processing and Networking (WiSPNET).Chenai:IEEE,2016:2201-2206.
[7] KHAN S A,NAZIR M,KHAN M A,et al. Lungs Nodule Detection Framework from Computed Tomography Images Using Support Vector Machine [J].Microscopy Research and Technique,2019,82(8):1256-1266.
[8] KOSTIS W J,REEVES P A,YANKELEVITZ D F,et al. Three-Dimensional Seg-mentation and Growth-Rate Estimation of Small Pulmonary Nodules in Helical CT Images [J].IEEE Transactions on Medical Imaging,2003,22(10):1259-1274.
[9] XIE H T,YANG D B,SUN N N,et al. Automated Pulmonary Nodule Detection in CT Images Using Deep Convolutional Neural Networks [J].Pattern Recognition: The Journal of the Pattern Recognition Societ,2019,85:109-119.
[10] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Se-mantic Segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.
[11] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-net: Convolutional Networks for Biomedical Image Segmentation [J/OL].arXiv:1505.04597 [cs.CV].[2024-08-18].https://arxiv.org/abs/1505.04597.
[12] ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al. Unet++: A Nested U-Net Architecture for Medical Image Segmentation [C]//In Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support.Spain:Spring,2018:3-11.
[13] HUANG H M,LIN L F,TONG R F,et al. Unet 3+: A full-scale connected unet for medical image segmentation [C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelon:IEEE,2020:1055-1059.
[14] HOU Q B,ZHOU D Q,F(xiàn)ENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Nashville:IEEE,2021:13708-13717.
[15] WOO S,PARK J,LEE J Y. CBAM: Convolutional Block Attention Module [J/OL].arXiv:1807.06521 [cs.CV].[2024-08-18].https://arxiv.org/abs/1807.06521.
[16] ZHANG Q L,YANG Y B. SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [C]//ICASSP 2021-2021 IEEE International Conference on Acous-tics, Speech and Signal Processing (ICASSP).Toronto:IEEE,2021:2235-2239.
[17] HU J,LI S,SUN G. Squeeze-and-Excitation Networks [J].IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[18] WANG J K,LV P Q,WANG H Y,et al. SAR-U-Net: Squeeze-and-Excitation Block and Atrous Spatial Pyramid Pooling Based Residual U-Net for Automatic Liver Segmentation in Computed Tomography [J].Computer Methods and Programs in Biomedicine,2021,208:106268.
[19] OKTAY O,SCHLEMPER J,F(xiàn)OLGOC L L,et al. Attention U-Net: Learning Where to Look for the Pancreas [J/OL].arXiv:1804.03999 [cs.CV].[2024-08-18].https://arxiv.org/abs/1804.03999.
[20] CHEN J N,LU Y Y,YU Q H,et al. Transunet: Transformers Make Strong Encoders for Medical Image Segmentation [J/OL].arXiv:2102.04306[cs.CV].[2024-08-18].https://arxiv.org/abs/2102.04306?context=cs.
[21] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is All You Need [EB/OL].[2024-08-18].https://xueqiu.com/3993902801/284722170.
[22] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2024-08-18].https://arxiv.org/abs/2010.11929v2.
[23] ZHENG S X,LU J C,ZHAO H S,et al. Rethinking Semantic Segmentation From a Sequence-to-Sequence Perspective With Transformers [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Nashville:IEEE,2021:6877-6886.
[24] GAO Y H,ZHOU M,METAXAS D. UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [J/OL].[2024-08-19].https://arxiv.org/abs/2107.00781?context=cs.CV.
[25] ZHAO X Q,JIA H P,PANG Y W,et al. M2SNet: Multi-Scale in Multi-Scale Subtraction Network for Medical Image Segmentation [EB/OL].[2024-08-19].https://arxiv.org/pdf/2303.10894v1.
[26] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-tion(CVPR).Las Vegas:IEEE,2016:770-778.
[27].BERNAL J,SANCHEZ J,VILARINO F. Towards Automatic Polyp Detection With A Polyp Appearance Model [J].Pattern Recognition,2012,45(9):3166-3182.
[28] TAJBAKHSH N,GURUDU S R,LIANG J. Automated Polyp Detection in Colon-oscopy Videos Using Shape and Context Information [J].IEEE Transactions on Med-ical Imaging,2015,35(2):630-644.
[29] BERNAL J,SANCHEZ F J,ESPARRACH G F,et al. WM-DOVA Maps for Accurate Polyp Highlighting in Colonoscopy: Validation vs Saliency Maps from Physicians [J].Computerized Medical Imaging and Graphics CMIG,2015,43:99-111.
[30] SILVA J,HISTACE A,ROMAIN O,et al. Toward Embedded Detection of Polyps in WCE Images for Early Diagnosis of Colorectal Cancer [J].International Journal of Computer Assisted Radiology and Surgery,2014,9:283-293.
[31] JHA D,SMEDSRUD P H,RIEGLER M A,et al. Kvasir-seg: A Segmented polyp dataset [C]//MultiMedia Modeling.Daejeon:Springer,2020:451-462.
[32] MARGOLIN R,ZELNIK-MANOR L,TAL A. How to Evaluate Foreground Maps [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:248-255.
[33].FAN D P,CHENG M M,LIU Y,et al. Structure-measure: A New Way to Evaluate foreground Maps [J/OL].arXiv:1708.00786 [cs.CV].[2024-08-19].https://arxiv.org/abs/1708.00786.
[34].FAN D P,GONG C,CAO Y,et al. Enhanced-alignment Measure for Binary Foreground Map Evaluation [J/OL].arXiv:1805.10421 [cs.CV].[2024-08-19].https://arxiv.org/abs/1805.10421.
作者簡(jiǎn)介:劉磊(1995—),男,漢族,四川峨眉山人,主管護(hù)師,本科,研究方向:計(jì)算機(jī)與醫(yī)學(xué)。