摘要:針對現(xiàn)有方法在腹部中小器官圖像分割性能方面存在的不足,提出一種基于局部和全局并行編碼的網(wǎng)絡(luò)模型用于腹部多器官圖像分割.首先,設(shè)計(jì)一種提取多尺度特征信息的局部編碼分支;其次,全局特征編碼分支采用分塊Transformer,通過塊內(nèi)Transformer和塊間Transformer的組合,既捕獲了全局的長距離依賴信息又降低了計(jì)算量;再次,設(shè)計(jì)特征融合模塊,以融合來自兩條編碼分支的上下文信息;最后,設(shè)計(jì)解碼模塊,實(shí)現(xiàn)全局信息與局部上下文信息的交互,更好地補(bǔ)償解碼階段的信息損失.在Synapse多器官CT數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與目前9種先進(jìn)方法相比,在平均Dice相似系數(shù)(DSC)和Hausdorff距離(HD)指標(biāo)上都達(dá)到了最佳性能,分別為83.10%和17.80mm.
關(guān)鍵詞:多器官圖像分割;分塊Transformer;特征融合
中圖分類號:TP391.41文獻(xiàn)標(biāo)志碼:A文章編號:1671-5489(2024)05-1145-10
Abdominal Multi-organ Image Segmentation Based onParallel Coding of CNN and Transformer
ZHAO Xin1,LI Sen12,LI Zhisheng2
(1.School of Information Engineering,DalianUniversity,Dalian 116622,Liaoning Province,China;2.Chinese People's Liberation Army 91550,Dalian 116023,Liaoning Province,China)
Abstract:Aiming at the shortcomings of existing methods in the image segmentation performance of small and medium-sized organs in the abdomen,we proposed a network model based on local and global parallel coding for multi-organ image segmentation in the abdomen.Firstly,a local coding branch was designed to extract multi-scale feature information.Secondly,the global feature coding branch adopted the block Transformer,which not only captured the global long distance dependency information but also reduced the computation amount through the combination of intra-block Transformer and inter-block Transformer.Thirdly,a feature fusion module was designed to fuse the context information from two coding branches.Finally,the decoding module was designed to realize the interaction between global information and local context information,so as to better compensate for the information loss in the decoding stage.Experiments were conducted on the Synapse multi-organ CT dataset,compared with the current nine advanced methods,the average Dice similaritycoefficient(DSC)and Hausdorff distance(HD)indicators achieve the best performance,with 83.10%and 17.80 mm,respectively.
Keywords:multi-organ image segmentation;blockTransformer;feature fusion
腹部器官的CT(computed tomography)影像分割是實(shí)現(xiàn)腹部疾病智能診斷的前提和基礎(chǔ).通過分割出感興趣的腹部器官區(qū)域,可以使智能診斷系統(tǒng)的注意力集中在特定的器官上,使系統(tǒng)更易檢測到器官內(nèi)潛在的異常病變,為后續(xù)的病灶自動分析與評估提供依據(jù),腹部多器官分割對放化療計(jì)劃的制定也非常重要,分割出感興趣的腹部器官區(qū)域可以幫助放療醫(yī)生評估病變與周圍器官的關(guān)系,以確定適當(dāng)?shù)姆派渲委焺┝亢驼丈浞秶?腹部多器官分割結(jié)果還可與實(shí)時(shí)手術(shù)導(dǎo)航相結(jié)合,為外科醫(yī)生提供精確的導(dǎo)航和定位信息,減少手術(shù)風(fēng)險(xiǎn)和損傷周圍健康組織的可能性,因此,設(shè)計(jì)一種高效、準(zhǔn)確的腹部多器官圖像分割模型對輔助臨床治療有重要意義.
目前,腹部多器官圖像分割方法可分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法兩大類,早期的研究主要集中在單個大器官圖像的分割上,如肝臟或腎臟,此后,多器官分割研究引起廣泛關(guān)注.傳統(tǒng)方法多采用基于器官結(jié)構(gòu)先驗(yàn)知識或多圖譜匹配的方法分割腹部器官圖像.但這些方法需要人工參與,導(dǎo)致圖像分割結(jié)果依賴于人為操作,準(zhǔn)確性較低.近年來,深度學(xué)習(xí)在醫(yī)學(xué)圖像分割領(lǐng)域取得極大進(jìn)展,目前已有許多基于深度學(xué)習(xí)的腹部多器官圖像分割方法,如文獻(xiàn)[5]在Unet基礎(chǔ)上通過使用可分離卷積代替普通卷積和一種自定義加權(quán)訓(xùn)練損失,在腹部圖像中完成了肝臟、腎臟、肺和膀胱的分割.由于卷積操作的局部感受野限制,因此單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行腹部多器官分割可能無法充分捕捉到全局上下文信息,而腹部器官之間的相互關(guān)系和空間布局對準(zhǔn)確分割至關(guān)重要,僅使用局部感受野的特征提取無法捕獲到器官的全局結(jié)構(gòu)和彼此之間的相互關(guān)系,為克服該問題,研究人員提出了一些解決方案,其中常用的方法是引入跳躍連接或多尺度特征融合機(jī)制,跳躍連接可以在不同層級上連接局部和全局特征,使網(wǎng)絡(luò)能同時(shí)獲得局部和全局上下文信息.多尺度特征融合則通過在不同尺度上進(jìn)行特征提取,并將這些特征進(jìn)行融合,以獲得更全面的信息.如Sinha等提出了一種多尺度引導(dǎo)注意力機(jī)制算法(MS-Dual),使用多個ResNet提取不同尺度的特征,并在跳躍連接處用注意力機(jī)制挖掘這些特征完成了肝臟和腎臟的分割.文獻(xiàn)[4]提出了UCTransNet網(wǎng)絡(luò)模型,該模型以U-Net為基礎(chǔ),在跳躍連接處先用通道式交叉融合轉(zhuǎn)換器(CCT)整合多尺度上下文信息,再利用通道交叉注意力(CRES)解決語義層次的不一致問題,以提升分割性能.自然語言處理中的Transformer已被證明在學(xué)習(xí)計(jì)算機(jī)視覺的全局上下文特征方面有效,于是有研究人員開始關(guān)注Transformer在腹部多器官圖像分割中的研究[610],在肝臟、脾臟等大型器官的圖像分割上取得了進(jìn)一步提升,如Chen等6提出了TransUNet網(wǎng)絡(luò)結(jié)構(gòu),使用Transformer將CNN特征圖編碼為輸入序列,利用解碼器對編碼特征進(jìn)行上采樣,并與高分辨率CNN特征圖組合,實(shí)現(xiàn)精準(zhǔn)定位.Cao等提出了Swin-UNet網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)主要是基于Swin Transformer block構(gòu)建了編碼器-解碼器體系結(jié)構(gòu),在編碼器中實(shí)現(xiàn)了從局部到全局的自注意力機(jī)制;在解碼器中,將全局特征上采樣到輸入分辨率,并進(jìn)行分割預(yù)測.Huang等提出了MISSFormer網(wǎng)絡(luò)結(jié)構(gòu),MISSFormer將輸入圖像劃分為重疊塊,通過多層次編碼器生成多尺度特征,并在跳躍連接處通過Transformer獲取局部和全局信息,最后通過解碼器進(jìn)行上采樣,得到判別性分層多尺度特征,Transformer模型更注重全局信息的建模,能更好地捕捉長距離的依賴關(guān)系,在處理腹部多器官圖像的全局特征方面更有效,但其在處理圖像局部方面能力相對較弱,雖然通過適當(dāng)?shù)奈恢镁幋a能提供一定程度的局部信息,但相對于傳統(tǒng)的CNN模型,Transformer在處理局部信息方面仍顯不足[1
CNN具有局部感知性,可更好地捕獲局部模式和順序信息.通過將CNN和Transformer相結(jié)合,可以更充分地引入局部信息.因此,本文提出一種基于CNN和Transformer相結(jié)合的腹部多器官圖像分割模型BCNet(block former and CNN parallel encoding of segmentation networks),通過設(shè)計(jì)兼顧全局與局部特征提取的雙分支并行編碼結(jié)構(gòu)融合局部和全局信息.本文工作的創(chuàng)新主要體現(xiàn)在提出一種基于Transformer編碼和帶有注意力引導(dǎo)與殘差連接的多尺度卷積編碼的雙線并行編碼框架,以有效融合全局和局部信息,從而更好地實(shí)現(xiàn)腹部多器官圖像分割.
1本文方法
如圖1所示,BCNet包括兩個編碼分支:局部特征編碼分支和全局特征編碼分支,局部特征編碼分支采用局部特征提取模塊進(jìn)行特征編碼,專注局部特征提取.全局特征編碼分支側(cè)重全局特征提取,采用分塊Transformer,通過塊內(nèi)Transformer和塊間Transformer的組合,既捕獲了全局的長距離依賴信息又降低了計(jì)算量.模型首先基于全局與局部上下文交互信息,特征融合模塊從空間維度增強(qiáng)CNN編碼分支的局部細(xì)節(jié),并抑制無關(guān)區(qū)域,從通道維度提升了Transformer分支的全局信息;然后將其與交互信息進(jìn)行殘差連接,從而實(shí)現(xiàn)了特征信息的有效融合;最后設(shè)計(jì)解碼模塊作為解碼結(jié)構(gòu),解決了普通卷積對上下文信息利用不足的問題,從而提高了圖像分割性能.
1.1局部特征編碼模塊
為提取腹部器官圖像的多尺度特征,設(shè)計(jì)局部特征編碼模塊,該模塊利用分組卷積與殘差連接相結(jié)合的方式,在更細(xì)粒度級別表示多尺度特征,并通過坐標(biāo)注意力[2],使其既可以捕獲多尺度特征,又可以捕獲位置敏感信息,如圖2所示.首先,將特征圖X分成4組,除第一組外其他組都有相應(yīng)的3×3卷積核,每個3×3卷積操作都可以通過殘差連接融合上一組的特征信息;其次,將所有特征圖進(jìn)行拼接,實(shí)現(xiàn)在更細(xì)粒度級別表示多尺度特征y,為在多尺度特征圖基礎(chǔ)上捕獲位置敏感信息,兩個一維全局池化操作分別將垂直和水平方向的輸入特征聚合成兩個獨(dú)立的方向感知映射,隨后將垂直和水平兩個方向的注意力進(jìn)行矩陣相乘,獲取特征圖y坐標(biāo)注意力p,并將坐標(biāo)信息p嵌入到特征圖y中,從而生成權(quán)重特征圖X;最后,將特征圖X和原圖X進(jìn)行線性融合,從而生成多尺度殘差坐標(biāo)注意力特征圖.
1.2分塊Transformer
傳統(tǒng)CNN在處理每個像素時(shí)只考慮局部的感受野,無法建立圖像中像素之間的長距離依賴關(guān)系,這種處理模式不能很好地解讀腹部各器官在位置上的相對依賴關(guān)系.但Transformer技術(shù)可以通過自注意力機(jī)制在全局范圍內(nèi)對圖像進(jìn)行建模,從而更好地理解像素之間的語義關(guān)系,提高圖像分割的準(zhǔn)確性.因此,本文在模型中引入Transformer技術(shù)進(jìn)行腹部多器官圖像的全局依賴特征提取,設(shè)計(jì)一種基于分塊的Transformer模塊(B-Transformer),通過將輸入數(shù)據(jù)分成若干塊,每塊內(nèi)進(jìn)行塊內(nèi)Transformer操作,并在塊間進(jìn)行塊間Transformer操作,以實(shí)現(xiàn)更高效的計(jì)算和更好的并行性,如圖3所示.全局編碼分支的前兩層使用步長為2、大小為3×3的卷積對輸入圖像進(jìn)行處理,以獲取初步的淺層特征圖,然后傳輸給分塊Transformer模塊,如圖1所示.在圖3中,經(jīng)過淺層處理后的特征圖首先被輸入到塊內(nèi)Transformer的特征提取流程,計(jì)算每個分塊內(nèi)像素間的長距離依賴關(guān)系,處理結(jié)果與淺層輸入拼接后經(jīng)過3×3的卷積進(jìn)行特征融合,然后再傳輸給塊間Transformer的特征提取流程,進(jìn)而生成全局上下文信息
1.2.1塊內(nèi)Transformer
塊內(nèi)Transformer是在每個塊內(nèi)部進(jìn)行的操作,其結(jié)構(gòu)與傳統(tǒng)的Transformer相似,包含自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò).塊內(nèi)Transformer將注意力放在當(dāng)前塊內(nèi)的元素之間,使其可以在每個塊內(nèi)部并行計(jì)算,提高計(jì)算效率.塊內(nèi)Transformer首先對輸入特征圖X∈RC×HXW進(jìn)行3×3卷積,以獲取特征圖中的局部空間信息和順序信息,并利用1×1卷積擴(kuò)大特征圖的通道生成Xc∈RmHxW,以增強(qiáng)表達(dá)能力.對Xc進(jìn)行分塊(Patch)生成Xc∈RHxW×dm后,再將X展開為N個不重疊的序列化集合Xv∈RNxPxdm.若Patch的高和寬分別為h和w,則P=h×w,N=HXW,其中N表示Patch的數(shù)量.每個Patch用Transformer[5]計(jì)算獲得塊內(nèi)像素間的長距離依賴信息XL(n)∈RN×P×dm,用公式表示為
其中Xv(n)表示某個指定Patch的空間信息,X(n)表示對應(yīng)Patch的塊內(nèi)像素間的長距離依賴信息.
1.2.2塊Transformer
塊間Transformer是在塊之間進(jìn)行的操作,其目的是在不同的塊之間建立聯(lián)系,使塊之間的信息可以傳遞和交流,從而使不同塊之間的信息得到有效整合并生成全局依賴表達(dá).塊內(nèi)Transformer的輸出XL經(jīng)過與輸入特征圖X拼接,生成融合信息Y∈RC×H×m,為增強(qiáng)表達(dá)能力,首先對Y進(jìn)行1×1卷積將其映射到高維空間,生成Xg∈RdmH×W,為方便操作,通過對Xg進(jìn)行reshape生成XE∈RHXWxdm后,再將X展開為P個不重疊的相對位置序列化集合X∈RPXNxdm,而每個相對位置序列化集合表示所有Patch某個相對位置對應(yīng)像素的空間信息集合.若Patch的高和寬分別為h和w,則N=×,表示相對位置特征塊的大小,P=hw,表示相對位置特征塊的數(shù)量.每個相對位置特征塊用Transformer5]計(jì)算獲得所有Patch相對位置對應(yīng)像素之間的長距離依賴信息X(p)∈RPX NXdim,用公式表示為
其中X(p)表示所有Patch某個相對位置對應(yīng)像素的空間信息,X(p)表示所有Patch相對位置對應(yīng)像素之間的全局上下文信息,由于在塊內(nèi)Transformer每個像素已經(jīng)與塊內(nèi)的所有像素建立了相關(guān)性,所以X中的每個像素都可以通過Patch相對位置對應(yīng)像素間接與X。中的其他像素建立相關(guān)性,從而實(shí)現(xiàn)建模全局上下文.最后與輸入特征圖X拼接,生成融合信息Y∈RC×HXW.
1.3特征融合模塊
設(shè)計(jì)特征融合模塊的目的是為有效結(jié)合來自 CNN 編碼的局部上下文信息及 Transformer編碼的全局上下文信息,以提高圖像分割性能.如圖4所示,ti表示 Transformer輸入的特征圖,gi表示 CNN 輸入的特征圖.ti有兩條分支,一條是經(jīng)過 SE通道注意力[13]與gi經(jīng)空間注意力[14]做拼接處理;另一條是與gi做點(diǎn)積運(yùn)算,以獲取來自兩條編碼分支的交互信息.最后,使用1×1卷積對融合信息進(jìn)行升通道,生成bi,并與拼接部分做殘差處理, 從而生成的融合信息fi 可有效地捕獲當(dāng)前空間分辨率的全局和局部上下文信息.在此過程中,ti使用 SE 通道注意力主要是為從全局角度對 Transformer輸入的特征圖進(jìn)行把握,得到t′i ;而gi使用空間注意力主要是為從細(xì)節(jié)角度對 CNN 編碼的特征圖進(jìn)行把握,得到g′i.
1.4解碼模塊
由于腹部各器官圖像形態(tài)差異較大,所以在解碼過程中,需要充分利用上下文信息,因此本文設(shè)計(jì)了基于上下文Transformer[13]的解碼模塊,以實(shí)現(xiàn)特征圖的局部上下文與全局上下文的有效融合.模塊的輸入來自雙編碼分支對應(yīng)層的特征融合與上采樣圖經(jīng)過跨層連接生成的特征圖X.輸入的特征圖X分別經(jīng)過3條不同的路徑處理,如圖5所示.由圖5可見:第一條路徑首先對輸入進(jìn)行3×3卷積,以實(shí)現(xiàn)輸入的靜態(tài)上下文表示L;與第二條路徑的原始輸入拼接后,通過兩個連續(xù)的1×1卷積和reshape生成動態(tài)多頭注意力矩陣,該矩陣由原始輸入X與局部上下文信息L交互得到,從而在局部上下文信息的引導(dǎo)下,各像素之間的關(guān)聯(lián)性均體現(xiàn)在每個3×3的張量上,再對每個3×3張量進(jìn)行平均池化生成自注意力圖;第三條路徑對輸入首先進(jìn)行3×3卷積,然后經(jīng)過與自注意力圖點(diǎn)乘,以實(shí)現(xiàn)輸入的全局上下文表示M.最后,將靜態(tài)上下文表示L與全局上下文M通過疊加進(jìn)行特征信息融合,以增強(qiáng)在解碼過程中的特征表達(dá)能力.
2實(shí)驗(yàn)與結(jié)果討論
2.1數(shù)據(jù)集
實(shí)驗(yàn)采用的數(shù)據(jù)集是MICCAI2015多圖譜腹部標(biāo)記挑戰(zhàn)賽的Synapse多器官CT數(shù)據(jù)集,其中共有30名患者提供3779張軸向腹部臨床CT切片.本文隨機(jī)選取18個樣本(共2211張軸向切片)作為訓(xùn)練集,12個樣本作為測試集,在訓(xùn)練過程中隨機(jī)選擇6個樣本作為驗(yàn)證集.為防止模型因數(shù)據(jù)樣本過少而出現(xiàn)過擬合,對訓(xùn)練集中的圖像分別進(jìn)行水平翻轉(zhuǎn)和90°,180°,270°旋轉(zhuǎn),將訓(xùn)練集中樣本擴(kuò)大為原來的5倍.
2.2實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)使用的設(shè)備是NVIDIA GeForce RTX3090GPU顯卡,內(nèi)存為22GB,深度學(xué)習(xí)框架為Pytorch1.9.1.輸入圖像大小設(shè)為224×224,在Transformer分支編碼器上patch size分別設(shè)為8,4,2,batch size設(shè)為4.為更好地解決訓(xùn)練樣本不平衡問題,網(wǎng)絡(luò)模型在訓(xùn)練過程中使用FLm訓(xùn)練BCNet:
其中c表示當(dāng)前樣本的類別,a表示類別c對應(yīng)的權(quán)重,p表示輸出概率分布對類別c的概率值,超參數(shù)y設(shè)為2.采用學(xué)習(xí)率為0.01,權(quán)重衰減為0.0001的SGD優(yōu)化器進(jìn)行訓(xùn)練,批處理量(batchsize)設(shè)為4,迭代次數(shù)設(shè)為300.
2.3評價(jià)指標(biāo)
為驗(yàn)證本文網(wǎng)絡(luò)模型的有效性,采用DSC(平均Dice相似系數(shù))和HD(平均Hausdorff距離)兩個性能指標(biāo)對模型圖像分割結(jié)果的準(zhǔn)確性進(jìn)行評估,其中:Dice是常用于評價(jià)醫(yī)學(xué)圖像分割的標(biāo)準(zhǔn)指標(biāo),標(biāo)簽與分割結(jié)果的重合面積越大,數(shù)值越大;Hausdorff距離是在度量空間中任意兩個集合之間定義的一種距離,表示分割結(jié)果與標(biāo)簽兩個點(diǎn)集之間最短距離的最大值.這兩個評價(jià)指標(biāo)分別表示為
其中A和B分別表示標(biāo)簽和預(yù)測的結(jié)果,d(a,b)表示a,b兩點(diǎn)之間的歐氏距離.本文采用DSC作為評價(jià)指標(biāo),對8個腹部器官(主動脈、膽囊、左腎、右腎、肝臟、胰腺、脾臟、胃)圖像進(jìn)行測試.
2.4結(jié)果與分析
為驗(yàn)證本文網(wǎng)絡(luò)模型的性能和分割結(jié)果,將BCNet與9種先進(jìn)的醫(yī)學(xué)圖像分割方法進(jìn)行比較.表1列出了各方法的性能指標(biāo),所有方法的結(jié)果均取自原文獻(xiàn).由表1可見,BCNet在評估指標(biāo)平均DSC和HD上取得了最佳性能,分別為83.10%和17.80mm.與傳統(tǒng)的UNet算法相比,BCNet在平均DSC上提高了6.25個百分點(diǎn).此外,傳統(tǒng)的U型編碼器-解碼器結(jié)構(gòu)(如U-Net和AttentionUNet)由于卷積操作的制約,特征提取感受野大小受卷積核大小限制,難以捕獲全局特征信息,從而導(dǎo)致肝臟、腎臟、脾臟、胃等較大器官的圖像分割效果不如UNet與Transformer相結(jié)合的網(wǎng)絡(luò)模型.將UNet與Transformer相結(jié)合的網(wǎng)絡(luò)模型在處理局部信息方面仍顯不足,導(dǎo)致在小型器官(如膽囊、主動脈)的圖像分割方面性能并不理想.而BCNet成功地解決了Transformer忽略局部特征的缺點(diǎn),并結(jié)合了傳統(tǒng)卷積編碼的優(yōu)勢,在腹部多器官圖像分割方面性能優(yōu)異.特別是在中小型器官(如膽囊、左腎、右腎)的分割方面,與MISSFormer相比,BCNet的分割精度分別提高了4.10,3.92,6.78個百分點(diǎn).
由于部分文獻(xiàn)采用的數(shù)據(jù)集劃分是21個樣本作為訓(xùn)練集,9個樣本作為測試集,訓(xùn)練過程中選擇6個樣本作為驗(yàn)證集,并用DSC作為評價(jià)指標(biāo).現(xiàn)將BCNet做相同的數(shù)據(jù)集劃分進(jìn)行對比實(shí)驗(yàn),并對訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng).表2列出了重新劃分?jǐn)?shù)據(jù)集后不同方法在Synapse多器官CT數(shù)據(jù)集上的分割效果對比.由表2可見,BCNet在保證肝臟、腎臟、脾臟精度的同時(shí),在主動脈、膽囊、胰腺以及胃部的器官圖像分割上有進(jìn)一步提升,并且平均DSC相比UNETR提升了1.55個百分點(diǎn).
2.5視覺效果
為清楚地顯示本文方法(BCNet)的效果,可視化了本文方法與其他方法的分割效果,如圖6所示.由圖6可見,傳統(tǒng)的卷積編碼器-解碼器結(jié)構(gòu)對邊界信息不夠敏感,易出現(xiàn)過度分割的問題,例如,在第一行中,胃被UNet,Attention UNet過度分割;在第五行中,肝臟被其他模型過度分割.UNet與Transformer相結(jié)合的網(wǎng)絡(luò)模型雖然對邊界信息較敏感,但由于一些特征的丟失,易出現(xiàn)分割不足的問題.例如,在第四行中,Swin-Unet未能將膽囊預(yù)測出來,而BCNet正確預(yù)測了膽囊;在第二行中,CoT-TransUNet,Swin-UNet對右腎的分割出現(xiàn)誤分,而BCNet正確預(yù)測了右腎;在第一行和第三行中,CoT-TransUNet,Swin-UNet,TransUNet對胰腺的預(yù)測出現(xiàn)缺失,而BCNet正確預(yù)測了胰腺,并保留了很好的邊界信息.實(shí)驗(yàn)結(jié)果表明,本文方法對中小型腹部器官圖像的分割效果較好,將CNN局部上下文信息與Transformer全局上下文信息進(jìn)行融合,使BCNet更注重邊界信息,實(shí)現(xiàn)了更好的邊緣預(yù)測.
2.6消融實(shí)驗(yàn)
為進(jìn)一步研究本文算法各模塊的性能,設(shè)計(jì)消融實(shí)驗(yàn)驗(yàn)證局部特征提取模塊(Res)、分塊Transformer(Bvit)、解碼模塊(CoT)3個關(guān)鍵組件的有效性.表3列出了本文算法各組件消融實(shí)驗(yàn)結(jié)果.為更好地提取腹部各器官圖像的多尺度特征,在實(shí)驗(yàn)1中,以UNet作為基本模型驗(yàn)證其對結(jié)果的影響.實(shí)驗(yàn)2~4中,在基本模型上添加了Res,Bvit和CoT,以驗(yàn)證該模塊的性能.在實(shí)驗(yàn)5~7中,進(jìn)行了Res,Bvit和CoT的成對組合,以驗(yàn)證模塊之間相互作用對基本模型的影響,在實(shí)驗(yàn)8中,將3個模塊組合在一起,以驗(yàn)證Res,Bvit和CoT之間的相互作用可提高基本模型的預(yù)測精度.
由表3可見,實(shí)驗(yàn)2在Synapse多器官CT數(shù)據(jù)集上的性能優(yōu)于實(shí)驗(yàn)1,說明使用多尺度殘差坐標(biāo)注意力模塊進(jìn)行編碼,不僅可以進(jìn)一步提取多尺度特征,而且可以從位置信息角度提升圖像分割效果.通過比較實(shí)驗(yàn)1和實(shí)驗(yàn)4以及實(shí)驗(yàn)5和實(shí)驗(yàn)8可以發(fā)現(xiàn),平均DSC顯著提高,平均Hausdorff距離顯著降低.這主要是因?yàn)镃oTNet相較于普通卷積可以充分利用局部上下文信息,從而更好地完成解碼過程.通過比較實(shí)驗(yàn)1和實(shí)驗(yàn)3表明,以并行方式結(jié)合Transformer和CNN對圖像進(jìn)行編碼比單一使用CNN對圖像進(jìn)行編碼效果更好.由實(shí)驗(yàn)6和實(shí)驗(yàn)8可見,通過引入Bvit可以在不損失大型器官圖像分割準(zhǔn)確性的情況下,極大提高中小型器官圖像的分割性能,尤其像胰腺這種邊界模糊的器官.
表4列出了不同模型的性能及計(jì)算復(fù)雜度,由表4可見,在與目前幾種主流的網(wǎng)絡(luò)進(jìn)行比較后,相比于其他引入注意力機(jī)制的網(wǎng)絡(luò),例如TransUNet和Swin-UNet,BCNet的參數(shù)數(shù)量更少,推理時(shí)間更快,計(jì)算復(fù)雜度(GFLOPs)更低,更輕量化.說明分塊Transformer不僅可以保證模型圖像分割的精確度,而且可以減少計(jì)算量.
綜上所述,針對現(xiàn)有方法在腹部中小器官圖像分割性能方面存在的不足,本文提出了一種新的融合CNN與Transformer雙重編碼結(jié)構(gòu)的網(wǎng)絡(luò)模型(BCNet).BCNet由局部特征編碼分支和全局特征編碼分支組成,通過特征互補(bǔ)模塊實(shí)現(xiàn)融合,使用解碼模塊進(jìn)行解碼,克服了普通卷積對上下文信息利用不足的問題,提高了分割性能,可為輔助醫(yī)生診斷提供有效的幫助.
參考文獻(xiàn)
[1]SINHA A.DOLZ J.Multi-scale Self-guided Attention for Medical Image Seg mentation[J].IEEE Journal of Biomedical and Health Informatics,2020,25(1):121-130.
[2] BERZOINI R.COLOMBO A A,BARDINI S,etal.An Optimized U-Net for Unbalanced Multi-organ Segmentation[C]//2022 44th Annual International Conference of the IEEE Engineering in Medicine 8.Biology Society(EMBC).Piscataway,NJ:IEEE,2022:3764-3767.
[3]LU H C,TIAN S W,YU L,etal.Medical Image Segmentation Using Boundary-Enhanced Guided Packet Rotation Dual Attention Decoder Network[J].Technology and Health Care,2022,30(1):129-143.
[4]WANG H N.CAO P,WANG J Q.et al.Uctransnet:Rethinking the Skip Connections in U-Net from a Channel-Wise Perspective with Transformer C]//Proceedings of the AAAI Conference on Artificial Intelligenee.PaloAlto:AAAI Press,2022:2441-2449.
[5]DOSOVITSKIY A,BEYER L.KOLESNIKOV A,etal.An Image Is Worth 16X16 Words:Transformers for Image Recognition at Scale[EB/OL].(2020-10-22)[2023-02-01].https:/arxiv.org/abs/2010.11929.
[6] CHEN J N,LU Y Y,YU Q H,etal.Transunet:Transformers Make Strong Encoders for Medical Image Segmentation[EB/OL].(2021-02-08)[2023-03-10].https:/arxiv.org/abs/2012.04306.
[7]PETIT O,THOME N,RAMBOUR C,etal.U-Net Transformer:Self and Cross Attention for Medical Image Segmentation[C]//Machine Learning in Medical Imaging:12th International Workshop.Berlin:Springer,2021:267-276.
[8]CAO H,WANG Y Y,CHEN J,etal.Swin-Unet:Unet-Like Pure Transformer for Medical Image Segmentation[C]//European Conference on Computer Vision.Berlin:Springer,2022:205-218.
[9]YAOC,HU M H,ZHAI G T,etal.TransclawU-Net:Claw U-Net with Transformers for Medical Image Segmentation[EB/OL].(2021-07-12)[2023-03-12].https://arxiv.org/abs/2107.05188.
[10]HUANG X H,DENG Z F,LID D,etal.Missformer:An Effective Medical Image Segmentation Transformer[EB/OL].(2021-09-15)[2023-01-15].https:/arxiv.org/abs/2109.07162.
[11]LIU Y,ZHANG Y.WANG Y X,etal.A Survey of Visual Transformers[J].IEEE Transactions on Neural Networks and Learning Systems,2023,35(6):7478-7498.
[12]HOU Q B.ZHOU D Q,F(xiàn)ENG J S.Coordinate Attention for Efficient Mobile Network Design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2021:13713-13722.
[13]LI Y H,YAO T,PAN Y W,etal.Contextual Transformer Networks for Visual Recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,45(2):1489-1500.
[14]WOO S,PARK J,LEE J Y,etal.Cbam:Convolutional Block Attention Module[C]//Proceedings of the European Conference on Computer Vision(ECCV).New York:ACM,2018:3-19.
[15]OKTAY O,SCHLEMPER J,F(xiàn)OLGOC L L,etal.AttentionU-Net:Learning Where to Look for the Pancreas[EB/OL].(2018-04-11)[2022-12-15].https://arxiv.org/abs/1804.03999.
[16]ZHENG P F.MT-ONet:Mixed Transformer O-Net for Medical Image Segmentation[C]//2022 International Conference on Sensing,Measurementamp;Data Analytics in the Era of Artificial Intelligence(ICSMD).Piscataway.NJ:IEEE,2022:1-4.
[17]楊鶴,柏正堯.CoT-TransUNet:輕量化的上下文Transformer醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(3):218-225.(YANG H,BAI Z Y.CoT-TransUNet:Lightweight Contextual Transformer MedicalImage Segmentation Network[J].Journal of Computer Engineeringamp;Applications,2023,59(3):218-225.)
[18]ISENSEE F,J?GER P F,KOHL S A A,etal.Automated Design of Deep Learning Methods for Biomedical Image Segmentation[EB/OL].(2019-04-17)[2023-01-15].https:/arxiv.org/abs/1904.18128.
[19]XIE Y T,ZHANG J P,SHEN C H,etal.Cotr:Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation[C]//Medical Image Computing and Computer Assisted Intervention.Berlin:Springer,2021:171-180.
[20]HATAMIZADEH A,TANG Y,NATH V,etal.Unetr:Transformers for 3D Medical Image Segmentation[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE,2022:574-584.
(責(zé)任編輯:韓嘯)