曾 安,陳旭宙,姬玉柱,潘 丹,徐小維
(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 廣東 廣州 510006;2.廣東技術(shù)師范大學(xué) 電子與信息學(xué)院, 廣東 廣州 510665;3.廣東省人民醫(yī)院(廣東省醫(yī)學(xué)科學(xué)院) 心外科, 廣東 廣州 510080)
在醫(yī)學(xué)影像分析領(lǐng)域,心臟分割具有至關(guān)重要的意義,因?yàn)樗軌驗(yàn)樾呐K疾病的準(zhǔn)確診斷和治療計(jì)劃提供精確的解剖細(xì)節(jié)信息。先天性心臟缺陷是最常見(jiàn)的出生缺陷[1],研究人員將影像學(xué)和圖形學(xué)應(yīng)用于心臟病的臨床實(shí)踐和醫(yī)學(xué)研究[2]。深度學(xué)習(xí)自2012年AlexNet[3]問(wèn)世以來(lái),在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大的發(fā)展。醫(yī)學(xué)圖像分割使醫(yī)學(xué)影像分析自動(dòng)化,輔助醫(yī)生診斷,提高放射科醫(yī)生效率,支持臨床決策。
U-Net[4]是醫(yī)學(xué)影像分割領(lǐng)域代表性深度學(xué)習(xí)架構(gòu),以對(duì)稱的“U”字型的編碼器-解碼器結(jié)構(gòu)為基礎(chǔ),引入跳躍連接增強(qiáng)特征融合。然而,編碼器池化層中下采樣導(dǎo)致深層網(wǎng)絡(luò)中關(guān)鍵特征損失,而解碼器難以有效恢復(fù)這些特征,降低了醫(yī)學(xué)圖像分割的精度。TransUNet[5]和Swin-UNet[6]通過(guò)引入自注意力機(jī)制來(lái)保留網(wǎng)絡(luò)深層的細(xì)微紋理、不規(guī)則形狀的分割目標(biāo)和目標(biāo)輪廓,但對(duì)于處理三維圖像,二維切片模型容易丟失三維空間上下文信息,從而難以準(zhǔn)確提取特征。UNETR[7]是基于patch塊輸入的三維模型,但網(wǎng)絡(luò)在深層結(jié)構(gòu)沒(méi)有針對(duì)性改進(jìn),導(dǎo)致分割過(guò)程因?yàn)橄虏蓸觼G失深層的細(xì)微血管和器官的輪廓等特征。
為了解決上述問(wèn)題,本文提出一種結(jié)合三維卷積和自注意力機(jī)制的深度學(xué)習(xí)模型(3DCSNet),用于先天性心臟病多類分割。具體地,本文提出三維特征融合模塊(Hybrid Block),從權(quán)重分配的角度出發(fā),自注意力機(jī)制可以更好地在特征圖的通道里的位置信息內(nèi)分配權(quán)重,而卷積更加強(qiáng)調(diào)的是在通道間分配權(quán)重,而不是在通道內(nèi)的位置信息。本文使用并行相加的形式,可以更好地對(duì)下采樣后的信息進(jìn)行特征提取,能夠有效地調(diào)整特征圖通道內(nèi)部和通道之間的權(quán)重。此外,本文還提出了三維空間感知模塊(3D Spatial-Aware Transformer Block),將神經(jīng)網(wǎng)絡(luò)深層維度的信息進(jìn)行尺度統(tǒng)一,再分割成不同的小塊,合并到一維空間上,然后使用自注意力機(jī)制捕捉不同維度之間的相關(guān)性,減少下采樣帶來(lái)的特征損失,進(jìn)一步提升模型的分割性能。
心臟結(jié)構(gòu)分割方式主要有3類:人工分割、傳統(tǒng)圖像處理分割法以及基于深度學(xué)習(xí)的語(yǔ)義分割。醫(yī)生手動(dòng)標(biāo)注心血管CT影像需要專業(yè)知識(shí),耗時(shí)、疲勞易導(dǎo)致準(zhǔn)確性不足,限制了效率和可靠性。
醫(yī)學(xué)計(jì)算機(jī)輔助技術(shù)發(fā)展,結(jié)合傳統(tǒng)區(qū)域算法與人工操作,能顯著提升心臟分割的準(zhǔn)確性。傳統(tǒng)分割法可分為弱先驗(yàn)信息法與強(qiáng)先驗(yàn)信息法。弱先驗(yàn)信息法涉及到較少的空間、強(qiáng)度以及解剖知識(shí),包括基于圖像的方法[8]、像素分類法[9]、可變形模型法[10]以及圖割法[11]。這些方法可能受到先驗(yàn)信息準(zhǔn)確性和數(shù)據(jù)多樣性等方面的限制,心臟分割結(jié)果可能出現(xiàn)邊界模糊等問(wèn)題。強(qiáng)先驗(yàn)信息法[12]運(yùn)用統(tǒng)計(jì)模型學(xué)習(xí)約束分割結(jié)果,從而彌補(bǔ)弱先驗(yàn)信息法的不足。此外,基于形狀先驗(yàn)的可變形模型[13]、基于心臟運(yùn)動(dòng)外觀的模型[14]和基于地圖集的方法[15],其效果受原始數(shù)據(jù)質(zhì)量、心臟運(yùn)動(dòng)和形狀規(guī)律影響,容易過(guò)擬合。
深度學(xué)習(xí)方法依據(jù)輸入的尺寸可分為基于二維切片的模型、基于全尺寸輸入的模型、基于patch塊的模型。基于二維切片的模型有TransUNet、Swin-UNet、APFormer[16]等。其中,TransUNet將Transformer[17]與U-Net結(jié)合,運(yùn)用Transformer的全局自注意力機(jī)制,彌補(bǔ)U-Net難以建模長(zhǎng)距離依賴的不足。Swin-UNet以Swin Transformer[18]替代U-Net中的卷積塊,通過(guò)分層塊內(nèi)的窗口式注意力機(jī)制,強(qiáng)調(diào)了局部區(qū)域內(nèi)的特征交互。APFormer采用自監(jiān)督策略改進(jìn)了Transformer中的自注意力矩陣,以加速模型收斂;運(yùn)用高斯先驗(yàn)知識(shí)引入位置信息,以降低訓(xùn)練復(fù)雜度。上述模型有著計(jì)算效率高和內(nèi)存占用小的優(yōu)勢(shì),但在應(yīng)用于三維心臟數(shù)據(jù)時(shí),因?yàn)榍衅鴣G失三維上下文信息。
基于完整尺寸圖像輸入(Full-image)神經(jīng)網(wǎng)絡(luò)有3D U-Net[19]跟Attention U-Net[20]。其中,3D U-Net是基于U-Net框架的變種,其中所有的二維操作被替換為三維操作,以適應(yīng)三維醫(yī)學(xué)圖像分割任務(wù)。Attention U-Net提出了一種新的關(guān)注門(mén)(Attention Gate,AG)模型,可以抑制醫(yī)學(xué)影像中的不相關(guān)區(qū)域,同時(shí)突出對(duì)目標(biāo)器官有益的顯著特征。以上模型分割結(jié)果有較多誤分類,是因?yàn)楦笊窠?jīng)網(wǎng)絡(luò)尺寸和處理更大心臟圖像尺寸所需的復(fù)雜性增加。
基于三維體積塊(patch)的模型有UNETR、DFormer[21]、nnFormer[22]。其中,UNETR使用Transformer作為編碼器,直接運(yùn)用嵌入的三維體積來(lái)有效地捕獲長(zhǎng)期依賴關(guān)系。D-Former則引入了一種擴(kuò)張式Transformer,通過(guò)交替地應(yīng)用自注意力機(jī)制于局部和全局補(bǔ)丁(patches)的成對(duì)關(guān)系,實(shí)現(xiàn)了擴(kuò)張式的全局自注意。nnFormer運(yùn)用局部和全局自注意力構(gòu)建特征金字塔提供大的感受野,提出了用跳躍注意取代傳統(tǒng)的拼接和求和運(yùn)算。以上網(wǎng)絡(luò)都普遍存在一個(gè)問(wèn)題,即在分割過(guò)程中因?yàn)橄虏蓸涌赡軙?huì)丟失深層信息,這種信息丟失的情況可能會(huì)隨著網(wǎng)絡(luò)的加深而逐漸惡化。
3DCSNet的整體架構(gòu)如圖1所示,其框架基于nnFormer設(shè)計(jì),由編碼器、瓶頸層和解碼器組成。與nnFormer不同的是,在編碼器部分,nnFormer主要是由2個(gè)局部的Transformer塊組成,而本文在第1層使用一個(gè)大尺寸卷積核的三維卷積塊(Large Kernel Convolutional Module,LKCM),如圖2所示,第2層用2個(gè)LKCM串行。在瓶頸層部分,nnFormer主要由3個(gè)全局的Transformer塊組成,而本文主要由三維特征融合模塊(Hybrid Block)、三維空間感知模塊(3D Spatial-Aware Transformer Block,3D-SATB)和信息融合模塊(Cat)組成。在解碼器部分,nnFormer主要由2個(gè)局部的Transformer塊組成,而本文每層是由1個(gè)LKCM構(gòu)成。下采樣采用步長(zhǎng)為2、卷積核為2的卷積,上采樣則采用步長(zhǎng)為2、卷積核為2的轉(zhuǎn)置卷積。
圖1 3DCSNet網(wǎng)絡(luò)架構(gòu)的示意圖Fig.1 Overview of the 3DCSNet architecture
圖2 LKCM網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of the LKCM network
受到Swin Transformer的啟發(fā),本文注意到其有效之處在于將圖像分割成不同的窗口,然后在每個(gè)窗口內(nèi)進(jìn)行自注意力機(jī)制計(jì)算。因此,在LKCM中使用大卷積核(7×7×7)的三維卷積提取特征,捕獲更廣泛的上下文信息。殘差連接使醫(yī)學(xué)圖像信息更容易在網(wǎng)絡(luò)的不同層之間流動(dòng),可以更專注于去捕捉到圖像中的心臟器官,如圖2所示。其計(jì)算過(guò)程如式(1)所示。
式中:f3DC(·)為經(jīng)過(guò)大尺寸三維卷積運(yùn)算,fIN(·)為經(jīng)過(guò)實(shí)例歸一化運(yùn)算,fLR(·)為經(jīng)過(guò)Leaky ReLU激活函數(shù)激活,Zl+1為原始輸入向量Zl和Zl經(jīng)過(guò)大尺寸三維卷積運(yùn)算等操作后相加后再經(jīng)過(guò)Leaky ReLU激活函數(shù)激活后的輸出向量。
受到UNet-2022[23]的啟發(fā),本文提出三維特征融合模塊,由2 個(gè)L K C M 和注意力模塊(S w i n Transformer Block)組成,通過(guò)并行計(jì)算將它們的結(jié)果相加,形成一個(gè)非同構(gòu)塊,如圖3所示。與UNet-2022不同的是,本文采用了基于patch塊的三維模型,而UNet-2022則采用了二維切片模型。三維模型更能有效地利用三維空間的上下文信息進(jìn)行特征提取。此外,3DCSNet沒(méi)有使用深度可分離卷積進(jìn)行特征提取,因?yàn)樯疃瓤煞蛛x卷積會(huì)有部分信息損失。
圖3 三維特征融合模塊Fig.3 3D feature fusion module
從權(quán)重分配的角度來(lái)看,注意力模塊的優(yōu)勢(shì)在于自注意力機(jī)制可以計(jì)算通道內(nèi)不同位置之間的相關(guān)性,將權(quán)重動(dòng)態(tài)分配到不同的空間位置,可以使模型更有針對(duì)性地關(guān)注圖像中重要的區(qū)域。然而,自注意力機(jī)制也有弊端,就是在同一位置的不同通道內(nèi)權(quán)重是一樣的,會(huì)導(dǎo)致模型無(wú)法充分捕捉多通道特征之間的差異性。因?yàn)槊總€(gè)通道代表了圖像中的不同信息(例如紋理、形狀等),如果在同一位置上使用相同的權(quán)重,模型可能無(wú)法對(duì)這些不同通道的特征差異進(jìn)行精細(xì)地建模,可能會(huì)影響模型的分割效果。與此相反的是,三維卷積模塊可以在同一位置的不同通道內(nèi)分配權(quán)重,可以更好地探索在不同通道內(nèi)的特征信息,但是在同一通道內(nèi)的不同位置是共享相同的卷積核權(quán)值的,所以會(huì)缺乏描述深層復(fù)雜空間的能力。因此,本文提出三維特征融合模塊,可以在同一維度的通道內(nèi)以及通道間更有效去分配動(dòng)態(tài)權(quán)重,從而更好地去捕捉三維醫(yī)學(xué)圖像中的復(fù)雜特征。其計(jì)算過(guò)程如式(2)所示。
式中:fLKCM(·)代替式(1)的過(guò)程,fSwin(·)為經(jīng)過(guò)一個(gè)三維Swin Transformer塊處理,Zl+1為Zl分別經(jīng)過(guò)三維Swin Transformer塊和經(jīng)過(guò)2次LKCM塊并行計(jì)算后相加的輸出向量。
在解決醫(yī)學(xué)圖像分割中的尺度變化問(wèn)題時(shí),多維度之間的特征交互非常重要。受到ScaleFormer[24]的啟發(fā),本文提出了三維空間感知模塊,使用自注意力機(jī)制,結(jié)合不同維度的特征信息,進(jìn)行多維度的位置相似性計(jì)算,對(duì)不同維度的特征進(jìn)行權(quán)重分配,這樣可以避免下采樣導(dǎo)致的關(guān)鍵特征丟失,如圖4所示。與ScaleFormer不同,本文采用了基于patch塊的三維模型,而ScaleFormer是基于二維切片模型,這種差異導(dǎo)致了在三維醫(yī)學(xué)圖像上進(jìn)行語(yǔ)義分割時(shí)ScaleFormer容易丟失深度信息,無(wú)法表現(xiàn)出良好的性能。
圖4 三維空間感知模塊Fig.4 3D spatial-aware transformer block
首先,本文采用瓶頸層經(jīng)過(guò)三維特征融合模塊處理后的3個(gè)特征(j=0,1,2),假設(shè)輸入大小是,H、W、D、C分別為輸入的長(zhǎng)寬高和通道數(shù)值。使用全連接對(duì)3個(gè)特征在通道維度進(jìn)行統(tǒng)一尺寸降維處理,通道維度為96。其計(jì)算過(guò)程如式(3)所示。
式中:fFC(·)表示經(jīng)過(guò)全連接處理。
使用窗口分割法,對(duì)3個(gè)特征向量分別進(jìn)行分割,使用窗口大小為6的立方體進(jìn)行分割。3個(gè)特征向量在數(shù)量維度上不一樣,其計(jì)算過(guò)程如式(4)所示。
式中:freshape(·)為分別將3個(gè)變量進(jìn)行分割;其中中的o表示分割窗口的尺寸,在本文中為6;b表示分割后的塊數(shù)量,3個(gè)特征在數(shù)量維度值分別為
在特征堆疊部分,把不同維度的張量在數(shù)量維度上進(jìn)行拼接,堆疊成一個(gè)更大的特征向量。其計(jì)算過(guò)程如式(5)所示。
式中:Cconcat(·,-2)為在倒數(shù)第2個(gè)維度進(jìn)行向量拼接,Xo3×S×96中的S為3個(gè)特征向量的塊數(shù)量維度值的總和。
使用注意力機(jī)制提取不同維度堆疊后的特征,獲取當(dāng)前各個(gè)位置的相關(guān)系數(shù),經(jīng)過(guò)3D Transformer處理后,可以得到相似性矩陣。其計(jì)算過(guò)程如式(6)、(7)所示。
式中:為了簡(jiǎn)化公式表示,這里用向量Zl代替Xo3×S×96。fLN(·)為經(jīng)過(guò)層歸一化處理,fAtten(·)為經(jīng)過(guò)自注意力機(jī)制運(yùn)算,fMLP(·)為經(jīng)過(guò)多層感知器處理。為輸入Zl經(jīng)過(guò)層歸一化后進(jìn)行自注意力機(jī)制運(yùn)算后與Zl進(jìn)行相加的結(jié)果。Zl+1為式(6)的結(jié)果經(jīng)過(guò)層歸一化后進(jìn)行多層感知器處理后與進(jìn)行相加后的結(jié)果。
對(duì)Zl+1按窗口分割層不同維度數(shù)量的塊進(jìn)行分割拆分,將它們恢復(fù)到原始的3個(gè)維度上,然后分別恢復(fù)到每個(gè)維度里的尺寸,最后經(jīng)過(guò)全連接層恢復(fù)到原來(lái)輸入時(shí)的通道維度。這2個(gè)部分的計(jì)算過(guò)程與式(3)、(4)相似,這里不再展示。
在瓶頸層部分的信息融合(Cat)部分,是將三維特征融合模塊和三維空間感知模塊在通道維度進(jìn)行拼接,然后再經(jīng)過(guò)一個(gè)三維點(diǎn)卷積降維回原來(lái)的通道維度。其計(jì)算過(guò)程如式(8)所示。
式中:Hi、Ti、Yi分別為第i層(i= 0,1)的三維特征融合模塊的輸出、三維空間感知模塊輸出以及信息融合模塊的輸出,Cconcat(·,-1)為在最后一個(gè)維度進(jìn)行向量拼接,fConv1×1×1(·)為經(jīng)過(guò)三維點(diǎn)卷積處理。
公開(kāi)的先天性心臟病分類的數(shù)據(jù)集[25](ImageCHD) 是由Siemens Biograph 64位機(jī)器從110名患者中采集的三維計(jì)算機(jī)斷層圖像組成。該數(shù)據(jù)集主要有8個(gè)標(biāo)簽,其中標(biāo)簽0表示背景,標(biāo)簽1~7分別是左心室(Left Ventricle,LV)、右心室(Right Ventricle,RV)、左心房(Left Atrium,LA)、右心房(Right Atrium,RA)、心肌(Myocardium,Myo)、主動(dòng)脈(Aorta,AO)和肺動(dòng)脈(Pulmonary Artery,PA),如圖5所示。根據(jù)數(shù)據(jù)篩選要求,保留了標(biāo)簽為0~7的數(shù)據(jù),并剔除了一些異常樣本。經(jīng)過(guò)篩選后,最終保留了94個(gè)符合條件的樣本。先天性心臟病數(shù)據(jù)集灰度值(Hounsfield Units,HU)一般在0~4 095之間,由于范圍太大,需要將數(shù)據(jù)范圍限制在一個(gè)較小的區(qū)間,模型訓(xùn)練可以集中注意力在感興趣區(qū)域上。因此,需要對(duì)其進(jìn)行截?cái)?,截?cái)嗪蠓秶鸀?00~2 500,然后需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使圖像數(shù)值范圍為0~1??紤]到圖像尺寸過(guò)大且不均勻,本文需要對(duì)數(shù)據(jù)集進(jìn)行下采樣,采用雙三次插值將所有數(shù)據(jù)和標(biāo)簽的大小調(diào)整至256×256×128,以確保一致性,并將標(biāo)簽超過(guò)7的所有標(biāo)簽值置為0。
圖5 ImageCHD標(biāo)簽展示圖Fig.5 ImageCHD label visualization image
本文使用的是Pytorch 1.9框架,代碼使用python3.6編寫(xiě),GPU使用的是RTX3090。在訓(xùn)練過(guò)程中,將數(shù)據(jù)集分為5份,其中4份作為訓(xùn)練集,1份作為測(cè)試集,采用5折交叉驗(yàn)證。考慮到2D分割丟失空間信息,本文決定采用3D卷積訓(xùn)練。使用原始體數(shù)據(jù)進(jìn)行隨機(jī)裁剪,每次裁剪一個(gè)96×96×96的三維patch塊進(jìn)行訓(xùn)練。損失函數(shù)使用DiceCELoss,優(yōu)化器采用AdamW,學(xué)習(xí)率使用余弦退火策略,訓(xùn)練迭代次數(shù)為400代,批量大小為2,目標(biāo)是充分運(yùn)用3D卷積提取空間信息,并通過(guò)余弦退火優(yōu)化模型訓(xùn)練。本文的評(píng)價(jià)指標(biāo)是Dice,計(jì)算過(guò)程如式(9)所示。
式中:|Pre|為預(yù)測(cè)結(jié)果中被預(yù)測(cè)為正類的像素?cái)?shù)量,|GT|為真實(shí)標(biāo)簽中為正類的像素?cái)?shù)量,|Pre∩GT|交集為|Pre|和|GT|交集的像素?cái)?shù)量。a為平滑因子,值為1×10-5,主要是為了避免分母為0。Dice系數(shù)值越大,表示該類別的分割效果越好,相反,Dice系數(shù)值越小,表示該類別的分割效果越差。
模型訓(xùn)練完成后,本文使用滑動(dòng)窗口的方式進(jìn)行推斷。對(duì)于patch投票,本文采用高斯重要性加權(quán)策略,可以在softmax聚合過(guò)程中給予中心像素。在所有網(wǎng)絡(luò)模型進(jìn)行Dice計(jì)算之前,使用scikit-image[26]分析體素形態(tài)連通性,提取前三大連通域,忽略其他連通域,從而優(yōu)化分割結(jié)果。
為了證明3DCSNet的有效性,實(shí)驗(yàn)結(jié)果如表1所示。在ImageCHD數(shù)據(jù)集上分別使用基于2D模型:2D U-Net[4]、TransUNet[5]、Swin-Unet[6]、APFormer[16]、UNet-2022[23]、ScaleFormer[24];基于full-image(完整圖像尺寸輸入)模型:3D U-Net-full[19]、Attention UNet[20];基于patch塊的分割方法:UNETR[7]、DFormer[21]、nnFormer[22]、3D U-Net-patch(使用963patch的3D U-Net[19]模型),進(jìn)行對(duì)比實(shí)驗(yàn)。以上模型以及3DCSNet都進(jìn)行了五折交叉驗(yàn)證,指標(biāo)使用Dice系數(shù),這是一個(gè)比例指標(biāo),表格中的數(shù)值以(平均值±標(biāo)準(zhǔn)差)%的形式呈現(xiàn)。
表1 ImageCHD數(shù)據(jù)集上不同方法的分割性能Table 1 Segmentation performance of different methods on the ImageCHD dataset%
通過(guò)表1可以發(fā)現(xiàn),3DCSNet在ImageCHD數(shù)據(jù)集上7類心臟器官分割的平均Dice系數(shù)是84.44,達(dá)到了最好的分割水平,分別在左右心室、左心房、心肌以及肺動(dòng)脈上都獲得最佳,右心房和主動(dòng)脈均為第2。通過(guò)提高心臟多類分割結(jié)果的準(zhǔn)確性,為先天性心臟病患者的早期預(yù)測(cè)和醫(yī)療輔助提供了有力支持。通過(guò)比較基于卷積的2D U-Net、3D U-Net-patch、3D U-Net-full,可以發(fā)現(xiàn)基于隨機(jī)裁剪成963的patch的方法能夠取得不錯(cuò)的結(jié)果?;诙S神經(jīng)網(wǎng)絡(luò)的方法存在一個(gè)較大的問(wèn)題,即丟失了切片間的信息,無(wú)法充分運(yùn)用3D空間信息,從而導(dǎo)致分割效果不佳。
本文展示了隨機(jī)選取3個(gè)不同的數(shù)據(jù),UNet-2022、ScaleFormer、3D U-Net-full、nnFormer、3DCSNet的分割結(jié)果與真實(shí)標(biāo)簽的可視化對(duì)比。每行表示單個(gè)數(shù)據(jù)實(shí)例在各個(gè)模型中的語(yǔ)義分割圖,每列則展示了同一模型下3個(gè)不同數(shù)據(jù)的語(yǔ)義分割圖,具體示例如圖6所示。從可視化圖中可以得到,UNet-2022和ScaleFormer在其分割結(jié)果中表現(xiàn)出明顯的切片堆積問(wèn)題,這歸因于這些模型使用二維切片作為輸入進(jìn)行訓(xùn)練,導(dǎo)致三維上下文信息的丟失。3D U-Net-full表現(xiàn)出明顯錯(cuò)誤的大連通域,這是由于更大的神經(jīng)網(wǎng)絡(luò)尺寸和處理更大的心臟圖像尺寸所需的復(fù)雜性增加。此外,基于補(bǔ)丁的方法nnFormer減少了分割錯(cuò)誤,但很難捕捉心臟深層特征中的細(xì)微血管或心房心室等器官的不規(guī)則性。本文提出的3DCSNet不僅可以準(zhǔn)確地分割器官,還可以有效地分離器官之間的邊緣,沒(méi)有明顯的像素錯(cuò)誤分類。
圖6 分割結(jié)果可視化Fig.6 Visualization of segmentation results
為了驗(yàn)證三維特征融合模塊和三維空間感知模塊的有效性,本文使用ImageCHD數(shù)據(jù)集進(jìn)行了五折交叉驗(yàn)證的消融實(shí)驗(yàn)。表2中的3DCSNet-SA指的是瓶頸層三維特征融合模塊中移除自注意力機(jī)制層,僅保留卷積部分。另一方面,3DCSNet-SW表示移除三維空間感知模塊和隨后特征融合模塊。在比較3DCSNet-SA和3DCSNet時(shí),很明顯,自注意力機(jī)制模塊的結(jié)合將平均Dice提高了0.58%。這種現(xiàn)象表明,將自注意力模塊整合到網(wǎng)絡(luò)的更深層有利于心臟分割任務(wù)。在比較3DCSNet-SW和3DCSNet時(shí),觀察到三維空間感知模塊的引入將平均Dice提高了0.98%。這驗(yàn)證了心臟分割在探索跨維度的信息特征相互作用的必要性。
表2 消融實(shí)驗(yàn)ImageCHD結(jié)果Table 2 Ablation results on the ImageCHD dataset%
本文提出3DCSNet用于心臟分割任務(wù),通過(guò)引入三維特征融合模塊,將三維卷積和自注意力機(jī)制有機(jī)結(jié)合,運(yùn)用自注意力和三維卷積并行進(jìn)行特征提取,有效地分配特征圖通道內(nèi)部和通道之間的權(quán)重,以更好地保留深層關(guān)鍵特征信息。另外,3DCSNet還提出三維空間感知模塊,通過(guò)結(jié)合三維自注意力機(jī)制,能夠提取不同維度之間的相關(guān)性信息,有效解決了圖像下采樣操作可能導(dǎo)致的信息丟失問(wèn)題,并提高心臟分割的準(zhǔn)確性。盡管在分割過(guò)程中取得了一些進(jìn)展,但仍然面臨著數(shù)據(jù)穩(wěn)定性和個(gè)體差異性等挑戰(zhàn)。未來(lái),將繼續(xù)研究更先進(jìn)的方法,特別是將卷積和自注意力機(jī)制相結(jié)合,以提升分割效果,為臨床醫(yī)學(xué)圖像診療提供可靠的支持。