中圖分類號:TP399 文獻標(biāo)志碼:A 文章編號:1673-3851(2025)07-0571-09
引用格式:,.FCT-Net:基于CNN與Transformer雙分支并行融合的斑馬魚心臟圖像分割網(wǎng)絡(luò)模型J.浙江理工大學(xué)學(xué)報(自然科學(xué)),2025,53(4):571-579.
Abstract: To address the issue of insufficient accuracy in medical image segmentation caused by the blurred contours of zebrafish heart images,a novel network model called FCT-Net (fusion convolutiontransformer network)is proposed,which integrates CNN and Transformer. This model is based on the classic encoder-decoder architecture and a dual-branch parallel feature fusion module is constructed. Specifically,the CNN branch is utilized to extract local tissue features.To overcome the limitation of a single convolutional kernel in covering multi-scale features,a multi-scale feature fusion mechanism is introduced within the convolutional module,and a multi-receptive field feature pyramid is built to enhance the representation capability of edge details. The Transformer branch is employed to capture long-range global contextual dependencies,achieving effective fusion of local features and global semantics. Experimental results demonstrate that FCT-Net improves the accuracy by 5.8% compared to the baseline U-Net model in the task of zebrafish heart image segmentation,effectively enhancing the precision of heart contour segmentation. With its high-precision zebrafish heart segmentation capability,this model can provide relatively reliable algorithmic support for the subsequent drug screening studies based on the morphological characteristics of the zebrafish heart.
Key words: zebrafish; heart image;CNN; Transformer; multi-scale feature fusion
0 引言
近年來,斑馬魚模型在心臟功能研究領(lǐng)域取得了較為明顯的進展,通過分析斑馬魚心臟形態(tài)可以為藥物篩選和疾病機理探索等生物醫(yī)學(xué)研究提供數(shù)據(jù)支持[1-2],但現(xiàn)有的斑馬魚心臟形態(tài)分析方法仍面臨不少挑戰(zhàn)。傳統(tǒng)的分析方式依賴于人工操作,將斑馬魚置于顯微鏡下進行觀察,這種方式不僅費時費力,還受操作者主觀判斷的影響,容易引入主觀誤差,導(dǎo)致數(shù)據(jù)準確性和一致性下降,同時也增加了實驗成本[3-4]。因此,現(xiàn)有方法通常采用計算機圖像處理來分析斑馬魚的心臟形態(tài),其中關(guān)鍵的步驟是斑馬魚心臟圖像分割。然而,斑馬魚體內(nèi)心臟區(qū)域的圖像高度透明且結(jié)構(gòu)復(fù)雜,圖像中各組織結(jié)構(gòu)的邊界較為模糊,這給心臟圖像分割和特征提取帶來了較大難度,限制了對心臟微小結(jié)構(gòu)變化的精準捕捉,不利于后續(xù)生物醫(yī)學(xué)研究[5-7]。另外,由于斑馬魚心臟是動態(tài)變化的,在連續(xù)圖像采集和處理過程中,對數(shù)據(jù)處理速度、圖像質(zhì)量以及存儲等方面提出了更高要求,進一步加大了實驗實施的復(fù)雜性。因此,亟需構(gòu)建更有針對性的圖像分割模型,以降低人工干預(yù)的影響,提高圖像處理的準確性和效率,從而實現(xiàn)更精準、標(biāo)準化的心臟功能評估,進而為藥物篩選和心臟疾病治療研究提供技術(shù)支撐[8-11]。
醫(yī)學(xué)圖像分割的主要方法可分為傳統(tǒng)圖像處理方法與深度學(xué)習(xí)方法,近年來,深度學(xué)習(xí)方法憑借強大的特征提取能力,迅速成為該領(lǐng)域的研究熱點與應(yīng)用主流。在眾多深度學(xué)習(xí)模型中,U-Net模型憑借其對稱的U型架構(gòu)和獨特的跳躍連接機制,在醫(yī)學(xué)圖像分割任務(wù)中表現(xiàn)出色,成為目前應(yīng)用最為廣泛的模型。然而,U-Net在復(fù)雜邊緣建模及小目標(biāo)分割方面仍有一定局限性,為此研究者們不斷對其架構(gòu)進行迭代優(yōu)化,研究重點主要聚焦于多尺度特征融合機制、注意力機制以及動態(tài)結(jié)構(gòu)探索等[12]U-Net十十通過密集跳躍連接重構(gòu)特征傳遞路徑,并利用嵌套子網(wǎng)絡(luò)增強跨層級特征的復(fù)用性,但該模型也引入了較高的計算復(fù)雜度[13];DP-UNet十十進一步整合了可變形卷積與動態(tài)池化模塊,并通過自適應(yīng)感受野調(diào)整提升對不規(guī)則目標(biāo)的形變建模能力,但動態(tài)計算顯著影響了推理效率[14];Attention
U-Net引入了門控空間注意力機制,通過動態(tài)特征加權(quán)抑制了背景干擾并聚焦關(guān)鍵區(qū)域,但該模型在全局上下文建模上存在不足[15];TransUNet融合了Transformer與U-Net架構(gòu),并借助自注意力機制捕捉全局依賴關(guān)系,但存在顯存與計算資源的巨大消耗問題[16]。針對斑馬魚心臟圖像分割的問題,上述模型表現(xiàn)并不理想,主要歸因于兩大挑戰(zhàn):一是模型效率與分割精度的平衡難題,這直接關(guān)系模型在臨床應(yīng)用中的實用性和可靠性;二是小樣本情境下模型的泛化能力不足,特別是在精確描繪斑馬魚心臟邊緣結(jié)構(gòu)時表現(xiàn)較差。
針對上述問題,本文提出了一種融合CNN與Transformer的新型網(wǎng)絡(luò)模型—FCT-Net(Fusionconvolution-transformernetwork),通過融合不同尺度和層次的圖像特征,在提升模型分割精度的同時兼顧運行效率,增強模型在小樣本情境下的魯棒性。FCT-Net在經(jīng)典編碼器-解碼器架構(gòu)基礎(chǔ)上,構(gòu)建了雙分支并行特征融合模塊。一方面,通過CNN分支捕獲局部組織特征,同時針對單一卷積核特征提取的局限性,在卷積模塊中引入多尺度特征融合機制,通過構(gòu)建多感受野特征金字塔來提升心臟邊緣特征的表達能力;另一方面,通過Transformer分支捕捉全局上下文依賴關(guān)系,以實現(xiàn)局部特征與全局語義的有效融合。本文構(gòu)建的FCT-Net模型通過雙分支并行特征融合的方法,提升了斑馬魚心臟圖像細節(jié)結(jié)構(gòu)的分割精度,減少圖像模糊導(dǎo)致的誤判誤差,為后續(xù)基于斑馬魚模型的藥物篩選研究提供可靠的算法支撐。
網(wǎng)絡(luò)模型構(gòu)建
本文構(gòu)建了CNN與Transformer雙分支并行特征融合模塊,該模塊通過構(gòu)建卷積局部感知與自注意力全局建模的深度融合機制,在特征編碼階段實現(xiàn)多尺度全局信息的動態(tài)融合。其中空間細節(jié)增強單元可以有效提取心臟輪廓邊緣的紋理特征,而跨層特征交互組件通過建立長程依賴關(guān)系精準刻畫心臟形態(tài)學(xué)特征,最終提升對斑馬魚心臟細微結(jié)構(gòu)的分割精度。
1. 1 FCT-Net網(wǎng)絡(luò)模型
FCT-Net采用基于U-Net的模型框架,針對斑馬魚心臟圖像邊緣模糊、局部特征捕捉不足的問題重新進行了設(shè)計,通過特征融合編碼器模塊來處理下采樣過程產(chǎn)生的多尺度特征。相比于U-Net標(biāo)準架構(gòu),F(xiàn)CT-Net增強了對斑馬魚心臟局部紋理和全局結(jié)構(gòu)信息的表達能力。
FCT-Net網(wǎng)絡(luò)模型如圖1所示。FCT-Net網(wǎng)絡(luò)整體可分為下采樣(Conv-Downsampling)、跳層連接(SkipConnection)和上采樣(Conv-
Upsampling)等3個部分。該網(wǎng)絡(luò)模型在下采樣過程中通過FCT-Module進行特征提取,該模塊包含兩部分:一是利用CNN提取斑馬魚心臟圖像中的局部特征;二是借助Transformer模塊捕捉全局上下文依賴關(guān)系。上采樣部分則將經(jīng)過融合處理的特征圖逐步生成最終的心臟掩碼圖。而跳層連接部分負責(zé)在下采樣與上采樣之間實現(xiàn)特征的直接傳遞與融合。
1. 2 CNN和Transformer融合架構(gòu)的特征融合模塊
在斑馬魚心臟圖像分割任務(wù)中,下采樣過程對結(jié)構(gòu)細節(jié)的捕獲具有決定性作用。針對傳統(tǒng)U-Net
因單一卷積核感受野受限導(dǎo)致的紋理信息衰減問題,以及由于深層特征語義鴻溝引發(fā)的邊緣模糊現(xiàn)象,本文提出了特征融合模塊,其核心設(shè)計如圖2所示。
1. 2.1 CNN分支模塊
CNN分支模塊(CNN-Encoder)如圖2所示,
CNN分支采用漸進式特征抽象策略,通過漸進式下采樣與通道擴展實現(xiàn)從像素級細節(jié)到器官級語義的編碼;每個階段包含2層相同的卷積殘差單元,其核心結(jié)構(gòu)由 1×1 通道壓縮卷積、 3×3 深度可分離卷積及 3×3 通道擴展卷積串聯(lián)構(gòu)成;通道壓縮層通過降維減少計算冗余,深度可分離卷積在提取局部空間特征的同時保留心肌細胞邊界的亞像素細節(jié),擴展卷積則恢復(fù)通道維度以匹配輸入尺寸,最終通過殘差連接將擴展特征與原始輸人相加,有效緩解梯度消失問題。
針對單尺度卷積感受野受限的缺陷,設(shè)計多尺度特征融合模塊(Mutil ScaleFeatureFusion,MSFF)以增強特征表達能力。其核心架構(gòu)如圖3所示,該模塊同步采用 3×3.5×5.7×7 等3種卷積核并行提取多粒度特征:小核聚焦心臟邊界的高頻紋理,中核捕獲心室壁的中尺度形態(tài),大核刻畫心腔整體輪廓特征,將各自捕獲的信息進行串行拼接,在特征通道壓縮的同時融合多尺度特征信息,并加入殘差連接以防止網(wǎng)絡(luò)層數(shù)過深引起的退化現(xiàn)象。
1. 2.2 Transformer分支模塊
Transformer分支(Transformer-Encoder)基于VisionTransformer框架改進,其核心架構(gòu)如圖2所示,通過堆疊 N 個定制化Transformer塊捕捉全局上下文依賴關(guān)系。每個Transformer塊由多頭自注意力(Multi-HeadAttention,MSA)模塊與局部增強型Multi-LayerPerceptron(MLP)模塊級聯(lián)構(gòu)成,其中:在MSA 模塊前通過LayerNorm對特征進行實例歸一化,采用特征通道壓縮策略使得計算復(fù)雜度降低,同時保留心室-心房的長程空間關(guān)聯(lián)性;MLP模塊嵌入擴展-壓縮全連接層,其中擴展層將特征維度進行提升以增強非線性表達能力,壓縮層恢復(fù)原始維度以避免信息冗余。為了進一步強化局部特征感知,在MLP中插入 3×3 深度卷積層,對特征Patch進行隱式編碼,替代顯式位置,消除因人工設(shè)計與心臟結(jié)構(gòu)偏差導(dǎo)致的定位誤差。
CNN與Transformer分支輸出的多模態(tài)特征分別承載了局部細節(jié)與全局語義信息,通過通道拼接與動態(tài)融合實現(xiàn)互補增強。將同層級的CNN特征圖與Transformer特征圖沿通道維度拼接,利用1×1 卷積執(zhí)行跨模態(tài)特征融合。該卷積層通過可學(xué)習(xí)權(quán)重矩陣篩選與心臟解剖相關(guān)的顯著性通道,抑制血流偽影等噪聲干擾,最終生成兼具局部精細結(jié)構(gòu)與全局信息的融合特征。該設(shè)計使模型在無需顯式位置編碼的情況下,仍能保持對斑馬魚心臟動態(tài)形變的高精度分割能力。
2實驗設(shè)計與結(jié)果分析
2. 1 實驗設(shè)計
2.1.1 實驗環(huán)境
實驗使用的操作系統(tǒng)為Windowsl1專業(yè)版,深度學(xué)習(xí)框架為PyTorchl.12.1。硬件配置中CPU為 AMD Ryzen 7 7840H,自 帶 Radeon 780MGraphics,3.8OGHz,內(nèi)存16.O GB,GPU為NVIDIAGeForceRTX4060。使用Anaconda來進行編程環(huán)境搭建,在Anaconda中安裝Python3.9作為編程語言使用Pytorch框架,并用PyCharm作為集成開發(fā)環(huán)境,進行基本的程序運行和模型搭建。
本文基于斑馬魚心臟圖像構(gòu)建了一個經(jīng)過數(shù)據(jù)增強處理的數(shù)據(jù)集,該數(shù)據(jù)集包含5400張高質(zhì)量圖像樣本。采用嚴格的數(shù)據(jù)分割策略,將其按照8:1:1的比例劃分為訓(xùn)練集、驗證集和測試集3個獨立子集。訓(xùn)練集包含4320張圖像,用于模型參數(shù)學(xué)習(xí);驗證集和測試集各包含540張圖像,分別用于超參數(shù)調(diào)優(yōu)和最終性能評估。在模型訓(xùn)練階段,采用具有自適應(yīng)學(xué)習(xí)率特性的Adam優(yōu)化器進行參數(shù)更新,受限于GPU顯存容量,批處理量設(shè)置為3,以保證訓(xùn)練穩(wěn)定性。
2.1.2 實驗參數(shù)設(shè)置
本文建立了系統(tǒng)的驗證機制,以監(jiān)控模型訓(xùn)練動態(tài)。在每個訓(xùn)練周期結(jié)束后,模型在驗證集上執(zhí)行前向推理并計算平均Dice系數(shù),特別是設(shè)計模型保存策略時,考慮到訓(xùn)練初期參數(shù)空間尚未穩(wěn)定的特點,設(shè)置80個epoch的緩沖期后才啟動最優(yōu)模型保存機制,即僅當(dāng)當(dāng)前epoch的驗證集Dice系數(shù)超越歷史最佳表現(xiàn)時,才將當(dāng)前模型參數(shù)存檔。整個訓(xùn)練過程持續(xù)200個完整epoch,最終選取全訓(xùn)練周期中驗證集性能最優(yōu)的模型參數(shù)作為最終產(chǎn)出模型。該實驗參數(shù)設(shè)計方法通過緩沖期設(shè)置有效規(guī)避了早期過擬合風(fēng)險,同時200個epoch的充分訓(xùn)練周期保障了模型收斂的完備性;驗證集Dice系數(shù)的持續(xù)監(jiān)測機制為模型選擇提供了可靠的量化依據(jù),確保獲得泛化性能最優(yōu)的解決方案。
2.1.3 數(shù)據(jù)采集與處理
本文使用實驗室定制的自動化采集系統(tǒng)獲取斑馬魚心臟圖像,該系統(tǒng)配備NikonAZ1OO顯微鏡,采集高清PNG圖像。成像過程中,斑馬魚置于毛細玻璃管內(nèi),通過步進電機旋轉(zhuǎn)并結(jié)合位姿識別算法調(diào)整拍攝角度,確保多角度精準采集。同時,系統(tǒng)利用虹吸作用控制水流,結(jié)合夾管閥實現(xiàn)斑馬魚的自動化裝載與定位,并通過液面差控制與位姿校準機制提升圖像質(zhì)量一致性。
此外,采用多階段數(shù)據(jù)處理方案,以提高模型泛化能力。首先,應(yīng)用旋轉(zhuǎn)、垂直翻轉(zhuǎn)和水平翻轉(zhuǎn)等3種數(shù)據(jù)增強方法,有效提升模型對斑馬魚心臟形態(tài)變化的適應(yīng)能力。數(shù)據(jù)增強處理示例圖像如圖4所示,這些增強操作在不破壞心臟生物結(jié)構(gòu)真實性的前提下,顯著增加了訓(xùn)練數(shù)據(jù)的多樣性,既能防止過擬合,又增強了模型對不同空間方位樣本的識別魯棒性。其次,使用Labelme軟件摳圖生成二值化標(biāo)簽,并通過JSON文件高效管理圖像-標(biāo)簽關(guān)系。為了進一步提升模型性能,利用深度學(xué)習(xí)特征遷移算法合成虛擬數(shù)據(jù),以優(yōu)化大模型預(yù)訓(xùn)練并緩解過擬合問題。最后,完成訓(xùn)練數(shù)據(jù)集的構(gòu)建,進行FCT-Net網(wǎng)絡(luò)模型的迭代優(yōu)化與參數(shù)調(diào)優(yōu)。
2. 2 實驗結(jié)果
2.2.1 消融實驗
為驗證特征融合模塊(FCT-Module)對紋理信息衰減與邊緣模糊問題的改進效果,本文基于U-Net架構(gòu)設(shè)計消融實驗,設(shè)置以下對照組:
Base:基準模型,使用標(biāo)準U-Net中的上、下采樣模塊和簡單的跳躍連接;
Inception:Inception 模塊;
ASPP:空洞空間金字塔池化模塊;
MSFF:多尺度特征融合模塊;
TE:Transformer分支模塊;
CE:CNN分支模塊;
FCT:CNN與Transformer協(xié)同架構(gòu)的特征融合模塊。
本文采用下列指標(biāo)評價不同模型的分割結(jié)果:
PixelAccuracy:像素準確率,衡量像素分類準 確程度,正確預(yù)測像素數(shù)與總像素數(shù)比值的百分比。
Dice系數(shù):衡量預(yù)測結(jié)果與真實標(biāo)簽重疊程度,取值范圍為0到 100% ,值越高表示分割效果越好。
IoU:交并比,預(yù)測結(jié)果與真實標(biāo)簽交集和并集比值的百分比,綜合反映定位和分割準確性。
Params:模型參數(shù)數(shù)量,指模型中可學(xué)習(xí)參數(shù)數(shù)量,反映模型復(fù)雜度,單位為M(百萬)。
表1給出了不同模型的分割結(jié)果。由表1可以看出,特征融合模塊(FCT-Module)在斑馬魚心臟圖像分割任務(wù)中實現(xiàn)了一定的精度提升。基準模型(Base)采用傳統(tǒng)CNN結(jié)構(gòu),由于單一尺度卷積核的局限性及淺層特征表達能力的受限,其Dice系數(shù)僅為 85.31% ,IoU為 83.64% ,表明模型在分割精度方面的表現(xiàn)較差,特別是在邊緣模糊區(qū)域的細節(jié)
識別上容易丟失信息。
在此基礎(chǔ)之上,加入多尺度特征提取模塊(Inception、ASPP、MSFF),模型的局部特征提取能力得到增強,并進行模型對比。其中,Inception模塊通過多尺度并行卷積,增強了對不同粒度特征的建模能力,使Dice系數(shù)達到 86.58% ,IoU 為85.69% ;ASPP模塊利用不同擴張率的空洞卷積,擴展了感受野,在增強全局信息建模的同時保留了更多細節(jié)信息,使Dice系數(shù)達到 86.30% ,IoU 為86.47% ;相比Inception和ASPP結(jié)構(gòu),多尺度特征融合模塊(MSFF)更加強調(diào)跨尺度信息的整合,最終Dice系數(shù)提升至 87.31% ,IoU達到 86.92% ,表明該模塊在不同尺度特征的融合上更具優(yōu)勢。
為了增強全局信息建模能力,加人Transformer分支(TE),Dice系數(shù)提升至 87.62% IoU提高至 86.18% 。這表明模型在整體形態(tài)一致性方面得到了優(yōu)化,能夠更好地捕捉長距離依賴關(guān)系。然而,Transformer主要建模全局信息,在局部邊緣的精細處理上仍存在不足,導(dǎo)致心臟邊界易受誤分割影響。
相比單獨使用Transformer分支(TE),采用CNN分支(CE)后,模型的局部特征提取能力進一步增強,Dice系數(shù)提升至 88.06% ,IoU增加至
87.34% 。這種提升主要歸因于CNN的多尺度卷積結(jié)構(gòu)可以提取不同尺度的信息,提高了模型對邊緣和細節(jié)特征的刻畫能力,使得分割結(jié)果更加精細。然而,由于CNN主要依賴局部特征提取,在邊緣區(qū)域仍然存在誤分割問題,尤其在目標(biāo)與背景對比度較低的情況下,模型可能難以區(qū)分相似結(jié)構(gòu),影響整體分割精度。
完整的特征融合模塊(FCT-Module)整合了Transformer分支和CNN分支,通過并行融合方式,使Dice系數(shù)達到 90.71% ,IoU提升至89.77% 。這一模塊的主要優(yōu)勢體現(xiàn)在:結(jié)合了Transformer的全局建模能力,提升整體形態(tài)一致性,使目標(biāo)區(qū)域的邊界更加平滑;融合了CNN的多尺度特征提取方式,增強局部細節(jié)的捕捉能力,使得目標(biāo)區(qū)域的分割更加精準,降低誤分割率,在背景復(fù)雜、目標(biāo)易混淆的情況下,提高模型的魯棒性。
盡管完整的特征融合完整的模塊的參數(shù)量增加至 78.50M (較Base增加 131% ),計算成本有所上升,但其在斑馬魚心臟圖像分割任務(wù)中的性能提升較為明顯,為心臟圖像分析提供了更可靠的解決方案。綜合來看,完整的特征融合模塊在像素級精度、Dice系數(shù)和IoU指標(biāo)上均優(yōu)于其他方法,展現(xiàn)出更好的全局-局部特征融合能力。
消融實驗各模塊可視化如圖5所示。圖5顯示:基準模型(Base)在斑馬魚心臟圖像分割任務(wù)中存在較為明顯的邊緣模糊和誤分割問題,特別是在低對比度區(qū)域,心臟與背景的分界不夠清晰。引入Transformer分支(Base + TE)后,模型的全局形態(tài)一致性得到了提升,使得心臟區(qū)域的完整性有所改善。然而,由于Transformer主要關(guān)注長距離依賴關(guān)系,在局部細節(jié)的處理上仍然存在一定不足,導(dǎo)致邊緣模糊的現(xiàn)象仍未得到根本性解決。
采用Inception結(jié)構(gòu)(Base + Inception)后,多尺度特征提取能力得到了增強,使得模型可以捕捉不同尺度的心臟邊緣信息,分割結(jié)果在細節(jié)表達上有所提升。然而,由于其仍然依賴CNN進行特征提取,缺乏全局建模能力,在復(fù)雜背景下仍可能出現(xiàn)邊界不清或誤分割的情況。類似地,ASPP結(jié)構(gòu)(Base十ASPP)通過多尺度空洞卷積增強了對不同尺度目標(biāo)的感知能力,使得邊緣細節(jié)略有改善,但仍然存在局部區(qū)域誤融合的問題。
引入多尺度特征融合(Base + MSFF)后,模型進一步增強了局部細節(jié)的分割能力,使得心臟的分割精度得到了提升,并減少了小目標(biāo)區(qū)域的誤分割現(xiàn)象。然而,由于缺乏全局特征的有效約束,在形態(tài)一致性方面仍存在一定的優(yōu)化空間。相比之下,CNN分支(Base十CE)進一步強化了模型對局部特征的表達能力,使得Dice系數(shù)達到了 88.06% ,邊緣細節(jié)刻畫更加精準,但在復(fù)雜區(qū)域的分割仍然可能受到背景干擾的影響。
完整特征融合模塊 (Base+FCT) 結(jié)合了Transformer的全局建模能力和CNN的局部特征增強能力,使得心臟的分割精度得到進一步提升,并在形態(tài)一致性上達到了最優(yōu)。該模塊不僅提高了模型的抗干擾能力,還能更有效地區(qū)分低對比度區(qū)域中的細節(jié),使得Dice系數(shù)提升至 90.71% ,IoU達到89.77% ,在多個模型中表現(xiàn)最優(yōu)。這表明,通過融合全局與局部特征,F(xiàn)CT-Net在斑馬魚心臟圖像分割任務(wù)中展現(xiàn)出了更強的魯棒性和精確性。
2.2.2 對比實驗
本文對比了3個經(jīng)典雙分支架構(gòu)模型Swin-Unet、CoTr、TransUNet。Swin-Unet采用純Transformer結(jié)構(gòu),結(jié)合Swin Transformer與U-Net架構(gòu),通過窗口自注意力和移位窗口機制,實現(xiàn)局部與全局特征的交互。其優(yōu)勢在于能夠適應(yīng)高分辨率圖像(如病理切片、遙感圖像)處理,同時保持Transformer強大的全局建模能力。然而,由于窗口化注意力的局限性,對小目標(biāo)的分割可能不夠精準。
TransUNet采用CNN與Transformer串聯(lián)的設(shè)計,利用VisionTransformer作為編碼器提取全局特征,并在解碼階段通過CNN進行特征重建。其優(yōu)勢體現(xiàn)在對醫(yī)學(xué)圖像的多器官聯(lián)合分割等需要廣泛上下文信息的任務(wù)上,能夠捕獲遠程依賴關(guān)系。然而,由于VisionTransformer需要將輸人圖像分塊,會導(dǎo)致細節(jié)信息丟失,影響小目標(biāo)的分割精度,且計算開銷較大。
CoTr采用CNN與Transformer交替堆疊的方式,每個階段先用CNN提取局部特征,再用Transformer進行全局建模,實現(xiàn)漸進式特征融合。該方法兼顧邊緣細節(jié)和長距離依賴,適合處理小目標(biāo)分割任務(wù)。雖然該結(jié)構(gòu)在模糊任務(wù)上表現(xiàn)優(yōu)異,但由于其固定的交替堆疊方式,可能在時序建模和動態(tài)形變捕捉方面有所限制。
本文搭建的FCT-Net網(wǎng)絡(luò)模型采用CNN與Transformer并聯(lián)的設(shè)計,在編碼器中針對不同尺度的特征同時使用CNN和Transformer,分別提取局部特征和全局信息,從而實現(xiàn)更加充分的信息融合。相比于Swin-Unet的純Transformer結(jié)構(gòu),F(xiàn)CT-Net通過并聯(lián)CNN保留了更多的細節(jié)信息,增強了對小目標(biāo)的識別能力;相比TransUNet采用CNN僅在解碼階段進行重建,F(xiàn)CT-Net在編碼階段就同時融合了局部和全局特征,提高了語義理解能力;而相較于CoTr的交替堆疊方式,F(xiàn)CT-Net采用并聯(lián)結(jié)構(gòu),使得局部和全局特征能夠在每個階段同步提取并融合,提升了分割精度,更加適用于具有復(fù)雜紋理結(jié)構(gòu)的圖像分割任務(wù)。
為系統(tǒng)驗證所提出的FCT-Net的有效性與泛化能力,本文選取醫(yī)學(xué)圖像分割領(lǐng)域5個代表性模型—U-Net、UNet+ + 、DP-UNet++、TransUNet與FCT-Net進行對比實驗;同時,采用了與消融實驗相同的訓(xùn)練參數(shù),以便對比?;鶞誓P蚒-Net采用經(jīng)典的對稱編解碼結(jié)構(gòu),通過跳躍連接實現(xiàn)淺層細節(jié)與深層語義的初步融合,為后續(xù)改進提供基礎(chǔ)框架;UNet十十通過引入密集嵌套跳躍連接,構(gòu)建多層級特征聚合路徑,在提升微小目標(biāo)分割精度的同時,因密集連接導(dǎo)致參數(shù)量增加約 45.3% ; DP-UNet十十進一步整合可變形卷積與動態(tài)池化技術(shù),其可調(diào)節(jié)感受野特性增強了對不規(guī)則生物組織的形變適應(yīng)能力;TransUNet采用CNN-Transformer串行架構(gòu),利用自注意力機制建立長程空間依賴關(guān)系,但其分階段特征處理模式易導(dǎo)致全局與局部信息交互不足,各網(wǎng)絡(luò)模型的分割結(jié)果如表2所示。
表2顯示:FCT-Net在斑馬魚心臟分割任務(wù)中表現(xiàn)較好,像素精度( 94.07% 、Dice系數(shù)(90.71%) 及 IoU(89.77%) 均顯著優(yōu)于對比模型,其中Dice系數(shù)較側(cè)重形變建模的DP-UNet十十提升 2.66% ,較依賴密集連接的 UNet++ 提升3.82% ,驗證了FCT-Net采用的多模態(tài)特征協(xié)同機制的有效性。同時,F(xiàn)CT-Net通過CNN-Transformer并行架構(gòu),在 78.50M 參數(shù)量下實現(xiàn)性能突破——其參數(shù)量僅為TransUNet的 84.2% ,而Dice系數(shù)反超 3.06% ,且較UNet十十系列模型雖參數(shù)量增加 47.8% ,卻通過特征融合實現(xiàn)精度明顯提升。
代表性模型與FCT-Net的圖像分割結(jié)果示例圖像如圖6所示。圖6表明:FCT-Module通過局部-全局特征融合的方法,在提升分割精度的同時,控制了模型復(fù)雜度,實現(xiàn)了參數(shù)量與性能的高效平衡。相較于傳統(tǒng)CNN或Transformer單一架構(gòu),F(xiàn)CT-Net采用CNN-Transformer并行架構(gòu),能夠充分捕捉局部信息與全局上下文依賴關(guān)系,從而在保持較低計算成本的前提下,實現(xiàn)對斑馬魚心臟復(fù)雜形態(tài)的精確分割。此外,其較高的Dice系數(shù)和IoU表現(xiàn)進一步驗證了多模態(tài)特征協(xié)同機制在醫(yī)學(xué)圖像分割任務(wù)中的有效性,為未來輕量化、高精度的醫(yī)學(xué)圖像分析模型設(shè)計提供了新的思路和方向。
2.2.3 統(tǒng)計顯著性檢驗
為了探究本文所提出的FCT-Net網(wǎng)絡(luò)模型是否具有真實有效性,本文在數(shù)據(jù)集上進行了五折交叉驗證,并以Dice系數(shù)為基礎(chǔ),開展統(tǒng)計顯著性檢驗,計算對應(yīng)的 P 值。 P 值是在假定原假設(shè)成立的情況下,觀察到的樣本數(shù)據(jù)或者更極端情況出現(xiàn)的概率。在本文中,原假設(shè)通常是FCT-Net網(wǎng)絡(luò)模型的效果沒有真實有效性,即模型的表現(xiàn)是由隨機噪聲等因素造成的。若 P 值小于0.05,則說明在統(tǒng)計學(xué)意義上,F(xiàn)CT-Net的性能表現(xiàn)與噪聲影響下的表現(xiàn)存在顯著差異,表明模型性能的提升具有可靠性和穩(wěn)定性,能夠有效反映其在目標(biāo)任務(wù)中的處理能力與優(yōu)勢;反之,若 P 值大于等于0.05,則無法拒絕零假設(shè),即不能排除模型性能提升是由隨機因素引起的可能性,此時需進一步審查模型設(shè)計、數(shù)據(jù)特征或?qū)嶒炘O(shè)置,以尋找更加有效的改進路徑與驗證方法,確保模型的實際有效性和可應(yīng)用性。在本次檢驗中,選取經(jīng)典基準模型U-Net與提出的FCT-Net進行對比分析。其他對比模型已具備較強的應(yīng)用驗證基礎(chǔ),本文重點關(guān)注U-Net與FCT-Net之間的差異性。
U-Net與FCT-Net的五折檢驗Dice系數(shù)如表3所示。由表3可見:FCT-Net在各折驗證中的Dice系數(shù)均顯著高于U-Net,進一步采用配對樣本Ψt 檢驗對兩個模型在五折交叉驗證下的表現(xiàn)進行統(tǒng)計分析,計算得出的 P 值為 1.73×10-7 ,遠小于顯著性水平O.05,表明FCT-Net相較于U-Net的性能提升具有較高的統(tǒng)計顯著性。這進一步說明了FCT-Net的性能優(yōu)勢并非由偶然因素導(dǎo)致,而是體現(xiàn)了其在該任務(wù)中的有效性和魯棒性。
3結(jié)語
本文提出了一種融合CNN與Transformer的斑馬魚心臟圖像分割網(wǎng)絡(luò)模型(FCT-Net),采用經(jīng)典的編碼器-解碼器架構(gòu),構(gòu)建了兼顧局部細節(jié)與全局特征的雙分支并行架構(gòu),提升了心臟建模能力,增強對復(fù)雜背景和低對比度區(qū)域的適應(yīng)性,且在動態(tài)成像偽影干擾下依然實現(xiàn)穩(wěn)定且高精度的分割效果,較好地解決了斑馬魚心臟圖像中因邊緣輪廓模糊導(dǎo)致的分割精度不足問題。實驗結(jié)果表明,與傳統(tǒng)的U-Net模型相比,該模型在斑馬魚心臟圖像分割任務(wù)中的Dice系數(shù)有較為明顯的提升,局部邊界分割準度得到改善,有效提高了心臟輪廓的分割精度。
盡管本文提出的模型分割精度有所提升,但模型參數(shù)量也相應(yīng)增加。在對比度較低或特征模糊的區(qū)域,模型對心臟動態(tài)形變的適應(yīng)性仍顯不足,導(dǎo)致分割效果略有下降;同時模型在應(yīng)對高動態(tài)變化場景下的魯棒性仍有待加強。此外,當(dāng)前圖像標(biāo)注過程仍依賴人工操作,訓(xùn)練集存在一定的主觀性,影響了分割結(jié)果的客觀性。未來研究可在優(yōu)化數(shù)據(jù)標(biāo)注流程的同時,降低模型計算復(fù)雜度,并探索更高效的特征融合方法,以進一步提升系統(tǒng)的實用性與可靠性。
參考文獻:
[1]馬海鋼,吳家輝,朱亞輝,等.面向先進生物醫(yī)學(xué)應(yīng)用的光聲顯微成像術(shù)(特邀)[J].激光與光電子學(xué)進展,2024,61(6):115-144.[2」蔡海麗,張曉朦,劉亞迪,等.藥源性心臟毒性模型的構(gòu)建與評價
[3] Castranova D, Samasa B, Venero Galanternik M, et al. Longterm imaging of living adult zebrafish[J]. Development,2022, 149(4):dev199667.
[4]Hasani H, SunJ, Zhu SI,et al. Whole-brain imaging of freelymoving zebrafish[J]. Frontiers in Neuroscience,2O23,17: 1127574.
[5]李浩宇,曲麗穎,華子杰,等.基于深度學(xué)習(xí)的熒光顯微成像技術(shù) 及應(yīng)用[J].激光與光電子學(xué)進展,2021,58(18):185-204.
[6] Zhang B,Pas K E, Ijaseun T,et al. Automatic segmentation and cardiac mechanics analysis of evolving zebrafish using deep learning[J]. Frontiers in Cardiovascular Medicine,2021,8: 675291.
[7]Naderi A M,Bu H,Su J,et al. Deep learning-based framework for cardiac function assessment in embryonic zebrafish from heart beating videos[J]. Computers in Biology and Medicine, 2021,135:104565.
[8] Wang N,Dong G,Qiao R,et al. Bringing artificial Intelligence (AI) into environmental toxicology studies: A perspective of AIenabled zebrafish high-throughput screening[J]. Environmental Science amp;. Technology,2024, 58(22): 9487-9499.
[9]Kim J,Yuk H,Choi B,et al. New machine learning-based automatic high-throughput video tracking system for assessing water toxicity using Daphnia Magna locomotory responses[J]. Scientific Reports,2023,13:3530.
[10] Wang B,Sun Q,Liu Y,et al. Inteligent larval zebrafish phenotype recognitionvia attention mechanism for highthroughput screening[J]. Computers in Biology and Medicine, 2025,188:109892.
[11] Huang M H,Naderi A M, Zhu P,et al. Assessing cardiac functions of zebrafish from echocardiography using deep learning[J]. Information,2023,14(6):341.
[12] Ni J,Mu W, Pan A,et al. Rethinking the encoder-decoder structure in medical image segmentation from releasing decoder structure[J]. Journal of Bionic Engineering,2O24, 21(3): 1511-1521.
[13] Micallef N, Seychell D,Bajada C J. Exploring the U-net++ model for automatic brain tumor segmentation [J]. IEEE Access,2021,9:125523-125539.
[14] Zhou Z W,Rahman Siddiquee M M, Tajbakhsh N,et al. (204 UNet++ : A nested U-Net architecture for medical image segmentation[C]// Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Cham: Springer International Publishing,2O18:3-11.
[15]Das N,Das S. Attention-UNet architectures with pretrained backbones for multi-class cardiac MR image segmentation[J]. Current Problems in Cardiology,2024,49(1):102129.
[16] Yu J,Qin J,Xiang J,et al. Trans-UNeter:a new decoder of TransUNet for medical image segmentation[C]//2023 IEEE International Conference on Bioinformatics and Biomedicine (BIBM).IEEE,2023:2338-2341.
(責(zé)任編輯:康 鋒)