中圖分類號:TP391.41 文獻標志碼:A
心血管疾病是全球主要的死亡和致殘原因之一。根據世界衛(wèi)生組織(WHO)的數(shù)據[,每年約有1790萬人死于心血管疾病,占總死亡人數(shù)的三分之一。這些疾病嚴重威脅人類健康和生活質量。心動超聲視頻能幫助醫(yī)生評估心臟結構和功能,診斷冠心病、高血壓、慢性心力衰竭和心律失常等疾病,制定有效的治療方案,提高診斷的準確性和效率。
超聲心動圖分割是心動超聲視頻研究中的關鍵任務。在傳統(tǒng)的診斷過程中,醫(yī)生需要手工描繪左心室內膜邊界[3],以測量左心室容積和射血分數(shù)等臨床指標,如 ASM[4] 和 APM[5] ,這種醫(yī)學圖像分割方法需要大量的特征工程知識或先驗知識才能獲得令人滿意的精度。隨著深度學習算法的日益革新,超聲心動圖分割逐漸被應用于醫(yī)學圖像分割方法中[,在有效緩解醫(yī)生繁重工作的同時帶來了更準確的分割效果。例如, TRAN[7] 是最早將全卷積網絡(FCN)應用于左心室和右心室分割的研究者之一,他們的工作顯著提升了心臟圖像分割的準確性。SHELHAMER等[8進一步改進了FCN的架構,使其在語義分割任務中表現(xiàn)優(yōu)異。RON-NEBERGER等[9提出U-Net結構,通過使用跳躍連接保留高分辨率特征信息,顯著提升了醫(yī)學圖像分割的性能。CICEK等[°擴展了U-Net,使其適用于三維醫(yī)學圖像分割。OKTAY等[1]引入了注意力機制,提出了AttentionU-Net,進一步提升了分割性能。
近年來,基于Transformer的算法也在醫(yī)學圖像分割中展現(xiàn)出優(yōu)越的性能。例如,CHEN 等[12]提出的TransUNet結合了Transformer和U-Net的優(yōu)點,將Transformer應用于編碼器部分,保留了U-Net的跳躍連接機制,在醫(yī)學圖像分割任務中取得了出色的效果。VALANARASU等[13]提出MedicalTransformer,利用帶門控機制的Transformer結構進行分割,證明了Transformer在處理醫(yī)學圖像中的有效性。CAO 等[14]提出的Swin-Unet結合了SwinTransformer和U-Net的優(yōu)點,利用分層的自注意力機制和多尺度特征融合,顯著提升了分割的準確性和魯棒性。然而,這些先進的算法大多基于全監(jiān)督學習方式進行訓練和測試。
醫(yī)學圖像數(shù)據集的標注數(shù)據通常較為有限,全監(jiān)督方法的應用面臨一定挑戰(zhàn),而半監(jiān)督方法可以從有限的標注數(shù)據和豐富的未標注數(shù)據中學習,生成高質量的分割結果,具有顯著的實用價值和發(fā)展?jié)摿?。近年來,在超聲心動圖分割領域出現(xiàn)了一些優(yōu)秀的半監(jiān)督分割方法,例如基于生成對抗網絡的DAGAN[15]、自感知分割模型 SCP-Net[16]和基于時空記憶網絡的STM[17]。
然而,在標注樣本較少的情況下,半監(jiān)督分割模型難以準確獲取細節(jié)特征,特別是在結構復雜的心動超聲圖像中。例如,在分割左心室時,由于右心室與左心室結構相似,模型可能出現(xiàn)過分割現(xiàn)象,甚至錯誤分割右心室。此外,超聲心動圖本身存在樣本量不足、掩碼數(shù)據少和掩碼質量低等問題[18],導致模型難以學習到細節(jié)信息。心臟運動產生的運動偽影也進一步增加了左心室區(qū)域精確分割的難度。這些問題給研究者帶來了巨大的挑戰(zhàn)。
為了解決上述問題,本文提出一種基于自約束多尺度記憶網絡(selfconstrainedmulti-scalememo-rynetwork,CSTM)的超聲視頻分割算法,并通過在公開數(shù)據集EchoNet-Dynamic上的實驗結果,驗證了本文所提CSTM算法的有效性和正確性。
1 模型算法
CSTM算法主要包括目標檢測模型SAM-DE-TR和多尺度記憶網絡2個部分。SAM-DETR模型僅需少量掩碼數(shù)據即可學習待分割對象的魯棒區(qū)域特征,這些魯棒區(qū)域特征通過多尺度編碼器進行編碼,編碼后的特征將作為初始的約束信息存儲在記憶網絡中。對于輸人的超聲視頻中少量的掩碼幀,通過多尺度編碼器獲得基于視頻序列的時間和空間的記憶信息,并與歷史記憶信息融合,獲得更精確的分割對象信息并進行更新。當大量無掩碼的查詢幀進入時,系統(tǒng)會與記憶信息進行相似度匹配,并利用多層細化解碼器將匹配特征細致還原成掩碼圖像,從而在約束范圍內實現(xiàn)精確的分割效果。
CSTM結構如圖1所示。首先,將少量掩碼數(shù)據輸入到目標檢測模型SAM-DETR中,該模型通過語義匹配加速收斂,定位分割自標區(qū)域并提取左心室及其周邊組織的特征。左心室及其周邊組織的特征將作為約束性信息指導后續(xù)的待分割視頻幀,避免錯分現(xiàn)象。該步驟不需要使用大量的訓練數(shù)據或耗費大量的計算資源進行訓練,通過對檢測結果的多次融合操作,獲得左心室及周邊區(qū)域的魯棒約束特征信息。這些魯棒的約束信息將作為待分割超聲視頻的初始時空記憶信息,編碼成鍵和值映射,以指導后續(xù)的分割過程。
在時空記憶網絡STM中,鍵用于尋址,通過計算查詢幀和記憶幀的鍵特征之間的相似性,檢索相關的記憶值。因此,鍵的學習旨在編碼視覺語義,即使每幀的左心室外觀發(fā)生變化,仍能進行魯棒匹配。值存儲用于生成掩碼估計的詳細信息,如目標對象和對象邊界。查詢幀和記憶幀的值有不同的用途,查詢幀的值通過學習,用于存儲詳細的外觀信息,網絡利用查詢幀的值可準確解碼對象掩碼。記憶幀的值通過學習,用于編碼視覺語義和掩碼信息,以判斷每個特征是屬于前景還是背景。
在正式分割時,查詢幀首先使用多尺度編碼器,提取超聲心動圖中每一幀的復雜結構特征,通過多層次的特征抽取與融合,獲得不同心動周期內多樣化的心臟形態(tài),精確識別分割對象的細節(jié),解決引人魯棒約束特征信息而引起的邊緣模糊問題。經過多層次的特征編碼后,所得結果與時空記憶網絡中的記憶信息進行密集匹配,并利用匹配分數(shù)查詢特征圖,返回相應的結果作為輸出。最后,采用多層次細化解碼器逐步細化并重建分割掩碼特征。在分割過程中,記憶信息通過不斷地更新和維護,在約束范圍內逐步細化分割對象的記憶信息,最終實現(xiàn)精準的分割效果。通過這種方式,時空記憶網絡可以在約束范圍內有效利用歷史信息,維持一個準確而魯棒的分割模型。
CSTM算法基于時空記憶網絡 STM[17] 的編解碼結構進行改進,并與目標檢測模型SAM-DE-TR[19] 分支共同構成了端到端的自約束多尺度記憶網絡,其充分結合了目標檢測和多尺度記憶網絡的優(yōu)勢,得以有效處理復雜形變(如心動周期形變)和噪聲干擾方面(低質量圖片)的魯棒性。
1.1 目標檢測網絡
為了有效解決超聲心動分割過程中普遍存在的過分割現(xiàn)象,本文引人分割對象及其周圍組織結構的特征作為魯棒的約束性信息,幫助分割模型擴大對待分割對象的學習視野,準確區(qū)分相似的組織結構,從而減少錯劃分現(xiàn)象。模型效果如圖2所示。
為了實現(xiàn)這一目的,本文選用目標檢測模型SAM-DETR,通過語義對齊模型和可學習參考框功能,以較少的資源開銷和時間成本,快速獲取包含額外區(qū)域信息的特征。隨后,這些特征作為約束信息被映射到記憶網絡中,進一步提升分割模型的性能。
SAM-DETR在解碼器的第一層使用可學習的參考框 Rbox 表示對象查詢的初始位置。利用這些參考框,語義對齊模塊接收前一層的對象查詢嵌入Q 和編碼的圖像特征 F 生成新的對象查詢嵌入Qnew 及其位置嵌入 Qnewpos ,確保這些新的特征與編碼的圖像特征處于相同的特征空間,從而加速了匹配過程。公式如下:
Qnew,Qnewpos=Resample(RoIAlign(F,Rbox),Rbox,Q)
式中:Resample為重采樣操作;RoIAlign為語義對齊。
在交叉注意模塊中,對象查詢和編碼圖像特征通過點積操作生成注意力權重圖,表示對象查詢與目標區(qū)域之間的匹配情況。語義對齊模塊確保這些嵌入在相同的嵌入空間中進行匹配。公式如下:
式中: K 為鍵矩陣; V 為值矩陣; 為縮放系數(shù)。
通過卷積網絡和多層感知機預測每個區(qū)域的顯著點坐標 Rsp ,并從區(qū)域級特征中采樣顯著點的特征向量,將這些特征向量拼接作為新的對象查詢嵌入 Qnew′ 。公式如下:
通過線性投影和Sigmoid函數(shù)生成重新加權系數(shù),突出重要特征。公式如下:
Qnew=Qnew′?σ(QWRW1)
式中: WRW1 為線性投影; ? 為逐元素乘法。
借助SAM-DETR的快速收斂特性,CSTM可以在樣本較少的情況下,以較短的時間和較低的成本,快速獲得分割對象及其周圍組織的魯棒特征表示。為進一步提升模型的分割效果,本文引入了時間特征融合模塊(temporal fusion attentionmodule,TFAM)[20]。該模塊通過使用通道和空間注意力機制,自動識別并強調視頻幀中最重要的通道信息與空間信息。在融合過程中,TFAM模塊利用權重調整策略來平衡前后視頻幀的融合比例,有效地保留所關注區(qū)域的關鍵信息,同時抑制不重要或零散的誤導性信息。這種融合方式使得特征表示更加魯棒,為后續(xù)分割過程相似區(qū)域的區(qū)分提供了更為準確的指導。調整尺寸后,該融合特征被輸人到記憶分割網絡中,從而有效緩解過分割現(xiàn)象。
1.2 多尺度記憶分割網絡
多尺度記憶網絡是一種集成多尺度編碼、時空記憶讀取和多層次細化解碼的綜合性結構,旨在應對復雜場景下的分割挑戰(zhàn),顯著提升分割精度。待分割的超聲心動圖首先通過多尺度編碼器處理,以高效捕捉和融合不同尺度的細節(jié)特征。這些特征在編碼后以鍵和值的形式保留豐富的時空信息。
為了充分利用編碼后的特征,本網絡采用時空記憶讀取機制,通過計算查詢幀的鍵和內存中的記憶鍵之間的相似性,生成軟權重,從而能夠加權檢索內存中的記憶值,并與查詢值拼接起來得到受記憶信息指導后的待解碼查詢值。這一機制保證了分割過程的連續(xù)性和準確性,不僅確保了分割對象的全局視野,還能專注于有效的分割特征,避免無關信息對邊緣分割的干擾,尤其在處理復雜的超聲心動圖視頻時,能有效解決掩碼圖像少、質量低的問題。
多層次細化解碼器通過逐級融合和細化待解碼查詢值,進一步提高了分割結果的精度和魯棒性。該解碼器不僅增強了不同尺度特征的融合效果,還通過精細化處理使得最終的分割結果更為精確和可靠。
1.2.1多尺度編碼器
雖然目標檢測通過引入分割對象周邊的組織結構作為約束特征可以有效擴展分割視野,從而緩解過分割現(xiàn)象,但在最終分割階段,視野仍需聚焦于分割對象本身。此時,一些無關的約束特征可能會干擾分割效果,導致邊緣分割效果不佳。為解決這一問題,本文提出一個可以關注細節(jié)特征的多尺度編碼器,如圖3所示。該編碼器能夠精準提取和融合多級特征,區(qū)分出約束區(qū)域內的有效分割特征,并與多特征細化解碼器共同作用,顯著提升了邊緣分割的精度和質量。
為了使網絡更多地關注分割對象的細節(jié),避免周圍組織影響邊緣分割精度,本文在編碼器的設計中,提出一種基于原型特征捕捉(prototypefeatureextraction,PFE)模塊,如圖4所示。
該模塊利用卷積操作提取查詢幀 F 與掩碼 M 的特征,然后通過計算相似度的方法,用矩陣乘法計算捕捉原型圖像與掩碼之間的關聯(lián)性,最后沿通道維度拼接原型圖像特征 c 。PFE模塊通過相似度捕捉分割對象的重要特征,從而忽略周圍組織對邊緣分割帶來的負面影響。
在網絡的具體實現(xiàn)中,帶掩碼幀首先經過PFE模塊處理,以捕捉重要特征,并逐步減少周邊組織帶來的負面影響。這是因為帶掩碼幀需要更新記憶信息,因此在處理過程中必須增強對目標區(qū)域的關注。目標檢測任務中的約束性特征作為初始記憶信息,擴展了分割網絡的分割范圍。通過PFE模塊對掩碼特征逐步強化,記憶網絡得以更新,使得分割網絡的分割范圍逐漸聚焦于掩碼區(qū)域。最終,模型能夠在準確區(qū)分左心室區(qū)域的基礎上,實現(xiàn)高質量的分割效果,即模型學習到了正確的分割范圍。
1.2.1.1多尺度特征抽取
編碼器的主體結構參考了Yolov8中的特征金字塔網絡(featurepyramid networks,F(xiàn)PN)[21],以ResNeSt50作為骨干網絡,從中提取3種不同尺度的特征圖。為了更好地捕捉多尺度的空間信息,通過快速空間金字塔池化(spatial pyramidpooling-fast,SPPF)算法處理骨干網絡的輸出特征圖,通過上采樣操作和SCConv_C2f模塊實現(xiàn)初步特征融合,然后逐步融合骨干網絡的不同尺度特征,重建在卷積過程中丟失的細節(jié)特征。
SCConv_C2f是本文基于SCConv(spatial andchannel reconstruction convolution)算法[22]對 C2f(CSPDarknet53to2-StageFPN)進行改進的關鍵模塊。對于 n 層瓶頸塊的中間輸入 X ,SCConv首先通過空間重構單元(SRU)精細化空間特征,消除冗余的空間維度。其次,信道重建單元(CRU)減少信道維度的冗余,進一步降低了計算和存儲的成本。改進后的SCConv_C2f模塊在低開銷的情況下高效提取多級特征,特別適用于如心動圖等復雜任務的建模需求。
初步特征融合后,生成的3種尺度特征圖與骨干網絡輸出特征相似。在接下來的二次特征融合過程中,網絡會利用卷積下采樣和SCConv_C2f模塊進一步融合多尺度特征,最終得到3種尺度的特征輸出:
,這些特征將在隨后的多層次細化解碼過程中發(fā)揮重要作用。
1.2.1.2 多尺度特征融合
在處理掩碼幀時,我們利用多個卷積層和SP-PF模塊對不同尺度的特征輸出進行進一步處理,通過concat操作進行有效融合,幫助模型捕捉和表達輸人心動圖的復雜性和多樣性,從而學習到更細致的特征,以便更好地更新記憶信息。
1.2.1.3 特征編碼
對多尺度融合后的特征,我們采用通道注意力模塊和空間注意力模塊(convolutionalblockatten-tionmodule,CBAM)[23]進行重新加權,突出關鍵信息,抑制不相關特征,確保編碼特征在通道和空間位置上的有效性。CBMA會進行2個階段的精練,首先,利用通道注意力關注哪些通道是重要的,公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
式中: F 為多尺度融合向量;AvgPool和Max-Pool分別為全局平均池化和最大池化操作;MLP為多層感知機; σ 為Sigmoid激活函數(shù)。
其次,利用空間注意力關注哪里的信息比較重要,公式如下:
Ms(F)=σ(f(7×7)((AvgPool(F);MaxPool(F)))
式中 ?f(7×7) 為一個 7×7 的卷積操作;(AvgPool(F) ;MaxPool(F) )為將平均池化和最大池化結果沿通道軸拼接起來。最后,采用2個并行的C2f_SC-Conv 輸出2個特征映射——鍵 kQ∈R(H×W×C/8) 和值vQ∈RH×W×C/2 完成編碼。
1. 2. 2 時空記憶讀取
時空記憶讀取通過計算查詢關鍵圖和記憶關鍵圖中像素之間的相似性來生成軟權重。相似性匹配以非局部方式進行,比較每個位置,然后通過軟權重加權檢索記憶值,最后與查詢值連接,得到待解碼查詢值。公式如下:
式中: i 和 j 分別為查詢和記憶位置的索引; 是歸一化因子;[;]為連接。相似性函數(shù) f 定義為
1. 2.3 多層次細化解碼器
本文設計了一個結合多層次特征細化的解碼器(圖5),以增強特征的表示能力,并提高分割結果的精度。該解碼器使用C2f_SCConv對輸入的最高層待分割特征進行細化,得到更為精細的高層特征。然后,采用文獻[24]的方法分別對多尺度編碼器多尺度特征中的中間特征和低級特征進行處理,得到中間層和低層更為精細的待分割特征。通過逐級融合這些特征,通過雙線性插值將細化后的待分割特征進行上采樣到原始分辨率,得到最終的分割輸出。
這種多層次細化解碼器設計充分利用了不同尺度特征的信息,顯著提高了分割結果的精度和魯棒性,尤其適用于復雜的超聲視頻分割任務。
本文提出的CSTM網絡主要算法流程如下:輸入:V超聲心動視頻, s 分割掩碼, T 目標檢測掩碼
輸出:分割結果目標檢測階段:
步驟1將少量超聲心動視頻 V 和目標檢測標簽 T 輸入目標檢測模型SAM-DETR。
步驟2使用TFAM將目標檢測訓練輸出的魯棒特征進行融合,生成融合特征 Fdet 。
步驟3將融合特征 Fdet 作為約束信息,輸入自約束多尺度記憶網絡(CSTM),作為內存中的初始Keymem 和 Valuemem ,用于指導后續(xù)分割任務。
分割階段:
步驟4輸入超聲心動視頻 V 和分割掩碼 s 到多尺度記憶分割網絡。
步驟5if(S)存在{輸入原型特征提取模塊PFE 進行掩碼特征加強
步驟6將視頻幀或掩碼強化特征輸入多尺度編碼器,經過多次采樣與融合形成大尺度、中尺度、小尺度的特征信息。
步驟7對多尺度特征進行融合,編碼生成 Keynew 和 Valuenew ,并更新記憶信息:
Keymem=Concat(Keymem,Keynew) Valuemem=Concat(Valuemem,Valuenew)
步驟8進行時空記憶讀取操作,通過查詢 Keymem 和Value mem 來獲得查詢結果。
步驟9將查詢結果、大尺度特征和中尺度特征一起輸入多層次特征細化解碼器中,得到最終分割結果。
步驟10 計算損失函數(shù)。
2 實驗與分析
2.1實驗基本配置及數(shù)據集描述
2.1.1 基本配置
實驗基于4塊NVIDIAGeForceRTX2O80Ti顯卡。實驗環(huán)境運行在Ubuntu18.04LTS,采用CUDA12.1和cuDNN8.0.5,深度學習框架使用PyTorch 2.0.0+cul18 。
2.1.2 評估方法
在超聲心動視頻分割任務中,為了全面評估CSTM算法的性能,本文從3個方面測試模型性能:分割性能評估以Dice系數(shù)(dicecoefficient,DC)和豪斯多夫距離(Hausdorffdistance,HD)作為主要評估指標。這2個指標分別用于衡量分割結果的重疊程度和邊界匹配情況。通用性能評估則是采用準確率(accuracy,ACC)ROC曲線下面積(areaundertheROCcurve,AUC)、F1分數(shù)(F1-score)、召回率(recall)和交并比(intersectionoverunion,IOU)進行全面評估,以得到更準確的模型性能評價。最后,計算復雜度和實時性能的評估使用FLOPS評估模型的計算復雜度、參數(shù)量來評估模型的大小和復雜度,使用推理時間來評估模型的實時性能和響應速度。各指標公式如下:
式中:A為分割結果; B 為真實掩碼; d(a,b) 為點 a 和點 b 之間的歐幾里得距離;sup和inf分別為上確界和下確界;TP為預測為正樣本實際也為正的真陽性;FP為預測為正樣本實際為負的假陽性;FN為預測為負樣本實際為正的假陰性;TN為預測為負樣本實際也為負的真陰性。
2.1.3 數(shù)據集
實驗使用EchoNet-Dynamic數(shù)據集。該數(shù)據集包含約10030個超聲心動視頻片段,每個片段包含16幀,分辨率為 112×112 像素,覆蓋一個完整的心動周期。數(shù)據集涵蓋不同患者和心臟狀況,提升了模型的泛化能力,同時由專業(yè)技師手動標注左心室內膜,確保了標注信息的高精度和一致性。
實驗中,EchoNet-Dynamic數(shù)據集按 70% 、15% 15% 的比例劃分為訓練集、驗證集和測試集。原始視頻數(shù)據先進行歸一化處理,每個視頻片段的像素值縮放到[0,1]區(qū)間。此外,本文還進行了數(shù)據增強操作,包括隨機裁剪、旋轉和翻轉等,以增加模型的泛化能力。手動標注的左心室內膜信息轉換為二值掩碼圖像,用于監(jiān)督模型的訓練和評估。數(shù)據劃分按患者進行,確保訓練集、驗證集和測試集之間沒有交叉樣本,防正數(shù)據泄漏和過擬合。本文使用EchoNet-Dynamic數(shù)據集,在多樣性和標注精度方面確保了實驗的嚴謹性和可靠性,為CSTM算法提供了驗證基礎。
2.2 實驗結果
為了驗證CSTM算法的整體性能,在EchoNet-
Dynamic數(shù)據集上進行了大量實驗,并將其結果與目前先進的算法進行了對比。以Dice系數(shù)(DSC)和豪斯多夫距離(HD)2個評估指標展示了不同算法在EchoNet-Dynamic數(shù)據集上的分割性能,見表1。
表1不同算法在EchoNet-Dynamic多器官數(shù)據集上的分割效果
本文CSTM算法在各分割指標均顯著優(yōu)于上述方法。多尺度記憶網絡的引入有效捕捉了復雜心臟結構和變形特征,減少邊界信息的丟失。目標檢測約束機制提供了關鍵的初始特征,有助于在少量標注數(shù)據情況下提高分割精度,使得CSTM算法在處理復雜變形和細節(jié)信息時表現(xiàn)優(yōu)異。例如,與TransUnet相比,CSTM在DSC上提高了 7.98% ,在HD上降低了 9.89px 。此外,盡管STM的性能較好,但CSTM仍然在DSC上提升了 1.71% ,在 HD上降低了 1.5px 。這些關鍵數(shù)據表明,CSTM能更好地捕捉復雜的心臟結構,減少邊界信息的丟失,證明了其在少量標注數(shù)據情況下的優(yōu)越性。
通用評估指標ACC、AUC、F1-SCORE、RE-CALL和IOU提供了一個全面的視角,用以評估模型在不同維度上的性能表現(xiàn)。表2進一步展示了不同方法在通用評估指標上的表現(xiàn)。由表2可知:CSTM算法在多個通用評估指標上均表現(xiàn)出色,特別是在準確率(ACC)、F1-SCORE和交并比(IOU)上。CSTM在F1-SCORE和IOU上分別達到了90.06% 和 82.54% ,表明其在精確捕捉目標區(qū)域和減少誤分割方面具有明顯優(yōu)勢。
除了對各種性能指標的對比外,我們進行了分割結果的可視化分析,如圖6所示。
由圖6可見:CSTM結合多尺度記憶網絡和目標檢測約束,在視覺上表現(xiàn)出更精確的邊界和更少的錯誤分割,進一步證明了方法的優(yōu)越性和實際應用價值。
此外,為了更科學、全面地評估模型的性能,本文還通過對比每秒浮點計算次數(shù)Flops、參數(shù)量Params與推理時間Infer_time來展現(xiàn)CSTM方法在平衡計算復雜度和性能上的優(yōu)勢,見表3。由表3可見:為了避免錯分和提升分割精度,在解決錯分問題的情況下得到細致的分割結果,尤其是在處理復雜和細致的心臟結構時表現(xiàn)出色,CSTM通過增加計算量和參數(shù)量構建多尺度分割模型,因而推理時間相對較長。值得注意的是,本文通過對C2f_SC-Conv模塊的改進,有效地將模型的參數(shù)量控制在一個合理的范圍內。這一優(yōu)化展示了CSTM在計算復雜度和性能之間的獨特平衡優(yōu)勢,不僅增強了模型在高計算需求下的表現(xiàn),也避免了不必要的計算負擔。
2.3 消融實驗
為了驗證每個模塊對整體性能的貢獻,本文設計了2組消融實驗:
1)記憶網絡架構有效性驗證:對比采用/不采用多尺度編碼器與多層細化特征編碼器融合結構的效果。
2)檢測-分割約束機制驗證:評估目標檢測網絡引導分割網絡的策略影響。
實驗結果如表4所示。從表4可以看出:在僅保留目標檢測約束機制的情況下,模型的Dice系數(shù)和Hausdorff距離分別為88.16和5.95。這表明盡管去除部分樣本的錯分和過分割現(xiàn)象,但周圍組織的魯棒特征信息導致整體邊緣分割效果差。為了解決這一問題,本文引入了多尺度記憶網絡。
表4目標檢測約束機制與多尺度記憶網絡對分割精度的影響
在僅保留多尺度記憶網絡的情況下,模型的Dice系數(shù)為89.23,Hausdorff距離為5.05,較無多尺度記憶網絡時均有所提升。這表明多尺度編碼器與多層次細化解碼器相結合很好地捕捉了邊緣的細節(jié)信息,雖然存在錯分現(xiàn)象,但分割精度有所提升,分割效果得到提高。
完整的CSTM方法在Dice系數(shù)和Hausdorff距離上均明顯優(yōu)于去除任一組件的變體,分別達到了90.53和4.11。這表明多尺度記憶網絡和目標檢測約束的結合不僅有效地減少了錯分現(xiàn)象,還提升了分割精度和減少了邊界誤差,從而驗證了這2個模塊在整體模型性能中的關鍵作用。
綜上所述,實驗結果表明CSTM方法在復雜結構和大變形的超聲心動圖像分割任務中具有顯著優(yōu)勢。通過將目標檢測獲得的特征作為初始約束信息,并利用多尺度記憶網絡進行編碼和解碼,CSTM方法有效地減少了區(qū)域混淆和錯誤分割,顯著提升了分割精度和魯棒性。這些結果驗證了CSTM方法在實際應用中的高效性和實用價值。
3結論
本文提出一種基于自約束多尺度記憶網絡(CSTM的超聲心動視頻分割算法,通過結合目標檢測引導的約束學習和多尺度記憶融合機制,有效解決超聲心動視頻中結構復雜和形變導致的區(qū)域混淆和錯誤分割問題,主要體現(xiàn)在以下3個方面:
1)提出了一種自約束多尺度記憶網絡的超聲心動視頻分割算法,有效解決了目前心動超聲圖分割樣本量不足、掩碼數(shù)據少和掩碼質量低等問題。
2)利用目標檢測模型SAM-DETR對少量掩碼樣本進行左心室及周邊組織結構的特征抽取,編碼得到魯棒約束性記憶信息來指導后續(xù)分割,有效解決過分割、錯分割問題。
3)提出一種多尺度記憶網絡,通過結合多尺度編碼器和多層次細化解碼器,有效解決冗余特征的問題,實現(xiàn)從少量掩碼數(shù)據中學習得到精細化的細節(jié)特征,并將這些細節(jié)特征編碼成記憶信息,指導大量未掩碼數(shù)據的分割,從而獲得精確的分割結果。
在EchoNet-Dynamic公開數(shù)據集的實驗中,CSTM模型的分割性能優(yōu)于主流模型,Dice系數(shù)達到90.5,Hausdorff距離(HD)為 4.11px 。CSTM成功驗證了檢測約束分割算法的有效性,未來的工作將致力于進一步優(yōu)化CSTM的計算效率,減少模型的計算開銷,并探索其在其他醫(yī)學影像分割任務中的應用潛力。
參考文獻:
[1]WHO. Global status on cardiovascular disease prevention and control[R].Geneva:World Health Organization,2011.
[2]胡盛壽,高潤霖,劉力生,等.《中國心血管病報告 2018》概要[J].中國循環(huán)雜志,2019,34(3):209-220.
[3]SMISTADE,OSTVIKA,HAUGENBO,etal.2Dleft ventricle segmentation using deep learning[C]//2017 IEEE International Ultrasonics Symposium(IUS).Washington:IEEE,2017:1-4.
[4]COOTES TF,EDWARDSGJ,TAYLORCJ. Active shape models:their training and application[J].ComputerVision and Image Understanding,1995,61(1): 38-59.
[5]COOTESTF,TAYLORCJ. Statistical modelsof appearanceforcomputervision[R].Manchester:Universityof Manchester,2001.
[6]HESAMIAN MH,JIA WJ,HE XJ,et al.Deep learning techniques for medical image segmentation:achievemems anu cnauenges [J」. Jounai ul Dignai maging: Springer Nature,2019,32(4) :582-596.
[7]TRAN P V. A fully convolutional neural network for cardiac segmentation in short-axis MRI[DB/OL].(2017-04- 27)[2024-08-22]. htps://arxiv.org/abs/1604.00494.
[8]SHELHAMER E,LONG J,DARRELL T. Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2017,39(4): 640-651.
[9]RONNEBERGER O,F(xiàn)ISCHER P, BROX T. U-Net:convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention(MICCAI).Munich:Springer,2015: 234-241.
[10]CICEK O, ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net:learning dense volumetric segmentation from sparse annotation[C]//Medical Image Computing and ComputerAssisted Intervention(MICCAI). Athens : Springer, 2016 : 424-432.
[11]OKTAY O, SCHLEMPER J,F(xiàn)OLGOC L L, et al. Attention U-Net: learning where to look for the pancreas[DB/ OL].(2018-05-20)[2024-08-22]. https://arxiv.org/ abs/1804.03999.
[12]CHEN JN,LU YY,YUQ H,et al. TransUNet: transformers make strong encoders for medical image segmentation[DB/OL].(2021-02-08)[2024-08-22].https:// arxiv. org/abs/2102.04306.
[13]VALANARASU J M J, OZA P, HACIHALILOGLU I, et al.Medical transformer:gated axial-attention for medical image segmentation[DB/OL]. (2021-07-06)[2024-08- 22]. https://arxiv.org/abs/2102.10662.
[14] CAO H, WANG Y Y,CHEN J, et al. Swin-Unet: unetlike pure transformer for medical image segmentation [DB/OL]. (2021-05-12)[2024-08-22].https://arxiv. org/abs/2105.05537.
[15]MIRI KHARAJI Z, HAMARNEH G. Semi-supervised learning in medical image analysis using GANs[DB/ OL].(2018-04-27)[2024-08-22]. htps://arxiv. org/ abs/1804.10500.
[16]ZHANG Z X,RAN R,TIAN C N, et al. Self-aware and cross-sample prototypical learning for semi-supervised medical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention ( MICCAI). VANCOUVER:Springer,2023:192-201.
[17]OHS W,LEEJY,XU N,et al. Video object segmentation using space-time memory networks[C]// Procedgs Ol te IEEE/Uvr ernauonaI Lomerence on Co puter Vision(ICCV).Seoul:IEEE,2019:9226-9235.
[18]JIANGF,GRIGOREV A,RHO S. Medical image semantic segmentation based on deep learning[J]. Neural Computing and Applications,2018,29:1257-1265.
[19] ZHANG G J, LUO Z P,YU Y C, et al. Accelerating DETR convergence via semantic-aligned matching[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans : IEEE,2022:949-958.
[20]ZHAO S J, ZHANG X L, XIAO PF, et al. Exchanging dual-encoder-decoder: a new strategy for change detection with semantic guidance and spatial localization[J].IEEE Transactions on Geoscience and Remote Sensing,2023, 61: 4508016.1-4508016. 16.
[21]LIN TY,DOLLAR P,GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2117-2125.
[22]LI JF,WEN Y,He JH,et al.SCConv:spatial and channel reconstruction convolution for feature redundancy reduction[C]// Proceedings of the IEEE/CVF Conferenceon Computer Visionand Pattern Recognition (CVPR). Vancouver: IEEE,2023: 1234-1243.
[23]WOO S,PARKJ,LEEJY,et al. CBAM:convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich : Springer,2018:3-19.
[24]OHSW,LEE JY,SUNKAVALLI K,et al. Fast video object segmentation by reference-guided mask propagation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City: IEEE,2018:7376-7385.
[25]CHEN L C, SchroffF, PAPANDREOU G,et al. DeepLabv3:rethinking atrous convolution for semantic image segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City:IEEE,2018:769-778.
[26]CHENLC,ZHUY,PAPANDREOUG,etal.Encoderdecoder with atrous separable convolution for semantic image segmentation[ C]// Proceedings of the European Conference on Computer Vision(ECCV). Munich: Springer, 2018: 801-818.
(責任編輯:周曉南)
Research on the Echocardiography Video Segmentation Algorithm Based on Self Constrained Multi-Scale Memory Network
YUEBaokun,LI Zhi*,SUNHaoyuan,WAN Yuexin (College of Computer Science and Technology,Guizhou University,Guiyang 55OO25,China)
Abstract:In echocardiography videos,complex anatomical structures and deformation artifacts within the heartbeat cycle often lead to confusionand errors in segmentationregions.To address thisproblem,this paper proposes a semi supervised echocardiography video segmentation algorithm based on self constrained multi-scale memory network(CSTM).The algorithm utilizes the object detection network SAM-DETR to locate the left ventricularregionineach frameof theechocardiogramvideo,thus efectively extracting features of the left ventricle and its surounding tissues using the network. These features are input as constraint information nto a multi-scale memory network to guide left ventricular segmentation and update memory information for frames with object masks.For the frames without object masks,segmentation is performed by querying memory information. This paper combines a multi-scale encoder with a multi-level refinement decoder to form a multi-scale memory network for solving the problem of edge information loss caused by constraint information,enabling CSTM to achieveaccurate segmentation results.The experimental resultson the publicly available dataset EchoNet Dynamic show that the proposed method achieves a Dice coeficient of 90.5 and a Hausdorff distance of 4.11, outperforming existing methods in segmentation.All thisvalidates the efectiveness and correctness of the proposed algorithm in echocardiography segmentation tasks.
Keywords: echocardiographic video segmentation; semi-supervised learning;object detection