李 鴻,鄒俊穎,譚茜成,李貴洋
(四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610066)
醫(yī)學(xué)圖像的語義分割是計(jì)算機(jī)輔助診斷中必不可少的步驟,在放射治療的計(jì)劃中,準(zhǔn)確描繪腫瘤所在區(qū)域能最大限度地?cái)U(kuò)大靶區(qū)所覆蓋的范圍,同時(shí)能極大降低周圍高風(fēng)險(xiǎn)器官的毒性[1]。在臨床實(shí)踐中,腫瘤勾畫通常都是以手工或半手工方式來進(jìn)行,這項(xiàng)工作不僅代價(jià)昂貴、單調(diào)乏味,標(biāo)注人員還需要具備極強(qiáng)的專業(yè)知識(shí)且耗時(shí)耗力[2];因此,通過深度學(xué)習(xí)對(duì)病變區(qū)進(jìn)行圖像分割來輔助醫(yī)生診斷一直是多年來研究的重點(diǎn)[3-4]。目前,醫(yī)學(xué)圖像分割已在多個(gè)器官上得到了應(yīng)用,如肝臟分割[5-6]、腦腫瘤分割[7]、細(xì)胞分割[8]、心臟分割[9]等;但是,現(xiàn)階段醫(yī)學(xué)圖像分割任務(wù)仍存在數(shù)據(jù)集不足、標(biāo)注位置不準(zhǔn)確等諸多問題亟待解決[10]。
近年來,隨著計(jì)算能力的提高,深度學(xué)習(xí)通過學(xué)習(xí)輸入數(shù)據(jù)與預(yù)測(cè)結(jié)果之間的非線性映射,在醫(yī)學(xué)圖像分割上也有了突破性的進(jìn)展。Long 等[11]將編碼器、解碼器結(jié)構(gòu)引入圖像分割領(lǐng)域,提出全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),通過將全連接層改為卷積層來保存圖片的位置信息,使用反卷積(Deconvolution,Deconv)和跳躍連接相結(jié)合的方式進(jìn)行上采樣,得到較為精細(xì)的分割圖。Ronneberger 等[12]提出U-Net,該網(wǎng)絡(luò)主要是由U 形結(jié)構(gòu)和跳躍連接兩部分組成,融合圖像的低層信息和高層信息,能較好地滿足醫(yī)學(xué)圖像的語義特點(diǎn)。Zhou 等[13]通過整合U-Net 中每一層堆疊的特征來獲取不同感受野的圖片特征,達(dá)到分割的效果。Jégou 等[14]將U-Net 中的普 通卷積 替換為Dense Block 模塊[15],模塊中密集的跳躍連接能有效地解決梯度消失等問題,加強(qiáng)了U-Net 中每一層的特征傳遞,更有利于上采樣后的圖像恢復(fù)。Oktay 等[16]在跳躍連接部分使用注意力門控(Attention Gates,AGs)模塊來突出圖像的顯著特征,抑制圖像的無關(guān)特征,增強(qiáng)模型對(duì)前景重要特征的敏感度。Cai等[17]使用多尺度預(yù)測(cè)融合機(jī)制,通過跳躍連接將解碼器的所有特征拼接起來,獲取不同尺度的全局信息,在輸出端融合空間、通道注意力來增強(qiáng)模型對(duì)不同特征的敏感度。
盡管基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的模型已具有極為出色的表示能力,但由于卷積計(jì)算只有固定的接受域,難以對(duì)圖像中存在遠(yuǎn)程依賴關(guān)系的特征進(jìn)行建模,導(dǎo)致無法捕獲足夠的上下文信息。相較于CNN,Transformer[18]通過自注意力(Self-Attention,SA)機(jī)制不僅能有效建立長(zhǎng)距離依賴,也能對(duì)下游任務(wù)顯示出卓越的可傳遞性。現(xiàn)階段,Transformer 已經(jīng)受到廣大學(xué)者的關(guān)注,已有一些結(jié)合CNN 與Transformer 的一些研究,如Zheng 等[19]用Transformer 作為編碼器,壓縮原始輸入圖像的空間分辨率,逐步提取更加高級(jí)的語義特征,通過解碼器將特征映射為原始的空間分辨率來進(jìn)行最終的像素級(jí)分割。Petit 等[20]提出U-Transformer 網(wǎng)絡(luò)結(jié)構(gòu),它使用多頭自注意力(Multi-Head Self-Attention,MHSA)來獲取圖片的遠(yuǎn)程依賴,使用多頭交叉注意力(Multi-Head Cross-Attention,MHCA)與跳躍連接相結(jié)合進(jìn)行上采樣來過濾掉非語義特征,從而強(qiáng)化空間特征重構(gòu),優(yōu)化空間分辨率。Zhang 等[21]通過融合兩個(gè)并行的CNN分支和Transformer 分支,可以通過較淺的層數(shù)來獲取圖片的全局依賴性和局部細(xì)節(jié)特征,使用AGs 來融合不同層之間的多級(jí)特征。Valanarasu 等[22]提出局部全局(Local-Global,LoGo)訓(xùn)練策略,通過淺層全局分支提取圖片的細(xì)節(jié)、紋理等幾何特征,將整張圖片進(jìn)行切片,每一塊切片通過深層局部分支來提取空間位置信息,兩相結(jié)合得到最終的分割結(jié)果。Zhang 等[23]使用Transformer 金字塔,將CNN 提取的細(xì)節(jié)特征與不同分辨率的分辨圖相結(jié)合能捕獲多范圍關(guān)系,通過自適應(yīng)方案來訪問不同的接受域以獲取最佳的分割結(jié)果。Ji 等[24]通過將SA 模塊嵌入基于CNN 方法的編碼器、解碼器架構(gòu)中來充分利用視頻所含有的時(shí)間信息和空間信息,以實(shí)現(xiàn)快速準(zhǔn)確的息肉定位。由于Transformer 無法獲取每一個(gè)切片之間的內(nèi)部關(guān)系,Chu 等[25]在Transformer 中加入條件位置編碼生成器,生成隱式的位置編碼,讓像素間分片后仍保持原有的空間位置關(guān)系。
近 期,Chen 等[26]提出了 TransUNet(merit both Transformers and U-Net),它同時(shí)具有Transformer 和U-Net 的優(yōu)點(diǎn):在編碼器部分通過Transformer 為來自CNN 所傳入的特征圖進(jìn)行編碼,以此來獲取圖片的上下文特征;在解碼器部分,對(duì)編碼后的特征進(jìn)行上采樣與高分辨率特征圖拼接來獲取圖片的精確定位。但TransUNet 在Transformer 進(jìn)行編碼的過程中,缺乏圖片在局部區(qū)域內(nèi)的信息交互,在切片重新組合的過程中,忽略了圖像的線條、邊緣、形狀等幾何特征;在圖片解碼的過程中,只是簡(jiǎn)單地將編碼后的特征上采樣與高分辨率特征相拼接,并未考慮兩者通道、位置之間的相關(guān)性。針對(duì)以上問題,本文提出了一種多注意力融合的網(wǎng)絡(luò)(Multi-attention FUsion Network,MFUNet)模型。該模型在編碼器部分通過在Transformer 中引入分組卷積[27]來為編碼特征提供長(zhǎng)距離依賴的同時(shí)兼顧局部信息交互[28-30],增強(qiáng)編碼特征的魯棒性和特征間的局部聯(lián)系;在解碼器部分提出一種新穎的雙通道注意力機(jī)制[31-34],融合多級(jí)特征的通道信息,彌補(bǔ)了模型所缺乏的通道間的信息交互,增強(qiáng)模型對(duì)通道間的關(guān)鍵信息的敏感度,進(jìn)而提高分割精度。實(shí)驗(yàn)結(jié)果表明,MFUNet 能得到更精確的分割結(jié)果,在Dice 相似系數(shù)(Dice Similarity Coefficient,DSC)和 Hausdorff 距 離(Hausdorff Distance,HD)等指標(biāo)上明顯優(yōu)于其他對(duì)比模型。
Transformer 最早應(yīng)用于機(jī)器翻譯[18,35],擅長(zhǎng)在建模序列元素之間建立遠(yuǎn)距離依賴關(guān)系。受到Transformer 強(qiáng)大表征能力的啟發(fā),研究人員將Transformer 擴(kuò)展到計(jì)算機(jī)視覺任務(wù)[36-38],與其他網(wǎng)絡(luò)類型相比,在各種視覺基準(zhǔn)上(如圖片的多模態(tài)信息融合、圖片的多任務(wù)學(xué)習(xí)等)Transformer 顯示出了卓越的性能。它主要由4 個(gè)重要部分組成:
1)自注意力。自注意力機(jī)制是注意力機(jī)制的一種改進(jìn),減少了對(duì)外部信息的依賴,增強(qiáng)特征的內(nèi)部相關(guān)性,將輸入的向量轉(zhuǎn)化為3 個(gè)不同的矩陣,分別為查詢矩陣Q、鍵值矩陣K和值矩陣V。將查詢矩陣Q與鍵值矩陣K的轉(zhuǎn)置相乘,得出兩者之間的相似度矩陣QKT,若值越大表明越相關(guān),通過softmax 函數(shù)對(duì)相似度矩陣進(jìn)行歸一化得到權(quán)重矩陣,最后將權(quán)重矩陣與值矩陣相乘得到輸入矩陣的注意力,最終結(jié)果如式(1)所示:
其中:dk表示查詢矩陣或者鍵值矩陣的維度。
2)多頭自注意力。多頭自注意力機(jī)制是Transformer 的核心組件,它由n個(gè)自注意力模塊組合而成,其中分別表示第i個(gè)自注意力的線性變換矩陣,它們分別與輸入向量Xi相乘以獲取在不同空間上的投影,增強(qiáng)模型的表征能力,得到對(duì)應(yīng)的Q、K、V;然后把所有的輸出矩陣拼接起來,再與線性變換矩陣Wo相乘,得到最終的自注意力輸出矩陣,如式(2)(3)所示:
3)多層感知機(jī)。多層感知機(jī)主要由兩個(gè)全連接層和一個(gè)線性激活層ReLU(Rectified Linear Unit)線性組合而成,W1、b1和W2、b2分別表示兩個(gè)全連接層的權(quán)重和偏置,計(jì)算公式如式(4)所示:
4)位置編碼:不同于自然語言處理,圖像只是一個(gè)單一的個(gè)體,在獲取它的自注意力時(shí),首先需要通過卷積神經(jīng)網(wǎng)絡(luò)將整張圖片分割成固定大小的小塊,然后拼接成一個(gè)可學(xué)習(xí)的位置編碼矩陣來學(xué)習(xí)得到圖片的位置編碼信息。
最終,每一層Transformer 可以表達(dá)如式(5)(6):
其中:zl-1表示上一個(gè)Transformer 層的輸出,通過Transformer變換后得到的zl作為下一個(gè)Transformer 層的輸入,以此類推。LN為層歸一化,能穩(wěn)定向前傳輸圖像特征,加快模型收斂。
TransUNet 通過將Transformer 層融入U(xiǎn)-Net 的方式獲取圖像的全局聯(lián)系和對(duì)特征圖進(jìn)行多尺度預(yù)測(cè)以及深層監(jiān)督。TransUNet 在下游任務(wù)中展現(xiàn)了優(yōu)越的可轉(zhuǎn)移性,實(shí)現(xiàn)了特征的精確定位[39],完成了全局建模的優(yōu)化,實(shí)現(xiàn)了圖像的精確分割。TransUNet 主要由3 部分組成:混合型編碼器模塊、級(jí)聯(lián)的上采樣模塊和分割頭模塊。
1)混合型編碼器模塊。完成原始圖像從原始像素空間到多級(jí)特征空間的映射。混合型編碼器由CNN 和Transformer 組合而成,首先將原始圖像輸入到CNN 特征提取器中來獲取圖像的高級(jí)特征并保留部分中低級(jí)特征,以便與上采樣的特征進(jìn)行拼接;然后將CNN 特征提取器輸出的高級(jí)特征作為輸入特征傳入Transformer,獲取圖像像素之間的全局聯(lián)系,實(shí)現(xiàn)圖像特征的提取。
2)級(jí)聯(lián)的上采樣模塊。完成從高級(jí)特征到分割掩碼的解碼過程。它由多個(gè)上采樣步驟組合而成,與U-Net[12]一致,通過上采樣將高級(jí)特征與混合型編碼器模塊中保存的相同尺度的中低級(jí)特征拼接,防止在圖像恢復(fù)過程中單純的上采樣造成的一些細(xì)節(jié)特征的丟失,并保證復(fù)原圖像的精確度。
3)分割頭模塊。完成對(duì)分割掩碼的分割預(yù)測(cè)任務(wù)。通過一個(gè)卷積核大小為3×3 的卷積層,保證輸出的分割掩碼與醫(yī)生標(biāo)注的真實(shí)掩碼保持一致。隨后分別使用交叉熵和Dice 損失計(jì)算分割損失和分類損失,并將其加權(quán)平均計(jì)入總損失。
TransUNet 模型將Transformer 融 入U(xiǎn)-Net 中,通 過Transformer 的內(nèi)部自注意力解決了卷積運(yùn)算無法遠(yuǎn)距離建模的局限性問題,通過跳躍連接和級(jí)聯(lián)上采樣有效地解決了編碼特征恢復(fù)到分割掩碼過程中所造成的部分特征丟失的問題。但TransUNet 依舊存在以下兩個(gè)問題:1)由于Transformer 只接收1D 的長(zhǎng)序列作為輸入,在處理2D 圖像時(shí)僅僅是將圖片分為N個(gè)空間上毫不相干且大小相同的分塊,缺乏相鄰分塊序列中的局部信息交互,導(dǎo)致在最后圖片復(fù)原過程中相鄰分塊拼接部分細(xì)節(jié)特征丟失,影響最終的分割效果。2)在上采樣解碼的過程中,僅簡(jiǎn)單地將高層特征進(jìn)行上采樣后與低層特征拼接起來,然后通過卷積層,并未考慮通道間的信息交互,導(dǎo)致數(shù)據(jù)的空間層級(jí)化信息丟失,以致出現(xiàn)過度分割和錯(cuò)誤分割等問題。
針對(duì)TransUNet 模型的問題,本文提出了一種醫(yī)學(xué)圖像分割下的多注意力融合網(wǎng)絡(luò)(MFUNet)。該網(wǎng)絡(luò)模型通過使用CNN 特征提取模塊、帶有卷積操作的特征融合模塊(Feature Fusion Module,F(xiàn)FM)和帶有雙通道注意力(Double Channel Attention,DCA)的級(jí)聯(lián)上采樣模塊,建立模型的遠(yuǎn)程上下文交互和空間上的依存關(guān)系。首先通過CNN 特征提取網(wǎng)絡(luò)來提取圖像的全局特征,并保存其中的N個(gè)中低級(jí)特征以防止在上采樣過程中所造成特征丟失的情況;再將得到的特征傳入帶有分組卷積操作的Transformer 特征融合模塊中,通過其本身的自注意力機(jī)制來增強(qiáng)圖片內(nèi)部的長(zhǎng)距離依賴,通過卷積操作來增強(qiáng)不同分塊之間的局部聯(lián)系,完成圖像的編碼過程;圖像的解碼是由一個(gè)級(jí)聯(lián)的上采樣組成,在每一次2 倍上采樣的過程中,加入雙通道注意力機(jī)制,從通道方向來增強(qiáng)特征的表征能力,彌補(bǔ)了模型對(duì)通道間的關(guān)鍵信息敏感度不足,進(jìn)一步增強(qiáng)了模型在空間上的遠(yuǎn)程依賴關(guān)系;最后,通過最小化交叉熵解決分類過程中類別不平衡的問題,通過Dice 損失約束圖像的分割大小,以完成最終的分割任務(wù)。模型如圖1 所示,其中:n_patch為Transformer 分塊個(gè)數(shù),D為Transformer 矩陣編碼維度(默認(rèn)大小為768)。Conv 模塊是由大小為3×3 的卷積和ReLU 構(gòu)成,特征融合模塊(FFM)細(xì)節(jié)如圖2 所示,雙通道注意力(DCA)模塊細(xì)節(jié)如圖3 所示。
圖1 MFUNet模型Fig.1 MFUNet model
1)CNN 特征提取模塊。首先將n張圖片隨機(jī)打亂,選取其中t張圖像數(shù)據(jù)x∈RH×W×C×m輸入到由ResNet50 組成的CNN 特征提取網(wǎng)絡(luò)中,其中n表示圖片的總數(shù),m表示批次數(shù),C表示圖片的通道數(shù),實(shí)現(xiàn)圖像數(shù)據(jù)從高分辨率圖像到低分辨率圖像的轉(zhuǎn)化,完成圖像特征的粗提取,同時(shí)保留N層中低層特征(N≤3),從小到大分別表示為,以便于還原上采樣所造成的信息損失。
2)帶有卷積操作的特征融合模塊。將CNN 特征提取網(wǎng)絡(luò)所得到的低分辨率圖像xc轉(zhuǎn)化為Transformer 所需要的1D長(zhǎng)序列,編碼序列的長(zhǎng)度為embedding,每個(gè)切片的分辨率大小為(P,P),默認(rèn)大小為16,分組個(gè)數(shù)N=WH/P2。受到Transformer 條件位置編碼[25]和卷積的局部相關(guān)性和空間不變性特點(diǎn)的啟發(fā),設(shè)計(jì)了FFM。整個(gè)網(wǎng)絡(luò)沿用了Transformer本身的特點(diǎn),由層歸一化單元、多頭注意力和多層感知機(jī)組成,在輸出端加入卷積操作。通過將Transformer 與分組卷積操作串聯(lián)起來,在獲取圖片的長(zhǎng)距離依賴的同時(shí)也可以增強(qiáng)相鄰切片之間的局部聯(lián)系,最終得到帶有自注意力機(jī)制的圖像特征。具體如圖2 所示。
圖2 特征融合模塊Fig.2 Feature fusion module
3)帶有雙通道注意力的級(jí)聯(lián)采樣模塊。為了將帶自注意力的低分辨率圖像xt恢復(fù)到原始圖像大小,首先將低分辨率圖像特征xt通過雙通道注意力模塊(DCA),將特征分別進(jìn)行全局平均池化和全局最大池化,得到大小為C× 1 × 1 的圖像特征x1和x2,依次將x1和x2傳入共享的全連接層、ReLU層和全連接層,完成x1和x2的通道數(shù)由C到C/r再到C的轉(zhuǎn)變(r表示通道的縮放比例,默認(rèn)為16)。通過將數(shù)據(jù)特征映射到樣本標(biāo)記空間并重構(gòu),實(shí)現(xiàn)模型通道間跨信道交互并增強(qiáng)模型對(duì)通道間關(guān)鍵信息的敏感度[31]。最后將經(jīng)過擠壓和擴(kuò)張操作后的x1和x2相加,然后通過Sigmoid 層以獲得通道權(quán)重矩陣,再與輸入的特征進(jìn)行點(diǎn)乘以獲取最終的通道注意力特征圖,具體如圖3 所示。然后對(duì)雙通道注意力模塊輸出的特征進(jìn)行2 倍上采樣并與CNN 特征提取器中對(duì)應(yīng)的高分辨率特征拼接,依次通過卷積、批歸一化、ReLU 激活函數(shù),重復(fù)上述操作N次(N≤3)。將經(jīng)過上采樣網(wǎng)絡(luò)輸出的特征xf∈RH×W×16通過由3×3 卷積組成的分割頭來獲取最終的分割圖像xs∈RH×W×class。最后,通過計(jì)算醫(yī)生標(biāo)注圖像與解碼器所獲得掩碼圖像的交叉熵?fù)p失作為分類損失Lclass,如式(7)所示;Dice 損失作為分割損失Lseg,如式(8)所示;將兩者加權(quán)平均以得到最終的損失值,如式(9)所示,以實(shí)現(xiàn)最終的分割任務(wù)。
圖3 雙通道注意力模塊Fig.3 Double channel attention module
損失函數(shù)是一種衡量損失和錯(cuò)誤程度的函數(shù),可以很好地反映分割圖像與標(biāo)簽圖像之間的差異,本文采用的損失函數(shù)由交叉熵?fù)p失和Dice 損失兩部分組成[40-41]。
Lclass為交叉熵?fù)p失,用于評(píng)估圖像數(shù)據(jù)在分割過程中對(duì)像素點(diǎn)分類時(shí)所產(chǎn)生的損失,能夠衡量同一隨機(jī)變量中的兩個(gè)不同概率分布的差異程度,值越小表明模型的預(yù)測(cè)效果越好。計(jì)算公式如式(7)所示:
其中:C為標(biāo)簽;yi表示是否為類別i,若為該類別,yi=1,否則yi=0;pi為樣本i屬于類別C的概率。
Lseg為Dice 損失,用于評(píng)估預(yù)測(cè)的分割圖像與真實(shí)的分割圖像之間的相似度的一種度量損失,取值范圍為[0,1]。計(jì)算公式如式(8)所示:
其中:|X∩Y|表示真實(shí)圖片與預(yù)測(cè)圖片的交集,|X|與 |Y|分別表示各自的元素個(gè)數(shù)。
MFUNet 模型的總損失函數(shù)為L(zhǎng)total,公式如式(9)所示:
1)Synapse 多器官 分割數(shù)據(jù)集(Synapse multi-organ segmentation dataset,Synapse)。使用MICCAI2015 挑戰(zhàn)賽中多圖譜腹部標(biāo)記數(shù)據(jù)集中的30 張腹部電子計(jì)算機(jī)斷層掃描(Computed Tomography,CT)進(jìn)行實(shí)驗(yàn),共含有3 779 張切片,每個(gè)CT 掃描中含有85~198 張切片。整個(gè)數(shù)據(jù)集被劃分為訓(xùn)練集和測(cè)試集,分別包含18 個(gè)訓(xùn)練樣本和12 個(gè)測(cè)試樣本。本文使用DSC 和HD 作為8 個(gè)腹部器官(主動(dòng)脈、膽囊、脾臟、左腎、右腎、肝臟、胰腺、脾臟、胃)的評(píng)價(jià)指標(biāo)(見3.3 節(jié))。
2)自動(dòng)心臟診斷挑戰(zhàn)(Automated Cardiac Diagnosis Challenge,ACDC)數(shù)據(jù)集。ACDC 數(shù)據(jù)集從100 名患者的核磁共振成像(Magnetic Resonance Imaging,MRI)掃描儀獲得,每個(gè)MRI 掃描中含有18~20 張切片;同時(shí),MRI 掃描儀分別標(biāo)記了每個(gè)患者的左心室(Left Ventricle,LV)、右心室(Right Ventricle,RV)和心?。∕YOcardium,MYO)。整個(gè)數(shù)據(jù)集被劃分為70 個(gè)訓(xùn)練樣本、10 個(gè)驗(yàn)證樣本和20 個(gè)測(cè)試樣本,僅使用DSC 來評(píng)估本文模型。
實(shí)驗(yàn)基于PyTorch 1.7.1 深度學(xué)習(xí)框架。對(duì)于所有的訓(xùn)練樣本,使用圖片旋轉(zhuǎn)和翻轉(zhuǎn)來增加數(shù)據(jù)的多樣性。在訓(xùn)練過程中,先將圖片裁剪為224×224 大小,采用小批量隨機(jī)梯度下降方法,每次實(shí)驗(yàn)進(jìn)行150 輪迭代,訓(xùn)練批次為24,動(dòng)量參數(shù)為0.9,學(xué)習(xí)率為0.01,優(yōu)化器中權(quán)重衰減參數(shù)為0.000 1,所有實(shí)驗(yàn)在32 GB 的NVIDIA V100 下完成。
評(píng)估指標(biāo)主要用于評(píng)估模型的性能優(yōu)劣,判斷當(dāng)前模型是否穩(wěn)定且獲取的結(jié)果是否精確。本文采用的評(píng)估指標(biāo)由Dice 相似系數(shù)(DSC)和Hausdorff 距離(HD)兩部分組成[40-41]。由于DSC 對(duì)分割像素的內(nèi)部填充的約束性更強(qiáng),HD 對(duì)分割的邊界的敏感程度更高,將兩者結(jié)合起來評(píng)估更有利于圖像分割任務(wù),以獲取最精確的分割結(jié)果。
1)DSC。DSC 用于度量?jī)蓚€(gè)集合的相似性,通常用于計(jì)算兩個(gè)樣本之間的相似度。與Dice 損失類似,取值范圍為[0,1],值越大表明兩個(gè)樣本越相似。具體公式如式(10)所示:
2)HD。HD 是描述兩組點(diǎn)集之間相似程度的一種量度方式,它能捕獲兩個(gè)多邊形的細(xì)微之處,主要是指一個(gè)點(diǎn)集中的點(diǎn)到另一個(gè)點(diǎn)集中的點(diǎn)的最短距離的最大值。具體公式如式(11)所示:
為了驗(yàn)證本文模型的分割效果,在同等條件下進(jìn)行了對(duì)比實(shí)驗(yàn)。本文的對(duì)比網(wǎng)絡(luò)采用了較為先進(jìn)的分割模型,如V-Net[42]、DARR(Domain Adaptive Relational Reasoning)[26]、U-Net[12]、Att-UNet(Attention U-Net)[16]、Vit(Vision Transformer)[26]以及最近提出的TransUNet[26],R50 是指模型的編碼器是由ResNet50 構(gòu)成。為了避免實(shí)驗(yàn)的分割精度出現(xiàn)偶然峰值的情況,每組實(shí)驗(yàn)經(jīng)過n次訓(xùn)練(n≥3),再加權(quán)平均后得到最終的實(shí)驗(yàn)結(jié)果。Synapse 數(shù)據(jù)集與ACDC 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分別如表1、2 所示,圖4 為模型在Synapse 數(shù)據(jù)集上的分割實(shí)例。
3.4.1 Synapse多器官分割數(shù)據(jù)集
如表1 所示,實(shí)驗(yàn)結(jié)果表明本文所提出的MFUNet 在DSC 上達(dá)到81.06%,HD 降低至28.05%,與基線模型TransUNet 相比,MFUNet 模型在DSC 上提升了4.6%,HD 減少了11.5%。為了進(jìn)一步說明FFM 和DCA 模塊的有效性,本文分別進(jìn)行了兩組消融實(shí)驗(yàn):1)MFUNetfffm,不包含DCA 模塊;2)MFUNetdca,不包含F(xiàn)FM。從數(shù)據(jù)結(jié)果可知,與基線模型TransUNet 相比,MFUNetfffm模型和MFUNetdca模型在DSC 指標(biāo)和HD 指標(biāo)都具有顯著的改善;同時(shí),結(jié)合了FFM 和DCA模塊的MFUNet 分割模型所產(chǎn)生的分割圖像在內(nèi)部填充和邊緣預(yù)測(cè)方面都明顯優(yōu)于其他對(duì)比模型。
表1 不同模型在Synapse多器官分割數(shù)據(jù)集上的分割精度 單位:%Tab.1 Segmentation accuracies of different models on Synapse multi-organ segmentation dataset unit:%
圖4 是多種不同的分割模型在Sy napse 多器官分割數(shù)據(jù)集上的分割結(jié)果。圖4(d)(e)是由Att-UNet 和U-Net 兩個(gè)只基于CNN 的模型生成的圖像,由于單純卷積操作的局限性,兩者都存在對(duì)器官的過度分割,如將脾臟誤判為肝臟(圖4第二行(d)(e))。相較于本文所提出的MFUNet,圖4(c)的TransUNet 模型僅僅考慮到圖片的長(zhǎng)距離依賴和融合上下文信息,并未考慮圖像的局部依賴關(guān)系和融合上下文信息的過程中通道信息的重要性,因此在胃上的分割存在漏標(biāo)記和過度標(biāo)記的情況(圖4(c)第一行和第三行)。實(shí)驗(yàn)結(jié)果表明,MFUNet 模型相較于其他對(duì)比模型分割更加精確,更接近于醫(yī)生手動(dòng)分割結(jié)果。
圖4 不同模型在Synapse多器官數(shù)據(jù)集上的分割結(jié)果Fig.4 Segmentation results of different models on Synapse multi-organ segmentation dataset
3.4.2 自動(dòng)心臟診斷挑戰(zhàn)數(shù)據(jù)
相似地,將本文所提出的MFUNet 模型與其他對(duì)比模型用于自動(dòng)心臟診斷挑戰(zhàn)數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如表2 所示。從表2 可知,MFUNet 模型仍然有極好的性能,其整體分割準(zhǔn)確度達(dá)到90.91%,并且在右心室和心肌兩部分的分割精度明顯優(yōu)于現(xiàn)有模型。與基線模型TransUNet 相比,MFUNet 在右心室和心肌兩個(gè)器官的分割精度分別提升了1.43 和3.48 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果進(jìn)一步表明本文所提出的多注意力融合網(wǎng)絡(luò)MFUNet 具有良好的泛化性和魯棒性。
表2 不同模型在ACDC心臟分割數(shù)據(jù)集上的分割精度 單位:%Tab.2 Segmentation accuracies of different models on ACDC heart segmentation dataset unit:%
為了探討不同因素對(duì)模型性能的影響,本文通過控制變量的方式在Synapse 多器官分割數(shù)據(jù)集上進(jìn)行了一系列的消融實(shí)驗(yàn),主要包含了以下幾點(diǎn)因素對(duì)模型性能的影響:
1)跳躍連接數(shù)量。為了探討不同連接數(shù)量對(duì)模型造成的影響,在1/2、1/4、1/8 分辨率尺度下分別添加跳躍連接,連接數(shù)量分別設(shè)置為1、2 和3,結(jié)果如表3 所示。從實(shí)驗(yàn)結(jié)果看出,分割性能隨跳躍連接數(shù)量的增加而提升。因此,本文將跳躍連接數(shù)量設(shè)置為3 以追求更精確的分割精度。
表3 跳躍連接數(shù)量的消融實(shí)驗(yàn) 單位:%Tab.3 Ablation experiment for number of skip connections unit:%
2)模型規(guī)模大小。從表4 可見,實(shí)驗(yàn)訓(xùn)練兩個(gè)規(guī)模大小的模型“base”和“l(fā)arge”,兩個(gè)模型的隱藏層大小、Transformer層數(shù)以及每層Transformer 中注意力的個(gè)數(shù)分別為12、768、3 072 和24、1 024、4 096。從表4 可見,“l(fā)arge”模型能獲得更精確的分割結(jié)果,但提升不顯著且會(huì)帶來巨大的算力開銷。因此最終選擇“base”模型來進(jìn)行本文實(shí)驗(yàn)。
表4 模型規(guī)模大小的消融實(shí)驗(yàn) 單位:%Tab.4 Ablation experiment for model scale unit:%
3)輸入分辨率。本文考慮了低分辨率圖像(224×224)和高分辨率圖像(384×384)對(duì)模型造成的影響。從表5 可見,在保證分割的切片大小一致的情況下,高分辨率圖像的輸入序列將會(huì)更大,因而提升了模型的相對(duì)性能??紤]到高分辨率圖像會(huì)使網(wǎng)絡(luò)的計(jì)算負(fù)荷顯著增加,本文選擇以224×224分辨率圖像作為輸入。
表5 輸入分辨率的消融實(shí)驗(yàn) 單位:%Tab.5 Ablation experiment for input resolution unit:%
4)卷積分組數(shù)。本文設(shè)置了不同的分組數(shù),分別為1、48、768:當(dāng)分組數(shù)為1 時(shí)表示普通卷積,當(dāng)分組數(shù)為768 時(shí)可理解為深度卷積(Depthwise Convolution,DC),深度卷積能極大地縮小卷積重復(fù)計(jì)算所帶來的巨大參數(shù)量,達(dá)到簡(jiǎn)化模型的效果。從表6 可見,使用深度卷積時(shí)模型分割更為精確。
表6 MFUNet中卷積分組數(shù)的消融實(shí)驗(yàn) 單位:%Tab.6 Ablation experiment for number of convolution groups in MFUNet unit:%
本文提出了一種新穎的多注意力融合網(wǎng)絡(luò)模型(MFUNet)用于醫(yī)學(xué)圖像的分割。該模型通過在Transformer中加入分組卷積操作來增強(qiáng)相鄰分塊特征間的局部聯(lián)系,在上采樣部分加入雙通道注意力來進(jìn)一步增強(qiáng)模型對(duì)通道的重要特征的敏感程度。通過對(duì)多器官分割任務(wù)和心臟分割任務(wù)的大量實(shí)驗(yàn)結(jié)果表明,MFUNet 具有出色的性能和泛化能力,其實(shí)驗(yàn)結(jié)果均優(yōu)于其他對(duì)比模型。此外,對(duì)于如何實(shí)現(xiàn)更好的邊緣預(yù)測(cè),以保證預(yù)測(cè)分割圖更貼合醫(yī)療靶區(qū)大小是需要進(jìn)一步研究的問題。