楊本臣,賈宇航,金海波
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)
原發(fā)性肝癌是2020 年全球第六大最常診斷的癌癥和第三大癌癥死亡原因[1]。計算機斷層掃描(CT)影像的準確測量,包括肝臟和腫瘤的位置、體積、形狀,可以幫助醫(yī)生作出精確的肝臟腫瘤細胞評估和治療計劃。傳統(tǒng)的肝臟病變評估是由放射科醫(yī)生通過分析計算機斷層掃描影像逐層完成描繪的,這種方式成本高、耗時長、可重復(fù)性差,分割結(jié)果很大程度上依賴于操作者的技術(shù)水平。因此,臨床對肝臟及腫瘤的自動分割方法提出了較高的要求。
早期的醫(yī)學(xué)圖像自動分割方法主要基于區(qū)域的閾值法[2]、區(qū)域生長法[3]、邊緣檢測濾波器[4-5]等。這些傳統(tǒng)的圖像分割方法能夠取得較好的分割結(jié)果,但分割過程往往取決于操作者的先驗知識,如閾值法中選取閾值、區(qū)域生長法中選取種子點等,導(dǎo)致分割結(jié)果受到主觀因素的影響較大。
自深度學(xué)習(xí)出現(xiàn)以來,全卷積網(wǎng)絡(luò)[6],特別是U 型編碼器-解碼器架構(gòu)[7-9]在各種醫(yī)學(xué)語義分割任務(wù)中取得了較好的效果。在典型的U-Net[10-11]體系結(jié)構(gòu)中,編碼器負責(zé)對提取的特征進行下采樣來捕捉圖片的上下文信息,解碼器對提取的特征進行上采樣來對分割部分進行精確定位,不同分辨率的編碼器和解碼器的輸出通過跳躍連接合并以恢復(fù)在下采樣期間丟失的空間信息。VALANARASU等[12]提出一種過完備卷積結(jié)構(gòu)(Kite-Net),通過交叉殘差特征塊與U-Net 結(jié)合在一起實現(xiàn)了對邊界精細細節(jié)甚至在更深層小結(jié)構(gòu)的提取。然而,卷積層中感受野的局部性仍然將它們的學(xué)習(xí)能力限制在相對較小的區(qū)域。為了提高非局部建模能力,已有研究提出將自注意力模塊與卷積層相結(jié)合的方法[13-14]。最近,完全基于自注意力的Transformer[15]設(shè)計被用于對序列到序列任務(wù)中長距離依賴關(guān)系進行建模,它能捕獲序列中任意位置之間的關(guān)系并且在各種計算機視覺任務(wù)上達到先進的性能。然而,雖然Transformer具有強大的學(xué)習(xí)全局信息的能力,但它不能正確捕捉局部信息。
本文設(shè)計KTU-Net 多分支特征融合網(wǎng)絡(luò)用于肝臟和肝臟腫瘤的精確分割。KTU-Net 通過融合3 個網(wǎng)絡(luò)的特征實現(xiàn)全局和局部信息的融合,從而提高模型的分割效果。最后,使用公共數(shù)據(jù)集Liver Tumor Segmentation benchmark(LiTS)驗證提出的模型在肝臟腫瘤分割任務(wù)上的有效性。
自從U-Net[11]引入醫(yī)學(xué)圖像分割任務(wù)取得了巨大成功,許多基于U-Net 的變體也不斷出現(xiàn)。ZHOU等[16]提出了一種深度監(jiān)督的編碼器-解碼器網(wǎng)絡(luò),其中編碼器和解碼器子網(wǎng)絡(luò)通過一系列嵌套、密集的跳躍路徑連接在一起,縮小了編解碼子網(wǎng)絡(luò)特征映射之間的語義鴻溝。張相芬等[9]提出了一種U 型結(jié)構(gòu)UNet3+,通過深度監(jiān)督從多尺度聚集的特征圖中學(xué)習(xí)層次化的表征,而完全跳躍連接則將多尺度特征圖中的高層次語義特征與低層次語義特征相結(jié)合。VALANARASU等[12]提出了一種雙分支結(jié)構(gòu)的KiU-Net,將過完備卷積結(jié)構(gòu)Kite-Net 和U-Net網(wǎng)絡(luò)通過交叉殘差特征塊結(jié)合在一起,然后使各自的特征信息相互傳遞來學(xué)習(xí)互補特征,實現(xiàn)了對邊界精細細節(jié)以及更深層中小目標特征的提取。BEN?EVI?等[17]提出了一種名為Polar U-Net 的架構(gòu),通過訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來實現(xiàn)對原始數(shù)據(jù)集的極坐標變換,這樣變換后的極坐標原點就是對象的中心點,實現(xiàn)了網(wǎng)絡(luò)的維度降低以及分割和定位任務(wù)的分離,使網(wǎng)絡(luò)更容易收斂。盡管這些網(wǎng)絡(luò)取得了成功,但它們在學(xué)習(xí)全局上下文信息和長距離空間依賴方面存在局限性,這可能會嚴重影響挑戰(zhàn)性任務(wù)的分割性能。
HATAMIZADEH等[18]提出了UNETR,通過利用Transformer 作為編碼器來學(xué)習(xí)輸入體積的序列表示,并且編碼器和解碼器遵循了成功的U 型網(wǎng)絡(luò)設(shè)計,能夠有效地捕捉全局多尺度信息。VALANARASU等[19]提出了一個門控的軸向注意力模型MedT,該模型通過在自我注意力中引入一個總結(jié)性的控制機制,擴展了現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。CAO等[20]提出了一種純粹基 于Transformer 的U 型架構(gòu)Swin-Unet,使用帶有移位窗口的分層Swin Transformer 作為編碼器來提取上下文特征,并且設(shè)計了一個基于Swin Transformer 帶有補丁擴展層的對稱解碼器,用于執(zhí)行上采樣操作以恢復(fù)特征圖的空間分辨率。LIN等[21]提出了DS-TransUNet,它進一步擴展了Swin-UNet,增加了一個編碼器來處理多尺度的輸入,并引入了一個融合模塊,通過自注意力機制有效地建立了不同尺度特征之間的全局依賴關(guān)系。
與現(xiàn)有的方法不同,本文所提出的網(wǎng)絡(luò)架構(gòu)在捕獲局部邊緣的精細細節(jié)的同時,還能捕獲全局多尺度信息,從而確??臻g一致性。
體積分割的KTU-Net 架構(gòu)如圖1 所示(彩色效果見《計算機工程》官網(wǎng)HTML版,下同)。它是一個三分支網(wǎng)絡(luò),從上往下3 個分支分別為Kite-Net、U-Net、Transformer。對于U-Net 與Kite-Net 分支,輸入形狀為X∈RC×H×W×D的計算機斷層掃描圖像,其中,H、W為掃描的高度和寬度,D為掃描的二維圖像切片數(shù),C為通道數(shù)。在編碼階段,Kite-Net 通過3 個線性上采樣層將輸入投影到更高的維度,這樣可以限制感受野在網(wǎng)絡(luò)深層的增加來學(xué)習(xí)更精確的局部邊緣特征細節(jié)。U-Net 通過3D 最大池化層不斷進行下采樣來學(xué)習(xí)輸入圖像的高級特征。在解碼階段,KiU-Net 和KTU-Net 每一層都采用跳躍連接將底層特征與高層特征相結(jié)合,從而提高特征的重用性。此外,在編解碼過程中,KTU-Net 與U-Net 的每個層級都使用殘差特征融合塊結(jié)合起來。
圖1 KTU-Net 整體架構(gòu)Fig.1 Overall architecture of KTU-Net
同樣地,對于Transformer 分支,將輸入體X∈RC×H×W×D重塑為均勻不重疊的塊X∈RN×(P3·C),其中,(P,P,P) 表示每個塊的分辨率,N=為輸入序列的長度。使用線性層將塊投影到K維嵌入空間,然后為了對空間信息進行編碼,增加了一維可學(xué)習(xí)的位置嵌入并將其添加到塊嵌入中以保留位置信息。用公式可以表示為:
其中:E∈R(P3·C)×K為塊嵌入投影;Epos∈RN×K為位置嵌入。
Transformer 編碼器由L層多頭自注意力(MSA)機制和多層感知器(MLP)模塊組成。因此,第i層的輸出表示為:
其中:LN()表示層歸一化;MLP 由具有GeLU 激活函數(shù)的2 個線性層組成;i為中間塊標識符;L為Transformer 層數(shù)。
最后,將Transformer 分支作為一個單一的網(wǎng)絡(luò)訓(xùn)練特征來學(xué)習(xí)分類器,與KTU-Net 其他2 個分支學(xué)習(xí)的分類器的預(yù)測結(jié)果相結(jié)合,實現(xiàn)肝臟和肝臟腫瘤的分割。
使用交叉殘差特征塊(Cross Residual Feature Block,CRFB)來結(jié)合Kite-Net 和U-Net 在多個尺度上的特征。在編碼和解碼階段,U-Net 和Kite-Net的每一層都使用CRFB 來融合高層語義特征和局部邊緣特征。CRFB 通過插值、GN 和ReLU 激活函數(shù)提取Kite-Net 的交叉殘差特征,之后與U-Net的原始輸入進行加性操作。CRFB 對U-Net 的操作同理。由于這兩個網(wǎng)絡(luò)學(xué)習(xí)不同的特征,因此它們可以通過CRFB 學(xué)習(xí)互補的特征,提高網(wǎng)絡(luò)學(xué)習(xí)的特征的質(zhì)量。CRFB 結(jié)構(gòu)如圖2 所示,輸出可以表示為:
圖2 交叉殘差特征塊結(jié)構(gòu)Fig.2 Structure of CRFB
其中:F(x)和S(x)是交叉殘差特征塊的輸入;(x)和(x)是特征圖進行插值操作、ReLU 激活和組歸一化后的特征映射。
在獲得了全局上下文信息后,有兩種通用的標準范例將其與局部特征一起使用[22]。上文描述的網(wǎng)絡(luò)架構(gòu)的融合方式為晚期融合,即全局特征和局部特征都用來學(xué)習(xí)它們自己的分類器,然后將兩個預(yù)測合并成單個分類分數(shù)。另一種融合方式為早期融合,即在空間上將全局特征分解到與局部特征圖相同的大小后連接起來,使用組合的特征來學(xué)習(xí)分類器。這兩種方法各有利弊。對于后期融合,存在這樣一種情況:只有在全局特征輔助下的局部特征才能夠判斷出正確的分類結(jié)果,如果兩個特征分別訓(xùn)練再融合,可能會產(chǎn)生分割損失。對于早期融合,融合前不進行歸一化,高層特征就會被低層的大尺度特征覆蓋,所以,在合并特征前必須對每個單獨的特征進行標準化,以使融合后的特征能夠正常工作。
為了比較采用兩種融合方式的分割性能,設(shè)計采用早期融合方式的KTU-Net,網(wǎng)絡(luò)架構(gòu)如圖3 所示。在這種情況下,Transformer 在編碼階段生成輸出特征圖后,使用一個反卷積層來改變特征圖的大小,然后與U-Net 編碼階段得到的特征圖級聯(lián),提供全局多尺度信息。
圖3 采用早期融合方式的KTU-Net 架構(gòu)Fig.3 KTU-Net architecture with early fusion approach
解碼階段的每一層級都通過CRFB 模塊將Transformer 和U-Net 級聯(lián)的特征圖信息與Kite-Net的局部精細邊緣信息結(jié)合,以實現(xiàn)全局信息與局部信息的融合。
在解碼階段之后,從KTU-Net 3 個分支得到的輸出被合并輸入到1×1×1 3D 卷積層來生成預(yù)測體素。
本文采用BCEWithLogits Loss 和Dice Loss 相結(jié)合的損失函數(shù)。BCEWithLogits Loss 將Sigmoid函數(shù)和二元交叉熵損失函數(shù)結(jié)合為一類,從而使計算結(jié)果更加穩(wěn)定,并且有利于梯度的穩(wěn)定反向傳播,避免了梯度消失的問題。BCEWithLogits Loss定義為:
其中:C表示類 數(shù);N表示體素數(shù) 量;Pi,j和Gi,j分別表示體素i第j類的預(yù)測值輸出和真實標簽;σ(Pi,j)為Sigmoid 函數(shù)。
Dice Loss 可以解決語義分割中正負樣本之間的極端不平衡問題,避免發(fā)生過擬合現(xiàn)象。它通過側(cè)重對前景區(qū)域的挖掘減少局部最小值對損失函數(shù)的影響,并且對網(wǎng)絡(luò)的監(jiān)督懲罰不會隨著特征的大小而改變。計算公式為:
其中:Smooth 的值設(shè)置為1e-5。
BCEWithLogits Loss 利于對每個類別的平等評估,Dice Loss 利于優(yōu)化分割網(wǎng)絡(luò),因此,上述損失的混合損失函數(shù)最終表示為:
其中:λ的值設(shè)置為0.5。
使用LiTS 數(shù)據(jù)集來訓(xùn)練和評估所提出的方法。LiTS 數(shù)據(jù)集來自111 個(不包括3DIRCAD-B 數(shù)據(jù)集)腹部對比計算機斷層掃描圖像,輸入尺寸為512×512 像素,平面內(nèi)分辨率范圍為0.56~1.00 mm,切片厚度范圍為0.45~6.00 mm。在實驗過程中,隨機將CT 圖像劃分為3 個不重疊的子集:70%的CT 圖像用于訓(xùn)練,20%用于驗證,10%用于測試。對于圖像預(yù)處理,參考文獻[23]中的方法,處理后的圖像分辨率為48×128×128 像素。對于圖像后處理,只保留分割預(yù)測的最大連接區(qū)域。
為了驗證所提出的網(wǎng)絡(luò)的基礎(chǔ)事實和測試結(jié)果之間的性能,使用以下客觀和通用的度量指標來評估分割模型:Dice 得分(DC)、Dice 全局(DG)、體積重疊誤差(VOE)、平均對稱表面距離(ASSD)和精度。將所提出的網(wǎng)絡(luò)與KiU-Net、TransBTS、UNETR這三個先進的網(wǎng)絡(luò)進行比較。
本文基于Python 3.7、PyTorch 1.8.1 和Windows 10運行所有實驗。所有訓(xùn)練程序都是在一個24 GB 內(nèi)存的NVIDIA 2080 GPU 上執(zhí)行的。在訓(xùn)練過程中,為了能夠在模型收斂的情況下得到最優(yōu)的模型,又不至于在數(shù)據(jù)量較少的情況下過擬合,在實驗過程中引入Early Stop 機制,因此,最終的迭代次數(shù)不是人為設(shè)定的而是由驗證集上的損失決定的,設(shè)定的最大迭代次數(shù)為200次。另外,訓(xùn)練過程中的batch size 大小設(shè)定為2,選擇的是自適應(yīng)參數(shù)的優(yōu)化算法Ranger[24],學(xué)習(xí)率初始化為0.001,Early Stop 中的耐心值為40[25]。基于的Transformer包含8層,嵌入大小為512,并且使用16×16×16 像素的補丁分辨率。
本文在肝臟腫瘤分割挑戰(zhàn)數(shù)據(jù)集(LiTS)上進行主要的實驗,將KTU-Net與以下3 個先進的3D 醫(yī)學(xué)圖像分割技術(shù)進行比較:1)KiU-Net[11];2)TransBTS[26];3)UNETR[18]。
肝臟分割定量指標的比較見表1,腫瘤分割定量指標的比較見表2。本文的KTU-Net 使用后期融合策略,在肝臟分割方面取得了0.967DC 和0.969DG,在腫瘤分割方面取得了0.666DC 和0.713DG??梢钥吹?,與KiU-Net相比,添 加Transformer 作為第三分支后,模型在肝臟和腫瘤分割的準確性上都取得了更好的表現(xiàn),這一結(jié)果證明了將全局信息與局部信息融合策略的有效性。由圖3 可以看出,KTU-Net 在肝臟邊界精細細節(jié)以及腫瘤小目標分割上表現(xiàn)得比TransBTS 和UNETR 更好,說明過完備卷積結(jié)構(gòu)有利于邊界精細細節(jié)和更深層小結(jié)構(gòu)特征的提取,從而提升了模型對特征的學(xué)習(xí)能力。
表1 肝臟分割定量指標比較Table 1 Comparison of quantitative indicators of liver segmentation
表2 腫瘤分割定量指標比較Table 2 Comparison of quantitative indicators of tumor segmentation
表1 和表2 中倒數(shù)第2 行為采用早期融合策略的KTU-Net 的實驗結(jié)果,可見融合全局信息后網(wǎng)絡(luò)的性能得到了提升。而與采用后期融合策略的KTU-Net 相比,網(wǎng)絡(luò)性能反而下降,這表明使用后期融合方法的KTU-Net 能夠更有效地結(jié)合多分支網(wǎng)絡(luò)的特征。另外,為了進行公平比較,在所有這些實驗中使用了相同的管道,同時進行了相同的預(yù)處理和后處理操作。
圖4 顯示了CT 肝臟腫瘤分割結(jié)果的直觀比較,每一行對應(yīng)的是來自不同斷層掃描的單個切片的分割預(yù)測結(jié)果,紅色區(qū)域表示預(yù)測的肝臟,綠色區(qū)域表示預(yù)測的病灶,灰色區(qū)域表示真實肝臟,白色區(qū)域表示真實病灶,下同。三維分割結(jié)果用ITKSnap[26]進行了可視化。偶數(shù)行的方框內(nèi)展示了腫瘤部分的放大圖,Ground Truth 綠色區(qū)域表示肝臟的真實病灶位置。定性分析表明,本文方法具有更平滑的肝臟腫瘤邊緣分割性能,肝臟腫瘤分割取得了比其他先進方法更好或相似的結(jié)果。融合了KiU-Net(可以提取邊緣的精細細節(jié))和Transformer(捕捉全局背景信息)的KTU-Net 網(wǎng)絡(luò)對小規(guī)模的腫瘤和相對大規(guī)模的肝臟都取得了更好的分割效果。
圖4 CT 肝臟腫瘤分割結(jié)果的視覺對比Fig.4 Visual comparison of CT liver tumor segmentation results
圖5 顯示了CT 肝臟腫瘤分割結(jié)果與Ground Truth 的視覺對比??梢悦黠@看出,采用后期融合策略的KTU-Net 充分覆蓋了肝臟的病灶區(qū)域,它與采用早期融合策略的KTU-Net 相比損失值更低,說明后期融合方法能有效地結(jié)合多分支網(wǎng)絡(luò)的特征。同時采用后融合策略的KTU-Net 與其他方法相比在肝臟腫瘤分割表現(xiàn)更好,例如第2 組分割結(jié)果中,本文方法在肝臟邊緣分割更平滑,腫瘤分割區(qū)域與真實病灶的IOU 更高。
圖5 CT 肝臟腫瘤分割結(jié)果與Ground Truth 的視覺對比Fig.5 Visual comparison of CT liver tumor segmentation results with Ground Truth
為簡單起見,表3 顯示了對KTU-Net 中不同模塊的消融研究結(jié)果,在3DIRCADB 數(shù)據(jù)集上進行了實驗。表中第1 行最基本的基線由三分支網(wǎng)絡(luò)(TBN)組成,其不包含任何的跳躍連接(SK)以及交叉殘差塊(CRFB),并且最后通過添加3 個分支的特征映射輸出來融合三分支網(wǎng)絡(luò)。與基線相比,加入跳躍連接后,平均Dice 分數(shù)分別提高了0.3% 和0.8%,說明跳躍連接使解碼器在進行上采樣時獲得了更多高分辨率信息,更完善地恢復(fù)了原始圖像中的細節(jié)信息。同樣,加入CRFB 塊后,肝臟腫瘤的平均Dice 分數(shù)分別提高了0.7%和2.1%,說明交叉殘差塊通過結(jié)合各個分支網(wǎng)絡(luò)特征,提高了特征融合的質(zhì)量。從表3 和上述分析可以得出,隨著網(wǎng)絡(luò)中每個模塊的添加,性能都會得到一定提升。
表3 KTU-Net 中使用不同區(qū)塊的效果Table 3 Effect of using different blocks in KTU-Net
本文提出了多分支特征融合的網(wǎng)絡(luò)結(jié)構(gòu)KTU-Net,同時關(guān)注輸入圖像的全局和局部特征。與使用早期融合方法相比,使用后期融合方法可以更有效地將全局信息與局部信息進行融合。與先進的三維醫(yī)學(xué)圖像分割方法的比較結(jié)果表明,本文方法在肝臟腫瘤分割中取得了較高的精度,證明了KTU-Net 的有效性。與現(xiàn)有的肝臟腫瘤分割網(wǎng)絡(luò)不同,本文通過結(jié)合多分支網(wǎng)絡(luò)實現(xiàn)全局和局部信息的融合。實驗結(jié)果表明,使用Transformer 作為第三分支來捕獲全局背景信息,可以顯著提高肝臟腫瘤的分割精度。對于臨床實踐,本文提出的網(wǎng)絡(luò)架構(gòu)在肝臟腫瘤分割任務(wù)上表現(xiàn)得更好,可以幫助醫(yī)生從CT圖像分割結(jié)果中作出更快的評估和診斷。然而,由于模型的復(fù)雜性和大量的參數(shù),多分支網(wǎng)絡(luò)在訓(xùn)練時產(chǎn)生了較大的計算成本。在未來的工作中,將設(shè)計一個輕型的網(wǎng)絡(luò)模型,以減少模型的計算量,同時保持模型分割的準確性和所提取特征的有效性。