李秀華,朱水成
(長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林 長(zhǎng)春 130012)
肝臟作為人體新陳代謝的主要器官,對(duì)人體有著不可替代的重要作用[1]。肝癌是指在肝臟上產(chǎn)生的惡性腫瘤,是發(fā)病率和致死率極高的腫瘤之一。肝癌已成為人類健康的巨大威脅,對(duì)其進(jìn)行早期診斷可以顯著降低患者死亡率[2]。當(dāng)前,治療肝癌最有效的手段是進(jìn)行肝腫瘤切除[3]。計(jì)算機(jī)斷層掃描(Computed Tomography,CT)是肝癌檢測(cè)的重要手段[4],也為醫(yī)生進(jìn)行腫瘤切除提供了極大便利。然而傳統(tǒng)的手動(dòng)分割針對(duì)大小形態(tài)不一、邊界模糊的腫瘤分割難度極大,對(duì)醫(yī)生的臨床經(jīng)驗(yàn)有著很強(qiáng)的依賴性[5],且長(zhǎng)時(shí)間的手動(dòng)分割,醫(yī)生會(huì)過度疲勞,極易出現(xiàn)誤診和漏診的情況,因此手術(shù)前必須對(duì)肝臟和腫瘤的位置、形狀有著精準(zhǔn)的定位和分割[6]。
隨著科技的發(fā)展和計(jì)算機(jī)運(yùn)算能力的增強(qiáng),深度學(xué)習(xí)已廣泛應(yīng)用于圖像分類、分割和檢測(cè)等任務(wù)中,并取得了顯著的成就。2015年,Long等人提出了全卷積網(wǎng)絡(luò)(FCN)[7],開啟了在語義分割鄰域的應(yīng)用。FCN的出現(xiàn)使圖像分割算法得到了廣泛研究,其基本思想是使用卷積層替換全連接層,使用轉(zhuǎn)置卷積進(jìn)行上采樣,分割精度優(yōu)于傳統(tǒng)的分割方法。同年,Ronneberger等人在ISBI競(jìng)賽上,將FCN與編碼-解碼結(jié)構(gòu)相結(jié)合,提出了U-Net網(wǎng)絡(luò)[8],采用編碼器提取特征,利用解碼器將特征圖恢復(fù)至原始分辨率,引入跳躍連接融合上下文特征減少信息丟失,該網(wǎng)絡(luò)現(xiàn)已成功應(yīng)用于諸多圖像分割任務(wù)中。ResU-Net在U-Net基礎(chǔ)上引入了殘差模塊[9],提取圖像的更深層特征。Attention U-Net在U-Net跳躍連接中加入注意力機(jī)制模塊[10],通過生成一個(gè)門控信號(hào)來控制不同空間位置處的特征信息,使其更關(guān)注目標(biāo)區(qū)域,獲得更好的分割結(jié)果。Chen等[11]提出DeepLab用于語義分割,加入空洞卷積[12]增大卷積核感受野。雖然基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分割算法在圖像分割中取得了較好的效果,但在對(duì)體積較小,邊界模糊的肝臟腫瘤進(jìn)行分割時(shí),編碼器提取到的特征不夠準(zhǔn)確,且由于類不平衡,網(wǎng)絡(luò)難以取得較好的分割效果。
針對(duì)上述方法中U-Net網(wǎng)絡(luò)在肝臟腫瘤分割中存在的問題,對(duì)原始U-Net引入注意力機(jī)制和殘差模塊進(jìn)行優(yōu)化,并結(jié)合Focal Tversky損失函數(shù)用于肝臟腫瘤分割,以改善類不平衡問題,提升大小形態(tài)不一及邊界模糊的腫瘤分割效果。
U-Net是用于醫(yī)學(xué)圖像分割的全卷積神經(jīng)網(wǎng)絡(luò),傳統(tǒng)U-Net模型如圖1(a)所示,其結(jié)構(gòu)相互對(duì)稱,包括壓縮路徑、擴(kuò)展路徑和跳躍連接,可以進(jìn)行端到端的訓(xùn)練。壓縮路徑為卷積和最大池化的堆疊,整體結(jié)構(gòu)與VGG[13]類似,主要用來提取圖像中的上下文信息。擴(kuò)展路徑經(jīng)過一系列反卷積操作恢復(fù)特征圖分辨率,對(duì)圖像中要分割的部位進(jìn)行準(zhǔn)確定位,為了減少上采樣造成的細(xì)節(jié)丟失,通過跳躍連接融合淺層和深層的圖像特征信息,最終得到與原圖尺寸相同的分割圖。然而傳統(tǒng)U-Net在簡(jiǎn)單的圖像拼接后會(huì)得到許多冗余信息,且在上采樣過程中會(huì)丟失較多語義特征,針對(duì)肝臟及腫瘤的分割精確度不夠,難以滿足當(dāng)下復(fù)雜的診斷需求,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。
改進(jìn)U-Net模型如圖1(b)所示,由(a)和(b)可以看到,改進(jìn)U-Net由原先的四層減為三層,以減少網(wǎng)絡(luò)的計(jì)算量、縮短模型的訓(xùn)練時(shí)間。在編碼階段由普通卷積改為混合空洞卷積,以增大感受野、獲取更多的上下文信息。其次,重新構(gòu)建解碼網(wǎng)絡(luò),使用密集上采樣替換原始上采樣,捕獲和解碼更詳細(xì)的信息;使用殘差模塊替換普通卷積塊,提取更多特征信息、加速模型的訓(xùn)練并防止網(wǎng)絡(luò)退化。在每個(gè)跳躍連接之間加入注意力機(jī)制,使模型重點(diǎn)關(guān)注目標(biāo)區(qū)域的特征,抑制冗余特征。在特征融合之后添加Dropout層[14],抑制網(wǎng)絡(luò)的過擬合問題。使用組歸一化(GN)代替常用的批量歸一化(BN),減小Batch Size過小對(duì)網(wǎng)絡(luò)準(zhǔn)確性的影響。改進(jìn)后的U-Net在分割過程中可以提取到更精細(xì)的特征信息,從而獲得更好的分割效果。
圖1 傳統(tǒng)U-Net與改進(jìn)U-Net網(wǎng)絡(luò)結(jié)構(gòu)
空洞卷積通過在卷積核中注入空洞,可以實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng)感受野的同時(shí)不增加模型參數(shù)量,從而聚合更多的上下文信息??斩绰?rate)代表空洞的大小,當(dāng)rate為1時(shí),這種卷積就是標(biāo)準(zhǔn)的卷積操作。當(dāng)rate>1時(shí),在原圖上每隔(rate-1)個(gè)像素采樣??斩淳矸e感受野計(jì)算如下:
K=k+(k-1)(r-1)
(1)
其中,k為原始卷積核大小,r為空洞率。然而當(dāng)前空洞卷積存在網(wǎng)格效應(yīng):只有非零值的位置被采樣,會(huì)造成局部信息丟失。Wang Panqu提出的混合空洞卷積(Hybrid Dilated Convolution,HDC)[15],使用一系列的dilation rates而非使用相同的rate,有效緩解了網(wǎng)格效應(yīng),如圖2所示。
圖2 混合空洞卷積
當(dāng)前圖像分割任務(wù)中的網(wǎng)絡(luò)基本都具有編碼和解碼的過程,大多數(shù)網(wǎng)絡(luò)在解碼時(shí)使用的是雙線性插值,它是不可學(xué)習(xí)的,且會(huì)丟失細(xì)節(jié)信息。密集上采樣卷積(Dense Upsampling Convolution,DUC),通過學(xué)習(xí)一系列放大的過濾器來放大下采樣的特征圖到最終想要的尺寸,其結(jié)構(gòu)如圖3所示。
圖3 密集上采樣卷積
假設(shè)原圖大小為H×W,經(jīng)過卷積網(wǎng)絡(luò)后維度變?yōu)閔×w×c,其中h=H/d,w=W/d,d為下采樣因子。通過卷積后輸出特征圖維度為h×w×(d2×L),其中L是分割類別數(shù),然后使用softmax層將輸出特征映射重塑為H×W×L。DUC的核心思想是將整個(gè)標(biāo)簽圖劃分成與輸入特征圖等尺寸的d2子部分,也就是說,將整個(gè)標(biāo)簽映射轉(zhuǎn)換為具有多個(gè)通道的更小的標(biāo)簽映射。這種轉(zhuǎn)換可直接在輸入特征映射和輸出標(biāo)簽映射之間應(yīng)用卷積運(yùn)算,而不需要像反卷積那樣插入額外的值[16]。
DUC對(duì)于識(shí)別小物體非常有幫助,可以實(shí)現(xiàn)像素級(jí)預(yù)測(cè)。由于DUC是可學(xué)習(xí)的,它能夠捕獲和恢復(fù)在雙線性插值運(yùn)算中遺漏的細(xì)節(jié)信息。
在U-Net解碼階段使用殘差模塊替換普通卷積塊,殘差模塊使得前面層的輸入信息可以直接傳到后面層中,能夠加快信息的傳遞、加速模型的訓(xùn)練,減輕了網(wǎng)絡(luò)模型的退化問題,如圖4所示。
圖4 殘差模塊
殘差模塊中輸入X為模型上一階段所得的特征圖,輸入X經(jīng)過兩個(gè)包含BN和Relu的卷積層得到殘差映射,并且通過1×1的卷積操作實(shí)現(xiàn)特征維度匹配,最后將兩者相加進(jìn)行特征融合得到輸出Y。
在對(duì)編碼部分的淺層特征與解碼部分的深層特征進(jìn)行拼接融合之前,引入一種輕量的注意力機(jī)制模塊(CBAM),其結(jié)構(gòu)如圖5所示。
圖5 CBAM結(jié)構(gòu)
CBAM包含通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM),具體結(jié)構(gòu)如圖6所示。
圖6 CAM與SAM結(jié)構(gòu)
在CAM中,首先,將輸入的特征圖F(H×W×C)分別經(jīng)過基于寬度和高度的全局最大池化和全局平均池化,得到兩個(gè)1×1×C的特征圖。然后,將它們轉(zhuǎn)發(fā)到共享網(wǎng)絡(luò)(MLP)中,接著使用元素求和合并輸出特征向量,再通過Sigmoid激活,獲得通道注意力權(quán)重Mc。最后,用Mc與輸入特征圖F逐元素相乘,其結(jié)果作為空間注意力模塊的輸入。通道注意力計(jì)算如下:
Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))=
(2)
其中,σ為Sigmoid函數(shù),MLP權(quán)值W0∈RC/r×C和W1∈RC×C/r為兩個(gè)共享輸入,r為減少率。
在SAM中,將通道注意力模塊輸出的特征圖做一個(gè)基于通道的全局最大池化和全局平均池化,得到兩個(gè)H×W×1的特征圖,再將它們沿通道方向進(jìn)行拼接。然后,經(jīng)過一個(gè)7×7卷積操作,降維成1個(gè)通道。再經(jīng)過Sigmoid獲得空間注意力權(quán)重Ms,最后,用Ms與輸入特征圖F'逐元素相乘,得到最終輸出特征圖。空間注意力計(jì)算如下:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
(3)
其中,σ為Sigmoid函數(shù),f7×7表示卷積核為7×7的卷積運(yùn)算。
CBAM整體計(jì)算過程可以概括為:
F'=Mc(F)?FF''=Ms(F')?F'
(4)
其中,?為逐元素相乘,在乘法過程中,注意值被相應(yīng)地傳播,F(xiàn)''為最終精煉輸出。
類不平衡問題已成為醫(yī)學(xué)圖像分割的主要挑戰(zhàn)之一,肝臟腫瘤在整個(gè)腹部區(qū)域內(nèi)的占比較小,遠(yuǎn)低于正常組織器官。而訓(xùn)練這種不平衡的數(shù)據(jù),使得分割結(jié)果具有較高的精確度,但召回率較低。Dice損失函數(shù)的局限之一是無法權(quán)衡假陽(yáng)性(FP)和假陰性(FN),因此,該文使用Focal Tversky損失函數(shù)(FTL)以解決肝臟腫瘤分割中的類不平衡及精度召回率平衡問題,F(xiàn)TL公式如下:
(5)
(6)
(7)
(8)
通過調(diào)試,實(shí)驗(yàn)選擇α=0.7、β=0.3、γ=4/3進(jìn)行訓(xùn)練,當(dāng)α=β=0.5、γ=1時(shí),F(xiàn)TL簡(jiǎn)化為Dice Loss。
實(shí)驗(yàn)數(shù)據(jù)采用MICCAI2017LiTS[17]挑戰(zhàn)數(shù)據(jù)集,該數(shù)據(jù)集包括來自7個(gè)臨床機(jī)構(gòu)的131名患者的增強(qiáng)腹部CT影像,由4名經(jīng)驗(yàn)豐富的放射科醫(yī)生對(duì)肝腫瘤進(jìn)行手動(dòng)標(biāo)注。從數(shù)據(jù)集中挑選80名患者的CT影像作為訓(xùn)練集,6名患者的CT影像作為驗(yàn)證集,30名的患者CT影像作為測(cè)試集,其中去除了13個(gè)不含腫瘤及2個(gè)損壞的數(shù)據(jù)。對(duì)數(shù)據(jù)集進(jìn)行去噪處理并沿Z軸進(jìn)行切片,訓(xùn)練集通過切片一共生成13 316張切片數(shù)據(jù),其分辨率大小為512×512。
實(shí)驗(yàn)環(huán)境如下:Intel(R) Xeon(R) CPU E5-2650 2.2 GHz的CPU,NVIDIA TITAN XP×2的顯卡(12 GB×2顯存)和CentOS7操作系統(tǒng)。整個(gè)實(shí)驗(yàn)基于Python3.6、Pytorch1.8.0、CUDA10.2版本的深度學(xué)習(xí)框架。
網(wǎng)絡(luò)訓(xùn)練時(shí)采用Adam優(yōu)化器[18],batch size設(shè)置為4。訓(xùn)練肝臟分割時(shí),初始學(xué)習(xí)率設(shè)為0.001,訓(xùn)練腫瘤分割時(shí),初始學(xué)習(xí)率設(shè)為0.000 1,epoch都設(shè)為200。使用指數(shù)衰減策略調(diào)整學(xué)習(xí)率,衰減速率設(shè)為0.95,并采用L2正則化與dropout策略抑制過擬合。
為了評(píng)估所提方法的性能,使用醫(yī)學(xué)圖像分割中常用的Dice系數(shù)(Dice Similarity Coefficient,DSC)、召回率(Recall)和精確率(Precision)作為評(píng)價(jià)指標(biāo),計(jì)算公式分別為:
(9)
(10)
(11)
式中,TP代表真陽(yáng)性,是預(yù)測(cè)結(jié)果和專家手動(dòng)標(biāo)記的金標(biāo)準(zhǔn)重合的區(qū)域;FP代表假陽(yáng)性,是預(yù)測(cè)結(jié)果不在金標(biāo)準(zhǔn)中的區(qū)域;FN代表假陰性,是指在金標(biāo)準(zhǔn)中但不在預(yù)測(cè)結(jié)果中的區(qū)域。Dice系數(shù)用于衡量預(yù)測(cè)結(jié)果與金標(biāo)準(zhǔn)之間的相似度或重疊度,其取值范圍為0到1,越接近1說明預(yù)測(cè)結(jié)果與金標(biāo)準(zhǔn)的重合度越高;召回率是真陽(yáng)性同真陽(yáng)性與假陰性之和的比值,精確率是真陽(yáng)性同真陽(yáng)性與假陽(yáng)性之和的比值,Recall和Precision的取值范圍同樣為0到1,越接近1,說明預(yù)測(cè)結(jié)果的欠分割率和過分割率越低。
3.4.1 肝臟圖像分割
為了證明所提方法的分割性能,將文中方法與原始U-Net及其變體Attention U-Net、ResU-Net、Attention ResU-Net進(jìn)行對(duì)比實(shí)驗(yàn)。不同網(wǎng)絡(luò)對(duì)肝臟進(jìn)行分割時(shí),在三個(gè)評(píng)價(jià)指標(biāo)中的性能對(duì)比如表1所示。
從表1中可以看出,Attention ResU-Net在U-Net基礎(chǔ)上加入注意門(AG)和殘差模塊后整體表現(xiàn)優(yōu)于其他三種網(wǎng)絡(luò)。而文中方法在三個(gè)評(píng)價(jià)指標(biāo)中綜合性能表現(xiàn)最優(yōu),說明網(wǎng)絡(luò)在獲得精度提升的同時(shí),還有效地抑制了假陽(yáng)性與假陰性。由于召回率和精確率是相互影響的,高召回率會(huì)造成低精確率,高精確率會(huì)造成低召回率,因此在實(shí)際應(yīng)用中需要綜合考慮,兩者越高越好。
表1 不同網(wǎng)絡(luò)對(duì)肝臟進(jìn)行分割時(shí)的性能對(duì)比
不同網(wǎng)絡(luò)對(duì)肝臟的分割結(jié)果與金標(biāo)準(zhǔn)的對(duì)比情況如圖7所示。由圖7可以看到,原始U-Net在對(duì)肝臟進(jìn)行分割時(shí)出現(xiàn)了過分割與欠分割現(xiàn)象,這是由于網(wǎng)絡(luò)在編碼階段提取到的淺層特征信息較差,帶有許多冗余信息,影響了分割效果。文中方法在U-Net基礎(chǔ)上引入殘差模塊和注意力機(jī)制(CBAM),在分割過程中可以補(bǔ)充遺漏的細(xì)節(jié)信息,且能捕捉通道維度和空間維度上的重要特征信息,還受益于加入的混合空洞卷積在增加卷積核感受野的同時(shí),有效增強(qiáng)了網(wǎng)絡(luò)對(duì)上下文信息的提取,從而獲得了更精準(zhǔn)的分割結(jié)果。
圖7 不同網(wǎng)絡(luò)對(duì)肝臟圖像分割的結(jié)果
3.4.2 腫瘤圖像分割
不同網(wǎng)絡(luò)對(duì)肝腫瘤進(jìn)行分割時(shí),在三個(gè)評(píng)價(jià)指標(biāo)中的性能對(duì)比如表2所示。
表2 不同網(wǎng)絡(luò)對(duì)肝腫瘤進(jìn)行分割時(shí)的性能對(duì)比
從表2中可以看出,文中方法的Dice系數(shù)、召回率和精確率都優(yōu)于另外四種網(wǎng)絡(luò)。在醫(yī)療應(yīng)用中,假陰性比假陽(yáng)性更難以容忍,因此在分割任務(wù)中權(quán)衡召回率多于精確率,召回率越高說明對(duì)假陰性的抑制效果越好。
不同網(wǎng)絡(luò)對(duì)肝腫瘤的分割結(jié)果與金標(biāo)準(zhǔn)的對(duì)比情況如圖8所示。從圖8中可以看出,與U-Net及其變體網(wǎng)絡(luò)相比,文中方法能夠獲得與真實(shí)標(biāo)簽更相近的分割結(jié)果,既可以相對(duì)完整地分割出面積較大的腫瘤,又不會(huì)遺漏面積較小的腫瘤,有效改善了欠分割和過分割問題,且分割結(jié)果更具魯棒性,因此對(duì)腫瘤的分割更加精準(zhǔn),對(duì)于臨床診斷任務(wù)具有較好的參考價(jià)值。
圖8 不同網(wǎng)絡(luò)對(duì)肝腫瘤圖像分割的結(jié)果
該文提出了一種基于改進(jìn)U-Net的肝臟腫瘤分割方法。在編碼階段利用混合空洞卷積擴(kuò)大感受野、捕獲多尺度的上下文信息。在解碼階段采用密集上采樣,捕獲和解碼更詳細(xì)的信息;并且引入殘差模塊和注意力機(jī)制,加速網(wǎng)絡(luò)的訓(xùn)練、使模型捕捉通道維度和空間維度上的重要特征信息。實(shí)驗(yàn)結(jié)果表明,與U-Net及其變體網(wǎng)絡(luò)相比,文中方法在多個(gè)評(píng)價(jià)指標(biāo)中表現(xiàn)較優(yōu),分割結(jié)果與金標(biāo)準(zhǔn)更接近并具有很強(qiáng)的魯棒性,能夠有效解決肝臟及肝腫瘤的欠分割與過分割問題。然而在實(shí)際應(yīng)用中,仍存在樣本標(biāo)注工作量大和模型分割時(shí)間長(zhǎng)等問題。因此,該文提出的分割方法仍需進(jìn)一步改進(jìn),以期獲得更優(yōu)的分割結(jié)果,從而能更好地輔助肝臟腫瘤診斷與治療或其他臨床應(yīng)用任務(wù)。