張浩洋,尹梓名,樂(lè)珺怡,沈達(dá)聰,束翌俊,楊自逸,孔祥勇,龔 偉
(1.上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093; 2.上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科,上海 200092)
膽囊癌[1]是一種由惡性腫瘤引起的、病變于膽囊黏膜上皮細(xì)胞的癌癥,其癌變部位[2]無(wú)明顯臨床表現(xiàn),易惡變轉(zhuǎn)移?;颊呔歪t(yī)時(shí)往往因發(fā)現(xiàn)較晚而失去手術(shù)機(jī)會(huì),即使手術(shù),大部分預(yù)后情況也較差,5 年生存率僅占比5%左右[3]。
膽囊癌的診斷需要依賴(lài)于增強(qiáng)計(jì)算機(jī)斷層掃描(Computed Tomography,CT)影像,但是由于膽囊本身體積較小、易發(fā)生嚴(yán)重的形變,且膽囊的癌變部分形態(tài)具有多樣性[4](1、膽囊壁增厚在CT 中主要表現(xiàn)為膽囊壁在不同切片上不規(guī)則增厚;2、腔內(nèi)單發(fā)或多發(fā)結(jié)節(jié)表現(xiàn)為膽囊內(nèi)部的灰色凸起結(jié)節(jié);3、腫塊充滿(mǎn)整個(gè)膽囊,CT 中表現(xiàn)為白色結(jié)石或灰色質(zhì)充滿(mǎn);4、癌變部位侵襲到臨近肝臟組織),因此,依靠人工分析耗時(shí)耗力,難度較大,易出現(xiàn)誤、漏診的情況。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)不斷深化應(yīng)用于醫(yī)學(xué)圖像語(yǔ)義分割,取得了一系列重要的新進(jìn)展和成就。Maji 等[5]在Res-UNet 基礎(chǔ)上提出了帶有引導(dǎo)解碼器的網(wǎng)絡(luò)ARU-GD,在腦腫瘤分割中表現(xiàn)良好;Lee等[6]提出了一種具有多尺度網(wǎng)格平均池化的通道注意力模塊用于乳腺癌分割;Fan 等[7]提出了PraNet 網(wǎng)絡(luò)基于并行反向注意力機(jī)制對(duì)結(jié)腸鏡中的息肉進(jìn)行分割等。如果將這些不同模型中的新技術(shù),尤其是以編碼-解碼結(jié)構(gòu)為基礎(chǔ)的深度學(xué)習(xí)模型架構(gòu),應(yīng)用于膽囊癌分割,預(yù)期可有效提高膽囊癌的分割精度。因此,本文旨在研究一種適用于膽囊癌分割的深度學(xué)習(xí)網(wǎng)絡(luò)模型。
膽囊在圖像中的分割是膽囊癌分割的基礎(chǔ)。已有部分學(xué)者對(duì)膽囊分割方法進(jìn)行了研究,例如,Huang 等[8]提出了基于解剖學(xué)先驗(yàn)知識(shí)的膽囊自動(dòng)定位及分割的方法,有效結(jié)合了解剖學(xué)先驗(yàn)知識(shí)來(lái)定位膽囊大概位置,并利用水平集方法對(duì)其進(jìn)行分割,但當(dāng)膽囊本身存在病變時(shí)如膽囊侵襲肝臟組織等情況時(shí)其分割效果不佳。Lian 等[9]采用基于區(qū)域生長(zhǎng)的方法來(lái)分割超聲圖像中的膽囊,該方法經(jīng)實(shí)驗(yàn)驗(yàn)證可提供膽囊和膽結(jié)石的輪廓信息并幫助醫(yī)生準(zhǔn)確判斷膽囊區(qū)域和膽囊結(jié)石區(qū)域之間的相對(duì)位置,但同時(shí)易受噪聲和灰度不均的影響導(dǎo)致過(guò)分割。隨著深度學(xué)習(xí)的不斷發(fā)展,其在醫(yī)學(xué)影像分割中的效果逐漸取代傳統(tǒng)分割方法。近年來(lái),以編碼-解碼結(jié)構(gòu)為基礎(chǔ)的分割模型已成為膽囊分割的主流架構(gòu)。例如,Shen等[10]提出了基于UNet 的多腹腔器官分割模型,其主要利用器官之間的位置和形狀結(jié)構(gòu)減少?gòu)?fù)雜背景的干擾,使用可變形卷積塊提取多尺度特征、改進(jìn)跳躍連接結(jié)構(gòu)并利用空間注意力機(jī)制突出分割區(qū)域。該方法分割膽囊達(dá)到了較高的80.46%平均Dice 系數(shù),但其依賴(lài)于多器官之間結(jié)構(gòu)的相互關(guān)系,且二維分割導(dǎo)致深度方向失去空間上下文信息。
相比于膽囊分割,膽囊癌變部位的精準(zhǔn)語(yǔ)義分割對(duì)臨床診治更具重要意義。雖然國(guó)內(nèi)外研究較少,但已有部分學(xué)者進(jìn)行了初步的研究,如金哲川等[11]基于自適應(yīng)框架nn-UNet的分割模型,對(duì)西安交通大學(xué)第一附屬醫(yī)院收集的168 例膽囊癌CT 檢查門(mén)靜脈期圖像進(jìn)行分割,在其測(cè)試集上的Dice 相似系數(shù)為0.74±0.15。尹梓名等[12]基于深度神經(jīng)網(wǎng)絡(luò)Mask RCNN 模型對(duì)膽囊癌、慢性膽囊炎膽結(jié)石以及正常膽囊CT 進(jìn)行識(shí)別,其平均檢測(cè)精度和平均召回率分別達(dá)到了0.794 和0.774。Basu 等[13]基于超聲圖像提出了基于ROI區(qū)域選擇和多尺度二階池化的GBGNet膽囊癌分割網(wǎng)絡(luò),從超聲切片中檢測(cè)膽囊癌,其檢測(cè)精度高達(dá)0.91。雖然以上這些工作可以有效地結(jié)合多種模型和算法對(duì)膽囊癌區(qū)域進(jìn)行分割,但這些網(wǎng)絡(luò)結(jié)構(gòu)僅專(zhuān)注于對(duì)膽囊癌標(biāo)注所在的區(qū)域進(jìn)行特征學(xué)習(xí),沒(méi)有將膽囊癌變部位的特征和約束納入考量;同時(shí)以上研究均采用二維圖像作為模型的輸入進(jìn)行訓(xùn)練,忽略了三維體數(shù)據(jù)空間中包含的大量空間上下文信息,而這些上下文信息對(duì)于醫(yī)學(xué)影像分割具有很強(qiáng)的指導(dǎo)意義。因此上述研究存在無(wú)法細(xì)化癌變邊界區(qū)域、分割邊界不夠精確等問(wèn)題。
本文提出一種結(jié)合并行解碼器和雙注意力機(jī)制對(duì)膽囊癌分割的網(wǎng)絡(luò)模型3D-SPRNet,模型結(jié)構(gòu)如圖1所示。設(shè)網(wǎng)絡(luò)輸入CT為I,將預(yù)處理后的膽囊CT輸入到網(wǎng)絡(luò)之中,經(jīng)過(guò)殘差連接三維卷積模塊得到初始特征圖f1,再多次利用通道注意力機(jī)制和殘差連接三維卷積,得到特征圖fi(i=2,3,4,5)。利用并行解碼器聚合并解碼多尺度高級(jí)特征圖fi(i=3,4,5)得到與I尺寸相同的全局映射圖Sg。對(duì)Sg先進(jìn)行下采樣將尺寸縮小至與高級(jí)特征f5相同,在此基礎(chǔ)上通過(guò)反向注意力機(jī)制得到強(qiáng)調(diào)了未被預(yù)測(cè)區(qū)域特征的權(quán)重特征圖R5,與Sg下采樣后的特征圖相加來(lái)補(bǔ)充細(xì)節(jié)得到輸出特征圖S5。同樣地,使用反向注意力機(jī)制將S5上采樣后的特征圖與高級(jí)特征f4經(jīng)反向注意力模塊得到權(quán)重特征圖R4,再與S5上采樣后的特征圖相加得到輸出特征圖S4,同理可得權(quán)重特征圖R3和輸出特征圖S3,對(duì)S3進(jìn)行激活操作即可得到預(yù)測(cè)標(biāo)簽Prediction。
圖1 3D-SPRNet網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的網(wǎng)絡(luò)模型主要特點(diǎn)如下:
1)提出一種對(duì)三維增強(qiáng)CT影像進(jìn)行分割的網(wǎng)絡(luò)模型,將CT影像Z軸深度方向病灶區(qū)域的連續(xù)上下文特征信息納入考量,保證預(yù)測(cè)結(jié)果中空間信息的連續(xù)性。
2)在特征提取過(guò)程中,將殘差連接與通道注意力機(jī)制相結(jié)合,增強(qiáng)網(wǎng)絡(luò)表征能力,在緩解梯度消失和網(wǎng)絡(luò)退化問(wèn)題的同時(shí)引導(dǎo)網(wǎng)絡(luò)更多地關(guān)注癌變區(qū)域。
3)利用并行解碼器獲得多尺度感受野,幫助網(wǎng)絡(luò)對(duì)膽囊癌中豐富的高級(jí)特征進(jìn)行提取并聚合這些高級(jí)特征得到全局映射圖,摒棄低級(jí)特征的同時(shí)降低模型的復(fù)雜性。
4)通過(guò)反向注意力機(jī)制,在全局映射圖的基礎(chǔ)上引導(dǎo)網(wǎng)絡(luò)關(guān)注未被預(yù)測(cè)的區(qū)域,逐步推理挖掘邊界信息,迭代校正預(yù)測(cè)結(jié)果,提升分割準(zhǔn)確性。
為了能夠有效地學(xué)習(xí)膽囊CT 影像中的空間特征,保留不同切片之間上下文的關(guān)系,相比于常規(guī)的二維卷積操作,本文使用卷積核大小為3×3×3的三維卷積來(lái)對(duì)特征進(jìn)行學(xué)習(xí)。此外,殘差連接通過(guò)對(duì)上層網(wǎng)絡(luò)和下層網(wǎng)絡(luò)的跳躍連接,讓網(wǎng)絡(luò)保留梯度信息,有助于反向傳播。目前,殘差連接已被證明能夠顯著改善梯度消失和網(wǎng)絡(luò)退化等問(wèn)題[14],有助于深度學(xué)習(xí)的訓(xùn)練,為此在特征提取過(guò)程中加入殘差連接。由于網(wǎng)絡(luò)中輸入數(shù)據(jù)變化差異較大,為將特征值大小限定到一定范圍內(nèi),在模塊中加入歸一化操作。而實(shí)例歸一化能夠不受通道數(shù)和批處理大?。˙atchsize)的影響,對(duì)每個(gè)單獨(dú)樣本分別進(jìn)行歸一化[15],更適用于影像表現(xiàn)多樣且數(shù)據(jù)數(shù)量較少的醫(yī)學(xué)影像。激活函數(shù)為網(wǎng)絡(luò)增加非線性因素,強(qiáng)化網(wǎng)絡(luò)的學(xué)習(xí)能力。本文使用的Leaky ReLU 激活函數(shù)相比于傳統(tǒng)ReLU 激活函數(shù),一定程度上保留了負(fù)值輸入[16],防止出現(xiàn)ReLU激活函數(shù)中負(fù)值神經(jīng)元不學(xué)習(xí)的問(wèn)題。
具體模塊信息如圖2 所示。對(duì)于一個(gè)輸入x,首先對(duì)輸入數(shù)據(jù)進(jìn)行實(shí)例歸一化(InstanceNorm)將特征值大小調(diào)整到限定范圍,有助于模型收斂。隨后使用Leaky ReLU 激活函數(shù)對(duì)其激活后再進(jìn)行3×3×3 的三維卷積操作,最后將所得結(jié)果與初始輸入值求和完成殘差連接。
圖2 殘差連接局部模塊
設(shè)實(shí)例歸一化操作為fIN,Leaky ReLU 激活函數(shù)表示為σLR,三維卷積操作表示為Conv3D3×3×3,則輸出結(jié)果如公式(1)所示:
在醫(yī)學(xué)影像中,復(fù)雜的背景信息會(huì)對(duì)分割造成干擾,尤其是像正負(fù)樣本像素分布極不平衡的膽囊癌分割等其他部位癌變分割。此外,特征提取得到的各個(gè)特征圖的不同通道也有著不同的作用,不應(yīng)賦予相同權(quán)重。注意力機(jī)制為圖像分割等方向的精度提升做出了貢獻(xiàn)[17-18],在抑制輸入圖像中冗余信息的同時(shí)突出了特定區(qū)域的顯著特征,解決了數(shù)據(jù)不平衡問(wèn)題和性能問(wèn)題,取得了優(yōu)異的效果。
為了增強(qiáng)模型的分割效果,本文設(shè)計(jì)三維通道注意力機(jī)制,其原理是基于網(wǎng)絡(luò)中不同通道之間的聯(lián)系,通過(guò)建模網(wǎng)絡(luò)特征通道之間的相互依賴(lài)關(guān)系,讓網(wǎng)絡(luò)執(zhí)行特征重新校準(zhǔn),學(xué)習(xí)全局信息來(lái)選擇性地強(qiáng)調(diào)特征信息,抑制非特征信息。
模塊主要包含壓縮(Squeeze)和激活(Excitation)2 個(gè)部分[19]。假設(shè)輸入端為X且X∈RC×D×H×W,C、D、H、W分別代表通道數(shù)、深度、高度和寬度。經(jīng)過(guò)殘差模塊卷積輸出為Res_X,且Res_X∈RC×D×H×W。首先將空間上的特征壓縮,ZC=RC是對(duì)特征Res_X在空間維度D×H×W中每一個(gè)元素執(zhí)行三維平均池化的結(jié)果,如公式(2)所示:
只保留通道信息,將C×D×H×W的特征圖壓縮到C×1×1×1 的實(shí)數(shù)數(shù)列。為了利用壓縮得到的聚合信息,隨后利用激活操作來(lái)學(xué)習(xí)通道之間非線性非互斥的關(guān)系,如公式(3)所示:
其中,S表示C個(gè)特征圖的權(quán)重,σ表示Sigmoid 激活函數(shù),δ表示ReLU 激活函數(shù),,r代表降維率。
將壓縮后的通道特征通過(guò)使用2 個(gè)FC 層對(duì)機(jī)制進(jìn)行參數(shù)化。第1 個(gè)是具有降維率r的降維層后接ReLU 激活函數(shù),第2 個(gè)是維度升高層,2 個(gè)層先后完成對(duì)學(xué)習(xí)通道先壓縮后擴(kuò)展的過(guò)程即完成了注意力的過(guò)程,最后對(duì)每個(gè)通道1×1×1 的特征維度進(jìn)行Sigmoid 歸一化即可得到通道注意力的矩陣S,權(quán)重即為特征選擇后的每個(gè)特征通道的重要性,用該矩陣乘上輸入的特征即可得到賦以不同通道特征權(quán)重的特征圖SE_X。具體模塊實(shí)現(xiàn)如圖3所示。
圖3 三維通道注意力模塊SE_3D
在UNet及3D-UNet、Res-UNet等衍生網(wǎng)絡(luò)中,其解碼方式通常為反卷積或線性插值。反卷積雖然可以將圖片還原到原始尺寸并細(xì)化粗略特征圖[20],但在還原過(guò)程中會(huì)產(chǎn)生棋盤(pán)效應(yīng)導(dǎo)致圖像不均勻重疊,影響預(yù)測(cè)效果。線性插值雖然可以通過(guò)擴(kuò)大圖片后卷積等操作來(lái)解決上述問(wèn)題,但在三維圖像中應(yīng)用三線性插值時(shí),由于計(jì)算量過(guò)大將導(dǎo)致速度較慢。
為此,Wu 等[21]指出在卷積神經(jīng)網(wǎng)絡(luò)得到的多級(jí)特征中,低級(jí)特征相比于高級(jí)特征貢獻(xiàn)較小,且高級(jí)特征需要較大的空間分辨率和一定的硬件支持,計(jì)算成本較高,為此提出了一種雙分支級(jí)聯(lián)的部分解碼器框架。Liu 等[22]受人類(lèi)視覺(jué)中的群感受野啟發(fā),設(shè)計(jì)了新的特征提取模塊RFB(Receptive Field Block),利用不同大小的卷積核和空洞卷積來(lái)獲得多尺度感受野,其原理如圖4所示。
圖4 特征提取模塊RFB
相比于圖4 的原始結(jié)構(gòu),本文引用其思想并加以改進(jìn)為應(yīng)用于三維數(shù)據(jù)的模塊,將卷積的分支數(shù)增加為4 個(gè),調(diào)整空洞卷積核大小分別為3×3×3、5×5×5 和7×7×7,rate 值分別為3、5 和7。為減少三維卷積和拼接時(shí)的運(yùn)算量,在每個(gè)分支的空洞卷積前進(jìn)行卷積分解,用1×3×1 和1×1×3 的卷積近似代替一個(gè)3×3×3的卷積。將其應(yīng)用于三維特征圖的并行解碼器,對(duì)高級(jí)特征進(jìn)行聚合后解碼得到全局映射圖。
具體而言,當(dāng)輸入一個(gè)尺寸為D×H×W的膽囊CT時(shí),可在主干網(wǎng)絡(luò)上提取到5個(gè)層次的特征fi,其中i=1,2,3,4,5。將特征fi分為低級(jí)特征fi(i=1,2)和高級(jí)特征fi(i=3,4,5)。利用并行解碼器將3 個(gè)高級(jí)特征f3、f4和f5并行連接后聚合高級(jí)特征,解碼后得到全局映射圖Sg。
并行解碼器由特征提取模塊RFB 和高級(jí)特征聚合模塊Aggregation 組成。具體模塊實(shí)現(xiàn)分別如圖5、圖6 所示。RFB 結(jié)構(gòu)由4 個(gè)分支構(gòu)成,將高級(jí)特征f3、f4和f4并行輸入到并行解碼器中。為了減少卷積核參數(shù)、加速訓(xùn)練,先對(duì)跨通道信息進(jìn)行整合:每個(gè)分支中均使用1×1×1的三維卷積統(tǒng)一將通道數(shù)減少至32。在分支b1,b2,b3中,分別添加3 個(gè)卷積層,并使用空洞卷積增加感受野。最后將分支b0,b1,b2,b3的輸出在通道維度上拼接,隨后再次進(jìn)行卷積。將拼接后的結(jié)果與初始輸入的高級(jí)特征相加后使用ReLU 對(duì)結(jié)果進(jìn)行激活后輸出。簡(jiǎn)言之,對(duì)輸入特征先進(jìn)行特征整合減少參數(shù),在空洞卷積前加入2個(gè)卷積分解,保證提取特征的同時(shí)控制參數(shù)。再進(jìn)行多尺度空洞卷積提取多尺度特征,最終殘差連接對(duì)拼接后的特征進(jìn)行完善補(bǔ)充。
圖5 改進(jìn)的特征提取模塊RFB
圖6 高級(jí)特征聚合模塊Aggregation
Aggregation 結(jié)構(gòu)用于聚合高級(jí)特征,將RFB提取得到的3 個(gè)多尺度高級(jí)特征f3_rfb、f4_rfb、f5_rfb 通過(guò)上采樣和卷積操作聚合為一個(gè)全局映射圖Sg。具體而言,本文將最深層的高級(jí)特征f5_rfb 進(jìn)行一次上采樣操作和一次卷積核大小為3×3×3 的三維卷積操作將特征圖尺寸放大1 倍后與f4_rfb 直接相乘用于初步融合帶有最深層特征權(quán)重的特征圖,再將其與上采樣后的f5_rfb 進(jìn)行拼接完善通道特征。隨后將其進(jìn)行2次三維卷積和1 次上采樣操作將尺寸還原到與f3_rfb相同的特征圖。對(duì)高級(jí)特征f4_rfb 進(jìn)行1 次上采樣操作放大到相同尺寸后再次卷積,與經(jīng)過(guò)2 次上采樣和1 次卷積后的f5_rfb 和初始高級(jí)特征f3_rfb 相乘,用來(lái)融合3 個(gè)層次的高級(jí)特征f3_rfb、f4_rfb 和f5_rfb。此處相乘而非拼接或相加的目的在于所提取到的3 個(gè)高級(jí)特征來(lái)自于不同深度層次,需要將各層權(quán)重通過(guò)乘法表現(xiàn)到融合的特征圖之中。最終,將上述2 個(gè)已經(jīng)還原到初始尺寸的融合的高級(jí)特征在通道上進(jìn)行再次拼接,以補(bǔ)充語(yǔ)義信息。經(jīng)2次卷積核大小為3×3×3 的三維卷積和1 次1×1×1 的三維卷積將通道數(shù)降為1得到全局映射圖Sg,至此完成融合高級(jí)特征的解碼。
如圖1 所示,聚合后的高級(jí)特征經(jīng)并行解碼器解碼后,通過(guò)三線性插值得到全局映射圖Sg。但由于其聚合的特征只是來(lái)自主干網(wǎng)絡(luò)提取的深層特征,因此只能關(guān)注到膽囊癌變部位特征的粗略部分,對(duì)于細(xì)節(jié)信息仍然需要進(jìn)一步完善。為此,Chen 等[23]在目標(biāo)檢測(cè)過(guò)程中先對(duì)最深層的粗略特征進(jìn)行預(yù)測(cè),提出了反向注意這一思想,即自上而下地刪除現(xiàn)有預(yù)測(cè)區(qū)域,逐步探索其余丟失的細(xì)節(jié)部分。本文將其思想應(yīng)用于此:由于在預(yù)測(cè)過(guò)程中未被預(yù)測(cè)的區(qū)域極有可能包含癌變部位,但網(wǎng)絡(luò)對(duì)于非預(yù)測(cè)區(qū)域的學(xué)習(xí)不充分一定程度上會(huì)影響分割精度。為此,引導(dǎo)網(wǎng)絡(luò)關(guān)注現(xiàn)有的背景區(qū)域有助于發(fā)掘原始預(yù)測(cè)和反向預(yù)測(cè)之間的差異,進(jìn)而減少對(duì)背景和前景的錯(cuò)誤分割。此外,本文中所分割的前景癌變部位的大致全局信息在網(wǎng)絡(luò)的深層可以大致獲得,對(duì)于邊緣外的細(xì)節(jié)信息需要引導(dǎo)網(wǎng)絡(luò)主動(dòng)關(guān)注,才能保證最終分割結(jié)果的精準(zhǔn)度。
具體而言,主干網(wǎng)絡(luò)所輸出的3 個(gè)高級(jí)特征fi(i=3,4,5)可自適應(yīng)地學(xué)習(xí)反向注意力機(jī)制,通過(guò)對(duì)高級(jí)特征區(qū)域取反再加1 的方法來(lái)擦除高級(jí)特征中現(xiàn)有網(wǎng)絡(luò)所預(yù)測(cè)的癌變區(qū)域(即從最深層上采樣得到的特征),進(jìn)而按次序關(guān)注并學(xué)習(xí)與癌變部位互補(bǔ)的區(qū)域上的細(xì)節(jié)。
在反向注意力機(jī)制中,將全局映射圖Sg進(jìn)行上采樣(up)后的(i=1,2,3)激活得到矩陣,則權(quán)值為全1 的三維矩陣減去該矩陣得到的差值,表示為當(dāng)前未被預(yù)測(cè)區(qū)域的權(quán)重。設(shè)權(quán)重為Ai,上采樣得到的為,則其計(jì)算方式如公式(4)所示:
最后,將下采樣過(guò)程中所輸出的3 個(gè)高級(jí)特征fi(i=3,4,5)乘以反向注意力權(quán)重Ai,可以得到反向注意力特征Ri,即可引導(dǎo)網(wǎng)絡(luò)關(guān)注未被預(yù)測(cè)的背景區(qū)域,如公式(5)所示:
具體細(xì)節(jié)如圖7 中所展示的那樣,最終由反向注意力機(jī)制可以將粗略的估計(jì)逐步細(xì)化定位為更加準(zhǔn)確的邊緣信息。
圖7 反向注意力模塊RA
本文所用到的數(shù)據(jù)集是來(lái)自上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院的膽囊癌患者的CT 圖像,共計(jì)315份數(shù)據(jù)。在對(duì)影像逐一檢查并結(jié)合醫(yī)生的臨床判斷后,發(fā)現(xiàn)有11 例數(shù)據(jù)存在標(biāo)注區(qū)域錯(cuò)誤、膽道梗阻非膽囊癌、癌變區(qū)域過(guò)小的問(wèn)題??紤]到以上問(wèn)題,選擇刪除這11例數(shù)據(jù)記錄。在剩余304例患者的CT影像中,本文將數(shù)據(jù)集以8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并使用5折交叉驗(yàn)證來(lái)驗(yàn)證網(wǎng)絡(luò)性能。
為了提高特征占比、消除背景冗余信息的干擾,本文對(duì)原始CT 的橫斷面進(jìn)行裁剪。原始CT 如圖8所示。
圖8 原始CT圖像
本文對(duì)原始CT 圖像進(jìn)行區(qū)域切割,在保證膽囊及其癌變部位完整的情況下,裁取橫斷面左上1/4 部分。具體操作為:在垂直于矢狀面的X軸方向上取存有膽囊的左半部分、在垂直于冠狀面的Y軸方向上取包含完整膽囊的部分(第64至第336像素)、在垂直于橫斷面的Z 軸方向上找出醫(yī)生標(biāo)注的癌變存在區(qū)域,再?gòu)脑摪┳兇嬖趨^(qū)域切片的開(kāi)始和結(jié)束各向外擴(kuò)展20 層以確保膽囊完整存在。標(biāo)簽同CT 進(jìn)行相同的切割處理。此外,為了使原始CT 影像中能夠清晰地分辨膽囊、癌變以及周?chē)浗M織區(qū)域,本文將CT閾值限定為-200~200 之間,將CT 灰度值在閾值范圍外的部分截?cái)?,最終處理后的CT如圖9所示。
圖9 預(yù)處理后CT圖像
3.2.1 BCELoss交叉熵?fù)p失函數(shù)
交叉熵主要描述為實(shí)際輸出(概率)與期望輸出(概率)的距離。交叉熵的值越小,則證明模型實(shí)際輸出與期望輸出的概率分布越接近。假設(shè)概率分布p為期望輸出,概率分布q為實(shí)際輸出,H(p,q)為交叉熵,則交叉熵?fù)p失函數(shù)如公式(6)所示:
實(shí)驗(yàn)中用到的交叉熵?fù)p失函數(shù)BCELoss 是圖像分割中常用的逐像素交叉熵?fù)p失函數(shù)。在醫(yī)學(xué)分割領(lǐng)域尤其是本數(shù)據(jù)集樣本的背景下,CT 影像經(jīng)常出現(xiàn)類(lèi)別不均衡的問(wèn)題,如無(wú)關(guān)部分(如背景或其他軟組織)占據(jù)CT 大部分內(nèi)容,而真正要分割的膽囊癌變部分體積較小,這導(dǎo)致訓(xùn)練時(shí)會(huì)被像素較多的類(lèi)主導(dǎo),難以學(xué)習(xí)到膽囊癌變部位的特征,降低了網(wǎng)絡(luò)的有效性。雖然交叉熵?fù)p失函數(shù)在梯度傳播方向效果較好,但卻忽略了醫(yī)學(xué)圖像樣本中不同類(lèi)別占總空間的比例,因此本文又引入DiceLoss 損失函數(shù)與之結(jié)合。
3.2.2 Dice系數(shù)與DiceLoss損失函數(shù)
Dice系數(shù)是一種集合相似度度量函數(shù),用來(lái)計(jì)算2 個(gè)樣本之間的相似度,取值在(0,1)之間,Dice 系數(shù)越大表明2 個(gè)樣本越相似。若X代表真實(shí)結(jié)果,Y代表預(yù)測(cè)結(jié)果,X?Y代表預(yù)測(cè)圖和分割圖的交集,則Dice系數(shù)s如公式(7)所示:
在Dice系數(shù)的基礎(chǔ)上,可將DiceLoss損失函數(shù)表示為公式(8)所示:
雖然DiceLoss 適用于樣本不均衡的情況,但不利于反向傳播,容易使訓(xùn)練不穩(wěn)定。因此,本文實(shí)驗(yàn)中使用BCELoss 和DiceLoss 這2 個(gè)損失函數(shù),分別賦以2 個(gè)合適的權(quán)重α、β,求和為一個(gè)整體損失函數(shù)Total_Loss。使用整體損失函數(shù)對(duì)訓(xùn)練效果進(jìn)行評(píng)判,可以有效結(jié)合2 個(gè)損失函數(shù)的優(yōu)點(diǎn)。整體損失函數(shù)如公式(9)所示:
在訓(xùn)練過(guò)程中,本文對(duì)編碼過(guò)程中輸出的3 個(gè)高級(jí)特征圖fi(i=3,4,5)和全局映射圖Sg進(jìn)行深監(jiān)督,經(jīng)上采樣后與標(biāo)簽G進(jìn)行比較。因此整體損失函數(shù)可進(jìn)而表示為公式(10)所示:
3.2.3 IoU和MIoU
交并比IoU 常作為語(yǔ)義分割的標(biāo)準(zhǔn)度量,通過(guò)計(jì)算分割后所有類(lèi)別的預(yù)測(cè)結(jié)果和金標(biāo)準(zhǔn)的交集和并集之比的平均值來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果好壞。假設(shè)A和B分別為預(yù)測(cè)區(qū)域和真實(shí)區(qū)域,則交并比IoU 如公式(11)所示:
均交并比MIoU 是在交并比IoU 的基礎(chǔ)上計(jì)算所有分割類(lèi)別的預(yù)測(cè)結(jié)果和金標(biāo)準(zhǔn)的交集和并集之比的平均值。用pij表示將類(lèi)別i錯(cuò)誤預(yù)測(cè)為類(lèi)別j,MIoU如公式(12)所示:
本文使用Pytorch 框架實(shí)現(xiàn)網(wǎng)絡(luò),在Linux Ubuntu 16.04系統(tǒng)環(huán)境下運(yùn)行,并在具有24 GB 顯存的Nvidia TITAN RTX GPU 上進(jìn)行實(shí)驗(yàn),CUDA 版本為10.1。CT影像輸入大小為32×160×160,使用Monai醫(yī)學(xué)深度學(xué)習(xí)框架中的翻轉(zhuǎn)、平移、拉伸操作以30%的概率對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行在線數(shù)據(jù)增強(qiáng)。超參數(shù)設(shè)置如表1所示。
表1 超參數(shù)設(shè)置
為了驗(yàn)證本文所提出的膽囊癌分割模型的有效性,在采取相同的訓(xùn)練方法和參數(shù)設(shè)置的基礎(chǔ)上,將本文提出的3D-SPRNet 網(wǎng)絡(luò)模型同經(jīng)典的3D-UNet網(wǎng)絡(luò)模型[24]、3D-Res-UNet 網(wǎng)絡(luò)模型[25]、3DDenseNet 網(wǎng)絡(luò)模型[26]在本文數(shù)據(jù)集上的表現(xiàn)進(jìn)行對(duì)比,經(jīng)5折交叉驗(yàn)證后實(shí)驗(yàn)結(jié)果如表2所示。
表2 評(píng)價(jià)指標(biāo)結(jié)果(95%置信區(qū)間)
相比于其他3 種常用網(wǎng)絡(luò)模型,本文提出的3DSPRNet 網(wǎng)絡(luò)在膽囊癌分割中表現(xiàn)出較好的性能,其均交并比、交并比和Dice 系數(shù)分別達(dá)到了85.3%、72.2%和83.4%。其中,與3D-UNet 相比,3D-Res-UNet 中殘差連接的加入會(huì)一定程度改善網(wǎng)絡(luò)的分割精度,在Dice 系數(shù)上提高了3.2 個(gè)百分點(diǎn),這表明殘差連接對(duì)于膽囊癌分割精度的提升會(huì)有不可忽略的作用,為此本文也在下采樣過(guò)程中采用殘差連接來(lái)解決反向傳播中梯度消失的問(wèn)題進(jìn)而優(yōu)化分割效果。3D-DenseNet 網(wǎng)絡(luò)在測(cè)試集上的平均Dice 系數(shù)均在78.1%附近波動(dòng),但在交并比和均交并比方面要明顯低于3D-Res-UNet 網(wǎng)絡(luò)。這說(shuō)明,密集卷積模塊在膽囊癌分割方面并未起到精度提升的作用。預(yù)測(cè)結(jié)果如圖10所示。
圖10 膽囊癌分割對(duì)比實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文中各模塊對(duì)于提升模型分割精度的必要性,本文通過(guò)消融實(shí)驗(yàn)來(lái)說(shuō)明通道注意力機(jī)制、并行解碼器和反向注意力機(jī)制可以有效改善分割效果并提高分割精度。其中:A1 表示本文3D-SPRNet網(wǎng)絡(luò);A2 表示在A1 的基礎(chǔ)上去掉三維通道注意力模塊的網(wǎng)絡(luò);A3 表示在A1 的基礎(chǔ)上去掉并行解碼器模塊的網(wǎng)絡(luò);A4 表示在A1 的基礎(chǔ)上去掉反向注意力模塊的網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)結(jié)果(95%置信區(qū)間)
由表3消融實(shí)驗(yàn)結(jié)果和圖11預(yù)測(cè)結(jié)果可得,在本文所提出的3D-SPRNet 模型中,三維通道注意力模塊、并行解碼器模塊和反向注意力模塊均能有效提升分割精度、細(xì)化分割邊界并減小背景干擾信息對(duì)預(yù)測(cè)結(jié)果的影響。其中,三維通道注意力模塊對(duì)分割精度的影響最大,Dice 系數(shù)較3D-SPRNet 降低約4.5%左右,癌變部分交并比降低約6%左右。結(jié)合預(yù)測(cè)結(jié)果而言,三維通道注意力的加入能夠有效幫助網(wǎng)絡(luò)對(duì)全局信息中非特征信息進(jìn)行抑制,對(duì)特征信息進(jìn)行重點(diǎn)關(guān)注。綜上,本文提出的3D-SPRNet 模型能夠?qū)崿F(xiàn)膽囊癌變部位較為精確的分割。
圖11 消融實(shí)驗(yàn)結(jié)果
為了確定不同損失函數(shù)的權(quán)重,本文進(jìn)行了超參數(shù)對(duì)比實(shí)驗(yàn),α分別取0.0、0.2、0.4、0.6、0.8 和1.0,β取1-α。不同超參數(shù)取值下測(cè)試集的預(yù)測(cè)表現(xiàn)如表4所示。
表4 超參數(shù)對(duì)比實(shí)驗(yàn)結(jié)果(95%置信區(qū)間)
從實(shí)驗(yàn)結(jié)果可知,當(dāng)BCELoss 和DiceLoss 這2 個(gè)損失函數(shù)的權(quán)重α、β分別為0.6和0.4時(shí),相比于其他5組權(quán)重,該組在測(cè)試集上的分割精度達(dá)到最高、表現(xiàn)最好。
在膽囊癌分割對(duì)比實(shí)驗(yàn)的預(yù)測(cè)結(jié)果中:當(dāng)膽囊癌變區(qū)域明顯且周?chē)尘案蓴_因素較少時(shí)(圖10第1行和第2行對(duì)應(yīng)數(shù)據(jù)),這4種網(wǎng)絡(luò)模型都能大致實(shí)現(xiàn)癌變部位的基本分割。但相比于本文提出的3DSPRNet,前3種基本網(wǎng)絡(luò)模型在邊界預(yù)測(cè)中或多或少受比鄰組織器官的影響,無(wú)法保證邊界區(qū)域的平滑和準(zhǔn)確。當(dāng)輸入CT 中背景信息復(fù)雜、周?chē)M織多變區(qū)域界限模糊,尤其是屬于膽囊癌侵襲周?chē)闻K組織的癌變類(lèi)型(圖10第3行對(duì)應(yīng)數(shù)據(jù))或腔內(nèi)結(jié)節(jié)類(lèi)型(圖10 第4 行對(duì)應(yīng)數(shù)據(jù))時(shí),3D-UNet 和3D-Res-UNet 網(wǎng)絡(luò)模型極易受到癌變周?chē)蓴_背景的影響,出現(xiàn)過(guò)分割情況。而3D-DenseNet 相比于前2 種網(wǎng)絡(luò)可以不受周?chē)蓴_特征的影響,基本實(shí)現(xiàn)癌變區(qū)域較為準(zhǔn)確的定位和分割,但其預(yù)測(cè)形態(tài)和邊界平滑度都不如本文提出的3D-SPRNet網(wǎng)絡(luò)模型。
具體而言,3D-UNet網(wǎng)絡(luò)對(duì)輸入的全局特征給予了相同的關(guān)注度和懲罰,這導(dǎo)致網(wǎng)絡(luò)無(wú)法更多地關(guān)注目標(biāo)區(qū)域,易受到背景部分冗余信息的干擾從而出現(xiàn)邊界粗糙、標(biāo)注區(qū)域離散的問(wèn)題。在3D-Res-UNet網(wǎng)絡(luò)中,雖然殘差連接通過(guò)淺層特征到深層特征的恒等映射可以幫助網(wǎng)絡(luò)定位癌變區(qū)域,但是對(duì)于邊緣信息的處理仍然容易受到比鄰組織器官的影響,出現(xiàn)過(guò)分割的情況。而3D-DenseNet 在通道維度上對(duì)特征圖進(jìn)行拼接從而實(shí)現(xiàn)特征重用,在犧牲了一定的內(nèi)存的基礎(chǔ)上保證了預(yù)測(cè)區(qū)域的范圍,但其預(yù)測(cè)邊界區(qū)域粗糙,且容易出現(xiàn)欠分割的情況。
針對(duì)以上3 種基本網(wǎng)絡(luò)模型存在的問(wèn)題,本文提出的3D-SPRNet 網(wǎng)絡(luò)在結(jié)合并行解碼器、通道注意力機(jī)制和反向注意力機(jī)制的基礎(chǔ)上,一定程度地解決了上述問(wèn)題。由3D-SPRNet 預(yù)測(cè)得到的結(jié)果可看出,對(duì)于癌變區(qū)域形態(tài)較為完整、邊界較為清晰且與周?chē)尘靶畔?duì)比度強(qiáng)時(shí),3D-SPRNet能夠?qū)崿F(xiàn)癌變區(qū)域較為精準(zhǔn)的分割,網(wǎng)絡(luò)在保證預(yù)測(cè)區(qū)域匹配的前提下進(jìn)一步通過(guò)反向注意力機(jī)制挖掘邊界線索,使預(yù)測(cè)邊緣平滑清晰。當(dāng)背景信息復(fù)雜、且癌變區(qū)域模糊不易識(shí)別時(shí),本文網(wǎng)絡(luò)通過(guò)并行解碼器能夠提取并融合癌變的高級(jí)特征,反向注意力則以此為初始關(guān)注區(qū)域,挖掘外圍區(qū)域線索最終完成相對(duì)精確的預(yù)測(cè)。綜上所述,3D-SPRNet網(wǎng)絡(luò)模型在膽囊癌分割中的表現(xiàn)要明顯優(yōu)于3D-UNet、3D-Res-UNet 和3D-DenseNet網(wǎng)絡(luò)模型,在癌變邊界區(qū)域的細(xì)化和預(yù)測(cè)方面有更好的效果。
本文基于并行解碼器和雙注意力機(jī)制,提出一種膽囊癌分割模型3D-SPRNet,實(shí)驗(yàn)結(jié)果顯示,本文提出的3D-SPRNet 相比于經(jīng)典的3D-UNet 網(wǎng)絡(luò)、3DRes-UNet網(wǎng)絡(luò)和3D-DenseNet網(wǎng)絡(luò),具有更好的預(yù)測(cè)精度,能夠?yàn)榕R床醫(yī)師診斷提供一定意義的輔助決策。
但同時(shí)本文也存在一定的局限性:由于膽囊癌種類(lèi)多樣,對(duì)于侵襲臨近肝臟組織的膽囊癌的病變,現(xiàn)有方法很難將癌變區(qū)域從肝臟中分離出來(lái)。此外,對(duì)于損失函數(shù)的設(shè)置,簡(jiǎn)單地利用權(quán)重將2 個(gè)損失函數(shù)相結(jié)合的方法并非最優(yōu)解,對(duì)于結(jié)合方法的改進(jìn)或提出針對(duì)于膽囊癌數(shù)據(jù)集特點(diǎn)的損失函數(shù)也將是后續(xù)努力的方向。因此,如何利用其它深度學(xué)習(xí)方法如集成學(xué)習(xí)等,將不同模型的對(duì)于不同類(lèi)別的膽囊癌的分割優(yōu)勢(shì)進(jìn)行結(jié)合,亦或是加入解剖學(xué)先驗(yàn)知識(shí)來(lái)對(duì)不同類(lèi)別的膽囊癌進(jìn)行更具特點(diǎn)的分割是接下來(lái)研究的方向所在。