楊玉聃,張俊華,劉云鳳
(云南大學(xué)信息學(xué)院,云南 昆明 650504)
脊柱是人體的重要骨性結(jié)構(gòu),作為運(yùn)動(dòng)和神經(jīng)的樞紐支撐著人類(lèi)日常活動(dòng)。然而各類(lèi)脊柱疾病的發(fā)病率卻日益增長(zhǎng),脊柱的計(jì)算機(jī)斷層攝影(CT)圖像分割有助于后續(xù)目標(biāo)識(shí)別、特征測(cè)量或輔助診斷評(píng)估脊柱相關(guān)疾病,因而具有重要的實(shí)際意義。
目前,脊柱圖像分割方法主要分為傳統(tǒng)方法與深度學(xué)習(xí)方法2類(lèi)。由于傳統(tǒng)方法算法復(fù)雜、分割精度低、結(jié)果誤差較大,因此難以解決實(shí)際的問(wèn)題。人工智能的不斷發(fā)展彌補(bǔ)了傳統(tǒng)方法精度低的缺點(diǎn)。深度學(xué)習(xí)方法大多是針對(duì)CT圖像切片進(jìn)行分割的,雖然能得到良好的精度,但是忽略了切片與切片間豐富的圖像信息。SHUVO等[1]基于U型網(wǎng)絡(luò)(U-Net)[2]和遷移學(xué)習(xí)設(shè)計(jì)了一個(gè)輕量級(jí)的系統(tǒng)用于椎體分割。于文濤等[3]在UNet++[4]的基礎(chǔ)上改進(jìn)網(wǎng)絡(luò),使用殘差連接模型代替原有的跳躍連接,解決了網(wǎng)絡(luò)退化問(wèn)題。ZHANG等[5]基于Segmenter[6]進(jìn)行脊柱分割,對(duì)于分割后的結(jié)果進(jìn)行自適應(yīng)優(yōu)化,解決了椎塊之間的粘連問(wèn)題。周靜等[7]提出一種基于多尺度的特征融合注意網(wǎng)絡(luò)來(lái)分割頸椎,增強(qiáng)了對(duì)頸椎細(xì)節(jié)部分的提取,提升了分割的完整性。上述二維(2D)分割方法都只考慮了局部區(qū)域,往往會(huì)丟失重要的空間信息,因此三維(3D)分割是醫(yī)學(xué)圖像分割上需要探索的重要領(lǐng)域。
目前針對(duì)脊柱CT圖像的三維分割仍然面臨著挑戰(zhàn),如脊柱復(fù)雜的形狀結(jié)構(gòu)、椎體與椎體之間多變的空間位置關(guān)系、椎體與相鄰器官組織之間相近的灰度值等。3D-UNet[8]是基于U-Net提出的三維醫(yī)學(xué)圖像分割網(wǎng)絡(luò),其將網(wǎng)絡(luò)中的二維卷積替換為三維卷積進(jìn)行體素分割,在許多醫(yī)學(xué)數(shù)據(jù)集上都表現(xiàn)出了良好的分割效果。LIU等[9]通過(guò)3D-UNet對(duì)第5節(jié)腰椎和第1節(jié)骶椎進(jìn)行自動(dòng)分割,從而實(shí)現(xiàn)快速準(zhǔn)確的腰骶椎間孔(LIVF)模型重建。LI等[10]在3D-UNet的基礎(chǔ)上融合了一種新的殘差路徑,來(lái)解決脊柱分割時(shí)編碼器與解碼器之間特征丟失的問(wèn)題。TAO等[11]先使用輕量化的3D Transformer對(duì)椎體進(jìn)行標(biāo)記,在標(biāo)記后訓(xùn)練一個(gè)針對(duì)所有椎骨的編碼器-解碼器網(wǎng)絡(luò)來(lái)完成椎骨的分割。LI等[12]基于對(duì)抗生成網(wǎng)絡(luò)分割三維脊柱,先建立空間特征提取層共享圖像的特征表示,再基于反卷積堆棧的擴(kuò)展路徑將上下文信息傳播到更高層。劉俠等[13]提出一種融合加權(quán)隨機(jī)森林的自動(dòng)3D椎骨CT主動(dòng)輪廓分割方法,解決分割網(wǎng)絡(luò)對(duì)初始輪廓敏感和分割不準(zhǔn)確的問(wèn)題。上述分割方法保留了圖像的重要空間信息,但在面對(duì)脊柱復(fù)雜的結(jié)構(gòu)時(shí),網(wǎng)絡(luò)對(duì)于上下文特征的提取能力不夠,因此分割精度不高,難以應(yīng)用于計(jì)算機(jī)輔助診療中。
針對(duì)上述問(wèn)題,本文提出了一種基于三維循環(huán)殘差卷積模塊的U型網(wǎng)絡(luò),主要貢獻(xiàn)如下:
1)提出三維循環(huán)殘差卷積代替普通卷積構(gòu)成網(wǎng)絡(luò)基礎(chǔ)模塊,使每層網(wǎng)絡(luò)不斷累積遞歸殘差卷積層的特征,同時(shí)解決隨著網(wǎng)絡(luò)深度增加產(chǎn)生的梯度消失問(wèn)題。
2)設(shè)計(jì)高效密集連接混合卷積模塊,通過(guò)擴(kuò)大感受野增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度特征的提取能力,減少細(xì)節(jié)特征的丟失。同時(shí)采用密集連接的方式融合編碼器與解碼器之間的特征信息。
3)針對(duì)解碼器與編碼器不同層級(jí)間語(yǔ)義信息差異較大的問(wèn)題,提出雙特征殘差注意力模塊代替簡(jiǎn)單的跳躍連接進(jìn)行深淺層語(yǔ)義特征融合。
4)在編碼器的前端引入三維坐標(biāo)注意力機(jī)制,使得網(wǎng)絡(luò)從一開(kāi)始就關(guān)注感興趣區(qū)域(ROI)。
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版,下同),主要包括編碼器、底部模塊和解碼器。圖像經(jīng)過(guò)預(yù)處理后,被裁減為若干個(gè)64×64×64的立方體進(jìn)行端到端的自動(dòng)分割。圖像首先會(huì)經(jīng)過(guò)三維坐標(biāo)注意力機(jī)制來(lái)同時(shí)捕獲跨通道信息、位置信息和空間信息,使模型開(kāi)始定位并關(guān)注脊柱位置區(qū)域。采用三維循環(huán)殘差模塊對(duì)圖像進(jìn)行特征提取,循環(huán)卷積在時(shí)序上能有效地累積椎體特征信息,通過(guò)權(quán)重共享建立網(wǎng)絡(luò)對(duì)體素之間的長(zhǎng)期依賴(lài),而殘差結(jié)構(gòu)可以加速網(wǎng)絡(luò)的收斂。本文采用卷積核大小為2×2×2、步長(zhǎng)為2的卷積對(duì)圖片進(jìn)行下采樣,下采樣層還包括激活函數(shù)ReLU和層標(biāo)準(zhǔn)化(LN)處理。圖像在4次下采樣后到達(dá)底部的高效密集連接混合卷積模塊進(jìn)行編碼器與解碼器之間的過(guò)渡。在上采樣過(guò)程中,考慮到層級(jí)間的特征差異性,使用雙特征殘差注意力機(jī)制模塊來(lái)融合高、低級(jí)語(yǔ)義特征。圖像經(jīng)過(guò)4次上采樣后,還原為輸入的64×64×64的大小,通過(guò)預(yù)測(cè)處理后還原成原始CT圖像的大小。
圖1 脊柱CT圖像自動(dòng)分割框架Fig.1 Automatic segmentation framework of spine CT image
注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)關(guān)注感興趣的區(qū)域,SE[14]注意力機(jī)制將特征圖壓縮成通道注意力向量再與輸入特征圖結(jié)合進(jìn)行通道特征的加強(qiáng),但卻忽略了圖像的空間位置信息。CBAM[15]通過(guò)加入空間注意力模塊彌補(bǔ)了SE忽略空間位置信息的不足,但CBAM只能捕獲局部關(guān)系,無(wú)法對(duì)遠(yuǎn)距離依賴(lài)進(jìn)行建模。HOU等[16]提出了坐標(biāo)注意力(CA)機(jī)制,為了獲取圖像的精確位置信息,分別對(duì)圖像的長(zhǎng)和寬進(jìn)行編碼,將橫向和縱向的位置信息編碼到通道注意力中,使移動(dòng)網(wǎng)絡(luò)能夠關(guān)注大范圍的位置信息,在有效捕捉圖像長(zhǎng)程信息的同時(shí)避免帶來(lái)過(guò)多計(jì)算量。本文將CA機(jī)制所關(guān)注到的位置信息關(guān)系從二維拓展到三維,除了長(zhǎng)、寬位置信息外,將高的位置信息同樣編碼到通道注意力中。改進(jìn)的三維坐標(biāo)注意力機(jī)制如圖2所示。
圖2 三維坐標(biāo)注意力機(jī)制Fig.2 3D coordinate attention mechanism
將圖像的長(zhǎng)(H)、寬(W)、高(D)3種位置信息進(jìn)行編碼,即對(duì)3個(gè)維度分別用(H×1×1)、(1×W×1)、(1×1×D)大小的卷積核進(jìn)行平均池化操作。將通道注意力分解為3個(gè)方向的二維特征編碼,得到捕獲全局感受野的注意力感知圖。每個(gè)維度的注意力感知圖分別表示如下:
長(zhǎng)為h的第c個(gè)通道的注意力感知圖Zc,h(h)表示為:
(1)
寬為w的第c個(gè)通道的注意力感知圖Zc,w(w)表示為:
(2)
高為d的第c個(gè)通道的注意力感知圖Zc,d(d)表示為:
(3)
對(duì)3個(gè)方向的注意力感知圖進(jìn)行拼接,送入卷積核大小為1×1×1的共享卷積中,為了減小模型的復(fù)雜性,將其維度降低為原來(lái)的C/r。經(jīng)過(guò)批量歸一化處理后得到形如C/r×(W+H+D)×1的保留了三維度空間信息的中間特征圖f:
f=δ(F13([Zc,h(h),Zc,w(w),Zc,d(d)]))
(4)
其中:F13()表示用卷積核大小為1×1×1的卷積對(duì)特征圖進(jìn)行操作;δ表示非線(xiàn)性激活函數(shù)Sigmoid;[, ,]表示沿某個(gè)維度對(duì)特征向量進(jìn)行拼接(Concat),且f∈C/r×(H+W+D)。將特征圖沿空間維度分離成3個(gè)獨(dú)立的張量,分別送入卷積核大小為1×1×1的三維卷積后得到每個(gè)方向的特征圖:fh,fw,fd,將每個(gè)特征圖的通道數(shù)調(diào)整為原始通道數(shù)大小,生成的gc,h、gc,w和gc,d3個(gè)注意力權(quán)重表示如下:
gc,h=σ(F13(fh))
(5)
gc,w=σ(F13(fw))
(6)
gc,d=σ(F13(fd))
(7)
其中:σ表示非線(xiàn)性激活函數(shù)Sigmoid;F13()表示用卷積核大小為1×1×1的卷積調(diào)整通道數(shù),且滿(mǎn)足fh∈C/r×W、fw∈C/r×W和fd∈C/r×D。最后將得到的3個(gè)注意力權(quán)重與原始輸入xc(i,j,k)相乘得到輸出的注意力權(quán)重yc(i,j,k),表示如下:
yc(i,j,k)=xc(i,j,k)×gc,h(i)×
gc,w(j)×gc,d(k)
(8)
上述注意力機(jī)制可以改進(jìn)SE和CBAM等注意力機(jī)制中編碼全局空間信息時(shí)將全局信息壓縮成一個(gè)標(biāo)量而難以保留重要空間信息的缺點(diǎn)。三維坐標(biāo)注意力機(jī)制能夠跨通道捕捉單方向上的長(zhǎng)距離關(guān)系,同時(shí)保留另外2個(gè)方向上的空間信息,幫助網(wǎng)絡(luò)更準(zhǔn)確地定位目標(biāo),捕捉感興趣區(qū)域。
單個(gè)卷積前饋網(wǎng)絡(luò)只在有限的單元具有較強(qiáng)的上下文提取能力,因此需要通過(guò)增加卷積層來(lái)增強(qiáng)網(wǎng)絡(luò)的特征提取能力,但隨著網(wǎng)絡(luò)層數(shù)的增加,又將面臨梯度消失和梯度爆炸等問(wèn)題。為了解決上述問(wèn)題,受殘差網(wǎng)絡(luò)[17]和二維循環(huán)卷積網(wǎng)絡(luò)[18]的啟發(fā),本文提出了三維循環(huán)殘差模塊(RRB),隨著時(shí)間的推移,迭代權(quán)重可以有效累積圖像特征,時(shí)序的權(quán)重累積有利于捕捉體素之間的關(guān)系,使每個(gè)單元能夠?qū)⑸舷挛男畔⒑喜⒌疆?dāng)前層中的區(qū)域,且循環(huán)卷積操作并不會(huì)增加額外的參數(shù)量。改進(jìn)后的網(wǎng)絡(luò)增強(qiáng)了對(duì)于圖像特征的提取,以便更精準(zhǔn)地分割出結(jié)構(gòu)復(fù)雜的目標(biāo),同時(shí)也解決了隨著網(wǎng)絡(luò)層數(shù)增加而面臨的梯度消失問(wèn)題。
在分割任務(wù)中能夠精準(zhǔn)地區(qū)分背景和目標(biāo)像素是神經(jīng)網(wǎng)絡(luò)必須達(dá)到的效果。與一般前饋網(wǎng)絡(luò)不同,在普通卷積神經(jīng)網(wǎng)絡(luò)中,當(dāng)前層中單位的感受野大小是固定的,只有在更深的層才能獲得更大的感受野。而循環(huán)卷積卻可以通過(guò)權(quán)值共享,在保持可調(diào)參數(shù)量的情況下獲得更大的感受野,循環(huán)連接的效果相當(dāng)于增加網(wǎng)絡(luò)深度卻又不增加參數(shù)量,殘差連接可以解決神經(jīng)網(wǎng)絡(luò)隨著層數(shù)的增加可能面臨的梯度消失、網(wǎng)絡(luò)退化等問(wèn)題。三維循環(huán)殘差卷積模塊結(jié)構(gòu)如圖3所示,其中輸入圖像經(jīng)過(guò)2個(gè)三維循環(huán)卷積后,與原始圖像進(jìn)行相加得到輸出。單個(gè)三維循環(huán)卷積和總時(shí)間步長(zhǎng)T的展開(kāi)卷積層如圖3右側(cè)所示,其中,t代表時(shí)間步長(zhǎng)。若t=2,則得到最大深度為3、最小深度為1的前饋網(wǎng)絡(luò),包含1個(gè)三維卷積層和2個(gè)三維循環(huán)卷積層組成的子序列。當(dāng)t=0時(shí),將圖像輸入三維循環(huán)卷積層;當(dāng)t=1時(shí),對(duì)圖像首次進(jìn)行卷積核大小為3×3×3的前向卷積操作;當(dāng)t=2時(shí),將輸入圖像以及第1次前向卷積操作的輸出整體作為第2次前向卷積操作的輸入;以此類(lèi)推。隨著時(shí)間步長(zhǎng)的增加,前層中越來(lái)越多鄰域單元的狀態(tài)都受到其他單元的影響,因此,通過(guò)共享權(quán)重單元在輸入空間中的感受野也會(huì)增大。
圖3 三維循環(huán)殘差卷積模塊Fig.3 3D recurrent residual convolution block
對(duì)于位于第m個(gè)特征圖上的(i,j,k)處的單元,其在時(shí)間步長(zhǎng)t的輸出可表示為:
Oijkm,l(t)=(Wm,f)T×xl,f(i,j,k)(t)+
(Wm,r)T×xl,r(i,j,k)(t-1)+bm
(9)
其中:xl,f(i,j,k)(t)表示第l層前饋三維卷積的輸入;xl,r(i,j,k)(t-1)表示第l層三維循環(huán)卷積層的輸入;Wm,f和Wm,r分別表示第m個(gè)特征圖的前饋卷積層權(quán)重和循環(huán)卷積層權(quán)重;T表示總時(shí)間步長(zhǎng);bm表示偏差。整個(gè)三維循環(huán)殘差模塊的輸出xl+1可以表示為:
xl+1=xl+f(Oijkm,l(t))=
xl+max(0,Oijkm,l(t))
(10)
根據(jù)對(duì)比實(shí)驗(yàn)結(jié)果,本文選取總時(shí)間步長(zhǎng)T=2的三維循環(huán)殘差卷積模塊作為基礎(chǔ)模塊,在輸入層和輸出層之間建立長(zhǎng)期依賴(lài)關(guān)系,幫助模型更好地學(xué)習(xí)復(fù)雜的結(jié)構(gòu)特征。
圖像經(jīng)過(guò)多次下采樣會(huì)降低輸入特征圖的分辨率,在到達(dá)編碼器和解碼器之間的底層后,將經(jīng)過(guò)多次上采樣恢復(fù)輸入特征圖的分辨率,從而達(dá)到特征提取的效果。但是經(jīng)過(guò)多次下采樣后再進(jìn)行上采樣操作會(huì)導(dǎo)致一些邊緣特征和較小特征的體素丟失。針對(duì)此類(lèi)問(wèn)題,本文提出了一個(gè)高效密集連接混合卷積模塊(EHCM)來(lái)減少編碼器與解碼器之間底層信息的缺失,其結(jié)構(gòu)如圖4所示。
圖4 高效密集連接混合卷積模塊Fig.4 Efficient dense-connected hybrid convolution module
EHCM模塊主要是利用不同空洞率的空洞卷積提取不同大小的尺度特征,而密集連接的方式可以有效地聚合特征,將不同空洞率大小的多尺度特征進(jìn)行聚合可以提高網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的分割能力。采用空洞卷積進(jìn)一步增大網(wǎng)絡(luò)感受野,由于空洞卷積的卷積核并不連續(xù),圖像經(jīng)過(guò)多個(gè)相同空洞率的空洞卷積后會(huì)導(dǎo)致網(wǎng)格效應(yīng)[19]:上下文信息不連續(xù),存在嚴(yán)重的信息丟失??斩绰实拇笮?huì)影響對(duì)目標(biāo)特征的提取能力,若空洞率過(guò)大,則對(duì)于較小物體而言會(huì)存在信息丟失的問(wèn)題,因此,針對(duì)不同的目標(biāo)物體需要選擇合適的空洞率??紤]到三維卷積的成本大小和網(wǎng)格效應(yīng),本文選擇空洞率分別為1、2、5、卷積核大小為3×3×3的卷積進(jìn)行操作,如圖5(a)所示,若在空洞率都設(shè)置為2的情況下對(duì)圖像進(jìn)行連續(xù)的空洞卷積操作,得到的特征圖會(huì)存在像素級(jí)別的缺失,圖中白色方塊表示卷積核未采集到的部分,雖然擴(kuò)大了感受野,但是會(huì)損失一些細(xì)小的特征信息。將空洞率分別設(shè)置為1、2、5對(duì)圖像進(jìn)行連續(xù)的卷積操作,如圖5(b)所示,得到的特征圖感受野是連續(xù)的且不存在體素缺失的問(wèn)題,相較于普通卷積既增大了感受野,又保持了圖像信息的連續(xù)性。
圖5 相同卷積核不同空洞率下的特征圖感受野Fig.5 Receptive field of feature map with the same convolution kernel and different void ratios
3D-UNet中采用跳躍連接來(lái)融合編碼器和解碼器間不同級(jí)別的特征,但是由于淺層特征和深層特征之間存在較大的語(yǔ)義差異,跳躍連接只是簡(jiǎn)單連接而不能有效地融合具有語(yǔ)義間隙的特征,從而會(huì)限制網(wǎng)絡(luò)分割的性能。針對(duì)這個(gè)問(wèn)題,本文提出了一種雙特征殘差注意力機(jī)制(DRAM)來(lái)解決淺層的低級(jí)信息和深層的高級(jí)信息之間的語(yǔ)義差異問(wèn)題。DRAM將編碼器和解碼器中的層級(jí)特征利用殘差連接和激活函數(shù)實(shí)現(xiàn)非線(xiàn)性化擬合,通過(guò)聚合不同層級(jí)特征對(duì)全局上下文進(jìn)行建模,其結(jié)構(gòu)如圖6所示。
圖6 雙特征殘差注意力機(jī)制Fig.6 Double-feature residual attention mechanism
對(duì)編碼器的層特征Gen和解碼器的層特征Gde分別進(jìn)行卷積核大小為3×3×3的卷積操作,與原始特征進(jìn)行殘差連接后,為了保留更多的信息,將得到的2種特征進(jìn)行拼接得到多尺度特征圖Eed,表示如下:
Eed=(Gen+F33(Gen))?(Gde+F33(Gde))
(11)
Eed通過(guò)激活函數(shù)ReLU實(shí)現(xiàn)多尺度特征的非線(xiàn)性化。對(duì)得到的非線(xiàn)性化特征圖進(jìn)行卷積核大小為1×1×1的卷積操作來(lái)調(diào)整通道數(shù)。使用Sigmoid激活函數(shù)對(duì)卷積后的特征進(jìn)行歸一化處理,得到注意力權(quán)重。將原始的編碼器的層特征Gen和解碼器的層特征Gde進(jìn)行線(xiàn)性疊加,進(jìn)一步擴(kuò)大感知域,最后與注意力權(quán)重相乘得到最終輸出結(jié)果E,表示如下:
E=σs(F13(σr(Eed)))×(Gen+Gde)
(12)
在式(11)和式(12)中:F33表示卷積核大小為3×3×3的三維卷積操作;F13表示卷積核大小為1×1×1的三維卷積操作;?表示Concat操作;σr表示ReLU激活函數(shù);σs表示Sigmoid激活函數(shù)。
為了驗(yàn)證本文網(wǎng)絡(luò)的性能,采用脊柱分割挑戰(zhàn)公開(kāi)數(shù)據(jù)集CSI2014[20]進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含10例青壯年的胸腰椎CT掃描圖像,每例標(biāo)簽都由多名專(zhuān)家手動(dòng)標(biāo)注,圖片大小為512×512×600像素。考慮到計(jì)算機(jī)資源限制,本文將原始CT圖像隨機(jī)裁剪為多個(gè)大小為64×64×64像素的圖像。在裁剪過(guò)程中,整個(gè)CT圖像都將被裁剪到且不會(huì)出現(xiàn)重復(fù)裁剪的現(xiàn)象。隨機(jī)選取8例作為訓(xùn)練集、1例作為測(cè)試集、1例作為驗(yàn)證集,考慮到數(shù)據(jù)集個(gè)數(shù)限制,本文采用十折交差驗(yàn)證法[21]來(lái)獲取模型的平均指標(biāo)。對(duì)于訓(xùn)練集,本文從包含標(biāo)簽部分的圖像中隨機(jī)選擇40%的圖像進(jìn)行水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)縮放等操作進(jìn)行數(shù)據(jù)增強(qiáng)。經(jīng)過(guò)預(yù)處理后,得到7 104幅訓(xùn)練圖像、642幅驗(yàn)證圖像和640幅測(cè)試圖像。
實(shí)驗(yàn)環(huán)境主要配置如下:實(shí)驗(yàn)操作系統(tǒng)為Windows 10,GPU采用RAM大小為16 GB的NVIDIA GeForce RTX 2080,采用Python 3.7和Tensorflow 2.4支撐的Keras框架。在實(shí)驗(yàn)過(guò)程中,批處理大小設(shè)置為2,初始學(xué)習(xí)率設(shè)置為0.000 1,采用Adam優(yōu)化器計(jì)算自適應(yīng)學(xué)習(xí)率,訓(xùn)練輪次為500次。訓(xùn)練過(guò)程中使用了早停法,將限制條件設(shè)置為30,當(dāng)驗(yàn)證集Dice相似系數(shù)(DSC)連續(xù)30個(gè)epoch內(nèi)不再提升,則自動(dòng)停止迭代,選取最佳權(quán)重模型。
本文選擇Dice相似系數(shù)、像素準(zhǔn)確率(PA)、精確率(Pre)以及召回率(Rec)作為評(píng)價(jià)指標(biāo)。Dice相似系數(shù)可以衡量2個(gè)樣本的相似度,取值在0到1之間,公式如式(13)所示:
(13)
像素準(zhǔn)確率表示預(yù)測(cè)正確的像素樣本數(shù)量占總像素樣本數(shù)量的比例,公式如式(14)所示:
(14)
精確率表示模型預(yù)測(cè)為正確的像素樣本中,實(shí)際的正確像素樣本數(shù)量占預(yù)測(cè)的正確像素樣本數(shù)量的比例。用此標(biāo)準(zhǔn)來(lái)評(píng)估預(yù)測(cè)正確像素樣本的準(zhǔn)確度,公式如式(15)所示:
(15)
召回率表示實(shí)際為正確的像素樣本中,預(yù)測(cè)正確的像素樣本數(shù)量占總實(shí)際正確像素樣本數(shù)量的比例。用此標(biāo)準(zhǔn)來(lái)評(píng)估所有實(shí)際正確的像素樣本被預(yù)測(cè)出來(lái)的比例,公式如式(16)所示:
(16)
在上述公式中:NTP代表真陽(yáng)性,即正確地預(yù)測(cè)出脊柱像素的樣本數(shù)量;NFP代表假陽(yáng)性,即錯(cuò)誤地將背景像素預(yù)測(cè)為脊柱像素的樣本數(shù)量;NTN代表真陰性,即正確地預(yù)測(cè)出背景像素的樣本數(shù)量;NFN代表假陰性,即錯(cuò)誤地將脊柱像素預(yù)測(cè)為背景像素的樣本數(shù)量。
2.4.1 消融實(shí)驗(yàn)
為了驗(yàn)證本文網(wǎng)絡(luò)的性能,以3D-UNet為基礎(chǔ)設(shè)計(jì)4個(gè)模型的消融實(shí)驗(yàn):第1個(gè)模型(Model_1)將3D-UNet中所有卷積換成三維循環(huán)殘差卷積,針對(duì)三維循環(huán)殘差卷積模塊中總時(shí)間步長(zhǎng)T對(duì)網(wǎng)絡(luò)性能的影響,本文設(shè)置了Model_1(T=1)、Model_1(T=2)、Model_1(T=3)、Model_1(T=4)4種方案;第2個(gè)模型(Model_2)在最優(yōu)Model_1的基礎(chǔ)上引入三維坐標(biāo)注意力機(jī)制;第3個(gè)模型(Model_3)在Model_2的基礎(chǔ)上將編碼器與解碼器之間的模塊替換成EHCM;第4個(gè)模型(Model_4)在Model_3的基礎(chǔ)上引入DRAM,Model_4表示本文網(wǎng)絡(luò)。
表1和圖7分別展示了消融實(shí)驗(yàn)的數(shù)據(jù)指標(biāo)和預(yù)測(cè)圖像切面效果圖,結(jié)合圖表可知:將3D-UNet改進(jìn)為Model_1(T=2)時(shí),DSC提升了4個(gè)百分點(diǎn),從分割效果圖也能看出網(wǎng)絡(luò)對(duì)脊柱特征判斷更加有優(yōu)勢(shì),錯(cuò)誤分割部分的明顯減少說(shuō)明了三維循環(huán)殘差卷積模塊相對(duì)于傳統(tǒng)三維卷積模塊可以更有效地累積椎體特征;從Model_1到Model_2,引入三維坐標(biāo)注意力機(jī)制后加深了網(wǎng)絡(luò)對(duì)脊柱位置的關(guān)注,錯(cuò)誤分割相對(duì)減少;Model_2到Model_3,利用EHCM模塊中不同空洞率卷積的密集連接可以很好地將網(wǎng)絡(luò)底層的信息從底層編碼器過(guò)渡到解碼器中,關(guān)注到細(xì)小體素的特征信息;Model_3相比Model_2在細(xì)節(jié)處理時(shí)表現(xiàn)得更好;Model_4相比Model_3DSC提升了1.77個(gè)百分點(diǎn),說(shuō)明本文提出的DRAM能更好地融合語(yǔ)義差別較大的不同級(jí)特征,達(dá)到更接近標(biāo)簽的分割效果;從3D-UNet到本文網(wǎng)絡(luò)Model_4DSC提升了7.65個(gè)百分點(diǎn),錯(cuò)誤分割、遺漏分割的部分明顯減少,直觀(guān)地體現(xiàn)了本文網(wǎng)絡(luò)的分割優(yōu)勢(shì)。
表1 消融實(shí)驗(yàn)數(shù)據(jù)指標(biāo)Table 1 Indexes in ablation experiment %
圖7 消融實(shí)驗(yàn)預(yù)測(cè)圖像切面效果圖Fig.7 Section renderings of predicted images in ablation experiment
2.4.2 與其他分割網(wǎng)絡(luò)的對(duì)比
使用3D分割網(wǎng)直接對(duì)三維圖像進(jìn)行分割相較于二維分割可以更好地保留圖像的空間信息,尤其是對(duì)于脊柱這類(lèi)空間結(jié)構(gòu)較為復(fù)雜的物體,但是由于三維卷積的運(yùn)算量較大,會(huì)消耗更多的計(jì)算機(jī)資源。目前三維分割網(wǎng)絡(luò)的發(fā)展并不像二維分割網(wǎng)絡(luò)一樣成熟,本文選擇了V-Net[22]、nnU-Net[23]、3D Dense-UNet[24]、3D Attetion U-Net[25]、3D Residual U-Net和UNETR[26]等經(jīng)典三維分割網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),證明本文網(wǎng)絡(luò)優(yōu)于這些三維分割網(wǎng)絡(luò)。
在相同數(shù)據(jù)集和環(huán)境配置下進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,其中,粗體表示最優(yōu)值。為了更加直觀(guān)地看出不同網(wǎng)絡(luò)的三維分割效果,本文將預(yù)測(cè)結(jié)果和原始標(biāo)簽轉(zhuǎn)換為STL文件進(jìn)行三維效果可視化展示,如圖8和圖9所示。V-Net的DSC僅為84.18%,從分割效果可以看出,在面對(duì)結(jié)構(gòu)復(fù)雜的目標(biāo)時(shí),V-Net的分割效果較差,其將部分周?chē)钠鞴俳M織錯(cuò)誤分割成脊柱;3D Attention U-Net、3D Dense-UNet和3D Residual U-Net在一定程度上更加關(guān)注目標(biāo)區(qū)域,但是出現(xiàn)大片椎體粘連現(xiàn)象;nnU-Net在一定程度上能有效地捕獲全局特征,但網(wǎng)絡(luò)對(duì)細(xì)小信息提取能力不夠,分割結(jié)果存在小部分假陽(yáng)性現(xiàn)象;UNETR和本文網(wǎng)絡(luò)效果較為接近,但是本文網(wǎng)絡(luò)在分割細(xì)節(jié)上更加優(yōu)秀,且4個(gè)數(shù)據(jù)指標(biāo)均高于UNETR。對(duì)比實(shí)驗(yàn)結(jié)果證明了本文網(wǎng)絡(luò)的分割性能要優(yōu)于對(duì)比的這6種分割網(wǎng)絡(luò)。
表2 不同網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparative experiment result of different networks %
圖8 CSI2014數(shù)據(jù)集對(duì)比實(shí)驗(yàn)三維可視化效果1Fig.8 3D visualization rendering 1 of CSI2014 dataset comparison experiment
圖9 CSI2014數(shù)據(jù)集對(duì)比實(shí)驗(yàn)三維可視化效果2Fig.9 3D visualization rendering 2 of CSI2014 dataset comparison experiment
2.4.3 與脊柱分割方法的對(duì)比
本文使用的CSI2014數(shù)據(jù)集是脊柱挑戰(zhàn)賽的公開(kāi)數(shù)據(jù)集,目前有很多不同的分割方法,將本文網(wǎng)絡(luò)與這些方法進(jìn)行對(duì)比,對(duì)比結(jié)果如表3所示,其中,粗體表示最優(yōu)值。SEITEL等[27]使用單個(gè)統(tǒng)計(jì)多目標(biāo)形狀+姿態(tài)模型進(jìn)行分割,該模型配準(zhǔn)使用邊緣檢測(cè)從CT體積中提取椎骨邊緣點(diǎn)云,通過(guò)重復(fù)迭代配準(zhǔn)進(jìn)行分割,這種方法相對(duì)復(fù)雜且不能很好地提取特征。QADRI等[28]基于層疊稀疏自動(dòng)編碼器分割脊柱CT圖像,相比SEITEL等[27]所提出的方法提高了椎體特征的可分辨性,但分割效果達(dá)不到實(shí)際需求。LI等[10]使用三維空洞卷積和殘差路徑結(jié)合的UNet-3D網(wǎng)絡(luò)分割脊柱,雖然保留了空間信息,但是忽略了對(duì)細(xì)小特征的關(guān)注,易丟失下文信息。LI等[29]利用多尺度卷積塊提取不同大小的感受野來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)椎骨結(jié)構(gòu)的感知能力,增加注意力模塊感知特征通道圖之間的關(guān)系、探索位置和通道維度的特征,使得精度有了大幅度提升,但網(wǎng)絡(luò)只能捕獲切片之間的關(guān)系,忽略了空間信息。本文網(wǎng)絡(luò)能夠有效地分割脊柱,減小網(wǎng)絡(luò)中淺層特征和深層特征之間存在的語(yǔ)義差異,并且保留原始空間信息,因此,本文分割方法的DSC優(yōu)于這些脊柱分割方法。
表3 不同脊柱分割方法對(duì)比Table 3 Comparison of different spine segmentation methods
2.4.4 腰椎數(shù)據(jù)集分割
為了進(jìn)一步驗(yàn)證本文網(wǎng)絡(luò)的性能,采用由昆華醫(yī)院提供的20例包含5節(jié)腰椎的CT數(shù)據(jù)集,部分CT圖像在裁剪的過(guò)程中保留了1節(jié)胸椎,分割標(biāo)簽均由醫(yī)生手動(dòng)標(biāo)記。隨機(jī)選取14例作為訓(xùn)練集、3例作為測(cè)試集、3例作為驗(yàn)證集進(jìn)行實(shí)驗(yàn)。采用上述對(duì)比實(shí)驗(yàn)中的7個(gè)三維網(wǎng)絡(luò)對(duì)腰椎進(jìn)行分割,分割結(jié)果如表4所示,其中,粗體表示最優(yōu)值。標(biāo)簽和分割結(jié)果的三維可視化效果如圖10所示。本文網(wǎng)絡(luò)的各項(xiàng)評(píng)價(jià)指標(biāo)均高于其他的網(wǎng)絡(luò),從可視化對(duì)比圖可以看出,除了本文網(wǎng)絡(luò)和nnUNet外的其他網(wǎng)絡(luò)均錯(cuò)分出了不同大小的區(qū)域,其中VNet更是將胸椎分割成腰椎。棘突作為脊椎上比較有特點(diǎn)的結(jié)構(gòu)相對(duì)椎體分割難度較大,本文相比nnUNet在棘突的分割細(xì)節(jié)上表現(xiàn)更好,且與原標(biāo)簽更為接近,驗(yàn)證了本文方法的優(yōu)良性能。
表4 腰椎分割對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experiment result of lumbar segmentation %
圖10 腰椎數(shù)據(jù)集對(duì)比實(shí)驗(yàn)三維可視化效果Fig.10 3D visualization rendering of lumbar dataset comparative experiment
2.4.5 模型參數(shù)量與分割性能對(duì)比
為了更加準(zhǔn)確地分析模型性能,結(jié)合上述2個(gè)數(shù)據(jù)集的分割實(shí)驗(yàn),給出了本文網(wǎng)絡(luò)與其他三維分割模型的參數(shù)量、平均分割精度以及運(yùn)行時(shí)間的數(shù)據(jù)對(duì)比,如表5所示,其中,粗體表示最優(yōu)值。本文模型參數(shù)量為4.39×107,因?yàn)闅埐钸B接和循環(huán)操作均不會(huì)增加參數(shù)量,所以本文網(wǎng)絡(luò)參數(shù)相對(duì)于原始模型3D-UNet參數(shù)增加不多,相比nnU-Net減少了3.12×107,而UNETR參數(shù)量幾乎為本文模型的2倍。在分割測(cè)試運(yùn)行時(shí)間方面,本文網(wǎng)絡(luò)僅比最快的3D Dense-UNet慢0.9 s,但是比nnU-Net和UNETR分別快了1.5 s和1.3 s,且本文網(wǎng)絡(luò)的平均分割精度最高,因此本文網(wǎng)絡(luò)的分割性能整體要優(yōu)于其他7種分割網(wǎng)絡(luò)。
表5 模型參數(shù)量與分割性能對(duì)比Table 5 Comparison of model parameters quantity and segmentation performance
本文提出了一種基于三維循環(huán)殘差卷積的U型網(wǎng)絡(luò)進(jìn)行脊柱CT圖像的三維分割。三維循環(huán)殘差模塊隨著時(shí)間步長(zhǎng)的增加,通過(guò)權(quán)重迭代有效地累積椎體特征,解碼器與編碼器之間的EHCM通過(guò)密集連接不同空洞率的卷積模塊對(duì)不同感受野下的特征進(jìn)行融合,減少了邊緣特征和較小特征的消失。同時(shí),提出DRAM來(lái)代替簡(jiǎn)單的跳躍連接進(jìn)行編碼器和解碼器直接的特征融合,解決了深層與淺層之間語(yǔ)義信息差別較大的問(wèn)題。本文還引入了三維坐標(biāo)注意力機(jī)制使得網(wǎng)絡(luò)關(guān)注感興趣的區(qū)域。在CSI2014數(shù)據(jù)集和腰椎數(shù)據(jù)集上的分割結(jié)果表明,本文網(wǎng)絡(luò)優(yōu)于對(duì)比分割網(wǎng)絡(luò)和不同數(shù)據(jù)集下的脊柱分割方法。對(duì)于分割后還需要對(duì)脊柱進(jìn)行三維重建的問(wèn)題, 本文方法也更加方便可行,具有實(shí)際意義。在后續(xù)的工作中,將會(huì)研究多類(lèi)別的三維分割方法,分割并具體地識(shí)別出每一節(jié)椎體。