趙雪梅
(北方工業(yè)大學(xué)信息學(xué)院,北京,100009)
關(guān)鍵字:圖像去噪;低劑量CT;深度學(xué)習(xí);紋理恢復(fù)
近年來(lái),隨著醫(yī)學(xué)CT的廣泛使用,X射線輻射對(duì)患者健康的潛在危害引起了公眾的關(guān)注。因此,降低CT輻射劑量已成為重要的研究課題。但X射線通量的降低會(huì)導(dǎo)致CT圖像噪聲和偽影的增加,進(jìn)而影響醫(yī)生診斷的準(zhǔn)確性[1]。目前已經(jīng)提出了許多算法來(lái)改善低劑量CT(LDCT)的圖像質(zhì)量。通常,這些算法可以分為三類:投影域去噪、迭代重建和圖像域去噪。
投影域去噪和迭代重建都需要對(duì)投影數(shù)據(jù)進(jìn)行建模,但作為CT掃描儀的中間數(shù)據(jù),投影數(shù)據(jù)一般不易獲得。圖像域去噪方法直接對(duì)CT圖像進(jìn)行處理,不需要任何原始數(shù)據(jù)。因此,研究學(xué)者們?cè)趫D像域進(jìn)行了大量的研究[2]。最近,深度學(xué)習(xí)為低劑量CT去噪提供了新的思路。目前已經(jīng)提出了幾種用于CT去噪的方法,例如Chen等人設(shè)計(jì)了具有殘差學(xué)習(xí)的編解碼網(wǎng)絡(luò)(RED-CNN)[3],去噪效果顯著。但由于使用MSE損失,產(chǎn)生了過(guò)度平滑的問(wèn)題。本文提出一種自注意力殘差編解碼網(wǎng)絡(luò),相比RED-CNN,能夠更好地恢復(fù)出CT圖像的紋理特征。
此前Yang等人引入VGG構(gòu)建感知損失來(lái)解決過(guò)度平滑的問(wèn)題[4],但VGG最初是針對(duì)自然圖集的分類問(wèn)題進(jìn)行訓(xùn)練的[5],使用VGG損失會(huì)在CT重建過(guò)程中引入無(wú)關(guān)的特征[6]。因此,參考VGG19設(shè)計(jì)了特征提取網(wǎng)絡(luò),用來(lái)構(gòu)建特征損失,并在編碼網(wǎng)絡(luò)引入自注意力機(jī)制,網(wǎng)絡(luò)記作SRED-Net。
原始的RED-CNN網(wǎng)絡(luò)主要由卷積層,反卷積層和ReLU構(gòu)成。在對(duì)應(yīng)的卷積層與反卷積層之間加入短連接來(lái)學(xué)習(xí)殘差。從輸入到輸出之間分別有5個(gè)卷積層和反卷積層,連續(xù)的卷積層、反卷積層可以看作編碼、解碼的過(guò)程。網(wǎng)絡(luò)中所有卷積層與反卷積層的卷積核大小為5,每層的濾波器數(shù)量為96。
圖1 SRED-Net 結(jié)構(gòu)圖
改進(jìn)后的SRED-Net編碼部分由5個(gè)編碼塊和2個(gè)自注意力模塊組成,編碼塊濾波器數(shù)量分別為64、64、128、128、256;解碼部分由5個(gè)解碼塊組成,濾波器數(shù)量分別為256、128、128、64、64。編碼塊由卷積層與ReLU激活層組成,解碼塊由反卷積層與ReLU激活層組成。卷積核大小設(shè)為3,步長(zhǎng)為1,padding為1。
自注意力模塊如圖2所示。自注意力機(jī)制[7]減少了對(duì)外部信息的依賴,擅長(zhǎng)捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。相比于自然圖像,CT圖像包含的信息較少,因此,采用自注意力機(jī)制可以更好地提取其內(nèi)部相關(guān)信息。
圖2 自注意力模塊結(jié)構(gòu)圖
特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。使用網(wǎng)絡(luò)的第3層卷積后的輸出作為邊緣特征,用于構(gòu)建邊界損失。邊界損失可以表達(dá)為:
圖3 特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖
使用網(wǎng)絡(luò)的第8層卷積后的輸出作為紋理特征,用于構(gòu)建紋理?yè)p失。紋理?yè)p失可以表達(dá)為:
其中,F(xiàn)E3(·)表示提取邊緣特征,F(xiàn)E8(·)表示提取紋理特征,x代表輸入LDCT的patch,y代表對(duì)應(yīng)的NDCT的patch,w、h、d分別表示 patch的寬,高和深度,表示求二范數(shù)。
MSE損失表達(dá)為:
將MSE損失與邊界和紋理?yè)p失相結(jié)合,完整的損失函數(shù)可以表達(dá)為:
記作BTL。其中,λ1、λ2是兩個(gè)可訓(xùn)練的參數(shù),用來(lái)權(quán)衡邊界損失和紋理?yè)p失。
使用CPU版本為Intel(R) Core(TM)i5-8250U的計(jì)算機(jī)進(jìn)行仿真,GPU版本為NVIDIA GTX1080的計(jì)算機(jī)能夠加速計(jì)算。網(wǎng)絡(luò)使用Python語(yǔ)言編寫(xiě),利用Pytorch框架來(lái)實(shí)現(xiàn)。
在訓(xùn)練期間,數(shù)據(jù)集采用AAPM低劑量CT挑戰(zhàn)賽提供的CT數(shù)據(jù)[8],其中包括來(lái)自10位患者的常規(guī)劑量CT和相應(yīng)LDCT數(shù)據(jù),將患者L506的數(shù)據(jù)作為測(cè)試集,其余作為訓(xùn)練集。CT尺寸為512×512。使用Adam優(yōu)化所有網(wǎng)絡(luò)。通過(guò)patch的方法來(lái)增大數(shù)據(jù)集,patch size設(shè)置為64。batchsize設(shè)置為16??刂芐RED的MSE損失、特征損失之間權(quán)衡的加權(quán)參數(shù)λ1、λ2通過(guò)訓(xùn)練來(lái)學(xué)習(xí)。
通過(guò)RED-MSE和SRED-MSE的對(duì)比,驗(yàn)證自注意力機(jī)制的有效性;通過(guò)RED-MSE與RED-BTL的對(duì)比,驗(yàn)證特征提取網(wǎng)絡(luò)的有效性。
(1)視覺(jué)效果分析
圖4展示了不同神經(jīng)網(wǎng)絡(luò)對(duì)CT去噪的視覺(jué)效果。通過(guò)比較可以看出,與不使用自注意力機(jī)制的RED-MSE相比, SREDMSE保留了更多的紋理信息。使用MSE損失會(huì)使得組織紋理過(guò)于平滑,邊界也較為模糊;使用BTL損失保留了更多的紋理細(xì)節(jié),與NDCT更加相近。
圖4 去噪效果對(duì)比圖
(2)客觀指標(biāo)分析
表1展示了測(cè)試集上三個(gè)客觀指標(biāo)的均值,包括峰值信噪比(PSNR)、結(jié)構(gòu)相似度(SSIM)和均方根誤差(RMSE)。網(wǎng)絡(luò),在PSNR,SSIM,RMSE三項(xiàng)指標(biāo)上均高于不使用自注意力機(jī)制的方法,驗(yàn)證了自注意力機(jī)制的有效性。使用BTL的RED-BTL和SRED-BTL,三項(xiàng)指標(biāo)均高于不使用BTL的方法,驗(yàn)證了特征損失的有效性。并且,同時(shí)使用自注意力機(jī)制與BTL的SRED-BTL方法,獲得了最優(yōu)的指標(biāo)結(jié)果,PSNR提升了1.21dB,SSIM提升了0.0112,具有一定的紋理保留效果。
表1 測(cè)試集客觀評(píng)價(jià)指標(biāo)
針對(duì)目前深度學(xué)習(xí)方法在低劑量CT去噪領(lǐng)域存在的紋理缺失和組織平滑問(wèn)題,本文提出了一種自注意力殘差編解碼網(wǎng)絡(luò),主要有以下兩點(diǎn)改進(jìn):(1)引入自注意力機(jī)制;(2)設(shè)計(jì)特征提取網(wǎng)絡(luò),構(gòu)建邊界和紋理?yè)p失。改進(jìn)后的網(wǎng)絡(luò)PSNR提升了約1.21dB,SSIM提升了約0.0112。