冉文兵,梁永超,覃 芹,陳 旋,張 利,2
(1 貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院;2 貴州大學(xué) 省部共建公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴陽(yáng) 550025)
在臨床醫(yī)學(xué)中,電子計(jì)算機(jī)斷層掃描(CT)技術(shù)是利用X 射線對(duì)人體進(jìn)行照射,并結(jié)合高精度的探測(cè)器檢測(cè)射線能量的衰減情況,實(shí)現(xiàn)對(duì)人體內(nèi)部的患病部位進(jìn)行快速成像。但是由于臨床CT 設(shè)備的分辨率、噪聲和人體所能承受的輻射量等因素的限制,以及數(shù)據(jù)存儲(chǔ)過(guò)程中信息丟失,導(dǎo)致在醫(yī)學(xué)診斷中難以獲得足夠的病理信息。為了解決這一問(wèn)題可以對(duì)成像設(shè)備進(jìn)行提升或設(shè)計(jì)更好的軟件算法,但更新成像設(shè)備的代價(jià)較大。因此,通過(guò)使用相關(guān)算法實(shí)現(xiàn)CT 圖像的超分辨率重建(SR)具有重要意義。
超分辨率重建技術(shù)最早出現(xiàn)在光學(xué)工程領(lǐng)域,是指從低分辨率(LR)圖像重建出高分辨(HR)圖像[1]。1984 年Tsai 等人[2]提出基于頻域的超分辨重建技術(shù),使用多幀LR 圖像重建單幀HR 圖像。目前,關(guān)于圖像超分辨率重建技術(shù)大致可以分為基于插值、重建模型以及深度學(xué)習(xí)3 大類。插值方法主要包括臨近插值、雙三次插值和雙線性插值等,這類方法重建的速度快,但重建圖像存在模糊和偽影;重建模型主要包括迭代反投影(IBP)和凸集投影法(POCS)等,這類方法對(duì)于圖像中細(xì)節(jié)部分的重建需要引入大量的先驗(yàn)知識(shí);基于深度學(xué)習(xí)的重建方法比基于插值和重建模型的重建效果好很多,并且能夠?qū)崿F(xiàn)LR 圖像到HR 圖像端到端映射,是目前用于圖像超分辨率重建的主流方法。
2014 年,Dong 等人[3]首次提出使用深度學(xué)習(xí)技術(shù)用于圖像的超分辨率重建,通過(guò)使用包含特征提取、非線性映射和圖像重建3 個(gè)部分的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)單幅圖像的超分辨率重建,但容易產(chǎn)生棋盤偽影;2017 年,Ledig 等人[4]提出一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)和殘差學(xué)習(xí)的超分辨重建生成對(duì)抗網(wǎng)絡(luò)(SRGAN),并使用一個(gè)由對(duì)抗損失和內(nèi)容損失組成的損失函數(shù),解決了在較大縮放因子情況下的圖像細(xì)節(jié)紋理的恢復(fù)問(wèn)題;為了進(jìn)一步提升圖像的重建質(zhì)量,2018 年,Wang 等人[5]對(duì)SRGAN 中的損失函數(shù)進(jìn)行改進(jìn),并引入沒(méi)有批歸一化的殘差中的殘差密集塊(RRDB)作為網(wǎng)絡(luò)的基本單元,提出了增強(qiáng)的SRGAN(ESRGAN)。這些方法在自然圖像的超分辨率重建中取得較好的效果。與此同時(shí),Zheng等人[6]基于CycleGAN提出一種無(wú)監(jiān)督的GAN 實(shí)現(xiàn)CT 圖像的超分辨率重建,在結(jié)構(gòu)相似性(SSIM)上取得一定的提升。本文的目標(biāo)是基于GAN 和注意力機(jī)制提出一種有效的醫(yī)學(xué)圖像超分辨率重建方法,并在SRGAN 的損失函數(shù)的基礎(chǔ)之上引入全變分損失改善圖像細(xì)節(jié)紋理的重構(gòu)。除此之外,使用退化學(xué)習(xí)方法模擬圖像的退化過(guò)程,彌補(bǔ)傳統(tǒng)退化模型的缺陷,使本文方法更具有現(xiàn)實(shí)意義。
2014 年,Goodfellow 等人[7]首次提出生成對(duì)抗網(wǎng)絡(luò),是一種通過(guò)博弈過(guò)程估計(jì)生成的模型架構(gòu)。GAN 主要由生成器和鑒別器組成,模型結(jié)構(gòu)如圖1所示,生成器將輸入的隨機(jī)噪聲或樣本數(shù)據(jù)進(jìn)行處理后輸出;鑒別器則將生成器的輸出和真實(shí)的數(shù)據(jù)進(jìn)行對(duì)比和判斷生成器輸出的真實(shí)性。通過(guò)生成器與鑒別器之間的相互對(duì)抗,最終生成器與鑒別器之間達(dá)到納什均衡狀態(tài),并使得生成器產(chǎn)生的圖像逐漸趨于真實(shí)圖像。GAN 與受限玻爾茲曼機(jī)(RBM)、生成隨機(jī)網(wǎng)絡(luò)(GSN)和深度信念網(wǎng)絡(luò)(DBNs)等生成模型相比,具有較好的圖像生成能力,故在圖像風(fēng)格遷移、圖像合成、超分辨率重建和去噪等領(lǐng)域得以廣泛應(yīng)用。尤其在圖像的超分辨率重建中,GAN 在學(xué)習(xí)流行之間的映射有很好的效果,在一定程度上可以防止重建圖像的高頻細(xì)節(jié)和圖像紋理缺失,以及圖像平滑等問(wèn)題[8]。
圖1 生成對(duì)抗網(wǎng)絡(luò)模型Fig.1 Generate adversarial network models
在生物的視覺(jué)系統(tǒng)中,對(duì)視場(chǎng)內(nèi)的聚焦是有所區(qū)別的,通過(guò)關(guān)注場(chǎng)景中的關(guān)鍵區(qū)域獲取有價(jià)值的信息,這種視覺(jué)特性在深度學(xué)習(xí)中也得到廣泛應(yīng)用。在深度學(xué)習(xí)中,注意力機(jī)制的實(shí)現(xiàn)主要通過(guò)權(quán)重掩膜標(biāo)識(shí)出圖像中的特殊區(qū)域。目前根據(jù)關(guān)注的細(xì)粒度可以劃分為兩大類:硬注意力機(jī)制和軟注意力機(jī)制。軟注意力機(jī)制在計(jì)算過(guò)程中具有可微性,因此,相對(duì)于硬注意力機(jī)制訓(xùn)練難度較小。Hu 等人[9]提出一種簡(jiǎn)單有效且開(kāi)銷小的通道注意力機(jī)制模塊SENet,可以自適應(yīng)地校準(zhǔn)通道級(jí)的特征響應(yīng);Roy等人[10]提出一種空間注意力機(jī)制,對(duì)空間特征進(jìn)行壓縮和激發(fā),實(shí)現(xiàn)在空間中校準(zhǔn)特征映射。除此之外,大量的研究表明,通過(guò)共同利用空間注意力機(jī)制和通道注意力機(jī)制可以提高網(wǎng)絡(luò)的重構(gòu)性能。如:Woo 等人[11]將通道注意力機(jī)制與空間注意力進(jìn)行級(jí)聯(lián),提出卷積塊注意力模塊(CBAM),該模塊先將輸入特征通過(guò)通道注意力機(jī)制得到通道權(quán)重掩膜并與輸入特征相乘,然后將結(jié)果與通過(guò)空間注意力機(jī)制獲取空間權(quán)重掩膜相乘得到最終的輸出特征。
受到以上研究的啟發(fā),本文提出一種能夠?qū)崿F(xiàn)醫(yī)學(xué)圖像超分辨率重建的網(wǎng)絡(luò)模型,通過(guò)使用殘差特征提取模塊和CBAM 模型在圖像的特征空間中進(jìn)行特征提取和篩選,以減少冗余信息的學(xué)習(xí)和參數(shù)量,提升網(wǎng)絡(luò)的性能和重建效果。
在一般的圖像超分辨率重建過(guò)程中,通常是將原始的高分辨率圖像通過(guò)模糊、降采樣和加噪等方法進(jìn)行處理,得到與原始高分辨率圖像對(duì)應(yīng)的低分辨率圖像,最終得到理論退化模型數(shù)據(jù)集(X,Y),x表示理論模型模擬的低分辨率圖像,具體過(guò)程可以由式(1)表示為
其中,y表示原始的高分辨率圖像;↓f表示尺度因子為f的雙三次降采樣操作;B為高斯模糊算子;n為方差σ =0.025 的高斯噪聲。
式(1)可以簡(jiǎn)化為
其中,H(·) 為退化核。
但通過(guò)這種方式模擬的LR 圖像對(duì)真實(shí)場(chǎng)景中的噪聲和壓縮等因素的反映是明顯不足的,而且實(shí)際生活中很難得到HR 圖像和LR 圖像之間完全對(duì)應(yīng)的數(shù)據(jù)集。為了解決這一問(wèn)題,采用未配對(duì)的原始圖像集,將HR 圖像通過(guò)DSGAN 進(jìn)行退化學(xué)習(xí)模擬真實(shí)場(chǎng)景的LR 圖像得到退化學(xué)習(xí)數(shù)據(jù)集后用于超分辨率重建,具體過(guò)程如圖2 所示。x為實(shí)際的LR 圖像且與HR 圖像y并無(wú)映射關(guān)系,將HR 圖像經(jīng)過(guò)下4 倍采樣的LR 圖像s,使用DSGAN模型和LR 圖像x對(duì)圖像s進(jìn)行矯正得到更符合真實(shí)場(chǎng)景的LR 圖像
圖2 使用DSGAN 模型模擬LR 圖像的具體過(guò)程Fig.2 DSGAN model is used to simulate the specific process of LR image
目前,大多數(shù)基于深度學(xué)習(xí)的超分辨重建技術(shù),在醫(yī)學(xué)圖像上重建的結(jié)果過(guò)于模糊且缺失大量的細(xì)節(jié)紋理,利用GAN 較強(qiáng)的擬合能力可以在一定程度上解決這一問(wèn)題。SRGAN 通過(guò)使用深度殘差網(wǎng)絡(luò),能夠提取自然圖像中更豐富的細(xì)節(jié)信息,其生成器中的殘差結(jié)構(gòu)如圖3(a)所示。基于本文的應(yīng)用背景,對(duì)SRGAN 生成器和鑒別器進(jìn)行優(yōu)化。在生成器的殘差模塊中,由于批量歸一化層(BN)增加模型的計(jì)算復(fù)雜度和開(kāi)銷,故在本文所使用的殘差結(jié)構(gòu)中將其去除,僅保留卷積層和PReLU 層,并引入CBAM 混合注意力模塊,組成具有通道和空間注意力的殘差塊,稱之為RES-CB,如圖3(b)所示。
圖3 兩種殘差結(jié)構(gòu)對(duì)比Fig.3 Comparison of two residual structures
生成器主要由5 個(gè)RES-CB 模塊堆疊而成,具體結(jié)構(gòu)如圖4 所示。輸入圖像通過(guò)退化學(xué)習(xí)或理論模型模擬的LR 圖像,經(jīng)過(guò)采樣因子f為2、3 和4 的上采樣,再使用5×5 的卷積,5 個(gè)RES-CB 模塊,5×5 的轉(zhuǎn)置卷積層(Tconv)和投影層(Proj)[12]處理后,與只經(jīng)過(guò)上采樣的圖像相加,最后通過(guò)剪切層(Clipping)將圖像中的像素值約束在0~255 之間得到重建后的SR 圖像其中,Proj 層主要用于計(jì)算近端映射和數(shù)據(jù)的保真度,并在反向傳播的過(guò)程中會(huì)對(duì)該層的參數(shù)進(jìn)行微調(diào)。
圖4 生成器模型結(jié)構(gòu)Fig.4 Generator model structure
鑒別器網(wǎng)絡(luò)用于區(qū)分真實(shí)的HR 圖像和虛假的SR 圖像結(jié)構(gòu),如圖5 所示。鑒別器主要由7 個(gè)卷積特征提取塊(Conv、BN 和LReLU)組成,各個(gè)特征提取塊中的卷積層由卷積核大小為4,步長(zhǎng)為2 以及卷積核大小為3 步長(zhǎng)為1 的卷積交替構(gòu)成,能夠把特征映射從64 增加到512,在鑒別器的末端,通過(guò)兩個(gè)全連接層和Sigmoid 函數(shù)得到最后的鑒別結(jié)果。
圖5 鑒別器模型結(jié)構(gòu)Fig.5 Discriminator model structure
為了使用本文提出GAN 模型能夠?qū)崿F(xiàn)醫(yī)學(xué)圖像的超分辨率重建,使用以下?lián)p失函數(shù)計(jì)算重建誤差并指導(dǎo)模型的優(yōu)化。
感知損失(LPER):使用預(yù)訓(xùn)練的VGG-19 網(wǎng)絡(luò)分別對(duì)HR 圖像和SR 圖像進(jìn)行特征提取,計(jì)算二者之間的歐式距離,以此來(lái)關(guān)注圖像的感知質(zhì)量,公式為
其中,yi表示第i張真實(shí)的HR 圖像表示第i張重建的SR 圖像;Ψ(·) 為VGG-19 預(yù)訓(xùn)練網(wǎng)絡(luò)所提取到的特征;N為模型訓(xùn)練中小批量大小。
對(duì)抗損失(LADV):使用鑒別器對(duì)真實(shí)的HR 圖像和生成的SR 鑒別結(jié)果,對(duì)生成器進(jìn)行約束,以提升重建圖像的視覺(jué)效果。公式為
其中,Ey和分別是對(duì)小批量的HR 圖像和SR 圖像求取均值,通過(guò)鑒別器Dy求取生成的SR 圖像與真實(shí)的HR 圖像之間的差距。
像素級(jí)MSE 損失(L1):在圖像超分辨重建中,經(jīng)常使用MSE 計(jì)算虛假的SR 圖像和真實(shí)的HR 圖像之間的像素級(jí)距離,以此來(lái)對(duì)生成器的訓(xùn)練進(jìn)行約束,公式(5)為
全變分損失(LTV):主要可以使圖像中梯度變化較小的區(qū)域,產(chǎn)生一定的銳度,在一定程度上提升圖像的細(xì)節(jié)紋理,公式(6)為
其中,?h和?v分別為水平和垂直梯度算子。
最終模型訓(xùn)練所使用的損失函數(shù)為
其中,λ1、λ2、λ3和λ4為各部分損失的權(quán)重,其值分別為1、1、1 和10。
本文實(shí)驗(yàn)數(shù)據(jù)采用公開(kāi)的肺結(jié)節(jié)患者的胸部CT 圖像數(shù)據(jù)集LIDC-IDRI,從中選取紋理清晰、結(jié)構(gòu)復(fù)雜的550 張圖像,其中400 張作為訓(xùn)練集,100張作為驗(yàn)證集,50 張作為測(cè)試集。原始數(shù)據(jù)集中的LR 圖像集與HR 圖像集并無(wú)一一對(duì)應(yīng)關(guān)系。在訓(xùn)練之前,通過(guò)公式(1)的理論模型得到與HR 圖像具有映射關(guān)系的理論退化模型數(shù)據(jù)集 (X,Y) ;通過(guò)將HR 圖像下采樣從理論上模擬LR 圖像s,通過(guò)LR圖像x和DSGAN 生成LR 圖像得到退化學(xué)習(xí)的數(shù)據(jù)集
表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment
首先將本文提出的重建模型與其它重建模型Bicubic、SRCNN、SRGAN、ESRGAN 進(jìn)行尺度因子為4 的重建對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表2。在理論退化模型數(shù)據(jù)集上,本文的重建模型相比于Bicubic、SRCNN、SRGAN 和 ESRGAN 在PSNR上 分 別 提 升 了3.38 dB、2.54 dB、1.47 dB 和0.74 dB,在SSIM上分別提升了0.087 4、0.033 9、0.038 0 和0.046 6,驗(yàn)證了本文的重建模型相對(duì)于其他重建模型能夠更好地完成CT 圖像的重建;在退化學(xué)習(xí)數(shù)據(jù)集上,本文的重建方法的PSNR達(dá)到了28.98 dB,SSIM達(dá)到了0.864 2。通過(guò)對(duì)比幾種重建方法分別在兩種數(shù)據(jù)集上的重建指標(biāo)結(jié)果,表明本文的重建方法不僅在傳統(tǒng)的理論退化模型的LR 圖像上得到不錯(cuò)的效果,還在使用退化學(xué)習(xí)模擬CT 成像和存儲(chǔ)過(guò)程中受到圖像退化后的LR 圖像上也能取得很好的效果。
表2 不同重建方法在理論退化模型數(shù)據(jù)集和退化學(xué)習(xí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of different reconstruction methods on theoretical degenerate model dataset and degenerate learning dataset
為了定性分析幾種方法重建的圖像質(zhì)量,給出了5 種重建方法在退化學(xué)習(xí)數(shù)據(jù)集上,進(jìn)行尺度因子為4 的重建結(jié)果,如圖6 所示。圖6(a)為原始的HR 圖像,圖6(b)為通過(guò)Bicubic 重建的圖像,圖6(c)為通過(guò)SRCNN 重建的圖像,圖6(d)為通過(guò)SRGAN 重建的圖像,圖6(e)為通過(guò)ESRGAN 重建的圖像,圖6(f)為本文提出模型的重建結(jié)果。從圖6 可以看出,Bicubic 和SRCNN 的結(jié)果過(guò)于模糊,且在組織結(jié)構(gòu)的分界線上較為平滑;SRGAN 在組織的邊界有明顯的偽影;ESRGAN 的結(jié)果在組織邊界較為尖銳且引入大量的噪聲;本文提出的模型在這幾種方法中的重建效果較為突出,但是與原始的HR圖像相比,對(duì)于細(xì)節(jié)紋理的重建仍然略顯不足。
圖6 5 種方法重建的CT 圖像對(duì)比Fig.6 Comparison of CT images reconstructed by five methods
本文的重建方法可以實(shí)現(xiàn)不同尺度因子的超分辨重建,不同尺度重建的結(jié)果見(jiàn)表3。除了使用PSNR和SSIM分析重建圖像質(zhì)量,還使用學(xué)習(xí)感知圖像塊相似度(LPIPS)對(duì)重建圖像感知質(zhì)量進(jìn)行比較。LPIPS的值越小,說(shuō)明圖像的感知質(zhì)量越好。LPIPS在重建尺度因子為4 的LPIPS比×2 和×3 分別高出了0.091 5 和0.080 9。下采樣因子為2、3 和4 的LR 圖像和通過(guò)本文重建方法得到的SR 圖像,如圖7 所示。尺度因子較小的LR 圖像保留的信息較多,通過(guò)對(duì)重建的圖像進(jìn)行對(duì)比,尺度因子為2 的SR 圖像中的細(xì)節(jié)更為清晰。
圖7 不同尺度因子重建的CT 圖像對(duì)比Fig.7 Comparison of CT images reconstructed with different scale factors
表3 本文的方法在退化學(xué)習(xí)數(shù)據(jù)集上進(jìn)行不同尺度重建的實(shí)驗(yàn)結(jié)果對(duì)比Tab.3 The method in this paper compares the experimental results of reconstruction at different scales on degenerate learning datasets
經(jīng)過(guò)上述的客觀指標(biāo)評(píng)價(jià)和主觀視覺(jué)分析,可見(jiàn)本文提出的超分辨重建算法,在CT 圖像的重建中具有一定的優(yōu)越性,從而證明了本文提出網(wǎng)絡(luò)模型和數(shù)據(jù)模擬方法的有效性。本文使用退化學(xué)習(xí)算法可以對(duì)真實(shí)場(chǎng)景的LR 圖像進(jìn)行模擬,讓重建方法更具有現(xiàn)實(shí)意義;通過(guò)混合注意力機(jī)制從空間和通道兩方面對(duì)指導(dǎo)特征有選擇性地學(xué)習(xí),提高網(wǎng)絡(luò)性能和訓(xùn)練效果。
為了充分證明CBAM 和全變分損失(LTV)在本文方法中的重要性和效果,在消融實(shí)驗(yàn)中將對(duì)這兩部分進(jìn)行定量分析。通過(guò)在退化學(xué)習(xí)數(shù)據(jù)集進(jìn)行4組尺度因子為4 的對(duì)比實(shí)驗(yàn),結(jié)果見(jiàn)表4。通過(guò)比較第1 組和第4 組實(shí)驗(yàn),本文網(wǎng)絡(luò)模型通過(guò)結(jié)合CBAM 和LTV使得PSNR和SSIM分別提升了0.62 dB和0.025 8,LPIPS降低了0.024 8。說(shuō)明將CBAM 和LTV加入到本文的網(wǎng)絡(luò)模型中,對(duì)醫(yī)學(xué)圖像的超分辨率重建是有效的。
表4 對(duì)CBAM 和LTV進(jìn)行消融實(shí)驗(yàn)的結(jié)果對(duì)比Tab.4 The results of ablation experiments were compared between CBAM and LTV
本文提出了一種用于醫(yī)學(xué)圖像超分辨率重建的深度學(xué)習(xí)方法,主要通過(guò)改進(jìn)的SRGAN 模型中的殘差特征提取模塊,并將其和混合注意力機(jī)制CBAM 相結(jié)合,提出具有通道和空間注意力的殘差特征提取模塊。使用該模塊構(gòu)建GAN 的生成器在對(duì)人體胸部CT 圖像進(jìn)行超分辨率重建可以取得較好的效果。此外,通過(guò)退化學(xué)習(xí)模擬低分辨率數(shù)據(jù),解決傳統(tǒng)退化模型的局限性。通過(guò)將幾種常用的超分辨重建方法與本文的方法進(jìn)行對(duì)比分析,驗(yàn)證了該方法在醫(yī)學(xué)圖像超分辨重建方面具有一定的潛力。在未來(lái)的工作中,仍然需要探索更好的方法解決大尺度重建的部分細(xì)節(jié)丟失問(wèn)題,以及需要使用更好的定量評(píng)估方法分析醫(yī)學(xué)圖像超分辨重建效果。