田苗苗,支力佳,張少敏,晁代福
北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川 750021
計(jì)算機(jī)斷層掃描(computed tomography,CT)是臨床診斷的重要輔助手段。CT影像的質(zhì)量對(duì)病變?cè)\斷有非常重要的影響,高分辨率(high resolution,HR)CT 是肺結(jié)核[1]、特發(fā)性肺纖維化[2]和間質(zhì)性肺炎[3]等疾病的關(guān)鍵診斷工具。并且HRCT 在鑒別肺結(jié)節(jié)良惡性方面優(yōu)于常規(guī)胸部CT[4]。但由于成像設(shè)備的限制,難以獲得高分辨率醫(yī)學(xué)CT 影像,所以可以利用后處理技術(shù)獲取HRCT。
超分辨率(super resolution,SR)的概念最早由Gerchberg[5]提出用于提高超出衍射極限的光學(xué)系統(tǒng)的分辨率。隨著技術(shù)不斷發(fā)展,超分辨率被定義為從相應(yīng)的低分辨率(low resolution,LR)圖像生成HR圖像的方法。經(jīng)典圖像插值算法通過增加像素尺寸提高圖像分辨率,簡單且處理速度快,但是不能突破原有的信息量,而且由于不考慮結(jié)構(gòu)信息,可能會(huì)產(chǎn)生偽影[6]?;趯W(xué)習(xí)的SR 技術(shù)的基本思想是通過學(xué)習(xí)過程獲得先驗(yàn)知識(shí)[7],該方法一般需要較少的LR圖像就能得到效果很好的超分辨率圖像,但是該算法不能隨意改變放大因子。近年來,深度學(xué)習(xí)在圖像處理的許多領(lǐng)域都取得了優(yōu)秀的成果。深度學(xué)習(xí)用于SR問題的第一個(gè)模型SRCNN[8](super-resolution convolutional neural network)的出現(xiàn),吸引了許多研究人員將神經(jīng)網(wǎng)絡(luò)的各種變體應(yīng)用到圖像超分辨率研究中。在醫(yī)學(xué)圖像超分辨率領(lǐng)域,Chaudhari等[9]使用SR方法從厚切片輸入圖像中生成膝蓋磁共振圖像的薄片。Dm等[10]提出使用漸進(jìn)式生成對(duì)抗網(wǎng)絡(luò)來提高磁共振圖像質(zhì)量。使用超分辨率輔助診斷已經(jīng)成為近期的趨勢(shì),例如研究人員使用基于深度學(xué)習(xí)的SR 方法來協(xié)助診斷孤立性肌張力障礙等運(yùn)動(dòng)障礙[11]。由于醫(yī)學(xué)成像的超分辨率技術(shù)之后通常是分割或診斷,因此增強(qiáng)感興趣的結(jié)構(gòu)并且保存敏感信息是非常具有挑戰(zhàn)性的研究課題。此外,醫(yī)學(xué)圖像數(shù)據(jù)集相對(duì)較小且難以收集,尤其是臨床高分辨率和低分辨率圖像對(duì)。
一般地,圖像超分辨率重建模型可以分為三個(gè)功能模塊:輸入模塊、圖像特征提取模塊與特征圖放大重建模塊。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,不斷有最新的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)策略被引入到醫(yī)學(xué)圖像超分辨率領(lǐng)域。相關(guān)研究往往通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)或者針對(duì)特定問題加入新的結(jié)構(gòu)等手段提取更多深層高頻信息,提高輸出圖像質(zhì)量。基于對(duì)現(xiàn)有醫(yī)學(xué)CT 影像超分辨率算法的研究,本文將從超分網(wǎng)絡(luò)的三個(gè)功能模塊入手,闡述基于深度學(xué)習(xí)的醫(yī)學(xué)CT影像超分網(wǎng)絡(luò)在結(jié)構(gòu)和性能優(yōu)化方面的創(chuàng)新與進(jìn)展,通過提供結(jié)構(gòu)上使用的SR 方法組件的細(xì)節(jié)來對(duì)比總結(jié)醫(yī)學(xué)CT影像超分辨率最新進(jìn)展。如圖1所示為基于超分網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)的分割方法。
圖1 基于超分網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)的分割方法Fig.1 Improved segmentation method based on super-resolution network structure
本文的其余部分組織如下:本文第1、2章分別介紹了超分辨率基本理論和常用圖像質(zhì)量評(píng)估準(zhǔn)則。第3章重點(diǎn)論述了基于超分網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)的相關(guān)研究工作,并給出相關(guān)方法的整體總結(jié)與比較。第4 章分析了超分辨率網(wǎng)絡(luò)針對(duì)特定醫(yī)學(xué)領(lǐng)域的應(yīng)用。第5 章討論了醫(yī)學(xué)CT 影像超分辨率重建方向上存在的困難和挑戰(zhàn),并對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了總結(jié)與展望。
圖像超分辨率重建(SR)是計(jì)算機(jī)視覺領(lǐng)域中提高圖像分辨率的重要方法之一,能夠在不改變硬件設(shè)施的前提下,獲得高分辨率圖像。圖像分辨率技術(shù)在醫(yī)學(xué)成像、數(shù)字與場(chǎng)景識(shí)別、攝影以及目標(biāo)跟蹤等多個(gè)領(lǐng)域都有廣泛應(yīng)用。本章首先介紹SR 問題定義,然后依次介紹退化函數(shù)、網(wǎng)絡(luò)框架分類以及損失函數(shù),為后續(xù)章節(jié)中介紹網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)提供理論基礎(chǔ)。
超分辨率是從輸入的LR 圖像中重建相應(yīng)的HR 圖像。大多網(wǎng)絡(luò)在訓(xùn)練和測(cè)試時(shí)使用的LR圖像為退化函數(shù)輸出,如公式(1)所示:
其中,t為退化函數(shù),IHR為輸入HR 圖像,?為退化函數(shù)的輸入?yún)?shù),通常是縮放因子、模糊類型和噪聲。SR問題則是退化函數(shù)的逆過程,如公式(2)所示:
其中,f為SR 函數(shù),是輸入?yún)?shù),為輸入ILR對(duì)應(yīng)的估計(jì)高分辨率圖像。
最后,SR 要使損失函數(shù)最小,目標(biāo)函數(shù)如公式(3)所示。為輸出HR圖像與真實(shí)HR圖像之間的損失函數(shù),ψ(?)為正則化項(xiàng)。
退化函數(shù)是指將圖像從理想超分辨率轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)硬件設(shè)備生成的可能有瑕疵的圖像,常用到的退化函數(shù)如圖2所示。應(yīng)用于醫(yī)學(xué)CT領(lǐng)域的超分辨率大多為有監(jiān)督算法,一般需要利用大量LR-HR圖像對(duì)進(jìn)行訓(xùn)練,其中LR 圖像由HR 圖像經(jīng)退化函數(shù)得到,大多數(shù)文獻(xiàn)會(huì)采用雙三次插值下采樣算法,但該方法在實(shí)際應(yīng)用中效果不佳,因?yàn)楝F(xiàn)實(shí)世界的LR 圖像的降質(zhì)過程更加復(fù)雜且未知,由于掃描時(shí)間、身體運(yùn)動(dòng)或者劑量限制等因素,CT圖像可能產(chǎn)生偽影,模糊等。
圖2 退化函數(shù)Fig.2 Degenerate function
醫(yī)學(xué)CT 超分辨率領(lǐng)域常用到的退化方式有四種:BI(bicubic-down)表示僅使用雙三次下采樣生成LR 圖像;BD(blur-down)為HR 圖像添加高斯模糊,然后進(jìn)行下采樣;BN(bicubic-down and noise)表示雙三次插值下采樣和高斯白噪聲;DN(blur-down and noise)表示高斯模糊下采樣并在圖像中加入高斯白噪聲。
很多網(wǎng)絡(luò)采用雙三次下采樣結(jié)合模糊、噪聲等手段處理HR 圖像,但這并不是完美的解決方式,得到的LR圖像與現(xiàn)實(shí)硬件設(shè)備生成的圖像仍存在一定偏差,會(huì)影響網(wǎng)絡(luò)最終的訓(xùn)練效果,本文在“3.1 節(jié)輸入模塊改進(jìn)”中總結(jié)了一些網(wǎng)絡(luò)針對(duì)此類問題的思路與方法。
根據(jù)上采樣模塊在模型中所處位置的不同,可以將超分網(wǎng)絡(luò)框架分為如圖3所示的四種框架。
圖3 四種SR框架模型圖Fig.3 Four SR framework model diagrams
1.3.1 預(yù)上采樣框架(pre-upsampling SR)
預(yù)上采樣SR框架[8]是指首先將LR圖像上采樣為所需的尺寸,再通過神經(jīng)網(wǎng)絡(luò)重建高質(zhì)量的細(xì)節(jié),例如SRCNN[12]模型。該框架的優(yōu)勢(shì)是學(xué)習(xí)難度低,并且可以將插值處理后的任意大小圖像作為輸入,效果與單尺度SR[13]模型相當(dāng)。其缺點(diǎn)是經(jīng)典的插值方法,例如雙三次插值[14]、三次樣條插值[15]等,會(huì)導(dǎo)致噪聲放大、圖像模糊,同時(shí)模型的計(jì)算在高維空間中進(jìn)行,會(huì)顯著增加計(jì)算復(fù)雜度,時(shí)間和空間成本也隨之增加。
1.3.2 后上采樣框架(post-upsampling SR)
后上采樣[16]是指LR 圖像先被傳遞到神經(jīng)網(wǎng)絡(luò)中,在較低維空間進(jìn)行特征提取,上采樣在最后一層使用可學(xué)習(xí)層來執(zhí)行。該框架在低維空間進(jìn)行計(jì)算,計(jì)算成本低,降低了模型復(fù)雜度,在SR中得到了廣泛的應(yīng)用。但是后上采樣無法滿足多尺度SR 的需要,并且當(dāng)上采樣因子較大時(shí),學(xué)習(xí)難度增加。
1.3.3 漸進(jìn)上采樣框架(progressive-upsampling SR)
漸進(jìn)上采樣是指將整個(gè)模型分為幾個(gè)階段,每個(gè)階段圖像被上采樣一次得到更高分辨率,逐步實(shí)現(xiàn)所需的縮放。該框架的優(yōu)勢(shì)是漸進(jìn)式操作降低了學(xué)習(xí)難度,獲得了更好的性能。缺點(diǎn)是仍然無法滿足多尺度問題,并且多階段模型設(shè)計(jì)的復(fù)雜性增加、訓(xùn)練難度增加。應(yīng)用漸進(jìn)上采樣框架的模型有Lai 等[17]提出的LapSRN(Laplacian pyramid super-resolution network)和MSLapSRN(multi-scale Laplacian pyramid super-resolution network),Wang 等[18]提出的ProSR(progressive superresolution network)等。
1.3.4 迭代上采樣框架(iterative up-and-down sampling SR)
迭代上采樣將反向投影引入到SR中用來縮小LRHR之間的關(guān)系,迭代地進(jìn)行上采樣下采樣操作,迭代使用反向投影精細(xì)化圖像,通過計(jì)算重建誤差來調(diào)整HR圖像。PBPN[19](progressive back-projection network)利用這一概念進(jìn)行連續(xù)的上采樣和下采樣,利用中間生成的HR 圖像構(gòu)建最終圖像。SRFBN[20](super-resolution feedback network)將迭代上采樣與密集連接層結(jié)合,能夠更好地挖掘LR-HR 圖像對(duì)之間的深層關(guān)系,從而提供更高質(zhì)量的重建結(jié)果。反向投影機(jī)制剛剛被引入到該領(lǐng)域,具有很大的潛力,需要進(jìn)一步探索。
損失函數(shù)是網(wǎng)絡(luò)模型的重要組成部分,一般用于測(cè)量網(wǎng)絡(luò)重建誤差并指導(dǎo)模型優(yōu)化。本節(jié)主要研究醫(yī)學(xué)CT超分辨率領(lǐng)域廣泛使用的損失函數(shù)。
1.4.1 像素?fù)p失(pixel loss)
像素?fù)p失是用來度量兩幅圖像之間的像素級(jí)差異,主要包括L1損失(即平均絕對(duì)誤差)和L2損失(即均方誤差):
其中,h、w和c分別是圖像通道的高度、寬度和數(shù)量。像素?fù)p失的目標(biāo)是使生成的HR圖像I在像素值上足夠接近真實(shí)圖像I,L1損失計(jì)算的是實(shí)際值與目標(biāo)值之間絕對(duì)差值的總和,L2 損失計(jì)算的是實(shí)際值與目標(biāo)值之間絕對(duì)差值的平方總和。與L1 損失相比,L2 損失可以對(duì)大的損失進(jìn)行懲罰,但更能容忍小的誤差,因此經(jīng)常導(dǎo)致圖像過于平滑,所以在近期的網(wǎng)絡(luò)模型中使用L1損失更多。
在超分辨率領(lǐng)域,峰值信噪比是應(yīng)用最廣泛的評(píng)價(jià)指標(biāo)之一,最小化像素?fù)p失可以使峰值信噪比最大化,因此像素?fù)p失也得到普遍應(yīng)用。然而,由于像素?fù)p失沒有考慮到圖像的感知質(zhì)量、紋理細(xì)節(jié)等,因此結(jié)果通常缺乏高頻細(xì)節(jié)且紋理過于平滑。
1.4.2 感知損失(perceptual loss)
感知損失是使用預(yù)先訓(xùn)練的特征提取器的特定層來最小化特征空間中的均方誤差,常用到的有VGG(visual geometry group)、ResNet(residual network)等,利用卷積層抽象高層特征,從更高維度感知圖像,能夠更準(zhǔn)確地模擬人對(duì)圖像的感受,基于VGG 的感知損失公式如下:
其中,Cj、Hj、Wj為特征圖的通道數(shù)、長度和寬度,?是預(yù)先訓(xùn)練的VGG模型,j表示?的特定層特征圖。
與像素?fù)p失不同的是,感知損失追求輸出圖像在視覺上與目標(biāo)圖像相似,而不是迫使圖像精確匹配像素。感知損失可以獲得更好的視覺效果,被廣泛應(yīng)用于超分辨率重建領(lǐng)域。
1.4.3 對(duì)抗損失(perceptual loss)
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)具有強(qiáng)大的學(xué)習(xí)能力,在各種視覺任務(wù)中應(yīng)用廣泛。GAN在訓(xùn)練過程中,交替執(zhí)行兩個(gè)步驟:固定生成器并訓(xùn)練鑒別器更好地進(jìn)行識(shí)別;固定鑒別器并訓(xùn)練生成器得到與目標(biāo)圖像更接近的圖像?;诮徊骒氐膶?duì)抗性損失公式如下:
其中,Lgan_ce_g和Lgan_ce_d分別表示生成器和鑒別器的對(duì)抗性損失,Is表示真實(shí)HR圖像中隨機(jī)采樣的圖像。
基于最小二乘誤差的對(duì)抗性損失可以實(shí)現(xiàn)更穩(wěn)定的訓(xùn)練過程和更高質(zhì)量的結(jié)果[21],如下所示:
廣泛的MOS測(cè)試表明,使用對(duì)抗性損失訓(xùn)練的SR模型與使用像素?fù)p失訓(xùn)練的模型相比產(chǎn)生了較低的PSNR,但是在感知質(zhì)量方面有顯著的提高[22]。為了得到更好的感知效果,許多模型采用多種損失函數(shù),但組合型損失函數(shù)目前并無最優(yōu)解,還需繼續(xù)探索研究。本文在“3.4 節(jié)損失函數(shù)改進(jìn)”中討論了近期的醫(yī)學(xué)CT 超分辨率重建模型使用的各種組合型損失函數(shù)。
對(duì)SR模型性能進(jìn)行評(píng)定,可以減少選擇的盲目性,而且對(duì)創(chuàng)新SR模型和算法具有科學(xué)的指導(dǎo)意義。圖像質(zhì)量評(píng)估主要分為主觀評(píng)估和客觀評(píng)估,本章將介紹醫(yī)學(xué)CT超分辨率模型中常用到的評(píng)價(jià)指標(biāo)。
主觀評(píng)價(jià)就是從人的主觀感知來評(píng)價(jià)圖像的質(zhì)量,力求能夠真實(shí)地反映人的視覺感知。根據(jù)是否有真實(shí)HR 圖像作為標(biāo)準(zhǔn)參考圖像,可以將其分為相對(duì)主觀評(píng)價(jià)指標(biāo)和絕對(duì)主觀評(píng)價(jià)指標(biāo)。相對(duì)評(píng)估經(jīng)典方法有平均意見得分(mean opinion score,MOS)[23]、絕對(duì)評(píng)估常用到的是平均意見排名(mean opinion rank,MOR)[24]。表1所示為兩種主觀評(píng)價(jià)指標(biāo)的評(píng)價(jià)尺度。
表1 主觀評(píng)價(jià)指標(biāo)的評(píng)價(jià)準(zhǔn)則Table 1 Evaluation criterion of subjective evaluation indexs
雖然主觀評(píng)價(jià)能夠根據(jù)人眼的感知,直觀并較精確地評(píng)價(jià)圖片質(zhì)量,但是費(fèi)時(shí)費(fèi)力,不能動(dòng)態(tài)地調(diào)整參數(shù),還會(huì)受到觀看距離、顯示設(shè)備、觀測(cè)者的視覺能力、情緒等各種因素的影響。因此,能夠自動(dòng)精確地評(píng)價(jià)圖像質(zhì)量的數(shù)學(xué)模型是有必要的。
客觀評(píng)價(jià)是使用某種特定的數(shù)學(xué)模型給出參考圖像和評(píng)估圖像之間的差異量化值,具有自動(dòng)化及不受主觀因素影響的優(yōu)點(diǎn)。使客觀評(píng)估算法與人的主觀質(zhì)量判斷相一致,是圖像質(zhì)量評(píng)估研究的重點(diǎn)。
(1)峰值信噪比(peak signal-to-noise ratio,PSNR)
峰值信噪比借助均方誤差(mean squared error,MSE)來計(jì)算圖像重建情況,MSE用于檢測(cè)重建后的圖像和真實(shí)圖像的相似度。一般PSNR 的范圍在20 到40之間,其值越大代表重建圖像與參考圖像越接近。
其中,y為真實(shí)圖像,x為模型重建圖像,N為圖像的像素個(gè)數(shù),L為圖像的最大像素值,一般為255。
PSNR計(jì)算速度快,使用方便,是目前圖像處理領(lǐng)域應(yīng)用最廣泛的評(píng)估指標(biāo)之一。但其局限性也非常明顯,PSNR 是基于逐像素點(diǎn)的,即圖像中的每個(gè)像素點(diǎn)對(duì)圖像質(zhì)量結(jié)果輸出的權(quán)重是相同的,這不合理;同時(shí),人的視覺系統(tǒng)對(duì)于亮度信息的敏感度是強(qiáng)于色度信息的,以上因素導(dǎo)致PSNR給出的結(jié)果不夠接近人眼的直觀感覺。
(2)結(jié)構(gòu)相似性(structural similarity index,SSIM)
結(jié)構(gòu)相似性[25]通過比較參考圖像內(nèi)的對(duì)比度、亮度和結(jié)構(gòu)細(xì)節(jié)來衡量圖像之間的結(jié)構(gòu)相似度,用圖像均值作為亮度的估計(jì)、標(biāo)準(zhǔn)差作為對(duì)比度的估計(jì)、協(xié)方差作為結(jié)構(gòu)相似程度的度量。SSIM的范圍為0到1,當(dāng)兩張圖像完全一樣時(shí),SSIM的值等于1。
其中,μx是x的平均值,μy是y的平均值,是x的方差,是y的方差,σxy是x和y的協(xié)方差,C1和C2是用來維持穩(wěn)定的常數(shù),l是像素值動(dòng)態(tài)范圍。
SSIM 基于人類對(duì)圖像中結(jié)構(gòu)信息的感知,改進(jìn)了PSNR的缺點(diǎn)。但是當(dāng)圖像出現(xiàn)位移、縮放、旋轉(zhuǎn)等非結(jié)構(gòu)性失真時(shí),SSIM 無法有效運(yùn)作。當(dāng)參考圖像是方差或亮度較低的醫(yī)學(xué)圖像時(shí),SSIM是不穩(wěn)定的,可能會(huì)出現(xiàn)不一致的結(jié)果[26]。
(3)信息保真度準(zhǔn)則(information fidelity criterion,IFC)與視覺信息保真度(visual information fidelity,VIF)
基于信息論中信息熵基礎(chǔ),互信息被廣泛用于評(píng)價(jià)圖像質(zhì)量。IFC[27]和VIF[28]都是通過計(jì)算待評(píng)圖像與參考圖像之間的互信息來衡量待評(píng)圖像的質(zhì)量優(yōu)劣的。這兩種方法擴(kuò)展了圖像與人眼之間的聯(lián)系,但是對(duì)于圖像的結(jié)構(gòu)信息沒有反應(yīng)。
(4)其他評(píng)價(jià)指標(biāo)
均方根誤差(root mean square error,RMSE)衡量的是預(yù)測(cè)值與真實(shí)值之間的偏差,并且對(duì)數(shù)據(jù)中的異常值較為敏感。距離得分(frechet inception distance score,F(xiàn)ID)是計(jì)算真實(shí)圖像和生成圖像的特征向量之間距離的一種度量,從原始圖像的計(jì)算機(jī)視覺特征的統(tǒng)計(jì)方面的相似度來衡量兩組圖像的相似度。如果FID 值越小,則相似程度越高,最好情況即是FID=0,兩個(gè)圖像相同。
本章將從面向網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)出發(fā),系統(tǒng)介紹近期基于深度學(xué)習(xí)的醫(yī)學(xué)CT影像超分辨率網(wǎng)絡(luò)的相關(guān)研究工作,詳細(xì)闡述每個(gè)功能模塊的改進(jìn)目的及其實(shí)現(xiàn)方法,將常規(guī)結(jié)構(gòu)與改進(jìn)結(jié)構(gòu)進(jìn)行對(duì)比總結(jié),通過提供結(jié)構(gòu)上使用的SR 方法組件的細(xì)節(jié)來對(duì)比總結(jié)醫(yī)學(xué)CT 影像超分辨率最新進(jìn)展。如圖4 所示,根據(jù)LR 圖像生成SR 圖像的過程,按照輸入模塊改進(jìn)、特征提取模塊改進(jìn)、放大重建模塊改進(jìn)、損失函數(shù)改進(jìn)以及其他結(jié)構(gòu)改進(jìn)依次展開。
圖4 超分網(wǎng)絡(luò)模塊改進(jìn)Fig.4 Improvement of super resolution network module
超分辨率網(wǎng)絡(luò)一般需要利用大量LR-HR圖像對(duì)進(jìn)行訓(xùn)練,大多數(shù)文獻(xiàn)采用雙三次插值將高分辨率圖像處理為低分辨率圖像,但這種數(shù)據(jù)集處理方法在實(shí)際應(yīng)用中效果不佳,因?yàn)楝F(xiàn)實(shí)世界的LR 圖像的降質(zhì)過程更加復(fù)雜且未知。本節(jié)將從對(duì)輸入的LR圖像進(jìn)行處理和添加額外信息這兩個(gè)方面介紹對(duì)輸入模塊的改進(jìn)。
3.1.1 處理LR圖像
獲得清晰結(jié)果的一種廣泛使用的方法是使用固定的標(biāo)準(zhǔn)偏差添加高斯模糊。與其他方法不同,為了避免過擬合到一個(gè)固定的標(biāo)準(zhǔn)偏差,Georgescu 等[29]使用隨機(jī)標(biāo)準(zhǔn)差的高斯模糊平滑輸入,獲得更清晰的圖像。
小波變換是指利用高頻子帶和低頻子帶中的全局結(jié)構(gòu)信息高效地表示紋理。在SR 中使用小波變換,利用插值后的LR 小波子帶生成HR 子帶的殘差,而反小波變換則對(duì)HR 圖像進(jìn)行重構(gòu)。Amaranageswarao 等[30]利用小波變換捕捉LR圖像的不同方向高頻內(nèi)容。小波變換在每個(gè)分解層產(chǎn)生對(duì)應(yīng)不同頻率分量的四個(gè)子帶,分別是近似子帶和不同邊緣方向子帶(水平、垂直和對(duì)角線),捕獲圖像在不同方向上的結(jié)構(gòu)信息,可以有效利用圖像的結(jié)構(gòu)信息來推斷缺失的細(xì)節(jié)。一級(jí)小波分解的濾波器組運(yùn)算框圖如圖5所示。
圖5 一級(jí)小波分解的濾波器組運(yùn)算框圖Fig.5 Block diagram of filter bank analysis for level-1 2D-DWT decomposition
3.1.2 添加額外信息
Gu等[31]提出的MedSRGAN(medical images superresolution using generative adversarial networks),引入了一個(gè)均值為零、單位變化的隨機(jī)高斯噪聲作為額外的擾動(dòng)通道,使網(wǎng)絡(luò)的特征映射具有一定隨機(jī)性,幫助網(wǎng)絡(luò)在同質(zhì)區(qū)域更能自適應(yīng)地生成更可行的模式。Kudo等[32]將包含身體部位信息的切片條件和參數(shù)尺度退化的虛擬薄圖像輸入鑒別器,使其可以對(duì)不同的身體部位進(jìn)行調(diào)節(jié)。EDLF-CGAN[33](edge detection loss functionconditional generative adversarial networks)采用亮度和對(duì)比度作為輸入輔助條件,以解決紋理不合理的問題,提高圖像精度。
本小節(jié)介紹的方法均為基于退化模型的方法,雖然有助于模型獲得更清晰的圖像,但是真實(shí)的退化模型難以模擬,使用合成數(shù)據(jù)不能準(zhǔn)確評(píng)估超分辨率模型在實(shí)際醫(yī)學(xué)應(yīng)用中的性能。但是基于退化模型的方法并不是沒有意義的,Ji[34]等通過從真實(shí)世界的圖像對(duì)學(xué)習(xí)一組基本模糊核和相應(yīng)的像素權(quán)重,開發(fā)了一個(gè)有效的退化框架,并贏得了NTIRE 2020真實(shí)世界圖像超分辨率挑戰(zhàn)[24]?;谕嘶P偷某直媛实淖吭叫阅鼙砻?,這種方法是解決真實(shí)世界SR的可行方案。
為了針對(duì)性地解決不同的問題,常常會(huì)采用多種網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合的方式。特征提取模塊的改進(jìn)一種是基于現(xiàn)有的殘差結(jié)構(gòu)、密集連接以及注意力機(jī)制等進(jìn)行改進(jìn)或組合來達(dá)到更好的效果;另一種則是針對(duì)特定任務(wù)在模塊加入新的網(wǎng)絡(luò)設(shè)計(jì)如群卷積、信息蒸餾等。
3.2.1 基本塊變體
特征提取模塊由大量特征提取基本塊組成,最常使用的基本塊有殘差塊、密集連接塊以及嵌套殘差的密集連接塊,其中殘差塊在特征提取中具有較好的性能,所以許多超分辨率模型都會(huì)采用殘差塊作為網(wǎng)絡(luò)的一個(gè)基本單元。針對(duì)特征提取模塊中的殘差塊及殘差結(jié)構(gòu)進(jìn)行改進(jìn)是醫(yī)學(xué)圖像超分辨率領(lǐng)域被廣泛采取的改進(jìn)方法。
本小節(jié)主要針對(duì)特征利用不足的問題,對(duì)特征提取基本塊結(jié)構(gòu)進(jìn)行梳理總結(jié),討論每個(gè)基本塊的創(chuàng)新與優(yōu)勢(shì)。根據(jù)常見基本塊結(jié)構(gòu)可將其分為五個(gè)小類進(jìn)行闡述,分別是:殘差塊改進(jìn)、嵌套殘差的密集連接塊改進(jìn)、殘差結(jié)構(gòu)與注意力機(jī)制結(jié)合、殘差結(jié)構(gòu)與上投影下投影塊結(jié)合以及U-Net架構(gòu)。
殘差結(jié)構(gòu)有助于解決梯度消失和梯度爆炸問題,增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力,在訓(xùn)練更深網(wǎng)絡(luò)的同時(shí)保證良好的信息。針對(duì)殘差塊進(jìn)行改進(jìn)的網(wǎng)絡(luò)有:You 等[35]在GANCIRCLE(GAN constrained by the identical,residual,and cycle learning ensemble)中將殘差塊的ReLU 替換為LeakyReLU進(jìn)行非線性處理,以改善評(píng)價(jià)指標(biāo),并結(jié)合跳躍連接提取局部和全局的圖像特征。基于此模型,Jiang等[36]將16個(gè)相同的殘差塊采用跳躍連接迭代的學(xué)習(xí)上一層的輸出,并應(yīng)用并行1×1卷積運(yùn)算來降低每個(gè)隱藏層輸出的維數(shù),使網(wǎng)絡(luò)訓(xùn)練更加流暢。Jiang等[37]將SRGAN(super-resolution generative adversarial networks)殘差塊的普通卷積替換為空洞卷積,并去除了BN(batch normalization)層。在SR 任務(wù)中,BN 層會(huì)產(chǎn)生偽影,限制泛化能力。這樣既能充分利用圖像信息,又能最大限度地保留超分辨率后圖像的語義信息。
密集連接使特征和梯度的傳遞更加有效,能夠有效縮減模型大小,減輕梯度消失現(xiàn)象。針對(duì)嵌套殘差的密集連接塊改進(jìn)的模型有:WCRDGCNN[30](wavelet based novel cross connected residual-in-dense grouped convolutional neural network)中使用交叉連接密集分組卷積塊作為基本模塊,該模塊包含14個(gè)交叉連接的分組卷積,上下分支層之間交叉連接,有助于學(xué)習(xí)不同的特征集,避免更深層次網(wǎng)絡(luò)中的特征冗余。Zhang 等[38]提出新的輕量化多重密集殘差塊結(jié)構(gòu),與RDN[39](residual dense network)不同的是,該結(jié)構(gòu)在殘差塊外采用密集連接,盡可能地保持了重建圖像的全局信息,該結(jié)構(gòu)不僅實(shí)現(xiàn)了CT 影像特征復(fù)用,保證了最大程度的信息傳輸,而且減少了僅使用DenseNet或ResNet的冗余。
注意力機(jī)制[40]通過不斷調(diào)整權(quán)重,幫助網(wǎng)絡(luò)關(guān)注局部信息,權(quán)重越高表示對(duì)重要信息越關(guān)注。多尺度學(xué)習(xí)是在不同尺度上使用相同的特征提取過程,來處理單一網(wǎng)絡(luò)下的多尺度SR問題。信息蒸餾結(jié)構(gòu)采用通道分裂操作逐步提取特征,將特征分為兩部分,一部分被保留,另一部分進(jìn)行進(jìn)一步的蒸餾操作,然后將兩個(gè)特征融合以獲得更多的信息,使模型可以在深度網(wǎng)絡(luò)中學(xué)習(xí)圖像特征,并提取特征信息。Zhao 等[41]提出的IDMAN(information distillation and multi-scale attention network)模型為了充分利用圖像的特征信息,將信息蒸餾與深度殘差網(wǎng)絡(luò)相結(jié)合,并且該模型使用如圖6所示的多分支多尺度注意塊(multi-scale attention block,MAB),與傳統(tǒng)的通道注意模塊圖6(a)相比,MAB 的多分支結(jié)構(gòu)圖6(b)具有3×3和5×5分支,由于兩個(gè)分支的特征融合,可以更好地捕獲信息。通過這些改進(jìn),該模型有效地解決了特征利用不足、注意源單一的問題,提高了學(xué)習(xí)能力和表達(dá)能力,能夠重構(gòu)出更高質(zhì)量的醫(yī)學(xué)CT 圖像。Gu 等[31]基于RCAN[42](residual channel attention network)提出改進(jìn)的殘差全圖注意網(wǎng)絡(luò)(residual whole map attention network,RWMAN),用于從不同的通道提取有用信息,同時(shí)更加關(guān)注有意義的區(qū)域。
圖6 傳統(tǒng)通道注意模塊和多尺度注意塊Fig.6 Traditional channel attention module and multi-scale attention block
Haris 等[43]提出的上投影塊和下投影塊是通過迭代糾錯(cuò)反饋機(jī)制減少重構(gòu)誤差,殘差結(jié)構(gòu)與上投影下投影塊結(jié)合的算法有:Qiu等[44]提出的MWSR(multi-window back-projection residual networks)使用多窗口上投影下投影殘差模塊提取圖像特征,之后將幾個(gè)具有全局特征的相同連續(xù)殘差模塊進(jìn)行合并,輸入到重構(gòu)模塊中。MWUD結(jié)合三個(gè)窗口同時(shí)提取同一特征圖的關(guān)鍵信息,可以有效利用淺層網(wǎng)絡(luò)中各層的特征圖,提高高頻信息檢測(cè)的概率。Song 等[19]設(shè)計(jì)了殘差注意模塊(residual attention,RA)和上投影下投影殘差模塊(up-projection and down-projection residual,UD),如圖7的K所示。UD采用三次上采樣和三次殘差連接下采樣的方法,以最小的重構(gòu)誤差提取淺層特征。RA 模塊由殘差注意塊組成,可以從LR 圖像中提取更多的深層高頻信息。在對(duì)LR 圖像特征進(jìn)行多次上采樣的過程中,通過反投影和深度特征提取提高了SR重建的性能。U-Net[45]架構(gòu)通過跳躍連接將高、低層次特征映射拼接,從而保留不同分辨率下的像素細(xì)節(jié)信息,使用U-Net架構(gòu)的算法有:EDLF-CGAN[33]模型和Kudo等[32]提出的算法。漸進(jìn)式U-Net殘差網(wǎng)絡(luò)PURN[46](progressive U-Net residual network)設(shè)計(jì)了雙U-Net 模塊,該模塊執(zhí)行三次上采樣和三次下采樣,可以有效提取LR圖像特征,更好地學(xué)習(xí)HR和LR圖像之間的依賴關(guān)系。同時(shí)該模型在雙U-Net模塊中引入局部跳躍連接結(jié)構(gòu),在重構(gòu)層中引入全局長跳躍連接結(jié)構(gòu),進(jìn)一步豐富了重構(gòu)HR圖像信息的流程。
圖7 特征提取模塊結(jié)構(gòu)對(duì)比Fig.7 Comparison of feature extraction module structures
以上是對(duì)特征提取基本塊的分類總結(jié),主要是為了解決特征利用不足問題,有效提取淺層深層的特征,充分利用圖像信息。殘差結(jié)構(gòu)在SR特征提取中有普遍應(yīng)用,使用最新的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)策略與殘差結(jié)構(gòu)相結(jié)合提取特征是被廣泛采取的改進(jìn)方法,如圖7所示為按照五個(gè)小類對(duì)特征提取模塊結(jié)構(gòu)進(jìn)行分類對(duì)比。
3.2.2 針對(duì)特定任務(wù)加入不同結(jié)構(gòu)
本小節(jié)將介紹特征提取模塊中針對(duì)特定任務(wù)做出的創(chuàng)新與改進(jìn),主要分析特征增強(qiáng)和輕量化網(wǎng)絡(luò)這兩個(gè)方面的改進(jìn)。
在醫(yī)學(xué)影像中,小的解剖標(biāo)志和病理細(xì)節(jié)對(duì)準(zhǔn)確的疾病分析至關(guān)重要,一般可以通過加入SE(squeeze-andexcitation)模塊[40]或者注意力模塊進(jìn)行激勵(lì),來增強(qiáng)目標(biāo)特征、抑制無關(guān)特征。
SE 塊是通過顯式的模擬通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。Bing等[47]改進(jìn)了原始的SE 塊[40],如圖8 所示。改進(jìn)SE 塊激活函數(shù)中的殘差同時(shí)利用三層網(wǎng)絡(luò)的輸入輸出,只需對(duì)權(quán)重進(jìn)行微調(diào),緩解訓(xùn)練過程中的困難,并且有效改善了尺度小于1的多次乘法導(dǎo)致的特征弱化問題。
圖8 改進(jìn)SE塊Fig.8 Improved SE block
IDMAN[41]模型使用多分支多尺度注意塊(MAB),MAB采用3×3和5×5兩個(gè)分支的特征融合,可以更好地捕獲信息,有效地解決注意源單一的問題。RWMAN[31]基于注意力機(jī)制,使用了1×1卷積和Sigmoid激活函數(shù),有助于模型自適應(yīng)地放大或降低每個(gè)像素的效果。Yu等[48]使用的TAB(through-plane attention block)利用體積數(shù)據(jù)的空間位置關(guān)系,達(dá)到了較好的性能。Kudo等[32]在鑒別器中增加了自注意力層,加速了對(duì)抗性訓(xùn)練的收斂。
輕量化網(wǎng)絡(luò)(lightweight network,LN)[49]指的是通過設(shè)計(jì)緊湊的結(jié)構(gòu)或者使用輕量化策略來減少網(wǎng)絡(luò)參數(shù)量,提升網(wǎng)絡(luò)速度,并保持或提升原有網(wǎng)絡(luò)性能的一種高效網(wǎng)絡(luò),是對(duì)性能和效率的一種權(quán)衡。
VolumeNet[50]使用輕量級(jí)Queue 模塊,主要由可分離的二維跨通道卷積構(gòu)成。分解的3D卷積最初通過1×1×1 卷積將通道從S減少到R,然后來自三個(gè)軸的1D卷積對(duì)所有通道的特征進(jìn)行卷積,最后一層使用1×1卷積將通道從R增加到T。Queue 模塊通過減少參數(shù)數(shù)量來加快處理速度,并通過深化網(wǎng)絡(luò)提高精度。
Zhang 等[38]使用的輕量化多重密集殘差塊結(jié)構(gòu),減少殘差單元數(shù)量,建立密集連接,最大限度保證信息傳輸。Jiang等[37]和Qiu等[44]使用了空洞卷積,可以在沒有池化層(池化層會(huì)造成信息丟失)和等量參數(shù)的情況下提供更大的接受域,使每次卷積輸出包含更大范圍的信息,充分利用圖像信息,最大限度地保留超分辨率后的圖像語義信息。VolumeNet[50]和WCRDGCNN[30]都使用了群卷積來減少訓(xùn)練參數(shù),解決內(nèi)存不足的問題。
特征圖放大重建模塊負(fù)責(zé)對(duì)特征圖進(jìn)行上采樣并還原為超分辨率圖像,由上采樣和特征圖重建組成。
3.3.1 上采樣方式
不同上采樣方式對(duì)網(wǎng)絡(luò)模型性能有很大影響,上采樣方式可以分為基于線性插值的上采樣和基于深度學(xué)習(xí)的上采樣。下述為醫(yī)學(xué)CT超分辨率重建領(lǐng)域常用的上采樣方法。表2為這些上采樣方法的優(yōu)缺點(diǎn)對(duì)比。
表2 常用上采樣方法對(duì)比Table 2 Comparison of commonly used upsampling methods
線性插值方法在超分領(lǐng)域應(yīng)用廣泛,其中最常用的就是雙三次插值方法[14]。雙三次插值是利用待采樣點(diǎn)周圍16個(gè)點(diǎn)的灰度值作三次插值,不僅考慮到4個(gè)直接相鄰點(diǎn)的灰度影響,而且考慮到各鄰點(diǎn)間灰度值變化率的影響。與其他插值方法相比,雙三次插值可以得到更平滑的邊緣,效果更佳,但也導(dǎo)致了運(yùn)算量急劇增加?;诓逯档纳喜蓸又荒芡ㄟ^圖像本身內(nèi)容提高圖像的分辨率,并沒有帶來更多信息,并且有噪聲放大、計(jì)算復(fù)雜度增加以及結(jié)果模糊等副作用。
端到端學(xué)習(xí)層被稱為亞像素層[51],通過對(duì)卷積產(chǎn)生的多個(gè)通道進(jìn)行重新洗牌[51]操作實(shí)現(xiàn)上采樣,如圖9所示。該方法具有廣泛的感受野,提供了更多的上下文信息以幫助生成更多逼真的細(xì)節(jié)。然而,由于感受野的分布是不均勻的,并且塊狀區(qū)域共享相同的感受野,因此可能會(huì)導(dǎo)致不同塊的邊界附近出現(xiàn)一些偽影,并且獨(dú)立預(yù)測(cè)塊狀區(qū)域中的相鄰像素可能會(huì)導(dǎo)致輸出不平滑。
圖9 亞像素層Fig.9 Sub-pixel layer
反卷積也叫轉(zhuǎn)置卷積(transpose convolution)[52],通過插入零值,進(jìn)行卷積來提高圖像分辨率。如圖10 所示為比例因子為2,卷積核為3×3 的反卷積層。由于反卷積在保持與卷積兼容的連接模式的同時(shí)以端到端的方式放大了圖像大小,因此它被廣泛用作SR 模型的上采樣層。然而,該層很容易在每個(gè)軸上引起“不均勻重疊”,并且兩個(gè)軸上的相乘結(jié)果進(jìn)一步創(chuàng)建了大小變化的棋盤狀圖案,損害了SR性能。
圖10 反卷積層Fig.10 Deconvolution layer
元上采樣[53]以任意上采樣因子放大LR 圖像,具體來說,對(duì)于HR圖像上的每個(gè)目標(biāo)位置,此模塊將其投影到LR 特征圖上的一個(gè)小塊,根據(jù)密集層的投影偏移和縮放因子預(yù)測(cè)卷積權(quán)重并執(zhí)行卷積。該方法能以任意因子連續(xù)放大單個(gè)模型,性能可以超過使用固定因子的模型,并且預(yù)測(cè)權(quán)重的執(zhí)行時(shí)間比特征提取所需總時(shí)間少100 倍[53]。但是,該方法基于與圖像內(nèi)容無關(guān)的多個(gè)值來預(yù)測(cè)每個(gè)目標(biāo)像素的卷積權(quán)重,因此當(dāng)放大倍數(shù)較大時(shí),預(yù)測(cè)結(jié)果可能不穩(wěn)定且效率較低。MIASSR[54](medical image arbitrary-scale super-resolution)設(shè)計(jì)的meta-upscale 模塊由兩個(gè)全連接層和一個(gè)激活層組成。它根據(jù)輸入的比例因子預(yù)測(cè)一組權(quán)重,利用矩陣乘法實(shí)現(xiàn)特征圖放大。然后由放大后的特征圖生成超分辨率圖像,實(shí)現(xiàn)了醫(yī)學(xué)圖像的任意尺度超分辨率。
EDLF-CGAN[33]模型采用快速上卷積實(shí)現(xiàn)上采樣操作,在使用5×5 卷積核的卷積操作中,有很大一部分操作是在0 的數(shù)據(jù)上操作的,很浪費(fèi)時(shí)間,因此把原來的5×5卷積核分為四個(gè)不同的小尺寸卷積核,在得到相同效果的同時(shí)用時(shí)很少,大大降低了網(wǎng)絡(luò)的棋盤效應(yīng)。
3.3.2 重建結(jié)構(gòu)改進(jìn)
GAN-CIRCLE[35]模型的重建部分如圖11所示,該模塊使用網(wǎng)中網(wǎng)結(jié)構(gòu),兩個(gè)重建分支A、B 合并為C,提高網(wǎng)絡(luò)非線性能力,使其可以學(xué)到更復(fù)雜的映射關(guān)系。de Farias 等[55]提出的CT SR 病灶聚焦框架也使用了網(wǎng)中網(wǎng)結(jié)構(gòu)來增加非線性并降低濾波器空間維數(shù),以實(shí)現(xiàn)更快的計(jì)算。
圖11 GAN-CIRCLE特征重建結(jié)構(gòu)Fig.11 GAN-CIRCLE feature reconstruction structure
損失函數(shù)是網(wǎng)絡(luò)模型的重要組成部分。相較于之前只使用一種損失函數(shù)的方法,多種損失函數(shù)的組合已表現(xiàn)出明顯優(yōu)勢(shì),能給圖像帶來更好的感知效果[56]。但組合型損失函數(shù)目前并無最優(yōu)解,仍需繼續(xù)探索。本節(jié)介紹醫(yī)學(xué)CT超分辨率重建模型中設(shè)計(jì)的組合型損失函數(shù)及其優(yōu)缺點(diǎn)。
Georgescu 等[29]在模型中除了計(jì)算最后一個(gè)卷積層之后的損失外,還在上采樣層之后計(jì)算了與真實(shí)高分辨率圖像的損失,中間損失迫使該網(wǎng)絡(luò)產(chǎn)生更好的輸出,更接近基本事實(shí)。
Jiang 等[37]在模型中使用平均結(jié)構(gòu)相似度(mean structural similarity,MSSIM)損失代替均方誤差(MSE)損失,得到新的感知損失函數(shù),在視覺感知方面獲得了更好的效果。MSSIM損失函數(shù)如下(N為訓(xùn)練批次大?。?/p>
Bing等[47]將L1損失、對(duì)抗損失(LRG)[57]、感知損失(LVGG)[58]和均方誤差損失(LMSE)[8]組合成為一種新的融合損失,可以進(jìn)一步加強(qiáng)對(duì)低層次特征的約束。新的融合損失如下(w1,wRG,wMSE為超參數(shù),控制每個(gè)個(gè)體損失的權(quán)重):
MedSRGAN[31]訓(xùn)練中采用了內(nèi)容損失、對(duì)抗性損失和對(duì)抗性特征損失的加權(quán)總和,形成多任務(wù)損失函數(shù)。MIASSR[54]整個(gè)模型采用端到端的綜合損失函數(shù)進(jìn)行訓(xùn)練,包括L1 損失、對(duì)抗性損失和基于VGG 的感知損失。Jiang 等[36]將對(duì)抗損失、循環(huán)一致性損失、一致性損失和聯(lián)合稀疏變換損失結(jié)合起來形成新的損失函數(shù),充分利用了沒有標(biāo)準(zhǔn)HR 圖像的大規(guī)模LR 訓(xùn)練樣本,并以半監(jiān)督的方式訓(xùn)練模型。
EDLF-CGAN[33]模型采用的邊緣檢測(cè)損失函數(shù)(EDLF)可以抑制不合理紋理信息的產(chǎn)生,定義如下:
其中,W和H分別代表LR圖像的寬度和高度,r是下采樣因子,表示滿足條件y的原始HR圖像為HR圖像中(x,y)位置的像素值,表示滿足條件y的生成圖像,C為Canny邊緣檢測(cè)函數(shù)[59]。
3.5.1 GAN模型鑒別器改進(jìn)
對(duì)抗神經(jīng)網(wǎng)絡(luò)(generative adversarial nets,GAN)[60]包含生成器和鑒別器,其優(yōu)化過程是一個(gè)“二元極小極大博弈”問題。大多基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的SR 網(wǎng)絡(luò)都更關(guān)注圖像質(zhì)量指標(biāo)而不是圖像視覺感知質(zhì)量,而SRGAN 在圖像感知質(zhì)量方面取得了巨大的提高。在超分辨率方面,采用對(duì)抗性學(xué)習(xí)只需將SR 模型視為生成器,并定義一個(gè)額外的鑒別器來判斷輸入圖像是否為生成圖像。GAN模型的生成器結(jié)構(gòu)改進(jìn)在上述章節(jié)中已經(jīng)介紹,下面將介紹GAN模型鑒別器的改進(jìn)。
MedSRGAN[31]模型使用圖像對(duì)(LR,HR/SR)作為鑒別器的輸入,如圖12所示,鑒別器通過將從LR和HR路徑中提取的特征映射進(jìn)行拼接,學(xué)習(xí)HR/SR和LR圖像的成對(duì)信息,并輸出(LR,HR)對(duì)或(LR,SR)對(duì)作為真實(shí)數(shù)據(jù)的概率。
圖12 MedSRGAN鑒別器Fig.12 MedSRGAN discriminator
Kudo 等[32]在鑒別器網(wǎng)絡(luò)的第四層中增加了自注意力層,加速了對(duì)抗性訓(xùn)練的收斂。De Farias等[55]提出的CT SR 病灶聚焦框架將空間金字塔池集成到GANCIRCLE[35]的鑒別器中,以處理不同的輸入CT 影像大小,用于病灶的斑塊聚焦訓(xùn)練,提高了肺部CT數(shù)據(jù)集中最重要放射學(xué)特征的魯棒性。
3.5.2 Transformer結(jié)構(gòu)
Transformer是一個(gè)完全基于注意的序列轉(zhuǎn)導(dǎo)模型,用多頭自注意取代了編碼器-解碼器架構(gòu)中最常用的循環(huán)層?;谏疃葘W(xué)習(xí)的超分辨率是提高分辨率可行的方法,其大多以在視覺任務(wù)方面表現(xiàn)出色的CNN 為核心,通過卷積操作提取局部特征,具有平移不變性,可以使用池化操作減少特征維度,防止過擬合。但是這類方法會(huì)受到卷積算子固有屬性的限制,使用相同的卷積核來恢復(fù)不同的區(qū)域可能忽略內(nèi)容相關(guān)性,卷積算子的局部處理原理使得算法難以有效地模擬遠(yuǎn)程依賴。與基于CNN 的算法相比,Transformer 可以對(duì)輸入域的遠(yuǎn)程依賴進(jìn)行建模,并對(duì)特征進(jìn)行動(dòng)態(tài)權(quán)值聚合,從而獲得特定于輸入的特征表示增強(qiáng)[61]。
醫(yī)學(xué)成像任務(wù)的數(shù)據(jù)集具有標(biāo)注樣本少、圖像非自然的特點(diǎn)。在數(shù)據(jù)集稀缺的情況下,CNN和Transformer的性能都較差,標(biāo)準(zhǔn)的解決方案是使用遷移學(xué)習(xí),模型在較大數(shù)據(jù)集(如ImageNet)上預(yù)訓(xùn)練,然后在特定的數(shù)據(jù)集上進(jìn)行微調(diào),這類模型通常在最終性能和訓(xùn)練時(shí)間方面都優(yōu)于那些在醫(yī)學(xué)數(shù)據(jù)集上從頭開始訓(xùn)練的CNN。在ImageNet 上預(yù)訓(xùn)練的Transformer,在數(shù)據(jù)有限的情況下表現(xiàn)出與CNN 相當(dāng)?shù)男阅?,?dāng)自監(jiān)督的預(yù)訓(xùn)練之后是監(jiān)督的微調(diào)時(shí),Transformer 的表現(xiàn)比CNN 好[62]。這些發(fā)現(xiàn)表明,Transformer 在醫(yī)學(xué)圖像SR 領(lǐng)域有很好的前景。
Yu等[48]提出的基于自注意機(jī)制的Transformer體積超分辨率網(wǎng)絡(luò)(Transformer volumetric super-resolution network,TVSRN)使用非對(duì)稱編碼器-解碼器架構(gòu),為了更好地模擬可見區(qū)域和遮蔽區(qū)域之間的關(guān)系,解碼器使用了比編碼器更多的參數(shù)。并使用計(jì)算量較少的STL(swin Transformer layer)層[63]代替標(biāo)準(zhǔn)的Transformer層[64]作為基本組件,更適合于高分辨率圖像,同時(shí)使用TAB 利用體積數(shù)據(jù)的空間位置關(guān)系,達(dá)到了較好的性能。TVSRN模型結(jié)構(gòu)如圖13所示。
圖13 TVSRN網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 TVSRN network structure
相關(guān)網(wǎng)絡(luò)從維度、亮點(diǎn)、數(shù)據(jù)集和評(píng)價(jià)參數(shù)這幾方面總結(jié)見表3。
表3 醫(yī)學(xué)CT影像的超分辨率面向結(jié)構(gòu)優(yōu)化總結(jié)Table 3 Summary of medical CT images with super resolution oriented structure optimization
臨床實(shí)踐中對(duì)醫(yī)學(xué)圖像質(zhì)量有很高的要求,高質(zhì)量高分辨率的圖像能提高診斷決策正確性?;谏疃葘W(xué)習(xí)的超分辨率重建算法在醫(yī)學(xué)領(lǐng)域有巨大的應(yīng)用價(jià)值,將特定領(lǐng)域的醫(yī)學(xué)圖像先驗(yàn)信息與深度網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)以及訓(xùn)練方式結(jié)合是有潛力的研究方向。本章介紹超分網(wǎng)絡(luò)在特定醫(yī)學(xué)CT領(lǐng)域的應(yīng)用。
新型冠狀病毒肺炎(COVID-19)[70]在全球肆虐,肺部遭受病毒侵入后,常呈磨玻璃影,無明顯白色腫物改變[71]。CT 掃描是檢測(cè)COVID-19 肺炎和肺炎嚴(yán)重程度最有力、最有效的方法。Tan 等[72]提出基于SRGAN 和VGG16 的新型冠狀病毒病輔助診斷算法,有效提高了新冠病毒圖像分類精度,但模型存在較大參數(shù)量。MWSR[44]利用多窗口獲得更豐富的高低頻信息,與垂直深化網(wǎng)絡(luò)結(jié)構(gòu)相比,這種水平擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)可以更早地獲得完整的COVID-19 CT 圖像目標(biāo)特征,但是,LR 特征空間與HR特征空間之間的特征映射關(guān)系有待優(yōu)化。PBPN[19]使用殘差注意模塊和上投影下投影殘差模塊,能重構(gòu)出包含更多細(xì)節(jié)和邊緣的高質(zhì)量高分辨率COVIDCT 影像。PURN[46]使用雙U-Net 結(jié)構(gòu),從淺層加強(qiáng)特征監(jiān)督,促進(jìn)網(wǎng)絡(luò)收斂,有效提高圖像重建質(zhì)量,但是該模型的任意尺度算法存在局限性。Nneji等[73]使用輕量級(jí)的孿生膠囊網(wǎng)絡(luò),以VGG16預(yù)訓(xùn)練網(wǎng)絡(luò)為骨干,共享參數(shù)和權(quán)重,用于COVID-19篩查,收斂速度快,有很好的分類效果,可以創(chuàng)建更合理和真實(shí)的圖像,但是模型訓(xùn)練和測(cè)試數(shù)據(jù)集數(shù)量有限。Baccarelli 等[74]提出孿生殘差自編碼器的架構(gòu),利用特征向量和自編碼器恢復(fù)的SR 圖像進(jìn)行遷移學(xué)習(xí),通過有限的可訓(xùn)練參數(shù)獲得更高的精度。Zhou 等[75]提出一種基于快速超分辨率卷積和修正粒子群優(yōu)化的SR 算法,通過使用突變機(jī)制保證粒子的全局搜索能力和種群的多樣性。
重建的COVID-19 肺炎CT 圖像比原始CT 圖像更清晰,對(duì)比度更高,提高了AI 算法診斷COVID-19 的準(zhǔn)確性,有效輔助COVID-19 的診斷和定量評(píng)估。目前,基于卷積神經(jīng)網(wǎng)絡(luò)的SR 模型由于網(wǎng)絡(luò)結(jié)構(gòu)較深,普遍存在高頻信息丟失、模型規(guī)模過大等問題?;跐u進(jìn)上采樣的COVID-CT 超分辨率網(wǎng)絡(luò)會(huì)增加重建誤差。所以未來研究人員需要進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)出更好的SR重建網(wǎng)絡(luò)。
牙科診斷中常常會(huì)用到錐束CT來確定牙齒的三維結(jié)構(gòu),但是部分體積效應(yīng)、噪聲和光束硬化[76]等會(huì)影響成像質(zhì)量。Hatvani 等[77]分別利用亞像素網(wǎng)絡(luò)和U-Net網(wǎng)絡(luò)提高離體牙齒的二維錐束CT 切片的分辨率,相比基于重建的SR 方法可以更好地檢測(cè)醫(yī)學(xué)特征,但模型中使用的損失函數(shù)并不是度量感知指標(biāo)的最佳選擇。在牙科中心定期進(jìn)行根管治療,可以保存腐爛和感染的牙齒,其中根管長度、直徑和曲率都是規(guī)劃治療的重要因素。Hatvani等[78]提出基于張量分解的三維單圖像SR方法,使用較少的參數(shù),具有計(jì)算優(yōu)勢(shì),可以很容易地通過視覺檢查重建結(jié)果并進(jìn)行調(diào)整,但隨著迭代次數(shù)的增加,差異變得不那么結(jié)構(gòu)化,一些牙齒形狀在隨機(jī)噪聲中丟失。Mohammad-Rahimi 等[79]將多個(gè)基于深度學(xué)習(xí)的SR模型應(yīng)用于牙科全景X線片。SRCNN[8]可以提高放射圖像的視覺質(zhì)量,但應(yīng)用在根尖周X線片上對(duì)牙周骨丟失的檢測(cè)是無效的。SRGAN可以從下采樣圖像中恢復(fù)逼真的紋理,顯著提高圖像質(zhì)量的MOS值,但客觀指標(biāo)不一定得到改善。
應(yīng)用SR模型來提高低劑量和低分辨率的牙科錐束CT 掃描的質(zhì)量是有希望的。與基于重建的SR 方法相比,基于深度學(xué)習(xí)的SR 方法在質(zhì)量指標(biāo)和基于圖像分割的分析方面都顯示出更好的結(jié)果。但該類模型計(jì)算復(fù)雜性高且依賴于訓(xùn)練集,在未來的工作中需要進(jìn)一步提高網(wǎng)絡(luò)效率。
CT掃描是腫瘤診斷和治療的重要輔助手段。結(jié)直腸癌(colorectal cancer,CC)是臨床上最常見的惡性腫瘤之一,在全球惡性腫瘤發(fā)病率中排名第三,在惡性腫瘤死亡率中排名第四。Wang等[80]構(gòu)建單軸超分辨率的特征增強(qiáng)殘差密集網(wǎng)絡(luò)模型用于非腹膜化結(jié)直腸癌診斷,取得了較好的效果,但是在該方法中樣本量相對(duì)較少,沒有大量樣本的前瞻性實(shí)驗(yàn)。Liu 等[81]使用ResNet18 結(jié)合非局部注意機(jī)制實(shí)現(xiàn)膀胱腫瘤分級(jí)和分期雙重目標(biāo),有效提高了診斷準(zhǔn)確率。Xu 等[82]提出一種用于肺癌CT 圖像重建的稀疏編碼方法,該方法解決了自相似約束導(dǎo)致重建圖像邊緣過于平滑和模糊的問題。Zhu等[83]提出基于雙注意機(jī)制的單幅圖像SR,該模型通過混合的空間注意力和通道注意力保留了圖像的高頻細(xì)節(jié)信息,但模型推理速度慢,不能很好地應(yīng)用于工程任務(wù)。
深度學(xué)習(xí)醫(yī)學(xué)圖像超分辨率重建方法可以為腫瘤的早期診斷提供有力的技術(shù)支持。CNN的深度結(jié)構(gòu)大大提高了對(duì)原始圖像的處理能力,與傳統(tǒng)方法相比,CNN 可以自動(dòng)生成高度抽象的圖像特征,并且直接使用原始圖像獲得更準(zhǔn)確的結(jié)果,提高了診斷效率。殘差網(wǎng)絡(luò)可以解決深度網(wǎng)絡(luò)訓(xùn)練中的退化和梯度消失問題,因此通過建立相關(guān)學(xué)習(xí)模型,可以更高效、準(zhǔn)確地捕捉相關(guān)特征,為臨床醫(yī)生選擇治療方案和指定隨訪策略提供依據(jù)。在未來的研究中要更加關(guān)注網(wǎng)絡(luò)輕量化,在不降低性能的情況下最大限度地提高模型的運(yùn)行效率。
基于深度學(xué)習(xí)的醫(yī)學(xué)CT 影像SR 重建對(duì)于醫(yī)學(xué)圖像分類、分割、融合以及特征提取等領(lǐng)域有重要意義。本文首先介紹了SR 基本理論和評(píng)價(jià)指標(biāo);然后重點(diǎn)介紹了超分網(wǎng)絡(luò)模型在結(jié)構(gòu)和性能優(yōu)化方面的創(chuàng)新與進(jìn)展,并提煉出其優(yōu)化常用到的網(wǎng)絡(luò)結(jié)構(gòu);最后討論了醫(yī)學(xué)CT 影像SR 重建存在的困難和挑戰(zhàn),并對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了總結(jié)與展望。綜上,基于深度學(xué)習(xí)的SR 技術(shù)在醫(yī)學(xué)CT 領(lǐng)域仍有極大發(fā)展空間,仍有很多尚未完善的工作,需要更多的研究者開展富有創(chuàng)新性的工作。
本文重點(diǎn)是基于深度學(xué)習(xí)的醫(yī)學(xué)CT影像超分辨率重建,有許多其他領(lǐng)域的超分模型對(duì)醫(yī)學(xué)CT 影像重建有參考價(jià)值。例如CT-SRCNN[84]采用級(jí)聯(lián)訓(xùn)練,在逐步增加網(wǎng)絡(luò)層數(shù)的同時(shí)提高神經(jīng)網(wǎng)絡(luò)精度,并且提出級(jí)聯(lián)剪裁來減小網(wǎng)絡(luò)規(guī)模。SAINT[85](spatially aware interpolation networks)用于提升肝臟、結(jié)腸等部位影像的層間分辨率,對(duì)于同樣層間切片數(shù)少的LR CT影像有借鑒意義。LSRGAN[86](Laplacian pyramid generation adversarial networks)使用殘差密集塊結(jié)合拉普拉斯金字塔結(jié)構(gòu)實(shí)現(xiàn)了高縮放因子(16×)下心臟影像SR重建,抑制了重建后常出現(xiàn)的偽影。
基于深度學(xué)習(xí)的超分辨率重建技術(shù)在醫(yī)學(xué)圖像領(lǐng)域中具有廣泛的應(yīng)用前景,并已經(jīng)成為目前的研究熱點(diǎn),但其未來發(fā)展仍面臨著許多問題和挑戰(zhàn)。
(1)多因素降質(zhì)圖像的質(zhì)量增強(qiáng)問題。在計(jì)算機(jī)輔助診斷系統(tǒng)(computer aided diagnosis,CADs)中,醫(yī)學(xué)圖像的退化通常表現(xiàn)為噪聲和低分辨率模糊。雖然有DCNN[87](dynamic convolutional neural networks)和雙通道聯(lián)合學(xué)習(xí)框架模型[6]提出去噪和超分辨率重構(gòu),但這方面的研究仍然很少?,F(xiàn)有的醫(yī)學(xué)CT 影像SR 重建研究大多沒有關(guān)注去噪任務(wù)和超分辨率任務(wù)之間的相互作用,這類方法在解決實(shí)際問題時(shí),往往效果欠佳。因此,借助深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,開展多種降質(zhì)因素協(xié)同處理方法的研究,具有重要的理論意義和應(yīng)用價(jià)值。
(2)基于無監(jiān)督學(xué)習(xí)的超分辨率重建問題。從監(jiān)督學(xué)習(xí)到無監(jiān)督或半監(jiān)督學(xué)習(xí),成對(duì)數(shù)據(jù)的要求限制了監(jiān)督算法的發(fā)展,而無監(jiān)督或半監(jiān)督學(xué)習(xí)只需要少量的匹配數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),可節(jié)約獲取大量數(shù)據(jù)集的時(shí)間,直接使用現(xiàn)實(shí)圖像進(jìn)行訓(xùn)練和測(cè)試,不依靠外部數(shù)據(jù)集,更能提高模型泛化能力。因此,無監(jiān)督學(xué)習(xí)有極大發(fā)展空間。
(3)網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)策略。網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)在本質(zhì)上決定了模型的整體性能。例如“上采樣方法”中所討論的四種方法各有其優(yōu)缺點(diǎn),需要進(jìn)一步研究適用于SR模型的、適用于任何比例因子的上采樣方法。許多網(wǎng)絡(luò)應(yīng)用注意力機(jī)制、多尺度學(xué)習(xí)、網(wǎng)中網(wǎng)結(jié)構(gòu)和信息蒸餾等網(wǎng)絡(luò)結(jié)構(gòu)提高輸出圖像質(zhì)量。因此,創(chuàng)新網(wǎng)絡(luò)結(jié)構(gòu),研究開發(fā)計(jì)算成本低且能提供最佳性能的網(wǎng)絡(luò)架構(gòu)是另一個(gè)有前途的研究方向。