林正春,李思遠(yuǎn)*,姜允志*,王 靜,羅慶星,鄭根讓
(1.廣東技術(shù)師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,廣東 廣州 510665;2.中山職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,廣東 中山 528404)
隨著人工智能和卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,計(jì)算機(jī)視覺領(lǐng)域出現(xiàn)了許多優(yōu)秀的應(yīng)用,在各種視覺任務(wù)中擁有非常優(yōu)異的表現(xiàn).單圖像超分辨率(Single-image super-resolution)使用一張低分辨率圖像,通過計(jì)算恢復(fù)高頻信息從而得到清晰的高分辨率圖像.圖像超分辨率作為一種圖像恢復(fù)手段在各個(gè)領(lǐng)域如醫(yī)學(xué)圖像、輔助診斷、遙感監(jiān)控等領(lǐng)域有著大量?jī)?yōu)秀的實(shí)際成果[1].CT、MRI及X射線是常見的醫(yī)學(xué)影像,根據(jù)這些醫(yī)學(xué)影像醫(yī)生可以判斷患者的病情情況,擁有更高分辨率的醫(yī)學(xué)圖像擁有更多的細(xì)節(jié)信息,能使醫(yī)生更容易看到身體組織以及發(fā)現(xiàn)可能存在的病變癥狀,進(jìn)一步提高醫(yī)生判斷的準(zhǔn)確率.然而要想獲得高分辨率的醫(yī)學(xué)影像往往需要更加昂貴的醫(yī)學(xué)成像設(shè)備,而通過增加掃描次數(shù)或者掃描時(shí)間獲得高分辨率圖像往往會(huì)出現(xiàn)運(yùn)動(dòng)偽影,對(duì)患者的身體也會(huì)造成更大的傷害[2].利用超分辨率重建來獲得更高分辨率的醫(yī)學(xué)影像是一種成本更低、風(fēng)險(xiǎn)更小的方法.
自這個(gè)問題被提出以來出現(xiàn)了許多超分辨率重建方法,這些超分辨率重建方法都取得了優(yōu)秀的重建效果,而這些方法可以被分為三類[3]:基于插值、基于重建以及基于學(xué)習(xí)的方法.基于插值的方法主要通過某一位置周邊的像素估算此位置的像素值.插值的方法實(shí)現(xiàn)簡(jiǎn)單,然而重建的圖像高頻信息丟失嚴(yán)重,存在嚴(yán)重的偽影與模糊,效果并不是十分理想.基于重建的方法是以低分辨率圖像為約束條件,利用提取的先驗(yàn)信息來估計(jì)高分辨率圖像.這種方法的重建效果強(qiáng)于插值方法,然而由于先驗(yàn)信息不足,重建圖像往往也缺乏細(xì)節(jié).早期的基于學(xué)習(xí)的方法需要手動(dòng)選擇圖像特征和參數(shù),要想建立低分辨率圖像與高分辨率圖像之間的映射關(guān)系需要人工的調(diào)整[4],這需要大量的人力且這些映射數(shù)量往往無(wú)法滿足重建清晰高分辨率圖像的要求.
Dong等人首先將卷積神經(jīng)網(wǎng)絡(luò)用于單圖像超分辨率,提出了SRCNN[5].SRCNN由三個(gè)卷積層構(gòu)成,首先,它將低分辨率圖像通過卷積層來提取特征,同時(shí)建立映射關(guān)系,最后使用卷積層重建高分辨率圖像.相比傳統(tǒng)的超分辨率重建方法,基于卷積神經(jīng)網(wǎng)絡(luò)的SRCNN擁有明顯更清晰的重建結(jié)果.隨后,Dong等人將反卷積融入原始方法提出了FSRCNN[6],與SRCNN不同,F(xiàn)SRCNN的輸入使用原始尺寸的低分辨率圖像而不是插值后的圖像,最后使用反卷積放大重建高分辨率圖像,這種方法顯著地提升了圖像的重建速度.Shi等人提出了ESPCN[7],其引入了亞像素的概念,提出了一種不同于反卷積的放大方法.Kim提出了VDSR[8],提升了網(wǎng)絡(luò)的深度,引入了全局殘差,改善了梯度消失的問題.DBPN[9]將迭代反投影的方法引入圖像超分辨率中,使用上投影和下投影模塊反復(fù)交替來進(jìn)行自我糾正,取得了優(yōu)秀的重建效果.MSRN[10]是一種多尺度特征的圖像超分辨率重建方法,它使用不同尺寸的卷積核改變感受野從而提取多尺度特征,相比單一尺度的圖像超分辨率,它具有明顯的優(yōu)勢(shì).
以上基于深度學(xué)習(xí)的方法在自然景色圖像上取得了不錯(cuò)的效果,然而在應(yīng)用于CT圖像上的方法數(shù)量較少而且仍然存在許多的問題.醫(yī)學(xué)影像紋理復(fù)雜而且需要有更加準(zhǔn)確的還原度.大多數(shù)圖像超分辨率重建方法都使用了單一尺度特征進(jìn)行還原,而且輸入特征尺寸單一,如SRCNN、VDSR使用插值后的低分辨率圖像,F(xiàn)SRCNN、DBPN和MSRN使用了原始尺寸的低分辨率圖像.MSRN使用了不同的卷積核提取多尺度特征,然而大尺寸的卷積核參數(shù)巨大,導(dǎo)致運(yùn)行速度較慢,且只利用了單個(gè)尺寸的特征圖.以往的方法在最后重建時(shí)使用最后的提取的特征或者融合之前提取的所有特征,使用最后提取特征重建效果往往不佳,而使用級(jí)聯(lián)的方法將所有特征串聯(lián)并壓縮這種方法時(shí),往往包含大量低頻信息,無(wú)法有效使用高頻信息還原圖像細(xì)節(jié).
針對(duì)以上問題我們提出一種基于誤差反饋的多尺度特征網(wǎng)絡(luò)用于CT圖像的超分辨率重建,我們使用堆疊的小尺寸卷積核代替大尺寸的卷積核來提取多尺度特征,同時(shí)利用兩種尺寸的特征圖完成重建工作.設(shè)計(jì)了使用誤差反饋的融合方法來融合提取的多尺度特征,并使用全局反饋逐步細(xì)化特征提取高頻信息,最后設(shè)計(jì)了一個(gè)基于誤差反饋的高分辨率圖像重建模塊來重建CT圖像.
總的來說,本文的主要貢獻(xiàn)如下:
(1)改進(jìn)了多尺度特征的提取,同時(shí)利用了不同尺寸的特征圖,并且使用多個(gè)級(jí)聯(lián)的小尺寸卷積核的卷積層替換單個(gè)大尺寸卷積核卷積層來提取多尺度特征,有效提升了重建質(zhì)量,同時(shí)減少了計(jì)算時(shí)間.
(2)設(shè)計(jì)了一種基于誤差反饋的特征融合方法以及圖像重建方法,提升了特征融合效果,有效利用高頻信息重建CT圖像.
(3)構(gòu)造了一個(gè)擁有全局反饋連接的基于誤差反饋的多尺度特征網(wǎng)絡(luò),提出的網(wǎng)絡(luò)用于重建高質(zhì)量CT圖像,模型的規(guī)??梢匀我庹{(diào)節(jié).對(duì)比結(jié)果顯示,我們提出的方法有著良好的重建效果.
使用多尺度特征可以有效提升各種視覺任務(wù)的最終效果,有許多基于多尺度特征的經(jīng)典網(wǎng)絡(luò),如GoogLeNet[11]以及后續(xù)的Inceptionv2[12].此外,多尺度特征在目標(biāo)檢測(cè)、圖像分割有廣泛的應(yīng)用,并且取得了優(yōu)秀的效果,如YOLOv3[13]以 及U-Net3+[14].多尺度特征形式可以分為兩類,一種是使用尺寸不同的卷積核提取多尺度特征,由于卷積核尺寸不同,感受野不同,提取的特征尺度也不相同.另一種是使用上采樣或者下采樣生成尺寸不同的特征圖來實(shí)現(xiàn)多尺度特征的構(gòu)造.GoogLeNet使用了感受野不同的卷積核提取多尺度特征,而FPN特征金字塔[15]使用尺寸不同的多尺度特征圖.在圖像超分辨率中,MSRN使用了擁有不同尺寸卷積核的卷積層提取多尺度特征,而LapSRN[16]使用了一種階梯式的方法逐步放大圖像,使用了多個(gè)尺寸不同的特征圖重建SR圖像.
反饋是指系統(tǒng)輸出返回到輸入端來影響全局系統(tǒng)的方法,其在各個(gè)領(lǐng)域如心理學(xué)、控制理論以及物理學(xué)都是一種強(qiáng)有力的預(yù)測(cè)方法.在深度學(xué)習(xí)中可以使用循環(huán)結(jié)構(gòu)實(shí)現(xiàn)這種操作,如Feedback Networks[17]是一種利用了反饋的深度學(xué)習(xí)模型,它采用反饋的方式代替前饋的方式,實(shí)現(xiàn)了大類到小類的逐步判斷,證明了反饋學(xué)習(xí)在深度神經(jīng)網(wǎng)絡(luò)中的有效性.在圖像的超分辨率中,DRCN[18]以及DRRN[19]使用循環(huán)結(jié)構(gòu)實(shí)現(xiàn)參數(shù)共享與特征的反饋.SRFBN[20]將輸出的SR反饋到低分辨率圖像上,然后一起作為輸入重新提取特征.在DBPN中提出了一種誤差反饋,其無(wú)需循環(huán)結(jié)構(gòu)來實(shí)現(xiàn)反饋操作,使用前饋操作即可將反饋信息融合至原始特征.
除了直接將用于自然圖像的超分辨率重建用于CT圖像,過去已經(jīng)提出了許多針對(duì)醫(yī)學(xué)影像的超分辨率算法,如吳磊等[21]提出一種基于多尺度殘差網(wǎng)絡(luò)的CT圖像超分辨率重建算法,其使用尺寸不同的卷積核提取多尺度特征.劉可文等[22]提出的方法將通道注意力機(jī)制加入殘差網(wǎng)絡(luò)結(jié)構(gòu)中重建CT圖像.章偉帆等[23]提出的方法可以實(shí)現(xiàn)CT圖像放大任意比例.
受到Inceptionv2的啟發(fā),我們提出使用多個(gè)小尺寸卷積核疊加實(shí)現(xiàn)多尺度特征的提取.同時(shí),與以往的方法不同,我們同時(shí)利用兩個(gè)尺寸不同的低分辨率圖像產(chǎn)生多尺度特征.將DBPN的誤差反饋改進(jìn)用于融合多尺度特征,并且設(shè)計(jì)了一個(gè)逐步融合提取的特征來重建SR圖像的重建結(jié)構(gòu).
我們的模型由三個(gè)主要模塊:構(gòu)成初步特征提取模塊,多尺度特征提取模塊和圖像重建模塊.低分辨率圖像首先經(jīng)過初步的特征提取后傳入級(jí)聯(lián)的多尺度特征提取模塊,每個(gè)模塊提取出的多尺度特征使用密集殘差的方式傳遞給下一個(gè)多尺度特征提取模塊,在級(jí)聯(lián)多尺度特征提取模塊的最后,提取的特征反向傳入第一個(gè)多尺度特征提取模塊,實(shí)現(xiàn)多尺度特征的全局反饋連接.在循環(huán)數(shù)次后,將每次循環(huán)提取的特征傳入圖像重建模塊,由重建模塊重建高分辨率圖像.整個(gè)模型的結(jié)構(gòu)如圖1所示.
圖1 提出的網(wǎng)絡(luò)的整體結(jié)構(gòu)
首先,要提取低分辨率圖像的初步的單尺度特征.其中傳入的低分辨率圖像有兩種,一種是原始尺寸的低分辨率圖像,另一種是插值放大后的圖像,兩者分別通過兩層卷積層提取初步的特征,提取的特征將輸入后續(xù)的多尺度特征提取模塊進(jìn)一步提取多尺度特征.這個(gè)過程可以用以下公式進(jìn)行表示:
其中C3×3是卷積核為3×3的卷積層,FS0為輸出的原始尺寸的特征圖,F(xiàn)L0為輸出的大尺寸特征圖.
多尺度特征提取模塊的輸入有兩種,一個(gè)為初始特征提取模塊的輸出特征,或者是前一個(gè)多尺度特征提取模塊的輸出.多尺度特征提取模塊的輸出將與之前提取的多尺度特征以密集殘差的方式傳入下一個(gè)模塊.
多尺度特征提取模塊由多個(gè)并列的不同的卷積層組成,其中一路采用單個(gè)3×3卷積核的卷積層,另一路采用兩個(gè)3×3卷積核的卷積層串聯(lián)連接.與以往的一些方法不同,我們使用兩個(gè)疊加的3×3尺寸的卷積核代替單個(gè)5×5的卷積核,在Inceptionv2中證明疊加兩層3×3卷積核的卷積層與單個(gè)有5×5卷積核的卷積層在提取特征時(shí)具有相同的感受野,但參數(shù)數(shù)量更少.而且兩個(gè)卷積層之間的激活函數(shù)還進(jìn)一步增加了模型的非線性.
對(duì)傳入的特征圖首先進(jìn)行降維操作,使用瓶頸層將特征壓縮至較小的維度以減少計(jì)算量.瓶頸層使用一個(gè)卷積核為1×1的卷積層,整個(gè)過程可以有以下公式表示:
C1×1是卷積核為1×1的卷積層,[FS0,FS1,...,...,FSi?1]為特征的級(jí)聯(lián).
壓縮后的原始尺寸特征分別進(jìn)入單層3×3卷積層和連續(xù)兩層3×3的卷積層,由于兩路有著不同的感受野,所以提取的特征為多尺度特征.這個(gè)過程可以表示為:
兩個(gè)提取后的多尺度特征分別與之前多尺度特征模塊提取的特征進(jìn)行一次融合,使用誤差反饋融合特征.誤差反饋是指將兩個(gè)特征圖相減,然后通過卷積層提取誤差信息,并將其加到原始特征圖中完成融合.這個(gè)過程可以由以下公式表示:
此步驟類似局部殘差連接,但與殘差連接不同,不是簡(jiǎn)單的將特征相加而是使用誤差反饋進(jìn)行特征融合.
融合后的兩個(gè)多尺度特征使用誤差反饋進(jìn)行一次融合.與之前的融合類似,不同尺度的特征相減,使用卷積層提取誤差信息,將誤差信息返還原始特征.這個(gè)過程可以表示為:
進(jìn)行第二次特征提取,將提取的特征通過上采樣放大.
生成的大尺寸特征圖的尺寸與需要生成的SR圖像一致,將兩個(gè)特征與輸入多尺度特征提取模塊的FL融合,同樣采用誤差反饋的融合方式.其可表示為:
將兩個(gè)大尺寸的特征融合.通過誤差反饋的方式將其中一個(gè)的特征信息轉(zhuǎn)移到另一個(gè)特征中,用公式可以表示為:
其中FLi為輸出的大尺寸特征,用于最后SR圖像的生成.
直接處理大尺寸的特征需要大量的計(jì)算量,將其通過跨步卷積進(jìn)行下采樣為原始尺寸特征圖進(jìn)行多尺度特征的提取.這個(gè)過程可以表示為:
其中,此處的C33×是卷積核大小為3×3的跨步卷積,其步長(zhǎng)等于縮放比例,起到下采樣的作用.
每個(gè)多尺度特征提取模塊最后都會(huì)輸出兩個(gè)尺寸不同的特征圖.與之前模塊輸出的特征級(jí)聯(lián),以密集殘差的方式輸入下一個(gè)模塊.由于存在全局反饋,所以多尺度特征提取模塊的參數(shù)在每次反饋之中是共享的,這樣也有利于減小模型整體的參數(shù)數(shù)量.
每次循環(huán)提取的特征在最后的循環(huán)結(jié)束后輸入圖像重建模塊,大尺寸的特征圖通過誤差反饋逐步融合,每次循環(huán)的特征信息將反方向傳遞到之前的特征圖中,豐富所有特征圖中的高頻信息,從而獲得更好的重建效果.用公式表示如下:
融合后的每組特征單獨(dú)重建為高分辨率圖像,用公式表示為:
這里的卷積層將特征轉(zhuǎn)換為3通道RGB圖像.模型有幾次全局反饋,就會(huì)生成幾個(gè)初步的3通道圖像.
在利用大尺寸特征的同時(shí),我們也會(huì)使用小尺寸的特征圖,對(duì)于輸入重建模塊的原始小尺寸特征,將其通過瓶頸層壓縮后使用反卷積放大,放大后單獨(dú)重建為SR圖像,這個(gè)過程可以表示為:
其中[FS0,FS1,...,FSi,...,FSn]是每次循環(huán)輸出的原始尺寸特征圖的級(jí)聯(lián),Deconv是反卷積層,起到上采樣的作用,反卷積的跨步數(shù)等于放大的比例數(shù).
最后將以上的SR圖像求和取平均得到最后的SR圖像.
重建的SR圖像融合了原始圖像的低頻信息以及提取的高頻信息,擁有更加豐富細(xì)節(jié)紋理.
我們?cè)诎┌Y影像檔案(The Cancer Imaging Archive, TCIA)中收集CT圖像,該網(wǎng)站擁有大量公開的CT圖像.我們使用了其中的TCGACODA、TGGA-STAD和TCGA-ESCA的CT圖像數(shù)據(jù)集.其中,TCGA-CODA為結(jié)腸腺癌CT圖像,TGGA-STAD為胃腺癌CT圖像,TCGAESCA為食道癌的CT圖像.我們從這幾個(gè)數(shù)據(jù)集中選取600張CT圖像作為訓(xùn)練集,其中,以上每個(gè)數(shù)據(jù)集的CT圖像占整體訓(xùn)練數(shù)據(jù)集的三分之一.再?gòu)娜齻€(gè)數(shù)據(jù)集中分別選取20張圖像混合重排后生成3個(gè)測(cè)試集,每個(gè)測(cè)試集包含20張CT圖像.
圖2 多尺度特征提取模塊的結(jié)構(gòu)
所有的圖像尺寸為512×512,我們使用Bicubic對(duì)訓(xùn)練集做下采樣處理,下采樣后的CT圖像作為網(wǎng)絡(luò)的輸入.我們將訓(xùn)練集的CT圖像縮小了2倍、4倍以及8倍,以測(cè)試我們的網(wǎng)絡(luò)在放大2倍、4倍和8倍時(shí)的性能.在評(píng)價(jià)重建指標(biāo)時(shí),我們采用了峰值信噪比(Peak Signal to Noise Ratio, PSNR)以及結(jié)構(gòu)相似度(Structural Similarity, SSIM).兩者都在YCbCr空間上的Y通道計(jì)算的.
我們的實(shí)驗(yàn)平臺(tái)為Ubuntu20.04,GPU采用NVIDIA GeForce RTX3090,32G內(nèi)存,使用PyTorch框架,CPU為AMD Ryzen 9 3900x,所有的訓(xùn)練與測(cè)試都在以上環(huán)境下進(jìn)行.我們使用Adam[24]優(yōu)化器進(jìn)行優(yōu)化,其中它的參數(shù)β1設(shè)置為0.9,β2設(shè)置為0.999,ε設(shè)置為10-8.設(shè)定網(wǎng)絡(luò)迭代300次,開始的學(xué)習(xí)率設(shè)置為0.0001,第200次迭代學(xué)習(xí)率后減半為0.00005,訓(xùn)練時(shí)的batch size設(shè)置為2.模型中的卷積通道數(shù)設(shè)置為64,采用L1損失函數(shù),激活函數(shù)采用PRelu.L1損失函數(shù)可以表示為:
其中Ytrue為原始圖像,Ypredicted為模型預(yù)測(cè)圖像.
我們將我們方法與其他方法進(jìn)行比較,使用構(gòu)造的測(cè)試集分別測(cè)試各個(gè)模型.除了我們的方法外,還有Bicubic、SRCNN、FSRCNN、VDSR、DBPN.我們比較了放大2倍、4倍和8倍的情況下CT圖像的重建質(zhì)量,使用客觀評(píng)價(jià)標(biāo)準(zhǔn)PSNR和SSIM進(jìn)行比較.這里我們采用7層多尺度特征提取模塊和2次循環(huán)的結(jié)構(gòu),這兩個(gè)參數(shù)設(shè)置是可以自由選擇的.對(duì)比結(jié)果見表1,其中,最佳結(jié)果加粗表示,可以看到相比Bicubic這種傳統(tǒng)的方法,深度學(xué)習(xí)方法具有極大的優(yōu)勢(shì),而我們提出的方法與其他深度學(xué)習(xí)方法相比也具有明顯的優(yōu)勢(shì).除了客觀指標(biāo)外,我們還展示了使用我們提出的方法重建的CT圖像,這樣可以更加直觀的進(jìn)行對(duì)比,我們展示了放大4倍和8倍的結(jié)果.對(duì)比的結(jié)果見圖3.可以看到,與其他方法相比,我們提出的方法重建的CT圖像擁有更豐富的細(xì)節(jié)表現(xiàn).
圖3 各個(gè)超分辨率重建方法的主觀比較,其中第一行為放大4倍,第二行為放大8倍
表1 各個(gè)超分辨率算法在不同放大因子下的客觀比較
我們將我們提出的融合方法和SR圖像重建方法與傳統(tǒng)的級(jí)聯(lián)融合以及重建方法進(jìn)行了比較.我們?cè)O(shè)置了4個(gè)不同的網(wǎng)絡(luò):第一個(gè)結(jié)構(gòu)沒有誤差反饋融合,使用傳統(tǒng)的重建方法;第二種使用誤差反饋融合,并使用我們提出的重建方法;第三種不使用誤差反饋,使用我們提出的重建方法;最后一種使用誤差反饋融合以及我們提出的SR圖像重建方法.每個(gè)網(wǎng)絡(luò)都是2層多尺度特征提取模塊,循環(huán)2次,放大8倍,使用測(cè)試集A對(duì)比.對(duì)比結(jié)果見表2,由表2可以看出,沒有使用誤差反饋融合與重建的效果最差,使用其中之一會(huì)有更好的效果,全部使用擁有最佳效果,證明我們的融合與重建方法相比,傳統(tǒng)的級(jí)聯(lián)融合方法可以得到更好的重建效果.
表2 使用不同融合方式與重建方式的消融實(shí)驗(yàn)
本文提出了一種基于誤差反饋的多尺度特征網(wǎng)絡(luò)用于CT圖像的超分辨率重建,解決了基于多尺度特征卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)影像超分辨率重建中高頻信息丟失導(dǎo)致紋理不清晰、含有偽影模糊的問題.我們將誤差反饋用于多尺度特征融合與超分辨率圖像的重建,并同時(shí)利用兩種尺寸不同的低分辨率圖像.我們構(gòu)造了多尺度特征提取模塊,在多尺度特征提取模塊中使用并行的卷積層提取多尺度特征.并引入全局反饋進(jìn)一步細(xì)化提取的特征,最后使用我們?cè)O(shè)計(jì)的重建模塊生成高質(zhì)量的CT圖像.由實(shí)驗(yàn)結(jié)果可以看到,我們的方法在客觀指標(biāo)PSNR以及SSIM上取得了良好的效果.從主觀上來看,我們重建的CT圖像可以清晰地看到組織細(xì)節(jié),可以使醫(yī)生更加準(zhǔn)確地做出診斷.未來我們將嘗試減小模型的規(guī)模,降低其對(duì)計(jì)算機(jī)資源的要求,使其更加容易部署在真實(shí)的工作環(huán)境中.
廣東技術(shù)師范大學(xué)學(xué)報(bào)2022年3期