李 眾,王雅婧,馬巧梅*
(1.中北大學(xué) 軟件學(xué)院,太原 030051;2.山西省醫(yī)學(xué)影像人工智能工程技術(shù)研究中心(中北大學(xué)),太原 030051)
隨著醫(yī)療影像技術(shù)的廣泛應(yīng)用,醫(yī)學(xué)圖像已成為重要的醫(yī)學(xué)診斷輔助工具。通過超分辨率重建得到紋理細(xì)節(jié)豐富且清晰的醫(yī)學(xué)圖像既可以幫助醫(yī)生更清楚地判斷病例的早期病變,也可以避免通過增加掃描次數(shù)或掃描時(shí)間的方式取得高分辨率醫(yī)學(xué)圖像,造成成本高昂、輻射過量的問題[1]。
醫(yī)學(xué)圖像超分辨率(Super-Resolution,SR)重建指通過對(duì)低分辨率(Low Resolution,LR)醫(yī)學(xué)圖像的一系列操作,生成高分辨率(High-Resolution,HR)圖像的過程?;诓逯档某直媛手亟ㄋ惴ǎ?]簡(jiǎn)單有效、容易實(shí)現(xiàn),但重建后的圖像容易存在邊緣模糊的問題?;谥貥?gòu)的方法[3]需要先驗(yàn)信息對(duì)結(jié)果進(jìn)行約束,重建的紋理邊緣比插值法更清晰,但容易出現(xiàn)先驗(yàn)信息不足的問題?;谏疃葘W(xué)習(xí)的方法則利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)獲取LR 與HR 間的映射關(guān)系,是近幾年來學(xué)者研究的熱點(diǎn)。Dong 等[4]提出的基于CNN 的圖像超分辨率(Super-Resolution CNN,SRCNN)算法是在圖像超分領(lǐng)域運(yùn)用深度學(xué)習(xí)方法的首次嘗試,使用3 個(gè)卷積層便能有效提取圖像內(nèi)部的特征,并取得優(yōu)于其他算法的重建效果。Kim 等[5]提出VDSR(Very Deep convolutional networks Super-Resolution)超分模型,利用殘差加速網(wǎng)絡(luò)收斂,提高了超分算法性能,但增加了計(jì)算的復(fù)雜度,并且可能引發(fā)梯度消失問題。Lim 等[6]提出EDSR(Enhanced Deep residual network for Super-Resolution)模型,通過堆疊大量殘差單元增加網(wǎng)絡(luò)深度以提升重建效果,但堆疊的殘差網(wǎng)絡(luò)使總參數(shù)量激增,計(jì)算成本加大。Chollet[7]提出了深度可分離卷積,利用一個(gè)深度卷積和一個(gè)點(diǎn)卷積代替標(biāo)準(zhǔn)卷積,實(shí)現(xiàn)通道空間區(qū)域的獨(dú)立運(yùn)算,可有效減小參數(shù)量,提升計(jì)算效率。單一的感受野對(duì)網(wǎng)絡(luò)中的各層做簡(jiǎn)單的鏈?zhǔn)蕉询B,對(duì)特征提取不充分,無法保證神經(jīng)網(wǎng)絡(luò)的魯棒性與泛化性。Chen 等[8]提出了空洞卷積(Dilated Convolution,DC),對(duì)普通卷積注入空洞,擴(kuò)大感受野,捕獲圖像更多的信息且不給網(wǎng)絡(luò)增加額外的參數(shù),可以在重建中取得較好效果。胡雪影等[9]在殘差學(xué)習(xí)的基礎(chǔ)上引入空洞卷積,對(duì)卷積的感受野起到了提升作用,并且提升了網(wǎng)絡(luò)優(yōu)化速度,但對(duì)于奇數(shù)放大倍數(shù)來說表現(xiàn)不佳。注意力機(jī)制最早是用于解決自然語言處理問題,Woo 等[10]通過對(duì)通道信息和空間信息的融合,提出了CBAM(Convolutional Block Attention Module)增強(qiáng)特征中重要信息的表達(dá),但無法捕獲不同尺度的空間信息,容易造成特征全局信息的丟失。張曄等[11]提出基于多通道注意力機(jī)制的圖像超分辨率網(wǎng)絡(luò),引入多通道注意力模塊對(duì)圖像紋理進(jìn)行信息提取,提升了生成圖像的質(zhì)量,但未考慮到圖像不同尺度間的信息差異。
隨著超分辨率重建在醫(yī)學(xué)領(lǐng)域應(yīng)用的不斷深入,基于深度學(xué)習(xí)的醫(yī)學(xué)圖像超分辨率重建算法也取得了顯著進(jìn)展。Zhang 等[12]在2017 年提出了一種基于深度學(xué)習(xí)和遷移學(xué)習(xí)的單張醫(yī)學(xué)圖像超分辨率重建方法,通過對(duì)醫(yī)學(xué)圖像的不同特征進(jìn)行共享,提高模型泛化能力,相較于其他醫(yī)學(xué)圖像重建算法取得了更好的重建效果?;跉埐顚W(xué)習(xí)的思想,Wang 等[13]于2019 年提出了一種使用三維CNN 提高計(jì)算機(jī)斷層掃描(Computed Tomography,CT)圖像分辨率的算法,在保證圖像重建質(zhì)量的同時(shí)提高了計(jì)算效率。高媛等[14]提出了一種基于深度可分離卷積和寬殘差網(wǎng)絡(luò)的醫(yī)學(xué)圖像超分辨率重建方法,大幅降低了網(wǎng)絡(luò)參數(shù)量。Chen 等[15]提出了反饋?zhàn)赃m應(yīng)加權(quán)密集網(wǎng)絡(luò)(Feedback Adaptively Weighted Dense Network,F(xiàn)AWDN),利用反饋機(jī)制和自適應(yīng)加權(quán)策略,使網(wǎng)絡(luò)專注于信息量大的特征,從而提高醫(yī)學(xué)圖像質(zhì)量。2021 年Qiu 等[16]提出了一個(gè)多重改進(jìn)殘差網(wǎng)絡(luò)(Multiple Improved Residual Network,MIRN),結(jié)合幾個(gè)不同深度的殘差塊,使模型可以專注于醫(yī)學(xué)圖像的細(xì)節(jié)恢復(fù)并且有效避免了迭代后醫(yī)學(xué)圖像過度平滑的問題,但對(duì)于含豐富病理信息的醫(yī)學(xué)圖像重建效果較差。
相較于自然圖像,醫(yī)學(xué)圖像存在大量的細(xì)小紋理且往往伴隨許多無用信息,例如由病人器官律動(dòng)造成的陰影和噪聲斑點(diǎn)等,這要求重建算法的效果更加精確。并且醫(yī)學(xué)圖像相較于自然圖像更注重主觀視覺感受,無法單純從評(píng)價(jià)指標(biāo)的角度衡量圖像質(zhì)量,因此重建出符合醫(yī)生感官的醫(yī)學(xué)圖像更有助于模型的實(shí)際應(yīng)用。目前已有的研究大多采用單一尺度提取圖像特征,對(duì)于醫(yī)學(xué)圖像中的細(xì)節(jié)還原度欠佳,而且在醫(yī)學(xué)圖像中邊緣部分是醫(yī)療診斷中的重要信息。為此,本文提出一種基于空洞可分離卷積(Dilation Separable Convolution,DSC)與改進(jìn)的混合注意力機(jī)制的醫(yī)學(xué)圖像超分網(wǎng)絡(luò),突出了醫(yī)學(xué)圖像重建細(xì)節(jié)與邊緣部分,在提升重建效果的同時(shí)盡可能降低網(wǎng)絡(luò)參數(shù)量。主要工作如下:
1)在深層特征提取階段將可分離卷積與不同空洞率的空洞卷積相結(jié)合,利用空洞率不同的三個(gè)并行空洞卷積,提升不同尺度特征表達(dá),獲取不同感受野下的全局信息。
2)引入融合邊緣特征的通道注意力機(jī)制與使用大感受野的空間注意力機(jī)制,增強(qiáng)圖像在通道與空間維度的特征表達(dá)。
經(jīng)典的CNN 在信息傳遞時(shí)會(huì)存在信息丟失、梯度消失等問題。He 等[17]將殘差結(jié)構(gòu)引入深度神經(jīng)網(wǎng)絡(luò),通過增加跳躍連接將梯度由淺層傳遞到深層部分,使得梯度在反向傳播時(shí)得到保留,從而使網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定。普通網(wǎng)絡(luò)結(jié)構(gòu)與殘差網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比如圖1 所示。
圖1 普通網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比Fig.1 Comparison of ordinary network structure and residual network structure
相較于普通網(wǎng)絡(luò)結(jié)構(gòu),殘差網(wǎng)絡(luò)結(jié)構(gòu)在網(wǎng)絡(luò)中添加直接連接,在網(wǎng)絡(luò)的輸出部分直接添加輸入X的映射,學(xué)習(xí)輸入與輸出之的殘差。殘差模塊保留了輸入的原始信息,加深網(wǎng)絡(luò)層數(shù),減少原始特征的流失。本文算法的網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)基于深度殘差網(wǎng)絡(luò),引入跳躍連接將所提取的不同程度的圖像信息連接起來,隨著訓(xùn)練深度的增加而額外獲得增益。
深度可分離卷積是CNN 中的一種卷積操作,相較于傳統(tǒng)卷積操作在所有輸入和輸出通道之間進(jìn)行卷積計(jì)算導(dǎo)致參數(shù)量極大,深度可分離卷積能有效減小模型參數(shù)和計(jì)算量,提高網(wǎng)絡(luò)效率。深度可分離卷積的過程如圖2 所示,分為逐通道卷積和逐點(diǎn)卷積兩部分。
圖2 深度可分離卷積過程Fig.2 Depthwise separable convolution process
令輸入為n個(gè)通道特征圖,首先在各特征圖上分別進(jìn)行k×k卷積,并將得到的n個(gè)特征圖依次輸出,再與m個(gè)1×l 的卷積核進(jìn)行卷積,最終輸出m個(gè)特征圖。逐通道卷積用來提取空間的平面特征,只在通道內(nèi)部進(jìn)行卷積,而不對(duì)各通道間信息進(jìn)行融合;逐點(diǎn)卷積則負(fù)責(zé)通道間的特征融合。假設(shè)輸入為N×H×W的特征,卷積核大小為k×k,輸出特征為M×H×W。令標(biāo)準(zhǔn)卷積的參數(shù)量為P1:
深度可分離卷積的參數(shù)量為P2:
因此,深度可分離卷積的參數(shù)量和標(biāo)準(zhǔn)卷積的參數(shù)量之比如式(3)所示:
由式(3)可知,深度可分離卷積的使用能大幅降低模型參數(shù)量。因此,本文使用深度可分離卷積代替標(biāo)準(zhǔn)卷積操作,在不損害模型性能的前提下降低網(wǎng)絡(luò)參數(shù)量。
醫(yī)學(xué)圖像包括CT、磁共振(Magnetic Resonance,MR)、正電子發(fā)射斷層掃描(Positron Emission Tomography,PET)圖像等多種圖像,本文主要采用CT 圖像進(jìn)行實(shí)驗(yàn)分析。
CT 成像是一種結(jié)合X 射線成像與計(jì)算機(jī)技術(shù)的成像技術(shù),能獲得更詳細(xì)的斷層影像,多用于檢查頭顱、脊柱、胸腹部等部位。CT 采集的HU(HoUnfield)值為射線衰減值,根據(jù)圖像的HU 值可以區(qū)分肺、血液、骨骼和其他組織器官。
提高CT 圖像分辨率的主要方法是通過靜脈碘造影劑注射,使目標(biāo)部位造影劑濃度升高,從而獲取高分辨率影像。然而,注射造影劑可能會(huì)產(chǎn)生一些潛在的副作用,使用超分辨率重建算法來提高醫(yī)學(xué)圖像分辨率是一種更加無創(chuàng)的方法,可以在提高醫(yī)生診斷能力的同時(shí)減少患者因注射造影劑帶來的潛在風(fēng)險(xiǎn)。
本文構(gòu)建了一種基于空洞可分離卷積的醫(yī)學(xué)圖像超分辨率重建算法,整體結(jié)構(gòu)如圖3 所示。
圖3 本文算法的結(jié)構(gòu)Fig.3 Structure of the proposed algorithm
本文算法的網(wǎng)絡(luò)主要由淺層特征提取、深層特征提取、圖像重建三部分組成。淺層特征提取部分利用一層3×3 卷積對(duì)輸入的圖像進(jìn)行通道變換,提取淺層特征G1,具體過程如式(4)所示:
其中:ILR為輸入的低分辨率圖像;Conv3×3為核大小為3×3 的卷積運(yùn)算。
在深層特征提取階段,將淺層特征G1輸入到X個(gè)由空洞可分離卷積(DSC)模塊與混合注意力模塊(Mixed Attention Residual Module,MARM)串聯(lián)而成的多感受野注意力(Multi-Receptive Field Attention,MRFA)模塊,提取目標(biāo)在不同尺度下的中間與高頻特征,并對(duì)提取的特征圖進(jìn)行通道融合,生成深層特征Mg。過程如式(5)所示。
其中:Hg(*)為MRFA 模塊的特征提取過程;concat 為特征融合操作。
重建階段首先通過亞像素卷積對(duì)融合后的特征圖進(jìn)行上采樣,再使用3×3 卷積得到最終重建圖像,如式(6)所示:
其中:Hu(*)表示圖像重建操作;ISR為超分辨率重建圖像。
醫(yī)學(xué)圖像細(xì)節(jié)更豐富,紋理更復(fù)雜,往往包含了許多不同尺度的細(xì)節(jié)信息。常見的圖像超分辨率網(wǎng)絡(luò)往往只關(guān)注單一尺度的圖像信息而忽視了不同尺度間的信息融合。針對(duì)上述問題,本文提出了DSC 模塊,結(jié)合不同空洞率下的空洞卷積與深度可分離卷積,獲取圖像局部和全局特征信息,如圖4 所示,其中:D表示空洞率,C表示輸入通道數(shù)。
圖4 空洞可分離卷積模塊的結(jié)構(gòu)Fig.4 Structure of dilation separable convolution module
在空洞卷積中,鄰近像素是通過對(duì)相互獨(dú)立的子集卷積得到的,相互之間缺少相關(guān)性;因此使用單一空洞率的空洞卷積容易導(dǎo)致圖像局部信息的丟失,造成網(wǎng)格效應(yīng)。不同的空洞率有利于提取不同層次的圖像特征,為此本文采用多尺度空洞率融合的方法提升網(wǎng)絡(luò)的特征表達(dá)性能。
首先,將輸入的特征圖Gn分為三個(gè)分支Hl(l=1,2,3),為保證圖像特征信息的完整性,緩解因空洞卷積操作引起的網(wǎng)格效應(yīng),使用3×3 大小的深度可分離卷積對(duì)第一個(gè)分支的通道特征進(jìn)行提取,另外兩分支使用不同空洞率的空洞可分離卷積代替3×3 的可分離卷積,為網(wǎng)絡(luò)提供不同的感受野大小,幫助網(wǎng)絡(luò)更好地提取圖像特征。整個(gè)過程如式(7)所示:
最后,采用concat 和一個(gè)1×1 卷積對(duì)所提取特征進(jìn)行融合與降維,輸出結(jié)果如式(8)所示:
圖像經(jīng)過淺層特征提取后,各個(gè)部分往往表達(dá)不同特征,但這些特征都保持著相同權(quán)重,而沒有考慮不同特征之間重要程度的區(qū)別,不利于突出目標(biāo)的特征信息。神經(jīng)網(wǎng)絡(luò)中添加注意力機(jī)制可以使模型注重于感興趣的區(qū)域,聚焦重要特征的提取。在使用注意力機(jī)制進(jìn)行特征提取過程中需要關(guān)注以下2 個(gè)問題:1)圖像的每個(gè)通道都含有大量的低頻與高頻信息分量,高頻分量往往含有許多邊緣信息,因此在對(duì)高低頻信息進(jìn)行區(qū)分與整合過程中需要額外關(guān)注邊緣信息的重要程度。2)注意力機(jī)制中的濾波器往往只能接收局部信息。為了使模塊能夠關(guān)注到特征圖全局信息,需要提高模塊對(duì)于不同尺度特征的關(guān)注程度。
針對(duì)上述問題,本文改進(jìn)的混合注意力模塊的結(jié)構(gòu)如圖5 所示。
圖5 改進(jìn)的混合注意力模塊的結(jié)構(gòu)Fig.5 Structure of improved mixed attention residual module
針對(duì)本文1.1 節(jié)獲得的特征圖像,使用改進(jìn)的MARM,選擇性地獲取圖像低頻與高頻信息。MARM 利用跳躍連接降低網(wǎng)絡(luò)優(yōu)化難度,緩解梯度消失問題,將提出的邊緣通道注意力模塊(Edge Channel Attention Module,ECAM)與改進(jìn)的空間注意力模塊(Improved Spatial Attention Module,ISAM)串聯(lián),進(jìn)一步提取圖像特征。計(jì)算過程如式(9)所示:
2.2.1 ECAM
通道注意力可使網(wǎng)絡(luò)在訓(xùn)練中對(duì)含有不同豐富度信息的通道賦予不同的關(guān)注度,將資源盡可能地分配在信息更豐富的通道,提升網(wǎng)絡(luò)性能[18]。而對(duì)于醫(yī)學(xué)圖像,圖像邊緣有助于區(qū)分器官結(jié)構(gòu)邊界,是輔助醫(yī)生診斷的重要因素之一。因此,利用特征圖邊緣信息的豐富程度對(duì)各通道所占權(quán)重進(jìn)行分配,可使特征圖中的紋理細(xì)節(jié)在通道層面被充分利用。圖6 為邊緣通道注意力模塊。
圖6 邊緣通道注意力模塊的結(jié)構(gòu)Fig.6 Structure of edge channel attention module
使用Canny 邊緣檢測(cè)算法[19]對(duì)輸入特征圖進(jìn)行邊緣提取,與經(jīng)過卷積操作的特征圖Gc進(jìn)行乘法聚合操作,得到邊緣增強(qiáng)后的特征圖Gf。整個(gè)過程可如式(10)所示。
其中,Canny(*)表示Canny 邊緣檢測(cè)算子。Gf經(jīng)全局平均池化獲得整體特征信息,Sigmoid 函數(shù)分配各通道權(quán)重,從而使最終特征在通道上增強(qiáng)對(duì)邊緣信息的關(guān)注。通過跳躍連接將輸入的初始特征圖與網(wǎng)絡(luò)底層連接進(jìn)行殘差學(xué)習(xí),以降低網(wǎng)絡(luò)訓(xùn)練難度。
2.2.2 ISAM
空間注意力是指在計(jì)算卷積特征圖時(shí),根據(jù)輸入的特征圖的不同位置賦予不同權(quán)重的技術(shù)。相較于通道注意力,空間注意力側(cè)重于提取空間位置信息。通過對(duì)特征圖進(jìn)行空間維度的信息提取,加強(qiáng)網(wǎng)絡(luò)對(duì)圖像細(xì)節(jié)部分的學(xué)習(xí),從而對(duì)通道注意力模塊忽略的信息進(jìn)行補(bǔ)充。改進(jìn)的空間注意力模塊如圖7 所示。
圖7 改進(jìn)的空間注意力模塊的結(jié)構(gòu)Fig.7 Structure of improved spatial attention module
將前一階段的輸出作為本模塊的輸入,利用平均池化和最大池化得到兩個(gè)不同信息表示的特征圖,并對(duì)兩個(gè)特征圖進(jìn)行拼接??臻g注意力機(jī)制中,更大的感受野可以增強(qiáng)全局信息提取能力,因此,改進(jìn)的空間注意力機(jī)制設(shè)置3×3、7×7,步長(zhǎng)為1 的兩種不同的卷積核,對(duì)特征圖信息進(jìn)行捕捉,通過對(duì)應(yīng)位置相加的方式將生成的兩種特征圖S21、S22進(jìn)行融合,之后使用Sigmoid 激活函數(shù)生成最終的空間注意力特征圖。整個(gè)過程如式(11)所示:
其中:σ為Sigmoid 激活函數(shù);⊕表示加和操作;f3×3、f7×7表示卷積核為3×3、7×7 的卷積操作。
2.3.1 像素?fù)p失
大多數(shù)基于深度學(xué)習(xí)的超分算法使用像素?fù)p失作為模型的損失函數(shù),主要包括L1、L2 損失函數(shù)[20-21]。L1 損失衡量的是預(yù)測(cè)結(jié)果和真實(shí)結(jié)果差的絕對(duì)值之和,而L2 損失則衡量的是預(yù)測(cè)結(jié)果和真實(shí)結(jié)果的平方差之和。相較于L2 損失,L1 損失函數(shù)對(duì)離群值更加敏感,因此會(huì)使得重建圖像的紋理和細(xì)節(jié)更加清晰且L1 損失的梯度相對(duì)于L2 損失更加穩(wěn)定,這意味著L1 損失更容易收斂,訓(xùn)練過程更加穩(wěn)定,不容易陷入局部最優(yōu)解。L1 損失函數(shù)定義如式(12)所示:
其中:θ表示模型的參數(shù)集;n表示訓(xùn)練輸入的圖像塊數(shù)量;(f*)表示本章提出的超分辨率網(wǎng)絡(luò)表示第i個(gè)低分辨率醫(yī)學(xué)圖像與對(duì)應(yīng)的高分辨率圖像。
2.3.2 感知損失
感知損失在網(wǎng)絡(luò)中針對(duì)特征圖細(xì)節(jié)進(jìn)行計(jì)算,比像素?fù)p失更符合人體視覺感知[22]。感知損失函數(shù)分別將重建圖像y'與真實(shí)高分辨率圖像y輸入到預(yù)先訓(xùn)練好的圖像分類網(wǎng)絡(luò),提取一組盡可能相似的特征計(jì)算歐氏距離,借助VGG-16[23]結(jié)構(gòu),用全連接層前最后一個(gè)卷積層的輸出作為特征。定義φ(?)表示特征提取操作。損失函數(shù)Le如式(13)所示:
2.3.3 整體損失函數(shù)
為提高重建圖像的清晰度,降低模糊圖像對(duì)模型性能的影響,本文將L1 損失與感知損失結(jié)合,作為整個(gè)網(wǎng)絡(luò)的損失函數(shù),可表示為:
其中,α、1 -α為兩項(xiàng)損失的平衡權(quán)值。為比較α的取值對(duì)實(shí)驗(yàn)結(jié)果的影響,使用L2R2022 醫(yī)學(xué)圖像配準(zhǔn)比賽中的肺部圖像數(shù)據(jù)集L2R2022-CT(https://learn2reg.grand-challenge.org/learn2reg-2022/)進(jìn)行2 倍放大對(duì)比實(shí)驗(yàn)。
首先使用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作為客觀評(píng)價(jià)指標(biāo),對(duì)結(jié)果進(jìn)行評(píng)估,如圖8 所示。
圖8 不同α 下的PSNR對(duì)比Fig.8 Comparison of PSNR under different α
由圖8 可知,當(dāng)α=0 時(shí)整體損失函數(shù)完全由感知函數(shù)組成,即L=Le,此時(shí)重建圖像的PSNR 值為最低。當(dāng)α處于[0,0.9]內(nèi)評(píng)價(jià)指標(biāo)PSNR 值遞增,并在α=0.9 時(shí)達(dá)到最高值31.35 dB。而當(dāng)α=1 時(shí)L=L(θ),整體損失將由L1 損失得出,此時(shí)PSNR 相較于之前有所下降。
為進(jìn)一步探討α取值對(duì)圖像重建效果的影響,本文分別對(duì)α=0,0.9,1 時(shí)的重建圖像進(jìn)行直觀對(duì)比,結(jié)果如圖9所示。
圖9 不同權(quán)值重建圖像的直觀對(duì)比Fig.9 Visual comparison of reconstructed images with different weights
通過對(duì)比可以看出:α=0 時(shí)重建圖像最模糊;而α=0.9時(shí)重建圖像效果最佳,且相較于α=1 時(shí)的重建圖像擁有更加清晰的邊緣與完整的結(jié)構(gòu)。這符合圖8 所示的PSNR 變化趨勢(shì),綜合PSNR 與主觀圖像對(duì)比分析,當(dāng)α=0.9 時(shí)模型重建效果最佳,因此本文設(shè)置平衡權(quán)值α為0.9 進(jìn)行下述實(shí)驗(yàn)。
本文實(shí)驗(yàn)數(shù)據(jù)采用L2R2022 醫(yī)學(xué)圖像配準(zhǔn)比賽中的肺部CT 圖像數(shù)據(jù)集以及癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)(https://www.cancer.gov/ccg/research/genomesequencing/tcga)中的腹部CT 圖像。各取2 400、1 100 張細(xì)節(jié)紋理豐富、清晰度高的圖像按照4∶1 的比例劃分為訓(xùn)練集A、B 與測(cè)試集A、B。準(zhǔn)備階段使用下采樣方式由原始圖像生成低分辨率圖像,并將它一一配對(duì)用于后續(xù)實(shí)驗(yàn)。圖10展示了其中的兩組圖像對(duì),分別表示原始高分辨率(HR)圖像與低分辨率(LR)圖像。
圖10 原始數(shù)據(jù)樣本Fig.10 Raw data samples
實(shí)驗(yàn)環(huán)境如下:Intel Core i7-8750H CPU @ 2.20 GHz,GPU 為NVIDIA Quadro RTX,內(nèi)存24 GB,Python 3.8.3,深度學(xué)習(xí)框架為PyTorch 1.4.0,CUDA 版本為10.1。batch size 為16。采用Adam 算法進(jìn)行優(yōu)化,相關(guān)參數(shù)β1=0.9,β2=0.999,?=10-8,初始學(xué)習(xí)率為0.000 1,每訓(xùn)練200 個(gè)epoch 學(xué)習(xí)率減半。采用PSNR 和結(jié)構(gòu)相似性(Structural Similarity Index Measure,SSIM)作為客觀評(píng)價(jià)指標(biāo)。PSNR 反映圖像失真水平,數(shù)值越高表示重建質(zhì)量越好。SSIM 主要評(píng)估圖像之間的相似性,數(shù)值越接近1 則重建的圖像越接近原始圖像。
3.2.1 MRFA模塊數(shù)量分析
本文使用MRFA 模塊進(jìn)行深層特征提取,當(dāng)MRFA 模塊數(shù)量X發(fā)生改變時(shí),重建出的圖像質(zhì)量也會(huì)隨之改變。為探討網(wǎng)絡(luò)中MRFA 模塊數(shù)量對(duì)重建圖像峰值信噪比的影響,本節(jié)基于測(cè)試集A 在2 倍放大下對(duì)重建效果進(jìn)行分析。圖11為不同MRFA 模塊數(shù)下的性能對(duì)比。
圖11 不同MRFA模塊數(shù)的PSNR對(duì)比Fig.11 Comparison of PSNR with different MRFA module numbers
由圖11 可知,MRFA 模塊數(shù)量X的取值不同,重建圖像的PSNR 指標(biāo)也有所區(qū)別。當(dāng)X=9 時(shí),重建圖像的PSNR 值最高,因此本文取MRFA 模塊為9 進(jìn)行下述實(shí)驗(yàn)。
3.2.2 消融實(shí)驗(yàn)
為驗(yàn)證本文算法中各模塊性能,對(duì)DSC 模塊、ECAM、普通通道注意力(Channel Attention,CA)模塊、傳統(tǒng)的空間注意力模塊(SAM)、ISAM 在測(cè)試集A 中進(jìn)行2 倍放大的消融實(shí)驗(yàn)。首先僅使用DSC 模塊進(jìn)行深層特征提取,之后在此基礎(chǔ)上引入ECAM 對(duì)不同通道間信息進(jìn)行增強(qiáng),通過對(duì)DSC+SAM 模塊與DSC+ISAM 模塊的重建性能對(duì)比,探討特征的空間位置信息,最后將三個(gè)模塊級(jí)聯(lián),對(duì)比分析各模塊對(duì)圖像超分重建性能的作用。實(shí)驗(yàn)結(jié)果如表1 所示。
表1 不同模塊的重建性能比較Tab.1 Comparison of reconstruction performance of different modules
由表1 可知,結(jié)合DSC 模塊與ECAM 的圖像重建效果優(yōu)于DSC 模塊與CA 相結(jié)合的結(jié)果。而相較于其他組合方式,DSC、ECAM 與改進(jìn)的混合注意力模塊(ISAM)可以獲得更大的感受野與圖像通道與空間信息,使算法擁有更好的重建性能。
3.2.3 對(duì)比實(shí)驗(yàn)分析
將本文算法與經(jīng)典的超分辨算法Bicubic[24]、SRCNN[4]、FSRCNN(Fast SRCNN)[25]、VDSR[5]、基于殘差通道注意力的超分網(wǎng)絡(luò)RCAN[26]以及基于多尺度注意力殘差的重建網(wǎng)絡(luò)[27]、FAWDN[15]與MIRN[16]等具有代表性的超分辨率重建網(wǎng)絡(luò)分別在測(cè)試集上進(jìn)行測(cè)試。結(jié)果如表2 所示。
表2 不同算法的PSNR/SSIM值比較Tab.2 Comparison of PSNR/SSIM values of different algorithms
從表2 可以看出,本文算法在不同放大倍數(shù)下,在各數(shù)據(jù)集上均有良好表現(xiàn)。當(dāng)放大倍數(shù)為3 時(shí),與SRCNN、VDSR相比,本文算法的PSNR 平均提高了11.29%與7.85%;SSIM平均提高了5.25%和2.44%??梢钥闯?,在各放大倍數(shù)下,本文算法均有一定提升,但是在放大倍數(shù)較大時(shí)PSNR 與SSIM 比放大倍數(shù)較小時(shí)更低,因此在今后的研究中將著力于解決放大倍數(shù)較高時(shí)的圖像重建問題。
圖12 展示了各算法在實(shí)驗(yàn)所用數(shù)據(jù)集下的4 倍放大的重建效果。圖12(a)主要對(duì)各算法對(duì)圖像的整體還原能力進(jìn)行對(duì)比??梢钥闯?,不同算法對(duì)圖像還原程度不一,其中:文獻(xiàn)[27]算法相較于其他算法對(duì)LR 圖像質(zhì)量有了一定提升,但在邊緣部分存在模糊現(xiàn)象;而本文算法則還原出了更加清晰的圖像邊緣,且擁有更加豐富的紋理信息。圖12(b)主要對(duì)比了細(xì)節(jié)放大下各算法的重建效果,對(duì)比發(fā)現(xiàn),SRCNN、FSRCNN、VDSR 等對(duì)比算法均出現(xiàn)了不同程度的噪聲干擾,而本文算法還原的圖像最貼近于原始圖像,對(duì)于細(xì)節(jié)還原更加清晰。整體來說本文所提網(wǎng)絡(luò)訓(xùn)練的圖像更加接近原始圖像,對(duì)比其他網(wǎng)絡(luò),本文算法對(duì)圖像整體結(jié)構(gòu)的復(fù)原更加完整,對(duì)邊緣紋理的還原度也更高;但相較于原始圖像,重建的清晰度仍有不足。
3.2.4 模型運(yùn)行時(shí)間比較
重建模型的計(jì)算時(shí)間往往和網(wǎng)絡(luò)參數(shù)量與算法復(fù)雜度呈正相關(guān),因此本文通過對(duì)各模型重建圖像的平均用時(shí)的比較來衡量算法復(fù)雜度。表3 為通過對(duì)50 組測(cè)試圖像的重建測(cè)試得到的不同重建算法重建圖像的平均用時(shí)。
表3 不同算法重建圖像的平均用時(shí)Tab.3 Average time spent to reconstruct images by different algorithms
由表3 可知,網(wǎng)絡(luò)設(shè)計(jì)較為復(fù)雜的模型往往重建時(shí)間較長(zhǎng),且重建效果更佳的網(wǎng)絡(luò)往往也有著更長(zhǎng)的重建用時(shí)。對(duì)重建時(shí)長(zhǎng)較長(zhǎng)的文獻(xiàn)[27]算法、FAWDN、MIRN 以及本文算法的重建效果進(jìn)行對(duì)比得出,本文算法在不損失圖像重建精度的同時(shí)可以盡可能地縮短重建用時(shí),且能在較復(fù)雜的結(jié)構(gòu)設(shè)計(jì)下保持較高的重建效率。
本文提出了一種基于空洞可分離卷積與改進(jìn)的混合注意力機(jī)制的圖像超分辨率重建算法,解決了傳統(tǒng)超分辨率網(wǎng)絡(luò)對(duì)于圖像特征提取尺度單一、容易丟失邊緣及高頻細(xì)節(jié)的問題。使用空洞可分離卷積對(duì)圖像進(jìn)行不同尺度特征提取,同時(shí)盡可能減少網(wǎng)絡(luò)參數(shù)量;使用改進(jìn)的邊緣通道注意力結(jié)構(gòu),融合特征圖像的邊緣信息,將資源分配到信息更加豐富的部位;對(duì)于空間注意力機(jī)制,更大的卷積核可以擁有更強(qiáng)的全局信息提取能力,因此使用兩種不同大小卷積核,提取特征,生成最終空間注意力特征圖。同時(shí)結(jié)合像素?fù)p失與感知損失,設(shè)置一種更加適于人體視覺評(píng)價(jià)的復(fù)合損失函數(shù)作為整體損失函數(shù),保證網(wǎng)絡(luò)收斂效果的同時(shí)使重建圖像更加符合視覺標(biāo)準(zhǔn)。通過對(duì)常用的幾種超分辨率重建算法與本文所提算法的對(duì)比分析驗(yàn)證,本文算法在客觀評(píng)價(jià)指標(biāo)方面有顯著提升,且可以獲得細(xì)節(jié)紋理更加清晰的重建圖像,驗(yàn)證了本文算法在醫(yī)學(xué)圖像超分領(lǐng)域的準(zhǔn)確性與實(shí)用性。本文算法在3、4 倍放大倍數(shù)下均可以獲得視覺效果更佳的重建圖像,然而目前臨床診斷越來越需要更大尺寸的醫(yī)學(xué)圖像進(jìn)行輔助,因此在后期工作中會(huì)更加關(guān)注較大倍數(shù)下圖像還原能力,以及時(shí)間與資源的消耗問題,著重于構(gòu)建細(xì)節(jié)紋理還原度更高且還原更加快速的超分網(wǎng)絡(luò)。