李文舉,孔德卿,曹國剛,戴翠霞
(1.上海應(yīng)用技術(shù)大學(xué)計算機科學(xué)與信息工程學(xué)院,上海 201418;2.上海應(yīng)用技術(shù)大學(xué)理學(xué)院,上海 201418)
2D-3D醫(yī)學(xué)圖像配準在基于影像的手術(shù)導(dǎo)航、圖像引導(dǎo)放射治療等多個領(lǐng)域應(yīng)用廣泛,發(fā)揮著至關(guān)重要的作用。二維圖像(例如X-Ray圖像)成像時間短,滿足手術(shù)的實時性要求,因此在術(shù)中被廣泛使用;三維圖像(例如CT、MRI等)成像時間較長,掃描操作難以實時進行,但可以獲取病灶更準確的結(jié)構(gòu)信息,一般在術(shù)前獲得[1]。因此,需要應(yīng)用2D-3D醫(yī)學(xué)圖像配準方法,在術(shù)中融合兩種不同維度的數(shù)據(jù),即時得到更多病灶信息來輔助醫(yī)生治療,從而減小手術(shù)創(chuàng)傷,提高手術(shù)效率和成功率[2]。
傳統(tǒng)2D-3D醫(yī)學(xué)圖像配準方法主要分為:基于特征和基于灰度的方法。其中,基于灰度的方法利用圖像的灰度值進行配準,無需進行分割等處理操作,可實現(xiàn)自動配準且精度較高,因而成為2D-3D醫(yī)學(xué)剛性配準的主流方法[3]。為了統(tǒng)一空間維度,基于灰度的配準方法通常將三維圖像生成多幅二維的數(shù)字重建放射影像(Digital Reconstructed Radiograph,DRR),把2D-3D配準轉(zhuǎn)化為2D-2D配準問題。進而,使用相似性測度函數(shù)衡量DRR圖像和X-Ray圖像的配準效果,若沒有達到設(shè)定值,則使用優(yōu)化算法來調(diào)整配準參數(shù)。整個配準過程不斷循環(huán)迭代,直至得到最優(yōu)的參數(shù),則完成配準。
盡管傳統(tǒng)配準方法已基本滿足需求,但仍然存在一些問題亟待解決,例如動態(tài)生成DRR圖像涉及大量的運算,耗費過多時間,難以滿足醫(yī)學(xué)圖像配準的實時性要求。劉坤等[4]提出了一種基于Bresenham直線改進的光線投射法,相比原來的方法,速度提高了6~7倍,大大提高了圖像配準的效率。另外,傳統(tǒng)優(yōu)化算法在解決多極值問題上,存在局部最優(yōu)現(xiàn)象。差異進化算法、遺傳算法、粒子群算法等智能優(yōu)化算法的提出[5],一定程度上改善了局部極值問題。雖然如此,傳統(tǒng)方法存在的局限性沒有得到根本改善,配準問題仍需進一步優(yōu)化。
隨著深度學(xué)習方法的研究熱潮,一些學(xué)者將其應(yīng)用在醫(yī)學(xué)圖像配準中,目前已經(jīng)取得了卓越的成果[6],代表性的如Balakrishnan等[7]提出一種預(yù)測可形變圖像的配準框架VoxelMorph。由于DRR圖像可以提供真實標簽,在2D-3D醫(yī)學(xué)圖像配準領(lǐng)域大多采用監(jiān)督學(xué)習的方法。Miao等[8]提出利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)構(gòu)建回歸器,直接預(yù)測配準所需的變換參數(shù)。實驗結(jié)果表明,該方法滿足高精度和實時性要求,然而在網(wǎng)絡(luò)架構(gòu)的設(shè)計上,選取較淺層的網(wǎng)絡(luò),難以處理結(jié)構(gòu)復(fù)雜的圖像。Gao等[9]提出投影空間變換模塊(Projective Spatial Transformers,ProST)生成DRR圖像,實現(xiàn)端到端的配準模型。但該方法位移參數(shù)誤差較大,達到7mm左右,難以滿足配準的精度要求,需進一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。
為了解決傳統(tǒng)配準方法的局限性,并利用深度學(xué)習方法自動提取圖像特征的優(yōu)勢,提出一種融合注意力機制與殘差網(wǎng)絡(luò)的跨模態(tài)醫(yī)學(xué)圖像配準方法。不同于傳統(tǒng)方法的循環(huán)迭代過程,本文方法利用深度殘差網(wǎng)絡(luò)自動提取圖像特征,直接預(yù)測配準變換參數(shù),顯著提高配準效率。在殘差塊中引入混合域的注意力機制,提高配準模型的抗干擾能力,使模型更易于處理復(fù)雜圖像。另外,考慮到配準變換參數(shù)具有不同的特點,設(shè)計分組回歸提高配準精度。
本文方法將配準視為一個回歸問題,利用配準網(wǎng)絡(luò)自動提取圖像特征,直接預(yù)測配準變換參數(shù)。X-Ray圖像和CT圖像的配準框架如圖1所示。在術(shù)前,首先獲取患者的三維CT圖像,使用Siddon光線追蹤法生成大量DRR圖像;接著,將圖像執(zhí)行重采樣和歸一化操作,作為訓(xùn)練數(shù)據(jù)集輸入配準網(wǎng)絡(luò);然后,利用損失函數(shù)不斷縮小預(yù)測值和真實值之間的誤差,進行反向傳播;最后,若損失函數(shù)持續(xù)收斂,則結(jié)束模型訓(xùn)練,并使用測試集評估模型。在術(shù)中,將患者同一部位的二維X-Ray輸入配準模型,經(jīng)過一次前向傳播,即可直接預(yù)測配準變換參數(shù),顯著提高配準效率。
圖1 X-Ray圖像和CT圖像配準框架
本文方法適用于2D-3D醫(yī)學(xué)圖像剛性配準,涉及6個變換參數(shù),包括3個位移參數(shù)x、y、z和3個角度參數(shù)θ、α、β。變換參數(shù)引起的圖像變化效果如圖2所示,其中位移參數(shù)x、y和角度參數(shù)θ的效果近似2D剛體變換,位移參數(shù)z引起圖像的細微縮放,角度參數(shù)α、β引起圖像的復(fù)雜形狀變化。
圖2 配準變換參數(shù)示意圖
ResNet(Residual Neural Network)[10]由He等人在2016年提出,通過殘差學(xué)習的思想,有效地避免了隨著網(wǎng)絡(luò)層數(shù)加深而出現(xiàn)的梯度消失和梯度爆炸問題。對于殘差單元的學(xué)習如下所示
xl+1=f(yl)
yl=h(xl)+F(xl,ωl)
(1)
其中,xl和xl+1分別表示第l個殘差單元的輸入和輸出,h(xl)=xl表示恒等映射(Identity),F(xiàn)(xl,ωl)表示通過卷積層學(xué)習到的殘差特征,f(·)是激活函數(shù)?;?1)式,進一步求得淺層l到深層L的學(xué)習特征為
(2)
通過上式可知,殘差結(jié)構(gòu)利用恒等映射來結(jié)合淺層網(wǎng)絡(luò)的特征,有助于網(wǎng)絡(luò)內(nèi)的信息流動,一定程度上緩解了梯度消失問題。本文方法利用殘差結(jié)構(gòu)的優(yōu)點,在配準網(wǎng)絡(luò)中使用ResNet34作為特征提取部分,并融入注意力機制模塊CBAM(Convolutional Block Attention Module)[11],同時根據(jù)配準參數(shù)的特點設(shè)計分組回歸的方式,分別輸出位移參數(shù)和角度參數(shù)。
配準網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示,輸入為固定大小的256×256的灰度圖像。首先,經(jīng)過一個卷積核大小為7、步長為2的卷積層,并跟著一個最大池化層(Max-Pooling layer);接著,是由融合注意力機制的殘差卷積塊(Attention Block,A-Block)堆積而成的四個階段卷積,其中A-Block的數(shù)量分別為[3, 4, 6, 3],具體結(jié)構(gòu)如圖3虛線框內(nèi)所示,每個卷積層后都跟著批歸一化層(Batch Normalization,BN)來加快訓(xùn)練速度,通過線性整流單元(Rectified Linear Unit,ReLU)增加網(wǎng)絡(luò)對特征圖的學(xué)習能力,并引入CBAM模塊提高網(wǎng)絡(luò)對重要特征的關(guān)注度;然后,由于恒等映射要求輸入和輸出的維度一致,加入一個卷積核大小為1、步長為1的卷積層來調(diào)整通道數(shù),如圖3虛弧線所示;最后,是由全局平均池化層(Global Average Pooling layer,GAP)[12]和全連接層(Fully Connected layer,F(xiàn)C)組成的回歸部分。考慮到變換參數(shù)的特點,設(shè)計分組回歸的方式,分別輸出位移參數(shù)和角度參數(shù)。另外,考慮到位移參數(shù)z只引起圖像的細微縮放,較難預(yù)測,因此將位移參數(shù)z單獨分為一組,以提高配準精度。
圖3 配準網(wǎng)絡(luò)結(jié)構(gòu)
在真實臨床數(shù)據(jù)中,圖像存在軟組織等背景噪聲干擾,為了提高模型的抗干擾能力,本文將注意力機制引入配準網(wǎng)絡(luò)中。視覺注意力機制大致可分為三類:空間域、通道域以及結(jié)合兩者的混合域??臻g域方法將圖片中的空間域信息做對應(yīng)的空間變換,從而能將關(guān)鍵的信息提取出來。通道域方法類似于給每個通道上的信號都增加一個權(quán)重,來代表該通道與關(guān)鍵信息的相關(guān)度,權(quán)重越大,則相關(guān)度越高,典型的如SeNet[13]。混合域方法同時關(guān)注通道注意力和空間注意力,結(jié)合兩者的優(yōu)勢。
本文使用混合域的注意力機制模塊CBAM,分別經(jīng)過通道注意力和空間注意力,結(jié)構(gòu)如圖4所示。對于學(xué)習到的殘差特征,首先經(jīng)過GAP層和全局最大池化層(Global Max-Pooling layer,GMP);接著是由兩個連續(xù)的1×1卷積層組成的共享網(wǎng)絡(luò),將卷積層的輸出合并,使用sigmoid激活;通過乘法逐通道加權(quán),便可得到通道注意力特征圖。將上述特征圖分別在通道維度上執(zhí)行平均池化和最大池化,將得到的2個特征圖執(zhí)行連接(concatenate)操作,經(jīng)過一個7×7卷積層后,使用sigmoid激活,即可得到空間注意力特征圖。最后,將通道注意力特征圖與空間注意力特征圖相乘,便可得到經(jīng)過雙重注意力調(diào)整的特征圖。CBAM是一個輕量級的通用模塊,將其集成到網(wǎng)絡(luò)中,增加少量訓(xùn)練參數(shù)的同時,使網(wǎng)絡(luò)更關(guān)注重要特征并抑制不必要的特征,從而提高配準精度。
圖4 融合CBAM注意力機制的殘差塊
實驗環(huán)境:采用Windows10操作系統(tǒng),CPU為Intel Core四核i5-9300H,顯卡為NVIDIA GeForce GTX 1660Ti。開發(fā)軟件包括PyCharm Professional 2019.2和Microsoft Visual Studio 2019,采用深度學(xué)習框架Pytorch 1.6。
數(shù)據(jù)集使用由蘇州醫(yī)工所提供的2D-3D醫(yī)學(xué)圖像配準數(shù)據(jù)集[14],其中三維CT圖像尺寸為512×512×344,二維X-Ray圖像尺寸為2673×3037。監(jiān)督學(xué)習需要大量帶標簽的數(shù)據(jù)集,因此本文使用帶有真實變換參數(shù)的模擬X線圖像(即DRR圖像),避免了繁瑣的手工標記。從理論角度出發(fā),利用三維CT圖像可以生成無數(shù)張DRR圖像,考慮到臨床實際應(yīng)用,給定參數(shù)范圍如表1所示,所有參數(shù)在范圍內(nèi)滿足均勻分布取值。具體而言,本文使用sidden光線追蹤法,在參數(shù)范圍內(nèi)生成3萬張DRR圖像作為數(shù)據(jù)集,選取70%作為訓(xùn)練集,30%作為測試集。另外,為了評價模型的配準效果,需要使用X-Ray圖像,原始的3張X-Ray圖像數(shù)量較少,測試結(jié)果不具備代表性。因此,使用數(shù)據(jù)擴增技術(shù),在(-8, 8°)范圍內(nèi),將圖像每隔0.5度旋轉(zhuǎn)一次,擴展到99張X-Ray圖像作為額外的測試集。需要注意的是,DRR圖像和X-Ray圖像經(jīng)過裁剪和重采樣到256×256的尺寸大小,便于模型更高效地計算。
表1 變換參數(shù)分布
訓(xùn)練階段的損失函數(shù)是SmoothL1Loss,定義如下
(3)
其中,n是訓(xùn)練樣本的數(shù)量,yi是第i個訓(xùn)練樣本的標簽(ground truth),ω是要學(xué)習的權(quán)重,f(xi;ω)是第i個訓(xùn)練樣本的預(yù)測值。從上式可知,當預(yù)測值和真實值差別較小的時候,損失函數(shù)相當于均方誤差(L2 Loss);而當差別較大的時候,相當于絕對值誤差(L1 Loss)的平移。實際上,SmoothL1Loss結(jié)合了L1 Loss和L2 Loss的優(yōu)點,從而避免了L1損失函數(shù)收斂速度慢,L2損失函數(shù)對異常值敏感、離群點梯度爆炸等問題。
權(quán)重ω使用Adam優(yōu)化器學(xué)習,初始學(xué)習率設(shè)為3×10-4,學(xué)習率使用固定步長衰減,每隔10個epoch降為原來的1/10,公式如下
(4)
訓(xùn)練時的參數(shù)設(shè)置如上所述,將3.1節(jié)中生成的3萬張DRR圖像輸入模型訓(xùn)練,隨著數(shù)據(jù)的增加,模型的loss值逐漸降低,但當數(shù)據(jù)超過2萬張時,模型的loss值趨于平穩(wěn)。因此,劃分70%(21000張)作為訓(xùn)練集,30%(9000張)作為測試集,使模型的精度與效率互相均衡。當損失函數(shù)收斂(損失函數(shù)的差小于1×10-4)或達到Epoch的最大迭代次數(shù)時,則結(jié)束模型訓(xùn)練。整個訓(xùn)練時長約為2.5個小時,共計25個Epoch,過程如圖5所示。
圖5 模型訓(xùn)練、測試圖
由于DRR圖像具有真實變換參數(shù),本文使用6個變換參數(shù)的平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squard Error,RMSE)來評價模型擬合參數(shù)的能力,公式如下所示
(6)
另外,使用的X-Ray圖像沒有真實標簽,因此選取配準中常用的測度函數(shù)歸一化互信息(Normalized Mutual Information,NMI)和歸一化互相關(guān)(Normalized Correlation Coefficient,NCC)[15],來驗證圖像的配準效果,測度值越大代表配準效果越佳。同時,選取結(jié)構(gòu)相似性(Structural Similarity,SSIM)來綜合考量配準效果,SSIM指標值越高,則證明算法的配準能力越高。
3.4.1 性能分析
為了評估注意力機制模塊對配準模型的影響,設(shè)計對比實驗如下:
1)無注意力:使用原始的ResNet34作為配準網(wǎng)絡(luò);
2)SeNet:使用ResNet34作為配準網(wǎng)絡(luò),并引入通道域的注意力機制SeNet;
3)CBAM:使用ResNet34作為配準網(wǎng)絡(luò),并引入混合域的注意力機制CBAM。
對比實驗使用9000張DRR圖像作為測試集,分別求得6個配準參數(shù)的MAE和RMSE,用來評估配準模型擬合參數(shù)的能力,實驗結(jié)果如表2所示。首先,與無注意力機制網(wǎng)絡(luò)相比,融合SeNet的配準網(wǎng)絡(luò)減少15%的位移參數(shù)誤差、6%的角度參數(shù)誤差。接著,比較通道域的注意力機制SeNet和混合域的注意力機制CBAM,分析發(fā)現(xiàn)CBAM在6個變換參數(shù)上的誤差均小于SeNet,證明引入混合域的注意力機制會使得配準網(wǎng)絡(luò)擬合參數(shù)能力更佳。
表2 注意力機制模塊對比
然后比較配準模型的回歸方式,分析分組回歸對配準精度的影響,設(shè)計對比實驗如下:
1)無分支:不進行分組,將6個變換參數(shù)通過同一個FC層輸出;
2)雙分支:將位移參數(shù)x、y、z和角度參數(shù)θ、α、β分成兩組;
3)三分支:將位移參數(shù)x、y,位移參數(shù)z,角度參數(shù)θ、α、β分成三組。
對比實驗使用9000張DRR圖像作為測試集,分別求得6個配準參數(shù)的MAE和RMSE,用來評估配準模型擬合參數(shù)的能力,實驗結(jié)果如表3所示。通過分析發(fā)現(xiàn),將配準參數(shù)分組回歸后,參數(shù)誤差會有小幅下降,這歸因于預(yù)測的變換參數(shù)具有相似的特性,便于網(wǎng)絡(luò)學(xué)習。
表3 回歸方式對比
3.4.2 與其方法對比
首先,選取常見的網(wǎng)絡(luò)如GoogLeNet[16]、ResNet和DenseNet[17]作對比。其中,GoogLeNet選取Inception V1版;ResNet由基于BasicBlock的殘差塊組成,包含34層網(wǎng)絡(luò)結(jié)構(gòu);DenseNet由基于Bottleneck的密集連接塊組成,包含121層網(wǎng)絡(luò)結(jié)構(gòu)。另外,選取Xie等[18]在2017年提出的配準網(wǎng)絡(luò)作為對比。實驗使用9000張DRR圖像作為測試集,各網(wǎng)絡(luò)的實驗參數(shù)設(shè)置和本文方法保持一致,結(jié)果如表4所示,分別求得6個配準參數(shù)的MAE和RMSE。實驗結(jié)果表明,本文方法在6個配準參數(shù)上的誤差均小于其方法,擬合參數(shù)能力較佳。
表4 不同網(wǎng)絡(luò)的擬合參數(shù)能力對比
最后,為了測試X-Ray圖像的配準效果,使用99張X-Ray圖像作為測試集,選取傳統(tǒng)的2D-3D配準算法作為對比實驗,其中相似性測度函數(shù)選取NCC和NMI,優(yōu)化算法使用Powell法,當測度值在兩次迭代的差小于1×10-3時停止迭代。實驗結(jié)果如表5所示,分別求得NCC、NMI和SSIM的平均值和標準差,測度值越大代表配準效果越佳。根據(jù)結(jié)果可知,本文方法在三個測度函數(shù)均優(yōu)于這兩種傳統(tǒng)算法,且配準時間僅需40ms,遠遠小于傳統(tǒng)算法,顯著提高配準效率。
表5 配準方法對比
本文提出一種融合注意力機制與殘差網(wǎng)絡(luò)的跨模態(tài)醫(yī)學(xué)圖像配準方法,直接預(yù)測六個配準變換參數(shù)。實驗證明,引入混合域的注意力機制,使提取的圖像特征更有效;利用分組回歸的方式,結(jié)合變換參數(shù)的特點來實現(xiàn)預(yù)測,從而提高配準精度。提出的方法滿足臨床配準的精度需求,與傳統(tǒng)方法相比,術(shù)中無需循環(huán)迭代的過程,大大縮短配準所需時間,達到40ms,做到實時配準。同時本文仍存在一些不足之處,如未考慮器官的形變情況,下一步計劃研究非剛性配準方法,預(yù)測圖像的形變問題。