張新陽,賀鵬博,劉新國(guó),戴中穎,馬圓圓,申國(guó)盛,張暉,陳衛(wèi)強(qiáng),李強(qiáng)
1.中國(guó)科學(xué)院近代物理研究所,甘肅蘭州730000;2.中國(guó)科學(xué)院重離子束輻射生物醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室,甘肅蘭州730000;3.甘肅省重離子束輻射醫(yī)學(xué)應(yīng)用基礎(chǔ)重點(diǎn)實(shí)驗(yàn)室,甘肅蘭州730000;4.中國(guó)科學(xué)院大學(xué)核科學(xué)與技術(shù)學(xué)院,北京100049
計(jì)算機(jī)斷層掃描(Computed Tomography,CT)以高空間分辨率對(duì)患者或物體進(jìn)行三維(3D)成像的能力在生命科學(xué)領(lǐng)域有著廣泛的應(yīng)用。而傳統(tǒng)CT 成像需要通過密集掃描獲得大量的投影數(shù)據(jù),導(dǎo)致重建時(shí)間增加,重建速度跟不上掃描速度;另一方面,密集掃描也給患者帶來了額外的輻射劑量。隨著人們生活水平的提高,輻射對(duì)健康的損害逐漸引起人們的注意。此外,在斷層成像的許多應(yīng)用中,成像速度至關(guān)重要。于是減少CT 掃描次數(shù),降低CT 的輻射劑量成為科研人員關(guān)注的焦點(diǎn)。近年來,很多研究都在尋找減少采集數(shù)據(jù)量的同時(shí)又不降低圖像質(zhì)量的方法,通過壓縮感知[1-6]和最大后驗(yàn)[7]等技術(shù)對(duì)稀疏采樣的圖像重建進(jìn)行廣泛的研究。這些方法在重建反演過程中引入正則化項(xiàng),以促使在重建圖像中出現(xiàn)原本的特征[8]。如果不能降低對(duì)成像質(zhì)量的要求,這些方法并不能解決在大幅度減少成像對(duì)象所受輻射劑量的同時(shí)進(jìn)行實(shí)時(shí)成像,而且它們的稀疏性通常是有限的。通過機(jī)器學(xué)習(xí)技術(shù),從大量的數(shù)據(jù)當(dāng)中提取出先驗(yàn)知識(shí)來提高成像速度和質(zhì)量是最近的熱門研究課題。近年來有很多基于機(jī)器學(xué)習(xí)的圖像重建的研究[9-12],但是最具有代表性的是Henzler 等[13]基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)利用2D放射影像重建出了3D 圖像,以及Shen 等[14]和Lei等[15]利用深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)的圖像重建過程方法,將稀疏采樣壓縮到了單個(gè)投影視圖的極限,實(shí)現(xiàn)了通過深度學(xué)習(xí)方法基于特定患者的單視圖斷層成像。但是在臨床上,如果對(duì)每一個(gè)患者都進(jìn)行數(shù)據(jù)增強(qiáng)并重復(fù)訓(xùn)練適用于每個(gè)患者的模型,時(shí)間將會(huì)大大增加。
基于以上考慮,本研究利用卷積神經(jīng)網(wǎng)絡(luò)首次實(shí)現(xiàn)了適用于不同患者的深度學(xué)習(xí)CT 重建方法。這種方法普適性更強(qiáng),對(duì)于不同例數(shù)的患者,只需要在治療前利用他們的CT 圖像進(jìn)行數(shù)據(jù)增強(qiáng)并統(tǒng)一訓(xùn)練,就可以得到適用于每個(gè)患者的神經(jīng)網(wǎng)絡(luò)模型。相比于重復(fù)訓(xùn)練使用該方法使每個(gè)患者特定的模型節(jié)約70%的時(shí)間,在保持重建圖像質(zhì)量的同時(shí)大大提高了效率。
深度神經(jīng)網(wǎng)絡(luò)因其學(xué)習(xí)復(fù)雜關(guān)系的能力以及通過特征提取和表征學(xué)習(xí)將現(xiàn)有知識(shí)納入推理模型的能力而備受關(guān)注[16-18]。這種方法在很多學(xué)科都有廣泛的應(yīng)用,如自動(dòng)駕駛、自然語言處理、計(jì)算機(jī)視覺和生物醫(yī)學(xué)。而深度殘差網(wǎng)絡(luò)(如ResNet[19])在許多競(jìng)賽中表現(xiàn)出良好的性能,它可以加速模型訓(xùn)練,并在很大程度上避免了由于增加網(wǎng)絡(luò)層數(shù)后在反向傳播時(shí)出現(xiàn)的梯度消失或梯度爆炸現(xiàn)象。目前還沒有研究實(shí)現(xiàn)適用于不同患者的深度神經(jīng)網(wǎng)絡(luò)模型及方法。本研究以Shen 等[14]研究為基礎(chǔ),對(duì)其模型進(jìn)行改進(jìn),在生成網(wǎng)絡(luò)的部分反卷積殘差塊加入快捷路徑,并嘗試適用于不同患者的基于深度學(xué)習(xí)重建方法。本研究采用的網(wǎng)絡(luò)模型如圖1所示,整個(gè)網(wǎng)絡(luò)架構(gòu)分為3 部分,分別為表征網(wǎng)絡(luò)、轉(zhuǎn)換模塊和生成網(wǎng)絡(luò)。
圖1 深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)Fig.1 Architecture of deep learning network
表征網(wǎng)絡(luò)由5 個(gè)二維卷積殘差塊組成,以便從2D 投影圖像中提取層次語義特征。每個(gè)2D 卷積塊由2D 卷積層、2D 批處理歸一化層、ReLU 層、2D 卷積層、2D 批處理歸一化層和ReLU 層按順序組成,可以從2D 圖像中提取出特征信息。第一卷積層使用3×3的卷積核和2×2 的滑動(dòng)步長(zhǎng)執(zhí)行卷積操作將特征圖的空間大小下采樣一半。為了保持高維特征信息的稀疏性,增加濾波器的數(shù)量將特征映射的通道數(shù)增加一倍。隨后經(jīng)過批標(biāo)準(zhǔn)化層[20]后通過ReLU 層將特征信息向后饋送。第二卷積層使用3×3 的卷積核和1×1的滑動(dòng)步長(zhǎng)保持特征圖的形狀大小。另外,在應(yīng)用第二個(gè)ReLU 層之前,使用額外的快捷路徑將第一個(gè)卷積層的輸入相加獲得最終輸出。通過建立身份映射的快捷路徑,鼓勵(lì)第二卷積層學(xué)習(xí)殘差特征表示。
轉(zhuǎn)換模塊在表征網(wǎng)絡(luò)后,通過卷積和反卷積連接表征網(wǎng)絡(luò)和生成網(wǎng)絡(luò),并關(guān)聯(lián)2D 和3D 特征表示。將表征網(wǎng)絡(luò)的輸出進(jìn)行整形,跨維度的變換特征表示以便于后續(xù)生成3D體積。模型中為了更好地通過該模塊進(jìn)行特征信息的轉(zhuǎn)移,刪除了轉(zhuǎn)換模塊中的批標(biāo)準(zhǔn)化層。
生成網(wǎng)絡(luò)由3D 反卷積層、3D 批歸一化層、ReLU層、3D 反卷積層、3D 批歸一化層和ReLU 層的3D 反卷積塊組成。第一個(gè)反卷積層使用4×4×4 的卷積核和2×2×2 的滑動(dòng)步長(zhǎng)將特征圖的空間大小上采樣2倍。第二個(gè)反卷積層使用3×3×3 的卷積核和1×1×1的滑動(dòng)步長(zhǎng)保持特征圖的形狀大小。每個(gè)反卷積層之后是3D 批歸一化層和ReLU 層,生成網(wǎng)絡(luò)主要由4個(gè)反卷積塊組成,第二和第三反卷積塊使用額外的快捷路徑將第一個(gè)反卷積層的輸入相加獲得最終輸出。在生成網(wǎng)絡(luò)的末端,有一個(gè)由3D卷積層和2D卷積層(卷積核大小為1)組成的輸出變換模塊,用于輸出3D 圖像。輸出變換模塊中的批歸一化層被移除,并且最后的卷積層后邊去掉了ReLU 層。生成網(wǎng)絡(luò)基于從表征網(wǎng)絡(luò)學(xué)習(xí)到的特征信息生成具有細(xì)微結(jié)構(gòu)的3D CT圖像。
本研究采用3 例肺癌患者的4D CT 圖像數(shù)據(jù),數(shù)據(jù)來自上海市質(zhì)子重離子醫(yī)院。使用Plastimatch 軟件將患者的CT 圖像生成對(duì)應(yīng)的數(shù)字重建放射影像(DRR),并使用一個(gè)Nvidia Titan RTX 圖形處理器(Graphics Processing Unit,GPU)訓(xùn)練模型。
由于實(shí)際情況限制,我們并不是實(shí)際獲取了大量的2D X射線圖像和對(duì)應(yīng)的相同時(shí)刻的CT圖像進(jìn)行監(jiān)督訓(xùn)練,而是利用患者的CT圖像模擬生成的DRR與其對(duì)應(yīng)的CT圖像進(jìn)行訓(xùn)練。在訓(xùn)練深度學(xué)習(xí)模型時(shí),由于數(shù)據(jù)有限需要進(jìn)行數(shù)據(jù)增強(qiáng)。本研究純粹從深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)角度出發(fā),對(duì)CT數(shù)據(jù)進(jìn)行平移、變形以及大角度旋轉(zhuǎn),最終產(chǎn)生了類似于傳統(tǒng)CT重建的多角度投影數(shù)據(jù)域。在研究中,單例患者時(shí),將其10個(gè)時(shí)相的4D CT數(shù)據(jù)按照上述數(shù)據(jù)增強(qiáng)策略擴(kuò)充為2 940個(gè)CT,并用Plastimatch軟件生成對(duì)應(yīng)的DRR,每一個(gè)CT及其對(duì)應(yīng)生成的DRR就是一個(gè)數(shù)據(jù)樣本,最終共產(chǎn)生2 940個(gè)數(shù)據(jù)樣本,將所有數(shù)據(jù)樣本隨機(jī)打亂后按照6:2:2的比例劃分為1 764個(gè)訓(xùn)練樣本、588個(gè)驗(yàn)證樣本和588個(gè)測(cè)試樣本。研究范圍是3例患者時(shí),按照上述方法最終共產(chǎn)生8 820個(gè)數(shù)據(jù)樣本,其中包括5 292個(gè)訓(xùn)練樣本、1 764個(gè)驗(yàn)證樣本以及1 764個(gè)測(cè)試樣本。
在將數(shù)據(jù)樣本輸入網(wǎng)絡(luò)之前對(duì)其進(jìn)行預(yù)處理。與其它利用深度學(xué)習(xí)方法對(duì)圖像重建的研究[11]類似,由于GPU 內(nèi)存限制以及計(jì)算效率的影響,對(duì)CT圖像進(jìn)行下采樣處理,將CT 圖像的大小由512×512調(diào)整為128×128。所有的數(shù)據(jù)樣本都被調(diào)整為相同的大小,將2D DRR 圖像的大小調(diào)整為128×128。單例患者時(shí),將其CT 圖像僅進(jìn)行下采樣處理,不改變層數(shù),最終得到127×128×128 的CT 斷層圖像。研究3例患者時(shí),將3例患者的CT斷層圖像大小統(tǒng)一調(diào)整為123×128×128。具體地說就是將其余兩例患者的CT 圖像從最上邊分別減少對(duì)應(yīng)層數(shù)與CT 圖像層數(shù)最少的患者相同,這種方法在保證將3例患者的數(shù)據(jù)順利輸入網(wǎng)絡(luò)訓(xùn)練的同時(shí)還可以確保3 例患者的CT圖像中的關(guān)鍵信息沒有減少。此外,為了使模型在訓(xùn)練時(shí)更好的收斂,將2D DRR 圖像和CT 圖像的像素強(qiáng)度歸一化到[0,1]。對(duì)輸入2D DRR 圖像進(jìn)行標(biāo)準(zhǔn)差歸一化,計(jì)算3類樣本中所有數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差,然后用輸入2D DRR 圖像減去對(duì)應(yīng)樣本域的平均值,然后除以標(biāo)準(zhǔn)差,使其像素強(qiáng)度的統(tǒng)計(jì)分布更接近標(biāo)準(zhǔn)高斯分布,得到最終輸入網(wǎng)絡(luò)的2D 圖像數(shù)據(jù)。
輸入圖像X 為2D DRR 圖像,訓(xùn)練深度網(wǎng)絡(luò)模型用來預(yù)測(cè)CT 圖像Ypred,使預(yù)測(cè)圖像Ypred盡可能接近真實(shí)圖像Ytruth。將成本函數(shù)定義為預(yù)測(cè)值與真實(shí)值之間的均方誤差,并通過隨機(jī)梯度下降迭代優(yōu)化模型。基于PyTorch 庫構(gòu)建網(wǎng)絡(luò),并用Adam 優(yōu)化器最小化損失函數(shù),通過反向傳播迭代更新網(wǎng)絡(luò)參數(shù)。單例患者時(shí),學(xué)習(xí)率設(shè)置為0.000 03,由于內(nèi)存限制使用大小為1 的小批量進(jìn)行訓(xùn)練。訓(xùn)練周期為100次,每個(gè)訓(xùn)練周期結(jié)束后將模型在驗(yàn)證機(jī)上進(jìn)行驗(yàn)證,最后將驗(yàn)證損失最小的模型參數(shù)當(dāng)作最終的模型參數(shù)。對(duì)3 例患者進(jìn)行研究時(shí),學(xué)習(xí)率設(shè)置為0.000 03,每次向網(wǎng)絡(luò)輸入的批量為1。模型共訓(xùn)練30 次,在每個(gè)訓(xùn)練周期結(jié)束后,將模型在驗(yàn)證集上進(jìn)行驗(yàn)證,以便監(jiān)控模型的性能并避免模型在訓(xùn)練集上發(fā)生過擬合。如果連續(xù)6 個(gè)訓(xùn)練周期內(nèi)驗(yàn)證損失沒有下降就將學(xué)習(xí)率自動(dòng)調(diào)整為原來的二分之一,最后將驗(yàn)證集上表現(xiàn)最好也就是驗(yàn)證損失最小的模型參數(shù)當(dāng)作最后的模型參數(shù)。在模型訓(xùn)練過程中,網(wǎng)絡(luò)模型學(xué)習(xí)從2D DRR 圖像到CT 圖像的映射函數(shù)。本研究單例患者訓(xùn)練時(shí)間大約需要43 h,3 例患者訓(xùn)練時(shí)間大約為52 h。在測(cè)試過程中,單例患者和3例患者的一個(gè)測(cè)試樣本的3D重建時(shí)間約為0.5 s。
將最終的模型部署在測(cè)試數(shù)據(jù)集上,使用定性和定量的評(píng)估指標(biāo)分析重建結(jié)果并評(píng)估模型的性能。使用平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error, RMSE)、結(jié)構(gòu)相似性(Structural Similarity,SSIM)和峰值信噪比(Peak Signal Noise Ratio,PSNR)4種不同的度量標(biāo)準(zhǔn)來衡量預(yù)測(cè)的CT圖像的質(zhì)量。如表1所示,計(jì)算所有測(cè)試樣本的平均值得到4種度量標(biāo)準(zhǔn)。在機(jī)器學(xué)習(xí)中,通常使用MAE、均方誤差(MSE)估計(jì)預(yù)測(cè)圖像和真實(shí)圖像之間的差別,取MSE的平方根得到RMSE。MAE、MSE是Ypred和Ytruth之間的L1范數(shù)、L2范數(shù)誤差。SSIM是通過滑窗的方法計(jì)算兩幅圖像的結(jié)構(gòu)相似性,是衡量?jī)煞鶊D像相似度的常用指標(biāo)。PSNR是影響圖像質(zhì)量的最大信號(hào)功率和噪聲功率之間的比率,被廣泛用于衡量圖像重建的質(zhì)量。
表1 單例患者和3例患者的重建結(jié)果Tab.1 Reconstruction results for a patient and 3 patients
圖2是單例患者和3例患者訓(xùn)練過程中訓(xùn)練樣本和驗(yàn)證樣本的損失曲線,可以看到模型很好地?cái)M合了訓(xùn)練數(shù)據(jù),并且在訓(xùn)練集以外的數(shù)據(jù)中也表現(xiàn)很好。
圖2 訓(xùn)練損失和驗(yàn)證損失曲線Fig.2 Training loss and validation loss curves
表1是各項(xiàng)評(píng)估指標(biāo)在測(cè)試樣本上的平均值,表中第一行數(shù)據(jù)是用Shen 等[14]模型得出的結(jié)果,第二行和第三行是使用本研究改進(jìn)后的模型以及數(shù)據(jù)增強(qiáng)方法得出的結(jié)果。從表中可以清楚地看出,本研究所提出的模型和數(shù)據(jù)增強(qiáng)方法在單獨(dú)訓(xùn)練單例患者模型中可以得到更好的模型參數(shù)。此外,對(duì)于不同患者,同樣可以得到比較好的模型參數(shù),除了均方根誤差略高于單例患者時(shí)的結(jié)果,其余3個(gè)指標(biāo)都比單例患者時(shí)的結(jié)果更好。
為了評(píng)估該方法的性能,將研究中最終得到的網(wǎng)絡(luò)模型部署在測(cè)試數(shù)據(jù)集上。圖3展示了單例患者以及適用于不同患者的CT圖像重建結(jié)果以及真實(shí)CT圖像與預(yù)測(cè)CT圖像之間的差異圖像。結(jié)果表明,本研究提出的方法可以對(duì)3例不同的患者進(jìn)行較好的CT圖像重建,說明深度學(xué)習(xí)重建CT圖像方法具有很大的潛力,進(jìn)一步證實(shí)了本研究方法的可行性。
圖3 CT重建結(jié)果Fig.3 CT reconstruction results
許多不同的3D 體積可以產(chǎn)生對(duì)應(yīng)的2D 放射影像,然而將這一過程進(jìn)行反轉(zhuǎn)是非常具有挑戰(zhàn)性的。為了減少重建過程中數(shù)據(jù)采集量和成像劑量并提高重建速度,本研究提出一種基于深度學(xué)習(xí)的CT 單視圖斷層成像3D 重建方法。不同于傳統(tǒng)的CT 重建方法,本研究利用深度學(xué)習(xí),僅使用單個(gè)視圖就能在短時(shí)間內(nèi)完成CT 重建。與現(xiàn)有的深度學(xué)習(xí)方法相比,本研究將重建對(duì)象由1例患者推廣為多例患者,實(shí)現(xiàn)了針對(duì)不同例數(shù)患者的CT 單視圖斷層成像3D 重建,而不必再對(duì)每例患者單獨(dú)進(jìn)行重復(fù)的數(shù)據(jù)增強(qiáng)及模型訓(xùn)練,節(jié)省約70%的訓(xùn)練時(shí)間。
本研究中的方法證實(shí)了通過深度學(xué)習(xí)構(gòu)建一個(gè)普適于更多患者的網(wǎng)絡(luò)模型的可行性,有望簡(jiǎn)化臨床上的CT 成像設(shè)備,并可以為目前放射治療中圖像引導(dǎo)遇到的問題提供潛在的解決方案。未來我們還會(huì)對(duì)本研究的神經(jīng)網(wǎng)絡(luò)模型做進(jìn)一步的優(yōu)化,并使用更多例數(shù)的小批量患者數(shù)據(jù)得到普適性進(jìn)一步提高的模型。