張 杰,趙惠軍,李賢威,王亞林,張夢圓
(解放軍總醫(yī)院第六醫(yī)學(xué)中心醫(yī)學(xué)工程科,北京 100048)
在以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuralnetworks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recruit neural networks,RNN)為代表的深度學(xué)習(xí)方法迅速發(fā)展的基礎(chǔ)上,Goodfellow等[1]于2014年提出了生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN),借用二人博弈的思想,通過生成模型和判別模型的相互競爭實現(xiàn)逼真數(shù)據(jù)樣本的生成。結(jié)合神經(jīng)網(wǎng)絡(luò)獲取數(shù)據(jù)特征分布的能力和生成式方法,GAN使人工智能由感知階段進入認知階段[2],并有望推動人工智能由判斷向理解與創(chuàng)造層次邁進。
GAN提出后很快被用于自然圖像處理:在圖像合成方面,從自注意力生成式對抗網(wǎng)絡(luò)(self-attention generative adversarial networks,SA-GAN)到 Big-GANs[3],合成圖像質(zhì)量獲得穩(wěn)步提升;在圖像轉(zhuǎn)換方面,從CoupledGANs到Cycle-GAN[4],圖像的風(fēng)格轉(zhuǎn)換和季節(jié)轉(zhuǎn)換得到實現(xiàn);而Ledig等[5]提出的超分辨力生成式對抗網(wǎng)絡(luò)(super-resolution generative adversarial networks,SRGAN)使圖像分辨力獲得四倍提升。GAN在自然圖像處理任務(wù)上的成功,為醫(yī)學(xué)圖像合成提供了很好的參考。
傳統(tǒng)上醫(yī)學(xué)圖像主要是利用成像系統(tǒng)采集的數(shù)據(jù)通過算法重構(gòu)得到,提高醫(yī)學(xué)圖像質(zhì)量的方法集中在提高成像系統(tǒng)數(shù)據(jù)采集效率和改進重構(gòu)算法上。以CNN為代表的深度學(xué)習(xí)算法的出現(xiàn)提高了醫(yī)學(xué)圖像分析的效率[6-8],GAN的出現(xiàn)則進一步使醫(yī)學(xué)圖像的生成、圖像質(zhì)量的提升能夠不使用硬件采集的原始數(shù)據(jù),僅僅利用相同特征分布的圖像數(shù)據(jù)集,通過特征提取和目標(biāo)生成的方法實現(xiàn),因此為醫(yī)學(xué)圖像合成,包括圖像獲取、圖像質(zhì)量的改進以及圖像的轉(zhuǎn)換等提供了新的思路和新的可能。
相比自然圖像,用于診斷和治療的醫(yī)學(xué)圖像具有更高的分辨力、較低的對比度、樣本量更少。為了能夠通過GAN實現(xiàn)對醫(yī)學(xué)圖像的合成,從而為臨床診療提供有效支持,需要人工智能領(lǐng)域與醫(yī)學(xué)領(lǐng)域研究人員的共同努力。為進一步推進醫(yī)學(xué)圖像合成領(lǐng)域的研究,本文在簡要介紹了GAN基本框架及其在幾個方面的改進之后,對基于GAN的醫(yī)學(xué)圖像合成方面的研究進展進行了總結(jié)和分析,包括同模態(tài)圖像的生成、不同模態(tài)圖像的轉(zhuǎn)換、圖像的超分辨力與降噪、圖像的重建以及三維醫(yī)學(xué)圖像的處理;最后對下一步該技術(shù)在醫(yī)學(xué)圖像合成領(lǐng)域的研究方向進行了展望。
GAN是一種通過對抗過程來估計生成模型的框架。這個框架包含生成模型G和判別模型D。生成模型G生成樣本,而判別模型D判斷樣本是來自訓(xùn)練數(shù)據(jù)還是生成模型(基本結(jié)構(gòu)如圖1所示)。訓(xùn)練G的過程是讓D最大可能地犯錯,而訓(xùn)練D的過程是盡可能實現(xiàn)正確的判斷。對于給定的隨機向量z,生成模型得到的結(jié)果為G(z);對于真實數(shù)據(jù)x,判別模型得到的結(jié)果為D(x)。訓(xùn)練D的目標(biāo)是x作為輸入時輸出最大化,G(z)作為輸入時輸出最小化;訓(xùn)練G的目標(biāo)是G(z)作為輸入時輸出最大化。簡而言之,G和D進行雙人極大極小游戲。
圖1 GAN結(jié)構(gòu)圖
在最初的GAN中,生成模型G和判別模型D都由多層感知機組成,模型訓(xùn)練時采用梯度下降法,先固定G的參數(shù),模型D的參數(shù)更新k步,然后固定D的參數(shù),模型G更新一步,經(jīng)過多次循環(huán)得到最優(yōu)解。
在基礎(chǔ)的GAN中,目標(biāo)函數(shù)是訓(xùn)練數(shù)據(jù)空間和生成數(shù)據(jù)空間的JS散度,但當(dāng)訓(xùn)練數(shù)據(jù)和生成數(shù)據(jù)只有極小的重疊甚至沒有重疊時,JS散度是一個常數(shù),導(dǎo)致梯度下降法訓(xùn)練時出現(xiàn)梯度消失的問題。為了解決這個問題,Arjovsky等[9]提出了Wasserstein GAN(W-GAN),目標(biāo)函數(shù)由JS散度替換為Earth-Move,使訓(xùn)練梯度滿足Lipschitz連續(xù)條件,從而解決了訓(xùn)練困難和不穩(wěn)定的問題。
GAN中生成模型G接收的是隨機向量z,判別模型接收的是只有數(shù)據(jù)源的標(biāo)注信息(真或偽),因此只能隨機生成數(shù)據(jù)空間的樣本。為了能夠準(zhǔn)確生成不同類別的數(shù)據(jù),研究人員分別在G和D的輸入端加入控制條件,實現(xiàn)了不同類別數(shù)據(jù)的生成,這類模型被稱為條件生成式對抗網(wǎng)絡(luò)(conditional generative adversarial networks,CGAN)[10]。
GAN作為一種網(wǎng)絡(luò)框架,理論上能夠采用任何可微函數(shù)構(gòu)建。初始的GAN中判別模型和生成模型均采用多層感知機。鑒于CNN在判別任務(wù)中優(yōu)異的圖像處理能力,研究人員很快提出在GAN中使用CNN,但對抗模型中CNN相比全連接網(wǎng)絡(luò)更加不容易收斂,導(dǎo)致訓(xùn)練困難。為了解決對抗模型中CNN的訓(xùn)練困難問題,研究人員提出了深度卷積生成式對抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks,DCGAN)[11],采用步長卷積代替池化層、增加批量正則化等方法在一定程度上解決了訓(xùn)練困難的問題。另外,針對原始GAN只能生成連續(xù)目標(biāo)的問題,Yu等[12]提出了一種能夠生成離散序列的生成式模型,即seq-GAN,使用RNN作為生成器,通過CNN構(gòu)建判別器,并借助強化學(xué)習(xí)的獎勵機制來訓(xùn)練網(wǎng)絡(luò),實現(xiàn)了離散序列目標(biāo)的生成。
GAN不僅能夠處理二維圖像,還能生成三維目標(biāo)。結(jié)合GAN和體積卷積網(wǎng)絡(luò),Wu等[13]提出了3DGAN,在該模型中,生成器G把概率空間中隨機抽取的200維向量轉(zhuǎn)化為64×64×64的立方體,用來表示目標(biāo)的三維像素空間,判別器D判斷三維目標(biāo)是真實還是合成。結(jié)果表明該模型能夠合成高質(zhì)量的接近真實的三維目標(biāo),效果明顯優(yōu)于過去的其他非監(jiān)督學(xué)習(xí)方法。由于醫(yī)學(xué)領(lǐng)域更多的圖像是三維的,該方法也為處理三維醫(yī)學(xué)圖像提供了參考。
GAN作為當(dāng)下的熱點研究方向,改進的方面還有很多,并且還在不斷發(fā)展之中[14-15]。
Calimeri等[16]提出利用拉普拉斯金字塔結(jié)構(gòu)的GAN生成MRI圖像,運用從粗糙到精致的方式生成目標(biāo),首先利用一組生成器和判別器生成低分辨力版本的圖像,然后利用另一組生成器和判別器對圖像的分辨力進行提升,定量圖像質(zhì)量評估和人類評估的結(jié)果均表明生成的MRI圖像與真實的MRI圖像十分接近。直接處理大批量高分辨力圖像對硬件的計算能力要求很高,該方法為計算能力有限的情況下生成高分辨力圖像提供了一種有效方法。為了解決數(shù)據(jù)集中正常與帶病征圖像分布不均衡的問題,Shin等[17]提出通過GAN合成帶腫瘤病征的腦部MRI圖像,在圖像合成過程中引入多個變量,包括腫瘤大小、位置、形態(tài)等,一方面能夠更加客觀模擬人體真實病變組織,另一方面能夠顯著豐富數(shù)據(jù)集的分布,但該研究對圖像質(zhì)量的評估方法相對單一,生成的病變組織圖像是否接近真實圖像還需進一步評估。在國內(nèi),北京工業(yè)大學(xué)的劉寧等[18]運用DCGAN生成抑郁癥功能性磁共振成像(functional magnetic resonance imaging,fMRI)數(shù)據(jù),擴充了抑郁癥fMRI數(shù)據(jù)樣本,獲得的圖像數(shù)據(jù)用于抑郁癥和正常圖像分類,正確率得到顯著提高。
針對醫(yī)學(xué)圖像具有豐富細節(jié)結(jié)構(gòu)的特征,Guibas等[19]提出通過2個GAN分步合成圖像:第一步合成圖像的幾何紋路,第二步在幾何紋路的基礎(chǔ)上增加背景生成最終圖像。該網(wǎng)絡(luò)利用只有35張圖像的極小數(shù)據(jù)集合成了真實程度很高的視網(wǎng)膜圖像(如圖2所示),為小批量圖像的處理提供了很好的參考。在兩步網(wǎng)絡(luò)的基礎(chǔ)上,Costa等[20]進一步結(jié)合與任務(wù)相關(guān)的損失函數(shù)對2個網(wǎng)絡(luò)進行融合,在合成高質(zhì)量視網(wǎng)膜圖像的同時,避免了后期圖像的合并操作。Appan等[21]通過GAN合成帶病變組織的視網(wǎng)膜圖像,在這個過程中通過變量控制病變組織的嚴(yán)重程度,同時基于合成數(shù)據(jù)發(fā)展了計算機輔助診斷系統(tǒng),該研究使醫(yī)學(xué)圖像合成向臨床醫(yī)療應(yīng)用進一步邁進。
圖2 兩步合成視網(wǎng)膜圖像[19]
基于皮膚鏡圖像進行黑色素瘤自動檢測是深度學(xué)習(xí)研究較多的領(lǐng)域[22],因此皮膚鏡圖像也是醫(yī)學(xué)圖像合成的重要研究對象。為了解決過去GAN合成的醫(yī)學(xué)圖像分辨力不高的問題,Baur等[23]提出了深度區(qū)分GAN合成高分辨力的皮膚鏡圖像,評價結(jié)果表明合成的圖像和真實的圖像具有相同的特征。Yi等[24]利用W-GAN方法實現(xiàn)皮膚鏡圖像特征提取的同時合成了接近真實的皮膚鏡圖像。另外,運用GAN合成的圖像還有PET[25]、CT[26]和超聲圖像[27]。這類研究都能生成較為真實的圖像,但模型中的多種因素,如算法結(jié)構(gòu)、數(shù)據(jù)集大小等如何影響生成圖像質(zhì)量的問題沒有得到進一步探究。
某些診療過程(如放射治療計劃的制訂)必須使用CT圖像,而獲取CT圖像必然導(dǎo)致患者輻射暴露。為了減少輻射暴露,研究人員提出基于患者相同部位的MRI圖像生成CT圖像的方法[28],通過以全卷積網(wǎng)絡(luò)為基礎(chǔ)的GAN進行CT圖像的生成,獲得圖像與真實CT圖像相比十分接近(如圖3所示)。Zhang等[29]提出了使用以CNN為基礎(chǔ)的GAN結(jié)合循環(huán)一致?lián)p失函數(shù)和形狀一致?lián)p失函數(shù),實現(xiàn)MRI和CT圖像的相互轉(zhuǎn)換,并且把生成的數(shù)據(jù)用于處理分割任務(wù),取得了很好的分割成績。在這些研究的基礎(chǔ)上,研究人員進一步提出了CasNet網(wǎng)絡(luò),利用GAN結(jié)合風(fēng)格轉(zhuǎn)換損失函數(shù),實現(xiàn)了PET到CT圖像的轉(zhuǎn)換[30]。
圖3 由MRI圖像到CT圖像的轉(zhuǎn)換[28]
為了腫瘤診斷的需要,Yu等[31]提出利用CGAN進行 T1-MRI到 FLAIR(fluid attenuated inversion recovery)-MRI的轉(zhuǎn)換,所獲取的圖像能夠用于腫瘤病灶的分割。Nie等[32]提出結(jié)合全卷積網(wǎng)絡(luò)和殘差訓(xùn)練方法的GAN,用于CT到MRI和3T MRI到7T MRI圖像的轉(zhuǎn)換,取得優(yōu)于過去算法的成績。與其他研究不同,Wolterink等[33]采用GAN實現(xiàn)了非成對MRI到CT圖像之間的準(zhǔn)確轉(zhuǎn)換,該模型中GAN的生成模型和判別模型分別由2個卷積網(wǎng)絡(luò)組成。類似的,Chartsias等[34]基于GAN提出了從心臟CT到MRI圖像的轉(zhuǎn)變方法,由于同一患者的成對圖像不易取得,而醫(yī)學(xué)機構(gòu)往往積累了較多不同患者不同模態(tài)的醫(yī)學(xué)圖像數(shù)據(jù),因此該類方法具有更強的適應(yīng)性。另一方面,采用來自不同患者的圖像,轉(zhuǎn)換圖像質(zhì)量還不夠理想,如果算法同時考慮相同患者的圖像和不同患者的圖像,對提高轉(zhuǎn)換圖像質(zhì)量具有很大的潛力。
CT的大量使用使患者輻射暴露成為一個引人關(guān)注的問題,低劑量CT能夠降低人體輻射暴露,但圖像不可避免地引入更大的噪聲。過去降噪通常是采用平滑優(yōu)化的方法,難以取得滿意的效果。GAN能夠提取海量的正常劑量CT圖像的特征信息,為低劑量CT降噪提供了新的工具。Yang等[35]采用瓦瑟斯坦距離和視覺相似性參數(shù),對降噪GAN算法進行了優(yōu)化。Yi等[36]結(jié)合GAN和銳度檢測網(wǎng)絡(luò)指導(dǎo)圖像去噪,在仿真和真實數(shù)據(jù)集上的實驗結(jié)果表明圖像只有很小的分辨力損失,而噪聲得到明顯抑制(如圖4所示)。該研究的不足之處是只是將較為成熟的SA-GAN網(wǎng)絡(luò)運用于醫(yī)學(xué)圖像處理任務(wù),結(jié)果只與傳統(tǒng)算法進行對比,而未與其他結(jié)構(gòu)的GAN方法進行對比。
圖4 通過GAN實現(xiàn)低劑量CT的降噪[36]
除了信噪比,醫(yī)學(xué)圖像的分辨力是影響臨床診斷準(zhǔn)確性的另一個重要因素。國內(nèi)高媛等[37]借鑒用于自然圖像超像素處理的SRGAN網(wǎng)絡(luò),提出采用改進的32層殘差網(wǎng)絡(luò)組成生成模型,由同樣層數(shù)的卷積網(wǎng)絡(luò)組成判別模型,用于生成肺部醫(yī)學(xué)影像的二倍超分辨力圖像,取得了明顯優(yōu)于傳統(tǒng)算法的效果。
醫(yī)學(xué)圖像重建是醫(yī)學(xué)圖像處理的重要基礎(chǔ)問題之一,重建圖像的質(zhì)量和重建效率是醫(yī)學(xué)圖像應(yīng)用的關(guān)鍵。為了縮短圖像掃描時間,Shitrit等[38]提出基于GAN的MRI重建方法,通過優(yōu)化峰值信噪比,僅僅使用52%的原始數(shù)據(jù)就獲得了理想的重建效果。Yang等[39]提出了深度去混疊生成式對抗網(wǎng)絡(luò)(deep de-aliasing generative adversarial networks,DAGAN),生成模型使用了U型網(wǎng)絡(luò)的思想,判別模型使用了DCGAN的網(wǎng)絡(luò),另外將圖像損失、頻率損失、對抗損失、感受損失進行聯(lián)合,取得了很好的重建效果。同時期出現(xiàn)了一種被稱為壓縮感知GAN(generative adversarial networks for compressed sensing,GANCS)的方法[40],將最小二乘生成式對抗網(wǎng)絡(luò)(least squares generative adversarial networks,LSGAN)和 Cycle-GAN進行融合,同時將k空間數(shù)據(jù)實部和虛部變成雙通道同時輸入網(wǎng)絡(luò)進行訓(xùn)練,相比傳統(tǒng)方法獲得的圖像具有更高的對比度。對于壓縮感知MRI重建,還出現(xiàn)了將Refine-GAN引入Cycle-GAN的相關(guān)方法[41],取得的重建效果顯著優(yōu)于已有的壓縮感知重建方法。該方法借鑒了多種網(wǎng)絡(luò)的思想,其性能還可以進行進一步的挖掘。
Wolterink等[42]首先提出采用3D-GAN降低低劑量CT的噪聲,生成模型中使用65×65×19的三維像素作為輸入,經(jīng)過7層3×3×3卷積核的計算,得到51×51×5的三維像素的輸出;判別模型采用兩類三維像素作為輸入。該研究對比了3種不同的損失函數(shù)方案,結(jié)果表明采用基于體素的損失函數(shù)能夠獲得最大的圖像信噪比。類似的,Wang等[43]研究了采用3D-GAN提高低劑量PET圖像的質(zhì)量,與Wolterink等[42]研究不同的是,生成模型采用了3D U-net結(jié)構(gòu)并結(jié)合跳躍式連接,防止深層網(wǎng)絡(luò)的梯度消失,該方法生成圖像的質(zhì)量顯著高于基準(zhǔn)方法。在醫(yī)學(xué)圖像處理中,網(wǎng)絡(luò)結(jié)構(gòu)通常能夠借鑒自然圖像處理領(lǐng)域成功的模型,但研究人員必須設(shè)計針對具體任務(wù)的損失函數(shù)。一種新的多掩膜重建損失函數(shù)被用在三維肺結(jié)節(jié)圖像的生成中[44],該損失函數(shù)保證了病變組織與周圍組織的融合,在多個肺部圖像數(shù)據(jù)集上取得了很好的效果。雖然三維圖像能夠更好地表征人體組織的立體特征,但相比二維醫(yī)學(xué)圖像,描述三維圖像所需的空間維度更大,在數(shù)據(jù)有限的前提下,更加容易出現(xiàn)網(wǎng)絡(luò)過擬合問題。
圖像重構(gòu)作為醫(yī)學(xué)圖像領(lǐng)域的基礎(chǔ)問題,重構(gòu)方法的有效性是獲取高質(zhì)量圖像的關(guān)鍵。GAN已經(jīng)用于MRI圖像的重建,并取得了不錯的重建效果,但對于其他模態(tài)成像方法,GAN還未涉及。下一步,在不同模態(tài)圖像的重構(gòu)過程中引入GAN,提高圖像重構(gòu)質(zhì)量和重構(gòu)效率,降低醫(yī)學(xué)圖像的成像成本,是一個十分重要的研究方向。
隨著醫(yī)學(xué)影像在診斷和治療中的廣泛應(yīng)用,醫(yī)療機構(gòu)已經(jīng)積累了大量的醫(yī)學(xué)圖像數(shù)據(jù)。不同人的組織圖像具有很大的特征相似性,如果能夠提取共有的特征運用到未來患者的診斷和治療中,必將顯著提高醫(yī)療效率,GAN的出現(xiàn)為實現(xiàn)這個目的提供了有效方法,但這方面的研究還不夠深入。另外,雖然GAN能夠生成各種模態(tài)的醫(yī)學(xué)圖像,但生成圖像的目的主要還是為了理論計算、為算法提供數(shù)據(jù)支持等,而直接運用于臨床診斷或者臨床訓(xùn)練的情況還比較少。因此,通過GAN處理醫(yī)學(xué)圖像,運用獲取的豐富的圖像信息實現(xiàn)對臨床診療的直接支持,是一個具有顯著意義的研究問題,值得引起相關(guān)領(lǐng)域研究人員更多的關(guān)注。