莫曉盈,楊 鋒,2,尹夢曉,2,石華榜
1(廣西大學 計算機與電子信息學院,南寧 530004)
2(廣西多媒體通信與網(wǎng)絡技術重點實驗室,南寧 530004)
圖像配準是圖像處理的一個重要領域,配準指的是將兩個或多個圖像進行幾何對齊,使源圖像(移動圖像)上的每一個點在目標圖像(固定圖像)上都有唯一的點與其對應,旨在尋找不同圖像之間的空間變換關系,其目的是去除或者抑制待配準圖像之間的幾何不一致.圖像配準是圖像分析和處理的關鍵步驟,是圖像融合、分析和目標識別的必要前提.
現(xiàn)代醫(yī)學技術飛速發(fā)展,醫(yī)學影像學可以用于篩查疾病和檢測治療效果,為疾病診斷做出了巨大貢獻.常見的醫(yī)學影像技術有:計算機斷層掃描成像(CT)、磁共振成像(MR)、正電子發(fā)射斷層成像(PET)等.每種醫(yī)學影像技術都有其各自的優(yōu)點與缺點,比如:MRI核磁共振圖像對人體的軟組織器官有極佳的成像效果,而且其圖像質量很好、分辨率高.但是體內(nèi)帶有金屬異物的患者不能接受核磁共振檢查,而且核磁共振有檢查掃描時間長、器官的周期性運動易造成偽影、價格昂貴的缺點.CT成像逼真、清晰,對于血管和骨頭的造影效果非常好,可以用來突出解剖結構,將解剖結構與周圍其他組織區(qū)分開來.但CT成像過程中需要暴露在X射線下,有致癌的風險.PET可以檢測人體的代謝情況,但其分辨率低、采集時間長.這些醫(yī)學影像是無法相互取代的,若能夠結合他們的優(yōu)點將會對診斷治療工作提供很大的幫助,因此配準技術的出現(xiàn)至關重要.
配準技術可以提高檢測治療效果的效率,同時,該技術可以最大化地將不同模態(tài)或時間的醫(yī)學圖像融合,提高信息利用率和診斷的準確性.配準算法包括了變形模型、目標函數(shù)、優(yōu)化算法3個組成部分.其中,配準算法的效果主要依賴于定義變形模型和目標函數(shù).
傳統(tǒng)的配準方法為一個迭代優(yōu)化的過程:通過特征匹配將圖像進行匹配變換,首先提取圖像中的特征信息,然后選擇空間變換方式,計算圖像之間相似性,最后選擇合適的優(yōu)化方法不斷迭代優(yōu)化,使得配準后的圖像相似性最高.若需要提高配準的準確度,首先要將圖片的像素信息轉換為更低維度的特征信息,然后再進行特征提取,因此特征提取尤為重要.常用的特征包括:角點、LPB、SURF、質心或模板[1].提取特征信息的方法中,有一部分使用了自動的特征提取方法,另外還有一部分是將手動描述特征與自動化特征提取相結合,通過手動或自動化提取圖像中的明顯結構特征.常見的空間變換模型有剛體變換、仿射變換、投影變換、彎曲變換等.相似性度量是衡量移動圖像與固定圖像間的相似程度,常見的相似性度量指標有:差值平方和(SSD)、絕對誤差和(SAD)、歸一化互相關(NCC)及互信息(MI)[2]等.
基于深度學習的方法大致可以分為兩類:1)利用深度學習網(wǎng)絡估計兩幅圖像的相似性度量,驅動迭代優(yōu)化;2)直接利用深度回歸網(wǎng)絡預測變換參數(shù).上面所描述的兩類基于深度學習的方法中,第1類方法只利用了深度學習進行圖像的相似性度量,仍然需要傳統(tǒng)配準方法進行迭代優(yōu)化,其計算要求高、迭代慢,只減輕了非凸導數(shù)的問題,在深度相似網(wǎng)絡訓練中,仍然難以獲得對齊效果良好的圖像對[3].因此本文將重點介紹第2類方法.
自從2012年AlexNet[4]在ImageNet挑戰(zhàn)中大獲成功以來,深度學習開始被廣泛地應用到計算機視覺研究與應用中.機器學習具有自組織、自學習和自適應性和很強的非線性特性[5].同時,處理速度與內(nèi)存容量的提升為高強度配準方法提供了計算環(huán)境,GPU大大提升了基于深度學習的配準算法的計算速度.傳統(tǒng)的配準方法可能會存在需要手動配準的缺點,雖然已經(jīng)開發(fā)出了很多自動配準的方法,但目前傳統(tǒng)的配準方法在處理速度和效果上有待提升.由于可以克服一些傳統(tǒng)的配準方法存在的缺點,同時提高配準的準確度與效率,基于深度學習的配準方法具有廣大的發(fā)展前景與提升空間.
目前2D-2D的圖像配準已逐漸不能夠滿足臨床診斷的需求,而3D-3D圖像的配準通常需要大量計算,運用于3D圖像上的配準對于準確度和效率要求都很高,因此人們提出了很多方法來解決這些問題,比如:Demons[6]、ELASTIX[7]、微分同胚、基于樣條的方法等.但是傳統(tǒng)配準方法仍存在一些局限性,比如:適用范圍較窄、可能只適用于某一些特定模態(tài)的圖像.深度學習可以充分利用各種海量數(shù)據(jù),包括標注數(shù)據(jù)、弱標簽數(shù)據(jù)或者僅僅使用數(shù)據(jù)本身,自動地學習到抽象的知識表達[8].有許多研究團隊致力于提升單模態(tài)醫(yī)學圖像的配準效率與準確度,但是單一模態(tài)的醫(yī)學影像為診斷提供的信息是有限的,而多模圖像配準有利于反映病變區(qū)域空間位置的對應關系和綜合評價病人病理特性,在疾病診斷、手術規(guī)劃、放射治療和疾病治療跟蹤等應用中都起到重要作用,可以提供更全面、互補的信息.因此深度學習的方法逐漸影響著醫(yī)學圖像配準這一研究領域,人們開始嘗試著提升基于深度學習的圖像配準精度,其準確度已經(jīng)能夠與傳統(tǒng)配準方法媲美,并且引入深度學習用于研究多模態(tài)醫(yī)學影像的配準問題.
本文的目的在于闡述基于深度學習的醫(yī)學圖像配準領域發(fā)展現(xiàn)狀,同時討論目前為止所遇到的問題與挑戰(zhàn).在對基于深度學習的醫(yī)學圖像配準進行討論之前,介紹一下文章的結構:首先闡述配準的定義與基于深度學習的配準方法存在的必要性.然后介紹有監(jiān)督變換估計、無監(jiān)督變換估計和使用生成對抗網(wǎng)絡的3類配準方法目前的部分科研成果與發(fā)展現(xiàn)狀,并介紹配準常用的數(shù)據(jù)集、評價指標,基于相同數(shù)據(jù)集對幾種配準方法進行效果分析與對比.最后對配準領域的發(fā)展趨勢進行討論并對本文進行總結.
如引言所介紹的那樣,基于深度學習的方法大致可以分為兩類:第1類是利用深度學習網(wǎng)絡估計兩幅圖像的相似性度量,驅動迭代優(yōu)化;第2類是直接利用深度回歸網(wǎng)絡預測變換參數(shù),本文主要介紹第2類方法.下面將分別介紹3種基于深度學習的醫(yī)學圖像配準方法:監(jiān)督變換估計、無監(jiān)督變換估計和配準中使用生成對抗網(wǎng)絡的方法.
基于監(jiān)督變換估計的配準,就是在訓練學習網(wǎng)絡時需要提供與待配準圖像對應的標準標簽數(shù)據(jù).常見方法是以兩幅圖像對應坐標為中心點進行切塊,將圖像塊輸入深度學習網(wǎng)絡(通常為卷積神經(jīng)網(wǎng)絡),輸出圖像塊中心點對應的形變向量.獲取標準標簽數(shù)據(jù)有兩種方式:1)是利用傳統(tǒng)的經(jīng)典配準方法進行配準,得到的變形場作為標簽;2)是對原始圖像進行模擬變形,將原始圖像作為固定圖像,變形圖像作為移動圖像,圖像對的模擬變形場即為標簽.
若已經(jīng)知曉需要得到的輸出結果,即擁有了已經(jīng)標記好的數(shù)據(jù)集,那么就稱該神經(jīng)網(wǎng)絡的學習過程是被監(jiān)督的.弱監(jiān)督的配準方法使用標準標簽數(shù)據(jù)和一些其他的相似性度量指標來訓練模型,雙重監(jiān)督則意味著網(wǎng)絡同時使用監(jiān)督和無監(jiān)督損失函數(shù)進行訓練.
變換估計方法為配準研究提供了新的思考方向,讓配準從傳統(tǒng)走向深度學習,在機器飛速發(fā)展的條件下能夠更好地將計算機資源利用起來.基于監(jiān)督的方法還是存在一定的缺點,這種方法需要大量已經(jīng)被標注好的圖像用于訓練,雖然弱監(jiān)督和雙重監(jiān)督的方法能夠一定程度上減輕對于標簽數(shù)據(jù)的需求,但是它們?nèi)匀粺o法擺脫對標簽數(shù)據(jù)的需求.從另一個方面來說,擁有標簽數(shù)據(jù)為實驗提供了可參考的標準結果,有益于后期進行實驗效果的比較.
下面將分別介紹配準研究中已經(jīng)實現(xiàn)的基于完全監(jiān)督估計、弱監(jiān)督估計和雙重監(jiān)督估計的配準方法.
2.1.1 完全監(jiān)督估計
常見的有監(jiān)督配準方法的基本流程如圖1所示,首先將固定圖像和移動圖像輸入網(wǎng)絡中獲得變換參數(shù),根據(jù)標準標簽數(shù)據(jù)與變換參數(shù)的差值獲得損失值,然后將損失值反向傳播至網(wǎng)絡中迭代以獲取更好的效果,最后得到效果良好的輸出值.下面將介紹一些使用完全監(jiān)督估計的配準方法,下文所提到的方法的概覽如表1所示,表1展示了各個方法所適用的維度、變換形式、圖像類型和部位.

表1 基于監(jiān)督的配準方法概覽

圖1 監(jiān)督配準方法框架圖
Miao等人是第一個使用深度學習算法來預測圖像的配準變換參數(shù)的團隊.現(xiàn)有的配準方法局限性在于計算速度慢、捕獲變形的范圍小,針對這些局限性他們構造了一個5層的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)結構,用CNN回歸器直接估計變換參數(shù),對3D的CT圖像與2D的X射線脊柱圖像進行剛性配準.該方法相較于部分傳統(tǒng)的基于強度的配準方法來說,效果有顯著的改善[9].后續(xù)的工作中[10],Miao等人提出了一個新的6層CNN網(wǎng)絡結構,直接根據(jù)數(shù)字重建射線照片(DRR)和X射線圖像來估計變換參數(shù),該方法可以使用少量的DRR渲染實現(xiàn)精確的2D/3D配準,具有很高的計算效率,更適用于實時配準.
Cao等人使用了一個9層的CNN模型[11],將CNN模型以逐塊方式設計,對塊的外觀信息和局部位移進行編碼,從不同圖像的相同位置提取兩個補丁,然后使用CNN產(chǎn)生的位移向量對齊兩個補丁,這些位移向量的總和構成了密集變形場(Dense Deformation Field,DDF),即圖像的變形場,DDF被用于配準3D的腦部MR圖像.據(jù)他們稱,這個方法的效果優(yōu)于SyN[12]和Demons[6].除此之外,Cao等人使用了一種基于深度回歸網(wǎng)絡的方法來預測圖像之間的變形場[13],并提出使用局部相似度圖(similarity maps)提高基于深度學習網(wǎng)絡模型的準確性、魯棒性和泛化能力.
Salehi等人旨在實現(xiàn)實時的3D胎兒腦部MR圖像的剛性配準,并提高配準的變形捕獲范圍[14].Salehi等人使用圖像特征來預測3D旋轉和平移的角軸值,他們將圖像隨機旋轉,然后將其與原圖像之間的形變用于訓練網(wǎng)絡,將測地距離與均方誤差值(Mean squared error,MSE)用于計算損失函數(shù).
Uzunova等人使用了FlowNet框架[15],同時使用了3種方法用于生成標準標簽數(shù)據(jù)[16]:仿隨機生成、仿射配準生成和統(tǒng)計外觀模型(SAM)生成變換,然后利用合成變形場對腦部和心臟的2D MR圖像進行配準.Uzunova等人的文章表明,這3種方法中,基于SAM生成的標準標簽數(shù)據(jù)進行的CNN的學習和訓練效果是最好的.
相似地,Sentker等人也使用了生成標準標簽數(shù)據(jù)的方法來進行配準[17].有一部分學者利用傳統(tǒng)的配準方法對圖像對進行配準,然后生成標準標簽,比如Sentker等人利用DIR生成的變形向量場(Deformable vector field,DVF)作為標準標簽,將預測值與標準標簽之間的均方誤差值作為損失函數(shù),用于配準肺部的3D CT圖像.
Eppenhhof等人針對肺部的配準問題,也提出了一種基于CNN的方法[18]估計3D圖像的非線性配準中的配準誤差.此外,Eppenhhof等人對U-Net架構[19]進行改造,并使用訓練圖像的合成幾何變換來訓練網(wǎng)絡,對肺部的3D CT的可變形圖像進行配準[20].
多尺度隨機變換減少了對于手動標注的標準標簽數(shù)據(jù)的需求,可以在訓練網(wǎng)絡中以較少的數(shù)據(jù)獲得良好的性能.這個方法的提出也進一步證實了使用深度學習進行直接變換預測的可能性.在后續(xù)的工作中,Eppenhhof等人提出使用逐步訓練神經(jīng)網(wǎng)絡來解決[20]中無法估計復雜變形場中較大位移的問題.他們提出,先在低分辨率上訓練較小的網(wǎng)絡,再在高分辨上訓練較大的網(wǎng)絡,這樣的做法可以有效解決大型網(wǎng)絡不敏感的問題,同時可以有效地提高配準精度[21].
2.1.2 弱/雙重監(jiān)督估計
雙重監(jiān)督通常是指使用標準標簽數(shù)據(jù)和一些圖像相似性度量共同產(chǎn)生的損失函數(shù)對網(wǎng)絡進行訓練,雙重監(jiān)督可以減輕對標準標簽的依賴性.弱監(jiān)督通常指的是在訓練數(shù)據(jù)集中提供精確輸出以外的標準標簽數(shù)據(jù)值并用于計算損失函數(shù).弱監(jiān)督方法是用于多模式圖像配準的無監(jiān)督方法的變體,對網(wǎng)絡進行訓練以優(yōu)化一個輔助任務,但該輔助任務不會受到模態(tài)差異的影響.
Hu等人利用標簽相似性替代圖像相似性用于訓練網(wǎng)絡,他們構建了一個30層的全卷積神經(jīng)網(wǎng)絡(FCN)[22]網(wǎng)絡,對前列腺的MR-TRUS圖像進行配準.在訓練中通過輸出密集變形場(DDF)來優(yōu)化卷積神經(jīng)網(wǎng)絡,變形場會扭曲來自移動圖像的一組可用的解剖學標簽,以匹配固定圖像中的相應解剖標簽[23].在后續(xù)工作中,Hu等人提出從解剖標簽中包含的更高級別的對應信息中推斷體素級別的轉換,并介紹了一個框架,該框架使用解剖標簽和完整的圖像體素強度作為訓練數(shù)據(jù),旨在實現(xiàn)全自動的、可變形的圖像配準[24].
Fan等人將監(jiān)督與無監(jiān)督損失相結合,利用雙重監(jiān)督來預測腦部的3D MR配準的變形場.Fan等人使用了分層雙監(jiān)督的FCN[22]來解決缺少標準標簽數(shù)據(jù)的問題[25].該網(wǎng)絡使用了標準標簽數(shù)據(jù)和圖像相似性度量兩種監(jiān)督方式,同時在網(wǎng)絡的每一層中都加入一個損失函數(shù),使得一些層更容易收斂.同時,在U-net[19]框架基礎上使用間隙填充,提出了一個網(wǎng)絡架構“BIRNet”,將預測變換與標準標簽數(shù)據(jù)變換之間的均方誤差(MSE)作為損失函數(shù),并使用預先配準的標準標簽數(shù)據(jù)和圖像相似性來訓練網(wǎng)絡.
Cao等人使用了MR-MR損失和CT-CT損失兩種損失來進行雙重監(jiān)督配準[26],即他們使用了同模態(tài)內(nèi)的圖像相似性來進行監(jiān)督配準.Cao等人提出在測試階段根據(jù)輸入的CT和MR圖像直接預測變換場.他們通過預對齊圖像,將多模態(tài)配準轉換為單模態(tài)配準,用于MR-CT配準.他們使用標準標簽數(shù)據(jù)與預測變換扭曲待配準圖像之間的歸一化互相關(Normalized cross-correlation,NCC)作為損失函數(shù).相似地,Liu等人也使用監(jiān)督合成變換和非監(jiān)督描述圖像相似性進行訓練[27].
與Liu等人使用全局語義的方法相似,Hering等人結合全局語義信息(帶分割標簽的監(jiān)督學習)和從經(jīng)典醫(yī)學圖像配準中獲得的支持局部結構對齊的局部距離度量的互補優(yōu)勢,構造了基于標簽和相似性度量的損失函數(shù)[28],通過2D造影MR圖像的可變形配準對心臟運動進行追蹤.據(jù)他們稱,該方法的效果優(yōu)于一些多級配準方法的效果.
相較于監(jiān)督學習,基于無監(jiān)督學習的配準方法就是在訓練學習網(wǎng)絡時,只需要提供配準對,不需要標準標簽數(shù)據(jù)(即真實的變形場).因此,該類方法在訓練與測試階段,均不需要依靠傳統(tǒng)的配準方法進行輔助.以二維圖像配準為例,無監(jiān)督配準方法的流程如圖2所示,下文所提到的方法的概覽如表2所示.

表2 基于無監(jiān)督的配準方法概覽

圖2 無監(jiān)督配準方法框架圖
無監(jiān)督變換預測目前為主有兩種常見的方法:第一種是基于相似性度量的無監(jiān)督變換估計,通常使用圖像的相似性度量與常見的正則化策略來定義損失函數(shù)[29].第二種是不需要標準標簽數(shù)據(jù)的、基于特征的無監(jiān)督變換估計.
通常,基于非監(jiān)督學習的配準將配準對輸入網(wǎng)絡,獲得變形場,對移動圖像進行變形插值,即得配準圖像.三維圖像與之類似,將三維圖像輸入網(wǎng)絡,獲得變形場,再插值得到配準圖像.無監(jiān)督變換預測的難點在于:若缺少具有已知轉換的訓練數(shù)據(jù)集和標準標簽數(shù)據(jù)變換,難以定義網(wǎng)絡的損失函數(shù).然而2015年Jaderberg等人提出了空間變壓器網(wǎng)絡(STN)[30],STN在訓練過程中可以進行圖像相似性的損失計算,而且它可以插入到現(xiàn)有的CNN框架中.STN的提出啟發(fā)了眾多研究者們對于無監(jiān)督變換預測的新思路:使用無監(jiān)督變換預測網(wǎng)絡獲得密集變形場,然后使用STN生成扭曲圖像,將其與固定圖像進行比較,用于計算圖像相似性損失.
de Vos等人提出了一個無監(jiān)督的圖像配準框架“DLIR”[31],該框架利用固定圖像和移動圖像之間的相似性來訓練網(wǎng)絡,通過優(yōu)化神經(jīng)網(wǎng)絡來間接優(yōu)化變換參數(shù),預測的變換參數(shù)用于構建密集位移矢量場.在另一項工作中,de Vos等人提出了可用于可變形圖像配準的深度學習網(wǎng)絡“DIRNet”[32].DIRNet由卷積神經(jīng)網(wǎng)絡回歸器、空間變換器和重采樣器組成,通過直接優(yōu)化固定圖像和移動圖像之間的相似性來學習配準圖像,從而實現(xiàn)心臟MR圖像的配準.
Li等人也利用了圖像相似性進行配準,他們通過最大化固定和移動圖像之間的圖像相似度來直接估計圖像對之間的空間變換[33,34].Li等人通過對FCN[22]架構進行改造和采用多分辨率策略,優(yōu)化、學習不同分辨率下的空間變化,并將使用移動圖像與固定圖像之間的NCC和其他的一些正則項構造該方法的損失函數(shù).
相似地,Yoo等人[35]提出將卷積自動編碼器(CAE)和STN[30]相結合,計算得到了圖像對之間基于特征的相似性,利用自動編碼器(CAE)以無監(jiān)督的方式訓練網(wǎng)絡,實現(xiàn)對神經(jīng)組織電子顯微鏡(ssEM)圖像的無監(jiān)督變換估計.
Krebs等人提出了一種無監(jiān)督學習的可變形配準算法[36],該方法使用了隨機潛在空間學習方法,這一做法不需要進行空間正則化,與Yoo等人[35]引入自動編碼器(CAE)的做法相比,Krebs等人通過使用條件變分自動編碼器(cVAE),生成網(wǎng)絡對移動圖像的編碼器和解碼器進行約束,同時引入求冪層來制造微分同胚變形,對3D腦部和心臟MR圖像進行可變形的無監(jiān)督配準.
Balakrishnan等人設計了一個配準框架“VoxelMorph”[37,38],該配準框架由一個配準網(wǎng)絡與一個分割網(wǎng)絡組成,框架由U-Net[19]改造而成.該框架的損失函數(shù)由圖像相似性與分割值的重合度組成,分割結果在一定程度上能夠幫助提高配準的準確度.該網(wǎng)絡是一個無監(jiān)督圖像配準的通用框架,不需要標準標簽數(shù)據(jù)或其他監(jiān)督信息,適用于單模態(tài)或多模態(tài)的圖像配準.他們將配準公式化為一個函數(shù),該函數(shù)將輸入圖像對映射到對齊這些圖像的變形場,通過卷積神經(jīng)網(wǎng)絡對函數(shù)進行參數(shù)化,并在一組圖像上優(yōu)化神經(jīng)網(wǎng)絡的參數(shù).每當提供一對新的圖像時,VoxelMorph將通過直接評估函數(shù)快速計算變形場.Balakrishnan等人稱VoxelMorph模型性能與ANTs[12]方法的性能相當,而且只需要更少的計算時間.在后續(xù)的工作中,Dalca等人利用微分同胚來預測變形,將MSE用作相似性度量并與正則項相結合來構造損失函數(shù),用于對腦部MR圖像的無監(jiān)督配準[39].
Kuang等人受STN[30]方法的啟發(fā)提出了一種無監(jiān)督配準方法“FAIM”[40],該方法利用CNN和STN對腦部MR進行可變形配準,并使用NCC和正則項構造損失函數(shù).與基于U-net[19]結構的配準網(wǎng)絡相比,比如Balakrishnan等人提出的VoxelMorph[37,38],Kuang等人提出的FAIM需要訓練的參數(shù)更少,獲得的配準精度更高.
Ferrante等人使用了類似U-Net[19]的網(wǎng)絡結構和STN[30]執(zhí)行特征提取和變換估計,將NCC用于構造損失函數(shù),利用基于遷移學習的方法對骨頭和心臟造影的X射線、MR圖像進行可變形配準[41].
Zhang等人基于FCN[22]提出了一個新的網(wǎng)絡結構——網(wǎng)絡逆一致深度網(wǎng)絡(ICNet)[42],以用于解決不同模態(tài)間的非剛性圖像配準問題.該方法引入了反一致和反折疊約束,促使一對圖像朝著彼此對稱變形,直到兩個變形圖像匹配為止.逆向一致的深度網(wǎng)絡(ICNet)[43]可以對腦部MR圖像的DIR進行端到端的DVF預測.Zhang等人不僅使用了常規(guī)的平滑度約束,還提出了一種抗折疊約束,以進一步避免變換中的折疊.Zhang等人的方法效果優(yōu)于基于SyN的方法[12]和基于Demons[6]的方法.類似地,Kim等人提出利用循環(huán)一致性訓練CNN來對3D體積的可變形配準[44],利用周期一致的損失來實施DVF正則化.
Ghosal等人基于FCN[22]構建了一個無監(jiān)督可變形配準框架,最小化移動圖像和固定圖像的平方差總和的上限(upper bound to the sum of squared differences UB-SSD),并將該方法稱為“DDR”[45],用于配準腦部的MR圖像.
Jiang等人提出了一個用于肺部CT圖像的可變形配準的模型[46],該模型整合了3個CNN,網(wǎng)絡通過使用圖像補丁來優(yōu)化圖像相似性損失和減小變形場的平滑度損失.與基于完全監(jiān)督的Liu等人[27]提出的方法相比,Liu等人摒棄了補丁的做法而使用了全局語義,Liu等人將來自不同模態(tài)的圖像映射到公共表示空間,以促進模態(tài)之間的語義比較,然后對通過對特征圖的不確定估計發(fā)現(xiàn)感興趣的區(qū)域,通過在該架構中集成可微分的幾何約束完成傳統(tǒng)的匹配步驟.
配準中使用生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN)的方法一般可以分為兩種:提供預測變換的額外正化或執(zhí)行跨域圖像映射.目前常見的方法是:通過引入基于網(wǎng)絡的損失來訓練對抗網(wǎng)絡,訓練鑒別器區(qū)分輸入類型,區(qū)分該變換是預測還是真實標簽、圖像是真實還是由預測變換扭曲的圖像、圖像對齊是正對齊還是負對齊.
常見的基于生成對抗網(wǎng)絡的配準方法流程如圖3所示,基于生成對抗網(wǎng)絡的配準方法概覽如表3所示.

圖3 基于生成對抗網(wǎng)絡的圖像配準框架圖

表3 基于生成對抗網(wǎng)絡的配準方法概覽
Yan等人提出了使用GAN對3D的前列腺的MR和TRUS圖像進行剛性配準的配準方法“AIR-net”[47],Yan等人借鑒了Arjovsky等人改進的Wasserstein GAN(WGAN)版本[48],鑒別器用來識別圖像是使用標準標簽數(shù)據(jù)進行變換對齊還是預測對齊,生成器用來估計剛性配準.Yan等人提出的方法不僅提供配準估計器,同時提供質量評估器,質量評估器可用于質量檢查以檢測潛在的配準失敗.
Hu等人使用傳統(tǒng)的配準方法生成一個局部的變形場,然后構建一個GAN框架來實現(xiàn)MR-TRUS圖像的局部變形的正則化[49].Hu等人用對抗性損失替代了平滑性損失,在損失函數(shù)中添加了預測變形場的L2范數(shù),最大化標簽相似性、最小化對抗性損失項,最大程度地提高促使圖像對齊的解剖標簽之間的相似性,減少對抗生成器的損失,以測量預測變形與模擬變形之間的差異.
Fu等人提出了一種無監(jiān)督的3D肺部CT圖像的配準方法“LungRegNet”[50],由兩個子網(wǎng)“CoarseNet”和“FineNet”組成.兩個網(wǎng)絡均包含一個生成器和一個鑒別器,生成器可以直接預測變形場使移動圖像變形,鑒別器可以區(qū)分變形的圖像與原始的圖像.使用CoarseNet訓練可以使移動圖像變形,然后將變形后的圖像用于FineNet訓練.CoarseNet在粗略圖像上預測較大的肺部運動,F(xiàn)ineNet在細度圖像上預測局部的肺部運動.
Fan等人使用GAN對3D腦部MR圖像進行無監(jiān)督的可變形配準[51].鑒別器鑒別一對圖像是否足夠相似,其結果反饋用于訓練配準網(wǎng)絡.其他的GAN網(wǎng)絡大多用于確保預測變形真實,F(xiàn)an等人提出的配準方法不需要真實的形變或預定義的相似性度量,而是基于判別網(wǎng)絡自動地學習相似性度量.
Mahapatra等人使用了GAN和cycleGAN[52]進行圖像的合成和轉換,損失函數(shù)中增加了結構相似性指數(shù)度量(Structural Similarity,SSIM)損失和特征感知損失項[53].在另一項工作中,Mahapatra等人提出使用GAN同時分割和配準胸部X光圖像,用歸一化互信息(Normalized Mutual Information,NMI)、SSIM和特征感知損失項訓練生成器,用3個鑒別器來評估生成的變形場、變形圖像和分割圖像的質量[54].
Lei等人利用無監(jiān)督的CNN實現(xiàn)了3D的腹部CT圖像配準[55],他們提取多尺度運動功能來預測變形場,為變形場正則化提供額外的對抗性損耗,并通過鑒別器來判斷扭曲的圖像是否足夠逼真.
本章節(jié)將介紹配準領域常見的數(shù)據(jù)集、目前主流的評價指標,通過對相同數(shù)據(jù)集的不同方法的實驗結果來分析目前配準方法的特點.
目前用于醫(yī)學圖像處理領域的數(shù)據(jù)集很多,較常見的數(shù)據(jù)集有 DIRLAB、LPBA40、Sunnybrook cardiac cine(SCD)、ADNI、OASIS、POPI、NIH和LUNA16等,下面將簡單介紹DIRLAB、LPBA40、SCD、ADNI和OASIS這5個數(shù)據(jù)集.
DIRLAB數(shù)據(jù)集是由得克薩斯大學M.D.Anderson癌癥中心獲得的10幅胸部4D-CT圖像組成的,其中包括5名無疾病和5名胸椎惡性腫瘤患者的4D-CT掃描序列數(shù)據(jù)集,包括了患者的4D CT圖像,其中4D-CT圖像又包含5個3D-CT圖像,包括了從吸氣結束到呼氣結束的完整呼吸循環(huán).
LONI概率腦圖集(又稱作LPBA40數(shù)據(jù)集)[56]是由40位志愿者的全頭部MRI圖像和大腦中56個結構的手動標記輪廓線組成,大部分結構位于皮質層內(nèi).
Sunnybrook心臟數(shù)據(jù)(SCD)也被稱為2009心臟MR左心室分割挑戰(zhàn)數(shù)據(jù),由45個電影MRI圖像組成,其中包括了4種病例類別:健康、肥大、心力衰竭與梗死,心力衰竭但未梗死.該數(shù)據(jù)集分為訓練集、驗證集和評估集,每組都包含了15個掃描件,且病理類別均等,同時為使用者提供手動分割的左心室舒張末期(ED)和收縮末期(ES)體積用于評價.該數(shù)據(jù)集首次被用于MICCAI研討會于2009年舉辦的心肌MRI自動分割挑戰(zhàn)賽中.
ADNI數(shù)據(jù)集包括了臨床數(shù)據(jù)(Clinical Data)、MRI數(shù)據(jù)(MR Image Data)、PET圖像數(shù)據(jù)(PET Image Data)、遺傳數(shù)據(jù)(Genetic Data),生物樣本數(shù)據(jù)(Biospecimen Data)以及標準化MRI成像數(shù)據(jù)集(Standardized MRI Data Sets).ADNI包括4個子集:ADNI-1、ADNI-GO、ADNI-2和ADNI-3.
ADNI-1的建立是為了開發(fā)生物標記作為臨床試驗的結果指標.ADNI-GO的建立是為了檢查疾病早期階段的生物標記,為此招募了200名阿爾茨海默氏病癥狀輕微患者進行研究,同時還對來自ADNI-1的約500名受試者繼續(xù)進行研究.ADNI-2旨在確定阿爾茨海默氏病的臨床、影像學、遺傳和生化生物標志物特征之間的關系,開發(fā)生物標記作為認知發(fā)展的預測指標,除了繼續(xù)提取ADNI之前的700名受試者這5年的DNA與RNA進行研究,還加入了500名受試者進行研究.ADNI-3大多用于在臨床試驗中使用tau PET和功能成像技術的研究.
OASIS是一個旨在免費提供腦補核磁共振數(shù)據(jù)集的項目,OASIS數(shù)據(jù)集至今已發(fā)布了3個版本,最新版本的OASIS-3包括了兩個數(shù)據(jù)集:橫截面數(shù)據(jù)集(OASIS-Cross-sectional(Marcus et al,2007))和縱向數(shù)據(jù)集(OASIS-Longitudinal(Marcus et al,2010)).OASIS-3數(shù)據(jù)集的受試者包括609名認知正常和489名處于認知衰退階段的人,該數(shù)據(jù)集包括了2000多個MR圖集和來自3個不同的示蹤劑、超過1500個原始掃描圖像的PET圖像,其中許多MR圖集都包括了使用FreeSurfer處理生成的分割文件[57].
常見的性能評價指標有:魯棒性[58]、精度、抗噪性等.魯棒性(robustness)是指配準算法精確度的穩(wěn)定性,也可以認為是算法的可靠性.精確度是指進行配準計算后得到的估計值與金標準之間的差異,差值越小說明配準效果越好.
金標準是用來衡量配準算法實驗效果的重要依據(jù),它可以評價配準方法是否達到臨床需求以及方法的性能優(yōu)劣.但是由于醫(yī)學影像的成像條件是不同的,因此沒有一個絕對正確的標準,即使是同一張圖像,由不同醫(yī)生進行手動注釋也會存在差異.配準方法的效果與具體的實踐方法息息相關關,對于配準算法,業(yè)界內(nèi)尚無一致肯定的評價標準,這是由醫(yī)學影像的模糊性和來源不一致所導致的.
現(xiàn)階段許多基于深度學習的研究是直接利用深度回歸網(wǎng)絡預測變換參數(shù),當進行監(jiān)督變換估計時,其數(shù)據(jù)集大多為已經(jīng)標記好的數(shù)據(jù)集,大部分實驗會將該數(shù)據(jù)集上的標準標簽數(shù)據(jù)定義為“金標準”.而無監(jiān)督變換估計大多采用無標記的數(shù)據(jù)集,可以通過使用配準軟件進行處理后或其他方法處理過的標簽數(shù)據(jù)作為金標準.
目前,配準方法使用的評價指標有:目標配準誤差(target registration error of landmarks,TRE)、DICE相似性系數(shù)(dice similarity coefficient,DSC,DICE)、HD95(Hausdorff_95)、雅可比行列式(Jacobian determinant)等,下面將簡單介紹這幾種常見指標的計算方法.
目標配準誤差(target registration error of landmarks,TRE)指的是配準后基準點與相應點之間的距離,對于規(guī)則網(wǎng)格或均勻分布上固定的3D點,通常建議使用金標準的點和與之對應轉換的點用于計算TRE值.
DICE相似性系數(shù)是一種集合相似度度量指標,通常用于計算兩個樣本的相似度,值的范圍為(0,1),其值越趨于1時兩個樣本的重合度越高.假設有兩個集合A和B,計算A與B的DICE相似性系數(shù)的方法為:DICE=2(A∩B)/(A+B).
Hausdorff距離是用于描述兩組點集之間相似性程度的一種度量,假設有兩個集合A={a1,a2,…,an}和B={b1,b2,…,bn},則雙向Hausdorff距離的一般形式為:H(A,B)=max(h(A,B),h(B,A)),其中h(A,B)=max(a∈A)min(b∈B)||a-b||,h(B,A)與h(A,B)計算方式相同,由Hausdorff距離公式可以看出它可以度量兩個點集之間的最大不匹配程度.HD95指標計算的是Hausdorff距離值乘以95%,目的是為了消除離群值的一個非常小的子集的影響.
一般在配準后會得到圖像的變形場,即圖像的每個像素的位移形變的場,簡稱為密集變形場(dense displacement vector field,DVF).以三維數(shù)據(jù)為例,假設DVF上存在點J(i,j,k),則雅可比行列式可以寫為:
通過計算雅各比行列式的值可以判斷該點是否發(fā)生折疊,從而量化DVF的質量、判斷配準結果的優(yōu)劣程度.
以上幾種指標中,DICE相似系數(shù)用于評價配準方法效果的頻率最高,DICE相似性系數(shù)對于內(nèi)部比較敏感,而Hausdorff距離則對邊界比較敏感.
下面,本節(jié)將針對相同的數(shù)據(jù)集對第3章提出的部分方法進行效果比較.
針對肺部配準問題提出新方法的Eppenhof等人[18,20]、sentker等人[17]、de Vos等人[32]、Fu等人[50]和Jiang等人[46]都使用了DIRLAB數(shù)據(jù)集對網(wǎng)絡進行訓練和測試,其中Eppenhof等人[18,20]和Sentker等人[17]使用的是有監(jiān)督的配準方法,de Vos等人[32]和Jiang等人[46]使用的是無監(jiān)督的配準方法,而Fu等人[50]使用的是基于生成對抗網(wǎng)絡的方法.將上述的配準方法應用于公開提供的10個DIRLAB數(shù)據(jù)集,使用每個DIRLAB數(shù)據(jù)集提供的300個點對來評估方法的準確性,文獻[50]與文獻[59]實驗對比部分,表4展示了上文描述的幾種基于深度學習的配準方法在DIRLAB數(shù)據(jù)集上的目標配準誤差值(TRE),同時展示了Heinrich等人提出的傳統(tǒng)的配準方法[60]和ANTs方法[12]在DIRLAB數(shù)據(jù)集上的TRE值,單位均為毫米和秒.
從表4的數(shù)據(jù)可以看出:傳統(tǒng)配準方法ANTs的TRE值為2.43±4.1,相較于ANTs來說,使用基于深度學習的配準方法中,Eppenhof等人[18,20]、Jiang等人[46]和Fu等人[50]提出的方法都達到、甚至超過了ANTs[12]方法的效果,但尚未能夠與Heinrich等人提出的改良方法[60]媲美.從另一方面來說,基于深度學習的配準方法在處理速度上明顯快于傳統(tǒng)的配準方法.

表4 各方法在DIRLAB數(shù)據(jù)集的目標配準誤差值概覽表
目前不管是有監(jiān)督配準方法還是無監(jiān)督配準方法都逐漸達到、甚至超越了傳統(tǒng)配準方法的性能.上述幾種方法中,基于生成對抗網(wǎng)絡的配準方法尤為亮眼,在計算速度和效果上取得了優(yōu)異的成績.
針對心臟圖片的配準問題,Mahapatra等人[53]和de Vos等人[32]將Sunnybrook cardiac數(shù)據(jù)集平均分為15個訓練掃描集、15個驗證掃描集和15個測試掃描集用于訓練和測試.下面將他們提出的配準方法與傳統(tǒng)的Elastix[7]方法進行對比,這些方法在Dice、HD95和MAD指標上的表現(xiàn)情況如表5所示,時間表示配準一個測試圖像對所需的時間,單位為秒.

表5 心臟圖像配準前后不同方法的平均性能比較
基于表5數(shù)據(jù)不難看出:相較于傳統(tǒng)的配準方法來說,基于深度學習的配準方法運行時長上取得了非常明顯的進步,在各項指標中也獲得了不俗的成績.De Vos等人[32]和Mahapatra等人[53]提出的方法不僅在Dice、HD95和MAD指標上逐漸達到傳統(tǒng)方法Elastix[7]的效果,在運行時間上已經(jīng)取得了很好的成績,這充分說明了基于深度學習的配準方法的可行性與進步性.
在上述描述的比較中,雖然基于深度學習的方法取得了一定的效果,但是也暴露了配準領域現(xiàn)存的缺點——目前配準領域中尚未出現(xiàn)一個非常權威的、海量的數(shù)據(jù)庫供各種配準方法使用,各種配準方法用于訓練和測試使用的數(shù)據(jù)集參差不齊,用于評判配準方法的指標也尚未統(tǒng)一,針對不同的醫(yī)學圖像和不同的部位無法使用單一的指標來絕對衡量配準方法的效果.
基于深度學習的方法目前大多尚未在精度上優(yōu)于傳統(tǒng)的圖像配準方法,但是由于基于深度學習的配準方法借助GPU進行直接估計,在計算成本和效率上,基于深度學習的方法比傳統(tǒng)的配準方法要有優(yōu)勢得多.
由于基于深度學習的配準方法近幾年的快速發(fā)展,使用直接變換預測的配準方法數(shù)量顯著增多.有監(jiān)督的配準方式存在一定的局限性:基于有監(jiān)督的配準方法所生成的變換可能無法反映真正的生理運動、無法捕捉實際圖像記錄場景中的較大形變.
目前為止,有監(jiān)督的配準方法受限于缺少手動標記的標準標簽數(shù)據(jù)集,雖然雙重監(jiān)督和弱監(jiān)督大大減緩了對于標準標簽數(shù)據(jù)的限制,但是對于手動標記數(shù)據(jù)集的需求仍未降低.針對這一問題,目前大多有監(jiān)督的配準方法采用了數(shù)據(jù)增強的方式擴充數(shù)據(jù)集,或使用遷移學習來解決這個問題.
與監(jiān)督變換預測相比,無監(jiān)督方法有效地緩解了缺乏訓練數(shù)據(jù)集的問題,因此吸引了很多的學者的關注.但由于不同類別圖像之間的相似性難以量化,無監(jiān)督的配準方法在處理多模態(tài)配準問題上比處理單模態(tài)配準問題要難得多,所以目前無監(jiān)督配準方法仍多用于處理單模配準問題,在處理多模態(tài)圖像配準問題時趨于使用半監(jiān)督的配準方法.
近些年來,許多研究者將GAN的鑒別器用來辨別圖像對是否對齊,并使用GAN確保預測變換真實.同時,因為GAN不僅可用于引入額外的正則化,還可用于執(zhí)行圖像域轉換,因此有的研究者使用GAN將多模態(tài)的配準問題轉換為單模態(tài)的配準問題,基于GAN的配準研究方法也成為了熱門研究方向.
目前基于深度學習方法進行配準是大勢所趨,配準方法逐漸由部分依賴深度學習轉向完全依賴深度學習,其性能和效果由逐漸達到傳統(tǒng)配準方法的效果逐漸轉為超越配準方法的效果.然而,對于配準方法的性能進行評判的標準還需進一步研究,不僅缺少包括具有代表性、專家標注的圖像公共數(shù)據(jù)集,也缺乏一個業(yè)界統(tǒng)一的評估標準,但目前已有不少學者正在研究該問題,這一問題在未來有望得到解決.