薛湛琦,王遠軍
上海理工大學醫(yī)學影像工程研究所,上海200093
隨著計算機和成像技術(shù)的發(fā)展,醫(yī)學圖像成為輔助醫(yī)生診斷與治療的重要工具。由于成像機制不同,不同成像設備得到的單一模態(tài)圖像攜帶著可以互相補充的信息。多模態(tài)醫(yī)學圖像融合技術(shù)可以將這些信息結(jié)合到一起獲得一幅同時包括功能信息與結(jié)構(gòu)信息的融合圖像,由此幫助醫(yī)療工作者準確快速地診斷和治療疾?。?]。圖像融合的內(nèi)容包括圖像分解與重建、圖像融合規(guī)則和圖像質(zhì)量評價。其中決定融合效果的關鍵在于圖像分解過程中特征的提取和特征權(quán)重的測量與分配,而針對融合后的圖像建立統(tǒng)一的客觀評價指標也是一項具有挑戰(zhàn)性的工作[2]。
圖像融合中常用的方法包括拉普拉斯金字塔[3]、離散小波變換[4]、非下采樣輪廓波變換[5]、稀疏表示[6]等,這些方法都廣泛應用于醫(yī)學圖像融合,但也存在許多缺陷。例如就多尺度分解方法而言,其中一個問題就是難以確定分解級數(shù),級數(shù)太小無法獲得足夠的空間信息,太大則會導致圖像融合時對噪聲和誤配準過于敏感。不同模態(tài)的圖像在分解后的融合過程中可以通過機器學習的方法對特征的權(quán)重進行分配[7]。
目前圖像融合技術(shù)仍然不夠成熟,在實際中面臨的融合問題需要根據(jù)實際應用具體分析采用何種融合方法。近年來,隨著深度學習的發(fā)展,基于深度學習的圖像處理方法在計算機視覺領域取得了巨大的成功。在醫(yī)學圖像融合領域,深度學習方法可以幫助我們解決傳統(tǒng)方法的上述問題,尤其在特征提取、圖像表示方面有更大的優(yōu)勢和更好的效果,可見深度學習在醫(yī)學圖像融合領域有極大的潛力。
本文首先對醫(yī)學圖像融合與深度學習方法做簡要描述,然后著重介紹幾種深度學習方法在圖像融合中的應用,最后對目前的融合方法進行總結(jié),分析其中存在的問題,并對深度學習在醫(yī)學圖像領域的發(fā)展做出展望。
多模態(tài)醫(yī)學圖像融合中,多尺度變換是一種廣泛應用的工具。這種方法使用多尺度變換來獲得輸入圖像的多尺度表示,其中圖像特征在變換域中表示。然后,通過根據(jù)特定的融合規(guī)則融合不同模態(tài)圖像各級表示來獲得融合的多尺度表示,其中系數(shù)的權(quán)重,以及相鄰像素之間的相關性和不同系數(shù)之間的相關性是需要考慮的重要問題。
Zhang等[8]對早期的基于多尺度分解的圖像融合方法進行分類,介紹了包括基于金字塔的方法和基于經(jīng)典小波在內(nèi)的常用方法。一些其他計算機視覺方法,如各向異性熱擴散[9]、log-Gabor 變換[10]和支持度變換[11]也已成功應用于基于多尺度分解的圖像融合。通常,這些方法的主要優(yōu)點是它們能夠準確地分離圖像的細尺度紋理細節(jié)、中尺度邊緣和大尺度空間結(jié)構(gòu)。這些優(yōu)點有助于減少融合過程中的混疊偽像,產(chǎn)生符合人類視覺感知的融合結(jié)果。
稀疏表示是一種圖像表示理論,已成功應用于許多圖像處理問題,如去噪、插值和識別[12-13]?;谙∈璞硎镜膱D像融合算法的主要思路是先通過字典下的稀疏表示來提取圖像特征,然后按照某種規(guī)則融合特征,并重構(gòu)出結(jié)果圖像。
通過利用稀疏系數(shù)的特征,Yang 等[14]首先將稀疏表示理論應用于圖像融合,為了獲取局部顯著特征并保持移位不變性,首先將不同的輸入圖像劃分為多個重疊的塊。接著,在同一個完整的字典上分解來自多個圖像的重疊塊,以獲得相應的稀疏系數(shù)。然后,將融合過程應用于來自多個源的系數(shù)。最后,使用融合系數(shù)和字典重建圖像??紤]到只有一個通用字典無法準確地反映輸入圖像的復雜結(jié)構(gòu),Kim等[15]將訓練樣本根據(jù)結(jié)構(gòu)分為許多組,然后在每個組上訓練一個特定的子字典,這樣的子字典適合特定的結(jié)構(gòu),整個字典也具有較強的表示能力。
一種直接的圖像融合方法是將融合圖像中的每個像素作為輸入圖像中相應像素的加權(quán)平均值。例如,在文獻[6,16]中,小波系數(shù)用作表示特征,支持向量機和神經(jīng)網(wǎng)絡用于選擇具有最高活動度的像素。為了充分利用空間背景信息,Li 等[17]首先將輸入圖像分割成均勻的塊,并最大化每個塊中的空間頻率。為了自適應地確定最佳塊大小,De 等[18]利用四叉樹結(jié)構(gòu)來獲得最佳細分的圖像塊。然而,這種方法可能會在對象邊界上產(chǎn)生偽像[17-19]。
目前,CNN 是醫(yī)學圖像分析中研究最多的一種機器學習算法[20]。淺層網(wǎng)絡的模型一直到2006年才被深度網(wǎng)絡替代,Hinton 和他的學生指出,深度學習網(wǎng)絡結(jié)構(gòu)有兩個主要特征:一個是多隱層的網(wǎng)絡能夠進行很好的特征學習;另一個是通過單層的受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)預訓練,可以減小深度網(wǎng)絡的訓練難度。
CNN 由輸入層、隱藏層和輸出層組成。隱藏層主要由輸入與輸出之間的卷積層和池化層構(gòu)成,其中卷積層用于提取圖像的特征,池化層用于簡化信息。CNN的簡單結(jié)構(gòu)如圖1所示,其中圖像通過卷積核,激活函數(shù)和偏置的處理,生成特征映射圖像;經(jīng)過下采樣,每個特征映射圖像都可以在卷積和池化后獲得其特征映射;再將其作為下一層的輸入繼續(xù)進行卷積和池化,重復該操作;最后,在輸出層前,所有像素被光柵化為一列向量,在輸出層得到輸出結(jié)果[21]。
CSC由Zeiler等[22]提出,它的基本思想是基于稀疏約束條件下對圖像進行卷積分解,并使用延續(xù)法放寬等式的約束,用共軛梯度法解決卷積最小二乘逼近問題。CSC用濾波器可以對整幅圖像特征提取。在這個模型中,一個圖像分解成一組卷積的和,即dk*zk,即:
圖1 CNN一般模型Fig.1 General structure of convolutional neural network
其中,X表示輸入圖像,dk表示第k個濾波,zk是一組未知系數(shù)特征圖,這種模型不再將圖像拆分,避免稀疏編碼時將圖像分解為重疊的塊時對圖像整體性的破壞。通過從一組與特定的訓練數(shù)據(jù)中學習字典,可以提高表示能力[23]。與傳統(tǒng)的稀疏表示相比,卷積稀疏表示(Convolutional Sparse Representation,CSR)提供的表示結(jié)構(gòu)通過用一組卷積與字典過濾器的總和替代一組字典向量的線性組合,在CSR 模型中計算出整個圖像的稀疏表示,因此獲得的表示是單值的,并且對整個圖像進行了優(yōu)化。
自動編碼器是一種特殊類型的兩層神經(jīng)網(wǎng)路,通過最小化輸入值與輸出值之間的重構(gòu)誤差來學習輸入的壓縮表示。單層自動編碼器結(jié)構(gòu)簡單,作用十分有限,當多個自動編碼器堆疊在一起時,被稱為棧式自動編碼(Stacked Auto-Encoders,SAE),訓練過程是逐層對各層編碼器進行訓練。
自動編碼器的基本結(jié)構(gòu)如圖2所示。輸入x通過第一層編碼,數(shù)據(jù)的第一級特征可以被獲取,表示為h1,然后將一級特征輸入到第二層自動編碼器以獲得二級特征,表示為h2,重復該操作,可以得到n級特征hn。編碼后的不同級別的特征構(gòu)成原始數(shù)據(jù)的分層描述。在訓練SAE 時,只需要通過單個自動編碼器訓練它的方式逐層訓練,并用最后一層輸出和期望之間的誤差微調(diào)整個網(wǎng)絡[24]。
圖2 棧式自動編碼Fig.2 Stacked auto-encoders
在深度自動編碼器中,自動編碼器作為一個基本組件,是一個只包含一個隱含層的單層結(jié)構(gòu),它的特征提取和抽象能力較為有限。在堆疊自動編碼器的深層模型中,可以學習到層次化的特征,高層的特征由底層特征抽象而成。SAE在許多視覺分類和圖像恢復的問題中得到廣泛應用。訓練的過程通常包括兩部分:無監(jiān)督的預學習和有監(jiān)督的微調(diào)。每一層中,訓練AE通過學習編碼器和解碼器來獲得一組特征[25]。
RBM 是一種包含兩層無節(jié)點的隨機神經(jīng)網(wǎng)絡模型,層之間全連接而層內(nèi)沒有連接。與SAE 類似,深度信念網(wǎng)絡可以通過疊加RBM 建立。RBM 是一種基于能量的模型,在統(tǒng)計物理學中,由于系統(tǒng)傾向于處于能量較低的狀態(tài),因此如果其中某一種狀態(tài)的能量低,系統(tǒng)就會有較大概率處在這一狀態(tài)。將系統(tǒng)中抽象而復雜的各種狀態(tài)出現(xiàn)的概率用一個簡單的能量函數(shù)表示為:
其中,θ={w,a,b}為未知參數(shù),νi、hj分別表示第i個可見單元的值和第j個隱藏單元的值,ai、bi分別表示第i個可見單元和第j個隱藏單元的偏置,wij為神經(jīng)元i和j之間的連接權(quán)值。通過能量函數(shù),即可得到系統(tǒng)在各狀態(tài)的概率分布以及邊緣分布[26]。
RBM的訓練過程實際上就是求出一個能最大化擬合訓練樣本的的概率分布,這一過程是無監(jiān)督式的,通過最大化訓練樣本的似然函數(shù)來得到RBM的未知參數(shù),這一過程需要遍歷所有的訓練樣本。由于數(shù)據(jù)量大、計算復雜度過高而難以實現(xiàn),實踐中通常采用由Hinton提出的對比散度(Contrastive Divergence,CD)算法[27],這種簡化的Gibbs采樣方法解決了RBM學習效率的問題。近年來,CD算法有許多改進,例如持續(xù)性對比散度和快速持續(xù)性對比散度等。
這些深度學習模型可以更好地表征輸入醫(yī)學圖像,更好地處理彎曲形狀和更高質(zhì)量的融合細節(jié)。深度學習方法最大的優(yōu)勢在于它強大的特征學習能力,因此可以將深度學習方法應用于醫(yī)學圖像融合中對特征的操作,以得到更好的融合結(jié)果。
融合權(quán)重通常由不同圖像的局部視覺特征的空間變化推導出,如像素方差、對比度和顏色飽和度等特征,這些方法都可以根據(jù)不同圖像的圖像特征來適應圖像中不同位置處的不同內(nèi)容并對其進行優(yōu)先級排序。
分解后圖像的特征以及像素的權(quán)重分配,直接影響到使用融合規(guī)則后的融合結(jié)果,在文獻[28-30]中提出許多復雜的分解方法和細致的權(quán)重分配方法。Liu 等[31]從另一個角度解決了這個問題,通過訓練CNN以編碼從源圖像到權(quán)重圖的直接映射。以這種方式,權(quán)重值的獲取與分配可以通過學習網(wǎng)絡參數(shù)以“最佳”方式共同實現(xiàn)。文獻[32]中提出的一種基于CNN 的多焦點圖像融合方法做出改進,將其應用于多模態(tài)圖像,使用拉普拉斯金字塔分解方式和局部相似的融合方法,當源圖像的內(nèi)容具有高相似性時,CNN獲得的權(quán)重比基于系數(shù)的方式更加可靠。
基于CNN 的一般圖像融合的通用框架如圖3所示。卷積網(wǎng)絡用于直接從源圖像生成權(quán)重圖,這避免了手動設計復雜的活動度測量和融合規(guī)則。具體地,網(wǎng)絡的每個輸出神經(jīng)元表示歸一化的權(quán)重分配結(jié)果。因此,網(wǎng)絡的輸出矢量可以表示權(quán)重分配的概率分布,并且其數(shù)學期望等于要計算的權(quán)重值。
圖3 基于深度學習的圖像融合Fig.3 Image fusion based on deep learning
對醫(yī)學圖像做多尺度變換通常作為醫(yī)學圖像融合過程中的第一步,變換的結(jié)果直接影響到后續(xù)的特征提取與融合規(guī)則的制定,所以,通過深度學習方法獲得合適的變換圖像是一個重要的研究方向。針對CNN 輸出維度低而導致信息丟失的問題,Kai-jian Xia等使用基于Hek的方法初始化第一層以外的卷積核,把高斯拉普拉斯濾波器和高斯濾波器分解的子圖像作為網(wǎng)絡第一層,通過一個高頻分量和一個低頻分量,就可以在融合過程中自適應地分解和重建圖像。并對于深度CNN 難以訓練的問題,借助深度自編碼的思想,提出一種堆疊CNN 的方法(DSCNN),該方法最終得到較好的融合結(jié)果且速度快于NSCT和NSST,但是需要手動選擇融合規(guī)則[33]。
基于稀疏表示的圖像融合方法有兩個缺點,即對細節(jié)的保留能力有限和對位置偏差敏感,為了解決這些問題,Liu 等[34]提出一種基于CSR 的融合框架,將原圖像分解為基礎層和細節(jié)層,用于多模態(tài)圖像融合,并通過實驗證明該方法的融合質(zhì)量明顯優(yōu)于基于稀疏表示的方法。Liu 等[35]將MCA 與CSR 結(jié)合,提出一種基于CS-MCA 的醫(yī)學圖像融合方法,同時實現(xiàn)了多分量和全局的稀疏表示。
圖4中顯示基于CSR的醫(yī)學圖像融合的通用框架。首先,對源圖像執(zhí)行特定圖像變換。然后,通過一組離線學習字典過濾器對一些選定的變換頻帶執(zhí)行CSC。圖像變換和融合方式的選擇都取決于具體的融合問題。在字典學習階段,訓練樣例的生成和相關學習參數(shù)的設置對融合性能有重要影響。文獻[36]提出一種新的字典學習方法,稱為字典學習與組稀疏性和圖形正則化(DL-GSGR)。通過交替稀疏編碼和字典更新的方式,有效地對任何信號進行稀疏編碼。文獻中的實驗將DLGSGR組稀疏表示應用于三維醫(yī)學圖像的去噪和圖像融合,結(jié)果表明這種方法的優(yōu)越性。
圖4 基于CSR的圖像融合Fig.4 Image fusion based on convolutional sparse representation
醫(yī)學圖像有對比度低、灰度分布不均等特點,因此全局訓練字典對多模態(tài)醫(yī)學圖像的融合缺少普遍性,針對如何構(gòu)建一個自適應源圖像的過完備字典這一問題,宗靜靜等[37]將兩幅已經(jīng)配準的源圖像組成一個整體進行聯(lián)合稀疏表示,獲得一個供圖稀疏部分和一個不同稀疏部分,對其中不同稀疏部分使用l1范數(shù)最大規(guī)則進行融合,直接從已配準的源圖像學習字典,提高字典對源圖像的自適應性。
本文介紹了幾種應用于醫(yī)學圖像融合的深度學習框架,包括CNN、CSC、SAE 和深度信念網(wǎng)絡。利用深度學習對特征提取的優(yōu)勢,在圖像融合中運用深度學習方法對圖像做變換或特征提取,提升圖像融合的效果。針對應用這些框架或者改進的方法進行融合的多模圖像,通過主觀與客觀評價對融合后的圖像做出評價,從而判斷融合質(zhì)量。
這些深度學習模型為融合提供了更好的醫(yī)學圖像輸入特征、更好的曲線形狀處理和更高質(zhì)量的融合細節(jié)。深度學習的總體優(yōu)勢在于提高圖像的視覺質(zhì)量,減少圖像的偽影和噪聲。通過分析可以發(fā)現(xiàn),合適的深度學習方法應用到醫(yī)學圖像融合可以得到比傳統(tǒng)方法更好的結(jié)果[38-40]。深度神經(jīng)網(wǎng)絡能夠在大量的訓練數(shù)據(jù)中學習到最有效的特征,克服手工設計的困難之處,所以在圖像融合領域有巨大的優(yōu)勢。但融合步驟間關聯(lián)不大,多數(shù)方法也是針對像素級圖像融合。將深度學習方法應用于融合全過程時,如何選擇有效特征是研究的關鍵。未來深度學習與醫(yī)學圖像融合的結(jié)合程度有待進一步提高,代替更多手動設計工作。