肖兒良,周 瑩,簡獻忠
(上海理工大學 光電信息與計算機工程學院,上海 200093)(上海市現(xiàn)代光學系統(tǒng)重點實驗室,上海 200093)
E-mail:tracer96@sina.com
醫(yī)學影像在臨床診斷和治療中發(fā)揮著重要的作用.由于不同的成像模式側(cè)重于不同類別的器官、組織信息,各自有其自身的優(yōu)勢和局限性,因此僅由一種圖像通常不能為整個醫(yī)學診斷提供完整的信息.例如,計算機斷層掃描(CT)圖像顯示骨骼和種植體等致密結(jié)構(gòu)的信息,而磁共振(MR)圖像顯示軟組織等高分辨率的解剖信息[1].我們可以通過把多種模態(tài)的醫(yī)學圖像進行融合,以集成來自不同模態(tài)的圖像的互補信息,從而利用融合圖像中獲得的附加信息進行更快速、精確的異常定位,來提高醫(yī)學診斷的魯棒性.
目前常用的圖像融合技術(shù)可以分為兩大類,基于傳統(tǒng)方法[2-5]以及基于深度學習方法[6-10].傳統(tǒng)圖像融合方法大都涉及圖像變換、活動水平測量和融合規(guī)則設(shè)計三個關(guān)鍵部分,這些都需要人為的設(shè)計與選擇,依賴于豐富的先驗知識.并且為了得到效果突出的融合圖像,人為設(shè)計的模型越來越復雜,需要選擇的參數(shù)越來越多,存在融合效果不穩(wěn)定、運行速率低的問題.而深度學習可以自動化地提取圖像中更具表現(xiàn)力的特征,因此,近年來深度學習被應(yīng)用于圖像融合中[6],可以解決傳統(tǒng)方法中由于人為因素影響融合效果不穩(wěn)定的問題.
現(xiàn)有的基于深度學習的圖像融合技術(shù)多依賴于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,文獻[7]提出了一種有效的三層CNN結(jié)構(gòu)來解決泛銳化問題,通過添加幾個非線性輻射測量指數(shù)的映射來增強融合性能,實現(xiàn)了遙感圖像的融合.文獻[8]用一個CNN模型實現(xiàn)源圖像和焦點圖之間的直接映射,通過CNN聯(lián)合了活動水平測量和權(quán)重分配兩部分,從而對多聚焦圖像進行融合,并且在文獻[9]中將該模型成功用于多模態(tài)的醫(yī)學圖像融合.但這樣的模型仍然需要設(shè)計一種基于局部相似度的融合策略,以自適應(yīng)地調(diào)整融合系數(shù),才能得到效果良好的融合圖像.由于利用CNN實現(xiàn)圖像融合任務(wù)還存在需要人為設(shè)計融合規(guī)則的不足,文獻[10]提出一種利用生成對抗網(wǎng)絡(luò)的網(wǎng)絡(luò)模型,不需人為設(shè)計融合規(guī)則或選擇參數(shù),只需給定標簽圖像即可以做到自適應(yīng)地生成紅外與可見光圖像的融合圖像,實現(xiàn)了端到端的多模態(tài)圖像融合.但該模型對數(shù)據(jù)依賴性強,數(shù)據(jù)量的不足會影響深度學習網(wǎng)絡(luò)的性能.
在醫(yī)學領(lǐng)域,由于醫(yī)學圖像具有隱私性和特殊性,數(shù)據(jù)采集和標注成本也比較高,所以構(gòu)建大規(guī)模的、高質(zhì)量的注釋良好的數(shù)據(jù)集非常困難.目前已有數(shù)據(jù)增強(Data Augmentation)的方法[11],可以通過對現(xiàn)有數(shù)據(jù)集進行微小改動,例如旋轉(zhuǎn)、縮放或翻轉(zhuǎn),從而利用已有數(shù)據(jù)創(chuàng)造出更多相關(guān)數(shù)據(jù),來使得神經(jīng)網(wǎng)絡(luò)具有更好的泛化效果.然而對于醫(yī)療影像這一小樣本領(lǐng)域,有效的數(shù)據(jù)增強技術(shù)相對較少、且不成熟,目前還沒有成熟的可以有效獲取足夠豐富且高質(zhì)量的醫(yī)學影像數(shù)據(jù)的數(shù)據(jù)增強方法[12].隨著遷移學習的發(fā)展,可極大緩解深度學習中數(shù)據(jù)不足引起的問題.這激發(fā)了我們使用遷移學習來解決在利用深度學習網(wǎng)絡(luò)完成醫(yī)學圖像融合任務(wù)中訓練數(shù)據(jù)不足的問題.
在機器學習領(lǐng)域中,遷移學習研究如何將已有模型應(yīng)用到新的不同的、但是有一定關(guān)聯(lián)的領(lǐng)域中.遷移學習主要有四種實現(xiàn)方法:樣本遷移、特征遷移、參數(shù)/模型遷移以及關(guān)系遷移.深度學習中應(yīng)用的遷移學習屬于參數(shù)遷移,它具有非常強的數(shù)據(jù)擬合能力,能學習到與領(lǐng)域無關(guān)的,即泛化能力更強的特征表達[13].文獻[14]提出通過融合不同深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)架構(gòu)中提取的多種遷移學習特征,可以提高圖像分類的精度.文獻[15]提出一種遷移深度特征融合的學習框架,它可以有效地整合各個模塊的優(yōu)勢,在人臉識別任務(wù)上表現(xiàn)出顯著的優(yōu)越性.文獻[16]研究了域自適應(yīng)在生成對抗網(wǎng)絡(luò)圖像生成中的應(yīng)用,發(fā)現(xiàn)利用預先訓練的網(wǎng)絡(luò)可以有效地加速學習過程,并在目標數(shù)據(jù)有限的情況下,利用先驗知識可以縮短網(wǎng)絡(luò)收斂時間,顯著提高圖像質(zhì)量.文獻[17]提出了一種基于對抗學習的非監(jiān)督域適應(yīng)模型,該模型增加了一個特征共享轉(zhuǎn)換網(wǎng)絡(luò),直接將源域的特征映射到目標特征空間,在情緒分析、數(shù)字分類、自然圖像分類等任務(wù)上均表現(xiàn)良好.但國內(nèi)外對遷移學習在醫(yī)學圖像融合中的研究還沒有引起足夠的重視.
基于以上對深度遷移學習應(yīng)用的研究,本文首次提出利用遷移學習來提高用于多模態(tài)醫(yī)學圖像融合的Transfer-WGAN-GP模型的性能,從而自適應(yīng)地生成高質(zhì)量的CT與MR-T2的融合圖像.首先利用源域中大量的紅外與可見光數(shù)據(jù)預訓練網(wǎng)絡(luò),提取在圖像融合過程中具有代表性的語義信息,學習融合圖像與源圖像之間的特征映射,并轉(zhuǎn)化為網(wǎng)絡(luò)中的參數(shù),以得到一個基本網(wǎng)絡(luò),然后利用目標域中少量的CT與MR-T2數(shù)據(jù)對模型進行微調(diào),由此完成了將參數(shù)從源域遷移到目標域的特征空間中.最后,只需對訓練完成的生成器輸入待融合的CT與MR-T2的源圖像,即可快速得到充分保留源圖像信息的高質(zhì)量融合圖像.
本文提出的Transfer-WGAN-GP模型中包含兩個在GAN的基礎(chǔ)上進行改進的網(wǎng)絡(luò),兩個網(wǎng)絡(luò)之間通過遷移學習實現(xiàn)參數(shù)共享,每個網(wǎng)絡(luò)中都包括生成器G與鑒別器D兩個部分,如圖1所示.
網(wǎng)絡(luò)的訓練過程如圖1(a)所示,首先將待融合的兩幅多模態(tài)圖像以一幅圖像多通道形式輸入G,然后將通過G生成的融合圖像和標簽圖像分別輸入D,G與D根據(jù)改進的WGAN-GP損失函數(shù)相互博弈競爭,從而不斷優(yōu)化網(wǎng)絡(luò),最終使D完成區(qū)分真實的標簽圖像與G生成的假圖像的分類任務(wù).預訓練中得到的生成器Gp與主訓練中得到的生成器Gm相當于兩個參數(shù)共享的特征提取器,預訓練中得到的鑒別器Dp與主訓練中得到的鑒別器Dm相當于兩個參數(shù)共享的分類器.
網(wǎng)絡(luò)的測試過程如圖1(b)所示,對于訓練好的Transfer-WGAN-GP,只需要將待融合的兩張圖像以一幅圖像多通道形式輸入到訓練好的生成器中,生成器就可以自動生成理想的高質(zhì)量的融合圖像.
3.1.1 生成器的網(wǎng)絡(luò)結(jié)構(gòu)
本文的生成器網(wǎng)絡(luò)結(jié)構(gòu)是基于全卷積網(wǎng)絡(luò)進行設(shè)計的,如圖2所示.生成器的輸入是經(jīng)過連接操作的紅外與可見光圖像或經(jīng)過連接操作的CT與MR-T2圖像,不需要提取出圖像的特征圖來作為網(wǎng)絡(luò)輸入.網(wǎng)絡(luò)主要由五層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,前四層中采用3×3的濾波器,最后一層采用1×1濾波器.為保持圖像大小不變,減少源圖像信息的丟失,每一層的步長均設(shè)置為1.此外,為了防止噪聲的引入,沒有設(shè)置填充操作.為避免醫(yī)學圖像在下采樣中丟失部分語義信息,整個生成器網(wǎng)絡(luò)中只引入了卷積層,沒有引入下采樣操作,這樣做還可以保證輸入圖像和輸出圖像大小相同.最后,對于激活函數(shù)的選擇,由于使用ReLU需要小心平衡學習率,效果可能不佳,因此本文在前四層選擇使用Leaky ReLU激活函數(shù),來提高網(wǎng)絡(luò)的非線性程度,最后一層中采用tanh激活函數(shù).
3.1.2 判別器的網(wǎng)絡(luò)結(jié)構(gòu)
GAN中的鑒別器與生成器不同,其根本目的在于分類.它通過從輸入的圖像中提取特征,然后根據(jù)特征進行分類,判斷輸入圖像為真實的標簽圖像還是假的由生成器生成的圖像[18].本文的鑒別器網(wǎng)絡(luò)主要由四層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,如圖3所示.四層中均采用3×3的濾波器,每一層的步長設(shè)置為2,最后一層linear層主要用于分類.值得注意的是,由于傳統(tǒng)的GAN存在的一些缺陷,本文采用改進的WGAN-GP網(wǎng)絡(luò)[19],由于該模型是對每個樣本獨立地施加梯度懲罰,為防止引起同一個批次中不同樣本的相互依賴關(guān)系,所以鑒別器網(wǎng)絡(luò)結(jié)構(gòu)中去掉了批歸一化(Batch Normalization,BN)層.
圖3 鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network architecture of discriminator
損失函數(shù)是用于衡量網(wǎng)絡(luò)生成的數(shù)據(jù)與輸入的標簽數(shù)據(jù)之間的差距,網(wǎng)絡(luò)訓練的目的旨在使損失函數(shù)最小化.本文提出的Transfer-WGAN-GP網(wǎng)絡(luò)的損失函數(shù)主要包含兩部分,即生成器G的損失函數(shù)和鑒別器D的損失函數(shù).
首先是G的損失函數(shù),G的損失函數(shù)如式(1)所示,主要由兩部分組成:
LG=LGAN+ζLcontent
(1)
其中,LG表示總的損失函數(shù),LGAN表示生成器G與鑒別器D之間的對抗損失,Lcontent表示內(nèi)容損失.ζ用于在對抗損失和內(nèi)容損失之間取得平衡,本文所做實驗中ζ取10.對抗損失具體定義如式(2)所示:
(2)
由于醫(yī)學圖像的信息由圖像中像素點強度和梯度信息表示,CT圖像中更多表現(xiàn)在邊緣的明暗信息,而MR-T2包含更多由梯度表達的紋理細節(jié)信息.為更好地學習到兩種圖像中包含的信息,我們需要使融合圖像更多的從標簽圖像中同時學習強度信息與梯度信息,所以內(nèi)容損失函數(shù)Lcontent定義如式(3):
(3)
其中,If表示由G生成的融合圖像,IL表示輸入的標簽圖像.H和W分別表示輸入圖像的高和寬,‖·‖F(xiàn)表示矩陣的F范數(shù),表示求梯度的函數(shù).ξ是用于平衡兩部分的正則參數(shù),本文中取值為8.
其次是D的損失函數(shù),如式(4)所示.為使網(wǎng)絡(luò)訓練過程更穩(wěn)定,防止產(chǎn)生模式崩潰等問題,在損失函數(shù)中仿照WGAN-GP加入了梯度懲罰項,重點在生成樣本集中區(qū)域、真實樣本集中區(qū)域以及夾在它們中間的區(qū)域上施加Lipschitz限制.這樣做還可以顯著提高訓練速度,加快網(wǎng)絡(luò)收斂.本文中λ取10,η為從[0,1]的正態(tài)分布中選取的隨機數(shù).
(4)
Transfer-WGAN-GP模型的核心算法包括預訓練、參數(shù)遷移和主訓練三個部分,為了更好地理解網(wǎng)絡(luò)的工作原理,總結(jié)網(wǎng)絡(luò)訓練過程的偽代碼如算法1所示.
在預訓練過程中,網(wǎng)絡(luò)中G與D學習紅外與可見光圖像以及相應(yīng)的融合圖像之間的特征映射,在迭代過程中相互對抗以優(yōu)化損失函數(shù)中的參數(shù),不斷縮小生成圖像與標簽圖像之間的差距;保存訓練好的G與D中的參數(shù),選擇適當?shù)奈⒄{(diào)方式,即開放或凍結(jié)部分卷積層的參數(shù),再遷移到CT與MR-T2圖像以及相應(yīng)的融合圖像的數(shù)據(jù)集中;在有基礎(chǔ)參數(shù)的網(wǎng)絡(luò)上繼續(xù)訓練,使G與D的損失函數(shù)中的參數(shù)繼續(xù)優(yōu)化,直到最大迭代次數(shù);最后對訓練好的G進行測試,即可得到CT與MR-T2的融合圖像.
Algorithm 1.Transfer-WGAN-GP醫(yī)學圖像融合算法
Parameter:α=0.0001,β1=0.5,β2=0.9
Require:訓練迭代次數(shù)t,批次數(shù)量m,G中的初始參數(shù)θ0,D中的初始參數(shù)ω0.
Part 1.預訓練
Input 1.經(jīng)連接操作的紅外與可見光圖像PIR-VI(S)
Input 2.標準融合圖像PIV(X)
1.whileθ1沒有收斂 do
2. fori=1,…,t do
3. forj=1,…,m do
4. 采樣s1~PIR-VI(S)
5. 采樣x1~PIV(X)
6. 取一隨機數(shù)∈1~U[0,1]
10. end for
12. end for
14.end while
Part 2.參數(shù)遷移
15.存儲訓練好的G與D中的參數(shù)
16.選擇適當?shù)奈⒄{(diào)方式對網(wǎng)絡(luò)中部分卷積層參數(shù)進行凍結(jié)
Part 3.主訓練
Input 3.經(jīng)連接操作的CT與MR-T2圖像PCT-MR(S)
Input 4.標準融合圖像PCM(X)
17.whileθ2沒有收斂 do
18. fori=1,…,t do
19. forj=1,…,m do
20. 采樣s2~PCT-MR(S)
21. 采樣x2~PCM(X)
26. end for
28. end for
30.end while
31.對訓練好的G進行測試
Output:CT與MR-T2的融合圖像
本實驗的硬件平臺:CPU為IntelCorei7-8700,主頻3.20GHz;內(nèi)存16G;GPU為NVIDIA 1080Ti 12GB.軟件平臺:操作系統(tǒng)為Windows10 64位;MATLAB版本為2017b;訓練環(huán)境為Tensorflow-gpu 1.8.0;Python版本為3.5.0.
4.1.1 標簽圖像數(shù)據(jù)集
本文所使用的紅外與可見光圖像來自于公開的TNO紅外與可見光圖像融合數(shù)據(jù)集[20],采用的醫(yī)學圖像來自Havard Medical School的The whole brain atlas(1)http://www.med.harvard.edu/aanlib/home.html.
為解決網(wǎng)絡(luò)訓練中缺少作為標簽的標準融合圖像的問題,具體的標簽圖像制作過程如下:從TNO數(shù)據(jù)集中選取45對來自不同場景的經(jīng)過配準的紅外與可見光圖像,通過基于現(xiàn)有的性能優(yōu)良的CSMCA[2]、GFF[3]、NSST[4]、NSCT[5]四種傳統(tǒng)方法分別得到融合圖像,然后使用以下6種多模態(tài)圖像融合任務(wù)中常用的圖像質(zhì)量評價指標對得到的融合圖像進行分析,最后選取綜合評價指標更優(yōu)的方法來產(chǎn)生標簽圖像.
我們選取的指標主要有3個無參考圖像的評價指標和3個有參考圖像的評價指標.無參考圖像的評價指標有:熵(Entropy,EN)、標準差(Standard Deviation,SD)和平均梯度(Average Gradient,AG).圖像的熵反映圖像包含信息量的多少;標準差反映圖像像素值與均值的離散程度;平均梯度反映圖像對微小細節(jié)反差的表達的能力.有參考圖像的評價指標有:基于熵的互信息指標(Mutual Information,MI),用于衡量融合后的圖像從源圖像中保留了多少信息;基于梯度的評價指標QAB/F,衡量融合圖像中對源圖像邊緣信息的保存程度;多層級結(jié)構(gòu)相似性(Multi-Scale Structural Similarity,MS-SSIM)從亮度、對比度和結(jié)構(gòu)三個方面衡量融合圖像與源圖像的相似程度,其值在[0,1]之間.需要指出的是,上述6個指標都是值越大表示圖像質(zhì)量越好.
表1 源域中標簽圖像選取依據(jù)表Table 1 Selection of label image of source domain
從45組圖像中抽取一組評價指標數(shù)據(jù)作為展示,如表1所示,加粗的數(shù)值表示四組方法中的最佳得分,由于NSCT方法在6個指標中有3個指標為最優(yōu),并且其余3個指標與其他方法相差不大,因此選取NSCT方法產(chǎn)生的融合圖像作為在源域中預訓練使用的標簽圖像.為擴充源域中數(shù)據(jù)集的樣本數(shù)量、充分利用源域中的特征,要對紅外圖像、可見光圖像和標簽圖像數(shù)據(jù)集,以240×240大小的窗口進行滑動裁剪得到大量的圖像子塊,為保持與目標域所用的CT與MR-T2圖像大小一致,還需要將這些圖像進行標準化到256×256大小.這樣就得到了在紅外與可見光圖像上預訓練中使用的,包含紅外圖像、可見光圖像、以及相應(yīng)的標簽圖像的數(shù)據(jù)集.
表2 目標域中標簽圖像選取依據(jù)表Table 2 Selection of label image of target domain
主訓練中采用的數(shù)據(jù)集從Havard Medical School的全腦圖譜數(shù)據(jù)集獲取.從10種不同病癥的腦部圖像中各選取15組切片,得到共150組CT與MR-T2圖像.與紅外與可見光圖像的數(shù)據(jù)集制作步驟相同,通過如表2所示指標對比,由于NSST方法得到的融合圖像有5個指標優(yōu)于其它三種方法,QAB/F指標中的得分與其他三種方法也相差不大,所以選取NSST方法產(chǎn)生的融合圖像,作為在目標域中主訓練使用的標簽圖像.這樣就得到以CT、MR-T2、以及相應(yīng)的標簽圖像構(gòu)成的訓練集,作為主訓練中生成器的輸入.
4.1.2 數(shù)據(jù)增強數(shù)據(jù)集
為證明遷移學習相對于數(shù)據(jù)增強方法在深度學習網(wǎng)絡(luò)訓練中的優(yōu)勢,首先要通過數(shù)據(jù)增強的方法,對原始數(shù)據(jù)集中樣本數(shù)量進行擴充,以滿足改進的WGAN-GP網(wǎng)絡(luò)的訓練.數(shù)據(jù)增強方法可以分為兩類,一類是離線增強,適用于較小的數(shù)據(jù)集;一類是在線增強,適用于較大的數(shù)據(jù)集.由于本文中使用的CT與MR-T2數(shù)據(jù)集只有150組,因此采用離線增強的方法.本文通過MATLAB對每一張原圖像進行翻轉(zhuǎn)、不同角度的旋轉(zhuǎn),以及圖像亮度、對比度的調(diào)節(jié)等方法,把每一張圖片擴充出30張圖片,以達到數(shù)據(jù)量擴大的目的.
然而數(shù)據(jù)增強的方法雖然能有效解決樣本數(shù)量問題,但在解決樣本多樣性方面,所取得的效果并不是很理想.因為經(jīng)過數(shù)據(jù)增強處理得到的數(shù)據(jù)集中的醫(yī)學圖像不夠多元化,類似場景的數(shù)據(jù)樣本過多,利用這些樣本網(wǎng)絡(luò)可能會只學習到一個場景,容易導致網(wǎng)絡(luò)的過擬合.因此通過數(shù)據(jù)增強的方法得到的數(shù)據(jù)集樣本數(shù)量不宜過多,通過實驗選擇,最終本文在基于數(shù)據(jù)增強的網(wǎng)絡(luò)訓練中用的數(shù)據(jù)集中CT與MR-T2的樣本數(shù)量為4650組.
本文提出的方法主要分為在源域的預訓練過程和在目標域的主訓練兩部分.源域中訓練集包含紅外圖像、可見光圖像以及對應(yīng)的標簽圖像,目標域中訓練集包含CT圖像、MR-T2圖像以及對應(yīng)的標簽圖像.為探究源域中樣本數(shù)量對于網(wǎng)絡(luò)性能的影響,將源域中樣本數(shù)量分別設(shè)置為4443組、6665組以及8450組,目標域中樣本數(shù)量固定為150組.構(gòu)建相同的網(wǎng)絡(luò),設(shè)置相同訓練次數(shù),最后通過測試訓練好的網(wǎng)絡(luò),以得到的融合圖像進行客觀評價指標的分析,結(jié)果如表3所示,加粗的數(shù)值表示三組實驗中的最佳得分.
表3 源域樣本數(shù)對網(wǎng)絡(luò)性能的影響Table 3 Influence of source domain sample size on network performance
從表中數(shù)據(jù)可以看到,源域中樣本數(shù)由4443組增加到6665組時,各項指標數(shù)據(jù)對比均有提升,即生成圖像質(zhì)量更好,意味著網(wǎng)絡(luò)性能得到提高.但當源域中樣本數(shù)繼續(xù)增加到8450組時,各項指標對比均有下降,即生成圖像質(zhì)量更差,意味著網(wǎng)絡(luò)性能變差.由此可見,源域中樣本的數(shù)量對網(wǎng)絡(luò)性能有所影響,并且不是一定樣本數(shù)量越多得到的網(wǎng)絡(luò)越好,而是需要在一定的范圍內(nèi)合理選取源域中的樣本數(shù)量.由于三組實驗中,第二組實驗訓練得到的網(wǎng)絡(luò)生成的圖像質(zhì)量最高,因此本文后續(xù)實驗中源域中的訓練集采用的樣本數(shù)設(shè)置為6665組.
在遷移學習中,為選擇性地利用一些在源域中學習到的特征,可以通過微調(diào)(finetune)網(wǎng)絡(luò)以提高網(wǎng)絡(luò)性能,加快網(wǎng)絡(luò)收斂速度[21].本文采用的微調(diào)的步驟如下:
1)在源域的紅外與可見光數(shù)據(jù)集的融合任務(wù)上訓練一個基本網(wǎng)絡(luò);
2)將基本網(wǎng)絡(luò)中生成器GS的前p層復制到目標網(wǎng)絡(luò)生成器GT的前p層,基本網(wǎng)絡(luò)中鑒別器DS的前q層復制到目標網(wǎng)絡(luò)鑒別器DT的前q層,這樣可以將網(wǎng)絡(luò)學習到的源圖像與對應(yīng)融合圖像之間的特征映射轉(zhuǎn)移到目標域的網(wǎng)絡(luò)上;
3)隨機初始化目標網(wǎng)絡(luò)的其余層,并在CT與MR-T2的數(shù)據(jù)集上進行圖像融合訓練.由于源域中的任務(wù)與目標域中的任務(wù)均為圖像融合,因此轉(zhuǎn)移的特征映射是通用的,同時適用于基本任務(wù)和目標任務(wù),而不是特定于基本任務(wù).
基于以上步驟,對如何微調(diào)網(wǎng)絡(luò)在CT與MR-T2的圖像融合任務(wù)中的影響進行了實驗.在源域與目標域中,我們采用相同結(jié)構(gòu)的網(wǎng)絡(luò),對如3.1.1和3.1.2中所示的生成器中的4個卷積層與鑒別器中的5個卷積層進行不同位置的凍結(jié)與微調(diào),通過對最終得到的融合圖像質(zhì)量的客觀指標評價分析來判斷如何微調(diào)能得到性能更好的網(wǎng)絡(luò).四組實驗的評價指標如表4所示.加粗的數(shù)值表示四組微調(diào)方法中的最佳得分.
表4 微調(diào)對遷移學習效果的影響Table 4 Influence of fine tune on transfer learning effect
第1組實驗是把源域中訓練得到的WGAN-GP網(wǎng)絡(luò)不經(jīng)任何微調(diào)直接用于目標域的數(shù)據(jù)集上,通過表4中數(shù)據(jù)可以看到,基于源圖像的評價指標都很差,說明融合圖像與源圖像的相似度非常低,保留的源圖像的信息量很少.這是因為只在源域中訓練過的網(wǎng)絡(luò)雖然可以根據(jù)輸入的源圖像生成融合圖像,但由于網(wǎng)絡(luò)中高層的卷積層學習到的特征具有特異性,只適用于紅外與可見光圖像的融合,而在CT與MR-T2圖像的融合中表現(xiàn)較差.
第2組實驗是把源域中訓練好的GS全部復制到GT,DS的前4層復制到DT,僅重新訓練DT中主要用于分類的最后一層.從表4中數(shù)據(jù)可以看到相對于第1組實驗,三個基于源圖像的評價指標MI、QAB/F、MS_SSIM指標均有提升,說明經(jīng)過在CT與MR-T2數(shù)據(jù)集上的訓練,對基本網(wǎng)絡(luò)進行微調(diào),使之學習到更多具有特異性的特征,從而使融合圖像包含更多源圖像的信息,與源圖像更為相似.
第3組實驗是把源域中訓練好的GS的后3層復制到GT,DS的前3層復制到DT,然后重新訓練GT中的第一層和DT中的最后一層.由于GAN中的生成器相當于一個特征提取器,網(wǎng)絡(luò)中的第一層學習到的是更特異于源域的特征,為提高特征提取器在目標域中的性能,選擇對GT的第一層微調(diào).而鑒別器中最后一層相當于分類器,為了使其更適應(yīng)與目標域中的特征,提高在目標域中的分類性能,要對DT的最后一層進行微調(diào).從表4中數(shù)據(jù)可以看到,這種微調(diào)方法相對于其他三種方法得到的融合圖像質(zhì)量較差,說明這樣的微調(diào)方法不適合于本文提出的網(wǎng)絡(luò)結(jié)構(gòu).
第4組實驗是把源域中訓練好的GS與DS的所有卷積層全部復制到GT和DT中,在經(jīng)過初始化的網(wǎng)絡(luò)基礎(chǔ)上,利用網(wǎng)絡(luò)中保留的參數(shù),開放所有層在目標域的數(shù)據(jù)集中繼續(xù)訓練.這樣做是因為源域與目標域中需要完成的任務(wù)是一致的,因此在源域和目標域中需要網(wǎng)絡(luò)學習的特征映射類似,可以使用預訓練的網(wǎng)絡(luò)當做特征提取器,用提取的特征映射訓練DT中的線性分類器,以提升整個網(wǎng)絡(luò)的性能,得到更高質(zhì)量的融合圖像.由表4中最后一行數(shù)據(jù)可以看到這種微調(diào)方法得到的融合圖像質(zhì)量相對較高.
綜合四組實驗結(jié)果可以發(fā)現(xiàn),在網(wǎng)絡(luò)由源域遷移到目標域的過程中,從目標域中學習到的基礎(chǔ)特征的遷移效果受微調(diào)方法的影響.幾種微調(diào)方法中,第4組方法得到的融合圖像效果最好.這是因為目標域中的數(shù)據(jù)集樣本數(shù)很少,并且和源域中數(shù)據(jù)集樣本相似度較高,而且源域中與目標域中要完成的任務(wù)是相同的,所以在目標域中的任務(wù)上可以利用大部分從源域中學習到的特征,在此基礎(chǔ)上繼續(xù)學習,可以提高網(wǎng)絡(luò)性能,有利于得到更高質(zhì)量的融合圖.
實驗中一方面采取上文4.3中選取出的最優(yōu)的微調(diào)方法,在目標域中150組CT與MR-T2以及標準融合圖像的數(shù)據(jù)集中繼續(xù)訓練,得到一個基于遷移學習方法的網(wǎng)絡(luò)NT;另一方面構(gòu)造與NT結(jié)構(gòu)相同的網(wǎng)絡(luò),在經(jīng)過數(shù)據(jù)增強的4650組CT與MR-T2圖像以及標準融合圖像的數(shù)據(jù)集中訓練,得到一個基于數(shù)據(jù)增強方法的網(wǎng)絡(luò)ND;然后對網(wǎng)絡(luò)NT和ND分別進行訓練2000次、4000次、6000次的三組實驗;最后對訓練完成的網(wǎng)絡(luò)測試,以得到CT與MR-T2的融合圖像.
首先通過人眼觀察,對融合圖像效果進行主觀上的比較.
圖4 融合效果對比圖Fig.4 Contrast diagram of fusion effect
圖5 遷移學習有效性實驗的評價指標對比Fig.5 Comparison of evaluation indexes of transfer learning effectiveness experiment
除了對整幅圖像的全局觀察外,把每幅圖像中代表性區(qū)域放大,以便更好地進行比較.如圖4所示,為多發(fā)性栓塞性梗塞病癥的腦CT與MR-T2圖像融合結(jié)果.圖4(a)、(b)分別為CT與MR-T2的原圖像以及圖中方框所圈出的局部放大得到的細節(jié)圖;圖4(c)、(d)、(e)分別為通過數(shù)據(jù)增強訓練的網(wǎng)絡(luò)在訓練2000、4000、6000次時得到的結(jié)果,以及圖中方框圈出的局部細節(jié)放大圖;圖4(f)、(g)、(h)分別為本文提出的Transfer-WGAN-GP的網(wǎng)絡(luò)模型在訓練2000、4000、6000次時得到的結(jié)果,以及圖中方框圈出的局部細節(jié)放大圖.由醫(yī)學影像學可以知道,CT圖中亮度表示組織密度,MR-T2中的亮度表示組織的流動性和磁性.從圖4(a)中可以看到CT圖中呈現(xiàn)高亮度的為高密度低流量的顱骨,而相對灰暗的為充以低密度高流量的腦脊液的腦室.由于二者有明顯的亮度差異,融合圖中應(yīng)保留這樣的語義信息.首先從6張融合圖像中可以看到兩種方法均較完整的保留了兩種源圖像中的語義信息,并且邊緣紋理都比較豐富;通過6張局部放大的細節(jié)圖可以看到,本文提出的Transfer-WGAN-GP網(wǎng)絡(luò)模型得到的融合圖像相比于數(shù)據(jù)增強的方法得到的融合圖像對比度稍高,圖像相對更清晰.
由于主觀評價雖然可以對融合圖像的視覺效果直接作出判斷,但是人為評價可能受很多主觀因素影響評價結(jié)果,并且如圖4所示,兩種方法得到的融合圖像視覺上差別不大,無法判斷哪種方法更優(yōu).所以需要通過前文提到的6種評價指標對融合圖像進行客觀的分析.為更加直觀的看出兩個網(wǎng)絡(luò)在6種客觀評價指標上的對比,對實驗得到的數(shù)據(jù)進行可視化得到如圖5所示.
從圖5中每個評價指標中的三組實驗的數(shù)據(jù)可以看到,隨著訓練次數(shù)的增加,各指標數(shù)值均有一定的提升,說明兩個網(wǎng)絡(luò)的性能隨著訓練次數(shù)增加有一定的提升.此外,在訓練次數(shù)相同的情況下,由本文提出的Transfer-WGAN-GP模型生成的融合圖像,相較于基于數(shù)據(jù)增強得到的網(wǎng)絡(luò)生成的融合圖像,在六個指標上均具有明顯優(yōu)勢,說明本文提出的網(wǎng)絡(luò)模型性能更優(yōu).這是由于經(jīng)過數(shù)據(jù)增強處理得到的數(shù)據(jù)集中的醫(yī)學圖像不夠多元化,類似場景的數(shù)據(jù)樣本過多,利用這些樣本網(wǎng)絡(luò)可能會只學習到一個場景,容易導致網(wǎng)絡(luò)的過擬合.而本文提出的方法是在經(jīng)過初始化的網(wǎng)絡(luò)上繼續(xù)訓練,利用網(wǎng)絡(luò)在源域中學習到的基本的特征映射,可以提升網(wǎng)絡(luò)在目標域中的訓練效果,從而在小樣本的數(shù)據(jù)集上訓練也不會產(chǎn)生過擬合的現(xiàn)象,最終得到質(zhì)量較高的融合圖像.
由此可以證明在生成對抗網(wǎng)絡(luò)中使用遷移學習在小數(shù)據(jù)集的訓練上有一定的優(yōu)越性,有效抑制了網(wǎng)絡(luò)的過擬合,使得模型的泛化能力更好.
本文首次提出了一種Transfer-WGAN-GP網(wǎng)絡(luò)模型,利用從紅外與可見光圖像的融合數(shù)據(jù)中學習特征映射來提高網(wǎng)絡(luò)性能,從而在CT與MR-T2圖像的融合中得到高質(zhì)量的融合圖像.利用Havard Medical School的全腦圖譜中的CT與MR-T2圖像進行融合,通過對比實驗可以看到,在數(shù)據(jù)集有限的情況下,相對于數(shù)據(jù)增強的方法,基于遷移學習的網(wǎng)絡(luò)可以得到更高質(zhì)量的融合圖像,模型更具有優(yōu)勢.驗證了提出的Transfer-WGAN-GP模型用于CT與MR-T2圖像融合的有效性,為深度學習方法用于小數(shù)據(jù)集的醫(yī)學圖像融合提供了一種新思路.由于本文中僅對醫(yī)學圖像中的CT與MR-T2圖像進行融合實驗,課題組下一步工作考慮通過修改現(xiàn)有模型,用于其他小數(shù)據(jù)集的多模態(tài)醫(yī)學圖像融合.