馬偉鎮(zhèn) 何良華
摘要:在疾病診斷過程當(dāng)中通常會(huì)生成各種各樣的醫(yī)療圖像,利用計(jì)算機(jī)綜合考慮來自不同模態(tài)的醫(yī)療圖像來輔助診斷成了一個(gè)熱門的研究方向。本方法利用深度神經(jīng)網(wǎng)絡(luò)獲取不同模態(tài)的醫(yī)療圖像的特征,通過設(shè)計(jì)損失函數(shù)的正則化項(xiàng),使得這些特征在共同語義空間上保持結(jié)構(gòu)上的相似性,來讓網(wǎng)絡(luò)學(xué)習(xí)到更加魯棒的特征。本方法在CPM-RadPath2020和CheXpert這兩個(gè)數(shù)據(jù)集上取得比一般方法更高的準(zhǔn)確率,表明了其在多模態(tài)醫(yī)療圖像分類問題上的有效性。
關(guān)鍵詞:多模態(tài)融合;醫(yī)療圖像;神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
中圖分類號(hào):TP311? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)03-0075-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 概述
多模態(tài)機(jī)器學(xué)習(xí)的模型有很多種,比如利用貝葉斯理論來構(gòu)建的概率模型、利用模糊概念構(gòu)建的模型[1]、利用玻爾茲曼機(jī)(BM)[2]來學(xué)習(xí)共享特征的模型。近年來深度神經(jīng)網(wǎng)絡(luò)獲得了很大的發(fā)展,因此利用深度神經(jīng)網(wǎng)絡(luò)處理多模態(tài)問題成了一個(gè)熱門的研究方向。我們主要利用深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行多模態(tài)融合的研究。
在疾病診斷過程中,醫(yī)生會(huì)使用來自不同模態(tài)(CT,MRI等)醫(yī)療圖像來對(duì)疾病進(jìn)行綜合判斷。直覺上來說,這些來自不同模態(tài)的醫(yī)療圖像包含存在于它們之間的共享信息,以及各個(gè)模態(tài)所獨(dú)有的信息。共享信息本身能夠用于疾病的診斷,而且共享信息在不同模態(tài)之間出現(xiàn)也能夠加深信息的可信程度。獨(dú)特信息可能和診斷相關(guān),也可能與診斷無關(guān),但有些時(shí)候這些獨(dú)特信息也會(huì)對(duì)診斷起到關(guān)鍵的作用。因此,設(shè)計(jì)合適的多模態(tài)融合方法來綜合考慮來自不同模態(tài)的信息,是提升醫(yī)療圖像分類準(zhǔn)確率的重要途徑之一。
根據(jù)多模態(tài)融合時(shí)機(jī)的不同可將融合方法分為輸入層級(jí)、中間層級(jí)和決策層級(jí)。輸入層級(jí)融合方法比較直觀,通常是將來自不同模態(tài)的數(shù)據(jù)融合成一個(gè)多通道的模態(tài),中間層級(jí)的融合方式多種多樣,比如MMTM[3]設(shè)計(jì)的雙路網(wǎng)絡(luò),每一層都可以將來自一個(gè)網(wǎng)絡(luò)的信息融合到另一個(gè)網(wǎng)絡(luò)當(dāng)中。決策層級(jí)的融合會(huì)利用來自不同模型輸出的特征或策略來進(jìn)行綜合判斷。比如很多人利用不同網(wǎng)絡(luò)輸出的特征拼接成新的特征作為分類的依據(jù),或利用majority voting的方式進(jìn)行決策。
2 相關(guān)工作
筆者使用預(yù)訓(xùn)練的ResNet和DenseNet作為圖像的特征提取器。對(duì)于CPM-RadPath2020[5]腦腫瘤分類任務(wù),需要對(duì)訓(xùn)練過程做一些特殊處理。CPM使用病理切片和核磁共振成像(MRI)作為輸入模態(tài),但單個(gè)病理圖片和MRI的大小太大,直接使用它們作為網(wǎng)絡(luò)的輸入對(duì)于目前計(jì)算機(jī)來說還是個(gè)挑戰(zhàn),通過對(duì)兩個(gè)模態(tài)進(jìn)行降采樣,以及使用多示例學(xué)習(xí)的方法來緩解這個(gè)問題。采用文獻(xiàn)[4]的滑動(dòng)窗口的方法對(duì)病理圖片采樣出較小的子圖片。對(duì)于MRI來說,我們對(duì)垂直軸方向進(jìn)行降采樣,隨機(jī)選取適當(dāng)數(shù)量的切片作為新的樣本。因此,每個(gè)模態(tài)都包含多張2D圖像,分別使用各自的特征提取器對(duì)它們進(jìn)行特征的提取,然后求平均值作為各個(gè)模態(tài)的特征。這樣簡(jiǎn)單的多示例學(xué)習(xí)策略在實(shí)驗(yàn)當(dāng)中也能取得很好的效果。
在網(wǎng)絡(luò)學(xué)習(xí)的過程能夠有效利用多個(gè)模態(tài)中存在的共享信息。因此在語義空間當(dāng)中,類型相同的樣本的特征是相似的,類型不同的樣本的特征是不相似的,這樣的方法類似于對(duì)比學(xué)習(xí)當(dāng)中的思想。這樣使得不同模態(tài)的特征分布具有相似的結(jié)構(gòu),這樣的相似性可以看作不同模態(tài)之間的共享信息。利用不同模態(tài)之間的共享特征和各自模態(tài)的獨(dú)特特征,模型可以做出更準(zhǔn)確的判斷。
對(duì)于不同模態(tài),我們假設(shè)[hi∈H,i∈{1, 2, …, M}]為特征提取模型,其中[H]為假設(shè)空間。設(shè)[ai, i∈{1, 2, …, M}]為第i個(gè)模態(tài)的特征。
[ai=hi (Xi ), i∈{1, 2, …, M}]
在語義空間當(dāng)中,當(dāng)[ai]來自同一個(gè)類型標(biāo)簽的輸入[Xi]時(shí),它們?cè)谡Z義空間上相似,當(dāng)[ai]來自不同類型標(biāo)簽的輸入時(shí),它們?cè)谡Z義空間上不相似,如圖1所示,圖中不同顏色代表不同類別,不同形狀代表來自不同模態(tài)。根據(jù)這個(gè)限制,我們可以構(gòu)造相應(yīng)的損失函數(shù),使用余弦相似度來衡量特征之間的相似性,使得來自同一樣本的不同模態(tài)的特征相似度高于來自不同樣本的模態(tài)的特征的相似度。對(duì)于存在兩個(gè)模態(tài)的情況,損失函數(shù)的形式為:
[lossst=i,j,k max0,m+dai1,aj2-dai1,ak2+λi,j,kmax0,m+dai2,aj1-dai2,ak1]
其中上標(biāo)[i,j,k]代表特征來自不同的樣本,[i,j]代表正樣本對(duì),即它們的類別標(biāo)簽相同。而[i,k]代表負(fù)樣本對(duì),它們的類別標(biāo)簽不相同。我們使用負(fù)余弦相似度來衡量?jī)蓚€(gè)特征的距離:
[da1,a2=-a1?a2a1a2]
圖 2為模型的結(jié)構(gòu),各個(gè)模態(tài)使用預(yù)訓(xùn)練的ResNet作為特征提取器。對(duì)于來自不同模態(tài)的特征,為了提高特征的豐富性,我們希望模型不僅學(xué)習(xí)到輸入的一階特征,還希望能夠?qū)W習(xí)到[n∈{2,3,…}]階特征。因此,使用多個(gè)MLP(多層感知機(jī))來輸出不同階的特征,然后使用[a1=a11+a212+a313+…]來獲得模態(tài)的最終特征,最后通過拼接的方式來得到最終用于分類的特征,該特征可直接用于分類任務(wù),我們使用MLP作為分類器來得到最終分類結(jié)果。
模型的損失函數(shù)不僅要保持各個(gè)模態(tài)的特征的分布結(jié)構(gòu)的相似,同時(shí)還要使得最終的分類盡可能的正確,因此還需要增加額外的損失函數(shù):
[Losscls=-1Nic=1Myiclog (pic)]
其中N為batch的大小,M為分類類別的數(shù)量,[yic∈{0,1}]為第i個(gè)樣本的標(biāo)簽,[pic∈[0,1]]為模型輸出的概率,該損失函數(shù)為交叉熵?fù)p失函數(shù)??傮w的損失函數(shù)為:
[lossall=lossst+losscls]
3 實(shí)驗(yàn)和結(jié)果分析
3.1 數(shù)據(jù)集
筆者在CPM-RadPath2020[5]和CheXpert[6]兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
CPM-RadPath2020是一個(gè)腦部腫瘤分類任務(wù)的數(shù)據(jù)集,該數(shù)據(jù)集包含病理圖片和腦部核磁圖像這兩個(gè)模態(tài),這些樣本可分類為三個(gè)類別,分別為較低級(jí)星形細(xì)胞瘤、少突膠質(zhì)細(xì)胞瘤與膠質(zhì)母細(xì)胞瘤和彌漫性星形膠質(zhì)細(xì)胞膠質(zhì)瘤。由于該任務(wù)以公開比賽的形式提供實(shí)驗(yàn)數(shù)據(jù),其測(cè)試集未公開。使用其公開訓(xùn)練集并劃分為子訓(xùn)練集和測(cè)試集。
CheXpert數(shù)據(jù)集是一個(gè)大規(guī)模胸部X光片數(shù)據(jù)集,我們?cè)谄涠鄻?biāo)簽分類任務(wù)上進(jìn)行實(shí)驗(yàn),每個(gè)樣本包含5個(gè)標(biāo)簽。由于該數(shù)據(jù)集包含人體正面和側(cè)面兩個(gè)不同方向的胸部X光片數(shù)據(jù),但對(duì)于同一個(gè)人來說,不是每一個(gè)樣本都同時(shí)存在正面和側(cè)面兩個(gè)方向的數(shù)據(jù)。因此,只使用數(shù)據(jù)集當(dāng)中同時(shí)存在正面和側(cè)面的X光片的樣本作為訓(xùn)練集和測(cè)試集,在這個(gè)數(shù)據(jù)集上,可以將正面和側(cè)面當(dāng)作兩個(gè)不同的模態(tài)。
3.2 CPM-RadPath2020
在這個(gè)數(shù)據(jù)集上,我們?cè)谝粡?080Ti顯卡上進(jìn)行實(shí)驗(yàn)。由于顯存的限制,考慮在病理圖片上使用ResNet101作為特征提取器,輸入的每個(gè)病理圖片patch都縮放至[224×244]的大小,并使用歸一化,隨機(jī)翻轉(zhuǎn),以及隨機(jī)切割這些數(shù)據(jù)增強(qiáng)方法。在核磁圖像上使用DenseNet121作為特征提取器,并使用2D的方式來提取特征,相對(duì)于3D DenseNet來說,2D網(wǎng)絡(luò)使用的顯存要更少。同樣地,核磁圖像輸入也進(jìn)行和病理圖片相同的數(shù)據(jù)增強(qiáng)過程。
使用的batch大小為3,每個(gè)樣本的病理圖片和核磁圖像各采樣10張和20張,然后使用多示例學(xué)習(xí)的方式對(duì)模型進(jìn)行訓(xùn)練。一共訓(xùn)練50輪,初始學(xué)習(xí)率為[5×10-5],使用Adam優(yōu)化器作為學(xué)習(xí)優(yōu)化器,并使用StepLR來使模型的學(xué)習(xí)率每50輪降低 10倍,模型輸出128維的向量作為最終的特征。
使用了幾個(gè)基本模型作為對(duì)比,分別為單獨(dú)病理圖片模型(Path)、單獨(dú)核磁圖像模型(Radio)、投票模型(Majority Voting)、拼接模型(Concatenate)和MMTM作為對(duì)比。由于我們只使用了兩個(gè)模態(tài),投票模型以各個(gè)模態(tài)輸出的類別概率相加作為投票的結(jié)果。而拼接模型則直接將各個(gè)模型輸出的特征拼接成一個(gè)更長(zhǎng)的特征作為分類特征。實(shí)驗(yàn)結(jié)果如表1所示:
實(shí)驗(yàn)結(jié)果顯示,病理圖片模態(tài)對(duì)分類的貢獻(xiàn)明顯要比核磁模態(tài)對(duì)分類的貢獻(xiàn)要高,這個(gè)現(xiàn)象是符合現(xiàn)實(shí)情況的。筆者的模型在F1和cohen kappa這兩個(gè)指標(biāo)上的結(jié)果要比其他模型高。
3.3 ChexPert
在這個(gè)數(shù)據(jù)集上,使用正面和側(cè)面的X光片作為兩個(gè)模態(tài),并輸入模型進(jìn)行訓(xùn)練。兩個(gè)模態(tài)都使用ResNet101作為特征提取器。在實(shí)驗(yàn)設(shè)置上使用的batch為30,其他設(shè)置與CPM數(shù)據(jù)集一致。在該數(shù)據(jù)集上模型收斂較快,所以只需要2輪訓(xùn)練就能得到比較穩(wěn)定的結(jié)果。
同樣,筆者使用了幾個(gè)基本模型作為對(duì)比。分別為單獨(dú)模態(tài)模型(Single)、混合模型(Blend)、拼接模型作為對(duì)比。其中單獨(dú)模態(tài)只使用正面的X光片作為模型輸入,混合模型則同時(shí)使用正面和側(cè)面的X光片作為模型輸入。實(shí)驗(yàn)結(jié)果如表2所示:
4 結(jié)論
在多模態(tài)醫(yī)療圖像分類問題中,使用對(duì)比損失作為模型損失函數(shù)的一部分 ,使得各個(gè)模態(tài)同一標(biāo)簽的特征在語義空間上更相似,不同標(biāo)簽的特征在語義空間上更不相似。這樣的正則化項(xiàng)使模型更容易學(xué)習(xí)到不同模態(tài)之間的魯棒的共享信息,同時(shí)使用拼接的方式來利用不同模態(tài)之間的獨(dú)有信息。實(shí)驗(yàn)結(jié)果表明該模型能夠利用來自不同模態(tài)的信息提高分類的準(zhǔn)確率。
參考文獻(xiàn):
[1] Balasubramaniam P,Ananthi V P.Image fusion using intuitionistic fuzzy sets[J].Information Fusion,2014,20:21-30.
[2] SRIVASTAVA N, SALAKHUTDINOV R. Multimodal Learning with Deep Boltzmann Machines[C]//NIPS. 2012,1:2.
[3] Vaezi Joze H R,Shaban A,Iuzzolino M L,et al.MMTM:multimodal transfer module for CNN fusion[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020.
[4] Lerousseau M,Deutsh E,Paragios N.Multimodal brain tumor classification[EB/OL].2020.
[5] KEYVAN FARAHANI,TAHSIN KURC,et al.Computational Precision Medicine Radiology-Pathology challenge on Brain Tumor Classification 2020.MICCAI.
[6] Irvin J,Rajpurkar P,Ko M,et al.CheXpert:a large chest radiograph dataset with uncertainty labels and expert comparison[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:590-597.
【通聯(lián)編輯:梁書】