王宗敏,福 林,高云玥
內(nèi)蒙古醫(yī)科大學(xué)附屬醫(yī)院超聲診斷科,內(nèi)蒙古 呼和浩特010000
在臨床中,由于受醫(yī)療條件的限制,患者經(jīng)常面臨診斷時(shí)間過(guò)長(zhǎng)、診斷結(jié)果主觀性過(guò)強(qiáng)等問(wèn)題。以深度學(xué)習(xí)為代表的新一代人工智能技術(shù)給醫(yī)學(xué)領(lǐng)域帶來(lái)了革命性的變化,被廣泛應(yīng)用于醫(yī)學(xué)影像的分析中。有研究表明,與傳統(tǒng)技術(shù)相比,深度學(xué)習(xí)在某些任務(wù)中表現(xiàn)更佳,甚至優(yōu)于影像醫(yī)師[1]。深度學(xué)習(xí)可以直接從數(shù)據(jù)中自動(dòng)學(xué)習(xí)圖像特征信息,從而在圖像分析上取得了顯著的突破;而在臨床實(shí)踐中,醫(yī)生為了實(shí)現(xiàn)更精準(zhǔn)的診斷,往往需要同時(shí)參考不同模態(tài)、不同類(lèi)型的影像數(shù)據(jù)進(jìn)行全方位、多參數(shù)的綜合分析和判斷。因此,為充分利用不同模態(tài)影像技術(shù)之間的互補(bǔ)性,需要從單模態(tài)深度學(xué)習(xí)向多模態(tài)深度學(xué)習(xí)進(jìn)行轉(zhuǎn)化。
每一種信息的來(lái)源都可以稱(chēng)作一種模態(tài),在人工智能輔助診斷的背景下,對(duì)于模態(tài)一詞的定義為:模態(tài)是對(duì)由一種特定類(lèi)型技術(shù)采集的具有相同表達(dá)形式的數(shù)據(jù)的總稱(chēng)[2],多模態(tài)即是由兩種或兩種以上不同模態(tài)的數(shù)據(jù)信息組成,醫(yī)學(xué)影像領(lǐng)域中常常指來(lái)源于不同的成像原理或設(shè)備。單個(gè)模態(tài)數(shù)據(jù)僅能提供有限的信息用于模型決策,而不同模態(tài)的數(shù)據(jù)信息是不盡相同的,能對(duì)其他模態(tài)信息進(jìn)行補(bǔ)充,從而做出更加綜合的分析和判斷。以往的人工智能醫(yī)學(xué)影像輔助診斷系統(tǒng)通常是單模態(tài)的,只分析了疾病單一類(lèi)型的影像數(shù)據(jù),具有較大的局限性,無(wú)法評(píng)估疾病的全局狀況,而運(yùn)用多模態(tài)融合技術(shù)進(jìn)行綜合分析各種類(lèi)型的醫(yī)學(xué)影像信息,從全局來(lái)考慮病變的完整信息,才是目前人工智能輔助診斷病情的關(guān)鍵[3]。
基于深度學(xué)習(xí)的多模態(tài)融合技術(shù)具備同時(shí)接受不同模態(tài)信息輸入的能力,在學(xué)習(xí)過(guò)程中,在充分提取和利用各個(gè)模態(tài)的有用信息的同時(shí),挖掘出各個(gè)模態(tài)之間的互補(bǔ)性并進(jìn)行多模態(tài)有效信息的相互融合,實(shí)現(xiàn)了較單模態(tài)網(wǎng)絡(luò)更優(yōu)異的性能。多模態(tài)融合方法是多模態(tài)深度學(xué)習(xí)技術(shù)的核心內(nèi)容,分為模型無(wú)關(guān)的方法和基于模型的方法,前者不依賴(lài)于特定的深度學(xué)習(xí)方法,后者則是利用深度學(xué)習(xí)方法解決多模態(tài)融合問(wèn)題,本文主要介紹后者,常用方法包括多核學(xué)習(xí)方法、圖像模型方法和神經(jīng)網(wǎng)絡(luò)方法。多核學(xué)習(xí)方法是內(nèi)核支持向量機(jī)方法的拓展,即允許使用不同的核對(duì)應(yīng)數(shù)據(jù)的不同視圖[4];圖像模型方法是通過(guò)圖像分割、拼接及預(yù)測(cè)對(duì)圖形進(jìn)行融合,從而產(chǎn)生模態(tài)融合結(jié)果;神經(jīng)網(wǎng)絡(luò)方法因其較強(qiáng)的學(xué)習(xí)能力和分類(lèi)性能,是目前應(yīng)用最為廣泛的方法之一[5],通過(guò)大量神經(jīng)元節(jié)點(diǎn)相互連接,構(gòu)建多層結(jié)構(gòu),然后訓(xùn)練連接權(quán)重從而實(shí)現(xiàn)了從低級(jí)特征到高級(jí)特征的逐層學(xué)習(xí),其在多模態(tài)融合中的優(yōu)勢(shì)是具有較好的可擴(kuò)展性,分層方式有利于不同模態(tài)進(jìn)行嵌入,且具有大數(shù)據(jù)的學(xué)習(xí)能力,缺點(diǎn)是隨著模態(tài)不斷增加,模型的可解釋性變差。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種包含卷積計(jì)算且具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)方法,是許多神經(jīng)網(wǎng)絡(luò)方法的基礎(chǔ),例如Le Net、Alex Net、VGG Net、Google Net、Res Net、Dense Net等都是基于CNN發(fā)展而來(lái)的[6-11]。此外,有研究者提出了U-Net架構(gòu),被廣泛應(yīng)用于醫(yī)學(xué)圖像領(lǐng)域,后來(lái)擴(kuò)展到三維空間中,包括3D U-Net、VNet和W-Net,直接用于三維圖像處理[12]。在實(shí)踐中選擇何種融合方法,要根據(jù)具體問(wèn)題和研究?jī)?nèi)容選擇合適的多模態(tài)融合方法?;谏窠?jīng)網(wǎng)絡(luò)方法的多模態(tài)融合模型是研究者們采用的主流方案,本文主要介紹基于神經(jīng)網(wǎng)絡(luò)融合方法在醫(yī)學(xué)領(lǐng)域的研究進(jìn)展。
基于深度學(xué)習(xí)方法的多模態(tài)融合是運(yùn)用多個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)完成多模態(tài)學(xué)習(xí)任務(wù),其中已經(jīng)有大量將深度學(xué)習(xí)方法應(yīng)用于醫(yī)學(xué)領(lǐng)域的成功案例,如疾病檢測(cè)、疾病分割、疾病分類(lèi)、疾病預(yù)后預(yù)測(cè)等。
對(duì)病灶的前期表現(xiàn)進(jìn)行檢測(cè)是疾病確診的一個(gè)重要步驟,也是后續(xù)分類(lèi)的基礎(chǔ)。近年來(lái),多模態(tài)深度學(xué)習(xí)的快速發(fā)展在疾病識(shí)別與檢測(cè)領(lǐng)域取得了不錯(cuò)的成果,例如針對(duì)乳腺癌的輔助診斷中,有學(xué)者利用CNN Dense Net 121多模態(tài)融合網(wǎng)絡(luò)提取常規(guī)灰階(B型)超聲圖像和超聲彈性圖像(RTE)特征并融合用于檢測(cè)并診斷乳腺良惡性腫瘤,研究表明多模態(tài)融合模型鑒別乳腺良惡性腫瘤效能優(yōu)于單模態(tài)模型,有助于輔助醫(yī)生診斷乳腺結(jié)節(jié)病癥,進(jìn)一步提高了臨床診斷的準(zhǔn)確率[13];也有學(xué)者利用ResNet-18網(wǎng)絡(luò)模型以4種類(lèi)型的超聲(即B型、多普勒、剪切波彈性成像和應(yīng)變彈性成像)作為端對(duì)端分類(lèi)結(jié)果的輸入輸出聯(lián)合診斷乳腺癌,B型超聲反映病灶結(jié)構(gòu)信息,多普勒超聲可以檢測(cè)腫瘤區(qū)域增加的血流信息,彈性成像反映組織的硬度,4種類(lèi)型超聲圖像的組合大大增加了多模態(tài)信息的權(quán)重,進(jìn)一步提高了診斷性能[14]。為了充分利用不同模態(tài)影像之間的互補(bǔ)性,提高疾病檢測(cè)和診斷的性能,需要從單模態(tài)深度學(xué)習(xí)轉(zhuǎn)向更多種模態(tài)的深度學(xué)習(xí)中。
脊椎的自動(dòng)識(shí)別在脊柱臨床診斷中是非常需要的,有學(xué)者提出一種多模態(tài)脊椎識(shí)別的方法,使用一種稱(chēng)為轉(zhuǎn)換深度卷積網(wǎng)絡(luò)的新型深度學(xué)習(xí)結(jié)構(gòu),這種新結(jié)構(gòu)可以無(wú)監(jiān)督地融合MRI和CT的圖像特征,自動(dòng)對(duì)自適應(yīng)、高分辨力和位姿不變圖像特征進(jìn)行識(shí)別,增強(qiáng)了特征的判別性,已成功通過(guò)多模態(tài)數(shù)據(jù)集的腰椎和全脊柱掃描測(cè)試,具有較高的準(zhǔn)確性和穩(wěn)定性[15]。這對(duì)于脊柱疾病的臨床實(shí)踐提供了自動(dòng)識(shí)別與檢測(cè)功能,顯示出了多模態(tài)深度學(xué)習(xí)在脊柱疾病上的應(yīng)用潛力。
目前癲癇疾病的診斷主要通過(guò)患者腦電圖中的癲癇波,不僅耗時(shí)且依賴(lài)于醫(yī)生的臨床經(jīng)驗(yàn)。為克服這些局限性,有研究從MRI功能像出發(fā),采用多模態(tài)融合的深度神經(jīng)網(wǎng)絡(luò)方法用于顳葉內(nèi)外側(cè)癲癇的診斷與鑒別[16]。這也是在文獻(xiàn)報(bào)道中首次提出利用深度學(xué)習(xí)的方法診斷癲癇,具有一定的臨床意義。
多模態(tài)正電子發(fā)射斷層掃描和計(jì)算機(jī)斷層掃描成像(PET/CT)技術(shù)對(duì)疾病診斷提供了關(guān)鍵信息,分別從不同方面表征病變,前者提供病變?cè)敿?xì)的代謝和功能信息,后者則提供病變的解剖和病理信息,因此PET/CT影像既具有較強(qiáng)的病灶與周?chē)=M織區(qū)分能力,又具備較好的清晰度,為下一步的臨床決策提供了更加充分的參考意見(jiàn)。目前PET/CT已被廣泛應(yīng)用于臨床疾病的檢測(cè)診斷中,有學(xué)者提出一種基于PET/CT雙模態(tài)深度無(wú)監(jiān)督自編碼網(wǎng)絡(luò)框架的肺結(jié)節(jié)診斷方法,將候選肺結(jié)節(jié)的PET/CT圖像作為輸入,并對(duì)高層圖像信息進(jìn)行學(xué)習(xí),最后采用線性組合的方式將學(xué)習(xí)到的不同模態(tài)特征融合后作為整個(gè)框架的輸出,這種方法有效提高了肺結(jié)節(jié)的診斷性能[17];有學(xué)者提出基于三維深度卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)結(jié)合PET/CT成像,構(gòu)建了一種新的潛在工具,顯示了對(duì)惡性胸膜間皮瘤診斷的靈活性[18];有學(xué)者基于PET/CT可以捕捉多發(fā)性骨髓瘤病灶異常分子表達(dá)及解剖變化,提出采用V-Net和W-Net兩種CNN對(duì)病變進(jìn)行檢測(cè),通過(guò)自動(dòng)結(jié)合了PET和CT的特征,對(duì)多發(fā)性骨髓瘤患者的全身病變進(jìn)行三維檢測(cè),初步結(jié)果表明,W-Net在病灶識(shí)別和檢測(cè)方面取得了最佳效果[19],這項(xiàng)研究對(duì)于開(kāi)發(fā)一種用于多發(fā)性骨髓瘤疾病自動(dòng)化管理的工具邁進(jìn)了一步??梢钥闯觯c單純使用PET/CT進(jìn)行病灶檢測(cè)相比,多模態(tài)融合方法的準(zhǔn)確率更高;但對(duì)于PET/CT圖像的檢測(cè)是利用二維或三維CNN進(jìn)行訓(xùn)練任務(wù),而PET/CT屬于三維影像,需要空間信息更加準(zhǔn)確,未來(lái)的研究方向應(yīng)該在三維網(wǎng)絡(luò)模型上設(shè)計(jì)。
從以上研究成果可以看出多模態(tài)深度學(xué)習(xí)檢測(cè)和診斷病變的潛力,CNN是檢測(cè)的主要模型,它可以捕獲到相鄰像素之間的關(guān)系,從而獲得圖像特征信息,這也是檢測(cè)任務(wù)的基礎(chǔ)。雖然各類(lèi)深度學(xué)習(xí)方法均已顯示出較好的檢測(cè)效果,但如果想獲取更加穩(wěn)定的自動(dòng)檢測(cè)方法,仍需要通過(guò)大量的訓(xùn)練實(shí)現(xiàn)。如何能夠有效利用多模態(tài)影像信息,提高檢測(cè)的穩(wěn)定性和準(zhǔn)確率,是未來(lái)需要繼續(xù)探索的課題。
圖像分割是對(duì)圖像感興趣區(qū)域進(jìn)行分割,醫(yī)學(xué)圖像分割可以通過(guò)識(shí)別內(nèi)部或輪廓區(qū)域找到特定器官、組織的感興趣區(qū)域,如病變或腫瘤區(qū)域等,對(duì)目標(biāo)區(qū)域進(jìn)行分割在圖像各類(lèi)任務(wù)分析中有著舉足輕重的作用。隨著人工智能的發(fā)展,深度學(xué)習(xí)方法在醫(yī)學(xué)影像圖像分割任務(wù)中產(chǎn)生了突破性的成果,其中CNN已經(jīng)被成功應(yīng)用于腦[20-21]、肝[22-24]、肺[25]、乳腺[26-27]等區(qū)域腫瘤的分割,與傳統(tǒng)方法相比,這些基于深度學(xué)習(xí)的方法取得了卓越的性能,且對(duì)于醫(yī)學(xué)圖像分割中常見(jiàn)挑戰(zhàn)具有良好的魯棒性,因此將其應(yīng)用于多模態(tài)影像分割領(lǐng)域也越來(lái)越受到研究者的關(guān)注。
MRI和CT是臨床診斷中最常用的兩種醫(yī)學(xué)圖像,二者之間的跨通道醫(yī)學(xué)圖像結(jié)合在醫(yī)學(xué)成像領(lǐng)域受到越來(lái)越多的關(guān)注,深度學(xué)習(xí)已經(jīng)被應(yīng)用于MRI/CT多模態(tài)圖像中,如將MRI 與CT技術(shù)聯(lián)合使用對(duì)病灶進(jìn)行分割,有學(xué)者提出利用CNN在CT掃描中檢測(cè)出鼻咽癌,利用多模態(tài)MRI融合網(wǎng)絡(luò)分割出鼻咽癌區(qū)域,再采用自適應(yīng)閾值算法在CT圖像上劃分代謝活性不同的鼻咽癌子區(qū)域,最后生成鼻咽癌的三維曲面模型,實(shí)現(xiàn)了多模態(tài)技術(shù)的聯(lián)合使用對(duì)鼻咽癌區(qū)域和子區(qū)域進(jìn)行可靠的分割,為判斷患者間的異質(zhì)性提供了依據(jù)[28]。有研究提出一種新的基于深度學(xué)習(xí)的多模態(tài)U形網(wǎng)絡(luò)圖像分割模型MM-unet,充分利用了MRI圖像與CT圖像間信息互補(bǔ)的特點(diǎn),提升了對(duì)前列腺癌分割的精度,且與UNet模型相比,MM-unet模型方法能夠獲得高出3個(gè)百分點(diǎn)的精確度,其分割效果具有明顯優(yōu)勢(shì)[29]。
多模態(tài)MRI主要以組織分辨率高、多方位成像,可以清晰了解病灶特征及周邊結(jié)構(gòu)的解剖關(guān)系,幫助醫(yī)生更好的區(qū)別特性,在疾病分割中,能夠發(fā)揮出更理想的效果。有研究引入小樣本分割模型,基于U-Net的原型網(wǎng)絡(luò)模型用以對(duì)多模態(tài)MRI腦腫瘤圖像進(jìn)行分割[30];PEI等人首先提出了一種三維上下文編碼的CNN,該方法考慮了多模態(tài)MRI圖像子區(qū)域中腫瘤位置的不確定性,實(shí)現(xiàn)了對(duì)腦腫瘤的分割;此外,還將此網(wǎng)絡(luò)應(yīng)用于腫瘤片段中,實(shí)現(xiàn)了僅利用MRI結(jié)構(gòu)數(shù)據(jù)對(duì)腦腫瘤的分類(lèi);最后,又使用深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的混合方法,實(shí)現(xiàn)了對(duì)腦腫瘤總體生存進(jìn)行預(yù)測(cè)。該研究不僅表現(xiàn)出極強(qiáng)的腫瘤分割能力和生存預(yù)測(cè)能力,且對(duì)于腫瘤的分類(lèi)結(jié)果在“計(jì)算精準(zhǔn)醫(yī)學(xué)放射學(xué)-病理學(xué)挑戰(zhàn)2019腦腫瘤分類(lèi)”的測(cè)試階段排名第2[31],對(duì)于多模態(tài)影像應(yīng)用于深度學(xué)習(xí)產(chǎn)生了突破性的進(jìn)展,實(shí)現(xiàn)了深度學(xué)習(xí)對(duì)疾病從分割、分類(lèi)到預(yù)后預(yù)測(cè)的多方面涉足,對(duì)于多模態(tài)深度學(xué)習(xí)的發(fā)展具有積極意義。此外,有學(xué)者提出一種新的基于熵和形狀感知的多模態(tài)心臟圖像分割網(wǎng)絡(luò),從多序列MRI數(shù)據(jù)集及MRI到CT的跨模態(tài)數(shù)據(jù)集驗(yàn)證了該方法的性能[32]。
在其它醫(yī)學(xué)影像領(lǐng)域,也有研究對(duì)多模態(tài)深度學(xué)習(xí)應(yīng)用于疾病分割做出探索。既往有研究提出使用二維U-Net分割肝臟血管,并將其整合到腹腔鏡超聲與CT配準(zhǔn)管道中,腹腔鏡超聲可顯示包括血管在內(nèi)的亞表面結(jié)構(gòu),而針對(duì)腹腔鏡超聲中不可見(jiàn)的等回聲區(qū)域,可由CT圖像進(jìn)行信息補(bǔ)充,結(jié)合兩種模態(tài)可以提供血管與病灶的空間關(guān)系,結(jié)果證明此方法是可行的[33]。有學(xué)者提出基于編碼器-解碼器的3D-UNet的深度全卷積網(wǎng)絡(luò)對(duì)非小細(xì)胞肺部腫瘤的PET-CT圖像進(jìn)行分割,優(yōu)于現(xiàn)有的基于圖的分割方法,也優(yōu)于單模態(tài)PET或CT的深度學(xué)習(xí)方法[34];而有學(xué)者設(shè)計(jì)了一個(gè)基于CNN的MRI、CT、PET的多模態(tài)圖像分割系統(tǒng),實(shí)現(xiàn)了對(duì)軟組織肉瘤病變的分割任務(wù),同時(shí)也證明了對(duì)于腫瘤分割任務(wù),在網(wǎng)絡(luò)內(nèi)部進(jìn)行圖像融合通常比在網(wǎng)絡(luò)輸出處進(jìn)行圖像融合效果好,為多模態(tài)圖像的分析和應(yīng)用提供了經(jīng)驗(yàn)性指導(dǎo)[35]。
綜上,深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)影像分割任務(wù)上是有效的,但多模態(tài)圖像的分割是一個(gè)高要求且極具挑戰(zhàn)性的問(wèn)題。相比于單模態(tài)分割,多模態(tài)分割需要將模態(tài)之間的信息進(jìn)行融合,并有效利用模態(tài)之間的互補(bǔ)信息,多種模態(tài)圖像的互補(bǔ)信息如何融合、在何處融合是未來(lái)研究的重點(diǎn),需要進(jìn)一步探索。目前的研究都是基于特定問(wèn)題而設(shè)計(jì)特定的網(wǎng)絡(luò)架構(gòu),因此開(kāi)發(fā)針對(duì)非特定問(wèn)題的網(wǎng)絡(luò)架構(gòu)可能也是未來(lái)研究的重要方向。
深度學(xué)習(xí)作為一種新興起的分類(lèi)模型,比傳統(tǒng)分類(lèi)方法更方便、更客觀,越來(lái)越受到研究者們的重視,對(duì)醫(yī)學(xué)影像的分類(lèi)可以實(shí)現(xiàn)疾病精確分類(lèi),為臨床醫(yī)生的后期治療提供有效的建議。由于僅僅依靠患者自我報(bào)告的癥狀,醫(yī)生很難對(duì)神經(jīng)精神疾病做出有信心的預(yù)測(cè),且對(duì)這些疾病的神經(jīng)和生物學(xué)機(jī)制很難有所突破。有學(xué)者開(kāi)發(fā)出第一個(gè)將基因組信息與功能和結(jié)構(gòu)MRI圖像相結(jié)合的深度模型對(duì)精神分裂癥進(jìn)行分類(lèi),實(shí)現(xiàn)了多模態(tài)影像和基因組數(shù)據(jù)與分類(lèi)器相結(jié)合,提高了預(yù)測(cè)的可靠性[36];有學(xué)者則提出了一種基于CNN分別對(duì)阿爾茲海默病患的MRI和PET圖像進(jìn)行3D卷積操作提取各自模態(tài)的特征信息并進(jìn)行融合,最后用全連接神經(jīng)網(wǎng)絡(luò)將提取的多模態(tài)特征信息進(jìn)行分類(lèi)預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明該研究在準(zhǔn)確率和曲線下面積的性能評(píng)價(jià)中都取得了優(yōu)越的結(jié)果[37]。
超聲檢查是一種無(wú)創(chuàng)、廉價(jià)、可重復(fù)性好的醫(yī)學(xué)影像技術(shù)。隨著超聲新技術(shù)的出現(xiàn),以多種超聲成像為基礎(chǔ)的多模態(tài)超聲技術(shù)聯(lián)合深度學(xué)習(xí)在臨床的應(yīng)用越來(lái)越廣泛,有研究通過(guò)基于CNN在B超和超聲造影聯(lián)合圖像中對(duì)肝細(xì)胞癌進(jìn)行識(shí)別發(fā)現(xiàn),在B超圖像中,肝細(xì)胞癌在更晚期階段才表現(xiàn)為一個(gè)界限清楚的區(qū)域,而惡性腫瘤所特有的復(fù)雜血管結(jié)構(gòu)在超聲造影圖像中更加突出,多模態(tài)組合分類(lèi)器最終實(shí)現(xiàn)了97%以上的分類(lèi)精度,總體上優(yōu)于該領(lǐng)域目前報(bào)告的分類(lèi)性能[38]。有學(xué)者鑒于B超和RTE在前列腺癌的臨床診斷中的重要應(yīng)用價(jià)值,B超檢測(cè)組織的形態(tài)學(xué)改變,RTE提供生物力學(xué)信息,提出一種集成的深度網(wǎng)絡(luò)學(xué)習(xí)和融合多模態(tài)超聲圖像特征的模型對(duì)前列腺疾病進(jìn)行分類(lèi),實(shí)驗(yàn)結(jié)果表明了多模態(tài)特征模型對(duì)前列腺疾病的鑒別具有互補(bǔ)性和協(xié)同性,優(yōu)于單模態(tài)特征模型,深度網(wǎng)絡(luò)優(yōu)于淺層網(wǎng)絡(luò)[39]。但目前深度學(xué)習(xí)實(shí)現(xiàn)性能的改進(jìn)在很大程度上依賴(lài)于大樣本的訓(xùn)練數(shù)據(jù)集,然而在醫(yī)學(xué)超聲領(lǐng)域可供使用的公開(kāi)數(shù)據(jù)集是有限的,這也就成為了深度學(xué)習(xí)在醫(yī)學(xué)超聲圖像應(yīng)用中的瓶頸。針對(duì)這一問(wèn)題,目前最為常用的方法是遷移學(xué)習(xí),即進(jìn)行跨數(shù)據(jù)集學(xué)習(xí)。此外,模型的可靠性需要大量樣本進(jìn)行驗(yàn)證,而模型進(jìn)行大量的訓(xùn)練是一個(gè)非常耗費(fèi)時(shí)間的過(guò)程,未來(lái)需要加強(qiáng)對(duì)深度學(xué)習(xí)的深入研究及進(jìn)行更多的實(shí)驗(yàn)探索,以提高該技術(shù)在臨床應(yīng)用的實(shí)用性。
為了更好地分析疾病的發(fā)展,研究者們將多模態(tài)深度學(xué)習(xí)應(yīng)用于更多部位腫瘤或病變的分類(lèi)中。有學(xué)者融入注意力機(jī)制、Res Net以及雙線性融合3種算法搭建出有效且更具實(shí)用價(jià)值的細(xì)粒度多模態(tài)骨癌影像分類(lèi)網(wǎng)絡(luò)模型[40]。有學(xué)者將Image Net上預(yù)訓(xùn)練CNN網(wǎng)絡(luò)模型參數(shù)遷移到PET/CT腎癌分類(lèi)任務(wù)中,取得了精確的分類(lèi)結(jié)果[41]。有學(xué)者使用二維CNN U-Net模型對(duì)多模態(tài)MRI腮腺腫瘤圖像進(jìn)行分類(lèi),可以對(duì)腮腺腺淋巴瘤和多形性腺瘤進(jìn)行區(qū)分,但尚不能對(duì)惡性腫瘤進(jìn)行分類(lèi)[42]。有研究圍繞多模態(tài)醫(yī)學(xué)影像進(jìn)行了兩組疾病分類(lèi)實(shí)驗(yàn),其一是在腦腫瘤MRI影像分類(lèi)中,利用4種同源多模態(tài)MRI影像進(jìn)行融合,并使用直方圖均衡化技術(shù)優(yōu)化了腫瘤增強(qiáng)環(huán)節(jié),有著更高的分類(lèi)指標(biāo),其二是對(duì)于心血管疾病的早篩研究中,將同源多模態(tài)超聲影像數(shù)據(jù)和異源模態(tài)的電子病例數(shù)據(jù)進(jìn)行了5個(gè)模態(tài)的特征提取與融合,提高了分類(lèi)的準(zhǔn)確度,同時(shí)驗(yàn)證了多模態(tài)影像結(jié)合的有效性[43]。有學(xué)者基于CNN對(duì)淋巴瘤的全身惡性病灶PET/CT圖像進(jìn)行分類(lèi),結(jié)果表明該方法對(duì)良惡性病變具有良好的區(qū)分能力[44],因此利用深度網(wǎng)絡(luò)對(duì)疾病進(jìn)行分類(lèi)不應(yīng)局限于病灶本身,還要考慮全身病變,這也為未來(lái)深度學(xué)習(xí)在多模態(tài)影像的研究中提供了方向。
近年來(lái),各種深度學(xué)習(xí)技術(shù)廣泛用于作為分類(lèi)器,而與醫(yī)學(xué)影像的結(jié)合也正成為重要的交叉學(xué)科研究方向,但在多模態(tài)圖像融合到網(wǎng)絡(luò)中時(shí),現(xiàn)有的研究的融合是在決策或者特征級(jí)別實(shí)現(xiàn)的,還沒(méi)有在分類(lèi)器級(jí)別完成融合信息的研究。有些研究是利用二維方法進(jìn)行特征結(jié)構(gòu)的提取,缺乏基于三維立體特征信息,然而這些信息對(duì)于病灶的分類(lèi)分期具有重要意義;深度學(xué)習(xí)方法在一定程度上受訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量的影響,所以缺乏大規(guī)模的訓(xùn)練數(shù)據(jù)仍然是主要問(wèn)題,因此多模態(tài)深度學(xué)習(xí)在疾病分類(lèi)任務(wù)上具有巨大的提升空間。
在疾病診療過(guò)程中離不開(kāi)預(yù)測(cè)疾病的發(fā)展情況和結(jié)局的探討,腫瘤生長(zhǎng)預(yù)測(cè)是一個(gè)生物物理過(guò)程,長(zhǎng)期以來(lái)一直是通過(guò)數(shù)學(xué)建模解決的[45]。隨著深度學(xué)習(xí)方法的不斷發(fā)展,研究發(fā)現(xiàn)多模態(tài)深度學(xué)習(xí)對(duì)預(yù)后的評(píng)估相比于傳統(tǒng)方法的局限性更具參考價(jià)值。有學(xué)者提出利用3D CNN的多通道架構(gòu)對(duì)包括對(duì)比增強(qiáng)T1 MRI、彌散張量成像、靜息態(tài)功能MRI自動(dòng)提取隱含和高級(jí)特征,以此來(lái)預(yù)測(cè)高級(jí)別膠質(zhì)瘤患者的總生存時(shí)間,其準(zhǔn)確率優(yōu)于所有競(jìng)爭(zhēng)方法[46]。有研究提取患有骨原性肉瘤兒童的多模態(tài)MRI特異性特征,利用多模態(tài)MRI來(lái)預(yù)測(cè)患兒對(duì)新輔助化療的腫瘤反應(yīng),最終該模型預(yù)測(cè)腫瘤壞死的準(zhǔn)確率高達(dá)95%以上[47]。
有研究將各種超聲圖像模式和臨床背景記錄整合到多模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)中,用于預(yù)測(cè)原發(fā)性甲狀腺癌患者的淋巴結(jié)轉(zhuǎn)移狀態(tài),實(shí)驗(yàn)結(jié)果表明多模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)在進(jìn)行預(yù)測(cè)時(shí)更多依賴(lài)于超聲圖像模式,而不是臨床記錄的數(shù)據(jù)模式。該研究有助于醫(yī)生對(duì)原發(fā)性甲狀腺癌淋巴結(jié)轉(zhuǎn)移的診斷做出前瞻性預(yù)測(cè),對(duì)減少原發(fā)性甲狀腺癌過(guò)度診斷和過(guò)度治療具有重要意義[48]。
有學(xué)者提出了一種具有深度預(yù)處理器的偽體積CNN,用于預(yù)測(cè)局部區(qū)域復(fù)發(fā)、遠(yuǎn)處轉(zhuǎn)移的頭頸部鱗癌患者在十年的隨訪時(shí)間內(nèi)的總生存率,該模型在PETCT數(shù)據(jù)集上進(jìn)行訓(xùn)練,為多部位、多模式的腫瘤預(yù)后預(yù)測(cè)提供了一種有效的方法[49]。有學(xué)者提出一種通過(guò)在比例風(fēng)險(xiǎn)模型中使用深度CNN優(yōu)化成像特征來(lái)建立晚期直腸癌患者生存回歸模型的方法,該方法已經(jīng)在模擬成像數(shù)據(jù)集和FDG-PET/CT數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了驗(yàn)證,表現(xiàn)出了具有競(jìng)爭(zhēng)力的預(yù)測(cè)性能[50]。因此,在多模態(tài)圖像上應(yīng)用先進(jìn)的深度學(xué)習(xí)算法,與單一模態(tài)建模相比,在疾病預(yù)后方面顯示出更好的結(jié)果,這也為患者的個(gè)性化治療提供了巨大的潛力。
上述研究可以看出已有大量將深度學(xué)習(xí)應(yīng)用于疾病預(yù)后預(yù)測(cè)的成功案例,對(duì)于腫瘤或某些慢性病的進(jìn)展檢測(cè)和管理起著重要的提示作用。由此可見(jiàn),深度學(xué)習(xí)方法具有巨大的潛能,結(jié)合多模態(tài)影像的優(yōu)勢(shì),可以系統(tǒng)地對(duì)影像醫(yī)師的報(bào)告結(jié)果進(jìn)行優(yōu)化,大大提高了影像報(bào)告結(jié)果的臨床實(shí)用性,為臨床研究的下一步進(jìn)展提供了新的思路。多模態(tài)深度學(xué)習(xí)技術(shù)的發(fā)展對(duì)判斷疾病預(yù)后具有廣闊的應(yīng)用前景。
在臨床工作中,深度學(xué)習(xí)作為影像醫(yī)師的“第二雙眼睛”,極大的提高了影像醫(yī)師的工作效率,但同時(shí),目前還沒(méi)有充足的證據(jù)證明深度學(xué)習(xí)能夠取代影像醫(yī)師,且這項(xiàng)技術(shù)在實(shí)際臨床應(yīng)用中存在風(fēng)險(xiǎn),因此想要提高該技術(shù)在臨床實(shí)踐中的實(shí)用性,需要加強(qiáng)對(duì)深度學(xué)習(xí)的實(shí)驗(yàn)探索和深入研究。
利用深度學(xué)習(xí)方法對(duì)醫(yī)學(xué)影像圖像進(jìn)行分析,對(duì)病變部位進(jìn)行更加準(zhǔn)確的檢測(cè)和分析,具有重大價(jià)值和意義。本文總結(jié)了對(duì)應(yīng)用深度學(xué)習(xí)技術(shù)的多模態(tài)影像進(jìn)行分析的相關(guān)研究,并從疾病檢測(cè)、疾病分割、疾病分類(lèi)、疾病預(yù)后預(yù)測(cè)四個(gè)方面進(jìn)行了歸納。本文進(jìn)一步證實(shí)了多模態(tài)醫(yī)學(xué)影像數(shù)據(jù)的潛在價(jià)值,考慮到醫(yī)學(xué)影像數(shù)據(jù)多模態(tài)的特點(diǎn),這對(duì)于輔助影像醫(yī)生提高決策診斷有著重大而深遠(yuǎn)的意義。
但是,將深度學(xué)習(xí)方法應(yīng)用于多模態(tài)影像,進(jìn)行疾病診斷還存在許多尚未解決的問(wèn)題:(1)多模態(tài)研究的最大挑戰(zhàn)就是缺失數(shù)據(jù),由于醫(yī)學(xué)數(shù)據(jù)存在共享不暢的特點(diǎn),在實(shí)際應(yīng)用中很難擁有所需的全部種類(lèi)的多模態(tài)數(shù)據(jù)信息。因此,本文期待未來(lái)可以出現(xiàn)更多大量的、公開(kāi)的、不同研究任務(wù)的數(shù)據(jù)集,以及需要開(kāi)發(fā)出其他技術(shù)手段對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)展或在數(shù)據(jù)集規(guī)模受限的條件下進(jìn)行技術(shù)創(chuàng)新實(shí)現(xiàn)有效的多模態(tài)學(xué)習(xí);同時(shí),醫(yī)院信息平臺(tái)的建設(shè)需要越來(lái)越標(biāo)準(zhǔn)化、規(guī)范化,這對(duì)于數(shù)據(jù)的規(guī)范化處理與存儲(chǔ)也有著重要的意義;(2)對(duì)于多模態(tài)數(shù)據(jù)融合的研究仍然存在不足,在現(xiàn)有架構(gòu)的高性能設(shè)備上訓(xùn)練的多模態(tài)數(shù)據(jù)融合模型可能不能很好地學(xué)習(xí)增大體積的多模態(tài)數(shù)據(jù)的特征結(jié)構(gòu)。因此,需要嘗試融合各種不同的影像技術(shù),挖掘出不同模態(tài)影像數(shù)據(jù)之間的相關(guān)性和獨(dú)立性,并充分發(fā)揮多模態(tài)影像數(shù)據(jù)的互補(bǔ)作用,從而提高疾病診斷的準(zhǔn)確度和精確度。未來(lái),深度學(xué)習(xí)在多模態(tài)數(shù)據(jù)融合方面可能需要設(shè)計(jì)出具有更強(qiáng)大計(jì)算體系的學(xué)習(xí)框架;(3)目前關(guān)于多模態(tài)深度學(xué)習(xí)的研究所針對(duì)的疾病并不全面,對(duì)于某些復(fù)雜、罕見(jiàn)疾病的研究尚淺,未來(lái)需要探索更多疾病對(duì)于基于深度學(xué)習(xí)的多模態(tài)融合技術(shù)的應(yīng)用價(jià)值;(4)要有敬畏之心。雖然人工智能在醫(yī)學(xué)很多任務(wù)中已經(jīng)達(dá)到、甚至超越了人類(lèi)的水平,多模態(tài)醫(yī)學(xué)影像數(shù)據(jù)對(duì)于疾病的自動(dòng)化診斷有著無(wú)限的潛能,但是我們?nèi)匀恍枰岣呔瑁斯ぶ悄茌o助診斷仍然存在著諸多問(wèn)題,尤其是在可解釋性方面。在醫(yī)學(xué)領(lǐng)域,它始終只能是輔助醫(yī)務(wù)人員并提供參考性意見(jiàn)的工具。