楊培偉,周余紅,邢 崗,田智強,許夏瑜
1.西安交通大學(xué) 生命科學(xué)與技術(shù)學(xué)院 生物信息工程教育部重點實驗室,西安 710049
2.西安交通大學(xué) 仿生工程與生物力學(xué)中心,西安 710049
3.西安交通大學(xué) 軟件學(xué)院,西安 710049
生物醫(yī)學(xué)是綜合生命科學(xué)、生物學(xué)和醫(yī)學(xué)發(fā)展起來的一門前沿交叉學(xué)科,通過生物學(xué)、醫(yī)學(xué)及工程技術(shù)手段研究和解決生命科學(xué)及醫(yī)學(xué)中的問題,從而提高醫(yī)療診斷技術(shù),改善人類健康水平。成像技術(shù)是生物醫(yī)學(xué)中的核心技術(shù)之一,其應(yīng)用主要包括生物學(xué)圖像和醫(yī)學(xué)圖像兩個方面。研究者借助不同級別的圖像來分析研究從細(xì)胞到個體各個層次的問題。近年來,隨著成像技術(shù)不斷發(fā)展,一方面新的成像方式不斷出現(xiàn),另一方面圖像在空間和時序上的分辨率在不斷提升,這不僅使得生物醫(yī)學(xué)圖像在數(shù)量上急劇增加,也使得圖像中的信息量爆炸式增長。然而,能夠?qū)D像進行分析和解讀的相關(guān)技術(shù)人員并沒有顯著增加,爆炸增長的圖像信息將相關(guān)技術(shù)人員和醫(yī)師淹沒在重復(fù)枯燥的分析圖像的工作中,無法真正從事有效的信息歸納分析工作。因此,對生物醫(yī)學(xué)圖像的自動分析就顯得越來越重要。
深度學(xué)習(xí)(Deep Learning,DL),尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)技術(shù)近年來迅速發(fā)展,為生物醫(yī)學(xué)圖像的自動分析提供了有力的工具。近些年,伴隨計算機硬件的發(fā)展,CNN在處理圖像的速度、精度方面都在不斷提升,其在處理生物醫(yī)學(xué)圖像方面的優(yōu)勢也尤為凸顯。一方面,CNN 對原始圖像直接進行學(xué)習(xí),避免了傳統(tǒng)算法復(fù)雜的特征提取和參數(shù)設(shè)置;另一方面,CNN避免了全連接神經(jīng)網(wǎng)絡(luò)的空間信息丟失問題,又采用局部感受野及權(quán)重共享機制解決了參數(shù)過多的問題。由于其上述優(yōu)勢,CNN 模型在計算機視覺領(lǐng)域的應(yīng)用發(fā)展迅速并取得顯著成果。例如,在最近的新冠肺炎中,多款基于CNN 模型實現(xiàn)的新冠肺炎“CT+AI”輔助診斷系統(tǒng)落地,在此次抗擊疫情中發(fā)揮了有效的作用,極大地減輕了醫(yī)院和醫(yī)生的負(fù)擔(dān)。
近年來,隨著CNN 模型的發(fā)展,涌現(xiàn)出大量利用CNN模型進行生物醫(yī)學(xué)圖像分析的方法。之前已有相關(guān)文獻對CNN 網(wǎng)絡(luò)在圖像處理中的應(yīng)用進行了歸納,如梁蒙蒙等[1]以CNN的發(fā)展歷史為主線講述了CNN模型的各種改進方法,并簡要提及了CNN 在醫(yī)學(xué)圖像上的應(yīng)用。Shen 等[2]與Litjens 等[3]分別針對2017 年以前DL 在醫(yī)學(xué)方面的應(yīng)用進行了調(diào)研與總結(jié)。然而,一方面,隨著近年來CNN網(wǎng)絡(luò)架構(gòu)的不斷發(fā)展,其在生物學(xué)和醫(yī)學(xué)中的應(yīng)用也取得了不少進展。從2017到2019年底,在Web of Science 上共檢索到31 274 篇文章利用CNN 技術(shù)對生物醫(yī)學(xué)圖像進行處理,其中11 202 篇針對細(xì)胞生物學(xué)圖像以及20 072 篇針對醫(yī)學(xué)圖像(如圖1)。另一方面,以上文章主要側(cè)重于總結(jié)CNN 在醫(yī)學(xué)圖像方面的應(yīng)用,沒有對其在生物學(xué)圖像中的應(yīng)用進行總結(jié)。生物學(xué)圖像在生物醫(yī)學(xué)研究中起到重要作用,也存在與醫(yī)學(xué)圖像分析相似的挑戰(zhàn),例如數(shù)據(jù)量大、精度要求高等。將CNN在生物學(xué)和醫(yī)學(xué)圖像中的應(yīng)用放在一起討論可對其在生物醫(yī)學(xué)領(lǐng)域的進展有更全面的了解。因此,對近年來該領(lǐng)域的研究成果進行了調(diào)查研究和梳理總結(jié),一方面幫助生物醫(yī)學(xué)領(lǐng)域研究者了解CNN 模型在生物醫(yī)學(xué)圖像中可以解決的問題、能達到的效果等;另一方面幫助算法開發(fā)者了解CNN 在生物醫(yī)學(xué)領(lǐng)域的主要應(yīng)用領(lǐng)域、可用的數(shù)據(jù)集,以及面臨的挑戰(zhàn)等。
在后面的文章中,首先簡要介紹CNN 的發(fā)展歷史和它的結(jié)構(gòu)和原理,之后著重從細(xì)胞生物學(xué)圖像和醫(yī)學(xué)影像兩個方面對CNN 在生物醫(yī)學(xué)圖像中的研究成果進行梳理總結(jié)。最后,試著提出目前CNN 在生物醫(yī)學(xué)圖像研究中存在的問題,并對今后的發(fā)展方向進行展望。
本章首先回顧早期神經(jīng)元模型到CNN模型的發(fā)展歷程(如圖2),然后重點分析CNN 模型架構(gòu)設(shè)計、應(yīng)用設(shè)計和評估方法。
CNN 模型由早期的人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來,使用卷積操作解決了人工神經(jīng)網(wǎng)絡(luò)計算量大和結(jié)構(gòu)信息丟失的缺點。1982 年,為模擬人類視覺認(rèn)知功能,F(xiàn)ukushima 等[4]提出神經(jīng)認(rèn)知機(neocognitron)的概念,這被認(rèn)為是CNN的起點。1989年,LeCun等[5]構(gòu)建起最初的LeNet 模型,其包含卷積層、全連接層。經(jīng)過改進,1998年,LeCun 等[6]提出了經(jīng)典的LeNet-5 模型,較好地解決了手寫數(shù)字識別問題。該模型已經(jīng)包含了現(xiàn)代CNN網(wǎng)絡(luò)的全部基本模塊:卷積層、非線性激活層、池化層、全連接層。
卷積層是CNN 模型的核心,具有局部連接和權(quán)重共享的特性,其作用是通過卷積核對數(shù)據(jù)進行特征提取,抽象出更高層次的特征。非線性激活函數(shù)則增加了模型的非線性,極大地豐富了模型的表達能力。池化層對特征圖進行了壓縮,一方面增大了感受野,使得模型具有一定的平移、旋轉(zhuǎn)不變性;另一方面,也降低了優(yōu)化難度和計算量。全連接層在CNN模型末端將提取到的特征映射到樣本標(biāo)簽上,起到分類器的作用。
以LeNet-5 為基礎(chǔ)的CNN 模型在近些年得到了不斷改進,模型性能也得到了極大提高。
圖1 2017—2019年底CNN在生物醫(yī)學(xué)圖像分析的應(yīng)用統(tǒng)計
圖2 CNN及其在生物醫(yī)學(xué)圖像分析上的應(yīng)用發(fā)展
CNN模型發(fā)展過程中,其優(yōu)化方式涉及架構(gòu)設(shè)計、激活函數(shù)和優(yōu)化策略的改進等。CNN模型的架構(gòu)設(shè)計對于CNN 模型的性能提升起了很大作用。在CNN 模型發(fā)展初期,架構(gòu)設(shè)計主要集中在模型深度、寬度方面。
提升模型深度,能夠增強模型的抽象能力。一個更深的模型往往擁有更好的特征提取能力,但其優(yōu)化過程也更困難,會出現(xiàn)梯度爆炸或梯度彌散等問題。LeNet-5 由3 個卷積層、2 個池化層、2 個全連接層組成。2012年,Krizhevsky等[7]提出的AlexNet模型則由5個卷積層、5 個池化層、3 個全連接層組成。AlexNet 模型中使用ReLU 激活函數(shù)替換Sigmoid 函數(shù),來解決梯度彌散問題;使用Dropout 方法在訓(xùn)練時隨機丟棄輸出來防止過擬合現(xiàn)象的發(fā)生。AlexNet 模型將ImageNet 圖像分類數(shù)據(jù)集[8]的Top-5錯誤率降低到16.42%,以極大的優(yōu)勢獲得2012 年冠軍。2014 年,由牛津大學(xué)視覺組提出的VGG模型[9]深度比AlexNet模型提升了一倍。VGG模型中使用多個小卷積核來替換AlexNet 中的大卷積核,在減小計算量的同時增加了模型深度,豐富了模型非線性表達能力。VGG 模型在ImageNet 數(shù)據(jù)集上Top-5 錯誤率降低到6.8%。然而,研究表明,增加模型深度對模型性能提升是有限的。這主要由如下兩個原因?qū)е拢阂皇钱?dāng)模型寬度過窄,每層提取的特征有限,增加模型深度也難以完全表達任務(wù)特征;二是深層模型仍會因梯度消失而優(yōu)化困難。在這之后的模型設(shè)計針對這兩個方面進行了針對性改進。
拓展模型寬度,能夠豐富模型提取的特征。模型的寬度,即每層特征通道數(shù)量,決定著模型每一層可以提取的特征圖的規(guī)模。常用的方法有直接調(diào)整通道數(shù)量,多分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,通道特征融合。AlexNet 與VGG 模型在增加深度的同時,通過直接增加每層的通道數(shù)量來擴展模型的寬度。2014 年,由Szegedy 等[10]提出的GoogLeNet 模型使多分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計來拓展模型寬度。該分支結(jié)構(gòu)被稱為Inception 結(jié)構(gòu),主要由1×1、3×3、5×5 卷積核和3×3 最大池化操作4 個分支組合而成。不同大小的卷積核可以從圖像中提取不同尺度的特征,豐富模型表達能力。GoogLeNet 模型使得ImageNet 分類Top-5 錯誤率降低到了6.67%,在精度和速度上均高于VGG,獲得2014 年冠軍。此后Inception結(jié)構(gòu)不斷迭代發(fā)展,在Inception v2模型[11]引進了BN層來加快模型收斂速度并防止過擬合,Inception v3 模型[12]采用卷積拆分的思想,減少計算量,Inception v4模型[13]使用殘差連接來降低計算開銷。模型的寬度過寬會造成參數(shù)冗余,增加過擬合的風(fēng)險。
殘差連接,降低深層模型的收斂難度。梯度消失造成深層次的網(wǎng)絡(luò)訓(xùn)練困難。2015 年,He 等[14]提出的ResNet 模型使用殘差連接來解決梯度消失問題。殘差連接的思想是,在模型設(shè)計中引入恒等變換,使得模型訓(xùn)練過程中能夠?qū)W習(xí)信號的差值,從而增強了模型的反向梯度傳播,簡化了學(xué)習(xí)過程。ResNet模型將ImageNet圖像分類Top-5錯誤率降低到了3.57%。由于使用殘差連接可以使得模型更深,更容易訓(xùn)練,該方法是CNN模型設(shè)計中最常用的結(jié)構(gòu)之一。2016年,DenseNet模型[15]設(shè)計的dense block進一步發(fā)展了殘差連接,將模塊內(nèi)的每一層都與其他層相連,在加深模型的同時提高模型特征的利用率,相比ResNet使用的參數(shù)量和計算量更低。
增加深度和寬度是初期的CNN模型提高性能的關(guān)鍵因素,但也存在一定上限,且容易導(dǎo)致優(yōu)化困難、過擬合、計算量大難以部署的問題。之后,新的CNN模型的架構(gòu)設(shè)計主要通過探索能夠有效利用數(shù)據(jù)特征的方法以及能夠降低計算量的特殊卷積操作來解決上述問題。
提高數(shù)據(jù)特征利用的方法主要有,融合淺層和深層特征,增加感受野,使用注意力機制等。跳層連接能夠融合模型淺層和深層不同語義級別的特征信息,增強模型的特征表達能力。跳連接常被用于改善分割模型上采樣階段空間信息不足,提高分割的精度,如FCN[16]、U-Net[17]、SegNet[18]等模型。改善感受野常用的方法有多尺度和空洞卷積。多尺度模型的設(shè)計方案主要采用多尺度圖像輸入、融合多尺度特征以及融合多尺度預(yù)測結(jié)果的方法來獲得不同感受野??斩淳矸e則通過加大卷積核各像素的間距來增加模型的感受野。豐富的感受野,可以使得模型更好地獲得上下文信息,這對于多尺度的圖像分割任務(wù)是十分重要的。如Deeplab v3[19]使用空洞卷積和多尺度特征融合方法設(shè)計了ASPP(Atrous Spatial Pyramid Pooling)模塊,有效地利用了上下文信息,提高了模型對不同尺度物體的分割精度。注意力機制能夠使模型自動選擇圖像空間中、通道間對于任務(wù)最重要的部分進行下一步處理。注意力機制主要分為空間和通道注意力兩種設(shè)計方法??臻g注意力模型能夠定位感興趣區(qū)域,通道注意力模型能夠建模不同通道特征重要程度。2017年,SENet模型[20]利用通道注意力機制學(xué)習(xí)通道間相關(guān)性,突顯重要的特征通道,抑制不重要的特征通道,將ImageNet分類的Top-5錯誤率降低到了2.25%,獲得最后一屆的冠軍。注意力機制可以直接嵌入到不同模型中,因此是最為常用的改進方法之一。
特殊卷積操作可以在確保模型準(zhǔn)確率的情況下降低計算量,主要方法有卷積分組和拆分。卷積的分組是將輸入通道分為不同的組,每一個輸出通道只與某一個組的輸入通道相關(guān)。而卷積拆分則通過將k×k大小的卷積操作拆分成1×k和k×1 的卷積操作,以此來降低計算量,同時由于該操作加深了模型深度,也能夠增加模型的表達能力。
CNN模型能夠自動從數(shù)據(jù)中抽象特征來實現(xiàn)特定任務(wù),因此模型結(jié)構(gòu)具有很強的通用性,所以可用任務(wù)的數(shù)據(jù)直接訓(xùn)練常用CNN模型。如分類任務(wù)中常用的VGG、ResNet、Inception系列等,檢測任務(wù)中的Faster RCNN[21]、YOLO 系列[22],分割任務(wù)中的FCN、U-Net、Seg-Net等。
分階段任務(wù)處理通常能幫助模型取得更好得結(jié)果。通常分為預(yù)處理、CNN模型預(yù)測、后處理階段。預(yù)處理是對任務(wù)原始數(shù)據(jù)進行操作,能夠規(guī)范化數(shù)據(jù)、去除噪聲等,即可采用傳統(tǒng)圖像處理方法,也可以使用CNN 模型實現(xiàn)。如在新冠肺炎檢測中[23],可以通過UNet進行預(yù)處理獲得肺部區(qū)域,再使用ResNet模型進行區(qū)分肺炎類別。后處理結(jié)合任務(wù)特點,使用特點規(guī)則對CNN模型輸出的進行轉(zhuǎn)化或者進一步改善。
常用的CNN模型不能直接應(yīng)用到三維數(shù)據(jù)上。三維卷積和多視圖方法被提出用于處理三維數(shù)據(jù)。三維卷積核對二維卷積核進行改進,增加了表示深度的維度,實現(xiàn)對三維數(shù)據(jù)進行卷積操作??梢杂糜诮鉀Q三維醫(yī)學(xué)影像,如CT、MR影像等的分類、分割等問題。三維卷積存在計算耗費量大的問題。多視圖是指利用三維數(shù)據(jù)的多個不同方向的切面作為輸入,使得模型能夠獲得數(shù)據(jù)三維上下文信息來完成任務(wù)。由于不需要整個三維數(shù)據(jù)的輸入大大降低了計算量。
多模態(tài)輸入是CNN模型在醫(yī)學(xué)圖像分析應(yīng)用中常用的方法,不同的模態(tài)能夠為模型提供不同的信息,例如腦部病變在T1 加強模態(tài)和T2 加強模態(tài)的MRI 圖像中表現(xiàn)是不同的。
CNN模型可以通過遷移學(xué)習(xí)和數(shù)據(jù)增強技術(shù)解決數(shù)據(jù)不足的問題。遷移學(xué)習(xí)是一種知識共享技術(shù),是將已經(jīng)預(yù)訓(xùn)練好的模型中的部分知識遷移到一個未經(jīng)訓(xùn)練的模型上,通過固定模型特定層的參數(shù),通常為模型淺層,再通過訓(xùn)練微調(diào)部分層參數(shù),實現(xiàn)利用小規(guī)模數(shù)據(jù)集構(gòu)建新模型的設(shè)計。預(yù)訓(xùn)練好的模型的淺層通常已經(jīng)具備一定的提取通用圖像特征(如邊緣、紋理、形狀等)的能力,通過直接將這些知識引入到模型中,可以有效地減少新模型訓(xùn)練所需要的數(shù)據(jù)量和降低計算的復(fù)雜度。數(shù)據(jù)增強是豐富圖像訓(xùn)練數(shù)據(jù)集最常用的技術(shù),常采用的方法有旋轉(zhuǎn)變換、水平與垂直翻轉(zhuǎn)、彈性變形、比例縮放、對比度變換、噪聲擾動、顏色變換等。通過使用數(shù)據(jù)增強產(chǎn)生的數(shù)據(jù)可以幫助網(wǎng)絡(luò)模型更好地提取圖像特征,防止模型過擬合。
CNN 模型應(yīng)用及設(shè)計發(fā)展迅速,針對不同任務(wù)選擇合適的設(shè)計方法可以極大的提高模型的性能。
分類是圖像處理中最基礎(chǔ)的任務(wù),其評價指標(biāo)主要有準(zhǔn)確率、精確率、召回率,F(xiàn)1-Score、混淆矩陣、ROC曲線與AUC 等。準(zhǔn)確率表示所有樣本中正確分類的概率。精確率針對的是預(yù)測結(jié)果,表示真值為正的樣例在預(yù)測為正的樣本中所占的比例。召回率針對的是實際樣本,表示預(yù)測為正的樣例在真值為正的樣本所占的比例。如果想要同時關(guān)注準(zhǔn)確率和召回率,則可以使用它們的調(diào)和平均數(shù)F1-Score。F1-Score 只有精確率和召回率都高的情況下才會很高?;煜仃囀且环N使用矩陣形式表示誤差的方法,可以用于詳細(xì)展示預(yù)測結(jié)果和真值。ROC曲線可以描繪一個模型在不同參數(shù)閾值下的表現(xiàn),AUC 為ROC 曲線下面積,AUC 的值可以量化一個分類模型的性能。
除了以上評估指標(biāo)外,在檢測和分割模型上常用的評價指標(biāo)還有IOU和Dice。IOU定義為兩個面積的交集和并集的比值;Dice 是兩個集合的相似度量方法,常用于評價分割模型的性能。值得注意的是,盡管Dice與F1-Score的公式定義形式不同,但實際值是相等的,因此有的文章中也會使用F1-Score作為分割模型的評估指標(biāo)。
為模型選擇合適的評價指標(biāo)能夠有效地評估模型性能,利于模型改進與完善。
本章將從細(xì)胞生物學(xué)圖像和醫(yī)學(xué)影像兩個方面對CNN的應(yīng)用分別進行闡述。
細(xì)胞生物學(xué)涉及細(xì)胞形態(tài)結(jié)構(gòu)、細(xì)胞分裂等。隨著成像技術(shù)的進步,現(xiàn)代細(xì)胞生物學(xué)研究越來越依賴圖像對細(xì)胞和分子機制做出解釋。通過成像技術(shù)可以對細(xì)胞機制進行觀察分析,揭示健康和疾病細(xì)胞的發(fā)生發(fā)展和轉(zhuǎn)化規(guī)律。生物成像技術(shù)發(fā)展至今,數(shù)據(jù)量呈指數(shù)增長,如何高效地利用這些海量的圖像信息成為一個巨大挑戰(zhàn)。計算機輔助的圖像分析一方面可以緩解因分析人員的主觀性和易疲勞等因素導(dǎo)致的客觀性和可重復(fù)性的降低,另一方面可以在空間和時序上捕捉人眼無法察覺的細(xì)微圖像特征,進而更高效地獲取圖像信息。以下將從細(xì)胞及其結(jié)構(gòu)檢測、細(xì)胞有絲分裂檢測等方面講述CNN在細(xì)胞生物圖像分析中的應(yīng)用(如圖3),并匯總在表1中。
圖3 CNN在細(xì)胞生物學(xué)圖像分析中的應(yīng)用實例
表1 卷積神經(jīng)網(wǎng)絡(luò)在細(xì)胞生物學(xué)圖像處理中的應(yīng)用
2.1.1 細(xì)胞及其結(jié)構(gòu)檢測
細(xì)胞檢測是細(xì)胞生物學(xué)圖像分析中的一個基本問題,常見的細(xì)胞檢測有全血細(xì)胞檢測、病變細(xì)胞檢測等。同類細(xì)胞形態(tài)多變,不同細(xì)胞形態(tài)相似以及細(xì)胞間局部重疊等是細(xì)胞檢測中的主要挑戰(zhàn)。全血細(xì)胞計數(shù)通過血液中各種血細(xì)胞數(shù)量的變化來反映疾病的狀態(tài)。在這方面,Wang 等[24]通過融合多個由CNN 構(gòu)建的分類器實現(xiàn)了單核細(xì)胞、淋巴細(xì)胞、嗜酸性粒細(xì)胞和中性粒細(xì)胞4 種白細(xì)胞的分類,該方法將多個CNN 分類器的輸出進行融合以尋找局部一致的、有代表性的模式,提高模型的通用性。該方法在410 張載玻片圖像(https://github.com/dhruvp/wbc-classification/tree/master/Original_Images)上對四類白細(xì)胞的分類準(zhǔn)確率達到99.90%。為實現(xiàn)血細(xì)胞的準(zhǔn)確計數(shù),需要解決細(xì)胞間重疊區(qū)域的分離問題。Tran 等[25]通過先分割細(xì)胞再檢測其分割圖的方法解決了細(xì)胞局部重疊的問題,該方法利用VGG-16預(yù)訓(xùn)練的權(quán)值來初始化SegNet模型,首先實現(xiàn)紅細(xì)胞以及白細(xì)胞的分割,然后結(jié)合歐式距離變換、局部極大值和連通域標(biāo)記等方式來分離重疊細(xì)胞并實現(xiàn)細(xì)胞計數(shù)。該方法在包含108 張血液樣本顯微鏡圖像的ALL-IDB1數(shù)據(jù)集上,紅細(xì)胞和白細(xì)胞計數(shù)的最終準(zhǔn)確率分別達到了93.30%和97.38%。細(xì)胞重疊現(xiàn)象還會影響到病變細(xì)胞的檢測效果,細(xì)胞重疊現(xiàn)象也會影響到病變細(xì)胞的檢測。針對這一問題,Liu 等[26]則結(jié)合后處理技術(shù)實現(xiàn)重疊細(xì)胞的分離,該方法首先利用CNN網(wǎng)絡(luò)生成細(xì)胞候選區(qū)域并對候選區(qū)域進行評分,然后將細(xì)胞候選對象作為頂點、評分作為權(quán)值構(gòu)造一個無向加權(quán)圖,將細(xì)胞檢測問題轉(zhuǎn)換為最大權(quán)重獨立集問題,從候選對象中選擇最佳檢測結(jié)果組成最終的細(xì)胞檢測結(jié)果。該方法能夠有效解決細(xì)胞重疊區(qū)域的細(xì)胞檢測問題,在24 張神經(jīng)內(nèi)分泌細(xì)胞圖像和16 張肺癌細(xì)胞圖像上準(zhǔn)確率分別達到了90.03%和88.43%。
細(xì)胞結(jié)構(gòu)包括細(xì)胞膜、細(xì)胞質(zhì)和細(xì)胞核等,細(xì)胞質(zhì)結(jié)構(gòu)的重疊會模糊圖像中的細(xì)胞邊界,因此往往需要先將細(xì)胞結(jié)構(gòu)分割出來再實現(xiàn)細(xì)胞邊界的分割。Song等[27]使用多尺度CNN從宮頸細(xì)胞圖像中分割出所有細(xì)胞核和細(xì)胞質(zhì),進而利用高斯核擬合細(xì)胞的形狀,通過優(yōu)化勢能函數(shù)來最優(yōu)化細(xì)胞質(zhì)的標(biāo)記結(jié)果,最后該方法利用后處理技術(shù)來獲得精確的細(xì)胞邊界。該方法在含有8張宮頸細(xì)胞的ISBI 2015數(shù)據(jù)集上分割細(xì)胞核與細(xì)胞質(zhì)結(jié)果的Dice值分別達到了0.93和0.91。
2.1.2 細(xì)胞有絲分裂檢測
細(xì)胞有絲分裂可為癌變細(xì)胞的檢測提供重要信息,例如乳腺蘇木精和伊紅染色切片中的有絲分裂細(xì)胞數(shù)量是判定乳腺癌侵襲性的重要指標(biāo)。有絲分裂自動檢測主要受到兩方面影響:一是有絲分裂細(xì)胞在不同階段的形狀和結(jié)構(gòu)不同;二是其他細(xì)胞的外觀與有絲分裂細(xì)胞具有相似性。為解決有絲分裂的檢測問題,國際模式識別大會(International Conference on Pattern Recognition,ICPR)發(fā)布了ICPR2012(http://ipal.cnrs.fr/ICPR2012/)(50 張有絲分裂全標(biāo)注圖像)和ICPR2014(http://mitosatypia-14.grand-challenge.org/)(1 696 張有絲分裂質(zhì)心標(biāo)注圖像)有絲分裂數(shù)據(jù)集?;谏鲜鰯?shù)據(jù)集,Cire?an 等[28]利用全連接CNN 來檢測有絲分裂。針對圖像中的任意給定像素,該方法提取以該像素為中心的圖像塊并利用CNN網(wǎng)絡(luò)預(yù)測該像素接近有絲分裂質(zhì)心的概率,然后結(jié)合后處理得到有絲分裂的檢測結(jié)果。該方法在ICPR2012 數(shù)據(jù)集上F1-socre 達到0.782。Chen等[29]則通過級聯(lián)兩個CNN模型對有絲分裂進行檢測,該方法首先利用一個FCN 模型輸出有絲分裂候選者的概率圖,從而快速檢索有絲分裂候選細(xì)胞,然后利用預(yù)訓(xùn)練的CaffeNet檢測模型[30]對候選細(xì)胞進行進一步區(qū)分。該方法在ICPR2012數(shù)據(jù)集上平均F1-score達到0.788,在ICPR2014 數(shù)據(jù)集上平均F1-score 達到0.482。此外,研究者通過將僅標(biāo)注質(zhì)心的弱標(biāo)注圖像轉(zhuǎn)化為強標(biāo)注圖像的方式對數(shù)據(jù)量進行擴充。Li 等[31]利用強標(biāo)注的ICPR2012 數(shù)據(jù)集訓(xùn)練一個FCN 分割模型,再將弱標(biāo)注的ICPR2014數(shù)據(jù)集輸入該模型從而得到像素級標(biāo)注的細(xì)胞有絲分裂圖像。其檢測方法繼續(xù)延用網(wǎng)絡(luò)級聯(lián)的方式,首先使用基于Faster R-CNN 的深度檢測模型產(chǎn)生初級檢測結(jié)果;然后利用ResNet-50 的驗證模型去除誤檢結(jié)果。當(dāng)使用該方法的全部模型進行處理時,在ICPR2014數(shù)據(jù)集上F1-score達到0.572。
目前,利用CNN 模型進行細(xì)胞生物學(xué)圖像的分析正在逐步發(fā)展,通過對自動化對細(xì)胞檢測計數(shù)以及細(xì)胞結(jié)構(gòu)、行為的檢測,可以極大減少研究者在處理數(shù)據(jù)過程中的工作量,使其有更多的時間關(guān)注實驗本身的研究。生物學(xué)其他方向的圖像分析也可以此為借鑒與課題相結(jié)合,以提高研究效率,推動實驗進展。
醫(yī)學(xué)影像是通過非侵入方式取得的人體內(nèi)部組織影像的技術(shù),其目的是疾病診斷、手術(shù)引導(dǎo)等。對醫(yī)學(xué)影像的處理包含圖像重建、病變分割、疾病診斷、多模態(tài)和時序的影像配準(zhǔn)、三維可視化等。CNN 在基于影像的疾病分類與分期、器官及病變區(qū)域的檢測與分割等方面的應(yīng)用最為廣泛,這能夠輔助醫(yī)生更準(zhǔn)確地了解患者狀況,為疾病診斷、手術(shù)規(guī)劃及藥物劑量安排等提供有用信息。針對目前已有成果,將從腦、眼睛、乳腺、肺、骨骼、皮膚等方面介紹(如圖4),并匯總在表2 中。
圖4 CNN在醫(yī)學(xué)圖像分析中的應(yīng)用實例
2.2.1 腦醫(yī)學(xué)影像
大腦是人體最重要的器官,內(nèi)部的腦白質(zhì)、灰質(zhì)以及大腦脊液與人類健康和疾病有著重要聯(lián)系,因此實現(xiàn)大腦的自動分割能夠為疾病診斷提供重要信息。然而大腦結(jié)構(gòu)十分復(fù)雜,這給大腦分割任務(wù)帶來重大挑戰(zhàn)。針對這一問題,Moeskops 等[32]利用多尺度CNN 來學(xué)習(xí)腦部MR圖像中多尺度的結(jié)構(gòu)特征,對各年齡段人群的小腦、腦干、皮質(zhì)灰質(zhì)等8個組織類別進行了精確分割,該方法在5 個來自不同年齡段的數(shù)據(jù)集[33-35]中,Dice 值分別為0.87、0.82、0.84、0.86 和0.91。Kleesiek 等[36]發(fā)現(xiàn)大多數(shù)大腦分割算法在非增強的T1加權(quán)MR圖像上表現(xiàn)良好,但是應(yīng)用于其他模式圖像時仍有困難。針對這一問題,他們設(shè)計了一種多模態(tài)輸入的CNN 網(wǎng)絡(luò)同時使用非增強和對比增強T1、T2 和T2-flair 這4 種模態(tài)進行訓(xùn)練和預(yù)測,以增強模型在不同模態(tài)之間的魯棒性。在3個公共數(shù)據(jù)集(IBSR[37]、LPBA40[38]和OASIS[35])上的測試結(jié)果Dice 值分別達到0.963 2、0.969 6 和0.950 2。嬰兒大腦存在等強度期,即6~8個月嬰兒大腦中的白質(zhì)灰質(zhì)區(qū)域存在大量重疊,并在T1和T2 MR圖像上展示出相同密度水平,這使得嬰兒腦組織的分割相當(dāng)困難。Zhang等[39]利用多模態(tài)輸入的CNN模型來提高等強度期嬰兒腦組織中白質(zhì)、灰質(zhì)和腦脊液區(qū)域的分割準(zhǔn)確率??紤]到核磁彌散張量成像的各向異性圖像(Fractional Anisotropy,F(xiàn)A)能夠提供大腦組織中主要纖維束的豐富信息,該方法將T1、T2 和FA 這3 個模態(tài)的圖像塊作為CNN 模型的輸入圖像來進行嬰兒大腦組織的分割。該模型在從10 名健康嬰兒受試者獲取的MR 圖像數(shù)據(jù)集中分割結(jié)果的Dice值達到了0.850 3。
腦腫瘤是神經(jīng)外科最常見的疾病,其中腦膠質(zhì)瘤由于其高致死率而備受關(guān)注。目前,腦膠質(zhì)瘤在空間分布和結(jié)構(gòu)上的變異性是其圖像處理任務(wù)面臨的主要問題。針對上述問題,Havaei等[40]提出一個能夠有效利用局部細(xì)節(jié)特征和全局上下文特征的雙通道CNN模型來分割不同類別的腦膠質(zhì)瘤區(qū)域,該模型通過設(shè)計不同大小的卷積核實現(xiàn)對不同尺度信息的關(guān)注,局部路徑使用小卷積核來關(guān)注細(xì)節(jié)信息,全局路徑則使用大卷積核來關(guān)注上下文信息。作者還將此CNN模型的輸出作為另一個CNN輸入圖像的附加通道,從而形成級聯(lián)CNN結(jié)構(gòu),該方法最終在BRATS2013[41]數(shù)據(jù)集上分割完整腫瘤、核心區(qū)域、強化區(qū)域的Dice 值分別為0.84、0.71 和0.57。為了充分利用圖像的三維信息,Zhao等[42]提出了一種基于FCN和條件隨機場(Conditional Random Fields,CRFs)的集成模型來實現(xiàn)腫瘤區(qū)域的分割。它將FCN生成的分割概率圖以及原始圖像輸入CRFs,根據(jù)像素強度和位置信息來優(yōu)化分割結(jié)果以保證外觀和空間一致性。該方法分別在軸向、冠狀面、矢狀面使用圖像塊來訓(xùn)練3個分割模型,然后使用基于投票的融合策略對腦腫瘤進行分割。該方法在BRATS2013排名數(shù)據(jù)集上分割3 個區(qū)域(完整腫瘤、核心區(qū)域、和強化區(qū)域)的Dice值分別達到0.86、0.73和0.62。
2.2.2 眼醫(yī)學(xué)影像
眼底彩照獲取方式便捷,能夠為糖尿病視網(wǎng)膜病變、青光眼等眼底疾病提供豐富的顏色、對比度等信息,是目前臨床中常采用的眼底成像方式。糖尿病視網(wǎng)膜病變是糖尿病最常見的微血管并發(fā)癥之一,在眼底圖像上主要表現(xiàn)為微動脈瘤、滲出、出血以及血管增生。對糖尿病視網(wǎng)膜病變檢測的難點在于病變種類多、形態(tài)尺度變化大。Gulshan等[43]基于Inception-v3模型實現(xiàn)了對可發(fā)病的糖尿病視網(wǎng)膜病變的篩查。該方法使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Inception-v3模型進行微調(diào)來實現(xiàn)病變圖像的篩查,在兩個測試集EyePACS-1 和Messidor-2[44]上敏感度達到90.3%和87.0%,特異度達到98.1%和98.5%。上述方法實現(xiàn)了對糖尿病視網(wǎng)膜病變的篩選和分期,但明確病變的位置和類別可以幫助醫(yī)生和患者更好地指定診療方案。在這方面,Yu等[45]實現(xiàn)了糖尿病視網(wǎng)膜病變中滲出液的分割。該方法首先使用形態(tài)學(xué)算法提取出滲出液候選點,然后利用CNN 模型對這些候選點進行分類,最終在E-Ophtha EX數(shù)據(jù)集[46]上分割滲出液的準(zhǔn)確度、敏感度、特異度分別達到91.92%、88.85%和96.00%。Playout等[47]使用基于U-Net的多任務(wù)架構(gòu)同時分割紅色病變(出血斑和微動脈瘤)和亮色病變(硬性滲出和軟性滲出)。該方法使用了一個U-Net的編碼塊和多個解碼塊并行完成分割任務(wù),并在編碼塊中引入了殘差連接、基于空間壓縮的混合池化模塊、低尺度上使用大卷積核和密集連接機制,旨在通過聚合多個區(qū)域內(nèi)的最大激活值來增強對噪聲的魯棒性。該方法在DIARETDB1[48]數(shù)據(jù)集上紅色病變的Dice值、敏感度和特異度分別為0.598 0、0.669 1 和0.998 2,亮色病變的分別為0.789 7、0.753 5和0.998 6。
表2 卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像處理中的應(yīng)用
OCT 可以非侵入地實時獲得活體高分辨率橫截面圖像,在視網(wǎng)膜成像領(lǐng)域有廣泛的應(yīng)用。與其他眼科圖像相比,OCT 圖像的對比度低、噪聲大,這給OCT 圖像分析任務(wù)帶來重大挑戰(zhàn)。一般地,OCT圖像分析主要包括組織分割(如視網(wǎng)膜層分割)以及病理分割(如視網(wǎng)膜滲出液體分割)。準(zhǔn)確量化OCT 圖像中視網(wǎng)膜層的厚度不僅能夠增強對病變程度和病理進程的理解,更能夠幫助確定影響疾病進展的潛在因素。在這方面,F(xiàn)ang等[49]將CNN 模型和圖搜索的方法結(jié)合,該方法使用CNN 預(yù)測的概率圖取代傳統(tǒng)的梯度圖,再通過圖搜索方法進一步確定視網(wǎng)膜層之間的邊界實現(xiàn)視網(wǎng)膜層的分割。在由60 個OCT 卷組成的數(shù)據(jù)集上,其方法的平均視網(wǎng)膜層厚度偏差和標(biāo)準(zhǔn)差分別低至1.26 和1.24 個像素。脈絡(luò)膜由于邊界模糊、結(jié)構(gòu)不均勻、厚度變化大等因素使得脈絡(luò)膜分割任務(wù)存在一定的難度。為了解決這一問題,Sui等[50]將多尺度CNN和圖搜索方法相結(jié)合。該方法首先構(gòu)建脈絡(luò)膜兩個邊界的邊緣權(quán)重圖,再使用多尺度CNN 預(yù)測脈絡(luò)膜圖像的邊權(quán)值,最后利用圖形搜索算法進一步分割邊界。最終,在健康和患有黃斑水腫的圖像數(shù)據(jù)集中脈絡(luò)膜平均厚度及偏差分別為7.3和11.1個像素。滲出液是由視網(wǎng)膜毛細(xì)血管引起的滲漏在視網(wǎng)膜空間內(nèi)積聚導(dǎo)致的中央視網(wǎng)膜腫脹,是引發(fā)老年黃斑變性、糖尿病性視網(wǎng)膜疾病等患者視力減退的主要原因。Schlegl等[51]使用多尺度CNN以逐圖像體素分類的方式實現(xiàn)了OCT中視網(wǎng)膜下液和視網(wǎng)膜內(nèi)液的分割,在157個臨床高分辨率OCT卷驗證得到的準(zhǔn)確率分別為89.61%、91.98%。Roy 等[52]在U-Net 的基礎(chǔ)上,在編碼器部分使用矩形卷積核來與OCT 圖像尺寸保證一致從而確保最后一個編碼塊的感受野可以包含整個圖像。此外,該方法還使用帶權(quán)重的多類logistic損失函數(shù)和Dice損失函數(shù)來改善類不平衡問題。最終,在Duke SD-OCT[53]數(shù)據(jù)集上分割各視網(wǎng)膜層的Dice值達到0.94,分割滲出液的Dice值也達到0.77。
2.2.3 乳腺醫(yī)學(xué)影像
乳腺癌是全球范圍內(nèi)女性死亡的主要原因之一,乳腺癌在侵入性癌癥中占22.9%,在全球女性癌癥相關(guān)死亡中占13.7%[54]。借助數(shù)字乳房X線光片觀測乳房中是否含有特定腫塊是常用的乳腺癌診斷方法。由于乳腺與腫瘤在X線光片下均呈現(xiàn)白色,外觀上的相似性給腫瘤檢測任務(wù)帶來重大挑戰(zhàn)。針對這一問題,Akselrod-Ballin等[55]首先利用基于閾值分割的方法實現(xiàn)乳腺和纖維腺組織的分割,從而產(chǎn)生一個解剖學(xué)的先驗知識。然后將圖像分割為多個重疊的網(wǎng)格,利用Faster R-CNN來實現(xiàn)乳腺腫瘤區(qū)域的檢測和分類。該方法在850 張臨床數(shù)據(jù)上檢測的準(zhǔn)確率達到72%,分類的準(zhǔn)確率達到77%。Almasni 等[56]使用在ImageNet 上預(yù)訓(xùn)練的YOLO[22]模型實現(xiàn)了數(shù)字乳房X光片中腫塊的檢測及分類。該模型首先利用多個卷積層進行特征提取,然后基于置信模型進行腫塊的檢測,最后使用全連接神經(jīng)網(wǎng)實現(xiàn)乳腺腫塊良惡性的判定。該方法在DDSM[57]數(shù)據(jù)庫中腫瘤檢測的準(zhǔn)確率為99.7%,良惡性病變分類的準(zhǔn)確率達97%。為了能夠小數(shù)據(jù)集上獲得性能更好的模型,Sheng等[58]提出了基于RNN+CNN的注意力記憶網(wǎng)絡(luò)進行乳腺癌診斷。該方法中使用注意力模塊來提取圖像特征,使用記憶模塊在RNN 模型中加入注意力權(quán)重來增強特征描述。使用INbreast 數(shù)據(jù)集上的測試結(jié)果比Inceptionv2、ResNet50、VGG16模型的結(jié)果都要好,準(zhǔn)確率達到84.1%,且運行時間更快。
在組織密度變高或發(fā)生組織重疊時,使用數(shù)字乳房X 光片難以準(zhǔn)確診斷腫瘤類別。數(shù)字乳腺斷層合成(Digital Breast Tomosynthesis,DBT)通過使用多個乳房X線透視圖構(gòu)建三維乳房影像,可以清晰顯示乳房腫塊,因此癌癥檢測靈敏度比數(shù)字乳房X 線更高。目前,DBT圖像相對稀缺,公開數(shù)據(jù)集也較少。Samala等[59]使用遷移學(xué)習(xí)來解決這一問題,該方法利用乳房X光片來對CNN 模型進行預(yù)訓(xùn)練,然后使用DBT 圖像來訓(xùn)練最后一層卷積層和全連接層,最終實現(xiàn)乳房腫塊的檢測和分類。該方法在94 張DBT-UM[60]測試數(shù)據(jù)集上檢測的最大靈敏度達到90%,分類的AUC達到0.90。
2.2.4 肺醫(yī)學(xué)影像
肺癌是全球癌癥死亡的主要原因之一,肺癌約占每年新增癌癥數(shù)量的13%,占癌癥相關(guān)死亡的19.5%[61]。肺癌非常具有侵襲性,患者的長期生存率低,因此早期發(fā)現(xiàn)對肺癌的治療意義重大[62]。胸部CT影像是肺癌診斷的有力工具[63]。肺結(jié)節(jié)被定義為胸部CT中肺上的斑點,大多數(shù)肺癌由小的惡性結(jié)節(jié)引起的。肺結(jié)節(jié)分割的挑戰(zhàn)在于它們的形狀、大小以及紋理等方面存在的異質(zhì)性。為解決以上問題,Shen 等[64]提出了一種多尺度CNN模型來提取肺結(jié)節(jié)的判別特征。為了捕捉肺結(jié)節(jié)的異質(zhì)性,該模型使用三個并行的CNN 分別處理不同大小的圖像塊再將它們提取的特征進行通道拼接,然后利用支持向量機和隨機森林分類器實現(xiàn)肺結(jié)節(jié)良惡性分類,最終在LIDC-IDRI數(shù)據(jù)集[65]中對惡性結(jié)節(jié)的分類準(zhǔn)確率為86.84%。為了更好地提取不同尺度的結(jié)節(jié),Shen 等[66]使用一種多次裁剪池化層替換上述模型的最大池化層,該模型將卷積特征圖裁剪成不同的區(qū)域,分別使用不同次數(shù)的最大池化操作,來提取結(jié)節(jié)不同尺度的顯著性信息。該方法在LIDC-IDRI 數(shù)據(jù)集上的分類準(zhǔn)確率達到87.14%。
肺結(jié)節(jié)是以三維立體形式存在的,通過多視圖、多層相鄰切片的方法可以充分利用肺結(jié)節(jié)的三維上下文信息,從而能夠有效提高肺結(jié)節(jié)的分類準(zhǔn)確率。在多視圖方面,Ciompi 等[67]首先使用ImageNet 上預(yù)訓(xùn)練的OverFeat[68]模型來分別提取軸向、冠狀和矢狀視圖上的肺結(jié)節(jié)特征向量,然后為每個特定視圖訓(xùn)練一個支持向量機或隨機森林分類器,最后將多個分類器的結(jié)果進行融合生成最終分類結(jié)果。該方法在從NELSON[69]中心搜集的數(shù)據(jù)集上的分類AUC 達到0.847。Setio 等[70]提出了一個多視圖CNN 模型對CT 圖像中是否存在肺結(jié)節(jié)進行診斷,該方法分別針對實性結(jié)節(jié)、亞實型性結(jié)節(jié)和大結(jié)節(jié)設(shè)計形態(tài)學(xué)方法提取肺結(jié)節(jié)候選區(qū)域,并將檢測到的肺結(jié)節(jié)候選區(qū)域分解成9個固定視圖平面(矢狀面、冠狀面、軸向面和六對角面)分別傳入到一個2D CNN 進行訓(xùn)練,最后融合這9 個CNN 的輸出來實現(xiàn)肺結(jié)節(jié)分類。該方法很大程度上減小了結(jié)果的假陽性,在LIDC-IDRI 數(shù)據(jù)集的檢測靈敏度達到了90.1%。Xie等[71]提出了另一種融合多視圖多外觀的知識協(xié)同深度模型來分類肺結(jié)節(jié),該方法將已知中心位置的三維結(jié)節(jié)分解成9 個固定視圖,然后針對每個視圖進行如下操作:首先使用U-Net 分割肺結(jié)節(jié);然后微調(diào)3 個預(yù)訓(xùn)練ResNet-50 子模型來分別描述結(jié)節(jié)的整體外觀、體素和形狀異質(zhì)性;最后對3 個子模型的輸出結(jié)果進行加權(quán)求和。此方法對9 個視圖并行訓(xùn)練,最后將它們的結(jié)果進行自適應(yīng)加權(quán)融合從而產(chǎn)生分類結(jié)果。該方法在LIDC-IDRI 數(shù)據(jù)集[65,72-73]上對肺結(jié)節(jié)分類的準(zhǔn)確率為91.60%,靈敏度為86.52%,AUC 為0.957。Li 等[74]提出的基于CNN的多層面二階特征融合模型提取肺結(jié)節(jié)的3個相鄰層面的切片中的特征,來避免肺結(jié)節(jié)周圍毛細(xì)血管、組織器官等干擾。該模型首先提取每一個切片的特征,然后融合3 個切片的特征用于肺結(jié)節(jié)3 種惡性程度的評估。該方法在LIDC-IDRI 數(shù)據(jù)集上精確度為91.27%,靈敏度為89.48%,AUC達到0.924。
自2019 年12 月以來,新型冠狀病毒在世界各地相繼爆發(fā)[75]?!缎滦凸跔畈《痉窝自\療方案(試行第七版)》[76]中指出新冠肺炎在胸部影像上表現(xiàn)為早期呈現(xiàn)多發(fā)小斑片影及間質(zhì)改變,以肺外帶明顯;進而發(fā)展為雙肺多發(fā)磨玻璃影、浸潤影,嚴(yán)重者可出現(xiàn)肺實變,胸腔積液少見。為實現(xiàn)新冠肺炎在臨床的快速診斷,多種利用CNN 模型對新冠肺炎CT 影像進行分析的技術(shù)涌現(xiàn)出來(如圖5)。Xu等[77]首先利用CT圖像的亨氏值提取出肺部區(qū)域,再使用3D CNN模型分割出候選的感染區(qū)域,然后使用基于ResNet18 的3D CNN 模型結(jié)合位置注意力機制,從而將每個候選區(qū)域分為新冠肺炎、流感病毒肺炎和無關(guān)感染。該方法在30 個CT 樣本的總體準(zhǔn)確率86.7%。Gozes等[23]開發(fā)了一套具有篩查、定量描述和跟蹤隨訪功能的新冠肺炎CT 圖像自動分析系統(tǒng)。該系統(tǒng)首先利用RADLogics 公司(http://radlogics.com/)的軟件對肺結(jié)節(jié)和局限性密度影進行檢測和定量化測量,然后利用U-Net獲得肺部區(qū)域,最后使用在ImageNet上預(yù)訓(xùn)練的ResNet-50實現(xiàn)新冠肺炎篩查。該方法在來自中國和美國共157 名患者的測試數(shù)據(jù)集上分類的敏感度和特異度分別達到98.2%和92.2%。復(fù)旦大學(xué)上海公共衛(wèi)生臨床中心Shan與聯(lián)影智能Gao等[78]的“新冠肺炎CT+AI智能輔助分析系統(tǒng)”使用VB-Net模型結(jié)合CT影像實現(xiàn)了疑似病例優(yōu)先閱片,感染區(qū)域自動勾畫,對同一個病人全肺和肺葉體積和密度提供隨訪評估等功能。該方法利用殘差連接結(jié)構(gòu)對V-Net[79]進行改進以適用于處理大型三維數(shù)據(jù)。同時,使用人工在環(huán)(Humanin-the-Loop,HITL)的迭代訓(xùn)練策略,幫助放射科醫(yī)生完善每個病例的自動標(biāo)注。該方法在300個患者的CT影像上進行測試,感染區(qū)域分割的Dice系數(shù)達到0.916,感染體積估算誤差0.3%,能在4分鐘之內(nèi)完成人工需要1~5個小時標(biāo)注的工作量。
2.2.5 骨骼醫(yī)學(xué)影像
骨骼成像可以輔助骨齡評估、對脊椎和膝關(guān)節(jié)等相關(guān)疾病進行檢測等。骨骼的成熟經(jīng)歷了一系列不連續(xù)的發(fā)育階段,而骨骼和實際年齡之間的差異能反映一定的生長問題。在臨床上,經(jīng)常通過未成年人的手骨X光片來對其骨齡進行評估。X光片的光照不均勻性、個體間骨骼形態(tài)的差異性等因素加大了手骨分割的難度。Lee 等[80]使用GoogLeNet 實現(xiàn)了骨齡的自動評估,并使用注意力圖實現(xiàn)模型的可視化。模型的注意力圖可以揭示模型關(guān)注哪些區(qū)域特征來執(zhí)行骨齡評估,該方法與人類專家手動進行骨齡評估時所觀察的情況相一致,而且只需更短的時間就能獲得更準(zhǔn)確、更高效的骨齡評估。在含有4 278 張女性和4 047 張男性的X 光片數(shù)據(jù)集上,該模型的骨齡預(yù)測結(jié)果的準(zhǔn)確率分別為57.32%和61.40%。Spampinato等[81]結(jié)合CNN與回歸網(wǎng)絡(luò)設(shè)計的BoNet模型實現(xiàn)了對不同年齡段、種族和性別的兒童進行骨齡評估。該方法在一個1 391例兒童X光線掃描數(shù)字手部圖像集數(shù)據(jù)庫[82]上的結(jié)果顯示,在所有種族、性別和年齡范圍內(nèi)的骨齡預(yù)測平均絕對誤差為0.79歲。然而,來自不同設(shè)備和采集條件的手部X光片在尺度、方向、曝光等方面會存在差異,這會導(dǎo)致模型的性能下降。Iglovikov 等[83]通過對手部X 光片進行嚴(yán)格的預(yù)處理來解決上述問題,提高了骨齡預(yù)測模型的魯棒性。該方法首先通過U-Net 模型來分割手部區(qū)域并去除背景;然后對圖像進行對比度歸一化,并通過檢測中指指尖、小拇指指尖和頭狀骨中心3個關(guān)鍵點從而將圖像匹配到一個共同的坐標(biāo)空間中;最后從已完成匹配的圖像中裁出整個手部、腕骨頭、掌骨近端趾骨3 個特定區(qū)域來訓(xùn)練VGG 族的CNN 模型進行骨齡的預(yù)測。該方法在RSNA2017兒童骨齡評估挑戰(zhàn)賽(http://rsnachallenges.cloudapp.net/competitions/4)中結(jié)果的平均絕對誤差為4.97個月。
基于CT 圖像的脊柱椎體分割對于引導(dǎo)診斷、手術(shù)計劃等方面具有重要意義。由于椎骨外觀相似、手術(shù)植入引起的異常病理曲度和圖像偽影等原因,椎體的自動定位和識別仍然具有挑戰(zhàn)性。Chen[84]等設(shè)計了一個能夠在三維脊柱CT 圖像上對CT 椎體進行自動定位和識別的Joint-CNN模型。該方法首先利用隨機森林方法定位椎體候選區(qū)域,然后在CNN 模型末端使用兩個并行的分類層來同時考慮單個椎體外觀以及相鄰椎體之間的依賴關(guān)系以實現(xiàn)椎體的識別,最后使用形狀回歸模型來對預(yù)測的椎體質(zhì)心進行微調(diào)。該方法在MICCAI 2014椎骨定位與鑒定計算挑戰(zhàn)(302個脊椎CT卷)的識別準(zhǔn)確率達到了84.16%。Lessmann 等[85]利用脊柱椎體的固有順序來簡化檢測問題,用迭代的方法使用3D U-Net對圖像中椎體按順序分割和識別,提升了訓(xùn)練效率和分割精度。該方法首先在低分辨率圖像中利用3D U-Net 進行脊椎粗略分割獲得可利用的上下文信息;然后在原始高分辨率圖像中利用另一個結(jié)構(gòu)相同的3D U-Net 重新分析,獲得精細(xì)的分割。該方法在MICCAI 2014椎骨定位與鑒定計算挑戰(zhàn)的數(shù)據(jù)集上將椎體分割的Dice值提升到了0.948。
2.2.6 皮膚醫(yī)學(xué)影像
皮膚癌是最常見的皮膚病,具有較高的死亡率[61]。各種皮膚病變在外觀上的相似性成為臨床上實現(xiàn)皮膚癌準(zhǔn)確分類的一大挑戰(zhàn)。例如,皮膚癌中的黑色素瘤常被誤診為良性皮膚病變。因此,Lopez等[86]利用VGG-16結(jié)合遷移學(xué)習(xí)技術(shù)來解決皮膚病病變圖像的良惡性分類問題,可以實現(xiàn)皮膚癌中黑色素瘤的早期檢測。該方法在ISIC(www.isic-archive.com/)的數(shù)據(jù)集上的準(zhǔn)確度達到了81.33%,靈敏度達到了78.66%。Esteva等[87]使用由ISIC 皮膚鏡圖像庫、愛丁堡Dermofi 庫[88]和來自斯坦福醫(yī)院的數(shù)據(jù)組成的129 450張臨床圖像數(shù)據(jù)集來訓(xùn)練在ImageNet 預(yù)訓(xùn)練過的Inceptionv3 模型。該方法能夠?qū)?57類皮膚疾病進行分類,并歸類為更常見的皮膚疾病類別。最后,用它檢測三類病變(惡性單一病變、良性單一病變、非腫瘤性病變)的準(zhǔn)確率達到72.1%,檢測九類病變(惡性黑色素病變、惡性上皮病變、惡性真皮病變等)的準(zhǔn)確率達到了55.4%。
深度學(xué)習(xí),尤其是CNN模型的發(fā)展,給生物醫(yī)學(xué)圖像分析領(lǐng)域帶來諸多突破性進展。在本文中,對近年來CNN模型在細(xì)胞生物學(xué)圖像及醫(yī)學(xué)圖像中應(yīng)用的最新研究成果進行了總結(jié)和梳理。
首先,CNN 模型較好的通用性使得在實現(xiàn)應(yīng)用中往往不需要針對不同的圖像數(shù)據(jù)從零開始設(shè)計模型結(jié)構(gòu),而是借用經(jīng)典CNN模型作為基礎(chǔ)骨架。例如,用于圖像分類任務(wù)的經(jīng)典模型有LeNet-5、VGG、Inception系列、ResNet 系列等,用于目標(biāo)檢測任務(wù)的經(jīng)典模型有Faster R-CNN 和YOLO 系列等,用于圖像分割任務(wù)的經(jīng)典模型有的FCN和U-Net等。
其次,通過對基礎(chǔ)骨架進行修改,可以進一步解決生物醫(yī)學(xué)圖像分析中的難點問題,包括目標(biāo)與背景的相似度高、目標(biāo)間的差異性小、類間不平衡、樣本量偏少等。對于前兩個問題,常見的處理方式包括多尺度卷積、多視圖卷積等,以期獲取更豐富的上下文信息,從而改進網(wǎng)絡(luò)性能。另一種處理方法是構(gòu)建級聯(lián)網(wǎng)絡(luò),使各級網(wǎng)絡(luò)聚焦于解決不同問題從而提高網(wǎng)絡(luò)的整體性能。對于類間不平衡問題,常通過改進損失函數(shù)的方法來提高網(wǎng)絡(luò)性能,比如使用帶權(quán)重的交叉熵?fù)p失函數(shù)、focal loss 等。針對樣本量稀缺的問題,常采用的解決方法是利用遷移學(xué)習(xí)技術(shù)來提高網(wǎng)絡(luò)性能。
總的來講,CNN 網(wǎng)絡(luò)可以直接采用原始圖像作為輸入自動學(xué)習(xí)和提取特征,避免了傳統(tǒng)算法的特征定義和參數(shù)設(shè)置的復(fù)雜過程,使其在各領(lǐng)域的表現(xiàn)相較于單純使用傳統(tǒng)算法更加優(yōu)秀,有些甚至可以達到專業(yè)技術(shù)人員的水平。然而,CNN 在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用也面臨不同于以往的新問題和挑戰(zhàn)。這里,對這些發(fā)展所帶來的挑戰(zhàn)以及可能的解決手段進行了梳理。
(1)引起廣泛關(guān)注的問題是CNN的含義不夠明確,針對每一卷積層提取到的特征沒有明確的解釋。這導(dǎo)致的一個重要問題就是無法對結(jié)果進行有效說明,這種過程中的不可解釋性可能導(dǎo)致研究者和臨床醫(yī)生的接受度不高。模型結(jié)構(gòu)可視化、模型參數(shù)解耦合等研究方向的發(fā)展有望逐漸改善這一問題。
(2)CNN網(wǎng)絡(luò)對數(shù)據(jù)的依賴較重。一般地,數(shù)據(jù)量越大,標(biāo)定越統(tǒng)一,結(jié)果往往越理想。然而,生物醫(yī)學(xué)圖像的許多特性都限制了CNN 模型優(yōu)勢的發(fā)揮。例如,公開數(shù)據(jù)量少、沒有統(tǒng)一的數(shù)據(jù)集制作標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量參差不齊、標(biāo)注不一致等,這使得不同方法間缺少對比性和參考性。在這方面,對數(shù)據(jù)、評價指標(biāo)、運行平臺、參數(shù)設(shè)定、邊界條件等的公開以及圖像標(biāo)注標(biāo)準(zhǔn)制定將有助于解決這些問題。另一方面,對半監(jiān)督或無監(jiān)督方法以及人工在環(huán)的模型訓(xùn)練策略的探索也是解決這一問題的重要方向。
(3)如何在特定問題的解決能力及算法的泛化能力之間找到平衡點非常重要。目前工程領(lǐng)域基于CNN模型的算法開發(fā)往往是針對特定任務(wù)的(例如特定細(xì)胞檢測、特定病變分割等),許多方法難以在實驗數(shù)據(jù)之外的任務(wù)進行推廣。另一方面,通用性的模型又往往在特定任務(wù)中表現(xiàn)不夠理想。例如,在利用眼底彩照的眼底疾病篩查中,實現(xiàn)通用性病變篩查的模型在對具體疾病的識別中表現(xiàn)不夠理想。在解決特定問題和通用問題間找到平衡點將極大推動CNN模型在實際場景中的應(yīng)用。
(4)卷積神經(jīng)網(wǎng)絡(luò)“端對端”的特性雖然可以避免人為特征提取和復(fù)雜參數(shù)設(shè)定,但也一定程度上阻礙了領(lǐng)域先驗知識對模型的貢獻。在某些任務(wù)中,是存在相對明確的規(guī)則的,例如在OCT 圖像上滲出液體的分割任務(wù)中,視網(wǎng)膜中液是指介于視網(wǎng)膜神經(jīng)纖維層與外網(wǎng)層之間的滲出液體,而視網(wǎng)膜下液是指介于視網(wǎng)膜外節(jié)層與色素上皮層之間的滲出液體。通過在CNN模型的改進中融入這些相對明確的規(guī)則,對于特定任務(wù)的分析將非常有幫助。
隨著卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)理論和應(yīng)用研究的推進,相信上述問題將得到很好的解決,進而促進CNN網(wǎng)絡(luò)及其他相關(guān)技術(shù)在生物醫(yī)學(xué)圖像的自動處理和分析中的應(yīng)用,并最終實現(xiàn)方法和系統(tǒng)的落地應(yīng)用。