李增輝,王 偉
(1.上海理工大學(xué) 健康科學(xué)與工程學(xué)院,上海 200093;2.海軍特色醫(yī)學(xué)中心,上海 200433)
醫(yī)學(xué)圖像分割是根據(jù)醫(yī)學(xué)圖像的某種相似特征(例如紋理、形狀、位置或頻譜特征等)將醫(yī)學(xué)圖像劃分為若干個互不相交的“連通”區(qū)域的過程。相關(guān)特征在同一區(qū)域表現(xiàn)出一致性或相似性,在不同區(qū)域表現(xiàn)明顯不同。圖像分割技術(shù)在臨床的應(yīng)用具有重大意義,由于醫(yī)學(xué)圖像能夠較大限度地向醫(yī)生提供病人信息[1],對病變部位圖像的準(zhǔn)確分割可以提高醫(yī)生診斷能力,及時對病人治療,降低病人傷亡。傳統(tǒng)的分割方法包括基于閾值的分割方法[2]、基于邊緣的分割方法(串行邊緣檢測法和并行邊緣檢測法[3])、基于區(qū)域的分割方法(區(qū)域生長法、分裂合并法[4])和基于聚類或圖論的分割方法等,其主要的缺點為在分割的過程中引入噪聲,且易產(chǎn)生欠分割或過分割的結(jié)果。
隨著計算機(jī)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5-7]在醫(yī)學(xué)圖像分割領(lǐng)域中得到了廣泛應(yīng)用,表現(xiàn)出較佳的效果。圖像分割方法可被分為3大類:1)使用語義標(biāo)簽對像素進(jìn)行分類(語義分割[8]);2)對單個對象進(jìn)行分區(qū)(實例分割);3)結(jié)合語義分割和實例分割的分割技術(shù)(全景分割)。傳統(tǒng)方法和基于深度學(xué)習(xí)的分割方法對肺部CT(Computed Tomography)圖像的肺器官分割實例如圖1所示。
(a) (b) (c)圖1 肺部分割結(jié)果對比(a)肺部CT圖片 (b)傳統(tǒng)方法 (c)基于深度學(xué)習(xí)的方法Figure 1. Comparison of lung segmentation results(a)Lung CT image (b)Traditional method (c)Deep learning-based method
傳統(tǒng)圖像分割方法通過分析待分割圖像前景與背景之間的差異,從圖像的灰度、對比度和紋理等信息中設(shè)計特征來進(jìn)行手工分割操作,丟失了大量細(xì)節(jié)信息。隨著機(jī)器學(xué)習(xí)的興起,純手工提取特征的分割方法成為當(dāng)時的主流方法,但設(shè)計和提取特征的復(fù)雜性等局限性限制了機(jī)器學(xué)習(xí)技術(shù)在分割領(lǐng)域的進(jìn)一步發(fā)展。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,能充分利用圖像豐富的內(nèi)在信息,逐漸成為分割領(lǐng)域的首選技術(shù)。按照基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割算法的發(fā)展歷程以及采用的網(wǎng)絡(luò)架構(gòu),將其劃分為基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)、基于U-Net及其變體網(wǎng)絡(luò)等分割方法。
文獻(xiàn)[8]提出了全卷積神經(jīng)網(wǎng)絡(luò)(FCN),其基本架構(gòu)為輸入、卷積、池化和輸出。FCN利用卷積層替代了經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)CNN末尾的全連接層,整個網(wǎng)絡(luò)主要包括卷積層和池化層。FCN輸入圖像的尺寸是任意大小,得到的輸出圖像跟原圖像大小保持一致。網(wǎng)絡(luò)中的跳躍連接結(jié)構(gòu)有助于恢復(fù)網(wǎng)絡(luò)輸出的全空間分辨率,將來自較深、較粗層的語義信息與來自較淺、較細(xì)層的外觀信息結(jié)合起來達(dá)到產(chǎn)生詳細(xì)、準(zhǔn)確分割的目的,如圖2所示。
與CNN網(wǎng)絡(luò)相比,FCN可以輸入任意尺寸的圖像,避免了由使用像素塊帶來的重復(fù)存儲和計算卷積問題。但該方法的缺點是:1)網(wǎng)絡(luò)的訓(xùn)練比較麻煩且得到的分割結(jié)果精度不夠,對圖像的內(nèi)在細(xì)節(jié)不夠敏感;2)未考慮全局上下文信息,忽視了各像素之間的關(guān)系,缺乏空間一致性。
文獻(xiàn)[9]提出DeepLab-V1網(wǎng)絡(luò),將FCN與條件隨機(jī)場(Conditional Random Field,CRF)相結(jié)合,通過在FCN之后串聯(lián)一個完全連接的CRF模型,解決了FCN分割精度不準(zhǔn)確的缺點。CRF對來自FCN的粗分割結(jié)果圖進(jìn)行處理,通過在圖中的每個像素點均構(gòu)建一個CRF模型來得到更為精準(zhǔn)的圖像分割結(jié)果。
同時,通過在DeepLab-V1中加入帶孔算法來擴(kuò)大感受野,由感受野的增大來獲取圖像的更多上下文信息,同時也可以避免FCN在卷積和池化過程中造成的特征圖分辨率下降的問題。另外,因DeepLab-V1中添加了空洞卷積,運(yùn)行速度得到較大提高。DeepLab-V1的分割流程如圖3示。
與DeepLab-V1的網(wǎng)絡(luò)結(jié)構(gòu)類似,DeepLab-V2同樣使用了CRF模型和帶孔算法。同時,DeepLab-V2使用了空洞空間卷積池化金字塔模塊(Atrous Spatial Pyramid Pooling,ASPP),通過采用不同采樣率的空洞卷積對特征圖進(jìn)行并行采樣,并對輸出結(jié)果進(jìn)行融合,以此獲得更多的空間信息。DeepLab-V2通過將傳統(tǒng)網(wǎng)絡(luò)的VGG-16(Visual Geometry Group-16)替換為ResNet(Residual Network)模塊,進(jìn)一步提升了分割效果。
DeepLab-V3[10]重點改進(jìn)了模型中空洞卷積的使用方式,提出將級聯(lián)模塊采樣率逐步翻倍,擴(kuò)充DeepLab-V2模型中的ASPP模塊,提升了模型的性能。該模型在PASCAL VOC 2012數(shù)據(jù)集上獲得的分割結(jié)果優(yōu)于之前的DeepLab模型。
1.3.1 U-Net
U-Net網(wǎng)絡(luò)[11]是FCN網(wǎng)絡(luò)的改進(jìn)網(wǎng)絡(luò)。與FCN相同,U-Net沒有全連接層,主要結(jié)構(gòu)為全連接層和池化層,其網(wǎng)絡(luò)結(jié)構(gòu)由編碼器和解碼器組成。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,網(wǎng)絡(luò)主要由左邊編碼器部分的下采樣、右邊的上采樣和中間的跳躍連接組成。編碼器負(fù)責(zé)對輸入圖像進(jìn)行逐層提取特征,解碼器負(fù)責(zé)逐層恢復(fù)圖像信息。中間的跳躍連接融合了編碼器結(jié)構(gòu)中的底層信息與解碼器結(jié)構(gòu)中的高層信息,以達(dá)到提高分割精度的目的。
圖4 U-Net結(jié)構(gòu)Figure 4.The structure of U-Net
1.3.2 U-Net++
文獻(xiàn)[12]在U-Net的基礎(chǔ)上做了一些改進(jìn),提出了U-Net++。改進(jìn)之處為在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中間的跳躍連接部分引入了深度監(jiān)督的思想,即將各層網(wǎng)絡(luò)的輸出進(jìn)行連接并作為最終輸出。改進(jìn)之后的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 U-Net++結(jié)構(gòu)Figure 5.The structure of U-Net++
圖5中“×”為卷積操作。U-Net網(wǎng)絡(luò)中的跳躍連接采用直接串聯(lián)方式,直接把編碼器的底層信息與解碼器的高層信息進(jìn)行結(jié)合,該方式未充分利用全局上下文信息,造成分割精度的損失。U-Net++使用一種密集連接的跳躍連接方式,網(wǎng)絡(luò)可以對來自不同層的特征進(jìn)行疊加,轉(zhuǎn)換了編碼器和解碼器子網(wǎng)的連通性,故可減少編碼器和解碼器子網(wǎng)絡(luò)特征映射之間的語義差異。
1.3.3 U-Net3+
由于U-Net++未從全尺度中提取出足夠的信息,具有較大改進(jìn)空間。文獻(xiàn)[13]提出了U-Net3+,網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。U-Net3+使用全尺度跳躍連接和深度監(jiān)督來改善這些問題。全尺度跳躍連接將來自不同尺度特征的低級細(xì)節(jié)與高級語義結(jié)合起來,深度監(jiān)督從全面聚合的特征映射中學(xué)習(xí)特征表示。文獻(xiàn)[13]還提出了一種混合損失函數(shù),設(shè)計了一個分類引導(dǎo)模塊,用來增強(qiáng)器官邊界,減少非器官圖像的過分割,獲得更準(zhǔn)確的分割結(jié)果。U-Net3+在不同規(guī)模的器官分割中不僅減少了網(wǎng)絡(luò)參數(shù),提高了計算效率,分割性能也得到了較大提升。
圖6 U-Net3+結(jié)構(gòu)Figure 6. The structure of U-Net3+
1.3.4 融合殘差思想的U-Net網(wǎng)絡(luò)
隨著網(wǎng)絡(luò)的深度和寬度的提高,網(wǎng)絡(luò)性能得到了一定提升,但出現(xiàn)梯度消失或梯度爆炸問題仍會導(dǎo)致網(wǎng)絡(luò)性能下降。為解決此問題,文獻(xiàn)[5]提出了殘差網(wǎng)絡(luò)(ResNet),殘差塊的結(jié)構(gòu)如圖7所示。x是殘差塊的輸入,F(x)是經(jīng)過第1層線性變化并且激活后的輸出,稱作殘差。第2層進(jìn)行線性變化之后激活之前,在F(x)加入這一層的輸入值x,然后進(jìn)行激活后輸出。由殘差塊堆疊的網(wǎng)絡(luò)易優(yōu)化,獲得的結(jié)果精度得到明顯提升,且優(yōu)于之前的網(wǎng)絡(luò),但隨著深度增加會導(dǎo)致訓(xùn)練誤差增大。
圖7 ResNet塊結(jié)構(gòu)Figure 7. The structure of ResNet block
MultiResUNet網(wǎng)絡(luò)[14]借鑒inception[15]塊,把inception塊中的5×5和7×7卷積層進(jìn)行分解,使用一系列更小、更輕量級的3×3卷積塊。如圖8(a)所示,第2個和第3個卷積塊的輸出分別有效逼近了5×5和7×7卷積運(yùn)算,把3個卷積塊的輸出使用殘差連接拼接在一起,提取不同尺度的空間特征,卷積塊的輸入經(jīng)過1×1卷積核后通過殘差路徑與卷積后的輸入疊加。為降低編碼器和解碼器之間的差異,在shortcut連接中加入了帶有殘差連接的卷積層,使學(xué)習(xí)過程更簡單,該結(jié)構(gòu)稱為Res Path,如圖8(b)所示。
(a)
文獻(xiàn)[16]把ResNet與U-Net結(jié)合,提出了ResUNet網(wǎng)絡(luò),利用ResNet網(wǎng)絡(luò)從航空圖像中提取道路區(qū)域,該網(wǎng)絡(luò)由殘差單元堆疊而成,結(jié)構(gòu)與U-Net相似。文獻(xiàn)[17]利用Res-Unet從肺部CT圖像中提取病變部分,使用預(yù)訓(xùn)練的Res-Unet方法從不同平面以及軸向、冠狀、矢狀方向的二維圖像中提取病變區(qū)域。文獻(xiàn)[18]提出一種改進(jìn)的Res-Unet肺動脈分割方法,該模型能準(zhǔn)確分割出肺部CT圖像中的肺動脈,便于后續(xù)肺動脈的三維重建、肺栓塞體積的計算和專家評估肺栓塞的嚴(yán)重程度。
1.3.5 3D U-Net
3D U-Net[19]是對經(jīng)典U-Net框架的擴(kuò)充,該框架可實現(xiàn)3D體積分割。所有的2D操作都被替換為相應(yīng)的3D操作,即3D卷積、3D Max Pooling等,從而得到一個三維的分割圖像。因為3D圖像具有較多重復(fù)的結(jié)構(gòu)和形狀,因此即使在幾乎未注釋數(shù)據(jù)的情況下,訓(xùn)練過程也更快。3D U-Net已被廣泛應(yīng)用于CT和MR(Magnetic Resonance)圖像分割中,包括心臟結(jié)構(gòu)[20-22]、骨結(jié)構(gòu)[23]、脊柱[24]、腦腫瘤[25]、肝腫瘤[26]、肺結(jié)節(jié)[27]、鼻咽癌[28]、多器官分割[29]、頭頸部器官危險評估[30]和白質(zhì)束分割[31]等。
1.3.6 多階段級聯(lián)U-Net
除上述網(wǎng)絡(luò)外,還有其他U型的網(wǎng)絡(luò)架構(gòu)。例如級聯(lián)兩個及以上U-Net,第1個U-Net用來執(zhí)行高級分割,后續(xù)U-Net對更小的對象進(jìn)行分割。文獻(xiàn)[32]設(shè)計了一種兩級聯(lián)U-Net模型,第1個U-Net將肝臟與其他器官隔開,第2個U-Net將肝臟內(nèi)的腫瘤隔開。文獻(xiàn)[33]設(shè)計了一種用于肝臟分割的兩級U-Net,在兩個U-Net之間設(shè)計了一個中間處理模塊。文獻(xiàn)[22]和文獻(xiàn)[34]設(shè)計了兩級U-Net,第1級為二維U-Net,第2級為三維U-Net。
經(jīng)過調(diào)查發(fā)現(xiàn)級聯(lián)級數(shù)可變[35]。上述文獻(xiàn)級聯(lián)U-Net網(wǎng)絡(luò)的性能都優(yōu)于單一的U型網(wǎng)絡(luò),同時存在另外一種形式的U-Net網(wǎng)絡(luò)的布局。例如文獻(xiàn)[36]設(shè)計了兩個平行的U-Net網(wǎng)絡(luò),并把結(jié)果聚合以提高分割的精度。文獻(xiàn)[37]實現(xiàn)了4個平行的U-Net網(wǎng)絡(luò),每個U-Net網(wǎng)絡(luò)分割不同的CT映射,然后合并結(jié)果。并行的編碼器可以實現(xiàn)一個中間點,從而可以更好地提取特征[38]。
1.3.7 Dense U-Net
ResNet模型并不能完全解決由網(wǎng)絡(luò)加深帶來的梯度消失問題。為解決該問題,文獻(xiàn)[39]在ResNet的基礎(chǔ)上提出了Dense U-Net,使用DenseNet來代替常規(guī)層。與ResNet相比,DenseNet有兩個關(guān)鍵的改變:1)DenseNet塊中的每一層都接收來自前面所有層的特征或恒等映射;2)恒等映射通過將通道級聯(lián)到tensor進(jìn)行組合。該結(jié)構(gòu)可保留來自先前層的恒等映射,并顯著地促進(jìn)梯度傳播。
1.3.8 融合Transformer的U-Net
U-Net模型在醫(yī)學(xué)圖像分割領(lǐng)域應(yīng)用較為廣泛,然而由于卷積操作固有的局部性,其不能較好地學(xué)習(xí)全局和長期的語義信息交互。Transformer用來進(jìn)行序列到序列的預(yù)測,已成為具有固有的全局自我注意機(jī)制的替代架構(gòu),但是由于底層細(xì)節(jié)不足,導(dǎo)致定位能力有限。
文獻(xiàn)[40]將Transformer和U-Net相融合進(jìn)而提出了TransUNet。Transformer將CNN特征圖中的標(biāo)記化圖像補(bǔ)丁進(jìn)行編碼,作為提取全局上下文的輸入序列。解碼器對編碼器的特征進(jìn)行上采樣,然后將其與高分辨率的特征圖相結(jié)合,以實現(xiàn)精確定位。文獻(xiàn)[41]提出了帶有移位窗口的分層Swin Transformer作為編碼器來提取上下文特征,由設(shè)計的一種基于對稱Swin Transformer的帶補(bǔ)丁擴(kuò)展層的譯碼器Swin U-Net對特征圖進(jìn)行上采樣操作,恢復(fù)其空間分辨率。文獻(xiàn)[42]結(jié)合Transformer和U-Net提出了TF-Unet來執(zhí)行醫(yī)學(xué)圖像分割,利用卷積神經(jīng)網(wǎng)絡(luò)對輸入進(jìn)行特征提取和空間編碼,充分發(fā)揮了卷積在細(xì)節(jié)抓取方面的優(yōu)勢。
基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割算法的特點和優(yōu)缺點如表1所示。
表1 醫(yī)學(xué)圖像分割算法比較
續(xù)表1
分割腦腫瘤對放射治療計劃的制定和效果評估具有重大意義,但由于不同患者的病理癥狀差異大,導(dǎo)致手工分割難度高。文獻(xiàn)[43]將全卷積神經(jīng)網(wǎng)絡(luò)(FCN)與條件隨機(jī)場(CRF)集成在一個統(tǒng)一的框架中,開發(fā)了一種新穎的腦腫瘤分割方法,其獲得的分割結(jié)果具有外觀和空間的一致性。文獻(xiàn)[44]提出了一種迭代實例分割方法。該方法使用FCN分割和標(biāo)記椎骨。
為了克服當(dāng)前臨床實踐中對多器官分割使用手工繪制輪廓繁瑣和耗時的困難,文獻(xiàn)[45]開發(fā)了一種新穎的自動頭頸風(fēng)險器官分割方法,該方法將全卷積網(wǎng)絡(luò)和形狀表示模型(Shape Representation Model,SRM)相結(jié)合,通過使用SRM結(jié)合形狀先驗,進(jìn)一步提高了分割的準(zhǔn)確性和魯棒性。文獻(xiàn)[46]針對3D多器官圖像的分割問題提出了一種3D FCN模型,并將該模型應(yīng)用于腹部CT圖像的多器官分割任務(wù)中,達(dá)到了良好的效果。
文獻(xiàn)[47]提出了一種3D混合殘差注意力感知分割方法來精確地提取肝臟區(qū)域并從其中分割腫瘤。網(wǎng)絡(luò)以U-Net作為基本結(jié)構(gòu),集成了注意力殘差模塊,使注意力感知特征自適應(yīng)地變化,能解決由網(wǎng)絡(luò)深度增加而導(dǎo)致的梯度爆炸問題,是第1個使用注意力殘差機(jī)制從3D醫(yī)學(xué)圖像中分割腫瘤的網(wǎng)絡(luò)。乳腺癌是常見的癌癥,目前乳腺鉬靶X線攝影檢查是臨床上被公認(rèn)的較可靠與有效的診斷方法之一,但是依靠人工方法閱片耗時耗力,且受主觀因素影響,文獻(xiàn)[48]將雙通道的CNN與Res-Path結(jié)合起來可以提取到更有效的特征,網(wǎng)絡(luò)參數(shù)少,在分割乳腺圖像上獲得了較好的分割結(jié)果。文獻(xiàn)[49]提出了將LeViT Transformer模塊集成到U-Net架構(gòu)中的LeViT-Unet,用于快速準(zhǔn)確分割血管圖像。
為了實現(xiàn)視網(wǎng)膜血管的精確分割,文獻(xiàn)[50]提出了一個輕量級的網(wǎng)絡(luò),即空間注意力U-Net。引入的空間注意模塊可沿空間維度推導(dǎo)出注意力圖,并將注意力圖乘以輸入特征圖,實現(xiàn)自適應(yīng)特征細(xì)化。網(wǎng)絡(luò)采用結(jié)構(gòu)化的Dropout卷積塊代替U-Net原有的卷積塊,防止網(wǎng)絡(luò)過擬合。在DRIVE和CHASE_DB1這兩個視網(wǎng)膜數(shù)據(jù)集上的評估結(jié)果表明所提方法性能更佳。為解決使用多尺度方法導(dǎo)致信息冗余使用的問題,文獻(xiàn)[51]提出了一種多尺度引導(dǎo)自注意模型。該模型通過使用引導(dǎo)自注意機(jī)制來捕獲更豐富的上下文信息,不同模塊之間的額外損失引導(dǎo)注意機(jī)制忽略不相關(guān)的信息,通過強(qiáng)調(diào)相關(guān)特征關(guān)聯(lián)度將注意力集中在圖像中更具區(qū)別性的區(qū)域。
文獻(xiàn)[52]采用一種雙通道結(jié)構(gòu)來合并局部信息和全局信息,該結(jié)構(gòu)能同時在多個尺度上處理輸入圖像,提高了圖像分割的精度。
醫(yī)學(xué)圖像數(shù)據(jù)集可以分為3個不同的類別:2D圖像、2.5D圖像和3D圖像[53]。在二維醫(yī)學(xué)圖像中,圖像中的每個信息元素稱為像素。在3D醫(yī)學(xué)圖像中,每個元素都稱為體素,2.5D指RGB圖像。CT、MR、PET和超聲像素代表3D體素,圖像的格式有JPEG、PNG或DICOM。
目前有多種醫(yī)學(xué)成像方式,例如CT掃描、超聲、MRI(Magnetic Resonance Imaging)、乳房X線照片和正電子發(fā)射斷層掃描等。MRI可通過采用不同脈沖序列來實現(xiàn)可變對比度圖像,并且可以得到胸部、肝臟、大腦和腹部等內(nèi)部結(jié)構(gòu)。CT成像使用X射線來獲取有關(guān)身體部位結(jié)構(gòu)和功能的信息,用于診斷大腦、腹部、肝臟、骨盆、胸部、脊柱和基于CT的血管造影中的疾病。圖9顯示了大腦MRI和CT圖像。常用的公開醫(yī)學(xué)圖像數(shù)據(jù)集如表2所示。
表2 常用醫(yī)學(xué)圖像分割數(shù)據(jù)集
除了網(wǎng)絡(luò)結(jié)構(gòu),深度學(xué)習(xí)模型的本質(zhì)特征之一是損失函數(shù)。
交叉熵?fù)p失函數(shù)(Cross-Entropy)是醫(yī)學(xué)圖像分割中常用的一種損失函數(shù)。其中,ti表示基礎(chǔ)真值,pi表示第i類的概率,n表示類的數(shù)量。交叉熵?fù)p失的一種變體是加權(quán)交叉熵?fù)p失(Weighted Cross-Entropy Loss),此損失函數(shù)根據(jù)類的不平衡性給類賦予一定的權(quán)重。另一種交叉熵?fù)p失的變體是焦點損失(Focal Loss)。
(1)
除了交叉熵,圖像分割中的另一個標(biāo)準(zhǔn)損失函數(shù)是Dice損失,由S?rensen-Dice系數(shù)得到。GT(Ground Truth)為標(biāo)準(zhǔn)值,SR(Segmentation Result)為分割結(jié)果。
(2)
交集/并集(Intersection over Union,IoU)損失由Jaccard指數(shù)衍生,用來衡量樣本的交集與并集的比值。
(3)
Tversky Loss是對Dice Loss的一種改進(jìn)損失函數(shù),對假陽性和假陰性結(jié)果賦予不同的權(quán)重,其在訓(xùn)練帶有不平衡類的數(shù)據(jù)集時更有效。
(4)
常用于評估分割算法有效性的流行指標(biāo)如下所示:真陽性(Ture Positive,TP)表示實際數(shù)據(jù)類和預(yù)測數(shù)據(jù)類都為真;真陰性(Ture Negative,TN)表示實際數(shù)據(jù)類和預(yù)測數(shù)據(jù)類都為假;假陽性(False Positive,FP)表示實際數(shù)據(jù)類別為假,預(yù)測數(shù)據(jù)類別為真;假陰性(False Negative,FN)表示實際數(shù)據(jù)類別為真,預(yù)測數(shù)據(jù)類別為假。
準(zhǔn)確度(Accuracy)用于度量正確預(yù)測樣本的數(shù)量相對于樣本總數(shù)的數(shù)量。
(5)
精度(Precision)用于衡量正確預(yù)測的陽性樣本與所有陽性預(yù)測的數(shù)量。
(6)
與精度類似,特異性(Specificity)用于衡量所有負(fù)樣本中正確預(yù)測負(fù)樣本的數(shù)量。在評估圖像中假陽性像素的數(shù)量時,準(zhǔn)確性和特異性均發(fā)揮重要作用。
(7)
召回率(Recall)或靈敏度(Sensitivity)衡量被正確識別為陽性的陽性樣本比例。召回率/靈敏度用來測量圖像中假陰性像素的數(shù)量。
(8)
F-score (F-measure)是精度和召回率的調(diào)和平均值,常用于結(jié)合精度和召回率來衡量模型的整體表現(xiàn)。
(9)
本文總結(jié)了用于醫(yī)學(xué)圖像分割的基于深度學(xué)習(xí)的模型及其優(yōu)缺點,概述了用于疾病分割的不同醫(yī)學(xué)圖像數(shù)據(jù)集以及用于評估圖像分割算法性能的各種性能指標(biāo)。總體而言,基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割方法已成為目前分割的主流方法,但深度神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割領(lǐng)域還存在較大挑戰(zhàn)。本文討論了深度網(wǎng)絡(luò)在分割醫(yī)學(xué)圖像中所面臨的挑戰(zhàn),并討論了相應(yīng)的解決方案。
深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練需要大量標(biāo)注好的數(shù)據(jù)。在醫(yī)學(xué)圖像處理中,收集大量帶注釋的醫(yī)學(xué)圖像較困難,需要專業(yè)的醫(yī)生對圖像進(jìn)行標(biāo)注耗時耗力。可通過使用數(shù)據(jù)增強(qiáng)來增加帶標(biāo)簽樣本的數(shù)量。
在公開的醫(yī)學(xué)圖像數(shù)據(jù)集中,都存在類別不平衡的問題。高度不平衡的數(shù)據(jù)不利于模型的訓(xùn)練。解決方案如下:1)對數(shù)據(jù)進(jìn)行過采樣;2)通過改變評估或性能指標(biāo);3)應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)來創(chuàng)建新的數(shù)據(jù)樣本;4)結(jié)合少數(shù)類。
圖像分割技術(shù)已經(jīng)從手動圖像分割發(fā)展到使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的自動分割?;谏疃葘W(xué)習(xí)的方法可以在大量圖像上生成分割,有助于識別圖像中的病灶和診斷疾病。未來工作可針對本文討論的不同現(xiàn)有深度學(xué)習(xí)模型對公開數(shù)據(jù)集進(jìn)行展開。同時,可以嘗試網(wǎng)絡(luò)層和分類器的不同組合以提高圖像分割模型的準(zhǔn)確性。