姜旭恒 常宗強(qiáng) 丁英杰
(威海市中心醫(yī)院 山東省威海市 264400)
肺部疾病一直是威脅人類健康的主要疾病。近年來,肺癌的發(fā)病率和死亡率迅速增長(zhǎng),已經(jīng)成為對(duì)人類生命威脅最大的惡性腫瘤之一[1]。作為肺部疾病最有效的無創(chuàng)檢測(cè)技術(shù),CT以其分層薄、分辨率高、低噪聲等特點(diǎn),被廣泛應(yīng)用到肺部疾病篩查和診斷當(dāng)中[2]。
近年來,隨著人工智能的不斷發(fā)展,計(jì)算機(jī)輔助診斷(computer aided diagnosis,CAD)在醫(yī)學(xué)影像領(lǐng)域得到了廣泛的應(yīng)用[3],特別是在肺癌、肺結(jié)節(jié)等肺部疾病診斷方面已取得了重要進(jìn)展?,F(xiàn)階段,計(jì)算機(jī)輔助診斷系統(tǒng)主要利用深度學(xué)習(xí)算法訓(xùn)練靈敏度較高的卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)對(duì)病灶的快速自動(dòng)檢測(cè)。為了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),通常需要大量的肺部CT影像訓(xùn)練數(shù)據(jù)集和標(biāo)簽數(shù)據(jù)集,人體胸腔結(jié)構(gòu)復(fù)雜,肺部CT影像除顯示肺實(shí)質(zhì)外還有支氣管、胸廓、檢查床等噪聲信息,不利于深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練[4]。因此,需要對(duì)肺部CT圖像進(jìn)行分割得到肺實(shí)質(zhì)后再送入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
圖像分割技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,現(xiàn)已廣泛應(yīng)用于醫(yī)學(xué)影像的分割處理。傳統(tǒng)的圖像分割算法包括閾值分割算法[5]、邊緣分割算法、區(qū)域分割算法[6]、聚類分析分割算法[7]和形態(tài)學(xué)算法[8]等,這些算法通常存在運(yùn)算速度慢、噪聲水平較高、需要人為設(shè)定超參數(shù),受主觀因素影響較大等問題。目前,國(guó)內(nèi)外各研究學(xué)者提出了大量基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割方法并取得了實(shí)質(zhì)性進(jìn)展,其主流算法大多是基于深度卷積神經(jīng)網(wǎng)絡(luò)[9]。1988年,Wei Zhang提出了第一個(gè)二維卷積神經(jīng)網(wǎng)絡(luò),平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò),并將其應(yīng)用于檢測(cè)醫(yī)學(xué)影像。2006年,研究人員提出深度學(xué)習(xí)理論以后,卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力受到廣泛關(guān)注。2012年以后,隨著GPU等硬件的迅速發(fā)展,AlexNet[10]、VGGNet[11]、GoogLeNet[12]以及ResNet[13]等深度卷積神經(jīng)網(wǎng)絡(luò)先后成為ImageNet大規(guī)模視覺識(shí)別競(jìng)賽的優(yōu)勝算法,并取得了廣泛的應(yīng)用。2015年Ronneberger等人提出了U-net[14]網(wǎng)絡(luò),U-net網(wǎng)絡(luò)以其U型結(jié)構(gòu)結(jié)合上下層信息和訓(xùn)練速度快、需要訓(xùn)練數(shù)據(jù)量小等優(yōu)點(diǎn),被廣泛應(yīng)用于醫(yī)學(xué)影像分割領(lǐng)域[15]。此后,大多數(shù)醫(yī)學(xué)影像分割的卷積神經(jīng)網(wǎng)絡(luò)都是基于U-net網(wǎng)絡(luò)進(jìn)行的改進(jìn)。Zongwei Zhou等人重新設(shè)計(jì)了U-net網(wǎng)絡(luò),通過改變編碼器與解碼器之間的跳躍連接,抓取不同層次的特征并通過特征疊加的方式整合,從而充分使用淺層和深層特征,縮短編碼器與解碼器之間的語義鴻溝[16],實(shí)現(xiàn)更加準(zhǔn)確的圖像分割效果,稱為U-net++網(wǎng)絡(luò)。本文采用U-net++網(wǎng)絡(luò)對(duì)胸部CT圖像進(jìn)行肺實(shí)質(zhì)的分割。
U-net++網(wǎng)絡(luò)是在U-net網(wǎng)絡(luò)的基礎(chǔ)上做了改進(jìn)。U-net網(wǎng)絡(luò)架構(gòu)如圖1所示,其網(wǎng)絡(luò)形狀如字母U,呈對(duì)稱狀,采用的是編碼-解碼的結(jié)構(gòu)。左側(cè)是編碼部分,圖像輸入到U-net網(wǎng)絡(luò)中,經(jīng)過兩層3*3卷積核,再通過RELU激活函數(shù),最終經(jīng)過2*2最大池化層實(shí)現(xiàn)下采樣,該部分的主要作用是對(duì)圖像進(jìn)行特征提取。右側(cè)是解碼部分,將上一層的結(jié)果首先進(jìn)行2*2的反卷積進(jìn)行上采樣,并通過跳躍連接把下采樣和對(duì)應(yīng)上采樣得到的相同尺度的特征圖在通道維度上進(jìn)行拼接,再通過兩個(gè)3*3卷積核,并用RELU函數(shù)進(jìn)行激活,最后通過一層1*1卷積核后輸出。
圖1:U-net網(wǎng)絡(luò)架構(gòu)
U-net原論文中下采樣卷積層為4層,對(duì)于圖像的特征提取來說,淺層卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像的一些簡(jiǎn)單特征,如邊界、顏色等,而深層卷積神經(jīng)網(wǎng)絡(luò)因?yàn)楦惺芤安粩嘣龃?,可以提取到更多的抽象特征。然而,U-net網(wǎng)絡(luò)結(jié)構(gòu)層次并不是越深越好,因?yàn)椴煌瑢哟翁卣鞯闹匾詫?duì)于不同的數(shù)據(jù)集是不一樣的,因此在醫(yī)學(xué)影像分割任務(wù)中,很難找到一個(gè)固定層次的U-net網(wǎng)絡(luò)對(duì)所有數(shù)據(jù)集都可以得到最優(yōu)解。其次,在編碼-解碼網(wǎng)絡(luò)中使用的跳躍連接的設(shè)計(jì)受到不必要的限制,只是將對(duì)應(yīng)層的編碼器和解碼器特征圖進(jìn)行融合。但來自解碼器和編碼器網(wǎng)絡(luò)的相同比例的特征圖在語義上并不相同,沒有可靠的理論保證它們是特征融合的最佳匹配。U-net++網(wǎng)絡(luò)如圖2所示,其有效的解決了上述問題。U-net++網(wǎng)絡(luò)嵌入了不同深度的U-net網(wǎng)絡(luò),所有的U-net都部分共享編碼器,而其解碼器部分重新設(shè)計(jì)了跳躍連接,經(jīng)過重新設(shè)計(jì)的跳躍連接在解碼器節(jié)點(diǎn)處提供了不同比例的特征圖,從而使聚合層可以決定如何將跳躍連接中攜帶的各種特征圖與解碼器特征圖融合在一起。這種結(jié)構(gòu)的好處在于通過深度監(jiān)督訓(xùn)練網(wǎng)絡(luò)時(shí),不需要過于關(guān)注網(wǎng)絡(luò)的深度,因?yàn)榭梢酝瑫r(shí)訓(xùn)練所有的U-net,使網(wǎng)絡(luò)可以自動(dòng)抓取不同層次的特征,再通過疊加的方式進(jìn)行特征融合,實(shí)現(xiàn)更高靈敏度的特征提取。此外,U-net++網(wǎng)絡(luò)還可以進(jìn)行剪枝,在原論文中U-net++有四個(gè)輸出,如果前幾層輸出的結(jié)果精度足夠高,那么就沒有必要繼續(xù)訓(xùn)練后幾層,就可以在損失很小精度的情況下實(shí)現(xiàn)模型參數(shù)的大幅度減小,提高模型運(yùn)行效率。
圖2:U-net++網(wǎng)絡(luò)結(jié)構(gòu)
為了評(píng)估U-net++肺實(shí)質(zhì)分割網(wǎng)絡(luò)的性能,本文搭建了NVIDIA RTX2070 Super GPU硬件平臺(tái)和Pytorch 1.8.0深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn)和測(cè)試。設(shè)置每批次數(shù)據(jù)(batch size)為8,優(yōu)化器為自適應(yīng)矩估計(jì)算法(Adam),學(xué)習(xí)率為0.001,訓(xùn)練迭代次數(shù)Epoch為20。
本文采用LUNA16(Lung Nodule Analysis 16)肺部公開數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)集是2016年提出的一個(gè)肺結(jié)節(jié)檢測(cè)數(shù)據(jù)集,提供了888例MHD格式的肺部CT圖像,圖像大小為512*512,每張CT圖像都有對(duì)應(yīng)的肺實(shí)質(zhì)掩膜圖像,可供神經(jīng)網(wǎng)絡(luò)訓(xùn)練,如圖3(a)、3(b)所示。本文選取20個(gè)病例4460張肺部CT圖像數(shù)據(jù)集,其中訓(xùn)練集為2000張圖像,測(cè)試集為1000張圖像,驗(yàn)證集為460張圖像,進(jìn)行U-net++網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。
圖3:肺部CT圖像
評(píng)價(jià)參數(shù)和損失函數(shù)是訓(xùn)練、評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)必不可少的部分。評(píng)價(jià)參數(shù)是評(píng)價(jià)圖像分割效果好壞的重要指標(biāo),常用Dice coefficient[17]、IOU[18]等評(píng)價(jià)參數(shù)。損失函數(shù)表示的是預(yù)測(cè)值和真實(shí)值之間的差異,通過優(yōu)化使損失函數(shù)最小化,從而使預(yù)測(cè)值不斷接近真實(shí)值,提高神經(jīng)網(wǎng)絡(luò)的魯棒性。損失函數(shù)選擇的正確與否直接關(guān)系到神經(jīng)網(wǎng)絡(luò)的分割能力。本文選用Dice coefficient作為分割網(wǎng)絡(luò)的評(píng)價(jià)參數(shù),交叉熵?fù)p失函數(shù)[19](Cross Entropy Loss)作為分割網(wǎng)絡(luò)的損失函數(shù)。
Dice系數(shù)是一種評(píng)估兩個(gè)集合相似度或重疊度的度量指標(biāo),其計(jì)算了預(yù)測(cè)值和真實(shí)值的重合區(qū)域的兩倍面積占兩者各自區(qū)域面積之和的比例,其范圍為[0,1]。Dice系數(shù)可以表示為:
其中X、Y分別表示真實(shí)的分割圖像和預(yù)測(cè)的分割圖像。
交叉熵?fù)p失函數(shù)能夠衡量真實(shí)概率分布和預(yù)測(cè)概率分布之間的差異,單個(gè)樣本的交叉熵?fù)p失函數(shù)可以表示為:
其中y表示真實(shí)標(biāo)簽值,a表示預(yù)測(cè)值。在二分類中,真實(shí)標(biāo)簽值一般為0或1,當(dāng)y為1時(shí),交叉熵?fù)p失函數(shù)為:
即預(yù)測(cè)值越接近真實(shí)值1,交叉熵?fù)p失函數(shù)值L越小。
同樣,當(dāng)y為0時(shí),交叉熵?fù)p失函數(shù)為:
即預(yù)測(cè)值越接近真實(shí)值0,交叉熵?fù)p失函數(shù)值L越小。因此,交叉熵?fù)p失函數(shù)可以較好的表征預(yù)測(cè)值和真實(shí)值之間的差異,被廣泛應(yīng)用于深度學(xué)習(xí)中。
肺部CT圖像經(jīng)過縮放、歸一化等預(yù)處理后,輸入到已經(jīng)訓(xùn)練好的U-net++網(wǎng)絡(luò)中,最終得到肺實(shí)質(zhì)分割結(jié)果,分割網(wǎng)絡(luò)的平均Dice系數(shù)為0.9925。為了有效評(píng)估U-net++分割網(wǎng)絡(luò)的性能,本文將相同數(shù)據(jù)集的肺部圖像分別利用U-net分割網(wǎng)絡(luò)和形態(tài)學(xué)圖像分割方法進(jìn)行對(duì)比。最終U-net分割網(wǎng)絡(luò)輸出的平均Dice系數(shù)為0.972,形態(tài)學(xué)圖像分割方法輸出的平均Dice系數(shù)為0.9468。并選取了其中三組具有代表性的肺部分割結(jié)果進(jìn)行分析。
圖4(a)、4(b)分別表示第一組CT原始圖像及其肺部掩膜圖像,圖4(c)、圖4(d)、圖4(e)依次為U-net++網(wǎng)絡(luò)、U-net網(wǎng)絡(luò)和形態(tài)學(xué)方法的肺實(shí)質(zhì)分割結(jié)果,其輸出Dice系數(shù)分別為0.9956、0.9937、0.9825??梢钥闯?,在肺實(shí)質(zhì)目標(biāo)較大的情況下,三種分割方法均可以實(shí)現(xiàn)較為精準(zhǔn)的分割。
圖5(a)、5(b)分別表示第二組CT原始圖像及其肺部掩膜圖像,圖5(c)、圖5(d)、圖5(e)依次為U-net++網(wǎng)絡(luò)、U-net網(wǎng)絡(luò)和形態(tài)學(xué)方法的肺實(shí)質(zhì)分割結(jié)果,其輸出Dice系數(shù)分別為0.988、0.9852、0.9733。本組肺實(shí)質(zhì)目標(biāo)處于較小水平,此時(shí)U-net++網(wǎng)絡(luò)已經(jīng)顯示出略優(yōu)于其他兩種方法的分割性能,在肺實(shí)質(zhì)邊緣和細(xì)節(jié)的分割上更加優(yōu)于其他兩種方法,準(zhǔn)確率已經(jīng)有了一定提升。
圖6(a)、6(b)分別表示第三組CT原始圖像及其肺部掩膜圖像,圖6(c)、圖6(d)、圖6(e)依次為U-net++網(wǎng)絡(luò)、U-net網(wǎng)絡(luò)和形態(tài)學(xué)方法的肺實(shí)質(zhì)分割結(jié)果,其輸出Dice系數(shù)分別為0.9933、0.9605、0.7687。本組肺實(shí)質(zhì)目標(biāo)處于極小水平,并且圖像中引入了其他組織器官作為噪聲,U-net網(wǎng)絡(luò)雖然對(duì)噪聲的抑制表現(xiàn)的較為理想,但對(duì)于小目標(biāo)肺實(shí)質(zhì)的分割效果還有所欠缺。而形態(tài)學(xué)方法由于其算法的特性,需要人為設(shè)置一些經(jīng)驗(yàn)值來獲得最終的分割圖像,顯然適合較大目標(biāo)分割的經(jīng)驗(yàn)值已無法滿足其分割需求,最終將其他組織器官作為噪聲引入,分割結(jié)果偏差較大,需要重新設(shè)置相關(guān)參數(shù)以保證分割效果,分割速度明顯下降,不利于大批量CT圖像的快速、精準(zhǔn)分割。
圖6
綜上所述,U-net++卷積神經(jīng)網(wǎng)絡(luò)相較于U-net網(wǎng)絡(luò)、形態(tài)學(xué)操作等肺實(shí)質(zhì)分割方法具有精準(zhǔn)、高效的優(yōu)勢(shì),對(duì)于計(jì)算機(jī)輔助診斷肺部疾病的研究和發(fā)展具有推動(dòng)作用。
本文介紹了基于U-net++網(wǎng)絡(luò)的CT圖像肺實(shí)質(zhì)的分割方法及實(shí)現(xiàn),原始肺部CT圖像經(jīng)過已經(jīng)訓(xùn)練好的U-net++分割網(wǎng)絡(luò)可以實(shí)現(xiàn)快速、精準(zhǔn)的肺實(shí)質(zhì)分割,不僅可以為臨床醫(yī)生在診斷肺部疾病時(shí)提供了較少干擾的肺部圖像,也可以為后續(xù)肺癌和肺結(jié)節(jié)等肺部疾病的計(jì)算機(jī)輔助診斷神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)提供了優(yōu)質(zhì)的肺實(shí)質(zhì)訓(xùn)練數(shù)據(jù)集。
下一步,將在此項(xiàng)目的基礎(chǔ)上進(jìn)行肺結(jié)節(jié)的檢測(cè)研究,通過Faster-RCNN[20]、Mask-RCNN[21]、YOLO等目標(biāo)檢測(cè)算法對(duì)LIDCIDRI、Luna16等肺部數(shù)據(jù)集進(jìn)行訓(xùn)練,得到靈敏度較高的肺結(jié)節(jié)檢測(cè)網(wǎng)絡(luò),設(shè)計(jì)出一套肺結(jié)節(jié)計(jì)算機(jī)輔助診斷系統(tǒng)[22]。