吳世洋,任勁松,張冉,錢昊楠,司啟益,鞏萍
(徐州醫(yī)科大學(xué) 醫(yī)學(xué)影像學(xué)院,江蘇 徐州 221004)
肺癌是我國發(fā)病率和死亡率最高的腫瘤,我國肺癌患者5 年生存率僅有16.1%[1]。為了提高患者的生存率,早發(fā)現(xiàn)、早診斷、早治療是關(guān)鍵。肺癌早期的表現(xiàn)形式是肺結(jié)節(jié),因此發(fā)展新的肺結(jié)節(jié)良惡性分類方法是目前臨床中面臨的重點和難點。
傳統(tǒng)的肺結(jié)節(jié)良惡性分類主要是利用CT 圖像的底層特征,如灰度特征、紋理特征、幾何特征等[2-4],這些特征一般是人工設(shè)計的,存在著主觀差異性。近年來,深度學(xué)習(xí)作為一種新的特征提取方法,通過建立多層次的學(xué)習(xí)模型來自動提取圖像特征[5-6],以提升分類的準(zhǔn)確性。常用的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、自編碼(auto-encoder,AE)、受限玻爾茲曼機(restricted Boltzmann machine, RBM)等。在以上模型中,CNN 在物體的方向、大小和位置等方面抽象特征的敏感性更低,更有助于提高分類的準(zhǔn)確性。因此本文提出利用CNN 進行肺結(jié)節(jié)良惡性分類,其流程如圖1 所示。
本文所有數(shù)據(jù)均來自美國國家癌癥研究會頒布的肺部圖像數(shù)據(jù)庫聯(lián)盟(Lung Image Database Consortium, LIDC)[7]。LIDC 包含 1 000 余例肺部CT 圖像,同時提供了一個 XML 的注釋文件[8]。在注釋文件中,4 名放射學(xué)專家對大于3 mm 的結(jié)節(jié)給出了其對應(yīng)的坐標(biāo)。
圖1 基于CNN 的肺結(jié)節(jié)良惡性分類流程
采用基于多專家標(biāo)注的閾值概率圖方法[9]對肺結(jié)節(jié)進行分割。該方法根據(jù)專家的經(jīng)驗為每個專家設(shè)置一個權(quán)重來表示標(biāo)注的可信程度,相應(yīng)專家標(biāo)注的肺結(jié)節(jié)區(qū)域中每個像素設(shè)置為相同的權(quán)重值,各像素值為所有專家對該像素標(biāo)記的權(quán)重之和。設(shè)置閾值T,高于T 的設(shè)為1,低于T 的設(shè)為0,將圖像分割為一個二值圖像。將原始圖像與二值圖像進行與運算即完成肺結(jié)節(jié)的分割。
CNN 的一般結(jié)構(gòu)如圖2 所示,包括輸入層、卷積層、下采樣層、全連接層和輸出層[10]。CNN通過滑動窗口對肺結(jié)節(jié)圖像進行卷積操作獲得特征圖,每次卷積之后,再通過下采樣層對獲得的特征進行降維,最后通過全連接層將圖像轉(zhuǎn)化為一個低維的特征向量[11-12]。
圖2 基于CNN 的肺結(jié)節(jié)特征提取
將CNN 提取到的特征利用Logistic 回歸分析進行良惡性分類[6]。在LIDC 數(shù)據(jù)庫中,肺結(jié)節(jié)的惡性度共有1~5 個等級,分別是高度不可能、適度不可能、不確定、適度懷疑和高度懷疑。本研究將等級大于等于3 的歸為惡性,小于3 的歸為良性。
從LIDC 數(shù)據(jù)庫中選取至少2 位放射學(xué)專家對惡性度判斷一致的病例共750 張肺結(jié)節(jié)圖像,使用Deep-Learning 工具箱中的CNN 模型進行特征提?。?3]。卷積層和下采樣層的數(shù)量均設(shè)置為2,卷積核的大小為5×5、下采樣降幅為1/4,將每張肺結(jié)節(jié)圖像轉(zhuǎn)化為一個192 維的特征圖,然后通過Logistic 分類器進行分類。將特征圖像隨機分成50一批,迭代次數(shù)設(shè)置為500,表1 給出了不同訓(xùn)練/測試樣本下的分類精度。
表1 不同訓(xùn)練/測試樣本下的肺結(jié)節(jié)分類精度
由表1 可見,當(dāng)訓(xùn)練樣本為600,測試樣本150 時,肺結(jié)節(jié)的分類精度達到最高,其最高值為83.4%。在此條件下,改變學(xué)習(xí)率,肺結(jié)節(jié)分類精度如表2 所示。
由表2 可知,當(dāng)學(xué)習(xí)率為0.8 時,肺結(jié)節(jié)的分類精度達到最高,其值為84.4%。
表2 不同學(xué)習(xí)率下的肺結(jié)節(jié)分類精度 %
肺結(jié)節(jié)良惡性分類對肺癌的早期診斷具有重要意義。目前國內(nèi)研究者提出了很多分類方法。這些方法都是通過提取肺結(jié)節(jié)的圖像特征進行的。在特征提取過程中,早期大部分的分類方法是基于人工設(shè)計的圖像底層特征加分類器的方式,這些底層特征包括肺結(jié)節(jié)的大小、形狀、紋理、邊緣等。如裴博等[14]通過提取肺結(jié)節(jié)的灰度、紋理及形狀特征利用模糊支持向量機進行肺結(jié)節(jié)良惡性分類,獲得了83%的分類精度。方勝儒等[15]通過提取肺結(jié)節(jié)的直方圖、形態(tài)和紋理等特征,利用隨機森林分類器獲得了76% 的分類精度。PE?A 等[16]提取了肺結(jié)節(jié)圖像的幾何、直方圖等特征,利用支持向量機進行了分類研究。這些方法一定程度上降低了醫(yī)師對肺結(jié)節(jié)診斷的主觀性,但是基于人工設(shè)計的底層特征的分類方法,性能上存在較大差異。近年來,隨著人工智能的發(fā)展,基于深度學(xué)習(xí)的肺結(jié)節(jié)良惡性分類是目前肺癌計算機輔助診斷的一個研究重點。相比于人工設(shè)計的底層特征,深度學(xué)習(xí)具有強大的自動特征提取能力和高效的特征表達能力,可以實現(xiàn)從底層到高層的特征組合,從而獲得較理想的分類效果。如劉露等[17]提出一種基于深度置信網(wǎng)絡(luò)的肺結(jié)節(jié)良惡性分類方法,獲得了86%的分類精度。由于研究者使用的肺部CT 圖像的不同,因此無法通過直接對比判斷模型的好壞。另一方面,基于深度學(xué)習(xí)的肺結(jié)節(jié)良惡性分類結(jié)果受限于網(wǎng)絡(luò)結(jié)構(gòu)的不同,SHIN 等[18]研究表明,隨著CNN 網(wǎng)絡(luò)層次和復(fù)雜度的增加,分類精度會隨之增加。本文提出的基于CNN 的肺結(jié)節(jié)特征自動提取與良惡性分類方法,受限于MATLAB 環(huán)境下Deep-Learning 工具箱的限制,只能構(gòu)建小型的網(wǎng)絡(luò),以ResNet 為代表的新興深層CNN 網(wǎng)絡(luò)可提取更優(yōu)的圖像特征,因此后續(xù)可將深層的ResNet 網(wǎng)絡(luò)應(yīng)用于肺結(jié)節(jié)的良惡性分類中,以提高分類精度,為臨床提供更有效的診斷依據(jù)。