鮑澗穎,張 巖,徐建林,莫錦秋
1.上海交通大學 機械與動力工程學院,上海 200240
2.上海交通大學附屬胸科醫(yī)院 呼吸內(nèi)科,上海 200030
近年來,肺癌已經(jīng)成為嚴重危害人類身體健康的癌癥之一[1]。與其他癌癥相比,肺癌早期沒有任何癥狀,很多病人在就診時就已經(jīng)達到不可手術(shù)的局部晚期或者是已經(jīng)發(fā)生了轉(zhuǎn)移,并且中后期的病人術(shù)后恢復(fù)較差[2-3]。利用低劑量螺旋CT進行肺癌的篩查是診斷早期肺癌的重要手段,可靠的診斷結(jié)果能夠大大增加患者治愈的可能性[4]。根據(jù)美國NLST 研究統(tǒng)計,在影像學可疑的肺癌病例中,有20%的患者最終手術(shù)病理不是肺癌。對于肺腺癌來說,其亞病理類型極大地影響手術(shù)方式,而術(shù)中快速冰凍病理在診斷小直徑腫瘤是否為浸潤性時準確率較低[5]。因此,對于形狀特征相似的早期肺癌小結(jié)節(jié),特別是肺腺癌小結(jié)節(jié)的亞病理類型的診斷,僅僅依靠影像科醫(yī)生的主觀診斷會有一定的局限性,并且術(shù)前能較為準確地確認亞病理類型對于手術(shù)方案的制定也有較大的意義。
目前,有越來越多的學者研究利用肺部CT 圖像進行肺結(jié)節(jié)的智能診斷,從而輔助影像科醫(yī)生,提高結(jié)節(jié)診斷的效率及準確率[6]。高揚采用多輸入的2D 卷積網(wǎng)絡(luò)[7],其網(wǎng)絡(luò)的輸入設(shè)計為包含結(jié)節(jié)、不包含結(jié)節(jié)與只包含結(jié)節(jié)圖像的對同一個結(jié)節(jié)對象的三種不同視圖,在公開數(shù)據(jù)集LIDC-IDRI(Lung Image Database Consortium image collection)上進行了肺結(jié)節(jié)的良惡性預(yù)測。蔡俊輝等人[8]對87例腺癌患者的CT圖像提取醫(yī)學特征參數(shù),并利用不同的機器學習模型,用于對其浸潤性及非浸潤性腺癌的分類。劉一璟等人[9]引入中心裁剪操作改進3D DenseNet網(wǎng)絡(luò),提高了算法分類精度。Lu Shengyu[10]結(jié)合了醫(yī)學知識的形態(tài)描述和2D網(wǎng)絡(luò)模型提取的深度特征,利用SVM(Support Vector Machine)進行肺結(jié)節(jié)分類。Meraj T 等人[11]通過提取結(jié)節(jié)形態(tài)學特征、強度特征等來描述結(jié)節(jié)特征,結(jié)合logit boost分類器進行肺癌診斷。Lyu J 等人[12]提出設(shè)計了多層次的2D 交叉卷積殘差網(wǎng)絡(luò),對結(jié)節(jié)的惡性程度進行預(yù)測。Wu P 等人[13]利用深度殘差網(wǎng)絡(luò)并結(jié)合遷移學習對結(jié)節(jié)樣本與非結(jié)節(jié)樣本進行了有效的分類。尹柯等人[14]通過對浸潤性腺癌及非浸潤性腺癌的病灶特征對比分析,確認了病灶平均直徑及形態(tài)對構(gòu)建診斷模型有很好的借鑒依據(jù)。吳保榮等人[15]設(shè)計了融合多維度的卷積神經(jīng)網(wǎng)絡(luò),利用結(jié)節(jié)三維圖像及二維多尺度圖像進行訓練分類,并對兩類網(wǎng)絡(luò)的分類結(jié)果進行加權(quán)融合,進行肺結(jié)節(jié)分類。
目前較多的研究為單一地設(shè)計2D 網(wǎng)絡(luò)或3D 網(wǎng)絡(luò)作為肺結(jié)節(jié)的分類算法,或是基于結(jié)節(jié)特征參數(shù)利用機器學習算法進行分類。吳保榮等人的融合多維度卷積神經(jīng)網(wǎng)絡(luò)融合了2D及3D網(wǎng)絡(luò)的分類結(jié)果,不過與現(xiàn)有的較多研究中的網(wǎng)絡(luò)一樣,只進行了結(jié)節(jié)原始的圖像信息的學習,與醫(yī)學上的先驗信息結(jié)合較少。由于目前肺結(jié)節(jié)的數(shù)據(jù)集較少,無法與其他大型數(shù)據(jù)集一樣達到萬例以上,且用深度學習來研究對浸潤性腺癌結(jié)節(jié)與非浸潤性結(jié)節(jié)進行分類的研究更少,無法在術(shù)前準備中提供足夠的診斷幫助。蔡俊輝等人對浸潤性腺癌的分類進行了研究,他們用隨機森林法在敏感度為66.7%及特異度為100%的情況下,取得準確率86.7%,但其研究的樣本總量僅有87例,分類準確率具有較大的偶然性,且在惡性樣本診斷準確率上做了較大的犧牲。
本文研究磨玻璃小結(jié)節(jié)中的浸潤性腺癌結(jié)節(jié)在術(shù)前的診斷,不同于公開數(shù)據(jù)集LIDC-IDRI的樣本來自于多名放射科醫(yī)師的存在互異性的主觀判斷,本文采集了來自上海胸科醫(yī)院的具有金標準的,即有術(shù)后病理支持的1 760份磨玻璃肺小結(jié)節(jié)CT樣本,其中浸潤性腺癌結(jié)節(jié)為340 份,非浸潤性結(jié)節(jié)為1 420 份,每份CT 樣本中含有連續(xù)的層厚為1 mm的共20層CT薄層。根據(jù)肺結(jié)節(jié)在CT數(shù)據(jù)中分布于連續(xù)多個薄層中所具有的空間信息,以及在醫(yī)學上具有統(tǒng)計學意義的肺結(jié)節(jié)的形態(tài)等平面特征信息[16],設(shè)計了多維度及多特征圖像如邊緣特征、紋理特征等融合的分類器結(jié)構(gòu)。根據(jù)不同樣本中肺結(jié)節(jié)尺寸差距較大的特點,提出了基于注意力機制的殘差網(wǎng)絡(luò)模型,分別利用設(shè)計的3D卷積網(wǎng)絡(luò)與2D卷積網(wǎng)絡(luò)提取不同的特征信息,并對不同維度網(wǎng)絡(luò)提取的特征向量連接成新的特征向量,利用XGBoost 進行訓練分類,最終完成對肺結(jié)節(jié)中浸潤性腺癌的分類診斷。
如圖1所示,本文提出的基于注意力機制的不同維度的網(wǎng)絡(luò)提取特征融合模型AFCNN(Attention-Fusion Convolutional Neural Network)的實現(xiàn)主要分為以下幾個部分進行:圖像預(yù)處理、數(shù)據(jù)增強、分類器結(jié)構(gòu)構(gòu)建。
圖1 模型實現(xiàn)流程
原始數(shù)據(jù)集經(jīng)過圖像預(yù)處理,生成有效的2D及3D用以分類的初始數(shù)據(jù)集,2D 數(shù)據(jù)用來表達肺結(jié)節(jié)中心層的紋理特征及輪廓特征等信息,3D 數(shù)據(jù)表達肺結(jié)節(jié)CT圖像的空間特征信息。2D數(shù)據(jù)進行平面隨機裁剪、旋轉(zhuǎn)、2Dcutmix等數(shù)據(jù)增強方法,3D數(shù)據(jù)進行空間隨機裁剪、空間翻轉(zhuǎn)、3Dcutmix等數(shù)據(jù)增強方法,分別生成用以網(wǎng)絡(luò)訓練的2D 數(shù)據(jù)集及3D 數(shù)據(jù)集,利用提出的融合模型進行分類。融合模型AFCNN 由兩部分構(gòu)成,2D ACNN(2D Attention Convolutional Neural Network)用以訓練提取2D數(shù)據(jù)集的特征向量,3D ACNN用以訓練提取3D數(shù)據(jù)集的特征向量,該模型對提取的2D特征向量及3D 特征向量均轉(zhuǎn)換為一維向量并進行連接,形成新的特征向量,能夠充分表達肺結(jié)節(jié)的空間特征信息以及平面特征信息,再利用xgboost算法進行訓練分類,能夠得到更準確的分類結(jié)果。
2.1.1 圖像預(yù)處理
如圖2 所示,對原始CT 數(shù)據(jù)集進行的圖像預(yù)處理主要為兩部分:肺實質(zhì)提取與肺結(jié)節(jié)數(shù)據(jù)提取。
肺實質(zhì)提取是因為肺部CT圖像中除了肺實質(zhì)部分外,還有胸廓、肋骨等信息,而這些位置的像素信息對于肺結(jié)節(jié)的病理性質(zhì)判斷無作用,反而會對結(jié)節(jié)特征的學習造成干擾,提取肺實質(zhì)部分可以加強網(wǎng)絡(luò)對有效特征的學習。肺實質(zhì)提取主要根據(jù)不同部位的像素值不同,利用閾值法對肺實質(zhì)部分進行粗略的提取,得到粗略的肺實質(zhì)輪廓。然后利用形態(tài)學運算等方法,補回位于肺實質(zhì)邊緣被誤裁剪的肺結(jié)節(jié),得到更加精確的肺實質(zhì)輪廓,利用該輪廓信息,從原始CT 圖像中獲取肺實質(zhì)部分,去除胸廓等多余信息。
肺結(jié)節(jié)數(shù)據(jù)提取是利用經(jīng)肺實質(zhì)提取后的CT圖像生成每個肺結(jié)節(jié)樣本的3D 圖像數(shù)據(jù)和2D 特征圖像數(shù)據(jù)。提取肺結(jié)節(jié)時采用的位置信息為人工標注所得,在結(jié)節(jié)的幾何學中心所在的CT層上緊密地框出結(jié)節(jié)所在位置,標記中心層位置并記錄結(jié)節(jié)所占連續(xù)CT 薄層的層數(shù)。
以標注的結(jié)節(jié)中心層為中心,依據(jù)中心層上標注的結(jié)節(jié)位置框,另再取中心層前后各幾層的CT圖像薄層,對齊裁剪并拼接成尺寸為Nx×Ny×Nz的3D 數(shù)據(jù),Nx與Ny表示數(shù)據(jù)集中CT 圖像上的像素數(shù)量,Nz表示CT 薄層數(shù),本研究中尺寸實例化為32×32×9。3D 圖像數(shù)據(jù)用來表達結(jié)節(jié)及其周邊的空間圖像信息。
首先,在勘測設(shè)計全過程中,非數(shù)字化信息較多,主要包括外業(yè)勘測和勘探資料。內(nèi)業(yè)設(shè)計中存在較多各專業(yè)之間、上下工序之間的接口資料,這些非數(shù)字化信息的影響與一體化和智能化目標的實現(xiàn)相差甚遠,需要較多的時間和精力來進行整理。其次,勘測和設(shè)計數(shù)據(jù)尚未形成統(tǒng)一的格式和標準,各專業(yè)和工序之間存在獨立性,很難實現(xiàn)統(tǒng)一管理和共享。最后,基于管理者視角,在整個勘測設(shè)計的計劃管理和質(zhì)量管理等方面,仍然采用傳統(tǒng)的方法,計算機技術(shù)的優(yōu)勢尚未充分發(fā)揮出來[1]。
2D特征圖像數(shù)據(jù)由結(jié)節(jié)中心層圖像生成,含三部分分量圖像:結(jié)節(jié)中心層圖像、LBP(Local Binary Patterns)特征圖像、輪廓特征圖像。2D 特征圖像在深度方向不具有位置不變性。
分量圖像中的結(jié)節(jié)中心層圖像與3D數(shù)據(jù)中心層的圖像保持一致,本實例中尺寸為32×32,并將其轉(zhuǎn)換為灰度圖。
LBP特征圖像主要是為了表達肺結(jié)節(jié)的紋理信息。以每個像素點(x0,y0)為中心,用窗口覆蓋的像素點值與中心點值進行大小比較,根據(jù)中心點與周圍點的值大小關(guān)系來重新表示中心像素點的值。如公式(1)所示:
其中,LBP(x0,y0)表示該點計算得到的LBP特征值,n表示窗口邊緣覆蓋的像素點的數(shù)量,在本文實例中取8,vi和v0分別表示第i個窗口邊緣像素點的像素值和中心點的像素值。
輪廓特征圖像用于表達結(jié)節(jié)的輪廓信息。CT圖像中,磨玻璃小結(jié)節(jié)的邊緣模糊,可不通過高斯濾波等操作,直接利用sobel算子計算各個位置的梯度,以此來表現(xiàn)肺結(jié)節(jié)邊緣信息。2D特征圖像的每一分量圖像都依據(jù)結(jié)節(jié)中心層的圖像生成,其對應(yīng)的實際CT 圖像中的位置信息相同,且尺寸均為Nx×Ny,在本文實例中取32×32。
2.1.2 數(shù)據(jù)增強
對2D 及3D 數(shù)據(jù)集分別采用相應(yīng)維度的常見數(shù)據(jù)增強方法以及cutmix 算法??刹捎贸R姷臄?shù)據(jù)增強方法如:平面方向內(nèi)的圖像旋轉(zhuǎn)(如90°、180°、270°),平面方向內(nèi)的轉(zhuǎn)置、加入高斯噪聲等。特別的,對2D數(shù)據(jù)進行平面上的隨機裁剪,對3D 數(shù)據(jù)進行空間內(nèi)的隨機裁剪,以及深度方向上的上下翻轉(zhuǎn),能增強2D 及3D 數(shù)據(jù)集的泛化性能,支持分類器網(wǎng)絡(luò)參數(shù)的訓練。由于醫(yī)學圖像樣本采集成本高,本實例中還采用了cutmix 算法,增強網(wǎng)絡(luò)對肺結(jié)節(jié)局部特征的學習能力。該算法是對樣本中的部分數(shù)據(jù)進行隨機裁剪,隨機取另一樣本,將相應(yīng)的數(shù)據(jù)部分與原樣本剩余部分進行組合,形成新的樣本,新樣本的標簽根據(jù)兩組樣本在新樣本的數(shù)據(jù)中心所占比例進行組合。對2D 數(shù)據(jù)集進行2Dcutmix,即進行平面上的任意位置及二維大小的隨機裁剪及樣本融合,對3D 數(shù)據(jù)進行3Dcutmix,即進行空間內(nèi)的任意位置及任意三維大小的隨機裁剪以及樣本融合。通過對原始數(shù)據(jù)進行不同維數(shù)的特征融合,提高了樣本的多樣性,并且能夠增強不同維數(shù)的網(wǎng)絡(luò)對局部特征的學習。
圖2 圖像預(yù)處理
對肺結(jié)節(jié)的病理診斷主要依據(jù)肺結(jié)節(jié)部分圖像,而其他肺實質(zhì)等信息對病理診斷的貢獻較小。對于磨玻璃小結(jié)節(jié),肺結(jié)節(jié)部分圖像占獲得的數(shù)據(jù)樣本圖像比重較小,且在不同樣本中的肺結(jié)節(jié)大小比重差距較大。本研究中的磨玻璃肺小結(jié)節(jié)直徑變化范圍較大,可為5 mm 至20 mm 不等。由于CT 圖像中的像素大小與實際物理空間中的肺部實體尺寸具有唯一對應(yīng)關(guān)系,對肺結(jié)節(jié)進行縮放則會破壞圖像與實體尺寸間的對應(yīng)聯(lián)系,丟失肺結(jié)節(jié)的實際大小信息。為了在不同尺寸的肺結(jié)節(jié)樣本中,使網(wǎng)絡(luò)的分類都能更多地依據(jù)肺結(jié)節(jié)部分的圖像信息,而對肺實質(zhì)部分的圖像信息更少地參考,所以設(shè)計網(wǎng)絡(luò)模塊時引入注意力機制,即通過不同通道上的特征圖像表達強度的比較,根據(jù)特征圖像的表達強度不同從而分配給通道以相應(yīng)的特征權(quán)重。
如圖3 所示,設(shè)計帶注意力機制的殘差學習模塊。利用注意力機制,在訓練階段學習優(yōu)化網(wǎng)絡(luò)中的特征圖各通道權(quán)重,可以學習到圖像中對分類有重要意義的特征,從而在測試集中提取到重要的圖像特征。該機制能夠使網(wǎng)絡(luò)更多地關(guān)注于肺結(jié)節(jié)部分的信息,從而改善網(wǎng)絡(luò)對該數(shù)據(jù)集的分類能力。為了減少因為網(wǎng)絡(luò)深度過大引起的梯度消失,設(shè)計殘差學習模塊,更好地結(jié)合上下文提取的圖像特征,使得提取到的各部分特征圖像更好地參與網(wǎng)絡(luò)分類。
如圖3的帶有注意力機制的殘差學習模塊中,卷積變換部分由卷積層與ReLU層構(gòu)成,用于提取上層網(wǎng)絡(luò)輸出中的特征圖像,而近路連接部分由尺寸為1的卷積層構(gòu)成,直接連接上層網(wǎng)絡(luò)的輸出,使得高維特征圖像與低維特征圖像更好地結(jié)合。注意力機制則可以用來加強卷積變換部分對重要特征的權(quán)重。
圖3 帶注意力機制的網(wǎng)絡(luò)模塊
模塊中的注意力機制的不同特征通道的權(quán)重計算依據(jù)兩部分組成,分別為各通道的特征圖像均值及最大值。用Xi來表示通道i上特征圖像的值的集合,則該注意力機制的實現(xiàn)可用公式(2)表示:
其中,Xinew表示通道i上加權(quán)后的特征圖像的集合,max 表示特征圖像中的最大值,avg 表示特征圖像的平均值,f1表示卷積核為1 的卷積變換及激活函數(shù)ReLU的變換組合,即為Conv(1×1)-ReLU,卷積核為1的卷積操作用于對不同通道上的權(quán)重信息進行整合,ReLU 的作用則是為了增強該注意力轉(zhuǎn)換中的非線性。f2為與f1相同的卷積變換結(jié)構(gòu)。f2與f1分別進行訓練。f1為根據(jù)最大值處理過的特征圖像來決定不同通道相應(yīng)的權(quán)重,f2為根據(jù)平均值處理過的特征圖像來決定不同通道相應(yīng)的權(quán)重。將兩組注意力機制訓練后得到的權(quán)重結(jié)果相加,對特征圖像的每個通道附以不同的權(quán)重,通過訓練,可使重要的特征通道具有更大的權(quán)重,學習到圖像中具有分類意義的重要特征。
該機制的實質(zhì)就是對該模塊中的卷積變換部分的各特征通道進行加權(quán),通過對上述權(quán)重的訓練,從而獲得特征表達更清晰的特征圖像,如公式(3)所示:
其中,c為特征圖的通道數(shù),X為每個通道上的特征圖像經(jīng)過權(quán)重系數(shù)疊加后的輸出總特征圖像。
在卷積變換后的特征圖像經(jīng)過權(quán)重整合后,近路連接部分用卷積核為1的卷積變換進行信息整合,兩部分的特征圖像進行疊加,更好地整合低維及高維的特征信息,作為該模塊的輸出提供給網(wǎng)絡(luò)后續(xù)部分進行訓練學習。
2.2.2 2D ACNN網(wǎng)絡(luò)結(jié)構(gòu)
2D ACNN 用來學習肺結(jié)節(jié)的平面特征如邊緣特征、紋理特征等,該網(wǎng)絡(luò)模型依據(jù)帶注意力機制的殘差學習模塊設(shè)計,詳細結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)包含三個帶注意力機制的殘差學習模塊,其中Conv2D 表示由卷積層、批量歸一化層及激活層實現(xiàn),即Conv(ks×ks)-BNReLU 的復(fù)合操作,其中ks表示卷積核的尺寸,加入批量歸一化的目的是使得激活函數(shù)的輸入符合其數(shù)值敏感區(qū)間,從而減小梯度消失的現(xiàn)象,增加網(wǎng)絡(luò)的收斂能力,加快網(wǎng)絡(luò)參數(shù)的訓練。Avg-Max Attention表示上述的由平均值及最大值實現(xiàn)的注意力模塊,即每個通道上輸入與輸出的關(guān)系為Outi={f1[m ax(Xi)]+f2[a v g(Xi)]}Ini,下標i表示特征圖像在第i通道上的分量,在2D 網(wǎng)絡(luò)中,該特征分量為二維,將該變換記為g。帶注意力機制的殘差學習模塊的輸出由注意力模塊及卷積核為1的模塊輸出相加得到,即Xout=g(Xin′)+h(Xin),Xin為該學習模塊的輸入,Xin′為注意力模塊的輸入,由Xin經(jīng)過兩次Conv2D 模塊操作得到,h表示卷積核為1 的Conv2D 變換。該網(wǎng)絡(luò)的輸入層Conv2D 的卷積核設(shè)置為7,是為了增大網(wǎng)絡(luò)上層的感受野,MaxPool 表示最大池化操作,用以減小網(wǎng)絡(luò)需要訓練的參數(shù)數(shù)量。AdaptiveAvgPool 表示全局平均池化操作,對每一通道上的特征圖像進行全局池化,用平均值來表示該通道的特征值。全局池化后輸出2D 特征向量,通過全卷積Linear層進行分類。
2.2.3 3D ACNN網(wǎng)絡(luò)結(jié)構(gòu)
3D ACNN 用來學習肺結(jié)節(jié)的空間信息,肺結(jié)節(jié)的空間特征具有深度方向的不變性,所以設(shè)計3D 網(wǎng)絡(luò)結(jié)構(gòu)來學習肺結(jié)節(jié)數(shù)據(jù)的上下文信息。為了減少網(wǎng)絡(luò)需要訓練的參數(shù)數(shù)量,該網(wǎng)絡(luò)模型主要有三個帶注意力機制的殘差學習模塊,詳細結(jié)構(gòu)如圖5 所示。類似的,Conv3D表示由卷積層、批量歸一化層及激活層實現(xiàn),即Conv(ks×ks×ks)-BN-ReLU的復(fù)合操作,其中ks表示卷積核的尺寸,在該實例中卷積核的長度、寬度、深度的尺寸保持一致。Avg-Max Attention 為平均值及最大值實現(xiàn)的注意力模塊,Outi={f1[m ax(Xi)]+f2[a v g(Xi)]}Ini,在3D網(wǎng)絡(luò)中,通道i上的特征分量為三維,將該變換記為g。帶注意力機制的殘差學習模塊的輸出為Xout=g(Xin′)+h(Xin),其中Xin′由Xin經(jīng)過兩次 Conv3D 模塊操作得到,h表示卷積核為1 的Conv3D 變換。該網(wǎng)絡(luò)的Conv3D 的卷積核均設(shè)置為3,可以減小網(wǎng)絡(luò)需要訓練的參數(shù)數(shù)量。AdaptiveAvgPool表示全局平均池化操作,對每一通道上的三維特征圖像進行全局池化,用平均值來表示該通道的特征值。全局池化后輸出3D特征向量,通過全卷積Linear層進行分類。
圖4 2D ACNN網(wǎng)絡(luò)結(jié)構(gòu)
圖5 3D ACNN網(wǎng)絡(luò)結(jié)構(gòu)
2.2.4 分類目標函數(shù)及特征融合
2D網(wǎng)絡(luò)和3D網(wǎng)絡(luò)單獨訓練,網(wǎng)絡(luò)優(yōu)化的目標都是最小化損失函數(shù),因研究中為解決的二分類問題,損失函數(shù)選擇為二值交叉熵函數(shù),并加入正則化項,如公式(4)所示:
其中,yi為樣本i的標簽,ye為分類器對樣本i的預(yù)測標簽,n為樣本的總量,為正則化項,α為正則化系數(shù),一般取很小的正數(shù),‖wi‖2為網(wǎng)絡(luò)中權(quán)重系數(shù)的二范數(shù)。L2 正則化通過優(yōu)化目標函數(shù)的值,控制網(wǎng)絡(luò)中權(quán)重參數(shù)的大小,降低網(wǎng)絡(luò)復(fù)雜度,減少網(wǎng)絡(luò)過擬合。
兩組網(wǎng)絡(luò)分別訓練好后,取圖4 中2D 網(wǎng)絡(luò)輸出的2D 特征向量以及圖5 中3D 網(wǎng)絡(luò)輸出的3D 特征向量進行特征融合,因為2D特征向量及3D特征向量即為相應(yīng)網(wǎng)絡(luò)提取出的用以二分類的特征向量,所以可以表達3D空間特征以及2D平面特征,特征融合的實現(xiàn)方法為將網(wǎng)絡(luò)輸出的2D 特征向量和3D 特征向量均轉(zhuǎn)換為一維向量,進行連接,即其中表示3D特征向量中第1通道上的向量,表示2D特征向量中第1通道上的向量,以此類推,k表示3D特性向量的總通道數(shù),t表示2D特性向量的總通道數(shù)。以vnew作為樣本的新的特征向量,利用XGBoost算法對新的特征向量進行分類學習,得到的分類結(jié)果作為該分類器的最終分類結(jié)果。在實驗中XGBoost 選擇每次基于樹的模型進行迭代,迭代權(quán)重eta設(shè)計為0.1,樹的最大深度設(shè)計為5,避免過擬合,XGBoost模型的目標優(yōu)化函數(shù)與公式(4)一致。
本文所采用的數(shù)據(jù)集來自上海胸科醫(yī)院,均為歷年經(jīng)過開刀后有準確病理的病例,直徑5 mm 到20 mm 之間的磨玻璃肺小結(jié)節(jié)樣本。共有1 760 例,其中浸潤性腺癌結(jié)節(jié)樣本340 例,非浸潤性腺癌結(jié)節(jié)樣本1 420例。在非浸潤性結(jié)節(jié)樣本中,包含有微浸潤性腺癌、原位腺癌及其他良性結(jié)節(jié)。每個病例數(shù)據(jù)都包含層厚為1 mm的連續(xù)20張CT薄層圖像。對比于大部分論文研究的LIDC-IDRI公開數(shù)據(jù)集,本課題研究的數(shù)據(jù)集具有金標準,公開數(shù)據(jù)集的結(jié)節(jié)樣本良惡性是由四位放射科醫(yī)生獨立標注的,按肺結(jié)節(jié)惡性程度大小從1到5分為5個等級,5表示惡性程度最高,1表示為良性結(jié)節(jié)。醫(yī)生的診斷具有主觀性,在1 187例結(jié)節(jié)的診斷中,將四位醫(yī)生判斷結(jié)果差距在1 以內(nèi)的作為有效診斷,則僅有571例結(jié)節(jié)的診斷有效,其余樣本的不同醫(yī)生診斷差距很大。所以公開數(shù)據(jù)集的標注不能作為真實的肺結(jié)節(jié)病理,并且該數(shù)據(jù)集中同時磨玻璃結(jié)節(jié)與實性結(jié)節(jié)等不同類型的結(jié)節(jié),本課題的數(shù)據(jù)集只針對研究磨玻璃結(jié)節(jié)中的浸潤性腺癌的分類。
本文所運行的實驗平臺的配置為Intel Core i9-9900處理器,NVIDIA GeForce RTX 2080Ti獨立顯卡,32 GB 內(nèi)存。實驗中的數(shù)據(jù)處理及模型搭建是采用python3.7,主要基于pytorch 的深度學習框架。實驗中的網(wǎng)絡(luò)中參數(shù)的初始化利用凱明方法進行初始化。
為了使網(wǎng)絡(luò)得到充分的訓練并且減少訓練結(jié)果的偶然性,利用五折交叉驗證對提出的算法進行驗證,將原始數(shù)據(jù)集隨機等分為相同大小且相互獨立的5份,每份樣本中含有浸潤性腺癌結(jié)節(jié)樣本68 例,非浸潤性腺癌結(jié)節(jié)樣本284 例。第i次驗證時,選擇第i份樣本作為測試集,其余的4 份樣本作為訓練集訓練,即每次訓練中的訓練集與測試集的比例為4∶1。初始的訓練集中共有1 408份樣本,其中浸潤性腺癌結(jié)節(jié)樣本272份,非浸潤性腺癌結(jié)節(jié)樣本1 136份。訓練過程中通過數(shù)據(jù)增強,將訓練集增廣至84 224 份,其中浸潤性腺癌樣本和非浸潤性腺癌樣本為1∶1。
分別做五組實驗,分別對兩個網(wǎng)絡(luò)進行訓練驗證,記錄結(jié)果,并對兩個網(wǎng)絡(luò)的訓練結(jié)果進行融合,記錄其結(jié)果。實驗中2D 樣本的尺寸實例化為32×32,3D 樣本的尺寸實例化為32×32×9,正則化系數(shù)α取為0.000 01,本文采用了SGD 優(yōu)化器進行優(yōu)化,訓練網(wǎng)絡(luò)的初始學習率設(shè)計為0.02,動量參數(shù)設(shè)置為0.9,學習率以10倍進行衰減。初始學習率的選擇依據(jù)表1的實驗結(jié)果。
表1 不同學習率下2D及3D網(wǎng)絡(luò)的實驗結(jié)果
網(wǎng)絡(luò)訓練中,學習率設(shè)置過大會導(dǎo)致不易收斂,學習率過小會導(dǎo)致困于局部最值。在本文實驗中,根據(jù)表1中的結(jié)果可知,當初始學習率取0.02時,可以在不犧牲敏感度和特異度的情況下具有較高的準確率,所以在這個量級中取初始學習率為0.02。正則化系數(shù)不宜過大,會阻礙網(wǎng)絡(luò)訓練,所以取較小的10E?5 可對過擬合起一定的限制作用,該值的上下波動對實驗結(jié)果的影響很小。
該實驗中,分別利用準確率、敏感度和特異度三個指標對模型的性能進行評價。指標的定義如公式(5)所示[17]:
其中,TP表示樣本真實類別及預(yù)測結(jié)果均為正的樣本數(shù)量,TN表示真實類別及預(yù)測結(jié)果均為負的樣本數(shù)量,F(xiàn)P表示真實類別為負,預(yù)測為正的樣本數(shù)量,F(xiàn)N表示真實類別為正,預(yù)測為負的樣本數(shù)量。在該實例中,敏感度用來表示類別為浸潤性腺癌的樣本預(yù)測正確的比例,特異度用來表示類別為非浸潤性結(jié)節(jié)的樣本中預(yù)測正確的比例。
如圖6所示,為本文模型對測試集上部分肺結(jié)節(jié)分類錯誤的可視化結(jié)果??蜻x為非浸潤性腺癌結(jié)節(jié)的三組結(jié)節(jié)實際病理為非浸潤性,但被診斷為浸潤性結(jié)節(jié),對應(yīng)的百分比為診斷為浸潤性結(jié)節(jié)的概率??蜻x為浸潤性腺癌結(jié)節(jié)的三組結(jié)節(jié)實際病理為浸潤性結(jié)節(jié),但模型對其預(yù)測為浸潤性結(jié)節(jié)的概率很低,所以最終分類結(jié)果為非浸潤性結(jié)節(jié)。圖中,兩組肺結(jié)節(jié)的相似度很高,浸潤性腺癌中的前兩組結(jié)節(jié)形狀很規(guī)則,且密度值規(guī)律,而非浸潤性的幾組結(jié)節(jié)的形狀不規(guī)則,因而導(dǎo)致模型產(chǎn)生誤判。
圖6 模型分類錯誤的部分樣本
五折交叉驗證的結(jié)果如圖7所示,分別表示五組實驗的準確率、敏感度和特異度結(jié)果。曲線圖中的橫坐標均表示實驗組號,縱坐標分別表示準確率值、敏感度值和特異度值,每幅曲線圖中的三條曲線分別表示單獨用3D 網(wǎng)絡(luò)分類的結(jié)果、單獨用2D 網(wǎng)絡(luò)分類的結(jié)果,以及特征融合后的分類結(jié)果。圖7(a)展示了三種方法在五組測試集上的準確率結(jié)果,2D 網(wǎng)絡(luò)在各組中普遍表現(xiàn)較差,平均準確率為0.753,3D 網(wǎng)絡(luò)在各組中表現(xiàn)優(yōu)于2D網(wǎng)絡(luò),平均準確率為0.814,因為3D數(shù)據(jù)集具有比2D數(shù)據(jù)集更多的信息,且結(jié)節(jié)的空間特征對分類結(jié)果有比平面特征更強的作用。融合分類結(jié)果是結(jié)合了2D網(wǎng)絡(luò)提取的特征向量和3D 網(wǎng)絡(luò)提取的特征向量,所以可以結(jié)合空間特征和平面特征得到更好的分類準確率,平均準確率為0.827。圖7(b)展示了三種方法的敏感度結(jié)果,在不同組數(shù)據(jù)集上,2D 網(wǎng)絡(luò)和3D 網(wǎng)絡(luò)的分類結(jié)果沒有明顯的優(yōu)劣之分,因為敏感度表現(xiàn)為浸潤性腺癌中診斷正確的比例,其原始數(shù)據(jù)量較小,所以2D 網(wǎng)絡(luò)與3D 網(wǎng)絡(luò)的分類結(jié)果沒有明顯的區(qū)別,融合分類在結(jié)合空間特征和平面特征后,第4 組實驗中沒有改善,其余組中融合分類的敏感度都有較大的提升。圖7(c)展示了三種方法的特異度結(jié)果,2D 網(wǎng)絡(luò)的特異度明顯低于3D 網(wǎng)絡(luò),這與準確率上的實驗結(jié)果一致,3D 網(wǎng)絡(luò)可以學習到更多的信息,通過對不同維度的特征融合可以使得特異度有一定程度的提升。
圖7 五折交叉驗證的準確率、敏感度及特異度
本文對浸潤性腺癌分類的研究基于具有金標準的共1 187 例樣本,且為了對比人工對浸潤性腺癌結(jié)節(jié)診斷的準確率,在數(shù)據(jù)集中隨機抽取了20份樣本,由一位具有多年經(jīng)驗的醫(yī)生進行診斷,醫(yī)生的診斷準確率為70%。從圖7 可知,本文提出的算法準確率為0.827,敏感度為0.829,特異度為0.826??梢娤鄬τ卺t(yī)生的經(jīng)驗判斷,本文方法在浸潤性腺癌結(jié)節(jié)及非浸潤性結(jié)節(jié)的診斷上誤診率有較大改善。說明本文模型能通過對肺結(jié)節(jié)圖像信息的學習,獲得好的浸潤性結(jié)節(jié)診斷能力,具有較高的準確率且不犧牲分類的敏感度和特異度。
本文針對浸潤性腺癌小結(jié)節(jié)的診斷問題提出了基于注意力機制的多維度多特征融合的分類模型,首先對原始CT 圖像進行了肺實質(zhì)提取,去除胸廓等干擾信息。為了增強模型對肺結(jié)節(jié)特征的學習,在該模型的輸入設(shè)計中,2D肺結(jié)節(jié)樣本為中心層圖像、LBP特征及輪廓特征的組合,3D 肺結(jié)節(jié)樣本為連續(xù)CT 薄層的組合。根據(jù)該數(shù)據(jù)集樣本量較少,且樣本不平衡的特征,應(yīng)用傳統(tǒng)數(shù)據(jù)增強方法及cutmix算法,增強數(shù)據(jù)集的泛化性能。為了增強網(wǎng)絡(luò)學習對肺結(jié)節(jié)有效特征的能力,在網(wǎng)絡(luò)設(shè)計中融合注意力機制及殘差學習模塊。網(wǎng)絡(luò)訓練者先獨立訓練2D及3D卷積網(wǎng)絡(luò),再提取兩組網(wǎng)絡(luò)輸出的特征向量,連接成新的特征向量,用xgboost對特征向量進行再訓練,進一步增強分類器的準確率,使分類器綜合學習結(jié)節(jié)的空間特征及平面特征,結(jié)果證明對不同維度下提取的特征向量進行融合再分類,分類的結(jié)果都要優(yōu)于單獨用2D 網(wǎng)絡(luò)或3D 網(wǎng)絡(luò)分類的結(jié)果,能在準確率、敏感度和特異度方面都能達到較好的水平。該算法在采集自上海胸科醫(yī)院的結(jié)節(jié)直徑為5~20 mm的共340份浸潤性腺癌的結(jié)節(jié)樣本及1 420份非浸潤性的結(jié)節(jié)樣本上研究,通過交叉驗證得到分類準確率為82.7%,敏感度為82.9%,特異度為82.6%。本文工作為磨玻璃小結(jié)節(jié)的亞病理類型分類診斷提供更為實用的診斷算法。