王傳彬,李翠平,曹 鋒,郜言坤,錢寶鑫,董江寧,吳興旺
肺錯(cuò)構(gòu)瘤(pulmonary hamartoma, PH)和肺腺癌(lung adenocarcinoma, LA)分別是肺部最常見的良性和惡性腫瘤,二者的臨床處理方式不同,前者以隨訪為主,后者則主張手術(shù)切除[1-2]。高分辨率CT(high resolution CT, HRCT)是術(shù)前診斷PH和LA的最常用方法[3],“爆米花”樣鈣化或脂肪密度是PH的典型征象,而LA則表現(xiàn)出“毛刺征”、“空泡征”等典型征象。當(dāng)二者缺乏上述征象,分別表現(xiàn)為非典型肺錯(cuò)構(gòu)瘤(atypical pulmonary hamartoma, APH)和非典型肺腺癌(atypical lung adenocarcinoma, ALA)時(shí),極易混淆。放射組學(xué)和深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)通過將具有生物學(xué)信息的醫(yī)學(xué)圖像轉(zhuǎn)化為可進(jìn)一步分析的高維數(shù)據(jù)提高非侵入性診斷能力,目前已被廣泛應(yīng)用于多種臨床實(shí)踐中[4-7],該文擬建立基于臨床-影像學(xué)特征和放射組學(xué)特征的臨床放射組學(xué)列線圖(clinical radiomic nomogram, CRN)及DCNN的兩種預(yù)測模型,提高APH和ALA的鑒別診斷能力,探討基于DCNN的人工智能(artificial Intelligence, AI)評價(jià)肺結(jié)節(jié)Lung-RADS分類水平的能力。
1.1 病例資料回顧性收集2012年10月至2022年10月來自安徽醫(yī)科大學(xué)第一附屬醫(yī)院和中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院的經(jīng)病理確診的PH和LA患者共2 283例,根據(jù)CT征象,將APH定義為CT圖像上缺乏可見鈣化和可測量脂肪(CT值≤-20 HU)的PH,將ALA定義為缺乏空洞或空泡征、缺乏毛刺征、胸膜凹陷征、血管集束征等惡性征象的LA。其他納入標(biāo)準(zhǔn)為:① 直徑為≥1 cm和≤3 cm的實(shí)性結(jié)節(jié)(文獻(xiàn)[8]認(rèn)為<1.0 cm的病變通常無法獲得有效的放射組學(xué)特征,>3.0 cm的結(jié)節(jié)通常具有典型的CT特征);② 具有標(biāo)準(zhǔn)算法重建出的薄層胸部CT圖像(層厚/間距為1.25 mm);③ 圖像質(zhì)量高,不影響肺結(jié)節(jié)的輪廓勾畫和分割。最終納入患者共307例,其中機(jī)構(gòu)1的患者(n=263)按照7 ∶3的比例隨機(jī)分為訓(xùn)練集(n=184:APH=97,ALA=87)和內(nèi)部驗(yàn)證集(n=79:APH=41,ALA=38),機(jī)構(gòu)2的患者作為外部驗(yàn)證集(n=44:APH=23,ALA=21)。實(shí)驗(yàn)設(shè)計(jì)流程見圖1。
圖1 CRN模型和DCNN模型建立過程
1.2 圖像采集及特征提取兩家機(jī)構(gòu)的掃描設(shè)備均為美國GE公司16排以上CT,包括Light speed VCT、Optima CT 660及Discovery CT750 HD。主要參數(shù)如下:管電壓120 kV,管電流150~300 mA;掃描層厚及層距均為5 mm,薄層重建圖像為標(biāo)準(zhǔn)算法,層厚及間距為1.25 mm。由兩名高年資放射科主治醫(yī)師(W.C.B.和C.F)共同完成臨床及影像學(xué)特征的統(tǒng)計(jì),包括患者的性別、年齡、病變的位置、平均直徑(取結(jié)節(jié)最大層面長徑與短徑之和的1/2,單位mm)、形狀(分葉征)和CT值(在標(biāo)準(zhǔn)算法的薄層縱隔窗圖像上進(jìn)行測量,感興趣區(qū)(region of interest, ROI)放置于病灶中心并盡量避開容積效應(yīng)的影響,面積約占病灶的1/2~2/3,單位HU)。采用ITK-SNAP(version 3.8, www.itksnap.org)軟件包,由上述兩名醫(yī)師在薄層肺窗圖像上,沿靶病灶邊緣逐層勾畫出分割線,分割線一般不超過病變邊緣1~2 mm,同時(shí)對靶病灶上下緣輪廓顯示不完整的層面予以舍棄,最后保存為三維容積感興趣區(qū)(volume of interest, VOI),利用人工智能科研平臺(tái)(匯醫(yī)慧影,http://radcloud.cn),完成放射組學(xué)特征的提取(共1 316個(gè)),包括:一階特征、形狀特征、二階特征[灰度共生矩陣 (gray level co-occurrence matrix, GLCM)、灰度行程矩陣 (grey-level run-length matrix, GLRLM)、灰度區(qū)域大小矩陣 (grey-level size zone matrix, GLSZM)、附近灰度色調(diào)差矩陣 (neighbourhood grey-tone difference matrix, NGTDM)、灰階依賴性矩陣 (grey-level dependence matrix, GLDM) ],以及小波變化(wavelet)、拉普拉斯(log)和局部二值模式濾波器(LBP)變化特征。
圖2 組間相關(guān)系數(shù)圖
1.4 DCNN模型的建立利用經(jīng)典的深度學(xué)習(xí)3D Resnet-50[6]建立APH和ALA的分類模型,模型結(jié)構(gòu)如圖1所示,在殘差模塊中,具有可學(xué)習(xí)參數(shù)的層用矩形框表示,每個(gè)矩形框代表一個(gè)卷積核,分別對應(yīng)1×1×1、3×3×3以及1×1×1卷積核,黑色實(shí)線箭頭對應(yīng)卷積操作,虛線箭頭表示特征圖之間的密集連接。Resnet-50網(wǎng)絡(luò)結(jié)構(gòu)可以分成7個(gè)部分,第1部分不包含殘差塊,主要對輸入進(jìn)行卷積、批歸一化、激活函數(shù)、最大池化的計(jì)算。第2、3、4、5部分結(jié)構(gòu)都包含了殘差塊(階段1~階段4)。在Resnet-50網(wǎng)絡(luò)結(jié)構(gòu)中,殘差塊都有3層卷積,網(wǎng)絡(luò)總共有1+3×(3+4+6+3)=49個(gè)卷積層,加上最后的全連接層總共是50層。本研究將所有感興趣區(qū)域調(diào)整到64×64×32像素并采用最大最小值的方式對圖像進(jìn)行歸一化處理。將訓(xùn)練集中的感興趣區(qū)域影像輸入3D Resnet-50網(wǎng)絡(luò),經(jīng)過前5部分的卷積計(jì)算,池化層會(huì)將其轉(zhuǎn)化成1個(gè)特征向量,通過反向傳播更新模型參數(shù),以網(wǎng)絡(luò)的輸出作為分類結(jié)果,計(jì)算輸出和標(biāo)簽的二進(jìn)制交叉熵作為損失函數(shù)。使用數(shù)據(jù)增強(qiáng)策略減輕過度擬合,即每個(gè)訓(xùn)練圖像被隨機(jī)旋轉(zhuǎn)30°、60°、90° 和180°(在驗(yàn)證集中沒有數(shù)據(jù)增強(qiáng)技術(shù)),以及使用了策略包括L2正則化(權(quán)重衰減為0.000 5)和早期停止。將批處理大小設(shè)置為8,學(xué)習(xí)速率設(shè)置為1×10-4,并應(yīng)用Adam優(yōu)化器進(jìn)行優(yōu)化。課題組使用的神經(jīng)網(wǎng)絡(luò)代碼是運(yùn)行于Ubuntu16.04系統(tǒng),神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程使用到的程序包包括Python3.6.8、Pytorch 1.6.0、Opencv、Numpy、SimpleITK等,同時(shí)在2塊NVIDIA的1080Ti圖形處理單元上訓(xùn)練模型多達(dá)1 000次迭代。
1.5 AI輔助評價(jià)Lung-RADS分類重新招募1名有15年診斷經(jīng)驗(yàn)的放射科醫(yī)師對機(jī)構(gòu)1的263個(gè)病例(APH=138,ALA=125)進(jìn)行Lung-RADS分類,根據(jù)Lung-RADS 1.1版本[3]和本研究的入組標(biāo)準(zhǔn),上述263例均被定義為4A~4X類,表明這些結(jié)節(jié)均有一定的惡性概率(可疑惡性)。利用AI以概率法重新評估上述病例中結(jié)節(jié)的性質(zhì),并與放射科醫(yī)師評估的Lung-RADS分類做對比,進(jìn)一步判別在AI的協(xié)助下Lung-RADS分類的調(diào)整情況,包括無變化、升級或降級。
2.1 研究對象及臨床-影像學(xué)特征篩選一般資料見表1。訓(xùn)練集中的ALA組和APH組在性別、年齡和病變位置的差異性無統(tǒng)計(jì)學(xué)意義(P=0.737、0.514、0.196),在CT值、直徑和分葉征的差異性有統(tǒng)計(jì)學(xué)意義(P=0.001、0.000、0.000),其中APH組的CT值、直徑和分葉征比例均表現(xiàn)更小;進(jìn)一步的多因素分析顯示,訓(xùn)練集中的ALA組和APH組僅在CT值和直徑的差異有統(tǒng)計(jì)學(xué)意義(P值均為0.000)(表2)。
表1 訓(xùn)練集、內(nèi)部和外部驗(yàn)證集中患者的臨床特征
表2 訓(xùn)練集中臨床特征的多變量分析
2.2 放射組學(xué)特征篩選及CRN模型建立兩名觀察者間的ICC為0.89,將其中1 203個(gè)ICC≥0.75的放射組學(xué)特征進(jìn)行LASSO降維后,最終篩選出3個(gè)關(guān)鍵特征:特征1(original-glcm-MCC,最大相關(guān)系數(shù)), 特征2(original-shape-flatness,平面度)和特征3(original-shape-sphericity,球形度),每個(gè)患者對應(yīng)的Radscore值=-0.075 9-2.823 6×original-glcm-MCC-0.438 8×original-shape-flatness-2.403 7×original-shape-sphericity。Spearman相關(guān)分析及熱圖顯示3個(gè)特征的組內(nèi)相關(guān)性較弱(r<0.5)(圖3)。最后,基于CT值、直徑和Radscore評分建立了CRN模型,并使用列線圖(圖4)將模型可視化(Nomo=-2.520 8+0.866 1×Radscore+0.098 4×直徑+0.026 9×CT值)。在CRN預(yù)測模型中,預(yù)測概率范圍為0.01~0.09,Radscore的風(fēng)險(xiǎn)參數(shù)最高,其次是平均直徑和CT衰減值。決策曲線(圖5)評估列線圖的獲益程度顯示,對所有患者使用CRN模型的預(yù)測比干預(yù)或不干預(yù)更有益。
圖3 訓(xùn)練集(A)、內(nèi)部(B)和外部驗(yàn)證集(C)中3個(gè)放射組學(xué)特征的組內(nèi)相關(guān)性的熱圖
圖4 臨床放射組學(xué)列線圖
圖5 訓(xùn)練集(A)、內(nèi)部(B)和外部驗(yàn)證集(C)中評價(jià)CRN模型的實(shí)用性的決策曲線
2.3 CRN及DCNN模型的性能評價(jià)及比較ROC曲線(圖6)結(jié)果顯示,各組模型中DCNN模型的AUC值均高于CRN模型。CRN模型在訓(xùn)練集、內(nèi)部和外部驗(yàn)證集中的AUC值分別為0.968、0.953和0.932(表3),分別低于DCNN模型在各驗(yàn)證集的AUC值(0.983、0.973和0.942)(表3),但德隆檢驗(yàn)(表4)結(jié)果顯示上述差異性均無統(tǒng)計(jì)學(xué)意義(P=0.23、0.31、0.34)。
表3 基于DCNN模型和CRN模型的訓(xùn)練集、內(nèi)部和外部驗(yàn)證集的性能
表4 德隆檢驗(yàn)比較CRN 模型和DCNN 模型的性能
圖6 訓(xùn)練集(A)、內(nèi)部(B)和外部驗(yàn)證集(C)中比較CRN和DCNN模型性能的ROC曲線
2.4 AI輔助評價(jià)Lung-RADS分類在AI的重新評估下(表5),138例APH中有7例被AI錯(cuò)誤判斷為惡性結(jié)節(jié)(錯(cuò)誤率5%,7/138),其相應(yīng)的Lung-RADS分類不變,余下131例被AI正確判斷為良性結(jié)節(jié)(準(zhǔn)確率95%,131/138),其相應(yīng)的Lung-RADS分類降級;125例ALA中有106例被AI正確判斷為惡性結(jié)節(jié)(準(zhǔn)確率85%,106/125),其相應(yīng)的Lung-RADS分類不變,余下19例被AI錯(cuò)誤判斷為良性結(jié)節(jié)(錯(cuò)誤率15%,19/125),其相應(yīng)的Lung-RADS分類降級。根據(jù)調(diào)整后的Lung-RADS分類結(jié)果,AI判斷APH的準(zhǔn)確率明顯高于放射科醫(yī)師,判斷ALA的準(zhǔn)確率與放射科醫(yī)師基本一致。
表5 AI輔助下對放射醫(yī)生評估的 Lung-RADS分類調(diào)整情況(n)
提高APH和ALA的無創(chuàng)性診斷能力有助于患者在臨床決策中受益,然而這對于依賴診斷經(jīng)驗(yàn)的放射科醫(yī)師來說較為困難,本研究建立了基于CT圖像的臨床放射組學(xué)列線圖和DCNN的兩種預(yù)測模型,在解決上述問題方面取得了較為理想的結(jié)果。
CT值和直徑是本研究中構(gòu)建CRN模型的重要影像學(xué)特征,本研究中APH組的CT值及直徑均低于ALA組,可能原因如下:在組織學(xué)上,PH主要是由CT值較低的黏液和脂肪組織構(gòu)成,因此相對的“低密度”是區(qū)分PH與其他肺部病變的重要特征[9];在生物學(xué)行為方面,PH則具有良性腫瘤生長緩慢的特點(diǎn),與肺癌快速生長明顯不同,Hansen et al[10]報(bào)道了14例PH的平均直徑在平均4.1年內(nèi)僅增加了(3.2±2.6)mm。
基于CT圖像的放射組學(xué)特征能夠間接反映出病灶內(nèi)部的衰減分布,這是一般影像學(xué)特征無法實(shí)現(xiàn)的[11-13]。本研究篩選出的3個(gè)放射組學(xué)特征中,APH組的original-glcm-MCC,original-shape-flatness均高于ALA組,這兩個(gè)特征分別是紋理復(fù)雜度的測量和ROI中最大和最小主成分之間的關(guān)系[13-14],這一結(jié)果表明,APH的內(nèi)部衰減分布比ALA更不均勻,APH的組織成分的差異大于ALA,這可能是由APH組織成分的多樣性引起的[9],放射組學(xué)的定量特性可以幫助醫(yī)師識(shí)別這種差異性。此外,這也提示腫瘤的異質(zhì)性不僅僅代表惡性病變,也有可能與復(fù)雜的組織成分有關(guān)。APH組的另一個(gè)關(guān)鍵特征original-sham-sphericity亦高于ALA組,該特征有可能反映了病變的擴(kuò)張性和相似程度[13-14],表明APH比ALA更有可能顯示出球形的形態(tài),這也符合良性腫瘤的膨脹性生長的特點(diǎn)[7]。
最后,課題組利用上述影像學(xué)特征及放射組學(xué)特征所建立的CRN模型獲得了較好的診斷性能,實(shí)現(xiàn)了在訓(xùn)練集、內(nèi)部驗(yàn)證集和外部驗(yàn)證集依次為0.968、0.953和0.932的AUC值。個(gè)性化預(yù)測的列線圖顯示,Radscore在區(qū)分ALA和APH方面優(yōu)于影像學(xué)特征,進(jìn)一步揭示了放射組學(xué)在鑒別診斷方面的能力可能優(yōu)于放射科醫(yī)師[10-12]。
DCNN是一種深度人工神經(jīng)網(wǎng)絡(luò),它可以捕獲影像圖像在初始卷積層中存在的紋理信息[4-7],近年來取得了一些比放射組學(xué)更先進(jìn)的成就[13-15]。在一項(xiàng)預(yù)測肺腺癌EGFR突變的研究中,Wang et al[13-14]采用DCNN方法獲得的結(jié)果明顯優(yōu)于放射組學(xué)方法。Li et al[15]在另一項(xiàng)研究中采用了DCNN和放射組學(xué)方法預(yù)測了彌漫性膠質(zhì)瘤的分子亞型,前者在大多數(shù)情況下表現(xiàn)更好。本研究中,在區(qū)分ALA和APH方面,DCNN模型取得了一個(gè)相對于CRN模型更好的結(jié)果(訓(xùn)練集、內(nèi)部和外部驗(yàn)證集的AUC分別為0.983vs0.968、0.973vs0.953和0.942vs0.932),表明DCNN可能是更有前途的醫(yī)學(xué)應(yīng)用。
肺結(jié)節(jié)的Lung-RADS分類是否準(zhǔn)確直接影響到患者的臨床決策。在臨床工作中,放射科醫(yī)師對肺結(jié)節(jié)Lung-RADS分類的判斷是以結(jié)節(jié)的直徑和影像學(xué)特征作為參考的,并受到一定的主觀判斷性的影響,這常常導(dǎo)致分類結(jié)果不能真實(shí)反映出病灶的性質(zhì)。根據(jù)Lung-RADS 1.1版本[3]和入組標(biāo)準(zhǔn),本研究的263例病灶在術(shù)前均被放射科醫(yī)師定義為4A~4X類(可疑惡性),意味著138例良性的APH在術(shù)前均被錯(cuò)誤定性。而在人機(jī)競賽實(shí)驗(yàn)中,AI將131例APH(94.9%,131/138)判斷為良性,相應(yīng)的Lung-RADS分類被降級,表明AI在評估APH病變性質(zhì)方面的表現(xiàn)明顯優(yōu)于放射科醫(yī)生,可以顯著降低APH的誤診率;同時(shí)AI將106例ALA(84.8%,106/125)判斷為惡性,相應(yīng)的Lung-RADS分級保持不變,表明AI在評估ALA病變的性質(zhì)方面傾向于與放射科醫(yī)生的判斷一致,有助于幫助放射科醫(yī)師增加對ALA診斷的信心。此外,研究[15]表明,DCNN方法在研究隊(duì)列較大時(shí)將表現(xiàn)得更好,在本研究中,仍有7例APH和19例ALA被AI誤判,可能需要更大的樣本去驗(yàn)證。
綜上所述,DCNN及CRN在區(qū)分APH和ALA方面均具有較高價(jià)值,前者表現(xiàn)更優(yōu);AI在評價(jià)肺結(jié)節(jié)的Lung-RADS分類方面亦表現(xiàn)出優(yōu)于放射科醫(yī)生的能力。DCNN在肺結(jié)節(jié)的臨床實(shí)踐中有可能具有更廣闊的應(yīng)用前景。
本研究仍有一些局限性。首先,需要一項(xiàng)包含更多中心成像數(shù)據(jù)的前瞻性研究來驗(yàn)證研究結(jié)果。其次,本研究僅選擇了APH和ALA作為研究對象,需要納入其他性質(zhì)不同但影像表現(xiàn)相似的肺部結(jié)節(jié)進(jìn)行研究。第三,不同CT設(shè)備采集的圖像和不同人工分割的圖像可能會(huì)影響結(jié)果。