李志平 張永勝 徐輝景 陳文 康書朝 李煥國 張育 崔鳳 楊勇
肺癌是全球第二大最常見的癌癥,也是癌癥死亡的主要原因,約占確診癌癥的11.4%和癌癥死亡的18.0%[1]。隨著CT 在肺部疾病患者中的使用越來越頻繁,特別是高風險人群的大規(guī)模CT 篩查,大量CT 圖像分析容易造成放射科醫(yī)師的視覺疲勞,使得肺結節(jié)的誤診和漏診幾乎不可避免。區(qū)分良性和惡性肺結節(jié)是一項具有挑戰(zhàn)性的任務,需要結合視覺評估和測量,不同的醫(yī)師也可能有不同的解釋。放射科醫(yī)師準確識別和分類良惡性肺結節(jié)的靈敏度在30%~97%,診斷的假陽性率高達2.1%[2]。人工智能(artificial intelligence,AI)輔助診斷系統(tǒng)利用計算機提取和分類算法來識別和分類疾病,近年來已被廣泛應用于臨床實踐。AI 可以幫助放射科醫(yī)師在影像學上識別、分析和預測肺結節(jié),可以用于肺結節(jié)的分類和良惡性鑒別[3-5]。AI 肺結節(jié)影像輔助診斷系統(tǒng)對肺結節(jié)良惡性鑒別的靈敏度較高,但是假陽性也較高,有待進一步改進[6-8]。因此,本研究旨在提出一種基于AI 肺結節(jié)CT 影像輔助診斷系統(tǒng)的可靠且易于使用的評分系統(tǒng),用于鑒別肺結節(jié)的良惡性,現(xiàn)將結果報道如下。
1.1 對象 回顧性分析2021 年1 月至2022 年9 月在浙江中醫(yī)藥大學附屬杭州市中醫(yī)院經(jīng)手術治療并確診的肺結節(jié)患者187 例,其中男88 例,女99 例,中位年齡59(48,68)歲。共215 個肺結節(jié),實性結節(jié)83 個,亞實性結節(jié)132 個。良性肺結節(jié)69 個,分別為炎癥51個,錯構瘤7 個,結核3 個,隱球菌8 個;惡性結節(jié)146個,分別為原位腺癌32 個,微浸潤性腺癌63 個,浸潤性腺癌46 個,鱗狀細胞癌5 個。納入標準:(1)術前接受本院CT 檢查且至少存在1 個肺結節(jié);(2)經(jīng)胸腔鏡下部分肺切除或穿刺活檢病理證實;(3)CT 檢查后1個月內(nèi)獲得肺結節(jié)的病理結果。排除標準:(1)胸部CT 檢查病灶直徑>3 cm;(2)不能使用AI 肺結節(jié)CT 影像輔助診斷系統(tǒng)進行結節(jié)分析或數(shù)據(jù)不全;(3)有原發(fā)惡性腫瘤病史,經(jīng)病理證實為轉移瘤的患者。本研究經(jīng)本院醫(yī)學倫理委員會審查通過(批準文號:2023KLL078),免除患者知情同意。
1.2 檢查方法 采用Siemens SOMATOM Force 2×96排螺旋CT、Philips Ingenuity Flex 64 排螺旋CT 和GE Revolution ACE ES 64 排螺旋CT 進行肺部掃描,掃描參數(shù):管電壓為120 kV,管電流為自動mAs,層厚5 mm,層間隔5 mm,螺距0.758,矩陣512×512,視野330×330,窗寬1 500 Hu,窗 位-400 Hu,進行Lung 算法1.5 mm 薄層重建?;颊呷⊙雠P位,檢查前常規(guī)對患者進行吸氣屏氣訓練,盡量使其屏氣程度一致,于深吸氣末屏氣進行掃描。掃描范圍從肺尖到肺底。
1.3 肺結節(jié)AI分析 所有患者的CT圖像(層厚1.5 mm)以DICOM 格式,導入AI 肺結節(jié)CT 影像輔助診斷系統(tǒng),該系統(tǒng)的核心算法是基于深度神經(jīng)網(wǎng)絡開發(fā)的,可以自動識別肺結節(jié),得到結節(jié)的相關量化參數(shù):結節(jié)數(shù)量、部位、類型、平均直徑、體積等,并提供每個肺結節(jié)的AI 危險程度和AI 惡性概率數(shù)值。
1.4 醫(yī)師閱片分析 2 名有胸部疾病CT 診斷經(jīng)驗的放射科醫(yī)師(10、12 年)為閱片者,在不知道病理和AI結果的情況下,分別對納入患者的CT 圖像進行分析,根據(jù)結節(jié)大小、位置和形態(tài)特征,給出良性和惡性印象評估結果,當2名醫(yī)師意見不一致時,共同協(xié)商決定。
1.5 統(tǒng)計學處理 采用SPSS 25.0 和Medcalc 15.10.0統(tǒng)計軟件。不符合正態(tài)分布的計量資料以M(P25,P75)表示,組間比較采用Wilcoxon 秩和檢驗。計數(shù)資料組間比較采用χ2檢驗。在確認無多重共線性后,將單因素分析中差異有統(tǒng)計學意義的變量進行多因素logistic回歸分析,采用基于最大似然估計向后逐步回歸法來確定良惡性肺結節(jié)的獨立影響因素,基于這些獨立影響因素構建初級模型。采用Hosmer-Lemshow 檢驗初級模型的校準性。用以下公式得到初值:β/βmin(β為各變量的回歸系數(shù),βmin為回歸系數(shù)的最小值),四舍五入到最接近的整數(shù),得到每個變量的最終得分。總分由相關變量對應的個體分數(shù)相加計算得出[9-10],由此得到最終的綜合加權評分。采用ROC 曲線評估各個變量、初級模型和綜合加權評分等相關指標對良惡性肺結節(jié)鑒別診斷的效能,采用DeLong 檢驗評價AUC 間的差異。P<0.05 為差異有統(tǒng)計學意義。
2.1 良惡性肺結節(jié)患者的特征比較 良惡性肺結節(jié)患者年齡、結節(jié)特征、平均CT 值、AI 結節(jié)性質、AI 惡性概率、醫(yī)師閱片、高血壓比例和嗜酒比例比較,差異均有統(tǒng)計學意義(均P<0.05);而性別、平均直徑、體積、糖尿病比例和嗜煙比例比較,差異均無統(tǒng)計學意義(均P>0.05),見表1。
表1 良惡性肺結節(jié)患者的特征比較
2.2 良惡性肺結節(jié)的多因素回歸分析和初級模型的構建 在進行多因素logistic 回歸分析前,通過檢驗容忍度(>0.1)和方差膨脹因子(<10),證實這些因素之間不存在多重共線性。多因素logistic 回歸分析顯示亞實性結節(jié)、AI 惡性概率>0.6、醫(yī)師閱片惡性是鑒別良惡性肺結節(jié)的獨立影響因素(均P<0.01),見表2?;谶@些獨立影響因素構建初級模型,P=ex/(1+ex),X=-2.865+(1.554×亞實性結節(jié))+(1.723×AI 惡性概率>0.6)+(3.355×醫(yī)師閱片惡性),其中e 為自然對數(shù),P為根據(jù)所給特征計算出的肺結節(jié)惡性概率。Hosmer-Lemshow 檢驗顯示初級模型具有良好的校準性(χ2=4.455,P=0.486)。
2.3 評分系統(tǒng)的建立和相關指標對良惡性肺結節(jié)鑒別診斷的效能 在多因素logistic 回歸分析中,對差異有統(tǒng)計學意義變量的β值進行加權評分,結果顯示亞實性為2 分,AI 惡性概率>0.6 為2 分,醫(yī)師閱片惡性為4 分,見表2。將各單項得分相加,得到0~8 分的綜合加權評分。綜合加權評分、初級模型、結節(jié)特征、醫(yī)師閱片、AI 惡性概率的診斷效能比較中,綜合加權評分的AUC 最高,為0.929。綜合加權評分與初級模型的AUC 比較差異無統(tǒng)計學意義(P>0.05),綜合加權評分與醫(yī)師閱片、結節(jié)特征、AI 惡性概率的AUC 比較差異均有統(tǒng)計學意義(均P<0.01),見表3~4 和圖1。為了簡化放射科醫(yī)師評估肺結節(jié)惡性風險的流程,將綜合加權評分分成3 個區(qū)間分數(shù)(<4 分、4~6 分、>6分)。隨著綜合加權評分的升高,肺結節(jié)被診斷為惡性的可能性也相應增加,見表5。典型病例見圖2。
圖1 AI 惡性概率、結節(jié)特征、醫(yī)師閱片、綜合加權評分和初級模型在良惡性肺結節(jié)診斷中的ROC 曲線
圖2 4 例肺結節(jié)患者行肺部CT 檢查后AI 惡性概率、醫(yī)師閱片和綜合加權評分的診斷結果[A:57 歲女性,右肺中葉磨玻璃結節(jié)(箭頭),邊界不清,AI 惡性概率0.57,醫(yī)師閱片良性,綜合加權評分為2+0+0=2 分,病理證實炎癥;B:65 歲女性,左肺上葉實性結節(jié)(箭頭),邊緣模糊,AI 惡性概率0.14,醫(yī)師閱片良性,綜合加權評分為0+0+0=0 分,病理證實為肺隱球菌?。籆:72 歲女性,右肺上葉磨玻璃結節(jié)(箭頭),內(nèi)見血管穿行,AI 惡性概率0.89,醫(yī)師閱片惡性,綜合加權評分為2+2+4=8 分,病理證實為微浸潤性腺癌;D:50 歲女性,左肺下葉磨玻璃結節(jié)(箭頭)伴空泡征象,AI 惡性概率0.81,醫(yī)師閱片惡性,綜合加權評分為2+2+4=8 分,病理證實為原位腺癌]
表4 各相關指標對良惡性肺結節(jié)的鑒別診斷效能比較
表5 惡性肺結節(jié)患者綜合加權分數(shù)分組
AI 在給定任務條件下,具有自動學習圖像和特征提取的優(yōu)勢,減少了醫(yī)師對診斷過程的參與,避免了主觀偏差,并提高了分析的效率和客觀性。隨著AI 在肺結節(jié)診斷領域的臨床應用越來越多,目前多項研究結果表明,AI 可以提高肺結節(jié)診斷的準確性和放射科醫(yī)師的工作效率,其診斷價值也得到了臨床的極大認可,但與臨床實踐的結合仍然有限[11-14]。
Hu 等[15]對89 個磨玻璃結節(jié)396 個定量紋理特征進行分析,訓練集在鑒別良惡性磨玻璃肺結節(jié)的AUC為0.792,靈敏度和特異度分別為86.10%和65.20%。驗證集的AUC 為0.729,靈敏度和特異度分別為86.70%和60%。Ardila 等[16]提出了一種深度學習算法,使用結節(jié)的體積來預測肺癌的風險,該模型的AUC 為0.944。Hu 等[17]建立了一種基于放射組學特征和深度學習特征融合的分類方法,融合模型在區(qū)分良性和惡性肺磨玻璃結節(jié)的AUC 為0.73,高于深度神經(jīng)網(wǎng)絡模型和放射組學模型。然而,如上所述,使用這些紋理、組學特征或深度學習算法在臨床上并不方便。對于普通放射科醫(yī)師來說,這些技術在成熟并廣泛應用于臨床實踐之前,可能還需要大數(shù)據(jù)的驗證和完善。
在一項多中心研究中,Massion 等[18]發(fā)現(xiàn),與Brock(AUC=0.856)和Mayo(AUC=0.852)模型相比,AI 的診斷效能更高(AUC=0.921)。AI 臨床模型可以正確地區(qū)分良惡性肺結節(jié),縮短了患者額外的隨訪時間。Du等[19]對152 例患者194 個結節(jié)的研究表明,AI 對肺結節(jié)良惡性鑒別的準確度、靈敏度、特異度和約登指數(shù)分別為89.69%、92.98%、65.22%和58.20%;醫(yī)師閱片的準確度、靈敏度、特異度和約登指數(shù)分別為85.57%、88.30%、65.22%和53.52%。AI 可以通過分析CT 圖像來區(qū)分良性和惡性肺結節(jié),從而提高肺癌早期診斷的準確率和符合率。相比傳統(tǒng)的人工分析方法,AI 可以大大縮短平均檢測時間,為臨床決策提供更準確的信息,這對于常規(guī)臨床治療來說具有重要的意義[20]。本研究中,當AI 惡性概率的閾值>0.6 時,其對肺結節(jié)良惡性鑒別的AUC 為0.776,靈敏度為0.883,特異度為0.638,陽性預測值為0.838,陰性預測值為0.721,與大部分研究的診斷效能是類似。
Wan 等[21]研究了AI 在鑒別良惡性肺結節(jié)方面的性能,通過運用血管抑制功能和基于深度學習的計算機輔助檢測分析儀,AI 和放射科醫(yī)師在區(qū)分良惡性肺結節(jié)方面的靈敏度和特異度分別為93.6%、89.4%和39.3%、82.1%。盡管AI 在良惡性肺結節(jié)診斷中顯示出比放射科醫(yī)師更高的靈敏度,但這種差異并無統(tǒng)計學意義。本研究中,醫(yī)師閱片對肺結節(jié)良惡性診斷的靈敏度為0.856,特異度為0.899,初級模型和綜合加權評分的靈敏度均為0.829,特異度均為0.942。
Gürsoy ?oruh 等[22]研究表明,融合AI 算法對肺結節(jié)良惡性鑒別的診斷效能略低于放射科醫(yī)師的診斷效能,AI 可能起輔助作用,特別是對缺乏經(jīng)驗的放射科醫(yī)師。Wang 等[23]在一項研究中使用了3 種不同的AI 方法來區(qū)分良性和惡性肺磨玻璃結節(jié),結果顯示,這些模型的診斷能力優(yōu)于放射科醫(yī)師,AUC 總體在0.75~0.80。總體而言,AI 表現(xiàn)與放射科醫(yī)師相當,這取決于訓練所用的算法和數(shù)據(jù)。但是,AI 算法可能會在胸部CT 上出現(xiàn)胸膜增厚、周圍血管、瘢痕、偽影和黏液樣嵌套等假陽性結果。當AI 作為第二閱讀器在胸部CT 上檢測結節(jié)時,放射科醫(yī)師和AI 算法的綜合性能優(yōu)于單獨的任何一方[24-25]。
本研究建立了一個可靠、使用方便的評分系統(tǒng),包括3 個可評估因素,用于區(qū)分肺結節(jié)的良惡性。該評分系統(tǒng)對良惡性肺結節(jié)的AUC 為0.929。且綜合加權評分與醫(yī)師閱片、結節(jié)特征、AI 惡性概率的AUC 比較,差異均有統(tǒng)計學意義。該評分系統(tǒng)使用簡單,診斷效能高,便于廣泛應用。在該評分系統(tǒng)的3 個范圍中,第1 個范圍(<4 分)僅15.2%患者檢出惡性肺結節(jié),第2 個范圍(4~6 分)81.8%患者檢出惡性肺結節(jié),第3 個范圍(>6 分)高達96.8%的患者檢出惡性肺結節(jié),這表明當觀察到2 個以上的關鍵因素時,更容易診斷惡性肺結節(jié)。
本研究存在一定局限性。第一,本研究是單中心回顧性研究,樣本量有限,將來還需更多中心、更大樣本的前瞻性研究來驗證。第二,本研究納入的惡性肺結節(jié)組中,大部分為腺癌,分組可能存在一定偏倚。第三,AI 對結節(jié)檢測的準確性受到多種因素的影響,如學習模型算法、結節(jié)特征提取、結節(jié)周圍結構等。
綜上所述,本研究分析了肺結節(jié)AI、臨床及CT 征象的特征,并結合了結節(jié)特征、醫(yī)師閱片和AI 惡性概率3 個最有意義的因素構建了一個基于AI 簡便易用的評分系統(tǒng)。該評分系統(tǒng)對肺結節(jié)的良惡性鑒別具有一定價值,為臨床決策提供了重要的輔助工具。