吳樹劍 俞詠梅 范莉芳 過永 張虎 朱浩雨 任超 徐爭(zhēng)元
胸腺瘤起源于胸腺上皮細(xì)胞,是前縱隔最常見的原發(fā)性腫瘤,約占所有前縱膈腫瘤的47%[1]。根據(jù)世界衛(wèi)生組織(WHO)2015 年最新修訂的組織學(xué)分型[2],可將胸腺瘤分為低風(fēng)險(xiǎn)組(A、AB、B1 型)和高風(fēng)險(xiǎn)組(B2、B3 型)。與低風(fēng)險(xiǎn)組相比,高風(fēng)險(xiǎn)組胸腺瘤更易局部侵犯,完全手術(shù)切除的機(jī)會(huì)較小,可能需要多種模式聯(lián)合治療,腫瘤復(fù)發(fā)率和死亡率均較高[3]。因此,治療前準(zhǔn)確區(qū)分胸腺瘤亞型至關(guān)重要。影像組學(xué)能夠從醫(yī)學(xué)影像圖像中高通量提取大量人眼難以識(shí)別的定量特征,這些特征能很好的反映病變的病理生理學(xué)特點(diǎn)[4-6]。深度學(xué)習(xí)(deep learning,DL)是目前最有效的特征表達(dá)學(xué)習(xí)方法,自動(dòng)提取的深度學(xué)習(xí)或高階圖像特征可用于腫瘤分割、預(yù)后預(yù)測(cè)和治療反應(yīng)評(píng)價(jià)[7-9]。本研究納入3 個(gè)中心增強(qiáng)CT 數(shù)據(jù),旨在探討DL 影像組學(xué)術(shù)前預(yù)測(cè)胸腺瘤風(fēng)險(xiǎn)分類的價(jià)值。
回顧性分析2015 年1 月至2023 年1 月皖南醫(yī)學(xué)院弋磯山醫(yī)院、池州市人民醫(yī)院與蕪湖市第二人民醫(yī)院術(shù)后病理證實(shí)為胸腺瘤患者的資料。根據(jù)WHO簡(jiǎn)化病理分型分為低風(fēng)險(xiǎn)組(A、AB、B1 型)及高風(fēng)險(xiǎn)組(B2、B3 型)。納入標(biāo)準(zhǔn):1)有完整的臨床與病理資料;2)術(shù)前1~2 周內(nèi)行增強(qiáng)CT 檢查;3)術(shù)前未經(jīng)過放化療。排除標(biāo)準(zhǔn):1)圖像偽影較重;2)復(fù)發(fā)性胸腺瘤。經(jīng)以上標(biāo)準(zhǔn),皖南醫(yī)學(xué)院弋磯山醫(yī)院共篩選139例患者(訓(xùn)練集),其中男性74 例、女性65 例,年齡25~75 歲,平均年齡(56.1±10.9)歲,低風(fēng)險(xiǎn)組86 例(A 型26 例、AB 型41 例、B1 型19 例),高風(fēng)險(xiǎn)組53例(B2 型37 例、B3 型16 例);池州市人民醫(yī)院與蕪湖市第二人民醫(yī)院共篩選81 例患者(外部驗(yàn)證集),其中男性42 例、女性39 例,年齡23~81 歲,平均年齡(55.2±11.4)歲,低風(fēng)險(xiǎn)組51 例(A 型7 例、AB 型30 例、B1 型14 例),高風(fēng)險(xiǎn)組30 例(B2 型21 例、B3 型9 例)。
WHO 簡(jiǎn)化病理分型已成為胸腺瘤的標(biāo)準(zhǔn)分型方案:1)2015 年修訂后的A 型胸腺瘤包括非典型A 型:A 型富含梭形上皮細(xì)胞,核分裂小于4 個(gè)/2 mm,TDT 陽性T 淋巴細(xì)胞缺乏或僅有極少量;非典型A型是在A 型基礎(chǔ)上出現(xiàn)灶狀壞死同時(shí)伴有核分裂象增加;2)B 型胸腺瘤:病灶多為圓形或多邊形,參照淋巴細(xì)胞與上皮細(xì)胞比例以及腫瘤細(xì)胞的異型性分為B1、B2 與B3 型;3)AB 型胸腺瘤是指同時(shí)具有A 型與B 型的特點(diǎn)。
1.3.1 CT 檢查與影像圖像分析 患者共在4 臺(tái)CT機(jī)上完成檢查,分別為Siemens Somatom Definition Flash 雙源CT、Philips 64 排螺旋CT、GE64 排螺旋CT、Philips 128 排螺旋CT,管電壓120~130 kV,管電流200~250 mA,層厚及層間距均為5~7 mm,螺距0.6~0.8 mm。掃描時(shí)囑患者屏住呼吸,先平掃,然后使用高壓注射器通過肘靜脈注射80~85 mL 碘克沙醇,流率均為3 mL/s,于注藥30、60 s 時(shí)行動(dòng)脈期、靜脈期掃描。將掃描所得圖像傳至工作站,由2 名高年資放射科醫(yī)師盲法閱片,意見存在分歧時(shí)協(xié)商達(dá)成一致。評(píng)估病灶的CT 定量與定性特征包括:在橫軸位圖像測(cè)量腫瘤長(zhǎng)短徑、位置(左、居中、右)、形態(tài)(規(guī)則、不規(guī)則)、邊界(清晰、不清晰)、鈣化(無鈣化、弧形、簇狀)、壞死囊變(有、無)、強(qiáng)化程度(低中度強(qiáng)化、明顯強(qiáng)化)、增強(qiáng)均勻性(均勻、不均勻)、周圍侵犯(有、無)。
1.3.2 圖像分割 對(duì)收集的3 個(gè)中心的圖像數(shù)據(jù)通過Python(3.5.6)軟件進(jìn)行預(yù)處理(包括格式轉(zhuǎn)換、重采樣),將體素統(tǒng)一標(biāo)準(zhǔn)化為1 mm×1 mm×1 mm。使用ITK-SNAP(3.6.0 版本)軟件將圖像灰度標(biāo)準(zhǔn)化,并基于靜脈期軸位圖像由以上2 名醫(yī)師分別沿腫瘤邊緣手動(dòng)勾畫感興趣區(qū)(region of interest,ROI),并融合成三維體積感興趣區(qū)(volume of interest,VOI),見圖1。使用一站式科研平臺(tái)(onekey AI)提取手工影像組學(xué)(hand-crafted radiomics,HCR)特征,每幅圖像提取1 556 個(gè)特征。基于ResNet-101 卷積神經(jīng)網(wǎng)絡(luò)模型提取DL 特征,共獲得2 048 個(gè)DL 特征,將提取的特征行Z-score 標(biāo)準(zhǔn)化,并對(duì)2 名醫(yī)師提取的特征利用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,ICC)進(jìn)行一致性檢驗(yàn),保留ICC>0.80 的特征。
圖1 圖像分割
選擇ResNet-101 模型作為DL 特征提取的基礎(chǔ)模型,ResNet 網(wǎng)絡(luò)又叫殘差網(wǎng)絡(luò),由多個(gè)殘差塊構(gòu)成(圖2),是最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,101 代表模型的深度,主要包括卷積層、池化層、全連接層與輸出層。其中,淺層的卷積層提取圖像的淺層特征;深層的卷積層提取圖像的抽象特征,最后通過輸出層將特征輸出。一般深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)隨模型深度增加,訓(xùn)練精度會(huì)下降,但基于殘差連接的深度神經(jīng)網(wǎng)絡(luò)可彌補(bǔ)CNN 導(dǎo)致的精度退化問題,使神經(jīng)網(wǎng)絡(luò)能夠更好地表達(dá),保證模型預(yù)測(cè)的準(zhǔn)確性。如圖2 所示特征以X 向前傳播,經(jīng)過一個(gè)殘差塊學(xué)習(xí)后特征變?yōu)镕(X),輸出的特征變成F(X)+X,在前向傳播過程中,每一層均包含了上一層的特征信息,解決了傳統(tǒng)圖像網(wǎng)絡(luò)識(shí)別因網(wǎng)絡(luò)層數(shù)堆疊很深模型難以收斂的問題。
圖2 ResNet 網(wǎng)絡(luò)模型的殘差塊
采用SPSS 26.0、R(版本4.1.2)及Python(3.5.6)軟件進(jìn)行統(tǒng)計(jì)學(xué)分析。首先采用Shapiro-Wilk檢驗(yàn)對(duì)定量數(shù)據(jù)行正態(tài)性檢驗(yàn),符合正態(tài)分布用獨(dú)立樣本t檢驗(yàn),不符合正態(tài)分布用Mann-Whitney U檢驗(yàn)。分類變量采用χ2檢驗(yàn)或Fisher檢驗(yàn)。單因素與多因素Logistic 回歸分析篩選獨(dú)立影響因素,Spearman秩相關(guān)及最小絕對(duì)收縮與選擇算子算法(least absolute shrinkage and selection operator,LASSO)回歸降維篩選最優(yōu)影像組學(xué)特征。利用邏輯回歸(Logistic regression,LR)、隨機(jī)森林(random forest,RF)、決策樹(decision tree,DT)、支持向量機(jī)(support vector machine,SVM)機(jī)器學(xué)習(xí)算法分別構(gòu)建預(yù)測(cè)模型,利用受試者工作特征(receiver operating characteristics,ROC)曲線下面積(area under the curve,AUC)、準(zhǔn)確度、敏感度、特異性、陽性預(yù)測(cè)值(positive predictive value,PPV)及陰性預(yù)測(cè)值(negative predictive value,NPV)評(píng)價(jià)模型的效能,模型效能比較采用Delong 檢驗(yàn)及凈重新分類指數(shù)(net reclassification index,NRI),校準(zhǔn)曲線及臨床決策曲線(decision curve analysis,DCA)評(píng)價(jià)模型校準(zhǔn)度及臨床實(shí)用度。P<0.05 為差異具有統(tǒng)計(jì)學(xué)意義。
訓(xùn)練集139 例胸腺瘤患者低風(fēng)險(xiǎn)組86 例、高風(fēng)險(xiǎn)組53 例,外部驗(yàn)證集81 例胸腺瘤患者低風(fēng)險(xiǎn)組51 例、高風(fēng)險(xiǎn)組30 例。訓(xùn)練集的低風(fēng)險(xiǎn)年齡組為(57.0±10.7)歲,高風(fēng)險(xiǎn)組為(54.6±11.3)歲,外部驗(yàn)證集的低風(fēng)險(xiǎn)組年齡為(55.2±11.8)歲,高風(fēng)險(xiǎn)組為(55.2±10.7)歲;訓(xùn)練集的低風(fēng)險(xiǎn)組腫瘤長(zhǎng)徑為(4.7±2.0)cm,高風(fēng)險(xiǎn)組為(4.6±2.1)cm,外部驗(yàn)證集的低風(fēng)險(xiǎn)組腫瘤長(zhǎng)徑為(5.4±2.6)cm,高風(fēng)險(xiǎn)組為(4.9±2.5)cm;訓(xùn)練集的低風(fēng)險(xiǎn)組腫瘤短徑為(3.3±1.7)cm,高風(fēng)險(xiǎn)組為(3.2±1.9)cm,外部驗(yàn)證集的低風(fēng)險(xiǎn)組腫瘤短徑為(3.2±1.6)cm,高風(fēng)險(xiǎn)組為(2.7±1.6)cm。訓(xùn)練集與外部驗(yàn)證集低風(fēng)險(xiǎn)組與高風(fēng)險(xiǎn)組組內(nèi)的形態(tài)、邊界、強(qiáng)化程度及周圍侵犯比較差異均具有統(tǒng)計(jì)學(xué)意義(均P<0.05),余差異均無統(tǒng)計(jì)學(xué)意義(均P>0.05),見表1。低風(fēng)險(xiǎn)胸腺瘤一般CT 影像表現(xiàn)為圓形或橢圓形軟組織腫塊,密度均勻,邊界清晰,增強(qiáng)后明顯強(qiáng)化(圖3A,3B);高風(fēng)險(xiǎn)胸腺瘤一般CT 影像表現(xiàn)為不規(guī)則形軟組織腫塊,邊界不清,增強(qiáng)后不均勻強(qiáng)化(圖3C,3D)。
表1 訓(xùn)練集組內(nèi)及訓(xùn)練集與外部驗(yàn)證集組間臨床影像特征比較
圖3 CT 胸腺瘤CT 影像典型表現(xiàn)
將訓(xùn)練集組內(nèi)比較差異具有統(tǒng)計(jì)學(xué)意義的影像特征(P<0.05)納入單因素與多因素Logistic 回歸分析篩選預(yù)測(cè)胸腺瘤高風(fēng)險(xiǎn)的獨(dú)立影響因素,結(jié)果顯示形態(tài)、強(qiáng)化程度及周圍侵犯為預(yù)測(cè)胸腺瘤高風(fēng)險(xiǎn)的獨(dú)立影響因素,其中形態(tài)及周圍侵犯是危險(xiǎn)因素,強(qiáng)化程度是保護(hù)因素(表2)。
表2 影像特征預(yù)測(cè)胸腺瘤高風(fēng)險(xiǎn)的影響因素分析變量
Spearman秩相關(guān)及LASSO 回歸降維后共獲得14 個(gè)最優(yōu)特征,其中HCR 特征與DL 特征各7 個(gè),基于最優(yōu)特征構(gòu)建Radscore,訓(xùn)練集與外部驗(yàn)證集Radscore 分別為0.29±0.10、0.28±0.08,利用LR、RF、DT 及SVM 機(jī)器學(xué)習(xí)算法分別構(gòu)建預(yù)測(cè)模型(表3),各模型效能通過Delong 檢驗(yàn)進(jìn)行比較,結(jié)果訓(xùn)練集及外部驗(yàn)證集RF 模型與LR 及DT 模型比較差異具有統(tǒng)計(jì)學(xué)意義(P<0.05),余模型間比較差異均無統(tǒng)計(jì)學(xué)意義(均P>0.05),見表4。本研究RF 模型為最差模型,因訓(xùn)練集LR 模型AUC 最大,此外,LR模型可通過列線圖可視化,故選擇LR 模型為本研究的輸出模型。
表3 LR、RF、DT 及SVM 機(jī)器學(xué)習(xí)算法構(gòu)建模型的效能評(píng)價(jià)
表4 機(jī)器學(xué)習(xí)算法構(gòu)建模型的效能比較
選擇LR 模型為輸出模型,首先對(duì)模型行5 折交叉驗(yàn)證(圖4A),5 折交叉驗(yàn)證的AUC 分別為0.961(95%CI:0.900~1.000)、0.869(95%CI:0.733~1.000)、0.852(95%CI:0.712~0.991)、0.941(95%CI:0.857~1.000)、0.884(95%CI:0.748~1.000),平均為0.901。進(jìn)一步構(gòu)建模型的列線圖(圖4B),并通過校準(zhǔn)曲線及DCA 評(píng)價(jià)模型的校準(zhǔn)度及臨床適用度,校準(zhǔn)曲線結(jié)果表明模型的預(yù)測(cè)概率與觀測(cè)概率具有較高一致性(圖4C,4D),DCA 顯示當(dāng)閾值概率為0~0.93(訓(xùn)練集)、0~0.82(外部驗(yàn)證集)時(shí)臨床均有獲益(圖4E,4F)。將列線圖模型與影像學(xué)模型[訓(xùn)練集:AUC=0.715(95%CI:0.626~0.803);外部驗(yàn)證集:AUC=0.758(95%CI:0.651~0.866)]及Radscore[訓(xùn)練集:AUC=0.854(95%CI:0.790~0.919);外部驗(yàn)證集:AUC=0.842(95%CI:0.751~0.934)]通過Delong 檢驗(yàn)進(jìn)行比較,結(jié)果訓(xùn)練集與外部驗(yàn)證集列線圖模型與影像學(xué)模型比較差異均具有統(tǒng)計(jì)學(xué)意義(訓(xùn)練集:Z=4.413 5,均P<0.001;外部驗(yàn)證集:Z=2.660,P=0.008),與Radscore 比較差異均無統(tǒng)計(jì)學(xué)意義(均P>0.05)。進(jìn)一步計(jì)算Radscore 與列線圖模型的NRI,結(jié)果列線圖模型較Radscore 訓(xùn)練集NRI 提升了7.5%(Z=2.713,P=0.007),外部驗(yàn)證集NRI 提升了5.3%(Z=2.320,P=0.020),說明列線圖模型較Radscore 預(yù)測(cè)高風(fēng)險(xiǎn)胸腺瘤的能力有提高,且差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)。
圖4 模型可視化及臨床評(píng)價(jià)
增強(qiáng)CT 是胸腺瘤治療前首選的影像學(xué)檢查,其能夠?qū)崿F(xiàn)胸腺瘤的初步診斷并與前縱隔其他腫瘤進(jìn)行鑒別診斷[10],但常規(guī)CT 實(shí)現(xiàn)胸腺瘤的準(zhǔn)確風(fēng)險(xiǎn)分類具有一定的局限性。為了克服這種局限性本研究將HCR 及DL 特征結(jié)合影像學(xué)獨(dú)立影響因素構(gòu)建了LR、RF、DT 及SVM 機(jī)器學(xué)習(xí)模型,模型在訓(xùn)練集和外部驗(yàn)證集均能有效實(shí)現(xiàn)胸腺瘤風(fēng)險(xiǎn)分類,此外本研究還利用列線圖將LR 模型可視化,為臨床治療前制定個(gè)性化診療方案提供參考依據(jù)。
既往研究表明[11],腫瘤形態(tài)不規(guī)則多見于高風(fēng)險(xiǎn)胸腺瘤,本研究結(jié)果顯示高風(fēng)險(xiǎn)組形態(tài)不規(guī)則比例明顯高于低風(fēng)險(xiǎn)組(64.2%vs.34.0%),與既往報(bào)道一致。這可能是因?yàn)楦唢L(fēng)險(xiǎn)胸腺瘤惡性程度更高,腫瘤細(xì)胞的異形性更大,腫瘤細(xì)胞向不同方向區(qū)域增殖速率差異也更明顯,所以易導(dǎo)致腫瘤形態(tài)不規(guī)則[12]。既往多項(xiàng)研究均顯示,高風(fēng)險(xiǎn)胸腺瘤易侵犯周圍脂肪、胸膜、血管,導(dǎo)致邊界不清[13-15],本研究同樣發(fā)現(xiàn)高風(fēng)險(xiǎn)組周圍侵犯的比例明顯高于低風(fēng)險(xiǎn)組。CT 強(qiáng)化程度能夠反映腫瘤的血供特點(diǎn),本研究低風(fēng)險(xiǎn)組明顯強(qiáng)化的比例顯著高于高風(fēng)險(xiǎn)組(40.7%vs.20.8%),單因素與多因素Logistic 分析強(qiáng)化程度是預(yù)測(cè)胸腺瘤高風(fēng)險(xiǎn)的的保護(hù)因素(OR<1),與既往相關(guān)研究結(jié)果一致[16],可能是因?yàn)锳 型與AB 型胸腺瘤的腫瘤細(xì)胞一般呈短梭形或紡錘形,通常排列為血管外皮瘤樣或微囊樣[17]。多因素Logistic 分析腫瘤邊界并非預(yù)測(cè)胸腺瘤高風(fēng)險(xiǎn)的獨(dú)立影響因素,可能是因?yàn)槟[瘤邊界在預(yù)測(cè)中有一定價(jià)值,但價(jià)值有限。
深度學(xué)習(xí)的優(yōu)勢(shì)在于其神經(jīng)網(wǎng)絡(luò)有多層結(jié)構(gòu),可以自動(dòng)學(xué)習(xí)層次豐富的特征。本研究選擇ResNet-101 作為DL 特征提取的基礎(chǔ)模型,因?yàn)樵撃P陀?01 層,能夠提取到足夠豐富的特征用于分類。機(jī)器學(xué)習(xí)屬于人工智能范疇,在醫(yī)學(xué)研究領(lǐng)域已廣泛應(yīng)用[18-20],本研究通過 LR、RF、DT 及SVM 機(jī)器學(xué)習(xí)算法分別建模,結(jié)果模型效能均>0.8,分類結(jié)果均比較理想,進(jìn)一步通過Delong 檢驗(yàn)發(fā)現(xiàn)在本研究中RF 模型效能要弱于LR 與DT 模型,其余模型效能比較均無顯著性差異。Xiao 等[21]研究利用影像組學(xué)列線圖預(yù)測(cè)胸腺瘤亞型,但僅使用 LR 模型構(gòu)建聯(lián)合影像組學(xué)列線圖,并未分析其他機(jī)器學(xué)習(xí)模型的價(jià)值。Kayi等[22]選擇了4 種機(jī)器學(xué)習(xí)模型區(qū)分低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)胸腺瘤,但未進(jìn)一步探索聯(lián)合影像組學(xué)列線圖的價(jià)值。本研究不僅分析并比較了4 種機(jī)器學(xué)習(xí)模型的價(jià)值,還基于LR 模型構(gòu)建聯(lián)合影像組學(xué)列線圖將模型可視化,此外,本研究相較于既往研究還增加了外部驗(yàn)證,進(jìn)一步提高了本研究的臨床價(jià)值。
為了量化預(yù)測(cè)準(zhǔn)確性的相對(duì)改進(jìn),本研究引入了NRI,結(jié)果顯示聯(lián)合影像組學(xué)模型相較于Radscore 的NRI 均為正,且相對(duì)于0 差異均具有統(tǒng)計(jì)學(xué)意義,這說明Radscore 在加入影像學(xué)模型后效能有改善。既往分析模型的效能多是計(jì)算模型的AUC,但AUC 具有一定的局限性,首先AUC 不夠敏感,其次AUC 的意義不太容易理解,很難轉(zhuǎn)化為恰當(dāng)?shù)呐R床解釋,而NRI 很好的克服了這些不足。目前,國內(nèi)研究NRI 的應(yīng)用較少,但國外相關(guān)報(bào)道并不少見[23]。
本研究存在以下不足之處:1)為回顧性分析,可能存在選擇偏倚;2)患者使用多種CT 設(shè)備進(jìn)行圖像采集,機(jī)器的掃描參數(shù)和性能的差異也可能會(huì)對(duì)研究結(jié)果造成一定的影響;3)納入的影像學(xué)特征多為定性特征,定性特征對(duì)觀察者的放射診斷水平依賴性較強(qiáng)。
綜上所述,基于增強(qiáng)CT 深度學(xué)習(xí)影像組學(xué)構(gòu)建的4 種機(jī)器學(xué)習(xí)模型均能夠無創(chuàng)、準(zhǔn)確的實(shí)現(xiàn)胸腺瘤風(fēng)險(xiǎn)分類,進(jìn)一步基于LR 構(gòu)建的聯(lián)合影像組學(xué)列線圖能夠提供個(gè)性化預(yù)測(cè)結(jié)果,為臨床制定治療方案提供參考依據(jù)。
本文無影響其科學(xué)性與可信度的經(jīng)濟(jì)利益沖突。