黃錦祥,陳杰云
非小細胞肺癌(non-small cell lung cancer,NSCLC)是肺癌中最常見的病理學(xué)類型,發(fā)病率約占80%~85%[1],因癥狀不明顯和篩查方法缺乏,約75%的患者確診時就已屬于晚期[2],顱腦轉(zhuǎn)移是肺癌患者致死的主要因素之一[3]。表皮生長因子受體(epithelial growth factor receptor, EGFR)與腫瘤的衍生、增殖和凋亡密切相關(guān)[4],相比于EGFR 野生型,酪氨酸激酶抑制劑(tyrosine kinase inhibitors, TKIs)對突變型患者療效更卓越,可顯著提高患者存活率[5],EGFR 突變狀態(tài)在NSCLC 腦轉(zhuǎn)移患者的整體預(yù)后和指導(dǎo)靶向治療中扮演著重要角色。
病理活檢可能因腫瘤的異質(zhì)性、發(fā)病部位、身體狀況及主觀意愿等原因難以進行確診。傳統(tǒng)影像學(xué)是肺癌的診斷、分期、療效評價方面的首要檢查手段。有研究表明EGFR 突變型腦轉(zhuǎn)移瘤較EGFR 野生型更多表現(xiàn)為多發(fā),瘤周水腫和強化程度更輕[6],但傳統(tǒng)影像學(xué)特征存在主觀性、半定量的局限性。影像組學(xué)相比于傳統(tǒng)影像學(xué),可以客觀、全面地挖掘影像圖像中人眼所不能感知的高通量特征,建立包括腫瘤的診斷、預(yù)測和分子分型等模型[7-8]。目前關(guān)于影像組學(xué)與NSCLC 的EGFR 基因突變相關(guān)性的研究主要集中在原發(fā)病灶的CT影像組學(xué)方向[9],然而晚期的原發(fā)灶常常合并肺炎導(dǎo)致難以勾畫感興趣容積(volume of interest, VOI)[10],且CT 影像組學(xué)特征受標準化CT 掃描參數(shù)如切面厚度等影響[11],使用非侵入性的MRI 影像組學(xué)來預(yù)測原發(fā)灶EGFR 突變狀態(tài)是必要的,目前相關(guān)研究還較少。JIANG 等[12]基于多參數(shù)脊柱MRI 的影像組學(xué)方法術(shù)前預(yù)測肺腺癌EGFR突變狀態(tài),但MRI脊柱轉(zhuǎn)移瘤的勾畫缺乏自動或半自動分割方法,導(dǎo)致勾畫VOI時容易產(chǎn)生主觀性誤差且煩瑣耗時。因此本研究探討NSCLC 腦轉(zhuǎn)移瘤MRI 影像組學(xué)在預(yù)測原發(fā)灶EGFR 突變狀態(tài)的應(yīng)用,使用半自動方法勾畫VOI,建立準確預(yù)測EGFR突變狀態(tài)的影像組學(xué)模型,并通過影像組學(xué)中未參與建模的測試組數(shù)據(jù)對預(yù)測模型效能進行評估,提高預(yù)測的準確性和模型的穩(wěn)定性,幫助臨床醫(yī)生做出更準確的診斷和更合理的個體化治療方案。
本研究遵守《赫爾辛基宣言》,經(jīng)福建醫(yī)科大學(xué)附屬泉州市第一醫(yī)院醫(yī)學(xué)倫理委員會批準,免除受試者知情同意,編號:2021-231?;仡櫺苑治?015年9 月至2021 年11 月泉州市第一醫(yī)院97 例NSCLC(91 例為腺癌,6 例為鱗癌)腦轉(zhuǎn)移患者的頭顱MRI 影像資料,EGFR突變型50例(17例外顯子19缺失突變、33 例21 L858R 點突變),EGFR 野生型47 例,男65 例,女32例,年齡62.00±11.66(41~85)歲,所有病例按照8∶2 比例隨機分組至訓(xùn)練組和測試組。納入標準:(1)患者治療前行常規(guī)頭顱MRI平掃和增強掃描;(2)病理證實為NSCLC,并行聚合酶鏈式反應(yīng)(polymerase chain reaction, PCR)檢測EGFR 基因結(jié)果;(3)圖像質(zhì)量滿足診斷要求,腦轉(zhuǎn)移瘤數(shù)目≤10 個;(4)病灶最大層面直徑需≥5 mm,以免病灶太小影響分割。排除標準:患者影像資料不全。
掃描機器為德國SIEMENS Avanto 1.5 T 超導(dǎo)MRI掃描儀,增強掃描包括橫斷位、冠狀位及矢狀位圖像,用常規(guī)頭顱線圈掃描,所有病例均行常規(guī)T1WI、T2WI、T2 液體衰減反轉(zhuǎn)恢復(fù)(T2 fluid attenuation inversion recovery, T2-FLAIR)序列、擴散加權(quán)成像(diffusion-weighted imaging, DWI)及T1WI 增強掃描,患者取仰臥位。MRI 平掃采用T1WI-SE 和T2WI-TSE序列,T1WI-SE序列掃描參數(shù):TR/TE=1400 ms/8.4 ms,F(xiàn)OV 23 cm×23 cm,平均次數(shù)為1,層厚6 mm,層間距1 cm;T2WI-TSE 序列掃描參數(shù):TR/TE=3330 ms/100 ms,F(xiàn)OV 23 cm×23 cm,平均次數(shù)為2,層厚6 mm,層間距1 cm;T2-FLAIR序列掃描參數(shù):TR/TE=5000 ms/89 ms,F(xiàn)OV 23 cm×23 cm,平均次數(shù)為1,層厚6 mm,層間距1 cm;軸位DWI 采用平面回波掃描,掃描參數(shù):b 值設(shè)定為0 及1000 s/mm2,TR/TE=2900 ms/100 ms,F(xiàn)OV 23 cm×23 cm,層 厚6 mm,層間距1 cm,自動獲得表觀擴散系數(shù)(apparent diffusion coefficient, ADC)圖像;MRI增強掃描序列及參數(shù)與T1WI-SE 序列相同,掃描橫軸位、冠狀位及矢狀位,對比劑采用釓特酸葡胺注射液(江蘇恒瑞醫(yī)藥股份有限公司),注射劑量0.1~0.2 mmol/kg,注射速率1.5 mL/s。
對患者經(jīng)支氣管鏡、經(jīng)皮肺穿刺或手術(shù)活檢病理所獲取的組織標本進行實時熒光PCR基因檢測,采用北京鑫諾美迪公司生產(chǎn)的EGFR基因突變檢測試劑盒,儀器為Mx3000P 熒光定量PCR 分析儀,檢測操作步驟依照試劑盒說明書,將檢測結(jié)果分為EGFR 突變型(突變含量1%~100%)和EGFR 野生型(陰性或低于檢測下限,突變含量<1%)。
選取T1WI 增強橫斷位、冠狀位、矢狀位圖像,在腫瘤各個層面沿腫瘤邊緣采用半自動結(jié)合手動的方法勾畫VOI,不包括腫瘤周圍水腫區(qū),將VOI導(dǎo)入?yún)R醫(yī)慧影公司Radcloud 平臺,按8∶2 比例隨機分為訓(xùn)練組和測試組,為了保證結(jié)果的可重復(fù)性和模型的泛化能力,平臺自動對圖像的體素大小、強度進行歸一化。所有VOI的勾畫由一名具有6年頭顱MRI診斷經(jīng)驗的影像科主治醫(yī)生在不了解患者的臨床信息情況下于3D Slicer軟件上完成,勾畫完成后由一名具有20 年工作經(jīng)驗的主任醫(yī)生檢查所有輪廓,如果差異≥5%,則由高年資影像科醫(yī)生決定腫瘤邊界。
從圖像上所勾畫的每個VOI 中提取1409 個定量影像特征,包括一階統(tǒng)計特征126 個、形狀學(xué)特征14個、紋理特征525個、高階統(tǒng)計特征744個。
特征選擇方法包括方差選擇法(VarianceThreshold)、單變量選擇法(SelectKBest)及最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)。VarianceThreshold留下了方差大于0.8 的特征值;SelectKBest 留下P<0.05 的特征;LASSO 使用L1 正則化器作為成本函數(shù),交叉驗證的誤差值為5,最大迭代次數(shù)為1000。
使用SPSS 25.0 軟件對臨床基線資料進行統(tǒng)計分析。性別以例(%)的形式表示,組間比較采用χ2檢驗,年齡采用±s表示,組間比較采用獨立樣本t檢驗,統(tǒng)計結(jié)果以P<0.05 為差異有統(tǒng)計學(xué)意義。本研究采用支持向量機(support vector machines,SVM)、邏輯回歸(logistic regression, LR)2種分類器構(gòu)建影像組學(xué)預(yù)測模型,并利用訓(xùn)練組5折交叉驗證提高模型的有效性。通過對各模型的受試者工作特征(receiver operating characteristic, ROC)曲線進行評估預(yù)測效能,得出最優(yōu)模型,通過DeLong檢驗分析各模型間的差異性(流程見圖1)。
圖1 技術(shù)路線流程。Fig.1 Technical route process.
97 例NSCLC 腦 轉(zhuǎn) 移 患 者 中,EGFR 突 變 型50 例(51.50%),包括17 例外顯子19 缺失突變、33 例21 L858R 點突變,EGFR 野生型47 例(48.50%)。在訓(xùn)練組中,女性EGFR 基因突變率(81.48%,22/27)遠大于男性 EGFR 基因突變率(35.29%,18/51),差異有統(tǒng)計學(xué)意義(P<0.001)。而年齡在EGFR突變型與野生型中差異無統(tǒng)計學(xué)意義(P>0.05)(表1)。
表1 訓(xùn)練組臨床基線特征與EGFR(突變型、野生型)的關(guān)系Tab.1 Relationship between clinical baseline characteristics and EGFR (mutant, wild type) in the training group
基于T1WI增強橫斷位、冠狀位、矢狀位及聯(lián)合序列圖像分析,使用VarianceThreshold、SelectKBest、LASSO降維和篩選,最后分別得出7、12、10、13個最優(yōu)特征(圖2)。
圖2 最小絕對收縮和選擇算子(LASSO)的圖像特征和相關(guān)系數(shù)。2A:T1WI 增強橫斷位;2B:T1WI 增強冠狀位;2C:T1WI增強矢狀位;2D:聯(lián)合序列。Fig.2 Image features and correlation coefficients for least absolute shrinkage and selection operator (LASSO).2A: T1WI enhanced transverse; 2B: T1WI enhances coronal position; 2C: T1WI enhanced sagittal position; 2D: Joint sequence.
降維、篩選后的特征使用SVM、LR分類器建模,結(jié)果顯示:基于T1WI增強橫斷位、冠狀位、矢狀位的SVM和LR 分類器模型預(yù)測效果表現(xiàn)優(yōu)良,大部分AUC 均大于0.60,且聯(lián)合模型預(yù)測效能AUC較單序列模型均有提升,其中聯(lián)合序列LR分類器預(yù)測效能最佳:測試組AUC 0.84,敏感度80%,特異度78%,準確率80%。(表2、3,圖3)。DeLong 檢驗顯示聯(lián)合序列AUC 與單序列差異均無統(tǒng)計學(xué)意義(P>0.05)(表4、5)。
表2 SVM模型在訓(xùn)練組與測試組中的預(yù)測效能Tab.2 The predictive performance of SVM models in the training and test groups
表3 LR模型在訓(xùn)練組與測試組中的預(yù)測效能Tab.3 The predictive performance of LR models in the training and test groups
表4 測試組SVM分類器聯(lián)合序列和單序列預(yù)測效能DeLong檢驗結(jié)果Tab.4 The results of the DeLong test of the combined sequence and single sequence prediction performance of the SVM classifier
表5 測試組LR分類器聯(lián)合序列和單序列預(yù)測效能DeLong檢驗結(jié)果Tab.5 The results of the DeLong test of the combined sequence and single sequence prediction performance of the LR classifier
圖3 測試組的支持向量機(SVM)、邏輯回歸(LR)分類器的受試者工作特征(ROC)曲線。3A:SVM 分類器的T1WI增強橫斷位(Tra)模型、冠狀位(Cor)模型、矢狀位(Sag)模型和聯(lián)合模型;3B:LR分類器的T1WI增強橫斷位(Tra)模型、冠狀位(Cor)模型、矢狀位(Sag)模型和聯(lián)合模型。AUC:曲線下面積。Fig.3 The receiver operating characteristic (ROC) curves of support vector machines (SVM) and logistic regression (LR) classifiers in the test group.3A: T1WI enhanced transverse (Tra), coronal (Cor), sagittal (Sag)and joint models using SVM classifiers; 3B: T1WI enhanced Tra, Cor, Sag and joint models using LR classifiers.AUC: area under the curve.
本研究對97例NSCLC腦轉(zhuǎn)移瘤的T1WI增強橫斷位、冠狀位、矢狀位影像組學(xué)特征進行降維、篩選,使用SVM 和LR 分類器建立模型,結(jié)果顯示基于T1WI 增強橫斷位、冠狀位、矢狀位及聯(lián)合序列均取得了良好預(yù)測效能,雖然各模型間差異無統(tǒng)計學(xué)意義,但聯(lián)合序列AUC較單序列有所提升,說明聯(lián)合序列模型預(yù)測效能優(yōu)于單序列。本研究創(chuàng)新性地通過腦轉(zhuǎn)移瘤MRI影像組學(xué)來預(yù)測原發(fā)灶的基因突變類型,T1WI增強上腦轉(zhuǎn)移瘤邊界顯示清晰,使用半自動分割方法降低勾畫難度并提高魯棒性,減少人眼判斷的主觀性限制,聯(lián)合多序列并使用不同分類器建立模型,幫助臨床醫(yī)生通過模型快速準確地預(yù)測EGFR突變的類型,指導(dǎo)臨床個性化的靶向治療。
以往有研究表明EGFR突變型肺癌較野生型的紋理更細膩,灰度整體分布更規(guī)律[13],但也有研究發(fā)現(xiàn)病灶紋理紊亂程度越大,越趨于EGFR 突變型[14],矛盾原因可能是樣本量和種族差異,肺腺癌中白種人和東亞人EGFR突變率分別為20%和40%[15]。本研究中預(yù)測效能最佳的聯(lián)合T1WI橫斷位、冠狀位、矢狀位模型篩選出的影像組學(xué)特征包括一階特征(幅度、峰度、偏度)、灰度共生矩陣(簇突)、灰度大小區(qū)域矩陣(小區(qū)域高灰度重點)、灰度游程長度矩陣(長游程高灰度重點、長游程低灰度重點)、灰度依賴矩陣(依賴熵)、鄰近灰度差矩陣(粗糙度),與WANG等[16]和PARK等[17-18]的研究篩選出的特征相似。上述特征描述的是腫瘤的灰度強度及分布情況、體素及其周圍空間鄰域的分布狀態(tài),可反映腫瘤的異質(zhì)性大小[19-20],其中最具相關(guān)性的是峰度和小區(qū)域高灰度強調(diào)。峰度反映圖像灰度峰尖的尖度,值越大灰度分布越陡峭,值越小則灰度分布越平坦。本研究中EGFR突變型的峰度大于野生型,表明突變型的NSCLC腦轉(zhuǎn)移瘤的灰度分布更陡峭,這與DIGUMARTHY 等[21]的發(fā)現(xiàn)相符合,他們還認為峰度有預(yù)示血管生成的作用,而血管生成跟腫瘤侵襲性、預(yù)后有關(guān),因此峰度可能是評價EGFR突變陽性患者抗血管生成藥物療效的指標之一,小區(qū)域高灰度重點是測量圖像小區(qū)域高灰度體素分布的程度,值越大圖像紋理越細膩,反之紋理越粗糙,本研究中EGFR 突變型的小區(qū)域高灰度重點小于野生型,可理解為EGFR 突變型的NSCLC 腦轉(zhuǎn)移瘤比野生型的紋理更紊亂、粗糙??偠灾?,EGFR 突變型比野生型灰度分布更陡峭、更不均,紋理更紊亂、更粗糙,原因可能是EGFR突變更容易導(dǎo)致腫瘤內(nèi)部血管生成,引起腫瘤內(nèi)部微觀結(jié)構(gòu)的改變。本研究的T1WI增強冠狀位模型篩選出一個形態(tài)學(xué)特征——最大2D直徑,說明EGFR突變型腦轉(zhuǎn)移瘤冠狀位的最大徑小于EGFR野生型,HSIAO等[22]發(fā)現(xiàn)EGFR突變與肺部CT病灶體積較小有關(guān),YIP 等[14]亦發(fā)現(xiàn)EGFR 突變與組學(xué)特征緊密性2 密切相關(guān),緊密性2 是描述腫瘤形狀相較于球體的緊實程度的,其認為EGFR突變型的瘤體更小,內(nèi)部排列更緊密。遺憾的是,本研究中還有許多影像組學(xué)特征與EGFR基因突變狀態(tài)的關(guān)系尚不明朗,難以通過現(xiàn)有的原理解釋清楚,有待后續(xù)具體深入研究。
既往亦有許多基于T1WI增強橫斷位、冠狀位、矢狀位的影像組學(xué)研究,YANG 等[23]研究了紋理分析在預(yù)測膠質(zhì)母細胞瘤的分子亞型和12個月生存狀態(tài)方面的性能,結(jié)果表明橫斷位對經(jīng)典型預(yù)測最佳,冠狀位對前神經(jīng)型及12個月生存狀態(tài)最具預(yù)測效能。有研究探討基于T1WI 增強(橫斷位、矢狀位)的深度學(xué)習模型在鑒別高、低級別腦膜瘤中的應(yīng)用價值,共篩選出15 個特征(10 個來自橫斷位,5 個來自矢狀位),最佳模型的訓(xùn)練組和測試組AUC 分別為0.988 和0.935[24]。本研究T1WI 增強三個方位單序列模型中,冠狀位和矢狀位的預(yù)測效果大部分均好于橫斷位,原因可能是大部分數(shù)據(jù)的冠狀位和矢狀位增強掃描時間稍晚于橫斷位,增強延遲掃描能顯示更清晰、更豐富的信息[25],有待后續(xù)進一步納入延遲T1WI 增強橫斷位序列以驗證該猜想。
與單序列相比,多序列聯(lián)合分析可能會發(fā)掘出更多相互獨立又互補的信息,對于提升腫瘤的生物學(xué)行為的預(yù)測效能具有積極意義。李順等[26]結(jié)合T1WI 增強三個平面的紋理特征鑒別腦膿腫與膠質(zhì)母細胞瘤,當紋理特征峰度的截斷值取0.207時效果最好,AUC、敏感度和特異度分別為0.754、88.0%和54.1%。李笑然等[27]分別基于T1WI、T2WI、T2WI 抑脂序列及聯(lián)合以上序列,構(gòu)建樸素貝葉斯模型預(yù)測宮頸鱗癌的病理組織類型,聯(lián)合模型在四種模型中預(yù)測效能最高,測試組AUC 為0.860。本研究中的聯(lián)合序列LR模型預(yù)測效能最佳,訓(xùn)練組AUC、敏感度、特異度和準確率分別為0.86、74%、75%和76%,測試組分別為0.84、80%、78%和80%,但與單序列模型相比,差異并不是很顯著,還存在進一步探索的空間。過多序列聯(lián)合建模有過擬合和魯棒性減弱的風險,實際應(yīng)用中應(yīng)視具體情況而定,本研究依次使用VarianceThreshold、SelectKBest和LASSO共3種特征篩選方法,以及5折交叉驗證來盡量避免上述的風險。
本研究應(yīng)用了LR、SVM兩種分類器,其中聯(lián)合序列的LR 分類器預(yù)測效能最佳,測試組AUC 為0.84,敏感度80%,特異度78%,準確率80%。每個分類器都有各自的特點,如LR通過擬合變量系數(shù)來預(yù)測二分類概率的分對數(shù)轉(zhuǎn)換,有較準確和穩(wěn)定的預(yù)測能力;SVM通過尋找超平面來劃分不同類別的樣本,能夠解決高維問題,可擴展性較好,且不依賴于整個樣本數(shù)據(jù),即使訓(xùn)練樣本的數(shù)量很少,其學(xué)習算法也能夠具有良好的泛化以及分類能力[28]。目前還沒有被廣泛認可的最佳分類器,因為在實際應(yīng)用中,結(jié)果表現(xiàn)好的分類器,可能在某些方面效果不佳,而效能較弱的分類器可能在別的特定問題中表現(xiàn)較優(yōu),如YANG等[23]用隨機森林分類器研究T1WI 增強和T2-FLAIR 的紋理特征預(yù)測高級別膠質(zhì)瘤的分子亞型,結(jié)果T1WI 增強對經(jīng)典型預(yù)測最佳(AUC=0.72),T2-FLAIR 對間質(zhì)型和神經(jīng)元型預(yù)測最佳(AUC 分別為0.70 和0.75),而CHEN 等[29]聯(lián)合T1WI 增強和T2-FLAIR 序列,采用隨機森林分類器預(yù)測肺癌腦轉(zhuǎn)移瘤的EGFR、ALK、KRAS 基因突變狀態(tài),AUC 值分別達到0.858、0.845 和0.928。也有研究納入多種分類器分析,用以評價模型對于數(shù)據(jù)和結(jié)果的適用性,AHN 等[30]和REN 等[31]分別研究腦轉(zhuǎn)移瘤和胸椎轉(zhuǎn)移瘤的增強T1WI 影像組學(xué)預(yù)測肺癌EGFR 突變狀態(tài)的價值,均運用了多個分類器建模,前者預(yù)測能力最強的分類器是隨機森林(AUC=0.868),后者的是LR(AUC=0.803)。故在實際情況下,應(yīng)具體問題具體分析,盡可能納入多種分類器以探索最佳的分類器,達到更滿意的預(yù)測或診斷效果。
本研究仍存在一定的局限性。首先,本研究為回顧性研究,樣本量過小且來自單一機構(gòu),后續(xù)應(yīng)納入更大、更多中心、更多序列的樣本。其次,本研究中只納入了突變型與野生型,沒有進一步分析突變亞型的預(yù)測價值,且所提取的影像組學(xué)特征與EGFR突變的關(guān)系尚不明朗,將來應(yīng)進一步研究突變亞型之間的預(yù)測和分析具體影像組學(xué)特征的關(guān)系。最后,本研究應(yīng)用的降維方法、分類器種類較少,今后爭取采用更多降維方法及分類器種類,增加模型的穩(wěn)定性。
綜上所述,基于T1WI 增強橫斷位、冠狀位、矢狀位的影像組學(xué)模型可以預(yù)測EGFR 突變狀態(tài),聯(lián)合T1WI增強橫斷位、冠狀位、矢狀位的LR分類器模型預(yù)測效能最佳,有助于指導(dǎo)臨床合理選擇靶向藥物治療及實現(xiàn)個體化精準醫(yī)學(xué)。
作者利益沖突聲明:全體作者均聲明無利益沖突。
作者貢獻聲明:陳杰云設(shè)計本研究的方案,對稿件重要內(nèi)容作批評性審閱、修改,獲得了福建省自然科學(xué)基金的資助;黃錦祥起草和撰寫稿件,獲取、分析和解釋本研究的數(shù)據(jù);全體作者都同意發(fā)表最后的修改稿,同意對本研究的所有方面負責,確保本研究的準確性和誠信。