婁琴,羅顯麗,劉歡,猶露,黃瓊,趙世杰,李邦國*
1.遵義醫(yī)科大學(xué)附屬醫(yī)院放射科,貴州 遵義 563000;2.貴州省第二人民醫(yī)院醫(yī)學(xué)影像科,貴州 貴陽 550001;3. GE 醫(yī)療高級分析團隊,上海 200000;4.遵義醫(yī)科大學(xué)附屬醫(yī)院病理科,貴州 遵義 563000;5.西北工業(yè)大學(xué)自動化學(xué)院,陜西西安 710072;*通信作者 李邦國 lbg2015@163.com
肺癌是全球發(fā)生率和死亡率最高的癌癥[1]。非小細胞肺癌(non-small cell lung cancer,NSCLC)約占肺癌的85%,肺腺癌是其最常見的組織學(xué)亞型[2]。不同基因突變是各型肺癌發(fā)病和演變的基礎(chǔ),因此肺癌治療已進入針對特異性基因或蛋白的個體化分子靶向精準治療階段。腫瘤分子靶向治療依據(jù)個體的驅(qū)動基因進行針對治療,療效顯著且有良好的安全性,可有效改善患者的生活質(zhì)量及延長無進展生存期[3-4],已成為最受關(guān)注的治療方法之一[5]。
在肺腺癌的基因突變中,表皮生長因子受體(epidermal growth factor receptor,EGFR)突變是最常見的類型[6],其靶向藥物研究也是眾多靶向基因中最為成熟的,而獲得準確的分子表型是指導(dǎo)分子靶向治療的前提。基于CT傳統(tǒng)機器學(xué)習(xí)的影像組學(xué)模型已顯示出對EGFR突變狀態(tài)的預(yù)測價值,還需更先進的影像組學(xué)方法提高EGFR突變狀態(tài)的預(yù)測性能[7]。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是多層前饋神經(jīng)網(wǎng)絡(luò),其接受3D圖像作為輸入,可以在學(xué)習(xí)高度判別性圖像特征的同時以監(jiān)督的方法進行端到端訓(xùn)練[8]。因此,本研究對比分析基于CT傳統(tǒng)機器學(xué)習(xí)的影像組學(xué)模型和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型對肺腺癌EGFR基因突變的預(yù)測效能,旨在為肺癌治療方案的選擇提供支持。
1.1 研究對象 回顧性收集遵義醫(yī)科大學(xué)附屬醫(yī)院2018年10月—2020年11月經(jīng)病理證實為肺腺癌且有EGFR基因檢測結(jié)果和薄層胸部CT掃描(1 mm或1.25 mm)的173例患者。男75例,女98例,年齡31~79歲,平均(58±10)歲,按7∶3隨機分層抽樣分為訓(xùn)練集122例、驗證集51例。納入標準:①具備EGFR基因突變檢測結(jié)果;②腫瘤病理標本獲取時間與胸部CT檢查時間不超過1個月;③CT圖像資料完整;④臨床資料完整,包括性別、年齡、吸煙史及臨床TNM分期等。排除標準:①術(shù)前行抗腫瘤治療(放療、化療或放化療);②CT圖像難以辨別腫瘤邊界;③CT圖像質(zhì)量差,無法進行圖像分割與特征提取。本研究經(jīng)遵義醫(yī)科大學(xué)附屬醫(yī)院醫(yī)學(xué)倫理委員會審批通過(KLLY-2020-058),豁免患者知情同意。
1.2 CT檢查及圖像分割 采用Siemens Somatom Sensation AS128或Siemens Somatom Definition Flash雙源CT行胸部CT掃描。受檢者取仰臥位,雙手上舉,吸氣末屏氣后掃描,掃描范圍從肺尖至肺底,包括兩側(cè)胸壁、腋窩。CT掃描及圖像重建參數(shù):管電壓120 kV,自動管電流,螺距0.6~1.2,常規(guī)圖像層厚8~10 mm,薄層圖像層厚1.0 mm,肺窗窗寬1 500~1 800 Hu、窗位-600~-500 Hu,縱隔窗窗寬250~350 Hu、窗位40~50 Hu,標準算法重建。
使用GE Lung Intelligence Kit 2.3.0軟件,首先對圖像進行重采樣及去噪等預(yù)處理,使圖像在3個解剖方向上像素間距均為1.0 mm。然后在肺窗上標注腫瘤病灶的感興趣區(qū)(ROI)(圖1),盡量避開其中的血管、支氣管、胸膜組織及周圍不張的肺組織,以獲得腫瘤的三維定量特征。由2名具有7年、10年胸部影像診斷經(jīng)驗的主治、副主任醫(yī)師采用盲法分別完成圖像標注,產(chǎn)生分歧時協(xié)商解決;并隨機抽取50例數(shù)據(jù)進行二次標注,評估觀察者間的一致性。
圖1 女,42歲,肺腺癌。CT示病灶位于右肺上葉(箭),A.肺窗軸位病灶原圖;B.病灶區(qū)放置ROI;C.ROI三維圖
1.3 特征提取 腫瘤CT形態(tài)學(xué)特征分析:由2位高年資放射科醫(yī)師分別獨立使用CT薄層圖像對腫瘤最大直徑、分葉征、毛刺征、胸膜凹陷征等進行分析、記錄,產(chǎn)生分歧時經(jīng)討論達成一致。
使用Lung Intelligence Kit軟件,嚴格參照圖像標志物標準倡議[9]進行組學(xué)特征提取。每個病變共提取1 037個組學(xué)特征,包括基于一階直方圖特征、描述腫瘤形態(tài)的形態(tài)特征及描述腫瘤內(nèi)部和表面紋理的灰度共生矩陣、灰度游程矩陣、灰度區(qū)域大小矩陣、鄰域灰度差異矩陣、灰度依賴矩陣等紋理特征,以及圖像變換特征、小波變換和拉普拉斯變換特征。
1.4 特征篩選及建模 按照7∶3對特征數(shù)據(jù)進行隨機分層抽樣分組。特征篩選前首先通過組內(nèi)相關(guān)系數(shù)(ICC)評估觀察者間的差異,ICC>0.8為重復(fù)性較好;然后對異常值特征采用中值替代,并進行Z-score標準化處理。然后分別采用最小冗余最大相關(guān)算法(minimum redundancy maximum relevance,mRMR)及最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)算法篩選得到最具有顯著性預(yù)測潛力的特征。通過邏輯回歸算法及深度神經(jīng)網(wǎng)絡(luò)(圖2)分別構(gòu)建模型,并使用受試者工作特征(ROC)曲線及曲線下面積(AUC)比較模型效能,聯(lián)合臨床建立諾模圖。模型擬合優(yōu)度使用Hosmer-Lemeshow檢驗測試。1.5 統(tǒng)計學(xué)分析 采用R 3.6.0(https://www.r-project.org/)軟件。計數(shù)資料用例數(shù)或百分比表示,采用χ2檢驗;非正態(tài)分布的計量資料以M(Q1,Q3)表示,采用Mann-WhitneyU檢驗。使用單變量及多變量Logistic回歸分析肺腺癌患者EGFR突變的獨立預(yù)測因子。LASSO降維通過glmnet實現(xiàn),最小冗余最大相關(guān)算法通過mRMR完成。深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建主要通過mxnet包構(gòu)建,學(xué)習(xí)率0.005,批大小5,訓(xùn)練次數(shù)250次。P<0.05為差異有統(tǒng)計學(xué)意義。
圖2 深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.1 一般資料 訓(xùn)練集及驗證集患者性別、吸煙史、分葉征、毛刺征、空氣支氣管征、腫瘤最大直徑等比較,差異無統(tǒng)計學(xué)意義(P>0.05),見表1。
表1 肺腺癌患者訓(xùn)練集和驗證集的臨床特征、CT形態(tài)學(xué)特征比較
2.2 臨床資料和CT形態(tài)學(xué)特征的Logistic回歸分析通過單變量Logistic回歸分析后將P<0.1的變量(表2)(性別、吸煙史、空氣支氣管征及腫瘤最大直徑)納入多變量Logistic回歸分析并建立臨床模型。結(jié)果顯示男性發(fā)生EGFR突變的概率是女性的0.243倍。性別(女=0,男=1):OR=0.243(95%CI0.103~0.460),P<0.001;空氣支氣管征(無=0,有=1):OR=3.358(95%CI0.829~22.744),P=0.132。
表2 肺腺癌患者EGFR突變預(yù)測因子的單因素分析
2.3 影像組學(xué)特征篩選及建模 每個病灶共提取了1 037個組學(xué)特征,保留ICC≥0.8的組學(xué)特征729個;再經(jīng)過mRMR篩選后保留30個特征,通過十折交叉算法和LASSO回歸對特征進行降維、篩選,最終保留9個顯著性特征(圖3),按圖像預(yù)處理方式分類,包括7個小波濾波預(yù)處理圖像特征和2個拉普拉斯濾波預(yù)處理圖像特征;按特征類型分類,包括3個一階特征和6個紋理特征。
圖3 LASSO回歸篩選進行十折交叉驗證示意圖(A)與變量系數(shù)壓縮過程(B)
訓(xùn)練集中EGFR野生型、EGFR突變型組學(xué)評分與驗證集比較,差異均有統(tǒng)計學(xué)意義(P<0.05,圖4)。因此,影像組學(xué)評分Rad-score為肺腺癌EGFR基因突變的獨立預(yù)測因子。
圖4 訓(xùn)練集(A)與驗證集(B)構(gòu)建的Rad-score對EGFR基因狀態(tài)的預(yù)測比較
基于深度學(xué)習(xí)網(wǎng)絡(luò)建模,訓(xùn)練集和驗證集的AUC分別為0.738、0.682,邏輯回歸模型的訓(xùn)練集、驗證集AUC分別為0.730、0.700,兩種模型AUC差異無統(tǒng)計學(xué)意義(Z=0.564,P=0.573),但均能對肺腺癌患者EGFR突變有良好的預(yù)測能力。本研究選擇簡單的邏輯回歸模型和臨床顯著性指標進行聯(lián)合,訓(xùn)練集AUC為0.840(95%CI0.76~0.91),驗證集AUC為0.710(95%CI0.53~0.88)。聯(lián)合模型的效能高于臨床模型及影像組學(xué)模型(圖5)。
圖5 不同模型預(yù)測EGFR突變的ROC曲線。A.基于深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建影像組學(xué)模型在訓(xùn)練集及驗證集中的效能;B、C.基于邏輯回歸模型構(gòu)建的臨床、影像組學(xué)及聯(lián)合模型在訓(xùn)練集與驗證集中的效能
對聯(lián)合模型構(gòu)建預(yù)測每例患者肺腺癌EGFR突變的諾模圖(圖6A)。為進一步對諾模圖的預(yù)測準確度進行校正,分別在訓(xùn)練集及驗證集中繪制校準曲線(圖6B、C),擬合優(yōu)度良好,通過Hosmer-Lemeshow檢驗進行驗證,P=0.4991,諾模圖預(yù)測的突變概率與實際突變概率的一致性較好。
圖6 A.聯(lián)合模型諾模圖;B、C分別表示訓(xùn)練集和驗證集中用于預(yù)測EGFR突變概率的諾模圖的校準曲線,x軸代表諾模圖預(yù)測的突變概率,y軸代表實際的突變概率
3.1 臨床特征與肺腺癌EGFR基因突變的關(guān)系 李淑華等[10]研究表明女性及無吸煙史是肺腺癌患者EGFR基因突變的預(yù)測因素。軒昂等[11]研究顯示突變型組女性、無吸煙史、有血管集束征等多于野生型組。王紫君等[12]也發(fā)現(xiàn)EGFR基因突變更易發(fā)生于女性患者。本研究結(jié)果顯示與EGFR野生型相比,EGFR突變型肺腺癌更多地發(fā)生于女性、不吸煙的患者,與上述研究一致,關(guān)于其發(fā)生機制目前尚無明確原因。盡管相關(guān)研究提供了EGFR基因突變的臨床表征信息,但偏重于定性研究,且目前仍無可靠的臨床特征可以準確預(yù)測EGFR基因突變狀態(tài)。Liu等[13]通過對385例手術(shù)切除的肺腺癌分析,結(jié)果顯示EGFR突變與毛刺征、空氣支氣管征、空泡征、血管集束征、胸膜凹陷征等征象有關(guān)。而本研究顯示EGFR基因突變僅與空氣支氣管征有關(guān),表明肺腺癌患者EGFR突變與胸部CT形態(tài)學(xué)特征關(guān)系的研究易受閱片醫(yī)師的資歷水平及主觀意識影響。盡管上述研究提供了EGFR基因突變的臨床表征信息,但目前尚無可以準確預(yù)測EGFR基因突變狀態(tài)的可靠臨床特征。
3.2 影像組學(xué)特征與肺腺癌EGFR基因突變的關(guān)系本研究表明影像組學(xué)特征訓(xùn)練集和驗證集肺腺癌EGFR基因突變狀態(tài)的Rad-score比較有顯著差異,影像組學(xué)特征在預(yù)測肺腺癌EGFR基因突變方面具有良好的效能,與文獻報道[14-15]一致,表明影像組學(xué)特征對預(yù)測肺腺癌EGFR突變有重要意義。
3.3 影像組學(xué)模型、臨床模型及聯(lián)合模型對肺腺癌EGFR基因突變的預(yù)測效能 Dang等[16]與陳琦等[17]研究顯示影像組學(xué)特征預(yù)測效能優(yōu)于臨床特征或影像學(xué)特征,三者聯(lián)合構(gòu)建的模型預(yù)測效能最高,與本研究一致。本研究建立的組學(xué)模型對EGFR基因突變的預(yù)測效能高于臨床模型,而聯(lián)合模型的效能高于單獨的臨床模型和影像組學(xué)模型,高于Wu等[18]與Hong等[19]研究的預(yù)測效果。Liu等[20]研究預(yù)測EGFR的突變狀態(tài)準確度為75.5%,AUC為0.73;Zhang等[21]研究的準確度為75.6%;本研究得出準確度為78.6%,對于EGFR基因突變預(yù)測的準確度還需進一步研究,提升預(yù)測效能,為臨床決策提供支持。此外,楊蕾等[22]對210例肺腺癌患者胸部增強CT圖像的動脈期和靜脈期分別進行ROI勾畫及特征提取,并建立預(yù)測模型,在訓(xùn)練集和驗證集中AUC分別為0.89及0.79,得出基于增強CT影像組學(xué)特征建立的模型對肺腺癌間變性淋巴瘤激酶基因突變狀態(tài)有較好的預(yù)測價值。而本研究受病例數(shù)量的限制,未行間變性淋巴瘤激酶基因突變及增強CT圖像研究。
3.4 本研究的局限性 樣本量相對較小且為單中心研究;僅對胸部CT平掃圖像進行特征提取,缺少增強圖像;僅針對EGFR基因突變狀態(tài)進行分析,后續(xù)納入其他基因突變的研究,如間變性淋巴瘤激酶、KRAS、RET基因等。
總之,基于機器學(xué)習(xí)和深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建組學(xué)模型均能較好地預(yù)測肺腺癌EGFR基因突變,有較好的應(yīng)用價值,提供了一種新的定量分析方法。
利益沖突 所有作者均聲明不存在利益沖突