沙永建,王效春,譚艷,張輝,楊國強*
較低級別膠質(zhì)瘤(lower grade gliomas, LGGs)通常指世界衛(wèi)生組織(World Health Organization,WHO)分級為2、3 級的膠質(zhì)瘤。其中,約占全部膠質(zhì)母細胞瘤8.8%~10%的繼發(fā)型是由LGGs 進展而來[1-3]。LGGs 的精準診斷、個體化治療和療效預(yù)后評估均與腫瘤分子分型密切相關(guān)[2]。LGGs 的異檸檬酸脫氫酶突 變(isocitrate dehydrogenase mutation, IDH mut)合并氧6-甲基鳥嘌呤DNA甲基轉(zhuǎn)移酶啟動子甲基化(O6-methylguanine-DNA methyltransferase promoter methylation, MGMT meth)亞型的患者,在異檸檬酸脫氫酶(isocitrate dehydrogenase, IDH)、氧6-甲基鳥嘌呤DNA 甲基轉(zhuǎn)移酶(O6-methylguanine-DNA methyltransferase, MGMT)的所有分子亞型中具有更長的總生存期(overall survival, OS)和(或)無進展生存期(progression free surviva, PFS)[4-5],并從替莫唑胺(temozolomide, TMZ)的治療中獲益[6]。因此,該分子分型的準確預(yù)測具有重要的臨床價值。
目前,膠質(zhì)瘤IDH 和MGMT 分子標記物獲得需采用侵入性的、有創(chuàng)的病理活組織檢查或手術(shù)切除方式得以實現(xiàn),而基于常規(guī)MRI 檢查的影像組學(xué)方法,相比前者,具有無創(chuàng)性、及時性和價格合理等優(yōu)點[7-8]。MRI 檢查可以無創(chuàng)地獲取活體內(nèi)深埋于組織或器官內(nèi)部腫瘤的靜態(tài)結(jié)構(gòu)、動態(tài)功能的多維度和多參數(shù)的圖像,利用計算機圖像處理和大數(shù)據(jù)挖掘的影像組學(xué)方法,發(fā)掘肉眼無法觀察到的紋理、小波等高維度影像特征,從而獲得深層次的映射腫瘤分子標記物的影像組學(xué)標記物[9-12]。
然而,應(yīng)用影像組學(xué)的方法對腦膠質(zhì)瘤分子生物標記物的研究多集中在IDH、MGMT 等單一分子上[13-14]。在多個腫瘤分子標記物結(jié)合作為聯(lián)合預(yù)測因子的研究中,也是根據(jù)2016 年WHO 中樞神經(jīng)系統(tǒng)腫瘤的分子分型,集中在IDH 合并1p/19q 基因型的研究中[15-16]。目前,基于常規(guī)MRI 的影像組學(xué)方法在膠質(zhì)瘤的IDH 合并MGMT 狀態(tài)的分子亞型的研究卻很少涉及。Zhang 等[17]使用自動機器學(xué)習(xí)的放射組學(xué)方法,對膠質(zhì)瘤(WHO 2~4 級)IDH mut 和MGMT meth共同發(fā)生進行預(yù)測研究。這項研究的病例中,WHO 4 級膠質(zhì)瘤占所有被納入研究的膠質(zhì)瘤的51.8%,且該研究中作為對照組的亞型包含更廣。因此,該研究的影像組學(xué)模型的分類性能更側(cè)重于WHO 4 級的膠質(zhì)瘤。而本研究的對象為LGGs,即WHO 2、3級膠質(zhì)瘤,且定義的兩個分子亞型更具針對性。由于LGGs的IDH mut 合并MGMT meth 作為聯(lián)合的預(yù)測因子,預(yù)示著良好的OS 和(或)PFS,并能從TMZ 治療中獲益。因此,本研究探討使用基于MRI 的影像組學(xué)的方法,建立一個用于預(yù)測LGGs 的IDH mut 合并MGMT meth亞型的預(yù)測模型,從而為腦膠質(zhì)瘤的精確診斷、TMZ的臨床決策及生存期預(yù)測提供重要的輔助價值。
本研究回顧性分析來自山西醫(yī)科大學(xué)第一醫(yī)院(The First Hospital of Shanxi Medical University,FHSXMU)、山西省人民醫(yī)院(Shanxi Provincial People'Hospital,SPPH),以及TCGA/TCIA(The Cancer Genome Atlas和The Cancer Imaging Archive)公共數(shù)據(jù)庫(TCGA 中包含了膠質(zhì)瘤患者的臨床和基因信息,網(wǎng)址為:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga,TCIA 中為與TCGA 對應(yīng)的患者影像數(shù)據(jù),網(wǎng)址為:https://www.cancerimagingarchive.net)的447 例 患 者 數(shù)據(jù)。FHSXMU和SPPH數(shù)據(jù)收集通過山西醫(yī)科大學(xué)倫理委員會批準,免除受試者知情同意,批準文號:2019LL101,收集日期為2011 年10 月至2020 年7 月。TCGA/TCIA 數(shù)據(jù)為公用數(shù)據(jù)庫資源,數(shù)據(jù)上傳和下載已獲得華盛頓大學(xué)醫(yī)學(xué)院倫理委員會批準,免除受試者知情同意,批準文號:201108194,TCGA/TCIA 數(shù)據(jù)收集日期為2011 年3 月至2019 年10 月。本研究的納入標準:(1)符合2021 新版WHO 中樞神經(jīng)系統(tǒng)腫瘤分級為2、3 級的膠質(zhì)瘤患者;(2)術(shù)前MRI 圖像包括對比增強后T1 加權(quán)序列(post-contrast enhanced T1-weighted, CE-T1)、T2 加權(quán)流體衰減反轉(zhuǎn)恢復(fù)序列(T2-weighted fluid attenuation inversion recovery, T2-FLAIR),并且序列完整、圖像清晰;(3)完整的IDH和MGMT 分子信息及臨床信息。最終,158 例患者符合納入標準,其中TCGA/TCIA 數(shù)據(jù)集86 例,F(xiàn)HSXMU和SPPH數(shù)據(jù)集72例。
FHSXMU數(shù)據(jù)采用8通道陣列線圈的3.0 T Scanner(Signa HDxt, GE Healthcare, USA)進行MRI 掃描,SPPH 數(shù)據(jù)采用8 通道陣列線圈的3.0 T Scanner(Discovery 750, GE Healthcare, USA)進行MRI 掃描。采集協(xié)議統(tǒng)一采用CE-T1 序列(TR/TE:195 ms/4.76 ms;FOV:240 mm×240 mm;層厚/層間距:5.0 mm/1.5 mm;矩陣:256×256)和T2-FLAIR 序列(TR/TE:8000 ms/95 ms;FOV:240 mm×240 mm;層厚/層間距:5.0 mm/1.5 mm;矩陣:256×256)。注射0.1 mmol/kg釓螯合對比劑(Omniscan,GE Healthcare,Ireland)后獲得CE-T1圖像。
由于TCGA/TCIA 數(shù)據(jù)庫的圖像來自不同的MRI設(shè)備和采集協(xié)議,并且與FHSXMU 數(shù)據(jù)和SPPH 數(shù)據(jù)的MRI 設(shè)備和采集協(xié)議亦存在差異,為使不同設(shè)備采集的圖像具有空間分辨率和灰度強度的可比性,我們對所有MRI 圖像進行重采樣,從而消除不同型號MRI設(shè)備造成空間分辨率不一致的干擾,并通過最大最小值的歸一化方法對圖像強度進行歸一化處理。此過程使用Python 3.10.4版(https://www.python.org/)的SimpleITK庫實現(xiàn)。
對于TCGA/TCIA 數(shù)據(jù)集,從數(shù)據(jù)庫中下載獲得IDH mut 狀態(tài)和MGMT meth 狀態(tài)的數(shù)據(jù)。對于FHSXMU和SPPH 數(shù)據(jù),IDH mut 狀態(tài)通過Sanger 測序確定,采用Simlex OUP?FFPE DNA 核酸提取試劑盒提取DNA,應(yīng)用Chromas序列分析軟件判定IDH狀態(tài)。MGMT meth狀態(tài)通過焦磷酸測序進行評估,使用BisulFlash?DNA 修飾試劑盒(Epigentek, USA)對提取的DNA 進行修飾,獲得MGMT啟動子內(nèi)10個CpG位點數(shù)據(jù),平均甲基化≥8%,則認為腫瘤存在甲基化,未甲基化病例平均甲基化<8%[18]。
首先將T2-FLAIR 圖像通過FSL 軟件(http://fsl.fMRIb.ox.ac.uk/fsl/fslwiki/FSL)采 用 仿 射變換與相應(yīng)的CE-T1 圖像進行配準。腫瘤感興趣區(qū)(region of interest, ROI)的勾畫利用ITK-SNAP軟件(http://www.itksnap.org)進行。由兩名年資在10 年以上的放射科主治醫(yī)生進行雙盲手動勾畫,重疊區(qū)作為腫瘤的感興趣區(qū)。并最終由一名年資超過20 年的放射科主任醫(yī)生審驗。在CE-T1 MRI 的圖像上勾畫出ROI,然后配準到T2-FLAIR圖像上(圖1)。
圖1 腫瘤感興趣區(qū)的勾畫。CE-T1:對比增強后T1 加權(quán)序列;FLAIR:流體衰減反轉(zhuǎn)恢復(fù)序列。Fig. 1 Delineation of tumor regions of interest. CE-T1: post-contrast enhanced T1-weighted; FLAIR: fluid attenuation inversion recovery.
從CE-T1 和T2-FLAIR 圖像中提取腫瘤ROI 的1702 個影像組學(xué)特征,每個MRI 序列提取851 個特征,包括:18個一階直方圖特征,14個形狀特征,75個紋理特征[包括24 個灰度共生矩陣(gray level co-occurence matrix, GLCM)特征,14個灰度依賴矩陣(gray level dependence matrix, GLDM)特征,16個灰度運行長度矩陣(gray level run length matrix,GLRLM)特征,16 個灰度大小區(qū)域矩陣(gray level size zone matrix, GLSZM)特征,5個鄰域灰度依賴矩陣(neighbouring gray tone difference matrix,NGTDM)特征],以及通過小波濾波后MRI圖像的一階特征和紋理特征得到的744 個小波特征。影像組學(xué)特征提取采用開源軟件FAE(http://github.com/salan668/FAE)實現(xiàn),該軟件基于PyRadiomics 軟件包(https://github.com/Radiomics/pyradiomics)。
根據(jù)IDH mut 狀態(tài)下MGMT 啟動子的是否發(fā)生甲基 化,將LGGs 分 為IDH mut 合 并MGMT meth 亞 型、IDH mut合并氧6-甲基鳥嘌呤DNA甲基轉(zhuǎn)移酶啟動子非甲基化(O6-methylguanine-DNA methyltransferase promoter unmethylation, MGMT unmeth)亞型(該亞型簡寫為:IDH mut合并MGMT unmeth亞型)。由于兩種分子亞型的構(gòu)成比明顯不均衡,為提高模型泛用性,將FHSXMU數(shù)據(jù)、SPPH數(shù)據(jù)和TCGA/TCIA數(shù)據(jù)進行整合,然后以7∶3比例隨機分為訓(xùn)練集和測試集。統(tǒng)計分析采用R 軟件4.1.2 版本(www.R-project.org)和SPSS軟件23.0版本(https://www.ibm.com/analytics/spss-statistics-software)實現(xiàn)。
1.5.1 臨床資料和分子信息的統(tǒng)計描述
由于本研究兩個分子亞型數(shù)據(jù)構(gòu)成比差異明顯,進行組間比較時,使用皮爾遜卡方檢驗或Fisher's確切檢驗。連續(xù)變量使用中位數(shù)和四分位數(shù)間距表示,組間比較使用Mann-WhitneyU檢驗,雙側(cè)P<0.05表示差異具有統(tǒng)計學(xué)意義。
1.5.2 影像組學(xué)特征篩選和模型構(gòu)建驗證
首先,使用Z-score變換對訓(xùn)練集的影像組學(xué)特征進行標準化,單因素邏輯回歸(logistic regression,LR)進行特征初篩,P<0.05 表示特征具有統(tǒng)計學(xué)意義。然后使用最小絕對收縮和選擇算法(least absolute shrinkage and selection operator,LASSO)回歸進一步進行特征選擇,通過10-fold交叉驗證選擇最佳參數(shù)λ,在其值最小時選擇系數(shù)非零的影像組學(xué)特征。由于數(shù)據(jù)集的構(gòu)成比差異明顯,為提高訓(xùn)練模型的準確性,使用合成少數(shù)過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)方法對訓(xùn)練集少數(shù)類樣本進行平衡化,再采用多因素LR進行建模。通過訓(xùn)練集和測試集的受試者工作特征(receiver operating characteristic curve,ROC)曲線以及校準曲線,對模型性能和擬合優(yōu)度進行檢驗。繪制列線圖進行可視化風(fēng)險預(yù)測。
FHSXMU 數(shù)據(jù)、SPPH 數(shù)據(jù)和TCGA/TCIA 數(shù)據(jù)合并后數(shù)據(jù)集的兩個分子亞型在訓(xùn)練集和測試集的臨床特征統(tǒng)計描述如表1 所示。兩種分子亞型在訓(xùn)練集和測試集的年齡、性別和腫瘤分級的P值均大于0.05,說明兩種分子亞型在訓(xùn)練集和測試集的不同臨床特征的組間比較差異均無統(tǒng)計學(xué)意義。
表1 FHSXMU、SPPH、TCGA/TCIA合并數(shù)據(jù)集的不同分子亞型在訓(xùn)練集和測試集一般資料的比較Tab.1 Comparison of general data of the different subtypes of the combined data set including FHSXMU,SPPH and TCGA/TCIA data sets in training set and test set
訓(xùn)練集經(jīng)過單因素LR,僅CE-T1序列保留了21個放射組特征,T2-FLAIR序列為0。為了選擇最佳的影像組學(xué)特征和解決過擬合問題,采用LASSO算法。最終,在λ值最小時,有7個系數(shù)不為零的特征被保留(圖2)。經(jīng)SMOTE 數(shù)據(jù)平衡(陽性和陰性樣本例數(shù)為99∶99),使用多因素LR建立影像組學(xué)模型(圖3)。
圖2 LASSO(最小絕對收縮和選擇算法)的特征選擇。Fig. 2 Features selection of LASSO (least absolute shrinkage and selection operator).
圖3 森林圖顯示了影像組學(xué)模型的所有特征,以及每個影像組學(xué)特征的優(yōu)勢比(OR)值及其95%置信區(qū)間(95%CI)、P值。Fig. 3 The forestplot shows the features of the radiomics model, the OR of each feature and its 95%CI,P value.
影像組學(xué)模型在訓(xùn)練集和測試集的曲線下面積(area under the curve, AUC)值分別為0.842 和0.935(圖4)。在訓(xùn)練集的準確率為93.6%、精確率為94.2%、召回率為98.9%、F-Measure 為0.965;在測試集的準確率為89.6%、精確率為93.1%、召回率為95.3%、F-Measure為0.942(表2)。
表2 影像組學(xué)模型在訓(xùn)練集和測試集的評價結(jié)果Tab.2 Evaluation results of the radiomics model in the training set and the test set
圖4 訓(xùn)練集和測試集的受試者工作特征(ROC)曲線。Fig. 4 The receiver operating characteristic curve of the training set and the test set.
訓(xùn)練集的校準曲線顯示了影像組學(xué)模型和實際結(jié)果有著較好的一致性,經(jīng)Hosmer-Lemeshow 檢驗的P值為0.1393(圖5),測試集因為數(shù)據(jù)過少、且構(gòu)成比的差異顯著,R 語言的glm 和lrm 函數(shù)無法擬合模型,因此無法生成校準曲線。根據(jù)模型計算的影像組學(xué)評分(radiomics score, Radscore),我們還繪制了列線圖用于風(fēng)險預(yù)測(圖6)。
圖5 訓(xùn)練集的校準曲線。Fig.5 The calibration curve of the training set.
圖6 影像組學(xué)模型計算的影像組學(xué)評分的列線圖。Fig.6 The nomogram of radiomcs score calculated by the radiomics model.
本研究探討使用基于常規(guī)MRI 的無創(chuàng)影像組學(xué)方法,建立一個用于預(yù)測LGGs 的IDH mut 合并MGMT meth 亞型的影像組學(xué)模型,結(jié)果顯示模型具有良好的預(yù)測性能(訓(xùn)練集和測試集的AUC 分別為0.842 和0.935)。本研究在LGGs 層面,使用基于常規(guī)MRI 的影像組學(xué)方法,預(yù)測IDH mut 合并MGMT meth 分子亞型為國內(nèi)外首次被提出。由于LGGs 的IDH mut 合并MGMT meth作為聯(lián)合的預(yù)測因子,預(yù)示著良好的OS和(或)PFS,并能從TMZ治療中獲益。因此,該亞型的準確預(yù)測,為LGGs 患者分子分型的精確診斷、TMZ 的臨床決策及生存期預(yù)測提供重要的臨床輔助價值。
使用影像組學(xué)的方法對膠質(zhì)瘤IDH 是否發(fā)生突變已經(jīng)進行了廣泛的研究,Wang等[19]通過基于MRI動態(tài)增強掃描序列和擴散加權(quán)序列,探討了使用影像組學(xué)的方法對膠質(zhì)瘤IDH 狀態(tài)的改善價值(AUC 在訓(xùn)練集和測試集分別為0.939和0.880)。Manikis等[20]也探討了基于動態(tài)磁化率對比MRI 的影像組學(xué)方法對IDH 狀態(tài)的增益價值(AUC 在訓(xùn)練集和獨立的驗證集的分別為0.678 和0.667)。本研究在LGGs 的IDH mut 的基礎(chǔ)上,結(jié)合MGMT 啟動子是否發(fā)生甲基化,將其進行分層,并獲得良好的效果(AUC 在訓(xùn)練集和測試集分別為0.842 和0.935)。而膠質(zhì)瘤IDH mut 狀態(tài)下,MGMT meth 較MGMT unmeth 有著更長的中位OS,且可以從TMZ 的治療中獲益[5]。對于使用影像組學(xué)在膠質(zhì)瘤MGMT meth 研究中,Lohmann 等[21]通過基于正電子發(fā)射斷層顯像(PET)/MRI 的影像組學(xué)方法,預(yù)測了腦膠質(zhì)瘤MGMT meth 狀態(tài)(最高的準確度為83%,而本研究為93.6%)。Huang 等[22]通過一篇Meta分析證明了影像組學(xué)在研究膠質(zhì)瘤MGMT meth 的價值,并計算了多個模型的綜合AUC 值(訓(xùn)練集和獨立的驗證集分別為0.91 和0.88)。而僅具有MGMT meth 的單一分子標記物的膠質(zhì)瘤,只能表明它可以從TMZ 的治療中獲益。本研究中,LGGs 的IDH mut 合并MGMT meth 亞型同時具有更好的生存期,以及從TMZ治療獲益的優(yōu)點。
在膠質(zhì)瘤多個分子生物標記物結(jié)合的影像組學(xué)研究中,Arita 等[23]運用影像組學(xué)的方法,構(gòu)建LGGs包含IDH 合并TERT 基因共同突變亞型的3 種亞型的預(yù)測模型,并檢驗其性能。Fan 等[24]使用影像組學(xué)的方法,構(gòu)建了WHO 2 級膠質(zhì)瘤IDH mut 下是否發(fā)生1p/19q 共丟失的預(yù)測模型。以上研究證實了使用影像組學(xué)的方法在IDH mut 狀態(tài)合并其他腫瘤分子標記物的可行性。Zhang 等[17]使用自動機器學(xué)習(xí)的放射組學(xué)方法,對膠質(zhì)瘤IDH mut 和MGMT meth 共同發(fā)生進行預(yù)測研究(多個模型的平均AUC=0.951)。與本研究相比,該研究包含了WHO 2~4 的三個級別的膠質(zhì)瘤,適用范圍更廣。然而,該研究中,作為對照組的其他亞型包含了IDH mut 合并MGMT unmeth 亞型、IDH 野生型合并MGMT meth 和IDH 野生型合并MGMT unmeth 三種亞型,且IDH mut 合并MGMT unmeth 亞型僅為一例,同時,WHO 4 級的膠質(zhì)瘤占全部膠質(zhì)瘤的51.8%。而本研究著重于WHO 2、3 級的膠質(zhì)瘤,并以IDH mut合并MGMT unmeth亞型作為對照組,同時,為解決兩個亞型的構(gòu)成比不均衡問題,我們使用了SMOTE 算法進行數(shù)據(jù)平衡化,最終的影像組學(xué)模型亦具備良好的預(yù)測性能。
為解決數(shù)據(jù)構(gòu)成比問題,我們引入了SMOTE算法進行數(shù)據(jù)平衡化,其優(yōu)點是:相較于過采樣對于原始數(shù)據(jù)隨機抽取而言,該算法是通過少數(shù)樣本中任意單個樣本與其臨近的k個樣本(通常默認為5)進行插值,從而提高分類器泛化能力,同時,與只對多數(shù)類進行欠采樣相比,該方法可以實現(xiàn)更好的分類器性能[25-26]。當(dāng)然,SMOTE 也有缺點,如由于k 近鄰的選擇而產(chǎn)生的噪聲和樣本復(fù)制問題[27]。然而,樣本信息能否真實地反映總體,是模型好壞的關(guān)鍵。SMOTE 算法在一定程度上解決了樣本均衡問題,這也體現(xiàn)在本研究中的影像組學(xué)模型具有較好的性能。
本研究存在以下局限性:(1)由于對照組(即IDH-mut 合并MGMT unmeth 亞型)樣本數(shù)量過少導(dǎo)致的構(gòu)成比不均衡,盡管通過SMOTE算法得以數(shù)據(jù)平衡化,但畢竟不是真實樣本的反映;(2)缺乏獨立的外部驗證集;(3)由于構(gòu)成比的顯著差異,導(dǎo)致臨床變量統(tǒng)計學(xué)不顯著,未能實現(xiàn)影像組學(xué)-臨床結(jié)合模型的建立。因此,本研究還需要獲得更多的少數(shù)類樣本,在保證少數(shù)類樣本足夠豐度的前提下,進一步實現(xiàn)影像組學(xué)模型對真實總體的反映。同時,使用獨立外部驗證集進行檢驗可以進一步驗證影像組學(xué)模型的普遍適用性。最后,足夠的少數(shù)類樣本的獲得也可能使臨床變量具統(tǒng)計學(xué)有意義,使影像組學(xué)-臨床結(jié)合模型的實現(xiàn)成為可能,從而進一步提高模型的性能。
綜上所述,本研究是通過基于術(shù)前MRI的影像組學(xué)方法,構(gòu)建了一個用于預(yù)測LGGs 的IDH mut 合并MGMT meth 亞型的影像組學(xué)模型。結(jié)果表明該模型具有良好預(yù)測性能,從而為LGGs 患者的分子亞型的精確診斷、化療藥物TMZ 使用的決策、患者OS 和(或)PFS的評估提供重要的臨床輔助價值。
作者利益沖突聲明:全體作者均聲明無利益沖突。