楊鏡玉 ,許 寧 ,張雨濤 ,黃鳳昌 ,蔣元明 ,殷 亮
(1)昆明醫(yī)科大學(xué)第一附屬醫(yī)院腫瘤科;2)影像科,云南 昆明 650032)
在最新發(fā)布的中國惡性腫瘤流行報告中,結(jié)直腸癌是我國第二大常見癌種,占總病例數(shù)的10.04%,每年有超過40.80 萬人被診斷為結(jié)直腸癌,其中超過半數(shù)是局部進(jìn)展期直腸癌(locally advanced rectal cancer,LARC)[1?2]。目前對于LARC 患者,新輔助同期放化療(neo-adjuvant chemoradiotherapy,nCRT)聯(lián)合全直腸系膜切除術(shù)(total mesorectal excision,TME)是標(biāo)準(zhǔn)管理模式。大約15%~27%的患者在接受了nCRT 后達(dá)到病理完全緩解(pathologic complete response,pCR)[3],此部分患者可以選擇“等待-觀察”治療策略,對于有強(qiáng)烈保肛要求的低位直腸癌患者以及無法耐受手術(shù)的患者來說,顯然是更優(yōu)的選擇;而對于不能從nCRT 治療中獲益的患者,可以考慮選擇免疫治療或全程化療[4]。因此在新輔助同期放化治療前評估和預(yù)測腫瘤反應(yīng)將有助于患者治療。
隨著人工智能及可視化運用技術(shù)的進(jìn)步,可以從圖像中提取定量特征,通過研究這些特征與潛在病理變化的關(guān)系為臨床決策提供依據(jù),這種方法被稱為影像組學(xué)[3]。機(jī)器學(xué)習(xí)(machine learning,ML)是人工智能領(lǐng)域的一個分支,是利用計算機(jī)算法學(xué)習(xí)回顧性數(shù)據(jù)中非線性關(guān)聯(lián),用于預(yù)測及估計產(chǎn)生特定結(jié)果的概率[5]。目前大型成像數(shù)據(jù)集的影像組學(xué)分析聯(lián)合機(jī)器學(xué)習(xí)已經(jīng)成功應(yīng)用于腫瘤學(xué)領(lǐng)域,在腫瘤預(yù)后預(yù)測和療效評估中起重要作用。至于基于核磁共振成像的定量紋理數(shù)據(jù)為什么能夠預(yù)測治療反應(yīng)的確切原因仍是未知的。目前普遍認(rèn)為,腫瘤的生物學(xué)行為,包括治療敏感性,在很大程度上可能還是由其潛在的分子分型決定的。依靠機(jī)器學(xué)習(xí)從影像中提取出深層特征,使微觀結(jié)構(gòu)模式改變在宏觀影像中有所呈現(xiàn),可以反映人體微觀水平的變化[6]。目前研究表明,基于紋理的放射建??梢栽u估腫瘤異質(zhì)性,并可以將腫瘤學(xué)中的放射學(xué)前沿發(fā)現(xiàn)與潛在的基因組和生物學(xué)特征(包括預(yù)后和治療反應(yīng))聯(lián)系起來[7?8]。
已有基于MRI 的影像組學(xué)預(yù)測模型被應(yīng)用于預(yù)測直腸癌放化療后的腫瘤反應(yīng)的報道[3,9?10]。然而不同的研究采用的目標(biāo)圖像序列和預(yù)測模型構(gòu)建方法不同,哪類模型在評估nCRT 后病理完全緩解方面效果最佳還沒有定論。因此需要通過對不同序列的不同模型來評估腫瘤反應(yīng)。
本研究旨在基于基線T2WI 影像組學(xué)數(shù)據(jù),采用3 種不同模型構(gòu)建方法構(gòu)建3 種預(yù)測模型,以預(yù)測患者nCRT 后pCR 率,并比較這些預(yù)測模型在本數(shù)據(jù)集中的表現(xiàn),探索最穩(wěn)定的預(yù)測模型臨床運用價值。
1.1.1 患者資料本研究得到了昆明醫(yī)科大學(xué)第一附屬醫(yī)院倫理委員會的批準(zhǔn),免除了知情同意的要求。根據(jù)以下納入和排除標(biāo)準(zhǔn),在2017 年1月至2021 年12 月期間接受手術(shù)治療的201 名患者納入本研究。
納入標(biāo)準(zhǔn)[9,11]:(1)經(jīng)病理活檢證實的原發(fā)性直腸腺癌;(2)初始MRI 評估后確定為局部進(jìn)展期直腸癌;(3)均接受完全新輔助放化療,且nCRT 前未接受過任何治療;(4)nCRT 結(jié)束后均接受TME 手術(shù),術(shù)后經(jīng)術(shù)后病理檢查證實;(5)使用相同的3-T 磁共振掃描儀獲得基線MRI 數(shù)據(jù),即高分辨率T2WI 軸位圖。
排除標(biāo)準(zhǔn)[9,11]:(1)未完成新輔助放化療;(2)未在本院接受手術(shù),或未經(jīng)術(shù)后病理確證;(3)缺乏高分辨率T2WI 數(shù)據(jù);(4)MRI 質(zhì)量不足,無法獲得測量結(jié)果(如運動偽影);(5)TME 后病理證實為粘液腺癌。
經(jīng)篩選共有131 名符合納入標(biāo)準(zhǔn)的患者納入本研究,患者根據(jù)4∶1 的比例被分配到訓(xùn)練集和測試集;其中104 名患者被分配到訓(xùn)練集,27 名患者被分配到測試集。
1.1.2 新輔助放化療方案所有患者在手術(shù)前均接受規(guī)范長程同期放化療,放療總劑量為50.6 Gy(GTV)/41.8 Gy(CTV),每周5 次,療程為30 d。GTV 定義為包括直腸系膜在內(nèi)的原發(fā)腫瘤的體積。CTV 定義為原發(fā)腫瘤區(qū)、直腸系膜區(qū)、骶前區(qū)、直腸系膜淋巴結(jié)、側(cè)方淋巴結(jié)、髂內(nèi)淋巴結(jié)和盆壁區(qū)域。放療期間同時口服卡培他濱治療,口服劑量825 mg/m2,每日2 次。放療完成后予以2 個周期的XELOX(卡培他濱+奧沙利鉑)方案鞏固性化療。放療結(jié)束后8~11 周行TME 手術(shù)。
1.1.3 病理完全緩解的評估手術(shù)切除的標(biāo)本由經(jīng)驗豐富的病理科醫(yī)師進(jìn)行組織病理學(xué)檢查和分析,并由胃腸道病理學(xué)家進(jìn)行進(jìn)一步檢查,雙方都對MRI 數(shù)據(jù)不可見;病理完全緩解(pCR)的定義是原發(fā)腫瘤和淋巴結(jié)中沒有存活的腫瘤細(xì)胞(圖1A、圖1B)。
圖1 患者基線軸位T2WI 圖上ROI 繪制、病理學(xué)表現(xiàn)和病理完全緩解病理學(xué)表現(xiàn)Fig.1 ROI on patient baseline T2WI、pathological manifestations and pathological complete response of pathological manifestations
所有患者在新輔助放化療開始前1 周內(nèi)均進(jìn)行了基線MRI 檢查。采用德國飛利浦公司3.0-T磁共振掃描儀,采用8 通道相控陣線圈,掃描時將髂前上棘連線水平作為定位線?;颊咴跈z查前需禁飲、禁食4~6 h。所有患者均接受常規(guī)直腸MRI 檢查,包括軸位、冠狀位、矢狀位和垂直于直腸長軸T2WI 圖像,本研究涉及直腸MRI 掃描序列參數(shù)見表1。
表1 直腸癌MRI 掃描序列及參數(shù)Tab.1 MRI scan series and parameters of rectal cancer
1.3.1 圖像分割由1 名接受過腫瘤成像培訓(xùn)且具有3 a 以上影像診斷學(xué)經(jīng)驗的放射科醫(yī)生使用AK 軟件(Analysis Kit,GE Healthcare)對初始軸位T2WI 圖上逐層繪制感興趣區(qū)(region of interest,ROI),包括整個腫瘤,但不包括腸腔及腸內(nèi)容物(圖1C),繪制中為提高準(zhǔn)確性,同時可參考患者其它掃描序列,如T1WI、DWI。然后由1 名具有5 a 直腸MRI 診斷經(jīng)驗的放射科醫(yī)師分別按照上述規(guī)則,獨立審查分割圖像,對有異議的圖像分割進(jìn)行討論達(dá)成一致。
1.3.2 影像特征提取和 統(tǒng)計分析使用AK 軟件(Analysis Kit,GE Healthcare)從手動分割的ROI治療前T2WI 數(shù)據(jù)中進(jìn)行特征提取,從T2WI 序列中提取1308 個量化特征,所有特征提取算法均使用AK 軟件實現(xiàn)。
1.3.3 特征篩選、模型建立及統(tǒng)計學(xué)處理為了盡量減低小樣本量影像組學(xué)模型過擬合問題,運用雙樣本t檢驗+LASSO 回歸對訓(xùn)練集(104 例)患者影像組學(xué)特征進(jìn)行特征篩選,根據(jù)特征權(quán)重系數(shù)選擇對模型貢獻(xiàn)大的特征,分別構(gòu)建3 種預(yù)測模型:支持向量機(jī)(support vector machine,SVM)、邏輯回歸(logistic regression,LR)、隨機(jī)森林(random forest,RF)學(xué)習(xí)模型。每個模型都使用了相同的篩選特征構(gòu)建模型。將訓(xùn)練集隨機(jī)均分為5 份,每次抽取1 份作為驗證集,余下4 份作為訓(xùn)練集,即5 折交叉驗證。訓(xùn)練集數(shù)據(jù)集分別用于構(gòu)建3 種機(jī)器學(xué)習(xí)模型,完成模型構(gòu)建后,分別將同組驗證集數(shù)據(jù)代入構(gòu)建模型,并運用隨機(jī)搜索命令,最終確定模型最佳超參數(shù)(C 值、gama 值)設(shè)置。本研究最終使用ROC 曲線,分析評估不同學(xué)習(xí)模型的診斷性能,并將測試集數(shù)據(jù)代入最終模型評價模型性能。計算ROC 曲線下面積(area under curve,AUC)、特異度、準(zhǔn)確度、靈敏度。依據(jù)3 個模型在測試集上的準(zhǔn)確度、靈敏度、特異度表現(xiàn),來選擇一個最優(yōu)模型。以上所有過程都是通過Python(https://www.python.org/)實現(xiàn)的。其中讀取、整理、清洗數(shù)據(jù)使用python 中numpy、pandas、scipy 數(shù)據(jù)庫中函數(shù)完成;繪圖使用matplotlib、seaborn 數(shù)據(jù)庫中函數(shù)完成;構(gòu)建模型、交叉驗證、隨機(jī)搜索使用sklearn 數(shù)據(jù)庫中函數(shù)完成。
本研究中男性43 例,女性88 例,其中治療后達(dá)pCR 的患者26 例,未達(dá)pCR 的患者105 例。按4∶1 的比例分為訓(xùn)練集(104 例)和測試集(27 例),訓(xùn)練集和測試集2 組間臨床特征、分化程度、MRI 腫瘤T 分期、N 分期無統(tǒng)計學(xué)意義(P>0.05)(表2)。
表2 臨床流行病學(xué)特征[( )/n(%)]Tab.2 Clinical epidemiological characteristics [()/n(%)]
表2 臨床流行病學(xué)特征[( )/n(%)]Tab.2 Clinical epidemiological characteristics [()/n(%)]
首先采用雙樣本t檢驗對組學(xué)特征進(jìn)行初步篩選,所有特征按P值遞增順序進(jìn)行排序,并將沒有顯著差異的特征(P>0.05)排除;然后通過LASSO 回歸獲得12 個最優(yōu)影像特征(圖2)。利用篩選出的影像特征進(jìn)行模型構(gòu)建,表3 展示了Lasso 回歸篩選出的特征及其權(quán)重系數(shù),圖3 展示了特征篩選后最優(yōu)12 個特征的特征權(quán)重圖(A)及特征相關(guān)性熱圖(B)。
表3 Lasso 回歸篩選特征及其權(quán)重系數(shù)Tab.3 Lasso regression screening features and their weight coefficients
圖2 LASSO 回歸篩選特征參數(shù)系數(shù)圖Fig.2 LASSO regression screening feature parameter coefficient map
圖3 影像特征及影像組學(xué)標(biāo)簽Fig.3 Image features and radiomics labels
本研究利用篩選的最優(yōu)影像特征,探索了3種模型算法:支持向量機(jī)(SVM)、隨機(jī)森林(RF)、邏輯回歸(LR)學(xué)習(xí)模型。依據(jù)交叉驗證及隨機(jī)搜索結(jié)果,獲取模型最佳參數(shù),繪制ROC 曲線(圖4)。3 種模型的預(yù)測效能,見表4。在本數(shù)據(jù)集中,邏輯回歸(LR)模型預(yù)測效能最佳。
圖4 基線T2WI 預(yù)測LARC 患者nCRT 治療后達(dá)pCR預(yù)測模型ROC 曲線Fig.4 Baseline T2WI predicts the ROC curve of the pCR prediction model for LARC patients after nCRT treatment
雖然既往有不少研究構(gòu)建了基于MRI 預(yù)測nCRT 治療后pCR 的模型,且取得了不錯的預(yù)測效能[11?13]。但與這些研究中納入模型的許多特征是來自于新輔助治療后的MRI[13]不同的是,本研究利用新輔助治療前MRI,旨在探索是否能夠在nCRT 治療前就篩選出對nCRT 治療敏感的患者,避免使那些無法從放療獲益的病人,因分期較晚而進(jìn)入nCRT 治療。其次,本研究僅使用了T2WI 單序列進(jìn)行預(yù)測模型構(gòu)建,雖然沒有多序列研究信息豐富,但仍有不錯的預(yù)測效能。這可能歸因于2 方面原因:(1)T2 加權(quán)像成像清晰,更有助于影像科醫(yī)師準(zhǔn)確勾畫ROI,與功能序列得到的圖像(如擴(kuò)散加權(quán)圖像)相比,該序列得到的圖像具有較好的穩(wěn)定性和易獲取性;(2)更多成像序列的納入,意味著更多需要統(tǒng)一的成像協(xié)議,納入多序列影像特征,經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化、歸一化處理,可能引入更多偏差,改變數(shù)據(jù)真實權(quán)重分布。本研究僅利用基線T2WI 單序列數(shù)據(jù)進(jìn)行影像組學(xué)分析,分別構(gòu)建邏輯回歸、隨機(jī)森林、支持向量機(jī)3 種模型對LARC 患者nCRT 治療后能否達(dá)到pCR 進(jìn)行預(yù)測。
通過對比3 個模型預(yù)測效能。本模型與已報道的模型相比,展現(xiàn)出良好的預(yù)測效能[14–17]。首先,筆者的研究可以證明利用影像組學(xué)結(jié)合機(jī)器學(xué)習(xí)方法,具有在患者基線水平上對nCRT 治療反應(yīng)進(jìn)行預(yù)測的潛力,本研究所構(gòu)建的3 個模型在測試集上,AUC 分別為0.8810(SVM)、0.7579(RF)、0.9206(LR),均展現(xiàn)出不錯的預(yù)測效能。相比之下,Shaish 等[16]回顧性分析了2 中心共132 例LARC 患者基線T2WI,構(gòu)建邏輯回歸預(yù)測模型,其中pCR 的最佳AUC 為0.80(95%CI,0.74~0.85)。該研究特別之處在于ROI 繪制區(qū)域不僅僅局限于病灶,還涵蓋腸系膜筋膜區(qū)域,為ROI 繪制提供了新思路。Horvat 等[15]回顧性分析了114 例LARC 患者的基線T2WI 和DWI,構(gòu)建隨機(jī)森林預(yù)測模型,其中pCR 最佳AUC 為0.93(95%CI0.87-0.96)。Antunes 等[17]回顧性分析了3 中心共104 例LARC 患者基線T2WI,構(gòu)建隨機(jī)森林預(yù)測模型,其中pCR 最佳AUC 在外部驗證集為0.712。雖然該研究沒有取得很好的預(yù)測效果,卻為研究模型泛化提供了更多實據(jù)。Yi等[14]回顧性分析了單中心共134 例LARC 患者基線T2WI,構(gòu)建隨機(jī)森林和支持向量機(jī)的集成預(yù)測模型,其中預(yù)測pCR 的最佳AUC 為0.9078(95%CI: 0.83~0.98)。該模型能獲得上佳的預(yù)測性能主要得益于其自研的集成模型,為模型構(gòu)建提供了新的思路。筆者的優(yōu)勢在于運用了3 個模型,并對模型預(yù)測性進(jìn)行了比較;且沒有納入臨床信息參與模型構(gòu)建,模型仍然展現(xiàn)出不錯的預(yù)測性??v觀以往研究,3 種機(jī)器學(xué)習(xí)方法都被不同研究者選用,且展現(xiàn)出不錯的預(yù)測效能,說明這3 種方法都可以較好的處理這類二分類問題,但并沒有哪種方法取得了絕對的優(yōu)勢。就本測試集上預(yù)測結(jié)果而言,邏輯回歸預(yù)測模型展現(xiàn)出更佳的預(yù)測效能,這也恰好體現(xiàn)出邏輯回歸擅長概率預(yù)測的特性,并可以直接計算出預(yù)測概率。而支持向量機(jī)模型在本數(shù)據(jù)集中并沒有發(fā)揮出對多維數(shù)據(jù)處理的優(yōu)勢,原因可能是特征分布分散,沒有找到合適的核函數(shù)。而隨機(jī)森林模型則受限于樣本量小,也沒有因其投票特性獲得更佳的預(yù)測效能。這也反應(yīng)出隨機(jī)森林模型因其生成決策樹的隨機(jī)性,有時并不會實現(xiàn)預(yù)測效能的加成。綜上,對于二分類問題,3 種模型都值得嘗試;其中邏輯回歸模型可以直接輸出預(yù)測概率,易于實現(xiàn),但對多變量特征處理能力有限;支持向量機(jī)模型,可以解決高維特征問題,但有時難以找到合適的核函數(shù);隨機(jī)森林模型,抗擬合能力強(qiáng),可不用做特征篩選,但由于其生成決策樹隨機(jī),生成過多相似決策樹,可能會掩蓋真實結(jié)果。因此,筆者的研究對于針對同一預(yù)測任務(wù)的不同模型比較篩選,提供了一些解決思路以及一些開源數(shù)據(jù)。
本研究仍存在一些不足之處,首先作為一個回顧性研究,可能存在選擇偏差;且研究樣本量有限,其中pCR 樣本占比較少,可能會影響預(yù)測模型的準(zhǔn)確性和穩(wěn)定性;其次本研究所構(gòu)建的預(yù)測模型及模型驗證都使用的是單中心數(shù)據(jù),在外部驗證集中的預(yù)測效能有待進(jìn)一步評價;最后本研究僅將pCR 作為nCRT 治療敏感的終點指標(biāo),臨床實踐中,TRG 降期也能一定程度說明對nCRT 治療敏感,這個指標(biāo)有待后續(xù)研究評價。