劉璐 龐琳 田彥璋
(山西醫(yī)科大學(xué) 1公共衛(wèi)生學(xué)院環(huán)境衛(wèi)生教研室,山西 太原 030001 ;2第三醫(yī)院 山西白求恩醫(yī)院)
2020年全球癌癥發(fā)病死亡分析報(bào)告顯示,2020年新發(fā)結(jié)直腸癌(CRC)病例超過190萬例,死亡935 000例,約占癌癥病例和死亡人數(shù)的1/10,結(jié)直腸癌的發(fā)病率排名第三,死亡率位居第二〔1〕。遠(yuǎn)處轉(zhuǎn)移作為CRC的主要死因,5年生存率僅14%〔2〕。近年來免疫〔3〕、化療〔4〕和靶向藥物治療〔5〕等對(duì)遠(yuǎn)處轉(zhuǎn)移的治療已有很大發(fā)展,但結(jié)直腸預(yù)后依然不理想。有效且有用的預(yù)后指標(biāo)可以提高CRC生存率預(yù)測(cè)的精確度,對(duì)CRC遠(yuǎn)處轉(zhuǎn)移的老年患者預(yù)后改善至關(guān)重要。傳統(tǒng)上,研究多選擇Cox回歸模型進(jìn)行預(yù)測(cè),并結(jié)合列線圖將預(yù)測(cè)結(jié)果以圖形展示〔6~8〕。然而,Cox回歸模型要求滿足比例風(fēng)險(xiǎn),有時(shí)假設(shè)無法滿足。Ishwaran等〔9〕提出隨機(jī)生存森林算法(RSF)可以克服傳統(tǒng)Cox比例風(fēng)險(xiǎn)回歸模型的缺點(diǎn),此外可以自動(dòng)識(shí)別變量間的交互作用,提升預(yù)測(cè)模型的準(zhǔn)確度〔10〕。本研究利用監(jiān)測(cè)、流行病學(xué)和最終結(jié)果(SEER)的大規(guī)模真實(shí)數(shù)據(jù)庫,運(yùn)用隨機(jī)生存森林模型對(duì)M1期老年CRC患者進(jìn)行預(yù)后因素分析,為患者個(gè)性化預(yù)后評(píng)價(jià)和臨床指導(dǎo)決策提供醫(yī)學(xué)理論依據(jù)。
1.1數(shù)據(jù)來源 從美國(guó)癌癥研究所SEER數(shù)據(jù)庫中提取2010~2015年確診為CRC且5年內(nèi)因患癌死亡和隨訪5年期滿仍存活的患者資料。納入標(biāo)準(zhǔn):①經(jīng)過病理學(xué)診斷為CRC〔ICD-O-3國(guó)際腫瘤分類:直腸癌(C199和C209)和結(jié)腸癌(C180-C189)〕;②發(fā)生遠(yuǎn)處轉(zhuǎn)移(M分期為M1期);③CRC是唯一的原發(fā)腫瘤;④隨訪信息完整。排除標(biāo)準(zhǔn):①分化程度、分期、化療、放療等為不清楚或空值的病例;②肝、肺、骨、腦轉(zhuǎn)移遠(yuǎn)處轉(zhuǎn)移信息缺失;③尸檢報(bào)告或死亡證明確診病例;④年齡<60歲者。最終納入6 118例,見表1。
表1 CRC患者臨床資料〔n(%)〕
1.2臨床資料收集 提取因素包括性別、種族、婚姻狀況、發(fā)病部位、腫瘤分化、病理類型、T分期、N分期、原發(fā)部位是否手術(shù)、淋巴結(jié)手術(shù)清掃范圍、化療、放療、癌胚抗原(CEA)水平、肝轉(zhuǎn)移、肺轉(zhuǎn)移、骨轉(zhuǎn)移、腦轉(zhuǎn)移、生存時(shí)間、生存狀態(tài) 。
1.3隨機(jī)生存森林算法 RSF〔11〕的基本單位為二元生存樹,當(dāng)數(shù)據(jù)到達(dá)樹的節(jié)點(diǎn)(變量特征)時(shí)會(huì)依據(jù)“l(fā)og-rank”分?jǐn)?shù)的標(biāo)準(zhǔn),將原始數(shù)據(jù)分裂成具有最大化生存差異的兩組新數(shù)據(jù),直到輸入的最終數(shù)據(jù)發(fā)生的事件數(shù)不小于特定閾值,此節(jié)點(diǎn)就作為終端節(jié)。RSF的VIMP法篩選變量是根據(jù)納入一個(gè)新的變量與不納入該變量,兩者預(yù)測(cè)準(zhǔn)確度的差值即為VIMP值。若VIMP為正值則表明該變量可以增加預(yù)測(cè)模型的準(zhǔn)確度;相反,會(huì)降低預(yù)測(cè)模型的準(zhǔn)確度。與此同時(shí),RSF還可以自動(dòng)識(shí)別變量之間復(fù)雜的交互作用,通常將兩個(gè)或多個(gè)變量的乘積作為交互項(xiàng),交互項(xiàng)的存在表明一個(gè)自變量對(duì)因變量的解釋,會(huì)受到另一個(gè)自變量的影響。對(duì)于交互作用的研究,能更好理解自變量對(duì)預(yù)后結(jié)局的影響,為臨床提供決策建議。目前,此方法可以通過Ishwaran等〔9〕R軟件開發(fā)的“Random Forest SRC”包實(shí)現(xiàn)。
1.4統(tǒng)計(jì)學(xué)方法 采用R4.0.5軟件的“caret”包的“create Data Partition”函數(shù),將數(shù)據(jù)按照7∶3隨機(jī)將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。使用χ2檢驗(yàn)比較訓(xùn)練集和測(cè)試集的臨床特征和人口學(xué)差異。使用R包“survival”利用“l(fā)og-rank”法比較不同組間生存差異,將單因素Cox分析中有統(tǒng)計(jì)學(xué)意義的變量納入多因素Cox比例風(fēng)險(xiǎn)模型進(jìn)行分析,尋找影響M1期CRC患者生存率的獨(dú)立預(yù)后因素。通過R包“Random Forest SRC”分析預(yù)后因素的交互作用,VIMP法對(duì)自變量進(jìn)行變量篩選,綜合獨(dú)立預(yù)后因素與變量重要性排序篩選出具有重要預(yù)測(cè)意義的變量,最后使用R包“rms”構(gòu)建列線圖。采用一致性指數(shù)(C-index)、校準(zhǔn)曲線、受試者工作特征(ROC)曲線下面積(AUC),評(píng)估預(yù)測(cè)模型的準(zhǔn)確性。并通過Brier分?jǐn)?shù)驗(yàn)證Cox列線圖和RSF-Cox列線圖的準(zhǔn)確性,分值越低,模型準(zhǔn)確性越好。
2.1患者預(yù)后因素分析 單因素Cox回歸分析顯示,婚姻狀況、分化程度、性別、T分期、N分期、原發(fā)灶手術(shù)、淋巴結(jié)清掃、放療、化療、CEA狀態(tài)、骨轉(zhuǎn)移、腦轉(zhuǎn)移、肝轉(zhuǎn)移和肺轉(zhuǎn)移與M1期CRC患者的預(yù)后相關(guān)(均P<0.05)。見表1。多因素Cox回歸分析顯示,婚姻狀況、分化程度、T分期、N分期、原發(fā)灶手術(shù)、淋巴結(jié)清掃、化療、CEA狀態(tài)、骨轉(zhuǎn)移、肝轉(zhuǎn)移、肺轉(zhuǎn)移是M1期CRC患者預(yù)后的獨(dú)立危險(xiǎn)因素(均P<0.05)。見表2。
表2 影響M1期CRC患者預(yù)后的單因素和多因素分析
2.2VIMP法篩選變量 通過RSF的VIMP法對(duì)變量進(jìn)行篩選,若變量VIMP值>0說明該變量會(huì)提高預(yù)測(cè)的準(zhǔn)確性,若VIMP值<0說明該變量會(huì)降低預(yù)測(cè)的準(zhǔn)確性。VIMP變量篩選法顯示,性別為不重要的預(yù)測(cè)變量(VIMP=0),進(jìn)一步將具有正值的變量作為最終變量篩選的結(jié)果。腫瘤分化為0.057,原發(fā)部位手術(shù)為0.038,T分期為0.026,N分期為0.021,淋巴結(jié)清掃范圍為0.026,骨轉(zhuǎn)移為0.049,CEA為0.012,婚姻狀況為0.001,腦轉(zhuǎn)移為0.039,肝轉(zhuǎn)移為0.008,種族為0.008,肺轉(zhuǎn)移為0.008,腫瘤部位為0.008,病理類型為0.005,放療為0.022。
2.3隨機(jī)森林分析交互作用 Cox回歸結(jié)果顯示“腫瘤分化”作為重要的獨(dú)立預(yù)后因素,且VIMP法同樣顯示“腫瘤分化”也是預(yù)測(cè)模型的最重要預(yù)測(cè)因素。據(jù)此,通過RSF自動(dòng)識(shí)別交互作用的方法,分析排名靠前的6個(gè)交互作用,腫瘤分化與化療、腫瘤分化與T分期、腫瘤分化與原發(fā)部位手術(shù)、化療與原發(fā)部位手術(shù)、化療與T分期和年齡與原發(fā)部位手術(shù)的交互作用(表3)。為進(jìn)一步探索變量交互作用對(duì)生存的影響,繪制患者在進(jìn)行化療和手術(shù)的條件下,年齡與生存時(shí)間的coplot圖,結(jié)果顯示,化療對(duì)于預(yù)后影響效果明顯,在無手術(shù)切除的情況下,接受化療患者較不接受化療者生存時(shí)間長(zhǎng)約10個(gè)月;在無化療的情況下,接受手術(shù)較不接受手術(shù)患者生存時(shí)長(zhǎng)約3個(gè)月。而既接受手術(shù)切除又進(jìn)行化療的患者生存時(shí)間較兩者都不接受者生存時(shí)長(zhǎng)18個(gè)月。見圖1。
圖1 變量交互作用對(duì)患者生存時(shí)間的影響
表3 腫瘤發(fā)化、化療、分期、分化、手術(shù)部位交互作用
2.4預(yù)測(cè)模型的構(gòu)建及其驗(yàn)證 根據(jù)上述VIMP篩選出的預(yù)后相關(guān)因素,構(gòu)建預(yù)后列線圖預(yù)測(cè)模型(圖2),預(yù)測(cè)M1期CRC患者的6個(gè)月、1年、3年、5年生存率。此外,通過C-index、AUC、校準(zhǔn)曲線對(duì)模型進(jìn)行評(píng)價(jià)。結(jié)果顯示訓(xùn)練集的C-index為0.683(95%CI0.679~0.687),AUC值分別為0.797、0.758、0.734和0.768;測(cè)試集的C-index為0.688(95%CI0.682~0.694),AUC值分別為0.796、0.759、0.736和0.750。訓(xùn)練集和測(cè)試集的校準(zhǔn)曲線顯示,模型預(yù)測(cè)1年和3年的校準(zhǔn)曲線接近45%,表明列線圖預(yù)測(cè)模型與理想模型一致性較強(qiáng),表現(xiàn)出良好的鑒別能力,預(yù)測(cè)的生存率與患者實(shí)際生存率接近。見圖3、圖4、圖5。
圖2 結(jié)直腸癌遠(yuǎn)處轉(zhuǎn)移患者生存預(yù)測(cè)列線
圖3 訓(xùn)練集和測(cè)試集6個(gè)月、1年、3年、5年的生存率校準(zhǔn)曲線
圖4 訓(xùn)練集的6個(gè)月、1、3、5年的ROC曲線
圖5 測(cè)試集的6個(gè)月、1、3、5年的ROC曲線
2.5模型的誤差比較 在測(cè)試集上繪制Cox和RSF-Cox兩個(gè)模型的誤差曲線,通過比較兩個(gè)模型的Brier分?jǐn)?shù),分值越低,表示預(yù)測(cè)精度越好。結(jié)果顯示,Cox獨(dú)立危險(xiǎn)因素預(yù)測(cè)模型(Cox)和RSF篩選變量預(yù)測(cè)模型(RSF-Cox)均優(yōu)于Kaplan-Meier。但RSF-Cox略優(yōu)于Cox。見圖6。
圖6 預(yù)測(cè)誤差曲線比較
老年CRC遠(yuǎn)處轉(zhuǎn)移患者預(yù)后往往較差且不同個(gè)體的死亡差異較大。目前針對(duì)CRC遠(yuǎn)處轉(zhuǎn)移老年患者的生存,已開發(fā)了不少模型。但模型的外推性及準(zhǔn)確性仍有提高空間。
RSF模型與傳統(tǒng)Cox相比,RSF能防止過擬合且對(duì)數(shù)據(jù)無特定要求。不僅如此,RSF還可以分析變量間的非線性關(guān)系。RSF克服傳統(tǒng)Cox回歸模型的缺點(diǎn),無需滿足比例風(fēng)險(xiǎn)假定,極大提升了模型的應(yīng)用范圍。更重要的是,RSF可以自動(dòng)進(jìn)行調(diào)整和識(shí)別交互作用。相關(guān)研究表明,RSF模型預(yù)測(cè)準(zhǔn)確度等同甚至優(yōu)于其他傳統(tǒng)生存分析模型〔10~12〕。本研究中預(yù)測(cè)誤差曲線顯示,RSF-Cox模型預(yù)測(cè)性能優(yōu)于傳統(tǒng)的Cox模型。
本研究顯示,婚姻狀況、分化程度、性別T分期、N分期、原發(fā)灶手術(shù)、淋巴結(jié)清掃、化療、CEA狀態(tài)、骨轉(zhuǎn)移、肝轉(zhuǎn)移、肺轉(zhuǎn)移是M1期CRC患者預(yù)后的獨(dú)立危險(xiǎn)因素。Guo等〔7〕發(fā)現(xiàn),腫瘤分級(jí)、黏液性腺癌和年齡影響M1期CRC患者預(yù)后。陳晨等〔6〕發(fā)現(xiàn)轉(zhuǎn)移的位置對(duì)CRC轉(zhuǎn)移患者預(yù)后影響相當(dāng)重要。以往研究?jī)H表明化療與M1期CRC患者的生存受益呈正相關(guān)〔13,14〕。Ishihara等〔15〕指出,原發(fā)部位手術(shù)切除相對(duì)于不進(jìn)行手術(shù)切除,可以延長(zhǎng)轉(zhuǎn)移性結(jié)直腸癌患者的總生存期(中位OS:7 vs 4個(gè)月)。不同的是,本研究通過RSF的交互作用分析發(fā)現(xiàn)化療與原發(fā)部位手術(shù)兩種治療方式之間存在強(qiáng)交互作用,相對(duì)于單純化療或單純手術(shù),同時(shí)接受手術(shù)切除和化療的患者實(shí)際獲益大于兩者之和,表明患者在接受手術(shù)后又進(jìn)一步接受化療是有意義的。再者,美國(guó)國(guó)立綜合癌癥網(wǎng)絡(luò)指南和中國(guó)臨床腫瘤學(xué)會(huì)也建議轉(zhuǎn)移性疾病和原發(fā)腫瘤進(jìn)行評(píng)估后盡可能手術(shù)切除。
目前,影響M1期老年CRC患者預(yù)后的相關(guān)因素已被相繼揭示,但關(guān)于因素間的交互作用對(duì)預(yù)后的影響分析仍屬空白。本研究將RSF結(jié)合傳統(tǒng)Cox模型運(yùn)用于CRC遠(yuǎn)處轉(zhuǎn)移患者的生存分析中,不僅確定了影響CRC預(yù)后的因素,還發(fā)現(xiàn)預(yù)后因素間的交互作用,可以更準(zhǔn)確預(yù)測(cè)M1期CRC患者的總體生存率,為患者個(gè)性化預(yù)后評(píng)價(jià)和臨床指導(dǎo)決策提供相關(guān)醫(yī)學(xué)依據(jù)。在一定程度上可以幫助臨床醫(yī)生進(jìn)行早期干預(yù)、評(píng)估和制定個(gè)體化治療方案,從而降低CRC轉(zhuǎn)移和復(fù)發(fā)的風(fēng)險(xiǎn)。
本研究是基于大型公共數(shù)據(jù)庫的一項(xiàng)回顧性研究,存在一些局限性。首先,由于基線數(shù)據(jù)的不完整導(dǎo)致數(shù)據(jù)刪除,可能會(huì)與原始總體之間存在偏差。其次,有限的變量導(dǎo)致VIMP法篩選變量的優(yōu)勢(shì)表現(xiàn)不明顯。最后,由于臨床上CRC遠(yuǎn)處轉(zhuǎn)移患者的樣本量較少,未能進(jìn)行外部驗(yàn)證。未來希望可以進(jìn)一步對(duì)國(guó)內(nèi)本土數(shù)據(jù)進(jìn)行研究,構(gòu)建相應(yīng)的生存預(yù)測(cè)模型,以期得出國(guó)內(nèi)本土M1期CRC患者預(yù)后的影響因素,為國(guó)內(nèi)患者制定個(gè)性化管理策略以輔助臨床醫(yī)生改善CRC患者的預(yù)后生存狀況。