安夢霞,崔曉娜,孫繼宏,張瀚文,洪嘉源,王萍玉
濱州醫(yī)學(xué)院公共衛(wèi)生與管理學(xué)院,山東 煙臺 264003
肺癌是全球最常見的腫瘤,約25%的腫瘤患者死于肺癌[1],其中非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)約占80%[2]。即使目前診斷篩查技術(shù)飛速發(fā)展,但大多數(shù)患者初診時(shí)已處于晚期,出現(xiàn)腫瘤細(xì)胞向遠(yuǎn)處器官轉(zhuǎn)移,其中腦轉(zhuǎn)移是NSCLC最主要的死亡原因[3]。研究報(bào)道,肺腺癌(lung adenocarcinoma,LUAD)在NSCLC亞組中腦轉(zhuǎn)移發(fā)生率最高[4-5],患者預(yù)后差,中位生存期縮短[6]。文獻(xiàn)檢索發(fā)現(xiàn),目前國內(nèi)外鮮有預(yù)測LUAD腦轉(zhuǎn)移的臨床模型。因此,本研究擬建立一個(gè)可視化LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的列線圖預(yù)測模型,易于識別高風(fēng)險(xiǎn)患者,幫助臨床醫(yī)師采取個(gè)體化干預(yù)措施,降低患者腦轉(zhuǎn)移率,提高其生存率,現(xiàn)報(bào)道如下。
本研究數(shù)據(jù)來源于美國國家癌癥研究所(National Cancer Institute,NCI)監(jiān)測、流行病學(xué)和最終結(jié)果(Surveillance,Epidemiology,and End Results,SEER)數(shù)據(jù)庫。運(yùn)用SEER*Stat 8.3.9.1軟件對2010—2015年SEER數(shù)據(jù)庫中LUAD數(shù)據(jù)進(jìn)行篩選。納入標(biāo)準(zhǔn):①第一惡性腫瘤;②組織學(xué)類型為LUAD;③具有完整的臨床資料。排除標(biāo)準(zhǔn):①多原發(fā)性腫瘤;②病例通過尸檢或死亡證明確診;③來自臨床診斷的病例;④死亡原因信息缺失;⑤生存時(shí)間<1個(gè)月;⑥臨床資料信息不明確。最終篩選出58 928例LUAD患者,其中腦轉(zhuǎn)移患者(腦轉(zhuǎn)移組)7931例,非腦轉(zhuǎn)移患者(非腦轉(zhuǎn)移組)50 997例。
提取患者的年齡、性別、種族、腫瘤部位、T分期、N分期、是否手術(shù)、是否放療、是否化療、腫瘤大小、淋巴結(jié)清掃數(shù)目、是否骨轉(zhuǎn)移、是否肝轉(zhuǎn)移、婚姻狀況、生存時(shí)間以及生存狀態(tài)。
采用R4.1.0軟件進(jìn)行數(shù)據(jù)分析及繪圖。采用survminer包進(jìn)行生存分析;采用caret包將數(shù)據(jù)分為訓(xùn)練集(70%)和驗(yàn)證集(30%);計(jì)數(shù)資料以例數(shù)及率(%)表示,組間比較采用tableone包的χ2檢驗(yàn);采用glmmet包進(jìn)行Lasso回歸分析對變量進(jìn)行降維,篩選最優(yōu)預(yù)測變量,將最優(yōu)預(yù)測變量納入多因素Logistic回歸分析進(jìn)一步篩選;采用rms包綜合篩選后的預(yù)測變量建立LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的列線圖模型;采用pROC包繪制訓(xùn)練集和驗(yàn)證集列線圖模型的受試者工作特征(receiver operating characteristic,ROC)曲線驗(yàn)證模型區(qū)分度;采用1000次有放回重復(fù)采樣的Boostrap繪制校正曲線并采用Brier評分驗(yàn)證模型的校準(zhǔn)度;采用rmda包進(jìn)行決策曲線分析(decision curve analysis,DCA),評價(jià)列線圖模型的臨床效能。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
從SEER數(shù)據(jù)庫中最終篩選出58 928例LUAD患者納入本研究,按照7∶3比例隨機(jī)分組,其中訓(xùn)練集41 250例,驗(yàn)證集17 678例。訓(xùn)練集和驗(yàn)證集患者的各臨床特征比較,差異均無統(tǒng)計(jì)學(xué)意義(P>0.05),具有可比性。(表1)
表1 訓(xùn)練集與驗(yàn)證集患者臨床特征的比較
LUAD患者中位生存時(shí)間為24個(gè)月(95%CI:23.535~24.465),其中LUAD腦轉(zhuǎn)移組患者的中位生存時(shí)間為7個(gè)月,非腦轉(zhuǎn)移組患者中位生存時(shí)間為30個(gè)月。Kaplan-Meier分析結(jié)果顯示,LUAD腦轉(zhuǎn)移組患者的生存情況明顯差于非腦轉(zhuǎn)移組患者,差異有統(tǒng)計(jì)學(xué)意義(χ2=4684.881,P<0.01)。(圖1)
圖1 腦轉(zhuǎn)移組(n=7931)與非腦轉(zhuǎn)移組(n=50 997)LUAD患者的生存曲線
將訓(xùn)練集中14個(gè)變量納入Lasso回歸分析,通過Lasso回歸分析對變量進(jìn)行降維,以五折交叉法驗(yàn)證確定最佳懲罰系數(shù)(λ),篩選出對預(yù)測LUAD腦轉(zhuǎn)移最有意義的特征變量。防止模型過度擬合,最后部分變量的回歸系數(shù)被壓縮為0(圖2A)。本研究選擇二項(xiàng)式偏差和Lasso回歸對數(shù)(λ)曲線中右側(cè)垂直虛線的λ值(λ=0.00567),篩選出9個(gè)最優(yōu)預(yù)測變量,分別為年齡、T分期、N分期、腫瘤大小、淋巴結(jié)清掃數(shù)目、是否手術(shù)、是否放療、是否骨轉(zhuǎn)移、是否肝轉(zhuǎn)移(圖2B)。
圖2 Lasso回歸篩選LUAD腦轉(zhuǎn)移的最佳預(yù)測變量
以是否發(fā)生腦轉(zhuǎn)移為因變量,Lasso回歸篩選出的9個(gè)預(yù)測變量為自變量,納入多因素Logistic回歸分析,結(jié)果顯示:年齡、T分期、N分期、腫瘤大小、淋巴結(jié)清掃數(shù)目、是否手術(shù)、是否放療、是否骨轉(zhuǎn)移、是否肝轉(zhuǎn)移均是LUAD患者發(fā)生腦轉(zhuǎn)移的獨(dú)立影響因素。(表2)
表2 LUAD患者發(fā)生腦轉(zhuǎn)移影響因素的多因素Logistic回歸分析
基于Lasso回歸和Logistic多因素回歸分析篩選出9個(gè)預(yù)測變量。由于腫瘤大小、骨轉(zhuǎn)移對應(yīng)的回歸系數(shù)較小,對模型預(yù)測結(jié)果影響也小,故僅納入年齡、T分期、N分期、淋巴結(jié)清掃數(shù)目、手術(shù)、放療、肝轉(zhuǎn)移7個(gè)預(yù)測變量構(gòu)建列線圖。對應(yīng)變量的右邊刻度線段表示該變量的取值范圍,每個(gè)變量的每個(gè)取值水平對應(yīng)圖中最上方的分值進(jìn)行評分,然后再將所有評分相加對應(yīng)圖下方總分值,便可計(jì)算出LUAD腦轉(zhuǎn)移的風(fēng)險(xiǎn)概率,列線圖總分越高,發(fā)生腦轉(zhuǎn)移概率也越大。(圖3)
圖3 預(yù)測LUAD患者腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的列線圖
訓(xùn)練集列線圖預(yù)測LUAD發(fā)生腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的曲線下面積(area under the curve,AUC)為0.853(95%CI:0.848~0.857),約登指數(shù)為0.556,最佳截?cái)嘀禐?54;驗(yàn)證集列線圖的AUC為0.851(95%CI:0.844~0.858),約登指數(shù)為0.557,最佳截?cái)嘀禐?62,表明模型的區(qū)分度良好(表3、圖4)。訓(xùn)練集與驗(yàn)證集實(shí)際預(yù)測曲線與模擬預(yù)測曲線接近重合,同時(shí)結(jié)果顯示訓(xùn)練集與驗(yàn)證集Brier評分均為0.092,均接近0,表明該模型穩(wěn)定性較強(qiáng),有較好的校準(zhǔn)能力(圖5)。DCA曲線顯示訓(xùn)練集和驗(yàn)證集的風(fēng)險(xiǎn)閾值為0.0~0.7時(shí),基于列線圖模型采取臨床干預(yù)決策帶來的凈收益率高于未采取臨床干預(yù)決策,表明該列線圖預(yù)測模型的臨床效能好(圖6)。
圖4 列線圖模型預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的ROC曲線
圖5 預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率列線圖模型的校準(zhǔn)曲線
圖6 預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率列線圖模型的DCA曲線
表3 列線圖模型預(yù)測LUAD患者腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的效能
列線圖作為新穎而簡便的統(tǒng)計(jì)工具[7],可以對LUAD患者腦轉(zhuǎn)移發(fā)生風(fēng)險(xiǎn)進(jìn)行預(yù)測,識別高風(fēng)險(xiǎn)患者,為患者的個(gè)體化治療提供科學(xué)依據(jù),降低腦轉(zhuǎn)移發(fā)生率。多項(xiàng)研究表明,NSCLC亞組中LUAD腦轉(zhuǎn)移發(fā)生率最高[8-9],腦轉(zhuǎn)移瘤損壞中樞神經(jīng)系統(tǒng),降低認(rèn)知、運(yùn)動(dòng)、情感等高級活動(dòng)功能[10]。LUAD腦轉(zhuǎn)移患者中位總生存期明顯短于非腦轉(zhuǎn)移患者,預(yù)后差。目前,臨床缺乏準(zhǔn)確性高、適用范圍廣的有效預(yù)測模型。因此,本研究綜合LUAD腦轉(zhuǎn)移獨(dú)立影響因素建立預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的列線圖模型。
本研究的創(chuàng)新之處是應(yīng)用Lasso回歸分析篩選出最具代表性的預(yù)測變量構(gòu)建列線圖預(yù)測模型。相比于傳統(tǒng)的Logistic回歸、最優(yōu)子集法、隨機(jī)森林法,Lasso回歸的另一個(gè)優(yōu)勢是可以對多重共線性的預(yù)測變量進(jìn)行降維,篩選出最具代表性的預(yù)測變量,使模型更穩(wěn)定,降低了模型的復(fù)雜度,防止模型過度擬合[11]。Lasso回歸已被廣泛用于醫(yī)學(xué)領(lǐng)域[12],本研究基于Lasso回歸模型對預(yù)測變量進(jìn)行了篩選,結(jié)果從14個(gè)主要預(yù)測變量減少到9個(gè),最終納入了年齡、T分期、N分期、淋巴結(jié)清掃數(shù)目、是否手術(shù)、是否放療、是否肝轉(zhuǎn)移7個(gè)最優(yōu)預(yù)測變量構(gòu)建預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險(xiǎn)概率的列線圖模型。模型在訓(xùn)練集(AUC=0.853)和驗(yàn)證集(AUC=0.851)中都具有良好的區(qū)分能力,校準(zhǔn)曲線和Brier評分均顯示模型預(yù)測準(zhǔn)確度高,DCA顯示該列線圖預(yù)測模型的臨床效能好。
LUAD患者發(fā)生腦轉(zhuǎn)移風(fēng)險(xiǎn)因素分析如下:①年齡是LUAD患者發(fā)生腦轉(zhuǎn)移的重要影響因素,年齡與LUAD患者發(fā)生腦轉(zhuǎn)移風(fēng)險(xiǎn)呈負(fù)相關(guān)。年齡越小,腦血管血流阻力越低,腦組織代謝功能越強(qiáng),腦血管血流量越充足,給腫瘤細(xì)胞轉(zhuǎn)移提供良好的微環(huán)境[13],發(fā)生腦轉(zhuǎn)移風(fēng)險(xiǎn)顯著增加[14]。②腫瘤T分期、N分期是LUAD患者發(fā)生腦轉(zhuǎn)移的影響因素,與發(fā)生腦轉(zhuǎn)移風(fēng)險(xiǎn)呈正相關(guān)。T、N分期越高,腫瘤浸潤生長范圍越大[15],腫瘤細(xì)胞活躍及侵襲能力越強(qiáng),更容易通過血行轉(zhuǎn)移發(fā)生腦轉(zhuǎn)移。③淋巴結(jié)清掃數(shù)目是LUAD患者的保護(hù)因素,多項(xiàng)研究表明,LUAD最常見的手術(shù)方式是淋巴結(jié)清掃,可以降低腦轉(zhuǎn)移率[16-17],最佳淋巴結(jié)清掃數(shù)目為≥15,原因可能是淋巴結(jié)清掃數(shù)目多,一些手術(shù)前檢測不到的微轉(zhuǎn)移灶被清除,減少了術(shù)后微轉(zhuǎn)移灶殘留[18]。④文獻(xiàn)報(bào)道,手術(shù)是LUAD首選治療方式,是降低腦轉(zhuǎn)移發(fā)生率的重要影響因素,治療原則為根治性切除,延長患者總生存期[19-20]。本研究結(jié)果也顯示,手術(shù)治療與LUAD患者腦轉(zhuǎn)移發(fā)生風(fēng)險(xiǎn)呈正相關(guān),已采取手術(shù)治療的患者腦轉(zhuǎn)移發(fā)生風(fēng)險(xiǎn)降低,與其結(jié)果一致。本研究預(yù)測模型顯示放療患者發(fā)生腦轉(zhuǎn)移風(fēng)險(xiǎn)是未放療患者的1.84倍,是LUAD患者發(fā)生腦轉(zhuǎn)移的危險(xiǎn)因素。但一項(xiàng)Meta分析中,放療是控制遠(yuǎn)處轉(zhuǎn)移的重要治療手段,可延長LUAD治療過程中初次出現(xiàn)腦轉(zhuǎn)移的時(shí)間[21],與本研究結(jié)果不一致。查閱大量文獻(xiàn),相關(guān)方面的研究有限,原因可能是SEER數(shù)據(jù)庫化療患者初診時(shí)已處于晚期,臨床癥狀嚴(yán)重,身體機(jī)能不能承受手術(shù)和藥物治療方式。⑤本研究還發(fā)現(xiàn)肝轉(zhuǎn)移列線圖評分越大,腦轉(zhuǎn)移的發(fā)生率越高。LUAD晚期往往發(fā)生血行轉(zhuǎn)移,首發(fā)的是肝轉(zhuǎn)移,腫瘤細(xì)胞進(jìn)入血液,隨著體循環(huán)轉(zhuǎn)移到腦部[22]。
本研究存在局限性,部分?jǐn)?shù)據(jù)如患者的家族遺傳史、吸煙情況、放化療具體臨床治療信息等未輸入SEER數(shù)據(jù)庫,造成結(jié)果存在誤差。本研究仍需收集多中心樣本數(shù)據(jù)資料進(jìn)行模型外部驗(yàn)證,完善預(yù)測模型。
綜上所述,本研究構(gòu)建的可視化LUAD患者腦轉(zhuǎn)移預(yù)測模型,經(jīng)AUC、校準(zhǔn)曲線、Brier評分、DCA曲線分析驗(yàn)證了模型識別腦轉(zhuǎn)移高?;颊叩臏?zhǔn)確度較高,以及預(yù)測模型在臨床上有較好的實(shí)用價(jià)值,有助于臨床醫(yī)師識別腦轉(zhuǎn)移高風(fēng)險(xiǎn)人群,提前制訂個(gè)體化干預(yù)措施,提高患者生活質(zhì)量,減輕社會(huì)疾病負(fù)擔(dān)。