谷鴻秋,王春娟,李子孝,王伊龍,王擁軍,姜勇,3
中國是卒中終身風(fēng)險(xiǎn)最高的國家,全球疾病負(fù)擔(dān)研究顯示,中國卒中終身風(fēng)險(xiǎn)高達(dá)39.3%,將近全球平均水平的1.6倍[1]。在國內(nèi),卒中在單病種死因順位排名自2010年后一直位居第一[2-3]。卒中的高患病率、高死亡率及高致殘率給中國的醫(yī)療保健系統(tǒng)造成了沉重的負(fù)擔(dān)。缺血性卒中是卒中的主要類型,約占80%以上[4]。缺血性卒中的預(yù)后不穩(wěn)定,易復(fù)發(fā),且早期復(fù)發(fā)風(fēng)險(xiǎn)最高。據(jù)氯吡格雷用于急性非致殘性腦血管事件高危人群的療效(Clopidogrel in High-Risk Patients with Acute Nondisabling Cerebrovascular Events,CHANCE)研究顯示,超過80%的卒中復(fù)發(fā)發(fā)生在14 d內(nèi)[5]。因此,利用預(yù)測模型準(zhǔn)確預(yù)測卒中早期復(fù)發(fā)風(fēng)險(xiǎn),提升患者的精準(zhǔn)風(fēng)險(xiǎn)分層與管理、優(yōu)化醫(yī)療資源配置、降低院內(nèi)卒中復(fù)發(fā)是卒中二級預(yù)防中不可忽視的環(huán)節(jié)。
關(guān)于缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測,目前缺乏特異性的工具。傳統(tǒng)的風(fēng)險(xiǎn)預(yù)測模型,主要是基于Logistic回歸或者Cox回歸模型構(gòu)建,但機(jī)器學(xué)習(xí)算法在處理高維變量,以及變量間復(fù)雜的交互作用、非線性關(guān)系上具有獨(dú)特的優(yōu)勢,尤其是XGBoost[6]。本文利用中國國家卒中登記Ⅱ(China National Stoke Registry Ⅱ,CNSRⅡ)數(shù)據(jù)[7],分別利用傳統(tǒng)的Logistic回歸和機(jī)器學(xué)習(xí)算法XGBoost構(gòu)建缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型,并進(jìn)行初步比較,探討兩種模型的預(yù)測價值,以期為后續(xù)建立更加完善的缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型提供借鑒。
1.1 研究隊(duì)列與人群 本研究的研究對象來源于CNSRⅡ項(xiàng)目。CNSRⅡ納入2012年5月-2013年1月全國219家醫(yī)院發(fā)病7 d內(nèi)的急性卒中住院患者。本研究患者納入標(biāo)準(zhǔn):①年齡>18歲;②缺血性卒中患者;③患者出院方式為醫(yī)囑離院(考慮到轉(zhuǎn)院或非醫(yī)囑離院的患者可能因?yàn)樵谠簳r間短暫,院內(nèi)復(fù)發(fā)事件難以被觀測捕捉到)。排除標(biāo)準(zhǔn):血液檢測指標(biāo)缺失。
1.2 預(yù)測因子與結(jié)局 結(jié)合急性缺血性卒中早期管理指南[8]、文獻(xiàn)報(bào)道的相關(guān)評分預(yù)測模型[9]及CNSRⅡ數(shù)據(jù)特點(diǎn),確定備選的預(yù)測因子包括人口學(xué)特征(性別、年齡、教育程度、家庭月收入、吸煙、飲酒),卒中嚴(yán)重程度(入院NIHSS評分、發(fā)病前mRS評分),既往病史(卒中、高血壓、糖尿病、血脂異常、心房顫動、周圍血管疾病、心肌梗死/冠心?。盟幨罚寡“逅?、抗凝藥、降壓藥、降脂藥、降糖藥)以及臨床測量指標(biāo)(TC、TG、LDL-C、HDL-C、收縮壓、舒張壓)。結(jié)局為院內(nèi)的卒中復(fù)發(fā)事件,包括缺血性卒中和出血性卒中。
1.3 模型構(gòu)建方法
1.3.1 Logistic回歸 Logistic回歸是預(yù)測結(jié)局變量為二分類變量時最為常用的統(tǒng)計(jì)模型,其通用形式為:
其中x1,x 2,…,x m即為預(yù)測因子,b1,b2,…,bm為m個預(yù)測因子的回歸系數(shù)。①式經(jīng)過簡單變換,可得預(yù)測事件的概率P。
1.3.2 XGBoost XGBoost是基于決策樹使用梯度提升框架的集成機(jī)器學(xué)習(xí)算法,由華人學(xué)者陳天奇博士于2016年提出[6]。XGBoost的思想是先從初始訓(xùn)練集訓(xùn)練出一個基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的表現(xiàn)對訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)受到更多關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個基學(xué)習(xí)器;如此重復(fù)進(jìn)行,直至基學(xué)習(xí)器數(shù)目達(dá)到事先指定的值T,最終將這T個基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。XGBoost的基學(xué)習(xí)器就是一棵樹分類器。XGBoost的簡要算法的數(shù)學(xué)描述:假設(shè)有k棵樹,則模型的表達(dá)式為:
其中F表示回歸森林中的所有函數(shù)空間。fk(xi)表示第i個樣本在第k棵樹中落在葉子的權(quán)重。目標(biāo)函數(shù)為:
其中,L是損失函數(shù),用來估計(jì)預(yù)測值??與真實(shí)值yi的差距,正則項(xiàng)Ω,可以懲罰模型的復(fù)雜度,避免過擬合。
1.4 統(tǒng)計(jì)學(xué)方法 本研究的所有統(tǒng)計(jì)分析均在R(3.6.2版)中完成。Logistic回歸采用stats包的glm函數(shù),XGBoost采用XGBoost包(1.0.0.1版)的xgb.train函數(shù)。超參數(shù)的調(diào)整優(yōu)化采用mlr包(2.17.1版),并采用隨機(jī)搜索算法。符合本研究要求的數(shù)據(jù)集將按7∶3的比例隨機(jī)拆分為訓(xùn)練集與測試集,訓(xùn)練集用來擬合預(yù)測模型,測試集用來評價模型效果。為防止過擬合,提高模型預(yù)測性能,Logistic回歸預(yù)測模型中,通過赤池信息準(zhǔn)則(Akaike information criterion,AIC)篩選訓(xùn)練集中的最優(yōu)模型。XGBoost預(yù)測模型中,采用10折交叉驗(yàn)證法,將訓(xùn)練集進(jìn)一步細(xì)分為10份,循環(huán)抽取其中的一份作為驗(yàn)證集,用于調(diào)整XGBoost的超參數(shù)。Logistic預(yù)測模型中預(yù)測因子的效應(yīng)通過回歸系數(shù)或者OR值及其95%CI體現(xiàn),XGBoost預(yù)測模型中,預(yù)測因子的重要性通過SHAP(Shapley Additive Explanation)值體現(xiàn),SHAP值越高,預(yù)測因子越重要[10]。模型的預(yù)測性能將從區(qū)分度和校準(zhǔn)度兩個方面進(jìn)行比較和評價。區(qū)分度指標(biāo)采用受試者工作特征曲線下面積(area under the curve,AUC),AUC值越高,表明模型的區(qū)分度越高。校準(zhǔn)度指標(biāo)采用校準(zhǔn)截距、校準(zhǔn)斜率以及Brier得分[11],并繪制校準(zhǔn)度曲線。校準(zhǔn)截距和Brier得分越趨近0,校準(zhǔn)斜率越趨近1,模型的校準(zhǔn)度越好。P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
2.1 人群基本特征 納入CNSRⅡ項(xiàng)目中按醫(yī)囑離院的急性缺血性卒中患者總計(jì)18 142例,剔除了血液檢測指標(biāo)缺失病例915例,17 227例進(jìn)入最終分析。平均年齡64.72±11.84歲,女性6317例(36.7%),發(fā)病前mRS評分為0或1分的病例14 482例(84.1%),入院NIHSS評分4(2~6)分。6095例(35.2%)有卒中病史,伴有高血壓、糖尿病及血脂異常病史的患者,分別為13 153例(76.4%)、4493例(26.1%)和6120例(35.5%)。服用抗血小板、降壓、降糖及降脂藥的患者分別為3338例(19.4%)、7749例(45.0%)、2965例(6.7%)和1156例(15.6%)。總計(jì)444例(2.6%)的患者院內(nèi)復(fù)發(fā)卒中。各特征在訓(xùn)練集和測試集的數(shù)據(jù)上非常接近(表1)。
2.2 預(yù)測模型構(gòu)建 Logistic回歸預(yù)測模型中,最終納入年齡、家庭月收入、發(fā)病前mRS評分、入院NIHSS評分、卒中史、心房顫動、心肌梗死/冠心病、抗血小板、降壓藥、LDL-C、收縮壓及舒張壓12個預(yù)測因子,具體的回歸系數(shù)及相對效應(yīng)見表2。其中,發(fā)病前mRS評分、心房顫動及卒中史是前三位強(qiáng)預(yù)測因子。XGBoost預(yù)測模型,由8棵決策樹組合而成,其中第一棵決策樹如圖1所示。XGBoost構(gòu)建的預(yù)測模型中,前三位強(qiáng)預(yù)測因子為發(fā)病前mRS評分、心房顫動及TC,具體如圖2所示。
表1 研究對象基本特征
2.3 預(yù)測模型性能比較 在訓(xùn)練集中,Logistic回歸預(yù)測模型的AUC低于XGBoo s t預(yù)測模型(0.67,95%CI0.64~0.70vs0.72,95%CI0.69~0.76,P=0.0176);在測試集中,與XGBoost預(yù)測模型差異無統(tǒng)計(jì)學(xué)意義(0.63,95%CI0.58~0.68vs0.64,95%CI0.59~0.68,P=0.9229)(圖3)。
Logistic預(yù)測模型在訓(xùn)練集中的校準(zhǔn)截距、校準(zhǔn)斜率以及Brier得分分別為0.00、1.00、0.02;在測試集中,分別為-0.81、0.76、0.03。XGBoost預(yù)測模型在訓(xùn)練集中校準(zhǔn)截距、校準(zhǔn)斜率及Brier得分分別為3.31、3.90、0.35;在測試集中分別為-1.37、1.20、0.38。Logistic預(yù)測模型的校準(zhǔn)度要好于XGBoost預(yù)測模型,尤其是在訓(xùn)練集數(shù)據(jù)中(圖4)。
本研究基于CNSRⅡ項(xiàng)目中按醫(yī)囑離院的缺血性卒中病例,分別采用了傳統(tǒng)的Logistic回歸和機(jī)器學(xué)習(xí)方法XGBoost構(gòu)建缺血性卒中院內(nèi)復(fù)發(fā)的預(yù)測模型。結(jié)果顯示,Logistic回歸與XGBoost方法在預(yù)測性能上非常接近,XGBoost方法在訓(xùn)練集上AUC更高,而Logistic回歸的校準(zhǔn)度更高,尤其是在訓(xùn)練集數(shù)據(jù)上。
相較于傳統(tǒng)Logistic回歸或者Cox比例風(fēng)險(xiǎn)回歸模型,機(jī)器學(xué)習(xí)算法在處理高維變量,以及變量間復(fù)雜的交互作用、非線性關(guān)系上具有獨(dú)特的優(yōu)勢。XGBoost是機(jī)器學(xué)習(xí)中的一種梯度提升算法,其軟件包有其獨(dú)特的優(yōu)點(diǎn),比如:支持并行計(jì)算,可調(diào)用計(jì)算機(jī)的所有內(nèi)核同時運(yùn)算;支持正則化,可防止模型過擬合;自帶交叉驗(yàn)證及缺失值處理機(jī)制;靈活支持個性化目標(biāo)函數(shù)和評估指標(biāo)。因此,XGBoost在預(yù)測模型中,受到越來越多的關(guān)注和研究,例如,基于國際多中心注冊研究的急性心肌梗死預(yù)測研究[12],基于醫(yī)院電子健康檔案的卒中后肺炎預(yù)測[13],基于患者病史和分診時收集的信息預(yù)測住院患者人數(shù)[14]以及癌癥患者化療后的短期死亡預(yù)測等[15]。由于各研究中具體的研究問題、研究設(shè)計(jì)及數(shù)據(jù)不同,XGBoost預(yù)測模型的表現(xiàn)也不盡相同,和傳統(tǒng)Logistic回歸預(yù)測模型相比,有些情形下兩者相當(dāng),有些情形下XGBoost更優(yōu)。
表2 基于Logistic回歸的預(yù)測模型
本研究個案結(jié)果顯示,相比Logistic回歸,XGBoost預(yù)測模型并未顯示出特別的優(yōu)越性。這可能與研究的數(shù)據(jù)有較大的關(guān)系。研究數(shù)據(jù)的維度(變量的個數(shù),變量的種類)、性質(zhì)(是否包含了真正有預(yù)測作用的變量)、數(shù)據(jù)量(樣本量)均有可能影響預(yù)測模型的效能。本研究中,預(yù)測變量維度和數(shù)量有限,這可能在一定程度上限制了機(jī)器學(xué)習(xí)算法的優(yōu)勢。一些強(qiáng)預(yù)測因子,比如氧化低密度脂蛋白、中性粒細(xì)胞計(jì)數(shù)、應(yīng)激性高血糖等血液指標(biāo)[16-20],梗死模式、狹窄程度等影像指標(biāo)均未采集[21],無法納入預(yù)測模型中。
圖2 XGBoost構(gòu)建的預(yù)測模型中預(yù)測因子SHAP值
圖3 Logistic與XGBoost構(gòu)建的預(yù)測模型的ROC曲線
圖4 Logistic與XGBoost構(gòu)建的預(yù)測模型的校準(zhǔn)度
考察預(yù)測模型的好壞,不僅需要評估其預(yù)測性能,還需考慮數(shù)據(jù)采集的成本、開發(fā)的難易度以及應(yīng)用的便利性。一個預(yù)測性能良好的預(yù)測模型,只有真正普及應(yīng)用到臨床,才能對患者實(shí)現(xiàn)精準(zhǔn)風(fēng)險(xiǎn)分層管理,優(yōu)化資源配置、改善患者結(jié)局,提高醫(yī)療質(zhì)量。傳統(tǒng)的Logistic回歸旨在盡可能用最少的預(yù)測變量獲得最佳的預(yù)測效能,因此,一般來說數(shù)據(jù)采集成本較低,且其原理清晰易理解,開發(fā)方便,后期也便于制作評分系統(tǒng)、列線圖或者顏色打分卡等不需要電子設(shè)備支持即可應(yīng)用于臨床的實(shí)用工具[22]。機(jī)器學(xué)習(xí)算法XGBoost原理較為復(fù)雜,開發(fā)過程長(比如數(shù)據(jù)需要轉(zhuǎn)換為稀疏矩陣、需要對超參數(shù)進(jìn)行調(diào)整等),在預(yù)測變量多、關(guān)系復(fù)雜、數(shù)據(jù)量大時,旨在盡可能用當(dāng)下所有的預(yù)測變量獲得最佳的預(yù)測效能,若能將其嵌于臨床診療系統(tǒng)中,整合在在臨床實(shí)踐中,則數(shù)據(jù)收集和應(yīng)用將更為方便,如此方能體現(xiàn)其優(yōu)勢。
傳統(tǒng)的Logistic回歸與XGBoost方法,在預(yù)測模型的構(gòu)建中,各有優(yōu)劣。研究者可依據(jù)具體的研究問題、研究數(shù)據(jù),并考慮到后續(xù)的推廣使用的成本和便利性,綜合決定。隨著大數(shù)據(jù)相關(guān)的基礎(chǔ)設(shè)施和技術(shù)的普及,機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測模型,將會有廣闊的應(yīng)用前景。