陳思玎,谷鴻秋,黃馨瑩,劉歡,姜勇,2,王擁軍,3,4
卒中是全球死亡率最高的疾病之一,根據(jù)全球疾病負(fù)擔(dān)研究最新估計(jì),2017年我國(guó)卒中死亡率為106/10萬(wàn),居我國(guó)疾病死因首位[1-2]。利用預(yù)測(cè)模型預(yù)測(cè)卒中患者結(jié)局,對(duì)患者進(jìn)行精準(zhǔn)風(fēng)險(xiǎn)分層與管理有利于優(yōu)化醫(yī)療資源配置、降低卒中死亡率。
在結(jié)局為二分類問題的醫(yī)學(xué)數(shù)據(jù)集中,通常會(huì)存在正樣本(如患者死亡)和負(fù)樣本(如患者存活)比例不平衡的情況,即少數(shù)類樣本數(shù)量顯著少于多數(shù)類樣本的情況[3]。傳統(tǒng)分類算法會(huì)向多數(shù)類傾斜,導(dǎo)致少數(shù)類樣本檢出率不高[4]。如果不處理不平衡數(shù)據(jù),預(yù)測(cè)的結(jié)果會(huì)存在偏向性問題,在應(yīng)用于現(xiàn)實(shí)臨床場(chǎng)景時(shí),無(wú)法達(dá)到準(zhǔn)確預(yù)測(cè)正樣本的目的。本研究利用多中心登記的中國(guó)卒中聯(lián)盟(China Stoke Center Alliance,CSCA)數(shù)據(jù)庫(kù),采用欠采樣技術(shù)、特征選擇和平衡權(quán)重的方法,探索基于不平衡數(shù)據(jù)預(yù)測(cè)新發(fā)缺血性卒中患者院內(nèi)死亡的模型,同時(shí)比較機(jī)器學(xué)習(xí)模型和傳統(tǒng)logistic模型的預(yù)測(cè)性能,以期為建立更加完善的缺血性卒中院內(nèi)死亡預(yù)測(cè)模型提供借鑒。
1.1 研究對(duì)象 本研究的研究對(duì)象來(lái)源于CSCA數(shù)據(jù)庫(kù)。CSCA是一個(gè)全國(guó)性、以醫(yī)院為基礎(chǔ)、多中心、多方面干預(yù)和基于證據(jù)的績(jī)效衡量的監(jiān)測(cè)/反饋系統(tǒng),是由中國(guó)卒中學(xué)會(huì)發(fā)起,國(guó)家衛(wèi)生健康委員會(huì)神經(jīng)系統(tǒng)疾病醫(yī)療質(zhì)量控制中心指導(dǎo)的中國(guó)卒中醫(yī)療質(zhì)量規(guī)范和改進(jìn)項(xiàng)目[5]。本研究納入CSCA數(shù)據(jù)庫(kù)2015年8月1日-2019年7月31日急性新發(fā)缺血性卒中患者資料。入組標(biāo)準(zhǔn):①發(fā)病年齡≥18歲;②臨床確診為缺血性卒中或TIA;③發(fā)病7 d內(nèi)就診并住院治療的患者。排除標(biāo)準(zhǔn):①既往有缺血性卒中史或TIA病史;②院內(nèi)死亡/存活結(jié)局缺失。
1.2 預(yù)測(cè)因子與結(jié)局 CSCA數(shù)據(jù)庫(kù)資料的總變量有545個(gè),本研究的結(jié)局變量是急性新發(fā)缺血性卒中患者院內(nèi)死亡。結(jié)合臨床經(jīng)驗(yàn)及急性缺血性卒中早期管理指南、文獻(xiàn)報(bào)道的相關(guān)評(píng)分預(yù)測(cè)模型和CSCA數(shù)據(jù)特點(diǎn)確定備選預(yù)測(cè)因子,包括人口學(xué)特征(性別、年齡、民族等)、入院情況(BMI、入院吞咽功能評(píng)價(jià)等)、卒中單元、卒中嚴(yán)重程度(入院NIHSS評(píng)分)、既往史(吸煙、飲酒、高血壓等)、地區(qū)、家庭人均月收入、院內(nèi)并發(fā)癥(合并心房顫動(dòng)、心肌梗死等)、院內(nèi)藥物治療(抗栓藥物、降脂藥物等)和入院首次臨床檢測(cè)指標(biāo)(TC、TG、LDL-C、HDL-C、收縮壓、舒張壓等)等共54個(gè)變量(表1)[6-7]。
表1 入組患者基本特征
表1(續(xù))
1.3 數(shù)據(jù)預(yù)處理 刪除不合邏輯的異常值,刪除缺失值>30%的變量,連續(xù)變量利用interpolate函數(shù)進(jìn)行線性插值法填補(bǔ),分類變量利用mode函數(shù)進(jìn)行眾數(shù)填補(bǔ)。對(duì)地區(qū)等多分類變量且無(wú)等級(jí)含義的變量進(jìn)行獨(dú)熱(One-Hot)編碼。由于實(shí)驗(yàn)室數(shù)據(jù)存在連續(xù)變量數(shù)值波動(dòng)范圍較大的問題,本研究利用離差標(biāo)準(zhǔn)化的方法對(duì)其進(jìn)行線性變換,使數(shù)據(jù)按比例縮放并保持在[0,1]之間。
1.4 數(shù)據(jù)不平衡處理 數(shù)據(jù)結(jié)構(gòu):本研究中正樣本為院內(nèi)患者死亡,負(fù)樣本為院內(nèi)患者存活,考慮到正負(fù)樣本極不平衡,針對(duì)處理后的數(shù)據(jù)集,利用imblearn庫(kù)中的隨機(jī)欠采樣方法進(jìn)行不平衡處理,對(duì)訓(xùn)練集的結(jié)局變量也進(jìn)行隨機(jī)欠采樣處理。隨機(jī)欠采樣原理是從多數(shù)類樣本中隨機(jī)選取一些樣本剔除掉。設(shè)置采樣策略為0.3,即欠采樣后正樣本為負(fù)樣本的30%。
算法結(jié)構(gòu):對(duì)每個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練時(shí)均設(shè)置平衡權(quán)重的參數(shù),助推(boosting)模型(XGBoost和Catboost)設(shè)置scale_pos_weight參數(shù)為負(fù)樣本數(shù)/正樣本數(shù)。隨機(jī)森林(random forest)、支持向量機(jī)(support vector machine,SVM)和logistic模型設(shè)置class_weight為balanced。
1.5 模型構(gòu)建方法
1.5.1 特征選擇 特征選擇是在建立模型之前減少輸入預(yù)測(cè)因子數(shù)量的過程??紤]到本研究樣本量過大,會(huì)存在有統(tǒng)計(jì)學(xué)意義但可能沒有臨床意義的指標(biāo)。因此本研究通過機(jī)器學(xué)習(xí)的特征選擇預(yù)先挑選出一個(gè)最相關(guān)的特征子集,這些特征(即預(yù)測(cè)因子)則是為后續(xù)建模做出最大貢獻(xiàn)的預(yù)測(cè)因子集合。此外,簡(jiǎn)化輸入預(yù)測(cè)因子的數(shù)量可以提高計(jì)算效率,提高模型的可解釋性。特征選擇過程包括兩個(gè)步驟:特征重要性排序和子集特征選擇。
XGBoost是集成學(xué)習(xí)boosting方法的一種,兼具線性規(guī)模求解器和樹學(xué)習(xí)算法,可以在建造樹的同時(shí)自動(dòng)選擇特征,是一種正則化模型。為了更合理地識(shí)別輸入特征的相對(duì)重要性,以及防止過擬合并提高模型的泛化能力,本研究利用train_test_split函數(shù)以7:3比例的留出法進(jìn)行5次隨機(jī)分組。利用XGBoost模型和SelectFromModel分類器,再對(duì)5次隨機(jī)分組樣本分別進(jìn)行特征篩選,對(duì)feature_importances_函數(shù)特征以重要性排序輸出的前20位預(yù)測(cè)因子求并集。然后對(duì)并集中的所有特征以AUC為標(biāo)準(zhǔn)進(jìn)行內(nèi)部循環(huán),設(shè)置步長(zhǎng)為1,最后篩選出最優(yōu)特征子集作為后續(xù)建模的預(yù)測(cè)因子。SelectFromModel是一個(gè)通用轉(zhuǎn)換器,如果相應(yīng)的coef或feature_importances值低于提供的閾值參數(shù),則認(rèn)為這些特性不重要并將其刪除。
1.5.2 機(jī)器學(xué)習(xí)模型 本研究涉及的機(jī)器學(xué)習(xí)模型有XGBoost、Catboost、隨機(jī)森林(random forest)和SVM四種。
①XGBoost模型:XGBoost是美國(guó)華盛頓大學(xué)于2016年開發(fā)的Boosting庫(kù),兼具線性規(guī)模求解器和樹學(xué)習(xí)算法[8]。XGBoost是對(duì)損失函數(shù)做了二階的泰勒展開,并在目標(biāo)函數(shù)之外加入了正則項(xiàng),整體求最優(yōu)解,用于權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度,避免過擬合,提高模型的求解效率。
②CatBoost模型:CatBoost是一種新的集成學(xué)習(xí)算法,具有獨(dú)特的對(duì)稱數(shù)結(jié)構(gòu),通過計(jì)算葉子節(jié)點(diǎn)的值來(lái)構(gòu)造決策樹,在此過程中,CatBoost對(duì)特征進(jìn)行了量化的度量[9]。
③隨機(jī)森林模型:隨機(jī)森林是將決策樹作為元分類器的一種集成學(xué)習(xí)方法,對(duì)變量共線性不作要求,其原理是通過自舉(bootstrap)抽樣方法從原始訓(xùn)練樣本集N中有放回地隨機(jī)抽取k個(gè)樣本生成相互之間有差異的新的訓(xùn)練子集,再根據(jù)k個(gè)訓(xùn)練子集建立k個(gè)決策樹,分類結(jié)果由k個(gè)決策樹投票決定[10]。
④支持向量機(jī)模型:SVM由Cortes與Vapnik[11]提出,Boser等[12]通過加入核技巧將線性支持向量機(jī)擴(kuò)展到非線性支持向量機(jī),SVM的基本模型是一種最大化樣本和類邊界之間距離的線性二分類模型,可以實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)的最小化。此外,SVM模型是基于小樣本數(shù)據(jù)建立的,能夠有效地避免高維數(shù)據(jù)分析中的維度災(zāi)難問題。該模型廣泛適用的分類函數(shù)有感知器、多項(xiàng)式和徑向基函數(shù)等。
1.6 統(tǒng)計(jì)學(xué)指標(biāo)和分析方法 比較不同模型對(duì)院內(nèi)死亡的預(yù)測(cè)性能時(shí),主要從區(qū)分度和校準(zhǔn)度兩個(gè)方面進(jìn)行比較和評(píng)價(jià)。在本研究中,區(qū)分度指標(biāo)采用ROC中的AUC,AUC值越高,表明模型的區(qū)分度越高。校準(zhǔn)度指標(biāo)采用Brier得分(評(píng)分范圍為0~1),Brier得分越趨近0,模型的校準(zhǔn)度越好[13]。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
(3)呼吸道護(hù)理:護(hù)理人員應(yīng)密切關(guān)注患兒呼吸,因患兒氣管細(xì)弱,在幫助患兒吸痰時(shí),應(yīng)使用直徑較小,材質(zhì)柔軟的吸管,動(dòng)作應(yīng)放輕柔,不可過重,同時(shí),應(yīng)注意調(diào)整負(fù)壓,保持用時(shí)在15s之內(nèi),以免損害粘膜,防止出現(xiàn)呼吸暫停的現(xiàn)象。
本研究涉及的其他指標(biāo)有準(zhǔn)確度、靈敏度、特異度以及G均值(G-mean)。G-mean是靈敏度和特異度的乘積的平方根,使用該指標(biāo)是為了衡量模型對(duì)不平衡數(shù)據(jù)的整體分類性能,G-mean值越大,說(shuō)明模型整體預(yù)測(cè)性能越好。
2.1 一般資料 研究共納入急性新發(fā)缺血性卒中患者602 259例,剔除院內(nèi)死亡/存活結(jié)局缺失病例793例,最終納入分析601 466例,其中院內(nèi)死亡患者2206例(0.37%);患者平均年齡為65.43±12.37歲;女性231 235例(38.45%),患者基本特征資料詳見表1。
2.2 預(yù)測(cè)模型變量篩選結(jié)果 選定進(jìn)入預(yù)測(cè)模型的最優(yōu)特征集:經(jīng)過數(shù)據(jù)預(yù)處理后,剔除9個(gè)缺失值>30%的變量,將剩余的45個(gè)基線變量作為預(yù)測(cè)因子進(jìn)行特征選擇,經(jīng)過5次重復(fù)和內(nèi)部循環(huán),設(shè)置循環(huán)步長(zhǎng)為1,進(jìn)入預(yù)測(cè)因子特征數(shù)為20時(shí)AUC在訓(xùn)練集上的表現(xiàn)最佳。這20個(gè)預(yù)測(cè)因子分別為:年齡、地區(qū)、入院NIHSS、心率、收縮壓、吞咽功能(困難)、心肌梗死史、心力衰竭史、心房顫動(dòng)史、院內(nèi)心房顫動(dòng)、院內(nèi)并發(fā)心肌梗死、院內(nèi)消化道出血、抗栓藥物治療及LDL-C、糖化血紅蛋白、血糖、肌酐、血清尿素氮、血小板計(jì)數(shù)、INR水平。最終上述20個(gè)特征組成的最優(yōu)特征子集進(jìn)入預(yù)測(cè)模型。機(jī)器學(xué)習(xí)模型中前3位強(qiáng)預(yù)測(cè)因子為入院NIHSS、吞咽功能(困難)、空腹血糖,其他特征對(duì)結(jié)局變量的具體影響見圖1。
圖1 構(gòu)建機(jī)器學(xué)習(xí)模型20個(gè)預(yù)測(cè)因子Shapley加法解釋圖
2.3 多因素logistic回歸模型 采用逐步回歸法從20個(gè)最優(yōu)特征中篩選18個(gè)預(yù)測(cè)因子進(jìn)入logistic回歸預(yù)測(cè)模型,分別是年齡、地區(qū)、入院NIHSS、心率、收縮壓、吞咽功能(困難)、心肌梗死史、心力衰竭史、心房顫動(dòng)史、院內(nèi)心房顫動(dòng)、院內(nèi)心肌梗死、院內(nèi)消化道出血、抗栓藥物治療及LDL-C、糖化血紅蛋白、血糖、血清尿素氮、血小板計(jì)數(shù)水平(表2)。
表2 多因素logistic回歸模型篩選出的院內(nèi)死亡預(yù)測(cè)因子
2.4 預(yù)測(cè)性能效果比較 進(jìn)行數(shù)據(jù)不平衡處理前,最優(yōu)特征子集在測(cè)試集logistic模型中AUC為0.902±0.007,靈敏度為0.008±0.003,G-mean為0.249±0.366。經(jīng)過數(shù)據(jù)不平衡處理后AUC為0.913±0.000,靈敏度為0.824±0.002,G-mean為0.846±0.001。
平衡數(shù)據(jù)后,測(cè)試集中機(jī)器學(xué)習(xí)XGBoost模型AUC為0.921±0.000,CatBoost模型AUC為0.919±0.001,隨機(jī)森林模型AUC為0.925±0.000,SVM模型AUC為0.900±0.001。其中XGBoost模型(P=0.0002)、CatBoost模型(P=0.0094)和隨機(jī)森林模型(P<0.0001)表現(xiàn)的預(yù)測(cè)性能優(yōu)于logistic模型,logistic模型表現(xiàn)優(yōu)于SVM模型(P=0.0029),隨機(jī)森林模型AUC最好。logistic模型、XGBoost模型、CatBoost模型、隨機(jī)森林模型、SVM模型的Brier分?jǐn)?shù)分別為0.115±0.001、0.096±0.001、0.093±0.001、0.084±0.000和0.045±0.001,SVM模型校準(zhǔn)度最好,機(jī)器學(xué)習(xí)模型的校準(zhǔn)度均優(yōu)于logistic模型,差異有統(tǒng)計(jì)學(xué)意義(均P<0.0100),詳細(xì)數(shù)據(jù)見表3。
表3 機(jī)器模型和logistic模型對(duì)院內(nèi)死亡預(yù)測(cè)性能的比較
在本研究中,新發(fā)卒中患者(包括缺血性卒中和TIA)共601 466例,院內(nèi)死亡2206例(0.37%)。其中院內(nèi)死亡患者數(shù)量遠(yuǎn)少于存活患者,即正負(fù)樣本極不平衡。如果不對(duì)不平衡數(shù)據(jù)進(jìn)行處理,會(huì)導(dǎo)致分類器訓(xùn)練后的模型偏向于多數(shù)類,存在預(yù)測(cè)的偏向性問題??紤]到本研究基于現(xiàn)實(shí)臨床場(chǎng)景,需要更準(zhǔn)確地預(yù)測(cè)院內(nèi)死亡患者,選擇隨機(jī)欠采樣的方式平衡數(shù)據(jù)結(jié)構(gòu),雖然欠采樣可以提升模型的泛化能力,但有一定的過擬合的風(fēng)險(xiǎn),故而在進(jìn)行特征選擇的時(shí)候使用了強(qiáng)正則化模型(XGBoost模型)進(jìn)行平衡,最后對(duì)算法結(jié)構(gòu)進(jìn)行平衡權(quán)重的調(diào)整。由于本研究樣本量過大,傳統(tǒng)顯著性檢驗(yàn)對(duì)樣本量較為敏感,會(huì)出現(xiàn)有統(tǒng)計(jì)學(xué)意義但實(shí)際可能沒有臨床意義的情況[14]。本研究通過探索機(jī)器學(xué)習(xí)的方法進(jìn)行特征選擇,獲得的最優(yōu)特征子集再進(jìn)入不同模型進(jìn)行訓(xùn)練和測(cè)試。為了增加機(jī)器學(xué)習(xí)的可解釋性,本研究顯示了最優(yōu)特征子集的20個(gè)預(yù)測(cè)因子在SHAP圖上的表現(xiàn)。在logistic模型的逐步回歸結(jié)果中顯示最優(yōu)特征集中有18個(gè)最后進(jìn)入模型,說(shuō)明本研究對(duì)于最優(yōu)特征子集選擇的合理性。另外,在測(cè)試集上每個(gè)模型的區(qū)分度指標(biāo)AUC和校準(zhǔn)度指標(biāo)Brier分?jǐn)?shù)均較好,說(shuō)明本研究特征選擇和模型訓(xùn)練的可行性。
在結(jié)果中可見,對(duì)數(shù)據(jù)進(jìn)行平衡處理前l(fā)ogistic模型返回的結(jié)果靈敏度較低(0.008±0.003),特異度較高(0.999±0.000),G-mean(0.249±0.366)較低,出現(xiàn)這種狀況是因?yàn)閷?duì)極不平衡數(shù)據(jù)直接進(jìn)行分析時(shí),訓(xùn)練后的模型偏向多數(shù)類(即存活患者結(jié)局)。盡管logistic模型所得區(qū)分度指標(biāo)AUC(0.902±0.007)和校準(zhǔn)度指標(biāo)brier分?jǐn)?shù)均較好(0.022±0.041),但因其過低的真陽(yáng)性率,在實(shí)際臨床應(yīng)用中不具備良好的鑒別死亡患者結(jié)局的能力,因而不具有可信度。通過平衡數(shù)據(jù)處理后,logistic模型所得區(qū)分度指標(biāo)AUC(0.913±0.000)和校準(zhǔn)度指標(biāo)brier分?jǐn)?shù)依舊較好(0.115±0.001),靈敏度和同時(shí)衡量靈敏度、特異度指標(biāo)的G-mean獲得了較大的提高(分別為0.824±0.002和0.846±0.001),此時(shí)訓(xùn)練后的logistic模型具有良好的鑒別正負(fù)樣本的能力。
在本研究中,數(shù)據(jù)平衡后每個(gè)模型的預(yù)測(cè)性能都較好。在機(jī)器學(xué)習(xí)模型中,從區(qū)分度指標(biāo)AUC值來(lái)看,隨機(jī)森林模型的效果最好且準(zhǔn)確率最高,其次是XGBoost模型、CatBoost模型和SVM模型。隨機(jī)森林模型、XGBoost模型和CatBoost模型AUC略高于logistic模型,而SVM模型AUC略低于logistic模型,且差異均有統(tǒng)計(jì)學(xué)意義。
本研究中每個(gè)模型的校準(zhǔn)度brier分?jǐn)?shù)均較好,但總體看機(jī)器學(xué)習(xí)模型的brier分?jǐn)?shù)低于傳統(tǒng)logistic模型,說(shuō)明機(jī)器學(xué)習(xí)模型的校準(zhǔn)度更好。在所有機(jī)器模型中,隨機(jī)森林模型表現(xiàn)最好,這可能與隨機(jī)森林算法隨機(jī)構(gòu)建樹節(jié)點(diǎn)以避免過擬合,比單獨(dú)的樹模型泛化能力有提升,并且對(duì)變量共線性不作要求等優(yōu)點(diǎn)有關(guān)。
盡管本研究通過平衡數(shù)據(jù)和歸一化處理優(yōu)化了SVM模型表現(xiàn),但SVM模型的性能最終仍略低于其他模型。SVM模型與其他模型相比更適合于樣本規(guī)模小、多特征的多維數(shù)據(jù)。在本研究的樣本量遠(yuǎn)大于特征量的情況下,SVM模型并沒有表現(xiàn)出明顯優(yōu)勢(shì),在訓(xùn)練過程中還消耗了大量的機(jī)器內(nèi)存和計(jì)算時(shí)間。同時(shí),與其他模型相比,SVM模型很難找到合適的核函數(shù),并且SVM模型只考慮邊界附近的點(diǎn)(支持向量),可能不會(huì)包含全部重要的預(yù)測(cè)因子。而logistic算法則考慮所有點(diǎn)(遠(yuǎn)離的點(diǎn)對(duì)邊界線的確定也起作用),這可能導(dǎo)致SVM模型忽略掉被logistic模型考慮進(jìn)去的個(gè)別預(yù)測(cè)因子,從而導(dǎo)致SVM模型的AUC表現(xiàn)略低。
本研究局限性在于僅采用隨機(jī)欠采樣的方式以平衡數(shù)據(jù),浪費(fèi)了部分負(fù)樣本數(shù)據(jù),未來(lái)可嘗試結(jié)合多種表現(xiàn)良好的過采樣技術(shù),如常見的SMOTE、SMOTE-Borderline、ADASYN及基于GAN的方法等[15-16]。此外,可結(jié)合更優(yōu)的選擇算法來(lái)提高精準(zhǔn)預(yù)測(cè)的能力。未來(lái)將進(jìn)一步探究不同模型對(duì)缺血性卒中的適應(yīng)條件,在預(yù)測(cè)因子、模型開發(fā)及預(yù)測(cè)性能方面進(jìn)行全面研究,以期為建立更加完善的缺血性卒中死亡預(yù)測(cè)模型提供更全面的借鑒。
【點(diǎn)睛】本文基于CSCA大樣本數(shù)據(jù)庫(kù)中急性新發(fā)缺血性卒中患者的數(shù)據(jù),應(yīng)用欠采樣技術(shù)和平衡權(quán)重方法處理患者院內(nèi)死亡結(jié)局的不平衡數(shù)據(jù),在此基礎(chǔ)上比較XGBoost、CatBoost、隨機(jī)森林和SVM四種機(jī)器學(xué)習(xí)模型和logistic模型預(yù)測(cè)患者院內(nèi)死亡結(jié)局的性能,結(jié)果顯示機(jī)器模型的預(yù)測(cè)性能整體優(yōu)于logistic模型。