龔歡歡,柯曉偉,王愛民,李湘民
中南大學湘雅醫(yī)院急診科,長沙 410008
心臟驟停是成人死亡的主要原因之一,全球每年新增病例達800萬至900萬,而我國每年約54萬人發(fā)生心臟驟停且該數(shù)據呈逐年上升趨勢[1]。心臟驟停后機體血流循環(huán)中斷,數(shù)分鐘內即可導致腦缺血死亡,即使進行有效的心肺復蘇,短期死亡風險仍較高,而住院期間轉歸是臨床醫(yī)生及患者家屬最迫切關注的問題。準確預測心臟驟停患者院內死亡風險有助于治療方案的優(yōu)化、臨床決策的制訂以及和諧醫(yī)患關系的建立。由于心臟驟停病因的多樣性和病情的復雜性、危重性,傳統(tǒng)指標如神經元特異性烯醇化酶(neuron-specific enolase,NSE)、S100β、腦電圖、顱腦影像學表現(xiàn)、格拉斯哥昏迷評分(Glasgow coma score,GCS)、急性生理學評分系統(tǒng)Ⅲ(acute physiology score Ⅲ,APSⅢ)在此類患者死亡風險的預測中難度較大[2]。
近年來,伴隨計算機性能的巨大突破,醫(yī)工融合現(xiàn)象逐漸明顯,機器學習算法逐步被引入醫(yī)學領域。Ngiam等[3]研究表明,對于病情嚴重、臨床數(shù)據廣泛且復雜患者的健康評估,機器學習算法的表現(xiàn)優(yōu)于傳統(tǒng)方法?;谄溥\行速度快、可高效處理大數(shù)據的優(yōu)勢[4],機器學習算法已廣泛用于多種危重癥患者的預后評估[5-9]。在心臟驟停方面,既往大量研究已證實,基于機器學習算法構建的模型在此類人群神經功能評定、疾病復發(fā)風險預測方面表現(xiàn)出良好的性能[10-13]。但此類模型存在“黑盒子”問題,即缺乏臨床易于理解的可解釋性。2020年Lundberg等[14]建立了Shapley加法解釋(Shapley additive explanation,SHAP)算法用以解釋任何機器學習模型的輸出,其不僅可根據SHAP值正負性反映變量對模型的影響程度,并可通過SHAP值對模型中每個變量的貢獻進行量化,突破了機器學習模型難以解釋的“黑盒子”問題[15]。迄今為止,基于可解釋機器學習模型對公共醫(yī)療衛(wèi)生大數(shù)據庫中心臟驟?;颊咦≡浩陂g死亡風險預測的相關研究仍較缺乏。本研究基于美國重癥監(jiān)護醫(yī)學信息數(shù)據庫Ⅳ(Medical Information Mart for Intensive Care database Ⅳ,MIMIC-Ⅳ)2.0中的數(shù)據,開發(fā)6種預測心臟驟?;颊咦≡浩陂g死亡風險的機器學習模型,經篩選后采用SHAP算法對最優(yōu)模型進行解釋,以期輔助心臟驟?;颊吲R床決策的制訂。
本研究數(shù)據來源于MIMIC-Ⅳ 2.0(https://mimic.physionet.org/)。該數(shù)據庫包含2008—2019年貝斯以色列女執(zhí)事醫(yī)療中心4萬余例轉入ICU的患者臨床資料。納入標準:(1)年齡≥18歲;(2)根據國際疾病分類(international classification of diseases,ICD)診斷為心臟驟停,疾病編碼為ICD-9中的“4275”,ICD-10中的“I46”“I462”“I468”“I469”“I9712”“I97120”“I97121”“I9771”“I97710”“I97711”。排除標準:(1)多次(≥2次)住院;(2)住院時間<24 h;(3)孕婦;(4)臨床資料不完整者。
本研究以心臟驟?;颊咦≡浩陂g轉歸為結局指標,并據此將患者分為死亡組和存活組。
本研究人員已完成美國國立衛(wèi)生研究院開設的“保護人類研究參與者”課程,并獲得MIMIC-Ⅳ2.0數(shù)據庫使用權限(認證號:10264242),可下載數(shù)據進行相關研究。
1.2.1 數(shù)據提取與處理
采用PostgreSQL 13提取患者轉入ICU后24 h內的臨床資料(若多次檢測,以首次數(shù)據為準),主要包括:(1)轉入ICU首日記錄:如年齡、性別、生理特征及實驗室檢查,并計算GCS、器官功能障礙邏輯性評分(Logistic organ dysfunction score,LODS)、APSⅢ、牛津急性疾病嚴重程度評分(Oxford acute severity of illness score,OASIS)、序貫器官功能衰竭評價(sequential organ failure assessment,SOFA)評分、全身炎癥反應綜合征(systemic inflammatory response syndrome,SIRS)評分;(2)主要的基礎疾病:包括高血壓、糖尿病、心力衰竭、腎衰竭等;(3)使用的藥物及特殊操作:抗感染藥物、血管活性藥物、抗凝藥物、靜脈補液量、尿量、是否機械通氣/腎臟替代治療等。(4)其他資料:住院時間、轉入ICU時間等。變量缺失值的處理:若缺失值超過40%,該變量予以刪除;否則采用K近鄰(K-nearest neighbor,KNN)插補法進行填補。KNN插補法可根據已知的數(shù)據點之間的距離,選擇K個距離最近的點作為鄰近點,然后根據鄰近點的屬性值進行加權平均,得到缺失值的估計值。
1.2.2 模型構建與評估
基于機器學習算法,構建6種預測心臟驟?;颊咴簝人劳鲲L險的模型,分別為XGBoost模型、輕量級梯度提升機(light gradient boosting machine,LGBM)模型、決策樹(decision tree,DT)模型、KNN模型、Logistic回歸模型、隨機森林(random forest,RF)模型。模型構建時,采用網格搜索法對超參數(shù)進行優(yōu)化。隨機將80%的數(shù)據劃分為一個訓練集,同時保留剩余20%的數(shù)據作為獨立的測試集。采用十折交叉驗證法進行模型訓練。在訓練集中,將訓練集數(shù)據隨機劃分為10個小組,其中9個小組用于模型訓練,1個小組用于算法的性能評估。將訓練集中所有可能的訓練小組和測試小組進行折疊組合,重復該過程10次,然后在獨立測試集中對得到的10個模型進行評估并計算評價指標均值。評價指標包括靈敏度、特異度、曲線下面積(area under the curve,AUC)、陽性似然比(positive likelihood ratio,PLR)、陰性似然比(negative likelihood ratio,NLR)。選取AUC居前3位的模型,繪制臨床決策曲線和校準曲線,進一步評價模型的臨床實用性(凈收益)及準確性。
1.2.3 可解釋性分析
SHAP是一種機器學習解釋方法,可用于解釋模型預測結果的特征重要性。其基于合作博弈理論中的 Shapley 值概念,采用一種加性方法計算每個特征對模型預測結果的貢獻。SHAP算法可為每個特征提供一個解釋值,表示該特征對于模型預測結果的影響程度,計算結果不僅可解釋單個預測結果的特征重要性,還可用于解釋整個數(shù)據集的特征重要性分布。同時,該方法可提供一種可視化工具,以直觀展示每個特征對于每個數(shù)據點的影響程度,以及整個數(shù)據集的特征重要性分布結果。此外,SHAP支持對多輸出模型和時間序列數(shù)據進行解釋,并能夠處理缺失值和分類特征等常見問題。因此,該方法已成為機器學習領域中重要的解釋方法之一,被廣泛應用于數(shù)據科學、自然語言處理、計算機視覺等領域。本研究采用Python 3.9 軟件構建模型并通過SHAP算法對模型進行解釋,采用代碼“shap.summary_plot”導出匯總圖,采用代碼“shap.dependence_plot”導出依賴圖。
采用SPSS 25.0軟件進行統(tǒng)計學分析。年齡、心率、呼吸頻率等符合正態(tài)分布的計量資料以均數(shù)±標準差表示,組間比較采用t檢驗;體溫、住院時間、SIRS評分等不符合正態(tài)分布的計量資料以中位數(shù)(四分位數(shù))表示,組間比較采用Mann-WhitneyU檢驗。性別、合并的主要基礎疾病等計數(shù)資料以頻數(shù)(百分數(shù))表示,組間比較采用卡方檢驗。采用受試者操作特征(receiver operator characteristic,ROC)曲線計算模型預測心臟驟?;颊咴簝人劳龅腁UC、靈敏度、特異度等指標。采用Python 3.9軟件繪制臨床決策曲線和校準曲線。以P<0.05為差異具有統(tǒng)計學意義。
基于MIMIC-Ⅳ 2.0數(shù)據庫共篩選1996例心臟驟?;颊?,排除多次轉入ICU者253例、ICU住院時間<24 h者233例、臨床資料不完整者45例,最終入選1465例符合納入與排除標準的心臟驟?;颊摺F渲写婊罱M773例、死亡組692例。研究對象入選流程見圖1。
圖1 心臟驟停患者入選流程圖
死亡組在年齡、心率、呼吸頻率、藥物治療、合并基礎疾病、多種系統(tǒng)評分以及住院時間等方面與存活組均有顯著差異(P均<0.05),詳見表1。
表1 1465例心臟驟?;颊呋€主要臨床資料
經篩選,共納入82個臨床特征用于構建6種機器學習模型(每個模型均包括82個相同的臨床特征),并基于測試集數(shù)據評價了模型性能。ROC曲線顯示,LGBM模型預測心臟驟?;颊咴簝人劳龅腁UC最高(AUC:0.834),Logistic回歸模型(AUC:0.809)、XGBoost模型(AUC:0.827)次之,KNN模型、DT模型、RF模型的AUC較低(AUC均低于0.8)。詳見圖2,表2。
表2 6種機器學習模型預測心臟驟停患者院內住院死亡風險的性能比較
圖2 6種機器學習模型預測心臟驟?;颊咴簝人劳鲲L險的ROC曲線圖
校準度反映模型預測概率與實際概率之間的差異,該數(shù)據越小表示模型預測結果與實際結果越接近,即模型的準確性越高。校準曲線如圖3所示,通過計算,LGBM模型的校準度(0.166)較Logistic回歸模型(0.178)、XGBoost模型低(0.179)。臨床決策曲線可用于衡量機器學習模型在不同決策閾值下的性能表現(xiàn)。臨床決策曲線顯示,相較于Logistic回歸模型、XGBoost模型,若閾值概率(判斷結局變量發(fā)生的概率)處于5%~90%,則LGBM模型預測患者住院死亡風險時可增加更多的凈收益,整體來看LGBM模型的臨床應用價值更優(yōu)(圖4)。
圖3 預測效能Top 3模型的校準曲線
圖4 預測效能Top 3模型的臨床決策曲線
采用SHAP算法對LGBM模型進行可解釋性分析,并輸出SHAP匯總圖,匯總圖可視化展示了臨床特征對LGBM模型輸出結果的影響。其中圖5A展示了前20個臨床特征SHAP值的分布情況:圖中每個點表示一個特征,點的位置表示特征的SHAP值,其值代表該特征對模型輸出的貢獻大小。如果數(shù)值為正,則說明該特征對輸出結果產生正面影響;如果數(shù)值為負,則說明該特征對輸出結果產生負面影響。紅色表示高值,藍色表示低值。顏色越深表示該特征對目標變量的影響越強。條形圖為按照特征的平均SHAP絕對值大小從高至低進行排列后形成,該排序表示每個特征對于整個模型的貢獻程度,SHAP絕對值越大表示該特征越重要,對模型輸出結果的影響越大。影響性居前10位的重要臨床特征依次為GCS睜眼反應評分、碳酸氫鹽水平、白細胞計數(shù)、APSⅢ評分、谷草轉氨酶水平、GCS運動評分、紅細胞分布寬度、體溫、鈣離子含量、年齡(圖5B)。
圖5 SHAP匯總圖
基于SHAP匯總圖,進一步導出影響性居前3位臨床特征的SHAP依賴圖,以解釋臨床特征對患者死亡風險的影響。SHAP依賴圖的縱軸為臨床特征的SHAP值,橫軸為該臨床特征的變化范圍,若SHAP值高于零,表示患者院內死亡風險增加,見圖6。
圖6 對模型輸出結果影響性Top 3臨床特征的SHAP依賴圖
本研究基于MIMIC-Ⅳ 2.0數(shù)據庫,構建了6種可預測心臟驟?;颊咴簝人劳鲲L險的機器學習模型,并嘗試采用SHAP算法對最優(yōu)模型進行可解釋性分析。結果顯示,LGBM模型在心臟驟?;颊咴簝人劳鲲L險的預測中表現(xiàn)[AUC:0.834(95% CI:0.688~0.894)]優(yōu)于其他模型,且臨床實用性強、預測準確性高,綜合性能最佳??山忉屝苑治鲲@示,對LGBM模型輸出結果影響性居前10位的臨床特征依次為GCS睜眼反應評分、碳酸氫鹽水平、白細胞計數(shù)、APSⅢ評分、谷草轉氨酶水平、GCS運動評分、紅細胞分布寬度、體溫、鈣離子含量、年齡。
機器學習算法可對數(shù)據進行深度挖掘,以分析數(shù)據之間的內部聯(lián)系,在大數(shù)據的處理中優(yōu)勢凸顯。近年來,其在心臟驟停預警及心臟驟?;颊呱窠浌δ茴A后預測方面取得了長足進步[12,16-18]。Wu等[16]研究表明,相較于傳統(tǒng)預測模型,基于機器學習算法生成的XGBoost模型可提高急性冠脈綜合癥患者住院期間發(fā)生心臟驟停風險的預測準確性。系統(tǒng)評價顯示,機器學習模型可更準確地預測院外心臟驟停患者神經功能結局,且在某些特定情況下其預測效能優(yōu)于傳統(tǒng)統(tǒng)計學模型[17]。Mayampurath等[19]基于117 674例院內心臟驟停患者的臨床資料比較了不同機器學習模型在此類人群神經功能預后中的預測作用,發(fā)現(xiàn)梯度增強算法模型的預測準確性最高。本研究以MIMIC-Ⅳ 2.0數(shù)據庫中心臟驟?;颊叩呐R床資料為基礎,經篩選后保留82個臨床特征用于建立6種可預測心臟驟停院內死亡風險的機器學習模型,包括KNN模型、DT模型、RF模型、Logistic回歸模型、XGBoost模型、LGBM模型。本研究首先通過ROC曲線評估了6種模型的區(qū)分度,即早期識別出心臟驟停院內死亡患者的能力,結果顯示Logistic回歸模型、XGBoost模型、LGBM模型具有較高的識別度,其中以LGBM模型的表現(xiàn)最佳。進一步對3種區(qū)分度較好模型的準確性及臨床實用性進行評價。相較于Logistic回歸模型、XGBoost模型,LGBM模型校準曲線的校準度最低,提示該模型的準確性較高;臨床決策曲線示,LGBM模型的整體凈收益高于Logistic回歸模型、XGBoost模型,提示其臨床實用性更佳;且綜合靈敏度、特異度等指標后,LGBM模型的整體表現(xiàn)亦更好,提示其在心臟驟?;颊咚劳鲲L險的預測中更具優(yōu)勢。LGBM模型是一種經過改進的梯度提升集成算法,主要用于分類和回歸預測,其可利用決策樹迭代訓練以提升模型的性能[20],具有準確度高、內存消耗低、訓練速度快的優(yōu)勢[21]。既往Rufo等[22]在糖尿病的研究中證實,LGBM模型憑借其訓練速度快、預測性能高的優(yōu)勢在糖尿病診斷模型的構建中優(yōu)勢得到凸顯。Ge等[23]在一項納入12 460例膿毒癥患者的研究中亦發(fā)現(xiàn),基于LGBM構建的膿毒癥相關腦損傷預測模型顯著優(yōu)于XGBoost、DT等常見模型。由此可見,LGBM模型訓練速度快、支持大樣本量運算的優(yōu)勢可滿足心臟驟停患者住院期間死亡風險預測的全面性、廣維度要求。綜上可知,LGBM模型預測心臟驟?;颊咴簝人劳鲲L險的總體性能較高,可輔助臨床早期識別死亡高風險個體,有助于對患者進行個體化管理和精準診療的實施。
機器學習預測模型作為臨床疾病診斷及患者預后評估的有效工具,由于其形成過程存在的“黑盒子”問題,導致臨床醫(yī)生難以理解模型的原理,進而限制了其臨床應用。本研究基于SHAP算法對LGBM模型預測心臟驟停患者院內死亡風險的可解釋性進行分析,結果顯示對模型輸出結果影響性較大的3個臨床特征分別為GCS睜眼反應評分、碳酸氫鹽水平、白細胞計數(shù),可作為預測此類患者住院死亡率的重要指標。GCS評分是神經系統(tǒng)檢查的常用指標,可評估患者昏迷程度,具有簡便、快捷、低成本的優(yōu)勢,既往研究證實入院時GCS評分超過4分可預測院外心臟驟停患者的院內生存率[24]。睜眼反應是GCS評分的重要組成部分,蔡蘭蘭等[25]研究發(fā)現(xiàn),GCS睜眼反應評分≤2分的心臟驟?;颊哳A后明顯較≥3分患者差。本研究SHAP依賴圖顯示,GCS睜眼反應評分≤2分時,心臟驟?;颊咦≡核劳鲲L險顯著升高(圖6A),進一步證實了上述觀點。血液中碳酸氫鹽是調節(jié)機體酸堿度的重要成分,對心臟驟停時因缺血缺氧造成的酸中毒具有中和作用。Chen等[26]研究發(fā)現(xiàn),院外心臟驟?;颊哂枰赃m當?shù)奶妓釟溻c干預有助于提高生存率。Celik等[27]則研究認為,過高或過低的碳酸氫鹽均可增加心臟驟?;颊咚劳鲲L險。本研究結果符合既往研究結論,發(fā)現(xiàn)碳酸氫鹽處于20~40 mmol/L時,心臟驟?;颊咦≡浩陂g的死亡風險顯著降低(圖6B),提示維持適宜的碳酸氫鹽水平對改善患者預后至關重要。白細胞是反映機體炎癥水平的重要因素,與多種患者住院期間死亡率密切相關。既往研究顯示,根據白細胞中的中性粒細胞、淋巴細胞計算的比值與心臟驟?;颊卟涣碱A后風險呈正相關[28]。本研究亦證實,白細胞>15×109/L時心臟驟?;颊咴簝人劳鲲L險顯著升高(圖6C),進一步驗證了白細胞水平在心臟驟?;颊咦≡浩陂g死亡風險預測中的重要性。
本研究局限性:(1)臨床特征相關信息為回顧性收集,可能存在信息偏倚;(2)由于數(shù)據庫限制或變量存在嚴重缺失(如體質量指數(shù)、腦功能表現(xiàn)分級評分等),可能影響了預測模型性能的提高;(3)部分患者于入院24~48 h內死亡,其入院24 h內首次檢查/檢驗結果可能極差,針對該部分人群,預測模型可能存在一定程度的標簽泄露風險;(4)研究數(shù)據來源于MIMIC-Ⅳ 2.0,模型的普適性仍有待驗證。
綜上,本研究基于大型公共醫(yī)療衛(wèi)生數(shù)據庫,建立了可預測心臟驟停患者住院期間死亡風險的可解釋性機器學習模型。結果示LGBM模型在心臟驟停患者死亡風險的預測中更具優(yōu)勢,對該模型影響較大的3個臨床特征分別為GCS睜眼反應評分、碳酸氫鹽水平、白細胞計數(shù),上述研究結果有助于增加臨床醫(yī)師對機器學習模型的理解度,促進了模型的臨床應用,從而早期識別院內死亡高風險人群并優(yōu)化治療方案,作出符合患者最大利益的臨床決策。
作者貢獻:龔歡歡負責數(shù)據統(tǒng)計、圖表繪制及論文撰寫;柯曉偉負責數(shù)據整理及論文修訂;李湘民、王愛民負責研究設計及寫作指導。
利益沖突:所有作者均聲明不存在利益沖突