范運龍,邵佳康,吳遠斌,宋 超,沈 銘,朱思明,何瀟一,李梁鋼,任 瞳,姜勝利
1 解放軍醫(yī)學(xué)院,北京 100853;2 河北醫(yī)科大學(xué)第一醫(yī)院 心血管內(nèi)科,河北石家莊 050000;3 解放軍總醫(yī)院第一醫(yī)學(xué)中心 心血管外科,北京 100853
急性腎損傷(acute kidney injury,AKI)是心臟手術(shù)后一種常見而嚴重的并發(fā)癥,其文獻報告的發(fā)生率為10%~30%[1]。值得一提的是,術(shù)后患者輕微的腎功能變化也與其晚期生存差異有關(guān)[2]。為了更好地管理心臟手術(shù)相關(guān)的急性腎損傷(cardiac surgery-associated acute kidney injury,CSA-AKI),既往研究通過傳統(tǒng)的邏輯回歸分析確定了幾種風(fēng)險評分,如克利夫蘭評分和心臟手術(shù)后急性腎損傷評分[3]。然而,基于傳統(tǒng)邏輯回歸方法的風(fēng)險模型受到其固有線性統(tǒng)計假設(shè)的限制,而潛在的非線性關(guān)聯(lián)在分析過程中并未被考量[4]。此外,由于邏輯回歸分析潛在的過擬合缺陷,在分析過程中只能納入一小組輸入變量。這導(dǎo)致一些可能對CSA-AKI有影響的圍術(shù)期事件被排除在外,如術(shù)中輸血和失血量。因此,需要探討一種較傳統(tǒng)的邏輯回歸分析更有效的CAS-AKI預(yù)測模型。目前,機器學(xué)習(xí)被視為生物醫(yī)學(xué)研究、個性化醫(yī)學(xué)和計算機輔助診斷的有效手段,可用于諸多任務(wù),包括風(fēng)險分層、診斷分類和生存預(yù)測[5-8]。然而,許多醫(yī)療專業(yè)人員對于機器學(xué)習(xí)的概念并不是十分了解,尤其是在心臟外科學(xué)領(lǐng)域中將機器學(xué)習(xí)作為臨床實踐中的研究工具仍然處于空白階段。因此,本研究試圖基于機器學(xué)習(xí)技術(shù),通過納入術(shù)前和術(shù)中相關(guān)變量,分析其在AKI事件中的交互作用,從而構(gòu)建出符合心臟手術(shù)患者特征的CSA-AKI風(fēng)險預(yù)測模型。
1 資料 提取2017年1月1日- 2018年6月1日于解放軍總醫(yī)院第一醫(yī)學(xué)中心心血管外科行心臟手術(shù)的638例患者的臨床資料。納入標準:1)年齡≥18歲;2)手術(shù)類型為瓣膜手術(shù)、冠狀動脈旁路移植和大血管手術(shù)。排除標準:1)先天性心臟病矯正手術(shù);2)數(shù)據(jù)丟失>10%;3)住院期間拒絕手術(shù)。
2 納入分析的變量 收集患者的78個術(shù)前和術(shù)中變量來構(gòu)建納入分析的變量數(shù)據(jù)集。1)術(shù)前變量:人口學(xué)特征(性別、年齡、體質(zhì)量指數(shù)、美國麻醉醫(yī)師協(xié)會ASA分級、Mallampati氣道分級、紐約心臟協(xié)會NYHA功能分級);病史(是否有90 d內(nèi)心肌梗死史、是否血脂異常、是否糖尿病、是否高血壓、是否既往心臟手術(shù)、是否肺動脈高壓);術(shù)前用藥(是否服用地高辛、是否服用倍他樂克、是否服用鈣通道阻滯劑、是否服用阿司匹林、是否使用胰島素、是否口服降糖藥);實驗室檢查結(jié)果[紅細胞計數(shù)、白細胞計數(shù)、血小板計數(shù)、中性粒細胞百分比、淋巴細胞百分比、紅細胞比積測定、血紅蛋白、活化部分凝血活酶時間(activated partial thromboplastin time,APTT)],國際標準化比值(international normalized ratio,INR),血漿纖維蛋白原,丙氨酸氨基轉(zhuǎn)移酶(alanine aminotransferase,ALT),天冬氨酸氨基轉(zhuǎn)移酶(aspartate aminotransferase,AST),總蛋白,白蛋白,總膽紅素,直接膽紅素,血糖,血清肌酐,尿素氮、鉀、鈉、氯。2)從體外循環(huán)記錄和麻醉信息管理系統(tǒng)中提取術(shù)中變量:手術(shù)類型、手術(shù)時間、體外循環(huán)時間、失血量、輸血量、尿量、晶體膠體輸注量、術(shù)中血流動力學(xué)變量、術(shù)中是否使用血管活性藥物、是否除顫、是否置入臨時起搏器。此外,計算每名患者的歐洲心臟手術(shù)風(fēng)險評分Ⅱ(Euro SCOREⅡ;http://www.euroscore.org/calc.html)和肌酐清除率。
肌酐清除率(mL/min)=(140-年齡)×重量(kg)×(0.85,如果是女性的話)/[72×血清肌酐(mg/dL)]。
3 終點事件 CSA-AKI是終點事件,其定義根據(jù)2012年改善全球腎病預(yù)后組織(Kidney Disease:Improving Global Outcomes,KDIGO)指南(https://kdigo.org/conferences/nomenclature):當(dāng)術(shù)后7 d內(nèi)血清肌酐水平大于術(shù)前水平1.5倍或術(shù)后48 h內(nèi)血清肌酐較術(shù)前提高0.3 mg/dL時即可診斷為發(fā)生CSA-AKI事件。因KDIGO中關(guān)于AKI的尿量診斷標準在回顧性研究中的不準確性,因此未予考慮。
4 數(shù)據(jù)預(yù)處理 在數(shù)據(jù)分析之前進行了以下數(shù)據(jù)預(yù)處理:1)進行數(shù)據(jù)清潔以識別缺失值、異常值和重復(fù)項,缺失值采用平均值進行插補。2)特征選擇和提取:在數(shù)據(jù)集中識別那些對預(yù)測模型構(gòu)建最有用/最相關(guān)的特征(特征選擇)或特征的組合(特征提取)。
5 模型的構(gòu)建及驗證 數(shù)據(jù)集由638例患者、78個變量構(gòu)建而成。將整個數(shù)據(jù)集按8∶2的比例隨機分成訓(xùn)練組和測試組。80%的訓(xùn)練數(shù)據(jù)集用于不同機器學(xué)習(xí)模型的構(gòu)建。在建模過程中,使用網(wǎng)格搜索和5折交叉驗證優(yōu)化模型的超參數(shù)(為避免模型的過擬合現(xiàn)象,整個訓(xùn)練集隨機分為5個迭代、5個相等尺寸的子集。在每次迭代時,1個子集用作測試數(shù)據(jù),其余的4個子集用于進行訓(xùn)練)。此外,余下的20%測試集行進一步內(nèi)部驗證,以確定預(yù)測性能并識別最佳預(yù)測因子。采用支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)和隨機森林(random foresst,RF)這3個機器學(xué)習(xí)算法來構(gòu)建CSA-AKI事件的預(yù)測模型。使用ROC曲線中的AUC值、敏感度、特異性和準確率作為模型的預(yù)測效能評價指標。決策曲線分析(decision curve analysis,DCA)圖用于展示模型的臨床使用價值。此外,沙普利可加性特征解釋方法(shapley additive explanation,SHAP)用于模型的可視化處理。
6 統(tǒng)計學(xué)分析 數(shù)據(jù)分析使用Python 3.6和Scikitlearn(https://scikit-learn.org)包進行。連續(xù)變量均呈非正態(tài)分布,以Md(IQR)表示,其比較采用Mann Whitney-U檢驗;分類變量以例數(shù)(百分比)表示,其比較采用χ2檢驗,P<0.05為差異有統(tǒng)計學(xué)意義。
1 患者特征 納收的638例患者在術(shù)后7 d內(nèi),188例(29.5%)出現(xiàn)了CSA-AKI事件。相比非AKI組,AKI組年齡更大(P<0.001),Euro SCOREⅡ評分更高(P<0.001);AKI組合并癥比例更高(P<0.05)。同時,AKI組患者失血量更多(P<0.001),術(shù)中尿量更少(P<0.001),手術(shù)時間更長(P<0.001),接受更多的治療措施,如輸注懸浮紅細胞(P<0.001)、血小板(P<0.001);此外,AKI組患者血紅蛋白和肌酐清除率更低,尿素氮更高(P<0.001)。見表1。
表1 患者一般特點和圍術(shù)期變量Tab. 1 General characteristics and perioperative variables of the patients
2 模型效能 針對CSA-AKI風(fēng)險預(yù)測所構(gòu)建的3類機器學(xué)習(xí)模型中,RF模型在預(yù)測效能方面其受試者工作特征曲線的AUC數(shù)值為0.890(95%CI:0.762~1.000),敏感度為0.784,特異性為0.934,準確率為0.927,優(yōu)于另外兩個預(yù)測模型(圖1、表2)。采用DCA曲線測試不同風(fēng)險概率閾值下3個模型的臨床適用性和凈獲益,結(jié)果表明,3個模型都有很高的臨床凈獲益,其中RF模型表現(xiàn)最優(yōu)(圖2)。
表2 各個模型的預(yù)測性能Tab. 2 Predictive performance for each model
圖1 隨機森林、支持向量機和決策樹預(yù)測模型的受試者工作特征曲線Fig.1 Receiver operating characteristic curves for predictive models of random forest, support vector machine and decision tree
圖2 隨機森林、支持向量機和決策樹預(yù)測模型的決策曲線分析Fig.2 Decision curve analysis for predictive models of random forest, support vector machine and decision tree
3 預(yù)測CSA-AKI的主要危險因素 使用SHAP值來進行RF模型中特征貢獻度分析和模型可解釋性。圖3展示了SHAP條形圖中基于SHAP平均值從大到小排序前20名的特征及其對模型輸出的平均影響幅度。結(jié)果表明,顯著影響模型運行的10大變量依次是肌酐清除率、血紅蛋白、手術(shù)時間、射血分數(shù)、術(shù)中尿量 、左房直徑、手術(shù)權(quán)重、血清肌酐、術(shù)中失血量和體外循環(huán)時間。在這20個變量中,有6個變量(手術(shù)時間、術(shù)中尿量、手術(shù)權(quán)重、術(shù)中失血量、體外循環(huán)時間和術(shù)中使用血管活性藥)為術(shù)中變量。圖4顯示了在RF模型中發(fā)生和未發(fā)生CSA-AKI事件在個體水平中的預(yù)測分析過程。在發(fā)生CSA-AKI事件患者中,起主要促進作用的是低肌酐清除率、低血紅蛋白和高體質(zhì)量指數(shù),而起主要保護作用的是高射血分數(shù)。在未發(fā)生CSA-AKI事件患者中,起主要保護作用的是高血紅蛋白值和高射血分數(shù),而起主要促進作用的是高血清肌酐值。
圖3 隨機森林模型的前20變量矩陣圖Fig.3 The top 20 variables matrix of the random forest model
圖4 SHAP在2例正確預(yù)測為AKI和非AKI患者中的特征重要性度量Fig.4 SHAP feature importance metrics for 2 patients that were correctly predicted as AKI and non-AKI
在此回顧性隊列研究中,我們使用78個術(shù)前和術(shù)中變量開發(fā)和驗證了機器學(xué)習(xí)算法以預(yù)測CSA-AKI事件。由機器學(xué)習(xí)方法建立的模型可以基于所有患者的數(shù)據(jù)集來實現(xiàn)早期動態(tài)監(jiān)測,節(jié)省了臨床醫(yī)生的時間[9]。人工智能(AI)與機器學(xué)習(xí)在臨床醫(yī)學(xué)的研究方面已獲得諸多青睞,如用于評估患者術(shù)后結(jié)果[10]、預(yù)測低血壓[11]和麻醉深度[12]。此外,機器學(xué)習(xí)也已應(yīng)用于重癥監(jiān)護醫(yī)學(xué)[13]、急診醫(yī)學(xué)[14]和神經(jīng)醫(yī)學(xué)[15]。隨著電子健康記錄在大數(shù)據(jù)領(lǐng)域的擴展,大量的電子健康記錄數(shù)據(jù)和人工智能的交融促使機器學(xué)習(xí)在AKI臨床研究中發(fā)揮著越來越重要的作用,且目前已成為AKI診斷和預(yù)測的有效工具[16]。
在一篇運用XGBoost機器學(xué)習(xí)算法構(gòu)建的CSA-AKI風(fēng)險模型報道中,模型的最佳AUC為0.78(95%CI:0.75~0.80)[17]。該研究表明,在心臟手術(shù)后預(yù)測AKI,機器學(xué)習(xí)模型的性能顯著優(yōu)于傳統(tǒng)的邏輯回歸模型(AUC=0.69,95%CI:0.66~0.72)。先前的風(fēng)險評分模型的AUC通常僅為0.55,這可能是由于以往評分模型中納入的變量集較少以及數(shù)據(jù)集中缺乏術(shù)中變量[17]。本研究中運用了3種機器學(xué)習(xí)算法,其中RF模型表現(xiàn)出模型預(yù)測的最佳性能,其敏感度為0.784,特異性為0.934,準確率為0.927,AUC為0.890(95%CI:0.762~1.000),DCA圖中的結(jié)果也說明了模型具有較好的臨床運用價值。此外,所構(gòu)建的模型不僅基于術(shù)前變量,手術(shù)相關(guān)的變量也納入分析,以此來確保模型更符合患者的實際情況。在SHAP變量重要性基質(zhì)圖中,前10個特征中一半是術(shù)中特征,這意味著術(shù)中條件對心臟手術(shù)后早期腎功能下降有重要影響。不同于先前強調(diào)了術(shù)前條件的預(yù)測模型,本研究證明了在CSA-AKI手術(shù)中反映患者急性生理反應(yīng)的術(shù)中變量的價值。CSA-AKI的病理生理學(xué)可以解釋為什么術(shù)中特征對AKI預(yù)測是如此至關(guān)重要。雖然AKI發(fā)病機制未完全闡明,但已知腎低灌注是由低流量、低壓和血液稀釋產(chǎn)生。此外,體外循環(huán)引起的快速核心體溫降低,出血并發(fā)癥和炎癥反應(yīng)在CSA-AKI發(fā)生發(fā)展中都發(fā)揮重要作用。
在本研究中,根據(jù)2012年KDIGO標準定義的CSA-AKI在術(shù)后7 d內(nèi)的發(fā)生率為29.5%,其結(jié)果與先前報道一致[18]。CSA-AKI的發(fā)生與一系列風(fēng)險因素有關(guān),其發(fā)生發(fā)展不僅受到年齡、性別和合并癥等人口統(tǒng)計特征的影響,還與手術(shù)類型、液體超濾體積、是否體外循環(huán)等圍術(shù)期因素有關(guān)[19]。本研究不僅鑒定了與以前使用的風(fēng)險評分模型相同的幾種風(fēng)險因素,如術(shù)前血紅蛋白、肌酐清除率、手術(shù)時間、左心室射血分數(shù)、體質(zhì)量指數(shù)和高血壓[20-23],還鑒別了被傳統(tǒng)評分模型忽視的重要風(fēng)險因素,如術(shù)中尿液輸出量、失血量、術(shù)中使用血管活性藥、左心房直徑和手術(shù)權(quán)重。鑒于此,機器學(xué)習(xí)開辟了新的生物標志物的可能性,這有利于理解疾病發(fā)病機制和指定新的干預(yù)路徑。值得注意的是,一些眾所周知的風(fēng)險因素在本研究中的前20個特征中沒有排名,如手術(shù)類型和成分血的輸注。
肌酐清除率和血紅蛋白被確定為CSA-AKI分類的最重要因素。血紅蛋白水平與AKI之間的關(guān)系已被廣泛研究,低水平的血紅蛋白和貧血的存在成為AKI的獨立危險因素[24]。既往的研究表明,血紅蛋白與AKI呈負相關(guān),即術(shù)前血紅蛋白水平越低,越容易患AKI[25-26]。本研究中AKI組較非AKI組的血紅蛋白水平更低也驗證了這一結(jié)論。此外,既往報道肌酐水平較高的患者更易發(fā)生AKI[27]。此結(jié)論也與本研究結(jié)果一致。
本研究也有一定的局限性:1)研究分析僅使用單中心數(shù)據(jù),病例相對較少。機器學(xué)習(xí)算法的性能可能因具有不同分布的患者特征和不同機構(gòu)的較大數(shù)據(jù)集而不同。因此,需要外部驗證以防止過度擬合。2)由于數(shù)據(jù)集的建立是由醫(yī)師手動實現(xiàn)的,因此某些隱藏的變量關(guān)系可能由于醫(yī)師認知的局限性而丟失。3)目前尚不清楚所構(gòu)建的風(fēng)險預(yù)測模型在臨床實踐中是否可以轉(zhuǎn)化為患者的實際臨床益處,因此尚需要前瞻性、多中心研究來評估。
綜上所述,我們建立了心臟手術(shù)后預(yù)測AKI的機器學(xué)習(xí)方法,可用于手術(shù)后個體罹患AKI的風(fēng)險預(yù)測。本研究結(jié)果顯示術(shù)中變量對于AKI預(yù)測至關(guān)重要。隨著研究的不斷深入,基于機器學(xué)習(xí)的患者實時監(jiān)測系統(tǒng)或?qū)⑤o助臨床醫(yī)師提供有價值的臨床決策支持,并減少CSA-AKI相關(guān)的死亡率和發(fā)生率。其不僅可以揭示預(yù)測因子之間的復(fù)雜關(guān)系,而且還評估術(shù)后患者CSA-AKI事件的發(fā)生風(fēng)險。它將促進醫(yī)生識別風(fēng)險較高的患者,采取保護策略,從而改善患者的預(yù)后。
利益沖突聲明:無。