談軍濤,許曉梅,何雨芯,譚超,龔軍,劉蘊(yùn)宇,向守書,趙文龍*
1重慶醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院,重慶 400016;2成都市第五人民醫(yī)院消化內(nèi)科,成都 611130;3重慶醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院,重慶 400016
肝性腦病(hepatic encephalopathy)是嚴(yán)重肝臟疾病并發(fā)的一種以代謝紊亂為基礎(chǔ)的中樞神經(jīng)系統(tǒng)功能性失調(diào)的綜合征,患者主要表現(xiàn)為意識障礙、行為失常甚至昏迷。美國肝病研究協(xié)會和歐洲肝臟研究協(xié)會將肝性腦病定義為由肝損傷或門體分流引起的腦功能障礙[1]。臨床上將肝性腦病分為A、B、C三型,其中A型與急性肝衰竭有關(guān),B型與無肝病的門體分流有關(guān),C型與肝硬化有關(guān)[2]。肝性腦病除增加患者、家庭和社會的各種負(fù)擔(dān)外,也是肝硬化患者發(fā)生跌倒、骨折、再入院等不良事件的常見原因之一[3]。為減少肝性腦病帶來的不良影響,有必要對肝硬化患者進(jìn)行肝性腦病風(fēng)險預(yù)測,以幫助醫(yī)護(hù)人員進(jìn)行評估并提前采取治療和護(hù)理措施。機(jī)器學(xué)習(xí)作為一種新興的統(tǒng)計(jì)分析方法,能夠?qū)Υ髷?shù)據(jù)進(jìn)行深度挖掘與分析,目前已在疾病發(fā)生、預(yù)后預(yù)測等方面廣泛應(yīng)用[4-5]。本研究采用logistic回歸、隨機(jī)森林、決策樹和XGBoost等4種機(jī)器學(xué)習(xí)算法,構(gòu)建并評價肝硬化相關(guān)肝性腦病風(fēng)險預(yù)測模型,旨在為肝硬化患者肝性腦病風(fēng)險評估奠定基礎(chǔ),并為臨床防治工作提供參考。
1.1 研究對象 本研究為回顧性橫斷面研究。收集2019年6月-2020年6月就診于重慶市7家醫(yī)療機(jī)構(gòu)(其中5家為重慶醫(yī)科大學(xué)附屬醫(yī)院,2家為教學(xué)指導(dǎo)醫(yī)院)消化內(nèi)科、肝膽外科、感染科等科室的1498例肝硬化患者。納入標(biāo)準(zhǔn):肝硬化失代償期;年齡>18歲。排除標(biāo)準(zhǔn):合并惡性腫瘤;合并肝衰竭;既往曾行經(jīng)頸靜脈肝內(nèi)門-體靜脈支架分流術(shù)(transjugular intrahepatic portosystemic shunt,TIPS);伴有精神疾??;臨床資料不完整。
1.2 分組 參照《肝硬化肝性腦病診療指南》[6],結(jié)合臨床表現(xiàn)、實(shí)驗(yàn)室和輔助檢查判斷患者是否發(fā)生肝性腦病,并據(jù)此將1498例患者分為肝性腦病組(n=285)與非肝性腦病組(n=1213)。將肝性腦病組和非肝性腦病組按照7:3隨機(jī)分為訓(xùn)練集(n=1048)和測試集(n=450),進(jìn)行內(nèi)部驗(yàn)證。本研究通過重慶醫(yī)科大學(xué)醫(yī)學(xué)研究倫理委員會審批。
1.3 研究指標(biāo) 患者的一般資料(年齡、性別、吸煙史、飲酒史、高血壓、糖尿病)、病因(乙肝、丙肝、酒精肝、自身免疫性肝病)、并發(fā)癥(消化道出血、腹膜炎、腹水)及實(shí)驗(yàn)室檢查(血常規(guī)、肝功能、腎功能、電解質(zhì)、凝血功能)等。
1.4 統(tǒng)計(jì)學(xué)處理 采用SPSS 22.0、R4.0.2、Excel 2013軟件進(jìn)行統(tǒng)計(jì)分析。符合正態(tài)分布的計(jì)量資料以±s表示,組間比較采用t檢驗(yàn);不符合正態(tài)分布的計(jì)量資料以M(Q1,Q3)表示,組間比較采用Mann-Whitney U檢驗(yàn)。計(jì)數(shù)資料以率(%)表示,組間比較采用χ2檢驗(yàn)。內(nèi)部驗(yàn)證采用單因素logistic回歸分析,以P<0.05為納入多因素分析的標(biāo)準(zhǔn),將篩選后的變量作為輸入變量,以是否發(fā)生肝性腦病為結(jié)局變量,在訓(xùn)練集中分別建立logistic回歸、隨機(jī)森林(random forest)、決策樹(decision tree)和XGBoost模型;然后在測試集中采用ROC曲線分析比較4種模型的預(yù)測價值。
采用R語言中的glmnet包、random forest包、rpart包及XGBoost包分別構(gòu)建4種機(jī)器學(xué)習(xí)模型。隨機(jī)森林模型主要包含ntree(樹的數(shù)目)和mtry(隨機(jī)選擇特征的數(shù)目)兩個重要參數(shù),其中mtry在通常情況下為[log2(p)+1]個,p為納入指標(biāo)個數(shù)[7],模型采用準(zhǔn)確度平均下降量(mean decrease accuracy,MDA)衡量指標(biāo)的重要度。決策樹模型分裂屬性的度量指標(biāo)為信息熵[8],采用后剪枝過程中的最小代價復(fù)雜度參數(shù)(CP)進(jìn)行模型優(yōu)化。XGBoost模型采用gain值衡量某個指標(biāo)的增益[9],gain值越大,表明指標(biāo)對模型的影響越大。
2.1 基線資料 兩組患者年齡、吸煙史、飲酒史、高血壓、糖尿病、乙肝、酒精肝、自身免疫性肝病、腹膜炎、總膽紅素、中性粒細(xì)胞比值、血紅蛋白總量、全血鈉、全血鉀、白蛋白、尿酸、紅細(xì)胞計(jì)數(shù)、淋巴細(xì)胞比值、凝血酶原活動度、尿素氮、丙氨酸氨基轉(zhuǎn)移酶及白細(xì)胞計(jì)數(shù)等差異有統(tǒng)計(jì)學(xué)意義(P<0.05,表1)。
2.2 構(gòu)建機(jī)器學(xué)習(xí)模型 Logistic回歸分析結(jié)果顯示,高血壓、酒精肝、糖尿病、自身免疫性肝病、年齡、全血鈉、凝血酶原活動度、尿素氮等10項(xiàng)指標(biāo)為肝性腦病的影響因素(P<0.05,表2),其中淋巴細(xì)胞比值(P=0.123)與紅細(xì)胞計(jì)數(shù)(P=0.100)通過咨詢臨床專家和查閱參考文獻(xiàn),也屬于肝性腦病的影響因素,故納入模型。如圖1所示,當(dāng)ntree超過500后,模型趨于穩(wěn)定,最終隨機(jī)森林模型參數(shù)設(shè)置為:ntree=500,mtry=5。各指標(biāo)對應(yīng)的MDA如表3所示。在分裂次數(shù)為4次時,決策樹模型的交叉驗(yàn)證預(yù)測誤差最小,為0.936(表4),此時對應(yīng)的CP值為0.029,模型中各個分裂點(diǎn)對應(yīng)的指標(biāo)如圖2所示,其中凝血酶原活動度為第一個分裂點(diǎn),年齡為第二個,其余兩個分裂點(diǎn)為白細(xì)胞計(jì)數(shù)和淋巴細(xì)胞比值。XGBoost模型中各指標(biāo)對應(yīng)的gain值如圖3所示,凝血酶原活動度的gain值最大,其次為全血鈉、年齡、全血鉀、白細(xì)胞計(jì)數(shù)和尿素氮等。
表1 肝性腦病組與非肝性腦病組患者基線資料比較Tab.1 Comparison of the baseline data between hepatic encephalopathy group and control group
表2 Logistic回歸分析肝性腦病的影響因素Tab.2 Influencing factors of hepatic encephalopathy (logistic regression model)
圖1 兩組肝病患者隨機(jī)森林模型OOB趨勢Fig.1 OOB trend of random forest model OOB. 袋外數(shù)據(jù)
表3 隨機(jī)森林模型的指標(biāo)重要性測度Tab.3 Index importance of random forest model
表4 決策樹模型參數(shù)分析Tab.4 Analysis of decision tree model parameters
2.3 各模型的預(yù)測性能比較 將構(gòu)建的logistic回歸模型、隨機(jī)森林模型、決策樹模型及XGBoost模型在測試集中進(jìn)行內(nèi)部驗(yàn)證,結(jié)果顯示,各模型的AUC均較高,依次為0.875、0.883、0.767、0.847。Delong test檢驗(yàn)結(jié)果顯示,logistic回歸模型和隨機(jī)森林模型的預(yù)測性能優(yōu)于決策樹模型和XGBoost模型(P<0.05)。隨機(jī)森林模型的靈敏度最高,為0.904,決策樹模型最低,為0.759;logistic回歸模型的特異度最高,為0.785,隨機(jī)森林模型最低,為0.695。隨機(jī)森林模型的綜合預(yù)測效能最優(yōu),其AUC最高,為0.883(圖4、表5)。
圖2 決策樹模型的可視化分析Fig.2 Visual analysis of decision tree model
2.4 肝硬化相關(guān)肝性腦病重要影響因素分析 對比4種模型,綜合OR值、MDA值、Gain值發(fā)現(xiàn),凝血酶原活動度、年齡、全血鈉及尿素氮在各自模型中均表現(xiàn)顯著,提示這幾個指標(biāo)可作為肝硬化相關(guān)肝性腦病的重要影響因素。進(jìn)一步繪制箱線圖,并添加各指標(biāo)顯著性程度進(jìn)行對比,結(jié)果顯示,肝性腦病組年齡和尿素氮明顯高于非肝性腦病組,+-+全血鈉和凝血酶原活動度明顯低于非肝性腦病組(P<0.05,圖5)。
圖3 XGBoost模型指標(biāo)的重要性分析Fig.3 Importance analysis of indexes in XGBoost model
圖4 各模型在測試集中的ROC曲線分析Fig.4 ROC curves of four models in test set
表5 各模型在測試集中的預(yù)測性能比較Tab.5 Comparison of the prediction performance of four models in test set
肝性腦病在肝硬化患者中具有發(fā)生率高、病死率高的特點(diǎn),且其發(fā)病機(jī)制復(fù)雜,目前尚無標(biāo)準(zhǔn)的診斷方法[10],因此,在肝性腦病發(fā)生前進(jìn)行早期評估與預(yù)防具有積極意義。既往關(guān)于肝性腦病的風(fēng)險研究局限于危險因素、預(yù)后以及神經(jīng)生理、心理測試篩查方法的探究[11-12],僅少數(shù)為基于危險因素的預(yù)測模型研究[13-14]。本研究結(jié)合患者的一般資料、病因、并發(fā)癥和實(shí)驗(yàn)室檢查結(jié)果,采用logistic回歸、隨機(jī)森林、決策樹和XGBoost算法構(gòu)建預(yù)測模型,所建模型在靈敏度、特異度和AUC等評價指標(biāo)上表現(xiàn)良好,能夠輔助臨床醫(yī)師預(yù)測肝硬化患者肝性腦病的發(fā)生風(fēng)險。
機(jī)器學(xué)習(xí)可對大量數(shù)據(jù)的特征進(jìn)行有效學(xué)習(xí),為精準(zhǔn)預(yù)測提供了新的研究思路和方法。機(jī)器學(xué)習(xí)算法包括常規(guī)算法(K-近鄰、決策樹和支持向量機(jī)等)和集成算法(隨機(jī)森林、XGBoost和極限樹等)。已有專家學(xué)者基于機(jī)器學(xué)習(xí)算法在醫(yī)療領(lǐng)域進(jìn)行探索,取得了一定的成果[15-17]。本研究采用logistic回歸、隨機(jī)森林、決策樹和XGBoost 4種機(jī)器學(xué)習(xí)算法分別構(gòu)建預(yù)測模型以預(yù)測肝硬化患者并發(fā)肝性腦病的風(fēng)險。Delong test檢驗(yàn)顯示,logistic回歸和隨機(jī)森林兩種算法構(gòu)建的預(yù)測模型優(yōu)于決策樹和XGBoost,其中綜合預(yù)測效能最優(yōu)的為隨機(jī)森林模型,其AUC最高,為0.883。隨機(jī)森林是多個決策樹的集合,能彌補(bǔ)決策樹泛化能力弱的缺點(diǎn)[18],該方法依靠計(jì)算機(jī),通過最小化觀測結(jié)果和預(yù)測結(jié)果之間的誤差來學(xué)習(xí)變量之間所有復(fù)雜的非線性相互作用[19],使用bootstrap聚合和預(yù)測因子隨機(jī)化來獲得較高的疾病預(yù)測準(zhǔn)確率[20-21]。
圖5 顯著性指標(biāo)分組箱線圖Fig.5 Grouped box plot of significance index
凝血酶原活動度是判斷肝病嚴(yán)重程度最經(jīng)典的指標(biāo),其水平降低常提示患者的肝功能被不同程度地破壞[22]。多項(xiàng)研究發(fā)現(xiàn),凝血酶原活動度是肝性腦病的獨(dú)立危險因素[23-24]。隨著年齡增加,患者肝臟解毒能力變差,腦細(xì)胞更容易受到毒性作用,進(jìn)而導(dǎo)致肝性腦病的發(fā)生風(fēng)險增加。Routhu等[25]發(fā)現(xiàn),高齡是肝硬化患者發(fā)生肝性腦病的重要影響因素。尿素氮水平升高是腎臟有效血容量不足的敏感指標(biāo)。肝衰竭伴有腎功能受損時,會導(dǎo)致氮質(zhì)血癥,表現(xiàn)為血尿素氮水平升高,誘發(fā)腦水腫,從而導(dǎo)致肝性腦病發(fā)生風(fēng)險升高。徐言等[26]在一項(xiàng)探究影響肝性腦病預(yù)后獨(dú)立危險因素的研究中發(fā)現(xiàn),除中性粒細(xì)胞/淋巴細(xì)胞比值外,尿素氮為第二影響因素。低鈉血癥是肝硬化患者常見的電解質(zhì)紊亂之一,由于肝硬化患者存在肝功能衰退,因此容易引起心房鈉尿肽、抗利尿激素、醛固酮等激素失調(diào),導(dǎo)致鈉、水潴留,并常合并低鈉血癥[27]。蔣漢梅等[28]在探討失代償期肝硬化患者血鈉水平與病情、肝性腦病、肝腎綜合征的關(guān)系時發(fā)現(xiàn),低鈉血癥與失代償期肝硬化患者的并發(fā)癥和預(yù)后有關(guān),血鈉水平可作為患者病情和并發(fā)癥的判斷指標(biāo)之一。本研究中的隨機(jī)森林模型(AUC最高)提示,白蛋白是肝性腦病的重要影響因素。白蛋白是判斷營養(yǎng)狀態(tài)的良好指標(biāo)。最近研究發(fā)現(xiàn),白蛋白是肝性腦病發(fā)生的獨(dú)立危險因素[29],另有研究發(fā)現(xiàn),輸注白蛋白有助于預(yù)防肝性腦病的發(fā)生,并可改善肝硬化患者肝性腦病的嚴(yán)重程度[30]。
綜上所述,本研究構(gòu)建了基于logistic回歸、隨機(jī)森林、決策樹和XGBoost算法的肝性腦病預(yù)測模型,并結(jié)合靈敏度、特異度和AUC等評價指標(biāo)對模型的效能進(jìn)行對比,一定程度上減少了單一算法和單一評價指標(biāo)帶來的偏倚。同時本研究納入的患者來自多家醫(yī)療機(jī)構(gòu),樣本量大且具有良好的代表性,研究結(jié)果可為臨床干預(yù)肝性腦病提供決策支持。但本研究仍存在一定的局限性:為橫斷面研究,無法確立肝性腦病風(fēng)險與肝硬化之間的因果關(guān)系;模型只進(jìn)行了內(nèi)部驗(yàn)證,未進(jìn)行外部驗(yàn)證,模型的準(zhǔn)確性仍需今后通過更多的人群進(jìn)行驗(yàn)證。