張志堅, 陳涵枝, 李 程, 周樂汀, 劉曉斌, 單煒薇, 劉 斌, 王 涼
(南京醫(yī)科大學(xué)無錫醫(yī)學(xué)中心/南京醫(yī)科大學(xué)附屬無錫人民醫(yī)院 腎內(nèi)科, 江蘇 無錫, 214000)
終末期腎病(ESRD)是慢性腎臟病(CKD)的終末階段,屬于世界范圍內(nèi)的重大公共衛(wèi)生問題之一[1-2]。維持性血液透析(MHD)是ESRD患者最常用的治療手段,可極大改善預(yù)后與生活質(zhì)量,然而患者仍會面臨眾多并發(fā)癥的威脅,如貧血、營養(yǎng)不良、高磷血癥、低鈣血癥和心腦血管意外等[3-4]。貧血和營養(yǎng)不良在MHD患者中相當(dāng)普遍且與死亡風(fēng)險升高相關(guān),早期識別并干預(yù)可有效改善預(yù)后[5]。目前,生物電阻抗分析(BIA)因具有無創(chuàng)、簡單、客觀且快速等優(yōu)點,已被廣泛用于評估MHD患者的容量情況和營養(yǎng)狀態(tài)[6-7]。受人體化學(xué)成分和物理成分的影響,生物電阻抗可能與血清生化成分和營養(yǎng)狀況相關(guān),但生物電阻抗矢量分析(BIVA)在評估MHD患者血清生化指標(尤其是貧血和營養(yǎng)狀況指標)中的作用目前尚不明確。白蛋白(Alb)、總膽固醇(TC)、低密度脂蛋白膽固醇(LDL-C)、血紅蛋白(Hb)是反映MHD患者貧血與營養(yǎng)狀況的重要指標。本研究基于BIVA法分析人體成分分析儀(BCM)采集的MHD患者生物電信號數(shù)據(jù),建立基于不同機器學(xué)習(xí)算法的預(yù)測模型,以期為MHD患者貧血和營養(yǎng)狀況的評估提供輔助性依據(jù)。
本研究共納入1 925例尿毒癥患者,年齡19~85歲,女758例(平均年齡60.3歲),男1 167例(平均年齡59.5歲)。排除標準: 測量前1個月內(nèi)發(fā)生過急性心腦血管事件、嚴重感染者,肝功能異常、肺功能不全、原發(fā)性甲狀腺疾病患者,惡性腫瘤或精神疾病患者。收集患者生物電阻抗數(shù)據(jù)3 742個和血生化指標數(shù)據(jù)109 234個,后者包括Alb(45 300個)、TC(14 765個)、LDL-C(9 047個)和Hb(40 122個),所有數(shù)據(jù)于2016年5月—2022年7月獲得。
患者的一般資料于每次阻抗測量前收集,身高H(m)和體質(zhì)量W(kg)根據(jù)國際標準測量,體質(zhì)量指數(shù)(BMI)計算公式為W/H2。于每周第1次透析前為患者采血,使用自動化學(xué)分析儀(Beckman Coulter AU5800型號)和自動血液分析儀(Sysmex XN-9000型號)檢測血生化指標水平。使用多頻阻抗分析儀(Fresenius, 上海)在50個頻率上測量阻抗矢量Z(Ω)和相位角φ(度),并導(dǎo)出對應(yīng)的細胞內(nèi)電阻Ri(Ω)、細胞內(nèi)電阻率ρi(Ω/m)、細胞外電阻Re(Ω)、細胞外電阻率ρe(Ω/m)、細胞膜電容Cm(F)、細胞膜介電常數(shù)ε(F/m)等,共計106個變量。血生化指標分類標準: ① Hb, <110.0 g/L為低, 110.0~130.0 g/L為正常, >130.0 g/L為高; ② TC, <3.0 mmol/L為低, 3.0~5.7 mmol/L為正常, >5.7 mmol/L為高; ③ LDL-C, <1.6 mmol/L為低, 1.6~3.4 mmol/L為正常, >3.4 mmol/L為高; ④ Alb, <35.0 g/L為低, 35.0~55.0 g/L為正常, >55.0 g/L為高。
本研究通過主成分分析(PCA)對原始106個生物電學(xué)指標變量和年齡、身高、體質(zhì)量進行分析,并通過各主要成分的貢獻率以及方差值實現(xiàn)對原始變量的降維,消除變量冗余特征。選取前8個貢獻率最高的特征作為模型的輸入特征。隨機選擇80%的生化-生物電記錄作為訓(xùn)練集,其余記錄則作為測試集。
對主要生物電學(xué)指標測量值與生化指標測量值進行個體相關(guān)性分析,考慮到數(shù)據(jù)在個體內(nèi)被多次測量,本研究采用重復(fù)測量相關(guān)性分析來確定記錄的共同個體內(nèi)關(guān)聯(lián)。與簡單回歸相關(guān)性分析不同,重復(fù)測量相關(guān)性分析不違反觀察獨立性假設(shè),且具有更強大的統(tǒng)計能力[8]。
具體流程如下: ① 在主要生物電學(xué)指標(Ri、ρi、Re、ρe、Cm、ε)測量值和生化指標(Alb、TC、LDL-C、Hb)測量值間進行線性回歸分析,得到斜率值和殘差自由度值。根據(jù)斜率值的正負來判斷生物電學(xué)指標測量值與生化指標測量值的相關(guān)系數(shù)方向。② 將每種生物電學(xué)指標變量從模型中刪除后進行線性回歸分析,并分別計算刪除每個變量后的殘差平方和。③ 根據(jù)殘差平方和的比較結(jié)果,計算出刪除每個變量對應(yīng)的統(tǒng)計量F值,得出生物電學(xué)指標測量值與生化指標測量值的相關(guān)系數(shù)的P值。
隨機森林模型通過集成學(xué)習(xí)Bagging的思想將不同參數(shù)的樹模型進行集成,并將CART決策樹作為弱學(xué)習(xí)器。由于隨機森林模型在分類領(lǐng)域中應(yīng)用廣泛,本研究基于CART分類樹評估MHD患者的營養(yǎng)生化指標(Alb、TC、LDL-C、Hb)。算法過程: ① 用N表示訓(xùn)練數(shù)據(jù)集個數(shù),用M表示特征數(shù)目,即生物電學(xué)指標8維PCA值。② 輸入特征數(shù)目m, 用于確定決策樹上一個節(jié)點的決策結(jié)果,其中m應(yīng)遠小于M。③ 從N個訓(xùn)練數(shù)據(jù)集中以有放回抽樣的方式取樣N次,形成一個訓(xùn)練集(即bootstrap取樣),并用未抽到的用例(樣本)作預(yù)測,評估其誤差。④ 對于每一個節(jié)點,隨機選擇m個特征,決策樹上每個節(jié)點的決定都基于這些特征確定。根據(jù)這m個特征,計算其最佳分裂方式。⑤ 每棵樹都會完整成長而不會剪枝,這有可能在建完一棵正常樹狀分類器后會被采用。⑥ 對于最后的分支節(jié)點,采用投票算法得到每個樣本的類別信息。
Adaboost算法是針對同一個訓(xùn)練集訓(xùn)練不同的弱分類器,然后將這些弱分類器集合起來,構(gòu)成一個強分類器。本研究采用CART決策樹作為弱分類器,用于MHD患者的營養(yǎng)生化指標(Alb、TC、LDL-C、Hb)評估。算法過程: ① 用N表示訓(xùn)練數(shù)據(jù)集個數(shù),先通過對N個訓(xùn)練樣本的學(xué)習(xí)得到CART決策樹作為第1個弱分類器; ② 將被弱分類器分錯的樣本和其他新數(shù)據(jù)一起構(gòu)成一個新的N個的訓(xùn)練樣本,通過對這個樣本的CART決策樹學(xué)習(xí)得到第2個弱分類器; ③ 將弱分類器1和弱分類器2都分錯了的樣本加上其他新樣本構(gòu)成另一個新的N個的訓(xùn)練樣本,通過對這個樣本的CART決策樹學(xué)習(xí)得到第3個弱分類器; ④ 為幾個弱分類器指定權(quán)值,得到最終經(jīng)過提升的強分類器,某個數(shù)據(jù)被分為哪一類由各分類器權(quán)值決定。
SVM的基本思想是構(gòu)造一個超平面將訓(xùn)練數(shù)據(jù)分開,并且使分隔面與每一類數(shù)據(jù)點間的距離最大化,即“支持向量”。假設(shè)有M個訓(xùn)練數(shù)據(jù)點(x1,y1), (x2,y2),…, (xm,ym), 其中xi是特征向量,每個數(shù)據(jù)點包含由多頻阻抗分析儀中導(dǎo)出的110個生物電學(xué)指標變量計算得到的2維PCA值;yi是標記(yi∈{-1, +1}), 每個數(shù)據(jù)點包含血生化指標的含量分類值(“低”或“正常”或“高”)。因此,支持向量機的問題就是求解超平面w·x+b=0, 使得?i∈{1,2,…,m},yi=(w·xi+b)≥1, 同時使得‖w‖最小化。求解SVM問題的方法是對‖w‖2/2求解拉格朗日乘數(shù),并對乘數(shù)進行求解,最終得到w和b。當(dāng)分類問題存在非線性可分情況時,可以通過在特征空間內(nèi)使用核函數(shù)(如多項式核、高斯核等)構(gòu)造高維特征,從而解決非線性可分情況。主要步驟: ① 使用核函數(shù)將低維的生物電學(xué)指標2維PCA值輸入空間映射到高維的特征空間。② 通過上述優(yōu)化算法,針對血生化指標含量分類值求解出最優(yōu)的分離超平面,得到w和b。③ 對于新的生物電學(xué)指標輸入數(shù)據(jù),使用已經(jīng)得到的最優(yōu)分離超平面對其對應(yīng)血生化指標進行預(yù)測,即可將其分配到相應(yīng)類別。
通過常見的評估指標,如準確率、召回率和F1值等,評估并比較基于隨機森林算法模型、基于Adaboost算法模型和基于SVM算法模型的性能。
對主要生物電學(xué)指標(Ri、ρi、Re、ρe、Cm、ε)測量值與主要營養(yǎng)指標(血生化指標Alb、TC、LDL-C、Hb)測量值間進行個體相關(guān)性分析,結(jié)果顯示,生物電學(xué)指標與營養(yǎng)指標顯著相關(guān)(P<0.05或P<0.01), 提示生物電學(xué)指標可用于評估MHD患者相關(guān)血生化指標,見表1(男性)、表2(女性)。
表1 男性患者主要生物電學(xué)指標與主要營養(yǎng)指標的個體相關(guān)性分析結(jié)果
表2 女性患者主要生物電學(xué)指標與主要營養(yǎng)指標的個體相關(guān)性分析結(jié)果
經(jīng)過優(yōu)化調(diào)參,基于SVM、Adaboost和隨機森林算法的各模型參數(shù)見表3?;诓煌惴ǖ?個模型對Alb、TC、LDL-C、Hb進行分類的結(jié)果見表4~表7??傮w而言,基于隨機森林算法的模型表現(xiàn)最佳,表明其在相關(guān)指標預(yù)測方面具有較強的魯棒性(Hb: F1值0.808、召回率0.773、準確率0.904; Alb: F1值0.844、召回率0.827、準確率0.880; LDL-C: F1值0.775、召回率0.710、準確率0.879; TC: F1值0.742、召回率0.664、準確率0.937)。此外,無論男女,基于隨機森林算法的模型均表現(xiàn)出較好的分類準確性,相關(guān)結(jié)果明顯優(yōu)于基于AdaBoost算法的模型和基于SVM算法的模型。
表3 基于支持向量機、Adaboost和隨機森林算法的各模型參數(shù)
表4 基于不同算法的3種模型對血紅蛋白的分類結(jié)果
表5 基于不同算法的3種模型對白蛋白的分類結(jié)果
表6 基于不同算法的3種模型對低密度脂蛋白膽固醇的分類結(jié)果
表7 基于不同算法的3種模型對總膽固醇的分類結(jié)果
基于隨機森林、Adaboost、SVM算法的3種模型對4個血生化指標變量(Alb、TC、LDL-C、Hb)預(yù)測性能的混淆矩陣見圖1~圖3, 結(jié)果顯示,基于隨機森林算法的模型在對角線上的預(yù)測值最高,說明該模型對Alb、TC、LDL-C、Hb這4個變量的預(yù)測性能最佳。
A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
A: 白蛋白; B: 血紅蛋白; C: 低密度脂蛋白膽固醇; D: 總膽固醇。
近年來,ESRD的發(fā)病率逐年上升,己成為世界范圍內(nèi)影響人類健康的常見疾病。MHD患者常合并不同程度的貧血、營養(yǎng)不良,與其生活質(zhì)量下降和死亡風(fēng)險升高密切相關(guān)[9-12], 早期識別貧血和營養(yǎng)不良具有重要的臨床意義。然而, MHD患者往往難以接受頻繁的有創(chuàng)檢驗,故亟需探尋可無創(chuàng)且快速評估貧血與營養(yǎng)狀況的方法。生物電阻抗是人體電特性的一種度量指標,由電阻和電抗變量組成,其中電阻主要與體內(nèi)導(dǎo)電物質(zhì)的濃度有關(guān),尤其是水和電解質(zhì),電抗則主要與人體內(nèi)細胞膜脂質(zhì)雙分子層兩側(cè)的電容性質(zhì)有關(guān)[13-15]。MULASI U等[16]通過評估臨床人群的肌肉組織,發(fā)現(xiàn)了BIA在評估營養(yǎng)狀況方面的準確性和其他優(yōu)勢。BIVA可以克服傳統(tǒng)BIA受身高和體質(zhì)量個體差異影響的缺點[17]。ONOFRIESCU M等[18]基于131例MHD患者的隨機對照試驗發(fā)現(xiàn)了BIVA在血液透析液體管理中的價值; 趙新菊等[19]通過BIVA評價血液透析患者的干體質(zhì)量,證實其可作為估計干體質(zhì)量的敏感輔助工具。生物電阻抗數(shù)據(jù)目前已被廣泛應(yīng)用于MHD患者容量負荷的評估中,但其在貧血和營養(yǎng)不良診斷中的作用仍有待進一步研究。本研究基于MHD患者資料分析BIVA與重要血生化指標的關(guān)聯(lián),并開發(fā)基于BIVA的機器學(xué)習(xí)算法模型,以期為擴展生物電阻抗的臨床應(yīng)用范圍提供理論基礎(chǔ)。
由于MHD患者的水含量經(jīng)常變化,傳統(tǒng)的營養(yǎng)評估方法無法準確評估其營養(yǎng)狀況。本研究發(fā)現(xiàn), BIVA指標與Alb、TC、LDL-C、Hb等指標均存在顯著關(guān)聯(lián),表明BIVA指標可在一定程度上反映患者貧血及營養(yǎng)狀況,與既往研究[18]結(jié)論相符,這為建立基于BIVA及機器學(xué)習(xí)算法的預(yù)測模型奠定了理論依據(jù)。本研究結(jié)果表明,通過BIVA對MHD患者進行定期監(jiān)測和隨訪,有助于臨床醫(yī)生及時了解MHD患者的體液、貧血、營養(yǎng)狀態(tài),從而有針對性地指導(dǎo)治療。借助基于隨機森林算法的預(yù)測模型,臨床醫(yī)師可通過常規(guī)生物電測量初步評估相關(guān)生化指標情況,實現(xiàn)早期預(yù)警和早期干預(yù),這對提高MHD患者生活質(zhì)量、節(jié)約醫(yī)療資源具有重要意義。但本研究亦存在一些局限性: 營養(yǎng)不良、貧血和生存質(zhì)量也可能與患者年齡和原發(fā)病有關(guān),并會對統(tǒng)計學(xué)結(jié)果產(chǎn)生一定影響,未來應(yīng)基于性別、年齡和健康狀況進行分層研究; 本研究為橫斷面研究,無遠期隨訪觀察結(jié)果,未來應(yīng)進一步深入研究。
綜上所述,本研究基于MHD患者常規(guī)隨訪的BIVA數(shù)據(jù)和3種機器學(xué)習(xí)算法(隨機森林、SVM和Adaboost算法),建立了針對Alb、TC、LDL-C、Hb這4個血生化指標的3個預(yù)測模型。3個預(yù)測模型中,基于隨機森林算法的模型表現(xiàn)最優(yōu)(預(yù)測Alb、LDL-C、Hb、TC的準確率分別為0.880、0.879、0.904、0.937), 可為MHD患者貧血和營養(yǎng)狀態(tài)的無創(chuàng)評估提供輔助決策意見。