[摘要]"目的"探討基于機(jī)器學(xué)習(xí)構(gòu)建高血壓腎?。╤ypertensive"nephropathy,HN)預(yù)測(cè)模型研究。方法"納入2023年4月至2024年3月于臺(tái)州市第一人民醫(yī)院就診的318例高血壓患者,按7∶3比例將患者分為訓(xùn)練集和驗(yàn)證集,使用最小絕對(duì)收縮和選擇算子算法(least"absolute"shrinkage"and"selection"operator,LASSO)對(duì)訓(xùn)練集進(jìn)行臨床特征選擇,從18項(xiàng)臨床變量中得到12項(xiàng)有臨床意義的變量?;赑ython3.10編程語(yǔ)言,采用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,以12項(xiàng)有臨床意義指標(biāo)為輸入變量,以是否發(fā)生HN為結(jié)果變量,運(yùn)用邏輯回歸、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)3種機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型,利用驗(yàn)證集對(duì)3種模型進(jìn)行內(nèi)部驗(yàn)證,通過(guò)準(zhǔn)確率、受試者操作特征曲線下面積、召回率、精確率和F1對(duì)模型性能進(jìn)行比較。結(jié)果"在LASSO篩選的12項(xiàng)有臨床意義的變量中,得出胱抑素C與尿蛋白定性最具有預(yù)測(cè)意義。機(jī)器學(xué)習(xí)構(gòu)建的邏輯回歸、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的準(zhǔn)確度、受試者工作特征曲線下面積、召回率、精確率和F1值分別為0.94、0.96、0.95、0.87、0.91,0.94、0.97、0.96、0.86、0.91及0.91、0.94、0.93、0.80、0.86。結(jié)論"基于機(jī)器學(xué)習(xí)構(gòu)建的邏輯回歸、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)對(duì)高血壓患者進(jìn)展為HN均具有較好的預(yù)測(cè)效果。三者之間比較,邏輯回歸、支持向量機(jī)預(yù)測(cè)效果相似,優(yōu)于人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。
[關(guān)鍵詞]"機(jī)器學(xué)習(xí);高血壓;高血壓腎病;預(yù)測(cè)模型;邏輯回歸;支持向量機(jī);人工神經(jīng)網(wǎng)絡(luò)
[中圖分類(lèi)號(hào)]"R544.1""""""[文獻(xiàn)標(biāo)識(shí)碼]"A""""""[DOI]"10.3969/j.issn.1673-9701.2025.15.002
Construction"of"prediction"models"for"hypertensive"nephropathy"based"on"machine"learning
LIU"Mingming1,"WANG"Hong2,"WANG"Zhecheng3,"CHEN"Dan1
1.Department"of"Traditional"Chinese"Medicine,"Taizhou"First"People’s"Hospital,"Taizhou"318020,"Zhejiang,"China;"2.Department"of"Nephrology,"Taizhou"First"People’s"Hospital,"Taizhou"318020,"Zhejiang,"China;"3.School"of"Information"Engineering,"Taizhou"Vocational"College"of"Science"amp;"Technology,"Taizhou"318020,"Zhejiang,"China
[Abstract]"Objective"To"explore"the"construction"of"a"prediction"model"for"hypertensive"nephropathy"(HN)"based"on"machine"learning."Methods"A"total"of"318"hypertensive"patients"who"visited"Taizhou"First"People’s"Hospital"from"April"2023"to"March"2024"were"included"and"divided"into"a"training"set"and"a"validation"set"at"a"ratio"of"7":"3."Least"absolute"shrinkage"and"selection"operator"(LASSO)"algorithm"was"used"to"select"clinical"features"from"the"training"set,"and"12"clinically"significant"variables"were"obtained"from"18"clinical"variables."Based"on"the"Python"3.10"programming"language,"the"training"set"was"used"to"train"the"model."Taking"the"12"clinically"significant"indicators"were"used"as"input"variables,"and"whether"the"occurrence"of"HN"was"used"as"the"outcome"variable."Three"machine"learning"algorithms,"namely"logistic"regression,"support"vector"machine,"and"artificial"neural"network,"were"used"to"construct"prediction"models."The"test"set"was"used"for"internal"validation"of"three"models."The"performance"of"the"models"was"compared"through"accuracy,"area"under"the"receiver"operating"characteristic"curve,"recall"rate,"precision,"and"F1."Results"Among"12"clinically"significant"variables"screened"by"the"LASSO"algorithm,"cystatin"C"and"urine"protein"qualitative"were"found"to"be"the"most"predictive."The"accuracy,"area"under"the"receiver"operating"characteristic"curve,"recall"rate,"precision,"and"F1"values"of"the"Logistic"regression,"support"vector"machine,"and"artificial"neural"network"prediction"models"constructed"by"machine"learning"was"0.94,"0.96,"0.95,"0.87,"0.91;"0.94,"0.97,"0.96,"0.86,"0.91;"0.91,"0.94,"0.93,"0.80,"0.86,"respectively."Conclusion"Logistic"regression,"support"vector"machine,"and"artificial"neural"network"based"on"machine"learning"all"have"good"predictive"effects"on"the"progression"of"hypertensive"patients"to"HN."Among"them,"the"predictive"effects"of"Logistic"regression"and"support"vector"machine"are"similar"and"better"than"artificial"neural"network"prediction"model.
[Key"words]"Machine"learning;"Hypertension;"Hypertensive"nephropathy;"Prediction"model;"Logistic"regression;"Support"vector"machine;"Artificial"neural"network
高血壓作為常見(jiàn)的慢性疾病,對(duì)心臟、大腦、腎臟等重要臟器的結(jié)構(gòu)與功能造成持續(xù)損害。研究指出2019年全球有12.8億成年人罹患高血壓,中國(guó)成人高血壓患病人數(shù)為2.45億,患病率達(dá)23.2%,患病率總體呈增高趨勢(shì)[1]。
高血壓腎?。╤ypertensive"nephropathy,HN)是由長(zhǎng)期血壓增高引起腎內(nèi)小動(dòng)脈及細(xì)小動(dòng)脈病變,造成動(dòng)脈管腔狹窄,繼發(fā)缺血性腎實(shí)質(zhì)損害,并導(dǎo)致腎小球硬化、腎小管萎縮和腎間質(zhì)纖維化的一種疾病[2]。HN的進(jìn)展通常較為緩慢,且在疾病早期可能不會(huì)出現(xiàn)明顯癥狀。然而,隨著疾病的進(jìn)展,最終可能導(dǎo)致患者發(fā)生終末期腎病,對(duì)患者的生命構(gòu)成重大威脅。
機(jī)器學(xué)習(xí)(machine"learning,ML)是近年興起的涉及概率論、統(tǒng)計(jì)學(xué)及計(jì)算復(fù)雜性理論的多領(lǐng)域交叉學(xué)科,目前在疾病預(yù)測(cè)和判斷中有著廣泛的應(yīng)用[3-4]。本研究旨在運(yùn)用ML開(kāi)發(fā)一種高效且簡(jiǎn)便的預(yù)測(cè)工具,用于評(píng)估高血壓患者進(jìn)展為HN的風(fēng)險(xiǎn),以期盡早干預(yù),防止疾病的進(jìn)展。
1""資料與方法
1.1""臨床資料
納入2023年4月至2024年3月于臺(tái)州市第一人民醫(yī)院就診的318例高血壓患者。本研究經(jīng)臺(tái)州市第一人民醫(yī)院倫理委員會(huì)批準(zhǔn)(倫理審批號(hào):臺(tái)一醫(yī)倫審2023研第018號(hào)–01),患者均簽署知情同意書(shū)。
1.2""診斷和納排標(biāo)準(zhǔn)
1.2.1""診斷標(biāo)準(zhǔn)""高血壓診斷標(biāo)準(zhǔn):參照《中國(guó)高血壓防治指南(2018年修訂版)》[5]。HN診斷標(biāo)準(zhǔn):參照《高血壓腎病診斷和治療中國(guó)專(zhuān)家共識(shí)(2022)》[2]。
1.2.2""納入標(biāo)準(zhǔn)""①患者年齡≥35歲并≤75歲;②依據(jù)高血壓診斷標(biāo)準(zhǔn),明確診斷為原發(fā)性高血壓?。虎刍颊弑救撕炇鹬橥鈺?shū)。
1.2.3""排除標(biāo)準(zhǔn)""①意識(shí)不清或難以準(zhǔn)確表達(dá)主觀不適癥狀;②確診為原發(fā)性腎病,或除高血壓外其他原因引起的繼發(fā)性腎臟疾??;③伴有嚴(yán)重的呼吸、心血管、消化系統(tǒng)等原發(fā)性疾病。
1.3""統(tǒng)計(jì)學(xué)方法
采用SPSS"26.0統(tǒng)計(jì)學(xué)軟件對(duì)數(shù)據(jù)進(jìn)行處理分析。符合正態(tài)分布的計(jì)量資料以均數(shù)±標(biāo)準(zhǔn)差(")表示,比較采用t檢驗(yàn);不符合正態(tài)分布的計(jì)量資料以中位數(shù)(四分位數(shù)間距)[M(Q1,Q3)]表示,比較采用秩和檢驗(yàn)。計(jì)數(shù)資料以例數(shù)(百分率)[n(%)]表示,比較采用c2檢驗(yàn)。通過(guò)最小絕對(duì)收縮和選擇算子算法(least"absolute"shrinkage"and"selection"operator,LASSO)篩選危險(xiǎn)因素,并據(jù)此構(gòu)建邏輯回歸(logistic"regression,LR)、支持向量機(jī)(support"vector"machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(artificial"neural"network,ANN)3個(gè)ML預(yù)測(cè)模型。采用準(zhǔn)確率、精確率、召回率、F1得分、受試者操作特征曲線(receiver"operating"characteristic"curve,ROC曲線)下面積(area"under"the"curve,AUC)等指標(biāo)評(píng)價(jià)模型的穩(wěn)定性及預(yù)測(cè)性能。Plt;0.05為差異有統(tǒng)計(jì)學(xué)意義。
2""結(jié)果
2.1""基本情況
共納入318例高血壓患者,其中HN患者130例(40.88%)?;颊吣挲g36~74歲。男186例,女132例,男女比例1.41∶1。該數(shù)據(jù)集包括18個(gè)變量,其中性別、民族、吸煙、是否合并糖尿病是二分類(lèi)變量,年齡、體質(zhì)量指數(shù)(body"mass"index,BMI)、肌酐(creatinine,Cr)、丙氨酸轉(zhuǎn)氨酶(alanine"aminotransferase,ALT)、尿素氮(blood"urea"nitrogen,BUN)、白蛋白(albumin,ALB)、尿酸(uric"acid,UA)、總膽固醇(total"cholesterol,TC)、鉀離子(K+)、甘油三酯(triglyceride,TG)、尿隱血(urinary"occult"blood,OB)、胱抑素C(cystatin"C,Cys-C)、尿蛋白定性(qualitative"determination"of"urine"protein,PRO)、尿白蛋白/肌酐(urinary"albumin/creatinine,ACR)等為連續(xù)性變量。
納入的318例高血壓患者按訓(xùn)練集∶驗(yàn)證集=7∶3隨機(jī)分成訓(xùn)練集(223例)和驗(yàn)證集(95例),兩組患者的臨床資料比較差異無(wú)統(tǒng)計(jì)學(xué)意義(P gt;0.05),見(jiàn)表1。
2.2""變量選擇與模型構(gòu)建
使用LASSO回歸分析對(duì)訓(xùn)練集進(jìn)行臨床特征選擇,18項(xiàng)臨床變量得到12項(xiàng)有臨床意義的變量,分別為性別、BMI、是否合并糖尿病、ALT、TC、Cys-C、K+、BUN、UA、PRO、OB、ACR,各變量回歸系數(shù)見(jiàn)表2,最優(yōu)α值為0.0139,均方誤差(mean"squared"error,MSE)為0.1093。LASSO相關(guān)性分析系數(shù)見(jiàn)圖1,LASSO系統(tǒng)路徑圖見(jiàn)圖2,LASSO交叉驗(yàn)證圖見(jiàn)圖3。
2.3""預(yù)測(cè)模型的構(gòu)建與評(píng)價(jià)
本研究采用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,以12項(xiàng)有臨床意義的變量為輸入變量,以是否發(fā)生HN為結(jié)果變量建立早期診斷模型,利用LR、SVM、ANN3種ML算法構(gòu)建模型。利用驗(yàn)證集對(duì)建立的LR、SVM、ANN模型進(jìn)行內(nèi)部驗(yàn)證。驗(yàn)證集3種模型LR、SVM、ANN結(jié)果顯示,AUC為0.96、0.97及0.94,ROC曲線圖見(jiàn)圖4。精確率–召回率(precision–recall,PR)曲線的AUC分別為0.95、0.96及0.93,PR曲線見(jiàn)圖5。3種模型預(yù)測(cè)結(jié)果評(píng)價(jià)見(jiàn)表3。
3""討論
HN在慢性腎臟病中的發(fā)病率僅次于糖尿病腎病。據(jù)統(tǒng)計(jì),HN的住院患者約占中國(guó)慢性腎臟病住院患者的20%,是導(dǎo)致終末期腎病的重要原因[6]。構(gòu)建HN預(yù)測(cè)模型,幫助醫(yī)務(wù)人員在疾病初期及時(shí)發(fā)現(xiàn)潛在風(fēng)險(xiǎn),對(duì)改善患者預(yù)后具有重要臨床意義。
本研究對(duì)18項(xiàng)臨床變量通過(guò)LASSO回歸分析,最終結(jié)果顯示Cys-C與PRO"2項(xiàng)變量最具有預(yù)測(cè)意義。這與臨床報(bào)道一致,如顧薇等[7]研究報(bào)道血清Cys-C等可作為HN的早期診斷指標(biāo);衛(wèi)赟雯等[8]研究認(rèn)為Cys-C對(duì)HN發(fā)展成終末期腎病的影響較大;王獻(xiàn)春等[9]研究報(bào)道Cys-C等可輔助診斷早期HN;崔榮萍等[10]研究認(rèn)為Cys-C水平等與非杓型高血壓早期腎損害患者的病情程度顯著相關(guān);鄭曉仙等[11]研究報(bào)道高血壓分級(jí)越高患者的Cys-C等水平越高,且Cys-C等水平越高腎損害程度越嚴(yán)重。
同時(shí)在HN中,PRO也是一個(gè)關(guān)鍵指標(biāo),其變化與腎臟高血壓損傷程度正相關(guān)。徐仕芳[12]研究發(fā)現(xiàn)高血壓人群中PRO與動(dòng)脈硬化明顯相關(guān);青梅等[13]研究認(rèn)為對(duì)PRO進(jìn)行檢測(cè)可對(duì)高血壓腎損傷起到良好的輔助診斷作用;黃茂堅(jiān)等[14]研究表明Cys-C與PRO聯(lián)合檢測(cè)可有效診斷原發(fā)性高血壓患者發(fā)生的早期腎損傷。
目前ML在疾病預(yù)測(cè)、診斷和預(yù)后、醫(yī)學(xué)圖像處理等方面都取得較大的進(jìn)展。劉奎等[15]應(yīng)用LightGBM和隨機(jī)森林兩種算法建立糖尿病腎病疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,得出LightGBM的預(yù)測(cè)模型更優(yōu)。楊雪柯等[16]應(yīng)用U-Net深度卷積神經(jīng)網(wǎng)絡(luò)將視網(wǎng)膜血管形態(tài)學(xué)及結(jié)構(gòu)數(shù)字化,得出視網(wǎng)膜微血管形態(tài)學(xué)特征異常與糖尿病腎病存在關(guān)聯(lián)。崔偉鋒等[17]分別通過(guò)決策樹(shù)、隨機(jī)森林、SVM和ANN構(gòu)建4個(gè)原發(fā)性高血壓的預(yù)后預(yù)測(cè)模型,得出構(gòu)建的SVM模型預(yù)測(cè)效能較好。
本研究通過(guò)ML的方法構(gòu)建可預(yù)測(cè)高血壓進(jìn)展為HN的預(yù)測(cè)模型。在模型開(kāi)發(fā)過(guò)程中,運(yùn)用LR、SVM、ANN"3種不同的ML算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練構(gòu)建預(yù)測(cè)模型,并通過(guò)驗(yàn)證集進(jìn)行驗(yàn)證,得到準(zhǔn)確度、AUC、召回率、精確率和F1值分別為0.94、0.96、0.95、0.87、0.91,0.94、0.97、0.96、0.86、0.91及0.91、0.94、0.93、0.80、0.86。3種模型對(duì)高血壓患者進(jìn)展為HN均具有較好的預(yù)測(cè)效果。三者之間比較,LR、SVM預(yù)測(cè)效果相似,優(yōu)于ANN預(yù)測(cè)模型。
推斷該結(jié)果與本研究的數(shù)據(jù)維度與樣本量有關(guān),本研究數(shù)據(jù)的維度不是特別高,樣本量較小。LR對(duì)維度不高、小樣本量時(shí)表現(xiàn)預(yù)測(cè)良好[18]。同樣在ML模型中SVM在處理高維小樣本數(shù)據(jù)時(shí)優(yōu)勢(shì)明顯[19];而ANN結(jié)構(gòu)復(fù)雜,在簡(jiǎn)單任務(wù)中易產(chǎn)生過(guò)擬合,從而影響準(zhǔn)確度。
本研究存在一定的局限性。首先本研究為單中心研究,納入患者樣本量和數(shù)據(jù)變量偏少,同時(shí)未能收集更多數(shù)據(jù)進(jìn)行外部驗(yàn)證,未來(lái)研究應(yīng)進(jìn)一步驗(yàn)證。以ACR變量為例,在本研究LASSO回歸分析中,該變量為負(fù)相關(guān);而在臨床報(bào)道中,長(zhǎng)期高血壓對(duì)腎臟的損害,使腎小球?yàn)V過(guò)率下降,PRO增加,ACR也隨之升高[20]。歸因于樣本量較小導(dǎo)致數(shù)據(jù)出現(xiàn)漂移。未來(lái)研究中將收集多中心數(shù)據(jù)、更多的臨床變量和基于更多的ML算法進(jìn)行模型訓(xùn)練,以期對(duì)HN早期進(jìn)行更精準(zhǔn)診斷。
利益沖突:所有作者均聲明不存在利益沖突。
[參考文獻(xiàn)]
[1] NCD"Risk"Factor"Collaboration"(NCD-RisC)."World"wide"trends"in"hypertension"prevalence"and"progress"in"treatment"and"control"from"1990"to"2019:"A"pooled"analysis"of"1201"population-representative"studies"with"104"million"participants[J]."Lancet,"2021,"398(10304):"957–980.
[2] 高血壓腎病診治中國(guó)專(zhuān)家共識(shí)組成員."高血壓腎病診斷和治療中國(guó)專(zhuān)家共識(shí)(2022)[J]."中華高血壓雜志,"2022,"30(4):"307–317.
[3] 馬棟方."面向慢性腎臟病臨床決策支持系統(tǒng)的機(jī)器學(xué)習(xí)研究[D]."杭州:"浙江大學(xué),"2021.
[4] 張育芳."一種用于藥物-靶標(biāo)相互作用預(yù)測(cè)的特征表示新方法[D]."上海:"上海交通大學(xué),"2020.