劉忠典 許琪 陳伊靜 覃玲巧 陳淑萍 唐薇婷 鐘秋安
【摘要】 背景 頸動(dòng)脈粥樣硬化(CAS)常被視為心血管疾?。–VD)的預(yù)警信號(hào),其診斷技術(shù)頸動(dòng)脈多普勒超聲檢查沒(méi)有被納入公共衛(wèi)生服務(wù)項(xiàng)目,同時(shí)弗雷明漢風(fēng)險(xiǎn)評(píng)分(FRS)存在著評(píng)估CAS風(fēng)險(xiǎn)準(zhǔn)確性不足的情況,不利于基層醫(yī)療人員識(shí)別CAS。目前,關(guān)于機(jī)器學(xué)習(xí)方法識(shí)別FRS中高風(fēng)險(xiǎn)人群CAS的研究依然缺乏。目的 運(yùn)用機(jī)器學(xué)習(xí)方法構(gòu)建FRS中高風(fēng)險(xiǎn)人群CAS的預(yù)測(cè)模型,比較其判別效能,篩選出性能最優(yōu)的模型,以期輔助基層醫(yī)療人員更簡(jiǎn)便更準(zhǔn)確地識(shí)別CAS。方法 采用方便抽樣法,選取2019—2021年和2023年在廣西壯族自治區(qū)柳州市兩鄉(xiāng)鎮(zhèn)的674例當(dāng)?shù)鼐用褡鳛檠芯繉?duì)象。收集相關(guān)信息,并采集空腹血樣、尿樣檢測(cè)生化指標(biāo)。采用FRS評(píng)估CVD發(fā)生風(fēng)險(xiǎn);運(yùn)用頸動(dòng)脈超聲診斷CAS。將2019—2021年517例研究對(duì)象按照8∶2的比例隨機(jī)分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用于構(gòu)建Logistic回歸、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、極端梯度增強(qiáng)(XGBoost)模型和梯度增強(qiáng)決策樹(shù)(GBDT)模型,驗(yàn)證集用于內(nèi)部驗(yàn)證;2023年157例研究對(duì)象作為測(cè)試集,用于外部驗(yàn)證。通過(guò)Lasso回歸分析篩選特征變量,運(yùn)用靈敏度、特異度、準(zhǔn)確度、F1值和曲線下面積(AUC)評(píng)價(jià)判別效能,外部驗(yàn)證采用AUC值評(píng)價(jià)最優(yōu)模型泛化能力,并通過(guò)Shapley Additive exPlanation(SHAP)方法探討影響最優(yōu)模型識(shí)別CAS的重要變量。結(jié)果 通過(guò)Lasso回歸,篩選出15個(gè)非零特征變量:年齡、BMI、收縮壓(SBP)、吸煙、飲酒、高血壓、總膽固醇、高密度脂蛋白膽固醇、C-反應(yīng)蛋白(CRP)、空腹血糖、載脂蛋白B(ApoB)、脂蛋白a(LPA)、天冬氨酸氨基轉(zhuǎn)移酶(AST)、AST/丙氨酸氨基轉(zhuǎn)移酶、尿微量白蛋白肌酐比值。構(gòu)建的Logistic回歸、RF、SVM、XGBoost模型和GBDT模型的AUC值均較高,其中GBDT模型的判別性能最優(yōu),其靈敏度、特異度、準(zhǔn)確度、F1值和AUC分別是0.755 1、0.836 4、0.798 1、0.778 9、
0.834 9,外部驗(yàn)證AUC為0.794 0。SHAP方法發(fā)現(xiàn)年齡、SBP、CRP、LPA、ApoB是影響GBDT模型識(shí)別CAS排名前5的因素。結(jié)論 基于機(jī)器學(xué)習(xí)識(shí)別CAS的Logistic回歸、RF、SVM、XGBoost模型和GBDT模型均顯示出較高的判別性能,其中GBDT模型綜合判別效能最佳,同時(shí)具有較強(qiáng)的泛化能力。
【關(guān)鍵詞】 心血管疾?。活i動(dòng)脈粥樣硬化;機(jī)器學(xué)習(xí);弗雷明漢風(fēng)險(xiǎn)評(píng)分;識(shí)別;預(yù)測(cè)
【中圖分類號(hào)】 R 54 【文獻(xiàn)標(biāo)識(shí)碼】 A DOI:10.12114/j.issn.1007-9572.2024.0019
Identification of Carotid Atherosclerosis in Medium-high Risk Population of Cardiovascular Disease:Prediction Model and Validation Based on Machine Learning
LIU Zhongdian,XU Qi,CHEN Yijing,QIN Lingqiao,CHEN Shuping,TANG Weiting,ZHONG Qiuan*
Department of Epidemiology,School of Public Health,Guangxi Medical University,Nanning 530021,China
*Corresponding author:ZHONG Qiuan,Professor/Doctoral supervisor;E-mail:qazhong@gxmu.edu.cn
【Abstract】 Background Carotid atherosclerosis(CAS)is often considered an early warning signal for cardiovascular diseases(CVD). The diagnostic technique of carotid artery Doppler ultrasonography has not been included in public health service programs,and the Framingham Risk Score(FRS)lacks accuracy in assessing CAS risk,hindering the identification of CAS by primary healthcare personnel. Currently,there is a lack of research on machine learning methods to identify CAS in the medium-high risk population assessed by FRS. Objective To construct a CAS risk prediction model for the medium-high risk population assessed by FRS using machine learning methods,compare its discriminative efficacy,select the optimal model,and assist primary healthcare personnel in identifying CAS more conveniently and accurately. Methods Using convenience sampling method,a total of 674 local residents from two townships in Liuzhou City,Guangxi Zhuang Autonomous Region,who met the inclusion criteria from 2019 to 2021 and 2023,were selected as the study subjects. Relevant information was collected,and biochemical indicators were measured in fasting blood and urine samples. FRS was used to assess the risk of CVD occurrence,and carotid ultrasound was used to diagnose CAS. Among the 517 subjects from 2019 to 2021,a random 8∶2 split was used to create a training set and a validation set. The training set was used to build Logistic regression,Random Forest(RF),Support Vector Machine(SVM),Extreme Gradient Boosting(XGBoost),and Gradient Boosting Decision Tree(GBDT)models,while the validation set was used for internal validation. The 157 subjects from 2023 served as the test set for external validation. Feature variables were selected using Lasso regression analysis,and discriminative efficacy was evaluated using sensitivity,specificity,accuracy,F(xiàn)1 score,and area under curve(AUC)value. External validation assessed the generalization ability of the optimal model using AUC value,and the Shapley Additive exPlanation(SHAP)method explored the important variables influencing the optimal model's identification of CAS. Results Lasso regression analysis identified 15 feature variables:age,BMI,systolic blood pressure(SBP),smoking,drinking,hypertension,total cholesterol,high density lipoprotein cholesterol,C-reactive protein(CRP),fasting plasma glucose,apolipoprotein B(ApoB),lipoprotein a(LPA),aspartate aminotransferase (AST),AST/ alanine aminotransferase,urinary microalbumin creatinine ratio. The constructed Logistic regression,RF,SVM,XGBoost,and GBDT models exhibited high AUC values,with the GBDT model showing the best discriminative performance. Its sensitivity,specificity,accuracy,F(xiàn)1 score,and AUC value were 0.755 1,0.836 4,0.798 1,0.778 9,and 0.834 9,respectively,and the external validation AUC value was 0.794 0. The SHAP method revealed that age,SBP,CRP,LPA,and ApoB were the top five factors influencing the GBDT model's identification of CAS. Conclusion Logistic regression,RF,SVM,XGBoost,and GBDT models for identifying CAS based on machine learning all demonstrated high discriminative performance,with the GBDT model exhibiting the best comprehensive discriminative efficacy and strong generalization ability.
【Key words】 Cardiovascular diseases;Carotid atherosclerosis;Machine learning;Framingham risk score;Identification;Forecasting
心血管疾病(cardiovascular disease,CVD)是城鄉(xiāng)居民主要死亡原因之一,其發(fā)病率和死亡率仍在不斷上升,是中國(guó)居民的首要健康危險(xiǎn)因素[1]。動(dòng)脈粥樣硬化是CVD的主要病理基礎(chǔ),頸動(dòng)脈常是最早受累的部位,因此,頸動(dòng)脈粥樣硬化(carotid atherosclerosis,CAS)通常被認(rèn)為是CVD的預(yù)警信號(hào)[2]。在診斷方面,多普勒超聲檢測(cè)頸動(dòng)脈內(nèi)-中膜厚度(carotid intima-media thickness,CIMT)是判斷CAS病變程度的可靠技術(shù)[3]。2009年以來(lái),基本公共衛(wèi)生服務(wù)項(xiàng)目在不斷“擴(kuò)容”,至2019年增加到12類服務(wù)項(xiàng)目[4],但頸動(dòng)脈多普勒超聲檢查并沒(méi)有被納入其中,不能滿足CVD早期防治的需求;弗雷明漢風(fēng)險(xiǎn)評(píng)分(Framingham Risk Score,F(xiàn)RS)是被廣泛應(yīng)用的一種心血管風(fēng)險(xiǎn)評(píng)估方法,但其存在著評(píng)估CAS風(fēng)險(xiǎn)準(zhǔn)確性不足的情況[5-6],可能會(huì)導(dǎo)致基層醫(yī)療人員不能準(zhǔn)確識(shí)別CAS。因此,亟需探索更簡(jiǎn)便有效的方法以早期識(shí)別CAS。近年來(lái)越來(lái)越多學(xué)者采用機(jī)器學(xué)習(xí)通過(guò)容易獲取的因素對(duì)疾病進(jìn)行識(shí)別,在個(gè)體自測(cè)和臨床應(yīng)用上均取得良好的效果[7]。
目前,關(guān)于機(jī)器學(xué)習(xí)識(shí)別FRS中高風(fēng)險(xiǎn)群體CAS的研究報(bào)道相對(duì)較少,為加強(qiáng)這一方面的研究,本研究選用Logistic回歸、隨機(jī)森林(Random Forest,RF)、支持向量機(jī)(Support Vector Machine,SVM)、極端梯度增強(qiáng)(Extreme Gradient Boosting,XGBoost)和梯度增強(qiáng)決策樹(shù)(Gradient Boosting Decision Tree,GBDT)構(gòu)建FRS中高風(fēng)險(xiǎn)群體(FRS>6%)CAS預(yù)測(cè)模型,并篩選出最優(yōu)模型,以期輔助基層醫(yī)療人員更簡(jiǎn)便、更準(zhǔn)確、更早地識(shí)別CAS,為臨床防治工作提供科學(xué)依據(jù)。
1 對(duì)象與方法
1.1 研究對(duì)象
采用方便抽樣法,于2019—2021年和2023年在廣西壯族自治區(qū)柳州市兩個(gè)鄉(xiāng)鎮(zhèn)選取當(dāng)?shù)鼐用? 169例作為研究對(duì)象,其中2019—2021年852例居民用于模型構(gòu)建及內(nèi)部驗(yàn)證,2023年317例居民用于外部驗(yàn)證。納入標(biāo)準(zhǔn):(1)30~74歲;(2)FRS>6%;(3)接受頸動(dòng)脈多普勒超聲檢查。排除標(biāo)準(zhǔn):(1)患有重大疾病的個(gè)體,如惡性腫瘤、嚴(yán)重感染性疾病、精神疾病等;(2)已被確診為冠心病、腦卒中或外周動(dòng)脈疾病;(3)協(xié)變量存在缺失?;诩{排標(biāo)準(zhǔn),最終納入674例(2019—2021年:517例;2023年:157例)符合條件的研究對(duì)象。本研究經(jīng)廣西醫(yī)科大學(xué)倫理委員會(huì)批準(zhǔn)(2019-SB-094),研究對(duì)象均已簽署知情同意書(shū)。
1.2 研究方法
1.2.1 一般資料:通過(guò)課題組自行設(shè)計(jì)的問(wèn)卷收集研究對(duì)象的性別、年齡、民族、受教育程度、體力活動(dòng)、吸煙史、飲酒史、疾病史和藥物使用情況等。體格檢查主要包括BMI、腰圍、心率、收縮壓(SBP)及舒張壓(DBP)。實(shí)驗(yàn)室檢查指標(biāo)包括總膽固醇(TC)、三酰甘油(TG)、低密度脂蛋白膽固醇(LDL-C)、高密度脂蛋白膽固醇(HDL-C)、空腹血糖(FPG)、尿微量白蛋白(ALB)、C-反應(yīng)蛋白(CRP)、尿肌酐(UCR)、脂蛋白a(LPA)、載脂蛋白A(ApoA)、載脂蛋白B(ApoB)、丙氨酸氨基轉(zhuǎn)移酶(ALT)及天冬氨酸氨基轉(zhuǎn)移酶(AST),并計(jì)算尿微量白蛋白/肌酐比值(ACR)=ALB/UCR。體力活動(dòng)按國(guó)際體力活動(dòng)問(wèn)卷(短卷)[8]計(jì)算體力活動(dòng)當(dāng)量,以代謝當(dāng)量(MET-min/w)表示。
1.2.2 FRS標(biāo)準(zhǔn):本研究使用FRS評(píng)估人群CVD風(fēng)險(xiǎn),將FRS>6%定義為CVD中高風(fēng)險(xiǎn)[9]。
1.2.3 CAS診斷:CAS定義為CIMT增加≥1 mm或斑塊形成[10]。CIMT的定義及詳細(xì)測(cè)量方法詳見(jiàn)既往研究[11]。斑塊定義為侵犯動(dòng)脈管腔至少0.5 mm或周圍CIMT值的50%的局灶性結(jié)構(gòu),或CIMT>1.5 mm[12]。由專業(yè)的超聲醫(yī)師負(fù)責(zé)頸動(dòng)脈多普勒超聲檢查,經(jīng)專業(yè)化培訓(xùn)的調(diào)查人員負(fù)責(zé)相應(yīng)數(shù)據(jù)的記錄。根據(jù)CAS診斷結(jié)果將517例居民分為兩組:正常組(272例)和CAS組(245例)。
1.2.4 相關(guān)定義:(1)吸煙,從不吸煙為總吸煙量<100支;曾經(jīng)吸煙為>100支但調(diào)查前30 d未吸煙;當(dāng)前吸煙為>100支且調(diào)查前30 d吸煙[13]。(2)飲酒,從不飲酒為飲酒<12個(gè)標(biāo)準(zhǔn)飲酒單位;曾經(jīng)飲酒為既往飲酒≥12個(gè)標(biāo)準(zhǔn)飲酒單位但最近1年飲酒<1個(gè)標(biāo)準(zhǔn)飲酒單位;當(dāng)前飲酒為既往飲酒≥12個(gè)標(biāo)準(zhǔn)飲酒單位且最近1年飲酒≥1個(gè)標(biāo)準(zhǔn)飲酒單位及以上[14]。(3)腎功能按慢性腎臟病流行病學(xué)協(xié)作公式計(jì)算估算腎小球?yàn)V過(guò)率(estimated glomerular filtration rate,eGFR),eGFR≥90 mL·min-1·(1.73 m2)-1定義為腎功能正常;eGFR<90 mL·min-1·(1.73 m2)-1定義為腎功能下降[15]。(4)高血壓:參照《中國(guó)高血壓防治指南(2018 年修訂版)》,SBP≥140 mmHg (1 mmHg=0.133 kPa)和/或DBP≥90 mmHg、既往診斷為高血壓或正在服用降壓藥物者[16]。(5)糖尿病定義為本次調(diào)查FPG≥7.0 mmol/L,或自述有正在服用降糖藥或患有糖尿?。?7]。(6)脂代謝異常,TC≥200 mg/dL、TG≥150 mg/dL、LDL-C≥130 mg/dL、HDL-C<40 mg/dL、正在使用降脂藥物,滿足任意1項(xiàng)[18-19]。(7)代謝綜合征依據(jù)國(guó)際糖尿病聯(lián)盟對(duì)代謝綜合征的定義[20]。(8)疾病一級(jí)親屬家族史,一級(jí)親屬(父親、母親、兄弟姐妹、兒子、女兒)中至少有1人患該疾?。?1]。
1.3 模型構(gòu)建
運(yùn)用Python 3.7.4的scikit-learn 2.2.2庫(kù)構(gòu)建模型。將Lasso回歸篩選出來(lái)的特征變量(連續(xù)變量進(jìn)行歸一化處理)作為輸入變量,以CAS作為結(jié)局變量,使用scikit-learn 2.2.2中train_test_split模塊將全部樣本按照8∶2的比例隨機(jī)分為訓(xùn)練集和驗(yàn)證集,并保持劃分后的數(shù)據(jù)集中陽(yáng)性和陰性病例之間比例與全部數(shù)據(jù)集中的一致,在訓(xùn)練集中分別使用Logistic Regression、Random Forest Classifier、SVC、XGBClassifier、Gradient Boosting Classifier模塊構(gòu)建Logistic回歸、RF、SVM、XGBoost模型和GBDT模型;采用GridSearchCV模塊(網(wǎng)格搜索算法)對(duì)每個(gè)模型進(jìn)行參數(shù)調(diào)優(yōu),將曲線下面積(area under curve,AUC)值作為評(píng)價(jià)指標(biāo)。在驗(yàn)證集中采用靈敏度、特異性、準(zhǔn)確度、F1值、AUC值評(píng)估5種模型的判別性能,篩選最優(yōu)模型。在測(cè)試集中對(duì)最優(yōu)模型進(jìn)行外部驗(yàn)證,采用AUC值評(píng)估模型的泛化能力。
使用Shapley Additive exPlanation(SHAP)方法探討每個(gè)特征變量對(duì)最優(yōu)預(yù)測(cè)模型的具體影響。
1.4 統(tǒng)計(jì)學(xué)方法
采用R(4.1.3)進(jìn)行統(tǒng)計(jì)分析。計(jì)量資料符合正態(tài)分布的以(x-±s)表示,兩組間比較采用獨(dú)立樣本t檢驗(yàn);計(jì)量資料不符合正態(tài)分布的以M(P25,P75)表示,兩組間比較采用Mann-Whitney U檢驗(yàn);計(jì)數(shù)資料以相對(duì)數(shù)表示,兩組間比較采用χ2檢驗(yàn)。以CAS為因變量,使用Lasso回歸分析篩選特征變量。繪制各模型在驗(yàn)證集中識(shí)別CAS的受試者工作特征(ROC)曲線,計(jì)算各模型的AUC并進(jìn)行比較。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2 結(jié)果
2.1 一般資料
517例居民中男210例(40.6%)、女307例(59.4%),平均年齡(60.2±7.9)歲,CAS診斷245例(47.4%)、正常診斷272例(52.6%)。兩組間性別、民族、受教育程度、腰圍、心率、DBP、吸煙史、飲酒史、糖尿病、體力活動(dòng)、FPG、TC、LDL-C、脂代謝異常、代謝綜合征、ApoA、ApoB、ApoA/ApoB、ALT、AST、UCR、ALB、ACR比較,差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);兩組間年齡、BMI、SBP、高血壓、HDL-C、TG、腎功能、CRP、LPA、AST/ALT比較,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表1。
2.2 Lasso回歸篩選特征變量
以居民是否診斷為CAS為因變量,以36個(gè)可能的影響因素為自變量進(jìn)行Lasso回歸模型篩選變量。其中分類變量賦值表見(jiàn)表2,年齡、心率、腰圍、BMI、體力活動(dòng)、SBP、DBP、FPG、TC、HDL-C、LDL-C、TG、CRP、LPA、ApoA、ApoB、ApoA/ApoB、UCR、ALB、ALT、AST、AST/ALT、ACR均為實(shí)測(cè)值。最終篩選出15個(gè)非零系數(shù)變量:年齡、BMI、SBP、吸煙、飲酒、高血壓、TC、HDL-C、CRP、FPG、ApoB、LPA、AST、AST/ALT、ACR(圖1、表3)。
2.3 構(gòu)建機(jī)器學(xué)習(xí)模型
將Lasso回歸篩選出的變量納入Logistic回歸、RF、SVM、XGBoost模型及GBDT模型,通過(guò)網(wǎng)格搜索方法,以AUC值作為評(píng)價(jià)指標(biāo),在訓(xùn)練集中確定每個(gè)模型的最優(yōu)參數(shù)分別為L(zhǎng)ogistic回歸:solver=“l(fā)iblinear”,max_iter=500,penalty=“l(fā)2”;RF:n_estimators=500,criterion=“gini”,bootstrap=True,max_depth=20,max_features=“auto”,min_samples_leaf=2,min_samples_split=2;SVM:kernel=“rbf”,C=1,gamma=0.01;XGBoost模型:learning_rate=0.007,n_estimators=500,max_depth=2,min_child_weight=8,gamma=0.8,subsample=0.8,colsample_bytree=0.8,objective=“binary:logistic”,nthread=4;GBDT模型:n_estimators=500,learning_rate=0.008,max_depth=2,subsample=0.8,max_features=“sqrt”,min_samples_split=5,min_samples_leaf=2,random_state=1117。
2.4 各模型對(duì)CAS的判別性能比較
將構(gòu)建的Logistic回歸、RF、SVM、XGBoost模型和GBDT模型在驗(yàn)證集中進(jìn)行內(nèi)部驗(yàn)證,結(jié)果顯示各模型的AUC均較高。其中SVM的AUC最高,GBDT模型靈敏度、特異度、準(zhǔn)確度和F1值均最高。綜合評(píng)價(jià),GBDT模型的判別性能最優(yōu),見(jiàn)圖2、表4。
2.5 模型外部驗(yàn)證
對(duì)內(nèi)部驗(yàn)證中性能最佳的GBDT模型進(jìn)行外部驗(yàn)證,測(cè)試模型的泛化能力。結(jié)果顯示,GBDT模型外部驗(yàn)證集中的AUC(0.794 0)較內(nèi)部驗(yàn)證集(0.834 9)有所下降,但仍>0.7,提示本研究構(gòu)建的GBDT模型具有較強(qiáng)的外部泛化能力。
2.6 SHAP方法探討最優(yōu)模型的解釋性
在圖3A中,按平均絕對(duì)SHAP值排序,展示了影響模型識(shí)別CAS的因素。這有助于直觀地理解每個(gè)因素對(duì)模型識(shí)別的貢獻(xiàn)程度。在圖3B中,y軸顯示了每個(gè)變量的重要性,最重要的變量位于圖表頂部,最不重要的變量位于底部。x軸表示SHAP值,衡量了每個(gè)變量對(duì)模型識(shí)別的貢獻(xiàn)大小。正值表示增加識(shí)別結(jié)果的可能性,負(fù)值表示減小識(shí)別結(jié)果的可能性。通過(guò)這個(gè)圖表,可以清晰地了解每個(gè)變量對(duì)CAS識(shí)別的影響。點(diǎn)的顏色代表了變量的原始值,紅色代表高值,藍(lán)色代表低值。這就可以直觀地觀察變量的原始值與其對(duì)模型識(shí)別的影響之間的關(guān)系。結(jié)果顯示,重要性排序前5名的變量依次為年齡、SBP、CRP、LPA、ApoB,圖3B顯示隨著變量的升高而增加了CAS發(fā)生的風(fēng)險(xiǎn)。
3 討論
本研究結(jié)果顯示FRS中高風(fēng)險(xiǎn)群體中未識(shí)別出CAS的個(gè)體占比為52.6%,與既往研究結(jié)果相似[5-6],提示根據(jù)FRS識(shí)別CAS準(zhǔn)確性不足。為了提高FRS中高風(fēng)險(xiǎn)群體CAS早期識(shí)別的準(zhǔn)確性,本研究構(gòu)建了該群體CAS的風(fēng)險(xiǎn)預(yù)測(cè)模型,并篩選出最優(yōu)模型,更準(zhǔn)確地識(shí)別CAS,以優(yōu)化個(gè)體的預(yù)防和治療策略,減輕醫(yī)療負(fù)擔(dān),避免醫(yī)療資源浪費(fèi)。
本研究基于機(jī)器學(xué)習(xí)運(yùn)用Logistic回歸、RF、SVM、XGBoost和GBDT算法構(gòu)建了5個(gè)預(yù)測(cè)模型。全部模型的AUC值均較高,其中GBDT模型的綜合判別效能最優(yōu)(靈敏度=0.755 1,特異度=0.836 4,準(zhǔn)確度=0.798 1,F(xiàn)1值=0.778 9,AUC=0.834 9),與同類型的研究[21-23]相比,該模型被認(rèn)為是具有較高精度的預(yù)測(cè)模型;在外部驗(yàn)證中也展現(xiàn)出了較強(qiáng)的泛化能力(AUC=0.794 0)。GBDT算法是機(jī)器學(xué)習(xí)方法之一,也稱為多元加性回歸樹(shù),比Logistic、決策樹(shù)和RF算法具有更準(zhǔn)確地識(shí)別能力和復(fù)雜的算法[24],具有許多非線性變換和扎實(shí)的表現(xiàn)能力,不需要復(fù)雜的特征工程和變換[25]。GBDT模型被廣泛運(yùn)用于疾病的識(shí)別,均表現(xiàn)出較好的判別性能。WU等[21]運(yùn)用4種機(jī)器學(xué)習(xí)方法XGBoost、GBDT、RF和SVM構(gòu)建在無(wú)癥狀人群中頸動(dòng)脈斑塊識(shí)別模型,GBDT模型AUC為0.836 7,具有較高的判別性能。YE等[26]利用重癥監(jiān)護(hù)醫(yī)學(xué)信息數(shù)據(jù)庫(kù)(MIMIC)Ⅳ數(shù)據(jù)庫(kù)中患者的生命體征和實(shí)驗(yàn)室檢查等多項(xiàng)指標(biāo),建立了基于機(jī)器學(xué)習(xí)的慢性腎臟疾病合并冠狀動(dòng)脈疾病的重癥監(jiān)護(hù)病房患者的住院死亡率的預(yù)測(cè)模型,其中最優(yōu)模型為GBDT模型,AUC可達(dá)0.946。LIU等[27]基于人工智能構(gòu)建心肌梗死風(fēng)險(xiǎn)預(yù)測(cè)模型,用于預(yù)警住院患者心肌梗死的發(fā)生,其中GBDT模型為最優(yōu)模型,AUC為0.91。LIU等[28]利用機(jī)器學(xué)習(xí)方法構(gòu)建急性胰腺炎患者膿毒癥風(fēng)險(xiǎn)預(yù)測(cè)模型,并將最優(yōu)模型GBDT模型與Logistic回歸模型和評(píng)分系統(tǒng)進(jìn)行比較,顯示判別性能優(yōu)于Logistic回歸模型和評(píng)分系統(tǒng)。SU等[29]使用機(jī)器學(xué)習(xí)方法結(jié)合縱向數(shù)據(jù)來(lái)預(yù)測(cè)中國(guó)老年人2年內(nèi)慢性腎臟疾病發(fā)展的風(fēng)險(xiǎn),GBDT模型表現(xiàn)出較好的判別性能。
本研究通過(guò)SHAP方法對(duì)GBDT模型進(jìn)行可視化解釋,對(duì)模型判別性能影響排序前5名的變量依次為年齡、SBP、CRP、LPA、ApoB,同時(shí)也表明年齡小、低SBP、低CRP、低LPA和低ApoB可以降低CAS發(fā)生的風(fēng)險(xiǎn)。張萍等[30]研究表明隨著年齡增長(zhǎng),動(dòng)脈管壁結(jié)構(gòu)的膠原纖維和彈力纖維比例失調(diào),導(dǎo)致動(dòng)脈壁增厚、順應(yīng)性降低,加上一些疾病引起的血管內(nèi)皮功能障礙和結(jié)構(gòu)異常,促使粥樣硬化的發(fā)生。唐焱等[31]也發(fā)現(xiàn)年齡是頸動(dòng)脈斑塊形成的危險(xiǎn)因素,隨著年齡的增加CAS斑塊也明顯提升,并且不少研究也視其為獨(dú)立危險(xiǎn)因素。有研究表明高血壓患者中CAS發(fā)生率更高,且SBP升高更為明顯[32]。以往的研究表明,即使沒(méi)有其他CVD危險(xiǎn)因素存在,炎癥仍然能夠引發(fā)CAS的形成[33]。高水平的炎癥可能導(dǎo)致內(nèi)皮通透性的過(guò)度增加,這表示內(nèi)皮屏障的完整性受到破壞。受損的內(nèi)皮細(xì)胞通過(guò)進(jìn)一步表達(dá)黏附分子和趨化因子,使白細(xì)胞能夠在內(nèi)皮上滾動(dòng)、附著并最終進(jìn)入血管壁,從而促進(jìn)了血管壁炎癥的發(fā)展[34]。研究表明,LPA與頸動(dòng)脈粥樣硬化斑塊發(fā)生關(guān)系密切,作用機(jī)理主要與膽固醇代謝以及纖維蛋白水解作用相關(guān);高LPA患者心肌梗死和冠心病發(fā)病率高于健康人,腦動(dòng)脈硬化患者LPA不僅顯著高于健康人,還和病變的程度密切相關(guān)[35-36]。一項(xiàng)包括8項(xiàng)隊(duì)列和4項(xiàng)病例對(duì)照研究的薈萃分析得出結(jié)論,ApoB水平升高是首次缺血性卒中的危險(xiǎn)因素[37]。本研究結(jié)果與上述研究結(jié)果一致,與臨床實(shí)踐也基本一致,說(shuō)明本研究所構(gòu)建的GBDT模型具有較強(qiáng)的合理性。
基層醫(yī)療衛(wèi)生機(jī)構(gòu)是實(shí)現(xiàn)當(dāng)?shù)厝罕娋徒歪t(yī)、方便就醫(yī)的首要環(huán)節(jié),直接面對(duì)當(dāng)?shù)厝罕姷尼t(yī)療服務(wù)和衛(wèi)生需求;同時(shí),基層醫(yī)療衛(wèi)生機(jī)構(gòu)也是初級(jí)醫(yī)療衛(wèi)生保健服務(wù)的主要提供者,發(fā)揮著醫(yī)療費(fèi)用“守門(mén)人”和居民健康管理的重要作用,并向確有??妻D(zhuǎn)診需要的首診患者提供專業(yè)性的建議[38]。有研究表明,心腦血管疾病患者的門(mén)診治療費(fèi)用在家庭衛(wèi)生支出中占比高達(dá)44.05%,超過(guò)了所有疾病治療費(fèi)用在家庭衛(wèi)生支出中所占的比例(34.85%),心腦血管疾病患者門(mén)診治療費(fèi)用負(fù)擔(dān)相對(duì)較為沉重,因此為了控制醫(yī)療費(fèi)用和減輕疾病經(jīng)濟(jì)負(fù)擔(dān),有必要將心腦血管疾病列為未來(lái)疾病預(yù)防和控制的重點(diǎn)[39]。早診早治是心腦血管疾病防治的關(guān)鍵,本研究所構(gòu)建CAS風(fēng)險(xiǎn)預(yù)測(cè)模型的特征變量為公共衛(wèi)生服務(wù)項(xiàng)目所包含的檢測(cè)指標(biāo),容易獲取,增加了模型的實(shí)用性,同時(shí)可以提高基層醫(yī)務(wù)人員識(shí)別CAS的簡(jiǎn)便性和準(zhǔn)確性,這有助于早期識(shí)別并在病情惡化之前采取有效的預(yù)防和治療策略,提高患者的生活質(zhì)量,同時(shí)通過(guò)減少CAS引起的心血管事件,有望帶來(lái)顯著的社會(huì)經(jīng)濟(jì)效益,減輕醫(yī)療負(fù)擔(dān),提高健康資源的利用效率。
本研究存在一定的局限性:首先,采用方便抽樣方法,存在著一定的選擇偏倚;其次,女性占比偏高,可能與男性多在外地工作有關(guān);再者,研究對(duì)象缺少相關(guān)服藥資料,可能會(huì)對(duì)研究結(jié)果造成一定的影響;最后,研究對(duì)象大多來(lái)源于鄉(xiāng)鎮(zhèn)地區(qū),對(duì)研究結(jié)果的外推有一定影響。
綜上所述,本研究通過(guò)Lasso回歸篩選出與CAS相關(guān)的特征變量,構(gòu)建基于Logistic回歸、RF、SVM、XGBoost和GBDT的FRS中高風(fēng)險(xiǎn)群體CAS預(yù)測(cè)模型,通過(guò)靈敏度、特異度、準(zhǔn)確度、F1值和AUC值這5個(gè)評(píng)價(jià)指標(biāo)綜合評(píng)估判別性能,結(jié)果表明GBDT模型識(shí)別CAS的效果最佳,同時(shí)具有較強(qiáng)的泛化能力;運(yùn)用SHAP方法對(duì)GBDT模型進(jìn)行可視化解釋,年齡、SBP、CRP、LPA、ApoB是對(duì)模型判別效能最重要的變量,同時(shí)也是CAS的危險(xiǎn)因素。這一研究成果有望幫助基層醫(yī)務(wù)人員進(jìn)行更準(zhǔn)確的評(píng)估、提高CAS的識(shí)別和治療覆蓋率及合理分配醫(yī)療資源,并為FRS中高風(fēng)險(xiǎn)群體CAS的早期干預(yù)提供科學(xué)依據(jù),進(jìn)一步改善基層居民心血管健康、提高醫(yī)療服務(wù)水平以及促進(jìn)社會(huì)公共衛(wèi)生。在未來(lái)的研究和實(shí)踐中,建議進(jìn)一步驗(yàn)證和拓展模型的適用性,以確保其在不同人群中的有效性。
作者貢獻(xiàn):劉忠典、許琪、陳伊靜、覃玲巧、陳淑萍、唐薇婷進(jìn)行研究的實(shí)施、數(shù)據(jù)收集與整理;劉忠典負(fù)責(zé)進(jìn)行統(tǒng)計(jì)學(xué)處理、結(jié)果的分析與解釋及撰寫(xiě)論文;劉忠典、鐘秋安進(jìn)行論文的修訂;鐘秋安進(jìn)行文章的構(gòu)思與設(shè)計(jì)、可行性分析,負(fù)責(zé)文章的質(zhì)量控制及審校。
本文無(wú)利益沖突。
劉忠典:https://orcid.org/0009-0003-3135-6800
參考文獻(xiàn)
胡盛壽,王增武. 《中國(guó)心血管健康與疾病報(bào)告2022》概述[J]. 中國(guó)心血管病研究,2023,21(7):577-600.
SAKELLARIOS A I,BIZOPOULOS P,PAPAFAKLIS M I,et al. Natural history of carotid atherosclerosis in relation to the hemodynamic environment[J]. Angiology,2017,68(2):109-118. DOI:10.1177/0003319716644138.
JOHRI A M,NAMBI V,NAQVI T Z,et al. Recommendations for the assessment of carotid arterial plaque by ultrasound for the characterization of atherosclerosis and evaluation of cardiovascular risk:from the American society of echocardiography[J]. J Am Soc Echocardiogr,2020,33(8):917-933. DOI:10.1016/j.echo.2020.04.021.
尤莉莉,陳新月,楊凌鶴,等. 國(guó)家基本公共衛(wèi)生服務(wù)項(xiàng)目十年評(píng)價(jià)(2009—2019年)系列報(bào)告(三)——國(guó)家基本公共衛(wèi)生服務(wù)項(xiàng)目實(shí)施十年:挑戰(zhàn)與建議[J]. 中國(guó)全科醫(yī)學(xué),2022,25(26):3221-3231. DOI:10.12114/j.issn.1007-9572.2022.0406.
PEN A,YAM Y,CHEN L,et al. Discordance between Framingham Risk Score and atherosclerotic plaque burden[J]. Eur Heart J,2013,34(14):1075-1082. DOI:10.1093/eurheartj/ehs473.
易艷珊,農(nóng)青嬌,毛寶玉,等. 基于弗明翰風(fēng)險(xiǎn)評(píng)分與血管內(nèi)皮功能分類的心血管疾病危險(xiǎn)因素研究[J]. 中國(guó)全科醫(yī)學(xué),2018,21(16):1959-1964. DOI:10.3969/j.issn.1007-9572.2018.16.011.
RIDKER P M,BURING J E,RIFAI N,et al. Development and validation of improved algorithms for the assessment of global cardiovascular risk in women:the Reynolds Risk Score[J]. JAMA,2007,297(6):611-619. DOI:10.1001/jama.297.6.611.
樊萌語(yǔ),呂筠,何平平. 國(guó)際體力活動(dòng)問(wèn)卷中體力活動(dòng)水平的計(jì)算方法[J]. 中華流行病學(xué)雜志,2014,35(8):961-964. DOI:10.3760/cma.j.issn.0254-6450.2014.08.019.
D'AGOSTINO R B Sr,VASAN R S,PENCINA M J,et al. General cardiovascular risk profile for use in primary care:the Framingham Heart Study[J]. Circulation,2008,117(6):743-753. DOI:10.1161/CIRCULATIONAHA.107.699579.
WANG X J,LI W Z,SONG F J,et al. Carotid atherosclerosis detected by ultrasonography:a national cross-sectional study[J]. J Am Heart Assoc,2018,7(8):e008701. DOI:10.1161/JAHA.118.008701.
陳潤(rùn)霖,何土鳳,陶俐均,等. 心血管危險(xiǎn)因素對(duì)頸動(dòng)脈內(nèi)中膜進(jìn)展的影響研究[J]. 中國(guó)全科醫(yī)學(xué),2023,26(14):1709-1715. DOI:10.12114/j.issn.1007-9572.2022.0750.
TOUBOUL P J,HENNERICI M G,MEAIRS S,et al. Mannheim carotid intima-media thickness and plaque consensus (2004-2006-2011). An update on behalf of the advisory board of the 3rd,4th and 5th watching the risk symposia,at the 13th,15th and 20th European Stroke Conferences,Mannheim,Germany,2004,Brussels,Belgium,2006,and Hamburg,Germany,2011[J]. Cerebrovasc Dis,2012,34(4):290-296. DOI:10.1159/000343145.
HORNE D J,CAMPO M,ORTIZ J R,et al. Association between smoking and latent tuberculosis in the U.S. population:an analysis of the National Health and Nutrition Examination Survey[J]. PLoS One,2012,7(11):e49050. DOI:10.1371/journal.pone.0049050.
KUO C C,WEAVER V,F(xiàn)ADROWSKI J J,et al. Arsenic exposure,hyperuricemia,and gout in US adults[J]. Environ Int,2015,76:32-40. DOI:10.1016/j.envint.2014.11.015.
LEVEY A S,STEVENS L A,SCHMID C H,et al. A new equation to estimate glomerular filtration rate[J]. Ann Intern Med,2009,150(9):604-612. DOI:10.7326/0003-4819-150-9-200905050-00006.
戴燁. 基于《中國(guó)高血壓防治指南(2018修訂版)》對(duì)某院門(mén)診降壓藥應(yīng)用情況的調(diào)查[J]. 中國(guó)社區(qū)醫(yī)師,2022,38(12):11-13.
《中國(guó)老年型糖尿病防治臨床指南》編寫(xiě)組. 中國(guó)老年2型糖尿病防治臨床指南(2022年版)[J]. 中國(guó)糖尿病雜志,2022,30(1):2-51. DOI:10.3969/j.issn.1006-6187.2022.01.002.
EXPERT PANEL ON DETECTION E. Executive summary of the third report of the national cholesterol education program(NCEP)expert panel on detection,evaluation,and treatment of high blood cholesterol in adults(adult treatment panelⅢ)[J]. JAMA,2001,285(19):2486-2497. DOI:10.1001/jama.285.19.2486.
諸駿仁,高潤(rùn)霖,趙水平,等. 中國(guó)成人血脂異常防治指南(2016年修訂版)[J]. 中國(guó)循環(huán)雜志,2016,31(10):937-953.
金文勝,潘長(zhǎng)玉. 國(guó)際糖尿病聯(lián)盟關(guān)于代謝綜合征定義的全球共識(shí)[J]. 中華內(nèi)分泌代謝雜志,2005,21(4):附錄4b-1-附錄4b-2. DOI:10.3760/j.issn:1000-6699.2005.04.054.
WU D,CUI G S,HUANG X X,et al. An accurate and explainable ensemble learning method for carotid plaque prediction in an asymptomatic population[J]. Comput Methods Programs Biomed,2022,221:106842. DOI:10.1016/j.cmpb.2022.106842.
YU J,ZHOU Y,YANG Q,et al. Machine learning models for screening carotid atherosclerosis in asymptomatic adults[J]. Sci Rep,2021,11(1):22236. DOI:10.1038/s41598-021-01456-3.
龔軍,鐘小鋼,談軍濤,等. “網(wǎng)格搜索+XGBoost”算法建立兒童膿毒性休克預(yù)測(cè)模型[J]. 解放軍醫(yī)學(xué)雜志,2020,
45(12):1270-1276.
ZHOU Z H,F(xiàn)ENG J. Deep forest[J]. Natl Sci Rev,2019,6(1):74-86. DOI:10.1093/nsr/nwy108.
ZHANG Z D,JUNG C. GBDT-MO:gradient-boosted decision trees for multiple outputs[J]. IEEE Trans Neural Netw Learn Syst,2021,32(7):3156-3167. DOI:10.1109/TNNLS.2020.3009776.
YE Z X,AN S Y,GAO Y X,et al. The prediction of in-hospital mortality in chronic kidney disease patients with coronary artery disease using machine learning models[J]. Eur J Med Res,2023,28(1):33. DOI:10.1186/s40001-023-00995-x.
LIU R,WANG M Y,ZHENG T,et al. An artificial intelligence-based risk prediction model of myocardial infarction[J]. BMC Bioinformatics,2022,23(1):217. DOI:10.1186/s12859-022-04761-4.
LIU F,YAO J,LIU C Y,et al. Construction and validation of machine learning models for sepsis prediction in patients with acute pancreatitis[J]. BMC Surg,2023,23(1):267. DOI:10.1186/s12893-023-02151-y.
SU D,ZHANG X Y,HE K,et al. Individualized prediction of chronic kidney disease for the elderly in longevity areas in China:machine learning approaches[J]. Front Public Health,2022,10:998549. DOI:10.3389/fpubh.2022.998549.
張萍,郭秀麗,張鵬華. 頸動(dòng)脈粥樣硬化與血管危險(xiǎn)因素的相關(guān)性[J]. 中國(guó)老年學(xué)雜志,2017,37(5):1132-1134. DOI:10.3969/j.issn.1005-9202.2017.05.041.
唐焱,周宏,羅光華,等. 缺血性腦卒中患者CAS斑塊超聲、CT血管造影及臨床相關(guān)危險(xiǎn)因素分析[J]. 中國(guó)動(dòng)脈硬化雜志,2016,24(4):391-395.
高素穎,顏應(yīng)琳,于凱,等. 急性缺血性腦卒中頸動(dòng)脈粥樣硬化的危險(xiǎn)因素研究[J]. 中國(guó)全科醫(yī)學(xué),2021,24(3):327-332. DOI:10.12114/j.issn.1007-9572.2020.00.401.
TALEB S. Inflammation in atherosclerosis[J]. Arch Cardiovasc Dis,2016,109(12):708-715. DOI:10.1016/j.acvd.2016.04.002.
XU S W,ILYAS I,LITTLE P J,et al. Endothelial dysfunction in atherosclerotic cardiovascular diseases and beyond:from mechanism to pharmacotherapies[J]. Pharmacol Rev,2021,73(3):924-967. DOI:10.1124/pharmrev.120.000096.
孔祥鋒,王萍,陳明. 脂蛋白(a)與腦梗死患者頸動(dòng)脈粥樣硬化、纖維蛋白原、D-二聚體的關(guān)系[J]. 重慶醫(yī)科大學(xué)學(xué)報(bào),2011,36(9):1101-1102. DOI:10.13406/j.cnki.cyxb.2011.09.027.
張瑋,席艷,孫慧君,等. 脂蛋白A與血栓及動(dòng)脈粥樣硬化的關(guān)系[J]. 中國(guó)現(xiàn)代醫(yī)學(xué)雜志,2007,17(20):2500-2502,2505. DOI:10.3969/j.issn.1005-8982.2007.20.019.
DONG H L,CHEN W,WANG X Y,et al. Apolipoprotein A1,B levels,and their ratio and the risk of a first stroke:a meta-analysis and case-control study[J]. Metab Brain Dis,2015,30(6):1319-1330. DOI:10.1007/s11011-015-9732-7.
周忠良,范小靜. 西部地區(qū)基層醫(yī)療衛(wèi)生服務(wù)質(zhì)量及提升策略[J]. 西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2023,43(6):188-200. DOI:10.15896/j.xjtuskxb.202306016.
張毓輝,翟鐵民,柴培培,等. 我國(guó)心腦血管疾病治療費(fèi)用核算及預(yù)測(cè)研究[J]. 中國(guó)衛(wèi)生經(jīng)濟(jì),2019,38(5):18-22. DOI:10.7664/CHE20190505.
(收稿日期:2024-02-19;修回日期:2024-04-30)
(本文編輯:康艷輝)