秦偉國(guó),淦 帆,殷 波,徐 婷,鄧武昌,劉 彬,朱良炎,龔 攀,許國(guó)安,周水蓮
(1.中國(guó)人民解放軍聯(lián)勤保障部隊(duì)第908醫(yī)院胸心外科,南昌 330002; 2.江西省人民醫(yī)院、南昌醫(yī)學(xué)院第一附屬醫(yī)院眼科,南昌 330006; 3.永修縣馬口鎮(zhèn)中心衛(wèi)生院全科,江西 永修 330304)
高血壓是一個(gè)日益嚴(yán)重的全球健康問題,其通過損害多個(gè)靶器官,如心血管系統(tǒng)、腎臟、中樞神經(jīng)系統(tǒng)(CNS)和眼底來威脅人體健康[1]。高血壓最常見的眼部并發(fā)癥是高血壓性視網(wǎng)膜病變,慢性高血壓視網(wǎng)膜的病變根據(jù)其嚴(yán)重程度分為4期[2]:Ⅰ期,視網(wǎng)膜動(dòng)脈收縮血管變窄,表現(xiàn)為銀絲或銅絲樣征象;Ⅱ期,表現(xiàn)為視網(wǎng)膜動(dòng)脈硬化,有動(dòng)靜脈交叉的病理性特征;Ⅲ期,表現(xiàn)為視網(wǎng)膜滲出,可見棉絨斑或硬性滲出;Ⅳ期,在Ⅲ期的基礎(chǔ)上出現(xiàn)視乳頭水腫。中晚期會(huì)導(dǎo)致視力下降,因此,早期預(yù)測(cè)高血壓視網(wǎng)膜病變就尤為重要。近年來,機(jī)器學(xué)習(xí)算法因其可以通過數(shù)據(jù)驅(qū)動(dòng)的方法處理大量變量,而被廣泛應(yīng)用于疾病的風(fēng)險(xiǎn)預(yù)測(cè)中[3-4]。本研究采用機(jī)器學(xué)習(xí)算法建立原發(fā)性高血壓并發(fā)視網(wǎng)膜病變的風(fēng)險(xiǎn)預(yù)測(cè)模型,以期在臨床診療過程中輔助醫(yī)生盡早識(shí)別原發(fā)性高血壓并發(fā)視網(wǎng)膜病變患者,為臨床防治工作提供參考依據(jù)。
本研究采用回顧性研究方法,隨機(jī)選取2020年3月至2022年3月在中國(guó)人民解放軍聯(lián)勤保障部隊(duì)第908醫(yī)院體檢中心確診的原發(fā)性高血壓并發(fā)視網(wǎng)膜病變患者201例納入觀察組,單純?cè)l(fā)性高血壓患者201例納入對(duì)照組。
根據(jù)中國(guó)高血壓防治指南制定病例納入與排除標(biāo)準(zhǔn)[5]。1)觀察組納入標(biāo)準(zhǔn):首次診斷為高血壓視網(wǎng)膜病變,既往史中無高血壓視網(wǎng)膜病變病史;符合原發(fā)性高血壓診斷,即收縮壓≥140 mmHg(1 mmHg=0.133 kPa),舒張壓≥90 mmHg;高血壓性視網(wǎng)膜病變Ⅱ級(jí)及以上。排除標(biāo)準(zhǔn):其他疾病如糖尿病等引起的眼底改變;合并有嚴(yán)重危及生命的原發(fā)性疾病及精神病患者;妊娠或哺乳期患者。2)對(duì)照組納入標(biāo)準(zhǔn):明確診斷為原發(fā)性高血壓;無高血壓心、腦、腎及眼底血管病變。排除標(biāo)準(zhǔn):合并有青光眼、黃斑變性等眼部疾病及繼發(fā)性高血壓等。
本研究經(jīng)中國(guó)人民解放軍聯(lián)勤保障部隊(duì)第908醫(yī)院醫(yī)學(xué)倫理委員會(huì)審核批準(zhǔn),所有受試者及其家屬均簽署知情同意書。
收集患者的一般資料(性別、年齡、居住情況、受教育程度、離退休情況、年收入情況、口味、飲食情況、缺乏運(yùn)動(dòng)情況)、吸煙史、飲酒史、家族史(腦卒中、冠心病、高血壓、糖尿病)、既往史(腦卒中、心臟病、糖尿病、高血脂)、服藥情況(降壓藥、降脂藥)、血壓測(cè)量情況、體重指數(shù)(BMI)、腰圍、收縮壓、舒張壓、脈搏、空腹血糖、糖化血紅蛋白、甘油三脂、膽固醇、高密度脂蛋白、同型半胱氨酸、頸部斑塊情況等共34個(gè)變量作為原發(fā)性高血壓并發(fā)視網(wǎng)膜病變的可能影響因素。
1.3.1 篩選變量
1.3.2 建立預(yù)測(cè)模型
將上述篩選后的變量作為輸入變量,以是否發(fā)生高血壓視網(wǎng)膜病變作為結(jié)局變量,采用python3.9.12軟件,調(diào)用scikit-learn1.1.1包,按照7:3劃分訓(xùn)練集(n=321)和測(cè)試集(n=81),在訓(xùn)練集中分別構(gòu)建支持向量機(jī)(support vector machines,SVM)、K鄰近(K-Nearest Neighbor,KNN)、分類決策樹(DecisionTree)、隨機(jī)森林(RandomForest,RF)、極端隨機(jī)樹(Extremely randomized trees,ExtraTrees)、XGBoost及LightGBM預(yù)測(cè)模型。
1.3.3 評(píng)價(jià)模型性能
將構(gòu)建的模型應(yīng)用于測(cè)試集,繪制不同模型的準(zhǔn)確率柱狀圖和折線圖曲線,受試者工作特征曲線(ROC曲線)并計(jì)算ROC曲線下面積(AUC)。運(yùn)用準(zhǔn)確率、AUC值、敏感性及特異性對(duì)模型進(jìn)行評(píng)價(jià)。
2組患者的性別、年齡、吸煙史、飲酒史、缺乏運(yùn)動(dòng)情況、腦卒中家族史、冠心病家族史、糖尿病家族史、腦卒中既往史、心臟病既往史、糖尿病既往史、高血脂既往史、降脂藥的服藥情況、BMI、腰圍、舒張壓、空腹血糖值、糖化血紅蛋白、甘油三脂、高密度脂蛋白、頸部斑塊情況等21個(gè)指標(biāo)比較差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見表1。
表1 2組基線資料比較
使用Lasso回歸,得到最優(yōu)λ=0.003 556,并通過最優(yōu)λ篩選出其中coef>0的19個(gè)變量用于構(gòu)建預(yù)測(cè)模型,按權(quán)重系數(shù)依次排序?yàn)?高脂血癥、頸部斑塊情況、糖尿病史、腦卒中家族史、腦卒中史、缺乏運(yùn)動(dòng)情況、心臟病史、吸煙史、BMI、甘油三酯、冠心病家族史、空腹血糖、降脂藥的服藥情況、腰圍、糖尿病家族史、舒張壓、高密度脂蛋白、糖化血紅蛋白、年齡,見圖1。
將Lasso回歸模型篩選出的19個(gè)變量納入訓(xùn)練集和測(cè)試集,在訓(xùn)練集中構(gòu)建SVM、KNN、DecisionTree、RF、ExtraTrees、XGBoost、LightGBM預(yù)測(cè)模型。各模型超參設(shè)置見表2。
表2 各模型的超參設(shè)置
將構(gòu)建的模型運(yùn)用于測(cè)試集,各模型在測(cè)試集和訓(xùn)練集中的準(zhǔn)確率柱狀圖見圖2,各模型的準(zhǔn)確率、AUC、敏感性及特異性,見表3,各模型在測(cè)試集中的ROC曲線見圖3。其中SVM、ExtraTrees模型準(zhǔn)確率最高,且ExtraTrees模型的AUC值最高。
圖2 各模型在測(cè)試集和訓(xùn)練集中的準(zhǔn)確率
1-特異性圖3 各模型在測(cè)試集中預(yù)測(cè)原發(fā)性高血壓并發(fā)視網(wǎng)膜病變的ROC曲線圖
表3 各模型在測(cè)試集中對(duì)原發(fā)性高血壓并發(fā)視網(wǎng)膜病變的預(yù)測(cè)性能評(píng)價(jià)
原發(fā)性高血壓并發(fā)視網(wǎng)膜病變是慢性高血壓引起的血管損傷標(biāo)志[6],是高血壓的臨床特征和全身性表現(xiàn)[7],是成人高血壓患者視力損害的主要原因之一[8-9],與高血壓的嚴(yán)重程度相關(guān)[10-11]。眼底檢查雖然可以診斷高血壓性視網(wǎng)膜病變[12],但準(zhǔn)確的眼底檢查仍依賴于眼底照相及經(jīng)驗(yàn)豐富的眼科醫(yī)生,而我國(guó)高血壓人群基數(shù)龐大,且早期高血壓性視網(wǎng)膜病變并不會(huì)對(duì)患者的視力造成損害[13]。眼底照相并不適用于高血壓視網(wǎng)膜病變的篩查。
本研究運(yùn)用機(jī)器學(xué)習(xí)算法結(jié)合患者的一般資料、常規(guī)體檢項(xiàng)目中的檢驗(yàn)指標(biāo)及檢查指標(biāo),構(gòu)建了SVM、KNN、DecisionTree、RF、ExtraTrees、XGBoost、LightGBM預(yù)測(cè)模型。其中綜合性能最高的為ExtraTrees模型,其準(zhǔn)確率高達(dá)0.96,AUC值高達(dá)0.997。ExtraTrees模型為樹模型,其不易受離群點(diǎn)和缺失值的影響,且ExtraTrees模型與普通樹模型相比更具隨機(jī)性,這可能是其性能最佳的原因。所以,ExtraTrees模型可作為輔助診斷工具應(yīng)用到高血壓視網(wǎng)膜病變的篩查中,可能為早期高血壓視網(wǎng)膜病變的篩查提供便利。
Lasso回歸模型的結(jié)果顯示,高脂血癥、頸動(dòng)脈斑塊、糖尿病史、腦卒中家族史和既往史、缺乏鍛煉、冠心病史、吸煙史以及BMI權(quán)重系數(shù)較高,對(duì)模型預(yù)測(cè)結(jié)果影響較大。以往的研究[14]亦表明隨著血壓升高,視網(wǎng)膜循環(huán)會(huì)發(fā)生一系列的病理生理變化。血管收縮初期,由于局部自動(dòng)調(diào)節(jié)機(jī)制,出現(xiàn)血管痙攣和視網(wǎng)膜小動(dòng)脈張力增加,這一階段在臨床上表現(xiàn)為視網(wǎng)膜小動(dòng)脈的硬化[15]。強(qiáng)銳等[16]運(yùn)用多因素Logistic回歸分析方法,發(fā)現(xiàn)與正常相比,肥胖時(shí)發(fā)生視網(wǎng)膜動(dòng)脈硬化的風(fēng)險(xiǎn)為其3.936倍,年齡增加、收縮壓增高、合并糖尿病、頸動(dòng)脈斑塊也是視網(wǎng)膜動(dòng)脈硬化的獨(dú)立危險(xiǎn)因素。另有研究發(fā)現(xiàn)高脂血癥、糖尿病、肥胖、吸煙是導(dǎo)致動(dòng)脈粥樣硬化的危險(xiǎn)因素[17-20]。在本研究的預(yù)測(cè)模型中,高脂血癥、頸動(dòng)脈斑塊及糖尿病史權(quán)重系數(shù)較高。高脂血癥與鈣化性動(dòng)脈粥樣硬化有關(guān),會(huì)誘導(dǎo)血管內(nèi)膜狹窄[21],頸動(dòng)脈斑塊的形成則是頸動(dòng)脈硬化的標(biāo)志[22],而晚期糖尿病則會(huì)引起微血管病變[23]。本研究首次運(yùn)用高脂血癥、頸動(dòng)脈斑塊、糖尿病史等多個(gè)危險(xiǎn)因素建立高血壓視網(wǎng)膜動(dòng)脈硬化的預(yù)測(cè)模型,不僅實(shí)現(xiàn)了疾病的自動(dòng)篩查,也進(jìn)一步說明了上述危險(xiǎn)因素在動(dòng)脈硬化中的作用。與傳統(tǒng)的Logistic回歸相比,運(yùn)用Lasso回歸模型篩選變量,更好地解決了變量間的共線性問題,更高效地模擬了實(shí)際臨床工作中多種危險(xiǎn)因素共同作用下,高血壓視網(wǎng)膜病變發(fā)生的趨勢(shì),結(jié)果更真實(shí)可靠。
但本研究仍有不足之處,本研究樣本量較小,且為單中心研究,未進(jìn)行外部驗(yàn)證,可能不適用于所有的醫(yī)療機(jī)構(gòu)。在今后的研究中可增大樣本量,進(jìn)行多中心研究得到更可靠的模型。
綜上,本研究運(yùn)用機(jī)器學(xué)習(xí)算法構(gòu)建了基于SVM、KNN、DecisionTree、RF、ExtraTrees、XGBoost、LightGBM的原發(fā)性高血壓并發(fā)高血壓視網(wǎng)膜動(dòng)脈硬化預(yù)測(cè)模型,結(jié)果顯示ExtraTrees模型預(yù)測(cè)效果最好,可作為輔助診斷工具應(yīng)用到高血壓視網(wǎng)膜病變的篩查中,可能為今后早期高血壓視網(wǎng)膜病變的篩查提供便利。