汪奇,劉尚全
國際糖尿病聯(lián)盟資料顯示,近年來我國糖尿病患者數(shù)量逐年增多,現(xiàn)有糖尿病患者數(shù)量已達1.14 億[1]。研究表明,動脈粥樣硬化性心血管疾?。╝therosclerotic cardiovascular disease,ASCVD)是導致2 型糖尿?。╰ype 2 diabetes mellitus,T2DM)患者死亡的主要原因,而動脈粥樣硬化是ASCVD 的主要病理改變,早期預防及發(fā)現(xiàn)動脈粥樣硬化可降低T2DM 患者ASCVD 發(fā)生率,延長T2DM 患者生存期[2]。
頸動脈為動脈粥樣硬化好發(fā)部位,而頸動脈內-中膜厚度(carotid intima-media thickness,CIMT)增加或斑塊形成可作為亞臨床動脈粥樣硬化的診斷依據(jù)[3-4],但由于亞臨床動脈粥樣硬化早期常無明顯臨床癥狀,因此很多T2DM 患者出現(xiàn)臨床癥狀或就診時已進展為嚴重動脈粥樣硬化,對其長期生存期已造成影響[5]。美國心臟病協(xié)會相關指南指出,CIMT 不僅是腦梗死的危險因素,也是無ASCVD 人群發(fā)生ASCVD 的重要預測因子[6]。
《中國2 型糖尿病防治指南(2017 年版)》[7]雖強調盡早對新診斷的T2DM 患者進行微血管并發(fā)癥篩查,但未明確大血管病變并發(fā)癥的篩查時間[5]?;跈C器學習方法[8]可構建分類或回歸模型,而依托大數(shù)據(jù)學習可根據(jù)多項生理指標預測T2DM 患者亞臨床動脈粥樣硬化發(fā)生風險且不需要額外的檢查手段,這或可作為一種低成本、輔助性T2DM 患者亞臨床動脈粥樣硬化發(fā)生風險評估工具。目前,機器學習模型中的Logistic模型已被廣泛用于多變量分類和回歸分析[8-10]。本研究旨在依據(jù)多項指標構建預測T2DM 患者亞臨床動脈粥樣硬化的多層人工神經(jīng)網(wǎng)絡分類模型并驗證其預測準確性。
1.1 研究對象 選取2010 年1 月至2016 年12 月在安徽醫(yī)科大學第三附屬醫(yī)院〔合肥市第一人民醫(yī)院(含濱湖院區(qū))〕住院的T2DM 患者3 627 例,均符合《中國2 型糖尿病防治指南(2017 年版)》[7]中的T2DM 診斷標準,行雙側頸動脈超聲檢查且血脂指標數(shù)據(jù)完整。排除標準:(1)糖尿病急性并發(fā)癥及其他內分泌疾病;(2)冠心病、腦梗死;(3)惡性腫瘤;(4)嚴重肝、腎功能異常及感染性疾??;(5)妊娠。
1.2 亞臨床動脈粥樣硬化的判斷標準 以雙側頸動脈彩色多普勒超聲檢查發(fā)現(xiàn)任意一側CIMT>0.09 cm 或斑塊形成為亞臨床動脈粥樣硬化。本研究在3 627 例T2DM 患者中共檢出亞臨床動脈粥樣硬化者2 196 例(觀察組),未檢出亞臨床動脈粥樣硬化者1 431例(對照組),檢出率為60.55%。
1.3 觀察指標
1.3.1 一般資料 收集所有患者一般資料,包括性別、年齡、病程、身高、體質量、血壓(包括收縮壓、舒張壓)、吸煙情況(包括吸煙史、吸煙時間、吸煙量)、飲酒情況(包括飲酒史、飲酒時間、飲酒量)、糖尿病家族史、高血壓病史;計算體質指數(shù)(BMI)。
1.3.2 實驗室檢查指標及脂肪肝發(fā)生情況 抽取所有患者禁食8~12 h 后晨起空腹靜脈血并采用全自動分析儀完成實驗室檢查指標檢測,包括總膽紅素、直接膽紅素、間接膽紅素、總蛋白、白蛋白、球蛋白、丙氨酸氨基轉移酶、天冬氨酸氨基轉移酶、總膽汁酸、尿素氮、腎小球濾過率、血肌酐、血尿酸、胱抑素C、尿微量白蛋白排泄率、三酰甘油、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、三酰甘油/高密度脂蛋白膽固醇比值、低密度脂蛋白膽固醇/高密度脂蛋白膽固醇比值、白細胞計數(shù)、中性粒細胞計數(shù)、淋巴細胞計數(shù)、紅細胞計數(shù)、血紅蛋白、促甲狀腺激素、游離三碘甲狀腺原氨酸、游離甲狀腺素、糖化血紅蛋白、空腹血糖、空腹C 肽、穩(wěn)態(tài)模型評價(homeostasis model assessment,HOMA)-C 肽指數(shù)。分析所有患者脂肪肝發(fā)生情況并判斷脂肪肝嚴重程度(分為不嚴重和嚴重兩類)。
1.4 多層人工神經(jīng)網(wǎng)絡分類模型 本研究Logistic 模型只有1 個輸入層和1 個輸出層,沒有中間的隱藏層,可視為最簡單的人工神經(jīng)網(wǎng)絡(圖1A)。多層人工神經(jīng)網(wǎng)絡分類模型即帶有多個隱藏層的人工神經(jīng)網(wǎng)絡(圖1B),是一種深度學習模型,可將輸入變量映射到高維非線性空間、學習到多個輸入變量之間的復雜相關性,進而提高預測準確性[11]。
圖1 Logistic 模型和多層人工神經(jīng)網(wǎng)絡分類模型示意圖Figure 1 Diagrammatic drawing of Logistic model and multi-layer artificial neural network classification model
1.5 統(tǒng)計學方法 采用雙錄入方式錄入數(shù)據(jù)并采用EpiData 3.1 軟件建立數(shù)據(jù)庫。采用SPSS 26.0 統(tǒng)計學軟件進行數(shù)據(jù)分析。非正態(tài)分布的計量資料以M(P25,P75)表示,組間比較采用非參數(shù)檢驗。計數(shù)資料以相對數(shù)表示,組間比較采用χ2檢驗。以P<0.05 為差異有統(tǒng)計學意義。
2.1 一般資料、實驗室檢查指標及脂肪肝發(fā)生情況兩組患者BMI、舒張壓、有吸煙史者所占比例、有飲酒史者所占比例、飲酒量、直接膽紅素、總蛋白、天冬氨酸氨基轉移酶、血尿酸、三酰甘油、低密度脂蛋白膽固醇/高密度脂蛋白膽固醇比值、促甲狀腺激素、游離三碘甲狀腺原氨酸、游離甲狀腺素、糖化血紅蛋白、空腹血糖、空腹C 肽、HOMA-C 肽指數(shù)、嚴重脂肪肝所占比例〔對照組為28.33%(185/653),觀察組為30.64%(274/894),χ2=0.95,P=0.329〕比較,差異無統(tǒng)計學意義(P>0.05);觀察組患者女性所占比例、收縮壓、有高血壓病史者所占比例、球蛋白、總膽汁酸、尿素氮、血肌酐、胱抑素C、尿微量白蛋白排泄率、總膽固醇、低密度脂蛋白膽固醇、高密度脂蛋白膽固醇、白細胞計數(shù)、中性粒細胞計數(shù)高于對照組,年齡、吸煙量大于對照組,病程、吸煙時間、飲酒時間長于對照組,有糖尿病家族史者所占比例、總膽紅素、間接膽紅素、白蛋白、丙氨酸氨基轉移酶、腎小球濾過率、三酰甘油/高密度脂蛋白膽固醇比值、淋巴細胞計數(shù)、紅細胞計數(shù)、血紅蛋白、脂肪肝發(fā)生率低于對照組,差異有統(tǒng)計學意義(P<0.05),見表1。
2.2 多層人工神經(jīng)網(wǎng)絡分類模型的構建
2.2.1 輸入層 理論上,應將表1 中差異有統(tǒng)計學意義的30 項指標選為輸入變量,但鑒于顯著性檢驗無法保證完整反映變量間復雜的因果和依賴關系,因此結合臨床實際后,本研究亦將表1 中差異無統(tǒng)計學意義的19 項指標選為輸入變量,最終共得到49 項輸入變量。先將每項輸入變量歸一化為0~1,缺項則填補為-1,然后彼此相連構成1 個輸入向量,即x=(x1,x2,…,x38)。
表1 兩組患者一般資料、實驗室檢查指標及脂肪肝發(fā)生情況比較Table 1 Comparison of general information,laboratory examination results and incidence of fatty liver between the two groups
2.2.3 輸出層 輸出層利用1 個矩陣W0將殘差層q 轉化為似然向量o,即o=W0·q。o 是1 個二維向量,其第1 個元素o[0]表示T2DM 患者無亞臨床動脈粥樣硬化的似然值,其第2 個元素o[1]表示T2DM 患者有亞臨床動脈粥樣硬化的似然值;若o[0]>o[1]則判定T2DM 患者無亞臨床動脈粥樣硬化,若o[0] 研究表明,心腦血管事件是導致T2DM 患者死亡的主要原因[2],而亞臨床動脈粥樣硬化是ASCVD 的前期病理生理改變,因此早期發(fā)現(xiàn)亞臨床動脈粥樣硬化及動脈粥樣硬化并進行干預可有效延緩T2DM 患者大血管并發(fā)癥的發(fā)生。現(xiàn)階段,相關指南尚未明確T2DM 患者大血管并發(fā)癥的篩查時間[3],因此對于T2DM 患者,在無明確篩查標準的情況下,對不需要常規(guī)篩查頸部血管彩超者進行篩查可能會造成醫(yī)療資源的浪費,而對于部分缺少頸部血管彩超的基層/社區(qū)醫(yī)院,有些患者常因錯過最佳的亞臨床動脈粥樣硬化評估時機而導致臨床治療延誤。為使篩查效益最大化,亟須建立簡便、經(jīng)濟、有效的亞臨床動脈粥樣硬化篩查方法。 Logistic 模型對多元共線性十分敏感,需不斷地對輸入變量進行篩選,最終得出的是獨立危險因素或保護因素,可能會導致一些信息丟失。多層人工神經(jīng)網(wǎng)絡分類模型多元共線性不敏感,可根據(jù)假設檢驗結果及臨床經(jīng)驗納入輸入變量甚至將個體有關信息全部納入,有利于減少個體差異,與Logistic 模型相比可能更適用于亞臨床動脈粥樣硬化的篩查。本研究通過對大樣本(3 627 例T2DM 患者)數(shù)據(jù)進行分析發(fā)現(xiàn)了30 項對亞臨床動脈粥樣硬化有影響的指標并選為輸入變量,結合臨床后又將19 項可能對亞臨床動脈粥樣硬化有影響的指標選為輸入變量,進而構建出T2DM 患者亞臨床動脈粥樣硬化的多層人工神經(jīng)網(wǎng)絡分類模型;在測試集上,Logistic 模型預測T2DM 患者亞臨床動脈粥樣硬化的準確率為59%,而多層人工神經(jīng)網(wǎng)絡分類模型隱藏層數(shù)分別為1、2、3、4 時預測T2DM 患者亞臨床動脈粥樣硬化的準確率分別為61%、67%、76%、74%,表明多層人工神經(jīng)網(wǎng)絡分類模型對T2DM 患者亞臨床動脈粥樣硬化預測準確性更高,適于在臨床上推廣、應用。 根據(jù)深度學習理論[11],多層人工神經(jīng)網(wǎng)絡分類模型隱藏層數(shù)量增多時可將輸入變量轉化到復雜的非線性空間中并得到更有效的向量,對輸入變量間的復雜、依賴關系具有更好的建模和抽象能力,分類性能更優(yōu);Logistic 模型只有輸入、輸出層,沒有隱藏層,無法處理復雜的邏輯關系。本研究結果顯示,多層人工神經(jīng)網(wǎng)絡分類模型隱藏層數(shù)為3 時預測T2DM 患者亞臨床動脈粥樣硬化的準確率為76%,較Logistic 模型提高了15%,符合深度學習理論。本研究結果還顯示,多層人工神經(jīng)網(wǎng)絡分類模型隱藏層數(shù)從1 增加至3 時預測T2DM 患者亞臨床動脈粥樣硬化的準確率從61%升高至76%,但隱藏層數(shù)從3 增加至4 時預測T2DM 患者亞臨床動脈粥樣硬化的準確率則從76%降低至74%,分析主要與訓練集樣本有限(3 027 例T2DM 患者)有關;此外,隱藏層數(shù)增多意味著參數(shù)增多,樣本量不足時可能導致過擬合及泛化性能下降。 綜上所述,本研究成功構建的多層人工神經(jīng)網(wǎng)絡分類模型對T2DM 患者亞臨床動脈粥樣硬化的預測準確率較高,分類性能與Logistic 模型相比更優(yōu),但由于醫(yī)學大數(shù)據(jù)具有高度復雜性和個體差異性,因此該模型尚存在一些不足與尚待改進之處:(1)現(xiàn)有訓練集樣本有限,易導致過擬合且深度無法進一步加深,限制了分類性能的進一步提升,筆者下一步研究擬將訓練集樣本擴充至>20 000 例以助益模型深度學習;(2)雖然多層人工神經(jīng)網(wǎng)絡分類模型的預測準確率較高,但尚不具備可解釋性,難以將輸入變量間的因果和依賴關系外顯化為相關領域知識。因此,多層人工神經(jīng)網(wǎng)絡分類模型的可解釋性研究已在學術界掀起熱潮[15],今后研究應進一步探索和解釋多個輸入變量與T2DM 患者亞臨床粥樣硬化癥狀之間的內在聯(lián)系,并嘗試將該模型用于T2DM 患者其他并發(fā)癥研究。 作者貢獻:汪奇進行文章的構思與研究的設計、數(shù)據(jù)收集與統(tǒng)計學處理,負責論文撰寫、質量控制及審校;劉尚全對文章整體負責、監(jiān)督管理。 本文無利益沖突。3 討論