黃仕鑫,楊艷艷,羅亞玲,陳天瑤
2型糖尿病是一種慢性終身性疾病,在亞太地區(qū)的患病率較高,其并發(fā)腎病的患病率約為40%[1-4]。
糖尿病腎病(diabetic nephropathy,DN)是糖尿病發(fā)展至終末期腎衰竭(end stage renal disease,ESRD)接受腎臟替代治療(renal replacement therapy,RRT)的首位原因[5],亦是冠心病、腦卒中等心腦血管事件的高危因素[6]。
2型糖尿病腎病的發(fā)病機制復雜,其危險因素尚不明確[7]。國內外對DN的鑒別診斷研究取得了很大進展,發(fā)現(xiàn)一些生化指標、炎癥因子和生長因子可作為DN的診斷指標[8-13],但目前尚無一種模型在獨立診斷2型糖尿病腎病時具有很高的敏感度和特異度,仍須與臨床檢查相結合。
近年來有研究證實,使用決策樹的數(shù)據(jù)挖掘方法可提高DN的診斷率[14],但相關研究的樣本量較小,并且指標由主觀經(jīng)驗選取,因而有一定的局限性。本研究基于2型糖尿病腎病危害性大,且早期患者漏診率較高的情況,客觀采集患者的全部檢驗數(shù)據(jù),目的是運用遺傳算法優(yōu)化的誤差逆向傳播(genetic algorithm back propagation,GA-BP)神經(jīng)網(wǎng)絡技術構建診斷模型,初步形成神經(jīng)元認知模式(cognitive model,CM)架構。認知模式各節(jié)點間的因果關聯(lián)以神經(jīng)網(wǎng)絡結構表示,以期提供簡便、可靠的2型糖尿病腎病輔助診斷方法。
1.1 數(shù)據(jù)獲取方式及來源 ①數(shù)據(jù)獲取于重慶、貴州、四川5所三級醫(yī)院信息中心的數(shù)據(jù)庫;②數(shù)據(jù)來源于2016年1-12月的臨床信息,病例組選擇內分泌科(腎內科)確診為2型糖尿病腎病的住院患者,共477例;對照組納入同一時間段相同地點的阿爾茨海默病(120例)、高血壓腎病(120例)、狼瘡性腎炎(89例)及2型糖尿病非腎病(120例)的住院患者,共449例;病例組與對照組存在較好的同質性。
1.2 病例組入選標準 ①均為2型糖尿病患者;②符合腎穿刺組織病理學標準[15]。
1.3 對照組入選標準 ①疾病均為電子病歷首頁中的主診斷;②患者的病程記錄符合疾病診斷標準。
狼瘡性腎炎:①患者有系統(tǒng)性紅斑狼瘡病史或符合美國風濕病學會對系統(tǒng)性紅斑狼瘡的免疫標準;②系統(tǒng)性紅斑狼瘡診斷成立,臨床上出現(xiàn)不同程度的蛋白尿和血尿,常有管型合并腎功能異?;蚰I臟穿刺病理報告符合狼瘡性腎炎標準;③無糖尿病史。
高血壓性腎?。孩倩颊哂休^長的高血壓病史(>10年);②在排除其他腎病的可能之后,病程中逐漸出現(xiàn)腎臟繼發(fā)性病變,出現(xiàn)夜尿增多、泡沫尿等表現(xiàn);③無糖尿病史。
阿爾茨海默?。孩倥R床表現(xiàn)為進行性記憶下降,以近期記憶力減退為主,簡易智力狀態(tài)檢查量表(MMSE)評分<27/30,腦部磁共振檢查(MRI)提示腦萎縮;②腦MRI平掃+彌散成像+腦電圖排除其他待鑒別診斷,③無糖尿病史。
2型糖尿病非腎病患者:①為2型糖尿病患者且病程<5年;②尿白蛋白排泄率(UAE)未出現(xiàn)異常。
1.4 排除標準 ①年齡小于18歲;②在觀察期內合并嚴重感染、嚴重肝功能不全;③采集的檢驗指標缺失值>15%的病歷。
1.5 方法
1.5.1 數(shù)據(jù)預處理 采用SQL Server 2008數(shù)據(jù)庫對數(shù)據(jù)進行清洗、轉換和規(guī)約。
1.5.2 觀察指標 納入人口學指標及實驗室指標共89項信息。
1.5.3 數(shù)據(jù)統(tǒng)一化 針對不同醫(yī)院檢查項目的度量單位和名稱的差異,對其進行統(tǒng)一化。
1.5.4 單因素分析 采用SPSS 19.0統(tǒng)計軟件對納入的926例患者的89項信息進行單因素分析。計數(shù)資料以率表示,組間比較采用χ2檢驗;計量資料以±s表示,兩組間比較采用t檢驗,多組間比較采用方差分析。P<0.05為差異有統(tǒng)計學意義。
1.5.5 建立logistic回歸模型 本研究的觀察結果為是否患2型糖尿病腎病,為二元logistic回歸。將單因素分析有統(tǒng)計學意義的指標作為logistic回歸模型的自變量,診斷結果作為因變量,采用SPSS 19.0統(tǒng)計軟件對數(shù)據(jù)集進行逐步向前l(fā)ogistic回歸(α入=0.05,α出=0.15),P<0.05為差異有統(tǒng)計學意義。
1.5.6 建立神經(jīng)網(wǎng)絡模型 采用MATLAB 2014a軟件構建BP及GA-BP神經(jīng)網(wǎng)絡模型,并使用隨機抽樣函數(shù)將樣本隨機分成訓練集和測試集[16]。
1.5.7 BP神經(jīng)網(wǎng)絡設計 ①樣本的歸一化處理:在分析之前需對樣本進行歸一化處理,根據(jù)模型輸出層的結果為二分類,把樣本值歸一到區(qū)間[–1,1]內,對輸入、輸出變量進行歸一化處理,提高網(wǎng)絡的訓練速度,采用xbij=[2×(xij–xij,min)/(xij,max–xij,min)]–1。②確定層數(shù)及個數(shù):三層BP網(wǎng)絡就能夠完成任意的n維到m維的映射,并且訓練時間也相對較短;網(wǎng)絡輸入對應單因素分析有統(tǒng)計學意義的指標,并將這些輸入提供給輸入層的單元,共42個。隱單元數(shù)的確定比較復雜,目前無一理想方法可解決,一般根據(jù)多次嘗試來確定最優(yōu)個數(shù)。通常用下列公式確定隱單位的范圍,h=√n+m+α[14],α∈(1,10)。最終確立隱單元數(shù)范圍為[7,16]。
GA-BP神經(jīng)網(wǎng)絡模型將2型糖尿病腎病和對照組進行分類,因此輸出節(jié)點數(shù)為1,如果輸出值≤0.5,為未患2型糖尿病腎病,輸出值>0.5則為2型糖尿病腎病。
1.5.8 BP神經(jīng)網(wǎng)絡的參數(shù)選擇 隱含層和輸出層的傳遞函數(shù)采用S型函數(shù)和雙極性S型函數(shù):log sig(x)=1/(1+e–αx);tan sig(x)=2/(1+e–αx)–1,值域在(0,1);學習率設置為0.01,訓練函數(shù)選擇Levenberg-Marquardt方法,權重更新方法為梯度下降法:
1.5.9 遺傳算法的設計 ①種群和進化代數(shù):種群規(guī)模為50,進化代數(shù)為10;②編碼:將BP網(wǎng)絡的輸入層與隱含層的連接權值、隱含層的閾值、隱含層與輸出層的連接權值、輸出層的閾值進行編碼,初始化設置為0;③設定適應度函數(shù):通過尋找適應度函數(shù)的最小值來找到最優(yōu)權值和閾值,使分類識別的輸出值與期望值間誤差最小,采用error=∑(|simoutputn–outputn|);④選擇、交叉和變異:采用輪盤賭法選擇新個體;選擇單點交叉,交叉概率為0.3;變異概率為0.1[17]。
2.1 單因素分析 將納入的89項信息進行單因素分析,結果顯示有42項差異有統(tǒng)計學意義(表1)。
2.2 Logistic回歸分類模型 回歸分析結果顯示,有12個變量納入最佳回歸方程,對2型糖尿病腎病的鑒別有較好的風險價值(表2)。
2.3 GA-BP神經(jīng)網(wǎng)絡分類模型 將單因素分析有統(tǒng)計學意義的42項指標納入GA-BP神經(jīng)網(wǎng)絡模型,根據(jù)隱單元范圍[7,16],分別取其值對訓練集進行多次訓練。當隱單元數(shù)為15時,GA-BP神經(jīng)網(wǎng)絡對數(shù)據(jù)的擬合效果最好,對訓練集和測試集的預測準確率達到最高的92.09%和90.48%.使用訓練集數(shù)據(jù)訓練模型,測試集數(shù)據(jù)評估模型的預測分類能力,其訓練集和測試集分別為695例(2型糖尿病腎病357例,其他疾病338例)和231例(2型糖尿病腎病120例,其他疾病111例)。
2.4 Logistic回歸模型、BP神經(jīng)網(wǎng)絡模型和GA-BP神經(jīng)網(wǎng)絡模型的對比 表3顯示了3個模型的診斷參數(shù):Logistic回歸模型、BP神經(jīng)網(wǎng)絡模型和GA-BP神經(jīng)網(wǎng)絡模型(訓練集、測試集)的約登指數(shù)分別為0.76、0.87、0.84和0.81,對數(shù)據(jù)集的分類準確率分別為88.12%、93.41%、92.09%和90.48%,ROC曲線下面積分別為0.95、0.98、0.97和0.98。
表1 2型糖尿病腎病相關因素的單因素分析Tab.1 Univariate analysis of factors about type 2 diabetic nephropathy
(續(xù) 表)
表2 2型糖尿病腎病相關因素logistic回歸分析結果Tab.2 Results of logistic regression analysis of related factors in type 2 diabetic nephropathy
表3 Logistic回歸模型、BP神經(jīng)網(wǎng)絡模型和GA-BP神經(jīng)網(wǎng)絡模型的診斷參數(shù)比較Tab.3 Comparison of diagnostic parameters for 3 model of logistic regression, model of BPNN and model of GA-BPNN
2.5 GA-BP的模型性能、訓練結果和適應度曲線
模型性能用均方誤差(MSE)表示,由圖1可以得知GA-BP神經(jīng)網(wǎng)絡模型的訓練集和測試集的性能不斷被優(yōu)化,最終在模型迭代11次處達到最優(yōu)。GA-BP神經(jīng)網(wǎng)絡模型訓練結果:由圖2可以得知模型內部的參數(shù)和函數(shù)選擇,且顯示了模型結束條件為精度到達預設值0.01。模型適應度曲線:由圖3可知模型的適應度曲線變化趨勢,表明模型在不斷地被優(yōu)化,最終到達最優(yōu)。
2.6 GA-BP神經(jīng)網(wǎng)絡模型形成認知模式 認知模式的要素包括:①架構(來源于GA-BP神經(jīng)網(wǎng)絡模型);②權重(來源于GA-BP神經(jīng)網(wǎng)絡模型中輸入變量對輸出變量的權重)。本研究通過這些要素形成神經(jīng)元認知模式,探討了神經(jīng)元認知模式的架構,在各個節(jié)點間以有向圖表示(圖4),從中可知輸入層的神經(jīng)元單元數(shù)為42個,隱含層的神經(jīng)元單元數(shù)為15個,輸出層的神經(jīng)元單元數(shù)為1個,且顯示了模型的架構,表明層與層之間是全連接的,層內部是無連接的。
圖1 GA-BP神經(jīng)網(wǎng)絡模型性能Fig.1 Performance of GA-BP neural network model
圖2 GA-BP神經(jīng)網(wǎng)絡模型訓練結果Fig.2 Training results of GA-BP neural network model
圖3 GA-BP神經(jīng)網(wǎng)絡模型適應度曲線Fig.3 Fitness curve of GA-BP neural network
2型糖尿病腎病起病隱匿,早期無明顯的臨床表現(xiàn),目前其診斷主要基于特異性的實驗室指標UAE和腎穿刺組織病理學檢查。但UAE還與糖尿病的其他并發(fā)癥有關,包括高血壓、高脂血癥、動脈粥樣硬化和心血管疾病等;病理改變以彌漫性腎小球硬化型最為常見,但類似改變也見于系膜毛細血管性腎小球腎炎和系統(tǒng)性紅斑狼瘡等疾?。辉诨疾≡缙赨AE異常不明顯,患者易拒絕接受有創(chuàng)性檢查,且較多早期接受腎穿刺組織病理學檢查的患者并未找到特征性的病理改變[18]。以上原因都可能導致2型糖尿病腎病的誤診和漏診。
圖4 GA-BP神經(jīng)網(wǎng)絡模型形成的認知模式Fig.4 Cognitive model formed with GA-BP neural network model
對于診斷過程復雜、早期癥狀不明顯的疾病,GA-BP神經(jīng)網(wǎng)絡已得到廣泛應用。周紅標等[19]采用GA-BP神經(jīng)網(wǎng)絡采集正常、非典型和異常3類胎心宮縮監(jiān)護圖,共計2126組數(shù)據(jù),提取21個特征值,納入網(wǎng)絡模型,對其進行分析、訓練,模型的分類準確率分別為98.24%、82.67%和95.65%,均高于BP神經(jīng)網(wǎng)絡。姚小靜等[20]采用GA-BP神經(jīng)網(wǎng)絡采集正常肺音、哮鳴音、捻發(fā)音和爆裂音的數(shù)據(jù),每類22例,通過識別4類肺音,得出肺部疾病與肺音的關聯(lián)性;提取肺音信號統(tǒng)計特征值,采用韋爾奇功率譜特征值和小波系數(shù)特征值的GA-BP神經(jīng)網(wǎng)絡的平均識別率分別為89.0%和83.1%,均優(yōu)于BP神經(jīng)網(wǎng)絡。
本研究數(shù)據(jù)來源于5所三級醫(yī)院的檢驗數(shù)據(jù),因均使用同一LIS軟件(衛(wèi)寧健康)廠商,數(shù)據(jù)具有良好的同質性。采用GA-BP神經(jīng)網(wǎng)絡模型,避免了單獨觀察某一個指標所產(chǎn)生的片面性。本研究解決了2型糖尿病腎病早期各項實驗室指標與診斷結果之間的非線性關系,模型經(jīng)過14次訓練,達到預期設置的性能指標(MSE=0.01),其診斷效果得到了很好的驗證,且模型各項評估參數(shù)(約登指數(shù)、準確率、AUC)均優(yōu)于傳統(tǒng)的logistic回歸模型。與BP神經(jīng)網(wǎng)絡相比,GA-BP神經(jīng)網(wǎng)絡雖在各項評估參數(shù)上無明顯優(yōu)勢,但它具有BP神經(jīng)網(wǎng)絡所不具有的全局尋優(yōu)和穩(wěn)定性的特點。BP神經(jīng)網(wǎng)絡存在局部最優(yōu)的直接原因是自身算法的不完善,而遺傳算法具有全局尋優(yōu)的特點;BP神經(jīng)網(wǎng)絡的不穩(wěn)定性體現(xiàn)在初始權值和閾值是隨機產(chǎn)生,缺乏選擇依據(jù),而網(wǎng)絡連接權值和閾值的整體分布決定了模型的效果,遺傳算法通過編碼、選擇、交叉、變異,得到優(yōu)化后的權值和閾值,并將其設置為BP神經(jīng)網(wǎng)絡的初始權值和閾值,從而提高模型的穩(wěn)定性。模型適應度曲線顯示,在第2代和第4代突破局部最優(yōu)解,在第6代達到最優(yōu);圖1訓練集在第10次訓練之后MSE迅速下降進而達到目標,反映此模型的平均估計結果所能逼近學習目標的程度優(yōu)秀(準確性);雖然測試集在第11次訓練之后MSE呈緩慢升高,但MSE仍處于0.08~0.13,反映此模型在面對相近規(guī)模的不同訓練集時,其估計結果較好(穩(wěn)定性)。該模型克服了主觀因素的影響,為2型糖尿病腎病的診斷提供了一種有價值的計算機輔助診斷方法,有助于盡早發(fā)現(xiàn)隱藏的病情,具有一定的臨床意義。
本研究的優(yōu)勢包括:①將所有的符合標準的檢驗項目納入模型,排除了主觀經(jīng)驗選取,避免了選擇偏倚;②樣本量較大,合并5所醫(yī)院患者的檢驗數(shù)據(jù)且保持同質性;③對照組納入了高血壓性腎病、狼瘡性腎炎等與2型糖尿病腎病的實驗室指標UAE有相似結果的病例,臨床實用性更高;④GABP神經(jīng)網(wǎng)絡模型設置訓練集和測試集,可以保證結果的真實性和可推廣性。
本研究的局限性包括:①并未得出模型具體危險因素的權重值;②本文全面采集了實驗室指標,但由于某些指標數(shù)據(jù)量低于40%[21],故未納入分析,其與2型糖尿病腎病的關系及預測性有待數(shù)據(jù)量擴大后進一步分析;③GA-BP神經(jīng)網(wǎng)絡模型并不具有臨床醫(yī)生的診斷思維,也缺乏對疾病復雜性的靈活應變,因此只能對臨床醫(yī)生的診療決策起輔助作用;④本研究僅對2型糖尿病腎病進行了分類預測,下一步重點研究的內容之一是分析GA-BP神經(jīng)網(wǎng)絡模型中輸入變量對輸出變量的權重值。
[1] Chinese Diabetes Society. Chinese guideline for exercise in diabetes[M]. Beijing: The Chinese Medical Electronic Audio-Visual Publishing House, 2012. [中華醫(yī)學會糖尿病學分會. 中國糖尿病運動治療指南[M]. 北京: 中華醫(yī)學電子音像出版社, 2012.]
[2] Kung K, Chow KM, Hui EM, et al. Prevalence of complications among Chinese diabetic patients in urban primary care clinics: a cross- sectional study[J]. BMC Fam Pract, 2014, 15: 8.
[3] de Boer IH, Rue TC, Hall YN, et al. Temporal trends in the prevalence of diabetic kidney disease in the United States[J].JAMA, 2011, 305(24): 2532-2539.
[4] Yang P, Cao XT, Deng XF, et al. To investigate the risk for kidney disease progression in hospitalized patients with type 2 diabetes mellitus[J]. Chin J Pract Intern Med, 2017, 37(10): 908-910.[楊萍, 曹雪亭, 鄧雪鳳, 等. 2型糖尿病住院患者腎病進展風險調查研究[J]. 中國實用內科雜志, 2017, 37(10): 908-910.]
[5] Zimmet P, Alberti KG, Shaw J. Global and societal implications of the diabetes epidemic[J]. Nature, 2001, 414(6865): 782-787.
[6] Rivero A, Mora C, Muros M, et al. Pathogenic perspectives for the role of inflammation in diabetic nephropathy[J]. Clin Sci,2009, 116(6): 479-492.
[7] Lu XM, Fan QL, Wang X, et al. Circulating long non-coding RNA expression profiles in diabetes and diabetic nephropathy patients[J]. Chin J Pract Intern Med, 2017, 37(3): 221-226.[呂小萌, 范秋靈, 汪旭, 等. 糖尿病和糖尿病腎病患者循環(huán)lncRNA表達譜的分析[J]. 中國實用內科雜志, 2017, 37(3):221-226.]
[8] Cherney DZ, Scholey JW, Daneman D, et al. Urinary markers of renal inf l ammation in adolescents with type 1 diabetes mellitus and normoalbuminuria[J]. Diabet Med, 2012, 29(10): 1297-1302.
[9] Cai Q, Mukku VK, Ahmad M. Coronary artery disease in patients with chronic kidney disease: a clinical update[J]. Curr Cardiol Rev, 2013, 9(4): 331-339.
[10] Pestana RM, Domingueti CP, Duarte RC, et al. Cytokines profile and its correlation with endothelial damage and oxidative stress in patients with type 1 diabetes mellitus and nephropathy[J].Immunol Res, 2016, 64(4): 951-960.
[11] Donate-Correa J, Martín-Nú?ez E, Muros-de-Fuentes M, et al.Inflammatory cytokines in diabetic nephropathy[J]. J Diabetes Res, 2015, 2015: 948417.
[12] Wada J, Makino H. Inflammation and the pathogenesis of diabetic nephropathy[J]. Clin Sci (Lond), 2013, 124(3): 139-152.
[13] Guijarro C, Egido J. Transcription factor-kappa B (NF-kappa B)and renal disease[J]. Kidney Int, 2001, 59(2): 415-424.
[14] Wang ZS, Song ZC, Bai JH, et al. Decision tree analysis on the risk of nephropathy in type 2 diabetic patients[J]. Chin J Integr Tradit West Nephrol, 2013, 14(3): 238-239. [王占勝, 宋占春,白靜慧, 等. 2型糖尿病患者腎病風險的決策樹分析[J]. 中國中西醫(yī)結合腎病雜志, 2013, 14(3): 238-239.]
[15] Tervaert TW, Mooyaart AL, Amann K, et al. Pathologic classification of diabetic nephropathy[J]. J Am Soc Nephrol,2010, 21(4): 556-563.
[16] Li H, Lai L, Chen L, et al. The prediction in computer color matching of dentistry based on GA+BP neural network [J].Comput Math Methods Med, 2015, 2015: 816719.
[17] Mi BF. The improvement research on evolution strategy of genetic algorithm[D]. Harbin: Northeast Agricultural University,2014. [弭寶福. 遺傳算法進化策略的改進研究[D]. 哈爾濱:東北農(nóng)業(yè)大學, 2014.]
[18] Persson F, Rossing P. Renal disease by type 2 diabetes[J]. Ugeskr Laeger, 2012, 174(37): 2150-2154.
[19] Zhou HB, Zhang YL, Hu JP. CTG recognition based on genetic algorithm and BP neural network[J]. J Chongqing Med Univ,2011, 36(7): 846-849. [周紅標, 張宇林, 胡金平. 基于遺傳算法和BP神經(jīng)網(wǎng)絡的CTG識別研究[J]. 重慶醫(yī)科大學學報,2011, 36(7): 846-849.]
[20] Yao XJ, Wang H, Liu SX. Research on recognition algorithms of lung sounds based on genetic BP neural network[J]. Space Med Med Eng, 2016, 29(1): 45-51. [姚小靜, 王洪, 劉盛雄. 基于遺傳BP神經(jīng)網(wǎng)絡的肺音分類識別算法研究[J]. 航天醫(yī)學與醫(yī)學工程, 2016, 29(1): 45-51.]
[21] Barzi F, Woodward M. Imputations of missing values in practice:results from imputations of serum cholesterol in 28 cohort studies[J]. Am J Epidemiol, 2004, 160(1): 34-35.