鄒瓊,吳曦,張楊,萬毅,陳長(zhǎng)生*
1.710032 陜西省西安市,空軍軍醫(yī)大學(xué)軍事預(yù)防醫(yī)學(xué)系軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室 特殊作業(yè)環(huán)境危害評(píng)估與防治教育部重點(diǎn)實(shí)驗(yàn)室
2.712046 陜西省咸陽(yáng)市,陜西中醫(yī)藥大學(xué)公共衛(wèi)生學(xué)院
3.710032 陜西省西安市,空軍軍醫(yī)大學(xué)衛(wèi)勤訓(xùn)練基地
糖尿病是最常見的人類疾病,已成為世界范圍內(nèi)重要的公共衛(wèi)生問題[1]。糖尿病腎?。―N)是2 型糖尿病(T2DM)常見的慢性微血管并發(fā)癥,也是世界范圍內(nèi)終末期腎?。‥SRD)的主要原因。印度、中國(guó)及其他發(fā)展中國(guó)家受糖尿病影響的人數(shù)正在迅速增長(zhǎng),給患者和衛(wèi)生保健系統(tǒng)造成了世界性的負(fù)擔(dān)[2]。因此,實(shí)現(xiàn)DN 的早期診斷和治療,有助于預(yù)防或延緩其發(fā)生、發(fā)展,從而提高患者的預(yù)期壽命[3]。
為了更好地控制疾病的進(jìn)程,診斷出更易患DN 的患者至關(guān)重要[3]。近年來,隨著數(shù)據(jù)挖掘的發(fā)展,機(jī)器學(xué)習(xí)在糖尿病研究中發(fā)揮著越來越重要的作用[4]。其中K 近鄰(KNN)、支持向量機(jī)(SVM)和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)模型是常見的數(shù)據(jù)挖掘模型。與SVM 等傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,BP 神經(jīng)網(wǎng)絡(luò)具有良好的非線性映射能力、自適應(yīng)性、容錯(cuò)性等優(yōu)點(diǎn)[5],但在實(shí)際應(yīng)用中也存在一定缺陷,如易陷入局部極小值、結(jié)果存在隨機(jī)性、網(wǎng)絡(luò)收斂速度慢等[6]。因此,有必要改進(jìn)標(biāo)準(zhǔn)的BP 神經(jīng)網(wǎng)絡(luò)算法。麻雀搜索算法(SSA)是XUE 等[7]受麻雀覓食和反捕食行為啟發(fā)而提出的一種仿生智能優(yōu)化算法,因其具有良好的靈活性和全局尋優(yōu)能力,研究者們將其與BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合以彌補(bǔ)其缺點(diǎn),但目前多應(yīng)用于電力工業(yè)、自動(dòng)化技術(shù)等領(lǐng)域[8-9]。因此本研究將探索SSA 優(yōu)化的BP(SSA-BP)神經(jīng)網(wǎng)絡(luò)應(yīng)用于DN 的診斷預(yù)測(cè)中,以期提升模型預(yù)測(cè)的準(zhǔn)確率,或可為DN 的早期篩查和診斷治療提供理論依據(jù)/臨床參考。
數(shù)據(jù)來源于KHODADADI 等[10]公開的伊朗133例糖尿病患者的并發(fā)癥數(shù)據(jù)(https://data.mendeley.com/datasets/k62fdsnwkg/1)。數(shù)據(jù)集由133 例糖尿病患者(1型和2 型)的24 項(xiàng)信息組成:性別、年齡、BMI、糖尿病類型、糖尿病持續(xù)時(shí)間、空腹血糖(FBG)、糖化血紅蛋白(HbA1c)、低密度脂蛋白(LDL)、高密度脂蛋白(HDL)、三酰甘油(TG)、治療類型、他汀類藥物類型、他汀類藥物劑量、神經(jīng)病變、腎病、視網(wǎng)膜病變、周圍血管疾病、心血管疾病、足部潰瘍、黎明效應(yīng)、收縮壓(SBP),舒張壓(DBP)、累積阿托伐他汀當(dāng)量,實(shí)際低密度脂蛋白膽固醇。依據(jù)既往文獻(xiàn)[10-12],提取了13 個(gè)可能與DN 患者相關(guān)的風(fēng)險(xiǎn)因素,變量賦值見表1。
表1 變量賦值說明Table 1 The description of variable assignment
剔除9 例1 型糖尿病患者,本研究納入的有效樣本量為124 例T2DM 患者,其中73 例患有DN。對(duì)年齡、糖尿病持續(xù)時(shí)間和BMI 連續(xù)變量離散化并編碼。以是否患DN 為因變量,分別用8∶2 和7∶3 的比例劃分訓(xùn)練集和測(cè)試集。
將單因素分析(表2)中P<0.05 的變量納入LASSO回歸中進(jìn)一步篩選并確定最終納入模型的變量,在訓(xùn)練集上分別使用Logistic 回歸(LR)、KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)和SSA-BP 神經(jīng)網(wǎng)絡(luò)建立DN 預(yù)測(cè)模型,并在測(cè)試集上進(jìn)行驗(yàn)證。
表2 2 型糖尿病腎病患者相關(guān)危險(xiǎn)因素的單因素分析Table 2 Univariate analysis of risk factors associated with type 2 diabetic nephropathy
1.4.1 LASSO 回歸是TIBSHIRANI[13]提出的一種著名的稀疏回歸方法。作為一種變量選擇方法,LASSO 回歸需要一個(gè)懲罰項(xiàng)來約束系數(shù)的大小,并最終將結(jié)構(gòu)風(fēng)險(xiǎn)降至最低,防止“過擬合”發(fā)生[14]。篩選的方法主要包括lambda.min 和lambda.1se。因λ 到達(dá)一定值之后,繼續(xù)增加自變量個(gè)數(shù)并不能很顯著地提高模型性能,而lambda.1se(距離均方誤差一個(gè)標(biāo)準(zhǔn)誤時(shí)的λ 值)可給出一個(gè)具備優(yōu)良性能且自變量個(gè)數(shù)最少的模型[15]。
1.4.2 KNN 算法是一種監(jiān)督機(jī)器學(xué)習(xí)算法,可用于解決回歸和分類問題[16]。KNN 分類是最基本、最簡(jiǎn)單的分類方法之一,在對(duì)數(shù)據(jù)分布知之甚少或一無所知的情況下,該方法是分類研究的首選方法之一。其不需要考慮模型構(gòu)建的細(xì)節(jié),且模型中唯一可調(diào)整的參數(shù)是K[17]。其易于理解和實(shí)現(xiàn),但主要缺點(diǎn)是隨著使用中數(shù)據(jù)的大小增長(zhǎng),速度會(huì)明顯變慢[16]。
1.4.3 CORTES 等[18]于1995 年提出了SVM 模型。SVM 的常見的核函數(shù)種類有:線性、多項(xiàng)式、高斯和Sigmoid 核函數(shù)。優(yōu)點(diǎn)是泛化錯(cuò)誤低,可獲得準(zhǔn)確和穩(wěn)健的結(jié)果,適用于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集(如圖像和文本)。缺點(diǎn)是當(dāng)用于大型學(xué)習(xí)任務(wù)時(shí),對(duì)內(nèi)存和時(shí)間要求較高[19]。此外,對(duì)參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感,變量的權(quán)重在最終模型中難以解釋[20]。
1.4.4 BP 神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),是應(yīng)用較廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。SSA在一定程度上改進(jìn)了對(duì)優(yōu)化搜索空間的探索和利用,有效地避免了局部最優(yōu)問題[7]。在覓食過程中,麻雀被分為發(fā)現(xiàn)者、加入者和預(yù)警者。假設(shè)d 維空間中有N只麻雀,每只麻雀的位置為X=[x1,x2,…,xD],適應(yīng)度值f=f(x1,x2,…,xD)[7]。該算法主要分為3 部分,通過3 個(gè)公式來進(jìn)行更新[21]。首先,發(fā)現(xiàn)者的位置更新如公式(1):
式中t 表示當(dāng)前迭代次數(shù),j=1,2,…,d,Xti,j表示迭代t 時(shí)第i 個(gè)麻雀的第j 維的值。itermax是最大迭代次數(shù)(常數(shù)),α是一個(gè)隨機(jī)數(shù)(α ∈(0,1])。R2(R2∈[0,1])和ST(ST ∈[0.5,1.0])分別表示預(yù)警值和安全值。Q 是服從正態(tài)分布的隨機(jī)數(shù)。L表示一個(gè)1×d 維的矩陣,其內(nèi)部每個(gè)元素都為1。
其次,加入者的位置更新如公式(2):
XP是發(fā)現(xiàn)者占據(jù)的最優(yōu)位置。Xworst表示當(dāng)前全局最差位置。A+=AT(AAT)-1,A 表示 1 × d 的矩陣,其中每個(gè)元素隨機(jī)分配1或-1,A的轉(zhuǎn)置是AT。當(dāng)i > n/2時(shí),表明第i 個(gè)適應(yīng)度值較差的加入者最有可能處于饑餓狀態(tài)。預(yù)警者一般占總種群的10%~20%,這些麻雀的初始位置是在種群中隨機(jī)生成的,其位置更新如公式(3):
式(3)中Xbest為當(dāng)前全局最優(yōu)位置,代表種群中心的位置,并且在它周圍是安全的。β 是服從均值為0方差為1 的正態(tài)分布的隨機(jī)數(shù),作為步長(zhǎng)控制參數(shù)。K(K ∈[-1,1])是一個(gè)隨機(jī)數(shù),表示麻雀移動(dòng)的方向,也是一個(gè)步長(zhǎng)控制參數(shù)。fi是當(dāng)前麻雀的適應(yīng)度值,fg和fw分別是當(dāng)前全局最佳和最差適應(yīng)度值,ε是常數(shù)[21]。圖1 是算法的流程圖。
采用SPSS 26.0 軟件進(jìn)行統(tǒng)計(jì)學(xué)分析,以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。計(jì)數(shù)資料采用[例(%)]描述,兩組比較采用χ2檢驗(yàn)。符合正態(tài)分布的計(jì)量資料以(±s)表示,兩組間比較采用兩獨(dú)立樣本t 檢驗(yàn)。非正態(tài)分布的計(jì)量資料用M(QR)表示,兩組間比較采用Mann-Whitney 檢驗(yàn)。采用R 4.2.2 軟件中的glmnet、kknn、e1071 程序包在訓(xùn)練集上建立LASSO 回歸、KNN和SVM 模型。采用caret 程序包的dummyVars 函數(shù)對(duì)多分類變量進(jìn)行啞變量處理。采用MATLAB 2022a 軟件構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)和麻雀搜索SSA-BP 的神經(jīng)網(wǎng)絡(luò)模型。最后在測(cè)試集上評(píng)價(jià)性能,由混淆矩陣計(jì)算出的準(zhǔn)確度、精確度、靈敏度和特異度來判斷各模型的優(yōu)劣。
124 例研究對(duì)象中73 例(58.9%)被診斷為DN。
無DN 和患DN 患者的性別、治療類型、他汀類藥物類型比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05);無DN和患DN 患者的年齡、BMI、糖尿病持續(xù)時(shí)間、FBG、HbA1c、LDL、HDL、TG、SBP、DBP 比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見表2。
基于訓(xùn)練集,以是否發(fā)生DN 為因變量,以單因素分析中有統(tǒng)計(jì)學(xué)意義的10 個(gè)變量為自變量進(jìn)行LASSO回歸分析。多分類變量在納入模型前先進(jìn)行啞變量化(10個(gè)自變量變?yōu)?3 個(gè)候選變量)。選擇10 倍交叉驗(yàn)證下lambda.1se(lambda.1se=0.068 191 87)為模型最優(yōu)值(圖2),訓(xùn)練集∶測(cè)試集=8∶2 時(shí)結(jié)果顯示,年齡、糖尿病持續(xù)時(shí)間、HbA1c、LDL 和SBP 是與DN 發(fā)生相關(guān)的5 個(gè)變量,訓(xùn)練集∶測(cè)試集=7∶3 時(shí)結(jié)果顯示,年齡、BMI、糖尿病持續(xù)時(shí)間、LDL、HDL、SBP 和DBP 是與DN 發(fā)生相關(guān)的7 個(gè)變量。
圖2 LASSO 回歸變量篩選Figure 2 LASSO regression screening for variables
以是否發(fā)生DN 為因變量(賦值:否=0,是=1),以LASSO 回歸篩選出的變量為自變量進(jìn)行LR 分析。多分類變量進(jìn)行啞變量處理,因某些分類算法(如SVM、LR 和神經(jīng)網(wǎng)絡(luò))在未縮放的數(shù)據(jù)上表現(xiàn)不佳[22],所以計(jì)量資料采用標(biāo)準(zhǔn)化公式歸一化處理成(0,1)區(qū)間的變量,進(jìn)而建立LR 模型。訓(xùn)練集∶測(cè)試集=8∶2 時(shí),結(jié)果顯示糖尿病持續(xù) 時(shí) 間(OR=6.615,95%CI=1.263~42.533)、LDL(OR=3.647,95%CI=1.493~10.511)、SBP(OR=4.884,95%CI=1.863~17.332)是DN 的危險(xiǎn)因素(P<0.05)。LR 模型表達(dá)式為L(zhǎng)ogit(P)=1.861+1.889×糖尿病持續(xù)時(shí)間+1.294×LDL+1.586×SBP(R2=0.767)。訓(xùn)練集∶測(cè)試集=7∶3 時(shí),糖尿病持續(xù)時(shí)間(OR=6.786,95% CI=1.154~54.104)、LDL(OR=5.834,95%CI=2.128~21.033)是DN 的危險(xiǎn)因素(P<0.05),表達(dá)式為L(zhǎng)ogit(P)=-16.041+1.915×糖尿病持續(xù)時(shí)間+1.764×LDL(R2=0.739)。
以是否發(fā)生DN 為因變量(賦值:否=0,是=1)在訓(xùn)練集上建立KNN 模型。利用Caret 包中train()函數(shù)的網(wǎng)格搜索法尋找K 的最佳參數(shù),K 的初始取值范圍為[2,15]。分別在訓(xùn)練集∶測(cè)試集=8∶2 和7∶3 時(shí),十折交叉驗(yàn)證正確率最高時(shí)得到的最優(yōu)K 值分別為14和9。
以是否患DN 為因變量(賦值:否=0,是=1),LASSO 回歸篩選的變量為自變量(如表1)建立徑向基核函數(shù)支持向量機(jī)模型(kernel="radial")。利用R 軟件中的tune.svm()函數(shù)的網(wǎng)格搜索法來尋找最優(yōu)參數(shù),C 與γ 的初始取值范圍分別為[0.001,0.01,0.1,1,5,10,100,1 000]和[0.1,0.5,1,2,3,4]。在訓(xùn)練集∶測(cè)試集=8∶2 和7∶3 時(shí),十折交叉驗(yàn)證錯(cuò)誤率最低時(shí)的選出的最佳參數(shù)分別為C=10、γ=0.1 和C=1、γ=0.1。
考慮到訓(xùn)練時(shí)間和模型復(fù)雜度,本研究建立3 層BP 神經(jīng)網(wǎng)絡(luò)模型。將樣本值進(jìn)行歸一化處理,這有助于提高網(wǎng)絡(luò)的訓(xùn)練速度。在訓(xùn)練集∶測(cè)試集=8∶2 時(shí),輸入層節(jié)點(diǎn)數(shù)(n)為5,輸出層節(jié)點(diǎn)數(shù)(m)為2?;诔S玫慕?jīng)驗(yàn)公式[23]:[h=+a,a ∈(1,10)],根號(hào)7 為2.6,再加上a,則隱藏層節(jié)點(diǎn)范圍[3.6,12.6],則?。?,12]。同理在訓(xùn)練集:測(cè)試集=7∶3時(shí),n 為7,m 為2,隱藏層節(jié)點(diǎn)范圍則為[4,13]。經(jīng)多次試驗(yàn),在訓(xùn)練集:測(cè)試集=8∶2 和7∶3 時(shí),最佳隱藏層節(jié)點(diǎn)數(shù)分別為8 和12 時(shí)擬合效果最好,因此網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分別設(shè)為5-8-2 和7-12-2。隱藏層及輸出層的激勵(lì)函數(shù)采用雙曲正切S 型函數(shù)及線性求和函數(shù):tansig(n)=2/(1+e-2n)-1;purelin(n)=n,訓(xùn)練次數(shù)1 000 次,網(wǎng)絡(luò)訓(xùn)練速率為0.01,訓(xùn)練目標(biāo)最小誤差為0.000 1,Levenberg-Marquardt 法為訓(xùn)練算法,用梯度下降法更新權(quán)重。
參數(shù)初始化:SSA 的進(jìn)化代數(shù)為50,種群規(guī)模為30,安全值ST 為0.6;發(fā)現(xiàn)者比例PD 為0.7,意識(shí)到有危險(xiǎn)的麻雀的比重SD 為0.2;適應(yīng)度函數(shù)設(shè)計(jì)為訓(xùn)練集與測(cè)試集整體準(zhǔn)確率的平均值,適應(yīng)度函數(shù)值越大,表明模型訓(xùn)練越準(zhǔn)確,隨后計(jì)算個(gè)體適應(yīng)度;更新發(fā)現(xiàn)者、加入者和預(yù)警者的位置;查看位置更新之后的個(gè)體適應(yīng)度,并與當(dāng)前最優(yōu)適應(yīng)度值進(jìn)行比較,達(dá)到最終止條件則選擇全局最優(yōu)解;否則,再次進(jìn)行迭代;將模型輸出的最優(yōu)解作為神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,代入BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用誤差反向傳播調(diào)節(jié)參數(shù),當(dāng)達(dá)到最大迭代次數(shù)(1 000)或目標(biāo)誤差(0.000 1)的時(shí),訓(xùn)練停止;將SSA 優(yōu)化后的BP 神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測(cè)是否患DN。用均方誤差(MSE)表示模型性能,訓(xùn)練集:測(cè)試集=8∶2 和7∶3 時(shí),最終模型分別在迭代20 和5次處達(dá)到最優(yōu)。模型進(jìn)化/適應(yīng)度曲線表明模型在不斷優(yōu)化,最終達(dá)到最佳的適應(yīng)度值(圖3)。
圖3 SSA-BP 神經(jīng)網(wǎng)絡(luò)模型的進(jìn)化曲線Figure 3 Evolutionary curves of SSA-BP neural network model
基于測(cè)試集驗(yàn)證上述模型的預(yù)測(cè)性能,各模型訓(xùn)練集與測(cè)試集的結(jié)果見表3。在訓(xùn)練集∶測(cè)試集=8∶2 時(shí),KNN 模型和SVM 模型達(dá)到了同樣的性能,其在訓(xùn)練集上優(yōu)于LR 模型,但在測(cè)試集上卻不如LR 模型。BP 模型在測(cè)試集上的準(zhǔn)確率,靈敏度,F(xiàn)1-score 和受試者工作特征曲線下面積(AUC)優(yōu)于LR 模型,KNN 模型和SVM 模型,整體上SSA-BP 模型在訓(xùn)練集和測(cè)試集上的性能優(yōu)于BP、LR、KNN、SVM 模型。
表3 機(jī)器學(xué)習(xí)模型在不同樣本拆分比例下預(yù)測(cè)DN 的準(zhǔn)確率、精確率、靈敏度、特異度、F1-score 和AUCTable 3 Accuracy,precision,sensitivity,specificity,F(xiàn)1-score and AUC of machine learning models in predicting DN under varied sample splitting ratios
在訓(xùn)練集∶測(cè)試集=7∶3 時(shí),LR 模型和KNN 模型在測(cè)試集上結(jié)果相同,但在訓(xùn)練集上KNN 模型性能優(yōu)于LR 模型。LR、KNN、SVM 模型在測(cè)試集上具有相同的準(zhǔn)確率,但SVM 模型的精確率,特異度和AUC 高于LR 模型和KNN 模型。不管在訓(xùn)練集還是測(cè)試集上,LR、KNN、SVM 模型的效能優(yōu)于BP 網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)。SSA-BP 網(wǎng)絡(luò)神經(jīng)模型提高了BP 神經(jīng)網(wǎng)絡(luò)模型的性能,使得測(cè)試集上BP 神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率從72.22%提升到了91.67%。
對(duì)比2 個(gè)劃分比例下的模型性能,發(fā)現(xiàn)LR、KNN、SVM 模型在訓(xùn)練集∶測(cè)試集=7∶3 時(shí)預(yù)測(cè)性能較高,而BP 和SSA-BP 則在訓(xùn)練集∶測(cè)試集=8∶2 時(shí)預(yù)測(cè)性能更高。這可能是BP 神經(jīng)網(wǎng)絡(luò)模型在處理大樣本數(shù)據(jù)時(shí)有優(yōu)勢(shì),用于訓(xùn)練的樣本越多,模型訓(xùn)練越好(圖4)。
圖4 BP 神經(jīng)網(wǎng)絡(luò)優(yōu)化前后的預(yù)測(cè)值和真實(shí)值誤差對(duì)比圖Figure 4 Comparison of predicted and observed value errors before and after BP neural network optimization
目前,DN 仍然是21 世紀(jì)全球醫(yī)療保健的重大臨床挑戰(zhàn)和負(fù)擔(dān)。一項(xiàng)回顧性研究(含220 例中國(guó)T2DM患者)表明,年齡、糖尿病持續(xù)時(shí)間和SBP 與DN 發(fā)病風(fēng)險(xiǎn)獨(dú)立相關(guān)[24],另一項(xiàng)回顧性調(diào)查(含11 771 例T2DM 患者)顯示,較小年齡、高BMI 和更嚴(yán)重高血壓是增加DN 發(fā)病率的獨(dú)立危險(xiǎn)因素[25],這與本研究結(jié)果一致。LASSO 回歸結(jié)果顯示,年齡和DN 發(fā)病呈負(fù)相關(guān),說明年齡40~<60 歲者較年齡<40 歲者更不易患DN,可能因?yàn)? 型糖尿病在年輕人中更為常見,患有2 型糖尿病的年輕人表現(xiàn)出典型的一系列危險(xiǎn)因素,如不良的生活習(xí)慣和環(huán)境因素導(dǎo)致的肥胖、胰島素抵抗、高血壓和血脂異常,這些也是DN 的風(fēng)險(xiǎn)因素[26]。而與本研究結(jié)果不同的是,國(guó)際糖尿病聯(lián)盟數(shù)據(jù)顯示糖尿病患病率隨年齡增長(zhǎng)而增加,年齡范圍在65~79 歲人群的患病率為19.9%(1.112 億),達(dá)到最高[27],而RAVINDRAN 等[28]發(fā)現(xiàn)年齡與DN 之間沒有相關(guān)性。
高珍秀[29]證實(shí)了HbA1c、SBP 和脈壓的變異性是DN 發(fā)生發(fā)展的關(guān)鍵影響因子。今日研究小組發(fā)現(xiàn)與DN 等微血管并發(fā)癥發(fā)生風(fēng)險(xiǎn)增加相關(guān)的因素是高水平HbA1c[30]。有研究表明HbA1c升高是腎小球?yàn)V過率快速下降的危險(xiǎn)因素[31]。英國(guó)前瞻性糖尿病研究[32]表明長(zhǎng)期血糖控制不佳是糖尿病發(fā)生微血管并發(fā)癥或進(jìn)一步惡化主要危險(xiǎn)因素,并且該風(fēng)險(xiǎn)隨著HbA1c水平的升高呈指數(shù)增加。本研究結(jié)果顯示HbA1c與DN 正相關(guān),這與前述研究結(jié)果一致。既往表明改善血糖控制對(duì)DN 的發(fā)生和進(jìn)展具有有益的作用[33],然而,SHIKATA 等[34]的研究表明,強(qiáng)化血糖控制對(duì)日本DN 患者并沒有顯示出治療優(yōu)勢(shì)。強(qiáng)化血糖控制對(duì)腎病的益處目前還存在爭(zhēng)議[35]。
GALL 等[36]對(duì)26 名患者(1 名女性)平均隨訪5.2 年,結(jié)果表明SBP(并非DBP)升高會(huì)加速T2DM 患者DN的進(jìn)展。SHI 等[37]開展的一項(xiàng)橫斷面研究(4 219 例患者)結(jié)果顯示,SBP 是DN 的危險(xiǎn)因素。有研究單因素Logistic 分析顯示總膽固醇(TC)、TG、LDL 對(duì)腎功能進(jìn)展有影響[38]。今日研究小組的研究表明高血壓和血脂異常與DN 發(fā)生風(fēng)險(xiǎn)增加相關(guān)[30]。本研究LASSO 回歸結(jié)果顯示SBP、LDL 與DN 正相關(guān),LR 模型結(jié)果顯示SBP 和LDL 是DN 的危險(xiǎn)因素,與既往研究一致。
研究表明DN 隨時(shí)間的推移而發(fā)展,發(fā)病高峰出現(xiàn)在患糖尿病10~20 年后,發(fā)病率為20%~40%[39]。一項(xiàng)來自巴基斯坦隨訪12 年的研究表明糖尿病持續(xù)時(shí)間越長(zhǎng),DN 的發(fā)病率越高[40]。JIANG 等[41]以302 例T2D 患者為研究對(duì)象開發(fā)了一個(gè)DN 預(yù)測(cè)模型,發(fā)現(xiàn)典型的T2DM 患者DN 的病程通常超過10 年。SHI 等[37]的研究表明糖尿病病程>10 年的T2DM 患者患DN 的風(fēng)險(xiǎn)較高,其次是病程為5~10 年的患者。本研究LR 模型結(jié)果顯示糖尿病持續(xù)時(shí)間是DN 的危險(xiǎn)因素,LASSO回歸結(jié)果顯示,糖尿病持續(xù)時(shí)間和DN 正相關(guān),糖尿病持續(xù)時(shí)間≥10 年的患者DN 的發(fā)病風(fēng)險(xiǎn)較高,與既往研究結(jié)果一致。
本研究分別采用LR、KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)、SSA-BP 神經(jīng)網(wǎng)絡(luò)建立DN 診斷模型,總體上SSA-BP神經(jīng)網(wǎng)絡(luò)模型性能最佳。傳統(tǒng)LR 分析適用范圍廣,應(yīng)用靈活。對(duì)于特定的問題,其性能相當(dāng)于甚至優(yōu)于一些相對(duì)復(fù)雜的機(jī)器學(xué)習(xí)算法[42]。LYNAM 等[43]在判別糖尿病患者類型(1 型/2 型)時(shí),LR 模型的性能與更復(fù)雜的方法(如神經(jīng)網(wǎng)絡(luò)、KNN 模型、隨機(jī)森林、SVM模型)一樣好。于大海等[44]在評(píng)估肝硬化上消化道出血患者的預(yù)后時(shí)發(fā)現(xiàn)LR 模型的準(zhǔn)確率(81.5%)高于決策樹(75.1%),本研究與之相同,當(dāng)訓(xùn)練集∶測(cè)試集=8∶2 時(shí),在測(cè)試集上LR 模型的準(zhǔn)確率(83.33%)高于KNN 和SVM,且本研究LR 模型性能優(yōu)于于大海等研究,可能原因?yàn)楸狙芯繕颖玖侩m小但數(shù)據(jù)代表性強(qiáng)于后者。在對(duì)妊娠期糖尿病的早期預(yù)測(cè)研究中,機(jī)器學(xué)習(xí)模型的整體性能與LR 模型相似[45]。DAGHISTANI等[46]基于風(fēng)險(xiǎn)因素預(yù)測(cè)糖尿病時(shí),隨機(jī)森林算法的精確率、靈敏度分別為0.883 和0.880,預(yù)測(cè)性能高于LR算法(0.692 和0.703)。本研究LR 算法精確率和靈敏度分別為91.67%、78.57%,優(yōu)于上述研究的LR 模型。有研究表明,一般對(duì)于平衡和不平衡數(shù)據(jù),SVM 模型和LR 模型具有相同的性能,而對(duì)于高度不平衡的數(shù)據(jù)集,SVM 模型可能會(huì)更好[47]。但與本研究結(jié)果不一致,訓(xùn)練集∶測(cè)試集=8∶2 時(shí),測(cè)試集上LR 模型的整體預(yù)測(cè)性能優(yōu)于SVM 模型。KNN 被稱為惰性算法,因?yàn)闆]有明顯的訓(xùn)練階段,即使有也非常?。?8]。訓(xùn)練集∶測(cè)試集=8∶2 時(shí)KNN 模型的測(cè)試集準(zhǔn)確率只達(dá)到79.17%,可能是KNN 模型在訓(xùn)練過程中學(xué)習(xí)到的東西并不多,效率較低[49]。本研究及既往研究表明,機(jī)器學(xué)習(xí)算法與回歸模型的性能結(jié)果不一致。分析可能的原因有:LR 模型適用于變量與結(jié)果之間具有線性關(guān)系的簡(jiǎn)單數(shù)據(jù),而應(yīng)用于非線性關(guān)系的數(shù)據(jù)性能較差;許多類型的機(jī)器學(xué)習(xí)模型和LR 模型可能適合不同的數(shù)據(jù)集,并在不同的數(shù)據(jù)集中表現(xiàn)不同[45];同時(shí)還有樣本量的原因。
近年BP 神經(jīng)網(wǎng)絡(luò)的應(yīng)用越來越廣泛。汪可可等[49]基于BP 神經(jīng)網(wǎng)絡(luò)建立急性腦梗死患者自發(fā)性出血性轉(zhuǎn)化的風(fēng)險(xiǎn)預(yù)測(cè)模型,效果較好。田娟等[50]應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建兒童甲狀腺疾病預(yù)測(cè)模型,結(jié)果模型準(zhǔn)確度達(dá)到91.43%,誤差較小,相比之下本研究BP 神經(jīng)網(wǎng)絡(luò)僅達(dá)到了87.50%的準(zhǔn)確率,但靈敏度較高(92.31%)。然而為克服BP 神經(jīng)網(wǎng)絡(luò)全局搜索能力低下等缺陷,許多研究者對(duì)其進(jìn)行了組合優(yōu)化研究,并達(dá)到了較好的效果。黃仕鑫等[51]使用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò),建立預(yù)測(cè)T2DM 性周圍神經(jīng)病變的模型,準(zhǔn)確率分別達(dá)到了98.9%、99.5%,性能優(yōu)于本研究建立的SSA-BP 模型。杭昕璇等[52]利用BP 網(wǎng)絡(luò)、SSA-BP 網(wǎng)絡(luò)對(duì)麥冬藥液糖析出過程建立回歸預(yù)測(cè)模型,發(fā)現(xiàn)后者預(yù)測(cè)精度更高更穩(wěn)定。韋哲等[53]利用思維進(jìn)化算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)判斷T2DM 患者所處的并發(fā)癥階段,預(yù)測(cè)誤差更低。本研究中SSA-BP 神經(jīng)網(wǎng)絡(luò)模型在各評(píng)估參數(shù)上具有明顯優(yōu)勢(shì),預(yù)測(cè)誤差更小,優(yōu)化算法提高了BP 神經(jīng)網(wǎng)絡(luò)的泛化性。
RODRIGUEZ-ROMERO 等[54]預(yù)測(cè)T2DM DN 時(shí)(10 251 例)結(jié)果顯示,RF 模型和LR 模型性能最好,準(zhǔn)確率均為84.0%,MANIRUZZAMAN 等[12]利用主成分分析進(jìn)行特征提取,采用線性判別分析、SVM、LR、KNN、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)技術(shù)建立DN預(yù)測(cè)模型(133例),結(jié)果高斯核函數(shù)(RBF)SVW 分類準(zhǔn)確率最高(88.7%)。DAVID 等[55]基于410 個(gè)實(shí)例的數(shù)據(jù)集建立糖尿病腎臟?。―KD)預(yù)測(cè)模型,結(jié)果KNN 和隨機(jī)樹分類器的性能最好(準(zhǔn)確率93.658 5%)。本研究構(gòu)建的SSA-BP 神經(jīng)網(wǎng)絡(luò)模型性能優(yōu)于既往研究,可能因?yàn)闃颖玖枯^小而達(dá)到了較好的性能。
神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)中應(yīng)用廣泛,針對(duì)其他糖尿病并發(fā)癥或慢病,神經(jīng)網(wǎng)絡(luò)均可找到適合的網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行學(xué)習(xí),有較好的拓展性。SSA-BP 神經(jīng)網(wǎng)絡(luò)模型無需對(duì)輸入數(shù)據(jù)的統(tǒng)計(jì)模型做任何先驗(yàn)假設(shè),為基于神經(jīng)網(wǎng)絡(luò)的T2DM DN 的準(zhǔn)確預(yù)測(cè)提供了算法支持和理論依據(jù)。本研究的局限是數(shù)據(jù)樣本量較少,未來可基于大樣本數(shù)據(jù)進(jìn)行進(jìn)一步的探索;此外,未進(jìn)行外部驗(yàn)證,有研究建議模型最好利用外部數(shù)據(jù)集和領(lǐng)域?qū)<襾頇z查模型的合理性,像支持向量機(jī)或神經(jīng)網(wǎng)絡(luò)等“黑盒模型”,可解釋性差,只能通過外部驗(yàn)證或借助可解釋機(jī)器學(xué)習(xí)模型[17],未來將繼續(xù)探索其在外部數(shù)據(jù)集上的性能。
作者貢獻(xiàn):鄒瓊、張楊進(jìn)行數(shù)據(jù)的下載及整理;鄒瓊、吳曦、陳長(zhǎng)生進(jìn)行文章的構(gòu)思與設(shè)計(jì)、論文的修訂;鄒瓊、吳曦、張楊、萬毅、陳長(zhǎng)生進(jìn)行研究的實(shí)施與可行性分析;鄒瓊、吳曦、張楊、萬毅進(jìn)行結(jié)果的分析與解釋并撰寫論文。
本文無利益沖突。