王喜丹,王曉丹,梁 麗
(1.西安交通大學(xué)第一附屬醫(yī)院藥學(xué)部,陜西 西安 710061;2.重慶工商大學(xué)制造智能?chē)?guó)家科技合作基地,重慶 400067)
糖尿病作為繼心腦血管疾病、惡性腫瘤之后的第三大威脅人類(lèi)健康的非傳染型慢性疾病,其全球患者總數(shù)2011年已達(dá)3.7億,其中80%在發(fā)展中國(guó)家,預(yù)計(jì)到2030年將達(dá)到5.5億[1]。其中,我國(guó)作為世界上患者數(shù)量最多的國(guó)家之一,糖尿病預(yù)防和控制已成重大公共衛(wèi)生問(wèn)題[2]。2型糖尿病發(fā)病原因受到很多因素的影響,如遺傳因素、生活方式、外界環(huán)境等。此外,糖尿病還會(huì)引發(fā)心臟病、腦血管疾病等嚴(yán)重并發(fā)癥的發(fā)生。因此,建立2.型糖尿病患病風(fēng)險(xiǎn)的預(yù)測(cè)模型,對(duì)高危人群的患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),進(jìn)一步做好糖尿病的預(yù)測(cè)和預(yù)警[3]。因此,對(duì)高危人群糖尿病患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),確定高危人群范圍,可以提前做好防御措施,延緩糖尿病患病、并發(fā)癥的發(fā)生。近年來(lái),已經(jīng)有Markov,Cox比例風(fēng)險(xiǎn)回歸模型,神經(jīng)網(wǎng)絡(luò)[4],支持向量機(jī)[5]等模型應(yīng)用于糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)。但是,這些方法也都存在不同程度的局限性,比如過(guò)度擬合、陷入局部最小值、對(duì)隨機(jī)性和波動(dòng)性數(shù)據(jù)不敏感、對(duì)不平衡數(shù)據(jù)預(yù)測(cè)效果不理想等問(wèn)題。同時(shí),上述提及的算法是淺層學(xué)習(xí)的算法,它們很難從高維的數(shù)據(jù)樣本中學(xué)習(xí)到較為復(fù)雜的非線性關(guān)系,而深度學(xué)習(xí)是由相互聯(lián)系的神經(jīng)元構(gòu)成的堆棧網(wǎng)絡(luò)。它直接從低層數(shù)據(jù)出發(fā),逐層學(xué)習(xí)到高層特定性質(zhì)的學(xué)習(xí)網(wǎng)絡(luò),有效避免了傳統(tǒng)的算法訓(xùn)練效果不佳的問(wèn)題。
本文利用深度信念網(wǎng)絡(luò)(deep belief network,DBN)對(duì)2型糖尿病的特性進(jìn)行學(xué)習(xí),采用反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)建立分類(lèi)器,從而對(duì)糖尿病高危人群的盡早發(fā)現(xiàn)和實(shí)施有效干預(yù)提供幫助,為提升人們的健康水平和生活質(zhì)量做出努力。
研究對(duì)象來(lái)自于某醫(yī)院體檢中心數(shù)據(jù)。其中與糖尿病發(fā)病風(fēng)險(xiǎn)相關(guān)的危險(xiǎn)因素:(1)性別;(2)年齡;(3)舒張壓(mm Hg);(4)收縮壓(mm);(5)甘油三酯;(6)BMI指數(shù)(kg/m2);(7)糖尿病家族史。
2型糖尿病診斷標(biāo)準(zhǔn):①2型糖尿病診斷標(biāo)準(zhǔn)參照美國(guó)糖尿病學(xué)會(huì)(ADA)2016年12月發(fā)布的糖尿病診療標(biāo)準(zhǔn):FPG<6.1 mmol/L為血糖正常(NFG);6.1≤FPG< 7.0 mmol/L為空腹血糖受損(IFG);既往有2型糖尿病史,或正在進(jìn)行降糖治療,或FPG≥7.0 mmol/L為2型糖尿病,并排除1型糖尿病、妊娠糖尿病及其他特殊類(lèi)型糖尿病。收縮壓低于140 mmHg,舒張壓低于90 mmHg。
本研究將舒張壓為0和BMI指數(shù)為0的樣本去掉之后,共有729個(gè)樣本。并將樣本集隨機(jī)分成兩部分:訓(xùn)練集(700)和測(cè)試集(29)。建模的過(guò)程如下:(1)數(shù)據(jù)歸一化處理;(2)利用MATLAB 16軟件建立DBN神經(jīng)網(wǎng)絡(luò)模型;(3)建立BP神經(jīng)網(wǎng)絡(luò)模型;(4)兩個(gè)模型的評(píng)估和比較,并得出結(jié)論。
典型的深度學(xué)習(xí)(DBN)是多層RBM(Restricted Boltzmann Machine,RBM)和一層BP神經(jīng)網(wǎng)絡(luò)組成的一種深層神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練時(shí)可通過(guò)逐層訓(xùn)練來(lái)實(shí)現(xiàn)(結(jié)構(gòu)如圖1所示)。本文設(shè)計(jì)使用的糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)的深度學(xué)習(xí)(DBN)模型為:與糖尿病發(fā)病風(fēng)險(xiǎn)相關(guān)的危險(xiǎn)因素;通過(guò)重復(fù)訓(xùn)練,兩層RBM構(gòu)建的網(wǎng)絡(luò)提取糖尿病特征信息;并且在最后一層RBM后面設(shè)置BP網(wǎng)絡(luò)并初始化連接權(quán)值,接受最后一層RBM網(wǎng)絡(luò)的特征輸出特征變量作為BP網(wǎng)絡(luò)的特征輸入變量。最后的網(wǎng)絡(luò)結(jié)構(gòu)為網(wǎng)絡(luò)輸入層為8,2個(gè)RBM,其中2個(gè)RBM神經(jīng)元單元數(shù)都為20,輸出層為1。
圖1 深度信念網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)就是一個(gè)不斷調(diào)節(jié)網(wǎng)絡(luò)權(quán)值的過(guò)程,在MATLAB中不斷調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和調(diào)整相關(guān)參數(shù),得到BP神經(jīng)網(wǎng)絡(luò)的輸入層為8,隱含層單元數(shù)為3,輸出層為1。
模型評(píng)估在相同的實(shí)驗(yàn)環(huán)境下選取能使分類(lèi)效果和泛化能力達(dá)到最佳效果的參數(shù)來(lái)建立DBN和BP分類(lèi)器,兩個(gè)分類(lèi)器在測(cè)試樣本集上的預(yù)測(cè)結(jié)果見(jiàn)表1。同時(shí)為了更好的描述模型的質(zhì)量,為此引入3個(gè)參數(shù):靈敏度,特異度和約登指數(shù)。
表1 分類(lèi)器測(cè)試集的預(yù)測(cè)效果
本文將深度學(xué)習(xí)(DBN)模型和BP模型應(yīng)用到五年內(nèi)糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)研究中,并且得到了每個(gè)分類(lèi)器的預(yù)測(cè)結(jié)果。通過(guò)表1可以看到分類(lèi)器的性能和質(zhì)量。根據(jù)各項(xiàng)指標(biāo)的數(shù)據(jù)可以發(fā)現(xiàn),模型的分類(lèi)器性能和效果都很好,準(zhǔn)確率都在能接受范圍內(nèi)。相比較而言,BP神經(jīng)網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確率和靈敏度較低,分別為89.66%,87.5%,而DBN模型的準(zhǔn)確率為93.10%,靈敏度為100%,效果較好。說(shuō)明DBN模型在特征學(xué)習(xí)方面有較好的能力。
本文建立的深度學(xué)習(xí)(DBN)模型和BP神經(jīng)網(wǎng)絡(luò)模型均具有較好的預(yù)測(cè)準(zhǔn)確率,為解決個(gè)體發(fā)病預(yù)測(cè)提供了一種新方法,同時(shí)也為2型糖尿病高發(fā)風(fēng)險(xiǎn)的評(píng)估、個(gè)體化的預(yù)防及綜合防治措施的制定提供了科學(xué)依據(jù)。尤其是DBN模型,在靈敏度和預(yù)測(cè)準(zhǔn)確率方面有很大的提高。但是,由于深度學(xué)習(xí)(DBN)預(yù)測(cè)模型與其他常用的數(shù)學(xué)模型一樣,作為一種數(shù)據(jù)處理方法,主要從數(shù)據(jù)上反映疾病的發(fā)展變化趨勢(shì),一旦相關(guān)參數(shù)發(fā)生變化或無(wú)法獲得相應(yīng)參數(shù),也就無(wú)法作出有效預(yù)測(cè)。此外,有很多影響2型糖尿病發(fā)病的因素未被充分考慮到模型中,從而影響了結(jié)果的準(zhǔn)確性,因此在實(shí)際應(yīng)用中,還必須考慮其他因素對(duì)預(yù)測(cè)結(jié)果的影響[6]。只有預(yù)測(cè)模型與醫(yī)院患者相結(jié)合,開(kāi)發(fā)并運(yùn)用到平臺(tái)去,對(duì)數(shù)據(jù)進(jìn)行更新、展示與交互,根據(jù)個(gè)體的體檢數(shù)據(jù)預(yù)測(cè)糖尿病的發(fā)病風(fēng)險(xiǎn),才可以幫助病人更好地發(fā)現(xiàn)和預(yù)防疾病,更多地關(guān)注糖尿病高危人群。
[1]羅森林,郭偉東,張 笈,等.基于Markov的Ⅱ型糖尿病預(yù)測(cè)技術(shù)研究[J].北京理工大學(xué)學(xué)報(bào),2011,31(12):1414-1418.
[2]蘇 萍,楊亞超,楊 洋,等.健康管理人群2型糖尿病發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型[J].山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2017,55(6):82-86.
[3]孫勝男,李 崢.2型糖尿病風(fēng)險(xiǎn)評(píng)估工具的研究進(jìn)展[J].中華護(hù)理雜志,2009,44(9):861-864.
[4]郭奕瑞,李玉倩,王高帥,等.人工神經(jīng)網(wǎng)絡(luò)模型在2型糖尿病患病風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用[J].鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2014,49(2):180-183.
[5]王 勛,陳大方.支持向量機(jī)在建立2型糖尿病預(yù)測(cè)模型中的應(yīng)用[J].中國(guó)慢性病預(yù)防與控制,2010,18(6):560-562.
[6]Jack W.Smith,BS,JE Everhart,MD, MPH,and so on.Using the ADAP Learning algorithm to forecast the onset of Diabetes Mellitus[J].Proc AnnuSympComputAppl Med Care,1988:261-265.