呂曉燕,郭 威,崔宇琛
1.山西醫(yī)科大學(xué),山西 030001;2.吉林大學(xué)口腔醫(yī)學(xué)院
糖尿病是一種威脅人類生命與健康的常見慢性病,因其病機制復(fù)雜,發(fā)病病因仍未明確[1],因此發(fā)病率居高不下。據(jù)國際糖尿病聯(lián)盟(International Diabetes Federation,IDF)調(diào)查,全球罹患糖尿病的成年人高達4.63 億例,而我國患病人數(shù)占到其中的1/4[2],且保持增長態(tài)勢?;诖耍狙芯恐荚谕ㄟ^對UCI 糖尿病數(shù)據(jù)集中數(shù)據(jù)的學(xué)習(xí),對糖尿病的潛在影響因素進行探索,以期對糖尿病發(fā)病因素進行干預(yù)。在此基礎(chǔ)上,建立糖尿病風(fēng)險預(yù)測模型,做到疾病的早發(fā)現(xiàn),這對于“治未病”、促進全民大健康也具有重要的現(xiàn)實意義[3-4]。
1.1 研究對象 以UCI 數(shù)據(jù)庫中768 條糖尿病篩查記錄為研究對象,數(shù)據(jù)集中各指標(biāo)及屬性見表1。
表1 糖尿病數(shù)據(jù)特征及含義
1.2 研究方法
1.2.1 數(shù)據(jù)預(yù)處理 利用SPSS 22 軟件,對糖尿病數(shù)據(jù)集中數(shù)據(jù)特征進行分析(見表2)。根據(jù)醫(yī)學(xué)知識,X2、X3、X4、X6、X7取值為0 不合常規(guī)。
表2 統(tǒng)計量描述
進一步對數(shù)據(jù)進行可視化分析,發(fā)現(xiàn)X3、X6、X4、X7取值存在明顯異常,見圖1。對以上“問題”數(shù)據(jù)及缺失數(shù)據(jù),采用刪除法和平均值填補法等進行數(shù)據(jù)清理。
圖1 異常值分析
1.2.2 統(tǒng)計學(xué)方法 按是否患有糖尿病,將糖尿病數(shù)據(jù)集中數(shù)據(jù)分為兩組,定量資料用均數(shù)±標(biāo)準(zhǔn)差(±s)表示,采用兩獨立樣本t檢驗,找出對分類結(jié)果有影響的指標(biāo);基于此,利用10-Fold 交叉驗證法,在SPSS 中確立最優(yōu)Logistic 回歸模型,應(yīng)用受試者工作特征(ROC)曲線下面積(AUC)與Python 建立的KNN 模型進行性能比較。
2.1 糖尿病發(fā)病影響因素的單因素分析 對數(shù)據(jù)集中的數(shù)據(jù)按是否患有糖尿病分為兩組,對各指標(biāo)進行單因素分析,結(jié)果見表3。
表3 糖尿病發(fā)病影響因素的單因素分析
2.2 糖尿病發(fā)病影響因素的Logistic 回歸分析 以單因素分析具有統(tǒng)計學(xué)差異的年齡、BMI 等7 項糖尿病相關(guān)指標(biāo)為自變量,分類結(jié)果Y為因變量,經(jīng)多因素Logistic 回歸分析,確定BMI(X2)、懷孕次數(shù)(X5)、血漿葡萄糖含量(X6)與糖尿病遺傳因素(X8)為糖尿病高危影響因素(P<0.05),見表4。
表4 糖尿病發(fā)病影響因素的Logistic 回歸分析
對回歸模型系數(shù)進行檢驗,χ2=277.43,P<0.05,建立的回歸方程有統(tǒng)計學(xué)意義。
2.3 糖尿病風(fēng)險模型評價 利用本研究建立的模型進行糖尿病分類診斷,AUC 為0.879。為了進一步驗證模型的分類性能,與Python 構(gòu)建的KNN 算法模型進行了比較,結(jié)果見圖2。KNN 模型用于分類預(yù)測,AUC 為0.641,分類性能明顯低于Logistic 回歸模型。采用SPSS 中H-L 對構(gòu)建的回歸模型經(jīng)擬合優(yōu)度檢驗,該預(yù)測模型具有較好的擬合效果(P=0.415)。
圖2 糖尿病Logistic 回歸預(yù)測(與KNN 預(yù)測模型分類性能比較)
3.1 糖尿病遺傳因素與糖尿病的關(guān)系 研究表明,遺傳因素是糖尿病的高危誘因,這與已有的臨床研究結(jié)果[5-7]一致。這就提示醫(yī)護人員應(yīng)密切關(guān)注有糖尿病家族史的人員的糖尿病誘發(fā)因素,通過健康指導(dǎo)和臨床干預(yù)進行控制,降低患病風(fēng)險。
3.2 妊娠次數(shù)與糖尿病的關(guān)系 研究表明,多次妊娠是糖尿病發(fā)病的高危因素,這在已有的研究[8-10]中也得到證實。因此,對妊娠期婦女,應(yīng)密切關(guān)注其血糖的變化,必要時給予臨床干預(yù),如補充維生素D 等[11],降低妊娠期糖尿病發(fā)病風(fēng)險。
3.3 肥胖與糖尿病的關(guān)系 研究表明,BMI 高是糖尿病的高危誘因。這是因為BMI 高的人極易產(chǎn)生高胰島素血癥,從而使胰島素降糖作用受阻,引發(fā)糖尿病。因此,預(yù)防糖尿病,需注意健康飲食,積極控制體重[12]。
3.4 血漿葡萄糖含量與糖尿病的關(guān)系 血糖過高是糖尿病的高危誘因。這是因為攝食過多的糖類時,身體內(nèi)就會持續(xù)產(chǎn)生胰島素,以提高對糖類的吸收。久而久之,人體內(nèi)的胰腺功能將會下降,導(dǎo)致人體血糖濃度升高,從而導(dǎo)致高血糖[13]。這也警示人們?nèi)粘I偈掣咛鞘称贰τ诟哐侨巳?,需要通過服藥或其他干預(yù)措施,積極降糖,使其血糖維持在正常水平。
遺傳因素、妊娠次數(shù)、BMI、血漿葡萄糖含量是糖尿病發(fā)病的重要影響因素。年齡、三頭肌皮褶厚度、胰島素水平雖與糖尿病有關(guān),但非重要影響因素。但也有文獻研究認(rèn)為年齡是糖尿病的高危影響因素[14-15],這點在本研究中并未得到證實,需要今后進一步探索。