摘 要:在很多領(lǐng)域利用機(jī)器學(xué)習(xí)的方法對(duì)數(shù)據(jù)進(jìn)行分析、預(yù)測(cè)、判斷具有非常重要的現(xiàn)實(shí)意義。將機(jī)器學(xué)習(xí)的算法應(yīng)用到醫(yī)學(xué)領(lǐng)域成為了研究的熱點(diǎn)之一。糖尿病是多發(fā)病癥,對(duì)是否患有糖尿病做出有效預(yù)測(cè),意義重大。論文采用機(jī)器學(xué)習(xí)算法預(yù)測(cè)糖尿病,利用微軟的Azure machine learning作為實(shí)驗(yàn)平臺(tái)。采用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、貝葉斯、支持向量機(jī)五種機(jī)器學(xué)習(xí)算法進(jìn)行了預(yù)測(cè),預(yù)測(cè)正確率分別是0.854,0.787,0.952,0.779,0.781。結(jié)果顯示決策樹(shù)預(yù)測(cè)效果最佳。在決策樹(shù)預(yù)測(cè)的基礎(chǔ)上對(duì)預(yù)測(cè)方法做出改進(jìn)后,實(shí)驗(yàn)結(jié)果表明正確率提高了0.002。
關(guān)鍵詞:機(jī)器學(xué)習(xí);糖尿病;決策樹(shù);Azure machine learning
中圖分類(lèi)號(hào):TP181;R587
文獻(xiàn)標(biāo)識(shí)碼: A
科技不斷進(jìn)步與發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),面對(duì)各種紛繁復(fù)雜,基數(shù)巨大的數(shù)據(jù),如何在其中提取挖掘出最有價(jià)值的信息,為企業(yè)、團(tuán)體或個(gè)人決策提供科學(xué)的依據(jù)顯得尤為重要。最近幾年,機(jī)器學(xué)習(xí)受到了企業(yè)、學(xué)校、學(xué)術(shù)研究機(jī)構(gòu)的廣泛關(guān)注。機(jī)器學(xué)習(xí)[1-3](Machine Learning, ML)是一門(mén)跨越多個(gè)領(lǐng)域的交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、概率論等多門(mén)學(xué)科,機(jī)器學(xué)習(xí)算法是從已有數(shù)據(jù)中分析挖掘獲得規(guī)律,并利用這些規(guī)律對(duì)未知數(shù)據(jù)做出預(yù)測(cè)。利用機(jī)器學(xué)習(xí)的算法對(duì)數(shù)據(jù)做處理、分析、預(yù)測(cè)可以應(yīng)用到很多領(lǐng)域。文獻(xiàn)[4]中闡述了機(jī)器學(xué)習(xí)方法在金融領(lǐng)域的應(yīng)用。文獻(xiàn)[5]介紹機(jī)器學(xué)習(xí)這一智能化探索型數(shù)據(jù)分析手段為處理地理學(xué)中普遍存在的高維非線(xiàn)性噪聲數(shù)據(jù)提供了方法支撐。文獻(xiàn)[6]研究了支持向量機(jī)算法在翻譯風(fēng)格研究中的應(yīng)用。文獻(xiàn)[7]介紹了機(jī)器學(xué)習(xí)方法在水文地質(zhì)中的研究。
在醫(yī)學(xué)領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)算法,可以有效節(jié)約各種人力、物力、財(cái)力,提高醫(yī)生的看病效率,緩解就醫(yī)難的問(wèn)題。糖尿病作為多發(fā)病和嚴(yán)重的慢性病,患病率呈現(xiàn)逐步上升的趨勢(shì)。并且一直以來(lái)是受到醫(yī)學(xué)界、研究機(jī)構(gòu)的廣泛關(guān)注。世界衛(wèi)生組織發(fā)布的《全球糖尿病報(bào)告》[8],指出全球糖尿病患者人數(shù)已達(dá)到4.22億人,這些患病的人主要集中在中低收入國(guó)家。
糖尿病分為1型糖尿病和2型糖尿病,患者罹患2型糖尿病的占大多數(shù)。利用機(jī)器學(xué)習(xí)算法對(duì)2型糖尿進(jìn)行預(yù)測(cè)的研究比較多[9-13]。糖尿病可能導(dǎo)致多種并發(fā)癥包括視力減退、中風(fēng)、心臟病發(fā)作,這將會(huì)給患者的身心健康造成嚴(yán)重傷害。糖尿病也會(huì)給患者及其家庭帶來(lái)較重的經(jīng)濟(jì)負(fù)擔(dān)。
我們選用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、貝葉斯、支持向量機(jī)五種機(jī)器學(xué)習(xí)算法進(jìn)行了預(yù)測(cè),如圖1是機(jī)器學(xué)習(xí)算法預(yù)測(cè)糖尿病的過(guò)程。五種方法比較,實(shí)驗(yàn)結(jié)果顯示決策樹(shù)預(yù)測(cè)的更好,所以我們重點(diǎn)選用了決策樹(shù)進(jìn)行預(yù)測(cè),并根據(jù)數(shù)據(jù)特性選用合理的方法標(biāo)準(zhǔn)化數(shù)值特征。
1 決策樹(shù)
在機(jī)器學(xué)習(xí)算法中,決策樹(shù)是非常重要的算法之一,決策樹(shù)也被叫做判定樹(shù)。根據(jù)不同的特征點(diǎn)信息對(duì)給出的數(shù)據(jù)集進(jìn)行劃分,最終結(jié)果得到的是一棵樹(shù)。每個(gè)劃分集存放在相應(yīng)的子樹(shù)里。決策樹(shù)的決策過(guò)程是從決策樹(shù)的根節(jié)點(diǎn)開(kāi)始的,待測(cè)數(shù)據(jù)與決策樹(shù)中的特征節(jié)點(diǎn)進(jìn)行比較,依照比較結(jié)果選擇相應(yīng)的分支。決策樹(shù)的學(xué)習(xí)過(guò)程如下:首先是特征選擇,從給定的訓(xùn)練數(shù)據(jù)的特征點(diǎn)中選擇其中一個(gè)作為節(jié)點(diǎn)的分裂選擇標(biāo)準(zhǔn)。其次是決策樹(shù)的生成,要依據(jù)所選標(biāo)準(zhǔn),從上到下遞歸地生成對(duì)應(yīng)的子節(jié)點(diǎn),一直到數(shù)據(jù)集不可再分則停止生成。最后是對(duì)樹(shù)剪枝,決策樹(shù)很容易產(chǎn)生過(guò)擬合,針對(duì)這種情況需要通過(guò)剪枝來(lái)解決這一問(wèn)題。
1.1 決策樹(shù)的基本算法
決策樹(shù)的基本算法如下[14]:
1.2 劃分選擇
從決策樹(shù)的算法中,希望決策樹(shù)分支節(jié)點(diǎn)所包含的樣本應(yīng)盡可能地屬于同一個(gè)類(lèi)別,即節(jié)點(diǎn)純度越來(lái)越高。信息熵是用來(lái)評(píng)價(jià)樣本集合純度的最常用指標(biāo)。
1.3 剪枝處理
在決策樹(shù)學(xué)習(xí)過(guò)程中,由于節(jié)點(diǎn)劃分過(guò)程不斷地重復(fù),會(huì)造成決策樹(shù)分支過(guò)多,這時(shí)會(huì)導(dǎo)致訓(xùn)練樣本學(xué)的過(guò)于好,產(chǎn)生過(guò)擬合。采取的措施是通過(guò)主動(dòng)去掉一些分支,來(lái)降低過(guò)擬合的風(fēng)險(xiǎn)。
決策樹(shù)剪枝分為預(yù)剪枝與后剪枝兩種。決策樹(shù)學(xué)習(xí)中,對(duì)每個(gè)節(jié)點(diǎn)在劃分前首先進(jìn)行估計(jì),如果當(dāng)前節(jié)點(diǎn)的劃分不會(huì)使決策樹(shù)泛化性能得到提升,則要停止劃分,把當(dāng)前節(jié)點(diǎn)標(biāo)記為葉子節(jié)點(diǎn)。后剪枝是先從給定的訓(xùn)練集中生成一棵完整的決策樹(shù),隨后自底向上對(duì)非葉節(jié)點(diǎn)進(jìn)行檢查,如果這個(gè)結(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)替換為葉子結(jié)點(diǎn)能帶來(lái)泛化性能的提升,則使用葉子結(jié)點(diǎn)替換它。后剪枝決策樹(shù)通常比預(yù)剪枝決策樹(shù)保留了更多的分支,后剪枝決策樹(shù)欠擬合風(fēng)險(xiǎn)小,泛化性能上表現(xiàn)更優(yōu)秀。
2 實(shí)驗(yàn)及結(jié)論
我們的樣本選用了15000條記錄的數(shù)據(jù)集,共有11個(gè)特征點(diǎn),分別是其中10500個(gè)(70%)用作訓(xùn)練集,4500個(gè)(30%)用作測(cè)試集。所選用的機(jī)器學(xué)習(xí)工具為微軟的Azure Machine Learning[15]。
預(yù)測(cè)正確率(Accuracy)=真陽(yáng)性+真陰性/真陽(yáng)性+真陰性+假陽(yáng)性+假陰性,正確率是接近真值的程度。越接近1越好。預(yù)測(cè)精度(Precision)=真陽(yáng)性/真陽(yáng)性+假陽(yáng)性,分散程度越接近1越好。召回率(Recall)=真陽(yáng)性/真陽(yáng)性+假陰性,越接近1越好。曲線(xiàn)下面積(AUC)能夠體現(xiàn)模型性能的優(yōu)劣。如表1是對(duì)預(yù)測(cè)結(jié)果的評(píng)估。如圖2是ROC曲線(xiàn)顯示了真陽(yáng)性率與假陽(yáng)性率之間的曲線(xiàn)變化率。曲線(xiàn)越是靠近左上方,表明算法的預(yù)測(cè)效果越好。在5種機(jī)器學(xué)習(xí)方法種預(yù)測(cè)效果表現(xiàn)好的依次排名分別是決策樹(shù),神經(jīng)網(wǎng)絡(luò),邏輯回歸,支持向量機(jī),貝葉斯。在所有5種方法預(yù)測(cè)的基礎(chǔ)上,我們根據(jù)要預(yù)測(cè)的目標(biāo),剔除了病人編號(hào)和醫(yī)生兩個(gè)特征點(diǎn)。對(duì)于一些特征近似正態(tài)分布我們采用了均值方差作標(biāo)準(zhǔn)化,而對(duì)遠(yuǎn)離正常值的則采用MinMax標(biāo)準(zhǔn)化。
3 總結(jié)
人工智能和大數(shù)據(jù)分析領(lǐng)域日益引起廣泛的關(guān)注,而機(jī)器學(xué)習(xí)是其中重要的理論依據(jù)和工具之一。在論文中分別采用了神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、貝葉斯、支持向量機(jī)等機(jī)器學(xué)習(xí)算法預(yù)測(cè)糖尿病,幾種方法比較結(jié)果表明決策樹(shù)預(yù)測(cè)的準(zhǔn)確度和精度更加準(zhǔn)確,更加有效,下一步我們將采用更加多樣的糖尿病方面的數(shù)據(jù)集,對(duì)我們的方法進(jìn)行印證。我們堅(jiān)信機(jī)器學(xué)習(xí)方法將會(huì)更廣泛地應(yīng)用于醫(yī)療領(lǐng)域,對(duì)于人們治療各種疾病起到積極的作用。
參考文獻(xiàn):
[1]張潤(rùn),王永濱.機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J].中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,23(2):10-18.
[2]余明華,馮翔,祝智庭.人工智能視域下機(jī)器學(xué)習(xí)的教育應(yīng)用與創(chuàng)新探索[J].遠(yuǎn)程教育雜志,2017,35(3):11-21.
[3]Peter Flach.機(jī)器學(xué)習(xí)[M].北京:人民郵電出版社,2016:9-10.
[4]孫存一,龔六堂.大數(shù)據(jù)思維下的利率定價(jià)研究——以機(jī)器學(xué)習(xí)為視角的實(shí)證分析[J].金融理論與實(shí)踐,2017(7):1-5.
[5]張郴,黃震方,張捷,等.基于機(jī)器學(xué)習(xí)的南京市旅游地個(gè)性及其文化景觀表征[J].地理學(xué)報(bào),2017,72(10):1886-1903.
[6]詹菊紅,蔣躍.機(jī)器學(xué)習(xí)算法在翻譯風(fēng)格研究中的應(yīng)用[J].外語(yǔ)教學(xué),2017,38(5):80-85.
[7]強(qiáng)玲娟,常安定,陳玉雪.機(jī)器學(xué)習(xí)算法反求水文地質(zhì)參數(shù)[J].煤田地質(zhì)與勘探,2017,45(3):87-90.
[8]世界衛(wèi)生組織全球糖尿病報(bào)告[DB/OL]. http://www.who.int/diabetes/zh/.
[9]G Luo.Automatically explaining machine learning prediction results: a demonstration on type 2 diabetes risk prediction[J]. Health Information Scienceamp; Systems,2016,4(1):1-9.
[10]HsinYi T, PeiYing C, ChiaYu S E. Predicting diabetic retinopathy and identifying interpretable biomedical features using machine learning algorithms[J].BMC Bioinformatics, 2018, 19(S9):195-205.
[11]T Zheng,W Xie, L Xu,et al. A machine learning-based framework to identify type 2 diabetes through electronic health records[J].International Journal of Medical Informatics,2017,97:120-127.
[12]N Yuvaraj, KR Sripreethaa.Diabetes prediction in healthcare systems using machine learning algorithms on Hadoop cluster[J].Cluster Computing,2017(1):1-9.
[13]蘇萍,楊亞超,楊洋,等.健康管理人群2型糖尿病病發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型[J].山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2017,55(6):82-86.
[14]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:73-74.
[15]千賀大司,山本和貴,大澤文孝.微軟Azure機(jī)器學(xué)習(xí)實(shí)戰(zhàn)手冊(cè)[M].北京:中國(guó)人民大學(xué)出版社,2017.
(責(zé)任編輯:曾 晶)