白杰
摘要:目前我國已經(jīng)進(jìn)入老齡化社會,慢性病患者人數(shù)居世界之首。根據(jù)2015年中國衛(wèi)生部門提供的數(shù)據(jù),中國的糖尿病病人有1.14億,而2010年是9200萬。除了不斷增加的糖尿病病人外,還有1.5億人屬于糖尿病前期,說明中國一共血糖不正常的人有2.64億。此外,還有存在糖尿病高危人群,他們是諸如有糖尿病家族史的人、老年人、肥胖人士、功能代謝紊亂者等??梢哉f,直接受到糖尿病威脅的人有6.64億。這一事實表明在糖尿病檢測方面,現(xiàn)有的方法還是有很多不足。然而,隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘的方法已經(jīng)被應(yīng)用到其他科學(xué)領(lǐng)域,并取得了不錯的效果。同時有一些研究者已經(jīng)將神經(jīng)網(wǎng)絡(luò),支持向量機(jī)這些常用的數(shù)據(jù)挖掘的方法應(yīng)用到醫(yī)療數(shù)據(jù)中,來幫助醫(yī)生檢測病人。因此,本文嘗試用數(shù)據(jù)挖掘中的混合高斯模型來幫助醫(yī)生檢測糖尿病患者。糖尿病或簡單的糖尿病是由于血糖升高引起的疾病。雖然基于物理和化學(xué)測試的各種傳統(tǒng)方法可用于診斷糖尿病,但是診斷過程繁瑣,化驗成本高,診斷周期長。在本文中,我們采用混合高斯模型來完成糖尿病的早期預(yù)測。該模型在我們的訓(xùn)練集上達(dá)到了98%的準(zhǔn)確率,測試集上達(dá)到了83%的準(zhǔn)確率,驗證了該方法的可行性。
關(guān)鍵詞:糖尿??;混合高斯模型;數(shù)據(jù)挖掘;預(yù)測
1概述
生命需要能量來持續(xù),人體需要能量來運行。然而人體細(xì)胞的重要能量來源是葡萄糖,這些葡萄糖主要是由碳水化合物分解而成的。當(dāng)碳水化合物完成分解時,需要胰島素來將這些葡萄糖輸送到人體細(xì)胞中。血糖的供給由胰腺產(chǎn)生的胰島素和胰高血糖素激素來完成的。一般情況,當(dāng)血糖升高時,會刺激B細(xì)胞產(chǎn)生胰島素。胰島素能夠使血糖進(jìn)入細(xì)胞,這時葡萄糖來提供能量。所以血糖保持在一個正常的范圍。如果血糖升高時,胰島素沒有正常產(chǎn)生,此時,就是導(dǎo)致血糖升高,如果情況嚴(yán)重,就會導(dǎo)致糖尿病。糖尿病是一種慢性疾病,如果長期發(fā)展下去,可能會導(dǎo)致很嚴(yán)重的后果。據(jù)國際糖尿病聯(lián)合會,全球共有3.82億人患有糖尿病。到2035年,這將增加一倍,達(dá)到5.92億。然而,由于各種復(fù)雜因素相互依賴,糖尿病的早期預(yù)測對于醫(yī)生來說是非常具有挑戰(zhàn)性的任務(wù)。糖尿病會影響人體器官如腎臟,眼睛,心臟,神經(jīng),腳部等,除此之外,還會對患者的心理施加壓力。
數(shù)據(jù)挖掘是借助人工智能,機(jī)器學(xué)習(xí),統(tǒng)計學(xué)和大數(shù)據(jù)等方法,來挖掘隱藏在數(shù)據(jù)中的一些規(guī)律。它是計算機(jī)科學(xué)的跨學(xué)科子領(lǐng)域。數(shù)據(jù)挖掘過程的總體目標(biāo)是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換為可理解的結(jié)構(gòu)以供進(jìn)一步使用。除了原始分析步驟之外,還涉及數(shù)據(jù)庫和數(shù)據(jù)管理方面,數(shù)據(jù)預(yù)處理,興趣度量,復(fù)雜性考慮,發(fā)現(xiàn)結(jié)構(gòu)后的處理,可視化和在線更新。實際的數(shù)據(jù)挖掘任務(wù)是對大量數(shù)據(jù)的自動或半自動分析,以提取以前未知的特征,例如數(shù)據(jù)記錄(聚類分析),異常記錄(異常檢測)和依賴關(guān)系(關(guān)聯(lián)規(guī)則挖掘,順序模式挖掘)。這通常涉及使用數(shù)據(jù)庫技術(shù),如空間索引。這些模式然后可以被看做輸入數(shù)據(jù)的一種總結(jié),并且可以用于進(jìn)一步的分析,或者在機(jī)器學(xué)習(xí)和預(yù)測分析中。數(shù)據(jù)挖掘現(xiàn)在已經(jīng)被廣泛地應(yīng)用,包括分類,估計,預(yù)測,相關(guān)性分組,聚類,復(fù)雜數(shù)據(jù)類型挖掘。
在本文中,我們將數(shù)據(jù)挖掘中的高斯混合模型,應(yīng)用到醫(yī)學(xué)領(lǐng)域。目前,數(shù)據(jù)挖掘中的很多方法可以被應(yīng)用到醫(yī)學(xué)領(lǐng)域中。例如,我們可以將關(guān)聯(lián)規(guī)則應(yīng)用在醫(yī)療數(shù)據(jù)中,來挖掘出隱藏在其中的規(guī)則,如果規(guī)則數(shù)量相當(dāng)大,我們可以引入搜索約束,只發(fā)現(xiàn)在醫(yī)學(xué)上有意義的關(guān)聯(lián)規(guī)則,來幫助醫(yī)學(xué)和專家尋找有用的信息。通過對醫(yī)學(xué)大數(shù)據(jù)的挖掘、分析,并應(yīng)用神經(jīng)網(wǎng)絡(luò),支持向量機(jī),邏輯回歸,對常見疾病如心絞痛、心肌梗死、腦血管疾病、高血壓病、腫瘤、哮喘病等疾病來預(yù)測或?qū)膊〉娘L(fēng)險進(jìn)行評估。運用數(shù)據(jù)挖掘知識對疾病進(jìn)行預(yù)測可以大幅度地降低醫(yī)療費用,并且在基于大量醫(yī)學(xué)數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)的,健康的管理。
綜上所述,把數(shù)據(jù)挖掘的方法應(yīng)用在醫(yī)學(xué)領(lǐng)域很有前景。本文討論將混合高斯模型應(yīng)用在糖尿病患者的檢測上面,來指導(dǎo)醫(yī)生檢測糖尿病患者,同時也幫助患者提前預(yù)防糖尿病,減輕患者的醫(yī)療負(fù)擔(dān)和心理壓力。論文的剩余部分安排如下:第2部分我們將討論混合高斯模型,包括他的數(shù)學(xué)原理,數(shù)學(xué)推導(dǎo)。第3部分我們將會對實驗結(jié)果進(jìn)行分析,最后,我們對論文進(jìn)行總結(jié)。
2高斯混合模型(GMM)
在統(tǒng)計學(xué)中,混合模型是一個概率模型。形式上,混合模型對應(yīng)于混合分布,其表示總體群體中觀測的概率分布。高斯混合模型(GMM)分類器是一種有用和基本的監(jiān)督學(xué)習(xí)分類器算法,尤其適合分類大量的,具有多維特征的數(shù)據(jù)集。
高斯混合模型,是在單高斯模型的基礎(chǔ)上發(fā)展而來的,單高斯模型就是指單個高斯分布模型或者正態(tài)分布模型,這一分布表示了自然界普遍存在的有關(guān)變量的一種統(tǒng)計規(guī)律,例如人的身高,商品的銷量,考試的成績,商品的質(zhì)量,公司的收益等。這一分布具有很好的數(shù)學(xué)性質(zhì),具有各階導(dǎo)數(shù),整個分布由0完全決定:
高斯混合模型是由K個單高斯分布混合而成的,每個高斯分布稱為混合高斯模型的一個組件,也就是分成K個類,和k-means算法一樣,K的取值需要提前指定具體的形式定義如下:
如果把混合高斯模型應(yīng)用到實際問題中,通常包含兩個步驟。在訓(xùn)練階段經(jīng)過訓(xùn)練,每個類別的高斯分布所對應(yīng)的參數(shù)被估計出來,然后每個類別所對應(yīng)的高斯分布確定下來。最后,在測試階段,把測試數(shù)據(jù)分別輸入到每個類別所對應(yīng)的高斯分布中,然后計算出所對應(yīng)的概率,概率最大值所在的類別,為最終類別。
混合高斯模型的應(yīng)用很廣泛,在金融領(lǐng)域,它可以預(yù)測房子的價格。在文本方面,它可以進(jìn)行文本的分類。還可以把它應(yīng)用在手寫數(shù)字識別。在語音方面,可以應(yīng)用在說話人識別,語音識別。尤其在圖像處理和計算機(jī)視覺方面。他的應(yīng)用更為廣泛,采用高斯混合模型可以進(jìn)行圖像分割,目標(biāo)跟蹤。
在我們的實驗中,混合高斯模型被用于檢測糖尿病。因為只是用來檢測病人是否患有糖尿病,在模式識別中,屬于2分類問題。因此,我們建立兩個高斯混合模型:一個模型的分布用來表示患者的概率分布,另一個模型用來表示未患病者的分布。因為,高斯混合模型的初始化對實驗的結(jié)果有很重要的影響,所以我們將K均值的方法和高斯混合模型相結(jié)合,來完成高斯混合模型參數(shù)的初始化。
在高斯混合模型中,每個模型中所包含的單高斯的個數(shù),對實驗結(jié)果的影響很重要。為了找到最好的模型,因此我們將高斯個數(shù)設(shè)置為1,2,3和4分別進(jìn)行實驗,實驗結(jié)果如下表:
3實驗結(jié)果分析
以上表中數(shù)據(jù)表明最好的結(jié)果83%。當(dāng)單高斯的數(shù)量為
1,模型擬合性能非常差,因為單高斯模型結(jié)構(gòu)太簡單,是不能夠刻畫復(fù)雜數(shù)據(jù)。如果高斯個數(shù)是3或大于3,模型的性能也很差,其中主要原因有可能是,當(dāng)高斯個數(shù)越多時,模型越復(fù)雜,一般來講,模型越復(fù)雜;要求訓(xùn)練集越多。在我們的實驗中,我們的訓(xùn)練集只有4000條。所以訓(xùn)練不足,導(dǎo)致準(zhǔn)確率比較低。因此,當(dāng)高斯個數(shù)為2時,我們?nèi)〉昧俗詈玫膶嶒炐Ч?/p>
為了更好的驗證驗方案的可行性,我們也用其他方法做了對比實驗,我們選取了神經(jīng)網(wǎng)絡(luò)(ANN),支持向量機(jī)(SVM),極限學(xué)習(xí)機(jī)(ELM)和邏輯回歸作為對比的方法,實驗結(jié)果如下表:
以上表表明,混合高斯模型和神經(jīng)網(wǎng)絡(luò)具有相同的效果,但是,實驗表明,在測試階段高斯混合模型的計算速度遠(yuǎn)遠(yuǎn)快于神經(jīng)網(wǎng)絡(luò)。在訓(xùn)練階段,和神經(jīng)網(wǎng)絡(luò)相比較,高斯混合模型需要更少的迭代次數(shù)來完成收斂。在我們的實驗中,當(dāng)單高斯個數(shù)為2時,只需要迭代20次就可以完成收斂。而神經(jīng)網(wǎng)絡(luò)至少需要1000次。充分驗證了我們模型的可行性。
4總結(jié)和展望
本文主要是選用高斯混合模型和K均值算法相結(jié)合,來完成糖尿病的預(yù)測。來輔助醫(yī)生檢測病人。在測試集上,我們的準(zhǔn)確率達(dá)到了98%,在測試集上,我們的準(zhǔn)確率達(dá)到了83%。但是,由于我們數(shù)據(jù)集的不足,所以我們模型的泛華能力不是很強(qiáng),并且83%的準(zhǔn)確率在實際中還是很低。很難將它投入到實際中。除此之外,我們只選取了7個會導(dǎo)致疾病的因素,在實際中,還有很多其他會導(dǎo)致疾病的因素需要我們?nèi)パ芯俊?/p>
在以后的工作中,我們將會采集大量的數(shù)據(jù)集,將高斯混合模型和統(tǒng)計特征相結(jié)合,來進(jìn)行我們的實驗?;蛘?,我們也考慮將深度神經(jīng)網(wǎng)絡(luò)運用到我們的問題中。
致謝:
感謝太原理工大學(xué)對我的培養(yǎng),特別感謝我的指導(dǎo)老師田玉玲,在實驗中給予我悉心指導(dǎo),從開始到結(jié)束過程中遇到很多困難是她給我鼓勵與指引,使我能夠克服重重困難,將實驗做完,在此謹(jǐn)向田老師致以誠摯的謝意和崇高的敬意。