韋 哲 于啟炟 辛 邁③
基于Apriori算法的高危人群2型糖尿病預(yù)測(cè)研究
韋 哲①②于啟炟②辛 邁②③
目的:利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,為及早地在高危人群中發(fā)現(xiàn)和預(yù)防糖尿病。方法:選擇蘭州某大型三甲醫(yī)院的323例2型糖尿病及IFG、IGT患者的首次病程記錄,采用Apriori算法和SPSS Clementine 12軟件設(shè)計(jì),建立2型糖尿病的預(yù)測(cè)模型。結(jié)果:共形成10條強(qiáng)關(guān)聯(lián)規(guī)則,其中蘊(yùn)含著與2型糖尿病相關(guān)的一些因素之間的關(guān)聯(lián)關(guān)系。結(jié)論:通過這些關(guān)聯(lián)規(guī)則以實(shí)現(xiàn)對(duì)糖尿病高危人群簡(jiǎn)便而準(zhǔn)確的初判斷。
數(shù)據(jù)挖掘;Apriori算法;關(guān)聯(lián)規(guī)則;糖尿病,2型
[First-author’s address] Lanzhou General Hospital PLA Lanzhou Military Command, Lanzhou 730050, China.
糖尿病(diabetes mellitus,DM)已成為世界性疾病,據(jù)世界衛(wèi)生組織(WHO)報(bào)道,目前全球已有DM患者1.75億,2025年將達(dá)到3億,而更嚴(yán)重的是與DM相關(guān)的病死率在過去的12年內(nèi)增加了30%,全球DM相關(guān)的死亡人數(shù)為每年320萬[1]。隨著人們生活方式的巨變和生活水平的提高,DM發(fā)病年齡呈現(xiàn)低齡化,我國的DM患病率急劇增加。近5年的流行病學(xué)調(diào)查顯示,在我國經(jīng)濟(jì)發(fā)達(dá)地區(qū)DM的患病率已高達(dá)9%~10%[2]。DM患者的平均壽命較非DM者少15年。因此,DM的早期發(fā)現(xiàn)和早期治療具有非常重要的意義。
本研究利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,在DM患者首次病程記錄的基礎(chǔ)上,研究簡(jiǎn)單易測(cè)(在家中獲得檢測(cè)數(shù)據(jù))的關(guān)聯(lián)因素與2型糖尿病之間的關(guān)系,利用其規(guī)則使DM高危人群能夠及時(shí)準(zhǔn)確地對(duì)自身情況做出初步判斷。首次病程記錄為患者進(jìn)入醫(yī)院后未經(jīng)過任何治療措施的真實(shí)記錄,在對(duì)2型DM高危人群的預(yù)測(cè)中比一般的電子病歷更具有普遍意義,本方法的先進(jìn)意義就在于此。
Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻繁集思想的遞推算法。其中,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集(使用遞推的方法生成所有頻集)[3]。Apriori(先驗(yàn)的,推測(cè)的)算法,其基本思想是首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則(即同時(shí)滿足最小支持度闕值和最小置信度闕值的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則),這些規(guī)則必須滿足最小支持度和最小置信度,然后應(yīng)用所找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,一旦這些規(guī)則被生成,則只有那些支持度和置信度分別大于用戶所給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則才能留下來。利用Apriori算法對(duì)數(shù)據(jù)進(jìn)行分析能夠高效的產(chǎn)生頻繁項(xiàng)集,從而生成強(qiáng)關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)隱藏在數(shù)據(jù)間的相關(guān)性。
為了生成所有頻繁項(xiàng)集,Apriori算法使用了遞推的方法[4]。其核心思想為:首先產(chǎn)生1-項(xiàng)集(L1),然后是頻繁2-項(xiàng)集(L2),直到有某個(gè)r值使得Ly為空,這時(shí)算法停止。在第k次循環(huán)中,其過程先產(chǎn)生候選k-項(xiàng)集的集合Ck,Ck中的每個(gè)項(xiàng)集是對(duì)兩個(gè)只有1個(gè)項(xiàng)集不同的屬于Lk-1的頻集做1個(gè)(k-2)連接而產(chǎn)生的[5]。Ck中的項(xiàng)集是用來產(chǎn)生頻集的候選集,最后的頻集Lk必須是Ck的一個(gè)子集。Ck中的每個(gè)項(xiàng)集需在數(shù)據(jù)庫中進(jìn)行驗(yàn)證來決定其是否加入。
本研究信息資料提取于蘭州某大型三甲醫(yī)院醫(yī)學(xué)信息數(shù)據(jù)庫,其中包括2009年1月至2014年3月2型DM、空腹血糖受損(impaired fasting glucose,IFG)及糖耐量受損(impaired glucose tolerance,IGT)患者的首次病程記錄,信息數(shù)據(jù)為患者住院號(hào)、性別、年齡、既往病史、家族病史、飲食習(xí)慣、職業(yè)及生理數(shù)據(jù)等指標(biāo)。研究中病程指標(biāo)為:①以空腹血糖≥7.0 mmol/L或餐后2 h血糖≥11.1 mmol/L為DM;②空腹血糖<7.0 mmol/L或餐后2 h在7.8~11.0 mmol/L為IGT;③空腹血糖在6.1~7.0 mmol/L或餐后2 h血糖<7.8 mmol/L為IFG[7]。
根據(jù)世界衛(wèi)生組織(WHO)最新標(biāo)準(zhǔn),DM高危人群的定義為:①年齡≥45歲且常年不參加體力活動(dòng);②體質(zhì)量指數(shù)≥24 kg/m2;③以往有IGT或是IFG;④有DM家族史;⑤有高密度脂蛋白膽固醇降低或三酰甘油血癥;⑥有高血壓或是心腦血管病癥;⑦年齡≥30歲的妊娠婦女[8]。
3.1 數(shù)據(jù)預(yù)處理
本研究根據(jù)數(shù)據(jù)挖掘?qū)I(yè)知識(shí)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)記錄量和特征屬性的數(shù)量達(dá)到研究要求[9]。預(yù)處理過程分為2步:①數(shù)據(jù)選擇,從首次病程記錄中提取出性別、文化程度及創(chuàng)傷史等方面的信息。考慮到患者的姓名、出生年月及住院號(hào)等信息與本次研究關(guān)系不大,可以直接去掉。經(jīng)過刪減的部分?jǐn)?shù)據(jù)如圖1所示;②數(shù)據(jù)變換,按照數(shù)據(jù)挖掘中關(guān)聯(lián)分析的要求將本研究的數(shù)據(jù)轉(zhuǎn)變成布爾型的二值數(shù)據(jù), 經(jīng)過量化后得到的部分?jǐn)?shù)據(jù)如圖2所示。
圖1 刪減后的患者部分?jǐn)?shù)據(jù)電腦截圖
圖2 量化處理后的患者部分?jǐn)?shù)據(jù)電腦截圖
有些屬性很容易量化,如性別中男性可設(shè)置為1,女性可設(shè)置為0;飲酒可用1代表平時(shí)飲酒,0代表平時(shí)不飲酒。但有些屬性則需要分段,然后再進(jìn)行相應(yīng)的量化,如患者的文化程度以初中為標(biāo)準(zhǔn),初中以下屬于低文化水平用0表示;而初中及以上屬于高文化水平,用1表示。對(duì)于性格的量化,采用的方式為能控制自己情緒的用1表示,其他均用0表示。對(duì)于身體質(zhì)量指數(shù)(body mass index,BMI)的量化,采用的方式為BMI<24 kg/m2的屬于正常用0表示,BMI>24 kg/m2的屬于肥胖用1表示。對(duì)于腰臀比(waist-hip ratio,WHR)的量化,采用的方式為男性WHR>0.8的用1表示,女性WHR>0.85的用1表示,其余均用0表示。
3.2 數(shù)據(jù)挖掘模型
利用Apriori算法,在Clementine下建立的數(shù)據(jù)挖掘模型,針對(duì)本次挖掘任務(wù)所設(shè)計(jì)流。流中將“數(shù)據(jù)源.xls”作為源文件節(jié)點(diǎn),添加過濾節(jié)點(diǎn)和類型節(jié)點(diǎn)建立庫與模型間的數(shù)據(jù)傳輸,最后將Apriori算法執(zhí)行模型和圖形節(jié)點(diǎn)填入流中[10](如圖3所示)。
圖3 基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘模型圖
在進(jìn)行關(guān)聯(lián)分析時(shí)發(fā)現(xiàn),當(dāng)設(shè)置的最小支持度闕值為minsupport=0.10,最小置信度闕值為minconfidence=0.70時(shí)得到的關(guān)聯(lián)規(guī)則最佳,如果關(guān)聯(lián)規(guī)則的最小支持度和最小置信度不滿足事先設(shè)置最小支持度和最小置信度的要求,則會(huì)被“剪枝”處理,最終得到結(jié)果如圖4、圖5所示。
圖4 模型-數(shù)據(jù)挖掘部分結(jié)果示圖
圖5 圖形-數(shù)據(jù)挖掘結(jié)果示圖
本研究中圖4、圖5顯示:①男性人群中喝酒是造成DM的一個(gè)危險(xiǎn)因素,女性人群中肥胖是造成DM的一個(gè)危險(xiǎn)因素,其中女性DM患者的BMI和WHR指數(shù)普遍超標(biāo);②在最后的結(jié)果中并沒有看見“運(yùn)動(dòng)”這個(gè)因素,表明DM患病人群在平時(shí)的生活中堅(jiān)持鍛煉的人數(shù)非常少,提示應(yīng)加強(qiáng)DM的預(yù)防與教育工作,使公眾對(duì)DM不再陌生和輕視,患者要改變平時(shí)不利于DM健康的行為,形成高度的自我管理模式;③本研究中“創(chuàng)傷史”這個(gè)因素因?yàn)橹С侄鹊陀陬A(yù)設(shè)值而被刪減,表明大量的DM患者是近年來隨著生活水平的改善而新增加的;④飲茶也可能導(dǎo)致DM,這個(gè)因素常常被患者所忽略;⑤本研究未考慮季節(jié)性對(duì)DM的影響,在后續(xù)的研究中會(huì)增加此項(xiàng)內(nèi)容。以上結(jié)論與實(shí)際情況基本相符。
關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),是對(duì)數(shù)據(jù)庫中數(shù)據(jù)之間相關(guān)性的一種描述,基于關(guān)聯(lián)分析的計(jì)算機(jī)輔助醫(yī)學(xué)數(shù)據(jù)挖掘系統(tǒng)能夠?qū)ΜF(xiàn)有病歷數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行自動(dòng)分析并提取有價(jià)值的知識(shí),尤其適合DM的流行病學(xué)分析和全民健康評(píng)估。因此,Apriori算法與社區(qū)醫(yī)療和醫(yī)院信息系統(tǒng)結(jié)合是未來的發(fā)展方向。本研究嘗試將數(shù)據(jù)挖掘算法引入DM的發(fā)病規(guī)律研究中,期望從大量的DM數(shù)據(jù)中發(fā)現(xiàn)該病的發(fā)病規(guī)律,挖掘出有意義的規(guī)則,使高危人群能從這些規(guī)則中對(duì)自身的情況做出相應(yīng)的判斷,引起自身足夠的重視并做出相應(yīng)的調(diào)整,從而達(dá)到預(yù)防DM的目的。
[1]Gül?in YE,Karahoca A,U?ar T.Dosage planning for diabetes patients using data mining methods[J]. Procedia Computer Science,2011,3:1374-1380.
[2]李武成,王官權(quán),金科.2型糖尿病并發(fā)高血壓的危險(xiǎn)因素分析[J].實(shí)用醫(yī)學(xué)雜志,2010,26(17):3180-3181.
[3]劉敏嫻,馬強(qiáng),寧以風(fēng),等.基于頻繁矩陣的Apriori算法改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(11):4235-4239.
[4]李良,米智偉,向新.基于FP-Growt的戰(zhàn)略績效關(guān)聯(lián)分析算法研究[J].微計(jì)算機(jī)應(yīng)用,2011,32(2):1-8.
[5]Goethals B.Surveyon frequent pattern mining,HUT basic research unit[D].Helsinki:Department of Computer Science,University of Helsinki,2003:1-43.
[6]Patil BM,Joshi RC,Toshniwal D.Association rule for classification of type-2 diabetic patients[C].2010 Second International Conference on Machine Learning and Computing,2010:34-38.
[7]胡艷文,申紅.2型糖尿病及其并發(fā)癥QT期間及離散度變化的臨床意義[J].貴州醫(yī)藥,2007(5):542-543.
[8]張翠麗,高曉紅,李曉楓,等.2型糖尿病發(fā)病高危因素的分析[J].大連醫(yī)科大學(xué)學(xué)報(bào),2005,27(2):99-100.
[9]嚴(yán)剛.中醫(yī)數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理方法研究[J].遼寧中醫(yī)雜志,2010,7(11):2144-2147.
[10]元昌安,鄧松.李文敬,等.數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典[M].北京:電子工業(yè)出版社,2009.
Study on prediction of high risk group of Type 2 diabetes based on Apriori algorithm
WEI Zhe, YU Qi-da, XIN Mai// China Medical Equipment,2015,12(1):45-47.
Objective: To discover and prevent diabetes early in high-risk group. Methods: Chose 323 records of type 2 diabetes or IFG,IGT patients with first course which come from a large hospital in Lanzhou between 2009 January to 2014 March; Use Apriori algorithm and the SPSS Clementine 12 software design; Set up prediction model of type 2 diabetes. Results: A total of 10 strong association rules are formed. The strong association rules contain some associations between factors and type 2 diabetes. Conclusion: Through the association rules, the initial judgment on the high-risk group of diabetes is simple and accurate.
Data mining; Apriori algorithm; Association rules; Diabetes mellitus, type 2
韋哲,男,(1963- ),博士,高級(jí)工程師。蘭州軍區(qū)蘭州總醫(yī)院醫(yī)學(xué)工程科,從事醫(yī)學(xué)信息檢測(cè)和處理方面的研究工作。
1672-8270(2015)01-0045-03
R197.324
A
10.3969/J.ISSN.1672-8270.2015.01.014
2014-05-28
①蘭州軍區(qū)蘭州總醫(yī)院醫(yī)學(xué)工程科 甘肅 蘭州 730050
②蘭州理工大學(xué)電氣工程與信息工程學(xué)院 甘肅 蘭州 730050
③解放軍94804部隊(duì) 上海 200000