牟冬梅 馮 超 王 萍
(吉林大學(xué)公共衛(wèi)生學(xué)院 長春130021)
?
數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用及SWOT分析*
牟冬梅 馮 超 王 萍
(吉林大學(xué)公共衛(wèi)生學(xué)院 長春130021)
闡述關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)、決策樹和聚類分析4種數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用情況,運用SWOT分析法,得出各方法的優(yōu)勢及劣勢、面臨的機會及威脅并做出策略分析。指出4種數(shù)據(jù)挖掘方法的適用范圍和協(xié)同應(yīng)用情況,對方法的應(yīng)用選取提出建議。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;人工神經(jīng)網(wǎng)絡(luò);決策樹;聚類分析;SWOT分析
數(shù)據(jù)挖掘(Data Mining)是一個多學(xué)科交叉研究領(lǐng)域,融合了數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、知識工程、面向?qū)ο蠓椒?、信息檢索、高性能計算以及數(shù)據(jù)可視化等最新技術(shù)的研究結(jié)果。應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫和數(shù)據(jù)倉庫中提取人們感興趣的信息和知識,這些知識是隱含的,事先未知而潛在有用的,提取的知識表示為概念、規(guī)律、模式等。醫(yī)學(xué)領(lǐng)域數(shù)據(jù)量龐大、生成速度快、結(jié)構(gòu)復(fù)雜多樣且價值大[1-2],利用數(shù)據(jù)挖掘技術(shù)處理這些信息,可以取得事半功倍之效。數(shù)據(jù)挖掘方法較多也比較復(fù)雜,針對醫(yī)學(xué)數(shù)據(jù)的隱私性、多樣性、不完整性及冗余性[3],及不同數(shù)據(jù)結(jié)構(gòu)、不同需要、不同目的,選擇相適應(yīng)的數(shù)據(jù)挖掘方法至關(guān)重要。本文針對4種常用的數(shù)據(jù)挖掘方法[4]——關(guān)聯(lián)規(guī)則、人工神經(jīng)網(wǎng)絡(luò)、決策樹及聚類分析進(jìn)行探討。
2.1 關(guān)聯(lián)規(guī)則
4種數(shù)據(jù)挖掘方法是數(shù)據(jù)挖掘領(lǐng)域的研究熱點,隨著其發(fā)展進(jìn)步,應(yīng)用領(lǐng)域不斷擴展,涵蓋了商業(yè)、教育、工程、科研及醫(yī)學(xué)等領(lǐng)域。在醫(yī)學(xué)領(lǐng)域,關(guān)聯(lián)規(guī)則用來發(fā)現(xiàn)數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系,基于醫(yī)學(xué)數(shù)據(jù)非結(jié)構(gòu)化、無序化及數(shù)量龐大的特點,應(yīng)用關(guān)聯(lián)規(guī)則挖掘未知的知識顯得尤其重要。現(xiàn)已有多項醫(yī)學(xué)領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究:(1)發(fā)現(xiàn)疾病與癥狀間的關(guān)聯(lián)規(guī)則,如王華等[5]用其研究某癥狀可能伴隨發(fā)生其他癥狀,這些癥狀可能是由某疾病引發(fā)。(2)疾病并發(fā)癥的關(guān)聯(lián)研究,如余輝等[6]研究幾種病癥同時發(fā)生時糖尿病并發(fā)的概率,糖尿病引發(fā)某并發(fā)癥的風(fēng)險。(3)用藥和方劑配伍規(guī)律研究,如吳嘉瑞等[7]用關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類分析治療腹痛用藥規(guī)律。(4)病癥-辨證-處方關(guān)聯(lián)研究,歐鳳霞等[8]用關(guān)聯(lián)規(guī)則判斷癥狀組合出現(xiàn)時使用某種藥物的概率,是何種辨證及會用某處方的概率。(5)分析藥物間相互作用,如胡雙[9]用關(guān)聯(lián)規(guī)則分析心血管藥物的相互作用,包括避免合用、謹(jǐn)慎合用、可以合用的作用關(guān)系。(6)藥品分類和劑型關(guān)聯(lián)分析,如鄭銀麗等[10]通過藥品分類和劑型的關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)用戶用藥需求、習(xí)慣及劑型偏好。關(guān)聯(lián)規(guī)則在臨床醫(yī)療領(lǐng)域有著出色的效用,在疾病、癥狀、并發(fā)癥、用藥等方面都做出了卓越貢獻(xiàn)。
2.2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)模擬大腦神經(jīng)組織機制,由節(jié)點相互聯(lián)接的輸入、輸出結(jié)構(gòu),具有出色的學(xué)習(xí)能力,在醫(yī)療和金融領(lǐng)域都有良好的預(yù)測效果。人工神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域有以下幾方面應(yīng)用:(1)危險因素分析,如錢玲[11]用BP神經(jīng)網(wǎng)絡(luò)分析影響糖尿病并發(fā)癥發(fā)生的因素。(2)疾病診斷,如吳擁軍等[12]建立了基于BP 網(wǎng)絡(luò)的肺癌智能化診斷模型系統(tǒng)。(3)疾病預(yù)測,如溫變珍[13]針對原發(fā)大腸癌手術(shù)病例,建立經(jīng)測試后效果良好的生存期預(yù)測模型。(4)基因型分類,如Rena等[14]嘗試用BP神經(jīng)網(wǎng)絡(luò)對樣品3種基因型(GG、AA、GA)進(jìn)行分類。臨床和基礎(chǔ)醫(yī)學(xué)中人工神經(jīng)網(wǎng)絡(luò)都有很好的應(yīng)用,在臨床預(yù)測方面發(fā)揮了重要作用。
2.3 決策樹
決策樹奉行自頂向下,分而治之,以樹狀圖來使結(jié)果可視化,是典型的分類方法,能發(fā)現(xiàn)分類規(guī)則,在醫(yī)學(xué)領(lǐng)域有重要應(yīng)用:(1)疾病的分類,如楊開明[15]用決策樹對糖尿病病例數(shù)據(jù)辨證分類,可指導(dǎo)醫(yī)生臨床診斷。(2)致病規(guī)律,如蘇亞丁[16]提出一種基于決策樹的口腔診療方法,試圖利用其研究口腔疾病的致病規(guī)律。(3)疾病預(yù)測,如陳偉等[17]使用決策樹對絕經(jīng)綜合征者預(yù)測便秘和腰酸。(4)疾病診斷,如王劍[18]用決策樹診斷慢性乙型肝炎不同型別,診斷肝炎肝硬化和原發(fā)性肝細(xì)胞癌,發(fā)現(xiàn)慢性乙肝患者中的高危人群;通過移動醫(yī)療設(shè)備疾病決策樹可以幫助患者一定程度上自己診斷和處理病情[19]。
2.4 聚類分析
聚類分析基于相似性將對象分類,主要用于模式識別和數(shù)據(jù)挖掘,在醫(yī)學(xué)領(lǐng)域主要有以下應(yīng)用:(1)方劑配伍規(guī)律分析,如吳磊等[20]雙向聚類分析治療中風(fēng)病方劑配伍規(guī)律,得到針對不同證型配伍用藥特點、治法和常用藥組。(2)基因表達(dá)數(shù)據(jù)分析,如Bittner等[21]于基因?qū)哟卫镁垲惙治龊谏亓鰳颖荆页銎溟g相關(guān)性。(3)疾病診斷,如景麗俊[22]對治療小兒抽動穢語綜合征的處方及腫瘤醫(yī)案聚類研究,發(fā)現(xiàn)方劑間及方劑和病證間關(guān)聯(lián),確定腫瘤證型。(4)辨證論治,如李賽[23]聚類分析慢性腎衰竭癥狀,顯示隨著聚類次數(shù)的增加慢性腎衰竭的演變過程,對病機、臨床表現(xiàn)特點及發(fā)展變化的規(guī)律有整體觀念,指導(dǎo)論治。(5)用藥規(guī)律分析,如李健等[24]對治療肺癰的方劑聚類分析,發(fā)現(xiàn)方劑中藥物的關(guān)聯(lián)、核心組合及新方劑組合。(6)臨床癥狀、證型分析,如林蘭等[25]對癥狀聚類得到最常見癥狀,對證型聚類得到主要證型。(7)致病危險因素分析,如魏林節(jié)等[26]聚類分析影響高原地區(qū)發(fā)生高血壓腦出血的危險因素,得到危險因素的分類結(jié)果。(8)發(fā)現(xiàn)臨床數(shù)據(jù)異常點,如蔣小群等[27]對2型糖尿病患者分層聚類分析,發(fā)現(xiàn)指標(biāo)異常點,輔助臨床診斷和治療。
SWOT(Strengths,Weakness,Opportunity,Threats)分析法又稱態(tài)勢分析法或優(yōu)劣勢分析法,是由哈佛商學(xué)院的K.J.安德魯斯教授于1921年在其《公司戰(zhàn)略概念》一書中提出的,用于客觀分析研究對象所處的現(xiàn)實情況。本文使用此方法將數(shù)據(jù)挖掘方法的內(nèi)部優(yōu)勢、劣勢、外部機會及面臨的威脅4個要素按矩陣排列并做出分析,明確4種數(shù)據(jù)挖掘方法的優(yōu)勢和存在的問題,找出解決辦法,協(xié)助對方法的選擇,見表1。
續(xù)表1
4.1 適用范圍
4種數(shù)據(jù)挖掘方法由于各自的特點、功能、限制,應(yīng)用情況有所不同。關(guān)聯(lián)規(guī)則反映變量間相互依存和關(guān)聯(lián),主要挖掘數(shù)據(jù)的項目或?qū)傩蚤g關(guān)系,如病癥-辨證-處方之間關(guān)系、用藥規(guī)律、方劑配伍關(guān)聯(lián),發(fā)現(xiàn)潛在、未知的規(guī)則和關(guān)聯(lián)度較強的規(guī)則。由于對數(shù)據(jù)預(yù)處理要求低,無需考慮數(shù)據(jù)的復(fù)雜度,可處理規(guī)范程度不高、結(jié)構(gòu)不規(guī)整的數(shù)據(jù)。人工神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)訓(xùn)練樣本,主要用于疾病預(yù)測、診斷和分類及危險因素分析等;可完成分類、聚類、特征挖掘等任務(wù);挖掘因變量、自變量、輸出結(jié)果間關(guān)系。最好給出權(quán)重系數(shù)的可信區(qū)間、訓(xùn)練樣本的標(biāo)準(zhǔn)及最優(yōu)隱含層數(shù)。決策樹主要用于疾病診斷、分類、預(yù)測、致病規(guī)律研究等,可以通過挖掘臨床數(shù)據(jù)對是否會患病、患病概率、疾病類型等做出分析和判定;可挖掘內(nèi)部節(jié)點和葉子節(jié)點的屬性和類間關(guān)系;處理離散型數(shù)據(jù)及連續(xù)型數(shù)據(jù);對異常值、缺失值有良好處理效果。考慮局部最優(yōu),于全局最優(yōu)上有所欠缺。聚類分析用于基因表達(dá)分析,可確定有相似表達(dá)模式的基因,提示未知基因功能;用于疾病分類、診斷;方劑配伍及用藥規(guī)律;藥物與癥狀間關(guān)聯(lián);分析臨床癥狀、證型、證候間關(guān)聯(lián)及常見情況;分析致病危險因素及影響程度;可發(fā)現(xiàn)異常臨床數(shù)據(jù),輔助診斷。聚類分析主要用于分類,可根據(jù)數(shù)據(jù)特征將樣本分類,根據(jù)數(shù)據(jù)屬性間相似度挖掘數(shù)據(jù)集類的情況及數(shù)據(jù)間關(guān)聯(lián)。對“臟數(shù)據(jù)”敏感,所以研究數(shù)據(jù)集最好沒有過多“臟數(shù)據(jù)”。
4.2 協(xié)同應(yīng)用
在數(shù)據(jù)挖掘過程中,4種方法各有其側(cè)重,它們的功能在特定時有關(guān)聯(lián),所以在一定程度上可以協(xié)同應(yīng)用。關(guān)聯(lián)規(guī)則和聚類分析都可用于用藥規(guī)律和方劑配伍研究,人工神經(jīng)網(wǎng)絡(luò)和決策樹都可以用于疾病預(yù)測、診斷、分類研究,所以可在進(jìn)行數(shù)據(jù)挖掘分析時采用多種方法,以提高準(zhǔn)確度和可信度。聚類分析可用于分類,在聚類的基礎(chǔ)上對數(shù)據(jù)屬性進(jìn)行分析,關(guān)聯(lián)規(guī)則支持挖掘多個屬性間關(guān)聯(lián)并且不用考慮變量間復(fù)雜關(guān)系,對挖掘?qū)ο笠蟮停垲惙治隹捎糜谌悍诸?,然后?yīng)用關(guān)聯(lián)規(guī)則對分類結(jié)果進(jìn)行關(guān)聯(lián)挖掘。將數(shù)據(jù)先用聚類分析處理,使其更規(guī)范化,而后進(jìn)行關(guān)聯(lián)分析,關(guān)聯(lián)分析在運行上時間開銷比較大,而在聚類操作后減輕了這種壓力,兩種方法可以互相彌補不足之處。決策樹可用于疾病分類,而后可用關(guān)聯(lián)規(guī)則從決策樹中提取規(guī)則。研究發(fā)現(xiàn)決策樹和人工神經(jīng)網(wǎng)絡(luò)結(jié)合使用可以產(chǎn)生較好的預(yù)測模型[4]。決策樹模型效率高,可處理較大數(shù)據(jù)集,具有較高分類精度,決策樹先對數(shù)據(jù)做出處理,刪除不必要的數(shù)據(jù),將有必要且符合要求的數(shù)據(jù)合并,再使用關(guān)聯(lián)規(guī)則分析。
4種數(shù)據(jù)挖掘方法,能一定程度上滿足醫(yī)學(xué)研究及臨床醫(yī)療的需要,在醫(yī)學(xué)領(lǐng)域有較大發(fā)展空間及前景,但同時自身存在缺點及局限性,應(yīng)重視克服其缺陷,以便能在醫(yī)學(xué)領(lǐng)域乃至大數(shù)據(jù)環(huán)境得到更好的發(fā)展。數(shù)據(jù)挖掘方法各自分析側(cè)重點不同,方法的選取對研究結(jié)果是否有效、是否可信影響巨大。已有的對數(shù)據(jù)挖掘方法的應(yīng)用可為以后的使用者、研究者提供參考。數(shù)據(jù)挖掘方法在醫(yī)學(xué)領(lǐng)域應(yīng)用于不同研究方向,可根據(jù)研究目的和需要對方法進(jìn)行選擇,并且數(shù)據(jù)挖掘方法可以協(xié)同應(yīng)用,有助于提高分析研究的準(zhǔn)確性。
1 肖輝,周征奇,肖革新,等.公共衛(wèi)生領(lǐng)域中的數(shù)據(jù)挖掘[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(12):2-5.
2 高漢松,肖凌,許德瑋,等.基于云計算的醫(yī)療大數(shù)據(jù)挖掘平臺[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(5):7-12.
3 石曉敬.?dāng)?shù)據(jù)挖掘及其在醫(yī)學(xué)信息中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(5):2-6.
4 沈培.基于數(shù)據(jù)挖掘的甲肝醫(yī)療費用影響因素與控制策略研究[D].武漢:華中科技大學(xué),2012.
5 王華,胡學(xué)鋼.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在臨床上的應(yīng)用[J].安徽大學(xué)學(xué)報:自然科學(xué)版,2006,30(2):21-25.
6 余輝,張力新,劉文耀,等.醫(yī)學(xué)數(shù)據(jù)挖掘系統(tǒng)研究——糖尿病并發(fā)癥流行病學(xué)知識發(fā)現(xiàn)[J].計算機工程與應(yīng)用,2006,(18):229-232.
7 吳嘉瑞,張曉朦,張冰,等.基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類的顏正華教授治療腹痛用藥規(guī)律[J].中華中醫(yī)藥雜志,2013,28(10):2884-2887.
8 歐鳳霞,王宗殿.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在中醫(yī)診斷中的應(yīng)用[J].河南工程學(xué)院學(xué)報:自然科學(xué)版,2011,23(2):53-58.
9 胡雙.關(guān)聯(lián)規(guī)則挖掘研究及其在藥物相互作用中的應(yīng)用[D].昆明:昆明理工大學(xué),2013.
10 鄭銀麗,相秉仁,趙國明.關(guān)聯(lián)規(guī)則技術(shù)在醫(yī)藥零售業(yè)藥品營銷組合中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2011,32(4):55-58.
11 錢玲.人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于糖尿病并發(fā)癥的影響因素研究[J].現(xiàn)代預(yù)防醫(yī)學(xué),2005,32(12):1625-1628.
12 吳擁軍,吳逸明.人工神經(jīng)網(wǎng)絡(luò)技術(shù)在肺癌診斷中的應(yīng)用研究[J].中華微生物學(xué)和免疫學(xué)雜志,2003,23(8):646-649.
13 溫變珍.BP神經(jīng)網(wǎng)絡(luò)在大腸癌預(yù)后分析中的應(yīng)用[D].太原:山西醫(yī)科大學(xué),2010.
14 Rena L,Wang WP,Gao YZ, et al.Typing SNP based on the Near-infrared Spectroscopy and Artificial Neural Network[J].Spectrochim Acta a Mol Biomol Sepectrosc,2009,73(1):106-111.
15 楊開明.糖尿病中醫(yī)臨床數(shù)據(jù)挖掘技術(shù)研究[D].昆明:昆明理工大學(xué),2013.
16 蘇亞丁.基于決策樹的數(shù)據(jù)挖掘技術(shù)在口腔診療中的應(yīng)用[D].石家莊:河北科技大學(xué),2010.
17 陳偉,沈亞誠,蔡永銘,等.基于Web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計及其在絕經(jīng)綜合征中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(7):33-36,44.
18 王劍.乙型病毒性肝炎及相關(guān)疾病蛋白質(zhì)組學(xué)及臨床診斷的研究[D].石家莊:河北醫(yī)科大學(xué),2009.
19 吳民.移動醫(yī)療的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(11):2-5.
20 吳磊,李舒.基于雙向聚類方法的中醫(yī)治療中風(fēng)病方劑配伍規(guī)律知識發(fā)現(xiàn)[J].中國中醫(yī)藥信息雜志,2013,20(11):16-18.
21 Bittner M, Meltzer P, Chen Y, et al. Molecular Classification of Cutaneous Malignant Melanoma by Gene Expression Profiling[J].Nature, 2000, 406(6795):536-540.
22 景麗?。诰垲惡完P(guān)聯(lián)規(guī)則的名醫(yī)臨證思維及方藥應(yīng)用規(guī)律挖掘方法[D].廣州:暨南大學(xué),2011.
23 李賽.慢性腎衰竭中醫(yī)證治規(guī)律研究[D].北京:中國中醫(yī)科學(xué)院,2010.
24 李健,盧朋,唐仕歡,等.基于中醫(yī)傳承輔助系統(tǒng)的治療肺癰方劑組合方規(guī)律分析[J].中國實驗方劑學(xué)雜志,2012,18(2):254-257.
25 林蘭,倪青,龐健麗,等.基于數(shù)據(jù)挖掘技術(shù)的2型糖尿病辯證規(guī)范前瞻性研究[J].中國中醫(yī)藥信息雜志,2011,18(7):9-11.
26 魏林節(jié),馮國君,董紅讓,等.聚類分析在高原地區(qū)高血壓腦出血危險因素分類中的應(yīng)用[J].中國實用神經(jīng)疾病雜志,2013,16(13):43-44.
27 蔣小群,匡金石,李艾紅.聚類分析在糖尿病中的應(yīng)用[J].中國現(xiàn)代醫(yī)藥雜志,2008,10(2):100-101.
Application of Data Mining Methods in Medical Field as Well as SWOT Analysis
MUDong-mei,FENGChao,WANGPing,
InstituteofPublicHealth,JilinUniversity,Changchun130021,China
The paper elaborates the application status of four data mining methods in the medical field, including the association rules, artificial neural networks, decision trees and clustering analysis. It utilizes SWOT method to analyze the data mining methods from the perspectives of strengths, weaknesses, opportunities, threats and makes strategic analysis. The application scope and the synergy of the four data mining methods are pointed out, suggestions on the selection of data mining methods are put forward.
Data mining;Association rules; Artificial neural networks;Decision tree; Clustering analysis; SWOT analysis
2014-09-18
牟冬梅,教授,發(fā)表論文60余篇。
吉林大學(xué)基本科研業(yè)務(wù)種子基金項目“面向知識服務(wù)的領(lǐng)域多維知識庫構(gòu)建研究”(項目編號:2014ZZ026)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.01.012