【摘要】數(shù)據(jù)挖掘技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,有助于從海量信息中提取有價(jià)值信息,為疾病的診治及臨床研究提供科學(xué)依據(jù)。本文主要介紹數(shù)據(jù)挖掘概念,數(shù)據(jù)挖掘主要方法,數(shù)據(jù)挖掘過程及其在臨床各方面的應(yīng)用,為進(jìn)一步深入研究打下理論基礎(chǔ)。
【關(guān)鍵詞】數(shù)據(jù)挖掘;挖掘方法;臨床應(yīng)用
1.引言
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展,在醫(yī)療機(jī)構(gòu)中有大量的醫(yī)療數(shù)據(jù)被記錄下來。這些數(shù)據(jù)對(duì)于疾病的診斷,治療及流行病學(xué)研究都有重要價(jià)值。然而,如果缺乏正確有效的工具,信息的利用將面臨很多問題:如信息量巨大,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致,難以統(tǒng)一處理等等[1]。數(shù)據(jù)挖掘技術(shù)的發(fā)展在一定程度上解決了這些問題,利用數(shù)據(jù)挖掘技術(shù)可以從海量的醫(yī)學(xué)資源中找到有價(jià)值的信息為疾病的診治提供決策支持。
所謂數(shù)據(jù)挖掘技術(shù),是指從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中,提取隱含的、未知的、非平凡的及有潛在的應(yīng)用價(jià)值的信息或模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的判斷和決策[2]。醫(yī)學(xué)數(shù)據(jù)挖掘處理的數(shù)據(jù)量非常巨大,而醫(yī)學(xué)數(shù)據(jù)的不完整及隱私性等特性,對(duì)合理的挖掘方法提出新的挑戰(zhàn)。下面介紹幾種在醫(yī)學(xué)上常用的數(shù)據(jù)挖掘方法。
2.醫(yī)學(xué)數(shù)據(jù)挖掘方法
2.1 預(yù)測(cè)建模。通過對(duì)病例的數(shù)據(jù)挖掘,對(duì)人體病例的體征數(shù)據(jù)進(jìn)行分析對(duì)比,從而學(xué)習(xí)到新的預(yù)測(cè)病例的方法,可以提前預(yù)測(cè)疾病的發(fā)生,及時(shí)挽救患者的生命[3]。預(yù)測(cè)建模有兩種模式:分類和回歸。分類用于預(yù)測(cè)離散的目標(biāo)變量,而回歸用于預(yù)測(cè)連續(xù)的目標(biāo)變量。Melgani和Bazi[4]以美國(guó)麻省理工學(xué)院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù),采用不同分類模型,對(duì)心電圖的5種異性波形進(jìn)行分類,為預(yù)測(cè)心臟病的發(fā)生提供了科學(xué)依據(jù)。
2.2 關(guān)聯(lián)分析。關(guān)聯(lián)是反映一個(gè)事件和其他事件之間的依賴或聯(lián)系。關(guān)聯(lián)分析主要用于DNA序列間相似搜索與比較、識(shí)別同時(shí)出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等[5]。其處理包括兩個(gè)步驟:第一步是利用標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則挖掘算法挖掘有關(guān)的關(guān)聯(lián)規(guī)則,第二步是基于所挖掘出的關(guān)聯(lián)規(guī)則構(gòu)造出一個(gè)分類器。關(guān)聯(lián)規(guī)則有如下優(yōu)點(diǎn):可以產(chǎn)生清晰有用的結(jié)果;支持間接數(shù)據(jù)挖掘;可以處理變長(zhǎng)數(shù)據(jù);計(jì)算的消耗量可以預(yù)見[6]。
2.3 聚類分析。聚類分析是對(duì)輸入集中的記錄進(jìn)行分類。聚類分析是一種探索性統(tǒng)計(jì)分析方法,是在沒有經(jīng)驗(yàn)的情況下對(duì)數(shù)據(jù)進(jìn)行分類。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué),例如決策樹歸納,貝葉斯分類,神經(jīng)網(wǎng)絡(luò)技術(shù),基于知識(shí)的案例推理,遺傳算法,粗糙集等[7]。
3.醫(yī)學(xué)數(shù)據(jù)挖掘的基本過程
3.1 問題定義:確定醫(yī)學(xué)研究的問題和目標(biāo),理解相應(yīng)的醫(yī)學(xué)領(lǐng)域知識(shí),確定醫(yī)學(xué)數(shù)據(jù)挖掘目標(biāo)和結(jié)論評(píng)估標(biāo)準(zhǔn)。
3.2 數(shù)據(jù)準(zhǔn)備:針對(duì)定義的問題,將原始數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)挖掘的特殊形式。
3.3 醫(yī)學(xué)數(shù)據(jù)挖掘:?jiǎn)栴}進(jìn)一步被明確化,對(duì)數(shù)據(jù)結(jié)構(gòu)和內(nèi)容做進(jìn)一步調(diào)整,建立知識(shí)模型。
3.4 結(jié)果分析:對(duì)醫(yī)學(xué)數(shù)據(jù)挖掘結(jié)論作出解釋,并與最初研究目標(biāo)比較,找出可能出錯(cuò)的環(huán)節(jié),尋求解決辦法。
3.5 知識(shí)運(yùn)用:在運(yùn)用的過程中,要有計(jì)劃的實(shí)施和控制,以便為今后工作提供參考。
4.醫(yī)學(xué)數(shù)據(jù)挖掘技術(shù)在臨床中的應(yīng)用
4.1 疾病診斷、預(yù)測(cè)。通過數(shù)據(jù)挖掘?qū)Σ∪说牟±爸委燁A(yù)后進(jìn)行分類,挖掘出有價(jià)值的診斷規(guī)則,為臨床決策服務(wù)。還可以將專家的經(jīng)驗(yàn)轉(zhuǎn)化為關(guān)聯(lián)規(guī)則,根據(jù)患者癥狀,作出判斷,減少醫(yī)生主觀判斷失誤[8]。除對(duì)疾病分類之外,還可以對(duì)疾病程度分級(jí),篩選危險(xiǎn)因素,決定開藥處方大小以及選擇治療方法等。目前數(shù)據(jù)挖掘技術(shù)已成功應(yīng)用于胸痛發(fā)展結(jié)果的預(yù)測(cè)診斷、ICU應(yīng)急診斷、類風(fēng)濕類型的鑒別診斷、乳腺疾病的診斷、胎兒早產(chǎn)的診斷、肝病分類診斷、急性闌尾鹽分類等診斷。
4.2 醫(yī)院管理。醫(yī)院信息分為管理信息和臨床信息。前者主要處理醫(yī)院日常經(jīng)營(yíng)和內(nèi)部管理方面的信息,后者主要處理與醫(yī)療過程相關(guān)的信息。醫(yī)療機(jī)構(gòu)的服務(wù)要求不斷提高,質(zhì)量效率問題日益受到重視。通過醫(yī)學(xué)數(shù)據(jù)挖掘技術(shù)、可以發(fā)現(xiàn)新的規(guī)律、檢驗(yàn)其有效性,提出調(diào)整方案,提高單位的工作效率,增加經(jīng)濟(jì)效益[9]。除對(duì)病人進(jìn)行多方位分析及對(duì)醫(yī)療費(fèi)用提出科學(xué)指導(dǎo)以外,數(shù)據(jù)挖掘也可以將醫(yī)院不同系統(tǒng)的數(shù)據(jù)匯總,真正了解醫(yī)院各部分的運(yùn)營(yíng)狀況,對(duì)資源進(jìn)行合理配置,規(guī)范醫(yī)療行為[10]。
4.3 新藥開發(fā)。在新藥的研發(fā)過程中,關(guān)鍵環(huán)節(jié)是先導(dǎo)化合物的發(fā)掘。數(shù)據(jù)挖掘可以有效的存儲(chǔ)、管理分析大量相關(guān)數(shù)據(jù)。在數(shù)據(jù)挖掘技術(shù)的支持下,可以通過數(shù)據(jù)信息歸納總結(jié),確定藥效信息,縮短了先導(dǎo)化合物發(fā)現(xiàn)周期[11],降低新藥研發(fā)成本,提高藥物療效,降低毒副作用。
4.4 生物醫(yī)學(xué)。近年來,生物醫(yī)學(xué)研究有了迅猛的發(fā)展,從癌癥治療到人類基因的識(shí)別與研究,人類24對(duì)染色體的基因測(cè)序已全部完成,接下來主要任務(wù)是對(duì)DNA序列的研究。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)在很多方面對(duì)DNA的分析作出貢獻(xiàn),數(shù)據(jù)挖掘可以完成異構(gòu)、分布式基因數(shù)據(jù)庫的語義集成,用關(guān)聯(lián)規(guī)則分析同時(shí)出現(xiàn)的基因序列,用途經(jīng)分析發(fā)現(xiàn)在疾病不同階段的致病基因[12]。因此,數(shù)據(jù)挖掘已成為生物醫(yī)學(xué)DNA分析中強(qiáng)有力的工具。
4.5 醫(yī)學(xué)圖像處理。醫(yī)學(xué)領(lǐng)域中越來越多的使用圖像作為疾病診斷的工具,圖像分析是數(shù)據(jù)挖掘在醫(yī)學(xué)應(yīng)用的一個(gè)重要方面。近年來,在醫(yī)學(xué)影像報(bào)告中存在的不確定性非常普遍,導(dǎo)致錯(cuò)誤診斷,Reiner[13]發(fā)現(xiàn)19.2%的乳腺鉬靶X線攝影報(bào)告存在不確定性,數(shù)據(jù)挖掘技術(shù)應(yīng)用于發(fā)現(xiàn)和改進(jìn)報(bào)告中的不確定性,對(duì)提高診斷很有價(jià)值;此外,數(shù)據(jù)挖掘在影像分析中也起到重要作用。Sayeed[14]等對(duì)679個(gè)卵巢超聲的圖像資料庫進(jìn)行測(cè)試,可以實(shí)現(xiàn)89.60%的平均分類準(zhǔn)確性,為卵巢異常提供決策支持。
5.結(jié)語
我國(guó)醫(yī)學(xué)數(shù)據(jù)極為豐富,但運(yùn)用數(shù)據(jù)挖掘技術(shù)處理海量信息仍處于初級(jí)階段。醫(yī)學(xué)數(shù)據(jù)挖掘是一門涉及面廣,技術(shù)難度大的新興交叉學(xué)科,需要從事計(jì)算機(jī),統(tǒng)計(jì)學(xué)的科研人員與醫(yī)務(wù)工作者廣泛合作。醫(yī)學(xué)的獨(dú)特性為數(shù)據(jù)挖掘提供廣闊的施展空間,而數(shù)據(jù)挖掘也為醫(yī)學(xué)更好的服務(wù)患者開辟的新的途徑,隨著理論研究的深入及不斷的實(shí)踐探索,相信數(shù)據(jù)挖掘技術(shù)會(huì)在醫(yī)學(xué)的方方面面發(fā)揮越來越大的作用。
參考文獻(xiàn)
[1]Krzysztof J Cios,William Moore.Uniqueness of medical data mining[J].Artificial Intelligence in Medicine,2002,26(1-2): 1-24.
[2]Han JW,Kamber M.Data mining:concepts and techniques.3rd Edition.San Francisco:Morgan Kaufmann,2011:1-8.
[3]陳功,范曉薇,蔣萌,等.數(shù)據(jù)挖掘與醫(yī)學(xué)數(shù)據(jù)資源開發(fā)利用[J].北京生物醫(yī)學(xué)工程,2010,29(3):323-328.
[4]Melgani F,Bazi Y.Classification of electrocardiogram signals with support vector machines and particle swarm optimization[J].IEEE Trans Inf Technol Biomed,2008,12(5):667-677.
[5]崔雷.醫(yī)學(xué)數(shù)據(jù)挖掘[M].北京:高等教育出版社,2006.
[6]鐘穎,胡雪蕾,陸建峰.基于關(guān)聯(lián)規(guī)則和決策樹的中醫(yī)胃炎診斷分析[J].中國(guó)中醫(yī)藥信息雜志,2008,15(8):97-99.
[7]程鵬,宋余慶,朱玉全.基于粗糙集和決策樹的醫(yī)學(xué)影像分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(6):243-245.
[8]葉敏,李曉松,殷菲.2004年我國(guó)蕁麻疹發(fā)病情況分析[J].現(xiàn)代預(yù)防醫(yī)學(xué),2008,35(8):1561-1563.
[9]楊玲,姚懷國(guó).數(shù)據(jù)倉(cāng)庫技術(shù)在醫(yī)院病案信息管理中的應(yīng)用[J].現(xiàn)代醫(yī)院,2008,8(6):131-132.
[10]王徐冬,楊希武.數(shù)據(jù)倉(cāng)庫和數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].醫(yī)療衛(wèi)生裝備,2008,29(8):47-49.
[11]Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutionary algorithms[J].IEEE Eng Med Biol Mag,2000,19(4):45.
[12]王歡.淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].科技信息,2009 (21):76-77.
[13]Reiner B.Uncovering and improving upon the inherent deficiencies of radiology reporting through data mining.J Digit Imaging,2010,23(2):109-118.
[14]Sayeed A,Bhattacharyap,Mudur SP,et al.Classfication of ultrasound medical imagine using distance based feature selection and Fuzzy-SVM.Computer Science,2011, 6699:176-183.