摘要:數(shù)據(jù)挖掘(Data Mining,DM)是一門應(yīng)用性很強(qiáng)的技術(shù)。該文闡述了數(shù)據(jù)挖掘技術(shù)的概念、方法和過程,介紹了數(shù)據(jù)挖掘在當(dāng)前醫(yī)學(xué)領(lǐng)域的應(yīng)用情況。
關(guān)鍵詞:數(shù)據(jù)挖掘;醫(yī)學(xué);應(yīng)用
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)36-10410-02
Data Mining Technology and Application in Medicine
JIAO Rui, LI Xiang-sheng
(Department of Computer Education, Shanxi Medical University, Taiyuan 030012, China)
Abstract: Data Mining( Data Mining , DM ) is a highly technical applications. This paper describes the concept of data mining techniques, methods and processes introduced in the current data mining application of the field of medicine.
Key words: data mining; medical; application
計(jì)算機(jī)信息管理系統(tǒng)以及數(shù)據(jù)庫(kù)技術(shù)在醫(yī)療機(jī)構(gòu)的廣泛應(yīng)用,促進(jìn)了醫(yī)學(xué)信息的數(shù)字化,使得醫(yī)院數(shù)據(jù)庫(kù)的信息容量急劇增加。這些數(shù)據(jù)蘊(yùn)含了大量關(guān)于病人的病史、診斷、檢驗(yàn)和治療的臨床信息、藥品管理信息、醫(yī)院管理信息等。如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識(shí),更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學(xué)服務(wù),已越來(lái)越為人們所關(guān)注,正是在這種背景下,醫(yī)學(xué)數(shù)據(jù)挖掘應(yīng)運(yùn)而生[1]。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘DM是知識(shí)發(fā)現(xiàn)KDD的核心部分,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中、人們事先并不知道但又是潛在有用的信息和知識(shí)的過程,誕生于二十世紀(jì)90年代,它的發(fā)展速度很快,匯聚了數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等多個(gè)學(xué)科,是多技術(shù)的綜合。
任務(wù):數(shù)據(jù)挖掘的任務(wù)常見有以下幾種。
1)數(shù)據(jù)總結(jié):其目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。它主要關(guān)心從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。
2)關(guān)聯(lián)分析:其目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)系網(wǎng),常用的技術(shù)有回歸分析、關(guān)聯(lián)規(guī)則、信念網(wǎng)絡(luò)等。
3)聚類分析:聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。它是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的數(shù)據(jù)類別。
4)分類與回歸:它是數(shù)據(jù)挖掘中非常重要的任務(wù),應(yīng)用最為廣泛。分類和回歸都可用于預(yù)測(cè),其目的是從已知的歷史數(shù)據(jù)記錄中自動(dòng)推導(dǎo)出對(duì)給定的數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
5)偏差檢測(cè):數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差分析包括分類中的反常實(shí)例、例外模式、觀測(cè)結(jié)果對(duì)期望值的偏離以及量值隨時(shí)間的變化等。
技術(shù):數(shù)據(jù)挖掘技術(shù)涉及到統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和模式識(shí)別等領(lǐng)域的知識(shí),根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘技術(shù)可以分為概念描述、聚類分析、關(guān)聯(lián)規(guī)則分析、分類分析、回歸分析、序列模式分析等。選擇用某種數(shù)據(jù)挖掘技術(shù)前,首先要將待解決的問題轉(zhuǎn)化成數(shù)據(jù)挖掘任務(wù),然后根據(jù)任務(wù)來(lái)選擇具體使用哪一種或幾種數(shù)據(jù)挖掘技術(shù)[2]。
過程:數(shù)據(jù)挖掘的過程一般由三個(gè)主要的階段構(gòu)成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋,對(duì)知識(shí)的發(fā)現(xiàn)可以描述為這三個(gè)階段的反復(fù)過程。
1)數(shù)據(jù)準(zhǔn)備:這個(gè)階段又可進(jìn)一步分成三個(gè)子步驟:數(shù)據(jù)集成,數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件和多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行組合,解決語(yǔ)義模糊性,處理數(shù)據(jù)中的遺漏和清洗無(wú)效數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。預(yù)處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。
2)數(shù)據(jù)挖掘:這個(gè)階段進(jìn)行實(shí)際性分析工作,包括的要點(diǎn)是:先決定如何產(chǎn)生假設(shè),再選擇合適的工具進(jìn)行發(fā)掘知識(shí)的操作,最后進(jìn)行證實(shí)。
3)結(jié)果表述和解釋:根據(jù)用戶的需求對(duì)提取的信息進(jìn)行分析,挑選出有效信息,并且通過決策支持工具進(jìn)行移交。因此,這一步驟的任務(wù)不僅是把結(jié)果表述出來(lái),還要對(duì)信息進(jìn)行過濾處理,如果不能令用戶滿意,需要重復(fù)以上數(shù)據(jù)挖掘的過程。
2 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)中應(yīng)用的可行性和必要性
由于醫(yī)療工作自身的特點(diǎn),如病情觀察的不可間斷、各種醫(yī)療檢查結(jié)果的紛繁復(fù)雜以及大量的醫(yī)學(xué)文獻(xiàn)專著等,要想使數(shù)據(jù)真正成為有用的資源,只有充分利用它為醫(yī)療工作的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。面對(duì)“被數(shù)據(jù)淹沒,卻饑餓于信息”的挑戰(zhàn),需要引進(jìn)一門新的技術(shù)——數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),以解決好海量醫(yī)學(xué)信息的存儲(chǔ)開發(fā)與利用。因此,在醫(yī)學(xué)中應(yīng)用數(shù)據(jù)挖掘技術(shù)不但是可行的而且是必要的。
運(yùn)用數(shù)據(jù)挖掘技術(shù),支持醫(yī)院各種層次的科學(xué)決策服務(wù),現(xiàn)在已具備了充分的條件。一方面,我國(guó)的醫(yī)院信息系統(tǒng)經(jīng)過多年的自動(dòng)化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲(chǔ)備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。另一方面數(shù)據(jù)挖掘在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對(duì)成熟的技術(shù)體系,特別是在數(shù)據(jù)挖掘設(shè)計(jì)、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。
3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)的應(yīng)用
近年來(lái),數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,主要表現(xiàn)在以下幾方面。
3.1 在醫(yī)院信息系統(tǒng)中的應(yīng)用
目前,我國(guó)大中型醫(yī)院均建立了醫(yī)院信息系統(tǒng)(Hospital Information System,HIS),運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù),對(duì)醫(yī)院醫(yī)療活動(dòng)過程中產(chǎn)生的海量數(shù)據(jù)進(jìn)行深度加工可從中得到長(zhǎng)期的、系統(tǒng)的、綜合的數(shù)據(jù);同時(shí)還可以通過決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、聚類等技術(shù),對(duì)數(shù)據(jù)進(jìn)行深層次的挖掘和有效利用,得到豐富的輔助決策信息。這兩種技術(shù)的綜合應(yīng)用,能為醫(yī)院的科學(xué)管理提供支持和依據(jù),可以幫助醫(yī)院管理者預(yù)測(cè)醫(yī)院發(fā)展的趨勢(shì),滿足更大范圍、更深層次的管理分析需求,從宏觀上把握醫(yī)院的發(fā)展方向。
3.2 在疾病輔助診斷中的應(yīng)用
醫(yī)學(xué)診斷問題是基于知識(shí)的序貫診斷問題,醫(yī)生通過一定途徑獲取知識(shí),形成推理網(wǎng)絡(luò),而病例數(shù)據(jù)儲(chǔ)存在數(shù)據(jù)庫(kù)中,因此如何從病例數(shù)據(jù)庫(kù)提取診斷規(guī)則成了研究的主題。采用數(shù)據(jù)挖掘可以通過對(duì)患者資料數(shù)據(jù)庫(kù)中大量歷史數(shù)據(jù)的處理,挖掘出有價(jià)值的診斷規(guī)則,這樣根據(jù)患者的年齡、性別、生理生化指標(biāo)等就可以做出診斷結(jié)論,從而排除了人為因素的干擾。此外由于處理的數(shù)據(jù)量很大,因此所得到的診斷規(guī)則有著較好的應(yīng)用普遍性。例如利用關(guān)聯(lián)規(guī)則找出頭部創(chuàng)傷患者作CT檢查的適應(yīng)證以及將數(shù)據(jù)挖掘用于肝癌遺傳綜合征的自動(dòng)檢測(cè)等等都顯示出數(shù)據(jù)挖掘技術(shù)在疾病輔助診斷的廣闊的應(yīng)用前景。
3.3 在醫(yī)學(xué)影像中的應(yīng)用
當(dāng)前醫(yī)學(xué)多媒體數(shù)據(jù)主要來(lái)自醫(yī)院中的一些成像儀器如:X光機(jī)、B超、CT、電子顯微鏡等,DICOM的出現(xiàn),促進(jìn)了醫(yī)學(xué)影像存檔與通信系統(tǒng)PACS的發(fā)展和使用,使得醫(yī)院有可能將來(lái)自不同設(shè)備的醫(yī)學(xué)影像進(jìn)行集中、統(tǒng)一的管理和使用。數(shù)據(jù)挖掘是集數(shù)據(jù)處理技術(shù)最新成果的系統(tǒng)性理論,尤其適用于醫(yī)學(xué)影像數(shù)據(jù)分析這類多維數(shù)據(jù)。
醫(yī)學(xué)影像數(shù)據(jù)挖掘的關(guān)鍵技術(shù)有數(shù)據(jù)預(yù)處理、信息融合技術(shù)等。數(shù)據(jù)挖掘在醫(yī)學(xué)影像中應(yīng)用主要在以下三點(diǎn):1)提高目標(biāo)影像質(zhì)量和邊緣提取:利用數(shù)據(jù)挖掘理論中各種數(shù)據(jù)的預(yù)處理技術(shù)去除或降低圖像噪聲的影響,提高目標(biāo)影像質(zhì)量或?qū)δ繕?biāo)進(jìn)行邊緣提取。Hsu JH等人曾利用數(shù)據(jù)挖掘技術(shù)對(duì)乳腺超聲影像的邊緣檢測(cè)算法進(jìn)行研究并探討了算法的有效性評(píng)估問題[3]。2)組織定征和概念描述:通過對(duì)目標(biāo)器官或組織進(jìn)行概念描述并概括這類對(duì)象的有關(guān)特征,從而獲得或驗(yàn)證有關(guān)參數(shù)的動(dòng)態(tài)范圍。3)醫(yī)學(xué)影像管理與檢索: 目前,醫(yī)學(xué)影像存檔與通信系統(tǒng)( PACS) 已經(jīng)發(fā)展成熟,基本解決了醫(yī)學(xué)影像數(shù)據(jù)的存儲(chǔ)管理問題, 但影像的檢索始終是研究熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供了兩種解決方案:一是由病例描述檢索醫(yī)學(xué)影像信息;二是由影像信息查詢病例可能診斷[4]。
3.4 在生物信息學(xué)中的應(yīng)用
近年來(lái)生物醫(yī)學(xué)工程研究有了迅猛發(fā)展,國(guó)內(nèi)外學(xué)者采用數(shù)據(jù)挖掘技術(shù)在DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動(dòng)分析、糖尿病及心血管系統(tǒng)疾病患者多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析等方面都進(jìn)行了研究。
DNA在遺傳學(xué)研究中的重要作用已經(jīng)眾所周知,數(shù)據(jù)挖掘理論中有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘技術(shù)被認(rèn)為是DNA分析中的強(qiáng)有力工具。Jiawei Han和Micheline Ka-mher從異構(gòu)和分布式基因數(shù)據(jù)的語(yǔ)義集成、DNA序列間相似的搜索和比較、同時(shí)發(fā)現(xiàn)的基因序列的識(shí)別、發(fā)現(xiàn)在疾病不同階段的致病基因等方面闡述了數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析領(lǐng)域中的應(yīng)用[5]。
4 結(jié)束語(yǔ)
醫(yī)學(xué)數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)學(xué)等與現(xiàn)代醫(yī)學(xué)信息相結(jié)合的產(chǎn)物,是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科,需要從事計(jì)算機(jī)、醫(yī)學(xué)工程及醫(yī)務(wù)工作者進(jìn)行通力合作,力爭(zhēng)在多屬性醫(yī)學(xué)信息的融合、挖掘算法的高效性和準(zhǔn)確性等關(guān)鍵技術(shù)方面有所突破。
參考文獻(xiàn):
[1] 曲哲,林國(guó)慶,余奎.數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)影像中的應(yīng)用[J].醫(yī)療設(shè)備信息,2004,19(6):33-34.
[2] Hsu J H,Tseng SC,et al.A methodology for evaluation of boundary detection algorithmson breast ultrasound images[J].Journal of Medical Engineering Technology,2002(25):173-177.
[3] Jiawei Han Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,等,譯.北京:電子工業(yè)出版社,2001:3-5.
[4] 丁祥武,楊瑩.數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)用[J].鄖陽(yáng)醫(yī)學(xué)院學(xué)報(bào),1999(3):130-132.
[5] 李逸波,于吉紅,白曉明.合理選擇數(shù)據(jù)挖掘工具[J].計(jì)算機(jī)與信息技術(shù),2006(1).