摘要:本文分析數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀及醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的特點,針對醫(yī)學(xué)數(shù)據(jù)的特點提出對應(yīng)解決方法,并結(jié)合醫(yī)學(xué)數(shù)據(jù)特征定義了數(shù)據(jù)挖掘的過程。始于問題,建立數(shù)據(jù)挖掘的數(shù)據(jù)倉庫,運用相應(yīng)的數(shù)據(jù)挖掘技術(shù)進行信息或知識的挖掘并確保信息或知識的有效性,最終服務(wù)于應(yīng)用。
關(guān)鍵詞:醫(yī)學(xué)數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)倉庫
1 引言
隨著計算機和數(shù)據(jù)庫先進技術(shù)的不斷涌現(xiàn)并應(yīng)用,無論是科研機構(gòu)、企業(yè)組織以及國家公共服務(wù)部門等,都在過去四十多年間最大程度上實現(xiàn)辦公信息化,日常事務(wù)處理變得更加簡潔和便利。醫(yī)療機構(gòu)計算機信息系統(tǒng)的廣泛應(yīng)用,醫(yī)療設(shè)備的數(shù)字化,提供了大量寶貴的醫(yī)學(xué)信息資源,對于疾病診斷、治療及醫(yī)學(xué)研究有非常重要的價值。而事實上,大部分醫(yī)院對數(shù)據(jù)庫中的數(shù)據(jù)處理僅局限于增刪改查,缺乏對數(shù)據(jù)的集成與分析,運用醫(yī)學(xué)決策和知識的自動獲取也不太現(xiàn)實。這里的問題集中于醫(yī)學(xué)數(shù)據(jù)量的巨大,數(shù)據(jù)結(jié)構(gòu)的多樣性,數(shù)據(jù)的不完整性和數(shù)據(jù)庫技術(shù)的更新?lián)Q代等,使醫(yī)學(xué)數(shù)據(jù)的再利用變得更加困難,大量的數(shù)據(jù)不能在第一時間充分利用,這一現(xiàn)象往往被稱為“數(shù)據(jù)豐富,但信息貧乏”。
數(shù)據(jù)挖掘技術(shù)的發(fā)展在一定程度上解決了這些問題,利用數(shù)據(jù)挖掘技術(shù)可以從海量的醫(yī)學(xué)信息資源中找到有價值的知識和規(guī)則為疾病診斷和治療提供科學(xué)的決策支持,更好地為醫(yī)院的決策管理、醫(yī)療、科研和教學(xué)服務(wù)。
2 數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘(Data Mining, DM),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是指從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中,提取隱含的、未知的、非平凡的及有潛在的應(yīng)用價值的信息或模式,它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。
在國外,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)中已經(jīng)有相應(yīng)的應(yīng)用案例,從20世紀90年代起,就開始對醫(yī)學(xué)數(shù)據(jù)進行挖掘研究,隨著計算機技術(shù)的發(fā)展,醫(yī)學(xué)數(shù)據(jù)方面的挖掘發(fā)展的更加完善。目前對醫(yī)學(xué)的數(shù)據(jù)挖掘應(yīng)用主要集中在以下5個方面[4]:
(1)在醫(yī)院管理部門方面的應(yīng)用。以醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)為中心對醫(yī)院財務(wù)、住院病人信息以及藥品庫存等信息進行數(shù)據(jù)挖掘。如醫(yī)院住院人數(shù)的趨勢走向和藥品儲備狀態(tài)等,所獲得的這些結(jié)果可以有效地協(xié)助提高醫(yī)院資源在各單位分配和調(diào)度的效率。
(2)在基礎(chǔ)醫(yī)學(xué)領(lǐng)域方面的應(yīng)用。其中包括DNA序列分類排序、基因組測序數(shù)據(jù)進行分析、腫瘤分類基因的選取以及遺傳數(shù)據(jù)的分析等研究。
(3)在疾病的臨床診斷和治療方面的應(yīng)用。一方面,對大量的病人病歷和治療手段的數(shù)據(jù)挖掘,如進行預(yù)測、分類和歸類等,挖掘出具有價值的診斷規(guī)則,為臨床提供決策支持服務(wù);另一方面,建立專家經(jīng)驗的關(guān)聯(lián)規(guī)則,輸入患者的癥狀信息,給出判斷結(jié)果協(xié)助醫(yī)生進行疾病診斷,在一定程度上預(yù)防醫(yī)生的主觀判斷錯誤。
(4)在疾病預(yù)測趨勢和行為方面的應(yīng)用。對流行病的防治和疾病危險因素進行篩選,對大量的健康體檢資料數(shù)據(jù)進行體檢參數(shù)之間的相似度挖掘分析,對某群體或區(qū)域的健康狀況及疾病的發(fā)病情況和流行趨勢進行統(tǒng)計分析,為疾病預(yù)防控制和衛(wèi)生政策法規(guī)制定等提供科學(xué)依據(jù)。
(5)在藥物研究開發(fā)方面的應(yīng)用。新藥的計算機輔助藥物設(shè)計系統(tǒng)的利用,縮短了先導(dǎo)化合物發(fā)現(xiàn)的周期,降低了新藥的開發(fā)周期及成本,有助于提高藥物療效,降低毒副作用的新藥設(shè)計。
3 醫(yī)學(xué)數(shù)據(jù)的特點及解決方法
目前醫(yī)院里的電子醫(yī)療數(shù)據(jù)主要集中在醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)、電子病歷(Electronic Medical Record,EMR)、臨床信息系統(tǒng)(Clinical Information System,CIS)里面的各個系統(tǒng)以及社區(qū)居民健康檔案。
3.1 醫(yī)學(xué)數(shù)據(jù)的特點
醫(yī)學(xué)數(shù)據(jù)的復(fù)雜性決定了數(shù)據(jù)的特殊性,與其他行業(yè)數(shù)據(jù)相比,醫(yī)學(xué)數(shù)據(jù)具有自身的特征,其中包括如下4點[1,3]:
(1)隱私性:醫(yī)學(xué)數(shù)據(jù)不可避免地涉及病人的一些隱私信息,如病歷號、病人姓名和聯(lián)系方式等。當(dāng)這些隱私信息泄漏并給病人的日常生活帶來侵擾時,就成了隱私性侵犯問題。再者,醫(yī)學(xué)數(shù)據(jù)中關(guān)于人的身體特征資料,還涉及到倫理、法律及社會方面的問題。因此在醫(yī)學(xué)數(shù)據(jù)被用作醫(yī)學(xué)研究前務(wù)必進行隱私保護處理,作為醫(yī)學(xué)數(shù)據(jù)挖掘者也有義務(wù)和職責(zé)在保護居民隱私的基礎(chǔ)上進行科學(xué)研究,并確保所研究醫(yī)學(xué)數(shù)據(jù)的安全性和保密性。
(2)模式多態(tài)性:醫(yī)學(xué)信息包括體征參數(shù)和化驗結(jié)果的純文本數(shù)據(jù)、腦電和肌電的信號數(shù)據(jù)、B超和CT等醫(yī)學(xué)成像設(shè)備的檢測結(jié)果的圖形數(shù)據(jù),病人的身份記錄、特征描述、檢測和診斷結(jié)果的文字數(shù)據(jù),以及一些特殊應(yīng)用的語音和視頻數(shù)據(jù)。不同數(shù)據(jù)庫技術(shù)也是產(chǎn)生醫(yī)學(xué)數(shù)據(jù)模式多態(tài)性重要原因之一。醫(yī)學(xué)數(shù)據(jù)的多模式特性是它區(qū)分其它領(lǐng)域數(shù)據(jù)的最顯著特征之一,多屬性模式并存加大了醫(yī)學(xué)數(shù)據(jù)挖掘的難度。
(3)不完整性:醫(yī)學(xué)數(shù)據(jù)的某些表達和記錄本身就具有不確定性和模糊性的特點,再者,疾病信息所體現(xiàn)出的客觀不完整和描述疾病的主觀不確切,形成了醫(yī)學(xué)信息的不完整性以及由于人為操作錯誤或機械故障原因使數(shù)據(jù)庫中的記錄不完整,記錄屬性值有缺失。
(4)冗余性:醫(yī)學(xué)數(shù)據(jù)庫是一個龐大的數(shù)據(jù)資源,每天都會有大量相同的或部分相同的信息存儲在其中。比如某些疾病的體檢,病人表現(xiàn)出的癥狀、化驗的結(jié)果及采取的治療措施都可能完全類似,不同的就是各個居民個體所持有的特征。
3.2 醫(yī)學(xué)數(shù)據(jù)的解決方法
在數(shù)據(jù)挖掘技術(shù)的發(fā)展過程中,數(shù)據(jù)隱私保護逐漸引起人們的注意。隱私保護主要是由實際應(yīng)用中不同的隱私保護需求決定的,其中通用的隱私保護技術(shù)致力于在較低應(yīng)用層次上保護數(shù)據(jù)的隱私,一般通過引入統(tǒng)計模型和概率模型來實現(xiàn);而面向數(shù)據(jù)挖掘的隱私保護技術(shù)主要解決在高層數(shù)據(jù)應(yīng)用中,根據(jù)不同數(shù)據(jù)挖掘操作的特性,實現(xiàn)對隱私的保護;基于隱私保護的數(shù)據(jù)發(fā)布原則是為了提供一種在各類應(yīng)用可以通用的隱私保護方法,進而使得在此基礎(chǔ)上設(shè)計的隱私保護算法也具通用性。隱私保護技術(shù)主要分為3類:基于數(shù)據(jù)失真的技術(shù)是使敏感數(shù)據(jù)失真但同時保持某些數(shù)據(jù)或數(shù)據(jù)屬性不變的方法;基于數(shù)據(jù)加密的技術(shù)是采用加密技術(shù)在數(shù)據(jù)挖掘過程中隱藏敏感數(shù)據(jù)的方法;基于限制發(fā)布的技術(shù)是根據(jù)具體情況條件地發(fā)布數(shù)據(jù)。隱私保護技術(shù)需要在保護隱私的同時,兼顧對應(yīng)用的價值以及計算資源的開銷上,表1對隱私保護技術(shù)進行了比較分析[5]:
模式的多態(tài)性的主要解決方法是采用分類處理,主要包括:文字符號類、圖像類、信號類和其他類。如文字符號的記錄使用XML語言進行格式化,建立同義詞匯字段庫,在數(shù)據(jù)比較分析時,不但可以進行字形的匹配,而且可以進行字意匹配,增加系統(tǒng)的精確度。
數(shù)據(jù)庫數(shù)據(jù)的不完整的處理主要體現(xiàn),當(dāng)目標(biāo)存在于海量的數(shù)據(jù)并且不完整記錄所占比例極小,可以采取刪除不完整或缺失的記錄后對最終所獲得統(tǒng)計結(jié)果和數(shù)據(jù)內(nèi)部的結(jié)構(gòu)影響甚微,否則,必須進行標(biāo)準(zhǔn)化和填補缺失。填補的最好效果是由相應(yīng)的領(lǐng)域?qū)<腋鶕?jù)經(jīng)驗手動進行填補,但數(shù)據(jù)缺失嚴重的手工填補的工作量巨大,目前主要使用的填補空缺字段方法分為4類[7,8]:①常量法,對于同一個屬性,所有的缺失數(shù)據(jù)用相同的常量進行填補;②均值法,用所有樣本的或同類樣本的均值填補;③標(biāo)準(zhǔn)偏差一致法,在確保所有樣本或同類樣本的標(biāo)準(zhǔn)差不變情況下,填入相應(yīng)數(shù)據(jù);④回歸法,通過與其他屬性間的內(nèi)在聯(lián)系,缺失的屬性作為未知樣本,對已知數(shù)據(jù)用線性或非線性回歸總結(jié)該屬性與其他屬性的相關(guān)性,進而以預(yù)報未知的方式對缺失進行填補。
數(shù)據(jù)挖掘中的源數(shù)據(jù)冗余分為兩種,一種是可刪除,另一種是不可刪除。而前者的處理方法相對容易,在數(shù)據(jù)處理過程中保留相似的記錄中的一條,其余的不予考慮;后者數(shù)據(jù)的冗余對數(shù)據(jù)挖掘結(jié)果有影響或價值,換句話說,冗余的參與運算使最終獲得的結(jié)果具有更加可信度和合理性。如某一地區(qū),某一年齡段的哮喘病患人群,從記錄的屬性值看,其中大部分值都是一樣,或稱為冗余數(shù)據(jù),但其研究價值卻是不能忽略。
4 醫(yī)學(xué)數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘是指一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。數(shù)據(jù)挖掘主要流程如下[2,6,8]:
(1)問題定義:在開始數(shù)據(jù)挖掘之前最先的也是最重要的要求就是熟悉背景知識,弄清用戶的需求。缺少了背景知識,就不能明確定義要解決的問題,就不能為挖掘準(zhǔn)備優(yōu)質(zhì)的數(shù)據(jù),也很難正確的解釋得到的結(jié)果。如果要充分發(fā)揮數(shù)據(jù)挖掘的價值,那么必須對目標(biāo)要有一個清晰明確的定義,即決定到底想干什么;
(2)建立數(shù)據(jù)倉庫:數(shù)據(jù)資源是進行數(shù)據(jù)挖掘的基礎(chǔ),一般建議把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中,而不是采用原有的事務(wù)型數(shù)據(jù)庫或數(shù)據(jù)倉庫,這是因為大部分情況下需要修改要挖掘的數(shù)據(jù),而且通常會遇到采用外部數(shù)據(jù)的情況;另外,數(shù)據(jù)挖掘還要對數(shù)據(jù)進行各種紛繁復(fù)雜的統(tǒng)計分析,必須依靠先進的數(shù)據(jù)倉庫技術(shù)支持,具體結(jié)構(gòu)如圖1所示[3]:
(3)數(shù)據(jù)預(yù)處理:由于醫(yī)學(xué)數(shù)據(jù)具有模式的多樣性、不完整性和冗余性等特點,在進行挖掘之前必須針對各種類型的數(shù)據(jù)采取相應(yīng)的數(shù)據(jù)預(yù)處理方法;
(4)分析數(shù)據(jù):指所進行的對數(shù)據(jù)深入調(diào)查的過程,從數(shù)據(jù)集中找出規(guī)律和趨勢,用聚類分析區(qū)分類別,最終要達到的目的就是理順多因素相互影響的、錯綜復(fù)雜的關(guān)系,發(fā)現(xiàn)因素間的相關(guān)性;
(5)調(diào)整數(shù)據(jù):通過上述步驟的操作,對數(shù)據(jù)的狀態(tài)和趨勢有了進一步的了解,這時要盡可能對問題解決的要求能進一步明確化、量化,并針對問題的需求對數(shù)據(jù)進行增刪,按照對整個數(shù)據(jù)挖掘過程的信任,將決定是組合或生成一個新的變量,以體現(xiàn)對狀態(tài)的有效描述;
(6)數(shù)據(jù)挖掘(也稱模型化):在問題被進一步明確化,以及數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進一步調(diào)整的基礎(chǔ)上,就可以建立形成知識的模型,這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié),一般運用神經(jīng)網(wǎng)絡(luò)、決策樹、數(shù)理統(tǒng)計、時間序列分析等方法來建立模型;
(7)評價和解釋:上面得到的模型,有可能是沒有實際意義或沒有使用價值的,也有可能是其不能準(zhǔn)確反映數(shù)據(jù)的真實意義,甚至在某些情況下是與事實相違背的,因此需要評論,確定哪些是有效的、有用的模式。評估的一種辦法是直接使用原先建立的挖掘數(shù)據(jù)庫中的數(shù)據(jù)來進行檢驗,另一種辦法是另找一批數(shù)據(jù)并對其進行檢驗,再者就是在實際運行的環(huán)境中取出新鮮的數(shù)據(jù)進行檢驗;
(8)應(yīng)用所發(fā)現(xiàn)的模型:在應(yīng)用所得模型的過程中,要有計劃地實施和控制,發(fā)現(xiàn)和解決實施過程的出現(xiàn)的問題,并對應(yīng)用情況進行階段總結(jié),為今后的工作提供參考。
5 結(jié)論
本文介紹了數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)數(shù)據(jù)上的應(yīng)用,側(cè)重于研究醫(yī)學(xué)數(shù)據(jù)的特征并且對相應(yīng)特征提出解決方案。數(shù)據(jù)挖掘是一個多專家合作的過程,也是一個在資金上和技術(shù)上高投入的過程,這一過程要反復(fù)進行,在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)化問題的解決方案。醫(yī)學(xué)數(shù)據(jù)本身的特點決定了其使用數(shù)據(jù)挖掘技術(shù)的艱巨性,但隨著理論研究的深入和進一步的實踐摸索,醫(yī)學(xué)數(shù)據(jù)挖掘在醫(yī)療資源分配、疾病預(yù)測與控制、基礎(chǔ)醫(yī)學(xué)和藥物研究等方面將提供更加可靠的信息。
參考文獻
[1] 王華,江啟成,胡學(xué)剛. 數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)用. 安徽醫(yī)藥. 2008
[2] 焦李成,劉芳等. 智能數(shù)據(jù)挖掘與知識發(fā)現(xiàn). 西安電子科技大學(xué)出版社. 2006
[3] 徐元熙,張杰. 數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用研究. 微計算機信息. 2008
[4] 陳功,范曉薇等. 數(shù)據(jù)挖掘與醫(yī)學(xué)數(shù)據(jù)資源開發(fā)利用. 北京生物醫(yī)學(xué)工程. 2010
[5] 周水庚,李豐,陶宇飛,肖小奎. 面向數(shù)據(jù)庫應(yīng)用的隱私保護研究. 計算機學(xué)報. 2009
[6] 梁循. 數(shù)據(jù)挖掘算法與應(yīng)用. 北京大學(xué)出版社. 2006
[7] 楊杰,姚莉秀. 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用. 上海交通大學(xué)出版社 2011
[8] 范明,范宏建譯. 數(shù)據(jù)挖掘?qū)д? 人民郵電出版社. 2011