摘 要:數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)是信息研究領(lǐng)域的兩個(gè)熱門話題,伴隨著近年來醫(yī)院信息化的全面開展與不斷深入,信息化管理在整個(gè)醫(yī)療體系運(yùn)營中發(fā)揮著愈加重要的作用,本文對(duì)醫(yī)療信息系統(tǒng)領(lǐng)域的數(shù)據(jù)整合以及數(shù)據(jù)挖掘的技術(shù)和應(yīng)用進(jìn)行分析和論述,闡明了未來醫(yī)療信息系統(tǒng)的發(fā)展前景與趨勢(shì)。
關(guān)鍵詞:數(shù)據(jù)整合;數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;醫(yī)療信息系統(tǒng)
中圖分類號(hào):TP311.13
許多非常有價(jià)值的信息資源蘊(yùn)含在醫(yī)療信息系統(tǒng)的醫(yī)學(xué)數(shù)據(jù)中,這些資源對(duì)于實(shí)際病例的醫(yī)療診斷以及醫(yī)學(xué)方面的研究發(fā)展具有重要意義。然而大多數(shù)醫(yī)學(xué)機(jī)構(gòu)以及人員對(duì)這些數(shù)據(jù)的利用只局限于簡(jiǎn)單的數(shù)據(jù)錄入、查詢、修改、刪除等,其并沒有對(duì)收集的數(shù)據(jù)進(jìn)行系統(tǒng)的分析研究從而得出普遍性的規(guī)律,因此很難對(duì)實(shí)際病例的后繼診斷提供有效的科學(xué)性決策輔助;針對(duì)目前的情況,在數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)已經(jīng)日漸成熟[1]的背景下,將其應(yīng)用于醫(yī)學(xué),進(jìn)而對(duì)海量的醫(yī)學(xué)數(shù)據(jù)進(jìn)行分析并總結(jié)各種醫(yī)治方案的療效,可以為醫(yī)院的決策管理、醫(yī)療和科研服務(wù),將極大地幫助醫(yī)生對(duì)于明確診斷、治療病人及促進(jìn)疾病的研究[2]。
1 數(shù)據(jù)整合在醫(yī)療信息系統(tǒng)中的應(yīng)用
數(shù)據(jù)整合指通過共用或者合并兩個(gè)甚至更多的應(yīng)用數(shù)據(jù),創(chuàng)建具有更多功能應(yīng)用的過程。傳統(tǒng)的商業(yè)應(yīng)用主要是面向?qū)ο螅麄円罁?jù)持續(xù)的數(shù)據(jù)結(jié)構(gòu)為商業(yè)實(shí)體及過程建立模型。此時(shí)邏輯方式是通過數(shù)據(jù)共用或合并進(jìn)行整合。
目前流行的數(shù)據(jù)倉庫設(shè)計(jì)模型有以下三類:(1)概念模型。其指的是從客觀世界到主觀認(rèn)識(shí)的映射,服務(wù)于特定的目標(biāo)設(shè)計(jì)系統(tǒng);(2)邏輯模型。其指的是數(shù)據(jù)倉庫的主題的在邏輯上的實(shí)現(xiàn),也就是每個(gè)主題所對(duì)應(yīng)的關(guān)系表的關(guān)系模式。(3)物理模型。邏輯模型的實(shí)現(xiàn)依據(jù)物理模型,如數(shù)據(jù)的索引策略、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的存儲(chǔ)策略與存儲(chǔ)分配優(yōu)化等。下面以醫(yī)療保險(xiǎn)信息系統(tǒng)與中西醫(yī)信息結(jié)合系統(tǒng)為例介紹數(shù)據(jù)整合在醫(yī)療信息系統(tǒng)中的應(yīng)用。
1.1 醫(yī)療保險(xiǎn)信息數(shù)據(jù)整合(Data Integration)。本文所指的數(shù)據(jù)整合技術(shù)主要指數(shù)據(jù)倉庫技術(shù)。醫(yī)療保險(xiǎn)的數(shù)據(jù)倉庫技術(shù)中有三個(gè)重要概念:OLAP、ETL與數(shù)據(jù)倉庫模型。
醫(yī)療保險(xiǎn)信息數(shù)據(jù)整合的設(shè)計(jì)任務(wù)包括數(shù)據(jù)倉庫設(shè)計(jì)、數(shù)據(jù)集市設(shè)計(jì)以及ETL設(shè)計(jì)三部分,下面進(jìn)行詳細(xì)分析:(1)數(shù)據(jù)倉庫設(shè)計(jì),醫(yī)療保險(xiǎn)信息系統(tǒng)的數(shù)據(jù)倉庫設(shè)計(jì)包含:物理模型設(shè)計(jì)與邏輯模型設(shè)計(jì)。物理模型設(shè)計(jì)的主要思路是增強(qiáng)數(shù)據(jù)倉庫的性能與數(shù)據(jù)存儲(chǔ)管理功能。邏輯模型設(shè)計(jì)的主要思路是以參保人為中心,反映參保人與賬戶、參保人與交易、參保人與機(jī)構(gòu)、參保人與參保險(xiǎn)種之間的關(guān)系;(2)數(shù)據(jù)集市設(shè)計(jì),因?yàn)獒t(yī)保信息管理系統(tǒng)中數(shù)據(jù)倉庫的數(shù)據(jù)量非常之大,所以加入在上面直接從事數(shù)據(jù)挖掘或OLAP處理,其效率將出現(xiàn)很大問題,因此就需要建立專門的數(shù)據(jù)挖掘數(shù)據(jù)集市和OLAP數(shù)據(jù)集市從而提高數(shù)據(jù)挖掘和OLAP的處理效率;(3)數(shù)據(jù)倉庫技術(shù)的應(yīng)用,目前在國內(nèi)某市醫(yī)療保險(xiǎn)信息系統(tǒng)中,已經(jīng)存在數(shù)據(jù)庫使用IBM Informix Dynamic Server V9.4 For Unix,使用HP RP8420小型機(jī)作為數(shù)據(jù)庫服務(wù)器,使用HPUXVII操作系統(tǒng)系統(tǒng),使用EMC CX500網(wǎng)絡(luò)存儲(chǔ)系統(tǒng),使用CognosOLAP作為分析工具。
1.2 中西醫(yī)學(xué)數(shù)據(jù)整合。其指的是將中醫(yī)學(xué)與西醫(yī)學(xué)的數(shù)據(jù)整合起來必需的結(jié)構(gòu)體系。在中醫(yī)的傳統(tǒng)理論體系指導(dǎo)F所產(chǎn)生的各類數(shù)據(jù)包含著這些數(shù)據(jù),如中醫(yī)理、法、方、藥,與西醫(yī)病理、生化、放射、免疫、影像等診斷治療數(shù)據(jù)。中西醫(yī)學(xué)數(shù)據(jù)整合框架指的是考慮如何實(shí)現(xiàn)將不同的數(shù)據(jù)類型、學(xué)科數(shù)據(jù)統(tǒng)一到醫(yī)學(xué)數(shù)據(jù)中心。
不同的醫(yī)療機(jī)構(gòu)對(duì)應(yīng)著不同的學(xué)科、不同的數(shù)據(jù)結(jié)構(gòu)。提出這些醫(yī)療機(jī)構(gòu)的數(shù)據(jù)結(jié)構(gòu)并轉(zhuǎn)換成為XSD的形式可獲得與數(shù)據(jù)中心之間的數(shù)據(jù)映射。通過Web將醫(yī)療機(jī)構(gòu)產(chǎn)生的XML文檔提交給醫(yī)學(xué)數(shù)據(jù)中心,這樣也能實(shí)現(xiàn)和其他醫(yī)學(xué)數(shù)據(jù)中心之間的數(shù)據(jù)交換功能。醫(yī)療機(jī)構(gòu)的XSD相對(duì)統(tǒng)一,這樣能夠?qū)崿F(xiàn)醫(yī)學(xué)數(shù)據(jù)的自動(dòng)提交與處理從而實(shí)現(xiàn)數(shù)據(jù)中心數(shù)據(jù)的自動(dòng)化集中功能。
2 數(shù)據(jù)挖掘在醫(yī)療信息系統(tǒng)中的應(yīng)用
數(shù)據(jù)挖掘指的是從大量的、不完全的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中提取隱藏的、新穎但又是潛在存在用途的高級(jí)處理過程。數(shù)據(jù)挖掘是人工智能、數(shù)據(jù)庫、可視化技術(shù)等多個(gè)學(xué)科交叉的領(lǐng)域。
醫(yī)學(xué)數(shù)據(jù)挖掘的基本過程包括:(1)認(rèn)清數(shù)目,確定業(yè)務(wù)對(duì)象清晰地進(jìn)行問題定義是數(shù)據(jù)挖掘的重要一步;(2)數(shù)據(jù)準(zhǔn)備,挖掘應(yīng)用的數(shù)據(jù)并搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息從而建立真正適合于挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵一步;(3)數(shù)據(jù)挖掘,對(duì)準(zhǔn)備好的數(shù)掘進(jìn)行挖掘除了選擇合適的挖掘算法是重要一步;(4)結(jié)果分析,一般會(huì)利用可視化技術(shù),使用的分析方法一般應(yīng)根據(jù)數(shù)據(jù)挖掘操作而定;(5)知識(shí)應(yīng)用,將分析獲得的知識(shí)綜合到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
目前,醫(yī)學(xué)數(shù)據(jù)挖掘主要應(yīng)用領(lǐng)域包括以下幾個(gè)方面:(1)醫(yī)學(xué)信息系統(tǒng)處理。醫(yī)院信息指的是醫(yī)院等醫(yī)療機(jī)構(gòu)的內(nèi)部管理信息,包括設(shè)備、藥械、財(cái)務(wù)以及以患者為中心的信息等。以初級(jí)操作為基礎(chǔ),對(duì)信息的數(shù)據(jù)關(guān)聯(lián)性分析之后,實(shí)現(xiàn)對(duì)未來發(fā)生發(fā)展走向和輔助診斷資料的預(yù)測(cè)分析,其中包括藥品的使用頻率、某種疾病的發(fā)生以及治療規(guī)律等;(2)醫(yī)療活動(dòng)參考診斷。對(duì)歷史數(shù)據(jù)的處理和挖掘之后發(fā)現(xiàn)出針對(duì)特定病例的典型規(guī)律。其一數(shù)據(jù)量很大,范圍很廣,因此這些規(guī)律具有較好的普遍適用性;其二,依據(jù)患者全面的指標(biāo)信息和數(shù)據(jù)的記錄等能夠得到相對(duì)公正的診斷結(jié)果,去除人為因素的干擾之后,可以更加有利于醫(yī)學(xué)治療活動(dòng)有效性的提高;(3)醫(yī)療質(zhì)量信息管理。醫(yī)療機(jī)構(gòu)不斷提高的服務(wù)要求與質(zhì)量效率問題日益被人重視。醫(yī)療質(zhì)量的重要指標(biāo)是可以用不同的數(shù)據(jù)指標(biāo)來衡量的數(shù)據(jù)、標(biāo)準(zhǔn)與計(jì)劃。利用數(shù)據(jù)挖掘技術(shù),能夠找到新的指數(shù)規(guī)律并驗(yàn)證有效性,在此基礎(chǔ)上最大調(diào)整并改善質(zhì)量方案。數(shù)據(jù)挖掘技術(shù)能夠?yàn)榘l(fā)現(xiàn)提高臨床質(zhì)量潛力以及服務(wù)效率證據(jù)方面提供很大的幫助;(4)醫(yī)學(xué)圖像系統(tǒng)應(yīng)用。此領(lǐng)域的主要應(yīng)用為目組織的特性分析,也就是圖像特性的自動(dòng)提取與模式識(shí)別。比如在醫(yī)學(xué)方面,CT,PET,SPECT這些診斷工具的應(yīng)用越來越廣泛,但是借助于數(shù)據(jù)挖掘技術(shù)醫(yī)學(xué)圖像分析的功能將會(huì)更加強(qiáng)大[3];(5)生物(DNA),人類24對(duì)染色體的基因測(cè)序已經(jīng)完成,人類遺傳研究已進(jìn)入一個(gè)新的發(fā)展階段。關(guān)聯(lián)分析能夠幫助找出樣本中在同一時(shí)間出現(xiàn)的基因種類,有助于準(zhǔn)確地發(fā)現(xiàn)基因間的交叉關(guān)系與致病規(guī)律,路徑分析可以找到不同時(shí)段的致病基因的規(guī)律并提高藥物治療的效率。
3 結(jié)束語
醫(yī)療數(shù)據(jù)整合與數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)學(xué)等和現(xiàn)代醫(yī)學(xué)信息資源相結(jié)合的一門交叉學(xué)科,涉及面廣,難度很大。伴隨著數(shù)據(jù)庫、人工智能等數(shù)據(jù)挖掘工具的不斷進(jìn)步,關(guān)聯(lián)規(guī)則等理論研究的不斷發(fā)展以及大型數(shù)據(jù)庫和網(wǎng)絡(luò)技術(shù)的推廣與應(yīng)用,必定還會(huì)有數(shù)據(jù)量更大、格式更多的醫(yī)學(xué)數(shù)據(jù)出現(xiàn)。以上均表明了醫(yī)學(xué)數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)的發(fā)展機(jī)遇和挑戰(zhàn)并存,需要廣大計(jì)算機(jī)、信息技術(shù)人員和醫(yī)務(wù)工作者結(jié)合醫(yī)學(xué)信息自身具有的復(fù)雜性與特殊性,尋找并選定適合醫(yī)學(xué)數(shù)據(jù)類型本身的數(shù)據(jù)整合與數(shù)據(jù)挖掘工具,攻克并掌握好數(shù)據(jù)整合與數(shù)據(jù)挖掘處理中的核心技術(shù),盡可能的使數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)信息獲取中的價(jià)值得到體現(xiàn)。隨著理論研究的深入和更多實(shí)踐摸索的出現(xiàn),數(shù)據(jù)整合與數(shù)據(jù)挖掘技術(shù)將會(huì)在醫(yī)學(xué)科研與教學(xué)、醫(yī)院管理以及疾病診斷與治療等方面發(fā)揮越來越重要的作用。
參考文獻(xiàn):
[1]張勁松.保險(xiǎn)公司數(shù)據(jù)挖掘技術(shù)應(yīng)用探索[J].商場(chǎng)現(xiàn)代化(學(xué)術(shù)版),2004(12):109-111.
[2]周愛華,鄭應(yīng)平,王令群.醫(yī)學(xué)數(shù)據(jù)挖掘綜述[J].中華醫(yī)學(xué)實(shí)踐雜志,2005(02):126-128.
[3]Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutjionary algorithms[J].IEEE Eng Med Biol Mag,2000(04):45.
作者簡(jiǎn)介:范一星(1968-),男,浙江杭州人,工程師,研究方向:計(jì)算機(jī)管理應(yīng)用。
作者單位:浙江大學(xué)校醫(yī)院信息中心,杭州 310027