史今馳
聊城市人民醫(yī)院 信息科,山東 聊城252000
數據挖掘技術在醫(yī)院信息系統中的應用
史今馳
聊城市人民醫(yī)院 信息科,山東 聊城252000
本文主要介紹了數據挖掘技術在醫(yī)院信息化平臺中的應用,通過對醫(yī)院信息系統中的有關數據進行挖掘,從中篩選出大量的病案數據及費用數據,從而不斷完善醫(yī)院的信息化管理和提高經濟效益。
數據挖掘;數據倉庫;醫(yī)院信息系統
當今,隨著計算機信息技術的迅速發(fā)展,數據庫的規(guī)模也不斷擴大,形成了一個大型的數據庫。但在這個龐大的互聯網信息數據庫中,有大量的數據是我們通常無法辨認出來的。要想在這些隱藏的數據中挖掘有用的信息,數據挖掘是一個必要的過程,尤其在當今的醫(yī)學領域中的應用更為廣泛。
數據挖掘技術其實就是長期在數據庫中進行研究和不斷開發(fā)的結果。最初大量的數據是儲存在計算機的數據庫中的,后來便可以在數據庫中查詢和訪問數據。隨著計算機技術的不斷發(fā)展,數據挖掘開始廣泛應用,它使數據庫進入一個嶄新的階段,并不斷發(fā)現數據庫中各類數據之間的聯系和特點,最后形成了一種更穩(wěn)定、更成熟、更易于理解操作的數據挖掘技術。
所謂數據挖掘就是通過在大量的、模糊的、有噪聲的、不完全的、隨機的數據中不斷提取出很多事先不知道或者潛在隱含的數據信息和知識的過程。它主要有大量的數據、知識和規(guī)則以及挖掘過程3個重要的要素。數據挖掘技術的主要特點主要有以下4個方面:① 處理大量的數據。②利用數據挖掘技術為用戶精確找到有用信息。③通過數據挖掘技術統計規(guī)律并發(fā)現大量規(guī)則。④ 隨著數據庫的不斷更新,數據挖掘發(fā)現的規(guī)則也不斷更新[1]。
數據挖掘技術的主要功能有:① 概念描述:通過對描述某類對象內涵并概括該對象的特征。② 關聯分析:指在一類可被發(fā)現的知識數據中,有兩個或者兩個以上的變量間存在著某種規(guī)律可循。③ 分類與預測:分類是指根據屬性對對象進行分門別類和建立分組等;預測是指利用數據庫中的歷史數據來建立模型,在根據最新的數據輸入對將來數據的預測和分析,從而得出可能性的屬性值和該值的范圍。④ 聚類分析:也可以稱其為無指導學習,它將特征相同的對象分為一類,將數據聚集在一起,從而對聚集的狀況進行解釋分析。⑤ 趨勢分析:是指在相當長的時間內,通過仔細觀察發(fā)現其中的規(guī)律和趨勢。⑥ 孤立點分析:是指在數據庫中會存在一些與一般行為或模型不同的數據。⑦ 偏差分析:主要通過對差異或者極端特例的描述揭示事物間偏離常規(guī)的異?,F象。
20世紀70年代,計算機就開始被應用于醫(yī)療衛(wèi)生行業(yè)。從20世紀80年代開始,HIS也開始逐步發(fā)展起來。隨著互聯網和數據庫的不斷發(fā)展進步,我國的醫(yī)療信息系統也進入了一個嶄新的時期。它通過計算機和網絡現代化手段,對醫(yī)院各個所屬部門的人口流動、財務流動和物流等進行綜合管理,并處理各個階段產生的數據加工生產各種信息,為醫(yī)院提供了全面的和自動化管理的信息服務系統[2]。所以,HIS對醫(yī)院的信息化管理有著重要的作用,而且是現代化醫(yī)院建設的重要的基礎設施和支撐環(huán)境。
2.1 HIS中的數據挖掘算法分析
HIS中的數據挖掘技術主要是完成醫(yī)院的信息化管理、醫(yī)療服務和經濟的運行等任務,從而方便及時了解醫(yī)院的醫(yī)療質量信息、經營狀況和資源儲備等信息,最終更好的為醫(yī)院決策提供依據。
目前,常用的數據挖掘算法有很多種,而且大多數是數學統計方法、人工智能和人工神經網絡等,HIS的數據挖掘算法主要分為以下5種。
2.1.1 決策樹算法
決策樹算法主要用于分類和預測,它主要包括決策節(jié)點、葉子和分支。一個決策樹就表示一系列問題,在建立決策樹模型中,不斷對數據進行切分和剪枝進行分析從而解決問題。它主要適用于非值型的數據。利用決策樹算法,可以在線監(jiān)測醫(yī)務人員配藥的情況,藥房配藥工作者通過在線監(jiān)測結果,可以及時發(fā)現和制止惡意配藥的不良行為。
2.1.2 關聯規(guī)則算法
關聯規(guī)則算法是從數據庫中存儲的大量數據找出有趣的關聯性和相關性。我們利用數據的關聯規(guī)則算法,可以對醫(yī)院的信息化系統進行數據的分析和挖掘,可以自動監(jiān)控藥物的用量、抗藥性、用藥途徑、看病療程和預防用藥等,從而更好地監(jiān)測醫(yī)院藥物的使用情況,同時它還可以發(fā)現不同病歷間的相關性,從而對醫(yī)院病人并發(fā)癥進行挖掘[3]。
2.1.3 聚類分析算法
聚類分析算法先定義一個合適的變量,再計算兩個樣本間的距離,當這兩個樣本間的距離小于某個值時,則這兩個樣本就屬于同一類;當這兩個樣本間的距離大于某個值時,則它們各自單獨成為一類。聚類算法分析可以醫(yī)療費用進行統計分析,從而使醫(yī)院的社會效益和經濟達到最優(yōu)。
2.1.4 人工神經網絡算法
人工神經網絡算法通過對一個訓練數據集進行學習并且應用所學的知識,最終生成分類和預測的模型。它是仿真生物神經網絡,利用鏈接各個節(jié)點,并對每個節(jié)點進行一一預測的。所以人工神經網絡算的優(yōu)點是可以解決上百個參數的問題,使過程變得更簡單。在HIS中,可以利用人工神經網絡算法來完成分類聚類和關聯規(guī)則等的挖掘任務,并發(fā)現某些藥物和疾病發(fā)作的關系。
2.1.5 遺傳算法
主要是通過計算當前基因群體中每個個體的環(huán)境適應度并形成了一個適應度函數,把其中適應度較好的進行交叉配對繁殖。在醫(yī)療領域中,可以診斷和分類某些疾病癥狀,從而使醫(yī)院的工作效率達到最好。
2.2 HIS中的數據挖掘技術的應用
2.2.1 改善醫(yī)院的經濟效益
當前社會,客戶的價值不斷影響著企業(yè)的價值,提高客戶的滿意度對企業(yè)的經濟效益有著至關重要的作用。所以我們通過對病人的潛在價值的考慮,結合病人期望得到最佳的醫(yī)療服務等因素來建立預測模型,從而判斷出未來的就診人數,并采取相關的措施,來促進醫(yī)院服務的發(fā)展和醫(yī)療設備的適當配置[4]。
2.2.2 培養(yǎng)人才
在醫(yī)院里,每年都會通過組織安排去國外進修來提升醫(yī)生的能力。但進修的名額卻是有限的,不是每個醫(yī)生都能有這個機會。未能進行醫(yī)生可以通過查看病案直接了解病人的病歷。在海量的病人案例中,有效地查看信息,就要利用數據挖掘進行篩選有用的信息,避免敏感的信息。只要根據病人的疾病名稱和臨床表現等進行檢索,就可以協助醫(yī)院培養(yǎng)有用人才。
2.2.3 通過對處方的實時監(jiān)控,降低患者的藥品費用支出
醫(yī)院每天都會有大量的藥品輸出,所以數據庫會產生大量的數據信息,通過對病人的診斷和檢查可以指定一個合理的治療方案,有效地監(jiān)控對藥物數據的取舍,從而減少了惡意配藥的行為,降低病人在藥品的費用支出,達到真正的降低患者藥品上的支出[5]。
2.2.4 完善藥品采購計劃
藥品庫存是醫(yī)院每天經營活動的基礎,它可以促進庫存的有效管理和對患者的服務水平。通常的做法是通過藥品的銷售量來判斷訂貨量,但這樣卻忽視了病人的真正需求,因此,我們利用數據挖掘技術來實現藥品庫存的動態(tài)預測,從而有效地減低了庫存的成本和提高了服務水平。
2.2.5 促進醫(yī)療設備的管理
醫(yī)療設備是醫(yī)療機構為廣大患者提供良好的服務的重要因素,醫(yī)院領導通過對醫(yī)療設備進行預測分析來判斷是否購置醫(yī)療設備,我們通過建立數據挖掘模型進行收益預測,從而使醫(yī)院的管理人員可以判斷出是否購置醫(yī)療設備來避免資金的浪費[6]。
2.3 數據挖掘的應用舉例
數據挖掘是在海量數據是利用各種分析工具尋找數據與模型間關系的過程。
實際上,疾病的診斷過程同時也是疾病分類的過程,即依據疾病特征劃歸分為某個疾病或者疾病類的過程。醫(yī)學書一般會把這一復雜問題逐次分解,使之成為一些小問題體系結構,依據患者的不適部位及不適特征,定位到具體的疾病,此過程與現實的分類過程非常相似。以糖尿病判斷為例,可以運用決策樹方法判定患者的糖尿病的類型。首先是創(chuàng)建決策樹,其起點為血糖高,分支條件為是否處于妊娠期。如果答案是肯定的,那就直接指向妊娠糖尿病,這是因為,對于妊娠期的女性患者,高血糖的出現是要歸于妊娠糖尿病一類的;如果答案是否定的,則繼續(xù)判斷患者是屬于Ⅰ型或者Ⅱ型糖尿病。那么判斷依據應該是什么呢?答案是頻數計算法的使用。首先,Ⅰ型或者Ⅱ型糖尿病差別的體現主要表現在3個方面:一是有無自發(fā)性酮癥,二是年齡,三是病情輕重以及起病快慢。對這三個方面進行調查,獲得相應的頻數,然后依據據病人表現癥狀,將累加相應的頻數,得出糖尿病患者患病類型的概率。
調查總結后得出Ⅰ型糖尿病的頻數,見表1。
表1 I型糖尿病頻數表
將頻數轉成相應的百分數,建立如圖1所示的決策樹。
圖1 決策樹示意圖
節(jié)點1:有自發(fā)性酮癥;節(jié)點2:無自發(fā)性酮癥;節(jié)點3:有自發(fā)性酮癥,病情重,起病急;節(jié)點4:有自發(fā)性酮癥,病情輕,起病慢;節(jié)點5:無自發(fā)性酮癥,病情重,起病急;節(jié)點6:無自發(fā)性酮癥,病情輕,起病慢。節(jié)點3.1:年齡<40;結論:患有Ⅰ型糖尿病的幾為20%+35%+40%=95%。節(jié)點3.2:年齡>40;結論:患有Ⅰ型糖尿病的幾率為35%+20%=55%。節(jié)點4.1:年齡<40;結論:患有Ⅰ型糖尿病的幾率為20%+40%=60%;節(jié)點4.2:年齡>40;結論:患有Ⅰ型糖尿病的幾率為40%;節(jié)點5.1:年齡<40:結論:患有Ⅰ型糖尿病的幾率為-40%+20%+35%=15%;節(jié)點5.2:年齡>40;結論:患有1型糖尿病的幾率為-20%+35%-40%=-25%;節(jié)點6.1:年齡<40;結論:患有Ⅰ型糖尿病的幾率為-40%+20%-35%=-55%;節(jié)點6.2:年齡>40;結論:患有Ⅰ型糖尿病的幾率為-35%-20%-40%=-95%。
如果是男性患者、年齡25歲、病情較重、起病較急,有自發(fā)性酮癥,則依據此算法進行決策能夠得出的結論為:患有Ⅰ型糖尿病的百分比是95%。這樣就能夠起到輔助醫(yī)生決策的作用。
挖掘出來的結果最終無論是用來預測、干預還是描述、理解,我們運用的目的都是為了提高決策的支持能力。
隨著計算機信息化的不斷發(fā)展,醫(yī)院開始建立各自的信息系統,數據庫規(guī)模也在不斷擴大,功能也越來越復雜。所以我們運用數據挖掘技術中的決策樹、聚類、人工神經網絡算法和遺傳算法,對醫(yī)院在醫(yī)療活動中產生的大量的數據進行深層的挖掘,從而得到有用的信息,并幫醫(yī)院的科學管理活動中提供了重要的預測數據和支持。數據挖掘技術在醫(yī)院信息管理系統中的應用具有十分廣闊的前景,為醫(yī)院各個領域的管理不斷開辟新的途徑。
[1] 王炯,夏宏斌.淺析數據挖掘技術在醫(yī)院信息化平臺建設中的應用策略[J].學術交流,2000,14(5):67-68.
[2] 刁琰.數據倉庫與數據挖掘技術在醫(yī)院信息管理中的應用[J].華南國防醫(yī)學雜志,2008,27(12):45-46.
[3] 陸斌杰.數據挖掘技術在醫(yī)院管理中的應用[J].中國醫(yī)療器械雜志,2006,32(34):56-57.
[4] 梁瑜,洪嘉銘,鄺國庭.數據挖掘技術在醫(yī)院科研信息服務中的應用探討[J].醫(yī)院信息化,2005,11(7):45-46.
[5] 李懷慶,張文東.數據挖掘技術在醫(yī)院信息系統中的應用[J].醫(yī)療設備信息,2007,22(12):46-47.
[6] 周愛華,鄭應平.醫(yī)學數據挖掘綜述[J].中華醫(yī)學實踐雜志,2005,4(2):126-127.
[7] 趙嵐,吳潔人,凌楓,等.應用數據挖掘技術建立智能化醫(yī)院感染監(jiān)控平臺[J].中華醫(yī)院感染學雜志,2010,20(12):1733-1735.
The Application of Data Mining Technology in the Hospital Information System
SHI Jin-chi
Information Department, Liaocheng People's Hospital, Liaocheng Shandong 252000, China
This paper mainly introduces the data mining technology in the application of hospital information platform. Through the relevant data mining of the hospital information system, we can get a large number of medical records data and cost data, then to constantly perfect the hospital information management and improve the economic benefits.
data mining; data warehousing; hospitals information system
TP311.13
B
10.3969/j.issn.1674-1633.2012.01.029
1674-1633(2012)01-0086-03
2011-08-01
作者郵箱:jiankang20092050@163.com