南淑萍,張 博,李 力
(1.阜陽師范學院計算機與信息學院,安徽阜陽 236037;2.亳州職業(yè)技術學院信息工程系,安徽亳州 236800;3.阜陽市人民醫(yī)院,安徽阜陽 236037)
基于決策樹的數(shù)據(jù)挖掘技術在醫(yī)療設備成本績效分析中的應用研究*
南淑萍1,張 博2,李 力3
(1.阜陽師范學院計算機與信息學院,安徽阜陽 236037;2.亳州職業(yè)技術學院信息工程系,安徽亳州 236800;3.阜陽市人民醫(yī)院,安徽阜陽 236037)
近年來,醫(yī)院信息系統(tǒng)(HIS)在醫(yī)院得到廣泛普及和應用,醫(yī)療設備的使用率和效益都得到了很大提高.但目前在HIS中病人信息管理模塊和醫(yī)療設備管理模塊兩者是相互分離的,不能夠很好的對醫(yī)療設備購置前的可行性論證提供決策支持,對設備投入使用后的效益分析也不太精確.探討了如何利用決策樹算法,對醫(yī)療設備數(shù)據(jù)進行數(shù)據(jù)挖掘,從而實現(xiàn)對醫(yī)療設備從購置前的論證到淘汰報廢全過程的決策分析,提高醫(yī)療設備的社會效益和經(jīng)濟效益.
HIS;決策樹;績效;數(shù)據(jù)挖掘
隨著信息技術的快速發(fā)展,醫(yī)院信息系統(tǒng)(HIS)得到廣泛應用,醫(yī)院的經(jīng)濟效益和社會效益都得到了很大提高.但目前在HIS中,病人信息管理模塊和醫(yī)療設備管理模塊兩者是相互分離的,從而制約了對醫(yī)療設備的高效管理.如何通過分析醫(yī)療設備的信息,找到其中隱含的有價值規(guī)律,為設備的購置和使用提供科學決策,提高整體醫(yī)療衛(wèi)生部門的服務水平,已成為各級衛(wèi)生部門關注的重點.
數(shù)據(jù)挖掘技術目前己成為數(shù)據(jù)庫應用的重要研究方向,受到國內外計算機界的關注,在經(jīng)濟、工業(yè)和消費等多個領域都得到了廣泛的應用.使用數(shù)據(jù)挖掘技術,對醫(yī)療設備的績效應用進行深入研究,對于提高醫(yī)療單位的整體水平,具有重要意義.
數(shù)據(jù)挖掘就是從龐大的數(shù)據(jù)庫中,使用相應的算法,篩選出人們感興趣的知識,這些知識中包含著潛在的有價值的信息,提取的表現(xiàn)形式有概念、規(guī)則、規(guī)律、模式等[1].數(shù)據(jù)挖掘的過程也稱為知識發(fā)現(xiàn)(knowledge discovery in database,KDD)過程.
由于信息技術的發(fā)展,各類數(shù)據(jù)庫的容量不斷膨脹.數(shù)據(jù)量的增大帶來了新的問題,缺乏有效的分析工具,找出數(shù)據(jù)中潛在的有價值的信息,靠傳統(tǒng)的分析數(shù)據(jù)的方法已經(jīng)無法實現(xiàn).利用數(shù)據(jù)挖掘工具進行數(shù)據(jù)分析,可以從大量數(shù)據(jù)中發(fā)現(xiàn)重要的規(guī)則,找出潛在有價值的知識,對工業(yè)決策、科學研究、教育等領域的研究都具有重要意義.
數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘.直接數(shù)據(jù)挖掘的目標是采用現(xiàn)有的數(shù)據(jù)建立一個模型,再用這個模型對其他數(shù)據(jù)進行描述[2].間接數(shù)據(jù)挖掘的目標中沒有選出某一具體的變量,而是在所有的變量中建立起某種關系.
數(shù)據(jù)挖掘過程共分為8個處理階段,這8個處理階段分別是數(shù)據(jù)篩選、數(shù)據(jù)預處理、處理冗余數(shù)據(jù)、建立模型、實現(xiàn)算法、數(shù)據(jù)挖掘、結果檢驗和挖掘應用.數(shù)據(jù)挖掘常用的方法有統(tǒng)計方法、關聯(lián)規(guī)則、聚類分析、決策樹方法、神經(jīng)網(wǎng)絡、遺傳算法和粗糙集等.
通過數(shù)據(jù)挖掘技術,用戶可以從大量數(shù)據(jù)中獲得有價值的信息,同時將挖掘結果應用于決策、過程控制、信息管理等[3].因此,數(shù)據(jù)挖掘技術已經(jīng)成為數(shù)據(jù)庫研究的重要方向.
在醫(yī)院信息系統(tǒng)(HIS)中,如何針對醫(yī)療需求優(yōu)化設備使用率、改進設備引進率、提高設備治療效果等,都需要對醫(yī)院現(xiàn)有的設備運作情況進行詳細統(tǒng)計分析[4].要根據(jù)醫(yī)療設備的用途和性質,做好使用率、維修率、設備周期等績效數(shù)據(jù)的統(tǒng)計和分析工作.醫(yī)療設備成本的績效分析,是醫(yī)院現(xiàn)代化管理水平的重要標志.
經(jīng)過多年的發(fā)展,國內外很多高校和研究所都開展了數(shù)據(jù)挖掘技術在醫(yī)療衛(wèi)生方面的應用,取得了很好的成果.
(1)由于數(shù)據(jù)挖掘技術在國外發(fā)展比較早,在醫(yī)學領域的數(shù)據(jù)挖掘方面,國外學術界取得了很多成果.
1)美國GTRI研究所基于數(shù)據(jù)挖掘技術開發(fā)的乳腺癌癥研究系統(tǒng),已經(jīng)投入到醫(yī)療診斷的實際應用中,取得了較好的診療效果.
2)美國芝加哥大學Don R.Swanson教授提出“基于非相關文獻發(fā)現(xiàn)”的方法,從醫(yī)學數(shù)據(jù)庫中挖掘出兩類規(guī)則:“食用魚油對雷諾病患者有益”和“周期性偏頭痛與鎂缺乏之間存在聯(lián)系”.
3)基于粗糙集理論的規(guī)則產(chǎn)生模型可以自動發(fā)現(xiàn)臨床數(shù)據(jù)庫中的正例和反例.
4)決策樹在自動診斷心臟SPECT影像的研究和診斷心肌灌注的知識發(fā)現(xiàn)系統(tǒng)中也有很好的應用.
5)挪威科技大學、挪威腫瘤醫(yī)院和瑞典Linklping大學合作與2001年開發(fā)基因文獻網(wǎng)絡系統(tǒng),從醫(yī)學文摘中自動抽取基因之間的關系網(wǎng)絡.
(2)國內在醫(yī)學領域的數(shù)據(jù)挖掘方面也取得了很大的進步.
1)吉林大學計算機系從2006年開始,借助數(shù)據(jù)挖掘技術,開發(fā)計算機智能輔助醫(yī)學診斷專家系統(tǒng),取得了較好的效果.
2)上海交通大學生物醫(yī)學工程系運用ID3據(jù)測試算法對乳腺疾病的圖像進行數(shù)據(jù)挖掘,得到了很高的準確率.
3)廣州醫(yī)學院第二附屬醫(yī)院和中國科技大學計算機科學工程系使用數(shù)據(jù)挖掘技術對胸片影像進行分析,通過決策樹和神經(jīng)網(wǎng)絡等挖掘方法,提高了準確率.
4)天津大學和天津總醫(yī)院合作對3022例糖尿病病例進行分析,使用決策樹分類方法對醫(yī)療數(shù)據(jù)進行分類,對糖尿病的并發(fā)癥取得了較好的預測效果.
利用數(shù)據(jù)挖掘技術對醫(yī)療設備成本績效分析的工作已受到醫(yī)療單位的廣泛重視,并且提到議事日程上來,并獲得一些初步的效果.但是目前建立的醫(yī)療信息數(shù)據(jù)庫,只能提供檢索和統(tǒng)計的服務,而沒有對隱含在數(shù)據(jù)中的大量隱藏信息進行有效的利用[5].將數(shù)據(jù)挖掘技術應用在醫(yī)療設備的成本績效分析中,為探討如何發(fā)揮醫(yī)療設備的更大效益,提供了新的思路和方法.
隨著我國醫(yī)療的水平的提高,醫(yī)院投入的現(xiàn)代化醫(yī)療設備比例不斷提高,從而為提高醫(yī)療診斷效果提供了很好的技術保證.如何更合理地安排設備購買計劃,提高設備的利用率,直接關系到醫(yī)院的發(fā)展水平.成本績效分析中的關鍵問題是“有效化”,要以最小的投入獲取最大產(chǎn)出,降低各方面的消耗來實現(xiàn)更好的效益,從而提高醫(yī)院對病人的診治效果和服務水平.建立醫(yī)療設備的成本效益觀念,進一步做好相關的數(shù)據(jù)挖掘工作,對醫(yī)療機構提高自身競爭力、改善醫(yī)療機構服務社會的水平,都是一個重要的研究課題.
數(shù)據(jù)挖掘技術是目前數(shù)據(jù)庫研究領域的重要方向之一,在社會的各個領域都具備較好的應用基礎,并取得了顯著的社會及經(jīng)濟效益.決策樹算法是數(shù)據(jù)挖掘中的常用算法.算法的原理是通過構造決策樹來實現(xiàn)數(shù)據(jù)中隱含的規(guī)則,如何構建適度的決策樹是整個算法的關鍵環(huán)節(jié).首先第一步由樣本數(shù)據(jù)生成決策樹,樣本數(shù)據(jù)的來源是經(jīng)過數(shù)據(jù)分析處理后的結果.第二步是決策樹的剪枝,這個工作是對第一步中的決策樹進行校驗和修正的過程,使用決策樹生成過程中的規(guī)則,對決策樹中影響整體準確性的分枝進行剔除.決策樹算法具有數(shù)據(jù)分析精準、模型建立簡便、對冗余數(shù)據(jù)的處理具有健壯性等優(yōu)點,是目前應用最為廣泛的歸納算法之一[6].比較有名的決策樹算法有ID3算法、ID4算法、IDSR算法、C4.5算法.
本文對醫(yī)療設備成本績效的數(shù)據(jù)挖掘模式和算法集成進行深入研究,并將其應用于基于數(shù)據(jù)挖掘技術的醫(yī)療設備成本績效的研究中,探討對醫(yī)療設備從購置前的可行性論證到淘汰報廢全過程進行決策分析.
衛(wèi)生部《醫(yī)院管理評價指南(試行)》,要求醫(yī)療機構購置大型醫(yī)療設備必須經(jīng)過嚴格的可行性論證,同時加強大中型醫(yī)療設備合理應用成本分析,而在醫(yī)療設備在購置前,就對其投入購置后的使用效果進行預測.
以往對醫(yī)療設備的績效進行預測,憑經(jīng)驗來估算,誤差相對較大.例如,某醫(yī)院在購置一臺磁共振的可行性論證中,預測平均40人次/天,則一年的收益為40人次*400元* 365天=584萬元;如預測平均30人次/天,則一年的收益為30人次*400元*365=438萬元,兩者相差146萬元.
使用決策樹算法,是分析醫(yī)療設備成本績效中隱含的決策信息的很好研究方法.由于各個醫(yī)療機構在醫(yī)療設備采購和管理的差異,使得在面臨醫(yī)療設備效益、購置風險等相互制約的管理難題時,不能夠針對性地提出適合本單位的決策方案.將決策樹算法用于醫(yī)療設備成本績效分析中,對醫(yī)療設備在購置前進行績效預測,為實現(xiàn)對其使用效益進行準確評價,需要將研究重點放在以下幾個方面:
(1)對傳統(tǒng)決策樹算法進行改進,提出一種針對醫(yī)務信息系統(tǒng)(HIS)中大規(guī)模高維度數(shù)據(jù)的優(yōu)化決策樹算法.該算法針對醫(yī)療信息系統(tǒng)的特點,重點對數(shù)據(jù)的離散化、降維處理、決策樹屬性選擇三方面進行改進,使用多層解析的策略將決策樹的多分類問題轉化為多個二分類問題,并且在轉換過程中進行離散化,從而避免了多分類問題整體離散化帶來的計算量過大的缺點,很好解決了處理高維度數(shù)據(jù)庫的效率和精度之間的問題[7],在降低計算負擔的同時,提高了決策樹的分類精度.
隨著醫(yī)療信息系統(tǒng)的快速發(fā)展及醫(yī)療機構規(guī)模的不斷擴大,醫(yī)療數(shù)據(jù)呈現(xiàn)出不斷增長的趨勢,突出表現(xiàn)為對大容量高維度醫(yī)療數(shù)據(jù)的處理問題.大規(guī)模數(shù)據(jù)的離散化需要達到較好的效果:1)避免或減少數(shù)據(jù)的信息損失;2)離散區(qū)間數(shù)盡量減少;3)離散化方法簡單有效,易于實現(xiàn)[8].為達到以上效果,本課題在進行數(shù)據(jù)離散化處理的時候,提出一種基于邊界點屬性值合并的離散化方法,改變多次遍歷尋求邊界點的過程,大大節(jié)省運算過程.
(2)為采購醫(yī)療設備的可行性論證提供了一種比較準確的量化指標評價體系,針對醫(yī)療機構的經(jīng)濟因素、政策性因素、管理者水平、行業(yè)因素等影響到醫(yī)療設備采購和使用的關鍵因素,建立指標評價體系,有效提高醫(yī)療設備可行性論證階段的預測效果.
(3)對醫(yī)療設備數(shù)據(jù)挖掘中的數(shù)據(jù)預處理進行深入探討,設計并構建醫(yī)療設備數(shù)據(jù)倉庫,為開展醫(yī)療設備成本與效益的分析奠定了良好的基礎.通過構建數(shù)據(jù)倉庫,改變目前醫(yī)院信息系統(tǒng)(HIS)中各部門之間信息交流不通暢的情況,對醫(yī)療設備運行過程中的使用率、維修率、設備周期率等多方面的數(shù)據(jù)進行深層次加工,達到對醫(yī)療設備數(shù)據(jù)進行預處理的目標.
數(shù)據(jù)轉換主要是對數(shù)據(jù)進行規(guī)格化操作.在正式對醫(yī)療設備信息進行數(shù)據(jù)轉換之前,尤其是在使用決策樹分類算法和K-最近鄰分類算法等,必須進行數(shù)據(jù)規(guī)格化[9],也就是將其轉化為可操作信息,并將數(shù)據(jù)范圍進一步縮小.醫(yī)療設備數(shù)據(jù)本身具有相當豐富的信息,包括醫(yī)療設備的功能、適用病癥、診斷率等方面,但醫(yī)院信息系統(tǒng)(HIS)中對醫(yī)療設備信息的統(tǒng)計比較分散獨立.為了使醫(yī)療設備績效分析更為準確,將以上信息轉換為數(shù)字化形式.
醫(yī)療設備成本績效分析與預測是醫(yī)院管理工作的重點,是發(fā)揮醫(yī)療設備效益的關鍵所在,但也是醫(yī)院信息系統(tǒng)研究的難點所在,在國內學術界的發(fā)展還剛剛開始.在總體研究思路上,將決策樹算法進行改進,同時針對醫(yī)療信息系統(tǒng)的特點,結合醫(yī)療設備的使用率、、故障率、回收率等多方面因素,對醫(yī)療設備的績效數(shù)據(jù)進行深層次挖掘.應用數(shù)據(jù)挖掘技術構建醫(yī)療設備績效預測模型,在醫(yī)療設備購置前,就對其投入使用后的效果進行比較準確地預測,并通過建立醫(yī)療設備數(shù)據(jù)倉庫,為開展醫(yī)療設備應用成本分析奠定良好的基礎.
[1]尹軍.對醫(yī)院大型醫(yī)療設備管理的思考[J].重慶醫(yī)學,2008,(20):14-16.
[2]戚鳳燕.醫(yī)療設備成本核算和成本控制方案的探討[J].中國醫(yī)療設備,2008,(5):83-85.
[3]于忠江,張穎.大型醫(yī)療設備購置的科學決策[J].醫(yī)療衛(wèi)生裝備,2005,(9):149.
[4]丘奐陽.醫(yī)療設備績效統(tǒng)計分析探討[J].中國醫(yī)學裝備,2006,(11):51-52.
[5]王勝.基于決策樹ID3算法研究與實現(xiàn)[J].齊齊哈爾大學學報,2012,(3):64-68.
[6]楊靜,張楠男.決策樹算法的研究與應用[J].計算機技術與發(fā)展,2010,(2):114-116.
[7]陳章良.基于數(shù)據(jù)挖掘的預測決策模型應用與研究[J].中國管理信息化,2009,(1):57-59.
[8]陳雪嬌,任燕.基于決策樹與相異度的離群數(shù)據(jù)挖掘方法[J].微計算機信息,2009,(21):131-132.
[9]楊宏偉,趙明華.基于層次分解的決策樹[J].計算機工程與應用,2003,(23):108-110.
(責任編校:晴川)
App lied Research on Data-m ining Technology in Performance Analysis of the Cost for M edical Equipment Based on the Decision Tree
NAN Shuping1,ZHANG Bo2,LILi3
(1.College of Computer and Information,F(xiàn)uyang Teachers College,F(xiàn)uyang Anhui236037,China;2.Department of Information Engineering,Bozhou Vocational and Technical College,Bozhou Anhui236800,China;3.Fuyang City People’s Hospital,F(xiàn)uyang Anhui236037,China)
In recent years,hospital information system(HIS)has been widely spread in hospitals,and the utilization and efficiency of medical equipment have been greatly improved.But in HIS,themanagementmodule of patient information and managementmodule of medical equipment are separated from each other,which cannotprovide pre-feasibility decision support for the purchase ofmedical equipment,and the after-benefit analysis of equipment put into use is not very accurate.This article discusses how to use the decision tree algorithm for data-mining with the data ofmedical device,enabling the realization of the decision analysis of the whole process from pre-feasibility study of purchasingmedical equipment to eliminating scrap,and improve social and economic benefits ofmedical equipment.
HIS;decision tree;performance;data-mining
TP315
A
1008-4681(2014)05-0064-03
2014-06-29
2013年安徽省教育廳自然科學研究項目(批準號:KJ2013Z261).
南淑萍(1978-),女,安徽亳州人,阜陽師范學院計算機與信息學院講師,碩士,研究方向:數(shù)據(jù)挖掘、軟件中間件.