吳佳峰,徐哲,何必仕
杭州電子科技大學(xué) 信息與控制研究所,浙江 杭州 310018
某三甲醫(yī)院醫(yī)療影像信息系統(tǒng)(RIS/PACS)已應(yīng)用數(shù)年,積累了大量影像檢查數(shù)據(jù),但如果沒(méi)有相應(yīng)的技術(shù)手段對(duì)其進(jìn)行整理、分析就無(wú)法直接用于決策分析。本文借助Microsoft SQL Server 2008建立醫(yī)療影像信息數(shù)據(jù)倉(cāng)庫(kù),圍繞檢查績(jī)效關(guān)鍵指標(biāo),運(yùn)用微軟提供的功能控件進(jìn)行數(shù)據(jù)處理及展示,輔助領(lǐng)導(dǎo)決策。
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策[1],近年來(lái)逐步應(yīng)用到醫(yī)療領(lǐng)域[2-3]。
數(shù)據(jù)倉(cāng)庫(kù)一般采用3層體系結(jié)構(gòu),見(jiàn)圖1。底層為數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,中間層為應(yīng)用層,頂層為前端展現(xiàn)。底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器從操作型數(shù)據(jù)庫(kù)或外部數(shù)據(jù)源提取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換、集成等,并裝入到數(shù)據(jù)倉(cāng)庫(kù)中。應(yīng)用層主要對(duì)某個(gè)特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問(wèn)、處理和分析,即聯(lián)機(jī)分析(OLAP)[4]。通過(guò)直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營(yíng)情況展現(xiàn)給決策者,是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。前端數(shù)據(jù)展現(xiàn)模塊將數(shù)據(jù)展現(xiàn)給決策者,為決策者提供輔助分析功能,其工作原理主要是通過(guò)對(duì)數(shù)據(jù)進(jìn)行分類、預(yù)測(cè)、鉆取、挖掘等處理來(lái)產(chǎn)生可透析的各種展示數(shù)據(jù),而這些數(shù)據(jù)可直觀地反映決策者所分析探詢的問(wèn)題。
數(shù)據(jù)倉(cāng)庫(kù)一般須借助專業(yè)平臺(tái)及工具支持,微軟Microsoft SQL Server 2008為數(shù)據(jù)倉(cāng)儲(chǔ)、數(shù)據(jù)分析和報(bào)表生成提供了一整套可伸縮的數(shù)據(jù)平臺(tái)[5]。具體包括:為大型數(shù)據(jù)提供高性能存儲(chǔ)的SQL Server數(shù)據(jù)庫(kù)引擎;進(jìn)行提取、轉(zhuǎn)換和加載(ETL)操作的SQL Server 集成服務(wù);用于聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的SQL Server 分析服務(wù)。
圖1 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按分析主題來(lái)組織數(shù)據(jù)的,因此,確定主題是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的首要任務(wù)。根據(jù)影像科業(yè)務(wù)需求[6],分析各科室檢查量、設(shè)備使用情況和病人檢查情況等,確定檢查績(jī)效主題。對(duì)于某三甲醫(yī)院決策者關(guān)心的醫(yī)療影像檢查績(jī)效關(guān)鍵指標(biāo),我們?cè)O(shè)計(jì)醫(yī)療影像關(guān)鍵指標(biāo)表(MedicalImageKPI)用于存儲(chǔ)月檢查量、報(bào)告陽(yáng)性率、隨訪率、設(shè)備開(kāi)機(jī)率、平均檢查用時(shí)、檢查費(fèi)用等指標(biāo)數(shù)據(jù)。所需要的原始數(shù)據(jù)來(lái)自該院RIS/PACS數(shù)據(jù)庫(kù),對(duì)應(yīng)的數(shù)據(jù)表主要有“影像檢查表EISStudies”、“檢查結(jié)果表EISResults”、“檢查報(bào)告表EISReports”、“檢查項(xiàng)目表EISService”等,這些原始數(shù)據(jù)通過(guò)ETL工具加載到數(shù)據(jù)倉(cāng)庫(kù)中。
多維數(shù)據(jù)模型采用常規(guī)星型模型,由事實(shí)表和維表組成。除關(guān)鍵指標(biāo)集外,根據(jù)檢查績(jī)效主題的應(yīng)用需求,對(duì)設(shè)備、費(fèi)用、用時(shí)、質(zhì)量分別建立星型模型。以設(shè)備檢查情況為例,對(duì)數(shù)據(jù)進(jìn)行初步整理,設(shè)計(jì)事實(shí)表和維表:設(shè)備事實(shí)表FactService主要包括設(shè)備編碼、檢查日期、檢查部門、檢查項(xiàng)目、檢查費(fèi)用等使用記錄;維度表主要有設(shè)備維DimDervice(編碼、名稱、類型、規(guī)格、廠商)、時(shí)間層次維DimDate(編碼、年、月、日)、科室維DimDepartment(編碼、名稱)。
2.3.1 數(shù)據(jù)清理
由于多年的數(shù)據(jù)使用、維護(hù)、遷移時(shí)缺乏必要的數(shù)據(jù)校驗(yàn),再加上軟件功能模塊是逐步上線以及工作人員錄入數(shù)據(jù)時(shí)的人為失誤,都可能導(dǎo)致數(shù)據(jù)的缺失、不完整和錯(cuò)誤。所以為保證數(shù)據(jù)的質(zhì)量,要對(duì)數(shù)據(jù)進(jìn)行必要的清理。數(shù)據(jù)清理包括填充空缺值、識(shí)別孤立點(diǎn)、消除奇異值等。
為了不影響分析效果,我們把明顯錯(cuò)誤的數(shù)據(jù)予以刪除,對(duì)于重要事實(shí)數(shù)據(jù)的缺失值進(jìn)行填充。將數(shù)據(jù)缺失值分為兩類,數(shù)值型缺失和非數(shù)值型缺失。對(duì)于非數(shù)值型缺乏的記錄并且非數(shù)值型的屬性對(duì)于OLAP的維,我們刪除此記錄。對(duì)于存在缺失數(shù)值的記錄,可根據(jù)已有的數(shù)據(jù)記錄和屬性對(duì)應(yīng)關(guān)系填充,如對(duì)于檢查費(fèi)用缺失項(xiàng),根據(jù)其對(duì)應(yīng)的檢查項(xiàng)目,找出已記錄的檢查費(fèi)用進(jìn)行填充。而對(duì)于檢查時(shí)間,可以計(jì)算此數(shù)據(jù)集對(duì)應(yīng)屬性數(shù)值的平均值,以平均值填充。
2.3.2 數(shù)據(jù)集成
一般情況下,決策者既要掌握總體數(shù)據(jù),也要了解一定的細(xì)節(jié):既要知道各醫(yī)療影像科室的各項(xiàng)指標(biāo)數(shù)據(jù),也要找出各項(xiàng)指標(biāo)的變化趨勢(shì)。如院領(lǐng)導(dǎo)要了解醫(yī)院的月檢查人次、設(shè)備開(kāi)機(jī)率、報(bào)告陽(yáng)性率和月平均檢查用時(shí)等一些關(guān)鍵指標(biāo),就需要對(duì)數(shù)據(jù)進(jìn)行集成。數(shù)據(jù)的集成是個(gè)復(fù)雜而關(guān)鍵的工作,既有簡(jiǎn)單的數(shù)據(jù)求和、平均,也有復(fù)雜的統(tǒng)計(jì)計(jì)算。檢查人次和報(bào)告陽(yáng)性量可直接從檢查表累加得到;月檢查時(shí)間需要根據(jù)登記時(shí)間和審核時(shí)間計(jì)算檢查用時(shí),再求均值得到;設(shè)備月開(kāi)機(jī)率由月開(kāi)機(jī)數(shù)/設(shè)備總量求得。
OLAP分析主要通過(guò)對(duì)多維組織后的數(shù)據(jù)進(jìn)行切片、切塊、聚合、上卷、下鉆、旋轉(zhuǎn)等分析動(dòng)作,使決策者能從多種角度,多個(gè)側(cè)面、多數(shù)據(jù)綜合查看數(shù)據(jù),從而了解數(shù)據(jù)背后的規(guī)律,為決策提供幫助。下面圍繞科室設(shè)備檢查量就切片和鉆取兩個(gè)動(dòng)作進(jìn)行數(shù)據(jù)展示。
多維數(shù)據(jù)是由多個(gè)維度組成,如果在某一維度上選定一個(gè)取值,則多維數(shù)據(jù)就從n維下降到n-l維,我們稱多維數(shù)組的子集(維度1、維度2、…維度i-l、維度i+l、…維度n、度量變量)為多維數(shù)組在維度i上的切片。對(duì)科室維切片,取放射科和胃腸鏡室,見(jiàn)圖2。我們可以發(fā)現(xiàn)兩科室的檢查量都逐年增加,說(shuō)明醫(yī)院的醫(yī)療規(guī)模在不斷擴(kuò)大,而胃腸鏡室在2008年以前沒(méi)有檢查量,說(shuō)明醫(yī)院在08年前RIS/PACS還沒(méi)有覆蓋胃腸鏡室。
圖2 科室維切片
多維數(shù)據(jù)是具有層次性的,維度的層次實(shí)際上反應(yīng)了數(shù)據(jù)的綜合程度。維度層次越高,代表的數(shù)據(jù)綜合程度就越高,細(xì)節(jié)就越少,數(shù)據(jù)量也越少;維度層次越低,則代表的數(shù)據(jù)綜合度越低,細(xì)節(jié)越充分,數(shù)據(jù)量越大。數(shù)據(jù)鉆取就是改變維度層次觀察數(shù)據(jù)的方法。從較高的維度層次下降到較低維度層次上來(lái)觀察多維數(shù)據(jù)為下鉆,從較低的維度層次上升為較高維度層次上來(lái)觀察多維數(shù)據(jù)為上卷。如圖3是對(duì)圖2在時(shí)間維度上的鉆取。從圖中可以看出,胃腸鏡室在2~3月份,檢查量有明顯的上升,而3月份的檢查量在各月份中也是最多的,說(shuō)明在春節(jié)期間的暴飲暴食,節(jié)后出現(xiàn)腸胃問(wèn)題的人較平時(shí)有明顯的增加。對(duì)比分析其他影像科室,發(fā)現(xiàn)2月份的檢查量相比其他月份都是最低的,可見(jiàn)春節(jié)期間就診人數(shù)普遍減少,決策者可利用此分析結(jié)果合理安排科室人員調(diào)休和設(shè)備保養(yǎng),使醫(yī)療資源得到更好利用。
圖3 時(shí)間維鉆取
圖表形式的數(shù)據(jù)展示,一般包括儀表盤(pán)、直方圖、趨勢(shì)圖、餅圖、散點(diǎn)圖、圓環(huán)圖、雷達(dá)圖和曲面圖等。這里結(jié)合實(shí)際介紹儀表盤(pán)、趨勢(shì)圖和雷達(dá)圖等3種應(yīng)用。
儀表盤(pán)主要用于實(shí)時(shí)顯示監(jiān)控?cái)?shù)據(jù),觀察者能一目了然地了解系統(tǒng)或設(shè)備運(yùn)行狀況,應(yīng)用最多的就是駕駛儀表盤(pán)。我們可以把儀表盤(pán)應(yīng)用于影像科日常管理中,用于顯示待檢人數(shù)和待審人數(shù)等實(shí)時(shí)信息。通過(guò)從RIS/PACS數(shù)據(jù)庫(kù)中提取病人檢查的登記時(shí)間(RegisterTime)、檢查完成時(shí)間(ExecuteTime)、報(bào)告審核時(shí)間(ApproveTime)建立病人檢查時(shí)間表(PatientTime),實(shí)時(shí)顯示當(dāng)前待檢人數(shù)和待審人數(shù)。影像檢查儀表盤(pán),見(jiàn)圖4。決策者可從中清楚地了解到科室當(dāng)前時(shí)刻的待檢人數(shù)和待審人數(shù),了解科室運(yùn)行情況。如超過(guò)警戒限度,則立即安排人手疏導(dǎo)檢查,以維護(hù)良好的檢查秩序。
圖4 影像檢查儀表盤(pán)
趨勢(shì)圖一般用來(lái)顯示一定時(shí)間范圍(1 d、1 w或1個(gè)月)內(nèi)所考察指標(biāo)的變化情況。一般以指標(biāo)數(shù)值為縱軸,以時(shí)間值為橫軸繪制圖形。趨勢(shì)圖就像不斷改變的記分牌,它的主要用處是確定各種類型問(wèn)題是否存在重要的時(shí)間模式,以輔助決策分析。
根據(jù)影像科的業(yè)務(wù)需求,針對(duì)設(shè)備使用、檢查量、檢查費(fèi)用、檢查用時(shí)等設(shè)計(jì)各類趨勢(shì)圖。在此,就每日待檢待審情況和全年不同病人類型檢查量進(jìn)行趨勢(shì)圖展示說(shuō)明。
影像科每天都接待大量的病人,病人就檢時(shí)大部分時(shí)間用在排隊(duì)等候上,如何減少病人無(wú)謂的等候時(shí)間,提高服務(wù)品質(zhì),是醫(yī)患共同關(guān)心的問(wèn)題。決策者可通過(guò)了解病人待檢和報(bào)告待審隨時(shí)間變化的趨勢(shì)圖(圖5),分析檢查和審核高峰期,合理安排工作人員,減少病人等候時(shí)間,以提高服務(wù)效率。
圖5 待檢待審趨勢(shì)圖
不同病人類型檢查量在2011年的變化趨勢(shì),見(jiàn)圖6。從圖中可以了解一年來(lái)檢查量的變化情況,體檢病人的檢查在6月份和9月份會(huì)出現(xiàn)高峰,門診病人的檢查有冬夏之分,住院和急診全年基本平穩(wěn)。
圖6 不同病人類型2011年檢查量趨勢(shì)圖
“雷達(dá)圖”分析法結(jié)合多個(gè)指標(biāo)進(jìn)行直觀、形象的綜合分析與評(píng)價(jià)。為了院領(lǐng)導(dǎo)能更直觀地了解影像檢查各關(guān)鍵指標(biāo)的變動(dòng)情形,設(shè)計(jì)采用雷達(dá)圖對(duì)醫(yī)療影像檢查關(guān)鍵指標(biāo)進(jìn)行展示,見(jiàn)圖7。決策者通過(guò)醫(yī)院2010年和2011年11月份關(guān)鍵指標(biāo)的同時(shí)顯示,可以進(jìn)行同期對(duì)比,掌握各階段關(guān)鍵指標(biāo)的變化情況,有助于根據(jù)醫(yī)院實(shí)際情況進(jìn)行持續(xù)改進(jìn)。
圖7 雷達(dá)圖
本研究根據(jù)某三甲醫(yī)院對(duì)影像檢查績(jī)效分析的需求,利用Microsoft SQL Server 2008建立了面向檢查績(jī)效主題的數(shù)據(jù)倉(cāng)庫(kù)。該數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用,圍繞醫(yī)療影像檢查績(jī)效開(kāi)展關(guān)鍵指標(biāo)數(shù)據(jù)展示研究,利用多維數(shù)據(jù)模型開(kāi)展切片、鉆取等OLAP分析,利用儀表盤(pán)/趨勢(shì)圖/雷達(dá)圖等形式對(duì)醫(yī)療影像檢查關(guān)鍵指標(biāo)進(jìn)行展示,為決策者提供直觀的圖表數(shù)據(jù),以提高醫(yī)院管理水平和服務(wù)效率。下一步將結(jié)合聚類/分類、關(guān)聯(lián)和決策樹(shù)等模型開(kāi)展數(shù)據(jù)挖掘研究,以提高對(duì)信息的深層利用。
[1] W.H.Inmon.Building the Data Warehouse[M].王志海,林友芳,譯.北京:機(jī)械工業(yè)出版社,2006.
[2] 郭慶,谷巖.數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息系統(tǒng)的統(tǒng)計(jì)分析與決策中的應(yīng)用[J].中國(guó)醫(yī)療設(shè)備,2010,25(5):64-67.
[3] 馮嵩.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在醫(yī)療管理分析系統(tǒng)中的應(yīng)用研究[D].長(zhǎng)沙:中南大學(xué),2007.
[4] Thomsem E,Splfford G,Chase D.Microsoft OLAP Solutions[M].Wiley Computer Publishing,1999.
[5] Jamie MacLennan,ZhaoHui Tang,Bogdan Crivat.Data Mining with SQL Server 2008[M].董艷,程文俊,譯.北京:機(jī)械工業(yè)出版社,2010.
[6] 戈欣,吳曉芬,許建榮.數(shù)據(jù)挖掘技術(shù)在放射科醫(yī)療管理中的潛在作用[J].中國(guó)數(shù)字醫(yī)學(xué),2009,4(1):60-61.
[7] 吳德貽. 數(shù)據(jù)挖掘技術(shù)及其在醫(yī)院管理里中的應(yīng)用[J].中國(guó)醫(yī)療器械信息,2009,(7):67-71.
[8] 樊敏.數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用探討[J].科技資訊,2009,(27):191.