李順飛,劉麗華,劉建超,唐曉東,李申龍
(1.中國人民解放軍第一五〇醫(yī)院,河南 洛陽 471031;2.中國人民解放軍總醫(yī)院醫(yī)院管理研究所,北京 100853;3.軍事醫(yī)學(xué)科學(xué)院疾病預(yù)防控制所,北京 100071)
隨著醫(yī)療衛(wèi)生水平的提高,傳染病發(fā)病率的下降,傷害的危害及其防治問題日益顯露出來。傷害住院病例造成的疾病負(fù)擔(dān)和壽命損失在所有傷害病例中均占有較大比例,對其進(jìn)行流行病學(xué)研究可以掌握傷害流行特征,為制訂有效的預(yù)防干預(yù)措施提供重要依據(jù)。醫(yī)院信息系統(tǒng)(HIS)的推廣應(yīng)用積累了海量的業(yè)務(wù)數(shù)據(jù),然而針對歷史數(shù)據(jù)的應(yīng)用大多停留在查詢和報表的層次上,缺乏對數(shù)據(jù)的集成和深層分析。本研究擬通過構(gòu)建基于HIS的傷害住院病例流行病學(xué)分析主題數(shù)據(jù)庫,探討基于HIS業(yè)務(wù)數(shù)據(jù)的主題化研究方法。
以傷害住院病例流行病學(xué)分析為主題,以數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)為手段,基于HIS業(yè)務(wù)數(shù)據(jù)庫相關(guān)信息,設(shè)計傷害住院病例流行病學(xué)分析體系框架??蚣馨ㄈ糠郑?)基礎(chǔ)數(shù)據(jù)庫:即HIS后臺業(yè)務(wù)數(shù)據(jù)庫,數(shù)據(jù)內(nèi)容包括其中的傷害住院病例流行病學(xué)分析相關(guān)信息;(2)主題數(shù)據(jù)庫[1-3]:即面向業(yè)務(wù)主題的數(shù)據(jù)組織存儲,其數(shù)據(jù)結(jié)構(gòu)由規(guī)范的基本表構(gòu)成,其構(gòu)建方法是基于基礎(chǔ)數(shù)據(jù)庫,以多維數(shù)據(jù)模型結(jié)構(gòu)對業(yè)務(wù)主題信息進(jìn)行抽取、集成、重構(gòu);(3)數(shù)據(jù)挖掘利用:即基于主題數(shù)據(jù)庫進(jìn)行的決策分析。體系框架見圖1。
通過定義傷害住院病例流行病學(xué)分析主題數(shù)據(jù)庫的表結(jié)構(gòu),集成HIS業(yè)務(wù)數(shù)據(jù)庫中相關(guān)信息,在此數(shù)據(jù)環(huán)境中,根據(jù)不同的研究需要,定義其數(shù)據(jù)模型,以便進(jìn)行分析和數(shù)據(jù)挖掘。數(shù)據(jù)庫的字段設(shè)置以滿足流行學(xué)分析為最基本要求[4-5],為輔助分析性研究增加了診斷、費(fèi)用和傷害特征等信息;字段名稱取HIS中相應(yīng)名稱,便于理解和應(yīng)用。經(jīng)過反復(fù)論證,主題數(shù)據(jù)庫共設(shè)置數(shù)據(jù)項43個,包括患者基本信息、住院信息、診斷信息和費(fèi)用信息等,數(shù)據(jù)主要來源于患者主索引、患者住院主記錄、診斷記錄、診斷分類記錄、住院患者費(fèi)用記錄等,其與HIS業(yè)務(wù)數(shù)據(jù)的對應(yīng)關(guān)系見表1。
圖1 傷害住院病例流行病學(xué)分析體系框架
本研究的主題是傷害住院病例流行病學(xué)分析,可將此數(shù)據(jù)庫模型設(shè)計為星形模型[6-8]。星形架構(gòu)是管理關(guān)系數(shù)據(jù)以進(jìn)行多維使用的最常用方式,比較適合對單個主題建模。星形模型的數(shù)據(jù)庫通常包括一個大的包含大批數(shù)據(jù)并且不含冗余的事實表(中心表)和一組小的維表(附屬表),星形結(jié)構(gòu)中的各個維表同事實表以維標(biāo)識符互聯(lián),形成一個多維數(shù)據(jù)表,然后在此基礎(chǔ)上進(jìn)行各角度的預(yù)計算,將計算結(jié)構(gòu)存儲形成多維數(shù)據(jù)庫。
表1 傷害住院病例主題數(shù)據(jù)庫的數(shù)據(jù)項與HIS業(yè)務(wù)數(shù)據(jù)的對應(yīng)關(guān)系
表2 維度和粒度設(shè)計
3.1 定義事實 傷害住院病例流行病學(xué)分析多維數(shù)據(jù)模型的事實是對傷害住院病例進(jìn)行流行病學(xué)分析的基本指標(biāo)。定義的指標(biāo)包括人次、醫(yī)療費(fèi)用及住院日。
圖2 傷害住院病例流行病學(xué)分析多維數(shù)據(jù)模型
3.2 維度和粒度設(shè)計 在設(shè)計維度表模型的過程中考慮到維度模型是用戶分析數(shù)據(jù)的窗口,維度的設(shè)計提供了維度屬性的定義,一個對象的維度包含大量的屬性。這些屬性應(yīng)具有這樣一些特征,即可用文字描述、離散值、有規(guī)定限制以及在分析過程中可以提供行標(biāo)題。本研究的維度和粒度具體設(shè)計見表2。
3.3 多維數(shù)據(jù)模型設(shè)計 以傷害住院病例流行病學(xué)分析為主題的星形模式多維模型見圖2,包含了一個中心事實表(傷害住院患者)、12個維表(時間、年齡、性別等)和3個度量(人次、醫(yī)療費(fèi)用、住院日)。
本研究利用Kettle進(jìn)行數(shù)據(jù)抽取集成,Kettle是Extract-Transform Loacl的縮寫。ETL工具集,被設(shè)計用來實現(xiàn)ETTL需要,即抽取、轉(zhuǎn)換、裝入和加載數(shù)據(jù);具有易于生成、易于發(fā)布、易于維護(hù),從模型直接執(zhí)行任務(wù)的特點(diǎn)。數(shù)據(jù)抽取集成的具體步驟包括:構(gòu)建數(shù)據(jù)流,配置數(shù)據(jù)庫參數(shù),獲取數(shù)據(jù),選擇字段,將抽取的數(shù)據(jù)插入目標(biāo)數(shù)據(jù)庫。
HIS中的醫(yī)療數(shù)據(jù)存在多樣性、不完整性、不一致性、冗余性,甚至可能包含錯誤或存在偏離期望的離群數(shù)據(jù)。因此,數(shù)據(jù)預(yù)處理是必不可少的環(huán)節(jié)。本研究主要采用了數(shù)據(jù)清理、數(shù)據(jù)變換和調(diào)查補(bǔ)充等方法。
5.1 數(shù)據(jù)清理 數(shù)據(jù)清理的處理方法包括缺失數(shù)據(jù)調(diào)查補(bǔ)填、異常值的篩檢及處理。通過對數(shù)據(jù)進(jìn)行邏輯校驗,對其中的邏輯錯誤進(jìn)行標(biāo)注,后核實修正;對于有標(biāo)準(zhǔn)字典的數(shù)據(jù)項直接用標(biāo)準(zhǔn)字典的相應(yīng)內(nèi)容更新;對影響研究病例流行特征的異常病例進(jìn)行剔除,剔除了以傷害診斷進(jìn)行住院治療的非真實傷害病例。
5.2 數(shù)據(jù)變換 數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于分析的形式,主要是找到數(shù)據(jù)的特征表示,用轉(zhuǎn)換方法挖掘變量的有效信息。如將入院時間轉(zhuǎn)換為年、月,以便進(jìn)行趨勢分析;將實際年齡轉(zhuǎn)換為設(shè)置的年齡組以進(jìn)行年齡特征描述。
5.3 數(shù)據(jù)調(diào)查補(bǔ)充 數(shù)據(jù)調(diào)查補(bǔ)充主要針對傷害特征屬性數(shù)據(jù),當(dāng)前HIS中相關(guān)信息只在出院診斷、損傷與中毒原因診斷中有所體現(xiàn),但滿足不了傷害流行病學(xué)分析的需要。因此,本研究嘗試通過對照HIS中的診斷信息、電子病歷記錄的方法,參考《傷害監(jiān)測指南》和我國“醫(yī)院傷害監(jiān)測報告卡”的相關(guān)分類內(nèi)容,逐個提煉并標(biāo)化病例的傷害性質(zhì)、傷害部位信息。如出院診斷是“股骨干骨折”,提煉標(biāo)化后的傷害性質(zhì)是“骨折”,傷害部位為“下肢”。
該研究旨在提供一種挖掘現(xiàn)有業(yè)務(wù)歷史資料對傷害類病例進(jìn)行深入分析的方法。之前,國家和軍隊也開展了許多相關(guān)的研究[9-10],其方法主要是通過進(jìn)行現(xiàn)場問卷調(diào)查、醫(yī)院急診監(jiān)測和住院病歷信息整理再處理等方法,信息采集耗費(fèi)人力、物力。HIS業(yè)務(wù)數(shù)據(jù)庫中信息的電子化存儲方式便于加工整理、易于獲得,且涵蓋了醫(yī)療費(fèi)用、住院時間等醫(yī)療資源消耗方面的信息,為開展傷害研究提供了一個新的思路。然而,由于當(dāng)前的HIS設(shè)計初始沒有考慮傷害監(jiān)測功能,加之各單位HIS的應(yīng)用情況不盡相同,致使信息有選擇性偏移,這需要通過系統(tǒng)的改造與重建來完善。
本研究運(yùn)用數(shù)據(jù)挖掘的有關(guān)思想和技術(shù),立足于“軍衛(wèi)一號”醫(yī)院信息系統(tǒng),通過體系框架設(shè)計、表結(jié)構(gòu)設(shè)計、多維數(shù)據(jù)模型設(shè)計和數(shù)據(jù)抽取集成等過程構(gòu)建了傷害住院病例流行病學(xué)分析主題數(shù)據(jù)庫。將主題數(shù)據(jù)庫的應(yīng)用引入到傷害住院病例監(jiān)測工作中有其積極意義,既擴(kuò)展了HIS業(yè)務(wù)數(shù)據(jù)的應(yīng)用模式,也提高了傷害監(jiān)測工作的效率。目前,國內(nèi)已有解放軍總醫(yī)院、重慶醫(yī)科大學(xué)等多家單位對數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息利用方面做了積極探索與實踐[11-13],但未發(fā)現(xiàn)利用數(shù)據(jù)挖掘技術(shù)對“傷害住院病例流行病學(xué)分析”進(jìn)行研究的相關(guān)文獻(xiàn)。本研究通過相關(guān)業(yè)務(wù)診療信息提取傷害特征信息的做法,為傷害特征研究提供了又一個思路,但其科學(xué)性需要進(jìn)一步論證。通過利用本研究的方法對某綜合性醫(yī)院HIS數(shù)據(jù)庫構(gòu)建傷害住院病例流行病學(xué)分析主題數(shù)據(jù)庫的實例分析,發(fā)現(xiàn)構(gòu)造基于業(yè)務(wù)主題的星形模式多維模型,可以對業(yè)務(wù)數(shù)據(jù)進(jìn)行多層次多角度的分析,但數(shù)據(jù)挖掘方法和展現(xiàn)方式需要科學(xué)化、多樣化。
[1]Inmon WH.數(shù)據(jù)倉庫[M].王志海 譯.北京:機(jī)械工業(yè)出版社,2001.
[2]周炎濤,謝東,吳正國.主題數(shù)據(jù)庫技術(shù)的親合性分析方法研究[J].計算機(jī)工程與應(yīng)用,2005(12):168-170.
[3]張國慶,曹順良,方悼,等.基于構(gòu)件的生命科學(xué)主題數(shù)據(jù)庫構(gòu)建方法[J].計算機(jī)應(yīng)用研究,2007,24(6):12-14.
[4]劉麗華,曹秀堂,郝璐.住院患者主題數(shù)據(jù)集統(tǒng)計集成與應(yīng)用設(shè)計[J].中國醫(yī)院,2007,11(12):8-12.
[5]劉玉,陳金雄.病種分析主題數(shù)據(jù)倉庫的建立[J].醫(yī)學(xué)信息,2008,21(12):2141-2145.
[6]Wong ST,Hoo KS Jr,Knowlton RC,et al.Design and applications of a multimodality image data warehouse framework[J].J Am Med Inform Assoc,2002,9(3):239-254.
[7]Han JW,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰 譯.北京:機(jī)械工業(yè)出版社,2008:70-81.
[8]蔣偉進(jìn),唐代喜,劉青寶.面向主題的關(guān)系——多維數(shù)據(jù)模型建立與數(shù)據(jù)集市[J].微機(jī)發(fā)展,2003,13(6):74-76.
[9]李愨,李麗萍.3622例道路交通傷害住院患者的療效和轉(zhuǎn)歸分析[J].疾病控制雜志,2007,11(4):383-385.
[10]沈敏,劉筱嫻.1444例女性傷害患者住院時間的影響因素分析[J].中國醫(yī)院統(tǒng)計,2005,12(2):115-117.
[11]曹秀堂,郝璐,劉麗華.ODS統(tǒng)計信息資源庫的功能與應(yīng)用[J].中國醫(yī)院,2008,12(12):12-14.
[12]劉麗華,李昕,胡凱.統(tǒng)計信息集成與管理決策支持系統(tǒng)概述[J].中國醫(yī)院,2008,12(12):8-11.
[13]易靜,蘇新良,王潤華.決策樹在乳腺癌高位淋巴結(jié)轉(zhuǎn)移判別診斷中的應(yīng)用[J].重慶醫(yī)科大學(xué)學(xué)報,2009,34(8):606-609.