閆宣辰 姚進文 陳耀龍
1.甘肅省衛(wèi)生健康統(tǒng)計信息中心,甘肅 蘭州730030;2.蘭州大學基礎醫(yī)學院,甘肅 蘭州730000
大數(shù)據(jù)是新一輪信息技術革命與經(jīng)濟社會發(fā)展融合的產(chǎn)物,充斥在人類經(jīng)濟社會的許多角落[1],正在迅疾并日益深刻地改變人們的生產(chǎn)生活方式[2]。并且,隨著云計算、物聯(lián)網(wǎng)等新技術的不斷發(fā)展,各行各業(yè)都積累了數(shù)量龐大的各種數(shù)據(jù),為了對這些數(shù)據(jù)進行有效的利用和挖掘,數(shù)據(jù)的治理逐漸顯現(xiàn)出其重要的作用[3,4]。數(shù)據(jù)治理不僅受到業(yè)界的重視,其相關研究也引起了學界的關注,國外學者[5]提出較為完善的理論體系。為應對新形勢的挑戰(zhàn)和工作的需要,甘肅省衛(wèi)生健康統(tǒng)計信息中心聯(lián)合蘭州大學基礎醫(yī)學院循證醫(yī)學研究所,依托甘肅省全民健康大數(shù)據(jù)平臺,嘗試對我省的健康醫(yī)療大數(shù)據(jù)的治理進行實踐性的探索。本次研究以我省全民健康大數(shù)據(jù)平臺的五大基礎數(shù)據(jù)庫為治理重點,總結大數(shù)據(jù)治理過程中的重點和難點,挖掘大數(shù)據(jù)治理的經(jīng)驗,評估數(shù)據(jù)治理過程中工具的選擇,探索對大數(shù)據(jù)治理的結果進行科學的評估。
甘肅省衛(wèi)生健康委于2016年5月啟動了省級全民健康信息平臺建設,建設內容主要包括:完善全員人口數(shù)據(jù)庫、電子健康檔案數(shù)據(jù)庫和電子病歷數(shù)據(jù)庫,依托省級交換平臺建成醫(yī)療協(xié)同服務、公共衛(wèi)生服務、人口計生服務、醫(yī)療保障管理、藥品采購配送、綜合衛(wèi)生管理等六大應用系統(tǒng),實現(xiàn)面向社會公眾的服務、跨區(qū)域業(yè)務應用協(xié)同和數(shù)據(jù)交換共享、面向各級衛(wèi)生計生機構的綜合信息統(tǒng)計分析、大數(shù)據(jù)應用和決策支持功能。經(jīng)過三年多的建設和發(fā)展,甘肅省的衛(wèi)生信息化取得了明顯的成效,并且積累了大量、優(yōu)質的健康醫(yī)療數(shù)據(jù)。但是,由于醫(yī)療機構信息系統(tǒng)的建設時間、建設主體和承建單位的不同,采用的數(shù)據(jù)庫、平臺、網(wǎng)絡結構等不同,造成了大量形態(tài)不同的數(shù)據(jù)。為進一步提高我省健康醫(yī)療大數(shù)據(jù)的質量,使我省的健康醫(yī)療大數(shù)據(jù)發(fā)揮真正的作用,省衛(wèi)生健康統(tǒng)計信息中心開始探索對大數(shù)據(jù)進行治理。本次數(shù)據(jù)治理在保證不對原有系統(tǒng)做任何改動的前提下,數(shù)據(jù)保留在原系統(tǒng)不做任何遷移,逐項對我省的全員人口數(shù)據(jù)庫、電子病歷數(shù)據(jù)庫、健康檔案數(shù)據(jù)庫、健康扶貧數(shù)據(jù)庫和衛(wèi)生資源數(shù)據(jù)庫進行了治理。
2.1 明確數(shù)據(jù)的標準與規(guī)范 甘肅省全民健康信息平臺是根據(jù)國家信息化建設的要求,以全員人口、電子病歷、健康檔案等五大基礎數(shù)據(jù)庫為基礎,實現(xiàn)了醫(yī)療保障、免疫規(guī)劃和慢病管理等多項業(yè)務系統(tǒng)的互聯(lián)互通,新建了遠程醫(yī)療、雙向轉診等新業(yè)務系統(tǒng),通過居民電子健康卡的創(chuàng)新應用,為我省健康醫(yī)療大數(shù)據(jù)的可持續(xù)發(fā)展奠定了堅實的基礎。該平臺以國家制定的疾病診斷、手術操作、藥品和醫(yī)療服務項目編碼為標準,以全省統(tǒng)一的接口規(guī)范完成了醫(yī)療機構的接口改造工作,基本實現(xiàn)了省、市、縣、鄉(xiāng)、村醫(yī)療機構的全覆蓋。數(shù)據(jù)標準和規(guī)范的制定,一定程度上解決了醫(yī)療機構信息化建設的歷史遺留問題,通過數(shù)據(jù)標準和規(guī)范的明確使醫(yī)院內部多個系統(tǒng)之間、不同醫(yī)療機構之間的數(shù)據(jù)實現(xiàn)互聯(lián)互通,凸顯數(shù)據(jù)深度挖掘的價值。
2.2 最大限度整合歷史數(shù)據(jù) 過去衛(wèi)生行政部門和醫(yī)療機構也積累了大量的歷史數(shù)據(jù),由于歷史原因,數(shù)據(jù)的利用率和開發(fā)程度處于非常低的水平。由于數(shù)據(jù)標準和規(guī)范的不同,歷史數(shù)據(jù)的使用必須要經(jīng)過數(shù)據(jù)的轉化,將其進行轉化為滿足現(xiàn)行標準和規(guī)范的數(shù)據(jù)。歷史數(shù)據(jù)的轉化中,需要建立較多的對應關系和對應規(guī)則,需要充分考慮當時的政策背景和業(yè)務場景。數(shù)據(jù)整合結果的驗證是難度比較大的工作,主要通過抽樣的方法從醫(yī)療機構的HIS系統(tǒng)中進行驗證,其次就是采用循證醫(yī)學的方法在相關的研究文獻中提取驗證規(guī)則。
2.3 有計劃地進行數(shù)據(jù)清洗 數(shù)據(jù)清洗是指在對數(shù)據(jù)進行審核時,將臟數(shù)據(jù)清洗為干凈數(shù)據(jù)的過程。而所謂的臟數(shù)據(jù)則是指在數(shù)據(jù)審計的過程中發(fā)現(xiàn)的有問題的數(shù)據(jù),即低質數(shù)據(jù)。目前,對于數(shù)據(jù)的清洗研究,主要集中體現(xiàn)在缺失數(shù)據(jù)的清洗、冗余數(shù)據(jù)的清洗、異常數(shù)據(jù)的清洗。在數(shù)據(jù)的清洗過程中,科學的分析臟數(shù)據(jù)的類型,根據(jù)不同類型的臟數(shù)據(jù)定義不同的清洗策略。數(shù)據(jù)清洗的粒度必須是從最小粒度“字段”開始,以“字段”為單位制定數(shù)據(jù)的轉化規(guī)則。選擇合適的清洗工具,將計算機決策和人工清洗有效結合,并對清洗的結果進行抽樣驗證。
2.4 科學選擇數(shù)據(jù)清洗技術 隨著信息化技術的不斷發(fā)展,數(shù)據(jù)的清洗技術也隨之發(fā)生了較多的進步。數(shù)據(jù)清洗技術是為了提高數(shù)據(jù)質量而剔除數(shù)據(jù)中錯誤記錄的一種技術手段,在實際應用中通常與數(shù)據(jù)挖掘技術、數(shù)據(jù)倉庫技術、數(shù)據(jù)整合技術結合應用[6,7]。由于歷史的原因,目前采集到的數(shù)據(jù),種類多樣,結構復雜,所以有大量的數(shù)據(jù)需要進行清洗和處理以后,才可以進行利用。傳統(tǒng)的人工處理的成本會非常大,而且效率和準確率有明顯的差異,所以自動化應用軟件的清洗工具也受到了各方的關注。本研究對數(shù)據(jù)的清洗采用以函數(shù)清洗為主結合人工清洗,函數(shù)清洗目前是大數(shù)據(jù)清洗過程中比較常用的一種手段,多于結構性較好的數(shù)據(jù)有明顯的作用,可以同時糾正數(shù)據(jù)的異常、重復、錯誤和缺失等多個方面的問題[8,9]。數(shù)據(jù)的清洗工作主要是在數(shù)據(jù)的預處理環(huán)節(jié)進行,力求從數(shù)據(jù)源頭減少噪聲數(shù)據(jù),有效提高了數(shù)據(jù)的清洗效率和分析結果的準確性。人工數(shù)據(jù)清洗主要是定義清洗規(guī)則和規(guī)則的優(yōu)先級別,清洗過程中對數(shù)據(jù)采用了“分類分級”的清洗思路,不同優(yōu)先級的數(shù)據(jù)制定不同的清洗規(guī)則。
3.1 人口基礎數(shù)據(jù)的質量明顯提高 甘肅省全員人口數(shù)據(jù)庫是我省健康醫(yī)療大數(shù)據(jù)平臺中最基礎的數(shù)據(jù)庫之一,大數(shù)據(jù)時代背景下的人口數(shù)據(jù)治理,必須解決人口大數(shù)據(jù)的開發(fā)難度大、個人隱私等新問題。如何通過數(shù)據(jù)治理,提升人口大數(shù)據(jù)作用以及發(fā)揮人口大數(shù)據(jù)在健康服務的效率提升方面的效果,就成了人口大數(shù)據(jù)治理的目的所在。在進行全員人口信息庫的清洗過程中,通過與公安戶籍登記信息系統(tǒng)的比對以及全員人口信息系統(tǒng)自身的校驗規(guī)則,對人口的基礎數(shù)據(jù)進行了清洗。在治理過程中,明確權利與職責,嚴格保密,全員人口數(shù)據(jù)庫的治理成效顯著。治理后,甘肅省的全員人口數(shù)據(jù)庫總記錄條數(shù)4.8億條,占用存儲124.42G,分屬于12個數(shù)據(jù)庫表。甘肅省常住人口為2600多萬人,錄入基本實現(xiàn)全覆蓋。治理后的全員人口數(shù)據(jù)庫可以實現(xiàn)到鄉(xiāng)鎮(zhèn)級的數(shù)據(jù)查詢,并支持個人查詢。
3.2 電子病例數(shù)據(jù)的價值密度大幅提升 甘肅省健康醫(yī)療大數(shù)據(jù)平臺對電子病歷數(shù)據(jù)庫的治理主要集中在兩個方面:一是數(shù)據(jù)治理如何在保障數(shù)據(jù)質量過程中發(fā)揮的作用;二是在醫(yī)療機構層面,如何運用數(shù)據(jù)治理的手段來提升數(shù)據(jù)的質量。數(shù)據(jù)治理范圍涵蓋:門診就診登記2504.56萬條,急診留觀病歷124.83萬條,門診收費明細4199.11萬條,門診收費明細1.36億條,門診處方明細1.16億條;門診檢驗記錄4233.78萬條,檢查記錄1254.50萬條,檢驗明細8.11億條,細菌結果56.23萬條,藥敏結果173.69萬條。病案首頁住院就診記錄427.49萬條,住院病案首頁主體表110.14萬條,中醫(yī)住院病案首頁12.36萬條。一般護理記錄324.91萬條,手術護理記錄9041條,入院評估單18.45萬條,出院評估單12.23萬條。經(jīng)過治理后,甘肅省健康醫(yī)療大數(shù)據(jù)平臺電子病歷數(shù)據(jù)庫目前實現(xiàn)了門診、住院、手術、麻醉、孕產(chǎn)和護理等16項電子病歷的查詢、統(tǒng)計等功能。甘肅省電子病歷數(shù)據(jù)庫首頁見圖1。
3.3 盤活了我省居民的電子健康檔案 健康檔案是各級衛(wèi)生計生、中醫(yī)藥行政管理部門和醫(yī)療衛(wèi)生計生單位在工作中形成的,具有保存價值的各種形式和載體的歷史記錄[10,11]。近年來,甘肅省電子健康檔案工作與衛(wèi)生計生事業(yè)同步發(fā)展,真實地記錄了我省人民群眾的健康狀況及我省大數(shù)據(jù)發(fā)展歷程與成就。但隨著我省衛(wèi)生計生事業(yè)的不斷發(fā)展,信息化建設工作的不斷深入,我省健康檔案數(shù)量急劇增長,利用需求變化頻繁,利用目的更加多樣化。健康檔案工作不適應的現(xiàn)象越來越突出,如檔案管理的機制體制不夠健全、檔案的基礎業(yè)務不夠扎實、未實現(xiàn)檔案的集中統(tǒng)一管理等。
圖1 甘肅省電子病歷數(shù)據(jù)庫首頁見圖
目前,各類衛(wèi)生健康數(shù)據(jù)均與健康檔案有關,健康檔案大數(shù)據(jù)的治理以互聯(lián)互通為主線,并且在醫(yī)聯(lián)體內實現(xiàn)健康檔案、病歷等互聯(lián)互通,實行檢查結果互認、處方流動、藥品共享。建立醫(yī)學影像、檢查檢驗等中心,在醫(yī)聯(lián)體內提供一體化服務。通過治理后,我省健康檔案數(shù)據(jù)庫集15個,數(shù)據(jù)表52個,累計獲取居民健康信息16506萬條,占用存儲約92G。累計獲得個人基本信息2733.78萬條,個人疾病史306.01萬條,個人家族史280.23條,個人手術史110.81萬條,個人輸血史累計108.22萬條,個人外傷史累計168.94萬條。目前,我省的健康檔案數(shù)據(jù)庫涵蓋了個人檔案、家庭檔案、健康體檢、孕產(chǎn)婦健康、兒童健康等諸多領域,對高血壓、糖尿病和嚴重精神障礙患者實現(xiàn)了全方位監(jiān)測,甘肅省健康檔案數(shù)據(jù)庫首頁見圖2。
3.4 健康扶貧工作的監(jiān)管更加精準 健康扶貧大數(shù)據(jù)的治理,立足于健康扶貧工作的實際應用,以工作需求為導向,挖掘數(shù)據(jù)應用中的問題,試圖解決健康醫(yī)療大數(shù)據(jù)規(guī)模龐大的問題,建立了嚴格的數(shù)據(jù)清洗流程,數(shù)據(jù)清洗的目的就是利用先進的技術手段對醫(yī)療大數(shù)據(jù)中存在的各種問題進行處理,達到補全數(shù)據(jù)、剔除重復數(shù)據(jù)、校驗數(shù)據(jù)、從非結構化文本中提取關鍵數(shù)據(jù)、數(shù)據(jù)標準化和格式統(tǒng)一等目的,最大限度利用醫(yī)療機構、醫(yī)保機構已有數(shù)據(jù),為健康扶貧提供堅實的基礎。
經(jīng)過數(shù)據(jù)治理后,我省的健康扶貧數(shù)據(jù)庫實現(xiàn)了對貧困人口精準篩選,實現(xiàn)了對貧困人口就醫(yī)環(huán)節(jié)的全程監(jiān)管,對健康扶貧工作進行實時監(jiān)管。目前主要分析的指標包含全省的建檔立卡貧困戶的總人數(shù)、參加社會保險人數(shù)、患病人數(shù)、患病人數(shù)中的已治愈人數(shù)和未治愈人數(shù);健康狀況分布情況(健康人群數(shù)、患病人群數(shù)、死亡人數(shù));婚姻狀況分布;兜底保障戶的統(tǒng)計情況;患病的疾病分類情況、因病負債情況等。健康扶貧數(shù)據(jù)庫包含貧困人口檔案、入戶調查記錄和“一人一策記錄”三大模塊,實現(xiàn)了188.28條入戶調查的記錄,核實了163條貧困人口的健康狀態(tài),對3.18萬人的治愈情況進行核實。
3.5 衛(wèi)生資源大數(shù)據(jù)的治理 衛(wèi)生資源大數(shù)據(jù)治理,主要是對重復數(shù)據(jù)剔除和對混亂數(shù)據(jù)整理,這是大數(shù)據(jù)治理中遇到的又一常見問題,如同一醫(yī)療機構有多個名稱和多個醫(yī)療機構代碼,這對后期的精細化管理提出了挑戰(zhàn)。在實際的衛(wèi)生業(yè)務過程中,必須將擁有多個醫(yī)療機構代碼的同一醫(yī)療機構進行統(tǒng)一。數(shù)據(jù)混亂的問題主要集中在醫(yī)生的診斷,針對數(shù)據(jù)混亂的問題,需要根據(jù)具體情況對同一單元格內的多個診斷利用分隔符進行拆分,或使用字典表進行匹配拆分。模糊匹配評分、搜索等方法將經(jīng)常被用來對未使用標準字典診斷名稱的診斷數(shù)據(jù)進行標準化處理。甘肅省衛(wèi)生資源數(shù)據(jù)庫,涵蓋了2.89萬家醫(yī)療機構,總數(shù)據(jù)1.99億條,建立57個數(shù)據(jù)庫表。實現(xiàn)了對200余家二級及二級以上醫(yī)院的衛(wèi)生資源查詢;覆蓋了全省的疾病預防控制中心,包含了1300多家衛(wèi)生院以及1.70萬家村衛(wèi)生室。
圖2 甘肅省健康檔案數(shù)據(jù)庫首頁
4.1 人員的精準定位和識別是大數(shù)據(jù)治理的基礎 大數(shù)據(jù)時代,如何在眾多的業(yè)務數(shù)據(jù)庫中精準定位和識別同一研究對象是較大的技術挑戰(zhàn),如何在同一數(shù)據(jù)庫中定義業(yè)務數(shù)據(jù)的產(chǎn)生是源自同一研究對象是進行大數(shù)據(jù)治理的基礎。醫(yī)療衛(wèi)生行業(yè)涉及老百姓就醫(yī)、醫(yī)保、公共衛(wèi)生、健康體檢等諸多業(yè)務,數(shù)據(jù)的多樣性將長期存在;其次健康醫(yī)療相關數(shù)據(jù)在產(chǎn)生的初期開始,就面臨較大的噪音風險,如:不規(guī)范的業(yè)務操作、數(shù)據(jù)的上傳、數(shù)據(jù)的抽取等任何一個環(huán)節(jié)出現(xiàn)問題,都會對人員的精準定位和識別產(chǎn)生較大困難,尤其是經(jīng)過區(qū)域性的大數(shù)據(jù)平臺進行數(shù)據(jù)匯聚后。所以,針對全員人口數(shù)據(jù)庫的治理是大數(shù)據(jù)治理的基礎,也是首要的工作。
4.2 重復數(shù)據(jù)治理是電子病歷數(shù)據(jù)庫的重點 電子病歷數(shù)據(jù)庫治理的重點領域是:相似、重復數(shù)據(jù),具體表現(xiàn)為:多種形式的記錄描述目標卻相同,或多條同樣記錄表達同樣含義。其產(chǎn)生的原因多種多樣,主要是因為數(shù)據(jù)錄入拼寫錯誤、存儲類型不一致、縮寫不同等方面的原因造成的,與業(yè)務活動緊密銜接[12]。電子病歷數(shù)據(jù)庫是承載患者就醫(yī)業(yè)務流程最重要的數(shù)據(jù)庫,本身就存放了較大規(guī)模的相似或者相同的數(shù)據(jù),所以電子病歷數(shù)據(jù)庫清洗的重點領域應該是重復數(shù)據(jù)的識別和清洗。本次探索發(fā)現(xiàn),對于重復數(shù)據(jù)的清理最佳階段還是數(shù)據(jù)集成之前,在單個業(yè)務系統(tǒng)中,理論上講是不會產(chǎn)生重復數(shù)據(jù),產(chǎn)生相似或重復數(shù)據(jù)的原因多數(shù)是因為業(yè)務辦理環(huán)節(jié)出現(xiàn)的問題,在這個階段對數(shù)據(jù)進行糾正和清洗是最佳階段。
4.3 數(shù)據(jù)的完整性是健康檔案成為“活檔案”的前提健康檔案的真正作用在于成為輔助醫(yī)生進行臨床決策的“活檔案”,成為患者了解自己健康狀況的載體,該系統(tǒng)對于數(shù)據(jù)的延續(xù)性和完整性有自己獨特的要求。最大限度的補全缺失數(shù)據(jù)成為該系統(tǒng)數(shù)據(jù)治理的主要任務。本次治理過程中,首先對缺失數(shù)據(jù)進行科學分類,即分為可獲取數(shù)據(jù)缺失和不可獲取數(shù)據(jù)缺失。可獲取數(shù)據(jù)是指大數(shù)據(jù)平臺中一些客觀數(shù)據(jù),可以從數(shù)據(jù)庫其他表的字段中通過表關聯(lián)、計算、推導等技術手段重新獲取[13]。不可獲取數(shù)據(jù)主要是指臨床數(shù)據(jù)中一些主觀輸入的數(shù)據(jù),無法通過表關聯(lián)等技術手段從數(shù)據(jù)庫其他表的字段中獲取。針對不同類型的數(shù)據(jù)制定不同的回補策略,除了進行多個數(shù)據(jù)庫間的關聯(lián),還應該應用計算或者邏輯關系的推導來獲得。
4.4 數(shù)據(jù)清洗是大數(shù)據(jù)治理的重點和難點 數(shù)據(jù)清洗最首要的工作是分析數(shù)據(jù)源的特點,找到數(shù)據(jù)質量低的原因,確定數(shù)據(jù)清洗的目標。制定合理的數(shù)據(jù)清洗策略和清洗方案,重點清洗的算法和規(guī)則進行研判,并通過抽樣數(shù)據(jù)進行驗證。數(shù)據(jù)清洗技術是大數(shù)據(jù)時代提高數(shù)據(jù)質量的一種技術手段,主要是通過對錯誤數(shù)據(jù)的剔除、缺失數(shù)據(jù)的回補等方式實現(xiàn),在實際應用中通常與數(shù)據(jù)挖掘技術、數(shù)據(jù)倉庫技術、數(shù)據(jù)整合技術結合應用[14,15]。
數(shù)據(jù)清洗是進行數(shù)據(jù)挖掘和數(shù)據(jù)分析的前提,是數(shù)據(jù)質量把控的關鍵環(huán)節(jié)。為了提高數(shù)據(jù)質量和分析結果的準確性,必須在數(shù)據(jù)預處理階段就進行數(shù)據(jù)的清洗,采用不完整數(shù)據(jù)清洗技術、不一致數(shù)據(jù)修復技術、相似重復數(shù)據(jù)清洗技術等修復缺失數(shù)據(jù)。針對不一致數(shù)據(jù)和異常數(shù)據(jù),合并或刪除相似重復數(shù)據(jù),進而保證數(shù)據(jù)預處理質量,提高數(shù)據(jù)利用效率。
4.5 循證醫(yī)學在大數(shù)據(jù)治理中的作用 循證醫(yī)學是一門研究證據(jù)的科學,其在大數(shù)據(jù)治理中的作用有待進行深入的探索和總結[16]。本次治理過程中,基于循證的證據(jù)檢索對治理方案的制定起到了積極的作用。基于函數(shù)的數(shù)據(jù)清洗方法可解決數(shù)據(jù)質量的多個方面的問題,在數(shù)據(jù)預處理環(huán)節(jié)對臟數(shù)據(jù)進行清洗,從數(shù)據(jù)源處減少噪聲數(shù)據(jù),提高數(shù)據(jù)清洗效率[17]。其次,循證醫(yī)學更大的作用在于對數(shù)據(jù)治理的結果進行評價??梢韵到y(tǒng)性的篩選評價指標,建立評價體系,也可以對大數(shù)據(jù)治理的結果進行基于循證的驗證。
綜上所述,健康醫(yī)療大數(shù)據(jù)在其治理過程中面臨較多的技術瓶頸,人員的精準定位和識別是治理的基礎。大數(shù)據(jù)的治理是一項長期的系統(tǒng)性的工程,隨著各種數(shù)據(jù)采集標準的健全和完善,健康醫(yī)療大數(shù)據(jù)的質量會有明顯的提高。但是,站到大數(shù)據(jù)應用的角度來看,大數(shù)據(jù)治理會一直伴隨大數(shù)據(jù)的開發(fā)和利用的全過程。數(shù)據(jù)清洗策略和數(shù)據(jù)清洗工具的選擇,對于數(shù)據(jù)治理的效率和治理的效果有明顯的影響。數(shù)據(jù)治理后的科學評價也是數(shù)據(jù)治理工作的重要一環(huán),將循證醫(yī)學和大數(shù)據(jù)治理工作有效結合,可以對大數(shù)據(jù)治理的結果進行科學的評價。