曹 琳,許鳳娟,史高松,高士洪
(哈爾濱醫(yī)科大學附屬第一醫(yī)院病案復核室,黑龍江 哈爾濱 150001)
近年來,大數(shù)據(jù)引起了產(chǎn)業(yè)界、科技界和政府部門的高度關注。2008年《Nature》出版??癇ig Data”[1],2011年《Science》也推出關于數(shù)據(jù)處理的??癉ealing with data”[2],2012 年3 月奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”[3],將“大數(shù)據(jù)研究”上升為國家意志。同樣,醫(yī)療衛(wèi)生領域也迎來了“大數(shù)據(jù)時代”,如在藥物研發(fā)中使用基因數(shù)據(jù)、臨床實驗數(shù)據(jù)的共享、電子病歷系統(tǒng)(EMRs)的廣泛使用以及醫(yī)療保險、患者登記和社會媒體中的數(shù)據(jù)使用等[4]。病案是醫(yī)護人員記錄患者疾病診療過程的文件。它客觀、完整、連續(xù)地記錄了患者的診療經(jīng)過、病情變化、治療效果等情況,是醫(yī)院醫(yī)療、教學、科研的基礎資料[5],也是建設醫(yī)療健康大數(shù)據(jù)的核心和基礎。醫(yī)療健康大數(shù)據(jù)的發(fā)展方興未艾,很多問題還有待深入研究,文章從醫(yī)療健康大數(shù)據(jù)的運用前景出發(fā),分析醫(yī)療健康大數(shù)據(jù)視角下當前病案管理存在的不足,并提出對策建議,為加強醫(yī)院病案統(tǒng)計及管理、建設醫(yī)療健康大數(shù)據(jù)提供參考。
美國聯(lián)邦政府和州級政府自2014年以來制定的32,600余份衛(wèi)生相關政策文件均使用大數(shù)據(jù)平臺所獲取的支持數(shù)據(jù)[6]。傳統(tǒng)的衛(wèi)生決策與衛(wèi)生政策制定主要根據(jù)下級反饋、上級調(diào)研和簡單的衛(wèi)生統(tǒng)計數(shù)據(jù)。在醫(yī)療健康大數(shù)據(jù)的背景下,通過建立全員人口、健康檔案和電子病歷三大數(shù)據(jù)庫共享平臺和共享機制,建立覆蓋全國的基本公共衛(wèi)生、電子病歷共享、新農(nóng)合結算、衛(wèi)生監(jiān)督、免疫規(guī)劃和預約掛號等業(yè)務應用,實現(xiàn)健康醫(yī)療領域的數(shù)據(jù)匯聚、系統(tǒng)互聯(lián)和信息共享,衛(wèi)生政策制定時能以衛(wèi)生信息系統(tǒng)平臺和各部門相關衛(wèi)生數(shù)據(jù)為基礎,同時采集、存儲、挖掘、分析和優(yōu)化全國乃至國際相關衛(wèi)生決策所需數(shù)據(jù),構建基于大數(shù)據(jù)的衛(wèi)生政策分析框架:包括衛(wèi)生籌資、衛(wèi)生規(guī)劃、衛(wèi)生績效評價、藥品使用監(jiān)測、衛(wèi)生技術評估等模塊,并開展衛(wèi)生政策理論和應用型研究,促進衛(wèi)生決策與衛(wèi)生政策制定的透明度和科學性。
傳統(tǒng)臨床決策主要基于患者主訴和即時性檢查結果等橫斷面資料。醫(yī)療健康大數(shù)據(jù)將為臨床醫(yī)生提供患者出生、經(jīng)歷、就業(yè)、居住、環(huán)境等傳統(tǒng)診療模式下不易收集的全面資料,幫助醫(yī)生做出高效、準確、低成本的臨床決策。美國哈佛大學的亨利·麥道爾斯博士與IBM公司合作,基于衛(wèi)生大數(shù)據(jù)系統(tǒng)來監(jiān)測早產(chǎn)兒感染情況的發(fā)生,這套系統(tǒng)可以為早產(chǎn)兒多爭取到16 h的治療時間,即系統(tǒng)可以在感染癥狀明顯發(fā)生的16 h前發(fā)出警示信息[7]。美國西達賽奈(Cedars-Sinai)醫(yī)療中心新開發(fā)的信息系統(tǒng)(All Health Robotics)通過促進電子健康檔案系統(tǒng)(EHRs)和醫(yī)療數(shù)據(jù)的交換,每年可以節(jié)省21億美元的醫(yī)療資源[8]。另外,將單個樣本數(shù)據(jù)使用大數(shù)據(jù)算法進行處理,可以觀測到單個樣本不能檢測出的細小差別,為醫(yī)生提供更加科學的、符合循證醫(yī)學原則的臨床指導建議。美國杜克大學醫(yī)學中心借助普惠超級計算機的大數(shù)據(jù)處理能力,通過吸收325萬頁病案數(shù)據(jù)、12萬份臨床試驗和55種醫(yī)療雜志報道的12萬份數(shù)據(jù),開發(fā)出了一套腫瘤治療決策工具。該工具可以根據(jù)輸入信息自動生成診斷、治療建議,據(jù)統(tǒng)計該工具給出的診療建議89%被臨床醫(yī)生采納[9]。
藥物研發(fā)是醫(yī)療健康大數(shù)據(jù)運用的重要領域。第一,在藥物研發(fā)立項階段,通過大數(shù)據(jù)技術分析大范圍的病案資料,綜合藥物治療時間、出院結局、治療費用等信息,判斷當前同類產(chǎn)品的效果和性價比,有針對性地進行更有替代產(chǎn)品的研發(fā)。諾華公司治療慢性心衰的藥物Entresto在立項階段即使用了谷歌、拓爾思等40家大數(shù)據(jù)公司的3000萬條數(shù)據(jù)[10]。另外,藥物研發(fā)機構還可以以通過收集更大范圍的健康大數(shù)據(jù),找出社會公眾藥品需求的“痛點”,以合理配置資源,確立更有市場前景的藥物研發(fā)項目。第二,在確定藥物研發(fā)方向階段,藥物研發(fā)機構在評估病案資料大數(shù)據(jù)的基礎上,還可以利用臨床試驗、代謝組學、蛋白質(zhì)組學、基因組學等數(shù)據(jù),來確定擬開發(fā)藥物個性化的治療原理。第三,在藥物上市階段,要全面占有文獻數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)測數(shù)據(jù)和Ⅳ期臨床試驗數(shù)據(jù),并使用大數(shù)據(jù)技術整合分析以上所有數(shù)據(jù),進行全方位、多層次、多角度的分析,以準確評估藥物上市后的經(jīng)濟性、有效性和安全性。英國藥品監(jiān)管部門通過大數(shù)據(jù)技術,來追蹤和整合包括促銷支出、藥房、廣告、制造、出版物、消費者和科研人員等信息,每年使用3.2億條數(shù)據(jù)以監(jiān)控藥品銷售情況、市場分布情況和用藥安全情況[4]。
通過連續(xù)分析和不斷整合疾病疫情信息,能不斷提高公共衛(wèi)生預警和預報能力。常超一等[11]結合各地的航空可達性,并整合多種來源的數(shù)據(jù),對甲型H1N1流感的航空旅行擴散、空間分布、流行病學特征進行了探索性的預測估計。法國巴黎瑞爾斯醫(yī)學中心采用To Diseases預測模型,有效使區(qū)域內(nèi)的高風險患者急診就診率降低了42%,還將這部分高風險患者的月再入院率從29%降到9%[12]。有研究顯示,影響健康的因素只有10%左右已被衛(wèi)生工作者認定,另外90%的影響因素(社會經(jīng)濟狀況、自然環(huán)境、遺傳因素、健康行為等)還未被確認[13]。大數(shù)據(jù)技術可以將個人和行為數(shù)據(jù)信息(如娛樂方式、收入、飲食習慣、教育狀況等)與醫(yī)療健康信息(如既往史、診療信息等)統(tǒng)籌起來,對健康危險因素進行比對關聯(lián)研究,制作特定區(qū)域、特定人群的健康危險因素圖譜。這種基于社會和醫(yī)療數(shù)據(jù)、直接針對最適宜人群實施的干預措施將會更加直接、有效。
現(xiàn)階段醫(yī)院病案管理和統(tǒng)計的目的主要是歷史檔案存儲、醫(yī)學法律證據(jù)留存和醫(yī)療評價,分析利用的水平還不夠高。且由于工作慣性和技術手段的限制,病案資料的共享、整合、利用嚴重滯后,使得各醫(yī)療衛(wèi)生單位都保存有一定數(shù)量的病案資料,但由于互聯(lián)互通、共享利用的不足,形成了單個數(shù)據(jù)體量較小(10TB數(shù)量級)但機構數(shù)量眾多(3萬余家)的病案信息孤島。
醫(yī)療健康大數(shù)據(jù)的分析、利用需基于統(tǒng)一的信息處理標準之上。建設覆蓋大區(qū)域、多部門的病案信息共享中心和醫(yī)療機構內(nèi)部信息共享中心也需要基于統(tǒng)一的信息處理標準之上。不同來源、不同維度的病案數(shù)據(jù)單元需使用統(tǒng)一編碼機制,才能使用大數(shù)據(jù)技術匯總、整合為有序、統(tǒng)一的大數(shù)據(jù),而不是雜亂無序的大數(shù)據(jù)。傳統(tǒng)的病案管理核心標準有手術編碼(ICD-9-CM-3)和疾病編碼(ICD-10),這一基于紙媒的標準已經(jīng)不適應醫(yī)療健康大數(shù)據(jù)分析的要求。
我國傳統(tǒng)病案信息的外顯方式是醫(yī)務人員借閱和患者復印,做好簡單的借閱復印、登記即可滿足隱私和權利保護的需要。但大數(shù)據(jù)技術使得病案信息的流傳、分享變得更加便捷和不可控,如果患者的個人信息、病情甚至蛋白、基因等隱私信息遭到泄露,將會使醫(yī)院病案管理陷入極大的法律風險之中。
我國傳統(tǒng)的病案收集方法是由臨床醫(yī)生手寫、臨床科室整理后上報,導致病案信息匯總的時效性不強,也不便于病案信息的后期數(shù)字化處理。另外,傳統(tǒng)病案數(shù)據(jù)分析方法主要針對結構化數(shù)據(jù)展開,即有的病案信息處理流程、分析體系能高效地處理相對較少的結構化數(shù)據(jù)。在醫(yī)療健康大數(shù)據(jù)時代,非結構化數(shù)據(jù)和半結構化數(shù)據(jù)量正在快速增加,給傳統(tǒng)的病案統(tǒng)計分析技術帶來了巨大的挑戰(zhàn)。
醫(yī)療健康大數(shù)據(jù)的匯總和統(tǒng)計分析人員不僅需要具備醫(yī)學知識、統(tǒng)計學知識,更需要具備互聯(lián)網(wǎng)、信息化、大數(shù)據(jù)方面的知識和技能?,F(xiàn)階段病案管理人員以醫(yī)學、統(tǒng)計學、數(shù)學、檔案管理學等專業(yè)背景為主,其中統(tǒng)計學、數(shù)學、檔案管理學背景約占80%,醫(yī)學約占15%,計算機專業(yè)背景僅占約5%[14],前兩類人才普遍不具有互聯(lián)網(wǎng)思維和大數(shù)據(jù)處理能力,使得醫(yī)療機構普遍缺乏病案管理、大數(shù)據(jù)方面的復合型人才。
醫(yī)療健康大數(shù)據(jù)之所以“大”,是因為要匯聚、整合海量的電子病案信息。由于電子病案信息的隱私性和敏感性,醫(yī)療健康大數(shù)據(jù)的形成必須反互聯(lián)網(wǎng)發(fā)展“去中心化”而行之,以政府公信力為保障建設全國性病案信息共享平臺。國家衛(wèi)生與健康行政管理部門要以服務民生、發(fā)展健康產(chǎn)業(yè)為出發(fā)點,推進建設區(qū)域性、乃至全國性的醫(yī)療衛(wèi)生數(shù)據(jù)資源庫及其“大數(shù)據(jù)”信息處理與共享平臺,以整合、匯聚并開發(fā)利用電子病案信息,并在保密的前提下向公眾和企業(yè)開放。區(qū)域性、乃至全國性病案信息共享平臺除了電子病案信息和居民健康檔案管理系統(tǒng)以外,還應有公共衛(wèi)生疫情直報系統(tǒng)、衛(wèi)生突發(fā)事件應急處理系統(tǒng)、醫(yī)院信息管理系統(tǒng)(如PACS、CIS、HIS)等,甚至使用數(shù)據(jù)挖掘、網(wǎng)絡機器人、爬蟲技術、云計算等互聯(lián)網(wǎng)信息技術手段,囊括科學文獻數(shù)據(jù)庫、社交網(wǎng)絡、患者行為、藥物研發(fā)、生命科學研究等方面的大量生物醫(yī)學相關信息,構建一個內(nèi)涵豐富、外延廣泛的病案信息共享平臺。
醫(yī)療健康大數(shù)據(jù)匯聚形成的基礎是標準化數(shù)據(jù)和規(guī)范化數(shù)據(jù)。2016年國家標準化管理委員會批準發(fā)布了《GB/T 14396-2016疾病分類與代碼》,手術分類編碼國家標準亦在制定中,其目的就是為后期病案大數(shù)據(jù)管理作準備。對于病案中其他數(shù)據(jù)項,國家在2011年頒布新版病案首頁時,同時發(fā)布了相關標準,醫(yī)療機構病案統(tǒng)計管理部門應加強與臨床醫(yī)師溝通,定期在全院分??平M織診斷和手術填寫培訓,針對各臨床??埔壮霈F(xiàn)問題進行專項培訓,提高臨床醫(yī)生病歷書寫的標準化能力。病案統(tǒng)計管理人員要盡快學習和掌握上述應標準,推行使用標準編碼。另外,新形勢下應由國家衛(wèi)生與健康行政管理部門組織力量,制定新的、符合大數(shù)據(jù)要求的病案標準,促進病案信息統(tǒng)計工作和醫(yī)療健康大數(shù)據(jù)的建設。
目前,很多互聯(lián)網(wǎng)專家認為在將數(shù)據(jù)加入到大數(shù)據(jù)庫之前,通過電腦程序將患者能夠被識別的信息從醫(yī)療記錄中去除,可以克服傳統(tǒng)病案管理私隱保護不足的問題[9,10,13]。但是,由于缺乏獨特的識別信息,可能導致其他數(shù)據(jù)不能和研究的其他樣本整合,也不能進行某類人群的大范圍研究。而且去識別化過程本身需要處理可識別的信息,可能使患者信息在沒有經(jīng)過知曉、同意和授權的情況下被其他人使用。此外,在現(xiàn)在的法律框架下,與去識別信息有關的研究也不受人體試驗研究相關規(guī)定約束、不受政府隱私法規(guī)的保護,類似基因信息等一些數(shù)據(jù)也很難做到合適的去識別化。所以,醫(yī)療健康大數(shù)據(jù)的隱私保護還有賴于在去識別化和加強隱私保護之間尋找到最佳平衡。
為了形成對疾病或患者群的整體觀,連續(xù)收集同一數(shù)據(jù)(縱向數(shù)據(jù))和結合多種類型的數(shù)據(jù)(如不同患者的醫(yī)保數(shù)據(jù)、社會人口學資料、EMRs等)都是非常必要的。而數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多地以不同的形式,散布于不同的系統(tǒng)和平臺中。醫(yī)療大數(shù)據(jù)除了大數(shù)據(jù)所具有的“4V”特征外,還具有多態(tài)性、不完整性、時間性及冗余性等特征[14]。為了便于進行數(shù)據(jù)分析,需要解決數(shù)據(jù)的異構性及數(shù)據(jù)的質(zhì)量問題,各方面產(chǎn)生的大數(shù)據(jù)有待進行有效的整合。因此,要積極采用現(xiàn)代信息技術,如電子掃描、微縮攝影、OCR文字識別、HDFS、大數(shù)據(jù)Web工具、云計算、Docker技術等,來記錄、統(tǒng)計病案材料。
面對醫(yī)療健康大數(shù)據(jù)的挑戰(zhàn),要摒棄傳統(tǒng),以大數(shù)據(jù)統(tǒng)計為基準調(diào)整優(yōu)化病案管理團隊,應將統(tǒng)計學、檔案學背景人員占比調(diào)整到50%左右,并且需經(jīng)過相關專業(yè)培訓考核;另外聘任30%計算機、互聯(lián)網(wǎng)等有關專業(yè)人員,解決日常統(tǒng)計相關問題,配合醫(yī)療機構、衛(wèi)生行政部門進行數(shù)據(jù)管理;其次可以有20%左右的臨床、護理相關專業(yè)人員??剖覂?nèi)部實行輪轉制度,使工作人員熟悉所有崗位流程,了解數(shù)據(jù)走向,從源頭提高數(shù)據(jù)質(zhì)量。