王 蓓 張 晴 李潔莉 朱家沐*
隨著國家醫(yī)改政策不斷深入,區(qū)域醫(yī)療以健康檔案為中心的信息化工作被放到首要位置[1]。醫(yī)療健康大數(shù)據(jù)的管理成為關(guān)注的焦點,智慧醫(yī)院信息化、數(shù)字化和現(xiàn)代化的發(fā)展,相比傳統(tǒng)的信息化醫(yī)院,有主動感知和智能調(diào)控能力[2]。智慧醫(yī)院擁有強大的計算機軟硬件網(wǎng)絡(luò)平臺,以WiFi技術(shù)、傳感器技術(shù)、數(shù)據(jù)庫技術(shù)和虛擬化存儲來實現(xiàn)醫(yī)院日常醫(yī)療數(shù)據(jù)的集中管理。海量醫(yī)療大數(shù)據(jù)源源不斷儲存到醫(yī)療機構(gòu)的核心數(shù)據(jù)中心,形成了優(yōu)質(zhì)的醫(yī)療資源池,科研、臨床與數(shù)據(jù)倉庫三位一體的健康醫(yī)療大數(shù)據(jù)庫應(yīng)運而生。為全面提高健康醫(yī)療大數(shù)據(jù)的管理水平和數(shù)據(jù)利用率,依托物聯(lián)網(wǎng),采用先進的醫(yī)療大數(shù)據(jù)分析工具,研究出最優(yōu)應(yīng)用解決方案,深層挖掘這些數(shù)據(jù)的潛力和內(nèi)涵,指導(dǎo)臨床和科研工作,為患者的健康管理和精準醫(yī)療提供支撐。
物聯(lián)網(wǎng)(internet of things,LOT)是以互聯(lián)網(wǎng)和信息專網(wǎng)等為網(wǎng)絡(luò)骨架,按照標準網(wǎng)絡(luò)協(xié)議對客觀存在對象或信息數(shù)據(jù)實現(xiàn)網(wǎng)絡(luò)尋址訪問的網(wǎng)絡(luò),有智能、先進及互聯(lián)三個顯著特點,能夠?qū)崿F(xiàn)醫(yī)療業(yè)務(wù)數(shù)據(jù)采集、加工、傳遞和儲存,能通過射頻識別(radio frequency identification,RFID)技術(shù)、紅外感應(yīng)器及全球定位系統(tǒng)(global positioning system,GPS)等信息傳感設(shè)備,實現(xiàn)被跟蹤對象的智能識別、精準定位、數(shù)據(jù)跟蹤和行為監(jiān)控[3]。
物聯(lián)網(wǎng)在醫(yī)療機構(gòu)應(yīng)用中,最早用于醫(yī)院各種物資材料的物流供應(yīng)管理。近年來,由于人工智能(artificial intelligence,AI)、移動互聯(lián)網(wǎng)、可穿戴設(shè)備及便攜式醫(yī)療儀器的廣泛使用,現(xiàn)代醫(yī)學(xué)基礎(chǔ)科學(xué)研究快速發(fā)展,誕生了很多人工智能和跨地區(qū)、跨應(yīng)用平臺的新應(yīng)用,如針對社區(qū)患者的慢性病健康保健管理平臺、分級診療的三級聯(lián)通系統(tǒng)、家庭醫(yī)生信息管理系統(tǒng)、人體醫(yī)療健康大數(shù)據(jù)、公共衛(wèi)生疾病預(yù)防、醫(yī)療保健、藥品保障信息系統(tǒng)、遠程自助健康服務(wù)及個性化診療服務(wù)等[4]。
物聯(lián)網(wǎng)由于基于先進移動網(wǎng)絡(luò),可通過掃描RFID識別碼快速獲取被查詢對象的相關(guān)信息和追溯根源,對醫(yī)療機構(gòu)的醫(yī)療設(shè)備、醫(yī)用耗材的監(jiān)管,有得天獨厚的優(yōu)勢,可根據(jù)醫(yī)院設(shè)備信息系統(tǒng)的設(shè)備檔案數(shù)據(jù)進行快速查詢,清楚地掌握設(shè)備生產(chǎn)、購銷和啟用情況,還可對醫(yī)療活動中醫(yī)療設(shè)備的使用、保養(yǎng)、維修、不良事件上報及報廢等全過程進行監(jiān)控和處理,同時實現(xiàn)患者使用各種儀器和高值耗材時,保證“一物一碼,信息透明,費用明晰”。如患者神經(jīng)外科手術(shù)后,安裝鈦板或支架,醫(yī)院就可以通過物聯(lián)網(wǎng)對其使用的醫(yī)療耗材或器械進行RFID的智能識別跟蹤,一旦出現(xiàn)有產(chǎn)品的使用問題,醫(yī)院可快速查明原因和及時處理問題[5-6]。
在日常的醫(yī)療活動中,系統(tǒng)中會生成各種各樣的實時數(shù)據(jù),其數(shù)據(jù)按結(jié)構(gòu)類型分,有來源于甲骨文公司(Oracle)、微軟公司SQL server等數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這些不同結(jié)構(gòu)的數(shù)據(jù)通過物聯(lián)網(wǎng)匯聚在一起,形成了龐大的醫(yī)療健康數(shù)據(jù)集。2014年的中國信息學(xué)學(xué)術(shù)年度會議上已經(jīng)明確聲明,國內(nèi)醫(yī)療機構(gòu)的數(shù)據(jù)規(guī)模已經(jīng)從GB達到PB的數(shù)量級,醫(yī)院的大數(shù)據(jù)管理重點已經(jīng)從粗放型快速建設(shè)轉(zhuǎn)化為精細化管理階段,數(shù)據(jù)日益增加,甚至可能出現(xiàn)數(shù)據(jù)大爆發(fā)的情況。
目前,常用的大數(shù)據(jù)分析工具有MapReduce、Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)、HBas及Zookeeper等,本研究主要采用HDFS工具從大數(shù)據(jù)挖掘的采集、分類、歸檔和分析整合4個階段分析醫(yī)療大數(shù)據(jù)[7]。
健康醫(yī)療大數(shù)據(jù)的采集主要采用生物識別技術(shù)(biometrics technology,BT),通過人體的指紋、指靜脈、人臉及虹膜等生理特性和筆跡、聲音、步態(tài)等行為特征鑒定個人身份。①患者在醫(yī)院就診時,通過醫(yī)院的感應(yīng)識別系統(tǒng)記錄患者的特征,與其身份證、社??ㄐ畔⑦B接形成身份確認,方便病歷歸檔和就診記錄的追蹤;②患者在社區(qū)就診,通過醫(yī)院的醫(yī)聯(lián)體或社區(qū)服務(wù)終端進行遠程身份登記,跨區(qū)進行實時就診情況的記錄和傳送,保證數(shù)據(jù)的有效性、準確性;③患者在家中或是與簽約的家庭醫(yī)生就診過程中,通過移動互聯(lián)網(wǎng)、便攜式醫(yī)療儀器及可穿戴式醫(yī)療設(shè)備進行實時采集生理數(shù)據(jù),由網(wǎng)絡(luò)傳送到醫(yī)療機構(gòu)的服務(wù)器中。
健康醫(yī)療大數(shù)據(jù)在數(shù)據(jù)挖掘時,采集得到的數(shù)據(jù)主要是醫(yī)院信息系統(tǒng)(hospital information system,HIS)、檢驗信息系統(tǒng)(laboratory information system,LIS)、影像歸檔及傳輸系統(tǒng)(picture archiving and communication systems,PACS)及放射學(xué)信息系統(tǒng)(radiology information system,RIS)等系統(tǒng)數(shù)據(jù)和基于電子病歷(electronic medical record,EMR)的處方管理、居民健康保健管理、婦幼保健信息、干部健康管理、公共衛(wèi)生傳染病預(yù)警、慢性病預(yù)防治療、遠程自助健康服務(wù)、腫瘤個性化診療服務(wù)、人體基因數(shù)據(jù)及醫(yī)學(xué)科研實驗數(shù)據(jù)等[8]。這些系統(tǒng)產(chǎn)生的數(shù)據(jù)按照異構(gòu)數(shù)據(jù)處理,直接利用是無法進行分析的,將這些數(shù)據(jù)庫中索引表里的關(guān)鍵字段進行關(guān)聯(lián),采用數(shù)據(jù)異構(gòu)同化處理工具二次鏈接,保證數(shù)據(jù)的可用性和完整性。不同類別的數(shù)據(jù)形成許多具有共同屬性的集合,分為文字、數(shù)據(jù)包、圖像、文檔及數(shù)據(jù)表等。
采集的數(shù)據(jù)分門別類后,歸類進入數(shù)據(jù)存儲單元。將數(shù)據(jù)資源進行數(shù)據(jù)聚類分析、關(guān)聯(lián)分析、元素因子分析、主成分分析、數(shù)據(jù)定義、數(shù)據(jù)歸類和數(shù)據(jù)聚合分析專家系統(tǒng)等過程處理,然后開始數(shù)據(jù)屬性標簽及數(shù)據(jù)項分解操作,大數(shù)據(jù)分析工具對數(shù)據(jù)完成標準化歸檔,主要流程分別為數(shù)據(jù)一級歸檔、數(shù)據(jù)標簽分析、數(shù)據(jù)二級歸檔、數(shù)據(jù)項元素分解、數(shù)據(jù)項設(shè)計。數(shù)據(jù)聚合分析模型如圖1所示。
圖1 數(shù)據(jù)聚合分析模型圖
大數(shù)據(jù)的特點與傳統(tǒng)的數(shù)據(jù)相比有很大區(qū)別,需要高效的計算機運行單元和分析處理工具HDFS才能完成大規(guī)模并行計算。健康醫(yī)療大數(shù)據(jù)的分析整合主要有下述5個步驟。
圖2 大數(shù)據(jù)系統(tǒng)性數(shù)據(jù)采集指標體系圖
(1)針對前端不同渠道進行數(shù)據(jù)堆棧標記,采集多維多源數(shù)據(jù),并保證數(shù)據(jù)不丟失。
(2)得到多維度數(shù)據(jù)后,采用分析工具HDFS,用數(shù)據(jù)工具的抽取交互轉(zhuǎn)化加載(extract transform load,ETL)對其進行結(jié)構(gòu)化處理和存入數(shù)據(jù)庫。
(3)由ETL處理后的標準化結(jié)構(gòu)數(shù)據(jù),送入數(shù)據(jù)存儲管理池,轉(zhuǎn)運到底層的數(shù)據(jù)倉庫中,進行分類分片存放。
(4)根據(jù)分類的數(shù)據(jù)集,用R函數(shù)包對其進行數(shù)據(jù)建模和算法設(shè)計。
(5)按照建立的各種類數(shù)據(jù)模型及架構(gòu)算法,結(jié)合前端不同醫(yī)療業(yè)務(wù)特征,由事件觸點的標記來對應(yīng)相關(guān)的位置。大數(shù)據(jù)系統(tǒng)性數(shù)據(jù)采集指標體系如圖2所示。
面對海量而珍貴的健康醫(yī)療大數(shù)據(jù),缺乏好的管理方法和優(yōu)秀的分析工具,是無法充分利用好這些寶貴的資源。使用好數(shù)據(jù),就一定要對數(shù)據(jù)進行深層次的分析和挖掘。數(shù)據(jù)挖掘(data mining,DM)是指從大量的數(shù)據(jù)中通過算法搜索隱藏其中信息的過程[9]。國際上有研究機構(gòu)先后對大數(shù)據(jù)的挖掘利用做了相關(guān)研究,Active Health Management通過收集用戶健康方面的數(shù)據(jù)完善和建立健康管理;CancerIQ通過整合臨床數(shù)據(jù)和基因數(shù)據(jù)預(yù)測癌癥風(fēng)險評估、預(yù)防和治療;CliniCast用大數(shù)據(jù)預(yù)測治療效果和降低花費;麥肯錫全球研究院預(yù)計使用大數(shù)據(jù)分析技術(shù)每年為美國節(jié)省3000億美元開支[5]。
醫(yī)院健康醫(yī)療大數(shù)據(jù)以“健康管理和患者為中心”的宗旨系統(tǒng)設(shè)計,充分利用采集的數(shù)據(jù)進行有效分析,在系統(tǒng)應(yīng)用初期,就可對分散無序的醫(yī)療健康信息數(shù)據(jù)進行整合,按照機器學(xué)習(xí)和人工智能模式自動分析,形成透明直觀數(shù)據(jù)分析報告[10]。經(jīng)過近2年的實際使用和研究,采用醫(yī)院醫(yī)患通APP手機平臺問卷調(diào)查評價系統(tǒng),客觀調(diào)查醫(yī)務(wù)人員和患者滿意度,從大數(shù)據(jù)的數(shù)據(jù)挖掘及其統(tǒng)計分析數(shù)據(jù)工具的使用前后對比,居民健康管理檔案建檔率由原來的56%上升到了91%,患者來院的就診滿意度由原來的83%上升到了95%,相關(guān)疾病預(yù)警與早篩檢出率由原來的50%上升到了75%。利用大數(shù)據(jù)技術(shù)不僅能有效降低醫(yī)療成本,還可以整合患者基因信息指導(dǎo)個性化治療,利用大數(shù)據(jù)技術(shù)分析人口健康數(shù)據(jù)還可以預(yù)防疾病爆發(fā)等。
通過對醫(yī)院管理系統(tǒng)和院外社區(qū)健康管理平臺的醫(yī)療健康大數(shù)據(jù)深層挖掘分析,以物聯(lián)網(wǎng)技術(shù)平臺將多源的移動互聯(lián)設(shè)備、可穿戴醫(yī)療設(shè)備及智慧醫(yī)院信息系統(tǒng)中的數(shù)據(jù)集中管理[11-12]。經(jīng)過數(shù)據(jù)篩選分類以及數(shù)據(jù)異構(gòu)中間件的處理,進行多參數(shù)統(tǒng)計學(xué)分析,實現(xiàn)醫(yī)生實時診斷查詢、疾病情況預(yù)測、疾控預(yù)警服務(wù)、患者健康管理和基因檢測結(jié)果的應(yīng)用。通過物聯(lián)網(wǎng),與省級疾病預(yù)防控制中心的公共衛(wèi)生傳染病預(yù)警和慢性病預(yù)防治療系統(tǒng)互聯(lián),開放網(wǎng)絡(luò)數(shù)據(jù)資源,逐步建立居民健康保健管理、婦幼保健信息、干部健康管理、遠程自助健康服務(wù)、腫瘤個性化診療服務(wù)、人體基因數(shù)據(jù)及醫(yī)學(xué)科研實驗數(shù)據(jù),為精準醫(yī)療和保健管理現(xiàn)代化奠定基礎(chǔ)[13]。