徐 娟,魏子重,高妍方,包國峰
(1.山東第一醫(yī)科大學附屬省立醫(yī)院信息網(wǎng)絡管理辦公室,山東濟南 250021;2.浪潮云信息技術(shù)股份公司,山東 濟南 250022;3.山東建筑大學 管理工程學院,山東 濟南 250101)
我國醫(yī)院信息化經(jīng)過近30 年的建設,大部分中大型醫(yī)院已基本形成以醫(yī)院信息管理系統(tǒng)(HIS)、電子病歷(EMR)、實驗室信息管理系統(tǒng)(LIS)、醫(yī)學影像系統(tǒng)(PACS)以及放射信息管理系統(tǒng)(RIS)等為主要應用的綜合性信息系統(tǒng),能夠滿足臨床服務流程業(yè)務需求,為醫(yī)院管理提供一定的支撐[1]。
醫(yī)院信息建設規(guī)模越來越大,應用越來越復雜,由于系統(tǒng)處理業(yè)務和采用的技術(shù)架構(gòu)不同,導致在數(shù)據(jù)結(jié)構(gòu)形式上呈現(xiàn)多源異構(gòu)性,如影像、內(nèi)鏡、心電系統(tǒng)等產(chǎn)生的視頻、圖像等多媒體格式存儲的非結(jié)構(gòu)化數(shù)據(jù),HIS、LIS 系統(tǒng)產(chǎn)生的患者信息、醫(yī)囑處方、檢驗指標等結(jié)構(gòu)化數(shù)據(jù),電子病歷系統(tǒng)產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)。同一屬性在各自系統(tǒng)中有不同命名和表達方式,類型不統(tǒng)一、數(shù)據(jù)來源廣泛、非結(jié)構(gòu)化程度高,必須對多源異構(gòu)的醫(yī)療數(shù)據(jù)進行匯聚和整合,轉(zhuǎn)換為高質(zhì)量的數(shù)據(jù)集,為臨床診療、大數(shù)據(jù)應用提供支撐。而如何研發(fā)醫(yī)療大數(shù)據(jù)挖掘與分析技術(shù),構(gòu)建臨床數(shù)據(jù)中心,研發(fā)數(shù)據(jù)集融合技術(shù),實現(xiàn)各類臨床數(shù)據(jù)的采集,研究多模態(tài)異構(gòu)、非結(jié)構(gòu)化醫(yī)療大數(shù)據(jù)挖掘與分析技術(shù)體系成為重點[2]。
醫(yī)療大數(shù)據(jù)的融合與匯集一直是重要的研究課題。在大數(shù)據(jù)環(huán)境下,劉金晶等[3]提出了一種數(shù)據(jù)質(zhì)量策略,通過建立數(shù)據(jù)質(zhì)量評價體系,從完整性、一致性、準確性、及時性4 個方面評估數(shù)據(jù)質(zhì)量,為提升數(shù)據(jù)質(zhì)量提供管理依據(jù);馬云等[4]提出兩種臨床數(shù)據(jù)中心構(gòu)建模型:共享信息模型與邏輯集中模型,分析認為邏輯集中方式比較適合醫(yī)院構(gòu)建臨床數(shù)據(jù)中心。在信息建設初期,邏輯集中方式的臨床數(shù)據(jù)中心構(gòu)建,通過集成平臺減少系統(tǒng)間數(shù)據(jù)訪問,降低系統(tǒng)之間的耦合度,適合解決當前醫(yī)療機構(gòu)多系統(tǒng)交互問題。而隨著信息技術(shù)在醫(yī)療領(lǐng)域的應用,臨床人員要求全面、準確的患者數(shù)據(jù),構(gòu)建基于大樣本數(shù)據(jù)的科研應用需求日益凸顯,整合構(gòu)建獨立的臨床數(shù)據(jù)中心成為未來臨床診療服務的必然過程。國家衛(wèi)生健康委關(guān)于《國家醫(yī)療健康信息醫(yī)院互聯(lián)互通標準化成熟度測評》評級標準提出“具備基于醫(yī)院信息平臺獨立的臨床數(shù)據(jù)庫”要求,對數(shù)據(jù)傳輸時效性提出明確標準。國家衛(wèi)生健康委發(fā)布的《電子病歷系統(tǒng)應用水平分級評價標準(試行)》將電子病歷系統(tǒng)應用水平劃分為9 個等級,要求“形成臨床數(shù)據(jù)倉庫,有統(tǒng)一索引與規(guī)范數(shù)據(jù)格式,形成結(jié)構(gòu)化數(shù)據(jù)內(nèi)容”。
為有效存儲和利用相關(guān)數(shù)據(jù),需要在既有業(yè)務系統(tǒng)上建立數(shù)據(jù)中心,對病人診療數(shù)據(jù)(數(shù)值、文字、波形、圖像)進行統(tǒng)一管理和標準化存儲,通過集成平臺實現(xiàn)患者臨床信息的整合及數(shù)據(jù)共享,同時建立并完善病人主索引(EM?PI)、全院統(tǒng)一的主數(shù)據(jù)管理(MDM)、統(tǒng)一用戶管理等平臺基礎(chǔ)服務,在此基礎(chǔ)上建立面向醫(yī)院管理層的決策分析系統(tǒng),滿足醫(yī)療科研和臨床決策支持等需求,以及支持區(qū)域醫(yī)療信息共享。曾汪旺等[5]通過構(gòu)建數(shù)據(jù)實時采集子系統(tǒng)和增量式映射管理平臺兩個中間件,對多源異構(gòu)醫(yī)療數(shù)據(jù)進行ETL 抽?。粍⑺N等[6]提出基于Caché 數(shù)據(jù)庫的ETL 過程,使用Speedminer 工具進行數(shù)據(jù)構(gòu)建。Speedminer 是澳大利亞Trak 公司提供的第三方產(chǎn)品之一,與Caché 屬于同平臺關(guān)聯(lián)產(chǎn)品,但相關(guān)研究對存儲于后關(guān)系型數(shù)據(jù)庫Caché 的數(shù)據(jù)抽取匯集到如SqlServer、Oracle 等關(guān)系型數(shù)據(jù)庫中的方法較少提及。
為做好新冠肺炎疫情防控工作,合理安排醫(yī)療資源,需以醫(yī)院全視圖數(shù)據(jù)為視角,完成多源異構(gòu)醫(yī)療數(shù)據(jù),包括患者全視角病歷信息、疫情管控信息、衛(wèi)生統(tǒng)計報表等的匯聚。為此,以山東第一醫(yī)科大學附屬省立醫(yī)院(以下簡稱山東省立醫(yī)院)信息建設為例,提出后關(guān)系型數(shù)據(jù)、文檔型數(shù)據(jù)匯聚、非結(jié)構(gòu)化數(shù)據(jù)匯聚設計方法,并基于此進行醫(yī)療數(shù)據(jù)匯聚應用。
山東省立醫(yī)院信息系統(tǒng)由23 個業(yè)務子系統(tǒng)組成,各系統(tǒng)間的整合集成與擴展一直制約醫(yī)院數(shù)字化發(fā)展。2014 年醫(yī)院開始建設基于Ensemble 中間件的集成平臺,在IHE、DICOM、HL7 等國際標準基礎(chǔ)上,通過規(guī)范系統(tǒng)集成平臺,制定覆蓋醫(yī)療所有業(yè)務流程的系統(tǒng)集成規(guī)范,開發(fā)基于規(guī)范的系統(tǒng)集成平臺。信息平臺建設主要解決兩個核心問題:①為各種醫(yī)療應用提供統(tǒng)一的醫(yī)療數(shù)據(jù)訪問服務,消除各種醫(yī)療應用系統(tǒng)與醫(yī)療數(shù)據(jù)中心的直接耦合性;②通過HL7 和DICOM 等標準通訊協(xié)議為各種醫(yī)療應用系統(tǒng)提供集成服務,確保各個臨床信息系統(tǒng)在工作流整合的基礎(chǔ)上實現(xiàn)交互協(xié)作。
臨床數(shù)據(jù)中心(CDR)是醫(yī)院為支持臨床診療和全部醫(yī)、教、研活動,以病人為中心重新構(gòu)建的數(shù)據(jù)存儲結(jié)構(gòu),是醫(yī)院基于電子病歷信息平臺的核心構(gòu)件。數(shù)據(jù)通過平臺ETL 的抽取、清洗、轉(zhuǎn)換、裝載等處理,按照互聯(lián)互通標準體系及不同的業(yè)務需要存儲到不同的庫中,形成以患者主索引(EMPI)、主數(shù)據(jù)管理(MDM)等按領(lǐng)域組織的臨床數(shù)據(jù)集,在主數(shù)據(jù)基礎(chǔ)上產(chǎn)生各個“維度”,統(tǒng)一數(shù)據(jù)口徑,通過Ensemble 企業(yè)服務總線提供多種輸入輸出適配器,有效解決異構(gòu)數(shù)據(jù)交互問題。系統(tǒng)總體架構(gòu)如圖1 所示。
基于醫(yī)院信息平臺建設獨立的臨床信息數(shù)據(jù)庫,存儲以病人為中心的全程臨床數(shù)據(jù),如醫(yī)囑、電子病歷、PACS等臨床數(shù)據(jù)。臨床數(shù)據(jù)中心建設主要目的是實現(xiàn)醫(yī)療數(shù)據(jù)挖掘,為醫(yī)院的診治、管理和運營提供決策支持。為確保數(shù)據(jù)應用性能和效率,需要實現(xiàn)數(shù)據(jù)的物理匯聚和集中存儲。數(shù)據(jù)在不同業(yè)務系統(tǒng)中以面向?qū)ο髷?shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、大文本文件、圖像、XML 文件等形式存在。本文數(shù)據(jù)匯聚設計基于HL7 規(guī)范,使用SQLServerSSIS 工具包創(chuàng)建臨床數(shù)據(jù)倉庫模型。HL7 是由美國國家標準局(ANSI)授權(quán)的標準開發(fā)機構(gòu)(Health Level Seven Inc,HL7 組織)研發(fā)的一個專門用于醫(yī)療衛(wèi)生機構(gòu)及醫(yī)用儀器、設備數(shù)據(jù)信息傳輸?shù)臉藴?。?shù)據(jù)匯聚的總體策略是在不影響在線業(yè)務系統(tǒng)運行前提下,盡量通過shadow 庫,采用歷史數(shù)據(jù)單次全量抽取,增量數(shù)據(jù)采用時間戳、WebService、CDC、非結(jié)構(gòu)化文本解析等增量抽取方法,對臨床異構(gòu)多源數(shù)據(jù)實現(xiàn)增量匯聚及優(yōu)化。在增量數(shù)據(jù)抽取時多種方式聯(lián)合使用,優(yōu)劣互補,以提高抽取性能。
Fig.1 Shandong provincial hospital information platform technology architecture圖1 山東省立醫(yī)院信息平臺技術(shù)架構(gòu)
醫(yī)院HIS 系統(tǒng)是Caché 數(shù)據(jù)庫,是一種后關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)存于樹形多維數(shù)組中,以節(jié)點Global 的形式存在。利用類與對象模擬關(guān)系型數(shù)據(jù)庫的管理表,表中的數(shù)據(jù)可通過SQL 查詢,完成數(shù)據(jù)庫中數(shù)據(jù)的對象化操作。支持JDBC 和ODBC 標準接口,方便與RDBMS 系統(tǒng)交互數(shù)據(jù)。但在數(shù)據(jù)匯聚設計時,該數(shù)據(jù)庫事務日志記錄Global 操作日志,無法直接解析到關(guān)系型庫中,且映射到的關(guān)系型表沒有時間戳,給數(shù)據(jù)抽取帶來難度。
為解決醫(yī)院HIS 數(shù)據(jù)實時同步抽取問題,經(jīng)業(yè)務數(shù)據(jù)表結(jié)構(gòu)分析,在對Caché 數(shù)據(jù)庫業(yè)務數(shù)據(jù)處理上,采用時間戳(業(yè)務時間)+數(shù)據(jù)驗證的ETL 增量數(shù)據(jù)處理方式。歷史數(shù)據(jù)通過ETL 每天先從HIS 增量更新到ODS,再從ODS增量更新至CDR;增量數(shù)據(jù)更新方式為直接從HIS 至CDR,更新頻率為每小時一次,數(shù)據(jù)范圍為當天所有數(shù)據(jù)。由于源數(shù)據(jù)庫未記錄時間戳、部分表數(shù)據(jù)存在物理刪除操作,因此根據(jù)業(yè)務時間ETL 增量更新可能會丟失或增加數(shù)據(jù)。通過數(shù)據(jù)驗證判斷各個具體數(shù)據(jù)源更新、刪除情況,根據(jù)驗證結(jié)論再次通過ETL 定期進行數(shù)據(jù)修復操作,最大程度減少數(shù)據(jù)誤差?;跁r間戳+數(shù)據(jù)驗證的HIS 數(shù)據(jù)接入流程如圖2 所示。
Fig.2 Ihs data access based on timestamp+data validation process圖2 基于時間戳+數(shù)據(jù)驗證的HIS 數(shù)據(jù)接入流程
HIS 數(shù)據(jù)接入流程如下:①通過數(shù)據(jù)分析確定HIS 和CDR 目標的對應關(guān)系,形成接入設計文檔;②根據(jù)接入設計文檔編寫以HIS 數(shù)據(jù)庫為對象的Custom SQL;③通過ETL 工具配置Custom SQL 對應的CDR Tables;④通過已封裝的ETL Engin 輪循調(diào)用SQL Merge 將數(shù)據(jù)更新至CDR DB 對應的Tables 中;⑤記錄日志供查詢,并通過數(shù)據(jù)驗證機制校驗。
電子病歷系統(tǒng)、護理文書系統(tǒng)、手術(shù)麻醉系統(tǒng)等存在大量基于文檔的數(shù)據(jù),在各個系統(tǒng)中采用文本文件、XML文件、CDA 文件或關(guān)系型數(shù)據(jù)庫進行文檔存儲。
如電子病歷中的病程記錄、手術(shù)記錄等存在多個應用場景,需要將數(shù)據(jù)標準化為符合HL7 CDA 標準的可利用數(shù)據(jù)。醫(yī)院電子病歷文檔通過加密方式存儲在Oracle 數(shù)據(jù)庫中,數(shù)據(jù)類型是Blob,整體進行數(shù)據(jù)抽取時無法很好解析病歷結(jié)構(gòu),故要通過處理電子病歷系統(tǒng)形成符合標準格式的文檔,提供WebService 接口方式給第三方。臨床數(shù)據(jù)倉庫通過WebService 獲取EMR 文檔信息,返回htmlString與XmlString 內(nèi)容。其中HtmlString 是完整的網(wǎng)頁,用于展示EMR 文檔信息;XmlString 是后結(jié)構(gòu)化數(shù)據(jù),用于對EMR 文檔進行分析。通過分析返回報文,提取結(jié)構(gòu)化報文中的數(shù)據(jù)變更信息,由ETL Engine 生成變更Sql,更新至CDR 數(shù)據(jù)表中?;赪ebService 的文檔型數(shù)據(jù)匯聚接入流程如圖3 所示。
Fig.3 Document type data access process based on WebService圖3 基于WebService 的文檔型數(shù)據(jù)匯聚接入流程
醫(yī)院LIS、RIS/PACS 系統(tǒng)為Oracle、SQL Server 關(guān)系型數(shù)據(jù)庫,一部分患者信息、報告等為結(jié)構(gòu)化數(shù)據(jù),一部分報告數(shù)據(jù)為存有圖像化的非結(jié)構(gòu)化數(shù)據(jù)?;颊咝畔?、檢驗檢查申請單等結(jié)構(gòu)化數(shù)據(jù),基于關(guān)系型數(shù)據(jù)庫支持日志文件分析特點開啟redo log 日志服務,通過數(shù)據(jù)庫上的變更數(shù)據(jù)捕獲(Change Data Capture,CDC)機制采用CDC+ETL 平臺增量抽取方式抽取到ETL 平臺。業(yè)務系統(tǒng)將數(shù)據(jù)實時推送至ODSDB 環(huán)境更新每日數(shù)據(jù)日志,通過日志將數(shù)據(jù)實時更新至CDR 數(shù)據(jù)表中。而大量的圖像數(shù)據(jù)因存儲空間限制,僅與完成結(jié)構(gòu)化的報告數(shù)據(jù)進行映射存儲,與患者主索引及檢查報告做ID 關(guān)聯(lián)。
疫情防控需新增衛(wèi)生統(tǒng)計上報、社區(qū)體溫登記信息、關(guān)注人群(密切接觸者、醫(yī)護人員)健康信息、單位復工健康信息等,生成的非結(jié)構(gòu)化文本數(shù)據(jù)需要匯聚時,采用基于文本解析的疫情相關(guān)數(shù)據(jù)接入流程。通過ETL Engine中的Data analysis 進行分析,按照文件模板標識提取csv、EXCEL、dbf 文件中的增量數(shù)據(jù),并根據(jù)模板中字段對應關(guān)系匯總成增量Change SQL。使用Change SQL 完成CDR DB 的增量數(shù)據(jù)匯聚,進行數(shù)據(jù)應用與分析。基于CDC+ETL 的結(jié)構(gòu)化數(shù)據(jù)匯聚流程如圖4 所示。
Fig.4 Based on the CDC+ETL structured data gathering process圖4 基于CDC+ETL 的結(jié)構(gòu)化數(shù)據(jù)匯聚流程
由于醫(yī)療數(shù)據(jù)產(chǎn)生于不同業(yè)務系統(tǒng),多數(shù)據(jù)源異構(gòu)主要表現(xiàn)為字段名稱和類型的不一致,以及數(shù)據(jù)所在的定義域不同等。醫(yī)院按照衛(wèi)生部《電子病歷基本架構(gòu)與數(shù)據(jù)標準》要求,參考HL7 CDA 標準進行文檔標準化,采取統(tǒng)一元數(shù)據(jù)進行異構(gòu)數(shù)據(jù)的標準化過程。為保證電子病歷資源庫中數(shù)據(jù)內(nèi)容滿足衛(wèi)生數(shù)據(jù)元以及值域要求,醫(yī)院統(tǒng)一對術(shù)語字典及值域映射進行管理,實現(xiàn)數(shù)據(jù)采集清洗的規(guī)則配置、基于標準的全息信息擴展、統(tǒng)一的字典注冊整合及維護、數(shù)據(jù)采集清洗狀態(tài)監(jiān)控等。數(shù)據(jù)清洗標準化過程如圖5 所示。
做好從生產(chǎn)庫到ODS 庫以及ODS 庫到臨床數(shù)據(jù)中心數(shù)據(jù)抽取的質(zhì)量控制,以確保和業(yè)務系統(tǒng)原始數(shù)據(jù)保持一致,實現(xiàn)數(shù)據(jù)完整性、一致性、準確性、及時性。
(1)多通道多任務技術(shù)。定義多個數(shù)據(jù)抽取通道,將任務拆分成更細粒度的任務,分片進行管理配置。根據(jù)每種數(shù)據(jù)源特征定制不同的分析方案,啟動多個抽取服務。每個抽取服務監(jiān)聽一個通道,完成抽取任務,多個抽取服務并行運行,實現(xiàn)多通道多任務抽取,加快數(shù)據(jù)獲取速率。
Fig.5 Standardization of data cleaning process圖5 數(shù)據(jù)清洗標準化過程
(2)提高批量數(shù)據(jù)寫入效率。從生產(chǎn)庫到ODS 庫,采用Sql BulkCopy 技術(shù)批量寫入數(shù)據(jù)。首先將插入的整個數(shù)據(jù)集整理為大數(shù)組,把整個大數(shù)組作為一個數(shù)據(jù)集調(diào)用BulkCopy 接口一次性寫入到服務器,而不是循環(huán)對每行數(shù)據(jù)調(diào)用Insert。批量數(shù)據(jù)插入技術(shù)規(guī)避了多次與數(shù)據(jù)庫建立連接的負荷壓力,比傳統(tǒng)循環(huán)調(diào)用insert 方式快5~10倍。
(3)維度漸變處理。通過臨床數(shù)據(jù)中心模型生成器制定相關(guān)緩慢變化維度,并在生成的表結(jié)構(gòu)擴展屬性上標識該列。臨床數(shù)據(jù)中心首先對基礎(chǔ)數(shù)據(jù)進行刷新,然后對所有的維度表進行校驗并保存完整性校驗。在固定間隔內(nèi)對需要處理漸變的數(shù)據(jù)維度屬性檢查一次,確保維度關(guān)鍵屬性發(fā)生變化后能及時更新并反映到數(shù)據(jù)聚合上。
(4)增加容錯補償機制。對數(shù)據(jù)抽取過程進行控制,個性化定制自動抽取任務,提供抽取條件、時間點、任務循環(huán)、檢查點、不符合條件消息處理等選項,提供抽取前處理、抽取中處理、抽取后數(shù)據(jù)處理程序。提供數(shù)據(jù)容錯機制,定義無數(shù)據(jù)算出錯,抽取出錯自動補抽取,無需人工干預。通過抽取任務錯誤日志、短消息提醒進行追蹤監(jiān)測。
山東省立醫(yī)院臨床數(shù)據(jù)中心平臺建設經(jīng)過多年的探索實踐,取得較好的建設效益?;陔娮硬v的醫(yī)院信息平臺架構(gòu)包括主數(shù)據(jù)管理(MDM)、臨床數(shù)據(jù)中心(CDR)、醫(yī)院服務總線(DHC-ESB)、基于平臺的應用等,實現(xiàn)了服務和消息注冊、發(fā)布和訂閱功能和接口消息復用?,F(xiàn)在已經(jīng)接入服務總線的系統(tǒng)有HIS、EMR、LIS、PACS、心電、手麻、掌上省醫(yī)、護理系統(tǒng)、自助系統(tǒng)、ICU、分診叫號系統(tǒng)、病案管理、預約診療系統(tǒng)、自動包藥機、公安局安全系統(tǒng)、單點登錄、院感、藥品物流、手術(shù)上報、文檔庫管理系統(tǒng)、主數(shù)據(jù)管理系統(tǒng)等23 個子系統(tǒng)68 項平臺服務。醫(yī)院建設了獨立的臨床信息數(shù)據(jù)庫,存儲以病人為中心的全程臨床數(shù)據(jù),諸如醫(yī)囑、電子病歷、PACS 等臨床數(shù)據(jù),形成患者主索引476 萬條,共享數(shù)據(jù)庫中CDA 文檔共970 萬份,用于病人的全視圖信息共享及用于醫(yī)院的臨床業(yè)務監(jiān)管、BI 分析、科研教學支持等。共享文檔管理如圖6 所示。
通過對醫(yī)院23 個主要業(yè)務系統(tǒng)和數(shù)據(jù)進行集成整合,將封閉在多套孤立信息系統(tǒng)中的數(shù)據(jù)集中,實現(xiàn)全院信息統(tǒng)一標準、統(tǒng)一來源、統(tǒng)一發(fā)布、統(tǒng)一管理。通過智能決策支持系統(tǒng),管理者可以隨時隨地獲取門診狀況、床位使用率、平均住院日、藥占比、醫(yī)療質(zhì)量、人力資源配置等核心運營指標。系統(tǒng)自動測算患者從開始分診到就診結(jié)束期間各個環(huán)節(jié)就診時間路徑圖,通過分析結(jié)果發(fā)現(xiàn)哪些就診環(huán)節(jié)存在就醫(yī)瓶頸,從而有的放矢改進服務流程。整合從患者入院到出院整個診療過程中產(chǎn)生的所有醫(yī)療數(shù)據(jù),包括病人基本信息、病歷文書、檢驗檢查、醫(yī)囑等。通過匯集以患者為中心的全周期研究數(shù)據(jù),建立可供用戶快捷檢索的數(shù)據(jù)搜索平臺及基礎(chǔ)科研平臺。主要數(shù)據(jù)類別有病案首頁、病歷、診斷、癥狀、用藥、手術(shù)、處置類醫(yī)囑、非用藥醫(yī)囑、檢驗、檢查、分子病理、病理、生命體征、病種等4 797 個字段,并逐步增加。基于結(jié)構(gòu)化的多重檢索充分挖掘醫(yī)院海量臨床數(shù)據(jù)的潛在價值,提升醫(yī)護人員開展臨床科研工作效率及臨床數(shù)據(jù)再利用能力,醫(yī)院已基于該平臺進行了50 多個科研項目。
Fig.6 Clinical data center shared document management圖6 臨床數(shù)據(jù)中心共享文檔管理
本文結(jié)合山東省立醫(yī)院信息建設情況介紹了多源異構(gòu)數(shù)據(jù)匯聚方法,對后關(guān)系型數(shù)據(jù)、文檔型數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的匯聚提出了解決方案。采用增量時間戳、CDC、WebService 結(jié)合ETL 技術(shù)進行增量抽取,對臨床異構(gòu)多源數(shù)據(jù)進行增量匯聚及優(yōu)化。闡述數(shù)據(jù)標準化清洗、數(shù)據(jù)抽取實現(xiàn)過程。整合了從患者入院到出院整個診療過程中產(chǎn)生的所有醫(yī)療數(shù)據(jù)。系統(tǒng)還存在一些不足,如在Caché數(shù)據(jù)庫中部分業(yè)務數(shù)據(jù)以global 節(jié)點存儲,未映射到關(guān)系表,ODBC 連接方式無法獲取數(shù)據(jù)等。后續(xù)將從二次開發(fā)角度增加數(shù)據(jù)可視化,提供對外訪問,提高對半結(jié)構(gòu)化數(shù)據(jù)的語義分析能力。