閆 慈 王 鵬 楊 越 任 勁 吳睿豪 管 音 張 茜
(新疆醫(yī)科大學(xué)附屬腫瘤醫(yī)院 新疆 830000) (神州數(shù)碼醫(yī)療科技股份有限公司 北京 100000) (新疆醫(yī)科大學(xué)附屬腫瘤醫(yī)院新疆 830000) (神州數(shù)碼醫(yī)療科技股份有限公司北京 100000) (新疆醫(yī)科大學(xué)附屬腫瘤醫(yī)院新疆 830000)
腫瘤大數(shù)據(jù)治理和應(yīng)用是推進(jìn)腫瘤防控的一項基礎(chǔ)事業(yè)[1]。我國人口眾多,每年產(chǎn)生大量臨床數(shù)據(jù),數(shù)據(jù)已成為醫(yī)院重要資產(chǎn),電子病歷、醫(yī)學(xué)影像、基因組學(xué)等海量數(shù)據(jù)的有效利用將是開展臨床科研和發(fā)展醫(yī)學(xué)人工智能的必備基礎(chǔ)方法和手段[2-3]。然而惡性腫瘤臨床診療信息采集等方面缺少規(guī)范化操作規(guī)程,尚無統(tǒng)一的腫瘤數(shù)據(jù)采集平臺,各醫(yī)療單位之間信息數(shù)據(jù)難以交換、共享和整合,導(dǎo)致無法進(jìn)行大規(guī)模、有代表性的腫瘤診斷、治療及預(yù)后相關(guān)信息收集和分析,臨床研究資源浪費(fèi)情況極為嚴(yán)重。醫(yī)院建立統(tǒng)一的大數(shù)據(jù)平臺將有利于實現(xiàn)數(shù)據(jù)資產(chǎn)價值轉(zhuǎn)化、診療服務(wù)模式革新以及創(chuàng)新成果孵化。
不同病種特點(diǎn)導(dǎo)致數(shù)據(jù)治理流程和需求各不相同,數(shù)據(jù)平臺建設(shè)架構(gòu)也存在差異。對于罕見病,因發(fā)病率較低,病例數(shù)較少,適合采用病例注冊登記和直報系統(tǒng)相結(jié)合的數(shù)據(jù)中心形式[4-5]。在各個區(qū)域建立省級數(shù)據(jù)中心,采用相同一套登記表單和數(shù)據(jù)接口,再由各省級中心按周期上傳至國家中心,避免病例漏報、少報和數(shù)據(jù)質(zhì)量把控不嚴(yán)等問題。國家罕見病中心綜合全國數(shù)據(jù)來制定罕見病目錄和診療指南。對于以提升院內(nèi)數(shù)據(jù)科研利用率為需求的醫(yī)院,通常建設(shè)??萍膊?shù)據(jù)庫,針對一個病種制定標(biāo)準(zhǔn)化字段目錄,涵蓋門診、人口學(xué)、住院信息以及病程、用藥、檢查等多種字段,這種僅限院內(nèi)使用的大數(shù)據(jù)平臺建設(shè)方案,由于接口通用,行政調(diào)動能力強(qiáng),構(gòu)建方式簡單,已經(jīng)廣泛地被臨床醫(yī)院或科室所采納。另外一種是針對突發(fā)性傳染性疾病,可由政府衛(wèi)生監(jiān)管部門主導(dǎo),建設(shè)區(qū)域性傳染病大數(shù)據(jù)防控平臺,例如洪湖市COVID-19大數(shù)據(jù)防控平臺[6],通過整合個人每日上報、檢測機(jī)構(gòu)、臨床醫(yī)院數(shù)據(jù),構(gòu)建人群健康畫像,實時監(jiān)控疫情傳播動態(tài),協(xié)助疫情資源調(diào)配和防控政策制定。對于腫瘤來說,發(fā)病率較高,數(shù)據(jù)量大,院內(nèi)診療流程長,同時包含不同癌種,對于一家醫(yī)院來說,尚不足以承載如此大量數(shù)據(jù)治理和轉(zhuǎn)化,因此構(gòu)建區(qū)域性或省級以上數(shù)據(jù)中心更符合現(xiàn)實國情。
區(qū)域腫瘤大數(shù)據(jù)中心建設(shè)是提升我國腫瘤臨床診療水平的基礎(chǔ)步驟。通過設(shè)計合理的平臺架構(gòu)和通用數(shù)據(jù)模型,實現(xiàn)多種類型數(shù)據(jù)存儲、傳輸和共享;收集肺癌、食管癌、肝癌、胃癌、結(jié)直腸癌、乳腺癌、宮頸癌和鼻咽癌等常見腫瘤的病理學(xué)、細(xì)胞學(xué)、檢驗學(xué)和影像醫(yī)學(xué)等多種類型電子病歷數(shù)據(jù),實現(xiàn)醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)化采集和分析處理[7-8];借助病理和影像數(shù)據(jù)的人工智能分析算法可以極大提升區(qū)域腫瘤診斷水平和準(zhǔn)確度,降低醫(yī)療成本[9-10]。本研究以新疆醫(yī)科大學(xué)附屬腫瘤醫(yī)院腫瘤大數(shù)據(jù)平臺建設(shè)為例,探討臨床研究大數(shù)據(jù)平臺建設(shè)架構(gòu)以及面臨的技術(shù)挑戰(zhàn)、應(yīng)對策略,對于惡性腫瘤防治事業(yè)具有重要作用。
腫瘤大數(shù)據(jù)中心在建立共享機(jī)制的情況下,通過腫瘤大數(shù)據(jù)采集與集成系統(tǒng)與各級醫(yī)院信息平臺(集成平臺)或業(yè)務(wù)系統(tǒng)進(jìn)行業(yè)務(wù)層與數(shù)據(jù)層對接,建立全系統(tǒng)協(xié)同與共享機(jī)制,總體框架,見圖1。通過各級醫(yī)院集成平臺收集不同院內(nèi)系統(tǒng)數(shù)據(jù)并進(jìn)行整合,利用腫瘤大數(shù)據(jù)采集與集成平臺對接各級醫(yī)院信息平臺或臨床數(shù)據(jù)中心實現(xiàn)數(shù)據(jù)集成,與通用數(shù)據(jù)模型(Common Data Model,CDM)相映射形成大數(shù)據(jù)中心?;谀[瘤病例特征、電子病歷和HL7等醫(yī)療標(biāo)準(zhǔn),建立包括腫瘤業(yè)務(wù)區(qū)(涵蓋肺癌、食管癌、肝癌、胃癌、結(jié)直腸癌、乳腺癌、宮頸癌和鼻咽癌等)、共享交換區(qū)、基礎(chǔ)區(qū)、科研區(qū)為核心的腫瘤大數(shù)據(jù)平臺中心數(shù)據(jù)庫?;谀[瘤大數(shù)據(jù)管理平臺,實現(xiàn)與國家癌癥中心、醫(yī)院及科研機(jī)構(gòu)、其他第3方機(jī)構(gòu)等的共享協(xié)作并提供相應(yīng)服務(wù)。腫瘤大數(shù)據(jù)中心物理環(huán)境采用虛擬化和超融合技術(shù)實現(xiàn),為各機(jī)構(gòu)數(shù)據(jù)互聯(lián)互通、開展遠(yuǎn)程協(xié)作和數(shù)據(jù)采集等工作提供基礎(chǔ)支撐環(huán)境。
圖1 總體框架
圖2 數(shù)據(jù)資源架構(gòu)
2.2.1 臨時數(shù)據(jù)存儲區(qū) 存放接入的各機(jī)構(gòu)原始數(shù)據(jù),具體包括臨床、業(yè)務(wù)服務(wù)、實時監(jiān)測數(shù)據(jù)等。
2.2.2 交換緩沖數(shù)據(jù)區(qū) 機(jī)構(gòu)提供的原始數(shù)據(jù)進(jìn)入平臺核心數(shù)據(jù)區(qū)之前的數(shù)據(jù)交換緩沖區(qū),出現(xiàn)數(shù)據(jù)處理錯誤或丟失時便于溯源追蹤。
2.2.3 核心數(shù)據(jù)區(qū) (1)基礎(chǔ)數(shù)據(jù)區(qū)。數(shù)據(jù)中心的基礎(chǔ),主要存放標(biāo)準(zhǔn)規(guī)范、基礎(chǔ)數(shù)據(jù)字典、患者索引信息、平臺日志用戶管理信息等用來支撐平臺元數(shù)據(jù)區(qū)。(2)臨床業(yè)務(wù)區(qū)。為臨床診療業(yè)務(wù)應(yīng)用(智能檢索、診療輔助決策等)提供支撐,主要包含患者就診活動中產(chǎn)生的醫(yī)療服務(wù)信息即臨床業(yè)務(wù)數(shù)據(jù)庫,按腫瘤種類進(jìn)行劃分的單病種數(shù)據(jù)庫及業(yè)務(wù)開展的應(yīng)用數(shù)據(jù)庫。(3)科研數(shù)據(jù)區(qū)?;谂R床業(yè)務(wù)區(qū)建立科研通用數(shù)據(jù)模型,過濾出適合進(jìn)行科研研究的人群信息,建設(shè)知識庫服務(wù)與科研分析研究。(4)共享交換數(shù)據(jù)區(qū)?;谂R床業(yè)務(wù)區(qū)分離出需要機(jī)構(gòu)之間共享交換的信息單獨(dú)進(jìn)行隔離,提高共享協(xié)作效率,同時可按不同主題進(jìn)行劃分及記錄共享交換的日志。
2.2.4 運(yùn)營數(shù)據(jù)區(qū) 存放用戶、運(yùn)營管理、運(yùn)營監(jiān)控、業(yè)務(wù)服務(wù)數(shù)據(jù)。支撐大數(shù)據(jù)中心的運(yùn)營監(jiān)控。
腫瘤大數(shù)據(jù)中心建設(shè)是開展臨床與科研應(yīng)用的基礎(chǔ),影響應(yīng)用效果的核心是數(shù)據(jù)管理與處理,因此良好的數(shù)據(jù)管理與治理是重中之重。腫瘤大數(shù)據(jù)管理平臺技術(shù)架構(gòu),見圖3。基于數(shù)據(jù)管理技術(shù)架構(gòu),數(shù)據(jù)處理流程,見圖4。
圖3 數(shù)據(jù)管理技術(shù)架構(gòu)
圖4 數(shù)據(jù)處理流程
3.2.1 數(shù)據(jù)采集 針對各醫(yī)療機(jī)構(gòu)所處位置、使用數(shù)據(jù)庫類型不同,數(shù)據(jù)模態(tài)多樣性這種復(fù)雜異構(gòu)情況,充分利用政務(wù)云資源在云端架設(shè)大數(shù)據(jù)集群環(huán)境,在云端以備份數(shù)據(jù)庫、Web Service或視圖等多種方式主動獲取各機(jī)構(gòu)增量數(shù)據(jù),保證數(shù)據(jù)完整性、準(zhǔn)確性及與原生產(chǎn)系統(tǒng)的一致性。另外根據(jù)業(yè)務(wù)類型不同采用實時和定時兩種方式獲取數(shù)據(jù)。支持將分析成果返還區(qū)內(nèi)醫(yī)療機(jī)構(gòu)進(jìn)行應(yīng)用展現(xiàn)。通過中間表視圖,醫(yī)院臨床業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)以符合通用數(shù)據(jù)模型需求的格式呈現(xiàn)出來。中間表是指連接通用數(shù)據(jù)模型和醫(yī)院臨床業(yè)務(wù)系統(tǒng)數(shù)據(jù)內(nèi)容的數(shù)據(jù)庫表。數(shù)據(jù)庫中的視圖是一個虛擬表,其內(nèi)容由查詢定義,可以提供與真實表相同的數(shù)據(jù)內(nèi)容和字段。中間表視圖能夠在幾乎不增加數(shù)據(jù)庫負(fù)擔(dān)的情況下,實時、準(zhǔn)確地將臨床、科研、管理所需的臨床數(shù)據(jù)從不同臨床業(yè)務(wù)系統(tǒng)中以滿足OMOP通用數(shù)據(jù)模型需求的方式查詢顯示出來。Kettle是數(shù)據(jù)抽取過程中常用的提取-轉(zhuǎn)換-加載(Extract, Transform and Load,ETL)工具。Kettle通過可視化的方式提供便捷、高效的數(shù)據(jù)提取方式。通過在Kettle中配置輸入輸出數(shù)據(jù)庫的接口和數(shù)據(jù)表并設(shè)置互相映射的字段,中間表視圖中的臨床數(shù)據(jù)被完整地抽取到通用數(shù)據(jù)模型的數(shù)據(jù)表中。
3.2.2 數(shù)據(jù)校驗 數(shù)據(jù)采集過程中由于人工或者醫(yī)院業(yè)務(wù)系統(tǒng)自身原因,抽取至數(shù)據(jù)中心的數(shù)據(jù)并非完全正確、可用、一致。為解決該問題,提高數(shù)據(jù)中心存儲信息的準(zhǔn)確性,本方案特設(shè)置數(shù)據(jù)質(zhì)量校驗平臺。該平臺通過設(shè)置一系列數(shù)據(jù)檢驗規(guī)則,對采集的數(shù)據(jù)進(jìn)行校驗,從而提高數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量。通過數(shù)據(jù)質(zhì)量校驗平臺可進(jìn)行原始數(shù)據(jù)關(guān)聯(lián)性檢查、分布檢查以及清洗后數(shù)據(jù)與原始數(shù)據(jù)一致性檢查,在此過程中引入美國最權(quán)威的臨床數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)以及14大類超過1 200條的數(shù)據(jù)檢測規(guī)則。對數(shù)據(jù)完整性、一致性、準(zhǔn)確性、及時性4個方面進(jìn)行校驗,定期迭代優(yōu)化數(shù)據(jù)采集流程。
3.3.1 概述 基于電子病歷和信息集成平臺系統(tǒng)收集包含病理學(xué)、細(xì)胞學(xué)、檢驗學(xué)和影像醫(yī)學(xué)等多種類型電子病歷數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理是進(jìn)行數(shù)據(jù)分析與應(yīng)用研究的關(guān)鍵,即原始數(shù)據(jù)進(jìn)入數(shù)據(jù)緩沖區(qū)后經(jīng)歷結(jié)構(gòu)化處理、通用數(shù)據(jù)模型映射、術(shù)語綁定、數(shù)據(jù)質(zhì)控的一系列過程[11]。
3.3.2 數(shù)據(jù)結(jié)構(gòu)化處理 對于非結(jié)構(gòu)化文本數(shù)據(jù),采用先進(jìn)的自然語言處理(Natural Language Processing, NLP)和語義分析技術(shù),通過文本預(yù)處理、人工標(biāo)注、機(jī)器學(xué)習(xí)、模型構(gòu)建及模型應(yīng)用5個步驟進(jìn)行處理,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化。
3.3.3 通用數(shù)據(jù)模型 構(gòu)建多源異構(gòu)臨床樣本與生命組學(xué)通用數(shù)據(jù)模型, 完成從區(qū)內(nèi)不同醫(yī)院/隊列的數(shù)據(jù)標(biāo)準(zhǔn)向惡性腫瘤臨床與科研大數(shù)據(jù)采集與共享平臺數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化與映射。抽取來自區(qū)內(nèi)不同醫(yī)院/隊列數(shù)據(jù),構(gòu)建原始數(shù)據(jù)存儲庫。研究基于質(zhì)量控制數(shù)據(jù)抽取與篩選和基于角色控制的數(shù)據(jù)安全與訪問方法。數(shù)據(jù)模型選擇上,構(gòu)建多源異構(gòu)臨床樣本與生命組學(xué)的國際通用數(shù)據(jù)模型 OHDSI OMOP,完成從區(qū)內(nèi)不同醫(yī)院/隊列的數(shù)據(jù)標(biāo)準(zhǔn)向腫瘤大數(shù)據(jù)中心平臺的數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化與映射。OHDSI是一個開放的全球醫(yī)療科研協(xié)作網(wǎng)絡(luò),聚焦于醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化、醫(yī)療產(chǎn)品安全監(jiān)控、比較有效性研究、個性風(fēng)險預(yù)測、數(shù)據(jù)特征化、質(zhì)量改進(jìn)。目前數(shù)據(jù)網(wǎng)絡(luò)包括來自19個國家和地區(qū)的12億條患者記錄,超過100個數(shù)據(jù)庫。該模型以人為中心構(gòu)建生命全息視圖,相關(guān)數(shù)據(jù)表的定義及表結(jié)構(gòu)字段的規(guī)范均以國際標(biāo)準(zhǔn)為前提,將健康醫(yī)療數(shù)據(jù)轉(zhuǎn)化成研究用的數(shù)據(jù)模型,便于快速、有效分析醫(yī)療大數(shù)據(jù)。支持多中心、跨區(qū)域、跨國家的多中心科研,允許對不同觀測數(shù)據(jù)庫進(jìn)行系統(tǒng)分析,實現(xiàn)數(shù)據(jù)互聯(lián)互通。
3.3.4 醫(yī)學(xué)術(shù)語綁定 對于術(shù)語綁定,采用世界上最復(fù)雜、最豐富的一體化中文醫(yī)學(xué)術(shù)語本體技術(shù)SNOMED CT,該術(shù)語庫涵蓋40 000余條疾病信息、20 000余條藥品信息及500余條檢查檢驗項目信息,與ICD10體系相比,疾病或項目的描述與分類更加細(xì)化,更適合于后期基于數(shù)據(jù)中心進(jìn)行臨床科研研究[12-13]。
3.3.5 數(shù)據(jù)質(zhì)控流程 數(shù)據(jù)質(zhì)控采用自動與人工兼并方式進(jìn)行,主要聚焦數(shù)據(jù)完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、及時性方面,通過質(zhì)控規(guī)則設(shè)置、數(shù)據(jù)稽查、質(zhì)量報告、問題分配管理實現(xiàn)質(zhì)控過程的閉環(huán)管理。
3.4.1 Hadoop分布式與關(guān)系型數(shù)據(jù)庫結(jié)合 對于龐大的數(shù)據(jù)資源,采用Hadoop 分布式與關(guān)系型數(shù)據(jù)庫相結(jié)合方式存儲,支持對PB級數(shù)據(jù)量的快速處理、大規(guī)模數(shù)據(jù)的秒級檢索,采用安全套接層(Secure Sockets Layer,SSL)加密,分離密鑰和加密數(shù)據(jù),使用過濾器和數(shù)據(jù)備份等方式,構(gòu)建數(shù)據(jù)存儲安全策略。利用隔離區(qū)(Demilitarized Done,DMZ)策略,保證數(shù)據(jù)傳輸安全。
3.4.2 數(shù)據(jù)安全隱私技術(shù) 為保護(hù)醫(yī)院數(shù)據(jù)安全,需要進(jìn)行數(shù)據(jù)隱私處理。首先整理原始數(shù)據(jù),產(chǎn)生中間表視圖。臨床數(shù)據(jù)大致可分為兩種類型:結(jié)構(gòu)化和非結(jié)構(gòu)化。結(jié)構(gòu)化數(shù)據(jù),首先對個人信息進(jìn)行脫敏處理,對原始數(shù)據(jù)進(jìn)行二次編碼,防止其逆向回溯源數(shù)據(jù)。使用成熟的醫(yī)學(xué)數(shù)據(jù)脫敏算法識別信息中有關(guān)患者隱私的重要信息,如姓名、身份證號、生日等,進(jìn)行脫敏處理。非結(jié)構(gòu)化數(shù)據(jù),首先根據(jù)文本類型選擇自然語言處理,再根據(jù)中文本體庫建設(shè)和通用數(shù)據(jù)模型進(jìn)行數(shù)據(jù)合并和映射,將數(shù)據(jù)脫敏后導(dǎo)入數(shù)據(jù)倉庫中。最后對脫敏后的數(shù)據(jù)使用預(yù)定的規(guī)范進(jìn)行標(biāo)準(zhǔn)化。脫敏后的數(shù)據(jù)可最大限度地方便醫(yī)學(xué)研究,避免用戶隱私信息泄漏。
3.4.3 數(shù)據(jù)安全制度 構(gòu)建人員管理層面的數(shù)據(jù)安全管控制度,嚴(yán)格控制數(shù)據(jù)共享和傳輸操作。涉及多中心研究情況,需由需求發(fā)起方提出數(shù)據(jù)使用書面申請并簽字留存,該書面申請涵蓋數(shù)據(jù)大小、范圍、使用目的、使用場景、使用時間等內(nèi)容,院方管理人員審批通過后,經(jīng)過技術(shù)人員對數(shù)據(jù)進(jìn)行脫敏,然后由技術(shù)方評估數(shù)據(jù)需求安全性,達(dá)到要求后審批通過才可使用,留存?zhèn)浞萆暾埍砗蛯徟?,該?shù)據(jù)達(dá)到使用時限后需清除院外拷貝,防止超需使用或泄漏風(fēng)險。該流程從制度層面強(qiáng)化數(shù)據(jù)安全和共享機(jī)制,責(zé)任到人。
基于中心交換系統(tǒng)(企業(yè)服務(wù)總線為核心)與可定制的前置交換軟件系統(tǒng)來實現(xiàn)區(qū)內(nèi)各醫(yī)療機(jī)構(gòu)間臨床及組學(xué)數(shù)據(jù)交換與共享?;趨f(xié)作網(wǎng)絡(luò)共享平臺,定義臨床表型數(shù)據(jù)共享標(biāo)準(zhǔn)規(guī)范,為腫瘤醫(yī)學(xué)數(shù)據(jù)共享提供完善的標(biāo)準(zhǔn)。通過統(tǒng)一的接口管理方式對接口標(biāo)準(zhǔn)進(jìn)行封裝,對接口申請單位采用統(tǒng)一標(biāo)準(zhǔn)進(jìn)行流程審核、接口調(diào)用、系統(tǒng)監(jiān)控。最終實現(xiàn)數(shù)據(jù)共享、統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),促進(jìn)各隊列業(yè)務(wù)協(xié)同及研究成果共享。
腫瘤臨床數(shù)據(jù)包括電子病歷、醫(yī)學(xué)影像、臨床檢驗等多種類型,這些數(shù)據(jù)多處于歸檔狀態(tài),又分散存儲于不同業(yè)務(wù)系統(tǒng)中,且多為半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具有多源異構(gòu)、多模高維的特點(diǎn),依靠傳統(tǒng)數(shù)據(jù)分析、處理技術(shù)無法滿足實際需求,數(shù)據(jù)歸檔和處理存在難度。研究和分析腫瘤疾病發(fā)病模式和影響因素,為早期篩查、診斷和藥物研發(fā)提供重要依據(jù),為醫(yī)護(hù)人員提供臨床指導(dǎo),為患者提供最佳診療方案,為腫瘤精準(zhǔn)醫(yī)療的實施奠定基礎(chǔ)。本研究以新疆醫(yī)科大學(xué)附屬腫瘤醫(yī)院腫瘤大數(shù)據(jù)科研平臺建設(shè)為案例,探討大數(shù)據(jù)架構(gòu)、作業(yè)流程以及在數(shù)據(jù)采集、標(biāo)準(zhǔn)化、共享和安全保護(hù)等方面的挑戰(zhàn)和應(yīng)對措施,使大數(shù)據(jù)在腫瘤防治、臨床診斷、科學(xué)研究、指南制定等方面落地賦能。醫(yī)療大數(shù)據(jù)平臺構(gòu)建面臨諸多挑戰(zhàn),需以傳統(tǒng)臨床經(jīng)驗為基礎(chǔ),以高新技術(shù)為依托,制定合理長遠(yuǎn)的計劃,進(jìn)一步推動大數(shù)據(jù)在醫(yī)療等領(lǐng)域的應(yīng)用。