張弘政 劉迷迷 李 琳 承垠林 周 毅
(中山大學(xué)中山醫(yī)學(xué)院 廣州 510080)
隨著“互聯(lián)網(wǎng)+”、大數(shù)據(jù)、人工智能、云計(jì)算等新興技術(shù)的不斷發(fā)展和應(yīng)用,醫(yī)療衛(wèi)生領(lǐng)域信息化程度和水平不斷提升,隨之產(chǎn)生的健康醫(yī)療數(shù)據(jù)也呈現(xiàn)快速增長(zhǎng)[1-2]。這些健康醫(yī)療數(shù)據(jù)多源、多模態(tài)、異構(gòu)且分散存儲(chǔ)在不同醫(yī)療機(jī)構(gòu),具有巨大潛在價(jià)值,需要以真實(shí)世界多中心研究模式統(tǒng)一管理、高效共享和挖掘利用。但是目前我國(guó)醫(yī)療機(jī)構(gòu)的健康醫(yī)療數(shù)據(jù)存在質(zhì)量不高[3]、缺乏統(tǒng)一標(biāo)準(zhǔn)[4]等問(wèn)題,開(kāi)展多中心的大數(shù)據(jù)研究困難重重,真實(shí)世界健康醫(yī)療大數(shù)據(jù)也難以被真正挖掘和利用,因此亟需開(kāi)展多中心數(shù)據(jù)治理,提高真實(shí)世界研究數(shù)據(jù)質(zhì)量[5-6]。
2018年中國(guó)胸部腫瘤研究協(xié)作組發(fā)布《中國(guó)真實(shí)世界研究指南》,對(duì)數(shù)據(jù)源質(zhì)量、數(shù)據(jù)采集方案設(shè)計(jì)、數(shù)據(jù)標(biāo)準(zhǔn)化等方面提出要求和指導(dǎo)意見(jiàn),表明了對(duì)數(shù)據(jù)質(zhì)量控制的重視;2020年國(guó)家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評(píng)中心發(fā)布《真實(shí)世界證據(jù)支持藥物研發(fā)與審評(píng)的指導(dǎo)原則(試行)》,國(guó)家藥品監(jiān)督管理局藥品審評(píng)中心發(fā)布《真實(shí)世界研究支持兒童藥物研發(fā)與審評(píng)的技術(shù)指導(dǎo)原則(試行)》,表明了臨床研究中數(shù)據(jù)質(zhì)量的重要性;2021年國(guó)家藥品監(jiān)督管理局藥品審評(píng)中心發(fā)布《用于產(chǎn)生真實(shí)世界證據(jù)的真實(shí)世界數(shù)據(jù)指導(dǎo)原則(試行)》,從治理、標(biāo)準(zhǔn)和質(zhì)量保障等方面對(duì)數(shù)據(jù)治理提出具體要求和指導(dǎo)性建議。真實(shí)世界研究相關(guān)政策文件的相繼發(fā)布,表明利用真實(shí)世界健康醫(yī)療數(shù)據(jù)開(kāi)展研究成為我國(guó)重點(diǎn)發(fā)展領(lǐng)域,其中基于數(shù)據(jù)治理的數(shù)據(jù)質(zhì)量提升受到重視。
在此背景下本文面向健康醫(yī)療領(lǐng)域真實(shí)世界多中心研究,基于通用數(shù)據(jù)模型相關(guān)理論、方法與技術(shù)開(kāi)展健康醫(yī)療大數(shù)據(jù)治理并建立相關(guān)研究平臺(tái),包括具體實(shí)踐過(guò)程,提高多中心健康醫(yī)療大數(shù)據(jù)質(zhì)量的關(guān)鍵技術(shù)、面臨問(wèn)題與挑戰(zhàn)以及解決方案等。經(jīng)數(shù)據(jù)治理研究建立的健康醫(yī)療大數(shù)據(jù)平臺(tái)及相關(guān)成果,可為跨機(jī)構(gòu)、跨部門(mén)的真實(shí)世界研究提供高質(zhì)量數(shù)據(jù),為多中心健康醫(yī)療大數(shù)據(jù)治理提供經(jīng)驗(yàn)和參考。
2.1.1 定義 數(shù)據(jù)治理是數(shù)據(jù)資源及其應(yīng)用過(guò)程中相關(guān)管控活動(dòng)、績(jī)效和風(fēng)險(xiǎn)管理等活動(dòng)的集合[7-8],具體包括數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量提升、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用[9]。數(shù)據(jù)治理是一個(gè)體系性、系統(tǒng)性的集合,不僅通過(guò)數(shù)據(jù)管理提升數(shù)據(jù)質(zhì)量,更強(qiáng)調(diào)流程設(shè)定和權(quán)責(zé)劃分。
2.1.2 內(nèi)容 目前健康醫(yī)療領(lǐng)域多中心真實(shí)世界數(shù)據(jù)治理目的是獲得高質(zhì)量數(shù)據(jù)用于分析挖掘,提升結(jié)論的真實(shí)性、可靠性,主要涉及數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)質(zhì)量提升,數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用還有待進(jìn)一步發(fā)展。其中健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化是參照公認(rèn)的標(biāo)準(zhǔn)規(guī)范,約束健康醫(yī)療數(shù)據(jù)的表達(dá),醫(yī)務(wù)或研究人員按照標(biāo)準(zhǔn)規(guī)范記錄和使用數(shù)據(jù),包括數(shù)據(jù)抽取與清洗、數(shù)據(jù)結(jié)構(gòu)化、術(shù)語(yǔ)映射等數(shù)據(jù)規(guī)范化以及基于醫(yī)學(xué)信息標(biāo)準(zhǔn)的數(shù)據(jù)交換和數(shù)據(jù)集成等[10-11]。而健康醫(yī)療數(shù)據(jù)質(zhì)量提升,主要內(nèi)容是構(gòu)建全流程數(shù)據(jù)治理體系[12],即在健康醫(yī)療數(shù)據(jù)治理過(guò)程中完善組織架構(gòu),明確權(quán)利責(zé)任分工,使數(shù)據(jù)質(zhì)量管理制度化、規(guī)范化,實(shí)現(xiàn)對(duì)數(shù)據(jù)的產(chǎn)生、共享、使用、統(tǒng)計(jì)全過(guò)程質(zhì)量把控以及日常監(jiān)測(cè)、質(zhì)控和改進(jìn);同時(shí)建立多中心級(jí)的數(shù)據(jù)標(biāo)準(zhǔn)、含義,梳理分散在不同中心各系統(tǒng)中的數(shù)據(jù),參考標(biāo)準(zhǔn)數(shù)據(jù)集確定統(tǒng)一的命名、定義、數(shù)據(jù)類型、值域規(guī)則、計(jì)算方法等。
2.2.1 概述 通用數(shù)據(jù)模型(Common Data Model,CDM)是數(shù)據(jù)標(biāo)準(zhǔn)化的核心[13],是具有統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)模型,可規(guī)范健康醫(yī)療數(shù)據(jù)的格式和內(nèi)容,目的是將不同數(shù)據(jù)庫(kù)包含的數(shù)據(jù)轉(zhuǎn)換為通用格式以及應(yīng)用統(tǒng)一術(shù)語(yǔ)[14]。通用數(shù)據(jù)模型包含標(biāo)準(zhǔn)化詞匯表、標(biāo)準(zhǔn)化元數(shù)據(jù)、標(biāo)準(zhǔn)化臨床數(shù)據(jù)表、標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表、標(biāo)準(zhǔn)化健康經(jīng)濟(jì)表和標(biāo)準(zhǔn)化派生元素6類,共39張表,見(jiàn)圖1。
圖1 通用數(shù)據(jù)模型
2.2.2 健康醫(yī)療數(shù)據(jù)分析和利用標(biāo)準(zhǔn)化 通用數(shù)據(jù)模型中包含大量醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)并支持開(kāi)放獲取,其中包含世界衛(wèi)生組織制定的國(guó)際疾病分類與代碼(ICD10/ICD9)、國(guó)際醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)化與研發(fā)組織制定的系統(tǒng)化醫(yī)學(xué)術(shù)語(yǔ)集臨床術(shù)語(yǔ)版(Systematized Nomenclature of Medicine—Clinical Terms,SNOMED CT)、美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館制定的醫(yī)學(xué)主題詞表(Medical Subject Headings,MeSH)、觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼系統(tǒng)(Logical Observation Identifiers Names and Codes,LOINC)、美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館編制的臨床藥品規(guī)范化命名表(RxNorm)等100余個(gè)醫(yī)學(xué)術(shù)語(yǔ)表。這些術(shù)語(yǔ)表為健康醫(yī)療數(shù)據(jù)的分析和利用提供標(biāo)準(zhǔn)化映射的術(shù)語(yǔ)支持,健康醫(yī)療數(shù)據(jù)依據(jù)統(tǒng)一編碼體系和轉(zhuǎn)化規(guī)則被標(biāo)準(zhǔn)化為一致概念,基于統(tǒng)一術(shù)語(yǔ)表達(dá),后續(xù)可開(kāi)展數(shù)據(jù)互聯(lián)互通,檢索獲取不同醫(yī)療衛(wèi)生機(jī)構(gòu)的數(shù)據(jù)分析與利用,為大數(shù)據(jù)研究提供支撐。
2.2.3 健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化存儲(chǔ) 通用數(shù)據(jù)模型很好地解決健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化存儲(chǔ)問(wèn)題。通用數(shù)據(jù)模型具有統(tǒng)一的醫(yī)學(xué)概念表達(dá)形式,標(biāo)準(zhǔn)化的臨床數(shù)據(jù)模型、醫(yī)學(xué)術(shù)語(yǔ)、編碼系統(tǒng)等,數(shù)據(jù)庫(kù)內(nèi)字段信息等屬性相對(duì)固定。在開(kāi)展基于通用數(shù)據(jù)模型的多中心研究時(shí)不必考慮適配不同數(shù)據(jù)庫(kù),減少人力、時(shí)間投入;通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)指導(dǎo)收集和錄入數(shù)據(jù),規(guī)范了數(shù)據(jù)采集和管理過(guò)程,提高了數(shù)據(jù)完整性和一致性,保證了研究數(shù)據(jù)質(zhì)量。
2.2.4 數(shù)據(jù)利用 經(jīng)過(guò)基于通用數(shù)據(jù)模型的健康醫(yī)療數(shù)據(jù)治理,不同醫(yī)療衛(wèi)生機(jī)構(gòu)的信息系統(tǒng)中的健康醫(yī)療數(shù)據(jù)以相同格式的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),研究人員可以通過(guò)統(tǒng)一的調(diào)用方式調(diào)取、統(tǒng)計(jì)、分析數(shù)據(jù),可實(shí)現(xiàn)真實(shí)世界健康醫(yī)療大數(shù)據(jù)的最大化利用。
為開(kāi)展真實(shí)世界多中心健康醫(yī)療大數(shù)據(jù)研究,需要對(duì)各中心健康醫(yī)療數(shù)據(jù)進(jìn)行治理,并建立健康醫(yī)療大數(shù)據(jù)平臺(tái)。在平臺(tái)的數(shù)據(jù)治理實(shí)踐過(guò)程中,以通用數(shù)據(jù)模型為基礎(chǔ)建立一套數(shù)據(jù)入庫(kù)、清洗、質(zhì)量檢查、結(jié)構(gòu)化、數(shù)據(jù)映射的標(biāo)準(zhǔn)化處理流程。平臺(tái)從各個(gè)數(shù)據(jù)中心的不同信息系統(tǒng)中獲取患者基本信息、就診、診斷、用藥、檢驗(yàn)、手術(shù)、文本信息等數(shù)據(jù),并進(jìn)行數(shù)據(jù)加密與脫敏。取得的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)直接進(jìn)行抽取與清洗、質(zhì)量檢查,而對(duì)文本數(shù)據(jù)則利用自然語(yǔ)言處理技術(shù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。在對(duì)結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)預(yù)處理完成后,針對(duì)診斷、手術(shù)、藥品、檢驗(yàn)等數(shù)據(jù)參照標(biāo)準(zhǔn)術(shù)語(yǔ)集分別制定術(shù)語(yǔ)映射標(biāo)準(zhǔn)化作業(yè)程序(Standard Operation Procedure, SOP),并由醫(yī)學(xué)專家對(duì)映射數(shù)據(jù)進(jìn)行審校,映射合格的數(shù)據(jù)即為通用數(shù)據(jù)模型數(shù)據(jù)。在這種通用數(shù)據(jù)模型規(guī)范化和標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)上開(kāi)展多中心的臨床科研、輔助診療、健康管理、疾病預(yù)測(cè)等應(yīng)用。
圖2 平臺(tái)數(shù)據(jù)治理總體設(shè)計(jì)
3.2.1 數(shù)據(jù)抽取 該過(guò)程使用具有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)脫敏技術(shù),以保證用于科研的數(shù)據(jù)經(jīng)過(guò)絕對(duì)脫敏且不可追溯原患者,從而確保科研的客觀性和患者隱私的保密性。平臺(tái)支持以接口與非接口化的形式采集數(shù)據(jù),支持標(biāo)準(zhǔn)消息傳遞協(xié)議,具備數(shù)據(jù)存儲(chǔ)和訪問(wèn)功能,可將多源異構(gòu)數(shù)據(jù)進(jìn)行聚合。
3.2.2 數(shù)據(jù)清洗 即對(duì)數(shù)據(jù)中存在的各種問(wèn)題進(jìn)行處理,包括缺失值及異常值處理等。處理缺失值時(shí)通過(guò)統(tǒng)計(jì)內(nèi)容為空、內(nèi)容缺失數(shù)據(jù)詞頻占比確定缺失值數(shù)量并進(jìn)行對(duì)應(yīng)補(bǔ)充;處理異常值時(shí)針對(duì)部分?jǐn)?shù)據(jù)開(kāi)頭或結(jié)尾包含特殊字符的情況進(jìn)行處理,替換掉特殊符號(hào)。數(shù)據(jù)清洗是為了達(dá)到補(bǔ)全數(shù)據(jù)、剔除重復(fù)數(shù)據(jù)等目的,最大限度地利用各中心已有臨床數(shù)據(jù),提供更加全面、準(zhǔn)確的健康醫(yī)療數(shù)據(jù)。
在數(shù)據(jù)抽取與清洗完成后對(duì)數(shù)據(jù)進(jìn)行質(zhì)量檢查,包括完整性檢查、關(guān)聯(lián)性檢查和一致性檢查。完整性檢查是將原始數(shù)據(jù)接口、中間表、通用數(shù)據(jù)模型的數(shù)據(jù)量、分布情況進(jìn)行總體統(tǒng)計(jì)檢查。一致性檢查同樣針對(duì)以上信息,檢查原始數(shù)據(jù)接口、中間表、通用數(shù)據(jù)模型庫(kù)的醫(yī)療數(shù)據(jù),確保數(shù)據(jù)一致性。一致性檢查要求100%一致,對(duì)于校驗(yàn)中發(fā)現(xiàn)的不一致信息進(jìn)行評(píng)估,檢查并更新數(shù)據(jù)抽取工具或校驗(yàn)工具中的算法。關(guān)聯(lián)性檢查對(duì)患者基本信息與就診信息進(jìn)行關(guān)聯(lián)性檢查,并對(duì)患者每次就診信息,包括診斷、用藥、檢驗(yàn)、手術(shù)、文本信息等進(jìn)行關(guān)聯(lián)性檢查,確?;颊咝畔⑴c業(yè)務(wù)數(shù)據(jù)是準(zhǔn)確關(guān)聯(lián)的。關(guān)聯(lián)性檢查的要求是患者基本信息、就診信息與業(yè)務(wù)場(chǎng)景相符合。
除了結(jié)構(gòu)化數(shù)據(jù),醫(yī)療數(shù)據(jù)還包括大量非結(jié)構(gòu)化文本數(shù)據(jù),需要利用自然語(yǔ)言處理技術(shù)抽取這些文本數(shù)據(jù)的實(shí)體和關(guān)系進(jìn)行結(jié)構(gòu)化。首先通過(guò)機(jī)器學(xué)習(xí)構(gòu)建命名實(shí)體識(shí)別(Named Entity Recognition, NER)模型和關(guān)系抽取模型,提取文本中的實(shí)體和關(guān)系。其中實(shí)體指的是文本中的信息字段,可分類為疾病診斷、時(shí)間、藥品名、癥狀表現(xiàn)、值等,關(guān)系是指兩個(gè)或多個(gè)實(shí)體之間存在的邏輯關(guān)系。文本數(shù)據(jù)結(jié)構(gòu)化后進(jìn)行校驗(yàn),針對(duì)命名實(shí)體識(shí)別模型和關(guān)系抽取模型在實(shí)體和關(guān)系提取時(shí)的可信度(即模型的準(zhǔn)確率)方面進(jìn)行驗(yàn)證,確保模型的準(zhǔn)確性達(dá)到90%以上,主要用準(zhǔn)確率、召回率、F1值3個(gè)指標(biāo)衡量文本數(shù)據(jù)結(jié)構(gòu)化處理效果,3個(gè)衡量指標(biāo)均≥90%則可認(rèn)為文本數(shù)據(jù)結(jié)構(gòu)化處理質(zhì)量達(dá)到要求。
3.5.1 概述 平臺(tái)數(shù)據(jù)治理中的術(shù)語(yǔ)映射為半自動(dòng)化術(shù)語(yǔ)映射,即機(jī)器為主、人工為輔。標(biāo)準(zhǔn)概念由機(jī)器學(xué)習(xí)算法自動(dòng)推薦,并由醫(yī)學(xué)人員逐條確認(rèn)映射結(jié)果;對(duì)不同類型的術(shù)語(yǔ)制定術(shù)語(yǔ)映射標(biāo)準(zhǔn)作業(yè)程序,保證術(shù)語(yǔ)映射規(guī)則統(tǒng)一。平臺(tái)的術(shù)語(yǔ)映射主要包括數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)拆分、術(shù)語(yǔ)映射、專家審校等內(nèi)容。
3.5.2 數(shù)據(jù)質(zhì)量評(píng)估 包括評(píng)估數(shù)據(jù)類型,分析待映射數(shù)據(jù)包含的數(shù)據(jù)類型、種類,確定待映射術(shù)語(yǔ)體系;評(píng)估數(shù)據(jù)完整性,分析數(shù)據(jù)是否存在缺失值及異常值等,針對(duì)存在問(wèn)題及時(shí)反饋;評(píng)估整體情況,分析是否需要處理缺失值及異常值,以及是否有分詞需求。
3.5.3 數(shù)據(jù)拆分 對(duì)不同類型數(shù)據(jù)參考不同術(shù)語(yǔ)體系做標(biāo)準(zhǔn)化,因此對(duì)包含多種類型的源數(shù)據(jù)按類別拆分后再進(jìn)行映射,見(jiàn)表1。
表1 不同數(shù)據(jù)類型對(duì)應(yīng)的術(shù)語(yǔ)集
3.5.4 術(shù)語(yǔ)映射 分為自動(dòng)映射和人工映射。自動(dòng)映射自動(dòng)匹配標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù),完全精準(zhǔn)匹配結(jié)果不再進(jìn)行人工映射;人工映射時(shí),首先基于機(jī)器學(xué)習(xí)算法自動(dòng)推薦標(biāo)準(zhǔn)概念,并給出一個(gè)基于概率的置信度(0~100之間),然后通過(guò)機(jī)器自動(dòng)推薦結(jié)合醫(yī)學(xué)人員手動(dòng)搜索對(duì)照標(biāo)準(zhǔn)的術(shù)語(yǔ)字典逐條映射,并標(biāo)注映射狀態(tài)為“近似精準(zhǔn)”“向上映射”“存疑映射”或“無(wú)法映射”,見(jiàn)表2。
表2 術(shù)語(yǔ)映射規(guī)則
續(xù)表2
3.5.5 專家審校 由醫(yī)學(xué)專家審校映射準(zhǔn)確性,針對(duì)近似精準(zhǔn)、向上映射、存疑數(shù)據(jù)由醫(yī)學(xué)專家對(duì)照標(biāo)準(zhǔn)集進(jìn)行校驗(yàn)及更正,針對(duì)無(wú)法映射術(shù)語(yǔ)由專家再次映射,仍無(wú)法映射的術(shù)語(yǔ)由專家指導(dǎo)構(gòu)建標(biāo)準(zhǔn)術(shù)語(yǔ)并補(bǔ)充到標(biāo)準(zhǔn)術(shù)語(yǔ)集,最終更新至映射規(guī)則庫(kù)。
3.5.6 質(zhì)量核查 術(shù)語(yǔ)映射質(zhì)量核查即隨機(jī)抽取10%的映射數(shù)據(jù),如果映射準(zhǔn)確性≥90%則認(rèn)為數(shù)據(jù)映射合格。
3.6.1 概況 平臺(tái)經(jīng)基于通用數(shù)據(jù)模型的數(shù)據(jù)治理匯聚3個(gè)醫(yī)療機(jī)構(gòu)的健康醫(yī)療數(shù)據(jù),包括131萬(wàn)患者數(shù)據(jù),其中住院患者數(shù)據(jù)約12萬(wàn),門(mén)診患者數(shù)據(jù)約117萬(wàn),手術(shù)患者數(shù)據(jù)9萬(wàn),檢查檢驗(yàn)數(shù)據(jù)約3 000萬(wàn)。平臺(tái)具有數(shù)據(jù)概覽、探索發(fā)現(xiàn)、隊(duì)列發(fā)現(xiàn)、科研管理等功能模塊,能夠支持科研人員高效、便捷地研究、統(tǒng)計(jì)、管理和分析患者數(shù)據(jù),提高研究效率,拓展研究范圍。
3.6.2 數(shù)據(jù)概覽方面 支持對(duì)平臺(tái)全量數(shù)據(jù)及建立特定隊(duì)列的患者數(shù)量、住院患者數(shù)量、門(mén)診患者數(shù)量、手術(shù)數(shù)量、檢查檢驗(yàn)數(shù)量、性別、年齡、地域分布等數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與可視化,對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)并以多種圖表的方式呈現(xiàn),使研究人員快速了解數(shù)據(jù)總體情況。
3.6.3 數(shù)據(jù)檢索方面 對(duì)通用數(shù)據(jù)模型的健康醫(yī)療數(shù)據(jù)建立索引,通過(guò)搜索引擎快速、準(zhǔn)確地搜索相關(guān)結(jié)果并排序。支持通過(guò)常用信息、病案首頁(yè)、檢查信息、治療信息、用藥信息、檢驗(yàn)信息等進(jìn)行檢索。其中檢查信息包括影像檢查和檢查基本信息,治療信息包括手術(shù)信息,檢驗(yàn)信息包括基本信息和常用檢驗(yàn)項(xiàng)目。以此自定義條件檢索出符合條件的人群進(jìn)行探索性分析和隊(duì)列發(fā)現(xiàn),同時(shí)支持建立隊(duì)列,自動(dòng)匯聚和采集滿足隊(duì)列納入排除標(biāo)準(zhǔn)的回顧性數(shù)據(jù)和前瞻性數(shù)據(jù),并支持合并多個(gè)研究隊(duì)列。
3.6.4 科研管理與數(shù)據(jù)分析方面 支持前瞻性和回顧性的科研項(xiàng)目建立、查看、資料修改與完善、數(shù)據(jù)使用、數(shù)據(jù)導(dǎo)出等科研管理。同時(shí)平臺(tái)集成了T檢驗(yàn)、卡方分析、方差分析等常用衛(wèi)生統(tǒng)計(jì)方法,支持簡(jiǎn)單的數(shù)據(jù)分析與統(tǒng)計(jì);支持將隊(duì)列篩選和變量選擇所得數(shù)據(jù)導(dǎo)出,在更專業(yè)的統(tǒng)計(jì)分析工具中開(kāi)展更深入的數(shù)據(jù)分析和挖掘。
在平臺(tái)的數(shù)據(jù)治理實(shí)踐中實(shí)現(xiàn)了真實(shí)世界多中心健康醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化和質(zhì)量提升。通過(guò)制定不同的數(shù)據(jù)治理標(biāo)準(zhǔn)作業(yè)程序,將不同醫(yī)療機(jī)構(gòu)質(zhì)量參差不齊、結(jié)構(gòu)各異的健康醫(yī)療數(shù)據(jù)轉(zhuǎn)換成通用數(shù)據(jù)模型格式,為真實(shí)世界多中心健康醫(yī)療研究提供高質(zhì)量、高可靠的支撐。但在數(shù)據(jù)治理過(guò)程中還存在一些問(wèn)題,也是當(dāng)前真實(shí)世界多中心健康醫(yī)療大數(shù)據(jù)治理研究的普遍問(wèn)題。
醫(yī)療機(jī)構(gòu)以滿足臨床業(yè)務(wù)為主,對(duì)信息系統(tǒng)的維護(hù)不足,使得信息系統(tǒng)里的數(shù)據(jù)存在不完整、不規(guī)范、不標(biāo)準(zhǔn)、缺乏關(guān)聯(lián)等問(wèn)題。醫(yī)療機(jī)構(gòu)應(yīng)將數(shù)據(jù)作為資產(chǎn)管理,以通用數(shù)據(jù)模型為基礎(chǔ)構(gòu)建全流程的數(shù)據(jù)治理體系,做好數(shù)據(jù)日常維護(hù),以減少多中心研究中在單中心數(shù)據(jù)質(zhì)量控制上的人力、物力消耗。
非結(jié)構(gòu)化中文文本數(shù)據(jù)存在歧義性和記錄信息不完整等問(wèn)題,加上醫(yī)療概念復(fù)雜,自然語(yǔ)言處理模型難以處理醫(yī)學(xué)領(lǐng)域的常識(shí)和推理問(wèn)題??蓢L試以病種為單位劃分?jǐn)?shù)據(jù)和搭建單病種知識(shí)圖譜,以點(diǎn)帶面構(gòu)建行業(yè)內(nèi)的常識(shí)性知識(shí),并進(jìn)一步開(kāi)展受限自然語(yǔ)言處理,提升模型的實(shí)體識(shí)別和關(guān)系抽取能力。
由于目前平臺(tái)集成了各中心一部分健康醫(yī)療數(shù)據(jù),數(shù)據(jù)還不夠全面,對(duì)研究結(jié)果可能有一定影響,需要補(bǔ)充影像、基因、隨訪等更多模態(tài)、來(lái)源的數(shù)據(jù),同時(shí)需要保證數(shù)據(jù)安全和患者隱私。為此可嘗試在平臺(tái)上接入更多基于通用數(shù)據(jù)模型的數(shù)據(jù)處理、分析與挖掘的統(tǒng)一代碼或工具;各中心利用分布式網(wǎng)絡(luò)調(diào)用平臺(tái)提供的代碼或工具對(duì)醫(yī)療數(shù)據(jù)進(jìn)行治理,存儲(chǔ)在本地,并對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,共享研究結(jié)果。各中心不需要輸出可能包含患者隱私的數(shù)據(jù),只需要將研究結(jié)果整合起來(lái),對(duì)外僅分享和發(fā)布整合研究結(jié)果。
目前我國(guó)未出臺(tái)專門(mén)針對(duì)多中心健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的專項(xiàng)法律法規(guī)、配套政策及監(jiān)督機(jī)制等,存在數(shù)據(jù)的歸屬權(quán)與使用權(quán)不明確、數(shù)據(jù)共享開(kāi)放的管理制度以及應(yīng)用準(zhǔn)入與退出機(jī)制缺乏、數(shù)據(jù)應(yīng)用的公平性機(jī)制不清晰等問(wèn)題,制約了我國(guó)健康醫(yī)療大數(shù)據(jù)的良性發(fā)展。因此需要在國(guó)家層面對(duì)規(guī)范數(shù)據(jù)質(zhì)量、數(shù)據(jù)來(lái)源的合法性、數(shù)據(jù)采集的合規(guī)性、個(gè)人信息授權(quán)、數(shù)據(jù)脫敏化處理、數(shù)據(jù)應(yīng)用的公平性等一系列健康醫(yī)療大數(shù)據(jù)應(yīng)用過(guò)程中的環(huán)節(jié)制定詳細(xì)的政策法規(guī)和體制機(jī)制。
本文通過(guò)建立真實(shí)世界多中心健康醫(yī)療大數(shù)據(jù)平臺(tái),提供基于通用數(shù)據(jù)模型、統(tǒng)一的理論、方法與技術(shù),實(shí)現(xiàn)多中心健康醫(yī)療數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化,提高數(shù)據(jù)質(zhì)量,推動(dòng)跨機(jī)構(gòu)、跨部門(mén)的數(shù)據(jù)互聯(lián)互通和共享利用,使真實(shí)世界健康醫(yī)療大數(shù)據(jù)真正成為資源,發(fā)揮應(yīng)有價(jià)值。