隨著科學(xué)技術(shù)的快速發(fā)展,全球科學(xué)數(shù)據(jù)呈爆發(fā)性的增長(zhǎng)態(tài)勢(shì),科學(xué)研究進(jìn)入數(shù)據(jù)密集型的大數(shù)據(jù)時(shí)代。而醫(yī)學(xué)領(lǐng)域是大數(shù)據(jù)應(yīng)用的重要領(lǐng)域之一,大數(shù)據(jù)的快速發(fā)展促進(jìn)了數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)醫(yī)療模式的發(fā)展,近年國(guó)內(nèi)外都開(kāi)展了大量基于醫(yī)學(xué)大數(shù)據(jù)的精準(zhǔn)醫(yī)學(xué)研究項(xiàng)目[1]。2016年,我國(guó)將精準(zhǔn)醫(yī)學(xué)研究列入國(guó)家“十三五”科技發(fā)展重大專項(xiàng),并上升為國(guó)家戰(zhàn)略。但是由于各數(shù)據(jù)資源的產(chǎn)生單位不同、建設(shè)時(shí)期不同,采用的數(shù)據(jù)標(biāo)準(zhǔn)也不盡相同,導(dǎo)致在數(shù)據(jù)資源的整合方面存在很大難度。為了更有效地利用醫(yī)學(xué)數(shù)據(jù),需要針對(duì)數(shù)據(jù)資源的異構(gòu)現(xiàn)象,建立統(tǒng)一的數(shù)據(jù)匯交標(biāo)準(zhǔn),實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合。
國(guó)內(nèi)外的學(xué)者致力于多源電子化醫(yī)學(xué)數(shù)據(jù)的數(shù)據(jù)整合研究,衍生出許多標(biāo)準(zhǔn)模型。2006年,美國(guó)國(guó)立神經(jīng)疾病和卒中研究所(National Institutes of Neurological Disorders and Stroke,NINDS)開(kāi)展了卒中通用數(shù)據(jù)元素(Common Data Element,CDE)的編制工作,以實(shí)現(xiàn)轉(zhuǎn)化醫(yī)學(xué)研究、臨床研究和人群研究等各類數(shù)據(jù)的整合共享[2]。也有研究者基于HL7臨床文檔架構(gòu)(Clinical Document Architecture,CDA)標(biāo)準(zhǔn)提出了針對(duì)異構(gòu)臨床數(shù)據(jù)信息系統(tǒng)的集成方案[3-4]。CDA標(biāo)準(zhǔn)是HL7 V3的一部分,專門規(guī)定了臨床文檔內(nèi)容的標(biāo)準(zhǔn)化,但是CDA只規(guī)范了文檔內(nèi)容表達(dá),不涉及文檔實(shí)例的打包和交換機(jī)制[5-6]。美國(guó)觀察性醫(yī)療結(jié)果合作組織也建立了一套統(tǒng)一的框架——通用數(shù)據(jù)模型,幫助解決科學(xué)研究中數(shù)據(jù)結(jié)構(gòu)和內(nèi)容的標(biāo)準(zhǔn)化問(wèn)題,該模型目前已廣泛地應(yīng)用于各類科學(xué)研究[7-8]。
為了更有效地研究醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化整合,本文深入探析了美國(guó)觀察性醫(yī)療結(jié)果合作組織(Observational Medical Outcomes Partnership,OMOP)建立的通用數(shù)據(jù)模型(Common Data Model,CDM)的主要模塊架構(gòu),梳理和總結(jié)了多源數(shù)據(jù)向CDM轉(zhuǎn)換的流程、每一步的實(shí)現(xiàn)方法和主要思路,并介紹了當(dāng)前模型的應(yīng)用情況,以促進(jìn)對(duì)模型的理解和數(shù)據(jù)規(guī)范化的實(shí)踐。最后,結(jié)合我國(guó)精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)整合共享的實(shí)際需求探討了模型應(yīng)用中的關(guān)鍵問(wèn)題并提出了相關(guān)建議,以期為促進(jìn)我國(guó)精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)的集成整合和共享利用提供有益思路和方法。
OMOP創(chuàng)建于2008年,并不斷發(fā)展為一個(gè)新的合作項(xiàng)目,即觀察性健康數(shù)據(jù)科學(xué)和信息學(xué)(Observational Health Data Sciences and Informatics,OHDSI)[9]。OHDSI是一個(gè)涉及多類利益相關(guān)方的跨學(xué)科合作項(xiàng)目,致力于通過(guò)大規(guī)模的數(shù)據(jù)分析發(fā)揮觀察性健康數(shù)據(jù)的更多價(jià)值,目前OHDSI研究網(wǎng)絡(luò)已覆蓋全球6億多患者。OHDSI主要研究涉及開(kāi)發(fā)、分析功能的軟件工具,包括OMOP CDM和可應(yīng)用于數(shù)據(jù)抽取-轉(zhuǎn)換-加載(Extraction-Transformation-Loading,ETL)過(guò)程的工具等。
OMOP CDM定義了一種統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),可以規(guī)范多源異構(gòu)的觀察性數(shù)據(jù)的格式和內(nèi)容,如圖1所示。
數(shù)據(jù)集1、數(shù)據(jù)集2和數(shù)據(jù)集3是來(lái)自不同數(shù)據(jù)源、具有不同數(shù)據(jù)結(jié)構(gòu)的3個(gè)數(shù)據(jù)集。通過(guò)對(duì)這3個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換、加載,將數(shù)據(jù)集轉(zhuǎn)換到OMOP CDM中,最后可形成統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu),支持在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行后續(xù)的數(shù)據(jù)分析并得到分析結(jié)果。
圖1 將不同結(jié)構(gòu)的數(shù)據(jù)集轉(zhuǎn)換為OMOP CDM
經(jīng)不斷改進(jìn),OMOP CDM目前已更新到6.0版本[10],包括標(biāo)準(zhǔn)化詞匯表、標(biāo)準(zhǔn)化元數(shù)據(jù)表、標(biāo)準(zhǔn)化臨床數(shù)據(jù)表、標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表、標(biāo)準(zhǔn)化健康經(jīng)濟(jì)數(shù)據(jù)表、標(biāo)準(zhǔn)化派生元素表、結(jié)果架構(gòu)表等7大模塊39個(gè)域表。
標(biāo)準(zhǔn)化詞匯表包含了不同的標(biāo)準(zhǔn)術(shù)語(yǔ)以及源數(shù)據(jù)編碼與標(biāo)準(zhǔn)術(shù)語(yǔ)的映射信息(表1),標(biāo)準(zhǔn)化元數(shù)據(jù)表儲(chǔ)存了從源數(shù)據(jù)中派生的元數(shù)據(jù)的相關(guān)信息(表2),標(biāo)準(zhǔn)化臨床數(shù)據(jù)表包含了每個(gè)受試者在有效觀察期內(nèi)的縱向臨床數(shù)據(jù)以及相應(yīng)的人口統(tǒng)計(jì)學(xué)信息(表3),標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表描述了負(fù)責(zé)管理患者醫(yī)療保健事項(xiàng)的醫(yī)療保健提供者和醫(yī)療場(chǎng)所的相關(guān)信息(表4),標(biāo)準(zhǔn)化健康經(jīng)濟(jì)數(shù)據(jù)表包含了醫(yī)療保健的成本信息(表5),標(biāo)準(zhǔn)化派生元素表包含了從CDM的其他域表中獲得的患者臨床數(shù)據(jù)的相關(guān)信息(非源數(shù)據(jù)獲得)(表6)。結(jié)果架構(gòu)表是CDM 6.0版本的新模塊,目前包含“隊(duì)列”和“隊(duì)列定義”兩個(gè)域表(表7)。
表1 標(biāo)準(zhǔn)化詞匯表
表2 標(biāo)準(zhǔn)化元數(shù)據(jù)表
表3 標(biāo)準(zhǔn)化臨床數(shù)據(jù)表
表4 標(biāo)準(zhǔn)化健康系統(tǒng)數(shù)據(jù)表
表5 標(biāo)準(zhǔn)化健康經(jīng)濟(jì)數(shù)據(jù)表
表6 標(biāo)準(zhǔn)化派生元素表
表7 結(jié)果架構(gòu)表
將源數(shù)據(jù)轉(zhuǎn)換為OMOP CDM需要經(jīng)過(guò)ETL過(guò)程,即對(duì)源數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、加載等一系列操作,使源數(shù)據(jù)在語(yǔ)法和語(yǔ)義上與目標(biāo)CDM的結(jié)構(gòu)和術(shù)語(yǔ)協(xié)調(diào)一致[11]。本文對(duì)模型的具體轉(zhuǎn)換流程進(jìn)行梳理和總結(jié),繪制了源數(shù)據(jù)到OMOP CDM的轉(zhuǎn)換流程圖(圖2),通過(guò)4步處理將多源異構(gòu)的源數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu),便于數(shù)據(jù)綜合利用與分析。
如圖2所示,整個(gè)ETL過(guò)程可分為源數(shù)據(jù)分析、數(shù)據(jù)表與字段映射、標(biāo)準(zhǔn)術(shù)語(yǔ)映射、ETL實(shí)現(xiàn)4個(gè)部分。源數(shù)據(jù)分析是分析各個(gè)源數(shù)據(jù)表的內(nèi)容和結(jié)構(gòu),了解源數(shù)據(jù)的信息記錄方式;數(shù)據(jù)表與字段映射主要是進(jìn)行整體映射的需求設(shè)計(jì),首先建立源數(shù)據(jù)表與對(duì)應(yīng)CDM域表的映射關(guān)系,然后進(jìn)一步建立源數(shù)據(jù)字段與對(duì)應(yīng)CDM字段的映射關(guān)系;標(biāo)準(zhǔn)術(shù)語(yǔ)映射是建立源數(shù)據(jù)編碼到OMOP標(biāo)準(zhǔn)術(shù)語(yǔ)的映射,在進(jìn)行源數(shù)據(jù)編碼的提取時(shí),應(yīng)按不同域表(即狀況、觀察、測(cè)量、藥物治療等)進(jìn)行源數(shù)據(jù)編碼的分解提取,并與對(duì)應(yīng)領(lǐng)域的標(biāo)準(zhǔn)術(shù)語(yǔ)建立映射;ETL實(shí)現(xiàn)是通過(guò)輸入源數(shù)據(jù)和術(shù)語(yǔ)映射表,根據(jù)映射邏輯將源數(shù)據(jù)逐一映射到每一個(gè)需要的CDM域表中,從而將源數(shù)據(jù)轉(zhuǎn)換為OMOP CDM的標(biāo)準(zhǔn)格式。
由于多源數(shù)據(jù)結(jié)構(gòu)、類型的復(fù)雜性、規(guī)模的差異和標(biāo)準(zhǔn)的差異性,在將源數(shù)據(jù)轉(zhuǎn)換為OMOP CDM的整體過(guò)程中,OHDSI在源數(shù)據(jù)分析、數(shù)據(jù)表與字段映射以及標(biāo)準(zhǔn)術(shù)語(yǔ)映射3個(gè)階段分別提供了WhiteRabbit、Rabbit-In-a-Hat和Usagi工具,輔助研究人員進(jìn)行轉(zhuǎn)換過(guò)程的基本數(shù)據(jù)分析和轉(zhuǎn)換規(guī)則設(shè)計(jì)。最后的ETL實(shí)現(xiàn)階段較為復(fù)雜,OHDSI沒(méi)有提供集成的ETL實(shí)現(xiàn)工具,需要研究人員根據(jù)數(shù)據(jù)的實(shí)際情況通過(guò)個(gè)性化定制實(shí)現(xiàn)。目前多使用Java、C#等語(yǔ)言開(kāi)發(fā)ETL生成器以完成最終源數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)換。
圖2 源數(shù)據(jù)到OMOP CDM的轉(zhuǎn)換流程
2.2.1 源數(shù)據(jù)分析
首先通過(guò)源數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分析了解數(shù)據(jù)集的結(jié)構(gòu)特征。以一份調(diào)查問(wèn)卷數(shù)據(jù)集為例,調(diào)查問(wèn)卷數(shù)據(jù)集包含個(gè)人信息、人口社會(huì)學(xué)特征、生活方式、疾病狀況、體格檢查5個(gè)模塊(表8),分別對(duì)應(yīng)Personal information.csv、Demographics.csv、Lifestyle.csv、Disease status.csv、Physical examination.csv 5個(gè)數(shù)據(jù)表。
將調(diào)查問(wèn)卷數(shù)據(jù)集的5個(gè)數(shù)據(jù)表導(dǎo)入WhiteRabbit工具,進(jìn)行數(shù)據(jù)掃描,生成并導(dǎo)出名為“ScanReport”的Excel掃描報(bào)告(圖3)。
該掃描報(bào)告包含各個(gè)數(shù)據(jù)表的信息,每個(gè)數(shù)據(jù)表的字段信息,各個(gè)字段不同值的列表以及各個(gè)值的出現(xiàn)頻率。數(shù)據(jù)表和字段信息可以幫助了解數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)值和值的出現(xiàn)頻率可以幫助識(shí)別具體信息的記錄方式(如性別的編碼方式是“m”和“f”還是“1”和“2”等)。
表8 調(diào)查問(wèn)卷數(shù)據(jù)集與OMOP CDM的匹配
圖3 使用WhiteRabbit進(jìn)行調(diào)查問(wèn)卷數(shù)據(jù)集的掃描報(bào)告
2.2.2 數(shù)據(jù)表與字段映射
將得到的ScanReport報(bào)告導(dǎo)入Rabbit-In-a-Hat工具,進(jìn)行數(shù)據(jù)映射的需求設(shè)計(jì)。Rabbit-In-a-Hat是一個(gè)可視化的操作工具,支持研究人員手動(dòng)建立各個(gè)源數(shù)據(jù)表、字段與CDM域表、字段的映射關(guān)系,并支持添加相關(guān)的轉(zhuǎn)換邏輯和注釋。值得注意的是,Rabbit-In-a-Hat允許研究人員選擇不同版本的CDM架構(gòu)文件,研究人員既可以使用OMOP提供的CDM架構(gòu)文件,也可以根據(jù)研究需求創(chuàng)建自定義版本的CDM架構(gòu)文件。本次轉(zhuǎn)換選擇6.0版本的OMOP CDM架構(gòu)文件。
首先建立數(shù)據(jù)表的連接。一個(gè)源數(shù)據(jù)表可以映射到多個(gè)CDM域表,一個(gè)CDM域表也可以接收多個(gè)源數(shù)據(jù)表的映射。圖4展示了Rabbit-In-a-Hat的可視化操作界面,其中個(gè)人信息模塊的Personal information.csv數(shù)據(jù)表可映射到CDM的Person域表,人口社會(huì)學(xué)特征模塊的Demographics.csv數(shù)據(jù)表可映射到CDM的Person域表,疾病狀況模塊的Disease status.csv數(shù)據(jù)表可映射到CDM的Condition_occurrence、Drug_era、Care_site以及Cost域表,體格檢查模塊的Physical examination.csv數(shù)據(jù)表可映射到CDM的Measurement域表,生活方式模塊的Lifestyle.csv數(shù)據(jù)表無(wú)可匹配映射的CDM域表。
然后進(jìn)一步建立各字段到CDM字段的連接。由于數(shù)據(jù)集的獨(dú)特性,源數(shù)據(jù)中可能存在不能映射到CDM中的表格或字段,CDM中也可能存在無(wú)法從源數(shù)據(jù)獲取填充信息的表格或字段。如圖5所示,以Personal information.csv數(shù)據(jù)表和Person域表為例,建立源字段與Person域表字段的連接,并標(biāo)注相應(yīng)的映射邏輯。完成全部表格和字段的連接建立和映射邏輯標(biāo)注后,Rabbit-In-a-Hat可生成并導(dǎo)出構(gòu)建ETL的需求設(shè)計(jì)文檔。
圖4 Rabbit-In-a-Hat中各模塊數(shù)據(jù)表與CDM域表之間的連接
圖5 Rabbit-In-a-Hat中數(shù)據(jù)字段與CDM字段的連接(以Person域表為例)
2.2.3 標(biāo)準(zhǔn)術(shù)語(yǔ)映射
由于源數(shù)據(jù)通常會(huì)使用與OMOP CDM不同的編碼標(biāo)準(zhǔn),所以需要進(jìn)行從源數(shù)據(jù)編碼到OMOP標(biāo)準(zhǔn)術(shù)語(yǔ)的映射。OMOP CDM使用多種標(biāo)準(zhǔn)術(shù)語(yǔ)集,且不同域表和標(biāo)準(zhǔn)術(shù)語(yǔ)之間并不是一一對(duì)應(yīng)的關(guān)系。如RxNorm標(biāo)準(zhǔn)術(shù)語(yǔ)可應(yīng)用于藥物域表,ICD9-Procedure標(biāo)準(zhǔn)術(shù)語(yǔ)可應(yīng)用于過(guò)程域表,而SNOMED標(biāo)準(zhǔn)術(shù)語(yǔ)則包含了所有醫(yī)學(xué)領(lǐng)域的概念,可應(yīng)用于多個(gè)域表的映射。不同域表與標(biāo)準(zhǔn)術(shù)語(yǔ)的對(duì)應(yīng)情況如表9所示。
工具Usagi可輔助研究人員進(jìn)行術(shù)語(yǔ)映射的構(gòu)建。Usagi支持導(dǎo)入源數(shù)據(jù)編碼文件和OMOP標(biāo)準(zhǔn)術(shù)語(yǔ)文件,通過(guò)術(shù)語(yǔ)相似度的方法自動(dòng)的建立各個(gè)源編碼到OMOP標(biāo)準(zhǔn)術(shù)語(yǔ)的建議映射,并獲得每一個(gè)映射的匹配得分(通常是0~1的數(shù)值,1為自信匹配)。
如果建議映射不正確,Usagi允許研究人員進(jìn)行概念的手動(dòng)搜索,從而對(duì)映射進(jìn)行修改。最后,研究人員對(duì)可以在ETL過(guò)程中應(yīng)用的映射進(jìn)行逐條批準(zhǔn),生成并導(dǎo)出包含源數(shù)據(jù)編碼、源概念I(lǐng)D、源術(shù)語(yǔ)ID、映射后的目標(biāo)概念I(lǐng)D、目標(biāo)術(shù)語(yǔ)ID等字段信息術(shù)語(yǔ)映射表(圖6)。
表9 不同域表與標(biāo)準(zhǔn)術(shù)語(yǔ)的對(duì)應(yīng)情況
圖6 使用Usagi進(jìn)行源數(shù)據(jù)編碼到標(biāo)準(zhǔn)術(shù)語(yǔ)的映射
2.2.4 ETL實(shí)現(xiàn)
完成數(shù)據(jù)表與字段映射和標(biāo)準(zhǔn)術(shù)語(yǔ)映射后,可進(jìn)行最終的ETL實(shí)現(xiàn)。在數(shù)據(jù)表與字段映射時(shí)得到的ETL需求文檔可作為實(shí)現(xiàn)ETL的整體數(shù)據(jù)映射規(guī)范,然后需要根據(jù)ETL需求文檔中記錄的表和字段的映射邏輯編寫程序,構(gòu)建需包含數(shù)據(jù)質(zhì)量控制、各字段的標(biāo)準(zhǔn)編碼格式轉(zhuǎn)換、各字段的數(shù)據(jù)映射實(shí)現(xiàn)等多種功能的ETL生成器。
將源數(shù)據(jù)和通過(guò)Usagi得到的術(shù)語(yǔ)映射表輸入到ETL生成器中時(shí),首先應(yīng)對(duì)質(zhì)量較差、不能滿足研究目的的源數(shù)據(jù)進(jìn)行剔除,然后將需要轉(zhuǎn)換編碼格式的字段數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)術(shù)語(yǔ)的格式,并逐一完成Person域表、Condition_occurrence域表、Drug_era域表、Care_site域表、Cost域表以及Measurement域表中各字段與各模塊數(shù)據(jù)字段之間的映射,轉(zhuǎn)換為OMOP CDM標(biāo)準(zhǔn)結(jié)構(gòu)的數(shù)據(jù)信息將分別存儲(chǔ)在Person.csv、Condition_occurrence.csv、Drug_era.csv、Care_site.csv、Cost.csv以及Measurement.csv文件中。由于不同的源數(shù)據(jù)集通常具有不同的內(nèi)容結(jié)構(gòu)和編碼規(guī)則,所以每個(gè)ETL生成器的程序也都具有一定的獨(dú)特性,需要研究人員根據(jù)數(shù)據(jù)集的實(shí)際情況進(jìn)行個(gè)性化的構(gòu)建。
通過(guò)完整的ETL過(guò)程,將多源異構(gòu)的科學(xué)數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為OMOP CDM的標(biāo)準(zhǔn)格式,可實(shí)現(xiàn)數(shù)據(jù)的整合,便于研究人員對(duì)數(shù)據(jù)進(jìn)行綜合分析。
2008年美國(guó)食品藥品管理局(Food and Drug Administration,F(xiàn)DA)開(kāi)展了“哨兵行動(dòng)(Sentinel Initiative)”,希望利用不同來(lái)源的電子醫(yī)療保健數(shù)據(jù),實(shí)現(xiàn)產(chǎn)品安全性的實(shí)時(shí)連續(xù)監(jiān)測(cè),以加強(qiáng)相關(guān)產(chǎn)品上市后的安全性識(shí)別與分析,其中就包括了OMOP[12]。此后OMOP CDM逐漸應(yīng)用到更多領(lǐng)域,如幫助實(shí)現(xiàn)多源醫(yī)學(xué)數(shù)據(jù)的綜合利用、解決醫(yī)學(xué)數(shù)據(jù)整合中的數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題、促進(jìn)跨中心跨地區(qū)的科學(xué)研究合作等。
OMOP成立初期,與OMOP CDM相關(guān)的研究多集中在美國(guó)、歐洲等地。英國(guó)臨床實(shí)踐研究數(shù)據(jù)鏈(Clinical Practice Research Datalink,CPRD)[13]是一個(gè)初級(jí)護(hù)理數(shù)據(jù)庫(kù),記錄了1 400萬(wàn)患者的人口統(tǒng)計(jì)信息、人體測(cè)量信息、生活方式信息、醫(yī)療診斷以及處方數(shù)據(jù)信息等,被認(rèn)為是英國(guó)的人群代表。CPRD在國(guó)際上被廣泛應(yīng)用于流行病學(xué)研究,但是由于CPRD使用自身獨(dú)有的Multilex編碼標(biāo)準(zhǔn),極大地限制了與其他數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)整合和相關(guān)研究的可能性。Matcho等人[14]將CPRD的數(shù)據(jù)轉(zhuǎn)換到OMOP CDM,其轉(zhuǎn)化的所有要素都被評(píng)估為高質(zhì)量。研究者同時(shí)進(jìn)行了驗(yàn)證工作,在原始CPRD數(shù)據(jù)和CPRD CDM數(shù)據(jù)中檢查使用非甾體抗炎藥和首次急性心肌梗死的風(fēng)險(xiǎn),結(jié)果顯示兩項(xiàng)數(shù)據(jù)的患病率相等,證明CPRD可以準(zhǔn)確地轉(zhuǎn)換為OMOP CDM。Voss等人[15]也曾將6個(gè)不同來(lái)源的患者級(jí)數(shù)據(jù)庫(kù)轉(zhuǎn)換為OMOP CDM,探討將不同觀察健康數(shù)據(jù)庫(kù)網(wǎng)絡(luò)標(biāo)準(zhǔn)化到CDM和術(shù)語(yǔ)表中的優(yōu)點(diǎn)與成本,研究評(píng)估了在標(biāo)準(zhǔn)化的轉(zhuǎn)換過(guò)程中的信息丟失程度,結(jié)果顯示轉(zhuǎn)換為OMOP CDM 的信息損失最小,并且數(shù)據(jù)的標(biāo)準(zhǔn)化過(guò)程提高了數(shù)據(jù)質(zhì)量和分析效率,促進(jìn)了跨數(shù)據(jù)庫(kù)的數(shù)據(jù)研究比較。
近年來(lái),不僅歐美發(fā)達(dá)國(guó)家致力于應(yīng)用OMOP CDM進(jìn)行相關(guān)研究,亞洲地區(qū)的研究者也開(kāi)始嘗試將醫(yī)學(xué)健康領(lǐng)域的數(shù)據(jù)轉(zhuǎn)化到OMOP CDM中,開(kāi)展了許多標(biāo)準(zhǔn)化的數(shù)據(jù)研究。韓國(guó)亞洲大學(xué)醫(yī)學(xué)院的You Seng Chan等人[16]將韓國(guó)國(guó)民健康保險(xiǎn)服務(wù)-國(guó)家樣本隊(duì)列(NHIS-NSC)數(shù)據(jù)庫(kù)中113萬(wàn)受試者的數(shù)據(jù)轉(zhuǎn)換為OMOP CDM,平均轉(zhuǎn)化率達(dá)到了99.1%。該研究是亞洲國(guó)家將國(guó)家隊(duì)列數(shù)據(jù)庫(kù)轉(zhuǎn)換為通用的OMOP CDM格式的第一次嘗試,這也使NHIS-NSC成為了支持多方面醫(yī)學(xué)研究的寶貴資源。北京大學(xué)的孫一鑫等人[17]為實(shí)現(xiàn)多源臨床數(shù)據(jù)資源的整合共享,同樣基于OMOP CDM 制定了呼吸系統(tǒng)疾病的專病隊(duì)列數(shù)據(jù)標(biāo)準(zhǔn)。他們分析了各個(gè)來(lái)源的專病隊(duì)列的數(shù)據(jù)特征,然后與OMOP CDM中的已有模塊進(jìn)行匹配,建立了基于OMOP CDM的呼吸隊(duì)列通用數(shù)據(jù)標(biāo)準(zhǔn),進(jìn)行呼吸系統(tǒng)疾病數(shù)據(jù)的回顧性整合。
基于OMOP CDM可以將不同數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換成通用格式,方便研究人員進(jìn)行跨數(shù)據(jù)庫(kù)的數(shù)據(jù)抽取、整合,有利于開(kāi)展不同數(shù)據(jù)庫(kù)的綜合研究或?qū)φ昭芯俊M瑫r(shí),結(jié)合OMOP CDM的標(biāo)準(zhǔn)結(jié)構(gòu),可建立不同特異性專病隊(duì)列的數(shù)據(jù)標(biāo)準(zhǔn),有助于日后開(kāi)展長(zhǎng)期隨訪和數(shù)據(jù)采集。
我國(guó)啟動(dòng)了精準(zhǔn)醫(yī)學(xué)研究專項(xiàng),項(xiàng)目需要匯集我國(guó)各地域的自然人群隊(duì)列、乳腺癌、食管癌、胃癌、心血管疾病、腦血管疾病等多類型專病人群隊(duì)列、罕見(jiàn)病人群隊(duì)列等產(chǎn)出的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù),亟待精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)規(guī)范和集成標(biāo)準(zhǔn),促進(jìn)數(shù)據(jù)存儲(chǔ)、利用和共享。OMOP CDM為我國(guó)多來(lái)源、多結(jié)構(gòu)化的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)的整合、利用提供了寶貴的思路和方法,值得研究者探索和借鑒。由于我國(guó)精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)從疾病類型、數(shù)據(jù)類型、語(yǔ)種、術(shù)語(yǔ)標(biāo)準(zhǔn)化程度等各方面均與國(guó)外的數(shù)據(jù)存在顯著差異,因此CDM模型的具體應(yīng)用可能存在以下問(wèn)題。
一是我國(guó)的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)包括組學(xué)數(shù)據(jù)、影像數(shù)據(jù)、病理數(shù)據(jù)、體檢數(shù)據(jù)、隨訪數(shù)據(jù)等多類型數(shù)據(jù)。OMOP CDM的現(xiàn)有架構(gòu)包括患者、狀況、觀察、測(cè)量、藥物治療、隨訪等數(shù)據(jù),雖然覆蓋了其中一些數(shù)據(jù)類型,但范圍并不全面,不能很好地滿足我國(guó)精準(zhǔn)醫(yī)學(xué)數(shù)據(jù)的整合需求。二是國(guó)外的醫(yī)學(xué)術(shù)語(yǔ)和編碼標(biāo)準(zhǔn)相對(duì)于國(guó)內(nèi)發(fā)展快、應(yīng)用較為廣泛,而國(guó)內(nèi)醫(yī)學(xué)術(shù)語(yǔ)和編碼標(biāo)準(zhǔn)研發(fā)和應(yīng)用還不完善。OMOP CDM使用的標(biāo)準(zhǔn)術(shù)語(yǔ)均為外文標(biāo)準(zhǔn),國(guó)內(nèi)醫(yī)學(xué)數(shù)據(jù)中雖然有些直接使用英文術(shù)語(yǔ)和編碼,但仍有部分需要進(jìn)行中文標(biāo)準(zhǔn)轉(zhuǎn)換的數(shù)據(jù)和很多缺乏標(biāo)準(zhǔn)描述的數(shù)據(jù),這些數(shù)據(jù)無(wú)法很好地實(shí)現(xiàn)OMOP CDM的映射。三是OMOP CDM的相關(guān)工具目前僅支持進(jìn)行英文數(shù)據(jù)的轉(zhuǎn)換,不支持非英文數(shù)據(jù)的轉(zhuǎn)換,缺乏本地化映射、轉(zhuǎn)換等處理工具支持。
針對(duì)上述問(wèn)題,OMOP CDM的本地化應(yīng)用中應(yīng)注意開(kāi)展以下3個(gè)方面的工作。
4.2.1 擴(kuò)展OMOP CDM構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)化模型
OMOP CDM最初多應(yīng)用于藥物和器械安全性的相關(guān)研究。隨著OMOP CDM的應(yīng)用領(lǐng)域逐漸擴(kuò)大,涉及了流行病學(xué)、神經(jīng)學(xué)、藥學(xué)、消化科學(xué)等多方面研究,最新版的OMOP CDM也包含了針對(duì)臨床數(shù)據(jù)、健康系統(tǒng)數(shù)據(jù)、經(jīng)濟(jì)學(xué)數(shù)據(jù)、隊(duì)列數(shù)據(jù)等多類型數(shù)據(jù)的標(biāo)準(zhǔn)模塊。但在實(shí)際應(yīng)用中,由于多源數(shù)據(jù)的復(fù)雜性,各類型的醫(yī)學(xué)數(shù)據(jù)并不能完全與OMOP CDM包含的模塊相匹配,研究人員應(yīng)詳細(xì)分析需要標(biāo)準(zhǔn)化整合的多源數(shù)據(jù)的類型、結(jié)構(gòu)、變量、變量賦值、單位、標(biāo)準(zhǔn)和編碼等,根據(jù)實(shí)際需求和提取數(shù)據(jù)共性特征構(gòu)建本地化的通用數(shù)據(jù)模型。
4.2.2 采用和建立適用的醫(yī)學(xué)術(shù)語(yǔ)和編碼標(biāo)準(zhǔn)
OMOP CDM使用的標(biāo)準(zhǔn)術(shù)語(yǔ)和編碼包括藥物標(biāo)準(zhǔn)RxNorm、臨床標(biāo)準(zhǔn)SNOMED CT、手術(shù)標(biāo)準(zhǔn)ICD9-CM等,標(biāo)準(zhǔn)化術(shù)語(yǔ)的應(yīng)用更有助于數(shù)據(jù)的標(biāo)準(zhǔn)化和互操作。我國(guó)術(shù)語(yǔ)和編碼標(biāo)準(zhǔn)化的建設(shè)一直落后于國(guó)際水平,由于語(yǔ)種、標(biāo)準(zhǔn)適用性和應(yīng)用性問(wèn)題,國(guó)內(nèi)醫(yī)學(xué)數(shù)據(jù)在標(biāo)準(zhǔn)方面的突出問(wèn)題主要是缺乏標(biāo)準(zhǔn)規(guī)范的應(yīng)用、國(guó)際標(biāo)準(zhǔn)本地化問(wèn)題[18]、適合我國(guó)醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)的制定不足等。種種原因?qū)е禄贠MOP CDM進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí),無(wú)法基于已有工具開(kāi)展標(biāo)準(zhǔn)的映射,單純基于不同語(yǔ)種的術(shù)語(yǔ)翻譯會(huì)影響映射準(zhǔn)確性。因此,除需要在數(shù)據(jù)創(chuàng)建時(shí)促進(jìn)醫(yī)學(xué)術(shù)語(yǔ)和編碼標(biāo)準(zhǔn)的應(yīng)用外,還迫切需要建立適用于我國(guó)研究現(xiàn)狀的醫(yī)學(xué)術(shù)語(yǔ)和編碼標(biāo)準(zhǔn)以及建立多語(yǔ)種對(duì)照,以適應(yīng)我國(guó)醫(yī)學(xué)數(shù)據(jù)集成整合和與國(guó)際多源醫(yī)學(xué)數(shù)據(jù)的集成整合。
4.2.3 研發(fā)本地化數(shù)據(jù)標(biāo)準(zhǔn)化模型轉(zhuǎn)換工具
目前與OMOP CDM相關(guān)的研究工作多集中于美國(guó)、歐洲等地的數(shù)據(jù)庫(kù),OHDSI提供的可應(yīng)用于ETL過(guò)程的轉(zhuǎn)換工具也都只能進(jìn)行英文數(shù)據(jù)的轉(zhuǎn)換。2016年,OHDSI在我國(guó)建立分部,通過(guò)利用數(shù)據(jù)科學(xué)和信息學(xué)方法,促進(jìn)我國(guó)健康醫(yī)療數(shù)據(jù)的集成整合的研究。但是想要有效推進(jìn)OMOP CDM模型更廣泛地應(yīng)用,有待更多研究者結(jié)合我國(guó)的實(shí)際情況,對(duì)現(xiàn)有的OMOP CDM以及相關(guān)研究方法和工具進(jìn)行拓展和本地化,建立適用于中文的醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換工具,開(kāi)展中文醫(yī)學(xué)數(shù)據(jù)的整合和集成實(shí)踐。
我國(guó)在醫(yī)學(xué)數(shù)據(jù)的整合方面尚未形成統(tǒng)一的數(shù)據(jù)模型與標(biāo)準(zhǔn),OMOP CDM為多源異構(gòu)的醫(yī)學(xué)數(shù)據(jù)整合提供了思路和方法,值得借鑒學(xué)習(xí)。因此,本文對(duì)OMOP CDM支持多源數(shù)據(jù)轉(zhuǎn)換的總體流程和具體步驟進(jìn)行了系統(tǒng)地分析和總結(jié),梳理了存在的問(wèn)題并進(jìn)行分析和提出了建議。目前,我國(guó)對(duì)OMOP CDM的研究尚處于探索階段,將模型運(yùn)用到我國(guó)精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)的匯交整合中還存在一些問(wèn)題和挑戰(zhàn),今后應(yīng)注重CDM的本土化研究,將現(xiàn)有模型與我國(guó)數(shù)據(jù)整合的實(shí)際情況相結(jié)合,建立和完善我國(guó)醫(yī)學(xué)數(shù)據(jù)整合的方法和標(biāo)準(zhǔn)。