□ 吳燕秋 WU Yan-qiu 梁公文 LIANG Gong-wen 王天兵 WANG Tian-bing
我院信息化系統(tǒng)起步于1995 年,在隨后的20 多年中,逐步完成了電子病歷系統(tǒng)、移動(dòng)護(hù)理系統(tǒng)、病理系統(tǒng)、手術(shù)麻醉系統(tǒng)、檢驗(yàn)檢查系統(tǒng)、超聲系統(tǒng)、心電圖系統(tǒng)、輸血系統(tǒng)、重癥監(jiān)護(hù)系統(tǒng)等各類臨床業(yè)務(wù)信息系統(tǒng)建設(shè),也積累了大量的醫(yī)療診療、臨床檢驗(yàn)檢查結(jié)果、臨床用藥等全流程、患者全生命周期的數(shù)據(jù),具有非常高的臨床研究?jī)r(jià)值[1]。
然而,由于歷史原因,醫(yī)院數(shù)據(jù)存在著諸多問(wèn)題:臨床診療數(shù)據(jù)存儲(chǔ)不集中,分散在醫(yī)院各個(gè)信息系統(tǒng);各信息系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)不一致,格式繁雜,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、文本數(shù)據(jù)、影像數(shù)據(jù)等不同格式,甚至醫(yī)生手寫的書(shū)面數(shù)據(jù)等;數(shù)據(jù)非結(jié)構(gòu)化、非標(biāo)準(zhǔn)化,難以形成臨床研究所需的變量;數(shù)據(jù)質(zhì)量參差不齊、完整性差;數(shù)據(jù)未脫敏,患者隱私、數(shù)據(jù)安全無(wú)法保障;數(shù)據(jù)確權(quán)問(wèn)題尚未明晰等。
本文以臨床研究為導(dǎo)向和需求,從盡可能使醫(yī)院數(shù)據(jù)應(yīng)用于高水平研究的角度,闡述了我院面向臨床研究的真實(shí)世界數(shù)據(jù)治理實(shí)踐過(guò)程和經(jīng)驗(yàn),提出相關(guān)思考和建議。
我院自2019 年起開(kāi)始面向臨床研究的醫(yī)院真實(shí)世界數(shù)據(jù)治理實(shí)踐,見(jiàn)圖1。主要過(guò)程如下:(1)面向分析與查詢的臨床研究通用數(shù)據(jù)模型(Common Data Model,CDM)的設(shè)計(jì)。基于醫(yī)療行業(yè)和真實(shí)診療數(shù)據(jù)的特點(diǎn),遵循醫(yī)院數(shù)據(jù)治理的通用規(guī)律和思路,我院建立了符合我院業(yè)務(wù)實(shí)際的CDM。CDM 中包含300 余項(xiàng)結(jié)構(gòu)化字段(性別、年齡、身高、體重、診斷名稱、診斷日期、檢驗(yàn)項(xiàng)目名稱、藥品名稱、藥品規(guī)格等)和80 余項(xiàng)非結(jié)構(gòu)化文本字段(入院記錄、病程記錄、各類檢查報(bào)告、出院記錄、死亡記錄、術(shù)前小結(jié)等各類文書(shū)內(nèi)容)。(2)多源異構(gòu)數(shù)據(jù)的采集。為避免數(shù)據(jù)采集過(guò)程影響醫(yī)院臨床業(yè)務(wù)信息系統(tǒng)日常運(yùn)行,我院建立了各個(gè)業(yè)務(wù)信息系統(tǒng)的T+1 備份庫(kù),實(shí)現(xiàn)數(shù)據(jù)以1 天為間隔時(shí)間備份、更新、全量采集;采用開(kāi)源ETL 工具Kettle,通過(guò)配置不同數(shù)據(jù)庫(kù)連接,從T+1 備份庫(kù)中進(jìn)行數(shù)據(jù)抽取任務(wù)的創(chuàng)建、運(yùn)行、運(yùn)維[2]。(3)數(shù)據(jù)處理與加工。將原始數(shù)據(jù)映射到CDM 中,并通過(guò)定義的數(shù)據(jù)類型、完整性約束和清洗函數(shù)規(guī)則等對(duì)數(shù)據(jù)進(jìn)行清洗;按準(zhǔn)確性、完整性、一致性、唯一性、有效性等原則和標(biāo)準(zhǔn)處理數(shù)據(jù)的缺失、邏輯錯(cuò)誤和不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)等,并合理地進(jìn)行修補(bǔ)、增減或刪除,滿足后續(xù)大數(shù)據(jù)分析和精準(zhǔn)醫(yī)療應(yīng)用的要求,提高數(shù)據(jù)分析的準(zhǔn)確性;使用自然語(yǔ)言處理技術(shù)(Natural Language Processing,NLP)對(duì)文本病歷數(shù)據(jù)等大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,提高數(shù)據(jù)的可利用性;(4)數(shù)據(jù)全生命周期質(zhì)控。在數(shù)據(jù)采集、存儲(chǔ)和處理的全過(guò)程中,對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化、智能化質(zhì)控。通過(guò)制定數(shù)據(jù)質(zhì)控規(guī)則,使用程序把質(zhì)控規(guī)則轉(zhuǎn)換成數(shù)據(jù)庫(kù)能識(shí)別的語(yǔ)句,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)“空值”“重復(fù)值”“異常值”“矛盾值”和數(shù)據(jù)的“連續(xù)性”進(jìn)行檢測(cè),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的源頭發(fā)現(xiàn)、分析、檢測(cè)和修正。
圖1 面向臨床研究的真實(shí)世界數(shù)據(jù)治理實(shí)踐與應(yīng)用
基于我院上述真實(shí)世界數(shù)據(jù)的治理實(shí)踐過(guò)程,我院建設(shè)了如下3 項(xiàng)臨床研究應(yīng)用系統(tǒng),見(jiàn)圖1。
1.建立全院級(jí)臨床研究大數(shù)據(jù)平臺(tái)。我院設(shè)計(jì)并建設(shè)了醫(yī)院臨床研究大數(shù)據(jù)平臺(tái),平臺(tái)以我院患者為中心,完整覆蓋患者來(lái)我院就診的全部診療項(xiàng)目。截止目前,平臺(tái)共計(jì)累積了我院自2004 年以來(lái)的1342 萬(wàn)余名患者的5000 萬(wàn)余次就診數(shù)據(jù);包含40 萬(wàn)余條診斷名稱、3000 余條藥物名稱、27 萬(wàn)余條非藥物醫(yī)囑名稱、4000 余條檢驗(yàn)項(xiàng)目及其子項(xiàng)、2 萬(wàn)多條影像學(xué)、超聲、心電圖記錄。主要功能包括:(1)研究人群精確篩選。可從病歷、診斷、藥物醫(yī)囑、非藥物醫(yī)囑、檢驗(yàn)、檢查、手術(shù)、麻醉、轉(zhuǎn)歸等結(jié)構(gòu)化及非結(jié)構(gòu)化文本中個(gè)性化定制檢索方案,并可在5 秒內(nèi)完成所有全量數(shù)據(jù)的檢索結(jié)果反饋;(2)實(shí)現(xiàn)全院視角下的患者數(shù)據(jù)可視化管理。可瀏覽患者歷次在我院的診斷、用藥、手術(shù)、檢驗(yàn)、檢查、麻醉等數(shù)據(jù);(3)數(shù)據(jù)統(tǒng)計(jì)與分析??蓪?shù)據(jù)脫敏后導(dǎo)出成excel 格式,用于深度、精準(zhǔn)分析。
2.建立專病/專科科研數(shù)據(jù)庫(kù)。為促進(jìn)我院各學(xué)科發(fā)展,充分挖掘數(shù)據(jù)價(jià)值,我院基于全院級(jí)臨床研究大數(shù)據(jù)平臺(tái),進(jìn)一步進(jìn)行了多種疾病數(shù)據(jù)的深度、個(gè)性化治理。通過(guò)制定各個(gè)專病/??茢?shù)據(jù)集標(biāo)準(zhǔn)模型,篩選符合疾病條件的患者人群,并使用NLP 技術(shù)對(duì)大量非結(jié)構(gòu)化文本病例進(jìn)行深度結(jié)構(gòu)化處理,建立了多個(gè)真實(shí)世界專病/??瓶蒲袛?shù)據(jù)庫(kù),包括創(chuàng)傷疾病、血液相關(guān)疾病、重癥醫(yī)學(xué)、麻醉科、胃腸外科、胸外科等,構(gòu)建了多種疾病及其診斷、癥狀、用藥、手術(shù)等關(guān)鍵要素的關(guān)聯(lián)關(guān)系。專病/??茙?kù)能實(shí)時(shí)、自動(dòng)、持續(xù)性地生成高質(zhì)量、標(biāo)準(zhǔn)化、結(jié)構(gòu)化的院內(nèi)患者診療數(shù)據(jù),助力醫(yī)生高效分析和利用數(shù)據(jù),支撐學(xué)科發(fā)展。
3.建立基于真實(shí)世界數(shù)據(jù)的智能臨床試驗(yàn)創(chuàng)新系統(tǒng)。圍繞藥物臨床試驗(yàn)和研究的關(guān)鍵環(huán)節(jié)和過(guò)程,基于全院級(jí)臨床研究大數(shù)據(jù)平臺(tái),我院建立了基于真實(shí)世界數(shù)據(jù)的臨床智能臨床試驗(yàn)創(chuàng)新系統(tǒng),針對(duì)我院不同臨床試驗(yàn)項(xiàng)目開(kāi)展數(shù)據(jù)集成、分析、存儲(chǔ)、處理和脫敏,提升臨床試驗(yàn)效率和質(zhì)量,保障受試者安全,降低研究成本。主要功能包括:(1)臨床試驗(yàn)項(xiàng)目管理。基于真實(shí)世界數(shù)據(jù)預(yù)測(cè)臨床試驗(yàn)結(jié)果和風(fēng)險(xiǎn),并模擬試驗(yàn)中的對(duì)照臂,縮小試驗(yàn)規(guī)模,縮短時(shí)間;判斷藥物臨床試驗(yàn)設(shè)計(jì)的合理性、受試者招募的難度和進(jìn)度,并預(yù)測(cè)試驗(yàn)進(jìn)展;(2)受試者管理。智能篩選符合納排條件的患者,推薦給研究者進(jìn)行招募;(3)數(shù)據(jù)管理。根據(jù)臨床試驗(yàn)項(xiàng)目方案的病例報(bào)告表(Case Report Form,CRF),系統(tǒng)會(huì)對(duì)臨床試驗(yàn)項(xiàng)目庫(kù)中的患者歷史診療數(shù)據(jù)進(jìn)一步完成字段映射、深度結(jié)構(gòu)化和相關(guān)邏輯計(jì)算,完成數(shù)據(jù)智能生成,實(shí)現(xiàn)CRF 表自動(dòng)填充及智能質(zhì)控。
本文以當(dāng)前醫(yī)院普遍存在的數(shù)據(jù)問(wèn)題為視角,以醫(yī)院臨床研究需求為導(dǎo)向,結(jié)合我院面向臨床研究的真實(shí)世界數(shù)據(jù)治理實(shí)踐過(guò)程,本文對(duì)醫(yī)院臨床研究數(shù)據(jù)治理提出以下幾點(diǎn)思考和建議:
1.制定符合醫(yī)院實(shí)際的通用數(shù)據(jù)集模型及專病標(biāo)準(zhǔn)數(shù)據(jù)集模型框架。建立數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)治理的基礎(chǔ),也是數(shù)據(jù)治理的關(guān)鍵和重點(diǎn)。引入數(shù)據(jù)標(biāo)準(zhǔn)是解決臨床研究數(shù)據(jù)庫(kù)數(shù)據(jù)整合、交換和共享從而挖掘數(shù)據(jù)潛在價(jià)值的根本方法[3]。醫(yī)院應(yīng)制定符合自身實(shí)際情況的通用數(shù)據(jù)集標(biāo)準(zhǔn)模型,模型應(yīng)覆蓋醫(yī)院真實(shí)診療應(yīng)用場(chǎng)景,避免冗余;應(yīng)有完整的字段定義,并對(duì)每個(gè)字段定義數(shù)據(jù)格式、字段長(zhǎng)度、值域、內(nèi)容約束等,制定統(tǒng)一的規(guī)則處理標(biāo)準(zhǔn);應(yīng)規(guī)范模型中數(shù)據(jù)源的對(duì)應(yīng)關(guān)系及不同數(shù)據(jù)來(lái)源元數(shù)據(jù)間的映射關(guān)系[4]。此外,考慮到醫(yī)院各學(xué)科建立專病數(shù)據(jù)庫(kù)的個(gè)性化需求,醫(yī)院可通過(guò)構(gòu)建通用版專病標(biāo)準(zhǔn)數(shù)據(jù)集模型框架,建立“通用數(shù)據(jù)集-醫(yī)療業(yè)務(wù)活動(dòng)-數(shù)據(jù)來(lái)源”對(duì)應(yīng)關(guān)系[5],從而形成科學(xué)性、規(guī)范性的專病數(shù)據(jù)庫(kù)的數(shù)據(jù)采集、存儲(chǔ)和深度治理模式,促進(jìn)醫(yī)院臨床研究數(shù)據(jù)治理可持續(xù)發(fā)展[6]。
2.規(guī)范醫(yī)院數(shù)據(jù)采集模式。從總體上看,醫(yī)院信息系統(tǒng)的計(jì)算資源和存儲(chǔ)資源相比于業(yè)務(wù)發(fā)展仍是緊張的,數(shù)據(jù)采集的過(guò)程很大程度上會(huì)對(duì)醫(yī)院現(xiàn)有的業(yè)務(wù)運(yùn)行和業(yè)務(wù)系統(tǒng)運(yùn)轉(zhuǎn)造成影響[1]。有條件的醫(yī)院應(yīng)建立臨床業(yè)務(wù)生產(chǎn)系統(tǒng)的T+N備份庫(kù)(N 代表數(shù)據(jù)以“天”級(jí)別自動(dòng)更新),一方面,根據(jù)數(shù)據(jù)采集與臨床研究應(yīng)用的實(shí)時(shí)性要求,合理設(shè)定備份庫(kù)與生產(chǎn)庫(kù)數(shù)據(jù)同步的時(shí)間差,形成實(shí)時(shí)、動(dòng)態(tài)、連續(xù)、完整、有序的臨床研究數(shù)據(jù)采集。另一方面,在數(shù)據(jù)采集階段不影響醫(yī)院臨床業(yè)務(wù)信息系統(tǒng)的日常運(yùn)行,且數(shù)據(jù)質(zhì)量不限于醫(yī)院原有的臨床數(shù)據(jù)中心(Clinical Data Reserve,CDR)。
3.建立數(shù)據(jù)全生命周期質(zhì)控體系。在醫(yī)院真實(shí)世界數(shù)據(jù)治理全過(guò)程中,應(yīng)建立數(shù)據(jù)質(zhì)控體系,對(duì)數(shù)據(jù)采集、標(biāo)準(zhǔn)數(shù)據(jù)集模型制定、多源異構(gòu)數(shù)據(jù)整合、模型映射、數(shù)據(jù)清洗、存儲(chǔ)等過(guò)程進(jìn)行全方位管控,確保數(shù)據(jù)質(zhì)控覆蓋全程,如在數(shù)據(jù)采集中不漏采、不重復(fù)采,在數(shù)據(jù)處理中確保不同來(lái)源數(shù)據(jù)的模型映射關(guān)系正確等。在數(shù)據(jù)治理的每一個(gè)階段,若發(fā)現(xiàn)數(shù)據(jù)質(zhì)量存在任何問(wèn)題,都應(yīng)可追溯數(shù)據(jù)源頭,及時(shí)對(duì)問(wèn)題數(shù)據(jù)進(jìn)行處理[7],避免從源頭開(kāi)始一錯(cuò)再錯(cuò)。
4.制定數(shù)據(jù)的分級(jí)分類標(biāo)準(zhǔn)及授權(quán)管理機(jī)制。2021 年6月10 日,《中華人民共和國(guó)數(shù)據(jù)安全法》由中華人民共和國(guó)第十三屆全國(guó)人民代表大會(huì)常務(wù)委員會(huì)第二十九次會(huì)議審議通過(guò),自2021 年9 月1 日起施行。其中明確指出,規(guī)定國(guó)家建立數(shù)據(jù)分類分級(jí)保護(hù)制度,對(duì)數(shù)據(jù)實(shí)行分類分級(jí)保護(hù)。數(shù)據(jù)分類分級(jí)工作是數(shù)據(jù)分類分級(jí)保護(hù)制度的基礎(chǔ)和核心,其不僅是數(shù)據(jù)安全治理的第一步,也是當(dāng)前數(shù)據(jù)安全治理的痛點(diǎn)和難點(diǎn)。醫(yī)院應(yīng)探索制定臨床研究數(shù)據(jù)的分級(jí)分類標(biāo)準(zhǔn)及授權(quán)管理機(jī)制,對(duì)患者個(gè)人隱私數(shù)據(jù)進(jìn)行清晰的定義,定義可對(duì)外開(kāi)放、不能開(kāi)放、可使用、不可使用等數(shù)據(jù)在不同研究場(chǎng)景下所使用的安全策略。
5.建立數(shù)據(jù)應(yīng)用管理制度,完善和豐富多樣化、精準(zhǔn)化的數(shù)據(jù)服務(wù)。在數(shù)據(jù)分級(jí)分類標(biāo)準(zhǔn)與授權(quán)機(jī)制建立的基礎(chǔ)上,醫(yī)院應(yīng)建立臨床研究數(shù)據(jù)應(yīng)用安全管理制度,規(guī)定各種審批流程,如數(shù)據(jù)申請(qǐng)、使用、監(jiān)管等,并落實(shí)隱私泄露等責(zé)任問(wèn)題。在確保數(shù)據(jù)安全的前提下,可借鑒國(guó)外數(shù)據(jù)庫(kù)的管理服務(wù)理念,根據(jù)不同數(shù)據(jù)庫(kù)的建設(shè)特點(diǎn),探索多樣化的數(shù)據(jù)管理、服務(wù)模式,為研究人員提供數(shù)據(jù)便利[8],提高服務(wù)效率。
6.培養(yǎng)醫(yī)療大數(shù)據(jù)復(fù)合型人才。醫(yī)院真實(shí)世界數(shù)據(jù)治理不是一蹴而就的,而是一個(gè)常態(tài)化的工作體系。醫(yī)院應(yīng)打造既懂生物醫(yī)學(xué)又懂大數(shù)據(jù)技術(shù)的高素質(zhì)復(fù)合型人才隊(duì)伍,做好健康醫(yī)療大數(shù)據(jù)人才儲(chǔ)備。醫(yī)院大數(shù)據(jù)治理工作者應(yīng)掌握數(shù)據(jù)采集、存儲(chǔ)、模型映射等各方面的知識(shí),包括常見(jiàn)的數(shù)據(jù)庫(kù)技術(shù)、醫(yī)院各個(gè)臨床業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)表結(jié)構(gòu)等;同時(shí),應(yīng)熟知醫(yī)院臨床診療業(yè)務(wù)和詳細(xì)過(guò)程;還應(yīng)深入了解臨床研究人員的實(shí)際研究需求。
數(shù)據(jù)治理不僅是完成一項(xiàng)工作的方法或手段,而應(yīng)是一套井然有序的體系。醫(yī)院應(yīng)結(jié)合自身特點(diǎn)和實(shí)際需求,因地制宜地盤點(diǎn)數(shù)據(jù)資產(chǎn),提升數(shù)據(jù)質(zhì)量,提高醫(yī)院數(shù)據(jù)獲取效率,保障數(shù)據(jù)安全、合規(guī)、可靠,健全數(shù)據(jù)治理體系建設(shè)[9],在不斷的探索與實(shí)踐中,逐步豐富完善數(shù)據(jù)治理策略,形成常態(tài)化且可持續(xù)性發(fā)展的醫(yī)院數(shù)據(jù)治理體系,從而最大化發(fā)揮醫(yī)院數(shù)據(jù)資源的價(jià)值,促進(jìn)醫(yī)院高水平臨床研究,提升各學(xué)科建設(shè)能力。