李 晨, 黃麗紅, 邱婧君, 王 陵, 秦偉棟, 汪旻暉, 趙 楊, 柏柳安寧, 夏結(jié)來*
1. 空軍軍醫(yī)大學(xué)軍事預(yù)防醫(yī)學(xué)系軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室,西安 710032 2. 復(fù)旦大學(xué)附屬中山醫(yī)院生物統(tǒng)計(jì)室,上海 200032 3. 北京復(fù)星醫(yī)藥科技開發(fā)有限公司,北京 100005 4. 皖南醫(yī)學(xué)院弋磯山醫(yī)院藥物評(píng)價(jià)中心,蕪湖 241000 5. 南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系,南京 211166 6. 空軍軍醫(yī)大學(xué)航空航天臨床醫(yī)學(xué),西安 710032 7. CSCO生物統(tǒng)計(jì)學(xué)專家委員會(huì)RWE項(xiàng)目組
近年來,現(xiàn)實(shí)世界數(shù)據(jù)(real-world data, RWD)在醫(yī)藥衛(wèi)生領(lǐng)域的應(yīng)用日益廣泛,其價(jià)值在醫(yī)療科研、公共衛(wèi)生、醫(yī)藥研發(fā)、監(jiān)管決策方等社會(huì)各界得到普遍共識(shí),若干規(guī)范基于RWD開展創(chuàng)新藥品研發(fā)[1]、輔助監(jiān)管決策[2]、完善藥品和醫(yī)療器械評(píng)價(jià)[3]的相關(guān)政策法規(guī)也逐步落地。
高質(zhì)量的證據(jù)源于高質(zhì)量的數(shù)據(jù),在RWD轉(zhuǎn)化為現(xiàn)實(shí)世界證據(jù)(real-world evidence, RWE)的過程中也涌現(xiàn)了大量問題,其中RWD相關(guān)的數(shù)據(jù)來源、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)及其相關(guān)評(píng)價(jià)尚無成熟、統(tǒng)一的法規(guī)和指導(dǎo)原則,不同數(shù)據(jù)來源的信息化發(fā)展不均衡,數(shù)據(jù)共享和整合面臨較大阻礙,存在大量異構(gòu)的數(shù)據(jù)孤島。本文著眼于RWD來源、數(shù)據(jù)合規(guī)性,討論其質(zhì)量控制與數(shù)據(jù)標(biāo)準(zhǔn)化,并對(duì)其未來可能的發(fā)展途徑作一展望。
廣義地講,在醫(yī)療健康領(lǐng)域RWD是指除隨機(jī)對(duì)照試驗(yàn)(randomized controlled trial,RCT)數(shù)據(jù)之外的其他用于提供醫(yī)學(xué)證據(jù),輔助臨床決策的一切數(shù)據(jù)的統(tǒng)稱。美國(guó)FDA在2018年發(fā)布的Framework for FDA’s Real-World Evidence Program(《現(xiàn)實(shí)世界證據(jù)方案的框架》)[4]以及Use of Real World Evidence to Support Regulatory Decision Marking for Medical Devices(《使用現(xiàn)實(shí)世界證據(jù)以支持醫(yī)療器械監(jiān)管決策》)[5]中,將RWD定義為“與患者健康狀況有關(guān)的和(或)日常醫(yī)療過程中收集的各種來源的數(shù)據(jù)”和“除了傳統(tǒng)臨床試驗(yàn)以外的數(shù)據(jù)都可作為現(xiàn)實(shí)世界研究(real-world study, RWS)數(shù)據(jù)”,具體包括電子健康檔案、電子病例(electronic medical record, EMR)、醫(yī)保數(shù)據(jù)、產(chǎn)品和疾病登記中心的數(shù)據(jù)、患者報(bào)告數(shù)據(jù)(包括居家環(huán)境)、其他健康監(jiān)測(cè)(如移動(dòng)設(shè)備)的數(shù)據(jù)等。
2019年5月,我國(guó)發(fā)布的《真實(shí)世界證據(jù)支持藥物研發(fā)的基本考慮(征求意見稿)》[6]中將RWD定義為與患者使用藥物以及健康狀況有關(guān)的和(或)來源于各種日常醫(yī)療過程所收集的數(shù)據(jù)。其具體包括但不限于衛(wèi)生信息系統(tǒng)(health information system, HIS)/電子健康檔案(electronic health record, EHR),醫(yī)保系統(tǒng)、產(chǎn)品和疾病登記系統(tǒng)、不良反應(yīng)監(jiān)測(cè)系統(tǒng)、自然人群隊(duì)列數(shù)據(jù)庫(kù)、組學(xué)相關(guān)數(shù)據(jù)庫(kù)、死亡登記數(shù)據(jù)庫(kù)、患者自報(bào)告數(shù)據(jù)、來自移動(dòng)設(shè)備端的數(shù)據(jù)、其他特殊數(shù)據(jù)源等。而醫(yī)療器械技術(shù)審評(píng)中心則提出醫(yī)療器械的數(shù)據(jù)源除此之外還可包括在醫(yī)療器械生命周期中產(chǎn)生的數(shù)據(jù)(如校準(zhǔn)記錄等)[7]。
盡管各類指南規(guī)范在RWD的定義細(xì)分場(chǎng)景上稍有不同,但在基本內(nèi)涵上保持一致。目前,RWD的數(shù)據(jù)來源已擴(kuò)大至為與患者健康狀況和(或)醫(yī)療服務(wù)提供相關(guān)的數(shù)據(jù),主要有電子病歷數(shù)據(jù)(或健康檔案);檢驗(yàn)數(shù)據(jù);影像以及檢查數(shù)據(jù);生物遺傳學(xué)數(shù)據(jù)(基因組學(xué)、蛋白質(zhì)組學(xué)數(shù)據(jù));家族疾病史數(shù)據(jù);公共衛(wèi)生數(shù)據(jù)(如政府公開的數(shù)據(jù)庫(kù));出生/死亡登記數(shù)據(jù);醫(yī)療保險(xiǎn)理賠數(shù)據(jù);移動(dòng)可穿戴設(shè)備采集的個(gè)人數(shù)據(jù);社交媒體數(shù)據(jù);居住環(huán)境數(shù)據(jù);氣象數(shù)據(jù)等。隨著社會(huì)各界對(duì)RWD的認(rèn)識(shí)不斷深化,未來針對(duì)其展開的數(shù)據(jù)定義及內(nèi)涵闡釋也將愈加細(xì)致、規(guī)范和統(tǒng)一。
2021年,我國(guó)十三屆全國(guó)人大常委會(huì)分別通過并施行《中華人民共和國(guó)個(gè)人信息保護(hù)法》、《中華人民共和國(guó)數(shù)據(jù)安全法》。對(duì)于涉及到研究個(gè)體診療、行為等多種途徑的RWD數(shù)據(jù),其收集、處理與使用等過程中涉及倫理及隱私保護(hù)的問題,其合法性、合規(guī)性值得重視。RWD應(yīng)依照國(guó)家法律法規(guī)、行業(yè)監(jiān)管要求等做好數(shù)據(jù)安全管理工作。
為充分保護(hù)研究個(gè)體的安全和權(quán)益,獲取和使用RWD以開展RWS,須通過倫理委員會(huì)的審查批準(zhǔn)。RWS當(dāng)中的倫理問題通常包括但不限于:(1)知情同意;(2)患者完全自主地參與;(3) 研究透明度;(4) 隱私及健康公平性問題;(5)由研究產(chǎn)生的資料保護(hù)權(quán)及使用權(quán)。針對(duì)不同研究類型的RWS,RWD相關(guān)的倫理審查重點(diǎn)可能存在差異。對(duì)于回顧性數(shù)據(jù)庫(kù)研究,由于是基于既有數(shù)據(jù),不涉及對(duì)患者的干預(yù),該類研究可向倫理委員會(huì)申請(qǐng)豁免知情同意,如何保護(hù)患者隱私是該類研究倫理審查的重點(diǎn),在獲得倫理審查機(jī)構(gòu)書面批準(zhǔn)同意后方可執(zhí)行;對(duì)于登記注冊(cè)研究和實(shí)效性臨床試驗(yàn)(pragmatic clinical trial, PCT),在研究開始之前必須得到患者知情同意,并在方案中設(shè)計(jì)如何保護(hù)患者的個(gè)人隱私信息和診療安全,對(duì)于采集個(gè)體標(biāo)本的研究,可能留置標(biāo)本造成研究個(gè)體無法及時(shí)獲得相應(yīng)檢查的結(jié)果,需在知情同意書上明確說明標(biāo)本的歸屬權(quán)、如何保存及使用,以保證由此獲得的RWD合法、合規(guī)。
此外,參與RWD數(shù)據(jù)治理的相關(guān)人員也應(yīng)嚴(yán)格遵守相關(guān)法律、法規(guī)的要求,申辦者應(yīng)嚴(yán)格執(zhí)行,盡到保護(hù)和管理義務(wù)。
除了對(duì)研究個(gè)體相關(guān)的健康數(shù)據(jù)進(jìn)行隱私保護(hù),更需要對(duì)承載健康醫(yī)療數(shù)據(jù)的信息系統(tǒng)和網(wǎng)絡(luò)設(shè)施以及云平臺(tái)等進(jìn)行必要的安全保護(hù)。數(shù)據(jù)安全保護(hù)范圍應(yīng)涵蓋包括數(shù)據(jù)收集、數(shù)據(jù)提取、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)交換、數(shù)據(jù)銷毀等在內(nèi)的各個(gè)生命周期。采用加密技術(shù)保證數(shù)據(jù)的完整性、保密性、可追溯性;使用介質(zhì)傳輸?shù)?,?yīng)對(duì)介質(zhì)實(shí)施管控,對(duì)訪問記錄進(jìn)行審核、登記、歸檔和審計(jì)。
如果將RWD按數(shù)據(jù)獲取時(shí)間進(jìn)行分類,一大類是既有的數(shù)據(jù)資源,即在開展當(dāng)前研究時(shí),數(shù)據(jù)資源已經(jīng)存在,如基于管理目的生成的醫(yī)院電子病歷數(shù)據(jù)、醫(yī)保數(shù)據(jù)、健康檔案等;另一大類是以特定的臨床評(píng)價(jià)為目的,在常規(guī)健康醫(yī)療環(huán)境下主動(dòng)收集,并設(shè)立明確的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)收集模式的前瞻性數(shù)據(jù)資源,如以研究藥物為對(duì)象產(chǎn)生的登記數(shù)據(jù)、實(shí)效性臨床試驗(yàn)等。
開展RWS時(shí),RWD的變量收集依據(jù)研究問題而定。例如,關(guān)注發(fā)病情況,需要收集患者年齡、性別、診斷、既往史等;關(guān)注治療情況需要收集治療方案、用藥劑量、隨訪過程、合并用藥等;關(guān)注結(jié)局則需要收集治療不良反應(yīng)、再入院率、生活質(zhì)量、生存率等。不同于RCT數(shù)據(jù)受到嚴(yán)格控制和監(jiān)測(cè)核查,RWD最關(guān)鍵的問題是數(shù)據(jù)的可信度。不同的數(shù)據(jù)來源、數(shù)據(jù)質(zhì)量、測(cè)量誤差、結(jié)果/暴露的錯(cuò)誤分類,以及某些變量上的缺失值,可能直接影響對(duì)干預(yù)有效性和安全性的評(píng)估。對(duì)于一些大型RWS研究,其研究?jī)r(jià)值也可能因?yàn)橛衅械慕Y(jié)論受到限制。
3.1 原始RWD 在使用RWD的研究中,原始數(shù)據(jù)的質(zhì)量取決于完整性和準(zhǔn)確性,關(guān)鍵是要考慮到數(shù)據(jù)缺失及其缺失機(jī)制。隨機(jī)缺失的數(shù)據(jù)會(huì)降低觀測(cè)的精度,而非隨機(jī)缺失的數(shù)據(jù)會(huì)導(dǎo)致結(jié)果偏倚。因此,研究者需要仔細(xì)考慮數(shù)據(jù)的有效性(數(shù)據(jù)是否反映了真正診療情況)和可靠性(數(shù)據(jù)元素的獲取是否一致)。限制RWD數(shù)據(jù)來源的一個(gè)突出問題是很多研究只采集了患病和生存結(jié)局,而缺乏關(guān)于患者預(yù)后、護(hù)理過程和結(jié)局的變量,例如患者既往史、生活狀態(tài)、治療意向或疾病負(fù)擔(dān)等信息,而這些變量對(duì)全面分析治療的有效性尤為重要。
獲取RWD,依然需要制定RWD的構(gòu)建方案,以數(shù)據(jù)庫(kù)研究為例:(1)根據(jù)研究目的選擇合適的數(shù)據(jù)庫(kù),考察數(shù)據(jù)庫(kù)的可及性,評(píng)估數(shù)據(jù)質(zhì)量;(2)明確原始數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)、變量含義和來源;(3)確定數(shù)據(jù)提取方式及其優(yōu)勢(shì)和局限。影響RWD數(shù)據(jù)質(zhì)量的因素包括數(shù)據(jù)的收集方式(被動(dòng)收集與主動(dòng)收集)、整理數(shù)據(jù)人員的技能、數(shù)據(jù)的質(zhì)控和獨(dú)立監(jiān)察、以及外部可能影響數(shù)據(jù)準(zhǔn)確性的因素(如醫(yī)生收入、醫(yī)院管理等)。捕獲到數(shù)據(jù)后,可進(jìn)一步進(jìn)行數(shù)據(jù)治理:(1)評(píng)估數(shù)據(jù)提取的準(zhǔn)確性,例如從區(qū)域化醫(yī)療系統(tǒng)獲取數(shù)據(jù),可以隨機(jī)抽取某單一醫(yī)療機(jī)構(gòu)電子病歷數(shù)據(jù)進(jìn)行準(zhǔn)確性核對(duì);(2)數(shù)據(jù)核查,評(píng)估數(shù)據(jù)缺失、矛盾(如不可能的出生日期)、極端值、異常值(如多次手術(shù)切除的器官)的情況;(3)數(shù)據(jù)治理:對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行訂正,刪除不符合數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)[8]。
3.2 多源數(shù)據(jù)的鏈接 多數(shù)RWS需要來自不同數(shù)據(jù)源的數(shù)據(jù),將它們鏈接起來才能最終形成研究型數(shù)據(jù)庫(kù)。理想情況下,應(yīng)該使用唯一標(biāo)識(shí)符來執(zhí)行數(shù)據(jù)鏈接,例如身份證號(hào)、醫(yī)保號(hào)碼等。如果沒有唯一標(biāo)識(shí)符,可以采用概率鏈接,但鏈接質(zhì)量可能會(huì)相應(yīng)降低。
3.3 衍生變量 RWD中一項(xiàng)復(fù)雜又關(guān)鍵的步驟是區(qū)分那些相似但非研究目標(biāo)的變量。所有關(guān)于患者、治療和結(jié)局的暴露都需要經(jīng)歷這個(gè)合并和拆分的過程[9]。臨床醫(yī)生根據(jù)專業(yè)意義進(jìn)行劃分,數(shù)據(jù)分析師思考如何在現(xiàn)有條件下實(shí)現(xiàn)變量的準(zhǔn)確識(shí)別和劃分。在制定RWD構(gòu)建方案時(shí),就需要確定衍生變量的定義。如果在數(shù)據(jù)收集過程中或分析時(shí)才定義,那么預(yù)期結(jié)果可能是有偏倚的。即使沒有刻意嘗試獲得某個(gè)特定的結(jié)果,在獲取數(shù)據(jù)后再嘗試幾種不同的試驗(yàn)性分組也會(huì)增加偶然獲得有統(tǒng)計(jì)學(xué)意義結(jié)果的概率。此外,如果沒有經(jīng)過嚴(yán)謹(jǐn)?shù)乃伎迹瑑H僅是為了獲得預(yù)期的陽性結(jié)果而對(duì)數(shù)據(jù)嘗試不同規(guī)則的組合分析,也是很困難的。
以Booth對(duì)膀胱癌[10]和肺癌[11]治療模式的研究為例,需要定義輔助治療時(shí)間節(jié)點(diǎn)這個(gè)衍生變量。根據(jù)臨床專業(yè)知識(shí)的經(jīng)驗(yàn)與判斷,研究者將術(shù)后16周內(nèi)的化療或放療定義為輔助治療,任何超過該節(jié)點(diǎn)的治療都被定義為因疾病進(jìn)展而開展的姑息性治療。如果在手術(shù)后過早地設(shè)定時(shí)間節(jié)點(diǎn)(如6周),可能會(huì)排除一些接受放化療的患者;而較晚的節(jié)點(diǎn)(如32周)將可能納入一些因早期轉(zhuǎn)移而接受化療的患者。另一方面,從統(tǒng)計(jì)學(xué)的角度,研究者也分析了患者接受輔助治療時(shí)間的分布,以確定這個(gè)時(shí)間節(jié)點(diǎn)是否更具有統(tǒng)計(jì)學(xué)的邏輯性。對(duì)于這類問題,并沒有一種標(biāo)準(zhǔn)的完美的方法,關(guān)于治療意向的間接推斷始終應(yīng)該保持謹(jǐn)慎思考。一些低質(zhì)量數(shù)據(jù)集的研究會(huì)直接影響研究結(jié)論,例如因使用醫(yī)院診斷編碼記錄伴隨疾病,而被錯(cuò)分為研究對(duì)象。
相較于RCT數(shù)據(jù),RWD在大多數(shù)情況下缺乏記錄、采集、存儲(chǔ)等流程的嚴(yán)格質(zhì)量控制,易導(dǎo)致數(shù)據(jù)不完整、關(guān)鍵變量缺失、記錄不準(zhǔn)確等問題,而薄弱的數(shù)據(jù)基礎(chǔ)會(huì)成為RWS的最大短板。數(shù)據(jù)質(zhì)量上的缺陷,會(huì)極大地影響后續(xù)的數(shù)據(jù)治理和應(yīng)用,甚至?xí)绊憯?shù)據(jù)的可追溯性,研究者也難以發(fā)現(xiàn)其中的問題并進(jìn)行核對(duì)和修正。傾向性的數(shù)據(jù)收集,特別是登記研究數(shù)據(jù),會(huì)導(dǎo)致研究結(jié)果偏倚的潛在風(fēng)險(xiǎn)等;在缺乏統(tǒng)一標(biāo)準(zhǔn)的情況下,數(shù)據(jù)類型較為多樣,既有結(jié)構(gòu)化數(shù)據(jù),也有文本、圖片、視頻等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)記錄、采集、存儲(chǔ)的過程中,也會(huì)導(dǎo)致數(shù)據(jù)的冗余和重復(fù),進(jìn)而造成數(shù)據(jù)處理的難度。
多數(shù)情況下,RWS需要多源數(shù)據(jù)的支持,然而,我國(guó)并未形成統(tǒng)一的EHR系統(tǒng),不同醫(yī)院擁有著不同的EMR供應(yīng)商,甚至存在同一家醫(yī)院擁有不同的EMR供應(yīng)商的現(xiàn)實(shí)。這既造成了醫(yī)院之間存在數(shù)據(jù)多源異構(gòu)標(biāo)準(zhǔn)不一的情況,又造成EMR子系統(tǒng)之間的數(shù)據(jù)交流障礙。從RWD的可及性、準(zhǔn)確性上講,現(xiàn)存問題主要為數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)表達(dá)之間難以理解和互通,數(shù)據(jù)管理與分析系統(tǒng)與相關(guān)信息系統(tǒng)難以實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確識(shí)別、理解和調(diào)用,數(shù)據(jù)語義的表達(dá)形式不統(tǒng)一, 導(dǎo)致大量異構(gòu)的數(shù)據(jù)孤島。多源數(shù)據(jù)系統(tǒng)間溝通壁壘較高,缺乏統(tǒng)一的數(shù)據(jù)傳輸標(biāo)準(zhǔn),數(shù)據(jù)共享和整合面臨較大阻礙,導(dǎo)致不同來源的數(shù)據(jù)連接溝通效率較低,極大地限制了RWD轉(zhuǎn)化為RWE的效率。
絕大多數(shù)RWD產(chǎn)生基于已有的各種信息系統(tǒng),將原始RWD轉(zhuǎn)化為用于分析的研究型數(shù)據(jù),并實(shí)現(xiàn)多源數(shù)據(jù)的共享和交換,需要依據(jù)一定的數(shù)據(jù)標(biāo)準(zhǔn)。為實(shí)現(xiàn)數(shù)據(jù)表達(dá)的統(tǒng)一,通常的做法是將現(xiàn)有的數(shù)據(jù)映射至通用數(shù)據(jù)模型。數(shù)據(jù)模型能夠直觀得展示實(shí)體及實(shí)體之間的關(guān)系,描述一組數(shù)據(jù)的概念和定義,利用數(shù)據(jù)模型可以將多種來源的RWD按照既定的模式轉(zhuǎn)化為規(guī)范的數(shù)據(jù)字段和術(shù)語,無論RWD來自哪個(gè)系統(tǒng),都可以對(duì)數(shù)據(jù)進(jìn)行跨站點(diǎn)分析和研究,并以類似的方式被各方理解。通用數(shù)據(jù)模型(common data models,CDM)是根據(jù)不同研究目的,由共享健康數(shù)據(jù)網(wǎng)絡(luò)(shared health data network,SHDN)根據(jù)某些共識(shí)開發(fā)的,描述特定領(lǐng)域內(nèi)的數(shù)據(jù)及數(shù)據(jù)間的關(guān)系,以期得到可以在該領(lǐng)域內(nèi)通用和泛化的數(shù)據(jù)模型。共享健康數(shù)據(jù)網(wǎng)絡(luò)可以將數(shù)據(jù)集中聚合、存儲(chǔ)在一個(gè)位置,可查詢每個(gè)數(shù)據(jù)位置并聚合所有數(shù)據(jù)。
建立RWD通用模型,對(duì)于模型中對(duì)象類屬性的規(guī)范化描述,需要對(duì)數(shù)據(jù)元的值域進(jìn)行規(guī)范化表達(dá),規(guī)范醫(yī)學(xué)術(shù)語概念,明確統(tǒng)一語義。有關(guān)醫(yī)學(xué)概念術(shù)語進(jìn)行標(biāo)準(zhǔn)化表達(dá),一般仍采用國(guó)際上通用的、較成熟的術(shù)語標(biāo)準(zhǔn),將現(xiàn)有的概念或術(shù)語與其映射。常見的有臨床數(shù)據(jù)交換標(biāo)準(zhǔn)(clinical data interchange standards consortium,CDISC)、系統(tǒng)醫(yī)學(xué)命名法——臨床術(shù)語(systematized nomenclature of medicine-clinical terms,SNOMED CT)、觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼系統(tǒng)(logical observation identifiers names and codes, LOINC)、國(guó)際醫(yī)學(xué)用語詞典(medical dictionary for regulatory activities,MedDRA)等。
針對(duì)RWD常見的數(shù)據(jù)質(zhì)量問題,需要對(duì)其進(jìn)行數(shù)據(jù)治理,將原始RWD轉(zhuǎn)化為研究型數(shù)據(jù)庫(kù),以滿足RWS研究需求。數(shù)據(jù)治理及其適用性評(píng)價(jià)的流程圖如下。
數(shù)據(jù)治理主要內(nèi)容包括但不限于以下方面。(1)數(shù)據(jù)治理計(jì)劃書:RWD治理計(jì)劃書應(yīng)事先制定,說明RWD源數(shù)據(jù)、使用RWD用于監(jiān)管決策的目的、使用RWD的研究設(shè)計(jì)等,并與整個(gè)項(xiàng)目研究計(jì)劃同步,如果治理計(jì)劃書在研究進(jìn)行過程中需要修訂,應(yīng)與審評(píng)機(jī)構(gòu)溝通并備案。(2)個(gè)人信息保護(hù)和數(shù)據(jù)安全性處理:應(yīng)遵守國(guó)家相關(guān)信息安全技術(shù)法規(guī)和指南,涉及個(gè)人屬性數(shù)據(jù)、醫(yī)療支付數(shù)據(jù)等敏感的個(gè)人健康醫(yī)療數(shù)據(jù)時(shí),應(yīng)進(jìn)行去標(biāo)識(shí)化處理,同時(shí)防止個(gè)人信息的泄漏、損毀、丟失、篡改。(3)數(shù)據(jù)提?。禾崛》椒☉?yīng)通過驗(yàn)證,符合研究方案要求,且具有準(zhǔn)確性和可溯源性,同時(shí)進(jìn)行時(shí)間戳管理和數(shù)據(jù)安全性保護(hù)。(4)數(shù)據(jù)清洗:對(duì)提取到的原始數(shù)據(jù)進(jìn)行重復(fù)或冗余數(shù)據(jù)去除,進(jìn)行邏輯核查、異常值和缺失值的處理。對(duì)于數(shù)據(jù)的修正應(yīng)當(dāng)謹(jǐn)慎并經(jīng)過核實(shí),任何數(shù)據(jù)的修改都應(yīng)當(dāng)留下完整的稽查軌跡。(5)數(shù)據(jù)轉(zhuǎn)化與傳輸存儲(chǔ):經(jīng)過數(shù)據(jù)清洗后原始數(shù)據(jù)還要按照分析數(shù)據(jù)庫(kù)對(duì)應(yīng)標(biāo)準(zhǔn)進(jìn)行統(tǒng)一轉(zhuǎn)化為適用RWD,尤其需注意衍生變量的算法和時(shí)間戳管理,以保障數(shù)據(jù)的準(zhǔn)確性和可追溯性。在數(shù)據(jù)傳輸和存儲(chǔ)過程中都應(yīng)有加密保護(hù)、權(quán)限控制策略等,保障數(shù)據(jù)收集、處理、分析的全生命周期安全。
圖1 現(xiàn)實(shí)世界數(shù)據(jù)的數(shù)據(jù)治理過程示意圖
RWD的適用性評(píng)價(jià)可分為2個(gè)階段:第一階段是對(duì)源數(shù)據(jù)進(jìn)行適用性評(píng)價(jià),首先源數(shù)據(jù)是可及的、具有使用權(quán)限、能被第三方評(píng)估的,且符合倫理審查法規(guī)要求和數(shù)據(jù)安全隱私保護(hù)要求的,其次源數(shù)據(jù)對(duì)于關(guān)鍵變量的覆蓋度要能夠滿足研究方案的基本分析要求和樣本量;第二階段是對(duì)經(jīng)過治理的數(shù)據(jù)進(jìn)行適用性評(píng)價(jià)分析,主要包括(1)相關(guān)性評(píng)價(jià),對(duì)關(guān)鍵變量的覆蓋度、暴露/干預(yù)和結(jié)局定義的準(zhǔn)確性、目標(biāo)人群的代表性和多源異構(gòu)數(shù)據(jù)的融合性;(2)可靠性評(píng)價(jià),評(píng)價(jià)數(shù)據(jù)的完整性、準(zhǔn)確性、透明性、質(zhì)量控制和質(zhì)量保證。如果RWS中研究者根據(jù)自己設(shè)計(jì)好的電子病例報(bào)告表前瞻性收集指定來源數(shù)據(jù),則無需進(jìn)行第一階段的初步適用性評(píng)價(jià)[12]。
傳統(tǒng)RWD的收集途徑包括臨床訪視評(píng)估、電話、郵件等,這些方法通常較為復(fù)雜、昂貴且費(fèi)時(shí)[13]。隨著移動(dòng)通訊工具和智能穿戴設(shè)備等生物傳染技術(shù)的發(fā)展,新穎的數(shù)據(jù)獲取方式正成為RWD的新型數(shù)據(jù)來源。移動(dòng)通訊工具或智能手表可在無人監(jiān)管的情況下,便捷地收集研究對(duì)象的各項(xiàng)預(yù)設(shè)數(shù)據(jù)[14]。在臨床場(chǎng)景中,借助此類工具可減少不必要的隨訪和檢測(cè),尤其是到院隨訪,以更少的成本管理更多患者,并更高效地獲取患者結(jié)局[15]。此外,基于社交媒體等網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展極大地拓展了RWD的維度。
海量數(shù)據(jù)既為RWD提供了堅(jiān)實(shí)豐富的來源,又引入了數(shù)據(jù)控制和質(zhì)量評(píng)價(jià)的問題?;卺t(yī)學(xué)研究領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)的現(xiàn)狀和已有成果,將CDISC標(biāo)準(zhǔn)拓展應(yīng)用于RWD,無疑是RWD數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量控制的最佳選擇。當(dāng)然,RWD中存在異于常規(guī)RCT的數(shù)據(jù),如患者報(bào)告的結(jié)局信息(PRO)、藥物經(jīng)濟(jì)學(xué)信息、醫(yī)保報(bào)銷數(shù)據(jù)、個(gè)人健康A(chǔ)PP以及可穿戴設(shè)備收集的數(shù)據(jù)等,現(xiàn)有數(shù)據(jù)標(biāo)準(zhǔn)不能直接滿足此類RWD對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的需求,亟待在已有數(shù)據(jù)標(biāo)準(zhǔn)相關(guān)的模型基礎(chǔ)上,進(jìn)行擴(kuò)展和改進(jìn),開發(fā)與已有標(biāo)準(zhǔn)兼容的RWD數(shù)據(jù)模型,以提高RWS的科學(xué)性、規(guī)范性,從而形成有效、可信的RWE。
利益沖突:所有作者聲明不存在利益沖突。