白永梅 杜 建
(1.北京大學(xué)醫(yī)學(xué)部醫(yī)學(xué)技術(shù)研究院,北京 100191;2.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國(guó)家研究院,北京 100191;3.北京大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院,北京 100191)
證據(jù)綜合(evidence synthesis)是指將多個(gè)來源和學(xué)科的信息和知識(shí)匯集在一起,為辯論和決策提供信息的過程。對(duì)現(xiàn)有證據(jù)進(jìn)行準(zhǔn)確、簡(jiǎn)潔和無偏倚的綜合是研究界可以為決策者提供的最有價(jià)值的貢獻(xiàn)之一[1]。自1980年以來,證據(jù)綜合已發(fā)展成為疾病預(yù)防、診斷和治療以及其他健康議題影響決策的基礎(chǔ)。證據(jù)綜合還有助于解決教育、經(jīng)濟(jì)、環(huán)境、刑事司法、全球發(fā)展等最緊迫的全球挑戰(zhàn)。例如,全球的藥品監(jiān)管機(jī)構(gòu)和醫(yī)療保險(xiǎn)公司不依賴單一研究,而是綜合所有相關(guān)研究來評(píng)估安全性和有效性,并決定是否批準(zhǔn)藥物上市或支付藥物費(fèi)用。證據(jù)綜合是“從證據(jù)到實(shí)踐”、“從科學(xué)到政策”的橋梁[2]。在醫(yī)學(xué)領(lǐng)域,證據(jù)綜合的結(jié)果主要是系統(tǒng)評(píng)價(jià)和Meta分析。根據(jù)統(tǒng)計(jì),正式發(fā)表的系統(tǒng)評(píng)價(jià)數(shù)量已從2011年的約6 000篇增加到2021年的45 000多篇[2]。全球平均每天要進(jìn)行約75項(xiàng)臨床試驗(yàn)和11項(xiàng)系統(tǒng)綜述[3],證據(jù)綜合越來越困難,一項(xiàng)系統(tǒng)評(píng)價(jià)平均需要5個(gè)人花費(fèi)67周時(shí)間才能完成[4],由此導(dǎo)致證據(jù)綜合存在嚴(yán)重的滯后性,無法充分且及時(shí)發(fā)揮對(duì)決策的價(jià)值。如何跟上海量醫(yī)學(xué)證據(jù)的發(fā)展,并將其轉(zhuǎn)化為臨床實(shí)踐是一個(gè)迫切需要解決的科學(xué)問題[5]。
2020年,醫(yī)學(xué)信息學(xué)領(lǐng)域的學(xué)者提出了“可計(jì)算的證據(jù)綜合”(computable evidence synthesis)的概念,即直接利用臨床試驗(yàn)注冊(cè)平臺(tái)的結(jié)構(gòu)化數(shù)據(jù)促進(jìn)醫(yī)學(xué)證據(jù)合成[6-7]。有助于系統(tǒng)綜述從耗時(shí)的“試驗(yàn)結(jié)果出版物篩選模式”轉(zhuǎn)為主動(dòng)積極的“臨床試驗(yàn)監(jiān)測(cè)模式”,從“證據(jù)積累模式”轉(zhuǎn)變?yōu)椤白C據(jù)優(yōu)先級(jí)排序”的模式[8]。相對(duì)書目數(shù)據(jù)庫(kù)而言,臨床試驗(yàn)注冊(cè)平臺(tái)的試驗(yàn)結(jié)果尤其是陰性結(jié)果未被充分利用。本文受以上觀點(diǎn)啟發(fā),述評(píng)目前研究進(jìn)展,提出可計(jì)算的證據(jù)綜合的基本框架和實(shí)現(xiàn)路徑,為實(shí)現(xiàn)快速證據(jù)綜合提供可行性路徑和研究案例。
實(shí)現(xiàn)可計(jì)算的臨床證據(jù)綜合,需要抽取、映射和整合三個(gè)過程。首先是抽取,即結(jié)構(gòu)化,從半結(jié)構(gòu)化數(shù)據(jù)平臺(tái)(如Clinicaltrials.gov的XML文件、Cochrane系統(tǒng)綜述結(jié)果)和非結(jié)構(gòu)化自然語言文本(如PubMed)中抽取“患者-干預(yù)-對(duì)照-結(jié)局”(population-interventions-comparisons-outcomes,PICO)要素;以美國(guó)Clinicaltrials.gov、中國(guó)臨床試驗(yàn)注冊(cè)平臺(tái)等為基礎(chǔ),利用其相對(duì)結(jié)構(gòu)化的數(shù)據(jù),自動(dòng)生成PICO字段,對(duì)于注冊(cè)平臺(tái)上未報(bào)告結(jié)果的試驗(yàn),通過計(jì)算機(jī)軟件工具獲取書目數(shù)據(jù)庫(kù)(如PubMed)或網(wǎng)絡(luò)(如權(quán)威會(huì)議報(bào)道)報(bào)告結(jié)果。
其次是映射,即標(biāo)準(zhǔn)化,利用醫(yī)學(xué)本體和術(shù)語集,將PICO要素的不同語言表達(dá)進(jìn)行統(tǒng)一編碼[9],將自然語言映射為標(biāo)準(zhǔn)化術(shù)語體系中的概念;常用的術(shù)語體系如統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(the Unified Medical Language System, UMLS)[10],常用的映射工具如基于文本相似度的術(shù)語映射工具通用數(shù)據(jù)模型(the Observational Medical Outcomes Partnership-Common Data Model, OMOP-CDM)[11],這些工具可以在很大程度上幫助實(shí)現(xiàn)“多源異構(gòu)”術(shù)語的自動(dòng)映射,實(shí)現(xiàn)統(tǒng)一表達(dá),為證據(jù)整合奠定基礎(chǔ)。
第三是將不同來源的實(shí)體和數(shù)據(jù)通過“以PICO為框架的知識(shí)圖譜”進(jìn)行整合、存儲(chǔ)。將以上結(jié)果與目前現(xiàn)有的系統(tǒng)綜述(如Cochrane系統(tǒng)評(píng)價(jià)數(shù)據(jù)庫(kù))結(jié)論進(jìn)行對(duì)比,可判斷當(dāng)前證據(jù)是進(jìn)一步確認(rèn)了還是完全改變了目前最新的系統(tǒng)綜述或Meta分析結(jié)論,從而能減少重復(fù)開展系統(tǒng)綜述帶來的時(shí)間和人力浪費(fèi)。
目前針對(duì)不同等級(jí)的臨床證據(jù),如系統(tǒng)綜述、隨機(jī)對(duì)照試驗(yàn)(randomized controlled trial,RCT)結(jié)果、注冊(cè)臨床試驗(yàn)等均有計(jì)算機(jī)科學(xué)和醫(yī)學(xué)的交叉研究團(tuán)隊(duì)開展了證據(jù)結(jié)構(gòu)化和標(biāo)準(zhǔn)化的工作,代表性進(jìn)展主要包括以下兩個(gè)方面。
Cochrane系統(tǒng)評(píng)價(jià)數(shù)據(jù)庫(kù)(Cochrane Database of Systematic Reviews, CDSR)是世界上最大的單一系統(tǒng)評(píng)價(jià)數(shù)據(jù)庫(kù)。為實(shí)現(xiàn)系統(tǒng)綜述結(jié)論的結(jié)構(gòu)化存儲(chǔ),Cochrane組織在2014年啟動(dòng)了鏈接數(shù)據(jù)(Cochrane linked data)項(xiàng)目,將系統(tǒng)綜述中涉及的PICO概念進(jìn)行結(jié)構(gòu)化和標(biāo)準(zhǔn)化。以新型冠狀病毒肺炎(COVID-19,以下簡(jiǎn)稱新冠肺炎)疫情為例,Cochrane組織和科技公司Data Language合作構(gòu)建了一個(gè)全新的數(shù)據(jù)架構(gòu)(a radical new data architecture),以知識(shí)圖譜(knowledge graph)技術(shù)為核心,改進(jìn)Cochrane以往用傳統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)(主要是自然語言文本)描述醫(yī)學(xué)證據(jù)的方式。
Cochrane系統(tǒng)綜述的傳統(tǒng)方式耗時(shí)耗力,需要領(lǐng)域?qū)<覅⑴c,最終的產(chǎn)出是復(fù)雜半結(jié)構(gòu)化文檔。在新的方案中,“標(biāo)準(zhǔn)化”通過PICO框架中的疾病、干預(yù)等實(shí)體使用標(biāo)準(zhǔn)化詞表來表示。常用的實(shí)體和標(biāo)準(zhǔn)化詞表對(duì)應(yīng)情況詳見表1。以上在PICO finder系統(tǒng)中可以實(shí)現(xiàn)查詢,其實(shí)體所采用的標(biāo)準(zhǔn)化詞表也即OMOP-CDM中的敘詞表。但Cochrane當(dāng)前的研究?jī)H進(jìn)行了實(shí)體類別標(biāo)注,并未對(duì)干預(yù)和結(jié)局之間的關(guān)系進(jìn)行描述(圖1)。2020年,有研究者[12]聚焦系統(tǒng)綜述的結(jié)果,從中提取相關(guān)疾病、風(fēng)險(xiǎn)因素、風(fēng)險(xiǎn)結(jié)果和其他糖尿病實(shí)體以及比值比(odds ratio, OR)或風(fēng)險(xiǎn)比(risk ratio, RR)等效應(yīng)指標(biāo)和效應(yīng)值,基于循證醫(yī)學(xué)的框架構(gòu)建糖尿病并發(fā)癥的知識(shí)圖譜,將實(shí)體之間的風(fēng)險(xiǎn)關(guān)系通過知識(shí)圖譜進(jìn)行可視化,實(shí)現(xiàn)快速證據(jù)綜合。
表1 PICO框架中的實(shí)體與其對(duì)應(yīng)的標(biāo)準(zhǔn)化詞表 Tab.1 Standardized vocabulary for entities in the PICO framework
圖1 Cochrane PICO FinderFig.1 Cochrane PICO Finder(https://data.cochrane.org/pico-finder/)PICO:population-interventions-comparisons-outcomes.
2.2.1 Trialstreamer:對(duì)RCT結(jié)果的結(jié)構(gòu)化
RCT結(jié)果結(jié)構(gòu)化的代表性工作是Trialstreamer人工智能系統(tǒng)。系統(tǒng)基于PubMed和世界衛(wèi)生組織(World Health Organization,WHO)國(guó)際臨床試驗(yàn)注冊(cè)平臺(tái)(International Clinical Trials Registry Platform, ICTRP),使用RobotReviewer機(jī)器學(xué)習(xí)系統(tǒng)自動(dòng)查找RCT研究,并從中提取關(guān)鍵信息。具體包括(圖2):
圖2 Trialstreamer數(shù)據(jù)結(jié)構(gòu)Fig.2 Data structure of Trialstreamer
(1)PICO概念:基于規(guī)則進(jìn)行提取,映射為UMLS超級(jí)敘詞表中的概念。使用EBMNLP(evidence-based medicine natural language processing)語料庫(kù)對(duì)PubMed當(dāng)中的RCT研究摘要進(jìn)行PICO概念的識(shí)別[13]。通過Metamap Lite提取描述PICO元素的MeSH術(shù)語,基于UMLS Metathesaurus通過算法生成的龐大醫(yī)學(xué)術(shù)語同義詞詞典,使用MeSH詞匯表中概念的唯一標(biāo)識(shí)符相匹配來實(shí)現(xiàn)標(biāo)準(zhǔn)化。字段包括:人口學(xué)特征(population)、干預(yù)措施(interventions)、結(jié)局(outcomes)、人口學(xué)特征MeSH(population_mesh)、干預(yù)措施MeSH(interventions_mesh)、結(jié)局MeSH(outcomes_mesh);以上結(jié)果包含了結(jié)構(gòu)化和標(biāo)準(zhǔn)化兩個(gè)過程,其中標(biāo)準(zhǔn)化是通過向MeSH術(shù)語體系映射實(shí)現(xiàn)的。
(2)偏倚風(fēng)險(xiǎn)評(píng)估(prob_low_rob):通過訓(xùn)練Cochrane圖書館中60%帶有Cochrane偏倚風(fēng)險(xiǎn)工具手動(dòng)評(píng)估的RCT摘要,以實(shí)現(xiàn)從摘要中自動(dòng)評(píng)估偏倚風(fēng)險(xiǎn)的目的。
(3)樣本量(num_randomized):使用一系列啟發(fā)式、正則表達(dá)式和自然語言處理(natural language processing,NLP)技術(shù)將摘要中的樣本量進(jìn)行提取,并使用多層感知器模型來估計(jì)每個(gè)整數(shù)代表研究樣本大小的概率。
(4)結(jié)論句(punchline_text)[14]:包括作者結(jié)論和統(tǒng)計(jì)效應(yīng)量的句子。
(5)其他元數(shù)據(jù)項(xiàng):PMID、標(biāo)題(ti)、摘要(ab)、年份(year)、作者(authors)、期刊(journal)、doi等。
2.2.2 注冊(cè)臨床試驗(yàn)結(jié)構(gòu)化
目前,針對(duì)注冊(cè)臨床試驗(yàn)開展可計(jì)算的證據(jù)綜合有以下代表性工作:(1)2012年構(gòu)建的臨床試驗(yàn)知識(shí)圖譜(Clinical Trials Knowledge Graph, CTKG),該圖譜是根據(jù)來自ClinicalTrials.gov數(shù)據(jù)庫(kù)的臨床試驗(yàn)數(shù)據(jù)構(gòu)建的知識(shí)圖譜。包括代表臨床試驗(yàn)(如研究、藥物、病情)中醫(yī)療實(shí)體的節(jié)點(diǎn),以及代表這些實(shí)體(如研究中使用的藥物)之間關(guān)系的邊,它包括1 496 684個(gè)節(jié)點(diǎn)(18種節(jié)點(diǎn)類型)和21種關(guān)系類型,共3 667 750個(gè)三元組。提供了3本關(guān)于如何使用知識(shí)圖嵌入來探索和分析CTKG的手冊(cè)[15]。(2)新冠肺炎臨床試驗(yàn)鏈接圖:利用自然語言處理工具,從符合納入和排除標(biāo)準(zhǔn)的開放文本和來自ClinicalTrials.gov的結(jié)構(gòu)化信息中提取臨床試驗(yàn)信息,并將其導(dǎo)入支持查詢和可視化的圖形數(shù)據(jù)庫(kù),便于檢索臨床試驗(yàn)[16]。(3)2022年構(gòu)建的CTKG,該圖譜包括表示臨床試驗(yàn)(例如,藥物和癥狀)等醫(yī)療實(shí)體的節(jié)點(diǎn),以及表示這些實(shí)體(例如,研究中使用的藥物)之間關(guān)系的邊緣。同時(shí)嵌入分析CTKG在臨床應(yīng)用中的潛在效果,例如藥物再利用和相似性搜索等[17]。
以上研究均把PICO概念進(jìn)行了結(jié)構(gòu)化,但目前的研究均沒有提取I/C和O之間的效應(yīng)指標(biāo)和效應(yīng)值。因此,筆者此前的研究在國(guó)內(nèi)外學(xué)者的基礎(chǔ)上構(gòu)建了基于“醫(yī)學(xué)實(shí)體”和“統(tǒng)計(jì)量”的臨床證據(jù)知識(shí)圖譜,基于ClinicalTrials.gov平臺(tái)XML數(shù)據(jù)、Trilastreamer工具提取出版物中臨床試驗(yàn)實(shí)體、包括統(tǒng)計(jì)量的結(jié)論句和風(fēng)險(xiǎn)偏倚評(píng)分(代表研究質(zhì)量)等字段[18],通過NLP進(jìn)一步規(guī)范PICO實(shí)體和統(tǒng)計(jì)學(xué)指標(biāo),并與標(biāo)準(zhǔn)化術(shù)語體系(MeSH、ICD、MedDRA等)進(jìn)行映射,構(gòu)建I/C和O之間的效應(yīng)關(guān)系,篩選有臨床意義的試驗(yàn),輔助臨床決策[19]。通過分類來確定I/C和O之間關(guān)系的啟發(fā)[20],筆者將干預(yù)和結(jié)局之間的效應(yīng)根據(jù)抽取出的P值分為三類來定義其臨床意義:①有顯著差異(改善、增加、降低),P<0.05;②無顯著性差異,P>0.05;③未出現(xiàn)。ClinicalTrials.gov在使用元數(shù)據(jù)方面尚存在著一些障礙,其主要原因是未進(jìn)行術(shù)語標(biāo)準(zhǔn)化。如患者疾病情況的描述詞分布包括MeSH (62%),MedDRA (46%)和SNOMED-CT (45%)[21]。
結(jié)合上述工具和研究,筆者通過導(dǎo)出ClinicalTrials.gov中有關(guān)COVID-19臨床試驗(yàn)的eXtensible Markup Language(XML)文件,基于PICO框架對(duì)字段進(jìn)行分類、標(biāo)準(zhǔn)化映射、圖數(shù)據(jù)庫(kù)存儲(chǔ)等信息處理過程。筆者的映射工具涉及MTI、MetaMap和Usagi,并在Neo4j、GraphDB中建立了“實(shí)體-屬性-值”結(jié)構(gòu)的圖數(shù)據(jù)庫(kù)[22- 23],較Clinicaltrials.gov平臺(tái)增加了新的基于多字段和內(nèi)容的查詢條件,通過Cypher語言對(duì)特定字段進(jìn)行查詢、數(shù)據(jù)導(dǎo)出,為可計(jì)算奠定基礎(chǔ)。在筆者建立的本地?cái)?shù)據(jù)庫(kù)中通過Cypher語言查詢“MATCH (n{nctid:’NCT04491240’}) RETURN n”返回結(jié)果如圖3所示,可視化展示的每個(gè)節(jié)點(diǎn)名稱為“實(shí)體”,“node labels”為節(jié)點(diǎn)的屬性,每個(gè)節(jié)點(diǎn)中包含了相應(yīng)的“數(shù)據(jù)”且可以供研究者導(dǎo)出使用。該研究被收錄在ExtractionandEvaluationofKnowledgeEntitiesfromScientificDocuments(EEKE2021)論文集當(dāng)中。通過Cypher語言在Neo4j構(gòu)建的圖形數(shù)據(jù)庫(kù)中查詢和批量導(dǎo)出信息[24],可以幫助研究人員批量獲取最新數(shù)據(jù),并為實(shí)時(shí)合成研究證據(jù)奠定基礎(chǔ)。與書目數(shù)據(jù)庫(kù)中的出版物相比,這些數(shù)據(jù)包括陰性和陽(yáng)性結(jié)果,更加全面客觀,可以補(bǔ)充出版物中的灰色數(shù)據(jù)。實(shí)體對(duì)齊使用到Usagi工具(https://github.com/OHDSI/Usagi),直接映射到OHDSI的術(shù)語表[25]。
通過上述方法構(gòu)建了如圖3所示的臨床試驗(yàn)信息存儲(chǔ)圖數(shù)據(jù)庫(kù)的內(nèi)容,大規(guī)模分析臨床試驗(yàn)可以為自動(dòng)化Meta分析提供信息學(xué)策略、繪制證據(jù)圖譜、將有證據(jù)支持的暴露-結(jié)局繪制為網(wǎng)絡(luò)知識(shí)圖譜??梢詫?shí)現(xiàn)的臨床應(yīng)用包括:提取臨床試驗(yàn)患者納入標(biāo)準(zhǔn)中“有一線藥物失敗”的患者使用的二線藥物信息;二線藥物的臨床試驗(yàn)設(shè)計(jì),可以參考相關(guān)一線藥物的研究設(shè)計(jì)要素等。
圖3 圖數(shù)據(jù)庫(kù)存儲(chǔ)醫(yī)學(xué)知識(shí)“實(shí)體-屬性-值”案例展示Fig.3 Case presentation of Graph database stored medical knowledge “entity-attribute-value”
2021年Nature發(fā)表的評(píng)論呼吁動(dòng)態(tài)更新的證據(jù)綜合,通過NLP、機(jī)器學(xué)習(xí)、眾包等技術(shù)來規(guī)范開放數(shù)據(jù)管理,如提高數(shù)字資源共享可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原則,幫助推動(dòng)數(shù)據(jù)共享的可查找、可訪問、可互操作性,以此建立高質(zhì)量的證據(jù)合成方法和指南[2, 26]。推動(dòng)可計(jì)算的生物醫(yī)學(xué)知識(shí)(Mobilizing Computable Biomedical Knowledge, MCBK)第三屆年度公開會(huì)議總結(jié):動(dòng)員可計(jì)算的生物醫(yī)學(xué)知識(shí)-加速第二次知識(shí)革命[27]。
本研究所納入的研究均通過結(jié)構(gòu)化醫(yī)療數(shù)據(jù)來實(shí)現(xiàn)醫(yī)學(xué)知識(shí)的可計(jì)算,其中“標(biāo)準(zhǔn)化映射”實(shí)體是規(guī)范字段名稱通用的手段,不同的標(biāo)準(zhǔn)化方法側(cè)重的內(nèi)容不同、編碼方式不同,但都以利于醫(yī)學(xué)數(shù)據(jù)字段融合為目的。如血管緊張素轉(zhuǎn)換酶抑制劑和血管緊張素受體阻滯劑被認(rèn)為會(huì)影響新冠肺炎的易感性,但缺乏相關(guān)臨床試驗(yàn),通過證據(jù)融合可以更好地為臨床醫(yī)學(xué)提供證據(jù)[28]。
當(dāng)前大部分研究停留在設(shè)想階段,鮮少有實(shí)踐案例,且存儲(chǔ)方式單一,不利于查詢和數(shù)據(jù)提取。如ClinicalTrials作為結(jié)構(gòu)化數(shù)據(jù)庫(kù),其查詢字段有很大的局限。將本文結(jié)合圖數(shù)據(jù)庫(kù)存儲(chǔ)為“實(shí)體-屬性-值”的格式,并應(yīng)用現(xiàn)代化查詢技術(shù),可以通過圖數(shù)據(jù)庫(kù)的存儲(chǔ)形式來實(shí)現(xiàn)不同研究數(shù)據(jù)的可視化、查詢、數(shù)據(jù)提取等。實(shí)現(xiàn)手段如圖4所示:①?gòu)慕Y(jié)構(gòu)化數(shù)據(jù)庫(kù)中提取數(shù)據(jù);②醫(yī)學(xué)實(shí)體標(biāo)準(zhǔn)化:通過MTI、Usagi、MetaMap等工具和平臺(tái),對(duì)醫(yī)學(xué)實(shí)體進(jìn)行編碼和對(duì)齊;③通過知識(shí)圖譜構(gòu)建平臺(tái)和工具,將“實(shí)體-屬性-值”進(jìn)行存儲(chǔ);④通過SPARQL、Cypher、Python等編程語言對(duì)數(shù)據(jù)進(jìn)行查詢、導(dǎo)出。該路徑綜合了前人研究的基礎(chǔ),且在數(shù)據(jù)存儲(chǔ)、共享、可視化方面進(jìn)行了一定的創(chuàng)新。
圖4 可計(jì)算的臨床證據(jù)實(shí)現(xiàn)框架Fig.4 Implementation framework for calculable clinical evidence
利益沖突所有作者均聲明不存在利益沖突。
作者貢獻(xiàn)聲明白永梅:論文撰寫、繪圖;杜建:研究設(shè)計(jì)和論文指導(dǎo)。
首都醫(yī)科大學(xué)學(xué)報(bào)2022年4期