林琳,孫瑄,王韜,繆中榮,甘偉,牛明芳(*第一作者)
近年來,隨著循證醫(yī)學、轉化醫(yī)學的迅速發(fā)展以及我國對臨床醫(yī)學研究的大力支持[1-2],以真實診療數(shù)據(jù)為基礎、以研究成果輔助臨床決策為目標的科研需求正在被極大地激發(fā)出來,并成為現(xiàn)代醫(yī)學研究的熱門[3]。在此背景下,首都醫(yī)科大學附屬北京天壇醫(yī)院在原有業(yè)務系統(tǒng)建設及臨床數(shù)據(jù)中心基礎上,規(guī)劃構建了以重點專病為核心的臨床科研一體化研究模式。通過優(yōu)化、改進數(shù)據(jù)采集質量,使海量數(shù)據(jù)轉化為優(yōu)質研究資源,進而促進科研成果在臨床決策中的應用,推動醫(yī)院在醫(yī)學研究、疾病診療方面的深度融合,形成“以患者為中心、以臨床為導向、以科研為抓手”的發(fā)展模式。目前,該模式已在天壇醫(yī)院神經(jīng)介入中心推廣應用,并取得了良好效果,現(xiàn)探討如下。
神經(jīng)介入是在計算機控制的DSA影像指導下,利用血管內(nèi)導管操作技術,如栓塞、溶解、擴張、成形、抗腫瘤治療等方法,對累及人體神經(jīng)系統(tǒng)血管的病變進行治療[4]。天壇醫(yī)院神經(jīng)介入中心以自然語言處理、機器學習、深度學習等人工智能技術為依托,建立了神經(jīng)介入相關疾病專病庫。通過對科研病例資料的自動收集、專病數(shù)據(jù)集的規(guī)范化處理以及數(shù)據(jù)模型的搭建等,解決了數(shù)據(jù)采集利用率低、數(shù)據(jù)質量缺乏監(jiān)控、數(shù)據(jù)分析挖掘困難等問題。
1.1 數(shù)據(jù)采集 科研數(shù)據(jù)的來源主要是院內(nèi)各臨床業(yè)務系統(tǒng),這些數(shù)據(jù)以患者主索引為主線,經(jīng)統(tǒng)一抽取、整合后集中存儲在臨床數(shù)據(jù)中心,包括:患者歷次就診記錄、門診處方、住院醫(yī)囑、電子病歷、檢查化驗報告及影像資料等。此外,還包含患者隨訪、電子數(shù)據(jù)采集(electronic data capture system,EDC)以及基因數(shù)據(jù)等部分院外數(shù)據(jù),用于支持臨床研究。通過對不同來源和結構的數(shù)據(jù)集成、整合,最終形成科研全變量數(shù)據(jù)集。
1.2 數(shù)據(jù)處理 由于臨床數(shù)據(jù)多以反映患者診療過程及疾病轉歸為主,很多時候無法直接滿足科研所需,加上病歷中包含大量自由文本信息,也對數(shù)據(jù)的二次利用造成阻礙。因此,還需對其做進一步處理,如數(shù)據(jù)標準化、后結構化、數(shù)據(jù)質控、數(shù)據(jù)治理等,提高數(shù)據(jù)的可及性和可用性。
數(shù)據(jù)標準化:數(shù)據(jù)標準化是通過醫(yī)院主術語建設、標準化術語基線與分類建設,以及標準化術語本體庫建設等,實現(xiàn)實體映射的一致,消除語義鴻溝。包括:疾病術語標準化、藥品術語標準化、癥狀體征術語標準化、檢驗/檢查術語標準化等。
后結構化:針對病歷文本信息,以自然語言處理技術為基礎,結合臨床、藥學、檢查檢驗等醫(yī)療專業(yè)詞庫,通過分析上下文關系,構建多層級語義分析模型,找出文本中不同實體、屬性、關系之間的關聯(lián)信息,實現(xiàn)結構化轉換。
數(shù)據(jù)質控:專病庫支持對數(shù)據(jù)完整性、規(guī)范性等的實時質控,通過發(fā)現(xiàn)數(shù)據(jù)缺失或異常值等問題,避免研究結果的偏倚或失真。同時,針對具體問題點,可溯源至原始病歷,督促醫(yī)生規(guī)范病歷書寫,提高科研數(shù)據(jù)質量。
數(shù)據(jù)治理:對質量較差的數(shù)據(jù),可通過多維數(shù)據(jù)清洗功能,如標簽、離散化、數(shù)據(jù)填補、自定義變量等,進行有效治理,保證數(shù)據(jù)的準確性及可靠性。
1.3 數(shù)據(jù)模型 治理后的數(shù)據(jù),通過語義分析模型、醫(yī)療知識圖譜等,形成以疾病為中心、具有完整時間序列的專病數(shù)據(jù)庫,并可視化展現(xiàn)數(shù)據(jù)間深層關聯(lián)關系,為臨床研究提供更多可能方向。專病庫還支持導入醫(yī)師手工采集的課題數(shù)據(jù)(多為Excel表格式),經(jīng)結構化處理、數(shù)據(jù)清洗及分析后,與數(shù)據(jù)庫中原有數(shù)據(jù)融合,形成個性化的完整科研數(shù)據(jù)集。圖1展示了神經(jīng)介入中心前循環(huán)腦梗死急診取栓專病庫部分數(shù)據(jù)。
圖1 前循環(huán)腦梗死急診取栓專病庫部分數(shù)據(jù)
高質量的專病數(shù)據(jù)庫,除具備數(shù)據(jù)完整性、可用性及可追溯性外,還應具備業(yè)務邏輯上的一致性和合理性,這就需要對病歷文本內(nèi)容有更深層次的探查邏輯。智能化病歷內(nèi)涵質控體系是在對大量內(nèi)涵質控真實病歷機器學習的基礎上,建立的以監(jiān)測病歷內(nèi)容是否符合患者病情變化為主的智能質控規(guī)則庫[5],如主訴與現(xiàn)病史不符、初步診斷缺失既往史疾病、體格檢查與初步診斷不符等。
以圖2中某患者的病歷記錄為例,可以看到,在其現(xiàn)病史中有手術史描述,而既往史卻否認了手術史。這樣,在科研專病人群建立過程中,如是以既往史中的手術史為人群入組標準,就會導致樣本缺失,從而影響研究人群召回率及精準定位,造成研究結果不準確。智能化病歷內(nèi)涵質量控制系統(tǒng)的建立,一方面可以及時發(fā)現(xiàn)病歷中的隱含問題,同時還能針對具體問題進行實時提醒和反饋,幫助醫(yī)師從源頭提升病歷書寫質量,從而提高專病庫的數(shù)據(jù)質量。
圖2 智能病歷內(nèi)涵質量控制問題示例
基于介入專病庫,科研人員可針對不同主題的應用場景進行深度挖掘分析,包括:影響因素分析、預測分析、干預分析等。同時,促進科研成果向臨床診療的轉化,對提升臨床水平、實現(xiàn)精準醫(yī)療有著重要意義。
3.1 全過程診療時間軸 全過程診療時間軸,是指專病庫中的數(shù)據(jù)以患者為中心、按照其在院歷次就診事件的時間先后進行排布,具有較強的時序性。在此基礎上,科研人員可根據(jù)不同需求,在任何診療環(huán)節(jié)上設置中心事件。通過對中心事件發(fā)生前后的數(shù)據(jù)進行統(tǒng)計分析(如向前做預測分析、向后做影響因素分析),即可找出臨床決策中的問題點,建立預警模型或風險預測模型,為提高后續(xù)決策水平提供支持(圖3)。
圖3 專病全過程診療時間軸
3.2 基于專病的智能預測引擎 在醫(yī)療領域中,基于海量臨床數(shù)據(jù)的疾病風險預測是一個重要研究方向。通過建立風險預測模型,可對疾病的復發(fā)、死亡、傷殘以及出現(xiàn)并發(fā)癥等概率給出量化估算,從而指導對癥治療,降低病死率[6-7]。
以神經(jīng)介入中心建立的前循環(huán)腦梗死急診取栓專病庫為例,針對目前收集的379例患者(2012年5月-2019年6月),建立了取栓后顱內(nèi)出血發(fā)生風險預測模型。首先,通過智能特征篩選,從人口統(tǒng)計學(性別、年齡、吸煙史、合并癥等)、臨床表現(xiàn)(24 h體溫、心率、血壓等)、化驗指標、藥物治療、檢查等45個變量中,選出包括收縮壓、心房顫動、高血糖、腦梗死體積、尿蛋白陽性在內(nèi)的5個有顯著意義變量;在此基礎上,匹配多因素Logistic回歸模型及ROC曲線,圍繞多項指標進行疾病相關危險因素的分析、挖掘,并分別從精度、召回率、ROC曲線下面積和Kappa系數(shù)等指標評價模型預測準確率。Logistic預測模型如下:Logit=2.172+0.341×收縮壓+1.623×心房顫動+1.120×高血糖+1.856×腦梗死面積+0.677×尿蛋白陽性。最終結果顯示,該預測模型的ROC曲線下面積為0.749,靈敏度為0.751,特異度為0.820,說明模型具有較好的預測效能,可在一定程度上輔助指導臨床決策(圖4)。
綜上所述,可以看出臨床科研一體化研究的關鍵在于開展科研的信息主要來自真實臨床實踐,研究成果最終應回歸臨床、指導實踐。因此,借助信息化及人工智能技術對臨床診療數(shù)據(jù)進行聚合、收集、分析,并以專病庫方式將其轉化為高質量科研數(shù)據(jù),以統(tǒng)計分析模型實現(xiàn)對疾病轉歸的預測和臨床決策的循證支持,是現(xiàn)代醫(yī)學研究發(fā)展的重要方向。
圖4 預測模型的ROC曲線圖
當然,專病數(shù)據(jù)庫的建設是一個持續(xù)過程。隨著醫(yī)院信息化建設的不斷完善,接入的數(shù)據(jù)將越來越全面。目前,介入中心在專病庫的建設上已取得了一定成效,對今后醫(yī)院對病種數(shù)據(jù)庫的部署起到了重要的示范作用。未來,隨著各醫(yī)院單病種專病數(shù)據(jù)庫的完善,將進一步推動區(qū)域內(nèi)多家醫(yī)療機構建立多中心專病數(shù)據(jù)庫,促進病種數(shù)據(jù)的標準化以及跨院數(shù)據(jù)的綜合利用,提升科研水平、完善治療方案,為患者提供更加優(yōu)質的服務。