段鶼李,陳廷寅
[中南大學(xué)湘雅醫(yī)院 網(wǎng)絡(luò)信息中心(中南大學(xué)醫(yī)院管理研究所),湖南 長沙 410008]
近年來,數(shù)據(jù)分析與挖掘技術(shù)快速發(fā)展,其在醫(yī)療健康領(lǐng)域的影響與作用也越來越受到重視[1]。全國衛(wèi)生與健康大會、《健康中國2030 國規(guī)劃綱要》、《“十三五”衛(wèi)生與健康規(guī)劃》和《全民健康保障工程建設(shè)規(guī)劃》都對醫(yī)療健康信息化與大數(shù)據(jù)應(yīng)用發(fā)展作了規(guī)劃部署。國務(wù)院辦公廳于2016年下發(fā)的《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》,對發(fā)展健康醫(yī)療大數(shù)據(jù),推動健康醫(yī)療數(shù)據(jù)互聯(lián)融合、開放共享具有推動和指導(dǎo)意義[2]。
醫(yī)學(xué)要發(fā)展和突破就離不開科研,在當(dāng)下還有很多疾病的發(fā)病機(jī)制、發(fā)病原因沒有明確,治療方法、診斷方法等都還有待進(jìn)一步改進(jìn),但隨著醫(yī)療信息化程度的提升,通過對醫(yī)療過程和結(jié)果數(shù)據(jù)的分析、監(jiān)控,可以有效地發(fā)現(xiàn)醫(yī)療過程中出現(xiàn)的問題,并分析發(fā)生的原因,有針對性地進(jìn)行改善,提升醫(yī)療質(zhì)量。這就需要醫(yī)務(wù)人員,特別是臨床一線醫(yī)務(wù)人員從日常診療過程中積累經(jīng)驗(yàn),見微知著,就未解問題積極進(jìn)行研究。然而醫(yī)療數(shù)據(jù)量大且關(guān)系復(fù)雜,要對這種大量數(shù)據(jù)的關(guān)系進(jìn)行發(fā)現(xiàn)和分析,依靠傳統(tǒng)的計(jì)算框架已很難滿足要求。
醫(yī)院臨床業(yè)務(wù)每天會產(chǎn)生大量的診斷、醫(yī)囑、生命體征、檢驗(yàn)、檢查等方面的數(shù)據(jù),但這些數(shù)據(jù)在信息化過程中未以科研為目標(biāo)進(jìn)行采集和組織,從而導(dǎo)致無法直接為科研所用,需要再次將這些數(shù)據(jù)根據(jù)科研的需求進(jìn)行組織。不僅需要整合本院的患者數(shù)據(jù),而且還需要整合患者在其他醫(yī)療機(jī)構(gòu)和保健機(jī)構(gòu)產(chǎn)生的醫(yī)療、健康、生活習(xí)慣、居住環(huán)境、職業(yè)等方面的全生命過程數(shù)據(jù),為科研建立起完整的、以患者/居民為中心的科研大數(shù)據(jù)中心。但這些數(shù)據(jù)大多是基于患者治療產(chǎn)生的數(shù)據(jù),更多是以完成診療工作為主,而沒有從更全面、更深入、更智能的角度上對數(shù)據(jù)進(jìn)行很好地分析和利用,從而將數(shù)據(jù)提煉成信息,凝聚成知識,為醫(yī)院的臨床和管理服務(wù)。
隨著醫(yī)學(xué)科學(xué)的深入發(fā)展,臨床分科精細(xì)化更有利于醫(yī)生學(xué)術(shù)有專攻和對疾病的有效治療,而目前的電子病歷針對不同??坪图膊〉奶厣M(jìn)行細(xì)分方面還需要進(jìn)一步完善,以支撐醫(yī)護(hù)人員快速精準(zhǔn)定位、精準(zhǔn)分析,并適應(yīng)醫(yī)療專科化、專病化的發(fā)展?;颊卟v、檢查、檢驗(yàn)和隨訪資料是寶貴的科研資源,醫(yī)生可以對病例數(shù)據(jù)進(jìn)行篩選和分析,為臨床科研提供堅(jiān)實(shí)的基礎(chǔ)[3]。目前,醫(yī)院雖然實(shí)現(xiàn)院內(nèi)信息系統(tǒng)的互聯(lián)互通,匯聚不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù),但由于數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)異構(gòu)性矛盾、缺乏專業(yè)的數(shù)據(jù)分析平臺等問題,離實(shí)際科研應(yīng)用尚有一段距離,還需要根據(jù)??菩枰獙?shí)現(xiàn)科研數(shù)據(jù)的合理、高效使用。臨床數(shù)據(jù)與科研數(shù)據(jù)尚未緊密融合,科研與臨床的良性互動還不夠。
數(shù)據(jù)處理是以提高臨床科研效率、促進(jìn)業(yè)務(wù)協(xié)同服務(wù)、輔助臨床決策支持、夯實(shí)大數(shù)據(jù)技術(shù)支撐為目標(biāo),按標(biāo)準(zhǔn)構(gòu)建院級科研大數(shù)據(jù)中心,并向上層應(yīng)用提供數(shù)據(jù)服務(wù)。數(shù)據(jù)范圍主要包括基于醫(yī)院臨床數(shù)據(jù)中心的醫(yī)院臨床業(yè)務(wù)數(shù)據(jù)、基于專科聯(lián)盟及醫(yī)聯(lián)體的醫(yī)療衛(wèi)生機(jī)構(gòu)服務(wù)數(shù)據(jù)、基于醫(yī)療設(shè)備(含穿戴設(shè)備)的健康體征監(jiān)測數(shù)據(jù)及基于專科疾病的科研量表數(shù)據(jù)等。主要方法包括數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約[4]。
數(shù)據(jù)清洗: 即進(jìn)行異常數(shù)據(jù)清除,錯(cuò)誤糾正及重復(fù)數(shù)據(jù)的清除。清洗數(shù)據(jù)時(shí),主要解決空缺值、錯(cuò)誤數(shù)據(jù)、孤立點(diǎn)、噪聲等問題。清洗后的數(shù)據(jù)達(dá)到格式標(biāo)準(zhǔn)化。
數(shù)據(jù)變換: 將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式稱為數(shù)據(jù)變換,采用線性或非線性的數(shù)學(xué)變換方法,將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù),以消除其在時(shí)間、空間、屬性、精度等特征上的差異。
數(shù)據(jù)規(guī)約: 即去噪處理后,還要對數(shù)據(jù)的屬性進(jìn)行相應(yīng)處理。在減少數(shù)據(jù)存儲空間的同時(shí)盡可能保證數(shù)據(jù)的完整性,獲得比原始數(shù)據(jù)小得多的數(shù)據(jù),并以合乎要求的方式對數(shù)據(jù)進(jìn)行表達(dá)[5-6]。
自然語言處理是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)的重要方法,醫(yī)學(xué)信息抽取一直是醫(yī)學(xué)自然語言處理的研究熱點(diǎn)?;颊咝畔⒃卺t(yī)療病歷中常以文本形式存儲,而文本描述容易出現(xiàn)非標(biāo)準(zhǔn)化描述,因此對自然語言必須進(jìn)行技術(shù)處理,包括醫(yī)學(xué)名實(shí)體識別、醫(yī)學(xué)名實(shí)體自動編碼、醫(yī)學(xué)名實(shí)體修飾詞識別、時(shí)間信息抽取等[7]。
醫(yī)學(xué)自然語言處理可以分為兩類: ①分析內(nèi)容特征,主要包括中文分詞、命名實(shí)體識別、文檔語義分析、機(jī)器學(xué)習(xí)、同義詞替換等;②分析對象粒度,主要包括句法結(jié)構(gòu)分析、依存關(guān)系分析、文本聚類、預(yù)制模板、知識推理等。通過處理,研究者能夠從已轉(zhuǎn)化為真實(shí)于原有醫(yī)學(xué)信息的結(jié)構(gòu)化數(shù)據(jù)中方便地抽取有用的醫(yī)學(xué)信息,從而減少運(yùn)行成本[8-9]。
從診療指南、醫(yī)學(xué)教材、醫(yī)學(xué)文獻(xiàn)等資料中根據(jù)一定的模型整理出疾病的靜態(tài)知識庫,再經(jīng)由信息化手段形成診療決策路徑,基于診療決策路徑自動提取出疾病的關(guān)鍵指標(biāo)形成疾病分析模型,提取路徑中的決策規(guī)則形成決策規(guī)則庫。通過對醫(yī)院歷史臨床業(yè)務(wù)數(shù)據(jù)的整合后形成數(shù)據(jù)中心,根據(jù)語料庫、關(guān)系和規(guī)則庫、基礎(chǔ)知識庫、疾病模型,對歷史的數(shù)據(jù)進(jìn)行深度的挖掘和分析,提取數(shù)據(jù)中的醫(yī)學(xué)術(shù)語豐富語料庫、提取關(guān)系和規(guī)則、提取診療經(jīng)驗(yàn)。
將人工整理的知識庫和系統(tǒng)自動提取或?qū)W習(xí)的知識進(jìn)行相關(guān)驗(yàn)證,并修正疾病診療決策路徑和規(guī)則,最終形成符合理論和實(shí)踐經(jīng)驗(yàn)的臨床診療決策路徑和規(guī)則;并基于這些路徑和規(guī)則形成知識圖譜,形成的知識圖譜、診療決策路徑和規(guī)則、疾病模型可以應(yīng)用于醫(yī)院端的知識推薦、風(fēng)險(xiǎn)評價(jià)、用藥推薦、醫(yī)??刭M(fèi)、醫(yī)療質(zhì)量控制、相似病例推薦等;應(yīng)用于居民端的合理醫(yī)療評估、個(gè)人疾病評估、健康風(fēng)險(xiǎn)評估、疾病知識學(xué)習(xí)等。見圖1。
醫(yī)療數(shù)據(jù)需要借助于大數(shù)據(jù)技術(shù)的發(fā)展,結(jié)合傳統(tǒng)的數(shù)據(jù)挖掘分析理論與技術(shù),從海量數(shù)據(jù)中高效地提取有價(jià)值的信息。數(shù)據(jù)分析挖掘以數(shù)據(jù)為中心,以數(shù)據(jù)預(yù)處理、特征工程、統(tǒng)計(jì)分析技術(shù)、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法模型為基礎(chǔ),存儲及計(jì)算能力以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量為治理核心,以信息可視化技術(shù)作為呈現(xiàn)手段,構(gòu)建統(tǒng)一的數(shù)據(jù)分析挖掘平臺。
把數(shù)據(jù)屬性轉(zhuǎn)化為數(shù)據(jù)特征,減少受到噪聲的干擾,以滿足數(shù)據(jù)挖掘和分析,是數(shù)據(jù)進(jìn)行挖掘和分析之前對數(shù)據(jù)進(jìn)行特征工程處理的必要過程,但是對于特征工程中引用的新特征,需要驗(yàn)證其是否提高預(yù)測的準(zhǔn)確度而排除其是否為無用的特征,以免增加算法運(yùn)算的復(fù)雜度[10]。然后從數(shù)據(jù)統(tǒng)計(jì)分析方法、機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法等方法中選擇合適的算法模型或組合基于特征數(shù)據(jù)進(jìn)行模型的設(shè)計(jì)與挖掘分析。
圖1 知識庫構(gòu)建流程
數(shù)據(jù)質(zhì)量是數(shù)據(jù)的正確性、完整性、一致性及最小性這4 個(gè)指標(biāo)在信息系統(tǒng)中的滿足程度[11-12]。首先要進(jìn)行質(zhì)控規(guī)則的管理,根據(jù)業(yè)務(wù)領(lǐng)域,提供數(shù)據(jù)質(zhì)控指標(biāo)的定義,編寫數(shù)據(jù)質(zhì)量校驗(yàn)程序,確保數(shù)據(jù)唯一性,避免從多處提供數(shù)據(jù)來源,減少數(shù)據(jù)不一致性的麻煩,并提供完整的數(shù)據(jù)質(zhì)控日志,可通過日志查看數(shù)據(jù)質(zhì)控情況;其次要提供數(shù)據(jù)校驗(yàn)功能,具體包括數(shù)據(jù)規(guī)范性評價(jià)指標(biāo)、完整性評價(jià)指標(biāo)、及時(shí)性評價(jià)指標(biāo)、邏輯性評價(jià)指標(biāo)、一致性評價(jià)指標(biāo)和異常值探測指標(biāo)[13];最后要進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)管,在每一個(gè)ETL 階段中設(shè)置檢查點(diǎn),如在數(shù)據(jù)源層、業(yè)務(wù)存儲層、數(shù)據(jù)倉庫明細(xì)數(shù)據(jù)等,在每個(gè)檢查點(diǎn)上對用戶要求的關(guān)鍵指標(biāo)進(jìn)行計(jì)算,檢查各階段計(jì)算出來的指標(biāo)是否一致,以及誤差是否在用戶的許可范圍內(nèi),并提供數(shù)據(jù)質(zhì)量監(jiān)控審計(jì)功能,利用業(yè)務(wù)和校驗(yàn)規(guī)則,實(shí)時(shí)或定時(shí)監(jiān)控?cái)?shù)據(jù)質(zhì)量,當(dāng)數(shù)據(jù)質(zhì)量低于設(shè)定的閾值時(shí)發(fā)出警告。
臨床科研中心的總體設(shè)計(jì)是在信息標(biāo)準(zhǔn)體系、安全保障體系的支撐下,通過對院內(nèi)各種不同數(shù)據(jù)標(biāo)準(zhǔn)、技術(shù)接入方式的系統(tǒng)的數(shù)據(jù)集成,形成院內(nèi)臨床數(shù)據(jù)中心;??坡?lián)盟各醫(yī)院的數(shù)據(jù)通過數(shù)據(jù)報(bào)送或上傳的方式將其院內(nèi)的數(shù)據(jù)進(jìn)行匯聚;對于各種醫(yī)療設(shè)備和個(gè)人穿戴設(shè)備通過提供標(biāo)準(zhǔn)化接口的模式匯聚后形成醫(yī)療設(shè)備數(shù)據(jù)接入中心,最后通過數(shù)據(jù)交換與共享引擎完成3 個(gè)來源數(shù)據(jù)的采集、清洗、標(biāo)化、質(zhì)控及共享形成科研數(shù)據(jù)庫;再根據(jù)不同科研主題的需求建設(shè)相應(yīng)的科研專題數(shù)據(jù)庫;通過數(shù)據(jù)服務(wù)體系中的主索引服務(wù)、數(shù)據(jù)服務(wù)、數(shù)據(jù)資源服務(wù)、數(shù)據(jù)安全、數(shù)據(jù)挖掘分析、搜索引擎等服務(wù)為上層10 大類數(shù)據(jù)應(yīng)用提供服務(wù)支撐,同時(shí)基于數(shù)據(jù)服務(wù)體系來支撐其他??茢?shù)據(jù)應(yīng)用的擴(kuò)展。
院內(nèi)各業(yè)務(wù)系統(tǒng)包括院級建設(shè)和科室級建設(shè)的系統(tǒng),通過以患者為中心的臨床數(shù)據(jù)整合,將HIS、EMR、LIS、PACS 等系統(tǒng)的數(shù)據(jù)抽取到臨床數(shù)據(jù)中心CDR,針對數(shù)據(jù)的來源可以直接基于其邏輯結(jié)構(gòu),按科研數(shù)據(jù)中心的結(jié)構(gòu)進(jìn)行轉(zhuǎn)換。
對院外各聯(lián)盟機(jī)構(gòu)的數(shù)據(jù),采用CRF 表單填報(bào)、SOAP 協(xié)議傳輸服務(wù)、消息傳輸?shù)葦?shù)據(jù)匯集與集成方式,一種方式是由臨床科研中心提供統(tǒng)一數(shù)據(jù)上報(bào)系統(tǒng),對接聯(lián)盟機(jī)構(gòu)的數(shù)據(jù)資源管理平臺或前置數(shù)據(jù)庫,主動抓取經(jīng)過標(biāo)化清洗的數(shù)據(jù);另一種方式是由各個(gè)聯(lián)盟醫(yī)院成員以協(xié)定的數(shù)據(jù)格式,應(yīng)用CRF 表單進(jìn)行數(shù)據(jù)填報(bào),經(jīng)審核后向臨床科研中心上傳數(shù)據(jù)。
各類醫(yī)療設(shè)備的醫(yī)療數(shù)據(jù)也是臨床科研數(shù)據(jù)的重要組成部分,醫(yī)療設(shè)備數(shù)據(jù)匯集常用SOAP 協(xié)議傳輸、前置庫采集或消息傳輸模式,通過建立統(tǒng)一的設(shè)備數(shù)據(jù)接入中心,對各類醫(yī)療設(shè)備進(jìn)行數(shù)據(jù)采集。見圖2。
全量科研數(shù)據(jù)是整合患者和疾病全生周期的數(shù)據(jù),通過從數(shù)據(jù)匯聚庫經(jīng)過標(biāo)化處理后,根據(jù)相關(guān)標(biāo)準(zhǔn)建立的數(shù)據(jù)模型而存儲的數(shù)據(jù),主要的數(shù)據(jù)域包括門診和急診患者全量醫(yī)療數(shù)據(jù)、住院患者全量醫(yī)療數(shù)據(jù)、生物樣本庫數(shù)據(jù)、醫(yī)療設(shè)備和儀器數(shù)據(jù)、聯(lián)盟醫(yī)院全量數(shù)據(jù)、穿戴設(shè)備全量數(shù)據(jù)等,并將這些數(shù)據(jù)按患者、醫(yī)療實(shí)體對象管理、醫(yī)療事件等閉環(huán)業(yè)務(wù)數(shù)據(jù)鏈進(jìn)行組織和邏輯存儲。
圖2 臨床科研中心架構(gòu)圖解
對非結(jié)構(gòu)化數(shù)據(jù),進(jìn)入數(shù)據(jù)中心,即存儲結(jié)構(gòu)化處理后的數(shù)據(jù),又存儲原始的非結(jié)構(gòu)化數(shù)據(jù),以方便數(shù)據(jù)的利用。對醫(yī)療影像數(shù)據(jù)可以通過與PACS 系統(tǒng)建立數(shù)據(jù)交互的模式,數(shù)據(jù)中心只存儲影像的索引信息而達(dá)到影像數(shù)據(jù)的共享,以減少存儲的投入成本。
專病數(shù)據(jù)庫的建立是為專病研究的需要,以專病的數(shù)據(jù)模型為核心,從全量數(shù)據(jù)中心抽取專病的數(shù)據(jù)而形成,并建立起數(shù)據(jù)自動增量更新的機(jī)制,保證專病科研數(shù)據(jù)庫數(shù)據(jù)的完整性與及時(shí)性。專病科研數(shù)據(jù)庫是交由科研的管理人員,在授權(quán)的前提下,以診療決策路徑為基礎(chǔ)建立起數(shù)據(jù)模型后,利用數(shù)據(jù)平臺提供的數(shù)據(jù)提取功能自行從全量數(shù)據(jù)中心提取,并根據(jù)科研的需求和科研人員安排,建立起專病科研數(shù)據(jù)應(yīng)用的管理體系,包括數(shù)據(jù)授權(quán)、數(shù)據(jù)訪問日志、數(shù)據(jù)質(zhì)量審查等。
數(shù)據(jù)服務(wù)分為3 類: ①基于微服務(wù)架構(gòu)的,可以直接提供給其他系統(tǒng)進(jìn)行界面嵌入,一個(gè)較完整的業(yè)務(wù)組件服務(wù),按照一定的業(yè)務(wù)域需求,利用數(shù)據(jù)中心底層的各種資源和能力,直接將需求填封裝一個(gè)個(gè)可以直接使用的業(yè)務(wù)功能;②接口服務(wù),將數(shù)據(jù)中心的數(shù)據(jù)或能力組織成一個(gè)個(gè)的包含特定功能的接口供上層應(yīng)用調(diào)用;③開發(fā)服務(wù),主要是將底層的數(shù)據(jù)資源、計(jì)算資源通過接口的形式提供給應(yīng)用層進(jìn)行開發(fā),這一層服務(wù)開放的粒度更細(xì),方便應(yīng)用進(jìn)行深層次的應(yīng)用數(shù)據(jù)中心的各種資源。
基于臨床科研中心搭建的各個(gè)專病數(shù)據(jù)庫和提供的數(shù)據(jù)服務(wù),可以直接應(yīng)用于臨床應(yīng)用,如臨床決策支持系統(tǒng)是一個(gè)基于臨床知識庫的人機(jī)交互醫(yī)療信息技術(shù)應(yīng)用系統(tǒng),它把散布于各個(gè)系統(tǒng)的數(shù)據(jù)按不同專業(yè)關(guān)注點(diǎn)進(jìn)行整合及區(qū)分,實(shí)現(xiàn)數(shù)據(jù)的抽提、加工和轉(zhuǎn)換,通過數(shù)據(jù)、模型等輔助完成臨床決策[14]。如合理用藥系統(tǒng)也是一個(gè)基于知識庫的臨床用藥輔助系統(tǒng),可以結(jié)合系統(tǒng)知識庫與人工智能規(guī)則設(shè)定,對用藥安全做到事前監(jiān)測、事中控制、事后分析,全方位為用藥安全提供保障。也可以根據(jù)數(shù)據(jù)挖掘分析的結(jié)果優(yōu)化醫(yī)療流程,如分析歷史路徑數(shù)據(jù),根據(jù)分析結(jié)果調(diào)整路徑階段設(shè)置和路徑項(xiàng)目設(shè)置,實(shí)現(xiàn)臨床路徑的持續(xù)優(yōu)化。還可以衍生出基于數(shù)據(jù)分析的應(yīng)用,如基于患者的全病程數(shù)據(jù),采用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和自然語言處理技術(shù),對數(shù)據(jù)進(jìn)行挖掘分析和患者診療路徑關(guān)鍵指標(biāo)結(jié)果,提取患者的特征,采用可視化技術(shù),形成患者畫像,對患者可能患病進(jìn)行精準(zhǔn)預(yù)測。
臨床科研中心的建設(shè),可以借助專病數(shù)據(jù)庫挖掘疾病特征,支撐疾病病因探索的各種流行病學(xué)研究及臨床輔助決策,可以發(fā)揮優(yōu)質(zhì)醫(yī)療資源優(yōu)勢,輻射帶動區(qū)域及聯(lián)盟體內(nèi)各級醫(yī)療衛(wèi)生機(jī)構(gòu)的醫(yī)療水平提升,服務(wù)于院前、院中、院后、科研、教學(xué)及管理6 大業(yè)務(wù)場景,改善與提高整體醫(yī)療質(zhì)量,提升臨床科研能力,提升醫(yī)院的整體綜合實(shí)力,最終為醫(yī)療及其聯(lián)盟機(jī)構(gòu)的相關(guān)業(yè)務(wù)人員建立起有效的業(yè)務(wù)協(xié)作機(jī)制。