施婉玲,張美吉,李凡珂,謝文明
(福建中醫(yī)藥大學(xué)附屬人民醫(yī)院瘡瘍蛇傷脈管外科,福建 福州 350000)
據(jù)世界衛(wèi)生組織統(tǒng)計(jì),至2019 年,全球有約540 萬例毒蛇咬傷,其中180 萬~270 萬例發(fā)生了中毒,導(dǎo)致8.1 萬~13.8 萬人死亡[1]。我國有毒蛇80 多種,劇毒蛇20 種,主要分布在長江以南地區(qū),每年毒蛇咬傷達(dá)10 萬人次,其中73%為中青年,蛇傷死亡率為5%~10%,蛇傷致殘喪失勞動能力者占25%~30%[2,3]。福建蛇類繁多,數(shù)量亦甚,與人類的生活息息相關(guān)。據(jù)調(diào)查[4],福建地區(qū)現(xiàn)有已知蛇類86 種,隸屬7 科45 屬,在全國蛇類總種數(shù)的219 種中占39.27%,種類數(shù)居全國第3 位。其中毒蛇32 種,居全國毒蛇總數(shù)首位。由于受醫(yī)療條件的限制,患者不能及時得到準(zhǔn)確的診斷而耽誤治療,導(dǎo)致殘廢,甚至喪生。我院為福建省蛇傷急救中心、國家級福建黃氏蛇傷學(xué)術(shù)流派傳承工作室建設(shè)單位,已在全省各地市搭建了10 個二級蛇傷工作站。中心每年收治大量毒蛇咬傷患者,為探索毒蛇咬傷患者診療數(shù)據(jù)的匯集方法,構(gòu)建毒蛇咬傷專病數(shù)據(jù)庫,在實(shí)時對接醫(yī)院系統(tǒng)數(shù)據(jù)的基礎(chǔ)上,通過數(shù)據(jù)標(biāo)準(zhǔn)化、結(jié)構(gòu)化、歸一化等數(shù)據(jù)治理,形成對醫(yī)療全量數(shù)據(jù)的匯集,并基于國內(nèi)外臨床指南、高分文獻(xiàn)、專家臨床經(jīng)驗(yàn)等篩選變量,形成高標(biāo)準(zhǔn)的蛇傷專病數(shù)據(jù)集,以期為福建省毒蛇傷咬傷流行特征分析及防治策略研究提供平臺,更好地指導(dǎo)各地市二級工作站的蛇傷救治,同時助力科研成果轉(zhuǎn)化。
在傳統(tǒng)的臨床科研過程中,科研人員將28%的時間花費(fèi)在病例篩選上,41%的時間花費(fèi)在數(shù)據(jù)提取上,并手工將數(shù)據(jù)錄入科研數(shù)據(jù)庫。這種傳統(tǒng)的數(shù)據(jù)采集方式不僅耗時費(fèi)力,性價比低[5],而且存在諸多問題,如病歷搜索不方便耗時費(fèi)力、數(shù)據(jù)質(zhì)量不高難以直接便用、需持續(xù)的人工成本支出、數(shù)據(jù)標(biāo)準(zhǔn)更新迭代時需重新手工補(bǔ)錄數(shù)據(jù)、數(shù)據(jù)真實(shí)性難以驗(yàn)證、同樣數(shù)據(jù)復(fù)用于多項(xiàng)研究時需重新錄入等問題,見圖1。
圖1 傳統(tǒng)數(shù)據(jù)采集存在問題
為節(jié)省科研人員時間,幫助臨床科研人員擺脫傳統(tǒng)科研數(shù)據(jù)采集提取的困難,我院在現(xiàn)有臨床業(yè)務(wù)系統(tǒng)的基礎(chǔ)之上,利用人工智能技術(shù),完成臨床數(shù)據(jù)的集成和治理,建立臨床數(shù)據(jù)中心,形成用于蛇傷科研項(xiàng)目的專病數(shù)據(jù)庫。系統(tǒng)架構(gòu)見圖2。
3.1 制定專病標(biāo)準(zhǔn)數(shù)據(jù)集 根據(jù)實(shí)際科研需求,以CDISC 數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)[6],參考國內(nèi)外相關(guān)蛇傷數(shù)據(jù)模型及數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行整理,并完成數(shù)據(jù)變量IT 標(biāo)準(zhǔn)的定義,包括:數(shù)據(jù)元的命名、定義、數(shù)據(jù)類型、值域、等級、來源等,去除相似數(shù)據(jù)元以保證內(nèi)容無沖突,去除非法字符以保證內(nèi)容正確性,最后將數(shù)據(jù)元按照架構(gòu)和分類統(tǒng)一編碼。最終確認(rèn)了包括618 個字段的33 個數(shù)據(jù)表,包含蛇咬傷信息、基本信息/人口學(xué)資料、就診信息、轉(zhuǎn)科信息、診斷信息、診療費(fèi)用、癥狀信息、中醫(yī)四診信息、中醫(yī)辨證信息、體格檢查、??茩z查、既往情況、家族病史、過敏史、生活習(xí)慣、實(shí)驗(yàn)室檢查、心電圖檢查、影像學(xué)檢查、中醫(yī)治則治法、中醫(yī)治療信息、西醫(yī)治療信息、不良事件記錄等,構(gòu)建了蛇傷專病標(biāo)準(zhǔn)數(shù)據(jù)集。在此基礎(chǔ)之上,確定了患者入組的納排條件,實(shí)現(xiàn)蛇傷專病庫上線后符合條件的患者數(shù)據(jù)自動填入專病數(shù)據(jù)庫,見圖3。
圖3 蛇傷專病庫建設(shè)流程
3.2 基于醫(yī)學(xué)人工智能的專病數(shù)據(jù)自動采集
3.2.1 數(shù)據(jù)集成 采用基于容器技術(shù)的分布式架構(gòu)Kubernetes(k8s)部署,Kubernetes 集群技術(shù)是一個容器編排引擎,支持自動化部署、大規(guī)??缮炜s、應(yīng)用容器化管理,滿足擴(kuò)展要求、故障轉(zhuǎn)移、部署模式等[7]。采用PostgreSQL 的大規(guī)模并行數(shù)據(jù)庫。具有較高的性能與穩(wěn)定性[8],可以支持到數(shù)PB 的海量數(shù)據(jù)。
實(shí)時數(shù)據(jù)集成方案:針對我院的實(shí)際情況,確定實(shí)時數(shù)據(jù)通過數(shù)據(jù)庫數(shù)據(jù)變化日志實(shí)時捕獲數(shù)據(jù)。具體解決方案為:①Oracle:Data Guard 主從備份(支持1 主多從)+異步在線日志CDC(數(shù)據(jù)變更捕獲);②Sql server:數(shù)據(jù)庫復(fù)制+CDC;③Cache:數(shù)據(jù)庫鏡像shadow 庫,見圖4。
圖4 實(shí)時數(shù)據(jù)集成
歷史數(shù)據(jù)集成方案:Oracle/SqlServer。為了降低對實(shí)時數(shù)據(jù)集成的影響,制定本集成方案進(jìn)行大量歷史數(shù)據(jù)的集成工作。在歷史數(shù)據(jù)抽取步驟,采用從備份數(shù)據(jù)庫中。通過ETL 技術(shù)實(shí)現(xiàn)臨床數(shù)據(jù)抽取[9],見圖5。
圖5 非實(shí)時(歷史數(shù)據(jù))集成
通過臨床數(shù)據(jù)中心集成了HIS、LIS、EMR、PACS、手術(shù)麻醉系統(tǒng)等多個臨床業(yè)務(wù)系統(tǒng)的數(shù)據(jù)[10],并依據(jù)數(shù)據(jù)治理的復(fù)雜程度。對上述618 個字段進(jìn)行了分類,其中273 個字段為L1 級別,即可以通過單一數(shù)據(jù)來源直接利用數(shù)據(jù)字典映射填充的結(jié)構(gòu)化數(shù)據(jù),包括人口學(xué)統(tǒng)計(jì)學(xué)信息、既往治療情況、就診情況等。利用自然語言處理技術(shù)可以完成90.77%的字段填充。264 個字段為L2 級別,即需要利用自然語言處理(NLP)技術(shù)對非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化和標(biāo)準(zhǔn)化處理,結(jié)合臨床、藥學(xué)、檢查檢驗(yàn)等醫(yī)療專業(yè)詞庫。通過分析上下文關(guān)系構(gòu)建多層級語義分析模型,找出文本中不同實(shí)體、屬性、關(guān)系之間的關(guān)聯(lián)信息,實(shí)現(xiàn)結(jié)構(gòu)化轉(zhuǎn)換;再通過數(shù)據(jù)字典映射進(jìn)行字段填充,包括來自EMR 系統(tǒng)的主訴癥狀、手術(shù)記錄、家族腫瘤病史。利用自然語言處理技術(shù)可以完成83.71%的字段填充。81 個字段為L3 級別,即需要利用臨床規(guī)則。通過對多個來源的字段進(jìn)行復(fù)雜邏輯運(yùn)算后填充,利用自然語言處理技術(shù)可以完成98%的字段填充。
3.2.2 數(shù)據(jù)治理及質(zhì)控 蛇傷專病庫核心技術(shù)是臨床數(shù)據(jù)治理引擎?;谙冗M(jìn)的自然語言處理、知識圖譜等AI 引擎,實(shí)現(xiàn)各類臨床數(shù)據(jù)的結(jié)構(gòu)化、標(biāo)準(zhǔn)化和歸一化等處理。針對數(shù)據(jù)驅(qū)動的臨床研究場景,能夠?qū)⑨t(yī)院積存的海量臨床數(shù)據(jù)自動結(jié)構(gòu)化、標(biāo)準(zhǔn)化成可被臨床研究直接分析、利用的科研數(shù)據(jù)。
引擎基于通用數(shù)據(jù)模型及各類型蛇傷專病數(shù)據(jù)模型,對臨床文本數(shù)據(jù)做顆?;⒑蠼Y(jié)構(gòu)化處理。運(yùn)用人工智能結(jié)合醫(yī)學(xué)知識圖譜自動轉(zhuǎn)化非結(jié)構(gòu)化文本數(shù)據(jù)[11],以滿足回顧性查詢所需的數(shù)據(jù)細(xì)化程度。同時針對提取出的醫(yī)學(xué)信息,結(jié)合醫(yī)學(xué)知識圖譜自動完成數(shù)據(jù)的標(biāo)準(zhǔn)化,進(jìn)一步提升數(shù)據(jù)的可用性、可交互性。
數(shù)據(jù)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化是通過醫(yī)學(xué)術(shù)語建設(shè)、標(biāo)準(zhǔn)化術(shù)語基線與分類建設(shè),以及標(biāo)準(zhǔn)化術(shù)語本體庫建設(shè)等,實(shí)現(xiàn)實(shí)體映射的一致,消除語義鴻溝[12]。包括:疾病術(shù)語標(biāo)準(zhǔn)化、藥品術(shù)語標(biāo)準(zhǔn)化、癥狀體征術(shù)語標(biāo)準(zhǔn)化、檢驗(yàn)/檢查術(shù)語標(biāo)準(zhǔn)化等。參照醫(yī)學(xué)術(shù)語系統(tǒng)命名法-臨床術(shù)語(Systematized Nomenclatureof Medicine -Clinical Terms,SNOMED CT)的設(shè)計(jì)理念,結(jié)合觀測指標(biāo)標(biāo)識符邏輯命名與編碼系統(tǒng)(Logical Observation Identifiers Names and Codes,LOINC)、《國際疾病分類》《手術(shù)編碼6.0 標(biāo)準(zhǔn)》等術(shù)語集,構(gòu)建符合國內(nèi)實(shí)際應(yīng)用場景的術(shù)語體系[13]標(biāo)準(zhǔn),見圖6。
圖6 醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)體系
后結(jié)構(gòu)化:針對病歷文本信息,以自然語言處理技術(shù)為基礎(chǔ),結(jié)合臨床、藥學(xué)、檢查檢驗(yàn)等醫(yī)療專業(yè)詞庫,通過分析上下文關(guān)系構(gòu)建多層級語義分析模型,找出文本中不同實(shí)體、屬性、關(guān)系之間的關(guān)聯(lián)信息,實(shí)現(xiàn)結(jié)構(gòu)化轉(zhuǎn)換,見圖7。
圖7 自然語言處理技術(shù)
數(shù)據(jù)質(zhì)控:數(shù)據(jù)采集和治理的過程中,對數(shù)據(jù)的完整性和規(guī)范性進(jìn)行實(shí)時質(zhì)控。通過發(fā)現(xiàn)數(shù)據(jù)缺失或異常值等問題,溯源至原始病歷,督促專病中心醫(yī)生規(guī)范病歷書寫,提高科研數(shù)據(jù)質(zhì)量,避免研究結(jié)果的偏倚或失真。
數(shù)據(jù)清洗:對質(zhì)量較差的數(shù)據(jù),可通過多維數(shù)據(jù)清洗功能,如標(biāo)簽、離散化、數(shù)據(jù)填補(bǔ)、自定義變量等,保證數(shù)據(jù)的準(zhǔn)確性及可靠性[14]。
專病數(shù)據(jù)建模:治理后的數(shù)據(jù),通過語義分析模型、醫(yī)療知識圖譜等,形成以疾病為中心、具有完整時間序列的專病數(shù)據(jù)庫,并可視化展現(xiàn)數(shù)據(jù)間深層關(guān)聯(lián)關(guān)系,為臨床研究提供更多可能方向。專病庫還支持導(dǎo)入醫(yī)師手工采集的課題數(shù)據(jù)(多為Excel表格式),經(jīng)結(jié)構(gòu)化處理、數(shù)據(jù)清洗及分析后,與中心端數(shù)據(jù)庫中原有數(shù)據(jù)融合,形成個性化的完整科研數(shù)據(jù)集。
從2021 年1 月起,經(jīng)過了6 個月的建設(shè),我院臨床數(shù)據(jù)中心完成了2012-2022 年全量醫(yī)療數(shù)據(jù)的篩選和抽取,蛇傷專病數(shù)據(jù)庫累計(jì)完成入庫患者2427 例,入庫病歷8322 萬份。
4.1 智能病歷篩選 蛇傷專病數(shù)據(jù)庫建設(shè)完成后,科研人員可以在科研平臺上按照科研需求通過年齡、診斷、檢查報(bào)告等多個維度對病歷進(jìn)行智能檢索和篩選,節(jié)省病歷數(shù)據(jù)篩選時間。
4.2 數(shù)據(jù)填充 建立科研項(xiàng)目后,蛇傷專病數(shù)據(jù)庫中已有數(shù)據(jù)可自動填充至專病科研項(xiàng)目中,科研人員也可以按需手動錄入和修改數(shù)據(jù),并保留數(shù)據(jù)提交、修改的稽查軌跡。與此同時,系統(tǒng)與科研人員都可以對科研數(shù)據(jù)進(jìn)行核查質(zhì)控。
4.3 數(shù)據(jù)導(dǎo)出 如有數(shù)據(jù)導(dǎo)出需求,可通過科研平臺的數(shù)據(jù)探索功能導(dǎo)出專病項(xiàng)目數(shù)據(jù),數(shù)據(jù)探索包括變量選擇,字段搜索,多變量互斥邏輯判定等功能,查詢結(jié)果導(dǎo)出格式可選擇Excel/CSV/SPSS/SAS。
4.4 統(tǒng)計(jì)分析 科研人員可利用科研平臺對數(shù)據(jù)進(jìn)行描述性分析、差異性分析或預(yù)測建模并形成可視化圖形展示。描述性分析方法包括頻數(shù)分析、缺失值分析、四分位分析和數(shù)據(jù)分布分析。差異性分析包括Pearson 卡方、Fisher 精準(zhǔn)概率、Wilcoxon 秩和檢驗(yàn)等分析模型。預(yù)測模型包括隨機(jī)森林回歸模型,線性回歸,樣本隨機(jī)化,二分類Logistic 等。
4.5 機(jī)器學(xué)習(xí) 科研人員可采集蛇傷患者數(shù)據(jù)利用機(jī)器學(xué)習(xí)算法建立蛇傷預(yù)測模型,可以預(yù)測患者生存和輔助治療的益處,以指導(dǎo)個性化的治療決策,最終的結(jié)果可以是一個數(shù)學(xué)方程,計(jì)算出在接受或不接受特定療法的情況下單個患者的生存曲線。
醫(yī)療大數(shù)據(jù)的利用與發(fā)展給醫(yī)療機(jī)構(gòu)及健康醫(yī)療模式都帶來了深刻變化,許多醫(yī)療機(jī)構(gòu)均在積極探索海量診療數(shù)據(jù)的挖掘與利用[15-18],希望通過專病數(shù)據(jù)庫的建設(shè),依托大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)處理等技術(shù),結(jié)合臨床診療、科研、管理等需求,構(gòu)建面向科研工作者、醫(yī)生、患者、管理人員的臨床科研一體化平臺,為提高醫(yī)療質(zhì)量、疾病防治、科研轉(zhuǎn)化提供支持[19,20]。基于具體臨床診療場景的需求,以專病數(shù)據(jù)庫為基礎(chǔ)建立蛇傷疾病風(fēng)險(xiǎn)預(yù)測模型,通過自動人工智能技術(shù)對變量進(jìn)行篩選,利用批量算法實(shí)驗(yàn)對模型進(jìn)行評估,找出最優(yōu)預(yù)測模型,為臨床醫(yī)生預(yù)測疾病風(fēng)險(xiǎn),輔助臨床監(jiān)測和治療提供支持。我院蛇傷專病數(shù)據(jù)庫的建設(shè)有助于提升醫(yī)生的科研效率,推動我院在蛇傷領(lǐng)域的科研工作,加速科研成果在臨床診療場景中落地應(yīng)用,形成臨床科研與臨床診療之間的良性反哺閉環(huán)——臨床診療為科研提供高質(zhì)量數(shù)據(jù),科研成果在臨床診療場景中落地應(yīng)用。此外,未來可將我院蛇傷專病數(shù)據(jù)集在全國范圍內(nèi)進(jìn)行推廣,專病標(biāo)準(zhǔn)數(shù)據(jù)集覆蓋診療全流程數(shù)據(jù),與實(shí)際業(yè)務(wù)場景和臨床路徑緊密相連,讓臨床和科研無縫銜接,在業(yè)務(wù)流程中完成科研數(shù)據(jù)收集,實(shí)現(xiàn)診療流程的數(shù)據(jù)標(biāo)準(zhǔn)化,為后續(xù)開展二級作站的多中心科研項(xiàng)目打下基礎(chǔ)。