萬程 顧宜卿 張昕 夏偉 郁蕓
[摘 要] 隨著現(xiàn)代信息化技術(shù)的發(fā)展,醫(yī)學(xué)事業(yè)與計(jì)算機(jī)行業(yè)的逐步交叉,醫(yī)學(xué)信息學(xué)相關(guān)專業(yè)由此產(chǎn)生。醫(yī)學(xué)信息工程專業(yè)的教學(xué)應(yīng)與實(shí)際臨床大數(shù)據(jù)緊密結(jié)合。面向醫(yī)學(xué)信息工程等專業(yè)課堂實(shí)踐教學(xué)需求,開展了學(xué)生關(guān)于臨床大數(shù)據(jù)學(xué)習(xí)態(tài)度的調(diào)研。根據(jù)調(diào)研結(jié)果基于通用數(shù)據(jù)模型(CDM)和隨機(jī)化仿真化技術(shù),生成了大規(guī)模核心臨床仿真大數(shù)據(jù)集合,開拓創(chuàng)新地設(shè)計(jì)了跨課程融通的仿真臨床大數(shù)據(jù)教學(xué)平臺,并將其應(yīng)用于實(shí)際教學(xué),為學(xué)生開展科研培訓(xùn)提供了可靠的訓(xùn)練方式,教學(xué)效果得到了明顯提升。
[關(guān)鍵詞] 通用數(shù)據(jù)模型;仿真臨床大數(shù)據(jù);教學(xué)平臺
[基金項(xiàng)目] 2019年度南京醫(yī)科大學(xué)教育教學(xué)研究課題“基于CDM的仿真臨床大數(shù)據(jù)平臺的建設(shè)與應(yīng)用”(2019LX072)
[作者簡介] 萬 程(1979—),女,江蘇南京人,碩士,南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程與信息學(xué)院講師,主要從事醫(yī)學(xué)信息學(xué)研究;顧宜卿(2002—),女,江蘇蘇州人,南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程與信息學(xué)院2020級智能醫(yī)學(xué)與工程專業(yè)本科生,研究方向?yàn)獒t(yī)學(xué)信息學(xué);郁 蕓(1979—),女,江蘇南通人,碩士,南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程與信息學(xué)院副教授(通信作者),主要從事醫(yī)學(xué)圖像處理研究。
[中圖分類號] G434? ?[文獻(xiàn)標(biāo)識碼] A? ?[文章編號] 1674-9324(2021)50-0137-04? ? [收稿日期] 2021-04-25
一、引言
醫(yī)學(xué)信息工程是一門以信息科學(xué)和生命科學(xué)為主的多學(xué)科交叉與融合的新興綜合性學(xué)科[1]。近幾年來,醫(yī)療健康大數(shù)據(jù)的維度、廣度和深度都迅速增長。臨床大數(shù)據(jù)驅(qū)動的醫(yī)學(xué)新時代將引領(lǐng)醫(yī)學(xué)研究和實(shí)踐的轉(zhuǎn)型升級,推進(jìn)醫(yī)療衛(wèi)生產(chǎn)業(yè)創(chuàng)新發(fā)展[2,3]。
但是,真實(shí)的臨床大數(shù)據(jù)來源于患者醫(yī)院就診的觀察數(shù)據(jù),涉及患者個人信息等隱私問題,再加上部分臨床數(shù)據(jù)的不完整性、冗余性和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,這些信息往往不能直接用于相關(guān)課程的教學(xué)和實(shí)踐活動。因此,迫切需要建設(shè)一個與真實(shí)臨床大數(shù)據(jù)相近的仿真數(shù)據(jù)平臺,將臨床大數(shù)據(jù)抽取、清理、集成并合理轉(zhuǎn)換,使其適用于醫(yī)學(xué)信息工程等醫(yī)學(xué)相關(guān)專業(yè)學(xué)生的教學(xué)學(xué)習(xí)。
二、方法
(一)通用數(shù)據(jù)模型OHDSI CDM
臨床診療數(shù)據(jù)伴隨治愈患者的目的產(chǎn)生,而研究數(shù)據(jù)旨在發(fā)現(xiàn)疾病的一般規(guī)律。不同的目的使得分散在多個業(yè)務(wù)系統(tǒng)(如HIS、LIS、PACS等)中的診療數(shù)據(jù)無法直接進(jìn)入臨床科研數(shù)據(jù)庫[4]。
觀察性健康醫(yī)療數(shù)據(jù)科學(xué)與信息學(xué)(Observational Health Data Sciences and Informatics,OHDSI)計(jì)劃,是一個由美國哥倫比亞大學(xué)發(fā)起的,世界性的公益型非盈利研究聯(lián)盟,主要研究全方位醫(yī)學(xué)大數(shù)據(jù)分析的開源解決方案,旨在通過大規(guī)模數(shù)據(jù)分析和挖掘來提升臨床醫(yī)學(xué)數(shù)據(jù)價值,實(shí)現(xiàn)跨學(xué)科、跨行業(yè)的多方合作[5]。
通用數(shù)據(jù)模型(CommonData Model,CDM)是一種標(biāo)準(zhǔn)化的臨床數(shù)據(jù)描述模型。此過程構(gòu)建以定義數(shù)據(jù)之間相互關(guān)系的通用模型,描述特定信息字段中的概念,以便獲得可以在該領(lǐng)域即臨床數(shù)據(jù)中具有概括意義的結(jié)果。在CDM的基礎(chǔ)上,對臨床大數(shù)據(jù)進(jìn)行整理后,可以使用相同的分析程序在不同的機(jī)構(gòu)內(nèi)進(jìn)行臨床大數(shù)據(jù)分析。進(jìn)一步地,可以通過標(biāo)準(zhǔn)化整合,得出多中心的、更大范圍的、多數(shù)據(jù)源的觀察性研究結(jié)論[6]。
在OHDSI的CDM中,由概念表示具體內(nèi)容,從而使各個臨床信息系統(tǒng)的數(shù)據(jù)規(guī)范化,可以實(shí)現(xiàn)對真實(shí)醫(yī)學(xué)臨床大數(shù)據(jù)的初步篩選。
(二)匿名化與隨機(jī)化仿真
由于患者就診數(shù)據(jù)屬于個人隱私范疇,必須通過去隱私化處理,才可以應(yīng)用于教學(xué)過程。匿名化及隨機(jī)仿真是常見的指刪除或修改數(shù)據(jù)擁有者的個人信息,以及帶有敏感屬性的明確標(biāo)識符[7],是數(shù)據(jù)處理中有效保護(hù)隱私信息的技術(shù)方法之一。然而,現(xiàn)有的技術(shù)大多是先刪除身份標(biāo)識屬性,在此過程中,丟失部分的信息可能會影響正常運(yùn)作[8]。本文圍繞慢性病患者的疾病風(fēng)險預(yù)測分析,通過匿名化與隨機(jī)化技術(shù),建立符合真實(shí)的疾病規(guī)律和特征的仿真就診記錄,便于面向慢性疾病的臨床大數(shù)據(jù)研究及其他相關(guān)工作。
匿名化與隨機(jī)化對臨床數(shù)據(jù)進(jìn)行仿真過程主要包括以下步驟:第一,通過隨機(jī)化映射,在脫敏后的數(shù)據(jù)集增加仿真的患者個人信息,填補(bǔ)缺漏數(shù)據(jù),使得在保護(hù)患者真實(shí)隱私數(shù)據(jù)后,仍可以正常進(jìn)行對疾病數(shù)據(jù)的初步研究。第二,通過時間軌跡映射,虛擬化就診數(shù)據(jù)的時序信息,對患者的真實(shí)就診時間進(jìn)行調(diào)整重排,隨機(jī)且合理設(shè)置仿真時間。第三,通過臨床特征映射,進(jìn)行檢驗(yàn)樣本的虛擬化,在保護(hù)重要特征樣本的同時保留數(shù)據(jù)集中蘊(yùn)含的臨床特征。
在仿真過程中,首先將患者的個人信息按性別、年齡(每10年為1組)分層,每層中分別再各自采用回歸預(yù)測方法(regression predict method)建立預(yù)測模型,傾向得分法(Propensity Score Method)計(jì)算原理及其受到干預(yù)的可能性,再用蒙特卡羅的馬爾科夫鏈方法(Markov Chain Monte Carlo,MCMC)隨機(jī)化分析處理變量,對原先臨床信息樣本中缺失的數(shù)據(jù)采用多重插補(bǔ)法進(jìn)行10次插補(bǔ),并形成5個獨(dú)立同分布的仿真數(shù)據(jù)集。
(三)調(diào)查對象與方法
1.調(diào)查對象:南京醫(yī)科大學(xué)、徐州醫(yī)科大學(xué)、江蘇衛(wèi)生健康學(xué)院等醫(yī)學(xué)相關(guān)院校部分學(xué)生,共680名。其中男生250名,占總?cè)藬?shù)的36.8%,女生430名,占總?cè)藬?shù)的63.2%。大一學(xué)生413名,大二學(xué)生154名,大三學(xué)生65名,大四學(xué)生11名,大五學(xué)生7名,研究生及以上30名。醫(yī)學(xué)相關(guān)專業(yè)學(xué)生380名,醫(yī)學(xué)信息學(xué)及智能醫(yī)學(xué)專業(yè)學(xué)生79名,其他專業(yè)學(xué)生221名。
2.調(diào)查方法:通過問卷星平臺發(fā)放“關(guān)于人工智能結(jié)合醫(yī)學(xué)學(xué)習(xí)的調(diào)查”,生成問卷二維碼邀請學(xué)生掃描后獨(dú)立填寫。本次調(diào)查共回收680份問卷,其中有效問卷680份,有效率100%。問卷調(diào)查結(jié)束后,使用SPSS進(jìn)行相關(guān)統(tǒng)計(jì)分析。
3.調(diào)查內(nèi)容:調(diào)查問卷主要包括三方面:(1)學(xué)生對臨床大數(shù)據(jù)基本知識的了解程度;(2)學(xué)生課堂學(xué)習(xí)與教師教學(xué)模式;(3)學(xué)生學(xué)習(xí)結(jié)合臨床大數(shù)據(jù)的興趣及需求情況。
三、結(jié)果
(一)大規(guī)模仿真教學(xué)數(shù)據(jù)集CDM_SADT
本研究采集了南京醫(yī)科大學(xué)附屬第一醫(yī)院,即江蘇省人民醫(yī)院自2008年1月至2017年6月期間,就診的糖尿病患者的去隱私化和匿名化脫敏CDM數(shù)據(jù),以診療過程為中心,采用上述匿名化與隨機(jī)化仿真方法,建立核心臨床仿真大數(shù)據(jù)集合CDM_SADT(CDM Based Simulated Anonymized Dataset for Teaching)。該集合共包括148624位患者的就診記錄,根據(jù)常用的疾病分析與預(yù)測模型的需求[9],篩選了21項(xiàng)常用的結(jié)構(gòu)化變量和3項(xiàng)非結(jié)構(gòu)化信息,包括患者的基本信息、既往病史、家族史、用藥史、檢驗(yàn)檢查記錄等。
(二)跨課程融通的仿真臨床大數(shù)據(jù)平臺SADT_CIDP
南京醫(yī)科大學(xué)于2018年成立了醫(yī)學(xué)信息與工程專業(yè),并于2020年更新為智能醫(yī)學(xué)與工程專業(yè)。該專業(yè)以現(xiàn)代醫(yī)學(xué)和生物學(xué)理論為基礎(chǔ),結(jié)合大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等相關(guān)工程技術(shù),強(qiáng)調(diào)醫(yī)工結(jié)合的多元復(fù)合型人才培養(yǎng),采用多模式教學(xué),主要研究醫(yī)學(xué)信息學(xué)、自然語言處理、醫(yī)學(xué)人工智能等領(lǐng)域。
該專業(yè)開設(shè)了多門醫(yī)學(xué)與數(shù)據(jù)科學(xué)、計(jì)算機(jī)科學(xué)相交叉的專業(yè)類課程。在構(gòu)建好的核心數(shù)據(jù)集的基礎(chǔ)上,根據(jù)不同課程的需求分別建立了跨課程融通的仿真臨床大數(shù)據(jù)平臺SADT_CIDP(SADT Based Cross-curriculum Integrated Data Platform),以滿足跨課程融通的臨床數(shù)據(jù)分析教學(xué)要求。該平臺包括四種數(shù)據(jù)集,各數(shù)據(jù)集與課程的相關(guān)性見圖1。
面向自然語言處理課程的非結(jié)構(gòu)化電子病歷仿真數(shù)據(jù)集(NLP_EHR,Simulated Natural Language Processing Dataset Based on Simulated Electric Health Record),服務(wù)于“醫(yī)學(xué)知識表示與處理”“自然語言處理與醫(yī)學(xué)應(yīng)用”課程,主要被應(yīng)用于臨床病歷特征提取、公共健康信息分析、智能健康問答等領(lǐng)域。
面向數(shù)據(jù)庫管理課程的關(guān)系型臨床觀察數(shù)據(jù)庫(RD_CDM,Relational Database Based on Commen Data Model),服務(wù)于“數(shù)據(jù)庫管理與應(yīng)用”類課程,提供仿真臨床觀察性數(shù)據(jù)庫,培養(yǎng)學(xué)生對觀察性健康醫(yī)療數(shù)據(jù)的數(shù)據(jù)庫管理能力。
面向統(tǒng)計(jì)類課程的疾病風(fēng)險預(yù)測結(jié)構(gòu)化數(shù)據(jù)集(SD_DRP,Structured Dataset Based on Disease Risk Prediction),服務(wù)于醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程,豐富了課程的實(shí)例數(shù)據(jù),擴(kuò)展了問題導(dǎo)向的案例教學(xué)的案例集。
面向“智能”類課程的多模態(tài)融合數(shù)據(jù)集(MFD_EHR,Multimodality Fusion Dataset Based on Imulated Electric Health Record),服務(wù)于程序設(shè)計(jì)、深度學(xué)習(xí)與醫(yī)學(xué)應(yīng)用、計(jì)算機(jī)視覺、醫(yī)學(xué)大數(shù)據(jù)導(dǎo)論等課程,融合了來源于CDM的結(jié)構(gòu)化數(shù)據(jù)、來源于EHR脫敏后的自然語言文本和醫(yī)學(xué)影像數(shù)據(jù),為學(xué)生提供深度多模態(tài)數(shù)據(jù)的疾病風(fēng)險預(yù)測案例,為學(xué)生開展研究性學(xué)習(xí)提供條件。
綜上所述,不同學(xué)科的教學(xué)均可通過該平臺調(diào)用不同類型格式的仿真臨床大數(shù)據(jù)集針對性進(jìn)行課堂實(shí)踐運(yùn)用。
(三)學(xué)習(xí)態(tài)度調(diào)查
據(jù)問卷調(diào)查統(tǒng)計(jì),185名學(xué)生在學(xué)習(xí)人工智能相關(guān)課程中使用過基于真實(shí)臨床大數(shù)據(jù)的數(shù)據(jù)集,僅占總?cè)藬?shù)的27.2%。90.4%的學(xué)生提出有興趣參與基于仿真臨床大數(shù)據(jù)的人工智能與臨床醫(yī)學(xué)的交叉研究,97.6%的學(xué)生認(rèn)為使用仿真臨床大數(shù)據(jù)來開展基于案例的課程學(xué)習(xí)十分有必要(見表1)。由此可知,學(xué)生對于使用仿真臨床數(shù)據(jù)輔助課程學(xué)習(xí)的想法十分強(qiáng)烈。另外,56%的學(xué)生也認(rèn)為在學(xué)習(xí)人工智能相關(guān)知識時,實(shí)驗(yàn)中使用的數(shù)據(jù)集規(guī)模應(yīng)盡量接近真實(shí)臨床大數(shù)據(jù),此時經(jīng)過特定處理的仿真臨床大數(shù)據(jù)教學(xué)平臺就為數(shù)據(jù)集的選擇增加了可能性。
(四)教學(xué)應(yīng)用實(shí)踐
在智能醫(yī)學(xué)工程專業(yè)的“程序設(shè)計(jì)基礎(chǔ)(Python)”課程的教學(xué)中,課堂基于仿真臨床大數(shù)據(jù)教學(xué)平臺設(shè)計(jì)了教學(xué)案例——基于既往病史文本的發(fā)病年份的提取與分析。在該案例中,運(yùn)用Python讀取病歷中的文本,再使用正則表達(dá)式提取患者發(fā)病年份,并計(jì)算程序的準(zhǔn)確率,再進(jìn)一步運(yùn)用matplotlib庫繪圖使結(jié)構(gòu)數(shù)據(jù)可視化。學(xué)生在學(xué)習(xí)用Python程序?qū)xt文本文件處理的同時又真正接觸了接近真實(shí)的臨床大數(shù)據(jù),做到了課堂教學(xué)與實(shí)踐練習(xí)的有效結(jié)合。
通過課后調(diào)查得知,個別學(xué)生認(rèn)為完成基于臨床數(shù)據(jù)的程序設(shè)計(jì)案例存在一定的挑戰(zhàn)性,但是90%以上的學(xué)生仍然都認(rèn)同,采用基于臨床數(shù)據(jù)進(jìn)行程序設(shè)計(jì)的學(xué)習(xí),比采用普通的數(shù)據(jù)進(jìn)行程序設(shè)計(jì)而言更有助于對專業(yè)課程的學(xué)習(xí)。
四、討論
用于多門數(shù)據(jù)分析相關(guān)課程的實(shí)踐教學(xué)平臺為南京醫(yī)科大學(xué)的醫(yī)學(xué)信息工程等專業(yè)多門專業(yè)課程的教學(xué)提供了融通的數(shù)據(jù)平臺,能滿足多種復(fù)雜的教學(xué)需求。平臺建設(shè)應(yīng)用實(shí)踐證明,仿真臨床大數(shù)據(jù)教學(xué)有助于提高學(xué)生對課堂教學(xué)內(nèi)容的理解程度,接觸臨床數(shù)據(jù)也為學(xué)生學(xué)習(xí)增強(qiáng)了模擬效果??傊?,該仿真數(shù)據(jù)平臺較好地處理了運(yùn)用臨床大數(shù)據(jù)在教學(xué)過程中存在的隱私保護(hù)和數(shù)據(jù)安全問題,為學(xué)生開展科研培訓(xùn)提供了可靠的訓(xùn)練方式。因此,我們將進(jìn)一步建設(shè)為我校醫(yī)工交叉的其他專業(yè)學(xué)生培養(yǎng)所需的大數(shù)據(jù)分析的綜合數(shù)據(jù)平臺,使臨床大數(shù)據(jù)在教學(xué)中發(fā)揮其應(yīng)有的作用。
(課題組成員:萬程、顧宜卿、張昕、夏偉、郁蕓、周高信、王俊杰、胡杰)
參考文獻(xiàn)
[1]王能河,阮若林,彭微.醫(yī)學(xué)信息工程專業(yè)教育發(fā)展戰(zhàn)略探究[J].黑龍江教育(高教研究與評估),2016(7):11-13.
[2]李慧杰,張晴晴,劉瑞紅,等.大數(shù)據(jù)背景下臨床專病數(shù)據(jù)庫建設(shè)實(shí)踐與思考[J].中國衛(wèi)生事業(yè)管理,2020,37(8):574-576+591.
[3]葉永飛,張曉,趙志升.大數(shù)據(jù)環(huán)境下的醫(yī)學(xué)信息學(xué)專業(yè)課程建設(shè)[J].課程教育研究,2015(3):76-77.
[4]李丹彤,梁會營,劉廣建.臨床科研數(shù)據(jù)庫建設(shè)中的數(shù)據(jù)標(biāo)準(zhǔn)化問題探討[J].中國數(shù)字醫(yī)學(xué),2021,16(1):29-34.
[5]張昕,繆姝妹,戴作雷,等.臨床數(shù)據(jù)向通用數(shù)據(jù)模型轉(zhuǎn)換研究及應(yīng)用實(shí)踐[J].中國數(shù)字醫(yī)學(xué),2018,13(10):64-67.
[6]Association AD. 8. Cardiovascular disease and risk man- agemen[J].Diabetes care,2016(39):S60-S71.
[7]程德生,萬晶,宋國彩,等.中醫(yī)藥大數(shù)據(jù)云服務(wù)平臺的醫(yī)療數(shù)據(jù)安全隱私保護(hù)設(shè)計(jì)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(2):122-124.
[8]史婷瑤,馬金剛,曹慧,等.醫(yī)療大數(shù)據(jù)隱私保護(hù)技術(shù)的研究進(jìn)展[J].中國醫(yī)療設(shè)備,2019,34(5):163-166.
[9]Yusuf S, Joseph P, Rangarajan S, et al. Modifiable risk factors, cardiovascular disease, and mortality in 155 722 individuals from 21 high-income, middle-income, and low-income countries (PURE): a prospective cohort study[J].The Lancet,2020,395(10226):795-808.