許來雨,彭伶麗,周芳意
(中南大學湘雅醫(yī)院臨床護理學教研室,長沙市 410008)
電子病歷是一種醫(yī)學專用軟件,由一系列個人健康資料組成[1],包括文字、符號、圖標、數(shù)據(jù)以及影像等醫(yī)療服務工作記錄[2]。隨著網(wǎng)絡技術和信息技術的發(fā)展,電子病歷系統(tǒng)順應醫(yī)院計算機網(wǎng)絡化管理的發(fā)展趨勢,被廣泛應用。2017年12月,國家衛(wèi)健委指出醫(yī)療機構(gòu)應加強以門診及住院病歷為核心的綜合信息系統(tǒng)建設,利用大數(shù)據(jù)信息技術為醫(yī)療質(zhì)量控制、規(guī)范診療行為、調(diào)配醫(yī)療資源等提供支撐[3]?;陔娮硬v系統(tǒng)的風險預測模型是臨床決策支持系統(tǒng)的基礎,可以針對給定的一組患者特征快速計算其發(fā)生某種結(jié)局的風險[4],幫助醫(yī)護人員及時發(fā)現(xiàn)病情變化,采取針對性措施,改善患者結(jié)局[5]。筆者從使用電子病歷構(gòu)建風險預測模型的研究設計、優(yōu)勢及不足三個方面進行綜述,為未來醫(yī)療領域風險預測模型的構(gòu)建提供參考。
目前大多數(shù)風險預測模型以一個電子病歷數(shù)據(jù)集為基礎,回顧性納入病歷資料進行對比分析,前瞻性研究相對較少。
根據(jù)研究目標,在數(shù)據(jù)集中尋找需要的數(shù)據(jù),并對原始數(shù)據(jù)進行嚴格清洗、結(jié)構(gòu)化、標準化、質(zhì)量檢查。變量的缺失值會增加數(shù)據(jù)分析的難度,也可能會使最終結(jié)果存在偏差[6]。數(shù)據(jù)缺失的處理有多種方法,包括均值填補法、期望值最大化法、回歸填補法、多重填補法等,研究者根據(jù)不同的數(shù)據(jù)缺失特點具體選擇[7]。自然語言處理信息抽取技術是處理電子病歷的關鍵技術,有助于充分利用電子病歷中的非結(jié)構(gòu)化數(shù)據(jù)[8]。必要時進行人工分析和質(zhì)量控制,以保證最終數(shù)據(jù)質(zhì)量。
建立風險預測模型,需要確立風險因子和結(jié)局指標。識別風險因子主要有3種基本方法:(1)查閱相關文獻選取重要特征;(2)對數(shù)據(jù)集中的特征進行初步統(tǒng)計分析,確定與結(jié)局具有明顯相關性的特征;(3)由專家給出一些高度懷疑的特征。實踐過程中以三種方法結(jié)合使用多見[9]。近年來,基因信息也被應用到構(gòu)建風險預測模型中,并且被證明對許多常見疾病具有預測價值[10]。
1.3.1 數(shù)據(jù)劃分。 一般分為訓練集、測試集,部分研究增設驗證集[11]。訓練集主要用于擬合模型;驗證集用于對模型的能力進行初步的評估;測試集用于評估模型最終的泛化能力。
1.3.2 選擇相對成熟的預測方法。 數(shù)據(jù)挖掘又稱“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”[12],指從大量不完全、有噪聲的隨機數(shù)據(jù)中提取隱含及事先不知道的潛在有用信息,統(tǒng)計學在其中占有重要地位[13]。應用于風險預測的傳統(tǒng)統(tǒng)計學習模型以logistic回歸模型和比例風險回歸模型為經(jīng)典。常用的機器學習算法包括貝葉斯、決策樹模型、隨機森林、人工神經(jīng)網(wǎng)絡和支持向量機等[14],詳見表1。通過將機器學習建立模型與獨特的診療知識相結(jié)合,可以更好地確定患者診治工作的重點,增強醫(yī)療活動科學依據(jù)性[15]。
表1 基于電子病歷數(shù)據(jù)構(gòu)建風險預測模型的常用方法及特點
近年來,深度學習方法在處理大量多元數(shù)據(jù)時取得了良好性能,特別是在計算機視覺、語音識別、自然語言處理等方面[16]。陳雯等[17]對深度學習在癌癥預后中的應用綜述得出深度學習對癌癥患者預后預測有良好的指示能力。
模型驗證分為內(nèi)部驗證和外部驗證。內(nèi)部驗證是使用與訓練集相同的人群對模型進行評估,主要包括隨機拆分驗證、K折交叉驗證、Bootstrap等方法;外部驗證是使用其他數(shù)據(jù)來源的同類數(shù)據(jù)對模型進行驗證。評價模型預測性能最常用的指標有區(qū)分度和校準度。區(qū)分度是指模型區(qū)分研究中陽性個體和陰性個體的能力;校準度是指訓練集人群平均預測概率與實際發(fā)病概率的一致性。另外,評價預測模型的好壞不僅需要評估其預測性能,還需考慮數(shù)據(jù)采集成本、開發(fā)難易度及應用便利性,研究者應努力實現(xiàn)成本和效能之間的平衡。
在醫(yī)療信息化建設中,電子病歷因其具有快速全面準確地采集、存儲、處理和傳輸醫(yī)療信息的能力,成為醫(yī)療信息化的核心建設內(nèi)容。使用電子病歷系統(tǒng)建立風險預測模型的具體優(yōu)勢如下。
使用電子病歷系統(tǒng)建立風險預測模型的首要優(yōu)勢即患者數(shù)據(jù)量大。基于電子病歷系統(tǒng)的風險預測模型與傳統(tǒng)風險預測研究不同,傳統(tǒng)風險預測研究收集數(shù)據(jù)前,需要明確參與者納入排除標準、定期隨訪等方法。而電子病歷對患者的就診和治療信息全面記錄[18],包括患者所有的健康信息,這一特點從本質(zhì)上決定了電子病歷數(shù)據(jù)規(guī)模更大。
傳統(tǒng)風險預測研究開始前需明確要收集的特定指標以及相應的預期判定結(jié)果。而電子病歷基本覆蓋患者就診的全部過程,支持幾乎所有的實驗室檢驗、臨床醫(yī)療、長期醫(yī)療甚至家庭醫(yī)療中的信息和流程管理,醫(yī)療數(shù)據(jù)資源更豐富[19]?;陔娮硬v這一特點,陳漪[20]選取規(guī)律腹膜透析治療同時患有糖尿病的患者建立感染風險預測模型,驗證結(jié)果顯示模型具有較好的預測性能。Wang等[21]和 Xie等[22]基于瑞典一項病例對照研究采集的電子病歷數(shù)據(jù),分別構(gòu)建了食管鱗癌和食管腺癌患者5年絕對發(fā)病風險預測模型,為人群食管癌防控策略的制定提供依據(jù),使用同一組患者數(shù)據(jù)預測多種臨床結(jié)局成為可能。
電子病歷系統(tǒng)記錄并管理患者片段化或縱向的電子病歷信息,時間序列是其重要特征,采集數(shù)據(jù)的頻率通常遠高于傳統(tǒng)風險預測,因此預測患者特定事件發(fā)生的近期風險也更容易。周彤彤[23]調(diào)查發(fā)現(xiàn)與傳統(tǒng)的基于特定時間的截面數(shù)據(jù)相比,使用電子病歷時序數(shù)據(jù)建立的模型預測精度更高、結(jié)果更穩(wěn)定,有助于實現(xiàn)臨床終點預測任務提前預知。
來自電子病歷系統(tǒng)的患者群體涵蓋廣泛患者人群,人工選擇較少,凡就診治療的患者其相關信息均被記錄。電子病歷數(shù)據(jù)來源于真實臨床,而非設有諸多條件限制的科研場所,樣本信息更具代表性。袁術鵬[9]基于臨床數(shù)據(jù)建立老年骨科患者術后泌尿系感染的風險預測模型,經(jīng)驗證有較好的預測能力。
電子病歷數(shù)據(jù)是系統(tǒng)儲存的資料,研究者通過申請可以直接使用。如劉宇英等[24]使用美國前列腺、肺、結(jié)直腸及卵巢癌篩查電子數(shù)據(jù)庫作為數(shù)據(jù)來源建立結(jié)直腸癌發(fā)病風險預測模型。相較于傳統(tǒng)風險預測隊列研究,使用電子病歷數(shù)據(jù)易于進行大樣本研究,節(jié)省研究成本的同時,有助于提高研究效率。
現(xiàn)階段的電子病歷系統(tǒng)仍存在種種不足,需在發(fā)展過程中不斷完善。
目前電子病歷系統(tǒng)仍處于發(fā)展初期階段,與手寫病歷相比,電子病歷內(nèi)容存在重復記錄現(xiàn)象,Benke K等[25]認為是復制粘貼所致;如何處理數(shù)據(jù)缺失同樣是電子病歷系統(tǒng)研究公認的一大難點[26];另外,電子病歷數(shù)據(jù)可能存在患者病情嚴重程度分布不均的問題[27],病歷系統(tǒng)賬戶是否為賬戶所有者本人操作存疑[28],可能存在數(shù)據(jù)輸入錯誤,影響預測模型準確性,有學者調(diào)查發(fā)現(xiàn)電子病歷書寫缺陷發(fā)生率高,需要加強改進病歷記錄質(zhì)量管理[29]。只有擁有高質(zhì)量的數(shù)據(jù),風險預測模型才具有真正發(fā)揮作用的基礎。
3.2.1 數(shù)據(jù)提取技術仍不成熟。 電子病歷數(shù)據(jù)包含的特征信息種類繁多、維度龐大,充斥著大量非結(jié)構(gòu)化文本數(shù)據(jù),且具有一定的時序性。人工分析法在大樣本研究中效率較低,且受限于研究人員的經(jīng)驗,只能起到輔助作用。諸多學者對數(shù)據(jù)提取方法進行不斷優(yōu)化,自然語言處理技術不斷更新。鄭曉燕[30]對人口學數(shù)據(jù)進行one-hot編碼,用二位編碼代替原有的一位編碼。沈貝敏等[31]采用深度協(xié)同過濾方法對現(xiàn)有精神疾病非結(jié)構(gòu)化數(shù)據(jù)進行處理,最終模型準確性87.49%,精度51.13%。近年來,卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡被應用于數(shù)據(jù)的特征提取,有助于充分利用電子病歷中的時序性數(shù)據(jù),但受限于只能捕獲局部特征信息,對數(shù)據(jù)時序排列要求嚴格,缺少語義特性[32]。如何對電子病歷系統(tǒng)中的大量數(shù)據(jù)進行表征學習仍是構(gòu)建風險預測模型的主要挑戰(zhàn)。
3.2.2 數(shù)據(jù)獲取途徑受限。 醫(yī)學信息涉及到隱私保護和倫理問題,大多醫(yī)療信息是非公開的,國內(nèi)各醫(yī)院間信息無法共享,數(shù)據(jù)獲取途徑受限。吉云蘭等[33]對嚴重創(chuàng)傷患者進行譫妄風險預測,但只基于1家醫(yī)院ICU電子病歷數(shù)據(jù)進行研究,可能存在選擇偏移,結(jié)論需通過大樣本、多中心研究進行驗證。
國內(nèi)外學者構(gòu)建的風險評估模型中的風險因素不盡相同。大部分模型考慮影響疾病風險的因素數(shù)量單一,限制了判別性能[34]。變量的個數(shù)、種類、是否納入了真正有預測作用的變量均有可能影響預測模型的效能。關于老年人跌倒風險因素,不同研究者研究結(jié)果不一,覆蓋年齡、性別、疾病、藥物、跌倒史、生活習慣、生理狀態(tài)、心理狀態(tài)、生化指標、環(huán)境因素和社會因素等各個方面[35]?;陔娮硬v數(shù)據(jù)篩選風險因素應綜合應用文獻報道、統(tǒng)計方法和醫(yī)學專業(yè)知識三種策略,盡可能全面納入。
預測模型應用前,應進行強有力的外部驗證。然而,由于具備完整臨床信息的特定疾病患者數(shù)量往往不足、大量數(shù)據(jù)獲取困難等現(xiàn)實因素制約,大多數(shù)研究沒有進行模型驗證,尤其是外部驗證,模型的穩(wěn)定性和外推性得不到保證,導致許多模型不能用于臨床實踐[36]。如于建發(fā)等[37]構(gòu)建的患者預后風險模型,由于相關疾病患者數(shù)量不足,且部分臨床特征無法獲取詳細信息,未能設立驗證集,模型有效性有待進一步驗證。
現(xiàn)階段的電子病歷系統(tǒng)多是中心特定的,尚未形成醫(yī)院間整體統(tǒng)一的電子病歷系統(tǒng)模式,預測模型針對特定的電子病歷開發(fā),能否在區(qū)域?qū)用嫱茝V有待商榷。大量散在數(shù)據(jù)資源不能被有效整合利用,現(xiàn)有預測模型效能受到制約。2018年《關于進一步推進以電子病歷為核心的醫(yī)療機構(gòu)信息化建設工作的通知》提出醫(yī)療機構(gòu)應逐步解決電子病歷信息孤島、信息煙囪問題,推進系統(tǒng)整合[38]。美國新一代醫(yī)院信息系統(tǒng)實現(xiàn)了1 000多家醫(yī)院信息的互聯(lián)互通,其建設經(jīng)驗值得借鑒研究。
隨著信息技術的快速發(fā)展,醫(yī)療行業(yè)全面進入信息化發(fā)展時代,電子病歷在患者信息全程留痕化、數(shù)據(jù)標準化等方面優(yōu)勢明顯,成為診療數(shù)據(jù)的重要來源。在亞健康人群和患病人群不斷增多的全球背景下,預測疾病的發(fā)生發(fā)展及結(jié)局采用客觀工具、減少主觀經(jīng)驗判斷具有重要意義?;陔娮硬v系統(tǒng)建立的風險預測模型充分利用病歷數(shù)據(jù),結(jié)果可信度高,節(jié)省資源,可有效幫助醫(yī)護人員進行臨床決策,然而在高質(zhì)量數(shù)據(jù)獲取、風險因素考慮、模型驗證應用等方面還存在不足,現(xiàn)階段電子病歷仍存在患者數(shù)據(jù)重復記錄、數(shù)據(jù)缺失等問題,尚未打破不同醫(yī)院電子病歷系統(tǒng)間的信息煙囪,未來構(gòu)建高性能風險預測模型應注意規(guī)避此類問題。