摘 要:
醫(yī)學領域的電子健康檔案(electronic health records,EHR)數(shù)據(jù)涵蓋了大量寶貴的生物醫(yī)學知識,為醫(yī)療數(shù)據(jù)分析提供了重要的資源。然而,隱私保護和數(shù)據(jù)共享的限制成為研究的主要瓶頸,阻礙了數(shù)據(jù)分析和機器學習技術在醫(yī)療領域的應用和發(fā)展,為應對這些挑戰(zhàn),研究者探索使用生成式建模來生成EHR數(shù)據(jù)。首先介紹并概括了擴散模型的起源與發(fā)展;深入探討了現(xiàn)有擴散模型的各種方法,對不同方法進行了詳細分析;列舉并對比了各種生成式建模方法在EHR數(shù)據(jù)生成中的應用效果,重點分析了擴散模型的優(yōu)勢和局限性。最后,總結了擴散模型在EHR數(shù)據(jù)生成領域的應用現(xiàn)狀,討論了當前研究的局限性并展望了擴散模型在該領域的未來發(fā)展方向。
關鍵詞:擴散模型;數(shù)據(jù)生成;電子健康檔案;生成式模型
中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2024)12-001-3521-12
doi: 10.19734/j.issn.1001-3695.2024.04.0122
Research on electronic health record data generation for diffusion models
Wei Bolun, Zhang Xiankun
(College of Artificial Intelligence, Tianjin University of Science amp; Technology, Tianjin 300457, China)
Abstract:
Electronic health records (EHR) data in the medical field contain a wealth of valuable biomedical knowledge and provide a crucial resource for healthcare data analysis. However, privacy protection and data sharing constraints have become significant bottlenecks for researchers, hindering the application and development of data analysis and machine learning techniques in healthcare. To address these challenges, researchers have been exploring the use of generative modeling methods to generate EHR data. Firstly, this paper introduced and summarized the origins and evolution of diffusion models. Next, it delved into various existing diffusion model methods, providing a detailed analysis of each approach. Then it listed and compared different generative modeling methods applied in EHR data generation, emphasized the advantages and limitations of diffusion models. Finally, it summarized the current applications of diffusion models in EHR data generation, discussed the limitations of current research, and presented an outlook on the future development and application of diffusion models in this field.
Key words:diffusion models; data generation; electronic health records; generative models
0 引言
對患者進行身體各項指標的重復測量和追蹤,進而匯總成該患者的電子健康檔案(EHR),其數(shù)據(jù)包括疾病演變、生物醫(yī)學、患者個人隱私等重要信息。大量的EHR數(shù)據(jù)為開發(fā)最先進的計算生物醫(yī)學方法奠定了堅實的數(shù)據(jù)基礎,如用于動態(tài)疾病治療[1]、可區(qū)分自動診斷[2]、生物醫(yī)學方面自然語言處理任務[3]等。
然而,真實的EHR數(shù)據(jù)多數(shù)包含患者的個人敏感信息以及其他重要隱私信息,涉及到患者的隱私保護問題,這使得基于海量EHR數(shù)據(jù)進行的數(shù)據(jù)分析工作和在醫(yī)療保健領域的機器學習研究發(fā)展緩慢且有限[4]。傳統(tǒng)的數(shù)據(jù)匿名方法非常煩瑣且成本高昂,其數(shù)據(jù)加密方法可能會扭曲真實數(shù)據(jù)集的重要特征,從而顯著降低數(shù)據(jù)的使用效果[5],并且在數(shù)據(jù)敏感信息加密時,即使過程符合現(xiàn)有標準也容易受到隱私攻擊[6]。
合成EHR數(shù)據(jù)為在醫(yī)療領域的數(shù)據(jù)分析、數(shù)據(jù)共享等技術的發(fā)展提供了新的可能[7]。合成EHR數(shù)據(jù)應該著重關注兩個關鍵屬性:合成數(shù)據(jù)的高保真度(即在下游任務使用時有與真實數(shù)據(jù)相同的效果);具有隱私保護特性(即使用合成數(shù)據(jù)不會泄露真實患者的任何信息)。在合成EHR數(shù)據(jù)方面,各種生成模型的研究分別取得了不同程度的進展[8]?,F(xiàn)有的合成EHR數(shù)據(jù)的算法主要采用生成對抗網(wǎng)絡(generative adversarial network,GAN)[9]、自編碼器(autoencoder,AE)[10]或者兩者相互組合的變體。盡管這些方法在合成高質(zhì)量的EHR數(shù)據(jù)和隱私保護方面取得了較為理想的實驗成果,但它們面臨著模式崩潰和訓練不穩(wěn)定的問題。部分研究者提出不同的技術來解決這些問題,但面對復雜的真實EHR數(shù)據(jù),現(xiàn)有的模型生成效果并不理想。近年來,一種名為擴散模型的生成式建模被提出,并迅速在文本[11]、音頻[12]、計算機視覺[13,14]等領域表現(xiàn)了較好的生成性能。隨著擴散模型被進一步深入研究,其生成內(nèi)容在質(zhì)量和多樣性方面逐漸超越了GAN和自編碼器的性能。擴散模型相較于GAN有著易于訓練和易于處理的優(yōu)點,與自回歸模型相比生成速度較快。一般來說,擴散模型從隨機噪聲特征開始,使用經(jīng)過訓練的去噪模型逐漸去除特征中的噪聲,最終生成與真實數(shù)據(jù)分布相同的合成特征。截止到2024年3月,近15年在Web of Science上以denoising diffusion models為關鍵詞的文獻量總體呈逐年上升趨勢(圖1),并且擴散模型被應用的學科領域廣泛,在Web of Science上可查詢到擴散模型在各個領域的應用取前15(圖2)。這些數(shù)據(jù)反映了對擴散模型研究的火熱程度,同時也說明了該模型在人工智能等多個領域的重要性。
1 擴散模型提出與發(fā)展
1.1 擴散模型提出
擴散概率模型(diffusion probabilistic model,DPM)于2015年被Sohl-Dickstein等人[15]首次提出,旨在消除訓練圖像上連續(xù)應用的高斯噪聲,可將其視為一系列的去噪自編碼器。其主要思路是:a)定義一個馬爾可夫鏈作正向過程,將一種數(shù)據(jù)分布不斷地加噪聲逐步轉(zhuǎn)換為另一個噪聲分布(如高斯分布)[16];b)反向擴散過程,通過學習恢復數(shù)據(jù)原始分布的過程得到一個高度靈活且可以精確采樣和評估概率的生成模型。反向擴散過程中的每一步都可以解析計算,因此整個鏈條也可以解析評估。學習只需估計反向過程中對擴散過程的小擾動,之后從初始結果中將估計出的噪聲減去,從而在理論上可以得到干凈的圖片。
該方法借鑒了非平衡統(tǒng)計物理學的思想[17],采用準靜態(tài)過程來訓練逆向擴散過程,并與正向過程共享相同的函數(shù)形式,易于學習。相比傳統(tǒng)方法,這種模型能靈活捕獲任意分布的數(shù)據(jù),同時具備可訓練性、精確采樣和評估的優(yōu)勢。最初只在簡單數(shù)據(jù)集上驗證,其在復雜場景中的應用和計算成本問題仍需進一步探索。
1.2 擴散模型發(fā)展
1.2.1 去噪擴散模型的發(fā)展
自擴散概率模型在2015年被首次提出,現(xiàn)已成為最先進的深度生成模型之一,它打破了生成對抗網(wǎng)絡(GAN)[18]在圖像合成領域中的長期主導地位。但早期擴散概率模型的研究進展有限,直到2020年去噪概率擴散模型(denoising diffusion probabilistic model,DDPM)[19]的提出,使得擴散模型在圖像生成任務中變成主流,現(xiàn)在擴散模型通常指的就是DDPM。
DDPM使用兩個馬爾可夫鏈,一個是將數(shù)據(jù)擾動為高斯噪聲的正向鏈,一個是將噪聲轉(zhuǎn)換為目標數(shù)據(jù)的反向鏈。正向鏈通過手工設計將任何數(shù)據(jù)分布轉(zhuǎn)換為簡單的先驗分布(通常是高斯分布),反向鏈通過深度神經(jīng)網(wǎng)絡參數(shù)化的轉(zhuǎn)換核來逆轉(zhuǎn)正向鏈,隨后從先驗分布中采樣來生成新的數(shù)據(jù)。同年,提出去噪擴散隱式模型(denoising diffusion implicit model,DDIM)[20],DDIM與DDPM有著相同的訓練目標,相比于需要較長正向擴散步數(shù)的DDPM,DDIM通過減少采樣步數(shù)、不局限于正向擴散過程必須是一個馬爾可夫鏈加速了生成過程。
2021年提出了余弦噪聲調(diào)度[21]對DDPM進行改進,改變了添加噪聲的schedule,相比線性調(diào)度提升了高分辨率圖像的生成質(zhì)量,并大幅加速了采樣速度。盡管這些改進提高了模型性能,模型在低分辨率圖像生成任務中的表現(xiàn)仍需進一步優(yōu)化,與其他模型(如VAE和流模型)相比也還有待全面評估。
1.2.2 基于分數(shù)的生成模型的發(fā)展
2019年,Song等人[22]提出了基于分數(shù)的生成模型(score-based generative model,SGM),通過學習數(shù)據(jù)分布的對數(shù)梯度(score)來生成數(shù)據(jù)而不是直接學習數(shù)據(jù)分布。通過分布的score function可以得到分布的梯度,再沿著學習到的梯度逐步逼近目標數(shù)據(jù);利用朗之萬動力學迭代[23,24]逐漸降低噪聲水平,最終生成與目標分布相同的數(shù)據(jù)。由于SGM同樣也有改變噪聲強度的加噪過程,其中的朗之萬動力學退火相當于DDPM中的采樣去噪過程,兩者還可以通過隨機微分方程進行統(tǒng)一,統(tǒng)一后DDPM的噪聲預測網(wǎng)絡和SGM的梯度計算網(wǎng)絡可等價替換[14]。
2021年,文獻[25]首次提出在擴散模型中使用分類器引導擴散,通過額外訓練的分類器計算梯度來指導模型生成圖像,使U-Net模型在生成過程中更好地接近目標圖像。此外,該研究受GAN實驗的啟發(fā),還通過消融實驗優(yōu)化了模型架構。
2022年提出了可以不訓練分類器而是使用生成模型自己來做擴散的引導[26]。通過訓練有條件和無條件的擴散模型,在采樣時混合兩個模型的score估計來實現(xiàn)樣本質(zhì)量和多樣性之間的平衡,最終輸出為有條件生成減去無條件生成的結果,達到類似分類器引導的效果。
1.2.3 擴散模型的統(tǒng)一
目前的擴散模型是diffusion model和score-based model兩類算法的統(tǒng)稱。從擴散模型在2015年被提出到后來的diffusion model和score-based model,可以看作是早期兩個獨立發(fā)展的算法方向,后來逐漸融合統(tǒng)一為擴散模型,并在生成模型領域作出了重要貢獻。
基于分數(shù)的生成模型[22]重點解決高維數(shù)據(jù)訓練中的擴展性問題,提出了切片分數(shù)匹配方法,盡管取得了進展,模型仍無法生成高質(zhì)量樣本。擴散概率模型通過學習變分解碼器逆轉(zhuǎn)數(shù)據(jù)擾動過程,生成新樣本,并通過證據(jù)下界(ELBO)進行訓練。這種方法與基于分數(shù)的模型使用score matching訓練和Langevin采樣生成樣本具有等價性。DDPM解釋了這種關系:訓練DPM的ELBO本質(zhì)上等同于基于分數(shù)模型的加權score matching目標。使用類似于基于分數(shù)模型的U-Net結構,DPM能夠生成媲美甚至超越GAN的高質(zhì)量圖像樣本[14]。
Song等人進一步深入研究了DDPM和SGM之間的相關性,發(fā)現(xiàn)兩者的采樣方法可以結合從而構建出Predictor-Corrector samplers。更重要的是當可變噪聲強度的噪聲擾動擴展到無窮個尺度的噪聲,便可以得出DDPM和SGM都是由score function決定的隨機微分方程(SDE)的離散形式,從此兩者得到了統(tǒng)一。下文將分別介紹DDPM和SGM以及兩者連續(xù)時間擴散的SDE。
經(jīng)過之前的發(fā)展,已經(jīng)將擴散模型的性能優(yōu)化到了可以超越同期的GAN和VAE等模型的水平。后續(xù)OpenAI又提出了在GLIDE[27]基礎上改進的DALL-E2[28],將擴散模型引入到了更為廣泛的視野中,并引發(fā)了圖片生成領域各類性能較好的模型出現(xiàn)。Google公司的研究人員提出了Imagen[29]以及Imagen2,Stability AI提出了Stable Diffusion[30],以及廣受關注的Midjourney[31]。
如今,擴散模型已經(jīng)在圖像生成領域占據(jù)長期主導地位[32],并且應用于多個重要領域如計算機視覺[33,34]、時態(tài)數(shù)據(jù)建模[35,36]、魯棒機器學習[37]以及跨學科的計算化學[38,39]和醫(yī)學圖像重建[40,41]等。
2 擴散模型的原理及數(shù)學實現(xiàn)
擴散模型發(fā)展至今有三種主要的形式,分別是去噪擴散概率模型(DDPM)[15,19]、基于分數(shù)的生成模型(SGM)[22,32]和隨機微分方程(stochastic differential equation, SDE)[14,42]。
2.1 去噪擴散概率模型(DDPM)
2.1.1 正向過程
DDPM中,原始數(shù)據(jù)及其分布用x0~q(x0)表示,正向過程中,前向馬爾可夫過程生成的一系列加噪時的隨機變量序列x1,x2,…,xT的轉(zhuǎn)換核為q(xt|xt-1)。根據(jù)概率鏈式法則以及馬爾可夫性質(zhì),可以分解x1,x2,…,xT在x0條件下的聯(lián)合概率密度q(x1,…,xT|x0),分解后表達為
已知,就可已知反向SDE和ODE,隨后便可通過其他數(shù)值求解技術生成新樣本,如退火朗之萬動力學[22]、數(shù)值SDE求解器[14,50]、數(shù)值ODE求解器[14,20,42,51,53]。與SGM估計得分函數(shù)一樣,可以創(chuàng)造一個與時間相關的評分模型sθ(xt,t),通過分數(shù)匹配來估計評分函數(shù),得到目標函數(shù):
3 擴散模型在EHR數(shù)據(jù)生成中的應用
近年來擴散模型推動了數(shù)據(jù)生成領域的發(fā)展并逐漸應用于各領域,本文著重探討擴散模型在EHR數(shù)據(jù)生成領域的研究。
獲取具有統(tǒng)計性和臨床代表性的患者健康數(shù)據(jù)對于推進疾病診療研究、提升患者護理和開發(fā)新型藥物具有巨大潛力。然而,電子健康記錄中含有敏感信息,數(shù)據(jù)共享會帶來隱私問題,并且EHR數(shù)據(jù)獲取成本高、時間長、樣本有限[54,55]。使用生成模型生成合成數(shù)據(jù)是一種有效的解決方案,能夠減輕這些風險。
真實的EHR數(shù)據(jù)包含患者敏感的私人信息,在使用或公開前需要進行去識別化[56,57],在此過程中需要進行加密并且需要煩瑣嚴格的人工審查。另外由于法律和道德限制,其發(fā)布也需要數(shù)月時間[58],這嚴重阻礙了精準醫(yī)學方法研究的進步。于是研究者將目光轉(zhuǎn)向如何生成高質(zhì)量的EHR合成數(shù)據(jù),各類生成模型被投入在該領域中并取得了不錯的成果。近年來興起的擴散模型[4,59~63]具有高效的生成效率,在某些方面的評價可超越一些經(jīng)典的生成式模型,如變分自編碼器(variational autoencoder,VAE)[64,65]、生成對抗網(wǎng)絡(GAN)[8,9,66~68]及兩者的各種組合及變式[69]。
3.1 擴散模型生成不同類型EHR數(shù)據(jù)
EHR數(shù)據(jù)常見類型包括表格數(shù)據(jù)、時間序列數(shù)據(jù)、圖像數(shù)據(jù)和非結構化文本數(shù)據(jù)。近年來,生成建模主要應用于表格數(shù)據(jù)和時間序列數(shù)據(jù),兩者都以唯一的病人身份ID標識數(shù)據(jù)(如圖5、6所示)。在圖5(a)~(c)分別表示表格數(shù)據(jù)常見的三種類型:離散表格數(shù)據(jù)、連續(xù)表格數(shù)據(jù)和分類表格數(shù)據(jù)。離散表格數(shù)據(jù)一般包括病人每月看診次數(shù)、病人年齡、收縮壓、ICD編碼等具有多個不連續(xù)可能值的數(shù)據(jù),最開始引入擴散模型的數(shù)據(jù)類型就是離散表格數(shù)據(jù)的生成[59]。連續(xù)表格數(shù)據(jù)一般包括用藥記錄、血液、尿檢等檢查記錄,患者的部分醫(yī)學影像數(shù)據(jù)等檢查結果也可以用連續(xù)表格數(shù)據(jù)按照時間、部位和結果等信息進行記錄。由于連續(xù)數(shù)據(jù)的時序特性,在進行實際操作時有部分不同于離散表格數(shù)據(jù)的數(shù)據(jù)預處理方式。分類表格數(shù)據(jù)是表示起來最簡單的EHR數(shù)據(jù),一般包括性別、國籍、膚色、是否患某病等基本信息。在進行數(shù)據(jù)生成時,雖然其是有限數(shù)量個分類,但與其他信息有著強關聯(lián)性,所以分類表格數(shù)據(jù)的生成任務也是一大難點。
時間序列數(shù)據(jù)依然會包括連續(xù)數(shù)據(jù)、離散數(shù)據(jù)和分類數(shù)據(jù),但由于其時序特性,其數(shù)據(jù)表現(xiàn)形式有所不同。如圖6所示,其中,的每一張表格代表一個人的EHR數(shù)據(jù),表中的第二、三列是連續(xù)時序數(shù)據(jù),第四、五列是分類時序數(shù)據(jù)和離散時序數(shù)據(jù);中將數(shù)據(jù)按照時間表示為更為方便處理的形式,為EHR數(shù)據(jù)生成提供了新的思路。
3.2 EHR數(shù)據(jù)生成任務的挑戰(zhàn)與困難
由于隱私和安全問題,大部分EHR數(shù)據(jù)限制了醫(yī)學信息挖掘和機器學習任務的發(fā)展。一些研究者轉(zhuǎn)而關注生成與原始數(shù)據(jù)分布相同且具備隱私保護的合成數(shù)據(jù)。通過生成模型學習原始數(shù)據(jù)的高維分布,訓練生成具有相同分布的合成數(shù)據(jù),從而避免隱私問題。圖7展示了EHR數(shù)據(jù)生成的步驟:a)對原始數(shù)據(jù)進行逆行去識別化處理,保護數(shù)據(jù)隱私,并將處理后的數(shù)據(jù)通過公開數(shù)據(jù)庫供研究者使用,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等;b)將處理好的數(shù)據(jù)用于訓練適合的生成模型,以生成EHR數(shù)據(jù),本文主要探討使用各類擴散模型進行EHR數(shù)據(jù)生成;c)對生成的數(shù)據(jù)進行隱私性評價,確保生成的合成數(shù)據(jù)符合安全隱私標準。
早期EHR數(shù)據(jù)生成缺乏規(guī)范步驟,研究者多關注離散代碼特征如ICD編碼,而較少生成臨床敘述的表格、時序、圖像和非結構化文本數(shù)據(jù)。例如Buczak等人[72]的方法主要針對特定疾病生成EHR數(shù)據(jù),靈活性差且易泄露隱私。Walonoski等人[67]開發(fā)的Synthea軟件涵蓋了20種常見情況,但數(shù)據(jù)類型仍不夠豐富。引入機器學習模型后,GAN生成高質(zhì)量醫(yī)學數(shù)據(jù)但常遇到模式崩潰問題,只能生成部分數(shù)據(jù)分布。為解決此問題,研究者結合自編碼器減少特征維度,但參數(shù)不當會導致數(shù)據(jù)質(zhì)量下降和維度特征丟失。
總的來說,在引入擴散模型到EHR數(shù)據(jù)生成領域之前,該領域相較于其他數(shù)據(jù)生成任務存在以下問題:
a)數(shù)據(jù)類型單一,生成數(shù)據(jù)僅限于某類疾病或編碼,疾病類型不夠多樣化;
b)隱私安全性不足,生成數(shù)據(jù)與原始數(shù)據(jù)高度相關,無法確保合成數(shù)據(jù)獨立且具有相同分布;
c)模型性能問題,現(xiàn)有模型泛化能力和魯棒性不足,生成性能較差;
d)數(shù)據(jù)格式復雜,EHR數(shù)據(jù)格式多樣且復雜,導致生成工作難以取得突破;
e)數(shù)據(jù)質(zhì)量不統(tǒng)一,缺乏有效的評價標準,無法保證生成數(shù)據(jù)質(zhì)量。
3.3 擴散模型應用于EHR數(shù)據(jù)生成
由于EHR數(shù)據(jù)的使用法規(guī)和隱私問題,限制了研究中真實EHR數(shù)據(jù)的使用。機器學習模型需要大量多樣化的數(shù)據(jù)集進行訓練,生成模型如GAN和VAE在EHR數(shù)據(jù)生成中快速發(fā)展。近年來,擴散模型因其強生成能力引起關注,但尚未在EHR數(shù)據(jù)生成領域建立統(tǒng)一評價體系[73]。本節(jié)介紹了近年來基于擴散模型的EHR數(shù)據(jù)生成任務及其改進模型,表1列出了常用的評價標準。
3.3.1 MedDiff
He等人[59]首次成功將擴散模型應用于EHR數(shù)據(jù)生成,并將模型命名為MedDiff。該模型經(jīng)過調(diào)試可以生成高質(zhì)量、穩(wěn)健的樣本,并且通過安德森加速提升了模型的生成速度,MedDiff生成樣本的質(zhì)量優(yōu)于基于GAN的方法。
MedDiff采用改進的U-Net架構,包括更深更寬的模型、位置嵌入、殘差塊用于上采樣和下采樣,以及重新縮放的殘差連接。傳統(tǒng)的DDPM適用于圖像和音頻生成,但在一維信號中效果有限[25],通過改進U-Net架構以適應一維結構的數(shù)據(jù)。為每一個患者生成一個向量,MedDiff可以很好地捕獲相鄰特征的相關性。該模型的基本架構是基于擴散模型改進的DDIM過程[20],其正向過程是將原始的EHR真實數(shù)據(jù)x0逐步加入噪聲,最后轉(zhuǎn)變?yōu)橥耆辉肼暩采w的樣本xT;其反向過程通過訓練后的生成器網(wǎng)絡來反向推斷樣本,通過預測出的噪聲從xT中逐步去除噪聲,最后還原到類似于原始樣本。
MedDiff模型訓練過程中采用DDPM的重構誤差最小化目標,并通過反向傳播優(yōu)化生成器網(wǎng)絡參數(shù)。在采樣過程中,使用安德森加速算法通過線性組合近K步迭代結果來提高采樣效率。評價標準包括維度分布概率、相關系數(shù)和絕對誤差以及密度估計方法來評估有條件生成樣本的分布匹配度。研究中與其他生成模型如MedGAN、CorGAN和DDPM進行了比較,結果顯示MedDiff在多個指標上表現(xiàn)優(yōu)于這些模型。
盡管MedDiff成功實現(xiàn)了高質(zhì)量醫(yī)療記錄的有條件生成,并通過加速算法提升了生成效率,但仍存在一些缺陷。未來的發(fā)展方向包括多模態(tài)學習處理更復雜的醫(yī)療記錄、生成更多動態(tài)和高關聯(lián)性的臨床時間序列數(shù)據(jù)。
3.3.2 EHRDiff
EHRDiff[4]探究了擴散模型在EHR數(shù)據(jù)生成領域的可能性,并在公開數(shù)據(jù)集MIMIC-Ⅲ上進行了大量實驗,結果表明,EHRDiff生成的EHR數(shù)據(jù)質(zhì)量優(yōu)于以往基于GAN模型的方法,更加接近真實醫(yī)療記錄。
相較于MedDiff,EHRDiff使用的是基于SGM的擴散模型,直接使用了常規(guī)的確定性ODE解決方程進行逆向生成,不需要額外的采樣技術。該模型首次將SGM引入到EHR數(shù)據(jù)生成領域,在解耦網(wǎng)絡輸出方面,MedDiff采用了直接預測噪聲的方法,這種設計可能會受到輸入噪聲尺度變化的影響,從而影響網(wǎng)絡的訓練。相比之下,EHRDiff采用了適應性解耦的方法,利用cin、cout等參數(shù)將網(wǎng)絡輸入統(tǒng)一為單位方差,這樣做有助于緩解因輸入噪聲尺度變化而帶來的問題。EHRDiff訓練過程可能需要更多的參數(shù)和計算資源,所以生成速度略慢于其他生成方法,其實驗在MIMIC-Ⅲ[56,57]數(shù)據(jù)集上進行,其泛化性可能還需要進一步驗證。
模型的評價標準采用多個指標進行評估,分為效用指標如特征分布相似度、相關性、樣本聚類和醫(yī)學概念豐富度等,隱私指標如隱私風險評估、屬性判斷風險、會員資格判斷風險等。其對比模型選用了medGAN[74]、medBGAN[75]、CorGAN[76]等,并證明EHRDiff效果最好。但該模型依然存在一些改進方向,如后續(xù)可以嘗試在更大規(guī)模數(shù)據(jù)集上訓練與測試,可以結合注意力機制設計更大的解耦網(wǎng)絡,或如SC-GAN[77]一樣利用臨床關系建模生成流程。
3.3.3 ScoEHR
Naseer等人[62]提出了一種新的深度學習框架ScoEHR,解決了如何通過模型生成符合臨床標準的合成電子醫(yī)療記錄數(shù)據(jù)的問題。ScoEHR通過結合自編碼器和連續(xù)時間擴散模型,同時考慮了EHR數(shù)據(jù)中的離散值和連續(xù)值特征及其關聯(lián)關系,在保留生成數(shù)據(jù)醫(yī)學真實性上優(yōu)于當前主流GAN方法,為醫(yī)療機構提供了一種擴充代表性樣本數(shù)據(jù)的方法,供下游應用。
ScoEHR框架結合了自編碼器和連續(xù)時間擴散模型,能夠捕獲EHR數(shù)據(jù)中離散值和連續(xù)值的分布,并有效控制特征之間的相關性。它利用預訓練的編碼器和解碼器進行低維表示,然后通過變方差SDE進行正向擴散來加噪處理樣本;反向SDE和得分預測網(wǎng)絡用于重構樣本,通過訓練得分函數(shù)預測模型[22]可以生成符合臨床標準的EHR合成數(shù)據(jù);最終使用解碼器將低維樣本投影到原始特征空間,完成EHR數(shù)據(jù)的生成。通過此過程ScoEHR模型可以學習EHR數(shù)據(jù)分布的結構,有效地生成符合臨床標準的EHR合成數(shù)據(jù)。
文獻[62]對該模型的實驗效果進行評估時使用了medGAN[74]、medWGAN和medBGAN[75]三個基線模型,在數(shù)據(jù)生成效用的四個關鍵性指標上進行了比較。目前的合成數(shù)據(jù)領域并沒有普遍建立的指標可供比較,所以作者選用了較為符合該模型的評價標準:保留特征邊緣關系、保留特征相關性、使用對數(shù)聚類度量(捕獲真實數(shù)據(jù)和合成數(shù)據(jù)的相似性)、下游患者結果預測中的綜合數(shù)據(jù)性能(訓練下游機器學習模型,通過下游任務來從側(cè)面反映數(shù)據(jù)質(zhì)量)。ScoEHR 生成數(shù)據(jù)的真實性由一組美國委員會認證的醫(yī)生進行評估,其與實際 EHR 高度一致。最后作者還對模型的隱私披露進行了簡要審查。
ScoEHR的未來工作方向主要體現(xiàn)在:a)模型的泛化能力,未來可以考慮在更多類型的不同EHR數(shù)據(jù)集上評估該模型的泛化能力;b)隱私保護方面,可以考慮在模型結構中加入隱私保護機制,例如對抗隱私或微分隱私技術來降低從生成數(shù)據(jù)中推斷個人隱私信息的可能性;c)目前ScoEHR主要針對結構化EHR數(shù)據(jù),未來可以研究如何生成更豐富和語義連貫的臨床敘述文檔,例如結合生成對抗網(wǎng)絡或變異自動編碼器等自然語言生成技術。
3.3.4 TabDDPM
Ceritli等人[61]對使用擴散模型生成混合類型的EHR數(shù)據(jù)進行了探討分析,模型被命名為TabDDPM,該模型可以同時生成連續(xù)值和分類值,從而更好地擬合包含這兩種特征類型的醫(yī)療數(shù)據(jù)。
TabDDPM模型可以生成混合類型的EHR數(shù)據(jù),首先使用高斯擴散過程和多項式擴散過程分別生成連續(xù)值和分類值特征。對于連續(xù)值特征未采用高斯擴散過程,通過對原始數(shù)據(jù)加噪的方法將數(shù)據(jù)逐步轉(zhuǎn)變?yōu)闃藴矢咚狗植迹粚﹄x散的分類值特征,采用了多項式擴散過程[78],通過給分類值加上隨機性使其逐步轉(zhuǎn)變?yōu)榫鶆蚍植肌T撃P偷姆聪蜻^程可以兼容兩種正向擴散過程,模型使用MLP神經(jīng)網(wǎng)絡實現(xiàn)反向過程,對于連續(xù)值特征直接使用回歸預測噪聲,對于分類值離散特征,MLP預測后連接softmax函數(shù)來生成類條件概率分布。因此,通過組合高斯擴散和多項式擴散過程以及反向過程的特定設計,TabDDPM模型可以一并學習生成混合類型EHR數(shù)據(jù)中連續(xù)值和分類值的分布,從而生成真實而有效的合成EHR樣本,解決了僅使用單一擴散過程的限制。
TabDDPM進行實驗時選用變分自編碼器、medGAN和CorGAN這些該領域較為經(jīng)典模型,從數(shù)據(jù)分布正確性、隱私風險、下游任務實用性等四個維度對比模型生成數(shù)據(jù)的優(yōu)劣。最終結果表示TabDDPM在維度概率和預測性能等數(shù)據(jù)質(zhì)量指標上優(yōu)于基線模型,但在隱私指標上,TabDDPM效果不如基線,這是因為它生成的數(shù)據(jù)質(zhì)量更高,但也增加了泄露隱私信息的風險。
3.3.5 擴散模型生成EHR混合縱向數(shù)據(jù)
Kuo等人[63]設計了基于U-Net的擴散概率模型,可以在不同時間步估計和去除數(shù)據(jù)中的不同強度噪聲,從而逐步重建出清晰無噪的數(shù)據(jù)。為了處理混合類型數(shù)據(jù),作者提出了將數(shù)據(jù)轉(zhuǎn)換為數(shù)值和one-hot表示的方法,以將DPM框架應用于臨床變量;利用該DPM模型生成兩組臨床數(shù)據(jù)集,一個用于急性低血壓,一個用于艾滋病治療,包含觀測值、操作和獎勵等各類變量。
DPM的前向過程中,通過定義好的方差函數(shù),每一時間步都將高斯噪聲加入原始數(shù)據(jù),最后得到由原始數(shù)據(jù)變化而來的接近于高斯分布的噪聲數(shù)據(jù)。反向擴散過程中,采用基于U-Net網(wǎng)絡的DPM框架來輸入時間步和位置嵌入,從而預測該時間步加入的噪聲量,其中U-Net包含下采樣、卷積塊和上采樣等模塊。
在模型評價方面,作者選用MedGAN[74]、Health Gym GAN和MVAE作為基線模型,并在統(tǒng)計分布特征匹配度、模式崩塌程度、RL應用效果和隱私風險評估等方面進行模型的橫向?qū)Ρ?。最終結果表明DPM生成數(shù)據(jù)在統(tǒng)計特征上超過極限,并且不易發(fā)生模式崩塌,以及DPM的數(shù)據(jù)隱私風險也控制得較好。
目前DPM僅使用位置嵌入來區(qū)分不同時間步,未來可以嘗試加入更豐富的上下文信息,如治療行為等,生成出更具解釋性和臨床意義的記錄。作者還指出,目前模型主要關注記錄層面,未來可以嘗試生成更細粒度的生物標志數(shù)據(jù),滿足不同下游任務要求。
3.3.6 TIMEDIFF
與基于GAN模型的EHR數(shù)據(jù)生成研究相似,生成的數(shù)據(jù)類型也逐漸開始從單個時間點的表格數(shù)據(jù)向具有時間序列的數(shù)據(jù)過渡[77]。Tian等人[60]提出了一個名為TIMEDIFF的基于雙向遞歸神經(jīng)網(wǎng)絡(BRNN)的架構生成高效的時間序列數(shù)據(jù)。
TIMEDIFF是第一個將混合擴散方法應用于EHR時間序列數(shù)據(jù)生成的模型。為了對EHR時間序列中的混合變量類型進行建模,TIMEDIFF提出一種混合序列擴散方法,將高斯擴散和多項式擴散結合起來,使得它能夠同時生成浮點值和離散值時間序列,它采用雙向循環(huán)神經(jīng)網(wǎng)絡來編碼序列信息,同時具有可變長度輸入的靈活性。該模型使用雙向遞歸神經(jīng)網(wǎng)絡作為生成模型的基礎架構,可以很好地捕捉時間序列中隱含的時序依賴關系,其前向過程與TabDDPM[61]相似,同樣是使用高斯擴散和多項式擴散來處理連續(xù)變量和離散變量,從而實現(xiàn)對混合變量類型的支持。特別地,為了表示缺失值信息,它使用指示符掩碼對每個數(shù)字時間序列進行編碼。
該模型的正向過程將原始的數(shù)據(jù)集進行高斯擴散和多項式擴散[78]處理,獲得擴散過程樣本的集合,再初始化雙向LSTM網(wǎng)絡作為時間條件生成網(wǎng)絡(相當于DDPM中的噪聲預測網(wǎng)絡),輸入給該網(wǎng)絡的不僅僅是擴散后時間序列樣本本身,還包括位置編碼信息。位置編碼表示每個時間點在整個序列中的相對位置,需要對其進行縮放和偏移以將其映射到更合適的范圍內(nèi),這樣處理后的位置編碼會與雙向LSTM當前時間點的隱狀態(tài)進行結合。之后給定擴散路徑中的一個時間點樣本,時間條件生成器預測此點前一個時間點的高斯分布參數(shù)和多項式分布參數(shù)。訓練過程計算loss函數(shù)和最小化損失函數(shù),訓練出最終模型進行數(shù)據(jù)生成,使用訓練好的模型進行朗之萬采樣,生成高質(zhì)量且多樣化的EHR時間序列。
作者將TIMEDIFF在六個數(shù)據(jù)集上進行了實驗,與八種現(xiàn)有的方法進行了比較。評價標準使用實用性評價標準(訓練下游預測任務模型,通過預測性能說明)、醫(yī)學可解釋性評價(臨床專家打分等方法)、私密性評價、計量指標分析等。結果表明該模型在數(shù)據(jù)效用方面明顯優(yōu)于現(xiàn)有的所有方法。
TIMEDIFF模型目前在一些方面還存在不足,如僅考慮單個病人序列且推廣能力有限,模型內(nèi)部機理解釋性程度也需要提高。此外,訓練和采樣效率尚待優(yōu)化,真實大規(guī)模臨床數(shù)據(jù)的處理能力需要進一步增強。未來工作可以在以下幾個方面深入改進TIMEDIFF:a)加入注意力機制提取時間依賴關系;b)結合更多臨床知識如ICD編碼進行預訓練,生成樣本表現(xiàn)更切合臨床??傮w來說,提升TIMEDIFF在跨病人建模、推廣學習和醫(yī)學解釋性等方面的能力,將使其在保護隱私的基礎上為臨床應用提供更強大的支持。
表2對近年擴散模型在EHR數(shù)據(jù)生成領域的應用進行了對比分析。
4 其他模型在EHR數(shù)據(jù)生成中的應用
近年來,擴散模型在某些任務中展現(xiàn)出略高于VAE和GAN的性能,但VAE和GAN在生成領域長期積累的研究成果仍然顯著。本章重點分析擴散模型在EHR數(shù)據(jù)生成領域的發(fā)展,同時也探索VAE和GAN在該領域的應用成果,如表3所示,以期為擴散模型在這一領域的進一步發(fā)展提供新的視角和思路。
4.1 變分自編碼器(VAE)
為了解決研究人員對電子健康數(shù)據(jù)的需要,建立模型來生成EHR合成數(shù)據(jù),使用變分自編碼器VAE可以生成縱向的EHR數(shù)據(jù)。Biswal等人[64]提出名為EVA的方法,使該模型能夠根據(jù)特定的疾病條件進行生成,從而支持特定疾病的研究。
EVA作為生成真實離散EHR數(shù)據(jù)的深度生成模型,對時間條件的生成和多樣性的序列都有較好的效果,且該模型首次采用變分自編碼器進行EHR數(shù)據(jù)生成。VAE框架通過最大化特定方程來聯(lián)合學習生成模型和推理網(wǎng)絡的參數(shù)。推理網(wǎng)絡(編碼器)負責近似給定輸入數(shù)據(jù)的潛變量真后驗分布,生成模型(解碼器)負責在給定潛變量的情況下生成輸出數(shù)據(jù)[79]。
EVA模型可以生成連續(xù)的EHR序列,而不是單獨的靜態(tài)患者表征,即每一個生成的EHR對應一個假設患者,其中還包括一系列連續(xù)的門診記錄。每條門診記錄為一個類別化表示,即使用一個向量來表示該次門診記錄涉及的各種診斷代碼、用藥代碼等臨床元素。生成EHR數(shù)據(jù)時還考慮到了不同個體之間的差異,該模型可以根據(jù)可控制的條件來生成符合條件的患者群體,這一點彌補了以往生成EHR的限制[80]。模型的評價標準采用醫(yī)生評價來判定生成序列的真實性,采用預先訓練的模型與真實數(shù)據(jù)訓練模型進行對比,從側(cè)面反映了數(shù)據(jù)的質(zhì)量。
作者將模型生成因素分解為人口水平和個體水平,這一層次結構設計能有效學習人口水平的醫(yī)學特征表示,使模型的合成數(shù)據(jù)質(zhì)量得以提升。但模型依然有著明顯的不足,該模型在隱私風險評估方面存在缺陷,盡管通過訓練EVA并生成樣本可以克服從原始數(shù)據(jù)到生成數(shù)據(jù)的一對一映射,但需要正式評估生成數(shù)據(jù)的隱私保護,存在泄露的可能性,即當攻擊者能夠確定EVA是使用包含某患者記錄的數(shù)據(jù)集進行訓練時,攻擊者會假設該患者在訓練數(shù)據(jù)中,這可能導致隱私泄露。在數(shù)據(jù)方面,可以考慮更多臨床上重要的生物特征,并可以結合外部醫(yī)學詞匯來改進表示學習,且該模型使用的數(shù)據(jù)集可以考慮改用更大更權威的數(shù)據(jù)集。
4.2 對抗生成網(wǎng)絡(GAN)
生成對抗網(wǎng)絡作為最經(jīng)典的生成式模型之一,有著廣泛的應用領域和扎實的理論基礎,基于GAN模型可以生成不同類型的EHR數(shù)據(jù)、表格數(shù)據(jù)和時間序列。在EHR數(shù)據(jù)生成領域依然可以發(fā)揮較為穩(wěn)定的性能。
4.2.1 GAN模型生成EHR表格數(shù)據(jù)
早期GAN模型在EHR數(shù)據(jù)生成的應用一般體現(xiàn)在生成結構化離散表格EHR,如診斷計費的ICD編碼,medGAN就是最早開始學習離散特征表格和二進制特征表格的GAN模型[74]?;趍edGAN在離散表格數(shù)據(jù)方面的成功,分別根據(jù)帶有懲罰梯度的Wasserstein GAN(WAGE-GP)[81]和邊界搜索GAN模型(BGAN)[82]提出了medWGAN和medBGAN[75]模型,提高了medGAN的生成數(shù)據(jù)質(zhì)量。后續(xù)研究人員專注于通過提出的相關性捕獲GAN(correlation capturing GAN,CorGAN)[76]來改進EHR表格數(shù)據(jù)中相關性捕獲,CorGAN結合GAN和卷積自動編碼器(convolutional autoencoders,CA)來捕獲離散和連續(xù)數(shù)據(jù)中特征之間的局部相關性。后續(xù)工作中開始專注提高模型的訓練穩(wěn)定性,如EMR-WGAN(EMR Wasserstein GAN)中刪除了從medGAN中集成的自編碼器來解釋離散特征,應用過濾策略來增強針對低流行率臨床概念的GAN的訓練[83]。
4.2.2 GAN模型生成EHR時間序列數(shù)據(jù)
目前研究中多為生成可以呈現(xiàn)患者在單個時間點狀態(tài)的EHR表格數(shù)據(jù),但與時間序列數(shù)據(jù)相比,表格數(shù)據(jù)無法記錄和捕捉患者狀態(tài)的變化。
為了加強對時序數(shù)據(jù)生成的研究,Zhang等人[84]提出了合成包含時態(tài)EHR數(shù)據(jù)的生成框架(synthetic temporal EHR generation,SynTEG),該框架專注于生成帶有時間戳的ICD編碼。SynTEG使用兩步來完成這個目標:第一步依次從原始數(shù)據(jù)中提取時間模式,并采用自注意力層;第二步使用WGAN[81]來生成以學習模式為條件的數(shù)據(jù)。類似地,Lee等人[69]提出考慮使用雙對抗自動編碼器(dual adversarial autoencoder,DAAE)來改進兩個GAN組件,根據(jù)患者的時間順序來合成EHR序列,該模型可以合成定值醫(yī)療記錄序列。對于合成EHR的時間序列數(shù)據(jù)任務,還有一些GAN模型使用變式,如生成時間序列藥物實驗室效應(DLE)軌跡,這個效應軌跡的作用是患者在接收干預措施后監(jiān)測患者,以防止藥物的不良反應。Esteban等人使用循環(huán)的GAN模型(RGAN)以及條件生成對抗網(wǎng)絡提出了可以生成連續(xù)時間序列的RCGAN模型,循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)和長短期記憶網(wǎng)絡(long short-term memory,LSTM)被用作RCGAN的生成器和判別器。之后受患者狀態(tài)、臨床藥物劑量數(shù)據(jù)和根據(jù)患者狀態(tài)調(diào)整劑量的臨床實踐的推動,順序耦合GAN(sequentially coupled GAN,SC-GAN)[77]被設計出來,該模型由兩個不同的基于LSTM的生成器組成,用于協(xié)調(diào)患者狀態(tài)和藥物劑量數(shù)據(jù)的審查工作,患者狀態(tài)生成器的輸出被放入藥物劑量數(shù)據(jù)生成器上,后者生成器模仿根據(jù)患者狀態(tài)來調(diào)整藥物劑量的臨床實踐狀態(tài)。
根據(jù)表3可以看出早期的GAN在EHR數(shù)據(jù)生成領域一般是專注于離散編碼的生成,并且對于高維度的數(shù)據(jù)生成任務GAN容易發(fā)生模式崩潰等問題,于是研究人員開始逐漸引入自編碼器來緩解該問題。之后研究方向逐漸轉(zhuǎn)變?yōu)檠芯繒r序數(shù)據(jù),于是開始加入RNN和LSTM以及自注意力機制來對特征進行準確捕捉。但以GAN為基礎的模型遇到瓶頸,其生成性能無法提升后,研究者開始專注于研究模型穩(wěn)定性和模型生成數(shù)據(jù)效率上。
對比表2和3可知在基線模型方面,GAN和VAE的基線選取沒有統(tǒng)一的標準,部分模型的基線只是模型自身的條件生成版或者消融實驗作為基線對比,這大大減少了實驗應有的說服力。在評價標準方面,無論是GAN和VAE并沒有較為統(tǒng)一的評價標準,但還是可以分為兩個方向:效用指標和隱私指標。對于擴散模型已經(jīng)逐漸開始形成統(tǒng)一標準,基本所有實驗都會引用效用指標中對維度考察的相關指標,并且下游機器學習模型的訓練也可以側(cè)面說明生成數(shù)據(jù)的效用。在隱私方面都開始引入成員推斷和屬性推斷來衡量其隱私性,評價指標的選取逐漸趨于成熟。在數(shù)據(jù)集選取方面,有部分數(shù)據(jù)集較為經(jīng)典,也是最近的研究傾向于選用的,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等數(shù)據(jù)集。同時還有部分研究人員更傾向于使用私人數(shù)據(jù)集,這也在保證隱私性和安全性的同時展開了研究,但由于數(shù)據(jù)集無法公開,使得模型的可移植性和可解釋性有待考量。
5 未來展望
最新的擴散模型技術在電子健康檔案數(shù)據(jù)生成領域的應用為潛在的研究和決策支持系統(tǒng)帶來了令人鼓舞的前景,本文回顧了在這一領域的研究工作,涵蓋了擴散模型在EHR數(shù)據(jù)生成中的算法、理論和應用進展。然而,該研究仍然存在一些挑戰(zhàn)、差距和發(fā)展機遇需要進一步考慮和解決。
5.1 評價指標現(xiàn)狀與發(fā)展方向
在EHR領域中,可靠擴散模型的開發(fā)受到缺乏通用評估方法的制約,這是其發(fā)展的主要瓶頸。根據(jù)表1,評估組件和指標尚未標準化。目前的方法包括:a) 借鑒圖像生成和非醫(yī)學時間序列生成等其他領域的擴散模型應用指標;b) 使用基準模型的評估指標;c) 引入新的評估指標。此外,同一評估測試可能使用不同的名稱,導致了擴散模型評估的混亂[4,59~62]。在評估機器學習性能時,必須報告合成數(shù)據(jù)集和真實數(shù)據(jù)集的結果,以了解模型的基線性能并準確確定合成數(shù)據(jù)對下游任務的效用。另外,不同的指標會導致各種限制和權衡,且同類模型之間并沒有橫向?qū)Ρ取R虼?,EHR生成領域在沒有完整且系統(tǒng)的公用評價指標前提下無法比較出EHR生成任務的最優(yōu)模型。雖然提供定性評估和分析可以證明模型的研究價值,但如果不支持統(tǒng)一嚴格的定量評估指標將嚴重阻礙該領域的發(fā)展。本研究介紹了不同擴散模型在不同任務中選擇的評估指標,希望通過這項工作來激發(fā)研究者的后續(xù)研究。研究方向著重于對新引入評估指標的測試和使用、研究評估指標的局限性和權衡指標的側(cè)重方向,最終會制定出評估指標選擇及其權重的標準化指南,并確保其與合成數(shù)據(jù)的實用性相匹配。
未來的研究還可以是探討合成數(shù)據(jù)的通用性方面,并在優(yōu)化標準中加以考慮。例如在機器學習任務中,為了數(shù)據(jù)增強而生成的合成數(shù)據(jù)的評估方法應該與為研究目的生成數(shù)據(jù)有所不同。在當前關于EHR的擴散模型文獻中,缺少對合成數(shù)據(jù)通用性的研究且擴散模型訓練的計算成本較高。
5.2 進一步平衡隱私性和實用性
正如Ceritli等人[61]提出TabDDPM時首次引入的觀點,生成模型在數(shù)據(jù)生成時要對隱私保護和數(shù)據(jù)實用性之間做好權衡。擴散模型的高性能依賴于比其他生成式模型有更高的訓練穩(wěn)定性,可選擇樣本的多樣性以及其特別的模型架構?;跀U散模型的生成任務通過對噪聲圖片去噪完成分布相似的數(shù)據(jù)生成,保證合成數(shù)據(jù)在隱私方面得到保護,因為單個合成輸出與真實輸入之間沒有直接關系。然而,在處理諸如EHR等敏感信息時可能會發(fā)生意外的信息泄露。
為了解決實用性與隱私之間的權衡問題,無論選擇何種隱私保證級別,后續(xù)研究者都應該同時測試這兩個因素。一些早期的研究沒有充分考慮信息泄露風險,同樣,一些專注于提高生成模型隱私保護的工作也未充分評估數(shù)據(jù)的分布相似性保持問題,例如,差異隱私等隱私保證對于隱私保護很有幫助,但可能在保真度和實用性方面帶來高昂的代價。未來的研究方向應與監(jiān)管機構合作,制定關于隱私風險的明確指南,這樣私人數(shù)據(jù)所有者才能放心地共享合成數(shù)據(jù),從而為新的研究應用開辟道路。
5.3 引入多模態(tài)數(shù)據(jù)特征
各種臨床多樣性的EHR數(shù)據(jù)為數(shù)據(jù)驅(qū)動的機器學習研究提供了廣泛可能性,當前大多數(shù)EHR數(shù)據(jù)生成模型專注于單一數(shù)據(jù)模態(tài)的生成,雖然已開始從單一時間點的表格數(shù)據(jù)向包含時間序列的數(shù)據(jù)轉(zhuǎn)變,但很少有模型能夠同時捕捉異構類型數(shù)據(jù)之間的相關性。此外,盡管部分模型能夠條件化生成連續(xù)和離散分類數(shù)據(jù),但實際醫(yī)學數(shù)據(jù)呈現(xiàn)多種形式,包括非結構化醫(yī)學記錄和醫(yī)療影像等。
未來的研究應考慮如何利用圖像、語音等多模態(tài)數(shù)據(jù)來豐富和改進EHR數(shù)據(jù)的生成質(zhì)量和多樣性。合成數(shù)據(jù)具有潛力激發(fā)廣泛的臨床研究,加速研究進展、推動醫(yī)療保健機器學習的發(fā)展。特別是在基于擴散模型的EHR數(shù)據(jù)生成方面,這是一個相對新興的領域,仍有很大的改進空間,尤其是在處理EHR數(shù)據(jù)多樣性、異質(zhì)性、缺失和稀疏性等方面。未來的工作應集中在改進模型以更好地捕捉這些復雜性,提高合成數(shù)據(jù)的質(zhì)量和可用性,為臨床研究和醫(yī)療保健領域帶來更大的益處。同時,需要加強與醫(yī)療監(jiān)管機構的合作,確保合成數(shù)據(jù)的可靠性和隱私保護,為其在臨床實踐中的廣泛應用奠定堅實基礎。
5.4 下游任務推理
在以往的研究中,通常是將下游任務模型的效果作為生成數(shù)據(jù)質(zhì)量和實用性的側(cè)面反映,實際上,將生成的大量數(shù)據(jù)用作訓練樣本進行臨床預測模型的預訓練是一種常見的做法。由于生成的數(shù)據(jù)量龐大,可以解決真實數(shù)據(jù)數(shù)量有限的問題,有助于模型學習任務的規(guī)律。在生成數(shù)據(jù)上預訓練預測模型,然后在真實數(shù)據(jù)上微調(diào)優(yōu)化。這樣做可以借鑒生成器學習到的知識來促進下游模型效果的提升。接著可以將生成數(shù)據(jù)和真實數(shù)據(jù)結合進行聯(lián)合訓練。利用合成數(shù)據(jù)進行訓練,在真實數(shù)據(jù)進行測試;利用真實數(shù)據(jù)和合成數(shù)據(jù)進行訓練,真實數(shù)據(jù)進行測試等兩種數(shù)據(jù)交叉使用的方法,
這種互相促進的方式有助于改善下游任務模型的效果。這種集成方法可以更好地利用生成數(shù)據(jù)和真實數(shù)據(jù)之間的優(yōu)勢,為臨床研究和醫(yī)療保健提供更加準確和可靠的模型預測。
6 結束語
在電子健康檔案(EHR)數(shù)據(jù)生成領域,隨著醫(yī)療信息技術的快速發(fā)展,隱私保護日益成為關注的核心議題。生成合成EHR數(shù)據(jù)時必須確保不泄露個人身份信息,同時保持數(shù)據(jù)的統(tǒng)計特性和臨床相關性,以滿足醫(yī)療研究和數(shù)據(jù)分析的需求。選擇和設計生成模型(如VAE、GAN、擴散模型等)至關重要,每種模型在數(shù)據(jù)質(zhì)量和隱私保護方面各有優(yōu)勢和限制。因此,研究人員需在這些選擇中進行權衡,以找到最適合特定場景的生成方法。
近年來,擴散模型在EHR數(shù)據(jù)生成領域迅速發(fā)展,其優(yōu)秀的生成效果引起了廣泛關注,這些模型通過模擬數(shù)據(jù)的擴散和反向擴散過程來生成數(shù)據(jù),有效保護了數(shù)據(jù)的隱私性。擴散模型的出現(xiàn)為生成高質(zhì)量且具有一定隱私性要求的EHR數(shù)據(jù)提供了新的方法和思路,結合生成模型的技術優(yōu)勢和對隱私保護的需求,擴散模型已成為EHR數(shù)據(jù)生成領域的研究熱點之一。
此外,評估合成EHR數(shù)據(jù)的質(zhì)量也是一個重要的課題。除了數(shù)據(jù)的統(tǒng)計特性和臨床相關性外,評估指標還包括Kullback-Leibler (KL) 散度、合成數(shù)據(jù)的實用性和隱私保護等。研究人員需要綜合考慮這些指標,以確保生成的數(shù)據(jù)能夠在醫(yī)療研究和數(shù)據(jù)分析中發(fā)揮有效的作用。
盡管在EHR數(shù)據(jù)生成領域取得了進展,但仍面臨諸多挑戰(zhàn),如如何平衡隱私與數(shù)據(jù)實用性、處理多模態(tài)數(shù)據(jù)、提高生成數(shù)據(jù)的多樣性和復雜性等,都需要進一步研究和探索。此外,為確保合成數(shù)據(jù)的可靠性和合規(guī)性,研究人員需與醫(yī)療監(jiān)管機構合作,制定明確的指南和標準。隨著技術進步和合成數(shù)據(jù)應用范圍的擴展,EHR數(shù)據(jù)生成領域?qū)⒂瓉砀嗵魬?zhàn)與機遇。
參考文獻:
[1]Sonabend A, Lu Junwei, Celi L A, et al. Expert-supervised reinforcement learning for offline policy learning and evaluation [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 18967-18977.
[2]Yuan Hongyi, Yu Sheng. Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification [J]. Artificial Intelligence In Medicine, 2024,148(2): 102748.
[3]Huang Kexin, Altosaar J, Ranganath R. ClinicalBERT: modeling clinical notes and predicting hospital readmission [EB/OL]. (2020-11-29). https://arxiv.org/pdf/1904.05342v3.
[4]Yuan Hongyi, Zhou Songchi, Yu Sheng. EHRDiff: exploring realistic EHR synthesis with diffusion models [EB/OL]. (2024-03-24). https://arxiv.org/pdf/2303.05656.
[5]Iyengar A, Kundu A, Pallis G. Healthcare informatics and privacy [J]. IEEE Internet Computing, 2018, 22(2): 29-31.
[6]Janmey V, Elkin P L. Re-identification risk in HIPAA de-identified datasets: the MVA attack [J]. AMIA Annual Symposium Proceedings, 2018, 2018: 1329-1337.
[7]Chen R J, Lu Mingyang, Chen T Y, et al. Synthetic data in machine learning for medicine and healthcare [J]. Nature Biomedical Engineering, 2021, 5(6): 493-497.
[8]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [C]// Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-268.
[9]He Huan, Zhao Shifan, Xi Yuanzhe, et al. GDA-AM: on the effectiveness of solving minimax optimization via Anderson mixing [C]// Proc of the 10th International Conference on Learning Representations. 2022.
[10]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proc of the 25th International Conference on Machine Learning. New York: ACM Press, 2008: 1096-1103.
[11]Li Xiang, Thickstun J, Gulrajani I, et al. Diffusion-LM improves controllable text generation [C]// Proc of the 36th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022: 4328-4343.
[12]Huang Rongjie, Lam M W Y, Wang Jun, et al. FastDiff: a fast conditional diffusion model for high-quality speech synthesis [C]// Proc of the 31st International Joint Conference on Artificial Intelligence Main Track. 2022: 4157-4163.
[13]Zhang Guanhua, Ji Jiabao, Zhang Yang, et al. Towards coherent image inpainting using denoising diffusion implicit models [EB/OL]. (2023-04-06). https://arxiv.org/pdf/2304.03322.
[14]Song Yang, Sohl-Dickstein J, Kingma D P, et al. Score-based gene-rative modeling through stochastic differential equations [EB/OL]. (2021-02-10). https://arxiv.org/abs/2011.13456.
[15]Sohl-Dickstein J, Weiss E A, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2256-2265.
[16]Burda Y, Grosse R, Salakhutdinov R. Accurate and conservative estimates of MRF log-likelihood using reverse annealing [C]// Proc of the 18th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2015:102-110.
[17]Jarzynski C. Equilibrium free-energy differences from nonequilibrium measurements: a master-equation approach [J]. Physical Review E, 1997, 56(5): 5018.
[18]Creswell A, White T, Dumoulin V, et al. Generative adversarial networks: an overview [J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.
[19]Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 6840-6851.
[20]Song Jiaming, Meng Chenlin, Ermon S. Denoising diffusion implicit models [EB/OL]. (2022-10-05). https://arxiv.org/abs/2010.02502.
[21]Nichol A, Dhariwal P. Improved denoising diffusion probabilistic models [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8162-8171.
[22]Song Yang, Ermon S. Generative modeling by estimating gradients of the data distribution [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 11918-11930.
[23]Kirkpatrick S, Jr Gelatt C D, Vecchi M P. Optimization by simulated annealing [J]. Science, 1983, 220(4598): 671-680.
[24]Neal R M. Annealed importance sampling [J]. Statistics and Computing, 2001, 11(4): 125-139.
[25]Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis [C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 8780-8794.
[26]Ho J, Salimans T. Classifier-free diffusion guidance [EB/OL]. (2022-07-26). https://arxiv.org/abs/2207.12598.
[27]Nichol A, Dhariwal P, Ramesh A, et al. GLIDE: towards photorea-listic image generation and editing with text-guided diffusion models [C]// Proc of the 39th International Conference on Machine Lear-ning. [S.l.]: PMLR, 2022:16784-16804.
[28]Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with CLIP latents [EB/OL]. (2022-04-13). http://export.arxiv.org/abs/2204.06125.
[29]Saharia C, Chan W, Saxena S, et al. Photorealistic text-to-image diffusion models with deep language understanding [EB/OL]. (2022-05-23). https://arxiv.org/abs/2205.11487.
[30]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10684-10695.
[31]Wahid R, Mero J, Ritala P. Editorial: written by ChatGPT, illustrated by Midjourney: generative AI for content marketing [J]. Asia Pacific Journal of Marketing and Logistics, 2023, 35(8): 1813-1822.
[32]Song Yang, Ermon S. Improved techniques for training score-based generative models [C]// Proc of the 34th International Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2020: 12438-12448.
[33]Amit T, Shaharbany T, Nachmani E, et al. SegDiff: image segmentation with diffusion probabilistic models [EB/OL]. (2022-09-07). https://arxiv.org/abs/2112.00390.
[34]Baranchuk D, Rubachev I, Voynov A, et al. Label-efficient semantic segmentation with diffusion models [EB/OL]. (2022-03-16). https://arxiv.org/abs/2112.03126.
[35]Alcaraz J M L, Strodthoff N. Diffusion-based time series imputation and forecasting with structured state space models [EB/OL]. (2023-05-06). https://arxiv.org/abs/2208.09399.
[36]Chen Nanxin, Zhang Yu, Zen Heiga, et al. WaveGrad: estimating gradients for waveform generation [EB/OL]. (2020-10-09). https://arxiv.org/abs/2009.00713.
[37]Blau T, Ganz R, Kawar B, et al. Threat model-agnostic adversarial defense using diffusion models [EB/OL]. (2022-07-17). https://arxiv.org/abs/2207.08089.
[38]Anand N, Achim T. Protein structure and sequence generation with equivariant denoising diffusion probabilistic models [EB/OL]. (2022-05-26). https://arxiv.org/abs/2205.15019.
[39]Hoogeboom E, Satorras V G, Vignac C, et al. Equivariant diffusion for molecule generation in 3D [C]// Proc of the 39th International Conference on Machine Learning. [S.l.]: PMLR, 2022: 8867-8887.
[40]Cao Chentao, Cui Zhuoxu, Wang Yue, et al. High-frequency space diffusion model for accelerated MRI [J]. IEEE Trans on Medical Imaging, 2024, 43(5): 1853-1865.
[41]Chung H, Lee E S, Ye J C. MR image denoising and super-resolution using regularized reverse diffusion [J]. IEEE Trans on Medical Imaging, 2022, 42(4): 922-934.
[42]Karras T, Aittala M, Aila T, et al. Elucidating the design space of diffusion-based generative models [C]// Proc of the 36th Internatio-nal Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2022: 26565-26577.
[43]來杰, 王曉丹, 向前, 等. 自編碼器及其應用綜述 [J]. 通信學報, 2021, 42(9): 218-230.( Lai Jie, Wang Xiaodan, Xiang Qian, et al. Review on autoencoder and its application [J]. Journal on Communications, 2021, 42(9): 218-230.)
[44]張彬, 周粵川, 張敏, 等. 生成對抗網(wǎng)絡改進角度與應用研究綜述 [J]. 計算機應用研究, 2023, 40(3): 649-658. (Zhang Bin, Zhou Yuechuan, Zhang Min, et al. Review of research on improvement and application of generative adversarial networks [J]. Application Research of Computers, 2023, 40(3): 649-658.)
[45]Hyvrinen A. Some extensions of score matching [J]. Computatio-nal Statistics amp; Data Analysis, 2007, 51(5): 2499-2512.
[46]Hyvrinen A, Dayan P. Estimation of non-normalized statistical mo-dels by score matching [J]. Journal of Machine Learning Research, 2005, 6(4): 695-709.
[47]Song Yang, Garg S, Shi Jiaxin, et al. Sliced score matching: a sca-lable approach to density and score estimation [C]// Proc of the 35th Uncertainty in Artificial Intelligence Conference. [S.l.]: PMLR, 2020: 574-584.
[48]Jolicoeur-Martineau A, Piché-Taillefer R, Combes R T, et al. Adversarial score matching and improved sampling for image generation [EB/OL]. (2020-10-10). https://arxiv.org/abs/2009.05475.
[49]Parisi G. Correlation functions and computer simulations [J]. Nuclear Physics B, 1981, 180(3): 378-384.
[50]Jolicoeur-Martineau A, Li Ke, Piché-Taillefer R, et al. Gotta go fast when generating data with score-based models [EB/OL]. (2021-05-28). https://arxiv.org/abs/2105.14080.
[51]Lu Cheng, Zhou Yuhao, Bao Fan, et al. DPM-solver: a fast ODE solver for diffusion probabilistic model sampling in around 10 steps [C]// Advances in Neural Information Processing Systems. 2022: 5775-5787.
[52]Vincent P. A connection between score matching and denoising autoencoders [J]. Neural Computation, 2011, 23(7): 1661-1674.
[53]Zhang Qinsheng, Chen Yongxin. Fast sampling of diffusion models with exponential integrator [EB/OL]. (2023-02-25). https://arxiv.org/abs/2204.13902.
[54]Rashidian S, Wang F, Moffitt R, et al. SMOOTH-GAN: towards sharp and smooth synthetic EHR data generation [C]// Proc of the 18th International Conference on Artificial Intelligence in Medicine. Berlin: Springer-Verlag, 2020: 37-48.
[55]Murtaza H, Ahmed M, Khan N F, et al. Synthetic data generation: state of the art in health care domain [J]. Computer Science Review, 2023, 48(5): 100546.
[56]Johnson A E W, Pollard T J, Shen Lu, et al. MIMIC-Ⅲ, a freely accessible critical care database [J]. Scientific Data, 2016, 3(1): article No.160035.
[57]Johnson A E W, Bulgarelli L, Shen Lu, et al. MIMIC-Ⅳ, a freely accessible electronic health record dataset [J]. Scientific Data, 2023, 10(1): article No.1.
[58]Hodge Jr J G, Gostin L O, Jacobson P D. Legal issues concerning electronic health information: privacy, quality, and liability [J]. Jama, 1999, 282(15): 1466-1471.
[59]He Huan, Zhao Shifan, Xi Yuanzhe, et al. MedDiff: generating electronic health records using accelerated denoising diffusion model [EB/OL]. (2023-02-08). https://arxiv.org/abs/2302.04355.
[60]Tian Muhang, Chen B, Guo A, et al. Fast and reliable generation of EHR time series via diffusion models [EB/OL]. (2023-09-23). https://openreview.net/pdf?id=ESSqkWnApz.
[61]Ceritli T, Ghosheh G O, Chauhan V K, et al. Synthesizing mixed-type electronic health records using diffusion models [EB/OL]. (2023-08-10). https://arxiv.org/abs/2302.14679.
[62]Naseer A A, Walker B, Landon C, et al. ScoEHR: generating synthetic electronic health records using continuous-time diffusion models [C]// Proc of the 8th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2023: 489-508.
[63]Kuo N I, Jorm L, Barbieri S. Synthetic health-related longitudinal data with mixed-type variables generated using diffusion models [EB/OL]. (2023-03-22). https://arxiv.org/abs/2303.12281.
[64]Biswal S, Ghosh S, Duke J, et al. EVA: generating longitudinal electronic health records using conditional variational autoencoders [C]// Proc of the 6th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2021: 260-282.
[65]Sadati N, Nezhad M Z, Chinnam R B, et al. Representation learning with autoencoders for electronic health records: a comparative study [EB/OL]. (2019-09-20). https://arxiv.org/abs/1908.09174.
[66]Iqbal T, Ali H. Generative adversarial network for medical images (MI-GAN) [J]. Journal of Medical Systems, 2018, 42(11): 231.
[67]Walonoski J, Kramer M, Nichols J, et al. Synthea: an approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record [J]. Journal of the American Medical Informatics Association, 2018, 25(3): 230-238.
[68]Sun Chang, Van Soest J, Dumontier M. Generating synthetic personal health data using conditional generative adversarial networks combining with differential privacy [J]. Journal of Biomedical Informa-tics, 2023, 143(7): 104404.
[69]Lee D, Yu H, Jiang Xiaoqian, et al. Generating sequential electronic health records using dual adversarial autoencoder [J]. Journal of the American Medical Informatics Association, 2020, 27(9): 1411-1419.
[70]Pollard T J, Johnson A E W, Raffa J D, et al. The eICU collaborative research database, a freely available multi-center database for critical care research [J]. Scientific Data, 2018, 5(1): 180178.
[71]Asuncion A, Newman D. UCI machine learning repository [DB/OL]. [2024-03-02]. https://archive.ics.uci.edu/datasets.
[72]Buczak A L, Babin S, Moniz L. Data-driven approach for creating synthetic electronic medical records [J]. BMC Medical Informatics and Decision Making, 2010, 10: article No.59.
[73]Yan Chao, Yan Yao, Wan Zhiyu, et al. A multifaceted benchmar-king of synthetic electronic health record generation models [J]. Nature Communications, 2022, 13(1): 7609.
[74]Choi E, Biswal S, Malin B, et al. Generating multi-label discrete patient records using generative adversarial networks [C]// Proc of the 2nd Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2017: 286-305.
[75]Baowaly M K, Lin C C, Liu Chaolin, et al. Synthesizing electronic health records using improved generative adversarial networks [J]. Journal of the American Medical Informatics Association, 2019, 26(3): 228-241.
[76]Torfi A, Fox E A. CorGAN: correlation-capturing convolutional ge-nerative adversarial networks for generating synthetic healthcare records [C]// Proc of the 33rd International Florida Artificial Intelligence Research Society Conference. Palo Alto, CA: AAAI Press, 2020.
[77]Wang Lu, Zhang Wei, He Xiaofeng. Continuous patient-centric sequence generation via sequentially coupled adversarial learning [C]// Proc of the 24th International Conference Database Systems for Advanced Applications. Cham: Springer, 2019: 36-52.
[78]Hoogeboom E, Nielsen D, Jaini P, et al. Argmax flows and multinomial diffusion: learning categorical distributions [EB/OL]. (2021-10-22). https://arxiv.org/abs/2102.05379.
[79]Kingma D P, Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20). http://export.arxiv.org/abs/1312.6114.
[80]Hu Zhiting, Yang Zichao, Liang Xiaodan, et al. Toward controlled generation of text [C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: PMLR, 2017: 1587-1596.
[81]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.
[82]Hjelm R D, Jacob A P, Che Tong, et al. Boundary-seeking generative adversarial networks [EB/OL]. (2018-02-21). https://arxiv.org/abs/1702.08431.
[83]Zhang Ziqi, Yan Chao, Mesa D A, et al. Ensuring electronic medical record simulation through better training, modeling, and evaluation [J]. Journal of the American Medical Informatics Association, 2020, 27(1): 99-108.
[84]Zhang Ziqi, Yan Chao, Lasko T A, et al. SynTEG: a framework for temporal structured electronic health data simulation [J]. Journal of the American Medical Informatics Association, 2021, 28(3): 596-604.
[85]Esteban C, Hyland S L, Rtsch G. Real-valued (medical) time series generation with recurrent conditional GANs [EB/OL]. (2017-12-04). https://arxiv.org/abs/1706.02633.