• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向擴散模型的電子健康檔案數(shù)據(jù)生成研究綜述

    2024-12-30 00:00:00魏博倫張賢坤
    計算機應用研究 2024年12期

    摘 要:

    醫(yī)學領域的電子健康檔案(electronic health records,EHR)數(shù)據(jù)涵蓋了大量寶貴的生物醫(yī)學知識,為醫(yī)療數(shù)據(jù)分析提供了重要的資源。然而,隱私保護和數(shù)據(jù)共享的限制成為研究的主要瓶頸,阻礙了數(shù)據(jù)分析和機器學習技術在醫(yī)療領域的應用和發(fā)展,為應對這些挑戰(zhàn),研究者探索使用生成式建模來生成EHR數(shù)據(jù)。首先介紹并概括了擴散模型的起源與發(fā)展;深入探討了現(xiàn)有擴散模型的各種方法,對不同方法進行了詳細分析;列舉并對比了各種生成式建模方法在EHR數(shù)據(jù)生成中的應用效果,重點分析了擴散模型的優(yōu)勢和局限性。最后,總結了擴散模型在EHR數(shù)據(jù)生成領域的應用現(xiàn)狀,討論了當前研究的局限性并展望了擴散模型在該領域的未來發(fā)展方向。

    關鍵詞:擴散模型;數(shù)據(jù)生成;電子健康檔案;生成式模型

    中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2024)12-001-3521-12

    doi: 10.19734/j.issn.1001-3695.2024.04.0122

    Research on electronic health record data generation for diffusion models

    Wei Bolun, Zhang Xiankun

    (College of Artificial Intelligence, Tianjin University of Science amp; Technology, Tianjin 300457, China)

    Abstract:

    Electronic health records (EHR) data in the medical field contain a wealth of valuable biomedical knowledge and provide a crucial resource for healthcare data analysis. However, privacy protection and data sharing constraints have become significant bottlenecks for researchers, hindering the application and development of data analysis and machine learning techniques in healthcare. To address these challenges, researchers have been exploring the use of generative modeling methods to generate EHR data. Firstly, this paper introduced and summarized the origins and evolution of diffusion models. Next, it delved into various existing diffusion model methods, providing a detailed analysis of each approach. Then it listed and compared different generative modeling methods applied in EHR data generation, emphasized the advantages and limitations of diffusion models. Finally, it summarized the current applications of diffusion models in EHR data generation, discussed the limitations of current research, and presented an outlook on the future development and application of diffusion models in this field.

    Key words:diffusion models; data generation; electronic health records; generative models

    0 引言

    對患者進行身體各項指標的重復測量和追蹤,進而匯總成該患者的電子健康檔案(EHR),其數(shù)據(jù)包括疾病演變、生物醫(yī)學、患者個人隱私等重要信息。大量的EHR數(shù)據(jù)為開發(fā)最先進的計算生物醫(yī)學方法奠定了堅實的數(shù)據(jù)基礎,如用于動態(tài)疾病治療[1]、可區(qū)分自動診斷[2]、生物醫(yī)學方面自然語言處理任務[3]等。

    然而,真實的EHR數(shù)據(jù)多數(shù)包含患者的個人敏感信息以及其他重要隱私信息,涉及到患者的隱私保護問題,這使得基于海量EHR數(shù)據(jù)進行的數(shù)據(jù)分析工作和在醫(yī)療保健領域的機器學習研究發(fā)展緩慢且有限[4]。傳統(tǒng)的數(shù)據(jù)匿名方法非常煩瑣且成本高昂,其數(shù)據(jù)加密方法可能會扭曲真實數(shù)據(jù)集的重要特征,從而顯著降低數(shù)據(jù)的使用效果[5],并且在數(shù)據(jù)敏感信息加密時,即使過程符合現(xiàn)有標準也容易受到隱私攻擊[6]。

    合成EHR數(shù)據(jù)為在醫(yī)療領域的數(shù)據(jù)分析、數(shù)據(jù)共享等技術的發(fā)展提供了新的可能[7]。合成EHR數(shù)據(jù)應該著重關注兩個關鍵屬性:合成數(shù)據(jù)的高保真度(即在下游任務使用時有與真實數(shù)據(jù)相同的效果);具有隱私保護特性(即使用合成數(shù)據(jù)不會泄露真實患者的任何信息)。在合成EHR數(shù)據(jù)方面,各種生成模型的研究分別取得了不同程度的進展[8]?,F(xiàn)有的合成EHR數(shù)據(jù)的算法主要采用生成對抗網(wǎng)絡(generative adversarial network,GAN)[9]、自編碼器(autoencoder,AE)[10]或者兩者相互組合的變體。盡管這些方法在合成高質(zhì)量的EHR數(shù)據(jù)和隱私保護方面取得了較為理想的實驗成果,但它們面臨著模式崩潰和訓練不穩(wěn)定的問題。部分研究者提出不同的技術來解決這些問題,但面對復雜的真實EHR數(shù)據(jù),現(xiàn)有的模型生成效果并不理想。近年來,一種名為擴散模型的生成式建模被提出,并迅速在文本[11]、音頻[12]、計算機視覺[13,14]等領域表現(xiàn)了較好的生成性能。隨著擴散模型被進一步深入研究,其生成內(nèi)容在質(zhì)量和多樣性方面逐漸超越了GAN和自編碼器的性能。擴散模型相較于GAN有著易于訓練和易于處理的優(yōu)點,與自回歸模型相比生成速度較快。一般來說,擴散模型從隨機噪聲特征開始,使用經(jīng)過訓練的去噪模型逐漸去除特征中的噪聲,最終生成與真實數(shù)據(jù)分布相同的合成特征。截止到2024年3月,近15年在Web of Science上以denoising diffusion models為關鍵詞的文獻量總體呈逐年上升趨勢(圖1),并且擴散模型被應用的學科領域廣泛,在Web of Science上可查詢到擴散模型在各個領域的應用取前15(圖2)。這些數(shù)據(jù)反映了對擴散模型研究的火熱程度,同時也說明了該模型在人工智能等多個領域的重要性。

    1 擴散模型提出與發(fā)展

    1.1 擴散模型提出

    擴散概率模型(diffusion probabilistic model,DPM)于2015年被Sohl-Dickstein等人[15]首次提出,旨在消除訓練圖像上連續(xù)應用的高斯噪聲,可將其視為一系列的去噪自編碼器。其主要思路是:a)定義一個馬爾可夫鏈作正向過程,將一種數(shù)據(jù)分布不斷地加噪聲逐步轉(zhuǎn)換為另一個噪聲分布(如高斯分布)[16];b)反向擴散過程,通過學習恢復數(shù)據(jù)原始分布的過程得到一個高度靈活且可以精確采樣和評估概率的生成模型。反向擴散過程中的每一步都可以解析計算,因此整個鏈條也可以解析評估。學習只需估計反向過程中對擴散過程的小擾動,之后從初始結果中將估計出的噪聲減去,從而在理論上可以得到干凈的圖片。

    該方法借鑒了非平衡統(tǒng)計物理學的思想[17],采用準靜態(tài)過程來訓練逆向擴散過程,并與正向過程共享相同的函數(shù)形式,易于學習。相比傳統(tǒng)方法,這種模型能靈活捕獲任意分布的數(shù)據(jù),同時具備可訓練性、精確采樣和評估的優(yōu)勢。最初只在簡單數(shù)據(jù)集上驗證,其在復雜場景中的應用和計算成本問題仍需進一步探索。

    1.2 擴散模型發(fā)展

    1.2.1 去噪擴散模型的發(fā)展

    自擴散概率模型在2015年被首次提出,現(xiàn)已成為最先進的深度生成模型之一,它打破了生成對抗網(wǎng)絡(GAN)[18]在圖像合成領域中的長期主導地位。但早期擴散概率模型的研究進展有限,直到2020年去噪概率擴散模型(denoising diffusion probabilistic model,DDPM)[19]的提出,使得擴散模型在圖像生成任務中變成主流,現(xiàn)在擴散模型通常指的就是DDPM。

    DDPM使用兩個馬爾可夫鏈,一個是將數(shù)據(jù)擾動為高斯噪聲的正向鏈,一個是將噪聲轉(zhuǎn)換為目標數(shù)據(jù)的反向鏈。正向鏈通過手工設計將任何數(shù)據(jù)分布轉(zhuǎn)換為簡單的先驗分布(通常是高斯分布),反向鏈通過深度神經(jīng)網(wǎng)絡參數(shù)化的轉(zhuǎn)換核來逆轉(zhuǎn)正向鏈,隨后從先驗分布中采樣來生成新的數(shù)據(jù)。同年,提出去噪擴散隱式模型(denoising diffusion implicit model,DDIM)[20],DDIM與DDPM有著相同的訓練目標,相比于需要較長正向擴散步數(shù)的DDPM,DDIM通過減少采樣步數(shù)、不局限于正向擴散過程必須是一個馬爾可夫鏈加速了生成過程。

    2021年提出了余弦噪聲調(diào)度[21]對DDPM進行改進,改變了添加噪聲的schedule,相比線性調(diào)度提升了高分辨率圖像的生成質(zhì)量,并大幅加速了采樣速度。盡管這些改進提高了模型性能,模型在低分辨率圖像生成任務中的表現(xiàn)仍需進一步優(yōu)化,與其他模型(如VAE和流模型)相比也還有待全面評估。

    1.2.2 基于分數(shù)的生成模型的發(fā)展

    2019年,Song等人[22]提出了基于分數(shù)的生成模型(score-based generative model,SGM),通過學習數(shù)據(jù)分布的對數(shù)梯度(score)來生成數(shù)據(jù)而不是直接學習數(shù)據(jù)分布。通過分布的score function可以得到分布的梯度,再沿著學習到的梯度逐步逼近目標數(shù)據(jù);利用朗之萬動力學迭代[23,24]逐漸降低噪聲水平,最終生成與目標分布相同的數(shù)據(jù)。由于SGM同樣也有改變噪聲強度的加噪過程,其中的朗之萬動力學退火相當于DDPM中的采樣去噪過程,兩者還可以通過隨機微分方程進行統(tǒng)一,統(tǒng)一后DDPM的噪聲預測網(wǎng)絡和SGM的梯度計算網(wǎng)絡可等價替換[14]。

    2021年,文獻[25]首次提出在擴散模型中使用分類器引導擴散,通過額外訓練的分類器計算梯度來指導模型生成圖像,使U-Net模型在生成過程中更好地接近目標圖像。此外,該研究受GAN實驗的啟發(fā),還通過消融實驗優(yōu)化了模型架構。

    2022年提出了可以不訓練分類器而是使用生成模型自己來做擴散的引導[26]。通過訓練有條件和無條件的擴散模型,在采樣時混合兩個模型的score估計來實現(xiàn)樣本質(zhì)量和多樣性之間的平衡,最終輸出為有條件生成減去無條件生成的結果,達到類似分類器引導的效果。

    1.2.3 擴散模型的統(tǒng)一

    目前的擴散模型是diffusion model和score-based model兩類算法的統(tǒng)稱。從擴散模型在2015年被提出到后來的diffusion model和score-based model,可以看作是早期兩個獨立發(fā)展的算法方向,后來逐漸融合統(tǒng)一為擴散模型,并在生成模型領域作出了重要貢獻。

    基于分數(shù)的生成模型[22]重點解決高維數(shù)據(jù)訓練中的擴展性問題,提出了切片分數(shù)匹配方法,盡管取得了進展,模型仍無法生成高質(zhì)量樣本。擴散概率模型通過學習變分解碼器逆轉(zhuǎn)數(shù)據(jù)擾動過程,生成新樣本,并通過證據(jù)下界(ELBO)進行訓練。這種方法與基于分數(shù)的模型使用score matching訓練和Langevin采樣生成樣本具有等價性。DDPM解釋了這種關系:訓練DPM的ELBO本質(zhì)上等同于基于分數(shù)模型的加權score matching目標。使用類似于基于分數(shù)模型的U-Net結構,DPM能夠生成媲美甚至超越GAN的高質(zhì)量圖像樣本[14]。

    Song等人進一步深入研究了DDPM和SGM之間的相關性,發(fā)現(xiàn)兩者的采樣方法可以結合從而構建出Predictor-Corrector samplers。更重要的是當可變噪聲強度的噪聲擾動擴展到無窮個尺度的噪聲,便可以得出DDPM和SGM都是由score function決定的隨機微分方程(SDE)的離散形式,從此兩者得到了統(tǒng)一。下文將分別介紹DDPM和SGM以及兩者連續(xù)時間擴散的SDE。

    經(jīng)過之前的發(fā)展,已經(jīng)將擴散模型的性能優(yōu)化到了可以超越同期的GAN和VAE等模型的水平。后續(xù)OpenAI又提出了在GLIDE[27]基礎上改進的DALL-E2[28],將擴散模型引入到了更為廣泛的視野中,并引發(fā)了圖片生成領域各類性能較好的模型出現(xiàn)。Google公司的研究人員提出了Imagen[29]以及Imagen2,Stability AI提出了Stable Diffusion[30],以及廣受關注的Midjourney[31]。

    如今,擴散模型已經(jīng)在圖像生成領域占據(jù)長期主導地位[32],并且應用于多個重要領域如計算機視覺[33,34]、時態(tài)數(shù)據(jù)建模[35,36]、魯棒機器學習[37]以及跨學科的計算化學[38,39]和醫(yī)學圖像重建[40,41]等。

    2 擴散模型的原理及數(shù)學實現(xiàn)

    擴散模型發(fā)展至今有三種主要的形式,分別是去噪擴散概率模型(DDPM)[15,19]、基于分數(shù)的生成模型(SGM)[22,32]和隨機微分方程(stochastic differential equation, SDE)[14,42]。

    2.1 去噪擴散概率模型(DDPM)

    2.1.1 正向過程

    DDPM中,原始數(shù)據(jù)及其分布用x0~q(x0)表示,正向過程中,前向馬爾可夫過程生成的一系列加噪時的隨機變量序列x1,x2,…,xT的轉(zhuǎn)換核為q(xt|xt-1)。根據(jù)概率鏈式法則以及馬爾可夫性質(zhì),可以分解x1,x2,…,xT在x0條件下的聯(lián)合概率密度q(x1,…,xT|x0),分解后表達為

    已知,就可已知反向SDE和ODE,隨后便可通過其他數(shù)值求解技術生成新樣本,如退火朗之萬動力學[22]、數(shù)值SDE求解器[14,50]、數(shù)值ODE求解器[14,20,42,51,53]。與SGM估計得分函數(shù)一樣,可以創(chuàng)造一個與時間相關的評分模型sθ(xt,t),通過分數(shù)匹配來估計評分函數(shù),得到目標函數(shù):

    3 擴散模型在EHR數(shù)據(jù)生成中的應用

    近年來擴散模型推動了數(shù)據(jù)生成領域的發(fā)展并逐漸應用于各領域,本文著重探討擴散模型在EHR數(shù)據(jù)生成領域的研究。

    獲取具有統(tǒng)計性和臨床代表性的患者健康數(shù)據(jù)對于推進疾病診療研究、提升患者護理和開發(fā)新型藥物具有巨大潛力。然而,電子健康記錄中含有敏感信息,數(shù)據(jù)共享會帶來隱私問題,并且EHR數(shù)據(jù)獲取成本高、時間長、樣本有限[54,55]。使用生成模型生成合成數(shù)據(jù)是一種有效的解決方案,能夠減輕這些風險。

    真實的EHR數(shù)據(jù)包含患者敏感的私人信息,在使用或公開前需要進行去識別化[56,57],在此過程中需要進行加密并且需要煩瑣嚴格的人工審查。另外由于法律和道德限制,其發(fā)布也需要數(shù)月時間[58],這嚴重阻礙了精準醫(yī)學方法研究的進步。于是研究者將目光轉(zhuǎn)向如何生成高質(zhì)量的EHR合成數(shù)據(jù),各類生成模型被投入在該領域中并取得了不錯的成果。近年來興起的擴散模型[4,59~63]具有高效的生成效率,在某些方面的評價可超越一些經(jīng)典的生成式模型,如變分自編碼器(variational autoencoder,VAE)[64,65]、生成對抗網(wǎng)絡(GAN)[8,9,66~68]及兩者的各種組合及變式[69]。

    3.1 擴散模型生成不同類型EHR數(shù)據(jù)

    EHR數(shù)據(jù)常見類型包括表格數(shù)據(jù)、時間序列數(shù)據(jù)、圖像數(shù)據(jù)和非結構化文本數(shù)據(jù)。近年來,生成建模主要應用于表格數(shù)據(jù)和時間序列數(shù)據(jù),兩者都以唯一的病人身份ID標識數(shù)據(jù)(如圖5、6所示)。在圖5(a)~(c)分別表示表格數(shù)據(jù)常見的三種類型:離散表格數(shù)據(jù)、連續(xù)表格數(shù)據(jù)和分類表格數(shù)據(jù)。離散表格數(shù)據(jù)一般包括病人每月看診次數(shù)、病人年齡、收縮壓、ICD編碼等具有多個不連續(xù)可能值的數(shù)據(jù),最開始引入擴散模型的數(shù)據(jù)類型就是離散表格數(shù)據(jù)的生成[59]。連續(xù)表格數(shù)據(jù)一般包括用藥記錄、血液、尿檢等檢查記錄,患者的部分醫(yī)學影像數(shù)據(jù)等檢查結果也可以用連續(xù)表格數(shù)據(jù)按照時間、部位和結果等信息進行記錄。由于連續(xù)數(shù)據(jù)的時序特性,在進行實際操作時有部分不同于離散表格數(shù)據(jù)的數(shù)據(jù)預處理方式。分類表格數(shù)據(jù)是表示起來最簡單的EHR數(shù)據(jù),一般包括性別、國籍、膚色、是否患某病等基本信息。在進行數(shù)據(jù)生成時,雖然其是有限數(shù)量個分類,但與其他信息有著強關聯(lián)性,所以分類表格數(shù)據(jù)的生成任務也是一大難點。

    時間序列數(shù)據(jù)依然會包括連續(xù)數(shù)據(jù)、離散數(shù)據(jù)和分類數(shù)據(jù),但由于其時序特性,其數(shù)據(jù)表現(xiàn)形式有所不同。如圖6所示,其中,的每一張表格代表一個人的EHR數(shù)據(jù),表中的第二、三列是連續(xù)時序數(shù)據(jù),第四、五列是分類時序數(shù)據(jù)和離散時序數(shù)據(jù);中將數(shù)據(jù)按照時間表示為更為方便處理的形式,為EHR數(shù)據(jù)生成提供了新的思路。

    3.2 EHR數(shù)據(jù)生成任務的挑戰(zhàn)與困難

    由于隱私和安全問題,大部分EHR數(shù)據(jù)限制了醫(yī)學信息挖掘和機器學習任務的發(fā)展。一些研究者轉(zhuǎn)而關注生成與原始數(shù)據(jù)分布相同且具備隱私保護的合成數(shù)據(jù)。通過生成模型學習原始數(shù)據(jù)的高維分布,訓練生成具有相同分布的合成數(shù)據(jù),從而避免隱私問題。圖7展示了EHR數(shù)據(jù)生成的步驟:a)對原始數(shù)據(jù)進行逆行去識別化處理,保護數(shù)據(jù)隱私,并將處理后的數(shù)據(jù)通過公開數(shù)據(jù)庫供研究者使用,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等;b)將處理好的數(shù)據(jù)用于訓練適合的生成模型,以生成EHR數(shù)據(jù),本文主要探討使用各類擴散模型進行EHR數(shù)據(jù)生成;c)對生成的數(shù)據(jù)進行隱私性評價,確保生成的合成數(shù)據(jù)符合安全隱私標準。

    早期EHR數(shù)據(jù)生成缺乏規(guī)范步驟,研究者多關注離散代碼特征如ICD編碼,而較少生成臨床敘述的表格、時序、圖像和非結構化文本數(shù)據(jù)。例如Buczak等人[72]的方法主要針對特定疾病生成EHR數(shù)據(jù),靈活性差且易泄露隱私。Walonoski等人[67]開發(fā)的Synthea軟件涵蓋了20種常見情況,但數(shù)據(jù)類型仍不夠豐富。引入機器學習模型后,GAN生成高質(zhì)量醫(yī)學數(shù)據(jù)但常遇到模式崩潰問題,只能生成部分數(shù)據(jù)分布。為解決此問題,研究者結合自編碼器減少特征維度,但參數(shù)不當會導致數(shù)據(jù)質(zhì)量下降和維度特征丟失。

    總的來說,在引入擴散模型到EHR數(shù)據(jù)生成領域之前,該領域相較于其他數(shù)據(jù)生成任務存在以下問題:

    a)數(shù)據(jù)類型單一,生成數(shù)據(jù)僅限于某類疾病或編碼,疾病類型不夠多樣化;

    b)隱私安全性不足,生成數(shù)據(jù)與原始數(shù)據(jù)高度相關,無法確保合成數(shù)據(jù)獨立且具有相同分布;

    c)模型性能問題,現(xiàn)有模型泛化能力和魯棒性不足,生成性能較差;

    d)數(shù)據(jù)格式復雜,EHR數(shù)據(jù)格式多樣且復雜,導致生成工作難以取得突破;

    e)數(shù)據(jù)質(zhì)量不統(tǒng)一,缺乏有效的評價標準,無法保證生成數(shù)據(jù)質(zhì)量。

    3.3 擴散模型應用于EHR數(shù)據(jù)生成

    由于EHR數(shù)據(jù)的使用法規(guī)和隱私問題,限制了研究中真實EHR數(shù)據(jù)的使用。機器學習模型需要大量多樣化的數(shù)據(jù)集進行訓練,生成模型如GAN和VAE在EHR數(shù)據(jù)生成中快速發(fā)展。近年來,擴散模型因其強生成能力引起關注,但尚未在EHR數(shù)據(jù)生成領域建立統(tǒng)一評價體系[73]。本節(jié)介紹了近年來基于擴散模型的EHR數(shù)據(jù)生成任務及其改進模型,表1列出了常用的評價標準。

    3.3.1 MedDiff

    He等人[59]首次成功將擴散模型應用于EHR數(shù)據(jù)生成,并將模型命名為MedDiff。該模型經(jīng)過調(diào)試可以生成高質(zhì)量、穩(wěn)健的樣本,并且通過安德森加速提升了模型的生成速度,MedDiff生成樣本的質(zhì)量優(yōu)于基于GAN的方法。

    MedDiff采用改進的U-Net架構,包括更深更寬的模型、位置嵌入、殘差塊用于上采樣和下采樣,以及重新縮放的殘差連接。傳統(tǒng)的DDPM適用于圖像和音頻生成,但在一維信號中效果有限[25],通過改進U-Net架構以適應一維結構的數(shù)據(jù)。為每一個患者生成一個向量,MedDiff可以很好地捕獲相鄰特征的相關性。該模型的基本架構是基于擴散模型改進的DDIM過程[20],其正向過程是將原始的EHR真實數(shù)據(jù)x0逐步加入噪聲,最后轉(zhuǎn)變?yōu)橥耆辉肼暩采w的樣本xT;其反向過程通過訓練后的生成器網(wǎng)絡來反向推斷樣本,通過預測出的噪聲從xT中逐步去除噪聲,最后還原到類似于原始樣本。

    MedDiff模型訓練過程中采用DDPM的重構誤差最小化目標,并通過反向傳播優(yōu)化生成器網(wǎng)絡參數(shù)。在采樣過程中,使用安德森加速算法通過線性組合近K步迭代結果來提高采樣效率。評價標準包括維度分布概率、相關系數(shù)和絕對誤差以及密度估計方法來評估有條件生成樣本的分布匹配度。研究中與其他生成模型如MedGAN、CorGAN和DDPM進行了比較,結果顯示MedDiff在多個指標上表現(xiàn)優(yōu)于這些模型。

    盡管MedDiff成功實現(xiàn)了高質(zhì)量醫(yī)療記錄的有條件生成,并通過加速算法提升了生成效率,但仍存在一些缺陷。未來的發(fā)展方向包括多模態(tài)學習處理更復雜的醫(yī)療記錄、生成更多動態(tài)和高關聯(lián)性的臨床時間序列數(shù)據(jù)。

    3.3.2 EHRDiff

    EHRDiff[4]探究了擴散模型在EHR數(shù)據(jù)生成領域的可能性,并在公開數(shù)據(jù)集MIMIC-Ⅲ上進行了大量實驗,結果表明,EHRDiff生成的EHR數(shù)據(jù)質(zhì)量優(yōu)于以往基于GAN模型的方法,更加接近真實醫(yī)療記錄。

    相較于MedDiff,EHRDiff使用的是基于SGM的擴散模型,直接使用了常規(guī)的確定性ODE解決方程進行逆向生成,不需要額外的采樣技術。該模型首次將SGM引入到EHR數(shù)據(jù)生成領域,在解耦網(wǎng)絡輸出方面,MedDiff采用了直接預測噪聲的方法,這種設計可能會受到輸入噪聲尺度變化的影響,從而影響網(wǎng)絡的訓練。相比之下,EHRDiff采用了適應性解耦的方法,利用cin、cout等參數(shù)將網(wǎng)絡輸入統(tǒng)一為單位方差,這樣做有助于緩解因輸入噪聲尺度變化而帶來的問題。EHRDiff訓練過程可能需要更多的參數(shù)和計算資源,所以生成速度略慢于其他生成方法,其實驗在MIMIC-Ⅲ[56,57]數(shù)據(jù)集上進行,其泛化性可能還需要進一步驗證。

    模型的評價標準采用多個指標進行評估,分為效用指標如特征分布相似度、相關性、樣本聚類和醫(yī)學概念豐富度等,隱私指標如隱私風險評估、屬性判斷風險、會員資格判斷風險等。其對比模型選用了medGAN[74]、medBGAN[75]、CorGAN[76]等,并證明EHRDiff效果最好。但該模型依然存在一些改進方向,如后續(xù)可以嘗試在更大規(guī)模數(shù)據(jù)集上訓練與測試,可以結合注意力機制設計更大的解耦網(wǎng)絡,或如SC-GAN[77]一樣利用臨床關系建模生成流程。

    3.3.3 ScoEHR

    Naseer等人[62]提出了一種新的深度學習框架ScoEHR,解決了如何通過模型生成符合臨床標準的合成電子醫(yī)療記錄數(shù)據(jù)的問題。ScoEHR通過結合自編碼器和連續(xù)時間擴散模型,同時考慮了EHR數(shù)據(jù)中的離散值和連續(xù)值特征及其關聯(lián)關系,在保留生成數(shù)據(jù)醫(yī)學真實性上優(yōu)于當前主流GAN方法,為醫(yī)療機構提供了一種擴充代表性樣本數(shù)據(jù)的方法,供下游應用。

    ScoEHR框架結合了自編碼器和連續(xù)時間擴散模型,能夠捕獲EHR數(shù)據(jù)中離散值和連續(xù)值的分布,并有效控制特征之間的相關性。它利用預訓練的編碼器和解碼器進行低維表示,然后通過變方差SDE進行正向擴散來加噪處理樣本;反向SDE和得分預測網(wǎng)絡用于重構樣本,通過訓練得分函數(shù)預測模型[22]可以生成符合臨床標準的EHR合成數(shù)據(jù);最終使用解碼器將低維樣本投影到原始特征空間,完成EHR數(shù)據(jù)的生成。通過此過程ScoEHR模型可以學習EHR數(shù)據(jù)分布的結構,有效地生成符合臨床標準的EHR合成數(shù)據(jù)。

    文獻[62]對該模型的實驗效果進行評估時使用了medGAN[74]、medWGAN和medBGAN[75]三個基線模型,在數(shù)據(jù)生成效用的四個關鍵性指標上進行了比較。目前的合成數(shù)據(jù)領域并沒有普遍建立的指標可供比較,所以作者選用了較為符合該模型的評價標準:保留特征邊緣關系、保留特征相關性、使用對數(shù)聚類度量(捕獲真實數(shù)據(jù)和合成數(shù)據(jù)的相似性)、下游患者結果預測中的綜合數(shù)據(jù)性能(訓練下游機器學習模型,通過下游任務來從側(cè)面反映數(shù)據(jù)質(zhì)量)。ScoEHR 生成數(shù)據(jù)的真實性由一組美國委員會認證的醫(yī)生進行評估,其與實際 EHR 高度一致。最后作者還對模型的隱私披露進行了簡要審查。

    ScoEHR的未來工作方向主要體現(xiàn)在:a)模型的泛化能力,未來可以考慮在更多類型的不同EHR數(shù)據(jù)集上評估該模型的泛化能力;b)隱私保護方面,可以考慮在模型結構中加入隱私保護機制,例如對抗隱私或微分隱私技術來降低從生成數(shù)據(jù)中推斷個人隱私信息的可能性;c)目前ScoEHR主要針對結構化EHR數(shù)據(jù),未來可以研究如何生成更豐富和語義連貫的臨床敘述文檔,例如結合生成對抗網(wǎng)絡或變異自動編碼器等自然語言生成技術。

    3.3.4 TabDDPM

    Ceritli等人[61]對使用擴散模型生成混合類型的EHR數(shù)據(jù)進行了探討分析,模型被命名為TabDDPM,該模型可以同時生成連續(xù)值和分類值,從而更好地擬合包含這兩種特征類型的醫(yī)療數(shù)據(jù)。

    TabDDPM模型可以生成混合類型的EHR數(shù)據(jù),首先使用高斯擴散過程和多項式擴散過程分別生成連續(xù)值和分類值特征。對于連續(xù)值特征未采用高斯擴散過程,通過對原始數(shù)據(jù)加噪的方法將數(shù)據(jù)逐步轉(zhuǎn)變?yōu)闃藴矢咚狗植迹粚﹄x散的分類值特征,采用了多項式擴散過程[78],通過給分類值加上隨機性使其逐步轉(zhuǎn)變?yōu)榫鶆蚍植肌T撃P偷姆聪蜻^程可以兼容兩種正向擴散過程,模型使用MLP神經(jīng)網(wǎng)絡實現(xiàn)反向過程,對于連續(xù)值特征直接使用回歸預測噪聲,對于分類值離散特征,MLP預測后連接softmax函數(shù)來生成類條件概率分布。因此,通過組合高斯擴散和多項式擴散過程以及反向過程的特定設計,TabDDPM模型可以一并學習生成混合類型EHR數(shù)據(jù)中連續(xù)值和分類值的分布,從而生成真實而有效的合成EHR樣本,解決了僅使用單一擴散過程的限制。

    TabDDPM進行實驗時選用變分自編碼器、medGAN和CorGAN這些該領域較為經(jīng)典模型,從數(shù)據(jù)分布正確性、隱私風險、下游任務實用性等四個維度對比模型生成數(shù)據(jù)的優(yōu)劣。最終結果表示TabDDPM在維度概率和預測性能等數(shù)據(jù)質(zhì)量指標上優(yōu)于基線模型,但在隱私指標上,TabDDPM效果不如基線,這是因為它生成的數(shù)據(jù)質(zhì)量更高,但也增加了泄露隱私信息的風險。

    3.3.5 擴散模型生成EHR混合縱向數(shù)據(jù)

    Kuo等人[63]設計了基于U-Net的擴散概率模型,可以在不同時間步估計和去除數(shù)據(jù)中的不同強度噪聲,從而逐步重建出清晰無噪的數(shù)據(jù)。為了處理混合類型數(shù)據(jù),作者提出了將數(shù)據(jù)轉(zhuǎn)換為數(shù)值和one-hot表示的方法,以將DPM框架應用于臨床變量;利用該DPM模型生成兩組臨床數(shù)據(jù)集,一個用于急性低血壓,一個用于艾滋病治療,包含觀測值、操作和獎勵等各類變量。

    DPM的前向過程中,通過定義好的方差函數(shù),每一時間步都將高斯噪聲加入原始數(shù)據(jù),最后得到由原始數(shù)據(jù)變化而來的接近于高斯分布的噪聲數(shù)據(jù)。反向擴散過程中,采用基于U-Net網(wǎng)絡的DPM框架來輸入時間步和位置嵌入,從而預測該時間步加入的噪聲量,其中U-Net包含下采樣、卷積塊和上采樣等模塊。

    在模型評價方面,作者選用MedGAN[74]、Health Gym GAN和MVAE作為基線模型,并在統(tǒng)計分布特征匹配度、模式崩塌程度、RL應用效果和隱私風險評估等方面進行模型的橫向?qū)Ρ?。最終結果表明DPM生成數(shù)據(jù)在統(tǒng)計特征上超過極限,并且不易發(fā)生模式崩塌,以及DPM的數(shù)據(jù)隱私風險也控制得較好。

    目前DPM僅使用位置嵌入來區(qū)分不同時間步,未來可以嘗試加入更豐富的上下文信息,如治療行為等,生成出更具解釋性和臨床意義的記錄。作者還指出,目前模型主要關注記錄層面,未來可以嘗試生成更細粒度的生物標志數(shù)據(jù),滿足不同下游任務要求。

    3.3.6 TIMEDIFF

    與基于GAN模型的EHR數(shù)據(jù)生成研究相似,生成的數(shù)據(jù)類型也逐漸開始從單個時間點的表格數(shù)據(jù)向具有時間序列的數(shù)據(jù)過渡[77]。Tian等人[60]提出了一個名為TIMEDIFF的基于雙向遞歸神經(jīng)網(wǎng)絡(BRNN)的架構生成高效的時間序列數(shù)據(jù)。

    TIMEDIFF是第一個將混合擴散方法應用于EHR時間序列數(shù)據(jù)生成的模型。為了對EHR時間序列中的混合變量類型進行建模,TIMEDIFF提出一種混合序列擴散方法,將高斯擴散和多項式擴散結合起來,使得它能夠同時生成浮點值和離散值時間序列,它采用雙向循環(huán)神經(jīng)網(wǎng)絡來編碼序列信息,同時具有可變長度輸入的靈活性。該模型使用雙向遞歸神經(jīng)網(wǎng)絡作為生成模型的基礎架構,可以很好地捕捉時間序列中隱含的時序依賴關系,其前向過程與TabDDPM[61]相似,同樣是使用高斯擴散和多項式擴散來處理連續(xù)變量和離散變量,從而實現(xiàn)對混合變量類型的支持。特別地,為了表示缺失值信息,它使用指示符掩碼對每個數(shù)字時間序列進行編碼。

    該模型的正向過程將原始的數(shù)據(jù)集進行高斯擴散和多項式擴散[78]處理,獲得擴散過程樣本的集合,再初始化雙向LSTM網(wǎng)絡作為時間條件生成網(wǎng)絡(相當于DDPM中的噪聲預測網(wǎng)絡),輸入給該網(wǎng)絡的不僅僅是擴散后時間序列樣本本身,還包括位置編碼信息。位置編碼表示每個時間點在整個序列中的相對位置,需要對其進行縮放和偏移以將其映射到更合適的范圍內(nèi),這樣處理后的位置編碼會與雙向LSTM當前時間點的隱狀態(tài)進行結合。之后給定擴散路徑中的一個時間點樣本,時間條件生成器預測此點前一個時間點的高斯分布參數(shù)和多項式分布參數(shù)。訓練過程計算loss函數(shù)和最小化損失函數(shù),訓練出最終模型進行數(shù)據(jù)生成,使用訓練好的模型進行朗之萬采樣,生成高質(zhì)量且多樣化的EHR時間序列。

    作者將TIMEDIFF在六個數(shù)據(jù)集上進行了實驗,與八種現(xiàn)有的方法進行了比較。評價標準使用實用性評價標準(訓練下游預測任務模型,通過預測性能說明)、醫(yī)學可解釋性評價(臨床專家打分等方法)、私密性評價、計量指標分析等。結果表明該模型在數(shù)據(jù)效用方面明顯優(yōu)于現(xiàn)有的所有方法。

    TIMEDIFF模型目前在一些方面還存在不足,如僅考慮單個病人序列且推廣能力有限,模型內(nèi)部機理解釋性程度也需要提高。此外,訓練和采樣效率尚待優(yōu)化,真實大規(guī)模臨床數(shù)據(jù)的處理能力需要進一步增強。未來工作可以在以下幾個方面深入改進TIMEDIFF:a)加入注意力機制提取時間依賴關系;b)結合更多臨床知識如ICD編碼進行預訓練,生成樣本表現(xiàn)更切合臨床??傮w來說,提升TIMEDIFF在跨病人建模、推廣學習和醫(yī)學解釋性等方面的能力,將使其在保護隱私的基礎上為臨床應用提供更強大的支持。

    表2對近年擴散模型在EHR數(shù)據(jù)生成領域的應用進行了對比分析。

    4 其他模型在EHR數(shù)據(jù)生成中的應用

    近年來,擴散模型在某些任務中展現(xiàn)出略高于VAE和GAN的性能,但VAE和GAN在生成領域長期積累的研究成果仍然顯著。本章重點分析擴散模型在EHR數(shù)據(jù)生成領域的發(fā)展,同時也探索VAE和GAN在該領域的應用成果,如表3所示,以期為擴散模型在這一領域的進一步發(fā)展提供新的視角和思路。

    4.1 變分自編碼器(VAE)

    為了解決研究人員對電子健康數(shù)據(jù)的需要,建立模型來生成EHR合成數(shù)據(jù),使用變分自編碼器VAE可以生成縱向的EHR數(shù)據(jù)。Biswal等人[64]提出名為EVA的方法,使該模型能夠根據(jù)特定的疾病條件進行生成,從而支持特定疾病的研究。

    EVA作為生成真實離散EHR數(shù)據(jù)的深度生成模型,對時間條件的生成和多樣性的序列都有較好的效果,且該模型首次采用變分自編碼器進行EHR數(shù)據(jù)生成。VAE框架通過最大化特定方程來聯(lián)合學習生成模型和推理網(wǎng)絡的參數(shù)。推理網(wǎng)絡(編碼器)負責近似給定輸入數(shù)據(jù)的潛變量真后驗分布,生成模型(解碼器)負責在給定潛變量的情況下生成輸出數(shù)據(jù)[79]。

    EVA模型可以生成連續(xù)的EHR序列,而不是單獨的靜態(tài)患者表征,即每一個生成的EHR對應一個假設患者,其中還包括一系列連續(xù)的門診記錄。每條門診記錄為一個類別化表示,即使用一個向量來表示該次門診記錄涉及的各種診斷代碼、用藥代碼等臨床元素。生成EHR數(shù)據(jù)時還考慮到了不同個體之間的差異,該模型可以根據(jù)可控制的條件來生成符合條件的患者群體,這一點彌補了以往生成EHR的限制[80]。模型的評價標準采用醫(yī)生評價來判定生成序列的真實性,采用預先訓練的模型與真實數(shù)據(jù)訓練模型進行對比,從側(cè)面反映了數(shù)據(jù)的質(zhì)量。

    作者將模型生成因素分解為人口水平和個體水平,這一層次結構設計能有效學習人口水平的醫(yī)學特征表示,使模型的合成數(shù)據(jù)質(zhì)量得以提升。但模型依然有著明顯的不足,該模型在隱私風險評估方面存在缺陷,盡管通過訓練EVA并生成樣本可以克服從原始數(shù)據(jù)到生成數(shù)據(jù)的一對一映射,但需要正式評估生成數(shù)據(jù)的隱私保護,存在泄露的可能性,即當攻擊者能夠確定EVA是使用包含某患者記錄的數(shù)據(jù)集進行訓練時,攻擊者會假設該患者在訓練數(shù)據(jù)中,這可能導致隱私泄露。在數(shù)據(jù)方面,可以考慮更多臨床上重要的生物特征,并可以結合外部醫(yī)學詞匯來改進表示學習,且該模型使用的數(shù)據(jù)集可以考慮改用更大更權威的數(shù)據(jù)集。

    4.2 對抗生成網(wǎng)絡(GAN)

    生成對抗網(wǎng)絡作為最經(jīng)典的生成式模型之一,有著廣泛的應用領域和扎實的理論基礎,基于GAN模型可以生成不同類型的EHR數(shù)據(jù)、表格數(shù)據(jù)和時間序列。在EHR數(shù)據(jù)生成領域依然可以發(fā)揮較為穩(wěn)定的性能。

    4.2.1 GAN模型生成EHR表格數(shù)據(jù)

    早期GAN模型在EHR數(shù)據(jù)生成的應用一般體現(xiàn)在生成結構化離散表格EHR,如診斷計費的ICD編碼,medGAN就是最早開始學習離散特征表格和二進制特征表格的GAN模型[74]?;趍edGAN在離散表格數(shù)據(jù)方面的成功,分別根據(jù)帶有懲罰梯度的Wasserstein GAN(WAGE-GP)[81]和邊界搜索GAN模型(BGAN)[82]提出了medWGAN和medBGAN[75]模型,提高了medGAN的生成數(shù)據(jù)質(zhì)量。后續(xù)研究人員專注于通過提出的相關性捕獲GAN(correlation capturing GAN,CorGAN)[76]來改進EHR表格數(shù)據(jù)中相關性捕獲,CorGAN結合GAN和卷積自動編碼器(convolutional autoencoders,CA)來捕獲離散和連續(xù)數(shù)據(jù)中特征之間的局部相關性。后續(xù)工作中開始專注提高模型的訓練穩(wěn)定性,如EMR-WGAN(EMR Wasserstein GAN)中刪除了從medGAN中集成的自編碼器來解釋離散特征,應用過濾策略來增強針對低流行率臨床概念的GAN的訓練[83]。

    4.2.2 GAN模型生成EHR時間序列數(shù)據(jù)

    目前研究中多為生成可以呈現(xiàn)患者在單個時間點狀態(tài)的EHR表格數(shù)據(jù),但與時間序列數(shù)據(jù)相比,表格數(shù)據(jù)無法記錄和捕捉患者狀態(tài)的變化。

    為了加強對時序數(shù)據(jù)生成的研究,Zhang等人[84]提出了合成包含時態(tài)EHR數(shù)據(jù)的生成框架(synthetic temporal EHR generation,SynTEG),該框架專注于生成帶有時間戳的ICD編碼。SynTEG使用兩步來完成這個目標:第一步依次從原始數(shù)據(jù)中提取時間模式,并采用自注意力層;第二步使用WGAN[81]來生成以學習模式為條件的數(shù)據(jù)。類似地,Lee等人[69]提出考慮使用雙對抗自動編碼器(dual adversarial autoencoder,DAAE)來改進兩個GAN組件,根據(jù)患者的時間順序來合成EHR序列,該模型可以合成定值醫(yī)療記錄序列。對于合成EHR的時間序列數(shù)據(jù)任務,還有一些GAN模型使用變式,如生成時間序列藥物實驗室效應(DLE)軌跡,這個效應軌跡的作用是患者在接收干預措施后監(jiān)測患者,以防止藥物的不良反應。Esteban等人使用循環(huán)的GAN模型(RGAN)以及條件生成對抗網(wǎng)絡提出了可以生成連續(xù)時間序列的RCGAN模型,循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)和長短期記憶網(wǎng)絡(long short-term memory,LSTM)被用作RCGAN的生成器和判別器。之后受患者狀態(tài)、臨床藥物劑量數(shù)據(jù)和根據(jù)患者狀態(tài)調(diào)整劑量的臨床實踐的推動,順序耦合GAN(sequentially coupled GAN,SC-GAN)[77]被設計出來,該模型由兩個不同的基于LSTM的生成器組成,用于協(xié)調(diào)患者狀態(tài)和藥物劑量數(shù)據(jù)的審查工作,患者狀態(tài)生成器的輸出被放入藥物劑量數(shù)據(jù)生成器上,后者生成器模仿根據(jù)患者狀態(tài)來調(diào)整藥物劑量的臨床實踐狀態(tài)。

    根據(jù)表3可以看出早期的GAN在EHR數(shù)據(jù)生成領域一般是專注于離散編碼的生成,并且對于高維度的數(shù)據(jù)生成任務GAN容易發(fā)生模式崩潰等問題,于是研究人員開始逐漸引入自編碼器來緩解該問題。之后研究方向逐漸轉(zhuǎn)變?yōu)檠芯繒r序數(shù)據(jù),于是開始加入RNN和LSTM以及自注意力機制來對特征進行準確捕捉。但以GAN為基礎的模型遇到瓶頸,其生成性能無法提升后,研究者開始專注于研究模型穩(wěn)定性和模型生成數(shù)據(jù)效率上。

    對比表2和3可知在基線模型方面,GAN和VAE的基線選取沒有統(tǒng)一的標準,部分模型的基線只是模型自身的條件生成版或者消融實驗作為基線對比,這大大減少了實驗應有的說服力。在評價標準方面,無論是GAN和VAE并沒有較為統(tǒng)一的評價標準,但還是可以分為兩個方向:效用指標和隱私指標。對于擴散模型已經(jīng)逐漸開始形成統(tǒng)一標準,基本所有實驗都會引用效用指標中對維度考察的相關指標,并且下游機器學習模型的訓練也可以側(cè)面說明生成數(shù)據(jù)的效用。在隱私方面都開始引入成員推斷和屬性推斷來衡量其隱私性,評價指標的選取逐漸趨于成熟。在數(shù)據(jù)集選取方面,有部分數(shù)據(jù)集較為經(jīng)典,也是最近的研究傾向于選用的,如MIMIC-Ⅲ[56]、MIMIC-Ⅳ[57]、eICU[70]、UCI[71]等數(shù)據(jù)集。同時還有部分研究人員更傾向于使用私人數(shù)據(jù)集,這也在保證隱私性和安全性的同時展開了研究,但由于數(shù)據(jù)集無法公開,使得模型的可移植性和可解釋性有待考量。

    5 未來展望

    最新的擴散模型技術在電子健康檔案數(shù)據(jù)生成領域的應用為潛在的研究和決策支持系統(tǒng)帶來了令人鼓舞的前景,本文回顧了在這一領域的研究工作,涵蓋了擴散模型在EHR數(shù)據(jù)生成中的算法、理論和應用進展。然而,該研究仍然存在一些挑戰(zhàn)、差距和發(fā)展機遇需要進一步考慮和解決。

    5.1 評價指標現(xiàn)狀與發(fā)展方向

    在EHR領域中,可靠擴散模型的開發(fā)受到缺乏通用評估方法的制約,這是其發(fā)展的主要瓶頸。根據(jù)表1,評估組件和指標尚未標準化。目前的方法包括:a) 借鑒圖像生成和非醫(yī)學時間序列生成等其他領域的擴散模型應用指標;b) 使用基準模型的評估指標;c) 引入新的評估指標。此外,同一評估測試可能使用不同的名稱,導致了擴散模型評估的混亂[4,59~62]。在評估機器學習性能時,必須報告合成數(shù)據(jù)集和真實數(shù)據(jù)集的結果,以了解模型的基線性能并準確確定合成數(shù)據(jù)對下游任務的效用。另外,不同的指標會導致各種限制和權衡,且同類模型之間并沒有橫向?qū)Ρ取R虼?,EHR生成領域在沒有完整且系統(tǒng)的公用評價指標前提下無法比較出EHR生成任務的最優(yōu)模型。雖然提供定性評估和分析可以證明模型的研究價值,但如果不支持統(tǒng)一嚴格的定量評估指標將嚴重阻礙該領域的發(fā)展。本研究介紹了不同擴散模型在不同任務中選擇的評估指標,希望通過這項工作來激發(fā)研究者的后續(xù)研究。研究方向著重于對新引入評估指標的測試和使用、研究評估指標的局限性和權衡指標的側(cè)重方向,最終會制定出評估指標選擇及其權重的標準化指南,并確保其與合成數(shù)據(jù)的實用性相匹配。

    未來的研究還可以是探討合成數(shù)據(jù)的通用性方面,并在優(yōu)化標準中加以考慮。例如在機器學習任務中,為了數(shù)據(jù)增強而生成的合成數(shù)據(jù)的評估方法應該與為研究目的生成數(shù)據(jù)有所不同。在當前關于EHR的擴散模型文獻中,缺少對合成數(shù)據(jù)通用性的研究且擴散模型訓練的計算成本較高。

    5.2 進一步平衡隱私性和實用性

    正如Ceritli等人[61]提出TabDDPM時首次引入的觀點,生成模型在數(shù)據(jù)生成時要對隱私保護和數(shù)據(jù)實用性之間做好權衡。擴散模型的高性能依賴于比其他生成式模型有更高的訓練穩(wěn)定性,可選擇樣本的多樣性以及其特別的模型架構?;跀U散模型的生成任務通過對噪聲圖片去噪完成分布相似的數(shù)據(jù)生成,保證合成數(shù)據(jù)在隱私方面得到保護,因為單個合成輸出與真實輸入之間沒有直接關系。然而,在處理諸如EHR等敏感信息時可能會發(fā)生意外的信息泄露。

    為了解決實用性與隱私之間的權衡問題,無論選擇何種隱私保證級別,后續(xù)研究者都應該同時測試這兩個因素。一些早期的研究沒有充分考慮信息泄露風險,同樣,一些專注于提高生成模型隱私保護的工作也未充分評估數(shù)據(jù)的分布相似性保持問題,例如,差異隱私等隱私保證對于隱私保護很有幫助,但可能在保真度和實用性方面帶來高昂的代價。未來的研究方向應與監(jiān)管機構合作,制定關于隱私風險的明確指南,這樣私人數(shù)據(jù)所有者才能放心地共享合成數(shù)據(jù),從而為新的研究應用開辟道路。

    5.3 引入多模態(tài)數(shù)據(jù)特征

    各種臨床多樣性的EHR數(shù)據(jù)為數(shù)據(jù)驅(qū)動的機器學習研究提供了廣泛可能性,當前大多數(shù)EHR數(shù)據(jù)生成模型專注于單一數(shù)據(jù)模態(tài)的生成,雖然已開始從單一時間點的表格數(shù)據(jù)向包含時間序列的數(shù)據(jù)轉(zhuǎn)變,但很少有模型能夠同時捕捉異構類型數(shù)據(jù)之間的相關性。此外,盡管部分模型能夠條件化生成連續(xù)和離散分類數(shù)據(jù),但實際醫(yī)學數(shù)據(jù)呈現(xiàn)多種形式,包括非結構化醫(yī)學記錄和醫(yī)療影像等。

    未來的研究應考慮如何利用圖像、語音等多模態(tài)數(shù)據(jù)來豐富和改進EHR數(shù)據(jù)的生成質(zhì)量和多樣性。合成數(shù)據(jù)具有潛力激發(fā)廣泛的臨床研究,加速研究進展、推動醫(yī)療保健機器學習的發(fā)展。特別是在基于擴散模型的EHR數(shù)據(jù)生成方面,這是一個相對新興的領域,仍有很大的改進空間,尤其是在處理EHR數(shù)據(jù)多樣性、異質(zhì)性、缺失和稀疏性等方面。未來的工作應集中在改進模型以更好地捕捉這些復雜性,提高合成數(shù)據(jù)的質(zhì)量和可用性,為臨床研究和醫(yī)療保健領域帶來更大的益處。同時,需要加強與醫(yī)療監(jiān)管機構的合作,確保合成數(shù)據(jù)的可靠性和隱私保護,為其在臨床實踐中的廣泛應用奠定堅實基礎。

    5.4 下游任務推理

    在以往的研究中,通常是將下游任務模型的效果作為生成數(shù)據(jù)質(zhì)量和實用性的側(cè)面反映,實際上,將生成的大量數(shù)據(jù)用作訓練樣本進行臨床預測模型的預訓練是一種常見的做法。由于生成的數(shù)據(jù)量龐大,可以解決真實數(shù)據(jù)數(shù)量有限的問題,有助于模型學習任務的規(guī)律。在生成數(shù)據(jù)上預訓練預測模型,然后在真實數(shù)據(jù)上微調(diào)優(yōu)化。這樣做可以借鑒生成器學習到的知識來促進下游模型效果的提升。接著可以將生成數(shù)據(jù)和真實數(shù)據(jù)結合進行聯(lián)合訓練。利用合成數(shù)據(jù)進行訓練,在真實數(shù)據(jù)進行測試;利用真實數(shù)據(jù)和合成數(shù)據(jù)進行訓練,真實數(shù)據(jù)進行測試等兩種數(shù)據(jù)交叉使用的方法,

    這種互相促進的方式有助于改善下游任務模型的效果。這種集成方法可以更好地利用生成數(shù)據(jù)和真實數(shù)據(jù)之間的優(yōu)勢,為臨床研究和醫(yī)療保健提供更加準確和可靠的模型預測。

    6 結束語

    在電子健康檔案(EHR)數(shù)據(jù)生成領域,隨著醫(yī)療信息技術的快速發(fā)展,隱私保護日益成為關注的核心議題。生成合成EHR數(shù)據(jù)時必須確保不泄露個人身份信息,同時保持數(shù)據(jù)的統(tǒng)計特性和臨床相關性,以滿足醫(yī)療研究和數(shù)據(jù)分析的需求。選擇和設計生成模型(如VAE、GAN、擴散模型等)至關重要,每種模型在數(shù)據(jù)質(zhì)量和隱私保護方面各有優(yōu)勢和限制。因此,研究人員需在這些選擇中進行權衡,以找到最適合特定場景的生成方法。

    近年來,擴散模型在EHR數(shù)據(jù)生成領域迅速發(fā)展,其優(yōu)秀的生成效果引起了廣泛關注,這些模型通過模擬數(shù)據(jù)的擴散和反向擴散過程來生成數(shù)據(jù),有效保護了數(shù)據(jù)的隱私性。擴散模型的出現(xiàn)為生成高質(zhì)量且具有一定隱私性要求的EHR數(shù)據(jù)提供了新的方法和思路,結合生成模型的技術優(yōu)勢和對隱私保護的需求,擴散模型已成為EHR數(shù)據(jù)生成領域的研究熱點之一。

    此外,評估合成EHR數(shù)據(jù)的質(zhì)量也是一個重要的課題。除了數(shù)據(jù)的統(tǒng)計特性和臨床相關性外,評估指標還包括Kullback-Leibler (KL) 散度、合成數(shù)據(jù)的實用性和隱私保護等。研究人員需要綜合考慮這些指標,以確保生成的數(shù)據(jù)能夠在醫(yī)療研究和數(shù)據(jù)分析中發(fā)揮有效的作用。

    盡管在EHR數(shù)據(jù)生成領域取得了進展,但仍面臨諸多挑戰(zhàn),如如何平衡隱私與數(shù)據(jù)實用性、處理多模態(tài)數(shù)據(jù)、提高生成數(shù)據(jù)的多樣性和復雜性等,都需要進一步研究和探索。此外,為確保合成數(shù)據(jù)的可靠性和合規(guī)性,研究人員需與醫(yī)療監(jiān)管機構合作,制定明確的指南和標準。隨著技術進步和合成數(shù)據(jù)應用范圍的擴展,EHR數(shù)據(jù)生成領域?qū)⒂瓉砀嗵魬?zhàn)與機遇。

    參考文獻:

    [1]Sonabend A, Lu Junwei, Celi L A, et al. Expert-supervised reinforcement learning for offline policy learning and evaluation [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 18967-18977.

    [2]Yuan Hongyi, Yu Sheng. Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification [J]. Artificial Intelligence In Medicine, 2024,148(2): 102748.

    [3]Huang Kexin, Altosaar J, Ranganath R. ClinicalBERT: modeling clinical notes and predicting hospital readmission [EB/OL]. (2020-11-29). https://arxiv.org/pdf/1904.05342v3.

    [4]Yuan Hongyi, Zhou Songchi, Yu Sheng. EHRDiff: exploring realistic EHR synthesis with diffusion models [EB/OL]. (2024-03-24). https://arxiv.org/pdf/2303.05656.

    [5]Iyengar A, Kundu A, Pallis G. Healthcare informatics and privacy [J]. IEEE Internet Computing, 2018, 22(2): 29-31.

    [6]Janmey V, Elkin P L. Re-identification risk in HIPAA de-identified datasets: the MVA attack [J]. AMIA Annual Symposium Proceedings, 2018, 2018: 1329-1337.

    [7]Chen R J, Lu Mingyang, Chen T Y, et al. Synthetic data in machine learning for medicine and healthcare [J]. Nature Biomedical Engineering, 2021, 5(6): 493-497.

    [8]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [C]// Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-268.

    [9]He Huan, Zhao Shifan, Xi Yuanzhe, et al. GDA-AM: on the effectiveness of solving minimax optimization via Anderson mixing [C]// Proc of the 10th International Conference on Learning Representations. 2022.

    [10]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proc of the 25th International Conference on Machine Learning. New York: ACM Press, 2008: 1096-1103.

    [11]Li Xiang, Thickstun J, Gulrajani I, et al. Diffusion-LM improves controllable text generation [C]// Proc of the 36th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2022: 4328-4343.

    [12]Huang Rongjie, Lam M W Y, Wang Jun, et al. FastDiff: a fast conditional diffusion model for high-quality speech synthesis [C]// Proc of the 31st International Joint Conference on Artificial Intelligence Main Track. 2022: 4157-4163.

    [13]Zhang Guanhua, Ji Jiabao, Zhang Yang, et al. Towards coherent image inpainting using denoising diffusion implicit models [EB/OL]. (2023-04-06). https://arxiv.org/pdf/2304.03322.

    [14]Song Yang, Sohl-Dickstein J, Kingma D P, et al. Score-based gene-rative modeling through stochastic differential equations [EB/OL]. (2021-02-10). https://arxiv.org/abs/2011.13456.

    [15]Sohl-Dickstein J, Weiss E A, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2256-2265.

    [16]Burda Y, Grosse R, Salakhutdinov R. Accurate and conservative estimates of MRF log-likelihood using reverse annealing [C]// Proc of the 18th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2015:102-110.

    [17]Jarzynski C. Equilibrium free-energy differences from nonequilibrium measurements: a master-equation approach [J]. Physical Review E, 1997, 56(5): 5018.

    [18]Creswell A, White T, Dumoulin V, et al. Generative adversarial networks: an overview [J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.

    [19]Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 6840-6851.

    [20]Song Jiaming, Meng Chenlin, Ermon S. Denoising diffusion implicit models [EB/OL]. (2022-10-05). https://arxiv.org/abs/2010.02502.

    [21]Nichol A, Dhariwal P. Improved denoising diffusion probabilistic models [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 8162-8171.

    [22]Song Yang, Ermon S. Generative modeling by estimating gradients of the data distribution [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 11918-11930.

    [23]Kirkpatrick S, Jr Gelatt C D, Vecchi M P. Optimization by simulated annealing [J]. Science, 1983, 220(4598): 671-680.

    [24]Neal R M. Annealed importance sampling [J]. Statistics and Computing, 2001, 11(4): 125-139.

    [25]Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis [C]// Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2021: 8780-8794.

    [26]Ho J, Salimans T. Classifier-free diffusion guidance [EB/OL]. (2022-07-26). https://arxiv.org/abs/2207.12598.

    [27]Nichol A, Dhariwal P, Ramesh A, et al. GLIDE: towards photorea-listic image generation and editing with text-guided diffusion models [C]// Proc of the 39th International Conference on Machine Lear-ning. [S.l.]: PMLR, 2022:16784-16804.

    [28]Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with CLIP latents [EB/OL]. (2022-04-13). http://export.arxiv.org/abs/2204.06125.

    [29]Saharia C, Chan W, Saxena S, et al. Photorealistic text-to-image diffusion models with deep language understanding [EB/OL]. (2022-05-23). https://arxiv.org/abs/2205.11487.

    [30]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10684-10695.

    [31]Wahid R, Mero J, Ritala P. Editorial: written by ChatGPT, illustrated by Midjourney: generative AI for content marketing [J]. Asia Pacific Journal of Marketing and Logistics, 2023, 35(8): 1813-1822.

    [32]Song Yang, Ermon S. Improved techniques for training score-based generative models [C]// Proc of the 34th International Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2020: 12438-12448.

    [33]Amit T, Shaharbany T, Nachmani E, et al. SegDiff: image segmentation with diffusion probabilistic models [EB/OL]. (2022-09-07). https://arxiv.org/abs/2112.00390.

    [34]Baranchuk D, Rubachev I, Voynov A, et al. Label-efficient semantic segmentation with diffusion models [EB/OL]. (2022-03-16). https://arxiv.org/abs/2112.03126.

    [35]Alcaraz J M L, Strodthoff N. Diffusion-based time series imputation and forecasting with structured state space models [EB/OL]. (2023-05-06). https://arxiv.org/abs/2208.09399.

    [36]Chen Nanxin, Zhang Yu, Zen Heiga, et al. WaveGrad: estimating gradients for waveform generation [EB/OL]. (2020-10-09). https://arxiv.org/abs/2009.00713.

    [37]Blau T, Ganz R, Kawar B, et al. Threat model-agnostic adversarial defense using diffusion models [EB/OL]. (2022-07-17). https://arxiv.org/abs/2207.08089.

    [38]Anand N, Achim T. Protein structure and sequence generation with equivariant denoising diffusion probabilistic models [EB/OL]. (2022-05-26). https://arxiv.org/abs/2205.15019.

    [39]Hoogeboom E, Satorras V G, Vignac C, et al. Equivariant diffusion for molecule generation in 3D [C]// Proc of the 39th International Conference on Machine Learning. [S.l.]: PMLR, 2022: 8867-8887.

    [40]Cao Chentao, Cui Zhuoxu, Wang Yue, et al. High-frequency space diffusion model for accelerated MRI [J]. IEEE Trans on Medical Imaging, 2024, 43(5): 1853-1865.

    [41]Chung H, Lee E S, Ye J C. MR image denoising and super-resolution using regularized reverse diffusion [J]. IEEE Trans on Medical Imaging, 2022, 42(4): 922-934.

    [42]Karras T, Aittala M, Aila T, et al. Elucidating the design space of diffusion-based generative models [C]// Proc of the 36th Internatio-nal Conference on Neural Information Processing System. Red Hook, NY: Curran Associates Inc., 2022: 26565-26577.

    [43]來杰, 王曉丹, 向前, 等. 自編碼器及其應用綜述 [J]. 通信學報, 2021, 42(9): 218-230.( Lai Jie, Wang Xiaodan, Xiang Qian, et al. Review on autoencoder and its application [J]. Journal on Communications, 2021, 42(9): 218-230.)

    [44]張彬, 周粵川, 張敏, 等. 生成對抗網(wǎng)絡改進角度與應用研究綜述 [J]. 計算機應用研究, 2023, 40(3): 649-658. (Zhang Bin, Zhou Yuechuan, Zhang Min, et al. Review of research on improvement and application of generative adversarial networks [J]. Application Research of Computers, 2023, 40(3): 649-658.)

    [45]Hyvrinen A. Some extensions of score matching [J]. Computatio-nal Statistics amp; Data Analysis, 2007, 51(5): 2499-2512.

    [46]Hyvrinen A, Dayan P. Estimation of non-normalized statistical mo-dels by score matching [J]. Journal of Machine Learning Research, 2005, 6(4): 695-709.

    [47]Song Yang, Garg S, Shi Jiaxin, et al. Sliced score matching: a sca-lable approach to density and score estimation [C]// Proc of the 35th Uncertainty in Artificial Intelligence Conference. [S.l.]: PMLR, 2020: 574-584.

    [48]Jolicoeur-Martineau A, Piché-Taillefer R, Combes R T, et al. Adversarial score matching and improved sampling for image generation [EB/OL]. (2020-10-10). https://arxiv.org/abs/2009.05475.

    [49]Parisi G. Correlation functions and computer simulations [J]. Nuclear Physics B, 1981, 180(3): 378-384.

    [50]Jolicoeur-Martineau A, Li Ke, Piché-Taillefer R, et al. Gotta go fast when generating data with score-based models [EB/OL]. (2021-05-28). https://arxiv.org/abs/2105.14080.

    [51]Lu Cheng, Zhou Yuhao, Bao Fan, et al. DPM-solver: a fast ODE solver for diffusion probabilistic model sampling in around 10 steps [C]// Advances in Neural Information Processing Systems. 2022: 5775-5787.

    [52]Vincent P. A connection between score matching and denoising autoencoders [J]. Neural Computation, 2011, 23(7): 1661-1674.

    [53]Zhang Qinsheng, Chen Yongxin. Fast sampling of diffusion models with exponential integrator [EB/OL]. (2023-02-25). https://arxiv.org/abs/2204.13902.

    [54]Rashidian S, Wang F, Moffitt R, et al. SMOOTH-GAN: towards sharp and smooth synthetic EHR data generation [C]// Proc of the 18th International Conference on Artificial Intelligence in Medicine. Berlin: Springer-Verlag, 2020: 37-48.

    [55]Murtaza H, Ahmed M, Khan N F, et al. Synthetic data generation: state of the art in health care domain [J]. Computer Science Review, 2023, 48(5): 100546.

    [56]Johnson A E W, Pollard T J, Shen Lu, et al. MIMIC-Ⅲ, a freely accessible critical care database [J]. Scientific Data, 2016, 3(1): article No.160035.

    [57]Johnson A E W, Bulgarelli L, Shen Lu, et al. MIMIC-Ⅳ, a freely accessible electronic health record dataset [J]. Scientific Data, 2023, 10(1): article No.1.

    [58]Hodge Jr J G, Gostin L O, Jacobson P D. Legal issues concerning electronic health information: privacy, quality, and liability [J]. Jama, 1999, 282(15): 1466-1471.

    [59]He Huan, Zhao Shifan, Xi Yuanzhe, et al. MedDiff: generating electronic health records using accelerated denoising diffusion model [EB/OL]. (2023-02-08). https://arxiv.org/abs/2302.04355.

    [60]Tian Muhang, Chen B, Guo A, et al. Fast and reliable generation of EHR time series via diffusion models [EB/OL]. (2023-09-23). https://openreview.net/pdf?id=ESSqkWnApz.

    [61]Ceritli T, Ghosheh G O, Chauhan V K, et al. Synthesizing mixed-type electronic health records using diffusion models [EB/OL]. (2023-08-10). https://arxiv.org/abs/2302.14679.

    [62]Naseer A A, Walker B, Landon C, et al. ScoEHR: generating synthetic electronic health records using continuous-time diffusion models [C]// Proc of the 8th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2023: 489-508.

    [63]Kuo N I, Jorm L, Barbieri S. Synthetic health-related longitudinal data with mixed-type variables generated using diffusion models [EB/OL]. (2023-03-22). https://arxiv.org/abs/2303.12281.

    [64]Biswal S, Ghosh S, Duke J, et al. EVA: generating longitudinal electronic health records using conditional variational autoencoders [C]// Proc of the 6th Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2021: 260-282.

    [65]Sadati N, Nezhad M Z, Chinnam R B, et al. Representation learning with autoencoders for electronic health records: a comparative study [EB/OL]. (2019-09-20). https://arxiv.org/abs/1908.09174.

    [66]Iqbal T, Ali H. Generative adversarial network for medical images (MI-GAN) [J]. Journal of Medical Systems, 2018, 42(11): 231.

    [67]Walonoski J, Kramer M, Nichols J, et al. Synthea: an approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record [J]. Journal of the American Medical Informatics Association, 2018, 25(3): 230-238.

    [68]Sun Chang, Van Soest J, Dumontier M. Generating synthetic personal health data using conditional generative adversarial networks combining with differential privacy [J]. Journal of Biomedical Informa-tics, 2023, 143(7): 104404.

    [69]Lee D, Yu H, Jiang Xiaoqian, et al. Generating sequential electronic health records using dual adversarial autoencoder [J]. Journal of the American Medical Informatics Association, 2020, 27(9): 1411-1419.

    [70]Pollard T J, Johnson A E W, Raffa J D, et al. The eICU collaborative research database, a freely available multi-center database for critical care research [J]. Scientific Data, 2018, 5(1): 180178.

    [71]Asuncion A, Newman D. UCI machine learning repository [DB/OL]. [2024-03-02]. https://archive.ics.uci.edu/datasets.

    [72]Buczak A L, Babin S, Moniz L. Data-driven approach for creating synthetic electronic medical records [J]. BMC Medical Informatics and Decision Making, 2010, 10: article No.59.

    [73]Yan Chao, Yan Yao, Wan Zhiyu, et al. A multifaceted benchmar-king of synthetic electronic health record generation models [J]. Nature Communications, 2022, 13(1): 7609.

    [74]Choi E, Biswal S, Malin B, et al. Generating multi-label discrete patient records using generative adversarial networks [C]// Proc of the 2nd Machine Learning for Healthcare Conference. [S.l.]: PMLR, 2017: 286-305.

    [75]Baowaly M K, Lin C C, Liu Chaolin, et al. Synthesizing electronic health records using improved generative adversarial networks [J]. Journal of the American Medical Informatics Association, 2019, 26(3): 228-241.

    [76]Torfi A, Fox E A. CorGAN: correlation-capturing convolutional ge-nerative adversarial networks for generating synthetic healthcare records [C]// Proc of the 33rd International Florida Artificial Intelligence Research Society Conference. Palo Alto, CA: AAAI Press, 2020.

    [77]Wang Lu, Zhang Wei, He Xiaofeng. Continuous patient-centric sequence generation via sequentially coupled adversarial learning [C]// Proc of the 24th International Conference Database Systems for Advanced Applications. Cham: Springer, 2019: 36-52.

    [78]Hoogeboom E, Nielsen D, Jaini P, et al. Argmax flows and multinomial diffusion: learning categorical distributions [EB/OL]. (2021-10-22). https://arxiv.org/abs/2102.05379.

    [79]Kingma D P, Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20). http://export.arxiv.org/abs/1312.6114.

    [80]Hu Zhiting, Yang Zichao, Liang Xiaodan, et al. Toward controlled generation of text [C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: PMLR, 2017: 1587-1596.

    [81]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.

    [82]Hjelm R D, Jacob A P, Che Tong, et al. Boundary-seeking generative adversarial networks [EB/OL]. (2018-02-21). https://arxiv.org/abs/1702.08431.

    [83]Zhang Ziqi, Yan Chao, Mesa D A, et al. Ensuring electronic medical record simulation through better training, modeling, and evaluation [J]. Journal of the American Medical Informatics Association, 2020, 27(1): 99-108.

    [84]Zhang Ziqi, Yan Chao, Lasko T A, et al. SynTEG: a framework for temporal structured electronic health data simulation [J]. Journal of the American Medical Informatics Association, 2021, 28(3): 596-604.

    [85]Esteban C, Hyland S L, Rtsch G. Real-valued (medical) time series generation with recurrent conditional GANs [EB/OL]. (2017-12-04). https://arxiv.org/abs/1706.02633.

    日韩 欧美 亚洲 中文字幕| 久久久国产精品麻豆| 亚洲精华国产精华精| 亚洲免费av在线视频| 亚洲精品久久午夜乱码| 下体分泌物呈黄色| 日韩精品免费视频一区二区三区| 天天添夜夜摸| 国产欧美日韩综合在线一区二区| 日日摸夜夜添夜夜添小说| 国产亚洲av高清不卡| 免费黄频网站在线观看国产| 国产伦人伦偷精品视频| 狂野欧美激情性xxxx| 大片免费播放器 马上看| 黄色 视频免费看| 午夜福利一区二区在线看| 亚洲av日韩在线播放| 国产麻豆69| 久久久久久久精品精品| 每晚都被弄得嗷嗷叫到高潮| 欧美日本中文国产一区发布| 欧美成狂野欧美在线观看| 国产人伦9x9x在线观看| 一级黄色大片毛片| 他把我摸到了高潮在线观看 | 一级毛片女人18水好多| 国精品久久久久久国模美| 国产精品一二三区在线看| 午夜免费观看性视频| 好男人电影高清在线观看| 91精品三级在线观看| a在线观看视频网站| 精品一区在线观看国产| a 毛片基地| 国产日韩欧美在线精品| 99国产精品一区二区蜜桃av | 99香蕉大伊视频| 久久综合国产亚洲精品| 黄色 视频免费看| 欧美黄色片欧美黄色片| 欧美日韩视频精品一区| 看免费av毛片| 另类精品久久| 老汉色av国产亚洲站长工具| 免费在线观看黄色视频的| 亚洲精品久久午夜乱码| 亚洲伊人色综图| videosex国产| 国产成人免费观看mmmm| netflix在线观看网站| 精品国产超薄肉色丝袜足j| 国产一卡二卡三卡精品| 后天国语完整版免费观看| 亚洲情色 制服丝袜| 亚洲三区欧美一区| 国产不卡av网站在线观看| 色精品久久人妻99蜜桃| 久久综合国产亚洲精品| 中文字幕制服av| 欧美日本中文国产一区发布| 久久九九热精品免费| 亚洲国产精品一区三区| 每晚都被弄得嗷嗷叫到高潮| 99精国产麻豆久久婷婷| 91麻豆av在线| 亚洲午夜精品一区,二区,三区| 亚洲第一av免费看| 国产成人精品久久二区二区91| 高清av免费在线| 久久久久网色| 一区福利在线观看| 欧美亚洲 丝袜 人妻 在线| 高清在线国产一区| 亚洲精品中文字幕在线视频| 视频区欧美日本亚洲| 一区二区av电影网| 国产成人a∨麻豆精品| 自线自在国产av| 国产免费现黄频在线看| 中文字幕色久视频| 国产精品免费视频内射| 高清视频免费观看一区二区| 18禁黄网站禁片午夜丰满| 91精品国产国语对白视频| 三上悠亚av全集在线观看| 国产精品九九99| 国产极品粉嫩免费观看在线| 欧美 亚洲 国产 日韩一| 亚洲成人免费av在线播放| 国产av精品麻豆| 狂野欧美激情性xxxx| 在线观看舔阴道视频| 国产亚洲精品第一综合不卡| 欧美日韩亚洲综合一区二区三区_| 成人国产av品久久久| 曰老女人黄片| 另类亚洲欧美激情| 如日韩欧美国产精品一区二区三区| 我的亚洲天堂| 十八禁高潮呻吟视频| 国产精品自产拍在线观看55亚洲 | 青草久久国产| 看免费av毛片| 国产野战对白在线观看| 狠狠狠狠99中文字幕| 欧美一级毛片孕妇| 午夜激情av网站| 欧美老熟妇乱子伦牲交| 日本av免费视频播放| 日日摸夜夜添夜夜添小说| 99国产极品粉嫩在线观看| 51午夜福利影视在线观看| 亚洲精品国产一区二区精华液| av免费在线观看网站| 欧美激情 高清一区二区三区| 亚洲精品久久久久久婷婷小说| 亚洲情色 制服丝袜| 亚洲国产成人一精品久久久| 日本a在线网址| 高清在线国产一区| 91字幕亚洲| 国产有黄有色有爽视频| 高清在线国产一区| 国产深夜福利视频在线观看| 欧美精品一区二区大全| 久久久久久久精品精品| 一个人免费看片子| 汤姆久久久久久久影院中文字幕| 99九九在线精品视频| av在线老鸭窝| 欧美精品人与动牲交sv欧美| 91老司机精品| 十八禁高潮呻吟视频| 男女下面插进去视频免费观看| 黑人猛操日本美女一级片| 黄网站色视频无遮挡免费观看| 国产欧美日韩精品亚洲av| 视频区图区小说| 天天躁日日躁夜夜躁夜夜| 在线观看一区二区三区激情| 91国产中文字幕| 日日摸夜夜添夜夜添小说| 午夜福利视频在线观看免费| 色精品久久人妻99蜜桃| 啦啦啦中文免费视频观看日本| 极品少妇高潮喷水抽搐| 色精品久久人妻99蜜桃| 丝袜美足系列| 国产淫语在线视频| av福利片在线| 老司机影院成人| 日韩欧美一区二区三区在线观看 | 美女高潮喷水抽搐中文字幕| 精品国产一区二区久久| 老司机影院成人| 久久亚洲国产成人精品v| av福利片在线| 一二三四在线观看免费中文在| 亚洲成av片中文字幕在线观看| 午夜老司机福利片| 亚洲一区中文字幕在线| 国产欧美亚洲国产| 日本猛色少妇xxxxx猛交久久| 韩国高清视频一区二区三区| 91av网站免费观看| 亚洲精品久久午夜乱码| 亚洲精品久久成人aⅴ小说| 91国产中文字幕| 欧美乱码精品一区二区三区| 日韩欧美一区二区三区在线观看 | 女人久久www免费人成看片| 99久久精品国产亚洲精品| www日本在线高清视频| 亚洲av美国av| 成人三级做爰电影| 狠狠精品人妻久久久久久综合| 91av网站免费观看| 久久人人爽av亚洲精品天堂| 日韩 欧美 亚洲 中文字幕| 成年人黄色毛片网站| 亚洲av片天天在线观看| 高清视频免费观看一区二区| 最新在线观看一区二区三区| 国产精品国产三级国产专区5o| 一个人免费在线观看的高清视频 | 91精品国产国语对白视频| 自拍欧美九色日韩亚洲蝌蚪91| 青春草亚洲视频在线观看| 午夜福利视频精品| 少妇粗大呻吟视频| 欧美黑人精品巨大| 中文字幕另类日韩欧美亚洲嫩草| 两性夫妻黄色片| 熟女少妇亚洲综合色aaa.| 高清在线国产一区| 欧美日韩av久久| av线在线观看网站| 国内毛片毛片毛片毛片毛片| 18禁国产床啪视频网站| 欧美精品人与动牲交sv欧美| 大片电影免费在线观看免费| 欧美乱码精品一区二区三区| 日本五十路高清| 天天添夜夜摸| 看免费av毛片| kizo精华| 欧美另类亚洲清纯唯美| 国产日韩欧美亚洲二区| tocl精华| 精品福利观看| 亚洲九九香蕉| 一级毛片女人18水好多| 久久天堂一区二区三区四区| 婷婷丁香在线五月| 成年av动漫网址| 免费观看人在逋| 夜夜夜夜夜久久久久| 51午夜福利影视在线观看| 国产在线免费精品| 一区二区三区精品91| 国产激情久久老熟女| 欧美性长视频在线观看| 久热这里只有精品99| 一级,二级,三级黄色视频| 欧美日韩亚洲国产一区二区在线观看 | 19禁男女啪啪无遮挡网站| 精品国产乱码久久久久久男人| 国产成人av教育| 国产高清国产精品国产三级| 91精品国产国语对白视频| 亚洲专区中文字幕在线| kizo精华| 国产成人精品无人区| 国产成人欧美在线观看 | 青草久久国产| 成人影院久久| 女性被躁到高潮视频| 成年动漫av网址| 午夜精品久久久久久毛片777| 老司机影院成人| 女人久久www免费人成看片| 高清在线国产一区| 精品视频人人做人人爽| 爱豆传媒免费全集在线观看| 午夜免费成人在线视频| 亚洲美女黄色视频免费看| av不卡在线播放| 国产在线免费精品| 精品国产乱子伦一区二区三区 | 50天的宝宝边吃奶边哭怎么回事| 久久精品熟女亚洲av麻豆精品| 操出白浆在线播放| 激情视频va一区二区三区| 亚洲一码二码三码区别大吗| 国产免费视频播放在线视频| 日本黄色日本黄色录像| 国产精品一区二区在线不卡| 一区福利在线观看| 亚洲综合色网址| 日韩欧美国产一区二区入口| 香蕉国产在线看| 国产老妇伦熟女老妇高清| 欧美日韩中文字幕国产精品一区二区三区 | 国产一区二区在线观看av| 亚洲专区国产一区二区| 国产福利在线免费观看视频| 午夜日韩欧美国产| 高清视频免费观看一区二区| 国产精品亚洲av一区麻豆| 麻豆乱淫一区二区| 欧美精品一区二区大全| 老司机影院成人| 国产男女超爽视频在线观看| 日日夜夜操网爽| kizo精华| 正在播放国产对白刺激| 青春草视频在线免费观看| 国产熟女午夜一区二区三区| 老司机影院成人| 国产一区二区激情短视频 | 99国产精品免费福利视频| 国产激情久久老熟女| av天堂在线播放| 欧美成狂野欧美在线观看| 欧美精品亚洲一区二区| 高清黄色对白视频在线免费看| 免费在线观看日本一区| 午夜福利,免费看| √禁漫天堂资源中文www| av在线老鸭窝| 爱豆传媒免费全集在线观看| av线在线观看网站| 亚洲国产av新网站| 男人舔女人的私密视频| 波多野结衣一区麻豆| av免费在线观看网站| 中文字幕人妻丝袜制服| 午夜福利影视在线免费观看| 国产精品av久久久久免费| 久久99热这里只频精品6学生| 久久久精品免费免费高清| 777米奇影视久久| 午夜免费成人在线视频| 亚洲伊人久久精品综合| 十八禁高潮呻吟视频| 精品国产乱码久久久久久小说| 欧美成人午夜精品| 母亲3免费完整高清在线观看| 国产成人a∨麻豆精品| 捣出白浆h1v1| 午夜免费鲁丝| 国产在线视频一区二区| 国产99久久九九免费精品| 亚洲成人国产一区在线观看| √禁漫天堂资源中文www| 无遮挡黄片免费观看| 国产成人av教育| 国产一级毛片在线| 制服诱惑二区| 韩国高清视频一区二区三区| 男女边摸边吃奶| 手机成人av网站| 91av网站免费观看| 热99国产精品久久久久久7| 俄罗斯特黄特色一大片| 国产成人免费无遮挡视频| 久久久久精品人妻al黑| 高潮久久久久久久久久久不卡| 在线永久观看黄色视频| www.精华液| 亚洲第一av免费看| 国产男人的电影天堂91| 老熟女久久久| 精品久久久久久电影网| 涩涩av久久男人的天堂| e午夜精品久久久久久久| 在线亚洲精品国产二区图片欧美| 中文字幕人妻熟女乱码| 亚洲精品中文字幕在线视频| 嫁个100分男人电影在线观看| 老司机在亚洲福利影院| 美女大奶头黄色视频| 亚洲国产精品成人久久小说| cao死你这个sao货| 亚洲国产精品成人久久小说| 亚洲精华国产精华精| 水蜜桃什么品种好| 久久免费观看电影| 一二三四在线观看免费中文在| 亚洲国产精品一区二区三区在线| 中文字幕精品免费在线观看视频| 大陆偷拍与自拍| 国产成人a∨麻豆精品| 国产亚洲欧美在线一区二区| 国产免费福利视频在线观看| 午夜两性在线视频| 在线永久观看黄色视频| 69精品国产乱码久久久| 五月天丁香电影| 精品一品国产午夜福利视频| 中文字幕另类日韩欧美亚洲嫩草| 搡老乐熟女国产| 热re99久久精品国产66热6| 久久久欧美国产精品| 大香蕉久久成人网| 国产亚洲精品一区二区www | 国产亚洲欧美精品永久| 亚洲精品在线美女| 国产av精品麻豆| 欧美精品av麻豆av| 纯流量卡能插随身wifi吗| 99国产精品一区二区蜜桃av | 在线精品无人区一区二区三| 亚洲精品国产色婷婷电影| 午夜福利乱码中文字幕| 制服人妻中文乱码| 欧美黄色片欧美黄色片| 日日夜夜操网爽| 女人久久www免费人成看片| 美女福利国产在线| 日韩欧美免费精品| 我要看黄色一级片免费的| www.av在线官网国产| 久久青草综合色| 一本一本久久a久久精品综合妖精| 欧美大码av| 亚洲男人天堂网一区| 9色porny在线观看| 国产三级黄色录像| 9191精品国产免费久久| 肉色欧美久久久久久久蜜桃| 欧美日韩av久久| 亚洲精品自拍成人| 欧美亚洲日本最大视频资源| 99热国产这里只有精品6| 日韩制服丝袜自拍偷拍| 中文字幕色久视频| 考比视频在线观看| 精品一区二区三区av网在线观看 | 日韩,欧美,国产一区二区三区| 国产av国产精品国产| 午夜福利免费观看在线| 一本久久精品| 亚洲一码二码三码区别大吗| 亚洲欧美激情在线| 国产熟女午夜一区二区三区| 午夜免费成人在线视频| av网站在线播放免费| 午夜福利一区二区在线看| 制服人妻中文乱码| 国产在线免费精品| 无限看片的www在线观看| 黄频高清免费视频| 久久久久国产精品人妻一区二区| 18在线观看网站| 日韩一区二区三区影片| 亚洲天堂av无毛| 好男人电影高清在线观看| 国产成人免费观看mmmm| 精品一区二区三卡| 久久影院123| 99re6热这里在线精品视频| 高潮久久久久久久久久久不卡| 大香蕉久久网| 国产亚洲精品一区二区www | 久久精品人人爽人人爽视色| 不卡av一区二区三区| 纵有疾风起免费观看全集完整版| 亚洲精品成人av观看孕妇| 亚洲色图 男人天堂 中文字幕| 午夜视频精品福利| 国产区一区二久久| 国产精品久久久av美女十八| 久久久国产一区二区| 国产不卡av网站在线观看| 久久99热这里只频精品6学生| 国产成人精品在线电影| 成年人午夜在线观看视频| av超薄肉色丝袜交足视频| 黄色视频不卡| 一区二区三区乱码不卡18| 久久人妻熟女aⅴ| a级毛片黄视频| 汤姆久久久久久久影院中文字幕| 18禁观看日本| 18禁裸乳无遮挡动漫免费视频| 精品国产一区二区三区四区第35| 精品一区在线观看国产| 19禁男女啪啪无遮挡网站| 一本久久精品| 久久精品成人免费网站| 飞空精品影院首页| 亚洲精品乱久久久久久| 欧美变态另类bdsm刘玥| 日日摸夜夜添夜夜添小说| 免费观看人在逋| 国产精品免费视频内射| 成人黄色视频免费在线看| 嫩草影视91久久| 91麻豆av在线| 高清视频免费观看一区二区| 99九九在线精品视频| 精品福利永久在线观看| 热re99久久精品国产66热6| 国产成人一区二区三区免费视频网站| 亚洲国产毛片av蜜桃av| 制服人妻中文乱码| 精品久久久久久久毛片微露脸 | 亚洲性夜色夜夜综合| 亚洲国产精品成人久久小说| 久久久久久人人人人人| 视频区图区小说| 国产在线观看jvid| 亚洲情色 制服丝袜| 人人妻人人澡人人爽人人夜夜| 超碰成人久久| 在线观看免费日韩欧美大片| 伊人久久大香线蕉亚洲五| 18禁裸乳无遮挡动漫免费视频| 80岁老熟妇乱子伦牲交| 国产成人免费无遮挡视频| 亚洲欧美精品自产自拍| 热re99久久精品国产66热6| 老司机午夜十八禁免费视频| 精品一品国产午夜福利视频| av国产精品久久久久影院| 中文字幕人妻丝袜制服| 天堂俺去俺来也www色官网| 久久这里只有精品19| 啦啦啦免费观看视频1| 国产精品一区二区免费欧美 | 97精品久久久久久久久久精品| 美女主播在线视频| 国产xxxxx性猛交| 人人澡人人妻人| 亚洲九九香蕉| 亚洲中文字幕日韩| 国产区一区二久久| 欧美激情 高清一区二区三区| 99久久综合免费| 久久国产精品大桥未久av| 国产亚洲精品一区二区www | 国产成人精品无人区| 免费一级毛片在线播放高清视频 | 蜜桃国产av成人99| 国产av又大| 色老头精品视频在线观看| 69av精品久久久久久 | 亚洲伊人色综图| 欧美日韩成人在线一区二区| 国产精品久久久久久精品电影小说| 国产伦人伦偷精品视频| 国产一区二区三区综合在线观看| 国产区一区二久久| 精品国产一区二区三区四区第35| 中文精品一卡2卡3卡4更新| 日韩视频在线欧美| 日本猛色少妇xxxxx猛交久久| 午夜福利一区二区在线看| 国产人伦9x9x在线观看| 久久精品aⅴ一区二区三区四区| 欧美一级毛片孕妇| 午夜影院在线不卡| 欧美一级毛片孕妇| 精品一品国产午夜福利视频| 高清在线国产一区| 一区二区日韩欧美中文字幕| 女警被强在线播放| 女性被躁到高潮视频| 在线看a的网站| 国产在视频线精品| 少妇裸体淫交视频免费看高清 | 女人精品久久久久毛片| 日本91视频免费播放| 老司机福利观看| 青春草视频在线免费观看| 国产亚洲午夜精品一区二区久久| 久热这里只有精品99| 国产精品 欧美亚洲| 午夜福利一区二区在线看| 国产日韩一区二区三区精品不卡| 亚洲久久久国产精品| 日日爽夜夜爽网站| 国产一区二区三区在线臀色熟女 | 在线观看人妻少妇| 国产精品 欧美亚洲| 日本黄色日本黄色录像| 精品久久久精品久久久| 亚洲国产欧美一区二区综合| 热re99久久精品国产66热6| 视频区图区小说| 波多野结衣av一区二区av| 人妻久久中文字幕网| 两个人免费观看高清视频| 欧美国产精品一级二级三级| 日韩视频在线欧美| 久久久久视频综合| 国产精品国产av在线观看| 精品国内亚洲2022精品成人 | 国产99久久九九免费精品| 老司机影院毛片| 老司机影院成人| 中亚洲国语对白在线视频| 丰满饥渴人妻一区二区三| 99精品久久久久人妻精品| 亚洲伊人色综图| 91麻豆av在线| 日本精品一区二区三区蜜桃| 91九色精品人成在线观看| 狠狠狠狠99中文字幕| 日韩 亚洲 欧美在线| 亚洲一卡2卡3卡4卡5卡精品中文| av在线app专区| 久久久久视频综合| 久久久国产欧美日韩av| 人妻久久中文字幕网| 久久亚洲精品不卡| 亚洲精品久久午夜乱码| 一二三四社区在线视频社区8| 中国国产av一级| 老汉色av国产亚洲站长工具| 多毛熟女@视频| 国产精品国产av在线观看| 久久综合国产亚洲精品| 人人妻人人爽人人添夜夜欢视频| 人人澡人人妻人| 国产伦理片在线播放av一区| 天堂8中文在线网| 日韩熟女老妇一区二区性免费视频| 国产成+人综合+亚洲专区| 母亲3免费完整高清在线观看| 亚洲三区欧美一区| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲伊人色综图| 欧美日韩亚洲国产一区二区在线观看 | 美女高潮到喷水免费观看| 女人爽到高潮嗷嗷叫在线视频| 伊人亚洲综合成人网| 超碰97精品在线观看| 国产一区二区在线观看av| 精品视频人人做人人爽| 久久午夜综合久久蜜桃| 国产91精品成人一区二区三区 | 亚洲午夜精品一区,二区,三区| 亚洲国产av影院在线观看| 国产精品二区激情视频| 九色亚洲精品在线播放| 18禁裸乳无遮挡动漫免费视频| 大香蕉久久网| 亚洲中文字幕日韩| 美女扒开内裤让男人捅视频| 99国产综合亚洲精品| 丝袜在线中文字幕| 成人影院久久|