顧耀文 李 姣
(中國(guó)醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
電子健康檔案(Electronic Health Record, EHR)是一種用于收集、存儲(chǔ)和提供個(gè)體健康記錄的縱向醫(yī)療保健電子數(shù)據(jù)。通常包括人口統(tǒng)計(jì)、檢查結(jié)果、疾病診斷、臨床護(hù)理、用藥管理、付款和保險(xiǎn)等信息[1]。近年來(lái)各國(guó)加大對(duì)EHR建設(shè)工作的投入[2-3],EHR開(kāi)始替代傳統(tǒng)就醫(yī)過(guò)程中的紙質(zhì)病歷,作為主要信息源貫穿醫(yī)療工作中,實(shí)現(xiàn)個(gè)人健康整合和資源共享[4],為優(yōu)化就醫(yī)流程、節(jié)約醫(yī)療支出起到重要作用。EHR數(shù)據(jù)不僅限于幫助醫(yī)療計(jì)費(fèi)及患者管理,還能夠助力生物醫(yī)學(xué)研究,有較大研究潛力[1,5]。隨著人工智能技術(shù)發(fā)展,利用深度學(xué)習(xí)等數(shù)據(jù)驅(qū)動(dòng)方法對(duì)EHR進(jìn)行2次利用,在臨床決策支持[6]、疾病亞型發(fā)現(xiàn)[7]、藥物警戒[8]、醫(yī)學(xué)概念提取[9]、臨床結(jié)局預(yù)測(cè)[10]等領(lǐng)域具有重要應(yīng)用價(jià)值。然而EHR數(shù)據(jù)存在非結(jié)構(gòu)化文本較多、數(shù)據(jù)隱私性要求較高、標(biāo)注樣本昂貴稀缺的問(wèn)題,難以進(jìn)行數(shù)據(jù)挖掘。以自編碼器(Autoencoder, AE),生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)和基于Transformer的雙向編碼器表征(Bidirectional Encoder Representations from Transformers, BERT)為代表的無(wú)監(jiān)督深度學(xué)習(xí)技術(shù)能從富含噪聲、無(wú)標(biāo)注的原始數(shù)據(jù)中提取關(guān)鍵信息并直接對(duì)數(shù)據(jù)進(jìn)行建模,實(shí)現(xiàn)特征提取、數(shù)據(jù)生成、結(jié)構(gòu)化表示等功能,在解決EHR數(shù)據(jù)挖掘難點(diǎn)方面具有潛力。基于無(wú)監(jiān)督深度學(xué)習(xí)的技術(shù)框架協(xié)助EHR數(shù)據(jù)挖掘具有廣闊發(fā)展前景,成為當(dāng)前研究熱點(diǎn)。本文綜述常用無(wú)監(jiān)督深度學(xué)習(xí)技術(shù)及其應(yīng)用于EHR的最新研究進(jìn)展并對(duì)無(wú)監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行總結(jié)與展望。
無(wú)監(jiān)督深度學(xué)習(xí)是指使用深度學(xué)習(xí)技術(shù)在沒(méi)有額外信息情況下直接從原始數(shù)據(jù)中學(xué)習(xí)潛在的模式,以發(fā)現(xiàn)隱藏在原始數(shù)據(jù)中有價(jià)值的信息,例如有效特征、類別、結(jié)構(gòu)、概率分布等。無(wú)監(jiān)督深度學(xué)習(xí)可以用來(lái)作為通用數(shù)據(jù)預(yù)處理過(guò)程并在其后嵌入多種算法模型以完成具體下游任務(wù)。
主要包括自編碼器、生成式對(duì)抗網(wǎng)絡(luò)、BERT等。無(wú)監(jiān)督深度學(xué)習(xí)模型使用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)等作為每個(gè)網(wǎng)絡(luò)層的基礎(chǔ)結(jié)構(gòu),利用隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD),Adam,RMSprop等優(yōu)化方法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以完成模型學(xué)習(xí)。因模型結(jié)構(gòu)和計(jì)算過(guò)程的差異性,不同無(wú)監(jiān)督深度學(xué)習(xí)方法在EHR數(shù)據(jù)挖掘主要應(yīng)用方向不同,見(jiàn)圖1。本文對(duì)自編碼器、生成式對(duì)抗網(wǎng)絡(luò)、BERT原理及其在EHR數(shù)據(jù)挖掘中的具體應(yīng)用進(jìn)行介紹。
圖1 基于無(wú)監(jiān)督深度學(xué)習(xí)的EHR數(shù)據(jù)挖掘
3.1.1 基本概念 一種使用反向傳播算法使模型期望預(yù)測(cè)輸出值等于輸入值的神經(jīng)網(wǎng)絡(luò)。其將高維輸入壓縮為低維的隱層表征并用以重構(gòu)輸出值。自編碼器由編碼器(Encoder)和解碼器(Decoder)構(gòu)成。對(duì)于任一給定輸入向量x,首先在表示為h=f(x)的編碼器中編碼為低維隱層向量,再通過(guò)表示為y=g(h)的解碼器進(jìn)行輸出,其中x與y的維度相同。因此自編碼器計(jì)算過(guò)程可以用y=g(f(x))表示,而模型訓(xùn)練目標(biāo)為最小化輸入向量與輸出向量之間的差異,可以表示為minLoss(x,g(f(x)))。
3.1.2 特點(diǎn) 相較主成分分析(Principal Component Analysis,PCA)等線性無(wú)監(jiān)督學(xué)習(xí)方法,自編碼器使用神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)結(jié)構(gòu),通過(guò)不同激活函數(shù)實(shí)現(xiàn)非線性推廣;同時(shí)自編碼器可以通過(guò)疊加神經(jīng)網(wǎng)絡(luò)層數(shù)使編碼器和解碼器更加復(fù)雜,從而學(xué)習(xí)得到更有效的表示;更為重要的是自編碼器作為一種通用數(shù)據(jù)驅(qū)動(dòng)型計(jì)算模型,可以使用從另一相關(guān)數(shù)據(jù)中預(yù)先訓(xùn)練得到的模型或部分層,通過(guò)遷移學(xué)習(xí)和微調(diào)的方式增強(qiáng)當(dāng)前任務(wù)自編碼器表征性能以及降低訓(xùn)練耗時(shí),大幅擴(kuò)展自編碼器應(yīng)用范圍,使其在小樣本任務(wù)中具有良好表現(xiàn)。
3.1.3 特定用途自編碼器 為盡可能提高自編碼器表征能力及其在去噪、降維等特定用途的性能,研究者以傳統(tǒng)自編碼器為基礎(chǔ)開(kāi)發(fā)降噪自編碼器(Denoising Autoencoder,DAE),稀疏自編碼器,卷積自編碼器,變分自編碼器(Variational Autoencoder,VAE)等模型結(jié)構(gòu)。
3.1.4 基于自編碼器的EHR數(shù)據(jù)挖掘 目前自編碼器在數(shù)據(jù)去噪以及數(shù)據(jù)降維、可視化等領(lǐng)域具有廣泛應(yīng)用,同時(shí)可用于特征提取、分類及異常值檢測(cè)等任務(wù)。對(duì)于基于自編碼器的EHR數(shù)據(jù)挖掘研究,由于自編碼器能夠以無(wú)監(jiān)督方式自動(dòng)學(xué)習(xí)有效特征且不同EHR數(shù)據(jù)的特征類別具有較高一致性,因此自編碼器具有在大規(guī)模EHR數(shù)據(jù)中進(jìn)行無(wú)監(jiān)督學(xué)習(xí)的潛力,其編碼器輸出的低維稠密向量可在降維、聚類后用于患者分層,也可嵌入線性分類層或與隨機(jī)森林等分類模型用于臨床結(jié)局預(yù)測(cè);而其解碼器輸出的向量與模型的輸入信息相似,可被設(shè)計(jì)以實(shí)現(xiàn)隱私保護(hù)、數(shù)據(jù)合成等,見(jiàn)圖2。
圖2 基于自編碼器的EHR數(shù)據(jù)挖掘流程
3.1.5 相關(guān)研究 Deep Patient[10]使用3層去噪自編碼器自動(dòng)學(xué)習(xí)EHR數(shù)據(jù)中的分層規(guī)律和依存關(guān)系,將自編碼器學(xué)習(xí)到的深層表征作為隨機(jī)森林分類器的輸入,用于預(yù)測(cè)患者未來(lái)患病可能。結(jié)果表明基于自編碼器模型的預(yù)測(cè)性能優(yōu)于PCA、K-Means等傳統(tǒng)無(wú)監(jiān)督學(xué)習(xí)算法;ConvAE[7]使用詞嵌入、卷積神經(jīng)網(wǎng)絡(luò)和自編碼器提取電子病歷深度表征并在復(fù)雜疾病的臨床亞型分型任務(wù)中取得最優(yōu)性能;SDAE[11]使用規(guī)范化的堆疊式去噪自編碼器,根據(jù)大量急性冠狀動(dòng)脈綜合征EHR數(shù)據(jù)完成患者分層和臨床風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)并取得具有競(jìng)爭(zhēng)優(yōu)勢(shì)的預(yù)測(cè)性能。
3.1.6 應(yīng)用價(jià)值 自編碼器可作為自動(dòng)學(xué)習(xí)EHR深層表示的通用框架,這種無(wú)監(jiān)督深度學(xué)習(xí)方式不僅消除了昂貴費(fèi)時(shí)的手工特征工程步驟,還能以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)真實(shí)世界樣本中的潛在表示,具有廣闊的臨床應(yīng)用前景。
3.2.1 基本概念 生成式對(duì)抗網(wǎng)絡(luò)是Goodfellow I、Pouget-Abadie J和 Mirza M等[12]于2014年提出的一種基于深度學(xué)習(xí)的無(wú)監(jiān)督生成模型,用于根據(jù)模型的自我對(duì)抗過(guò)程以實(shí)現(xiàn)生成足夠逼真的數(shù)據(jù)的目的。生成式對(duì)抗網(wǎng)絡(luò)主要包括生成器和判別器兩個(gè)部分,其中生成器用于根據(jù)給定的輸入信息生成一個(gè)盡可能“以假亂真”的新數(shù)據(jù),而判別器用于判斷生成器所生成數(shù)據(jù)是否為真實(shí)樣本。在最初訓(xùn)練過(guò)程中生成器僅能生成充滿噪聲的數(shù)據(jù),而判別器可以很準(zhǔn)確地進(jìn)行辨別;隨著模型不斷迭代,當(dāng)生成器可以生成與真實(shí)數(shù)據(jù)分布相同的數(shù)據(jù)時(shí),判別器無(wú)法準(zhǔn)確判斷數(shù)據(jù)來(lái)源,便認(rèn)為模型已完成訓(xùn)練并能夠用于相關(guān)數(shù)據(jù)的生成任務(wù)中。目前生成式對(duì)抗網(wǎng)絡(luò)已經(jīng)成功應(yīng)用于圖像生成[13]、風(fēng)格遷移[14]、信息補(bǔ)全[15]等領(lǐng)域中并達(dá)到目前最先進(jìn)技術(shù)(State-Of-The-Art,SOTA)效果;同時(shí)在文本生成[16]、結(jié)構(gòu)化數(shù)據(jù)生成[17]等方面也有大量應(yīng)用。
3.2.2 在EHR數(shù)據(jù)挖掘中的應(yīng)用場(chǎng)景 對(duì)于部分特殊疾病和罕見(jiàn)病來(lái)說(shuō),EHR數(shù)據(jù)是稀缺的;同時(shí)受醫(yī)療數(shù)據(jù)法律、隱私和安全問(wèn)題等因素影響,完整EHR數(shù)據(jù)的獲取難度較大。為了規(guī)避這些問(wèn)題可以考慮通過(guò)自動(dòng)生成逼真的合成數(shù)據(jù)進(jìn)行EHR數(shù)據(jù)挖掘;對(duì)于EHR數(shù)據(jù)擴(kuò)增方面,相較于基于概率統(tǒng)計(jì)和臨床實(shí)踐指南的傳統(tǒng)方法,基于生成式對(duì)抗網(wǎng)絡(luò)的無(wú)監(jiān)督方法通用性更廣,并且可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)到真實(shí)樣本分布而不是依靠先驗(yàn)知識(shí)。基于生成式對(duì)抗網(wǎng)絡(luò)的EHR數(shù)據(jù)挖掘流程較為簡(jiǎn)單,研究者可以直接通過(guò)將隨機(jī)噪聲向量輸入訓(xùn)練后的生成式對(duì)抗網(wǎng)絡(luò)以得到與訓(xùn)練EHR數(shù)據(jù)分布相似的合成數(shù)據(jù),以解決EHR數(shù)據(jù)合成和隱私保護(hù)問(wèn)題,見(jiàn)圖3。
圖3 基于生成式對(duì)抗網(wǎng)絡(luò)的EHR數(shù)據(jù)挖掘流程
3.2.3 相關(guān)研究 DAAE[18]將遞歸自編碼器與生成對(duì)抗網(wǎng)絡(luò)結(jié)合,在生成時(shí)間序列EHR數(shù)據(jù)時(shí)取得了最優(yōu)的似真性評(píng)分;MedGAN[19]結(jié)合自編碼器和生成式對(duì)抗網(wǎng)絡(luò)以合成高質(zhì)量的EHR離散數(shù)據(jù),在數(shù)據(jù)分布統(tǒng)計(jì)和預(yù)測(cè)建模等任務(wù)中實(shí)現(xiàn)了與真實(shí)數(shù)據(jù)相當(dāng)?shù)男阅?;而MedWGAN、MedBGAN[20]為對(duì)MedGAN進(jìn)行改進(jìn),提高了關(guān)聯(lián)規(guī)則挖掘和疾病預(yù)測(cè)方面的性能。在隱私保護(hù)方面,生成式對(duì)抗網(wǎng)絡(luò)生成的合成數(shù)據(jù)與真實(shí)樣本沒(méi)有顯式映射,而針對(duì)MedGAN、DAAE等生成式對(duì)抗網(wǎng)絡(luò)的隱私實(shí)驗(yàn)結(jié)果表明,基于生成式對(duì)抗網(wǎng)絡(luò)產(chǎn)生的不同EHR合成樣本的潛在隱私暴露風(fēng)險(xiǎn)較低。
3.3.1 基本概念 BERT[21]是谷歌于2018年提出的一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,其在11個(gè)自然語(yǔ)言處理任務(wù)中取得了先進(jìn)結(jié)果。BERT的模型結(jié)構(gòu)由一種基于Self-Attention的Transformer[22]結(jié)構(gòu)組成,相較于自然語(yǔ)言處理中較為常用的循環(huán)神經(jīng)網(wǎng)絡(luò)Transformer計(jì)算速度更快并能進(jìn)行深層堆疊。此外BERT還構(gòu)建了兩種無(wú)監(jiān)督預(yù)訓(xùn)練(Pre-training)過(guò)程。(1)MLM(Mask Language Model)。對(duì)部分輸入句子中的字進(jìn)行隨機(jī)掩蓋并通過(guò)訓(xùn)練BERT模型以預(yù)測(cè)被掩蓋的字來(lái)學(xué)習(xí)句子內(nèi)部關(guān)系。(2)NSP(Next Sentence Prediction)。1次輸入兩個(gè)句子并訓(xùn)練BERT模型以預(yù)測(cè)兩個(gè)句子相鄰的概率來(lái)學(xué)習(xí)句子之間的關(guān)系。通過(guò)構(gòu)建MLM和NSP訓(xùn)練目標(biāo),BERT能夠以無(wú)監(jiān)督的方式從無(wú)標(biāo)注文本中進(jìn)行預(yù)訓(xùn)練,在完成預(yù)訓(xùn)練過(guò)程后,BERT模型可以通過(guò)在模型后端嵌入不同結(jié)構(gòu)以應(yīng)用到不同自然語(yǔ)言處理任務(wù)中,例如文本分類、命名實(shí)體識(shí)別、語(yǔ)義提取等。
3.3.2 基于BERT的EHR數(shù)據(jù)挖掘 BERT被廣泛應(yīng)用于不同語(yǔ)種、專業(yè)領(lǐng)域的自然語(yǔ)言處理問(wèn)題中。在相關(guān)領(lǐng)域或語(yǔ)種的大規(guī)模文本上完成預(yù)訓(xùn)練后,BERT使用特定任務(wù)相關(guān)數(shù)據(jù)集進(jìn)行微調(diào),即可取得先進(jìn)性能。在EHR數(shù)據(jù)挖掘領(lǐng)域,由于BERT模型的參數(shù)量較龐大、訓(xùn)練時(shí)間較慢,研究者常在開(kāi)源BERT預(yù)訓(xùn)練模型的基礎(chǔ)上使用EHR自由文本進(jìn)行微調(diào)。在下游任務(wù)方面,研究者可使用微調(diào)后的BERT模型輸出臨床文本的表示向量以用于語(yǔ)義相似性計(jì)算,或嵌入線性分類層以進(jìn)行臨床預(yù)測(cè)任務(wù)研究,見(jiàn)圖4。醫(yī)學(xué)概念識(shí)別也屬于針對(duì)每個(gè)醫(yī)學(xué)概念詞語(yǔ)的多分類任務(wù),可根據(jù)每個(gè)詞語(yǔ)經(jīng)過(guò)BERT編碼后的輸出類別值識(shí)別對(duì)應(yīng)的醫(yī)學(xué)概念。
圖4 基于BERT的EHR數(shù)據(jù)挖掘
3.3.3 應(yīng)用情況 醫(yī)學(xué)概念識(shí)別方面,EHRBERT[23]從EHR中識(shí)別藥物、診斷、不良事件等醫(yī)學(xué)臨床實(shí)體并將其規(guī)范化。識(shí)別醫(yī)學(xué)臨床實(shí)體可以將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),這對(duì)臨床決策支持、醫(yī)學(xué)知識(shí)發(fā)現(xiàn)等基于EHR的數(shù)據(jù)挖掘研究具有重要作用;臨床預(yù)測(cè)方面,TAPER[24]利用BERT模型將EHR中的非結(jié)構(gòu)化文本嵌入到統(tǒng)一向量表示空間中,有效地將患者信息編碼為可用于下游任務(wù)的形式,增加了EHR有效信息量并將其應(yīng)用于存活、重復(fù)入院等臨床結(jié)局事件預(yù)測(cè)中;語(yǔ)義相似性方面,由于基于模板和臨床筆記生成的EHR數(shù)據(jù)存在較多冗余信息,需要對(duì)EHR數(shù)據(jù)進(jìn)行壓縮,而計(jì)算臨床文本片段的語(yǔ)義相似性是一種解決方法。Mahajan D、Poddar A和 Liang J J等[25]將多任務(wù)學(xué)習(xí)方法應(yīng)用于ClinicalBERT模型中,在臨床語(yǔ)義文本相似性任務(wù)中取得了最優(yōu)預(yù)測(cè)性能。
目前無(wú)監(jiān)督深度學(xué)習(xí)技術(shù)研究在疾病亞型分析、臨床結(jié)局預(yù)測(cè)等多個(gè)細(xì)分醫(yī)學(xué)研究領(lǐng)域已取得較大成果,但其在EHR數(shù)據(jù)挖掘中的通用性應(yīng)用尚未成熟,具體主要體現(xiàn)在大多研究的建模數(shù)據(jù)來(lái)源不具備普適性和代表性。例如ConvAE、EHRBERT等研究使用數(shù)據(jù)規(guī)模較大,但均為醫(yī)院未公開(kāi)EHR數(shù)據(jù)。雖然保證了數(shù)據(jù)一致性,但將其遷移至不同來(lái)源的EHR數(shù)據(jù)會(huì)存在數(shù)據(jù)分布差異問(wèn)題;TAPER、DAAE等使用MIMIC-III等公共EHR數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行建模,但缺乏實(shí)際應(yīng)用場(chǎng)景下的外部驗(yàn)證集評(píng)估。因此如何有效地將無(wú)監(jiān)督深度學(xué)習(xí)技術(shù)應(yīng)用于EHR數(shù)據(jù)并指導(dǎo)臨床實(shí)踐仍然有待進(jìn)一步研究。EHR數(shù)據(jù)挖掘的無(wú)監(jiān)督深度學(xué)習(xí)模型及其主體模型結(jié)構(gòu)和應(yīng)用場(chǎng)景,見(jiàn)表1。
表1 基于無(wú)監(jiān)督深度學(xué)習(xí)的EHR數(shù)據(jù)挖掘應(yīng)用研究
續(xù)表1
由于深度學(xué)習(xí)是一種“黑盒”模型,研究者尚未能揭示深度學(xué)習(xí)模型在訓(xùn)練過(guò)程中所學(xué)習(xí)參數(shù)矩陣的具體意義,EHR數(shù)據(jù)使用自編碼器、BERT等無(wú)監(jiān)督學(xué)習(xí)方法得到的潛在表示無(wú)法被合理解釋,而臨床決策支持、患病風(fēng)險(xiǎn)預(yù)測(cè)等臨床具體應(yīng)用需要預(yù)測(cè)工具的計(jì)算方法具有可轉(zhuǎn)化為臨床知識(shí)的能力,這使得無(wú)監(jiān)督深度學(xué)習(xí)在臨床實(shí)踐中應(yīng)用較為受限。
EHR中存儲(chǔ)有包括人口統(tǒng)計(jì)學(xué)、疾病診斷、實(shí)驗(yàn)室檢查、影像報(bào)告、用藥情況等多源異構(gòu)數(shù)據(jù),從數(shù)據(jù)結(jié)構(gòu)上來(lái)說(shuō)包括非結(jié)構(gòu)化文本、圖像、類別特征、實(shí)值特征等,單一無(wú)監(jiān)督學(xué)習(xí)技術(shù)無(wú)法有效處理全部EHR信息。開(kāi)發(fā)基于無(wú)監(jiān)督學(xué)習(xí)的通用異構(gòu)信息處理框架是最大程度利用EHR數(shù)據(jù)、促進(jìn)臨床應(yīng)用的重點(diǎn)研究方向。
大多用于EHR數(shù)據(jù)挖掘的無(wú)監(jiān)督深度學(xué)習(xí)模型多采用私有數(shù)據(jù)集,并且受患者數(shù)據(jù)敏感性限制EHR數(shù)據(jù)共享較難推進(jìn);有研究聲稱該模型具有最先進(jìn)性能卻較少有充足外部驗(yàn)證過(guò)程。因此缺乏通用基準(zhǔn)測(cè)試數(shù)據(jù)集和算法是目前開(kāi)發(fā)適合于EHR數(shù)據(jù)的無(wú)監(jiān)督深度學(xué)習(xí)模型的障礙。
無(wú)監(jiān)督深度學(xué)習(xí)與人類學(xué)習(xí)方式相仿,能夠自動(dòng)從大規(guī)模無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)相關(guān)概念和關(guān)系的表示,并且可以作為預(yù)訓(xùn)練模型用于其他任務(wù)之中,具有發(fā)展為通用人工智能技術(shù)的前景,因而被卷積神經(jīng)網(wǎng)絡(luò)發(fā)明人Yann LeCun譽(yù)為“深度學(xué)習(xí)的未來(lái)”。在EHR數(shù)據(jù)挖掘領(lǐng)域,使用海量EHR數(shù)據(jù)訓(xùn)練的無(wú)監(jiān)督深度學(xué)習(xí)模型可用于生成模擬數(shù)據(jù)、處理冗余文本信息和特征提取,是患者隱私保護(hù)、結(jié)構(gòu)化表示和臨床預(yù)測(cè)等關(guān)鍵問(wèn)題的重要解決方法。隨著信息化技術(shù)的發(fā)展和人力成本的增加,急劇擴(kuò)增的EHR數(shù)據(jù)中無(wú)標(biāo)注樣本的占比逐漸增大;雖然EHR數(shù)據(jù)共享不斷加深,但數(shù)據(jù)隱私保護(hù)及多源異構(gòu)問(wèn)題阻礙了監(jiān)督學(xué)習(xí)在EHR數(shù)據(jù)挖掘中的廣泛應(yīng)用。而無(wú)監(jiān)督深度學(xué)習(xí)相比于監(jiān)督學(xué)習(xí)和統(tǒng)計(jì)分析等方法具有數(shù)據(jù)驅(qū)動(dòng)、通用性強(qiáng)等優(yōu)點(diǎn),能夠從大規(guī)模EHR數(shù)據(jù)中挖掘、提取、發(fā)現(xiàn)有效信息,助力臨床醫(yī)學(xué)研究。