• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙通道混合神經(jīng)網(wǎng)絡(luò)的房顫風(fēng)險(xiǎn)預(yù)測(cè)模型

      2023-11-18 03:33:06柯博文陳艷紅
      計(jì)算機(jī)工程 2023年11期
      關(guān)鍵詞:特征分析房顫注意力

      柯博文,楊 湘,陳艷紅

      (1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065;2.國(guó)家新聞出版署富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100038;3.武漢亞洲心臟病醫(yī)院 心血管內(nèi)科,武漢 430022)

      0 概述

      心房顫動(dòng)是心血管疾病中常見(jiàn)的慢性心律失常[1],隨著年齡增長(zhǎng),患病率逐漸上升。房顫具有隱秘性,患者在病發(fā)前不會(huì)出現(xiàn)任何明顯的身體異常,但病發(fā)時(shí)容易致命[2]。因此,針對(duì)心房顫動(dòng)的早期篩查和風(fēng)險(xiǎn)預(yù)測(cè)工作是非常有必要的。

      心電圖(Electrocardiogram,ECG)是一種常用的心房顫動(dòng)診斷手段,但具有普適性的電子健康病歷(Electronic Health Records,EHR)更適合用于心房顫動(dòng)的早期篩查工作[3]。EHR 直接反應(yīng)了患者一段時(shí)間內(nèi)的身體健康狀況,其中涵蓋了患者一段時(shí)間內(nèi)做過(guò)的診斷、檢查檢驗(yàn)、用藥等信息。不同于心電圖,EHR 來(lái)源于患者的日常治療過(guò)程,是一種較易獲取的數(shù)據(jù)。

      受益于近些年來(lái)深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[4-5]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[6-7]被廣泛應(yīng)用于疾病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)。CNN 是一個(gè)能夠提取數(shù)據(jù)中的局部特征,并不斷匯聚以反映數(shù)據(jù)整體特征的深度神經(jīng)網(wǎng)絡(luò),在圖像處理[8]、語(yǔ)音識(shí)別[9]等領(lǐng)域表現(xiàn)理想。EHR 涵蓋了非常多的醫(yī)療事件,醫(yī)療事件之間的多依賴關(guān)系使得數(shù)據(jù)的全局特征更為重要,而CNN 無(wú)法完全提取到數(shù)據(jù)的全局特征。

      除了EHR 的數(shù)據(jù)特性以外,在實(shí)際臨床診斷過(guò)程中,房顫的發(fā)生也受到其他醫(yī)學(xué)指標(biāo)的影響。臨床醫(yī)學(xué)[10]與早期的分析方法[11]已經(jīng)證實(shí),高血壓、甲狀腺功能異常等指標(biāo)會(huì)直接導(dǎo)致房顫發(fā)生,因此重點(diǎn)關(guān)注這些特定指標(biāo)是非常有必要的。

      為了克服上述挑戰(zhàn),本文提出因素風(fēng)險(xiǎn)-注意神經(jīng)網(wǎng)絡(luò)(Factor Risk-Attention Neural Network,F(xiàn)RANN),F(xiàn)R-ANN 的一個(gè)通道通過(guò)引入注意力機(jī)制來(lái)提取數(shù)據(jù)的全局特征,另一個(gè)通道對(duì)一些重要的醫(yī)療事件獨(dú)立進(jìn)行特征提取,解決CNN 無(wú)法有效提取到數(shù)據(jù)全局特征的問(wèn)題。根據(jù)患者近幾次就診記錄,預(yù)測(cè)患者半年內(nèi)是否有患病風(fēng)險(xiǎn),并采用專(zhuān)用通道提取單個(gè)醫(yī)療事件的變化特征,捕捉醫(yī)療事件對(duì)結(jié)果的直接影響。在MIT 的公共數(shù)據(jù)集MIMIC-Ⅲ[12]和武漢亞洲心臟病醫(yī)院提供的私有數(shù)據(jù)集上驗(yàn)證FR-ANN 在房顫風(fēng)險(xiǎn)預(yù)測(cè)工作中的有效性。

      1 相關(guān)研究

      在現(xiàn)代醫(yī)學(xué)領(lǐng)域,基于EHR 的房顫早期篩查技術(shù)對(duì)于降低疾病致死率具有重要意義,它能夠幫助醫(yī)生預(yù)防疾病的發(fā)生。EHR 數(shù)據(jù)包含大量的醫(yī)療事件,主要由醫(yī)療診斷和檢查檢驗(yàn)構(gòu)成。特征提取是疾病預(yù)測(cè)工作中最重要的一步,它將經(jīng)過(guò)特征工程的數(shù)據(jù)輸入到模型中,模型通過(guò)手動(dòng)或自動(dòng)的方式提取特征,最后預(yù)測(cè)結(jié)果。

      在早期的疾病預(yù)測(cè)任務(wù)研究中,許多研究人員通過(guò)邏輯回歸、決策樹(shù)、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法從EHR 中提取與患者相關(guān)的特征[13]。機(jī)器學(xué)習(xí)算法能夠結(jié)合臨床醫(yī)學(xué)知識(shí),幫助研究人員重建疾病的潛在機(jī)制,構(gòu)建符合任務(wù)特點(diǎn)的框架。但這些方法建立在手動(dòng)特征提取的模式之上,需要加入大量的醫(yī)學(xué)專(zhuān)業(yè)知識(shí)以及專(zhuān)家輔助完成特征提取工作,這將會(huì)限制實(shí)際應(yīng)用的適用性。

      隨著計(jì)算機(jī)性能逐漸提升,更多的研究偏向于使用深度學(xué)習(xí)方法對(duì)EHR 數(shù)據(jù)進(jìn)行建模。在醫(yī)學(xué)領(lǐng)域,深度學(xué)習(xí)的自動(dòng)特征提取模式使其使用范圍非常廣泛,它不需要手動(dòng)加入醫(yī)學(xué)專(zhuān)業(yè)知識(shí)。CNN是疾病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)中最常用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一[14],能夠提取到EHR 中的局部特征,通過(guò)增加模型深度的方式建立醫(yī)療事件之間的聯(lián)系,其池化層能夠?qū)μ卣鬟M(jìn)行壓縮與下采樣,以擴(kuò)大感知視野。LANDI 等[15]使用CNN 提取醫(yī)療事件的時(shí)間特征,并預(yù)測(cè)最終結(jié)果。文獻(xiàn)[16]使用基于CNN 的方法預(yù)測(cè)心力衰竭的患病風(fēng)險(xiǎn)。CNN 擅于捕獲數(shù)據(jù)的局部特征,然而EHR 的全局特征使CNN 方法的分類(lèi)效果與醫(yī)療事件序列的排列規(guī)則具有緊密聯(lián)系。值得注意的是,F(xiàn)RDLS 通過(guò)多種分析方法計(jì)算每個(gè)醫(yī)療事件的得分,根據(jù)得分從高到低重新排列醫(yī)療事件序列。通過(guò)不同的分析方法得到多種排列規(guī)則,并對(duì)多種排列規(guī)則的數(shù)據(jù)同時(shí)進(jìn)行建模,分析排列規(guī)則對(duì)結(jié)果的影響,提供幾種性能較優(yōu)的排列方式。

      RNN[17-19]同樣適用于疾病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)。RNN善于通過(guò)鏈?zhǔn)降姆绞綄⒍鄠€(gè)醫(yī)療事件聯(lián)系起來(lái),使前后醫(yī)療事件之間的時(shí)間關(guān)系顯而易見(jiàn)。文獻(xiàn)[20]將時(shí)間1 到t的醫(yī)療代碼序列輸入Bi-LSTM 模型中,從而預(yù)測(cè)第t+1 次的醫(yī)療代碼。雙向LSTM 很好地保留了前t次醫(yī)療代碼之間的時(shí)序關(guān)系,以此推斷出第t+1 次的結(jié)果。XU 等[21]將醫(yī)療 事件按 時(shí)間排 序輸入到LSTM 中,提取醫(yī)療事件之間的時(shí)間特征。RNN 對(duì)于數(shù)據(jù)的時(shí)序關(guān)系是非常敏感的,但是將EHR 數(shù)據(jù)鏈?zhǔn)脚帕袝r(shí),并不能直接斷定前后兩個(gè)醫(yī)療事件存在潛在多依賴關(guān)系。雖然LSTM 加入了“門(mén)”機(jī)制,但是每個(gè)單元的計(jì)算過(guò)程依然依賴于上一個(gè)單元,這可能會(huì)加入原本不存在的潛在關(guān)系。

      近年來(lái),隨著自然語(yǔ)言處理的發(fā)展,注意力(Attention)機(jī)制[22]開(kāi)始被普及。注意力機(jī)制并行計(jì)算的特點(diǎn)降低了其性能消耗。在注意力機(jī)制的特征提取過(guò)程中,每個(gè)醫(yī)療事件的特征提取過(guò)程相對(duì)獨(dú)立,但在提取過(guò)程中醫(yī)療事件之間又相互依賴,清晰的界限能夠很好地解決數(shù)據(jù)存在多依賴關(guān)系帶來(lái)的全局特征問(wèn)題。文獻(xiàn)[23]引入Attention 機(jī)制提取每個(gè)醫(yī)療事件對(duì)結(jié)果的貢獻(xiàn),然后通過(guò)一個(gè)3 層的多層感知機(jī)(Multilayer Perceptron,MLP)得到預(yù)測(cè)結(jié)果。在MLP 之前加入注意力機(jī)制,相當(dāng)于先進(jìn)行一次特征提取,能夠降低模型的資源消耗,提高計(jì)算效率。文獻(xiàn)[24]基于LSTM 結(jié)構(gòu)在醫(yī)療事件和就診記錄兩個(gè)級(jí)別分別加入注意力機(jī)制預(yù)測(cè)哮喘疾病的風(fēng)險(xiǎn)。TSANN 加入的兩層注意力機(jī)制能夠分析單次就診與單個(gè)事件在各自維度內(nèi)的權(quán)重,并提供就診和醫(yī)療事件兩個(gè)維度的事后可解釋性。文獻(xiàn)[25]通過(guò)構(gòu)造多尺度的注意力機(jī)制的方式對(duì)單次就診進(jìn)行建模,然后將多尺度信息匯集,減少序列長(zhǎng)度。多尺度注意力機(jī)制可以理解為多個(gè)局部注意力機(jī)制,這種方式可以定制化地獲取數(shù)據(jù)不同尺度的特征,貼合任務(wù)特性。

      目前絕大多數(shù)的研究都是基于深度學(xué)習(xí)進(jìn)行的,這得益于自動(dòng)特征提取模式。對(duì)于疾病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)來(lái)說(shuō),深度學(xué)習(xí)有很多方法可以使用,但選擇符合數(shù)據(jù)與疾病特性的方法才是解決問(wèn)題的關(guān)鍵??偟膩?lái)說(shuō),CNN 適用于提取數(shù)據(jù)的局部關(guān)系,以局部特征反映全局特征;RNN 的結(jié)構(gòu)優(yōu)勢(shì)使得它善于提取數(shù)據(jù)的時(shí)序性特征;注意力機(jī)制使用較少的參數(shù)提取數(shù)據(jù)的全局特征,并挖掘數(shù)據(jù)之間的潛在依賴關(guān)系。

      以上方法均在考慮如何解決數(shù)據(jù)特性,除此之外,疾病帶來(lái)的特性同樣重要。年齡較大是最有可能直接導(dǎo)致房顫發(fā)生的因素之一,但更深層次的原因是患有多種其他疾病導(dǎo)致心房顫動(dòng)發(fā)生的概率上升,心房顫動(dòng)的并發(fā)性需要引起重視?,F(xiàn)有的臨床醫(yī)學(xué)知識(shí)已經(jīng)可以篩選出一部分與心房顫動(dòng)相關(guān)性較高的醫(yī)療事件,例如高血壓、甲狀腺功能等,獨(dú)立捕獲這些醫(yī)療事件對(duì)心房顫動(dòng)的預(yù)測(cè)非常必要。

      2 心房顫動(dòng)風(fēng)險(xiǎn)預(yù)測(cè)模型

      心房顫動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測(cè)工作可以看作是一個(gè)二分類(lèi)任務(wù),即是否患有心房顫動(dòng)。本文將患有房顫的樣本分為陽(yáng)性樣本(正樣本),未患有房顫的樣本分為陰性樣本(負(fù)樣本)。本節(jié)將描述FR-ANN 的模型結(jié)構(gòu),并介紹FR-ANN 中的每個(gè)模塊。

      2.1 數(shù)據(jù)表示

      本文數(shù)據(jù)集以病人為單位,用X代表每個(gè)病人。每個(gè)病人的EHR 數(shù)據(jù)可構(gòu)成一個(gè)二維矩陣,如式(1)所示:

      其中:ci表示病人的第i次就診記錄,每次就診記錄中包含多個(gè)醫(yī)療事件,即ci=[si,1,si,2,…,si,m],si,m表示病人的第i次就診記錄中的第m個(gè)醫(yī)療事件。

      本文模型將從時(shí)間序列特征分析通道和單指標(biāo)特征分析通道兩個(gè)不同的通道進(jìn)行分析,它們的輸入由原始EHR 矩陣切割得到。圖1 所示為數(shù)據(jù)切割的過(guò)程。EHR 矩陣縱向切割得到多個(gè)醫(yī)療事件向量,即Sj代表由第j個(gè)醫(yī)療事件在多次就診記錄中的表現(xiàn)構(gòu)成的向量,本文根據(jù)醫(yī)學(xué)專(zhuān)業(yè)知識(shí)從m個(gè)醫(yī)療事件中篩選出100 多個(gè)對(duì)房顫影響較大的醫(yī)療事件(表1 給出了部分篩選出的醫(yī)療事件),將這些篩選后的醫(yī)療事件作為最終得到的Sj=[s1,j,s2,j,…,sn,j],j?[1,m]醫(yī)療事 件向量序列MR=[S1,S2,…,Sm]。由EHR 矩陣橫向切割將得到多個(gè)就診記錄向量,即ci=[si,1,si,2,…,si,m],i?[1,n],ci代表第i次就診記錄,多個(gè)就診記錄向量構(gòu)成最終的就診記錄向量序列VR=[c1,c2,…,cn]。數(shù)據(jù)切割過(guò)程只是把病人的EHR 矩陣轉(zhuǎn)換成了兩種形式,它們依然是同源的數(shù)據(jù)。

      表1 部分篩選出的醫(yī)療事件(用于單指標(biāo)特征分析通道)Table 1 Selected medical events(for single indicator characteristic analysis channel)

      圖1 數(shù)據(jù)切割過(guò)程Fig.1 Process of data cutting

      2.2 模型結(jié)構(gòu)

      圖2 所示為FR-ANN 的模型結(jié)構(gòu)。

      圖2 FR-ANN 模型結(jié)構(gòu)Fig.2 Structure of FR-ANN model

      由圖2 可知,F(xiàn)R-ANN 模型將就診記錄向量序列VR輸入到時(shí)間序列特征分析通道,將醫(yī)療事件向量序列MR輸入到單指標(biāo)特征分析通道。

      單指標(biāo)特征分析通道會(huì)對(duì)醫(yī)療事件向量序列MR中的每個(gè)醫(yī)療事件向量獨(dú)立分析,以提取每個(gè)醫(yī)療事件在多次就診中不同表現(xiàn)的綜合特征,并匯總得到所有醫(yī)療事件的綜合變化特征coutput;時(shí)間序列特征分析通道會(huì)先對(duì)VR中的每條就診記錄向量單獨(dú)進(jìn)行特征提取與注意力分析,并將多條就診記錄向量的特征匯總輸入到一個(gè)LSTM 中,根據(jù)前幾次的就診記錄得到下一次的預(yù)測(cè)狀態(tài)信息hn。分類(lèi)器模塊把2 個(gè)通道的輸出拼接,通過(guò)多個(gè)全連接層與一個(gè)Sigmoid 分類(lèi)器得到最終預(yù)測(cè)結(jié)果。具體的計(jì)算過(guò)程如下:

      其中:W1?Rr×(4+4m)、W2?Rs×r、b1?Rr×1、b2?Rs×1是全連接層的參數(shù)矩陣;yD是全連接層的計(jì)算結(jié)果;y是yD通過(guò)Sigmoid 函數(shù)得到的最終預(yù)測(cè)結(jié)果。

      數(shù)據(jù)樣本比例不平衡是醫(yī)療數(shù)據(jù)的通病,本文使用的數(shù)據(jù)同樣存在此類(lèi)問(wèn)題。為了與醫(yī)學(xué)臨床過(guò)程保持一致,本文在模型方法上做出一些優(yōu)化,而不是直接增加正樣本的占比。在損失函數(shù)的選擇上,本文使用了Focal Loss[26]代替常用的二值交叉熵?fù)p失函數(shù)作為FR-ANN 的損失函數(shù)。這是因?yàn)镕ocal Loss 的出現(xiàn)就是為了解決訓(xùn)練集正負(fù)樣本極度不平衡的問(wèn)題。損失函數(shù)的計(jì)算過(guò)程如下:

      其中:y為標(biāo)簽值為模型預(yù)測(cè)值;α和γ是超參數(shù),α用于調(diào)和正負(fù)樣本比例,γ負(fù)責(zé)緩解易分類(lèi)樣本(負(fù)樣本)的影響。實(shí)驗(yàn)過(guò)程中使用的超參數(shù)均設(shè)置為Focal Loss 推薦的值,即α=0.25、γ=2。

      2.3 時(shí)間序列特征分析通道

      EHR 數(shù)據(jù)中的潛在關(guān)系可分為兩種形式:?jiǎn)蝹€(gè)就診記錄形成的時(shí)間片內(nèi)和多個(gè)就診記錄之間。在單個(gè)時(shí)間片內(nèi),各個(gè)醫(yī)療事件的指標(biāo)綜合反映了患者一段時(shí)間內(nèi)的身體狀況;在多個(gè)就診記錄之間,每個(gè)就診記錄根據(jù)時(shí)間順序排列。分級(jí)提取兩種潛在特征是有必要的。首先,本文基于注意力機(jī)制提取每個(gè)時(shí)間片內(nèi)醫(yī)療事件之間的多依賴潛在特征,然后再使用LSTM 提取多個(gè)就診記錄之間的時(shí)序特征,最后將提取到的特征輸入到分類(lèi)器中。

      2.3.1 基于注意力機(jī)制的片內(nèi)特征提取

      在時(shí)間序列特征分析通道中,本文拿到患者單次就診 記錄向 量ci=[si,1,si,2,…,si,m],i?[1,n]。CNN在特征提取工作中,由于卷積核大小的限制,一般通過(guò)增加模型深度的方法達(dá)到提取與距離較遠(yuǎn)的單元之間的潛在關(guān)系的目的。而注意力機(jī)制由于并行計(jì)算的優(yōu)勢(shì),可以獨(dú)立考慮醫(yī)療事件與其他事件之間的潛在關(guān)系,不會(huì)受到距離與其他因素的影響。并且注意力機(jī)制計(jì)算得到的注意力分布體現(xiàn)了單個(gè)醫(yī)療事件在整體上的權(quán)重,增強(qiáng)了模型的可解釋性。所以本文在FR-ANN 中引入注意力機(jī)制,代替時(shí)間序列特征分析通道中的常規(guī)卷積方法。

      對(duì)于每一個(gè)就診記錄ci,本文都將接入一個(gè)獨(dú)立的注意力層。注意力機(jī)制的計(jì)算過(guò)程可以簡(jiǎn)寫(xiě)為:

      其中:ci表示病人第i次就診記錄;ai表示ci計(jì)算得到的注意力權(quán)重是可訓(xùn)練參數(shù)矩陣;Dk表示ci的維度m,即醫(yī)療事件的個(gè)數(shù)。

      2.3.2 基于LSTM 的時(shí)序特征提取

      AATTs=[a1,a2,…,an]是多個(gè)自注意力層的輸出構(gòu)成的注意力權(quán)重序列,at對(duì)應(yīng)患者的第t次就診記錄。多次就診記錄之間存在的時(shí)序關(guān)系反映了患者在一段時(shí)間內(nèi)的身體變化趨勢(shì)。LSTM 既能夠捕捉多次就診記錄之間的時(shí)序關(guān)系,又可以保留每個(gè)就診記錄內(nèi)的潛在關(guān)系。所以本文把LSTM 放在自注意力層之后,用于提取多個(gè)就診之間的時(shí)序特征。

      整個(gè)LSTM 模塊由一層LSTM 構(gòu)成,具有n個(gè)隱藏層單元。LSTM 模塊的結(jié)構(gòu)圖如圖3 所示。對(duì)于LSTM 的每個(gè)單元而言,它的輸入由一個(gè)自注意力層的輸出at得到,AATTs通過(guò)LSTM 層得到多個(gè)隱藏層狀態(tài)h1,h2,…,hn,本文取最后一個(gè)狀態(tài)hn作為L(zhǎng)STM 層的輸出。LSTM 每個(gè)單元中的計(jì)算過(guò)程如下:

      圖3 LSTM 模塊的結(jié)構(gòu)Fig.3 Structure of LSTM module

      其中:第t次的輸入at和第t-1 次的隱藏狀態(tài)ht-1的拼接得到[ht-1,at],構(gòu)成每個(gè)單元的輸入;在保留隱藏狀態(tài)過(guò)程中,主要起作用的是記憶門(mén)和輸出門(mén)ot;?表示逐元素相乘。

      2.4 單指標(biāo)特征分析通道

      醫(yī)學(xué)臨床知識(shí)能夠篩選出與心房顫動(dòng)相關(guān)性較大的醫(yī)療事件,本文專(zhuān)門(mén)在單指標(biāo)特征分析通道上獨(dú)立提取每個(gè)篩選得到的醫(yī)療事件在多個(gè)時(shí)間片之間的變化趨勢(shì),加強(qiáng)對(duì)結(jié)果的預(yù)測(cè)能力。本文通過(guò)CNN 提取單個(gè)醫(yī)療事件在多次就診中的變化特征,將多個(gè)醫(yī)療事件的變化特征拼接得到的綜合變化特征coutput輸入到分類(lèi)器中,由分類(lèi)器拼接特征并預(yù)測(cè)結(jié)果。

      房顫是一種慢性疾病,它與許多疾病關(guān)系密切?,F(xiàn)代臨床醫(yī)學(xué)已經(jīng)證實(shí),高血壓、心動(dòng)過(guò)速等癥狀會(huì)直接導(dǎo)致房顫的發(fā)生。第2.1 節(jié)已經(jīng)篩選出部分相關(guān)性較大的醫(yī)療事件作為此通道的輸入。因?yàn)榛颊叩木驮\次數(shù)在4 次左右,所以CNN 的卷積核可以輕松地幫助本文模型捕捉到單個(gè)醫(yī)療事件在較低跨度上的變化特征。由于房顫的治療過(guò)程較為漫長(zhǎng),因此更早的記錄產(chǎn)生的影響會(huì)逐漸減弱。所以本文把卷積核的大小設(shè)置為1×2,以關(guān)注單個(gè)醫(yī)療事件前后兩次就診之間的變化趨勢(shì)。

      在得到單個(gè)醫(yī)療事件的變化曲線之后,本文還需要對(duì)特征進(jìn)行收斂。平均池化層(Average Pooling Layer)和最大 池化層(Maximum Pooling Layer)是兩種常用的池化手段,前者保留信息的平均值,后者保留信息的最大值。對(duì)于單個(gè)醫(yī)療事件的變化特征而言,平均值能夠權(quán)衡醫(yī)療事件在每一次就診時(shí)的表現(xiàn),而最大值只記錄了極端情況。結(jié)合實(shí)際情況,平均池化層更適用于收斂單個(gè)醫(yī)療事件的變化特征。

      單指標(biāo)特征分析通道的模塊結(jié)構(gòu)如圖4 所示。對(duì)于每個(gè)醫(yī)療事件向量Sj,都將經(jīng)過(guò)3 個(gè)卷積層和1 個(gè)平均池化層,卷積層的通道數(shù)均為16,卷積核大小均為2×1,平均池化層的卷積核均為16×1。計(jì)算過(guò)程如下:

      圖4 單指標(biāo)特征分析通道的模塊結(jié)構(gòu)Fig.4 Module structure of single index feature analysis channel

      對(duì)于每個(gè)醫(yī)療事件ei都有輸出Aj,將所有的輸出拼接得到序列coutput=[A1,A2,…,Am]。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 研究的數(shù)據(jù)

      本研究使用的數(shù)據(jù)來(lái)源于武漢亞洲心臟病醫(yī)院房顫中心的私有數(shù)據(jù)庫(kù)和MIT 的公開(kāi)數(shù)據(jù)庫(kù)MIMIC-Ⅲ。私有數(shù)據(jù)集經(jīng)過(guò)武漢亞洲心臟病醫(yī)院倫理委員會(huì)批準(zhǔn),所有數(shù)據(jù)都經(jīng)過(guò)去標(biāo)識(shí)化處理,即去除了所有可能跟患者個(gè)人隱私相關(guān)的信息。

      本文從數(shù)據(jù)庫(kù)中收集病人的診斷數(shù)據(jù)、檢查檢驗(yàn)數(shù)據(jù)和人口學(xué)數(shù)據(jù),將其組合得到患者的電子病歷信息。對(duì)于各種醫(yī)療事件,來(lái)自亞心的私有數(shù)據(jù)庫(kù)保留頻率不小于1 000 次的事件,最終篩選出480 種診斷、檢查檢驗(yàn)等項(xiàng)目;而MIMIC-Ⅲ數(shù)據(jù)庫(kù)保留了頻率不小于5 000 次的事件,最終篩選出241 種診斷、檢查檢驗(yàn)等項(xiàng)目。本文統(tǒng)計(jì)了所有病人的就診次數(shù),最終確定將患者的前4 次就診記錄作為實(shí)驗(yàn)用數(shù)據(jù),以預(yù)測(cè)患者半年內(nèi)是否會(huì)發(fā)生房顫。

      3.2 實(shí)驗(yàn)環(huán)境

      本文涉及的所有代碼均基于Python3.8.3 完成。機(jī)器學(xué)習(xí)模型通過(guò)sklearn 實(shí)現(xiàn),深度學(xué)習(xí)模型基于Keras2.4.3 實(shí)現(xiàn)。在深度學(xué)習(xí)模型中,自動(dòng)學(xué)習(xí)的參數(shù)使用Adam 優(yōu)化器自動(dòng)更新,初始學(xué)習(xí)率為0.001,訓(xùn)練20 個(gè)輪次。所有模型均采用批量大小為1 024的小批量訓(xùn)練方式。深度學(xué)習(xí)模型使用Dropout 和L1、L2 正則化防止過(guò)擬合問(wèn)題。在訓(xùn)練開(kāi)始前將數(shù)據(jù)集隨機(jī)打亂,再以6∶2∶2 的比例區(qū)分訓(xùn)練集、驗(yàn)證集和測(cè)試集。在每個(gè)輪次過(guò)程中,模型利用訓(xùn)練集來(lái)訓(xùn)練模型,使用驗(yàn)證集驗(yàn)證模型訓(xùn)練后的結(jié)果并自動(dòng)調(diào)整可訓(xùn)練參數(shù)。在所有輪次訓(xùn)練完成后,使用測(cè)試集測(cè)試模型的最終性能,并計(jì)算評(píng)價(jià)指標(biāo)。

      3.3 評(píng)價(jià)指標(biāo)

      在疾病預(yù)測(cè)任務(wù)中,如何評(píng)判模型的性能非常重要。在實(shí)驗(yàn)過(guò)程中,本文使用了4 種評(píng)價(jià)指標(biāo):精確率(P)、召回率(R)、F1 值(F1)以及AUC 曲線。計(jì)算式如下:

      其中:精確率指的是預(yù)測(cè)為患病的結(jié)果中實(shí)際患病的占比;召回率指的是對(duì)于實(shí)際患病的樣本中,預(yù)測(cè)正確(預(yù)測(cè)為患?。┑谋壤痪_率體現(xiàn)了模型對(duì)樣本整體預(yù)測(cè)的準(zhǔn)確性;召回率體現(xiàn)了對(duì)患病群體判斷的準(zhǔn)確性;F1 值兼顧了精確率和召回率,是一種綜合性能指標(biāo);AUC 代表模型區(qū)分陽(yáng)性樣本和陰性樣本的能力,數(shù)值越高,表示模型的分辨能力越強(qiáng)。

      3.4 基線模型

      為了驗(yàn)證模型性能,本文選取了幾種機(jī)器學(xué)習(xí)算法以及基于EHR 數(shù)據(jù)并應(yīng)用在疾病風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上的深度學(xué)習(xí)模型,和本文提出的FR-ANN 模型進(jìn)行比較。本文所選用的機(jī)器學(xué)習(xí)算法包括邏輯回歸(Logistic Regression,LR)和隨機(jī)森林(Random Forest,RF)。深度學(xué)習(xí)模型分別是基于MLP 與注意力機(jī)制 的MLP_Attention[23]、基 于CNN 的FRDLS[16]和基于LSTM 與注意力機(jī)制的TSANN[24]。

      3.5 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)分別在來(lái)自武漢亞洲心臟病醫(yī)院的私有數(shù)據(jù)庫(kù)(簡(jiǎn)稱(chēng)亞心數(shù)據(jù)庫(kù))和MIT 的公開(kāi)數(shù)據(jù)庫(kù)MIMIC-Ⅲ中進(jìn)行?;€模型與FR-ANN 模型的性能評(píng)分如表2、表3 所示。

      表2 對(duì)比模型評(píng)分表(亞心數(shù)據(jù)庫(kù))Table 2 Scoring table of comparison model(Yaxin database)

      表3 對(duì)比模型評(píng)分表(MIMIC-Ⅲ數(shù)據(jù)庫(kù))Table 3 Scoring table of comparison model(MIMIC-Ⅲ database)

      在基于私有數(shù)據(jù)集的實(shí)驗(yàn)中,MLP_Attention 和FRDLS 的AUC 分別為0.744 和0.724。多層感知機(jī)是一種全連接的神經(jīng)網(wǎng)絡(luò),雖然MLP 增加了參數(shù)數(shù)量,但它的性能優(yōu)于FRDLS 模型,而TSANN 模型的召回率要優(yōu)于前兩者,這歸功于注意力機(jī)制準(zhǔn)確地注意到了醫(yī)療事件之間的多依賴關(guān)系,捕捉到了數(shù)據(jù)中的潛在知識(shí)。FR-ANN 模型的時(shí)間序列特征分析通道完成了醫(yī)療事件之間的多依賴關(guān)系與就診記錄之間時(shí)序關(guān)系的特征提取工作;單指標(biāo)特征分析通道通過(guò)提取每個(gè)醫(yī)療事件的變化特征,增加FR-ANN 模型對(duì)重要醫(yī)療事件的關(guān)注度,兩者結(jié)合使得FR-ANN模型的各項(xiàng)指標(biāo)均優(yōu)于幾種基線模型。

      3.6 消融實(shí)驗(yàn)

      首先,本文在消融實(shí)驗(yàn)中以僅使用時(shí)間序列特征分析通道和僅使用單指標(biāo)特征分析通道兩種模式預(yù)測(cè)患者的心房顫動(dòng)風(fēng)險(xiǎn),并與FR-ANN 模型進(jìn)行比較,以分析單個(gè)通道對(duì)FR-ANN 模型的貢獻(xiàn)。其次,本文還將FR-ANN 模型的時(shí)間序列特征分析通道中的注意力層替換成卷積層,分析兩種不同模塊給FR-ANN 模型帶來(lái)的影響。消融實(shí)驗(yàn)均在亞心數(shù)據(jù)庫(kù)上進(jìn)行。

      圖5 為消融實(shí)驗(yàn)評(píng)分圖。圖5(a)展示了兩種模式以及FR-ANN 的性能評(píng)分。僅使用單個(gè)通道時(shí),各項(xiàng)性能指標(biāo)讀數(shù)有所下降,兩個(gè)通道的差異主要體現(xiàn)在精確率和召回率上。時(shí)間序列特征分析通道的召回率有所提升,這歸功于注意力機(jī)制能在全局范圍內(nèi)提取醫(yī)療事件之間的潛在關(guān)系。單指標(biāo)特征分析通道的精確率較高,這是因?yàn)榇送ǖ赖妮斎刖墙?jīng)過(guò)醫(yī)學(xué)專(zhuān)業(yè)知識(shí)鑒定的、與房顫疾病相關(guān)性較大的醫(yī)療事件,使得單指標(biāo)特征分析通道能夠直接聚焦于疾病相關(guān)性較大的醫(yī)療事件,排除了其他醫(yī)療事件的干擾。

      圖5 消融實(shí)驗(yàn)評(píng)分圖Fig.5 Rating chart of ablation experiment

      從性能與功能上看,F(xiàn)R-ANN 模型中的兩個(gè)通道各自承擔(dān)了不同的職責(zé)。時(shí)間序列特征分析通道采用多層級(jí)的特征提取方法,在醫(yī)療事件層級(jí)提取醫(yī)療事件之間的多依賴關(guān)系,在就診記錄層級(jí)提取就診記錄之間的時(shí)序特征。單指標(biāo)特征分析通道針對(duì)每個(gè)輸入的醫(yī)療事件獨(dú)立分析,并且輸入的醫(yī)療事件由醫(yī)學(xué)臨床知識(shí)篩選得到,能夠加強(qiáng)模型的可解釋性。

      圖5(b)展示了FR-ANN 模型的時(shí)間序列特征分析通道中,使用CNN 或者使用注意力機(jī)制兩種情況下的性能差異。由實(shí)驗(yàn)結(jié)果可看出,引入注意力機(jī)制主要提升了召回率。相較于CNN,注意力機(jī)制的優(yōu)勢(shì)在于全局性,這使得它能夠兼顧所有醫(yī)療事件之間的潛在關(guān)系。實(shí)驗(yàn)結(jié)果表明,使用注意力機(jī)制的FR-ANN:Attention 的各項(xiàng)指標(biāo)均優(yōu)于FR-ANN:Conv1d。

      3.7 結(jié)果分析

      在臨床治療過(guò)程中,醫(yī)生往往需要結(jié)合多項(xiàng)指標(biāo)綜合分析才能給出治療方案。常見(jiàn)的診斷依據(jù)包含高血壓、冠心病等與心臟、血液相關(guān)的疾病,也包括鉀測(cè)定、血糖、血清總蛋白等檢查檢驗(yàn)指標(biāo)。而FR-ANN 模型在訓(xùn)練過(guò)程中會(huì)自動(dòng)學(xué)習(xí)這些模式,本文引入的注意力機(jī)制通過(guò)分析醫(yī)療事件之間的潛在依賴關(guān)系,得到每個(gè)醫(yī)療事件在整個(gè)集合中的注意力權(quán)重,權(quán)重越高表示它越可能導(dǎo)致房顫發(fā)生。圖6 所示為在亞心數(shù)據(jù)庫(kù)中FR-ANN 的注意力層輸出的注意力分布結(jié)果。

      圖6 FR-ANN 自注意力層輸出的注意力分布Fig.6 Attention distribution outputing by FR-ANN self attention level

      在注意力評(píng)分超過(guò)0.03 的醫(yī)療事件中,多數(shù)指標(biāo)是與心血管疾病相關(guān)的,例如心包積液、心房撲動(dòng)、冠心病、高血壓、膽固醇等指標(biāo),這些指標(biāo)均預(yù)示著人體健康狀況異常,提高心房顫動(dòng)發(fā)生的概率。

      由圖6 可知,心房顫動(dòng)與其他心血管類(lèi)疾病具有非常大的關(guān)聯(lián)性,同時(shí)也受到高血糖、高血壓等其他疾病的影響。并且當(dāng)?shù)鞍啄懝檀?、血清蛋白等常?guī)檢查檢驗(yàn)指標(biāo)異常時(shí),也需要結(jié)合其他指標(biāo)綜合考慮心房顫動(dòng)的風(fēng)險(xiǎn)。注意力分布得到的信息與臨床診斷結(jié)果較為接近,注意力機(jī)制不僅注意到了高血壓、高血糖等相關(guān)性較大的醫(yī)療事件,而且能發(fā)現(xiàn)一些常規(guī)檢查檢驗(yàn)指標(biāo)對(duì)房顫的影響,例如紅細(xì)胞濃度、鉀測(cè)定、血清蛋白等。

      圖6 的注意力分布的結(jié)果表明,以上對(duì)注意力權(quán)重的分析結(jié)論與臨床醫(yī)學(xué)知識(shí)相吻合,能夠?yàn)榕R床診斷提供建議。

      4 結(jié)束語(yǔ)

      基于EHR 的心房顫動(dòng)風(fēng)險(xiǎn)預(yù)測(cè)有助于更早地預(yù)防心房顫動(dòng)。本文提出一種新的基于深度學(xué)習(xí)的模型FR-ANN,模型結(jié)構(gòu)充分考慮了目前EHR 存在的問(wèn)題以及心房顫動(dòng)的隱蔽性等疾病特性。實(shí)驗(yàn)結(jié)果表明:FR-ANN 模型對(duì)多項(xiàng)醫(yī)療事件的篩選工作提升了模型的召回率;注意力機(jī)制的引入能夠代替卷積層完成特征提取工作,提升了模型的計(jì)算性能,注意力機(jī)制的事后可解釋性為臨床診斷提供了解決方案。但目前模型只考慮了醫(yī)療事件的變化趨勢(shì),沒(méi)有考慮單個(gè)醫(yī)療事件的時(shí)間間隔因素,例如,持續(xù)30 天與持續(xù)300 天的高血壓所反映的癥狀嚴(yán)重性是不同的。因此下一步將在數(shù)據(jù)中融入時(shí)間信息以刻畫(huà)癥狀的嚴(yán)重性程度,并改善模型,提升模型的可解釋性。

      猜你喜歡
      特征分析房顫注意力
      老年房顫患者,日常有哪些注意事項(xiàng)
      讓注意力“飛”回來(lái)
      2012 年南海夏季風(fēng)特征分析
      預(yù)防房顫有九“招”
      大眾健康(2017年8期)2017-08-23 21:18:22
      陣發(fā)性房顫應(yīng)怎樣治療
      老友(2017年7期)2017-08-22 02:36:30
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      基于PowerPC的脈內(nèi)特征分析算法的工程實(shí)現(xiàn)
      不良汽車(chē)駕駛行為特征分析
      河南科技(2014年16期)2014-02-27 14:13:27
      房顫伴室內(nèi)差異性傳導(dǎo)與室性早搏的鑒別
      雷山县| 淄博市| 钟祥市| 郴州市| 易门县| 高邑县| 丰宁| 墨玉县| 石城县| 宁德市| 疏勒县| 子长县| 乐业县| 松潘县| 中宁县| 岐山县| 长寿区| 商洛市| 柳州市| 新田县| 永嘉县| 北京市| 景泰县| 兴宁市| 调兵山市| 仪陇县| 松江区| 安福县| 涿州市| 苍梧县| 孝义市| 都匀市| 博湖县| 盐城市| 赫章县| 砀山县| 龙陵县| 宁强县| 赤峰市| 青阳县| 新龙县|