李 勇,馮 俐,王 霞
(1.西北師范大學(xué)計算機科學(xué)與工程學(xué)院,甘肅 蘭州 730070;2.新疆理工學(xué)院信息工程學(xué)院,新疆 阿克蘇 843100;3.甘肅省人民醫(yī)院藥劑科,甘肅 蘭州 730000)
電子病歷EMRs(Electronic Medical Records)是醫(yī)療機構(gòu)的電子設(shè)備中保存、管理的數(shù)字化的病人診療記錄,主要包含患者在就診過程中產(chǎn)生并被記錄的完整、詳細的臨床信息,電子病歷的積累為健康醫(yī)療領(lǐng)域的研究和智能應(yīng)用奠定了堅實基礎(chǔ)。近年來,基于深度學(xué)習(xí)模型的電子病歷分析在健康醫(yī)療領(lǐng)域得到廣泛應(yīng)用,例如疾病風(fēng)險評估[1]、表型分析[2]和藥物推薦[3]等。疾病預(yù)測[4-6]是深度學(xué)習(xí)模型在健康醫(yī)療領(lǐng)域重要的應(yīng)用場景之一,常用于預(yù)測患者是否患有某種疾病,以便進一步提高個性化診療的質(zhì)量。然而,已有的疾病預(yù)測模型都存在不足。
首先,EMRs數(shù)據(jù)存在不平衡問題?,F(xiàn)有的臨床決策支持系統(tǒng)CDS(Clinical Decision Support)大多基于人工構(gòu)建的知識庫,通過規(guī)則匹配進行輔助診斷,由于隱私保護等原因,公開發(fā)布的電子病歷數(shù)據(jù)量非常有限。而且不同病癥因發(fā)病率不同[7],導(dǎo)致電子病歷數(shù)據(jù)中不同病癥數(shù)據(jù)分布也存在不平衡問題,訓(xùn)練一個健壯且可靠的分類器需要收集大量的電子病歷數(shù)據(jù),這些數(shù)據(jù)必須滿足完整性、一致性和可理解性等特征,在實踐中,對于數(shù)據(jù)的這些要求極難做到。
其次,EMRs數(shù)據(jù)存在異構(gòu)性。EMRs數(shù)據(jù)中蘊含的多種實體和實體間不同的語義關(guān)系,表現(xiàn)出明顯的異構(gòu)性[8],傳統(tǒng)的同構(gòu)建模方法無法有效處理這些復(fù)雜的結(jié)構(gòu)信息,無法識別出有意義的實體和路徑關(guān)系信息。在疾病預(yù)測中,如何選擇患者節(jié)點最有意義的鄰居節(jié)點和語義關(guān)系,并為它們賦予適當(dāng)?shù)臋?quán)重是一個尚未解決的難題。
最后,EMRs情境信息多源,除了包含患者的病情描述之外,還包含患者基本信息、診療過程和生理記錄等情境信息[9]。這些信息對細化患者病情診斷有輔助作用,但由于其既不規(guī)則且又無序,很難對其進行結(jié)構(gòu)化處理[10],以往的研究丟棄了這些情境信息,降低了預(yù)測準確率。
針對以上問題,本文主要進行了以下3方面研究:(1)提出了一種基于異構(gòu)圖病歷注意力網(wǎng)絡(luò)的臨床輔助診斷HCAD(Clinical Assistant Diagnosis based on Heterogeneous graph)模型,基于外部醫(yī)學(xué)知識圖譜,將領(lǐng)域知識與電子病歷的內(nèi)部信息進行融合,解決了數(shù)據(jù)不平衡問題;(2) HCAD模型中增加了分層注意力機制,使得患者節(jié)點的嵌入表示能更精確地捕捉到異構(gòu)圖病歷網(wǎng)絡(luò)的結(jié)構(gòu)信息和語義信息;(3) 將電子病歷中多種情境信息納入患者節(jié)點嵌入表示,有效提高了預(yù)測準確率。在真實電子病歷數(shù)據(jù)集上進行實驗,結(jié)果表明,在高血壓、心臟病等10種常見疾病預(yù)測任務(wù)上,本文提出的HCAD模型在F1值和其他評價指標上均優(yōu)于基準模型。
對電子病歷中蘊含的豐富信息進行挖掘、分析與應(yīng)用是一個跨學(xué)科且十分重要的研究問題,近年來,代表性的工作主要體現(xiàn)在3個方面。
圖神經(jīng)網(wǎng)絡(luò)的目標是學(xué)習(xí)網(wǎng)絡(luò)中每個節(jié)點的低維向量表示,將其用于節(jié)點分類、節(jié)點聚合和鏈路預(yù)測等下游任務(wù),其基本原理是每個節(jié)點向量均是由自身的特征和周圍鄰居節(jié)點的信息所構(gòu)成。文獻[11]提出了一種非常有影響力的模型GCN(Graph Convolutional Network),該模型簡化了以前譜域中的圖卷積。文獻[12]提出了一種新的算法GraphSage,利用采樣和聚合函數(shù)學(xué)習(xí)歸納生成節(jié)點嵌入。文獻[13]在GCN的基礎(chǔ)上增加了注意力機制,實現(xiàn)了對不同鄰居權(quán)重的自適應(yīng)分配。文獻[14]研究了如何將患者病歷中的時間序列信息融入到預(yù)測中,利用反向時間注意力機制來提高模型的預(yù)測準確性和可解釋性。然而,GraphSage雖能適應(yīng)大規(guī)模網(wǎng)絡(luò)更新變化,但其精確度相比GCN有一定程度降低。GAT(Graph ATtention network)在提高精確度的同時也使得復(fù)雜度大幅度增加。
近年來,許多學(xué)者用圖神經(jīng)網(wǎng)絡(luò)來分析EMRs,這些模型可以從原始的EMRs中捕獲結(jié)構(gòu)信息。但是,由于電子病歷文本的專業(yè)性較強[15],術(shù)語中存在大量的同義詞或上下位詞,傳統(tǒng)的圖網(wǎng)絡(luò)模型并不適用?;诖?學(xué)術(shù)界提出了多個改進模型,以便學(xué)習(xí)節(jié)點更為合理的嵌入表示,并用于預(yù)測任務(wù)。文獻[16]用醫(yī)學(xué)本體固有的層次信息來補充EMRs,它可以學(xué)習(xí)到節(jié)點的合理嵌入,并用于下游預(yù)測任務(wù)。文獻[17]是在結(jié)構(gòu)信息缺失的情況下聯(lián)合學(xué)習(xí)EMRs底層結(jié)構(gòu),在執(zhí)行預(yù)測的同時聯(lián)合學(xué)習(xí)EMRs隱藏的因果結(jié)構(gòu)。但是,以上研究僅限于同構(gòu)圖,沒有利用EMRs數(shù)據(jù)中有利于細化患者表示的多源情境信息。原始的EMRs中包含著多種實體和實體間的各種關(guān)系,具有天然的、客觀事實存在的異構(gòu)性,基于同構(gòu)圖嵌入的電子病歷分析的方法不能充分利用網(wǎng)絡(luò)復(fù)雜的結(jié)構(gòu)信息和豐富的語義信息。
異質(zhì)信息網(wǎng)絡(luò)是含有多種實體和多種關(guān)系的信息網(wǎng)絡(luò),充分學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)的核心是處理好該網(wǎng)絡(luò)的異構(gòu)性,先前很多研究中也給出了消除網(wǎng)絡(luò)異構(gòu)性的方法。文獻[18]將異構(gòu)圖分割成多個同構(gòu)圖,以相似矩陣作為輸入,使用注意力機制來衡量每個元路徑的影響,每個同構(gòu)圖包含原始EMRs圖的部分信息進行預(yù)測分析。為了更好地建模分析復(fù)雜的異構(gòu)圖,文獻[19]利用注意力機制從多方面表示節(jié)點并進行加權(quán)融合,但是,這種方法忽略了元路徑中間節(jié)點的信息。為了充分考慮元路徑上所有節(jié)點的信息,文獻[20]提出了元路徑內(nèi)聚合器和元路徑間聚合器對異構(gòu)圖進行建模分析。然而,這些方法在特定的復(fù)雜醫(yī)療網(wǎng)絡(luò)中,既沒有考慮異構(gòu)圖病歷網(wǎng)絡(luò)中各類實體節(jié)點的重要性,也沒有考慮實體之間語義關(guān)系的重要性。
定義1(異構(gòu)圖病歷網(wǎng)絡(luò)) 若節(jié)點類型數(shù)|C|和節(jié)點之間關(guān)系類型數(shù)|R|滿足|C|+|R|>2,則稱之為異構(gòu)圖病歷網(wǎng)絡(luò)G={V,E},其中,V表示節(jié)點集合,E表示邊集合, 如圖1a所示。
Figure 1 Heterogeneous graph medical record network
從患者的電子病歷原始文本中提取出患者的年齡、性別、主訴、現(xiàn)病史和生理記錄等重要信息,將每個患者及其癥狀表示為病歷記錄網(wǎng)絡(luò),形式化表示為P=(Vp∪Vs′,Eps′),其中,Vp是患者節(jié)點集,Vs′是癥狀節(jié)點集,Eps′表示患者與其表現(xiàn)出的癥狀之間的邊集,若癥狀s∈Vs′與患者p∈Vp相關(guān)聯(lián),則2個節(jié)點之間存在一條連邊,即Eps′=1。圖1a右側(cè)展示了1個患者病歷網(wǎng)絡(luò)。
本文選取10種常見疾病進行分析,疾病名稱均采用國際疾病分類標準ICD-10表示,參考海量知識圖譜CMeKG(Chinese Medical Knowledge Graph)中疾病臨床癥狀等信息,將每種疾病與其對應(yīng)的癥狀提取出來表示為一個概念圖,形式化表示為D=(Vd∪Vs,Eds),其中,Vd是疾病節(jié)點集,Vs是癥狀節(jié)點集,Eds是邊的集合。若癥狀s∈Vs與疾病d∈Vd相關(guān)聯(lián),則2個節(jié)點之間存在一條連邊,即Eds=1。如圖1a左側(cè)所示,以高血壓d1和慢性肺源性心臟病d2這2種疾病為例,兩者有共同的癥狀s1和s3,則將疾病與癥狀進行連邊,以此類推構(gòu)建所有疾病和癥狀的外部醫(yī)學(xué)知識圖譜。本文以外部醫(yī)學(xué)知識圖譜作為領(lǐng)域知識,與3.2節(jié)構(gòu)建的患者病歷網(wǎng)絡(luò)中的癥狀節(jié)點進行融合,以解決因發(fā)病率不同造成的數(shù)據(jù)不平衡的問題。
本文提出的模型框架如圖2所示,在生成患者節(jié)點嵌入表示時,主要融合了2種分層注意力機制:節(jié)點級注意力機制和語義關(guān)系級注意力機制。節(jié)點級注意力機制可以篩選出有意義的鄰居節(jié)點,并將其聚合在一起形成節(jié)點的嵌入表示。
Figure 2 Framework of HCAD model
將3.2節(jié)構(gòu)建的異構(gòu)圖病歷網(wǎng)絡(luò)P和3.3節(jié)構(gòu)建的外部醫(yī)學(xué)知識圖譜D進行數(shù)據(jù)集成,構(gòu)成異構(gòu)圖病歷網(wǎng)絡(luò)G作為模型的輸入。為方便起見,對于G中節(jié)點的特征向量矩陣表示為(A,X),其中,A是根據(jù)邊集合E生成的鄰接矩陣,當(dāng)(vi,vj)∈E時,Aij=1;信息矩陣X是從電子病歷原文中提取的患者年齡、性別和生理記錄等信息進行區(qū)間變量向量化構(gòu)成的,矩陣中的每一個行向量對應(yīng)一個患者節(jié)點的初始嵌入表示。
由于異構(gòu)圖病歷網(wǎng)絡(luò)中不同類型節(jié)點都有不同的特征表示t,對每種類型節(jié)點vi的鄰居節(jié)點信息聚合之前,需將不同類型節(jié)點的特征經(jīng)節(jié)點類型的變換矩陣Hvi投影到相同的特征空間中,投影過程可描述為式(1):
t′vi=Hvi·tvi
(1)
此外,為了有效分辨出起決定性作用的鄰居節(jié)點,模型引入了節(jié)點級注意力機制,將有意義的基于元路徑的鄰居節(jié)點信息聚合在一起,形成節(jié)點的低維嵌入表示。
(2)
滿足此元路徑的2個節(jié)點均共享self_attnodes,self_attnodes表示執(zhí)行節(jié)點級注意力機制的深度神經(jīng)網(wǎng)絡(luò)。
(3)
(4)
為充分利用注意力機制的表達能力,HCAD模型調(diào)用K組相互獨立的注意力機制,使得訓(xùn)練更加穩(wěn)定,將學(xué)習(xí)到的輸出結(jié)果拼接在一起,如式(5)所示:
(5)
Figure 3 Stratified attention mechanism
異構(gòu)圖病歷網(wǎng)絡(luò)中的節(jié)點包含多種類型語義信息,基于某一條元路徑的節(jié)點嵌入,只表示異構(gòu)圖中某一方面的語義信息。為了更有效、更穩(wěn)健地聚集節(jié)點鄰居的信息,學(xué)習(xí)得到更為全面的節(jié)點嵌入表示,本文設(shè)計了一種新的語義關(guān)系級注意力機制,以自動學(xué)習(xí)不同元路徑的重要性,選擇起決定性作用的元路徑并進行語義融合。語義關(guān)系級注意力機制以式(5)學(xué)習(xí)到的U組具有特定語義信息的節(jié)點嵌入為輸入,獲得每條元路徑的權(quán)重,如式(6)所示:
(6)
(7)
(8)
其中,W表示權(quán)重矩陣,b表示偏置向量,q表示語義融合向量,計算所有元路徑的權(quán)重系數(shù)時均共享上述參數(shù)。
最后,對所有元路徑下的節(jié)點嵌入表示進行融合,得到最終的節(jié)點嵌入Z,如式(9)所示:
(9)
本文將最終的節(jié)點嵌入應(yīng)用到臨床預(yù)測問題中,在整個預(yù)測模型訓(xùn)練的過程中,通過式(10)量化預(yù)測誤差:
(10)
其中,Yp表示患者節(jié)點p的標簽,Zp表示患者節(jié)點p的最終嵌入表示,Q用來攜帶分類器的參數(shù),通過反向傳播來更新參數(shù)、優(yōu)化模型。
基于異構(gòu)圖病歷注意力網(wǎng)絡(luò)的臨床輔助診斷算法如算法1所示。
算法1基于異構(gòu)圖病歷注意力網(wǎng)絡(luò)的臨床輔助診斷算法。
輸出:最終節(jié)點嵌入表示Z,節(jié)點級注意力系數(shù)λ,語義關(guān)系級注意力系數(shù)γ。
2.fork←1 toKdo
3. 節(jié)點特征轉(zhuǎn)換t′vi←Hvi·tvi;
4.forvi∈Vdo
8.endfor
10.endfor
12.endfor
13. 計算語義關(guān)系級注意力系數(shù)γ;
15.endfor
16.計算交叉熵損失函數(shù)L;
17.模型優(yōu)化,參數(shù)更新;
18.ReturnZ,λ,γ
本文基于某三甲醫(yī)院的真實電子病歷數(shù)據(jù)和CCKS2017 Shared Task2開源中文電子病歷標準數(shù)據(jù)集進行實驗。真實電子病歷數(shù)據(jù)共有8 000多份電子病歷,包含每個科室最常見的疾病,即高血壓、糖尿病和慢性阻塞性肺病等多種疾病,根據(jù)本文研究內(nèi)容篩選符合要求的電子病歷4 228份作為研究對象,每種疾病的數(shù)量和比例如圖4所示。原始電子病歷數(shù)據(jù)都是純文本形式,包含患者的個人信息(已去除隱私信息)、主訴、現(xiàn)病史、家族史、體征檢查和診斷結(jié)果等內(nèi)容。基于這些數(shù)據(jù)構(gòu)建一個干凈高效的異構(gòu)圖病歷網(wǎng)絡(luò),本文對數(shù)據(jù)進行以下處理:
Figure 4 Number of diseases in EMRs
(1)數(shù)據(jù)消歧:首先,進行文本分割、分詞處理和癥狀提取,形成半結(jié)構(gòu)化的中文病歷數(shù)據(jù)集,獲得500多種癥狀實體。然后,在臨床專家的指導(dǎo)下,針對部分癥狀實體存在不同的表述或縮寫形式,進行清洗以消除歧義,最終得到405種有效癥狀實體。
(2)數(shù)據(jù)融合:本文使用的數(shù)據(jù)中不同疾病的電子病歷數(shù)量不平衡,高血壓有501份,而肺源性心臟病只有249份。從電子病歷中提取10種疾病對應(yīng)的癥狀,且癥狀也存在不平衡問題。為解決電子病歷數(shù)據(jù)量有限且不同病癥數(shù)據(jù)分布不平衡等問題,本文構(gòu)建外部醫(yī)學(xué)知識圖譜,將患者病歷記錄網(wǎng)絡(luò)中能夠與知識圖譜中的癥狀實體匹配的節(jié)點進行融合。
(3)多源情境信息向量化:電子病歷中患者的性別、年齡和體征檢查結(jié)果的可能取值較多,需要對這類情境信息進行分段處理,分段的依據(jù)包括:生活常識,如性別分為男女;數(shù)據(jù)特征,如血壓正常值一般為:90<收縮壓<140,60<舒張壓<90;根據(jù)年齡分段法對年齡進行分段,這種分段方式更貼近人們對于生活的認知[21]。以此將這類情境信息進行向量化處理并集成到患者節(jié)點的特征向量中,對于細化患者表示和預(yù)測診斷有重要的輔助作用。
為了驗證本文提出的HCAD模型的效果,選擇8種基準模型進行對比實驗,這8種模型主要分為3類:同構(gòu)圖網(wǎng)絡(luò)嵌入模型GCN[11]和GAT[13],異構(gòu)圖網(wǎng)絡(luò)嵌入模型HIN2Vec[22]、HeGAN(Heterogeneous information network inspired by Generative Adversarial Network)[23]、DHNE(Deep Hyper-Network Embedding)[24]和MetaGraph2Vec[25],以及與本文模型相近的2種變體模型HCADnode和HCADpath。
實驗過程中,參數(shù)學(xué)習(xí)率設(shè)置為0.005,Epochs設(shè)置為200。如果損失函數(shù)在連續(xù)50個Epochs上沒有減少,則模型停止訓(xùn)練。異構(gòu)圖病歷網(wǎng)絡(luò)中節(jié)點的初始向量維度R設(shè)定為491,模型最終嵌入的節(jié)點向量維度Z為64,語義融合注意力向量q的維度設(shè)置為32,注意力頭數(shù)K設(shè)置為8。所有模型使用的電子病歷數(shù)據(jù)按照7∶1∶2劃分訓(xùn)練集、驗證集和測試集。
臨床診斷預(yù)測問題本質(zhì)上既可以看作是一個分類任務(wù)[26],也可以看作是一個聚類任務(wù)。針對分類任務(wù),本文采用通用的評價標準對實驗結(jié)果進行評估:Precision、Recall和F1值,計算方法分別如式(11)~式(13)所示:
(11)
(12)
(13)
其中,TP表示預(yù)測為正的正樣本個數(shù),FP表示預(yù)測為正的負樣本個數(shù),FN表示預(yù)測為負的正樣本個數(shù)。
在聚類任務(wù)中,本文使用歸一化互信息NMI(Normalized Mutual Information)評估聚類質(zhì)量[27],NMI值越大表示性能越好。
5.4.1 分類結(jié)果分析
本文將每個患者節(jié)點的低維向量表示作為下游任務(wù)的輸入,將患者疾病診斷問題轉(zhuǎn)化為節(jié)點分類任務(wù)。為了保證預(yù)測結(jié)果更加穩(wěn)定可靠,分類過程重復(fù)10次取其平均值。實驗結(jié)果如表1所示。根據(jù)表1可知,本文提出的HCAD模型具有以下優(yōu)點:(1) 在所有模型中,HCAD模型的預(yù)測效果最好,F1值相比基準模型至少提高了4.86%;(2) 本文設(shè)計的2個消融實驗的預(yù)測效果相比其他基準模型均有提高,但低于HCAD的預(yù)測準確率,這充分證明了本文模型中分層注意力機制的有效性;(3) 與基準模型相比,結(jié)合圖結(jié)構(gòu)信息和語義信息的HCAD模型在分類效果上有明顯優(yōu)勢。這也表明HCAD模型不僅可以捕獲重要的基于元路徑的鄰居節(jié)點,還可以捕獲異構(gòu)病歷網(wǎng)絡(luò)中更豐富的語義信息。
Table 1 Quantitative results on the node classification task
5.4.2 聚類結(jié)果分析
臨床診斷問題也可以看成是一個聚類任務(wù),聚類效果可以用NMI來評價。由于聚類任務(wù)的性能受初始質(zhì)點的影響,本文在聚類過程中重復(fù)實驗10次取評價結(jié)果的平均值。聚類結(jié)果如圖5所示,可以發(fā)現(xiàn):(1)HCAD的表現(xiàn)始終優(yōu)于所有基準模型,NMI值提高了8.23%;(2)HCAD模型能夠識別具有較大影響力的鄰居節(jié)點,能夠有效解決語義混淆的問題;(3)GCN、GAT和傳統(tǒng)異質(zhì)模型MetaGraph2Vec的聚類效果相對較差;(4)增加了分層注意力機制的2種模型HCADnode和HCADpath在聚類效果上有不同程度的提高。
Figure 5 Quantitative results on the node clustering task
5.4.3 參數(shù)敏感度
本文進一步通過實驗分析了模型對關(guān)鍵超參數(shù)的敏感度,主要發(fā)現(xiàn):
(1)隨著多頭注意力K值的增加,預(yù)測準確性有較大改善,如圖6a所示,多頭注意力可使得訓(xùn)練過程更加穩(wěn)定。
Figure 6 Parameter sensitivities of HCAD model
(2)增加患者多種情境信息后預(yù)測性能有較大提升。如圖6b所示,患者節(jié)點的初始嵌入維度R為405,增加了患者情境信息后R達到491,使得預(yù)測效果有近2%的提高,這表明HCAD模型利用了更多的潛在結(jié)構(gòu)信息。
(3)隨著患者節(jié)點最終嵌入維度Z的增加,預(yù)測性能先增后減,如圖6b所示。這是因為較大的節(jié)點嵌入維度會帶來更多的噪聲,從而導(dǎo)致預(yù)測性能下降,同時也增加了計算復(fù)雜性。
(4)隨著語義融合向量q維度的增加,模型的預(yù)測性能也在提升,如圖6c所示,當(dāng)q維度大于32時,預(yù)測性能由最高點開始緩慢下降。這是因為較大的語義融合向量維度可能會導(dǎo)致模型產(chǎn)生過擬合現(xiàn)象。
5.4.4 分層注意力機制分析
(1)節(jié)點級注意力機制分析?;颊吖?jié)點的嵌入表示不僅依靠節(jié)點自身信息,還需要聚合基于元路徑的鄰居節(jié)點的信息,一些重要的鄰居節(jié)點在聚合過程中需要更大的關(guān)注度。以圖7a為例,中心節(jié)點507是一名慢性肺源性心臟病患者,其基于元路徑PSP的鄰居節(jié)點有163,6和545等。從圖7b中模型為所有節(jié)點自動分配的權(quán)重值可以發(fā)現(xiàn),中心節(jié)點507在聚合鄰居信息過程中,更關(guān)注該節(jié)點自身以及具有相同疾病類別的患者節(jié)點,例如患有慢性肺源性心臟病的患者節(jié)點503,545和579,即節(jié)點級注意力機制更能區(qū)分鄰居之間的差異,將較高的權(quán)重分配給重要的鄰居節(jié)點。
Figure 7 Analysis of node level attention mechanism
(2)語義關(guān)系級注意力機制分析。不同元路徑在特定任務(wù)中表現(xiàn)出不同的有效性,若將每條元路徑看作同等重要,則模型的預(yù)測性能就無法得到有效提升。語義關(guān)系級注意力機制可以為每條元路徑賦予不同的權(quán)重,并對各個元路徑代表的語義信息進行適當(dāng)?shù)娜诤?。在聚類分析?NMI值越高,表明元路徑越有效,如圖8所示。實驗發(fā)現(xiàn):①在異構(gòu)圖病歷網(wǎng)絡(luò)中,元路徑PSP相比PSDSP更為重要,因而其權(quán)值較高;②雖然元路徑PSP的權(quán)重比PSDSP的大,但兩者差異并不明顯,這可以解釋為什么在圖5中消融實驗HCADpath通過簡單加和平均計算也可以獲得相對較好的預(yù)測結(jié)果;(3)元路徑PSDSP在語義傳播過程中,匹配到的鄰居節(jié)點相比PSP更多,但大多數(shù)都不是同類型疾病的節(jié)點,使得通過元路徑PSDSP得到的節(jié)點向量表示預(yù)測效果較差,因而其重要性相對較低。
Figure 8 Analysis of semantic relational level attention mechanism
節(jié)點級注意力機制和語義關(guān)系級注意力機制為本文提出的HCAD模型的可解釋性帶來便利。由于節(jié)點級注意力機制能更加有效地區(qū)分鄰居節(jié)點之間的差異,將較高的權(quán)重分配給更為重要的鄰居節(jié)點;語義關(guān)系級注意力機制可以為每條元路徑賦予不同的權(quán)重。當(dāng)再次輸入相同或者類似的數(shù)據(jù)時,通過回溯不同節(jié)點和元路徑的重要性,可對HCAD模型的疾病預(yù)測結(jié)果給出一個合理的邏輯解釋。
5.4.5 算法的復(fù)雜度分析
本文提出的HCAD模型與幾種基準模型都是基于圖神經(jīng)網(wǎng)絡(luò),為了對比方便,用于訓(xùn)練模型的數(shù)據(jù)以相同的形式存儲,處理過程涉及到的最大矩陣均為二維矩陣,所以空間復(fù)雜度一致。算法一次正向傳播過程的時間復(fù)雜度對比如表2所示,其中,|V|表示異構(gòu)圖病歷網(wǎng)絡(luò)中節(jié)點的數(shù)量,|E|表示網(wǎng)絡(luò)中邊的數(shù)量,且該網(wǎng)絡(luò)滿足|E|>|V|,d表示節(jié)點向量的維度。本文HCAD模型的時間復(fù)雜度為O((|V|+|E|)d),與異構(gòu)圖病歷網(wǎng)絡(luò)的節(jié)點數(shù)和邊數(shù)成線性關(guān)系。對比模型中時間復(fù)雜度最低的為DHNE。在實驗中,本文HCAD模型的實際運行時間略大于GCN的實際運行時間。
Table 2 Comparison of model time complexities
本文提出了一種基于異構(gòu)圖病歷注意力網(wǎng)絡(luò)的臨床輔助診斷模型HCAD,主要工作為:(1)利用電子病歷中有效信息構(gòu)建異構(gòu)圖病歷網(wǎng)絡(luò),并建立外部醫(yī)學(xué)知識圖譜來解決數(shù)據(jù)不平衡問題;(2)模型能統(tǒng)一利用異構(gòu)圖病歷網(wǎng)絡(luò)中復(fù)雜的結(jié)構(gòu)信息和豐富的語義信息來生成更完整且更具有區(qū)分度的患者節(jié)點表示,以達到更好的預(yù)測效果;(3)模型中設(shè)置了分層注意力機制,包括節(jié)點級注意力機制和語義關(guān)系級注意力機制,分別學(xué)習(xí)鄰居節(jié)點和不同元路徑的重要程度。實驗表明,本文提出的臨床輔助診斷模型在10種常見疾病的分類和聚類效果上都表現(xiàn)出明顯的優(yōu)越性,且具有較好的可解釋性。
HCAD模型還存在以下不足之處:(1)本文所構(gòu)建的異構(gòu)圖病歷網(wǎng)絡(luò)規(guī)模相對較小,模型僅對常見的10種疾病實驗有效,針對其它疾病是否有效還需進一步實驗分析;(2)本文提出的HCAD模型引入了分層注意力機制,使得準確率顯著提升,但同時也造成了時間復(fù)雜度略高的問題。在未來的工作中,將從10種常見疾病擴展到其他疾病,并擴大患者異構(gòu)圖病歷網(wǎng)絡(luò)的數(shù)據(jù)規(guī)模,在本文提出的模型基礎(chǔ)上尋找更佳的建模方法,提高準確率的同時降低時間復(fù)雜度,為臨床輔助診斷,促進個性化診療,提升智慧醫(yī)療的服務(wù)水平提供技術(shù)支撐。