王亞強(qiáng),楊 瀟,朱 濤,郝學(xué)超,舒紅平,陳 果
(1.成都信息工程大學(xué) 軟件工程學(xué)院,四川 成都 610225;2. 成都信息工程大學(xué) 數(shù)據(jù)科學(xué)與工程研究所,四川 成都 610225;3. 成都信息工程大學(xué) 軟件自動(dòng)生成與智能服務(wù)四川省重點(diǎn)實(shí)驗(yàn)室,四川 成都 610225;4. 四川大學(xué) 華西醫(yī)院 麻醉手術(shù)中心,四川 成都 621005)
術(shù)后并發(fā)癥(如肺部并發(fā)癥[1]、心血管不良[2]、ICU入室[3]等)風(fēng)險(xiǎn)(后文簡(jiǎn)稱“術(shù)后風(fēng)險(xiǎn)”)所導(dǎo)致的術(shù)后30天內(nèi)死亡,已成為全球排名第三位的人群死亡原因[4]。準(zhǔn)確的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)對(duì)醫(yī)生進(jìn)行合理的臨床資源規(guī)劃、應(yīng)急方案準(zhǔn)備具有重要的輔助作用,對(duì)患者的術(shù)后風(fēng)險(xiǎn)發(fā)生和死亡率降低具有積極的意義[5-6]。
目前,術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)主要基于患者的基本信息(如體溫、血壓、體重等)、術(shù)前的實(shí)驗(yàn)室檢查(如氧分壓、氧飽和、蛋白等)、術(shù)中的生命體征(如出血量等)等結(jié)構(gòu)化數(shù)據(jù),利用極限梯度提升(eXtreme Gradient Boosting,XGBoost)、邏輯回歸(Logistic Regression,LR)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)等模型實(shí)現(xiàn)[2,5]。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在各領(lǐng)域的預(yù)測(cè)任務(wù)中表現(xiàn)優(yōu)秀,受到研究者的廣泛關(guān)注,也被引入術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)[6]。Fritz[7]等人構(gòu)建了一種多路徑卷積神經(jīng)網(wǎng)絡(luò),提取和融合患者基本信息、共病情況、術(shù)前實(shí)驗(yàn)室檢查和術(shù)中生命體征等結(jié)構(gòu)化數(shù)據(jù)中的特征,用于患者術(shù)后死亡風(fēng)險(xiǎn)預(yù)測(cè)。Barbieri[8]等人利用雙向門控循環(huán)單元,將結(jié)構(gòu)化數(shù)據(jù)之間的時(shí)間信息以拼接的方式融入數(shù)據(jù)表征,采用注意力機(jī)制提取重要特征,用于患者術(shù)后ICU入室風(fēng)險(xiǎn)預(yù)測(cè)?,F(xiàn)有方法的核心是如何將結(jié)構(gòu)化數(shù)據(jù)中的離散型和連續(xù)型特征向量化,形成基于深度神經(jīng)網(wǎng)絡(luò)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型的數(shù)據(jù)表征。
在術(shù)前數(shù)據(jù)中,除結(jié)構(gòu)化數(shù)據(jù)外,還包含語(yǔ)義豐富的非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)。術(shù)前診斷中不僅包含醫(yī)生基于的醫(yī)學(xué)知識(shí),還包含根據(jù)局部的結(jié)構(gòu)化數(shù)據(jù),對(duì)患者病情的總結(jié)信息,以及醫(yī)生以整體的結(jié)構(gòu)化數(shù)據(jù)為依據(jù),利用經(jīng)驗(yàn)知識(shí),對(duì)患者病況的推斷信息。如圖1中患者1的術(shù)前數(shù)據(jù)所示,根據(jù)結(jié)構(gòu)化數(shù)據(jù)收縮壓156 mmHg(毫米汞柱)與舒張壓76 mmHg,基于醫(yī)學(xué)知識(shí)“成人的收縮壓和舒張壓正常范圍應(yīng)在90 mmHg至120 mmHg之間”,因此,醫(yī)生在術(shù)前診斷中總結(jié)該患者有“高血壓病”,且屬于“3級(jí)很高?!?。此外,依據(jù)目前患者整體的結(jié)構(gòu)化數(shù)據(jù),醫(yī)生根據(jù)經(jīng)驗(yàn)知識(shí),推斷患者是“肺部感染”。更進(jìn)一步地,術(shù)前診斷的整體描述,反映了當(dāng)前患者的全局狀態(tài)。這些語(yǔ)義信息能夠豐富術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)的特征,有助于增強(qiáng)預(yù)測(cè)模型的性能。
圖1 結(jié)構(gòu)化的患者基本信息和術(shù)前實(shí)驗(yàn)室檢查數(shù)據(jù)
然而,術(shù)前診斷數(shù)據(jù)尚未在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)中被有效利用。如何充分地利用非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù),形成有效的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)表征,尚有待進(jìn)一步探索。
綜上,本文圍繞非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù)如何增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)這一問(wèn)題展開研究,主要的貢獻(xiàn)包括以下三個(gè)方面:
(1) 與圍術(shù)期醫(yī)學(xué)專家合作,經(jīng)過(guò)清洗、處理、轉(zhuǎn)換和去隱私過(guò)程,構(gòu)建了一份包含12 240個(gè)實(shí)例、面向術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)的數(shù)據(jù)集。該數(shù)據(jù)集的結(jié)構(gòu)化數(shù)據(jù)部分包含了95列離散型變量、61列連續(xù)型變量、一列非結(jié)構(gòu)化的術(shù)前診斷變量以及三列二元的術(shù)后風(fēng)險(xiǎn)標(biāo)簽變量,分別表示肺部并發(fā)癥、心血管不良和ICU入室風(fēng)險(xiǎn)的發(fā)生情況。
(2) 為充分地利用非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù),本文提出一種非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型,利用自注意力機(jī)制,將結(jié)構(gòu)化數(shù)據(jù)與局部的細(xì)粒度實(shí)體信息及全局的粗粒度文本語(yǔ)義加權(quán)融合,有效地將非結(jié)構(gòu)化數(shù)據(jù)用于增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)性能。
(3) 本文提出的基于自注意力機(jī)制融合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的模型結(jié)構(gòu),為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)帶來(lái)了良好的可解釋性。細(xì)節(jié)實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn),利用自注意力機(jī)制獲得的關(guān)系權(quán)重矩陣,可以解釋和展示出非結(jié)構(gòu)化數(shù)據(jù),不僅增強(qiáng)了重要的結(jié)構(gòu)化數(shù)據(jù)的貢獻(xiàn)度,而且還補(bǔ)充了風(fēng)險(xiǎn)預(yù)測(cè)信息。
實(shí)驗(yàn)結(jié)果表明,本文提出的非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型明顯優(yōu)于所對(duì)比的常用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型和最新的深度神經(jīng)網(wǎng)絡(luò),在三種重要的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)(包括肺部并發(fā)癥風(fēng)險(xiǎn)預(yù)測(cè)、ICU入室風(fēng)險(xiǎn)預(yù)測(cè)和心血管不良風(fēng)險(xiǎn)預(yù)測(cè))任務(wù)上,本文提出的模型均取得了最優(yōu)的結(jié)果,F1值分別達(dá)到了66.909%、60.833%和55.888%。此外,通過(guò)消融實(shí)驗(yàn),進(jìn)一步驗(yàn)證了本文提出的模型有效地加權(quán)融合了局部的細(xì)粒度實(shí)體信息和全局的粗粒度文本語(yǔ)義信息。利用非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)表征增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型后,肺部并發(fā)癥風(fēng)險(xiǎn)預(yù)測(cè)的F1值提升了6.878%,ICU入室風(fēng)險(xiǎn)預(yù)測(cè)提升了7.641%,心血管不良風(fēng)險(xiǎn)預(yù)測(cè)提升了9.541%。
術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)是醫(yī)學(xué)信息學(xué)領(lǐng)域的研究熱點(diǎn)問(wèn)題。當(dāng)前的研究主要集中在驗(yàn)證統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上的有效性,以及面向特定類型的術(shù)后并發(fā)癥風(fēng)險(xiǎn)的特征分析兩個(gè)層面。Canet[9]等人利用邏輯回歸模型,確定了7個(gè)獨(dú)立且具有良好鑒別能力的危險(xiǎn)因素后,構(gòu)建了術(shù)后肺部并發(fā)癥風(fēng)險(xiǎn)預(yù)測(cè)指標(biāo),用于評(píng)估和預(yù)測(cè)術(shù)后肺部并發(fā)癥的個(gè)體風(fēng)險(xiǎn)。Hill[10]等人采用隨機(jī)森林模型,自動(dòng)地發(fā)現(xiàn)重要的術(shù)前特征,將結(jié)構(gòu)化的美國(guó)麻醉醫(yī)師協(xié)會(huì)身體狀況特征與術(shù)前特征相結(jié)合,提升術(shù)后死亡風(fēng)險(xiǎn)的預(yù)測(cè)性能。與先前工作不同,本文提出了一種非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型,該模型基于自注意力機(jī)制,在預(yù)測(cè)中有效地融合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化語(yǔ)義信息,并提供良好的可解釋性。
術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)目前的主要研究對(duì)象是術(shù)前和術(shù)中的結(jié)構(gòu)化數(shù)據(jù),其中包含兩種類型的變量,一種是離散型變量,另一種是連續(xù)型變量。其中連續(xù)型變量通常會(huì)被離散化后,與離散型變量一同構(gòu)建特征向量,作為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型的輸入[11]。本文的實(shí)驗(yàn)主要基于結(jié)構(gòu)化的患者基本信息和術(shù)前的實(shí)驗(yàn)室檢查數(shù)據(jù)。本文采用與先前工作相同的連續(xù)型變量的基本處理方法。差異在于本文借鑒Fritz[7]等人的思想,將離散型變量和離散化的連續(xù)型變量構(gòu)建離散特征詞典,并基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)離散特征的嵌入表征。
術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)除可利用術(shù)前和術(shù)中的結(jié)構(gòu)化數(shù)據(jù)作為特征之外,通過(guò)觀察發(fā)現(xiàn),包含醫(yī)學(xué)語(yǔ)義信息的非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)也可用于增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)。Zhang[12]等人提出將英文臨床文本利用Doc2Vec模型[13]直接形成數(shù)據(jù)表征,然后與結(jié)構(gòu)化數(shù)據(jù)合并的方式,將非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)融合,應(yīng)用于住院死亡率、住院時(shí)間長(zhǎng)短和術(shù)后30天再入院的預(yù)測(cè)任務(wù),該方法在英文臨床數(shù)據(jù)MIMIC-III[14]上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。與該工作不同,本文首次探索了將中文非結(jié)構(gòu)化臨床文本引入術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)的方法。
此外,本文通過(guò)觀察還發(fā)現(xiàn),在非結(jié)構(gòu)化的術(shù)前診斷中,既包含全局的粗粒度文本語(yǔ)義信息,還包含局部的細(xì)粒度醫(yī)學(xué)實(shí)體信息,它們均可為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)提供醫(yī)學(xué)語(yǔ)義特征(圖1)。為將這些信息與離散特征的嵌入表征相融合,本文首先基于常用的中文MedBERT(1)URL: https://code.ihub.org.cn/projects/1775獲得實(shí)體的嵌入表征,并將術(shù)前診斷視為句子后,采用詞嵌入平均池化的方法將其向量化。然后利用自注意力機(jī)制[15],將離散特征的嵌入表征與實(shí)體的嵌入表征以及向量化的術(shù)前診斷進(jìn)行加權(quán)融合,在綜合地利用全局和局部的文本語(yǔ)義信息的基礎(chǔ)上,還為模型帶來(lái)了良好的可解釋性[16]。
本文將術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)定義為一項(xiàng)二分類任務(wù),采用有監(jiān)督學(xué)習(xí)方法解決。定義(x,y)為一個(gè)訓(xùn)練實(shí)例,x中包含xnum、xcat和xPD三種類型的特征。其中,xnum表示表格數(shù)據(jù)中的連續(xù)型特征,共m列,xcat表示表格數(shù)據(jù)中的離散型特征,共n列,xPD表示非結(jié)構(gòu)化的術(shù)前診斷文本數(shù)據(jù),y表示術(shù)后風(fēng)險(xiǎn)發(fā)生的情況,用1或0分別表示風(fēng)險(xiǎn)的發(fā)生或未發(fā)生。
本文提出的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型主要利用結(jié)構(gòu)化表格數(shù)據(jù)和非結(jié)構(gòu)化術(shù)前診斷文本數(shù)據(jù)對(duì)術(shù)后風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)(模型的結(jié)構(gòu)如圖2所示)。結(jié)構(gòu)化表格數(shù)據(jù)由xnum和xcat組成。本文采用分類與回歸樹算法[17],先將連續(xù)型特征轉(zhuǎn)換為離散型特征,在引入醫(yī)學(xué)語(yǔ)義信息的同時(shí),降低數(shù)據(jù)的復(fù)雜度。轉(zhuǎn)換后的連續(xù)型特征不僅能夠表達(dá)醫(yī)學(xué)語(yǔ)義,還被統(tǒng)一成離散型特征。轉(zhuǎn)換后的連續(xù)型變量表征被定義為xn2cat,如式(1)所示。
圖2 模型結(jié)構(gòu)圖
xn2cat=discretize(xnum)
(1)
處理離散型變量表征的常用方式是采用實(shí)體嵌入[18]的方法,即為每一個(gè)離散型變量構(gòu)建一個(gè)特征詞表,詞表大小為當(dāng)前離散型變量的不同取值的數(shù)量。然而該方法在建模的過(guò)程中僅考慮了單一變量下的不同取值之間的語(yǔ)義關(guān)聯(lián),而不同的變量之間的相關(guān)性未被考慮其中。為引入全局不同變量之間的語(yǔ)義關(guān)聯(lián),本文改進(jìn)了原始的實(shí)體嵌入方法,讓所有的離散型變量共用特征詞表。每一個(gè)離散型變量(包括xcat和xn2cat)的不同取值,都會(huì)被賦予唯一的索引值xi,其中,i∈[0,|V|],|V|是所有的離散型變量的不同取值的數(shù)量總和,即共用的特征詞表的詞表大小。每個(gè)xi都將通過(guò)學(xué)習(xí)過(guò)程被映射為一個(gè)維度為d的向量,定義為etabular,其中d為超參數(shù)。通過(guò)構(gòu)建全局共用的特征詞表,原始的離散型變量轉(zhuǎn)換為語(yǔ)義向量之后,不僅擴(kuò)充了醫(yī)學(xué)語(yǔ)義信息,并且不同的離散型變量之間也產(chǎn)生了語(yǔ)義關(guān)聯(lián)。相比原始的實(shí)體嵌入方法,該方法解決了不同離散型變量之間語(yǔ)義關(guān)聯(lián)缺失的問(wèn)題。最后,將所有的etabular拼接形成表格數(shù)據(jù)的向量表征Etabular。
術(shù)前診斷文本xPD主要包含醫(yī)生總結(jié)的病人身體癥狀和初步推斷的病情描述,兩者可統(tǒng)一定義為病癥實(shí)體。因此,術(shù)前診斷文本可以歸納為由多個(gè)病癥實(shí)體、連接詞以及標(biāo)點(diǎn)符號(hào)構(gòu)成的集合,每個(gè)實(shí)例xPD包含lmax項(xiàng)的病癥實(shí)體,lmax表示數(shù)據(jù)集中,xPD中最多可飽含的病癥實(shí)體數(shù)量。
術(shù)前診斷文本可以有兩種向量表征方法,一種是形如利用Doc2Vec模型[13]得到的全局語(yǔ)義向量,獲取該類向量表征的方法我們稱之為粗粒度文本的向量表征方法;另一種是直接將病癥實(shí)體對(duì)應(yīng)的語(yǔ)義向量拼接,形成細(xì)粒度文本的向量表征。后文將具體介紹它們獲取術(shù)前診斷文本粗粒度語(yǔ)義信息和細(xì)粒度語(yǔ)義信息的方法。
2.3.1 粗粒度語(yǔ)義向量表征方法
(2)
2.3.2 細(xì)粒度語(yǔ)義向量表征方法
將術(shù)前診斷文本分詞后,通過(guò)MedBERT生成的詞向量被壓縮為單一向量,會(huì)導(dǎo)致局部語(yǔ)義信息的丟失,且無(wú)法明確術(shù)前診斷文本中哪些信息在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)過(guò)程中起到了關(guān)鍵作用。為保留術(shù)前診斷文本中的局部細(xì)粒度實(shí)體語(yǔ)義信息,本文首先利用醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集,基于BERT+BiLSTM+CRF模型訓(xùn)練得到實(shí)體抽取模型[19],然后利用該模型抽取xPD中的病癥實(shí)體,形成病癥實(shí)體集合{w0,…,wk,…,wK},其中,K表示當(dāng)前xPD中抽取得到的病癥實(shí)體數(shù)量。
圖3 細(xì)粒度語(yǔ)義向量的補(bǔ)全與降維轉(zhuǎn)換方法
(3)
在特征融合層,本文選擇采用Self-Attention機(jī)制[15]將表格數(shù)據(jù)表征Etabular與文本數(shù)據(jù)的向量表征Etext進(jìn)行特征融合(如圖4所示)。首先,將表示表格數(shù)據(jù)信息的數(shù)據(jù)表征Etabular與表示文本語(yǔ)義信息的數(shù)據(jù)表征Etext拼接,形成新的特征向量集合EX,并將EX通過(guò)三個(gè)參數(shù)矩陣WQ、WK和WV映射為三個(gè)不同的矩陣Q、K和V。然后對(duì)Q和KT執(zhí)行點(diǎn)積并利用dk放縮結(jié)果,以保證訓(xùn)練過(guò)程中梯度的穩(wěn)定性。其中,dk是指矩陣K的維度,計(jì)算方法如式(4)的Softmax函數(shù)的輸入所示。隨后執(zhí)行Softmax函數(shù)進(jìn)行歸一化,得到不同的數(shù)據(jù)表征之間(包含表格數(shù)據(jù)表征和文本數(shù)據(jù)表征)的注意力權(quán)重Wweight,其計(jì)算方法如式(4)所示。
圖4 特征融合方法
(4)
最后將Wweight與V相乘得到增強(qiáng)后的特征表示A。具體計(jì)算過(guò)程如式(5)~式(7)所示。
EX=Etabular⊕Etext
(5)
Q=EXWQ,K=EXWK,V=EXWV
(6)
(7)
通過(guò)注意力機(jī)制,模型可以自動(dòng)地學(xué)習(xí)到特征在推理過(guò)程中的重要性或貢獻(xiàn)度。因此,在模型推理過(guò)程中,可以通過(guò)提取并分析注意力權(quán)重矩陣,來(lái)探究在模型預(yù)測(cè)過(guò)程中,各特征發(fā)揮作用的重要程度,從而為模型帶來(lái)良好的可解釋性。
為了解決梯度消失問(wèn)題,受文獻(xiàn)[20-21]的啟發(fā),表征矩陣A在輸入前饋神經(jīng)網(wǎng)絡(luò)之前,還經(jīng)過(guò)了殘差網(wǎng)絡(luò)和層標(biāo)準(zhǔn)化操作。接著將向量輸入到帶有Sigmoid激活函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)中,計(jì)算預(yù)測(cè)術(shù)后風(fēng)險(xiǎn)的發(fā)生概率P如式(8)所示。
P=Sigmoid(WTA+b)
(8)
在式(8)中,W和b是前饋神經(jīng)網(wǎng)絡(luò)將學(xué)習(xí)的參數(shù)。最后,模型的損失定義為如式(9)所示。
其中,M指批量包含的實(shí)例數(shù)量。
本文實(shí)驗(yàn)采用了從醫(yī)院的臨床管理系統(tǒng)中獲取的數(shù)據(jù),其中包含患者的基本信息、術(shù)前實(shí)驗(yàn)室檢查數(shù)據(jù)和術(shù)前診斷,以及病人術(shù)后發(fā)生的肺部并發(fā)癥風(fēng)險(xiǎn)、ICU入室風(fēng)險(xiǎn)和心血管不良風(fēng)險(xiǎn)結(jié)局。該數(shù)據(jù)經(jīng)過(guò)了如下基本的預(yù)處理過(guò)程:
(1) 刪除了有關(guān)患者身份的個(gè)人信息;
(2) 刪除了缺失率高于50%的變量。
最終得到包含12240個(gè)實(shí)例的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集,該數(shù)據(jù)集中包含95項(xiàng)離散型變量和61項(xiàng)連續(xù)型變量以及1項(xiàng)術(shù)前診斷變量。數(shù)據(jù)集中包含的三種術(shù)后風(fēng)險(xiǎn)的標(biāo)簽分布如圖5所示,肺部并發(fā)癥風(fēng)險(xiǎn)的陽(yáng)性率為15.93%,ICU入室風(fēng)險(xiǎn)的陽(yáng)性率為6.25%,心血管不良風(fēng)險(xiǎn)的陽(yáng)性率為3.02%。實(shí)驗(yàn)中,本文將數(shù)據(jù)集按照7∶1∶2的比例劃分得到訓(xùn)練集、驗(yàn)證集和測(cè)試集。
圖5 實(shí)驗(yàn)數(shù)據(jù)中的標(biāo)簽分布
為了評(píng)估模型的效果,本文采用精確率(Precision)、召回率(Recall)和F1值作為主要的評(píng)估指標(biāo),具體的計(jì)算如式(10)~式(12)所示。
其中,TP表示在陽(yáng)性實(shí)例中,模型預(yù)測(cè)為陽(yáng)性的實(shí)例數(shù)量;FP表示在陰性實(shí)例中,模型預(yù)測(cè)為陽(yáng)性的實(shí)例數(shù)量;FN表示在陽(yáng)性實(shí)例中,模型預(yù)測(cè)為陰性的實(shí)例數(shù)量。
模型訓(xùn)練采用了Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為3e-4,β1=0.9,β2=0.999,批量大小設(shè)置為128,訓(xùn)練輪次設(shè)置為100,超參數(shù)d設(shè)置為32,Dropout比例參數(shù)設(shè)置為0.5。在以上超參數(shù)設(shè)置條件下,本文提出的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型達(dá)到了收斂。
本文為驗(yàn)證所提出模型在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上的有效性,在實(shí)驗(yàn)中選擇了兩種常用的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型LR和XGBoost以及兩種最新的基于表格數(shù)據(jù)分類的深度神經(jīng)網(wǎng)絡(luò)Wide&Deep[22]和Tabtransformer[23]作為對(duì)比模型。LR和XGBoost采用scikit-learn框架[24]實(shí)現(xiàn),Wide&Deep和Tabtransformer采用開源的代碼庫(kù)(3)https://github.com/jrzaurin/pytorch-widedeep/tree/pytorch_widedeep實(shí)現(xiàn)。
首先,在三項(xiàng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上對(duì)比了模型的預(yù)測(cè)性能,實(shí)驗(yàn)結(jié)果如表1所示。
表1 實(shí)驗(yàn)整體結(jié)果 (單位: %)
從表1所列結(jié)果可以觀察到,Wide&Deep和Tabtransformer在三項(xiàng)術(shù)后風(fēng)險(xiǎn)的預(yù)測(cè)任務(wù)上均優(yōu)于LR和XGBoost,特別是在陽(yáng)性率較低的心血管不良風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上,Wide&Deep和Tabtra-nsformer的表現(xiàn)遠(yuǎn)優(yōu)于LR和XGBoost。該結(jié)果說(shuō)明,深度神經(jīng)網(wǎng)絡(luò)在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上的性能優(yōu)于統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,這與文獻(xiàn)[6-7]報(bào)告的結(jié)果保持一致。
此外,從表1中所列結(jié)果還可以看出,通過(guò)引入術(shù)前診斷文本數(shù)據(jù)表征,本文提出的模型在肺部并發(fā)癥、心血管不良和ICU入室三個(gè)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上均取得了最優(yōu)的性能,F1分別達(dá)到了66.909%、55.888%和60.833%。該結(jié)果證明,本文提出的文本數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型是有效的。
進(jìn)一步觀察表1中的結(jié)果發(fā)現(xiàn),相比于其他模型,本文提出的模型是在保持了良好的精確率的條件下,大幅地提升了召回率,從而提升了F1。該結(jié)果說(shuō)明,當(dāng)模型引入非結(jié)構(gòu)化的術(shù)前診斷數(shù)據(jù)表征后,進(jìn)一步豐富了特征的醫(yī)學(xué)語(yǔ)義信息,對(duì)陽(yáng)性實(shí)例的預(yù)測(cè)帶來(lái)了額外的醫(yī)學(xué)語(yǔ)義信息補(bǔ)充,從而幫助模型將之前無(wú)法判斷的陽(yáng)性實(shí)例準(zhǔn)確地預(yù)測(cè)為陽(yáng)性,進(jìn)而提高了模型的召回率。
為進(jìn)一步驗(yàn)證文本數(shù)據(jù)表征對(duì)模型預(yù)測(cè)效果增強(qiáng)的作用,并探究文本中粗粒度語(yǔ)義信息和細(xì)粒度語(yǔ)義信息對(duì)預(yù)測(cè)任務(wù)的影響,本文還設(shè)計(jì)了不加入文本以及分別加入粗粒度和細(xì)粒度語(yǔ)義信息的對(duì)比消融實(shí)驗(yàn),結(jié)果如表2所示,其中,“-E”表示模型中去除細(xì)粒度語(yǔ)義向量表征,“-S”表示模型中去除粗粒度語(yǔ)義向量表征,“-E-S”表示模型中去除所有的文本數(shù)據(jù)。
表2 消融實(shí)驗(yàn)結(jié)果 (單位: %)
表2中在加入文本數(shù)據(jù)后,本文提出的模型在肺部并發(fā)癥風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)上的性能提高了6.878%,在ICU入室風(fēng)險(xiǎn)預(yù)測(cè)中提高了7.641%,在心血管不良風(fēng)險(xiǎn)預(yù)測(cè)中提高了9.541%,并且無(wú)論是單獨(dú)加入粗粒度文本的語(yǔ)義向量還是細(xì)粒度文本的語(yǔ)義向量,模型的預(yù)測(cè)性能均得到明顯改善。該結(jié)果說(shuō)明,非結(jié)構(gòu)化術(shù)前診斷中的信息對(duì)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)具有積極的作用,為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)提供了額外的決策信息,有效地增強(qiáng)了模型的預(yù)測(cè)能力。
此外,觀察表2還可以發(fā)現(xiàn),陽(yáng)性率越低的術(shù)后風(fēng)險(xiǎn),通過(guò)引入非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)表征后,模型的預(yù)測(cè)性能提升越高。該結(jié)果說(shuō)明,對(duì)于陽(yáng)性實(shí)例更少的術(shù)后風(fēng)險(xiǎn),模型需要更多的特征才能更準(zhǔn)確地預(yù)測(cè)陽(yáng)性病例,引入非結(jié)構(gòu)化的術(shù)前診斷能夠?yàn)槟P蛶?lái)更豐富的醫(yī)學(xué)語(yǔ)義信息,從而使本文提出的模型在陽(yáng)性率越低的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)中表現(xiàn)得越出色。
從表2結(jié)果還能夠看出,相比于全局的粗粒度語(yǔ)義向量表征的缺失,模型對(duì)于局部的細(xì)粒度語(yǔ)義向量表征的缺失更加敏感。該結(jié)果說(shuō)明,在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)的過(guò)程中引入圍術(shù)期醫(yī)學(xué)領(lǐng)域知識(shí),對(duì)模型的預(yù)測(cè)性能提升具有重要的作用,這也進(jìn)一步說(shuō)明了本文提出的非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型的有效性和應(yīng)用價(jià)值。
更進(jìn)一步地,從表2中還可以看出,當(dāng)模型同時(shí)引入粗粒度語(yǔ)義向量表征和細(xì)粒度語(yǔ)義向量表征時(shí),模型的預(yù)測(cè)性能達(dá)到最優(yōu)。該結(jié)果說(shuō)明,當(dāng)用非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型時(shí),既需要引入粗粒度語(yǔ)義向量表征攜帶的全局語(yǔ)義信息,又需要引入細(xì)粒度語(yǔ)義向量表征攜帶的局部語(yǔ)義信息。
本文提出的模型通過(guò)自注意力機(jī)制為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型帶來(lái)了可解釋性。為驗(yàn)證和說(shuō)明該效果,本文選取了一個(gè)發(fā)生了術(shù)后心血管不良的病人的案例,觀察模型的注意力權(quán)重矩陣。該實(shí)例的術(shù)前診斷是“右肺上葉結(jié)節(jié),高血壓3級(jí)”。本文提出的模型準(zhǔn)確地預(yù)測(cè)該實(shí)例的術(shù)后心血管不良風(fēng)險(xiǎn)結(jié)局。提取模型的注意力權(quán)重矩陣Wweight,并畫出其熱力圖(圖6)。在圖6中,橫軸上的“右肺上葉結(jié)節(jié)”和“高血壓3級(jí)”是術(shù)前診斷中的實(shí)體病癥,[PAD]是補(bǔ)全的字符,其余行的描述以及列的描述均是表格數(shù)據(jù)包含的變量。
圖6 心血管不良實(shí)例的注意力權(quán)重?zé)崃D
從圖6可以看出,在術(shù)前診斷描述中,“高血壓3級(jí)”顯著地與表格數(shù)據(jù)中的收縮壓和舒張壓變量具有強(qiáng)關(guān)聯(lián)。該強(qiáng)關(guān)聯(lián)預(yù)示著模型通過(guò)訓(xùn)練,學(xué)習(xí)到了數(shù)據(jù)集中包含的醫(yī)學(xué)領(lǐng)域知識(shí)關(guān)聯(lián)信息,該關(guān)聯(lián)信息保存在了Wweight中,在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)中起到了重要的預(yù)示作用。另一個(gè)方面,該結(jié)果還說(shuō)明,利用自注意力機(jī)制為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型帶來(lái)了可解釋性??傮w地,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的模型在增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)性能方面的魯棒性和可解釋性。
通過(guò)對(duì)比引入非結(jié)構(gòu)化數(shù)據(jù)表征前后,Wweight中包含的權(quán)重值按列求和后得到的每個(gè)變量在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)中的權(quán)重比率排序,進(jìn)一步觀察在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)中起重要作用的變量與術(shù)后風(fēng)險(xiǎn)結(jié)局是否存在醫(yī)學(xué)語(yǔ)義的相關(guān)性,對(duì)比結(jié)果如圖7所示。
圖7 變量在模型術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)中的重要性排序
從圖7可以看出,權(quán)重比率越高,說(shuō)明變量在預(yù)測(cè)中具有更高的重要性。從結(jié)果可以看出,在引入非結(jié)構(gòu)化數(shù)據(jù)表征后,與術(shù)后心血管不良風(fēng)險(xiǎn)強(qiáng)相關(guān)的醫(yī)學(xué)變量收縮壓與舒張壓的權(quán)重比率排序更加靠前。該結(jié)果進(jìn)一步證實(shí)了本文提出的模型在提升術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)性能的同時(shí),還學(xué)習(xí)到了醫(yī)學(xué)領(lǐng)域知識(shí),具有更好的可解釋性。
從圖7中還可以看到,在引入非結(jié)構(gòu)化數(shù)據(jù)表征后,臨床醫(yī)生根據(jù)經(jīng)驗(yàn)總結(jié)或推斷得到的額外的重要醫(yī)學(xué)語(yǔ)義信息,也在風(fēng)險(xiǎn)預(yù)測(cè)中起到了重要的作用,例如臨床醫(yī)生基于收縮壓和舒張壓總結(jié)并記錄下的“高血壓3級(jí)”疾病。一方面,該結(jié)果證明了本文提出的模型學(xué)習(xí)到了醫(yī)學(xué)領(lǐng)域知識(shí),并對(duì)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)起到了積極的作用。另一方面,該結(jié)果還說(shuō)明,本文通過(guò)直覺(jué)觀察提出的模型是正確的,術(shù)前診斷中包含了大量的醫(yī)學(xué)語(yǔ)義信息,這些信息既包含表格數(shù)據(jù)中已有的醫(yī)學(xué)語(yǔ)義信息,還包含大量可用于豐富原始表格數(shù)據(jù)的額外的醫(yī)學(xué)領(lǐng)域知識(shí),這些信息會(huì)對(duì)模型的預(yù)測(cè)性能提升起到積極的作用。更進(jìn)一步地,該結(jié)果也說(shuō)明,本文提出的模型在提升了術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)性能的同時(shí),還具有良好的魯棒性和結(jié)果可解釋性。
術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)在臨床醫(yī)學(xué)中具有重要意義,基于表格數(shù)據(jù)構(gòu)建統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)是常見(jiàn)的方式。非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)中蘊(yùn)含了大量額外的醫(yī)學(xué)領(lǐng)域知識(shí),可為術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)提供豐富的醫(yī)學(xué)語(yǔ)義信息,然而它們尚未被有效利用。針對(duì)該問(wèn)題,本文提出了一種新的模型,用非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)術(shù)后風(fēng)險(xiǎn)預(yù)測(cè),并在模型中引入自注意力機(jī)制,在有效融合表格數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同時(shí),為模型帶來(lái)良好的可解釋性。實(shí)驗(yàn)結(jié)果表明,本文提出的非結(jié)構(gòu)化數(shù)據(jù)表征增強(qiáng)的術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)模型的性能顯著高于其他比較的基線模型和先進(jìn)模型。通過(guò)消融實(shí)驗(yàn),驗(yàn)證了在術(shù)后風(fēng)險(xiǎn)預(yù)測(cè)中引入非結(jié)構(gòu)化術(shù)前診斷數(shù)據(jù)的重要性,證明了本文提出的模型的有效性。此外,通過(guò)對(duì)模型的注意力權(quán)重的細(xì)節(jié)分析發(fā)現(xiàn),利用自注意力機(jī)制將表格數(shù)據(jù)與非結(jié)構(gòu)化的術(shù)前診斷融合用于術(shù)后風(fēng)險(xiǎn)預(yù)測(cè),為模型帶來(lái)了良好的可解釋性。