賈子舟,張鈺嘉,榮書玲,李 保
冠心病(coronary heart disease,CHD)是指因動脈粥樣硬化斑塊形成及破裂導(dǎo)致冠狀動脈管腔狹窄或閉塞,阻斷心肌的血供,進而引起心絞痛、心肌梗死等心肌缺血表現(xiàn)的疾病。隨著我國人口老齡化加劇及人們生活方式的改變,冠心病人數(shù)持續(xù)增加,目前,我國冠心病患病人數(shù)約為1100萬人[1]。據(jù)報道,全球冠心病年死亡人數(shù)超過700萬人,在全球死亡率單一疾病中排首位[2]。Zhou等[3]2016年在Lancet雜志發(fā)表的研究表明,冠心病是中國居民第二大死亡原因。冠心病嚴重危害我國居民身體健康和生命安全,帶來極大的社會及經(jīng)濟負擔(dān)。目前,關(guān)于冠心病發(fā)病情況已進行了相關(guān)研究[4-7],但是對月度入院數(shù)是否具有變化趨勢研究證據(jù)較少。隨著深度學(xué)習(xí)的發(fā)展,已有部分學(xué)者將深度學(xué)習(xí)LSTM模型應(yīng)用于傳染病預(yù)測[8-10]。LSTM模型本質(zhì)上是一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在擬合和預(yù)測傳染病時序數(shù)據(jù)時有較好的效果,但還未有學(xué)者將該深度學(xué)習(xí)模型應(yīng)用于預(yù)測冠心病入院人數(shù)。本研究基于太原市某三級甲等綜合醫(yī)院的冠心病月入院人數(shù)數(shù)據(jù),探究冠心病月入院數(shù)的趨勢及變化特征,進一步應(yīng)用深度學(xué)習(xí)LSTM模型對冠心病月入院人數(shù)的時序數(shù)據(jù)進行訓(xùn)練和預(yù)測,并將LSTM模型的預(yù)測效果與傳統(tǒng)預(yù)測模型ARIMA[11]和GM(1,1)模型[12]的預(yù)測性能進行對比,驗證LSTM模型對冠心病月入院人數(shù)預(yù)測的有效性,為落實冠心病防治措施提供幫助,同時也為醫(yī)院合理配置醫(yī)療資源、提高救治能力提供科學(xué)依據(jù)。
1.1 資料來源 將太原市某三級甲等綜合醫(yī)院心血管內(nèi)科2015年1月—2021年3月冠心病月入院數(shù)作為研究數(shù)據(jù),詳見表1、圖1。
表1 數(shù)據(jù)集信息
圖1 2015年1月—2021年3月冠心病月入院人數(shù)變化圖
1.2 LSTM模型介紹 LSTM深度學(xué)習(xí)模型是非線性模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種形式,LSTM在RNN的基礎(chǔ)上增加了3個Gate結(jié)構(gòu),即Input Gate、Output Gate、Forget Gate。Gate結(jié)構(gòu)的出現(xiàn)解決了RNN在層數(shù)較多時出現(xiàn)梯度消失的問題。 LSTM的具體組成結(jié)構(gòu)見圖2。
圖2 LSTM模型組成結(jié)構(gòu)圖
LSTM具體計算公式如式①~式⑥所示。
t=sigmoid(Wf·[ht-1,xt]+bf)
①
it=sigmoid(Wi·[ht-1,xt]+bi)
②
ot=sigmoid(Wo·[ht-1,xt]+bo)
③
④
ct=t·ct-1+it·
⑤
ht=ot·tanh(ct).
⑥
式①~式⑥中,it為Input Gate,ot為Output Gate,t為Forget Gate,t為t時刻Cell中輸入的值,ct為t時刻Cell中的更新值,hi為儲存了t時刻以及之前時刻隱藏信息的向量; sigmoid、tanh均為激活函數(shù);Wf、Wt、Wc、Wo均為權(quán)重矩陣,bf、bi、bc、bo為對應(yīng)Wf、Wi、Wc、Wo的偏置,具體各個神經(jīng)元模型結(jié)構(gòu)圖詳見圖3。
圖3 非線性數(shù)學(xué)模型LSTM各單元結(jié)構(gòu)圖
1.3 仿真實驗
1.3.1 評價指標(biāo)選取 為檢驗LSTM模型對冠心病月入院數(shù)預(yù)測的效果,選取平均絕對誤差(MAE)指標(biāo)作為評估的標(biāo)準(zhǔn),指標(biāo)計算公式如式⑦所示。
⑦
1.3.2 建模 應(yīng)用python軟件對LSTM進行建模,建模時首先對數(shù)據(jù)進行z-score標(biāo)準(zhǔn)化預(yù)處理,擬合該模型核心用的到庫為tensorflow、keras、sklearn以及pandas。該非線性模型有3層結(jié)構(gòu),即Input、Output、Hidden層,將非線性數(shù)學(xué)模型LSTM的epochs設(shè)置為500,units設(shè)置為128。采用Mini-Batch法來訓(xùn)練非線性數(shù)學(xué)模型LSTM。其中,batch_size設(shè)置為1,loss函數(shù)設(shè)置為均方誤差即mean_squared_error,優(yōu)化器設(shè)置為Adam(Adaptive Moment Estimation),Adam一般形式如式⑧所示。
mt=β1mt-1+(1-β1)gt
vt=β2vt-1+(1-β2)gt2
⑧
2.1 模型擬合及預(yù)測效果 運用LSTM模型對表1中數(shù)據(jù)進行擬合,此時,該模型的loss值為0.016 4,預(yù)測集的MAE值為50.368,模型擬合效果以及預(yù)測效果見圖4、圖5??梢钥闯觯琇STM模型有較好的擬合效果以及預(yù)測性能,能夠較準(zhǔn)確地預(yù)測出冠心病月入院數(shù)的趨勢以及人數(shù)。
圖4 LSTM模型擬合效果圖[藍線代表Raw data(原始數(shù)據(jù));黃線代表Fitted data(擬合數(shù)據(jù))]
圖5 LSTM模型預(yù)測效果圖
2.2 模型對比 為進一步驗證LSTM模型在冠心病月入院數(shù)預(yù)測中的算法性能,將LSTM模型預(yù)測性能與傳統(tǒng)預(yù)測模型ARIMA及GM(1,1)模型進行對比。3個模型的訓(xùn)練集均為2015年1月—2020年12月數(shù)據(jù),預(yù)測集為2021年1月—2021年3月數(shù)據(jù),采用MAE評價預(yù)測的效果。詳見表2。從表2可以看出,LSTM模型預(yù)測性能最佳,ARIMA模型預(yù)測性能次之,GM(1,1)模型預(yù)測性能最差。
表2 模型對比結(jié)果
在我國冠心病人數(shù)整體呈上升趨勢,對冠心病月入院數(shù)的準(zhǔn)確預(yù)測能夠為該病的防控工作提供一定的科學(xué)理論指導(dǎo)。本研究根據(jù)太原市某三級甲等綜合醫(yī)院心血管內(nèi)科2015年1月—2021年3月冠心病月入院數(shù),將LSTM模型應(yīng)用到冠心病月入院數(shù)的預(yù)測中。結(jié)果表明,冠心病月入院數(shù)呈長期持續(xù)上升趨勢,而且存在季節(jié)波動性,11月、12月是冠心病病人入院的高峰期。
總體上看,當(dāng)前我國冠心病入院數(shù)仍處于上升階段,本研究結(jié)果與全國趨勢保持一致。 隨著我國國民經(jīng)濟快速發(fā)展,人們行為生活方式發(fā)生極大改變,導(dǎo)致肥胖、高血壓病、高血脂、糖尿病等患病率明顯上升,這些均被證實與冠心病密切相關(guān)[13-14]。另外,吸煙、飲食結(jié)構(gòu)、身體活動等是明確與冠心病發(fā)生相關(guān)的因素[1],共同促進冠心病發(fā)生發(fā)展。
心血管疾病有明顯的季節(jié)性,冬季較冷的月份入院率最高[15]。本研究結(jié)果提示,冠心病月度入院數(shù)在11月、12月呈高峰,呈季節(jié)波動性。主要考慮與溫度有關(guān),在寒冷的環(huán)境下,交感神經(jīng)系統(tǒng)激活,兒茶酚胺分泌增加,通過增加心率和外周血管阻力增加心肌氧耗,進而導(dǎo)致心絞痛或心肌梗死發(fā)生。另外,血清膽固醇水平升高已被證實與冠心病發(fā)展和死亡的風(fēng)險增加有關(guān);許多研究報道血漿膽固醇水平呈現(xiàn)顯著季節(jié)性變化,在冬季水平最高,夏季水平最低[16]。同時,血漿纖維蛋白原水平和凝血因子活性的升高與冠心病入院密切相關(guān),而兩者濃度在寒冷月份達到峰值。這些機制綜合作用于冠心病的發(fā)生發(fā)展,在其季節(jié)性變化規(guī)律中起著重要作用。本研究發(fā)現(xiàn)2020年2月冠心病月入院數(shù)呈現(xiàn)斷崖式下降,考慮受新冠肺炎疫情影響,我國嚴格執(zhí)行居家隔離政策導(dǎo)致冠心病入院人數(shù)大幅下降所致。
綜上所述,冠心病入院人數(shù)變化受環(huán)境、季節(jié)等多方面的影響,具有一定的周期性和季節(jié)性。另外,研究發(fā)現(xiàn)LSTM模型有較好的擬合效果,并且LSTM模型的預(yù)測性能優(yōu)于ARIMA 乘積季節(jié)模型及灰色GM(1,1)預(yù)測模型,可用于冠心病入院數(shù)的短期預(yù)測。在未來醫(yī)療資源配置時,應(yīng)了解季節(jié)和其他因素的影響,參考入院數(shù)預(yù)測值,優(yōu)化資源分布,合理利用有限的醫(yī)療資源。
利益沖突所有作者均聲明不存在利益沖突