劉天, 姚夢(mèng)雷, 黃繼貴, 黃淑瓊, 陳紅纓, 楊雯雯, 蔡晶, 吳然
疾病預(yù)測(cè)、預(yù)警模型的探討是目前公共衛(wèi)生研究的熱點(diǎn)問(wèn)題之一[1]。乘積季節(jié)性差分自回歸滑動(dòng)平均模型(seasonal autoregressive integrated mo-ving average,SARIMA)作為傳統(tǒng)時(shí)間序列模型中最經(jīng)典的模型,被廣泛應(yīng)用于疾病的預(yù)測(cè)[2-4]。利用模型早期預(yù)測(cè)疾病未來(lái)流行特征,科學(xué)研判疫情態(tài)勢(shì),為制定有效的防控策略提供參考依據(jù),這對(duì)降低疾病的發(fā)病率及危害性,減輕疾病對(duì)人群健康的影響具有重要意義。近年來(lái),人工神經(jīng)網(wǎng)絡(luò)在輔助決策、人工智能領(lǐng)域取得了廣泛成功,BPNN神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)模型作為神經(jīng)網(wǎng)絡(luò)模型中最經(jīng)典的模型,也逐步被應(yīng)用于疾病的預(yù)測(cè)中[5-6]。然而關(guān)于兩種模型的預(yù)測(cè)效果比較仍鮮有報(bào)道。本文以荊州市2005年1月—2018年5月乙類(lèi)傳染病逐月發(fā)病數(shù)為例,分別建立SARIMA模型和BPNN神經(jīng)網(wǎng)絡(luò)模型,并比較其擬合及預(yù)測(cè)效果,探索疾病預(yù)測(cè)的最優(yōu)模型,為疾病的精準(zhǔn)防控提供科學(xué)依據(jù)。
本研究對(duì)荊州市2005年1月—2018年5月乙類(lèi)傳染病發(fā)病數(shù)進(jìn)行統(tǒng)計(jì)分析,乙類(lèi)傳染病發(fā)病數(shù)來(lái)源于“中國(guó)疾病預(yù)防控制信息系統(tǒng)”,按現(xiàn)住址、發(fā)病日期導(dǎo)出研究期間各月份發(fā)病數(shù),收集的病例類(lèi)型包括臨床診斷病例和確診病例。
運(yùn)用2005年1月-2017年12月荊州市乙類(lèi)傳染病逐月發(fā)病數(shù)資料分別構(gòu)建BPNN神經(jīng)網(wǎng)絡(luò)模型和SARIMA模型,分別預(yù)測(cè)2018年1—5月發(fā)病數(shù)并與實(shí)際值比較,探討兩種模型的擬合及預(yù)測(cè)效果。
1.2.2 SARIMA模型SARIMA模型的原理參考孫振球等人著作[10],SARIMA模型一般形式為SARIMA(p,d,q)(P,D,Q)s,其中p、q為自回歸和移動(dòng)平均階數(shù),d為一般差分次數(shù),P、Q為季節(jié)性自回歸和移動(dòng)平均階數(shù),D為季節(jié)性差分次數(shù),s為季節(jié)周期。SARIMA模型應(yīng)用前提條件是時(shí)間序列平穩(wěn),對(duì)于非平穩(wěn)序列采用差分(d)、季節(jié)差分(D)和對(duì)數(shù)變換等方法使序列平穩(wěn)。p、q依據(jù)自相關(guān)圖(autocorrelation function,ACF)和偏自相關(guān)圖(partial autocorrelation function,PACF)來(lái)確定,采用逐步后退法確定p、q值。P、Q值較難確定,但一般不超過(guò)2,采用湊試法選擇最優(yōu)模型。模型的診斷采用Box-Ljung統(tǒng)計(jì)量,若殘差無(wú)自相關(guān)性,提示殘差為白噪聲序列,可以采用該模型進(jìn)行預(yù)測(cè)。乙類(lèi)傳染病季節(jié)性一般以年為周期,s=12。
1.2.3 模型評(píng)價(jià)運(yùn)用平均相對(duì)誤差(mean absolute percent error,MAPE)、決定系數(shù)(R2)、均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE)4個(gè)指標(biāo)評(píng)價(jià)模型擬合及預(yù)測(cè)效果[8-10]。
運(yùn)用SPSS 20.0、Eviews 9.0分別構(gòu)建BPNN神經(jīng)網(wǎng)絡(luò)和SARIMA模型。檢驗(yàn)水準(zhǔn)α=0.05。
輸入層12個(gè)單元、輸出層1個(gè)單元,根據(jù)經(jīng)驗(yàn)公式,隱含層單元數(shù)介于4~14之間。訓(xùn)練集平均相對(duì)誤差和訓(xùn)練集均方根誤差隨著隱含層單元數(shù)的增加而減少;預(yù)測(cè)集平均相對(duì)誤差和預(yù)測(cè)集均方根誤差隨著隱含層單元數(shù)的變化而明顯變化。綜合考慮,選取隱含層單元數(shù)為10時(shí)的BPNN模型為最優(yōu)模型,其中訓(xùn)練集相對(duì)誤差為3.92%,預(yù)測(cè)集相對(duì)誤差為11.84%。見(jiàn)表1。
表1 不同隱含層單元數(shù)的神經(jīng)網(wǎng)絡(luò)擬合及預(yù)測(cè)結(jié)果
2005—2017年荊州市乙類(lèi)傳染病發(fā)病數(shù)所構(gòu)成的時(shí)間序列經(jīng)ADF檢驗(yàn),序列非平穩(wěn)(t=-1.29,P=0.63)。對(duì)原始序列經(jīng)一階差分、一步s=12的季節(jié)性差分,變換后的序列經(jīng)ADF檢驗(yàn),序列平穩(wěn)(t=-5.24,P<0.01),可以用于SARIMA建模,確定參數(shù)d=1,D=1。再觀(guān)察變換后序列的ACF圖和PACF圖,ACF圖中,延遲1階、12階和13階超過(guò)2倍標(biāo)準(zhǔn)差范圍,確定q可能取值包括1,12,13;PACF圖中,延遲1階、5階、11階和12階超過(guò)2倍標(biāo)準(zhǔn)差范圍,確定P可能取值包括1,5,11,12。見(jiàn)圖1。將所有參數(shù)納入模型ARIMA(p,d,q),確定模型參數(shù)p=0,q=12(t(MA)=-9.48,P=0.00),余參數(shù)均無(wú)統(tǒng)計(jì)學(xué)意義。而經(jīng)逐步實(shí)驗(yàn),9個(gè)模型中4個(gè)模型個(gè)參數(shù)均有統(tǒng)計(jì)學(xué)意義。見(jiàn)表2。模型ARIMA(0,1,(12))(1,1,1)12的各項(xiàng)評(píng)價(jià)指標(biāo)均最小,為最優(yōu)預(yù)測(cè)模型,再對(duì)該模型殘差進(jìn)行診斷,殘差在延遲16階內(nèi)無(wú)自相關(guān)性,可以認(rèn)為殘差序列為白噪聲序列,該模型可以用于短期預(yù)測(cè)。見(jiàn)表3、圖2。
表2 SARIMA[0,1,(12)](P,1,Q)12模型的備選模型的參數(shù)及檢驗(yàn)
表3 備選模型擬合效果比較
圖1 變換后序列的ACF圖及PACF圖
以構(gòu)建的BPNN模型、SARIMA[0,1,(12)](1,1,1)12模型預(yù)測(cè)荊州市2018年1-5月乙類(lèi)傳染病發(fā)病數(shù),并與實(shí)際值比較。見(jiàn)表4。BPNN模型的擬合和預(yù)測(cè)MAPE分別為3.92%、11.84%,SARIMA[0,1,(12)](1,1,1)12模型的擬合和預(yù)測(cè)MAPE分別為7.16%、21.96%。BPNN模型擬合及預(yù)測(cè)MAPE、RMSE、MAE均小于SARIMA[0,1,(12)](1,1,1)12模型對(duì)應(yīng)指標(biāo),BPNN模型R2均大于SARIMA[0,1,(12)](1,1,1)12,且BPNN模型擬合及預(yù)測(cè)曲線(xiàn)與實(shí)際值的曲線(xiàn)擬合效果更好。見(jiàn)圖2。
表4 兩種模型擬合及預(yù)測(cè)效果比較
圖2 兩種模型擬合、預(yù)測(cè)值與實(shí)際值比較
本研究以荊州市2005—2017年乙類(lèi)傳染病發(fā)病數(shù)為例,擬合BPNN神經(jīng)網(wǎng)絡(luò)模型和SARIMA模型并與實(shí)際值比較,評(píng)價(jià)兩種模型擬合、預(yù)測(cè)效果,結(jié)果顯示,BPNN模型擬合和預(yù)測(cè)效果均明顯優(yōu)于SARIMA模型,提示神經(jīng)網(wǎng)絡(luò)對(duì)疾病預(yù)測(cè)模型精度具有較大幅度提高,提示神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域有較大的應(yīng)用前景,值得廣大疾病監(jiān)測(cè)工作者進(jìn)一步深入研究,以探尋疾病精確預(yù)測(cè)、預(yù)警模型,這對(duì)疾病精準(zhǔn)防控具有十分重大的指導(dǎo)意義。BPNN神經(jīng)網(wǎng)絡(luò)模型優(yōu)于SARIMA模型,其主要原因可能是:①SARIMA模型為線(xiàn)性函數(shù)模型,基本原理為通過(guò)變換準(zhǔn)確找到函數(shù)的表達(dá)式,當(dāng)擬合數(shù)據(jù)表現(xiàn)不穩(wěn)定,擬合效果常不理想;而B(niǎo)PNN神經(jīng)網(wǎng)絡(luò)模型為一種非線(xiàn)性模型,即通過(guò)一系列的簡(jiǎn)單函數(shù)無(wú)限逼近實(shí)際值,學(xué)習(xí)效率顯著提高[11]。②影響傳染病流行的因素很多,因素的作用方式復(fù)雜,且乙類(lèi)傳染病包含疾病種類(lèi)繁多,使得2005-2017年荊州市乙類(lèi)傳染病發(fā)病數(shù)時(shí)間序列表現(xiàn)不穩(wěn)定,線(xiàn)性方程不能完全有效提取流行趨勢(shì)信息,導(dǎo)致模型擬合、預(yù)測(cè)效果不理想。
神經(jīng)網(wǎng)絡(luò)作為一種“黑箱”技術(shù),理論上可以通過(guò)單隱含層的若干單元無(wú)限逼近實(shí)際值[12];但同時(shí)訓(xùn)練過(guò)度常導(dǎo)致模型的泛化能力下降,表現(xiàn)為預(yù)測(cè)準(zhǔn)確度下降。本文建立的BPNN模型,隨著隱含層單元數(shù)增加,擬合相對(duì)誤差逐漸減小,預(yù)測(cè)相對(duì)誤差在隱含層單元數(shù)超過(guò)10個(gè)后,變化較大。為了防止BPNN神經(jīng)網(wǎng)絡(luò)出現(xiàn)訓(xùn)練過(guò)度,選擇隱含層包含10個(gè)單元的模型進(jìn)行擬合,最終建立的BPNN模型擬合及預(yù)測(cè)的相對(duì)誤差分別為3.92%、11.84%,擬合及預(yù)測(cè)效果較好[13]。提示在構(gòu)建BPNN神經(jīng)網(wǎng)絡(luò)模型時(shí)為防止訓(xùn)練過(guò)度,應(yīng)采用逐步試探的方法選擇合適的單元數(shù),以同時(shí)達(dá)到模型擬合和預(yù)測(cè)的精度要求。另外SARIMA模型一般要求數(shù)據(jù)量不少于50個(gè)[14],這也限制了SARIMA的應(yīng)用。BPNN神經(jīng)網(wǎng)絡(luò)模型則對(duì)用于擬合的數(shù)據(jù)量無(wú)要求,任何數(shù)量的擬合數(shù)據(jù)均可用于建模。
綜上所述,BPNN神經(jīng)網(wǎng)絡(luò)模型的擬合及預(yù)測(cè)效果優(yōu)于SARIMA模型,且具有對(duì)數(shù)據(jù)量要求低的特點(diǎn),但BPNN神經(jīng)網(wǎng)絡(luò)模型也存在一定的局限性。首先,由于隨機(jī)誤差的影響,僅采用MAPE等4種評(píng)價(jià)指標(biāo)評(píng)價(jià)模型擬合及預(yù)測(cè)效果可能較為片面,下一步將考慮納入更多指標(biāo)進(jìn)行評(píng)價(jià);其次,隱含層單元數(shù)的選擇缺乏科學(xué)客觀(guān)標(biāo)準(zhǔn);再次,神經(jīng)網(wǎng)絡(luò)模型的可解釋性很差。另外,模型具有不可重復(fù)性,因此,對(duì)于神經(jīng)網(wǎng)絡(luò)的理論研究還有待進(jìn)一步開(kāi)展[15]。但不可否認(rèn),BPNN神經(jīng)網(wǎng)絡(luò)的強(qiáng)大的擬合能力較傳統(tǒng)線(xiàn)性模型有了質(zhì)的飛越,值得進(jìn)一步研究其在疾病監(jiān)測(cè)領(lǐng)域更為廣泛的應(yīng)用。
中國(guó)社會(huì)醫(yī)學(xué)雜志2021年1期