華北理工大學公共衛(wèi)生學院(063000) 王永斌 李向文 柴 峰 袁聚祥 尹素鳳 武建輝
變權(quán)組合模型在我國手足口病發(fā)病率預測中的應用*
華北理工大學公共衛(wèi)生學院(063000) 王永斌 李向文 柴 峰 袁聚祥△尹素鳳 武建輝
目的探討變權(quán)組合模型在我國手足口病月發(fā)病率預測中的應用,并與ARIMA模型和殘差自回歸模型的預測效果進行比較。方法收集2008年1月至2014年12月我國手足口病月發(fā)病率資料,用SPSS13.0和Eviews8.0擬合三種模型,并用2014年7-12月的數(shù)據(jù)比較三種模型的擬合和預測效果。結(jié)果ARIMA模型、殘差自回歸模型和變權(quán)組合模型擬合及預測的 MRD,MSE,RMSE和 MAE分別為 14.006,4.689,2.165,0.147和 13.565,4.416,2.101,0.133;16.793,7.247,2.692,0.171和 16.206,6.639,2.577,0.164;8.447,1.843,1.358,0.092和 8.409,1.833,1.354,0.082。結(jié)論變權(quán)組合模型擬合及預測效果優(yōu)于ARIMA模型和殘差自回歸模型。
ARIMA模型 殘差自回歸模型 組合模型 手足口病 發(fā)病率 預測
手足口?。╤and-foot-mouth disease,HFMD)是由多種人腸道病毒引起的一種兒童常見傳染病,2008年衛(wèi)生部列為丙類傳染病,其常出現(xiàn)暴發(fā)或流行[1]。因此了解其流行規(guī)律及流行趨勢,對于探索手足口病的病因線索和疾病預防策略及措施的制定具有至關(guān)重要的作用。由于手足口病發(fā)病常具有季節(jié)性特點,采用季節(jié)性自回歸滑動平均混合模型(ARIMA)預測手足口病的發(fā)病是目前最常用的方法之一,但尚未見到基于ARIMA模型和殘差自回歸模型的變權(quán)組合模型在手足口病發(fā)病率預測中的應用。因此,本研究采用變權(quán)組合模型對我國2008年1月-2014年12月手足口病月發(fā)病率建立預測模型,對比其與ARIMA模型和殘差自回歸模型對手足口病月發(fā)病率預測的準確性,以探討其在手足口病預測預警方面的可行性,從而為完善我國手足口病的監(jiān)測和防制工作提供參考依據(jù)。
資料來源于中國疾病預防控制中心傳染病直報系統(tǒng),人口資料來源于中國衛(wèi)生統(tǒng)計局。具體計算的發(fā)病率見表1。
(1)ARIMA模型預測分為3個階段:識別、估計和診斷、預測應用。通過這3個處理步驟的反復進行,最終確定一個用于預報或控制的最優(yōu)模型。(2)識別:利用相關(guān)的分析來確定序列的平穩(wěn)性、隨機性和季節(jié)性,并選定特定的模型來分析序列數(shù)據(jù)。(3)參數(shù)的估計和診斷:依據(jù)赤池信息準則(AIC)和Schwarz貝葉斯準則(SBC)確定模型階數(shù),建立ARIMA預測模型。在不斷改變模型的階數(shù)后,AIC與SBC值最小的模型為最佳模型。模型的診斷就是殘差序列應是白噪聲過程,并且參數(shù)均具有統(tǒng)計學意義。其自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)(PACF)不應與0有顯著的差異,且Box-LjungQ統(tǒng)計量應無統(tǒng)計學意義。模型公式如下:φ(B)Ф(Bs)▽d▽SDXt=θ(B)Θ(Bs)εt;E(εt)=0,var(εt)=σ2,E(εtεs)=0,s≠t E(xtεt)=0,∨s<t。公式中,B為后移算子,εt為殘差,d和 D分別為非季節(jié)和季節(jié)差分次數(shù),p和q分別為自回歸和滑動平均階數(shù),P和Q分別為季節(jié)自回歸和滑動平均階數(shù);▽d=(1-B)d;▽DS=(1-B)SD;φ(B)=1-φ1B-…φpBp;θ(B)=1-θ1B-…θqBq;Ф(Bs)=1-Ф1Bs-…ФPBPs;Θ(Bs)=1-Θ1Bs-…ΘQBQs。
表1 2008年1月-2014年12月我國手足口病發(fā)病率(1/10萬)
殘差自回歸模型的結(jié)構(gòu)為:Xt=Tt+St+εt。其中,Tt為趨勢效應擬合,St為季節(jié)效應擬合,εt為殘差序列。常采用以自變量為歷史觀測值和以自變量為時間t的冪函數(shù)來擬合趨勢效應。本研究中最終選用冪函數(shù)擬合趨勢效應。對于季節(jié)效應的擬合常采用給定季節(jié)指數(shù)和對季節(jié)建立自回歸模型的方法。本研究最終選用季節(jié)指數(shù)法,其步驟為:①用移動平均法消除季節(jié)性變動和不規(guī)則變動,得到循環(huán)性變動和長期趨勢序列值;②利用序列的實際值除以相應的循環(huán)性變動和長期趨勢序列值,然后用月平均法消除不規(guī)則變動,得到季節(jié)指數(shù)S',若各季節(jié)指數(shù)的平均數(shù)不等于1時,需對季節(jié)指數(shù)進行修正處理,得到S=(12/實際季節(jié)指數(shù)之和)×S′。
對殘差序列采用DW法進行自相關(guān)性檢驗,DW值一般在2左右不存在自相關(guān),那么不需要對殘差提取二次信息;否則,應該對殘差序列再次擬合,以提高模型擬合的精度。殘差序列的自回歸模型表達式為εt=φ1εt-1+φ2εt-2+…+φpεt-p+at,并對殘差序列的自回歸模型進行檢驗和診斷。模型的殘差序列應是白噪聲過程,并且參數(shù)均應具有統(tǒng)計學意義。
以ARIMA模型和殘差自回歸模型的擬合值與實際值的誤差平方和為依據(jù),對單個預測模型的預測值賦予不同的權(quán)系數(shù),用權(quán)系數(shù)乘以單個模型的預測值,然后相加即可得到變權(quán)組合模型的預測值;本研究中采用倒方差法確定權(quán)重,該方法是對誤差平方和小的模型賦予大的權(quán)重,反之則賦予小的權(quán)重。計算如下:
對一時間序列有J種預測方法,x(t)為t時刻的實際值,^x(jt)為第j個模型在t時刻的預測值,各個模型權(quán)重的計算公式如下:
式中的Dj為第j個預測模型在t時刻的誤差平方和
基于2008年1月-2014年6月手足口病月發(fā)病率建立相關(guān)模型,用2014年7-12月數(shù)據(jù)進行外回代驗證模型的外推預測效果,評價指標包括相對誤差(RD),平均相對誤差(MRD),均方誤差(MSE),均方根誤差(RMSE)和平均絕對誤差(MAE)[6]。
運用 Excel2007建立數(shù)據(jù)庫,用 SPSS13.0和Eviews8.0進行有關(guān)數(shù)據(jù)分析,檢驗水準α=0.05。
利用Eviews8.0進行單位根檢驗,單位根統(tǒng)計量ADF=-1.494952,P=0.5306>0.05,提示我國手足口病發(fā)病率序列為非平穩(wěn)序列。所以首先進行對數(shù)轉(zhuǎn)換和D=1的季節(jié)差分。再結(jié)合經(jīng)過對數(shù)轉(zhuǎn)換和季節(jié)差分的ACF和PACF圖,殘差情況,以及系數(shù)之間的相關(guān)性選取AIC和SBC最小,對數(shù)似然函數(shù)值最大,且模型各參數(shù)均有統(tǒng)計學意義的模型為最優(yōu)模型,通過比較,結(jié)合模型簡潔的原則得到最優(yōu)的模型是ARIMA(2,1,1)×(0,1,1)12,具體方程為(1-B)(1-B12)X t=(1-0.637B)(1-0.448B12)εt/(1-0.891B+0.501B2),其殘差的ACF和PACF見圖1,非季節(jié)性自回歸系數(shù) AR1=0.891(t=6.060,P<0.001),AR2=-0.501(t=-4.626,P<0.001),非季節(jié)性滑動平均系數(shù) MA1=0.637(t=3.652,P=0.001),季節(jié)性滑動平均系數(shù) SMA1=0.448(t=3.492,P=0.001),AIC=64.078,SBC=75.391,對數(shù)似然函數(shù)值為 -27.039。并且殘差序列Box-LjungQ統(tǒng)計結(jié)果顯示統(tǒng)計量差異均無統(tǒng)計學意義(P>0.05),說明殘差序列是白噪聲。此模型的預測結(jié)果見表2。
表2 2014年7-12月手足口病月發(fā)病率(1/10萬)三種模型的預測外回代驗證值
對原始數(shù)據(jù)分解出時間序列中的季節(jié)指數(shù)見表3。趨勢效應的最佳擬合方程為Tt=0.278×t0.967(t為序列號,R2=0.806)。此即為確定性模型,對該模型的擬合效果進行DW檢驗,DW=0.675,查DW檢驗臨界值表,dL=1.598,dU=1.652,根據(jù) DW→2時,DW<dL時,序列顯著正相關(guān)。提示殘差序列高度正相關(guān)。因此,需要對殘差序列進行自回歸擬合。首先通過自相關(guān)圖和偏自相關(guān)圖(圖1)確定自回歸模型的階數(shù),殘差的自相關(guān)圖顯示出典型的短期相關(guān)性,偏自相關(guān)圖顯示出典型的2階截尾,所以對殘差序列擬合AR(2)模型,非季節(jié)性自回歸系數(shù) AR1=0.810(t=7.452,P<0.001),AR2=-0.239(t=-2.200,P=0.031),具體表達式為 εt=0.810εt-1-0.239εt-2+at,對{at}殘差序列采用DW法進行自相關(guān)性檢驗,DW=1.958,非常接近2,所以{at}殘差序列不存在自相關(guān)性了,并且殘差序列Box-LjungQ統(tǒng)計結(jié)果顯示統(tǒng)計量差異均無統(tǒng)計學意義(P>0.05),說明殘差序列是白噪聲。最終的殘差自回歸模型為:
表3 手足口病發(fā)病率季節(jié)指數(shù)
圖1 殘差序列的ACF和PACF圖
計算出趨勢效應方程和對殘差建立的自回歸方程的預測值,用預測值乘以相應的季節(jié)指數(shù),得到最終的預測結(jié)果見表2。
根據(jù)公式計算的2014年7-12月ARIMA模型和殘差自回歸模型的誤差平方和及權(quán)重見表4。變權(quán)組合模型的預測結(jié)果見表1。
表4 2014年7-12月ARIMA和殘差自回歸模型的誤差平方和及權(quán)重
由表5可知變權(quán)組合模型擬合和預測性能均優(yōu)于ARIMA模型和殘差自回歸模型。從圖2可以看出變權(quán)組合模型擬合的曲線與實際值的曲線最接近。
近年來預測的理論和應用得到了迅速的發(fā)展,并日趨完善。在醫(yī)學和公共衛(wèi)生領(lǐng)域,多種統(tǒng)計預測方法已被廣泛應用于人口預測,疾病發(fā)病率,醫(yī)院門診量,藥品需求的預測等領(lǐng)域中[7]。因此,如能找到合適的模型對傳染病的發(fā)病率進行預測,將有助于衛(wèi)生資源的合理配置,實現(xiàn)利益最大化,具有非常重要的現(xiàn)實意義[8]。由于傳染病發(fā)病率數(shù)據(jù)一般均存在長期性變化、周期性變化和隨機干擾。ARIMA模型預測時綜合考慮了時間序列的各種影響因素(包括未知因素),從而提高了非平穩(wěn)時間序列短期預測的擬合精 度[5],已經(jīng)被廣泛應用于傳染病發(fā)病率預測中。
表5 三種模型對手足口病月發(fā)病率的擬合及預測效果比較
圖2 三種模型對手足口病發(fā)病率擬合預測對比圖
但ARIMA模型無法直觀解釋時間序列的動態(tài)特征及發(fā)展趨勢。而其建模過程比較簡單,適宜作為短期預測模型。殘差自回歸模型對具有顯著的確定性趨勢或季節(jié)趨勢的時間序列數(shù)據(jù),不但可以利用確定性分解法對序列的各種確定性效應進行解釋,還可以對殘差信息加以利用,所以兼有確定性因素分解法和ARIMA模型的優(yōu)點[4]。而目前采用殘差自回歸模型預測手足口病的效果并不理想,因此為了探討變權(quán)組合模型在預測手足口病發(fā)病率方面的可行性。本研究嘗試將ARIMA模型和殘差自回歸使用變權(quán)的方式進行組合后預測手足口病發(fā)病序列,并與單一模型的預測效果進行比較。研究結(jié)果表明變權(quán)組合模型較好的擬合了手足口病的變化規(guī)律,顯示了較高的預測精度,可以較好的在數(shù)理層面對手足口病發(fā)病率進行預測。相關(guān)報道[2,9]指出擬合及預測的MRD≤5%時為理想狀態(tài),但本研究中變權(quán)組合模型擬合及預測的MRD稍大,分別為8.447和8.409。因此,在預測手足口病發(fā)病率方面,更優(yōu)的預測模型仍須進一步研究和驗證。
本研究中盡管ARIMA模型和殘差自回歸模型擬合及預測精度低于變權(quán)組合模型,但模型擬合及預測的 MRD<20%時為合格模型[2,9],可以用于預測。就單一ARIMA模型和殘差自回歸模型擬合及預測的MRD來看,其仍然可以用于預測我國手足口病發(fā)病率。但值得注意的是:使用殘差自回歸模型對時間序列進行預測時,序列的樣本點一般不能少于30個,當序列長度達不到要求時,只能使用確定性時間序列分析。
綜上所述,盡管變權(quán)組合模型對我國手足口病發(fā)病率預測存在一定誤差,但仍可對手足口病發(fā)病率進行早期預測、預警,為手足口病防控工作提供參考依據(jù),從而減少或者消除決策的盲目性[7]。但需注意的是,在實際工作中,對季節(jié)性時間序列進行分析時,在滿足模型使用條件的情況下,應將多種單一模型組合進行預測,選取擬合及預測誤差都較小的組合模型對序列進行分析,并應不斷收集新的時間序列數(shù)據(jù),對已建立的模型進行驗證。
[1]Zhang W,Huang B,She C,et al.An epidem ic analysis of hand,foot,and mouth disease in Zunyi,China between 2012 and 2014.Saudi Med J,2015,36(5):593-598.
[2]王永斌,鄭瑤,柴峰,等.基于周期分解的ARIMA模型在甲肝發(fā)病率預測中的應用.現(xiàn)代預防醫(yī)學,2015,42(23):4225-4229.
[3]Tarassenko L,Villarroel M,Guazzi A,et al.Non-contact video-based vital sign monitoring using ambient light and auto-regressive models.Physiol Meas,2014,35(5):807-831.
[4]王燕主編.應用時間序列分析.第2版.北京:中國人民大學出版社,2005:87-172.
[5]毛瑛,井朋朋,吳靜嫻,等.我國衛(wèi)生人力資源的組合預測模型構(gòu)建及應用.中國衛(wèi)生經(jīng)濟,2015,34(5):21-24.
[6]戴鈺.最優(yōu)組合預測模型的構(gòu)建及其應用研究.經(jīng)濟數(shù)學,2010,27(1):92-98.
[7]劉桂芬主編.醫(yī)學統(tǒng)計學.第2版.北京:中國協(xié)和醫(yī)科大學出版社,2009:346-365.
[8]張國良,后永春,舒文.三種模型在肺結(jié)核發(fā)病預測中的應用.中國衛(wèi)生統(tǒng)計,2013,30(4):480-483.
[9]Liu L,Luan RS,Yin F,et al.Predicting the incidence of hand,foot and mouth disease in Sichuan province,China using the ARIMA model.Epidemiol Infect,2015,12(3):1-8.
Application of the Weight Changeable Combination Model in Prediction on Incidence of HFMD in China
Wang Yongbin,Li Xiangwen,Chai Feng,et al.(School of Public Health,North China University of Science and Technology(063000),Tangshan)
ObjectiveTo explore the application of ARIMA model and auto-regressive model and weight changeable model in prediction on incidence of HFMD in China and compare the predictive effect among them.MethodsThe data of monthly incidence of HFMD from January 2008 to December 2014 in China was collected and Spss13.0 and Eviews 8.0 were used to fit three models.Afterwards,the data from July to December in 2014 was used to evaluate the predictive effect.ResultsThe MRD,MSE,RMSE and MAE fitted and predicted by ARIMA model and Auto-Regressive model and weight changeable model were 4.006,4.689,2.165,0.147 and 13.565,4.416,2.101,0.133;16.793,7.247,2.692,0.171 and 16.206,6.639,2.577,0.164;8.447,1.843,1.358,0.092 and 8.409,1.833,1.354,0.082,respectively.Conclusions According to the model fitness and prediction accuracy,the weight changeable model is superior to the ARIMA model and Auto-Regressive model with a good practical value.
ARIMA model;Auto-regressive model;Combination model;HFMD;Incidence;Prediction
河北省衛(wèi)生廳醫(yī)學科學研究重點課題計劃(20130055)
△通信作者:袁聚祥,E-mail:yuanjx@heuu.edu.cn
(責任編輯:劉 壯)