嚴 婧,杜玉開,楊北方
1)江漢大學醫(yī)學院護理學系 武漢 430056 2)華中科技大學同濟醫(yī)學院公共衛(wèi)生學院兒少衛(wèi)生與婦幼保健學系 武漢 430030 3)湖北省疾病預防控制中心傳染病防治所 武漢 430079
自回歸求和移動平均模型在湖北省戊型病毒性肝炎發(fā)病率預測中的應用
嚴 婧1,2),杜玉開2),楊北方3)#
1)江漢大學醫(yī)學院護理學系 武漢 430056 2)華中科技大學同濟醫(yī)學院公共衛(wèi)生學院兒少衛(wèi)生與婦幼保健學系 武漢 430030 3)湖北省疾病預防控制中心傳染病防治所 武漢 430079
#通信作者,男,1979年2月生,博士,副主任醫(yī)師,研究方向:疫苗針對疾病的預防和控制,E-mail:308041407@qq.com
戊型病毒性肝炎;自回歸求和移動平均模型;發(fā)病率;預測;湖北省
目的:應用自回歸求和移動平均模型(ARIMA模型)對湖北省戊型病毒性肝炎疫情報告數(shù)據(jù)進行分析、預測,為戊型病毒性肝炎的監(jiān)測、預警提供理論依據(jù)。方法:采用SAS 9.2對2004年1月至2015年12月湖北省戊型病毒性肝炎的報告疫情數(shù)據(jù)進行ARIMA 模型的參數(shù)估計、擬合檢驗,預測2016年1月至12月戊型病毒性肝炎的月發(fā)病數(shù),并用實際數(shù)據(jù)驗證評估預測效果。結(jié)果:ARIMA(1,1,1)×(0,1,1)12模型擬合誤差RMSE為0.045,2016年1月至12月戊型病毒性肝炎預測值平均相對誤差為14.23%,能較好地擬合原始序列數(shù)據(jù),預測精度較高。結(jié)論:ARIMA模型對湖北省戊型病毒性肝炎報告發(fā)病率短期預測精度良好,具有實際應用價值。
隨著傳染病預警系統(tǒng)的日漸完善,電子計算機技術(shù)的發(fā)展,多個領(lǐng)域的相互合作,各種數(shù)學預測模型越來越廣泛地應用于傳染病的預測,并得到國內(nèi)外學者的一致認可[1-3]。有研究[4]在對12種不同的預測方法進行比較后提出自回歸求和移動平均模型(autoregressive integrated moving average model,ARIMA模型)是最好的預測模型之一。ARIMA模型預測方法作為一種重要的時間序列分析方法被廣泛地應用于各領(lǐng)域,近年來國內(nèi)外學者[5-8]利用疫情監(jiān)測資料構(gòu)建ARIMA模型預測傳染病的發(fā)病趨勢,并取得了較好的預測效果,但尚無利用該模型對湖北省戊型病毒性肝炎發(fā)病趨勢開展預測的文獻報道。有鑒于此,該研究利用2004至2016年湖北省戊型病毒性肝炎的報告發(fā)病資料,采用ARIMA乘積季節(jié)模型對戊型病毒性肝炎的發(fā)病趨勢進行了預測,以期為今后湖北省戊型病毒性肝炎的防控工作提供科學依據(jù)。
1.1 資料來源 數(shù)據(jù)資料來源于中國疾病預防控制信息系統(tǒng),為2004年1月至2016年12月湖北省17個地(市、州)的戊型病毒性型肝炎報告發(fā)病個案資料。
1.2 ARIMA模型
1.2.1 基本原理 ARIMA方法以時間序列的自相關(guān)分析為基礎(chǔ),分析時間序列本身以及不同滯后期的自相關(guān)、偏自相關(guān)系數(shù),即自相關(guān)函數(shù)(auto correlation function,ACF)和偏自相關(guān)函數(shù)(partial auto correlation function,PACF),用于發(fā)現(xiàn)時間序列的特征。根據(jù)序列的不同特征以及選擇參數(shù)的不同,該模型可分為:ARIMA(p,d,q)×(P,D,Q)s,ARIMA(p,d,q),ARIMA(p,q),AR(p)和MA(q)。根據(jù)序列是否與季節(jié)有關(guān)又可分為:季節(jié)模型ARIMA(P,D,Q)、非季節(jié)模型ARIMA(p,d,q)以及季節(jié)乘積模型ARIMA(p,d,q)×(P,D,Q)s。p,d,q以及P,D,Q分別表示非季節(jié)模型和季節(jié)模型中的自回歸的階、差分(季節(jié)差分)次數(shù)、滑動平均的階。模型中參數(shù)的確定與自相關(guān)函數(shù)、偏自相關(guān)函數(shù)密切相關(guān),ACF、PACF是判別序列適合于哪種模型建模的重要參考指標[9]。
1.2.2 建模過程[10-11]
①平穩(wěn)性檢驗:平穩(wěn)性檢驗是為了使序列減少隨機變量的個數(shù),增加待變量的樣本容量,即簡化時序分析的難度,提高對均值函數(shù)的估計精度。首先要對時間序列進行正態(tài)性檢驗,若不服從正態(tài)分布,要進行轉(zhuǎn)化,一般包括自然對數(shù)轉(zhuǎn)換和平方根轉(zhuǎn)換,使轉(zhuǎn)換后的數(shù)據(jù)服從正態(tài)分布,然后采用自相關(guān)分析、偏自相關(guān)分析及單位根檢驗(ADF檢驗)等方法來對時間序列的隨機性、平穩(wěn)性及季節(jié)性進行分析,而ADF檢驗為平穩(wěn)性統(tǒng)計檢驗的最常用方法。如果序列為非平穩(wěn)序列,必須采取相應的措施進行處理,如對數(shù)轉(zhuǎn)換、差分運算使序列平穩(wěn)化。
②模型識別:模型的識別過程即為序列定階的過程,是ARIMA分析中關(guān)鍵的一步,其中基于樣本ACF和PACF的性質(zhì)的估計來對自回歸階數(shù)(p)和移動平均階數(shù)(q)進行定階。
③參數(shù)估計:根據(jù)以上各個參數(shù)的幾何意義給出p、d、q、P、D、Q 的初始值后,ARIMA程序能夠估計模型的參數(shù),這里常常采用迭代計算法,以確定最大似然系數(shù),并獲得擬合值、預測值、誤差(殘差)以及可信區(qū)間。
④模型檢驗:殘差序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)不應與0有顯著的差異,殘差應隨機,即白噪聲。在各階延遲下LB統(tǒng)計量的P值均>0.05,反映此擬合模型顯著有效。
⑤模型的比較:用于比較各模型間擬合優(yōu)度的統(tǒng)計指標包括確定系數(shù)(R2)、赤池信息準則(AIC)、貝葉斯信息準則(BIC)和殘差平方和(RSS)。AIC適合自回歸模型,而BIC是更為通用的標準,在判斷模型優(yōu)劣時,可將兩者結(jié)合使用。
1.3 統(tǒng)計分析方法 該研究利用Excel 2007對湖北省戊型病毒性肝炎情資料進行整理,將2004年1月至2015年12月的戊型病毒性肝炎的發(fā)病數(shù)據(jù)作為建模部分,2016年1月至12月的發(fā)病數(shù)據(jù)作為模型驗證部分,采用SAS 9.2對湖北省戊型病毒性肝炎不同年份發(fā)病率進行趨勢χ2檢驗,建立ARIMA 模型,進行模型的參數(shù)估計、擬合檢驗和預測。
2.1 2004至2016年湖北省戊型病毒性肝炎報告發(fā)病率的流行趨勢 見圖1。由圖1可知,湖北省戊型病毒性肝炎報告發(fā)病率有明顯的周期性以及趨勢性,整體呈現(xiàn)上升的趨勢,上升幅度較小,3~5月份發(fā)病率相對較高。
圖1 2004至2016年湖北省戊型病毒性肝炎發(fā)病率的流行趨勢
2.2 ARIMA模型的建立與預測
2.2.1 平穩(wěn)性檢驗 通過觀察原始時間序列圖可以初步判斷序列具有季節(jié)性,結(jié)合原始序列的ACF圖(圖2)可見,在時點12和24處都有一個局部的極大值,在這些時點處的序列值緩慢降低,這提示需進行季節(jié)差分來獲得穩(wěn)定的均值。
將原始序列進行一次差分和一次季節(jié)差分后(圖3),數(shù)據(jù)的線性趨勢消失;同時對差分后的數(shù)據(jù)進行ADF檢驗,P<0.001,提示數(shù)據(jù)平穩(wěn)。
圖2 原始序列的ACF圖
圖3 原始序列經(jīng)一次差分及一次季節(jié)差分轉(zhuǎn)換后的序列圖
2.2.2 ARIMA模型的識別 觀察原始序列經(jīng)一次差分和一次季節(jié)差分后的ACF和PACF(圖4),拖尾、截尾現(xiàn)象不明顯,初步確定模型為復合季節(jié)模型ARIMA(p,1,q)(P,1,Q)12。
圖4 原始序列經(jīng)一次差分和一次季節(jié)差分后的ACF(左)和PACF(右)圖
模型中p、P和q、Q四個參數(shù)采取從低階到高階逐個進行嘗試以檢驗各個模型的擬合優(yōu)度,并進行比較。選取其中擬合效果最好的幾個模型,比較各個模型的擬合參數(shù),初步選出擬合效果最好的ARIMA模型,如表1所示,ARIMA (1,1,1)×(0,1,1)12模型為最優(yōu)模型。
表1 各個模型的擬合優(yōu)度統(tǒng)計量
2.2.3 ARIMA模型的參數(shù)估計 對ARIMA (1,1,1)×(0,1,1)12模型進行參數(shù)估計,結(jié)果見表2,P<0.001,可見模型的各個參數(shù)均具有統(tǒng)計學意義。
表2 ARIMA (1,1,1)×(0,1,1)12 模型參數(shù)估計結(jié)果
2.2.4 模型檢驗 對該模型的殘差序列進行白噪聲檢驗,結(jié)果顯示延遲6階,延遲12階,延遲18 階,延遲 24 階的LB檢驗統(tǒng)計量的P值均>0.05,說明殘差為白噪聲序列;殘差序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)如圖5所示,ACF、PACF值均在置信區(qū)間內(nèi),提示序列為純隨機序列,說明ARIMA(1,1,1)×(0,1,1)12模型的擬合有效,初步確定其模型表達式為:(1-0.507B12)(1-B)(1-B12)Yt=(1-0.944B)(1-0.904B12)et。
圖5 ARIMA (1,1,1)×(0,1,1)12模型殘差序列的ACF(左)和PACF(右)圖
2.2.5 模型預測 利用模型ARIMA (1,1,1)×(0,1,1)12預測湖北省2016年1月至12月的戊肝月發(fā)病率(1/10萬),預測結(jié)果如圖6和表3所示,可見戊肝實際發(fā)病率都在ARIMA模型預測值的95%的置信區(qū)間內(nèi)。經(jīng)Ljung-Box檢驗[Q(15)=13.199,P=0.587],表明殘差已無滯后相關(guān)性,為白噪聲序列。
圖6 ARIMA模型對2016年1~12月湖北省戊肝月發(fā)病率的預測情況
表3 ARIMA模型對2016年1~12月湖北省戊肝月發(fā)病率的預測值
發(fā)病率表示在一定期間內(nèi),一定人群中某病新發(fā)生的病例出現(xiàn)的頻率[12]。發(fā)病率直接測定發(fā)病風險,是分析病因的重要依據(jù),反映了疾病對人群健康的影響,同時可以用于評價防治措施的效果。對發(fā)病率進行預測是傳染病控制工作的重要環(huán)節(jié),科學的預測是正確決策的首要前提和條件,如果能夠?qū)魅静∥磥淼牧餍汹厔?、變化?guī)律及相關(guān)影響因素進行合理的預測,可及時發(fā)現(xiàn)疾病的暴發(fā)和流行,有的放矢地采取防控措施,對于傳染病的預防和控制具有重要的意義[13]。此外,發(fā)病率預測具有十分重要的預警價值,若實際發(fā)病率在預測值的95%的置信區(qū)間內(nèi)波動,即表明當月病毒性肝炎的疫情正常,否則就需要警惕病毒性肝炎的流行或暴發(fā),可及時采取相關(guān)措施。
ARIMA模型是一種基于時間序列分析、預測和控制的定量預測方法,其根據(jù)對時間序列資料進行統(tǒng)計處理,找出系統(tǒng)內(nèi)在統(tǒng)計特性及發(fā)展規(guī)律性,并將其進行外延,對未來進行預測[11]。它以時間綜合代替各種影響因素,根據(jù)以往數(shù)據(jù)的特點建立模型,可消除時間序列的隨機波動,擬合確定型趨勢,其短期預測精度較高[5-6]。該研究利用2004年1月至2016年12月湖北省戊肝月報告發(fā)病率資料,采用ARIMA模型對戊肝的發(fā)病趨勢預測,既能明確湖北省戊肝防控現(xiàn)狀,又為下一步防控措施的制定提供科學依據(jù)。預測結(jié)果顯示:ARIMA (1,1,1)×(0,1,1)12模型擬合誤差RMSE=0.045,2016年1~12月預測值平均相對誤差為14.23%,發(fā)病率預測結(jié)果的平均相對誤差均在10%左右,能較好地擬合原始序列數(shù)據(jù),預測精度較高。胡建利等[14]也曾構(gòu)建ARIMA模型預測江蘇省戊肝的月發(fā)病數(shù),其結(jié)果也顯示預測效果較好。
湖北省2004年至2016年戊型病毒性肝炎報告發(fā)病率呈上升的趨勢,與福建省的報道基本一致[15]。戊肝報告發(fā)病率的逐年升高趨勢,可能與人口流動日益頻繁和農(nóng)村衛(wèi)生條件差使感染機會增多有關(guān),應引起重視,進一步加強飲水衛(wèi)生和食品安全的監(jiān)管。鑒于ARIMA模型對戊肝報告發(fā)病率短期預測精度較高,具有一定實際應用價值,可作為戊肝防控工作中的輔助工具,監(jiān)測戊肝疫情,為相關(guān)部門的衛(wèi)生決策提供科學依據(jù),同時還可將戊肝預測值95%CI作為戊肝暴發(fā)的閾值,為預警提供依據(jù)。該研究采用時間序列模型對戊型病毒性肝炎進行預測,能較好地分析傳染病的周期性及季節(jié)性變化的規(guī)律,但只能分析線性資料,僅考慮時間這一影響因素,沒有考慮到其他變量對發(fā)病率的影響,預測結(jié)果很大程度上受疫情報告資料質(zhì)量的影響。此外,預測模型是建立在歷史數(shù)據(jù)的基礎(chǔ)上,建模前提是數(shù)據(jù)的外延,若外界影響因素突然變化,或是有新的變量引入,都會對模型的預測效果造成極大的影響,降低預測效能,因此需加強疫情監(jiān)測系統(tǒng)的數(shù)據(jù)質(zhì)量,提高網(wǎng)絡直報數(shù)據(jù)的及時性和準確性,將新的變量納入模型,使模型更具有代表性,提高預測精度。
[1]曲江文,聶紹發(fā).傳染病預測預警方法的研究進展[J].醫(yī)學與社會,2014,27(10):13
[2]林玫,李永紅,董柏青.傳染病預測預警方法在我國的應用現(xiàn)狀[J].中國熱帶醫(yī)學,2010,10(3):308
[3]JIA ZW,CHENG SM,JIA XW.A mathematical model for evaluating tuberculosis screening strategies[J].J Evid Based Med,2011,4(1):48
[4]武紅濤.ARIMA模型在醫(yī)院出院患者預測中的應用[J].解放軍醫(yī)院管理雜志,2009,16(1):21
[5]陳莉.探討ARIMA模型在細菌性痢疾發(fā)病預測中的應用[J].中國衛(wèi)生統(tǒng)計,2011,28(4):417
[6]朱奕奕,馮瑋,趙琦,等.ARIMA乘積季節(jié)模型在上海市甲肝發(fā)病預測中的應用[J].復旦學報(醫(yī)學版),2012,39(5):460
[7]萬燕麗,楊永利,施念,等.ARIMA模型在河南省 AIDS疫情預測中的應用[J].鄭州大學學報(醫(yī)學版),2015,50(2):160
[8]FIRMINO PR,DE MATTOS NETO PS,FERREIRA TA. Correcting and combining time series forecasters[J].Neural Netw,2014,50:1
[9]馮丹,韓曉娜,趙文娟,等.中國內(nèi)地法定報告?zhèn)魅静☆A測和監(jiān)測的ARIMA模型[J].疾病控制雜志,2007,11(2):140
[10]劉剛,唐宋,孫文杰.時間序列分析法在香港結(jié)核病預測中的應用[J].中國衛(wèi)生統(tǒng)計,2012,29(2):226
[11]于林鳳,吳靜,周鎖蘭,等.ARIMA季節(jié)模型在我國丙肝發(fā)病預測中的應用[J].鄭州大學學報(醫(yī)學版),2014(3):344
[12]李立明.流行病學[M].北京:人民衛(wèi)生出版社,2006.
[13]金連梅,楊維中.我國傳染病預警工作研究現(xiàn)況分析[J].中國公共衛(wèi)生,2008,24(7):845
[14]胡建利, 祖榮強, 彭志行,等.江蘇省戊型肝炎發(fā)病趨勢的時間序列模型應用[J]. 南京醫(yī)科大學學報(自然科學版),2011,31(12):1874
[15]歐劍鳴,謝忠杭,洪榮濤,等.福建省2004-2010年戊型病毒性肝炎流行特征分析[J].中華流行病學雜志,2012,33(4):445
(2016-11-23收稿 責任編輯趙秋民)
Application of auto regressive integrated moving average model in forecasting incidence of hepatitis E in Hubei Province
YANJing1,2),DUYukai2),YANGBeifang3)
1)DepartmentofNursing,SchoolofMedicine,JianghanUniversity,Wuhan430056 2)DepartmentofChildandWomanHealth,SchoolofPublicHealth,TongjiMedicalCollege,HuazhongUniversityofScienceandTechnology,Wuhan430030 3)InstituteofInfectiousDiseaseControlandPrevention,HubeiCenterforDiseaseControlandPrevention,Wuhan430079
hepatitis E;auto regressive integrated moving average model;incidence;prediction;Hubei Province
Aim: To apply auto regressive integrated moving average model(ARIMA) to predict hepatitis E(HEV) incidence in Hubei Province, and provide the theoretical basis for future prevention strategies. Methods: Based on the reported HEV monthly incidence from January 2004 to December 2015 in Hubei Province, ARIMA model was applied to forecast the HEV monthly incidence in January to December 2016 using SAS 9.2,and the forecasted results were verified by the actual data of 2016. Results: The best model was ARIMA (1,1,1)×(0,1,1)12, the RMSE of this model was 0.045, and the average relative error of prediction was 14.23% with high precision.Conclusion: The ARIMA model can be used to forecast the HEV monthly incidence with high precision in the short-term in Hubei Province.
10.13705/j.issn.1671-6825.2017.03.012
R512.6