紀安之
摘要:利用國家衛(wèi)生健康委公開的2020年1月24日24時至2020年3月29日24時新冠肺炎累計確診病例數(shù)據(jù),采用時間序列分析方法建立ARIMA模型進行擬合分析,并預(yù)測其未來走勢。用 SAS軟件編程,結(jié)果表明,原序列2階差分后為平穩(wěn)非白噪聲序列,ARIMA(0,2,1)模型可以較好地擬合原序列,并通過了模型的顯著性檢驗和參數(shù)的顯著性檢驗。未來5日的預(yù)測結(jié)果與實際數(shù)據(jù)吻合較好。
關(guān)鍵詞:新型冠狀病毒肺炎;時間序列;ARIMA;預(yù)測;SAS
Abstract: Using the data of 2019-nCoV pneumonia cumulative diagnosis from 24:00 on? January 24, 2020 to 24:00 on March 29, 2020, the ARIMA model was established by time series analysis to analyze the trend and predict the future trend. The results show that the original sequence is a stationary non white noise sequence after the second-order difference, ARIMA (0,2,1) model can fit the original sequence well and pass the significance test of the model and the significance test of the parameters. The predicted results in the next five days are in good agreement with the actual data.
Key words: 2019-nCoV;time series;ARIMA;prediction;SAS
1? 緒論
2019年12月,新型冠狀病毒肺炎在湖北省武漢市出現(xiàn),并迅速蔓延至武漢市以外地區(qū)[1]。2020年1月12日世界衛(wèi)生組織正式將造成武漢肺炎疫情的新型冠狀病毒命名為“2019新型冠狀病毒”(2019-nCoV)[2]。新型冠狀病毒肺炎屬于β屬冠狀病毒,人群普遍易感[3-4]。新冠肺炎疫情發(fā)生后,黨中央高度重視,及時部署了防控措施:延長春節(jié)假期、延遲開學(xué)、靈活復(fù)工、錯峰出行[5]。通過采取一系列防控措施,目前我國疫情防控形勢持續(xù)向好,多省實現(xiàn)“零增長”,武漢疫情快速上升的態(tài)勢也得到控制。
新型冠狀病毒肺炎疫情是我國自新中國成立以來傳播速度最快、感染范圍最廣、防控難度最大的一次重大突發(fā)公共衛(wèi)生事件。截止3月29日24時,全國累計報告確診81470例,累計治愈出院病例75770例,累計死亡病例3304例[6]。為進一步了解2019新型冠狀病毒疫情的變化情況并預(yù)測其未來走勢,現(xiàn)利用國家衛(wèi)生健康委每日公開累計確診病例數(shù)據(jù),采用時間序列分析方法對2019新型冠狀病毒病例數(shù)據(jù)進行分析。
2? 方法
2.1 數(shù)據(jù)來源
本次研究選取的樣本數(shù)據(jù)來源于國家衛(wèi)生健康委自2020年1月24日24時至2020年3月29日24時的公開累計確診病例數(shù)據(jù),如表 1所示。
2.2 ARIMA模型
美國Wisconsin大學(xué)的Box和Jenkins提出的時間序列(Time-series Approach)分析方法中,求和自回歸移動平均模型(Autoregressive Integrated Moving Average Model,簡稱ARIMA)是主要運用于分析非平穩(wěn)的、不具有季節(jié)性變化趨勢的時間序列[7]。ARIMA模型包括自回歸(Auto Regressive,AR)模型,移動平均(Moving Average,MA)模型,或自回歸移動平均模型(Auto Regressive? Moving Average,ARMA)模型[8]幾種特殊情況。
ARIMA(p,d,q)模型結(jié)構(gòu)如下。其中p為自回歸項數(shù),q為移動平均項數(shù),d為時間序列成為平穩(wěn)時所做的差分次數(shù)[9]。
2.3 ARIMA模型建模步驟
①平穩(wěn)性檢驗:根據(jù)觀察值序列的時序圖判斷序列的平穩(wěn)性。當時間序列呈周期性或者有顯著趨勢時,對原序列數(shù)據(jù)進行差分運算;
②白噪聲檢驗:在檢驗的顯著性水平取0.05的條件下,當延遲6階的 檢驗統(tǒng)計量的P值小于0.05,則該差分序列不能視為白噪聲序列;
③擬合ARMA模型:根據(jù)自相關(guān)圖和偏自相關(guān)圖的性質(zhì),選擇階數(shù)適當?shù)腁RMA(p.q)模型進行擬合;
④在條件最小二乘估計原理下估計模型中未知參數(shù)的值;
⑤對殘差序列進行檢驗:當擬合檢驗統(tǒng)計量的P值都顯著大于顯著性水平0.05,則認為殘差序列即為白噪聲序列;如果擬合模型通不過檢驗,轉(zhuǎn)向步驟②,重新選擇模型再擬合;
⑥利用擬合模型,預(yù)測序列的將來走勢。
3? 建模及預(yù)測
3.1 平穩(wěn)性檢驗
首先,繪制監(jiān)測數(shù)據(jù)序列時序圖,該序列時序圖如圖 1所示,新冠肺炎監(jiān)測數(shù)據(jù)具有明顯的持續(xù)增長趨勢,為典型的非平穩(wěn)序列。對原序列進行2階差分運算提取數(shù)據(jù)序列中的確定性信息,如圖 2所示,2階差分后序列始終圍繞在均值附近隨機波動,即差分后序列沒有顯著非平穩(wěn)特征。為了進一步確定平穩(wěn)性,考察差分后的序列的自相關(guān)圖,如圖 3所示。自相關(guān)圖顯示序列具有很強的短期相關(guān)性。原序列2階差分后序列平穩(wěn)。
3.2 白噪聲檢驗
對平穩(wěn)的2階差分序列進行白噪聲檢驗,序列隨機性檢驗結(jié)果如表 2所示。在檢驗的顯著性水平取0.05的條件下,延遲6階的x2檢驗統(tǒng)計量的P值為0.0333,小于?琢=0.05,可以以1-?琢的置信水平拒絕原假設(shè),認為差分后序列蘊含很強的相關(guān)信息,所以該差分后序列為平穩(wěn)非白噪聲序列。
3.3 擬合ARMA模型
如圖 3所示,綜合2階差分后序列的自相關(guān)圖顯示出自相關(guān)系數(shù)迅速衰減到零,自相關(guān)圖呈現(xiàn)典型的1階截尾性(q=1),而偏自相關(guān)系圖顯示出非截尾的性質(zhì),擬合模型定階為MA(1)。原序列差分后平穩(wěn),差分次數(shù)為d=2,因此實際上是用ARIMA(0,2,1)模型擬合原序列。如表 3所示,運用條件最小二乘估計確定該模型的口徑為:
3.4 模型檢驗
確定了擬合模型的口徑之后,檢驗?zāi)P偷娘@著性=0.05,檢驗結(jié)果如表 4所示。殘差白噪聲檢驗結(jié)果顯示延遲6階、12階、18階LB檢驗統(tǒng)計量的P值均顯著大于0.05,認為擬合模型的殘差序列通過白噪聲檢驗,該ARIMA(0,2,1)模型顯著有效。再檢驗參數(shù)的顯著性0.05),檢驗結(jié)果如表4所示。均值MU的t檢驗統(tǒng)計量的P值為0.7894,大于=0.05,即均值MU不顯著。
剔除常數(shù)項后重新擬合模型,再次估計模型中未知參數(shù)的結(jié)果,檢驗結(jié)果如表 5所示。參數(shù)MA1,1的t檢驗統(tǒng)計量的P值小于0.0001,認為該參數(shù)顯著。因此,ARIMA(0,2,1)模型是該序列的有效擬合模型。
3.5 ARIMA模型預(yù)測
利用ARIMA(0,2,1)模型對新冠肺炎監(jiān)測數(shù)據(jù)序列作5天預(yù)測。預(yù)測值、實際值、標準誤差和95%的置信區(qū)間如表3-表5所示。從預(yù)測結(jié)果(表6)來看,預(yù)測數(shù)據(jù)和實際數(shù)據(jù)吻合較好。
4? 結(jié)論
綜上所述,ARIMA(0,2,1)模型對我國新型冠狀病毒疫情走勢具有較高的擬合度,可用于新冠肺炎監(jiān)測數(shù)據(jù)序列的短期預(yù)測,可為疫情的防控效果以及發(fā)展趨勢提供參考,為未來幾天的疫情干預(yù)決策提供一定的政策依據(jù)。
參考文獻:
[1]中國疾病預(yù)防控制中心新型冠狀病毒肺炎應(yīng)急響應(yīng)機制流行病學(xué)組.新型冠狀病毒肺炎流行病學(xué)特征分析[J].中華流行病學(xué)雜志,2020,41(2):145-151.
[2]世界衛(wèi)生組織將新型冠狀病毒感染的肺炎命名為“Cov-id-19”[ER/OL].(2020-02-11)[2020-02-21].http://WWW.xinhuanet.com//world/2020-02/11/c_1125561343.htm.
[3]國家衛(wèi)生健康委員會老齡司.關(guān)于做好老年人新型冠狀病毒感染肺炎疫情防控工作的通知[ER/OL].(2020-01-31)[2020-02-22].http://www.nhc.gov.cn/lljks/tggg/202001/96e82ba8a14d41b283da990d39771493.shtml.
[4]國家衛(wèi)生健康委員會婦幼保健司.關(guān)于做好兒童和孕產(chǎn)婦新型冠狀病毒感染的肺炎疫情防控工作的通知[ER/OL].(2020-02-02)[2020-02-22]http://WWW.nhc.gov.cn/fys/s7902/202002/de2d62a5711c41ef9b2c.4b6f4d1f2136.shtml.
[5]國務(wù)院辦公廳.國務(wù)院辦公廳關(guān)于延長2020年春節(jié)假期的通知[EB/OL].[2020-01-27].http://www.gov.cn/zhengce/content/2020-01/27/content_5472352.htm.
[6]國家衛(wèi)生健康委員會官方網(wǎng)站.截至3月29日24時新型冠狀病毒肺炎疫情最新情況[EB/OL].[2020-03-30].http://www.nhc.gov.cn/xcs/y qtb/202 003/c46e73d692d047619bfb29680950d88d.shtml.
[7]孟凡東,吳迪,隋承光.2004-2015年中國狂犬病發(fā)病數(shù)據(jù)ARIMA乘積季節(jié)模型的建立及預(yù)測[J].中國衛(wèi)生統(tǒng)計,2016,33(3):389-391.
[8]張美英,何杰.時間序列預(yù)測模型研究綜述[J].數(shù)學(xué)的實踐與認識,2011,41(18):189-195.
[9]王燕.應(yīng)用時間序列分析[M].四版.北京:中國人民出版社,2015:1-127.