盧普慶
摘要:目的:分析ARIMA模型和指數(shù)平滑法對(duì)我國新型冠狀肺炎(COVID-19)疫情變化趨勢(shì)的預(yù)測(cè)效能。方法:選取我國2020年1月10日-2020年4月20日新冠肺炎累計(jì)確診病例數(shù)作為ARIMA模型和指數(shù)平滑法的建模部分,2020年4月21日-2020年4月30日數(shù)據(jù)作為模型驗(yàn)證部分,比較兩種模型的擬合情況和預(yù)測(cè)效果優(yōu)劣。結(jié)果:ARIMA(2,2,1)模型的均方誤差根(RMSE)為301.9043,相對(duì)誤差百分比(REP)為3.1743,指數(shù)平滑模型的RMSE為200.9823,REP為2.1306。結(jié)論:指數(shù)平滑模型擬合效果較好,預(yù)測(cè)精度更高,可應(yīng)用于我國COVID-19累計(jì)確診病例數(shù)的預(yù)測(cè)。
Abstract: Objective: To analyze the predictive power of the ARIMA model and exponential smoothing method for the trend of COVID-19 in China. Methods: The cumulative number of newly diagnosed cases of new coronary pneumonia in China from January 10, 2020 to April 20, 2020 was selected as the modeling part of the ARIMA model and exponential smoothing method, and the data from April 21, 2020 to April 30, 2020 was used as the model In the verification part, compare the fitting situation of the two models and the pros and cons of the prediction effect. Results: The root mean square error (RMSE) of the ARIMA (2,2,1) model was 301.9043, the relative error percentage (REP) was 3.1743, the RMSE of the exponential smoothing model was 200.9823, and the REP was 2.1306. Conclusion: The exponential smoothing model has a better fitting effect and higher prediction accuracy, and can be used to predict the cumulative number of confirmed cases of COVID-19 in China.
關(guān)鍵詞:新型冠狀肺炎;ARIMA模型;指數(shù)平滑法;預(yù)測(cè)
Key words: COVID-19;ARIMA model;exponential smoothing method;prediction
中圖分類號(hào):N32? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2020)23-0164-04
0? 引言
自2019年12月底在湖北省武漢市發(fā)現(xiàn)新型冠狀病毒肺炎病例以來,新冠肺炎迅速在全球流行。2020年1月12日世界衛(wèi)生組織(WHO)將該病毒命名為2019-nCoV[1], 2月11日世界衛(wèi)生組織(WHO)將該病毒引起的疾病正式命名為COVID-19(Corona virus disease 2019)[2],3月11日,世界衛(wèi)生組織正式宣布此次疫情為世界大流行,防控工作已成為全球公共衛(wèi)生共同關(guān)注的問題。截止5月1日24時(shí),COVID-19已影響到全球212個(gè)國家和地區(qū),累計(jì)確診病例逾300萬,累計(jì)死亡已超過23萬。絕大多數(shù)國家目前疫情仍在持續(xù)增長(zhǎng)階段,沒有達(dá)到有效控制。而我國疫情在精準(zhǔn)施策,科學(xué)防控等一系列措施下,取得了階段性勝利,目前以境外輸入性病例為主。疫情防控的成功與對(duì)病毒傳播趨勢(shì)的了解密不可分。因此,構(gòu)建新冠肺炎疫情變化趨勢(shì)的有效預(yù)測(cè)模型,對(duì)新冠肺炎疫情的防控具有重要的現(xiàn)實(shí)意義。
1? 文獻(xiàn)綜述
目前,針對(duì)新冠肺炎防控的相關(guān)研究,主要可以分為三個(gè)方面:一是基于參數(shù)和建模的研究:尹楠(2020)[3]應(yīng)用標(biāo)準(zhǔn)流行病學(xué)SIR倉室模型,對(duì)此次新冠肺炎疫情中的幾種感染情況做了仿真研究,并根據(jù)研究結(jié)果提出了一些控制疫情蔓延的措施和方法。Yang Zi-feng(2020)[4]結(jié)合經(jīng)典SIR倉室模型和SEIR倉室模型,以多重?cái)M合確定模型參數(shù),對(duì)疫情趨勢(shì)做了預(yù)測(cè)研究,在參數(shù)估計(jì)方面更接近實(shí)際。顏銘江等(2020)[5]改進(jìn)了傳統(tǒng)SEIR模型中僅考慮確診病例存在傳染性而潛伏期病例無傳染性這一缺陷,提出了新模型(ISEIR),應(yīng)用ISEIR模型預(yù)測(cè)了今后疫情的進(jìn)一步發(fā)展趨勢(shì)。二是基于疫情防控措施效果評(píng)估的研究:陳端兵等(2020)[6]以有效再生數(shù)作為評(píng)價(jià)防控措施的核心指標(biāo),計(jì)算并反推了患者癥狀的出現(xiàn)時(shí)間,發(fā)現(xiàn)切斷本地傳播源、實(shí)施交通管制等舉措有顯著成效。MOORE(2020)[7]基于目標(biāo)函數(shù)法,研究了自我防控、初期診斷治療和末期診斷治療三種防控措施分別實(shí)施和組合實(shí)施下的疫情傳播速度,結(jié)果指出三種防控措施組合效果更好。三是基于臨床醫(yī)學(xué)和藥理學(xué)的研究:楊小林、袁永亮等(2020)[8]采用ETCM、中藥系統(tǒng)藥理學(xué)分析平臺(tái)(TCMSP),分析得到升降復(fù)方靶蛋白基因,結(jié)果表明升降散對(duì)新冠肺炎具有潛在抑制作用。
上述研究為新冠肺炎的防控提拱了寶貴意見,也為本文提供了啟發(fā)。基于統(tǒng)計(jì)學(xué)視角,將我國新冠肺炎累計(jì)確診病例隨時(shí)間變化而變化的數(shù)據(jù)看成一組時(shí)間序列。采用ARIMA模型和指數(shù)平滑法對(duì)數(shù)據(jù)進(jìn)行分析,建立ARIMA模型和指數(shù)平滑模型,并通過實(shí)證研究來評(píng)價(jià)兩種模型的預(yù)測(cè)效能,從而確定最優(yōu)預(yù)測(cè)模型,為將來我國新冠肺炎疫情防控工作提供參考依據(jù),也為其他新冠肺炎疫情研究提供借鑒。
2? 資料與方法
2.1 數(shù)據(jù)來源及假設(shè)
2020年1月10日-2020年4月30日我國COVID-19累計(jì)確診病例數(shù)來源于國家衛(wèi)生健康委員會(huì)疫情通報(bào)。這里做個(gè)基本假定:國家衛(wèi)建委于2020年1月21日通報(bào)全國新冠肺炎疫情情況,1月10日-1月20日無全國累計(jì)確診病例數(shù),由于疫情重災(zāi)區(qū)位于湖北省武漢市,故假定武漢市1月10日-1月20日累計(jì)確診病例數(shù)為全國累計(jì)確診病例數(shù)。
2.2 研究方法
2.2.1 ARIMA模型全稱為自回歸移動(dòng)平均模型,由美國George Box和英國Gwilym Jenkins于20世紀(jì)70年代初共同建立。ARIMA模型定義為[9]:
2.2.2 指數(shù)平滑法是由(Robert G. Brown)提出的一種基于移動(dòng)平均法,改進(jìn)而來的時(shí)間序列分析方法。指數(shù)平滑法在流行性傳染病發(fā)病率預(yù)測(cè)中的應(yīng)用已十分廣泛,如流感樣病例等[10]。指數(shù)平滑法彌補(bǔ)了移動(dòng)平均法的不足,充分利用了所有數(shù)據(jù)信息,又體現(xiàn)出近期數(shù)據(jù)對(duì)未來影響作用更大的特點(diǎn)。根據(jù)時(shí)間序列是否具有季節(jié)性,可分為季節(jié)性模型(季節(jié)指數(shù)平滑法、Holt-Winter加法指數(shù)平滑法、Holt-Winter乘法指數(shù)平滑法)和非季節(jié)性模型(一次指數(shù)平滑法、二次指數(shù)平滑法)[11],其中一次指數(shù)平滑法主要應(yīng)用于沒有趨勢(shì)的季節(jié)性的序列,二次指數(shù)平滑法主要應(yīng)用于有趨勢(shì)但沒有季節(jié)性的序列。根據(jù)我國新冠肺炎累計(jì)確診病例數(shù)據(jù)的變化趨勢(shì),本文選擇二次指數(shù)平滑模型,其公式為:
2.2.3 分析方法 本研究采用SPSS 23.0,將1月10日-4月20日我國新冠肺炎累計(jì)確診病例數(shù)作為建模部分, 4月21日-4月30日數(shù)據(jù)作為模型驗(yàn)證部分。選取二次指數(shù)平滑模型中的簡(jiǎn)單線性趨勢(shì)模型、Holt線性趨勢(shì)模型、Brown線性趨勢(shì)模型依次擬合三種模型,依據(jù)確定系數(shù)R2最大、均方誤差平方根(RMSE)、平均絕對(duì)誤差百分比(MAPE)和平均絕對(duì)誤差(MAE)最小確定最優(yōu)模型[12]。
3? 結(jié)果
3.1 我國COVID-19累計(jì)確診病例數(shù)分布特征
對(duì)我國1月10日-4月30日新冠肺炎累計(jì)確診病例數(shù)進(jìn)行分析,觀察累計(jì)確診病例數(shù)時(shí)間序列圖,可見累計(jì)確診病例數(shù)總體呈明顯上升趨勢(shì),且無明顯季節(jié)性和周期性。
3.2 ARIMA模型建立
3.2.1 平穩(wěn)性檢驗(yàn)
對(duì)原始序列做單位根檢驗(yàn),根據(jù)結(jié)果可知,原始序列非平穩(wěn),對(duì)其一次差分后做單位根檢驗(yàn),P>0.001,進(jìn)而二次差分,顯示序列平穩(wěn)。
3.2.2 ARIMA模型識(shí)別
觀察二次差分后序列的自相關(guān)函數(shù)圖(AC)和偏自相關(guān)函數(shù)圖(PAC)可知,AC和PAC圖存在明顯拖尾性,且AC圖一階截尾,故q=1,由PAC圖可知,p取2或3。根據(jù)可決系數(shù)(R2)、調(diào)整的可決系數(shù)、赤池信息準(zhǔn)則(AIC)以及施瓦茲準(zhǔn)則(SC)可得,p取2。綜合上述分析可知,確定模型為ARIMA(2,2,1)。
3.2.3 ARIMA模型檢驗(yàn)
根據(jù)ARIMA(2,2,1)模型做回歸,并對(duì)其殘差序列進(jìn)行白噪聲檢驗(yàn),由殘差序列的AC圖、PAC圖以及p值可知,殘差序列不存在自相關(guān),且滿足零均值,為白噪聲序列,故認(rèn)為其通過檢驗(yàn)。
3.2.4 模型預(yù)測(cè)
利用ARIMA(2,2,1)模型對(duì)我國4月21日-4月30日新冠肺炎累計(jì)確診病例做預(yù)測(cè),并于實(shí)際值進(jìn)行對(duì)比,結(jié)果如表1。
3.3 指數(shù)平滑法
3.3.1 構(gòu)建模型
根據(jù)我國COVID-19累計(jì)確診病例數(shù)時(shí)序圖,初步選擇指數(shù)平滑模型中的簡(jiǎn)單模型、Holt線性趨勢(shì)模型和Brown線性趨勢(shì)模型,分別對(duì)我國1月10日-4月20日新冠肺炎累計(jì)確診病例數(shù)進(jìn)行擬合,模型擬合結(jié)果見表2。
根據(jù)表3可知,Brown線性趨勢(shì)模型的最大,且RMSE、MAPE、MAE以及正態(tài)化BIC值最小,因此,選擇Brown線性趨勢(shì)模型對(duì)COVID-19累計(jì)確診病例數(shù)進(jìn)行擬合,擬合情況見圖1。
3.3.2 指數(shù)平滑模型預(yù)測(cè)結(jié)果
運(yùn)用指數(shù)平滑模型中的Brown趨勢(shì)模型對(duì)我國新冠肺炎累計(jì)確診病例數(shù)進(jìn)行預(yù)測(cè),擬合預(yù)測(cè)曲線圖見圖2,預(yù)測(cè)結(jié)果見表3。
3.3.3 ARIMA模型和指數(shù)平滑模型比較
為了更好的對(duì)兩個(gè)模型的預(yù)測(cè)精度進(jìn)行對(duì)比分析,本文引入均方根誤差(RMSE)和相對(duì)誤差百分比(REP)兩種度量指標(biāo),相應(yīng)度量指標(biāo)定義如下:
根據(jù)表4可知,指數(shù)平滑模型的RMSE值和REP值均小于ARIMA模型,因此,指數(shù)平滑模型預(yù)測(cè)效果更好。
4? 討論
ARIMA模型和指數(shù)平滑模型均是通過探索歷史數(shù)據(jù)隨時(shí)間變化而變化的某種規(guī)律,并將這種規(guī)律進(jìn)行外延,來預(yù)測(cè)將來情況。兩種模型均適合于中短期預(yù)測(cè)。ARIMA模型比較全面的考慮了序列的長(zhǎng)期趨勢(shì)、季節(jié)變動(dòng)、循環(huán)變動(dòng)以及不規(guī)則變動(dòng)等情況,并結(jié)合模型參數(shù)對(duì)其進(jìn)行了量化,能較好的反映時(shí)間序列的變化和趨勢(shì)[13]。但ARIMA模型的建模過程相對(duì)復(fù)雜,模型參數(shù)的識(shí)別存在一定主觀性。指數(shù)平滑法則需要反復(fù)運(yùn)算,以確定最優(yōu)平滑系數(shù),其基本思想是給近期數(shù)據(jù)賦予更大的權(quán)重,而遠(yuǎn)期數(shù)據(jù)賦予較小權(quán)重,適合于序列隨時(shí)間變化不大的數(shù)據(jù)。因此,兩種模型均有一定局限性,在不同條件下,應(yīng)結(jié)合具體情況而定。
本文采用ARIMA(2,2,1)模型和指數(shù)平滑模型對(duì)我國新冠肺炎累計(jì)確診病例數(shù)進(jìn)行了預(yù)測(cè),研究結(jié)果表明,ARIMA(2,2,1)模型的均方誤差根(RMSE)為301.9043,相對(duì)誤差百分比(REP)為3.1743,指數(shù)平滑模型的RMSE為200.9823,REP為2.1306,均小于ARIMA(2,2,1)模型,且指數(shù)平滑模型預(yù)測(cè)結(jié)果與國家衛(wèi)健委疫情通報(bào)結(jié)果基本吻合。因此,指數(shù)平滑模型更適合于我國新冠肺炎累計(jì)確診病例的短期預(yù)測(cè)。
參考文獻(xiàn):
[1]武漢市衛(wèi)生健康委員會(huì)通報(bào):1月13日無新增新型冠狀病毒感染的肺炎病例,中國發(fā)展網(wǎng),2020,1,15.http:www.chinadevelopment.com.cn/sh/2020/0115/1601245.shtml.
[2]世界衛(wèi)生組織給新冠病毒命名,新京報(bào),2020,2,12.http//news.sina.com.cn/w/2020-02-12/doc-iimxxstf0768050.shtml.
[3]尹楠.基于SIR模型的有限區(qū)域內(nèi)新冠肺炎疫情傳播仿真模擬[J].統(tǒng)計(jì)與決策,2020(5).
[4]Yang Zi-feng, Zeng Zhi-qi, Wang Ke, et al. Modified SEIR and AI? ?prediction of the epidemics trend of COVID-19 in China under public Health interventions[J].Journal of Thoracic Disease,2020,doi:10.2103/jtd.2020.0264.
[5]顏銘江,董一鴻,賈香恩,鄭海陽,辛宇.新型冠狀病毒肺炎的疫情趨勢(shì)預(yù)測(cè)[J/OL].病毒學(xué)報(bào):1-10[2020-4-30].http://kns.cnki.net/kcms/detail/11.1865.r.20200429.1658.004.html.
[6]陳端兵,白薇,王巖,王敏,俞伍平,周濤.新型冠狀病毒肺炎防控效果的定量評(píng)估[J/OL].電子科技大學(xué)學(xué)報(bào):1-6[2020-3-31].http://kns.cnki.net/kcms/detail/51.1207.T.2020.330.1149.002.html.
[7]MOORE S E, OKYERE E. Controlling the Transmission Dynamics of COVID-19[J/OL].arXiv:2004.00443v2[q-bio.PE].[2020-04-02].http://arXiv.org/abs/2004.00443.
[8]楊小林,袁永亮,張杰,王如鋒,倪力強(qiáng).基于網(wǎng)絡(luò)藥理學(xué)和分子對(duì)接探尋升降散對(duì)抗新型冠狀病毒潛在作用機(jī)制研究[J/OL].中草藥,2020,51(7):1795-1803.
[9]Box G E P. Jenkins G M. Time Series Analysis: Forecasting and Control[M]. 4 th ed New Jersey: Hoboken,2011.
[10]孔德川,潘浩,鄭雅旭,等.指數(shù)平滑模型在上海猩紅熱發(fā)病率預(yù)測(cè)中的應(yīng)用[J].疾病檢測(cè),2019,34(10):932-936.
[11]P. R. A Firmino, P S de Mattos Neto, Tiago T. E Ferreira. Correcting and Combining time series forecasters[J]. Neural Networks,2014,50:1-11.
[12]顧蓉艷,張玲,宋肖肖,等.基于季節(jié)性指數(shù)平滑法的學(xué)校因病缺課預(yù)測(cè)研究[J].中華疾病控制雜志,2019,23(7):845-855.
[13]王春平,王志峰,單杰,等.隨機(jī)時(shí)間序列分析方法在傳染病預(yù)測(cè)中的應(yīng)用[J].中國醫(yī)院統(tǒng)計(jì),2006,13(3):229-232.