楊淘 肖樂瑤 張陸豪 邱則滿 左欣延 吳少暉
摘要:本文基于降維和聚類的思想對新冠狀病毒建立ARIMA模型進行研究和預測,采用聚類分析、因子分析,時間序列分析的方法。通過構造量化疫情嚴重程度的指標,對選取的13個國家進行因子分析,計算因子得分,利用因子得分進行聚類分析,將13個國家分為三類國家。其次根據(jù)官方發(fā)布的新冠疫情數(shù)據(jù),采用時間序列分析方法來建立不同的ARIMA模型進行擬合巴西、印度和中國這三個具有代表性的國家的疫情走勢及預測未來一個月的趨勢,并通過模型和參數(shù)的顯著性檢驗,最后發(fā)現(xiàn)未來一個月的預測數(shù)據(jù)和實際數(shù)據(jù)吻合較好。
關鍵詞:COVID-19 聚類分析 因子分析 ARIMA 預測
一、引言
新型冠狀病毒的出現(xiàn),讓全球的公共衛(wèi)生體系遭受到一定的挑戰(zhàn)。本文鑒于多次流行病學爆發(fā)的數(shù)據(jù)和趨勢特征、走向和轉折預警,同時結合病原學、流行病學方面和傳播、途徑、方式等的共同特點,希望能從統(tǒng)計學角度出發(fā),構建對疫情趨勢和轉折的預測模型,分析影響其傳播的關鍵因素,以數(shù)理統(tǒng)計學的理論知識為橋梁,實現(xiàn)對病毒的經(jīng)驗到理性的認知,以發(fā)展的眼光把數(shù)據(jù)連成一個清晰的藍圖,更好地在現(xiàn)實生活中做出最佳決策。
二、數(shù)據(jù)預處理
2.1樣本選擇
本文針對全球疫情發(fā)展狀況,選擇了美國、巴西、日本、德國、印度、意大利、加拿大、西班牙、韓國、英國、法國、俄羅斯、中國共13個比較有代表性的國家作為樣本。樣本數(shù)據(jù)來源于國家和省市衛(wèi)健委。
由于各個國家疫情集中爆發(fā)的時間段不同,為了使疫情爆發(fā)情況具有橫向比較性,本文統(tǒng)一將累計確診人數(shù)達到100人及以上作為疫情集中爆發(fā)的標志,以此日期開始,分析該國之后的疫情發(fā)展趨勢。
2.2數(shù)據(jù)處理
針對收集整理后的數(shù)據(jù),本文對其進行了缺失值處理及異常值處理。
2.3構造量化疫情嚴重程度的指標
確診、死亡、治愈和新增確診人數(shù)是各國披露疫情情況使用的主要數(shù)據(jù),但由于各個國家的人口基數(shù)、確診人數(shù)基數(shù)都有較大差別,這些指標的橫截面可比性不高,也不能直接涵蓋疫情的爆發(fā)速度的信息。因此本文利用這三個指標,基于前人研究的基礎構建了11個具有橫向可比性的衍生指標:每百萬人的累計確診、日確診增速、日死亡增速、日治愈增速、致死率、治愈率、當日新增確診增速、當日新增死亡增速、當日新增治愈增速、每百萬人現(xiàn)存感染、現(xiàn)存感染占累計確診比,并利用這11個衍生指標對疫情建立相關模型,進行橫向對比。
三、基于降維和分類思想分析各國疫情趨勢
3.1方法及原理
從收集的13個國家的相關數(shù)據(jù)和資料來看,可以發(fā)現(xiàn)部分國家的疫情趨勢、針對疫情采取的政策等有較多相似之處,因此對國家進行分類分析處理。要客觀地整理國家類別,應采用因子分析和聚類分析的方法。
因子分析是一種基于降維思想的數(shù)據(jù)簡化技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數(shù)據(jù)中的基本結構,并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。
聚類分析則是基于分類思想,將個體或對象分類,使得同一類中的對象之間的相似性與其他類的對象的相似性更強的一種方法。其目的是使類間對象的同質性最大化和類與類間對象的異質性最大化。
將因子分析法和聚類分析法相結合,即可將在疫情相關方面相似的國家分為同一類別,便于對全球疫情趨勢做出分析并給出相應的建議。
3.2因子分析結果
在疫情嚴重程度衍生指標的基礎上,引入了政策變量作為虛擬變量,對12個變量采用主成分法和正交旋轉法進行因子分析。參照前人的研究,將政策分為“類SARS策略”和“類大流感策略”兩種,其中,中國和韓國采取的策略為前者,其余11個國家采取的策略為后者。
結果中,四個因子的方差貢獻率已達到89%,因此選用四個因子做后續(xù)的分析。從正交旋轉后的因子載荷矩陣可以計算各個國家的四個因子的得分。
3.3聚類分析結果
將四個因子放入R中進行聚類分析,將13個國家歸為三大類。聚類結果如圖1所示,即Ⅰ類國家為美國、巴西;Ⅱ類國家為印度、德國、西班牙、意大利、法國、韓國、日本、英國、俄羅斯、加拿大;Ⅲ類國家為中國。
可以發(fā)現(xiàn),Ⅲ類國家是針對疫情采取了嚴格的防疫政策并有較好成效的國家;Ⅱ類國家是針對疫情采取過一定的防疫措施,但沒有做到長時間且嚴格的管理導致累計確診人數(shù)增速大致呈先下降再加快的趨勢的國家;Ⅰ類國家則是在疫情期間,一直采取放任政策且累計確診人數(shù)爆發(fā)式增長的國家。
基于聚類分析的結果,本文將對三個類別分別建立數(shù)學模型分析其疫情趨勢并預測未來走勢,提出相應的防疫建議。
四、建立數(shù)學模型分析并預測疫情趨勢
4.1模型的建立
目前,對疫情的預測大多是應用傳播動力學模型和統(tǒng)計學模型如時間序列分析等,但傳染病動力學模型需要對各種模型參數(shù)有較精確的了解,很難準確獲取。而時間序列模型只需收集感染人數(shù)和病例數(shù)據(jù)歷史序列,則可構建預測模型來進行短期預測,有較高的準確性。
ARIMA模型(自回歸移動平均模型)主要運用于分析非平穩(wěn)的、不具有季節(jié)性變化趨勢的時間序列。具有短期預測性強且簡單易操作的優(yōu)點,同時被廣泛運用于傳染病的預測預警。在該模型中,新冠疫情數(shù)據(jù)可以看作時間序列觀測數(shù)據(jù),得到觀察值后,分析的重點是通過有效的手段提取序列中所蘊含的確定性的信息。ARIMA(p,d,q)模型結構如下:
4.2模型的應用
我們從由上面聚類分析得到的三類國家中各挑選一個具有代表性的國家進行預測,其中Ⅰ類國家選擇巴西,Ⅱ類國家選擇印度,Ⅲ類選擇中國。最終給出不同類型國家的ARIMA模型及其擬合和預測效果。
4.2.1 Ⅰ類國家
這類國家我們以巴西為例進行詳細分析,根據(jù)收集到的巴西COVID-19疫情相關數(shù)據(jù),我們使用2020年2月26日到11月13日的數(shù)據(jù)進行分析,得到ARIMA(2,2,5)模型的擬合優(yōu)度較高。使用該模型預測在近一個月時間(11.14-12.13)內的疫情趨勢,得巴西確診人數(shù)升速度減慢,但仍呈上升趨勢,隨著時間不斷推移,推斷一個月后巴西最終感染確診人數(shù)為6576503人左右。將預測的11月14日至12月14日的數(shù)值與官方給出的數(shù)據(jù)進行比較,發(fā)現(xiàn)該模型對巴西新冠肺炎疫情預測中,預測時間越遠則預測精度越差,且實際值高于預測值。
4.2.2 Ⅱ類國家
該類國家我們以印度為例進行詳細分析,根據(jù)搜集到的印度COVID-19疫情相關數(shù)據(jù),使用2020年1月30日到11月13日的數(shù)據(jù)進行分析,建立得到ARIMA(0,2,3)模型進行預測,結果顯示在近一個月時間(11.14-12.13)內,印度COVID-19疫情上升速度加快,隨著時間不斷推移,推斷一個月后印度最終感染確診人數(shù)為10198435人左右。將預測的數(shù)值與官方給出的數(shù)據(jù)進行比較得到圖5。由圖5可以發(fā)現(xiàn)ARIMA(0,2,3)對印度新冠肺炎疫情預測中,在前半段時間內的預測精度非常高,后面預測時間越遠雖然預測精度變差但誤差不大。
4.2.3 Ⅲ類國家
該類國家本文以中國為例進行詳細分析,根據(jù)搜集到的中國COVID-19疫情相關數(shù)據(jù),使用2020年1月30日到11月26日的數(shù)據(jù)進行分析,得到擬合優(yōu)度較高的ARIMA(0,2,1)模型進行預測,結果顯示2020年12月8日至2021年1月7日期間,中國累計確診人數(shù)上升速度加快,隨著時間不斷推移,推斷在1月7日中國最終感染確診人數(shù)為10198435人左右。將預測數(shù)值與官方給出的數(shù)據(jù)進行比較發(fā)現(xiàn),時間越長,預測精度變差,但誤差保持較小水平,兩者之間幾乎保持平行距離。
4.3 模型討論
在ARIMA模型的預測中,可以發(fā)現(xiàn)真實值幾乎都大于預測值,這說明了此時間序列模型在實際應用中存在這一定的滯后性,這可能與在建模忽略了受到自然、社會及其他關聯(lián)因素有關。但這仍然起到了一定的參考作用,如在其他一些不明原因的傳染病疫情的防控和預測時提供一種參考方法。
五、結論與建議
以巴西為代表的Ⅰ類國家,采取了不合理的防疫政策,累計確診人數(shù)持續(xù)增長,增長速度也一直保持在一個水平。以印度為代表的Ⅱ類國家,在疫情前期有采取過一定的防疫措施,而一段時間后政策變得寬松,沒有繼續(xù)采取嚴格的隔離措施,因此疫情前期確診人數(shù)增速較緩慢,后期確診人數(shù)不斷攀升且增速上升。以中國為代表的Ⅲ類國家,從疫情初期一直采取著嚴格的防疫政策,累計確診人數(shù)在上升到一定程度后保持穩(wěn)定,疫情得到了較好的控制。
針對三個國家所建立的ARIMA模型都能較好地擬合真實的疫情趨勢,將三個模型的短期預測結果和現(xiàn)實值進行對比,也能說明模型的擬合效果較好,如印度的預測中平均相對誤差可以達到0.009。根據(jù)預測結果,三類國家的累計確診人數(shù)在未來仍會不斷增加,但Ⅲ類國家的增速會比Ⅰ類國家和Ⅱ類國家平緩。
5.2 建議
利用ARIMA模型擬合預測的結果,I類國家和Ⅱ類國家仍處于疫情發(fā)展期,Ⅲ類國家處于疫情平穩(wěn)期,Ⅰ類國家和Ⅱ類國家應制定并實施嚴格的防疫策略,令居民做好個人防護,必要時采取強硬的隔離措施,政府部門積極開展輿情監(jiān)控,普及疫情防控,做好疫情防控的工作,減少大型聚集活動,通過多種途徑做好工作和特定人群個人防護的指導,減少人群中可能的接觸或暴露,采取嚴格的出入境管制措施;Ⅲ類國家則不可掉以輕心,應繼續(xù)保持,防止疫情的二次爆發(fā)。
現(xiàn)如今,新冠疫情仍在全球蔓延,利用本文中基于聚類分析思想建立ARIMA模型的方法,可以對短期內疫情的趨勢做出預測,為疫情防控提供參考。
六、參考文獻
[1]高惠璇. 應用多元統(tǒng)計分析. 北京:北京大學出版社. 2005.1
[2]易丹輝、王燕. 應用時間序列分析(第5版).北京:中國人大學出版社. 2019.7
[3]溫亮、黃清臻等. 運用ARIMA模型預測巴基斯坦新型冠狀病毒肺炎疫情發(fā)展趨勢的結果分析. 解放軍預防醫(yī)學雜志. 2020(08)-0096-05
【作者簡介】
楊淘(2000.6-),女,漢族,廣東佛山人,本科生學歷,華南農(nóng)業(yè)大學學生,研究方向:統(tǒng)計學。