李少亭,王雪瑞
1(東北財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,遼寧 大連 116025) 2(北京交通大學(xué) 理學(xué)院,北京 100044) E-mail:20121642@bjtu.edu.cn
2019新型冠狀病毒(COVID-19)是新中國(guó)成立以來(lái)發(fā)生的最嚴(yán)重的一次重大突發(fā)公共衛(wèi)生事件,具有傳播速度快、感染范圍廣、持續(xù)時(shí)間長(zhǎng)以及防控難度大等特點(diǎn).此次新冠疫情持續(xù)時(shí)間較長(zhǎng),直到2021年仍然零星爆發(fā),對(duì)我國(guó)經(jīng)濟(jì)造成巨大沖擊,也對(duì)我國(guó)醫(yī)療衛(wèi)生體系提出重大挑戰(zhàn).因此準(zhǔn)確地預(yù)測(cè)疫情發(fā)展趨勢(shì),可以為疫情防控提供有效的參考信息,為打贏疫情防控阻擊戰(zhàn)提供數(shù)據(jù)支撐.
國(guó)內(nèi)外學(xué)者針對(duì)新冠疫情構(gòu)建了各種模型預(yù)測(cè)和分析其傳播和發(fā)展趨勢(shì),主要集中在傳播動(dòng)力學(xué)模型和傳統(tǒng)統(tǒng)計(jì)學(xué)模型.傳播動(dòng)力學(xué)模型主要根據(jù)各要素之間的關(guān)系構(gòu)建微分方程從而模擬其發(fā)展趨勢(shì),因此被廣泛地運(yùn)用于傳染病的傳播與分析中.盛華雄等[1]在疫情控制階段采用SIR模型分析和預(yù)測(cè)武漢市疫情,比較準(zhǔn)確地刻畫(huà)出各類(lèi)人群在控制階段隨時(shí)間變化的規(guī)律.Zareie 等[2]構(gòu)建SIR 模型,對(duì)伊朗新冠疫情傳播進(jìn)行有效預(yù)測(cè).范如國(guó)[3]等基于復(fù)雜網(wǎng)絡(luò)理論建立了SEIR模型,對(duì)3種情形下疫情拐點(diǎn)進(jìn)行了預(yù)測(cè),結(jié)果表明與真實(shí)情況基本吻合.Rajagopal等[4]采用分?jǐn)?shù)階SEIR模型對(duì)意大利新冠疫情進(jìn)行預(yù)測(cè),結(jié)果表明分?jǐn)?shù)階SEIR模型更接近真實(shí)數(shù)據(jù).唐三一等[5]利用常系數(shù)的SEIHR模型較好地預(yù)測(cè)2020年1月24日凌晨以前累計(jì)報(bào)告確診病例數(shù).Manotosh等[6]建立SEIQR模型發(fā)現(xiàn)減少接觸是控制疫情最有效的途徑,并對(duì)印度馬哈拉施特拉邦、泰米爾納德邦和德里的疫情進(jìn)行短期預(yù)測(cè),建議增強(qiáng)對(duì)馬哈拉施特拉邦和泰米爾納德邦的防控力度.
也有部分學(xué)者運(yùn)用傳統(tǒng)統(tǒng)計(jì)模型對(duì)我國(guó)新冠疫情進(jìn)行預(yù)測(cè)和分析.林德雙等[7]運(yùn)用ARIMA模型對(duì)中國(guó)疫情發(fā)展情況進(jìn)行了預(yù)測(cè).白璐等[8]利用ARIMA(1,1,1)模型對(duì)湖北省新冠肺炎確診人數(shù)進(jìn)行短期預(yù)測(cè),并對(duì)相關(guān)防疫政策提供建議.王旭艷等[9]采用平滑指數(shù)模型對(duì)累計(jì)確診人數(shù)、累計(jì)治愈人數(shù)以及累計(jì)死亡人數(shù)等進(jìn)行擬合和預(yù)測(cè).
此外,一些學(xué)者考慮了機(jī)器學(xué)習(xí)模型,但大多數(shù)是運(yùn)用機(jī)器學(xué)習(xí)模型對(duì)新冠疫情進(jìn)行診斷.高瞻等[10]利用XGBoost模型構(gòu)建了新冠肺炎智能檢測(cè)系統(tǒng),能夠準(zhǔn)確地診斷新冠肺炎.Li等[11]提出了一個(gè)基于XGBoost的分類(lèi)模型來(lái)區(qū)分流感患者和新冠肺炎患者.少部分學(xué)者運(yùn)用機(jī)器學(xué)習(xí)模型對(duì)新冠疫情的趨勢(shì)進(jìn)行預(yù)測(cè),如季偉東等[12]提出ADVPSO優(yōu)化的神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)新冠疫情傳播趨勢(shì),具有較好的實(shí)用性.
盡管上述模型在一定程度上刻畫(huà)了新冠疫情的趨勢(shì),但是仍然存在一些不足:1)多數(shù)學(xué)者預(yù)測(cè)分析之前未對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,大多數(shù)預(yù)測(cè)模型的預(yù)測(cè)精度和準(zhǔn)確度有待提高;2)多數(shù)學(xué)者多采用傳統(tǒng)的傳染病模型以及統(tǒng)計(jì)模型,并未考慮機(jī)器學(xué)習(xí)模型以及深度學(xué)習(xí)模型;3)大多數(shù)模型僅僅采用短期數(shù)據(jù)進(jìn)行短期預(yù)測(cè),對(duì)實(shí)際的疫情防控幫助有限;4)采用的數(shù)據(jù)多為傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)存在獲取周期長(zhǎng)、容量較小以及時(shí)效性較差等缺點(diǎn),必然會(huì)影響預(yù)測(cè)的準(zhǔn)確度與時(shí)效性.
預(yù)測(cè)效果優(yōu)秀與否不僅僅取決于預(yù)測(cè)模型的好壞,選取有效的預(yù)測(cè)數(shù)據(jù)也至關(guān)重要.在大數(shù)據(jù)背景下,網(wǎng)絡(luò)搜索數(shù)據(jù)(Web Search Data,WSD)克服了傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的缺點(diǎn),具有較強(qiáng)的便利性、時(shí)效性以及對(duì)用戶(hù)的敏感性.實(shí)際上,Ginsberg 等[13]利用 Google 搜索數(shù)據(jù)準(zhǔn)確地預(yù)測(cè)了美國(guó)各地區(qū)流感疫情每周的變化狀況,該研究方法引起國(guó)內(nèi)外專(zhuān)家學(xué)者的廣泛關(guān)注.李秀婷等[14]發(fā)現(xiàn)網(wǎng)絡(luò)搜索信息與流感趨勢(shì)的歷史信息互補(bǔ),歷史信息能夠較好地預(yù)測(cè)流感趨勢(shì),而網(wǎng)絡(luò)搜索信息能夠保證對(duì)新變化的即時(shí)預(yù)測(cè)的精確度.王若佳等[15]指出歷史數(shù)據(jù)以及網(wǎng)絡(luò)搜索數(shù)據(jù)的綜合使用具有良好的監(jiān)測(cè)效果.Kurian等[16]發(fā)現(xiàn)谷歌趨勢(shì)上的搜索關(guān)鍵詞與美國(guó)部分地區(qū)新冠疫情的爆發(fā)具有強(qiáng)烈的相關(guān)性.
針對(duì)上述不足,本文將與我國(guó)新冠肺炎相關(guān)的網(wǎng)絡(luò)搜索數(shù)據(jù)(Web Search Data,WSD)、自適應(yīng)噪聲的完整集合經(jīng)驗(yàn)?zāi)B(tài)分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)和極端梯度提升樹(shù)(eXtreme Gradient Boosting,XGB)結(jié)合起來(lái)構(gòu)建我國(guó)新冠每日新增確診人數(shù)預(yù)測(cè)模型,所構(gòu)建的組合模型(CEEMDAN-XGB&WSD)具備良好的時(shí)效性、穩(wěn)定性和精確度.同時(shí)引入CEEMDAN-XGB(未加入網(wǎng)絡(luò)搜索數(shù)據(jù))、CEEMDAN-LSTM&WSD(長(zhǎng)短期記憶網(wǎng)絡(luò)模型)、CEEMDAN-LSTM(未加入網(wǎng)絡(luò)搜索數(shù)據(jù))、CEEMDAN-BP&WSD(神經(jīng)網(wǎng)絡(luò)模型)、CEEMDAN-SVR&WSD(支持向量回歸模型)、CEEMDAN-RFR&WSD(隨機(jī)森林模型)、CEEMDAN-LGB&WSD(輕量提升樹(shù)模型)作為基準(zhǔn)模型進(jìn)行相應(yīng)的對(duì)比分析.因此本文將從以下4個(gè)方面展開(kāi)研究:1)基于相關(guān)參考文獻(xiàn),分別從疫病名稱(chēng)、病理征狀、傳染防控、政策舉措、器具名稱(chēng)以及機(jī)構(gòu)、職業(yè)群體和場(chǎng)所名稱(chēng)6個(gè)方面構(gòu)建與我國(guó)新冠疫情每日確診人數(shù)相關(guān)的網(wǎng)絡(luò)搜索關(guān)鍵詞詞庫(kù),并采用互相關(guān)系數(shù)和逐步回歸的思想篩選出最終預(yù)測(cè)變量;2)對(duì)最終確定的預(yù)測(cè)變量與被預(yù)測(cè)變量采用數(shù)據(jù)預(yù)處理方式CEEMDAN去除高頻噪聲并重構(gòu)數(shù)據(jù);3)將重構(gòu)后的數(shù)據(jù)集引入XGB模型,并運(yùn)用網(wǎng)格搜索的方法尋找最優(yōu)超參數(shù),構(gòu)建CEEMDAN-XGB&WSD模型,進(jìn)而對(duì)我國(guó)新冠疫情每日新增確診人數(shù)的變化情況進(jìn)行探究和分析;4)引入多個(gè)基準(zhǔn)模型和性能評(píng)價(jià)指標(biāo)對(duì)組合模型進(jìn)行較為科學(xué)、全面的評(píng)價(jià).圖1展示本文的工作流程與提出的組合模型.
圖1 組合模型流程圖Fig.1 Flow chart of combined model
本文采用的中國(guó)新冠每日新增確診人數(shù)為被預(yù)測(cè)變量,來(lái)自中華人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)官方網(wǎng)站,時(shí)間區(qū)間為2020年1月10日-2020年12月31日.預(yù)測(cè)變量為與我國(guó)新冠肺炎相關(guān)的網(wǎng)絡(luò)搜索關(guān)鍵詞,數(shù)據(jù)來(lái)源于百度指數(shù),時(shí)間區(qū)間為2020年1月10日-2020年12月31日.
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人類(lèi)社會(huì)不斷產(chǎn)生具有更強(qiáng)時(shí)效性的新數(shù)據(jù).在流行病爆發(fā)時(shí),人們會(huì)通過(guò)百度、谷歌等搜索引擎查詢(xún)?cè)摬〉谋l(fā)情況以及相應(yīng)的預(yù)防措施等.因此,利用開(kāi)源的網(wǎng)絡(luò)搜索數(shù)據(jù)監(jiān)測(cè)我國(guó)新冠疫情是對(duì)傳統(tǒng)監(jiān)測(cè)手段的有效補(bǔ)充,能夠起到早期預(yù)警、指導(dǎo)醫(yī)療救治以及完善防控策略等作用.由于與我國(guó)新冠疫情相關(guān)的網(wǎng)絡(luò)搜索詞較多,選取有效的、預(yù)測(cè)能力好的網(wǎng)絡(luò)搜索關(guān)鍵詞至關(guān)重要.本次研究對(duì)網(wǎng)絡(luò)搜索關(guān)鍵詞的選取和確定步驟如下:
2.1.1 初始網(wǎng)絡(luò)搜索關(guān)鍵詞的確定
查閱相關(guān)文獻(xiàn),分別從疫病名稱(chēng)、病理征狀、傳染防控、政策舉措、器具名稱(chēng)以及機(jī)構(gòu)、職業(yè)群體和場(chǎng)所名稱(chēng)6個(gè)方面選取與我國(guó)新冠每日新增確診人數(shù)相關(guān)的96個(gè)初始關(guān)鍵詞,如表1所示.
表1 網(wǎng)絡(luò)搜索關(guān)鍵詞詞庫(kù)Table 1 Thesaurus of web search keywords
2.1.2 潛在預(yù)測(cè)變量篩選
首先去除百度指數(shù)中沒(méi)有的42個(gè)初始網(wǎng)絡(luò)搜索關(guān)鍵詞;其次,由于部分關(guān)鍵詞與被預(yù)測(cè)變量相關(guān)性不高,對(duì)模型的預(yù)測(cè)效果貢獻(xiàn)度較低,因此需要篩選出可能具有良好預(yù)測(cè)性能的關(guān)鍵詞.互相關(guān)系數(shù)可以計(jì)算兩個(gè)時(shí)間序列在做任意兩個(gè)不同時(shí)刻的相關(guān)程度,從而尋找與被預(yù)測(cè)變量相關(guān)性較高的預(yù)測(cè)變量.取閾值為±0.7,采用互相關(guān)分析選取16個(gè)潛在預(yù)測(cè)能力較好的預(yù)測(cè)變量.被預(yù)測(cè)變量自相關(guān)系數(shù)為0.621,滯后階數(shù)為1,由于歷史信息對(duì)預(yù)測(cè)至關(guān)重要,故放入潛在預(yù)測(cè)變量中,與網(wǎng)絡(luò)搜索數(shù)據(jù)綜合使用.
2.1.3 最終預(yù)測(cè)變量的確定
不同的網(wǎng)絡(luò)搜索關(guān)鍵詞對(duì)預(yù)測(cè)效果的貢獻(xiàn)不同,有些詞匯對(duì)預(yù)測(cè)貢獻(xiàn)較小,反而增加模型復(fù)雜度,應(yīng)當(dāng)剔除.本次研究采用逐步回歸的思想,建立回歸模型,根據(jù)AIC準(zhǔn)則剔除貢獻(xiàn)度低的預(yù)測(cè)變量,最終保留7個(gè)具有良好預(yù)測(cè)性能的預(yù)測(cè)變量,結(jié)果如表2所示.
表2 被預(yù)測(cè)變量與預(yù)測(cè)變量相關(guān)分析Table 2 Correlation analysis between predicted variables and predictors
本次數(shù)據(jù)具有非平穩(wěn)、非線性、信噪比低以及局部噪聲大等特點(diǎn),直接帶入模型進(jìn)行預(yù)測(cè)效果較差,因此在建模之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.Huang等[17]提出一種適用于非線性非平穩(wěn)信號(hào)的自適應(yīng)信號(hào)時(shí)頻處理方法—經(jīng)驗(yàn)?zāi)B(tài)分解(EMD).為了克服EMD的模態(tài)混疊現(xiàn)象,Wu等[18]又提出了一種噪聲輔助信號(hào)分析方法—集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD),但仍然存在計(jì)算成本大、重構(gòu)誤差大等缺點(diǎn).Yeh等[19]提出了互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMD),在原始信號(hào)中加入成對(duì)正負(fù)輔助白噪聲,在集合平均時(shí)相抵消,提高分解效率并降低重構(gòu)誤差.Torres等[20]對(duì)CEEMD進(jìn)行了改進(jìn),提出了自適應(yīng)噪聲的完整集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN),解決了集合平均時(shí)IMF分量無(wú)法對(duì)齊的問(wèn)題.此方法已在一些工程應(yīng)用方面取得了較好的效果,如心電信號(hào)去噪等[21].
本文采用自適應(yīng)噪聲的完整集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)將原始數(shù)據(jù)分解成幾個(gè)從高頻到低頻的IMF分量,去除頻率較高的噪聲,保留低頻分量進(jìn)行數(shù)據(jù)重構(gòu).定義待分解數(shù)據(jù)為X(t),定義算子Ek(·)表示數(shù)據(jù)經(jīng)過(guò)EMD分解后得到的第k個(gè)固有模態(tài)分量,設(shè)數(shù)據(jù)分解后共有K個(gè)固有模態(tài)分量,則CEEMDAN算法分為如下幾個(gè)步驟.
步驟1.在原始數(shù)據(jù)中添加不同幅度的高斯白噪聲,進(jìn)行EMD分解:
(1)
(2)
(3)
步驟4.重復(fù)上述步驟直到提取出所有固有模態(tài)分量及最終殘差(趨勢(shì)項(xiàng))r(t),則原數(shù)據(jù)可以表示為:
(4)
步驟5.去除頻率較高的噪聲(前a個(gè)IMF分量,a∈{1,2,…,K},a一般由經(jīng)驗(yàn)確定),保留低頻分量及趨勢(shì)項(xiàng)進(jìn)行數(shù)據(jù)重構(gòu),則重構(gòu)數(shù)據(jù)為:
(5)
被預(yù)測(cè)變量yt的去噪過(guò)程以及去噪后數(shù)據(jù)對(duì)比如圖2所示.從圖2可以看出原始數(shù)據(jù)經(jīng)過(guò)CEEMDAN分解后,得到5個(gè)固有模態(tài)分量和趨勢(shì)項(xiàng).在剔除頻率較高的噪聲(IFM1)并進(jìn)行重構(gòu)后得到重構(gòu)數(shù)據(jù).重構(gòu)數(shù)據(jù)保留了數(shù)據(jù)的主要特征,變得更加平滑.根據(jù)重構(gòu)數(shù)據(jù)分析原始數(shù)據(jù)的本質(zhì)特征,可以得到更加合理準(zhǔn)確的評(píng)估和預(yù)測(cè).
圖2 數(shù)據(jù)去噪過(guò)程及對(duì)比Fig.2 Data denoising and comparison
極端提升樹(shù)是Chen等[22]提出的基于集成思想的機(jī)器學(xué)習(xí)算法.與傳統(tǒng)的集成學(xué)習(xí)不同,傳統(tǒng)的集成學(xué)習(xí)如隨機(jī)森林(RF)是通過(guò)減少模型方差提高性能,極端提升樹(shù)(XGBoost)通過(guò)減少模型的偏差提高性能.作為機(jī)器學(xué)習(xí)方法的一種,XGBoost在網(wǎng)絡(luò)入侵檢測(cè)[23]、衛(wèi)星網(wǎng)絡(luò)協(xié)調(diào)態(tài)勢(shì)預(yù)測(cè)[24]等工程應(yīng)用方面取得了良好的效果.極端提升樹(shù)的主要思想就是基于當(dāng)前的模型加入另一個(gè)模型,使得組合模型的效果優(yōu)于當(dāng)前模型,以下是推導(dǎo)過(guò)程.
(6)
(7)
(8)
對(duì)式(7)進(jìn)行泰勒展開(kāi)
(9)
(10)
(11)
對(duì)目標(biāo)函數(shù)進(jìn)行變形:
(12)
(13)
對(duì)wo求偏導(dǎo)進(jìn)行求解后帶入目標(biāo)函數(shù)得到:
(14)
極端提升樹(shù)利用貪心算法遍歷樹(shù)模型的所有分裂葉子節(jié)點(diǎn),選擇分裂后目標(biāo)函數(shù)增益最大的葉子節(jié)點(diǎn)進(jìn)行分裂,判定條件如下所示:
(15)
從表2可知,我國(guó)新冠每日新增確診人數(shù)與本身滯后1階變量存在顯著相關(guān)關(guān)系,并且是重要的歷史信息,故選取其1階滯后作為預(yù)測(cè)變量;接觸傳播滯后15階與每日新增確診人數(shù)存在較高的正相關(guān),高達(dá)0.841,接觸傳播是新冠肺炎的主要傳播方式,表明人民群眾對(duì)傳染防控的關(guān)注,傳染防控的落實(shí)程度將會(huì)影響每日新增確診人數(shù);竹鼠、野味和果子貍的21階滯后均與我國(guó)新冠每日新增確診人數(shù)存在較高的正相關(guān),竹鼠、野味和果子貍也是新冠肺炎疑似攜帶者;延長(zhǎng)春節(jié)假期的17階滯后也與被預(yù)測(cè)變量存在較高的正相關(guān)性,確保疫情防控各項(xiàng)政策措施落地落實(shí)才能夠精準(zhǔn)科學(xué)防控疫情;消毒液的6階滯后與預(yù)測(cè)變量存在較高的正相關(guān),合理使用疫情防控器具才能夠打贏疫情防控戰(zhàn).
綜上所述,本次研究的輸入變量為{yt-1,x2,t-15,x5,t-21,x8,t-17,x9,t-21,x10,t-6,x12,t-21},yt為輸出變量,實(shí)驗(yàn)數(shù)據(jù)集為{yt-1,x2,t-15,x5,t-21,x8,t-17,x9,t-21,x10,t-6,x12,t-21:yt},共335個(gè)樣本.為增強(qiáng)模型的預(yù)測(cè)性能,采用式(16)對(duì)數(shù)據(jù)集進(jìn)行歸一化.
(16)
式(16)中,zs表示第s個(gè)樣本點(diǎn)取值,zmin、zmax分別表示樣本區(qū)間的最小值和最大值.歸一化后數(shù)值落入[0,1]區(qū)間,這種數(shù)據(jù)處理方式一定程度上能夠提升模型的預(yù)測(cè)能力[25].模型訓(xùn)練完成后,再將預(yù)測(cè)結(jié)果進(jìn)行反歸一化N-1(zs)得到預(yù)測(cè)值.考慮到模型的泛化能力,將歸一化后的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集;同時(shí)為了進(jìn)一步檢驗(yàn)預(yù)測(cè)模型的穩(wěn)健性,本次研究分別檢驗(yàn)?zāi)P?2期短期、36期中期以及72期長(zhǎng)期的預(yù)測(cè)性能.
為了對(duì)組合模型進(jìn)行較為科學(xué)、全面的評(píng)價(jià),本文引入多種模型預(yù)測(cè)性能評(píng)價(jià)指標(biāo)對(duì)組合模型的預(yù)測(cè)性能進(jìn)行評(píng)測(cè),分別有平均絕對(duì)誤差MAE,均等系數(shù)EC,平均絕對(duì)百分比誤差MAPE,均方根誤差RMSE,絕對(duì)百分比誤差REP,其公式如下所示.
(17)
(18)
(19)
(20)
(21)
本次研究運(yùn)用Python語(yǔ)言環(huán)境,主要基于scikit-learn庫(kù)建立組合模型CEEMDAN-XGB&WSD.根據(jù)預(yù)測(cè)算法流程,將經(jīng)過(guò)預(yù)處理的數(shù)據(jù)集導(dǎo)入XGB模型,基于網(wǎng)格搜索的思想尋找最優(yōu)超參數(shù)后,運(yùn)用最優(yōu)超參數(shù)結(jié)合訓(xùn)練集構(gòu)建模型,獲得最優(yōu)參數(shù),最后將最優(yōu)參數(shù)的模型保留并分別在12期短期、36期中期以及72期長(zhǎng)期測(cè)試集上檢驗(yàn)所構(gòu)建模型的預(yù)測(cè)性能以及模型的穩(wěn)健性.
預(yù)測(cè)結(jié)果顯示組合模型CEEMDAN-XGB&WSD在短期、中期以及長(zhǎng)期預(yù)測(cè)中均有良好的性能.根據(jù)圖3所展示的短期、中期、長(zhǎng)期每日新增確診人數(shù)REP箱線圖,可以看出在不同時(shí)期與其他基準(zhǔn)模型相比,組合模型CEEMDAN-XGB&WSD的絕對(duì)百分比誤差REP整體值較小并且相對(duì)更加集中,表明本次研究提出的模型具有更好的精確度和穩(wěn)定性.
圖3 每日新增確診人數(shù)REP箱線圖Fig.3 Box-plot of REP of daily new coronavirus cases
為了進(jìn)一步評(píng)價(jià)組合模型CEEMDAN-XGB&WSD,本文以MAE、EC、MAPE以及RMSE為評(píng)價(jià)指標(biāo),以短期(12期)、中期(36期)以及長(zhǎng)期(72期)為時(shí)間區(qū)間,分別測(cè)評(píng)CEEMDAN-XGB &WSD、CEEMDAN-XGB、CEEMDAN-LSTM &WSD、CEEMDAN-LSTM、CEEMDAN-BP &WSD、CEEMDAN-SVR &WSD、CEEMDAN-RFR&WSD以及CEEMDAN-LGB &WSD這8個(gè)預(yù)測(cè)模型的預(yù)測(cè)性能,結(jié)果如表3所示.
表3 不同模型評(píng)價(jià)指標(biāo)對(duì)比Table 3 Comparison of evaluation indexes of different models
從短期和中期來(lái)看,組合模型CEEMDAN-XGB&WSD的預(yù)測(cè)性能的各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于其他7個(gè)預(yù)測(cè)模型,從長(zhǎng)期看,組合模型CEEMDAN-XGB&WSD的預(yù)測(cè)性能的評(píng)價(jià)指標(biāo)中僅MAPE略微高于CEEMDAN-XGB模型,其余評(píng)價(jià)指標(biāo)均優(yōu)于其他7個(gè)模型.
從穩(wěn)健性上看,組合模型CEEMDAN-XGB&WSD從短期到長(zhǎng)期的預(yù)測(cè)性能波動(dòng)幅度不大,其預(yù)測(cè)誤差和擬合度不隨預(yù)測(cè)時(shí)間的增加而發(fā)生劇烈波動(dòng),穩(wěn)健性明顯優(yōu)于其他7個(gè)模型,這充分表明在本次研究中組合模型CEEMDAN-XGB&WSD具有較好的穩(wěn)健性.因此,從整體上看,組合模型CEEMDAN-XGB&WSD具有良好的預(yù)測(cè)性能和穩(wěn)健性,優(yōu)于其他7個(gè)預(yù)測(cè)模型.
在擬合度方面,相對(duì)于不加入網(wǎng)絡(luò)搜索數(shù)據(jù)的CEEMDAN-XGB模型,組合模型CEEMDAN-XGB&WSD的擬合度在短期、中期和長(zhǎng)期分別提升了1.41%、0.68%和0.38%;相對(duì)于不加入網(wǎng)絡(luò)搜索數(shù)據(jù)的CEEMDAN-LSTM模型,擬合度在短期、中期和長(zhǎng)期分別提升了1.67%、2.59%和4.80%;而相對(duì)于CEEMDAN-LSTM&WSD、CEEMDAN-BP&WSD、CEEMDAN-SVR&WSD、CEEMDAN-RFR&WSD以及CEEMDAN-LGB&WSD模型,其擬合度在短期分別提升了3.27%、1.04%、27.59%、2.57%和0.90%,在中期分別提升了4.54%、8.19%、54.62%、0.77%和1.99%,在長(zhǎng)期分別提升了9.28%、8.64%、14.11%、0.83%和0.64%.
在誤差方面以MAE為評(píng)價(jià)指標(biāo),可以看出組合模型CEEMDAN-XGB&WSD具有強(qiáng)大的學(xué)習(xí)能力和泛化能力,可以將誤差控制在合理范圍內(nèi),并且在不同時(shí)期與其他模型相比與預(yù)測(cè)性能均有不同程度的提高.相對(duì)于不加入網(wǎng)絡(luò)搜索數(shù)據(jù)的CEEMDAN-XGB模型,組合模型CEEMDAN-XGB&WSD的平均絕對(duì)誤差在短期、中期和長(zhǎng)期分別降低了24.72%、6.88%和0.83%;相對(duì)于不加入網(wǎng)絡(luò)搜索數(shù)據(jù)的CEEMDAN-LSTM模型,平均絕對(duì)誤差在短期、中期和長(zhǎng)期分別降低了19.11%、25.43%和30.16%;而相對(duì)于CEEMDAN-LSTM&WSD、CEEMDAN-BP&WSD、CEEMDAN-SVR&WSD、CEEMDAN-RFR&WSD以及CEEMDAN-LGB&WSD模型,其平均絕對(duì)誤差在短期分別降低了42.02%、22.02%、81.02%、33.87%和13.36%,在中期分別降低了36.33%、49.47%、85.03%、8.89%和17.66%,在長(zhǎng)期分別降低了52.10%、48.80%、82.69%、4.22%和5.76%.
綜上所述,在我國(guó)新冠每日新增確診人數(shù)的預(yù)測(cè)研究中,組合模型CEEMDAN-XGB&WSD具有卓越的記憶功能、強(qiáng)大的學(xué)習(xí)能力、優(yōu)秀的泛化能力以及良好的穩(wěn)健性,可以進(jìn)行較為準(zhǔn)確并且穩(wěn)定的短期、中期和長(zhǎng)期預(yù)測(cè);同時(shí)也證明加入了網(wǎng)絡(luò)搜索數(shù)據(jù)的CEEMDAN-XGB&WSD模型性能明顯優(yōu)于不加入網(wǎng)絡(luò)搜索數(shù)據(jù)的CEEMDAN-XGB模型以及CEEMDAN-LSTM模型,網(wǎng)絡(luò)搜索數(shù)據(jù)能夠?qū)v史數(shù)據(jù)進(jìn)行補(bǔ)充,進(jìn)一步提高模型預(yù)測(cè)的準(zhǔn)確性.
本次研究結(jié)合網(wǎng)絡(luò)搜索數(shù)據(jù),運(yùn)用CEEMDAN進(jìn)行去噪后引入XGBoost模型,構(gòu)建了組合模型CEEMDAN-XGB&WSD,經(jīng)過(guò)對(duì)比分析得出如下結(jié)論.
1)網(wǎng)絡(luò)搜索數(shù)據(jù)具有時(shí)效性強(qiáng)、數(shù)據(jù)容量大以及易于獲取等優(yōu)點(diǎn),可以對(duì)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行有效地補(bǔ)充.
2)將CEEMDAN和XGBoost引入組合模型使得其具有強(qiáng)大的學(xué)習(xí)能力以及穩(wěn)健性,可以將誤差控制在合理范圍內(nèi)并且不隨預(yù)測(cè)時(shí)期的增加而劇烈波動(dòng).
3)從預(yù)測(cè)性能上看,組合模型CEEMDAN-XGB&WSD在短期、中期以及長(zhǎng)期都具有較高的精確度,預(yù)測(cè)性能明顯優(yōu)于其他7個(gè)模型,說(shuō)明本次研究構(gòu)造的組合模型CEEMDAN-XGB&WSD在我國(guó)新冠每日新增確診人數(shù)的預(yù)測(cè)上具有良好的性能,是一個(gè)合理有效的模型.
綜上所述,本次研究構(gòu)造的組合模型CEEMDAN-XGB&WSD能夠準(zhǔn)確地預(yù)測(cè)每日新增確診人數(shù),為我國(guó)制定合理有效的防疫政策提供有力的數(shù)據(jù)支撐.同時(shí)本次研究所構(gòu)建的模型也可以為與疫情相關(guān)的其他指標(biāo)的預(yù)測(cè)提供思路,將模型推廣到其他疫情相關(guān)指標(biāo)的預(yù)測(cè)中.