周堯民,黃恒君
(蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,甘肅蘭州730020)
改革開(kāi)放以來(lái),我國(guó)的工業(yè)、交通和服務(wù)業(yè)等發(fā)展迅速,其發(fā)展水平、實(shí)力和規(guī)模均達(dá)到世界先進(jìn)水平,人們的生活水平不斷提高,物質(zhì)需求得到極大的滿足。隨著工業(yè)發(fā)展和城市開(kāi)發(fā),能源消耗急劇增加,化石燃料、汽車尾氣等排放到大氣中,大氣環(huán)境受到嚴(yán)重污染,霧霾天氣頻發(fā),且從局部污染向區(qū)域性污染擴(kuò)散。大氣污染已經(jīng)成為制約經(jīng)濟(jì)發(fā)展的重要因素之一,影響了人們的正常生活以及社會(huì)的安定(漆威,2015;宋凱藝和卞元超,2019)[1,2]。
近十年來(lái),PM2.5(可吸入顆粒物,即大氣中直徑小于或等于2.5 微米的顆粒物)一直是我國(guó)大部分地區(qū)環(huán)境的首要污染物,其在大氣中的含量雖然很少,但對(duì)空氣質(zhì)量和能見(jiàn)度的影響很大(解堊,2011)[3]。更重要的是,PM2.5直徑小,成分復(fù)雜,含大量的有毒、有害物質(zhì),且包含多種細(xì)小顆粒物。細(xì)小顆粒物進(jìn)入人體后會(huì)附著在呼吸道及肺葉上,對(duì)人體的一系列系統(tǒng)產(chǎn)生危害,而有害氣體、重金屬等會(huì)溶解于血液中,對(duì)人體健康的傷害更大(張義和王愛(ài)君,2020)[4]。PM2.5可以在大氣中長(zhǎng)時(shí)間停留,長(zhǎng)期高水平的PM2.5濃度會(huì)對(duì)生態(tài)環(huán)境、公共健康及社會(huì)經(jīng)濟(jì)構(gòu)成嚴(yán)重威脅(薛濤等,2020)[5]。全球疾病負(fù)擔(dān)研究中心(GBD)發(fā)布的報(bào)告顯示,2015 年全球約有400萬(wàn)人因PM2.5污染而過(guò)早死亡,而我國(guó)就有100 多萬(wàn)人,遠(yuǎn)高于歐洲和北美地區(qū)(Wang et al.,2020)[6]。PM2.5污染不僅會(huì)對(duì)健康造成直接損害,而且會(huì)增加健康支出,帶來(lái)經(jīng)濟(jì)損失。因此,PM2.5污染已經(jīng)引起研究者的廣泛關(guān)注(康曉明等,2015)[7]。
準(zhǔn)確預(yù)測(cè)PM2.5濃度的變化,從數(shù)據(jù)的角度來(lái)講,就是實(shí)時(shí)提供未來(lái)某時(shí)段PM2.5濃度的相關(guān)信息,使人們及時(shí)采取防護(hù)措施,從而在一定程度上降低大氣污染對(duì)人體的危害。基于此,本文利用“分解—聚類—集成”的學(xué)習(xí)范式,提取時(shí)間序列的各部分特征和長(zhǎng)期趨勢(shì),構(gòu)建先分解、再聚類、后集成的預(yù)測(cè)模型,并以北京市日均PM2.5濃度序列進(jìn)行實(shí)際預(yù)測(cè)研究。本文首先利用自適應(yīng)加噪聲完備集成經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)將原始序列進(jìn)行分解,并依據(jù)各分量的正則化長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(ELSTM)模型的預(yù)測(cè)效果,將預(yù)測(cè)效果不好的高頻分量利用變分模態(tài)分解(VMD)進(jìn)行二次分解,然后運(yùn)用基于形狀的時(shí)間序列聚類(K-shape)算法將子序列進(jìn)行聚類,將聚類結(jié)果作為預(yù)測(cè)模塊的輸入,并對(duì)各個(gè)預(yù)測(cè)結(jié)果進(jìn)行集成得到最終值。本文構(gòu)建的CEEMDANVMD-K-ELSTM 二次分解組合模型,可以提高模型的預(yù)測(cè)精度。
通過(guò)對(duì)城市空氣污染的研究文獻(xiàn)進(jìn)行梳理可以發(fā)現(xiàn),PM2.5濃度預(yù)測(cè)屬于時(shí)間序列研究的一類問(wèn)題,而時(shí)間序列預(yù)測(cè)問(wèn)題一直受到眾多學(xué)者的關(guān)注,其采用的預(yù)測(cè)方法主要有經(jīng)典統(tǒng)計(jì)模型、支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型等。經(jīng)典統(tǒng)計(jì)模型側(cè)重于線性回歸。Sun 等(2013)[8]為應(yīng)對(duì)某些關(guān)鍵氣象因素以及PM2.5濃度在先驗(yàn)中所呈現(xiàn)出的非高斯分布,采用服從對(duì)數(shù)正態(tài)分布、Gamma 分布和廣義極值分布(GeV)的隱馬爾科夫模型,較為準(zhǔn)確地預(yù)測(cè)了北加州某地的PM2.5濃度超限天數(shù),有效地減少了虛假警示。龔明等(2016)[9]建立了灰色馬爾科夫鏈模型,并在此基礎(chǔ)上對(duì)殘差進(jìn)行修正,融合了灰色模型和馬爾科夫模型的優(yōu)點(diǎn),提高了預(yù)測(cè)精度以及預(yù)測(cè)值與實(shí)際值的吻合度。沈勁等(2020)[10]采用氣象因子聚類和多元回歸方法,基于廣東省的空氣質(zhì)量數(shù)據(jù)建立了統(tǒng)計(jì)預(yù)報(bào)模型,發(fā)現(xiàn)該模型能夠較好地模擬NO2、SO2、CO、PM10、PM2.5的日均濃度水平和變化趨勢(shì)。但這類方法容易受到各種空氣污染物濃度變化的影響,而且確切掌握其變化有著較大的難度,其預(yù)測(cè)精度往往有限。因此,經(jīng)典統(tǒng)計(jì)模型難以適應(yīng)時(shí)間序列內(nèi)含的非平穩(wěn)、含噪聲等特點(diǎn),在預(yù)測(cè)中得不到較為準(zhǔn)確的結(jié)果。
由于經(jīng)典統(tǒng)計(jì)模型存在局限性,更多的學(xué)者開(kāi)始采用時(shí)間序列法對(duì)PM2.5濃度進(jìn)行預(yù)測(cè)。自回歸移動(dòng)平均模型(Autoregressive Integrated Moving Average Model,ARIMA)在時(shí)間序列的線性特征提取方面表現(xiàn)較好,Jian Le 等(2012)[11]利用 ARIMA 分析了氣壓、風(fēng)速、溫度和相對(duì)濕度在細(xì)微顆粒物濃度預(yù)測(cè)中的顯著影響作用。但這類模型在非線性特征的提取上表現(xiàn)不佳,時(shí)間序列的復(fù)雜性和非線性使其不能達(dá)到令人滿意的效果。為了解決以上問(wèn)題,研究者開(kāi)始采用機(jī)器學(xué)習(xí)方法進(jìn)行研究。其中,支持向量機(jī)(Support Vector Machine,SVM)在小樣本、非線性及高維模式識(shí)別中具有獨(dú)特優(yōu)勢(shì)。Sun 等(2017)[12]利用主成分分析和最小二乘支持向量機(jī)的混合模型對(duì)PM2.5濃度進(jìn)行了短期預(yù)測(cè)。李龍(2014)[13]則使用最小二乘SVM 模型結(jié)合氣象因素和污染物濃度特征預(yù)測(cè)PM2.5濃度,其與傳統(tǒng)的SVM 模型相比具有更好的預(yù)測(cè)精度和泛化能力。Zhou 等(2019)[14]將多任務(wù)算法(Multi-task Learning,MTL)與多輸入支持向量機(jī)(Multi-output Support Vector Machine,M-SVM)相結(jié)合,利用MTL 對(duì)M-SVM 模型進(jìn)行訓(xùn)練,以優(yōu)化模型參數(shù)提取非線性特征,并利用臺(tái)北市多個(gè)檢測(cè)站點(diǎn)的PM2.5濃度進(jìn)行了多步預(yù)測(cè),以驗(yàn)證模型的有效性。但是,PM2.5這類時(shí)間序列的樣本量往往很大,SVM 在處理較大的數(shù)據(jù)集時(shí)存在計(jì)算量大、處理時(shí)間長(zhǎng)等問(wèn)題。因此,部分學(xué)者利用神經(jīng)網(wǎng)絡(luò)配合其他算法處理較大規(guī)模的數(shù)據(jù)并進(jìn)行海量數(shù)據(jù)計(jì)算,取得了長(zhǎng)足的進(jìn)步。在PM2.5濃度預(yù)測(cè)領(lǐng)域,石峰等(2017)[15]建立了基于灰狼群智能最優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,從非機(jī)理模型的角度結(jié)合氣象因素和空氣污染物對(duì)上海市的PM2.5濃度進(jìn)行了預(yù)測(cè),其模型精度優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)模型和支持向量回歸(Support Vector Regression,SVR)模型。周杉杉等(2018)[16]提出基于互信息最大相關(guān)和最小冗余準(zhǔn)則并結(jié)合粒子群優(yōu)化算法的混合特征選擇算法,利用遞歸模糊神經(jīng)網(wǎng)絡(luò)以最少的特征獲得最小的預(yù)測(cè)誤差,說(shuō)明該方法適用于PM2.5濃度預(yù)測(cè)。
為了充分利用不同模型的優(yōu)勢(shì),一些學(xué)者開(kāi)始研究組合模型預(yù)測(cè)方法。Wang 等(2015)[17]利用泰勒展開(kāi)修正模型誤差項(xiàng)將神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合,預(yù)測(cè)了太原市的SO2和PM10濃度。機(jī)器學(xué)習(xí)在時(shí)間序列預(yù)測(cè)中的運(yùn)用本質(zhì)上是對(duì)序列特征的監(jiān)督學(xué)習(xí),只有最大限度地學(xué)習(xí)序列的時(shí)間窗特征,才能更好地提高機(jī)器學(xué)習(xí)類方法的預(yù)測(cè)效果,而這是一般的機(jī)器學(xué)習(xí)模型難以做到的。在深度學(xué)習(xí)中,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)在空氣質(zhì)量預(yù)測(cè)中的應(yīng)用可以克服上述問(wèn)題。Huang 等(2018)[18]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型與 LSTM 模型相互融合,利用CNN 提取過(guò)去24 小時(shí)PM2.5濃度、風(fēng)力等信息,并將其序列輸入到LSTM 預(yù)測(cè)網(wǎng)絡(luò)中,其預(yù)測(cè)誤差小于 SVR、隨機(jī)森林(Random Forest,RF)等傳統(tǒng)模型以及單獨(dú)使用CNN 或LSTM 進(jìn)行預(yù)測(cè)的誤差。白盛楠等(2019)[19]采用灰色關(guān)聯(lián)度分析方法對(duì)多個(gè)氣象、大氣污染指標(biāo)進(jìn)行了關(guān)聯(lián)度分析,并通過(guò)搭建多變量的LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)PM2.5預(yù)測(cè)模型,實(shí)現(xiàn)了PM2.5日值濃度的準(zhǔn)確預(yù)測(cè)。蔣洪迅等(2021)[20]構(gòu)建了一種集成雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模 型 DLENN (Double -LSTM Ensemble Neural Network),以內(nèi)含的兩個(gè)方向LSTM 分別刻畫(huà)PM2.5濃度變化的趨勢(shì)性和周期性,并利用線性回歸復(fù)合神經(jīng)網(wǎng)絡(luò)捕捉PM2.5濃度變化的隨機(jī)性,其結(jié)果證明了DLENN 預(yù)測(cè)模型穩(wěn)定優(yōu)于其他集成模型。
鑒于結(jié)合機(jī)器學(xué)習(xí)方法建立的組合預(yù)測(cè)模型存在非平穩(wěn)數(shù)據(jù)學(xué)習(xí)能力不足以及優(yōu)化過(guò)程容易過(guò)擬合等問(wèn)題,一些學(xué)者提出了“分解—集成”的研究框架,將信號(hào)分解方法用于時(shí)間序列分析。Xiong 等(2019)[21]開(kāi)展的時(shí)間序列預(yù)測(cè)工作就是從信號(hào)分解出發(fā),有效降低了時(shí)間序列的非線性和非平穩(wěn)性。黃恒君和王偉科(2020)[22]將多模態(tài)分解與深度學(xué)習(xí)相結(jié)合,并利用多視角學(xué)習(xí),提高了模型的預(yù)測(cè)精度。蔣峰等(2021)[23]利用變分模態(tài)分解(Variational Mode Decomposition,VMD)對(duì) PM2.5濃度序列進(jìn)行分解并引入樣本熵對(duì)其進(jìn)行重構(gòu),采用改進(jìn)的探路者算法優(yōu)化極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM),最后利用極限學(xué)習(xí)機(jī)對(duì)每個(gè)重構(gòu)子序列進(jìn)行預(yù)測(cè)和集成,其預(yù)測(cè)的精度和穩(wěn)健性均有顯著的提升。為了更好地改進(jìn)預(yù)測(cè)效果,部分學(xué)者提出以二次分解的方式進(jìn)一步提取數(shù)據(jù)特征。Wang 等(2017)[24]研究了二次分解結(jié)構(gòu),將經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)所產(chǎn)生的分解信號(hào)利用小波分解(Wavelet Packet Decomposition,WPD)進(jìn)一步分解獲得最終的子序列?;诖?,本文在空氣污染研究中也采用二次分解結(jié)構(gòu),以提高PM2.5濃度序列預(yù)測(cè)精度,并利用自適應(yīng)加噪聲的完備集成經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN),改進(jìn)集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)所缺失的完備性。
雖然已有學(xué)者將二次分解技術(shù)運(yùn)用到時(shí)間序列預(yù)測(cè)中,并取得了一定的效果,但二次分解方法運(yùn)算時(shí)間過(guò)長(zhǎng)以及運(yùn)算效率低等問(wèn)題仍比較突出。因此,本文將二次分解與聚類相結(jié)合,合理減少子序列的數(shù)量并將其作為L(zhǎng)STM 神經(jīng)網(wǎng)絡(luò)的輸入,建立了多模態(tài)集成預(yù)測(cè)模型。首先,本文對(duì)數(shù)據(jù)進(jìn)行預(yù)先處理,運(yùn)用三次樣條插值法填補(bǔ)缺失值,并將無(wú)監(jiān)督序列轉(zhuǎn)化為有監(jiān)督序列,以配合LSTM 模型的輸入。其次,本文采用CEEMDAN 方法將原序列進(jìn)行分解,以避免模態(tài)混疊現(xiàn)象,改進(jìn)EEMD 對(duì)信號(hào)分解的不完整性,并進(jìn)一步將高頻信號(hào)利用VMD 進(jìn)行分解,以提取復(fù)雜分信號(hào)的潛在特征。再次,本文利用基于形狀相似度的時(shí)間序列聚類算法(K-shape)對(duì)分信號(hào)進(jìn)行聚類,用以區(qū)分所有成分之間的差異,并依據(jù)它們的特性將數(shù)據(jù)劃分為K 類。具體而言,各分信號(hào)和殘差成分的預(yù)測(cè)值可以分成不同的類別,每個(gè)類別中的序列具有相似的特征。第四,本文將LSTM 神經(jīng)網(wǎng)絡(luò)加入正則化項(xiàng),在規(guī)避遞歸神經(jīng)網(wǎng)絡(luò)梯度爆炸問(wèn)題的同時(shí),提高模型的穩(wěn)定性及泛化能力。第五,本文采用“分解—聚類—集成”框架作為組合模型的運(yùn)行機(jī)制,以更好地適應(yīng)時(shí)間序列非平穩(wěn)、高波動(dòng)、含噪聲的特點(diǎn)。具體而言,為了改善PM2.5濃度序列的預(yù)測(cè)精度,本文在“分解—聚類—集成”的研究范式下,從信號(hào)分解、信號(hào)預(yù)測(cè)以及對(duì)結(jié)果進(jìn)行集成等方面對(duì)已有模型進(jìn)行優(yōu)化和改進(jìn),構(gòu)建了CEEMDAN-VMD-K-ELSTM 二次分解組合模型。模型的基本流程如圖1 所示。
在圖1 的框架中,本文采用如下方法構(gòu)建二次分解集成預(yù)測(cè)模型,即CEEMDAN-VMD-KELSTM:(1)利用自適應(yīng)白噪聲的完備集成經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN),對(duì)PM2.5的原序列進(jìn)行信號(hào)分解;(2)將高頻信號(hào)通過(guò)變分模態(tài)分解(VMD)進(jìn)行二次分解,進(jìn)一步提取數(shù)據(jù)序列中的非線性和非平穩(wěn)性特征;(3)運(yùn)用基于形狀相似度的時(shí)間序列聚類算法(K-shape)將二次分解后的分信號(hào)進(jìn)行聚類,以減少預(yù)測(cè)模塊的計(jì)算量及運(yùn)行時(shí)間;(4)將聚類結(jié)果作為預(yù)測(cè)模塊的輸入,通過(guò)彈性正則化長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)(ELSTM)輸出各分信號(hào)的預(yù)測(cè)值;(5)對(duì)各分信號(hào)預(yù)測(cè)結(jié)果進(jìn)行集成,取其重復(fù)10 次的結(jié)果做平均,將其最終結(jié)果與基準(zhǔn)模型進(jìn)行比較分析,從而降低模型評(píng)價(jià)結(jié)果的隨機(jī)性。
圖1 CEEMDAN-VMD-K-ELSTM 模型流程
集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)來(lái)源于經(jīng)驗(yàn)?zāi)B(tài)分解(EMD),而EMD 是一種提取信號(hào)中非線性和非平穩(wěn)特征的技術(shù),其本質(zhì)是將信號(hào)分解為具有不同頻率的本征模態(tài)分量(IMF)(陳仁祥等,2012)[25]。但分解過(guò)程中出現(xiàn)的跳躍式變化,會(huì)使EMD 的分解結(jié)果產(chǎn)生模態(tài)混疊現(xiàn)象,即一個(gè)IMF 中包含差異極大的特征時(shí)間尺度,或者相近的特征時(shí)間尺度分布在不同的IMF 中,出現(xiàn)相鄰兩個(gè)IMF 波形混疊難以分辨,從而使分解結(jié)果失去實(shí)際意義(張?jiān)龋?016)[26]。EEMD則可以有效改善EMD 所產(chǎn)生的模態(tài)混疊,其步驟可以簡(jiǎn)述為:(1)s(t)為原始信號(hào)序列,vi(t)代表第i 次實(shí)驗(yàn)中添加的白噪聲序列,其分布為標(biāo)準(zhǔn)正態(tài)分布,第i 次的信號(hào)序列可以表示為Si(t)=s(t)+vi(t),其中,i=1,…,i 代表實(shí)驗(yàn)的次數(shù);(2)將分信號(hào)序列 si(t)利用EMD 進(jìn)行分解,得到其中,k=1,…,K代表分解的模態(tài)個(gè)數(shù);(3)s(t)的k 個(gè)模態(tài)分量為IMFk,對(duì)進(jìn)行平均可以得到
EEMD 所添加的白噪聲序列會(huì)對(duì)原始信號(hào)產(chǎn)生一定程度的破壞并有殘余,而且求均值過(guò)程的處理較為復(fù)雜。針對(duì)以上問(wèn)題,Torres 等(2011)[27]提出自適應(yīng)加噪聲的完備經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN),即引入自適應(yīng)高斯白噪聲這一概念,通過(guò)在每個(gè)階段添加有限次的自適應(yīng)白噪聲,實(shí)現(xiàn)在較少的平均次數(shù)下,其重構(gòu)誤差接近于0。CEEMDAN 可以有效避免模態(tài)混疊問(wèn)題的出現(xiàn),并彌補(bǔ)EEMD 分解不完整的缺點(diǎn),解決EEMD 計(jì)算效率低的問(wèn)題(李峰等,2016)[28]。本文歸納出CEEMDAN 的算法步驟。
第一,利用EEMD 算法分解得到第一個(gè)模態(tài)分量:
第二,在第一階段(k=1)計(jì)算第一個(gè)余量:
第三,分解R1[n]+ε1E1(ωi[n])(i=1,…,I)到第一個(gè)模態(tài)分量,則第二個(gè)模態(tài)分量可以表示為:
第四,對(duì)于k=2,…,K,我們計(jì)算第k 個(gè)余量:
第五,分解Rk[n]+εkEk(ωi[n])(i=1,…,I)到第k個(gè)模態(tài)分量上,則第k+1 個(gè)模態(tài)分量可以表示為:
第六,重復(fù)第四和第五步,直到殘差分量不適合被分解時(shí)停止分解。最終的余量滿足:R[n]=X[n]-其中,K 表示分解得到的固有模態(tài)函數(shù)的數(shù)量,參數(shù)X[n]表示為
變分模態(tài)分解(VMD)是Dragomiretskiy 和Zosso在2014 年提出的,它是一種新的混沌數(shù)據(jù)處理技術(shù)。VMD 分解是將信號(hào)分解為K 個(gè)本征模態(tài)函數(shù)(IMF),通過(guò)尋找一系列模態(tài)及各模態(tài)的中心頻率,重構(gòu)原始數(shù)據(jù)。VMD 分解的目的是使K 個(gè)本征模態(tài)函數(shù)的帶寬之和達(dá)到最小,進(jìn)而利用L2范數(shù)的平方最小達(dá)到上述要求。因此,分信號(hào)的瞬時(shí)頻譜具有一定的現(xiàn)實(shí)物理意義,其具體步驟分為兩步。
首先,構(gòu)造變分問(wèn)題。假設(shè)原始信號(hào)f 被分解為k 個(gè)分量,為保證分解序列為具有中心頻率的有限帶寬的模態(tài)分量,同時(shí)確保各模態(tài)的估計(jì)帶寬之和最小,其約束條件為所有模態(tài)之和與原始信號(hào)f 相等。具體的變分約束表達(dá)式為:
式中,{uk}={u1,u2,…,uk}是模態(tài),{ωk}={ω1,ω2,…,ωk}是模態(tài)的中心頻率,δ(t)為狄利克雷函數(shù),*為卷積運(yùn)算。
其次,求解變分問(wèn)題。我們引入拉格朗日乘子λ,轉(zhuǎn)變?yōu)闊o(wú)約束變分問(wèn)題,得到如下增廣拉格朗日表達(dá)式:
式中,α 為平衡參數(shù),其作用是減少高斯噪聲的干擾(朱敏等,2018)[29]。式(7)的優(yōu)化問(wèn)題采用迭代方向乘子法(ADMM),即利用式(8)至式(10),迭代更新 u、ω、λ。
由于時(shí)序數(shù)據(jù)具有特殊性,其聚類方法與截面數(shù)據(jù)聚類有所區(qū)別,因此,本文根據(jù)動(dòng)態(tài)規(guī)劃原理,對(duì)時(shí)間序列進(jìn)行扭曲,進(jìn)行必要的錯(cuò)位處理,以計(jì)算出最合適的距離,并依據(jù)時(shí)序數(shù)據(jù)的形狀相似性,將形狀相似的序列聚為一類,即K-shape 聚類算法(Gravano et al.,2016)[30]。
1.時(shí)間序列形狀相似度?;ハ嚓P(guān)測(cè)度是一種統(tǒng)計(jì)度量,由此可以確定x 和y 兩個(gè)序列的相似性。要實(shí)現(xiàn)平移不變性,計(jì)算互相關(guān)時(shí)應(yīng)保持y 序列不變,并將x 在y 上滑動(dòng),計(jì)算x 的每一個(gè)位移s 的內(nèi)積。若考慮所有的移動(dòng),CCw(x,y)=(c1,c2,…,cw),我們可以得到的互相關(guān)序列長(zhǎng)度為2m-1,則有如下定義:
我們計(jì)算出使CCw(x,y)最大的ω,進(jìn)而得到x相對(duì)于y 的最佳移動(dòng)s=w-m,進(jìn)而得到距離測(cè)度:
取值范圍是[0,2],0 表示兩個(gè)序列最相似。
2.時(shí)間序列形狀提取。時(shí)間序列分析中的許多任務(wù)依賴于通過(guò)一個(gè)序列有效地總結(jié)一組時(shí)間序列的方法,這個(gè)摘要序列通常被稱為平均序列,其在聚類中則被稱為質(zhì)心。我們的目標(biāo)是找到與類內(nèi)所有其他時(shí)間序列之間距離平方和的最小值,這就變?yōu)橐粋€(gè)優(yōu)化問(wèn)題:
該式需要對(duì)類內(nèi)所有的時(shí)間序列計(jì)算一個(gè)最佳的偏移。因?yàn)檫@里提到的方法是用在迭代聚類當(dāng)中,所以需要把前一次計(jì)算得到的聚類中心作為參考,并把所有的序列與這個(gè)參考的序列對(duì)齊。省略式(14)的分母可以得到:
為了簡(jiǎn)單起見(jiàn),我們用向量表示此方程,并假設(shè)序列已經(jīng)進(jìn)行了歸一化處理,得到下式:
歸一化數(shù)據(jù),令 μk=μkQ,其中是單位矩陣,O 是全幺矩陣。用 S 代替我們得到:
其中,M=QT·S·Q,最大值 μk即為求瑞利商(Rayleigh quotient)最大化問(wèn)題,同時(shí)最大值為矩陣M 對(duì)應(yīng)最大特征值的特征向量。
3.基于形狀的時(shí)間序列聚類。K-shape 算法需執(zhí)行兩個(gè)步驟:(1)在分配步驟中,算法通過(guò)將每個(gè)時(shí)間序列與所有摘要序列進(jìn)行比較,并將每個(gè)時(shí)間序列分配給最接近摘要序列的一類,以更新聚類中的成員關(guān)系;(2)在細(xì)化步驟中,通過(guò)更新聚類中心,反映前一步中聚類成員的變化。算法重復(fù)這兩個(gè)步驟,直到集群成員沒(méi)有變化,或者達(dá)到允許的最大迭代次數(shù)。在賦值步驟中,算法主要依賴時(shí)間序列形狀相似度中的距離測(cè)度,而在細(xì)化步驟中,算法主要依賴時(shí)間序列形狀提取中的聚類中心進(jìn)行計(jì)算。具體的算法流程如下:
長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)最早是由Hochreiter 和Schmidhuber 提出的,它是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的改進(jìn)和發(fā)展(Dragomiretskiy,2014)。LSTM 因其獨(dú)特的單元結(jié)構(gòu),在處理長(zhǎng)期相關(guān)關(guān)系方面具有較明顯的優(yōu)勢(shì),其結(jié)構(gòu)如圖2 所示。
從圖2 中可以看出,LSTM 包含一個(gè)或多個(gè)儲(chǔ)存器以及三個(gè)自適應(yīng)乘法門(mén),分別為輸入門(mén)、輸出門(mén)和遺忘門(mén)。其中,輸入門(mén)是控制是否允許寫(xiě)入,遺忘門(mén)是控制記憶單元的值是否需要更新,輸出門(mén)是控制是否允許輸出,通過(guò)這三個(gè)門(mén)就可以實(shí)現(xiàn)信息的保存和控制。
圖2 LSTM 神經(jīng)網(wǎng)絡(luò)的神經(jīng)元結(jié)構(gòu)
在時(shí)刻t,設(shè)xt代表PM2.5的時(shí)間序列,yt代表LSTM 的預(yù)測(cè)結(jié)果,ct和ht分別為神經(jīng)元狀態(tài)值和隱藏層狀態(tài)值,則LSTM 各單元的更新情況如下:
其中,Wih、Wfh、Wch、Woh分別是隱藏層狀態(tài)值 ht的權(quán)重矩陣,Wix、Wfx、Wcx、Wox分別是時(shí)間序列 xt的權(quán)重矩陣,Wic、Wfc、Woc分別是神經(jīng)元狀態(tài)值 ct與三個(gè)門(mén)函數(shù)的對(duì)角矩陣,bi、bf、bc、bo分別是偏置向量,Wyh和by是LSTM 網(wǎng)絡(luò)的輸出權(quán)重和偏置向量,σ(*)是 sigmoid 激活函數(shù),g(*)和 h(*)是 tanh 激活函數(shù),Φ 是softmax 激活函數(shù)。上述模型中所需學(xué)習(xí)訓(xùn)練的參數(shù)有:各個(gè)節(jié)點(diǎn)間的有偏連接權(quán)重、神經(jīng)元內(nèi)部的輸入連接權(quán)重、神經(jīng)元遞歸連接權(quán)重。我們對(duì)權(quán)重學(xué)習(xí)設(shè)置了不同系數(shù)的正則化項(xiàng),進(jìn)而使用彈網(wǎng)懲罰項(xiàng)將其添加到目標(biāo)函數(shù)中,以防止模型學(xué)習(xí)過(guò)程中的過(guò)擬合,即有:
當(dāng) λ1≠0,λ2≠0 時(shí),上式即為彈網(wǎng)懲罰,可以構(gòu)成ELSTM 模型,以提高模型的泛化能力。
本文所用的北京市PM2.5濃度數(shù)據(jù)來(lái)自于中國(guó)空氣質(zhì)量在線監(jiān)測(cè)平臺(tái)(http://www.cnemc.cn)。北京四季分明,冬天寒冷干燥,夏天炎熱少雨,再加上城市汽車總量和燃煤需求量大以及周邊城市的影響,北京的霧霾天氣頻發(fā),一年中大多數(shù)時(shí)間的PM2.5濃度都高出正常值,呈現(xiàn)出明顯的非線性和非平穩(wěn)性特征(馬忠玉和肖宏偉,2017)。因此,選取北京市PM2.5濃度序列進(jìn)行預(yù)測(cè),可以對(duì)模型的有效性進(jìn)行全面、系統(tǒng)的檢驗(yàn)。本文以2014—2018 年的日均數(shù)據(jù)作為訓(xùn)練集,以2019 年一年的數(shù)據(jù)作為測(cè)試集,對(duì)預(yù)測(cè)模型進(jìn)行有效性檢驗(yàn)。
圖3 PM2.5 濃度原始序列
從圖3 中可以看出,原始數(shù)據(jù)序列具有含噪音、高波動(dòng)等特點(diǎn)。將月平均數(shù)據(jù)點(diǎn)標(biāo)注在圖中可以發(fā)現(xiàn),每個(gè)年份的數(shù)據(jù)集均呈現(xiàn)較明顯的周期性和季節(jié)性。在長(zhǎng)期趨勢(shì)中,北京市PM2.5濃度在2014—2017 年度水平較高、極值較多,在2018—2019 年度PM2.5濃度水平有所改善,突破 200(μg/m3)的天數(shù)明顯減少,總體呈現(xiàn)下降趨勢(shì)。
表1 PM2.5 數(shù)據(jù)的描述性統(tǒng)計(jì)分析
從表1 來(lái)看,數(shù)據(jù)集為非對(duì)稱分布,偏度較高,峰度值為6.83,數(shù)據(jù)較標(biāo)準(zhǔn)正態(tài)分布更為陡峭。在數(shù)據(jù)的前期處理中,本文運(yùn)用拉伊達(dá)法則(張德然,2003)對(duì)數(shù)據(jù)中的異常點(diǎn)進(jìn)行處理,對(duì)數(shù)據(jù)原有缺失點(diǎn)和被剔除的異常點(diǎn)利用三次樣條插值法進(jìn)行重新插值,得到處理后的數(shù)據(jù)集。以上的數(shù)據(jù)分布以及描述性統(tǒng)計(jì)分析充分說(shuō)明,使用基于分布理論的傳統(tǒng)統(tǒng)計(jì)預(yù)測(cè)方法難以在PM2.5濃度序列預(yù)測(cè)中取得理想的效果。同時(shí),數(shù)據(jù)的高波動(dòng)、含噪聲、含缺失以及非線性等特點(diǎn)也證明了在進(jìn)行預(yù)測(cè)分析前進(jìn)行數(shù)據(jù)預(yù)處理具有合理性和必要性。
為了檢驗(yàn)聚類任務(wù)的效果,本文利用輪廓系數(shù)評(píng)價(jià)聚類結(jié)果。輪廓系數(shù)可以同時(shí)計(jì)算類內(nèi)聚集度與類間分離度,檢驗(yàn)簇內(nèi)樣本緊密程度以及簇間樣本遠(yuǎn)離程度。樣本i 的輪廓系數(shù)如下:
其中,a 為某個(gè)樣本與其所在簇內(nèi)其他樣本的平均距離,b 為某個(gè)樣本與其他簇樣本的平均距離。本文計(jì)算所有樣本對(duì)應(yīng)的輪廓系數(shù)并取均值作為該聚類結(jié)果的評(píng)價(jià)指標(biāo),其取值范圍為[-1,1],越接近1 說(shuō)明聚類效果越好。
為了檢驗(yàn)?zāi)P偷挠行?,本文采用了三種誤差分析方法,即平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和平均絕對(duì)誤差百分比(MAPE),這三種誤差分析方法的計(jì)算公式如下:
其中,yt和分別代表t 時(shí)刻的真實(shí)值和預(yù)測(cè)值,N 代表測(cè)試集中的時(shí)間點(diǎn)個(gè)數(shù),即測(cè)試集的大小。
為了進(jìn)一步從統(tǒng)計(jì)學(xué)視角對(duì)不同預(yù)測(cè)模型的水平精度進(jìn)行比較分析,本文采用Diebold-Mariano 統(tǒng)計(jì)量測(cè)試不同模型的統(tǒng)計(jì)顯著性(孫少龍,2016)。DM 檢驗(yàn)的原假設(shè)是測(cè)試模型與基準(zhǔn)模型的預(yù)測(cè)精度處于同一水準(zhǔn),備擇假設(shè)是測(cè)試模型的預(yù)測(cè)精度顯著優(yōu)于基準(zhǔn)模型,損失函數(shù)選擇均方誤差(MSE),則DM 統(tǒng)計(jì)量的定義如下:
本文在集成預(yù)測(cè)時(shí)采用了滑動(dòng)窗口前向滑動(dòng)測(cè)試的方式,其目的是適應(yīng)時(shí)間序列數(shù)據(jù)的測(cè)試要求,即在測(cè)試集上統(tǒng)計(jì)真實(shí)值與預(yù)測(cè)值誤差的同時(shí),隨測(cè)試的不斷進(jìn)行,將前一天的真實(shí)值納入模型的歷史數(shù)據(jù)集中,同時(shí)更新窗寬。該方式較固定分段的測(cè)試方式和不斷更新窗口的測(cè)試方式更符合預(yù)測(cè)時(shí)間序列的實(shí)際運(yùn)用,能夠在最近歷史數(shù)據(jù)和較遠(yuǎn)歷史數(shù)據(jù)的影響之間取得平衡。
本文將原始PM2.5濃度時(shí)間序列分解為多個(gè)子序列,其結(jié)果如圖4 所示。
圖4 PM2.5 原始序列CEEMDAN 分解
在圖4 所示的時(shí)域圖中,原始序列被分解為8條分量以及1 條趨勢(shì)項(xiàng)(Residual),且各個(gè)分量按照頻率從高到低依次排列,不同的分解信號(hào)反映了不同的信息。高頻數(shù)據(jù)分信號(hào)1 與分信號(hào)2 包含原始序列的震蕩信息,趨勢(shì)項(xiàng)則包含原始PM2.5濃度序列的趨勢(shì)信息。本文使用ELSTM 模型預(yù)測(cè)每一條分量與趨勢(shì)項(xiàng),在ELSTM 模型的預(yù)測(cè)過(guò)程中,利用PM2.5濃度序列的連續(xù)7 個(gè)數(shù)據(jù)點(diǎn)預(yù)測(cè)第8 個(gè)數(shù)據(jù)點(diǎn)并依次向后滑動(dòng)。由于本文采用的是日均數(shù)據(jù),考慮到實(shí)際情況,每日的PM2.5濃度與附近7 日的PM2.5濃度應(yīng)有較明顯的相關(guān)關(guān)系,故按此設(shè)置,并對(duì)數(shù)據(jù)進(jìn)行一階差分,以緩解數(shù)據(jù)的不平穩(wěn)性。算法的迭代次數(shù)為100 次,每個(gè)小批量中包含的樣本數(shù)為50。為了確保對(duì)比的公平性和有效性,以上參數(shù)將用于本文所有的對(duì)比算法中。
基于上述設(shè)定,本文利用ELSTM 對(duì)每一條分量和趨勢(shì)項(xiàng)進(jìn)行預(yù)測(cè),并對(duì)高頻分量的預(yù)測(cè)結(jié)果進(jìn)行展示。在圖5 的預(yù)測(cè)結(jié)果中,預(yù)測(cè)值與真實(shí)值較為接近,但頻率波動(dòng)較大,包含的非線性特征明顯,預(yù)測(cè)效果也較差。因此,為了提高模型的預(yù)測(cè)能力,本文對(duì)難以準(zhǔn)確預(yù)測(cè)的高頻分量運(yùn)用VMD 方法進(jìn)行二次分解。VMD 方法要求預(yù)先設(shè)定分解模態(tài)數(shù)K,本文通過(guò)觀察各模態(tài)中心頻率的接近程度確定K 值,即各分量中心頻率出現(xiàn)相近的值時(shí),就認(rèn)為出現(xiàn)VMD 過(guò)分解現(xiàn)象(陳東寧,2017)。高頻信號(hào)經(jīng)VMD分解后,不同K 值下各模態(tài)分量的中心頻率如表2所示。
圖5 高頻信號(hào)序列的ELSTM 預(yù)測(cè)
表2 不同K 值對(duì)應(yīng)的中心頻率
由表2 可知,模態(tài)數(shù)為10 時(shí)出現(xiàn)了中心頻率相近的模態(tài)分量,即出現(xiàn)過(guò)分解,故分信號(hào)數(shù)量確定為9。圖6 為高頻信號(hào)經(jīng)VMD 分解后的時(shí)域圖。
圖6 高頻信號(hào)VMD 分解時(shí)域
將高頻信號(hào)做二次分解可以獲取高頻信號(hào)中的非線性特征,但這同時(shí)會(huì)使子序列的數(shù)量成倍增加,加之ELSTM 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程本來(lái)就很復(fù)雜,這樣會(huì)使預(yù)測(cè)模塊的訓(xùn)練時(shí)間過(guò)長(zhǎng)。因此,本文采用時(shí)間序列聚類算法(K-shape),將具有相似特征的分信號(hào)進(jìn)行聚類,并將輪廓系數(shù)作為評(píng)價(jià)指標(biāo)。高頻信號(hào)1 的聚類結(jié)果如表3 所示。
表3 不同聚類中心數(shù)對(duì)應(yīng)的輪廓系數(shù)
由表3 可知,當(dāng)聚類中心數(shù)量為3 時(shí),輪廓系數(shù)值最大,聚類效果最好。進(jìn)一步地,本文將所有高頻信號(hào)和低頻信號(hào)的分解結(jié)果進(jìn)行聚類,以提高預(yù)測(cè)模塊的運(yùn)行效率,降低預(yù)測(cè)模塊的運(yùn)行時(shí)間。
本文利用上述運(yùn)算得到的數(shù)據(jù)以及確定的模型參數(shù)作為預(yù)測(cè)的初始參數(shù),對(duì)每個(gè)分信號(hào)進(jìn)行數(shù)據(jù)集分割、模型學(xué)習(xí)與預(yù)測(cè)。在訓(xùn)練模型之前,考慮時(shí)間序列的順序特點(diǎn),本文將數(shù)據(jù)轉(zhuǎn)化為監(jiān)督問(wèn)題的可訓(xùn)練形式,與ELSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入要求進(jìn)行匹配,并將預(yù)測(cè)結(jié)果進(jìn)行逆差分轉(zhuǎn)換,還原為目標(biāo)預(yù)測(cè)值,最后進(jìn)行集成預(yù)測(cè),將各個(gè)分信號(hào)的預(yù)測(cè)結(jié)果進(jìn)行疊加,作為最終的預(yù)測(cè)值。模型的預(yù)測(cè)效果如圖7 所示。
圖7 多模態(tài)集成預(yù)測(cè)效果
為了說(shuō)明基于“分解—聚類—集成”研究范式的二次分解組合模型的有效性,本文將CEEMDANVMD-K-ELSTM 模型與單一模型、一次分解集成模型、二次分解集成模型進(jìn)行對(duì)比,以探究模型復(fù)雜度的提升以及分解方法的組合對(duì)預(yù)測(cè)結(jié)果的影響,并利用DM 檢驗(yàn)分析模型的預(yù)測(cè)精度是否存在顯著性差異。表4 為各個(gè)模型在北京市PM2.5濃度預(yù)測(cè)中的誤差值,本文分別從RMSE、MAE 和MAPE 標(biāo)準(zhǔn)方面對(duì)所有預(yù)測(cè)模型的性能進(jìn)行評(píng)價(jià)。
表4 不同模型的預(yù)測(cè)結(jié)果對(duì)比
由表4 的預(yù)測(cè)結(jié)果可知,ELSTM 較其他神經(jīng)網(wǎng)絡(luò)模型的精度更高,預(yù)測(cè)效果更好?;凇胺纸狻垲悺伞钡慕M合模型在預(yù)測(cè)性能上均優(yōu)于單一模型,表明“分解—聚類—集成”研究范式可以有效克服PM2.5濃度數(shù)據(jù)的高波動(dòng)性、非線性特征對(duì)模型預(yù)測(cè)精度造成的影響,顯著提高模型的預(yù)測(cè)能力。本文所提出的二次分解模型在RMSE 和MAE 兩類評(píng)價(jià)中取得的效果最好,表明不同分解技術(shù)的組合對(duì)預(yù)測(cè)效果也有一定的影響,CEEMDAN 方法與VMD 方法組合的二次分解方法使得實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。
為了判斷CEEMDAN-VMD-K-ELSTM 模型的預(yù)測(cè)結(jié)果是否在統(tǒng)計(jì)學(xué)上顯著優(yōu)于基準(zhǔn)模型,本文利用DM 統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。DM 檢驗(yàn)是根據(jù)DM 統(tǒng)計(jì)量的值判斷模型之間的預(yù)測(cè)精度是否在統(tǒng)計(jì)意義上具有顯著差異,表5 為DM 檢驗(yàn)結(jié)果。
表5 DM 檢驗(yàn)結(jié)果
(續(xù)表5)
由表5 可知,以本文提出的CEEMDAN-VMDK-ELSTM 作為測(cè)試模型時(shí),其預(yù)測(cè)精度在0.01 的顯著性水平上顯著優(yōu)于其他基準(zhǔn)模型,二次分解組合模型顯著優(yōu)于一次分解模型,而單一模型中的ELSTM 神經(jīng)網(wǎng)絡(luò)顯著優(yōu)于其他網(wǎng)絡(luò)。
為了進(jìn)一步驗(yàn)證模型的有效性,檢驗(yàn)數(shù)據(jù)變化對(duì)模型的魯棒性影響,本文利用2015 年1 月1 日至2020 年6 月31 日的日均PM2.5濃度序列檢驗(yàn)?zāi)P褪欠袢阅鼙3州^好的預(yù)測(cè)性能及穩(wěn)定性。窗寬設(shè)定為 30,驗(yàn)證集數(shù)據(jù)為 2020 年 3 月 31 至 2020 年 6月 31 日。圖 8 為 CEEMDAN-VMD-K-ELSTM 模型與基準(zhǔn)模型在不同數(shù)據(jù)集上的預(yù)測(cè)比較結(jié)果。
圖8 不同數(shù)據(jù)集上的預(yù)測(cè)模型誤差對(duì)比
由圖 8 可知,CEEMDAN-VMD-K-ELSTM 組合模型在RMSE 和MAE 標(biāo)準(zhǔn)下仍具有最高的預(yù)測(cè)精度,即模型能夠?qū)Σ煌腜M2.5濃度時(shí)間序列進(jìn)行較為準(zhǔn)確的預(yù)測(cè),具有良好的魯棒性。
空氣質(zhì)量研究一直是國(guó)內(nèi)重點(diǎn)關(guān)注的問(wèn)題,污染物濃度預(yù)測(cè)更是空氣質(zhì)量研究的重中之重,其不僅可以有效預(yù)防嚴(yán)重空氣污染事件的發(fā)生,還可以幫助人們及時(shí)采取應(yīng)對(duì)措施。因此,構(gòu)建一個(gè)行之有效的空氣質(zhì)量預(yù)測(cè)模型具有重要的現(xiàn)實(shí)意義。
本文引入分解算法作為預(yù)處理工具,以提取輸入原始數(shù)據(jù)的內(nèi)在特征,而分解算法和深度學(xué)習(xí)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域已經(jīng)取得很大的成就,尤其是在空氣質(zhì)量預(yù)測(cè)方面。由于數(shù)據(jù)存在非線性、非平穩(wěn)性及波動(dòng)性的特性,以往的空氣質(zhì)量預(yù)測(cè)準(zhǔn)確率并不能令人滿意。因此,本文通過(guò)將不同的模態(tài)分解技術(shù)與常用機(jī)器學(xué)習(xí)模型、神經(jīng)網(wǎng)絡(luò)模型進(jìn)行組合對(duì)比分析,提出一種二層分解多模態(tài)集成預(yù)測(cè)方法,并在“分解—集成”的研究范式下進(jìn)行進(jìn)一步的拓展,將“分解—聚類—集成”的研究范式應(yīng)用于PM2.5濃度序列預(yù)測(cè),采用基于時(shí)間序列形狀的聚類算法將分解后的時(shí)序數(shù)據(jù)進(jìn)行聚類,提高了模型整體的運(yùn)行效率。本文對(duì)北京市PM2.5濃度的實(shí)證分析,證明了二層分解與ELSTM 神經(jīng)網(wǎng)絡(luò)的組合在時(shí)間序列預(yù)測(cè)上可以獲得更為精準(zhǔn)的預(yù)測(cè)效果。
本文提出的基于聚類的二次分解集成模型還可以應(yīng)用于其他一些較為困難的預(yù)測(cè)任務(wù),如金融時(shí)間序列預(yù)測(cè)、風(fēng)速預(yù)測(cè)、電力消耗預(yù)測(cè)等。就空氣質(zhì)量預(yù)測(cè)問(wèn)題而言,本文依然存在諸多可拓展之處。首先,由實(shí)證分析可知,數(shù)據(jù)分解在混合集成學(xué)習(xí)范式中具有重要地位,今后應(yīng)探索更高效、可行的數(shù)據(jù)分解算法。其次,在單一預(yù)測(cè)中,為保證預(yù)測(cè)精度所使用的復(fù)雜模型,其時(shí)間復(fù)雜度大大提高,今后應(yīng)探究更高效的數(shù)據(jù)壓縮算法,以加快單一預(yù)測(cè)的速度。再次,影響PM2.5濃度的溫度、空氣、濕度等因素的相關(guān)數(shù)據(jù)量都較大,這使得精確預(yù)測(cè)PM2.5濃度存在困難,今后應(yīng)加入氣象數(shù)據(jù)、地理信息數(shù)據(jù)等影響空氣污染的其他因素,以提高預(yù)測(cè)精度,這有助于研究者提高對(duì)空氣質(zhì)量預(yù)測(cè)問(wèn)題的認(rèn)知,構(gòu)建更廣義的數(shù)據(jù)融合預(yù)測(cè)模型。此外,人口規(guī)模、經(jīng)濟(jì)產(chǎn)業(yè)結(jié)構(gòu)與量級(jí)、政府空氣污染治理政策等因素也是除空氣和氣象地理數(shù)據(jù)之外應(yīng)考慮的重要方面,如何將這些因素與空氣質(zhì)量研究相結(jié)合也是一個(gè)需要解決的實(shí)際問(wèn)題。
統(tǒng)計(jì)學(xué)報(bào)2021年3期