劉輝*,龍治豪,段鑄,施惠鵬
Institute of Artificial Intelligence & Robotics (IAIR), Key Laboratory of Traffic Safety on Track of Ministry of Education, School of Traffic and Transportation Engineering, Central South University, Changsha 410075, China
隨著發(fā)展中國(guó)家和地區(qū)的工業(yè)發(fā)展,空氣污染問題廣受關(guān)注。近年來,中國(guó)大部分地區(qū)出現(xiàn)霧霾天氣,空氣質(zhì)量治理已成為國(guó)家戰(zhàn)略問題??諝鈩?dòng)力學(xué)直徑不超過2.5 μm的顆粒物(PM2.5)含有大量有毒有害物質(zhì)[1],是最常見的空氣污染物[2]。研究表明,PM2.5污染對(duì)呼吸系統(tǒng)和心血管系統(tǒng)有直接影響,與肺癌發(fā)病率和死亡率密切相關(guān)[3]。PM2.5對(duì)天氣氣候亦有不良影響。例如,PM2.5可能導(dǎo)致異常降雨和加劇溫室效應(yīng)[4-7]。PM2.5濃度預(yù)測(cè)是緩解PM2.5負(fù)面影響的有效方法[8],對(duì)智慧城市大數(shù)據(jù)的發(fā)展也具有重要意義[9]。
PM2.5濃度預(yù)測(cè)方法可分為4類:物理模型、統(tǒng)計(jì)模型、人工智能模型和混合模型。
物理模型側(cè)重于描述氣象和化學(xué)因素潛在的復(fù)雜排放、傳輸和轉(zhuǎn)化過程[10]。該方法可以輸出準(zhǔn)確的預(yù)測(cè)結(jié)果,但是需要大量空氣污染物排放信息[11],且計(jì)算成本高[12]。統(tǒng)計(jì)模型克服了物理方法的缺點(diǎn),僅需要簡(jiǎn)單樣本,計(jì)算速度快[13]。然而,統(tǒng)計(jì)模型僅基于有限樣本,沒有充分考慮各種影響因素之間的內(nèi)在關(guān)系。單一的人工智能模型能夠描述非線性系統(tǒng)的規(guī)律,在處理大數(shù)據(jù)方面有很大優(yōu)勢(shì)[14]。其缺點(diǎn)在于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程具有一定的波動(dòng)性,難以輸出最優(yōu)結(jié)果[15]。
考慮到上述方法的局限性,混合模型在空氣污染預(yù)測(cè)中得到了廣泛的應(yīng)用?;旌夏P屯ǔ0?個(gè)部分:數(shù)據(jù)預(yù)處理、特征選擇和預(yù)測(cè)器。數(shù)據(jù)預(yù)處理可以理清原始數(shù)據(jù)中復(fù)雜的數(shù)據(jù)關(guān)系,提高數(shù)據(jù)平穩(wěn)性。特征選擇可以改善輸入數(shù)據(jù)結(jié)構(gòu),降低維數(shù)過高導(dǎo)致的模型訓(xùn)練困難?;旌夏P涂梢跃C合各種算法的優(yōu)點(diǎn),達(dá)到更好的模型性能[16-20]。表1列出了PM2.5濃度預(yù)測(cè)的前沿研究[16-28]。
表1中列出的PM2.5濃度預(yù)測(cè)模型很少使用特征選擇。如果輸入包含PM2.5、PM10、SO2、O3等多個(gè)特征,會(huì)導(dǎo)致模型訓(xùn)練困難、訓(xùn)練時(shí)間增加。復(fù)雜的輸入數(shù)據(jù)也會(huì)影響模型的魯棒性[29],降低模型的精度[30]。目前常用的特征選擇算法包括主成分分析(PCA)、相空間重構(gòu)(PSR)和梯度增強(qiáng)回歸樹(GBRT)。然而,由于這些方法是基于線性系統(tǒng)假設(shè),因此不適用于空氣污染物濃度序列。基于模糊理論的粗糙集屬性約簡(jiǎn)(RSAR)算法具有非線性強(qiáng)、停止準(zhǔn)則明確、無需參數(shù)等優(yōu)點(diǎn)[31]。RSAR可以通過不同屬性之間的依賴關(guān)系獲得重要屬性集,是熱門的特征選擇研究方向[32]。聚類算法通常用于數(shù)據(jù)挖掘和分析[33]。目前存在多種聚類方法,諸如k均值聚類(KC)[34]、可能性c-均值(PCM)[35]、曲線聚類[36]等。與其他算法相比,KC算法具有原理簡(jiǎn)單、計(jì)算速度快、聚類效果好等優(yōu)點(diǎn),是目前應(yīng)用最廣泛的聚類算法。將RSAR算法與KC算法相結(jié)合,可以利用RSAR為KC算法提供合理的聚類對(duì)象,是有價(jià)值的研究方向。
表1中的分解算法主要為小波方法,可以將原始數(shù)據(jù)分解成更平穩(wěn)的子層。與經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)、集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)和復(fù)數(shù)經(jīng)驗(yàn)?zāi)B(tài)分解(CEMD)相比,經(jīng)驗(yàn)小波分解(EWT)算法可以自適應(yīng)地劃分傅里葉譜,選擇合適的小波濾波器組[37]。除此之外,可以使用聚類方法進(jìn)行分解。聚類算法可以根據(jù)空氣污染工況劃分原始數(shù)據(jù)集,減小樣本多樣性對(duì)模型的影響。然而,尚未有研究將基于時(shí)序分解的聚類算法用于PM2.5濃度預(yù)測(cè)。
表1中的預(yù)測(cè)器多為物理方法、機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)(ANN)。雖然哥白尼大氣監(jiān)測(cè)服務(wù)(CAMS)、化學(xué)天氣研究和預(yù)報(bào)模式(WRFChem)與嵌套空氣質(zhì)量預(yù)測(cè)模式系統(tǒng)(NAQPMS)具有準(zhǔn)確的預(yù)測(cè)結(jié)果,但是這些方法需要大量前期工作與物理化學(xué)知識(shí)。支持向量機(jī)(SVM)、支持向量回歸(SVR)和最小二乘支持向量回歸(LS-SVR)對(duì)參數(shù)的選擇要求很高,不能處理大數(shù)據(jù)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),如反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)和進(jìn)化神經(jīng)網(wǎng)絡(luò)(ENN)需要大量的訓(xùn)練,容易過擬合。相比之下,回聲狀態(tài)網(wǎng)絡(luò)(ESN)具有由重復(fù)連接的單元組成的獨(dú)特的儲(chǔ)存器結(jié)構(gòu),訓(xùn)練簡(jiǎn)單有效,適用于PM2.5濃度數(shù)據(jù)等非線性系統(tǒng)[38]。
綜上所述,基于分解的聚類算法、非線性模糊理論算法和ESN算法在PM2.5濃度預(yù)測(cè)中的研究較少。本研究旨在將這些算法應(yīng)用于PM2.5濃度預(yù)測(cè)。本文所提出的混合PM2.5預(yù)測(cè)模型結(jié)合了多特征聚類分解(MCD)、ESN和粒子群優(yōu)化(PSO)3種方法。在MCD中,首先,采用RSAR算法選擇重要的空氣污染物變量,利用KC算法對(duì)原始PM2.5濃度數(shù)據(jù)進(jìn)行聚類,利用EWT算法將聚類結(jié)果分解成多個(gè)子層。然后,為每個(gè)聚類組中的每個(gè)分解子層建立一個(gè)ESN預(yù)測(cè)器,利用PSO對(duì)ESN模型的初始參數(shù)進(jìn)行優(yōu)化,完成多步預(yù)測(cè)計(jì)算。最后,綜合各子層預(yù)測(cè)結(jié)果,形成最終預(yù)測(cè)值。實(shí)驗(yàn)結(jié)果表明該混合模型能夠準(zhǔn)確預(yù)測(cè)PM2.5每小時(shí)平均濃度。所提出模型的詳細(xì)信息見本文第2節(jié)。
表1 近4年P(guān)M2.5濃度預(yù)測(cè)的主要研究
MCD-ESN-PSO混合模型的構(gòu)建步驟如下。
A部分:MCD
這部分包括RSAR、KC和EWT算法。使用RSAR算法過濾原始空氣質(zhì)量數(shù)據(jù),用KC算法對(duì)過濾后的屬性數(shù)據(jù)進(jìn)行聚類,然后利用EWT算法將每個(gè)簇的聚類數(shù)據(jù)分解成多個(gè)子層,最后為每個(gè)簇中的每個(gè)子層建立一個(gè)ESN預(yù)測(cè)器。在該方法中,RSAR算法和KC算法共同實(shí)現(xiàn)特征聚類,EWT分解算法將原始時(shí)間序列分解成更平穩(wěn)的子層。RSAR、KC和EWT算法的詳細(xì)信息分別在第2.2~2.4節(jié)中介紹。
B部分:ESN
ESN對(duì)分解后的PM2.5濃度數(shù)據(jù)進(jìn)行預(yù)測(cè)。ESN由輸入層、儲(chǔ)備池和輸出層組成。ESN的主要思想是使用儲(chǔ)備池模擬一個(gè)復(fù)雜的動(dòng)態(tài)空間,該空間可以隨著輸入的變化而改變。根據(jù)參考文獻(xiàn)[38],ESN的更新方程和輸出狀態(tài)方程可以用公式(1)和(2)表示:
式中,x是從儲(chǔ)備池到輸出層的輸入數(shù)據(jù);y是輸出;t是時(shí)間;u是從輸出層到儲(chǔ)備層的輸出數(shù)據(jù);f是ESN函數(shù);Win表示x(t- 1)到x(t)之間的連接權(quán)值;u(t + 1)是輸出數(shù)據(jù);Wback表示輸入層到儲(chǔ)備池之間的連接權(quán)值;Wout表示y(t - 1)到x(t)之間的連接權(quán)值。
C部分:PSO
與傳統(tǒng)的ESN模型不同,本研究將ESN模型與粒子群算法相結(jié)合。在ESN-PSO算法中,通過PSO算法優(yōu)化ESN模型參數(shù),如輸入比例、頻譜半徑、內(nèi)部單元數(shù)和連通性。
最后,將各子層的預(yù)測(cè)結(jié)果相加,得到最終的預(yù)測(cè)結(jié)果。
RSAR算法可用于剔除冗余信息,同時(shí)保持信息質(zhì)量[31]。在信息系統(tǒng)中,一組對(duì)象由一組屬性描述[31]。一個(gè)知識(shí)信息系統(tǒng)的定義如下:
式中,U是對(duì)象的有限非空集合;V是非空值的集合;A是屬性的有限非空集合;h是將U中對(duì)象映射到V中數(shù)值的信息函數(shù)。
在本文中,A = {PM10, CO, SO2, NO2, O3, PM2.5}是所有屬性的集合,V是其數(shù)值。f是用于獲得γ的依賴函數(shù),γ是集合的依賴關(guān)系。
定義一個(gè)條件屬性集C?A和一個(gè)屬性集P?C?A,約簡(jiǎn)應(yīng)保持排序質(zhì)量(γ)不變。一個(gè)信息表可能有多個(gè)約簡(jiǎn)。所有約簡(jiǎn)的交集稱為決策表的“核心”(core),可表示為core (P),這是信息系統(tǒng)最重要的屬性集。
KC是一種簡(jiǎn)單的迭代聚類算法,使用距離作為相似性指標(biāo)[34]。它的最終目的是在一組給定的數(shù)據(jù)集中找到k個(gè)簇。KC算法的過程如下:
(1)選擇數(shù)據(jù)空間中的k個(gè)對(duì)象作為初始聚類中心。
(2)根據(jù)樣本中的數(shù)據(jù)對(duì)象與聚類中心之間的歐幾里得距離,將樣本中的數(shù)據(jù)對(duì)象按照最近的中心進(jìn)行聚類。
式中,xi是第j個(gè)簇中的第i個(gè)樣本;xj是第j個(gè)簇的中心;D表示數(shù)據(jù)對(duì)象的屬性數(shù)量。
(3)更新聚類中心,即以每個(gè)簇中所有對(duì)象的均值為聚類中心,計(jì)算目標(biāo)函數(shù)的值。
(4)判斷聚類中心值與目標(biāo)函數(shù)值是否相等。如果它們相等,則輸出結(jié)果,否則,返回步驟(2)。
本文采用EWT算法進(jìn)行數(shù)據(jù)預(yù)處理。EWT由Gilles[37]提出,是一種自適應(yīng)構(gòu)造小波的新型信號(hào)處理技術(shù)。EWT基于小波變換的理論框架,克服了經(jīng)驗(yàn)?zāi)B(tài)分解理論的不足和信號(hào)混疊的問題。EWT能夠自適應(yīng)地劃分傅里葉譜,并選擇合適的小波濾波器組。經(jīng)驗(yàn)尺度函數(shù)和經(jīng)驗(yàn)小波可用公式(5)和(6)表示。
式中,n是分割區(qū)間;ω是頻率;β是區(qū)間[0,1]中滿足K階導(dǎo)數(shù)的任何函數(shù);τ是頻率系數(shù);β(x) = x4(35-84x+70x2-20x3);
PSO算法由位置z、速度v和自適應(yīng)函數(shù)組成。算法中的每個(gè)粒子代表解空間中的一個(gè)候選解。根據(jù)優(yōu)化目標(biāo)設(shè)置適應(yīng)度函數(shù)。在計(jì)算過程中,每個(gè)粒子結(jié)合自身和相鄰粒子的運(yùn)動(dòng)經(jīng)驗(yàn)更新位置。計(jì)算公式[27]如下所示:
式中,m表示迭代次數(shù);vi(m)表示第i個(gè)粒子的當(dāng)前速度;c1和c2表示常數(shù);r1和r2表示0和1之間的隨機(jī)數(shù);p表示粒子的權(quán)重;pibest表示從開始到當(dāng)前迭代次數(shù)的個(gè)體最優(yōu)值;gibest表示從開始到當(dāng)前迭代次數(shù)的組最優(yōu)值。
我國(guó)PM2.5污染物分布范圍廣泛,主要集中在華北和華中地區(qū)[39,40]。為保證實(shí)驗(yàn)數(shù)據(jù)的多樣性,應(yīng)選取PM2.5重污染和PM2.5弱污染等不同場(chǎng)景的數(shù)據(jù)。在本文中,選擇屬于華北平原地區(qū)的北京、珠江三角洲地區(qū)的廣州、華中地區(qū)的長(zhǎng)沙和長(zhǎng)江三角洲地區(qū)的蘇州作為典型城市。選取的樣本具有空間代表性,包含不同地理和氣候環(huán)境下的PM2.5濃度數(shù)據(jù),可以很好地驗(yàn)證模型有效性。
空氣質(zhì)量監(jiān)測(cè)站記錄了6種空氣污染物(PM2.5、PM10、NO2、SO2、O3和CO)的平均濃度。圖1展示了選定的數(shù)據(jù)集及相關(guān)介紹。
實(shí)驗(yàn)數(shù)據(jù)來自北京、廣州、長(zhǎng)沙和蘇州4個(gè)城市。Shi等[41]的研究表明地面空間監(jiān)測(cè)的空間有效范圍通常為0.5~16 km2,常用值約為3 km2。單個(gè)監(jiān)測(cè)站的數(shù)據(jù)不能代表整個(gè)城市的空氣質(zhì)量。為了使樣本更具代表性,本文中的數(shù)據(jù)為每個(gè)城市所有空氣質(zhì)量監(jiān)測(cè)站的平均值。這些數(shù)據(jù)集被命名為D1(北京)、D2(廣州)、D3(長(zhǎng)沙)和D4(蘇州)。將樣本數(shù)據(jù)的長(zhǎng)度設(shè)置為一年,以覆蓋完整的四季。所有實(shí)驗(yàn)數(shù)據(jù)包括2016年1月1日至2016年12月31日采集的PM2.5、PM10、NO2、SO2、O3和CO的每小時(shí)平均濃度。所有數(shù)據(jù)均來自中國(guó)國(guó)家環(huán)境監(jiān)測(cè)中心網(wǎng)站(http://www.cnemc.cn/)。
在數(shù)據(jù)劃分之前,進(jìn)行缺失值過濾和離群值檢查。數(shù)據(jù)集D1中有220條數(shù)據(jù)缺失。數(shù)據(jù)集D2缺少158條數(shù)據(jù),數(shù)據(jù)集D3缺少158條數(shù)據(jù),數(shù)據(jù)集D4缺少157條數(shù)據(jù)。由于缺失樣本數(shù)低于總樣本集的2.5%,因此直接剔除缺失樣本。從圖1中可以看出,離群值大多集中在2016年1~3月和10~12月。為了保證模型的訓(xùn)練效果,將離群值視為正常并保留。
剔除缺失樣本后,D1有8540個(gè)樣本,D2有8602個(gè)樣本,D3有8602個(gè)樣本,D4有8603個(gè)樣本。使用數(shù)據(jù)集的第4001~4600個(gè)PM2.5濃度樣本訓(xùn)練A組中的模型(沒有RSAR-KC的模型,包括ESN、LSTM、ESN-PSO和EWT-ESN-PSO模型)。第4601~5000個(gè)樣本為測(cè)試集,為保證預(yù)測(cè)效果,遺忘第4601~4900個(gè)樣本。B組模型(含RSAR-KC的模型,包括RSAR-KC-ESN、MCDLSTM-PSO和RSAR-KC-EWT-ESN-PSO模型)采用RSAR-KC對(duì)每個(gè)站點(diǎn)的所有實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。為了保證誤差評(píng)估的有效性,每個(gè)簇被用來訓(xùn)練一個(gè)ESN模型,然后對(duì)第4901~5000個(gè)樣本的預(yù)測(cè)結(jié)果進(jìn)行重構(gòu)。
為了研究抽樣過程對(duì)模型精度的影響,采用D1中的第3001~4000個(gè)(S1)樣本和第6001~7000個(gè)(S2)樣本進(jìn)行對(duì)比實(shí)驗(yàn)。圖2顯示了數(shù)據(jù)集S1和S2的分布。
為了進(jìn)一步驗(yàn)證模型的有效性,實(shí)驗(yàn)中使用了D4(包含8603個(gè)樣本)作為附加數(shù)據(jù)集。數(shù)據(jù)集D4從春季、夏季、秋季和冬季選擇月度數(shù)據(jù)進(jìn)行測(cè)試。這些數(shù)據(jù)被命名為T1(第1000~1999個(gè)樣本)、T2(第3100~4099個(gè)樣本)、T3(第5000~5999個(gè)樣本)和T4(第6000~6999個(gè)樣本)。它們?nèi)鐖D3所示。表2顯示了PM2.5濃度數(shù)據(jù)的相關(guān)統(tǒng)計(jì)描述。
圖1. 空氣質(zhì)量監(jiān)測(cè)站位置。(a)北京。北京是中國(guó)的首都,位于華北平原的北端;屬典型的暖溫帶半濕潤(rùn)大陸性季風(fēng)氣候,夏季炎熱多雨,冬季寒冷干燥,春季和秋季很短;年平均氣溫為10~12 ℃,年平均降雨量在600 mm以上。(b)長(zhǎng)沙。長(zhǎng)沙是長(zhǎng)江中游的重要城市;屬亞熱帶季風(fēng)氣候,氣候溫和、降水充沛、炎熱多雨;年平均氣溫為17.2 ℃,年平均降雨量為1361.6 mm。(c)廣州。廣州位于中國(guó)東南部的珠江三角洲北緣,珠江穿城而過;屬熱帶季風(fēng)氣候,氣溫高、降雨量大、風(fēng)速低。(d)蘇州。蘇州位于江蘇省東南部和長(zhǎng)江三角洲中部;屬亞熱帶季風(fēng)型海洋性氣候,四季分明,全年雨量充沛。Group A:不含RSAR-KC的模型,包括ESN、LSTM、ESN-PSO和EWT-ESN-PSO模型。
圖2. 數(shù)據(jù)集S1和S2的PM2.5濃度序列。
圖3. 數(shù)據(jù)集T1~T4的PM2.5濃度序列。
表2 PM2.5濃度數(shù)據(jù)的統(tǒng)計(jì)描述
3.3.1. RSAR結(jié)果
利用RSAR和KC對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。按照國(guó)際PM2.5分類系統(tǒng)建立各數(shù)據(jù)集的屬性決策表,對(duì)PM2.5濃度數(shù)據(jù)進(jìn)行分類離散化。類似地,對(duì)其他5種空氣污染物的濃度進(jìn)行離散化。表3為屬性約簡(jiǎn)表。通過計(jì)算其他5種大氣污染物濃度和PM2.5污染物濃度的正域值,可以確定PM10、NO2、CO、O3和SO2的顯著程度分別為0.0825、0.0948、0.0531、0.2189和0.1843。SO2和O3具有重要意義,被判定為已建立的信息決策系統(tǒng)的核心屬性。
如果約簡(jiǎn)屬性和決策屬性之間的相關(guān)性太強(qiáng),則兩者之間沒有區(qū)別。如果約簡(jiǎn)屬性和決策屬性之間的相關(guān)性太弱,則它們之間沒有相關(guān)性。這兩種情況下的約簡(jiǎn)屬性都是冗余的。因此,為了保證輸入樣本的多樣性,約簡(jiǎn)屬性的選擇需要綜合考慮約簡(jiǎn)屬性和決策屬性之間的相關(guān)性和獨(dú)立性。本文采用協(xié)方差來評(píng)價(jià)PM2.5濃度與其他污染物濃度的關(guān)系,如表4所示。cov (PM2.5,PM10)、cov (PM2.5, NO2)、cov (PM2.5, CO)和cov (PM2.5,SO2)均為正值。cov (PM2.5, O3)為負(fù)值。cov (PM2.5,PM10)、cov (PM2.5, NO2)和cov (PM2.5, CO)的絕對(duì)值遠(yuǎn)大于cov (PM2.5, SO2)和cov (PM2.5, O3)的絕對(duì)值。在保證輸入屬性獨(dú)立性方面,RSAR算法是有效的。為了避免維度災(zāi)難給模型訓(xùn)練帶來的困難,選擇相關(guān)程度較高的屬性作為核心屬性,并將其他相關(guān)性較弱的數(shù)據(jù)作為約簡(jiǎn)屬性。
表3 屬性約簡(jiǎn)表
3.3.2. k均值聚類結(jié)果
屬性約簡(jiǎn)后,原始數(shù)據(jù)集為N× 3的樣本空間。使用三維KC算法將該空間劃分為多個(gè)簇。使用誤差平方和(SSE)[42]和輪廓系數(shù)(SC)[43]選擇k的最佳值。由于3個(gè)數(shù)據(jù)集的聚類結(jié)果非常相似,因此以D1為例說明結(jié)果。
由圖4可見,當(dāng)選擇不同的k時(shí),SSE和SC不同。k值的范圍為1~15,SSE值隨著k值的增加而減小。當(dāng)k=3時(shí),SC值最大,此時(shí)SSE值也較大。根據(jù)圖4,綜合考慮SSE和SC,選定k值為7。
當(dāng)k= 7時(shí),原始數(shù)據(jù)D1被分成7組,結(jié)果如圖5所示。圖5(a)顯示了PM2.5的結(jié)果,而SO2和O3的結(jié)果分別如圖5(b)和(c)所示。圖5(a)所示的PM2.5的聚類結(jié)果是本文的重點(diǎn)部分。聚類簇(C)1的振幅為0~200 μg·m-3,并且波動(dòng)平緩。C2的振幅為0~55 μg·m-3,短周期波動(dòng)劇烈。C3的振幅為0~400 μg·m-3,波動(dòng)平穩(wěn),周期性不強(qiáng)。C4的振幅為50~150 μg·m-3,周期性和對(duì)稱性好。C5的振幅為0~200 μg·m-3,波動(dòng)比C1更劇烈。C6的振幅為160~240 μg·m-3,波動(dòng)劇烈,具有很強(qiáng)的對(duì)稱性。C7的振幅為0~100 μg·m-3,周期明顯,但對(duì)稱性較弱??傮w而言,與圖1中的原始數(shù)據(jù)相比,聚類后的數(shù)據(jù)更加穩(wěn)定,各簇?cái)?shù)據(jù)均呈現(xiàn)不同的周期性。
為了得出更有說服力的結(jié)論,進(jìn)一步分析了PM2.5濃度數(shù)據(jù)的聚類結(jié)果的統(tǒng)計(jì)描述,結(jié)果如表5所示。
7組數(shù)據(jù)的平均值分別為71.54 μg·m-3、24.00 μg·m-3、285.74 μg·m-3、91.47 μg·m-3、83.90 μg·m-3、177.00 μg·m-3和34.85 μg·m-3。聚類后的7組數(shù)據(jù)集中,組內(nèi)數(shù)據(jù)的波動(dòng)范圍較小。這與圖5中每組數(shù)據(jù)的幅度分布是一致的。
表4 協(xié)方差表
標(biāo)準(zhǔn)差反映了群體中個(gè)體間的離散度。聚類后的7組數(shù)據(jù)的標(biāo)準(zhǔn)差值分別為37.02 μg·m-3、14.25 μg·m-3、47.30 μg·m-3、20.96 μg·m-3、32.70 μg·m-3、29.81 μg·m-3、19.42 μg·m-3,均小于聚類前的71.00 μg·m-3。聚類后的各組數(shù)據(jù)更接近其平均值。如圖5所示,每組數(shù)據(jù)曲線上下波動(dòng)的對(duì)稱性較強(qiáng)。
聚類后的7組數(shù)據(jù)的偏度值分別為0.70、0.72、0.74、0.21、1.01、0.22、0.88,均小于聚類前的2.01。聚類后的數(shù)據(jù)的波峰對(duì)稱性更強(qiáng),即周期規(guī)律更加明顯。聚類后的7組數(shù)據(jù)峰度值分別為3.23、2.45、2.50、1.98、4.00、1.82、3.12,均小于聚類前的8.64,減少了聚類后數(shù)據(jù)在每組數(shù)據(jù)中的極端分布。在圖5中,每組數(shù)據(jù)波動(dòng)平穩(wěn),沒有明顯的離群值。
MCD-ESN模型用于分析每個(gè)簇中的序列長(zhǎng)度。為了保證誤差評(píng)估的有效性,在每個(gè)簇中選取前80%的數(shù)據(jù)進(jìn)行模型訓(xùn)練,后20%的數(shù)據(jù)用于模型預(yù)測(cè)性能分析。表6展示了每個(gè)簇的誤差評(píng)估指標(biāo)。
當(dāng)樣本數(shù)大于1000時(shí),數(shù)據(jù)量對(duì)預(yù)測(cè)的影響很小,如C1、C3、C5、C6和C7中的樣本數(shù)。但是,當(dāng)樣本數(shù)小于1000時(shí),模型的預(yù)測(cè)效果大大降低,這表明ESN網(wǎng)絡(luò)的預(yù)測(cè)效果對(duì)低樣本數(shù)(如C2和C4)更為敏感。當(dāng)聚類后樣本數(shù)較少時(shí),可以通過增加原序列中的樣本數(shù)解決。
3.3.3. 預(yù)測(cè)精度與分析
在本文中,提供了另外6個(gè)預(yù)測(cè)模型作為對(duì)比模型,以考察所提出模型的預(yù)測(cè)性能。此外,為了考察該模型的多步預(yù)測(cè)性能,所有涉及的模型都進(jìn)行了一步到三步預(yù)測(cè)。由于ESN算法的特點(diǎn),必須遺忘一定數(shù)量的輸出結(jié)果[38]。為了避免預(yù)測(cè)精度波動(dòng),本文對(duì)3次重復(fù)實(shí)驗(yàn)的結(jié)果求平均。
本文用平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)、誤差標(biāo)準(zhǔn)差(SDE)、皮爾遜相關(guān)系數(shù)(R)和一致性指數(shù)(IA)分析預(yù)測(cè)模型的實(shí)驗(yàn)結(jié)果。D1、D2和D3模型的指標(biāo)值如表7所示。從表7可以看出,這3個(gè)數(shù)據(jù)集反映了相同的模型性能。為了使論文的篇幅保持在合理的范圍內(nèi),只選擇D1進(jìn)行具體分析。圖6顯示了D1的PM2.5濃度預(yù)測(cè)結(jié)果。表8給出了S1、S2和T1~T4的6個(gè)預(yù)測(cè)模型的R和IA結(jié)果。圖7給出了S1和S2的6個(gè)預(yù)測(cè)模型的MAPE、MAE、RMSE和SDE結(jié)果。圖8給出了T1和T2的6個(gè)預(yù)測(cè)模型的MAPE、MAE、RMSE和SDE結(jié)果。圖9給出了T3和T4的6個(gè)預(yù)測(cè)模型的MAPE、MAE、RMSE和SDE結(jié)果。需要注意的是,由于R和IA的值與其他4個(gè)評(píng)價(jià)指標(biāo)不屬于同一維度,所以沒有以圖表的形式顯示。
圖4. 不同k值的SSE和SC指標(biāo)。
圖5.(a)PM2.5濃度序列的KC聚類結(jié)果;(b)PM2.5和SO2濃度序列的KC聚類結(jié)果;(c)PM2.5和O3濃度序列的KC聚類結(jié)果。
表5 數(shù)據(jù)集D1的各簇?cái)?shù)據(jù)的統(tǒng)計(jì)描述
表6 數(shù)據(jù)集D1各簇PM2.5濃度的MCD-ESN模型預(yù)測(cè)誤差指標(biāo)
表7 數(shù)據(jù)集D1、D2和D3的PM2.5濃度預(yù)測(cè)誤差指標(biāo)
在表7、表8和圖6至圖9中,本文所提出的模型具有最小的誤差評(píng)估指標(biāo),實(shí)現(xiàn)了對(duì)PM2.5濃度的準(zhǔn)確預(yù)測(cè)。與其他6種對(duì)比模型相比,本文所提出的模型具有更高的多步預(yù)測(cè)精度,證明了混合模型的有效性。
ESN-PSO模型的預(yù)測(cè)精度優(yōu)于ESN模型,說明粒子群算法選擇的最優(yōu)參數(shù)有助于提高ESN模型的預(yù)測(cè)精度。EWT-ESN-PSO模型的預(yù)測(cè)精度優(yōu)于ESN-PSO模型,說明加入EWT分解算法可以提高模型的預(yù)測(cè)精度。EWT算法得到的序列更平穩(wěn),隨機(jī)性更小。因此,將分解后的子層作為模型輸入,可以獲得更優(yōu)的預(yù)測(cè)結(jié)果。RSAR-KC-ESN模型的預(yù)測(cè)精度優(yōu)于ESN模型,說明RSAR-KC算法可以提高模型的預(yù)測(cè)精度。聚類后,不同簇之間的差異較大,相同簇之間的相似度較高,可以提高模型的預(yù)測(cè)精度。
此外,在表7和圖6至圖9中,每個(gè)預(yù)測(cè)模型的精度都隨著步數(shù)的增加而降低。隨著預(yù)測(cè)步長(zhǎng)的增加,誤差累積愈發(fā)嚴(yán)重,導(dǎo)致預(yù)測(cè)精度下降。
空氣質(zhì)量從優(yōu)開始排序,依次為長(zhǎng)沙(D3)、廣州(D2)和北京(D1)。表7和圖6中的預(yù)測(cè)精度與此順序一致。此外,圖7中的數(shù)據(jù)表明,同一地區(qū)不同污染水平的樣本對(duì)模型精度沒有影響。S1的PM2.5濃度小于S2,但S2的預(yù)測(cè)精度高于S1。因此可以得出結(jié)論,在空氣質(zhì)量較好的城市,該模型的預(yù)測(cè)精度要好于污染嚴(yán)重的城市。
圖6. 數(shù)據(jù)集D1的PM2.5濃度超前多步預(yù)測(cè)結(jié)果。
表8 數(shù)據(jù)集S1、S2和T1~T4的PM2.5濃度預(yù)測(cè)R值和IA值
圖7. 數(shù)據(jù)集S1(a)和數(shù)據(jù)集S2(b)的PM2.5濃度預(yù)測(cè)誤差。
在上述分析中,表7和表8以及圖6和圖7驗(yàn)證了同一時(shí)間段內(nèi)不同城市的數(shù)據(jù)預(yù)測(cè)的有效性。為了驗(yàn)證同一城市不同時(shí)間段內(nèi)預(yù)測(cè)的有效性,進(jìn)行了圖8和圖 9所示的實(shí)驗(yàn)。根據(jù)圖8和圖9中的數(shù)據(jù),本文所提出的模型隨著時(shí)間段的變化保持了穩(wěn)定的預(yù)測(cè)效果,驗(yàn)證了所提出模型在全年的穩(wěn)定性和有效性。
在本文中,所有的計(jì)算均在仿真條件(Intel i5-6500 CPU 3.2 GHz,RAM 8 GB)下進(jìn)行。表9給出了D1中對(duì)比模型的計(jì)算時(shí)間。由于所提出模型的RSAR-KC算法和PSO算法都是離線處理,因此無法與對(duì)比模型比較計(jì)算時(shí)間。
圖8. 數(shù)據(jù)集T1(a)和數(shù)據(jù)集T2(b)的PM2.5濃度預(yù)測(cè)誤差。
圖9. 數(shù)據(jù)集T3(a)和數(shù)據(jù)集T4(b)的PM2.5濃度預(yù)測(cè)誤差。
表9 數(shù)據(jù)集D1的對(duì)比模型計(jì)算時(shí)間
由于ESN網(wǎng)絡(luò)本身的優(yōu)勢(shì),ESN的計(jì)算速度比LSTM快得多。由于儲(chǔ)備池的存在,在ESN網(wǎng)絡(luò)的訓(xùn)練過程中只需要訓(xùn)練輸出權(quán)值,這大大提高了計(jì)算速度。
加入EWT分解算法后,模型的計(jì)算速度有一定程度的降低。由于每個(gè)分解層都需要訓(xùn)練和預(yù)測(cè),所以原始模型的計(jì)算速度在這里起著至關(guān)重要的作用,這進(jìn)一步體現(xiàn)了ESN的優(yōu)越性。
預(yù)測(cè)步長(zhǎng)的改變對(duì)模型的計(jì)算速度影響不大,這可能是因?yàn)樗惴P偷挠?jì)算量比較大。
本文基于MCD方法和粒子群算法,建立了改進(jìn)的混合ESN預(yù)測(cè)模型,對(duì)PM2.5的每小時(shí)平均濃度進(jìn)行了預(yù)測(cè)和分析。將提出的混合模型與幾種基準(zhǔn)模型進(jìn)行了比較,驗(yàn)證了該模型的有效性。屬性約簡(jiǎn)結(jié)果表明,SO2和O3濃度在PM2.5濃度預(yù)測(cè)中起著重要作用。PM2.5濃度數(shù)據(jù)經(jīng)過聚類處理后更加平穩(wěn),有利于ESN訓(xùn)練。預(yù)測(cè)結(jié)果表明:①M(fèi)CD方法可以提高模型的精度;②所提出的混合模型比其他深度學(xué)習(xí)模型或單一模型具有更好的預(yù)測(cè)精度;③所提出的混合模型在我國(guó)4個(gè)城市的PM2.5污染物濃度數(shù)據(jù)上取得了較好的實(shí)驗(yàn)結(jié)果;④所提出的混合PM2.5預(yù)測(cè)框架可以應(yīng)用于其他空氣污染時(shí)間序列的多步預(yù)測(cè)。預(yù)測(cè)結(jié)果可以嵌入城市空氣污染管理預(yù)警系統(tǒng)中。
本文的主要貢獻(xiàn)如下:
(1)提出了一種基于MCD、ESN和PSO的PM2.5濃度多步預(yù)測(cè)模型,該模型對(duì)PM2.5每小時(shí)平均濃度具有較高的預(yù)測(cè)精度。多步預(yù)測(cè)結(jié)果可用于PM2.5污染預(yù)警系統(tǒng)的開發(fā)。
(2)提出了一種新的混合PM2.5濃度預(yù)測(cè)分解方法,即MCD,該方法將特征提取與分解相結(jié)合。利用RSAR算法的特征提取結(jié)果進(jìn)行多維KC聚類,既保證了聚類結(jié)果的有效性,又考慮了多維特征的影響。首先采用基于EWT算法的KC算法進(jìn)行數(shù)據(jù)預(yù)處理。然后根據(jù)不同的PM2.5濃度場(chǎng)景,采用聚類算法對(duì)原始PM2.5濃度進(jìn)行分組。最后結(jié)合EWT分解算法,對(duì)原始PM2.5濃度數(shù)據(jù)在時(shí)間尺度上的不同特征進(jìn)行判別。
(3)采用ESN作為預(yù)測(cè)器。ESN模型中神經(jīng)元的稀疏連接提高了神經(jīng)網(wǎng)絡(luò)模型的收斂性,增強(qiáng)了模型的泛化能力,避免了模型訓(xùn)練過程中的過擬合。此外,ESN在計(jì)算過程中具有良好的實(shí)時(shí)性。
致謝
本研究得到國(guó)家自然科學(xué)基金面上項(xiàng)目(61873283)、長(zhǎng)沙市首屆杰出創(chuàng)新青年培養(yǎng)計(jì)劃(KQ1707017)和中南大學(xué)2019年度創(chuàng)新驅(qū)動(dòng)計(jì)劃(2019CX005)的資助。
Compliance with ethics guidelines
Hui Liu, Zhihao Long, Zhu Duan, and Huipeng Shi declare that they have no conflict of interest or financial confl icts to disclose.