王馨陸 黃冉,? 張雯嫻 呂寶磊 杜云松 張巍 李波蘭 胡泳濤
1. 杭州矮馬科技有限公司, 杭州 311121; 2. 華云升達(北京)氣象科技有限責任公司, 北京 102299; 3. 四川省生態(tài)環(huán)境監(jiān)測總站,成都 610091; 4. School of Civil and Environmental Engineering, Georgia Institute of Technology, Atlanta, GA 30332;
環(huán)境空氣質(zhì)量的好壞對公眾健康有著顯著影響, 不論是極端重污染事件還是長期暴露于低濃度空氣污染環(huán)境中, 均會直接增加人體心血管和呼吸系統(tǒng)等多種疾病的發(fā)病率[1–2]。近年來, 我國大多數(shù)城市的空氣質(zhì)量持續(xù)改善, 尤其是秋冬季細顆粒物(PM2.5, 空氣動力學(xué)直徑小于或等于 2.5 μm 的氣溶膠粒子)污染程度下降明顯[3–4], 但春夏季臭氧污染呈現(xiàn)上升趨勢[5–6]??諝馕廴疚镌磁欧攀怯绊懣諝赓|(zhì)量的決定性因素, 天氣形勢及氣象條件亦為關(guān)鍵因素。氣象條件的變化直接或間接地影響大氣中污染物的化學(xué)反應(yīng)、傳輸、擴散稀釋和沉降等過程[7–11], 對空氣質(zhì)量的影響呈現(xiàn)多時空尺度、影響大及變化快的特點[12]。對一定的區(qū)域而言, 如果短期內(nèi)污染源排放相對穩(wěn)定, 其空氣質(zhì)量則主要取決于氣象條件[13–14]。當出現(xiàn)靜穩(wěn)天氣等不利氣象條件時, 污染物濃度容易在短時間內(nèi)出現(xiàn)大幅增長,造成嚴重的空氣污染事件[15–18]。因此, 研究天氣形勢及氣象條件對污染物在大氣中傳輸和轉(zhuǎn)化的影響, 開展空氣污染潛勢預(yù)報預(yù)警, 對評估氣象條件對空氣污染的貢獻以及輔助大氣環(huán)境精細化管理和科學(xué)決策具有重要意義。
污染潛勢預(yù)報是在假定污染源排放不變的情況下, 以可能影響污染物時空分布的天氣形勢及氣象條件為主要依據(jù), 對未來氣象條件下的空氣污染狀況進行預(yù)測[19–21]。其特點在于忽略不確定的污染源排放速率的變化, 重點關(guān)注有利或不利于污染物擴散稀釋等過程的氣象因素[22], 將氣象因素對空氣質(zhì)量的影響分離出來[23], 是評估氣象條件對污染物濃度影響及貢獻的重要方法之一。眾多研究采用逐步多元線性回歸的方法建立氣象因子(如風速、相對濕度等)與污染物濃度(如 PM2.5和臭氧)之間的污染潛勢模型[24–28], 量化氣象條件變化對污染物濃度變化的貢獻。Zhai 等[27]以中國地面氣象觀測日值數(shù)據(jù)及 MERRA2 再分析數(shù)據(jù)中的風速、降水、相對濕度、氣溫和 850 hPa 經(jīng)向風等作為潛在預(yù)報變量, 采用逐步多元線性回歸法建立 2013—2018 年中國主要地區(qū)的 PM2.5污染潛勢預(yù)報模型, 定量分析氣象條件對 PM2.5污染變化的貢獻, 結(jié)果表明在中國 PM2.5濃度下降的趨勢中, 氣象貢獻占 12%。張小曳等[29]利用國家自動氣象站逐小時地面氣象觀測數(shù)據(jù)及歐洲中期天氣預(yù)報中心的再分析數(shù)據(jù), 對與氣溶膠濃度密切相關(guān)的氣象要素(如風速、風向和大氣穩(wěn)定度等)進行診斷和參數(shù)化分析, 得到可定量反映停滯–靜穩(wěn)型天氣程度的“污染–氣象條件”指數(shù)(PLAM 指數(shù)), 建立氣溶膠濃度與氣象要素之間的量化關(guān)系, 并分析評估了 2013 年《大氣污染防治行動計劃》實施以來氣象條件變化對 PM2.5污染變化的影響。
數(shù)值預(yù)報計算量大, 計算成本高, 依賴于大量輸入數(shù)據(jù)(如源排放清單和氣象場)的驅(qū)動, 與之相比, 基于各種機器學(xué)習算法的空氣污染潛勢預(yù)報較為簡單易行, 且無需源排放清單, 已廣泛應(yīng)用于各項研究中[30–31], 具有較好的預(yù)報效果。不同于數(shù)值預(yù)報模式中以大氣污染物轉(zhuǎn)化擴散的化學(xué)和物理機制為基礎(chǔ)[32], 基于統(tǒng)計方法的污染潛勢預(yù)報主要利用大量污染監(jiān)測歷史數(shù)據(jù)及同期氣象觀測資料, 分析污染物濃度與相關(guān)輔助因子之間的統(tǒng)計關(guān)系, 建立從簡單相關(guān)到復(fù)雜多參數(shù)的模型, 從而進行未來空氣質(zhì)量的預(yù)測[19,22–23]。常見的潛勢預(yù)報方法包括多元線性回歸[33–35]、支持向量機[36–37]、決策樹[30,38]、隨機森林[39–40]和人工神經(jīng)網(wǎng)絡(luò)[41–43]等。Lightstone 等[44]利用 2016 年 NCEP/NARR 再分析資料及 NYSDEC 地面監(jiān)測網(wǎng)的 PM2.5數(shù)據(jù), 建立紐約市PM2.5神經(jīng)網(wǎng)絡(luò)預(yù)報模型, 并與 CMAQ 12 km 網(wǎng)格數(shù)值模式模擬結(jié)果進行對比, 結(jié)果表明神經(jīng)網(wǎng)絡(luò)模型準確性更好, 尤其是對傳輸引起的污染濃度快速變化時段的模擬。
本研究利用成都市 2016—2019 年WRF 模式回溯模擬氣象場及同期空氣質(zhì)量觀測數(shù)據(jù), 以影響污染物轉(zhuǎn)化、擴散和傳輸?shù)闹饕獨庀笠蜃蛹跋嚓P(guān)輔助因子為潛在預(yù)報因子, 通過篩選關(guān)鍵入模變量, 利用多元線性回歸、隨機森林及 BP (back-propagation)神經(jīng)網(wǎng)絡(luò)等機器學(xué)習算法, 建立成都市夏季(4—8 月) O3及冬季(11 月—來年 2 月) PM2.5濃度污染潛勢預(yù)報模型, 對比分析各模型對成都市 O3及PM2.5污染的預(yù)測效果, 并檢驗建立的污染潛勢模型的中長期預(yù)報能力。
1.1.1 空氣質(zhì)量數(shù)據(jù)
本研究使用的 2016—2019 年成都市逐日臭氧及 PM2.5環(huán)境濃度觀測數(shù)據(jù)來自四川省空氣質(zhì)量監(jiān)測網(wǎng)絡(luò)管理平臺(http://www.scnewair.cn:3389)。成都市 2016—2019 年 O3日最大 8 小時濃度在每年的4—8 月達到污染高峰期, O3超標事件(O3≥160 μg/m3)頻發(fā)(圖 1), 4—8 月的多年累月平均濃度分別為114.5, 128.2, 126.2, 131.2 和 143.7 μg/m3。PM2.5日均濃度的污染高峰期主要發(fā)生在每年的 11 月至來年 2 月(圖 1), 11—2 月的多年累月平均濃度分別為65.2, 89.9, 93.5 和 69.7 μg/m3。
圖1 成都市2016—2019 年O3 日最大8 小時濃度及PM2.5 日均濃度的月平均及每月超標日數(shù)(O3≥160 μg/m3, PM2.5 ≥75 μg/m3)統(tǒng)計Fig. 1 Monthly mean of daily maximum 8-hr average O3 and daily average PM2.5 concentrations,and monthly number of exceedance days (O3 ≥ 160 μg/m3, PM2.5 ≥ 75 μg/m3)
考慮到成都市 O3和 PM2.5污染以及各氣象因子的顯著季節(jié)波動, 為提高所建模型的可靠性、準確性和實用性, 本文針對成都市每年 4—8 月和 11—2月分別建立 O3和 PM2.5的污染潛勢預(yù)報模型。
1.1.2 氣象數(shù)據(jù)
本研究使用的成都市 2016—2019 年氣象數(shù)據(jù)來自中尺度預(yù)報模式 WRF (Weather Research and Forecast Model, 版本 3.6)[45]的氣象回溯模擬結(jié)果。該回溯模擬采用基于 Lambert 投影坐標的 36 km、12 km 和 4 km 水平分辨率的 3 重嵌套網(wǎng)格(見 http://xbna.pku.edu.cn (以下簡稱 xbna)附錄 1), 最外層網(wǎng)格覆蓋包括青藏高原在內(nèi)的所有中國地區(qū)和東亞以及部分東南亞和印度次大陸, 次內(nèi)層網(wǎng)格包括四川省全省及西南地區(qū)各省(市、區(qū))的大部分區(qū)域, 最內(nèi)層網(wǎng)格覆蓋四川盆地的主要城市, 垂直方向采用從地面到 50 hPa 共 35 個σ層。模擬中以 NCEP GDAS/FNL 0.25°×0.25° 全球再分析資料作為初始條件和邊界條件, 主要物理過程采用 Lin 微物理參數(shù)化方案[46]、Kain-Fritsch 積云方案[47]、YSU 邊界層參數(shù)化方案[48]以及 NOAH+MOSAIC 陸面模式[49]。此外, 在模擬過程中啟用 Grid Nudging 同化技術(shù)[50–51], 利用 NCEP ADP 全球地面及探空氣象觀測數(shù)據(jù), 對逐6 小時猜測場進行“校正”, 并在 WRF 計算過程中通過同化技術(shù)優(yōu)化模擬結(jié)果。利用中國地面氣象觀測站逐小時數(shù)據(jù), 對 2016—2019 年 WRF 回溯模擬結(jié)果進行評估(xbna 附錄 2), 各評估統(tǒng)計指標都處于合理的可接受范圍[52], 表明氣象回溯模擬數(shù)據(jù)可進一步用于成都市污染潛勢預(yù)報模型的建立及后續(xù)的預(yù)報能力評估。
本研究以可能影響 O3及 PM2.5污染的氣象及相關(guān)輔助因子為潛在預(yù)報變量, 建立污染潛勢模型,重點在于識別影響空氣質(zhì)量的關(guān)鍵預(yù)報因子。瞬時多變的天氣形勢及氣象條件對空氣質(zhì)量的影響極為復(fù)雜, 不同氣象條件和相關(guān)輔助因子對不同污染物的作用各不相同, 又相互影響。為了盡可能準確地識別影響 O3和及 PM2.5污染的關(guān)鍵預(yù)報因子, 本研究擬定 39 個潛在的預(yù)報因子(xbna 附錄 3), 主要包含污染持續(xù)性因子(如前一日的污染物濃度)、節(jié)假日和工作日信息[53–55]以及相關(guān)氣象條件因子(如風速、氣溫、濕度和云量等)[12–13,22,24,56], 并利用WRF 回溯模擬結(jié)果建立潛在預(yù)報因子數(shù)據(jù)集, 以便后續(xù)關(guān)鍵預(yù)報因子的篩選。
以成都市 2016—2019 年 O3及 PM2.5的日值觀測數(shù)據(jù)和 1.1.2 節(jié)建立的包含 39 個潛在預(yù)報因子的數(shù)據(jù)集為基礎(chǔ), 篩選關(guān)鍵預(yù)報因子, 并分別建立訓(xùn)練、測試和評估數(shù)據(jù)集。采用多元線性回歸(Multiple Linear Regression, MLR)[57]、隨機森林(Random Forest, RF)[58]以及 BP 神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network, NN)[43]3 種機器學(xué)習算法, 建立成都市夏季 O3及冬季 PM2.5污染潛勢預(yù)報模型, 并進行驗證和評估。圖 2 為建立污染潛勢預(yù)報模型的技術(shù)路線。
圖2 建立污染潛勢預(yù)報模型的技術(shù)路線Fig. 2 Flow chart of building the air pollution potential forecasting models
1.2.1 關(guān)鍵入模變量的篩選
首先進行預(yù)報因子的篩選, 確認影響成都市夏季 O3及冬季 PM2.5濃度的關(guān)鍵入模變量。采用基于隨機森林算法的變量重要性分析工具進行潛在變量的初步篩選, 然后根據(jù)相關(guān)性及不同組間的差異性分析, 最終選定入模變量。
1) 以潛在預(yù)報因子數(shù)據(jù)集中的 39 個變量為自變量, 分別以成都市 2016—2019 年的 O3及 PM2.5濃度為因變量, 利用隨機森林算法進行潛在預(yù)報因子的重要性分析, 降序排列選擇其中前 25 個變量為初步選定的潛在入模因子。分別計算上述步驟初步選定的 O3及 PM2.5的 25 個入模變量間的相關(guān)系數(shù)矩陣(xbna 附錄 4 和 5), 可見其中存在大量高度相關(guān)的相似變量, 進一步剔除相關(guān)系數(shù)高于 0.7 的相對不重要變量, 達到刪除多余相似變量的目的, 避免高度相關(guān)變量進入模型中可能導(dǎo)致的嚴重的多重共線性問題[59–60]并減少模型訓(xùn)練過程中的計算量。
2) 分別分析 O3及 PM2.5濃度與上一步篩選出的對應(yīng)潛在入模因子的相關(guān)性, 并根據(jù)國家一級及二級標準(GB/T 3095—2012 環(huán)境空氣質(zhì)量標準), 分別劃分 O3和 PM2.5污染的清潔日(O3<100 μg/m3,PM2.5<35 μg/m3)和污染日(O3>160 μg/m3, PM2.5>75 μg/m3), 利用 t 檢驗對在清潔日與污染日潛在入模因子的差異性進行分析, 選擇具有顯著相關(guān)性及顯著差異的因子分別作為 O3和 PM2.5潛勢預(yù)報模型的最終關(guān)鍵入模因子。
通過上述步驟, 最終選定成都市臭氧污染的關(guān)鍵入模變量為 T_MAX (地面每日最高氣溫)、PBL_MAX (每日邊界層高度最大值)、O3_YEST (前一日臭氧平均濃度)、HCC (每日平均高云量)、MCC (每日平均中云量)、WS850 (850 hPa 每日平均風速)、WS_AFTE (地面下午時段平均風速)、PR (每日降水總量)、PS_DELTA_YEST (前一日 24 小時變壓)、WD (地面每日最多風向)及 WD700 (700 hPa 每日最多風向)。PM2.5的關(guān)鍵入模變量為 PM2.5_YEST(前一日 PM2.5平均濃度)、PBL (每日平均邊界層高度)、WS (地面每日平均風速)、T700_MAX (700 hPa每日最高氣溫)、PS_DELTA (當日 24 小時變壓)、WD_CHANGE (風向日變化因子)、PS_DELTA_YEST (前一日 24 小時變壓)、PR (每日降水總量)、WS500 (500 hPa 每日平均風速)、GHT500 (500 hPa 每日平均位勢高度)及 WD (地面每日最多風向)。
1.2.2 數(shù)據(jù)預(yù)處理
在正式建立預(yù)報模型之前, 需要對數(shù)據(jù)進行預(yù)處理, 包括歸一化處理、污染物濃度對數(shù)化處理及風向相關(guān)變量特殊處理等。
1) O3及 PM2.5濃度數(shù)據(jù)為對數(shù)正態(tài)分布, 對相關(guān)變量(PM2.5, O3, PM2.5_YEST 和 O3_YEST)進行自然對數(shù)化處理, 處理完成后的數(shù)據(jù)主要用于 MLR及 NN 模型的建立。
2) 為消除量綱的影響, 對各變量數(shù)據(jù)做歸一化處理, 處理完成后的數(shù)據(jù)用于 MLR, NN 及 RF 模型的建立。
3) 針對類別型變量(WD, WD700, IF_HOLIDAY和 IF_WEEK)進行特殊處理。在 RF 模型的建立中,對上述 4 個變量進行因子化處理; 在 MLR 及 NN 模型的建立中, 則分別構(gòu)建新的虛擬變量, 如 WD 變量共包含 17 個因子水平(N, NNE, NE, ENE, E, ESE,SE, SSE, S, SSW, SW, WSW, W, WNW, NW, NNW和 C), 因此新建 16 個虛擬變量(WD.N, WD.NNE,WD.NE, WD.ENE, WD.E, WD.ESE, WD.SE, WD.SSE, WD.S, WD.SSW, WD.SW, WD.WSW, WD.W,WD.WNW, WD.NW 和 WD.NNW)。若所有虛擬變量為 0, 則代表 WD 為 C; 若 WD.N 為 1 且其他虛擬變量為 0, 則代表 WD 為 N; 依此類推。
此外, 隨機抽取 2016—2018 年 75%的數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù)集, 剩余 25%的數(shù)據(jù)為測試數(shù)據(jù)集,保留 2019 年數(shù)據(jù)為回顧預(yù)報數(shù)據(jù)集, 用于模型建立完成后對預(yù)報效果進行獨立評估。
1.2.3 模型訓(xùn)練及優(yōu)化
本研究利用建立的訓(xùn)練數(shù)據(jù)集, 分別采用多元線性回歸(MLR)、BP 神經(jīng)網(wǎng)絡(luò)(NN)和隨機森林(RF) 3 種方法訓(xùn)練, 建立成都市夏季臭氧及冬季PM2.5污染潛勢預(yù)報模型。
1) MLR 模型: 在數(shù)據(jù)預(yù)處理過程中, 針對類別型變量新建了大量的虛擬變量, 首先利用最優(yōu)子集回歸法進一步篩選變量, 基于馬洛斯 Cp 準則、貝葉斯信息量準則和修正R2選擇最佳的變量組合, 建立初步的 MLR 模型, MLR 模型建立完成后, 進行模型的診斷及顯著性檢驗, 并利用方差膨脹因子進行共線性分析和模型優(yōu)化, 確定相對最優(yōu)的 MLR 模型。
2) NN 模型: 采用最優(yōu)子集回歸法確定最佳變量組合, 建立 NN 模型。設(shè)置隱含層層數(shù)為 1, 采用十折交叉檢驗確定隱含層神經(jīng)元個數(shù), 建立相對最優(yōu)的 NN 模型。
3) RF 模型: 采用篩選的關(guān)鍵入模變量建立 RF模型, 通過診斷測試抽樣的特征個數(shù)和森林決策樹的個數(shù)等參數(shù)對 RF 模型的影響, 確定最優(yōu)的參數(shù)組合, 建立相對最優(yōu)的 RF 模型。
1.2.4 模擬和預(yù)報效果評估
對建立的“最優(yōu)”MLR, NN 和 RF 模型在訓(xùn)練集和測試集中的表現(xiàn)進行評估, 并分析模型的泛化能力; 利用建立的模型對 2019 年的 O3及 PM2.5濃度進行回顧預(yù)報, 進一步驗證 3 種模型的預(yù)報模擬能力。用于評估模擬效果的統(tǒng)計量包括相關(guān)系數(shù)(R)、平均偏差(Bias)、平均絕對誤差(GE)、均方根誤差(RMSE)以及分類誤判率。
在成都市 2016—2018 年數(shù)據(jù)中隨機選取 75%作為訓(xùn)練數(shù)據(jù)集, 剩余 25%的數(shù)據(jù)作為測試集, 利用多元線性回歸、BP 神經(jīng)網(wǎng)絡(luò)及隨機森林算法進行模型訓(xùn)練, 分別建立成都市臭氧污染潛勢預(yù)報MLR, NN 及 RF 模型(各模型參數(shù)設(shè)置見 xbna 附錄6), 并評估各模型在訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集中的模擬表現(xiàn)(表 1 和 xnba 附錄 7)。MLR 及 NN 模型在訓(xùn)練集和測試集中的表現(xiàn)相對穩(wěn)定, 性能接近。與訓(xùn)練集相比, 兩個模型在測試集中的相關(guān)性有所降低, 誤差值略有增大, 但仍處于合理的可接受范圍內(nèi)。RF 模型在訓(xùn)練集中的綜合表現(xiàn)最優(yōu), 其相關(guān)系數(shù)高達0.98, BIAS, GE, RMSE 和分類誤判率分別為?0.22, 9.09, 11.98 和 8.93, 均明顯優(yōu)于 MLR 及NN 模型在訓(xùn)練集中的模擬表現(xiàn)。在測試集中,RF 模型的相關(guān)系數(shù)顯著降低 22.4%, GE, RMSE 和分類誤判率等誤差指標分別增加 148%, 150%和300%, 模擬能力顯著降低, 但仍與 MLR 及 NN 模型在測試集中的評估結(jié)果接近??梢? 盡管 RF 模型存在明顯的過擬合問題, 但依舊保持較好的模擬能力。綜上所述, 利用多元線性回歸、BP 神經(jīng)網(wǎng)絡(luò)、隨機森林算法訓(xùn)練建立的 MLR, NN 以及 RF 模型的模擬表現(xiàn)較為接近, 都能夠?qū)Τ啥际邢募境粞跷廴具M行良好的預(yù)測。
利用上述建立的 MLR, NN 及 RF 模型, 對成都市2019 年 4—8 月的臭氧污染進行回顧預(yù)報模擬,對模型的獨立預(yù)報能力進行評估(表 1 和圖 3)。該回顧預(yù)報可理解為提前一天(1-day lead)的污染潛勢預(yù)報。MLR, NN 及 RF 模型在回顧預(yù)報集中的模擬值與觀測值的相關(guān)系數(shù)位于 0.75~0.77 之間, 除BIAS 指標外, GE, RMSE 及分類誤判率等誤差結(jié)果較為一致(表 1)。對比在測試集中的表現(xiàn), 3 個模型在回顧預(yù)報集中的評估指標結(jié)果并無明顯差異, 可見 MLR, NN 及 RF 模型的表現(xiàn)均較為穩(wěn)定。此外,雖然 MLR, NN 及 RF 模型的模擬結(jié)果存在一定的定量方面問題(圖 3), 表現(xiàn)在對臭氧高峰值存在一定的低估(如 8 月 5—19 日期間的 3 個高峰值)或漏報(如 5 月 13 日)或 1~2 天的遲滯(如 6 月 12 日), 對低谷時段則存在一定的高估(如 6 月 17—19 日), 但模擬值與觀測值之間的時間變化趨勢保持良好的一致性, 可見 3 個模型都能對成都市 2019 年夏季臭氧進行較好的模擬。模型之間相較而言, MLR 及 RF 模型在定量方面能夠更好地再現(xiàn)臭氧高污染時段, 更接近污染高峰觀測值, 其中 RF 模型雖具有更小的 GE, RMSE 及分類誤判率, 但在整體上存在一定的高估(其在測試集及回顧預(yù)報集中的 BIAS 分別為3.88 和 3.53), 在某些時段的變化趨勢識別上不如MLR 模型精準。整體而言, 在 3 個模型中, MLR 模型具有最好的預(yù)報能力。
圖3 成都市 2019 年夏季 O3 濃度觀測值及 MLR, NN 和 RF 模型模擬值時間序列Fig. 3 Timeseries of O3 concentrations: observed versus simulated by MLR, NN and RF models for Chengdu in summer 2019
表1 成都市臭氧污染潛勢模型模擬效果評估Table 1 Evaluation of the ozone pollution potential forecast models in Chengdu
同樣針對成都市冬季(11—2 月) PM2.5污染建立MLR, NN 及 RF 潛勢預(yù)報模型, 模型在訓(xùn)練集和測試集中的結(jié)果見 xbna 附錄 8 和表 2。在訓(xùn)練集和測試集中, MLR 及 NN 模型的各項評估結(jié)果較為接近,且 MLR 和 NN 模型在測試集中的模擬能力反映在相關(guān)系數(shù)上與訓(xùn)練集無明顯差別, GE, RMSE 和分類誤判率則略有降低。RF 模型在訓(xùn)練集中的相關(guān)系數(shù)最大, GE, RMSE 及分類誤判率等各項誤差最小。RF 模型在測試集中的表現(xiàn)整體上與 MLR 和NN 模型相似, 但對比其在訓(xùn)練集中的表現(xiàn), 相關(guān)性明顯降低, 各項誤差(GE, RMSE 和分類誤判率)顯著增大, 可見 RF 模型依舊存在一定程度的過擬合問題。MLR, NN 和 RF 模型對 PM2.5污染潛勢的模擬能力較為相似, 表現(xiàn)穩(wěn)定, 能夠?qū)Τ啥际卸綪M2.5污染進行較好的模擬, 且模擬效果(表 2)優(yōu)于其在臭氧污染潛勢模擬中的表現(xiàn)(表 1)。
表2 成都市PM2.5 污染潛勢預(yù)報模型模擬效果評估Table 2 Evaluation of the PM2.5 pollution potential forecast models in Chengdu
對成都市 2019 年 1—2 月和 11—12 月的 PM2.5濃度進行回顧模擬, 評估建立的污染潛勢預(yù)報模型的預(yù)報能力(表 2 和圖 4)。MLR 及 RF 模型的預(yù)報性能整體上較為穩(wěn)定, 與測試集中的評估結(jié)果接近。這兩個模型預(yù)測值與觀測值的相關(guān)系數(shù)分別為 0.83和 0.85, GE, RMSE 及分類誤判率等誤差值也都保持在同一水平, 但 RF 模型的 BIAS 高于 MLR 模型,說明 RF 模型的高估程度更大。NN 模型的預(yù)報能力相較于測試集顯著降低, 其預(yù)測值與觀測值的相關(guān)系數(shù)降至 0.78, 雖然其 GE 和 RMSE 值與 MLR 和RF 模型較為接近, 但 BIAS 為 4.01, 說明 NN 模型在回顧預(yù)報集中亦存在一定程度的高估, 且分類誤判率比測試集中的 22.92 增加 38.2%。MLR, NN 及 RF模型的模擬結(jié)果與觀測時間序列皆較為吻合(圖 4),對 PM2.5的變化趨勢都能夠進行較好的模擬, 且都能夠識別主要的高濃度時段(如 12 月 8—15 日的連續(xù)重污染時段)。對比 MLR, NN 及 RF 模型的預(yù)報性能, NN 模型的相關(guān)系數(shù)相對較低, 分類誤判率誤差較高, 在時間序列中也存在更多的不一致; MLR及 RF 模型具有更好的模擬能力。雖然 MLR 模型預(yù)測結(jié)果與觀測值的相關(guān)性最強, 各項誤差皆較低,但在各項評估指標與 MLR 模型相近的情況下, RF模型對 PM2.5的重污染時段具有更好的識別能力(如1 月 6—9 日和 2 月 5 日)。從整體上看, RF 模型對成都市冬季 PM2.5污染的預(yù)報性能最佳。
圖4 成都市2019 年冬季PM2.5 污染觀測值及MLR, NN 和RF 模型模擬值時間序列Fig. 4 Timeseries of PM2.5 concentrations: observed versus simulated by MLR, NN and RF models for Chengdu in winter 2019
2.3.1 臭氧中長期潛勢預(yù)報
本研究選定的成都市臭氧及 PM2.5污染潛勢預(yù)報模型的關(guān)鍵入模變量主要為相關(guān)氣象因子(基于WRF 回溯模擬結(jié)果)及前一日污染濃度變量(基于觀測數(shù)據(jù))。在 2.1 及 2.2 節(jié)的提前一天(1-day lead)污染潛勢預(yù)報中, 我們利用 WRF 當日氣象回溯模擬結(jié)果及前一日污染濃度觀測結(jié)果對當日臭氧和PM2.5污染潛勢進行預(yù)測, 而通過迭代預(yù)報結(jié)果生成前一日污染物濃度變量(即利用當天的濃度預(yù)報值作為下一天預(yù)報中的前一日污染物濃度值), 則可對未來 2~15 天(2–15-day lead)的污染潛勢進行提前更長時間的預(yù)報(xbna 附錄 9)。利用建立的 MLR,NN 及 RF 模型, 對成都市 2019 年夏季(4—8 月)臭氧及冬季(1—2 月及 11—12 月) PM2.5的污染潛勢進行提前 1~15 天的預(yù)報, 評估 MLR, NN 及 RF 模型對中長期污染潛勢預(yù)報的性能。
在 MLR 模型的中長期臭氧潛勢預(yù)報結(jié)果(圖 5和 6)中, 不同提前天數(shù)的預(yù)報濃度數(shù)值非常接近,除提前 1~3 天(1–3-day lead)的預(yù)報結(jié)果外, 其余提前各天(4–15-day lead)的預(yù)報濃度時間序列幾乎完全重疊, 且都能與實測濃度數(shù)據(jù)的變化趨勢較好地吻合(圖 5)。當從提前 1 天增加至提前 3 天預(yù)報時,MLR 模型預(yù)報結(jié)果與實測值的相關(guān)性有所下降(由 0.77 降至 0.73), 各項誤差指標有所增加, 但不顯著(GE, RMSE 和分類污染率分別增加 5.6%, 6.0%和 6.7%); 當提前預(yù)報時間延長至 7~15 天(7–15-day lead)時, 各項誤差指標保持穩(wěn)定, 不再發(fā)生明顯的變化, 始終保持較高的預(yù)報性能(圖 6)。在 NN 及RF 模型中也觀察到短期預(yù)報(提前 1~3 天)誤差微弱增加、中長期(提前 7~15 天)預(yù)報趨于穩(wěn)定的特征(圖 6), 可見 3 個模型在中長期臭氧潛勢預(yù)報中都有較好的預(yù)報性能, 其中 MLR 模型能夠更準確地識別臭氧重污染時段(圖 5), 在定量上與觀測結(jié)果更接近, 中長期污染潛勢預(yù)報性能最佳。
圖5 成都市2019 年夏季臭氧污染潛勢提前1~15 天預(yù)報值和觀測值時間序列Fig. 5 Timeseries of 1–15-day lead O3 pollution potential forecasts versus observations for Chengdu in summer 2019
圖6 成都市2019 年O3 污染潛勢提前1~15 天預(yù)報性能評估結(jié)果Fig. 6 Evaluation of 1–15-day lead forecasts of O3 pollution potential for Chengdu in summer 2019
考慮到在提前 1~15 天的臭氧污染潛勢預(yù)報測試中, 各模型關(guān)鍵預(yù)報因子中的相關(guān)氣象因子均無變化(基于當日 WRF 回溯模擬氣象場), 僅前一日臭氧濃度預(yù)報因子(O3_YEST)由預(yù)報模擬值迭代重新生成, 在不考慮 WRF 模擬氣象場的不確定條件下,臭氧中長期污染潛勢預(yù)報的準確性差異主要受 O3_YEST 變量的影響。由前面的分析可知, O3_YEST變量對中長期污染潛勢預(yù)報模擬的影響極為有限,表現(xiàn)在提前 1~3 天的預(yù)報中 O3_YEST 的改變對預(yù)報性能影響較小, 而當預(yù)報時間超過 3 天時, O3_YEST 變量的影響幾乎消失。為進一步驗證 O3_YEST 變量對成都市夏季臭氧污染潛勢預(yù)報性能的影響, 去除 O3_YEST 變量后重新構(gòu)建 MLR, NN 及RF 潛勢預(yù)報模型(評估結(jié)果見 xbna 附錄 10 和 11)。對比包含 O3_YEST 變量的模型預(yù)報效果(2.1 節(jié)),不包含 O3_YEST 變量的 MLR, NN 及 RF 模型在回顧預(yù)報集中的相關(guān)性分別略為下降至 0.72, 0.71 和0.74 (xbna 附錄 11, 與表 1 對比), GE, RMSE 及分類誤判率都小幅增加(GE, RMSE 及分類誤判率增幅分別為 7.9%~10.6%, 6.4%~8.9%和1.7%~10.3%)。3 個模型預(yù)報結(jié)果的時間序列變化趨勢也都依舊保持與觀測值良好的一致性(xbna 附錄 10)??梢娫谀P徒⒌倪^程中, 雖然 O3_YEST 變量對臭氧潛勢模型預(yù)報性能的提升起到一定的作用, 但效果有限, 成都市 O3污染潛勢預(yù)報模型的預(yù)報效果主要受各相關(guān)氣象因子的影響。
2.3.2 PM2.5 中長期潛勢預(yù)報
同樣地, 利用建立的 MLR, NN 及 RF 模型對成都市 2019 年 1—2 月和 11—12 月的 PM2.5污染進行提前 1~15 天的預(yù)報模擬, 結(jié)果如圖 7 和 8 所示。MLR 模型在提前 1~3 天(1–3-day lead)的預(yù)報測試中相關(guān)性降低 17.6%, BIAS 由 1.75 增至 5.2, GE, RMSE及分類誤判率分別增加 41.9%, 41.3%和 58.9%(圖8), 模型誤差顯著增加, MLR 模型的預(yù)報效果明顯下降。當延長至提前 7~15 天(7–15-day lead)的預(yù)報時, 各誤差指標(GE, RMSE 及分類誤判率)依舊存在一定程度的增長趨勢, 且 BIAS 持續(xù)增加說明高估問題更加顯著, 但各誤差指標仍處于可接受范圍內(nèi)。從圖 7 預(yù)報值的時間序列中亦可見, 1~3 天預(yù)報結(jié)果之間的差異較為顯著, 隨著預(yù)報提前時間的延長, 對 PM2.5的高估愈加明顯(如 2019 年 2 月 15 及11 月 25 日前后)。當延長至提前 7~15 天時, 預(yù)報值時間序列出現(xiàn)很大程度的重疊, 但依舊與觀測值的時間變化趨勢大體上保持一致。同樣的結(jié)果在 NN及 RF 模型的中長期潛勢預(yù)報測試中亦可見, 尤其是 NN 模型, 其性能變差更為顯著。對比 3 個模型對提前 1~15 天預(yù)報的性能評估結(jié)果, 可見 RF 模型的預(yù)報效果更為穩(wěn)定, 與觀測結(jié)果的時間序列保持更好的一致性, 具有最好的預(yù)報性能。針對成都市PM2.5污染建立的 MLR, NN 及 RF 模型對中長期PM2.5污染潛勢預(yù)報的性能均隨提前預(yù)報時長的增加而明顯地下降, 其中 NN 模型的預(yù)報性能下降最嚴重, MLR 和 RF 模型預(yù)報性能的下降幅度較小。綜合來看, 3 個模型的預(yù)報性能都仍處于可接受的范圍[61]。
圖7 成都市2019 年冬季PM2.5 污染潛勢提前1~15 天預(yù)報值和觀測值時間序列Fig. 7 Timeseries of 1–15-day lead forecasts of PM2.5 pollution potential versus observations for Chengdu in winter 2019
在 PM2.5模型中, 相關(guān)氣象預(yù)報因子數(shù)據(jù)不變的情況下, 成都市 PM2.5中長期污染潛勢預(yù)報模擬效果的顯著降低主要受前一日 PM2.5濃度(PM2.5_YEST)變量的影響。尤其在提前 1~3 天的短期預(yù)報中, PM2.5_YEST 的影響極為顯著, 而當延長至提前 7~15 天時, 其預(yù)報性能趨于相對穩(wěn)定, PM2.5_YEST 的影響顯著變小。去除 PM2.5_YEST 后重新建立成都市冬季 PM2.5污染潛勢 MLR, NN 和 RF 模型, 進行預(yù)報效果測試(評估結(jié)果見xbna 附錄 11 和12)。與包含 PM2.5_YEST 變量的模型預(yù)報效果(表2)相比, 去除 PM2.5_YEST 變量后, 新建的 PM2.5模型預(yù)報性能顯著下降(xbna 附錄 11), 各模型預(yù)報值在回顧預(yù)報集中與觀測值的相關(guān)系數(shù)由原來的0.78~0.85 下降至 0.38~0.47, 且各項誤差指標(GE,RMSE 及分類誤判率等)的增幅都達到 90%~130%,尤其是分類誤判率皆達到 50%以上, 不論是在定性還是定量方面, 各模型模擬的時間序列(xbna 附錄 12)都與觀測值存在很大的差異。PM2.5_YEST 對 PM2.5污染潛勢預(yù)報模型的建立具有顯著影響, 該變量能夠明顯地提升模型的預(yù)報性能, 可見 PM2.5潛勢模型的預(yù)報性能隨提前預(yù)報時長的增加而顯著降低主要是對 PM2.5_YEST 這一變量的依賴所致。
本文以成都市為例, 利用 2016—2019 年 WRF模式回溯模擬氣象場及同期 O3及 PM2.5日值觀測數(shù)據(jù), 利用影響污染物轉(zhuǎn)化、擴散和傳輸?shù)闹饕獨庀髼l件及相關(guān)因子建立潛在預(yù)報因子數(shù)據(jù)集。通過篩選影響成都市夏季(4—8 月) O3及冬季(11 月—來年2 月) PM2.5污染的關(guān)鍵預(yù)報因子, 利用多元線性回歸、隨機森林以及 BP 神經(jīng)網(wǎng)絡(luò)等機器學(xué)習算法,分別建立夏季 O3及冬季 PM2.5污染潛勢預(yù)報模型。對比分析各模型對成都市 O3及 PM2.5濃度的預(yù)報效果, 討論基于機器學(xué)習方法建立的污染潛勢預(yù)報模型的中長期預(yù)報能力。
基于多元線性回歸、BP 神經(jīng)網(wǎng)絡(luò)、隨機森林等算法建立的 MLR, NN 及 RF 模型對成都市夏季臭氧濃度均具有良好的預(yù)報性能, 模型泛化能力較好,能夠準確地識別成都市典型的臭氧高污染時段。在不考慮氣象模擬準確性的情況下, 建立的潛勢模型亦能夠較好地應(yīng)用于成都市夏季臭氧中長期(提前7~15 天)污染潛勢預(yù)報。隨著預(yù)報提前時間延長,模型預(yù)報性能并未顯著降低, 表現(xiàn)穩(wěn)定, 主要原因是各模型都對前一日臭氧濃度變量的依賴性較小。其中, MLR 模型對成都市臭氧濃度具有相對最佳的預(yù)報性能, 臭氧高值更接近觀測結(jié)果, 且與觀測結(jié)果的時間變化趨勢更加吻合。
基于關(guān)鍵氣象因子和前一日 PM2.5濃度變量建立的 MLR, NN 及 RF 模型能夠較好的預(yù)測成都市冬季 PM2.5濃度的變化趨勢, 與觀測時間序列保持較好的一致性, 各項誤差指標較低, 3 個模型均具有較優(yōu)的預(yù)報性能。通過迭代生成前一日 PM2.5濃度變量, 可利用建立的 MLR, NN 及 RF 模型, 對 PM2.5污染的中長期潛勢進行預(yù)報。受前一日 PM2.5濃度變量的影響, 隨著提前時長的增加, 各模型的預(yù)報性能均有所降低, 但仍處于可接受范圍。其中, RF 模型在保持良好誤差指標的同時, 在定量上對 PM2.5的高濃度數(shù)值有更好的表現(xiàn), 具有相對最優(yōu)的預(yù)報能力。