李明明,岳 江,王 雁,陳 玲,楊愛琴
(山西省氣象科學(xué)研究所,太原 030002)
細(xì)顆粒物(PM2.5)在當(dāng)今社會(huì)嚴(yán)重影響氣候、空氣質(zhì)量和身體健康,因此空氣質(zhì)量PM2.5濃度預(yù)報(bào)的準(zhǔn)確性對(duì)于政府部門的準(zhǔn)確決策及采取環(huán)境治理方案都有很重大的意義[1~3]。常用的預(yù)報(bào)方法包括:統(tǒng)計(jì)預(yù)報(bào)方法主要基于機(jī)器學(xué)習(xí)和數(shù)值預(yù)報(bào)方法主要基于大氣物理化學(xué)模式[4]。數(shù)值預(yù)報(bào)方法需要有研究區(qū)域內(nèi)詳盡的污染源清單及大氣物質(zhì)的相互轉(zhuǎn)換機(jī)制的輸入理解,而大氣系統(tǒng)非常復(fù)雜很難完全量化,而且污染源的排放也是時(shí)刻變化的[5~6]?;跈C(jī)器學(xué)習(xí)的統(tǒng)計(jì)預(yù)報(bào)方法對(duì)污染源和化學(xué)機(jī)制的沒有特別的要求[7~8]。太原市作為地處溫帶季風(fēng)氣候區(qū)是典型的北方城市,無(wú)論從氣候還是從地理特點(diǎn)來(lái)說(shuō)都具有內(nèi)陸城市典型的特征,有關(guān)該地區(qū)污染物濃度預(yù)報(bào)相對(duì)較少,且已有的一些預(yù)測(cè)模型在預(yù)測(cè)污染物濃度時(shí)依然存在各自的一些局限性,尤其是普通的線性模型難以精確模擬污染物濃度與多種影響因素之間的非線性關(guān)系,而且很多學(xué)者進(jìn)行了相關(guān)非線性方面的研究:李娟等,魏煜員等,蘆華等分別基于機(jī)器學(xué)習(xí)方法對(duì)西安市、河南省、成渝地區(qū)的空氣質(zhì)量數(shù)值預(yù)報(bào)及PM2.5的數(shù)值模擬進(jìn)行了優(yōu)化研究[9~11]。夏曉圣等、楊瑞君等、杜續(xù)等、林開春等、孟倩等、夏潤(rùn)等研究者分別基于隨機(jī)森林模型開展相關(guān)城市的空氣質(zhì)量濃度預(yù)測(cè)和空氣質(zhì)量分類預(yù)測(cè)研究[12~17]。郭飛等基于氣象因素和改進(jìn)支持向量機(jī)進(jìn)行了空氣質(zhì)量指數(shù)預(yù)測(cè)[18-19],南亞翔等基于卡爾曼濾波預(yù)測(cè)空氣質(zhì)量指數(shù)[20],劉炳春等基于IG-LASSO模型預(yù)測(cè)城市空氣質(zhì)量指數(shù)[21]。張春露等基于采用LSTM模型對(duì)太原市空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)[22-23]。邱晨、瞿英、田靜毅、張珺、馬井會(huì)等研究者基于BP神經(jīng)網(wǎng)絡(luò)的進(jìn)行空氣質(zhì)量模型分類預(yù)測(cè)和濃度預(yù)測(cè)研究[24~28]??傮w表明,對(duì)于非線性回歸預(yù)測(cè)來(lái)說(shuō),隨機(jī)森林、多元線性回歸、Lasso回歸、梯度提升樹、BP神經(jīng)網(wǎng)絡(luò)等機(jī)器統(tǒng)計(jì)預(yù)報(bào)方法的性能要明顯優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法[29]。
從上述文獻(xiàn)研究來(lái)看,空氣質(zhì)量預(yù)測(cè)的研究的輸入變量主要是空氣污染物濃度和與其強(qiáng)相關(guān)的氣象條件[30~33],輸出為未來(lái)的空氣質(zhì)量或者空氣污染指數(shù)。而氣象條件的選取主要集中在地面氣象要素,缺乏高空氣象要素的選取,本文提出了基于遞歸特征消除法(Recursive feature elimination,RFE)和隨機(jī)森林(Random Forests,RF)相結(jié)合的PM2.5濃度預(yù)測(cè)模型,選取太原市的空氣污染物濃度和美國(guó)國(guó)家環(huán)境預(yù)報(bào)中心(National Centers for Environmental Prediction,NCEP)氣象再分析的地面要素和高空要素作為預(yù)報(bào)因子,建立包括環(huán)境監(jiān)測(cè)數(shù)據(jù)和氣象數(shù)據(jù)的預(yù)測(cè)數(shù)據(jù)庫(kù),通過RFE特征選取,然后將揀選過的特征作為輸入,通過模型對(duì)比選用適合于本次研究使用的空氣質(zhì)量數(shù)據(jù)的隨機(jī)森林(RF)模型進(jìn)行預(yù)測(cè),輸出太原市PM2.5的預(yù)測(cè)濃度,通過選取最優(yōu)的RF預(yù)測(cè)模型應(yīng)用到日常的環(huán)境空氣質(zhì)量預(yù)報(bào)業(yè)務(wù)中,將進(jìn)一步提高太原市PM2.5濃度預(yù)報(bào)的準(zhǔn)確率,同時(shí)也為加強(qiáng)太原市的空氣污染防治,實(shí)現(xiàn)環(huán)境綜合管理和決策科學(xué)化提供了的重要科技手段。
(1)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù):太原市6個(gè)環(huán)境空氣質(zhì)量監(jiān)測(cè)站點(diǎn)(桃園、塢城、上蘭、尖草坪、南寨和小店)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)(2015~2018),監(jiān)測(cè)項(xiàng)目:PM10、PM2.5、SO2、NO2、CO、O3六種污染物的小時(shí)濃度值。
(2)NCEP再分析數(shù)據(jù):NCEP再分析資料插值到對(duì)應(yīng)太原市中心點(diǎn)的地面要素和高空要素,其中地面要素有海平面氣壓、24小時(shí)變溫、變壓,2m相對(duì)濕度,10m風(fēng)速、10m風(fēng)向。高空要素有500hPa、700hPa、850hPa、925hPa、1000hPa高度的相對(duì)濕度,水平風(fēng)東西分量(U)和南北風(fēng)(V)分量、水平風(fēng)速、垂直速度、散度、渦度以及任意兩層氣壓層之間的相對(duì)濕度、位溫、風(fēng)速的差值(高層減低層)等。數(shù)據(jù)使用時(shí)對(duì)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)和NCEP再分析數(shù)據(jù)按照時(shí)間點(diǎn)(北京時(shí)每日2時(shí)、8時(shí)、14時(shí)和20時(shí))進(jìn)行對(duì)應(yīng)。
1.2.1 遞歸特征消除法(RFE)
遞歸特征消除法(RFE),主要是針對(duì)影響PM2.5濃度的各種特征,反復(fù)創(chuàng)建模型,并在每次迭代時(shí)剔除掉最差特征,同時(shí)保留最佳特征,下一次迭代時(shí),將上次建模時(shí)沒有被選中的特征拿來(lái)構(gòu)建下一個(gè)模型,直到用盡所有特征為止。然后它根據(jù)模型挑選出來(lái)的特征,按照重要性的順序來(lái)進(jìn)行排名,最終選出一個(gè)最佳特征子集。
1.2.2 特征選擇與數(shù)據(jù)預(yù)處理
通過RFE算法選取20項(xiàng)預(yù)報(bào)因子作為模型的最終輸入量(表1),本次選取的預(yù)報(bào)因子與氣象的相關(guān)性較高,其中高空的氣象要素:700hPa渦度和850hPa散度表明氣團(tuán)的旋轉(zhuǎn)形態(tài),空氣的輻合與輻散以及925hPa的氣壓,對(duì)PM2.5濃度影響最為直接;前一觀測(cè)時(shí)次的PM2.5、PM10、NO2等污染物濃度在大氣穩(wěn)定條件下具備一定的連續(xù)性;500hPa風(fēng)速,850hPa風(fēng)向、925hPa水平風(fēng)東西分量和850hPa水平風(fēng)南北分量,表明高空的風(fēng)向和風(fēng)速對(duì)于PM2.5濃度也有較大的影響;24小時(shí)負(fù)變溫和正變壓的大小可反映冷鋒強(qiáng)度,對(duì)于近地層的尤其冷鋒過境對(duì)空氣污染有明顯的清除作用;700hPa和500hPa風(fēng)速差、位溫差和溫度差等也表征空氣的垂直運(yùn)動(dòng),是云團(tuán)形成,雷鳴閃電、空氣對(duì)流等天氣現(xiàn)象的根本原因,對(duì)于PM2.5濃度也有一定的影響。地面的氣象要素:2m相對(duì)濕度、10m風(fēng)向、風(fēng)速也在一定程度上影響污染物的稀釋、擴(kuò)散,進(jìn)而影響PM2.5濃度。
表1 RFE法回歸模型篩選的預(yù)報(bào)因子Tab.1 Forecast factors screening by RFE regression model
1.2.3 隨機(jī)森林(RF)
1.2.4 基于RFE-RF的PM2.5濃度預(yù)測(cè)模型
(1)數(shù)據(jù)收集整理與預(yù)處理,收集太原市空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)和NCEP再分析數(shù)據(jù),對(duì)收集的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括缺失值得填補(bǔ)和異常值的剔除,并對(duì)清洗后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
(2)重要預(yù)報(bào)因子選擇,利用RFE算法反復(fù)創(chuàng)建模型,在每次迭代時(shí)保留最佳特征或剔除最差特征,并通過繪制RFE算法的得分曲線,獲取各個(gè)預(yù)報(bào)因子的重要性并進(jìn)行排序,選出影響PM2.5濃度的重要預(yù)報(bào)因子。
(3)PM2.5濃度預(yù)測(cè)模型構(gòu)建,采用機(jī)器學(xué)習(xí)的固定隨機(jī)數(shù)的方法對(duì)樣本按照70%:30%劃分訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),初始化RF預(yù)測(cè)模型的參數(shù),通過不斷優(yōu)化調(diào)整模型參數(shù),構(gòu)建基于RFE-RF的PM2.5濃度預(yù)測(cè)模型。
(4)PM2.5濃度預(yù)測(cè),利用訓(xùn)練好的模型對(duì)PM2.5濃度進(jìn)行預(yù)測(cè),并與其他機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析(見圖1)。
圖1 隨機(jī)森林模型設(shè)計(jì)流程圖Fig.1 Flow chart of random forest model design
為了驗(yàn)證隨機(jī)森林模型(RF)的預(yù)報(bào)準(zhǔn)確率,構(gòu)建3個(gè)模型K鄰近回歸模型(KNN)、套索回歸模型(Lasso)、支持向量機(jī)模型(SVM)作為對(duì)比模型。將基于RFE法進(jìn)行模型最終選取20項(xiàng)預(yù)報(bào)因子作為3個(gè)對(duì)比模型的輸入量,3個(gè)對(duì)比模型所使用的訓(xùn)練集及測(cè)試集也與隨機(jī)森林模型(RF)相同,分別得到4種模型預(yù)測(cè)的PM2.5濃度。由圖2可見,在預(yù)報(bào)趨勢(shì)上,Lasso、RF兩種模型對(duì)PM2.5濃度預(yù)測(cè)值與實(shí)測(cè)值均較為一致,KNN模型對(duì)PM2.5濃度預(yù)測(cè)值與實(shí)測(cè)值稍有些偏差,SVM模型預(yù)測(cè)值與實(shí)測(cè)值偏差較大。其中,與KNN和SVM模型兩種模型相比Lasso、RF兩種模型預(yù)測(cè)結(jié)果的方差較小,預(yù)報(bào)的峰值極個(gè)別情況與實(shí)況值相差較大,但是總體的峰值、谷值的預(yù)測(cè)與實(shí)況值較為接近,預(yù)測(cè)的精度較高,尤其拐點(diǎn)處RF模型的預(yù)測(cè)結(jié)果也好于Lasso模型。
圖2 模型預(yù)報(bào)值和實(shí)況值對(duì)比Fig.2 Comparison between model prediction value and real data
由4種模型所得預(yù)測(cè)值與實(shí)測(cè)值的散點(diǎn)分布可見(圖3),SVR模型散點(diǎn)分布偏下,不在對(duì)角線上,說(shuō)明預(yù)測(cè)值與實(shí)測(cè)值的偏差較大,當(dāng)實(shí)測(cè)值<50μg/m3時(shí)散點(diǎn)多數(shù)在對(duì)角線左上方,說(shuō)明預(yù)測(cè)值存在低估;當(dāng)實(shí)測(cè)值>50μg/m3時(shí)散點(diǎn)多位于對(duì)角線右下方,說(shuō)明預(yù)測(cè)值存在高估。KNN模型散點(diǎn)相對(duì)Lasso、RF兩種模型較為分散,但是任大致在對(duì)角線方向,KNN模型的散點(diǎn)在PM2.5低濃度時(shí)(實(shí)測(cè)值<50μg/m3)位于對(duì)角線上方,預(yù)測(cè)值存在一定的高估;而散點(diǎn)在PM2.5高濃度時(shí)(實(shí)況值>50μg/m3)位于對(duì)角線下方,預(yù)測(cè)值存在一定的低估。Lasso、RF兩種模型散點(diǎn)呈現(xiàn)出向?qū)蔷€集中分布的形態(tài),說(shuō)明這2個(gè)模型預(yù)測(cè)結(jié)果和實(shí)測(cè)值較為一致。
圖3 模型的預(yù)報(bào)值和實(shí)況值散點(diǎn)圖Fig.3 Scatter plots of predicted and observed values
為定量評(píng)估4個(gè)模型的預(yù)測(cè)效果由圖可見(圖4),選取2018年9月~2018年12月PM2.5日均濃度實(shí)測(cè)值與相應(yīng)日期的各個(gè)模型的預(yù)報(bào)濃度數(shù)據(jù),分別計(jì)算上述4個(gè)模型預(yù)測(cè)值的評(píng)估指標(biāo),結(jié)
圖4 4種模型預(yù)測(cè)值與觀測(cè)值統(tǒng)計(jì)分布對(duì)比Fig.4 Comparison of the statistical distribution between the predicted values and the observed values of PM2.5 of the four models
果如表2所示。RF模型的MAE、MAPE、RMSE分別為17.19、38.17%和26.0,與Lasso模型相比,分別降低了7.7%、5.1%和2.7%;相比于SVM預(yù)測(cè)模型的MAE、MAPE、RMSE分別降低了23.1%、15.3%和29.9%;相比于KNN預(yù)測(cè)模型,RF模型的MAE、MAPE、RMSE分別降低了17.2%、19.8%和15.2%。結(jié)果顯示,在測(cè)試集上RF模型具有良好的預(yù)測(cè)效果,R2達(dá)0.71,顯著優(yōu)于KNN模型、Lasso模型、SVM模型(R2均低于0.70),該性能評(píng)估指標(biāo)也顯示RF模型表現(xiàn)最佳。4種模型預(yù)測(cè)值與實(shí)測(cè)值的相關(guān)系數(shù)依次為0.76、0.78、0.82和0.84,RF模型的預(yù)報(bào)效果均好于Lasso模型、KNN模型和SVM模型。
RF模式預(yù)測(cè)值和實(shí)測(cè)值的均值、中值、25%分位數(shù)最為接近;SVM模型預(yù)測(cè)值與實(shí)測(cè)值的各項(xiàng)評(píng)估指標(biāo)差別最大;對(duì)于75%分位數(shù)而言,Lasso模型與實(shí)測(cè)值最為接近,SVM模型預(yù)測(cè)值與實(shí)況值差別最大,KNN模型預(yù)測(cè)值與實(shí)況值差別也較大。兩者均說(shuō)明在PM2.5濃度較低的情況下,RF模式預(yù)測(cè)精度最高,Lasso模式預(yù)測(cè)精度次之,SVM模型最差,KNN模型介于中間;在PM2.5濃度較高的情況下,Lasso模式和RF模式預(yù)測(cè)精度相差無(wú)幾,SVM模型最差,KNN模型介于中間。由4模型預(yù)測(cè)值與觀測(cè)值統(tǒng)計(jì)分布對(duì)比可見:RF模式的預(yù)測(cè)值與觀測(cè)值的數(shù)據(jù)分布形態(tài)最為接近,無(wú)論從總體PM2.5濃度的預(yù)測(cè)均值還是從高低PM2.5濃度的預(yù)測(cè)值都最為接近;Lasso模式預(yù)測(cè)值與觀測(cè)值的數(shù)據(jù)分布形態(tài)也較為接近,但是該模型對(duì)高PM2.5濃度觀測(cè)值略有低估,對(duì)低濃度5濃度觀測(cè)值略有高估;KNN模型預(yù)測(cè)值與觀測(cè)值的數(shù)據(jù)分布形態(tài)對(duì)比度一般,SVM模型預(yù)測(cè)值與觀測(cè)值的數(shù)據(jù)分布形態(tài)差距最大。
由4種模型預(yù)報(bào)結(jié)果的泰勒?qǐng)D(圖5),綜合分析可知,RF預(yù)測(cè)模型對(duì)PM2.5預(yù)測(cè)精度更高,更接近實(shí)測(cè)值,通過模型預(yù)測(cè)結(jié)果對(duì)比分析,本文提出的基于RF的PM2.5濃度預(yù)測(cè)模型具有較好的預(yù)測(cè)結(jié)果,利用RFE算法對(duì)模型的輸入特征進(jìn)行了重要性選擇,減少了模型輸入特征的個(gè)數(shù),不僅可以用較少的預(yù)報(bào)因子就可以實(shí)現(xiàn)對(duì)PM2.5濃度的預(yù)測(cè)精度的提高,而且大大提高了模型運(yùn)算速度,實(shí)現(xiàn)了對(duì)PM2.5濃度預(yù)測(cè)模型輸入?yún)?shù)的優(yōu)化。
表2 4種模型PM2.5預(yù)測(cè)結(jié)果評(píng)估Tab.2 PM2.5 prediction results evaluation of the four models
圖5 4種模型預(yù)報(bào)結(jié)果泰勒?qǐng)DFig.5 Taylor plot of PM2.5 by KNN,SVM, Lasso model and RF model
(1)根據(jù)RFE特征選擇的結(jié)果,選取太原市PM2.5的濃度預(yù)測(cè)中最利于提升模型表現(xiàn)的預(yù)報(bào)因子,預(yù)報(bào)因子選擇的結(jié)果,也表明太原市PM2.5的濃度在一定程度受到近地層風(fēng)力和濕度的影響,同時(shí)高層氣團(tuán)的旋轉(zhuǎn)形態(tài),空氣的輻合與輻散,高空的風(fēng)向和風(fēng)速,空氣的垂直運(yùn)動(dòng)、冷鋒過境等對(duì)空氣污染有明顯的影響。
(2)針對(duì)太原市的PM2.5的濃度預(yù)測(cè)4個(gè)模型的對(duì)比實(shí)驗(yàn),RF模型顯著優(yōu)于KNN模型、Lasso模型、SVM模型,對(duì)PM2.5預(yù)測(cè)精度更高,同時(shí)利用RFE算法對(duì)模型的輸入特征進(jìn)行了重要性選擇,減少了模型輸入特征的個(gè)數(shù),不僅可以用較少的預(yù)報(bào)因子就可以實(shí)現(xiàn)對(duì)PM2.5濃度的預(yù)測(cè)精度的提高,而且實(shí)現(xiàn)了對(duì)PM2.5濃度預(yù)測(cè)模型輸入?yún)?shù)的優(yōu)化。
(3)通過選取最優(yōu)的RF預(yù)測(cè)模型應(yīng)用到日常的環(huán)境空氣質(zhì)量預(yù)報(bào)業(yè)務(wù)中,將進(jìn)一步提高太原市PM2.5濃度預(yù)報(bào)的準(zhǔn)確率,同時(shí)也為加強(qiáng)太原市的空氣污染防治,實(shí)現(xiàn)環(huán)境綜合管理和決策科學(xué)化提供了的重要科技手段。