孫弦,孫磊,聶會文,梁秀姬,蘇燁康,王靜,夏冬
(珠海市公共氣象服務(wù)中心,廣東珠海 519000)
隨著城市化和工業(yè)化的不斷發(fā)展,近些年來我國區(qū)域大氣污染事件頻發(fā)[1],其中以臭氧為代表的光化學(xué)污染事件[2]和以細(xì)顆粒物為代表的灰霾污染[3]最為突出,給人體健康、生態(tài)環(huán)境和氣候等方面造成很大威脅[4-6]。作為我國城市化進(jìn)程最高的城市集群之一,珠三角地區(qū)的空氣污染呈現(xiàn)出明顯的區(qū)域性和復(fù)合型特點[7-8]。其中,廣東珠海作為粵港澳大灣區(qū)核心城市,社會經(jīng)濟(jì)的飛速發(fā)展和人口的快速增長給空氣質(zhì)量帶來嚴(yán)峻考驗。近幾年來一次污染防治雖有所成效,但以臭氧為代表的二次污染仍有加重趨勢[9]。因此,空氣質(zhì)量的準(zhǔn)確預(yù)報作為聯(lián)防聯(lián)控工作的基礎(chǔ),對切實有效改善空氣質(zhì)量具有重要意義。
目前,空氣質(zhì)量預(yù)報方法主要分為人工研判、統(tǒng)計模型和數(shù)值模式三種[10]。其中人工研判依賴觀測數(shù)據(jù)和主觀判斷,在時間精度和空間尺度存在局限性,且不具備繼承性。統(tǒng)計模型雖運(yùn)行操作簡單,整體預(yù)測精度較高[11-14],但對一些極端污染事件的捕捉能力較差[15-16],并缺乏可解釋性。另一方面,空氣質(zhì)量數(shù)值模式利用數(shù)學(xué)方法定量描述污染物從排放、平流輸送、湍流擴(kuò)散、化學(xué)反應(yīng)到清除的完備過程,精細(xì)化模擬區(qū)域內(nèi)污染物的時空分布特征與未來演變趨勢,已成為當(dāng)前預(yù)報最主流的方法[17-20]。CMAQ、CAMx、WRF-CHEM和NAQPMS 等第三代空氣質(zhì)量數(shù)值預(yù)報模式,自身基于“一個大氣”理念,將各類大氣問題、物理化學(xué)機(jī)制和相互作用統(tǒng)一考慮,已成為大氣污染科學(xué)研究的主要工具,并得到廣泛業(yè)務(wù)應(yīng)用[21-24]。目前,分別基于CMAQ 和CAMx建立的華南區(qū)域大氣成分?jǐn)?shù)值預(yù)報系統(tǒng),通過使用我國自主研發(fā)的區(qū)域天氣模式作為氣象驅(qū)動場,并充分融合多套排放源,已經(jīng)順利業(yè)務(wù)運(yùn)行多年[21,25]。李婷苑等[26]評估了CMAQ 業(yè)務(wù)模式在廣東的模擬能力,但只重點關(guān)注PM2.5、O3及其前體物NO2(其他三種主要污染物PM10、SO2和CO 未評估),且模式在珠海的局地表現(xiàn)尚不清楚。此外,CAMx 作為平行運(yùn)作的另一套模式,未有公開研究對其進(jìn)行詳細(xì)評估。
不同數(shù)值模式對于不同空氣污染物在不同地區(qū)的預(yù)報效果存在明顯的差異[27-28],因此,開展本地預(yù)報效果系統(tǒng)評估是業(yè)務(wù)應(yīng)用的前提??諝赓|(zhì)量模式構(gòu)成復(fù)雜,外部和內(nèi)部皆具有較大不確定性[23,29],外部主要包括模型運(yùn)行所需的氣象初始場(包括土壤、地面和高空)、側(cè)邊界強(qiáng)迫和不同污染源排放清單等[30-31],內(nèi)部主要源自物理和化學(xué)過程參數(shù)化方案的不確定性[32-33],使得預(yù)報結(jié)果必然存在一定程度的偏差。因此,利用數(shù)學(xué)統(tǒng)計方法對多個預(yù)報結(jié)果進(jìn)行集合預(yù)報,對于衡量模式不確定性和提高預(yù)報能力具有關(guān)鍵作用[34-36]。
集合方法通常分為線性與非線性兩大類。其中,多元線性回歸因其構(gòu)造簡單且考慮不同模式的權(quán)重,在研究應(yīng)用中取得明顯改進(jìn)效果。例如,潘錦秀等[37]利用多元線性回歸方法將CMAQ、CAMx 和NAQPMS 等三個模式進(jìn)行集成,消除了單個模式系統(tǒng)性偏差,顯著提高了北京市2016 年P(guān)M2.5日均預(yù)報準(zhǔn)確率。另一方面,以機(jī)器學(xué)習(xí)(例如BP 神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和支持向量機(jī)等)為代表的非線性算法日益得到關(guān)注,但在空氣質(zhì)量集合預(yù)報方面的應(yīng)用卻不足。楊關(guān)盈等[38]綜合評估了多種集合方法對安徽地區(qū)PM2.5預(yù)報的改進(jìn),發(fā)現(xiàn)BP 神經(jīng)網(wǎng)絡(luò)雖有一定訂正效果,但其效果卻不如多元回歸。但最近李娟等[39]卻揭示出相較于線性回歸,隨機(jī)森林和支持向量機(jī)方法對西安市O3和PM2.5預(yù)報的改進(jìn)。湯靜等[40]采用主成分分析結(jié)合機(jī)器學(xué)習(xí)算法K 近鄰方法,有效地改進(jìn)了CMAQ 模式對于廣州市PM2.5的預(yù)報水平。但需要說明的是,以上研究是針對單一預(yù)報模式,通過引入驅(qū)動氣象場進(jìn)行回歸改進(jìn)或者直接對模式預(yù)報進(jìn)行后訂正,與多模式集合優(yōu)化的思路有所區(qū)別。因此,評估檢驗以隨機(jī)森林為代表的機(jī)器學(xué)習(xí)方法在多模式集合方面的應(yīng)用存在較高必要性。此外,以往研究多關(guān)注1~2 種污染物,并未實現(xiàn)對6項主要污染物的全面覆蓋。
綜上所述,本研究選取珠海市為研究對象,基于CAMx 和CMAQ 模型兩套獨(dú)立運(yùn)行的空氣質(zhì)量業(yè)務(wù)預(yù)報系統(tǒng)和國控點觀測數(shù)據(jù),首先檢驗評估兩者對六項主要污染物的時空分布和演變特征的模擬能力,然后分別利用線性和非線性方法(即多元線性回歸和隨機(jī)森林方法)進(jìn)行多模式集合,探究不同方法的改進(jìn)能力,以期提高珠海市空氣質(zhì)量預(yù)報水平,并為今后空氣質(zhì)量多模式集合的研究與業(yè)務(wù)應(yīng)用提供重要參考。
本文選取珠海市四個國控站(環(huán)境空氣質(zhì)量國控自動監(jiān)測站,唐家、吉大、前山和斗門,圖1)為研究站點,收集2018—2019 年CO、PM2.5、PM10、O3、SO2和NO2等六種主要空氣污染物逐小時濃度觀測數(shù)據(jù)(缺測率約為20%),并在此基礎(chǔ)上計算不同時間尺度(日-月)的均值。需要說明的是,依據(jù)《環(huán)境空氣質(zhì)量評價技術(shù)規(guī)范(試行)》(HJ663-2013)要求,O3日均值為當(dāng)天8 小時滑動平均最大值(記為O3_8 h)。此外,珠海市平均污染物濃度近似認(rèn)為是四個站點的平均。最后,2018—2019年珠海市空氣質(zhì)量持續(xù)下行(年AQI 達(dá)標(biāo)率均低于90%),所以被選為具體研究時段。
圖1 珠海市地形高度空間分布 其中紅星代表四個國控站(分別為唐家、吉大、前山和斗門)所在位置。
目前,中國氣象局廣州熱帶海洋氣象研究所和廣東省生態(tài)氣象中心分別基于CMAQ 和CAMx空氣質(zhì)量模型,在華南區(qū)域構(gòu)建了兩套大氣成分業(yè)務(wù)數(shù)值預(yù)報系統(tǒng)[21],于每日08 時和20 時開始起報,預(yù)報未來72 小時逐小時空氣質(zhì)量產(chǎn)品。兩者區(qū)域設(shè)置保持一致,水平為三重(27-9-3 km)單向嵌套,垂直分層數(shù)為25,并都使用國產(chǎn)自主高精度區(qū)域氣象模式CMA-GD(自身已同化多種實時氣象觀測)預(yù)報產(chǎn)品作為氣象輸入。對于排放清單,CMAQ 充分應(yīng)用了清華大學(xué)的源清單、廣東EPA的珠三角排放源清單與中山大學(xué)的廣東交通排放源清單,并使用大氣成分衛(wèi)星遙感資料和本地區(qū)地面站點觀測資料,對排放源分布和量級進(jìn)行優(yōu)化[21]。CAMx 的源清單也來自于多套源清單的融合,但并未進(jìn)行觀測同化與人工訂正。兩個模式使用的物理化學(xué)方案也存在異同,主要設(shè)置詳見表1。
表1 CMAQ與CAMx模式設(shè)置
本文選取研究時段內(nèi)(2018—2019年)兩套模式每日20 時起報的未來24 小時逐小時最內(nèi)層(3 km)污染物濃度預(yù)報數(shù)據(jù),并使用最臨近插值方法將模式格點數(shù)據(jù)插值到四個國控站點(圖1)以方便比較。
(1)多元線性回歸。
多元線性回歸(multiple linear regression,MLR)方法通過將因變量Y(即集合預(yù)報)與多個自變量X1,X2,...,Xn(即多個模式預(yù)報)聯(lián)系起來,構(gòu)建如下線性數(shù)學(xué)關(guān)系:
其中ai和b分別為回歸系數(shù)(可認(rèn)為是第i個模式的權(quán)重系數(shù))和回歸常數(shù),可通過使用最小二乘估計進(jìn)行求解。
(2)隨機(jī)森林。
隨機(jī)森林(random forest,RF)是一種監(jiān)督學(xué)習(xí)算法[41],由多個決策樹{y(x,θn),n= 1,2,……,N}組成的統(tǒng)計模型,其中θ為隨機(jī)變量(服從獨(dú)立分布),x為自變量,N為決策樹的數(shù)量。每一棵決策樹包含根節(jié)點、中間節(jié)點和葉節(jié)點,構(gòu)建時首先在根節(jié)點進(jìn)行分裂成各個分支,分裂過程需經(jīng)過多個中間節(jié)點,最終達(dá)到樹的末端(即葉節(jié)點)為止。隨機(jī)森林里的每棵樹都利用訓(xùn)練數(shù)據(jù)的子集(隨機(jī)選取樣本和特征)開展訓(xùn)練,對于某一輸出規(guī)則,其輸出值是唯一的,最終輸出結(jié)果由各決策樹共同確定,因此具有不易過擬合、對異常值不敏感、解釋性強(qiáng)(可追溯),結(jié)果較為穩(wěn)健等優(yōu)點,因此廣泛應(yīng)用于分類與回歸問題分析。對于在模式集合方面的應(yīng)用,預(yù)測結(jié)果由各決策樹輸出值均值所確定,即:
其中,表示集合預(yù)報結(jié)果,y表示某一決策樹基于x和θ的輸出。此外,隨機(jī)森林是一種非參數(shù)算法,可以對每個輸入特征(即模型結(jié)果)相對于預(yù)測結(jié)果(即集合結(jié)果)的重要性(PIM,也稱為貢獻(xiàn)度)進(jìn)行計算和排序。重要性基于袋外數(shù)據(jù)(outof-bag,OOB)計算,對于某一輸入特征,通過隨機(jī)置換(permute)輸入特征來計算該變化引起的平均準(zhǔn)確度的下降(變化越大則該特征越重要),具體表達(dá)如下:
其中,i表示某一輸入特征,N為構(gòu)造決策樹的數(shù)量,p表示置換后特征,MSE(mean square error)為均方誤差。
(3)實驗設(shè)計。
本文選取研究時段內(nèi)模式預(yù)報與觀測分別作為兩種集合方法的輸入和輸出。為更好驗證集合方法的可靠性和泛化能力,本文采用5折交叉驗證法(5-fold cross validation)去開展模型訓(xùn)練與測試。首先將2 年樣本劃分成5 個長度相等的樣本子集,然后依次遍歷5 個子集,每次選取其余所有樣本進(jìn)行模型訓(xùn)練,當(dāng)前子集則作為測試集進(jìn)行輸入驗證,最后合并5組驗證結(jié)果進(jìn)行后續(xù)分析評估。集合模型基于不同污染物而獨(dú)立構(gòu)建,并默認(rèn)使用全部站點作為樣本數(shù)據(jù)。
為定量評估兩個空氣質(zhì)量模式及其集合方法的預(yù)報結(jié)果,本研究選取均方根誤差(Root Mean Square Error,RMSE)、相 關(guān) 系 數(shù)(Correlation Coefficient,R)和標(biāo)準(zhǔn)化平均偏差(Normalized Mean Bias,NMB)這三個統(tǒng)計檢驗,計算公式如下:
上式中,O代表觀測值,P代表預(yù)報值,N為樣本總數(shù),為觀測值樣本平均,為預(yù)報值樣本平均。具體利用RMSE 來衡量預(yù)報準(zhǔn)確程度,利用R來表明預(yù)報與觀測之間線性相關(guān)程度,以及利用NMB來反映預(yù)報系統(tǒng)偏差情況。
首先,各污染物(除O3外)均呈現(xiàn)出明顯的冬高夏低特征(圖2),這與冬季化石燃料的加劇燃燒有關(guān),而O3的產(chǎn)生主要依賴于光化學(xué)反應(yīng),因此高值出現(xiàn)在8—10 月??傮w而言,CMAQ 模式較為合理地還原了各污染物季節(jié)變化,相關(guān)系數(shù)R介于0.72~0.84 之間,但存在明顯系統(tǒng)偏差,CO、PM2.5、PM10、SO2、O3和NO2的NMB 分 別 達(dá) 到-0.58、-0.18、-0.30、1.52,-0.16 和-0.20。CAMx 模式整體表現(xiàn)為顯著降低,各污染物相關(guān)系數(shù)均低于CMAQ(SO2甚至未通過0.05顯著性檢驗),低估了CO、PM10和NO2濃度(NMB 分別為-0.49、-0.53和-0.87),而對SO2則明顯高估(NMB為1.99)。需要注意的是,模式RMSE 和NMB 數(shù)值差異較大(特別是臭氧),這主要是NMB 在計算時進(jìn)行了標(biāo)準(zhǔn)化(公式(6)),但正負(fù)偏差的相互抵消也對其NMB 的表現(xiàn)有所提升。例如,CAMx 整體低估了臭氧的平均濃度,但在2018 年11 月—2019 年2 月期間卻存在高估。
圖2 兩種數(shù)值模式(CAMx和CMAQ)及其集合方法(MLR和RF)2018—2019年珠海市六種空氣污染物濃度月均值變化與觀測(OBS)對比
通過多元線性回歸進(jìn)行集合優(yōu)化,CO、PM2.5、PM10、SO2、和NO2等污染要素的系統(tǒng)偏差得到有效糾正,NMB 降低到0.01~0.04,RMSE 分別降低到0.08 mg/m3、6.42、10.86、1.75和9.93 μg/m3,但在CMAQ 較好還原季節(jié)變化的基礎(chǔ)上,相關(guān)系數(shù)R無明顯改進(jìn),其中SO2相關(guān)性下降到0.71。更為重要的是,O3作為近幾年影響珠三角乃至全國最主要的污染物[8-9],該方法對其季節(jié)變化的預(yù)報能力并未產(chǎn)生改進(jìn),RMSE 相較于CMAQ 模型,反而有所增加,這體現(xiàn)出線性方法的局限性。另一方面,非線性方法隨機(jī)森林表現(xiàn)明顯更為出色(表2),在其基礎(chǔ)上將各污染物(包括O3)的預(yù)報誤差RMSE進(jìn)一步縮小到0.08 mg/m3、5.17、8.68、1.57、22.44和9.37 μg/m3,相關(guān)系數(shù)R提高到0.81、0.93、0.90、0.78、0.76 和0.78,這歸功于該方法基于集合算法(即基于多個獨(dú)立決策樹平均結(jié)果),準(zhǔn)確性較單一算法(如多元線性回歸)有所提高[42]。另外,其在樣本和特征選擇時的雙隨機(jī)性,降低了模型產(chǎn)生過擬合的風(fēng)險,使得研究時間段內(nèi)表現(xiàn)均較為穩(wěn)定。但是,包括隨機(jī)森林在內(nèi)的兩種集合方法仍有缺陷,比如對O3和PM2.5高值月份的還原存在低估,這主要是因為樣本數(shù)量有限,未根據(jù)不同季節(jié)(或不同月份)對模型進(jìn)行訓(xùn)練所導(dǎo)致的,隨著模式和觀測數(shù)據(jù)的不斷積累,可在后續(xù)應(yīng)用中得到優(yōu)化。
表2 珠海市六種污染物季節(jié)變化統(tǒng)計參數(shù)
總體而言,CMAQ 對多數(shù)污染物日變化的預(yù)報能力都明顯優(yōu)于CAMx(圖3)。對于CO,兩者表現(xiàn)接近,均可較好還原CO 的逐日變化趨勢(R為0.7 左右),但卻存在明顯系統(tǒng)性低估(NMB 分別 為-0.51 和-0.53)。CMAQ 不 但 有 效 減 輕 了CAMx對顆粒物的低估,PM2.5和PM10的NMB分別降低至-0.06 和-0.21,而且提高了年初污染天氣(即PM2.5日均值>75或PM10日均值>150)的捕捉能力,從而降低了預(yù)報誤差(RMSE分別降低了12.19和6.08 μg/m3),相關(guān)系數(shù)也得到提升。對于SO2,兩者表現(xiàn)均不理想,存在上述指出的嚴(yán)重正偏差,CMAQ 表現(xiàn)稍好,體現(xiàn)在演變趨勢的合理還原(R為0.55)。對于NO2,CMAQ 大幅糾正了CAMx 預(yù)報負(fù)偏差,NMB 從-0.88 提升至-0.12,但預(yù)報偏差仍較為明顯,RMSE 高達(dá)16.84 μg/m3。此外,NO2作為O3生成的前體物,CMAQ 對其模擬能力的改進(jìn),間接提高了O3的預(yù)報能力,O3相關(guān)性提高至0.56,預(yù)報偏差也降低了4.93 μg/m3,但對夏秋季易發(fā)的O3污染事件(即O3_8 h>160 μg/m3)的捕捉能力仍有待加強(qiáng)[26]。
圖3 兩種數(shù)值模式(CAMx和CMAQ)及其集合方法(MLR和RF)2018年珠海市六種空氣污染物濃度日均值變化與觀測(OBS)對比
對于存在明顯系統(tǒng)偏差的污染物(即CO、SO2和NO2),多元線性回歸大幅糾正偏差,NMB 分別緩解至0.05、-0.09 和0.01,但SO2的相關(guān)性出現(xiàn)小幅降低。此外,該方法雖有效地提高了顆粒物統(tǒng)計評分,但對極端污染情況的還原能力卻不如CMAQ,這是由于顆粒物濃度在冬季明顯偏高,而模型基于所有時間段進(jìn)行訓(xùn)練,因此在該種情況下的表現(xiàn)受到了限制。最后,該方法對O3日變化的模擬未有改進(jìn),表現(xiàn)與CMAQ 基本相當(dāng)。相較于線性回歸,隨機(jī)森林方法進(jìn)一步提高了各污染物模擬的整體表現(xiàn),各污染物的多項統(tǒng)計指標(biāo)幾乎均為最優(yōu)。另外,隨機(jī)森林同樣對冬季顆粒物污染事件還原能力有限,進(jìn)一步驗證了利用所有季節(jié)樣本進(jìn)行訓(xùn)練的局限性。需要注意的是,臭氧作為近些年來珠三角空氣污染的首要威脅,隨機(jī)森林一定程度上彌補(bǔ)了線性方法的缺陷,不僅提高了其各項預(yù)報指標(biāo),而且加強(qiáng)了對極端污染事件的捕捉能力。
圖4 進(jìn)一步給出了各要素逐日觀測與不同模式和集合方法的散點分布。CMAQ 雖明顯優(yōu)于CAMx,但同樣對包括SO2、NO2在內(nèi)的一些污染物存在明顯偏差,因此擬合斜率k距完美值1 差距較大。兩種集合方法明顯提高了各要素預(yù)報能力,尤其是隨機(jī)森林方法,各要素的擬合斜率k和決定系數(shù)R2都與完美值1 最為接近,展示出該模式優(yōu)秀的集合預(yù)報能力。
圖4 兩種數(shù)值模式(CAMx和CMAQ)及其集合方法(MLR和RF)2018—2019年珠海市六種空氣污染物(a~f)濃度日均值(x軸)與對應(yīng)觀測(y軸)對比散點圖(不同顏色代表不同模式或方法) 其中k和R2分別為擬合線的斜率和決定系數(shù)(兩者越接近于1,模擬效果越好,顏色與點相對應(yīng))。
人為活動作為主要排放源,排放強(qiáng)度和類型具有明顯晝夜變化特征。并且,污染物的擴(kuò)散活動主要受到大氣邊界層湍流活動的支配,而大氣邊界層高度也存在明顯晝夜變化[43]。因此,各污染要素也存在明顯的晝夜變化[44]。圖5 給出了模式和不同集合方法預(yù)報的各要素濃度晝夜變化(已減去自身均值)對比。據(jù)觀測,NO2晝夜變化為雙峰型外,其他污染物的日變化均為單峰型。總體而言,CAMx 模式幾乎無法還原各污染物的晝夜變化,出現(xiàn)明顯偏差,其中顆粒物和NO2的相關(guān)系數(shù)甚至為負(fù),且CO、PM 和SO2均表現(xiàn)出類似的晝夜變化,揭示出排放清單的明顯缺陷。CMAQ 能較為準(zhǔn)確還原O3晝夜變化(相關(guān)系數(shù)達(dá)到0.96),并大致表現(xiàn)出NO2的雙峰型特征,但對其他污染物的表現(xiàn)也不太理想,例如顯著高估了PM10和SO2的晝夜變化幅度,誤差分別達(dá)到13.18和9.5 μg/m3。另一方面,兩種集合模型對多數(shù)污染物(除CO 和SO2)晝夜變化并無明顯改進(jìn)。這主要是由于集合方法均以減小誤差(如最小二乘法)為單一訓(xùn)練目標(biāo),雖能有效減小模式的系統(tǒng)偏差,但未能對晝夜變化的還原產(chǎn)生附加價值。因此,污染物晝夜變化預(yù)報能力的改進(jìn)主要在于模型自身的提高,并可嘗試在非線形算法中引入多目標(biāo)函數(shù)進(jìn)行多模式集合優(yōu)化。
圖5 觀測(OBS)、兩種數(shù)值模式(CAMx和CMAQ)及其集合方法(MLR和RF)給出的珠海市2018—2019年六種空氣污染物濃度(已減去自身均值)晝夜變化對比
排放源與氣象要素的空間差異,在擴(kuò)散條件進(jìn)一步作用下,各污染物要素呈現(xiàn)明顯的空間變化(圖6)。對于多數(shù)站點,PM 異常的符號與O3相反,這體現(xiàn)出兩者之間的“蹺蹺板”效應(yīng),即較高的PM 濃度削弱了太陽輻射,從而抑制了臭氧生成依賴的光化學(xué)反應(yīng)。但PM10和O3在唐家站同為正異常,揭示了珠三角頻發(fā)的復(fù)合型污染[45]。總體而言,兩個模式合理還原珠海O3“東多西少”的空間特征,但對PM 和NO2空間差異的模擬卻存在明顯缺陷,這主要是由于氣象驅(qū)動模型GRAPES 能真實地模擬氣象條件(尤其是太陽輻射)的空間差異,為O3的生成與擴(kuò)散提供了良好基礎(chǔ),但排放清單由于空間分辨率和較大不確定性的限制,嚴(yán)重制約了PM 和NO2空間變化的模擬能力。同樣,基于所有站點樣本進(jìn)行訓(xùn)練的集合模型未能對空間差異的模擬產(chǎn)生效果。但以隨機(jī)森林方法為例,當(dāng)基于不同站點構(gòu)建模型,大幅改進(jìn)了各污染物空間變化的預(yù)報水平。但是,空間技巧的提升也部分抑制了多尺度時間變化的還原能力(圖未展示),這同樣是由于訓(xùn)練樣本長度不夠充分,因此無法支持模式基于不同維度(如不同季節(jié)和站點)開展優(yōu)化。
圖6 兩種數(shù)值模式(CAMx和CMAQ)及其集合方法(MLR、RF和RF-sta)預(yù)報的吉大站(第1列)、斗門站(第2列)、前山站(第3列)、唐家站(第4列)2018—2019年四種主要空氣污染物年日濃度均值(減去站點平均,柱狀線,對應(yīng)左側(cè)縱坐標(biāo),單位為μg/m3)、標(biāo)準(zhǔn)差(除以站點平均,三角形,對應(yīng)右側(cè)縱坐標(biāo),單位為μg/m3)與實測對比
圖7進(jìn)一步利用隨機(jī)森林模型的算法特點,展現(xiàn)了兩個模型對于不同要素重要性。以上分析表明CMAQ對于多數(shù)污染物的預(yù)報水平雖明顯優(yōu)于CAMx,但兩者對于多數(shù)污染物的重要性未存在明顯差異,CMAQ 僅在O3方面展現(xiàn)出60%左右的較大優(yōu)勢,而CAMx卻在CO預(yù)報方面占據(jù)明顯優(yōu)勢,重要性達(dá)到64.6%。該結(jié)果揭示出模型自身的線性偏差對于隨機(jī)森林算法的結(jié)果并不產(chǎn)生影響[46],另外的測試首先利用線性回歸對兩個模型進(jìn)行誤差訂正,然后通過隨機(jī)森林進(jìn)行訓(xùn)練,其預(yù)報結(jié)果與未訂正相比也幾乎沒有差異。本研究僅使用兩個數(shù)值模型進(jìn)行集成,因此,進(jìn)一步提高集合預(yù)報結(jié)果的關(guān)鍵在于代表性集合成員的增加,而隨機(jī)森林多個獨(dú)立決策樹對特征的隨機(jī)選取,也極大程度上避免了過擬合發(fā)生,從而無需考慮集合成員過多對模擬結(jié)果產(chǎn)生負(fù)面影響。
圖7 隨機(jī)森林集合方法中CAMx和CMAQ模型對于各空氣污染物的重要性
本研究利用2018—2019 年國控站觀測資料,評估CAMx 和CMAQ 模式對珠海主要污染物時空分布與演變特征的預(yù)報能力,并引入多元線性回歸和隨機(jī)森林方法對預(yù)報結(jié)果進(jìn)行集成,探究不同集合方法的改進(jìn)能力。得出如下結(jié)論。
CMAQ 表現(xiàn)明顯優(yōu)于CAMx,合理地還原了CO、PM2.5、PM10、SO2、O3和NO2的季節(jié)變化,相關(guān)系數(shù)介于0.72~0.84,但存在明顯系統(tǒng)偏差,NMB分別達(dá)到-0.58、-0.18、-0.30、1.52,-0.16 和-0.20,RMSE 分 別達(dá) 到0.40 mg/m3、6.86、16.02、10.71、25.05 和10.21 μg/m3。對于日變化,兩者對CO 和SO2技巧相當(dāng),但CMAQ 大幅修正了CAMx 模擬PM 和NO2的負(fù)偏差,提高了對冬季PM 污染事件的捕捉能力。由于對NO2預(yù)報的改進(jìn),CAMQ 提高了O3日變化的預(yù)報能力,相關(guān)性提升至0.56,預(yù)報偏差降低了4.93 μg/m3,但對夏秋季O3污染事件的預(yù)報能力存在不足。對于晝夜變化,CAMx 模式幾乎無法再現(xiàn),而CMAQ 較為合理地還原了O3的晝夜變化(相關(guān)系數(shù)達(dá)到0.96),同時再現(xiàn)了NO2的雙峰型特征,但對其余污染要素存在明顯不足。并且,兩者對多數(shù)污染物(除O3之外)的晝夜和空間變化的模擬能力仍存在明顯缺陷,這主要來自于排放清單和氣象條件兩者的不確定性[23,29]。關(guān)于模式表現(xiàn)的差異,可以部分歸因于兩者基本架構(gòu)和所使用參數(shù)化方案(如干沉降、氣象化學(xué)機(jī)理)[47]。此外,空氣質(zhì)量模式的準(zhǔn)確性依賴于合理精確的排放源清單數(shù)據(jù)[26]。CMAQ 所使用的排放清單在融合多種源清單的基礎(chǔ)上,進(jìn)一步結(jié)合衛(wèi)星遙感和觀測進(jìn)行優(yōu)化[21],而CAMx 使用的的源清單則未經(jīng)觀測同化和人工訂正,因此可以合理解釋CMAQ較優(yōu)的預(yù)報能力。
基于不同污染物構(gòu)建的兩種集合方法,均有效提高了季節(jié)-日尺度上的預(yù)報水平,其中隨機(jī)森林表現(xiàn)更優(yōu),對于各污染物的多項技巧評分幾乎均為最佳,但均對模式缺陷無明顯改進(jìn)。這主要是由于線性模型為單個(或多個)輸入自變量和輸出因變量創(chuàng)建線性關(guān)系,但不同模型的結(jié)果通常是復(fù)雜的且具有高度非線性的關(guān)系。另一方面,隨機(jī)森林在解析非線性問題方面的優(yōu)勢,配合在樣本和特征選擇時的雙隨機(jī)性,降低了模型產(chǎn)生過擬合的風(fēng)險,因此展現(xiàn)出更為優(yōu)秀的預(yù)報能力。但是,集合方法對污染物的晝夜與空間變化并無明顯改進(jìn),這表明集合預(yù)報雖具備優(yōu)秀的附加價值,但預(yù)報水平受到集合成員預(yù)報能力制約。進(jìn)一步基于不同地點對模型進(jìn)行訓(xùn)練,顯著提升了各污染物空間差異的還原能力,但其他方面表現(xiàn)受限于樣本長度而有所下降,這體現(xiàn)出集合方法對數(shù)據(jù)量的依賴性。隨著預(yù)報數(shù)據(jù)和觀測的積累,集合方法的實際應(yīng)用中基于多維度(如季節(jié)和地點)展開較為必要。此外,隨機(jī)森林算法中CMAQ 與CAMx 的重要性基本相當(dāng),表明集合方法的預(yù)報能力與集合成員的線性偏差無關(guān),主要取決于不同成員的代表性。
綜上所述,本研究揭示以隨機(jī)森林為代表的集合方法雖有效改進(jìn)了污染物的預(yù)報能力,但提高數(shù)值模式自身能力和增加具有代表性的集合成員對預(yù)報水平的進(jìn)一步提升非常關(guān)鍵。后續(xù)研究可以綜合利用多種機(jī)器學(xué)習(xí)算法(如卷積神經(jīng)網(wǎng)絡(luò)),構(gòu)建以多氣象要素為主要自變量的空氣質(zhì)量統(tǒng)計預(yù)報模型,在評估其預(yù)報能力的基礎(chǔ)上,將其作為成員進(jìn)行集合預(yù)報,以期進(jìn)一步提高珠海市(乃至大灣區(qū))污染物預(yù)報能力。