米家媛,李 娜,佟景哲,倪長健* (.成都信息工程大學大氣科學學院,四川 成都 605;.遼寧省氣象裝備保障中心,遼寧 沈陽 066)
大氣氣溶膠是指懸浮在地球大氣中的液態(tài)或固態(tài)粒子[1].氣溶膠吸濕能增強顆粒物表面的非均相反應速率,顯著改變氣溶膠的化學組分、結構和形態(tài)特征,進而對天氣氣候、大氣環(huán)境以及人體健康產生重要影響[2-4].大氣氣溶膠吸濕性是聯(lián)系氣溶膠微物理和化學參數(shù)的紐帶,在整個大氣氣溶膠科學研究中處于基礎地位[5].
氣溶膠粒徑吸濕增長因子定義為氣溶膠粒子在吸濕后與吸濕前的粒徑之比,是表征氣溶膠吸濕性的通用參數(shù).目前,學者們主要通過場外觀測并結合反演算法對氣溶膠粒徑吸濕增長因子進行測量.Yan等[6]通過外場觀測得到北京城區(qū)和上甸子的氣溶膠吸濕增長因子分別為(1.26±0.15)和(1.24±0.11);莊雯雯等[7]的觀測結果表明,上海地區(qū)霾期間氣溶膠吸濕增長因子在春季、冬季、夏季和秋季分別為1.56、1.39、1.37、1.29;張智察等[8]基于Mie 散射理論反演了成都地區(qū)氣溶膠粒徑吸濕增長因子,其值為(1.26±0.25).上述研究指出,氣溶膠粒徑吸濕增長因子隨時空存在較大的差異.早在 1969年,Kasten[9]就基于氣溶膠與水汽平衡增長理論提出了氣溶膠粒徑吸濕增長的通用模型;孫景群[10]針對不同氣溶膠類型進一步提出了修正的氣溶膠粒徑吸濕增長模型;張智察等[8,11]通過分析成都地區(qū)氣溶膠粒徑吸濕增長因子的變化特征,構建了本地化的氣溶膠粒徑吸濕增長模型,并提出氣溶膠粒徑吸濕增長因子和氣溶膠散射吸濕增長因子的函數(shù)關系.由上述分析可見,氣溶膠粒徑吸濕增長因子隨時空存在較為顯著的變化,相對濕度是其中的關鍵影響因子.
研究表明[12-13],黑碳的老化可導致黑碳氣溶膠在形貌、粒徑、混合態(tài)以及化學組成上的顯著變化,進而增強氣溶膠的吸濕性.張城語等[14]以相對濕度(RH)與黑碳質量濃度(CBC)為自變量構建了氣溶膠散射吸濕增長因子的雙變量模型,顯著提升了成都地區(qū)氣溶膠散射吸濕增長因子的模擬精度.另外,考慮到黑碳以及不同粒徑氣溶膠質量濃度變化對氣溶膠等效復折射率的影響[15],佟景哲等[16]重新構建了氣溶膠散射吸濕增長因子的解釋變量集,提出了氣溶膠散射吸濕增長因子的多變量GAM 模型,進一步提升了高濕條件下氣溶膠散射吸濕增長因子的模擬效果.Chen等[17]指出,氣溶膠粒徑譜是氣溶膠散射吸濕增長因子變化的主控因子.為此,米家媛等[18]以RH、CBC、CPM1/CPM2.5、CPM2.5/CPM10和CBC/CPM1(CPM1、CPM2.5、CPM10分別為PM1、PM2.5、PM10的質量濃度)為自變量構建了氣溶膠粒徑吸濕增長的GAM 模型,并驗證了該模型的適用性.上述研究成果不僅揭示了氣溶膠散射吸濕增長和氣溶膠粒徑吸濕增長多因素影響的復雜性和不確定性,也集中指明了CBC變化對氣溶膠粒徑吸濕增長的重要作 用.
機器學習算法可以把大量非線性特征量擬合在一起,相較于 GAM 模型,具有魯棒性.目前,LightGBM、CatBoost 和XGBoost 模型是機器學習的三大主流算法,已被廣泛應用于醫(yī)學、交通運輸及環(huán)境氣象等領域的研究[19-21].本文基于Mie 散射理論和免疫進化算法反演氣溶膠粒徑吸濕增長因子,構建了氣溶膠粒徑吸濕增長的機器學習模型,分析了不同解釋變量對機器學習模型模擬效果的影響,降低了氣溶膠粒徑吸濕增長模型在高濕條件下的模擬偏差,旨在從方法論的角度為氣溶膠粒徑吸濕增長因子的科學表征提供新途徑.
利用成都市2017 年10~12 月濁度計、黑碳儀和GRIMM180 環(huán)境顆粒物分析儀的逐時觀測數(shù)據(jù),結合該時段同時次大氣能見度(V)、相對濕度(RH)和二氧化氮(NO2)監(jiān)測資料,基于Mie 散射理論和免疫進化算法反演氣溶膠粒徑吸濕增長因子(Gf),獲得樣本合計1221 個.
大氣能見度(V)由SWS-200 能見度儀進行監(jiān)測,相對濕度(RH)由WS600 一體式氣象站進行監(jiān)測,等效黑碳質量濃度(CBC)由AE-31 型黑碳檢測儀獲取,PM1, PM2.5和PM10的顆粒物質量濃度(CPM1,CPM2.5和CPM10)由GRIMM180 環(huán)境顆粒物監(jiān)測儀實時測量,NO2質量濃度由Thermo42i 化學發(fā)光NO、NO2-NOx分析儀進行監(jiān)測.
監(jiān)測點位于成都市環(huán)境保護科學研究院綜合大樓樓頂(30°39'N,104°02'E),距離地面高度21m,四周2km 內無高大建筑物,視野開闊;另外,觀測點周圍為集中居住區(qū),5km 范圍內無明顯工業(yè)大氣污染源.數(shù)據(jù)的質量控制參見文獻[8,11,14,16].
基于Mie 散射理論,并借鑒“干”氣溶膠等效復折射率參數(shù)化方案的研究成果,文獻[8]構建了下述目標函數(shù),見式(1).
式中:r(RH)為環(huán)境條件下的氣溶膠粒子半徑;n[r(RH)]為環(huán)境條件下氣溶膠的粒子譜分布;a(RH)為環(huán)境條件下氣溶膠粒子的尺度參數(shù);m(RH)為氣溶膠等效復折射率;Qap[a(RH),m(RH)]和Qsp[a(RH),m(RH)]分別為環(huán)境條件下氣溶膠散射效率因子和吸收效率因子;bext(RH)為波長為550nm的大氣消光系數(shù);bap、bsg和bag分別為波長為550nm 的環(huán)境條件下氣溶膠吸收系數(shù)、大氣氣體的散射系數(shù)和吸收系數(shù).利用免疫進化算法求解該目標函數(shù),據(jù)此反演氣溶膠粒徑吸濕增長因子(Gf),并驗證了求解結果的精度.反演流程及反演結果分析詳見文獻[8].
機器學習算法主要包括線性回歸算法、決策樹算法和梯度增強算法等,本文選取了梯度增強算法中的三種主流算法(LightGBM、CatBoost 和XGBoost)構建氣溶膠粒徑吸濕增長模型.其中,LightGBM 基于Histogram 決策樹、單邊梯度采樣和互斥特征捆綁優(yōu)化使其較傳統(tǒng)梯度增強算法具有更好的準確性、更快的訓練速度以及大規(guī)模處理數(shù)據(jù)能力;CatBoost 參數(shù)少、準確性高,同時支持類別型變量,能高效合理地處理類別型特征,并改善模型的梯度偏差及預測偏移問題,提高了傳統(tǒng)梯度增強算法的準確性和泛化能力;XGBoost 模型是用多個弱分類器組合成一個強分類器,在傳統(tǒng)梯度增強算法基礎上引入了一個新技術,對損失函數(shù)做二階泰勒展開,并在目標函數(shù)之外使用正則化技術(通過在損失函數(shù)中添加一個新項來實現(xiàn)的),避免過擬合現(xiàn)象的產生,整體求最優(yōu)解,使得模型在調整期間訓練速度更快、魯棒性更強[22-24].
本文通過調用Python 中的XGBRegressor、CatBoostRegressor、LGBMRegressor 庫來構建XGBoost、CatBoost 和LightGBM 模型,通過多參數(shù)共同作用防止模型在估算過程中出現(xiàn)過擬合現(xiàn)象,從而提高模型估算的準確性;并隨機抽取70%樣本作為訓練集,30%樣本作為測試集,由此獲得訓練樣本855 個,測試樣本366 個;采用十折交叉法進行模型的驗證,以實測值和預測值的決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對誤差(MAE)為標準對結果進行評估.通過對上述模擬結果的對比分析,探討XGBoost、CatBoost 和LightGBM 三種機器學習算法的適用性,為氣溶膠粒徑吸濕增長模型的改進提供方法論.
通過對以相對濕度為單變量的氣溶膠粒徑吸濕增長模型模擬偏差的分析,結合黑碳氣溶膠老化過程中吸濕性改變以及氣溶膠等效復折射率參數(shù)化方案的研究成果[15,25,26],文獻[18]提出了氣溶膠粒徑吸濕增長因子多變量GAM 模型.本文參照文獻[18]構建氣溶膠粒徑吸濕增長因子的解釋變量集,包括RH、CBC、CBC/CPM1、CPM1/CPM2.5、CPM2.5/CPM10,上述參數(shù)的含義同前.
首先選取XGBoost、CatBoost、LightGBM 三種機器學習算法的基準模型,對應的默認值參數(shù)分別為: n_estimators=100, max_depth=3, learning_rate=0.1, min_child_weight=1, subsample=1, gamma=0, colsample_bytree=1, reg_alpha=0;iterations=1000,depth=6, learning_rate=0.03, 12_leaf_reg=3, bagging_temperature=1, border_count=128, random_strength=1;num_leaves=31, max_depth=-1, learning_rate=0.1,subsample=1, min_data_in_leaf=20, lambda=0.針對前述855 個訓練樣本構建氣溶膠粒徑吸濕增長模型,訓練結果表明, XGBoost、CatBoost 和LightGBM 三種基準模型的決定系數(shù)(R2)分別為0.801、0.835 和0.838,均方根誤差 (RMSE)分別為0.197、0.185 和0.182,平均絕對誤差(MAE)分別為0.096、0.086 和0.085.
進一步使用超參數(shù)自動搜索模塊GridSearch_CV 對 XGBoost、CatBoost 和LightGBM 算法進行調整,依次列舉參數(shù)的可能取值,得到組合結果后生成“網(wǎng)格”,將各網(wǎng)格結果分別帶入上述3 種機器學習算法進行訓練,并利用交叉驗證評估訓練集中的數(shù)據(jù),經(jīng)過參數(shù)調優(yōu)得到的最優(yōu)參數(shù)組合如表1 所示.
表1 三種機器學習模型的最優(yōu)參數(shù)Table 1 Optimal parameters of three machine-learning models
同樣針對前述855 個訓練樣本,基于最優(yōu)參數(shù)組合構建氣溶膠粒徑吸濕增長模型,參數(shù)調優(yōu)后3 種機器學習模型的性能如圖1 所示.由圖1可見,3 種機器學習算法經(jīng)過參數(shù)調優(yōu)后提高了機器學習算法的預測精度,其中,LightGBM 模型取得了最佳的模擬效果,CatBoost 和XGBoost 模型次之.
圖1 參數(shù)調優(yōu)后3 種機器學習模型性能可視化對比Fig.1 The visualization comparison chart of three machine learning models performance after parameters tuning
針對366 個測試樣本,分析了基于最優(yōu)參數(shù)組合構建氣溶膠粒徑吸濕增長機器學習模型(XGBoost 模型、CatBoost 模型和LightGBM 模型)的適用性,并與氣溶膠粒徑吸濕增長因子多變量GAM 模型[18]的模擬結果進行了比對分析.如圖2 所示,多變量GAM 模型、XGBoost 模型、CatBoost 模型和LightGBM 模型模擬值的決定系數(shù)(R2)分別為0.879、0.887、0.888 和0.898,殘差平方和(RSS)分別為2.278、2.274、2.253 和2.069.上述結果表明,(1) 3 種氣溶膠粒徑吸濕增長機器學習模型的測試結果和圖1 的相應模擬結果總體相當,即機器學習模型具有很好的穩(wěn)定性和泛化能力;(2)就3 種氣溶膠粒徑吸濕增長機器學習模型而言,LightGBM 模型的測試結果最優(yōu),能最佳地表征氣溶膠粒徑吸濕增長因子與多變量的復雜非線性關系;(3) 3 種氣溶膠粒徑吸濕增長機器學習模型的測試結果相較于多變量GAM 模型均有顯著提升,高濕(RH≥85%)是影響模型模擬誤差的重要因素.機器學習通過擬合多維非線性特征量,將機器學習算法和模型相結合不斷進行調整和優(yōu)化,具有更強的非線性映射能力和魯棒性以及優(yōu)化計算能力.
圖2 4 種氣溶膠吸濕增長模型的模擬結果Fig.2 Fitting results of four aerosol hygroscopic growth models
由于氣溶膠中的硫酸鹽、硝酸鹽和銨鹽等無機成分及部分有機物粒子具有吸濕性,在不同水汽條件下其微物理參數(shù)會發(fā)生變化,致使氣溶膠粒子群理化及光學性質不斷改變.劉凡等[27]針對成都地區(qū)的研究指出,隨著相對濕度的增大,硫氧化率和氮氧化率顯著增加,導致二次氣溶膠在氣溶膠中的占比進一步升高,氣溶膠結構和化學組分更趨復雜.另外,受氣溶膠二次非均相化學反應和黑碳氣溶膠老化等因素的共同影響,氣溶膠粒徑吸濕增長因子對多因素響應的不確定性增強.已有研究表明[11,18],氣溶膠粒徑吸濕增長因子傳統(tǒng)單變量統(tǒng)計模型在低濕(RH<85%)條件下的模擬值與實測值之間的平均絕對誤差處于較低水平且波動較為平緩,但在高濕(RH≥85%)條件下的模擬值與實測值之間的平均絕對誤差隨相對濕度增加顯著增大,這也對氣溶膠粒徑吸濕增長因子傳統(tǒng)單變量統(tǒng)計模型的適用性提出了挑戰(zhàn).氣溶膠粒徑吸濕增長因子傳統(tǒng)單變量統(tǒng)計模型如式(2)所示[10],其中,μ為常系數(shù),RH0=40.
為進一步評估氣溶膠粒徑吸濕增長機器學習模型在高濕(RH≥85%)條件下的模擬效果,針對112個高濕樣本,由圖3 可見,氣溶膠粒徑吸濕增長傳統(tǒng)單變量統(tǒng)計模型以及 XGBoost、CatBoost 和LightGBM 模型的R2分別為0.669、0.764、0.808 和0.811,RSS 分別為1.616、1.457、1.160 和1.156.這一測試結果表明,高濕氣象條件下氣溶膠理化過程的復雜性是氣溶膠粒徑吸濕增長因子模擬不確定性的重要來源,由此導致氣溶膠粒徑吸濕增長因子在高濕條件下模擬誤差隨相對濕度的增加而顯著增大,基于機器學習的氣溶膠粒徑吸濕增長模型顯著降低了氣溶膠粒徑吸濕增長傳統(tǒng)單變量統(tǒng)計模型在高濕條件下的模擬偏差,其中, LightGBM 模型的模擬結果仍為最優(yōu).
圖3 高濕條件下氣溶膠吸濕增長因子的模擬結果Fig.3 Fitting results of aerosol hygroscopic growth factor at RH>85%
通過比較以上3 種機器學習模型的 feature importance 屬性,研究多因素解釋變量集中的各個變量對模型模擬效果的影響程度,對比分析結果如圖4所示,雖然3 種機器學習模型中的各個變量重要性排序不盡相同,但相對濕度(RH)和黑碳質量濃度(CBC)的變量重要性均排名前二,說明無論是采用哪種機器學習模型,RH 和CBC均是決定氣溶膠吸濕增長模型模擬效果的關鍵性影響因素.研究表明[28-29],黑碳的老化過程是使其具備吸濕性的關鍵因素,不同老化程度的黑碳顆粒物吸濕增長也具有顯著差異,從而引起氣溶膠粒徑吸濕增長因子的復雜變化;另外,由于氣溶膠等效復折射率實部和虛部與CBC/CPM1、CPM1/CPM2.5和CPM2.5/CPM10呈現(xiàn)出一定的相關性[15,30],并且能夠顯著影響氣溶膠粒徑吸濕增長.即除RH 外,氣溶膠結構和化學組分(CBC、CBC/CPM1、CPM1/CPM2.5和CPM2.5/CPM10)也是影響氣溶膠粒徑吸濕增長的重要因素,其中以CBC的影響尤為顯著.上述結果表明:解釋變量的完整性是氣溶膠粒徑吸濕增長模型模擬效果的重要影響因素,完整的解釋變量結合更為復雜的統(tǒng)計模型有助于提升氣溶膠粒徑吸濕增長的模擬效果.
圖4 使用3 種機器學習模型的特征重要性排序Fig.4 Ranking diagram of feature importance using three machine-learning models
測試表明,在解釋變量集中分別去除排名前2的變量(RH 和CBC),3 種機器學習模型的R2均出現(xiàn)了顯著下降,這也佐證了文獻[14,18]的研究結果.
綜上,機器學習模型具有更強的非線性映射能力以及優(yōu)化計算能力,能更好地反映氣溶膠粒徑吸濕增長因子對多因素的復雜響應關系,這也為氣溶膠粒徑吸濕增長的科學表征提供了一條新途徑.
3.1 以RH、CBC、CBC/CPM1、CPM1/CPM2.5以及CPM2.5/CPM10為解釋變量集,利用 3 種機器學習算法(XGBoost、CatBoost 和LightGBM)構建了氣溶膠粒徑吸濕增長模型,3 種模型的決定系數(shù)(R2)分別為0.887、0.888 和0.898,其中,LightGBM 模型取得了最佳的模擬效果,CatBoost 和XGBoost 模型次之.
3.2 高濕條件下,多變量GAM 模型及3 種機器學習模型的R2分別為0.758、0.764、0.808 和0.811,傳統(tǒng)單變量統(tǒng)計模型及3 種機器學習模型的RSS 分別為1.616、1.457、1.160 和1.156.因此,氣溶膠粒徑吸濕增長機器學習模型顯著降低了傳統(tǒng)單變量統(tǒng)計模型在高濕(RH≥85%)條件下的模擬偏差,同時也提升了氣溶膠粒徑吸濕增長多變量GAM 模型的計算精度.
3.3 氣溶膠粒徑吸濕增長因子和氣溶膠散射吸濕增長因子的演化成因具有同源性,除相對濕度之外,確認了黑碳是氣溶膠吸濕增長模型的主控變量,這也為氣溶膠粒徑吸濕增長因子多變量模型的構建提供了新途徑.