石霖晟杰,劉妹寧*秦聞通,吳 瑕
(1.內(nèi)蒙古自治區(qū)氣象科學研究所,內(nèi)蒙古 呼和浩特;2.內(nèi)蒙古自治區(qū)包頭市氣象局,內(nèi)蒙古 包頭;3.內(nèi)蒙古自治區(qū)根河市氣象局,內(nèi)蒙古 根河)
春季是沙塵頻發(fā)的季節(jié),新疆塔克拉瑪干沙漠、內(nèi)蒙古巴丹吉林沙漠、騰格里沙漠、烏蘭布和沙漠、河西走廊地區(qū)都是重要的沙源地[1],內(nèi)蒙古受沙塵的影響比較嚴重,沙塵的發(fā)生往往伴隨著低能見度和低空氣質(zhì)量,對百姓出行和交通安全都造成了巨大的隱患。為此中國氣象局積極研發(fā)氣象環(huán)境預報模型,拓展跨部門合作和服務業(yè)務,對保障人民健康、指導出行和經(jīng)濟發(fā)展都具有重要意義[2]。
廖國蓮[3]通過分析CUACE 模式在廣西空氣質(zhì)量預報中的效果,發(fā)現(xiàn)CUACE 模式預報效果最穩(wěn)定,其評分基本不隨預報時效的延長而明顯降低,楊亞麗[4]使用CUACE 模式對銀川市重污染天氣預報做了檢驗,結(jié)果表明CUACE 模式能較好的模擬首要污染物、AQI、PM2.5、PM10 等。研究者在各地開展了CUACE的適用性分析[5-13],使用線性模型、隨機森林、主成分分析、神經(jīng)網(wǎng)絡等算法,在局地建立了基于CUACE 的空氣質(zhì)量預報模型,本研究使用K-means 聚類算法將CUACE 沙塵濃度劃分為五層,并基于隨機森林模型建立了空氣質(zhì)量等級的預報模型。
本研究使用的數(shù)據(jù)包括2021 年6 月2 日—2022年7 月9 日亞洲沙塵暴數(shù)值預報系統(tǒng)(CUACE-Dust)產(chǎn)品、空氣質(zhì)量AQI 數(shù)據(jù), 研究區(qū)域包括呼和浩特市、包頭市、鄂爾多斯市、烏蘭察布市、呼倫貝爾市。其中亞洲沙塵暴數(shù)值預報系統(tǒng)產(chǎn)品(以下簡稱CUACE)是中國氣象科學研究院自主研發(fā)的區(qū)域天氣—大氣化學—大氣氣溶膠雙向耦合模式,由中尺度數(shù)值天氣預報模式 MM5( Mesoscale Model 5)和氣體—氣溶膠模塊組成,CUACE 模式于2012 年8 月開始在中國氣象局國家氣象中心應用[5]。
CUACE 產(chǎn)品是0.5°* 0.5°的柵格數(shù)據(jù),分為08 時預報和20 時預報??諝赓|(zhì)量AQI 數(shù)據(jù)為站點監(jiān)測數(shù)據(jù),其中呼和浩特市有8 個監(jiān)測站、包頭有6 個、鄂爾多斯有5 個、烏蘭察布有4 個、呼倫貝爾有2 個,使用雙線性插值法將柵格數(shù)據(jù)插值到25 個空氣質(zhì)量監(jiān)測站,插值后CUACE 對應的08、20 預報時次分別有68 382 條和73 198 條。
通過研究AQI、AQI 空氣質(zhì)量等級和CUACE 之間的相關(guān)關(guān)系,可以有助于理解CUACE 的分層建模依據(jù)。參照《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定》,將AQI 對應到空氣質(zhì)量等級,等級越高,AQI 指數(shù)越高,空氣質(zhì)量越差。通過分析空氣質(zhì)量等級分布情況,發(fā)現(xiàn)1 級和2 級占據(jù)85%以上的數(shù)據(jù)量,2 級到3 級存在斷崖式變化,冬季的空氣質(zhì)量較差,見表1。
表1 逐月空氣質(zhì)量等級統(tǒng)計表
通過內(nèi)蒙古境內(nèi)空氣質(zhì)量站點數(shù)據(jù)計算CUACE 和AQI的皮爾斯相關(guān)系數(shù)僅為0.19,但分析不同地區(qū)CUACE 和AQI的相關(guān)系數(shù),發(fā)現(xiàn)呼和浩特、包頭、鄂爾多斯、烏蘭察布和呼倫貝爾較高,阿拉善、巴彥淖爾、赤峰、興安盟較低。
針對相關(guān)系數(shù)較高的內(nèi)蒙古中部地區(qū)(呼包鄂烏)和呼倫貝爾等地的數(shù)據(jù),先對CUACE、AQI 進行標準化公式(1),提高CUACE 的權(quán)重公式(2),再使用K-means 聚類算法觀察CUACE 的數(shù)據(jù)分布。其中進行標準化的目的是因為AQI 數(shù)值不超過500,而CUACE 數(shù)值最大有6 000,在以距離為劃分依據(jù)的K-means 模型分類下,等同于給CUACE 附加了更高的權(quán)重,標準化后再提高CUACE 權(quán)重的目的是為了分類上更偏重于從CUACE 的角度進行劃分。
根據(jù)K-means 聚類結(jié)果,以CUACE 的角度,從大到小大致可以分為5 層,分別是CUACE≥5 000、5 000>CUACE ≥3 000、3 000 >CUACE ≥1 000、1 000 >CUACE≥300、CUACE<300,見圖1。
圖1 K-means 聚類劃分7 類
這5 層各有其特征,第五層CUACE≥5 000,該層特點是AQI 全部大于300。第四層是5 000>CUACE≥3 000,該層的兩級分割比較明顯,AQI 在200—400 之間的數(shù)據(jù)量不超過1%,AQI≤100 的數(shù)據(jù)占16.3%,200≥AQI>100 的數(shù)據(jù)占58.1%,其余AQI>400 的數(shù)據(jù)占25.6%。
第三層3 000>CUACE≥1 000,可以發(fā)現(xiàn)該層更多的數(shù)據(jù)集中在了AQI≤100 的區(qū)間,400>AQI>200的數(shù)據(jù)較少。AQI≤100 的數(shù)據(jù)占41.8%,300≥AQI>100 的數(shù)據(jù)占35.3%,其余AQI≥300 的數(shù)據(jù)只占22.8%。第二層1000>CUACE≥300,第2 層和第1 層的分布類似,但AQI≤100 的數(shù)據(jù)比例更多,AQI≤100的數(shù)據(jù)占68%,300≥AQI>100 的數(shù)據(jù)占23.7%,其余AQI≥300 的數(shù)據(jù)只占8.4%。第一層CUACE<300,該層數(shù)據(jù)明顯集中在AQI≤100 的區(qū)間,AQI≤100 的數(shù)據(jù)占86.2%,300≥AQI>100 的數(shù)據(jù)占13.5%,其余AQI≥300 的數(shù)據(jù)只占0.5%。
總結(jié)來說,K-means 聚類出的一至五層的數(shù)據(jù)比為4 044:111:26:6:1,其中第五層的CUACE 和AQI 都是大數(shù),聚類效果也最好,第四層出現(xiàn)了兩級分化、中間無數(shù)據(jù)的情況,這一層200≥AQI>100 的數(shù)據(jù)最多,其余3 層則以AQI≤100 的數(shù)據(jù)量占比最多。在AQI≥300 的數(shù)據(jù)中,一至五層的數(shù)據(jù)量占比分別是54%、24%、15%、4%、3%。
將AQI≤100 作為第0 類,200≥AQI>100 作為第1 類,AQI≥300 作為第2 類,根據(jù)K-means 算法聚類出的5 層,分層建立隨機森林模型,預報空氣質(zhì)量等級,見表2。可以發(fā)現(xiàn)預測效果呈現(xiàn)倒三角式變化,CUACE 預測的兩端效果最好,且第0 類的劃分效果相較于其余兩類更好。
表2 隨機森林模型的建模結(jié)果
隨機森林模型的評判規(guī)則可進一步參考圖形化的表述,見圖2。圖中規(guī)則樹為標準的二叉樹,每一個節(jié)點(方框)對單一要素劃分,將本節(jié)點的數(shù)據(jù)預測為第0 類、第1 類或第2類,下分兩個子節(jié)點,相對左側(cè)的子節(jié)點是父節(jié)點判斷規(guī)則為True 的節(jié)點,相對右側(cè)的子節(jié)點是父節(jié)點判斷規(guī)則為Fasle的節(jié)點,子節(jié)點在最后一行用class 表示預測結(jié)果。通過gini評估各節(jié)點劃分效果,gini 越小說明該節(jié)點劃分的效果越好。方框中的samples 表示該節(jié)點的數(shù)據(jù)量,value 是帶權(quán)重的樣本比例(舉例來說,[第0 類的數(shù)量,第1 類的數(shù)量,第2 類的數(shù)量]),有時value 中的總數(shù)會大于samples,這是因為本研究對第1 類和第2 類賦予了更高的權(quán)重。另外方框顏色的深淺也能表示劃分的效果,偏橙色代表預測為第0 類,偏綠色代表預測為第1 類,偏藍色代表預測為第2 類,顏色越深,劃分的效果越好,value 中各類樣本的數(shù)量相差越大,gini 越小。
圖2 第四層的建模結(jié)果
根據(jù)檢驗結(jié)論,模型整體的預測效果優(yōu)于CUACE,特別在分層預報中表明,CUACE 數(shù)值越大,分層效果越好,其中第四層和第三層的預測效果較好。