陳鑌捷,葉揚(yáng),林溢,游詩雪,鄧勁松,3,4,楊武,4,王珂
1.浙江大學(xué)環(huán)境與資源學(xué)院,杭州310058;
2.浙江工業(yè)大學(xué)環(huán)境學(xué)院,杭州310014;
3.浙江生態(tài)文明研究院,安吉313300;
4.浙江大學(xué)智慧生態(tài)與綠色發(fā)展研發(fā)中心,杭州310058
PM2.5是指懸浮于空氣中的空氣動(dòng)力學(xué)直徑小于等于2.5 μm 的細(xì)顆粒物干質(zhì)量濃度。有大量研究表明,由于PM2.5能夠進(jìn)入到人體呼吸道深處,同時(shí)極易附著大量有毒有害物質(zhì),長期暴露在較高PM2.5環(huán)境中,會(huì)導(dǎo)致人類壽命的縮短,以及各種呼吸疾病、心血管疾病的發(fā)生(Dockery 等,1993)。在最新全球疾病負(fù)擔(dān)(Global Burden of Disease Study)調(diào)查中,PM2.5造成的死亡人數(shù)及其影響位列所有環(huán)境和職業(yè)風(fēng)險(xiǎn)因子中的首位(GBD 2019 Risk Factors Collaborators,2020)。此外,PM2.5也是造成灰霾的主要原因,是最直觀反映環(huán)境質(zhì)量的要素之一。
自改革開放以來,中國經(jīng)濟(jì)發(fā)展迅速,快速工業(yè)化和城鎮(zhèn)化進(jìn)程中不可避免地對(duì)環(huán)境造成了污染。盡管自2013年以來政府出臺(tái)了一系列相關(guān)政策來控制與監(jiān)測(cè)空氣質(zhì)量,地面監(jiān)測(cè)站的覆蓋范圍也越來越大,但是這些地面固定站點(diǎn)更多分布于城市中,對(duì)于全方位監(jiān)測(cè)空氣質(zhì)量還是過于稀疏。衛(wèi)星遙感技術(shù)的蓬勃發(fā)展,使得對(duì)空氣站點(diǎn)缺失區(qū)域的空氣質(zhì)量監(jiān)測(cè)成為可能,為環(huán)境空氣質(zhì)量的大面積同步監(jiān)測(cè)提供了全新的技術(shù)手段。利用衛(wèi)星遙感獲得的氣溶膠光學(xué)厚度(AOD)產(chǎn)品,構(gòu)建AOD-PM2.5的模型來估算全域PM2.5,可以有效彌補(bǔ)地面站點(diǎn)相對(duì)稀疏的缺陷,獲得更大范圍時(shí)空連續(xù)的空氣質(zhì)量數(shù)據(jù)。目前,常用的AOD產(chǎn)品有:中分辨率成像光譜儀(MODIS)、先進(jìn)的葵花成像儀(AHI)、可見光紅外成像輻射儀(VIIRS)的氣溶膠產(chǎn)品,空間分辨率在1 km 左右;也有學(xué)者利用Landsat、高分一號(hào)等衛(wèi)星獲取高空間分辨率的AOD產(chǎn)品,但其重返周期較長,應(yīng)用相對(duì)受限。而MODIS 衛(wèi)星自2000年起即有觀測(cè)數(shù)據(jù),同時(shí)能夠提供每日的全球覆蓋數(shù)據(jù),因此其AOD產(chǎn)品被廣泛應(yīng)用于空氣質(zhì)量的估算研究中。MODIS 衛(wèi)星提供的AOD 產(chǎn)品經(jīng)過較長時(shí)間的發(fā)展,已經(jīng)從最初的MOD04 暗像元算法產(chǎn)品,發(fā)展到最新的多角度大氣校正算法(MAIAC)AOD 產(chǎn)品,精度提升的同時(shí)空間分辨率也從10 km提升至1 km(Lyapustin等,2018)。
準(zhǔn)確構(gòu)建AOD 與PM2.5的關(guān)系模型是估算空氣質(zhì)量的關(guān)鍵。初期,學(xué)者嘗試基于物理機(jī)理進(jìn)行關(guān)系的構(gòu)建,包括對(duì)AOD 的濕度、標(biāo)高及細(xì)模態(tài)粒子比例的訂正等,建立具備嚴(yán)密邏輯的物理關(guān)系方程(Li 等,2016;Lin 等,2015;張瑩和李正強(qiáng),2013)。但由于物理機(jī)理過程復(fù)雜,模型中大量參數(shù)難以獲得,只能依靠近似的計(jì)算,存在較大的不確定性,精度一般較低。隨著地面PM2.5觀測(cè)數(shù)據(jù)的日漸增多,越來越多的學(xué)者利用高效的統(tǒng)計(jì)模型,同時(shí)結(jié)合大量輔助因子來建立AOD 與PM2.5的關(guān)系。多元線性回歸模型最先被用于AODPM2.5關(guān)系的構(gòu)建,但由于AOD 與PM2.5呈非線性關(guān)系,關(guān)系較為復(fù)雜,簡單的線性回歸模型無法很好地?cái)M合這一關(guān)系(Liu等,2007)。馬宗偉(2015)、Just 等(2015)、楊立娟等(2018)利用線性混合效應(yīng)模型(LME)和廣義加和模型(GAM),并結(jié)合氣象要素、土地利用類型等參數(shù)建立更為復(fù)雜的非線性模型,估算得到的PM2.5濃度精度大幅提升。He 和Huang(2018)利用地理加權(quán)回歸(GWR)及其改進(jìn)版本模型,開展了PM2.5濃度模擬研究,同樣取得了優(yōu)于簡單空間插值與線性回歸的結(jié)果。近年來,機(jī)器學(xué)習(xí)算法得到了快速發(fā)展,相比于傳統(tǒng)的統(tǒng)計(jì)模型,機(jī)器學(xué)習(xí)模型有更強(qiáng)大的非線性擬合能力,因此也被廣泛應(yīng)用于大氣環(huán)境質(zhì)量研究中。Zang 等(2019)利用廣義回歸神經(jīng)網(wǎng)絡(luò)結(jié)合AOD、氣象要素、高程(DEM)、歸一化植被指數(shù)(NDVI)等因子模型估算了全國PM1.0的濃度。Wei等(2020)構(gòu)建時(shí)空極端回歸樹模型估算得到全國長時(shí)序的PM2.5空間分布產(chǎn)品,同樣用到了大量的輔助因子數(shù)據(jù)。
盡管這些模型都取得了不錯(cuò)的效果,但由于大氣環(huán)境的時(shí)空異質(zhì)性較強(qiáng),參數(shù)固定的機(jī)器學(xué)習(xí)模型難以捕獲AOD 與PM2.5隨時(shí)空變化的關(guān)系(Fang 等,2016),一定程度上限制了機(jī)器學(xué)習(xí)模型的可推廣性。注意力機(jī)制是一種廣泛應(yīng)用于自然語言處理,計(jì)算機(jī)視覺任務(wù)中的結(jié)構(gòu),其目的為使模型能夠動(dòng)態(tài)地將注意力放在感興趣的區(qū)域,即動(dòng)態(tài)識(shí)別更重要的因子,進(jìn)而增強(qiáng)模型的魯棒性與解釋性(Vaswani 等,2017;朱均安,2020)。為解決參數(shù)固定的機(jī)器模型無法考慮時(shí)空異質(zhì)性的問題,本研究提出一種結(jié)合注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型(DNN)來構(gòu)建AOD-PM2.5的關(guān)系,模型中的注意力機(jī)制能夠在時(shí)空動(dòng)態(tài)中識(shí)別對(duì)于建模影響更為重要的因子,從而估算得到更可靠的PM2.5濃度。此外,本研究選取的輔助因子除了常規(guī)的DEM、NDVI 和氣象要素等因子外,還加入了針對(duì)于中國人民生產(chǎn)生活習(xí)慣的農(nóng)歷日因子。最后利用這些數(shù)據(jù)構(gòu)建得到AOD-PM2.5的關(guān)系模型,估算長三角區(qū)域2015年—2020年P(guān)M2.5濃度的時(shí)空分布,探索長三角區(qū)域空氣質(zhì)量的時(shí)空變化特征。
研究區(qū)為長三角地區(qū)包括“三省一市”,即江蘇省、浙江省、安徽省和上海市,其作為一帶一路和長江經(jīng)濟(jì)帶的交匯地帶,是中國經(jīng)濟(jì)最為發(fā)達(dá)的區(qū)域之一,同時(shí)也是空氣污染相對(duì)嚴(yán)重的區(qū)域之一。隨著城市區(qū)域的不斷擴(kuò)張和人口的不斷聚集,長三角區(qū)域高密度人口更易受到空氣污染的影響,因此也對(duì)空氣污染的監(jiān)測(cè)提出了更高的要求。利用衛(wèi)星遙感手段對(duì)長三角區(qū)域空氣質(zhì)量進(jìn)行全域估算,能夠彌補(bǔ)地面站點(diǎn)的缺陷,從而更科學(xué)地指導(dǎo)長三角地區(qū)空氣污染防治政策的制定,分析空氣污染對(duì)人體健康的影響。研究區(qū)地理空間范圍與PM2.5監(jiān)測(cè)站點(diǎn)分布如圖1所示。
圖1 研究區(qū)范圍與PM2.5監(jiān)測(cè)站點(diǎn)分布Fig.1 Study area and distribution of PM2.5 monitoring sites
本研究采用MODIS 衛(wèi)星最新的MAIAC 氣溶膠產(chǎn)品,相比于此前版本的MOD04 氣溶膠產(chǎn)品,MAIAC AOD 具有更高的空間分辨率(1 km),更高的數(shù)據(jù)質(zhì)量與更廣的覆蓋范圍,能更好地用于PM2.5的估算。覆蓋長三角區(qū)域自2015-01-01—2020-12-31 的每日MAIAC 數(shù)據(jù)從NASA 網(wǎng)站下載獲得(https://ladsweb.modaps.eosdis.nasa.gov/[2021-05-30]),通過重投影和裁剪操作,提取獲得研究區(qū)范圍內(nèi)的AOD 值。由于已經(jīng)有大量研究驗(yàn)證了MAIAC AOD 在長三角區(qū)域的精度,本研究不再對(duì)其精度進(jìn)行驗(yàn)證(Xiao等,2017)。
2015-01-01—2020-12-30 每日的逐小時(shí)地面PM2.5監(jiān)測(cè)數(shù)據(jù)來源于國家生態(tài)環(huán)境部的“全國城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái)”(http://www.cnemc.cn/[2021-05-30]),選取研究區(qū)范圍及周邊共計(jì)352 個(gè)國控空氣質(zhì)量監(jiān)測(cè)站點(diǎn)作為本研究的地面觀測(cè)PM2.5濃度數(shù)據(jù)來源(圖1)。
氣象條件對(duì)PM2.5的形成與擴(kuò)散有重要的影響,本研究所用氣象數(shù)據(jù)來源于歐洲中期天氣預(yù)報(bào)中心ECMWF(https://cds.climate.copernicus.eu/,[2021-05-30])最新發(fā)布的第五代全球氣候再分析數(shù)據(jù)集ERA5,從中提取2015年—2020年每日的地表2 m處氣溫(T2M)、地表10 m 處東西向風(fēng)速(WU)、南北向風(fēng)速(WV)、相對(duì)濕度(RH)、行星邊界層高度(PBLH)、地表氣壓(SP)作為構(gòu)建AOD與PM2.5關(guān)系模型的氣象參數(shù),空間分辨率為0.125°。此外,數(shù)字高程模型(DEM)從地理空間數(shù)據(jù)云(http://www.gscloud.cn/[2021-05-30])上獲得,空間分辨率30 m。2015年—2020年每月的1 km分辨率NDVI同AOD數(shù)據(jù)從NASA網(wǎng)站下載獲得。
由于AOD 受云等干擾存在大量缺失現(xiàn)象,導(dǎo)致無法獲得全域覆蓋的結(jié)果,為解決這一問題,本研究利用ECMWF 的再分析數(shù)據(jù)中的550 nm AOD 與現(xiàn)有每日MAIAC AOD 建立線性關(guān)系模型,進(jìn)而插補(bǔ)得到每日完整的MAIAC AOD 數(shù)據(jù),再進(jìn)行后續(xù)AOD-PM2.5建模。將AOD 插補(bǔ)結(jié)果與AERONET 地面站點(diǎn)進(jìn)行驗(yàn)證,結(jié)果顯示插補(bǔ)前二者相關(guān)系數(shù)(R)為0.85,均方根誤差(RMSE)為0.17,插補(bǔ)后R為0.76,RMSE 為0.28,盡管精度略有下降,但仍可以滿足后續(xù)使用要求。由于氣象數(shù)據(jù)、DEM、AOD與NDVI空間分辨率各不相同,而模型的構(gòu)建需要這些數(shù)據(jù)一一對(duì)應(yīng),因此將所有柵格數(shù)據(jù)統(tǒng)一利用雙線性插值法重采樣至與MAIAC AOD 相同的1 km 分辨率。地面監(jiān)測(cè)的PM2.5數(shù)據(jù)可能存在由于設(shè)備故障導(dǎo)致的數(shù)據(jù)缺失,為保證數(shù)據(jù)精度,剔除每日觀測(cè)數(shù)小于12 個(gè)小時(shí)的數(shù)據(jù),再對(duì)剩余的數(shù)據(jù)進(jìn)行日均值的計(jì)算。由于1 個(gè)1 km 柵格內(nèi)可能存在多個(gè)地面站點(diǎn),計(jì)算這些站點(diǎn)的均值作為該柵格最終地面實(shí)測(cè)PM2.5日均濃度。將所有預(yù)處理完的數(shù)據(jù),進(jìn)行時(shí)空匹配,即根據(jù)每日PM2.5站點(diǎn)數(shù)據(jù),提取其所在柵格的包括氣象數(shù)據(jù),DEM,AOD 與NDVI的對(duì)應(yīng)數(shù)據(jù)結(jié)果,構(gòu)建模型所需數(shù)據(jù)集。最后對(duì)數(shù)據(jù)集進(jìn)行Z-score 標(biāo)準(zhǔn)化處理,使得每個(gè)因子的均值為0,標(biāo)準(zhǔn)差為1。
本研究基于DNN 加入注意力機(jī)制構(gòu)建了自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)模型SADNN(Self-Adaptive DNN)對(duì)AOD-PM2.5的關(guān)系進(jìn)行建模。DNN屬于機(jī)器學(xué)習(xí)模型的一種,由一個(gè)輸入層,多個(gè)隱藏層和一個(gè)輸出層構(gòu)成,每一層又由不同個(gè)數(shù)的神經(jīng)元構(gòu)成,層內(nèi)神經(jīng)元互不連接,層間神經(jīng)元通過全連接與激活函數(shù)的組合,對(duì)數(shù)據(jù)進(jìn)行非線性的變換(LeCun等,2015)。DNN 的這種結(jié)構(gòu)可以使模型學(xué)習(xí)到數(shù)據(jù)的多層次抽象特征,擁有強(qiáng)大的非線性擬合能力,從而表達(dá)復(fù)雜的模式,其基本原理可表示為
DNN 模型的訓(xùn)練通過后向傳播更新神經(jīng)元間的權(quán)重實(shí)現(xiàn),早期的激活函數(shù)(如Sigmoid)和后向傳播算法(如隨機(jī)梯度下降)容易出現(xiàn)梯度消失或彌散的情況,導(dǎo)致深度模型難以訓(xùn)練,因此只能訓(xùn)練淺層模型,如人工神經(jīng)網(wǎng)絡(luò)(ANN)。將整流線性單元(ReLu)作為激活函數(shù),利用均方根傳播(RMSProp)算法進(jìn)行后向傳播的計(jì)算可以有效地緩解這一現(xiàn)象,同時(shí)加快訓(xùn)練速度,使得DNN 的訓(xùn)練成為可能(Reddy 等,2018;Nair 和Hinton,2010)。因此本研究激活函數(shù)選用ReLU,后向傳播算法選擇RMSProp。
注意力機(jī)制最早被提出應(yīng)用于自然語言處理任務(wù)上,它能夠自動(dòng)識(shí)別上下文的依賴關(guān)系,進(jìn)而提升模型的準(zhǔn)確性,同時(shí)使得用戶能夠了解模型識(shí)別了哪些關(guān)鍵詞語來理解整個(gè)句子,增強(qiáng)了模型的可解釋性(Vaswani 等,2017)。在語音情感識(shí)別(Speech emotion recognition)研究中,注意力機(jī)制能夠在一大段語音中識(shí)別目標(biāo)情感的關(guān)鍵區(qū)域,提取關(guān)鍵情感特征(Li 等,2021)。隨后注意力機(jī)制也被廣泛遷移至計(jì)算機(jī)視覺任務(wù)中,注意力機(jī)制在計(jì)算機(jī)視覺中可分為空間注意力和通道注意力,空間注意力能夠?qū)ふ覉D片中對(duì)于結(jié)果最重要的部位,通道注意力機(jī)制的本質(zhì)在于構(gòu)建不同通道特征之間的重要性的模型,對(duì)輸入進(jìn)行特征分配,選擇對(duì)任務(wù)更有用的特征(Fu 等,2019;朱均安,2020)。此外,在遙感應(yīng)用上,Ye等(2019)結(jié)合了空間注意力和通道注意力對(duì)遙感影像中的建筑物進(jìn)行了高精度提?。籑ou 和Zhu(2020)提出光譜注意力模塊,對(duì)超光譜數(shù)據(jù)的各個(gè)波段進(jìn)行校正,對(duì)重要的波段賦予較大權(quán)重,不重要的波段賦予較小權(quán)重,以獲得更好的地物分類精度。注意力機(jī)制的原理為首先通過全連接層識(shí)別因子間的相互關(guān)系,然后通過一定的變化函數(shù)如Sigmoid 函數(shù)計(jì)算得到每個(gè)因子的重要性,最后將原始因子與重要性相乘即得到校正后的特征,Sigmoid表示如下:
式中,g(z)為變量z的Sigmoid 函數(shù),e 代表自然常數(shù)。
本研究將注意力機(jī)制融入到DNN 中,構(gòu)建SADNN 模型,其目的就在于識(shí)別對(duì)于PM2.5的估算更重要的特征,進(jìn)而更好地構(gòu)建AOD-PM2.5關(guān)系。輸入的因子首先經(jīng)過注意力機(jī)制的校正,對(duì)原始因子中重要的部分賦予一個(gè)較高的權(quán)重,不重要的部分賦予一個(gè)較低的權(quán)重,隨后輸入因子與其對(duì)應(yīng)的權(quán)重相乘得到校正后的因子,再輸入到后續(xù)網(wǎng)絡(luò)中。這樣模型即可以自適應(yīng)地時(shí)空動(dòng)態(tài)校正各輸入因子,從而捕獲AOD-PM2.5關(guān)系的時(shí)空異質(zhì)性。模型結(jié)構(gòu)采用啟發(fā)式搜索確定,將隱藏層的層數(shù)設(shè)為1,并以1 為步長進(jìn)行迭代訓(xùn)練驗(yàn)證,隱藏層神經(jīng)元從16個(gè)開始,每次增加1倍。最終綜合考慮模型精度與效率,確定為包含4個(gè)隱藏層,每層1024個(gè)神經(jīng)元的結(jié)構(gòu),整個(gè)SADNN模型結(jié)構(gòu)如圖2。
圖2 SADNN模型結(jié)構(gòu)Fig.2 The structure of SADNN model
模型的輸入因子除了AOD、DEM、NDVI 和上述提到的氣象因子外,還加入了積日(DOY)、經(jīng)度(LON)和緯度(LAT),此外還加入了針對(duì)于中國人民生產(chǎn)生活習(xí)慣的農(nóng)歷日(LUNAR)作為一個(gè)因子,來更好地體現(xiàn)人為活動(dòng)對(duì)PM2.5濃度的影響。農(nóng)歷作為中國傳統(tǒng)歷法,根據(jù)月相變化進(jìn)行編排,既能反映季節(jié)變化,又指導(dǎo)著物候和農(nóng)事。此外,中國許多法定節(jié)假日根據(jù)農(nóng)歷安排,影響著人們的生活習(xí)慣,例如大年三十與正月初一,中國普遍存在集體燃放煙花爆竹的習(xí)俗,會(huì)對(duì)大氣環(huán)境造成嚴(yán)重的影響。模型可表示為
式中,PM2.5st表示柵格s在時(shí)間t時(shí)的日均PM2.5濃度,METEO表示氣象因子,包括前文提到的T2M、WV、WD、RH、PBLH和SP。
此外本研究利用上述相同因子,構(gòu)建多元線性回歸模型與隨機(jī)森林模型進(jìn)行對(duì)比分析。多元線性回歸模型是構(gòu)建AOD-PM2.5關(guān)系的最基礎(chǔ)模型(Liu等,2007),可表示為
式中,α為截距,β1,β2,…,β8為每個(gè)因子的斜率。
隨機(jī)森林是近年最為流行的機(jī)器學(xué)習(xí)模型之一,它通過集合多個(gè)決策樹的結(jié)果,以有放回抽樣的方式進(jìn)行訓(xùn)練,能夠快速準(zhǔn)確地學(xué)習(xí)數(shù)據(jù)模式,進(jìn)行回歸或分類,被廣大學(xué)者用于PM2.5濃度的估算中(Hu等,2017)。其作為非參數(shù)模型,公式表達(dá)同式(3)。
模型精度的定量評(píng)價(jià)選取決定系數(shù)(R2)、均方根相對(duì)誤差(RMSRE)、均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)作為指標(biāo),公式如下
式中,n代表數(shù)據(jù)個(gè)數(shù),yi,Meas代表第i條實(shí)測(cè)PM2.5值,yi,Esti代表第i條估算的PM2.5值,--- -----y,Meas代表所有實(shí)測(cè)PM2.5的平均值。
模型的驗(yàn)證采用5折交叉驗(yàn)證:將整個(gè)數(shù)據(jù)集隨機(jī)平均分為5 份,輪流選取其中1 份作為驗(yàn)證集,剩余4份作為訓(xùn)練集進(jìn)行模型的訓(xùn)練,最后將5 次結(jié)果進(jìn)行整合得到最終的模型精度。通過不同模型的比較,選取驗(yàn)證精度相對(duì)最優(yōu)的模型,作為最終確定的模型。再利用完整的數(shù)據(jù)集,對(duì)確定的模型進(jìn)行訓(xùn)練,應(yīng)用于后續(xù)長三角區(qū)域PM2.5的估算,得到研究區(qū)域的PM2.5時(shí)空分布。
將2015-01-01—2020-12-31 研究區(qū)范圍內(nèi)所有數(shù)據(jù)清理整合,最終得到有效匹配數(shù)據(jù)共341768 條用于模型的訓(xùn)練、驗(yàn)證與比較,結(jié)果如圖3所示。本研究提出的SADNN 模型交叉驗(yàn)證結(jié)果R2高達(dá)0.85,RMSE 為12.77 μg/m3,RMSRE 為0.35,MAE 僅8.22 μg/m3。作為流行的機(jī)器學(xué)習(xí)模型,隨機(jī)森林也達(dá)到了一個(gè)不錯(cuò)的驗(yàn)證結(jié)果,R2為0.82,RMSRE 為0.36,但其擬合線的斜率(0.74)相比于SADNN 的0.86 要低不少,說明隨機(jī)森林模型更易低估PM2.5高值,其估算能力相對(duì)較弱。傳統(tǒng)的多元線性回歸模型表現(xiàn)最差,不能很好地對(duì)AOD-PM2.5關(guān)系進(jìn)行建模,R2僅為0.30,RMSRE 與RMSE 分別高達(dá)0.78 與27.25 μg/m3。由此可見,本研究提出的SADNN 模型利用注意力機(jī)制與深層網(wǎng)絡(luò)模型結(jié)構(gòu),通過對(duì)大規(guī)模數(shù)據(jù)模式的學(xué)習(xí),對(duì)于估算PM2.5的濃度相較隨機(jī)森林和多元線性回歸模型更為精準(zhǔn),誤差更小,有更高的應(yīng)用與推廣潛力。
圖3 不同模型交叉驗(yàn)證結(jié)果Fig.3 Cross-validation results for different models
為進(jìn)一步說明注意力機(jī)制與農(nóng)歷日因子的有效性,同時(shí)驗(yàn)證SADNN 模型對(duì)歷史逐日PM2.5濃度估算的能力,選取2016-02-06—2016-02-08(臘月廿八、除夕與春節(jié))3 d 的不同模型估算結(jié)果進(jìn)行對(duì)比分析,模型包括SADNN、不含農(nóng)歷日因子的SADNN(SADNN-noLunar)、不含注意力的SADNN(SADNN-noAtt)(圖4)。與地面站點(diǎn)的對(duì)比驗(yàn)證顯示,臘月廿八、除夕與春節(jié)SADNN 的R2分別為0.78,0.73,0.68;SADNN-noLunar 的R2分別為0.72,0.73,0.60;SADNN-noAtt 的R2分別為0.75,0.73,0.64??梢钥吹剑?日中除了除夕3 個(gè)模型站點(diǎn)驗(yàn)證結(jié)果不相上下外,其余二日SADNN 模型的結(jié)果要明顯更優(yōu),加入農(nóng)歷日因子后二日R2有0.06 和0.08 的提升,加入注意力后二日R2提升了0.03 和0.04。除夕深夜與春節(jié)凌晨中國有燃放煙花爆竹的習(xí)俗,極易導(dǎo)致春節(jié)白天空氣質(zhì)量的顯著下降,加入農(nóng)歷日因子的模型更好地捕捉了這一特征。從空間分布趨勢(shì)來看,SADNN 模型在臘月廿八成功估算了浙江北部的高值區(qū)域,另外兩個(gè)模型估算的高值區(qū)域明顯偏小。除夕當(dāng)日江蘇省空氣污染嚴(yán)重,地面監(jiān)測(cè)站大部分都超過80 μg/m3,盡管3 個(gè)模型與地面站點(diǎn)驗(yàn)證結(jié)果表現(xiàn)不相上下,SADNN 對(duì)江蘇省高值區(qū)域的估算要明顯優(yōu)于另外兩個(gè)模型。春節(jié)當(dāng)日,SADNN-noAtt在安徽西南山區(qū)有錯(cuò)誤的高估,而SADNN-noLunar對(duì)研究區(qū)北部的高值區(qū)域有明顯的低估。綜上所述,農(nóng)歷日因子和注意力的加入能夠?qū)δP推鸬揭欢ǔ潭鹊膬?yōu)化作用,尤其是在PM2.5的高值區(qū)域和空間細(xì)節(jié)方面,同時(shí)模型在單日PM2.5的空間估算上與地面站點(diǎn)有較強(qiáng)的一致性,能夠較為精準(zhǔn)地估算研究區(qū)范圍每日PM2.5的濃度。
圖4 不同模型對(duì)2016年典型日期的PM2.5估算Fig.4 PM2.5 estimation for different models at typical days in 2016
基于SADNN 模型估算得到的每日PM2.5濃度數(shù)據(jù),計(jì)算長三角區(qū)域2015年—2020年每年的PM2.5濃度均值時(shí)空分布,結(jié)果如圖5所示。估算的PM2.5濃度空間分布上與地面觀測(cè)站點(diǎn)保持一致,整體呈現(xiàn)北高南低的趨勢(shì),安徽省與江蘇省空氣污染更為嚴(yán)重。2015年—2020年估算得到的長三角區(qū)域PM2.5均值分別為:44.88 μg/m3、40.91 μg/m3、41.27 μg/m3、39.34 μg/m3、37.64 μg/m3、34.07 μg/m3,除2017年較2016年有小幅反彈外,整體空氣質(zhì)量在逐年改善。2015年,研究區(qū)內(nèi)除黃山區(qū)域和浙江南部山區(qū)PM2.5濃度低于國家二級(jí)標(biāo)準(zhǔn)所規(guī)定的35 μg/m3外,其余內(nèi)陸地區(qū)都遠(yuǎn)超這一標(biāo)準(zhǔn),空氣質(zhì)量不容樂觀。2016年P(guān)M2.5濃度整體下降約4 μg/m3,其中以杭嘉湖及其周邊區(qū)域最為明顯。2017年年均PM2.5濃度的小幅反彈主要由于安徽省空氣質(zhì)量變差導(dǎo)致了整個(gè)研究區(qū)平均濃度的上升(王學(xué)梅,2020)。隨著2018年《打贏藍(lán)天保衛(wèi)戰(zhàn)三年行動(dòng)計(jì)劃》的發(fā)布,長三角地區(qū)作為全國重點(diǎn)區(qū)域之一,大力推進(jìn)產(chǎn)業(yè)綠色發(fā)展,優(yōu)化能源結(jié)構(gòu),嚴(yán)格管控措施,2018年—2020年空氣質(zhì)量改善明顯,2020年長三角區(qū)域PM2.5濃度年均值已低于國家二級(jí)標(biāo)準(zhǔn),治理成效顯著(http://www.mee.gov.cn/zcwj/gwywj/201807/t20180704_446068.shtml[2021-05-30])。
圖5 長三角區(qū)域PM2.5濃度年際分布Fig.5 Annual PM2.5 concentration in the Yangtze River Delta.
為分析長三角區(qū)域PM2.5濃度在不同季節(jié)的時(shí)空分布特征,本研究采用四季分類法將3、4、5月作為春季,6、7、8月作為夏季,9、10、11月作為秋季,12、1、2月作為冬季,對(duì)上述估算得到的2015年—2020年每日PM2.5數(shù)據(jù)進(jìn)行整合,得到四季的PM2.5濃度均值(圖6),與地面站點(diǎn)也同樣具有較高的一致性。長三角區(qū)域季節(jié)PM2.5濃度整體上為冬季最高(58.35 μg/m3),春季次之(40.18 μg/m3),其后為秋季(36.32 μg/m3),夏季濃度最低(25.37 μg/m3)。地面站點(diǎn)季節(jié)趨勢(shì)相同,PM2.5濃度均值分別為:冬季最高(68.58 μg/m3),春季次之(46.42 μg/m3),其后為秋季(41.44 μg/m3),夏季濃度最低(31.23 μg/m3)。冬季由于華北地區(qū)污染物傳輸、不利的氣象條件和供暖因素,從而導(dǎo)致空氣質(zhì)量變差(馬宗偉,2015;Xie 等,2015)。長三角區(qū)域夏季對(duì)流天氣強(qiáng),雨水豐富,污染物沉降和擴(kuò)散條件較好,因此夏季PM2.5濃度在四季中最低(Kim 等,2007)??臻g分布上每個(gè)季節(jié)都類似,均為北高南低,安徽省和江蘇省污染最為嚴(yán)重,上海市次之,浙江省空氣質(zhì)量相對(duì)最優(yōu),與上一節(jié)結(jié)果相同。
圖6 長三角區(qū)域PM2.5濃度季節(jié)分布Fig.6 Seasonal PM2.5 concentration in the Yangtze River Delta
為進(jìn)一步分析長三角內(nèi)部各省市的PM2.5污染情況,繪制各省市每月PM2.5濃度箱線圖并計(jì)算其變化趨勢(shì)如圖7。所有省市PM2.5濃度總體趨勢(shì)都在好轉(zhuǎn),但估算結(jié)果的下降速率與站點(diǎn)結(jié)果有所差異,同時(shí)估算結(jié)果的月際波動(dòng)幅度較站點(diǎn)結(jié)果也更小。出現(xiàn)這種差異的主要原因是由于地面觀測(cè)站點(diǎn)大都分布于PM2.5濃度較高的城市區(qū)域,其總體濃度較全域均值都偏高,而本研究估算的PM2.5濃度還包括山區(qū)等地,反映的是全域整體情況。此外,PM2.5濃度的月度變化趨勢(shì)呈現(xiàn)顯著的周期性,并且各省市的趨勢(shì)都相似:冬季月份高,夏季月份低,春秋過渡。箱線圖也直觀的指示了除夏季的6、7、8月外,各省市其余月份都有超過75%的日子PM2.5日均濃度無法達(dá)到國家一級(jí)標(biāo)準(zhǔn)(日均35 μg/m3),而冬季月份(12、1、2月)除浙江省外有超半數(shù)的天數(shù)超過國家二級(jí)標(biāo)準(zhǔn)(日均75 μg/m3)。本研究估算PM2.5的結(jié)果顯示,四省市中以上海市下降趨勢(shì)最為明顯(下降速率=-3.30 μg/(m3·a))。上海市在前4 a出現(xiàn)PM2.5濃度異常高值的情況最為頻繁,最高的幾天接近200 μg/m3,近2 a 有所好轉(zhuǎn),出現(xiàn)極端污染的情況明顯減少,極值也下降了近一半。地面站點(diǎn)趨勢(shì)與本研究估算結(jié)果類似,下降速率為4.06 μg/(m3·a)。地面站點(diǎn)結(jié)果中下降速率最快的為浙江省,達(dá)4.09 μg/(m3·a),然而本研究結(jié)果顯示浙江省下降趨勢(shì)最為平穩(wěn),下降速率僅為1.79 μg/(m3·a)。其原因?yàn)檎憬〈蟛糠譃樯絽^(qū),6年來山區(qū)PM2.5濃度一直保持在較低水平,而地面觀測(cè)站點(diǎn)不包含這些區(qū)域,導(dǎo)致其結(jié)果濃度偏高。同時(shí)站點(diǎn)結(jié)果與本研究估算結(jié)果的差異也說明了浙江省在城市地區(qū)PM2.5的控制方面做到了較高水平,值得其余地區(qū)學(xué)習(xí)借鑒。江蘇省地處平原,全域PM2.5濃度空間異質(zhì)性較低,因此其估算結(jié)果與地面站點(diǎn)結(jié)果差異相對(duì)較小,下降速率分別為2.65 μg/(m3·a)和3.69 μg/(m3·a)。江蘇省在2018年以前月間PM2.5濃度波動(dòng)變化較大,夏冬差距明顯;2018年以后冬季重污染天氣減少,空氣質(zhì)量改善,月間變化變緩。安徽省由于黃山等山區(qū)的存在,其總體下降速率的差異同浙江省類似,估算結(jié)果為1.72 μg/(m3·a),相對(duì)較低,地面站點(diǎn)結(jié)果為3.37 μg/(m3·a),同樣為長三角區(qū)域最緩。但安徽省PM2.5濃度較浙江省高,月季變化幅度也較大,因此仍有較大改善空間,是后續(xù)更需要政府關(guān)注的重點(diǎn)區(qū)域。
圖7 長三角區(qū)域各省市2015年—2020年P(guān)M2.5濃度趨勢(shì)Fig.7 Provincial trend of PM2.5 concentration from 2015 to 2020 in the Yangtze River Delta
(1)針對(duì)現(xiàn)有機(jī)器學(xué)習(xí)模型不能很好地捕獲AOD-PM2.5關(guān)系的時(shí)空異質(zhì)性問題,本研究構(gòu)建了一種結(jié)合注意力機(jī)制的自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)模型(SADNN),在擁有復(fù)雜非線性建模能力的同時(shí),對(duì)輸入因子動(dòng)態(tài)校正,以識(shí)別其時(shí)空異質(zhì)性。模型交叉驗(yàn)證結(jié)果指示所提出的模型相比多元線性回歸和隨機(jī)森林擁有更高的估算性能,R2達(dá)0.85,RMSRE為0.35,能更準(zhǔn)確地估算逐日PM2.5濃度。
(2)在輸入因子的選取方面,除了常規(guī)的AOD、氣象因子、DEM、NDVI、DOY和經(jīng)緯度外,加入了針對(duì)于中國人民生產(chǎn)生活習(xí)慣的農(nóng)歷日因子。實(shí)驗(yàn)結(jié)果表明農(nóng)歷日因子的加入能夠一定程度上校正AOD-PM2.5的關(guān)系,使得估算結(jié)果在空間分布上更為精確。
(3)利用該模型進(jìn)一步估算長三角區(qū)域2015年—2020年的PM2.5濃度發(fā)現(xiàn):PM2.5濃度在空間分布上整體呈現(xiàn)北高南低的趨勢(shì),安徽省與江蘇省空氣污染最為嚴(yán)重,浙江省濃度最低。時(shí)間尺度上長三角區(qū)域2015年—2020年整體PM2.5濃度除2017年外,每年都在下降;季節(jié)差異同樣十分顯著,呈冬季>春季>秋季>夏季的規(guī)律。分省市分析結(jié)果表明:上海市PM2.5濃度下降最快,下降速率為3.30 μg/(m3·a),江蘇省次之(2.65 μg/(m3·a)),安徽省與浙江省變化速度相近,均不到2 μg/(m3·a),但安徽省整體濃度遠(yuǎn)高于浙江省,改善空間較大,需要更多的關(guān)注。
(4)利用本研究提出的模型能夠較好地估算全域逐日PM2.5濃度,估算結(jié)果與地面觀測(cè)有較好的一致性,同時(shí)由于地面站點(diǎn)只分布于城市等PM2.5濃度相對(duì)較高區(qū)域,本研究結(jié)果可以彌補(bǔ)地面觀測(cè)在空間分布上的不足。然而現(xiàn)階段模型的輔助因子以氣象為主,缺少具有時(shí)空特征的人為活動(dòng)排放清單這類因子。未來期望再加入這類因子到模型中,同時(shí)累積更多的地面觀測(cè)數(shù)據(jù)進(jìn)行模型的訓(xùn)練,得到更為精確的PM2.5濃度時(shí)空分布,為流行病學(xué)研究和中國生態(tài)文明建設(shè)提供更為可靠的數(shù)據(jù)與理論支撐。
志 謝本研究所用MODIS 系列衛(wèi)星數(shù)據(jù)由NASA 提供,ERA5 氣象數(shù)據(jù)與AOD 再分析數(shù)據(jù)由歐洲中期天氣預(yù)報(bào)中心提供,PM2.5數(shù)據(jù)由國家生態(tài)環(huán)境部提供,地面AOD 監(jiān)測(cè)數(shù)據(jù)由AERONET提供,在此表示衷心的感謝!