范東浩,秦凱,杜娟,何秦,辛世紀(jì),劉鼎醫(yī)
1.中國礦業(yè)大學(xué)環(huán)境與測繪學(xué)院,徐州221116;
2.中國科學(xué)院空天信息創(chuàng)新研究院,北京100094;
3.江蘇省徐州環(huán)境監(jiān)測中心,徐州221002
PM2.5因其粒徑小、面積大、活性強(qiáng)、易附毒害物質(zhì)且能在大氣中停留較長時(shí)間、輸送較遠(yuǎn)距離等特點(diǎn)(Saffari 等,2014),對人體健康和大氣環(huán)境質(zhì)量有很大危害,是中國主要的空氣污染源之一(Cao等,2012)。
基于衛(wèi)星遙感數(shù)據(jù)估算近地面顆粒物的方法有比例因子法或化學(xué)傳輸模式法(Cameron 等,2017)、物理經(jīng)驗(yàn)法(張瑩和李正強(qiáng),2013)及統(tǒng)計(jì)模型法等(Zhang 等,2021)。統(tǒng)計(jì)模型法又包括Wang 和Christopher(2003)采用的簡單線性回歸方法、經(jīng)研究發(fā)現(xiàn)預(yù)測水平顯著高于簡單線性回歸的多元線性回歸模型方法(Koelemeijer 等,2006;Wu 等,2012;潘錦秀等,2019),地理加權(quán)回歸模型(GWR)(Hu,2009),地理時(shí)空加權(quán)回歸方法(GTWR)(Huang 等,2010),神經(jīng)網(wǎng)絡(luò)方法(Ordieres等,2005;郭建平等,2013;Chen等,2020)等方法。在衛(wèi)星選用上,早期多選用MODIS 傳感器數(shù)據(jù),目前日本葵花8 號衛(wèi)星(Himawari-8/AHI)及韓國千里眼衛(wèi)星(COMS/GOCI)的衛(wèi)星遙感數(shù)據(jù)正廣泛被應(yīng)用在近地面顆粒物遙感估算(Xu 等,2015;Wang 等,2017;Tang等,2019)。通常衛(wèi)星AOD產(chǎn)品是經(jīng)過衛(wèi)星表觀反射率(TOA)反演而來(Hsu 等,2004;Guo等,2009)?;诖?,可以直接建立TOA 產(chǎn)品和地面站點(diǎn)監(jiān)測的PM2.5濃度的反演模型(Shen 等,2018;Fan等,2021;Yin等,2021)。對于PM2.5選取目前多采用中國環(huán)境監(jiān)測總站CNEMC(China Environmental Monitoring Center)的國控站點(diǎn)數(shù)據(jù)(Zou 等,2017;Wang 等,2018;Tang 等,2019;Bai 等,2019a)。當(dāng)前,許多地方政府完成了網(wǎng)格化空氣質(zhì)量監(jiān)測網(wǎng)絡(luò)建設(shè),為精細(xì)化監(jiān)管城市空氣質(zhì)量奠定了基礎(chǔ)。本文旨在檢驗(yàn)網(wǎng)格化地面監(jiān)測站點(diǎn)支持下的衛(wèi)星遙感PM2.5精細(xì)化制圖能力,以徐州為例,以網(wǎng)格化地面監(jiān)測站點(diǎn)和Himawari-8/AHI 及COMS/GOCI 衛(wèi)星數(shù)據(jù)為主,輔以氣象、人口、道路網(wǎng)密度等數(shù)據(jù),開展對比實(shí)驗(yàn)研究。
本文研究區(qū)域?yàn)榻K省徐州市(33°43′N—34°58′N、116°22′E—118°40′E),是淮海經(jīng)濟(jì)區(qū)中心城市,下轄2 市(新沂市、邳州市)、3 縣(豐縣、沛縣、睢寧縣)、5 區(qū)(云龍區(qū)、鼓樓區(qū)、泉山區(qū)、銅山區(qū)、賈汪區(qū))。徐州周邊有大型煤炭或煤電基地及大量化工企業(yè),主要工業(yè)區(qū)位于賈汪區(qū)內(nèi)(樊文智等,2018;張宇靜等,2019)。徐州市市區(qū)(銅山區(qū)、泉山區(qū)、云龍區(qū)和鼓樓區(qū))是徐州市整體各類大氣污染物濃度較高的區(qū)域。除城市排放因素外,還與徐州市區(qū)四面環(huán)山的盆地效應(yīng)有關(guān)。
日本宇航局JAXA(Japan Aerospace Exploration Agency)于2014-10-07 發(fā)射了新一代靜止衛(wèi)星“葵花8 號”(Himawari-8),并于2015-07 開始業(yè)務(wù)化運(yùn)行。Himawari-8 衛(wèi)星具有良好的時(shí)間分辨率,可以實(shí)現(xiàn)10 min/次的高頻觀測,其上搭載的AHI 傳感器擁有16 個(gè)波段,可見光波段范圍內(nèi)空間分辨率最高可達(dá)0.005°。
本文使用了逐小時(shí)的Himawari-8/AHI L3 級TOA(表觀反射率)數(shù)據(jù),時(shí)間階段為2019-07—2020-06 期間每天的8:00—15:00(為方便數(shù)據(jù)處理,選取與COMS/GOCI一致的時(shí)間序列),空間分辨率最高為0.005°(Bessho 等,2016),包括藍(lán)光(1 波段,470 nm,0.01°分辨率)、綠光(2 波段,510 nm,0.01°分辨率)、紅光(3 波段,640 nm,0.005°分辨率)及短波紅外波段(6波段,2300 nm,0.02°分辨率)。此外,使用紅光和近紅外波段(4波段,860 nm,0.01°分辨率)計(jì)算了歸一化植被指數(shù)NDVI(Normalized Difference Vegetation Index),還用到了相關(guān)角度數(shù)據(jù)等。
對于表觀反射率的處理,參照Yan 等(2020)中將AHI 傳感器的反照率數(shù)據(jù)轉(zhuǎn)為TOA 數(shù)據(jù)的方法,如式(1)所示:
式中,ρ*為表觀反射率,θ0為太陽天頂角,λalbdeo為反照率。
韓國的通信海洋氣象衛(wèi)星,或稱千里眼衛(wèi)星COMS(Communication Ocean Meteorological Satellite)于2010年6月發(fā)射,定軌于128.2°E,是一顆靜止軌道多用途衛(wèi)星。COMS 衛(wèi)星主要搭載3 種有效載荷:Ka 頻段通信儀、地球同步海洋水色成像儀GOCI(Geostationary Ocean Color Imager)和氣象成像儀。
本文所用為COMS 衛(wèi)星的GOCI 傳感器數(shù)據(jù),以(36°N,130°E),為觀測中心,陸地范圍包括朝鮮半島、中國東部和日本,空間分辨率最高可達(dá)0.005°,時(shí)間分辨率為1 h。GOCI 每天可傳輸北京時(shí)間8:00—15:00共8幅圖像(Ryu等,2012)。
本文采用GOCI 的L1B 波段數(shù)據(jù)作為建模數(shù)據(jù),共使用8 個(gè)光譜通道進(jìn)行氣溶膠反演,前6 個(gè)為可見光波段,而后2 個(gè)為近紅外波段,并參照Choi 等(2016)所給出的如式(2),對L1B 數(shù)據(jù)進(jìn)行預(yù)處理。
式中,λ為上述的8個(gè)光譜波段波長,L(λ)為GOCI的輻射高度,μ0為觀測時(shí)太陽天頂角,E0(λ)為太陽輻射能流。
此外還采用YEAR-V2 版本(Choi 等,2016)的GOCI-AOD 數(shù)據(jù),其空間分辨率較粗僅為6 km,因此只作為掩膜的判別數(shù)據(jù),不作為建模的特征參數(shù)。
徐州于2018年建成了覆蓋全市的空氣質(zhì)量網(wǎng)格化監(jiān)測網(wǎng)絡(luò),本文使用其中的172個(gè)站點(diǎn)(圖1)的逐小時(shí)觀測數(shù)據(jù)。考慮到逐小時(shí)PM2,5濃度變化較大,可能存在隨機(jī)偏差,參照原環(huán)境保護(hù)部發(fā)布的《灰霾污染日判別標(biāo)準(zhǔn)》,篩選PM2.5濃度在0—500 μg/m3內(nèi)的數(shù)據(jù)以減小站點(diǎn)數(shù)據(jù)漂移帶來的影響。為了與衛(wèi)星遙感數(shù)據(jù)進(jìn)行時(shí)空匹配,以0.005°空間分辨率構(gòu)建網(wǎng)格,同一網(wǎng)格內(nèi)的不同站點(diǎn)求均值。最終,形成了覆蓋徐州市的165 個(gè)網(wǎng)格,所用質(zhì)控合格率為99%,數(shù)據(jù)有效率為91%(數(shù)據(jù)有效率=采用的數(shù)據(jù)數(shù)/實(shí)際上傳的數(shù)據(jù)數(shù);數(shù)據(jù)質(zhì)控合格率=采用的數(shù)據(jù)數(shù)/應(yīng)上傳的總數(shù))。此外,本文還使用了7 個(gè)國控站點(diǎn)的逐小時(shí)PM2.5數(shù)據(jù)(http://106.37.208.233:20035/[2021-07-19])作為對比,分別是黃河新村、淮塔、新城區(qū)、桃園路、農(nóng)科院、鼓樓區(qū)政府和銅山區(qū)招生辦站點(diǎn)。
圖1 徐州地區(qū)CNMEC國控站點(diǎn)及網(wǎng)格化監(jiān)測站點(diǎn)的空間分布Fig.1 Spatial distribution of CNMEC’s national control stations and grid monitoring stations in Xuzhou
為了獲得大范圍的氣象數(shù)據(jù),本文使用ECMWF(歐洲中期天氣預(yù)報(bào)中心)的ERA5 氣象數(shù)據(jù)(Fifth Generation Atmospheric Reanalysis)(Hersbach等,2020),其時(shí)間分辨率為逐小時(shí),空間分辨率為0.25°。本文主要使用了9 個(gè)氣象參數(shù),即地表氣壓、總降雨量、2 m 露點(diǎn)溫度、2 m 氣溫、10 m經(jīng)向風(fēng)、10 m 緯向風(fēng)、邊界層高度、高植被葉面積指數(shù)和低植被葉面積指數(shù)。
人口數(shù)據(jù)來自于世界人口網(wǎng)站W(wǎng)orldPop(https://www.worldpop.org[2021-07-19]),其通過人口普查及top-down的估計(jì)方法得到100 m空間分辨率的網(wǎng)格化數(shù)據(jù)(Stevens 等,2015;Lloyd 等,2019),本文選用2019年及2020年年均數(shù)據(jù)。土地利用數(shù)據(jù)來源于清華大學(xué)發(fā)布的FROM-GLC 分類模型(Finer Resolution Observation and Monitoring of Global Land Cover)(Gong 等,2013)。道路網(wǎng)密度數(shù)據(jù)來源于OpenStreetMap 網(wǎng)站(https://www.openstreetmap.org[2021-07-19])。
本文使用了兩種集成式機(jī)器學(xué)習(xí)方法,分別為Boosting的極端梯度提升XGBoost和Bagging的隨機(jī)森林,及基于核密度估計(jì)和加權(quán)最小二乘法的一種局部回歸方法—地理時(shí)空加權(quán)回歸(GTWR)算法。
XGBoost 在梯度提升決策樹GBDT(Gradient Boosting Decision Tree)的基礎(chǔ)上改進(jìn)得到,GBDT的核心在于每一次迭代都是向殘差降低的梯度方向繼續(xù)建立新的基礎(chǔ)學(xué)習(xí)器,以此將弱分類器轉(zhuǎn)為強(qiáng)分類器。XGBoost 在GBDT 基礎(chǔ)上對損失函數(shù)進(jìn)行二階泰勒展開,通過正則化處理和并行計(jì)算,來避免過擬合(Chen和Guestrin,2016)。
隨機(jī)森林RF(Random Forest),已廣泛用于解決回歸和分類問題(Bai等,2019b;Wu等,2020),其特點(diǎn)是自展法隨機(jī)采樣(Bootstrap Sampling)。通過不斷采樣得到采樣集,基于每個(gè)采樣集訓(xùn)練出一個(gè)基礎(chǔ)學(xué)習(xí)器,再將這些基礎(chǔ)學(xué)習(xí)器通過結(jié)合形成強(qiáng)學(xué)習(xí)器。
時(shí)空地理加權(quán)回歸GTMR(Geographically and Temporally Weight Regression)(Huang 等,2010)在地理加權(quán)回歸模型(GWR)的基礎(chǔ)上又加入了時(shí)間的影響,可以解決時(shí)空非平穩(wěn)性問題,能有效地解決回歸分析中無法同時(shí)考慮空間和時(shí)間特征的問題,可用于PM2.5濃度預(yù)測中(Li等,2020)。
技術(shù)路線如圖2所示,將衛(wèi)星的TOA 數(shù)據(jù)、氣象數(shù)據(jù)、土地利用類型數(shù)據(jù)與PM2.5站點(diǎn)數(shù)據(jù)等進(jìn)行時(shí)空匹配后(空間匹配選用0.005°×0.005°空間分辨率網(wǎng)格)進(jìn)行數(shù)據(jù)清洗,再劃分訓(xùn)練集和測試集通過XGBoost、RF和GTWR 這3種方法進(jìn)行模型訓(xùn)練,按交叉驗(yàn)證結(jié)果擇優(yōu)選為模型預(yù)測的主要方法,并將估算數(shù)據(jù)通過GOCI-AOD 掩膜得到最終的估算結(jié)果(即將AOD 數(shù)據(jù)缺失地區(qū)的PM2.5數(shù)據(jù)設(shè)零值從而減弱因云霧引起的干擾),并與CHAP和TAP數(shù)據(jù)集進(jìn)行對比分析。
圖2 技術(shù)路線圖Fig.2 Flowchart of the methodology
根據(jù)徐州地區(qū)的大致經(jīng)緯度可分為280×480個(gè)空間分辨率為0.005°×0.005°的網(wǎng)格,并將衛(wèi)星遙感數(shù)據(jù)等通過最臨近插值方法填入預(yù)定義網(wǎng)格,經(jīng)過時(shí)空匹配后,最終得到了37萬行樣本數(shù)據(jù)。
由圖3 可知,XGBoost 模型和RF 模型的R2及RMSE 要優(yōu)于GTWR 模型,因?yàn)镚TWR 方法中隨多特征參數(shù)誤差的累積,整體驗(yàn)證結(jié)果會快速變差;XGBoost 模型的R2及RMSE 在測試集和訓(xùn)練集都具有一致性,且離散點(diǎn)分布較為均勻;而RF模型的訓(xùn)練集擬合程度明顯比測試集好,可能存在過擬合情況。因此,選用XGBoost 模型開展后續(xù)研究。
圖3 XGBoost、RF和GTWR 3種方法的測試集及訓(xùn)練集結(jié)果對比Fig.3 Comparison of test set and train set results of XGBoost,RF and GTWR
考慮到各個(gè)參數(shù)在模型中重要程度不同且可能相互影響,選用不同的參數(shù)組合進(jìn)行XGBoost模型優(yōu)化,按照數(shù)據(jù)來源分為11 種組合(表1),其中H8 代表選用葵花8 號(Himawari-8)衛(wèi)星數(shù)據(jù),GOCI 代表選用GOCI 載荷數(shù)據(jù),GLC 代表選用FROM-GLC 土地利用數(shù)據(jù),ERA5 代表選用ERA5氣象數(shù)據(jù),下同。結(jié)果表明(表1),H8 與ERA5結(jié)合的模型綜合性能最優(yōu),而不包含GLC 的組合優(yōu)于包含GLC 的組合,如H8+ERA5 組合優(yōu)于H8+ERA5+GOCI 組合,其原因可能是GLC 產(chǎn)品分辨率較粗,無法反映PM2.5精細(xì)化制圖所需要的土地利用類型細(xì)節(jié)變化。
表1 不同特征參數(shù)組合的PM2.5濃度反演結(jié)果比較Table 1 Statistics of PM2.5 retrieval uncertainties based on various combination of input data
進(jìn)一步,選取性能靠前的3 組參數(shù)組合,即H8+ERA5,GOCI+ERA5,H8+GOCI+ERA5,與國控站點(diǎn)開展時(shí)間序列對比分析。考慮到GOCI 載荷僅觀測獲得北京時(shí)間8:00—15:00的表觀反射率數(shù)據(jù),所以采用該時(shí)段的均值進(jìn)行對比。圖4 中,XGB_HGE 代表使用XGBoost 算法并選用H8+GOCI+ERA5 數(shù)據(jù),XGB_HE 代表使用XGBoost 算法并選用H8+ERA5 數(shù)據(jù),XGB_GE 代表使用XGBoost 算法并選用GOCI+ERA5 數(shù)據(jù),下同。由圖4 可知,H8+GOCI+ERA5 比另外兩者的誤差更小,因此作為最終的制圖參數(shù)組合。
圖4 3種特征參數(shù)組合PM2.5預(yù)測結(jié)果與國控站點(diǎn)對比圖Fig.4 Comparison diagram of PM2.5 prediction results of three characteristic parameters combined with national station measurements
通過與網(wǎng)格化站點(diǎn)及國控站點(diǎn)進(jìn)行對比,如圖5 和圖6所示,在年均和月均時(shí)間尺度的逐小時(shí)制圖中,本文采用模型的精細(xì)化成圖結(jié)果與站點(diǎn)數(shù)據(jù)基本匹配,能較好地反映出不同時(shí)間不同地區(qū)的PM2.5濃度變化趨勢。
圖5 網(wǎng)格化監(jiān)測站點(diǎn)和國控站點(diǎn)數(shù)據(jù)與本文PM2.5預(yù)測結(jié)果9:00、12:00和15:00等3個(gè)時(shí)次的對比(年均)Fig.5 Spatial distribution comparison between the annual averaged model derived PM2.5 concentrations and those that are measured from national station measurements
圖6 網(wǎng)格化站點(diǎn)與本文PM2.5預(yù)測結(jié)果逐小時(shí)對比(月均)Fig.6 Comparison between the prediction Results of PM2.5and data from National Station Measurements(monthly average)
為了檢驗(yàn)本文研究中采用了網(wǎng)格化站點(diǎn)數(shù)據(jù)后的PM2.5精細(xì)化制圖能力,進(jìn)一步與僅使用國控站點(diǎn)的的清華大學(xué)TAP(Xiao等,2021)和馬里蘭大學(xué)的CHAP 數(shù)據(jù)集(Wei 等,2021)進(jìn)行對比分析。TAP 全稱為Tracking Air Pollution in China,即中國大氣成分近實(shí)時(shí)追蹤數(shù)據(jù)集,該數(shù)據(jù)集融合地面觀測、衛(wèi)星遙感、排放清單和模式模擬等多源數(shù)據(jù),構(gòu)建多尺度、近實(shí)時(shí)的中國大氣氣溶膠和氣態(tài)污染物濃度數(shù)據(jù)集。目前TAP 數(shù)據(jù)集提供2000年至今的中國PM2.5濃度數(shù)據(jù),空間分辨率為10 km,可下載數(shù)據(jù)的時(shí)間分辨率為每日(http://tapdata.org/[2020-07-19])。CHAP 全稱為China HighAirPollutants,基于多源衛(wèi)星遙感和人工智能技術(shù),考慮空氣污染的時(shí)空異質(zhì)性,結(jié)合地基測量、遙感產(chǎn)品、大氣再分析和模式模擬等資料生產(chǎn)得到。數(shù)據(jù)集包含PM1、PM2.5、PM10等7 種主要空氣污染物。本文選取由MODIS 衛(wèi)星AOD 數(shù)據(jù)估算的空間分辨率為1 km 的每日PM2.5數(shù)據(jù)產(chǎn)品(備注:CHAP的逐小時(shí)數(shù)據(jù)僅提供2018年全年)。
考慮到年均數(shù)據(jù)無法體現(xiàn)制圖細(xì)節(jié),逐小時(shí)數(shù)據(jù)可能存在缺失,主要從月均和日均兩個(gè)尺度檢驗(yàn)采用網(wǎng)格化站點(diǎn)數(shù)據(jù)后對于PM2.5精細(xì)化制圖的貢獻(xiàn)。圖7 為月均值尺度下的本文結(jié)果和TAP、CHAP 數(shù)據(jù)集與地面檢測站點(diǎn)的對比。其中XGB_HGE為11種特征參數(shù)組合選出的性能最優(yōu)的XGBoost 模型。因?yàn)門AP 和CHAP 所用月均值數(shù)據(jù)均為每日24 h 的月均,而本文模型所采用的為每日8—15 h 的月均,國控站點(diǎn)數(shù)據(jù)做相應(yīng)兩種月均值對照??梢钥吹匠糠衷路莸牟糠终军c(diǎn)外,本文所采用模型基本與TAP 及CHAP 數(shù)據(jù)保持一致,在部分月份與地面觀測擬合程度更好。
圖7 不同模型預(yù)測PM2.5結(jié)果與國控站點(diǎn)數(shù)據(jù)對比Fig.7 Comparison of prediction results of PM2.5 by different models with data from national station measurements
如圖8所示,2019-09-09,本文結(jié)果很好地表征了市區(qū)(銅山區(qū)、泉山區(qū)、云龍區(qū)和鼓樓區(qū))和工業(yè)區(qū)(賈汪區(qū))的PM2.5污染情況(>100 μg/m3),與地面觀測一致;TAP數(shù)據(jù)雖然顯示了PM2.5空間分布的東西差異性,但是PM2.5濃度都低于100 μg/m3,無法表征市區(qū)和工業(yè)區(qū)的高值;而CHAP數(shù)據(jù)因?yàn)槭褂肕ODIS 數(shù)據(jù),每天過境只有兩次,數(shù)據(jù)缺失較多。如圖9所示,2020-03-18,本文結(jié)果與地面觀測一致,而TAP和CHAP數(shù)據(jù)均無法表征市區(qū)和工業(yè)的污染情況。隨機(jī)抽取的兩天數(shù)據(jù)表明,本文結(jié)果空間覆蓋度更好,且更能反映出徐州市區(qū)和周邊區(qū)縣的PM2.5空間分布差異性。
圖8 本研究的單日PM2.5空間分布圖與僅使用國控站點(diǎn)的結(jié)果對比(2019-09-09)Fig.8 Comparison between the Daily Spatial Distribution of PM2.5 Prediction in this Research and the Results Only Using National Station Measurements(2019-09-09)
圖9 本研究的單日PM2.5空間分布圖與僅使用國控站點(diǎn)的結(jié)果對比(2020-03-18)Fig.9 Comparison between the Daily Spatial Distribution of PM2.5Prediction in this Research and the Results Only Using National Station Measurements(2020-03-18)
本文主要使用Himawari-8/AHI 和COMS/GOCI地球靜止衛(wèi)星的表觀反射率和徐州地區(qū)的空氣質(zhì)量網(wǎng)格化監(jiān)測數(shù)據(jù),通過機(jī)器學(xué)習(xí)和時(shí)空地理加權(quán)回歸方法開展了0.005°分辨率的PM2.5濃度精細(xì)化制圖研究。通過與國控站點(diǎn)和現(xiàn)有數(shù)據(jù)集的對比分析,得出以下結(jié)論:
(1)地球靜止衛(wèi)星遙感數(shù)據(jù)因其具有更高的時(shí)間分辨率,在模型預(yù)測中可以更好地契合逐小時(shí)的城市網(wǎng)格化監(jiān)測站點(diǎn)數(shù)據(jù),比極軌衛(wèi)星數(shù)據(jù)更適合城市PM2.5精細(xì)化制圖。
(2)基于城市網(wǎng)格化監(jiān)測站點(diǎn)及衛(wèi)星遙感數(shù)據(jù)的估算結(jié)果,在一定程度上可以彌補(bǔ)國控站點(diǎn)稀疏的不足,能夠更好地反映出城市內(nèi)不同區(qū)域的PM2.5濃度分布差異性,可以更好地服務(wù)于城市空氣質(zhì)量精準(zhǔn)管控。
志 謝本研究使用了由日本JAXA 提供的Himawari-8/AHI(https://www.eorc.jaxa.jp/ptree/)以及韓國KOSC(韓國海洋科學(xué)技術(shù)研究院)提供的COMS/GOCI(http://kosc.kiost.ac.kr/)衛(wèi)星數(shù)據(jù)。此外,本文研究還獲得美國馬里蘭大學(xué)韋晶博士(https://weijing-rs.github.io)和韓國延世大學(xué)Kim Jhoon 教授團(tuán)隊(duì)(http://atrad.yonsei.ac.krl)所提供的相關(guān)數(shù)據(jù),在此一并表示感謝。