周 琪,于 洋,劉苗苗,畢 軍
基于機器學(xué)習(xí)和非參數(shù)估計的PM2.5風(fēng)險評估
周 琪1,2,于 洋3,劉苗苗1*,畢 軍1
(1.南京大學(xué)環(huán)境學(xué)院,污染控制與資源化研究國家重點實驗室,江蘇 南京 210023;2.清華大學(xué)環(huán)境學(xué)院,北京 100084;3.清華大學(xué)交叉信息研究院,北京 100084)
為開展區(qū)域風(fēng)險評估,融合手機信令、氣象和地理信息等多源數(shù)據(jù),引入隨機森林機器學(xué)習(xí)、非參數(shù)估計分位數(shù)圖示法和非監(jiān)督學(xué)習(xí)K-mean等方法,構(gòu)建了區(qū)域PM2.5風(fēng)險評估及特征識別評價框架,在南京市區(qū)以0.3km分辨率網(wǎng)格為基礎(chǔ)單元開展了案例研究.結(jié)果表明,該技術(shù)既可有效模擬 PM2.5濃度時空分布,十折交叉驗證2達(dá)到0.76,證明了準(zhǔn)確度較高,并基于此識別出4種主要污染特征;也可有效捕捉短期人口流動導(dǎo)致的風(fēng)險,在污染濃度不變的情況下短期人口流動會導(dǎo)致風(fēng)險增加0.30~0.97倍.綜合PM2.5濃度和人口分布,識別出4種主要暴露風(fēng)險模式,其中,研究區(qū)域6.5%的面積為高風(fēng)險地區(qū),23.0%的面積為低風(fēng)險地區(qū).“十四五”期間應(yīng)加快現(xiàn)代科學(xué)技術(shù)在環(huán)境保護領(lǐng)域的應(yīng)用,實施網(wǎng)格化和差異化的風(fēng)險控制政策,維護人群健康.
PM2.5;機器學(xué)習(xí);非參數(shù)估計;暴露風(fēng)險評估;特征識別
大范圍、高濃度的大氣細(xì)顆粒物(PM2.5)污染是城市大氣污染最突出的特征之一[1].國內(nèi)外大量的環(huán)境流行病學(xué)研究已證明PM2.5暴露與呼吸系統(tǒng)疾病、心腦血管疾病等一系列負(fù)面健康效應(yīng)顯著相關(guān)[2],是我國第四大致死風(fēng)險因素[6],引起社會的廣泛關(guān)注.在此背景下,亟需高精度算法精準(zhǔn)描繪PM2.5暴露風(fēng)險,為大氣污染風(fēng)險精準(zhǔn)防控提供科學(xué)依據(jù).根據(jù)暴露風(fēng)險評估的基本原理,這既需要高精度風(fēng)險受體和PM2.5濃度時空分布數(shù)據(jù)的支撐,也需要高效能特征識別算法的支撐.
作為風(fēng)險受體,人口分布會對PM2.5暴露風(fēng)險產(chǎn)生影響.目前,考慮高強度人口位置變化的PM2.5暴露風(fēng)險評估研究較少,傳統(tǒng)研究多采用以年為單位的長期人口產(chǎn)品開展低頻率的PM2.5暴露風(fēng)險評估[3-7].伴隨現(xiàn)代通信技術(shù)的快速發(fā)展,手機信令等大數(shù)據(jù)的引入使量化短期動態(tài)的人口流動成為了可能[8].隨著學(xué)者對大數(shù)據(jù)表征人口流動性能力的認(rèn)識逐步深入,大數(shù)據(jù)已逐漸被應(yīng)用于比利時[9]、紐約[10]等發(fā)達(dá)國家和地區(qū)的城市環(huán)境風(fēng)險暴露評估,為在發(fā)展中國家應(yīng)用手機信令數(shù)據(jù)在PM2.5暴露風(fēng)險評估研究中引入精細(xì)化人口流動分布提供了良好示范.另一方面,人口出行伴隨的交通工具的使用可能會影響局地PM2.5濃度.之前的研究因為難以直接獲得人口流動數(shù)據(jù),一般采用代理變量近似表征人口的流動性[11],因此難以判斷高強度人口流動是否會顯著影響污染時空分布特征.因此,本文將融合高精度手機信令數(shù)據(jù),實現(xiàn)以上兩方面的聯(lián)合突破.
在PM2.5濃度時空分布模擬方面,研究方法包括參數(shù)估計模型[12-13]、非參數(shù)估計模型[14-18]和模式模擬[19]等.其中,非參數(shù)的機器學(xué)習(xí)算法如人工神經(jīng)網(wǎng)絡(luò)[14]、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)[15]、boosting方法[16]、反向神經(jīng)網(wǎng)絡(luò)[17]、隨機森林[18]等在近年來得到了愈發(fā)廣泛的應(yīng)用,已成功被發(fā)達(dá)國家應(yīng)用于PM2.5地面濃度的模擬.
國內(nèi)外針對污染和風(fēng)險暴露模式識別已開發(fā)了眾多方法,比如基于傳統(tǒng)統(tǒng)計學(xué)的相關(guān)系數(shù)法[20]、主成分分析法[21]等;基于監(jiān)督學(xué)習(xí)法的層次貝葉斯[22]、支持向量機[23]等;基于非監(jiān)督聚類方法的模糊推理[24]、K-mean聚類[25]等方法.然而,類似算法在人口和污染高度聚集的發(fā)展中國家尚未得到廣泛應(yīng)用.將這些算法應(yīng)用于污染、人口和暴露的多維度特征識別,可為區(qū)域污染格局和暴露風(fēng)險特征的繪制和差異化風(fēng)險管理提供豐富的信息.
綜上,為了精準(zhǔn)評估PM2.5暴露風(fēng)險水平和特征,本文擬采用高精度的、脫敏的手機數(shù)據(jù)模擬風(fēng)險受體的逐小時變化,采用隨機森林機器學(xué)習(xí)算法實現(xiàn)PM2.5濃度的逐小時模擬,并通過非參估計分位數(shù)圖示法和無監(jiān)督機器學(xué)習(xí)K-mean法,對逐小時PM2.5濃度和暴露風(fēng)險進行特征模式識別.
選取江蘇省南京市作為案例城市開展PM2.5風(fēng)險評估的實證研究.南京市位于長江下游中部地區(qū)、江蘇省西南部、毗鄰安徽省.2018年南京共設(shè)置了9個空氣質(zhì)量監(jiān)測國控站點.選定的研究區(qū)域為南京市主城區(qū),地理坐標(biāo)為31.97°~32.08°N,118.69°~ 118.83°E,覆蓋了南京市玄武區(qū)、秦淮區(qū)、鼓樓區(qū)、建鄴區(qū)等(圖1).模擬結(jié)果以0.3km分辨率的網(wǎng)格展示,時間范圍為2018年5月28日~6月20日,時間分辨率為小時.
本文采用的逐小時、基站尺度、脫敏的手機用戶數(shù)量統(tǒng)計數(shù)據(jù)來自我國三大運營商之一.截止到2018年6月20日,在南京市6587km2的土地上,已架設(shè)了2萬余個基站單元,負(fù)責(zé)全市300多萬用戶的日常通訊.PM2.5地面監(jiān)測站點數(shù)據(jù)來自中國環(huán)境監(jiān)測總站[26].此外,本文采用的潛在影響PM2.5濃度的因素包括氣象條件、污染源數(shù)據(jù)、基礎(chǔ)地理數(shù)據(jù)等.其中,風(fēng)速、能見度、溫度、露點溫度數(shù)據(jù)來自中國氣象局[27];POI(興趣點)、交通、建筑、水域數(shù)據(jù)來自O(shè)penStreetMap[28];土地利用數(shù)據(jù)來自中國科學(xué)院資源環(huán)境科學(xué)與數(shù)據(jù)中心[29].
圖1 研究區(qū)域及PM2.5監(jiān)測站設(shè)置情況
在不涉及用戶隱私的情況下,手機運營公司根據(jù)本文需求脫敏提取了研究區(qū)域內(nèi)用戶的手機信令數(shù)據(jù),在清洗了冗余記錄、錯誤記錄、乒乓效應(yīng)之后,匯總獲得了逐小時基站尺度用戶統(tǒng)計數(shù).數(shù)據(jù)集描繪了每個基站單元每小時服務(wù)的用戶總數(shù).之后,采用基于距離最近原則劃分幾何平面的泰森多邊形算法,將研究區(qū)域劃分為若干圍繞基站的多邊形,并將對應(yīng)基站-第小時承載的用戶數(shù)賦值給多邊形,記為U,h,多邊形的平均面積為0.11km2.考慮到后續(xù)隨機森林算法對數(shù)據(jù)形態(tài)的要求,參考式(1)將-重采樣至0.3km分辨率的網(wǎng)格中.假設(shè)手機用戶的分布與南京市人口分布同質(zhì),參考式(2)利用區(qū)域內(nèi)總?cè)丝趯χ鹦r人口空間分布進行換算,獲得逐小時0.3km分辨率的人口流動分布格局.
隨機森林算法是基于多個決策樹的集成模型,已成功應(yīng)用于解決各領(lǐng)域的實際問題,包括空氣質(zhì)量[18]、化學(xué)信息學(xué)[30]、生態(tài)學(xué)[31]等.本文選擇隨機森林模型,一是考慮隨機森林模型可在沒有明確定義函數(shù)形狀的情況下完成多變量、非參數(shù)和非線性分類或回歸任務(wù);二是它可輸出預(yù)測變量重要性排序,有助于識別高強度人口流動是否會影響PM2.5濃度的模擬效果.參考Hu等[18]的方法,本文構(gòu)建了PM2.5小時濃度的隨機森林預(yù)測模型.模型中采用的預(yù)測變量包括:(1)網(wǎng)格距PM2.5地面監(jiān)測站的距離,m;(2)風(fēng)速,miles/h;(3)能見度,英里;(4)溫度,°C;(5)露點溫度,°C;(6)人群流動量,人;(7)POI數(shù)量,個;(8)道路長度,m;(9)交通交叉口數(shù)量,個;(10)建筑物面積,m2;(11)水體面積,m2;(12)土地利用類型.數(shù)據(jù)均提前重采樣至0.3km分辨率.采用超參數(shù)調(diào)試法對建模中兩個重要參數(shù),預(yù)測器數(shù)目(try)和生長樹數(shù)目(tree)進行調(diào)參.最終,當(dāng)預(yù)測器數(shù)目被設(shè)置為10個,生長樹被設(shè)置為1000個時,模型具有最佳預(yù)測精度.采用十折交叉驗證法評估模型擬合效果,性能評估指標(biāo)包括2、均方根誤差(RMSE)、平均預(yù)測誤差(MPE)和相對預(yù)測誤差(RPE).利用隨機森林模型中的Gini系數(shù)法提取預(yù)測變量的重要性排序.
此外,為識別和評估PM2.5濃度分布特征,采用分位數(shù)圖示法逐個檢驗每小時所有網(wǎng)格PM2.5濃度的概率密度分布形式.分位數(shù)圖示法是一種驗證兩組數(shù)據(jù)是否來自同一分布,或者驗證一組數(shù)據(jù)是否來自某個具體分布的方法.分位數(shù)圖示法的思路是首先將橫縱坐標(biāo)的實際數(shù)據(jù)排序,分別計算其分位數(shù)并標(biāo)記相同分位數(shù)的交點.若兩個分布較接近,則交點應(yīng)分布在=上.如果軸為已知的固定分布,則可驗證數(shù)據(jù)是否滿足這種特定要求.根據(jù)預(yù)實驗結(jié)果,本文采用的分布形式包括正態(tài)分布、卡方分布、雙正態(tài)疊加分布和多正態(tài)疊加分布.
為精準(zhǔn)評估PM2.5暴露風(fēng)險,從人口和污染兩個維度,采用非監(jiān)督機器學(xué)習(xí)K-mean聚類方法逐小時對人群PM2.5暴露風(fēng)險分類.K-mean是一種基于歐式距離的聚類算法,認(rèn)為兩個目標(biāo)之間的距離越近,相似度越大,其中的代表分類的數(shù)量.本文采用Gap Statistic方法逐個計算每小時最適合的值,并統(tǒng)計出現(xiàn)頻次最高的值作為統(tǒng)一的分類數(shù)量.然后,基于每小時的分類結(jié)果,記錄每個網(wǎng)格的類型結(jié)果時間序列,并在網(wǎng)格尺度選擇出現(xiàn)次數(shù)最多的類型作為此網(wǎng)格的主導(dǎo)類型.最后,根據(jù)暴露風(fēng)險的分類和匯總結(jié)果,分析人群的PM2.5暴露風(fēng)險特征,并識別高風(fēng)險地區(qū).
作為影響人群PM2.5暴露風(fēng)險水平的一大重要因素,在環(huán)境PM2.5濃度不變的情況下,每時每秒高強度的人口流動會導(dǎo)致風(fēng)險的快速變化.由圖2可知,4個典型時段的平均人口總量在231.66~349.02萬人之間,相當(dāng)于同一區(qū)域內(nèi)人口普查常住人口數(shù)的1.30~1.97倍.在污染濃度不變的情況下短期人口流動會導(dǎo)致風(fēng)險增加0.30~0.97倍.普查數(shù)據(jù)和人口流動數(shù)據(jù)之間的絕對差距由兩部分構(gòu)成,一部分是人口普查遺漏的常住人口數(shù)量,另一部分則是研究區(qū)域承載的短期人口流動數(shù)量,比如以休閑娛樂、上班、旅游、出差、打工等為目標(biāo)的人口群體.因此,在風(fēng)險評估中引入位置大數(shù)據(jù)刻畫短期高頻的人口流動至關(guān)重要.
此外,人口的高頻流動會導(dǎo)致城市人口分布的時空異質(zhì)性,從而增加風(fēng)險的時空異質(zhì)性.在時間變化方面,研究區(qū)域內(nèi)平均人口從6:00的231.66萬人,增長到12:00的331.92萬人,將導(dǎo)致此時段的風(fēng)險相提升43.3%.一天中平均人口數(shù)量的24h時間變異性為13.71%,即污染不變時風(fēng)險的變異系數(shù)為13.71%.在空間變化方面,存在明顯的密集區(qū)和稀疏區(qū).例如,在圖中標(biāo)注的著名商業(yè)中心,新街口商業(yè)區(qū),人口密度極大;并且除商業(yè)娛樂活動密集外,新街口也是南京重要的交通樞紐,南京地鐵一號線和二號線縱橫交叉穿過此地區(qū),大量人群在新街口地鐵站換乘地鐵.這導(dǎo)致該地區(qū)部分網(wǎng)格的小時平均最大人口密度達(dá)到了40.42萬人/km2,是整個研究區(qū)域平均值的幾十倍,也即承載著幾十倍的PM2.5暴露風(fēng)險.以上發(fā)現(xiàn)再次印證了手機信令數(shù)據(jù)高時空分辨率的優(yōu)勢[8]以及采用高精度手機信令數(shù)據(jù)模擬高強度、高精度的人口變化情況對于科學(xué)量化人群PM2.5暴露風(fēng)險的重要意義[10].
圖2 典型時段的平均人口分布
隨機森林模型十折交叉驗證的結(jié)果表明,模型的2為0.76,斜率為1.04,RMSE為15.37,MPE為10.94,RPE為34.93%,模型的準(zhǔn)確度和精確度都較高,與之前的研究相當(dāng)[13,18,32].根據(jù)Gini系數(shù)重要性度量標(biāo)準(zhǔn),風(fēng)速(43%)、能見度(25%)、露點溫度(10%)、溫度(10%)、人口流動(3%)是影響PM2.5濃度模擬最重要的5個變量,貢獻了Gini系數(shù)下降量91%的比重.其中,風(fēng)速、能見度、溫度、露點溫度為直接影響PM2.5擴散條件的氣象參數(shù)[33].此外,人口流動作為影響PM2.5濃度的重要要素,印證了之前的假設(shè),即人口流動伴隨的能源消耗可能會影響PM2.5的排放[6].
圖3展示了研究區(qū)域典型時段的平均PM2.5濃度分布.隨機森林模型的引入成功的豐富了PM2.5監(jiān)測的空間覆蓋度,更好地捕捉了城市內(nèi)部PM2.5濃度的時空差異.在時間趨勢方面,PM2.5濃度在6:00~ 18:00處于上升狀態(tài),21:00達(dá)到最高值56.15μg/m3,之后處于下降狀態(tài).與南京市地面監(jiān)測站點的表現(xiàn)相一致,也與其它案例研究一致[34].露點溫度與PM2.5濃度變化趨勢類似.與此相反,風(fēng)速、溫度和邊界層高度在6:00~21:00處于下降狀態(tài),21:00之后數(shù)值逐漸上升.而能見度在白天具有較大的波動,在夜晚一直處于較低值.在空間分布方面,存在明顯的清潔區(qū)和污染區(qū),比如西部沿江地區(qū)的污染物濃度普遍低于東部商業(yè)集中區(qū);另一方面,高低污染物地區(qū)也伴隨時間的變化逐漸遷移、轉(zhuǎn)變.比如在18:00的通勤高峰時段,市中心沿道路斑塊狀的----高污染地區(qū)呈現(xiàn)向外輻射的趨勢.
圖3 典型時段的平均PM2.5濃度分布(歸一值)
圖4 白天夜晚各天氣類型下PM2.5濃度的抖動圖和箱線圖
虛線分別為白天和夜晚PM2.5濃度的平均值
此外,天氣類型也是影響PM2.5濃度的重要因素.圖4展示了白天和夜晚各天氣類型下12h平均PM2.5濃度的抖動圖和箱線圖.夜晚的平均濃度高于白天.陣雨天氣除外的下雨天氣,PM2.5濃度偏低.晴天時PM2.5濃度分布較為集中,多云和陰天時PM2.5濃度分布較為離散,說明了多云和陰天天氣對PM2.5濃度的影響較為復(fù)雜.此外,風(fēng)速對PM2.5濃度影響較為顯著,當(dāng)風(fēng)速為1~2級時(藍(lán)色散點),PM2.5濃度均處于各天氣類型組中的高值,當(dāng)風(fēng)速為4~5級時(紅色散點),PM2.5濃度均處于各天氣類型組中的低值.總體而言,天氣類型、風(fēng)速、邊界層高度、能見度、溫度和濕度等多種因素會對PM2.5濃度變化產(chǎn)生較大影響.
圖5 PM2.5濃度分布直方圖及非參數(shù)分位數(shù)圖----示法擬合的PM2.5濃度分布散點圖
對逐小時所有網(wǎng)格內(nèi)PM2.5濃度數(shù)值的分布逐個進行識別后發(fā)現(xiàn),PM2.5濃度分布類型可劃歸為4種主要類型:正態(tài)分布、偏正態(tài)分布、雙峰分布和多峰分布.圖5a中的直方圖展示了PM2.5濃度分布4種分類的典型案例.基于上述定性的分類,使用分位數(shù)圖示法,分別對逐時污染濃度概率密度分布進行模擬和驗證,案例結(jié)果如圖5b.分位數(shù)圖示法基本分布在=的直線上,說明探索的經(jīng)驗分布函數(shù)對于樣本分布有較好的表征效果.統(tǒng)計結(jié)果表明,82%的時間滿足正態(tài)或者偏正態(tài)分布,即PM2.5濃度處于中等水平的地區(qū)較多,而處于高、低濃度段的地區(qū)較少.16%的時間概率密度函數(shù)出現(xiàn)了多個峰值,其中73%出現(xiàn)在晚上(18:00~第2天6:00).南京市應(yīng)著重關(guān)注夜晚復(fù)雜的空氣污染狀況,提前做好應(yīng)急措施,降低突發(fā)大氣污染事件對人群健康的影響.
圖6展示了PM2.5暴露風(fēng)險特征的K-mean聚類典型案例,可劃歸為4種分類方法:(1)人口流動主導(dǎo)模式:兩類地區(qū)具有相似PM2.5濃度,但人口流動數(shù)量有顯著差異,高人口流動地區(qū)具有較高風(fēng)險;(2)污染主導(dǎo)模式:兩類地區(qū)具有相似人口流動情況,但PM2.5濃度有顯著差異,高污染地區(qū)具有較高風(fēng)險;(3)高污染高流動模式(低污染低流動模式):高(低)污染地區(qū)和高(低)人口流動地區(qū)重合,兩者疊加具有較高(低)風(fēng)險;(4)高污染低流動模式(低污染高流動模式):高(低)污染地區(qū)和低(高)人口流動地區(qū)重合,風(fēng)險水平需結(jié)合實際數(shù)據(jù)計算.
風(fēng)險受體主導(dǎo)模式出現(xiàn)頻次達(dá)89次,占所有類型的15%,污染主導(dǎo)模式占據(jù)5%,高污染高流動(低污染低流動)模式占據(jù)35%,高污染低流動(低污染高流動)模式占據(jù)44%.單因素主導(dǎo)類型出現(xiàn)的頻次最少,總計占據(jù)20%.大部分情況下,暴露風(fēng)險受到受體分布和污染分布的雙重影響.
圖6 PM2.5暴露聚類模式歸納
每個網(wǎng)格的主導(dǎo)暴露風(fēng)險分類結(jié)果見圖7a.經(jīng)過分類匯總和最大概率篩選后,網(wǎng)格受兩種分類方法主導(dǎo),分別為高污染高流動模式(低污染低流動模式)和高污染低流動模式(低污染高流動模式).說明在城市復(fù)雜的環(huán)境下,人口暴露風(fēng)險特征受到人口流動和PM2.5污染濃度的共同影響.其中,研究區(qū)域6.5%的面積更高概率出現(xiàn)高污染高流動模式,45.4%的面積呈現(xiàn)高污染低流動模式,25.1%的面積呈現(xiàn)低污染高流動模式,23.0%呈現(xiàn)低污染低流動模式.高風(fēng)險主要集中在南京市的市中心,如新街口、夫子廟、大行宮等地區(qū);低風(fēng)險地圖主要集中在西北和東北的長江、玄武湖地區(qū).
此外,4個典型時段的主導(dǎo)暴露風(fēng)險分類結(jié)果見圖7b,存在較明顯的時空異質(zhì)性.其中,6:00幾乎不存在高污染高流動模式,不論是受體還是PM2.5濃度都處于一天中的較低值.0:00和18:00暴露風(fēng)險類型和總體的分布較為相似,高污染高流動和低污染低流動的空間覆蓋范圍均較小.12:00時高污染高流動模式和低污染低流動模式的覆蓋面積都存在較為明顯的擴大,從典型時段的人口分布和PM2.5濃度分布也可觀察到兩者高值和低值分別的高度重復(fù).因此,需要針對特定時段的風(fēng)險分布特征動態(tài)調(diào)整PM2.5風(fēng)險重點管控的區(qū)域.
圖7 總體和典型時段PM2.5暴露聚類地圖
3.1.1 創(chuàng)新性地采用手機信令數(shù)據(jù)提取風(fēng)險受體,即人口流動的時空分布特征,相比傳統(tǒng)靜態(tài)人口模擬的方法,提高了其分布的時空分辨率.人口流動性風(fēng)險的引入為高異質(zhì)性人群暴露風(fēng)險特征的識別提供堅實的數(shù)據(jù)基礎(chǔ).
3.1.2 引入人口流動作為表征交通能源消耗的替代指標(biāo)納入隨機森林PM2.5濃度預(yù)測模型中,發(fā)現(xiàn)人口流動為重要特征之一,可提高模型的模擬效果.此外,隨機森林算法可以較好的實現(xiàn)對PM2.5時空分布的模擬,模擬結(jié)果的2達(dá)到0.76.
3.1.3 采用非參數(shù)學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的方法,對南京市PM2.5污染和人群PM2.5暴露風(fēng)險進行了科學(xué)的分析和刻畫.成功識別出南京市區(qū)內(nèi)的4種主要污染特征和4種主要風(fēng)險模式,發(fā)現(xiàn)復(fù)雜污染特征主要出現(xiàn)在晚上,高風(fēng)險主要出現(xiàn)在新街口、夫子廟、大行宮等地區(qū).總體看來,研究區(qū)域6.5%的面積為高風(fēng)險,23.0%的面積為低風(fēng)險,而剩余70.5%面積的風(fēng)險需要具體問題具體分析.
引入了手機信令大數(shù)據(jù)、氣象數(shù)據(jù)、土地數(shù)據(jù)等多源數(shù)據(jù)對人群PM2.5暴露風(fēng)險開展了精細(xì)化模擬,為多源大數(shù)據(jù)融合支撐環(huán)境研究提供了示范.引入大數(shù)據(jù)機器學(xué)習(xí)算法實現(xiàn)了城市環(huán)境風(fēng)險的評估和特征精準(zhǔn)化刻畫,為精準(zhǔn)網(wǎng)格化風(fēng)險管理提供了助力和手段.“十四五”期間我國大氣污染防控可融合移動通訊等現(xiàn)代科學(xué)技術(shù),對城市環(huán)境風(fēng)險開展高精度、高頻率實時監(jiān)測,為政府的環(huán)境風(fēng)險調(diào)控、應(yīng)急管理和風(fēng)險交流提供數(shù)據(jù)支撐.
“十四五”期間我國大氣污染防控目標(biāo)需要根據(jù)污染和暴露風(fēng)險特征優(yōu)化設(shè)計.研究發(fā)現(xiàn),人口流動、污染和暴露風(fēng)險特征具有時空異質(zhì)性,需要在識別出的重點污染時段和高風(fēng)險地區(qū)制定差異化的PM2.5污染控制措施.研究區(qū)PM2.5暴露風(fēng)險管控的優(yōu)先次序為高污染高流動地區(qū)>高污染低流動和低污染高流動地區(qū)>低污染低流動地區(qū).其中,建議將高污染高流動地區(qū)列入空氣污染重點管控地區(qū),引入網(wǎng)格化微型監(jiān)測站等新型監(jiān)測單元,構(gòu)建現(xiàn)代環(huán)境空氣質(zhì)量的檢測和預(yù)警預(yù)報平臺,對空氣質(zhì)量變化情況進行及時預(yù)警,從而實現(xiàn)區(qū)域污染的網(wǎng)格化檢測、準(zhǔn)確監(jiān)控和精準(zhǔn)執(zhí)法.
[1] Ma Z,Hu X,Huang L,et al. Estimating ground-level PM2.5in China using satellite remote sensing [J]. Environmental Science & Technology,2014,48(13):7436-7444.
[2] 朱翠云,何 清,趙竹君,等.烏魯木齊市區(qū)與南郊山區(qū)顆粒物污染特征對比分析 [J]. 中國環(huán)境科學(xué),2022:1-17.
Zhu C,He Q,Zhao Z,et al. Comparative analysis of particulate pollution characteristics between Urumqi urban area and southern mountainous area [J]. China Environmental Science,2022:1-17.
[3] 阮芳芳,曾賢剛,段存儒.基于城市面板數(shù)據(jù)的PM2.5對公共健康的影響 [J]. 中國環(huán)境科學(xué),2020,40(12):5451-5458.
Ruan F,Zeng X,Duan C. Influence of PM2.5pollution on public health based on urban panel data [J]. China Environmental Science,2020,40(12):5451-5458.
[4] Liu M,Huang Y,Ma Z,et al. Spatial and temporal trends in the mortality burden of air pollution in China: 2004~2012 [J]. Environmental International,2017,98:75-81.
[5] He C Y,Han L J,Zhang R Q. More than 500 million Chinese urban residents (14% of the global urban population) are imperiled by fine particulate hazard [J]. Environmental Pollution,2016,218:558-562.
[6] Shen H,Tao S,Chen Y,et al. Urbanization-induced population migration has reduced ambient PM2.5concentrations in China [J]. Science Advances,2017,3(7): e1700300.
[7] Silva R A,West J J,Lamarque JF,et al. Future global mortality from changes in air pollution attributable to climate change [J]. Nature Climate Change,2017,7(9):647.
[8] Deville P,Linard C,Martin S,et al. Dynamic population mapping using mobile phone data [J]. PNAS,2014,111(45):15888-15893.
[9] Dewulf B,Neutens T,Lefebvre W,et al. Dynamic assessment of exposure to air pollution using mobile phone data [J]. International Journal of Health Geographics,2016,15:14.
[10] Nyhan M,Grauwin S,Britter R,et al. "Exposure Track" The impact of mobile-device-based mobility patterns on quantifying population exposure to air pollution [J]. Environmental Science & Technology,2016,50(17):9671-9681.
[11] Wang F,Ren J,Liu J,et al. Spatial correlation network and population mobility effect of regional haze pollution: Empirical evidence from Pearl River Delta urban agglomeration in China [J]. Environment,Development and Sustainability,2021,23(11):15881-15896.
[12] Kloog I,Chudnovsky A A,Just A C,et al. A new hybrid spatio- temporal model for estimating daily multi-year PM2.5concentrations across northeastern USA using high resolution aerosol optical depth data [J]. Atmospheric Environment,2014,95:581-590.
[13] Ma Z,Hu X,Sayer A M,et al. Satellite-based spatiotemporal trends in PM2.5concentrations: China,2004~2013 [J]. Environmental Health Perspectives,2016,124(2):184-192.
[14] Gupta P,Christopher S A. Particulate matter air quality assessment using integrated surface,satellite,and meteorological products: A neural network approach [J]. Journal of Geophysical Research- Atmospheres,2009,114(D20):205.
[15] 梁 澤,王玥瑤,岳遠(yuǎn)紊,等.耦合遺傳算法與RBF神經(jīng)網(wǎng)絡(luò)的PM2.5濃度預(yù)測模型 [J]. 中國環(huán)境科學(xué),2020,40(2):523-529.
Liang Z,Wang Y,Yue Y,et al. A coupling model of genetic algorithm and RBF neural network for the prediction of PM2.5concentration [J]. China Environmental Science,2020,40(2):523-529.
[16] Reid C E,Jerrett M,Petersen M L,et al. Spatiotemporal prediction of fine particulate matter during the 2008 Northern California wildfires using machine learning [J]. Environmental Science & Technology,2015,49(6):3887-3896.
[17] Di Q,Koutrakis P,Schwartz J. A hybrid prediction model for PM2.5mass and components using a chemical transport model and land use regression [J]. Atmospheric Environment,2016,131:390-399.
[18] Hu X F,Belle J H,Meng X,et al. Estimating PM2.5concentrations in the conterminous United States using the random forest approach [J]. Environmental Science & Technology,2017,51(12):6936-6944.
[19] Li R,Mei X,Wei L,et al. Study on the contribution of transport to PM2.5in typical regions of China using the regional air quality model RAMS-CMAQ [J]. Atmospheric Environment,2019,214:116856.
[20] 劉文軍,鄭國義,田 學(xué),等.西安市PM2.5相關(guān)因素多元回歸分析模型 [J]. 經(jīng)濟數(shù)學(xué),2015,32(1):85-88.
Liu W,Zheng G,Tian X. PM2.5factors associated with multivariate regression analysis model in Xi'an [J]. Journal of Quantitative Economics,2015,32(1):85-88.
[21] 盧月明,王 亮,仇阿根,等.一種基于主成分分析的協(xié)同克里金插值方法 [J]. 測繪通報,2017(11):51,57-63.
Lu M,Wang L,Qiu A. A CoKriging interpolation method based on principal component analysis [J]. Bulletin of Surveying and Mapping,2017(11):51,57-63.
[22] Vaidyanathan A,Dimmick W F,Kegler S R,et al. Statistical air quality predictions for public health surveillance: evaluation and generation of county level metrics of PM2.5for the environmental public health tracking network [J]. International Journal of Health Geographics,2013,12:12.
[23] Pozdnoukhov A,Kanevski M. Monitoring network optimisation for spatial data classification using support vector machines [J]. International Journal of Environment and Pollution,2006,28(3/4): 465-484.
[24] Kaburlasos V G,Athanasiadis I N,Mitkas P A. Fuzzy lattice reasoning (FLR) classifier and its application for ambient ozone estimation [J]. International Journal of Approximate Reasoning,2007,45(1):152-188.
[25] Sfetsos A,Vlachogiannis D. A new approach to discovering the causal relationship between meteorological patterns and PM10exceedances [J]. Atmospheric Research,2010,98(2-4):500-511.
[26] 中國環(huán)境監(jiān)測總站.全國城市空氣質(zhì)量實時發(fā)布平臺.
China National Environmental Monitoring Centre. National air quality real-time release platform.
[27] 中國氣象局.中國地面氣象站逐小時觀測資料. http://data.cma.cn/.
China Meteorological Administration. Hourly observation data from stationary meteorological sites. http://data.cma.cn/.
[28] Geofabrik. Open street map. https://www.openstreetmap.org/.
[29] 中國科學(xué)院地理科學(xué)與資源研究所.資源環(huán)境科學(xué)與數(shù)據(jù)中心. https://www.resdc.cn/.
Institute of Geographic Sciences and Natural Resources Research. Resource and environment science and data center. https://www. resdc.cn/.
[30] Svetnik V,Liaw A,Tong C,et al. Random forest: A classification and regression tool for compound classification and QSAR modeling [J]. Journal of Chemical Information and Computer Sciences,2003,43(6): 1947-1958.
[31] Cutler D R,Edwards T C,Beard K H,et al. Random forests for classification in ecology [J]. Ecology,2007,88(11):2783-2792.
[32] Shao Y,Ma Z,Wang J,et al. Estimating daily ground-level PM2.5in China with random-forest-based spatiotemporal kriging [J]. Science of the Total Environment,2020,740:139761.
[33] 李名升,任曉霞,于 洋,等.中國大陸城市PM2.5污染時空分布規(guī)律 [J]. 中國環(huán)境科學(xué),2016,36(3):641-650.
Li M,Ren X,Yu Y. Spatiotemporal pattern of ground-level fine particulate matter (PM2.5) pollution in mainland China [J]. China Environmental Science,2016,36(3):641-650.
[34] 許 珊,鄒 濱,胡晨霞.面向場景的城市PM2.5濃度空間分布精細(xì)模擬 [J]. 中國環(huán)境科學(xué),2019,39(11):4570-4579.
Xu S,Zou B,Hu C. Urban scene-oriented simulation of the spatial distribution of PM2.5concentration in an intra-urban area at fine scale [J]. China Environmental Science,2019,39(11):4570-4579.
Risk assessment of PM2.5pollution based on machine learning and nonparametric estimation.
ZHOU Qi1,2,YU Yang3,LIU Miao-miao1*,BI Jun1
(1.State Key Laboratory of Pollution Control and Resource Reuse,School of the Environment,Nanjing University,Nanjing 210023,China;2.School of Environment,Tsinghua University,Beijing 100084,China;3.Institute for Interdisciplinary Information Sciences,Tsinghua University,Beijing 100084,China).,2022,42(8):3554~3560
A systematic approach of regional PM2.5risk and characterization assessment was developed in this study by integrating random forest model,Quantile-Quantile plot model,and K-mean model,based on multi-source data including mobile phone signals,meteorological data,geographic data,etc. This new approach was further applied in a case study of Nanjing at a 0.3km resolution grid. On the one hand,this new approach effectively simulated the temporal and spatial distribution of the PM2.5concentration with an10-fold cross-validation2of 0.76 and screened out four major pollution characteristics. On the other hand,it effectively captured the short-term population mobility risk. Short-term population mobility increased the PM2.5exposure risk by 0.30~0.97 times,even keeping PM2.5concentration unchanged. After combining PM2.5concentration and population mobility simultaneously,four major PM2.5exposure risk modes were identified. 6.5% of the areas of Nanjing were at high risk,and 23.0% were at low risk. During the 14thFive Year Plan,it is suggested that the government should speed up the application of modern science and technology in environmental protection and implement gridding and differentiated policies on air pollution risk control to promote human health.
PM2.5;machine learning;non-parametric estimation;exposure risk assessment;feather recognition
X513,X823
A
1000-6923(2022)08-3554-07
2021-12-27
國家自然科學(xué)基金資助項目(72174084);國家自然科學(xué)基金資助項目(71761147002);中央高?;究蒲袠I(yè)務(wù)費(0211-14380171)
* 責(zé)任作者,副教授,liumm@nju.edu.cn
周 琪(1994-),女,江蘇徐州人,博士后,主要從事環(huán)境健康和環(huán)境管理研究.發(fā)表論文9篇.