劉世澤,范書瑞,劉權(quán)鋒,賈穎淼
(1.北京航空航天大學(xué) 軟件學(xué)院,北京 100191;2.河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401)
隨著城市化的發(fā)展,空氣質(zhì)量也必然會(huì)受到影響,而環(huán)境質(zhì)量問題也逐漸受到了人們的關(guān)注[1]?,F(xiàn)如今,大數(shù)據(jù)已經(jīng)成為時(shí)代的熱潮,城市中的空氣質(zhì)量數(shù)據(jù)主要來自當(dāng)?shù)氐目諝赓|(zhì)量監(jiān)測站,這些站點(diǎn)負(fù)責(zé)對空氣質(zhì)量進(jìn)行自動(dòng)檢測和數(shù)據(jù)的自動(dòng)存儲(chǔ),在城市的環(huán)境空氣質(zhì)量和污染源的研究分析中,都起到了非常重要的作用[2]??梢暬夹g(shù)[3]有助于解決在大數(shù)據(jù)環(huán)境下難以尋找數(shù)據(jù)之間聯(lián)系的問題。通過各種便于觀察的可視化圖形來觀察擁有的數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的多種規(guī)律,這樣可以便于相關(guān)的科研人員結(jié)合獲得的數(shù)據(jù)來對環(huán)境問題提出很好的解決方法。
1984年,全國環(huán)境監(jiān)測工作會(huì)議提出“監(jiān)測站點(diǎn)網(wǎng)絡(luò)化、采樣布點(diǎn)規(guī)范化、分析方法標(biāo)準(zhǔn)化、處理數(shù)據(jù)計(jì)算機(jī)化、質(zhì)量保證系統(tǒng)化”的目標(biāo)[4],并于1999年確定建設(shè)城市空氣質(zhì)量自動(dòng)監(jiān)測系統(tǒng)。
目前,在中國已經(jīng)形成了4級環(huán)境監(jiān)測網(wǎng)絡(luò),一共有4 000多個(gè)監(jiān)測站點(diǎn),包括專業(yè)監(jiān)測站點(diǎn)和行業(yè)監(jiān)測站點(diǎn),其中有2 000多個(gè)監(jiān)測站點(diǎn)負(fù)責(zé)環(huán)保系統(tǒng)監(jiān)測,有2 600多個(gè)站點(diǎn)主要負(fù)責(zé)行業(yè)檢測。有103個(gè)國家級環(huán)境監(jiān)測站,113個(gè)酸雨監(jiān)測站點(diǎn),135個(gè)水質(zhì)量監(jiān)測站點(diǎn)。除此之外,還有區(qū)域檢測網(wǎng)、噪聲監(jiān)測網(wǎng)等監(jiān)測系統(tǒng)[5]。
到2005年,中國環(huán)境監(jiān)測控制網(wǎng)絡(luò)做出了調(diào)整[6],在之前的基礎(chǔ)上對監(jiān)測站的數(shù)量有所增加。其中環(huán)境空氣監(jiān)測調(diào)整為226個(gè),監(jiān)測點(diǎn)的數(shù)量為793個(gè)。酸雨檢測系統(tǒng)為239個(gè),監(jiān)測點(diǎn)數(shù)為472個(gè);調(diào)整升級197個(gè)水質(zhì)檢測系統(tǒng),監(jiān)測斷面1 000余個(gè);生態(tài)監(jiān)測系統(tǒng)15個(gè)。
目前,中國針對環(huán)境問題已經(jīng)制定了400多項(xiàng)環(huán)境標(biāo)準(zhǔn)[7],其中包括土壤、水質(zhì)、噪聲、輻射、固體廢物等領(lǐng)域。并且已經(jīng)開展了很多項(xiàng)應(yīng)急監(jiān)測,包括環(huán)境質(zhì)量、環(huán)境周報(bào)、日報(bào)、污染源搜索、污染源控制等監(jiān)測項(xiàng)目。
現(xiàn)主要研究空氣中PM2.5污染性氣體的分布情況,結(jié)合當(dāng)?shù)囟鄠€(gè)氣體檢測站點(diǎn)的檢測情況,對收集到的氣體整理分析。尋找一種新的處理大量數(shù)據(jù)的方法,利用Python對[8]已有數(shù)據(jù)進(jìn)行數(shù)據(jù)處理及數(shù)據(jù)可視化[9]。將很多地區(qū)看作一個(gè)單位,即把唐山地區(qū)所有的覆蓋氣體檢測站點(diǎn)的地區(qū)看作一個(gè)整體來研究唐山地區(qū)的空氣質(zhì)量情況。利用熱力圖以及散點(diǎn)圖對唐山地區(qū)空氣質(zhì)量情況進(jìn)行可視化,比較分析兩種方法的區(qū)別,同時(shí)對污染氣體之間的相關(guān)性進(jìn)行分析。
獲得監(jiān)測站點(diǎn)空氣質(zhì)量數(shù)據(jù)后,首先利用Python對數(shù)據(jù)進(jìn)行處理,主要涉及的方法為k-means聚類算法以及numpy庫和Pandas庫,對數(shù)據(jù)進(jìn)行合理的整理整合。
k-means聚類算法[10]也稱k均值聚類算法,是一種基于距離的聚類算法。通過對已有數(shù)據(jù)中給出的經(jīng)緯度位置,再通過迭代的方式把所有站點(diǎn)分為幾個(gè)小區(qū)域,數(shù)據(jù)整理則以達(dá)到可以直接使用的標(biāo)準(zhǔn)。數(shù)據(jù)整理則對已有數(shù)據(jù)按照站點(diǎn)名稱和氣體采集時(shí)間的標(biāo)準(zhǔn),對數(shù)據(jù)分類,為可視化作圖做準(zhǔn)備。
可視化部分的研究方法同樣以Python為基礎(chǔ),利用Pyecharts等工具,結(jié)合數(shù)據(jù)繪制熱力圖和散點(diǎn)圖,分析比較兩種顯示方法的優(yōu)缺點(diǎn)。除此之外,對于空氣中各項(xiàng)污染氣體的研究使用特征相關(guān)性熱力圖分析方法,可求得各個(gè)氣體成分之間的相關(guān)系數(shù),并繪制出相關(guān)性熱力圖。通過對比各種污染性氣體之間的相關(guān)性,可以得到更加科學(xué)的環(huán)境治理方法。可視化研究流程如圖1所示。
圖1 可視化研究流程
研究區(qū)域?yàn)樘粕降貐^(qū)。唐山地區(qū)為河北省地級市,位于華北平原東部,渤海灣北岸。近幾年,京津冀地區(qū)空氣污染情況嚴(yán)重,大部分地區(qū)的霧霾天氣已經(jīng)嚴(yán)重影響城市居民的生活。在此情況下,唐山在全市內(nèi)中車、唐山鋼鐵、豐潤污水處理廠、中煤集團(tuán)等代表性地區(qū)設(shè)立了400個(gè)微型空氣質(zhì)量觀測站,以及在唐山供銷社、雷達(dá)站、物資局、陶瓷公司等重點(diǎn)地區(qū)設(shè)立了6個(gè)國家控制空氣質(zhì)量檢測站。獲得了唐山地區(qū)2018年2—4月400個(gè)微型站和6個(gè)國控站空氣成分?jǐn)?shù)據(jù)情況,其中包括AQI、PM10、PM2.5、NO2以及空氣溫度、濕度等數(shù)據(jù)值,去掉數(shù)據(jù)中的部分空缺值,將數(shù)據(jù)處理后合理利用,進(jìn)行可視化分析。
研究唐山地區(qū)大氣污染物的時(shí)空分布包括時(shí)間和空間,數(shù)據(jù)需要從時(shí)間、空間兩方面進(jìn)行處理。對反映空氣質(zhì)量的數(shù)值進(jìn)行時(shí)空分布可視化,可以直觀地看出該地區(qū)空氣質(zhì)量發(fā)展情況和分布情況[11]。在時(shí)間上,將唐山地區(qū)400個(gè)站點(diǎn)的數(shù)據(jù)全部篩選出來并存到csv文件中,對每一個(gè)站點(diǎn)的某一段時(shí)間內(nèi)的變化進(jìn)行分析;在空間上,則是對相同時(shí)間段內(nèi)的不同站點(diǎn)進(jìn)行分析,繪制出唐山所有站點(diǎn)在地圖上的數(shù)據(jù)可視化圖。進(jìn)行時(shí)間處理后的數(shù)據(jù)見表1,空間處理后的數(shù)據(jù)見表2。
表1 時(shí)間處理后的數(shù)據(jù)
表2 空間處理后的數(shù)據(jù)
k-means聚類算法是一種反復(fù)迭代求解集合分析算法,其階段首先將數(shù)據(jù)分為k組,然后隨機(jī)選擇k個(gè)對象,計(jì)算所有對象和所有種子的中心距離,將所有對象安排在最近的集群中心和分配對象表示一簇,每次分配樣品時(shí),根據(jù)集群中的現(xiàn)有對象重新計(jì)算集群中心。此過程會(huì)反復(fù)到滿足結(jié)束條件為止,終止條件為不再有新的點(diǎn)被分到某個(gè)類別,所有的聚類中心不會(huì)再產(chǎn)生數(shù)量和大小上的變化。
聚類算法過程如下:
1)選擇k個(gè)對象,把這k個(gè)對象作為初始聚類中心,計(jì)算每個(gè)個(gè)體和種子組的中心距離,每個(gè)對象被指定為最接近的群體。聚類的中心點(diǎn)和分配給他的所有的點(diǎn)就表示一個(gè)聚類群。
2)在分配好所有的點(diǎn)之后,聚類的中心和分配對象根據(jù)內(nèi)部物體重新計(jì)算每個(gè)組的中心,這一過程一直重復(fù),直到完成條件得到滿足。滿足的條件可以是下面的任意一個(gè):①不再有新的點(diǎn)分配到某一個(gè)類群;②類群在數(shù)量和大小上不再發(fā)生變化;③誤差平方和局部最小。
利用k-means聚類將所有的站點(diǎn)進(jìn)行聚類,分出合適的類群后,對每一個(gè)小類進(jìn)行空氣質(zhì)量分析。這對于處理龐大數(shù)據(jù)來說是一個(gè)很方便的做法。
通過對k值的多次嘗試,結(jié)合當(dāng)?shù)乜諝赓|(zhì)量監(jiān)測站點(diǎn)的數(shù)量,最后確定在k=8時(shí)分出的類群最合適,如圖2所示,將所有站點(diǎn)分為8類,大幅度減少因數(shù)據(jù)過大造成的使用不便,后期數(shù)據(jù)的使用將會(huì)更加方便快捷。
圖2 k-means聚類效果
Python為用戶繪制散點(diǎn)圖提供了多種多樣的形式,包括Folium提供的交互式散點(diǎn)圖、Pyecharts提供的可選擇世界任何地方的地圖。
利用Pyecharts庫進(jìn)行散點(diǎn)圖的繪制時(shí),選取唐山地區(qū)作為地圖背景設(shè)置相關(guān)參數(shù),為便于觀察,在可視化中對不同濃度的點(diǎn)進(jìn)行了不同顏色的顯示,圖中加了可調(diào)節(jié)顯示功能,通過讀取csv文件中最大值和最小值,自動(dòng)確定濃度范圍。圖3為調(diào)節(jié)PM2.5濃度在2月和3月不同濃度區(qū)間的分布圖。
結(jié)合圖3中顯示點(diǎn)的地區(qū)以及2月和3月對比可分析出,榮義焦化廠、印刷廠、鋼鐵廠等建筑物周圍PM2.5濃度過高,這些地區(qū)污染物排放較多,環(huán)境較差,對空氣質(zhì)量產(chǎn)生影響;而唐門一品、寫字樓、高速口等地的PM2.5的濃度處于較良好的情況,PM2.5呈現(xiàn)較低狀態(tài),原因?yàn)樽≌瑓^(qū)重工業(yè)較少,污染物排放較低,而高速口雖有汽車流動(dòng),但處于較偏遠(yuǎn)地區(qū),地勢空曠,環(huán)境較好。可以得知,人們的生活規(guī)律以及企業(yè)的工作內(nèi)容對空氣質(zhì)量的影響非常大,工業(yè)區(qū)密集的地方污染尤其嚴(yán)重。
圖3 PM2.5分布散點(diǎn)圖
Folium庫可支持API接口調(diào)用,利用Folium庫去實(shí)現(xiàn)可視化,可以調(diào)用百度地圖,將唐山各站點(diǎn)數(shù)據(jù)導(dǎo)入到地圖中,同樣可以隨時(shí)觀測每一個(gè)站點(diǎn)的數(shù)據(jù)情況,包括站點(diǎn)名稱和PM2.5濃度值。相對于上文提到的Pyecharts繪制的地圖,F(xiàn)olium庫調(diào)用的地圖背景更加詳細(xì),可以清晰地顯示唐山各個(gè)街道、住宅小區(qū)、高速公路以及各鄉(xiāng)縣的情況??梢酝ㄟ^當(dāng)?shù)氐慕ㄖ闆r和周邊環(huán)境,結(jié)合該站點(diǎn)的PM2.5濃度值,分析該地區(qū)周圍的環(huán)境質(zhì)量問題,如圖4所示,點(diǎn)擊站點(diǎn),可以清晰地顯示出站點(diǎn)信息和PM2.5濃度。
圖4 交互式散點(diǎn)圖
在時(shí)間上分析唐山空氣質(zhì)量情況,選取了唐山鋼鐵西方站點(diǎn)、新興隆鋼鐵西北角、嘉潤藍(lán)灣3個(gè)站點(diǎn),讀取站點(diǎn)2、3、4三個(gè)月的PM2.5濃度值,繪制出濃度變化曲線,如圖5所示,結(jié)合曲線分析出唐山地區(qū)在3月時(shí)PM2.5明顯高于2月和4月,可斷定在3月唐山地區(qū)空氣質(zhì)量較2月和4月來看相對較差。資料顯示,2018年3月份空氣質(zhì)量較差城市河北7城上榜,唐山倒數(shù)第一,隨后唐山15日20時(shí)采取應(yīng)急減排措施,要求在執(zhí)行非采暖季生產(chǎn)要求的前提下,鋼鐵企業(yè)燒結(jié)限產(chǎn)50%,在確保生產(chǎn)安全的前提下,焦化企業(yè)出焦時(shí)間延長至36 h,鑄造行業(yè)全部停產(chǎn),極大地改善了空氣質(zhì)量。
圖5 PM2.5濃度變化曲線
利用Folium庫的Heatmap函數(shù)在地圖上進(jìn)行熱力圖的繪制,熱力圖將所有站點(diǎn)的濃度情況向周圍進(jìn)行了延伸,雖然和散點(diǎn)圖表現(xiàn)出了不同的效果,但是在圖形繪制的方法上卻和散點(diǎn)圖大同小異,同樣是讀取數(shù)據(jù)和把數(shù)據(jù)導(dǎo)入到地圖中,并設(shè)置相關(guān)參數(shù)。繪制的熱力圖如圖6所示。
圖6 唐山地區(qū)熱力圖
相對于散點(diǎn)圖對每一個(gè)點(diǎn)的精準(zhǔn)度,熱力圖更能表現(xiàn)出整個(gè)區(qū)域的PM2.5分布情況。通過地圖上不同濃度不同顏色的顯示,可以觀測出哪一部分的空氣污染物排放嚴(yán)重,然后結(jié)合該區(qū)域所包含的建筑物以及周圍環(huán)境,分析出導(dǎo)致環(huán)境質(zhì)量下降的原因。
本節(jié)主要對唐山6個(gè)國家控制站點(diǎn)的所有氣體統(tǒng)一對比分析,包括氣體的變化趨勢和氣體之間的相關(guān)性。將已有的數(shù)據(jù)整理出來,分別在一個(gè)月內(nèi)的空氣質(zhì)量變化趨勢、一周內(nèi)工作日和非工作日的空氣質(zhì)量變化趨勢、一天內(nèi)各個(gè)時(shí)間段的空氣質(zhì)量變化趨勢三方面進(jìn)行分析。主要以不同的時(shí)間作為背景,結(jié)合人們的出行習(xí)慣和工廠的運(yùn)作時(shí)間,分析各污染成分在時(shí)間上受到的不同影響,以此得出更加全面的、覆蓋性更強(qiáng)的結(jié)論,提出科學(xué)合理的治理方法。
圖7為唐山供銷社國控站2月份各氣體的變化趨勢,從圖可以看出,按照整個(gè)2月份趨勢來看,PM10和PM2.5在2月份的下半月濃度相對于上半月整體呈現(xiàn)出上漲的趨勢,但是也存在上下波動(dòng)較大的現(xiàn)象。除了PM2.5和PM10以外,其他的氣體如SO2、NO2、O3、CO這些在時(shí)間上整個(gè)月份來看并沒有太明顯的變化趨勢,都是在該月份內(nèi)上下波動(dòng)。因此如果以月份為參照對象對空氣質(zhì)量進(jìn)行時(shí)序變化的分析的話效果并不是很明顯,很難在其中發(fā)現(xiàn)變化規(guī)律。
圖7 國控站一個(gè)月內(nèi)氣體變化趨勢
圖8顯示的是供銷社站點(diǎn)從2月5日到2月11日一周內(nèi)的氣體成分變化趨勢。從圖中可以看出,在一周內(nèi)的周一到周五PM2.5、PM10、NO23種污染性氣體明顯增高。原因應(yīng)該是在這段時(shí)間大量工作人員的復(fù)工、工廠營業(yè)對空氣質(zhì)量的影響比較大。而周六、日很多居民會(huì)有雙休日,工作單位的生產(chǎn)量也會(huì)隨之降低,空氣質(zhì)量也會(huì)在這兩天得到改善。O3的濃度在工作日內(nèi)卻和其他氣體表現(xiàn)出了不同的趨勢,O3在周日以后呈現(xiàn)出了下降的趨勢,而在周二開始又逐漸上升,到了周五則提升到了最大值,然后一直在周六、日的休息日保持在了最大的濃度。
圖8 國控站一周內(nèi)氣體變化趨勢
圖9顯示的是供銷社站點(diǎn)在15日當(dāng)天24 h內(nèi)空氣中氣體的變化趨勢。從15日當(dāng)天情況來看,PM2.5和PM10在晚上有明顯上漲的趨勢,空氣中O3的成分則主要集中在下午,呈現(xiàn)出增加的狀態(tài),空氣濕度則在凌晨較高。也可以看出,在空氣濕度最高的一段時(shí)間內(nèi),PM2.5和PM10也是最低的時(shí)候,能看出空氣濕度對空氣中可吸入顆粒有很好的抑制效果。
圖9 國控站一天內(nèi)氣體變化趨勢
PM2.5、SO2、NO等氣體都是影響空氣質(zhì)量的重要因素,利用Seaborn庫繪制特征相關(guān)性熱力圖可以清晰地看出各個(gè)氣體之間存在的相關(guān)性。選取唐山十二中國控站點(diǎn)3月12日0點(diǎn)到23點(diǎn)這24 h的數(shù)據(jù)。數(shù)據(jù)包括24 h內(nèi)AQI、PM10、PM2.5、SO2、NO2、O3、CO 7項(xiàng)指標(biāo)的情況,并計(jì)算各個(gè)氣體之間的相關(guān)性,得到圖10所示的熱力圖。
圖10中橫縱坐標(biāo)全部為影響空氣質(zhì)量的變量,右側(cè)為相關(guān)系數(shù)范圍。相關(guān)系數(shù)在0~1區(qū)間的顏色逐漸漸變。顏色越深表示兩種變量之間的關(guān)系最大。在0~-1上顏色越深,負(fù)相關(guān)系數(shù)越大,兩種成分呈現(xiàn)出負(fù)相關(guān)的關(guān)系。一種變量增大,另一種變量會(huì)減小。
圖10 空氣成分特征相關(guān)性熱力圖
結(jié)合圖10,以PM2.5為例,其與AQI和PM10的相關(guān)性最高,其次與空氣溫度和濕度相關(guān)性也比較高。因?yàn)锳QI反映的是空氣質(zhì)量情況,所以可以得出PM2.5是影響空氣質(zhì)量的重要因素。同時(shí),SO2、NO2、O3、CO 4種氣體相互之間都呈正相關(guān),每一種氣體的增長,另一種氣體也會(huì)隨之呈現(xiàn)出不同程度的增長趨勢。
特征相關(guān)性熱力圖不僅可以分析出不同成分之間的正相關(guān)系數(shù),也能分析出不同成分之間的負(fù)相關(guān)系數(shù)。在圖中可以看出來,O3與AQI、PM10、PM2.53種變量呈現(xiàn)出負(fù)相關(guān),而SO2、NO2、CO與PM10、PM2.5表現(xiàn)出很小的相關(guān)性。
區(qū)域環(huán)境質(zhì)量可視化對于分析空氣質(zhì)量問題起到了方便快捷且直觀的效果,但是通過繪制散點(diǎn)圖和熱力圖兩種方法對比,產(chǎn)生了不同的效果,明顯感覺到兩種方法存在的差異。通過各種不同的可視化方法對唐山環(huán)境數(shù)據(jù)進(jìn)行分析,得到如下結(jié)論:
1)散點(diǎn)圖與熱力圖相比,散點(diǎn)圖可以直觀地顯示出某地區(qū)對環(huán)境造成的影響,繪制出來的地圖更加美觀,可用性更強(qiáng);熱力圖對空氣質(zhì)量分析不能提供非常直觀的效果,只能顯示一個(gè)模糊的范圍;交互式的散點(diǎn)圖則為區(qū)域環(huán)境質(zhì)量分析提供了很好的幫助,它可以隨時(shí)觀測站點(diǎn)的數(shù)據(jù)情況,結(jié)果直觀,效果最好。
2)季節(jié)性變化和地理位置的變化對空氣質(zhì)量的影響程度非常大,季節(jié)性的變化可能會(huì)通過影響人們的出行規(guī)律和企業(yè)的工作內(nèi)容間接影響空氣的污染程度。地理位置的變化則直接由于地區(qū)的建筑物情況、周圍污染排放源等問題導(dǎo)致空氣質(zhì)量受到影響。
3)通過對國控站各空氣成分的可視化對比分析可以看出,空氣質(zhì)量系數(shù)AQI與空氣中的PM2.5和PM10相關(guān)系數(shù)最大,由此可見影響空氣質(zhì)量的主要因素為空氣中可吸入顆粒,同時(shí)PM2.5和PM10兩種成分的相關(guān)系數(shù)也接近于1,可見兩種氣體的產(chǎn)生原因應(yīng)該存在一些關(guān)聯(lián),并在趨勢圖中兩種氣體的變化趨勢也表現(xiàn)出接近一致的狀態(tài)。