關(guān) 珊,朱家明,關(guān)趙陽,陶里彤琰
(1.安徽財(cái)經(jīng)大學(xué)金融學(xué)院,安徽 蚌埠 233030;2.安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
基于相關(guān)性聚類對城市空氣污染分析數(shù)據(jù)真實(shí)性的判別
關(guān) 珊1,朱家明2,關(guān)趙陽2,陶里彤琰1
(1.安徽財(cái)經(jīng)大學(xué)金融學(xué)院,安徽 蚌埠 233030;2.安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
目的 根據(jù)京津冀、長三角和珠三角等地區(qū)空氣污染數(shù)據(jù),構(gòu)建數(shù)學(xué)模型分析數(shù)據(jù)的真實(shí)性,利用污染物之間的相關(guān)性、變化的連續(xù)性,判定各城市的空氣質(zhì)量數(shù)據(jù)是否存在不真實(shí),并分析不真實(shí)的原因,為政府部門制定政策提供參考。方法 以3個(gè)地區(qū)為研究對象,在互聯(lián)網(wǎng)上查找到21個(gè)主要城市的空氣質(zhì)量污染數(shù)據(jù),并定義不同污染物的污染指數(shù)API和空氣質(zhì)量分指數(shù)IAQI,使用相關(guān)性聚類的方法將污染程度相似的城市進(jìn)行聚類劃分。以AQI指數(shù)為因變量,以代表性污染物指標(biāo)PM2.5、SO2和NO2為自變量,進(jìn)行多元線性回歸,來判斷觀測數(shù)據(jù)的異常點(diǎn)。結(jié)果 通過MATLAB和SPSS等軟件對21個(gè)城市的空氣污染數(shù)據(jù)處理分析,得出空氣質(zhì)量數(shù)據(jù)及污染物數(shù)據(jù)存在不真實(shí)情況。結(jié)論 提出通過定期對空氣質(zhì)量數(shù)據(jù)進(jìn)行觀測排查來辨別分析數(shù)據(jù)的真實(shí)性,同時(shí)通過大力整頓工業(yè)園區(qū)來改善空氣質(zhì)量。
空氣質(zhì)量;空氣污染物分析;多元回歸;相關(guān)性聚類;MATLAB;SPSS
空氣質(zhì)量始終是政府、環(huán)境保護(hù)部門和全國人民關(guān)注的熱點(diǎn)問題。2016年的兩會上,全國政協(xié)常委、環(huán)境保護(hù)部副部長吳曉青表示,政府工作報(bào)告中提出的今后5年地級及以上城市空氣質(zhì)量優(yōu)良天數(shù)比率(區(qū)域內(nèi)城鎮(zhèn)空氣質(zhì)量優(yōu)良以上的監(jiān)測天數(shù)占全年監(jiān)測總天數(shù)的比例)超過80%的目標(biāo)必須完成。然而,由于各種主客觀原因,會使所采集到的數(shù)據(jù)序列表現(xiàn)出一定的異?,F(xiàn)象。本文收集京津冀、長三角和珠三角等地區(qū)部分空氣污染數(shù)據(jù),運(yùn)用數(shù)學(xué)模型分析空氣質(zhì)量數(shù)據(jù)的真實(shí)性,利用污染物之間的相關(guān)性、變化的連續(xù)性確定21個(gè)地市的空氣質(zhì)量數(shù)據(jù)是否存在不真實(shí),并分析空氣污染數(shù)據(jù)不真實(shí)的原因。
數(shù)據(jù)來源于2015年中國國家統(tǒng)計(jì)局和統(tǒng)計(jì)年鑒。為了便于解決問題,提出以下假設(shè):(1)假設(shè)21個(gè)城市監(jiān)測點(diǎn)的空氣質(zhì)量數(shù)據(jù)足夠真實(shí)準(zhǔn)確;(2)假設(shè)文中設(shè)定原則的3個(gè)指標(biāo)能夠有效地反映空氣污染程度;(3)假設(shè)這21個(gè)監(jiān)測點(diǎn)分布比較均勻,能反映該市的整體空氣污染情況。
2.1 研究思路
空氣質(zhì)量的好壞取決于各種污染物中危害最大的污染物的污染程度??諝馕廴局笖?shù)是根據(jù)環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)和各項(xiàng)污染物對人體健康和生態(tài)環(huán)境的影響來確定污染指數(shù)的分級及相應(yīng)的污染物質(zhì)量濃度限值。根據(jù)中國城市空氣質(zhì)量日報(bào)中API分級限值標(biāo)準(zhǔn)確定21個(gè)地市污染指數(shù)的基本計(jì)算公式[1]。
2.2 研究方法
通過對數(shù)據(jù)的分析,發(fā)現(xiàn)數(shù)據(jù)比較離散且規(guī)律性不強(qiáng),為了得到規(guī)律性較為明顯的結(jié)果,在擬合過程中將幾個(gè)城市的空氣質(zhì)量數(shù)據(jù)和氣候數(shù)據(jù)進(jìn)行合并,并將空氣質(zhì)量情況分為優(yōu)、良、普通、不佳和差5類。目前中國所用的空氣指數(shù)范圍及相應(yīng)的空氣質(zhì)量級別見表1。
表1 空氣污染指數(shù)范圍及對應(yīng)的空氣質(zhì)量級別
首先以二氧化硫、氮氧化物和漂塵3個(gè)主要因素建立空氣污染指數(shù)模型,并采用污染物項(xiàng)目P的空氣質(zhì)量分指數(shù)計(jì)算函數(shù)。對空氣可吸入顆粒物指數(shù)進(jìn)行無量綱化,具體的計(jì)算函數(shù)為
(1)
式中:IAQIp表示項(xiàng)目P的空氣質(zhì)量分指數(shù);Cp表示污染物項(xiàng)目P的質(zhì)量濃度值;BPHi表示與Cp相近的污染物質(zhì)量濃度限值的高位值;BPLo表示與Cp相近的污染物質(zhì)量濃度限值的低位值;IAQILo表示與BPLo對應(yīng)的空氣質(zhì)量分指數(shù);IAQIHi表示與BPHi對應(yīng)的空氣質(zhì)量分指數(shù)。
然后對空氣污染指數(shù)進(jìn)行分限值與計(jì)算。 通過查閱中國城市空氣質(zhì)量日報(bào)得到API分級限值標(biāo)準(zhǔn)(表2)。
表2 空氣污染指數(shù)對應(yīng)的污染物質(zhì)量濃度限值(單位:mg·m-3)
由于污染指數(shù)是各項(xiàng)污染物濃度的分段線性函數(shù),設(shè)I為某污染物的污染指數(shù),C為該污染物的濃度,所以得到基本計(jì)算式:
(2)
其中,Cmax為在API分級限值表中最貼近監(jiān)測到的某種污染物質(zhì)量濃度C且大于C的限值;Cmin為在AQI分級限值表中最貼近監(jiān)測到的某種污染物質(zhì)量濃度C且小于C的限值;Imax為在AQI分級限值表中最貼近I且大于I的值;Imin為在API分級限值表中最貼近I且小于I的值。
同年的空氣污染指數(shù)API=max(I1,I2,…,I3)
(3)
將各污染物的市日均值分別代入API基本計(jì)算式, 求得每項(xiàng)污染物的AQI分指數(shù)。 取最大者為該區(qū)域的空氣污染指數(shù)AQI, 則該項(xiàng)污染物即為該區(qū)域或城市空氣中的首要污染物。 利用相同的方法對二氧化硫指數(shù)無量綱化處理, 使得能夠與二氧化氮的判斷標(biāo)準(zhǔn)相統(tǒng)一。 同樣采用污染物項(xiàng)目P的空氣質(zhì)量分指數(shù)計(jì)算,方程如下:
AQI=max{IAQI1,IAQI2,IAQI3,…,IAQIn}
式中:IAQI表示空氣質(zhì)量分?jǐn)?shù);n表示污染物指標(biāo)。
當(dāng)IAQI大于50時(shí),IAQI最大污染物為首要污染物。 若IAQI最大的污染物為兩項(xiàng)或兩項(xiàng)以上時(shí), 并列為首要污染物。IAQI大于100的污染物為超標(biāo)污染物。
2.3 結(jié)果分析
通過計(jì)算不同污染物的污染指數(shù)API和空氣質(zhì)量分指數(shù)IAQI,得到不同城市的首要污染物和超標(biāo)污染物。 如根據(jù)表2污染物質(zhì)量濃度限值計(jì)算出PM10為主要污染物, 所得到的API值也就是PM10的污染指數(shù),[2]這樣就可以判斷出某個(gè)城市的污染狀況,從而給出市民出行、生活的建議。
3.1 研究思路
為了判斷污染物數(shù)據(jù)的真實(shí)性及重要性,選取2014年度京津冀、長三角和珠三角地區(qū)部分空氣污染數(shù)據(jù)進(jìn)行處理,通過相關(guān)系數(shù)矩陣,結(jié)合R型聚類分析選定污染物指標(biāo),運(yùn)用Q型聚類對各地區(qū)進(jìn)行相似聚類,然后對各聚類部分根據(jù)污染物時(shí)間上的連續(xù)性采用局部多元線性模型,最終判斷出數(shù)據(jù)存在不真實(shí)情況并說明其嚴(yán)重性。
3.2 研究方法
選取京津冀、長三角和珠三角地區(qū)各7個(gè)市,共21個(gè)區(qū)域的空氣污染數(shù)據(jù),并對其2014年的各污染物指標(biāo)求均值,結(jié)果見表3。其中y為AQI指數(shù);x1為PM2.5含量;x2為PM10含量;x3為空氣中CO含量;x4為空氣中NO2含量;x5為空氣中SO2含量。
表3 各市區(qū)2014年污染物數(shù)據(jù)均值
3.2.1R型聚類分析
為了考察反映AQI指數(shù)的5個(gè)污染物指標(biāo)之間可能存在的相似性, 記指標(biāo)xj的取值為(x1j,x2j,…,xnj)T, 則可以用2個(gè)變量xj與xk的樣本相關(guān)系數(shù)作為相似性度量:
(4)
由式(4),運(yùn)用MATLAB軟件計(jì)算5個(gè)指標(biāo)之間的相關(guān)系數(shù)矩陣[3],結(jié)果見表4。
表4 相關(guān)系數(shù)表
以相關(guān)系數(shù)為變量對各指標(biāo)進(jìn)行聚類分析,結(jié)果如圖1所示。
圖1 相關(guān)系數(shù)聚類
由圖1看出最先聚類的是x1、x2與x3、x5, 同時(shí)由表4可知污染物PM2.5與PM10的相關(guān)系數(shù)達(dá)0.975 5、 污染物CO與SO2的相關(guān)系數(shù)達(dá)0.837 1, 可以得出各指標(biāo)之間確實(shí)存在很強(qiáng)的相關(guān)性。 因此選取具有代表性的PM2.5、 SO2和NO2指標(biāo)進(jìn)行Q型聚類分析以對各城市進(jìn)行區(qū)域劃分[4]。
3.2.2Q型聚類分析
運(yùn)用MATLAB軟件,以各個(gè)污染物指標(biāo)的相關(guān)系數(shù)為變量對21個(gè)城市進(jìn)行聚類分析,聚類結(jié)果見表5,具體聚類如圖2所示。
表5 各城市相關(guān)系數(shù)聚類結(jié)果
圖2 各城市聚類分析樹狀圖
如圖2所示,深圳、珠海、惠州、中山等珠三角的城市分在一組,這種城市區(qū)域劃分也體現(xiàn)了臨近城市污染物相互影響的性質(zhì)。
3.2.3 多元線性回歸
對已分好的各個(gè)區(qū)域根據(jù)污染物時(shí)間(2014年)上的連續(xù)性以AQI指數(shù)為因變量,代表性污染物指標(biāo)PM2.5、SO2和NO2為自變量進(jìn)行多元線性回歸[5],得到表6。
由表6可以看出,各區(qū)域的AQI指數(shù)關(guān)于幾個(gè)代表性污染物曲線擬合的可決系數(shù)均達(dá)到0.9以上,擬合優(yōu)度很高。以E區(qū)域邢臺市為例,運(yùn)用MATLAB軟件做出E區(qū)域的曲線擬合殘差置信圖(圖3),以判斷數(shù)據(jù)是否存在異常點(diǎn)。[6]
表6 各區(qū)域多元線性回歸
圖3中綠色區(qū)域?yàn)檎|c(diǎn),紅色部分為異常點(diǎn),這說明因空氣質(zhì)量數(shù)據(jù)不真實(shí)導(dǎo)致數(shù)據(jù)指標(biāo)界定和實(shí)際數(shù)據(jù)界定差別較大,污染物數(shù)據(jù)存在不真實(shí)的情況。將異常點(diǎn)剔除之后的可決系數(shù)達(dá)到0.973 3,有了很大的提高[7]。
3.3 模型的檢驗(yàn)
運(yùn)用MATLAB軟件對多元線性回歸模型進(jìn)行殘差的正態(tài)性檢驗(yàn),其結(jié)果為H=1,P=1.0000e-03,說明拒絕正態(tài)分布,數(shù)據(jù)具有線性關(guān)系。以邢臺市為例,運(yùn)用SPSS做出殘差Q-Q(圖4)。
圖3 邢臺市殘差置信圖 圖4 邢臺市殘差Q-Q圖
圖4中呈直線表示數(shù)據(jù)序列為正態(tài)分布,呈曲線則說明不對稱;若圖形中有一段是直線、在兩端存在弧度表示分布存在峰度。Q-Q圖呈直線,當(dāng)該直線成45°角并穿過原點(diǎn)時(shí),說明分布與給定的正態(tài)分布完全一樣;如果是成45°角但不穿過原點(diǎn),說明均值與給定的正態(tài)分布不同;如果是直線但不是45°角,說明均值與方差都與給定的分布不同;若圖中中間部分是直線,但是右邊在直線下面,左邊在直線上面,說明分布的峰度大于3,反之峰度小于3。根據(jù)Q-Q圖的性質(zhì)可以明顯看出圖4呈曲線且不對稱、不符合正態(tài)分布[8]。
(1)地方政府粉飾空氣污染數(shù)據(jù)。由于治理環(huán)境成本高昂,在信息不對稱的情況下,某些地方政府便修飾空氣污染數(shù)據(jù),使得很多地方實(shí)際AQI值比理論計(jì)算出的值還要低。如近幾年來北京的霧霾天氣嚴(yán)重,而官方的空氣質(zhì)量數(shù)據(jù)卻并沒有反映出這一污染現(xiàn)象,使越來越多的人開始懷疑官方提供數(shù)據(jù)的準(zhǔn)確性。[9]
(2)環(huán)境監(jiān)測設(shè)備昂貴、專業(yè)性強(qiáng),空氣檢測系統(tǒng)不夠完善。由于空氣監(jiān)測系統(tǒng)存在缺陷,部分城市的監(jiān)測數(shù)據(jù)可能不準(zhǔn)確、存在誤差。
(3)空氣污染數(shù)據(jù)的偽造誘因眾多。為了激勵(lì)城市政府重視空氣污染治理,地方官員的政績考核通常與一些地理環(huán)境指標(biāo)掛鉤,如文中提到的“質(zhì)量優(yōu)良”天數(shù)。環(huán)境污染嚴(yán)重,地方官員的晉升也受其影響。由于缺乏獨(dú)立的監(jiān)督管理機(jī)制,地方官員往往會采用修改空氣污染數(shù)據(jù)這種更為簡單易行的方法。偽造數(shù)據(jù)減弱了環(huán)境監(jiān)測的預(yù)警效應(yīng),使空氣污染現(xiàn)象愈發(fā)惡劣,無論是對居民的身體健康還是對環(huán)境的保護(hù)都有著嚴(yán)重的危害,這也是日后政府亟需解決的一個(gè)重要問題。
隨著中國工業(yè)化和城市化進(jìn)程的加快,工業(yè)廢氣、汽車尾氣等污染氣體的排放使得很多城市的空氣質(zhì)量下降、空氣污染問題嚴(yán)峻。為降低治理環(huán)境的成本、粉飾空氣質(zhì)量數(shù)據(jù),地方政府往往采用偽造數(shù)據(jù)的方法,造成了中國部分城市空氣質(zhì)量數(shù)據(jù)異常的現(xiàn)象。因此必須完善監(jiān)督管理體制,定期地對空氣質(zhì)量數(shù)據(jù)進(jìn)行觀測排查,制定嚴(yán)格的獎(jiǎng)懲制度,減少偽造數(shù)據(jù)的可能性。同時(shí),應(yīng)大力整頓管理工業(yè)園區(qū),提高工業(yè)生產(chǎn)效率,發(fā)展循環(huán)經(jīng)濟(jì);鼓勵(lì)市民乘坐公交車或步行上下班,減少私家車出行次數(shù),遏制交通廢氣的大量排放[10];提高人們保護(hù)環(huán)境的意識,多種植樹木、凈化空氣。
[1]張錫穎,曲紅偉.城市空氣污染數(shù)據(jù)的真實(shí)性判別及分析研究[J].科技經(jīng)刊,2016(11):123-124.
[2]田成博文.京津冀地區(qū)空氣污染數(shù)據(jù)的真實(shí)性判別及分析[J].建材與裝飾,2016(26):166-167.
[3]張?jiān)圃?朱家明.基于集對分析聚類法對中國未來生活用水量的預(yù)測[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,32(03):32-36.
[4]張爭輝,汪蜜,陳麗貞,等.蚌埠市空氣質(zhì)量影響因素計(jì)量分析[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2016,32(03):49-53+60.
[5]薛志誠,藺平愛.多元統(tǒng)計(jì)分析在評估城市空氣污染中的運(yùn)用[J].電力學(xué)報(bào),2009,24(02):140-141.
[6]孫蕊.北京地區(qū)霧霾氣象因子分析及判別標(biāo)準(zhǔn)的改進(jìn)[D].南京:南京信息工程大學(xué),2015.
[7]孫毅.用VB.Matlab.SQI Server實(shí)現(xiàn)大氣污染監(jiān)測數(shù)據(jù)的判別分析[D].大連:遼寧師范大學(xué),2007.
[8]宗序平,姚玉蘭.利用Q-Q圖與P-P圖快速檢驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)分布[J].統(tǒng)計(jì)與決策,2010(20):151-152.
[9]咸會琛.青島市空氣質(zhì)量改善的估值研究[D].青島:青島大學(xué),2015.
[10]師懿.城市交通規(guī)劃環(huán)評中空氣污染預(yù)測模型研究[D].北京:中國地質(zhì)大學(xué),2015.
[責(zé)任編輯:關(guān)金玉 英文編輯:劉彥哲]
Discrimination of Reality of Urban Air Pollution Based on Correlation Clustering Method
GUAN Shan1,ZHU Jia-ming2,GUAN Zhao-yang2,TAO Li Tong-yan1
(1.School of Finance,Anhui University of Finance and Economics,Bengbu,Anhui 233030,China; 2.School of Statistics and Applied Mathematics,Anhui University of Finance and Economics,Bengbu,Anhui 233030,China)
Objective For authenticity discrimination and analysis of air quality of urban air pollution data of 21 cities in Beijing-Tianjin-Hebei Region,Yangtze River delta and Pearl River delta,the authenticity of data was analyzed through modeling.Using the correlation between pollutants and the continuity of change,we can determine whether the city’s air quality data is untrue,and make analysis of the reasons to provide reference for government departments to develop policies.Methods Taking three regions as the research object,the air quality pollution data of 21 major cities were found.On Internet,,and the pollution indexAPIand air quality index of different pollutants were defined.Then was the correlation clustering method was used to cluster the cities with similar pollution levels.TheAQIindex was the dependent variable,and the representative pollutant indexes PM2.5,SO2,NO2were the independent variables for multiple linear regressions to determine observation data of abnormal points.Results The analysis of 21cities’ air pollution data through MATLAB and SPSS software showed that the air quality data and pollutants data were untrue.Conclusion The suggestions were offered that we should regularly observe the air quality data to discriminate its authenticity,energetically overhaul industrial park so as to improve air quality.
air quality;analysis of air pollutant;multiple regression;correlation clustering;MATLAB;SPSS
國家自然科學(xué)基金項(xiàng)目(11601001);國家大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(201610378056)
關(guān)珊(1996-),女,安徽亳州人,安徽財(cái)經(jīng)大學(xué)金融學(xué)院在讀學(xué)生,研究方向:金融學(xué)。
朱家明(1973-),男,安徽泗縣人,安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院副教授,碩士,研究方向:應(yīng)用數(shù)學(xué)與數(shù)學(xué)建模。
X 51
A
10.3969/j.issn.1673-1492.2017.07.009
來稿日期:2016-11-07