*雷敏珊張金碧
( 1.廣州市番禺區(qū)環(huán)境監(jiān)測站 廣東 511483 2.廣東誠浩環(huán)境監(jiān)測有限公司 廣東 511483)
關(guān)于環(huán)境監(jiān)測數(shù)據(jù)中的異常數(shù)據(jù)分析與處理
*雷敏珊1張金碧2
( 1.廣州市番禺區(qū)環(huán)境監(jiān)測站 廣東 511483 2.廣東誠浩環(huán)境監(jiān)測有限公司 廣東 511483)
環(huán)境監(jiān)測數(shù)據(jù)是環(huán)境管理與環(huán)境執(zhí)法的主要依據(jù),數(shù)據(jù)準(zhǔn)確、可靠與否直接影響環(huán)境執(zhí)法與環(huán)境管理的公正性與合理性,因而正確鑒別和處理異常數(shù)據(jù)是環(huán)境監(jiān)測工作中的關(guān)鍵環(huán)節(jié),鑒此,本文對環(huán)境監(jiān)測異常數(shù)據(jù)的類型、產(chǎn)生原因、鑒別與處理方法進(jìn)行了分析。
環(huán)境監(jiān)測數(shù)據(jù);異常數(shù)據(jù);分析;處理
環(huán)境監(jiān)測數(shù)據(jù)是環(huán)境管理、環(huán)境執(zhí)法的基石,離開了準(zhǔn)確可靠的數(shù)據(jù)支持,環(huán)境管理與環(huán)境執(zhí)法也失去客觀有效的依據(jù)。但環(huán)境監(jiān)測數(shù)據(jù)的獲得要經(jīng)歷采樣、運(yùn)輸、儲存、分析、數(shù)據(jù)處理等多個環(huán)節(jié),任何一個環(huán)節(jié)的差錯都可能導(dǎo)致監(jiān)測數(shù)據(jù)異常,所以正確分析和處理異常數(shù)據(jù)在環(huán)境監(jiān)測工作中非常重要。環(huán)境監(jiān)測異常數(shù)據(jù)一般是指環(huán)境監(jiān)測中的失實數(shù)據(jù),即顯著偏離環(huán)境實際質(zhì)量、無法準(zhǔn)確反映環(huán)境污染狀況的數(shù)據(jù)。但要從大量監(jiān)測數(shù)據(jù)中鑒別并剔除異常數(shù)據(jù)并非易事,有些看似異常的數(shù)據(jù)背后可能隱藏著不為人知的因素,貿(mào)然剔除會失去深入了解和挖掘這種因素的機(jī)會,因此必須從技術(shù)上找到產(chǎn)生異常數(shù)據(jù)的原因,然后再采取正確的處理方法。
(1)環(huán)境監(jiān)測異常數(shù)據(jù)的類型
異常數(shù)據(jù)分為離群數(shù)據(jù)、不合理數(shù)據(jù)、不符合實際的數(shù)據(jù)。所謂離群數(shù)據(jù)是指與全部監(jiān)測數(shù)據(jù)平均值相差較大、按一定規(guī)則或經(jīng)驗判為無效的數(shù)據(jù),例如《飲食業(yè)油煙排放標(biāo)準(zhǔn)(試行)》(GB 18483-2001)第6.5節(jié)規(guī)定,5次采樣分析結(jié)果中的任何數(shù)據(jù)小于最大值的1/4,則為無效數(shù)據(jù)。不合理數(shù)據(jù)是指不符合日常監(jiān)測邏輯的數(shù)據(jù),例如環(huán)保治理設(shè)施進(jìn)出口污染物濃度倒置。不符合實際的數(shù)據(jù)是指與長期監(jiān)測結(jié)果形成的共識差距較大的數(shù)據(jù),例如環(huán)境質(zhì)量監(jiān)測中的污染物濃度較高,而排污口濃度卻較低。
(2)環(huán)境監(jiān)測數(shù)據(jù)異常的原因
如前所述,環(huán)境監(jiān)測數(shù)據(jù)異常的原因與形成數(shù)據(jù)的過程有關(guān),也就是由采樣誤差、運(yùn)輸與存儲過程中樣品受到污染、分析誤差引起,當(dāng)然也包括其他一些原因。采樣誤差是由采樣不規(guī)范、采樣位置不符合標(biāo)準(zhǔn)引起。運(yùn)輸與存儲過程中樣品受到污染主要是由存放樣品容器受到污染、樣品存放過久而變質(zhì)、儲藏條件不符合要求、樣品交叉污染等原因引起。分析誤差包括儀器未檢定、試劑失效、分析過程受到污染等原因。其他原因如監(jiān)測工況不符合要求、采樣時間不符合規(guī)范等。當(dāng)然,異常數(shù)據(jù)有些確實反映環(huán)境質(zhì)量的實際變化情況,還有些是由于監(jiān)測誤差和代表性不足所引起,更有一些無法明確數(shù)據(jù)異常的確切原因。
(1)環(huán)境監(jiān)測異常數(shù)據(jù)的鑒別方法
①基于歷史數(shù)據(jù)的鑒別。各級環(huán)境監(jiān)測站會對其管理區(qū)域的環(huán)境質(zhì)量進(jìn)行長期跟蹤監(jiān)測并積累了大量數(shù)據(jù),同時也掌握了各種監(jiān)測數(shù)據(jù)的規(guī)律,憑此可判斷數(shù)據(jù)是否異常。因為歷史數(shù)據(jù)能反映污染物時空分布與變化規(guī)律、各種污染物與工藝流程的關(guān)系等情況。例如河道閘口下游不遠(yuǎn)處的采樣點(diǎn),若趕上開閘期間采樣就可能導(dǎo)致SS異常偏高。
②基于監(jiān)測因子之間的邏輯關(guān)系的鑒別。各種監(jiān)測因子之間存在一定的邏輯關(guān)系,例如污染物處理設(shè)施進(jìn)出口濃度之間正常情況下應(yīng)當(dāng)是出口濃度低于進(jìn)口濃度,如果數(shù)據(jù)倒置就可能存在異常。同一份樣品不同監(jiān)測指標(biāo)之間也存在一定關(guān)系,例如水環(huán)境監(jiān)測中各監(jiān)測項目之間存在比較固定的關(guān)系,DO與CODCr之間為負(fù)相關(guān),BOD5與CODCr、CODMn與CODCr、NH3-N與CODCr之間均為正相關(guān),偏離這個規(guī)律的數(shù)據(jù)可能存在異常。又如空氣自動監(jiān)測系統(tǒng)也存在類似關(guān)系,PM2.5與PM10之間一般有相近的變化規(guī)律,當(dāng)其中一個站點(diǎn)某一時段PM2.5突然下降,而PM10并無明顯變化時,PM2.5數(shù)據(jù)可能異常,例如下雨使空氣潮濕而堵塞濾芯。
③基于相關(guān)統(tǒng)計資料和物料衡算的鑒別。受監(jiān)測條件、技術(shù)手段等因素的限制,加上有些企業(yè)排污設(shè)施不完善,廢水流量測量不準(zhǔn)確,這種情況下可利用同類監(jiān)測對象的統(tǒng)計資料進(jìn)行類比分析,因為產(chǎn)品相同、工藝條件相似的生產(chǎn)企業(yè),其排放的污染物成分、數(shù)量及變化趨勢有相似的規(guī)律可循,再結(jié)合物料衡算和其他環(huán)境要素的分析,則有助于鑒別監(jiān)測數(shù)據(jù)的準(zhǔn)確性。
④基于數(shù)理統(tǒng)計方法的鑒別。上述鑒別方法,主要針對監(jiān)測數(shù)據(jù)平均值異?;騻€別監(jiān)測數(shù)據(jù)偏離較遠(yuǎn)的情況,當(dāng)監(jiān)測數(shù)據(jù)平均值正常而個別監(jiān)測數(shù)據(jù)有一定偏離時,這些數(shù)據(jù)是否異??赏ㄟ^數(shù)理統(tǒng)計方法進(jìn)行鑒別。這方面的研究和方法比較多,例如拉依達(dá)(Pauta)法、肖維納(Chauvenet)法、格拉布斯(Grubbs)法、狄克遜(Dixon)法、奈爾(Nair)法、t檢驗法、偏度-峰度法等。決定采用哪種方法之前,先應(yīng)確定樣本的分布類型,再采用適當(dāng)?shù)姆椒ㄟM(jìn)行鑒別。一般取樣合理、合乎規(guī)范的數(shù)據(jù)應(yīng)符合正態(tài)分布,否則要考慮取樣問題,例如數(shù)據(jù)是否來自同一樣本、數(shù)據(jù)量是否足夠、監(jiān)測過程是否穩(wěn)定等。確定數(shù)據(jù)是否符合正態(tài)分布,《數(shù)據(jù)的統(tǒng)計處理和解釋正態(tài)性檢驗》(GB/T 4882-2001)介紹了圖方法、矩檢驗、回歸檢驗和特征函數(shù)檢驗。圖方法是比較常用的方法,利用正態(tài)概率紙進(jìn)行檢驗,如果觀測值累積分布函數(shù)近似為一條直線,說明數(shù)據(jù)符合正態(tài)分布。當(dāng)樣本數(shù)量3≤n≤50時,可采用Shapiro-Wilk檢驗(簡稱W檢驗);n≥50時,可采用偏度-峰度(skewness kurtosis)法。下面將結(jié)合實例介紹數(shù)理統(tǒng)計方法的應(yīng)用。
(2)環(huán)境監(jiān)測異常數(shù)據(jù)的處理方法
如果監(jiān)測數(shù)據(jù)異常是由企業(yè)排污和環(huán)境質(zhì)量變化所引起的,就不能隨便刪除,而應(yīng)就異常原因進(jìn)行分析和說明,并將超標(biāo)數(shù)據(jù)反映給環(huán)境管理部門,以督促企業(yè)進(jìn)行整改。如果由于監(jiān)測誤差、代表性差而引起數(shù)據(jù)異常,應(yīng)對數(shù)據(jù)進(jìn)行處理,這些數(shù)據(jù)不能和其他正常數(shù)據(jù)放在一起分析。當(dāng)監(jiān)測數(shù)據(jù)數(shù)量≥5個時,應(yīng)將異常數(shù)據(jù)剔除,只要剩余有效數(shù)據(jù)≮3個,就用剩余數(shù)據(jù)進(jìn)行分析評價;如果剩余有效數(shù)據(jù)<3個,應(yīng)采取補(bǔ)充監(jiān)測措施。如果不能確定監(jiān)測數(shù)據(jù)異常的原因,就必須對污染源重新監(jiān)測,并嚴(yán)格控制監(jiān)測工況、儀器設(shè)備和環(huán)境因素等條件,以確保監(jiān)測數(shù)據(jù)可追溯。
(3)環(huán)境監(jiān)測異常數(shù)據(jù)的數(shù)理統(tǒng)計分析與處理實例
表1為某河道天然水樣總氮監(jiān)測的一組數(shù)據(jù),試檢驗數(shù)據(jù)是否符合正態(tài)分布,然后分別采用拉依達(dá)法、格拉布斯法、狄克遜法、t檢驗法判斷離群值。
表1 天然水樣總氮監(jiān)測數(shù)據(jù)(mg/L)
①正態(tài)性檢驗。由于n=10<50,所以采用W檢驗方法。計算公式如下:
式中xi為按x1≤x2≤…≤xn排序的樣本數(shù)據(jù);ai為待估常量,可查表計算;X為樣本數(shù)據(jù)平均值。
經(jīng)計算W=0.860>0.842=Wp,P=0.077>0.05,接受正態(tài)性假設(shè)。
③格拉布斯法。確定置信概率α=0.05。算術(shù)平均值=0.2604,剩余誤差△X7=0.0156,標(biāo)準(zhǔn)偏差σ=0.0071。查表臨界值T0(10,0.05)=2.176,T0σ=0.01546。因△X7>T0σ,按格拉布斯準(zhǔn)則應(yīng)剔除。對剩下9個數(shù)據(jù)進(jìn)行同樣檢驗,無異常值檢出,故只剔除7#數(shù)據(jù)。
④狄克遜法。確定置信概率α=0.05。將10個數(shù)據(jù)由小到大排列。然后按Dn=(Xn-Xn-1)/(Xn-X2)和Dn'=(X2-X1)/(Xn-1-X1)計算高端離群值和低端離群值,結(jié)果Dn=0.3636,=0,即Dn>Dn'。查表獲得臨界值D095(10)=0.53。因Dn<D095(10),無異常值檢出。
⑤t檢驗法。確定置信概率α=0.05。將10個數(shù)據(jù)由小到大排列。暫時去除Xn后算得'=0.2587,σ'= 0.004796,∣Xn-'∣=0.01733。臨界值K(10,0.05)=2.43,所以K(10,0.05)σ'=0.01165。因∣X1-'∣>K(10,0.05) σ',所以判定0.276為異常值,應(yīng)予剔除。對剩下9個數(shù)據(jù)進(jìn)行檢驗,剔除0.268。再對剩余8個數(shù)據(jù)進(jìn)行檢驗,無異常值檢出,所以共剔除0.276、0.268兩個數(shù)據(jù)。
綜上,t檢驗法最嚴(yán)格,其次為格拉布斯法,拉依達(dá)法和狄克遜法較寬松。實際上小樣本時選擇格拉布斯法和t檢驗法較優(yōu)。
“錯誤的數(shù)據(jù)比沒有數(shù)據(jù)更糟糕”,所以提供準(zhǔn)確可靠的環(huán)境監(jiān)測數(shù)據(jù)遠(yuǎn)比僅僅提供數(shù)據(jù)要重要的多。為了提高環(huán)境監(jiān)測數(shù)據(jù)質(zhì)量,一方面要提高監(jiān)測人員的職業(yè)素養(yǎng),減少技術(shù)誤差;另一方面也要加強(qiáng)數(shù)據(jù)審核工作,并通過建立數(shù)據(jù)追溯制度,及時發(fā)現(xiàn)問題并找出數(shù)據(jù)異常的原因,以便不斷改進(jìn)和完善監(jiān)測工作,并為環(huán)境管理和環(huán)境執(zhí)法提供科學(xué)有效的依據(jù)。
[1]李志明.環(huán)境監(jiān)測數(shù)據(jù)審核及異常數(shù)據(jù)的處理[J].新疆環(huán)境保護(hù),2013,35(2):41-44.
[2]牟永銘.環(huán)保驗收監(jiān)測異常數(shù)據(jù)的分析與處理[J].環(huán)境監(jiān)測管理與技術(shù),2013,25(2):4-6.
[3]蔡同峰.現(xiàn)場監(jiān)測數(shù)據(jù)審核方法及異常數(shù)據(jù)的判別研究[J].環(huán)境科學(xué)與管理,2014,39(10):60-62.
[4]張發(fā)兵,張明旭,韓中豪等.大樣本水環(huán)境監(jiān)測數(shù)據(jù)中異常數(shù)據(jù)的篩選方法研究[J].中國環(huán)境監(jiān)測,2007,23(2):54-57.
[5]管擎宇.環(huán)境空氣自動監(jiān)測數(shù)據(jù)審核中異常數(shù)據(jù)判斷和處理[J]. 環(huán)境監(jiān)控與預(yù)警,2016,8(5):59-63.
[6]王秋璐,周燕遐,陳斐等.基于SPSS的數(shù)理統(tǒng)計方法在海洋重金屬環(huán)境背景值計算中的應(yīng)用[J].海洋通報,2012,30(1):100-103.
雷敏珊(1984~),女,廣州市番禺區(qū)環(huán)境監(jiān)測站,研究方向:環(huán)境監(jiān)測與監(jiān)測數(shù)據(jù)綜合分析工作。
張金碧(1985~),女,廣東誠浩環(huán)境監(jiān)測有限公司,研究方向:環(huán)境監(jiān)測與實驗室管理工作。
(責(zé)任編輯 王恒)
Abnormal Data Analysis and Processing of Environmental Monitoring data
Lei Minshan1,Zhang Jinbi2
(1.Environmental Monitoring Station in Panyu District of Guangzhou,Guangdong,511483 2.Guangdong Chenghao Environmental Monitoring Co.Ltd,Guangdong,511483)
The environmental monitoring data is the main basis of environmental law enforcement and environmental management, whether t he data is accurate and reliable or not directly affect the impartiality and rationality of environmental law enforcement and environmental manageme nt, thus correctly identifying and processing abnormal data is the key link of environmental monitoring work, for which reason, this paper takes analy sis of the types, causes, identification and treatment methods of the environmental monitoring abnormal data.
environmental monitoring data;abnormal data;analysis;processing
T
A