吳玲玲,杜趙杭,韓凱波,陳一飛,趙 怡
(南京鐵道職業(yè)技術(shù)學(xué)院,江蘇 南京210031)
本文選取的空氣質(zhì)量監(jiān)測(cè)國(guó)控點(diǎn)數(shù)據(jù)時(shí)間跨度為2018年11月14日10:00~2019年6月11日15:00,共4200個(gè)樣本;自建點(diǎn)數(shù)據(jù)時(shí)間跨度為2018年11月14日10:02~2019年6月11日16:32,共234717個(gè)樣本。我們首先對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行預(yù)處理,將自建點(diǎn)數(shù)據(jù)處理為以一小時(shí)為間隔的樣本,再對(duì)自建點(diǎn)數(shù)據(jù)中降水?dāng)?shù)據(jù)進(jìn)行處理,最后將國(guó)控點(diǎn)數(shù)據(jù)與自建點(diǎn)數(shù)據(jù)進(jìn)行匹配,得到4065個(gè)樣本進(jìn)行研究[1]。
由于國(guó)控點(diǎn)數(shù)據(jù)是以一小時(shí)為間隔的樣本,因此將自建點(diǎn)的數(shù)據(jù)同樣處理為一小時(shí)間隔。采取的方案是,選取相應(yīng)于國(guó)控點(diǎn)時(shí)間前15分鐘和后15分鐘區(qū)間的數(shù)據(jù)取平均值(除降水?dāng)?shù)據(jù))。自建點(diǎn)數(shù)據(jù)中有降水量數(shù)據(jù)在某時(shí)段遞增,然后清零。選取自建點(diǎn)降水?dāng)?shù)據(jù)中相應(yīng)于國(guó)控點(diǎn)時(shí)間前5分鐘和后5分鐘區(qū)間內(nèi)最后一個(gè)時(shí)刻的記錄作為該整點(diǎn)的累積降水量。通過Excel統(tǒng)計(jì),見圖1(a),發(fā)現(xiàn)清零出現(xiàn)兩次。另降水?dāng)?shù)據(jù)存在一些奇異點(diǎn),將奇異點(diǎn)的數(shù)值通過前后時(shí)刻數(shù)據(jù)的對(duì)比進(jìn)行訂正。訂正方法如下[1-2]:第一步,找出奇異點(diǎn)對(duì)應(yīng)的時(shí)刻,對(duì)該時(shí)刻前后5分鐘的數(shù)據(jù)進(jìn)行分析,找出錯(cuò)誤數(shù)據(jù),將前后數(shù)據(jù)對(duì)比并訂正,數(shù)據(jù)質(zhì)量明顯提高,見圖1(b);第二步,若某整點(diǎn)數(shù)據(jù)缺測(cè),根據(jù)前后數(shù)據(jù)進(jìn)行訂正。若前后數(shù)據(jù)相同,將缺測(cè)數(shù)據(jù)記為相同值;若前后數(shù)據(jù)不相同,仍記為缺測(cè)。然后用后一整點(diǎn)的累積降水量減去前一整點(diǎn)的累積降水量得到該整點(diǎn)的降水?dāng)?shù)據(jù),遇缺測(cè)情況記為缺測(cè)。
圖1 降水量國(guó)控點(diǎn)和自建點(diǎn)數(shù)據(jù)概率分布圖
利用Matlab軟件對(duì)國(guó)控點(diǎn)和自建點(diǎn)數(shù)據(jù)中的PM2.5、PM10數(shù)據(jù)進(jìn)行統(tǒng)計(jì)特征分析,包括平均值、標(biāo)準(zhǔn)差、最大值、最小值,并進(jìn)行兩組數(shù)據(jù)的對(duì)比[2-3(]見表1)。
從表1可以發(fā)現(xiàn),PM2.5國(guó)控點(diǎn)數(shù)據(jù)與自建點(diǎn)數(shù)據(jù)的標(biāo)準(zhǔn)差相差不大,最值也相當(dāng),但自建點(diǎn)數(shù)據(jù)的平均值較國(guó)控點(diǎn)數(shù)據(jù)的平均值偏大很多。PM10自建點(diǎn)數(shù)據(jù)的標(biāo)準(zhǔn)差比國(guó)控點(diǎn)大很多,說明自建點(diǎn)數(shù)據(jù)分布更離散,并且自建點(diǎn)數(shù)據(jù)的平均值也較國(guó)控點(diǎn)數(shù)據(jù)的平均值大很多,而國(guó)控點(diǎn)數(shù)據(jù)的最大值接近自控點(diǎn)數(shù)據(jù)最大值的兩倍。
表1 兩種污染物國(guó)控點(diǎn)與自建點(diǎn)數(shù)據(jù)的統(tǒng)計(jì)特征
分別繪制國(guó)控點(diǎn)和自建點(diǎn)數(shù)據(jù)的概率分布圖(見圖2)。PM2.5兩組數(shù)據(jù)分布狀況較一致,都呈單峰型分布。PM10國(guó)控點(diǎn)數(shù)據(jù)絕大部分分布在200以內(nèi),而自建點(diǎn)數(shù)據(jù)主要分布在350以內(nèi),存在量程漂移。
圖2 PM2.5和PM10國(guó)控點(diǎn)和自建點(diǎn)數(shù)據(jù)概率分布圖
接著,對(duì)PM2.5、PM10國(guó)控點(diǎn)數(shù)據(jù)和自建點(diǎn)數(shù)據(jù)繪制散點(diǎn)圖(見圖3(a)、圖4(a))。利用國(guó)控點(diǎn)數(shù)據(jù)與自建點(diǎn)數(shù)據(jù)做差,對(duì)差值繪制PM2.5偏差概率分布圖(見圖3(b)、圖4(b))。在圖3(a)中,對(duì)比線A表征自建點(diǎn)數(shù)據(jù)與國(guó)控點(diǎn)數(shù)據(jù)完全相同。大部分散點(diǎn)集中在對(duì)比線附近,因此兩組數(shù)據(jù)的偏差不是太大。大部分散點(diǎn)在對(duì)比線上方,說明自建點(diǎn)數(shù)據(jù)與國(guó)控點(diǎn)數(shù)據(jù)之間存在負(fù)偏差。在圖3(b)中,自建點(diǎn)數(shù)據(jù)與國(guó)控點(diǎn)數(shù)據(jù)之間存在整體負(fù)偏差,且為單峰型分布,峰值左右較對(duì)稱,類似正態(tài)分布的特征。在圖4(a)中,大部分散點(diǎn)集中在對(duì)比線A上方,自建點(diǎn)數(shù)據(jù)與國(guó)控點(diǎn)數(shù)據(jù)之間存在明顯的負(fù)偏差,且散點(diǎn)在對(duì)比線上下分布得不均勻,上面明顯多于下面。此外,國(guó)控點(diǎn)的數(shù)據(jù)主要在0~200的范圍內(nèi),而自建點(diǎn)數(shù)據(jù)在0~350的范圍內(nèi)。在圖4(b)中,自建點(diǎn)數(shù)據(jù)與國(guó)控點(diǎn)數(shù)據(jù)之間存在整體負(fù)偏差,且為單峰型分布,峰值左側(cè)的概率高于右側(cè),呈偏態(tài)分布。
圖3 PM2.5散點(diǎn)圖和偏差概率分布圖
圖4 PM10散點(diǎn)圖和偏差概率分布圖
通過偏差、相關(guān)系數(shù)、均方根誤差三個(gè)統(tǒng)計(jì)量對(duì)兩組數(shù)據(jù)的整體特征進(jìn)行統(tǒng)計(jì)分析。三種統(tǒng)計(jì)量的計(jì)算方法如下。
兩組數(shù)據(jù)的偏差(bias)計(jì)算公式:
其中,Xi為自建點(diǎn)每個(gè)小時(shí)的數(shù)據(jù),Yi為國(guó)控點(diǎn)每個(gè)小時(shí)的數(shù)據(jù),n為數(shù)據(jù)個(gè)數(shù)。我們定義當(dāng)bias大于0為正偏差,小于0為負(fù)偏差。
兩組數(shù)據(jù)的相關(guān)系數(shù)(rXY)計(jì)算公式:
其中,Xi,Yi,n同上,X為自建點(diǎn)數(shù)據(jù)的平均值,Y為國(guó)控點(diǎn)數(shù)據(jù)的平均值。
兩組數(shù)據(jù)的均方根誤差(RMSE)計(jì)算公式:
其中,Xi,Yi,n同上。
計(jì)算PM2.5自建點(diǎn)數(shù)據(jù)相對(duì)于國(guó)控點(diǎn)數(shù)據(jù)的偏差、相關(guān)系數(shù)和均方根誤差,見表2。兩組數(shù)據(jù)的偏差為-16.18,明顯存在整體負(fù)偏差;兩組數(shù)據(jù)的相關(guān)系數(shù)為0.91,說明兩組數(shù)據(jù)的變化趨勢(shì)一致;兩組數(shù)據(jù)的均方根誤差為22.85,表示兩組數(shù)據(jù)存在較大差異。而PM10兩組數(shù)據(jù)的偏差為-38.74,明顯存在整體負(fù)偏差;兩組數(shù)據(jù)的相關(guān)系數(shù)為0.65,說明兩組數(shù)據(jù)的變化趨勢(shì)較一致;兩組數(shù)據(jù)的均方根誤差為65.67,達(dá)到平均值的一半,表示兩組數(shù)據(jù)存在較大差異。
表2 PM2.5、PM10國(guó)控點(diǎn)與自建點(diǎn)數(shù)據(jù)校準(zhǔn)前后統(tǒng)計(jì)量
由圖3(b)發(fā)現(xiàn)PM2.5自建點(diǎn)數(shù)據(jù)明顯存在負(fù)偏差,并且自建點(diǎn)開始的數(shù)據(jù)要明顯高于國(guó)控點(diǎn)的數(shù)據(jù),兩種數(shù)據(jù)的最大值相當(dāng),兩組數(shù)據(jù)的差異可能由零點(diǎn)漂移產(chǎn)生。而PM10的自建點(diǎn)數(shù)據(jù)明顯存在整體負(fù)偏差,并且國(guó)控點(diǎn)的數(shù)據(jù)主要在0~200的范圍內(nèi),而自建點(diǎn)數(shù)據(jù)在0~350的范圍內(nèi),兩組數(shù)據(jù)的量程不一致。圖4(b)中的偏態(tài)分布,也有可能是量程不一致造成的。我們利用自建點(diǎn)數(shù)據(jù)進(jìn)行一元線性回歸,將數(shù)據(jù)進(jìn)行校準(zhǔn)。
根據(jù)兩種數(shù)據(jù)中的PM2.5數(shù)據(jù)建立一元線性回歸校準(zhǔn)方程:
其中,XPM25i為自建點(diǎn)每個(gè)小時(shí)的數(shù)據(jù),為自建點(diǎn)每個(gè)小時(shí)的校準(zhǔn)數(shù)據(jù)。
對(duì)PM10數(shù)據(jù)建立一元線性回歸校準(zhǔn)方程:
其中,XPM10i為自建點(diǎn)每個(gè)小時(shí)的數(shù)據(jù),為自建點(diǎn)每個(gè)小時(shí)的校準(zhǔn)數(shù)據(jù)。
下面對(duì)數(shù)據(jù)校準(zhǔn)前后進(jìn)行比較[4]。從圖5(a)、圖5(b)可以發(fā)現(xiàn),PM2.5訂正后的自建點(diǎn)數(shù)據(jù)負(fù)偏差明顯消失,且零點(diǎn)漂移的現(xiàn)象也明顯減小。在偏差概率分布圖中,0附近的概率最大。通過表2可知,校準(zhǔn)后自建點(diǎn)數(shù)據(jù)的負(fù)偏差變?yōu)?0.01,顯著減小,均方差根誤差也明顯減小。說明PM2.5的自建點(diǎn)數(shù)據(jù)得到了有效的校準(zhǔn),數(shù)據(jù)質(zhì)量明顯提高。從圖6(a)、圖6(b)可以發(fā)現(xiàn),PM10訂正后的自建點(diǎn)數(shù)據(jù)負(fù)偏差明顯消失,且量程漂移的現(xiàn)象也明顯減小。在偏差概率分布圖中,峰值位于0附近,偏態(tài)分布也趨于正態(tài)分布特征。通過表2可知,校準(zhǔn)后自建點(diǎn)數(shù)據(jù)的負(fù)偏差變?yōu)?0.46,顯著減小,均方差根誤差為32.26,也明顯改善,同時(shí)兩組數(shù)據(jù)的相關(guān)系數(shù)也進(jìn)一步提高。說明PM10的自建點(diǎn)數(shù)據(jù)得到了有效的校準(zhǔn),數(shù)據(jù)質(zhì)量明顯提高。
圖5
圖6
本文針對(duì)某公司研發(fā)的微型空氣質(zhì)量監(jiān)測(cè)儀提供的實(shí)時(shí)空氣污染物數(shù)據(jù),分別對(duì)PM2.5和PM10兩種污染物自建點(diǎn)數(shù)據(jù)進(jìn)行了深入數(shù)據(jù)分析和詳細(xì)的差異因素分析,并根據(jù)不同污染物數(shù)據(jù)誤差特點(diǎn)給出了相應(yīng)的一元線性回歸校準(zhǔn)方案,校準(zhǔn)后的數(shù)據(jù)質(zhì)量明顯提高。該校準(zhǔn)方案在業(yè)務(wù)上實(shí)踐性強(qiáng),對(duì)空氣質(zhì)量監(jiān)測(cè)儀的數(shù)據(jù)有一定的訂正效果。為微型空氣質(zhì)量監(jiān)測(cè)儀后期能夠提供更準(zhǔn)確的實(shí)時(shí)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)以及傳感器的改進(jìn)提供了參考方案。