加春燕 李 娟 張逸冰 姚 楠 吳嘉豪
(北京工業(yè)職業(yè)技術(shù)學(xué)院 基礎(chǔ)教育學(xué)院,北京 100042)
空氣污染會給生態(tài)環(huán)境和人類健康帶來巨大危害,因此實(shí)時監(jiān)控空氣質(zhì)量非常重要。國家檢測控制站點(diǎn)(簡稱國控點(diǎn))通過對“兩塵四氣”(PM2.5,PM10,CO,NO2,SO2,O3)濃度的監(jiān)控,可以及時掌握空氣質(zhì)量,進(jìn)而對污染源采取相應(yīng)的控制措施[1]。然而國控點(diǎn)成本較高、數(shù)量較少、數(shù)據(jù)發(fā)布時間滯后,無法給出實(shí)時空氣質(zhì)量的監(jiān)控和預(yù)報。某公司研發(fā)的微型空氣質(zhì)量檢測儀(簡稱自建點(diǎn))成本較低,能對某一地區(qū)空氣質(zhì)量進(jìn)行實(shí)時網(wǎng)格化監(jiān)控,同時能夠檢測出溫度、風(fēng)速、濕度、氣壓、降水5種氣象參數(shù),但是由于儀器測量誤差、氣象因素影響等原因,自建點(diǎn)采集的數(shù)據(jù)有一定誤差,需要參照國控點(diǎn)數(shù)據(jù)對自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn),使得校準(zhǔn)結(jié)果更為科學(xué)和準(zhǔn)確。
國控點(diǎn)“兩塵四氣”檢測數(shù)據(jù)如表1所示。
表1 國控點(diǎn)“兩塵四氣”檢測數(shù)據(jù)
表1顯示了某國控點(diǎn)每小時“兩塵四氣”濃度的檢測數(shù)據(jù),共有4 200組,檢測時間從2018年11月14日上午10:00到2019年6月11日下午15:00,共經(jīng)歷209 d零5 h,即5 021 h。
自建點(diǎn)“兩塵四氣”及5個氣象指數(shù)檢測數(shù)據(jù)如表2所示。
表2 自建點(diǎn)“兩塵四氣”及5個氣象指數(shù)檢測數(shù)據(jù)
表2是該國控點(diǎn)附近的1個自建點(diǎn)處“兩塵四氣”濃度和風(fēng)速、壓強(qiáng)、降水量、溫度、濕度5個氣象參數(shù)的檢測數(shù)據(jù),對應(yīng)于國控點(diǎn)時間且2組數(shù)據(jù)間隔在5 min以內(nèi),共計(jì)234 717組數(shù)據(jù)[2]。
對實(shí)際檢測數(shù)據(jù)進(jìn)行探索性分析,包括以下4項(xiàng)內(nèi)容:
(1)數(shù)據(jù)預(yù)處理。查找缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、無效數(shù)據(jù),進(jìn)行適當(dāng)補(bǔ)充或者刪除后得到有效數(shù)據(jù)。例如,國控點(diǎn)數(shù)據(jù)檢測每小時記錄1次,檢測時間共計(jì)5 021 h,但表1中只有4 200 h的數(shù)據(jù),共有821 h的數(shù)據(jù)缺失。假設(shè)不考慮天氣突變因素,可以取缺失處前后鄰近數(shù)據(jù)的平均值作為缺失處的補(bǔ)充。再如,自建點(diǎn)2019年5月21日3:59時刻的數(shù)據(jù)重復(fù)了138次,應(yīng)刪除掉。經(jīng)過數(shù)據(jù)預(yù)處理,最終國控點(diǎn)補(bǔ)齊了5 021 h的數(shù)據(jù),自建點(diǎn)保留230 152組有效數(shù)據(jù)。
(2)數(shù)據(jù)時間匹配設(shè)置。國控點(diǎn)只有每小時的數(shù)據(jù),而自建點(diǎn)間隔5 min就有1組數(shù)據(jù),為了與國控點(diǎn)數(shù)據(jù)相匹配,將自建點(diǎn)數(shù)據(jù)在對應(yīng)小時上,選取前后半個小時的分鐘數(shù)據(jù)進(jìn)行加權(quán)平均(越接近小時權(quán)重系數(shù)越大),從而得到自建點(diǎn)對應(yīng)國控點(diǎn)的小時數(shù)據(jù)。
(3)差異性分析。對比國控點(diǎn)和自建點(diǎn)的小時數(shù)據(jù),對兩者的差異進(jìn)行分析。計(jì)算國控點(diǎn)與自建點(diǎn)“兩塵四氣”數(shù)據(jù)的變異系數(shù)[3],結(jié)果如表3所示。
表3 國控點(diǎn)與自建點(diǎn)“兩塵四氣”檢測數(shù)據(jù)的變異系數(shù)對比
從表3的相對誤差可以看出,相比國控點(diǎn),自建點(diǎn)數(shù)據(jù)有一定誤差,特別是NO2,SO2和O3。此外,以PM2.5為例,繪制國控點(diǎn)與自建點(diǎn)部分?jǐn)?shù)據(jù)折線圖,以進(jìn)行直觀對比。具體如圖1所示。
圖1 國控點(diǎn)與自建點(diǎn)PM2.5部分?jǐn)?shù)據(jù)折線圖
圖1顯示了國控點(diǎn)和自建點(diǎn)數(shù)據(jù)的差異,在同一時間自建點(diǎn)的數(shù)值普遍高于國控點(diǎn)。由此說明,自建點(diǎn)數(shù)據(jù)確實(shí)需要校準(zhǔn)才能在實(shí)踐中應(yīng)用。
(4)相關(guān)性分析。對國控點(diǎn)“兩塵四氣”6個指標(biāo)進(jìn)行相關(guān)性分析,按照式(1)可計(jì)算任意2個指標(biāo)之間的相關(guān)系數(shù)。
(1)
式(1)中,n為數(shù)據(jù)量;xi,yi為對應(yīng)變量x和y的第i個觀測值;x和ˉy為變量x和y觀測值的平均值。實(shí)際計(jì)算中可以借助軟件完成[4]。結(jié)果表明:所有變量之間都存在相關(guān)關(guān)系,且PM2.5與PM10高度相關(guān)。同樣,對自建點(diǎn)“兩塵四氣”6個指標(biāo)和5個氣象參數(shù)計(jì)算相關(guān)系數(shù),也得到類似的結(jié)論。這說明空氣質(zhì)量指標(biāo)數(shù)據(jù)之間會相互影響,特別是PM2.5與PM10之間有較大的依賴關(guān)系。
以PM2.5為例(其余類似),首先建立簡單的一元線性回歸模型對自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn)。設(shè)PM2.5jz為自建點(diǎn)PM2.5的校準(zhǔn)值,PM2.5zjd為自建點(diǎn)PM2.5的原始值,PM2.5gkd為對應(yīng)時間國控點(diǎn)PM2.5的值。假設(shè)先不考慮其他空氣指標(biāo)的影響,PM2.5jz僅線性依賴于PM2.5zjd的值,即
PM2.5jz=β0+β1PM2.5zjd
(2)
式(2)中,β0和β1是未知的回歸系數(shù),由于校準(zhǔn)值應(yīng)該盡可能接近國控點(diǎn)數(shù)值,即
PM2.5gkd=PM2.5jz+ε
(3)
式(3)中,ε表示模型誤差,一般服從正態(tài)分布。綜合式(2)和式(3),自建點(diǎn)的一元線性回歸校準(zhǔn)模型如下:
PM2.5gkd=β0+β1PM2.5zjd+ε
(4)
式(4)中,國控點(diǎn)和自建點(diǎn)的數(shù)據(jù)都是已知的,需要求出2個回歸系數(shù)β0,β1,利用最小二乘法的原理(最小化誤差的平方和)可以求出這2個系數(shù),實(shí)際計(jì)算時通常借助數(shù)學(xué)軟件來求解,比如通過MATLAB軟件中的回歸命令regress,即可求出回歸系數(shù)[5],在數(shù)據(jù)選取方面,取前4 021 h數(shù)據(jù)作為模型訓(xùn)練,留最后1 000 h數(shù)據(jù)作預(yù)測檢驗(yàn)。模型計(jì)算結(jié)果如下:
PM2.5gkd=-0.012+0.802PM2.5zjd+ε
(5)
通過軟件計(jì)算來做回歸檢驗(yàn),回歸的R值約為0.942,數(shù)值接近1代表回歸模型成立。除PM2.5以外,其余5個空氣指標(biāo)(PM10,CO,NO2,SO2,O3)可做類似地校準(zhǔn)處理。6個空氣指標(biāo)一元線性回歸模型的平均絕對誤差值(MAE)如表4所示。
表4 一元線性回歸模型的平均絕對誤差值(MAE)
表4中,原始誤差1和訓(xùn)練值誤差針對檢測的前4 021 h數(shù)據(jù),原始誤差2和預(yù)測值誤差則是檢測的后1 000 h數(shù)據(jù)。原始誤差是自建點(diǎn)原始數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)的平均絕對誤差,訓(xùn)練值誤差和預(yù)測值誤差則是自建點(diǎn)校準(zhǔn)之后的數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)的平均絕對誤差。通過數(shù)值對比容易發(fā)現(xiàn),訓(xùn)練值誤差均小于原始誤差,說明按照模型對自建點(diǎn)數(shù)據(jù)做校準(zhǔn)有一定的效果。從預(yù)測值誤差來看,PM2.5、PM10、CO濃度、NO2濃度的預(yù)測值優(yōu)于原始數(shù)據(jù),SO2濃度、O3濃度的預(yù)測值比原始數(shù)據(jù)差,一方面說明模型有待改進(jìn),另一方面,從微型檢測儀自身的角度,也許儀器對SO2和O3的敏感性較差,檢測結(jié)果不準(zhǔn)導(dǎo)致校準(zhǔn)有難度。
在數(shù)據(jù)相關(guān)性分析中得出“兩塵四氣”6個指標(biāo)之間存在相關(guān)性,如國控點(diǎn)PM2.5與PM10的相關(guān)系數(shù)為0.89,自建點(diǎn)二者的相關(guān)系數(shù)高達(dá)0.96。此外,自建點(diǎn)PM2.5與5個氣象參數(shù)(溫度、風(fēng)速、濕度、氣壓、降水)之間也有相關(guān)性。因此,只用簡單的一元線性回歸模型來做數(shù)據(jù)校準(zhǔn)過于粗糙,應(yīng)建立多元回歸模型。仍然以PM2.5為例(其余類似),基于自建點(diǎn)的“兩塵四氣”6個指標(biāo)和5個氣象參數(shù)共11個指標(biāo),建立多元回歸模型:
PM2.5jz=β0+β1PM2.5zjd+β2PM10zjd+
...+β11Humidity
(6)
由于校準(zhǔn)值應(yīng)該盡可能接近國控點(diǎn)數(shù)值,即
PM2.5gkd=PM2.5jz+ε
(7)
綜合式(6)和式(7),可得自建點(diǎn)的多元回歸校準(zhǔn)模型如下:
PM2.5gkd=β0+β1PM2.5zjd+β2PM10zjd+
...+β11Humidity+ε
(8)
式(8)中,國控點(diǎn)和自建點(diǎn)的數(shù)據(jù)都是已知的,需要求出12個回歸系數(shù)β0,β1,…,β11,在計(jì)算中,先用全部變量作回歸分析,并作系數(shù)、方程的檢驗(yàn),再作逐步回歸,去掉系數(shù)無法通過檢驗(yàn)的變量。借助軟件計(jì)算,PM2.5的校準(zhǔn)模型結(jié)果如下:
PM2.5gkd=0.195PM2.5zjd+0.441PM10zjd+
6.350x(COzjd)+0.147x(NO2zjd)+
0.046x(O3zjd)-1.526Wind+
0.003Pressure-0.028Rain+
0.178Tem-0.285Humidity+
ε
(9)
式(9)中,x(COzjd)為自建點(diǎn)CO濃度;x(NO2zjd)為自建點(diǎn)NO2濃度;x(O3zjd)為自建點(diǎn)O3濃度;Wind為風(fēng)速;Pressure為壓強(qiáng);Rain為降水量;Tem為溫度;Humidty為濕度。式(9)中去掉了1項(xiàng)SO2,它的系數(shù)檢驗(yàn)未通過。其余5個空氣指標(biāo)[PM10,x(CO),x(NO2),x(SO2),x(O3)]可做類似校準(zhǔn)處理。同樣計(jì)算6個指標(biāo)的平均絕對誤差值,如表5所示。
表5 多元回歸模型的平均絕對誤差值(MAE)
與表4相比,6個指標(biāo)的訓(xùn)練值誤差更小,預(yù)測值PM2.5,CO,SO2反而變差。從機(jī)理分析來看,多元回歸模型更為合理,從數(shù)值結(jié)果來看,多元回歸整體優(yōu)于一元回歸,個別項(xiàng)誤差變大,但并不能說明模型不好,也許是數(shù)據(jù)本身的誤差導(dǎo)致。
本文對某公司研發(fā)的微型空氣質(zhì)量檢測儀檢測到的“兩塵四氣”數(shù)據(jù)進(jìn)行了分析和校準(zhǔn)研究,希望校準(zhǔn)結(jié)果接近國控點(diǎn)檢測數(shù)據(jù)。首先對原始數(shù)據(jù)進(jìn)行了探索性分析,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)匹配、數(shù)據(jù)差異性分析、相關(guān)性分析等;其次分別建立了一元線性回歸模型和多元回歸模型對自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn),并對模型做了檢驗(yàn)和誤差分析。結(jié)果表明:多元回歸模型的校準(zhǔn)效果整體更優(yōu)。然而,由于原始數(shù)據(jù)存在儀器誤差、測量誤差、氣象因素誤差等,導(dǎo)致校準(zhǔn)精度不是特別高,后續(xù)工作應(yīng)基于數(shù)據(jù)修正和模型改進(jìn)來展開。