紀(jì)張偉
(唐山職業(yè)技術(shù)學(xué)院 基礎(chǔ)部,河北 唐山 063000)
問題詳見2019年全國大學(xué)生數(shù)學(xué)建模競賽D題,這里對導(dǎo)致自建點數(shù)據(jù)與國控點數(shù)據(jù)造成差異的因素進行分析,并對照國控點數(shù)據(jù)建立數(shù)學(xué)模型對自建點數(shù)據(jù)進行校準(zhǔn).
借助SQL server數(shù)據(jù)庫,在附件2[1]中采用臨近點法插入整點,分別作出自建與國控點一天內(nèi)0:00~23:00的不同日期的“兩塵四氣”箱線圖及自建與國控點從2018年11月—2019年6月265 d“兩塵四氣”濃度變化差異的折線圖,得出自建點數(shù)據(jù)誤差相對較大的濃度指標(biāo)有CO,NO2,SO2,O3,而PM2.5與PM10相對較小.
只考慮天氣因素對自建點監(jiān)測數(shù)據(jù)誤差造成的影響,利用R軟件建立多元線行回歸模型,采用逐步回歸法進行變量選擇分別給出自建點數(shù)據(jù)誤差受到的天氣因素影響的指標(biāo),即PM2.5的數(shù)據(jù)差異主要受溫度,風(fēng)速的影響;PM10的數(shù)據(jù)差異主要受溫度的影響;CO的數(shù)據(jù)差異主要受壓強,溫度的影響,受風(fēng)速,濕度的影響較小;NO2數(shù)據(jù)差異主要受壓強,溫度,濕度的影響,受風(fēng)速的影響不明顯;SO2的數(shù)據(jù)差異主要受壓強,溫度的影響;O3的數(shù)據(jù)差異主要受溫度,風(fēng)速,壓強的影響.
要根據(jù)國控點數(shù)據(jù)對自建點數(shù)據(jù)校準(zhǔn),因此只考慮自建點“兩塵四氣”數(shù)據(jù)的校準(zhǔn),利用R語言建立自建點“兩塵四氣”分別與國控點“兩塵四氣”的多元線性回歸模型,利用逐步回歸進行變量選擇,并給予顯著性檢驗.通過已建立的回歸模型,計算出自建點的測量數(shù)據(jù),再根據(jù)公式測量平均誤差=(自建實際值-自建測量值)/樣本n,得到校對誤差=自建測量值+平均誤差-國控值,從而對國控點近鄰的自建點數(shù)據(jù)進行了良好校準(zhǔn).
1.假設(shè)自建點檢測的數(shù)據(jù)不受空氣質(zhì)量檢測儀本身、個人等因素的影響.
2.允許根據(jù)整時的國控點數(shù)據(jù)預(yù)測整時周圍5 min內(nèi)的自建點相關(guān)數(shù)據(jù).
3.國控點與近鄰自建點上采集的數(shù)據(jù)真實有效.
由于附件1[2]提供的數(shù)據(jù)是按小時監(jiān)控數(shù)據(jù),共4 200條.而附件2[1]的數(shù)據(jù)是按分鐘監(jiān)控數(shù)據(jù),共23 470條,而且整點外的數(shù)據(jù)較小,要比較自建點與國控點間各指標(biāo)的差異,必須將附件2中的數(shù)據(jù)整點簡化,為了減少人為誤差得到附件2中整點數(shù)據(jù),通過SQL server查詢方法查詢臨近點的值作為整點數(shù)據(jù).
畫出2018年11月—2019年6月265 d“兩塵四氣”自建與國控點濃度變化差異的折線圖(圖略)以及一天內(nèi)自建與國控點0:00~23:00的不同日期的“兩塵四氣”箱線圖,以PM2.5和CO為例,見圖1與圖2.通過圖形觀察得知,國控表與自建表五種氣體濃度變化趨勢相同,但也有一定的誤差.具體可以得到如下結(jié)論:自建點數(shù)據(jù)誤差相對較大的濃度指標(biāo)有CO,NO2,SO2,O3,而PM2.5與PM10相對較小.
圖1 國控點與自建點PM2.5的日濃度變化箱線圖
圖2 國控點與自建點CO的日濃度變化箱線圖
本題主要研究自控點與國控點數(shù)據(jù)造成差異的因素分析.一般空氣質(zhì)量檢測儀的監(jiān)控數(shù)據(jù)誤差,可能受眾多因素影響,如:人為因素,儀器自身因素,地點因素,天氣因素等.這里我們根據(jù)所給的附件數(shù)據(jù),只研究天氣因素(風(fēng)速、降水量、壓強、溫度、濕度)對數(shù)據(jù)造成的誤差,其余因素均不予考慮.
首先,利用Excel軟件將國控點中的數(shù)據(jù)與“自建點各個指標(biāo)數(shù)據(jù)整點表”進行無量綱化處理得到國控?zé)o量綱化表和自建無量綱化表.
其次,將兩表整合,用自建的“兩塵四氣”數(shù)據(jù)減去對應(yīng)國控的“兩塵四氣”數(shù)據(jù),得到自建點與國控點的“兩塵四氣”濃度誤差,進而分析風(fēng)速、降水量、壓強、溫度、濕度對“兩塵四氣”的濃度誤差的影響.嘗試多元線性回歸模型[3],具體如下:
以建立PM2.5濃度監(jiān)測誤差與風(fēng)速、壓強、降水量、溫度、濕度模型為例:
y1=β0+β1x1+β2x2+β3x3+β4x4+β5x5,ε~N(0,σ)
其中β0,β1,β2,β3,β4,β5為多元回歸系數(shù).
采用逐步回歸法[4]用R語言編程,程序代碼為
mydata<-read.csv(file.choose())
>head(mydata)
>tlm<-lm(mydata[,2]~mydata[,8]+mydata[,9]+mydata[,10]+mydata[,11]+mydata[,12],data=mydata)
> summary(tlm)
> tstep<-step(tlm)
> summary(tlm)
> tstep<-step(tlm)
結(jié)果如下:
Call:
lm(formula = mydata[,2]~ mydata[,8]+ mydata[,11],data = mydata)
Residuals:
Min 1Q Median 3Q Max
-523.84 -47.34 8.99 59.59 718.08
Coefficients:Estimate Std.Error t value Pr(>|t|)
(Intercept) 29.518512 3.767030 7.836 6.87e-15 ***
mydata[,8] 0.018741 0.006249 2.999 0.00274 **
mydata[,11]-0.091385 0.005485 -16.661 < 2e-16 ***
Signif.codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error:93.67 on 2458 degrees of freedom
Multiple R-squared: 0.1026,Adjusted R-squared: 0.1019
F-statistic:140.5 on 2 and 2458 DF, p-value:< 2.2e-16
通過Pr(>|t|)的值可知所有的檢驗均為顯著,因此所得回歸方程為:
y1=29.518 512+0.018 741x1-0.091 385x4
因此風(fēng)速和溫度是影響自建點PM2.5的監(jiān)測濃度誤差的關(guān)鍵因素,隨著風(fēng)速變大,PM2.5濃度升高;而溫度的升高,會導(dǎo)致PM2.5濃度降低.
同理類似得出結(jié)論:影響自建點PM10的監(jiān)測濃度誤差的關(guān)鍵因素是溫度,隨著溫度的升高PM10的濃度會隨之下降;影響自建點CO的監(jiān)測濃度誤差的關(guān)鍵因素是溫度和壓強,CO的濃度隨著壓強和溫度的提高而增加;影響自建點NO2的監(jiān)測濃度誤差的關(guān)鍵因素是溫度、濕度和壓強,NO2的濃度會隨著溫度、濕度和壓強的升高而升高;影響自建點SO2的監(jiān)測濃度誤差的關(guān)鍵因素是溫度和壓強,SO2的濃度會隨著壓強和溫度的升高而降低;影響自建點O3的監(jiān)測濃度誤差的關(guān)鍵因素是溫度、風(fēng)速和壓強,O3的濃度會隨著壓強的變大而升高,隨著溫度和風(fēng)速的升高而降低.
要根據(jù)國控點數(shù)據(jù)對自建點數(shù)據(jù)校對,因此不對附件2中天氣因素數(shù)據(jù)進行校對,只考慮自建點處PM2.5,PM10,CO,NO2,SO2,O3監(jiān)測數(shù)據(jù)的校對,具體建模步驟如下:
數(shù)據(jù)處理:由于CO的濃度與其他氣體濃度單位不統(tǒng)一應(yīng)先統(tǒng)一單位.
研究自建點PM2.5濃度與國控點PM2.5,PM10,CO,NO2,SO2,O3濃度的相關(guān)關(guān)系建立如下多元線性回歸模型:
z1=β0+β1w1+β2w2+β3w3+β4w4+β5w5+β6w6,ε~N(0,σ)
其中β0,β1,β2,β3,β4,β5,β6為多元回歸系數(shù).
1)采用逐步回歸法確定回歸變量,得到回歸方程為:
z1=35.420 268+1.153 459w1-0.102 907w2-0.160 784w4-0.161 531w5-0.174 849w6
2)殘差分析[5]及異常點檢測,如圖3.
圖3 殘差分析與異常值檢驗
圖3-a顯示殘差和擬合值之間數(shù)據(jù)點均勻分布在y=0兩側(cè),呈現(xiàn)出隨機的分布.
圖3-b顯示數(shù)據(jù)點按對角直線排列,趨于一條直線,并被對角直接穿過,直觀上符合正態(tài)分布.
圖3-c顯示數(shù)據(jù)點均勻分布在[-2.5,2.5]范圍內(nèi),呈現(xiàn)出隨機的分布.圖3-d顯示沒有出現(xiàn)等高線,則說明沒有影響回歸結(jié)果的異常點.
結(jié)論,沒有明顯的異常點,殘差符合假設(shè)條件.
3)自建點PM2.5濃度的校準(zhǔn)誤差
根據(jù)PM2.5濃度與國控點PM2.5,PM10,CO,NO2,SO2,O3濃度的多元線性回歸模型
z1=35.420 268+1.153 459w1-0.102 907w2-0.160 784w4-0.161 531w5-0.174 849w6
計算出自建點的測量數(shù)據(jù),再根據(jù)公式得到:
進而計算出自建點PM2.5濃度的校準(zhǔn)誤差=自建測量值+平均誤差-國控值
PM2.5校準(zhǔn)表部分如表1(單位μg/m3).
表1 自建點PM2.5濃度的校準(zhǔn)誤差
其他氣體濃度誤差的校準(zhǔn)同自建點PM2.5濃度校對的多元線性回歸模型解題思路,此處不做贅述.
建立了線性多元回歸模型,詳細(xì)分析了導(dǎo)致自建點數(shù)據(jù)與國控點數(shù)據(jù)造成差異的因素.給出了對自建點數(shù)據(jù)進行校準(zhǔn)的模型,值得微型空氣質(zhì)量儀的廠家進行參考.
自建點數(shù)據(jù)校準(zhǔn)的模型的精度有待進一步提高.
本模型可以推廣到化工廠的檢測排污儀器上.