摘要:隨著我國(guó)人民生活水平和汽車(chē)制造技術(shù)水平的快速提升,社會(huì)汽車(chē)保有量迅速增長(zhǎng),然而汽車(chē)排放的有害物質(zhì)(CO、HC、NO)引發(fā)的城市大氣污染問(wèn)題也日益嚴(yán)重。目前,遙感檢測(cè)技術(shù)在檢測(cè)汽車(chē)尾氣含量時(shí)容易受到天氣影響,導(dǎo)致取樣數(shù)據(jù)不準(zhǔn)確等問(wèn)題,給汽車(chē)監(jiān)管部門(mén)的精準(zhǔn)執(zhí)法帶來(lái)了較大困難。文章利用遙感檢測(cè)儀對(duì)汽車(chē)尾氣數(shù)據(jù)進(jìn)行采集,研究了精準(zhǔn)預(yù)測(cè)汽車(chē)排放有害物質(zhì)(CO、HC、NO)數(shù)據(jù)的方案,提出了W-Gea算法,實(shí)現(xiàn)了對(duì)汽車(chē)尾氣數(shù)據(jù)的精準(zhǔn)預(yù)測(cè)。
關(guān)鍵詞:W-Gea;汽車(chē)尾氣;預(yù)測(cè)算法;增強(qiáng)梯度
中圖分類(lèi)號(hào):TP312 文獻(xiàn)標(biāo)志碼:A
0 引言
目前,基于遙感檢測(cè)技術(shù)的方法被廣泛用于汽車(chē)尾氣排放污染物含量的檢測(cè),但存在一定的缺陷,在實(shí)際檢測(cè)過(guò)程中非常容易受到天氣的影響,從而導(dǎo)致檢測(cè)到的單個(gè)汽車(chē)尾氣排放數(shù)據(jù)中存在大量的異常和殘缺數(shù)據(jù)[1]。本文針對(duì)含有大量異常、殘缺的原始尾氣數(shù)據(jù)(CO、HC、NO)不能直接進(jìn)行汽車(chē)尾氣監(jiān)測(cè)的問(wèn)題,研究出精準(zhǔn)的預(yù)測(cè)算法,以對(duì)這些異常、殘缺數(shù)據(jù)進(jìn)行精準(zhǔn)預(yù)測(cè)。
1 數(shù)據(jù)獲取
本文利用獲取到的完整汽車(chē)尾氣數(shù)據(jù)集進(jìn)行汽車(chē)尾氣含量預(yù)測(cè)研究。遙感尾氣監(jiān)測(cè)系統(tǒng)基本原理如圖1所示。
將遙感尾氣檢測(cè)設(shè)備安裝在接近汽車(chē)排氣管的尾部,被測(cè)汽車(chē)按照平時(shí)正常行駛狀態(tài)分別在不同天氣(雨天、陰天、多云、晴天)下以不同的車(chē)速(10、30 km/h)行駛2 km,分別在20天里每天進(jìn)行10次重復(fù)采集,獲取汽車(chē)尾氣數(shù)據(jù)結(jié)果(CO、HC、NO)。記錄10輛汽車(chē)的車(chē)牌號(hào)、車(chē)主信息、汽車(chē)速度、車(chē)身長(zhǎng)度、車(chē)輛質(zhì)量、汽車(chē)排量、是否有汽車(chē)催化轉(zhuǎn)化器和當(dāng)天溫度信息。
2 汽車(chē)尾氣含量預(yù)測(cè)算法
2.1 加權(quán)增強(qiáng)梯度算法
一般的集成回歸樹(shù)的原理如圖2所示,基本思想是通過(guò)不斷地添加一個(gè)新的回歸樹(shù),通過(guò)特征樹(shù)的分裂重新生長(zhǎng)一棵樹(shù)。每次增加一棵新的回歸樹(shù),本質(zhì)是通過(guò)特征屬性去訓(xùn)練學(xué)習(xí)這棵樹(shù)對(duì)應(yīng)的新函數(shù),目的是將前一棵樹(shù)訓(xùn)練學(xué)習(xí)完的殘差放到下一棵樹(shù)對(duì)應(yīng)的函數(shù)中去繼續(xù)訓(xùn)練學(xué)習(xí),這樣通過(guò)不斷的迭代、不斷的訓(xùn)練學(xué)習(xí)使得最后的預(yù)測(cè)值更加接近真實(shí)值。當(dāng)在設(shè)定空間完成K棵樹(shù)的訓(xùn)練學(xué)習(xí)后,就會(huì)得到最終的預(yù)測(cè)值。最終的預(yù)測(cè)值是將要預(yù)測(cè)樣本的特征值隨機(jī)地對(duì)應(yīng)到每棵樹(shù)的某個(gè)葉子節(jié)點(diǎn)上,經(jīng)過(guò)迭代、訓(xùn)練、學(xué)習(xí)后將每棵樹(shù)上對(duì)應(yīng)同一樣本特征的葉子節(jié)點(diǎn)上的數(shù)加在一起得到的值。
結(jié)合梯度提升樹(shù)和對(duì)權(quán)重自行選擇2種方法的高效融合實(shí)現(xiàn)加權(quán)增強(qiáng)梯度算法(Weighted Gradient Enhancement Algorithm,W-Gea)[2]。W-Gea對(duì)具有規(guī)律結(jié)構(gòu)化的數(shù)據(jù)有著很強(qiáng)的建模能力,可以對(duì)數(shù)據(jù)的特征進(jìn)行自行選擇,不易發(fā)生數(shù)據(jù)過(guò)度擬合的情況,并且支持多線程并行處理。本節(jié)利用獲取的汽車(chē)尾氣數(shù)據(jù)建立W-Gea的預(yù)測(cè)模型。針對(duì)給出的訓(xùn)練學(xué)習(xí)的樣本數(shù)據(jù)集,W-Gea算法通過(guò)加強(qiáng)學(xué)習(xí)去迭代、訓(xùn)練、學(xué)習(xí)每次增加的回歸樹(shù),并自行對(duì)影響遙感檢測(cè)技術(shù)檢測(cè)的不穩(wěn)定因素進(jìn)行加權(quán)處理。
模型的輸入包括通過(guò)遙感檢測(cè)技術(shù)獲取的汽車(chē)尾氣中完整的CO、HC、NO含量(單位:g/km)、汽車(chē)速度、車(chē)身長(zhǎng)度、汽車(chē)質(zhì)量、汽車(chē)排量、燒然是否有催化轉(zhuǎn)化器、當(dāng)天溫度。模型的標(biāo)準(zhǔn)輸出包括基于遙感檢測(cè)技術(shù)檢測(cè)的異常、殘缺汽車(chē)尾氣中CO、HC、NO的預(yù)測(cè)含量。
2.1.1 預(yù)測(cè)函數(shù)
W-Gea的預(yù)測(cè)函數(shù)P(x)為:
其中,yi為預(yù)測(cè)值,f(x)為回歸樹(shù)對(duì)應(yīng)的函數(shù),η為f(x)的設(shè)定空間,q(x)為樣本x對(duì)應(yīng)到回歸樹(shù)某個(gè)葉子節(jié)點(diǎn)上的特征值,w為該葉子節(jié)點(diǎn)的預(yù)測(cè)值,wq(x)為第k棵回歸樹(shù)對(duì)應(yīng)函數(shù)fk對(duì)樣本的預(yù)測(cè)值。
2.1.2 目標(biāo)損失函數(shù)
W-Gea的目標(biāo)損失函數(shù)L(P)為:
W-Gea在第t次迭代后的預(yù)測(cè)值為前t-1次迭代后的預(yù)測(cè)值與第t棵回歸樹(shù)的預(yù)測(cè)值之和,得:
y(t)i=y(t-1)i+ft(xi)(5)
目標(biāo)損失函數(shù)為:
對(duì)目標(biāo)函數(shù)L在yt-1i處進(jìn)行泰勒展開(kāi)式展開(kāi),可得:
其中,對(duì)一階梯度gi,二階梯度hi有:
對(duì)公式(7)進(jìn)一步化簡(jiǎn)得:
將:
帶入公式(10),可得化簡(jiǎn)后的目標(biāo)函數(shù):
定義一棵樹(shù)上的每個(gè)葉子節(jié)點(diǎn)上的特征值集合為:
Ij={i|q(xi)=j}(13)
目標(biāo)損失函數(shù)轉(zhuǎn)化為一個(gè)一元二次函數(shù):
進(jìn)一步化簡(jiǎn)得:
其中
令公式(14)中目標(biāo)損失函數(shù)L(t)1的導(dǎo)數(shù)為0,可得L(t)1的最小值,則該葉子節(jié)點(diǎn)最終的預(yù)測(cè)值:
L(t)1的最小值為:
進(jìn)而通過(guò)不斷列舉出每棵樹(shù)的不同結(jié)構(gòu),并根據(jù)公式w*j迭代學(xué)習(xí)后確定最優(yōu)回歸樹(shù)結(jié)構(gòu)。但是回歸樹(shù)的葉子可無(wú)限增加,因此窮舉法不現(xiàn)實(shí)。W-Gea設(shè)計(jì)時(shí)加入了貪心算法,利用貪心算法去分割已經(jīng)存在的每棵樹(shù)的葉子節(jié)點(diǎn),這樣就可避免窮舉法去增加不同結(jié)構(gòu)的樹(shù)。每一個(gè)葉子節(jié)點(diǎn)在進(jìn)行分割前和分割后的增益為:
基于上述函數(shù)思想,對(duì)9個(gè)維度的輸入數(shù)據(jù)分別乘上平均權(quán)重作為W-Gea模型的輸入,權(quán)重計(jì)算公式為:
最后,選擇分割前與分割后增益Gain最大的葉子節(jié)點(diǎn)進(jìn)行貪心算法的分割,定義最開(kāi)始回歸樹(shù)的值為0,通過(guò)不斷分割、學(xué)習(xí)、迭代確定最終K棵回歸樹(shù) 的最優(yōu)結(jié)構(gòu),從而確立了W-Gea算法的模型,對(duì)汽車(chē)尾氣數(shù)據(jù)進(jìn)行預(yù)測(cè)。
2.2 實(shí)驗(yàn)結(jié)果與分析
本文將獲取的汽車(chē)尾氣完整數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集,對(duì)獲取的汽車(chē)尾氣完整數(shù)據(jù)進(jìn)行人為刪除部分?jǐn)?shù)據(jù),將處理得到的數(shù)據(jù)集作為尾氣預(yù)測(cè)數(shù)據(jù)集。在尾氣預(yù)測(cè)數(shù)據(jù)集上訓(xùn)練預(yù)測(cè)模型,確定體現(xiàn)算法相對(duì)準(zhǔn)確的4個(gè)指標(biāo):平均方根偏差(Mean Root Deviation,MRD)、相關(guān)系數(shù)R、擬合度(Degree of Fitting,DF)和平均絕對(duì)偏差(Mean Absolute Deviation,MAD)。MRD、R、DF和MAD指標(biāo)定義如下:
CO尾氣含量預(yù)測(cè)如圖3和表1所示。
HC尾氣含量預(yù)測(cè)如圖4和表2所示。
NO尾氣含量預(yù)測(cè)如圖5和表3所示。
從實(shí)驗(yàn)結(jié)果可以看出:W-Gea的尾氣含量預(yù)測(cè)算法準(zhǔn)確性最好。在對(duì)CO、HC和NO尾氣含量預(yù)測(cè)時(shí),相關(guān)系數(shù)R分別為0.87、0.85、0.86高于0.75、0.73、0.71(XGBoost)和0.64、0.70、0.66 (MLP)。從預(yù)測(cè)結(jié)果可以看出:對(duì)汽車(chē)尾氣污染物CO、HC、NO進(jìn)行預(yù)測(cè)時(shí),W-Gea算法的測(cè)試指標(biāo)R和DF都高于XGBoost方法與MLP方法[3-4],其測(cè)試誤差MRD和MAD也最小,對(duì)CO、HC、NO的預(yù)測(cè)得到了相同的結(jié)論。
從圖3、圖4與圖5中的W-Gea曲線與真實(shí)值曲線比較可知,W-Gea的汽車(chē)尾氣含量預(yù)測(cè)的結(jié)果與真實(shí)的汽車(chē)尾氣數(shù)據(jù)結(jié)果幾乎重合,得出該算法模型對(duì)汽車(chē)尾氣測(cè)試樣本中汽車(chē)尾氣含量的預(yù)測(cè)結(jié)果更接近于真實(shí)值。因此,在基于不同測(cè)試指標(biāo)對(duì)遙感技術(shù)檢測(cè)到的汽車(chē)尾氣中大量的異常數(shù)據(jù)、殘缺數(shù)據(jù)進(jìn)行預(yù)測(cè)的表現(xiàn),可得W-Gea的尾氣含量預(yù)測(cè)算法模型與XGBoost方法和MLP方法相比,對(duì)汽車(chē)尾氣數(shù)據(jù)的預(yù)測(cè)效果具有更好的準(zhǔn)確性。
3 結(jié)語(yǔ)
本文針對(duì)遙感檢測(cè)技術(shù)檢測(cè)汽車(chē)尾氣排放污染物數(shù)值時(shí),檢測(cè)結(jié)果易受到天氣環(huán)境影響而得到異常、殘缺數(shù)值的問(wèn)題,利用經(jīng)過(guò)處理得到的汽車(chē)尾氣測(cè)試數(shù)據(jù)集,建立本文中W-Gea的尾氣含量預(yù)測(cè)算法模型,對(duì)汽車(chē)尾氣排放的真實(shí)水平進(jìn)行預(yù)測(cè),并通過(guò)實(shí)驗(yàn)證明W-Gea模型預(yù)測(cè)的準(zhǔn)確度高于XGBoost算法和MLP方法。
參考文獻(xiàn)
[1]石于.我國(guó)機(jī)動(dòng)車(chē)尾氣排放控制現(xiàn)狀與對(duì)策[J].智能城市應(yīng)用,2022(1):70-72.
[2]LUCA P D,NICOLA F.Energy consumption forecasts by gradient boosting regression trees[J].Mathematics,2023(5):1068.
[3]陳玉敏,魏陽(yáng),常政威,等.基于遙感數(shù)據(jù)和XGBoost算法的31個(gè)城市NO2、CO2濃度比率變化特征[J].地球科學(xué)與環(huán)境學(xué)報(bào),2023(6):1355-1367.
[4]崔立卿,王勝男,袁海范,等.基于神經(jīng)網(wǎng)絡(luò)MLP和RBF的全社會(huì)用電量預(yù)測(cè)研究[J].電力大數(shù)據(jù),2023(9):31-39.
Research on accurate prediction of automobile exhaust data based on W-Gea algorithm
Abstract: With the continuous improvement of people’s living standard and the rapid improvement of automobile manufacturing technology in China, the number of vehicles in the society has grown rapidly, but the urban air pollution problem caused by harmful substances (CO, HC, NO) emitted by vehicles is also becoming more and more serious. At present, remote sensing detection technology is easy to be affected by weather when detecting automobile exhaust content, resulting in inaccurate sampling data and other problems, which brings great difficulties to accurate law enforcement by automobile regulators. In this paper, the remote sensing detector is used to collect the vehicle exhaust data, and the accurate prediction scheme of the vehicle emission harmful substances (CO, HC, NO) is studied, and the W-Gea algorithm is proposed to realize the accurate prediction of the vehicle exhaust data.
Key words: W-Gea; automobile exhaust; prediction algorithm; gradient enhancement