本文引用格式:薛云飛.基于機(jī)器學(xué)習(xí)的汽車二氧化碳排放量預(yù)測(cè)研究[J].自動(dòng)化與信息工程,2023,44(1):22-26;45.
XUE Yunfei. Research on prediction of automobile carbon dioxide emissions based on machine learning[J]. Automation & Information Engineering, 2023,44(1):22-26;45.
摘要:針對(duì)汽車尾氣排放物中二氧化碳(CO2)的排放量測(cè)量設(shè)備價(jià)格昂貴且測(cè)量精度低的問題,進(jìn)行基于機(jī)器學(xué)習(xí)的汽車二氧化碳排放量預(yù)測(cè)研究。首先,利用斯皮爾曼等級(jí)相關(guān)系數(shù)分析汽車特征之間的相關(guān)性,并過濾冗余特征;然后,利用隨機(jī)森林算法篩選出影響CO2排放量的4個(gè)核心特征;最后,分別基于線性回歸、梯度提升樹、XGBoost、支持向量機(jī)4種機(jī)器學(xué)習(xí)算法建立CO2排放量的預(yù)測(cè)模型,并通過模型效果對(duì)比和網(wǎng)格搜索調(diào)參,確定最佳的預(yù)測(cè)模型為基于梯度提升樹算法構(gòu)建的模型。預(yù)測(cè)值和真實(shí)值的對(duì)比結(jié)果表明,基于梯度提升樹算法構(gòu)建的模型具有較高的預(yù)測(cè)精度,能有效預(yù)測(cè)不同汽車每公里的CO2排放量。
關(guān)鍵詞:機(jī)器學(xué)習(xí);CO2排放量;斯皮爾曼等級(jí)相關(guān)系數(shù);隨機(jī)森林算法;預(yù)測(cè)模型
中圖分類號(hào):TP181????????????文獻(xiàn)標(biāo)志碼:A ?????????文章編號(hào):1674-2605(2023)01-0004-06
DOI:10.3969/j.issn.1674-2605.2023.01.004
Research on Prediction of Automobile Carbon Dioxide Emissions ?Based on Machine Learning
XUE Yunfei
(School of Mechatronics and Vehicle Engineering, Chongqing Jiaotong University,?Chongqing 400074, China)
Abstract:?Aiming at the problem of the high price and low measurement accuracy of the emission measurement equipment of carbon dioxide (CO2) in automobile exhaust emissions, the research on the prediction of automobile carbon dioxide emissions based on machine learning is carried out. Firstly, the correlation between automobile features is analyzed by using Spearman rank correlation coefficient, and redundant features are filtered; Then, the random forest algorithm is used to screen out four core characteristics that affect the emission of CO2; Finally, the prediction model of CO2?emissions is established based on four machine learning algorithms, namely linear regression, gradient lifting tree, XGBoost and support vector machine, and the best prediction model?is determined based on gradient lifting tree algorithm through model effect comparison and grid search parameter adjustment. The comparison between the predicted value and the real value shows that the model based on gradient lifting tree algorithm has high prediction accuracy and can effectively predict the CO2?emissions per kilometer of different automobile.
Keywords:?machine learning; CO2?emissions; Spearman rank correlation coefficient; random forest algorithm; prediction model
0 ?引言
隨著科技和經(jīng)濟(jì)的飛速發(fā)展,我國汽車保有量迅速增長,汽車尾氣已成為我國大氣污染物的主要來源之一[1]。汽車發(fā)動(dòng)機(jī)工作時(shí),燃油中的碳與氧結(jié)合生成的CO2約占汽車尾氣總排放量的20%[2]。CO2會(huì)引發(fā)溫室效應(yīng),影響全球氣候變化,因此對(duì)汽車尾氣中
的CO2排放量進(jìn)行測(cè)量是非常必要的。通過測(cè)量得到規(guī)定條件下汽車的CO2排放量,不僅可以確定汽車是否符合環(huán)保檢測(cè)尾氣標(biāo)準(zhǔn),還可以為環(huán)境污染管理提供碳排放數(shù)據(jù)。
目前,測(cè)量汽車CO2排放量的方法大都根據(jù)光學(xué)原理,利用CO和CO2等氣體對(duì)不同頻率的紅外光有
不同吸收率的特點(diǎn)進(jìn)行測(cè)量。汽車尾氣的測(cè)量設(shè)備主要有化學(xué)發(fā)光分析儀、可移動(dòng)的四極質(zhì)譜儀、新型非分光紅外線(non-dispersive infrared, NDIR)設(shè)備和改進(jìn)的氫火焰離子化檢測(cè)器(flame ionization detector, FID)等。王剛等[3]針對(duì)輕型汽車設(shè)計(jì)一款便攜式車載排放測(cè)試設(shè)備,依據(jù)非分光紅外法原理測(cè)量汽車的CO2排放量,穩(wěn)態(tài)工況下的測(cè)量誤差為2.54%。蘇茂輝[4]利用NDIR分析儀來測(cè)量汽車尾氣排放物中CO及CO2的濃度,測(cè)量誤差穩(wěn)定在2.5%之內(nèi)。隋修武?等[5]采用一體化結(jié)構(gòu)設(shè)計(jì)一套汽車排放瞬態(tài)工況法測(cè)量用氣體流量分析儀,用于測(cè)量汽車尾氣排放物中CO2的濃度值及排放量,測(cè)量誤差僅為0.93%。以上測(cè)量設(shè)備價(jià)格昂貴,動(dòng)態(tài)響應(yīng)差,只能滿足CO2濃度變化微小的工況。隨著人工智能技術(shù)的快速發(fā)展,有些學(xué)者將其應(yīng)用于汽車尾氣排放量的測(cè)量,如李小穎等[6]基于神經(jīng)網(wǎng)絡(luò)建立汽車尾氣排放物中CO的軟測(cè)量模型,該模型可在沒有汽車尾氣排放物專用測(cè)量儀器時(shí)進(jìn)行CO排放量的測(cè)量。受此啟發(fā),本文基于機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù),利用汽車行駛的信息數(shù)據(jù)來預(yù)測(cè)CO2排放量。
1 ?數(shù)據(jù)描述及預(yù)處理
本文的研究數(shù)據(jù)來源于開放數(shù)據(jù)平臺(tái)Kesci上的2022年加拿大汽車燃油消耗等級(jí)數(shù)據(jù)。該數(shù)據(jù)集有15個(gè)字段,共946條記錄,每條記錄包含唯一的汽車特征,數(shù)據(jù)集中的汽車特征信息如表1所示。
在Python3.8環(huán)境中進(jìn)行CO2排放量預(yù)測(cè)的分析和建模,編輯器采用Spyder。將2022年加拿大汽車燃油消耗等級(jí)數(shù)據(jù)導(dǎo)入Python后,先刪除無用特征ModelYear;再采用獨(dú)熱編碼方式對(duì)5列字符型的離散型特征進(jìn)行編碼處理,以方便后續(xù)輸入模型的分析。
2 ?特征選擇
2.1 ?斯皮爾曼相關(guān)性分析
斯皮爾曼相關(guān)性分析作為一種常用的描述性分析方法,可檢查特征間的相關(guān)性。當(dāng)特征間的相關(guān)性過大時(shí),可能引起模型不穩(wěn)定,導(dǎo)致模型的魯棒性較差[7]。2個(gè)特征的相關(guān)性可用相關(guān)系數(shù)的絕對(duì)值來表征。斯皮爾曼根據(jù)特征數(shù)據(jù)的位置順序計(jì)算2個(gè)特征的相關(guān)
系數(shù),不受數(shù)據(jù)本身影響,計(jì)算流程為:
1) 對(duì)2個(gè)特征X、Y排序;
因?yàn)樘卣髦挟惓V档闹戎怀霈F(xiàn)在數(shù)據(jù)的頭尾,所以斯皮爾曼相關(guān)系數(shù)降低了異常值對(duì)相關(guān)性的影響。2個(gè)特征之間的相關(guān)性等級(jí)如表2所示。
由表2可知:當(dāng)2個(gè)特征的相關(guān)系數(shù)的絕對(duì)值在0.8~1.0之間時(shí),說明2個(gè)特征呈極強(qiáng)相關(guān);當(dāng)2個(gè)特征的相關(guān)系數(shù)的絕對(duì)值大于0.95時(shí),說明2個(gè)特征極度相似,近似呈線性關(guān)系。本文設(shè)定相關(guān)性閾值為0.95,即2個(gè)特征的相關(guān)系數(shù)的絕對(duì)值大于0.95時(shí),只保留其中1個(gè)。
利用斯皮爾曼相關(guān)性分析計(jì)算汽車特征之間的相關(guān)系數(shù),并以熱力圖的形式將特征之間的相關(guān)系數(shù)可視化,如圖1所示。
由圖1可知,汽車不同特征之間共有8個(gè)相關(guān)系數(shù)的絕對(duì)值大于閾值0.95??蓜h除FuelConsumption (Comb(L/100 km))、CO2Rating、FuelConsumption (Comb(mpg))這三列冗余特征。
2.2 ?基于隨機(jī)森林算法的特征重要性評(píng)分
將刪除冗余特征后的數(shù)據(jù)按7∶3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集。其中,訓(xùn)練集數(shù)據(jù)有662個(gè)樣本,測(cè)試集數(shù)據(jù)有284個(gè)樣本?;陔S機(jī)森林算法對(duì)斯皮爾曼相關(guān)性分析后的汽車特征進(jìn)行重要性評(píng)分,只保留重要性評(píng)分較高的汽車特征來挖掘影響CO2排放量的核心特征。對(duì)于回歸問題,隨機(jī)森林內(nèi)部節(jié)點(diǎn)的特征按方差減少的標(biāo)準(zhǔn)來選擇[8]。
由圖2可知,F(xiàn)uelConsumption(City(L/100 km))特征與CO2排放量的相關(guān)性最大;在EngineSize(L)之后,汽車特征的重要性變得微乎其微。本文選擇重要性評(píng)分較高的4個(gè)特征FuelConsumption(City(L/100 km))、FuelConsumption(Hwy(L/100?km))、FuelType、EngineSize(L),即對(duì)CO2排放量影響較大的特征進(jìn)行建模。
3 ?模型構(gòu)建
本文基于線性回歸、梯度提升樹、XGBoost、支持向量機(jī)4種機(jī)器學(xué)習(xí)算法分別建立汽車CO2排放量的預(yù)測(cè)模型。
線性回歸是利用線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間的關(guān)系進(jìn)行建模的一種回歸分析[9]。
梯度提升樹以決策樹為基學(xué)習(xí)器,對(duì)于回歸問題決策樹是二叉回歸樹,其模型可表示為決策樹的加法模型[10],通過負(fù)梯度擬合的方式進(jìn)行迭代,逐漸減小與樣本真實(shí)值之間的殘差。
XGBoost作為梯度提升樹的高效實(shí)現(xiàn)[11],主要從算法本身、算法運(yùn)行效率、算法健壯性3個(gè)方面做了優(yōu)化,對(duì)每個(gè)弱學(xué)習(xí)器的建立過程做并行選擇,找出合適的子樹分裂特征和特征值。
支持向量機(jī)處理回歸問題時(shí),擬合訓(xùn)練的數(shù)學(xué)模型可表達(dá)為多維空間的某一曲管。如預(yù)測(cè)值與真實(shí)值的差值小于閾值,將不對(duì)此樣本點(diǎn)作懲罰;若超出閾值,則計(jì)算懲罰量[12]。
在Python3.8環(huán)境中導(dǎo)入各個(gè)機(jī)器學(xué)習(xí)算法的模塊,利用訓(xùn)練集的662個(gè)樣本訓(xùn)練各模型,各模型的超參數(shù)為默認(rèn)值;再將測(cè)試集284個(gè)樣本的特征數(shù)據(jù)導(dǎo)入訓(xùn)練好的模型進(jìn)行預(yù)測(cè)。
通過對(duì)比平均絕對(duì)誤差(mean absolute error, MAE)、均方根誤差(root mean square error,?RMSE)、平均百分比誤差(mean absolute percentage error, MAPE)、擬合優(yōu)度(R-squared,?R2)4個(gè)回歸性能評(píng)估指標(biāo),分析模型在測(cè)試集上的效果。4個(gè)回歸性能評(píng)估指標(biāo)的計(jì)算公式分別為
4個(gè)模型在測(cè)試集上的回歸性能評(píng)估指標(biāo)如表3所示。
法構(gòu)建的CO2排放量預(yù)測(cè)模型的4個(gè)回歸性能評(píng)估指標(biāo)均明顯優(yōu)于其他模型。
對(duì)基于梯度提升樹算法構(gòu)建的模型進(jìn)行網(wǎng)格搜索調(diào)參。因?yàn)闃涞目脭?shù)n_estimators和最大深度max_depth超參數(shù)對(duì)模型效果的影響較大,所以主要對(duì)這2個(gè)超參數(shù)進(jìn)行調(diào)節(jié)。調(diào)參時(shí),設(shè)置n_estimators的范圍為10~600,步長為10;max_depth的范圍為1~16,步長為1。以RMSE作為調(diào)參目標(biāo),網(wǎng)格搜索不同參數(shù)組合時(shí),該模型在測(cè)試集上的RMSE如圖3所示。
由圖3可以看出,網(wǎng)格搜索在第188次超參數(shù)組合時(shí),RMSE最小,此時(shí)對(duì)應(yīng)的n_estimators為220,max_depth為8?;谔荻忍嵘龢渌惴?gòu)建的模型調(diào)參前后的預(yù)測(cè)結(jié)果對(duì)比如表4所示。
由表4可知,模型調(diào)參后,測(cè)試集上的MAE,RMSE和MAPE均有一定程度的減??;可認(rèn)為當(dāng)n_estimators為220,max_depth為8,其他參數(shù)為默認(rèn)值時(shí),基于梯度提升樹算法構(gòu)建的模型就是本文CO2排放量預(yù)測(cè)的最佳模型。
為了直觀查看樣本預(yù)測(cè)值和真實(shí)值的情況,利用折線將預(yù)測(cè)值和真實(shí)值可視化?;谔荻忍嵘龢渌惴?gòu)建的模型預(yù)測(cè)值和真實(shí)值的對(duì)比折線圖如圖4所示。
由圖4可以看出,只有少部分樣本的預(yù)測(cè)值和真實(shí)值存在較小誤差,絕大部分樣本都能準(zhǔn)確預(yù)測(cè),模型預(yù)測(cè)效果較優(yōu)。
4 ?結(jié)束語
本文以2022年加拿大汽車燃油消耗等級(jí)數(shù)據(jù)中的CO2排放量作為研究目標(biāo),汽車的其他信息數(shù)據(jù)作為特征,分別基于4種機(jī)器學(xué)習(xí)算法建立了汽車CO2排放量預(yù)測(cè)模型。預(yù)測(cè)結(jié)果表明,調(diào)參后的基于梯度提升樹算法構(gòu)建的模型具有較高的預(yù)測(cè)精度。當(dāng)以克每公里為單位統(tǒng)計(jì)CO2的排放量時(shí),模型對(duì)284個(gè)樣本測(cè)試結(jié)果的均方根誤差僅為4.93,平均百分比誤差僅為0.71%。本文研究可為汽車環(huán)保部門測(cè)量汽車的CO2排放量提供一種新思路。
參考文獻(xiàn)
[1] 王麗君.西安市機(jī)動(dòng)車污染現(xiàn)狀及防治對(duì)策研究[D].西安:西安建筑科技大學(xué),2018.
[2]?王志欣,代長安,張博乾.汽油發(fā)動(dòng)機(jī)尾氣的售后治理措施[J].時(shí)代汽車,2021,350(2):176-177.
[3] 王剛,錢超,楊國良,等.基于輕型汽車排放測(cè)試系統(tǒng)的PEMS測(cè)量精度驗(yàn)證[J].工業(yè)計(jì)量,2021,31(5):5-9.
[4] 蘇茂輝.汽車排放測(cè)量技術(shù)與方法研究[D].武漢:武漢理工大學(xué),2006.
[5] 隋修武,李陽,杜玉紅,等.汽車排放瞬態(tài)工況法測(cè)量用氣體流量分析儀[C]//2008中國儀器儀表與測(cè)控技術(shù)進(jìn)展大會(huì)論文集(Ⅰ),總第159期,2008-05,中國湖南湘潭:《儀器儀表學(xué)報(bào)》雜志社,2008:181-184.
[6] 李小穎,侯志祥.神經(jīng)網(wǎng)絡(luò)軟測(cè)量技術(shù)在汽車發(fā)動(dòng)機(jī)排放中的應(yīng)用[J].交通與計(jì)算機(jī),2002(3):46-48.
[7] 劉振江.影響巷道出口溫濕度的單因素分析及正交實(shí)驗(yàn)研究[D].青島:青島理工大學(xué),2019.
[8] 張馨露.基于隨機(jī)森林回歸的出租車排放因子影響因素研究[D].沈陽:遼寧大學(xué),2020.
[9] 孔祥強(qiáng),劉曉東,尚燕平,等.基于多元線性回歸直膨式太陽能熱泵性能預(yù)測(cè)[J].太陽能學(xué)報(bào),2022,43(1):443-449.
[10] 張子薇.基于改進(jìn)GBDT算法的光伏發(fā)電功率預(yù)測(cè)研究[D].?保定:華北電力大學(xué),2018.
[11] 李澤宇.云計(jì)算下基于優(yōu)化XGBoost的網(wǎng)約車供需預(yù)測(cè)研究[D].呼和浩特:內(nèi)蒙古工業(yè)大學(xué),2018.
[12] 楊茂,陳新鑫,張強(qiáng),等.基于支持向量機(jī)的短期風(fēng)速預(yù)測(cè)研究綜述[J].東北電力大學(xué)學(xué)報(bào),2017,37(4):1-7.
作者簡介:
薛云飛,男,1997年生,碩士研究生,主要研究方向:數(shù)據(jù)挖掘與人工智能。E-mail: 1778803707@qq.com