楊 進(jìn),李 慧,張雨晗
(貴州財經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計學(xué)院,貴州 貴陽 550025)
隨著社會經(jīng)濟(jì)發(fā)展步伐的加快和民眾消費(fèi)偏好的逐漸轉(zhuǎn)變,汽車已經(jīng)成為人們出行的主要工具,但是汽車尾氣的排放和能源的消耗給人們的生活帶來了一系列負(fù)面影響。例如,臭氧層的破壞、溫室效應(yīng)和酸雨的形成等環(huán)境問題,這不僅會對人類造成巨大的影響,而且給動植物也帶來了較大的危害。隨著生活質(zhì)量的提高,人們對自己生存環(huán)境的要求越來越高,降低汽車尾氣排放量的呼聲也與日俱增。新能源的出現(xiàn)使得汽車行業(yè)穩(wěn)步前進(jìn),汽車行業(yè)的良性發(fā)展改善著消費(fèi)經(jīng)濟(jì)結(jié)構(gòu),其中電動汽車消費(fèi)市場潛力巨大。面對資源緊缺與環(huán)境保護(hù)問題,電動汽車的發(fā)展成為汽車行業(yè)的主流趨勢。
近幾年,電動汽車領(lǐng)域發(fā)展迅速,發(fā)展電動汽車能帶動產(chǎn)業(yè)轉(zhuǎn)型升級、促進(jìn)節(jié)能減排。然而,根據(jù)中國汽車工業(yè)協(xié)會的調(diào)查顯示,我國電動汽車售價普遍偏高,2019年上半年燃油車的平均售價比電動汽車的平均售價要低81%,造成消費(fèi)者對電動汽車售價的接受程度較低。蔡秋茹(2020)運(yùn)用XGBoost分類和預(yù)測模型對測試集數(shù)據(jù)進(jìn)行價格預(yù)測,并且與支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等算法做了對比實驗,最終得出XGBoost分類算法的預(yù)測準(zhǔn)確率效果最佳,因此用XGBoost算法預(yù)測的結(jié)果作為最終的預(yù)測結(jié)果[1]。林倩云、邱國玉、曾惠等(2019)運(yùn)用“學(xué)習(xí)曲線”方法對“特斯拉”和“比亞迪”的電動汽車未來價格進(jìn)行了預(yù)測,并將其與傳統(tǒng)燃油汽車的價格進(jìn)行對比,為純電動汽車價格在未來的動態(tài)走勢提供了一種基于經(jīng)驗的估計[2]。李寶勝和秦傳東(2020)先對數(shù)據(jù)進(jìn)行獲取和相關(guān)處理,接著對電動汽車的20個特征進(jìn)行主成分分析,將得到的數(shù)據(jù)在支持向量機(jī)的基礎(chǔ)之上,用粒子群算法對支持向量機(jī)模型的參數(shù)進(jìn)行優(yōu)化選擇,從而實現(xiàn)對電動汽車的價格預(yù)測[3]。張曉宇、趙海斌、周小柯等(2010)對我國新能源汽車在發(fā)展過程中存在的一系列問題進(jìn)行了研究并提出了相應(yīng)的建議措施[4]。
黃瑩和任偉(2020)對允讓構(gòu)式用多分類邏輯斯蒂回歸方法來進(jìn)行分析,發(fā)現(xiàn)允讓構(gòu)式具有統(tǒng)計性先占特征[5]。閆兆煒(2012)分別從技術(shù)因素、市場因素、產(chǎn)業(yè)化發(fā)展因素等方面對中國新能源汽車產(chǎn)業(yè)發(fā)展進(jìn)行了研究[6]。
本文通過挖掘特征與價格之間的關(guān)系,利用所給出的20個特征對價格進(jìn)行預(yù)測,但通過這樣的預(yù)測得到的準(zhǔn)確率并不是很高。于是,在20個特征進(jìn)行處理和篩選后,選出較重要的10個特征,使用多種機(jī)器學(xué)習(xí)方法在測試集上建立模型,并比較各種方法在測試集上的精確度[7],選擇準(zhǔn)確率最高的模型對電動汽車價格進(jìn)行預(yù)測。將電動汽車的20個特征進(jìn)行預(yù)測的準(zhǔn)確率與將20個特征進(jìn)行處理之后預(yù)測的準(zhǔn)確率進(jìn)行對比,發(fā)現(xiàn)對特征進(jìn)行處理和篩選之后可以得出更高的準(zhǔn)確率。其中,在特征重要性的選取上采用了決策樹、隨機(jī)森林、Adaboost等多種機(jī)器學(xué)習(xí)方法,最終選出10個重要的特征對價格進(jìn)行預(yù)測,同時采用多種機(jī)器學(xué)習(xí)方法在測試集上進(jìn)行建模,通過模型層層篩選,最終達(dá)到提高價格預(yù)測準(zhǔn)確率的目的,最后利用測試集上的數(shù)據(jù)進(jìn)行檢驗。傳統(tǒng)的統(tǒng)計學(xué)預(yù)測方法對預(yù)測者個人經(jīng)驗的依賴度高,帶有一定的個人主觀因素。在大數(shù)據(jù)背景下,一系列機(jī)器學(xué)習(xí)具有準(zhǔn)確率高、魯棒性好的特點,因此機(jī)器學(xué)習(xí)也逐漸成為解決預(yù)測分類問題的最佳選擇。
本文采用的數(shù)據(jù)是源于上海財經(jīng)大學(xué)首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計算邀請賽的比賽數(shù)據(jù),數(shù)據(jù)給出了某品牌電動汽車不同規(guī)格的電動汽車特征與價格數(shù)據(jù)作為訓(xùn)練集,以另一批未知價格的電動汽車特征數(shù)據(jù)作為測試集。兩組數(shù)據(jù)集均有20個特征,其中有14個定量指標(biāo),包括feat1[電池可以一次性存儲的總能量(mAh)]、feat3(微處理器執(zhí)行速度)、feat5(前置攝像頭百萬像素)、feat7[內(nèi)存(以GB為單位)]、feat8[移動深度(cm)]、feat9(重量)、feat10(處理器核心數(shù))、feat11(主要相機(jī)百萬像素)、feat12(像素分辨率高度)、feat13(像素分辨率寬度)、feat14(以兆字節(jié)為單位的隨機(jī)存取存儲器)、feat15[屏幕高度(以cm為單位)]、feat16[屏幕寬度(以cm為單位)]、feat17(單個電池充電時間最長的時間);6個定性指標(biāo),包括feat2(是否有藍(lán)牙)、feat4(是否支持雙SIM卡)、feat6(是否支持4G)、feat18(是否有3G)、feat19(是否有觸摸屏)、feat20(是否有wifi);電動汽車價格(price)分為0、1、2、3這4個檔次。用于訓(xùn)練模型中的訓(xùn)練集共有15 000組數(shù)據(jù)和用于測試模型中的測試集共有5 000組數(shù)據(jù)。
數(shù)據(jù)的質(zhì)量分析主要用于檢查數(shù)據(jù)中是否存在缺失值和異常值等骯臟數(shù)據(jù)。通過運(yùn)用檢測代碼檢查電動汽車價格的訓(xùn)練集數(shù)據(jù)并沒有發(fā)現(xiàn)缺失數(shù)據(jù)。異常值是指樣本中的一些數(shù)據(jù)明顯偏離其他數(shù)值的樣本點。首先,對整個樣本數(shù)據(jù)進(jìn)行描述性統(tǒng)計,找出數(shù)據(jù)的最大值、最小值、四分位值等,判斷各樣本點的取值是否超出合理的范圍。其次,箱線圖很適合鑒別異常值,判斷標(biāo)準(zhǔn)是計算出數(shù)據(jù)中的最小估計值和最大估計值。如果數(shù)據(jù)超過這一范圍,說明該值可能為異常值。箱線圖會自動標(biāo)出此范圍,異常值則用圓圈表示。在這里對定量指標(biāo)的數(shù)據(jù)繪制箱線圖。由于各個屬性的單位量綱不一致,因此先對數(shù)據(jù)進(jìn)行歸一化處理,再繪出定量指標(biāo)的箱線圖(如圖1所示)。
由圖1可看出,feat5(前置攝像頭百萬像素)有3個離群點,feat12(像素分辨率高度)有2個離群點。由于這幾個異常值高于正常值的范圍,因此采用正常范圍內(nèi)的最大值替代。對feat5=19、18、17的點,均使用feat5=16進(jìn)行替代,對feat12=1 949,1 920的點,均用feat12=1 901替代。
觀測數(shù)據(jù)的分布特點及分布類型可以進(jìn)行探索性數(shù)據(jù)分析。對于定量變量進(jìn)行相關(guān)處理之后得出20個特征的分布直方圖(略)。
對于各個特征的相關(guān)性分析,本文運(yùn)用Pearson(皮爾遜)相關(guān)進(jìn)行分析,如果相關(guān)性值大于0.5,說明兩個特征之間的相關(guān)性很強(qiáng),其實際意義相似,可以只保留其中一個特征或者將兩個特征進(jìn)行合并,這樣可以避免出現(xiàn)多重共性。電動汽車的20個特征的相關(guān)熱力圖如圖2所示。
圖2 特征之間相關(guān)熱力圖
由于20個特征進(jìn)行價格預(yù)測的準(zhǔn)確率并不是很高,因此對這20個特征進(jìn)行特征的相關(guān)處理之后,再對價格進(jìn)行預(yù)測。由圖2可以得出特征5和特征11、特征12和特征13、特征15和特征16及特征6和特征18這4對特征的相關(guān)性值均大于0.5,說明其實際意義相似,可以只保留一個特征或?qū)蓚€特征合并。本文在特征5和特征11中選擇了特征11,在特征6和特征18中選擇了特征6,將特征12和特征13、特征15和特征16進(jìn)行合并處理。然后,用機(jī)器學(xué)習(xí)方法對17個特征進(jìn)行重要性排列,最終選擇排名前10的特征進(jìn)行再預(yù)測,預(yù)測效果評價見表1。由表1可知,其預(yù)測結(jié)果準(zhǔn)確率明顯高于特征處理之前。
表1 各算法的預(yù)測效果評價
為了有效判斷預(yù)測模型效果,用一批沒有參與預(yù)測模型建立的測試數(shù)據(jù)集來評價預(yù)測模型的準(zhǔn)確率。分別計算出它們的準(zhǔn)確度(accuracy),計算公式如下:
公式(1)中,TP、TN、FP、FN分別為二分類中的真正例、真反例、假正例、假反例?;煜仃囉糜诿枥L樣本數(shù)據(jù)的真實屬性與識別結(jié)果類型之間的關(guān)系。對角線元素表示各模式能夠被分類器正確識別的百分率,非對角線元素則表示發(fā)生錯誤判斷的百分率。
邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上屬于一種分類方法,用于估計某種事物的可能性;K近鄰法(K-Nearest neighbor,KNN)是一種常用的監(jiān)督學(xué)習(xí)方法,其工作機(jī)制如下:給定測試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個訓(xùn)練樣本,然后基于這k個“鄰居”的信息來進(jìn)行預(yù)測;隨機(jī)森林(Random Forest)是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器;支持向量機(jī)(Support Vector Machine,SVM)是一類按監(jiān)督的方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面,SVM可以通過核方法進(jìn)行非線性分類的核學(xué)習(xí)方法之一;XGBoost是一種集成學(xué)習(xí)算法,屬于Boosting算法的一種,其中心思想是集成許多弱分類器,以迭代的方式形成一個強(qiáng)分類器;隨機(jī)梯度下降(SGDC)是一種用于在線性分類器下的線性分類的判別學(xué)習(xí)方法。
基于以上幾種方法,將處理好的電動汽車價格數(shù)據(jù)導(dǎo)入分類模型和結(jié)果可視化代碼中,通過利用機(jī)器學(xué)習(xí)中的邏輯回歸、K近鄰法、隨機(jī)森林、支持向量機(jī)、XGBoost、隨機(jī)梯度下降6種模型算法進(jìn)行訓(xùn)練,最后將6種算法的預(yù)測效果進(jìn)行對比。由于對20個特征進(jìn)行價格預(yù)測的準(zhǔn)確率不是很高,因此為了能夠得出更高的準(zhǔn)確率,本文還進(jìn)行了特征篩選,將篩選之后的數(shù)據(jù)再次導(dǎo)入6種模型算法,得到表1中的評價結(jié)果。由表1可以看出,特征處理及篩選之后用支持向量機(jī)進(jìn)行預(yù)測的準(zhǔn)確率為97%,明顯高于其他模型的準(zhǔn)確率。所以,本文采用支持向量機(jī)模型預(yù)測電動汽車價格具有一定的優(yōu)勢。
通過SVM(支持向量機(jī))得到了高于其他模型的準(zhǔn)確率,因此利用支持向量機(jī)對測試集的電動汽車價格進(jìn)行預(yù)測。
通過支持向量機(jī)得到電動汽車的預(yù)測價格,值得注意的是,影響電動汽車價格的因素還有很多,比如電動汽車的供求關(guān)系、汽車的成本、社會的政策措施、消費(fèi)者的心理因素等涉及各個領(lǐng)域的特征。但是,本文主要是針對電動汽車的20個物理特征,利用機(jī)器學(xué)習(xí)的各種算法對電動汽車的測試數(shù)據(jù)集進(jìn)行預(yù)測,并選擇準(zhǔn)確率較高的算法,最后得出支持向量機(jī)的準(zhǔn)確率最高,因此選擇支持向量機(jī)的預(yù)測結(jié)果為最后的價格預(yù)測結(jié)果。