孫一飛 夏帆 唐晨添 趙陸亮
摘要:運(yùn)用多種機(jī)器學(xué)習(xí)方法對(duì)給定電動(dòng)汽車(chē)數(shù)據(jù)建立了模型,對(duì)比發(fā)現(xiàn)了邏輯斯蒂回歸模型的性能最好,精確度達(dá)97.33%,最終選擇邏輯斯蒂回歸模型用于對(duì)電動(dòng)汽車(chē)的價(jià)格進(jìn)行預(yù)測(cè)。
關(guān)鍵詞:價(jià)格預(yù)測(cè);機(jī)器學(xué)習(xí);精確度
中圖分類(lèi)號(hào):F426
文獻(xiàn)標(biāo)識(shí)碼:A?文章編號(hào):1674-9944(2020)14-0266-03
1?引言
1.1?研究意義
伴隨著國(guó)家政策的實(shí)施和民眾消費(fèi)偏好的轉(zhuǎn)變,電動(dòng)汽車(chē)市場(chǎng)進(jìn)入了蓬勃發(fā)展時(shí)期。但是在受到國(guó)家補(bǔ)貼促進(jìn)作用的同時(shí),電動(dòng)汽車(chē)市場(chǎng)的發(fā)展對(duì)國(guó)家補(bǔ)貼政策的依賴(lài)性也逐漸加深。鐘財(cái)富[1]發(fā)現(xiàn)由于補(bǔ)貼大幅度下降,2019年,電動(dòng)汽車(chē)銷(xiāo)售量10年來(lái)首次降低。以往較大力度的補(bǔ)貼政策,導(dǎo)致電動(dòng)汽車(chē)的定價(jià)具有一定程度的不合理性,當(dāng)補(bǔ)貼作用下降的時(shí)候,消費(fèi)者會(huì)比以往更加關(guān)注電動(dòng)汽車(chē)的價(jià)格。因此本文希望運(yùn)用多種機(jī)器學(xué)習(xí)方法,通過(guò)對(duì)電動(dòng)汽車(chē)數(shù)據(jù)建立模型,選取最有效的模型對(duì)電動(dòng)汽車(chē)的價(jià)格進(jìn)行預(yù)測(cè),讓企業(yè)更合理地定價(jià),以促進(jìn)電動(dòng)汽車(chē)行業(yè)的發(fā)展。
1.2?文獻(xiàn)綜述
目前各種機(jī)器學(xué)習(xí)方法研究成果頗豐,Erhan Bergil等[2]使用KNN方法研究分析了6種不同手部運(yùn)動(dòng)的雙通道肌電圖記錄,取得了不錯(cuò)的效果;黃瑩,任偉[3]使用多分類(lèi)邏輯斯蒂回歸對(duì)允讓構(gòu)式進(jìn)行分析,發(fā)現(xiàn)允讓構(gòu)式具有統(tǒng)計(jì)性先占特征;Mohammad Reza Pahlavan-Rad等[4]使用簡(jiǎn)單(多元線性回歸)和復(fù)雜(隨機(jī)森林)模型來(lái)聯(lián)系協(xié)變量和滲透測(cè)量,發(fā)現(xiàn)隨機(jī)森林預(yù)測(cè)根據(jù)視覺(jué)審查被判斷為更接近現(xiàn)實(shí);
2?研究?jī)?nèi)容與研究方法
2.1?研究目的
使用多種機(jī)器學(xué)習(xí)方法在測(cè)試集上建立模型,比較各個(gè)方法在測(cè)試集上的精確度[1],選擇合適的模型,對(duì)電動(dòng)汽車(chē)進(jìn)行價(jià)格預(yù)測(cè)。
2.2?假設(shè)條件
特征的充分必要性:電動(dòng)汽車(chē)的價(jià)格由且只由給定的電動(dòng)汽車(chē)數(shù)據(jù)中的20 個(gè)屬性共同來(lái)決定。這個(gè)假設(shè)條件沒(méi)有現(xiàn)實(shí)意義上的必然性,但是由于獲取到的數(shù)據(jù)的限制,只能做出這種假設(shè)。
2.3?模型設(shè)立步驟
本文在假設(shè)條件成立的情況下,模型設(shè)立步驟如圖1所示。
(1)首先對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,檢查數(shù)據(jù)的平衡性、有無(wú)缺失值和異常值,然后進(jìn)行數(shù)據(jù)清洗、填補(bǔ)等操作。
(2)選擇K近鄰(k-Nearest Neighbor,KNN)、邏輯斯蒂回歸(Logistic Regression,LR)、隨機(jī)森林(random forest,RF)、支持向量機(jī)(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes Classifier ,NBC)、XGBoost、決策樹(shù)(decision tree,DT)以及人工神經(jīng)網(wǎng)絡(luò)(artificial neural network ,ANN)8種方法建立模型,然后基于前8種模型構(gòu)建GradientBoosting融合模型,進(jìn)行比較。
(3)選取最優(yōu)模型對(duì)電動(dòng)汽車(chē)進(jìn)行價(jià)格預(yù)測(cè)。
3?原始數(shù)據(jù)的描述性分析及數(shù)據(jù)清洗
3.1?數(shù)據(jù)來(lái)源
本文數(shù)據(jù)來(lái)自上海財(cái)經(jīng)大學(xué)數(shù)學(xué)學(xué)院舉辦的全國(guó)首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計(jì)算邀請(qǐng)賽初賽C題:電動(dòng)汽車(chē)價(jià)格預(yù)測(cè)相關(guān)數(shù)據(jù)。原始數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩部分,其中訓(xùn)練集1500條數(shù)據(jù),測(cè)試集500條數(shù)據(jù),由于給定的測(cè)試集數(shù)據(jù)沒(méi)有價(jià)格數(shù)據(jù),難以計(jì)算精確度,所以本文擬將測(cè)試集數(shù)據(jù)按7∶3的比例重新劃分出測(cè)試集和訓(xùn)練集兩部分?jǐn)?shù)據(jù)。
3.2?數(shù)據(jù)缺失情況分析
原始數(shù)據(jù)各標(biāo)簽有效數(shù)據(jù)均為1500條,缺失數(shù)據(jù)0條,沒(méi)有數(shù)據(jù)缺失,是完整的數(shù)據(jù)集。
3.3?原始數(shù)據(jù)樣本均衡情況分析
預(yù)測(cè)變量?jī)r(jià)格的4個(gè)等級(jí)類(lèi)別樣本量均在370個(gè)左右,原始數(shù)據(jù)樣本分布平衡(圖2)。
3.4?數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)是完整的平衡樣本,所以不需要進(jìn)行異常值、缺失值以及不平衡數(shù)據(jù)處理。由于本文使用的一些機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)量綱比較敏感,所以會(huì)對(duì)數(shù)據(jù)進(jìn)行歸一化處理,消除數(shù)據(jù)量綱的影響,提高模型性能。
4?建模與分析
在對(duì)數(shù)據(jù)進(jìn)行初步分析和預(yù)處理之后,開(kāi)始構(gòu)建模型,對(duì)模型進(jìn)行優(yōu)化分析。
4.1?KNN
建立KNN初始模型,使用網(wǎng)格搜索方法調(diào)整參數(shù),通過(guò)交叉驗(yàn)證方式獲得最終的KNN模型的精確度為93.33%。
4.2?Logistic回歸
分別使用擬牛頓法、牛頓法、隨機(jī)平均梯度下降法、改進(jìn)的隨機(jī)平均下降法構(gòu)建Logistic回歸模型,通過(guò)正則化方法消除過(guò)擬合現(xiàn)象,最終選擇牛頓法求解的模型作為L(zhǎng)ogistic模型的代表,其精確度為97.33%。
4.3?隨機(jī)森林
構(gòu)造初始模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi),獲得該模型的精確度。調(diào)整參數(shù)n_estimators,通過(guò)交叉驗(yàn)證方式,確定隨機(jī)森林里基評(píng)估器的最佳數(shù)目,使用網(wǎng)格搜索方法調(diào)整參數(shù),將最后調(diào)整好的參數(shù)寫(xiě)入隨機(jī)森林方法中構(gòu)造最終的隨機(jī)森林模型,通過(guò)交叉驗(yàn)證方式獲得代表性的隨機(jī)森林模型的精確度。最終構(gòu)建基評(píng)估器為142、最大樹(shù)深度為11、獲得分枝時(shí)考慮的特征個(gè)數(shù)為10、使用信息增益方法選取特征的隨機(jī)森林模型,其精確度為90.13%。
4.4?支持向量機(jī)(SVM)
由于數(shù)據(jù)中各個(gè)特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴(yán)重的量綱不一問(wèn)題,而SVM模型嚴(yán)重受到數(shù)據(jù)量綱的影響。為了消除數(shù)據(jù)量綱不一問(wèn)題對(duì)SVM模型的嚴(yán)重影響,首先將數(shù)據(jù)進(jìn)行歸一化預(yù)處理,使用線性核函數(shù)(linear)、多項(xiàng)式核函數(shù)(poly)、高斯徑向基核函數(shù)(rbf)以及雙曲正切核函數(shù)(sigmoid),分別構(gòu)建SVM模型并進(jìn)行比較,選出對(duì)測(cè)試集數(shù)據(jù)預(yù)測(cè)擬合效果最好的模型作為SVM模型的代表。最終選擇使用線性核函數(shù)構(gòu)建的SVM模型,其精確度為94.89%。
4.5?樸素貝葉斯模型
分別使用高斯分布樸素貝葉斯分類(lèi)器和多項(xiàng)式樸素貝葉斯分類(lèi)器構(gòu)造模型,對(duì)測(cè)試數(shù)據(jù)集數(shù)據(jù)進(jìn)行預(yù)測(cè),模型精確度都為82.08%和80.89%,
4.6?XGBoost
構(gòu)造初始模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi),獲得該模型的精確度。調(diào)整參數(shù)n_estimators,通過(guò)交叉驗(yàn)證方式,確定XGBoost里弱評(píng)估器的最佳數(shù)目,使用網(wǎng)格搜索方法調(diào)整參數(shù),將最后調(diào)整好的參數(shù)寫(xiě)入XGBoost方法中構(gòu)造最終的XGBoost模型,通過(guò)交叉驗(yàn)證方式獲得代表性的XGBoost模型的測(cè)試集精確度。最終構(gòu)建弱分類(lèi)器選定為梯度提升樹(shù)(gbtree)、個(gè)數(shù)為153 個(gè),subsample為0.75,reg_alpha為0.2,reg_lambda為0.65,gamma為0.2的XGBoost分類(lèi)器,其精確度為92.60%。
4.7?決策樹(shù)模型
構(gòu)建一般樹(shù)模型,進(jìn)行控制隨機(jī)性和剪枝操作,每一步操作都用信息增益和基尼指數(shù)兩種方法進(jìn)行特征選取,構(gòu)建六種模型,對(duì)比各模型的精確度,選出最優(yōu)模型。最后選擇進(jìn)行剪枝處理的最大樹(shù)深度為12的使用基尼系數(shù)方法進(jìn)行特征選擇的決策樹(shù)模型,其訓(xùn)練精確度為98.86%,精確度為81.33%。
4.8?人工神經(jīng)網(wǎng)絡(luò)(ANN)
構(gòu)建的多層感知機(jī)分類(lèi)器神經(jīng)網(wǎng)絡(luò)的精確度為66.64%,精確度很低,說(shuō)明模型擬合效果不理想??紤]到原始數(shù)據(jù)中各個(gè)特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴(yán)重的量綱不一問(wèn)題,所以對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,再建立模型擬合,模型的精確度為92.67%,歸一化處理數(shù)據(jù)后,模型的擬合效果有了很大的提升。
4.9?GradientBoosting融合模型
為了獲得性能更好的模型,嘗試使用Blending 方法通過(guò)集成學(xué)習(xí)方法GradientBoosting根據(jù)上述8個(gè)模型的結(jié)果構(gòu)造融合模型,分析是否會(huì)得到性能更好的模型,最終構(gòu)成的融合模型的精確度為90.22%,模型性能一般。
5?結(jié)論與展望
本文運(yùn)用多種機(jī)器學(xué)習(xí)方法,通過(guò)對(duì)收集到的電動(dòng)汽車(chē)數(shù)據(jù)建立模型,選取最有效的模型對(duì)電動(dòng)汽車(chē)的價(jià)格進(jìn)行預(yù)測(cè)。本文9種方法的精確度如表1所示。
邏輯斯蒂回歸模型的性能最好,決策樹(shù)和樸素貝葉斯模型的性能最差,最終選擇邏輯斯蒂回歸模型用于數(shù)據(jù)的預(yù)測(cè)。
參考文獻(xiàn)
[1]鐘財(cái)富.十字路口下的電動(dòng)汽車(chē)行業(yè)[J].中國(guó)投資(中英文),2020(Z4):59~60.
[2]Erhan Bergil, Canan Oral, Engin Ufuk Ergul. Efficient Hand Movement Detection Using k-Means Clustering and k-Nearest Neighbor Algorithms [J]. Journal of Medical and Biological Engineering, 2020?(prepublish).
[3]黃?瑩,任?偉.英語(yǔ)分析型允讓構(gòu)式的致使傾向研究——多分類(lèi)邏輯斯蒂回歸和多重對(duì)應(yīng)分析法[J].外語(yǔ)與外語(yǔ)教學(xué),2020(3):11~21,146.
[4]Mohammad Reza Pahlavan-Rad,Khodadad Dahmardeh, Mojtaba Hadizadeh Gholamali Keykha, et al. Prediction of soil water infiltration using multiple linear regression and random forest in a dry flood plain, eastern Iran[J]. Catena, 2020(194).