楊康
摘要:為解決二手車交易價(jià)格的預(yù)測(cè)問(wèn)題,本文建立了基于XGboost和LightGBM的線性融合模型對(duì)二手車交易價(jià)格進(jìn)行預(yù)測(cè)。首先對(duì)數(shù)據(jù)進(jìn)行清洗,包括異常值檢驗(yàn)和缺失值處理。由于交易價(jià)格頻率分布呈現(xiàn)右偏情況,因此對(duì)交易價(jià)格進(jìn)行對(duì)數(shù)調(diào)整使其呈現(xiàn)正態(tài)分布。模型對(duì)于時(shí)間變量學(xué)習(xí)效果較差,本文將時(shí)間變量轉(zhuǎn)換為數(shù)值變量進(jìn)行模型學(xué)習(xí)。根據(jù)不同離散數(shù)據(jù)的特點(diǎn)分別采用獨(dú)熱編碼和目標(biāo)編碼進(jìn)行編碼處理。模型調(diào)優(yōu)采用5折交叉驗(yàn)證和網(wǎng)格搜索對(duì)模型的參數(shù)進(jìn)行優(yōu)化,最后將XGboost與LightGBM以0.55:0.45的比例進(jìn)行模型融合,并在測(cè)試集上的評(píng)分為0.5915,為二手車平臺(tái)的定價(jià)提供了重要依據(jù)。
關(guān)鍵詞:XGboost模型; LightGBM模型;數(shù)據(jù)編碼;二手車;模型融合
0 引言
隨著我國(guó)經(jīng)濟(jì)的飛速發(fā)展以及人們生活水平的提高,機(jī)動(dòng)車的數(shù)量也不斷升高。對(duì)于一些資金不足的賣家來(lái)說(shuō),二手車是一個(gè)不錯(cuò)的選擇,同時(shí)二手車也能夠使得資源得到更大限度的利用。到2014年,中國(guó)成為世界上第二大二手車市場(chǎng),僅次于美國(guó);到2020年,中國(guó)二手車銷量達(dá)到2230萬(wàn)輛[1]。隨著二手車需求的增加,二手車的定價(jià)問(wèn)題成為了二手車交易平臺(tái)需要考慮的問(wèn)題。如果定價(jià)過(guò)低會(huì)使得二手車銷售平臺(tái)的利益得到損失定價(jià)過(guò)高會(huì)導(dǎo)致二手車滯銷消耗更多的倉(cāng)儲(chǔ)費(fèi)用,也同樣會(huì)影響二手車平臺(tái)的收益。
1數(shù)據(jù)預(yù)處理
1.1異常值處理
計(jì)算全部數(shù)據(jù)二手車交易價(jià)格上四分位數(shù)、中位數(shù)、下四分位數(shù)以及均值,分析數(shù)據(jù)分布發(fā)現(xiàn)一個(gè)明顯的離群值109000,查找該組數(shù)據(jù)的所對(duì)應(yīng)的新車價(jià)為15.28萬(wàn)元,合理推測(cè)該離群值可能單位錯(cuò)誤將其轉(zhuǎn)換為萬(wàn)元對(duì)應(yīng)10.90萬(wàn)元,修改該數(shù)據(jù)為10.90萬(wàn)元。
1.2缺失值處理
數(shù)據(jù)集為門(mén)店二手車交易數(shù)據(jù),存在缺失值。計(jì)算各特征的缺失率(缺失率=有缺失值得樣本數(shù)/總樣本數(shù)),其中匿名15得缺失率甚至達(dá)到了92%,缺失值的存在會(huì)影響后續(xù)模型的建立,對(duì)于缺失率較高的特征予以剔除,其他缺失數(shù)值特征采用均值填充,離散特征采用出現(xiàn)頻率最高的變量填充,對(duì)于離散特征需進(jìn)行編碼[2],本文采用目標(biāo)編碼和獨(dú)熱編碼處理。
1.4數(shù)值特征正太化處理
計(jì)算得知二手車的交易價(jià)格的平均值為14.04萬(wàn)元,標(biāo)準(zhǔn)差為14.007,在1到10萬(wàn)所占的比例較大,數(shù)據(jù)呈現(xiàn)有右偏情況,因此需要對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)調(diào)整,與此同時(shí)對(duì)價(jià)格數(shù)據(jù)做對(duì)數(shù)變換后還會(huì)防止模型的預(yù)測(cè)數(shù)據(jù)出現(xiàn)小于0的情況,根據(jù)下式對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。
經(jīng)過(guò)對(duì)數(shù)調(diào)整后的交易價(jià)格的頻率分布服從正太分布。
2模型的建立
2.1 模型的評(píng)價(jià)標(biāo)準(zhǔn)
以平均相對(duì)誤差以及誤差準(zhǔn)確率作為對(duì)模型評(píng)價(jià)的標(biāo)準(zhǔn),其中平均相對(duì)誤差為訓(xùn)練集中所有樣本的預(yù)測(cè)值與真實(shí)值相對(duì)誤差的平均值,公式為
2.2 XGboost模型建立及調(diào)優(yōu)
XGboost(Extreme Gradient Boosting)由華盛頓大學(xué)的陳天奇博士提出,最開(kāi)始作為分布式機(jī)器學(xué)校研究社區(qū)小組的研究項(xiàng)目之一,后來(lái)在數(shù)據(jù)科學(xué)應(yīng)用種廣泛應(yīng)用[3]。XGboost對(duì)各類任務(wù)都具有良好的學(xué)習(xí)能力,因此本文選用XGboost模型進(jìn)行建模。
對(duì)應(yīng)XGboost模型參數(shù)的調(diào)優(yōu),本文采用留出法和5折交叉驗(yàn)證混合的方式對(duì)XGboost模型進(jìn)行調(diào)參和評(píng)估。
留出法的驗(yàn)證方式最為簡(jiǎn)單直接,在訓(xùn)練過(guò)程中僅分割一次數(shù)據(jù),模型調(diào)參過(guò)程過(guò)分依賴于數(shù)據(jù)劃分情況。5折交叉驗(yàn)證將訓(xùn)練集的數(shù)據(jù)劃分為5個(gè)數(shù)量相等數(shù)據(jù)塊,每次使用第i(i=1,2…5)個(gè)數(shù)據(jù)塊作為模型的驗(yàn)證數(shù)據(jù),而其余數(shù)據(jù)塊作為模型的訓(xùn)練數(shù)據(jù),反復(fù)5次,得到5個(gè)不同的評(píng)分,將其取平均值作為該參數(shù)的評(píng)分。
留出法和5折交叉驗(yàn)證混合進(jìn)行調(diào)參和評(píng)估的思路是:首先使用5折交叉驗(yàn)證對(duì)模型參數(shù)進(jìn)行逐個(gè)調(diào)參,確定最優(yōu)參數(shù)后,在最初始劃分的訓(xùn)練集中計(jì)算模型的最終評(píng)分并展示其預(yù)測(cè)效果。本方法的優(yōu)點(diǎn)是保證一部分?jǐn)?shù)據(jù)始終未參與模型的訓(xùn)練,使用這部分?jǐn)?shù)據(jù)對(duì)模型進(jìn)行評(píng)估,得到評(píng)估結(jié)果更加接近于真實(shí)預(yù)測(cè)情況。同時(shí),本方法也大大增加了模型的泛化能力。
經(jīng)過(guò)網(wǎng)格搜索和5折交叉驗(yàn)證,n_estimators在取值 [1000,1200,1500,2000]和learning_rate在取值 [0.05,0.06,0.1,0.15,0.2] 中確定最優(yōu)的 n_estimators為1500,learning_rate為0.15。此時(shí)模型在訓(xùn)練集的得分為0.5697。
使用XGboost模型,計(jì)算其在測(cè)試集的評(píng)分為0.5650與訓(xùn)練集的0.5697相差無(wú)幾,證明該模型泛化能力較強(qiáng),具有良好的預(yù)測(cè)效果。
2.3 LightGBM模型的建立和調(diào)優(yōu)
對(duì)于LightGBM模型的超參數(shù)調(diào)整同xgboost模型一樣采用5折交叉驗(yàn)證和網(wǎng)格搜索算法,最后使用訓(xùn)練集對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估。經(jīng)過(guò)交叉驗(yàn)證和網(wǎng)格搜索確定最優(yōu)超參數(shù)為n_estimators:200,learning_rate:6,num_leaves:64,min_gain_to_split:5,使用測(cè)試集計(jì)算模型評(píng)分得 0.5674 略差于xgboost模型。
2.4 XGoost和LightGBM模型融合
XGboost在測(cè)試集的評(píng)分為0.5650,LightGBM在測(cè)試集的評(píng)分為0.5599。觀察xgboost和LightGBM的預(yù)測(cè)特點(diǎn),發(fā)現(xiàn)xgboost為對(duì)二手車價(jià)格較低的數(shù)據(jù)具有良好的預(yù)測(cè)效果,但對(duì)于離群的價(jià)格較高的數(shù)據(jù)預(yù)測(cè)能力較差,相反LightGBM對(duì)離群值具有較好的預(yù)測(cè)能力,但對(duì)價(jià)格較低的數(shù)據(jù)預(yù)測(cè)效果不如xgboost。因此本文采用線性融合的辦法來(lái)提高模型整體的預(yù)測(cè)能力。
經(jīng)過(guò)不斷迭代模型融合的線性參數(shù),最終得到以0.65:0.35融合模型,在測(cè)試集上具有較高的評(píng)分為0.5915,相較于融合前的兩個(gè)模型預(yù)測(cè)能力具有較高的提升。
3結(jié)語(yǔ)
本文創(chuàng)造性的運(yùn)用了機(jī)器學(xué)習(xí)領(lǐng)域的XGboost和Lightgbm模型并對(duì)其線性加權(quán)從而建立預(yù)測(cè)效果更叫良好的融合模型。本文對(duì)二手車價(jià)格的預(yù)測(cè)準(zhǔn)確率較高,對(duì)二手車平臺(tái)及其銷售門(mén)店提供了良好的理論支撐。
參考文獻(xiàn)
[1]. 寧利濤,分析預(yù)測(cè)我國(guó)二手車銷量 2020年將超新車,https://auto.163.com/11/0330/17/70DL9NAH00084IKG.html,20210105
[2]焦岑.基于隨機(jī)森林與神經(jīng)網(wǎng)絡(luò)的汽車價(jià)格影響因素的研究[D].蘇州大學(xué),2020.
[3]何龍,深入理解XGBoost[M].北京:機(jī)械工業(yè)出版社。2020