李 鈺,張蝶依
(1.河北地質(zhì)大學(xué)信息工程學(xué)院,石家莊 050031;2.駐馬店職業(yè)技術(shù)學(xué)院,駐馬店 463000)
據(jù)公安部統(tǒng)計(jì),截至2021年6月全國(guó)機(jī)動(dòng)車保有量達(dá)到3.84億輛,機(jī)動(dòng)車駕駛?cè)藚s高達(dá)4.69億人,且機(jī)動(dòng)車駕駛?cè)藬?shù)還在不斷增長(zhǎng),僅2021年上半年便新增領(lǐng)證駕駛?cè)?390萬人[1]。機(jī)動(dòng)車保有量和駕駛?cè)巳藬?shù)的巨大差異,使得國(guó)內(nèi)汽車市場(chǎng)十分火熱。但是由于芯片的短缺導(dǎo)致新車的供給下滑,使得更多的購(gòu)車者把目光投入二手車市場(chǎng),同時(shí)國(guó)家也大力支持二手車市場(chǎng)的發(fā)展。從2020年五月份起,二手車增值稅從2%下降到0.5%[2],使得二手車交易的稅負(fù)成本降低;同時(shí)公安部等也先后取消二手車限遷政策,進(jìn)一步增加了二手車市場(chǎng)的活力。
但是在二手車交易中,眾多的二手車線上交易網(wǎng)站和線下機(jī)構(gòu)對(duì)二手車的定價(jià)各不相同,給二手車的交易帶來極大困難。針對(duì)二手車交易中中介平臺(tái)等的肆意標(biāo)價(jià),需要從二手車本身的數(shù)據(jù)出發(fā),對(duì)二手車進(jìn)行精確的估價(jià),從而保護(hù)消費(fèi)者的合法權(quán)益。然而國(guó)內(nèi)對(duì)于二手車價(jià)值評(píng)估模型的研究并不多,呂勁[3]提出了基于特征優(yōu)化的SVM價(jià)格預(yù)測(cè)模型,利用GBDT模型對(duì)特征進(jìn)行優(yōu)化組合,再使用SVM模型進(jìn)行預(yù)測(cè)。張遠(yuǎn)森[4]提出了基于神經(jīng)網(wǎng)絡(luò)的二手車價(jià)格評(píng)估模型,與多元線性回歸模型做對(duì)比得到了小幅提升。上述兩種模型的預(yù)測(cè)精度都不是非常理想。
綜上,本文提出了一種基于LightGBM的二手車價(jià)值評(píng)估模型,通過特征優(yōu)化選擇出對(duì)二手車價(jià)格影響較大的特征,從而縮減了特征維度也使得模型對(duì)價(jià)值的評(píng)估更加精確。
LightGBM[5]是微軟提出的一種GBDT的高效實(shí)現(xiàn)框架,它解決了GBDT無法處理大規(guī)模數(shù)據(jù)的問題。LightGBM基本原理如下:
(1)初始化k棵決策樹,將訓(xùn)練樣本的權(quán)重設(shè)為1/k;
(2)訓(xùn)練子模型f(x);
(3)決定該子模型的權(quán)重β;
(4)更新權(quán)重ε;
(5)得到最終的模型:
本文提出一種基于LightGBM的二手車價(jià)值評(píng)估模型,通過特征工程對(duì)原始數(shù)據(jù)進(jìn)行處理,填補(bǔ)缺失值、刪除異常值、構(gòu)造對(duì)回歸有益的新特征等,從而降低數(shù)據(jù)的不平衡性,使得數(shù)據(jù)更加符合待訓(xùn)練模型。
本文使用的數(shù)據(jù)來自天池河北高校邀請(qǐng)賽——二手車交易價(jià)格預(yù)測(cè)的數(shù)據(jù)集。其中訓(xùn)練集含有200000條數(shù)據(jù),測(cè)試集含有50000條數(shù)據(jù),每條數(shù)據(jù)包含SaleID、name、regDate等共31個(gè)特征字段,其中name、model、brand和regionCode等信息已進(jìn)行脫敏。
表1 數(shù)據(jù)集字段表
數(shù)據(jù)集處理過程:
(1)統(tǒng)計(jì)各字段的缺失值,“bodyType”“fu?elType”“gearbox”三個(gè)字段有缺失值,對(duì)缺失值進(jìn)行填充;
(2)統(tǒng)計(jì)各字段的值的分布情況,發(fā)現(xiàn)“seller”“offerType”兩個(gè)字段傾斜嚴(yán)重,故刪除;
(3)刪除對(duì)回歸無意義的字段“SaleID”;
(4)構(gòu)造新特征“usedDate”,由于原數(shù)據(jù)中只有汽車注冊(cè)日期和汽車售賣登記時(shí)間,兩個(gè)時(shí)間單獨(dú)對(duì)回歸任務(wù)的意義不大,故構(gòu)造更有意義的汽車使用時(shí)間作為新特征。
輸入為訓(xùn)練集Train、測(cè)試數(shù)據(jù)集Test和LightGBM初始參數(shù)X;輸出為Test的預(yù)測(cè)結(jié)果
步驟1:對(duì)數(shù)據(jù)進(jìn)行特征工程,對(duì)進(jìn)行特征工程之后的數(shù)據(jù)集進(jìn)行聚類;
步驟2:將每一類擬合一個(gè)嶺回歸,并預(yù)測(cè)出每一個(gè)樣本的價(jià)格,把聚類后預(yù)測(cè)價(jià)格作為新特征加入到LightGBM的特征中;
步驟3:使用LightGBM進(jìn)行預(yù)測(cè)。
本文使用MAE作為評(píng)價(jià)指標(biāo),MAE定義如下:
本算法與傳統(tǒng)二手車價(jià)格預(yù)測(cè)算法進(jìn)行比較,結(jié)果如下:
通過表2,不難看出本文算法在二手車價(jià)格預(yù)測(cè)任務(wù)中取得最優(yōu)結(jié)果,可以對(duì)二手車交易定價(jià)起到合理的建議作用。
表2 本算法與兩種傳統(tǒng)模型在MAE上的對(duì)比
本文介紹了目前求解二手車估價(jià)存在的問題,構(gòu)建了基于LightGBM的融合模型,通過與兩種具有代表性的二手車價(jià)格預(yù)測(cè)模型進(jìn)行比較,提升效果均超過10%。
本研究尚有不足之處,如二手車定價(jià)僅考慮到車輛本身因素,并沒有結(jié)合當(dāng)下政策以及買家信息,不能做到更加實(shí)時(shí)個(gè)性化的定價(jià)。但對(duì)于二手車價(jià)格預(yù)測(cè)任務(wù)仍具有一定借鑒價(jià)值。