李富強(qiáng),彭海麗,楊 熙,張文靜
(工業(yè)和信息化部 裝備工業(yè)發(fā)展中心,北京 100846 )
隨著我國居民消費(fèi)觀念的改變,二手車在人們?nèi)粘I钪邪缪葜絹碓街匾慕巧玔1]。近年來,我國二手車市場顯現(xiàn)出蓬勃的發(fā)展勢(shì)頭,越來越多的人意識(shí)到二手車市場巨大的發(fā)展?jié)摿2]。隨著人工智能的飛速發(fā)展,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的算法已用于二手車的研究。楊波[3]針對(duì)二手車交易中的評(píng)估定價(jià)問題,構(gòu)建了BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了實(shí)例分析,結(jié)果表明,所建預(yù)測(cè)模型比現(xiàn)有預(yù)測(cè)模型更為準(zhǔn)確、穩(wěn)定。毛攀等[4]基于BP神經(jīng)網(wǎng)絡(luò)對(duì)二手車價(jià)格評(píng)估影響因素進(jìn)行了探究,計(jì)算結(jié)果顯示模型預(yù)測(cè)價(jià)格與實(shí)際價(jià)格相關(guān)系數(shù)達(dá)到0.96。CHEN Daoping[5]基于ARIMA模型,建立了中國汽車需求預(yù)測(cè)模型,并對(duì)模型進(jìn)行了預(yù)測(cè)性能評(píng)價(jià),結(jié)果表明模型的預(yù)測(cè)效果很好。謝楊等[6]利用聚類、多元回歸等算法,將車輛的上牌時(shí)間、表征里程、所屬地區(qū)等因子作為自變量,成新率作為因變量建立模型,通過實(shí)際評(píng)估,模型具有較好的評(píng)估效果。王棟[7]基于灰度關(guān)聯(lián)分析與BP神經(jīng)網(wǎng)絡(luò)對(duì)汽車保有量進(jìn)行了預(yù)測(cè),結(jié)果顯示模型具有較好的評(píng)估效果。曹潔[8]基于隨機(jī)森林算法,建立了二手車價(jià)值評(píng)估模型,在降低評(píng)估成本、提高評(píng)估效率的同時(shí),為二手車價(jià)值評(píng)估提供一種新的思路。張曉東[9]基于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了可以應(yīng)用于二手車行業(yè)的貸前審批風(fēng)險(xiǎn)控制模型,結(jié)果表明,其數(shù)據(jù)處理方法在XGBoost等機(jī)器學(xué)習(xí)模型的評(píng)價(jià)指標(biāo)上都有了3%左右的提升。侍艷華等[10]基于MFCC和CNN算法對(duì)汽車鳴笛聲進(jìn)行了識(shí)別,識(shí)別準(zhǔn)確率能夠達(dá)到97.6%以上。劉聰?shù)萚11]將自適應(yīng)提升算法應(yīng)用于二手車價(jià)值的評(píng)估,提出一種以決策樹樁作為弱分類器的集成方法,試驗(yàn)表明,自適應(yīng)提升算法相比傳統(tǒng)的決策樹方法,準(zhǔn)確率提高7.1%。蔣翠清等[12]構(gòu)建了Attention LSTM模型對(duì)汽車銷量進(jìn)行了預(yù)測(cè),結(jié)果表明,Attention LSTM模型較ARIMA、SVR、BP神經(jīng)網(wǎng)絡(luò)和LSTM模型平均百分比誤差低。張遠(yuǎn)森[13]基于人工神經(jīng)網(wǎng)絡(luò)模型,建立了二手車估計(jì)模型,并從宏觀和微觀兩個(gè)角度分析了二手車價(jià)格的影響因素,為二手車市場交易提供了一個(gè)很好的價(jià)格指導(dǎo)。雖然眾多學(xué)者對(duì)二手車價(jià)值評(píng)估及影響因素分析等方面開展了研究,但利用深度學(xué)習(xí)模型對(duì)二手車成交價(jià)格影響因素重要性程度進(jìn)行分析方面仍缺乏相關(guān)研究。
本研究介紹了我國二手車研究現(xiàn)狀,構(gòu)建了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)模型并介紹了模型評(píng)估方法。利用模型的評(píng)價(jià)指標(biāo)值分析了DNN模型的預(yù)測(cè)精度,基于DNN模型分析了我國二手車成交價(jià)格影響因素的重要性程度,根據(jù)分析闡明了本研究的關(guān)鍵結(jié)論。
2015~2019年我國二手車市場交易量[14]及增速[15]如圖1所示:從2015年至2019年,二手車市場交易量逐年增加。其中,2017年增速最快,為19.3%,2018年、2019年增速雖然有所減緩,但仍保持了較高水平的增長,2019年交易量達(dá)到了1 490萬輛??梢钥闯?,我國二手車市場具有較好的發(fā)展前景。
圖1 2015 ~2019年我國二手車市場交易量及增速
現(xiàn)有的二手車市場交易研究可分為:(1)二手車價(jià)值評(píng)估,包括影響因素、評(píng)估模型、評(píng)估應(yīng)用等研究[16]。(2)二手車預(yù)測(cè),包括保值率預(yù)測(cè)、銷量預(yù)測(cè)等研究。早期研究人員常采用傳統(tǒng)方法開展研究。馮秀榮[17]采用因子分析法,研究了影響二手車價(jià)值的重要影響因子。她通過數(shù)據(jù)收集及資料調(diào)研,選取了15個(gè)影響因子,利用SPSS軟件進(jìn)行了分析。魏冬梅等[18]對(duì)重置成本法進(jìn)行了改進(jìn),分析了二手車價(jià)格的影響因素,建立了評(píng)估二手車的評(píng)估模型并對(duì)其進(jìn)行了運(yùn)用。KIHM等[19]研究了燃油消耗量對(duì)汽車價(jià)格的影響,證實(shí)了燃油消耗量對(duì)新舊汽車的價(jià)格影響起關(guān)鍵作用。丁海波等[20]建立了AHP-Fuzzy的二手車性能綜合評(píng)估模型,通過改進(jìn)傳統(tǒng)AHP方法,在一定程度上解決了二手車性能評(píng)估的模糊性問題。傳統(tǒng)研究方法在一定程度上推動(dòng)了二手車市場評(píng)估體系的建立,但傳統(tǒng)研究方法往往存在程序繁冗復(fù)雜、依賴從業(yè)人員經(jīng)驗(yàn)、評(píng)估誤差大等缺點(diǎn)。隨著人工智能的興起,研究人員利用機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法開展了一系列研究。曹靜嫻[21]采用決策樹、線性回歸以及神經(jīng)網(wǎng)絡(luò)三種人工智能方法對(duì)大量二手車數(shù)據(jù)進(jìn)行了分析,對(duì)影響二手車性能的多種因素進(jìn)行了定量分析。呂勁[22]采用對(duì)比分析的方法,對(duì)比了原始變量數(shù)據(jù)與經(jīng)過PCA、隨機(jī)森林、GBDT算法特征提取和轉(zhuǎn)換后的數(shù)據(jù)在SVM中的預(yù)測(cè)效果,結(jié)果表明,原始數(shù)據(jù)在SVM中進(jìn)行價(jià)格預(yù)測(cè)的效果是最差的,利用PCA特征優(yōu)化后的數(shù)據(jù)在SVM預(yù)測(cè)中表現(xiàn)最好。NEUMANN等[23]研究了5種機(jī)器學(xué)習(xí)算法:決策樹、多層感知器、AdaBoost、邏輯回歸和梯度提升在汽車駕駛員發(fā)生交通事故后更換車輛的決策,預(yù)測(cè)精度達(dá)到80%以上。李釗慧等[24]比較了BP神經(jīng)網(wǎng)絡(luò)模型與LSTM模型在汽車銷售預(yù)測(cè)方面的性能, 發(fā)現(xiàn)LSTM模型對(duì)于受季節(jié)因素影響的汽車銷售數(shù)據(jù)在銷售臺(tái)數(shù)和銷售金額趨勢(shì)預(yù)測(cè)方面更為有效合理,在模型預(yù)測(cè)的精度上比BP模型效果更優(yōu)。深度神經(jīng)網(wǎng)絡(luò)在處理大量、非線性等方面的數(shù)據(jù)時(shí),其性能幾乎優(yōu)于其他所有傳統(tǒng)機(jī)器學(xué)習(xí)算法。因此,本研究選取DNN模型對(duì)我國二手車開展價(jià)格預(yù)測(cè)及影響因素重要性程度研究。
深度神經(jīng)網(wǎng)絡(luò)算法是一種有監(jiān)督式的學(xué)習(xí)算法。它的學(xué)習(xí)規(guī)則是梯度下降法,通過反向傳播來不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏置值,使網(wǎng)絡(luò)的損失函數(shù)值達(dá)到最小,從而實(shí)現(xiàn)網(wǎng)絡(luò)預(yù)測(cè)值逼近真實(shí)值[25]。
DNN模型拓?fù)浣Y(jié)構(gòu)包括輸入層、隱層以及輸出層。隱層一般在3層及3層以上,每一層的神經(jīng)元個(gè)數(shù)都應(yīng)該合理地選取。深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,正向傳播過程接收輸入數(shù)據(jù)進(jìn)行正向擬合預(yù)測(cè),反向傳播及權(quán)值修正過程通過梯度下降調(diào)整層間權(quán)值,提高模型擬合精度。
影響二手車成交價(jià)格的因素眾多,本文選取省份、汽車品牌、新車指導(dǎo)價(jià)、已使用時(shí)間及已行駛距離這5個(gè)關(guān)鍵影響因素進(jìn)行研究,所以構(gòu)建的DNN模型輸入層神經(jīng)元個(gè)數(shù)為5。研究的因變量是二手車成交價(jià)格,所以輸出層神經(jīng)元個(gè)數(shù)為1。以均方根誤差(Root Mean Square Error,RMSE)作為模型的評(píng)價(jià)標(biāo)準(zhǔn),通過訓(xùn)練過程中合理地調(diào)參,得到了能夠較高精度地?cái)M合二手車成交價(jià)格的隱含層層數(shù)等相關(guān)參數(shù),選定隱含層層數(shù)為3層且每層神經(jīng)元個(gè)數(shù)為70個(gè);選取學(xué)習(xí)率為0.000 1;選取神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為ReLU函數(shù);選取優(yōu)化算法為自適應(yīng)矩估計(jì)算法(Adaptive Moment Estimation,Adam)。
圖2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
同時(shí),本研究為避免DNN模型過擬合等問題,在第1隱含層后設(shè)置了一層批標(biāo)準(zhǔn)化層(Batch Normalization,BN)。
本研究選取RMSE、R2(RSquared)、平均絕對(duì)誤差(Mean Absolute Error,MAE)來評(píng)估模型的優(yōu)劣。
基于安徽省、廣東省、福建省以及重慶市的二手車成交數(shù)據(jù)進(jìn)行DNN模型的訓(xùn)練及測(cè)試,汽車品牌為奧迪、大眾、奔馳、寶馬。為了將輸入數(shù)據(jù)統(tǒng)一為數(shù)字型數(shù)據(jù),以數(shù)字1、2、3、4依次表示安徽省、廣東省、福建省、重慶市,以數(shù)字5、6、7、8依次表示奧迪車、大眾車、奔馳車、寶馬車。收集了共計(jì)22 385組二手車成交數(shù)據(jù),取70%為訓(xùn)練集,共計(jì)14 924組成交數(shù)據(jù);取30%為測(cè)試集,共計(jì)7 461組成交數(shù)據(jù)。
深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練損失值Loss如圖3所示,通過300次迭代訓(xùn)練后,損失值Loss降得很低。DNN模型在訓(xùn)練集上的預(yù)測(cè)效果如圖4所示,可以看到,模型高精度地?cái)M合了二手車成交價(jià)格,DNN模型訓(xùn)練完成。
圖3 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練Loss圖
圖4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練集擬合曲線與實(shí)際曲線
將測(cè)試集數(shù)據(jù)輸入進(jìn)訓(xùn)練好的DNN模型,得到二手車成交價(jià)格預(yù)測(cè)值,與實(shí)際成交價(jià)格擬合曲線對(duì)比,如圖5所示??梢钥闯觯?xùn)練好的DNN模型能夠較高精度地?cái)M合測(cè)試集上的數(shù)據(jù)。
圖5 深度神經(jīng)網(wǎng)絡(luò)測(cè)試集擬合曲線與實(shí)際曲線
選取年限估計(jì)法與重置成本法[26]兩種經(jīng)典的二手車價(jià)格預(yù)測(cè)方法作為對(duì)照方法。隨機(jī)選取測(cè)試集中的10輛二手車,其實(shí)際價(jià)格與各方法預(yù)測(cè)價(jià)格對(duì)比如圖6所示??梢钥闯?,3種方法都擬合了10輛二手車價(jià)格的變化趨勢(shì),但重置成本法相對(duì)于DNN模型與年限估計(jì)法的擬合效果更差,重置成本法的預(yù)測(cè)價(jià)格偏低,DNN模型與年限估計(jì)法預(yù)測(cè)的價(jià)格圍繞著實(shí)際價(jià)格上下波動(dòng)。
圖6 實(shí)際價(jià)格與各方法預(yù)測(cè)價(jià)格對(duì)比
采用DNN模型方法、年限估計(jì)法以及重置成本法在整個(gè)測(cè)試集上計(jì)算RMSE、R2、MAE值,其結(jié)果見表1??梢钥闯?,采用DNN模型預(yù)測(cè)的價(jià)格RMSE值與MAE值是3種方法中最低的,分別為6.04與3.44,R2值是3種方法中最高的,為0.85。3項(xiàng)評(píng)估指標(biāo)表明:相較于傳統(tǒng)方法,DNN模型預(yù)測(cè)的二手車成交價(jià)格精度更高。
表1 三種預(yù)測(cè)方法的評(píng)估指標(biāo)值
采用控制變量法分析二手車成交價(jià)格影響因素重要性程度。如表1所示,通過逐一去掉省份、汽車品牌、新車指導(dǎo)價(jià)、已使用時(shí)間、已行駛距離數(shù)據(jù)的方式,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行成交價(jià)格預(yù)測(cè),得到RMSE。分別與全影響因素的RMSE對(duì)比,記錄各自的RMSE增長值。RMSE增長值反映了被去掉項(xiàng)的重要性程度。計(jì)算各影響因素RMSE增長值比值,得到每項(xiàng)影響因素的重要性程度具體數(shù)值。
考慮深度神經(jīng)網(wǎng)絡(luò)初始化權(quán)值等隨機(jī)性影響,本研究做了20組如表2所示的重要性程度數(shù)據(jù),所得二手車成交價(jià)格影響因素最小、最大比例如圖7所示??梢钥闯觯萝囍笇?dǎo)價(jià)是影響二手車成交價(jià)格的決定性因素,已使用時(shí)間與已行駛距離是影響二手車成交價(jià)格的重要性因素。相對(duì)來說,省份與汽車品牌對(duì)二手車成交價(jià)格的影響較小。
表2 基于DNN模型控制變量分析二手車影響因素的重要性程度
圖7 二手車成交價(jià)格影響因素的重要性程度最小、最大比例
將20組重要性程度數(shù)據(jù)取平均值,得到二手車成交價(jià)格影響因素的重要性程度,如圖8所示??梢钥闯觯绊懳覈周嚦山粌r(jià)格的決定性因素是新車指導(dǎo)價(jià),重要性占比67%;重要因素是已使用時(shí)間與已行駛距離,分別占比13.06%和9.08%;次要因素是汽車品牌與省份,分別占比6.22%、4.64%。
圖8 二手車成交價(jià)格影響因素的重要性程度
本文介紹了我國二手車研究現(xiàn)狀,構(gòu)建了DNN模型并介紹了模型評(píng)估方法,通過與年限估值法、重置成本法兩種傳統(tǒng)方法做比較,分析了DNN模型的預(yù)測(cè)精度,基于DNN模型分析了我國二手車成交價(jià)格影響因素的重要性程度。結(jié)果表明:(1)相較于兩種傳統(tǒng)價(jià)格預(yù)測(cè)方法,DNN模型預(yù)測(cè)的二手車成交價(jià)格精度更高。(2)影響我國二手車成交價(jià)格的決定性因素是新車指導(dǎo)價(jià),重要性占比67%;已使用時(shí)間與已行駛距離是影響二手車成交價(jià)格的重要因素,占比13.06%和9.08%;次要因素是汽車品牌與省份,分別占比6.22%、4.64%。本研究尚存不足之處,如僅基于4個(gè)省份的4種車型二手車成交數(shù)據(jù)進(jìn)行研究,但對(duì)于深入探究利用深度學(xué)習(xí)預(yù)測(cè)二手車價(jià)格及分析二手車價(jià)格影響因素的重要性程度提供了一定的借鑒。