牟 嬌,梅培楠
(1.貴州大學(xué)人民武裝學(xué)院,貴陽 550025;2.貴州中安云網(wǎng)科技有限公司,貴陽 550003)
隨著國民經(jīng)濟(jì)的發(fā)展與人民物質(zhì)生活的提高,摩托車從傳統(tǒng)的代步工具逐步向個(gè)性化、性能化、科技化發(fā)展,摩托車受眾越來越廣,二手摩托車演變成了個(gè)性化的二手摩托車交易,二手摩托車交易市場發(fā)展呈現(xiàn)大好前景[1]。
歐美日等國家的二手車已形成了一個(gè)體系成熟的市場,二手車價(jià)格評估由具有評估資格的相關(guān)部門根據(jù)二手車市場行情制定評估規(guī)則[2]。與國外成熟的二手車市場相比,國內(nèi)二手車交易評估體系不健全,對車輛進(jìn)行合理、準(zhǔn)確的估值成為二手車交易亟待解決的問題。學(xué)者針對二手車的估值研究早已進(jìn)行,二手車的估值影響因素維度多、且非線性,難以使用規(guī)律的方法進(jìn)行評估,隨著大數(shù)據(jù)與人工智能技術(shù)的發(fā)展,學(xué)者逐漸將機(jī)器學(xué)習(xí)方法應(yīng)用于二手車評估問題,以其計(jì)算快、智能化、數(shù)據(jù)處理量大等優(yōu)勢成為研究的新熱點(diǎn)[3-5]。
周凌云[3]早在2012年使用決策樹進(jìn)行汽車評測,具有良好的預(yù)測準(zhǔn)確率;曹靜嫻[4]利用決策樹、logistic回歸和神經(jīng)網(wǎng)絡(luò)建立了不同的二手車性能評估模型,實(shí)現(xiàn)了對二手車性能的多種復(fù)雜混合因素在一定程度上的定量分析;劉聰?shù)龋?]將自適應(yīng)提升方法(AdaBoost)應(yīng)用于二手車價(jià)值的評估,提出一種以決策樹樁作為弱分類器的集成方法,其準(zhǔn)確率較傳統(tǒng)決策樹方法得到提高。
本文參考二手車估值模型的建立方法,收集二手摩托車交易數(shù)據(jù),通過隨機(jī)森林算法進(jìn)行統(tǒng)計(jì)建模,建立二手摩托車殘值率估值模型,以其對二手摩托車交易估值起到指導(dǎo)作用。
隨機(jī)森林(random forest,RF)方法是美國科學(xué)家Breiman[6]于2001年提出的一種統(tǒng)計(jì)學(xué)習(xí)方法,它是由并行式集成學(xué)習(xí)的Bagging方法與隨機(jī)子空間方法(random subspace)相結(jié)合而形成[7]。隨機(jī)森林是基于決策樹的隨機(jī)屬性選擇訓(xùn)練算法,隨機(jī)森林算法具有抗噪性強(qiáng)、計(jì)算開銷小等優(yōu)點(diǎn),可用于分類和回歸任務(wù)[8]。二手車殘值率輸出為連續(xù)值,屬于回歸問題。近年來,國內(nèi)外學(xué)者在眾多領(lǐng)域中都使用了隨機(jī)森林回歸模型。許允之等[9]將隨機(jī)森林算法應(yīng)用于徐州霧霾預(yù)測研究,建立徐州空氣質(zhì)量指數(shù)回歸預(yù)測模型,均方根誤差在6左右,為徐州霧霾的形成原因以及治理措施提供了參考;王仁超等[10]基于隨機(jī)森林回歸方法建立了爆破塊度預(yù)測模型,為堆石壩爆破施工管理與控制提供了科學(xué)指導(dǎo);Osman等[11]使用隨機(jī)森林回歸模型進(jìn)行機(jī)械鉆速預(yù)測,指導(dǎo)鉆井從業(yè)者以最小的時(shí)間和成本完成鉆井項(xiàng)目;Ramalingam等[12]采用混合Harris Hawk優(yōu)化隨機(jī)森林算法(HHO-RF)建立了分散光伏電站的有效數(shù)據(jù)預(yù)測模型。
如圖1所示,基于隨機(jī)森林的二手摩托車殘值率預(yù)估模型的預(yù)測步驟如下:
圖1 基于隨機(jī)森林的二手摩托車殘值率預(yù)估模型的預(yù)測步驟
(1)構(gòu)建訓(xùn)練數(shù)據(jù)集:將二手摩托車的成交殘值率作為模型的輸出變量(標(biāo)簽值),摩托車機(jī)身參數(shù)、使用參數(shù)及審核參數(shù)作為模型的輸入變量(屬性值),標(biāo)簽值及屬性值組成訓(xùn)練數(shù)據(jù)集D。
(2)構(gòu)建隨機(jī)森林:對數(shù)據(jù)量為m的訓(xùn)練集D進(jìn)行m次隨機(jī)采樣,得到樣本量為m的采樣集D';在所有屬性中隨機(jī)選擇K個(gè)屬性特征,建立決策樹回歸模型;重復(fù)以上步驟T次,建立T棵回歸決策樹,構(gòu)成隨機(jī)森林。
(3)預(yù)測二手摩托車殘值率:將預(yù)測集中的屬性值輸入到訓(xùn)練完成的模型中,模型將會計(jì)算T棵決策樹的回歸結(jié)果平均值作為其輸出結(jié)果,得到摩托車殘值率。
影響二手摩托車殘值率的主要變量有:機(jī)身參數(shù)、使用參數(shù)及審核參數(shù)。
發(fā)動機(jī)參數(shù)選擇發(fā)動機(jī)型號、排量、環(huán)保標(biāo)準(zhǔn)、供油方式作為輸入特征;車體參數(shù)選擇座高、油箱、整備質(zhì)量、abs、冷卻類型作為輸入特征。
摩托車使用參數(shù)包括:車齡、行駛里程、上牌城市。上牌城市對二手摩托車價(jià)格有顯著影響。
摩托車審核參數(shù)包括:車況等級、車主報(bào)價(jià),車況等級由人工標(biāo)注,分為優(yōu)秀、良好、一般、較差、很差。
本文數(shù)據(jù)來源于某二手車交易網(wǎng)站數(shù)據(jù)庫,數(shù)據(jù)存在異常值、缺失值、重復(fù)值等問題,在數(shù)據(jù)進(jìn)行模型訓(xùn)練前針對不同特征進(jìn)行數(shù)據(jù)預(yù)處理,如行駛里程單位統(tǒng)一為km;為車身顏色、座高、整備質(zhì)量等缺省值補(bǔ)上該車型的默認(rèn)配置;若某一數(shù)據(jù)缺省特征值超過1/3,刪除該數(shù)據(jù)。數(shù)據(jù)預(yù)處理后,剩余有效數(shù)據(jù)約6975條,隨機(jī)劃分測試集與訓(xùn)練集,1/4數(shù)據(jù)作為測試集,3/4數(shù)據(jù)作為訓(xùn)練集。數(shù)據(jù)預(yù)處理后的部分特征數(shù)據(jù)集見表1。
表1 部分特征數(shù)據(jù)集
數(shù)據(jù)預(yù)處理后,存在特征為屬性值、特征值需縮放等不同特征處理問題,使得進(jìn)入模型訓(xùn)練的特征更加精確,提高模型訓(xùn)練的效率,選取特征不同的處理方式見表2。
表2 特征處理
此模型選取二手摩托車殘值率作為輸出值(標(biāo)簽值),殘值率計(jì)算公式如下:
本文采用平均絕對誤差(mean absolute er?ror,MAE)和R方(R-squared,R2)作為模型評價(jià)指標(biāo),MAE用來描述模型預(yù)測值的準(zhǔn)確率,R2用來描述預(yù)測值與實(shí)測值之間的相關(guān)程度,計(jì)算公式如下:
式中:m為訓(xùn)練集個(gè)數(shù);y為殘值率預(yù)測值,f(x)為殘值率真實(shí)值,T為殘值率真實(shí)值的平均值。
本文從200棵決策樹到2000棵決策樹,依次遞增200棵;內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)選擇2至8,依次遞增2;葉子節(jié)點(diǎn)最少樣本數(shù)選擇1至4,依次遞增1。不同排列組合下進(jìn)行回歸預(yù)測,部分預(yù)測結(jié)果見表3。
表3 部分預(yù)測結(jié)果
從實(shí)驗(yàn)結(jié)果初步可看出,決策樹的數(shù)目越多,平均誤差越小,擬合程度越好,但決策樹達(dá)到一定數(shù)量后,增加決策樹的數(shù)量對模型準(zhǔn)確度提升效果不佳。在數(shù)據(jù)量樣本不多時(shí),內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)及葉子節(jié)點(diǎn)最少樣本數(shù)越小,模型預(yù)測結(jié)果擬合程度較好。決策樹數(shù)目1200,內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)2,葉子節(jié)點(diǎn)最少樣本數(shù)1的時(shí)候誤差最小,預(yù)測值與實(shí)際值的擬合度如圖2所示。通過實(shí)驗(yàn)結(jié)果得知,基于隨機(jī)森林回歸的二手摩托車殘值率預(yù)測模型整體效果良好,MAE值大都在5%以內(nèi),預(yù)測準(zhǔn)確度較高;R2值大都在90%以上,預(yù)測值與實(shí)際值相關(guān)性強(qiáng)。
圖2 預(yù)測值與實(shí)際值的擬合度
隨機(jī)森林算法提供特征重要性的計(jì)算,計(jì)算過程如下:
(1)針對隨機(jī)森林中建立的決策回歸樹,計(jì)算袋外數(shù)據(jù)(OOB)的誤差,記作errOOB1;
(2)對袋外數(shù)據(jù)OOB所有樣本的特征X隨機(jī)加入噪聲干擾,再次計(jì)算袋外數(shù)據(jù)誤差,記作errOOB2;
(3)對隨機(jī)森林中的所有決策樹計(jì)算上述兩個(gè)誤差值,特征X的重要性計(jì)算公式為
式中,n表示決策樹的個(gè)數(shù)。
通過給決策樹特征隨機(jī)加入噪聲,袋外準(zhǔn)確度大幅度降低,表示該特征對決策樹影響很大,對所有決策樹取平均值,得到特征的最后重要性。特征重要性結(jié)果見圖3??梢钥闯?,車齡、行駛里程及上牌城市三個(gè)特征重要程度較高,符合市場規(guī)律。
圖3 特征重要性
為進(jìn)一步驗(yàn)證隨機(jī)森林模型在二手摩托車估值模型上的優(yōu)劣,采用交叉驗(yàn)證法選取貝葉斯嶺回歸[13](BayesianRidge)、普通線性回歸[14](LinearRegression)、彈性網(wǎng)絡(luò)回歸[15](Elastic?Net)、支持向量機(jī)回歸[16](SVR)、神經(jīng)網(wǎng)絡(luò)[17](BP-NN)預(yù)測模型構(gòu)建預(yù)測模型,進(jìn)行實(shí)驗(yàn)對比分析。計(jì)算上述模型的MAE、R2、訓(xùn)練時(shí)間三個(gè)評價(jià)指標(biāo),各模型的對比結(jié)果見表4和圖4。
表4 模型預(yù)測結(jié)果對比
圖4 預(yù)測值與實(shí)際值的擬合度
根據(jù)對比結(jié)果,可以看出在預(yù)測模型準(zhǔn)確性上,RF、BP-NN模型預(yù)測準(zhǔn)確性明顯優(yōu)于其他回歸模型,RF、BP-NN的MAE均值均在0.035以下,R2能達(dá)到0.90以上。在運(yùn)行效率上,RF、BP-NN的運(yùn)行效率遠(yuǎn)低于其他模型,但RF的運(yùn)行效率與BP-NN相比仍具有一定優(yōu)勢。綜合比較上述結(jié)果,RF在高維度的回歸預(yù)測問題上,準(zhǔn)確性表現(xiàn)優(yōu)秀,且具有良好的運(yùn)行效率。
二手摩托車估值模型成功建立,能帶來以下應(yīng)用價(jià)值:促進(jìn)二手摩托車行業(yè)定價(jià)透明規(guī)范化——二手摩托車出售者能夠通過模型來預(yù)測自己的二手摩托車能夠賣多少錢,使價(jià)格定在一個(gè)合理區(qū)間,更容易售賣出去。購買者在市場里只需考慮自己想要的摩托車配置和能夠接受的折舊度,利用模型來確定二手摩托車價(jià)格,更容易買到性價(jià)比較高的商品。為相關(guān)研究者提供研究思路——本文從影響因素分析、數(shù)據(jù)預(yù)處理、模型參數(shù)選擇來逐步建立二手摩托車殘值率估值模型,希望能夠?yàn)橄嚓P(guān)研究者提供一些研究思路。