王書鵬 迮恒鵬 王 濤 黃素珍 劉桂蘭
(1.鹽城工學(xué)院經(jīng)管學(xué)院;2.鹽城工學(xué)院電氣學(xué)院;3.鹽城工學(xué)院數(shù)理學(xué)院)
針對汽車銷量預(yù)測研究問題,目前大多數(shù)建立的是傳統(tǒng)的時間序列分析模型[1-7]。它們存在兩點不足:(1)僅利用汽車歷史銷售數(shù)據(jù)解決汽車銷量預(yù)測問題,事實上存在眾多銷量影響汽車銷量預(yù)測的因素,比如原材料因素、消費者因素、網(wǎng)絡(luò)傳播因素、宏觀經(jīng)濟(jì)因素等;(2)需要事先假定歷史銷量和銷量之間呈線性關(guān)系,事實上銷量和歷史銷量以及其他影響因素之間存在高度非線性的關(guān)系。本文將利用機(jī)器學(xué)習(xí)技術(shù)[8],建立多因素非線性自回歸汽車銷量預(yù)測模型。
選取本月汽車銷量作為因變量,解釋變量包括歷史汽車銷量、鋼材產(chǎn)量、橡膠輪胎產(chǎn)量、貨幣供應(yīng)量、百度搜索指數(shù)、居民消費價格指數(shù)等,為了方便表述,文中采用表1中的符號建立銷量預(yù)測模型。
為前k月因素矩陣。
表1 符號說明
如果僅僅考慮歷史銷量數(shù)據(jù)對銷量的影響,則得到無因素非線性自回歸模型為
假設(shè)銷量不僅與歷史銷量有關(guān),還與鋼材產(chǎn)量、橡膠輪胎產(chǎn)量、貨幣供應(yīng)量、百度搜索指數(shù)、居民消費價格指數(shù)等有關(guān),則得到多因素非線性自回歸模型為
利用機(jī)器學(xué)習(xí)技術(shù),以大眾品牌汽車為例建立銷量預(yù)測的多因素非線性自回歸模型。
采用2011年1月至2018年12月共96個月的數(shù)據(jù)。
大眾品牌汽車月銷量數(shù)據(jù),來源于車主之家網(wǎng)站https://www.16888.com。
鋼材產(chǎn)量、橡膠輪胎產(chǎn)量、貨幣供應(yīng)量、居民消費價格指數(shù)的月度數(shù)據(jù),來源于國家統(tǒng)計局網(wǎng)站http://www.stats.gov.cn/。
百度搜索指數(shù)月度數(shù)據(jù),來源于百度指數(shù)網(wǎng)站http://index.baidu.com。
為了消除數(shù)據(jù)量綱的影響,將上述數(shù)據(jù)作歸一化處理:
非線性自回歸的神經(jīng)網(wǎng)絡(luò)主要有輸入層、隱含層和輸出層、輸入輸出延時層構(gòu)成。選取隱含層為25,延遲數(shù)d為12,其基本結(jié)構(gòu)如圖1。
圖1 非線性自回歸神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)
將96個樣本數(shù)據(jù)劃分如下:訓(xùn)練數(shù)據(jù)占70%,驗證數(shù)據(jù)占15%,測試數(shù)據(jù)占15%。
選擇訓(xùn)練算法Levenberg-Marquardt,該算法要求樣本容量足夠大,但是記憶速度快,當(dāng)驗證數(shù)據(jù)均方誤差不再增長,訓(xùn)練自動停止。
本文建立的大眾品牌銷量預(yù)測模型的結(jié)果如表2。
表2 大眾品牌銷量預(yù)測模型的結(jié)果
表2中MSE為預(yù)測銷量和實際銷量之間的均方誤差,MSE越小預(yù)測效果越好,當(dāng)MSE=0時,預(yù)測銷量=實際銷量。R為預(yù)測銷量和實際銷量的相關(guān)系數(shù),當(dāng)R=1時,則預(yù)測銷量和實際銷量完全相關(guān),當(dāng)R=0時,則預(yù)測銷量和實際銷量完全不相關(guān)。該模型測試數(shù)據(jù)MSE=0.0694,小于0.1,但R=0.2182,小于0.5,預(yù)測效果一般。這是因為樣本數(shù)據(jù)量偏少,只有增加樣本容量,才能提高機(jī)器學(xué)習(xí)預(yù)測的精度。