包吉祥,李 林,趙夢鴿
上海理工大學(xué) 管理學(xué)院,上海 200093
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電子商務(wù)迅速崛起,而電商企業(yè)為了更加及時(shí)準(zhǔn)確地把控市場變化,同時(shí)提供給消費(fèi)者更好的服務(wù)更低的價(jià)格,將需求預(yù)測作為持續(xù)改進(jìn)的目標(biāo)。但市場的多變性和客戶的不穩(wěn)定性、信息化和智能化程度都對需求預(yù)測的準(zhǔn)確性帶來很大影響。侯曉樂[1]從庫存管理的角度建立基于灰色預(yù)測的快消品需求預(yù)測模型,但其只能對少量歷史數(shù)據(jù)進(jìn)行預(yù)測。韓芊芊[2]針對產(chǎn)品特性和線上運(yùn)營的歷史數(shù)據(jù)進(jìn)行研究,建立ARIMA-多元回歸綜合預(yù)測模型。王姝唯[3]從在線評論的角度提出了基于在線評論情感指數(shù)提取和Bass模型的需求預(yù)測方法。葉劍鋒等人[4]考慮了快消行業(yè)的季節(jié)性周期特點(diǎn)和快消企業(yè)的促銷因素,研發(fā)基于季節(jié)性ARIMA時(shí)間序列與多元回歸組合的模型。然而,目前對快消品的需求預(yù)測研究都集中基于商品自身的特性和歷史銷售數(shù)據(jù)建立模型,未充分考慮消費(fèi)者行為對快消品需求的影響。所以本文提出結(jié)合歷史銷售數(shù)據(jù)和消費(fèi)者行為建立需求預(yù)測模型。
較為常用的需求預(yù)測方法包括時(shí)間序列法、支持向量機(jī)法、人工神經(jīng)網(wǎng)絡(luò)法等多種方法。以往的需求預(yù)測過程都是針對產(chǎn)品特性,通過數(shù)據(jù)預(yù)處理、優(yōu)化參數(shù)、改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)等方法提高預(yù)測精度,而忽略了消費(fèi)者行為對產(chǎn)品需求的影響。對于各影響因素之間并不成明顯線性關(guān)系的需求預(yù)測問題,如果選擇輸入的特征參數(shù)較為單一,將不能得到很好的預(yù)測模型及結(jié)果;而如果選擇的輸入特征參數(shù)較多,則會(huì)使模型復(fù)雜化,不利于其訓(xùn)練速度及性能[5]。針對這一問題,本文提出基于隨機(jī)森林特征選取和LSTM模型的需求預(yù)測方法。隨機(jī)森林是一種優(yōu)秀的機(jī)器學(xué)習(xí)方法,它不僅可以解決分類問題和回歸問題,在特征選擇領(lǐng)域也已經(jīng)引起越來越多的關(guān)注。近年來已經(jīng)被廣泛應(yīng)用于各種分類、預(yù)測、特征選擇以及異常點(diǎn)檢測問題中[6-7]。且相較于基于聚類以及自適應(yīng)多種群遺傳算法的特征選擇方法,隨機(jī)森林特征選擇算法在性能上有較大的提高[8]。LSTM網(wǎng)絡(luò)是改進(jìn)之后的RNN,與傳統(tǒng)預(yù)測模型相比預(yù)測性能更高,且具有良好的泛化能力[9-11]。并且廣泛應(yīng)用于各個(gè)方面,比如自然語言翻譯和語音識(shí)別等,還可以應(yīng)用于時(shí)間序列的預(yù)測[12],都具有較好的效果。
在本文中,實(shí)證數(shù)據(jù)采用Q企業(yè)紙類產(chǎn)品歷史銷售數(shù)據(jù)和消費(fèi)者行為數(shù)據(jù)。首先用隨機(jī)森林篩選輸入特征參數(shù),然后對LSTM預(yù)測模型進(jìn)行訓(xùn)練、驗(yàn)證,最后與SVM、RF和XGBoost模型的預(yù)測結(jié)果比較。實(shí)驗(yàn)結(jié)果表明,基于LSTM網(wǎng)絡(luò)的預(yù)測模型精度較高,也證實(shí)了考慮消費(fèi)者行為產(chǎn)生的滯后性能提高模型的訓(xùn)練精度。
隨機(jī)森林指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器,具有一個(gè)重要特征:能夠計(jì)算單個(gè)特征變量的重要性。并且這一特征在很多方面能夠得到應(yīng)用,例如在銀行貸款業(yè)務(wù)中能否正確地評估一個(gè)企業(yè)的信用度,關(guān)系到是否能夠有效地回收貸款[13]。但是本文研究的需求預(yù)測模型的影響因素有很多,且這些影響因素之間存在相互作用;數(shù)據(jù)量較多,數(shù)據(jù)間的關(guān)系較為復(fù)雜,且非線性、持續(xù)性及噪音普遍存在。而隨機(jī)森林中特征選擇的重要性思想,就是看每個(gè)特征對隨機(jī)森林中每棵樹的貢獻(xiàn)有多大,然后取平均值,通過比較這些特征的貢獻(xiàn)大小選擇貢獻(xiàn)大的作為特征因子;同時(shí)隨機(jī)森林可以處理大量的輸入變數(shù)并且產(chǎn)生高準(zhǔn)確度的分類器。因此考慮到商品數(shù)據(jù)之間可能存在復(fù)雜的非線性關(guān)系,以及后續(xù)研究中也可能會(huì)不斷地搜集增加新的影響因素,本文選擇隨機(jī)森林算法選取特征因子。
本文中在用隨機(jī)森林選取特征因子過程中,利用的方法是平均不純度的減少(mean decrease impurity)。該方法常用基尼指數(shù)作為評價(jià)指標(biāo)?;嶂笖?shù)的計(jì)算公式為:
在式(1)中,GIm表示樣本m的基尼指數(shù),k代表第k個(gè)類別,pm表示樣本點(diǎn)屬于類別k的概率。
計(jì)算出基尼指數(shù)后,再計(jì)算每個(gè)特征xj的基尼指數(shù)評分。特征xj在節(jié)點(diǎn)m的重要性計(jì)算公式為:
在式(2)中,VIMjm代表特征xj在節(jié)點(diǎn)m的重要性,GIl和GIr分別表示分支后兩個(gè)新節(jié)點(diǎn)的基尼指數(shù)。
如果,特征xj在決策樹i中出現(xiàn)的節(jié)點(diǎn)在集合M中,那么在第i棵樹的重要性VIMij為:
假設(shè)隨機(jī)森林中共有n棵樹,那么xj在整個(gè)隨機(jī)森林中的重要性可由式(4)計(jì)算:
然后,把求得的所有的重要性評分進(jìn)行歸一化見式(5),得到歸一化的xj重要性VIM'j
LSTM最初是在1997年由Schmidhuber等 人[14-16]提出,是基于RNN神經(jīng)網(wǎng)絡(luò),在隱含層的神經(jīng)元中增加了遺忘門,從而使模型學(xué)習(xí)過程中可以選擇忘記不重要的歷史信息,只將重要的歷史信息作為新一輪模型訓(xùn)練的輸出。所研究的需求預(yù)測問題,是典型的時(shí)序問題,即某一個(gè)時(shí)刻的值受前一個(gè)時(shí)刻或幾個(gè)時(shí)刻的影響,所以選擇LSTM模型進(jìn)行訓(xùn)練及預(yù)測。
深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中隨著訓(xùn)練時(shí)間的增加和學(xué)習(xí)過程中參數(shù)的數(shù)量增加可能存在過擬合的問題,從而影響模型訓(xùn)練效果導(dǎo)致測試集失效。過擬合特別是指在擬合模型的過程中,為了使模型擬合訓(xùn)練數(shù)據(jù),使用了太多不必要的參數(shù),從而導(dǎo)致訓(xùn)練后的模型精度明顯較高,但實(shí)際上相反。在2012年,Hinto等人提出了Dropout算法[17],用于防止過擬合。之后,也有許多學(xué)者先后證實(shí)利用Dropout改進(jìn)神經(jīng)網(wǎng)絡(luò)[18-19],能較好地解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練中出現(xiàn)的過擬合問題。
信息在無Dropout網(wǎng)絡(luò)中向前傳播時(shí),來自所有節(jié)點(diǎn)的所有信息都將保留并轉(zhuǎn)到下一層。導(dǎo)致神經(jīng)元之間存在強(qiáng)烈的依賴性,并且也會(huì)發(fā)生過度擬合。于是,思考在訓(xùn)練過程中是否可以隨機(jī)丟棄某些神經(jīng)元生成的信息,從而使神經(jīng)元之間生成的信息沒有如此強(qiáng)的相關(guān)性,從而可以提高神經(jīng)元的泛化能力。
應(yīng)用Dropout的神經(jīng)網(wǎng)絡(luò),信息在前向傳遞的過程中會(huì)讓某個(gè)神經(jīng)元的激活值以一定的概率p停止工作,這樣可以使模型泛化性更強(qiáng),因?yàn)樗粫?huì)太依賴某些局部的特征。如圖1,部分節(jié)點(diǎn)出現(xiàn)了叉號(hào),表示丟棄了該方面上的所有信息,而正常的空心圓表示保留了該節(jié)點(diǎn)所有信息。
圖1 有Dropout的神經(jīng)網(wǎng)絡(luò)Fig.1 Neural network with Dropout
這樣,根據(jù)設(shè)定的概率不同,在連續(xù)訓(xùn)練過程中,由于每次丟棄的節(jié)點(diǎn)信息不同,每次訓(xùn)練的結(jié)果也不同。將從這些訓(xùn)練中獲得的結(jié)果進(jìn)行平均,可以獲得更理想的參數(shù)。因此本文在設(shè)計(jì)LSTM神經(jīng)網(wǎng)絡(luò)時(shí)也添加了Dropout層以優(yōu)化LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
選取Q企業(yè)紙類商品2018年日銷售數(shù)據(jù),如圖2。從圖2可以明顯看出,該商品在2018年日銷售數(shù)據(jù)中出現(xiàn)了幾個(gè)明顯的峰值,分析發(fā)現(xiàn)峰值出現(xiàn)在“元旦”“6.18”“8.18”“國慶”“雙十一”“雙十二”期間,該期間均為電商平臺(tái)的大型促銷活動(dòng)日。根據(jù)公司記錄,在上述節(jié)日期間公司都推出了折扣力度較大的優(yōu)惠活動(dòng),并且通過增加在電商平臺(tái)的廣告展現(xiàn)量等手段來吸引流量,所以在這些時(shí)間段出現(xiàn)了銷售峰值,銷售量大幅提升。
圖2 紙類商品2018年原始日銷售數(shù)據(jù)Fig.2 Original daily sales data of paper products in 2018
首先對數(shù)據(jù)進(jìn)行分割,將1月至11月的銷售數(shù)據(jù)作為訓(xùn)練集,12月的銷售數(shù)據(jù)作為測試集。其次對銷售數(shù)據(jù)進(jìn)行異常值檢測,并用均值修正異常值,得到處理后的銷售數(shù)據(jù)如圖3所示。通過圖3可以看出,日銷售數(shù)量處于200~1 200之間,且銷售量不穩(wěn)定,波動(dòng)較大。
圖3 對異常值處理后的紙類商品2018年日銷售數(shù)據(jù)Fig.3 2018 daily sales data of paper products after handling abnormal values
再從該企業(yè)獲取2018年紙類商品的顧客行為數(shù)據(jù),獲取的數(shù)據(jù)包括日期、展現(xiàn)量、瀏覽量、訪客數(shù)、搜索人數(shù)、點(diǎn)擊數(shù)平均停留時(shí)長、退出率、收藏人數(shù)、加購量、拍下量。通過Python中的describe命令,對預(yù)處理后的顧客行為數(shù)據(jù)進(jìn)行基本信息統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果見表1。
表1 消費(fèi)者行為數(shù)據(jù)基本信息統(tǒng)計(jì)Table 1 Basic information statistics of consumer behavior data
2.2.1 消費(fèi)者行為數(shù)據(jù)選取
顧客行為數(shù)據(jù)一般包括消費(fèi)者從進(jìn)店到購買再到評價(jià)的各種中間數(shù)據(jù),數(shù)據(jù)粒度包括天、周、月等,數(shù)據(jù)來源包括PC端與無線端。流量數(shù)量是指顧客訪問某商品流量的數(shù)量值,一般由訪客數(shù)量、展現(xiàn)數(shù)量、瀏覽數(shù)量三個(gè)指標(biāo)構(gòu)成,流量越多代表潛在顧客越多;用戶體驗(yàn)數(shù)據(jù)一般由顧客的平均停留時(shí)間、平均訪問的頁數(shù)、跳出頻率等指標(biāo)構(gòu)成;網(wǎng)站流量效率的一個(gè)重要衡量數(shù)據(jù)就是網(wǎng)站流量轉(zhuǎn)化比率即顧客轉(zhuǎn)化率,顧客轉(zhuǎn)化率一般由收藏量、加購量、拍下量等數(shù)據(jù)指標(biāo)構(gòu)成。通過以上分析,將消費(fèi)者在網(wǎng)購的環(huán)節(jié)中產(chǎn)生的可能影響商品需求量的消費(fèi)者行為數(shù)據(jù)匯總到表2。
表2 影響商品需求的顧客行為因素匯總Table 2 Summary of customer behavior factors that affect product demand
如果這10個(gè)可能影響因素中,存在與銷量無關(guān)或者相關(guān)性很低的影響因素,而在預(yù)測電商企業(yè)商品需求量時(shí)將這些影響因素加入到預(yù)測模型,將會(huì)大大降低預(yù)測的準(zhǔn)確率。所以在進(jìn)行商品需求預(yù)測之前,剔除與商品需求無關(guān)或相關(guān)性較低的影響因素是十分重要的。因此需要對選取的顧客行為數(shù)據(jù)與銷售數(shù)據(jù)的關(guān)聯(lián)度進(jìn)行分析。
2.2.2 不考慮滯后性的重要特征因子選取
根據(jù)本文獲取的實(shí)際數(shù)據(jù),利用皮爾遜相關(guān)性檢驗(yàn)方法,將不同的顧客行為數(shù)據(jù)分別與商品銷售量數(shù)據(jù)進(jìn)行相關(guān)性分析,具體分析結(jié)果見表3和表4。
表3 瀏覽行為數(shù)據(jù)與銷售量相關(guān)性分析Table 3 Analysis of correlation between browsing behavior data and sales volume
表4 購買行為數(shù)據(jù)與銷售量相關(guān)性分析Table 4 Correlation analysis of purchasing behavior data and sales volume
通過表3發(fā)現(xiàn)顧客瀏覽行為與銷售量存在一定的相關(guān)性,而銷售量與平均停留時(shí)間、跳出率的相關(guān)性較低,在后續(xù)研究中可以剔除。通過表4發(fā)現(xiàn)顧客購買行為對銷售量影響顯著。采用Pearson相關(guān)分析法,分析顧客不同行為產(chǎn)生的數(shù)據(jù)與商品銷售量的相關(guān)性,發(fā)現(xiàn)展現(xiàn)量、瀏覽量、訪客數(shù)、搜索人數(shù)、點(diǎn)擊數(shù)、收藏人數(shù)、加購量、拍下量這8種顧客行為數(shù)據(jù)與商品需求量存在較強(qiáng)相關(guān)性,因此在后續(xù)需求預(yù)測模型研究中將考慮這8種顧客行為數(shù)據(jù)對商品需求的影響。
2.2.3 考慮滯后性的重要特征因子選取
(1)特征因子重構(gòu)
不同的影響因素在不同的滯后時(shí)間對商品需求的影響程度有所不同,因此本文假設(shè)7天內(nèi)的顧客行為對商品需求均有影響。設(shè)n為銷售當(dāng)天,銷售當(dāng)天起前7天為區(qū)間,取歷史前[1,2,3,4,5,6,7]天的實(shí)際商品數(shù)據(jù)值作為新的特征因子。設(shè)xji為新的特征因子,其中i代 表 8種 影 響因 素,所以i=1,2,…,8;j=[n-1,n-2,n-3,n-4,n-5,n-6,n-7]代表歷史前[1,2,3,4,5,6,7]天,將帶有不同滯后期的影響因素重構(gòu)特征因子,共得到56個(gè)特征因子如表5所示。
表5 商品需求預(yù)測特征因子Table 5 Commodity demand forecast feature factor
表8 12月份商品預(yù)測情況Table 8 Commodity forecast in December
(2)隨機(jī)森林選取特征因子
在Python軟件中sklearn已經(jīng)封裝了需要用到的所有函數(shù),因此只需要調(diào)用其中的函數(shù),運(yùn)行隨機(jī)森林算法,進(jìn)行運(yùn)算。本次運(yùn)算導(dǎo)入的消費(fèi)者行為數(shù)據(jù)和歷史銷售數(shù)據(jù)都是Q企業(yè)紙類商品2018年數(shù)據(jù)。算法運(yùn)行結(jié)果見表6,得到了特征因子重要性評價(jià)結(jié)果。
表6 特征因子重要性評價(jià)結(jié)果Table 6 Feature factor importance evaluation result
根據(jù)隨機(jī)森林選取重要因子算法,從8個(gè)影響因素的特征因子中分別選取對商品需求量影響最大的滯后特征因子組成的重要特征因子集合作為LSTM模型的輸入,得到表7。
表7 重要特征因子選取結(jié)果Table 7 Selection results of important feature factors
從表7看出,對當(dāng)前商品需求(yn)影響程度較大的影響因素有Xn-51,Xn-32,Xn-13,Xn-14,Xn-15,Xn-16,Xn-57,Xn-18分別為五天前的展現(xiàn)量、三天前的訪客數(shù)、一天前的瀏覽量、搜索人數(shù)、點(diǎn)擊數(shù)、收藏人數(shù)、五天前的加購量,以及一天前的拍下量。
利用已經(jīng)獲取的Q企業(yè)紙類商品的歷史銷售數(shù)據(jù)以及顧客行為數(shù)據(jù)對其商品需求進(jìn)行預(yù)測。展現(xiàn)量n-5、訪客數(shù)n-3、瀏覽量n-1、搜索人數(shù)n-1、點(diǎn)擊數(shù)n-1、收藏人數(shù)n-1、加購量n-5、拍下量n-1作為需求預(yù)測模型的輸入值,商品日銷量為輸出值,利用長短期記憶神經(jīng)網(wǎng)絡(luò)建立考慮滯后性的LSTM神經(jīng)網(wǎng)絡(luò)快消品電商需求預(yù)測模型。
經(jīng)以往研究經(jīng)驗(yàn)所得[20-22],步長的選擇對模型的預(yù)測效果影響不是很大,學(xué)習(xí)率對模型訓(xùn)練的速度有較大影響,隱含層對LSTM的預(yù)測精度影響較大,對此進(jìn)行著重研究。訓(xùn)練集樣本為該商品1月到11月的數(shù)據(jù),測試集樣本為12月的數(shù)據(jù),學(xué)習(xí)率為0.01,比較不同隱含層的均方根誤差,結(jié)果如圖4所示。當(dāng)隱藏層為5層時(shí),兩個(gè)樣本的均方根誤差最低,模型的預(yù)測精度最高,因此隱藏層數(shù)設(shè)置為5。迭代次數(shù)的確定通過以往實(shí)驗(yàn)經(jīng)驗(yàn)進(jìn)行手動(dòng)調(diào)整,迭代次數(shù)為1 000時(shí)訓(xùn)練效率較穩(wěn)定。
圖4 隱含層不同時(shí)的均方根誤差Fig.4 Root mean square error of different hidden layer
網(wǎng)絡(luò)模型參數(shù)選擇:LSTM神經(jīng)網(wǎng)絡(luò)的隱藏層層數(shù)為5層,每一層的神經(jīng)元個(gè)數(shù)分別為9、64、64、64、64、1;時(shí)間步中遞歸次數(shù)設(shè)置為2;訓(xùn)練批尺寸設(shè)置為20,表示每一輪從訓(xùn)練集中選取5組訓(xùn)練樣本進(jìn)行訓(xùn)練;訓(xùn)練輪數(shù)設(shè)置為1 000,表示將訓(xùn)練過程重復(fù)1 000次;優(yōu)化算法采用adam算法,dropout設(shè)置為0.2。
當(dāng)模型訓(xùn)練結(jié)束,選取未參加訓(xùn)練的12月份數(shù)據(jù)歸一化后代入上述訓(xùn)練好的LSTM神經(jīng)網(wǎng)絡(luò)模型,可得到預(yù)測擬合圖5。在圖5中,橫軸為時(shí)間軸,縱軸為商品需求,量單位為“件”,虛線代表的是本文構(gòu)建的考慮滯后性的LSTM神經(jīng)網(wǎng)絡(luò)需求預(yù)測模型的預(yù)測結(jié)果,實(shí)線則是真實(shí)的歷史銷量值。從圖5中可以看出,兩條線的擬合效果較好,證明利用長短期記憶神經(jīng)網(wǎng)絡(luò)建立考慮滯后性的LSTM神經(jīng)網(wǎng)絡(luò)商品需求預(yù)測模型較為合理,能夠較為精確地預(yù)測出商品的需求趨勢。
圖5 測試組預(yù)測擬合圖Fig.5 Test group prediction fit graph
利用該模型預(yù)測的Q企業(yè)紙類商品的12月份需求量預(yù)測值具體見表8,對比兩列數(shù)值可以看出預(yù)測值接近真實(shí)值預(yù)測誤差較小。
為了檢驗(yàn)本文建立考慮滯后性的LSTM神經(jīng)網(wǎng)絡(luò)快消品電商需求預(yù)測模型的預(yù)測精度,選取平均相對誤差和平均絕對百分比誤差為模型預(yù)測性能指標(biāo),對不同模型的性能進(jìn)行計(jì)算對比。
平均絕對誤差(MAE)表示的是預(yù)測值和實(shí)際值之間絕對誤差的平均值,它的計(jì)算公式為:
平均絕對百分比誤差(MAPE)計(jì)算公式為:
在式(6)和式(7)中y'i都表示商品需求量預(yù)測值,yi都表示真實(shí)商品銷量。MAE和MAPE的計(jì)算值越小證明預(yù)測誤差越小,預(yù)測效果越好反之則表示模型劣質(zhì)。
以下是用LSTM、RF、SVM、XGBoost算法分別建立了不考慮滯后性的需求預(yù)測模型和考慮滯后性的需求預(yù)測模型,對Q企業(yè)紙類商品12月份的商品需求量進(jìn)行預(yù)測的預(yù)測結(jié)果。
建立不考慮滯后性的需求預(yù)測模型,選擇前一天的展現(xiàn)量、訪客數(shù)、瀏覽量、搜索人數(shù)、點(diǎn)擊數(shù)、收藏人數(shù)、加購量、拍下量為特征因子作為需求預(yù)測模型的輸入,當(dāng)天的商品銷售數(shù)據(jù)作為輸出,分別用LSTM、RF、SVM、XGBoost算法建立商品需求預(yù)測模型并進(jìn)行仿真實(shí)驗(yàn)。同樣對Q企業(yè)紙類商品12月份的商品需求進(jìn)行預(yù)測,各個(gè)模型的預(yù)測結(jié)果如圖6所示。從圖中可以看出,LSTM神經(jīng)網(wǎng)絡(luò)快消品電商需求預(yù)測值與真實(shí)值兩條曲線的擬合相較于其他模型預(yù)測結(jié)果的擬合效果能更好地預(yù)測出商品的需求趨勢。
圖6 不考慮滯后性的不同模型的預(yù)測結(jié)果對比圖Fig.6 Comparison of prediction results of different models without considering lag
建立考慮滯后性的需求預(yù)測模型,選擇展現(xiàn)量n-5、訪客數(shù)n-3、瀏覽量n-1、搜索人數(shù)n-1、點(diǎn)擊數(shù)n-1、收藏人數(shù)n-1、加購量n-5、拍下量n-1為重要特征因子作為需求預(yù)測模型輸入。選取SVM、RF和XGBoost模型作為比較模型?;谙嗤臄?shù)據(jù)預(yù)處理后,同樣對12月份的數(shù)據(jù)進(jìn)行預(yù)測,各個(gè)模型的預(yù)測對比結(jié)果如圖7所示。
圖7 考慮滯后性的不同模型的預(yù)測結(jié)果對比圖Fig.7 Comparison of forecast results of different models considering hysteresis
對比圖6和圖7可以看出,本文構(gòu)建的考慮滯后性的LSTM神經(jīng)網(wǎng)絡(luò)商品需求預(yù)測值與真實(shí)值擬合相較于其他模型預(yù)測結(jié)果的擬合效果能更好地預(yù)測出商品的需求趨勢。為了更好地對比模型的性能,借助模型評估指標(biāo)平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)來進(jìn)一步評估模型對商品需求的預(yù)測能力,性能評估結(jié)果如表9所示。
表9 考慮滯后性預(yù)測模型性能評估結(jié)果Table 9 Consider lagging prediction model performance evaluation results
從表9可知在考慮滯后性利用LSTM預(yù)測模型進(jìn)行需求預(yù)測,測試組的平均相對誤差值為0.035,預(yù)測精度最高??梢钥闯龌谏疃葘W(xué)習(xí)的LSTM神經(jīng)網(wǎng)絡(luò)需求預(yù)測模型對電商商品需求量的預(yù)測效果較好。
將考慮滯后性模型和不考慮滯后性模型預(yù)測結(jié)果的平均絕對誤差和平均相對誤差進(jìn)行對比,如圖8和圖9所示。
圖8 不同模型的平均絕對誤差對比Fig.8 Comparison of mean absolute errors of different models
圖9 不同模型的平均相對誤差對比Fig.9 Comparison of mean relative errors of different models
從圖8和圖9明顯可以看出考慮滯后性基于LSTM、SVM、RF建立的需求預(yù)測模型相較于不考慮滯后性建立的預(yù)測模型的預(yù)測平均誤差都有減小,平均絕對誤差降低,預(yù)測精確度提高。而XGBoost模型的需求預(yù)測效果不管是否考慮滯后性,預(yù)測的平均絕對誤差和平均相對誤差都較大,預(yù)測效果不理想。其中考慮滯后性LSTM模型預(yù)測相對誤差僅為0.035,預(yù)測精度最高。
綜上,通過以上模型對比可以驗(yàn)證本文建立的考慮滯后性的LSTM神經(jīng)網(wǎng)絡(luò)需求預(yù)測模型較為合理,能夠有效地預(yù)測商品需求。
本文以快消品電商需求分析及預(yù)測為研究目標(biāo),結(jié)合消費(fèi)者行為數(shù)據(jù)以及歷史線上銷售數(shù)據(jù),利用LSTM神經(jīng)網(wǎng)絡(luò)相關(guān)知識(shí)對快消品電商需求進(jìn)行分析以及預(yù)測。選取Q企業(yè)紙類商品數(shù)據(jù)對模型進(jìn)行驗(yàn)證。但本文選取的數(shù)據(jù)數(shù)量有限,且消費(fèi)者行為數(shù)據(jù)種類并未完全搜集到,因此對整個(gè)電商企業(yè)來說,其對象和數(shù)據(jù)的選擇具有一定的局限性。在建立預(yù)測模型過程中可以通過增減模型輸入自變量的個(gè)數(shù),研究需求預(yù)測模型的效果變化情況,這也是接下來需進(jìn)一步研究的問題。
實(shí)驗(yàn)結(jié)果顯示,LSTM神經(jīng)網(wǎng)絡(luò)在一定程度上更適合電商需求預(yù)測;消費(fèi)者的瀏覽行為和購買行為對商品的需求有滯后性影響。因此,企業(yè)若想更準(zhǔn)確地預(yù)測商品的需求量,可通過市場調(diào)查和網(wǎng)絡(luò)監(jiān)管等技術(shù)加強(qiáng)對消費(fèi)者行為的數(shù)據(jù)收集,從而掌握消費(fèi)趨勢和市場走向、管理庫存和制定合理的戰(zhàn)略。