徐 琪,張陽奎
(東華大學(xué) 旭日工商管理學(xué)院,上海 200051)
時尚服裝由于具有季節(jié)性、時尚性、易貶值等特點,在競爭激烈的市場環(huán)境中,常常會出現(xiàn)缺貨或積壓的情況。因而,提高控制時尚服裝庫存水平,對于時裝零售商的盈利至關(guān)重要。而庫存與銷售預(yù)測直接相關(guān),銷售預(yù)測不僅影響庫存及公司的盈利,而且影響服務(wù)客戶質(zhì)量。當(dāng)面臨缺貨時,客戶可能決定在其他零售商處購物。另外,時裝行業(yè)的供應(yīng)鏈較長,涉及眾多參與者,如原材料的供應(yīng)商、制造商、分銷商和零售商,導(dǎo)致各參與方在未準(zhǔn)確了解客戶需求的情況下,為了時尚服裝產(chǎn)品的生產(chǎn)與銷售而提前下訂單,從而產(chǎn)生供應(yīng)鏈上的牛鞭效應(yīng)。
為了準(zhǔn)確進行銷售預(yù)測,多年來研究人員提出了很多統(tǒng)計分析方法,使用頻率較高的有指數(shù)平滑法、回歸分析法、自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,ARIMA模型)等。近年來,神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法被大量研究人員用于銷售預(yù)測,但深度學(xué)習(xí)模型是一個黑箱模型,預(yù)測結(jié)果的可解釋性不強。另外,深度學(xué)習(xí)模型在不同的場景下,預(yù)測性能并不穩(wěn)定,而且神經(jīng)網(wǎng)絡(luò)的層數(shù)、隱層節(jié)點數(shù)等參數(shù)都需要研究人員依靠豐富經(jīng)驗去調(diào)整,這會耗費大量預(yù)測時間,因而基于深度學(xué)習(xí)的預(yù)測方法在應(yīng)用上存在一定的局限性。
文章綜合考慮時尚服裝歷史銷售因素、節(jié)假日因素、宏觀經(jīng)濟因素以及天氣因素對時尚服裝銷售量的影響,結(jié)合基于時間序列的ARIMA 模型與機器學(xué)習(xí)中的隨機森林模型,構(gòu)建了一種新的時裝銷售組合預(yù)測模型。該模型能夠提升預(yù)測精度,并且預(yù)測所需的時間也比基于深度學(xué)習(xí)的模型短,可解釋性更強。文章最后用實例驗證了模型的有效性,以便得到有價值的結(jié)論。
Y
)分解為時尚流行趨勢因素影響下的銷售額(T
)、季節(jié)性因素影響下的銷售額(S
)、周期性因素影響下的銷售額(C
)和不規(guī)則變動因素影響下的銷售額(I
)4 個部分,用公式(1)表示:T
,如時尚服裝的流行趨勢。而隨機森林模型作為機器學(xué)習(xí)中具有監(jiān)督、層次結(jié)構(gòu)的決策樹的集成模型,通過輸入時尚服裝銷售相關(guān)的訓(xùn)練數(shù)據(jù),不斷調(diào)參與迭代,能夠捕捉到訓(xùn)練數(shù)據(jù)集中天氣、經(jīng)濟環(huán)境、節(jié)假日因素與銷售額之間的非線性關(guān)系(S
+C
+I
),進而用于時尚服裝的預(yù)測,因此考慮將這兩個模型加以融合,形成一種新的時尚服裝銷售組合預(yù)測模型,以預(yù)測時尚服裝的銷售額。p
,d
,q
)時間序列如(2)所示:y
為當(dāng)前預(yù)測的銷售額;μ
為常數(shù)項;ε
為白噪聲序列;p
為自回歸階數(shù);d
為差分次數(shù);q
為移動平均階數(shù);γ
為自回歸系數(shù);θ
為白噪聲序列的權(quán)重因子。時尚服裝的原始銷售數(shù)據(jù)受到多種因素的干擾,可能是非平穩(wěn)的時間序列數(shù)據(jù),因為平穩(wěn)性是時間序列分析的先決條件,所以需要對不穩(wěn)定的服裝銷售歷史數(shù)據(jù)序列進行處理,將其轉(zhuǎn)化為平穩(wěn)的序列,然后進行模型的識別和定階。這里主要是確定自回歸階數(shù)p
、移動平均階數(shù)q
這兩個參數(shù)。確定這兩個參數(shù)以后,需要對每一階的系數(shù)進行參數(shù)估計,得到系數(shù)的估計值以后,將其帶入模型,對模型進行適應(yīng)性檢驗,檢驗通過后,對用得到的模型進行預(yù)測,將預(yù)測值與真實值進行對比,從而確定模型的有效性。1.1.1 差分次數(shù)d
的確定ARIMA 模型可看作是AR+I+MA 的組合,其中I的作用是通過對原序列進行差分運算使得差分后的序列具有平穩(wěn)性,即差分后的時間序列的噪聲ε
為白噪聲,滿足ε
WN(0,σ
)。為了使得序列變得更加平穩(wěn),首先要確定差分次數(shù)。筆者用X
表示零售服裝銷售額所構(gòu)成的時間序列,x
表示序列中第t
個點代表的銷售額,t
=1,2,3…N
,N
表示序列X
的長度。記符號Δ為差分算子,一階差分表示為:Δx
=x
-x
,相應(yīng)的,d
階差分可用(3)表示:d
階差分,然后對差分后的時間序列做平穩(wěn)性的adf 檢驗得到最佳差分階數(shù)。1.1.2 ARIMA 模型中參數(shù)p
與q
的確定通過式(3)的差分方法對原始銷售額時間序列進行差分,使得時尚服裝銷售額的時間序列平穩(wěn)以后,即可建立ARMA(p
,q
)模型,ARMA(p
,q
)模型是由AR(p
)和MA(q
)模型組合得到的,其中AR(p
)模型可以用(4)表示:q
)模型可以用(5)表示:p
)+MA(q
)模型的組合ARMA(p
,q
)表達式(6)如下:c
為常數(shù)項;ε
為白噪聲,滿足E
(ε
)=0,Var(ε
)=σ
;γ
為自回歸系數(shù);θ
為白噪聲序列的權(quán)重因子;p
為自回歸階數(shù);q
為移動平均階數(shù)。用X
表示服裝銷售額所構(gòu)成的時間序列,x
表示序列中第t
個點代表的銷售額,t
=1,2,3…N
,N
表示序列X
的長度,則該銷售額時間序列的均值和方差分別為:μ
=E
(X
),σ
=D
(X
)=E
(X
-μ
)。定義滯后k
階的銷售額時間序列自相關(guān)系數(shù)(acf
)和偏自相關(guān)系數(shù)(pacf
)分別為(7)和(8):因為式(8)無法直接求解,需要使用Yule-Walker方程進行轉(zhuǎn)化并化簡后進行求解。Yule-Walker方程寫成矩陣形式為:
由以上建模和求解過程,結(jié)合文獻中使用的相關(guān)定階方法,得到初步定階,在初步確定階數(shù)范圍之后,再根據(jù)赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)確定最佳定階。
1.1.3 權(quán)重參數(shù)的極大似然估計
假設(shè){X
,t
=0,±1,±2,…}是經(jīng)過中心化后的ARMA(p
,q
)序列,已取得銷售額的時間序列樣本,它的概率密度函數(shù)為式(9):根據(jù)式(9)可得對數(shù)似然函數(shù)為式(10):
根據(jù)式(11)可求出:
將其帶入(13):
1.1.4 基于ARIMA 模型的服裝銷售預(yù)測
根據(jù)前面所構(gòu)建的ARIMA 模型,進一步利用該模型進行服裝銷售預(yù)測。根據(jù)式(4)AR(p
)模型對銷售額時間序列的前s
步進行預(yù)測,其預(yù)測方法公式(15)表示如下:q
)模型做服裝銷售額時間序列的前s
步預(yù)測,其預(yù)測方法用公式(16)表示如下:p
,q
)模型對銷售額時間序列的前s
步預(yù)測方法為(17):n
行代表第n
個樣本,即一條銷售記錄,矩陣中的前m
-1 列代表影響銷售額的因素,第m
列為銷售額,在該數(shù)據(jù)集上進行隨機森林模型的訓(xùn)練。文章是預(yù)測銷售額,銷售額是一個連續(xù)的變量,所以需要通過并行的建立多顆二叉回歸決策樹(Classification And Regression Tree,CART),最終對所有決策樹葉子節(jié)點預(yù)測值取平均得到銷售額的預(yù)測值。單顆二叉決策樹的數(shù)學(xué)原理表達式(18)如下所示:y
是第i
個樣本(銷售記錄)的真實銷售額,c
為D
數(shù)據(jù)集的樣本輸出均值,c
為D
數(shù)據(jù)集的樣本輸出均值。為了求出每一次的最優(yōu)劃分特征和最佳劃分點,需要采用基尼系數(shù)作為劃分的依據(jù),基尼系數(shù)的表達式(19)如下:p
代表樣本屬于第k
個類別的概率,|C
|代表第k
個類別下的樣本量,|D
|代表總的樣本量,基尼系數(shù)越接近于0,則劃分的效果越好。并行地構(gòu)造多棵決策樹,就得到了隨機森林模型。G
的預(yù)測誤差定義見式(20):y
為真實銷售額,y′
為預(yù)測的銷售額,同理,隨機森林模型RF
的預(yù)測誤差定義見式(21):時間序列模型的預(yù)測值所占的權(quán)重定義見式(22):
因為模型1 與模型2 的權(quán)重之和為1,所以模型2預(yù)測出的銷售額所占的權(quán)重如式(23)所示:
最終得到組合預(yù)測模型如式(24)所示:
為了評估組合銷售預(yù)測模型的有效性,以機器學(xué)習(xí)競賽平臺kaggle上所給出的美國某零售商的服裝銷售數(shù)據(jù)集為分析對象,按照數(shù)據(jù)預(yù)處理,模型訓(xùn)練,基于交叉驗證的參數(shù)選擇,實例分析模型評估。
為進一步探究季節(jié)性因素對3 種類型服裝銷售額的影響,需要分別對3 種類型的服裝按式(25)求出其季節(jié)指數(shù),該指數(shù)可同時作為隨機森林模型調(diào)參的重要依據(jù):
n
為總年數(shù),m
為總月數(shù),x
代表第i
年第k
月的銷售數(shù)據(jù),xk
為周期內(nèi)各期平均數(shù),x
-為總平均數(shù),s
-為季節(jié)指數(shù)。對于原始的天氣數(shù)據(jù),在對缺失值填補后對類別型特征進行啞編碼。對于宏觀經(jīng)濟數(shù)據(jù),刪除缺失值數(shù)量過多且缺乏有效信息的特征。完成上述處理后,對時間序列值按月進行采樣。
根據(jù)式(24)的組合預(yù)測模型,筆者以女裝為例,以2009—2014 年的銷售數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以2015年的數(shù)據(jù)作為模型的測試數(shù)據(jù),對訓(xùn)練數(shù)據(jù)作三折交叉驗證后,選擇均方誤差最小的模型及其參數(shù)來預(yù)測2015 年的銷售額,最終求得組合銷售預(yù)測模型中隨機森林模型的權(quán)重為0.73,ARIMA 模型的權(quán)重為0.27。單一模型以及組合模型的預(yù)測效果如圖1所示。
圖1 單模型以及組合預(yù)測模型的預(yù)測效果
從圖1 中可以看出,ARIMA 與隨機森林這兩種單一模型都能反映出銷售額變化的一些趨勢。但ARIMA 僅僅考慮時間因素,所以進行長期預(yù)測時偏差很大、權(quán)重較小,而隨機森林考慮天氣、經(jīng)濟等眾多因素,預(yù)測較為準(zhǔn)確,權(quán)重更大。組合預(yù)測模型結(jié)合了這兩種模型的優(yōu)勢,在預(yù)測效果上能更加接近數(shù)據(jù)的真實值,偏差相對較小。
在大數(shù)據(jù)時代,服裝零售商在進行銷售預(yù)測時,不僅要考慮歷史銷售數(shù)據(jù),還要獲取更多的經(jīng)濟、天氣、節(jié)假日,甚至消費者習(xí)慣等數(shù)據(jù)。機器學(xué)習(xí)技術(shù)可以充分挖掘和分析數(shù)據(jù),準(zhǔn)確預(yù)測未來消費需求,從而幫助服裝零售商做出正確的庫存決策。
此外,機器學(xué)習(xí)往往需要大量的樣本參與訓(xùn)練,才能得到魯棒性強的模型和較高的預(yù)測精度,文章中訓(xùn)練隨機森林的樣本量較少,只有6 年的數(shù)據(jù)。近年來,發(fā)展較快的遷移學(xué)習(xí)方法可以通過源域到目標(biāo)域的模型調(diào)整,生成大量相似的樣本,進而增加數(shù)據(jù),提高訓(xùn)練模型的預(yù)測精度,這也將是文章進一步研究的方向之一。