摘要: 為了完善直播銷量預(yù)測(cè)的指標(biāo)體系,提高直播銷量預(yù)測(cè)的準(zhǔn)確率,本文對(duì)比多種機(jī)器學(xué)習(xí)算法,分析服裝直播銷量的影響因素并預(yù)測(cè)服裝直播銷量。首先,通過(guò)文獻(xiàn)分析選取直播銷量的影響因素,并使用Spearman相關(guān)系數(shù)結(jié)合顯著性進(jìn)行篩選。其次,通過(guò)不同機(jī)器學(xué)習(xí)算法建立服裝銷量預(yù)測(cè)模型。選用R2、MAE、RMSE及MAPE為評(píng)價(jià)指標(biāo),采用5折交叉驗(yàn)證的方法,測(cè)試各模型性能。研究結(jié)果表明:主播粉絲數(shù)、主播近30天場(chǎng)均觀看人次、主播近30天場(chǎng)均坑產(chǎn)、產(chǎn)品價(jià)格、產(chǎn)品講解時(shí)長(zhǎng)、產(chǎn)品近30天歷史銷量、品牌粉絲數(shù)、品牌近30天歷史銷量、折扣這9個(gè)因素之間共線性較弱且與直播銷量之間的相關(guān)性顯著,可作為預(yù)測(cè)模型中的影響因素;預(yù)測(cè)算法中K近鄰算法和隨機(jī)森林算法的表現(xiàn)較好,R2均大于0.98,MAPE均在30.5%以內(nèi)。預(yù)測(cè)結(jié)果可幫助零售商規(guī)劃庫(kù)存,調(diào)整生產(chǎn)計(jì)劃,為產(chǎn)品采購(gòu)、定價(jià)、推廣提供數(shù)據(jù)支持。
關(guān)鍵詞: 直播銷量預(yù)測(cè);機(jī)器學(xué)習(xí);隨機(jī)森林;K近鄰;SVM支持向量機(jī);五折交叉驗(yàn)證
中圖分類號(hào): TS941.1; F426.86 文獻(xiàn)標(biāo)志碼: A
電商直播是一種生動(dòng)且實(shí)時(shí)的互動(dòng)模式,為消費(fèi)者提供豐富的信息,并促進(jìn)消費(fèi)者的購(gòu)買[1]。根據(jù)《第52次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,至2023年6月,中國(guó)電商直播的用戶規(guī)模已經(jīng)達(dá)到5.26億人,占總體網(wǎng)民的48.8%。電商直播蓬勃發(fā)展的同時(shí),銷售預(yù)測(cè)不充分可能會(huì)導(dǎo)致供貨調(diào)度不及時(shí),引發(fā)庫(kù)存問(wèn)題,影響消費(fèi)者滿意度,并造成商家利潤(rùn)損失[2]。服裝行業(yè)作為零售業(yè)的一大品類,具有變化快、季節(jié)性強(qiáng)的特點(diǎn)[3]。同時(shí),直播銷售的實(shí)時(shí)性和動(dòng)態(tài)性導(dǎo)致了直播銷量的不穩(wěn)定性,產(chǎn)品的供給與需求往往得不到合理的平衡[4]。在服裝直播銷售過(guò)程中,供過(guò)于求會(huì)增加倉(cāng)儲(chǔ)成本,造成產(chǎn)品貶值;供不應(yīng)求則會(huì)降低消費(fèi)者購(gòu)物體驗(yàn),為主播聲譽(yù)帶來(lái)負(fù)面影響[5]。因此,準(zhǔn)確預(yù)測(cè)服裝銷量可以幫助商家優(yōu)化庫(kù)存管理,從而制定銷售策略[6]。
由于線上購(gòu)買可選擇范圍的擴(kuò)大,因此線上銷售預(yù)測(cè)比線下銷售預(yù)測(cè)更具有挑戰(zhàn)性[7]。國(guó)內(nèi)外學(xué)者基于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)算法在銷量預(yù)測(cè)方面進(jìn)行了大量研究,其中傳統(tǒng)的預(yù)測(cè)方法主要基于統(tǒng)計(jì)學(xué)。李建斌等[8]通過(guò)SARIMA模型預(yù)測(cè)了非促銷時(shí)期電商平臺(tái)的醫(yī)藥銷量;Ruitenbeek等[9]采用logistic回歸和Lasso回歸預(yù)測(cè)了具有季節(jié)性和間歇性需求的商品銷量。然而,由于直播銷量的影響因素較多,傳統(tǒng)的統(tǒng)計(jì)學(xué)往往不足以預(yù)測(cè)復(fù)雜的決策過(guò)程[10]。近年來(lái),機(jī)器學(xué)習(xí)作為一種強(qiáng)大且精準(zhǔn)的預(yù)測(cè)工具,已廣泛應(yīng)用于服裝領(lǐng)域。常用的機(jī)器學(xué)習(xí)預(yù)測(cè)算法包括BP神經(jīng)網(wǎng)絡(luò)[11]、隨機(jī)森林算法[12]、SVM支持向量機(jī)[13]、K近鄰算法[14]、LSTM算法[15]等。劉妍兵等[16]通過(guò)BP神經(jīng)網(wǎng)絡(luò),基于9大流行元素,預(yù)測(cè)了童裝流行元素。羅戎蕾等[17]基于遺傳算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)建立了服裝銷量預(yù)測(cè)模型,預(yù)測(cè)了當(dāng)年同月同品類的服裝銷量。鄭金峰[5]基于模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)了太平鳥(niǎo)品牌的直播銷量。目前,使用機(jī)器學(xué)習(xí)算法預(yù)測(cè)服裝銷量大多針對(duì)某一品牌或某一品類,并且使用的算法類型較為單一。
因此,本文對(duì)直播銷量影響因素進(jìn)行分析,并通過(guò)不同機(jī)器學(xué)習(xí)算法,構(gòu)建服裝銷量預(yù)測(cè)模型。根據(jù)多種指標(biāo)對(duì)比不同機(jī)器學(xué)習(xí)算法模型的預(yù)測(cè)效果,找出最佳預(yù)測(cè)方法,為服裝直播銷量預(yù)測(cè)提供了一種新的思路和方法,并且對(duì)于商家生產(chǎn)計(jì)劃、庫(kù)存管理和營(yíng)銷策略改進(jìn)有重大的實(shí)踐意義。
1 數(shù)據(jù)與模型構(gòu)建
1.1 影響因素選取
準(zhǔn)確預(yù)測(cè)服裝直播銷量需要深入了解服裝銷量與直播銷量的影響因素,建立科學(xué)的預(yù)測(cè)模型。傳統(tǒng)的服裝銷售預(yù)測(cè)方法通?;跉v史銷售數(shù)據(jù)和市場(chǎng)趨勢(shì)[17]。然而直播方式引入了更多變量,如主播個(gè)性、直播內(nèi)容的吸引力、觀眾互動(dòng)等,使得銷量預(yù)測(cè)變得更加復(fù)雜和多樣化[18]。服裝直播銷量預(yù)測(cè)既要考慮服裝自身屬性,也要考慮直播相關(guān)因素的影響。本文通過(guò)檢索最近10年的相關(guān)文獻(xiàn),篩選服裝直播銷量的影響因素。第一輪篩選過(guò)程中使用服裝直播銷售預(yù)測(cè)為主題,在中國(guó)知網(wǎng)中檢索出相關(guān)文獻(xiàn)3篇。由于文獻(xiàn)數(shù)量較少,第二輪篩選中使用服裝銷售預(yù)測(cè)和直播銷售預(yù)測(cè)為主題,期刊文章中選擇北大核心,在中國(guó)知網(wǎng)中檢索出相關(guān)文獻(xiàn)33篇。為結(jié)合國(guó)外最新研究成果,第三輪篩選在外文數(shù)據(jù)庫(kù)Science Direct中進(jìn)行,輸入相關(guān)關(guān)鍵詞,保留最近的50篇研究。為保證文獻(xiàn)質(zhì)量,對(duì)文獻(xiàn)內(nèi)容進(jìn)行篩選,篩選條件如下:1) 文章中提出了服裝銷量預(yù)測(cè)或直播銷量預(yù)測(cè)的指標(biāo)體系;2) 排除綜述類文章及針對(duì)單一品類的研究;3) 文章需要提供研究方法和參數(shù)設(shè)計(jì)等重要信息。篩選結(jié)果如表1所示。其中,Xu等[2]結(jié)合產(chǎn)品的文本特征、視覺(jué)特征與文本-圖像相似度提出了一種直播電商產(chǎn)品銷售預(yù)測(cè)的多模態(tài)分析框架,其預(yù)測(cè)變量包括講解時(shí)長(zhǎng)、價(jià)格、新粉絲數(shù)量、最高觀看人數(shù)、點(diǎn)贊數(shù)、商品數(shù)量、歷史口碑、商品文字描述、商品圖片、文字-圖片一致性、彈幕數(shù)量、彈幕質(zhì)量。Wang等[10]結(jié)合結(jié)構(gòu)方程模型與人工神經(jīng)網(wǎng)絡(luò),以主播視頻數(shù)、直播次數(shù)、平均停留時(shí)長(zhǎng)、互動(dòng)評(píng)論個(gè)數(shù)、頁(yè)面訪問(wèn)量為影響因素預(yù)測(cè)直播銷量,該模型的預(yù)測(cè)準(zhǔn)確率達(dá)到了83.76%。羅戎蕾等[17]采用遺傳算法優(yōu)化的三層BP神經(jīng)網(wǎng)絡(luò),以歷史銷量、季節(jié)因素、節(jié)假日因素、品類因素為輸入變量預(yù)測(cè)了服裝銷量。
以往研究從不同角度構(gòu)建了直播銷量影響因素的指標(biāo)體系。其中,Xu等[2]使用多模態(tài)分析,從主播角度,探究了主播聲譽(yù)對(duì)直播銷量的影響并預(yù)測(cè)了直播銷量。李雪[20]基于AHP和BP神經(jīng)網(wǎng)絡(luò),從產(chǎn)品、品牌等角度選取影響因素,預(yù)測(cè)服裝銷量。鄭金峰[22]通過(guò)實(shí)證分析將消費(fèi)者直播購(gòu)買意愿的影響因素劃分為主播因素、直播因素、服裝因素和促銷優(yōu)惠。本文結(jié)合文獻(xiàn)研究中的維度劃分,將影響直播銷量的因素劃分為主播因素、產(chǎn)品因素、品牌因素和促銷因素四個(gè)方面。并且,考慮到數(shù)據(jù)的可獲得性,刪除或替換一些無(wú)法獲取或難以量化的變量。例如,最高觀看人數(shù)在直播前是無(wú)法獲取的,因此用場(chǎng)均最高觀看人數(shù)替代。主播帶貨匹配度等因素難以量化,予以刪除。初步篩選的影響因素如表2所示。
1.2 數(shù)據(jù)來(lái)源與數(shù)據(jù)預(yù)處理
本文的數(shù)據(jù)均來(lái)源于網(wǎng)站灰豚數(shù)據(jù)(dy.huitun.com)。該網(wǎng)站涵蓋大量直播后臺(tái)數(shù)據(jù),覆蓋范圍廣,數(shù)據(jù)量大,常用于服裝直播銷量預(yù)測(cè)[5,19],可以反映消費(fèi)者的直播觀看與購(gòu)物決策情況。采用分層抽樣的方法,在抖音直播庫(kù)中獲取了2023年8月10日—9月30日間30場(chǎng)直播共265條服裝相關(guān)的直播數(shù)據(jù),其中包含的服裝品類有褲裝、裙裝、外套、襯衫、T恤、衛(wèi)衣等應(yīng)季服裝。在訓(xùn)練模型之前,需要對(duì)數(shù)據(jù)進(jìn)行缺失值處理。其中,數(shù)值類型的數(shù)據(jù)缺失采用該項(xiàng)的平均值填補(bǔ),非數(shù)值類型缺失則將整條內(nèi)容刪除,處理后共保留了256條符合規(guī)范的數(shù)據(jù)。將這些數(shù)據(jù)按照85%和15%的比例劃分為訓(xùn)練集和測(cè)試集。
1.3 數(shù)據(jù)歸一化
由于單位不同、量級(jí)不同的變量之間很難進(jìn)行比較,因此需要將數(shù)據(jù)進(jìn)行歸一化處理,將所有輸入數(shù)據(jù)都固定在比較小的、確定的范圍內(nèi)。常用的歸一化方法有最小最大歸一化、十進(jìn)制比例歸一化、z-score歸一化等,本文采用最小最大歸一化將數(shù)據(jù)固定在[0,1]內(nèi),歸一化公式如下所示。
式中:Xi為歸一化前的樣本數(shù)據(jù),X′為歸一化以后的Xi,Xmin為數(shù)據(jù)中的最小值,Xmax為數(shù)據(jù)中的最大值。
1.4 模型構(gòu)建
1.4.1 變量相關(guān)性
本文初步選取了17個(gè)可能影響服裝直播銷量的因素。但是由于不同因素對(duì)服裝直播銷量的影響不同,有的因素可能與最終預(yù)測(cè)結(jié)果相關(guān)性很低。因此,在預(yù)測(cè)服裝直播銷量之前需要對(duì)影響因素進(jìn)行篩選和分析,從而減少最終預(yù)測(cè)中可能出現(xiàn)的干擾。通常使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)來(lái)衡量?jī)蓚€(gè)變量之間的相關(guān)性。但由于Pearson相關(guān)系數(shù)會(huì)默認(rèn)兩個(gè)變量之間存在線性關(guān)系,而各個(gè)影響因素與服裝直播銷量之間的關(guān)系并非都是線性的,當(dāng)兩變量之間存在顯著的非線性關(guān)系時(shí),它會(huì)無(wú)法識(shí)別[23]。在本文研究中,各個(gè)影響因素與服裝直播銷量之間的關(guān)系比較復(fù)雜,可能存在非線性關(guān)系。因此,采用Spearman相關(guān)系數(shù)來(lái)衡量17個(gè)因素之間的相關(guān)性及他們與服裝直播銷量之間的相關(guān)性,Spearman系數(shù)計(jì)算公式如下所示。
式中:di為第i個(gè)數(shù)據(jù)對(duì)的位次值之差,n為總的觀測(cè)樣本數(shù)。
1.4.2 算法選擇
通過(guò)總結(jié)以往文獻(xiàn),回歸預(yù)測(cè)常用的方法主要有線性回歸、隨機(jī)森林算法、BP神經(jīng)網(wǎng)絡(luò)算法、SVM算法、決策樹(shù)算法和KNN算法等[13,23]。由于本文的影響因素較多,很多因素與服裝直播銷量可能不是線性關(guān)系,因此,線性回歸不適用于構(gòu)建本文的預(yù)測(cè)模型。以R2值為評(píng)價(jià)指標(biāo),對(duì)剩余的五種算法采用五折交叉驗(yàn)證法進(jìn)行對(duì)比,如圖1所示。由圖1可以看出,BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的模型擬合效果較差,可能的原因是本文數(shù)據(jù)規(guī)模不大,且影響因素較多,BP神經(jīng)網(wǎng)絡(luò)出現(xiàn)了過(guò)擬合現(xiàn)象。決策樹(shù)算法的模型擬合結(jié)果一般,且較不穩(wěn)定,因此,本文采用隨機(jī)森林算法、KNN算法和SVM算法預(yù)測(cè)服裝直播銷量。
隨機(jī)森林方法由布賴曼提出,是一種將Bagging算法與隨機(jī)選擇的特征子集(即隨機(jī)子空間方法)相結(jié)合的分類預(yù)測(cè)算法[24]。隨機(jī)森林方法不易發(fā)生過(guò)擬合,并且具有較快的訓(xùn)練速度[25-26]。對(duì)于每個(gè)訓(xùn)練樣本,構(gòu)建單獨(dú)的決策樹(shù),并基于多數(shù)原則通過(guò)投票的方式確定最終的預(yù)測(cè)結(jié)果。在1~101內(nèi),步長(zhǎng)為10,對(duì)決策樹(shù)個(gè)數(shù)進(jìn)行尋優(yōu);在1~11內(nèi),步長(zhǎng)為1,對(duì)最大特征數(shù)進(jìn)行尋優(yōu)。根據(jù)十折交叉驗(yàn)證結(jié)果優(yōu)化,優(yōu)化后的模型中,決策樹(shù)個(gè)數(shù)為11,最大特征數(shù)為3。
支持向量機(jī)(SVM)算法是一種通用的算法,它可以用于分類和回歸問(wèn)題[27-28]。對(duì)于回歸任務(wù),SVM利用核函數(shù)將輸入數(shù)據(jù)映射到高維、非線性空間,便于超平面的識(shí)別[29]。核函數(shù)有許多不同類型,包括多項(xiàng)式(Poly)、徑向基函數(shù)(RBF)、sigmoid和線性函數(shù),都可以用于預(yù)測(cè)。本文使用徑向基函數(shù)作為該模型的核函數(shù)。在1~10內(nèi),步長(zhǎng)為0.1,對(duì)正則化系數(shù)c進(jìn)行尋優(yōu);在0.001~1.000內(nèi),步長(zhǎng)為0.002,對(duì)核參數(shù)gamma進(jìn)行尋優(yōu)。根據(jù)十折交叉驗(yàn)證結(jié)果優(yōu)化,優(yōu)化后的模型中,正則化系數(shù)c為4.1,核參數(shù)gamma為0.897。
K近鄰(KNN)算法是一種有效的監(jiān)督建模算法,可以應(yīng)用于分類和基于回歸的預(yù)測(cè),并且具有同等的有效性[30]。它考慮了具有相似特征的兩個(gè)緊密發(fā)生的事件[31]。該算法通過(guò)使用歐幾里得、曼哈頓或閔可夫斯基三種距離計(jì)算方法來(lái)計(jì)算事件之間的距離,發(fā)現(xiàn)緊密發(fā)生的事件[32]。無(wú)論其維度如何,歐氏距離都是兩個(gè)位置之間的最短距離[33]。本文利用歐氏距離公式計(jì)算兩個(gè)樣本之間的距離,通過(guò)尋優(yōu)得到鄰居數(shù)為5,并以K條最近鄰數(shù)據(jù)的目標(biāo)值的平均值為預(yù)測(cè)結(jié)果。
1.4.3 測(cè)量指標(biāo)與測(cè)試指標(biāo)
在模型訓(xùn)練過(guò)程中,要考察模型的擬合優(yōu)度與預(yù)測(cè)的準(zhǔn)確程度,需要采用不同指標(biāo)進(jìn)行度量。通過(guò)閱讀以往相關(guān)文獻(xiàn),本文采用平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)和決定系數(shù)R2作為度量三種不同算法預(yù)測(cè)性能的指標(biāo)[34-35],這四種指標(biāo)的計(jì)算公式如下所示。
2 運(yùn)行結(jié)果分析
2.1 相關(guān)性分析
為了定量分析17個(gè)影響因素與服裝直播銷量之間的關(guān)系,本文基于前期采集的數(shù)據(jù)集,使用Spearman相關(guān)系數(shù)分別分析17個(gè)影響因素與服裝直播銷量之間的相關(guān)性,同時(shí)結(jié)合顯著性進(jìn)行分析,結(jié)果如圖2所示。由圖2可知,初步選取
的17個(gè)影響因素中有10個(gè)通過(guò)了顯著性檢驗(yàn),并且產(chǎn)品近30天歷史銷量與服裝直播銷量之間的相關(guān)性達(dá)到了0.804。有7個(gè)變量(主播場(chǎng)均點(diǎn)贊數(shù)、主播視頻數(shù)、主播近30天直播次數(shù)、主播場(chǎng)均千次觀看成交額、主播場(chǎng)均停留時(shí)長(zhǎng)、主播場(chǎng)均直播銷售額、主播場(chǎng)均新增粉絲數(shù))未通過(guò)顯著性檢驗(yàn),可能的原因是其中一些變量只是通過(guò)其他變量間接影響直播銷量,對(duì)直播銷量并沒(méi)有直接影響。
由于影響因素之間可能會(huì)存在共線性問(wèn)題,因此需要測(cè)量影響因素之間的相關(guān)性。當(dāng)相關(guān)系數(shù)在0.2~0.4時(shí),表示兩者關(guān)系一般;當(dāng)相關(guān)系數(shù)在0.4~0.7時(shí),表示兩者關(guān)系緊密;當(dāng)相關(guān)系數(shù)大于0.7時(shí),表示兩者關(guān)系非常緊密[36]。對(duì)通過(guò)顯著性檢驗(yàn)的10個(gè)變量進(jìn)行相關(guān)性分析,結(jié)果如圖3所示。本文以0.7作為閾值[19],可以看出主播帶貨口碑與主播粉絲數(shù)之間相關(guān)性非常緊密,并且與主播近30天場(chǎng)均坑產(chǎn)之間相關(guān)性也比較緊密,可能會(huì)產(chǎn)生共線性問(wèn)題。
因此,主播帶貨口碑不適合用作模型訓(xùn)練,本文最終選定主播粉絲數(shù)、主播近30天場(chǎng)均觀看人次、主播近30天場(chǎng)均坑產(chǎn)、產(chǎn)品價(jià)格、產(chǎn)品講解時(shí)長(zhǎng)、產(chǎn)品近30天歷史銷量、品牌粉絲數(shù)、品牌近30天歷史銷量、折扣共9個(gè)變量作為預(yù)測(cè)模型的輸入變量,服裝直播銷量為預(yù)測(cè)模型的輸出變量,每個(gè)變量的基本信息,如表3所示。
2.2 模型預(yù)測(cè)結(jié)果
預(yù)測(cè)結(jié)果如圖4和圖5所示。隨機(jī)森林算法、SVM支持向量機(jī)算法、KNN算法在訓(xùn)練集上的R2值分別為0.991、0.899、0.981,在測(cè)試集上的R2值分別為0.987、0.895、0.980。由此可以看出,隨機(jī)森林算法和KNN算法比SVM算法效果更好,在訓(xùn)練集和測(cè)試集上均表現(xiàn)出更高的模型擬合度。
由于機(jī)器學(xué)習(xí)算法結(jié)果具有隨機(jī)性,因此采用五折交叉驗(yàn)證法驗(yàn)證測(cè)試集的預(yù)測(cè)結(jié)果,如圖6所示。其中綠色三角形代表平均值,黃色橫線代表中位數(shù)。三種算法的模型擬合度均高于最初的五折交叉驗(yàn)證,且隨機(jī)森林算法與KNN算法模型擬合度都達(dá)到了0.96以上,模型擬合度較高。箱線圖中箱體長(zhǎng)度代表了交叉驗(yàn)證結(jié)果分布的密集程度及模型的穩(wěn)定性,因此,相對(duì)于KNN算法來(lái)說(shuō),隨機(jī)森林算法更加穩(wěn)定,并且由圖6可以看出KNN算法的中位數(shù)明顯小于平均值,這代表結(jié)果為偏態(tài)分布,且存在極大值。因此,隨機(jī)森林算法模型的穩(wěn)定性更好,但KNN模型的擬合效果可能出現(xiàn)最優(yōu)。
2.3 模型對(duì)比分析
各個(gè)模型的評(píng)價(jià)結(jié)果如表4所示。其中R2代表模型擬合效果好壞,一般來(lái)說(shuō),R2越趨近于1,表示模型擬合效果越好。由表4可以看出,隨機(jī)森林算法和KNN算法的R2在0.9以上,兩種算法的擬合效果皆優(yōu)于SVM支持向量機(jī)。由于服裝銷量數(shù)字量級(jí)往往較大,因此用均方根誤差(RMSE)來(lái)衡量預(yù)測(cè)值與真實(shí)值之間的差距。RMSE越大,預(yù)測(cè)結(jié)果越穩(wěn)定。其中隨機(jī)森林算法的RMSE最小,KNN其次,兩者效果均優(yōu)于SVM支持向量機(jī)。平均絕對(duì)誤差(MAE)反映了預(yù)測(cè)值的偏離程度,誤差越大,MAE值也越大。由表4還可以看出,隨機(jī)森林算法的MAE值最小,KNN次之,SVM支持向量機(jī)最大。與其他指標(biāo)相比,平均絕對(duì)百分比誤差(MAPE)更關(guān)注預(yù)測(cè)值和真實(shí)值間的相對(duì)誤差。當(dāng)MAPE≤50%時(shí),代表預(yù)測(cè)結(jié)果與真實(shí)值間的相對(duì)誤差合理;MAPE>50%,預(yù)測(cè)結(jié)果不準(zhǔn)確[37]。因此,隨機(jī)森林算法與KNN算法的預(yù)測(cè)準(zhǔn)確性合理,而SVM支持向量機(jī)算法的預(yù)測(cè)結(jié)果不準(zhǔn)確。
綜上,隨機(jī)森林算法和KNN算法的各項(xiàng)指標(biāo)均優(yōu)于SVM算法,預(yù)測(cè)效果相對(duì)較好。根據(jù)五折交叉驗(yàn)證結(jié)果,隨機(jī)森林算法比KNN算法更加穩(wěn)定,并且其R2、RMSE和MAE均優(yōu)于KNN算法。而KNN算法的MAPE小于隨機(jī)森林算法,可能的原因是KNN算法預(yù)測(cè)低銷量商品時(shí)準(zhǔn)確率更高,所以相對(duì)誤差較小。
3 結(jié) 論
通過(guò)閱讀相關(guān)文獻(xiàn),本文挖掘出17個(gè)可能與服裝直播銷量相關(guān)的變量,根據(jù)相關(guān)性分析結(jié)果,篩選出10個(gè)相關(guān)性檢驗(yàn)顯著的變量,包括產(chǎn)品近30天歷史銷量、產(chǎn)品講解時(shí)長(zhǎng)、主播近30天場(chǎng)均觀看人數(shù)、產(chǎn)品價(jià)格、品牌近30天歷史銷量、主播近30天場(chǎng)均坑產(chǎn)、折扣、主播粉絲數(shù)、品牌粉絲數(shù)、主播帶貨口碑。其中,產(chǎn)品近30天歷史銷量與服裝直播銷量的相關(guān)性最高,這表示服裝以往是否暢銷會(huì)對(duì)直播銷量有較大影響。其次,產(chǎn)品講解時(shí)長(zhǎng)與直播銷量的相關(guān)性也較高,這表示直播中是否著重講解產(chǎn)品也會(huì)很大程度影響服裝直播銷量。其他變量與服裝直播銷量的相關(guān)性系數(shù)也較高,為了避免影響因素之間出現(xiàn)共線性問(wèn)題,本文通過(guò)影響因素間的相關(guān)性分析,剔除與其他影響因素相關(guān)性較大的主播帶貨口碑,將其余9個(gè)變量納入預(yù)測(cè)模型。
根據(jù)各模型最終的評(píng)估結(jié)果,篩選出2種最適合本模型和數(shù)據(jù)集的算法,分別為隨機(jī)森林算法和KNN算法。根據(jù)五折交叉驗(yàn)證結(jié)果,隨機(jī)森林算法與KNN算法相比更加穩(wěn)定,并且其RMSE、MAE都比較低,可能的原因是KNN算法更適用于數(shù)據(jù)特征相似性更強(qiáng)的數(shù)據(jù)集。因此,在實(shí)際應(yīng)用中可以將隨機(jī)森林作為主要預(yù)測(cè)算法,以確保整體銷售趨勢(shì)預(yù)測(cè)的穩(wěn)定性。在預(yù)測(cè)同品牌或同品類服裝產(chǎn)品銷量時(shí),數(shù)據(jù)之間的相似性更高,此時(shí)可考慮使用KNN算法進(jìn)行預(yù)測(cè)。本文為服裝直播銷量預(yù)測(cè)提供了一種新的思路和方法,可以幫助商家制定生產(chǎn)計(jì)劃,提高庫(kù)存管理效率,改進(jìn)營(yíng)銷策略。對(duì)于服裝商家來(lái)說(shuō),第一,商家可根據(jù)預(yù)測(cè)結(jié)果的銷量高低制定未來(lái)的生產(chǎn)計(jì)劃,確保庫(kù)存充足的同時(shí)避免貨物積壓。第二,零售商可以根據(jù)主播特征及其持有產(chǎn)品和品牌的相關(guān)特征,將服裝精準(zhǔn)投放至直播間。第三,零售商可使用不同的講解時(shí)長(zhǎng)、產(chǎn)品價(jià)格和折扣預(yù)測(cè)直播銷量,以選擇合適的直播營(yíng)銷策略。
本文在研究服裝直播銷量時(shí),只考慮了容易量化的因素,而影響服裝直播銷售的因素多種多樣,只對(duì)其中一部分進(jìn)行了探究,在后續(xù)研究過(guò)程中需要尋找其他重要影響因素的量化方法。其次,研究過(guò)程中樣本分布具有局限性,選取的時(shí)間范圍較短,高銷量的樣本數(shù)較少,樣本數(shù)量不足,后續(xù)研究需要更多數(shù)據(jù)支撐。服裝直播銷量的預(yù)測(cè)模型未來(lái)可進(jìn)一步優(yōu)化調(diào)整,如擴(kuò)大樣本選取范圍,完善預(yù)測(cè)指標(biāo)體系,以達(dá)到更精準(zhǔn)的預(yù)測(cè)效果。
參考文獻(xiàn):
[1]ZHANG M L, LIU Y F, WANG Y, et al. How to retain customers: Understanding the role of trust in live streaming commerce with a socio-technical perspective[J]. Computers in Human Behavior, 2022, 127: 107052.
[2]XU W, CAO Y, CHEN R Y. A multimodal analytics framework for product sales prediction with the reputation of anchors in live streaming e-commerce[J]. Decision Support Systems, 2024, 177: 114104.
[3]汪蕓芳, 史意, 陳麗華. 基于BP神經(jīng)網(wǎng)絡(luò)及灰色GM(1,1)模型的服裝供應(yīng)鏈第三方庫(kù)存預(yù)測(cè)應(yīng)用研究[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2020, 50(3): 277-285.
WANG Y F, SHI Y, CHEN L H. Third-party inventory forecasting application research of apparel supply chain based on BP neural network and grey GM (1, 1) model[J]. Mathematics in Practice and Theory, 2020, 50(3): 277-285.
[4]HE Q Q, WU C Y, SI Y W. LSTM with particle swam optimization for sales forecasting[J]. Electronic Commerce Research and Applications, 2022, 51: 101118.
[5]鄭金峰. 基于模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的服裝直播銷售預(yù)測(cè)研究[D]. 杭州: 浙江理工大學(xué), 2023.
ZHENG J F. Research on Clothing Live Broadcast Sales Prediction Based on Simulated Annealing Algorithm Optimized BP Neural Network[D]. Hangzhou: Zhejiang Sci-Tech University, 2023.
[6]孟志青, 馬珂, 鄭英. 基于核函數(shù)技術(shù)的時(shí)尚服裝需求預(yù)測(cè)方法[J]. 計(jì)算機(jī)科學(xué), 2016 (增2): 455-460.
MENG Z Q, MA K, ZHENG Y. Forecasting method for fashion clothing demand based on kernel functions technology[J]. Computer Science, 2016, 43(S2), 455-460.
[7]LIN Q P, JIA N, CHEN L, et al. A two-stage prediction model based on behavior mining in livestream e-commerce[J]. Decision Support Systems, 2023, 174: 114013.
[8]李建斌, 雷鳴顥, 戴賓, 等. 考慮促銷因素的醫(yī)藥電商平臺(tái)需求預(yù)測(cè)研究[J]. 中國(guó)管理科學(xué), 2022, 30(12): 120-130.
LI J B, LEI M H, DAI B, et al. E-pharmacy demand forecasting in the presence of promotional activities[J]. Chinese Journal of Management Science, 2022, 30(12): 120-130.
[9]VAN RUITENBEEK R E, KOOLE G, BHULAI S. A hierarchical agglomerative clustering for product sales forecasting[J]. Decision Analytics Journal, 2023, 8: 100318.
[10]WANG L, LI X, ZHU H Y, et al. Influencing factors of livestream selling of fresh food based on a push-pull model: A two-stage approach combining structural equation modeling (SEM) and artificial neural network (ANN)[J]. Expert Systems with Applications, 2023, 212: 118799.
[11]程肖冰, 曹麗婷, 李蘇建. 基于混合優(yōu)化神經(jīng)網(wǎng)絡(luò)的零售銷量預(yù)測(cè)[J]. 統(tǒng)計(jì)與決策, 2022, 38(6): 185-188.
CHENG X B, CAO L T, LI S J. Retail sales forecasting based on hybrid optimal neural networks[J]. Statistics amp; Decision, 2022, 38(6): 185-188.
[12]張晨, 邱彤. 基于決策樹(shù)集成模型的加油站銷量預(yù)測(cè)[J]. 計(jì)算機(jī)與應(yīng)用化學(xué), 2019, 36(6): 615-619.
ZHANG C, QIU T. Gas station sales forecast based on decision tree integration model[J]. Computers and Applied Chemistry, 2019, 36(6): 615-619.
[13]何喜軍, 馬珊, 武玉英, 等. 小樣本下多維指標(biāo)融合的電商產(chǎn)品銷量預(yù)測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(15): 177-184.
HE X J, MA S, WU Y Y, et al. E-commerce product sales forecast with multi-dimensional index integration under small sample[J]. Computer Engineering and Applications, 2019, 55(15): 177-184.
[14]BANSAL M, GOYAL A, CHOUDHARY A. A comparative analysis of K-nearest neighbor, genetic, support vector machine, decision tree, and long short term memory algorithms in machine learning[J]. Decision Analytics Journal, 2022, 3: 100071.
[15]YOO T W, OH I S. Time series forecasting of agricultural products’ sales volumes based on seasonal long short-term memory[J]. Applied Sciences, 2020, 10(22): 8169.
[16]劉妍兵, 劉倫倫, 唐穎. 基于BP神經(jīng)網(wǎng)絡(luò)的童裝流行元素預(yù)測(cè)[J]. 毛紡科技, 2022, 50(2): 109-115.
LIU Y B, LIU L L, TANG Y. Prediction of popular elements of children’s wear based on BP neural network[J]. Wool Textile Journal, 2022, 50(2): 109-115.
[17]羅戎蕾, 劉紹華, 蘇晨. 基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)服裝銷售預(yù)測(cè)方法[J]. 北京郵電大學(xué)學(xué)報(bào), 2014, 37(4): 39-43.
LUO R L, LIU S H, SU C. Garment sales forecast method based on genetic algorithm and BP neural network[J]. Journal of Beijing University of Posts and Telecommunications, 2014, 37(4): 39-43.
[18]林婷婷, 曲洪建. 網(wǎng)紅營(yíng)銷要素對(duì)服裝消費(fèi)者購(gòu)買意愿的影響[J]. 絲綢, 2019, 56(3): 54-62.
LIN T T, QU H J. The influence of online celebrity marketing elements on the purchase intention of apparel consumers[J]. Journal of Silk, 2019, 56(3): 54-62.
[19]孫一文, 羅戎蕾. 基于Stacking集成學(xué)習(xí)的服裝網(wǎng)絡(luò)直播銷量預(yù)測(cè)[J]. 染整技術(shù), 2023, 45(4): 1-5.
SUN Y W, LUO R L. Online live broadcast sales forecast for clothing based on Stacking integrated learning[J]. Textile Dyeing and Finishing Journal, 2023, 45(4): 1-5.
[20]李雪. 基AHP和BP神經(jīng)網(wǎng)絡(luò)的服裝銷售預(yù)測(cè)模型的研究及應(yīng)用[D]. 杭州: 浙江工商大學(xué), 2014.
LI X. The Research and Application of Clothing Sales Forecasting Model Based on AHP and BP Neural Network[D]. Hangzhou: Zhejiang Gongshang University, 2014.
[21]李蓓蓓. 網(wǎng)紅直播帶貨、品牌認(rèn)同與消費(fèi)者購(gòu)買行為[J]. 商業(yè)經(jīng)濟(jì)研究, 2022(14): 83-85.
LI B B. Influencer live streaming, brand identity and consumer purchasing behavior[J]. Journal of Commercial Economics, 2022(14): 83-85.
[22]鄭金峰, 羅戎蕾. 服裝銷售定量預(yù)測(cè)方法研究進(jìn)展[J]. 現(xiàn)代紡織技術(shù), 2022, 30(2): 27-35.
ZHENG J F, LUO R L. Research progress on quantitative forecast methods of clothing sales[J]. Advanced Textile Technology, 2022, 30(2): 27-35.
[23]陳金車. 基于機(jī)器學(xué)習(xí)的西北省會(huì)城市空氣污染物濃度預(yù)報(bào)方法研究[D]. 蘭州: 蘭州大學(xué), 2023.
CHEN J C. Research on Forecasting Method of Air Pollutant Concentration in Northwest Provincial Capital Cities Based on Machine Learning[D]. Lanzhou: Lanzhou University, 2023.
[24]BREIMAN L. Random forests[J]. Machine Learning, 2001, 45: 5-32.
[25]BELGIU M, DRAGUT L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114: 24-31.
[26]VERIKAS A, Gelzinis A, BACAUSKIENE M. Mining data with random forests: A survey and results of new tests[J]. Pattern Recognition, 2011, 44(2): 330-349.
[27]MEMORY L S T. Long short-term memory[J]. Neural Computation, 2010, 9(8): 1735-1780.
[28]VAPNIK V, GOLOWICH S, SMOLA A. Support vector method for function approximation, regression estimation and signal processing[J]. Advances in Neural Information Processing Systems, 1996(9): 281-287.
[29]章軍輝, 陳明亮, 郭曉滿, 等. 基于粒子群優(yōu)化支持向量機(jī)的紗線質(zhì)量預(yù)測(cè)[J]. 棉紡織技術(shù), 2024, 52(4): 16-22.
ZHANG J H, CHEN M L, GUO X M, et al. Yarn quality prediction based on support vector machine optimized by particle swarm optimization[J]. Cotton Textile Technology, 2024, 52(4): 16-22.
[30]HANDHAL A M, Al-ABADI A M, CHAFEET H E, et al. Prediction of total organic carbon at Rumaila oil field, Southern Iraq using conventional well logs and machine learning algorithms[J]. Marine and Petroleum Geology, 2020, 116: 104347.
[31]DUDEK G, PELKA P. Pattern similarity-based machine learning methods for mid-term load forecasting: A comparative study[J]. Applied Soft Computing, 2021, 104: 107223.
[32]MAILAGAHA KUMBURE M, LUUKKA P. A generalized fuzzy K-nearest neighbor regression model based on Minkowski distance[J]. Granular Computing, 2022, 7(3): 657-671.
[33]LIU H, CAI J, ONG Y S. Remarks on multi-output Gaussian process regression[J]. Knowledge-Based Systems, 2018, 144: 102-121.
[34]謝坤, 容鈺添, 胡奉平, 等. 基于數(shù)據(jù)集成的隨機(jī)森林算法[J]. 計(jì)算機(jī)工程, 2020, 46(12): 290-298.
XIE K, RONG Y T, HU F P, et al. Random forest algorithm based on data integration[J]. Computer Engineering, 2020, 46(12): 290-298.
[35]張軍凱, 孫志鋒. 基于優(yōu)化灰色-馬爾可夫鏈的銷量預(yù)測(cè)[J]. 現(xiàn)代制造工程, 2019(4): 7-13.
ZHANG J K, SUN Z F. Sales forecast based on optimized grey-markov chain[J]. Modern Manufacturing Engineering, 2019(4): 7-13.
[36]卞利花, 吉敏全. 青海交通碳排放影響因素及預(yù)測(cè)研究[J]. 生態(tài)經(jīng)濟(jì), 2019, 35(2): 35-39.
BIAN L H, JI M Q. Research on influencing factors and prediction of transportation carbon emissions in Qinghai[J]. Ecological Economy, 2019, 35(2): 35-39.
[37]RAY S, LAMA A, MISHRA P, et al. An ARIMA-LSTM model for predicting volatile agricultural price series with random forest technique[J]. Applied Soft Computing, 2023, 149: 110939.
Apparel livestreaming sales forecasting models based on machine learning algorithms
ZHANG Chi, WANG Xiangrong
HAN Bo, LI Pei
(School of Textiles and Fashion, Shanghai University of Engineering Science, Shanghai 201620, China)
Abstract: With the dramatic increase in the scales of e-commerce livestreaming, the number of e-commerce livestreaming users has reached 48.8% of the overall Internet users in China. The huge supply demand requires live e-commerce stores to improve their dispatching efficiency and reduce inventory. Therefore, in order to avoid retailers’ profit loss, it is necessary to find a more accurate method to predict livestreaming sales.
The sales prediction methods mainly include traditional statistical methods and machine learning algorithms. Due to the instability of livestreaming sales and the large number of influencing factors, traditional statistical methods often fail to predict the sales accurately. To complete the index system of livestreaming sales prediction and improve the accuracy of livestreaming sales prediction, this paper adopted a variety of machine learning algorithms (BP neural network, decision tree (DT), random forest (RF), K-nearest neighbor (KNN), and support vector machine (SVM)), analyzed the influencing factors of apparel livestreaming sales, predicted apparel livestreaming sales, and selected the best performing algorithms. The detailed research process is as follows. Firstly, 17 influencing factors of livestreaming sales were selected through literature review, and nine most important influencing factors were selected by using Spearman’s correlation coefficient combined with significance. Secondly, different machine learning algorithms were used to establish clothing sales prediction models, and the method of 5-fold cross-validation was adopted to initially screen out three algorithms (RF, KNN and SVM) with high and stable model fit with R2 as an indicator. Finally, the parameters of the three algorithms were optimized, and then, three prediction models were constructed. R2, MAE, RMSE and MAPE were used as evaluation indexes, and the optimal algorithms were selected by using the method of 5-fold cross-validation to test the performance of each model.
The results of the study show that: the multicollinearity between the nine factors (number of fans of the anchor, average number of viewers of the anchor in the last 30 days, average pit output of the anchor in the last 30 days, product price, duration of product explanation, historical sales of the product in the last 30 days, number of fans of the brand, historical sales of the brand in the last 30 days, and discounts) is weak and their correlation with the livestreaming sales is significant. Therefore, these nine factors can be used as influencing factors in the prediction model. Among the influencing factors, the correlation among product sales in the last 30 days, the duration of product explanation and livestreaming sales is the highest. In the meanwhile, the prediction algorithms, KNN and RF perform better, with R2 being greater than 0.98 and MAPE within 30.5%. Compared with the KNN algorithm, the RF algorithm is more stable, and its R2, RMSE and MAE perform better than those of the KNN algorithm. But the MAPE of the KNN algorithm is smaller than that of the RF algorithm, for which the possible reason is that the KNN algorithm is more accurate in predicting low sales items, and the relative error is smaller. According to the result of 5-fold cross-validation, the RF algorithm is more stable compared with the KNN algorithm, and the possible reason is that the KNN algorithm is more suitable for the dataset with more similar data features. Therefore, RF can be used as the main prediction algorithm in practical applications to ensure the stability of the overall sales trend prediction. In predicting the sales of the same brand or the same category, the similarity between the data is higher, and then the KNN algorithm can be considered for prediction.
This paper compares the performance of various prediction algorithms on livestreaming sales prediction, optimizes the parameters and improves the accuracy of livestreaming sales prediction. The prediction results can help retailers make inventory planning, adjust production schedules, develop marketing strategies, and provide data support for product purchasing, pricing, and promotion. Due to the fact that only some of the easily quantifiable influencing factors are explored in this paper and the sample distribution is limited, future research can expand the scope of sample selection and further improve the predictive indicator system to achieve more accurate predictions.
Key words: live-streaming sales forecasting; machine learning; random forest (RF); K-nearest neighbors (KNN); support vector machine (SVM); 5-fold cross-validation
收稿日期: 2023-12-18; 修回日期: 2024-05-29
作者簡(jiǎn)介: 韓鉑(2001),女,碩士研究生,研究方向?yàn)榉b市場(chǎng)營(yíng)銷。通信作者:李沛,副教授,博士,pacywu@126.com。