李錦朋,黃貽望,2*
(1. 銅仁學(xué)院大數(shù)據(jù)學(xué)院,銅仁 554300;2. 貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)),貴陽(yáng) 550025)
隨著數(shù)據(jù)技術(shù)的發(fā)展,企業(yè)轉(zhuǎn)型數(shù)字化成為必然的趨勢(shì),如何去收集、挖掘、分析大數(shù)據(jù)加快企業(yè)的轉(zhuǎn)型數(shù)字化發(fā)展是企業(yè)信息化的一個(gè)重要功能[1]。某餐飲品牌是貴州本土品牌,成立于2013 年,結(jié)合本土各種好茶葉,醞釀出各種好口碑的奶茶,隨著店面不斷增加,銷售數(shù)據(jù)也日益增加,現(xiàn)有簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)圖應(yīng)用無(wú)法支撐一個(gè)企業(yè)快速發(fā)展,根據(jù)某茶飲銷售過(guò)程中產(chǎn)生的異構(gòu)數(shù)據(jù),利用支持向量機(jī)(sup?port vector machine,SVM)小樣本算法構(gòu)建基于不同核函數(shù)的銷售額預(yù)測(cè)分析模型,通過(guò)對(duì)不同核函數(shù)下SVM 銷售額預(yù)測(cè)模型的對(duì)比分析,得到參數(shù)調(diào)優(yōu)后的SVM 銷售額預(yù)測(cè)值與實(shí)際銷售額的值進(jìn)行比較[2]。實(shí)驗(yàn)仿真表明,參數(shù)優(yōu)化后的SVM 可減少數(shù)據(jù)中噪聲數(shù)據(jù)的影響,提高了銷售預(yù)測(cè)模型的效率[3]。
實(shí)現(xiàn)某茶飲銷售數(shù)據(jù)動(dòng)態(tài)適時(shí)分析與預(yù)測(cè)具有重要的意義,能對(duì)企業(yè)未來(lái)的趨勢(shì)進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),并能及時(shí)制定解決方案。通過(guò)公司的海量數(shù)據(jù)分析出產(chǎn)品與產(chǎn)品之間的關(guān)聯(lián)模式、天氣對(duì)企業(yè)銷量的影響等諸多因素。通過(guò)圖表觀察數(shù)據(jù)的整體情況可探究歷史企業(yè)整體運(yùn)營(yíng)情況、業(yè)務(wù)組成,以便了解企業(yè)每個(gè)業(yè)務(wù)的動(dòng)態(tài)發(fā)展變化,所有店鋪及單個(gè)店鋪銷售情況、消費(fèi)者(口味、喜好)以及同行的經(jīng)營(yíng)狀況等,從數(shù)據(jù)到實(shí)際生活等多個(gè)維度來(lái)定制數(shù)字化服務(wù),從而實(shí)現(xiàn)企業(yè)的快速發(fā)展[4]。
主要貢獻(xiàn):①獲取某茶飲歷史銷售數(shù)據(jù)集及時(shí)間段內(nèi)地區(qū)氣溫溫度;②在企業(yè)運(yùn)營(yíng)系統(tǒng)獲取到的數(shù)據(jù)集進(jìn)行預(yù)處理;③構(gòu)建基于支持向量機(jī)的銷售額預(yù)測(cè)模型;④將非線性SVM模型的預(yù)測(cè)銷售額與真實(shí)銷售額進(jìn)行對(duì)比分析,有比較好的吻合度,說(shuō)明模型具有較好的泛化性能。
某茶飲銷售額受到多種因素,如天氣溫度、消費(fèi)者購(gòu)買力、節(jié)假日、門店地域不同等影響,不同的門店位置、不同的人群購(gòu)買力產(chǎn)生的銷售額不同,選擇消費(fèi)者購(gòu)買力、天氣溫度、節(jié)假日等特征值建立銷售額關(guān)系的預(yù)測(cè)模型,利用支持向量機(jī)(SVM)方法可以實(shí)現(xiàn)銷售額是否達(dá)到預(yù)期目標(biāo)的預(yù)測(cè),有效提升產(chǎn)品的銷售布局和管理決策。
解決辦法是根據(jù)已有的銷售數(shù)據(jù)在模型中的多樣性和學(xué)習(xí)能力之間尋求最好解決方案[11],SVM 解決海量數(shù)據(jù)中非線性問(wèn)題的核心思想是原始的非線性可分?jǐn)?shù)據(jù)X 可找到一個(gè)非線性映射Φ,該映射Φ 將非線性可分的原始特征空間投影到線性可分的高維特征空間F,從而在高維特征空間中實(shí)現(xiàn)樣本的線性分類或回歸[5]。由于SVM 可以實(shí)現(xiàn)對(duì)特定訓(xùn)練樣本的學(xué)習(xí)并分類識(shí)別,將SVM預(yù)測(cè)模型應(yīng)用于銷售額預(yù)測(cè)領(lǐng)域,通過(guò)對(duì)數(shù)據(jù)集的預(yù)處理,使用SVM 可減少噪聲數(shù)據(jù)對(duì)預(yù)測(cè)的影響并在分析過(guò)程中提高了SVM模型的準(zhǔn)確性[6]。
設(shè)有M個(gè)數(shù)據(jù)樣本的數(shù)據(jù)集,其中xi∈Rd是d維向量,表示每個(gè)數(shù)據(jù)樣本的輸入特征值向量,yi∈{+ 1, - 1} 是每個(gè)數(shù)據(jù)樣本的標(biāo)簽,表示樣本屬于的類別,則使用模型對(duì)該數(shù)據(jù)集中的樣本進(jìn)行預(yù)測(cè)的約束條件為
將 公 式(1)合 并 為yi(ωTxi+b) ≥+1,i=1,2,…,m,其中ω=(ω1,ω2,…,ωd)為特征向量的權(quán)重向量,決定分類超平面的法向量;b為截距,表示超平面與原點(diǎn)之間的距離,記為(ω,b)。
數(shù)據(jù)集中任意樣本x到分類超平面(ω,b)的距離公式寫為
從而優(yōu)化目標(biāo)函數(shù)為
通過(guò)對(duì)(ω,b)進(jìn)行縮放使得|ωTx+b|= 1,則將式(3)轉(zhuǎn)化為式(4):
為降低基于SVM 銷售額預(yù)測(cè)模型的泛化誤差[7],引入松馳變量ξi,將優(yōu)化目標(biāo)轉(zhuǎn)化為
通過(guò)引入拉氏(Lagrange)系數(shù),構(gòu)造拉氏函數(shù),將式(5)化為無(wú)限制的優(yōu)化問(wèn)題,拉格朗日乘子αi≥0,i= 1,2,…,N,拉氏函數(shù)如下:
當(dāng)滿足對(duì)應(yīng)的KKT條件時(shí),
無(wú)約束優(yōu)化問(wèn)題式(6)轉(zhuǎn)化為相應(yīng)的強(qiáng)對(duì)偶問(wèn)題:
通過(guò)求解公式(8)得到原問(wèn)題的優(yōu)化解,見(jiàn)式(9)。
數(shù)據(jù)集是采用貴州某餐飲品牌實(shí)時(shí)銷售數(shù)據(jù),某店 面2015 年1 月1 日 至2021 年7 月31 日每一天的銷售額數(shù)據(jù),數(shù)據(jù)集包含2826 行10 列的時(shí)間-銷售金額數(shù)據(jù)。如表1所示。
表1 茶飲銷售數(shù)據(jù)源
為防止多維屬性的強(qiáng)關(guān)聯(lián)對(duì)茶飲樣本數(shù)據(jù)質(zhì)量產(chǎn)生噪聲,從而影響模型的可靠性,從一級(jí)品類、二級(jí)品類、商品名稱、商品編碼、單位、銷售次數(shù)、銷售數(shù)量、銷售金額、退貨數(shù)量、退貨金額等10 個(gè)特征中選擇對(duì)預(yù)測(cè)銷售額影響較大的特征,即樣本空間屬性的降維處理,也就是特征選擇,從而降低預(yù)測(cè)過(guò)程的復(fù)雜性,同時(shí)由于是針對(duì)餐飲店銷售額的預(yù)測(cè),將加入影響銷售的外界因素天氣溫度、購(gòu)買力作為特征值,共計(jì)12 個(gè)特征,通過(guò)降維到4 個(gè)屬性用于模型的訓(xùn)練。圖1為各屬性貢獻(xiàn)值。
圖1 各屬性貢獻(xiàn)值
影響銷售額的參數(shù)有氣溫、購(gòu)買力、節(jié)假日、銷售數(shù)量,其中氣溫和購(gòu)買力是長(zhǎng)期影響銷售額的因素。
氣溫?cái)?shù)據(jù)從國(guó)家氣象網(wǎng)上采集,政府部門發(fā)布的統(tǒng)計(jì)數(shù)據(jù)可提供人群購(gòu)買力的參考指標(biāo),比如人均收入、消費(fèi)支出等。圖2和圖3是影響銷售額的氣溫和購(gòu)買力,銷售數(shù)量與銷售額呈正比,隨著節(jié)假日到來(lái),銷售額也會(huì)隨之增長(zhǎng),影響銷售額的還有門店位置。
圖2 氣溫
圖3 客戶群購(gòu)買力
為解決因特征變化而導(dǎo)致的預(yù)測(cè)偏差,需要對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,這里采用min?max標(biāo)準(zhǔn)化[8],如公式(10)所示。
其中:xi為第i個(gè)樣本數(shù)據(jù)屬性值,xmin和xmax是屬性的最小值和最大值。
歸一化后的銷售額數(shù)據(jù)可以提升模型精度和準(zhǔn)確性,圖4(b)是將實(shí)際銷售額數(shù)據(jù)歸一化后的結(jié)果。
圖4 標(biāo)準(zhǔn)化后的數(shù)據(jù)對(duì)比
圖5 三種核函數(shù)銷售額預(yù)測(cè)對(duì)比
將2826 條數(shù)據(jù)分為訓(xùn)練集和預(yù)測(cè)集,其中1978 條數(shù)據(jù)作為訓(xùn)練集,848 條數(shù)據(jù)作為測(cè)試集[9]。模型訓(xùn)練是基于線性核、多項(xiàng)式核和RBF核三種不同的核函數(shù)進(jìn)行的,通過(guò)三種不同核函數(shù)構(gòu)造SVM銷售額數(shù)據(jù)的預(yù)測(cè)模型,其中RBF核為高斯核,對(duì)應(yīng)的函數(shù)為高斯核函數(shù)(見(jiàn)表2)。
表2 核函數(shù)的表達(dá)式
選取均方誤差(MSE)和平均絕對(duì)百分比誤差(MAPE)兩個(gè)評(píng)價(jià)指標(biāo)分別從預(yù)測(cè)誤差和預(yù)測(cè)精準(zhǔn)度兩個(gè)方面對(duì)不同核函數(shù)下的SVM 銷售額預(yù)測(cè)結(jié)果進(jìn)行對(duì)比[10],結(jié)果如表3所示。
表3 三種核函數(shù)銷售額預(yù)測(cè)對(duì)比
據(jù)統(tǒng)計(jì)分析可知,均方誤差(MSE)越小,表示預(yù)測(cè)值與真實(shí)值誤差越小,即分類模型性能越好,也就是說(shuō)模型的預(yù)測(cè)結(jié)果越接近真實(shí)值[11],從表3可知基于高斯核函數(shù)(RBF)的支持向量機(jī)模型的預(yù)測(cè)銷售額效果較其余兩個(gè)函數(shù)的效果更佳[12]。
為降低預(yù)測(cè)銷售額模型的預(yù)測(cè)誤差,提高模型的泛化性能,現(xiàn)對(duì)RBF 函數(shù)下的SVM 銷售額預(yù)測(cè)模型的參數(shù)進(jìn)行優(yōu)化。隨機(jī)選取3組參數(shù)對(duì)(σ,δ)進(jìn)行對(duì)比實(shí)驗(yàn),其中σ為懲罰參數(shù),δ為多項(xiàng)式函數(shù)的系數(shù),對(duì)比結(jié)果如圖6所示[13]。
圖6 基于不同參數(shù)的SVM的預(yù)測(cè)結(jié)果對(duì)比
對(duì)比表3 和表4 銷售預(yù)測(cè)模型的MSE、MAPE 和Accuracy,得 到σ=3.00,δ=0.75 時(shí),RBF 核函數(shù)MSE=0.004115,MAPE=0.0964,Accu?racy=92.14%,表明SVM預(yù)測(cè)效果較好。
表4 基于不同核函數(shù)銷售額預(yù)測(cè)對(duì)比
由表4 可知,對(duì)參數(shù)調(diào)優(yōu)前后MSE、MAPE的值進(jìn)行對(duì)比,發(fā)現(xiàn)參數(shù)調(diào)優(yōu)后模型預(yù)測(cè)效果更佳[14]。
將銷售數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練不同核函數(shù)下的SVM 銷售預(yù)測(cè)模型,并對(duì)RBF 函數(shù)SVM 銷售預(yù)測(cè)模型進(jìn)行參數(shù)優(yōu)化,通過(guò)對(duì)SVM 模型預(yù)測(cè)結(jié)果誤差和準(zhǔn)確率進(jìn)行仿真分析,驗(yàn)證了優(yōu)化后模型的有效性,有助于企業(yè)精準(zhǔn)掌握客戶喜好,針對(duì)不同的客戶群采用不同的方案進(jìn)行精準(zhǔn)營(yíng)銷。