吳英昊 申長新
(山東聊城煙草有限公司臨清營銷部,山東聊城 252600)
近幾年,互聯(lián)網(wǎng)經(jīng)濟(jì)發(fā)展迅速,人們的生產(chǎn)生活及工作方方面面都受到深刻影響?;ヂ?lián)網(wǎng)具有信息傳播渠道寬、反應(yīng)快速、平民化、全民化、隱蔽性的特點(diǎn),涉煙違法犯罪分子正是看到了這一點(diǎn),通過互聯(lián)網(wǎng)非法生產(chǎn)、銷售、運(yùn)輸卷煙,甚至走私國外熱銷卷煙、雪茄煙,作案手段先進(jìn),違法行為隱蔽,犯罪分子難以抓獲,這就要求我們煙草專賣執(zhí)法人員更要深入學(xué)習(xí)互聯(lián)網(wǎng)技術(shù),運(yùn)用互聯(lián)網(wǎng)思維,創(chuàng)新煙草市場(chǎng)監(jiān)管模式。
智能市場(chǎng)監(jiān)管技術(shù),主要使用營銷數(shù)據(jù)中的多個(gè)維度數(shù)據(jù),以時(shí)間為窗口,基于支持向量機(jī)構(gòu)建一套異常數(shù)據(jù)智能監(jiān)測(cè)方案。算法主要基于各個(gè)門店的總銷量、品牌銷量、單品銷量、是否緊俏、掃碼頻度、掃碼時(shí)間、庫存量、存銷比、地理位置權(quán)重等維度數(shù)據(jù),通過既往門店運(yùn)營情況,訓(xùn)練門店異常評(píng)估模型。為不將同量綱的維度數(shù)據(jù)統(tǒng)一到同一數(shù)量級(jí)下,對(duì)多維度數(shù)據(jù)采用歸一化算法,讓特征向量中不同特征的取值相差不大,加快模型收斂的速度,提高模型訓(xùn)練的精度。考慮到門店數(shù)據(jù)的智能適應(yīng)性,增加了基于時(shí)間窗口的模型自動(dòng)更新機(jī)制,從而增強(qiáng)模型的自學(xué)習(xí)能力。
圖1 支持向量機(jī)分類模型Fig.1 Support vector machine classification model
根據(jù)實(shí)際需求,本文從將異常銷量預(yù)測(cè)分析角度出發(fā),基于支持向量機(jī)(SVM)進(jìn)行銷量維度的預(yù)警分析與智能監(jiān)測(cè),進(jìn)而從海量數(shù)據(jù)中深入挖掘風(fēng)險(xiǎn)數(shù)據(jù)。
1.1 支持向量機(jī)
支持向量機(jī)[1]是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,在小樣本數(shù)據(jù)集的情況下,可以實(shí)現(xiàn)較為準(zhǔn)確快速的收斂預(yù)測(cè)。通過理解線性可分支持向量機(jī)的工作原理,進(jìn)而引入解決復(fù)雜問題的核函數(shù)支持向量機(jī),實(shí)現(xiàn)對(duì)門店數(shù)據(jù)的智能監(jiān)測(cè)功能。
線性可分支持向量機(jī)對(duì)應(yīng)著將兩類數(shù)據(jù)正確劃分并且間隔最大的一條直線。支持向量機(jī)分類模型如圖1所示,其基本想法是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。對(duì)與線性可分的訓(xùn)練數(shù)據(jù)集合而言,線性可分分離超平面可以有無窮多個(gè),但是幾何間隔最大的分離超平面確是唯一的。通過模型訓(xùn)練,不斷收斂,調(diào)整參數(shù),進(jìn)而獲得最終可接受誤差范圍內(nèi)的分離超平面,實(shí)現(xiàn)對(duì)數(shù)據(jù)集的分類標(biāo)識(shí)。
利用SVM分類理論,分別異常銷量關(guān)系構(gòu)建的用戶網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行基本特征量的大數(shù)據(jù)分析,并在此基礎(chǔ)上,利用多子網(wǎng)復(fù)合復(fù)雜網(wǎng)絡(luò)模型,對(duì)營銷用戶多關(guān)系復(fù)合網(wǎng)絡(luò)進(jìn)行了實(shí)證研究。
未解決多維度數(shù)據(jù)線性不可分問題,在此次訓(xùn)練模型中,引入核函數(shù)方案實(shí)現(xiàn)對(duì)高維數(shù)據(jù)多標(biāo)簽分類效果。
1.2 數(shù)據(jù)集初步標(biāo)注
基于支持向量機(jī)的機(jī)器學(xué)習(xí)算法與其他監(jiān)督類學(xué)習(xí)算法相同,均需要提前對(duì)已知的數(shù)據(jù)分類進(jìn)行標(biāo)注??紤]到門店各類數(shù)據(jù)的復(fù)雜度,起初通過對(duì)既往門店做常規(guī)性統(tǒng)計(jì)分析,對(duì)各個(gè)門店數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),完成對(duì)門店類別的初次標(biāo)注工作。
1.3 門店初步分類
使用初次標(biāo)記數(shù)據(jù),對(duì)既往3年內(nèi)數(shù)據(jù),以時(shí)間為窗口,對(duì)歷史數(shù)據(jù)進(jìn)行分組,整合,訓(xùn)練,收斂計(jì)算,完成對(duì)門店進(jìn)行初次分類標(biāo)記。初次標(biāo)記過程中,尤其需要注意對(duì)歷史數(shù)據(jù)訓(xùn)練收斂速度以及收斂效果,引入多維度參數(shù),盡量消除局部最優(yōu)解對(duì)整體最優(yōu)解的干擾。
對(duì)門店分類結(jié)果進(jìn)行統(tǒng)籌分析,確保數(shù)據(jù)收斂結(jié)果可信,并再次對(duì)門店分類進(jìn)行修正,再次訓(xùn)練模型[2]數(shù)據(jù),得到可上線初始基礎(chǔ)數(shù)據(jù)模型。線上初始基礎(chǔ)模型的構(gòu)建,需要注意線上運(yùn)算效率以及模型動(dòng)態(tài)訓(xùn)練的性能。
本例中設(shè)計(jì)到用戶數(shù)量多,數(shù)據(jù)維度多,不同數(shù)據(jù)維度對(duì)整體預(yù)測(cè)結(jié)果的影響不同,在模型訓(xùn)練過程中,需要注意數(shù)據(jù)歸一化的處理對(duì)預(yù)測(cè)結(jié)果的影響,多次驗(yàn)證、多次模型訓(xùn)練,最終達(dá)到預(yù)測(cè)結(jié)果準(zhǔn)確性目的。
1.4 滑動(dòng)窗口模型重建
考慮到數(shù)據(jù)模型維度需要對(duì)生產(chǎn)環(huán)境進(jìn)行動(dòng)態(tài)修正,保持模型預(yù)測(cè)的準(zhǔn)確性,本文采用基于時(shí)間窗口滑塊方式實(shí)現(xiàn)對(duì)生產(chǎn)數(shù)據(jù)維度參數(shù)的動(dòng)態(tài)分塊、交叉分塊,并結(jié)合用戶隨訪門店結(jié)果,對(duì)模型進(jìn)行自動(dòng)化模型重建[3]。引入滑動(dòng)窗口模型重建機(jī)制,主要增加了模型自助學(xué)習(xí)能力,實(shí)際上是將時(shí)間因素引入到模型預(yù)測(cè)環(huán)節(jié),用于提高模型在對(duì)各類環(huán)境因素的預(yù)測(cè)魯棒性?;瑒?dòng)窗口模型重建的流程為:
1.5 新舊模型交叉驗(yàn)證
考慮到新模型為系統(tǒng)自動(dòng)訓(xùn)練,為避免數(shù)據(jù)維度明顯失真導(dǎo)致近期模型訓(xùn)練失真問題,數(shù)據(jù)預(yù)測(cè)模型采用新舊模型單獨(dú)預(yù)測(cè),預(yù)測(cè)結(jié)果智能裁決機(jī)制,保證模型預(yù)測(cè)數(shù)據(jù)的合理性與真實(shí)性,從而得到門店的銷量異常預(yù)警。
1.6 完整數(shù)據(jù)流-模型訓(xùn)練(圖2)
1.7 完整數(shù)據(jù)流-模型預(yù)測(cè)(圖3)
2.1 實(shí)現(xiàn)營銷數(shù)據(jù)獲取自動(dòng)化
為實(shí)現(xiàn)煙草營銷數(shù)據(jù)監(jiān)測(cè)功能,首先需要解決云POS商戶銷量基礎(chǔ)數(shù)據(jù)問題。日常分析過程中,我們?yōu)榱四軌蚍治鼋?jīng)營數(shù)據(jù),需要手動(dòng)登陸到云POS系統(tǒng)中,手動(dòng)篩選出需要的數(shù)據(jù),并下載為Excel文檔,然后再使用Excel分析需要的數(shù)據(jù)。為了解決此問題,我們整理了日常需要使用的數(shù)據(jù)字段、數(shù)據(jù)內(nèi)容,使用自動(dòng)化腳本實(shí)現(xiàn)了每日將Excel文檔內(nèi)容的自動(dòng)化下載,并且將Excel導(dǎo)入到了數(shù)據(jù)庫。
圖2 模型訓(xùn)練流程圖Fig.2 Model training flow chart
圖3 模型預(yù)測(cè)流程圖Fig.3 Flow chart of model prediction
圖4 簡(jiǎn)易SQL腳本圖Fig.4 Simple SQL script diagram
2.2 實(shí)現(xiàn)營銷數(shù)據(jù)清洗自動(dòng)化
我們?cè)谌粘9ぷ髦?為了分析各個(gè)商戶的異常數(shù)據(jù),需要從成百上千的商戶中分析他們的銷量數(shù)據(jù)、規(guī)格數(shù)據(jù)、掃碼數(shù)據(jù)等信息,有時(shí)還需要橫向、縱向?qū)Ρ蠕N量信息是否存在異常,工作量巨大,并且效果不是很理想。我們?cè)诔浞终{(diào)研需求、分析問題的情況下,對(duì)日常工作中的數(shù)據(jù)進(jìn)行模型化分析,與協(xié)作單位研發(fā)人員共同制定了:節(jié)假日異常數(shù)據(jù)模型、經(jīng)營異常商戶模型、月銷量異常模型、周銷量模型、存銷比異常數(shù)據(jù)模型等,并于每天早晨7:40前基于最新營銷數(shù)據(jù)完成數(shù)據(jù)模型的計(jì)算、分析功能,從而實(shí)現(xiàn)了數(shù)據(jù)的清洗自動(dòng)化功能。
2.3 實(shí)現(xiàn)營銷數(shù)據(jù)異常自動(dòng)推送功能
數(shù)據(jù)模型計(jì)算后,系統(tǒng)會(huì)自動(dòng)在每天準(zhǔn)時(shí)將昨日異常商戶信息發(fā)送至工作群。站長、客戶經(jīng)理等根據(jù)當(dāng)日推送數(shù)據(jù)指定當(dāng)日重點(diǎn)關(guān)注商戶,并及時(shí)回訪、檢查。
根據(jù)每項(xiàng)異常數(shù)據(jù),均可查看到當(dāng)日通過模型計(jì)算出來的異常商戶信息。
2.4 積累研發(fā)性文檔成果
改變以往分析數(shù)據(jù)只能依賴Excel的方式,我們?cè)诔晒芯窟^程中,逐漸發(fā)現(xiàn)在Excel中好多功能實(shí)現(xiàn)起來比較麻煩,為此,我們與協(xié)作單位學(xué)習(xí)使用如何通過簡(jiǎn)易的SQL實(shí)現(xiàn)數(shù)據(jù)的分析功能,簡(jiǎn)易SQL腳本圖如圖4所示,可以通過腳本形式便捷操作數(shù)據(jù),清洗數(shù)據(jù),管理數(shù)據(jù),訓(xùn)練數(shù)據(jù)模型。
采用核函數(shù)支持向量機(jī)技術(shù)構(gòu)建門店銷量預(yù)測(cè)模型,增加了對(duì)未知門店異常數(shù)據(jù)的啟發(fā)式發(fā)現(xiàn),在實(shí)際應(yīng)用效果中,相對(duì)于傳統(tǒng)基于統(tǒng)計(jì)學(xué)規(guī)律結(jié)果更加精準(zhǔn),靈活。
采用基于時(shí)間窗口的數(shù)據(jù)模型重建技術(shù),可對(duì)數(shù)據(jù)維度進(jìn)行交叉分塊、動(dòng)態(tài)分塊,提升了數(shù)據(jù)預(yù)測(cè)模型的魯棒性。
采用新舊模獨(dú)立預(yù)測(cè),系統(tǒng)智能裁決技術(shù),增加了線上預(yù)測(cè)結(jié)果的一致性,消除了數(shù)據(jù)尖峰帶來的模型失真。