劉雁兵, 肖 駿, 劉曉蓉, 王義新, 汪偉飛, 吳凌翔
(1.廣西中煙工業(yè)有限責任公司, 廣西 南寧 530001;2.廣東煙草廣州市有限公司, 廣東 廣州 510610;3.武漢人工智能研究院, 湖北 武漢 430074)
在現(xiàn)代零售行業(yè),智能營銷是提升渠道[1]掌控力和商品銷售的關(guān)鍵性環(huán)節(jié)。 運用數(shù)據(jù)挖掘技術(shù)和大數(shù)據(jù)分析方法挖掘這些數(shù)據(jù)背后隱藏的信息,能促進煙草行業(yè)從傳統(tǒng)的批發(fā)模式升級為數(shù)據(jù)驅(qū)動的煙企商戶利益共同體模式[2-6]。 在煙草銷售環(huán)節(jié),卷煙的陳列方式、不同的擺放位置往往會影響卷煙銷量。 穆建軍[7]為了解決商戶經(jīng)營面積小、陳列困難等問題,創(chuàng)新地采用立體陳列方式來克服客戶選購不便的缺陷。 劉薇[8]探究卷煙陳列標準,為卷煙的陳列方式、陳列模型設(shè)立了原則要求與具體標準,來達到合理擺放、激發(fā)消費者購買意愿的目的。 對零售終端陳列的各種卷煙進行識別[9]與統(tǒng)計,分析其銷售情況進行評估,不僅對卷煙的品牌營銷[10]具有指導(dǎo)意義,更有助于智能化零售終端系統(tǒng)的探究。
在卷煙陳列與銷量的分析中,主要面臨2 個挑戰(zhàn)。 一個挑戰(zhàn)是數(shù)據(jù)質(zhì)量,零售終端系統(tǒng)(POS 機)作為數(shù)據(jù)觸點,承載著信息采集和消費跟蹤等重要功能,然而部分客戶規(guī)范使用終端信息系統(tǒng)意識不強,導(dǎo)致零售終端數(shù)據(jù)的采集及其質(zhì)量難以保證[11]。 目前煙草行業(yè)普遍采用的方法是選定少數(shù)經(jīng)營較為規(guī)范的客戶作為信息采集點,但這些信息采集點數(shù)量占比非常低,通過這些少量的市場樣本去分析市場狀態(tài)、制定貨源投放策略以及開展品牌營銷等,可能會造成決策上的失誤。 另一個挑戰(zhàn)是多源特征的表達。 為預(yù)測銷量,涉及到陳列位置特征、品牌名稱特征、價格和地區(qū)等特征。 以陳列特征為例,由于卷煙品牌種類繁多,部分商品圖案相似難以區(qū)分,陳列特征難以獲取;以品牌名稱為例,需要基于文本的品牌嵌入式表達等。 提取卷煙的不同屬性作為特征,對訓(xùn)練銷量預(yù)測模型至關(guān)重要。
為解決以上問題,本文提出一套卷煙銷量預(yù)測方法,包含樣本質(zhì)量篩選、銷量預(yù)測模塊,后者又包含卷煙識別和文本表達等網(wǎng)絡(luò)。 在樣本質(zhì)量篩選階段,設(shè)計了POS 機使用質(zhì)量評估準則,構(gòu)造數(shù)據(jù)集;為了更強的可解釋性,選擇隨機森林模型,訓(xùn)練POS機質(zhì)量分類器,并通過特征選擇,過濾掉冗余特征?;赑OS 機信息系統(tǒng)登錄、在線、商品掃碼和支付等環(huán)節(jié)的數(shù)據(jù)、商品進銷存數(shù)據(jù),結(jié)合異常值檢測,建立了一套量化的零售終端運行質(zhì)量評估體系,結(jié)合日級評分和月級評分,將零售終端運行質(zhì)量分為5 類,并以此為訓(xùn)練數(shù)據(jù)。 最終選擇高質(zhì)量的商戶,作為下游銷量預(yù)測模塊的樣本點。
在銷量預(yù)測過程中,通過基于深度學(xué)習(xí)的圖像識別檢測技術(shù)對卷煙位置進行精準定位與品牌識別。 利用品牌文本表達、視覺信息和價格等多維度信息,結(jié)合大數(shù)據(jù)分析方法研究卷煙品牌、陳列位置和卷煙銷量之間的關(guān)聯(lián)關(guān)系,研究卷煙陳列與消費選擇行為之間的內(nèi)在機理,綜合評估卷煙陳列不同區(qū)域價值,為終端陳列優(yōu)化和智能化管理提供指導(dǎo)。針對某個規(guī)格的卷煙,繪制其在不同擺放位置的陳列價值圖,從而為商家提供陳列最優(yōu)決策。 最后,構(gòu)建BERT-MLP 模型來預(yù)測卷煙銷量,分析卷煙規(guī)格、位置和價格對銷量的影響。
本文提出了一種融合日級評分和月級評分的評估體系,首先通過規(guī)則設(shè)計的方式構(gòu)建質(zhì)量評估數(shù)據(jù)集。 基于對實際業(yè)務(wù)的調(diào)研,設(shè)計可量化的統(tǒng)計特征,結(jié)合統(tǒng)計學(xué)中的異常值分析方法和專家的經(jīng)驗設(shè)計相關(guān)評估準則。 通過對日級評分和月級評分進行加權(quán)得到綜合評分,將零售客戶按數(shù)據(jù)采集質(zhì)量分為5 類,從而建立起零售終端運行質(zhì)量評估體系。
本文的分析數(shù)據(jù)源包括銷售信息、商品信息、登錄日志和店鋪信息等,關(guān)鍵指標定義如表1 所示。
表1 評估指標Tab.1 Evaluation indicator
評估規(guī)則實際上是對上述評估指標的具體化,為了更加全面具體地評價零售終端的運行質(zhì)量,從日和月時間維度來設(shè)計評估規(guī)則。 日級評估規(guī)則主要對每日零售終端可能存在的在線異常、漏刷、集中補刷和價格異常等情況判斷,規(guī)則涉及的指標包括在線時長、銷售時段、掃碼間隔、日卷煙銷量、單筆銷量、卷煙掃碼筆數(shù)和卷煙銷售價格等,記為n1,n2,n3,…,n20。
月級評估規(guī)則通過對每月零售終端銷售數(shù)據(jù)進行分析,判斷零售終端可能存在的異常,規(guī)則涉及的指標包括月均掃碼時段、日均掃碼筆數(shù)、在線時長、卷煙銷售寬度、在線支付占比和卷煙銷量同比波動等,記為m1,m2,m3,…,m9。
按照日級和月級2 個維度,對評估規(guī)則中涉及到的量化指標進行聚合分析,按照3σ 法則、箱線圖和專家經(jīng)驗相結(jié)合的方法確定評估規(guī)則的邊界,判斷是否觸發(fā),進而對其進行評分。 在日級評估環(huán)節(jié),采用滿分扣分制度,日級規(guī)則的初始分為100,每觸發(fā)一個日常監(jiān)控規(guī)則扣5 分;在月級量化評估環(huán)節(jié),按照月的時間維度對終端POS 機的使用情況進行評分,每滿足一條規(guī)則加10 分。 最后,對日級評估均分和月級評分進行加權(quán)求和,最終得到該零售終端的月度綜合評分。 評分與樣本分類對應(yīng)關(guān)系如表2 所示。
表2 終端質(zhì)量等級劃分Tab.2 Terminal quality classification
基于前文構(gòu)造的數(shù)據(jù),訓(xùn)練零售終端運行質(zhì)量分類模型,包含3 類:高質(zhì)量樣本點、正常樣本點和異常樣本點。 考慮到商業(yè)分析中更注重可解釋性以及特征篩選的需求,質(zhì)量分類模型選擇隨機森林模型。
備選特征共29 個,如表3 所示。
表3 特征含義Tab.3 Feature meanings
為去除無關(guān)特征和冗余特征,采用遞歸特征消除法(RFE)結(jié)合相關(guān)系數(shù)熱力圖篩選特征。 通過RFE 方法刪除4 個特征:每月觸發(fā)日級規(guī)則的D5,D15 和D16 的次數(shù),以及是否滿足月級規(guī)則M2。 經(jīng)過RFE 篩選出與目標變量有較高相關(guān)性的特征,在此基礎(chǔ)上,通過Pearson 相關(guān)分析剔除冗余特征。經(jīng)雙層特征篩選,將特征數(shù)量縮減為19 個。 具體篩選過程、模型細節(jié)及特征重要性詳見3.1.1 節(jié)。
零售終端的卷煙陳列識別需要采集卷煙陳列前柜圖片作為數(shù)據(jù),識別陳列位置pos=(x,y,w,h),其中,(x,y)表示卷煙盒左下頂點的坐標,(w,h)表示煙盒的寬度與高度。 采用了復(fù)雜深度耦合網(wǎng)絡(luò)模型,并利用多元組排序方法作為損失函數(shù)來訓(xùn)練該精細化識別模型。
復(fù)雜深度耦合網(wǎng)絡(luò)在骨架網(wǎng)絡(luò)中加入了注意力機制,同時設(shè)計了深度耦合結(jié)構(gòu),其主要由3 個模塊組成:骨架網(wǎng)絡(luò)(Backbone)、特征金字塔[12](Feature Pyramid Network,FPN)以及深度耦合預(yù)測頭(Coupling Head),框架如圖1 所示。 骨架網(wǎng)絡(luò)中含注意力模塊[13-14]。
圖1 復(fù)雜深度耦合網(wǎng)絡(luò)示意Fig.1 Schematic diagram of complex deep coupling network
由于卷煙規(guī)格具有多樣性,每種規(guī)格之間差異性比較小,個別規(guī)格之間只有些許文字或者圖案上的差異,給規(guī)格的精細化識別帶來了巨大的挑戰(zhàn)。針對上述問題,本文提出了一種基于多元組排序?qū)W習(xí)[15]的卷煙精細化識別方法,如圖2 所示,通過度量學(xué)習(xí)的方法學(xué)習(xí)更加精準的特征,來增強算法的分類能力。
圖2 基于多元組排序?qū)W習(xí)的精細化識別示意Fig.2 Schematic diagram of refined recognition based on multivariate group sorting learning
針對具體任務(wù),設(shè)計合理的目標損失函數(shù)用來監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,可以學(xué)到一個高效的映射空間,在該空間中,目標被映射為一個有效的特征表示,使得特征之間的歐式距離可以直接反映目標之間的語義相似性。 多元組排序?qū)W習(xí)采用排序損失[16]作為目標損失函數(shù)來訓(xùn)練CNN(Convolutional Neural Network)模型。 以三元組為例,定義排序損失函數(shù)為:
該損失包含一個目標圖像三元組,其中Ia與Ip屬于同一個類別,In來自不同類別,該排序損失致力于減小特征空間中f(Ia)與f(Ip)之間的歐式距離,同時要求f(Ia)與f(In)之間的歐氏距離至少要比前者大。 該損失隱含的排序特性非常適合于精細分類任務(wù),而且可以有效減小目標的類內(nèi)差異,同時增大類間差異,學(xué)到更加具有判別力的特征映射空間。
卷煙擺放位置與銷量息息相關(guān),即使是相同的卷煙,在不同的擺放位置也會產(chǎn)生不一樣的效果,探究特定的卷煙品牌在不同位置上的銷量有助于智能化零售終端系統(tǒng)的更優(yōu)決策。 給定卷煙陳列圖片與零售終端獲取到的卷煙銷售數(shù)據(jù),智能化卷煙識別與陳列分析系統(tǒng)利用圖像識別技術(shù)得到卷煙位置與規(guī)格數(shù)據(jù),并結(jié)合來自零售終端的卷煙銷售數(shù)據(jù)進行分析。
以某店鋪為分析對象,繪制其卷煙陳列圖譜,如圖3 左上圖所示。 從圖中可以看出,紅褐色的位置銷量較好;對于同一品牌,卷煙的不同陳列位置一定程度上會影響卷煙的銷量。 為了更加直觀地展示卷煙品牌受歡迎程度,基于月銷量數(shù)據(jù),繪制了卷煙規(guī)格的詞云圖,從圖3 左下圖可以看出,蘇煙(五星紅杉樹)、雙喜(硬藍紅玫王)較受消費者歡迎。
圖3 卷煙銷量分析Fig.3 Cigarette sales analysis
本節(jié)進一步以卷煙的規(guī)格、陳列位置和價格等因素為特征,基于中文BERT 預(yù)訓(xùn)練模型[17-18]和全連接神經(jīng)網(wǎng)絡(luò)[19]來預(yù)測卷煙的銷量。
本文提取卷煙的不同屬性作為特征來訓(xùn)練模型。 對于卷煙規(guī)格,用BERT 獲取其文本特征;對于其他特征,本文將卷煙的位置和價格特征拼接到BERT 預(yù)訓(xùn)練模型獲取卷煙規(guī)格的詞向量上,作為模型最終的輸入特征。
BERT 預(yù)訓(xùn)練模型是從大量無標記的語料中訓(xùn)練得到的預(yù)訓(xùn)練語言模型,在2018 年由谷歌團隊提出,其網(wǎng)絡(luò)結(jié)構(gòu)由若干個雙向Transformer[20-21]的編碼器模塊堆疊組成。 如圖4 所示,卷煙規(guī)格經(jīng)過多層Transformer 之后輸出為字符級向量。 本文采用了BERT 的預(yù)訓(xùn)練的模型BERT-Base,它含有12 個網(wǎng)絡(luò)層數(shù),768 個隱藏層,12 個注意力頭數(shù),模型參數(shù)量為1.1 億。 BERT 輸入表示是字符嵌入向量和位置嵌入向量的和,字符嵌入向量的開頭和結(jié)尾分別用起始符和分隔符表示,中間部分用文本中的單個字符表示,位置嵌入從0 開始代表文本中每個字符的位置信息。
圖4 BERT-MLP 模型結(jié)構(gòu)Fig.4 BERT-MLP model structure
最后,將BERT 預(yù)訓(xùn)練模型得到的特征向量與位置特征以及價格特征拼接,并對拼接后的特征作歸一化處理。
3.1.1 特征選擇
首先,結(jié)合交叉驗證,確定最優(yōu)特征數(shù)量為23。之后,通過遞歸式特征消除(Recursive Feature Elimination,RFE),每次刪除一個特征,得到最終特征選擇狀況的布爾型表達和特征重要性排序。 RFE 方法刪除了4 個特征:每月觸發(fā)日級規(guī)則的D5 的次數(shù)、每月觸發(fā)日級規(guī)則D15 的次數(shù)、每月觸發(fā)日級規(guī)則D16 的次數(shù)、是否滿足月級規(guī)則M2。
通過皮爾遜(Pearson)相關(guān)分析剔除冗余特征。由圖5(a)共線性處理前的相關(guān)系數(shù)熱力圖可知,n1與n2,n7,m5,m7 之間的相關(guān)性分別為0. 99,-0.98,-0. 86,-0. 86;n2 與n1,n7,m5,m7 之 間 的相關(guān)性分別為0.99,-0.97,-0. 85,-0. 87。 考慮刪除每月觸發(fā)日級規(guī)則D2 的次數(shù)、每月觸發(fā)日級規(guī)則D7 的次數(shù)、是否滿足月級規(guī)則M5、是否滿足月級規(guī)則M7,處理后的熱力圖如圖5(b)所示。 最終入模特征有19 個,包括n1,n3,n4,n6,n8,n9,n10,n11, n12, n13, n17, n19, n20, m1, m3, m4, m6,m8,m9。
圖5 Pearson 相關(guān)系數(shù)熱力圖Fig.5 Thermodynamic diagram of Pearson correlation coefficient
3.1.2 質(zhì)量分類模型
質(zhì)量分類模型測試集混淆矩陣及接受者操作特性曲線( Receiver Operating Characteristic Curve,ROC)如圖6 和圖7 所示,其中圖7 的橫縱坐標分別表示假正率和真正率。 模型宏平均ROC 下面積AUC(Area Under Curve)和微平均AUC 分別是0.97和0.99。 為了分析每個特征對于終端運行質(zhì)量分類的重要程度,本文按照gini 指數(shù)計算特征的重要性,排序如圖8 所示。
圖6 隨機森林模型的混淆矩陣Fig.6 Confusion matrix for the random forest model
圖7 隨機森林模型的ROC 曲線Fig.7 ROC for the random forest model
圖8 特征重要性排序Fig.8 Sorting of feature importance
由圖8 可以看出,特征重要性較高的是n1 和n3,即每月有掃碼數(shù)據(jù)的天數(shù)和每月有零售記錄的時段小于8 h 的次數(shù)這2 個特征對于終端運行質(zhì)量的分類較為重要。
3.2.1 實驗設(shè)置
將構(gòu)建的數(shù)據(jù)集按照7 ∶3 的比例劃分為訓(xùn)練集和測試集。 本文搭建的BERT-MLP 模型由2 部分組成:第1 部分BERT 預(yù)訓(xùn)練模塊采用中文“Chinese_L-12_H-768_A-12”網(wǎng)絡(luò)框架;第2 部分多層感知機模塊,主要包括2 個隱藏層和一個回歸預(yù)測層。 模型的超參數(shù)設(shè)置如表4 所示。 激活函數(shù)選用ReLU,初始學(xué)習(xí)率設(shè)置為0. 001,并采用隨機梯度下降法進行優(yōu)化。
表4 模型超參數(shù)Tab.4 Hyperparameters of the model
3.2.2 模型評估
模型訓(xùn)練損失曲線如圖9 所示。
圖9 模型訓(xùn)練的損失曲線Fig.9 Loss curve of model training
本文選擇平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)和決定系數(shù)(R2)作為評估模型性能的評價指標,計算公式如下:
式中,表示預(yù)測值;yi表示真實值。
模型在測試集上各個評估指標的結(jié)果如表5 所示。 此外,將真實值和預(yù)測值進行比較并可視化,如圖10 所示。 可以看出模型具有較好的擬合效果,能夠有效地預(yù)測卷煙銷量。
表5 不同評估指標的結(jié)果Tab.5 Results of different evaluation indicators
圖10 預(yù)測值和真實值的比較Fig.10 Comparison between predicted value and actual value
本文搭建了卷煙銷量預(yù)測方法,包含樣本質(zhì)量篩選、銷量預(yù)測2 個主要階段。 首先,建立了一套量化的零售終端運行質(zhì)量評估體系,構(gòu)建質(zhì)量分類模型,篩選高質(zhì)量樣本點為后續(xù)所用。 在銷量預(yù)測階段,通過基于復(fù)雜深度耦合網(wǎng)絡(luò)的深度學(xué)習(xí)模型識別卷煙陳列圖片,較為準確地輸出圖片中卷煙的規(guī)格及位置,并結(jié)合終端卷煙的銷售情況,繪制卷煙陳列價值圖譜。 基于卷煙識別得到的數(shù)據(jù),結(jié)合品牌文本表示,通過BERT-MLP 模型預(yù)測了卷煙的銷量,分析了卷煙規(guī)格、陳列位置與銷量之間的相關(guān)關(guān)系,可為終端陳列優(yōu)化和智能化管理提供理論和決策支持。