李楚貞 林劍添
(廣東理工學(xué)院信息技術(shù)學(xué)院 廣東省肇慶市 526100)
隨著網(wǎng)絡(luò)銷售在企業(yè)銷售占比的增長,眾多企業(yè)對網(wǎng)絡(luò)銷售相關(guān)運營數(shù)據(jù)的關(guān)注度日益提高。網(wǎng)絡(luò)銷售的運營數(shù)據(jù)獲取成本低,且和門店運營數(shù)據(jù)相比,有更多的指標(biāo)去反映消費者的消費行為信息,如商品詳情頁跳出率、消費者平均停留時長等,這些指標(biāo)是在門店銷售的運營中無法低成本獲得的。有效的數(shù)據(jù)挖掘工作一方面可以幫助企業(yè)深層次地挖掘消費者的消費情況,為消費者提供個性化服務(wù),另一方面基于產(chǎn)品運營數(shù)據(jù)進行商品重分類,從而為企業(yè)制定運營策略提供決策指導(dǎo)[1]。
對于電商運營數(shù)據(jù)的聚類研究,傳統(tǒng)研究視角是基于消費者行為數(shù)據(jù)進行聚類分析。韓利東基于消費者購買商品記錄,通過聚類將相似的消費者歸為同一類簇,從而實現(xiàn)個性化服務(wù)[2]。王越通過基于改進遺傳算法的模糊聚類對電子商務(wù)用戶數(shù)據(jù)進行聚類分析[3]。錢丹丹研究商業(yè)智能(BI)體系下的大數(shù)據(jù)應(yīng)用于消費者行為預(yù)測,主要對顧客購買藥片的頻率、消費金額和消費者價值進行聚類分析,以此作為消費群體劃分的依據(jù)[4]。電商產(chǎn)品數(shù)據(jù)特征更易獲得,同時對產(chǎn)品的重分類問題的研究更有利于庫存訂貨策略[5]。本文從電商服裝產(chǎn)品的視角出發(fā),采用基于熵值賦權(quán)的粒子群聚類方法對服裝產(chǎn)品銷售平臺的支付轉(zhuǎn)化率、訪客數(shù)、詳情頁跳出率、平均停留時長、訪客平均價值、客單價進行聚類,并以此為依據(jù)對產(chǎn)品進行銷售預(yù)測劃分。
粒子群優(yōu)化算法是通過群體中不同粒子之間的合作和相互競爭來實現(xiàn)在尋優(yōu)空間中的搜索過程以找到所求問題的最優(yōu)位置[6]。由于算法結(jié)構(gòu)構(gòu)造簡單,參數(shù)少,涉及專業(yè)知識少,易于實現(xiàn),得到廣泛的科研工作者的關(guān)注與應(yīng)用[7-8]。本文在文獻[9]的基礎(chǔ)上改進粒子群聚類方法,對運營指標(biāo)引入了熵值賦權(quán),采用輪廓系數(shù)作為聚類結(jié)果的評價指標(biāo),將其與傳統(tǒng)粒子群聚類及K_Means 聚類算法的聚類效果作比較。
原始數(shù)據(jù)采集于某商務(wù)男裝企業(yè)電商平臺上某一季度的電商后臺數(shù)據(jù),其后臺的數(shù)據(jù)指標(biāo)眾多,然而電商運營的關(guān)注點始終在服裝產(chǎn)品的熱賣程度、消費者的購買意愿及消費者購買情況上[10]。本文選用服裝產(chǎn)品中6 個可量化的運營指標(biāo),分別是支付轉(zhuǎn)化率、訪客數(shù)、詳情頁跳出率、平均停留時長、訪客平均價值、客單價,其指標(biāo)含義如表1所示。支付轉(zhuǎn)化率和訪客數(shù)反映該商品的熱賣程度;商品詳情頁跳出率和平均停留時長反映商品詳情頁設(shè)計對訪客的吸引力,是消費者購買意愿的體現(xiàn);訪客平均價值和客單價反映消費者的購買情況。
原始數(shù)據(jù)共670 條,考慮到運營數(shù)據(jù)的分析價值,刪除支付轉(zhuǎn)化率為零的運營數(shù)據(jù)和奇異值數(shù)據(jù),剩余有效數(shù)據(jù)472 條。粒子群算法初始速度的設(shè)定需要消除各個運營指標(biāo)量綱與數(shù)量級的差異,故需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。這里使數(shù)據(jù)標(biāo)準(zhǔn)化的方式是平移——標(biāo)準(zhǔn)差變換后,采用文獻[11]的數(shù)據(jù)處理公式進行歸一化:
表1:電商運營指標(biāo)含義
式中:Xip為第i 個樣本的第p 個特征分量。
聚類分析的本質(zhì)是根據(jù)數(shù)據(jù)自身的特征,按照某種要求對數(shù)據(jù)進行分類,使具有相似特征的數(shù)據(jù)歸集為一類,數(shù)據(jù)聚類的基本原則是類間差距盡可能大,類內(nèi)差距盡可能小,以便對數(shù)據(jù)的共性進行分析[12]。為了達(dá)到這種效果,本文采用熵值賦權(quán)的方式對各個指標(biāo)進行賦權(quán)處理。
其熵值賦權(quán)的流程為:①確定指標(biāo)的比重;②確定指標(biāo)的熵值;③確定指標(biāo)的差異系數(shù);④確定指標(biāo)的權(quán)重。運用到的公式具體如下:
式中:Pij為第i 個樣本第j 個指標(biāo)的比重;N 為樣本量。
式中:ej為第j 個指標(biāo)的熵值;k=1/1nN。
式中:gj為第j 個指標(biāo)的差異系數(shù)。
式中:ωj為第j 個指標(biāo)的權(quán)重。
根據(jù)聚類問題的本質(zhì),將N 個樣本對象聚成K 個類簇,并滿足目標(biāo)函數(shù)最小。一般采用歐式距離的平方構(gòu)成目標(biāo)函數(shù),這里在文獻[9]的目標(biāo)函數(shù)的基礎(chǔ)上進行改進,公式為:
圖1:基于熵值賦權(quán)的粒子群聚類算法流程
圖2:各算法平均輪廓系數(shù)
式中:Xip為第i 個樣本的第p 個特征分量;c 為1 個K×N 的聚類中心矩陣;Cjp為第j 類的第p 個特征分量;wij為N×K 的布爾矩陣,當(dāng)wij=1 時,樣本i 屬于第j 類,當(dāng)wij=0 時,樣本i 不屬于第j 類。
圖3:聚類數(shù)目為3 的雷達(dá)圖
粒子群算法用于聚類有兩種方法[9]:一種是目標(biāo)函數(shù)所求的解為聚類結(jié)果,結(jié)果需要取整表示,取整過程加入懲罰函數(shù)等措施,會影響算法的尋優(yōu)能力和計算復(fù)雜性;另外一種是解就是聚類中心,尋優(yōu)過程易于實現(xiàn)。故本文采用第2 種方法。若將N 個樣本聚成K類,則每個粒子的位置由K 個聚類中心組成。
在樣本數(shù)據(jù)中隨機選取K 個樣本作為初始聚類中心,即作為粒子群的初始位置,初始聚類中心根據(jù)式(7)和粒子的速度與位置更新聚類中心。
粒子通過跟蹤個體極值pbesti和群體極值gbest 來跟新自己的位置,使得自己的位置與目標(biāo)函數(shù)的距離不斷縮小。粒子速度與位置的更新公式[13]為:
式中:Tmax為最大迭代次數(shù),t 為當(dāng)前迭代次數(shù),wmax,wmin分別為開始時和結(jié)束時的權(quán)重。
式(10)是應(yīng)用比較廣泛的慣性權(quán)重更新的算法,基于進化代數(shù)進行更新,每一代粒子無論好壞都采用同樣的慣性權(quán)重,前期大范圍全局搜索,后期小范圍搜索,可能導(dǎo)致錯過最優(yōu)粒子,后期不易跳出局部極值,收斂速度較慢[13]。這里采用隨機權(quán)重,當(dāng)粒子在起始位置接近最優(yōu)點,可能產(chǎn)生較小的權(quán)重,正好克服慣性權(quán)重的缺點。公式為:
式中:N(0,1)為標(biāo)準(zhǔn)正態(tài)分布;σ 為標(biāo)準(zhǔn)差,一般取0.3 或0.5;rand 為[0,1]區(qū)間的隨機數(shù)。
基于熵值賦權(quán)的粒子群聚類算法主要執(zhí)行過程如下:
(1)數(shù)據(jù)標(biāo)準(zhǔn)化后,求出各個指標(biāo)的權(quán)重;
(2)隨機選取初始聚類中心;
(3)根據(jù)式(6)計算適應(yīng)度函數(shù)值,求得個體最優(yōu)解和全局最優(yōu)解;
(4)根據(jù)式(11)和(12)分配權(quán)重,采用式(8)和(9)更新粒子速度與位置,得到新的聚類中心,按適應(yīng)度函數(shù)進行重新聚類;
(5)根據(jù)新的聚類結(jié)果采用式(7)重新計算聚類中心,更新適應(yīng)度函數(shù)。
表2:各個運營指標(biāo)的賦權(quán)權(quán)重
表3:聚類類別為3 的聚類結(jié)果
表4:聚類類別為4 的聚類結(jié)果
表5:聚類類別為5 的聚類結(jié)果
本文提出的基于熵值賦權(quán)的粒子群聚類,具體實現(xiàn)流程如圖1所示。
將運營數(shù)據(jù)標(biāo)準(zhǔn)化后,由式(2)、(3)、(4)、(5)計算得到各個運營指標(biāo)的賦權(quán)權(quán)重,如表2所示。
由表2可知,ω5>ω6>ω2>ω1>ω4>ω3,表明運營指標(biāo)中,訪客數(shù)、訪客平均價值、客單價在樣本中的數(shù)據(jù)差異化較大,為了更好依據(jù)其差異進行聚類,賦予更大的權(quán)重,使數(shù)據(jù)差異更加明顯。
(1)采用熵值賦權(quán)后的數(shù)據(jù),按上文粒子群算法流程進行聚類,取wmax=0.8,wmin=0.3,c1=c2=2,σ=0.5,Tmax=100,群體規(guī)模s=100,依據(jù)期望聚成不同類別的數(shù)目,可得到相應(yīng)的聚類結(jié)果。
(2)采用標(biāo)準(zhǔn)化數(shù)據(jù),數(shù)據(jù)不經(jīng)過熵值賦權(quán),參數(shù)取值同(1),可以得到相應(yīng)的聚類結(jié)果。
(3)采用K_Means 聚類方法,數(shù)據(jù)經(jīng)過預(yù)處理后,不經(jīng)歸一化和熵值賦權(quán)處理,直接進行聚類,根據(jù)初始聚類中心隨機選取,得到聚類結(jié)果。
從單純的計算結(jié)果不易評估聚類的優(yōu)劣,需要借助于聚類評估模型,通常采用FMI,輪廓系數(shù)法,Calinski-Harabasz 評價模型等研究聚類效果。這里采用輪廓系數(shù)來評價聚類的效果,其包含類內(nèi)相似程度和類間差異度[14]。其公式為:
式中:Si∈[-1,1],為元素i 的輪廓系數(shù),取值越大,說明該次聚類效果越好,當(dāng)Si<0 時,說明當(dāng)前的聚類效果較差;a 是元素i與同類的其他點之間的平均距離;b 為一個向量,其元素是第i 個點與不同類的類內(nèi)各點之間的平均距離。將基于熵值賦權(quán)粒子群聚類、K_Means 聚類和傳統(tǒng)粒子群聚類及的聚類結(jié)果,運用式(13)進行計算,并取相應(yīng)類別的均值,為了保證結(jié)果可靠性,每種聚類方法計算20 次,再取均值,結(jié)果如圖2所示。
由圖2可知,在基于熵值賦權(quán)粒子群聚類的聚類、K_Means 聚類及傳統(tǒng)粒子群聚類聚類的聚類結(jié)果中,平均輪廓系數(shù)最大的是運用基于熵值賦權(quán)粒子群聚類算法所獲得的聚類結(jié)果;K_Means 聚類的聚類結(jié)果次之;傳統(tǒng)粒子群聚類聚類的聚類結(jié)果比K_Means 聚類的稍小。這表明聚類效果:基于熵值賦權(quán)粒子群聚類算法 > K_Means 聚類算法 > 傳統(tǒng)粒子群聚類聚類算法。
聚類方法可在對數(shù)據(jù)樣本信息知之甚少的情況下將其自動歸類,使原本雜亂無章的數(shù)據(jù)清晰化、條理化?;谏鲜鼍垲愋Ч?,采用基于熵值賦權(quán)粒子群聚類,將聚類數(shù)目分別聚為3、4、5,并以聚類數(shù)目3 為例,使用雷達(dá)圖分析法對聚類結(jié)果進行分析,闡述聚類結(jié)果背后電商服裝產(chǎn)品運營的管理價值。聚類結(jié)果如表3、表4、表5所示。
由圖3可知,服裝產(chǎn)品運營數(shù)據(jù)被聚成3 類,類別1 的客單價、訪客平均價值、平均停留時長都是最大的,可見類別1 產(chǎn)品吸引高質(zhì)量的消費者的,但產(chǎn)品占比不高,需要多引進該類產(chǎn)品;類別2訪客量最大,商品詳情頁跳出率最好,說明該類產(chǎn)品頁面設(shè)計比較吸引消費者的眼球,其產(chǎn)品占比最大,但消費群質(zhì)量不高,建議考慮產(chǎn)品成本進行訂貨和銷售;類別3 支付轉(zhuǎn)化率最高,該類產(chǎn)品容易吸引新消費群并完成交易,說明這類產(chǎn)品是促銷產(chǎn)品,主要用于吸引流量,其價值主要在淡季體現(xiàn)出來。由分析可知,通過算法可以將服裝產(chǎn)品的運營數(shù)據(jù)背后的管理價值呈現(xiàn)出來,表明該算法可以為電商企業(yè)的日常運營管理提供決策依據(jù)。
本文通過對電商后臺數(shù)據(jù)采集、預(yù)處理、標(biāo)準(zhǔn)化、熵值賦權(quán)及隨機粒子群優(yōu)化聚類,計算出聚類結(jié)果,并用K_Means 聚類、傳統(tǒng)粒子群聚類聚類計算出聚類相應(yīng)的聚類結(jié)果,運用輪廓系數(shù)對三種聚類算法的結(jié)果進行評估。結(jié)果表明,基于熵值賦權(quán)的粒子群聚類算法的平均輪廓系數(shù)比其他兩種聚類算法大,即其分類效果比其他兩種聚類算法好。以聚類數(shù)目3 為例,使用雷達(dá)圖分析法對聚類結(jié)果進行分析,分析了聚類結(jié)果背后電商服裝產(chǎn)品運營數(shù)據(jù)的管理價值,表明該算法可以為電商企業(yè)的日常運營管理提供決策依據(jù)。