翁小雄,謝志鵬
(華南理工大學 土木與交通學院,廣東 廣州510640)
隨著我國高速公路車流量不斷增加,高速公路擁堵和道路使用效率不均等問題日益凸顯,車輛出行特征的多元化,對高速公路運營管理也提出了更高的要求。高速公路供給側(cè)改革給出了高速公路差異化收費的方向,而差異化收費是解決上述問題的重要措施。高速公路使用者的出行特征差異是高速公路差異化收費的重要基礎,如何對高速公路使用者進行有效劃分,獲取客戶出行特征,提升客戶的商業(yè)價值,是進行差異化收費的重要理論支撐。
客戶細分理論是自市場細分理論以來,以客戶行為差異性為基礎的客戶管理模型,從20世紀90年代開始已在銀行、保險、電信等多個領(lǐng)域中得到應用[1],為實施精準營銷、個性化服務和差異化管理提供了有效的理論來源。在交通領(lǐng)域中客戶出行需求和行為的多元化發(fā)展趨勢下,客戶細分RFM模型也得到了廣泛的運用。WEI Zhengzheng等[2]在spark算法框架下,根據(jù)RFM模型對高速鐵路乘客的商業(yè)價值進行分類;張斌等[3]根據(jù)鐵路貨運特點對傳統(tǒng)RFM模型進行改進,提出KFAV模型并對鐵路貨運客戶進行價值分析;H.ZEYBEK[4]對鐵路貨運客戶進行客戶期望分析,為不同的目標客戶群提供差異化服務并開拓新的客戶對象;LIU Jiale等[5]基于RMF模型對航空旅客的當前價值和潛在價值進行分析,設計客戶綜合價值評估框架并挖掘高價值客戶;孫世超等[6]根據(jù)公交乘客出行特征,提出了一種通過統(tǒng)計分析,以乘客RFM特征為基礎對公交忠誠度進行定義,并以此作為群體劃分分析模型的特征指標。RFM模型逐漸深入交通領(lǐng)域應用研究中,但目前的研究主要存在以下2種問題:① 未考慮實際應用背景直接使用RFM模型,因不同領(lǐng)域特征重要程度的差異性和不同數(shù)據(jù)結(jié)構(gòu)的差異性使得應用效果下降;② 考慮了應用背景并對RFM模型進行改進,但在具體算法未對客戶群細分效果進行評估和改進。
對高速公路使用者進行客戶細分,是高速公路管理和服務差異化和精準化的重要基礎,是高速公路差異化收費重要的理論支撐。筆者根據(jù)客戶細分理論,結(jié)合高速公路背景提出基于RFMS的高速公路客戶商業(yè)價值挖掘模型,并對k-means算法初始類簇中心選取和最終聚類效果進行優(yōu)化,建立Adaboost-k-means++混合算法,以高速公路收費數(shù)據(jù)為基礎劃分高速公路客戶群并挖掘其商業(yè)價值。
客戶細分是在一定市場環(huán)境下,依據(jù)客戶的基本性質(zhì)和購買行為的差異,將客戶總體劃分為異質(zhì)性較大的子客戶群的過程[7]。RFM模型是美國學者Hughes提出的一套定量分析模型,是目前被廣泛使用的客戶細分理論之一。
RFM模型根據(jù)反應客戶商業(yè)行為的三項指標,近度R(Recency)、頻度F(Frequency)和值度M(Monetary)對客戶進行分析,并以此區(qū)分客戶的商業(yè)價值[8]。近度R表示在設定時間節(jié)點t0下,時間區(qū)間內(nèi)最后一次購買行為距t0的時間間隔;頻度F表示在時間區(qū)間內(nèi)購買的總次數(shù);值度M表示在時間區(qū)間內(nèi)購買的總消費金額。
由于交通出行者出行目的、個人偏好差異,出行者在不同特征上都具有異質(zhì)性特點,高速公路出行者也同樣具有異質(zhì)性特點[9]。高速公路系統(tǒng)屬于收費服務系統(tǒng),高速公路使用者屬于在高速公路系統(tǒng)內(nèi)的消費客戶,一次高速公路的進出屬于一次商業(yè)行為。為高速公路客戶提供多元化服務,讓全國聯(lián)網(wǎng)ETC持續(xù)健康發(fā)展,是當前高速公路運營中面臨的重要問題之一[10],因此需要對高速公路使用者的商業(yè)價值挖掘。
RFM模型在客戶商業(yè)價值挖掘中起到了重要作用,但主要適用于具有一定周期性的商業(yè)行為,若客戶的購買行為較為分散或周期較長,RFM模型適用程度將降低[11]。高速公路個體車輛出行周期現(xiàn)象較弱,且不同車輛出行波動較大,需針對高速公路客戶特征,對傳統(tǒng)RFM模型進行改進。
改進模型RFMS包含4個特征,近度R表示時間區(qū)間內(nèi)相鄰兩次出行及最后一次出行與區(qū)間末端的時間間隔總和與出行間隔總數(shù)的比值,如式(1):
(1)
式中:ti+1,in為第i+1次出行的入口時刻;ti,out為第i次出行的出口時刻;t0為當次出行所屬周的最后時刻;f為出行總次數(shù)。
頻度F表示時間區(qū)間內(nèi)出行總次數(shù)與出行天數(shù)的比值,計算公式如式(2):
(2)
式中:d為出行天數(shù)。
值度M表示時間區(qū)間內(nèi)收費總金額與出行總次數(shù)的比值,如式(3):
(3)
式中:m為收費總金額。
穩(wěn)定度S表示車輛出行特征的變化程度。定義時間區(qū)間為T,根據(jù)時間長度l將T劃分子區(qū)間μ1,μ2,…μi,…,μs。取l為一周,出行子區(qū)間μi表示第i周出行構(gòu)成的集合。計算公式如下:
(4)
(5)
(6)
(7)
(8)
依據(jù)購買場景為RFM特征設立權(quán)重有助于區(qū)分客戶的商業(yè)價值,考慮權(quán)重的RFM模型在不同的應用場景都有廣泛應用[12-14]。考慮高速公路的實際出行特點,根據(jù)德爾菲法為四個特征設立如下權(quán)重ω=(ωr,ωf,ωm,ωs)=(0.20,0.31,0.33,0.16),并通過min-max數(shù)據(jù)標準化方法統(tǒng)一特征指標量綱。
根據(jù)四個特征及相應權(quán)值,高速公路客戶商業(yè)價值v計算公式如式(9):
(9)
式中:R*為近度標準化值;F*為頻度標準化值;M*為值度標準化值;S*為穩(wěn)定度標準化值。
高速公路客戶商業(yè)價值挖掘的需要將客戶根據(jù)特征劃分為異質(zhì)性較大的子群體。聚類的基礎在于數(shù)據(jù)間特征的相似度,相似度的度量方式則是通過兩數(shù)據(jù)間的距離[15]。k-means算法是最經(jīng)典的聚類算法之一,對處理大數(shù)據(jù)集具有高效和可伸縮性。但也存在3個缺陷:① 初始類簇中心選取的隨機性會影響聚類效果;② 類簇數(shù)量的不確定性;③ 大數(shù)據(jù)集聚類可能出現(xiàn)類簇間及邊緣數(shù)據(jù)點的小聚類現(xiàn)象,降低類簇間的差異度。為此,筆者采取優(yōu)化初始類簇中心點選取的k-means++算法,并結(jié)合Adaboost集成學習算法進行改進,以減少小聚類現(xiàn)象和提高聚類效果,最后通過輪廓系數(shù)SC、Calinski-Harabasz指數(shù)和Davies-Bouldin指數(shù)評估聚類效果,確定最優(yōu)類簇數(shù)量,得到高速公路異質(zhì)性客戶群。
2.1.1 k-means++
k-means算法由于初始類簇中心選取的隨機性,可能出現(xiàn)選取的類簇中心相距較近的情況,進而影響迭代過程和聚類效果,結(jié)果具有一定的波動性和偶然性。
(10)
2.1.2 Adaboost
Adaboost是一種自適應分類算法,核心思想是將在同一訓練集下訓練得到的各弱分類器集成為強分類器。原理為輸入訓練集并對樣本設定初始化權(quán)值分布,訓練得到第一個弱分類器,計算訓練集上的分類誤差率并對弱分類器設定權(quán)重系數(shù),根據(jù)分類誤差率對樣本權(quán)值分布進行調(diào)整并迭代,得到一組弱分類器。
(11)
式中:I(Gt(xi)≠yi)取值為0或1,取0表示分類正確,取1表示分類錯誤
根據(jù)式(12)計算弱分類器Gt(x)權(quán)重αt,根據(jù)式(13)和(14)更新權(quán)值分布ωt+1,i。更新訓練集權(quán)值分布后,進行第t+1次迭代,直到et<0.5。假設迭代總次數(shù)為T,根據(jù)式(15)組合多個弱分類器為強分類器G(x)。
(12)
(13)
(14)
(15)
k-means聚類以樣本點間的歐式距離作為樣本特征相似度的度量標準。高速公路收費數(shù)據(jù)的特點是樣本量大且樣本密度較大,在聚類過程中,會出現(xiàn)各邊緣的樣本點分類的模糊性和小聚類現(xiàn)象。為提高聚類各類簇內(nèi)部相似度和類簇間差異度,提出一種基于Adaboost的改進k-means++算法,優(yōu)化聚類效果。
根據(jù)高速公路收費數(shù)據(jù)可獲取高速公路客戶商業(yè)價值特征RFMS,其中涉及特征提取的收費數(shù)據(jù)字段如表1。
表1 高速公路收費數(shù)據(jù)字段說明
高速公路客戶細分算法如下:
第一步:將高速公路客戶特征全樣本數(shù)據(jù)集U通過k-means++劃分為k個類簇;
第二步:通過質(zhì)心法判別類簇分布是否合理,是否存在小類簇;
(16)
(17)
若存在小聚類,則執(zhí)行第三步。若不存在小聚類,則執(zhí)行第四步。
第三步:定義類簇Mz為小聚類簇,取類簇Mi與Mj(1≤i (18) 第四步:輸出最終聚類結(jié)果 最優(yōu)類簇數(shù)和聚類效果的優(yōu)劣可通過簇內(nèi)相似度和簇間相似度衡量。簇內(nèi)相似度越高,簇間相似度越低,則聚類效果越好[16]。筆者選取輪廓系數(shù)、CH(Calinski-Harabasz)指數(shù)和DB(Davies-Bouldin)指數(shù)對聚類算法進行評價。 輪廓系數(shù)是通過類簇內(nèi)不相似度和類簇間不相似度對聚類效果進行評價的內(nèi)部衡量指標。CH指數(shù)是通過計算類簇內(nèi)各點與類簇質(zhì)心的距離平方和度量類簇內(nèi)緊密度,通過計算各類簇質(zhì)心與數(shù)據(jù)集中心點距離平方和,來度量類簇間分離度,以分離度和緊密度的比值對聚類效果進行評價的內(nèi)部衡量指標。CH越大代表著類簇自身越緊密,類簇間越分散,擁有更優(yōu)的聚類結(jié)果。DB指數(shù)是根據(jù)類簇內(nèi)樣本點與其類簇中心的距離表示類簇內(nèi)相似度,類簇中心間的距離表示類簇間分離度,綜合得出的一種評估聚類算法優(yōu)劣指標,DB越小代表類簇內(nèi)距離越小類簇間距離越大。 各指標的計算公式如表2。 表2 聚類算法評價指標 實例選取2018年10月9日—12月9日廣東珠三角地區(qū)78條高速公路收費數(shù)據(jù),考慮各車型收費費率差異較大,筆者以7座以下小客車作為研究對象。 在數(shù)據(jù)預處理階段,剔除非研究對象車輛收費數(shù)據(jù)及免費通行車輛收費數(shù)據(jù),并對異常收費數(shù)據(jù)進行以下處理:① 無出入車牌收費數(shù)據(jù)予以剔除;② 入口時間大于出口時間或缺出入口時間任意一項,通過當前時段以同一出入口的其他數(shù)據(jù)字段完整的所有車輛的行程時間平均值作為參考作均值插補,若出入口時間兩項全無予以剔除;③缺失車輛收費數(shù)據(jù)通過出入口的收費標準進行補充。最終篩選得到194 088 593條收費數(shù)據(jù),共計15 041 213輛7座以下小客車。 選取k-means、k-means++和Adaboost-k-means++混合算法分別對數(shù)據(jù)集以最終類簇數(shù)量2~8為目標進行聚類。k-means、k-means++算法的初始類簇數(shù)量與最終類簇數(shù)量相等?;旌纤惴ň垲愔谐霈F(xiàn)小聚類現(xiàn)象時,若初始類簇數(shù)量為k1與k2的聚類結(jié)果得到相同最終類簇數(shù)k,則根據(jù)聚類結(jié)果評價指標值最優(yōu)原則,通過投票法為兩者計算得分。若初始類簇數(shù)量k1聚類結(jié)果的輪廓系數(shù)優(yōu)于初始類簇數(shù)量k2聚類結(jié)果,則前者得1分,反之后者得1分,其他指標同理。得分最高的作為最終類簇數(shù)k的聚類結(jié)果。 圖1 三類算法評價指標變化 從圖1(a)可以看出,Adaboost-k-means++混合算法和k-means++呈先上升后下降的,類簇數(shù)較大時Adaboost-k-means++混合算法的聚類效果較好,k-means的輪廓系數(shù)波動性較大,主要受制于初始類簇中心選取的隨機性;從圖1(b)可以看出,在相同類簇數(shù)量下混合算法的CH系數(shù)大于k-means++,兩者都優(yōu)于k-means,Adaboost-k-means++混合算法波動性較?。粡膱D1(c)可以看出,三個算法在類簇數(shù)為2~5時DB下降速度較快,后趨于平緩。Adaboost-k-means++混合算法與k-means++算法在最終類簇數(shù)為5時輪廓系數(shù)和CH指數(shù)達到最大值,DB達到最小值;k-means算法的輪廓系數(shù)和CH指數(shù)分別在類簇數(shù)為4和6時取得最大值,DB值在k=6時取最小值。綜上,Adaboost-k-means++混合算法有利于提升高速公路收費數(shù)據(jù)的聚類效果。同時,根據(jù)評價原則確定最優(yōu)類簇數(shù)為5。 依據(jù)Adaboost-k-means++混合算法,得到劃分類簇及特征,并根據(jù)客戶商業(yè)價值定義客戶類型,結(jié)果如表3;根據(jù)各類簇劃分結(jié)果對各樣本歸屬進行統(tǒng)計得到不同類簇樣本數(shù)占總樣本的比例,結(jié)果如圖2;對各類簇客戶特征值度M作概率密度擬合如圖3。 圖2 各類簇占比統(tǒng)計 表3 高速公路客戶細分與商業(yè)價值結(jié)果 圖3 各類簇及總體值度M概率密度分布 從表3和圖2、圖3可以看出不同類簇的特點。類簇1屬于VIP客戶,占比5.75%,客戶群特征為出行值度M遠高于其他類簇客戶群體,以中長距離出行為主,且出行頻次較高。這類客戶由于貢獻度最大,應重點關(guān)注其對高速公路服務的評價,提升高速公路服務質(zhì)量; 類簇2屬于重點價值客戶,占比11.15%,客戶群特征為出行頻度較大,根據(jù)該類簇客戶值度的數(shù)值密度最大值可得,值度分布集中于18元/次,應重點關(guān)注這類群體的高速公路出行時空分布,為客戶出行路徑選取提供更多的信息支持; 類簇3和類簇4屬于中等價值客戶,客戶群特征多數(shù)處于總體平均水平,但類簇3各項特征都優(yōu)于類簇4,兩者出行穩(wěn)定度較高,客戶價值較低,總體上在高速公路出行中保持相對穩(wěn)定狀態(tài); 類簇5屬于一般價值客戶,占比不低達到22.06%,客戶群特征出行頻度和值度都較低,以短距離城郊城際出行為主。 VIP客戶、重點價值客戶和一般價值客戶為高速公路差異化收費重點考慮對象,分時段分路段差異化收費有利于VIP客戶和重點價值客戶降低出行成本的同時改善高速公路道路利用狀況,穩(wěn)定中等價值客戶,吸引和提升一般價值客戶的高速公路出行意愿,減少流失現(xiàn)象。 筆者根據(jù)客戶細分理論,結(jié)合高速公路出行特點提出了高速公路RFMS客戶細分和商業(yè)價值挖掘模型,并以高速公路收費數(shù)據(jù)作為特征提取數(shù)據(jù)源。考慮k-means算法對于初始類簇中心選取和大數(shù)據(jù)下的小聚類現(xiàn)象的算法不足,提出Adaboost-k-means++混合算法,通過實例分析得出該算法有利于提高聚類效果,提升客戶集群劃分質(zhì)量。實證表明聚類分類混合算法能提高類簇劃分效果,提升大數(shù)據(jù)集下算法的適用性。 筆者對7座以下小客車的客戶細分與商業(yè)價值挖掘同樣適用于其他高速公路車型,后續(xù)的工作可以通過對不同車型的細分和商業(yè)價值比較,進一步探索同等商業(yè)價值客戶群下不同車型的特征異質(zhì)性。2.3 客戶細分算法評估
3 實例應用及分析
3.1 應用過程
3.2 高速公路客戶價值分析
4 結(jié) 語