郝曉培,單杏花,王煒煒
(1. 中國鐵道科學(xué)研究院 研究生部,北京 100081;2. 中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)
在高速鐵路線路建設(shè)及運(yùn)營初期,巨大的建設(shè)成本導(dǎo)致其主要依靠政府補(bǔ)貼維持運(yùn)營。2013年3月,隨著原中華人民共和國鐵道部實(shí)行政企分開,高速鐵路運(yùn)營模式出現(xiàn)了新的變化,市場化運(yùn)營嶄露頭角;2015年底,中華人民共和國國家發(fā)展和改革委員會規(guī)定,2016年1月1日起,鐵路部門可基于運(yùn)輸市場競爭狀況、服務(wù)設(shè)施條件差異、客流分布變化規(guī)律、旅客承受能力和需求特點(diǎn)等,自主制定時(shí)速200 km以上的高速鐵路動車組列車票價(jià);2018年12月,原中國鐵路總公司更名為中國國家鐵路集團(tuán)有限公司,從全民所有制改為公司制,以更加市場化的方式,靈活參與客運(yùn)市場競爭?;谑袌鎏攸c(diǎn)、服務(wù)設(shè)備條件差異、客流分布變化規(guī)律、旅客承受能力及鐵路網(wǎng)特點(diǎn)等進(jìn)行自主定價(jià),使其更靈活、更市場化[1]。
鐵路旅客需求的多樣化趨勢促使鐵路部門將服務(wù)模式從政策驅(qū)動型逐漸轉(zhuǎn)變?yōu)槭袌鲵?qū)動型及客戶驅(qū)動型。交通行業(yè)競爭的焦點(diǎn)已轉(zhuǎn)移到細(xì)分旅客市場、提高服務(wù)質(zhì)量、維系客戶關(guān)系上。近幾年鐵路客運(yùn)已構(gòu)建了完善的用戶畫像及產(chǎn)品畫像[2],為旅客群體劃分提供了數(shù)據(jù)基礎(chǔ)??蛻羧后w劃分是指,根據(jù)一個(gè)或多個(gè)屬性將客戶劃分到不同的群組,同一群組下的客戶相似度較高,不同群組的客戶差異較大。通過將客戶分到正確的類別,對現(xiàn)有及預(yù)期客戶作截面分析,針對不同截面提取顯著特征,即可對客戶構(gòu)成較準(zhǔn)確的認(rèn)識,使服務(wù)和營銷定位更加精確。
旅客群體劃分常用算法有:經(jīng)驗(yàn)描述法、聚類算法、決策樹法、RFM(Recency-Frequency-Monetary)分析法[3]等。可根據(jù)應(yīng)用場景、業(yè)務(wù)數(shù)據(jù)特點(diǎn)及業(yè)務(wù)功能選擇適合的算法。
(1)經(jīng)驗(yàn)描述法基于專家意見進(jìn)行特征選取及特征值范圍劃分,適用于業(yè)務(wù)簡單、特征較少的服務(wù)場景。
(2)聚類算法可基于鐵路客運(yùn)用戶畫像系統(tǒng)發(fā)現(xiàn)不同的旅客群組,找到不同群組的特征,從而解決旅客分類問題。
(3)決策樹法根據(jù)構(gòu)建的用戶特征,利用信息增益,選擇最優(yōu)特征及分割點(diǎn),從而實(shí)現(xiàn)旅客自動化分群。適用于人群特征維度低、特征取值多的場景。
(4)RFM分析法計(jì)算用戶的最近一次消費(fèi)時(shí)間、消費(fèi)頻率、消費(fèi)金額等,并為每個(gè)特征設(shè)定閾值,基于3個(gè)特征高于閾值和低于閾值的限定,將群體分成8類,主要用于快消品的群體分析。
鐵路客運(yùn)旅客數(shù)據(jù)作為一種典型的數(shù)據(jù)源,包含了大量的旅客購票及出行行為數(shù)據(jù),通過使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等方式構(gòu)建完善的用戶畫像系統(tǒng);鐵路客運(yùn)旅客數(shù)據(jù)也包含了海量的社交網(wǎng)絡(luò)數(shù)據(jù),即同行關(guān)系及購票關(guān)系,為鐵路旅客群體劃分提供了重要的數(shù)據(jù)支撐。因此,需引入社交網(wǎng)絡(luò)對用戶畫像特征進(jìn)行修正和完善,提高聚類效果。
本文在鐵路客運(yùn)用戶畫像系統(tǒng)的基礎(chǔ)上,構(gòu)建特征處理,社交網(wǎng)絡(luò)特征傳播,群體聚類3個(gè)模塊對鐵路客運(yùn)旅客群體進(jìn)行劃分,如圖1所示。
圖1 算法設(shè)計(jì)
特征處理是指對結(jié)構(gòu)化及非結(jié)構(gòu)化的原始數(shù)據(jù)進(jìn)行處理和加工,將雜亂的數(shù)據(jù)通過計(jì)算、組合、轉(zhuǎn)換等方法轉(zhuǎn)化為特征數(shù)據(jù),并使用主成分分析等方法對特征數(shù)據(jù)進(jìn)行選擇的過程,主要方法如下。
(1)數(shù)據(jù)清洗
發(fā)現(xiàn)并修正原始數(shù)據(jù)中存在的可識別的錯(cuò)誤,主要包括缺失值處理[4]和異常值檢測及處理。
(2)數(shù)據(jù)規(guī)范化
在用機(jī)器學(xué)習(xí)對模型進(jìn)行訓(xùn)練的過程中,樣本數(shù)據(jù)包含數(shù)值型、枚舉型等。為得到性能更優(yōu)的模型,需要對不同類型的特征進(jìn)行處理,主要操作包括數(shù)據(jù)無量綱化及連續(xù)變量離散化。
(3)特征衍生與提取
模型構(gòu)建過程中,需要從現(xiàn)有的特征中構(gòu)造一些特征。針對特征過多的樣本,為降低模型復(fù)雜度,防止過擬合,需要進(jìn)行降維處理,主要包括特征衍生及特征提取。
2.2.1 社交網(wǎng)絡(luò)概述
目前,鐵路部分旅客出行頻次較低,統(tǒng)計(jì)類特征不完善,存在一定量的特征缺失,需要采用策略對其進(jìn)行完善。本文主要采用社交網(wǎng)絡(luò)特征傳播的方式進(jìn)行特征優(yōu)化,利用其鄰居節(jié)點(diǎn)的特征及權(quán)重,對其自身特征進(jìn)行完善。在旅客社交網(wǎng)絡(luò)中,旅客不再是用戶畫像特征的信息載體,其個(gè)體與其他旅客之間的購票關(guān)系及同行關(guān)系對整個(gè)鐵路客運(yùn)社交網(wǎng)絡(luò)中的信息產(chǎn)生、特征演化、知識傳播過程發(fā)揮著重要作用。本文在旅客特征的基礎(chǔ)上,將旅客關(guān)系網(wǎng)絡(luò)與相鄰節(jié)點(diǎn)的旅客特征信息交互融合,對旅客特征進(jìn)行完善。
社交網(wǎng)絡(luò)G(V,L) 作為網(wǎng)絡(luò)的一種,由節(jié)點(diǎn)與連接節(jié)點(diǎn)的邊組成,節(jié)點(diǎn)集合為節(jié)點(diǎn)總數(shù);邊的集合為邊的總數(shù);li連 接的節(jié)點(diǎn)屬于節(jié)點(diǎn)集合V,其社交特征傳播規(guī)律也與復(fù)雜網(wǎng)絡(luò)理論研究的基本規(guī)律相同。
2.2.2 社交網(wǎng)絡(luò)算法
為完善鐵路旅客特征值,本文主要從網(wǎng)絡(luò)視角對旅客特征進(jìn)行迭代更新,根據(jù)鐵路旅客間的同行關(guān)系、購票關(guān)系等構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),模擬PageRank[5]算法的隨機(jī)跳轉(zhuǎn)思路,對網(wǎng)絡(luò)中的旅客節(jié)點(diǎn)特征進(jìn)行迭代運(yùn)算,直至數(shù)值穩(wěn)定為止。
基于PageRank算法原理,特征傳播過程主要分為3個(gè)階段。
(1)網(wǎng)絡(luò)初始階段:旅客作為網(wǎng)絡(luò)節(jié)點(diǎn),旅客之間的購票關(guān)系及同行關(guān)系形成網(wǎng)絡(luò)的連接,網(wǎng)絡(luò)連接的權(quán)重定義為購票次數(shù)及同行關(guān)系次數(shù),圖2是以4個(gè)節(jié)點(diǎn)為例的關(guān)系網(wǎng)絡(luò)。
圖2 以4個(gè)節(jié)點(diǎn)為例的關(guān)系網(wǎng)絡(luò)
(2)特征初始階段:基于特征處理生成的旅客特征作為網(wǎng)絡(luò)節(jié)點(diǎn)的屬性,每個(gè)節(jié)點(diǎn)與相鄰節(jié)點(diǎn)的重要性是不同的。本文將相鄰節(jié)點(diǎn)和該節(jié)點(diǎn)購票及出行的總次數(shù)與所有相鄰節(jié)點(diǎn)和該節(jié)點(diǎn)購票及出行的總次數(shù)的比值作為權(quán)重,即:其中 ,fij表示節(jié)點(diǎn)i為節(jié)點(diǎn)j購票的次數(shù)及節(jié)點(diǎn)i與節(jié)點(diǎn)j同行次數(shù)的總和;n代表節(jié)點(diǎn)i相鄰節(jié)點(diǎn)的個(gè)數(shù) 。Wij越大,說明節(jié)點(diǎn)j的特征對節(jié)點(diǎn)i的影響力越大。針對每一個(gè)特征值,都需要基于網(wǎng)絡(luò)結(jié)構(gòu)對其進(jìn)行更新;
(3)特征值更新階段:針對確定的特征變量,進(jìn)行迭代運(yùn)算。每一次計(jì)算都將原來的特征值與該節(jié)點(diǎn)相鄰節(jié)點(diǎn)的特征值加權(quán)求和并求最大值,作為新的特征值不斷迭代,直至特征值趨于穩(wěn)定。以節(jié)點(diǎn)i的特征值xit為例,其計(jì)算公式為
特征處理及社交網(wǎng)絡(luò)特征傳播分別對旅客特征信息進(jìn)行計(jì)算及優(yōu)化。聚類算法主要基于優(yōu)化過的特征進(jìn)行用戶群體分類,常用的分類算法有Kmeans算法[6]。該算法原理相對簡單,可解釋性強(qiáng),運(yùn)行速度快,被廣泛應(yīng)用于客戶分群、精準(zhǔn)營銷的業(yè)務(wù)場景中,取得良好的效果。然而,業(yè)務(wù)數(shù)據(jù)的不同會導(dǎo)致K-means算法訓(xùn)練的難度加大,主要體現(xiàn)在聚類中心初始值的選擇及相似度度量算法上。為解決K-mean算法存在的問題,本文針對這兩方面進(jìn)行了優(yōu)化。
2.3.1 初始聚類中心
傳統(tǒng)的K-means算法采用隨機(jī)的策略進(jìn)行初始聚類中心的選擇,選擇不當(dāng)易造成聚類結(jié)果波動,陷入局部最小解,也易受到噪音數(shù)據(jù)的影響,較難發(fā)現(xiàn)非球狀的樣本簇。為解決該問題,本文采用密度指標(biāo)結(jié)合最大最小距離法[7]進(jìn)行初始聚類中心的選擇。
初始聚類中心選擇步驟如下
(1)計(jì)算所有樣本的平均距離dc:
其中,dij代表樣本i與j之間的歐式距離。
(2)密度pi表 示落在以樣本對象xi為 中心;dc為半徑的區(qū)域內(nèi)的樣本對象的數(shù)量:
(3)計(jì)算該樣本的最大密度點(diǎn),將其作為第1個(gè)初始聚類中心c1,以解決選取局限性問題。
(4)采用最大最小距離法及密度法選擇出其他的初始聚類中心,基于公式din)}(i=1,2,···,n)挑 選樣本對象xj, 即xj到樣本xi的最大最小距離為disti, 將樣本平均距離dc范圍內(nèi)的所有樣本點(diǎn)中樣本密度值最大的對象作為第2個(gè)初始聚類中心c2。不斷重復(fù)該過程以找到所有的聚類中心,通過該方式選擇的初始聚類中心,分布密度高,且較為接近最終的聚類中心,可有效減少聚類過程的迭代次數(shù)。
2.3.2 相似度度量算法
傳統(tǒng)的K-means算法主要采用歐式距離計(jì)算樣本相似度,針對樣本特征進(jìn)行統(tǒng)一處理,不區(qū)分特征重要性。然而,鐵路旅客的不同特征之間的相似度是有差異的。為區(qū)別對待旅客樣本特征,本文將樣本與樣本之間的權(quán)重距離作為相似度度量依據(jù),基于信息熵來計(jì)算特征權(quán)重,信息熵較小的賦予較小的權(quán)重,反之,則賦予較大的權(quán)重[8],權(quán)重計(jì)算方式如下。
(1)構(gòu)建樣本特征矩陣A:
其中,n表示樣本個(gè)數(shù);m表示特征數(shù);代表第j個(gè)樣本的第i個(gè)特征。
(3)計(jì)算特征信息熵H(i):
(4)計(jì)算特征維度上的差異系數(shù)ri:
(5)計(jì)算特征權(quán)重wi:
為驗(yàn)證模型的有效性,本文隨機(jī)抽取某客運(yùn)區(qū)段、一定時(shí)間內(nèi)、某車次的30 000名旅客的所有出行行為數(shù)據(jù)(包括非本區(qū)段)作為數(shù)據(jù)集。通過特征處理整理出的數(shù)據(jù)特征維度包括:出行頻次、動車組出行比例、一線及新一線城市出行比例、購買保險(xiǎn)比例、打印發(fā)票比例、假日出行比例、平均同行人數(shù)、高端席別比例等,初始特征統(tǒng)計(jì)如表1所示。
表1 初始特征
出行頻次及平均同行人數(shù)的數(shù)據(jù)值不在[0,1],需要進(jìn)行歸一化處理。
特征更新策略主要基于PageRank算法思想,根據(jù)節(jié)點(diǎn)本身的特征及鄰節(jié)點(diǎn)的特征進(jìn)行調(diào)整,并對調(diào)整后的特征進(jìn)行歸一化處理,得到最終的旅客特征。
將特征處理及特征更新后的數(shù)據(jù)通過改進(jìn)的Kmeans算法進(jìn)行聚類,得到6個(gè)類別,對聚類結(jié)果進(jìn)行處理,得到各類別平均特征值如表2所示,群體比例分布如圖3所示。
由表2可知,類別1出行頻率較低,且大部分是在節(jié)假日出行;類別2與類別1相近,但是其出行一線及新一線城市的比例較高;類別3所有的特征相對均衡;類別4~類別6出行頻次相對較高,動車組所占比例較高,且打印發(fā)票(報(bào)銷憑證)比例較高,可以定義為商務(wù)出行群體。由圖3可知,該車次類別4~類別6群體所占比例接近75%,大部分為商務(wù)人群出行,可針對該車次的服務(wù)進(jìn)行相應(yīng)的策略配置,為票價(jià)調(diào)整提供決策依據(jù)。
圖3 群體比例分布
表2 各類別平均特征值
本文通過鐵路客運(yùn)用戶畫像系統(tǒng)構(gòu)建旅客特征,同時(shí)基于旅客購票關(guān)系及同行關(guān)系,利用PageRank算法思想優(yōu)化完善旅客特征,作為旅客群體分類的數(shù)據(jù)特征;分析了K-means聚類算法存在的缺點(diǎn),對初始聚類中心節(jié)點(diǎn)的選擇及相似度度量算法進(jìn)行了優(yōu)化,從數(shù)據(jù)特征及聚類算法優(yōu)化等方面提高了聚類的準(zhǔn)確性及穩(wěn)定性;對實(shí)際的生產(chǎn)數(shù)據(jù)進(jìn)行了驗(yàn)證,效果較明顯。然而,本文只局限于考慮旅客特征,尚未考慮區(qū)段及車次的特征,下一步可將旅客與產(chǎn)品進(jìn)行相關(guān)分析,豐富數(shù)據(jù)種類,以提高分析效果,作出更精準(zhǔn)的營銷策略。