孔德越,程 默,顏 穎,呂曉艷
(1.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計算技術(shù)研究所,北京 100081;2.中國國家鐵路集團(tuán)有限公司 客運部,北京 100844)
隨著我國鐵路客運市場化改革程度不斷加深,傳統(tǒng)面向客運市場的整車、整區(qū)間的宏觀客流特征分析方法逐漸無法滿足管理部門精準(zhǔn)營銷、精細(xì)化管理的現(xiàn)實需要。對于新時代高度市場化的鐵路客運,要做好針對性服務(wù)營銷與個性化產(chǎn)品設(shè)計,就需要有意識地根據(jù)旅客出行目的進(jìn)行客流成分結(jié)構(gòu)劃分,精準(zhǔn)把握不同客流的共性出行需求。但目前對不同旅客群體出行行為特征及客流結(jié)構(gòu)的研究仍屬空白,不同出行目的旅客的獨特出行特征和實際需求被湮沒在宏觀市場呈現(xiàn)的表象之中。這造成鐵路客運管理時,各旅客群體的出行需求沒有得到足夠關(guān)注,更導(dǎo)致鐵路客運產(chǎn)品不能更好滿足旅客需求的問題日益凸顯,構(gòu)建合乎實際的鐵路旅客全年出行特征分析體系迫在眉睫。
目前,國內(nèi)外相關(guān)研究均缺乏對不同客流結(jié)構(gòu)年度出行特征的深入分類分析。國內(nèi)對旅客行為特征的研究主要停留在畫像層面,即總結(jié)提煉旅客出行偏好,形成旅客標(biāo)簽,并將其應(yīng)用于客流預(yù)測或產(chǎn)品改進(jìn),如文獻(xiàn)[1-7]基于旅客出行選擇偏好,分別從不同層面提煉出旅客需求,針對性制定營銷方案策略。在國外,相關(guān)研究如文獻(xiàn)[8-10],主要根據(jù)旅客出行需求的不同,或構(gòu)建數(shù)學(xué)模型或基于機器學(xué)習(xí)算法,研究列車能力安排、旅客換乘選擇、客流發(fā)生預(yù)測等具體運營問題。總之,既有的旅客出行偏好研究雖是對旅客行為特征研究的良好探索,但常用的分析方法還停留在歸納與總結(jié)層面,對旅客出行需求的挖掘不夠深入。對鐵路客運管理來說,旅客出行偏好的提取結(jié)果是旅客選用鐵路客運產(chǎn)品的必要不充分要素,因此實踐中往往難以準(zhǔn)確了解旅客出行動機并預(yù)判旅客需求。
旅客在某個時間段內(nèi)的1 個往返行程可抽象為1 個行程環(huán),按日期順序排列的一系列行程環(huán)可抽象為1個出行鏈,鏈上相應(yīng)匯集空間、時間、活動類型及出行方式等信息。以單一出行鏈為研究對象,按旅客在空間和時間上的出行順序梳理行程特征,從而更深入地分析旅客出行習(xí)慣偏好與路徑選擇。當(dāng)前,關(guān)于城市出行鏈的研究主要集中于一次出行中不同交通方式的出行選擇及換乘行為上,如文獻(xiàn)[11-13]。而鐵路出行鏈研究,則更側(cè)重于通過一段時間內(nèi)旅客的出行頻次、目的地等特征分析出行習(xí)慣,推斷出行動機與目的。然而,如果要開展更深程度地旅客行為特征屬性挖掘,則有必要系統(tǒng)、全面、成體系地通過特定分析手段進(jìn)行深入分析,以便相關(guān)決策部門能夠準(zhǔn)確判斷客流結(jié)構(gòu)成分并理解其具體需求,從而更加準(zhǔn)確、及時地調(diào)整運力,改進(jìn)產(chǎn)品。
傳統(tǒng)技術(shù)手段著重于宏觀客流規(guī)律的總結(jié)、提煉,在大數(shù)據(jù)全樣本下的客流結(jié)構(gòu)劃分與出行特征分析問題中顯得力不從心。在此背景下,首次提出基于鐵路旅客常住地與行程環(huán)的旅客群體年度出行特征分析體系,包括旅客常住地識別、行程環(huán)劃分、行程環(huán)與出行鏈的拓?fù)浣Y(jié)構(gòu)構(gòu)建。先通過隨機森林算法,識別旅客群體的唯一常住地;再構(gòu)建基于常住地特征的改進(jìn)DBSCAN基本元聚類模型,用于劃分旅客行程環(huán);然后,分類圖形化展示行程環(huán)和出行鏈,得到兩者的拓?fù)浣Y(jié)構(gòu),用于分析旅客全年出行規(guī)律。通過構(gòu)建基于旅客常住地與行程環(huán)的鐵路旅客年度出行特征分析體系,以期充分利用出行信息挖掘旅客需求,為相關(guān)管理部門提供決策支持。
分析旅客年度出行特征時,常住地與行程環(huán)是最重要的構(gòu)建單位,是挖掘旅客行為特征的分析基礎(chǔ)。其中:常住地指旅客在1年中停留時間最長的城市,是旅客鐵路出行主要的出發(fā)地與目的地;行程環(huán)指旅客從離開常住地至返回常住地的一次出行中所有鐵路行程的集合,是分析旅客出行目的的基本單位。
建立旅客年度出行特征分析體系,首先要基于鐵路出行大數(shù)據(jù)構(gòu)建數(shù)據(jù)集并訓(xùn)練機器學(xué)習(xí)模型,對常住地與行程環(huán)進(jìn)行準(zhǔn)確識別和劃分。旅客出行行為受主觀因素影響,具有較強隨機性,為保證數(shù)據(jù)建模的可靠性與普適性,構(gòu)建數(shù)據(jù)集時須以真實、主流的鐵路行程數(shù)據(jù)為基礎(chǔ)。
選用2019年10 萬份經(jīng)脫敏處理后的全年鐵路行程數(shù)據(jù)構(gòu)建數(shù)據(jù)集,數(shù)據(jù)來自線上問卷(12306的APP 及微信公眾號)、線下調(diào)研(車站和車廂)等渠道,并采用人工分析及問卷獲取的方式標(biāo)記數(shù)據(jù)集中的常住地與行程環(huán)。
構(gòu)建常住地識別與行程環(huán)劃分模型時采用交叉驗證法,取數(shù)據(jù)集中的8萬份數(shù)據(jù)作為訓(xùn)練集,用于模型參數(shù)訓(xùn)練;另2 萬份數(shù)據(jù)作為測試集,用于模型精度驗證。
旅客出行行為隨機,不同個體出行習(xí)慣差異較大。為提高模型使用和運算效率,需要排除少數(shù)極端情況,使模型對主要旅客群體有效。故建立分析體系時,對旅客年度出行特征進(jìn)行以下合理化假設(shè),從而圈定主要研究范圍。
1)假設(shè)1:旅客在1年中有且只有1個常住地
絕大多數(shù)旅客僅圍繞唯一城市往返出行,這個城市就是他們的主要居住城市,即常住地;小部分旅客會在多城市有居住點(如異地求學(xué)的學(xué)生、在多子女家中輪換居住的老人等),則認(rèn)為其在1年中實際停留時間最長的城市是唯一主要常住地。
2)假設(shè)2:旅客行程環(huán)全部為閉環(huán),且起止城市為常住地
如果數(shù)據(jù)集中出現(xiàn)鐵路行程停留在非常住地的情況,則認(rèn)為當(dāng)前行程或尚未完成,會在未來某時刻會返回常住地;或已經(jīng)完成,屬于采取其他交通方式返回的單邊行程。
3)假設(shè)3:旅客抵達(dá)常住地時,如果未銜接常住地的同城換乘出行,則當(dāng)前行程環(huán)結(jié)束
旅客抵達(dá)常住地后即回家休整,結(jié)束當(dāng)前行程。如果旅客抵達(dá)常住地后短時間內(nèi)進(jìn)行同城換乘出行,則認(rèn)為旅客換乘后抵達(dá)常住地;如果旅客抵達(dá)常住地后短時間內(nèi)又從常住地出發(fā)至其他城市,則認(rèn)為其開始了1個新行程。
4)假設(shè)4:旅客在常住地有鐵路出行記錄
識別旅客常住地時需參照其鐵路出行行為。如果旅客在常住地未發(fā)生鐵路出行,難以通過既有鐵路出行數(shù)據(jù)判斷其真實常住地點,則認(rèn)為鐵路出行時首選車站所在的城市是其常住地。
基于行程特征數(shù)據(jù)構(gòu)建模型時,需要從數(shù)據(jù)集中旅客的全年所有到發(fā)城市中分析、推斷出鐵路行程中圍繞的主要核心城市,這即是旅客常住地識別。經(jīng)過數(shù)據(jù)訓(xùn)練并優(yōu)化后的模型,能夠根據(jù)全年所有行程的出行順序、出行時期、出行次數(shù)、停留時長、與籍貫地相關(guān)性等一系列要素特征,判斷出旅客在某年度的唯一常住地。
根據(jù)假設(shè)4,旅客在常住地有鐵路出行記錄,因此常住地需要在歷史到發(fā)城市中篩選、判斷得出。而常住地的候選城市,是旅客具有較高出行傾向特征的主要核心城市,通常具有以下一系列特征:停留時長最久、到發(fā)次數(shù)最頻繁、與籍貫地相關(guān)、是全年第1 次出行的出發(fā)點或最后1 次出行的到達(dá)點、是節(jié)假日出行的起止點以及持特殊票種出行等。根據(jù)常住地具備的主要特征,篩選出以下6類常住地候選城市。
1)時長地
時長地指旅客1年內(nèi)停留時間最長的城市,主要屬性包括旅客在該市的停留時長和停留期間的日期屬性。當(dāng)鐵路行程連貫時,任意城市的停留時長可根據(jù)相鄰2 次行程的出行日期差計算得出;旅客在某市的停留時間越長,將其作為常住地的可能性就越高。旅客總傾向于在節(jié)假日期間外出旅游或探親,此時經(jīng)停的城市大概率不是常住地,因此通過在某市的非節(jié)假日停留時長,能夠輔助判斷該市是否為旅客的常住地,即:當(dāng)旅客在2個城市的總停留時間相同時,可進(jìn)一步使用日期屬性判斷其常住地。
2)次數(shù)地
次數(shù)地指旅客1年中到發(fā)次數(shù)最多的城市,主要屬性為旅客經(jīng)由該市的出行次數(shù),即行程中在某市的乘車出發(fā)次數(shù)與到達(dá)次數(shù)之和,此時換乘行為(在該市停留時間不超過4 h且不屬于往返出行)的到發(fā)次數(shù)不計入其中。當(dāng)兩地距離過近且旅客在兩地均有鐵路出行、但沒有兩地間行程時,考慮旅客可能居住在兩市之間,會根據(jù)出行、換乘的便捷度自行選擇出發(fā)地點,這種情況下,計算次數(shù)地時考慮將兩地出行次數(shù)合并,計入兩地中到發(fā)次數(shù)更多的城市。
3)首末地
首末地指旅客1年中首次出行的出發(fā)城市(首發(fā)地)及末次出行的到達(dá)城市(末達(dá)地)。旅客全年僅出行1次時,旅客的首末地分別是該行程上的出發(fā)車站所在城市和到達(dá)車站所在城市。全年內(nèi)首次出行前,旅客在首發(fā)地的停留時長與末次出行后在末達(dá)地的停留時長決定了模型中首末地的權(quán)重大小,停留時間越長,首末地對應(yīng)的權(quán)重越大。
4)籍貫地
籍貫地多為本人出生時祖父居住地、父親籍貫地或本人出生地。截至2019年底,我國流動人口占比僅16.9%[14],多數(shù)旅客的常住城市仍是其籍貫城市。
5)節(jié)假日首末地
旅客在節(jié)假日中的行程通常連貫、完整,因此節(jié)假日行程環(huán)的首、末地具有較高參考價值。但由于出行時可能拼假,因此確認(rèn)節(jié)假日首末地時還須進(jìn)行如下特殊處理:①充分考慮拼假可能,拉長數(shù)據(jù)觀察范圍;②根據(jù)行程連貫性,過濾節(jié)假日行程途徑地;③根據(jù)停留時長,剔除換乘城市。
6)學(xué)生旅客的學(xué)校所在地
1年之內(nèi),學(xué)生旅客在學(xué)校停留時間相對更長,因此以學(xué)校所在地標(biāo)識學(xué)生旅客的常住地。特別地,根據(jù)《鐵路旅客運輸規(guī)程》,學(xué)生票優(yōu)惠區(qū)間為家庭至院校,因此學(xué)生旅客購買學(xué)生票出行時,常住地可根據(jù)出行區(qū)間精準(zhǔn)識別。
常住地識別問題的本質(zhì)是基于全年復(fù)雜出行特征的分類問題??紤]到模型數(shù)據(jù)集具有數(shù)據(jù)量大、數(shù)據(jù)屬性多、屬性間有相關(guān)性、數(shù)據(jù)項存在空值的特點,且模型輸出結(jié)果應(yīng)有較高的可解釋性,相較其他分類模型方法(如支持向量機、近鄰算法以及樸素貝葉斯模型等),決策樹方法的求解效果更優(yōu)。該方法屬于白盒模型,其建模結(jié)果不僅能夠很好地還原到旅客的出行行為特征上,而且對大數(shù)據(jù)量、多維數(shù)據(jù)集的建模效率較高。
考慮到異常值和過擬合對單一決策樹建模效果的影響,選用多決策樹方法來構(gòu)建常住地識別模型,即隨機森林算法。隨機森林算法具有準(zhǔn)確率高、運算效率高、結(jié)果易解釋的特點,在圖像處理、特征分析、行為識別等諸多領(lǐng)域均有良好的應(yīng)用實例[15-16]。
基于隨機森林算法的常住地識別模型(簡稱為“隨機森林模型”)構(gòu)建主要分為5步,如圖1所示。首先,在構(gòu)建初始數(shù)據(jù)集后,對其進(jìn)行數(shù)據(jù)預(yù)處理并將其分為訓(xùn)練集和測試集;其次,通過可放回地抽樣,選取訓(xùn)練集中部分樣本和特征,構(gòu)建多個不同的子數(shù)據(jù)集;然后,針對每個子數(shù)據(jù)集分別采用ID3 算法訓(xùn)練決策樹,形成隨機森林;接著,采用測試集對模型進(jìn)行交叉驗證,計算當(dāng)前森林的計算率;最后,不斷調(diào)整隨機森林的主要參數(shù)(樹的棵數(shù)、葉子節(jié)點最小記錄數(shù)等),進(jìn)一步提高算法效率。隨機森林算法是較為成熟的算法,具體建模過程不做贅述。經(jīng)反復(fù)測試,常住地識別建模過程中當(dāng)決策樹的棵數(shù)取100 棵、葉子節(jié)點最小記錄數(shù)取500時,模型的分類效果最佳。
圖1 常住地判斷算法建模過程
常住地識別模型建成后,翻譯模型中每棵決策樹獨立決策流程的對應(yīng)規(guī)則,篩選整理所有決策樹均采用的共性規(guī)則,并按屬性權(quán)重與決策順序進(jìn)行排序,形成常住地識別的整體規(guī)則流程,梳理結(jié)果如圖2所示。
圖2 隨機森林算法識別旅客常住地具體流程
從圖2 可以看出:旅客全年出行頻次不同,算法流程也有所不同;當(dāng)旅客全年僅出行1次時,籍貫地是判斷常住地的重要依據(jù),這與實際情況相符,旅客出行頻次較低,表明旅客出行需求較少,停留在籍貫地的可能性較高;旅客全年出行2 次時,出行的首末地是判斷常住地的重要依據(jù),2 次出行時往返出行的可能性較高,因此首末地大概率相同且為旅客實際常住地;旅客全年出行3次以上時,因有更多行程參考,次數(shù)地與時長地就成為權(quán)重更高的常住地判斷依據(jù);當(dāng)旅客在次數(shù)地的到發(fā)次數(shù)、在時長地的停留時長高于某定值時,參考這2項要素后能夠輸出符合預(yù)期的常住地識別結(jié)果。
以高效劃分并歸集旅客雜亂出行軌跡為目標(biāo),對鐵路出行信息進(jìn)行拓?fù)涑橄?,將單一旅客的全年鐵路出行行程中的出發(fā)城市與到達(dá)城市視為“點”,將出行的單次行程視為“線”,將其中所有行程的拓?fù)浣Y(jié)構(gòu)視作“面”,按拓?fù)湫再|(zhì)相應(yīng)定義基本元、斷元、行程環(huán)與出行鏈。在此基礎(chǔ)上,為清晰梳理旅客年度出行特征,先根據(jù)常住地劃分行程環(huán),再根據(jù)旅客年度出行的行程環(huán)特征得到全年出行鏈拓?fù)浣Y(jié)構(gòu)。
1)基本元
基本元指旅客鐵路出行行程中,1 張火車票票面對應(yīng)的發(fā)站—到站單次行程。旅客的1個基本元嚴(yán)格對應(yīng)1張車票行程;鐵路聯(lián)程票(多張車票聯(lián)程)、空鐵聯(lián)程票(鐵路與航空票聯(lián)程)、同站或同城換乘均算做多條基本元。
2)斷元
斷元指旅客鐵路出行中出現(xiàn)的不連貫行程間的基本元,此時易出現(xiàn)的2 種情況如圖3 所示。圖中:實心節(jié)點(A地)表示旅客常住地;空心節(jié)點(B 地和C 地)表示旅客的其他到發(fā)城市;實線和虛線箭頭分別表示行程中相應(yīng)方向的基本元和斷元。由圖3(a)可知:在某次行程中,當(dāng)旅客上一基本元的到達(dá)城市B 與下一基本元的出發(fā)城市C不同時,判斷旅客采取其他交通方式產(chǎn)生了從B地至C地的位移,且認(rèn)為此時旅客在兩地之間有且僅有1條斷元出行。由圖3(b)可知:只有當(dāng)B 地和C 地均不是旅客常住地,且A—B,C—A 分屬于2個不同行程時,可認(rèn)為B地和C地之間有可能存在2 條斷元,且均連接常住地;其他情況下,B 地和C 地之間僅可存在1 條斷元,這是因為對于普通的不連貫行程,若B 與C 之間出現(xiàn)2 條斷元,那么這2條斷元之間的非常住地節(jié)點將無法被唯一確定。
3)行程環(huán)
行程環(huán)指旅客目的性的單次出行行程中,所有鐵路基本元和斷元的集合,是由旅客常住地出發(fā)、經(jīng)過一段時間、一系列行程后返回常住地的完整出行閉環(huán),如圖4 所示。旅客行為特征分析體系中,行程環(huán)分析是最重要的分析基礎(chǔ),也是實現(xiàn)客流成分分類及出行目的劃分的基礎(chǔ)分析單位。
圖4 行程環(huán)
4)出行鏈
出行鏈指旅客一段時間內(nèi)所有完整行程環(huán)的集合,是旅客在一段時間內(nèi)所有出行軌跡按日期順序相連形成的完整出行鏈條。出行鏈中的節(jié)點即為旅客全年鐵路出行行程中所有到發(fā)過的城市;出行鏈中的線段即為基本元或斷元,如圖5所示。因研究時關(guān)注年度為單位的旅客出行特征,文中所有出行鏈時間段長度均指1年。
圖5 出行鏈
針對出行鏈和行程環(huán),定義:m為旅客出行鏈中鐵路基本元的總個數(shù);n為旅客出行鏈中的所有完整行程環(huán)總個數(shù);Ci為旅客出行鏈中所有行程按日期順序排列后的第i個鐵路行程環(huán),是這1年中旅客第i個目的性行程中所有基本元和斷元的集合,i=1,2,…,n;C為旅客本年度的出行鏈,也是所有完整行程環(huán)的集合,C={Ci,i=1,2,…,n};ni為行程環(huán)Ci的全部節(jié)點個數(shù)。
針對基本元和斷元,定義:K 和K'分別為旅客出行鏈中基本元和斷元的總個數(shù);ki和k'i分別為行程環(huán)Ci中基本元和斷元的個數(shù);t(a),t(b)分別為按日期順序排列后第a 個和第b 個基本元的乘車日期(采用符合GB/T 7408—2005 的日歷日期基本格式記錄(yyyymmdd)),a,b=1,2,…,m,a
針對行程環(huán)中的城市節(jié)點,定義:Sscz(xt(a))和Sxcz(xt(a))分別為基本元xt(a)的上車站、下車站所在城市節(jié)點;Sscz()和Sxcz()分別為斷元的出發(fā)、到達(dá)城市節(jié)點;Sczd為旅客的常住地;N為出行鏈中全部節(jié)點的個數(shù);Nj為出行鏈中某城市節(jié)點j的總個數(shù),1,2,…,n};NSczd為出行鏈中常住地節(jié)點的個數(shù);ni,j為行程環(huán)Ci中某城市節(jié)點j的個數(shù)。
針對旅客換乘行為,定義:Nhj為出行鏈中旅客在某節(jié)點j的換乘總次數(shù),j∈{Sscz(xt(a)),Sxcz(xt(a)),Sczd|?a=1,2,…,n};NhSczd為旅客在常住地節(jié)點的換乘次數(shù)。
結(jié)合概念和定義,可以得出出行鏈具有如下4點性質(zhì)。
性質(zhì)1:完整出行鏈開始于常住地、停止于常住地,即
性質(zhì)2:完整出行鏈中,任意非常住地節(jié)點不連接2條斷元,即
性質(zhì)3:行程環(huán)及出行鏈中所有節(jié)點個數(shù)均等于所有基本元和斷元個數(shù)之和加1,即
性質(zhì)4:出行鏈中常住地節(jié)點個數(shù)為旅客常住地同城換乘次數(shù)與行程環(huán)個數(shù)和的2倍,即
性質(zhì)1—性質(zhì)3 可以根據(jù)行程環(huán)的定義或基本假設(shè)直接得出;性質(zhì)4中,除同城換乘外旅客抵達(dá)常住地后行程環(huán)即停止,因此出行鏈中常住地節(jié)點個數(shù)只與行程環(huán)個數(shù)和常住地同城換乘次數(shù)相關(guān)。
行程環(huán)劃分問題要依據(jù)出行特征對所有基本元進(jìn)行歸集和識別,將屬于同一次出行的基本元劃分至同一行程環(huán),不同出行行程的基本元劃分至不同行程環(huán),從而實現(xiàn)對全年出行鏈的準(zhǔn)確拆分,并對行程環(huán)中的不連貫行程進(jìn)行斷元補充。
定義任意2 個基本元xt(a)與xt(b)間距離為da,b,為保證行程環(huán)的劃分結(jié)果能夠滿足同一行程環(huán)內(nèi)的基本元距離最小、不同行程環(huán)間的基本元距離最大,考慮采用同行程環(huán)內(nèi)基本元距離之和與不同行程環(huán)間基本元距離之和的比值,構(gòu)造目標(biāo)函數(shù)Z為
3.4.1 基礎(chǔ)DBSCAN基本元聚類模型
從行程環(huán)劃分問題的描述可知,其屬于機器學(xué)習(xí)問題中的聚類問題。在行程環(huán)識別完成前,由于出行行程個數(shù)未知,即聚類簇個數(shù)不能作為已知參數(shù)代入模型,因此以基于密度的聚類算法DB?SCAN 作為解決該問題的首選。DBSCAN 算法無須預(yù)先設(shè)定簇數(shù)量,具有效率、準(zhǔn)確度和魯棒性均較高的特點,已成功應(yīng)用于多個領(lǐng)域[17-18],十分契合行程環(huán)識別問題。
DBSCAN 算法基于數(shù)據(jù)要素本身的歐式距離或絕對值距離對所有數(shù)據(jù)進(jìn)行聚類,已較為成熟,具體建模過程不再贅述。
3.4.2 基于常住地特征的改進(jìn)DBSCAN 基本元聚類模型
采用常用的歐式距離構(gòu)建DBSCAN 算法基本元聚類模型(簡稱為“基礎(chǔ)模型”),但其聚類結(jié)果無法完全捕捉旅客出行行為的主觀性與隨機性,導(dǎo)致模型精度差強人意,需要改進(jìn)。為此,引入旅客的常住地屬性及旅客年齡、出行日期、行程特征等一系列要素,深度捕捉旅客出行行為特征,提高模型精度。構(gòu)建基于常住地特征的改進(jìn)DBSCAN基本元聚類模型(簡稱為“改進(jìn)模型”)的具體步驟如下。
1)步驟1:定義距離
基本元與基本元之間的距離計算是構(gòu)建聚類算法的主要依據(jù),對算法的精度具有重要影響。建模數(shù)據(jù)集是按出行順序排列的行程記錄集合,因此基本元間出行日期的時間距離可被視為定義距離的首要條件;之后,根據(jù)假設(shè)2 和假設(shè)3,基本元是否途徑常住地是劃分行程環(huán)的重要標(biāo)準(zhǔn),若某基本元途徑常住地,則可定義其與相連的基本元距離極大,從而進(jìn)一步劃分行程環(huán);此外,基本元的其他相關(guān)出行屬性也應(yīng)作為參數(shù)計入距離之中。
因此將距離da,b的定義方式進(jìn)行如下改進(jìn)
其中,
式中:I1(·)和I2(·)均為邏輯變量;d0為模型設(shè)定的行程環(huán)劃分閾值,當(dāng)da,b 因所有距離項均不取負(fù)值,通過設(shè)定dp(xt(a),d0以滿足業(yè)務(wù)上的行程環(huán)劃分需求。所有距離不應(yīng)小于閾值d0,即當(dāng)出現(xiàn)da,b≥d0時,認(rèn)為基本元xt(a)與基本元xt(b)不屬于同一簇類、不在同一行程環(huán)之內(nèi)。 對模型進(jìn)行初始化設(shè)定,使X0=?,X,為進(jìn)入步驟2做好準(zhǔn)備。 2)步驟2:準(zhǔn)備新行程環(huán)Ci并隨機選取初始基本元xt(a) 3)步驟3:將與初始基本元xt(a)屬于相同行程環(huán)的基本元歸入Ci 重復(fù)式(11)—式(15),直至Xb=?。 4)步驟4:劃分所有基本元 Xb為空后,表明未分類的基本元集合里無基本元可劃入當(dāng)前行程環(huán)Ci,當(dāng)前行程環(huán)Ci包含的基本元劃分完畢。此時若不為空,則繼續(xù)重復(fù)步驟2—步驟3,直至=?,表明基本元劃分完畢。 5)步驟5:補充所有斷元 (1)補充行程環(huán)內(nèi)部的斷元。若行程環(huán)內(nèi)部斷元出現(xiàn)在同一行程環(huán)內(nèi)相鄰的2 個基本元xt(a),xt(a+1)之間,當(dāng)上一基本元的下車站與下一基本元的上車站不相同時,在該行程環(huán)內(nèi)補充從xt(a)的下車站城市至xt(a+1)的上車站城市的斷元,即 (2)補充行程環(huán)未在常住地結(jié)束的斷元。當(dāng)行程環(huán)Ci的最后1 個基本元xt(a)的下車站城市不是常住地時,在該行程環(huán)最后補充基本元xt(a)的下車站城市至常住地的斷元即 (3)補充行程環(huán)未從常住地開始的斷元。當(dāng)行程環(huán)Ci的首個基本元xt(a)的上車站城市不是常住地時,在該行程環(huán)內(nèi)補充常住地至基本元xt(a)的上車站城市的斷元。根據(jù)斷元的上一程分別為無行程(xt(a)為全年首個基本元時)、基本元或斷元,其補充結(jié)果有所不同。 當(dāng)xt(a)為全年首個基本元時,需補充斷元即 6)步驟6:結(jié)束 當(dāng)所有行程環(huán)斷元補充完成時,計算結(jié)束。 3.4.3 行程環(huán)劃分準(zhǔn)確度驗證 為驗證對行程環(huán)劃分的準(zhǔn)確程度,將2019年的2 萬份年度鐵路行程數(shù)據(jù)作為測試集,分別代入基礎(chǔ)模型和改進(jìn)模型進(jìn)行聚類分析并劃分行程環(huán),得到的結(jié)果見表1。由表1 可知:以常用的歐式距離為要素進(jìn)行建模后,基礎(chǔ)DBSCAN 模型的準(zhǔn)確率為82.3%,實際應(yīng)拆分行程的準(zhǔn)確率略高于不拆分行程的準(zhǔn)確率;引入旅客的常住地并采用通勤、跨節(jié)假日、基本元行程不連貫等出行行為特征屬性后,改進(jìn)模型對行程環(huán)的識別準(zhǔn)確率大幅提升,達(dá)到97.4%;改進(jìn)模型識別結(jié)果中發(fā)生第一類錯誤(拒絕正確值)和第二類錯誤(接受錯誤值)的概率相當(dāng),不存在顯著偏差。 表1 2種DBSCAN模型的行程劃分情況對比 劃分得到所有旅客的行程環(huán)后,便可基于行程環(huán)對旅客的宏觀行為特征進(jìn)行深度分析。為直觀展現(xiàn)旅客行程環(huán)狀態(tài)、方便分類分析,將行程環(huán)按總行程個數(shù)分類后進(jìn)行圖形化展示,形成基本拓?fù)浣Y(jié)構(gòu),直觀展現(xiàn)旅客1個完整的行程環(huán)。在劃分行程環(huán)拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步形成旅客出行鏈拓?fù)浣Y(jié)構(gòu),從而實現(xiàn)對旅客全年出行規(guī)律的直觀、深入分類分析與總結(jié)沉淀。 3.5.1 行程環(huán)拓?fù)?/p> 對2019年全部鐵路行程環(huán)進(jìn)行統(tǒng)計,得到的行程環(huán)拓?fù)浣Y(jié)構(gòu)及其占比見表2。表中:行程環(huán)包含行程次數(shù)統(tǒng)計了所有的基本元和斷元。由表2 可知:常住地的同城或往返行程環(huán)占比達(dá)75.3%;絕大多數(shù)旅客的行程環(huán)結(jié)構(gòu)簡單,出行目的地單一,行程環(huán)內(nèi)基本元加斷元不超過4個的行程占比超95%。 表2 旅客行程環(huán)拓?fù)浣Y(jié)構(gòu) 3.5.2 出行鏈拓?fù)?/p> 將旅客全年所有的行程環(huán)拓?fù)溥M(jìn)行聚合,合并常住地與常到發(fā)目的地,會形成不同的出行鏈拓?fù)浣Y(jié)構(gòu)?;诓煌某鲂墟溚?fù)錉顟B(tài),可以對旅客的年度出行特征進(jìn)行直觀、準(zhǔn)確歸類。 雖然旅客的單一行程環(huán)結(jié)構(gòu)通常簡單明確,但多數(shù)旅客的全年出行鏈為1種或多種不同類型的行程環(huán)結(jié)合形成。為實現(xiàn)對旅客出行鏈的清晰劃分,按出行鏈中占大多數(shù)的行程環(huán)結(jié)構(gòu)對出行鏈進(jìn)行分類,可以形成6類不同的旅客出行鏈拓?fù)浣Y(jié)構(gòu),分別將其命名為蒲公英型、宮燈百合型、荷花型、石竹花型、向日葵型以及白子蓮型,如圖6所示。 圖6 常見出行鏈拓?fù)浣Y(jié)構(gòu) 每類出行鏈具有不同的行為特征,因此可以對應(yīng)不同類型旅客的出行習(xí)慣,有效輔助相關(guān)決策部門判斷旅客的出行需求與客流成分,為旅客全年出行規(guī)律與行為特征的深度挖掘與探索提供明確的分析框架和基礎(chǔ)。 1)蒲公英型 對于呈現(xiàn)蒲公英型出行特征的旅客(簡稱為“蒲公英型旅客”,后同),全年出行鏈中超過50%的基本元屬于關(guān)于常住地的同城或往返行程環(huán),且這些行程環(huán)不是針對單一城市出行的。這類旅客群體的工作和生活均圍繞唯一常住地展開,出行有較明顯的規(guī)律,多為城市常住人口。 2)宮燈百合型 對于宮燈百合型旅客,全年出行鏈中超過50%的基本元屬于圍繞常住地和另一目的城市(通常為籍貫地)的往返或通勤行程環(huán)。這類旅客常在兩地間往返出行,這種出行形式也是我國多數(shù)鐵路旅客的典型出行狀態(tài)。旅客群體多為學(xué)生、離鄉(xiāng)在其他城市工作/通勤的人群、雙城生活的老人等。 3)荷花型 對于荷花型旅客,全年出行鏈中超過50%的基本元屬于“8”字形行程環(huán)。這類旅客在常住地停留時間最長,有較多行程環(huán)途徑另一城市,或圍繞該城市起止;也很可能短時間內(nèi)居住于另一城市,并在該城市有較多出行,或者每次出行均需要經(jīng)過大城市節(jié)點進(jìn)行換乘。旅客群體多為異地長期項目、實習(xí)或者培訓(xùn)的人群。 4)石竹花型 對于石竹花型旅客,全年出行鏈中超過50%的基本元屬于三角形、四邊形或多邊形行程環(huán)拓?fù)洹_@類旅客的行程環(huán)均圍繞常住地起止,但通常每個行程環(huán)的目的地不只1個。旅客群體多為常在多地講座的教師、多地出差的職員、多地旅游的旅客等。 5)向日葵型 對于向日葵型旅客,全年出行鏈中超過50%的基本元集中在同一個行程環(huán)中,且該行程環(huán)有多個目的地,并且持續(xù)時間也較長。這類旅客群體全年多數(shù)時間在外漂泊,僅在大型節(jié)假日或特定時點返回常住地;除常住地外,這類旅客在任意城市不會停留太久時間,出行也較為隨機。旅客群體與石竹花型類似,但出行頻次更高。 6)百子蓮型 對于百子蓮型旅客,全年出行鏈為多種類型行程環(huán)的組合,且每類行程環(huán)占比均未達(dá)到50%。這類旅客的出行不明顯具備某特定鏈型的特征,或在不同時間段內(nèi)的出行呈現(xiàn)不同的特征。 3.5.3 出行鏈拓?fù)浣Y(jié)構(gòu)統(tǒng)計 對2019年全年的旅客出行鏈進(jìn)行分類,各類出行鏈拓?fù)浣Y(jié)構(gòu)比例如下圖7 所示。由圖7 可知:各類出行鏈中,蒲公英型與宮燈百合型旅客占比最多,合計占比72.4%,表明多數(shù)鐵路旅客為單常住地散射狀出行或雙城間頻繁出行;石竹花型旅客占比21.9%,這部分旅客的行程環(huán)會途徑多個城市,每次出行目的地不單一或需要較多次換乘;荷花型和向日葵型旅客占比較低,僅存在于小部分特定旅客群中。 圖7 2019年出行鏈拓?fù)浣Y(jié)構(gòu)占比 基于旅客常住地與行程環(huán)構(gòu)建的年度出行特征分析體系使得許多傳統(tǒng)鐵路客運營銷分析與管理難點問題得到解決,其中最具代表性的1項工作是實現(xiàn)了對鐵路客流成分結(jié)構(gòu)的劃分。 傳統(tǒng)面向宏觀市場的營銷分析手段無法有效識別旅客每次出行的目的,而不同的出行目的,如探親、旅游、出差,旅客在出行時的經(jīng)濟(jì)承受度、時間緊迫度與旅行舒適度需求均不盡相同,并形成了不同的客流結(jié)構(gòu)特征,傳統(tǒng)的綜合性鐵路客運產(chǎn)品往往無法面面俱到地滿足不同成分客流的實際出行需求。 旅客出行鏈拓?fù)浣Y(jié)構(gòu)為出行目的的識別提供了方法。在旅客出行鏈拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上結(jié)合常住地、出行習(xí)慣、出行時期以及其他重要屬性和要素,將復(fù)雜的客流結(jié)構(gòu)識別問題簡化拆分,實現(xiàn)旅客出行目的分類,其基本規(guī)則框架見表3。對于其中未涵蓋到的類別,則可以在深入引入其他要素后進(jìn)一步進(jìn)行判斷,不在此過多羅列??梢钥闯?,在出行鏈拓?fù)浣Y(jié)構(gòu)的分類基礎(chǔ)上,不同旅客的行程特征都得到清晰、準(zhǔn)確的劃分,使后續(xù)相關(guān)部門對旅客出行目的的判斷更為準(zhǔn)確、高效,并為鐵路客流成分結(jié)構(gòu)劃分提供良好基礎(chǔ)。 表3 旅客出行目的劃分基本規(guī)則框架 運用2019年(疫情前)和2020年(疫情后)的全部鐵路行程數(shù)據(jù)對鐵路客流結(jié)構(gòu)進(jìn)行劃分,并結(jié)合實際經(jīng)驗,驗證劃分效果及模型在實際業(yè)務(wù)中的適用性。根據(jù)2019—2020年的全部鐵路行程數(shù)據(jù)對鐵路客流結(jié)構(gòu)進(jìn)行劃分的結(jié)果如下圖8 和圖9所示,可以看出許多顯著的出行規(guī)律,與實際經(jīng)驗相符合。 圖8 2019—2020年鐵路客流成分結(jié)構(gòu)劃分 圖9 2019—2020年不同客流結(jié)構(gòu)占比月波動 (1)2年內(nèi)的鐵路客流中,公務(wù)客流占比最大,其次為探親、旅游客流;對比2019年,2020年公務(wù)及探親客流同比提升、旅游客流同比下降,符合疫情影響下的旅客出行需求變化規(guī)律。 (2)1年之中,1—2月春運期間的探親客流占比顯著提升,與春節(jié)傳統(tǒng)習(xí)俗相符;五一假期、十一假期及暑期期間旅游客流占比顯著提升,與旅客出游季節(jié)相符;其他時期,尤其是年底期間公務(wù)客流占比較高,符合生活經(jīng)驗。 (3)2020年2—4月疫情較嚴(yán)重期間,公務(wù)、旅游客流受影響最大,占比顯著下降;剩下的鐵路客流以剛需探親(返程)為主;4月之后,全國疫情不斷反復(fù),旅游客流因此也維持在較低比例。直至“十一”長假,疫情全面好轉(zhuǎn),旅客“報復(fù)性出游”,旅游客流占比達(dá)到40%;5月起公務(wù)客流快速回升,并維持在35%~40%左右。 (4)對比不同客流結(jié)構(gòu)在不同時期的占比表現(xiàn)可以發(fā)現(xiàn),疫情對不同類型客流影響程度不同:探親客流出行是“剛需”出行,受疫情影響相對較??;旅游客流最敏感,受疫情影響最大;公務(wù)客流受疫情影響后恢復(fù)速度最快。 可以看出,基于旅客年度出行鏈拓?fù)浣Y(jié)構(gòu)的客流結(jié)構(gòu)劃分與實際出行習(xí)慣基本相符,能夠較好地反映旅客出行目的?;诓煌土鹘Y(jié)構(gòu)所展現(xiàn)的不同特性,可以為管理部門靈活調(diào)整運力提供了輔助決策支撐。旅客年度出行特征分析體系的建立,為鐵路管理部門深入了解旅客需求與市場動態(tài)提供了良好的分析手段和技術(shù)支撐。 除客流結(jié)構(gòu)成分劃分外,基于常住地與行程環(huán)的年度出行特征分析體系在許多重要的鐵路客運日常工作中可以起到良好的應(yīng)用效果。借助旅客的常住地與行程環(huán),可以判斷高峰期旅客的越站乘車風(fēng)險,從而實現(xiàn)高峰期列車的超員預(yù)警,保障列車行車安全;借助旅客常住地的遷移和出行城市的變化,可以對未來不同地區(qū)的客流需求量變化進(jìn)行預(yù)測,從而為構(gòu)建車、時、價相協(xié)調(diào)的市場化定價機制提供助力,提質(zhì)增效;通過分析旅客出行習(xí)慣的變化,可以對列車折扣票實施效果進(jìn)行深入評價,為客運管理部門精準(zhǔn)施策提供輔助參考。在許多傳統(tǒng)客運營銷手段表現(xiàn)得差強人意的場景中,年度出行特征分析體系能夠為管理部門解決問題提供新角度、新思路,使客運管理部門能夠更加準(zhǔn)確、深入地把握旅客需求,從而提升產(chǎn)品服務(wù)能力,最大化能力運用效率。 未來,基于年度行為特征分析體系可進(jìn)一步深入探索挖掘旅客真實出行需求的方法與手段,拓展在客運市場化營銷工作中的潛在應(yīng)用場景,輔助客運管理部門了解旅客出行習(xí)慣,捕捉客運市場變化趨勢,實現(xiàn)面向旅客的客運服務(wù)質(zhì)量升級與個性化客運產(chǎn)品優(yōu)化。 (1)為研究旅客出行特征規(guī)律,提出旅客常住地、行程環(huán)、出行鏈拓?fù)浣Y(jié)構(gòu)等概念,構(gòu)建能夠全面覆蓋旅客全年出行行為中所有點(到發(fā)城市)、線(單次行程)、面(出行鏈拓?fù)浣Y(jié)構(gòu))的鐵路旅客群體年度出行特征分析體系。 (2)基于隨機森林算法構(gòu)建旅客常住地識別模型,經(jīng)數(shù)據(jù)訓(xùn)練并優(yōu)化后,能夠根據(jù)旅客全年行程數(shù)據(jù),準(zhǔn)確判斷其在該年度的唯一常住地。 (3)在明確出行鏈性質(zhì)的基礎(chǔ)上,構(gòu)建基于常住地特征的改進(jìn)DBSCAN 基本元聚類模型。統(tǒng)計2019年2萬份年度鐵路行程數(shù)據(jù),證實改進(jìn)模型對行程環(huán)的識別準(zhǔn)確率大幅提升,達(dá)到97.4%,且識別結(jié)果符合實際工作經(jīng)驗。 (4)根據(jù)2019年旅客鐵路行程數(shù)據(jù),得到旅客行程環(huán)與出行鏈的拓?fù)浣Y(jié)構(gòu),結(jié)合工作經(jīng)驗可知拓?fù)浣Y(jié)構(gòu)及占比均符合實際工作經(jīng)驗,能夠?qū)⒙每碗s亂的出行軌跡高效劃分與歸集。從行程環(huán)來看,當(dāng)年常住地的同城或往返行程環(huán)占比達(dá)75.3%;絕大多數(shù)旅客的出行目的地單一,超95%的旅客鐵路年內(nèi)出行次數(shù)不超過4次;從出行鏈來看,當(dāng)年多數(shù)鐵路旅客為單常住地散射狀出行或雙城間頻繁出行,占比72.4%。 (5) 利用旅客年度出行特征分析體系分析2019~2020年全部鐵路行程數(shù)據(jù),證實這一體系得到的客流結(jié)構(gòu)劃分結(jié)果與實際出行習(xí)慣基本相符,能夠?qū)鹘y(tǒng)復(fù)雜的客流結(jié)構(gòu)識別問題簡化拆分,對旅客出行目的進(jìn)行判斷和識別。該分析體系可為相關(guān)管理部門挖掘旅客出行需求、靈活調(diào)整運力提供輔助決策支撐。3.5 行程環(huán)與出行鏈拓?fù)浣Y(jié)構(gòu)
4 模型結(jié)果應(yīng)用
4.1 鐵路客流成分結(jié)構(gòu)劃分
4.2 實例分析
4.3 應(yīng)用拓展及展望
5 結(jié) 論