程小云,張學(xué)宇,薛順然,王建軍
基于多維屬性的軌道交通出行行為分類方法
程小云1,2,張學(xué)宇1,2,薛順然3,王建軍1,2
(1. 長安大學(xué),運輸工程學(xué)院,西安 710064;2. 長安大學(xué),生態(tài)安全屏障區(qū)交通網(wǎng)設(shè)施管控及循環(huán)修復(fù)技術(shù)交通運輸行業(yè)重點實驗室,西安 710064;3. 長安大學(xué),公路學(xué)院,西安 710064)
為了深入挖掘軌道交通乘客出行多樣性,全面掌握不同群體的出行時空規(guī)律,本文利用西安市2017年4月AFC一票通和一卡通的刷卡數(shù)據(jù),基于兩類群體不同時間(工作日、雙休日和節(jié)假日)的客流統(tǒng)計特征,重點針對一卡通用戶,構(gòu)建了全面表征軌道交通乘客多維出行特征的指標(biāo)體系。采用GMM算法對工作日出行乘客進(jìn)行聚類分析,得到5類軌道出行典型群體,探討了不同群體的行為動力學(xué)特征。結(jié)果表明,本文提出的分類方法既能兼顧已有的出行強度分類效果,更能發(fā)掘如線路利用熵值等其他維度上軌道出行特征的差異性。引入行為動力學(xué)分析深入剖析了乘客出行的內(nèi)在機理,表明群體層面軌道出行呈現(xiàn)“強陣發(fā)、弱記憶”的特征;出行穩(wěn)定群體出行時間間隔呈現(xiàn)“非冪律非指數(shù)”狀態(tài),且該群體出行時間間隔的“胖尾”特征和隨機性相對于隨機出行群體和偶發(fā)出行群體均不顯著。研究結(jié)論有助于發(fā)掘軌道出行多樣性,把握時空規(guī)律,為優(yōu)化城市軌道交通運營管理、制定具體運營管理方案提供理論依據(jù)和數(shù)據(jù)支撐。
城市軌道交通;出行特征;多維屬性;GMM算法;行為動力學(xué)
隨著人們生活水平的不斷提高和軌道交通的快速發(fā)展,城市軌道交通運營管理中暴露出諸多問題,如網(wǎng)絡(luò)客流時空分布不均衡,高峰期換乘站乘客站臺候車時間過長[1,2]等,因此,深入分析城市軌道交通乘客出行規(guī)律是科學(xué)制定運營方案的必要前提。自動售檢票(Automatic Fare Collection,AFC)系統(tǒng)詳細(xì)記錄了每位乘客在軌道交通網(wǎng)絡(luò)中出行起訖點的時空信息,具有數(shù)據(jù)量大、結(jié)構(gòu)簡單等特點[3,4],已成為研究城市軌道交通問題的重要數(shù)據(jù)源,可為有效地從微觀和宏觀層面挖掘出行時空規(guī)律提供數(shù)據(jù)基礎(chǔ)。
基于刷卡數(shù)據(jù)分析公共交通乘客出行的研究關(guān)鍵點是特征指標(biāo)量化和分類算法。國內(nèi)外已有研究多從出行時間、空間、強度等維度對乘客出行特征進(jìn)行刻畫[5],如利用出行起點[6]、出行路徑和站點[7]、通勤距離[8,9]等指標(biāo)表征出行空間維度屬性;采用平均出行耗時[3]、出發(fā)時間[6]、出行時間[7]、平均旅程時間和首次出發(fā)時間[8]等指標(biāo)描述軌道乘客出行時間維度屬性;軌道使用強度屬性用一定時段內(nèi)的出行次數(shù)[10]、平均出行次數(shù)和出行天數(shù)[11]等指標(biāo)表征。此外,針對具體問題,研究者提出了站點序列相似性度和卡類型[4]等反映其他維度屬性特征的指標(biāo)。分類算法是決定能否有效區(qū)分用戶群體的另一關(guān)鍵問題。在考慮屬性特征指標(biāo)分布和研究問題的基礎(chǔ)上,已有研究采用DBSCAN算法[6,7]、GMM(Gaussian mixture model)算法[8]、OPTICS算法[12]、k-means ++算法[7,13]和k-means算法[11,14]對城市軌道交通用戶進(jìn)行分類,得到了豐富的細(xì)分軌道交通用戶群體的分類方法,結(jié)合定性分析刻畫軌道交通出行的多樣性。然而,由于研究者采用的指標(biāo)體系均不相同,軌道乘客分類結(jié)果往往側(cè)重不同的出行特征,尚無全面、統(tǒng)一的劃分標(biāo)準(zhǔn)。其次,對于一卡通與一票通兩種不同的票制,其數(shù)據(jù)特征顯著不同,應(yīng)分別討論。
本文利用一卡通和一票通數(shù)據(jù)分別分析了工作日、雙休日和節(jié)假日的城市軌道交通客流時空分布特征,在已有研究的基礎(chǔ)上從多維度屬性提出了出行天數(shù)、日均出行次數(shù)、出行集中度、出行時耗和線路利用熵值5個乘客出行特征指標(biāo),采用GMM算法對工作日乘客進(jìn)行挖掘,以期全面細(xì)分居民對軌道交通使用的多樣性,并引入行為動力學(xué)分析方法,深度挖掘各類乘客出行行為的時間動力學(xué)特征及形成機制。
本文采用西安市2017年4月AFC的一卡通和一票通數(shù)據(jù),其中一卡通為西安長安通支付有限責(zé)任公司發(fā)售的智能儲值性交通卡,一票通是乘客進(jìn)站時在自動售票機或人工售票處購買的一次性單程車票。原始AFC數(shù)據(jù)字段包括交易時間、交易類型、交易車站、線路、進(jìn)站車站、設(shè)備編號、交易金額和卡號,如表1所示。
表1 乘客出站數(shù)據(jù)
Tab.1 Passenger alighting data
注:交易金額270表示實際支付2.7元。
為了從進(jìn)站和出站數(shù)據(jù)中提取乘客在軌道交通線網(wǎng)中完整和有效的出行起訖點,先依據(jù)卡號和進(jìn)站車站一致性原則進(jìn)行數(shù)據(jù)匹配,再剔除異常值最終得到完整的乘客有效出行數(shù)據(jù),具體處理過程如圖1所示。其中,異常數(shù)據(jù)包括出行時耗超過實際最大出行時耗(150 min為閾值)和進(jìn)出車站相同等情況。對西安市4月乘客出行數(shù)據(jù)進(jìn)行匯總統(tǒng)計如表2所示,其中日均有效數(shù)據(jù)量為最終得到數(shù)據(jù)的統(tǒng)計值。表3為有效乘客出行數(shù)據(jù)實例。
表2c西安市4月乘客出行統(tǒng)計信息
Tab.2 Statistics information of passenger travel in Xi’an in April 2017
圖1 數(shù)據(jù)處理流程
表3 有效乘客出行數(shù)據(jù)實例
Tab.3 Samples of valid passenger travel data
截止2017年4月,西安市已開通運營的地鐵線為1、2、3號線,共63個車站(包括3座換乘站),全長91.35 km。其中1號線為東西走向骨干線,全長25.4 km,設(shè)車站19座;2號線為南北走向骨干線,全長26.8 km,設(shè)車站21座;3號線“L”形走向骨干線,全長39.15 km,設(shè)車站26座。
本文研究時段包含19個工作日、8個雙休日和3個節(jié)假日(清明節(jié))。首先對一卡通和一票通用戶在不同時間(工作日、雙休日和節(jié)假日)的出行頻率與出行時耗進(jìn)行統(tǒng)計描述(如圖2和3所示),以初步了解西安市兩類不同票制用戶的出行時間規(guī)律。
圖2 不同研究日期出行時間頻率分布
圖3 不同研究日期出行時耗頻率分布
由圖2(a)可知,工作日一卡通乘客出行頻率呈現(xiàn)典型早晚雙峰結(jié)構(gòu),且早高峰大于晚高峰;一票通乘客的出行頻率則隨著時間的變化呈現(xiàn)上升趨勢,在晚高峰達(dá)到最大值。對于中間時段乘客出行的相對活躍度,一票通乘客明顯高于一卡通乘客。圖2(b)表示,雙休日期間一卡通乘客出行頻率仍具有明顯的早晚高峰,但晚高峰較大;一票通乘客出行頻率隨著時間逐漸增大,下午時段均在較高值,之后下降。由圖2(c)可知,節(jié)假日期間兩類用戶的出行時間分布規(guī)律與雙休日相似。
圖3為不同研究日期出行時耗頻率分布,從中可知工作日、雙休日和節(jié)假日出行時耗分布趨勢大致相同,有明顯的“拖尾”現(xiàn)象,但此類乘客占總體乘客比例不高。一卡通乘客出行時耗大約集中在20 min左右,一票通乘客出行時耗相對于一卡通乘客較長。
結(jié)合已有研究和上述客流分布特征,從多維屬性構(gòu)建乘客出行特征指標(biāo),具體包括出行天數(shù)、日均出行次數(shù)、出行集中度、出行時耗和線路利用熵值5個指標(biāo),如表4所示。
表4 乘客出行特征指標(biāo)
Tab.4 Index of passenger travel characteristics
(2)出行時耗和出行距離近似成線性關(guān)系,選用出行時耗作為出行距離的代替指標(biāo)可用于刻畫乘客的空間活動范圍[5];
為了深入挖掘不同乘客群體在出行行為上的相似性,本文采用高斯混合模型(GMM)聚類方法對軌道交通乘客進(jìn)行聚類。GMM的每個高斯分布概率計算如下:
求解GMM最常用的參數(shù)估計算法是最大期望法(EM),具體步驟如下:
(1)E-step
(2)M-step
重復(fù)上述兩個步驟,直到算法收斂。GMM算法的聚類結(jié)果容易受到高斯模型數(shù)量影響。因此本文引入Calinski-Harabasz分?jǐn)?shù)來評價聚類效果[16],以確定最優(yōu)的聚類結(jié)果。Calinski- Harabaz分?jǐn)?shù)的計算公式如下:
本文基于Scikit-Learn的GMM算法對工作日乘客出行數(shù)據(jù)(共3 019 568人)進(jìn)行聚類,取Calinski-Harabaz分?jǐn)?shù)最大時的乘客聚類數(shù)最終將工作日乘客分為五類,各類別乘客聚類中心如表5所示。為了直觀理解每類群體的出行特征,采用雷達(dá)圖可視化各類乘客出行特征的聚類中心分布,如圖4所示。
表5 不同類別乘客聚類中心及占比
Tab.5 Clustering centers and proportion of different types of passengers
圖4 不同類別乘客聚類中心
(1)第1類乘客表現(xiàn)為出行強度大(出行天數(shù)為10.83天,日均出行次數(shù)為1.61次)、出行時段多峰性(出行集中度為0.44)、出行時間長(出行時耗為24.60 min)、線路利用程度較高(線路利用熵值為0.85)的特征,表明這類乘客對城市軌道交通忠誠度較高,將此類乘客定義為穩(wěn)定出行乘客。
(2)第2類乘客的出行天數(shù)相對較低(2.49天),但日均出行次數(shù)相對較高(1.62次),說明該乘客在工作日期間隨機選擇軌道交通進(jìn)行出行,其線路利用熵值較高(1.03),該類乘客對于城市軌道交通的靈活度相對適中,使用多條軌道交通出行,所以可定義為隨機多線出行乘客。
(3)第3類乘客的出行天數(shù)、出行次數(shù)和出行集中度與第2類乘客類似,但其線路利用熵值約為0,說明只使用了單一軌道交通線路,無換乘時間,因此出行時耗相對于第2類乘客也較低,所以可將其定義為隨機單線出行乘客。
(4)第4類乘客的出行天數(shù)相對于前幾類乘客最低(1.09天),且日均出行次數(shù)為1.00次,說明該類乘客對于城市軌道交通忠誠度最低,在工作日期間只有極少數(shù)情況下才會選擇城市軌道交通出行;由于出行往往是單日單次進(jìn)行,出行集中度也接近于1,但線路利用熵值較高(1.00),所以可將此類乘客定義為偶發(fā)多線出行乘客。
(5)第5類乘客的出行也具有偶發(fā)性,具有單日單次出行的特點,與第4類乘客不同的是其線路利用熵值約為0,所以可將此類乘客定義為偶發(fā)單線出行乘客。
人類行為動力學(xué)的提出,為由人的行為驅(qū)動的復(fù)雜系統(tǒng)的各類現(xiàn)象提供了新視角和新解釋,挖掘人類多次從事某特定事件表現(xiàn)的時間上的統(tǒng)計規(guī)律[17]。為了更加深入理解城市軌道交通出行乘客的出行規(guī)律,本文提取一個月的地鐵出行記錄,分析五類出行群體相鄰兩次出行的時間間隔分布,進(jìn)行冪律和指數(shù)擬合[18],并引入陣發(fā)性和記憶性指標(biāo)定量刻畫時間間隔分布,且這兩個指標(biāo)不需要先驗假設(shè)時間間隔分布滿足某種特定的函數(shù)形式。計算公式如下:
使用行為動力學(xué)方法,對五類出行群體出行時間間隔進(jìn)行分析,計算結(jié)果如表6所示,分別繪制出行群體出行時間間隔的冪律擬合和指數(shù)擬合圖,如圖5所示。
5.2.1 曲線擬合分析
第1類乘客為穩(wěn)定出行群體,其出行時間間隔分布用冪律擬合或指數(shù)擬合效果較差,呈現(xiàn)“非冪律非指數(shù)”狀態(tài),表明穩(wěn)定出行群體的出行時間間隔“胖尾”特征和隨機性均不顯著,即使在全樣本下,該類乘客的“特性”通過疊加也能凸顯出來。從圖5可以看出,穩(wěn)定出行群體的出行時間間隔存在幾個高頻次的聚集區(qū)間,主要聚集在600 min(10h)、840 min(14h)和1440 min(24 h)附近。通常符合早出晚歸通勤模式的乘客,其出行時間往往在8:00和18:00左右,時間間隔恰好為600 min(10 h)與840 min(10 h),由此說明第1類乘客大量為早出晚歸的通勤乘客。校核原始數(shù)據(jù),出行時間間隔聚集在1440 min(24 h)的原因在于乘客出行時間段內(nèi)一天只利用軌道交通出行一次。
表6 出行群體行為動力學(xué)計算結(jié)果
第2類乘客、第3類乘客、第4類乘客和第5類乘客的出行相對不穩(wěn)定,其出行時間間隔分布的指數(shù)擬合效果比冪律擬合效果相對較好,呈現(xiàn)“強指數(shù)弱冪律”狀態(tài),表明出行相對不穩(wěn)定群體的軌道交通出行時間間隔服從泊松分布,具有隨機性;在大樣本背景下,個體的“棱角”被磨平,驗證了上述聚類方法的合理性。但這幾類出行群體出行時間間隔的高頻次聚集區(qū)間相對不顯著,所以冪律擬合效果優(yōu)于第1類乘客。且從圖5也可以看出,這幾類乘客出行時間間隔仍具有“胖尾”特征。
圖5 出行群體出行時間間隔曲線擬合
Fig.5 Curve fitting of travel time interval for travel groups
5.2.2 陣發(fā)性和記憶性
由表6可以看出,五類出行群體軌道交通出行時間間隔分布均具有“強陣發(fā)弱記憶”的特性。陣發(fā)性強說明各出行群體中存在部分遠(yuǎn)大于均值的時間間隔,弱記憶性表明大數(shù)據(jù)情況下個體層面的記憶規(guī)律被掩蓋,導(dǎo)致群體層面的時間間隔分布整體呈現(xiàn)較弱的記憶性。
本文利用西安市4月軌道交通刷卡數(shù)據(jù),首先分析了不同日期(工作日、雙休日和節(jié)假日)乘客出行時間和出行時耗的分布特征;其次,從乘客出行的多維屬性構(gòu)建了全面刻畫軌道交通出行特征的指標(biāo)體系;采用GMM算法對工作日乘客進(jìn)行分類,得到5類典型用戶群體;最后對所得的用戶群體進(jìn)行時間行為動力學(xué)分析。該分類結(jié)果不僅與已有的基于出行強度指標(biāo)(出行天數(shù)和日均出行次數(shù))劃分乘客類型的分析結(jié)果[5,11]一致,更能體現(xiàn)不同乘客對城市軌道交通使用的靈活度,同時分析行為動力學(xué)特征可以深入理解不同群體乘客出行的內(nèi)在機理,證實了群體層面乘客出行呈現(xiàn)“強陣發(fā)、弱記憶”的特征,這與文獻(xiàn)[18]分析結(jié)果一致。但穩(wěn)定出行群體的出行時間間隔的“胖尾”特征和隨機性均相對不顯著,呈現(xiàn)“非冪律非指數(shù)”狀態(tài)。研究結(jié)論豐富和擴(kuò)展了已有軌道交通乘客分類研究,為優(yōu)化城市軌道交通運營管理,提高軌道交通利用率提供理論依據(jù)。然而,本研究仍存在一定的不足,未來研究將結(jié)合更豐富的數(shù)據(jù)源,如POI(Points of interesting)數(shù)據(jù)、手機信令數(shù)據(jù)、公交刷卡數(shù)據(jù)等,進(jìn)一步發(fā)掘并解釋乘客的出行特征。
[1] 曾志南. 基于智能交通卡數(shù)據(jù)的軌道出行乘客特征研究[C]// 共享與品質(zhì)——2018中國城市規(guī)劃年會論文集 (05城市規(guī)劃新技術(shù)應(yīng)用) . 杭州, 2018: 959-972.
[2] 陳艷艷, 陳興斌, 吳克寒, 等. 基于IC卡數(shù)據(jù)的軌道站點候車時間特征分析[J]. 重慶交通大學(xué)學(xué)報:自然科學(xué)版, 2019, 38 (1): 102-107.
[3] 龍瀛, 孫立君, 陶遂. 基于公共交通智能卡數(shù)據(jù)的城市研究綜述[J]. 城市規(guī)劃學(xué)刊, 2015 (3): 70-77.
[4] 許勝博. 基于AFC數(shù)據(jù)的地鐵乘客出行目的地實時預(yù)測[J]. 交通運輸工程與信息學(xué)報, 2019, 17 (2): 81-90.
[5] 鄒慶茹, 趙鵬, 姚向明. 基于售檢票數(shù)據(jù)的城市軌道交通乘客分類[J]. 交通運輸系統(tǒng)工程與信息, 2018, 18 (01): 223-230.
[6] LE M K, BHASKAR A, CHUNG E. Passenger segmentation using smart card data[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16 (3): 1537-1548.
[7] MA X, WU Y J, WANG Y, et al. Mining smart card data for transit riders’ travel patterns[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 1-12.
[8] JI Y J, CAO Y, LIU Y, et al. Research on classification and influencing factors of metro commuting patterns by combining smart card data and household travel survey data[J]. Iet Intelligent Transport Systems, 2019, 13 (10): 1525-1532.
[9] 賀康康, 任剛. 基于AFC數(shù)據(jù)的新建軌道交通系統(tǒng)出行距離分布特性研究[J]. 交通運輸工程與信息學(xué)報, 2018, 16 (3): 46-52.
[10] El MAHRSI M K, COME E, OUKHELLOU L, et al. Clustering smart card data for urban mobility analysis[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 8 (3): 712-728.
[11] 柳穎, 周慧娟. 城市軌道交通乘客出行行為特征分類研究[J]. 交通工程, 2019, 19 (3): 72-77.
[12] VENUGOPAL S, DIVYA D. Transit passenger segmentation based on the travel patterns mined from smart card data using Optics algorithm[J]. International Journal of Advanced Information Science and Technology, 2016, 5 (5): 49-56.
[13] 徐曉偉, 杜一, 周園春. 基于多源出行數(shù)據(jù)的居民行為模式分析方法[J]. 計算機應(yīng)用, 2017, 37 (8): 2362-2367.
[14] ZHAO J J, TIAN C, ZHANG F, et al. Understanding temporal and spatial travel patterns of individual passengers by mining smart card data[C]// IEEE International Conference on Intelligent Transportation Systems. 2014: 2991-2997.
[15] 梁泉, 翁劍成, 周偉, 等. 基于關(guān)聯(lián)規(guī)則的公共交通通勤穩(wěn)定性人群辨識[J]. 吉林大學(xué)學(xué)報: 工學(xué)版, 2019, 49 (5): 1484-1491.
[16] CALINSKI T, HARABASZ J. A Dendrite Method for Cluster Analysis[J]. Communications in Statistics. 1974, 3 (1): 1-27.
[17] 周濤, 韓筱璞, 閆小勇, 等. 人類行為時空特性的統(tǒng)計力學(xué)[J]. 電子科技大學(xué)學(xué)報, 2013, 42 (4): 481-540.
[18] 姚樹申, 翁小雄, 李飛羽. 基于時間特征行為動力學(xué)的通勤模式分析[J]. 華南理工大學(xué)學(xué)報: 自然科學(xué)版, 2019, 47 (9): 53-60.
Method of Analyzing Rail Transit Travel Behavior Based on Multidimensional Attributes
CHENG Xiao-yun1, 2, ZHANG Xue-yu1, 2, XUE Shun-ran3, WANG Jian-jun1, 2
(1. College of Transportation Engineering, Chang’an University, Xi’an 710064, China; 2. Key Laboratory of Transport Industry of Management, Control and Cycle Repair Technology for Traffic Network Facilities in Ecological Security Barrier Area, Chang’an University, Xi’an 710064, China; 3. School of Highway, Chang’an University, Xi’an 710064, China)
In this study, the statistical travel characteristics of single-ticket and one-card users on working days, weekends, and holidays were analyzed to evaluate the travel diversity of rail transit passengers and identify the temporal travel and spatial trends for different groups. The travel characteristics were obtained in Xi’an in April 2017 using automatic fare collection data. A comprehensive indicator system was developed for one-card rail transit passengers to investigate the multidimensional travel characteristics. The Gaussian mixed model algorithm was used to classify the rail passengers on working days into five distinct groups, and the corresponding characteristics of the deterministic behavior dynamics of different groups were analyzed. The results showed that the proposed classification method reflected not only the effects of the existing classification based on travel intensity but also indicated the differences among rail passengers from other dimensions, such as line utilization entropy. Next, behavioral dynamics analysis was conducted to evaluate the internal mechanism of passenger travel. It was found that the group travel of rail passengers showed strong burstiness and weak memory. Moreover, the “fat tail” characteristics and randomness of the travel-time interval for the stable group were insignificant compared to those of the random and occasional groups, which showed the state of “nonpower and nonexponential law”. The proposed method is useful for evaluating the diversity of passenger travel and temporal and spatial laws. The findings provide a theoretical basis and data support for optimizing urban rail transit operations and formulating specific operation management schemes.
urban rail transit; travel characteristics; multidimensional attributes; GMM algorithm; behavior dynamics
1672-4747(2020)04-0166-09
U239.5
A
10.3969/j.issn.1672-4747.2020.04.020
2020-05-27
陜西省自然科學(xué)基礎(chǔ)研究計劃資助項目(2019JQ-442;2019JQ-242)
程小云(1985—),女,陜西西安人,長安大學(xué)講師,研究方向為交通大數(shù)據(jù)挖掘和交通行為分析研究,E-mail:cxy@chd.edu.cn
程小云,張學(xué)宇,薛順然,等. 基于多維屬性的軌道交通出行行為分類方法[J]. 交通運輸工程與信息學(xué)報,2020, 18(4): 166-174
(責(zé)任編輯:劉娉婷)