劉哲園,孟品超
(長(zhǎng)春理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)春 130022)
乘客分類(lèi)是研究出行者群體相似性行為及規(guī)律的主要方法,乘客出行的個(gè)體特征主要體現(xiàn)在其本身的固有屬性和出行鏈中,傳統(tǒng)對(duì)乘客的分類(lèi)大多基于乘客的自身屬性,例如年齡、職業(yè)等,該分類(lèi)的前提是相似個(gè)體屬性的乘客具有相似出行行為,存在主觀性較強(qiáng)等問(wèn)題。智能卡刷卡數(shù)據(jù)(Smart Card Data,簡(jiǎn)稱(chēng)SCD)記錄了豐富的用戶(hù)出行時(shí)空信息,客觀反映了乘客的出行特征,從中挖掘乘客出行軌跡信息并建立完整出行鏈,利用出行特征對(duì)乘客進(jìn)行更準(zhǔn)確的分類(lèi),分析不同群體的總體特征,推斷該群體的出行目的,有助于政府和交通部門(mén)針對(duì)不同類(lèi)別的用戶(hù),進(jìn)行有針對(duì)性的調(diào)查以及各種運(yùn)營(yíng)和戰(zhàn)略規(guī)劃改進(jìn)。
許多學(xué)者進(jìn)行了基于SCD的用戶(hù)出行軌跡數(shù)據(jù)的挖掘與乘客分類(lèi)的研究。李軍和鄧紅平[1]基于廣州市公交車(chē)IC卡交易數(shù)據(jù),利用出行鏈推導(dǎo)出乘客的下車(chē)站點(diǎn),建立了描述單個(gè)乘客多天出行的完整數(shù)據(jù)框架。梁泉和林鵬飛等人[2]對(duì)北京市公共交通多源數(shù)據(jù)進(jìn)行關(guān)聯(lián)匹配,并提取出行鏈,采用多層規(guī)劃理論構(gòu)建了個(gè)體出行知識(shí)圖譜,提取出行天數(shù)、出行空間均衡度等7類(lèi)特征指標(biāo),以特征指標(biāo)為輸入,乘客分類(lèi)為輸出,構(gòu)建了面向公共交通乘客分類(lèi)的BP神經(jīng)元網(wǎng)絡(luò)模型。鄒慶茹和趙鵬[3]以軌道交通自動(dòng)售票數(shù)據(jù)為基礎(chǔ)構(gòu)建客觀的分類(lèi)指標(biāo),利用無(wú)監(jiān)督聚類(lèi)算法對(duì)乘客分類(lèi)。Kieu L M和Bhaskar A[4]使用澳大利亞城市火車(chē)和渡輪的交易記錄,基于密度的DBSCAN算法將乘客分為通勤乘客、出行起訖點(diǎn)穩(wěn)定型、出行時(shí)間穩(wěn)定型及不規(guī)律乘客四類(lèi)。上述研究基于乘客出行鏈構(gòu)建分類(lèi)指標(biāo)對(duì)乘客分類(lèi),均是將乘客全部出行特征放到一起考慮,沒(méi)有對(duì)出行強(qiáng)度與時(shí)空特征分層次討論。
鑒于以往研究中存在的不足,對(duì)地鐵刷卡數(shù)據(jù)進(jìn)行整理和挖掘,在建立用戶(hù)出行鏈的基礎(chǔ)上提取用戶(hù)的個(gè)體出行特征,分層考慮出行強(qiáng)度與時(shí)空特征,利用二階聚類(lèi)算法實(shí)現(xiàn)乘客的分類(lèi),并分析不同群體的整體出行規(guī)律,識(shí)別乘客群體,框架流程圖如圖1所示。
圖1 框架流程圖
研究數(shù)據(jù)來(lái)源為杭州市2019年1月7日至11日五個(gè)工作日的地鐵刷卡數(shù)據(jù),五個(gè)工作日內(nèi)有1 514 086位乘客進(jìn)行了約1 000萬(wàn)次刷卡,每條刷卡數(shù)據(jù)包括以下字段:用戶(hù)ID、刷卡時(shí)間、線路名稱(chēng)、站點(diǎn)編號(hào)、進(jìn)出站狀態(tài)(1代表進(jìn)站,0代表出站)。
原始刷卡數(shù)據(jù)量龐大,存在一些不完整、時(shí)間不合理的記錄,首先對(duì)數(shù)據(jù)進(jìn)行清洗,得到完整有效的刷卡數(shù)據(jù)。數(shù)據(jù)清洗規(guī)則如下:
(1)根據(jù)同一卡號(hào)出現(xiàn)奇偶性來(lái)判斷數(shù)據(jù)完整性,同一卡號(hào)出現(xiàn)奇數(shù)次說(shuō)明持卡人刷卡數(shù)據(jù)不完整,刪除該條記錄。
(2)同一卡號(hào)出現(xiàn)偶數(shù)次,需要判斷進(jìn)出站刷卡時(shí)間和進(jìn)出站順序是否吻合,出站刷卡時(shí)間要晚于進(jìn)站刷卡時(shí)間,否則為異常數(shù)據(jù),刪除該條記錄。
(3)計(jì)算進(jìn)出站刷卡時(shí)間間隔,刪除進(jìn)出站刷卡時(shí)間間隔大于180分鐘的記錄。
(4)乘車(chē)有效性檢驗(yàn),乘客從同一站點(diǎn)進(jìn)出的數(shù)據(jù)為乘車(chē)無(wú)效數(shù)據(jù),杭州市地鐵的運(yùn)營(yíng)時(shí)間為5:30—23:00,其他時(shí)間段的刷卡數(shù)據(jù)為無(wú)效數(shù)據(jù),刪除無(wú)效記錄。
依據(jù)此規(guī)則完成五個(gè)工作日數(shù)據(jù)的清洗,得到完整有效的刷卡數(shù)據(jù)。
要研究用戶(hù)的出行規(guī)律,首先要從單個(gè)刷卡記錄中重建用戶(hù)的完整出行鏈。清洗后得到的刷卡數(shù)據(jù)記錄的是每張卡的每一次刷卡記錄,通過(guò)整合多天的數(shù)據(jù),將每張卡的刷卡記錄提取出來(lái),以卡號(hào)為連接匹配同日期的進(jìn)出站刷卡數(shù)據(jù),建立每位乘客指定時(shí)期內(nèi)的出行鏈。表1是一位乘客五個(gè)工作日內(nèi)的完整出行鏈。
表1 乘客完整出行鏈?zhǔn)纠?/p>
出行鏈體現(xiàn)了乘客豐富的個(gè)體特征,在得到用戶(hù)出行鏈的基礎(chǔ)上,從出行強(qiáng)度、時(shí)間、空間三個(gè)方面選取分類(lèi)指標(biāo)對(duì)乘客分類(lèi),分類(lèi)指標(biāo)如表2所示。
表2 分類(lèi)指標(biāo)
出行強(qiáng)度刻畫(huà)了乘客對(duì)地鐵的使用頻率。不同人群對(duì)地鐵出行的依賴(lài)性是不同的,選擇乘客的周出行天數(shù)D和日均出行次數(shù)δ作為出行強(qiáng)度分類(lèi)指標(biāo),分別衡量乘客一周內(nèi)對(duì)地鐵的使用頻率和日均使用頻率。
時(shí)間特征選擇工作日首次出行時(shí)間T和工作日首次出行時(shí)間標(biāo)準(zhǔn)差S作為分類(lèi)指標(biāo)。出行時(shí)間反映乘客出行時(shí)間規(guī)律,以此能夠判斷乘客的類(lèi)型,例如通勤類(lèi)乘客會(huì)在早高峰時(shí)間段乘坐地鐵。為方便計(jì)算,將出行時(shí)間轉(zhuǎn)換為分鐘數(shù),用首次出發(fā)時(shí)間中位數(shù)表示首次出行時(shí)間。出行時(shí)間標(biāo)準(zhǔn)差度量了乘客出行時(shí)間的穩(wěn)定性。
空間特征選擇OD覆蓋率?和乘車(chē)時(shí)長(zhǎng)標(biāo)準(zhǔn)差ω作為分類(lèi)指標(biāo)。出行鏈記錄了乘客每次出行的進(jìn)站站點(diǎn)(O)和出站站點(diǎn)(D),合并得到每次出行的OD對(duì),OD覆蓋率是指出行OD對(duì)數(shù)與總出行次數(shù)的比值,OD覆蓋率越小,乘客的空間穩(wěn)定性越高,乘車(chē)時(shí)長(zhǎng)標(biāo)準(zhǔn)差判斷乘客每次出行乘車(chē)時(shí)長(zhǎng)的波動(dòng),是對(duì)出行穩(wěn)定性很好的補(bǔ)充。
定義乘客的出行強(qiáng)度特征為x=(D,δ),利用二階聚類(lèi)算法根據(jù)出行強(qiáng)度對(duì)乘客聚類(lèi)。第一階段建立聚類(lèi)特征樹(shù),將乘客聚集成諸多小簇,樹(shù)的各節(jié)點(diǎn)由聚類(lèi)特征構(gòu)成,以表示乘客信息;第二階段將得到的小簇再聚類(lèi),得到期望的聚類(lèi)數(shù)量。
2.1.1 聚類(lèi)特征(CF)的計(jì)算
簇C中含有N個(gè)乘客,其出行強(qiáng)度特征為x1,…,xN,乘客個(gè)體特征xi=(Di,δi),i=1,…,N,若x1,…,xN構(gòu)成一個(gè)簇,定義該簇總體特征:
那么,該簇的聚類(lèi)特征可用CF表示,CF=(N,Λ,Ω)。以這些聚類(lèi)特征為節(jié)點(diǎn)構(gòu)建聚類(lèi)特征樹(shù),可對(duì)乘客進(jìn)行分類(lèi)。
2.1.2 聚類(lèi)特征樹(shù)
聚類(lèi)特征樹(shù)包含三個(gè)參數(shù),第一個(gè)是每個(gè)內(nèi)部節(jié)點(diǎn)的最大CF數(shù)(枝平衡因子),第二個(gè)是每個(gè)葉節(jié)點(diǎn)的最大CF數(shù)(葉平衡因子),第三個(gè)是閾值τ。聚類(lèi)特征樹(shù)的建立以所有乘客為數(shù)據(jù)集,從中讀取第一個(gè)乘客的聚類(lèi)特征作為根節(jié)點(diǎn),然后逐個(gè)插入乘客的聚類(lèi)特征,計(jì)算新乘客與現(xiàn)有節(jié)點(diǎn)的簇間距離,如果簇間距離d(Ci,Cj)≤τ,將新乘客與現(xiàn)有進(jìn)行合并生成新結(jié)點(diǎn),否則產(chǎn)生一個(gè)新的分支,當(dāng)分支數(shù)大于枝平衡因子或葉平衡因子時(shí),就將上一層節(jié)點(diǎn)分裂,如此遞推歸納直到所有乘客都被添加到聚類(lèi)特征樹(shù)。簇間距離采用對(duì)數(shù)似然距離,計(jì)算公式為:
其中,Γi,Γj分別為簇i和j的似然函數(shù)值。設(shè)簇Cj中有Nj個(gè)乘客 {xjn,n=1,…,Nj}:
式中,σs2表示數(shù)據(jù)集中所有乘客在第s個(gè)特征下的方差,由于數(shù)據(jù)集不變,因此σs2可視為常量。一個(gè)簡(jiǎn)單的樹(shù)結(jié)構(gòu)如圖2所示。
圖2 聚類(lèi)特征樹(shù)結(jié)構(gòu)圖
生成聚類(lèi)特征樹(shù)的同時(shí),預(yù)先聚類(lèi)密集區(qū)域的數(shù)據(jù)點(diǎn),形成諸多小的子簇,為第二階段聚類(lèi)做準(zhǔn)備。
該階段對(duì)樹(shù)中葉節(jié)點(diǎn)的子簇再次進(jìn)行聚類(lèi)。首先合并N個(gè)子簇中距離最近的一對(duì),得到N-1個(gè)簇,然后合并剩下N-1個(gè)簇中距離最近的一對(duì),重復(fù)實(shí)施此操作,直到把所有子簇合并成一個(gè)大簇,得到簇?cái)?shù)為1的聚類(lèi),最后從這N個(gè)聚類(lèi)中輸出期望簇?cái)?shù)的聚類(lèi),完成乘客聚類(lèi)。聚類(lèi)數(shù)目可以指定,在不主觀指定聚類(lèi)數(shù)目時(shí),根據(jù)BIC準(zhǔn)則自動(dòng)選擇最優(yōu)的聚類(lèi)數(shù),BIC值越小的模型越優(yōu)秀。對(duì)于聚類(lèi)J={C1,…,CJ},BIC值由公式(7)計(jì)算得到:
其中,mJ為參數(shù)個(gè)數(shù);N為聚類(lèi)J中乘客總數(shù)。
在出行強(qiáng)度初始聚類(lèi)階段,指定聚類(lèi)數(shù)目為3,聚類(lèi)結(jié)果如表3所示。
表3 乘客初始聚類(lèi)結(jié)果
乘客聚類(lèi)結(jié)果顯示,三類(lèi)乘客在工作日的出行天數(shù)與日均刷卡次數(shù)存在明顯差異。五個(gè)工作日中,類(lèi)別一的出行天數(shù)為1.33天,日均刷卡次數(shù)為1次,對(duì)地鐵的使用強(qiáng)度較低,在總出行人數(shù)中占比為43.9%。類(lèi)別二的周出行天數(shù)為1.52天,日均刷卡次數(shù)為2次,對(duì)地鐵的使用強(qiáng)度介于類(lèi)別一與類(lèi)別三之間,占總出行人數(shù)的35.8%。類(lèi)別三的周出行天數(shù)達(dá)到4.6天,日均刷卡次數(shù)為1.8次,對(duì)地鐵的使用強(qiáng)度較高,在總出行人數(shù)中占比20.3%。因此可以定義三個(gè)類(lèi)別乘客為低頻乘客(類(lèi)別一)、中頻乘客(類(lèi)別二)和高頻乘客(類(lèi)別三)。
由圖3可以看到,乘客的出行規(guī)律總體上呈現(xiàn)正態(tài)分布,從左到右分別為類(lèi)別一、類(lèi)別二、類(lèi)別三。低頻乘客與中頻乘客的出行天數(shù)沒(méi)有太大的差異,出行一天的乘客更多被劃分在低頻,區(qū)分這兩類(lèi)乘客的主要標(biāo)志為日均刷卡次數(shù),中頻乘客的日均刷卡次數(shù)多于低頻乘客,劃分高頻乘客的主要依據(jù)是出行天數(shù),這類(lèi)乘客出行天數(shù)明顯多于前兩類(lèi)。
圖3 三類(lèi)乘客的周出行天數(shù)與日均刷卡次數(shù)分布圖
乘客的出行通常具有一定的規(guī)律性,出行的規(guī)律性主要體現(xiàn)在出行時(shí)間與空間上,不同出行群體會(huì)有不同的時(shí)空特征以及出行穩(wěn)定性,比如通勤者往往會(huì)在早高峰上班,晚高峰下班,并往返于固定的工作地與居住地站點(diǎn),具有較高的出行穩(wěn)定性。在出行強(qiáng)度聚類(lèi)的基礎(chǔ)上,依據(jù)乘客的出行時(shí)空特征對(duì)低頻、中頻和高頻乘客分別再聚類(lèi)以細(xì)分乘客群體。
出行時(shí)空特征包括首次出行時(shí)間T、首次出行時(shí)間標(biāo)準(zhǔn)差S、OD覆蓋率?和乘車(chē)時(shí)長(zhǎng)標(biāo)準(zhǔn)差ω,定義乘客的時(shí)空特征y=(T,S,?,ω)。根據(jù)乘客時(shí)空特征計(jì)算聚類(lèi)特征CF以及簇間距離d(Ci,Cj),按照2.1.2節(jié)步驟建立聚類(lèi)特征樹(shù)將乘客聚成諸多小簇,對(duì)得到的諸多小簇再次進(jìn)行聚類(lèi),根據(jù)BIC準(zhǔn)則自動(dòng)確定最優(yōu)的聚類(lèi)數(shù),輸出乘客聚類(lèi)結(jié)果。
對(duì)低頻乘客再聚類(lèi),將低頻人群依據(jù)時(shí)空特征分為兩類(lèi)。聚類(lèi)結(jié)果如表4所示。其中,為方便計(jì)算,將出行時(shí)間轉(zhuǎn)換為分鐘數(shù)表示。
表4 低頻乘客聚類(lèi)結(jié)果
第一、二類(lèi)乘客在低頻人群中所占比例分別為22.7%和77.3%,他們的周出行天數(shù)為1.33天,日均刷卡次數(shù)約為1次。乘客出行時(shí)間分布圖和OD覆蓋率分布圖如圖4、圖5所示。
圖4 第一、二類(lèi)乘客首次出發(fā)時(shí)間
圖5 第一、二類(lèi)乘客OD覆蓋率分布圖
第一類(lèi)乘客首次出發(fā)時(shí)間分散在全天各時(shí)間段,出發(fā)時(shí)間標(biāo)準(zhǔn)差較大,OD覆蓋率分布較分散。該類(lèi)乘客出行時(shí)空穩(wěn)定性較弱,結(jié)合其低頻出行強(qiáng)度,將他們定義為短期低頻類(lèi)乘客,可能是旅游出行乘客或偶然出行乘客。
第二類(lèi)乘客首次出發(fā)時(shí)間分布在全天各時(shí)間段,與第一類(lèi)乘客相比存在較為明顯的早晚高峰,首次出發(fā)時(shí)間標(biāo)準(zhǔn)差較小,由于出行次數(shù)只有一次所以O(shè)D覆蓋率取值為1。該類(lèi)乘客出行時(shí)空較為固定,定義為特定出行目的乘客,這類(lèi)特定的出行目的頻率較低,基本符合一周一次,例如學(xué)生補(bǔ)課、探望親友等。
對(duì)中頻乘客再聚類(lèi),將中頻人群依據(jù)時(shí)空特征分為四類(lèi)。聚類(lèi)結(jié)果如表5所示。其中,為方便計(jì)算,將出行時(shí)間轉(zhuǎn)換為分鐘數(shù)表示。
表5 中頻乘客聚類(lèi)結(jié)果
第三、四、五、六類(lèi)乘客在中頻人群中所占比例分別為16.3%、24.9%、23.9%和34.8%,他們的周出行天數(shù)為1.52天,日均刷卡次數(shù)約為2次。乘客出行時(shí)間分布圖和OD覆蓋率分布圖如圖6、圖7所示。
圖6 第三、四、五、六類(lèi)乘客首次出發(fā)時(shí)間
圖7 第三、四、五、六類(lèi)乘客OD覆蓋率分布圖
第三類(lèi)乘客首次出行時(shí)間標(biāo)準(zhǔn)差大,出發(fā)時(shí)間分散,沒(méi)有明顯趨勢(shì),OD覆蓋率中心0.74取值較大。該類(lèi)乘客出行時(shí)空穩(wěn)定性弱,結(jié)合中頻出行強(qiáng)度可以認(rèn)為該類(lèi)乘客為不規(guī)律型乘客,若要得到這類(lèi)乘客的出行規(guī)律需要結(jié)合多源數(shù)據(jù)進(jìn)一步探索。
第四類(lèi)乘客首次出行時(shí)間標(biāo)準(zhǔn)差較小,出發(fā)時(shí)間集中在下午和晚上,OD覆蓋率較第三類(lèi)乘客相對(duì)集中,取值偏大。該類(lèi)乘客出行時(shí)間穩(wěn)定,但空間不太穩(wěn)定,將他們定義為生活類(lèi)乘客,他們的出行無(wú)固定通勤需求,以生活需求與休閑出行為主,主體可能為大學(xué)生、家庭主婦和中老年人。
第五類(lèi)乘客首次出行時(shí)間標(biāo)準(zhǔn)差較小,出發(fā)時(shí)間集中在上午,并且在8:00—9:00早高峰時(shí)段有小幅度集中,出行時(shí)間比通勤者略晚,OD覆蓋率大,與其他幾類(lèi)乘客相比乘車(chē)時(shí)長(zhǎng)標(biāo)準(zhǔn)差略大。出行時(shí)間相對(duì)穩(wěn)定,空間穩(wěn)定性弱,可將該類(lèi)乘客定義為出發(fā)時(shí)間穩(wěn)定型乘客,這類(lèi)人群可能存在二次出行。
第六類(lèi)乘客與前幾類(lèi)乘客相比出行時(shí)間標(biāo)準(zhǔn)差最小,出發(fā)時(shí)間集中在上午,在8:00早高峰時(shí)段有明顯峰值,OD覆蓋率集中在0.45,取值較小。該類(lèi)乘客出行時(shí)空穩(wěn)定,符合上班或上學(xué)人群出行規(guī)律,但考慮其出行頻次較少,推測(cè)該類(lèi)乘客有其他出行方式,并不主要依賴(lài)地鐵出行,例如在小汽車(chē)限號(hào)日乘坐地鐵的上班族,將該類(lèi)乘客定義為低頻通勤乘客。
對(duì)高頻乘客再聚類(lèi),將高頻人群依據(jù)時(shí)空特征分為兩類(lèi)。聚類(lèi)結(jié)果如表6所示。其中,為方便計(jì)算,將出行時(shí)間轉(zhuǎn)換為分鐘數(shù)表示。
表6 高頻乘客聚類(lèi)結(jié)果
第七、八類(lèi)乘客在高頻人群中所占比例分別為37.1%和63.9%,他們的周出行天數(shù)為4至5天,日均刷卡次數(shù)約為2次。乘客出行時(shí)間分布圖和OD覆蓋率分布圖如圖8、圖9所示。
圖8 第七、八類(lèi)乘客首次出發(fā)時(shí)間
圖9 第七、八類(lèi)乘客OD覆蓋率分布圖
第七類(lèi)乘客首次出發(fā)時(shí)間標(biāo)準(zhǔn)差較大,出發(fā)時(shí)間較為分散,在8:00—9:00早高峰時(shí)段存在小幅度集中,OD覆蓋率分布十分離散。這類(lèi)乘客出行時(shí)空穩(wěn)定性較弱,結(jié)合其高頻出行強(qiáng)度可以認(rèn)為該類(lèi)乘客為彈性通勤乘客,例如業(yè)務(wù)型乘客。
第八類(lèi)乘客出行特征最為明顯,出發(fā)時(shí)間集中在早上8:00—9:00早高峰時(shí)段,出發(fā)時(shí)間標(biāo)準(zhǔn)差小,基本沒(méi)有分散在其他時(shí)間的出行,OD覆蓋率集中在較小值處,表明此類(lèi)乘客出行的站點(diǎn)比較固定,乘車(chē)時(shí)長(zhǎng)標(biāo)準(zhǔn)差小。這類(lèi)乘客出行時(shí)空穩(wěn)定性高,可以認(rèn)為該類(lèi)乘客是典型的通勤型乘客。
以杭州市五個(gè)工作日地鐵刷卡數(shù)據(jù)為例,構(gòu)建乘客完整出行鏈,挖掘乘客出行強(qiáng)度和出行時(shí)間、空間等特征,運(yùn)用二階聚類(lèi)算法,首先依據(jù)出行強(qiáng)度對(duì)乘客進(jìn)行初始聚類(lèi),在初始聚類(lèi)基礎(chǔ)上依據(jù)時(shí)空特征對(duì)乘客進(jìn)行再聚類(lèi),最終將乘客劃分為8類(lèi),并詳細(xì)討論了這8類(lèi)人群的出行規(guī)律,識(shí)別乘客群體身份與出行目的。將低頻人群分為兩類(lèi),分別為短期低頻出行類(lèi)乘客和特定出行目的乘客;中頻人群分為四類(lèi),分別是不規(guī)律型乘客、生活類(lèi)乘客、出發(fā)時(shí)間穩(wěn)定型乘客和低頻通勤乘客;高頻人群分為兩類(lèi),分別為彈性通勤乘客和典型通勤類(lèi)乘客。
從乘車(chē)刷卡數(shù)據(jù)中挖掘乘客的出行行為對(duì)乘客進(jìn)行細(xì)分,對(duì)于運(yùn)輸當(dāng)局有針對(duì)性的為乘客提供服務(wù)和優(yōu)化公共交通系統(tǒng)有著重要的意義。對(duì)乘客出行行為的詳細(xì)探究還存在研究城市空間布局、人群社交網(wǎng)絡(luò)等許多潛在應(yīng)用,未來(lái)的研究中可以將乘客分類(lèi)結(jié)果結(jié)合其他領(lǐng)域信息進(jìn)行進(jìn)一步研究。