鄭海星,朱海明,蔣 寅,陳 鋒,葛 涵
(1.天津市城市規(guī)劃設(shè)計(jì)研究院,天津300201;2.天津市市政工程設(shè)計(jì)研究總院,天津300201;3.中國(guó)地鐵工程咨詢有限責(zé)任公司,北京100037;4.天津市公安交通管理局,天津300201)
客流特征是公共汽(電)車線網(wǎng)規(guī)劃、運(yùn)營(yíng)組織優(yōu)化的重要依據(jù)。全面、系統(tǒng)的客流特征挖掘與分析對(duì)于提高行業(yè)決策、管理水平,推動(dòng)行業(yè)準(zhǔn)入、監(jiān)管、補(bǔ)貼等制度的建立和完善,促進(jìn)城市經(jīng)濟(jì)的可持續(xù)、健康發(fā)展具有重要意義[1]。獲取公共汽(電)車客流特征的傳統(tǒng)技術(shù)手段主要是人工調(diào)查,包括人工計(jì)數(shù)和問卷調(diào)查等。受技術(shù)手段及成本等條件限制,人工調(diào)查數(shù)據(jù)存在樣本量較少、隨機(jī)性較大甚至樣本偏差等問題,難以對(duì)公共汽(電)車網(wǎng)絡(luò)的客流特征進(jìn)行全面、深入的客觀評(píng)價(jià)。公共交通行業(yè)規(guī)劃與管理亟須得到科學(xué)化、信息化技術(shù)手段與方法的支撐。
近年來,公交IC卡(以下簡(jiǎn)稱“IC卡”)收費(fèi)系統(tǒng)在各城市得到廣泛應(yīng)用。IC卡交易數(shù)據(jù)詳細(xì)記錄了卡號(hào)、公共汽(電)車或軌道交通線路、車輛、交易時(shí)間、交易費(fèi)用等乘客使用公共交通系統(tǒng)的相關(guān)信息,為城市公共交通系統(tǒng)的客流分析提供了寶貴的數(shù)據(jù)資源。然而,由于IC卡收費(fèi)系統(tǒng)建設(shè)時(shí)未充分考慮交通分析方面的需求,數(shù)據(jù)中缺少一些關(guān)鍵的出行信息。如一票制公共汽(電)車線路的IC卡數(shù)據(jù)缺少乘客上下車站、下車時(shí)間等關(guān)鍵信息,給客流分析帶來不便,難于進(jìn)行深度的數(shù)據(jù)挖掘[2]。為了彌補(bǔ)上述不足,國(guó)內(nèi)外研究人員通過IC卡數(shù)據(jù)與車輛GPS數(shù)據(jù)的融合處理分析,針對(duì)乘客上下車站信息推算開展了一系列研究。
上車站推算方面,文獻(xiàn)[3]將IC卡數(shù)據(jù)進(jìn)行時(shí)間聚類后,通過每類的時(shí)間標(biāo)簽與車輛經(jīng)過站的估計(jì)時(shí)間進(jìn)行上車站匹配。文獻(xiàn)[4-5]利用GPS數(shù)據(jù)和IC卡數(shù)據(jù)融合,通過車輛到站時(shí)間和乘客刷卡時(shí)間進(jìn)行匹配,實(shí)現(xiàn)上車站的推算。文獻(xiàn)[6]根據(jù)GPS和IC卡數(shù)據(jù)時(shí)間上的匹配性,以及相鄰站間GPS到站間隔時(shí)間與相鄰IC卡聚類間隔時(shí)間的相似性,進(jìn)行上車站推算。文獻(xiàn)[7]在GPS和IC卡數(shù)據(jù)融合處理分析的基礎(chǔ)上,以單個(gè)用戶為基本處理單元進(jìn)行上車站推算,并進(jìn)一步考慮了GPS系統(tǒng)與IC卡系統(tǒng)時(shí)鐘差等問題。
下車站推算方面,文獻(xiàn)[8]以單個(gè)乘客為基本分析單元,通過乘客上車站與下車站之間的空間關(guān)系確定下車站。文獻(xiàn)[4]利用GPS數(shù)據(jù)和IC卡數(shù)據(jù)融合,通過通勤乘客往返起終點(diǎn)相呼應(yīng)的特點(diǎn),推斷其下車站。文獻(xiàn)[9]在GPS信息缺乏情況下,僅依靠上車時(shí)間數(shù)據(jù),通過換乘分析和聚類分析,確定乘客下車站。文獻(xiàn)[10]結(jié)合出行鏈的概率模型,判斷隨機(jī)下車站。文獻(xiàn)[7]提出基于首末次出行(同一線路)、連續(xù)換乘、歷史出行概率等推算下車站。
上述算法或未考慮時(shí)鐘差和乘客滯后刷卡問題,或推算規(guī)則不完善而容易發(fā)生誤判與漏判,或基于單個(gè)用戶處理而影響效率等。鑒于此,本文提出一種基于聚類相似度和數(shù)據(jù)融合的公共汽(電)車乘客上下車站推算方法。將IC卡數(shù)據(jù)進(jìn)行時(shí)間聚類后,以聚類為基本分析單元,根據(jù)其中值與對(duì)應(yīng)車輛GPS到站時(shí)間區(qū)間的關(guān)系處理乘客滯后刷卡問題。通過不同平移量下IC卡聚類時(shí)間標(biāo)簽向量與車輛GPS推算開門時(shí)間向量的相似度,分析處理IC卡數(shù)據(jù)時(shí)鐘差問題。綜合考慮換乘關(guān)系、首末次出行關(guān)系(含當(dāng)日首次與末次出行、當(dāng)日末次與次日首次出行)、通勤往返關(guān)系以及乘客乘坐公共汽(電)車線路的選擇多樣性等實(shí)現(xiàn)下車站的有效推算。選取天津、深圳兩個(gè)城市進(jìn)行應(yīng)用,從宏觀、微觀兩個(gè)層面進(jìn)行驗(yàn)證,并探究公共汽(電)車客流與軌道交通的一體化銜接關(guān)系,為進(jìn)一步提升天津?yàn)I海新區(qū)公共交通服務(wù)水平提供支持。
數(shù)據(jù)主要包括動(dòng)態(tài)營(yíng)運(yùn)數(shù)據(jù)與公共汽(電)車、軌道交通線路車站基礎(chǔ)數(shù)據(jù)等。
1)GPS到離站數(shù)據(jù):通過對(duì)原始GPS數(shù)據(jù)進(jìn)行預(yù)處理,生成車輛的GPS到離站時(shí)間信息表,主要包括線路ID、線路名稱、車牌號(hào)、趟次ID、行車方向、站序、車站ID、進(jìn)站時(shí)間、離站時(shí)間等信息。
2)IC卡數(shù)據(jù):包括公共汽(電)車與軌道交通刷卡數(shù)據(jù)。通過對(duì)IC卡明細(xì)數(shù)據(jù)進(jìn)行預(yù)處理,生成IC卡信息表,主要包括卡號(hào)、刷卡時(shí)間、車載刷卡終端設(shè)備、車牌號(hào)碼(或軌道交通車站)、刷卡費(fèi)用等。
圖1 站組聚類分析Fig.1 Station clustering analysis
3)線路日客運(yùn)量:分線路、分方向、分日期統(tǒng)計(jì)客運(yùn)量,含刷卡客流與現(xiàn)金客流,用于線路車站推算客流的擴(kuò)樣分析。
4)線路車站基礎(chǔ)數(shù)據(jù):主要包括線路ID、線路名稱、方向、站序、車站ID、車站名稱、車站經(jīng)緯度等。
為提高推算效率,對(duì)線路車站數(shù)據(jù)進(jìn)行預(yù)處理。針對(duì)同一車站不同站臺(tái)進(jìn)行空間聚類,形成站組。聚類條件為:公共汽(電)車站名字相同或相似,且距離小于150 m(如圖1所示)。平均站臺(tái)間距在100 m以內(nèi)的車站約占89%,在120 m以內(nèi)的約占92%,在150 m以內(nèi)的約占95%。
圖2 換乘時(shí)間可達(dá)性閾值分析(公共汽(電)車之間換乘)Fig.2 Threshold of time accessibility(transfer between buses)
圖3 換乘空間可達(dá)性閾值分析(公共汽(電)車之間換乘)Fig.3 Threshold of space accessibility(transfer between buses)
算法主要影響參數(shù)包括換乘時(shí)間可達(dá)性閾值Δt(相鄰兩次上車刷卡的間隔時(shí)間)和換乘空間可達(dá)性閾值Δd(前一次乘車下車站與本次乘車上車站的距離)。為進(jìn)一步合理確定參數(shù)取值,以天津?yàn)I海新區(qū)公共汽(電)車下車站推算結(jié)果為例,對(duì)不同參數(shù)取值對(duì)推算結(jié)果的影響敏感程度進(jìn)行分析。
1)換乘時(shí)間可達(dá)性。
如圖2所示,隨著換乘時(shí)間可達(dá)性閾值Δt的增加,初步識(shí)別(僅滿足時(shí)間可達(dá)性條件)的換乘系數(shù)不斷增加,且當(dāng)Δt>90 min時(shí),初步識(shí)別的換乘系數(shù)的變化趨于穩(wěn)定。
2)換乘空間可達(dá)性。
如圖3所示,隨著換乘空間可達(dá)性閾值Δd的增加,下車站推算率逐漸增加,且當(dāng)Δd>1 km時(shí),下車站推算率趨于穩(wěn)定。
1)選取單車單天GPS到離站數(shù)據(jù)、IC卡數(shù)據(jù),并分別按時(shí)間排序。
2)基于時(shí)間對(duì)IC卡數(shù)據(jù)聚類。聚類條件為相鄰時(shí)間間隔<Δt(一般情況下,同車站上客刷卡間隔時(shí)間小于72 s[9])。對(duì)于乘客滯后刷卡或者其他原因造成的同站上車乘客刷卡時(shí)間超過72 s的,表示為多個(gè)聚類。另外,將聚類對(duì)應(yīng)刷卡時(shí)間的最小值作為其時(shí)間標(biāo)簽。
3)計(jì)算GPS到離站時(shí)間均值,作為推算的車輛開門時(shí)間,并以該時(shí)間作為與IC卡刷卡時(shí)間匹配的基礎(chǔ)。
4)考慮時(shí)鐘差問題的IC卡刷卡時(shí)間最佳平移量確定。選取目標(biāo)車輛的GPS推算開門時(shí)間向量M與對(duì)應(yīng)IC卡聚類的時(shí)間標(biāo)簽向量N(該聚類第一條記錄的刷卡時(shí)間),分別對(duì)向量M與第k次平移后的IC卡聚類的時(shí)間標(biāo)簽向量N進(jìn)行相似度檢驗(yàn),并選取相似性最好(即相似度評(píng)價(jià)指標(biāo)F值最小)時(shí)的平移量作為最佳平移量(見圖4)。
式中:Mj為車輛在第j個(gè)車站的推算開門時(shí)間;Nk,j為該車輛IC卡聚類在第k次平移后匹配至車站j的IC卡聚類的最小時(shí)間標(biāo)簽;n為車站數(shù)/個(gè)。結(jié)合數(shù)據(jù)實(shí)際,前后最大平移量均取15 min。
5)以各車站的GPS到站時(shí)間為分割點(diǎn)進(jìn)行區(qū)間劃分,將選取的單車單天IC卡數(shù)據(jù)按最佳平移量時(shí)間整體平移后,再以IC卡聚類為單元,根據(jù)其中間值落入GPS區(qū)間情況確定對(duì)應(yīng)的上車站(見圖5)。
1)基于換乘關(guān)系推算下車站。
換乘關(guān)系識(shí)別應(yīng)同時(shí)滿足時(shí)間臨近性和空間臨近性兩個(gè)條件:
①乘客先后兩次乘車的刷卡時(shí)間差≤Δt。據(jù)調(diào)查,公共汽(電)車乘客平均單次出行時(shí)間約為30 min。因此,當(dāng)出行方式為公共汽(電)車換乘地鐵或公共汽(電)車,且先后兩次乘車線路不同時(shí),Δt取90 min(分析見表1);當(dāng)出行方式為地鐵換乘公共汽(電)車時(shí),考慮到步行換乘時(shí)間,Δt取20 min。
②乘客第一次乘車的下車站存在與第二次乘車的上車站位于同一站組范圍內(nèi)或相距不超過1 km,且兩次乘車的線路不同。
如圖6所示,情景a中,第1次乘車下車站即為第2次乘車上車站A;情景b中,第1次乘車下車站為與第二次乘車上車站A位于同一站組且距離最近的車站C;情景c中,第1次乘車下車站為與第二次乘車上車站A距離最近且小于1 km的車站E。
2)基于通勤與首末次出行往返關(guān)系推算下車站。
根據(jù)通勤乘客早晚高峰往返出行特征,早高峰首次出行的下車站與晚高峰末次出行的上車站一般應(yīng)位于同一站組(或1 km區(qū)域內(nèi)),晚高峰末次出行的下車站與早高峰首次出行的上車站一般也應(yīng)位于同一站組。根據(jù)乘客常規(guī)的總體出行特性,一般情況下,如果次日與當(dāng)日首次出行的上車站位于同一站組,則當(dāng)日首次出行的下車站與末次出行的上車站也應(yīng)位于同一站組,當(dāng)日末次出行的下車站與首次出行的上車站應(yīng)位于同一站組。
如圖7所示,情景d,f中,首次出行的下車站為距離末次出行的上車站B2最近且相距小于1 km的車站B1,末次出行的下車站為與首次出行的上車站A1最近且相距小于1 km的最近車站A2;情景e中,末次出行下車站為與首次出行上車站A1最近且相距小于1 km的最近車站A2。
另外,對(duì)于其他無(wú)明顯規(guī)律的出行,考慮到其隨機(jī)性較大,不再針對(duì)單個(gè)用戶根據(jù)歷史推算下車站的出現(xiàn)概率進(jìn)行下車站推算,而是根據(jù)實(shí)際分析需求,從線路或線網(wǎng)層面進(jìn)行擴(kuò)樣處理。
圖4 最佳平移量確定Fig.4 Procedures of optimal shifting value
表1 上下車站推算計(jì)算結(jié)果Tab.1 Results of on-and-off volumes at transit stations
圖5 上車站推算Fig.5 Estimating the boarding passengers at stations
圖6 基于換乘關(guān)系的下車站推算Fig.6 Estimating the off-volumes at stations based on transfer relationship
圖7 基于首末次出行與通勤往返關(guān)系的下車站推算Fig.7 Estimating off-volumes based on the first and last trips and commuting relationship
圖8 M352路上下車站推算結(jié)果驗(yàn)證Fig.8 Verification of the estimated on-and-off volumes at stops along bus M352 route
3)擴(kuò)樣處理。
根據(jù)各線路上下車客流的推算率、線路刷卡率,對(duì)推算上下車客流分別進(jìn)行擴(kuò)樣處理。
根據(jù)換乘識(shí)別敏感性分析,建議換乘時(shí)間可達(dá)性閾值Δt取90 min,換乘空間可達(dá)性閾值Δd取1 km。以深圳市和天津?yàn)I海新區(qū)為例,對(duì)公共汽(電)車客流上下車站進(jìn)行推算。如表1所示,深圳市上車推算成功比例約98%,下車推算成功比例約61%;由于天津?yàn)I海新區(qū)的IC卡數(shù)據(jù)中不含地鐵數(shù)據(jù),致使上下車推算成功比例略低,上車推算成功比例約93%,下車推算成功比例約58%。
3.2.1 微觀層面:試驗(yàn)線路調(diào)查
以深圳市為例,選取M352路公共汽(電)車(新百麗—深圳北方向),將跟車客流調(diào)查結(jié)果(共15個(gè)趟次)與同天IC卡數(shù)據(jù)推算結(jié)果(按照線路推算成功比例、刷卡率進(jìn)行統(tǒng)一擴(kuò)樣)進(jìn)行對(duì)比分析(見圖8和圖9),二者的車站客流分布趨勢(shì)一致,且具有良好的相關(guān)性。
為進(jìn)一步評(píng)估算法精度,選用GEH進(jìn)行誤差檢驗(yàn),
式中:C為推算值;V為實(shí)際值。一般認(rèn)為,當(dāng)GEH<5.0時(shí)推算值序列與實(shí)際值序列沒有明顯差異,可接受。與相對(duì)誤差相比,GEH能更好地評(píng)估誤差,其取值僅與真值偏離程度有關(guān),而與偏離的正負(fù)無(wú)關(guān),且對(duì)較小的值的誤差敏感度較低。
基于式(2)計(jì)算M352路上下車站推算結(jié)果的GEH平均值分別為1.65和1.99,均可接受。因此,IC卡數(shù)據(jù)分析結(jié)果與人工調(diào)查結(jié)果無(wú)明顯差異,算法精度較高。
3.2.2 宏觀層面:客流特征對(duì)比分析
天津?yàn)I海新區(qū)在地理空間上與深圳市相似,均為沿海的狹長(zhǎng)帶狀區(qū)域。深圳市公共汽(電)車客流空間分布與其地理空間布局相呼應(yīng),沿著東西向主城區(qū)(南山區(qū)—福田區(qū)—羅湖區(qū))呈現(xiàn)明顯的帶狀特征,且主城區(qū)外圍的寶安區(qū)、龍華區(qū)、龍崗區(qū)與主城區(qū)的客流聯(lián)系密切(見圖10)。而天津?yàn)I海新區(qū)公共汽(電)車高客流密度集中于核心區(qū),且核心區(qū)與西片區(qū)間客流聯(lián)系相對(duì)比較密切(見圖11)。
圖9 M352路上下車站推算誤差分析Fig.9 Calculation errors in the estimated on-and-off volumes at stops along bus M352 route
圖10 深圳市公共汽(電)車客流空間分布Fig.10 Spatial distribution of bus passenger flow in Shenzhen
圖11 天津?yàn)I海新區(qū)公共汽(電)車客流空間分布Fig.11 Spatial distribution of bus passenger flow in Binhai New District of Tianjin
公共汽(電)車與軌道交通一體化發(fā)展方面,深圳市主要的公共汽(電)車客流集中車站基本均有軌道交通覆蓋,軌道交通與公共汽(電)車的一體化銜接程度相對(duì)較高,尤其是位于軌道交通線路末端的車站(地鐵寶安機(jī)場(chǎng)東站進(jìn)出客流中,約47.5%來自公共汽(電)車換乘,見圖12)。而天津?yàn)I海新區(qū)僅開通津?yàn)I輕軌9號(hào)線,軌道交通車站與公共汽(電)車客流集中車站間的距離較遠(yuǎn)(見圖13)。
圖12 深圳市公共汽(電)車與軌道交通一體化銜接Fig.12 Integration of bus and rail transit in Shenzhen
圖13 天津?yàn)I海新區(qū)公共汽(電)車與軌道交通的一體化銜Fig.13 Integration of bus and rail transit in Binhai New District of Tianjin
在總結(jié)以往公共汽(電)車乘客上下車站推算相關(guān)研究基礎(chǔ)上,利用公共汽(電)車GPS數(shù)據(jù)與IC卡數(shù)據(jù),提出基于公共交通大數(shù)據(jù)融合的公共汽(電)車乘客上下車站推算方法,并在天津、深圳兩個(gè)城市進(jìn)行應(yīng)用分析。結(jié)果表明,該算法具有推算成功比例高、準(zhǔn)確度高、通用性強(qiáng)等特點(diǎn)。在此基礎(chǔ)上,可從車站、線路、區(qū)域等多個(gè)空間維度實(shí)現(xiàn)公共交通運(yùn)行情況的全面感知,并可應(yīng)用于各城市公共交通規(guī)劃、政策評(píng)估、線網(wǎng)規(guī)劃等領(lǐng)域,為相關(guān)工作提供科學(xué)、量化的決策依據(jù)。