劉 曉 柳 林,2* 鄒 健
1(山東科技大學(xué)測繪科學(xué)與工程學(xué)院 山東 青島 266590) 2(國家測繪局海島(礁)測繪技術(shù)國家測繪地理信息局重點實驗室 山東 青島 266590)
城市的公交車系統(tǒng)每天都會產(chǎn)生海量的時空軌跡數(shù)據(jù),包括公交刷卡數(shù)據(jù)和GPS定位數(shù)據(jù)等。當(dāng)數(shù)據(jù)無缺失時,將公交刷卡數(shù)據(jù)與GPS定位數(shù)據(jù)融合易得到乘客的上車站點。由于大部分城市采取一票制刷卡制度,刷卡信息中不包含乘客的下車站點及時間,無法獲取乘客完整的出行鏈和空間出行信息[1],因此快速準(zhǔn)確地從公交數(shù)據(jù)中提取出乘客的上下車站點及時間是公交數(shù)據(jù)挖掘的基礎(chǔ)[2]。
目前已有一些有關(guān)利用公交刷卡數(shù)據(jù)進(jìn)行的研究,但主要是針對下車站點及OD矩陣的推斷。文獻(xiàn)[3]提出了公交出行節(jié)的概念,根據(jù)乘客的出行節(jié)是否連續(xù)分多種情況來推斷乘客的下車站點,推算模型比較復(fù)雜,處理效率較低;文獻(xiàn)[4]提出了一個基礎(chǔ)的基于時空鄰近性的恢復(fù)算法和一個改進(jìn)的基于歷史的恢復(fù)算法,但需要借助于地鐵刷卡信息;文獻(xiàn)[5]對公交出行行為進(jìn)行了分類,推算了有往返出行和有換乘的出行乘客的出行起止點,但未考慮到其他乘客。總體來說,現(xiàn)有的基于公交IC卡數(shù)據(jù)的站點推算方法還有很多的不足,因此本文對公交IC卡數(shù)據(jù)進(jìn)行了深入的探討與研究,改進(jìn)了傳統(tǒng)的上車站點推導(dǎo)算法,提出了下車站點推導(dǎo)算法,以青島市西海岸新區(qū)的公交刷卡數(shù)據(jù)、GPS定位數(shù)據(jù)為例驗證了算法的可行性,并利用公交刷卡數(shù)據(jù)識別了通勤乘客,進(jìn)行了公交通勤分析。
本文研究數(shù)據(jù)來源于青島市琴島通卡股份有限公司及真情巴士集團提供的公交刷卡數(shù)據(jù)、GPS定位關(guān)聯(lián)站點數(shù)據(jù)、真情巴士集團司機檔案數(shù)據(jù)、駕駛員對應(yīng)車號數(shù)據(jù)(真情巴士集團車輛調(diào)度數(shù)據(jù))等,在分析了各數(shù)據(jù)的字段后建立了數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,如圖1所示。
圖1 數(shù)據(jù)字段及關(guān)聯(lián)關(guān)系
公交刷卡數(shù)據(jù)中無車輛編號,無法直接與GPS定位關(guān)聯(lián)站點數(shù)據(jù)匹配上車站點,首先可以通過司機檔案數(shù)據(jù)匹配公交刷卡數(shù)據(jù)中司機卡號所對應(yīng)的員工姓名,然后再通過駕駛員對應(yīng)車號數(shù)據(jù)(即車輛調(diào)度數(shù)據(jù))結(jié)合司機工作日期匹配到車輛編號,匹配完成即可與GPS定位關(guān)聯(lián)站點數(shù)據(jù)融合進(jìn)行處理。
根據(jù)公交刷卡數(shù)據(jù)的字段可以發(fā)現(xiàn)單純地通過公交刷卡數(shù)據(jù)無法獲得乘客的上車站點,因此結(jié)合GPS定位數(shù)據(jù)來識別。通常乘客的刷卡時間Ti與GPS定位數(shù)據(jù)中同一車輛的到離站時間區(qū)間(Tas,Tcs)滿足式(1)時,可判定車輛所在的站點S即為乘客的上車站點[4]。
Tas (1) 但在公交運營中,有時會存在多輛公交車同時到站的情況,后續(xù)公交車為了節(jié)省時間會提前開門上客,此外在高峰時段因前門擁擠,部分乘客會選擇后門上車[5],在公交離站后刷卡,因此部分乘客刷卡時間會在車輛到離站時間區(qū)間外。 為提高上車站點識別率,本文引入了彈性閾值對到離站時間區(qū)間進(jìn)行了改進(jìn),若乘客刷卡時間Ti滿足式(2)時,則可判定站點S為上車站點。 Tas-φ (2) 式中:φ為公交車到離站彈性閾值。 考慮到公交運行時長、候車時間等因素,在進(jìn)行下車站點推算時首先以2小時為閾值,將前后兩次刷卡時間差值小于2小時的出行設(shè)為連續(xù)出行,否則為非連續(xù)出行(一天內(nèi)僅一次刷卡記錄的出行也為非連續(xù)出行),所以對于一天內(nèi)有多次刷卡記錄的乘客可以有多次連續(xù)出行或非連續(xù)出行。 對任一乘客q在線路L上任一站點i上車,為推算乘客在任一站點j下車的概率提出了如下假設(shè): 1) 對于連續(xù)出行來說,乘客上次乘車的下車站點大多接近下次乘車的上車站點[5]。 2) 對于非連續(xù)出行,乘客當(dāng)次乘車的下車站點為下游高頻站點[5]。 3) 對于下游無高頻站點的非連續(xù)出行,乘客的出行規(guī)律服從整體公交乘客的出行規(guī)律,即乘客會選擇吸引強度較大的站點下車,且出行站數(shù)服從泊松分布[6]。 2.2.1基于整體出行規(guī)律分析 根據(jù)以往的公交客流分析結(jié)果,從公交乘客整體上看,乘客的出行站數(shù)服從一定的分布規(guī)律,且各站點吸引強度不同。因此,在推算乘客下車站點時應(yīng)將出行站數(shù)和站點吸引強度兩個因素考慮在內(nèi)。 1) 單純考慮出行站數(shù)。 居民的公交出行距離通常處于一定范圍內(nèi),而出行距離可以用乘坐的站點數(shù)量來表示。已有的研究指出,下車概率隨途經(jīng)站點數(shù)量服從泊松分布[6-8]。因此僅受途經(jīng)站點數(shù)量一個因素影響時的下車概率Fij的公式如下: (3) 式中:λ為途經(jīng)站點數(shù)量的均值,當(dāng)上車站點i下游站點數(shù)量不足λ時,λ=m-i,m為單條線路站點總數(shù)。 2) 單純考慮站點吸引強度。 站點吸引強度是用一條線路上各站點的客流量來表示的,不同站點的吸引強度不同。由于居民的出行具有往返性,各站點的上下車客流量基本相當(dāng)[4]。因此可用各站點上車客流量來計算站點吸引強度Wj,公式如下: (4) 式中:Sk為站點j的上車人數(shù);m為某一線路站點總數(shù)。 2.2.2基于個體出行規(guī)律分析 從單個乘客q來考慮,定義下游站點集Eq、高頻站點集Fq和銜接站點集Gq[6],下車站點的推算分以下幾種情況: 1)C1:對于乘客的連續(xù)出行,若Gq非空,則站點j的吸引權(quán)重Z1如下: (5) 2)C2:對于Gq為空集、Fq非空的乘客的連續(xù)出行或者Fq非空的非連續(xù)出行,下游站點j吸引權(quán)重Z2如下: (6) 式中:Sj為乘客q于研究期內(nèi)在站點j的上車次數(shù);p為高頻站點集中的站點個數(shù);Sp為乘客在高頻站點p的近期上車總次數(shù)。 3)C3:對于Gq、Fq均為空集的乘客的連續(xù)出行和Fq為空集的乘客的非連續(xù)出行,下游站點j的吸引權(quán)重Z3如下: Z3=1/d (7) 式中:d為下游站點j與下次刷卡上車站點的標(biāo)準(zhǔn)化距離,當(dāng)乘客在研究期內(nèi)的上車站點數(shù)為1時,d=1。 綜上所述, 本文將單個乘客的出行特征融入到整體公交乘客中,在任一線路任一站點i上車的單個乘客,在同線路上站點j下車的概率Pij的推算公式為: (8) 式中: (9) 根據(jù)上述下車站點算法即可推算公交乘客的下車站點,再將其與GPS定位數(shù)據(jù)結(jié)合即可獲得乘客的下車時間。 上下車站點匹配完成后,需要對匹配結(jié)果進(jìn)行驗證。常規(guī)的驗證方法是將匹配結(jié)果與實驗調(diào)查值進(jìn)行比較,但在實際生活中,跟蹤調(diào)查單個乘客上下車站點難度較大。研究乘客的上下車站點本質(zhì)上是為了分析乘客群體的出行特征,因此本文采用上下車客流量來對算法進(jìn)行檢驗[9]。 根據(jù)公交乘客的出行特征,一天各站點的上下車客流量基本相當(dāng),即二者之間應(yīng)該具有線性關(guān)系[9]: Si,on=aSi,of+b (10) 式中:Si,on為站點i的上車人數(shù);Si,of為站點i的下車人數(shù);a、b為回歸系數(shù),若上下車客流量基本相當(dāng),則a的值應(yīng)接近1[6]。 通勤是造成城市早晚高峰的主要原因,早高峰主要集中于居住地附近,而晚高峰多發(fā)生于就業(yè)地附近。目前公交通勤已成為緩解城市交通壓力的重要途徑,掌握通勤者的空間出行特征對于科學(xué)布局公交站點、動態(tài)調(diào)整公交線路具有重要意義。 在對公交刷卡數(shù)據(jù)進(jìn)行分析后,提出出行時間鏈的概念,即根據(jù)乘客每次刷卡時間所處的時間段對其進(jìn)行編碼,然后將乘客一天的刷卡時間碼按時間先后連接起來即可獲得乘客每天的出行時間鏈。 時間段的劃分如表1所示,相鄰的時間段級別相差1(即B0與A0相差1個級別,B0與A1也相差1個級別)。 表1 時間段編碼 通勤群體有兩大出行規(guī)律:(1) 出行天數(shù)較多,通勤群體幾乎每個工作日都會出行,即提取出的出行時間鏈較多;(2) 出行時間相對固定,即出行時間鏈較穩(wěn)定[10-11]。 城市早晚交通高峰主要是由通勤造成的,以前主要是根據(jù)乘客在高峰時段的刷卡記錄數(shù)來識別通勤乘客[12],但該方法會將在高峰時刻有多條刷卡記錄的乘客誤判為通勤乘客,同時對于一些錯時上下班的城市又會遺漏大量通勤乘客[13]。PTD(Position-Time-Duration)模型[14]的提出為通勤識別提供了新的思路,該模型將乘客每天的首次刷卡站點定義為居住地,將乘客在某站點的停留時長超過閾值的站點定為就業(yè)地[15-16]。 基于通勤出行的特點,本文結(jié)合出行時間鏈和PTD模型進(jìn)行通勤乘客及其職住地的識別。將各卡號一周的出行記錄匯總,按照日期和時間先后進(jìn)行排序,獲取乘客每天的出行時間鏈。時間鏈判定方法如下。時間鏈相同:每天的出行鏈編碼完全相同;時間鏈相似:首次出行時間鏈編碼相差1個級別,但兩次出行時間差值在半小時以內(nèi),其他時間鏈編碼相同的可認(rèn)為對應(yīng)的兩天的時間鏈相似。將乘客一周的出行時間鏈進(jìn)行對比,若5天的工作日中出行時間鏈相同或相似的天數(shù)大于等于3,則對這些乘客建立PTD模型。 若非居住地PTD模型中存在停留時長大于等于某一閾值的情況,則可確認(rèn)這些乘客為通勤人員,同時PTD模型中所對應(yīng)的站點即為乘客的就業(yè)地站[17]。 本文以2018年8月20日至8月26日的青島市西海岸新區(qū)公交刷卡數(shù)據(jù)為例來進(jìn)行通勤時空分析。青島市西海岸新區(qū)位于山東省青島市西岸,是我國第九個國家級新區(qū),現(xiàn)新區(qū)轄12個街道,11個鎮(zhèn),可劃分為十大功能區(qū),目前新區(qū)內(nèi)開通了96條公交線路,共有1 090個公交站點,站點分布圖如圖2所示。 圖2 西海岸新區(qū)公交站點分布圖 新區(qū)的西南部分主要發(fā)展農(nóng)業(yè)、港口、軍民融合產(chǎn)業(yè),就業(yè)地相對較少。由圖2可見,區(qū)內(nèi)公交站點相當(dāng)稀疏,因此本實驗通勤分析研究過程中會去除西南部分的三個功能區(qū)(現(xiàn)代農(nóng)業(yè)示范區(qū)、董家口循環(huán)經(jīng)濟區(qū)和古鎮(zhèn)口軍民融合創(chuàng)新示范區(qū))。 上下車站點的識別利用MATLAB軟件實現(xiàn)。2018年8月20日至8月26日的公交刷卡數(shù)據(jù)共180萬條左右,其中工作日的刷卡數(shù)據(jù)1 347 928條,在匹配上車站點時取彈性閾值為站間停留時長的1/5,即φ=1/5(Tcs-Tas),共識別出了1 260 110條刷卡記錄的上車站點,上車站點的識別率高達(dá)93.485%,與不添加閾值的傳統(tǒng)算法相比多識別了77 910條,識別率提高了5.78百分點。 按照上文提出的下車站點算法,以6路、7路、11路、13路公交車為例,提取了各線路的刷卡數(shù)據(jù)來推算下車站點并進(jìn)行驗證。根據(jù)各站點的上下車客流量進(jìn)行了回歸分析,分析結(jié)果如圖3所示?;貧w方程的各參數(shù)如表2所示,可以看出各線路回歸方程的系數(shù)a均分布在1左右,說明上下車客流量的相關(guān)性較強;各線路的可決系數(shù)R2均大于0.8,接近于1,說明客流量的擬合效果較好,表明本文算法推斷出來的各站點上下車客流量基本均衡,符合居民出行的基本特征,可以進(jìn)一步用于通勤的分析。 圖3 西海岸新區(qū)多線路公交客流量分析 表2 各線路客流回歸參數(shù)表 在進(jìn)行通勤分析時,對具有3天以上相同或相似出行時間鏈的乘客建立PTD模型,通過PTD模型來識別通勤乘客及其職住地。智聯(lián)招聘最新推出的《中國職場人平衡指數(shù)調(diào)研報告》[18]指出青島的日均工作時長為8.47 h,因此本文在識別通勤時將閾值設(shè)為8 h,共識別出了656 820條通勤乘客的刷卡記錄,數(shù)據(jù)處理結(jié)果如表3所示(為保護乘客隱私對公交卡號進(jìn)行了處理)。 表3 部分?jǐn)?shù)據(jù)處理結(jié)果 根據(jù)處理結(jié)果,在MATLAB軟件中對通勤時間和距離進(jìn)行了多種函數(shù)的擬合,包括泊松分布、指數(shù)分布、對數(shù)分布和韋伯分布,結(jié)果顯示韋伯分布的擬合效果最好,如圖4-圖5所示。 圖4 西海岸新區(qū)公交通勤時間分布 圖5 西海岸新區(qū)公交通勤距離分布 可以看出,公交通勤乘客的通勤時間與通勤距離基本符合韋伯分布,該分布具有明顯的長尾效應(yīng)。通勤時間主要介于6~21 min,通勤距離一般小于7 km。根據(jù)處理結(jié)果計算出西海岸新區(qū)的平均通勤時間為33 min,平均通勤距離為7.9 km,與百度地圖公布的2018年度中國城市交通報告中青島的行政區(qū)內(nèi)平均通勤時間為37.8 min、通勤距離為8.3 km[19]的結(jié)果比較接近,說明了本文的識別結(jié)果較準(zhǔn)確。 借助ArcGIS軟件對通勤乘客的職住地站點進(jìn)行了可視化分析,結(jié)果如圖6-圖8所示。 圖6 居住地?zé)崃D 圖7 就業(yè)地?zé)崃D 圖8 西海岸新區(qū)公交通勤出行 可以看出,新區(qū)的通勤出行及職住地站點主要集中在青島經(jīng)濟技術(shù)開發(fā)區(qū),居住地相對就業(yè)地來說比較分散,居住地站點除了開發(fā)區(qū)之外,在中德生態(tài)園、靈山灣影視文化產(chǎn)業(yè)區(qū)、海洋高新區(qū)等均有分布。經(jīng)濟技術(shù)開發(fā)區(qū)集先進(jìn)制造業(yè)、高端服務(wù)業(yè)為一體,區(qū)內(nèi)遍布大型工業(yè)園,如海爾工業(yè)園、海信工業(yè)園、澳柯瑪工業(yè)園、青島光谷軟件園等,產(chǎn)業(yè)集群效應(yīng)吸引了大量的通勤出行,與本文的熱力圖中心相符。 本文首先提出了利用公交刷卡數(shù)據(jù)識別乘客上下車站點的算法,在此基礎(chǔ)上提出了出行時間鏈的概念,結(jié)合PTD模型來識別通勤乘客及其職住地,并以青島市西海岸新區(qū)的公交刷卡數(shù)據(jù)為例進(jìn)行實驗驗證與通勤時空分析。在識別上車站點時,加入了彈性時間,上車站點的識別率達(dá)到93.485%,與不添加閾值的傳統(tǒng)算法相比提高了5.78百分點。接著以多線路公交為例推算了下車站點,并將上下車客流量進(jìn)行了回歸分析,回歸分析的結(jié)果表明本算法推斷出來的各站點上下車客流量符合居民出行的基本特征,驗證了算法的可行性。最后結(jié)合提出的出行時間鏈和PTD模型識別了西海岸新區(qū)的通勤乘客及其職住地,計算出的區(qū)內(nèi)平均通勤時間為33 min,平均通勤距離為7.9 km,與百度地圖發(fā)布的交通報告結(jié)果比較接近,此外本文識別出的區(qū)內(nèi)職住地與通勤出行也與實際情況基本相符。2.2 下車站點推算
2.3 客流模型檢驗
3 城市通勤時空分析
3.1 出行時間鏈提取
3.2 通勤職住地識別
4 實例分析
4.1 研究區(qū)概況
4.2 站點識別
4.3 通勤時空分析
5 結(jié) 語