孫凱 鄭長江
摘 要:公交客流數(shù)據是公交組織調度、線網優(yōu)化和場站規(guī)劃的基礎性數(shù)據,隨著計算機信息技術的發(fā)展,通過對公交刷卡數(shù)據進行分析處理即可得到全面準確的公交客流信息。以桂林市公交系統(tǒng)數(shù)據為例,首先,對公交IC卡刷卡數(shù)據和定位數(shù)據結構進行分析并對刷卡數(shù)據進行預處理,篩選出客流推算所需數(shù)據并剔除異常數(shù)據;其次,融合刷卡數(shù)據與定位數(shù)據匹配乘客上車站點;再次,根據站點吸引強度和乘客出行站數(shù)規(guī)律計算各站點下車概率,推算站點下車人數(shù)和線路OD(origin-destination)矩陣,其中吸引強度結合了站點上車人數(shù)和站點周邊土地利用規(guī)劃;最后,對計算結果與實際調查值的各項誤差指標進行分析,表明研究結果的合理與準確性。
關鍵詞:公交客流預測;OD推算;公交IC卡;土地利用
中圖分類號:U491.1;C811 ?文獻標志碼:A
公交客流信息是公交運營調度、組織優(yōu)化的基本依據,隨著城市規(guī)模逐漸擴大,公交站點與線路的數(shù)量都在不斷增加與變化,傳統(tǒng)的人工調查方法獲取公交客流數(shù)據變得愈發(fā)困難。隨著公交移動刷卡支付使用普及和互聯(lián)網技術的發(fā)展,能夠獲取乘客每一次的刷卡信息以及車輛實時的定位信息,而這些數(shù)據無法直觀反映公交線路站點客流情況,需通過計算機信息技術手段對數(shù)據進行挖掘,便能得到全面準確直觀可靠的公交客流信息?!冻鞘泄步煌ā笆濉卑l(fā)展綱要》提出:將信息技術與公交系統(tǒng)相結合,建設智能化的交通系統(tǒng),廣泛應用公交大數(shù)據,提高公交服務信息化水平。因此,針對公交刷卡數(shù)據進行深度挖掘,獲取居民出行需求,優(yōu)化城市公交,提供決策信息,具有重要的研究價值。
公交OD推算是獲取公交客流信息的基礎性數(shù)據,主要側重于通過計算機的數(shù)據挖掘技術對海量公交刷卡數(shù)據以及車輛GPS信息進行分析處理,獲得各站點的上下車人數(shù)與線路OD。目前國內外已有學者對基于公交刷卡數(shù)據的公交站點客流推算方法進行研究。戴霄[1]結合公交的調度信息,采用聚類分析對上車站點進行判斷,提出基于單個乘客刷卡數(shù)據與基于站點吸引兩種判斷上車站點方法。王周全[2]通過乘客刷卡時間與公交車輛到達和離開站點時間相匹配,識別公交乘客刷卡的上車站點位置,以乘客出行距離和公交站點的吸引特征作為影響乘客下車概率的主要因素,建立乘客下車概率模型。涂一霜[3]基于公交到站數(shù)據與刷卡數(shù)據融合計算刷卡時間與公交到站時間差來匹配上車站點,基于出行鏈、規(guī)律出行和概率計算3種方法計算下車站點。梅珊[4]基于出行鏈的估計方法推算乘客的下車站點,并結合公交站點停靠時間得到下車時間。楊萬波等[5]結合居民公交出行規(guī)律推算交通小區(qū)的公交OD矩陣。LI等[6]基于每個站點上下車人數(shù)估算每一站下車的概率及公交OD矩陣。竇慧麗等[7]基于站點上下車人數(shù)和線路客流量推算各站點乘客下車概率,提出單條公交線路客流OD矩陣推算方法。劉穎杰等[8]結合站點吸引率,提出了單條公交線路站點間OD反推的結構化算法。NAVICK等[9]運用小樣本OD推算完整OD矩陣。崔紫薇等[10]基于歷史出行記錄擴充方法推算下車站點。NASSIR等[11]通過數(shù)據檢測乘客出行鏈中的實際活動軌跡來確定下車站點。
這些方法各有適用范圍和局限性,確定線路客流的影響因素較為單一,受單個因素影響較大,存在高數(shù)據敏感性的問題,不能全面反映線路客流情況。基于出行鏈的方法理論上能夠準確推算公交客流數(shù)據,需要結合全市所有公交數(shù)據進行分析,但實際情況是公交換乘人數(shù)占公交出行總人數(shù)的比例很小,而時間與經濟成本呈指數(shù)級增加,從經濟效益來說并不適用。因此,本文從單條公交線路出發(fā),考慮竇慧麗[7]和劉穎杰[8]等展望中提及的引入土地利用性質,綜合站點上車人數(shù)來確定公交站點吸引強度,并結合乘客出行距離建立下車概率矩陣,推算線路OD矩陣,進行公交客流數(shù)據統(tǒng)計分析。
1 公交系統(tǒng)基礎數(shù)據與預處理
1.1 公交系統(tǒng)基礎數(shù)據
1.1.1 公交IC卡刷卡數(shù)據
公交刷卡數(shù)據記錄了每位乘客每次刷卡時的詳細數(shù)據。不同城市的刷卡系統(tǒng)對應的刷卡記錄數(shù)據結構可能不完全相同,對于上下車都需要刷卡的公交系統(tǒng),刷卡數(shù)據結構中含有上車站點和下車站點字段,而目前桂林市公交采用單次刷卡形式,刷卡數(shù)據結構中不含有上下車站點字段。公交刷卡記錄里包含線路、車牌號、卡號、交易時間等信息。部分數(shù)據如表1所示。
1.1.2 公交GPS定位數(shù)據
公交GPS定位系統(tǒng)記錄了車輛的實時運行信息。對于車輛位置,主要利用經緯度坐標進行定位與站點相匹配,利用其他參考坐標點進行車輛位置信息的核查,得到公交實時位置附近所在的站點。公交GPS定位數(shù)據主要包括線路名、車牌號、服務器時間、方向、當前站點編號、當前站點名稱等信息。部分數(shù)據如表2所示。
1.2 刷卡數(shù)據預處理
公交客流研究中需要用到的刷卡數(shù)據未必完全準確,存在部分問題數(shù)據,這些問題會在數(shù)據融合時使程序出錯。因此需要對數(shù)據進行預處理,剔除錯誤數(shù)據,控制數(shù)據質量,保證研究數(shù)據的準確性[12]。
1)選擇分析時段
公交都按照公交調度計劃運行,乘客出行特點具有一定的周期性和時段性。一般來說,根據乘客出行特點,大部分乘客在一周工作日期間的出行特征有較大的相似性,可以日、周、月作為公交客流出行特征的基本分析單位。
2)選取數(shù)據字段
公交刷卡系統(tǒng)一天內記錄了上萬次乘客刷卡記錄,而在進行公交客流出行特征分析的過程中,有大量字段對于分析沒有實質的意義,因此在數(shù)據預處理階段可以剔除這些對于分析沒有實質意義的數(shù)據字段,這樣可以減少計算機運行負荷,加快計算機處理速度,提高數(shù)據處理效率。主要選取的刷卡數(shù)據字段有線路、車牌號、交易時間。
3)剔除錯誤數(shù)據
在刷卡系統(tǒng)的工作過程中,可能會出現(xiàn)公交車輛收費機故障或系統(tǒng)網絡傳輸中斷等問題,因此原始刷卡數(shù)據中往往存在錯誤數(shù)據。刷卡數(shù)據中,缺失車牌號、線路、交易時間數(shù)據等部分字段是典型的錯誤數(shù)據。因此,剔除這些錯誤數(shù)據是保證公交客流出行特征分析質量的有效手段。
下面分析刷卡錯誤數(shù)據的特征及剔除方法。
公交刷卡數(shù)據主要存在以下幾個方面問題:部分字段缺失、數(shù)據重復與數(shù)據串流。
1)部分字段缺失。例如部分數(shù)據為空(即NULL)。此類數(shù)據占總數(shù)據的比例約為1%。對于缺失字段數(shù)據,其占總數(shù)據比例最小,可直接刪除缺失字段數(shù)據。
2)數(shù)據重復。例如刷卡數(shù)據中,存在部分完全重復的數(shù)據,為系統(tǒng)多次記錄,此類數(shù)據占總數(shù)據的比例約為3%。對于重復數(shù)據,直接刪除并保留每條唯一的刷卡記錄即可。
3)數(shù)據串流。例如刷卡數(shù)據中的某些車牌號出現(xiàn)次數(shù)較少,且在發(fā)車計劃中并不存在。此類數(shù)據不為該線路數(shù)據,占總數(shù)據的比例小于0.1%。如圖1所示,一天中刷卡數(shù)據數(shù)據串流車輛數(shù)約為3輛,且串流車輛刷卡數(shù)據不超過20次,非串流數(shù)據刷卡數(shù)據皆大于100次,并且發(fā)車計劃中的車輛在刷卡數(shù)據中都能找到對應,因此可以通過以下幾種方法刪除:①刪除刷卡數(shù)據中按車牌分組后刷卡數(shù)據不超過20組的數(shù)據;②通過與發(fā)車計劃車輛數(shù)據關聯(lián),刪除刷卡數(shù)據中車輛不在發(fā)車計劃中的數(shù)據。在研究中發(fā)現(xiàn),兩種方法所得到的結果相同,而第一種方法算法較為簡單通俗,能夠減少處理時間,提高運行效率,故本研究采取第一種方法。
2 線路客流數(shù)據統(tǒng)計分析
2.1 站點上車人數(shù)匹配
桂林市公交為單次刷卡,刷卡數(shù)據單單記錄了所在線路、所乘車輛、刷卡時間等信息,沒有記錄乘客的上車站點位置,而車輛所在站點位置信息記錄在了GPS定位數(shù)據中。GPS定位數(shù)據每3 s記錄一次公交車輛的位置,通過經緯度和離車輛最近的站點位置信息來表示。因此,匹配乘客刷卡數(shù)據與公交GPS定位數(shù)據,可以推算乘客的上車站點,關聯(lián)這兩個數(shù)據集的基本規(guī)則如下[13]:①線路相同;②車牌號相同;③刷卡時間大于對應車輛的GPS服務器時間,且時間差在3 s之內。如圖2所示。
2.2 站點下車人數(shù)推算
根據刷卡數(shù)據不能直接獲取各站點下車人數(shù),但可以采取根據線路運行規(guī)律進行推算的辦法來確定下車站點。
居民使用不同交通工具出行的時間消耗通常集中在一定范圍內。公交的使用時間消耗一般與中長途旅行相對應。耗時太久或太短的出行,居民很少使用公交。因此,居民公交距離的分布呈現(xiàn)一定的規(guī)律。此外,用地性質也會影響到公交站點吸引強度的分布。附近有大型餐飲、購物、休閑、娛樂設施的站點,其吸引半徑要大于一般車站,而這些站點往往是重要的交通客流節(jié)點,上下車人數(shù)較多。因此,乘客在站點下車的概率與站點之間的距離和站點的吸引強度有關。
1)建立下車概率矩陣
一般來說,客流量是相對恒定的,也就是說,乘客從某站點上車到某站點下車的概率也是相對恒定的。若某線路有n個??空荆òㄊ啄┱荆?,用pij表示乘客在i站上車并在j站下車的概率,建立下車概率矩陣:
P=[Pij]n×n。
2)確定站點吸引強度
(1)依據相反方向對應站點上車人數(shù)
站點吸引率反映了站點對乘客的吸引強度。站點的上車人數(shù)越多,吸引強度就越大;反之亦然。根據戴霄等[14]研究發(fā)現(xiàn),上下行方向客流具有對稱性,即上行各站點上車人數(shù)占總上車人數(shù)的比值與下行對應站點下車人數(shù)占總下車人數(shù)的比值相近,這種對稱性在工作日表現(xiàn)尤為明顯。根據上節(jié)對站點上車人數(shù)的判斷,可進而推算站點的吸引強度:
Ai=Si∑nk=1Sk。
式中:Ai為第i站的吸引率;Si為相反方向對應第i站的上車人數(shù)。
(2)依據站點周邊土地利用規(guī)劃
站點周邊用地類型,即土地利用性質也反映了對乘客的吸引強度。附近有大型餐飲、購物、休閑、娛樂設施的站點,吸引強度較一般站點大。公交站點間距離一般在500~600 m之間,取上限值的一半,即300 m作為計算依據。根據各站點周邊300 m的土地利用規(guī)劃,基于不同性質用地的出行吸引率預測各站點的吸引率:
G*i=∑Likαik。
式中:G*i為第i站的吸引率; Lik為第i站周邊300 m第k類用地的建筑面積占總面積比例; αik為第i站周邊300 m第k類用地單位面積的出行吸引率。
再對線路各站點吸引率進行歸一化處理:
Gi=G*i∑nk=1G*i。
式中:Gi為歸一化處理后的第i站的吸引率。
結合相反方向對應站點上車人數(shù)確定的站點吸引率Ai,與站點周邊不同土地性質吸引率Gi,計算出站點總吸引強度Li:
Li=β1Ai+β2Gi∑nk=1β1Ak+β2Gk。
式中:β1為根據站點上車人數(shù)確定的吸引強度所占權重;β2為根據站點周邊300 m土地利用規(guī)劃確定的吸引強度所占權重。其中,β1+β2=1,取β1=β2=0.5。
3)確定乘車站距分布
根據竇慧麗等[7]研究發(fā)現(xiàn),乘客出行乘坐的公交站點數(shù)量主要集中在一定范圍內。當乘坐的站點數(shù)量達到一定時,該站點的下車人數(shù)最多,即下車概率最大;當乘坐站點數(shù)量過多或過少時,下車概率相對較小,其通常遵循一定的分布規(guī)律。統(tǒng)計檢驗表明,在給定的行駛方向下,乘客乘坐的公交站點數(shù)量服從泊松分布:
P(k)=λke-λk!。
式中:P(k)為乘客乘坐k站的概率;λ為平均乘車站數(shù)。
乘客乘坐站數(shù)至少為1站,至多為首站至末站,即為n,需要對上述概率進行歸一化處理:
P*(k)=λke-λk!/∑nk=1λke-λk!。
式中:P*(k)為歸一化處理后的乘客乘坐k站的概率。
假設從i站上車并在j站下車為乘坐k站,即j-i=k,概率分布可表示為
Wij =λj-ie-λ(j-i)!/∑j-1i = 1λj-ie-λ(j-i)!。
式中:Wij為從i站上車并在j站下車的概率;λ為平均乘車站數(shù),當i站以后的站點數(shù)目小于平均乘車站點數(shù)時,取λ=n-i。
4)確定下車概率
下車概率Pij與站點吸引強度和乘車站距分布有關,即Pij∝Li,Pij∝Wij,由此構成公交某一行駛方向,乘客從i站上車并在j站下車的概率為:
Pij=Li×Wij∑nk=i+1Lk×Wiki 0i≥j。 5)推算線路OD及下車人數(shù) 公交線路OD反映了某條線路站點至站點的OD量,對單條公交線路的站點優(yōu)化、運營評價和運力配置有著關鍵作用[15]。 以特定的某一公交線路的數(shù)據分析為例,用Oi表示乘客在站點i的上車人數(shù),用Dj表示乘客在站點j的下車人數(shù)。線路OD可表示為從i站上車人數(shù)與從i站上車并在j下車概率之積,具體公式如下: Nij=Oi×Pij。 式中:Nij為從i站上車并在j站下車的人數(shù);Oi為第i站的上車人數(shù)。 上式計算得線路各站點OD量,累加后即能推導出各站點下車人數(shù)Dj,則: 起始站點沒有下車乘客,因此,D1=0; 第2個站點下車人數(shù)來自起始站點上車人數(shù),因此,D2=O1×P12; 第3個站點下車人數(shù)來自起始站點上車人數(shù)和第2個站點上車人數(shù),D3=O1×P13+O2×P23; 以此類推,第j個站點下車人數(shù)來自于前j-1個站點上車人數(shù),由數(shù)學歸納法可得任意一個站點下車人數(shù)為: Dj=∑j-1i=1(Oi×Pij)=∑j-1i=1Nij。 3 實例分析 以桂林市24路公交為例,該公交線路共有17個站點, 2020年4月1日共有1 022條公交刷卡數(shù)據,約20萬條公交GPS定位數(shù)據,兩者匹配得上下行方向各站點的上車人數(shù)如表3所示。 上下行平均站點客流為30左右,上行方向客流量較大的站點有航天工業(yè)學院南、航天工業(yè)學院北、電子科大東區(qū)、金雞路口;下行方向客流量較大的站點有十字街解放東路、解放橋、七星公園、東環(huán)車場、金雞路口。這些站點可為區(qū)間車以及大站快車等調度提供參考。 24路公交周邊土地利用規(guī)劃圖如圖3所示,不同用地性質交通吸發(fā)率如表4所示。 上行方向各站點吸引強度根據下行方向的站點上車人數(shù)以及站點周邊土地利用規(guī)劃來確定,上行方向各站點總吸引強度如表5所示。 根據2020年4月1日跟車調查結果,共獲得485條上行方向數(shù)據,初步估計乘車站數(shù)分布概率服從泊松分布,對其進行擬合優(yōu)度卡方檢驗,得到觀測值與期望值如圖4所示。 乘客的乘車站數(shù)集中在一定的區(qū)域內,乘坐站點數(shù)較少或較多的乘客所占比例低。通過分布概率計算,得乘客乘車站數(shù)的泊松均值為7.438,取泊松分布參數(shù)λ=7,計算得到歸一化處理后的泊松分布矩陣。擬合優(yōu)度檢驗計算得P值小于0.01,意味著接受原假設(原假設:數(shù)據泊松分布)。 根據站點吸引強度以及乘車站距,得到下車概率矩陣,即可得到線路OD矩陣及各站點下車人數(shù),如表6所示。 由表6可得,前幾站的下車人數(shù)較少,后幾站的上車人數(shù)較少,這使得前后幾站的通過量較低,這主要是因為其上下行方向乘客的平均乘車站距為7站左右。解放橋、十字街解放東路等站點下車人數(shù)較多,因為其為較大規(guī)模的休閑活動區(qū),可購物、吃飯、觀景,附近住宅區(qū)較多,通勤需求較大,公交線路密集,公交需求大。對于站點上下車較多的站點,可增加區(qū)間車,保持供給平衡。 為評價公交線路OD算法的合理及有效性,將公交線路OD調查值與計算值相對比,采用的評價指標有最大可能相對誤差、相對誤差、相關系數(shù)和誤差指數(shù)[15]。通過多種誤差指標對比判斷線路OD矩陣的準確性。線路OD調查值與計算值誤差結果如表7所示。 從計算結果可看出,最大可能相對誤差、相對誤差均控制在10%以下,相較于未考慮土地利用性質的竇慧麗[7]和劉穎杰[8]等OD推算所得的相對誤差,分別為7.61%和9.3%,有了一定程度的降低。相關系數(shù)為0.87,誤差指數(shù)為0.85,該值表示計算值與實測值間的擬合度,位于0到1之間,越大表示擬合效果越好??傮w而言,計算所得線路OD計算值較好地與線路OD實際值相擬合,所提出的方法具有適用性。 4 結語 本文分析了桂林市公交刷卡數(shù)據結構及異常數(shù)據特征,針對異常數(shù)據進行數(shù)據清理,為特征研究提供了良好的環(huán)境。在現(xiàn)有數(shù)據條件下,提出乘客上下車站點判斷方法。匹配刷卡數(shù)據與定位數(shù)據得到各站點上車人數(shù),通過站點上車人數(shù)和土地利用規(guī)劃判斷站點吸引強度,并結合乘客乘車分布規(guī)律推算各站點下車人數(shù)和公交線路OD矩陣。將計算所得線路OD矩陣與調查實際值對比,驗證了假設和算法的合理性。 公交刷卡數(shù)據研究是一個非常復雜的問題,本文只是針對單條公交線路站點客流推算進行了研究,未來可進行多條線路融合,由線路OD分配至小區(qū)OD,為公交決策者提供更深層次的數(shù)據。參考文獻: [1] 戴霄. 基于公交IC信息的公交數(shù)據分析方法研究[D].南京:東南大學,2006. [2] 王周全. 基于IC卡數(shù)據與GPS數(shù)據的公交客流時空分布研究[D].成都:西南交通大學,2016. [3] 涂一霜.基于IC和GPS數(shù)據的公交客流分析及預測算法研究[D].武漢:武漢理工大學,2017. [4] 梅珊.基于數(shù)據挖掘的城市公共交通客流分析及應用研究[D].武漢:武漢郵電科學研究院,2017. [5] 楊萬波,王昊,葉曉飛,等.基于GPS和IC卡數(shù)據的公交出行OD推算方法[J].重慶交通大學學報(自然科學版),2015,34(3):117-121. [6] LI Y W, MICHAEL J C. A generalized and efficient algorithm for estimating transit route ODs from passenger counts[J]. Transportation Research Part B-Methodological, 2007,41(1):114-125. [7] 竇慧麗,劉好德,楊曉光.基于站點上下客人數(shù)的公交客流OD反推方法研究[J].交通與計算機,2007,25(2):79-82. [8] 劉穎杰,靳文舟,康凱.基于IC信息和概率理論的公交OD反推方法[J].公路與汽運,2010,28(3):31-33. [9] NAVICK D S, FURTH P G. Distance-based model for estimating a bus route origin-destination matrix[J]. Transportation Research Record, 1994(1433): 16-23. [10]崔紫薇,王成,陳德蕾,等.基于歷史出行記錄擴充的公交乘客下車站點推算方法[J].南京大學學報(自然科學),2020,56(2):227-235. [11]NASSIR N, HICKMAN M, MA Z L. Activity detection and transfer identification for public transit fare card data[J]. Transportation,2015,42(4):683-705. [12]劉德平. 北京公交車輛IC卡數(shù)據分析及應用[D].北京:北京理工大學,2016. [13]黃捷. 基于公交IC卡數(shù)據和GPS數(shù)據推斷出行活動類型研究[D]. 成都:西南交通大學,2016. [14]戴霄,陳學武.單條公交線路的IC卡數(shù)據分析處理方法[J].城市交通,2005(4):77-80. [15]章玉. 基于數(shù)據挖掘的動態(tài)公交客流OD獲取方法研究[D].北京:北京交通大學,2010. (責任編輯:曾 晶) Abstract: Bus passenger flow data is the basic data of bus organization and scheduling, line network optimization and station planning. With the development of information technology, comprehensive and accurate bus passenger flow data can be obtained by analyzing and processing bus card data. Taking the bus system data of Guilin as an example, the card data and bus positioning data structure is analyzed firstly. The IC card data is preprocessed to screen out the data needed for passenger flow calculation and the abnormal data is eliminated.Secondly, the card data and positioning data are combined to match the passenger boarding station.Then, the probability of alighting at each station is calculated according to the law of station attraction intensity and passenger travel station number, and the number of people alighting at each station and the line OD matrix are calculated. The attraction intensity is combined with the number of people boarding at the station and the use planning of land around the station. Finally, the error indexes of the calculated results and the actual survey values are analyzed, which shows that the research results are reasonable and accurate. Key words: bus passenger flow forecast; OD calculation; bus IC card; land use