柳伍生,周向棟,譚 倩
(1.長(zhǎng)沙理工大學(xué)交通運(yùn)輸工程學(xué)院,長(zhǎng)沙410004;2.中南大學(xué)交通運(yùn)輸工程學(xué)院,長(zhǎng)沙410075)
傳統(tǒng)的公交客流數(shù)據(jù)采集主要通過(guò)人工問(wèn)卷調(diào)查法獲取,需要耗費(fèi)大量的人力、物力,且樣本數(shù)量少、精度不高.近年來(lái),GPS系統(tǒng)、公交IC卡數(shù)據(jù)及地鐵數(shù)據(jù)的廣泛應(yīng)用,為公交乘客出行特征分析、公交出行OD獲取提供了新的思路[1].
國(guó)外對(duì)結(jié)合大數(shù)據(jù)的公交客流OD研究較早,也相對(duì)成熟.James等[2]依托大數(shù)據(jù)分析實(shí)現(xiàn)了對(duì)紐約市的公交客流OD推導(dǎo).Zhao等[3]針對(duì)地鐵—地鐵,地鐵—公交的兩類出行鏈做了公交客流推導(dǎo),Cui等[1]對(duì)于不同規(guī)模的公交客流研究了相應(yīng)的推導(dǎo)方法.國(guó)內(nèi)對(duì)于公交客流OD的推導(dǎo)研究較晚.胡郁蔥等[5]通過(guò)IC卡數(shù)據(jù)挖掘技術(shù)獲取了公交OD矩陣.胡繼華等[6]提出結(jié)合出行鏈的IC卡公交客流研究方法.李海波等[7]提出了公交IC卡與AVL數(shù)據(jù)相結(jié)合的公交客流OD研究方法.綜上國(guó)內(nèi)學(xué)者研究主要集中與單個(gè)IC卡數(shù)據(jù)的下車站點(diǎn)的推導(dǎo)問(wèn)題.
實(shí)際上,復(fù)雜的公共交通環(huán)境及乘客的個(gè)體隨機(jī)出行特征,使得上下車客流往往在一個(gè)區(qū)間范圍內(nèi)波動(dòng).大數(shù)據(jù)背景下,對(duì)同一對(duì)象的觀測(cè)值是多個(gè)的,利用長(zhǎng)時(shí)間觀測(cè)的多個(gè)數(shù)值分析公交客流,并未得到學(xué)者足夠的重視[8].給定一個(gè)區(qū)間客流值給決策者提供更好地支撐,也更有實(shí)際作用.本文通過(guò)區(qū)間不確定性理論與交通大數(shù)據(jù)相結(jié)合,以出行鏈的思想,對(duì)1天刷卡次數(shù)行為進(jìn)行分析,結(jié)合乘客出行站數(shù)和乘客個(gè)體出行特征,以公交IC卡數(shù)據(jù)和GPS數(shù)據(jù)為基礎(chǔ),對(duì)公交客流區(qū)間OD推導(dǎo)方法進(jìn)行系統(tǒng)研究,并以深圳市公交數(shù)據(jù)為實(shí)例進(jìn)行分析研究.
研究數(shù)據(jù)來(lái)源于深圳市公交IC卡和公交GPS數(shù)據(jù),公交線路及站點(diǎn)基礎(chǔ)數(shù)據(jù),需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,剔除不需要的數(shù)據(jù),篩選得到研究需要的公交基礎(chǔ)數(shù)據(jù),如表1所示.依據(jù)車輛編號(hào)與車牌號(hào)之間的對(duì)應(yīng)關(guān)系,終端ID與車牌號(hào)之間的對(duì)應(yīng)關(guān)系,得到公交融合數(shù)據(jù),包括IC卡編號(hào)、車輛編號(hào)、終端ID、刷卡時(shí)間與接受時(shí)間、車輛GPS經(jīng)緯度和站點(diǎn)經(jīng)緯度等.
表1 公交基礎(chǔ)數(shù)據(jù)Table 1 Bus basic data
上車站點(diǎn)的確定可通過(guò)2步數(shù)據(jù)融合得到,第1步為GPS數(shù)據(jù)與靜態(tài)的公交站點(diǎn)數(shù)據(jù)的融合,得到車輛到達(dá)各個(gè)站點(diǎn)的時(shí)間;第2步為車輛到達(dá)各個(gè)站點(diǎn)的時(shí)間與IC卡刷卡數(shù)據(jù)的融合,得到各個(gè)站點(diǎn)在各個(gè)時(shí)間的刷卡數(shù)據(jù),如圖1所示.
圖1 基于公交IC卡數(shù)據(jù)和GPS數(shù)據(jù)的上車站點(diǎn)識(shí)別Fig.1 Based on bus IC card data and GPS data on the site identification
Step 1公交GPS數(shù)據(jù)與站點(diǎn)靜態(tài)數(shù)據(jù)匹配方法.
(1)利用公交GPS經(jīng)緯度坐標(biāo)與站點(diǎn)經(jīng)緯度坐標(biāo)于MySQL數(shù)據(jù)庫(kù)中做笛卡爾積,并進(jìn)行行車方向的判斷(上行或下行).
(2)運(yùn)用SQL查詢語(yǔ)句篩選得到站點(diǎn)經(jīng)緯度坐標(biāo)50 m范圍內(nèi)公交GPS經(jīng)緯度坐標(biāo),選取2個(gè)離公交站點(diǎn)最近GPS經(jīng)緯度Si(xi,yi),Si+1(xi+1,yi+1),相應(yīng)的時(shí)間分別為Ti,Tj.Si,Si+1分別為行車方向上的前后兩個(gè)經(jīng)緯度坐標(biāo)點(diǎn).
(3)到離站時(shí)間判斷.公交站點(diǎn)經(jīng)緯度坐標(biāo)為Pi(xi,yi),若Pi位于Si,Si+1連接線之間,如圖 1(a)所示,則認(rèn)定相應(yīng)的Ti,Tj分別為到站時(shí)間和離站時(shí)間;若Pi位于Si之前,如圖1(b)所示,則認(rèn)定Ti為離站時(shí)間,Ti-30 s為到站時(shí)間;同樣,若Pi位于Si+1之后,如圖1(c)所示,則認(rèn)定Tj為到站時(shí)間,Tj+30 s為離站時(shí)間.
Step 2公交IC卡數(shù)據(jù)和GPS數(shù)據(jù)相結(jié)合的上車站點(diǎn)識(shí)別方法.
對(duì)于公交IC卡任意刷卡記錄i,若刷卡記錄i的刷卡時(shí)間tbi和一對(duì)進(jìn)離站時(shí)間區(qū)間(tak,tck)滿足式(1),則該時(shí)間區(qū)間所在站點(diǎn)Sk即為記錄i的上車站點(diǎn).
圖2 公交站點(diǎn)經(jīng)緯度與GPS數(shù)據(jù)位置關(guān)系判斷Fig.2 Judgment of the relationship between latitude and longitude of the bus station and GPS data location
式中:tak為公交車到站時(shí)間;tck為公交車離站時(shí)間.
實(shí)際公交運(yùn)營(yíng)中,對(duì)于公交多換乘站點(diǎn),大量公交車同時(shí)在站點(diǎn)排隊(duì),導(dǎo)致存在站前站后刷卡現(xiàn)象,為增加認(rèn)知精度,對(duì)進(jìn)離站時(shí)間區(qū)間(tak,tck)進(jìn)行彈性改進(jìn).
式中:φa為公交車到站彈性時(shí)間;φc為公交車離站彈性時(shí)間;φa,φc皆大于0.
區(qū)間不確定性理論在數(shù)學(xué)上叫做區(qū)間數(shù)優(yōu)化方法[8].通過(guò)一個(gè)參數(shù)取值的波動(dòng)區(qū)間集合,對(duì)該區(qū)間集合進(jìn)行優(yōu)化即區(qū)間數(shù)優(yōu)化.區(qū)間數(shù)優(yōu)化方法一般以概率大小來(lái)確定不確定約束及控制的滿意程度,不確定性目標(biāo)函數(shù)的性能由多個(gè)約束保證,具有更好的靈活性和柔性.區(qū)間數(shù)優(yōu)化方法分為3類:①基于區(qū)間數(shù)序關(guān)系的線性區(qū)間數(shù)優(yōu)化,②基于最大最小后悔準(zhǔn)則的線性區(qū)間數(shù)優(yōu)化,③非線性區(qū)間數(shù)優(yōu)化.
本文采用第3類非線性區(qū)間數(shù)優(yōu)化方法,對(duì)于1組數(shù)據(jù)集合A=[μ1,μ2,μ3,…,μn],從小到大排列,得到n個(gè)數(shù)據(jù)排列新集合,采用統(tǒng)計(jì)學(xué)中置信區(qū)間概念進(jìn)行取值優(yōu)化,通過(guò)專家經(jīng)驗(yàn)法和實(shí)際數(shù)據(jù)分析,設(shè)顯著性水平β,置信水平(1-β)×100%,=1-β,A1和A2為置性區(qū)間的兩個(gè)上下界值,得到n個(gè)數(shù)據(jù)的區(qū)間集合[A1,A2].
實(shí)際生活中公交乘客存在1天多次的刷卡行為,對(duì)1天刷卡次數(shù)1~4次的行為進(jìn)行了分析,如表2所示,對(duì)于刷卡次數(shù)超過(guò)4次以上的少數(shù)情況忽略不計(jì).
結(jié)合現(xiàn)實(shí)生活中一卡多刷的現(xiàn)象,提出和人共乘行為的假設(shè):如果同一卡號(hào)的連續(xù)2次以上的刷卡記錄的時(shí)間間隔小于對(duì)應(yīng)站點(diǎn)間的行程時(shí)間,則后幾條刷卡記錄判定為和人共乘記錄.假設(shè)和人共乘人員出行路徑一致,即兩者下車站點(diǎn)一致(假設(shè)1).
結(jié)合刷卡行為分析,結(jié)合實(shí)際運(yùn)營(yíng)中,公交乘客于同一站點(diǎn)間換乘,提出換乘假設(shè):乘客下次刷卡站點(diǎn)位于當(dāng)次乘客刷卡上車站點(diǎn)的下游站點(diǎn)(當(dāng)次乘客線路行駛方向向下)且時(shí)間間隔為當(dāng)次乘車所用時(shí)間波動(dòng)區(qū)間內(nèi),則乘客當(dāng)次乘車的下車站點(diǎn)為下次乘車上車站點(diǎn)(假設(shè)2).
現(xiàn)有公交IC卡信息中無(wú)乘客下車信息,依本研究上車站點(diǎn)確定方法,可得乘客上車站點(diǎn),下車站點(diǎn)通過(guò)乘客個(gè)體出行特征和乘客出行距離相結(jié)合的站點(diǎn)吸引概率模型來(lái)進(jìn)行推導(dǎo).
乘客出行站數(shù)分布具有一定的統(tǒng)計(jì)分布規(guī)律,本文采用泊松分布,即
考慮乘客個(gè)體特征,在任意站點(diǎn)i上車的特定乘客q,在線路l下游任意站點(diǎn)j下車,定義如下:
(1)下游站點(diǎn)集合Eq,運(yùn)行方向下線路l在上車站點(diǎn)i的下方所有站點(diǎn)集合.
(2)高頻站點(diǎn)集合Fq,下游站點(diǎn)集合中,乘客上下車頻次高的站點(diǎn).由于每個(gè)乘客的高頻站點(diǎn)各不相同,F(xiàn)q為乘客前n天上車站點(diǎn)記錄的集合與Eq的交集.Fq中的站點(diǎn)需滿足條件:乘客在該站點(diǎn)的前n天上車次數(shù)高于數(shù)值x.x的取值由前n天的時(shí)間跨度所決定,從而得到高頻站點(diǎn)集合Fq.依據(jù)高頻站點(diǎn)性質(zhì)分類為商業(yè)中心站點(diǎn)集合F1q、學(xué)校中心站點(diǎn)集合F2q、居住中心站點(diǎn)集合F3q、辦公中心站點(diǎn)集合F4q,其數(shù)學(xué)關(guān)系為F1q?Fq,F(xiàn)2q?Fq,F3q?Fq,F4q?Fq,F1q+F2q+F3q+F4q=Fq.
(3)換乘樞紐站點(diǎn)集合Gq,乘客下次乘車的上車站點(diǎn)與當(dāng)次乘車的下車乘車的交集.
表2 1天中不同刷卡次數(shù)行為分析Table 2 Analysis on the behavior of different scrap cards in one day
這3大集合的數(shù)學(xué)關(guān)系為:Gq?Fq?Eq,其中,Gq最多包含1個(gè)元素,Gq,Fq可為空集.
若Gq非空,則站點(diǎn)j對(duì)特定乘客q的站點(diǎn)吸引權(quán)為
若Gq為空,F(xiàn)q非空,則站點(diǎn)j吸引權(quán)重為
式中:Iljqn為在線路l上,特定乘客q在前n天在站點(diǎn)j的上車次數(shù);s為高頻站點(diǎn)集合包含的站點(diǎn)個(gè)數(shù);p為s個(gè)高頻站點(diǎn)的任意站點(diǎn);Ip為乘客q在高頻站點(diǎn)p的近期上車次數(shù).
若Gq為空,F(xiàn)q為空,則站點(diǎn)j吸引權(quán)重為
綜上,考慮乘客個(gè)體特征和乘客出行距離,線路l上在站點(diǎn)i上車的特定乘客q,經(jīng)過(guò)h個(gè)站點(diǎn)在站點(diǎn)j下車的概率為
式中:plijhq為線路l上在站點(diǎn)i上車的特定乘客q,經(jīng)過(guò)h個(gè)站點(diǎn)在站點(diǎn)j下車的概率;為線路l上在站點(diǎn)i上車的特定乘客q,經(jīng)過(guò)h個(gè)站點(diǎn)在站點(diǎn)j下車的出行距離概率;ωlijhq為在線路l上,在站點(diǎn)i上車的特定乘客q,經(jīng)過(guò)h個(gè)站點(diǎn)在站點(diǎn)j下車的站點(diǎn)吸引權(quán)重.
依據(jù)本文上車站點(diǎn)確定方法,得到線路l上的每條公交IC卡刷卡記錄的上車站點(diǎn),再依據(jù)乘客前n天公交IC刷卡記錄,其前n天的上車站點(diǎn)推導(dǎo)仍用本文推導(dǎo)方法,乘客下車站點(diǎn)的推導(dǎo)算法流程如圖3所示.
圖3 下車站點(diǎn)推導(dǎo)流程圖Fig.3 Get off the site to derive the flow chart
線路l前n天k個(gè)站點(diǎn)的公交IC卡刷卡數(shù)據(jù)為:天數(shù)集合N={1,2,…,n},站點(diǎn)數(shù)集合K={1,2,…,k}.依據(jù)上車站點(diǎn)識(shí)別方法,下車站點(diǎn)推導(dǎo)算法得到線路l上各站點(diǎn)的當(dāng)天上下車人數(shù)集合分別為S={αi,i=1,2,…,k} ,X={λj,j=1,2,…,k} ;線路l上前n天的各站點(diǎn)的上下車人數(shù)集合分別為S1={αxi,x=1,2,…,n,i=1,2,…,k},X1={λxj,x=1,2,…,n,j=1,2,…,k} ;對(duì)集合S1,X1中的各站點(diǎn)的前n天上下車人數(shù)進(jìn)行從小到大重新排列得到新集合S2=
由于前n天第k個(gè)站點(diǎn)每天的上下車人數(shù)集合中某些元素不符合常規(guī),不符合該站點(diǎn)下車人數(shù)規(guī)律的變化,結(jié)合區(qū)間不確定性理論,利用區(qū)間數(shù)優(yōu)化理論,對(duì)新集合S2,X2進(jìn)行區(qū)間取值優(yōu)化,本文采用統(tǒng)計(jì)學(xué)中置信區(qū)間概念進(jìn)行取值優(yōu)化,通過(guò)實(shí)際調(diào)查和專家經(jīng)驗(yàn)法,分別設(shè)上下車顯著性 水 平 為β1,β2;置 信 水 平 分 別 為,Yi1和Yi2,Zj1和Zj2分別為兩個(gè)置性區(qū)間的兩個(gè)上下界值.則前n天k個(gè)站點(diǎn)的每天上下車客流區(qū)間值分別為[Yi1,Yi2],,從而得到線路l上前n天的各站點(diǎn)的上下車人數(shù)區(qū)間數(shù)集合分別為
以深圳市21路公交2015年11月13~12月25日全天單向(紫薇閣總站—中山園場(chǎng)站)的IC卡刷卡數(shù)據(jù)為例,對(duì)其中30天工作日每日的公交IC卡數(shù)據(jù)進(jìn)行上車站點(diǎn)確定,共63 891條數(shù)據(jù).通過(guò)計(jì)算分析,彈性時(shí)間φa和φc,分別取進(jìn)站前和出站后的站間行駛時(shí)間的1/5,即依據(jù)上車站點(diǎn)確定法則,通過(guò)編程匹配得到98.2%的數(shù)據(jù)確定上車站點(diǎn),1.4%的數(shù)據(jù)需人工匹配確定上車站點(diǎn),得到每天各站點(diǎn)工作日的上車人數(shù).依據(jù)上車站點(diǎn)的確定數(shù)據(jù)和上車客流區(qū)間推導(dǎo)方法,取顯著性水平β1=0.1.通過(guò)python數(shù)據(jù)預(yù)處理,R數(shù)據(jù)篩選分析處理,得21路公交2015年11月13日~12月25日期間工作日全天單向(紫薇閣總站—中山園場(chǎng)站)的各站點(diǎn)的上車客流區(qū)間數(shù)分布,如圖4和圖5所示.
依據(jù)本研究下車站點(diǎn)客流推導(dǎo)流程法則,進(jìn)行下車站點(diǎn)推導(dǎo),高頻站點(diǎn)集的頻次約束不低于3次,乘客近期出行的歷史數(shù)據(jù)為2015年11月13日~12月25日,判斷出下車站點(diǎn)的數(shù)據(jù)總數(shù)共61 610條,占確定的上車站點(diǎn)數(shù)據(jù)的96.6%,其部分計(jì)算結(jié)果和下車站點(diǎn)客流區(qū)間如表3和圖6所示.
圖4 上車站點(diǎn)確定結(jié)果匯總圖Fig.4 On the site to determine the results of the summary map
圖5 上車客流區(qū)間分布圖(單向)Fig.5 On the bus passenger flow distribution map(one way)
表3 算法部分計(jì)算結(jié)果Table 3 The algorithm part calculates the result
圖6 下車客流區(qū)間分布圖(單向)Fig.6 On the bus passenger flow distribution map(one way)
結(jié)合交通大數(shù)據(jù)和區(qū)間不確定性理論,以公交IC卡和GPS海量數(shù)據(jù)為基礎(chǔ),改進(jìn)上下車站點(diǎn)推導(dǎo)方法,增加進(jìn)離站時(shí)間彈性時(shí)間,提高了上車站點(diǎn)識(shí)別率;依據(jù)乘客個(gè)體特征,對(duì)乘客刷卡行為進(jìn)行分析,提出乘客出行線路的多種組合模式;結(jié)合既有的下車站點(diǎn)距離吸引概率推導(dǎo)模型,提出增加各個(gè)站點(diǎn)吸引權(quán)重,得到乘客下車站點(diǎn)推導(dǎo)模型.最后考慮海量數(shù)據(jù)在同一對(duì)象上具有多個(gè)數(shù)據(jù),加入?yún)^(qū)間不確定性理論,以置信區(qū)間區(qū)間數(shù)優(yōu)化方法得到上下車站點(diǎn)的公交客流區(qū)間,有利于決策者在分析客流時(shí)的客觀性.在此基礎(chǔ)上,以深圳市21路公交IC卡和GPS數(shù)據(jù)為例進(jìn)行實(shí)例分析,驗(yàn)證了方法的有效性.
對(duì)于乘客上下車客流區(qū)間值分布研究,得到每天的客流區(qū)間分布,對(duì)于每個(gè)時(shí)段的客流區(qū)間分布將是下一步研究重點(diǎn),同時(shí)將通過(guò)可靠的居民出行OD數(shù)據(jù)結(jié)合交通大數(shù)據(jù),得到公交交通出行區(qū)間OD.
參考文獻(xiàn):
[1]CUIA.Bus passengerorigin-destination matrix estimation using automated data collection system[D].Boston:Massachusetts Institute of Technology,2006.
[2]BARRY J J,NEWHOUSER R,RAHBEE A,et al.Origin and destination estimation in New York City with automated fare system data[J].Transportation Research Record,2002,18(17):183-187.
[3]ZHAO J H.The planning and analysis implications of automated data collection systems:Rail transit OD matrix inference and path choice modeling examples[D].Cambridge:Massachusetts Institute of Technology,2004.
[4]ALEX C.Bus passenger origin-destination matrix estimation using automated data collection systems[D].Cambridge:Massachusetts Institute ofTechnology,2006.
[5]胡郁蔥,梁杰榮,梁楓明.基于IC卡數(shù)據(jù)挖掘獲取公交OD矩陣的方法[J].交通信息與安全,2012,30(4):66-70.[HU Y C,LIANG J R,LIANG F M.A way to get bus regional OD matrix based on mining IC card information[J].Journal of Transport Information and Safety,2012,30(4):66-70.]
[6]胡繼華,鄧俊,黃澤.結(jié)合出行鏈的公交IC卡乘客下車站點(diǎn)判斷概率模型[J].交通運(yùn)輸系統(tǒng)工程與信息,2014,14(2):62-67.[HU J H,DENG J,HUANG Z.Trip-chain based probability model for identifying alighting stations of smart card passengers[J].Journal of Transportation Systems Engineering and Information Technology,2014,14(2):62-67.]
[7]李海波,陳學(xué)武,陳崢嶸.基于公交IC卡和AVL數(shù)據(jù)的客流OD推導(dǎo)方法[J].交通信息與安全,2015,33(6):33-39.[LI H B,CHEN X W,CHEN Z R.Amethod for estimating origin-destination matrix of public transit based on smart card and AVL data[J].Journal of Transport Information and Safety,2015,33(6):33-39.]
[8]周和平,全維杰,楊啟福,等.基于區(qū)間情景的不確定性O(shè)D反推模型與算法[J].系統(tǒng)工程,2013,31(10):75-80.[ZHOU H P,QUAN W J,YANG Q F,et al.Uncertain optimization model and algorithm of estimating origin-destination matrices based on interval scenarios[J].Systems Engineering,2013,31(10):75-80.]