姚志剛,楊杰,2,王元慶,1b
(1.長安大學a 運輸工程學院,b 生態(tài)安全屏障區(qū)交通網(wǎng)設施管控及循環(huán)修復技術交通運輸行業(yè)重點實驗室,西安 710061;2.四川省公路規(guī)劃勘察設計研究院有限責任公司,成都 610041)
隨著移動通信技術在出行領域的廣泛應用,乘客個體出行特征研究受到重視[1-2],大數(shù)據(jù)分析方法使掌握公交乘客個體出行規(guī)律成為可能,為個性化、定制公交服務方案設計提供了依據(jù)[3-4].在公交乘客的長期出行記錄中,包含了個體活動的重復性特征和周期性特征.對于重復性特征,Kieu等[5]以小時、Da等[6]以天為時間單元,度量了時間/空間相同的乘客出行活動頻繁程度.對于周期性特征,Mahrsi等[7]以多天為時間單元,度量了時間/空間相同的乘客出行活動時間間隔及其穩(wěn)定程度.Ectors等[8]強調準確把握乘客個體出行規(guī)律特征,對乘客行為建模、需求預測和市場細分有重要價值.
已有文獻研究公交乘客出行重復性特征的較多,較少涉及周期性特征,且未對多天出行活動規(guī)律的周期或不同的乘客個體加以區(qū)分[9],而且分別對公交乘客出行活動的重復性與周期性進行研究.在重復性特征研究中,主要以乘客單次或全天多次活動集為對象、以60 min 為閾值構建乘客出行時間集或以1 000 m 為閾值構建乘客出行空間集[10-11];范愛華等[12]基于信息熵對乘客進行聚類.Kieu等[13]根據(jù)出行時間或站點空間相似性劃分乘客出行模式(即一個出行模式為一個或多個相同時間/空間特征的出行鏈)并度量各類出行模式的重復程度,Ma等[14]以乘客全天或部分時段(早、晚)出行起訖點(Origin Destination,OD)為對象構建若干天(或周)的公交乘客日出行OD 序列,統(tǒng)計居住地與工作地之間相同出行時間或空間OD 的重復次數(shù).這種采用集計方式劃分出行模式時,未將出行活動或OD集與乘客個體進行關聯(lián),無法區(qū)分不同乘客在相同時間或空間特征下的出行OD,因而獲得的是乘客群體出行模式而非乘客個體出行模式.雖然文獻[15]區(qū)分了不同乘客相同出行時間或空間的差異,構建了乘客個體出行時-空序列并計算其熵率度量公交乘客個體出行重復程度,但熵率計算過程復雜,在數(shù)據(jù)量大、出行序列長時實現(xiàn)困難.在周期性特征研究中,公交乘客出行鏈周期判別是難點:文獻[16-17]基于信息熵(Information Entropy,IE)的環(huán)形周期判別法(Ring-like Periodic Detection Method,RPDM)表達多天出行鏈組合順序,所計算的出行周期穩(wěn)定性比采用周期圖法(Periodograms)和自相關法時的精度高、魯棒性和解釋性強,但采用RPDM按固定時間的OD 劃分出行模式,只能判定出行過程某種組合(如地點A-地點B-地點C)發(fā)生天數(shù)間隔的周期性,也無法對應到乘客個體.
鑒于此,為了依托乘客個體出行模式綜合度量公交乘客的出行活動規(guī)律,本文以空間維度為例按照站點空間集群與乘客日出行鏈特征劃分個體出行模式,并建立綜合規(guī)律性度量模型,實現(xiàn)從個體出行鏈角度而非OD 角度度量乘客出行活動規(guī)律性強度,以避免分別度量重復性與周期性造成規(guī)律特征表征不充分,旨在提出更加精準的公交乘客出行規(guī)律性度量方法.
公交乘客出行重復性指乘客多天內(nèi)采用相同模式出行的頻繁程度.基于IE 度量重復性時,將乘客個體出行活動看作隨機變量X,R為出行模式集合,X的重復程度由出行模式概率分布p(x)決定,研究期內(nèi)出行模式x(x∈R)發(fā)生的概率p(x)為
式中:nx為乘客出行模式x發(fā)生的天數(shù);n為乘客有出行活動的天數(shù).
一般,乘客個體在一定周期內(nèi)出行活動重復程度高時,其形成的出行模式少,即乘客常使用相同模式出行,其概率分布p(x)的左偏特征明顯;出行模式多時其概率分布右偏且分散.類似IE 衡量事件發(fā)生重復程度,當x∈R時X的IE值H(X)為
衡量出行模式重復性特征時,IE 表示乘客采用特定出行模式的平均機會.僅一種出行模式時,IE 值為0,表示出行模式重復程度最高.相反,IE 值越大表示出行模式的重復程度越低.
由于不同乘客在多天內(nèi)的出行強度會有差異,有必要區(qū)分研究期內(nèi)乘客個體出行強度,構建乘客個體出行重復性強度參數(shù)α,其值越小表示重復程度越高.參數(shù)α計算具體為
式中:N為研究期天數(shù);n'為乘客相同模式出行的重復天數(shù).
據(jù)此,可得公交乘客個體的出行重復性Hr為
由于RPDM 用來判定在所有乘客OD 集合中某一特定OD“是”“否”每天出現(xiàn),無法獲得乘客特定出行模式發(fā)生的周期.因此,這里通過改進RPDM方法來識別乘客個體出行模式的周期性特征.
以若干個周或月為研究期的乘客日出行鏈按每天的先后順序進行排列,形成出行鏈序列.將出行鏈序列按天數(shù)長度T(T=2,3,…,N/2)進行分割得到若干個等長的片段,再將每一片段首尾相連形成周期環(huán),若出行鏈序列不能完全被T分割則暫時舍棄掉序列尾部的剩余部分.于是,周期環(huán)中有T個位置分別表示乘客特定出行模式,長度T選擇恰當時周期環(huán)上每一環(huán)的相同位置處對應相同的出行模式,長度T稱為乘客的一個出行周期.因此,建立周期評分函數(shù)來評價出行鏈序列分割的優(yōu)劣程度,即比較不同長度T的分割結果以確定最佳出行周期.相同的出行時間或空間鏈對應于同一類出行模式,則出行鏈序列的分割結果即為乘客出行模式劃分結果.
公交乘客出行周期特征度量不僅識別乘客“是”與“否”出行的周期,更要確定乘客不同出行模式發(fā)生的周期.因此,在識別“是”與“否”出行的基礎上增加出行模式變量j.定義為按長度T分割出行鏈序列時周期環(huán)j(j=1,2,…,MT)上位置i(i=1,2,…,T)處所對應的出行模式,MT為按長度T分割的周期環(huán)數(shù)為出行模式j在位置i出現(xiàn)的概率,位置i的IE 表示該出行模式在位置i出現(xiàn)的穩(wěn)定程度.因此,用周期環(huán)上各位置的平均信息熵(Average Information Entropy,AIE)作為初始的出行周期評分函數(shù),表示用長度T進行出行鏈序列分割的穩(wěn)定程度.初始評分函數(shù)AIE 的值越小,表明按長度T分割的周期性越好.AIE 表示為
由于出行鏈序列分割不完全時暫時放棄了尾部的信息,放棄部分所占比例越低時周期評分結果越可靠.為充分利用尾部信息以使得出行鏈序列分割結果更加可信,這里構造參數(shù)β優(yōu)化初始周期評分函數(shù),參數(shù)β的計算式為
式中:Na為分割出行鏈序列時放棄的尾部長度.
類似地,按不同長度分割出行鏈序列所得的片段(即出行模式)可能存在差異,長度相同而序列片段數(shù)越多時表明周期劃分結果越好,因而構造計算參數(shù)γ,其計算式為
至此,由參數(shù)β與γ及AIE 得到優(yōu)化后的周期評分函數(shù)U(T)為
比較每個T所對應的周期評分值,可得到最小周期評分值U(T*)及其對應的最佳周期長度T*,即
周期評分值越小表示乘客個體出行周期穩(wěn)定程度越高、周期性規(guī)律越強.
公交乘客個體出行過程是多個事件的組合,可以以d 為單位構建日出行鏈進行模式劃分,把乘客多天出行活動表示為日出行鏈序列,相同出行鏈歸為同一類出行模式,則每一乘客有2~N種出行模式.即公交乘客出行規(guī)律性度量是在個體出行模式的基礎上,先以d 為單位度量乘客出行重復性,然后度量其出行周期性,再將重復性和周期性組合形成出行規(guī)律性.鑒于公交乘客出行重復性和周期性度量均使用IE,則乘客個體出行規(guī)律性可表示為
式中:Hc為乘客出行規(guī)律性,其值越小表示乘客出行越規(guī)律(即時間或地點越固定),其值越大表示乘客出行越隨機(即時間變化大或地點分散).
以兩名乘客為例,將重復性與周期性進行組合度量公交乘客個體出行規(guī)律特征如圖1 所示.兩名乘客均有A、B、C、D、E 5 種出行模式,模式A 為8:00 至12:00 和12:00 至18:00 兩段活動構成的出行鏈、模式B 為8:00 至14:00 的出行活動、模式C 為9:00 至17:00 的出行活動、模式D 為10:00 至18:00的出行活動、模式E 為10:00 至15:00 的出行活動.乘客1 和乘客2 在12 d 內(nèi)各類出行模式的發(fā)生次數(shù)相同,均為模式A、B、C 各3 次、模式D 有2 次、模式E 有1 次,則兩名乘客出行重復性相同.然而,乘客1出行活動主要以模式A 與C、模式B 與D 組合且按2 d 周期長度循環(huán),而乘客2 出行活動主要以模式A、B、C、D 為組合且按4 d 周期長度進行循環(huán),乘客2 比乘客1 的周期性特征明顯、規(guī)律程度強.由圖1計算結果可知,組合重復性與周期性度量乘客個體出行規(guī)律是必要的.
圖1 公交乘客出行規(guī)律性度量示例Fig.1 Example of integrated regularity measurement of bus passengers
采集了浙江省海寧市2019 年10 月至12 月共92 d 的公交系統(tǒng)數(shù)據(jù),將車輛全球定位系統(tǒng)(Global Positioning System,GPS)進、出站記錄與乘客的公交智能卡(Intelligent Card,IC)卡號、刷卡時間、所乘線路、上車站點等信息進行匹配,根據(jù)初始5 258 315 條IC 卡(含虛擬卡及手機應用(Application,APP)等)信息推斷乘客下車站點及其時間[18],得到下車站點有效數(shù)據(jù)4 490 528 條.考慮乘客換乘行為,設60 min時間閾值識別乘客的完整單次出行,剔除研究期內(nèi)僅出行一次的數(shù)據(jù),得到83 423 名公交乘客的3 782 596 條出行信息.
以92 d 有效數(shù)據(jù)為基礎,構建站點空間集群以劃分乘客個體出行模式.由于乘客出行空間存在不確定性,即同一乘客每天有可能在相近的公交站點出行,需構建空間集群將乘客出行站點拓展為關聯(lián)的多個站點區(qū)域,以消除其不確定性,即按站點的空間近似程度進行聚類.
設S={S1,S2,…,Sm}為特定乘客出行站點集合,m為集合S中站點個數(shù).站點Sq(q=1,2,…,m)與St(t=1,2,…,m)之間的歐氏距離小于閾值K時,將Sq和St合為一個站點空間集群,這一聚類過程為
1)找出Sq在閾值K內(nèi)鄰近站點St,q≠t.
2)要判斷鄰近站點St是否與Sq合并,需找到與St距離最近的站點Sl,并判斷
①若Sl為Sq,即Sl=Sq,則站點St與Sq合并;
②若Sl與Sq之間距離小于閾值K,則站點St與Sq合并;
③若①和②均不成立,則站點St不與Sq合并.
3)將合并的站點聚合為空間集群,重復步驟1)、2)直到所有站點聚類結束.
站點間距離閾值K取1000m[19]時,可得到83423 名乘客92 d 的站點空間集群及其鄰近站點數(shù)量,具體如圖2 所示.由圖2 可知,空間集群少于10 個的乘客占70.06%,表明少數(shù)乘客的空間集群多;含3 個及以下鄰近站點的空間集群占其總數(shù)的71.57%、每個空間集群平均包含有4.47 個公交站點.
圖2 公交站點空間集群分布Fig.2 Distribution of spatial clusters at bus stops
構建日出行鏈是乘客個體出行規(guī)律度量的基礎,先通過站點集群構建出行空間鏈,然后將相同的日出行鏈歸為同一出行模式,理論上每一名乘客有2~N種出行模式.乘客個體的日出行活動表示為活動鏈.若乘客從空間集群1 出發(fā)依次至空間集群2、空間集群3 后,再回到空間集群1.考慮到乘客前一乘次下車站點的空間集群與后一乘次上車站點的空間集群會不同,將上、下車區(qū)域按先后順序首尾相連,得到日出行空間鏈為“空間集群1-空間集群2;空間集群2-空間集群3;空間集群3-空間集群1”.
將公交乘客個體上、下車站點轉化為空間集群,共得到766 994 種出行模式,人均9.19 種.從出行空間鏈分類結果看,不同乘客個體的出行模式數(shù)量存在差異:公交卡尾號為4135 的乘客有5 種出行模式,其中“空間集群326-空間集群97;空間集群97-空間集群326”的出行模式出現(xiàn)23 d、占其50 d 出行天數(shù)的46.00%;公交卡尾號為4028 的乘客有3 種出行模式,其中“空間集群132-空間集群80;空間集群80-空間集群132”的出行模式出現(xiàn)77 d、占其79 d 出行天數(shù)的97.47%.
以出行模式劃分結果為基礎度量公交乘客個體出行空間規(guī)律特征,可得到圖3 所示重復性、周期性和規(guī)律性值的數(shù)量分布.
由圖3(a)可知,乘客個體出行重復性值呈右偏分布,均值為2.15,小于均值的乘客占53.71%,表明乘客個體出行重復性偏低;由圖3(b)可知,乘客個體出行周期性呈弱左偏分布,均值為0.87,大于均值的乘客占67.47%,表明乘客出行周期性強;由圖3(c)可知,乘客個體出行規(guī)律性值呈右偏分布,值為1.59,大于均值的乘客占54.24%,表明公交乘客出行規(guī)律性不強.
圖3 公交乘客出行規(guī)律特征值分布Fig.3 Distribution of information entropy values for bus passenger travels
進一步,分別統(tǒng)計重復性、周期性、規(guī)律性相同與不同的乘客數(shù)量與比例,得到表1 所示結果.表1中,組合度量方法識別出重復性相同而周期性不同的乘客10 123 名、占總乘客的12.13%,識別出周期性相同而重復性值不同的乘客20 976 名、占總乘客的25.14%,兩者合計37.27%.不過,組合度量方法將174 名重復性值與周期性值均不同的乘客誤判為規(guī)律性相同的乘客,占總乘客的0.21%.因此,組合度量方法能將乘客出行規(guī)律性細分效果提高37.06%,對重復性相同而周期性不同、周期性相同而重復性不同的乘客個體出行規(guī)律特征進行區(qū)分.
表1 乘客出行規(guī)律性度量效果Tab.1 Performance of the integrated regularity measurement of passenger travel behavior
為驗證公交乘客規(guī)律性組合度量效果,選擇甲(公交卡尾號為8960)、乙(公交卡尾號為3922)、丙(公交卡尾號為0857)、?。ü豢ㄎ蔡枮?541)4 名公交乘客進行比較,4 名乘客出行規(guī)律特征計算結果如表2 所示.由表2 可知乘客甲與乘客乙的出行重復性值均為0.050 4,但乘客甲的周期性值(0.133 4)小于乘客乙(0.324 6),即乘客甲比乘客乙的出行周期性強.類似地,乘客丙與乘客丁出行周期性值均為0.150 2,但乘客丙的重復性值(0.415 1)小于乘客丁(1.258 6),即乘客丙比乘客丁的重復性強.
分別統(tǒng)計4 名乘客92 d 的出行空間集群與停留時間,繪制出行序列分布見圖4.圖4(a)的乘客甲和圖4(b)的乘客乙出行天數(shù)均為70 d,各有4 種出行模式,乘客甲的出行活動主要在空間集群572 與233,少量在空間集群249 與107.乘客乙的出行活動主要在空間集群104 與228;少量在空間集群331 與45.雖然乘客甲與乘客乙出行重復性相同,但乘客甲的出行活動明顯以7d 為周期長度且周期性比乘客乙強.結合表2乘客甲規(guī)律性值0.006 7、乘客乙規(guī)律性值0.016 4的結果,表明乘客甲比乘客乙的出行活動更規(guī)律.
表2 代表性乘客個體出行活動的3 種IE值Tab.2 Three kinds of IE of representative individual passenger
圖4(c)的乘客丙和圖4(d)的乘客丁出行周期均為7 d,周期性值相同,但乘客丙每周出行2 d 而乘客丁為3 d,且乘客丙與乘客丁的重復性不同.此外,乘客丙的出行活動主要在空間集群305 與401、少量在空間集群249、233 與137,而乘客丁的出行活動分散在空間 集群392、498、90、495、249 與201,這與表2 乘客丙規(guī)律性值0.062 3、乘客丁規(guī)律性值0.189 2 的結果相一致,表明乘客丙比乘客丁出行活動更規(guī)律.綜合表2 和圖4,表明規(guī)律性度量能準確地區(qū)分乘客個體出行重復性與周期性的差異.
圖4 典型乘客的日出行活動序列Fig.4 Daily travel patterns of representative passengers
為進一步驗證乘客出行規(guī)律組合度量的必要性,在出行天數(shù)大于30 d 的乘客中,選擇規(guī)律性最強(Hc<0.1)的50 名乘客和最弱(Hc>6.0)的50 名乘客,作為兩組進行出行規(guī)律性差異比較,得到圖5,圖5 中每列表示乘客92 d 中的一天出行模式、每行表示一名乘客.
圖5(a)中每名乘客僅有兩種出行模式,模式1為“不出行”、模式2 為“某種特定模式”.規(guī)律性最強的乘客主要以7 d 為周期長度,出行模式單一,周期明顯、重復程度高、規(guī)律性強,這類乘客個體出行狀態(tài)穩(wěn)定、需求穩(wěn)定,活動可預測性強.相反,圖5(b)中每名乘客的出行模式超過80 種,圖例的模式20、60、40、80 為同一乘客的出行模式編號,表示同一乘客不同的出行模式,規(guī)律性最弱的乘客個體出行模式多且變化大、隨機性強,很難觀察到其重復性和周期性特征,這類乘客的需求不穩(wěn)定,難以掌握其出行活動規(guī)律.圖5 表明,規(guī)律性度量能有效區(qū)分乘客出行重復性和周期性.
圖5 不同規(guī)律性公交乘客的出行模式比較Fig.5 Comparison of travel patterns between the regular and irregular passengers
1)對于用乘客群體活動劃分出行模式無法關聯(lián)到乘客個體的缺陷,根據(jù)空間相似性進行站點聚類,按乘客每天活動順序構建日出行鏈序列,由相同站點集群的日出行鏈序列得到公交乘客個體出行模式.
2)針對分別度量重復性與周期性造成出行規(guī)律特征表征不完全問題,對重復性IE 模型和周期性評分函數(shù)進行改進,建立了公交乘客個體出行規(guī)律性組合度量模型.
3)利用浙江省海寧市2019 年10 至12 月共92 d的數(shù)據(jù)進行了方法應用,分別比較了公交乘客個體出行規(guī)律特征、活動空間狀態(tài)和出行模式熱圖,發(fā)現(xiàn)規(guī)律性度量能更好地區(qū)分重復性相同而周期性不同的乘客(12.13%),以及周期性相同而重復性不同的乘客(24.15%),乘客個體出行規(guī)律性度量可以更加準確地把握個體活動特征,其結果可作為個性化公交服務方案設計的依據(jù).
4)由于僅分別選取了4 名和100 名驗證規(guī)律性組合度量的必要性,未來還需更大范圍的檢驗與應用實踐,或者根據(jù)公交乘客個體出行規(guī)律性分類結果來判定該方法的有效性.