崔洪軍 孫婉茹 趙 銳 朱敏清 李 霞
(1.河北工業(yè)大學(xué)土木與交通學(xué)院 天津300401;2.河北工業(yè)大學(xué)建筑與藝術(shù)設(shè)計學(xué)院 天津300401)
綠色出行理念被廣泛接受,公共交通以其大運量、高準(zhǔn)點率、低碳環(huán)保等特點被出行者廣泛采用,因而,產(chǎn)生了大量的公共交通出行數(shù)據(jù)。通過海量的出行數(shù)據(jù)可分析出乘客的出行規(guī)律,而這些規(guī)律性信息對于交通規(guī)劃與管理工作有著重要的參照性意義。
咼娟[1]基于出行個體,結(jié)合出行強度、出行行為魯棒性、時空關(guān)聯(lián)譜等對個體的出行特征進(jìn)行了詳細(xì)研究,得出了所研究個體的相關(guān)出行特征;何兆成等[2]針對居民歷史出行,利用DBSCAN聚類算法對其進(jìn)行分析,并提出了基于不同出行模式的出行特征周期性分類方法,并結(jié)合k-means++算法對居民出行的規(guī)律性進(jìn)行了評價;王俊兵[3]利用融合后的公交IC卡數(shù)據(jù)、公交基礎(chǔ)運營數(shù)據(jù)基于時空判別算法對乘客的公交出行鏈進(jìn)行了提取,繼而分析了公交乘客的出行特征;朱亞迪等[4]通過隱馬爾可夫模型對乘客多日的出行鏈進(jìn)行了提取,并結(jié)合用地性質(zhì)、識別了乘客的出行目的;T.Kusakabe等[5]將出行調(diào)查數(shù)據(jù)與IC卡數(shù)據(jù)相融合,基于樸素貝葉斯分類器法提取了IC卡數(shù)據(jù)集中缺失的出行屬性信息;Ma等[6]基于公交IC卡數(shù)據(jù)獨有的時空特性,對乘客的出行行為模式采用空間聚類的方法進(jìn)行識別,并分析了乘客的出行行為規(guī)律;張晚笛等[7]基于多時間粒度對乘客的地鐵出行規(guī)律進(jìn)行了研究。楊光[8]對快速公交乘客的出行的時空規(guī)律特征進(jìn)行了研究。Chu等[9]利用時空關(guān)聯(lián)理論分別分析了智能卡乘客在指定車站的乘降數(shù)量及關(guān)聯(lián)行程。Medina等[10]對出行活動進(jìn)行聚類,并利用分層選擇模型對為期7 d的連續(xù)出行活動進(jìn)行了分析。
由現(xiàn)有文獻(xiàn)可知,學(xué)者多側(cè)重于對乘客出行時空規(guī)律的分析,而對乘客出行規(guī)律自身的排列順序鮮有研究。筆者以關(guān)鍵特征事件發(fā)生順序作為出行重復(fù)性的度量指標(biāo),通過度量不同的事件發(fā)生順序可對出行規(guī)律性進(jìn)行刻畫,以揭示不同時空刻度下的出行時空變化規(guī)律。
出行鏈(trip chain)是指居民在1 d中一系列的實際出行活動依照發(fā)生時間的順序首尾銜接而形成的出行軌跡。出行鏈可以呈現(xiàn)居民的出行方式、出行目的等,而研究出行鏈有助于分析乘客的出行變化規(guī)律。
在實際出行中,大部分居民為了提高效率會盡可能在1個出行鏈中將1 d的出行安排完成,因此,多數(shù)居民的出行規(guī)律是較為固定及簡單的[11]。例如1名乘客在t B1時刻于B1站點上車,在t A1時刻于A1站點下車;完成一系列活動后在t B2時刻于B2站點上車,在t A2時刻于A2站點下車;又經(jīng)過一系列的公交、非公交出行后,在t B n時刻于B n站點上車、在t A n時刻于A n站點下車,完成當(dāng)天的最后1次公交出行;其時空關(guān)聯(lián)特征見圖1。
圖1 公交出行鏈時空關(guān)聯(lián)特征示意圖Fig.1 Temporal-spatial correlation features of the bus-trip chain
公交IC卡刷卡乘車作為乘客乘車的主要付費方式,包含了大量的乘客出行信息,基于自動數(shù)據(jù)采集系統(tǒng)(automatic data collection system,ADCs)可得到海量的電子交易數(shù)據(jù)。利用ADCs進(jìn)行上車站點識別[12-13],基于推斷乘客下車站點所用的經(jīng)典假說[14]推斷乘客的下車站點。經(jīng)過上下車站點匹配,可得到完整的乘客出行鏈;基于此,可對公交出行規(guī)律進(jìn)行分析研究。
每條出行鏈均包含了大量的出行信息,如出行時間、出行起點、出行目的地、逗留時間等。由于每位出行者的通勤方式、出行習(xí)慣等的不同,通常難以對多人多時的海量出行鏈數(shù)據(jù)進(jìn)行量化分析。為了便于查找居民公交出行的規(guī)律,筆者按照出行地點劃分,將居民的出行鏈轉(zhuǎn)化為離散的出行序列。
通過利用排列關(guān)鍵特征事件順序來呈現(xiàn)出行序列,從而表示特征事件的發(fā)生頻率及發(fā)生次序。利用數(shù)學(xué)方法對每名乘客在連續(xù)多日的出行作如下定義:設(shè)乘客個體u出行所對應(yīng)的隨機過程為X u,隨機變量X u表示X u中產(chǎn)生的特征事件。為識別特征事件的唯一性,假設(shè)每個特征事件均為1個離散變量x,x∈Eu(Eu為個體u出行時產(chǎn)生的可能出行特征事件集),且X u滿足離散概率分布p(x)=P{X u=x}。需要指出的是,特征事件的x值由事件屬性的組合唯一確定。因研究對象均為單個出行個體,故在后文省略下標(biāo)u以避免冗余表達(dá)。用隨機過程X={…,X-1,X0,X1,X2,…}表示隨機變量Xi的有序集合,那么特征事件i與j間有序集合的任意有限出行序列可用有序子集={Xi,Xi+1,…,X j-1,X j}表示;其中,-∞<i≤j<+∞,?X。為了一致性和計算方便,筆者假設(shè)所有事件屬性均是離散的。
以地點狀態(tài)對乘客出行鏈進(jìn)行量化處理,其出行序列的生成流程如下。
步驟1。讀取公交乘客的出行鏈記錄,并順序讀取出行者的時間、線路、站點等出行信息。
步驟2。按照研究時間段,構(gòu)造完整的時間序列。
步驟3。對研究時間段內(nèi)的出行信息作如下判斷:若無行程記錄,乘客出行地點不能推斷,則在該次出行狀態(tài)填“-1”;若不能推斷乘客起訖點,出行地點無法推斷,則在該次出行狀態(tài)填“0”;若判斷為乘客所在的第1個且滯留時間最長的地點,則在該次出行狀態(tài)填“1”;若判斷為乘客所在的第2個且滯留時間次長的地點,則在該次出行狀態(tài)填“2”。
步驟4。以此類推,以-1,0,1,2,…補全所有出行狀態(tài),形成的序列即為基于出行地點狀態(tài)劃分的個體出行序列。
由于乘客出行具有時空反復(fù)性,其常規(guī)出行多以居住地為中心,反復(fù)訪問某些固定地點并逗留近似時長[15]。而采用公交出行的乘客,該規(guī)律更為明顯。由此引出出行重復(fù)性的定義:一定時間跨度內(nèi),出行者訪問某一地點并逗留相近時長的反復(fù)程度稱為出行重復(fù)性。出行重復(fù)性可對乘客的出行偏好進(jìn)行定性描述,而對出行規(guī)律的定量分析則需從數(shù)學(xué)角度對重復(fù)性進(jìn)行量化處理。
為了量化出行序列的重復(fù)程度,引入信息熵對出行重復(fù)性進(jìn)行定量描述。在信息論中,1個過程的隨機性或不可預(yù)測性可以用信息熵來衡量,即信息熵可度量對每個隨機變量預(yù)測時所需的平均信息,故在此將描述出行重復(fù)性的信息熵定義為:根據(jù)現(xiàn)有信息推斷乘客未來可能出行的地點所需的信息值,單位為比特(bits)。
基于前文對出行序列的量化過程可知,概率分布p(x)決定了隨機過程X u(即出行特征序列)的規(guī)律性。無論出行特征屬性的順序如何,滿足概率分布p(x)=P{Xu=x}的隨機過程X u的信息熵H(Xu)見式(1)。
式中:X u為出行序列中被看做隨機變量的乘客訪問地點狀態(tài)??偟膩碚f,信息熵為研究時段內(nèi)出行地點被乘客訪問概率的方差。假設(shè)乘客只有唯一備選訪問地點,其出行序列信息熵值為0;隨著乘客出行地點在研究時段中分布越均勻,其信息熵值就越大。
信息熵從乘客訪問地點重復(fù)性角度進(jìn)行考量,但未考慮到時間變化對其的影響。與此同時,隨機變量Xi的條件概率分布也取決于事件Xi-1,Xi-2的分布結(jié)果(p(Xi|Xi-1,Xi-2,…)≠p(Xi)),即出行地點排列的先后順序。因此,本文引入熵率與信息熵形成綜合量化出行重復(fù)性的指標(biāo)。
熵率H'(X)考慮了乘客訪問地點排列順序?qū)Τ鲂兄貜?fù)性的影響,將其定義為子序列隨n逐漸增大時其信息熵H(X)的收斂速率,見式(2)。
式中:H(X1,X2,…,Xn)為由子序列X1,X2,…,X n定義的聯(lián)合變量序列的熵率。
在所有平穩(wěn)隨機過程中式(2)極限必存在[16-17],見式(3)。
式中:p n為長度為n的子地點狀態(tài)序列的聯(lián)合分布概率。
由式(2)~(3)可知:熵率為隨機過程X中每個新生成的特征事件在已有特征事件中的平均信息熵。也就是說,它反映了每個新訪問地點對乘客整體出行地點序列信息熵的影響變化情況。出行序列熵率的上限為出行序列信息熵的值;當(dāng)出行地點狀態(tài)序列中乘客訪問的新地點可由之前的地點狀態(tài)唯一確定時,其熵率為0。
本文基于Burrows-Wheeler轉(zhuǎn)換(BWT)[16]計算熵率,其具體計算過程參閱文獻(xiàn)[18]。在任意平穩(wěn)隨機過程X中,通過BWT轉(zhuǎn)換將有限記憶序列轉(zhuǎn)換為分段無記憶序列,通過該過程可以計算出原始序列過程的熵率[19]。將轉(zhuǎn)化后的序列劃分為等長的s段,根據(jù)式(4)估計每段的結(jié)果分布。其中,N s(x)表示字符x在段落s中出現(xiàn)的次數(shù),任意段落s獲得的信息熵可由式(5)得到。最后,隨機過程X即乘客出行序列的熵率可通過每一段信息熵的均值得到,見式(6)。
總的來說,熵率是對一系列事件中產(chǎn)生新信息多少的度量。之前的數(shù)據(jù)中包含的信息越多,可以為后續(xù)數(shù)據(jù)分析提供的信息就越多,可以挖掘的新信息就越少,即熵率值就越小。因此,熵值率可以用來量化乘客出行重復(fù)性。出行序列熵率越小,乘客的出行重復(fù)性越高,出行規(guī)律性越強。
以石家莊公交智能卡乘客2018年1月1日—31日的IC卡出行數(shù)據(jù)為例,經(jīng)上下車站點識別匹配,共得到46 923條完整的乘客出行鏈。對復(fù)雜的出行鏈按照出行地點的狀態(tài)進(jìn)行量化,以1名持卡人出行記錄為例;其2018年1月1日—31日的部分出行記錄見表1。
表1 持卡人出行記錄Tab.1 Cardholder's travel records
以出行地點狀態(tài)為依據(jù)將其出行特征序列進(jìn)行排序,故可將此持卡人在2018年1月1日—31日期間的出行序列簡化為(1,2,1,2,3,1,2,1,4,3,5)。基于上述方法將石家莊乘客出行數(shù)據(jù)中匹配成功的46 923條出行鏈進(jìn)行量化處理,將其離散為簡化的出行序列,后文將基于此進(jìn)行出行規(guī)律的量化分析。
將乘客46 923條出行特征序列依照3.1和3.2所述方法,計算乘客出行序列的信息熵值及出行特征序列的熵率,其分布情況見圖2~3。其中,信息熵分布的均值為2.53 bits,熵率分布的均值為1.13 bits/事件。
圖2 智能卡乘客出行序列的信息熵分布Fig.2 Distribution of entropy across passengers using smart cards
圖3 智能卡乘客出行序列熵率分布Fig.3 Distribution of the entropy rates across smart card passengers
結(jié)合圖2~3可以觀察到:出行序列的信息熵與熵率二者均值之差為1.4 bits,這意味著考慮乘客出行事件的發(fā)生順序可使乘客出行重復(fù)性量化時的不確定性顯著降低。由出行序列信息熵及熵率的性質(zhì)可知,乘客的出行序列信息熵越大、熵率越小其出行鏈的重復(fù)性越高,出行者的出行規(guī)律性越強。若1個人只在家庭和工作地(p(home)=p(work)=0.5)之間出行,則其熵為1 bits,等同于拋硬幣所產(chǎn)生結(jié)果的信息熵(信息熵為1 bits)。而熵率是考慮了事件發(fā)生順序時信息熵的值,結(jié)合出行鏈的特征,文中考慮了乘客的出行地點序列及目的地逗留持續(xù)時間,有助于出行規(guī)律性分析。
分別選取成人卡、老年卡、學(xué)生卡3類持卡乘客各200名,計算其出行序列的信息熵及熵率。為直觀獲取公交乘客出行規(guī)律,將上述600名乘客出行序列的信息熵及熵率計算值繪制見圖4,并計算不同持卡類別群體的信息熵和熵率均值見表2,以此分析其出行重復(fù)性及出行規(guī)律。
表2 所選乘客出行重復(fù)性量化指標(biāo)統(tǒng)計Tab.2 Quantitative indicators of the repeatability of selected passengers'travel
圖4 所選乘客出行重復(fù)性量化指標(biāo)散點圖Fig.4 Scatter of the quantitative indicators of the repeatability of the selected passengers
圖4(a)中數(shù)據(jù)點雖較為散亂,但總體出現(xiàn)規(guī)律性。借助圖形A將多數(shù)樣本點圈出,圈中樣本點為總量的90.83%,說明樣本總體聚集程度較高,進(jìn)行群體出行規(guī)律分析存在一定意義。由表2可知,總體樣本量信息熵與熵率的均值與理論計算值較為接近,說明該樣本量具有一定的代表性,符合統(tǒng)計學(xué)分析的原則。
通過對比各不同類型乘客出行序列的信息熵及熵率,可以了解不同類型乘客出行的日常規(guī)律。圖4(b)~(d)為各類型乘客出行重復(fù)性的量化散點圖,結(jié)合表2中數(shù)據(jù)可以發(fā)現(xiàn)以下規(guī)律。
1)老年人、成年人、學(xué)生群體出行規(guī)律呈遞增趨勢,在散點圖聚集程度、信息熵和熵率數(shù)值均有體現(xiàn)。老年人群體出行安排相對自由,而成人群體和學(xué)生群體則被通勤時間限制,具有較明顯的出行規(guī)律。
2)成人卡與學(xué)生卡持卡乘客的信息熵和熵率數(shù)據(jù)點均比較集中,即上述2個群體中多數(shù)人出行重復(fù)性一致,出行規(guī)律趨同。通過對比表2中的數(shù)據(jù)得出,持學(xué)生卡群體出行重復(fù)性更高、規(guī)律性更強(熵值較大,熵率值較小)。分析其原因為學(xué)生群體主要通過公交進(jìn)行上下學(xué)出行,時間比通過公交通勤的成年人更為固定和規(guī)律,且成年人出行時間、出行目的、逗留時長比學(xué)生更多樣,故學(xué)生群體出行規(guī)律相對較強。
3)在圖4(b)中,持老年卡乘客的信息熵和熵率計算值相對分散,即該群體中,出行重復(fù)性難以統(tǒng)一描述,很難直接捕捉到老年人群體的出行規(guī)律,因此輔以圖形B1和B2進(jìn)行分析。根據(jù)前文總結(jié)的規(guī)律,B1群體熵值較低、熵率值較高,則其出行無明顯重復(fù)性,以休閑娛樂等彈性出行為主;B2群體與成年人、學(xué)生群體的熵值、熵率值較接近,出行重復(fù)性高,出行規(guī)律明顯,結(jié)合目前城市生活現(xiàn)狀,則可考慮為一部分老年人承擔(dān)家庭中接送學(xué)童上下學(xué)的任務(wù),與學(xué)生群體的通勤規(guī)律相似。
結(jié)合前文分析,選取3種典型出行模式的乘客出行序列進(jìn)行分析:時空常規(guī)出行(學(xué)生卡)、時空常規(guī)出行(成人卡)、時空非常規(guī)出行(老年卡)。為保證所選乘客對其所在群體具有代表性,選取圖4中信息熵與熵率值數(shù)值與樣本均值接近的3名乘客,見表3。
表3 所選乘客出行重復(fù)性度量指標(biāo)統(tǒng)計Tab.3 Quantitative indicators of the repeatability of selected passengers'travel
根據(jù)不同地點的出行序列分布情況,結(jié)合乘客活動的持續(xù)時間,可得到其出行序列分布情況分別見圖5~7。圖中不同圖樣為該乘客的不同出行地點,而黑色代表無法推斷的出行所處位置。
如圖5所示,將該持卡乘客的出行規(guī)律分為2個階段。1月1日—18日,其工作日時段固定訪問3個出行地點,且出行時間、逗留時長均保持穩(wěn)定,單日出行即顯示出明顯規(guī)律;1月18日—31日,其單日出行規(guī)律亦較明顯。而其周末2 d在固定時段按照一定次序訪問3個地點,以雙日出行呈現(xiàn)規(guī)律性。由ADCs數(shù)據(jù)可知,該持卡人所持卡種為學(xué)生卡,持卡人為學(xué)生,于1月19日進(jìn)入寒假。根據(jù)上述信息可以推斷出該乘客前一階段為上、下學(xué)出行,而后一階段可能為課外補習(xí)的出行,周末為娛樂或其他出行??傮w來說,其出行重復(fù)性較強,出行規(guī)律明顯,且結(jié)合圖4(d)可知,該乘客具有群體代表性,對公交線路、時刻表規(guī)劃的改進(jìn)具有重要意義。
圖5 所選卡號為A的乘客出行活動序列Fig.5 Activity sequence of Cardholder A
由圖6可知,該持卡乘客1個月內(nèi)出行規(guī)律較明顯,每周以工作日和休息日2種出行模式交替出現(xiàn),具有明顯的通勤特征。有別于圖5乘客的是,該乘客工作日出行地點更加多樣性,可能由其工作性質(zhì)決定,且該乘客在每周一13:00—15:00均會產(chǎn)生未知出行,考慮其采用了其他出行方式(如出租車)完成本次出行。雖然該乘客工作日出行模式并不完全一致,但總體呈現(xiàn)規(guī)律性,出行重復(fù)性較強,此結(jié)論亦可由表3信息熵與熵率的值判斷得出。
圖6 所選卡號為B的乘客出行活動序列Fig.6 Activity sequence of Cardholder B
圖7直觀來看出行規(guī)律較模糊,出行重復(fù)性低,出行規(guī)律不明顯,但其出行序列的信息熵要高于均值,可以推測出該持卡用戶的出行應(yīng)較為規(guī)律。分析圖像可以發(fā)現(xiàn),該持卡乘客的出行序列間隔2周顯示出重復(fù)性,即第4周、第5周與第1周、第2周出行序列重復(fù)性。結(jié)合表1,可作出如下推斷:該用戶在接下來的日歷周期中有較大的可能會重復(fù)第3周的出行規(guī)律。
圖7 所選卡號為C的乘客出行活動序列Fig.7 Activity sequence of Cardholder C
以往的出行規(guī)律研究(僅針對公交)大多通過獲得某地區(qū)的出行數(shù)據(jù),從中得到出行時間、出行地點、出行目的、逗留時長等信息,通過概率統(tǒng)計的方法對該地區(qū)的出行偏好進(jìn)行“解讀”,大多在數(shù)據(jù)獲取、數(shù)據(jù)處理以及規(guī)律分析結(jié)果應(yīng)用等方面進(jìn)行創(chuàng)新及改進(jìn)。以圖7中卡號為C的乘客為例,可以分析其出行時間在06:00—08:00的概率最高,為48.39%;除居家外,該月在地點2逗留時間最長,時長69 h。從這個角度來看,該乘客出行規(guī)律并不明顯。
本文引入信息熵和熵率將出行鏈重復(fù)性進(jìn)行量化,在此基礎(chǔ)上對出行數(shù)據(jù)的分析更多的是1種“辨識”:利用量化指標(biāo)判斷群體或個人出行規(guī)律的強弱性。本文研究可根據(jù)信息熵和熵率的聚集程度(見圖4)判斷群體出行是否有相似規(guī)律,從宏觀掌握居民公交出行的群體特征;也可根據(jù)信息熵和熵率數(shù)值大小判斷個人出行是否有規(guī)律,從微觀層面分析乘客個人出行規(guī)律。同樣以圖7中卡號為C的乘客為例,根據(jù)信息熵高于樣本均值2.53 bits、熵率低于樣本均值1.13 bits/事件,分析其出行具有一定的規(guī)律性,通過分析發(fā)現(xiàn)該持卡乘客的出行序列間隔2周顯示出重復(fù)性。
雖然2種分析方法的角度不同,但對出行規(guī)律的分析是相互補充、相互完善的。通過綜合考慮2種分析角度,進(jìn)行出行規(guī)律強弱判斷與出行規(guī)律挖掘,可有針對性地對不同群體制定更為精細(xì)化、人性化的運營服務(wù)對策,從而為提高公交服務(wù)水平、緩解城市擁堵壓力提供新思路。
本文基于公交IC卡數(shù)據(jù),利用自動數(shù)據(jù)采集系統(tǒng)中數(shù)據(jù)集確定乘客的上車時間,并基于出行鏈經(jīng)典假設(shè)對乘客的公交出行鏈進(jìn)行了提取。通過數(shù)學(xué)方法結(jié)合隨機過程將出行者多日的出行鏈離散為出行序列。利用信息熵和熵率對乘客的出行重復(fù)性進(jìn)行量化,并以石家莊公交智能卡乘客出行數(shù)據(jù)為例進(jìn)行了實證分析。結(jié)果表明,乘客出行重復(fù)性可通過信息熵和熵率進(jìn)行量化,信息熵越大、熵率越小,其出行重復(fù)性越高。
本文是以公交IC卡數(shù)據(jù)為基礎(chǔ)的分析方法,多適用于以公共汽車為主的中小城市公交規(guī)律分析??紤]到大城市軌道交通、共享交通的發(fā)展,需要綜合廣義公交系統(tǒng)多源數(shù)據(jù)信息,從而進(jìn)一步分析居民公交出行規(guī)律。