王 媛,梁 泉,翁劍成,林鵬飛
(北京工業(yè)大學(xué)交通工程北京市重點實驗室,北京 100124)
伴隨我國城市化進(jìn)程的加快,個性化、全天候的出行方式逐漸成為交通需求的熱點.出租車是服務(wù)于特殊人群的一種公共出行方式,是公共交通的有益補(bǔ)充,具有快速、便捷、安全、時效的特點,滿足了出行者的非經(jīng)常性出行需求.以北京為例,根據(jù)北京市交通發(fā)展研究院交通發(fā)展年報[1],2016年北京市出租車的保有量為6.8萬輛,出租車日均運(yùn)營車輛數(shù)為6.23萬輛,日載客次數(shù)約為80~100萬次,約占城市出行總量的13%.因此,掌握不同時空狀態(tài)下的出租車需求,以平衡出租車的供需關(guān)系正在成為相關(guān)研究和行業(yè)部門的重點關(guān)注.
出租車GPS系統(tǒng)可以實時、全面地記錄居民出行的上/下車位置、時間及距離等與居民出行關(guān)系密切的信息,可以為掌握不同時空狀態(tài)下的出租車需求提供數(shù)據(jù)支持.出租車GPS數(shù)據(jù)中的上/下車位置的上車量與下車量可以很好地反映出租車需求以及出租車需求與區(qū)域之間的關(guān)系.出租車區(qū)域出行需求的時空特征分析,為出租車運(yùn)營管理部門的運(yùn)力調(diào)度、熱點區(qū)域合理規(guī)劃出租車停車地點提供科學(xué)有效的支撐.
目前,國內(nèi)外學(xué)者在出租車出行時間、出行距離等特征分布方面已經(jīng)有大量研究.遲光華[2]將上海市中心城區(qū)分成1萬個矩形區(qū)域,分析各區(qū)域出租車的上客點數(shù)量與出租車載客時長分布.Jiang等[3]利用北京市車輛軌跡數(shù)據(jù)研究出租車、公交車、地鐵3種交通方式的出行距離分布.Veloso M等[4]利用出租車GPS數(shù)據(jù)探索乘客上車點和下車點的位置關(guān)系以及空駛行為特征,并基于出租車歷史軌跡數(shù)據(jù)預(yù)測出租車出行行為.也有研究利用出租車數(shù)據(jù)提取居民出行熱點區(qū)域.張朋東[5]利用探索性空間數(shù)據(jù)分析方法研究城市居民出行行為統(tǒng)計規(guī)律,并利用基于核密度估計的時空聚類方法識別出行熱點區(qū)域.Tang等[6]基于出租車GPS數(shù)據(jù),利用DBSCAN方法對上/下車點進(jìn)行聚類,比較空間相互作用模型在研究購物區(qū)域上下車點行為分析方面應(yīng)用的準(zhǔn)確性和適用性,最后利用最大熵原理進(jìn)行模型的驗證.程靜等[7]利用出租車GPS數(shù)據(jù),對每個地塊的出行量時間序列信息進(jìn)行聚類分析,研究乘客出行的時空分布特征,并結(jié)合POI數(shù)據(jù),探討了不同區(qū)域乘客出行規(guī)律和區(qū)域功能類型的相互關(guān)系.以往的研究主要基于宏觀的角度,未針對不同的區(qū)域類型探究出租車需求的差異性,對不同區(qū)域的出租車出行需求的時空分布特征表達(dá)和深入挖掘不足.
本研究為了提高出租車上、下車點的識別精度,通過關(guān)聯(lián)出租車GPS數(shù)據(jù)與出租車計價器數(shù)據(jù),利用Canopy-K means聚類方法構(gòu)建出租車需求特征聚類模型,將典型居民活動空間聚類,并基于特征圖譜分析、挖掘出租車區(qū)域需求特征,實現(xiàn)出租車出行需求區(qū)域的識別與科學(xué)分類.
出租車基礎(chǔ)數(shù)據(jù)包括出租車GPS數(shù)據(jù)及出租車計價器數(shù)據(jù).本文統(tǒng)計分析2015年5月20個工作日的北京市6.7萬量出租車回傳的數(shù)據(jù)為基礎(chǔ).其中,出租車GPS數(shù)據(jù)每天數(shù)據(jù)量達(dá)到10 G,共有約1億5 000萬條左右的回傳數(shù)據(jù),平均回傳間隔為89 s;出租車計價器數(shù)據(jù)總體較穩(wěn)定,每天有5~6萬輛車發(fā)生交易,交易數(shù)據(jù)量一般為每天90~120萬條.
出租車GPS數(shù)據(jù)包含時間、位置坐標(biāo)和角度等基本信息,以及出租汽車運(yùn)營中的事件(如客人上車、客人下車、鎖車門、開鎖車門等)觸發(fā)回傳數(shù)據(jù),并同時生成狀態(tài)(如空載、滿載、駐車、停運(yùn)等)信息,能夠詳細(xì)記錄出租汽車的實時運(yùn)營狀態(tài).其基本結(jié)構(gòu)如表1所示.
表1 出租車GPS數(shù)據(jù)結(jié)構(gòu)表
計價器數(shù)據(jù)包括了出租車司機(jī)的基本信息、狀態(tài)信息等.其基本結(jié)構(gòu)如表2所示.
表2 出租車計價器數(shù)據(jù)結(jié)構(gòu)
據(jù)統(tǒng)計GPS載客狀態(tài)全天為0(非載客狀態(tài))的車輛中每天有70%左右的車輛是發(fā)生過計價器交易記錄的,載客狀態(tài)精度不滿足要求,因此本文關(guān)聯(lián)出租車GPS數(shù)據(jù)及計價器交易數(shù)據(jù)確定乘客的上車下車位置.
首先對出租車計價器數(shù)據(jù)和出租車GPS數(shù)據(jù)進(jìn)行質(zhì)量分析.
由于受機(jī)器故障、無效出行等問題的影響,計價器數(shù)據(jù)主要的問題集中于載客時間和載客里程的異常.因此,研究將出租車單次出行時間的閾值設(shè)定為2 min≤t≤4 h,將出租車單次出行里程的閾值設(shè)定為0.5 km≤dist≤70 km將不在范圍內(nèi)的數(shù)據(jù)作為異常記錄,在后續(xù)研究中予以剔除.
出租車GPS數(shù)據(jù)的質(zhì)量問題主要集中在重要字段為空、經(jīng)緯度超出北京市經(jīng)緯度范圍、速度海拔等字段超出閾值等方面,因此設(shè)定經(jīng)度范圍為73°33′E~135°05′E (單位:百萬份之一度),緯度范圍為3°51′N~53°33′N (單位:百萬份之一度),海拔為-200~6 000 m,速度為0~160 km/h,超出閾值的數(shù)據(jù)即為錯誤數(shù)據(jù),予以剔除.
之后,利用GPS記錄點生成時間(GPS_TIME字段)與計價器中上下車時間(DAY_TIME和DEAL_TIME字段)進(jìn)行匹配,允許±1 min的時間匹配誤差.
最終,提取車牌號、上車時間、上車經(jīng)緯度、下車時間、下車經(jīng)緯度等信息,為后續(xù)識別典型居民活動空間及聚類、出租車需求特征分析奠定了數(shù)據(jù)基礎(chǔ).結(jié)果數(shù)據(jù)如表3所示.
表3 數(shù)據(jù)關(guān)聯(lián)結(jié)果示例表
基于關(guān)聯(lián)處理后的出租車出行數(shù)據(jù),提取六環(huán)內(nèi)各交通小區(qū)的發(fā)生吸引量,識別典型居民活動空間,并利用出成分分析法將數(shù)據(jù)降維,最后利用Canopy-Kmeans的聚類算法將典型居民活動空間聚類.
本文的研究區(qū)域為北京市,基于已有的1 911個北京市交通小區(qū),利用ArcGIS軟件,空間連接出租車基礎(chǔ)數(shù)據(jù)與北京市交通小區(qū),結(jié)果如圖1所示.從圖中可以看出,從北京市六環(huán)內(nèi)到市郊區(qū)域,路網(wǎng)密度逐漸降低,出租車載客需求逐漸減少,出租車的上、下車點主要集中于北京市六環(huán)以內(nèi),北京市的文化區(qū)、商業(yè)娛樂區(qū)、辦公區(qū)等城市功能區(qū)也集中于六環(huán)內(nèi)[8],因此,本文的研究區(qū)域為北京市六環(huán)區(qū)域內(nèi),共1 367個交通小區(qū).
圖1 北京市出租車上下車點散點分布圖
從關(guān)聯(lián)處理后的出租車基礎(chǔ)數(shù)據(jù)中提取出租車每次乘客上、下車點的地理信息,統(tǒng)計北京市六環(huán)內(nèi)1 367個交通小區(qū)2015年5月份出租車上、下車量的總和,隨后根據(jù)出租車發(fā)生吸引總和將交通小區(qū)排序,并計算各交通小區(qū)出租車上、下車輛總和的累積頻率,選取累積頻率為85%的交通小區(qū)作為典型居民活動空間.最終,選取451個交通小區(qū)作為研究對象.典型居民活動空間分布如圖2所示.
圖2 典型居民活動空間分布圖
主成分分析法是通過將原始指標(biāo)重新組合,得到相互不相關(guān)的綜合指標(biāo),通過計算綜合指標(biāo)的貢獻(xiàn)率,選取盡可能反映原來指標(biāo)包含信息的綜合指標(biāo),達(dá)到降維的目的[9].本文為減少在典型活動空間聚類時計算量和耗時,基于主成分分析法(PCA),利用SPSS軟件將不同區(qū)域出租車需求數(shù)據(jù)降維.
為了更加精細(xì)、有效地探究不同時段出租車發(fā)生吸引量對出租車需求描述的貢獻(xiàn)情況,把一天分成24個時段,分別計算各時段的發(fā)生量和吸引量.構(gòu)建樣本數(shù)據(jù)矩陣如式(1).
(1)
式中,D為熱點小區(qū)時段發(fā)生吸引量矩陣;xmno為在編號為m的交通小區(qū)的n時刻出租車發(fā)生量,其中m=1,2…,451,n=1,2…,24;xmnp為在編號為m的交通小區(qū)的n時刻出租車吸引量,其中m=1,2…,451,n=1,2…,24.
隨后,對樣本數(shù)據(jù)矩陣進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化矩陣Z,并計算Z的相關(guān)系數(shù)矩陣R.計算R的特征值λg和特征向量Ig(Ig=ag1,ag2,…,ag2n),得到k個主成分Fi=ag1Z1+ag2Z2+…+ag2nZ2n,其中i=1,2,…,k.最后,保留主成分的累積貢獻(xiàn)率滿足閾值要求的主成分.本文選擇累積貢獻(xiàn)率超過90%的主成分.具體計算結(jié)果如表4.
表4 主成分分析法計算結(jié)果表
由表4可以看出,前4個主成分的累積貢獻(xiàn)率為91.3%,表明4個主成分可以概括樣本數(shù)據(jù)矩陣包含的信息,其主成分分別用F1,F2,F3,F4表示.
K-means的聚類結(jié)果主要依賴k值和初始聚類中心點的選擇,為了減少根據(jù)經(jīng)驗設(shè)定的k值和隨機(jī)選擇的聚類中心點對聚類結(jié)果的影響,本研究引入Canopy算法確定k值及聚類中心點.
Canopy-Kmeans算法是一種優(yōu)化的K-means算法,具有原理簡單、計算速度快等優(yōu)點.可以減少傳統(tǒng)K-means聚類方法中參數(shù)的設(shè)定對聚類結(jié)果的影響.其步驟如下:首先選擇2個距離閾值T1,T2,將原始數(shù)據(jù)集劃分成若干子集,重新計算同一區(qū)域?qū)ο蟮闹行狞c,利用新的中心點重復(fù)劃分子集,直至中心點的位置不變,其個數(shù)和中心點即為K-means的聚類的k值和初始聚類中心點{a1,a2…,ak}.之后,將k值和初始聚類中心點作為傳統(tǒng)的K-means聚類方法的參數(shù)計算,具體步驟如下:輸入n個w維的原始數(shù)據(jù)集{X1,X2…,Xn},根據(jù)已經(jīng)設(shè)定的k個聚類集,和k個聚類中心點{a1,a2…,ak},利用相似度度量方法將原始數(shù)據(jù)聚類,最終得到k個簇{M1,M2…,Mk}.
本文利用2.2中低維度出租車發(fā)生吸引量矩陣(451*4),對典型居民活動空間進(jìn)行聚類,探索各類型熱點小區(qū)的出租車需求特征.經(jīng)計算k=6.選取歐幾里德距離作為出租車需求特征的相似度衡量標(biāo)準(zhǔn).計算歐幾里德距離公式如式(2).
(2)
聚類結(jié)果如圖3所示,六類聚類結(jié)果依次命名為類型1~類型6.
圖3 出租車發(fā)生吸引強(qiáng)度聚類結(jié)果
對北京市典型居民活動區(qū)域出租車工作日的發(fā)生量和吸引量進(jìn)行統(tǒng)計,為了避免極值對結(jié)果的影響,選取5月份不同區(qū)域各時段出租車發(fā)生量和吸引量的中值作為統(tǒng)計值.具體的北京市典型居民活動空間出租車需求特征如圖4所示.
圖4中由上至下依次是類型1~類型6以小時為時間間隔的出租車發(fā)生量和吸引量的變化情況.
類型1包含的交通小區(qū)數(shù)量較少,包含21個交通小區(qū),但出租車的發(fā)生量較多,一天中有3個高峰時段,分別為08:00—10:00,13:00—15:00和19:00—21:00.16點后相對有減少區(qū)域但減幅較小.類型1出租車吸引量的2個高峰時段為07:00—11:00和13:00—15:00,吸引量相比于發(fā)生量少,峰值出現(xiàn)晚.類型1活動空間主要包括北京西站、北京南站、北京北站附近等區(qū)域,這些區(qū)域主要為交通樞紐區(qū)域,人流量大,因此夜晚的發(fā)生量仍保持較高值.
圖4 各類典型居民活動區(qū)出租車出行特征圖譜
圖5 各類型典型居民活動區(qū)空間分布圖
類型2,全天中出租車發(fā)生量有2個峰值,分別為09:00和14:00,07:00—9:00的出租車發(fā)生強(qiáng)度上升幅度較大,22:00后上車量明顯減少.08:00—11:00為出租車吸引量的高峰時段,其時段長度和量級均高于出租車發(fā)生量.出租車吸引量在09:00有1個小高峰,可能受通勤出行影響.類型2主要分布于北三環(huán)、東三環(huán)附近、三里屯、西單、等商業(yè)娛樂區(qū),出租車發(fā)生量第一個大幅上升趨勢的形成主要受工作人員的通勤影響,而商業(yè)圈的發(fā)生峰值的形成時間相比于通勤出行的峰值有延后趨勢,此類型區(qū)域傍晚至夜晚的出行主要受娛樂性出行影響較大,上車量較為平穩(wěn).
疾病是影響寶寶的重要生活事件,不但表現(xiàn)在身體健康上,還影響寶寶的心理健康,進(jìn)而造就寶寶性格的雛形。雖然疾病是人力無法抗拒的,但是疾病對人的心理和性格方面的消極影響,是可以盡力避免的。
類型3在07:00—10:00的吸引量高于發(fā)生量,發(fā)生量和吸引量在12:00有一個低谷,無明顯的晚高峰變化,發(fā)生量和吸引量無大幅減少.類型3大多集中在三環(huán)內(nèi),空間分布較分散,包括望京、勁松、西二旗等區(qū)域,包含許多商務(wù)樓、寫字樓,可能為混合型就業(yè)區(qū).
類型4包含114個交通小區(qū),全天出租車的上車量較低,發(fā)生和吸引的強(qiáng)度變化均不明顯,發(fā)生量在16:00后開始降低,而在08:00—22:00吸引量保持平均.類型4主要包括天壇公園、國家體育場、奧林匹克公園、北海公園、南鑼鼓巷、朝陽公園、世紀(jì)森林公園等旅游景區(qū)、綠化地帶,園區(qū)附近的居民較少,且旅游景區(qū)白天主要以為游客到達(dá)為主,因此上車量較低.
類型5包含120個交通小區(qū),覆蓋面積較大,且主要分布于東四環(huán)、北四環(huán)與西五環(huán)以及東城區(qū)附近,是主要的居住地,各時段的發(fā)生吸引量基本相等,08:00—10:00為高峰時段,而晚高峰不明顯,20:00后出行量減少,該區(qū)域的居民收入偏低,出行方式一般為公共汽車、地鐵等公共交通.
類型6的涵蓋的交通小區(qū)面積最小,但在各個時段的發(fā)生量均高于其他類型.該區(qū)域08:00—24:00的發(fā)生量均在100次/h以上.全天有3個峰值,分別為11:00、15:00和19:00,其中,在15:00達(dá)到全天最高峰.而吸引量主要顯示通勤特征,早07:00—10:00為早高峰時段,在13:00再次達(dá)到峰值.類型6的區(qū)域主要包括亮馬橋、農(nóng)業(yè)展覽館、機(jī)場、北京大學(xué)第三醫(yī)院以及中關(guān)村等人流量大的綜合型區(qū)域,醫(yī)院及機(jī)場全天出租車發(fā)生量穩(wěn)定在較高值,而在中關(guān)村及亮馬橋工作的人員下班時間不固定,因此通勤高峰相對于其他工作地區(qū)延后.
本文主要探究不同居民活動空間的出租車出行需求時空分布特征.以北京六環(huán)內(nèi)出租車出行為案例,通過分析一天24個時段內(nèi)不同類型的典型居民活動空間的發(fā)生吸引量,觀察到不同類型的空間在不同時段出租車發(fā)生吸引強(qiáng)度具有顯著差異,且符合居住地、就業(yè)區(qū)、商業(yè)娛樂區(qū)、旅游景區(qū)、交通樞紐區(qū)等不同功能區(qū)的居民出行規(guī)律,主要有以下4點結(jié)論.
2)出租車發(fā)生和吸引量最少的區(qū)域為旅游景區(qū),在08:00—22:00出租車吸引量保持平均,出租車發(fā)生量在16:00后開始降低,但降幅較小,說明北京市旅游者對出租車的選擇率低.
3)08:00—10:00為混合居住區(qū)出租車出行的高峰時段,但需求量不高,并無明顯的晚高峰現(xiàn)象.說明居住在四環(huán)—五環(huán)的居民通勤出行大多不選擇出租車,且越靠近城市中心或商業(yè)中心的出行者對出租車的選擇率越高.
4)時間特征方面,一般每日有2個高峰時段,早高峰時段為09:00—10:00,比通勤早高峰延遲1 h,第2個高峰時段為14:00—15:00.出租車的快捷、靈活的特點可以滿足以娛樂、事務(wù)為目的的出行者的需求.
本研究在出租車出行上車點和下車點的獲取方面,關(guān)聯(lián)出租車GPS數(shù)據(jù)和計價器數(shù)據(jù),很大程度的改善了出租車軌跡數(shù)據(jù)上車點和下車點識別誤差較大的問題,可以獲取準(zhǔn)確率高的乘客出行信息.利用主成分分析法和Canopy-Kmeans聚類方法將典型居民活動空間劃分成6類,降低K-means聚類方法的參數(shù)對聚類結(jié)果的影響,提高聚類準(zhǔn)確性.研究方法與結(jié)論可以為更精細(xì)化的交通運(yùn)營管理提供依據(jù).
[1] 北京交通發(fā)展研究院.2016北京市交通發(fā)展年度報告[EB/OL].2016.[2017-2-26].http://www.bjtrc.org.cn/InfoCenter/NewsAttach/2016%E5%B9%B4%E5%8C%97%E4%BA%AC%E4%BA%A4%E9%80%9A%E5%8F%91%E5%B1%95%E5%B9%B4%E6%8A%A5_20161202124122244.pdf.
[2] 遲光華.基于浮動車數(shù)據(jù)的出租車運(yùn)行特點分析[J].交通世界(運(yùn)輸.車輛),2011(10): 84-85.
[3] Jiang S,Guan W,Zhang W,et al.Human mobility in space from three modes of public transportation[J].Physica A Statistical Mechanics & Its Applications,2017,483: 227-237.
[4] Veloso M,Phithakkitnukoon S,Bento C.Urban mobility study using taxi traces[C]//International Workshop on Trajectory Data Mining and Analysis.ACM,2011: 23-30.
[5] 張朋東.基于浮動車數(shù)據(jù)的城市居民出行行為規(guī)律研究[D].長沙: 中南大學(xué),2012.
[6] Tang J,Liu F,Wang Y,et al.Uncovering urban human mobility from large scale taxi GPS data[J].Physica A Statistical Mechanics & Its Applications,2015,438: 140-153.
[7] 程靜,劉家駿,高勇.基于時間序列聚類方法分析北京出租車出行量的時空特征[J].地球信息科學(xué)學(xué)報,2016,18(9): 1227-1239.
[8] 常凱,王愛平.基于功能區(qū)劃分的出租車熱點區(qū)域發(fā)現(xiàn)方法研究[J].電腦知識與技術(shù),2013(9): 5571-5575.
[9] 黃潤龍.數(shù)據(jù)統(tǒng)計分析: SPSS原理及應(yīng)用[M].北京:高等教育出版社,2010.