丁鵬程,楊 明,鄭長(zhǎng)江,朱 健
(1.南京市城市與交通規(guī)劃設(shè)計(jì)研究院股份有限公司,江蘇 南京 210000;2.河海大學(xué),江蘇 南京 210098)
隨著大數(shù)據(jù)時(shí)代的發(fā)展,手機(jī)信令數(shù)據(jù)為通勤交通出行數(shù)據(jù)提供了新的采集手段,從而為提取通勤出行特征以及識(shí)別城市居民職住分布特征提供了有利條件。如何有效地從手機(jī)信令數(shù)據(jù)中提取城市居民通勤出行特征以及職住地分布特征成為研究城市通勤的關(guān)鍵。目前,利用手機(jī)信令數(shù)據(jù)對(duì)城市通勤和職住分布進(jìn)行研究成為了國(guó)內(nèi)外許多學(xué)者關(guān)注和研究的熱點(diǎn)[1-6],國(guó)外有Gur Y[7],以以色列為例,建立了跨城市范圍的手機(jī)信令數(shù)據(jù)交通規(guī)劃模型,并由此建立以色列城市居民交通OD出行計(jì)劃;V Angelakis[8]通過對(duì)手機(jī)信令數(shù)據(jù)的處理與分析,預(yù)測(cè)了國(guó)家和城市聚集層面的出行軌跡,并用可視化視圖,對(duì)整體出行軌跡進(jìn)行表達(dá)與展現(xiàn)。最后,以構(gòu)造OD矩陣的方式,來劃分交通擁擠路段。國(guó)內(nèi)畢曉螢[9]從出行次數(shù)、出行目的分布、出行方式構(gòu)成3個(gè)方面入手,將中小城市出行特征與大城市進(jìn)行比較分析,同時(shí)對(duì)中小城市不同時(shí)期的出行特征進(jìn)行對(duì)比分析;劉杰[10]等根據(jù)手機(jī)運(yùn)營(yíng)商提供的手機(jī)信令數(shù)據(jù),建立交通模型得到各個(gè)交通小區(qū)之間的人員出行OD矩陣及其特性;毛曉汶[11]通過處理原始手機(jī)信令數(shù)據(jù),并從中提取手機(jī)用戶出行特征,用案例的方式分析了區(qū)域的交通出行特征;馬亮[12]利用軌道交通刷卡數(shù)據(jù),提出了絕對(duì)通勤圈和相對(duì)通勤圈的概念,對(duì)軌道交通刷卡數(shù)據(jù)進(jìn)行了數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)匹配、空間映射、數(shù)據(jù)提??;本文通過參考文獻(xiàn)[13-15]提出的基于DBSCAN的空間停留點(diǎn)提取算法對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行停留點(diǎn)的提取,然后提出一種職住停留點(diǎn)劃分方法對(duì)停留點(diǎn)進(jìn)行職住劃分,并構(gòu)建一種通勤出行特征提取模型,最后以案例應(yīng)用的方式驗(yàn)證此方法與模型的可行性。
用手機(jī)收發(fā)短信、主被叫、上網(wǎng)、位置更新、小區(qū)切換等,會(huì)留下相應(yīng)的位置信令數(shù)據(jù)。每一條手機(jī)信令數(shù)據(jù)包括4個(gè)字段,分別是:①M(fèi)SID(匿名加密唯一用戶標(biāo)識(shí)):加密之后每位手機(jī)用戶的唯一識(shí)別號(hào);②TimeStamp(時(shí)間戳,精確到秒):時(shí)間發(fā)生時(shí)刻;③CellID(基站小區(qū)編號(hào)):事件發(fā)生時(shí)刻所處基站小區(qū)編號(hào);④EVENT(事件類型):主被叫、發(fā)短信、接短信、開關(guān)機(jī)、小區(qū)切換、正常位置更新、周期位置更新等。
手機(jī)信令數(shù)據(jù)具有如下三個(gè)特征:①存在大量臟數(shù)據(jù)②數(shù)據(jù)量龐大③信令數(shù)據(jù)時(shí)間間隔不均勻。針對(duì)以上特性,首先進(jìn)行相應(yīng)的數(shù)據(jù)清洗,包括無效數(shù)據(jù)的清洗、漂移數(shù)據(jù)的清洗和“乒乓效應(yīng)”數(shù)據(jù)的清洗。
本文采用文獻(xiàn)[13]提出的基于DBSCAN的空間停留點(diǎn)提取算法對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行停留點(diǎn)的提取。此算法在傳統(tǒng)的DBSCAN空間聚類算法的基礎(chǔ)上進(jìn)行改進(jìn),兼顧到空間和時(shí)間兩個(gè)維度。其主要思路是遍歷數(shù)據(jù)源并找出其中的核心對(duì)象,然后以核心對(duì)象為中心,找出所有與核心對(duì)象密度相連的對(duì)象,將這些對(duì)象圈成新簇,接著找出新簇里所有核心對(duì)象的密度相連的對(duì)象,并將它們加入到新簇,這樣就可以保證簇的邊緣都不是核心對(duì)象。隨后尋找沒有被歸到簇里的對(duì)象,重復(fù)以上的步驟,直至遍歷整個(gè)數(shù)據(jù)源。遍歷整個(gè)數(shù)據(jù)源后,不被任何簇包含的對(duì)象為噪聲對(duì)象。
本文設(shè)計(jì)一種職住停留點(diǎn)劃分方法,如圖1所示??紤]到大多數(shù)通勤者在早6:00是在家中,10:00在單位,所以取一個(gè)時(shí)間段(6:00—10:00),用此時(shí)間段的首尾兩個(gè)停留點(diǎn)簇分別作為居住停留點(diǎn)簇和就業(yè)停留點(diǎn)簇。在得到居民的職住停留點(diǎn)簇后,可以提取出通勤出行距離,并且利用ArcGIS做出居民職住分布圖。
圖1 職住停留點(diǎn)劃分示意圖
(1)
(2)
表1 新數(shù)據(jù)表字段
圖2 數(shù)據(jù)再處理示意圖
經(jīng)過一系列數(shù)據(jù)處理,得到用戶出行識(shí)別數(shù)據(jù)如表2所示。
1)出行次數(shù)。在上面得到用戶出行識(shí)別表中,當(dāng)Stay等于0時(shí),說明手機(jī)用戶處于移動(dòng)之中;當(dāng)Stay等于1時(shí),說明手機(jī)用戶處于停留狀態(tài)。當(dāng)Stay值從1變成0,又從0變成1時(shí),表明用戶完成一次出行。因此可以利用Stay值變化的次數(shù)來表征用戶一天之內(nèi)的出行次數(shù),計(jì)算式如式(3)所示:
(3)
式中:Fj為手機(jī)出行用戶j一天之內(nèi)的出行次數(shù);Stayi為手機(jī)出行用戶j第i條信令數(shù)據(jù)的Stay值。
進(jìn)而,可以用式(4)計(jì)算一天之內(nèi)所有人的平均出行次數(shù):
(4)
式中:F為1 d之內(nèi)所有人的平均出行次數(shù);n為每一個(gè)手機(jī)用戶的所有手機(jī)信令數(shù)據(jù)總條數(shù);M為手機(jī)出行用戶總數(shù)。
2)通勤出行距離。本文用停留點(diǎn)間的直線距離作為出行距離,對(duì)于用戶,第j個(gè)停留點(diǎn)與第j+1個(gè)停留點(diǎn)之間的距離可用式(5)計(jì)算:
(5)
式中:R為赤道半徑,取6 138 km。
因此,手機(jī)用戶i一天內(nèi)的出行距離就可以用式(6)計(jì)算:
(6)
式中:n為手機(jī)用戶i全天內(nèi)停留點(diǎn)的數(shù)量。
可以利用上面的職住停留點(diǎn)的劃分方法,提取出居住停留點(diǎn)和就業(yè)停留點(diǎn),利用式(5)計(jì)算居住停留點(diǎn)簇代表點(diǎn)和就業(yè)停留點(diǎn)簇代表點(diǎn)間的直線距離,即表征為通勤出行距離。
進(jìn)而可以計(jì)算所有手機(jī)用戶的平均通勤出行距離:
(7)
式中:m為手機(jī)出行用戶的數(shù)量;R為赤道半徑,取6 138 km;
3)通勤出行時(shí)耗。居民出行時(shí)間可以通過出行過程中起止停留點(diǎn)之間的時(shí)間差來表征,即用出行開始時(shí)之前的停留點(diǎn)簇中最后一個(gè)停留點(diǎn)時(shí)間記為出行開始時(shí)間tf,用出行結(jié)束之后的停留點(diǎn)簇中第一個(gè)停留點(diǎn)記為出行的結(jié)束時(shí)間tl,則手機(jī)用戶i通勤出行時(shí)耗tc即可用上午就業(yè)停留點(diǎn)簇中第一個(gè)停留點(diǎn)時(shí)間tl與居住停留點(diǎn)簇中最后一個(gè)停留點(diǎn)時(shí)間tf之差來表征,計(jì)算式如式(8)所示。
tc=tl-tf,
(8)
進(jìn)而,居民平均通勤出行時(shí)耗以式(9)計(jì)算:
(9)
其中,m為手機(jī)出行用戶總數(shù)。
4)通勤出行速度。經(jīng)過上面分析,得到通勤出行距離和通勤出行時(shí)耗的計(jì)算式,則通勤出行速度的計(jì)算式如式(10)所示。
(10)
其中,S為用戶的出行速度;tf、Lonf、Latf為出行前的最后一個(gè)停留點(diǎn)時(shí)間、經(jīng)度和緯度;tl、Lonl、Latl為出行后的第一個(gè)停留點(diǎn)時(shí)間、經(jīng)度和緯度;R為赤道半徑,取6 138 km。
進(jìn)而可計(jì)算得到所有用戶的平均出行速度,計(jì)算式如式(11)所示。
(11)
其中,n為用戶的出行次數(shù)總和;m為手機(jī)出行用戶總數(shù);S為所有手機(jī)出行用戶的平均出行速度。
本文利用揚(yáng)州移動(dòng)某一工作日內(nèi)的手機(jī)信令數(shù)據(jù),通過上文的算法進(jìn)行清洗與挖掘,過濾了無效數(shù)據(jù)10 523條,占12%;過濾乒乓數(shù)據(jù)3 142條,約占全部數(shù)據(jù)的3.6%;過濾漂移數(shù)據(jù)1 136條,約占1.3%。經(jīng)過信令數(shù)據(jù)的清洗后,剩余72 891條有效信令數(shù)據(jù),約占全部數(shù)據(jù)的83%。經(jīng)過數(shù)據(jù)處理后的數(shù)據(jù)表如表3所示,表中的字段含義如表4所示。
表3 數(shù)據(jù)處理結(jié)果示例
表4 數(shù)據(jù)處理結(jié)果字段含義表
deltaVstayTstimePointcenterLoncenterLat相鄰點(diǎn)速度差停留點(diǎn)狀態(tài)停留時(shí)間停留開始與結(jié)束時(shí)間停留點(diǎn)簇的中心經(jīng)度停留點(diǎn)簇的中心緯度
下面利用通勤出行特征提取模型提取出行次數(shù)、通勤出行距離、通勤出行時(shí)耗和通勤出行速度,然后與居民出行調(diào)查數(shù)據(jù)進(jìn)行對(duì)比分析,驗(yàn)證此模型的可行性。
1)出行次數(shù)。根據(jù)國(guó)內(nèi)外研究對(duì)“手機(jī)出行”的定義,將停留距離的閾值設(shè)置為500 m,將停留時(shí)間的閾值設(shè)置為10 min,根據(jù)出行次數(shù)計(jì)算式(3)可以算出該工作日揚(yáng)州市居民平均出行次數(shù):
2.61次/(人·日)
揚(yáng)州居民出行次數(shù)統(tǒng)計(jì)表如表5所示,所得結(jié)果可以看出,利用本文的出行特征提取模型對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行提取,可以得出居民出行次數(shù)為2.61次/(人·日),與居民出行調(diào)查分析所得的2.72次相比較為接近,誤差在4%左右,說明本文的出行特征提取模型在出行次數(shù)的提取上具有可行性。
表5 揚(yáng)州居民出行次數(shù)統(tǒng)計(jì)表
2)通勤出行距離。根據(jù)平均通勤出行距離計(jì)算式(7)可以計(jì)算出揚(yáng)州居民的平均通勤出行距離:
揚(yáng)州居民通勤出行距離分布圖如圖3所示,根據(jù)居民出行調(diào)查,居民平均通勤出行距離為3.46 km,大部分集中在5 km以內(nèi)。
圖3 揚(yáng)州居民通勤出行距離分布圖
提取所得結(jié)果與居民出行調(diào)查分析所得的3.46 km相比,誤差在10%左右,誤差原因主要為提取手機(jī)信令數(shù)據(jù)得出的出行距離是直線距離,與實(shí)際的路徑距離相比有所減小,但在可接受范圍內(nèi),大體能表征居民的出行距離,說明本文的通勤出行特征提取模型在通勤出行距離的提取上具有可行性。
利用式(5)對(duì)揚(yáng)州居民通勤出行距離進(jìn)行計(jì)算,可以得到居民通勤出行距離分布圖,如圖4所示。
圖4 由手機(jī)信令數(shù)據(jù)提取的居民通勤出行距離分布
3)通勤出行時(shí)耗。根據(jù)通勤出行時(shí)耗計(jì)算式(8)和式(9)可以分別計(jì)算出每個(gè)手機(jī)用戶的通勤出行時(shí)耗和所有用戶的平均通勤出行時(shí)耗。平均通勤出行時(shí)耗為:
揚(yáng)州居民通勤出行時(shí)耗折線圖如圖5所示,根據(jù)居民出行調(diào)查,全目的方式的平均出行時(shí)耗為22.06 min,主要集中在15 min及30 min左右。
圖5 揚(yáng)州居民通勤出行時(shí)耗折線圖
提取所得結(jié)果20.15 min與居民出行調(diào)查數(shù)據(jù)中的22.06 min相比,誤差在8.6%左右,在可接受范圍內(nèi)。提取居民通勤出行時(shí)耗后,可以得到居民通勤出行時(shí)耗分布圖,如圖6所示,可以看出居民通勤出行時(shí)耗主要分布在5~20 min和25~35 min內(nèi),與居民出行調(diào)查分析大體一致。說明本文的通勤出行特征提取模型在通勤出行時(shí)耗的提取上具有可行性。
圖6 由手機(jī)信令數(shù)據(jù)提取的居民通勤出行時(shí)耗分布
4)通勤出行速度。按照平均出行速度計(jì)算式(11),可以計(jì)算得出揚(yáng)州市居民出行的平均速度:
3.89 m/s=14.004 km/h
利用出行速度計(jì)算式(10)計(jì)算得出的出行速度分布如圖7所示。
圖7 由手機(jī)信令數(shù)據(jù)提取的居民通勤出行速度分布
本文選取揚(yáng)州市居民通勤出行特征分析作為實(shí)例,利用基于手機(jī)信令數(shù)據(jù)的通勤出行特征提取模型對(duì)揚(yáng)州居民手機(jī)信令數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,提取出相應(yīng)的通勤出行特征,包括出行次數(shù)、通勤出行距離、通勤出行時(shí)耗以及通勤出行速度,并與居民出行調(diào)查分析進(jìn)行對(duì)比驗(yàn)證,結(jié)果較為接近。說明本文基于手機(jī)信令數(shù)據(jù)的通勤出行特征提取方法具有可行性,為以后利用手機(jī)信令數(shù)據(jù)進(jìn)行通勤出行特征的研究提供了理論依據(jù)。