湯長猛 廖海明 吳乃星 董路熙 張瑞 李燕敏 高翔
摘要:隨著大數(shù)據(jù)的崛起,近幾年基于手機數(shù)據(jù)來研究交通問題成為一大熱點。論文的研究工作得到了深圳市科技創(chuàng)新委員會深圳市科技計劃項目技術(shù)攻關(guān)類(項目編號JSGG20160229113054194,下達文號深發(fā)改【2016】627號)深圳市戰(zhàn)略新興產(chǎn)業(yè)發(fā)展專項資金的支持。由于土地利用對于城市規(guī)劃和發(fā)展的重要性不斷提升,本文提出了一種基于手機數(shù)據(jù)的城市功能區(qū)分類算法。首先選取不同時期的居民數(shù)量來表征土地的語義特征,然后應用無監(jiān)督k均值聚類算法對城市功能區(qū)進行識別,最后確定城市功能區(qū)的四種模式,如工作區(qū)、居住區(qū)、臨時工作區(qū)和混合區(qū)?;诒疚牡难芯砍晒蓪ξ磥沓鞘幸?guī)劃起到?jīng)Q策支持的作用,具有一定的現(xiàn)實意義。
關(guān)鍵詞:手機數(shù)據(jù);出行區(qū)域權(quán)重;K-MEANS;功能區(qū)
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)25-0285-05
Mobile Phone Data Based Urban Functional Area Classification Algorithm
TANG Chang-meng 1, LIAO Hai-ming 1, WU Nai-xing 1, DONG Lu-xi 2, ZHANG Rui 2, LI Yan-min 2, GAO Xiang 2
(1. China Unicom Company Limited, Shenzhen 518048, China; 2. Shenzhen Institutes of Beidou Applied Technology Ltd, Shenzhen 518035, China)
Abstract: With the development of big data,mobile phone data are used to study the characteristic of transportation system in the last few years. Since the importance of land use to urban planning and development, in this paper, an algorithm of urban functional area classification is proposed based on mobile phone data.Firstly the number of residents in different period are selected to characterizesemantics of land. Then an unsupervised K-means clustering algorithm is applied to identify urban functional area. Four patterns of urban functional area could be identified such as workspace, residence, temporary workspace and mixed area. All these findings could be helpful to the government for urban planning in the future.
Key words:Mobile phone data; Travel zones weights; K-MEANS; Functional area
交通小區(qū)是交通規(guī)劃中研究交通發(fā)生與吸引、交通分布的而劃分的交通調(diào)查基本空間單位。而交通小區(qū)與土地利用、居民的各次出行行為密切相關(guān)。傳統(tǒng)的出行信息是通過人工調(diào)查收集,非常耗時且浪費資源,然而傳統(tǒng)的集計分析方法,容易割裂出行模式的多樣性與發(fā)生各類活動前后之間的關(guān)聯(lián),很難反映居民在城市功能區(qū)的時空特征。交通出行需求與城市功能區(qū)緊密聯(lián)系,一方面,人口的快速增長增加功能區(qū)的負擔,尤其是在工作區(qū)和居住地等[1-2]。另一方面,人們與城市功能區(qū)之間的互動隨時發(fā)生。人們遷移到不同的功能區(qū),從事不同的社會活動。因此,不同類型的土地利用(例如,人們通常離家外出工作和返回居住地,而在CBD中可以找到相反的模式),就會出現(xiàn)各種各樣的出行行為[3-4]。
隨著數(shù)據(jù)采集技術(shù)的快速發(fā)展,越來越多的交通出行數(shù)據(jù)被采集,將出行多樣性與不同類型的土地利用建立聯(lián)系,手機數(shù)據(jù)是近年來用于識別功能區(qū)域的最重要的數(shù)據(jù)之一[5-7]。Tranos和Nijkamp分析了旅游模式與官方土地利用類型劃分之間的關(guān)??系,然后建立出行模式的時空模型,出行模式多樣性可以用來確定土地利用[8-9]。Zhong等提出了一種基于智能卡系統(tǒng)的交通數(shù)據(jù)來推斷土地利用水平的城市功能的方法。建立了出行需求、移動模式、建筑物等級三者結(jié)合的空間模型。首先,基于概率貝葉斯模型推導出移動模式。其次,通過基于空間日?;顒优c周邊地區(qū)相結(jié)合的統(tǒng)計來推斷土地功能。這種方法在實際應用中具有很高的準確性[10]。同樣,Cecaj和Mamei等研究了基于手機數(shù)據(jù)自動檢測城市發(fā)生的事件。他們的方法可以結(jié)合多種信息來源來改善結(jié)果[11]?;趦蓚€數(shù)據(jù)集(CDR和Twitter)將研究成果在兩個城市運行,分析此方法的優(yōu)點和缺點。CDR數(shù)據(jù)可用于研究城市出行行為的類似模式,并確定特定類型的土地使用[12-14]。Liu等研究基于GPS數(shù)據(jù)的兩種特定土地用途之間的空間相互作用模式,并驗證空間相互作用模式的相似性。土地使用分類通過出行總時間變化和空間交互模式之間的變換來優(yōu)化。而另一些研究方法則強調(diào)根據(jù)POI數(shù)據(jù)確定功能區(qū)[15]。Yuan等使用基于線性回歸模型來發(fā)現(xiàn)每個地區(qū)的功能。但他們忽略了關(guān)于空間交互的詳細信息,導致了分類出現(xiàn)錯誤功能塊。應適當處理空間相互作用的因素以改善土地利用分類[16]。
與以往的研究不同,本文的兩個貢獻可以總結(jié)如下:
1) 基于模擬手機數(shù)據(jù)的不同位置群體流動性比較;
2) 基于群體流動特征的無監(jiān)督聚類方法識別功能區(qū)。
綜上發(fā)現(xiàn),國內(nèi)外都有基于手機定位數(shù)據(jù)的定位原理、采樣精度等方面進行出行調(diào)查的相關(guān)研究工作。由于手機信令數(shù)據(jù)所包含的信息更加豐富、可獲取性更高,在大數(shù)據(jù)時代更有利于城市出行需求與功能區(qū)進行定性定量的評估。因此本文的主體部分安排如下:第一、二部分介紹本研究中使用的手機記錄,包括數(shù)據(jù)描述和數(shù)據(jù)預處理。第三部分提供了兩個重要的模型指標:人口密度分布(不同區(qū)域的用戶數(shù)量)和日?;顒泳奂拖⑻卣鳎總€10分鐘用戶數(shù)量在同一位置的分布)。之后采用無監(jiān)督算法來識別城市功能區(qū)域。第四部分展示結(jié)果、可視化。最后,第五部分給出結(jié)論。
1 研究場景說明
1.1 數(shù)據(jù)說明
本文采用模擬的手機信令數(shù)據(jù)。數(shù)據(jù)內(nèi)容主要包括用戶編號(USER_ID)、時間戳(TIMESTAMP)、經(jīng)緯度(LONGITUDE、LATITUDE)、小區(qū)編號(CELL_ID)。
1.2 基于VORONOI城市空間結(jié)構(gòu)建模
根據(jù)手機基站定位用戶的位置精度為60-1500m,基站密度越大,定位精度越高。本文采用Voronoi圖來表示手機基站圖,由基站所在的經(jīng)緯位置共定義所有的基站小區(qū)。
本文研究對象是居民出行與城市功能區(qū)的有效對應關(guān)系,需要對模擬原始數(shù)據(jù)進行預處理,針對“噪聲”數(shù)據(jù)的處理步驟主要有無效數(shù)據(jù)過濾、乒乓數(shù)據(jù)清洗,具體流程見圖1。
2 數(shù)據(jù)預處理
模擬原始手機信令數(shù)據(jù)存在大量無效“噪聲”數(shù)據(jù),對后續(xù)提取人口分布和群體日?;顒泳奂拖⑻卣鞯难芯慨a(chǎn)生干擾。因此本節(jié)將從以下三個方面對數(shù)據(jù)進行預處理,以提高數(shù)據(jù)質(zhì)量。
2.1 去除基站沒有切換的靜止用戶
手機定位信息受到諸多因素的干擾,例如相鄰基站的信號干擾、移動網(wǎng)絡(luò)建設(shè)的限制等,導致部分記錄中沒有記載該基站對應的通訊任務,體現(xiàn)在模擬原始信令數(shù)據(jù)中基站編號為-1,所以刪除這部分無用數(shù)據(jù)。
針對上述步驟并不能完全剔除靜止用戶數(shù)據(jù),手機信令數(shù)據(jù)中包含一部分用戶在某天一個時段內(nèi)基站沒發(fā)生切換的記錄,因此基站沒有變化行為的連續(xù)記錄對于分析居民出行鏈是沒有意義的。本文的處理步驟具體如下:
Step1:找到一天內(nèi)相同基站編號中連續(xù)時間段內(nèi)第一條和最后一條的記錄;
Step2:刪除中間通訊記錄;
Step3:保留基站發(fā)生切換的時間戳和相應的經(jīng)緯度。
2.2 信令數(shù)據(jù)匹配
本文只研究居民出行鏈的提取方法,因此不考慮不同地區(qū)的基站對應情況。處理步驟具體如下:
Step1:保留研究范圍內(nèi)同一時間段的連續(xù)兩次記錄的基站編號;
Step2:刪除其余不在研究范圍的通訊記錄。
2.3 信令數(shù)據(jù)去噪
某些情況下,手機信號在極短時間內(nèi)從臨近基站切換到相對較遠的基站,在一段時間后又切回臨近基站,這種現(xiàn)象稱為“乒乓效應”。相對靜止數(shù)據(jù),乒乓數(shù)據(jù)的虛假定位信息對城市功能區(qū)中的用戶日常活動聚集與消散研究產(chǎn)生更大干擾。由于信號突然切換到較遠的基站,需要對數(shù)據(jù)之間的設(shè)置速度閾值[vmin、vmax],進行初步判斷。然后根據(jù)數(shù)據(jù)中前后三條數(shù)據(jù)之間的距離權(quán)重比m,進行進一步判斷。具體尋找步驟如下:
Step1:設(shè)初始值n=2,順序選取USER_ID中第n-1、n、n+1三條數(shù)據(jù);
Step2:判斷速度是否滿足:計算數(shù)據(jù)表中經(jīng)緯度和時間戳的比值,得到相鄰兩條記錄之間的速度差[vn],判斷[vn]小于[vmin即20kmh]且[vn]大于[vmax即100kmh],則判定n為漂移數(shù)據(jù);
Step3:判斷距離權(quán)重比m是否滿足:在上述情況下,計算n-1、n、n+1相鄰三條記錄之間的距離差分別為[?dn-1,n、?dn,n+1],距離差比值即為m。判斷m大于3,則判定n為漂移數(shù)據(jù);
Step4:刪除上述不符合條件的數(shù)據(jù)。
按照上述的數(shù)據(jù)預處理,得到高質(zhì)量、較為完整的手機信令數(shù)據(jù)。
3 城市功能區(qū)的識別方法
3.1 基于連續(xù)時間間隔的人口密度特征提取方法
為了分析不同時期的人口分布,在本節(jié)中選擇人口分布特征作為功能區(qū)識別的一個指標。由于手機記錄不能反映每個基站用戶的實時數(shù)量,所以在每個基站中計算用戶的相對數(shù)量?;c零時間是凌晨3點。然后統(tǒng)計每個基站的用戶相對數(shù)量。
統(tǒng)計規(guī)則如下:
Step1:如果用戶是以前沒有記錄的新用戶,則相應基站的相對用戶數(shù)加1;
Step2:如果用戶以前已經(jīng)記錄過,那么我們應該判斷用戶是移動到基站還是留在基站。以下的條件將被判斷;
Step3:如果用戶進入,則前基站的用戶數(shù)減1。如果是停留,基站的用戶數(shù)量保持不變。
圖2 工作日群體出行量分布
人口分布可以反映不同時期的出行需求見圖2。上午7時30分至10時之間,大量居民遷入城市中心和市中心。這種現(xiàn)象在上午10點30分消失。并且晚上19點出現(xiàn)峰值,出行量隨時間逐漸下降。而在城市副中心周圍也可以發(fā)現(xiàn)聚合現(xiàn)象。這些城市副中心通常有該區(qū)域的交通樞紐匯集,并且轉(zhuǎn)移某一地區(qū)的居民。結(jié)果顯示:城市中心日均出行量的平均值大于郊區(qū)。
3.2 基于群體日?;顒泳凵⑻卣魈崛》椒?/p>
為了研究每個基站的活動特征,特征變量設(shè)定為BT,F(xiàn)n為BT定義的一個二維矩陣BTn,[n∈1,…,8061]。 研究中每10分鐘統(tǒng)計一次用戶移動量。每個元素[ Fnt,ε]包含在[t∈1,…,7]和[ε∈1,…,144]中每10分鐘時間間隔[ε]期間BTn的移動量。那么在一天總時間內(nèi)的移動量包含144個時間特征,[Xnε]的特性計算如下:
在工作日和周末兩種時間模式下,人的活動方式和活動量是不同的。兩種不同時間類型的用戶聚集和耗散特征:工作日(周一至周五,包含[α1])和周末(周六和周日,包含[α2])。每天的聚合和消散特征被定義為(++表示為串聯(lián)):
[Xn,αiε=1αit∈αiFnt,ε] (2)
[Xn=Xn,α1+Xn,α2] (3)
其中,[Xn]是每個基站每天的活動聚集和消散特征,
最后選取的每10分鐘的用戶日?;顒泳奂拖⑻卣?,為了消除不同量綱和數(shù)量級對分類結(jié)果的影響,對選取148個特征值進行歸一化,計算公式如下:
[y=x-xminxmax-xmin] (4)
3.3 基于時空特性的加權(quán)K-MEANS算法
通過采用K-MEANS聚類方法尋找各時間序列間的相似性關(guān)系,k個初始類聚類中心點的選取對聚類結(jié)果具有較大的影響,因為在該算法第一步中是隨機的選取任意k 個對象作為初始聚類的中心。相反我們的改進的算法首先根據(jù)城市功能區(qū)中人口密度和日?;顒泳凵⑻卣鞫x初始簇,然后該算法在每次迭代中對數(shù)據(jù)集中剩余的每個對象,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。當考察完所有數(shù)據(jù)對象后,一次迭代運算完成,新的聚類中心被計算出來。如果在一次迭代前后,J的值沒有發(fā)生變化,說明算法已經(jīng)收斂。收斂函數(shù)和算法目標函數(shù)計算公式如下:
[J=j=1kj=1njxji-cj2n-1] (5)
[intra-cluster= 1Ni=1kXn∈CiXn-ci] (6)
[inter-cluster=mini≠jci-cj2] (7)
K-MEANS聚類算法的基本工作過程:
輸入:聚類個數(shù)k,以及包含n個數(shù)據(jù)對象的數(shù)據(jù)庫。
輸出:滿足方差最小標準的k個聚類。
Step1:從N個文檔隨機選取K個文檔作為質(zhì)心;
Step2:對剩余的每個文檔測量其到每個質(zhì)心的距離,并把它歸到最近的質(zhì)心的類;
Step3:重新計算已經(jīng)得到的各個類的質(zhì)心;
Step4:迭代Step2~Step3步直至新的質(zhì)心與原質(zhì)心相等或小于指定閾值,算法結(jié)束。
4 基于加權(quán)K-MEANS城市功能區(qū)識別算法結(jié)果分析
4.1 基于時空特性的加權(quán)K-MEANS聚類算法結(jié)果分析
當聚類中心k = 3時,發(fā)現(xiàn)結(jié)果將很多差異明顯的曲線歸為一類,確定三種不同類型的土地利用:1)當?shù)谝粋€高峰(12a.m.)高于第二個高峰(7p.m.)時,表示CBD和/或工業(yè)區(qū); 2)第二高峰高于第一高峰時,表示居住區(qū);3)兩峰高度相同時,表示混合區(qū)域。盡管如此,除了聚類中心k = 3所確定的明顯區(qū)分外,我們還有興趣確定各種土地利用方式。但聚類中心k = 5時,分類結(jié)果將很多明顯的趨勢一致、個別特征不一樣的曲線分為兩類。因此,本文的其余部分將著重分析聚類中心k = 4的情況,聚類中心k = 4時,分類結(jié)果將主要特征相對集中在同一類。因此功能區(qū)的四個典型特征被確定見圖4。
第一類商業(yè)區(qū):該區(qū)域的人口聚散特點是上午人口在快速流入,午后達到高峰,下午逐漸回落,到凌晨或落到全天最低點。
第二類臨時工作區(qū):上午和下午各有一個高峰,正午時間人少,因此該曲線代表了只有工作時間才有人口聚集的特別,而商業(yè)區(qū)在正午沒有因人口流出產(chǎn)生低谷。
第三類居住區(qū):晚上人最多,上午人口流出,中午達到最低點,下午人口慢慢聚集。
第四類混合區(qū):該區(qū)域人口聚散的主要特點是上午人數(shù)處于低谷,下午人逐漸聚集,傍晚人達到峰值,然后人慢慢減少。
4.2 ARCGIS地圖可視化
所有的功能區(qū)域已經(jīng)確定。通過功能區(qū)域與實際情況對照,可直觀展示城市功能區(qū)所在的地理區(qū)位。
通過比較本文算法和傳統(tǒng)調(diào)查結(jié)果可知,本文算法在商業(yè)區(qū)、臨時工作區(qū)和居住區(qū)的識別精度上達到85%以上,而混合區(qū)識別精度有73%,說明本文算法具有較好的可靠性。
5 結(jié)論
本文從模擬手機數(shù)據(jù)出發(fā),分析了不同位置群體流動的特點,建立時空模型。采用無監(jiān)督K-MEANS聚類算法識別城市功能區(qū),所采用的方法考慮了基站用戶時間變化和空間相互作用的。確定了四個典型的功能區(qū)域,包括工作區(qū)、居住區(qū)、臨時工作區(qū)和混合區(qū)。結(jié)合GIS地圖可以驗證一些錯誤的識別。由于數(shù)據(jù)精度較低,為了今后開展更為完善的細粒度研究工作以及驗證,我們計劃提取精度更高的全樣本手機數(shù)據(jù)來改善我們的方法以及后續(xù)模型。
參考文獻:
[1] Chaberko T, Kretowicz P. Geographical input to local public transport planning in Poland[J]. Bulletin of Geography. Socio-economic Series, 2013, 22(22):35-46.
[2] Zhou J, Chen X, Wei H, et al. Jobs-housing balance and commute efficiency in cities of central and western China:A case study of Xi'an[J]. ActaGeographicaSinica, 2013, 68(10):1316-1330.
[3] Geoff Rose. Mobile Phones as Traffic Probes: Practices, Prospects and Issues[J]. Transport Reviews, 2006, 26(3):275-291.
[4] Hu S, Wang L. Automated urban land-use classification with remote sensing[J]. International Journal of Remote Sensing, 2013, 34(3):790-803.
[5] Jacobs-Crisioni C, Rietveld P, Koomen E, et al. Evaluating the impact of land-use density and mix on spatiotemporal urban activity patterns: An exploratory study using mobile phone data[J]. Environment & Planning A, 2014, 46(11):2769-2785.
[6] Loibl, Peters-Anders. Mobile phone data as source to discover spatial activity and motion patterns[M]// GI_Forum 2012: Geovisualization, Society and Learning. 2012:524-533.
[7] Toole J L, Ulm M, González M C, et al. Inferring land use from mobile phone activity[J]. Proceedings of the AcmSigkdd International Workshop on Urban Computing, 2012:1-8.
[8] Tranos E, Nijkamp P. Mobile phone usage in complex urban systems: a space–time, aggregated human activity study[J]. Journal of Geographical Systems, 2015, 17(2):157-185.
[9] Tranos E, Nijkamp P. Mobile phone usage in complex urban systems: a space–time, aggregated human activity study[J]. Journal of Geographical Systems, 2015, 17(2):157-185.
[10] Zhong C, Huang X, Arisona S M, et al. Inferring building functions from a probabilistic model using public transportation data[J]. Computers Environment & Urban Systems, 2014, 48(6):124-137.
[11] Cecaj A, Mamei M. Data fusion for city life event detection[J]. Journal of Ambient Intelligence & Humanized Computing, 2016, 8(1):1-15.
[12] Ferrari L, Mamei M, Colonna M. Discovering events in the city via mobile network analysis[J]. Journal of Ambient Intelligence & Humanized Computing, 2014, 5(3):265-277.
[13] Rubio A, Sanchez A, Frias-Martinez E. Adaptive non-parametric identification of dense areas using cell phone records for urban analysis[J]. Engineering Applications of Artificial Intelligence, 2013, 26(1):551-563.
[14] Ythier J, Walker J L, Bierlaire M. The Influence of Social Contacts and Communication Use on Travel Behavior: A Smartphone-Based Study[C]// Transportation Research Board 92nd Annual Meeting. 2013.
[15] Liu X, Kang C, Gong L, et al. Incorporating spatial interaction patterns in classifying and understanding urban land use[J]. International Journal of Geographical Information Science, 2016, 30(2):334-350.
[16] Yuan J, Zheng Y, Xie X. Discovering regions of different functions in a city using human mobility and POIs[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2012:186-194.
【通聯(lián)編輯:唐一東】