張翔
近年來,“以人民為中心的創(chuàng)作導(dǎo)向”、“以人民為中心的發(fā)展理念”等重要思想正式提出。2021年,自然資源部按照堅(jiān)持以人民為中心的發(fā)展思想,發(fā)布《國土空間規(guī)劃城市體檢評估規(guī)程》(以下簡稱《規(guī)程》),確保國土空間規(guī)劃城市體檢評估的規(guī)范性和可操作性,有助于了解人民最關(guān)心最直接最現(xiàn)實(shí)的突出問題,提升人民群眾的獲得感、幸福感、安全感。《規(guī)程》倡導(dǎo)大數(shù)據(jù)等新技術(shù)和新方法的應(yīng)用,對城市發(fā)展現(xiàn)狀及規(guī)劃實(shí)施效果進(jìn)行分析和評價(jià)。鼓勵(lì)利用大數(shù)據(jù)等先進(jìn)技術(shù),提高對空間治理問題的動(dòng)態(tài)精準(zhǔn)識(shí)別能力。對此,可聯(lián)合電信運(yùn)營商、互聯(lián)網(wǎng)公司等大數(shù)據(jù)提供方,對城市建設(shè)、人口和就業(yè)特征、交通和通勤特征、公共服務(wù)設(shè)施配置、空間品質(zhì)等開展分析評價(jià)[1]。
自然資源領(lǐng)域常用的大數(shù)據(jù)包括POI數(shù)據(jù)、手機(jī)信令數(shù)據(jù)、交通IC卡數(shù)據(jù)、位置服務(wù)數(shù)據(jù)等[2-3],本文重點(diǎn)討論以手機(jī)信令數(shù)據(jù)為支撐的基本指標(biāo)與推薦指標(biāo)測算。
利用手機(jī)信令數(shù)據(jù)開展人口定量分析,彌補(bǔ)了傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的不足,提高了對人類活動(dòng)的動(dòng)態(tài)監(jiān)測水平,具有良好的實(shí)用性與適用性。目前手機(jī)信令數(shù)據(jù)的分類:移動(dòng)通信運(yùn)營商可以提供兩種手機(jī)信令數(shù)據(jù)服務(wù)方式。
第一種數(shù)據(jù)服務(wù)的數(shù)據(jù)處理結(jié)果是保留信令記錄,對信令數(shù)據(jù)字段中的信令時(shí)間戳、信令事件類型代碼、經(jīng)度、緯度進(jìn)行必要模糊處理。第二種數(shù)據(jù)服務(wù)的數(shù)據(jù)處理結(jié)果是按指定空間位置、指定時(shí)間段匯總用戶人數(shù),不保留加密移動(dòng)用戶識(shí)別碼、不保留信令記錄。城市體檢評估相關(guān)大數(shù)據(jù)分析一般為人的群體趨勢性分析,無需移動(dòng)用戶識(shí)別碼等敏感信息。另外,考慮到分析的易用性,建議采用第二種數(shù)據(jù)服務(wù)開展分析工作。
本次研究所用數(shù)據(jù)源為遼寧省范圍內(nèi)的聯(lián)通手機(jī)信令數(shù)據(jù),時(shí)間跨度為2019年9月1日至9月30日,共30天,記錄時(shí)間精度為秒級,總記錄量為TB級別。涉及全省30天共記錄到1959萬個(gè)用戶,平均每天約1300萬。共有16個(gè)表單,近200多個(gè)字段,包含了用戶的實(shí)體行為以及虛擬空間的行為。
表1 手機(jī)信令原始數(shù)據(jù)包含的信息
圖1 遼寧省2019年9月某日24小時(shí)人口實(shí)時(shí)分布
運(yùn)營商基于原始數(shù)據(jù)通過剔除非人卡號(hào)、處理“乒乓效應(yīng)”、處理“基站漂移”等一系列數(shù)據(jù)處理工作,得到不同類型的數(shù)據(jù)表單,用戶可針對表單進(jìn)行分析查詢操作。常用表單情況如下:
(1)用戶位置狀態(tài):用戶一天的狀態(tài)分為駐留和出行。原則上用戶在同一位置停留超過 30 分鐘形成駐留,部分情況可能出現(xiàn)駐留時(shí)間小于 30 分鐘,用戶每日的駐留記錄在 stay_month 表,每一條記錄為用戶一次駐留行為,包含用戶的駐留位置網(wǎng)格,駐留起止時(shí)間、編號(hào)、類型等信息 。
(2)月度駐留行為:stay_poi表為用戶月度駐留行為的匯總,包含用戶月度所有駐留位置的編號(hào)、位置網(wǎng)格、類型、分時(shí)段駐留時(shí)長、頻次等信息 。
(3)駐留與駐留之間的出行行為:記錄在 move_month 表中,包含用戶每次出行的編號(hào)、起止位置網(wǎng)格、起止時(shí)間、類型、時(shí)間、距離等信息。
(4)用戶出行軌跡:根據(jù)用戶出行途徑的基站點(diǎn)與路網(wǎng)進(jìn)行空間擬合,得到用戶出行軌跡的最可能路,根據(jù)用戶出行途徑的基站點(diǎn)與路網(wǎng)進(jìn)行空間擬合,得到用戶出行軌跡的最可能路網(wǎng)節(jié)點(diǎn),記錄到網(wǎng)節(jié)點(diǎn),記錄到move_rn(由于信令定位的精度限制,算法會(huì)優(yōu)先與主干道路進(jìn)行匹配),通過與route_node表進(jìn)行關(guān)聯(lián),獲取到路徑經(jīng)緯度信息,可以實(shí)現(xiàn)不同區(qū)域道路節(jié)點(diǎn)表的關(guān)聯(lián),獲取到路徑經(jīng)緯度信息,可以實(shí)現(xiàn)不同區(qū)域或者道路上出行量的統(tǒng)計(jì)。
(5)用戶屬性信息:用戶基礎(chǔ)屬性,通過uid、date、city字段與其余位置表進(jìn)行關(guān)聯(lián),以實(shí)現(xiàn)不同區(qū)域不同時(shí)間段的畫像特征統(tǒng)計(jì)。
(6)研究網(wǎng)格:s_city_grid,為方便數(shù)據(jù)統(tǒng)計(jì)和地圖展示,預(yù)置了以城市邊界范圍繪制的標(biāo)準(zhǔn)250*250米網(wǎng)格,可以通過經(jīng)緯度關(guān)聯(lián)將用戶位置網(wǎng)格進(jìn)行替換,并在極智平臺(tái)上進(jìn)行制圖展示;客戶也可以自行上傳并同步不同大小形式的網(wǎng)格或者研究區(qū)域進(jìn)行計(jì)算和展示。
數(shù)據(jù)源坐標(biāo)系統(tǒng):WGS84坐標(biāo)系統(tǒng)。
利用手機(jī)信令數(shù)據(jù),結(jié)合城市體檢評估要求[1],充分挖掘有價(jià)值的潛在信息,提出城市對外日均人流聯(lián)系量、工作日平均通勤時(shí)間、實(shí)際服務(wù)管理人口數(shù)量、45分鐘通勤時(shí)間內(nèi)居民占比、軌道交通站點(diǎn)800米半徑服務(wù)覆蓋率等5項(xiàng)基本指標(biāo)與推薦指標(biāo)測算方法。
通過智慧足跡DaaS平臺(tái)提供的Spark & Hadoop混合大數(shù)據(jù)處理集群環(huán)境,對數(shù)據(jù)處理請求進(jìn)行響應(yīng),再對應(yīng)的數(shù)據(jù)存儲(chǔ)及處理環(huán)境中進(jìn)行數(shù)據(jù)建模及加工處理。借助SQL語言進(jìn)行數(shù)據(jù)查詢建模,注入查詢條件,通過DaaS平臺(tái)獲取分析結(jié)果。利用Python編寫爬蟲程序,爬取相關(guān)的互聯(lián)網(wǎng)地圖POI信息資源。通過ArcGIS完成分析結(jié)果的處理與可視化展示。
從加密移動(dòng)用戶識(shí)別碼無法識(shí)別特定個(gè)人并無法復(fù)原對數(shù)據(jù)安全是至關(guān)重要的,在一般情況下只許輸出聚合統(tǒng)計(jì)后的指標(biāo)結(jié)果。同一個(gè)移動(dòng)用戶識(shí)別碼在不同區(qū)域加密后得到的加密移動(dòng)用戶識(shí)別碼相同。由于手機(jī)信號(hào)等不穩(wěn)定因素,導(dǎo)致有些數(shù)據(jù)可能存在異常,比如信號(hào)丟失或信號(hào)位置偏移嚴(yán)重等,需識(shí)別并清理該部分異常數(shù)據(jù),確保分析結(jié)果的準(zhǔn)確性[4-6]。
基于聯(lián)通手機(jī)信令的大數(shù)據(jù)技術(shù),以250m*250m正方形網(wǎng)格為最小單位,提取大連市域常住人口、OD通勤以及職住關(guān)系等特征信息,賦予每個(gè)網(wǎng)格分析結(jié)果信息,結(jié)合GIS工具,形成實(shí)時(shí)精確的數(shù)據(jù)可視化解決方案,滿足各類數(shù)據(jù)分析應(yīng)用場景。
GIS空間數(shù)據(jù)均采用WGS84坐標(biāo)系,如果其他原始數(shù)據(jù)不屬于,可采用坐標(biāo)系變換的方式,或利用基礎(chǔ)影像圖、控制點(diǎn)等數(shù)據(jù)對其進(jìn)行校正。
通過手機(jī)信令數(shù)據(jù)融合提取每個(gè)用戶連續(xù)一個(gè)月的出行軌跡,進(jìn)行匿名化處理,完成排除異常、消除乒乓效應(yīng)等數(shù)據(jù)清洗工作后,采用聚類分析的方法進(jìn)行軌跡頻繁模式挖掘[7],DaaS平臺(tái)在聚類分析的數(shù)據(jù)基礎(chǔ)上提供多類表單。下一步重點(diǎn)分析表單結(jié)構(gòu),篩選對其有用的表名與字段,基于提供的基礎(chǔ)內(nèi)容構(gòu)建人群特征分析、OD分析等核心算法,結(jié)合五種指標(biāo)的描述,根據(jù)數(shù)據(jù)源挖掘其潛在價(jià)值,建立分析模型,分析得出相對應(yīng)的指標(biāo)信息,并可利用ArcGIS或QGIS等工具完成可視化操作。
圖2 數(shù)據(jù)挖掘的技術(shù)路線
單位:萬人次;
分析過程:
識(shí)別每個(gè)ID的停留O點(diǎn)和D點(diǎn),大于1小時(shí)停留算有效停留。當(dāng)天該ID的出發(fā)地O點(diǎn)在城市A,目的地D點(diǎn)在城市A外,此類情況就算該天的一次對外人流,D點(diǎn)發(fā)生時(shí)間不做設(shè)定。匯總得出每日的城市對外人流聯(lián)系量,30天累加平均后獲得。計(jì)算結(jié)果為30.53萬人(未擴(kuò)樣)。
圖3 遼寧省省域范圍內(nèi)各街道對外OD分析
單位:分鐘;
分析過程:
從數(shù)據(jù)集的Move_month表單中提取城區(qū)工作日內(nèi),家到工作地移動(dòng)的總?cè)藬?shù)作為總的通勤人口,計(jì)算該部分人口的總的家到工作的時(shí)間為工作日總通勤時(shí)間,并與工作日總通勤人口數(shù)量的比值計(jì)算獲得。結(jié)果為30.53分鐘。
圖4 大連市平均通勤時(shí)間分析
單位:萬人;
分析過程:
利用聯(lián)通手機(jī)信令數(shù)據(jù)識(shí)別大連市域內(nèi)9月每天的停留人口(stay_day表單),定義實(shí)際服務(wù)人口:常住人口+短期駐留人口+其他人口。其中短期駐留人口:一個(gè)月內(nèi)出現(xiàn)大于1天且小于10天(每天停留時(shí)長3小時(shí)以上);其他人口:一個(gè)月內(nèi)出現(xiàn)大于10天且小于18天(每天停留時(shí)長3小時(shí)以上);常住人口:一個(gè)月內(nèi)出現(xiàn)大于18天(每天停留時(shí)長3小時(shí)以上);三類人口加和后進(jìn)行擴(kuò)樣[8]。結(jié)果為1050.2萬人(未擴(kuò)樣結(jié)果251.6萬人,擴(kuò)樣系數(shù)0.239679875)。
圖5 實(shí)際服務(wù)人口分布情況
單位:%;
分析過程:
從數(shù)據(jù)集的Move_month表單中提取城區(qū)內(nèi)從家到工作地移動(dòng)的總?cè)藬?shù)作為總的通勤人口,計(jì)算其在家到工作地的時(shí)間,通過篩選通勤時(shí)長在45分鐘以內(nèi)通勤人口,并與總通勤人口數(shù)量的比值計(jì)算獲得。結(jié)果為占總通勤人口的93.30% 。
單位:%;
分析過程:
以獲取的軌道交通站點(diǎn)點(diǎn)位,做800米的點(diǎn)緩沖。識(shí)別該范圍內(nèi)的居住人口,以及就業(yè)崗位數(shù)(居住人口,就業(yè)崗位可從數(shù)據(jù)集中直接提?。?,兩者的比值即為人口和崗位覆蓋率。計(jì)算結(jié)果,800米內(nèi)人口/總?cè)丝?0.21;800米內(nèi)崗位/總崗位=0.32;(800米內(nèi)人口+崗位)/(總?cè)丝?總崗位)=0.24。所以最后結(jié)果為24%。
圖6 研究范圍內(nèi)工作人口居住/工作地與軌道交通站點(diǎn)的關(guān)系
本文探討了如何利用手機(jī)信令數(shù)據(jù),挖掘有價(jià)值的潛在信息,并以大連市為例深入實(shí)踐,為國土空間規(guī)劃城市體檢評估相關(guān)指標(biāo)測算提供了新技術(shù)、新方法。并分析了目前主流手機(jī)信令數(shù)據(jù)的兩種類型,從分析的易用性角度給出選擇建議。基于連續(xù)一個(gè)月的聯(lián)通手機(jī)信令數(shù)據(jù),構(gòu)建了技術(shù)路線,重點(diǎn)開展了城市對外日均人流聯(lián)系量、工作日平均通勤時(shí)間、實(shí)際服務(wù)管理人口數(shù)量、45分鐘通勤時(shí)間內(nèi)居民占比、軌道交通站點(diǎn)800米半徑服務(wù)覆蓋率等5項(xiàng)基本指標(biāo)與推薦指標(biāo)測算。但由于目前手機(jī)信令數(shù)據(jù)源較為單一,缺少其他兩個(gè)運(yùn)營商數(shù)據(jù),在人群覆蓋度、擴(kuò)樣系數(shù)方面存在誤差。因此,應(yīng)探索三大運(yùn)營商數(shù)據(jù)結(jié)合的方法,提升數(shù)據(jù)準(zhǔn)確性,充分發(fā)揮手機(jī)信令數(shù)據(jù)在國土空間規(guī)劃城市體檢評估中的作用,提高對空間治理問題的動(dòng)態(tài)精準(zhǔn)識(shí)別能力,為新一輪國土空間規(guī)劃提供技術(shù)支撐。