李娜,劉文敏,孟繁瑞,劉巖
(國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心山東分中心,濟南 250002)
隨著移動互聯(lián)網(wǎng)、智能手機、大數(shù)據(jù)等新一代技術(shù)的發(fā)展,信息化技術(shù)日益普及,極大程度上改變了居民的生活方式。社會信息化和網(wǎng)絡(luò)化發(fā)展導致數(shù)據(jù)量激增,數(shù)據(jù)的規(guī)律性特征在一定程度上反映了人群在現(xiàn)實生活中的活動特征。在“以人為本”的社會中,人群的行為特征和方式也能夠反映出特定區(qū)域的發(fā)展狀況[1-2]。大數(shù)據(jù)技術(shù)時代,國內(nèi)越來越多的城市提出要加強“智慧城市”建設(shè),“智慧城市”通過有效整合多源信息資源,為城市規(guī)劃、建設(shè)和管理構(gòu)建新的模式?!爸腔鄢鞘小苯ㄔO(shè)過程中,如何處理、整合海量數(shù)據(jù)并加以利用成為了關(guān)鍵。同時,在區(qū)域發(fā)展規(guī)劃及經(jīng)濟趨勢預測中,大數(shù)據(jù)的運用已成為新的研究方式,該方式有別于過去普遍采用的問卷調(diào)查方式。傳統(tǒng)區(qū)域經(jīng)濟的研究數(shù)據(jù)來源多通過人口普查和經(jīng)濟調(diào)查的方式進行,其實時性低、泛化性低、準確性低等缺點難以避免;在數(shù)據(jù)層面,其體量小、不全面、質(zhì)量參差不齊,獲取數(shù)據(jù)的人力成本高、區(qū)域覆蓋范圍小,且多為政府人員采集,非公開性的特點更是為經(jīng)濟預測帶來重重困難。而大數(shù)據(jù)的5V特征,即規(guī)模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)和真實性(veracity),一定程度上克服了傳統(tǒng)方式的缺點,其數(shù)據(jù)量大、獲取統(tǒng)一、成本低等優(yōu)點極大地彌補了傳統(tǒng)數(shù)據(jù)的不足。在眾多可用的海量數(shù)據(jù)中,基于通信網(wǎng)絡(luò)的電信大數(shù)據(jù)更具有得天獨厚的優(yōu)勢,其時空全覆蓋的特點是其他數(shù)據(jù)所不擁有的。數(shù)據(jù)的時間連續(xù)性能夠在歷史數(shù)據(jù)和當前數(shù)據(jù)的基礎(chǔ)上對未來數(shù)據(jù)進行預測與趨勢分析;空間多樣性能夠在廣闊的覆蓋面上,動態(tài)、實時、快速地進行更新、共享、融合分析?!吨袊苿踊ヂ?lián)網(wǎng)發(fā)展報告(2020)》指出,截至2019年12月底,中國4G手機用戶數(shù)量達到12.8億,占移動電話用戶總數(shù)的80.1%[3]。利用數(shù)據(jù)挖掘技術(shù),能夠刻畫覆蓋用戶人群的行為畫像,提取行為特征[4-5],結(jié)合區(qū)域經(jīng)濟政策進行評價,可為經(jīng)濟發(fā)展提供決策依據(jù)。
本文采用多源數(shù)據(jù)融合分析的方法,在充分研究遙感影像技術(shù)[6-7]、手機信令技術(shù)[8-9]、交通熱力圖技術(shù)[10]等的基礎(chǔ)上,將傳統(tǒng)數(shù)據(jù)與電信大數(shù)據(jù)融合,實現(xiàn)在電信大數(shù)據(jù)下的區(qū)域經(jīng)濟分析,本文主要工作如下:
1)通過分析數(shù)據(jù)特征,利用數(shù)據(jù)挖掘技術(shù)完成數(shù)據(jù)清洗和時空關(guān)系關(guān)聯(lián),獲取并補充電信大數(shù)據(jù)中精確的時間戳、地址等屬性,提高數(shù)據(jù)質(zhì)量。
2)結(jié)合多源數(shù)據(jù),對數(shù)據(jù)特征規(guī)則進行篩選和建模,定量分析關(guān)聯(lián)特征,設(shè)計基于電信大數(shù)據(jù)的區(qū)域經(jīng)濟分析方法框架,全方位、多角度地分析區(qū)域經(jīng)濟狀況。
3)對電信大數(shù)據(jù)下的時空區(qū)域經(jīng)濟進行可視化實驗分析,結(jié)合優(yōu)化選址方法,指導城市熱點商圈布局與調(diào)整,挖掘投資商業(yè)價值,提高城市系統(tǒng)效率,為“智慧城市”規(guī)劃提供參考。
本節(jié)對電信大數(shù)據(jù)進行清洗分析,并選取其中關(guān)鍵項進行數(shù)據(jù)設(shè)計和分析處理。
電信大數(shù)據(jù)數(shù)據(jù)量龐大,以2019年9月某省1日內(nèi)產(chǎn)生的數(shù)據(jù)為例,數(shù)據(jù)總量達6TB,涵蓋約9 000萬用戶產(chǎn)生的700億條記錄。其數(shù)據(jù)格式如表1所示,部分關(guān)鍵項包含用戶標識、基站標識碼、位置信息、時間戳、手機歸屬地、手機所在地、事件標識等信息。
表1 電信大數(shù)據(jù)基本格式Table 1 Basic for mat of telecom big data
對海量的電信大數(shù)據(jù)進行清洗、去噪和糾偏尤為重要。研究過程中,利用Spark集群計算框架與HDFS文件存儲框架,對大量原始的數(shù)據(jù)進行了預處理,采用Hive存儲各類中間結(jié)果,采用Hbase存儲用于可視化的大規(guī)模數(shù)據(jù),采用Redis快速存取各類配置和用于界面實時展示數(shù)據(jù)量較少的分析結(jié)果,進而完成了數(shù)據(jù)的過濾清洗。
原始數(shù)據(jù)中存在部分無效數(shù)據(jù),包括空值、重復值、錯誤值及格式錯誤數(shù)據(jù)等,占比約為0.8%。對于存在極小概率的某些屬性字段中會出現(xiàn)缺失信息,采用直接刪除的處理方法;對于某些屬性字段完全一致的重復數(shù)據(jù),保留其中一條數(shù)據(jù),刪除重復數(shù)據(jù),進一步減小計算量;對于存在偏差范圍無法覆蓋的異常數(shù)據(jù)及格式錯誤數(shù)據(jù)(如不在指定區(qū)域經(jīng)緯度范圍內(nèi)的數(shù)據(jù)、日期異常、停留時間異常等),采用條件篩選或聚類算法進行清洗。
原始數(shù)據(jù)中的人群位置信息是用戶處于手機聯(lián)網(wǎng)時連接的基站位置,由于終端和基站之間通信復雜、時有干擾,在基站比較密集的地區(qū)其手機上報的基站附著點會有很多噪聲,對基站附著點進行去噪,可以提升數(shù)據(jù)質(zhì)量,有利于后續(xù)數(shù)據(jù)分析。
首先對數(shù)據(jù)進行去重操作,按取10位Geo-Hash算法[11]對數(shù)據(jù)點合并,利用空間密度聚類DBSCAN算法[12-13]對附著點區(qū)域直徑50 m、樣本量少于5的孤點去噪,利用K-Means算法[14]進行聚類,按聚類類別進行排序,將同類數(shù)據(jù)合并,得到去噪后的數(shù)據(jù)結(jié)果。同一基站1 d內(nèi)的數(shù)據(jù)處理前,基站附著點有4 430個,如圖1所示。對其進行數(shù)據(jù)點去噪,共去除820個,保留3 610個,保留81.49%數(shù)據(jù)體量,去噪后基站附著點如圖2所示。去除冗雜的數(shù)據(jù)點后,提升了數(shù)據(jù)質(zhì)量。
圖1 數(shù)據(jù)清洗前的基站附著點分布Fig.1 Distribution of base station attachment points before data cleaning
圖2 數(shù)據(jù)清洗后的基站附著點分布Fig.2 Distribution of base station attachment points after data cleaning
在基站比較密集的地區(qū),手機附著的基站其連接軌跡點會來回跳轉(zhuǎn),使局部軌跡呈現(xiàn)網(wǎng)狀結(jié)構(gòu),并產(chǎn)生乒乓數(shù)據(jù)[15-16],軌跡糾偏變得更加復雜。對基站軌跡的糾偏去噪,可以從3個方面進行處理。
依次進行7位的GeoHash算法[11]取坐標值,對異常數(shù)據(jù)糾偏、速度異常數(shù)據(jù)糾偏、乒乓數(shù)據(jù)降噪糾偏。舍棄提取的誤差范圍以外的異常數(shù)據(jù),得到清洗后的軌跡數(shù)據(jù)。軌跡糾偏流程如圖3所示。
圖3 軌跡糾偏流程Fig.3 Flowchart of track rectification
圖4和圖5為糾偏前后對比,該軌跡為放置在公交車上的用戶手機在相同線路行駛2個來回、共4趟距離的軌跡路程。其原始軌跡如圖4所示,軌跡點有879個,對其進行軌跡糾偏,共去除94個,保留785個,保留89.31%數(shù)據(jù)體量,糾偏后軌跡如圖5所示。對比圖直觀地顯示出,移除明顯的漂移軌跡點可以提高數(shù)據(jù)的聚斂性,去除乒乓數(shù)據(jù)影響后的網(wǎng)狀結(jié)構(gòu),軌跡更加平滑,為后面的分析提供更準確的數(shù)據(jù)支撐。
圖4 數(shù)據(jù)糾偏前的軌跡Fig.4 Trajectory before data correction
圖5 數(shù)據(jù)糾偏后的軌跡Fig.5 Trajectory after data correction
區(qū)域經(jīng)濟在一定程度上反映了居民的生活水平?;陔娦糯髷?shù)據(jù)進行規(guī)則篩選并對其特征建模,結(jié)合電子地圖、交通出行數(shù)據(jù)、人口普查數(shù)據(jù)等多源數(shù)據(jù),進行多尺度、多維度分析,可以為區(qū)域經(jīng)濟決策提供參考,具體方法框架如圖6所示。在大量原始數(shù)據(jù)基礎(chǔ)上,通過數(shù)據(jù)清洗提高數(shù)據(jù)質(zhì)量,在定義規(guī)則中選取特定時間和區(qū)域,精確縮小時空范圍,進行時空關(guān)聯(lián)并分析。通過數(shù)據(jù)結(jié)果將其可視化,利用圖表模式展示分析,將數(shù)據(jù)通過計量經(jīng)濟學模型進行政策評價,對分析居民社會生活屬性、經(jīng)濟發(fā)展、政策區(qū)域選址等工作提供了有力的數(shù)據(jù)支撐。本節(jié)選取特定時空區(qū)域,以某市“夜經(jīng)濟”為例進行區(qū)域經(jīng)濟分析方法框架設(shè)計。
圖6 電信大數(shù)據(jù)的區(qū)域經(jīng)濟分析方法框架Fig.6 Framework of regional economic analysis method for telecom big data
夜經(jīng)濟起源于英國,1995年被英國政府納入城市發(fā)展目標[17],2017年,夜經(jīng)濟占英國GDP的8%,涵蓋約1/8的就業(yè)崗位。在中國,城市夜經(jīng)濟經(jīng)歷了3個發(fā)展階段,即初始市場、零散夜市和集成商圈[18]。許多一二線城市在2019年紛紛制定夜經(jīng)濟發(fā)展戰(zhàn)略,并有向三四線城市擴散的跡象。某市在2019年6月出臺了《關(guān)于推進夜間經(jīng)濟發(fā)展的實施意見》,同時進行了大規(guī)模的燈光亮化工程、定點夜市鼓勵政策等,使夜經(jīng)濟快速升溫。2019年11月,首屆中國夜間經(jīng)濟論壇上,該市入選“夜間經(jīng)濟十佳城市”。2020年5月,中國受疫情影響,為恢復消費活力,國家再次開放發(fā)展夜市經(jīng)濟,推出了“五允許一堅持”政策,下文將基于電信大數(shù)據(jù)并結(jié)合相關(guān)政策進行有效評價。
首先,針對某市“夜經(jīng)濟”定義規(guī)則,結(jié)合已有電信大數(shù)據(jù)、用戶軌跡、人物畫像庫等信息,提取數(shù)據(jù)特定屬性。其次,劃定空間區(qū)域范圍,選取特定時間范圍,查找范圍內(nèi)對應(yīng)用戶軌跡、結(jié)合人物畫像知識庫屬性建模,通過Hadoop平臺進行分析。最后,對夜間活躍人口行為、出行游玩地點、交通情況等連同經(jīng)濟政策進行評價,并提出選址優(yōu)化方法,指導城市熱點商圈布局與調(diào)整,有助于政府決策區(qū)域優(yōu)化選址方法。
1)夜間經(jīng)濟:18:00至次日6:00城市各種商業(yè)經(jīng)營活動的總稱。
2)夜間人口:18:00至次日6:00活動的人口。
3)夜間活躍人口:夜間發(fā)生2 km以上且排除前往火車站位置的移動人口。
4)夜間人口駐留點:夜間出現(xiàn)停留時長在0.5 h以上及5 h以下的位置點。
5)某景點夜間游玩人數(shù):某日夜間在景點基站附近,提取停留時長大于0.5 h且為外地歸屬信號與停留時長大于0.5 h且為居住地不在該景點的信號,二者加和。
6)夜間人流走廊:夜間活躍人口在某市區(qū)遷移情況。
7)外出情況:每小時與常居住地距離在2 km以上的連接數(shù)數(shù)量統(tǒng)計。
8)夜間人口聚集點識別:提取夜間某時間段內(nèi)終端所在地,組點形成分布,排除與家庭住址一致的終端,進行聚類。
9)區(qū)域范圍:某市。
通過對以上規(guī)則可視化分析,通過圖、表、熱力圖等對該市區(qū)域夜經(jīng)濟情況進行剖析,具體見第3節(jié)電信大數(shù)據(jù)下時空區(qū)域經(jīng)濟可視化實驗分析。
地方政策實施效果評估是微觀計量經(jīng)濟學的前沿主題。2019年6月,中國出臺了《關(guān)于推進夜間經(jīng)濟發(fā)展的實施意見》,針對夜間的外出意愿和夜經(jīng)濟政策的相關(guān)性進行統(tǒng)計學分析,采用雙重差分(difference-in-differences,DID)模型算法[19],通過控制實施組和對照組在政策處理前后存在的差異實行政策評價。
DID是評估一項政策是否有效的重要算法,特點為事前差異,即除了要研究的核心變量差異外,還包含產(chǎn)生干擾的其他因素。DID模型的基礎(chǔ)是自然實驗數(shù)據(jù),即被解釋變量是由帶參數(shù)的連續(xù)解釋變量、離散解釋變量控制的。通過建模,控制事前差異,得到真實結(jié)果:
式中:Y為被解釋變量;X為連續(xù)解釋變量;Di為離散解釋變量;u為截距項,截距項表示解釋變量為0時被解釋變量的值,在回歸算法中意義不大。
式(1)中重點關(guān)注α、β、γ的斜率變化,斜率的正負反映出解釋變量和被解釋變量的正負相關(guān)性,斜率為正則代表兩變量正相關(guān),斜率為負則代表兩變量負相關(guān)。
將特定時間內(nèi)的經(jīng)濟活躍區(qū)域景點人流數(shù)、人口出游數(shù)、交通擁堵區(qū)域位置、電信大數(shù)據(jù)呈現(xiàn)的人流密度等數(shù)據(jù)整合分析,劃定時空區(qū)域關(guān)聯(lián)分析,利用專家判斷、趨勢分析、模擬等方法進行經(jīng)濟活躍區(qū)域和熱門地點輸出預測,如特定法定節(jié)假日、每日特定時段、重要時間節(jié)點等相關(guān)區(qū)域分析。有助于政府對相關(guān)時段的區(qū)域經(jīng)濟發(fā)展做出決策,選取合適的熱門地點有助于市民對市場經(jīng)濟響應(yīng)。
3.1.1 實驗環(huán)境
對海量原始的數(shù)據(jù)進行處理并建模,分析和計算建模結(jié)果。應(yīng)用技術(shù)工具主要為Spark、Spark streaming、Hive、Hbase、Redis、Kafka等,其中Spark用于運行離線計算程序,Spark streaming用于進行實時的流處理,Hive用于存儲各類中間結(jié)果,Hbase用于存儲可用于界面展示的大規(guī)模數(shù)據(jù)庫,Redis用于快速存取各類配置和用于界面實時展示的數(shù)據(jù)量較少的分析結(jié)果,Kafka用于在各個程序模塊之間實時發(fā)布和訂閱消息。用于實驗的服務(wù)器及其配置如表2所示。
表2 實驗環(huán)境Table 2 Exper imental environment
3.1.2 實驗數(shù)據(jù)
1)數(shù)據(jù)來源。電信大數(shù)據(jù)及部分政府統(tǒng)計年鑒數(shù)據(jù)。
2)數(shù)據(jù)周期。主要數(shù)據(jù)來源于2019年9月至10月,部分數(shù)據(jù)來源于2019年12月。
3)數(shù)據(jù)處理。利用集群計算框架及文件存儲框架,對原始數(shù)據(jù)進行去重清洗處理,將原始數(shù)據(jù)解釋為區(qū)域化數(shù)據(jù)、軌跡數(shù)據(jù)和停留數(shù)據(jù),并進一步分析。獲取軌跡停留數(shù)據(jù)后,對數(shù)據(jù)進行基站圈點,得到局部數(shù)據(jù),按照時間點、地點等需求打點,利用pyecharts等相應(yīng)的第三方工具包,在地圖上根據(jù)經(jīng)緯度和量值,離線畫出熱力圖等,呈現(xiàn)可視化分析結(jié)果。
基于提取數(shù)據(jù)特征信息,結(jié)合交通、天氣等多源數(shù)據(jù),將可視化分析形成報告,分為5個方面:夜間活動總概況、游在夜間、行在夜間、玩在夜間及政策評價和結(jié)論。
3.2.1 夜間活動總概況
1)夜間活躍人口。隨著夜晚來臨,居民活動總體趨勢下降,22:00左右出現(xiàn)驟降,23:00有32萬人在外活動,如圖7所示。將2:00—3:00點活動人群視作夜間上班人群,進行差分計算,22:00仍有超15萬人在外休閑娛樂?;钴S人口隨時間分布符合事實規(guī)律,進一步驗證了數(shù)據(jù)的準確性。
圖7 九月夜間活躍人口Fig.7 Active population at night in September
2)夜間活躍人口年齡和性別比例。夜間活躍在外人群以男性為主(67.18%),年齡分布集中在15~40歲,如圖8所示。一方面是年輕人相對有活力,另一方面是男性比女性擁有更強的夜間外出休閑、娛樂意愿。
圖8 夜間活躍人口年齡和性別比例Fig.8 Age and gender ratio of active population at night
3)不同行政區(qū)活躍人口及人口流動情況。熱鬧的夜晚正改變著夜生活,從某市范圍看,居住在歷城區(qū)居民活躍人口最多,而從居住地與活躍人口比例上來說,某市槐蔭區(qū)、歷下區(qū)和天橋區(qū)占比前3,最不活躍的是章丘區(qū),圖9反映了某市各區(qū)的夜間經(jīng)濟活躍情況。
圖9 各區(qū)夜間活躍人口數(shù)量和比例Fig.9 Number and proportion of active population in different districts at night
從夜間人口遷移數(shù)量中可以看出,某市歷城區(qū)是整個人口流動網(wǎng)絡(luò)的中心節(jié)點,商河縣是人口流動的邊緣節(jié)點,如圖10所示。同時,歷城區(qū)還是整個網(wǎng)絡(luò)圖的橋節(jié)點,該市各區(qū)域夜間人口流動依靠歷城區(qū)作為中轉(zhuǎn)實現(xiàn)遷移。
圖10 夜間人口遷移數(shù)量Fig.10 Population migration number at night
4)某市夜間活躍人口省內(nèi)來源。從夜間活躍人口中的外省來源絕對數(shù)量可以看出,某市周邊德州、泰安、濟寧和菏澤來源最多(見圖11)??紤]外市常住人口基數(shù)后(即活躍人口/地區(qū)常住人口),發(fā)現(xiàn)某市周邊泰安、德州兩市和萊城區(qū)人口在夜間留駐該市的意愿最強。符合距離越近的市被吸引參與該市“夜經(jīng)濟”活動人口比例越高的特點。進一步分析,相近區(qū)域受該市夜經(jīng)濟輻射影響更強,距離較遠區(qū)域受夜經(jīng)濟輻射能力相對較弱。地區(qū)人口基數(shù)來源:《山東省2018年統(tǒng)計年鑒》。
圖11 省內(nèi)夜間活躍人口來源Fig.11 Sources of night active population in the province
3.2.2 游在夜間
通過圖12中展示的4個時間點人口分布來看,21:00某市景點大明湖南岸和環(huán)護城河帶的市民數(shù)量居多,說明夜經(jīng)濟政策點燃了市民夜間休閑的熱情。
圖12 不同時間點的晚間熱力圖Fig.12 Thermal map of different time at night
3.2.3 行在夜間
截止2019年12月23日,某市24小時公交K101已運行滿1個月,夜間總運送人數(shù)超2 000人。圖13為當日公交沿線熱力圖,路線串聯(lián)了某市幾大經(jīng)濟活躍區(qū)域(如芙蓉街、世貿(mào)購物中心、恒隆購物中心)和人口密集區(qū)域(如山大中心校區(qū)、裕園小區(qū)等),24小時公交提供了便利的夜間回家途經(jīng),為該市夜經(jīng)濟注入了新活力。
圖13 K101公交沿線熱力圖Fig.13 Thermal map along K101 bus
3.2.4 玩在夜間
由圖8可以看出,夜間活躍人口中15~40歲年齡段占比較高,年輕人常常利用互聯(lián)網(wǎng)獲取交通或消費信息,大數(shù)據(jù)時代讓“線上”服務(wù)與“線下”O(jiān)2O(online to offline)模式被廣泛應(yīng)用。本節(jié)選取周六19:00—24:00區(qū)間,對某市人口使用地圖導航和消費APP情況進行分析,如圖14所示(列舉部分APP展示)。當夜晚來臨,居民活動總體趨勢下降,使用支付寶、美團等消費APP的用戶數(shù)量都高達上萬。22:00仍有萬級人口使用各類交通導航工具,體現(xiàn)出某市的“夜經(jīng)濟”場景也是萬物互聯(lián)時代的夜經(jīng)濟場景。
圖14 娛樂APP夜間使用人數(shù)Fig.14 Number of recreational APP users at night
3.2.5 政策評價和結(jié)論
采用基于DID的統(tǒng)計學方法,對夜間出游和夜經(jīng)濟政策進行相關(guān)性分析。由于政策影響夜間因素,選擇是否執(zhí)行政策和是否以夜間作為虛擬變量,以是否執(zhí)行政策和是否為夜間的交互項作為政策評價系數(shù),進行統(tǒng)計分析。
假設(shè)1 實行夜經(jīng)濟政策對出游行為有顯著正向影響,建立回歸模型:
式中:Y為出游人數(shù),為被解釋變量;X1為人力最適宜溫度(25℃)差值;D為解釋變量,D1表示是否為假期,D2表示是否為夜間,D3表示是否執(zhí)行夜經(jīng)濟政策;根據(jù)DID理論,δ3為政策影響,δ4為政策實際效果,并考慮了夜間D2與政策D3的交互項。其中,采用分層回歸算法:第1步,模型一只納入2個解釋變量對被解釋變量進行解釋;第2步,模型二利用其他解釋變量對被解釋變量進行解釋。其分析結(jié)果如表3所示。
由表3可得,以25℃為基準,當氣溫每偏離1℃時,每小時出行人數(shù)降低1 633人;周末相較于非周末,每小時出行人數(shù)增加12 974人;晚上相較于白天,每小時外出休閑人數(shù)減少9 066人。將氣溫、節(jié)假日、晝夜等因素差分排除影響后,可得夜經(jīng)濟政策使得夜間每小時出行人數(shù)增加了621人。
表3 分析結(jié)果Table 3 Analysis r esults
采用DID和層次回歸方法對數(shù)據(jù)進行回歸分析,結(jié)果表明,政策影響為正向且顯著,通過了假設(shè)檢驗,證實了夜經(jīng)濟政策對夜間出游行為有著促進作用。夜間人們的活躍程度較白天顯著性降低,該市夜經(jīng)濟還有更大的發(fā)展前景。
選取7天內(nèi)(2019年9月1日至7日)不同時間段經(jīng)濟活躍區(qū)域景點的人流數(shù)、人口出游數(shù)、交通擁堵區(qū)域位置和基站附著點人流密度數(shù)據(jù)整合分析,并進行專家判斷和趨勢分析,確定位置在某市泉城路、大明湖、趵突泉、甸柳莊環(huán)聯(lián)區(qū)域、萬達廣場等地點為活躍區(qū)域點。部分位置預測如圖15所示,經(jīng)濟活躍區(qū)的判定有助于政府對夜經(jīng)濟發(fā)展做出決策,也有助于市民對夜市經(jīng)濟的響應(yīng),促進經(jīng)濟消費。
圖15 經(jīng)濟活躍區(qū)熱力圖Fig.15 Thermal map of economically active areas
本文結(jié)合反映人群活動特征的電信大數(shù)據(jù)開展研究,將其解釋為軌跡數(shù)據(jù)和區(qū)域化數(shù)據(jù)進行分析應(yīng)用:
1)對電信大數(shù)據(jù)進行數(shù)據(jù)清洗和軌跡糾偏,定量抽取和分析關(guān)聯(lián)特征,減少無效數(shù)據(jù),提高數(shù)據(jù)質(zhì)量。
2)結(jié)合多源數(shù)據(jù),對數(shù)據(jù)規(guī)則篩選及特征建模,多角度全方位分析用戶行為,將時空區(qū)域數(shù)據(jù)進行可視化分析研究,采用雙重差分統(tǒng)計模型評價區(qū)域經(jīng)濟政策。
3)提出政策選址結(jié)論,用于指導城市熱點商圈布局與調(diào)整,為區(qū)域經(jīng)濟發(fā)展提供決策依據(jù)。
本文還有很多方面可以改進,未來的研究重點集中在以下3個方面:
1)在本文基礎(chǔ)上結(jié)合應(yīng)用信息推送、社交平臺及微博熱詞推薦提取數(shù)據(jù),多角度分析,進一步增強信息可靠度。
2)海量數(shù)據(jù)處理方面,采用多種數(shù)據(jù)處理算法融合進行清洗排序,增加數(shù)據(jù)質(zhì)量可信度和可用度。
3)將區(qū)域經(jīng)濟進一步擴展,從時間和空間延伸區(qū)域經(jīng)濟的可分析范圍,例如,時間可選至重要節(jié)點日期等;空間可選購物、美食、旅館、景區(qū)等。擴大經(jīng)濟區(qū)域效益范圍,可為區(qū)域發(fā)展提供多方位參考。