趙志遠,楊紅,楊喜平
1. 福州大學 數(shù)字中國研究院(福建),福州 350003;
2. 空間數(shù)據(jù)挖掘與信息共享教育部重點實驗室,福州 350003;
3. 陜西師范大學 地理科學與旅游學院,西安 710119
信息和通信技術(shù)的快速發(fā)展為人類活動位置觀測提供了新途徑,以手機位置數(shù)據(jù)、帶地理位置標記的社交媒體數(shù)據(jù)等為代表的大規(guī)模人群位置感知數(shù)據(jù),有力支撐了人類移動特征和活動模式挖掘的理論與方法的研究(González 等,2008;Song等,2010;羅茜和焦利民,2023)。有關(guān)成果被進一步用于支撐城市規(guī)劃(傅英姿和王德,2021)、智能交通(張月朋和王德,2021;Yan 等,2022)、人類健康(Li 等,2019)等領域的創(chuàng)新應用,如評估自行車出行的潛在需求(Xu 等,2016;周亞娟等,2020)、優(yōu)化商業(yè)選址(彭大芹等,2019)、改善出行導航方案(Hu 和Chen,2021)、研究人口遷入成因(詹慶明等,2020)等。
科學精準評估人群活動需求,需要從人群活動的物理空間本體特征和數(shù)據(jù)空間孿生特征兩個角度進行考慮。一方面,從物理空間來看,個體活動呈現(xiàn)重現(xiàn)性和變化性并存的復雜特性,個體活動軌跡的日間穩(wěn)定性能夠有效刻畫個體活動復雜特性。已有研究發(fā)現(xiàn)人類移動模式在人群匯總層面具有時間穩(wěn)定性(Wang 等,2021)。其中內(nèi)在機制需要通過繼續(xù)分析個體出行活動的穩(wěn)定性來挖掘,如活動空間的范圍大小(Sharmeen 和Houston,2020)、出行距離(Susilo 和Kitamura,2005)等活動特征和出行模式(Neutens 等,2012;Zhang 等,2021)等?;顒犹卣骱统鲂心J绞擒壽E在特定維度的呈現(xiàn),從微觀個體活動軌跡出發(fā)分析居民活動的日間穩(wěn)定性,能夠幫助揭示在人群匯總層面穩(wěn)定性的內(nèi)在機制與特征,共同揭示人類活動在個體微觀層面和人群匯總層面的日間穩(wěn)定性特征,減少特征挖掘過程中因信息抽象概括對分析結(jié)果的影響。目前,直接基于軌跡分析日間穩(wěn)定性的研究較少;涉及活動軌跡日間穩(wěn)定性的研究常見于個體位置重訪規(guī)律(González 等,2008;王德等,2021)或軌跡相似性度量(潘曉等,2019;梁明等,2023),這為活動軌跡日間穩(wěn)定性度量提供了技術(shù)參考。另一方面,從數(shù)據(jù)空間來看,大數(shù)據(jù)時代雖然涌現(xiàn)了豐富的數(shù)據(jù)資源,但數(shù)據(jù)生產(chǎn)方和數(shù)據(jù)使用方往往出現(xiàn)錯位的現(xiàn)象。此種情況下,由于缺乏數(shù)據(jù)支撐應用的有效性檢驗,數(shù)據(jù)是否能夠充分滿足應用需求以及對分析結(jié)果產(chǎn)生哪些影響是需要關(guān)注的問題。受隱私關(guān)切和數(shù)據(jù)獲取條件限制等因素的影響,現(xiàn)有研究中的大規(guī)模人群位置觀測數(shù)據(jù)在覆蓋時間長度存在差異,有關(guān)分析結(jié)果既可能是人群行為本身特征映射的結(jié)果,也可能是數(shù)據(jù)覆蓋時長變化作用的結(jié)果,如何科學理解有關(guān)分析結(jié)果對后續(xù)決策十分關(guān)鍵。以手機位置數(shù)據(jù)的研究為例,少數(shù)研究的數(shù)據(jù)覆蓋時間超過1 個月(Guan 等,2021),許多研究所用的數(shù)據(jù)涵蓋居民一天的出行活動軌跡數(shù)據(jù)(彭大芹等,2019;周亞娟等,2020;Hu 和Chen,2021)。考慮到個體日常生活需求、可支配資源限制及物理環(huán)境條件等因素,個體日間活動呈現(xiàn)出復雜性特點(Susilo 和Axhausen,2014;Duan 等,2017)。因此,迫切需要了解人類出行活動的日間穩(wěn)定性特征,科學認識短時間軌跡數(shù)據(jù)集對人類移動復雜性的刻畫能力。
本文以青海省西寧市為例,利用匿名化脫敏手機位置數(shù)據(jù),基于軌跡相似性方法,分析并對比不同類型的日期之間居民個體活動軌跡的穩(wěn)定性;同時,對不同屬性和區(qū)域的人群日間穩(wěn)定性進行了對比。研究結(jié)果可以為城市規(guī)劃管理決策提供科學支撐。
西寧市為青海省省會,位于青藏高原東北部,截至2016 年末,市區(qū)人口為128.91 萬人。本文選取城東、城中、城西、城北四個城區(qū)作為研究區(qū)域(圖1),分析其居民活動軌跡日間穩(wěn)定性及人群和時空分布特征。
研究所用的匿名化脫敏數(shù)據(jù)來自西寧市某移動運營商,包括因通話、短信及移動互聯(lián)網(wǎng)使用產(chǎn)生的記錄。在空間范圍上,數(shù)據(jù)主要涵蓋的是西寧市主城區(qū);在時間范圍上,數(shù)據(jù)集包含兩個工作日(2018 年8 月2~3 日)和兩個休息日(2018 年8 月4~5 日)。數(shù)據(jù)集中有38 萬個用戶,一天約4500 萬條數(shù)據(jù)。手機位置數(shù)據(jù)通過基站定位,約有2600個基站,基站間平均距離191.26 m,基站分布呈東西“十字”放射條帶狀(圖1)。數(shù)據(jù)集屬性情況見表1,為保護用戶隱私,研究使用的數(shù)據(jù)均已經(jīng)過匿名化脫敏處理。
表1 手機位置數(shù)據(jù)屬性示例Tab.1 Example of mobile phone location data attributes
首先,刪除手機位置數(shù)據(jù)中的空值、異常值等;其次,為盡可能準確地記錄居民的活動軌跡,本研究篩選出任意一天的記錄時長不低于16 h(Lu 等,2017)的手機用戶4.79 萬;最后,識別出居住地的用戶有4.57 萬作為研究所用數(shù)據(jù)集。數(shù)據(jù)集中青年(19~35 歲)人群占比最高,達57%;老年(60 歲以上)人群占比較少,約為2%。這與我國年齡人口分布和手機用戶的群體分布相似。
以西寧市街道為空間單元,計算所用數(shù)據(jù)集中的各街道的人口與第六次全國人口普查數(shù)據(jù)的斯皮爾曼相關(guān)系數(shù)為0.85(p<0.01),說明研究區(qū)的居住地分布與人口普查結(jié)果在整體上有較好的一致性。其中,人口分布較多的街鎮(zhèn)主要是占地面積較大且位于中心城區(qū)外圍的彭家寨鎮(zhèn)、韻家口鎮(zhèn)和馬坊街道。清洗后數(shù)據(jù)采樣的平均時間間隔為8 min,有92.4%的數(shù)據(jù)采樣時間間隔在30 min 之內(nèi),表明研究所用數(shù)據(jù)質(zhì)量良好。各時間段的數(shù)據(jù)量在4 d內(nèi)分布較為均勻(圖2),工作日白天數(shù)據(jù)量明顯高于休息日,星期天最低(8 月5 日)。4 d 數(shù)據(jù)記錄時間分布的斯皮爾曼相關(guān)性最小值為0.84,綜合說明本研究的數(shù)據(jù)記錄量在日間有較好的一致性,可用于活動軌跡的日間穩(wěn)定性分析。
圖2 數(shù)據(jù)記錄的時間分布Fig.2 Time distribution of data records
基于手機位置數(shù)據(jù),本文利用時間最鄰近的位置記錄對數(shù)據(jù)缺失的時間段進行位置插補,生成個體出行網(wǎng)格軌跡;通過個體在天與天之間相同時間段出現(xiàn)在相同網(wǎng)格的時間段次數(shù),構(gòu)建個體活動軌跡日間穩(wěn)定性度量方法;對不同群體活動軌跡日間穩(wěn)定性進行分析。技術(shù)流程如圖3 所示。
圖3 活動軌跡日間穩(wěn)定性分析流程Fig.3 Flowchat of inter-day stability analysis of activity trajectories
居住地是居民日?;顒拥闹匾^點。本文借助用戶在凌晨的停留信息識別居住地,具體步驟如下:①使用SMoT(stop and moves of a trajectory)模型識別停留軌跡段(Spaccapietra 等,2008;徐金壘等,2015),統(tǒng)計用戶每天在凌晨停留超過3 h 的位置,稱為凌晨駐留點。②統(tǒng)計用戶4 d 內(nèi)凌晨駐留點的質(zhì)心。③計算每個凌晨駐留點離質(zhì)心的距離,將離質(zhì)心距離最近的凌晨駐留點識別為用戶的居住地。
手機位置數(shù)據(jù)的記錄在時間上并非呈均勻分布。為了保證任意時間段下都有用戶位置信息,本文對數(shù)據(jù)缺失的時間段插補空間位置信息。插補的具體規(guī)則為,將時間劃分為間隔(Δt)相等的M個時間段:從0:00 開始,如果某時間段內(nèi)無記錄,則在該時間段前后的兩條記錄中選擇時間間隔最近的位置信息插補到數(shù)據(jù)缺失的時間段;如果最短的前后記錄時間間隔都相等,則將這兩個位置信息都插補到該時間段內(nèi)。經(jīng)過缺失記錄插補后的軌跡在任意時間段都至少有一條位置記錄,如圖4 所示。
圖4 缺失記錄插補示意圖Fig.4 Schematic diagram of the interpolation for the missing record time windows
手機位置數(shù)據(jù)記錄的位置是為用戶提供通信網(wǎng)絡服務的基站的位置。為了便于比較活動軌跡日間穩(wěn)定性高低和消除基站分布密集地區(qū)手機信號跳轉(zhuǎn)的影響,把以基站位置定位的軌跡轉(zhuǎn)為以網(wǎng)格定位的網(wǎng)格軌跡??紤]到研究數(shù)據(jù)集基站間平均距離有95.3%在500 m 以內(nèi),本文使用500 m 大小的規(guī)則網(wǎng)格,將以經(jīng)緯度定位的軌跡數(shù)據(jù)轉(zhuǎn)為網(wǎng)格軌跡表示。把一天的時間劃分為間隔相等(Δt)的M個時間段,任意一個時間段的定位點有n個(n≥1),則用戶q一天活動的網(wǎng)格軌跡表示為式(1)。表示用戶q在時間段m所在網(wǎng)格信息,可以表示為式(2)。有
為了分析居民活動軌跡日間穩(wěn)定性,本研究參考現(xiàn)有軌跡相似性方法(潘曉等,2019),基于用戶在不同天之間對應時間段出現(xiàn)在相同網(wǎng)格的時間段次數(shù)與一天總時間段數(shù)M之比來量化用戶活動軌跡日間穩(wěn)定性的高低。如用戶q在某兩天的活動網(wǎng)格軌跡分別為和則用戶q在這兩天的活動軌跡日間穩(wěn)定性分數(shù)表示如式(3)。穩(wěn)定分數(shù)的取值為[0,1],其中,表示用戶q在兩天對應的時間段m中是否有相同網(wǎng)格編號的記錄:
每個用戶在任意的兩天間都有一個活動軌跡日間穩(wěn)定性分數(shù),通過度量居民的活動軌跡日間穩(wěn)定性可以了解其活動位置在日間的差異大小。為進一步挖掘居民在一天中不同時間區(qū)間的活動軌跡日間穩(wěn)定性差異,本文以手機位置數(shù)據(jù)識別居住地常用的時間節(jié)點6:00 和晚高峰結(jié)束時間19:00 作為分割點,將一天劃分為三個時間段(表2),再根據(jù)式(3)分別計算不同時間區(qū)間下的穩(wěn)定性。
表2 時間段劃分Tab.2 Division of Time Intervals
分別選取時間段10 min、30 min 和60 min 計算居民活動軌跡的日間穩(wěn)定性,發(fā)現(xiàn)隨著時間段取值的增加,活動軌跡日間穩(wěn)定性和各時間段的穩(wěn)定人群占比都表現(xiàn)出升高的趨勢。考慮到數(shù)據(jù)集采樣時間間隔在30 min 以內(nèi)的數(shù)據(jù)占92.4%,本研究選取30 min 的時間段進行后續(xù)分析。
總體而言,居民活動軌跡日間穩(wěn)定性不高,工作日活動軌跡較穩(wěn)定,休息日活動位置多樣。由表3、圖5 可知西寧市居民活動軌跡日間穩(wěn)定性均值為0.545,這意味著,居民的活動位置在日間平均約有54.5%的時間是相同的。其中,工作日之間(WW-day)的日間穩(wěn)定性最高,比休息日之間(OO-day)的穩(wěn)定性高出近6.4%。WW-day 穩(wěn)定性較高主要是源于其白天工作時間有更多的穩(wěn)定人群,這與時間地理學中,工作日居民出行受到工作活動的制約相符合。OO-day 的穩(wěn)定性低于WW-day 反映居民休息日的活動軌跡不僅與工作日存在差異,在休息日之間差異也相對較大。因此,在提取人類活動信息時,需要更多的休息日出行軌跡才能獲得與工作日準確性相當?shù)奶卣餍畔ⅰ?/p>
表3 不同日期類型日間穩(wěn)定性均值對比Tab.3 Inter-day stability distribution for different date types
圖5 穩(wěn)定人群占比時間分布Fig.5 Time distribution of stable population persentage
在T1~T3 的三個時段中,凌晨時段活動軌跡穩(wěn)定性最高,晚上次之,白天最低。三個時間區(qū)間中的穩(wěn)定性大小關(guān)系與個體位置預測準確率的時間分布特征(李明曉等,2018)相符合,其中,凌晨和晚上分別高出白天近38%、10%(表3)。這表明利用居民在凌晨的停留行為識別居住地的可靠性較高(Cao 等,2019)。此外,工作日不僅白天穩(wěn)定人群占比高出休息日,在晚上也較高(圖5),反映在工作日不僅白天的休閑出行活動受到限制,晚上的出行活動也會受到一定的限制。
按照年齡將居民分為青少年人群(13~18 歲)、青年人群(19~35 歲)、中年人群(36~60 歲)和老年人群(60 歲以上)。活動軌跡日間穩(wěn)定性表現(xiàn)為青少人群最高,老年人群次之,青年和中年人群較低;其中,青少年人群日間穩(wěn)定性比青年人群高出14%(表4)。青少年活動軌跡日間穩(wěn)定性高可能與數(shù)據(jù)采集的時間有關(guān),暑假學生以社區(qū)活動為主,表現(xiàn)出較高的活動軌跡日間穩(wěn)定性。圖6 中,青年和中年人群在工作日工作時間的曲線有明顯的上下班現(xiàn)象,青年人群在上班時間較其他年齡段受到了更大的位置限制,但其在晚上有較其他年齡段更為多樣化的活動位置。老年人群在休息日的中午12:00~13:00 有個小高峰,反映其在這期間有穩(wěn)定的活動位置。從曲線處于最小值的時間來看,多數(shù)年齡段居民活動位置最不穩(wěn)定的時間段在15:00 左右,但青年和中年人群工作日活動位置最不穩(wěn)定的時間段在下班后的18:00~20:00。從晚上19 歲以上居民穩(wěn)定人群占比的變化趨勢來看,老年人群較早回到家中,青年人群在外逗留時間較長,回家最晚。
表4 各年齡段人群日間穩(wěn)定性分布Tab.4 Inter-day stability distribution for different age groups
圖6 各年齡段穩(wěn)定人群占比時間分布Fig.6 Time distribution of stable population distribution for different age groups
男性和女性活動軌跡日間穩(wěn)定性在總體上表現(xiàn)為女性略高于男性,僅高出1%左右,差異較小,體現(xiàn)出隨時代發(fā)展,女性生活的限制性得到持續(xù)緩解。相比較而言,女性在工作日的穩(wěn)定性高于男性(圖7),這可能與女性較少承擔工作中的外出活動有關(guān)。在休息日,女性日間穩(wěn)定性與男性總體持平(表5),但在11:00~20:00 表現(xiàn)為更低的穩(wěn)定人群占比,反映女性在休息日擁有更為多樣化的活動位置,活動復雜性高。在21:00 之后和凌晨,女性穩(wěn)定人群占比均高于男性,這與女性出于安全考慮會減少夜間的獨自出門頻次相符合。
表5 男性與女性日間穩(wěn)定性分布Tab.5 Inter-day stability distribution for men and women
圖7 男性與女性穩(wěn)定人群占比時間分布Fig.7 Time distribution of stable population distribution for men and women
結(jié)合識別的居民居住地,本研究發(fā)現(xiàn)西寧市街道尺度下城市居民活動軌跡日間穩(wěn)定性在空間上表現(xiàn)為從城市中心向外,穩(wěn)定性先降低后增高的趨勢(圖8)。不同城市功能分區(qū)下居民出行行為存在差異,進而在空間上表現(xiàn)為各地區(qū)居民活動軌跡的日間穩(wěn)定性差異(王長碩等,2022)。位于老城區(qū)中心的倉門街歷史悠久,區(qū)域功能結(jié)構(gòu)復雜,居民出行軌跡多樣;生物科技產(chǎn)業(yè)園作為經(jīng)濟高發(fā)展的工業(yè)區(qū),人群出行需求和活動位置多樣。遠郊區(qū)居民活動軌跡日間穩(wěn)定性高,可能與遠郊地區(qū)從事農(nóng)業(yè)的居民占比高,人群活動位置較為單一有關(guān)。
圖8 人群穩(wěn)定性空間分布Fig.8 Spatial distribution of population stability
為了對比位于城市不同地區(qū)人群活動軌跡日間穩(wěn)定性特征,本文從研究區(qū)域中選擇幾個典型區(qū)域來對比分析區(qū)域人群活動軌跡日間穩(wěn)定性特征。從城市中心到遠郊區(qū)依次選擇東關(guān)大街街道、倉門街街道、虎臺街道、大堡子鎮(zhèn)(圖9),分析不同區(qū)域人群活動軌跡日間穩(wěn)定性特征。
圖9 典型區(qū)域地理位置Fig.9 Geographical locations of the typical areas
從圖10 來看,大堡子鎮(zhèn)位于城市遠郊地區(qū),居民活動軌跡日間穩(wěn)定性高且受日期類型影響較小,意味著在相同數(shù)據(jù)資源條件下,活動特征挖掘的準確率在遠郊區(qū)居民上能有更高的準確率;虎臺街道位于西寧市近郊區(qū),穩(wěn)定性較低且受日期類型影響較大,因為隨著城市的發(fā)展與擴張,近郊區(qū)逐漸成為人口分布的次中心,且出行距離較遠、出行路徑不確定性較高;位于老城區(qū)中心的倉門街街道和相鄰的東關(guān)大街街道居民活動軌跡日間穩(wěn)定性均較高且受日期類型影響較小,不同居住主體的兩個街道居民有相似的活動軌跡日間穩(wěn)定性特征,反映西寧市居民均形成了較為穩(wěn)定的生活節(jié)奏。
圖10 典型區(qū)域人群穩(wěn)定性對比Fig.10 Distribution of population stability in typical regions
本文圍繞城市居民活動穩(wěn)定性分析問題,研究了西寧市居民活動軌跡日間穩(wěn)定性的時空分布特征,得出以下主要結(jié)論:①居民活動軌跡的日間穩(wěn)定性總體偏低,其活動位置在日間平均約有54.5%的時間是相同的。居民在工作日的活動軌跡穩(wěn)定性較高,休息日的活動位置多樣性較高,其中,居民在白天的活動軌跡穩(wěn)定性最低。因此,使用短時間軌跡數(shù)據(jù)挖掘居民工作地時,需要考慮居民出行活動的不穩(wěn)定性因素,以提高數(shù)據(jù)挖掘的準確性。②青少年和老年人群活動軌跡的日間穩(wěn)定性總體較高,青年人群在工作時間受到較大的位置限制,但在晚上有多樣化的活動位置。在位置預測研究中,青年人群的活動軌跡日間穩(wěn)定性在工作日和休息日、工作日的工作時間和18:00~20:00 的差異較大,同時青年人群是人類活動大數(shù)據(jù)研究數(shù)據(jù)集中的主體人群,針對不同時間下的居民出行穩(wěn)定性特征分析位置預測算法能有效提升位置預測準確率。③男性與女性在活動軌跡日間穩(wěn)定性上差異較小,雖然女性在工作日的活動位置較穩(wěn)定,但其在休息日白天表現(xiàn)為有更為多樣的活動位置,反映女性的活動模式限制得到基本的解除。④街道尺度下的活動軌跡日間穩(wěn)定性在空間上表現(xiàn)為從城市中心向外,穩(wěn)定性先降低,后增高的趨勢。
本研究仍存在以下問題有待進一步研究:①居民活動軌跡日間穩(wěn)定性結(jié)論的魯棒性還需要更長時間的數(shù)據(jù),做更深入的分析;②可變面積單元問題對結(jié)果的影響。