高蘊(yùn)靈,李英冰*,何 陽(yáng),欒夢(mèng)杰,李欣然
(1.武漢大學(xué) 測(cè)繪學(xué)院,湖北 武漢 430070;2.中鐵第一勘察設(shè)計(jì)研究院集團(tuán)有限公司,陜西 西安 710043)
出租車上下車(OD)數(shù)據(jù)記錄了居民在城市不同區(qū)域的流動(dòng)信息[1],常用于城市交通運(yùn)行分析、居民出行行為分析[2-5]、城市土地利用識(shí)別[1,6]、城市功能區(qū)劃分[7]。規(guī)整路徑距離(warp path distance,WPD)是利用動(dòng)態(tài)時(shí)間規(guī)整(dfynamic time warping,DTW)得到的2 條時(shí)間序列間的最優(yōu)匹配路徑距離,能夠衡量OD序列間的相似度,被應(yīng)用到城市功能區(qū)識(shí)別的研究中[7]。
本文以交通小區(qū)為研究單元,利用出租車OD數(shù)據(jù)構(gòu)建各交通小區(qū)OD時(shí)間序列,通過(guò)添加窗口約束的動(dòng)態(tài)時(shí)間規(guī)整算法(LDTW)來(lái)求解不同交通小區(qū)序列間的規(guī)整路徑距離,結(jié)合K中心聚類算法劃分城市功能區(qū),識(shí)別在出租車不同流動(dòng)模式下的城市功能區(qū)屬性。
針對(duì)DTW 算法在進(jìn)行高維序列運(yùn)算中出現(xiàn)的時(shí)間復(fù)雜度高和病態(tài)對(duì)齊的現(xiàn)象,本文通過(guò)關(guān)鍵時(shí)間節(jié)點(diǎn)對(duì)齊來(lái)添加窗口約束,從而求解出租車OD 序列間的規(guī)整路徑距離,并用該距離作為K中心聚類算法的規(guī)則來(lái)進(jìn)行城市功能區(qū)的劃分。由于城市的功能并不總是穩(wěn)定的,城市區(qū)域在不同時(shí)段的活動(dòng)性可能導(dǎo)致其社會(huì)功能發(fā)生階段性轉(zhuǎn)變[6],因此區(qū)分了出租車在工作日和非工作日不同的全局流動(dòng)模式,并綜合建筑物分布情況來(lái)定量識(shí)別功能區(qū)屬性。最后對(duì)比谷歌地圖和衛(wèi)星影像來(lái)檢驗(yàn)算法在城市功能識(shí)別中的有效性(圖1)。
圖1 算法流程圖
DTW算法通過(guò)有界性、連續(xù)性、單調(diào)性這3個(gè)限制條件來(lái)實(shí)現(xiàn)全局最優(yōu)匹配,但沒(méi)有兼顧序列的局部結(jié)構(gòu)信息,在高維序列計(jì)算中容易導(dǎo)致對(duì)齊路徑長(zhǎng)度過(guò)大,出現(xiàn)病態(tài)對(duì)齊現(xiàn)象[8]。添加窗口約束的動(dòng)態(tài)時(shí)間規(guī)整算法規(guī)定了序列中的數(shù)據(jù)點(diǎn)參與對(duì)齊的次數(shù)以及與其對(duì)齊數(shù)據(jù)點(diǎn)的下標(biāo)范圍,不僅有效減少了病態(tài)對(duì)齊的現(xiàn)象,還降低了時(shí)間成本[9]。因此,本文提出了一種適用于出租車OD 序列的LDTW 算法來(lái)求解不同交通小區(qū)序列間的規(guī)整路徑距離。
針對(duì)每個(gè)交通小區(qū),區(qū)分工作日與非工作日,統(tǒng)計(jì)一定時(shí)間間隔t小時(shí)內(nèi)各小區(qū)的上車乘客數(shù)(O)和下車乘客數(shù)(D),組合得到m個(gè)交通小區(qū)的4n維等時(shí)間間距OD序列:
式中,n=24/t,ODj為第j個(gè)交通小區(qū)的等時(shí)間間距OD 序列;和分別為第j個(gè)交通小區(qū)工作日第i個(gè)時(shí)間段的上車乘客數(shù)和下車乘客數(shù);和分別為第j個(gè)交通小區(qū)非工作日第i個(gè)時(shí)間段的上車乘客數(shù)和下車乘客數(shù)。本文取t=1。
在原有限制條件的基礎(chǔ)上,添加如下的窗口約束來(lái)限制對(duì)齊路徑長(zhǎng)度:
2)關(guān)鍵時(shí)間點(diǎn)(每天的6:00、12:00、18:00)需要對(duì)應(yīng),即對(duì)齊2 條序列的12個(gè)節(jié)點(diǎn)。
利用上述方法計(jì)算m個(gè)交通小區(qū)的OD 時(shí)間序列兩兩之間的規(guī)整路徑距離,最終得到m階規(guī)整路徑距離矩陣如式(2)。
聚類作為挖掘大規(guī)模時(shí)空數(shù)據(jù)的重要手段而被廣泛應(yīng)用于城市功能分區(qū)中[10]。K 中心聚類是圍繞中心點(diǎn)的聚類算法之一,相比于常用的K均值算法,該算法的簇中心點(diǎn)是實(shí)際對(duì)象而不是均值,因此消除了對(duì)孤立點(diǎn)的敏感性。一般K中心聚類過(guò)程中用歐氏距離來(lái)衡量對(duì)象間的距離,但本文旨在通過(guò)比較不同小區(qū)OD 序列間的相似度來(lái)達(dá)到功能分區(qū)的目的,因此用規(guī)整路徑距離來(lái)代替歐氏距離進(jìn)行計(jì)算。
聚類結(jié)果評(píng)價(jià)采用輪廓系數(shù)。輪廓系數(shù)能夠反映聚類結(jié)果的內(nèi)聚度和分離度,越接近1 表示聚類效果越好[11],其計(jì)算公式為:
式中,x(i)為對(duì)象i到它所在類中其他對(duì)象的平均距離;y(i)為對(duì)象i到其他類中所有對(duì)象的平均距離。
出租車上下車事件在不同時(shí)段具有不同的分布規(guī)律[3],而居民出行的變化導(dǎo)致功能區(qū)功能也發(fā)生改變[12]。因此結(jié)合出租車不同時(shí)段的全局流動(dòng)模式來(lái)討論功能區(qū)屬性變化。凈流量比是指在一定時(shí)期內(nèi),其他區(qū)域居民凈流入某一區(qū)域的比例,能夠反映出租車出行的全局流動(dòng)模式[2]。其計(jì)算公式為式(4)。
式中, NFRij為第j個(gè)交通小區(qū)在時(shí)段i的凈流量比;Oi為時(shí)段i內(nèi)的流入量;Di為時(shí)段i內(nèi)的流出量; NFRij>0 為區(qū)域熱度增強(qiáng), NFRij<0 為區(qū)域熱度降低。
城市中分布密集的建筑物體現(xiàn)了城市不同區(qū)域的功能性質(zhì),構(gòu)造建筑物面積指數(shù)和富集指數(shù)能夠定量識(shí)別城市功能性質(zhì)。建筑物面積指數(shù)反映了單元中主要分布的建筑物類別,建筑物富集指數(shù)反映了該建筑物類別在某單元中的聚集程度。功能區(qū)的功能由建筑物面積指數(shù)最大的2~3 個(gè)類別決定,建筑物富集指數(shù)用于對(duì)比不同功能區(qū)的功能差異。對(duì)于聚類得到的每個(gè)功能區(qū)單元,計(jì)算公式分別為:
式中,F(xiàn)i,c為聚類單元c中建筑物類別i的面積指數(shù);Ri,c為聚類單元c中建筑物類別i的富集指數(shù);ni,c為聚類單元c中建筑物類別i的總面積;Nc為聚類單元c中所有建筑物的總面積;Ni為研究區(qū)域建筑物類別i的總面積;N為研究區(qū)域所有建筑物的總面積。
以紐約市265 個(gè)交通小區(qū)為研究單元,將LDTW-K-medoids 算法應(yīng)用于紐約市功能分區(qū),利用工作日和非工作日約50萬(wàn)條出租車上下客數(shù)據(jù)將交通小區(qū)劃分為5 類;結(jié)合建筑物分類數(shù)據(jù)和出租車不同時(shí)段的全局流動(dòng)模式來(lái)識(shí)別功能區(qū)屬性。
紐約市是美國(guó)第一大城市,位于美國(guó)紐約州東南部大西洋沿岸。紐約市作為典型發(fā)達(dá)城市,其城市功能發(fā)展完善,且具有豐富的開放數(shù)據(jù),適合用于城市功能結(jié)構(gòu)的研究。研究區(qū)包括紐約市的265 個(gè)交通小區(qū),總面積為785.11 km2,包括布朗克斯區(qū)(Bronx)、布魯克林區(qū)(Brooklyn)、曼哈頓(Manhattan)、皇后區(qū)(Queens)、斯泰登島(Staten Island)5個(gè)行政區(qū)。
2.1.1 出租車OD數(shù)據(jù)
出租車OD 數(shù)據(jù)下載于紐約市出租車與豪華轎車委員會(huì)(Taxi & Limousine Commission,TLC)官方網(wǎng)站。對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗和興趣信息提取。數(shù)據(jù)清洗包括刪除上車時(shí)間晚于下車時(shí)間、行程距離小于零、乘客數(shù)量缺失等不合理的數(shù)據(jù);興趣信息包括上下車時(shí)間、上下車交通小區(qū)編號(hào)、乘客數(shù)。
2.1.2 建筑物分類數(shù)據(jù)
建筑物分類數(shù)據(jù)下載于紐約城市規(guī)劃部(department of city planning ,DCP)官方網(wǎng)站。DCP 依據(jù)建筑物用途將建筑物分為11 個(gè)類別:獨(dú)棟或雙拼別墅、多戶無(wú)電梯住房、多戶電梯住房、商務(wù)辦公建筑、商住兩用建筑、工業(yè)制造建筑、廣場(chǎng)及戶外游憩、公共設(shè)施和機(jī)構(gòu)、公共交通設(shè)施、停車設(shè)施、閑置地。
出租車區(qū)域交互模式如圖2a所示。出租車交互集中在布魯克林區(qū)、曼哈頓區(qū)、皇后區(qū)。皇后區(qū)和曼哈頓區(qū)之間頻繁的流動(dòng)主要來(lái)源于肯尼迪國(guó)際機(jī)場(chǎng)和拉瓜迪亞機(jī)場(chǎng)。
圖2 出租車出行時(shí)空特征
出租車出行量年月分布如圖2b 所示。自2010 年以來(lái)的12 a 間,出租車出行量呈下降趨勢(shì)。2010—2015 年,出租車出行量年間變化較為穩(wěn)定;2015 年后,受Uber打車加入市場(chǎng)的影響,出租車每年出行量逐漸減少;此外,2020年初受到新冠疫情的影響,出行量急劇下降,而后保持較低水平。
出租車出行量的周內(nèi)日變化特征和日內(nèi)時(shí)變化特征分別如圖2c和2d所示,統(tǒng)計(jì)范圍為2019年3月1日至2019年3月31日。在一周內(nèi),周四、周五的出行量較大,周日最少。而在1 d 天內(nèi),出行量在1:00~6:00持續(xù)下降,在7:00~9:00 快速增長(zhǎng),而后持續(xù)緩慢增長(zhǎng),在17:00 時(shí)略微下降,在18:00~20:00 出現(xiàn)高峰,夜間行程量仍然較多,到后半夜逐漸回落。
選取2019年3月7日(周四)和2019年3月10日(周日)2 d 共計(jì)506 652 條出行記錄,計(jì)算每天24 個(gè)時(shí)間段內(nèi)各交通小區(qū)的凈流量比,可視化如圖3 所示,編號(hào)1表示0:00~1:00時(shí)段,編號(hào)2表示1:00~2:00時(shí)段,以此類推。紅色表示小區(qū)熱度增強(qiáng),呈流入狀態(tài);藍(lán)色表示小區(qū)熱度減弱,呈流出狀態(tài)。
圖3 出租車不同時(shí)段的全局流動(dòng)模式
在同一時(shí)段內(nèi),非工作日交通小區(qū)的熱度往往比工作日更低。一些交通小區(qū)在工作日的7:00~9:00表現(xiàn)出明顯的高流出狀態(tài),18:00~20:00表現(xiàn)出明顯的高流入狀態(tài),而這一現(xiàn)象在非工作日表現(xiàn)不明顯。推測(cè)7:00~9:00為上班高峰期,18:00~20:00為下班高峰期。
利用LDTW算法得到265個(gè)交通小區(qū)OD序列間的規(guī)整路徑距離矩陣,將其作為K 中心聚類的距離矩陣,可視化如圖4 所示。聚類數(shù)目為2、3、4、5、6、7、8、9 時(shí),對(duì)應(yīng)的輪廓系數(shù)分別為0.850、0.733、0.641、0.405、0.215、0.176、0.325、0.130。
圖4 OD序列間的規(guī)整路徑距離
隨著聚類數(shù)目的增大,輪廓系數(shù)呈降低趨勢(shì);而聚類數(shù)目過(guò)少時(shí),城市功能結(jié)構(gòu)劃分不明確[7]。綜合考慮輪廓系數(shù)、聚類合理性以及建筑物分布情況,取k=5 時(shí)的聚類結(jié)果進(jìn)行功能識(shí)別,可視化如圖5所示。
圖5 城市功能區(qū)劃分結(jié)果
5 個(gè)類別的面積占研究區(qū)面積的比例分別為5.58%、2.01%、9.11%、17.07%、66.23%,每個(gè)類別中不同用途的建筑物的面積指數(shù)和富集指數(shù)的計(jì)算結(jié)果如表1 所示。依據(jù)不同流動(dòng)模式下的功能屬性識(shí)別方法進(jìn)行分析,整體來(lái)看,紐約市城市功能結(jié)構(gòu)表現(xiàn)為以曼哈頓為中心的商業(yè)-工作-居住-游憩的圈層結(jié)構(gòu),城市功能完善,交通發(fā)達(dá),商業(yè)發(fā)展好,且生活服務(wù)、休閑娛樂(lè)等基本設(shè)施分布廣泛。
C0 是中心商務(wù)區(qū)和交通樞紐,該區(qū)域交通發(fā)達(dá),人流量最大。在工作日,流入集中在上班高峰期,流出集中在下班高峰期,區(qū)域表現(xiàn)為工作功能;在非工作日,流入集中在上午10:00 時(shí)以后,流出集中在晚上10:00時(shí)以后,區(qū)域表現(xiàn)為商業(yè)功能。
C1是以居住為主、商業(yè)為輔的市中心居住區(qū),位于市中心周圍,區(qū)域流量?jī)H次于C0,少量分布有大學(xué)、醫(yī)院、博物館、教堂等建筑。區(qū)域中多戶電梯住房和商住兩用建筑的富集指數(shù)最高。在工作日,區(qū)域表現(xiàn)為居住功能;在非工作日,白天和夜間都有一定的流入,區(qū)域表現(xiàn)為商業(yè)功能。
C2是工作性質(zhì)和居住性質(zhì)的混合功能區(qū),包含大量的工業(yè)制造建筑和停車設(shè)施。作為工作區(qū)和居住區(qū)的混合區(qū),該區(qū)域熱度一直較高,白天略高于深夜,非工作日的熱度明顯低于工作日。
C3是以居住為主的功能區(qū)。區(qū)域內(nèi)住房多為獨(dú)棟或雙拼別墅,混合少量的無(wú)電梯住房。區(qū)域還包含森林公園、體育館等戶外游憩地點(diǎn)。該區(qū)域在工作日上班高峰期有大量流出,下班高峰期大量流入,表現(xiàn)出明顯的居住區(qū)特性。
C4 是以游憩和居住為主的功能區(qū),靠近城市邊緣。C4 和C3 有相似的人員流動(dòng)特性,但C4 中與商業(yè)、工業(yè)相關(guān)建筑的富集指數(shù)都遠(yuǎn)低于C3。區(qū)域內(nèi)商用建筑和交通設(shè)施的富集指數(shù)最低,住房更偏向于獨(dú)棟或雙拼別墅。
為了檢驗(yàn)算法應(yīng)用于城市功能區(qū)識(shí)別的效果,結(jié)合谷歌地圖和衛(wèi)星影像數(shù)據(jù),將人工判別得到的城市功能作為真值,與算法識(shí)別結(jié)果進(jìn)行比較,驗(yàn)證研究得到的紐約市功能分區(qū)結(jié)果的準(zhǔn)確性,對(duì)照示例如圖6所示。
圖6 識(shí)別結(jié)果對(duì)照示例
通過(guò)屬性信息查詢及目視解譯,建立混淆矩陣定量評(píng)價(jià)識(shí)別精度,混淆矩陣如表2所示。算法的總體精度為83.8%,識(shí)別精度高,其中部分C1被錯(cuò)分到C0,原因可能是C0 和C1 都屬于城市高度發(fā)達(dá)地區(qū),功能混合度高,人流量大。綜合考慮紐約市高度混合的用地現(xiàn)狀,算法有效識(shí)別了紐約市城市功能區(qū)。
表2 功能區(qū)識(shí)別混淆矩陣/%
本文利用出租車OD 數(shù)據(jù)和建筑分類數(shù)據(jù),識(shí)別了紐約市的城市功能結(jié)構(gòu),并結(jié)合谷歌地圖和衛(wèi)星影像數(shù)據(jù),驗(yàn)證了結(jié)果的準(zhǔn)確性。文章的主要工作與創(chuàng)新為:
1)提出一種添加窗口約束的動(dòng)態(tài)時(shí)間規(guī)整改進(jìn)的K中心聚類算法來(lái)劃分城市功能區(qū),并區(qū)分兩工作日和非工作日,識(shí)別了在出租車不同流動(dòng)模式下的城市功能區(qū)主題。
2)將算法應(yīng)用于紐約市,對(duì)50萬(wàn)條出租車OD數(shù)據(jù)進(jìn)行處理,發(fā)現(xiàn)了紐約市以曼哈頓為中心的商業(yè)-工作-居住-游憩的城市功能圈層結(jié)構(gòu),算法識(shí)別精度高達(dá)92.6%。
算法準(zhǔn)確性受到原始交通小區(qū)劃分的影響,并且除了出租車以外,還有公交、地鐵等諸多交通工具承載了居民日常出行,后續(xù)研究可以考慮結(jié)合多源數(shù)據(jù),細(xì)化交通小區(qū)地塊,進(jìn)一步挖掘城市功能分布特征。