李 亮,趙 星,張海燕,杜希旺
(河海大學土木與交通學院,南京 210098)
城市軌道交通以其速度快、運量大、頻次高和能耗低的優(yōu)點而被視為提高市民出行效率、緩解城市交通擁堵的有效途徑.軌道交通站點作為城市軌道交通網(wǎng)絡的關鍵節(jié)點,其客流時空分布模式與站點自身特性、周邊土地利用及接駁設施配置等存在互動關系.因此,基于不同維度所選特征進行軌道交通站點聚類研究,對探索站點類型與其客流出行模式互動機理具有重要意義.
軌道交通站點客流是站點周邊用地形態(tài)所產(chǎn)生的出行需求的體現(xiàn),亦是站點設施使用情況的直接反映[1].隨著自動收費系統(tǒng)(Automated Fare Collection,AFC)的廣泛應用以及大數(shù)據(jù)技術的不斷發(fā)展,基于地鐵刷卡數(shù)據(jù)構造客流時間序列并進行特征選擇已成為站點聚類研究的有效途徑.Mahrsi等[2]利用地鐵刷卡數(shù)據(jù)探索客流時變規(guī)律與OD 分布,提出一種基于最大期望(Expectation Maximization,EM)算法的聚類模型并用于實例研究.Kim等[3]根據(jù)首爾地鐵進出站客流時間序列提取聚類因子,采用主成分分析與K-means 算法將站點劃分為5 類.尹芹等[4]基于工作日地鐵刷卡數(shù)據(jù)構造客流矩陣,應用引入客流特征的時間序列聚類方法對北京市地鐵站點進行分類研究.
基于站點聚類結(jié)果,通過對各類別站點的客流時空分布特性與周邊土地利用性質(zhì)進行融合分析,能夠進一步識別不同聚類站點客流出行模式的異質(zhì)性,進而探索站點布局與乘客出行需求之間的互動關系[5-6].Shen等[7]基于進出站客流時序特征對地鐵站點進行分類,并結(jié)合站點周邊用地形態(tài)歸納分析不同站點類型的客流出行模式.Gan等[8]應用Kmeans 算法將南京市地鐵站點分為7 類,并構建多項Logit 模型深入剖析建成環(huán)境屬性對站點客流的影響機理.馬曉磊等[9]采用K-means 算法與交叉分類組合模型將北京地鐵站點分為5 類,并應用地理加權回歸模型量化分析站點客流特征與土地利用之間的相關關系.
既有研究關于聚類變量的選取多集中于客流時間序列分析,聚類變量構成較為單一且未能考慮空間屬性對站點類別的影響.因此,本文以地鐵刷卡數(shù)據(jù)與站點周邊興趣點數(shù)據(jù)(Point of Interest,POI)為基礎,從時空維度出發(fā)進行聚類變量選擇,應用K-means++聚類算法對杭州地鐵站點進行聚類分析,并結(jié)合不同站點類型周邊建成環(huán)境探討客流出行模式的異質(zhì)性.
杭州坐落于長江三角洲地區(qū),是浙江省的省會和經(jīng)濟、文化、科教中心.本文以杭州市主城區(qū)為研究區(qū)域,包括余杭區(qū)、拱墅區(qū)、西湖區(qū)等行政區(qū)劃.2012 年杭州地鐵1 號線一期正式開通試運營,杭州成為浙江省首個開通地鐵的城市.截至2020 年12 月,杭州地鐵已有7 條運營線路,車站167 座,線網(wǎng)里程共計約306 千米[10].杭州地鐵站點空間分布如圖1 所示.
圖1 研究區(qū)域與地鐵站點分布Fig.1 Distribution of research area and metro station
本文所用數(shù)據(jù)包括杭州地鐵刷卡數(shù)據(jù)和站點周邊興趣點數(shù)據(jù).地鐵刷卡數(shù)據(jù)包含2019 年1 月1 日~2019 年1 月25 日乘客進出站刷卡記錄,涵蓋1、2、4 號線3 條線路80 個站點,總計約7 000 萬條數(shù)據(jù),并通過用戶IC 卡號、刷卡日期、刷卡時間、所屬線路、站點編號、進出站狀態(tài)等字段記錄乘客出行行為及交易信息.其中進出站狀態(tài)為布爾型數(shù)據(jù)類型,即通過數(shù)值1、0 分別表示進站與出站行為.杭州市地鐵刷卡數(shù)據(jù)樣例見表1.
表1 地鐵刷卡數(shù)據(jù)樣例Tab.1 Example of metro swip card data
興趣點數(shù)據(jù)是表示真實存在地理實體的點狀數(shù)據(jù),通過名稱、類別、經(jīng)緯度等屬性描述空間地理要素信息.為實現(xiàn)特定空間尺度下的興趣點數(shù)據(jù)獲取與統(tǒng)計分析,以步行可達范圍作為站點吸引范圍的劃定標準,綜合考慮前人研究、相關設計規(guī)范以及杭州市主城區(qū)平均站間距[11-14],本文選擇站點周邊500 m 半徑區(qū)域作為吸引范圍,并應用高德地圖開發(fā)平臺獲取吸引范圍內(nèi)的餐飲服務、購物服務、醫(yī)療保健等14 種興趣點類型來構建土地利用特征數(shù)據(jù)集.具體興趣點類型如表2 所示.
表2 所選興趣點類型Tab.2 Selected types of POI
基于普通最小二乘法(Ordinary Least Square,OLS)進行參數(shù)估計所建多元線性回歸模型是量化分析軌道交通站點客流與其影響因素之間依賴關系的主要研究方法之一.其基本形式為
式中:yi為站點i客流量;βp為站點i第p項自變量xip對應回歸系數(shù);βo為模型截距;εi為模型誤差項并設其服從N(0,σ2)分布.由于OLS 模型所得回歸系數(shù)僅從平均視角表征解釋變量對因變量的影響程度,而未能捕捉變量自身空間異質(zhì)性對其影響程度的擾動,使得模型回歸結(jié)果的表達存在一定滯后性.
地理加權回歸(Geographical Weighted Regression,GWR)是一種對空間變化關系進行線性回歸建模的方法.相對于傳統(tǒng)線性回歸,地理加權回歸模型將空間位置的距離權重函數(shù)引入回歸方程,并將空間變化納入模型中解釋變量的參數(shù)估計[15].因此,地理加權回歸模型能夠充分考慮數(shù)據(jù)的空間非平穩(wěn)性,進而獲得更為準確的分析結(jié)果.
GWR 模型的表達式為
式中:n為所選站點總數(shù);(ui,vi)為站點i的經(jīng)緯度坐標;βo(ui,vi)為模型截距.在構建GWR 模型前需要對所選自變量進行空間自相關性檢驗,從而判斷其是否適合建模分析.全局Moran’s I 指數(shù)常用于檢驗研究區(qū)域內(nèi)變量是否存在空間自相關性,其公式為
式中:m為區(qū)域空間單元總數(shù);xi與xj分別表示變量x在地理單元i和j的屬性值;xˉ為區(qū)域內(nèi)變量x的均值;wij為地理單元i與j之間基于歐式距離的空間權重.預設距離閾值為d,當i與j的距離在閾值d內(nèi),wij=1;反之wij=0.全局Moran’s I指數(shù)值域為[-1,1],其絕對值越接近1,表明變量(正或負的)空間自相關性越強.
GWR 模型的求解核心在于尋找合適的空間權函數(shù)和帶寬來估計空間權重矩陣.本文采用高斯權函數(shù)計算空間權重矩陣,其公式為
式中:Wij為站點i與j之間的空間權重;dij為站點i、j之間的歐式距離;b為帶寬.最優(yōu)帶寬可根據(jù)赤池信息準則(Akaike Information Criterion,AICc)獲得,當AICc 有最小值時即確定對應的最優(yōu)帶寬b.
聚類是按照某種特定標準把數(shù)據(jù)集劃分為由相似子集所組成的若干類或簇的分析過程.聚類分析本質(zhì)上是一種探索性研究過程,能夠根據(jù)得到的分類及其內(nèi)部樣本數(shù)據(jù)分析事物的整體屬性與內(nèi)外特征.K-means 算法是一種被廣泛用于實際問題的聚類算法,具有簡單高效、算法可解釋性強等優(yōu)點[16].但K-means 算法采用隨機化策略選取初始聚類中心而未能考慮彼此之間距離對其聚類結(jié)果的影響,這使得其聚類評價指標易收斂于局部最優(yōu).Kmeans++算法是對傳統(tǒng)K-means 算法的改進,即根據(jù)簇類中心距離最遠原則確定初始質(zhì)心,從而克服隨機選取方式的影響并改善聚類效果.因此,本文選擇K-means++算法用于杭州地鐵站點聚類分析,算法步驟如下:
步驟1:從數(shù)據(jù)集X中隨機選取一樣本點作為首個初始聚類中心μ1.
步驟2:遍歷X中每一個樣本點并計算其與當前聚類中心μ1的歐式距離,篩選出最短距離D(x).隨后根據(jù)計算每個樣本被選為下一個聚類中心的概率,并按照輪盤賭法確定新的聚類中心.
步驟3:重復步驟2 直至選擇出k個聚類中心μ={μ1,μ2,…,μk},進而得到所劃分聚類C={C1,C2,…,Ck}.
步驟4:計算X中所有樣本點與μ中各聚類中心的距離,并將其分配到對應最短距離的聚類中心的類中.
步驟5:對于i=1,2,…,k,計算并更新樣本點所屬的聚類中心μi=
步驟6:重復步驟4 和步驟5,直至聚類中心穩(wěn)定或算法達到最大迭代次數(shù).
K-means++算法屬于無監(jiān)督學習,傳統(tǒng)評價指標并不適用于描述其聚類效果.因此,本文選取輪廓系數(shù)(Silhouette Coefficient)、Davies-Bouldin 指數(shù)和Calinski-Harabaz 指數(shù)評估聚類效果.輪廓系數(shù)是基于類別內(nèi)樣本點之間的密集度與類別之間的離散度的比率進行聚類評估,值域為[-1,1],其數(shù)值越接近1 表明聚類效果越好.計算公式為
式中:s為單樣本的輪廓系數(shù);f為同一聚類內(nèi)樣本點之間的平均距離;g為單樣本點與最近鄰的類別內(nèi)各樣本點之間的平均距離.Davies-Bouldin 指數(shù)又稱為分類適確性指標,能夠度量各分類之間的相似度,其數(shù)值越小表明聚類效果越優(yōu).計算公式為
式中:k為聚類 個數(shù);ei、ej分別表示類i和類j內(nèi)部各樣本點到其質(zhì)心的平均距離;Dij表示類i與類j的質(zhì)心間距.
Calinski-Harabaz 指數(shù)的評估原理與輪廓系數(shù)相似,其數(shù)值為類別之間協(xié)方差與類別內(nèi)部樣本矩陣協(xié)方差的比率,數(shù)值越大表明聚類效果越優(yōu).計算公式為
式中:z為樣本總數(shù);Bk、Wk分別表示類別之間與類別內(nèi)部協(xié)方差矩陣;Tr為矩陣的跡.
Davies-Bouldin指數(shù)與Calinski-Harabaz指數(shù)表達式中k具有相同的含義,因而綜合衡量該兩項指標有助于從直觀視角確定最優(yōu)聚類總數(shù)并評價其聚類結(jié)果.
基于地鐵刷卡數(shù)據(jù)與站點周邊興趣點數(shù)據(jù),應用數(shù)據(jù)挖掘與分析方法從時空維度選取聚類變量有助于深入理解站點類型、客流分布模式與土地利用特征的內(nèi)在聯(lián)系,為站點聚類分析提供必要的數(shù)據(jù)支撐.
為優(yōu)化數(shù)據(jù)質(zhì)量并確保分析結(jié)果準確性,首先對地鐵刷卡數(shù)據(jù)進行清洗,具體包括缺失值剔除,冗余數(shù)據(jù)檢測以及異常數(shù)據(jù)處理.基于已清洗的數(shù)據(jù),首先按照刷卡日期及時間字段對其進行排序,并以小時為時間間隔統(tǒng)計地鐵線網(wǎng)全天總客流.本文選擇1 月14 日~1 月20 日一周作為完整周期,全線5:00~23:00 日小時總體客流分布如圖2 所示.
從圖2 中可看出,周一至周五為工作日,日小時客流量呈現(xiàn)出相似的時間分布模式,休息日亦具有相似的時間分布規(guī)律,工作日和休息日的客流時間分布表現(xiàn)出較大的差異性.工作日客流存在明顯的早晚高峰,分別是7:00~9:00 和17:00~19:00,早高峰客流峰值相對晚高峰較大,這與人們工作日通勤出行行為高度一致.休息日客流分布相對均衡,并沒有表現(xiàn)出明顯的聚集效應,推測其原因可能是休息日期間乘客出行時間相對自由,出行目的并不是以通勤為主而是具有就醫(yī)、休閑娛樂等多種可能性.可以認為,工作日與休息日的客流時間分布差異性反映了人們的生活模式從工作狀態(tài)到休閑狀態(tài)的轉(zhuǎn)變.
圖2 一周日小時地鐵總體客流分布圖Fig.2 Distribution of daily hour overall passenger flows within a week
基于上述分析,進一步探索站點層面下的客流時間分布模式.基于已完成清洗以及時間序列排序的數(shù)據(jù),根據(jù)“進出站狀態(tài)”對進站與出站乘客刷卡記錄進行分類存儲,以小時為時間間隔分別統(tǒng)計各站點客流量,即可得到分站點分小時的進站客流與出站客流數(shù)據(jù).以若干非鄰接站點為例,其一周內(nèi)日小時進出站客流時間分布如圖3 所示.
圖3 不同站點日小時進出站客流分布Fig.3 Daily hour inbound and outbound passenger flows distribution in different stations within a week
從圖3 中可以看出,不同站點的進出站客流時間分布模式在工作日與休息日期間均呈現(xiàn)特定的相似性.充分考慮不同類型客流隨時間變化特點,本文以小時為時間尺度分別統(tǒng)計各站點5:00~23:00 工作日進站/出站客流、休息日進站/出站客流,并計算日小時客流比例以減少不同站點客流量分布的絕對差異,更加突出其時間序列變化趨勢.將上述四項時序數(shù)據(jù)進行橫向組合從而構建二維矩陣,其中縱向為所選80 個站點編號的正向遞增序列.每個站點均包含72 項變量(工作日進出站/休息日進出站×18h),并以之作為時間維度聚類變量,其矩陣布局如圖4 所示.
圖4 客流時間序列矩陣Fig.4 Time series matrix of passenger flow
作為描述真實存在地理實體的基本組成單元,興趣點數(shù)據(jù)能夠?qū)崿F(xiàn)基于空間位置的土地利用特征識別與分析,進而可用于表征一定空間尺度下的城市建成環(huán)境[17-18].因此本文認為軌道交通站點500 m半徑吸引范圍內(nèi)興趣點數(shù)據(jù)具備空間屬性,以之構建解釋變量集并通過回歸建模量化分析土地利用特征與站點客流的依賴關系,同時選取判定系數(shù)(R2)、調(diào)整后的判定系數(shù)(AdjustedR2)以及AICc 作為模型性能評估指標,其中前兩項指標能夠度量回歸方程對觀測數(shù)據(jù)的擬合程度,而AICc 則兼顧模型復雜度與擬合優(yōu)度,進而綜合反映模型的性能表現(xiàn).
首先構建普通最小二乘回歸模型(Ordinary Least Square,OLS),從全局視角對站點客流空間影響因素進行初步分析.在變量選擇方面,本文選取餐飲服務、購物服務、醫(yī)療保健等14 項興趣點類型的數(shù)量作為自變量,綜合考慮客流通勤特性與時間分布差異,選擇工作日早高峰進站/出站客流、晚高峰進站/出站客流以及休息日全天客流作為因變量,并對其進行對數(shù)轉(zhuǎn)換以符合回歸建模對于因變量呈正態(tài)分布的假設.所選變量組合及其描述統(tǒng)計如表3所示.
表3 所選變量及其描述統(tǒng)計Tab.3 Summary and descriptive statistics of selected variables
為克服自變量之間多重共線性對模型參數(shù)估計的影響,本文應用向后逐步回歸法對模型輸入變量進行篩選.表4 為5 種客流類型的OLS 回歸結(jié)果.
由表4 可知,交通設施在上述模型中均呈現(xiàn)正相關且回歸系數(shù)值較高,表明交通設施對所有站點客流類型均具有較強的積極影響.酒店住宿與科教文化在所有模型中均不顯著.餐飲服務、風景名勝、生活服務與休息日出行客流均為正相關,而購物服務、休閑娛樂以及金融保險則表現(xiàn)為負相關,表明商業(yè)-服務業(yè)用地對非通勤客流具有顯著影響,且影響程度存在一定差異性.進一步觀察可知,工作日早高峰進站客流與晚高峰出站客流的顯著變量相似,但后者的變量回歸系數(shù)相對較高,表明其與出站客流相關性程度更強.同時,工作日早高峰出站客流與晚高峰進站客流顯著變量及其系數(shù)分布亦具有相似性,可認為其是全局視角下以通勤出行為主的工作日客流與空間用地屬性互饋作用的效果.
表4 OLS 回歸模型系數(shù)估計結(jié)果Tab.4 Parameter estimation results of OLS regression models
基于OLS 全局回歸分析結(jié)果,進一步應用GWR 模型進行后續(xù)分析.在GWR 建模前需要對候選解釋變量進行Moran’s I 指數(shù)檢驗,以判斷其分布是否存在空間自相關性[19].檢驗結(jié)果見表5.所有自變量的Moran’s I 指數(shù)均為正值且通過95%置信度檢驗,表明候選自變量的空間分布具有明顯的聚集特性,符合GWR 建模要求.
表5 Moran’s I 檢驗結(jié)果Tab.5 Results of Moran’s I test
以OLS 回歸分析所得顯著變量為輸入變量,構建GWR 模型探索空間視角下的站點客流影響因素并統(tǒng)計其回歸系數(shù)的均值如表6 所示.
表6 GWR 模型系數(shù)估計結(jié)果Tab.6 Parameter estimation results of GWR models
由表6 可知,生活服務、交通設施與所有站點客流類型均為正相關且具有較高的系數(shù)值,這與OLS回歸分析結(jié)果相一致,表明地鐵站出入口、公交站點等交通設施數(shù)量的增長以及周邊生活配套設施的完善能夠有效吸引地鐵出行客流.休息日全天客流反映了人們非通勤的出行特性,餐飲、風景名勝與休息日客流呈正相關,而購物、休閑娛樂則為負相關,表明人們的出行目的偏向于餐飲消費與閑暇出游.早高峰進站客流與晚高峰出站客流反映居住區(qū)域的通勤出行特性,因而兩者的顯著變量及其系數(shù)分布相似,且生活服務設施對客流有較強的積極影響.早高峰出站客流與晚高峰進站客流反映工作區(qū)域的通勤出行特性,兩者的變量構成及其系數(shù)分布亦具有相似性,其中以就業(yè)功能為主的公司企業(yè)、寫字樓與客流呈顯著正相關.同時風景名勝回歸系數(shù)為正值,可認為杭州市內(nèi)眾多旅游景點是人們通勤出行的重要途徑或目的地,因而對客流具有一定的積極影響.購物服務、金融保險及休閑娛樂與客流為顯著負相關,表明商業(yè)-服務業(yè)用地類型對于工作日從工作地到居住地的通勤客流并不具備較強吸引力.
對比表4 和表6 所得結(jié)果可知,GWR 模型的三項評價指標均優(yōu)于OLS 模型,表明在描述用地特征的空間非平穩(wěn)性對站點客流的影響程度時,GWR模型具有更好的數(shù)據(jù)擬合效果和性能表現(xiàn).因此,本文以GWR 模型中的自變量作為空間維度變量,即各站點吸引范圍內(nèi)除酒店住宿和科教文化之外的12 項POI 變量用于站點聚類研究.
K-means++算法需預先設定聚類個數(shù)k,且k值的選取對其聚類效果影響較大.本文根據(jù)輪廓系數(shù)、Davies-Bouldin指數(shù)以及Calinski-Harabaz指數(shù)選擇最優(yōu)k值,同時引入傳統(tǒng)K-means 算法進行對比分析.兩種聚類算法對應評價指標隨不同k值的變化曲線如圖5 所示.
圖5 不同k 值對應聚類評價指標Fig.5 Clustering indices for different values of k
由圖5 可以看出,在所設聚類個數(shù)相同的情況下,K-means++算法相關評價指標相對于傳統(tǒng)Kmeans 算法較優(yōu),表明前者具有更好的性能表現(xiàn).進一步對比觀察可知,k=2 時三項指標均達到最優(yōu),但僅基于指標值將地鐵站點分為兩類;易忽略由城市軌道交通與周邊建成環(huán)境互饋關系所產(chǎn)生的站點類型差異.結(jié)合相關研究[20]與杭州市軌道交通站點實際分布可知,相對于其他取值,當k=4 時輪廓系數(shù)處于拐點位置且Davies-Bouldin 指數(shù)與Calinski-Harabaz 指數(shù)均達到較優(yōu)水平,三項指標改善幅度相對于經(jīng)典K-means 算法分別為30.43%、10.51%、9.02%,因而能夠更為準確地反映地鐵站點與周邊建成環(huán)境的互動及空間組織關系.因此,本文確定最優(yōu)聚類數(shù)k=4.基于前文所得時空維度聚類變量,應用K-means++算法將杭州地鐵1、2、4 號線站點分為4 類,聚類結(jié)果見表7.
表7 站點聚類結(jié)果Tab.7 Results of station clustering
對聚類結(jié)果進行可視化處理得到各類站點的空間分布,如圖6 所示.
圖6 各聚類站點空間分布Fig.6 Spatial distribution of stations in each cluster
聚類1 站點主要分布于2 號線途經(jīng)主城區(qū)沿線地段,毗鄰文教區(qū)商圈與錢江世紀城中央商務區(qū)(Central Business District,CBD).聚類2 站點呈鏈狀分布于1、2、4 號線所經(jīng)城市外圍區(qū),該區(qū)域內(nèi)居住用地分布較為密集.聚類3 站點呈團狀分布于市中心區(qū)與錢江新城,鄰近西湖風景區(qū)、武林廣場以及湖濱商圈,站點周邊資源配置水平和土地開發(fā)程度較高.聚類4 站點分布較為離散,并呈現(xiàn)出從主城區(qū)內(nèi)部逐步擴散至城市郊區(qū)的變化趨勢.
由聚類分析的概念可知,同一聚類內(nèi)部所含站點具有相似的數(shù)據(jù)屬性,具體表現(xiàn)為站點客流時間分布特征與變化規(guī)律的同質(zhì)性.因此,本文分別計算各聚類站點日小時進出站客流比率并篩選其上下限分布范圍,進而分析站點客流時間分布模式.圖7為聚類1 站點工作日與休息日的小時進出站客流比率上下限分布曲線.在工作日,客流具有明顯的晚高峰進站與早高峰出站聚集特征,兩者客流比例分別為30.37%~61.07%、31.62%~65.68%,反映了人們下班返程的通勤特征.在休息日,進站客流表現(xiàn)出一定的晚高峰聚集特征,所占比例為20.19%~36.64%,且非高峰時段客流比例相對于工作日同時段進站客流較高;出站客流亦呈雙峰型分布,其比例分別為12.64%~26.49%、12.68%~26.23%,表明站點周邊用地綜合化水平較高,能夠吸引較多彈性出行客流.
圖7 聚類1 站點日小時進出站客流比率階梯圖Fig.7 Staircase curves of daily-hour percentage inbound and outbound passenger flows at Cluster 1 stations
圖8 為聚類2 站點工作日與休息日的小時進出站客流比率上下限分布曲線.由圖8 可知,工作日客流分布模式與聚類1 相反,具有明顯的早高峰進站與晚高峰出站聚集特征,其客流比例分別為34.73%~66.27%、28.66%~60.60%,反映了人們以上班出行為主的通勤特征.休息日進站客流比例在7:00~8:00 時段達到最大值,為6.86%~12.10%,并隨時間逐步遞減;出站客流比例在8:00~18:00時段呈緩慢遞增態(tài)勢,隨后在晚間逐步下降,表明站點周邊區(qū)域用地類型較為單一,休息日客流出行強度較小且時間分布相對分散.
圖8 聚類2 站點日小時進出站客流比率階梯圖Fig.8 Staircase curves of daily-hour percentage inbound and outbound passenger flows at Cluster 2 stations
圖9 為聚類3 站點工作日與休息日的小時進出站客流比率上下限分布曲線.在工作日,客流分布模式與聚類1 相似,呈現(xiàn)明顯的晚高峰進站與早高峰出站特征,其客流比例分別為27.01%~56.65%、33.37%~65.67%,高峰時段客流聚集性相對聚類1較弱.休息日進出站客流整體強度增大,其中進站客流在下午15:00~17:00 以及19:00~20:00 時段表現(xiàn)出一定的聚集效應,其所占比例分別為16.37%~27.18%、7.41%~23.48%;出站客流在8:00~9:00、12:00~14:00 以及16:00~17:00 時段呈現(xiàn)小高峰,客流比例在夜間時段趨減,表明站點周邊土地利用程度較高,商業(yè)業(yè)態(tài)成熟,乘客彈性出行需求更為頻繁且行為模式與商鋪營業(yè)時間一致.
圖9 聚類3 站點日小時進出站客流比率階梯圖Fig.9 Staircase curves of daily-hour percentage inbound and outbound passenger flows of Cluster 3 stations
圖10 為聚類4 站點工作日與休息日的小時進出站客流比率上下限分布曲線.與其他聚類不同,工作日進出站客流均呈雙峰型分布,其中進站客流早晚高峰比例分別為26.51%~57.55% 與8.53%~29.53%,早高峰客流聚集程度相對晚高峰較高;出站客流早晚高峰占比相近,分別為12.11%~34.23%與17.20%~39.41%.休息日進出站客流時間變化規(guī)律相似,整體分布較為均衡.因此,可認為聚類4 站點周邊用地形態(tài)為職住混合型,兼具居住區(qū)域站點與工作區(qū)域站點對客流的吸引特性.
圖10 聚類4 站點日小時進出站客流比率階梯圖Fig.10 Staircase curves of daily-hour percentage inbound and outbound passenger flows of Cluster 4 stations
軌道交通站點聯(lián)系著周邊建成環(huán)境,兩者之間存在一定的互動機制與反饋關系.基于土地利用興趣點數(shù)據(jù),對各聚類周邊用地特征進行統(tǒng)計如表8所示.
由表8 可知,不同聚類周邊建成環(huán)境表現(xiàn)出一定的異質(zhì)性.聚類1 周邊與就業(yè)功能要素密切相關的科教文化、公司企業(yè)以及金融機構用地比例顯著,而餐飲與購物服務用地占比相對其他聚類較低.聚類2 具有最高的居住、餐飲以及生活服務用地比例,同時政府機構與金融保險用地比例最低.聚類3 周邊購物、酒店、休閑娛樂以及風景名勝用地比例顯著,表明其建成環(huán)境以商業(yè)服務業(yè)設施為主,土地開發(fā)程度較高,城市中心功能明顯.聚類4 周邊用地形態(tài)介于聚類1 與聚類2 之間,但其工作用地與居住用地比例更為均衡.基于上述分析,將4 項聚類分別定義為工作導向型、居住導向型、商業(yè)型以及工作-居住混合型站點.
表8 各聚類周邊用地形態(tài)分布Tab.8 Distribution of land use attributes around the clusters%
結(jié)合客流時間分布規(guī)律與功能導向,進一步分析各站點類型的客流出行模式.聚類1 為工作導向型站點,其工作日客流呈單峰分布,具有明顯的晚高峰進站與早高峰出站潮汐特征.休息日整體客流強度減弱,其出行以彈性需求為主且多發(fā)生于上、下午時段.聚類2 為居住導向型站點,工作日客流以通勤出行為主,具有明顯的早高峰進站與晚高峰出站潮汐特征.休息日整體客流量較小,但相對于工作日平峰時段較高,其出行目的以就醫(yī)、購物休閑等彈性需求為主.聚類3 為商業(yè)型站點,工作日客流分布形態(tài)與工作導向型站點相似,但客流聚集程度較弱,休息日整體客流強度較大且存在多時段客流聚集效應,其出行目的以餐飲、購物以及休閑旅游為主,具有顯著的建成環(huán)境導向特征.聚類4 為工作-居住混合型站點,工作日雙向進出站客流量相近,且均呈雙峰形分布,客流主要源于以站點附近居住區(qū)、商務區(qū)為起始或目的地的錯位出行.休息日客流分布較為均衡,其客流量稍高于工作日平峰時段,客流出行目的具有較多自主選擇性.
1)基于杭州地鐵刷卡數(shù)據(jù)與站點周邊興趣點數(shù)據(jù),本文從時空維度進行聚類變量的提取與構建,應用K-means++聚類算法將杭州地鐵1、2、4 號線80 個站點分為4 類,根據(jù)日小時客流分布特征與周邊建成環(huán)境屬性將其定義為工作導向型、居住導向型、商業(yè)型以及工作-居住混合型站點,并進一步探索不同站點類型所對應的出行模式.
2)本文所用軌道交通站點聚類方法操作簡便,能夠得到有效的聚類結(jié)果.通過站點聚類研究,能夠深入梳理城市功能分區(qū)、軌道交通站點布局以及乘客出行模式之間的互動關系,可為站點客流預測、站城一體化建設等后續(xù)研究做出指導.
3)軌道交通客流時空分布特性是其出行需求與站點空間布局、城市用地形態(tài)等因素互饋作用的結(jié)果.基于地鐵智能卡數(shù)據(jù)與用戶畫像分析方法,未來可進一步對軌道交通客流進行聚類分析,以期深入探索乘客角色屬性與其站點選擇的內(nèi)在邏輯與行為機理.