魏晉, 安實, 張炎棠*
(1.上海市政工程設計研究總院集團第十市政設計院有限公司, 蘭州 730000; 2.哈爾濱工業(yè)大學交通科學與工程學院, 哈爾濱 150000)
伴隨著實現(xiàn)雙碳目標重大時間節(jié)點的提出,交通領域踐行節(jié)能減排可持續(xù)發(fā)展任務迫在眉睫。大力發(fā)展公共交通是實現(xiàn)綠色交通的重要途徑,然而公共交通“最后一公里”問題決定著其使用的吸引力、競爭力。而自行車等慢行交通以其靈活輕便、可達性高等出行特點[1],成為“最后一公里”的有利助力。隨著共享經(jīng)濟的發(fā)展,以共享單車為核心的慢行交通正在被居民普遍接受[2-3]。共享交通成為解決“最后一公里”問題的關鍵,是實現(xiàn)可持續(xù)交通發(fā)展的有效途徑[4]。為支撐城市可持續(xù)交通的發(fā)展以及為城市規(guī)劃政策提供理論依據(jù),有必要精準預測共享單車出行需求。
在以往研究中,建成環(huán)境因素常被用來預測共享單車出行需求[5]。Li等[6]利用普通最小二乘回歸和地理加權回歸模型探討建成環(huán)境和社會人口特征對共享單車利用的影響,研究發(fā)現(xiàn)興趣點數(shù)據(jù)(point of interest,POI)混合度大大增加居民出行的多樣性。徐標等[7]使用POI數(shù)據(jù)構(gòu)建以騎行距離為約束的多尺度時空地理加權回歸模型,探究建成環(huán)境和區(qū)域經(jīng)濟屬性對停車需求影響的時空異質(zhì)性模式。Ma等[8]利用時空地理加權回歸模型研究了南京市建成環(huán)境和社會經(jīng)濟屬性在時空維度上對定樁和無樁共享單車使用的影響。崔樹強等[9]采用逐步回歸分析方法研究了長沙共享單車出行需求,發(fā)現(xiàn)POI密度與多樣性、路網(wǎng)密度、土地利用類型多樣性等因素對共享單車出行需求產(chǎn)生正向作用?,F(xiàn)有的研究已經(jīng)表明,建成環(huán)境即土地利用對共享單車出行需求影響十分關鍵。然而,以往的研究較少突破線性假設的限制,盡管能夠得到建成環(huán)境要素與出行需求的影響,但其關系相對粗糙,忽視非線性關系所導致的閾值效應以及各土地利用要素間的交互作用將會對城市交通規(guī)劃中的空間布局以及基礎設施建設資源造成浪費和損失[10-11]。因此,需準確說明各影響因素對共享單車出行需求產(chǎn)生的影響。此外,最近有限的研究盡管使用機器學習模型如隨機森林與梯度提升樹等非線性模型審視了建成環(huán)境要素對共享騎行的影響,但鑒于機器學習模型的“黑箱”特性,對于預測結(jié)果無法有效解釋。
考慮到以上研究不足,現(xiàn)提出一種基于GBDT模型的共享單車出行需求預測模型,為提高模型精度引入自行車道密度、公交站點數(shù)等交通屬性的建成環(huán)境影響因素,以及對預測結(jié)果進行解釋來闡明各影響因素的交互作用,借助SHAP方法對GBDT模型進行解釋,分析各影響因子對于共享單車出行需求的作用,并為深圳市共享單車發(fā)展提出合理建議。
GBDT模型是由Fridman等[12]提出的一種集成模型,它由多棵弱決策樹組成,并通過提升策略提高模型質(zhì)量。每一棵決策樹的構(gòu)建都使得殘差向梯度方向減少,在逐次迭代中使得模型殘差不斷減小。利用損失函數(shù)來評價模型性能,認為損失函數(shù)越小,性能越好。在共享單車出行需求預測領域,與傳統(tǒng)的回歸模型相比[13-14],它具有預測精度高、非線性、魯棒性強等優(yōu)點。
GBDT模型工作流程如下。
(1)初始化弱學習器。
(1)
式(1)中:n為樣本數(shù);f0(x)為初始弱學習器;yi為訓練集中第i個樣本的標簽數(shù)據(jù);在初始化弱學習器時,c取值為所有樣本標簽值的均值;L(yi,c)為單個弱學習器的損失函數(shù)。
(2)對于m=1,2,…,M,重復步驟①~步驟③。其中,M為回歸樹迭代次數(shù)。
①對i=1,2,…,n,計算負梯度,即
(2)
式(2)中:rmi為第i個樣本m次迭代的負梯度函數(shù);f(xi)為第i個樣本對應的弱學習器。
②對rmi擬合一棵CART回歸樹,得到第m個回歸樹對應的葉子節(jié)點區(qū)域為Rmj,j=1,2,…,J,其中J為第m棵回歸樹的葉子節(jié)點個數(shù)。
③對j=1,2,…,J,線性搜索損失函數(shù)的最小值,并計算計算最佳擬合值。
(3)
式(3)中:cmj為Rmj的平方損失最小值。
④更新:
(4)
式(4)中:I為指示函數(shù),若x∈Rmj則I=1,否則I=0。
(3)得到強學習器。
(5)
損失函數(shù)一般使用平方損失、對數(shù)損失、交叉熵損失函數(shù)等。本文研究采用平方損失函數(shù),即L[yi,f(xi)]=[yi-f(xi)]2,利用損失函數(shù)的負梯度作為模型殘差的近似值。
為評價GBDT模型的性能,選用平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square erro,RMSE)來評價模型的預測有效性和可靠性,其計算公式分別為
(6)
(7)
SHAP是基于博弈構(gòu)建的一個加性解釋模型,其中構(gòu)建了不同輸入變量的組合,通過輸入變量的存在與否比較模型輸出的平均變化來闡明目標輸入變量的重要性[15]。SHAP將模型的預測值解釋為每個輸入特征的SHAP值之和,即
(8)
則模型中特征i的SHAP值為
[fx(S∪{i})-fx(S)]
(9)
所有實驗分析均在Windows7,AMD Ryzen 9 5900HX,3.30 GHz,and 32 GB RAM系統(tǒng)中,使用Anaconda Navigator3(Jupyter notebook) Python3.6進行。
深圳市總面積1 997.47 km2,常住人口1 768.16萬人。市政府為積極推動公共自行車發(fā)展,試圖解決 “最后一公里”問題,提升公共交通效率。截至2022年8月,深圳全市現(xiàn)有共享單車數(shù)量約為41萬多輛,注冊用戶有近3 000萬,日騎行輛129萬次。
研究數(shù)據(jù)包括:獲取于深圳政府數(shù)據(jù)開放平臺(https://opendata.sz.gov.cn/)的共享單車數(shù)據(jù),數(shù)據(jù)記錄了每次騎行起始時間和起始經(jīng)緯度,結(jié)束時間和結(jié)束經(jīng)緯度;獲取于高德開發(fā)平臺(https://lbs.amap.com/)的POI數(shù)據(jù),數(shù)據(jù)包含興趣點的土地利用信息及其經(jīng)緯度信;含有道路類型、里程及位置信息的深圳道路網(wǎng)數(shù)據(jù);含有站點名稱、經(jīng)過線路及其經(jīng)緯度信息的深圳市公交線路數(shù)據(jù)。
一方面由于共享單車出行數(shù)據(jù)具有缺省值和偏差值,另一方面各種數(shù)據(jù)間進行匹配,需要對數(shù)據(jù)進行預處理。具體處理步驟如下。
(1)遍歷共享單車出行數(shù)據(jù),若存在缺省值、錯誤值等,將該條數(shù)據(jù)進行刪除。
(2)通過共享單車出行起終點經(jīng)緯度計算單次出行距離,將不滿足真實出行距離的數(shù)據(jù)刪除。本文定義單次出行距離在50 m到5 km之間。
(3)借助TransBigData模塊將共享單車出行數(shù)據(jù)、POI數(shù)據(jù)、道路網(wǎng)數(shù)據(jù)和公交站點柵格化并匹配,計算各柵格共享單車發(fā)生吸引量、各類土地利用和土地混合使用度、公交站點數(shù)目及道路網(wǎng)密度等的情況。
分別繪制各柵格共享單車發(fā)生吸引量分布圖如圖1~圖2所示??梢园l(fā)現(xiàn),共享單車發(fā)生吸引分布接近且比較集中,在東南部,此處為沿海地區(qū),經(jīng)濟發(fā)達,土地利用程度大;在西北和東北地區(qū),共享單車出行需求量不大,該處為龍崗區(qū)和寶安區(qū)多為工業(yè)園區(qū),因此共享單車出行需求較少。
圖1 共享單車發(fā)生分布圖
圖2 共享單車吸引分布圖
大量研究表明,共享單車出行需求受土地利用、道路網(wǎng)等建成環(huán)境因素影響,結(jié)合上節(jié)分析,本文選取土地利用及服務設施和交通屬性兩類因素共17個變量分析預測土地利用等建成環(huán)境條件對共享單車出行需求的影響。表1詳細地展示了17個變量及其統(tǒng)計特征,其中混合土地利用無量綱。
表1 影響因素統(tǒng)計
由表1可知,在各類土地要素中,餐飲美食、購物消費和公司企業(yè)POI數(shù)量最大,但其對應的標準差也較大說明其分布并不均勻;混合土地利用度均值為1.851,標準差為0.332,分布較為均勻,反映深圳各地區(qū)土地開發(fā)的混合程度一致,多種用地存在。在交通屬性中,深圳市的自行車道密度以及公交車站數(shù)目均值較小,說明其設施不完善,而且自行車道密度的標準差較大,反映了各地區(qū)自行車道密度分布不均勻,自行車道建設存在較大的進步空間。
以500×500的柵格作為研究對象,通過空間連接將各變量與空間信息關聯(lián),并將各柵格的共享單車發(fā)生量作為出行需求進行研究,構(gòu)建基于梯度提升決策樹(gradient boosting decision tree,GBDT)的共享單車發(fā)生量預測模型。為判斷GBDT模型在共享單車出行需求預測的可靠性和有效性,將GBDT模型預測結(jié)果與BP神經(jīng)網(wǎng)絡進行對比分析。圖3展示了兩種模型的預測的對比。結(jié)果表明GBDT模型的預測精度明顯優(yōu)于BP神經(jīng)網(wǎng)絡模型。而且GBDT模型對于極大的真實值擬合效果更優(yōu),說明GBDT模型對于非線性需求預測性能更突出。為進一步說明兩種模型的差距,計算對比兩種模型下MAE和RMSE如表2所示。
表2 不同模型評價指標對比
由表2可知,GBDT模型的MAE為0.68明顯小于BP神經(jīng)網(wǎng)絡的0.859,說明其預測結(jié)果更準確;GBDT模型的RMSE也比BP神經(jīng)網(wǎng)絡低27.3%,說明了該模型預測結(jié)果更可靠。圖3展示了兩種模型的預測結(jié)果。綜上所述,GBDT模型可以較為精確,滿足對共享單車出行需求預測的要求。
圖4定量表征了各種影響因子對于共享單車出行需求量影響的相對重要性。點顏色越紅說明該影響因子數(shù)值越大,顏色越藍則越小。SHAP>0時表示該因子正向影響共享單車出行需求;SHAP<0則反向影響共享單車出行需求。從圖4可以發(fā)現(xiàn),當柵格中交通設施、金融機構(gòu)、餐飲美食、路網(wǎng)密度和休閑娛樂POI興趣點數(shù)量較多時,會使共享單車發(fā)生量較大,而且其中交通設施影響最明顯。以交通設施為例,當柵格內(nèi)交通設施較多時,居民出行便利,往往會產(chǎn)生更多的出行意愿,因此共享單車發(fā)生量較大。但是可以發(fā)現(xiàn),交通設施、金融機構(gòu)、餐飲美食等分布在SHAP值負半軸的樣本點更多,說明深圳地區(qū)之間發(fā)展不平衡,許多柵格土地利用程度不高交通設施等并不完善,且對共享單車出行產(chǎn)生不良影響。其中圖像顯示購物消費類POI點數(shù)目對共享單車發(fā)生量具有明顯反作用,可能是由于購物消費往往是居民出行的主要目的,柵格內(nèi)購物消費POI點較多時其共享單車吸引量會大,而發(fā)生量反而會較小。
每行代表一個影響因子的作用;一個點代表一個樣本
同時,可以發(fā)現(xiàn),自行車道密度和公交站點數(shù)對共享單車出行需求也具有正向作用,但是其SHAP值較小,說明在GBDT模型中其影響程度不大,反映了深圳的慢行交通設施以及共享單車與公共交通銜接設施有待進一步提高。
在分析各個單影響因素作用情況時,結(jié)果表明土地利用混合度的散點顏色分布均勻。為進一步分析混合土地利用對共享單車出行需求的影響,繪制其部分依賴圖(圖5)??梢园l(fā)現(xiàn),當土地利用混合度小于2.0時,其SHAP值變化不大且較小;土地利用混合度大于2.0時,SHAP值隨土地利用混合度增加明顯。綜上說明,一方面,若地區(qū)土地利用混合度較大,各類POI數(shù)目均勻,居民生活多樣共享單車出行需求也會較大;另一方面,雖然各種土地利用比較均勻,但各類POI數(shù)目皆較小,誘發(fā)的共享單車總出行需求也會小。因此可知深圳存在區(qū)域發(fā)展不平衡的現(xiàn)象,在土地利用開發(fā)中,需對各地區(qū)進一步調(diào)整。
圖5 土地混合程度影響
在繪制酒店住宿POI的部分依賴圖時,結(jié)果表明酒店住宿POI數(shù)目對共享單車出行需求的影響具有閾值效應。從圖6可知,在酒店住宿POI數(shù)目小于13.5,其SHAP值較為穩(wěn)定,對共享單車出行需求影響不大;當酒店住宿POI數(shù)目大于13.5時,SHAP值發(fā)生突變,說明對共享單車影響突然增強。酒店住宿POI數(shù)目影響的閾值現(xiàn)象,進一步說明了影響因素作用的非線性,線性回歸模型不能有效地解釋該規(guī)律[16]。
圖6 酒店住宿POI數(shù)目影響
為研究多種影響因素共同作用對共享單車出行需求的影響,結(jié)果展示了交互作用顯著的幾組變量。以購物消費POI數(shù)目和餐飲美食POI數(shù)目為例繪制其交互作用圖如圖7和圖8所示??梢园l(fā)現(xiàn),柵格內(nèi)購物消費POI數(shù)量和餐飲美食POI數(shù)量成正比趨勢,當一類POI數(shù)量越多時,另一類POI數(shù)量越多。這是由于這兩類POI多位于經(jīng)濟發(fā)達的區(qū)域,土地開發(fā)利用程度往往比較大,因此兩類POI數(shù)目呈正相關關系。并且,購物消費POI數(shù)目越大,對共享單車出行需求起反向作用;而餐飲美食POI數(shù)目越大,對共享單車出行需求起正向作用。購物消費POI數(shù)目和餐飲美食POI數(shù)目對共享單車出行需求產(chǎn)生相反的作用,而兩者又正相關,反映了共享單車出行需求的誘發(fā)并不是簡單線性關系,而是各種因素復雜交互作用影響下產(chǎn)生的結(jié)果。因此,在土地利用開發(fā)中應將各影響因素的交互作用進行考慮。
圖7 購物消費和餐飲美食交互作用圖
圖8 餐飲美食和購物消費交互作用圖
根據(jù)上述分析,結(jié)合深圳市實際情況,為促進共享單車發(fā)展,提出以下建議。
(1)加強交通設施尤其是慢行交通設施建設,注重共享單車設施與公共交通的結(jié)合[17]。一方面加強慢行交通設施的便利性、連貫性,滿足居民使用共享單車的休閑娛樂、運動健身等需求;另一方面,共享單車停取點的設置結(jié)合公交、地鐵樞紐站布設,方便居民借助共享單車彌補公共交通的最后一公里。
(2)注重各種土地利用的內(nèi)在聯(lián)系,協(xié)調(diào)發(fā)展。首先提高土地利用混合度,防止出現(xiàn)區(qū)域某類POI過多或過少的現(xiàn)象,促進地區(qū)內(nèi)部各類土地利用共同發(fā)展;另一方面,關注不同土地利用的關系,例如餐飲美食POI和購物消費POI兩類,如何協(xié)調(diào)兩者的關系,促進共享單車出行需求的產(chǎn)生。
(3)協(xié)調(diào)深圳各地區(qū)發(fā)展,縮小區(qū)域差距。深圳經(jīng)濟發(fā)展存在以東南沿海地區(qū)為中心,共享單車的出行需求也集中在該地區(qū)。因此在后續(xù)的發(fā)展中,可以加強各區(qū)域的協(xié)調(diào)統(tǒng)籌發(fā)展,加大其他區(qū)域土地利用開發(fā)建設、交通設施建設,促進共享單車全市域發(fā)展。
針對如何結(jié)合地區(qū)土地利用等數(shù)據(jù)精確預測共享單車出行需求的問題,使用深圳共享單車出行數(shù)據(jù)、POI數(shù)據(jù)、路網(wǎng)數(shù)據(jù)和公交線路數(shù)據(jù),基于GBDT模型構(gòu)建共享單車出行需求預測模型,最后借助SHAP方法解釋建成環(huán)境要素在模型中的非線性影響及交互作用。經(jīng)過實驗得到以下結(jié)論。
(1)與BP神經(jīng)網(wǎng)絡模型相比,GBDT模型預測結(jié)果更加可靠準確,預測精度高,且能夠識別解釋變量與共享單車出行需求的非線性影響。SHAP方法可以通過部分依賴圖、交互作用圖等更直觀地對GBDT模型解釋,有利于發(fā)掘共享單車發(fā)展的重要限制因素。
(2)交通屬性因素對于共享單車出行需求作用明顯;交通設施POI數(shù)目的SHAP值最大;而自行車道數(shù)和公交站點數(shù)雖然具有正向作用,但對共享單車出行需求的作用不明顯。
(3)土地利用對共享單車出行需求明顯。一方面多種土地利用存在交互作用,共同促進共享單車出行需求;另一方面各類土地要素以及土地利用混合度也較大程度決定了共享單車出行需求。