杜開瑞,賀 蓉
(長安大學運輸工程學院,陜西 西安 710064)
隨著交通需求和道路基礎設施間的矛盾激化,城市交通擁堵愈演愈烈,隨之而來的交通事故頻發(fā)、能源短缺和環(huán)境惡化也越來越嚴重。共享單車憑借其綠色、暢通和存取靈活等優(yōu)勢,在短距離出行和短途接駁中得到了廣泛的應用。據統(tǒng)計,截止到2018年底我國已有超過70家共享單車運營企業(yè),單車數量超過2 000萬輛,注冊的單車用戶超過4億,高峰時使用人次達到7 000萬/天[1]。然而,共享單車的無序發(fā)展和單車的亂停亂放也帶來了一系列的問題:一方面,造成了道路資源的過度浪費,嚴重時甚至會侵占道路,引起交通中斷等,給城市道路交通帶來了諸多不便和嚴重的安全隱患;另一方面,也增加了自行車運營維護、調度和管理等費用,可能造成單車企業(yè)入不敷出、連年虧本,甚至倒閉。因此,對共享單車的需求尤其是停放需求進行預測,對于解決城市單車亂停亂放問題、優(yōu)化單車調度和促進企業(yè)平穩(wěn)、有序發(fā)展,具有非常重要的現實意義。
國內外有不少學者就共享單車的需求影響因素分析和需求預測等方面開展了研究。
Kaltenbrunner等[2]利用基于活動周期的技術和時間序列分析技術(ARMA),預測有樁公共自行車站點的可用自行車數量,但是未考慮天氣條件和地理特征等因素。Labadi等[3]基于加權的Petri網,為公共自行車系統(tǒng)提出了模塊化的動態(tài)租還需求預測模型,但是該方法過于復雜。何流等[4]通過構建公共自行車用戶的租車、還車需求的等待、轉移和消退的概率函數,預測租賃點短期、多時段的單車需求,但是該模型沒有考慮天氣等外部因素對需求的影響。吳滿金等[5]建立了引入公共自行車出行效用疊加系數的Multi-logit改進模型,來估算租賃點的單車租還需求和公共自行車在居民出行總量中的分擔率,但是該方法所用數據透明性和實時性差。錢進[6]對西安市公共自行車的使用特性進行問卷調查,在層次分析法篩選需求影響因素的基礎上,建立了基于隨機效用理論的單車需求預測模型,但是該方法的數據源存在片面性和局限性等缺點。解小平等[7]構建了基于改進Elman神經網絡的租賃點單車需求量預測模型,該模型對于早高峰時段單車需求量的預測具有優(yōu)勢,但是建立的模型無法對一天中其他時段的單車需求量進行預測??嘴o[8]從時間、空間、外部、用戶四個方面,對無樁式共享單車的出行特征和影響因素進行了分析,然后建立了基于BP神經網絡的單車租還需求預測模型,但是在建立預測模型時僅考慮了共享單車需求變化的時間周期性,而沒有將前文分析的影響因素融入預測模型中。Guido等[9]提出了一種出行數據與天氣數據相結合的低維模型,來預測共享單車系統(tǒng)(BSS)的日需求量,結果表明,這兩種元素的聯合作用可以顯著提高預測模型的精度,但是該文獻僅對日需求量的預測進行了研究,沒有具體到不同時段的需求量。
上述文獻存在考慮因素較為單一、不全面[2,4],所用數據樣本量少且透明性差[5,6]和無法預測時段需求[7,9]等問題。因此本文以共享單車為研究對象,通過挖掘單車的騎行大數據,就區(qū)域共享單車不同時段的停放需求量展開了研究,對影響共享單車停放需求的諸多影響因素進行分析和篩選,并借助多項Logit模型構建分區(qū)域分時段的停放需求預測模型。
數據來源于2017年5月北京市摩拜單車的出行數據,字段包括訂單編號、用戶ID、單車ID、租車時間、租車位置、還車位置等,其中租還車的地理位置信息采用Geohash編碼,利用PyCharm中的Geohash庫對其進行編譯轉換得到相應的經緯度。數據說明如表1所示。
表1 共享單車出行數據說明Tab.1 Description of bike sharing trip data
由于信號屏蔽、信號不良、儀器故障和誤操作等會導致共享單車數據出現異常[10],因此對原始采集的數據進行初步處理,可以提高數據分析的準確性。數據預處理包括:
(1)異常定位數據的剔除。當單車取用和停放的地理位置偏離北京市的地理坐標的經緯度值時,認為是異常定位數據,對其進行直接刪除處理。
(2)異常騎行數據的剔除。數據的字段出現空缺、亂碼或不匹配時,認為是異常的騎行數據,對整條數據予以剔除處理。
(3)冗余數據的剔除。為保證計算結果的準確性、并減少重復計算,對重復的冗余數據也進行剔除處理。
(1)因變量的選取與量化
首先,根據共享單車在不同時間段的需求分布情況,將一天劃分為8個時段,分別是:0:00-7:00、7:00-9:00、9:00-12:00、12:00-14:00、14:00-17:00、17:00-20:00、20:00-22:00、22:00-24:00。據統(tǒng)計,不同小時停放量占比如表2所示。根據小時停放量將研究區(qū)域不同時間段的停放需求劃分為:低停放需求、中停放需求和高停放需求三個類別,分別對應0~10輛,10~20輛和20輛以上停放需求量,用編碼1、2和3表示,因變量編碼如表2所示。
表2 因變量編碼Tab.2 Dependent variable coding
(2)自變量的選取與量化
考慮時間、空間和天氣因素的影響,選取12個因素作為初始的自變量,如表3所示,變量類型包括二分類變量、多分類變量和連續(xù)變量,多分類變量通過引入虛擬變量來表示。
表3 自變量匯總表Tab.3 Summary of independent variables
Logit模型為概率型非線性回歸模型,服從Logistic分布,是研究分類觀察結果與多影響因素之間關系的分析方法,其基本形式為:
式中:P為某事件發(fā)生的概率;β0是截距;xi為第i個自變量;βi是xi對應的待估參數,表示在其他變量不變的情況下,第i個變量變動一個單位,Logit(P)值將變動βi個單位。
發(fā)生比(odds)為某事件發(fā)生的概率與不發(fā)生的概率的比值,對式(1)進行指數運算,得到觀察值對應的發(fā)生比:
假設第i個變量變動1個單位后的發(fā)生比為odds*i,則有:
式中,ORi為發(fā)生比之比(odds ratio),此式表明,在其他變量不變的情況下,自變量xi變動一個單位,發(fā)生比之比ORi將變動expβi個單位。若ORi>1,則自變量xi對因變量有積極影響,且ORi值越大,該自變量對因變量的積極影響越大;若ORi<1,則自變量xi對因變量有消極影響,且ORi值越小,該自變量對因變量的消極影響越大。
(1)模型的檢驗
①Wald檢驗
Wald統(tǒng)計量可以對回歸系數進行顯著性檢驗,Wald檢驗的思想是:如果約束是有效的,那么在沒有約束情況下估計出來的估計量應該漸進地滿足約束條件,以無約束估計量為基礎可以構造一個Wald統(tǒng)計量,這個統(tǒng)計量也服從(2分布,設定一個顯著性水平α,根據Wald統(tǒng)計量判斷自變量是否顯著,如果顯著性概率p值小于α,表明該自變量對因變量有顯著性影響。
②類擬合優(yōu)度指標(Pseudo R2)
也稱為“似然比指數”(likelihood-ratio index),其基本思路類似于似然比檢驗,在于比較僅包含常數項的模型和包含所有解釋變量的模型之間的似然值的相對大小,該值越小表明模型的擬合程度越低。其計算公式下:
③AIC信息準則和BIC信息準則
AIC信息準則是衡量模型擬合優(yōu)良性的一種標準,在回歸分布建模過程中,AIC的值越小,說明模型擬合度越高。其計算公式如下:
BIC信息準則:當采用AIC信息準則檢驗模型的擬合效果時,通常將BIC信息準則作為補充檢驗手段,同樣,BIC的值越小,說明模型的擬合度越高。其計算公式如下:
式中:為模型的對數似然值(likelihood);k是模型中參數的個數(包含常數項);n為模型中數據的數量。
(2)模型預測準確率
模型的預測準確率定義為被正確預測的數量與樣本總量的比值,,該值越大表示模型預測越準確。其計算公式如下:
式中:Ⅴ為預測準確率;R為預測正確的樣本量;S為樣本總量。
本文采用分層抽樣的方法,即先將所有個體樣本按照特征劃分為幾個類別,然后從每個類別中使用隨機抽樣的方法選擇個體組成樣本,由此得到600條樣本數據,其中480條數據用來訓練模型,120條數據用來驗證模型。
利用Stata數據分析軟件中的多項Logit模型對數據進行模型擬合和參數估計,設置低停放需求、夜間時段、不臨道路為參照組。本文采用向后刪除變量法篩選自變量,取顯著性水平α為0.05。先將所有自變量納入模型,然后對于在四種分類結果中顯著性概率p值均大于0.05的自變量,每次剔除1個p值最大的自變量,直到模型中每個自變量的p值至少在一種分類結果中小于0.05,從而得到模型的參數估計結果,如表4所示。從中可以得出影響停放需求的顯著性因素:
(1)以低停放需求為參照,中停放需求(Y=2)受到工作日、時段、商業(yè)區(qū)、臨近軌交站、下雨和風力等級這6個變量的影響較大。
(2)與低停放需求相比較,高停放需求(Y=3)受到工作日、時段、商業(yè)區(qū)、所臨道路類型、臨近軌交站和高溫這6個變量的影響較大。
以低停放需求為參照組,根據各顯著變量的OR值,可以發(fā)現各影響因素對停放需求影響的程度:
(1)時間因素對共享單車停放需求的影響
工作日、日間高峰時段和日間非高峰時段對停放需求有積極影響。
與非工作日相比,在工作天出現中、高停放需求的概率分別上升257%-100% = 157%和701%。日間高峰時間出現中、高停放需求的概率,分別較夜間增加1 513%和14 204%;而日間非高峰時段出現中、高停放需求的概率分別較夜間增加1 005%和3 364%,說明日間高峰時段的影響更大。
(2)空間因素對共享單車停放需求的影響
空間因素中支路、臨近軌交站會造成停放需求急劇上升:與不臨道路相比,支路高停放需求出現的概率增加394%,而主干道高停放需求出現的概率減少83%。臨近軌交站產生中、高停放需求的概率,較不臨近軌交站分別上升292%及915%。商業(yè)區(qū)產生中、高停放需求的概率,較非商業(yè)區(qū)分別下降79%及86%。
(3)天氣因素對共享單車停放需求的影響
下雨導致出現中停放需求的概率比不下雨低98.4%,說明下雨對停放需求有消極影響。隨著風力等級的增大,中停放需求出現的概率增加24%,說明風力等級對停放需求的影響較小。高溫對高停放需求有積極的影響,說明人們在炎熱的天氣仍然愿意選擇共享單車作為出行工具。
綜上,我們應該尤其關注工作日日間高峰時段軌交站和支路附近單車的停放狀態(tài),積極做好單車的調度和停放管理工作。
根據模型的參數估計結果建立回歸方程如下:
式中:P1、P2和P3分別為Y=1、Y=2和Y=3停放需求出現的概率。
利用Stata軟件得到模型的擬合優(yōu)度檢驗結果:Pseudo R2=0.317 6,可知擬合度良好。
初始擬合模型與剔除部分自變量后的最終擬合模型的AIC與BIC指標值對比:AIC值由621.834變?yōu)?17.503 9,BIC值由747.047 6變?yōu)?17.674 7,可知剔除不顯著的自變量后,AIC和BIC指標值均有所減小,模型的擬合優(yōu)度也更好。
對多項Logit共享單車停放需求預測模型進行實例驗證,模型的預測結果如表5所示。多項Logit模型對類別1(低停放需求)的預測準確率最高,對類別2(中停放需求)的預測準確率最低。
表5 模型預測結果Tab.5 Prediction results of the model
模型擬合結果表明:工作日、時段、商業(yè)區(qū)、所臨道路類型、臨近軌交站、高溫、下雨、風力等級8個因素與共享單車停放需求相關,其中工作日、日間高峰時段、站點區(qū)域所臨道路類型為支路、站點臨軌交站會對共享單車的停放需求產生積極影響,而商業(yè)區(qū)、站點臨主干道或次干道、下雨和大風會對共享單車的停放需求產生消極影響。
通過對模型預測準確率的計算發(fā)現建立的模型整體預測準確率達到77.5%,其中對類別1(低停放需求)的預測準確率最高,達到了86.49%。這對于根據共享單車的停放需求來規(guī)劃不同區(qū)域共享單車站點的數量和規(guī)模以及系統(tǒng)調度有重要意義。