周悅,江欣國,b,c,付川云*,b,c,劉海玥
(西南交通大學,a.交通運輸與物流學院;b.綜合交通運輸智能化國家地方聯(lián)合工程實驗室;c.綜合交通大數(shù)據(jù)應用技術國家工程實驗室,成都611756)
出租車駕駛員個體對道路資源的占用遠高于普通駕駛員個體,也容易產(chǎn)生更多交通違法和更高的安全風險[1]。其中,超速是該群體最為普遍的交通違法行為。出租車超速者會產(chǎn)生特征各異的超速行為[2]。這些特征包括單位時間內的超速頻次、平均超速嚴重度和平均超速持續(xù)時間。各類超速特征均與安全風險相關:高頻次重復超速會提高事故風險[3],高超速嚴重度往往伴隨嚴重的傷亡后果[4],持續(xù)超速則會延長風險暴露時間[5]。正因如此,各類超速特征均是交通安全的研究重點。
為了解釋出租車駕駛員超速特征的變化機制,國內外研究側重于分析出租車駕駛員的人口統(tǒng)計學[2]、道路環(huán)境[6]和運營因素對超速特征的影響。值得注意是,人口統(tǒng)計學因素往往基于問卷調查獲得,其分析結果可能存在主觀性偏差;道路環(huán)境特征與研究所在地域關聯(lián)緊密,因而影響缺乏普適性論證。另有部分研究分析了運營因素影響,證實這類因素對出租車超速頻次和嚴重度的影響更為顯著且穩(wěn)定。具體而言,相關研究均發(fā)現(xiàn):更高的行駛里程、收入水平和夜晚運營比例等會提高超速頻次和超速嚴重度[2,7,8],鮮有運營因素影響研究出現(xiàn)相異結論。這說明,運營因素是解釋出租車超速行為的重要依據(jù)。然而,上述研究也同樣存在不足,具體表現(xiàn)為兩點。其一,上述研究將不同的超速特征作為獨立響應變量。由于超速者是由不同超速特征構成的異質性群體[9],研究需要考慮將這些影響因素對超速者本身的綜合影響。其二,現(xiàn)有研究鮮有對超過兩類超速特征進行探索。
綜上,本文以出租車GPS 軌跡數(shù)據(jù)為基礎,提取每個出租車超速特征和運營因素。根據(jù)每小時超速頻次、超速嚴重度和超速持續(xù)時間這3類超速特征對超速者進行聚類,識別出4 類型超速群體。而后構建相關隨機參數(shù)混合Logit 模型,確定不同類型超速者的顯著運營因素和量化影響。
采用2016年11月成都市出租車GPS 軌跡數(shù)據(jù),包含車輛ID、記錄時間、軌跡點經(jīng)緯度等信息。為保障GPS數(shù)據(jù)的完整性,研究范圍限定在成都市中心東北部的矩形區(qū)域內,如圖1所示。該區(qū)域路網(wǎng)發(fā)達,具有眾多交通吸引點,出租車活動頻繁。區(qū)域內共涵蓋約1.41億個GPS點,軌跡采樣頻率為0.1 Hz。
圖1 研究區(qū)域Fig.1 Study area
在識別出租車駕駛員超速行為前,首先進行地圖匹配,將所有交叉口30 m范圍內軌跡點刪除,僅保留路段軌跡點進行超速識別。然后,將所有軌跡點按其車輛牌照ID及天數(shù)進行歸類。
通過匹配后數(shù)據(jù),識別車輛的超速行為,步驟如下:
(1)選擇1輛車ID,根據(jù)其在道路i上的時間戳上相鄰兩GPS軌跡點之間的行程距離和時間間隔,計算兩點間平均速度。
(2)將兩點間平均行程速度與道路限速值比較。若平均行程速度大于道路限速,則標記此兩GPS軌跡點為超速點對。
(3)若超速點對是孤立的,則記錄為1起超速行為;若有多個相鄰超速點對,則合并這些超速點對,記錄為1起超速行為。
(4)計算1起超速行為的持續(xù)時間,即超速點對的終點時間戳減去起點時間戳。
(5)計算1起超速行為的超速嚴重度(超速行為超過限速的百分比)。
(6)記錄并統(tǒng)計該車輛在研究期限內的超速行為總數(shù)量、總行程時間。更換另一車輛牌照ID,重復步驟(1)~(6)。
超速行為識別后,統(tǒng)計至少有1起超速行為的車輛作為出租車超速者。接著,根據(jù)步驟(4)~(6)的信息,計算出每個出租車超速者的3 類超速特征:每小時超速頻次、平均超速嚴重度和平均超速持續(xù)時間。每小時超速頻次是超速者每個運營小時內超速頻次的均值,平均超速嚴重度是超速者所有超速行為超過限速值百分比的均值,平均超速持續(xù)時間是超速者所有超速行為的平均時長(s)。最終,共識別出5731 輛超速出租車(占全部記錄出租車的99.58%)的2886536起超速行為及對應的超速特征,記錄在出租車超速行為數(shù)據(jù)集中??梢?,幾乎所有出租車都存在不同程度的超速行為,故對其特征進行對比研究尤為必要。
本文選取的運營因素包括每一輛出租車的日均行程距離(km)、日均收入(元)、低限速道路行程比例、夜間行程比例、高峰期行程比例。其中,行程距離、收入、低限速道路和夜間駕駛等因素已被部分研究證實與超速頻次及超速嚴重度相關[2,7,8],但鮮有討論其對具備3 類超速特征的不同超速者類型的影響。高峰期行程比例反映了高峰期行駛對超速的影響,該因素鮮有出租車超速研究涉及。此外,由于速度標準差與交通安全水平顯著相關[10],故統(tǒng)計了每輛出租車在白天、夜晚和高峰期3個時間段的駕駛速度標準差作為安全影響因素。表1為出租車超速者群體的因素統(tǒng)計信息及具體描述。
表1 關鍵變量描述Table 1 Description of key variables
聚類是交通安全的常用研究方法之一[11]。為融合多個超速特征信息,確定超速者類型,采用模糊C-均值聚類方法(Fuzzy C-Means,F(xiàn)CM),選取每個超速者運營小時內每小時超速次數(shù)、平均超速嚴重度和平均超速持續(xù)時間3個超速特征,對超速者群體進行聚類。其最小化目標函數(shù)為
式中:J為聚類的誤差平方和;m為模糊指數(shù);N為樣本點總數(shù);k為聚類簇的數(shù)目;為樣本i屬于j類簇的隸屬度,通常可以表示為隸屬度矩陣;xi為第i個參與聚類的樣本點;cj為j類簇的聚類中心;d(xi,cj)為xi與cj的距離函數(shù)。
FCM的目標函數(shù)在于最小化樣本點與簇中心的平方誤差,因而可計算不同聚類簇的數(shù)目k的組內整體誤差平方值(Total Within-cluster Sum-ofsquares,TWSS)。一般而言,根據(jù)肘部法則(Elbow Method),TWSS 值到達某臨界點后下降程度明顯放緩,該臨界點即可考慮為最佳聚類點(拐點)[12]。如圖2所示,k>4 后TWSS 下降趨勢已明顯平緩,故將k=4 選擇為最佳聚類點,將出租車駕駛員按其超速特征分為4 類。最終,經(jīng)部分離群值剔除,共得到4 類超速者,(超速者I 型、II 型、III 型和IV型),其基本超速特征及平均樣本隸屬度如表2所示。4 類超速者的基本特征為:超速者I,各項超速特征不突出,但超速持續(xù)時間略長;超速者II,超速持續(xù)時間最長,其他特征最低;超速者III,各項不突出,但小時超速頻數(shù)和平均超速嚴重性高于超速者I和II;超速者IV,小時超速頻次與平均超速嚴重性最高,超速持續(xù)時間最短。
表2 4類超速者的超速特征及隸屬度Table 2 Speeding characteristics and memberships of four speeder clusters
圖2 聚類結果Fig.2 Clustering results
為揭示運營因素對出租車超速者類型的影響,選擇相關隨機參數(shù)混合Logit模型進行研究。該模型能夠得到比系數(shù)完全固定或系數(shù)誤差獨立模型更好的數(shù)據(jù)擬合效果[13]。相關隨機參數(shù)混合Logit模型的線性效用函數(shù)為
式中:Uij為個體i對應超速者類型j的效用;Xij為自變量向量;βj為自變量的系數(shù)向量;εij為隨機誤差,服從極值分布。
進一步地,自變量Xij的系數(shù)可以寫作系數(shù)的估計均值與存在相關性的隨機誤差項的線性組合,使得系數(shù)估計可以考慮樣本中未觀測的異質性,即
式中:β為自變量估計系數(shù)的均值;μij為隨機誤差,服從正態(tài)分布;Γ為隨機參數(shù)的系數(shù)矩陣,表征系數(shù)間隨機誤差部分的相關性。
根據(jù)式(2)和式(3),樣本i屬于某一超速者類型j的概率為
式中:f(β|θ)為β的概率密度函數(shù),一般認為服從正態(tài)分布;θ為分布的參數(shù);k為超速者類型數(shù)。
變量選取方面,模型所選因變量為超速者的4種類型,其中超速者I作為參考;模型所選自變量為表1中所有運營因素。需要注意的是,本文對自變量進行了二元化分類處理,消除了效應的量綱差異,能夠更好地利用未能精確測量的變量所具備的信息[14]。具體方法為:
(1)選擇表1中各項因素的均值作為分類閾值;
(2)超速者的某一特征大于該因素的分類閾值,則標記為1,反之為0;
(3)處理后的二元分類特征命名為某特征-超過均值(如日均收入-超過均值)。
由此,二元分類自變量的效應可解釋為:若某樣本的某一運營因素大于該因素在全體超速者中的平均水平時,該因素對這個樣本的超速者類型的影響情況。此外,為量化二元自變量的影響,估計結果中因素系數(shù)的平均彈性[13]為
式中:為樣本i對應的第k個因素Xik從0 變化到1的平均彈性;Pij(Xik=1)和Pij(Xik=0)分別為Xik=0、Xik=1時樣本i屬于超速者類型j的概率。
模型估計前,選擇方差膨脹系數(shù)(Variance Inflation Factor,VIF)進行多重共線性檢驗。經(jīng)檢驗,所有二元分類自變量VIF值均小于5,多重共線性情況不明顯。
采用標準多項式Logit 模型和相關隨機系數(shù)Logit模型進行對比估計,相關參數(shù)估計結果如表3所示。根據(jù)對數(shù)似然絕對值和AIC值(赤池信息準則),相關隨機系數(shù)混合Logit 模型的擬合能力更好。因素方面,相對于超速者I型(參考),當某超速者的日均行程距離、日均收入、低限速道路行程比例、夜晚行程比例、白天速度標準差、夜晚速度標準差和高峰期速度標準差均超過群體平均水平時,其成為超速者II型的概率明顯減少,成為超速者III型和IV型的概率則均顯著增加。
表3 模型參數(shù)估計結果Table 3 Estimation results of model parameters
對于異質性而言,相關隨機系數(shù)混合Logit 模型在分別估計因素對超速者II和超速者IV的影響時,日均行駛距離-超過均值、低限速道路行程比例-超過均值和夜晚速度標準差-超過均值等3 個變量出現(xiàn)異質性,如圖3所示。當日均行程距離超過群體平均水平時,有31.9%的樣本成為超速者II的概率增加,69.1%的樣本則減少;同時,當?shù)拖匏俚缆飞闲谐瘫壤^群體平均水平時,分別有24.9%的樣本和96.6%的樣本成為超速者II和超速者IV的概率增加,余下樣本的概率則表現(xiàn)出減少;當夜晚速度標準差超過群體平均水平時,有12.2%的樣本表現(xiàn)出超速者II的特征,而余下87.8%則相反。
圖3 自變量隨機系數(shù)的概率分布函數(shù)Fig.3 Probability distribution of random parameters for independent variables
對于存在隨機參數(shù)的變量,其系數(shù)矩陣Γ如表4所示。對于超速者II的估計模型而言,日均行程距離-超過均值和低限速道路行程比例-超過均值兩變量自身系數(shù)的隨機效應在95%置信區(qū)間上顯著;此外,這兩個變量系數(shù)的隨機誤差之間也表現(xiàn)出顯著正相關(相關系數(shù)為0.224)。對于超速者IV估計模型,僅有低限速道路行程比例-超過均值與夜晚速度標準差-超過均值兩變量的隨機參數(shù)表現(xiàn)出顯著負相關(相關系數(shù)為-0.024),參數(shù)本身隨機效應不顯著。
表4 隨機參數(shù)系數(shù)矩陣估計結果Table 4 Estimation of parameter matrix for random parameters
為進一步量化各項運營因素對出租車超速者類型的影響,根據(jù)式(5)計算所有顯著二元自變量的平均彈性,結果如表5所示。
表5 相關隨機系數(shù)混合Logit模型參數(shù)的平均彈性Table 5 Direct pseudo-elasticities of parameters in correlated random parameters mixed Logit model
就日均行程距離而言,當某超速者該因素的值超過其在出租車超速者整體中的均值時,該超速者屬于超速者I 型和II 型的概率降低了10.83%和38.74%;屬于超速者III 型和IV 型的概率則增加了23.29%和71.53%。
日均收入亦影響不同超速者類型:當超速者日均收入超過所有出租車超速者的平均水平時,超速者屬于超速者II 型的概率降低了50.62%;屬于超速者III 型的概率增加了29.17%;屬于超速者IV 型的概率則增加了42.98%。這一現(xiàn)象說明,擁有高超速頻次和嚴重度的群體也往往具有更高的收入水平。
如果超速者在低限速道路上的行程比例超過出租車超速者的群體平均水平,則超速者屬于超速者I型和II型的概率降低了23.82%和48.81%;屬于超速者III 型和IV 型的概率則增加了58.02%和231.63%。結果說明,超速者III 型和IV 型相對于I型和II型,更傾向于在低限速道路行駛時實施超速行為。
夜間行程比例超過出租車超速者群體平均水平時,超速者屬于超速者I 型和II 型的概率降低了11.68%和44.91%;屬于超速者III型和IV型的概率則增加了15.93%和114.95%??梢?,超速頻次和嚴重度最高的群體最傾向于在夜晚實施超速行為。
不同時段速度標準差對超速者類型的影響趨勢一致:當某超速者各時段的速度標準差超過出租車超速者群體平均水平時,該超速者屬于超速者I 型和II 型的概率降低了8.11%~26.57%和42.82%~68.34%;屬于超速者III 型和IV 型的概率則增加了17.45%~77.09%和122.41%~302.38%。較高的速度標準差預示著更多高頻、高嚴重度的短促型超速行為。
本文將小時超速頻次、平均超速嚴重度和平均超速持續(xù)時間等3 類超速特征信息通過聚類進行融合,識別出4 類出租車超速者。此外,采用相關隨機系數(shù)混合Logit模型研究運營因素對不同類型超速者的影響,得到了如下結論:
(1)4 類超速者類型中,I 型和II 型的每小時超速頻數(shù)、平均超速嚴重度更低,平均超速持續(xù)時間更高,超速者III型和IV型則相反。
(2)相關隨機參數(shù)混合Logit 模型的擬合效果優(yōu)于標準多項式Logit模型。
(3)日均行程距離、日均收入、低限速道路行程比例和夜間行程距離的增加均顯著提高了出租車超速者成為超速者III 型和IV 型的概率,降低了成為超速者I型和II型的概率。
(4)日均行程距離、低限速道路行程比例和夜晚速度標準差在超速者II和超速者IV估計時表現(xiàn)出異質性。
本文仍然存在一定的局限性:出租車群體中未超速者樣本過少,未納入研究,僅比較了運營因素對不同類型超速者的影響;此外,其他諸如駕駛員信息、道路環(huán)境等未考慮因素同樣對超速行為有影響,后續(xù)將進一步研究。