付川云 劉 華
(西南交通大學(xué)交通運輸與物流學(xué)院1) 成都 611756)(西南交通大學(xué)綜合交通運輸智能化國家地方聯(lián)合工程實驗室2) 成都 611756)(綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室3) 成都 611756)
據(jù)公安部統(tǒng)計,2018年全國新注冊登記機動車3 172萬輛,機動車保有量達3.27億輛,其中小型載客汽車首次突破2億輛,機動車駕駛?cè)藬?shù)量達4.09億人[1].2004年以前,我國與超速和酒駕有關(guān)并導(dǎo)致傷害事故的交通違法行為持續(xù)增高,盡管之后稍有下降趨勢,但交通違法行為數(shù)量仍居高不下[2].同時,道路交叉口作為城市道路網(wǎng)中的關(guān)鍵節(jié)點及最易發(fā)生危險行為的地點,對居民出行影響至深.因此,在機動車保有量、駕駛?cè)藬?shù)量、交通違法行為數(shù)量持續(xù)增長的趨勢下,亟須探究交叉口處產(chǎn)生的不同交通違法行為的主要影響因素,并探尋各類因素對交通違法行為的影響程度,以便為后續(xù)的交通管理提出針對性措施.
不少國內(nèi)外學(xué)者對產(chǎn)生交通違法行為的駕駛?cè)藗€人特性進行了研究.Beatriz等[3]通過網(wǎng)絡(luò)調(diào)查問卷,把男女駕駛?cè)艘妆患づ牟煌蚺c交通違法行為相聯(lián)系;Ilit等[4]使用廣義線性模型,主要從駕駛?cè)说男詣e角色上把對事故的研究轉(zhuǎn)變?yōu)閷蔀榻煌ㄟ`法行為的研究;Sophia等[5]基于聚類分析,將駕駛?cè)朔譃槿惒ζ渥晕疑蠄蟮娘L險行為和態(tài)度進行區(qū)分,以確定特定群體的相關(guān)危險性因素;Xu等[6]通過研究中國的新手、經(jīng)驗較少和經(jīng)驗豐富駕駛?cè)?,得出了駕駛經(jīng)驗越多的駕駛?cè)藢Νh(huán)境因素越敏感、更不易被個體因素所影響,即更不易發(fā)生交通違法行為的結(jié)論.
一些學(xué)者對交通違法行為的情景因素也進行了相應(yīng)的研究.文獻[2]發(fā)現(xiàn)男性私家車駕駛?cè)嗽诠庹蛰^暗即視線較差的條件下,更可能發(fā)生超速及酒駕等違法行為;Chien等[7]發(fā)現(xiàn)出租車駕駛?cè)顺龠`法行為與性別和教育程度無關(guān),而與運營方式、日行駛里程,夜間駕駛和月休息天數(shù)顯著相關(guān).
國外鮮有研究分析交叉口處交通違法行為的影響因素,大多學(xué)者僅探討了交叉口處闖紅燈行為的影響因素.Attiyah[8]發(fā)現(xiàn)車道數(shù)量,速度,道路寬度,交叉口處速度及交叉口寬度等都會顯著影響闖紅燈行為的發(fā)生;Blazej等[9]發(fā)現(xiàn)時間壓力、有無乘車人均為闖紅燈行為的誘發(fā)因素;Lum等[10]發(fā)現(xiàn),在信號燈色發(fā)生改變時,駕駛?cè)俗畛鯐p速行駛,之后在交通狀況允許的情況下,會利用黃燈時間,發(fā)生闖紅燈行為.
上述交叉口處交通違法行為的研究中,大多僅僅考慮了駕駛?cè)说膫€人特性和部分情景因素,所涉及到的交通違法行為也局限于超速、酒駕、闖紅燈等.同時,鮮有文獻對不同類型交通違法行為的主要影響因素、各因素對交通違法行為的影響程度順序進行研究;并且大多文獻采用的方法局限于,當因變量類型、自變量數(shù)量較多時,需要將變量多次帶入所選模型中,無法同時直觀得到結(jié)果.
鑒于此,本文以內(nèi)蒙古自治區(qū)某市2018年5—7月內(nèi)的12 604條違法監(jiān)控視頻數(shù)據(jù)為基礎(chǔ),進行主成分分析,得到主成分個數(shù)及其得分,通過多元回歸對所得主成分進行顯著性檢驗后,依據(jù)可視化的雙標圖以同步直觀確定各類影響因素對未按規(guī)定導(dǎo)向車道行駛行為、逆向行駛行為、闖紅燈行為及違反交通標線行為的不同影響.利用因子分析及其可視化,找出影響因素對交通違法行為的影響程度,綜合考慮主成分及因子分析所得結(jié)論,針對性地提出干預(yù)措施.
獲取內(nèi)蒙自治區(qū)某市2018年5月1日—7月31日共計12 604條記錄的電子抓拍交通違法數(shù)據(jù),其內(nèi)容具體包括:車輛類型、車牌號碼、違法時間、違法地點及具體違法行為,見表1.
表1 交通違法數(shù)據(jù)信息
對上述數(shù)據(jù)進行預(yù)處理,即根據(jù)已知數(shù)據(jù)進行分析并挖掘更多的可能影響因素.在車輛類型及車牌號碼歸屬地中,除小型汽車及內(nèi)蒙古自治區(qū)本地的車輛外,剩余數(shù)據(jù)較少,因此,分別將其歸于各自內(nèi)容的其它類中;對所獲取的違法時間進行拓展,將其劃分至對應(yīng)的月份、星期、季度(標準季度)及時段中;并根據(jù)實際道路條件,判斷道路中央是否有機非隔離欄隔離道路兩反向車流;最終得到可用于R軟件進行處理的數(shù)據(jù)類型并對應(yīng)賦值,具體取值見表2.
表2 變量取值
利用R軟件中的corrplot、psych、GPArotation、nFactors、gplots及RColorBrewer包等,對未按規(guī)定導(dǎo)向車道行駛、逆向行駛、闖紅燈及違反交通標線行為進行主成分分析及因子分析.以交通違法行為類型作為因變量,通過主成分分析,以獲取不同影響因素對不同類型交通違法行為的影響程度.即考慮車輛類型、車輛歸屬地、月份、星期、季度、時段、機非隔離欄及違法地點,對未按規(guī)定導(dǎo)向車道行駛行為、逆向行駛行為、闖紅燈及違反交通標線行為的不同影響.
首先,利用corrplot包檢查兩兩自變量之間的相關(guān)關(guān)系,可知,自變量即不同交通違法行為類型的不同影響因素大致可分為2或3類.繼而將數(shù)據(jù)表進行標準化處理(見表2),以避免因各變量的測量不具有可比性而導(dǎo)致結(jié)果受到測量量綱的影響.
使用prcomp函數(shù)分別提取四種交通違法行為影響因素的主成分,各成分的標準差、方差分布比例及累計方差分布比例見表3.其中,累計方差比例即累計貢獻率,當其達到85%左右時,即可說明當前主成分個數(shù)可以解釋原內(nèi)容的絕大多數(shù)信息,即表明,當主成分個數(shù)取5時,這5個主成分包含了上述8類影響因素的絕大部分信息,可以解釋四類交通違法行為的對應(yīng)影響因素及其影響程度.
表3 各成分得分表
由于確定主成分個數(shù)的psych包中的principal函數(shù)需事先得知大致主成分個數(shù),因此,首先通過fa.parallel函數(shù)輸出碎石圖,通過拐點變化最大處,以確定輸入該函數(shù)的主成分個數(shù),見圖1.
拐點變化最大處是合理的主成分個數(shù),結(jié)合表3中各成分的累計貢獻率,最終確定主成分個數(shù)為5,進而獲取到主成分得分,見表4.
圖1 碎石圖
表4 主成分荷載表
由表4可知,月份和季度在第一主成分上荷載較大(即影響程度最高的因素),違法地點在第二主成分上荷載較大,車輛類型和車輛歸屬地在第三主成分上荷載較大,時段在第四主成分上荷載較大,而星期則在第五主成分上荷載較大.
為保證所得主成分的可靠性,在R中利用多元線性回歸對這五個主成分進行顯著性檢驗,將表4中的各主成分當作新的自變量,即將每一列內(nèi)的系數(shù)帶入對應(yīng)主成分,再將所得五個新的自變量進行回歸,模型結(jié)果見表5.
表5
注:***和**-顯著水平為0和0.001.
由表5可知,這五個主成分均十分顯著,可解釋原自變量的絕大部分信息.同時,模型結(jié)果顯示,該回歸方程F檢驗的p值<2.2×10-16,這說明,該方程整體也是顯著的.根據(jù)表5中的估計值,可將回歸方程寫為
Y=3.87+0.37X1-0.40X2-
0.41X3-0.14X4+0.02X5
(1)
式中:Y為交通違法行為.
驗證主成分可靠性后,通過雙標圖同時考察四類交通違法行為間關(guān)系及其影響因素的可視化,見圖2.雙標圖中,橫縱坐標分別代表第一主成分和第二主成分;a,b,c,d依次代表未按規(guī)定導(dǎo)向車道行駛、逆向行駛、闖紅燈及違反交通標線行為;各向量近似表示各自變量(影響因素)的屬性信息,a,b,c,d四點間的距離反映它們對應(yīng)樣本之間的差異大小,向量在主成分上的投影代表該向量與該主成分的相關(guān)程度.
圖2 主成分雙標圖
在a點附近區(qū)域觀察各向量在主成分上的投影,可以看出,對于未按規(guī)定導(dǎo)向車道行駛行為,在第一主成分上,車輛歸屬地、車輛類型及星期對其影響程度較高;第二主成分上,時段對其有較高影響;且各主成分之間不相關(guān),這可以說明,該違法行為的主要影響因素車輛因素.
同理可知,違法地點和有無機非隔離欄在第一主成分和第二主成分上都對逆向行駛行為有較大的影響;因此,空間因素及交通設(shè)施是該交通違法行為的主要影響因素.
月份、季度、車輛歸屬地及車輛類型在第一主成分上對闖紅燈行為有很深影響,而時段、違法地點及有無機非隔離欄則在第二主成分上對其有較大影響;因此,時間因素和車輛因素為其主要影響因素.
時間因素(月份與季度)是違反交通標線行為的主要影響因素.
上述主成分分析中,分別找出了對于未按規(guī)定導(dǎo)向車道、逆向行駛、闖紅燈及違反交通標線行為的主要影響因素,為探尋這些因素對交通違法行為的影響程度順序,描述原始變量之間的相關(guān)關(guān)系,進行因子分析并將其可視化,找出潛在因子與單獨因子間的關(guān)系.
與主成分分析類似,由碎石圖確定因子個數(shù),并結(jié)合nFactors包中的nScreen函數(shù)(得到取值為2或4),假設(shè)因子個數(shù)為3,使用psych包提取公因子,并對比公因子數(shù)為2或4的方案,2因子方案僅能解釋41%的方差,而4因子可解釋55%的方差,因此,選擇公因子數(shù)為4的方案.
正交旋轉(zhuǎn)后將結(jié)果可視化,即使用路線圖展示潛因子和單獨因子之間的關(guān)系,見圖3.同時,通過因子得分圖更直觀看出綜合排名靠前的因素,見圖4.
圖3 因子關(guān)系路線圖
圖4 因子得分圖
圖4表明了潛在因子與現(xiàn)有自變量間的關(guān)系,結(jié)合因子得分圖(從第一象限開始,逆時針觀測,影響因素綜合排名依次降低)及主成分分析得分結(jié)果,可以看出,時間因素、交通設(shè)施、空間因素、車輛因素對四類不同交通違法行為發(fā)生的影響程度依次降低.
由主成分分析部分可知,未按規(guī)定導(dǎo)向車道行駛行為的主要影響因素是車輛因素,這可能是因為外地車輛對于新到達城市的路況及交通條件不熟悉,同時,該市正在建設(shè)軌道交通,不少路段的交通指示情況有較大改變等.對此,交通管理部門應(yīng)及時發(fā)布路況及交通指示條件信息,對于外地車輛,在進入該市時可進行適當宣傳教育.
空間因素及交通設(shè)施是逆向行駛行為的主要影響因素,違法數(shù)據(jù)中所獲取的四個交叉口分別位于該市的不同區(qū)域內(nèi),且每個區(qū)域內(nèi)的交警巡邏及電子監(jiān)控強度不盡相同,再者,不設(shè)置機非隔離欄的地點更易使駕駛?cè)水a(chǎn)生逆向行駛行為.對此,交通管理部門應(yīng)對產(chǎn)生該行為的區(qū)域加強監(jiān)控并增設(shè)機非隔離欄.
時間及車輛因素是闖紅燈行為的主要影響因素,這可能是由于駕駛?cè)思庇谮s時間或不熟悉路況,因此,應(yīng)加強特定時段、工作日及節(jié)假日的監(jiān)控并設(shè)立相關(guān)安全標語宣傳.
而對于違反交通標線行為,極可能是因為在高峰擁堵時段,駕駛?cè)思庇谕ㄟ^路口,從而違反交通標線,對此,應(yīng)加強監(jiān)控并對交叉口通行進行合理優(yōu)化.
1) 車輛因素是影響未按規(guī)定導(dǎo)向車道行駛行為的關(guān)鍵因素.
2) 空間因素及交通設(shè)施是逆向行駛行為的主要影響因素.
3) 時間因素及車輛因素對闖紅燈行為影響最大.
4) 違反交通標線行為主要受時間因素影響.
5) 時間因素、交通設(shè)施、空間因素及車輛因素對交通違法行為的影響程度依次降低.
由于受所獲數(shù)據(jù)內(nèi)容的限制,一些重要的情景因素(如道路幾何條件、天氣條件等)對交通違法行為的影響有待進一步研究.此外,交通違法行為發(fā)生的空間分布特性、同一車輛的重復(fù)交通違法行為發(fā)生規(guī)律及影響因素、小型載客汽車及貨車的交通違法行為等值得作為后續(xù)研究方向.