張興強(qiáng),劉 雪,朱藝焱,宋勇剛,王 欣,王學(xué)媛
(北京交通大學(xué)a.城市交通復(fù)雜系統(tǒng)理論與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室;b.綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044)
城市道路交通事故一方面造成了人員傷亡和財(cái)產(chǎn)損失,另一方面也造成交通擁堵等損害后果.李雪等[1]基于交通安全因素分析,采用交通綜合死亡率、車速差和路面平整度,建立云模型評(píng)價(jià)方法以界定道路安全等級(jí);H.A.S.Sandhu等[2]根據(jù)死亡、重傷、輕傷和財(cái)產(chǎn)損失數(shù)據(jù)建立事故嚴(yán)重度模型,運(yùn)用GIS進(jìn)行可視化,采用核密度估計(jì)法鑒別事故黑點(diǎn);Dereli等[3]結(jié)合GIS的空間統(tǒng)計(jì),對比泊松回歸、負(fù)二項(xiàng)回歸和經(jīng)驗(yàn)貝葉斯法,提出經(jīng)驗(yàn)貝葉斯方法更適于事故黑點(diǎn)鑒別.Park S.等[4]為提高交通事故預(yù)測的準(zhǔn)確性,采用Hadoop處理大流量數(shù)據(jù),提出基于MapReduce的不平衡數(shù)據(jù)分類的數(shù)據(jù)挖掘過程;Hashmienejad S.H.A.等[5]結(jié)合用戶偏好,提出一種預(yù)測交通事故嚴(yán)重程度的多目標(biāo)遺傳算法(NSGA-II),從支持度、置信度和準(zhǔn)確性等指標(biāo)的評(píng)估結(jié)果發(fā)現(xiàn)其更優(yōu)于ANN,SVM和常規(guī)DT等分類方法.但現(xiàn)有的地點(diǎn)交通安全評(píng)價(jià)沒有考慮城市交通事故會(huì)對交通產(chǎn)生影響的特點(diǎn),同時(shí)較少利用互聯(lián)網(wǎng)數(shù)據(jù)的海量性、實(shí)時(shí)性來提高分析的準(zhǔn)確性.因此本文基于互聯(lián)網(wǎng)文本事故數(shù)據(jù)結(jié)構(gòu)化的基礎(chǔ)上,對事故屬性進(jìn)行文本聚類,進(jìn)行事故交通影響等級(jí)劃分.從事故頻率、后果損失、交通影響建立的城市道路等效事故模型,該模型通過交通影響的等效損失工日數(shù)標(biāo)定模型參數(shù).建立了累計(jì)頻率曲線和K-means聚類組合模型,可以從事故易發(fā)位置、事故實(shí)際發(fā)生的次數(shù)、事故嚴(yán)重度、事故交通影響程度等多角度對城市道路地點(diǎn)安全度進(jìn)行分析.
資源描述框架RDF是由W3C組織提出的為基于語義網(wǎng)的各種Web應(yīng)用提供信息描述規(guī)范.1條RDF由主語、謂語和賓語構(gòu)成,即Resource=〈Subject,Predicate,Object〉.主語常用統(tǒng)一資源標(biāo)識(shí)符表示網(wǎng)絡(luò)上的某個(gè)實(shí)體;謂語表示實(shí)體的某一屬性類型;賓語表示對應(yīng)的屬性值,常用URL、字面值如字符串或數(shù)字進(jìn)行表示.圖1為互聯(lián)網(wǎng)事故數(shù)據(jù)的RDF示例.
圖1 互聯(lián)網(wǎng)事故數(shù)據(jù)RDF示例Fig.1 RDF example of internet accident data
結(jié)合圖1,定義互聯(lián)網(wǎng)數(shù)據(jù)事故屬性為
式中:DatFrm為互聯(lián)網(wǎng)事故數(shù)據(jù)形式,本文采用文本數(shù)據(jù);AccFreq為絕對事故次數(shù)(次);AccTime為事故發(fā)生時(shí)間;AccLoc為事故發(fā)生位置,如xx橋xx方向/xx路xx方向xx公里處;AccImpc為事故交通影響的文本關(guān)鍵詞描述;OcpLane為事故占用車道的位置及數(shù)量;AccDam為事故損害后果的文本描述;RdTyp為道路類型,如快速路、非快速路;AccTyp為事故類型;AccH為事故處理情況,包括未處理、正在處理、處理完畢等.
事故屬性中對地點(diǎn)交通產(chǎn)生影響的變量主要包括AccTime、OpcLane、RdTyp、AccH、AccImpc等,因此事故交通影響等級(jí)可表示為
城市交通事故的發(fā)生,一方面造成了如人員傷亡等直接損失,同時(shí)也造成大量交通延誤等間接損失.因此地點(diǎn)等效事故頻次是受事故發(fā)生次數(shù)AccFreq、事故交通影響I(AccLoc)、事故的損害后果AccDam影響,可以表示為
根據(jù)互聯(lián)網(wǎng)交通影響文本描述的模糊性,本文建立了基于模糊和系統(tǒng)聚類法的交通影響等級(jí)I(AccLoc),計(jì)算AccFreq詞頻和權(quán)重,以模糊聚類原始數(shù)據(jù)矩陣儲(chǔ)存交通影響頻數(shù).
式中:xij為第i個(gè)交通影響關(guān)鍵詞xi在第j年中出現(xiàn)的頻數(shù),i=1,2,…,n;j=1,2,…,m.
采用極差標(biāo)準(zhǔn)化變換進(jìn)行數(shù)值行標(biāo)準(zhǔn)化,數(shù)值區(qū)間在(0,1)之間,標(biāo)準(zhǔn)差為1.
采用歐幾里得距離,界定類與類之間的距離為
計(jì)算新類Gr與其他類Gt間的距離為
依次得Di(i=1,2,…,(n-k)),從而聚為K類交通影響G(α α=1,2,…,K).
當(dāng)交通影響文本描述AccImpc不明確時(shí),事故交通影響主要受事故發(fā)生時(shí)間AccTime、事故占道OcpLane影響,則交通影響等級(jí)的判別規(guī)則為
由式(3),地點(diǎn)等效事故次數(shù)模型為
式中:Nri(i=1,2,3)分別為r事故地點(diǎn)的事故次數(shù)NAccFreq、損害后果的等效事故次數(shù)NAccDam、交通影響的等效事故次數(shù)NI(Acc)(次);n為第r個(gè)地點(diǎn)的事故次數(shù);L為事故交通影響等級(jí);α1,α2分別為受傷、死亡事故的權(quán)重系數(shù);Prj,Qrj分別為第r個(gè)地點(diǎn)的第j次事故受傷、死亡數(shù)(人);Arjk為第r個(gè)地點(diǎn)的第j次事故產(chǎn)生第k級(jí)交通影響對應(yīng)的單次損失時(shí)間(h),k=1,2,…,m;Crjl為第r個(gè)地點(diǎn)的第j次事故占用l條車道損失的通行能力(pcu/h);l為占用車道數(shù);T為事故持續(xù)時(shí)間(h);S為每輛車的載客人數(shù)(人);t為單日工作時(shí)間(h);D為死亡損失工作日(天).
本文建立了基于累計(jì)頻率曲線、K-means聚類的城市快速路地點(diǎn)安全組合分析方法,從城市快速路事故發(fā)生頻率及事故的交通影響及損失后果對城市快速路地點(diǎn)安全進(jìn)行分析.
以F(Nr)為橫坐標(biāo),以f(F(Nr))為縱坐標(biāo),繪制累計(jì)頻率曲線圖,將事故累計(jì)頻率大于80%~95%的b個(gè)地點(diǎn)選定為事故多發(fā)地點(diǎn).以數(shù)據(jù)矩陣形式儲(chǔ)存地點(diǎn)r(r=1,2,…,b)所發(fā)生的事故損害后果等效次數(shù)Ni2和交通影響等效次數(shù)Ni3.將r個(gè)地點(diǎn)設(shè)置為K個(gè)類別,選取K個(gè)初始聚類中心,劃分(α=1,2,…,K)類.
以北京市快速路為研究對象,利用Python中的Spyder編寫網(wǎng)絡(luò)爬蟲程序,從交通信息服務(wù)平臺(tái)、交通信息中心、微博和新聞媒體網(wǎng)站等挖掘出2012—2017年6 393組交通事故屬性文本數(shù)據(jù),其交通影響關(guān)鍵詞分為8類:①行駛緩慢,②繞行,③影響后車通行,④擁堵,⑤車流量大,⑥排隊(duì),⑦行駛不暢、⑧不完備信息.對其進(jìn)行詞頻和權(quán)重統(tǒng)計(jì),得到各類交通影響關(guān)鍵詞頻數(shù),如表1所示.
表1 各類交通影響關(guān)鍵詞頻數(shù)Table 1 Frequency of various traffic impact keywords
交通影響關(guān)鍵詞聚類樹狀圖如圖2所示.由圖2可知事故交通影響分為4類:G1(8,即不完備信息),G2(1,即行駛緩慢)、G3(5、6,即影響后車通行、行駛不暢)、G4(2、3、7、4,即繞行、排隊(duì)、車流量大、擁堵).根據(jù)我國LOS水平的劃分,本文將城市道路交通事故發(fā)生后的等效交通狀態(tài)分為L1影響不大、L2行駛緩慢、L3擁堵、L4嚴(yán)重?fù)矶?個(gè)等級(jí).對于G1,根據(jù)式(9)采用事故發(fā)生時(shí)間AccTime、事故占道情況OcpLane來判斷事故對交通影響的類別,如式(14)所示.
圖2 聚類樹狀圖Fig.2 Clustering tree graph
(1)模型參數(shù)標(biāo)定.
①事故損害后果權(quán)重α1、α2:根據(jù)我國道路交通造成的死傷,以及對社會(huì)個(gè)人造成的影響大小,取[7]α1=0.5,α2=1.
②單次損失時(shí)間Arjk:采用調(diào)查問卷方式確定單次損失時(shí)間,調(diào)查結(jié)果如圖3所示.
根據(jù)圖3問卷結(jié)果,嚴(yán)重?fù)矶碌燃?jí)一般延誤時(shí)間為1 h,擁堵延誤時(shí)間為45 min,行駛緩慢延誤時(shí)間為20 min,影響不大延誤時(shí)間為10 min.
③事故持續(xù)時(shí)間T:根據(jù)北京122報(bào)警系統(tǒng)中交警記錄的事故持續(xù)時(shí)間[8],界定事故持續(xù)時(shí)間為30 min.
④車輛載客數(shù)確定S:根據(jù)北京市車輛組成比例(小車88.22%,客車11.78%)[9],界定載客數(shù)量為4人.
⑤損失通行能力Crjl:通過VISSIM仿真界定交通事故導(dǎo)致的道路通行能力的損失為Caccident1=0.4C,Caccident2=0.7C.其中Caccident1、Caccident2分別表示交通事故發(fā)生占用道路1條和2條車道的損失通行能力.
⑥死亡損失工作日D:根據(jù)我國工傷事故分類標(biāo)準(zhǔn)(GB6441—86)[10],界定死亡損失工日數(shù)為6 000天.
圖3 延誤時(shí)間問卷結(jié)果Fig.3 Traffic delay questionnaire results
(2)等效事故次數(shù).
對計(jì)算所得的北京六環(huán)內(nèi)城市道路交通事故等效次數(shù)進(jìn)行分組,統(tǒng)計(jì)事故地點(diǎn)結(jié)果如圖4所示.
圖4 北京市六環(huán)內(nèi)交通事故地點(diǎn)Fig.4 Traffic accident locations within Beijing six ring
統(tǒng)計(jì)發(fā)生等效事故次數(shù)的地點(diǎn)頻率,繪制累計(jì)頻率曲線圖,如圖5所示.根據(jù)北京交通工程研究所[11]將道路黑點(diǎn)定義為5年發(fā)生50起以上交通事故的路口(段),圖5中事故數(shù)為50時(shí),其累計(jì)頻率約為86%,以此為判定事故多發(fā)點(diǎn)的判定標(biāo)準(zhǔn).這些地點(diǎn)一共發(fā)生3 614起交通事故,占全部事故的57%,其具體事故地點(diǎn)分布及事故次數(shù)總占比如圖6所示.
圖5 等效事故次數(shù)累計(jì)頻率曲線Fig.5 Cumulative frequency curve of equivalent accident
圖6 北京六環(huán)內(nèi)交通事故多發(fā)位置Fig.6 Traffic accident-prone locations within Beijing sixth ring
根據(jù)損害后果和事故交通影響等效事故次數(shù),采用K-means聚類法將北京市事故多發(fā)位置的事故屬性進(jìn)行聚類,聚類結(jié)果如表2所示.北京市事故多發(fā)位置可分為6類,每一類分別對應(yīng)地點(diǎn)個(gè)數(shù)為17、12、2、4、7、3.在北京市事故多發(fā)地點(diǎn)中,事故交通影響與事故損害后果基本上呈現(xiàn)正相關(guān),即損害后果小的事故地點(diǎn),其事故交通影響也小(類別1和2),這些地點(diǎn)占總事故易發(fā)地點(diǎn)的64%.事故損害后果大的事故地點(diǎn),其事故交通影響也大,這些地點(diǎn)占總事故易發(fā)地點(diǎn)的29%(類別3、4、5).但也有3個(gè)事故地點(diǎn),其事故后果小但其交通影響大.
表2 北京市事故易發(fā)位置聚類結(jié)果Table 2 Clustering results of accident-prone locations in Beijing
各類事故易發(fā)地點(diǎn)具有如下特點(diǎn):
(1)第1、2類事故易發(fā)位置一般發(fā)生在快速路路段、快速路與其他等級(jí)道路的立體交叉范圍內(nèi),占這兩類地點(diǎn)總數(shù)的79%,發(fā)生在高峰段的事故占64%,車輛運(yùn)行速度慢,事故類型多為追尾和刮蹭,分別占46%和18%.
(2)第3、4、5類事故易發(fā)位置一般都位于快速路與快速路的立體交叉范圍內(nèi),這些地方一般交通量大,如四惠橋、健翔橋、國貿(mào)橋等;周邊有交通樞紐或吸引交通的建筑物,如國貿(mào)橋位于CBD中心、六里橋附近有客運(yùn)主樞紐、北京西站位于蓮花池東路等;立體交叉形式復(fù)雜,如沙窩南橋、西直門橋等;貨運(yùn)車輛多,如新發(fā)地橋.
(3)第6類事故易發(fā)位置數(shù)為3個(gè),其位置為快速路與快速路的立體交叉附近、北京CBD中心,如上清橋、肖家河橋和京廣橋,這些地點(diǎn)發(fā)生的交通事故雖然損害后果較小,但其交通影響卻很大,這些地點(diǎn)日常交通量大,為北京市經(jīng)常擁堵的地點(diǎn).
(1)基于RDF框架,構(gòu)建城市道路交通事故屬性模型,并對事故地點(diǎn)交通影響和地點(diǎn)等效事故頻次的變量進(jìn)行了界定.采用模糊系統(tǒng)聚類法對事故交通影響文本關(guān)鍵詞進(jìn)行聚類,劃分了嚴(yán)重?fù)矶?、擁堵、行駛緩慢和影響不大?個(gè)交通影響等級(jí).
(2)根據(jù)城市道路的特點(diǎn),構(gòu)建考慮了事故交通影響的等效事故次數(shù)模型,該模型考慮了事故交通影響對應(yīng)的單次損失時(shí)間、車道損失的通行能力、事故持續(xù)時(shí)間等因素,以死亡損失工作日數(shù)進(jìn)行事故次數(shù)的等效,并對其進(jìn)行了參數(shù)標(biāo)定.
(3)建立了基于等效事故數(shù)的城市快速路地點(diǎn)安全評(píng)價(jià)方法,該方法采用累計(jì)頻率曲線法進(jìn)行事故易發(fā)地點(diǎn)鑒別,K-means聚類對事故易發(fā)地點(diǎn)的事故損害后果和交通影響進(jìn)行聚類,分析結(jié)果表明,北京市快速路事故易發(fā)位置可分為6類,事故交通影響與事故損害后果基本正相關(guān).