楊博,段宗濤,左鵬飛,肖媛媛,王藝霖
融合異構(gòu)交通態(tài)勢(shì)的事故預(yù)測(cè)模型
楊博,段宗濤*,左鵬飛,肖媛媛,王藝霖
(長(zhǎng)安大學(xué) 信息工程學(xué)院,西安 710064)( ? 通信作者電子郵箱ztduan@chd.edu.cn)
針對(duì)事故數(shù)據(jù)信息表達(dá)有限、數(shù)據(jù)不平衡以及數(shù)據(jù)中存在動(dòng)態(tài)時(shí)空特性的問(wèn)題,提出一種融合異構(gòu)交通態(tài)勢(shì)的事故預(yù)測(cè)模型。其中:時(shí)空狀態(tài)聚合模塊通過(guò)代表動(dòng)態(tài)交通態(tài)勢(shì)的交通事件和天氣特征完成語(yǔ)義增強(qiáng),并聚合四種區(qū)域(單一區(qū)域、鄰近區(qū)域、相似區(qū)域和全局區(qū)域)的歷史多時(shí)段時(shí)空狀態(tài);時(shí)空關(guān)系捕獲模塊從微觀(guān)和宏觀(guān)角度捕獲事故數(shù)據(jù)局部與全局的動(dòng)態(tài)時(shí)空特性;時(shí)空數(shù)據(jù)融合模塊進(jìn)一步融合多區(qū)域、多角度的時(shí)空狀態(tài),并完成下一時(shí)段的事故狀況預(yù)測(cè)任務(wù)。在US-Accident的5個(gè)城市數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明所提模型的正樣本、負(fù)樣本、加權(quán)正負(fù)樣本的平均F1分?jǐn)?shù)分別為85.6%、86.4%和86.6%,與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)(FNN)模型相比,在三個(gè)指標(biāo)上分別提升了14.4%、5.6%和9.3%,能有效抑制事故數(shù)據(jù)不平衡對(duì)實(shí)驗(yàn)結(jié)果的影響。構(gòu)建高效的事故預(yù)測(cè)模型有助于分析道路交通安全形勢(shì),減少交通事故的發(fā)生,提高交通安全。
交通事故預(yù)測(cè)模型;交通事故數(shù)據(jù);時(shí)空特性;深度學(xué)習(xí);交通安全
道路交通事故不僅會(huì)造成大量的財(cái)產(chǎn)損失,而且會(huì)對(duì)人們的生命安全造成極大威脅[1]。為有效預(yù)防道路交通事故的發(fā)生,需要對(duì)城市道路交通安全形勢(shì)進(jìn)行分析研判。交通事故預(yù)測(cè)是道路交通安全形勢(shì)分析研判的主要部分,旨在利用歷史交通事故數(shù)據(jù),構(gòu)建交通事故預(yù)測(cè)模型,預(yù)測(cè)某個(gè)區(qū)域未來(lái)一段時(shí)期的事故發(fā)生狀況。
為提高交通事故預(yù)測(cè)模型的準(zhǔn)確性,需要充分考慮事故數(shù)據(jù)的自身特性。在確定一起交通事故時(shí),需要在時(shí)間和空間維度上描述,顯然事故數(shù)據(jù)具備時(shí)間特性和空間特性。在時(shí)間上,事故數(shù)量隨著時(shí)間的變化而變化,如高峰期更容易發(fā)生交通事故[2];在空間上,由于鄰近地區(qū)的相互影響以及各個(gè)地區(qū)的物理空間差異,事故數(shù)據(jù)表現(xiàn)出空間依賴(lài)性和空間異構(gòu)性[3-4]。事故數(shù)據(jù)在時(shí)間和空間上的特性并不是相互獨(dú)立的,存在時(shí)空依賴(lài)性[5]。采集的交通事故數(shù)據(jù)一般包括事故基本信息、駕駛?cè)藛T信息和車(chē)輛基本信息,其中事故基本信息用于交通事故預(yù)測(cè)模型的構(gòu)建,另外兩類(lèi)信息還可用于事故成因分析[6-8]。但是,事故基本信息本身表達(dá)的信息有限。因此在構(gòu)建交通事故預(yù)測(cè)模型時(shí),如何在事故數(shù)據(jù)信息表達(dá)有限的前提下,從事故數(shù)據(jù)中捕獲它們的時(shí)空特性,并提高交通事故預(yù)測(cè)模型的準(zhǔn)確性是一個(gè)難點(diǎn)。
早期研究通常使用傳統(tǒng)機(jī)器學(xué)習(xí)方法構(gòu)建交通事故預(yù)測(cè)模型,如文獻(xiàn)[9]中使用負(fù)二項(xiàng)回歸模型和決策樹(shù)模型建立交通事故發(fā)生頻率預(yù)測(cè)模型,文獻(xiàn)[10]中通過(guò)近鄰方法構(gòu)建實(shí)時(shí)公路交通事故預(yù)測(cè)模型;但這類(lèi)交通事故預(yù)測(cè)模型往往忽略了交通事故數(shù)據(jù)的時(shí)空特性。隨著深度學(xué)習(xí)的發(fā)展,一些研究開(kāi)始使用可以捕獲鄰域信息的卷積神經(jīng)網(wǎng)絡(luò)和善于處理時(shí)序數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)捕獲交通事故數(shù)據(jù)的時(shí)空特性[11]。文獻(xiàn)[12]中提出的DAP(Deep Accident Prediction)模型包含多個(gè)組件,其中循環(huán)網(wǎng)絡(luò)組件處理與時(shí)間相關(guān)的特征,全連接網(wǎng)絡(luò)組件處理與時(shí)間無(wú)關(guān)的特征,嵌入組件捕獲空間異構(gòu)性。文獻(xiàn)[13]中在研究區(qū)域上設(shè)置滑動(dòng)窗口并利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對(duì)農(nóng)村區(qū)域、城市區(qū)域和混合區(qū)域建模。上述研究處理了局部區(qū)域的時(shí)空特性,但忽略了全局時(shí)空特性。圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)通過(guò)聚合鄰域信息來(lái)迭代更新節(jié)點(diǎn)信息,隨著迭代的進(jìn)行,每個(gè)節(jié)點(diǎn)會(huì)聚合圖上更大范圍的信息[14],可捕獲全局空間特性。文獻(xiàn)[15]中提出差分時(shí)變圖卷積網(wǎng)絡(luò)捕獲實(shí)時(shí)全局交通狀態(tài)和研究子區(qū)域的互相關(guān)性。但這些研究未能從多角度、多尺度捕獲事故數(shù)據(jù)的動(dòng)態(tài)時(shí)空特性。
為彌補(bǔ)事故基本信息表達(dá)力有限的缺陷,各種不同的語(yǔ)義信息也被作為事故預(yù)測(cè)模型的輸入數(shù)據(jù),如天氣特征[9,12-13,15-16]、道路特征[9,13,15-16]、興趣點(diǎn)(Point Of Interest, POI)數(shù)據(jù)[12,16]、交通流[9,11,13,15]、GPS軌跡[15-17]、人口數(shù)據(jù)[18]等。不同研究通常將不同的語(yǔ)義信息作為事故基本信息的補(bǔ)充輸入給交通事故預(yù)測(cè)模型,而大多數(shù)語(yǔ)義信息都難以獲取,建立的模型難以應(yīng)用在其他區(qū)域。此外,靜態(tài)語(yǔ)義信息無(wú)法反映道路交通態(tài)勢(shì),如道路特征、POI特征等。而動(dòng)態(tài)語(yǔ)義信息可以反映真實(shí)路況,如天氣特征、交通事件等。在惡劣的天氣和道路環(huán)境狀況下,更易發(fā)生道路交通事故[19-20]。
現(xiàn)存研究構(gòu)建的交通事故預(yù)測(cè)模型分為分類(lèi)預(yù)測(cè)模型和回歸預(yù)測(cè)模型。根據(jù)是否劃分事故嚴(yán)重等級(jí),分類(lèi)預(yù)測(cè)模型被劃分為二分類(lèi)預(yù)測(cè)模型[12,16,18,21]和多分類(lèi)模型[6-8]。根據(jù)是否為不同的事故嚴(yán)重程度賦予不同的風(fēng)險(xiǎn)值,回歸預(yù)測(cè)模型被劃分為事故發(fā)生數(shù)量預(yù)測(cè)模型[2,13,15]和事故風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)模型[17]。其中,二分類(lèi)預(yù)測(cè)模型預(yù)測(cè)未來(lái)一段時(shí)期某個(gè)區(qū)域是否會(huì)發(fā)生道路交通事故。由于事故基本信息只會(huì)在發(fā)生事故時(shí)被采集,因此二分類(lèi)模型缺乏負(fù)樣本。文獻(xiàn)[18,21]通過(guò)隨機(jī)修改事故基本信息中的字段來(lái)生成負(fù)樣本。這種通過(guò)隨機(jī)生成的負(fù)樣本無(wú)法反映真實(shí)路況。
為解決上述問(wèn)題,本文提出了一種融合異構(gòu)交通態(tài)勢(shì)的二分類(lèi)事故預(yù)測(cè)模型(binary Accident Prediction model Fusing Heterogeneous Traffic Situation, AP-FHTS)。本文主要工作如下:
1)考慮了可反映真實(shí)路況的動(dòng)態(tài)語(yǔ)義信息,包括交通事件信息、天氣特征、時(shí)間特征等交通態(tài)勢(shì)數(shù)據(jù);
2)設(shè)計(jì)時(shí)空狀態(tài)聚合模塊和時(shí)空關(guān)系捕獲模塊,以研究子區(qū)域?yàn)橹行?,聚合四種異構(gòu)地理區(qū)域歷史多時(shí)段時(shí)空狀態(tài),捕獲交通事故數(shù)據(jù)存在的動(dòng)態(tài)時(shí)空特性;
3)在5個(gè)城市數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明動(dòng)態(tài)捕獲多角度、多尺度的道路交通態(tài)勢(shì)可有效提高事故預(yù)測(cè)模型性能。
2)多分類(lèi)模型通常將道路交通事故按照事故嚴(yán)重程度劃分為多個(gè)類(lèi)別,對(duì)交通事故嚴(yán)重程度建模,通常使用具備可解釋性的機(jī)器學(xué)習(xí)方法,如決策樹(shù)和隨機(jī)森林,或使用敏感性分析法探索交通事故嚴(yán)重程度的主要影響因素。由于研究目標(biāo)不同,因此無(wú)法對(duì)多分類(lèi)模型的標(biāo)簽進(jìn)行定義。
本文提出的模型包括時(shí)空狀態(tài)聚合模塊、時(shí)空關(guān)系捕獲模塊和時(shí)空數(shù)據(jù)融合模塊。AP-FHTS的模型框架如圖1所示,其中包括:長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)、批量歸一化(Batch Normalization, BN)和前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN);AF為激活函數(shù)(Activation Function);Time代表交通事故數(shù)據(jù)的時(shí)間特征;Loss代表預(yù)測(cè)值和真實(shí)值之間的誤差。
圖1 AP-FHTS的模型框架
時(shí)空狀態(tài)聚合模塊由四部分組成,分別針對(duì)單一區(qū)域(Sin)、鄰近區(qū)域(Adj)、相似區(qū)域(Sim)和全局區(qū)域(SG)完成歷史交通事故時(shí)空狀態(tài)在局部與全局的空間依賴(lài)特性和空間異構(gòu)特性捕獲任務(wù)。單一區(qū)域、鄰近區(qū)域和相似區(qū)域部分以研究子區(qū)域?yàn)橹行?,分別獲取該區(qū)域、該區(qū)域鄰域和與該區(qū)域相似區(qū)域的歷史多時(shí)段交通事故時(shí)空狀態(tài),在微觀(guān)層面聚合研究子區(qū)域歷史時(shí)空狀態(tài)的局部空間特性。全局區(qū)域以整體研究區(qū)域?yàn)橹行?,獲取其歷史多時(shí)段總體交通事故時(shí)空狀態(tài),并將總體時(shí)空狀態(tài)映射到利用POI數(shù)據(jù)建立的空間相似圖上,在宏觀(guān)層面聚合研究子區(qū)域歷史時(shí)空狀態(tài)的全局空間特性。
時(shí)空關(guān)系捕獲模塊試圖從歷史多時(shí)段時(shí)空狀態(tài)和總體時(shí)空狀態(tài)中分別捕獲局部與全局的時(shí)空依賴(lài)性。針對(duì)歷史多時(shí)段時(shí)空狀態(tài),該模塊從歷史時(shí)段中逐步獲取研究子區(qū)域的時(shí)空狀態(tài)發(fā)展趨勢(shì),對(duì)下一時(shí)段的時(shí)空狀態(tài)作出預(yù)測(cè);針對(duì)總體時(shí)空狀態(tài),該模塊通過(guò)在空間相似圖上進(jìn)行多次信息傳遞,使各個(gè)研究子區(qū)域聚合相似區(qū)域的時(shí)空狀態(tài),利用更新后的研究子區(qū)域時(shí)空狀態(tài)預(yù)測(cè)下一時(shí)段的時(shí)空狀態(tài)。
3.1.1實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)源于US-Accident中5個(gè)城市在2018年6月1日—9月1日內(nèi)的所有交通事件數(shù)據(jù)和天氣數(shù)據(jù),以及5個(gè)城市的POI數(shù)據(jù)。實(shí)驗(yàn)中的時(shí)間段間隔為1 h,每個(gè)研究子區(qū)域的大小為5 km×5 km。通過(guò)事故相關(guān)數(shù)據(jù)的經(jīng)緯度屬性將每條數(shù)據(jù)映射到對(duì)應(yīng)的研究子區(qū)域中。同一時(shí)間段內(nèi)存在多條數(shù)據(jù)時(shí),二值屬性取并操作,連續(xù)屬性取平均值。交通事件數(shù)據(jù)Traffic_Event的基本信息包括交通事件的類(lèi)型、發(fā)生時(shí)間和發(fā)生地點(diǎn)。天氣數(shù)據(jù)Weather包含氣象站的經(jīng)緯度、數(shù)據(jù)記錄時(shí)間和溫度、濕度、氣壓、可見(jiàn)度等6種類(lèi)型的天氣數(shù)據(jù),以及雨天、雪天、霧天和冰雹4種天氣狀況,由4個(gè)二值屬性構(gòu)成。POI數(shù)據(jù)包括POI的類(lèi)型、位置及數(shù)量。時(shí)間特征Hour,包含是/非節(jié)假日、日出/日落和所屬時(shí)段三種類(lèi)型。是/非節(jié)假日由1個(gè)二值屬性構(gòu)成;日出/日落由1個(gè)二值屬性構(gòu)成;所屬時(shí)段將一天24 h分為5個(gè)時(shí)段[12],由5個(gè)二值屬性構(gòu)成。US-Accident數(shù)據(jù)集包含7種類(lèi)型的交通事件和15種類(lèi)型的POI,其中交通事故是交通事件的一種。具體實(shí)驗(yàn)數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)集詳情
3.1.2時(shí)間特性
實(shí)驗(yàn)數(shù)據(jù)中,Houston在一天內(nèi)各個(gè)時(shí)段的周累積道路交通事故數(shù)量,體現(xiàn)出事故數(shù)據(jù)的時(shí)間特性,如圖2所示。
圖2 事故數(shù)據(jù)的時(shí)間特性
3.1.3空間特性
空間依賴(lài)性指鄰近區(qū)域會(huì)呈現(xiàn)出相似的交通事故狀況。空間異構(gòu)性側(cè)面反映地理空間相似區(qū)域會(huì)呈現(xiàn)出相似的交通事故狀況。各城市研究子區(qū)域在實(shí)驗(yàn)研究范圍內(nèi)的道路交通事故數(shù)量,體現(xiàn)出事故數(shù)據(jù)的空間特性,如圖3所示。道路交通事故數(shù)量呈現(xiàn)出從中心向外擴(kuò)散的特點(diǎn),表現(xiàn)出空間依賴(lài)性。地理空間相似區(qū)域(圖3中標(biāo)記點(diǎn))的交通事故狀況也表現(xiàn)出空間異構(gòu)性。
圖3 事故數(shù)據(jù)的空間特性
3.1.4時(shí)空特性
事故數(shù)據(jù)在呈現(xiàn)出周期性的時(shí)間特性基礎(chǔ)上,鄰近區(qū)域和地理空間相似區(qū)域(圖4中標(biāo)記點(diǎn))也分別呈現(xiàn)出空間上的依賴(lài)性和異構(gòu)性。實(shí)驗(yàn)數(shù)據(jù)中,Houston前5周道路交通事故數(shù)量,體現(xiàn)出事故數(shù)據(jù)的時(shí)空特性,如圖4所示。
在交通事故預(yù)測(cè)問(wèn)題中,非事故時(shí)段數(shù)量遠(yuǎn)大于事故時(shí)段數(shù)量。Atlanta城市數(shù)據(jù)在完成研究區(qū)域劃分和時(shí)間范圍劃分后,事故時(shí)段數(shù)量和非事故時(shí)段數(shù)量之比高達(dá)1∶60(如表1),因此該問(wèn)題是一種典型的不平衡類(lèi)問(wèn)題。解決不平衡類(lèi)問(wèn)題的方式之一是對(duì)非事故數(shù)據(jù)進(jìn)行不充分抽樣,以改變數(shù)據(jù)集中事故數(shù)據(jù)和非事故數(shù)據(jù)的分布比例,使模型在訓(xùn)練過(guò)程中對(duì)事故數(shù)據(jù)得到更好的表示,提高模型在事故數(shù)據(jù)上的預(yù)測(cè)準(zhǔn)確度[22]。本研究對(duì)非事故數(shù)據(jù)進(jìn)行不充分抽樣,隨機(jī)抽取2%的非事故數(shù)據(jù)作為數(shù)據(jù)集的負(fù)樣本,而所有的事故數(shù)據(jù)作為數(shù)據(jù)集的正樣本。
在不充分抽樣完成后,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,比例為5∶1。此外,為了防止過(guò)擬合,采取提前停止方式,隨機(jī)抽取10%的訓(xùn)練集作為驗(yàn)證集。在訓(xùn)練次數(shù)迭代超過(guò)40次以后,每5次迭代計(jì)算一次驗(yàn)證集的損失,當(dāng)驗(yàn)證集的損失連續(xù)3次不再降低,則停止訓(xùn)練。
圖4 事故數(shù)據(jù)的時(shí)空特性
本文模型中3個(gè)模塊的具體結(jié)構(gòu)如下:
3)時(shí)空數(shù)據(jù)融合模塊:該模塊將單一區(qū)域、鄰近區(qū)域、相似區(qū)域和全局區(qū)域的32維表示向量,以及7維的時(shí)間特征向量進(jìn)行拼接,構(gòu)成135維的表示向量,輸入FNN模塊。FNN模塊包含2個(gè)隱含層,神經(jīng)元個(gè)數(shù)分別為256和64,輸出層神經(jīng)元個(gè)數(shù)為2,每層的激活函數(shù)為T(mén)anh函數(shù),每?jī)蓪又g使用批量歸一化方法。
由于不同模型使用的數(shù)據(jù)存在差異等原因,很難將本文模型與其他事故預(yù)測(cè)模型進(jìn)行直接比較,所以選取下述4種模型與本文提出的模型進(jìn)行比較,如下所示:
1)Logistic回歸(Logistic Regression, LR)[23]。
2)隨機(jī)森林(Random Forest, RF)[24]。
3)前饋神經(jīng)網(wǎng)絡(luò):該模型包括3層神經(jīng)網(wǎng)絡(luò),神經(jīng)元個(gè)數(shù)分別為256、64和2,激活函數(shù)為ReLU。
4)Sin+Sim+Adj+G(SSAG):將本文提出的模型中的SG部分的輸出結(jié)果替換為圖卷積后所有研究子區(qū)域的狀態(tài)均值,并使用G代替。
LR、RF和FNN的輸入向量是單一區(qū)域、鄰近區(qū)域和相似區(qū)域的時(shí)空狀態(tài)向量和時(shí)間特征拼接生成的415維向量。LR、RF和FNN通過(guò)Scikit-learn機(jī)器學(xué)習(xí)庫(kù)[25]搭建,超參數(shù)優(yōu)化由Scikit-learn完成。SSAG模型的輸入向量和超參數(shù)優(yōu)化與本文提出的模型一致。
選取適合評(píng)價(jià)不平衡類(lèi)問(wèn)題的F1指標(biāo)作為模型的評(píng)價(jià)指標(biāo),分別計(jì)算正樣本F1分?jǐn)?shù)(Acc)、負(fù)樣本F1分?jǐn)?shù)(Non?Acc)及考慮正負(fù)樣本比例的加權(quán)平均F1分?jǐn)?shù)(Avg?Acc)。
為每個(gè)城市單獨(dú)訓(xùn)練一個(gè)事故預(yù)測(cè)模型,不同模型在不同城市數(shù)據(jù)集上的性能比較如表2所示。與所有的基準(zhǔn)方法相比,本文提出的AP-FHTS在三個(gè)指標(biāo)上均表現(xiàn)出最優(yōu)的性能,在5個(gè)城市數(shù)據(jù)集上的平均Acc、Non-Acc、Avg-Acc分別為85.6%、86.4%、86.6%,與FNN模型相比,在三個(gè)指標(biāo)上分別提升了 14.4%、5.6%和9.3%。與使用所有研究子區(qū)域狀態(tài)均值的SSAG模型相比,進(jìn)行節(jié)點(diǎn)選擇的模型(AP-FHTS)在三種指標(biāo)上均有明顯提升,表明使用所有研究子區(qū)域狀態(tài)均值未能考慮交通事故數(shù)據(jù)表現(xiàn)出的空間特性,而AP-FHTS可以捕捉到空間特性,提升模型在所有城市的Acc和Non?Acc,尤其是Dallas的Acc。與基準(zhǔn)方法相比,AP-FHTS在不同城市數(shù)據(jù)集上的指標(biāo)提升有所差異。例如,雖然AP?FHTS在Dallas的Acc低于其他4個(gè)城市,但相較于基準(zhǔn)方法Acc的提升卻大于其他4個(gè)城市,而且Noc-Acc也高于其余4個(gè)城市,再次證明AP?FHTS充分考慮了交通事故數(shù)據(jù)表現(xiàn)出的空間特性。AP?FHTS在A(yíng)tlanta和Charlotte的Acc高于Non-Acc,在A(yíng)ustin的兩種指標(biāo)持平,在Dallas和Houston的Acc低于Non-Acc。這是因?yàn)镈allas和Houston原始數(shù)據(jù)集中的事故時(shí)段與非事故時(shí)段比值遠(yuǎn)小于其他城市數(shù)據(jù)集,因此負(fù)采樣后的數(shù)據(jù)集仍保留此現(xiàn)象,符合各個(gè)城市的現(xiàn)實(shí)情況。與基準(zhǔn)方法相比,AP-FHTS可有效提高各城市的Acc和Non-Acc,并減少二者之間的差異。
雖然本文使用的數(shù)據(jù)源于文獻(xiàn)[12]的公開(kāi)數(shù)據(jù)集,但本文未將靜態(tài)語(yǔ)義信息作為特征輸入模型,如POI特征、事故文本描述信息等,因此使用的數(shù)據(jù)與文獻(xiàn)[12]存在差異,所以本文模型也無(wú)法直接與它進(jìn)行比較。但與DAP模型[12]相比,使用更少類(lèi)型數(shù)據(jù)的AP-FHTS在不同城市的Acc均大幅提升,高效解決了事故數(shù)據(jù)中存在的不平衡性問(wèn)題。
通過(guò)組件選擇方式分析AP-FHTS中各組件對(duì)不同城市預(yù)測(cè)模型性能的影響,如圖5所示。共設(shè)置5組實(shí)驗(yàn),構(gòu)建5種模型,記作A、B、C、D、E,其中:A僅使用單一區(qū)域組件(Sin);B使用單一區(qū)域和相似區(qū)域組件(Sin+Sim);C使用單一區(qū)域和鄰近區(qū)域組件(Sin+Adj);D使用單一區(qū)域、鄰近區(qū)域和相似區(qū)域組件(Sin+Sim+Adj);E使用單一區(qū)域、鄰近區(qū)域、相似區(qū)域和全局區(qū)域組件(AP-FHTS)。從A和B的結(jié)果看,Sim可提高4個(gè)城市的Acc,但降低了Austin的Acc指標(biāo);Sim在Charlotte和Dallas的Non-Acc有提升,在A(yíng)tlanta的Non-Acc指標(biāo)下降,對(duì)其他城市的指標(biāo)無(wú)影響。從A和C的結(jié)果看,Adj可提高4個(gè)城市的Acc,對(duì)Austin指標(biāo)無(wú)影響;Adj在4個(gè)城市的Non-Acc有提升,在A(yíng)tlanta則指標(biāo)下降。上述三組實(shí)驗(yàn)的對(duì)比說(shuō)明Sim和Adj組件對(duì)大部分城市預(yù)測(cè)模型性能的提升均有積極作用。從B、C和D的結(jié)果看,Sim和Adj組件在部分城市具有相容性。這種現(xiàn)象是正常的,因?yàn)猷徑鼌^(qū)域的物理結(jié)構(gòu)往往很相似(如圖3所示)。最后,從D和E的結(jié)果看,全局區(qū)域組件可提高所有城市的Acc和Non-Acc。
通過(guò)特征選擇方式分析天氣數(shù)據(jù)(WE)、時(shí)間特征(H)和交通事件(TE)對(duì)不同城市預(yù)測(cè)模型性能的影響,如圖6所示。在原有5個(gè)城市模型的基礎(chǔ)上,構(gòu)建一個(gè)包含所有城市訓(xùn)練數(shù)據(jù)的模型(All),以探索是否有必要為每一個(gè)城市單獨(dú)訓(xùn)練一個(gè)事故預(yù)測(cè)模型。由于各個(gè)城市在物理結(jié)構(gòu)上不存在相鄰關(guān)系,因此選擇Sin+Sim+Adj模型探索特征的重要性。從結(jié)果上看,三種特征對(duì)模型性能均有提升作用,不同特征在不同城市對(duì)模型性能提升有差異。例如,僅使用天氣數(shù)據(jù)時(shí),Austin的Acc低于A(yíng)tlanta,在添加時(shí)間特征后,二者的Acc持平;僅使用天氣數(shù)據(jù)時(shí),Austin的Non-Acc低于所有城市,在添加時(shí)間特征后,不僅Austin的Non-Acc大幅提升,僅低于Houston,而且Atlanta和Charlotte的Non-Acc也大幅提升。其次,交通事件有助于平衡Acc和Non-Acc,減少預(yù)測(cè)模型在各城市的性能差異。此外,為不同城市訓(xùn)練不同模型是必要的。雖然在使用全部特征時(shí),All的Avg-Acc僅比Houston低,但為每個(gè)城市單獨(dú)訓(xùn)練模型仍是必要的,因?yàn)樵诩伤谐鞘杏?xùn)練數(shù)據(jù)后,負(fù)樣本比例過(guò)大,導(dǎo)致平均性能向負(fù)樣本性能傾斜;然而,對(duì)事故數(shù)據(jù)正確預(yù)測(cè)的意義遠(yuǎn)大于非事故數(shù)據(jù)。實(shí)際在使用全部特征時(shí),All的Acc低于4個(gè)城市,Non-Acc低于2個(gè)城市。
表2 不同模型在5個(gè)城市數(shù)據(jù)集的性能比較
圖5 不同組件對(duì)不同城市的模型性能的影響
圖6 不同特征對(duì)不同城市的模型性能的影響
基于事故數(shù)據(jù)存在的時(shí)間周期性、空間依賴(lài)性和空間異構(gòu)性,本文提出了一種融合異構(gòu)交通態(tài)勢(shì)的事故預(yù)測(cè)模型AP-FHTS。與基準(zhǔn)方法相比,動(dòng)態(tài)捕獲多角度、多尺度時(shí)空狀態(tài)的AP-FHTS可有效完成對(duì)事故數(shù)據(jù)動(dòng)態(tài)時(shí)空特性的捕獲;而且AP-FHTS在同時(shí)提高Acc和Non-Acc的基礎(chǔ)上,能縮小二者的差距,抑制事故數(shù)據(jù)不平衡性對(duì)實(shí)驗(yàn)結(jié)果的影響。事故預(yù)測(cè)模型性能的提高不僅可完成城市道路交通安全形勢(shì)分析研判任務(wù),還可根據(jù)模型的輸入特征及其使用的方法完成事故成因分析。消融實(shí)驗(yàn)中,由于事故數(shù)據(jù)的空間依賴(lài)性,導(dǎo)致鄰近區(qū)域組件和相似區(qū)域組件在部分城市預(yù)測(cè)性能上表現(xiàn)出相容性。未來(lái),將會(huì)研究鄰近區(qū)域和相似區(qū)域之間的事故狀況聯(lián)系,以及各個(gè)研究子區(qū)域的事故狀況演變趨勢(shì),以進(jìn)一步提高事故預(yù)測(cè)模型性能。
[1] SILVA P B, ANDRADE M, FERREIRA S. Machine learning applied to road safety modeling: a systematic literature review[J]. Journal of Traffic and Transportation Engineering (English Edition), 2020, 7(6): 775-790.
[2] REN H, SONG Y, WANG J, et al. A deep learning approach to the citywide traffic accident risk prediction[C]// Proceedings of the 21st International Conference on Intelligent Transportation Systems. Piscataway: IEEE, 2018:3346-3351.
[3] ZIAKOPOULOS A, YANNIS G. A review of spatial approaches in road safety[J]. Accident Analysis and Prevention, 2020, 135: No.105323.
[4] JIANG W, LUO J. Graph neural network for traffic forecasting: a survey[J]. Expert Systems with Applications, 2022, 207: No.117921.
[5] AL HAMAMI M, MATISZIW T C. Measuring the spatiotemporal evolution of accident hot spots[J]. Accident Analysis and Prevention, 2021, 157: No.106133.
[6] YU H, YUAN R, LI Z, et al. Identifying heterogeneous factors for driver injury severity variations in snow-related rural single-vehicle crashes[J]. Accident Analysis and Prevention, 2020, 144: No.105587.
[7] ABELLáN J, LóPEZ G, DE O?A J. Analysis of traffic accident severity using Decision Rules via Decision Trees[J]. Expert Systems with Applications, 2013, 40(15): 6047-6054.
[8] ALOGAILI A, MANNERING F. Unobserved heterogeneity and the effects of driver nationality on crash injury severities in Saudi Arabia[J]. Accident Analysis and Prevention, 2020, 144: No.105618.
[9] CHANG L Y, CHEN W C. Data mining of tree-based models to analyze freeway accident frequency[J]. Journal of Safety Research, 2005, 36(4): 365-375.
[10] LV Y, TANG S, ZHAO H. Real-Time highway traffic accident prediction based on the k-nearest neighbor method[C]// Proceedings of the 2009 International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2009: 547-550.
[11] TEDJOPURNOMO D A, BAO Z, ZHENG B, et al. A survey on modern deep neural network for traffic prediction: trends, methods and challenges[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(4): 1544-1561.
[12] MOOSAVI S, SAMAVATIAN M H, PARTHASARATHY S, et al. Accident risk prediction based on heterogeneous sparse data: new dataset and insights[C]// Proceedings of the 27th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2019:33-42.
[13] YUAN Z, ZHOU X, YANG T. Hetero-ConvLSTM: a deep learning approach to traffic accident prediction on heterogeneous spatio-temporal data[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 984-992.
[14] HAMILTON W. 圖表示學(xué)習(xí)[M]. AI TIME,譯. 北京:電子工業(yè)出版社, 2021: 72-113.(HAMILTON W. Graph Representation Learning[M]. AI TIME, translated. Beijing: Publishing House of Electronics Industry, 2021: 72-113.)
[15] ZHOU Z, WANG Y, XIE X, et al. RiskOracle: a minute-level citywide traffic accident forecasting framework[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 1258-1265.
[16] YU L, DU B, HU X, et al. Deep spatio-temporal graph convolutional network for traffic accident prediction[J]. Neurocomputing, 2021, 423: 135-147.
[17] CHEN Q, SONG X, YAMADA H S, et al. Learning deep representation from big and heterogeneous data for traffic accident inference[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016:338-344.
[18] YUAN Z, ZHOU X, YANG T, et al. Predicting traffic accidents through heterogeneous urban data: a case study[C]// Proceedings of the 6th International Workshop on Urban Computing. New York: ACM, 2017:1-9.
[19] LOBO A, FERREIRA S, IGLESIAS I, et al. Urban road crashes and weather conditions: untangling the effects[J]. Sustainability, 2019, 11(11): No.3176.
[20] MALIN F, NORROS I, INNAMAA S. Accident risk of road and weather conditions on different road types[J]. Accident Analysis and Prevention, 2019, 122: 181-188.
[21] ROLAND J, WAY P D, FIRAT C, et al. Modeling and predicting vehicle accident occurrence in Chattanooga, Tennessee[J]. Accident Analysis and Prevention, 2021, 149: No.105860.
[22] TAN P N, STEINBACH M, KUMAR V. 數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫跰]. 范明,范宏建,譯.北京:人民郵電出版社, 2011: 180-186.(TAN P N, STEINBACH M, KUMAR V. Introduction to Data Mining[M]. FAN M, FAN H J, translated. Beijing: Posts and Telecom Press, 2011: 180-186.)
[23] WALKER S H, DUNCAN D B. Estimation of the probability of an event as a function of several independent variables[J]. Biometrika, 1967, 54(1/2): 167-179.
[24] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[25] PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al.: machine learning in Python[J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.
Accident prediction model fusing heterogeneous traffic situations
YANG Bo, DUAN Zongtao*, ZUO Pengfei, XIAO Yuanyuan, WANG Yilin
(,’,’710064,)
To address the problems of limited information expression, imbalance, and dynamic spatio-temporal characteristics of accident data, an accident prediction model fusing heterogeneous traffic situations was proposed. In which, the semantic enhancement was completed by the spatio-temporal state aggregation module through traffic events and weather features representing dynamic traffic situations, and the historical multi-period spatio-temporal states of four types of regions (single region, adjacent region, similar region, and global region) were aggregated; the dynamic local and global spatio-temporal characteristics of accident data were captured by the spatio-temporal relation capture module from both micro- and macro-perspectives; and the multi-region and multi-angle spatio-temporal states were further fused by the spatio-temporal data fusion module, and the accident prediction task in the next period was realized. Experimental results on five city datasets of US-Accident demonstrate that the average F1-scores of the proposed model for accident, non-accident, and weighted average samples are 85.6%, 86.4%, and 86.6% respectively, which are improved by 14.4%, 5.6%, and 9.3% in the three metrics compared to the traditional Feedforward Neural Network (FNN), indicating that the proposed model can effectively suppresses the influence of accident data imbalance on experimental results. Constructing an efficient accident prediction model helps to analyze the safety situation of road traffic, reduce the occurrence of traffic accidents and improve the traffic safety.
traffic accident prediction model; traffic accident data; spatio-temporal characteristic; deep learning; traffic safety
1001-9081(2023)11-3625-07
10.11772/j.issn.1001-9081.2022101619
2022?10?28;
2023?04?05;
陜西省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2019ZDLGY17?08, 2019ZDLGY03?09?01); 陜西省“特支計(jì)劃”科技創(chuàng)新領(lǐng)軍人才項(xiàng)目(TZ0336)。
楊博(1999—),男,山西運(yùn)城人,碩士研究生,CCF會(huì)員,主要研究方向:大數(shù)據(jù)、深度學(xué)習(xí); 段宗濤(1977—),男,陜西鳳翔人,教授,博士,CCF會(huì)員,主要研究方向:大數(shù)據(jù)智能、交通大數(shù)據(jù)分析; 左鵬飛(1997—),女,山西大同人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、交通大數(shù)據(jù)分析; 肖媛媛(1997—),女,陜西西安人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 王藝霖(1999—),女,山西太原人,碩士研究生,主要研究方向:數(shù)據(jù)聚類(lèi)、用戶(hù)畫(huà)像。
TP391; U491.31
A
2023?08?07。
This work is partially supported by Key Research and Development Program of Shaanxi Province (2019ZDLGY17-08, 2019ZDLGY03-09-01), Project of “Special Support Plan” Science and Technology Innovation Leading Talents of Shaanxi Province (TZ0336).
YANG Bo, born in 1999, M. S. candidate. His research interests include big data, deep learning.
DUAN Zongtao, born in 1977, Ph. D., professor. His research interests include big data intelligence, analysis of big traffic data.
ZUO Pengfei, born in 1997, M. S. candidate. Her research interests include machine learning, analysis of big traffic data.
XIAO Yuanyuan, born in 1997, Ph. D. candidate. Her research interests include machine learning, data mining.
WANG Yilin, born in 1999, M. S. candidate. Her research interests include data clustering, user portrait.