袁振洲,胡嫣然,楊洋
(1.北京交通大學(xué),交通運(yùn)輸學(xué)院,北京 100044;2.北京航空航天大學(xué),a.交通科學(xué)與工程學(xué)院,b.車路協(xié)同與安全控制北京市重點(diǎn)實(shí)驗(yàn)室,北京 100191)
中共中央和國務(wù)院印發(fā)的《交通強(qiáng)國建設(shè)綱要》[1]中將“完善交通安全體系,加強(qiáng)交通安全綜合治理,切實(shí)提高交通安全水平”列為目標(biāo)之一。高速公路作為重要的交通方式之一,保障其交通安全是非常重要的發(fā)展方向。截止2020年底,我國公路總里程數(shù)約為519.81×104km,高速公路總里程數(shù)約為16.10×104km,約占我國公路總里程數(shù)的3.1%,但高速公路事故死亡人數(shù)占公路事故死亡人數(shù)的比率卻高達(dá)10%[2]。由此可見,與普通公路相比,高速公路安全形勢十分嚴(yán)峻。因此,高速公路交通安全問題亟待改善,我國高速公路安全管理水平需進(jìn)一步提高,對高速公路安全狀態(tài)進(jìn)行監(jiān)測并對高速公路事故主動防控顯得尤為重要。
傳統(tǒng)的高速公路事故分析,主要是利用交通事故事后采集的數(shù)據(jù),例如,司機(jī)年齡,性別,是否使用安全帶或者是否飲酒,道路特征及天氣特征等數(shù)據(jù),分析其與事故嚴(yán)重程度或者發(fā)生頻次的關(guān)系,以期找到減輕事故嚴(yán)重程度的方法。常用的方法主要有:關(guān)聯(lián)規(guī)則挖掘算法[3]、貝葉斯網(wǎng)絡(luò)[4]、Logit模型及probit模型等及其衍生模型[5-6]。
傳統(tǒng)的高速公路事故分析是事后、被動的管理,不能對實(shí)時(shí)交通事故風(fēng)險(xiǎn)做出預(yù)判,也無法體現(xiàn)實(shí)時(shí)交通流對事故風(fēng)險(xiǎn)的影響。隨著實(shí)時(shí)信息采集水平的提高,采集實(shí)時(shí)交通流數(shù)據(jù)變成了可能,許多學(xué)者對高速公路事故風(fēng)險(xiǎn)實(shí)時(shí)預(yù)測展開研究。
游錦明等[7]基于國內(nèi)高速公路交通流檢測器比較稀疏的現(xiàn)狀,利用主成分分析法和支持向量機(jī)模型,提出一種基于單檢測器的不良交通流狀態(tài)實(shí)時(shí)監(jiān)測方法,對不良交通流狀態(tài)的識別準(zhǔn)確率可達(dá)到79.55%。HOSSAIN 等[8]將高速公路分為幾個(gè)路段(基本高速公路、出口的上游和下游以及入口匝道),并基于隨機(jī)森林和分類回歸樹等集成學(xué)習(xí)方法,為不同路段開發(fā)了單獨(dú)的事故風(fēng)險(xiǎn)預(yù)測模型,結(jié)果表明,不同路段導(dǎo)致事故風(fēng)險(xiǎn)的因素差異很大。徐鋮鋮等[9]利用邏輯回歸模型,建立了基于交通流數(shù)據(jù)和氣象數(shù)據(jù)的事故風(fēng)險(xiǎn)預(yù)測模型,研究結(jié)論顯示,不良天氣顯著提高事故風(fēng)險(xiǎn);對比只含有交通流數(shù)據(jù)的預(yù)測模型,加入天氣數(shù)據(jù)的實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測模型的預(yù)測準(zhǔn)確性更高。ZHENG等[10]將高速公路路段分為基本路段、交織區(qū)、合流區(qū)及分流區(qū)4 種類型,對每一類型路段建立貝葉斯邏輯回歸(BLR)模型,識別事故前兆,并提出了一種基于成本效益理論的實(shí)時(shí)事故風(fēng)險(xiǎn)模型閾值選擇方法,此研究在實(shí)際應(yīng)用中有助于將事故風(fēng)險(xiǎn)降低到一個(gè)相對經(jīng)濟(jì)的水平。YANG 等[11]以跨區(qū)域高速公路為研究對象,采用隨機(jī)森林算法識別不同區(qū)域類型高速公路事故前兆,通過貝葉斯邏輯回歸模型建立交通流變量與事故風(fēng)險(xiǎn)之間的統(tǒng)計(jì)關(guān)系,結(jié)果表明,高速公路的區(qū)域類型和交通條件與動態(tài)交通安全存在顯著相關(guān)性。
總體而言,以往的研究綜合分析了交通流數(shù)據(jù)和事故數(shù)據(jù),采用不同的方法建立各種實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測模型,并取得了可觀的成果。但是,現(xiàn)有模型主要以交通流參數(shù)作為解釋變量預(yù)測是否會發(fā)生高速公路交通事故,少有研究同時(shí)考慮天氣特征、道路特征以及時(shí)間特征等參數(shù)對高速公路交通事故影響的研究,并且大多是將其直接作為模型的解釋變量,假設(shè)各個(gè)因素是相互獨(dú)立的,沒有考慮各種因素之間的交互作用。高速公路交通事故是多種因素綜合作用的結(jié)果,影響事故發(fā)生的因素并不是相互獨(dú)立的,而是存在一定的交互作用。例如,當(dāng)能見度較低或者雨天道路濕滑時(shí),危險(xiǎn)交通流可能更容易導(dǎo)致高速公路交通事故的發(fā)生。因此,將天氣特征、道路特征以及時(shí)間特征等參數(shù)納入解釋變量,并考慮其交互作用是必要的?;诖耍疚膹耐诰蛏顚哟蔚奶卣鹘换コ霭l(fā),考慮天氣特征、道路特征、時(shí)間特征以及交通流動態(tài)特征之間的交互作用,使用一種新的實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測模型,提高模型預(yù)測的精度。
本文以中國北京-哈爾濱高速公路,樁號為K0~K39(四方橋-西集)的路段為研究對象,其位置如圖1所示。研究路段內(nèi)可以收集到2013年1月—2014年10月的交通事故數(shù)據(jù)(包含事故類型、嚴(yán)重程度、時(shí)間及地點(diǎn))、交通流數(shù)據(jù)(包含1 min集計(jì)的海量高精度交通流量、速度、占有率以及85%速度等)、天氣數(shù)據(jù)(包含能見度、降雨量、露點(diǎn)、溫度及風(fēng)速等)和道路特征數(shù)據(jù)(包括上下游檢測器間距、道路寬度、路肩寬度及匝道數(shù)量等)。
圖1 高速公路研究路段Fig.1 Study section of freeway
(1)交通事故數(shù)據(jù)
研究路段內(nèi)可以收集到2013年1月—2014年9月的交通事故數(shù)據(jù),共198 條,數(shù)據(jù)字段包括,事故發(fā)生時(shí)間、樁號、方向、事故類型及事故描述等。刪除由車輛起火和損壞等原因?qū)е碌氖鹿视涗洠?jīng)過數(shù)據(jù)預(yù)處理后,提取研究路段和時(shí)間段內(nèi)的事故164起。
(2)交通流數(shù)據(jù)
研究路段內(nèi)布設(shè)20組微波雷達(dá)交通信息檢測器(上下游共40 組),平均間距為1.9 km,主要采集的數(shù)據(jù)包括各個(gè)車道的流量、占有率及速度,采集時(shí)間間隔為1 min,如表1所示。現(xiàn)有研究顯示以5 min 集計(jì)的交通流數(shù)據(jù)能夠減少噪聲[12],所以本文采用5 min集計(jì)的數(shù)據(jù)。對于缺失或者錯(cuò)誤的數(shù)據(jù),直接刪除處理。
表1 交通流數(shù)據(jù)Table 1 Traffic flow data
(3)天氣數(shù)據(jù)
文獻(xiàn)[9]表明,惡劣的天氣會增加高速公路交通事故風(fēng)險(xiǎn),加入天氣特征可以提高模型預(yù)測的精度。因此,本文將天氣特征納入備選特征變量中。氣象站采集的天氣數(shù)據(jù)包括:能見度、降雨量、露點(diǎn)、溫度及風(fēng)速等。將這些天氣特征做聚類處理,聚類結(jié)果如表2所示。
表2 天氣特征及取值Table 2 Weather characteristics and their values
(4)道路特征
研究路段內(nèi)的道路特征可通過百度衛(wèi)星地圖獲取,百度地圖提供的測距功能可以比較準(zhǔn)確地測量出其道路信息,主要包括:路面寬度,路肩寬度,上下游檢測器之間的上匝道數(shù)量和下匝道數(shù)量及彎道等信息。
高速公路事故風(fēng)險(xiǎn)實(shí)時(shí)預(yù)測的建模工作不僅需要事故發(fā)生前的交通流數(shù)據(jù),還需要非事故狀態(tài)下的交通流數(shù)據(jù)。常見的非事故數(shù)據(jù)抽樣方法有兩種:配對病例-對照法[2,12]和非配對病例-對照法[9]。配對病例-對照法通常是用以控制天氣、季節(jié)及道路特征等混合因素,研究交通流變量對交通事故風(fēng)險(xiǎn)的影響。所以,利用配對病例-對照法構(gòu)造的數(shù)據(jù)樣本中不包含天氣、道路及時(shí)間特征等類型數(shù)據(jù),不適合研究天氣、道路、時(shí)間及交通流特征之間的交互作用。而非配對病例-對照法,是隨機(jī)抽取非事故數(shù)據(jù),其中可以包含天氣、道路及時(shí)間等變量,更適合本文的研究,所以,本文采用非配對病例-對照法。
文獻(xiàn)[13]表明,對照樣本數(shù)與病例樣本數(shù)的比例越大,得到的結(jié)果越準(zhǔn)確,但比例超過4∶1后,預(yù)測結(jié)果準(zhǔn)確性的提高微乎其微。因此,本文采用事故樣本與非事故樣本比為1∶4 的比率構(gòu)建數(shù)據(jù)樣本,即事故樣本164起,非事故樣本656起。
本文選取距離事故地點(diǎn)最近的兩個(gè)上下游微波雷達(dá)交通信息檢測器作為交通流數(shù)據(jù)的采集器。選用高速公路交通事故發(fā)生前5~10 min 的交通流數(shù)據(jù)作為病例樣本數(shù)據(jù);然后,根據(jù)隨機(jī)抽樣的方法選取656條非事故數(shù)據(jù)作為對照樣本數(shù)據(jù);最后,根據(jù)事故和非事故的時(shí)間和地點(diǎn)匹配對應(yīng)的天氣和道路數(shù)據(jù)。非事故數(shù)據(jù)的抽取方法如下。
(1)首先,以“2013-01-01 00:00:00”為時(shí)間起點(diǎn),“2014-10-01 00:00:00”為時(shí)間終點(diǎn),以5 min 為間隔,生成183745 個(gè)時(shí)間序列。從生成的時(shí)間序列中隨機(jī)抽取656 條作為非事故數(shù)據(jù)的時(shí)間。然后,檢查抽取的時(shí)間序列,刪除與事故數(shù)據(jù)時(shí)間相距太近的數(shù)據(jù),再進(jìn)行隨機(jī)抽樣,直到生成滿足要求的656條非事故數(shù)據(jù)的時(shí)間序列。
(2)對于每個(gè)非事故數(shù)據(jù),從40 組微波雷達(dá)交通信息檢測器中隨機(jī)選取兩個(gè)相鄰的檢測器作為非事故數(shù)據(jù)的上下游檢測器。
除了上下游檢測器的流量、占有率及速度外,本文還考慮了相鄰車道間流量、占有率和速度的差值以及上下游檢測器流量、速度和占有率的差值,這兩組變量可以在一定程度上表征車輛在交通流中的換道行為和上下游之間的交通流變化特征,對高速公路交通事故風(fēng)險(xiǎn)產(chǎn)生一定的影響。
天氣特征中,降雨量、能見度及露點(diǎn)這3 個(gè)要素在事故和非事故數(shù)據(jù)中的分布具有明顯不同,而氣溫和風(fēng)速在事故和非事故數(shù)據(jù)中的分布無明顯差別,所以,將降雨量、能見度及露點(diǎn)這3個(gè)天氣特征作為解釋變量,氣溫和風(fēng)速則不納入考慮。因?yàn)?,本文的研究路段均為雙向6 車道,其路肩寬度無明顯變化,所以,車道數(shù)和路肩寬度這兩個(gè)道路特征不納入備選特征變量中。
此外,時(shí)間特征也被認(rèn)為是高速公路交通事故的影響因素[14]。所以,本文將是否為工作日,事故數(shù)據(jù)和非事故數(shù)據(jù)位于的時(shí)段作為時(shí)間特征參數(shù)納入考慮。
模型的特征變量主要包括:交通流、天氣、道路及時(shí)間特征變量這4 部分,本文所用的特征變量如表3所示。
表3 模型特征參數(shù)Table 3 Model characteristic parameter
為驗(yàn)證加入天氣特征和道路特征等是否可以提高模型表現(xiàn)力,本文建立4 個(gè)樣本數(shù)據(jù)集,數(shù)據(jù)集1,只包含交通流變量;數(shù)據(jù)集2,包含交通流變量、天氣特征和時(shí)間特征變量;數(shù)據(jù)集3,包含交通流變量、道路特征和時(shí)間特征變量;數(shù)據(jù)集4,包含交通流變量和天氣、道路特征以及時(shí)間特征變量。4 個(gè)樣本數(shù)據(jù)集均包括164 個(gè)事故樣本和656 個(gè)非事故樣本,事故樣本標(biāo)簽為0,非事故樣本標(biāo)簽為1。數(shù)據(jù)集4部分?jǐn)?shù)據(jù)如表4所示。
表4 數(shù)據(jù)集4示例Table 4 Dataset 4
在傳統(tǒng)的線性模型(例如,Logistic 回歸)中,每個(gè)特征都是獨(dú)立的,如果考慮特征之間的交互作用,需要人工對特征進(jìn)行交叉組合,操作較為復(fù)雜。樹模型和支持向量機(jī)等模型雖然可以學(xué)習(xí)交叉特征,但因?yàn)榧尤胩鞖?、道路和時(shí)間特征等類別變量后,特征較為稀疏,模型表現(xiàn)力不足。深度交叉網(wǎng)絡(luò)(Deep &Cross Network,DCN)模型可以自動構(gòu)建有限高階的交叉特征,無需人為進(jìn)行特征組合,在類別變量較多時(shí)也有較好的表現(xiàn),可以很好的解決以上問題。所以,本文借鑒DCN 模型實(shí)現(xiàn)多維動態(tài)特征的交互。
DCN 模型是一個(gè)被廣泛地應(yīng)用在點(diǎn)擊率(Click-through rate,CTR)預(yù)估中的深度學(xué)習(xí)模型。DCN 模型架構(gòu)分為3 層,首先,是Embedding 和Stacking 層;然后,是Cross 層與Deep 層的并列;最后,是組合層。組合層將Cross層與Deep層的輸出組合在一起,輸出最終的預(yù)測結(jié)果。完整的DCN模型[15]如圖2所示。
DCN 模型具有非常簡潔的網(wǎng)絡(luò)結(jié)構(gòu),模型輸入特征可以分為類別型特征和連續(xù)型特征,除交通流變量和上下游檢測器之間的距離為連續(xù)型特征外,天氣、道路和時(shí)間特征等其他變量都可以作為類別型特征。類別型特征通過Embedding 層變成低維密集型的embedding 向量之后,與連續(xù)型特征進(jìn)行拼接,拼接后的向量輸入Cross和Deep層進(jìn)行特征提取,將這兩個(gè)層的輸出結(jié)果拼接之后,輸入最后的Logistic 回歸模型,即可輸出預(yù)測結(jié)果。DCN模型各部分的簡要介紹如下。
(1)Embedding和Stacking層
Embedding 層把稀疏離散的類別型特征變成低維密集型(稱為embedding向量),即
式中:Xembed,i為embedding向量;Xi為第i層的二進(jìn)制輸入;Wembed,i為一個(gè)ne×nv維的embedding矩陣,其中,ne為embedding 的維度,nv為類別特征的取值個(gè)數(shù)。
然后,將經(jīng)過embedding 轉(zhuǎn)換后的類別型特征和連續(xù)型特征Xdense拼接成為一個(gè)向量X0,這個(gè)過程即為stacking。
式中:k為類別特征的數(shù)目。
將得到的向量X0作為Cross 層與Deep 層的輸入。
(2)Cross層
Cross層的核心思想是有效且顯式地進(jìn)行特征之間的交互,增加特征的交互力度。如果Cross 層數(shù)為1,則模型中包含了交通流、天氣、道路和時(shí)間特征的一階和二階交互;如果Cross 層數(shù)為2,則模型中包含了交通流、天氣、道路和時(shí)間特征的一階、二階和三階交互;如果Cross層數(shù)為l,則模型中包含了交通流、天氣、道路和時(shí)間特征的1~(l+1)階交互。
假如xl為l層輸出的列向量,則第(l+1)層輸出的列向量xl+1為
式中:wl和bl分別為第l層的權(quán)重和偏置參數(shù);映射函數(shù)f擬合xl+1-xl的殘差。
(3)Deep層
Deep 層是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò),每個(gè)層符合條件
式中:hl和hl+1分別為第l層和第(l+1)層的隱藏層;f(.)為Relu激活函數(shù)。
(4)組合層
組合層將來自Deep 層和Cross 層兩個(gè)網(wǎng)絡(luò)的輸出連接起來,并將連接后的向量送入Logistics回歸中。由于高速公路實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測為二分類問題,所以,最后的組合層為二元Logistic回歸。通過二元Logistic回歸輸出事故發(fā)生的概率。二分類問題的公式為
式中:p為事故發(fā)生的概率;L1為Cross層數(shù);L2為Deep 層數(shù);xL1為Cross 層的輸出;hL2為Deep 層的輸出;wlogits為組合層的權(quán)重向量,并且。
完整的DCN模型[15]如圖2所示。
圖2 DCN模型結(jié)構(gòu)Fig.2 Deep&cross network
在分類算法中,準(zhǔn)確率(被預(yù)測正確的樣本占所有樣本的比率)是最常用的模型評估指標(biāo),但這個(gè)指標(biāo)并不適用于非平衡數(shù)據(jù)集。例如,本文所使用的事故數(shù)據(jù)∶非事故數(shù)據(jù)=1∶4的數(shù)據(jù)集中,如果模型將所有樣本都判別為非事故,模型的準(zhǔn)確率也可以達(dá)到80%,這顯然沒有實(shí)際意義。所以,對于非平衡數(shù)據(jù)集,不僅要保證模型有較高的準(zhǔn)確率,又要保證模型在對多數(shù)類和少數(shù)類的預(yù)測中都有不錯(cuò)的表現(xiàn)。
綜合以上考慮并結(jié)合現(xiàn)有研究,本文以受試者工作特征(Receiver Operating Characteristic,ROC)曲線下的面積AUC 值(Area Under the Curve)作為模型預(yù)測性能的評價(jià)指標(biāo)。
在計(jì)算AUC之前需要引入混淆矩陣。混淆矩陣是將實(shí)際情況和模型預(yù)測情況以矩陣的形式進(jìn)行匯總,混淆矩陣的行表示模型預(yù)測值,混淆矩陣的列表示實(shí)際值。本文問題的混淆矩陣如表5所示。
表5 混淆矩陣Table 5 Confusion matrix
表5 中,NTP表示事故被正確預(yù)測為事故的數(shù)目,NFN表示事故被錯(cuò)誤預(yù)測為非事故的數(shù)目,NFP表示非事故被錯(cuò)誤預(yù)測成事故的數(shù)目,NTN表示非事故被正確預(yù)測為非事故的數(shù)目。
根據(jù)混淆矩陣計(jì)算召回率(PTPR)、假正率(PFPR)、特異度(PTNR)和準(zhǔn)確率(PAccuracy)分別為
以PFPR為橫軸,PTPR為縱軸可繪制出ROC 曲線,ROC曲線下的面積即為AUC值。AUC越接近1,說明分類模型的預(yù)測性能越好。
選取二元Logistic 回歸、支持向量機(jī)以及隨機(jī)森林作為對比模型。Logistic回歸模型是線性模型中最具代表意義的模型,簡單易懂。支持向量機(jī)和隨機(jī)森林模型可以捕捉一定的交互作用,是高速公路實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測的常用模型。
采用10 折交叉驗(yàn)證測試各模型的分類效果。10 折交叉驗(yàn)證是把數(shù)據(jù)集平均分成10 份,依次取出1 份作為測試集,其余9 份作為訓(xùn)練集,最后,取10次訓(xùn)練結(jié)果的平均值作為該模型的最終結(jié)果,可以較為準(zhǔn)確的評價(jià)模型的泛化性能。各模型在各數(shù)據(jù)集的預(yù)測表現(xiàn)如表6所示。
表6 各算法在不同數(shù)據(jù)集上的AUC值對比Table 6 Comparison of AUC values of each algorithm on different datasets
通過表6 可以看出,不管使用哪個(gè)分類算法,加入天氣特征或者道路特征都可以提高分類的準(zhǔn)確性。從本數(shù)據(jù)集來看,加入道路特征比加入天氣特征的提高更為顯著。同時(shí),考慮交通流、天氣、道路以及時(shí)間特征時(shí),分類算法的AUC值最高。
DCN 算法在只考慮交通流變量的數(shù)據(jù)集1 上的表現(xiàn)遜于支持向量機(jī)模型,原因可能是交通流變量之間的交互作用并不顯著,且交通流變量為連續(xù)型特征,支持向量機(jī)更適用于解釋變量為連續(xù)型特征的建模工作。而在數(shù)據(jù)集2、數(shù)據(jù)集3和數(shù)據(jù)集4上,DCN 算法是表現(xiàn)最優(yōu)的分類算法,可以得出,交通流變量、天氣、道路以及時(shí)間特征之間存在著復(fù)雜的交互作用,即在不同道路、天氣和時(shí)間特征條件下,交通流動態(tài)特征與交通事故風(fēng)險(xiǎn)間存在不同的關(guān)聯(lián)關(guān)系。與現(xiàn)有模型相比,考慮交通流變量、天氣、道路以及時(shí)間特征等多維動態(tài)特征之間的交互效應(yīng),可以顯著提高模型的表現(xiàn)力。
在數(shù)據(jù)集4 上,DCN 算法的Cross 層數(shù)與十折交叉驗(yàn)證的AUC均值關(guān)系如圖3所示。
圖3 不同Cross層數(shù)下的AUC值Fig.3 AUC values at different Cross layers
由圖3 可知,在Cross 層數(shù)為5 時(shí),模型效果最優(yōu);之后,層數(shù)增加,模型預(yù)測效果反而下降了。由此可見,并非考慮特征交互的階數(shù)越高,模型預(yù)測效果越好。因?yàn)?,特征交互的階數(shù)過高時(shí),可能會引入過多的噪聲而降低模型的預(yù)測性能。
按照7∶3的比例隨機(jī)劃分?jǐn)?shù)據(jù)集4的訓(xùn)練集和測試集,訓(xùn)練集包括115 起事故數(shù)據(jù)和459 起非事故數(shù)據(jù),測試集包括49起事故數(shù)據(jù)和197起非事故數(shù)據(jù),得到各模型在測試集上的ROC 曲線,如圖4所示。
圖4 不同模型的ROC曲線和AUC值Fig.4 ROC curves and AUC values of different models
由圖4 可知,在大部分概率閾值下,DCN 模型的ROC 曲線要高于其他模型的ROC 曲線。DCN模型的AUC 值為0.8562,分類性能最優(yōu)。在非平衡分類問題上,概率閾值一般取少數(shù)類占總樣本的比例,大于該概率閾值的判斷為多數(shù)類,小于該概率閾值的判斷為少數(shù)類[16]。在本數(shù)據(jù)集中,概率閾值取0.2。DCN模型在測試集上的混淆矩陣如表7所示。
表7 DCN模型混淆矩陣結(jié)果Table 7 DCN model confusion matrix results
根據(jù)混淆矩陣可計(jì)算出,DCN 模型對非事故數(shù)據(jù)的分類準(zhǔn)確率為84.26%,事故數(shù)據(jù)的分類準(zhǔn)確率為77.55%,總體預(yù)測準(zhǔn)確率為82.93%。該模型較高的事故預(yù)測精度表明,可以利用DCN 算法評估我國高速公路的實(shí)時(shí)事故風(fēng)險(xiǎn)。
本文基于深度交叉網(wǎng)絡(luò)模型,采用京哈高速公路的實(shí)時(shí)交通流、事故、天氣和道路等數(shù)據(jù),構(gòu)建不同數(shù)據(jù)集下的實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測模型。通過對比其他3種實(shí)時(shí)事故風(fēng)險(xiǎn)預(yù)測方法的結(jié)果,得出以下結(jié)論:
(1)無論使用哪種預(yù)測模型,天氣和道路等特征的加入都可以顯著提高模型的預(yù)測精度,說明天氣和道路特征是高速公路交通事故風(fēng)險(xiǎn)的顯著影響因素。
(2)在加入天氣、道路和時(shí)間特征后,DCN模型的預(yù)測精度明顯高于其他模型。在同時(shí)包含交通流變量、時(shí)間、天氣和道路特征的數(shù)據(jù)集上,DCN模型的AUC 達(dá)到0.8562。在0.2 的概率閾值下,該模型達(dá)到82.11%的整體預(yù)測準(zhǔn)確率,能夠正確分類84.26%的非事故數(shù)據(jù)和77.55%事故數(shù)據(jù),表明DCN模型能夠更加準(zhǔn)確地捕捉交通流變量、道路、天氣和時(shí)間特征之間的交互作用。在多維動態(tài)特征效應(yīng)的作用下,考慮特征交互可以顯著提高模型的預(yù)測精度。
(3)在使用DCN 模型對高速公路交通事故風(fēng)險(xiǎn)進(jìn)行預(yù)測時(shí),并非特征交叉的階數(shù)越高模型預(yù)測精度越高,階數(shù)過高可能會引入噪聲而使模型性能變差。
(4)該研究的建模思路和工作手段,為我國高速公路實(shí)時(shí)交通風(fēng)險(xiǎn)預(yù)測提供了一種新的建模方法,成果有利于我國高速公路實(shí)時(shí)交通風(fēng)險(xiǎn)監(jiān)測工作的開展;可根據(jù)道路實(shí)時(shí)交通流運(yùn)行狀況、天氣和道路特征等,制定針對性的管理辦法,及時(shí)預(yù)測事故發(fā)生,提高我國高速公路的行車安全。