宋建洋,王 志,2,李藹恂,田 華,2,郜婧婧,王宇虹
(1.中國氣象局公共氣象服務(wù)中心,北京 100081;2.中國氣象局交通氣象重點開放實驗室,江蘇南京 210009)
大霧嚴重威脅高速公路交通運行安全。據(jù)統(tǒng)計,我國高速公路交通事故中有15%~25%發(fā)生在霧天環(huán)境下,同時重大傷亡交通事故中有約1/3與大霧關(guān)聯(lián),造成的社會影響和經(jīng)濟損失較大,是公安交管部門最關(guān)注的氣象災害之一[1-3]。為描述事故發(fā)生的不確定性,可利用交通安全風險量化特定區(qū)域或路段未來一段時間內(nèi)的期望事故率(或可能性)[4],以用于提前做好防災減災工作部署。
公路交通是我國氣象部門專業(yè)氣象服務(wù)的重要領(lǐng)域。隨著多源監(jiān)測資料的綜合應用與分析方法的日漸成熟,交通氣象業(yè)務(wù)內(nèi)容逐漸從氣象要素的監(jiān)測預報向基于影響的風險評價拓展[5],在研究領(lǐng)域也呈現(xiàn)諸多成果。霧或低能見度方面,李藹恂等[6]綜合考慮氣象災害危險性、暴露性、脆弱性和防災減災能力,建立了我國主要公路低能見度災害風險的評估指標體系和權(quán)重,并以此開展風險區(qū)劃和評估研究;林雨等[7]、唐亞平等[8]建立了考慮不同能見度、路況條件或道路交通環(huán)境下的公路安全行車速度模型;曲曉黎等[9]選取高影響天氣強度、持續(xù)時間、風險區(qū)劃等級、單項車流量、地形、發(fā)生時段等因子,建立了河北省高速公路分災種風險等級預報模型,能夠反映當?shù)仂F災對高速公路行車的風險;李嵐等[10]、周慧等[11]、吳彬貴等[12]分別對沈大、京津塘高速公路大霧天氣氣候特征及對交通安全的影響進行了分析探討。氣象綜合影響方面,吉延艷等[13]、許秀紅等[14]、朱興琳等[15]在分析影響本省道路交通安全的氣象因子特征基礎(chǔ)上,分別制定了貴州、黑龍江和新疆的公路交通氣象指數(shù)或指標體系,以評價氣象對交通安全的影響程度;羅慧等[16]、凌良新等[17]利用Logistic回歸構(gòu)建了城市尺度分季節(jié)的逐日公路交通事故氣象預警模型;丁德平等[18]在相關(guān)分析基礎(chǔ)上,設(shè)計出京津塘高速公路萬輛車流交通事故災害的氣象綜合指數(shù)風險等級指標。
然而,現(xiàn)有研究或?qū)㈧F、降水、冰凍等氣象災害統(tǒng)籌考慮,或量化結(jié)果在時間與空間上的顆粒度較粗、實時性較差,在當下要求日益精準化的氣象服務(wù)需求前還存在不足。本文以我國霧天交通事故(以下簡稱“霧事故”)多發(fā)高速公路路段為研究對象,采用隨機森林等機器學習技術(shù),建立發(fā)生時間、能見度、相對濕度、風、氣溫、變溫等多類信息與小時霧事故發(fā)生概率的量化關(guān)系,從而實現(xiàn)對霧天高速公路交通安全狀態(tài)的實時評價,以期為高速公路交通安全動態(tài)管理和風險防控提供氣象支持。
據(jù)2012-2016年全國高速公路交通事故數(shù)據(jù)統(tǒng)計,江蘇境內(nèi)京滬高速、安徽境內(nèi)京臺高速和寧洛高速的霧天交通事故高發(fā)。同時,公路沿線氣象觀測站網(wǎng)布設(shè)較為密集,數(shù)據(jù)質(zhì)量較好,并且兼具蘇皖地區(qū)北部、南部、西部和東部的災害天氣特點,作為研究對象進行分析時具有一定的代表性。
資料時段為2012年1月至2017年3月。交通事故數(shù)據(jù)來自于公安部交通管理科學研究所,記錄了霧天交通事故發(fā)生的具體時間及路段信息,其中簡易事故786起,一般事故97起。氣象數(shù)據(jù)采用國家氣象信息中心提供的公路沿線交通氣象觀測站及周邊國家氣象觀測站資料,要素包含氣溫、相對濕度、風、能見度等,監(jiān)測頻次以1h為主,部分站點為10 min或5 min。
利用ArcGIS空間分析技術(shù),以25 km范圍內(nèi)距離最近且觀測有效為原則,將事故發(fā)生位置與氣象觀測站進行匹配。經(jīng)統(tǒng)計,匹配后兩者間的平均距離不到7 km,最近距離不到200 m。以1 h為數(shù)據(jù)集計單元,得到有氣象監(jiān)測信息的有效事故組樣本465個。采用配對病例對照方法提取建模數(shù)據(jù),其中,病例為事故組樣本對應的氣象環(huán)境特征,對照為沒有發(fā)生霧事故條件下的氣象環(huán)境特征。經(jīng)多次試驗,兩者配比率采用常用的1:3比例[19]。為剔除混雜因素影響,隨機選取對照組數(shù)據(jù)時考慮以下條件:與事故發(fā)生時段一致,與事故發(fā)生地點一致,與事故發(fā)生日期臨近,匹配氣象站觀測有效。
1.2.1 RF?RFE算法
隨機森林(random forest,RF)是以決策樹為基礎(chǔ)的集成模型,可以通過對構(gòu)造的許多決策樹結(jié)果取平均值來降低過擬合,并保持樹的預測能力,有效解決不平衡分類問題[20]。同時,因其能夠更準確地處理數(shù)值型變量和分類型變量混雜在一起的高維高容量輸入數(shù)據(jù),常被應用于交通安全預測[21]。
遞歸特征消除(recursive feature elimination,RFE)是一種以反復構(gòu)建模型為主要思想的變量選擇方法。它以特征重要性排序為基礎(chǔ),通過逐一舍棄最不重要特征,使用剩余變量構(gòu)建一個新模型并記錄性能評價指標值來選擇重要變量。其中,獲得最高評分的新模型為最優(yōu)模型,對應輸入?yún)?shù)為重要變量。RFE有助于減小冗余信息對算法的影響,加快預測速度,提升分類正確率,或允許可解釋性更強的模型??紤]到RF在處理交通安全數(shù)據(jù)上的優(yōu)越性,本文使用其作為基模型進行變量重要性排序和模型訓練,即隨機森林?遞歸特征消除(RF?RFE)算法。
1.2.2 風險分級
以模型輸出的小時內(nèi)事故發(fā)生概率為指標,參照相等間隔法劃分為5個等級,進而從氣象因子角度對霧天高速公路的交通安全風險水平進行分析判定。級別含義詳見表1。
表1 霧天交通安全氣象風險等級劃分Table 1 Classification of traffic safety meteorological risk in foggy weather
1.2.3 技術(shù)路線
本文的技術(shù)路線如圖1所示,主要包含1)數(shù)據(jù)集準備;2)基于RF?RFE的重要變量提取與模型構(gòu)建;3)模型效果評價三部分內(nèi)容。
圖1 技術(shù)路線圖Fig.1 Technology roadmap
為保證判別結(jié)果的準確度,需要對由事故組和對照組構(gòu)成的數(shù)據(jù)集進行劃分。隨機分層選擇數(shù)據(jù)集的90%(1 672個)作為訓練樣本,剩下的10%(188個)作為測試樣本;對訓練樣本進行9折交叉驗證,即其中的8/9(1 486個)作為訓練集用于模型構(gòu)建,1/9(186個)作為驗證集用于模型和參數(shù)選擇。
算法性能的評價指標包含各類別分類精度和AUC分數(shù)。其中,AUC分數(shù)(area under the curve)為ROC曲線下的面積,等價于從正類樣本中隨機挑選一個點,由分類器給出的分數(shù)比從反類樣本中隨機挑選一個點的分數(shù)更高的概率,最高值為1;更適用于不平衡類別的二分類問題,AUC分數(shù)越高,選擇的模型性能越好[22]。
霧天交通事故具有顯著的時間變化特征。從月度分布來看(圖2(a)),除8月份外,研究路段各月均有霧事故發(fā)生,并總體呈現(xiàn)冬半年多、夏半年少的趨勢特點。事故發(fā)生頻次在1月份達到峰值,約占全年的20.16%;2月和12月次之,占比分別為18.35%和15.52%。從日變化情況來看(圖2(b)),超過65%的霧天交通事故集中發(fā)生在05:00~10:00,并在07:00~08:00出現(xiàn)峰值,占比可達20.07%;中午至凌晨時段事故量明顯偏少,但對于一般事故,在02:00~03:00和21:00~22:00還分別出現(xiàn)了一個小高峰(圖略)。
圖2 研究路段發(fā)生霧天交通事故的月(a)、日(b)變化特征Fig.2 The characteristics of monthly(a)and daily(b)distribution of fog?caused traffic accidents in the studied road section
霧事故發(fā)生特征除了受車流量影響外,主要與氣象環(huán)境背景場關(guān)系密切。霧的形成需要大氣層結(jié)穩(wěn)定、水汽充足、微風以及恰當?shù)睦鋮s作用。從氣候上來看,蘇皖地區(qū)冬半年近地層多受冷高壓控制,夜長且出現(xiàn)無云風小的概率大,地面散熱迅速,致使地表溫度急劇下降,近地面水汽更容易在后半夜至清晨達到飽和而凝結(jié)成小水珠,造成時段內(nèi)霧天交通事故的高發(fā)。
大霧除了會降低能見度,造成駕駛員視覺障礙和心理緊張外,還會通過霧水與積灰、塵土混合以及在冷的道路表面形成一層薄冰而使車輛與路面的摩擦系數(shù)減小,是引發(fā)霧天交通事故的另一重要原因[23-24]。綜上分析并考慮因子累積效應,以時間、能見度、相對濕度、風速、風向、氣溫與變溫等信息的基礎(chǔ)及衍生變量構(gòu)建初始自變量集,利用RF評價特征重要性,結(jié)果如圖3所示??梢?,能見度因素對霧天環(huán)境下高速公路交通事故的發(fā)生影響最顯著,重要程度值達0.23以上;其次是相對濕度與風速,特征重要性分別在0.06和0.04左右;溫度類信息中,24 h變溫與氣溫的貢獻相對較高,其他特征差別不大,程度值在0.021~0.025之間;風向信息對霧事故影響最小。與氣象因子相比,時間信息對于霧天交通事故判別的重要性相對較低,但考慮到事故發(fā)生存在的有規(guī)律變化,有必要在模型構(gòu)建時引入發(fā)生季節(jié)、發(fā)生時段等非氣象因子。
圖3 初始自變量的特征重要性Fig.3 The characteristic importance of initial independent variables
因變量Y是描述小時內(nèi)是否有霧事故發(fā)生的二分類變量,發(fā)生與沒有發(fā)生分別取值1和0。應用RF?RFE算法篩選對霧天高速公路交通事故影響較為顯著的重要變量,得到11個氣象因子和3個非氣象因子,具體見表2。
表2 篩選后保留的自變量Table 2 Independent variables retained after filtering
利用2012年1月至2017年3月的樣本資料建立RF?RFE模型。定義第k個樣本的霧天交通事故特征向量u k為
相應的霧天交通事故訓練矩陣為
式中,K為訓練集樣本數(shù)量;u k1,u k2,…,u k14為第k個樣本的14個輸入自變量,對應因變量Y k∈{1,0}。事故發(fā)生條件概率計算及狀態(tài)判定的實現(xiàn)過程如下:構(gòu)建n棵決策樹,通過bootstrap隨機采樣法有放回地從U中隨機抽取K個樣本得到每顆決策樹的新訓練集;在每棵樹的每個節(jié)點處隨機抽取m個自變量,然后從中選擇最優(yōu)特征進行數(shù)據(jù)擬合,特征分類的閾值通過檢查每個分類點確定;將n棵決策樹組成隨機森林,給出每棵樹選擇“發(fā)生”的概率大小p,對所有樹的預測概率取平均值,即為小時霧天交通事故發(fā)生概率P;將P≥0.5的樣本標識為事故(Y′=1),P<0.5的樣本標識為對照(Y′=0)。經(jīng)參數(shù)尋優(yōu),n=5 000,m=3。
表3給出了模型的分類精度。在訓練樣本中,75.4%的事故樣本被成功判別,95.4%的對照樣本被成功判別,對事故的空報率和漏報率分別為15.5%和24.6%,總體分類正確率為90.4%,表明RF?RFE算法在訓練時有較好的擬合精度。在測試樣本中,模型成功判別出80.9%的事故樣本和93.6%的對照樣本,空報率和漏報率均為19.1%,總體分類正確率為90.3%,表明RF?RFE算法在高速公路霧天交通事故預測方面有較好的精度。另外,模型在交叉驗證和單獨驗證上的AUC分數(shù)均為0.953,泛化能力較強,對事故的判識能力趨于穩(wěn)定。
表3 RF?RFE模型霧天交通事故判別精度Table 3 The accuracy of RF?RFE model for fog traffic accident discriminant
參照表1,給出霧天交通安全氣象風險等級檢驗結(jié)果(表4)。從中可知,隨著風險等級的提升,實際發(fā)生霧天交通事故的樣本數(shù)量呈增加趨勢,沒有發(fā)生霧天交通事故的樣本數(shù)量呈減小趨勢,符合交通安全風險等級劃分基本原則。經(jīng)統(tǒng)計,有80.85%的事故樣本發(fā)生在較高(3級)及以上風險級別內(nèi),其中高風險(4級)和極高風險(5級)的比例分別為27.66%和42.55%;有89.93%的對照樣本落在極低(1級)和低(2級)的風險級別,其中交通事故概率在0.2以下的極低風險占比可達80.58%。整體來看,RF?RFE模型體現(xiàn)出較好的性能,可以對霧天高速公路交通事故發(fā)生可能性的危險程度進行有效判別,同時保持了較低的空報,具有較好的實際業(yè)務(wù)應用價值。
表4 霧天交通安全氣象風險模型檢驗精度Table 4 Test accuracy of meteorological risk model for highway traffic safety in foggy weather
2016年2月11日21時起,江蘇境內(nèi)京滬高速、安徽境內(nèi)京臺高速24 h內(nèi)間斷性發(fā)生20起簡易霧事故。其中,京臺高速5起集中爆發(fā)在12日11~13時的795~856 km處,影響范圍較小,持續(xù)時間較短;相較之下,京滬高速江蘇段受大霧天氣影響更大,多時段、多點出現(xiàn)多起交通事故,主要涉及12日10~20時的901~1 055 km處。
從霧天高速公路交通安全氣象風險模型輸出結(jié)果來看(圖4):2月11日21時~12日20時,京滬高速江蘇段(以下簡稱“G2”)的風險等級明顯高于安徽境內(nèi)京臺高速(以下簡稱“G3”)和寧洛高速(以下簡稱“G36”),這與當日G2多發(fā)霧事故的事實相符;另外,臨近災害發(fā)生時,超9成霧事故所在路段的風險等級達4級或5級,高于其他無事故時段或路段,模擬結(jié)果合理且具有風險提示意義。
圖4 霧天高速公路交通安全氣象風險模型評價結(jié)果(2016年2月11日21時至12日20時,節(jié)選)Fig.4 Evaluation results of meteorological risk model for highway traffic safety under foggy weather condition(excerpts from 21:00,F(xiàn)ebruary 11,2016 to 20:00,F(xiàn)ebruary 12,2016)
從氣象風險演變過程來看,G2自第1起霧事故發(fā)生的2月11日21時開始自北向南逐步提升,全路段較高的風險等級持續(xù)至次日11時,而后開始迅速回落并于13時基本恢復到極低風險級別;但這期間,模型在事故多發(fā)的江都中段始終提示高或極高的風險等級,與實際災情發(fā)生的時段和位置有很好的對應關(guān)系,能夠反映出本次霧天氣過程對于區(qū)域路網(wǎng)交通安全可能產(chǎn)生的持續(xù)性不良影響。
與G2不同,G3的霧天交通安全氣象風險基本處于較低水平,僅北段局部路段在2月12日7~13時出現(xiàn)等級階段性提升的現(xiàn)象;對照事故信息,徐州方向795 km處12日8~9時發(fā)生1起霧事故,合肥方向819~826 km處12日11~13時接連發(fā)生5起霧事故,正好處于模型輸出的4~5級氣象風險范圍內(nèi),證實了評價結(jié)果的準確性和風險提示的及時性。
綜上所述,基于RF?RFE的霧天高速公路交通安全氣象風險模型在實際數(shù)據(jù)驗證及個例分析過程中被證實有較高的準確性和可靠性,有助于實現(xiàn)對高風險路段和高風險時段的實時監(jiān)測預警,為霧天環(huán)境下交通安全動態(tài)管理與智能控制提供一定的提示信息。
本文利用試驗路段災情信息與氣象資料,綜合考慮事故發(fā)生時間及氣象環(huán)境因素,以小時霧事故發(fā)生概率作為表征指標,建立了基于隨機森林-遞歸特征消除算法的霧天高速公路交通安全氣象風險模型,以期為交通氣象風險預警業(yè)務(wù)及防災減災服務(wù)提供技術(shù)支撐。結(jié)論如下:(1)霧天交通事故存在明顯的時間變化,多發(fā)生在冬半年、05:00~10:00之間;氣象條件中,能見度信息對霧天交通事故的發(fā)生影響最顯著,然后是相對濕度、風速、氣溫與變溫,最后是風向信息。(2)利用隨機森林-遞歸特征消除算法對21個初始自變量進行優(yōu)化降維,最終保留11個氣象因子和3個非氣象因子建立的霧天高速公路交通安全氣象風險模型效果最佳。(3)從分類精度來看,模型成功判別出80.9%的事故樣本和93.5%的對照樣本,空報率和漏報率均為19.1%,AUC分數(shù)為0.953;從安全風險來看,分別有42.6%和27.7%的事故樣本發(fā)生在極高(5級)和高(4級)的氣象等級中,有80.6%和9.4%的對照樣本發(fā)生在極低(1級)和低(2級)的氣象等級中;模型預測精度較高,交通安全氣象風險等級劃分比較合理,從個例分析來看也有較好的模擬效果。
受限于可獲取的公路數(shù)據(jù)條件有限,本文重點從氣象角度對試驗高速路段霧天交通事故的發(fā)生概率及安全狀態(tài)做出評價,能夠為當?shù)亟煌庀蠓?wù)及減災策略制定提供參考。引入車流量、道路線性、車況等交通實測信息,可以繼續(xù)對模型進行修正和完善,有助于進一步提高評價結(jié)果的全面性和精準性。