魏 娟
(江西服裝學(xué)院 商學(xué)院,江西 南昌 330201)
近年來,隨著我國經(jīng)濟(jì)不斷崛起,交通道路得到逐漸擴(kuò)建,機(jī)動車輛的數(shù)量也不斷增加,道路的交通事故和傷亡情況呈現(xiàn)出一種上升態(tài)勢.根據(jù)道路交通事故統(tǒng)計,2002年發(fā)生道路交通 事故造成109 381人傷亡,2016年,發(fā)生道路交通 事故造成21.284 6萬人傷亡,相比2014年有所上升.到2017年,我國的交通事故造成傷亡人數(shù)有6.3萬,雖然道路交通事故有所下降,但是我國交通事故年傷亡人數(shù)依然高居世界第二.因此,做好對道路危險預(yù)測,挖掘道路事故的形成規(guī)律,協(xié)助控制道路交通安全,采取合理的應(yīng)對道路危險事故的策略,是當(dāng)前極其重要的研究課題[1].過去,對于道路交通危險事故預(yù)測,都是基于長期的歷史數(shù)據(jù)進(jìn)行研究,包括:交通事故同環(huán)境、車輛特性、交通流特性和駕駛員特性這 4 個方面因素,對他們之間的關(guān)系,以及交通危險事故的發(fā)展趨勢進(jìn)行分析,但是該研究的短板就是無法反映出交通事故的發(fā)生和實時交通特性的內(nèi)在聯(lián)系.有國內(nèi)研究者提出以車速的標(biāo)準(zhǔn)差當(dāng)做特點變量要素,構(gòu)建起更小總風(fēng)險準(zhǔn)則的貝葉斯預(yù)先測定模式,但考慮到我國國情,要收集到交通流數(shù)據(jù)與事故的詳細(xì)數(shù)據(jù)極其不易,難以實時采集交通數(shù)據(jù),因而無法采用仿真實驗去驗證方法是否真的有效可行.當(dāng)前,隨著計算機(jī)技術(shù)朝著智能化、數(shù)字化與系統(tǒng)化方向的發(fā)展,利用Adaboost算法,可以實現(xiàn)對道路危險進(jìn)行實時的預(yù)測.
預(yù)測顧名思義是預(yù)先推測或者是測定,基本含義是指在掌握現(xiàn)有信息的基礎(chǔ)條件上,按照客觀事物的發(fā)展趨勢和變化規(guī)律,對事情未來發(fā)展的過程與結(jié)果進(jìn)行推斷與判斷.道路交通事危險故預(yù)測是指在掌握已知某一地域的道路交通危險事故程度和有關(guān)的影響要素狀況采取科學(xué)有效的推測和判斷.道路交通危險事故的預(yù)測本身與預(yù)測結(jié)果是科學(xué)決策的重要前提,通過對道路交通危險事故的預(yù)測,發(fā)現(xiàn)危險事故的發(fā)展趨向、變化特征、將來狀況特征等有關(guān)指標(biāo),以達(dá)到對將來交通安全情況有一個充分的了解,并采取有針對性的預(yù)防措施,從而達(dá)到減小到位交通危險事故的發(fā)生[2].道路交通危險事故的實時預(yù)測主要有三種情況,分別是正常情況、危險情況、過渡情況.正常情況說明交通狀況良好無事故,用記號(ξ1)表示;危險情況說明交通狀況存在可能發(fā)生的階段了,且隨著T-φ時段不斷增長,直至T時段交通事故發(fā)生,用記號(ξ2)表示;過渡情況說明交通事故發(fā)生以后到正常情況之間的過渡交通狀況,用記號(ξ3),表示.具體如圖1所見.
Yu R., Abdel-Aty M與WANG L,ABDEL-ATY.M對交通事故預(yù)測采用了貝葉斯理論、logistic 回歸等方法對高速公路上實時交通數(shù)據(jù)處理,同時也證實了各種類型的交通情況,可以采用特定時間中的交通數(shù)據(jù)予以表征.下面,借由相對不變的道路信息和能實時采集的交通流數(shù)據(jù)對(ξ1)和(ξ2)進(jìn)行表征.各種交通情況的特點向量記為(1)式:
圖1 交通狀況劃分
Xi={Ti,Li,Ci,Wi,Fi}T,其中i=1,2,…,N
(1)
式中,T代表樣本數(shù)據(jù)記載時間,L代表樣本數(shù)據(jù)記載經(jīng)緯度地點,C代表記載時間的平均氣溫,W代表記載時間的天氣情況,天氣情況可以是晴天、雨天、下雪和霧天等天氣,F代表實時收集的交通流特點,交通流特點還包含在特定時段尺度Δt中的速度用(v)表示、占有率用(o)表示、車流量用(v)表示,最后式中的N表示的是樣本數(shù)量.這樣道路危險事故的實時預(yù)測就改變成對各種類型道路交通狀況的分門別類分析了,借助分類器p(x)對某時間段i的特征向量xi采取分類方法,以達(dá)到對該時間段交通危險事故的實時預(yù)測,其公式(2):
(2)
當(dāng)認(rèn)定x屬于ξ2也就確認(rèn)是危險交通情況,那么可以采取合理的辦法預(yù)防危險事故的發(fā)生.關(guān)于分類器的交通危險事故實時預(yù)測流程,如圖 2 所見.
圖2 實時交通危險事故預(yù)測流程
其具體流程如下:首先,全面收集交通事故及其有關(guān)的流量數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理,然后選擇合適特點變量樣本數(shù)據(jù),最后是利用樣本數(shù)據(jù)設(shè)計Adaboost分類器,并將該設(shè)計進(jìn)行實際應(yīng)用,并獲得實時數(shù)據(jù),以識別交通情況,實現(xiàn)對事故的預(yù)測[3].需要注意的是,隨著道路交通事故的數(shù)據(jù)增加,該設(shè)計在實際的應(yīng)用中可以動態(tài)調(diào)整特點變量并訓(xùn)練新的分類器,以實現(xiàn)對預(yù)測的準(zhǔn)確度提高.
道路交通數(shù)據(jù)收集包括交通事故數(shù)據(jù)和交通流數(shù)據(jù),但是在構(gòu)建的系統(tǒng)中,兩者的作用略有區(qū)別.雖然在開始設(shè)置分類器時均有發(fā)揮作用,但是在使用分類器時,只有交通流數(shù)據(jù)發(fā)揮作用.
將江西南昌二環(huán)路上2017年11月18日到11月28日的交通流數(shù)據(jù)和該時段中道路交通危險事故數(shù)據(jù)作為收集對象.在實際的道理交通流數(shù)據(jù)的收集過程中會收到環(huán)境、檢測工具故障等影響,使得記載的數(shù)據(jù)失去、數(shù)據(jù)時間點順序錯亂、數(shù)據(jù)精度發(fā)生偏差等錯誤或異?,F(xiàn)象.所以,為了確保數(shù)據(jù)的準(zhǔn)確度,在道路交通數(shù)據(jù)應(yīng)用之前就需要做到預(yù)處理.主要包括這些方面:一是參數(shù)的合理范圍和精度的設(shè)定.如車輛的平均速度的適宜范圍的設(shè)定,應(yīng)該是在 0速度與地點限定速度的1.5 倍范圍里,時間占有率的設(shè)定是 0 到100%.對出現(xiàn)不符合設(shè)定要求的數(shù)據(jù)要做好修正工作.二是每一組交通流數(shù)據(jù)的記載段檢驗,數(shù)據(jù)正確性會出現(xiàn)在 0到 719范圍,對出現(xiàn)亂序數(shù)據(jù)要求再一次排序修正,并對重復(fù)數(shù)據(jù)進(jìn)行刪除.三是丟失數(shù)據(jù)和其他異常數(shù)據(jù)要做好填補工作,填補工作可以根據(jù)數(shù)據(jù)多少,時間段的不同采取不一樣的估值,如果是個別數(shù)據(jù)出現(xiàn)異常,可應(yīng)用鄰近數(shù)據(jù)平均值進(jìn)行添加,若是某一段時間出現(xiàn)異常,可應(yīng)用同一時段的以往數(shù)據(jù)平均值進(jìn)行添加.
綜合考慮交通流數(shù)據(jù),將速度、占有率、車流量的平均值和標(biāo)準(zhǔn)差當(dāng)作備選特點.特點變量選取的對劃分正常交通狀態(tài)與危險交通情況影響非常大.選取不好對設(shè)計分類器會造成很大困難,選取合適可以很容易實現(xiàn)對兩種交通情況進(jìn)行分類.
2.2.1 道路交通情況特點選擇辦法
將正常交通狀態(tài)與危險交通情況進(jìn)行明顯區(qū)分是特點選擇的可分性判據(jù),也是特點選擇的準(zhǔn)則,采用Adaboost分類器的錯誤率作為準(zhǔn)則是最直接的方式.但是在交通事故實時預(yù)測中,因為正常交通情況和危險交通情況的樣本概率密度函數(shù)是未知的,從錯誤率來計算就行不通.這就需要采用與錯誤率有關(guān)聯(lián),且便于計算的準(zhǔn)則,而與錯誤率有密切關(guān)系的是概率密度函數(shù).概率密度函數(shù)可應(yīng)用關(guān)于概率分布的可分性判據(jù),根據(jù)交通狀況特點顯示密度的重疊大小預(yù)判其可分性.而聯(lián)合概率密度函數(shù)本身具有未知性,用Parzen 窗法對各候選特點的概率密度函數(shù)估算.整個流程如圖3所示.
圖3 特點選擇
2.2.2 Parzen窗密度函數(shù)推算
上文提到,概率密度函數(shù)可應(yīng)用關(guān)于概率分布的可分性判據(jù),但是對各種交通情況的樣本了解不全,其密度函數(shù)的形式也不可能事先給出,這就要應(yīng)用非參數(shù)估計法來推算各交通狀況各個維特點的概率密度函數(shù).具體是用Parzen 窗法予以推算:當(dāng)樣本數(shù)據(jù)從N →∞階段,利用Parzen 窗法予以推算,概率密度函數(shù)會約束到真實概率密度函數(shù)[4].Parzen窗推算方法有矩形窗和高斯窗,接下來,將采用使用頻率最高的高斯窗.在一維狀況下,高斯窗表達(dá)公式如下(3)所示:
(3)
采用高斯窗對道路交通狀況的幾個候選特點變量進(jìn)行推算,以獲取各候選特點的概率密度函數(shù).通過推算所得的最終概率密度函數(shù)如下(4)所示:
(4)
公式中:zΔt表示各種 Δt下速度、占有率、車流量的標(biāo)準(zhǔn)差或者平均值特點.需要注意的是計算獲得的結(jié)果是根據(jù)正常交通狀態(tài)(ξ1)與危險交通狀態(tài)(ξ2)實施分別推算,其獲得的結(jié)果表示為:p(z|ξ1),p(z|ξ2).
2.2.3 關(guān)于概率分布的可分性判據(jù)
概率分布的可分性判據(jù),通常需要分析交通中的正常情況(ξ1)與危險情況(ξ2)的概率分布間的交疊大小,以得到某一特點下兩種交通情況的可分程度.假設(shè)所有特點都是p(z|ξ1)=p(z|ξ2),說明兩種交通完全不可分.假設(shè)所有特點存在一類交通p(z|ξ1) ≠0,另一類交通p(z|ξ1)=0,說明兩種交通情況完全可分.對于概率分布間的交疊大小,可以采用p(z|ξ1),p(z|ξ2)兩者之間的距離來計算.由此,我們推知:各種距離函數(shù)只需符合非負(fù)、兩種不重疊時選最大值、兩種分布密度一樣時選零這些要求,都能用類分離性的概率距離計算.
同時分類中還有個很主要的距離計算,則是概率密度函數(shù)的似然比,后來,人們又在似然比的基礎(chǔ)上有所發(fā)展,將其定義為散度距離計算,如下(5)公式所示:
(5)
通過該公式計算獲得,當(dāng)JD越大,說明其可分性更好,接下來將運用散度度量作為概率距離的度量,利用JD式對各種Δt下 6 個特點的類條件密度依次計算,從而確定哪些特點在選定 Δt下越能反映各種交通狀態(tài)的差異.
AdaBoost算法是一類機(jī)器學(xué)習(xí)算法,是通過T個簡單的、精度比隨機(jī)猜測略好的粗糙推算(也就是為弱學(xué)習(xí)準(zhǔn)則h1,…,hT)以此構(gòu)建出一個精度高的估計.功能上就是把弱分類器增加成為強分類器,其強弱就是識別率高低[5].因為不需要弱學(xué)習(xí)器性能的先驗知識,使得AdaBoost 算法很方便的在實際問題中運用.但是在以往的AdaBoost級聯(lián)架構(gòu)中,是將一定數(shù)量的弱分類器簡單串聯(lián),同時弱分類器會存在一定的誤判概率,這樣會造成整個分類器的識別率差[6].針對以往AdaBoost算法問題,在對交通情況分類設(shè)計中,提出了一種關(guān)于樣本在權(quán)重中的分布來調(diào)整權(quán)重的方法,以達(dá)到緩解退化現(xiàn)象.
選擇的AdaBoost算法應(yīng)用在交通情況分類設(shè)計中,主要是利用分類器區(qū)分兩種交通狀態(tài),用0代表正常交通情況,用1代表危險交通情況,并用各種訓(xùn)練集訓(xùn)練多個弱分類器,將各分類器有序組合形成一個最終版強分類器[7].本研究主要采用分類和回歸決策樹(CART)的弱分類器對兩類交通情況進(jìn)行分類.當(dāng)特點變量選擇好以后,樣本數(shù)據(jù)就確定了,這時就可以訓(xùn)練弱分類器.但是在訓(xùn)練弱分類器的過程中要每次弱學(xué)習(xí)后再次改變樣本的空間分布,并再次改變整個樣本的權(quán)重,被錯誤分類和被正確分類的樣本權(quán)重分別對應(yīng)出現(xiàn)了增強和減弱的兩個極端分化,最終得到弱分類器的加權(quán)組合,其權(quán)值代表了弱分類器的功能.具體操作過程:
第一,開始訓(xùn)練樣本的權(quán)重,如(6)公式所示:ξi=1/N;i=1,2,…,N.
(6)
第二,采用加權(quán)獲得的樣本,在m次迭代構(gòu)建弱分類器fm(x),并在實施分類的同時,算出分類不正確率em,如(7)公式所示:令cm=lb((1-em)/em)
(7)
第三,樣本權(quán)值的更新,如(8)公式所示:令ξi=ξiexp〔cml(yi≠fmyi≠fm(xi))〕
(8)
歸一化使其公式如(9)所示:
(9)
其中如(10)公式所示:
(10)
第四,反復(fù)執(zhí)行第二、第三步驟,當(dāng)獲得最大迭代次數(shù)M停止.
第五,對于分類樣本x,分類器h(x)的輸出如(11)公式所示:
(11)
在完成分類器訓(xùn)練后,需開展實時樣本數(shù)據(jù)分類,從公式(2)可知,假設(shè)某一時間段被認(rèn)定成危險交通情況,則可采取切實有效的辦法以規(guī)避交通事故.在現(xiàn)實環(huán)境中,交通數(shù)據(jù)是持續(xù)累積增加的,因而需要對當(dāng)前收集的數(shù)據(jù)進(jìn)行處理,并對分類器進(jìn)行更新,達(dá)到動態(tài)調(diào)節(jié),增強分類的準(zhǔn)確度.
表1 各類特點最大散度距離
數(shù)據(jù)的準(zhǔn)備階段首先是要進(jìn)行數(shù)據(jù)的收集,地點是江西南昌二環(huán)路上2017年11月18日到11月28日的交通流數(shù)據(jù)和該時段中道路交通危險事故數(shù)據(jù),有159個固定檢測裝置,間隔時間2 min進(jìn)行一次記載.道路交通事故數(shù)據(jù)記載的是南昌市全部出現(xiàn)交通事故的地方和時間,對數(shù)據(jù)進(jìn)行預(yù)處理,獲取471 組正常道路交通數(shù)據(jù)和679 組危險道路交通數(shù)據(jù),每組數(shù)據(jù)涵蓋的信息也非常多,包括特點變量的時間、發(fā)生地點、平均氣溫和氣候狀況,同時還包含了每組數(shù)據(jù)中該地點車輛駛?cè)腭偝?4 個方向的交通流數(shù)據(jù),以及事故地點4個方向上 22 min 中的速度、占有率和車流量數(shù)據(jù).道路危險交通情況數(shù)據(jù)選擇的是事故發(fā)生時和前20 min內(nèi)的交通流數(shù)據(jù),正常交通情況數(shù)據(jù)選擇的是事故發(fā)生前 50 min 時和前 20 min 內(nèi)的交通流數(shù)據(jù).歸一化處理之后,從道路危險交通情況數(shù)據(jù)和正常交通情況數(shù)據(jù)中各自選擇了370 組數(shù)據(jù),共計 740 組數(shù)據(jù),并用作訓(xùn)練樣本,其余的410 組則用作成測試樣本.
首先是對候選特點估算,使用的是Parzen窗推算法實施概率條件密度估算,對各種類型道路交通情況特點類條件密度的散度距離進(jìn)行對比,以確定適當(dāng)?shù)臅r間尺度和特點.候選的道路交通流特點涵蓋了車輛駛?cè)?、駛?cè)?和駛出1、駛出2這幾個方向,以及各個方向上的 6 個變量.預(yù)選過程中,從 2 min 至22 min一起選定10 個時間尺度,分別對道路危險交通情況和正常交通情況進(jìn)行推算,總共有480次,最后對各種道路交通情況的散度距離計算.如表 1 所示.各類特點最大散度距離.
從表1中不難看出,標(biāo)準(zhǔn)差高于平均值,在各類交通情況下,道路交通流量數(shù)據(jù)平均值差異性小,對各類交通情況特點無法有效反應(yīng),所以需采用差異性大的標(biāo)準(zhǔn)差當(dāng)作特點變量,下面就是通過每個時間段尺度標(biāo)準(zhǔn)差特點推算獲得結(jié)果,如下圖4所示.
從圖4坐標(biāo)趨勢波動變化獲知,4個方向上在時間尺度上速度、占有率、車流量的選擇都不一樣.分別為:Δt1={2,2,2},Δt2={2,8,6},Δt3={2,2,4},Δt4={2,2,2}.基于上述結(jié)果,依次提取訓(xùn)練樣本和測試樣本,繼而算出標(biāo)準(zhǔn)差特點.
分類利用的是AdaBoost 分類器,以實現(xiàn)對測試樣本的分類,而測試樣本里面ξ1的樣本數(shù)是151 組,ξ2樣本數(shù)是 172 組,獲得的分類結(jié)果如表2可知.
從表2獲知,分類器最大迭代次數(shù)不斷增加,雖然分類結(jié)果會不同,但是到達(dá)一定的迭代次數(shù)后,分類結(jié)果會收斂.平均值特點收斂是在迭代次數(shù)3 000階段,標(biāo)準(zhǔn)差特點收斂是在迭代次數(shù)3 600階段.兩者相比較,標(biāo)準(zhǔn)差特點分類結(jié)果較好,可見所選特點較為符合實際.其中,危險交通情況的分類正確率是67%,正常交通情況的正確率是56.1%,總正確率比平均值特點的正確率要高8.1%.
圖4 各時間段尺度標(biāo)準(zhǔn)差特點散度距離
特點迭代次數(shù)ξ,錯誤分類數(shù)誤警率/%ξ,錯誤分類數(shù)漏報率/%總錯誤率/%平均值標(biāo)準(zhǔn)差1 0008056.06942.648.92 0007753.86942.647.93 0007552.46741.446.64 0007552.46741.446.62 0007049.06439.543.93 0006847.65936.441.63 6006344.15534.038.74 0006344.15534.038.7
通過以上實驗,得出利用AdaBoost算法預(yù)測道路交通事故的發(fā)生是可行的,必須要注意的是當(dāng)訓(xùn)練數(shù)據(jù)變多,則訓(xùn)練分類器過程中,其迭代次數(shù)也相應(yīng)地變多,訓(xùn)練時間亦隨之變大,這就需要做好訓(xùn)練分類器,以最大限度地減少每個測試樣本分類結(jié)果的輸送出時間.通過以上研究發(fā)現(xiàn),我們可以獲得410個測試樣本的平均輸送出時間是15.225 s,其中每個樣本是48 ms.所以在道路交通實時預(yù)測中,可采用任何時間段更新的以往數(shù)據(jù)訓(xùn)練分類器,將計算后的實時采集的相關(guān)數(shù)據(jù)輸送至分類器,就可以實現(xiàn)對道路交通危險結(jié)果的及時預(yù)測.
在研究中發(fā)現(xiàn):特點變量選擇有著非常重要的作用.在今后的實驗中,還可將交通情況更多的影響要素加入到交通情況特點變量中,以進(jìn)一步提升道路交通分類預(yù)測的準(zhǔn)確性,從而實現(xiàn)更有效的道路交通危險預(yù)測.