金宇,王曉峰
(上海海事大學(xué)信息工程學(xué)院,上海201306)
隨著我國(guó)經(jīng)濟(jì)的發(fā)展以及汽車保有量的增加,交通事故頻繁發(fā)生,交通安全問(wèn)題也越來(lái)越受到人們的重視,交通事故的發(fā)生雖然具有很大的偶然性和隨機(jī)性,但其內(nèi)在還是主要受到人、車、環(huán)境等因素的共同作用,通過(guò)對(duì)過(guò)往的數(shù)據(jù)來(lái)分析影響交通事故嚴(yán)重程度的因素,可以對(duì)以后道路安全駕駛起到良好的指引作用,為采取措施提供理論依據(jù)。
針對(duì)交通事故方面的研究,國(guó)內(nèi)外許多學(xué)者都進(jìn)入深入的研究,如苑春苗[3]提出了基于BP神經(jīng)網(wǎng)絡(luò)的交通事故分析,并用靈敏度方法研究交通事故因素和嚴(yán)重程度的關(guān)系,孫軼軒[2]通過(guò)數(shù)據(jù)挖掘的方法對(duì)道路交通事故的致因機(jī)理進(jìn)行分析,運(yùn)用決策樹(shù)對(duì)交通事故進(jìn)行了分類研究,建立了事故嚴(yán)重程度模型,AliTava?koliKashani[6]利用分類和回歸樹(shù)模型,假定交通事故的獨(dú)立變量和非獨(dú)立變量沒(méi)有關(guān)系,從而得出影響交通事故嚴(yán)重程度最重要的獨(dú)立變量,并得到在兩車道和三車道中,未系安全帶是影響嚴(yán)重程度最重要的因素。Caner Erden和Numan?elebi[5]利用粗糙集產(chǎn)生的決策規(guī)則來(lái)分析交通事故原因之間的聯(lián)系,大部分都是通過(guò)對(duì)事故表象的單因素進(jìn)行孤立的分析,但是交通事故是多方面共同作用的結(jié)果,并且各個(gè)因素之間可能也是相互關(guān)聯(lián)的,而貝葉斯網(wǎng)絡(luò)能夠全面地揭示各個(gè)因素對(duì)交通事故的影響,以及各個(gè)影響因素之間的聯(lián)系,更適用于交通事故方面的研究。
貝葉斯網(wǎng)絡(luò)是把某個(gè)系統(tǒng)中涉及到的隨機(jī)變量,根據(jù)是否條件獨(dú)立繪制在一個(gè)有向無(wú)環(huán)圖中,是一種概率圖模型,根據(jù)概率圖的拓?fù)浣Y(jié)構(gòu),考查一組隨機(jī)變量及n組條件概率分布。貝葉斯的有向無(wú)環(huán)圖的節(jié)點(diǎn)表示隨機(jī)變量,連接兩個(gè)節(jié)點(diǎn)的邊表示兩個(gè)隨機(jī)變量的條件依賴關(guān)系。貝葉斯公式便是貝葉斯網(wǎng)絡(luò)的基礎(chǔ),由條件概率公式和全概率公式可以得到。
貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)就是從給定的數(shù)據(jù)中學(xué)習(xí)出貝葉斯網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)之間的關(guān)系,只有確定了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)才能繼續(xù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的參數(shù),目前常用的貝葉斯結(jié)構(gòu)學(xué)習(xí)方法有以下幾種:K2算法、爬山法、模擬退火算法,以及抽樣算法等。其中MCMC抽樣方法是源于統(tǒng)計(jì)物理學(xué)和生物學(xué)的一類重要的隨機(jī)抽樣算法,MH抽樣算法是MCMC方法中常用的抽樣算法之一,Madigan等人將MH算法首次引進(jìn)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí),該算法首先要構(gòu)建一條馬爾可夫鏈,模擬一個(gè)收斂于玻爾茲曼的分布,基于“拒絕采樣”來(lái)接近平穩(wěn)分布p,算法每次根據(jù)上一輪的采樣結(jié)果xt-1來(lái)獲取候選樣本x*,但是候選樣本會(huì)有一定的概率不被接受,假定從xt-1到 x*的轉(zhuǎn)移概率為,其中是預(yù)先知道的先驗(yàn)概率,是xt被接受的概率,當(dāng)達(dá)到平穩(wěn)狀態(tài)p時(shí)有因此設(shè)置轉(zhuǎn)移概率能夠使馬爾可夫鏈達(dá)到平穩(wěn)過(guò)程。
Metropolis-Hastings算法
輸入:先驗(yàn)概率Q(x*|xt-1)
1. 初始化x0
2. for t=1,2...do
3. 根據(jù)先驗(yàn)概率選出候選樣本
4. 從均勻分布(0,1)范圍選出閾值
5. ifu≤A(x*|xt-1)then
6. xt=x*
7. else xt=xt-1
8. end if
9. end for
10.返回采樣出的樣本序列x1,x2,…,xn
貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)是在貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)知道的情況下,基于數(shù)據(jù)對(duì)網(wǎng)絡(luò)中的各個(gè)屬性進(jìn)行條件概率的計(jì)算,目前參數(shù)學(xué)習(xí)的主要方法有貝葉斯估計(jì)法和最大似然估計(jì)法,兩種估計(jì)方法都要滿足樣本是獨(dú)立同分布的,兩者不同之處在于貝葉斯估計(jì)還利用了參數(shù)的先驗(yàn)知識(shí),通過(guò)先驗(yàn)概率得到參數(shù)的估計(jì)值,理論上比極大似然估計(jì)更準(zhǔn)確,貝葉斯估計(jì)的基本思想是:給定完整的數(shù)據(jù)集d和一個(gè)含有未知參數(shù)的分布,θ是有先驗(yàn)分布p(θ)的隨機(jī)變量,則p(θ|d)是θ的后驗(yàn)概率,而貝葉斯參數(shù)學(xué)習(xí)的就是p(θ|d),因?yàn)镈irichlet分布的共軛性可以減少計(jì)算的復(fù)雜度,所以p(θ)通常都使用Dirichlet分布。
所以參數(shù)θ的后驗(yàn)分布為:
本文的數(shù)據(jù)集來(lái)源于美國(guó)阿勒格尼縣2014年到2016年的82913條交通事故,表中屬性有受傷人數(shù)、是否有死亡、車輛類型、發(fā)生時(shí)間、光照強(qiáng)度、天氣狀況、路面狀況、碰撞地點(diǎn)、道路類型、是否飲酒、交通控制方式、是否撥打手機(jī)、是否為節(jié)假日、路口類型、碰撞車輛數(shù)目、首先對(duì)數(shù)據(jù)進(jìn)行篩選,并對(duì)交通事故發(fā)生的層面進(jìn)行多維度的分析,發(fā)現(xiàn)交通事故發(fā)生的原因主要集中在人為因素、環(huán)境因素和車輛因素等,理論上來(lái)說(shuō)選取的屬性變量的越多,建模得到的結(jié)果更接近交通事故分析的機(jī)理,但是屬性變量的增多會(huì)增加建模的分析難度,為了平衡建模復(fù)雜度和預(yù)測(cè)精度的關(guān)系,經(jīng)過(guò)初步篩選,本文選取受傷人數(shù)和是否有人死亡作為決策變量,其他因素設(shè)置為屬性變量,給不同的屬性的不同取值設(shè)置編碼,為了符合建模要求,也將一些連續(xù)型的屬性處理成離散變量,詳細(xì)的編碼情況如下表所示,其中每一個(gè)屬性名稱都對(duì)應(yīng)貝葉斯網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)。
表1 事故因素編碼表
基于MCMC算法,應(yīng)用MATLAB的Full-BNT工具箱進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí),首先導(dǎo)入事故的數(shù)據(jù)集,經(jīng)過(guò)貝葉斯結(jié)構(gòu)學(xué)習(xí)得到各個(gè)屬性的關(guān)聯(lián)矩陣,再對(duì)屬性進(jìn)行篩選,根據(jù)關(guān)聯(lián)矩陣?yán)L制出各個(gè)屬性之間的關(guān)系,最終確定了貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),屬性之間的關(guān)系如圖1所示。
圖1 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖
1-是否用手機(jī)2-是否飲酒3-是否工作日4-光照條件5-路口類型6-碰撞地點(diǎn)類型7-路面狀況8-道路類型9-交通方式10-天氣11-車輛數(shù)12-受傷人數(shù)13-是否有死亡
已經(jīng)得到貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),就可以應(yīng)用貝葉斯估計(jì)對(duì)貝葉斯網(wǎng)絡(luò)進(jìn)行參數(shù)學(xué)習(xí),因?yàn)樗劳鋈藬?shù)與受傷人數(shù)的關(guān)聯(lián)比較大,所以本文主要分析了受傷人數(shù)以及是車輛碰撞數(shù)目?jī)蓚€(gè)變量的參數(shù)學(xué)習(xí)效果。
表2 受傷人數(shù)與天氣之間的條件概率
首先分析的是交通事故受傷人數(shù)與天氣狀況之間的關(guān)系,也對(duì)比了貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的結(jié)果和實(shí)際結(jié)果,可以發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)具有很高的精確度,依據(jù)表2可以發(fā)現(xiàn),天氣狀況良好時(shí),并且發(fā)生交通事故時(shí),沒(méi)有人受傷的概率是最小的,當(dāng)天氣為下雪時(shí),發(fā)生事故受傷比例越少,也從側(cè)面反映出當(dāng)天氣狀況惡劣時(shí),人們更注意自己的行車安全,從而發(fā)生事故時(shí),相應(yīng)的損失也會(huì)更少。
表3 道路類型、交通控制、車輛碰撞數(shù)目的條件概率
由表3可知,在道路類型一定情況下,當(dāng)有交通控制時(shí),雖然交通事故的數(shù)目減少,但是發(fā)生兩車碰撞的概率增加,單機(jī)動(dòng)車發(fā)生事故的幾率大大減少,在交通控制一定的情況下,在國(guó)道和省道發(fā)生大型交通事故的可能性更大,這也符合人們一般的經(jīng)驗(yàn)常識(shí),因此在國(guó)道和省道上行駛的車輛數(shù)目更多,應(yīng)當(dāng)更加注意交通控制的方式,減少事故發(fā)生的概率。
本文通過(guò)對(duì)以往歷史交通事故數(shù)據(jù)進(jìn)行分析,得出交通事故是環(huán)境-人-車輛-道路多種因素共同作用的結(jié)果,通過(guò)多方面的分析和MCMC算法,選取合適的屬性,建立貝葉斯模型,用有向無(wú)環(huán)圖形象表示和挖掘出各個(gè)屬性之間的聯(lián)系,使之更符合人的思維特征和推理形式,體現(xiàn)了各個(gè)屬性之間的層次關(guān)系,對(duì)交通事故進(jìn)行分析只是保證安全出行的一方面,更需要交管部門(mén)的監(jiān)管和駕駛員自身安全意識(shí)的提高,通過(guò)本文的分析,對(duì)以后指導(dǎo)交通駕駛和安全出行都提供了很好的借鑒意義。