劉慶芳 ,成 衛(wèi) ,雷建明 LIU Qingfang, CHENG Wei, LEI Jianming
(1. 昆明理工大學(xué) 交通工程學(xué)院,云南 昆明 650504;2. 玉溪市公安局交通警察支隊(duì),云南 玉溪 653100)
(1. School of Traffic Engineering, Kunming University of Science and Technology, Kunming 650504, China; 2. Traffic Police Detachment of Yuxi Public Security Bureau, Yuxi 653100, China)
近年來(lái),隨著我國(guó)人均汽車(chē)保有量以及城市基礎(chǔ)建設(shè)工程數(shù)量的迅速增長(zhǎng),城市交通事故日益頻發(fā)。道路交通安全管理不僅是城市智能化交通管理平臺(tái)建設(shè)的重點(diǎn)工作內(nèi)容,同時(shí)也與國(guó)民的人身財(cái)產(chǎn)安全息息相關(guān)。為了城市道路交通進(jìn)一步安全、快速的發(fā)展,如何采取科學(xué)的方法來(lái)減少城市道路交通事故的發(fā)生以及最大限度地降低事故嚴(yán)重程度,是值得每一位城市交通安全管理人員認(rèn)真思考的。
通過(guò)對(duì)國(guó)內(nèi)外學(xué)者在交通事故嚴(yán)重程度影響因素方面的研究分析后得知,目前主要有以下兩大方面的方法:第一種,基于經(jīng)典的統(tǒng)計(jì)模型方法[1-5]進(jìn)行研究,其中運(yùn)用比較多的有各類(lèi)Logit 模型及其改進(jìn)模型、主成分分析法等。第二種,便是基于機(jī)器學(xué)習(xí)的智能算法,例如支持向量機(jī)模型[6-7]、決策樹(shù)模型[8]、神經(jīng)網(wǎng)絡(luò)模型[9]等。2004 年Hang G B[10]提出了一種新的前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法——極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)。ELM 結(jié)構(gòu)簡(jiǎn)單,并具有良好的泛化能力,它只要獲得隱藏層和輸出層之間的權(quán)重系數(shù)(或連接系數(shù)),并據(jù)此構(gòu)建參數(shù)模型,就可以實(shí)現(xiàn)分類(lèi)的目的,該方法目前已經(jīng)成功的應(yīng)用于食品檢測(cè)、故障監(jiān)測(cè)、交通事故預(yù)測(cè)[11-12]以及圖像處理等領(lǐng)域。
對(duì)以上已有研究總結(jié)分析后可以看出,國(guó)內(nèi)外學(xué)者大都采用經(jīng)典的統(tǒng)計(jì)模型方法來(lái)進(jìn)行辨識(shí),機(jī)器學(xué)習(xí)算法中雖然已經(jīng)有很多得到了應(yīng)用,但是基于機(jī)器學(xué)習(xí)算法缺點(diǎn)改進(jìn)后的模型應(yīng)用并不是很多。對(duì)于本文所選用的極限學(xué)習(xí)機(jī),在其原始模式下,隱藏層的節(jié)點(diǎn)數(shù)、隱藏層的隨機(jī)輸入?yún)?shù)以及數(shù)據(jù)噪聲會(huì)對(duì)預(yù)測(cè)精度造成影響,通過(guò)最小二乘調(diào)整的輸出權(quán)重往往會(huì)夸大離群點(diǎn)和噪聲的影響。針對(duì)以上缺點(diǎn),國(guó)內(nèi)一部分學(xué)者[13-14]通過(guò)引入各種算法來(lái)優(yōu)化改進(jìn)極限學(xué)習(xí)機(jī),例如量子遺傳算法等?;谝陨涎芯砍晒?,本文在2015~2017 年某市城市道路交通事故統(tǒng)計(jì)報(bào)告的基礎(chǔ)上,提取可用的樣本數(shù)據(jù)集,然后對(duì)預(yù)測(cè)模型影響因素進(jìn)行量化,包括時(shí)間因素、環(huán)境因素、駕駛員因素這幾個(gè)方面共14 個(gè)影響因素。將交通事故樣本數(shù)據(jù)集進(jìn)行三分類(lèi),分別基于D-ELM、ELM 以及核極限學(xué)習(xí)機(jī)(K-ELM)[15]建立交通事故嚴(yán)重程度影響因素辨識(shí)模型進(jìn)行對(duì)比分析。同時(shí),根據(jù)模型所得到的影響因素制定相應(yīng)的安全管理措施。
2004 年,南洋理工大學(xué)Huang G B 教授提出了ELM 分類(lèi)算法,它是在傳統(tǒng)的單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN) 基礎(chǔ)上演變來(lái)的[10],在它的訓(xùn)練過(guò)程中輸入層的權(quán)值和偏差是隨機(jī)輸入的,而輸出層的權(quán)重是經(jīng)過(guò)廣義逆矩陣?yán)碚撚?jì)算得到的。當(dāng)所有網(wǎng)絡(luò)節(jié)點(diǎn)上的權(quán)值和偏差都獲得后,ELM 的訓(xùn)練過(guò)程就結(jié)束了。然后,把測(cè)試集的數(shù)據(jù)輸入,利用已經(jīng)訓(xùn)練好的輸出層的權(quán)重便可以把網(wǎng)絡(luò)輸出計(jì)算出來(lái),從而數(shù)據(jù)的預(yù)測(cè)便完成了。極限學(xué)習(xí)機(jī)的學(xué)習(xí)算法具體如下所示:
對(duì)于 N 個(gè)隨機(jī)樣本 (xi, ti),其中 xi= [xi1,xi2,…,xin]T∈Rn, ti= [ti1,ti2,…,tim]T∈Rm。對(duì)于有L 個(gè)隱層節(jié)點(diǎn)的單隱層神經(jīng)網(wǎng)絡(luò)可以表示為:
式中:β 是隱含層和輸出層之間的權(quán)值,ξ 是輸出誤差,C 是訓(xùn)練誤差的懲罰因子,H 是隱含層的輸出矩陣,T 是類(lèi)別標(biāo)簽,x 是樣本。
在ELM 分類(lèi)過(guò)程中,輸出函數(shù)被分為兩類(lèi):
(1) 當(dāng)訓(xùn)練樣本較少,輸出函數(shù)可以表示為:
式中:I 是辨識(shí)矩陣。
(2) 當(dāng)訓(xùn)練樣本數(shù)目過(guò)多,遠(yuǎn)遠(yuǎn)大于特征個(gè)數(shù)時(shí),輸出函數(shù)可以表示為:
D-ELM 算法的主要原理如下:
在傳統(tǒng)的 ELM 中,類(lèi)別標(biāo)簽可以表示為 ti= [-1,…,+1,…,-1 ]∈Rc,c 是類(lèi)別數(shù)目,+1 的位置代表該樣本所為類(lèi)別。在此過(guò)程中,把辨識(shí)因子A 矩陣提出去擴(kuò)展類(lèi)別間距離,使其值恒大于0。同時(shí),引入一個(gè)協(xié)同矩陣Z,假設(shè)當(dāng)Tij=1,Zij=1,或者當(dāng) Tij=-1,Zij=-1。
D-ELM 具體的算法過(guò)程,以本文的三分類(lèi)為例,表1 為改進(jìn)后D-ELM 的擴(kuò)展形式,辨識(shí)因子和協(xié)同矩陣的作用關(guān)系可以用哈達(dá)瑪積形式進(jìn)行表示,表示形式如公式(5):
在引入?yún)f(xié)同矩陣和辨識(shí)因子之前,前兩個(gè)隱含層的輸出形式可以表示為:
在引入之后,距離可以表示為:
表1 D-ELM 的擴(kuò)展形式
因此,最優(yōu)化問(wèn)題可以轉(zhuǎn)化為:
設(shè)W=T+Z⊙A,最優(yōu)化問(wèn)題可以表示為:
在給定β 后,最優(yōu)化問(wèn)題可以表示為:
設(shè)U=Hβ-T,公式(11) 可以表示為:
根據(jù)哈達(dá)瑪積的計(jì)算形式,公式(12) 可以轉(zhuǎn)換元素相乘形式,可以表示為:
最優(yōu)化問(wèn)題進(jìn)一步轉(zhuǎn)化為:
由于 Aij>0,因此:
當(dāng)最優(yōu)β 和A 被獲得,輸出函數(shù)可以表述為:
為了優(yōu)化A 和β,設(shè)目標(biāo)誤差為10-4,當(dāng):
獲得最優(yōu)參數(shù)。式中:k 為迭代次數(shù),最大值為50。因此,W 被轉(zhuǎn)換為W'=T+Z⊙A,輸出函數(shù)可以表示為:
通過(guò)將D-ELM 作為道路交通事故嚴(yán)重程度三分類(lèi)的分類(lèi)器,利用GA 來(lái)進(jìn)行因素辨識(shí)從而構(gòu)建GA-D-ELM 模型,具體過(guò)程如下:
(1) 采用二進(jìn)制編碼方式,其中因素?cái)?shù)與染色體數(shù)一樣長(zhǎng)。fi(i=1,2,…,n )表示第n 個(gè)的選擇狀態(tài),用1 表示因素被選,0表示沒(méi)有被選。
(2) 根據(jù)解空間的大小合理設(shè)置初始種群,最大程度上保證包含影響因素集的各種解。
(3) 利用公式(20) 構(gòu)建適應(yīng)度函數(shù),利用它計(jì)算初始種群中每個(gè)個(gè)體的適應(yīng)度,進(jìn)行排序。即先將初始種群的個(gè)體由基因型表達(dá)方式轉(zhuǎn)變?yōu)楸憩F(xiàn)型方式;再通過(guò)所選擇的模型影響因素集,帶入數(shù)據(jù)訓(xùn)練樣本中,利用D-ELM 對(duì)數(shù)據(jù)進(jìn)行分類(lèi),通過(guò)測(cè)試數(shù)據(jù)樣本計(jì)算分類(lèi)精確度;最后,通過(guò)分類(lèi)精確度及選擇的影響因素個(gè)數(shù)來(lái)計(jì)算各個(gè)個(gè)體的適應(yīng)度值。
式中:fitness 表示適應(yīng)度,ω1表示分類(lèi)精度權(quán)重;ω2表示所選因素?cái)?shù)權(quán)重;accuracy 表示分類(lèi)精度。ω1與ω2的值可以根據(jù)實(shí)際情況進(jìn)行調(diào)整,本文假設(shè)ω1=0.8, ω2=0.2。
(4) 根據(jù)適應(yīng)度值排序結(jié)果,從高到低地挑選足夠數(shù)量的優(yōu)秀個(gè)體,直接到下一代。對(duì)最優(yōu)個(gè)體的適應(yīng)度進(jìn)行評(píng)判,達(dá)到設(shè)定判斷值就停止進(jìn)化,沒(méi)有則通過(guò)其他方式繼續(xù)優(yōu)化,計(jì)算下一代種群。
(5) 利用步驟(3) 的方法,計(jì)算新的一代中各個(gè)個(gè)體的適應(yīng)度,并找出適應(yīng)度最佳的個(gè)體。一直重復(fù)以上操作,直到某一代中的最佳個(gè)體適應(yīng)度值在一定的范圍內(nèi)不再變化,終止種群進(jìn)化,從而得到最理想的影響因素集。
根據(jù)某市2015~2017 年城市道路交通事故報(bào)告,為了獲取完整、可靠的事故數(shù)據(jù),本著完整性、隨機(jī)性、權(quán)威性三個(gè)原則,對(duì)這份報(bào)告中的數(shù)據(jù)進(jìn)行篩選,最終獲得了共1 800 條可用樣本數(shù)據(jù)。
本文為了計(jì)算和說(shuō)明的簡(jiǎn)便,將城市道路交通事故嚴(yán)重程度劃分為三類(lèi),即為一般事故、重大事故、特大事故,一般事故包括輕微事故和一般事故。在以前關(guān)于城市道路交通事故嚴(yán)重程度影響因素的研究基礎(chǔ)上,結(jié)合搜集到的事故調(diào)查報(bào)告中記錄的信息完整程度,構(gòu)建包括時(shí)間因素、環(huán)境因素、駕駛員因素共三個(gè)方面14 個(gè)變量的模型影響因素集,如表2 所示。采取阿拉伯?dāng)?shù)字編碼制記錄事故變量信息,以“時(shí)間因素”中的季節(jié)變量為例,1~4 分別表示春季、夏季、秋季、冬季。
表2 模型影響因素及量化說(shuō)明
當(dāng)某個(gè)自變量有k (k> 2 )個(gè)分類(lèi)時(shí),在模型中引入(k- 1 )個(gè)虛擬變量,將變量變?yōu)?-1 變量。以環(huán)境因素中的照明條件的變量為例,變量分為4 類(lèi),需要引入3 個(gè)虛擬變量,如表3 所示。
表3 照明條件的虛擬變量
為了對(duì)比改進(jìn)后的GA-D-ELM 的辨識(shí)性能,本文用基于傳統(tǒng)極限學(xué)習(xí)機(jī)以及核極限學(xué)習(xí)機(jī)理論的GA-ELM、GA-K-ELM模型進(jìn)行對(duì)比分析。在這1 800 條數(shù)據(jù)中,三種不同的交通事故數(shù)據(jù)各有600 條。按2∶1 的比例將事故數(shù)據(jù)隨機(jī)地劃分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,即在三種不同的道路交通事故類(lèi)型數(shù)據(jù)中,每種都隨機(jī)選擇其中400 個(gè)樣本作為訓(xùn)練集,剩余的200 個(gè)作為預(yù)測(cè)集。在各類(lèi)ELM 分類(lèi)過(guò)程中,懲罰項(xiàng)C 和隱含層神經(jīng)元個(gè)數(shù)L 是影響分類(lèi)性能的兩個(gè)重要參數(shù),所以本文對(duì)C 和L的取值進(jìn)行參數(shù)搜索,其中C 是以0.02 為間隔在區(qū)間 [0.0 2 ,100 ]的范圍內(nèi)進(jìn)行搜索,L 以2 為間隔在區(qū)間 [2,10 0 ]范圍內(nèi)進(jìn)行搜索。為了消除隨機(jī)性的影響,每個(gè)模型運(yùn)行20 次,取20 次的平均值作為最終的分類(lèi)準(zhǔn)確率,在取得最佳準(zhǔn)確度的基礎(chǔ)上,將D-ELM、K-ELM、ELM 中的神經(jīng)元個(gè)數(shù)L 分別取值為5、8、10。
在GA-D-ELM、GA-ELM、GA-K-ELM 辨識(shí)模型里,令初始種群數(shù)量為50,個(gè)體適應(yīng)度判斷閥值為0.8,實(shí)驗(yàn)證明,迭代50 次后最佳適應(yīng)度基本不發(fā)生變化,故最大進(jìn)化代數(shù)為50。
采用Matlab 軟件來(lái)實(shí)現(xiàn)上述算法過(guò)程,最終得到的辨識(shí)因素和分類(lèi)準(zhǔn)確率等如表4 所示:
表4 模型辨識(shí)因素結(jié)果及分類(lèi)準(zhǔn)確率
綜上,在對(duì)三種辨識(shí)模型進(jìn)行對(duì)比分析后,可以看出改進(jìn)后的GA-D-ELM 要比GA-ELM、GA-K-ELM 辨識(shí)性能好。
首先,通過(guò)在ELM 的類(lèi)別標(biāo)簽中,把辯識(shí)因子矩陣提出去擴(kuò)展類(lèi)別間距離,再引入?yún)f(xié)同矩陣,從而構(gòu)建出D-ELM;其次,通過(guò)GA-D-ELM、GA-ELM、GA-K-ELM 三種模型的對(duì)比分析,結(jié)果顯示:GA-D-ELM 模型可以識(shí)別出數(shù)量更為精簡(jiǎn)的影響因子個(gè)數(shù),極大程度上提高了分類(lèi)的準(zhǔn)確率。最后,由于本文是通過(guò)歷史統(tǒng)計(jì)數(shù)據(jù)進(jìn)行的研究分析,所以很多數(shù)據(jù)內(nèi)容記錄不全,許多影響因素并沒(méi)有加入模型中進(jìn)行考慮,例如人車(chē)事故中的行人年齡、學(xué)歷以及車(chē)輛自身問(wèn)題等。接下來(lái)的研究中應(yīng)當(dāng)擴(kuò)大實(shí)驗(yàn)樣本的數(shù)量,從而對(duì)城市交通事故嚴(yán)重程度的影響因素進(jìn)行更為全面的研究,使結(jié)果更加準(zhǔn)確。