周 洲,周林英,張立成,郝茹茹
(長(zhǎng)安大學(xué) 信息工程學(xué)院,西安710064)
隨著我國(guó)交通行業(yè)的快速發(fā)展,高速公路的大力建設(shè)在產(chǎn)生巨大的經(jīng)濟(jì)和社會(huì)效益的同時(shí),也帶來(lái)了不斷加劇的交通擁擠以及不斷增加的交通事故,這成為了高速公路日常運(yùn)營(yíng)管理中的一大難題.加強(qiáng)對(duì)高速公路事件檢測(cè)算法的研究,提高高速公路事件檢測(cè)的準(zhǔn)確性,使管理部門能夠?qū)Ω咚俟吠话l(fā)事件進(jìn)行及時(shí)的處理和管控,最大限度的確保人員和車輛安全,提高高速公路的運(yùn)營(yíng)效率,充分發(fā)揮高速公路的優(yōu)越性.
與傳統(tǒng)的高速公路事件檢測(cè)理論相比,SVM理論是以統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理為基礎(chǔ)的 學(xué)習(xí)模型,具有數(shù)學(xué)公式簡(jiǎn)潔、幾何解釋直觀、泛化能力良好、能夠有效避免局部最優(yōu)解等優(yōu)點(diǎn).因此,利用SVM解決高速公路事件檢測(cè)中普遍所存在的事件樣本少、樣本采集困難、檢測(cè)效果不夠理想等問(wèn)題具有良好的應(yīng)用[1-9].
SVM可分為SVM,線性不可分SVM,非線性可分SVM三種類型.其核心思想是根據(jù)最大間隔原則求得最優(yōu)分類面,從而判斷任意輸入所屬的類別.線性不可分SVM需要優(yōu)化懲罰參數(shù)C,對(duì)于非線性可分SVM,選擇不同的核函數(shù),可構(gòu)成不同的支持向量機(jī).目前,在分類問(wèn)題方面常用的核函數(shù)主要有
1)多項(xiàng)式函數(shù)核函數(shù):K(x,xj)= ((x·xi)+coefo2,(coefo≥0,d)為階數(shù),d∈ N.特別地,當(dāng)coef0=0時(shí)為齊次多項(xiàng)式核函數(shù).
2)高斯徑向基核函數(shù)
<k(x,xi)=exp(-r‖x-xi‖2,r>0
3)雙曲線正切核函數(shù)
<k(x,xi)=tanh(r(x,xi)+c),r>0
基于支持向量的事件檢測(cè)算法流程如圖1所示.
① 數(shù)據(jù)準(zhǔn)備階段:包括交通數(shù)據(jù)選取、交通數(shù)據(jù)采集、數(shù)據(jù)優(yōu)化處理等過(guò)程,并將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分.
②SVM核函數(shù)模型選擇階段:選擇不同的SVM核函數(shù)模型,根據(jù)相對(duì)應(yīng)的數(shù)據(jù)空間,利用特定的算法找出各個(gè)核函數(shù)模型所對(duì)應(yīng)的最優(yōu)參數(shù),利用訓(xùn)練數(shù)據(jù)集分別對(duì)不同的SVM核函數(shù)模型進(jìn)行訓(xùn)練.
③測(cè)試階段:利用測(cè)試數(shù)據(jù)集對(duì)訓(xùn)練好的SVM模型進(jìn)行測(cè)試,如果測(cè)試結(jié)果達(dá)到預(yù)先設(shè)定的條件,測(cè)試結(jié)束.否則,返回第②步,重新進(jìn)行參數(shù)優(yōu)化確定模型,并重新訓(xùn)練.
選擇上游檢測(cè)點(diǎn)t、t-1、t-2、t-3、t-4時(shí)刻測(cè)得的流量、速度和占有率以及下游檢測(cè)點(diǎn)t、t-1、t-2時(shí)刻測(cè)得的流量、速度和占有率作為SVM的輸入,因此SVM有24個(gè)輸入向量.用“+1”標(biāo)識(shí)有事件發(fā)生的特征向量,用“-1”標(biāo)識(shí)無(wú)事件發(fā)生的特征向量.同時(shí),定義當(dāng)輸出節(jié)點(diǎn)數(shù)為1個(gè),輸出值為“+1”時(shí),代表有事件狀態(tài),輸出值為“-1”時(shí),代表無(wú)事件狀態(tài).
圖1 基于SVM的事件檢測(cè)算法工作步驟Fig.1 Main workflow of the incident detection algorithm based on SVM
本文采用美國(guó)加利福尼亞州I-880數(shù)據(jù)庫(kù)[10]作為交通數(shù)據(jù)來(lái)源,I-880數(shù)據(jù)庫(kù)是美國(guó)Berkeley大學(xué)《Freeway Service Patrol Project》項(xiàng)目所采集的交通流數(shù)據(jù).采集路段為美國(guó)加利福尼亞州Hayward的I-880高速公路,該路段全長(zhǎng)9.41英里,車道數(shù)為3~5個(gè),向北方向車道共埋設(shè)環(huán)形線圈18組,向南方向車道共埋設(shè)環(huán)形線圈17組.數(shù)據(jù)庫(kù)的原始數(shù)據(jù)主要包括環(huán)形線圈數(shù)據(jù)集、浮動(dòng)車數(shù)據(jù)集和交通事件數(shù)據(jù)集三部分.
不同的SVM模型、不同的核函數(shù)及其參數(shù)都會(huì)對(duì)算法的性能指標(biāo)產(chǎn)生影響[11-12],本文分別采用線性不可分SVM、齊次多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)和雙曲線正切核函數(shù)等4種不同的SVM模型對(duì)事件檢測(cè)算法進(jìn)行仿真分析,同時(shí)與經(jīng)典的加利福尼亞算法進(jìn)行對(duì)比.針對(duì)不同的核函數(shù),需要對(duì)其相應(yīng)的參數(shù)進(jìn)行優(yōu)化設(shè)定,本文采用網(wǎng)格搜索算法分別對(duì)多項(xiàng)式核函數(shù)的階數(shù),高斯徑向基核函數(shù)中的參數(shù),以及雙曲線正切核函數(shù)中函數(shù)的參數(shù)和等參數(shù)進(jìn)行優(yōu)化,然后對(duì)給定的參數(shù)進(jìn)行5-折交叉驗(yàn)證,通過(guò)反復(fù)實(shí)驗(yàn),最終獲得分類效果最好的一組參數(shù).
設(shè)計(jì)4組實(shí)驗(yàn),在每組實(shí)驗(yàn)中分別用基于線性不可分SVM、齊次多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、雙曲線正切核函數(shù)等4種模型對(duì)事件檢測(cè)算法進(jìn)行仿真,不同算法中的參數(shù)尋優(yōu)、模型訓(xùn)練、結(jié)果測(cè)試都采用臺(tái)灣林智仁副教授提供的Libsvm工具箱[13]完成.其中,實(shí)驗(yàn)1(訓(xùn)練、測(cè)試數(shù)據(jù)均源自南向路段)和實(shí)驗(yàn)2(訓(xùn)練、測(cè)試數(shù)據(jù)均源自北向路段)用來(lái)驗(yàn)證算法的有效性.實(shí)驗(yàn)3(訓(xùn)練數(shù)據(jù)源自南向路段,測(cè)試數(shù)據(jù)源自北向路段)和實(shí)驗(yàn)4(訓(xùn)練數(shù)據(jù)源自北向路段,測(cè)試數(shù)據(jù)源自南向路段)用于驗(yàn)證算法的可移植性.各實(shí)驗(yàn)選取的模型及數(shù)據(jù)來(lái)源見(jiàn)表1.
表1 各實(shí)驗(yàn)選取的模型及數(shù)據(jù)Tab.1 Models and data of various experiments
本實(shí)驗(yàn)用到的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集均來(lái)自南向路段,利用表1中的數(shù)據(jù)對(duì)SVM模型進(jìn)行訓(xùn)練和測(cè)試,用以驗(yàn)證算法的有效性.
1)線性不可分SVM在進(jìn)行仿真實(shí)驗(yàn)之前首先利用2.3節(jié)提到的參數(shù)優(yōu)化方法確定懲罰參數(shù)C的最優(yōu)值.在對(duì)懲罰參數(shù) 進(jìn)行優(yōu)化的過(guò)程中,其取值范圍的選擇非常重要,選取不同的初始值,優(yōu)化結(jié)果會(huì)產(chǎn)生較大差異,從而影響算法的最終分類效果.通過(guò)多次試驗(yàn),選取不同的參數(shù)范圍,最后得到線性不可分SVM的最優(yōu)懲罰參數(shù)C=0000795262.經(jīng)過(guò)仿真,可以計(jì)算出相應(yīng)的基于線性不可分SVM的事件檢測(cè)算法的檢測(cè)率為95%,誤檢率為0.52%,平均檢測(cè)時(shí)間為103.26s.
2)采用齊次多項(xiàng)式作為核函數(shù)時(shí),需要對(duì)懲罰參數(shù)C和階數(shù)d進(jìn)行優(yōu)化設(shè)定.通過(guò)對(duì)不同初始值的設(shè)定檢驗(yàn),最終得到最優(yōu)懲罰參數(shù) ,再根據(jù)階數(shù)取值的不同得到不同的檢測(cè)率、誤檢率和平均檢測(cè)時(shí)間.
3)利用高斯徑向基作為核函數(shù)時(shí),需要對(duì)懲罰參數(shù)C和核參數(shù)γ進(jìn)行優(yōu)化設(shè)定.通過(guò)對(duì)不同初始值的設(shè)定檢驗(yàn),得到一組預(yù)測(cè)率最優(yōu)的參數(shù)(C,γ)=(2048,1.19209289551e-007).經(jīng)過(guò)仿真,可以計(jì)算出采用高斯徑向基核函數(shù)的事件檢測(cè)算法的檢測(cè)率為91%,誤檢率為0.53%,平均檢測(cè)時(shí)間為100.55s.
4)利用雙曲線正切作為核函數(shù)時(shí),同樣需要對(duì)懲罰參數(shù)C和核參數(shù)γ進(jìn)行優(yōu)化設(shè)定,通過(guò)對(duì)不同初始值的設(shè)定檢驗(yàn),得到一組最優(yōu)的參數(shù)C=(65536,9.31322574615e-010),經(jīng)過(guò)仿真,可以計(jì)算出采用雙曲線正切核函數(shù)的事件檢測(cè)算法的檢測(cè)率為94%,誤檢率為0.52%,平均檢測(cè)時(shí)間為100.1s.
由以上實(shí)驗(yàn)可以得到基于線性不可分SVM、齊次多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、雙曲線正切核函數(shù)情況下的算法有效性測(cè)試結(jié)果,并與經(jīng)典的加利福尼亞算法進(jìn)行對(duì)比,見(jiàn)表2.
表2 實(shí)驗(yàn)1的有效性測(cè)試結(jié)果Tab.2 Simulation results of Experiment 1
本實(shí)驗(yàn)用到的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集均來(lái)自北向路段,利用表1中的數(shù)據(jù)對(duì)SVM模型進(jìn)行訓(xùn)練和測(cè)試,該實(shí)驗(yàn)也用以驗(yàn)證算法的有效性.各模型的參數(shù)優(yōu)化方法和實(shí)驗(yàn)1相同,分別獲得線性不可分SVM的最優(yōu)懲罰參數(shù)C=0.013125,齊次多項(xiàng)式核函數(shù)的最優(yōu)懲罰參數(shù)C=9.53674316406e-07,高斯徑向基核函數(shù)對(duì)應(yīng)的最優(yōu)懲罰參數(shù)C、核參數(shù)γ的最優(yōu)參數(shù)組合為(C,γ)=9.53674316406e-07,雙曲線正切核函數(shù)的最優(yōu)參數(shù)組合為 (C,γ)=(131072,4.65661287308e-010).
由以上結(jié)果可以計(jì)算得到在實(shí)驗(yàn)2的條件下基于線性不可分SVM、齊次多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、雙曲線正切核函數(shù)情況下的算法有效性測(cè)試結(jié)果,并與經(jīng)典的加利福尼亞算法進(jìn)行對(duì)比,見(jiàn)表3.
表3 實(shí)驗(yàn)2的有效性測(cè)試結(jié)果Tab.3 Simulation results of Experiment 2
本實(shí)驗(yàn)用到的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集來(lái)自不同的方向,用南向路段的數(shù)據(jù)(實(shí)驗(yàn)1的訓(xùn)練數(shù)據(jù))作為訓(xùn)練數(shù)據(jù)集對(duì)各SVM模型進(jìn)行訓(xùn)練,然后用北向路段的數(shù)據(jù)(實(shí)驗(yàn)2的測(cè)試數(shù)據(jù))作為測(cè)試數(shù)據(jù)集對(duì)SVM進(jìn)行算法測(cè)試,以此驗(yàn)證算法的可移植性.因?yàn)榉抡鎸?shí)驗(yàn)3用到的訓(xùn)練數(shù)據(jù)集與實(shí)驗(yàn)1相同,所以各個(gè)模型相對(duì)應(yīng)的最優(yōu)參數(shù)與實(shí)驗(yàn)1相同.
由此可以計(jì)算得到在實(shí)驗(yàn)3的條件下基于線性不可分SVM、高斯徑向基核函數(shù)、齊次多項(xiàng)式核函數(shù)、雙曲線正切核函數(shù)情況下的算法可移植性測(cè)試結(jié)果,并與經(jīng)典的加利福尼亞算法進(jìn)行對(duì)比,見(jiàn)表4.
表4 實(shí)驗(yàn)3的可移植性測(cè)試結(jié)果Tab.4 Simulation results of Experiment 3
本實(shí)驗(yàn)用到的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集來(lái)自不同的方向,用北向路段的數(shù)據(jù)(實(shí)驗(yàn)2的訓(xùn)練數(shù)據(jù))作為訓(xùn)練數(shù)據(jù)集對(duì)各SVM模型進(jìn)行訓(xùn)練,然后用南向路段的數(shù)據(jù)(實(shí)驗(yàn)1的測(cè)試數(shù)據(jù))作為測(cè)試數(shù)據(jù)集對(duì)SVM進(jìn)行算法測(cè)試,以此驗(yàn)證算法的可移植性.因?yàn)榉抡鎸?shí)驗(yàn)4用到的訓(xùn)練數(shù)據(jù)集與實(shí)驗(yàn)2相同,所以各個(gè)模型相對(duì)應(yīng)的最優(yōu)參數(shù)與實(shí)驗(yàn)2相同.由此可以計(jì)算得到在實(shí)驗(yàn)4的條件下基于線性不可分SVM、高斯徑向基核函數(shù)、齊次多項(xiàng)式核函數(shù)、雙曲線正切核函數(shù)情況下的算法可移植性測(cè)試結(jié)果,并與經(jīng)典的加利福尼亞算法進(jìn)行對(duì)比,見(jiàn)表5.
表5 實(shí)驗(yàn)4的可移植性測(cè)試結(jié)果Tab.5 Simulation results of Experiment 4
從仿真實(shí)驗(yàn)1和實(shí)驗(yàn)2的數(shù)據(jù)可以看出1)從總體上看,基于齊次多項(xiàng)式核函數(shù)的模型與其他模型和算法相比,在檢測(cè)率、誤檢率、平均檢測(cè)時(shí)間等綜合性能指標(biāo)方面最差.
2)線性不可分SVM、高斯徑向基核函數(shù)以及雙曲正切核函數(shù)三種支持向量機(jī)模型的綜合檢測(cè)效果都要比加利福尼亞算法好.
3)由實(shí)驗(yàn)1和實(shí)驗(yàn)2兩組實(shí)驗(yàn)可以看出,利用不同的核函數(shù)模型對(duì)同一數(shù)據(jù)集進(jìn)行測(cè)試時(shí),檢測(cè)性能差異較大.因此,在實(shí)際應(yīng)用中,需要根據(jù)數(shù)據(jù)集合的不同特點(diǎn)選擇合適的核函數(shù)模型,才能得到最好的檢測(cè)效果.
4)利用相同的SVM模型分別對(duì)南向路段數(shù)據(jù)集和北向路段數(shù)據(jù)集進(jìn)行測(cè)試時(shí),前者檢測(cè)效果好于后者.由于南向路段數(shù)據(jù)集的交通事件大多是多車道事件,交通流波動(dòng)較大,而北向路段數(shù)據(jù)集大多為單車道事件,交通流波動(dòng)較小,因此,SVM模型針對(duì)交通流波動(dòng)較大的事件具有更好的檢測(cè)效果.
從實(shí)驗(yàn)3和實(shí)驗(yàn)4的仿真結(jié)果可以看出
1)從總體上看,各種模型和算法在檢測(cè)率、誤檢率、平均檢測(cè)時(shí)間等綜合性能指標(biāo)方面,線性不可分SVM模型檢測(cè)性能最好,基于齊次多項(xiàng)式核函數(shù)的模型檢測(cè)性能最差.
2)由實(shí)驗(yàn)3和實(shí)驗(yàn)4兩組實(shí)驗(yàn)可以看出,利用交通流波動(dòng)較大的南向路段數(shù)據(jù)集對(duì)算法進(jìn)行訓(xùn)練,用交通流波動(dòng)較小的北向路段數(shù)據(jù)集進(jìn)行算法測(cè)試時(shí),檢測(cè)效果較差.相反,利用交通流波動(dòng)較小的北向路段數(shù)據(jù)集對(duì)算法進(jìn)行訓(xùn)練,用交通流波動(dòng)較大的南向路段數(shù)據(jù)集進(jìn)行算法測(cè)試時(shí),檢測(cè)效果較好.因此,利用交通流波動(dòng)較小的數(shù)據(jù)集訓(xùn)練出來(lái)的模型,算法的移植性較好.
1)利用SVM模型對(duì)高速公路事件進(jìn)行檢測(cè)時(shí),不同的核函數(shù)及其參數(shù)對(duì)檢測(cè)效果都有較大的影響.針對(duì)不同路段交通流的特點(diǎn),選擇合適的SVM模型并通過(guò)特定方法計(jì)算出其對(duì)應(yīng)的最優(yōu)參數(shù),以此得到最佳的事件檢測(cè)算法.
2)針對(duì)不同的高速公路交通事件,只要選擇合適的SVM核函數(shù)模型,其算法的有效性和可移植性與經(jīng)典的加利福尼亞算法相比,都有不同程度的提高.因此,基于SVM的高速公路事件檢測(cè)算法具有良好的應(yīng)用價(jià)值.
[1] 崔志賓.基于支持向量機(jī)的交通事件檢測(cè)建模與分析[D].北京:北京交通大學(xué),2008.CUI Zhi-bin.Modeling and Analysis of Automatic Incident Detection Based on Support Vector Machine[D].Beijing:Beijing Jiaotong University,2008.(in Chinese)
[2] 任雙橋.支撐矢量機(jī)理論與應(yīng)用研究[D].長(zhǎng)沙:國(guó)防科技大學(xué),2006.REN Shuang-qiao Study on the Theory and Application of Support Vector Machines[D].Changsha:National U-niversity of Defense Technology,2006.(in Chinese)
[3] 楊志民,劉廣利.不確定性支持向量機(jī)原理及應(yīng)用[M].北京:科學(xué)出版社,2007.YANG Zhi-min,LIU guang-li.Principle and Application of Uncertain Support Vector Machines[M].Beijing:Science Press,2007.(in Chinese)
[4] 王志龍.基于粗糙集理論與支持向量機(jī)的數(shù)據(jù)挖掘方法算法研究[D].蘭州:蘭州大學(xué),2007.WANG Zhi-long.Research on Data Mining Methods Based on Rough Sets Theory and Support Vector Machines[D].Lanzhou:Lanzhou University,2007.(in Chinese)
[5] 王朝勇.支持向量機(jī)若干算法研究及應(yīng)用[D].吉林:吉林大學(xué),2008.WANG Chao-yong.Study of Some Support Vector Machine Algortithms and Their Applications[D].Jilin:Jilin University,2008.(in Chinese)
[6] 鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004.DENG Nai-yang,TIAN ying-jie.A New Method for Data Mining—Support Vector Machine[M].Beijing:Science Press,2004.
[7] 彭新俊.支持向量機(jī)若干問(wèn)題及應(yīng)用研究[D].上海:上海大學(xué),2008.(in Chinese)PENG Xin-jun.Issues on and Applications of Support Vector Machines[D].Shanghai:Shanghai University,2008.(in Chinese)
[8] 周林英.基于支持向量機(jī)的高速公路事件檢測(cè)算法[D].西安:長(zhǎng)安大學(xué),2009.ZHOU Lin-ying.An Algorithm for Freeway Incidents Detection Based on Support Vector Machine.[D].Xi’an:Chang’an University,2009.(in Chinese)
[9] 周林英,朱斌,趙忠杰.基于支持向量機(jī)的高速公路事件檢測(cè)算法[J].系統(tǒng)仿真技術(shù),2010,6(3):224.ZHOU Lin-ying,ZHU bin,ZHAO zhong-jie.An Automatic Incident of Freeway Detection Algorithm Based on Support Vector Machine.[J].System Simulation Technology,2010,6(3):224.
[10] Karl Petty.The Analysis Software for the FSP Project[EB/OL].(1995-01-01)[2014-06-01]http://ipa.eecs.berkeley.edu/~pettyk/FSP/.
[11] 王琪.基于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的高速公路交通事件檢測(cè)[D].成都:西南交通大學(xué),2006.WANG Qi.Traffic Incidents Detection Based on Neural Network and Support Vector Machine[D].Chengdu:Southwest Jiaotong University,2006.(in Chinese)
[12] 王鵬,朱小燕.基于RBF核的SVM的模型選擇及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(24):72.WANG Peng.ZHU Xiao-yan.Model Selection of SVM with RBF Kernel and Its Application[J].Computer Engineering and Applications,2003,39(24):72.(in Chinese)
[13] 張楠.關(guān)于支持向量機(jī)中的參數(shù)優(yōu)化的研究[D].西安:西北大學(xué),2008.ZHANG Nan.Study of the Parameter Optimization in Support Vector Machines[D].Xi’an:Northwest University,2008.(in Chinese)