邵 鑫, 黃曉紅, 董斯琛
(1.華北理工大學(xué)人工智能學(xué)院, 唐山 063210; 2.華北理工大學(xué)人工智能學(xué)院, 唐山 063210; 3.海軍工程大學(xué)信息安全學(xué)院, 武漢 430032)
隨著中國(guó)智慧城市的發(fā)展,對(duì)交通流數(shù)據(jù)的質(zhì)量有了更高的要求,這也是為智能運(yùn)輸系統(tǒng)(ITS)能夠做出正確決策提供更好的保障。因?yàn)楹撩撞ń煌ɡ走_(dá)具備全天候、高分辨率、可測(cè)速、可測(cè)距等長(zhǎng)處,被廣泛應(yīng)用于智能交通范疇。鑒于檢測(cè)的數(shù)據(jù)量大和采集周期不規(guī)律等因素,交通監(jiān)控中心經(jīng)常沉積著海量的交通流數(shù)據(jù)。為了能夠有效、快速、實(shí)時(shí)地進(jìn)行交通管制和規(guī)劃,這就需要獲得高質(zhì)量的道路交通狀況的數(shù)據(jù)[1]。但當(dāng)毫米波交通雷達(dá)處于非正常工作狀態(tài)以及傳輸設(shè)備出現(xiàn)故障、環(huán)境變化等情況時(shí),采集到的數(shù)據(jù)會(huì)有許多問題,影響后續(xù)的數(shù)據(jù)挖掘處理。針對(duì)異常數(shù)據(jù)如何進(jìn)行識(shí)別和更正,從而對(duì)數(shù)據(jù)挖掘處理提供高質(zhì)量數(shù)據(jù),具有一定的研究意義[2-4]。因此,在數(shù)據(jù)處理方面,國(guó)內(nèi)外的研究人員有著相應(yīng)的研究成果。在進(jìn)行數(shù)據(jù)管理時(shí),系統(tǒng)闡述了幾種數(shù)據(jù)質(zhì)量問題并提出相應(yīng)的優(yōu)化方法[5]。在處理異常數(shù)據(jù)時(shí),對(duì)其沖洗規(guī)則和步驟進(jìn)行相應(yīng)的驗(yàn)證[6]。在處理異常交通流數(shù)據(jù)時(shí),對(duì)問題的產(chǎn)生、識(shí)別和修復(fù)方法進(jìn)行相應(yīng)的研究[7]。在處理多種類別的交通流預(yù)測(cè)模型時(shí),利用歷史平均模型進(jìn)行效果對(duì)比,并進(jìn)行相應(yīng)的分類[8-9]。上述文獻(xiàn)只是對(duì)單方面有問題的數(shù)據(jù)進(jìn)行質(zhì)量問題的分析研究,對(duì)數(shù)據(jù)進(jìn)行大批量的沖洗處理,有很大的誤差性。通過毫米波交通雷達(dá)獲得的數(shù)據(jù)也存在很多類型的質(zhì)量問題,如何有效地進(jìn)行異常數(shù)據(jù)的識(shí)別、修復(fù)和減小數(shù)據(jù)的誤差性,有著很大的挑戰(zhàn)。
在上述的研究的基礎(chǔ)上,現(xiàn)針對(duì)城市道路中交通流數(shù)據(jù)質(zhì)量?jī)?yōu)化及交通流變化規(guī)律的問題,將原始交通流數(shù)據(jù)分成三份,然后以三個(gè)步驟對(duì)其進(jìn)行處理:第一步,采用組合檢驗(yàn)和閾值檢驗(yàn)規(guī)則,對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別,有問題的數(shù)據(jù)進(jìn)行更正及缺失數(shù)據(jù)進(jìn)行修補(bǔ);第二步,采用交通流狀態(tài)基本圖理論以及線性插值等方法,建立時(shí)間與交通流參數(shù)之間以及各參數(shù)之間關(guān)系的模型;第三步,采用粒子群多層前饋(PSO-BP)神經(jīng)網(wǎng)絡(luò)模型和歷史均值法,建立交通流量預(yù)測(cè)模型,通過訓(xùn)練完成缺失數(shù)據(jù)的填補(bǔ),最終得到完整的高質(zhì)量數(shù)據(jù),從而減小數(shù)據(jù)清洗帶來的較大誤差性,進(jìn)而驗(yàn)證其方法的有效性。
毫米波交通雷達(dá),作為新型的信息檢測(cè)器,其工作頻率為30~300 GHz、波長(zhǎng)為1 mm~1 cm。其工作原理是雷達(dá)發(fā)射出的射頻信號(hào)到空間并識(shí)別出由目標(biāo)反射回來的回波信號(hào),進(jìn)而識(shí)別出目標(biāo)的存在,通過比較回波信號(hào)和發(fā)射信號(hào),以便測(cè)定目標(biāo)的距離、速度、角度和目標(biāo)狀況等相關(guān)信息。因此,毫米波交通雷達(dá)采用多傳感器融合技術(shù),利用高清攝像頭的功能,可以實(shí)現(xiàn)對(duì)車輛的測(cè)距、測(cè)速、流量統(tǒng)計(jì)等,并對(duì)車輛進(jìn)行逆行報(bào)警、超速抓拍和擁擠檢測(cè)[10]。
在交通流檢測(cè)中,雷達(dá)的工作方式是將該天線波束與車道呈垂直形式進(jìn)行工作,以便減小多普勒效應(yīng)對(duì)檢測(cè)的影響。雷達(dá)的電磁波束對(duì)道路通道進(jìn)行全覆蓋,其水平方向的波束寬度略大于車輛長(zhǎng)度,以便車輛經(jīng)過檢測(cè)區(qū)域,其回波信號(hào)發(fā)生相應(yīng)的變化。對(duì)于雷達(dá)回波信號(hào)的處理,為了精確估計(jì)檢測(cè)區(qū)內(nèi)車輛的運(yùn)動(dòng)參數(shù),利用卡爾曼濾波器對(duì)車輛的運(yùn)動(dòng)狀態(tài)進(jìn)行預(yù)測(cè),從而將該時(shí)刻的量進(jìn)行濾波估計(jì)[11]。通過多目標(biāo)跟蹤系統(tǒng),利用道路上設(shè)定的流量計(jì)算區(qū)間和車道的檢測(cè)線,對(duì)車輛進(jìn)行有效的跟蹤,計(jì)算每條目標(biāo)車輛航跡的長(zhǎng)度,并對(duì)各個(gè)車道進(jìn)行車流量統(tǒng)計(jì),從而得到交通流參數(shù),即流量,速度,時(shí)間占有率[12]。
(1)交通流量:車輛計(jì)數(shù)q是在一個(gè)相對(duì)較短的時(shí)間內(nèi)完成的,所以,q的最小值為0,最大值為交通道路的通行能力C與特定時(shí)間段和更正系數(shù)fc的乘積。故交通流量的范圍為
(1)
式(1)中:C為道路通行能力,veh/h;T為數(shù)據(jù)采樣周期,min;fc為更正系數(shù),一般為1.3~1.5。
(2)平均速度:在較短的時(shí)間區(qū)間內(nèi),由于隨機(jī)誤差的存在,需要對(duì)速度v進(jìn)行更正;同時(shí),在實(shí)際的情況中,道路會(huì)有速度限制,若存在超速的情況,速度v需要進(jìn)行調(diào)整,故平均速度合理范圍為
0≤v≤fvv1
(2)
式(2)中:v1為道路的限制速度;fv為更正系數(shù),一般取 1.3~1.5。
(3)占有率:即時(shí)間占有率O,目標(biāo)在檢測(cè)器占有的時(shí)間與檢測(cè)器整體工作時(shí)間的比值,故定義時(shí)間占有率的正常范圍為
0≤O≤100%
(3)
在智能交通系統(tǒng)運(yùn)行中,常常出現(xiàn)人為和通信故障等情況,導(dǎo)致收集的交通流數(shù)據(jù)出現(xiàn)異常。主要表現(xiàn)為參數(shù)類型混亂、未滿足設(shè)定的閾值以及格式錯(cuò)誤等情形。如果不進(jìn)行更正與識(shí)別,直接應(yīng)用到各類交通場(chǎng)景中,則會(huì)發(fā)生智慧交通運(yùn)行異常以及總調(diào)度室產(chǎn)生誤判等情況。因此,將原始交通流數(shù)據(jù)分成3份,記為:data_1、data_2、data_3。
首先對(duì)所有數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,一般步驟:數(shù)據(jù)特征分析、確定沖洗規(guī)則、檢驗(yàn)沖洗方法、執(zhí)行沖洗構(gòu)件和數(shù)據(jù)更新5個(gè)階段[4]。然后進(jìn)行異常數(shù)據(jù)識(shí)別,對(duì)原始收集的交通流數(shù)據(jù),采用交通流理論和閾值理論[12],擬定對(duì)應(yīng)規(guī)則,從而識(shí)別收集的交通流數(shù)值是否異常。
(1)閾值理論。①流量q:將道路通行能力設(shè)計(jì)為1 500 veh/h,則5 min內(nèi)流量大于187輛;②平均速度v:將道路的限制車速為60 km/h,則5 min內(nèi)平均速大于120 km/h;③占有率O:設(shè)定道路中 5 min 內(nèi)占有率大于90%。
(2) 交通流理論:①平均速度v為0,流量q不為0;②流量q為0,占有率O和平均速度v同時(shí)不為0;③速度v不為0,占有率O為0,流量q大于設(shè)定值。
因此,建立異常數(shù)據(jù)的識(shí)別與修復(fù)模型,首先,進(jìn)行交通流參數(shù)組合性檢驗(yàn),然后,進(jìn)行交通流參數(shù)閾值檢驗(yàn),通過前兩步的檢驗(yàn),識(shí)別出異常數(shù)據(jù),再進(jìn)行數(shù)據(jù)清洗并采用線性插值方法進(jìn)行缺失數(shù)據(jù)修補(bǔ)。最后,根據(jù)原始數(shù)據(jù)信息,選取數(shù)據(jù)data_1,即采集時(shí)間為2019年1月1—31日,采集頻率為 5 min 的數(shù)據(jù),并對(duì)其進(jìn)行異常數(shù)據(jù)的識(shí)別與修復(fù)檢驗(yàn),該模型滿足系統(tǒng)中的通行速度可能會(huì)超出道路的速度限制。
按照交通流理論將交通流參數(shù)的各限制范圍組合一起,對(duì)收集的交通流數(shù)據(jù)進(jìn)行篩選與檢驗(yàn),進(jìn)而識(shí)別出異常數(shù)據(jù),其檢驗(yàn)結(jié)果,如表1所示。
表1 交通流參數(shù)組合性檢驗(yàn)結(jié)果
從表1可知:當(dāng)車流量為0,但時(shí)間占有率和平均速度存在非0值占總體數(shù)據(jù)的0.54%;當(dāng)時(shí)間占有率為0,但平均速度和車流量存在非0值占總體數(shù)據(jù)的0.28%,對(duì)其他條件檢驗(yàn)并未發(fā)現(xiàn)異樣。
將數(shù)據(jù)data_1中的流量、速度和時(shí)間占有率進(jìn)行閾值檢驗(yàn),其中該交通流數(shù)據(jù)的采集周期為5 min,共8 636條。其閾值檢測(cè)的結(jié)果,如表2所示。
表2 交通流參數(shù)閾值檢驗(yàn)結(jié)果
從表2可知:在流量檢測(cè)中,未通過檢驗(yàn)樣本數(shù)量為0;在速度檢驗(yàn)中,大于120 km/h的樣本數(shù)量為791個(gè),占總樣本的9.16%,比例居高;在時(shí)間占用率檢驗(yàn)中,未通過檢驗(yàn)樣本數(shù)量為1個(gè),占總樣本的0.01%。綜上所述,本研究對(duì)超過閾值范圍的數(shù)據(jù)定義為異常數(shù)據(jù),并對(duì)其進(jìn)行更正。
首先,對(duì)數(shù)據(jù)data_2實(shí)現(xiàn)數(shù)據(jù)清洗之后,分別在時(shí)間序列上,對(duì)該數(shù)據(jù)中的平均速度,流量,時(shí)間占有率3個(gè)參數(shù)進(jìn)行擬合建模,求解各自的演化過程。采用“分天”的方式進(jìn)行擬合,通過對(duì)每天的數(shù)據(jù)擬合出的圖像進(jìn)行整理發(fā)現(xiàn):①速度存在先升后降(早高峰),再升,再降(晚高峰),再升的趨向;②流量存在升(早高峰),降(午間),升(晚高峰),再降的趨向;③時(shí)間占有率存在升(早高峰),降(午間),升(晚高峰),再降的趨向。
采用多項(xiàng)式擬合建模并選取其中較好的一天進(jìn)行擬合可視化,所采用的擬合多項(xiàng)式函數(shù):f(x)=p1x6+p2x5+p3x4+p4x3+p5x2+p6x+p7,其中,設(shè)定參數(shù)p1=5.784×10-11;p2=-5.125×10-8;p3=1.737×10-5;p4=-0.002 803;p5=0.211 6;p6=-5.504;p7=57.8。
在時(shí)間維度上,采取均方差與確定系數(shù)對(duì)各交通流參數(shù)進(jìn)行擬合評(píng)價(jià)。
均方差:
(4)
確定系數(shù):
(5)
(1)在速度進(jìn)行擬合時(shí),選取6次、8次以及12次多項(xiàng)式的擬合結(jié)果進(jìn)行對(duì)比,得出6次和8次的擬合結(jié)果較好,最后基于模型的可視化,選擇6次多項(xiàng)式作為速度的擬合模型,如圖1(a)所示。
(2)在流量進(jìn)行擬合時(shí),選取6次、8次以及12次多項(xiàng)式進(jìn)行比較,通過對(duì)擬合均方差差、確定系數(shù)(擬合優(yōu)度)的對(duì)比,選定6次多項(xiàng)式作為流量的擬合模型,如圖1(b)所示。
(3)在占有率進(jìn)行擬合時(shí),選取8次、10次以及12次多項(xiàng)式的擬合結(jié)果進(jìn)行對(duì)比,得出10次和12次的擬合結(jié)果較好,最后基于模型的可視化,選定10次多項(xiàng)式作為占有率的擬合模型,如圖1(c)所示。
圖1 時(shí)間序列下的各交通流參數(shù)的擬合圖
綜上所述,在時(shí)間序列下,將速度、交通流量和時(shí)間占有率進(jìn)行擬合,所得出擬合評(píng)價(jià)標(biāo)準(zhǔn)的結(jié)果,如表3所示。
表3 擬合評(píng)價(jià)標(biāo)準(zhǔn)結(jié)果
根據(jù)交通流狀態(tài)理論,將常見的交通流狀態(tài)分為自由流和擁擠流[13]。利用線性的速度-密度關(guān)系[12],演算出得到流量-速度的關(guān)系模型,如圖2所示。由圖2可以看出,當(dāng)車流量從開始?xì)w零不斷增加到未飽和的情況,流量和速度均處于較高的水平。當(dāng)車流量達(dá)到C值時(shí),路面狀況處于飽和狀態(tài),車流速度為臨界速度vm,此時(shí)路面的利用率最高。當(dāng)車流速度處于vf時(shí),道路的車流量為0,該車流速度稱為自由流速度。
圖2 流量-速度關(guān)系理論圖
首先,利用數(shù)據(jù)data_2中的速度和時(shí)間占有率兩個(gè)參數(shù),進(jìn)行聯(lián)合擬合,如圖3所示。
圖3 速度-占有率關(guān)系圖
由圖3可以看出,當(dāng)速度減小時(shí),時(shí)間占有率增大,與時(shí)間占有率的定義相契合。然后,將數(shù)據(jù)data_2中的流量和時(shí)間占有率兩個(gè)參數(shù),進(jìn)行聯(lián)合擬合,如圖4所示。
圖4 流量-占有率關(guān)系圖
由圖4可以看出,當(dāng)自由流狀況時(shí),流量與時(shí)間占有率之間存在著線性關(guān)系;當(dāng)擁擠流狀況時(shí),流量變化較大,時(shí)間占有率較高。然后,將數(shù)據(jù)data_2中的流量和速度兩個(gè)參數(shù),進(jìn)行聯(lián)合擬合,如圖5所示。
圖5 流量-速度關(guān)系圖
由圖5可以看出,滿足交通流的基本圖理論,且與圖4的流量-速度的關(guān)系模型相符合。
綜上所述,當(dāng)自由流狀況時(shí),交通流相對(duì)較少,道路上的車輛車輛可較快速度行駛。根據(jù)流量和占有率關(guān)系圖可以看出,當(dāng)自由流狀況時(shí),占有率和車流量之間表現(xiàn)出線性關(guān)系;當(dāng)擁擠流狀況時(shí),車輛行駛緩慢,車流量降低,時(shí)間占有率提升。
由于在訓(xùn)練過程中,BP網(wǎng)絡(luò)的能量函數(shù)無法收斂,訓(xùn)練樣本與網(wǎng)絡(luò)參數(shù)信息不匹配,樣本找不到合適的“著力點(diǎn)”,常常出現(xiàn)過擬合化發(fā)生[14],然而PSO算法與BP網(wǎng)絡(luò)相結(jié)合使用,可以大大提高網(wǎng)絡(luò)學(xué)習(xí)效率,使網(wǎng)絡(luò)快速收斂。因此,采用PSO-BP網(wǎng)絡(luò)算法對(duì)數(shù)據(jù)data_3進(jìn)行預(yù)測(cè)并識(shí)別與修復(fù),從而得到高質(zhì)量數(shù)據(jù)。該模型實(shí)現(xiàn)步驟:①利用交通流理論對(duì)部分為空值(NA)的數(shù)據(jù)進(jìn)行填補(bǔ),并采用歷史均值法修復(fù)缺失的流量和時(shí)間占有率數(shù)據(jù);②訓(xùn)練預(yù)測(cè)速度的神經(jīng)網(wǎng)絡(luò)模型,并補(bǔ)全其速度值;③訓(xùn)練預(yù)測(cè)流量的神經(jīng)網(wǎng)絡(luò)模型,并采用歷史均值法進(jìn)行更正和修復(fù)流量數(shù)據(jù);④訓(xùn)練預(yù)測(cè)占有率的神經(jīng)網(wǎng)絡(luò)模型,并采用歷史均值法進(jìn)行更正和修復(fù)占有率數(shù)據(jù);⑤完成速度、流量和占有率的預(yù)測(cè)及對(duì)缺失數(shù)據(jù)的補(bǔ)全。
基于上述經(jīng)驗(yàn),觀察數(shù)據(jù)data_3可知:“NA型”數(shù)據(jù)存在兩類。第一類數(shù)據(jù)中速度、流量和占有率全為NA,而且缺失數(shù)據(jù)連續(xù),以及缺失一天以上的數(shù)據(jù);第二類數(shù)據(jù)是離散的缺失數(shù)據(jù),速度、流量和占有率并不同時(shí)為0,而且一般都有取0的參數(shù)。因此,首先對(duì)第二類離散的缺失數(shù)據(jù)進(jìn)行分析,根據(jù)速度、流量和占有率其中存在一個(gè)為0,其他兩個(gè)也應(yīng)該為0的交通流理論,對(duì)存在0值的數(shù)據(jù)中的NA值用0值替代,這樣簡(jiǎn)化了處理過程,也符合交通流理論的要求。
對(duì)預(yù)測(cè)的數(shù)據(jù)data_3進(jìn)行可視化,繪制了時(shí)間分別與速度、流量和占有率3個(gè)交通流參數(shù)的變化圖,如圖6所示,可以看出早晚高峰時(shí)車流量變大、平均速度變慢和占有率升高,符合上述時(shí)間與交通流參數(shù)之間的變化規(guī)律。
圖6 時(shí)間-交通流參數(shù)關(guān)系圖
一類“NA型”數(shù)據(jù)的特點(diǎn)是連續(xù)缺失且3個(gè)交通流參數(shù)都為NA,首先采用相鄰6天相同時(shí)段的有實(shí)測(cè)數(shù)據(jù)的平均值對(duì)數(shù)據(jù)進(jìn)行修復(fù),然后分別訓(xùn)練預(yù)測(cè)速度、流量和占有率的神經(jīng)網(wǎng)絡(luò)模型,從而更正使用歷史均值修復(fù)的數(shù)據(jù),最終完成預(yù)測(cè),即對(duì)缺失數(shù)據(jù)的補(bǔ)全與修復(fù)。
同時(shí),該天速度-占有率、流量-占有率、流量-速度的變化關(guān)系圖,如圖7~圖9所示。
圖7 速度-占有率關(guān)系圖
圖8 流量-占有率關(guān)系圖
圖9 流量-速度關(guān)系圖
由圖7可以看出,滿足交通流的基本圖理論,當(dāng)速度下降時(shí),時(shí)間占有率上升。由圖8可以看出,滿足交通流的基本圖理論,當(dāng)?shù)竭_(dá)自由流和擁擠流的臨界區(qū)之前,占有率和流量之間存在著一定的線性關(guān)系;處于擁擠流狀態(tài)時(shí),車速下降導(dǎo)致車流量降低,進(jìn)而時(shí)間占有率提升。由圖9可以看出,滿足交通流的基本圖理論,當(dāng)路面受到自身通行能力的影響時(shí),車流量處于C值之后,由于車流量逐漸增加,路面車輛處于排隊(duì)擁擠狀況,從而產(chǎn)生嚴(yán)重互擾情況發(fā)生。因此,擁擠車流不會(huì)以vm勻速緩解,而是將以小于vm的平均速度通過路面,故能檢測(cè)到的車流量最大值為C。如圖9所示,若除去離群點(diǎn),速度-流量關(guān)系的變化趨勢(shì)基本與上面的理論模型吻合。因此,利用PSO-BP神經(jīng)網(wǎng)絡(luò)在時(shí)間序列下的速度、流量和占有率建模,觀察其變化規(guī)律,從而更正使用歷史均值法修復(fù)的數(shù)據(jù)并完成預(yù)測(cè)及對(duì)缺失數(shù)據(jù)的補(bǔ)全。
最后,采用層次分析法,對(duì)優(yōu)化前后的交通流數(shù)據(jù)進(jìn)行質(zhì)量和完整性的定性分析和定量計(jì)算,其評(píng)價(jià)分析結(jié)果,如表4所示。
從表4可知:通過指標(biāo)權(quán)重與優(yōu)化前后的權(quán)重相乘之和,所得比重分別為0.358 7和0.954 2,可以看出優(yōu)化后的數(shù)據(jù)比優(yōu)化前的數(shù)據(jù)在質(zhì)量和完整性上得到明顯改善。綜上所述,通過對(duì)交通流數(shù)據(jù)質(zhì)量?jī)?yōu)化有著較好的可行性,從而加快大數(shù)據(jù)城市化進(jìn)程和道路交通檢測(cè)與預(yù)警,實(shí)現(xiàn)數(shù)據(jù)利用價(jià)值最大化。
表4 評(píng)價(jià)分析結(jié)果
(1)提出了一種改進(jìn)PSO-BP神經(jīng)網(wǎng)絡(luò)算法,對(duì)公路及城市道路中交通流數(shù)據(jù)清洗及交通流變化規(guī)律問題進(jìn)行研究與分析,為數(shù)據(jù)處理方法優(yōu)化及算法的改進(jìn)奠定了基礎(chǔ)。
(2)采用“三步法”對(duì)數(shù)據(jù)進(jìn)行分析,首先,通過組合檢驗(yàn)和閾值檢驗(yàn),對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別、更正與修補(bǔ);然后,通過交通流狀態(tài)理論以及線性插值等方法,進(jìn)行時(shí)間序列上交通流參數(shù)之間以及各參數(shù)之間關(guān)系的模型建立;最后,通過改進(jìn)的PSO-BP神經(jīng)網(wǎng)絡(luò)算法,建立交通流量預(yù)測(cè)模型,通過訓(xùn)練完成缺失數(shù)據(jù)的填補(bǔ),最終得到完整的高質(zhì)量數(shù)據(jù)。