徐程, 曲昭偉, 陶鵬飛, 金盛
(1.吉林大學(xué) 交通學(xué)院,吉林 長(zhǎng)春 130022;2.浙江警察學(xué)院 交通管理工程系,浙江 杭州 310053;3.浙江大學(xué) 建筑工程學(xué)院,浙江 杭州 310058)
?
動(dòng)態(tài)交通數(shù)據(jù)異常值的實(shí)時(shí)篩選與恢復(fù)方法
徐程1, 2, 曲昭偉1, 陶鵬飛1, 金盛3
(1.吉林大學(xué) 交通學(xué)院,吉林 長(zhǎng)春 130022;2.浙江警察學(xué)院 交通管理工程系,浙江 杭州 310053;3.浙江大學(xué) 建筑工程學(xué)院,浙江 杭州 310058)
摘要:針對(duì)實(shí)際中檢測(cè)器原始交通數(shù)據(jù)存在的大量缺失與異常的實(shí)際情況,論文通過分析數(shù)據(jù)采樣間隔與交通流三參數(shù)內(nèi)在關(guān)系等因素的影響,設(shè)計(jì)了4步驟的數(shù)據(jù)篩選方法,包括初步篩選、閾值篩選、交通流理論篩選和質(zhì)量控制篩選;提出了基于時(shí)間序列、歷史數(shù)據(jù)、空間位置及時(shí)空相關(guān)性的四種在不同條件下應(yīng)用的數(shù)據(jù)恢復(fù)方法;以此為基礎(chǔ)建立了標(biāo)準(zhǔn)的數(shù)據(jù)預(yù)處理流程。通過北京快速路實(shí)際數(shù)據(jù)驗(yàn)證表明,算法能夠有效剔除異常數(shù)據(jù),異常數(shù)據(jù)恢復(fù)精度低于10%,同時(shí)具有很強(qiáng)的實(shí)時(shí)性和穩(wěn)定性,能夠滿足工程實(shí)際的應(yīng)用。
關(guān)鍵詞:采樣間隔;數(shù)據(jù)篩選;數(shù)據(jù)恢復(fù);多元質(zhì)量控制;時(shí)間序列;時(shí)空相關(guān)性;數(shù)據(jù)預(yù)處理;交通流理論
動(dòng)態(tài)交通數(shù)據(jù)是進(jìn)行城市交通智能化管控的前提與基礎(chǔ)。實(shí)時(shí)動(dòng)態(tài)交通數(shù)據(jù)的采集、處理、分析與應(yīng)用是智能交通系統(tǒng)(intelligent transportation systems, ITS)的重要組成部分之一。失去了精確的交通流實(shí)時(shí)數(shù)據(jù)的支撐,智能交通系統(tǒng)將無法發(fā)揮其應(yīng)有的作用。國(guó)內(nèi)外的相關(guān)研究表明,先進(jìn)的交通管理系統(tǒng)中實(shí)時(shí)數(shù)據(jù)的準(zhǔn)確率平均值僅為67%左右[1],交通流實(shí)時(shí)數(shù)據(jù)的精度和有效性是制約交通管理系統(tǒng)發(fā)揮效益的瓶頸之一。因此,通過對(duì)采集的交通流實(shí)時(shí)數(shù)據(jù)進(jìn)行預(yù)處理過程,保證智能交通系統(tǒng)數(shù)據(jù)輸入的完整性與有效性是一個(gè)亟待解決的關(guān)鍵科學(xué)問題。國(guó)外相關(guān)的交通流異常數(shù)據(jù)篩選與恢復(fù)的研究工作從20世紀(jì)60年代開始,伴隨著交通監(jiān)視系統(tǒng)、交通管理系統(tǒng)應(yīng)用而逐步發(fā)展,相關(guān)的理論與算法已經(jīng)開發(fā)成系統(tǒng)并應(yīng)用于實(shí)際工程項(xiàng)目[2-4]。Turochy等[5]在前人研究工作的基礎(chǔ)上提出了一種比較完善和保守的異常數(shù)據(jù)識(shí)別流程。維吉尼亞大學(xué)交通研究中心對(duì)不同的交通流異常數(shù)據(jù)恢復(fù)方法進(jìn)行了詳細(xì)的對(duì)比與評(píng)價(jià)[6]。國(guó)內(nèi)許多研究機(jī)構(gòu)針對(duì)具體數(shù)據(jù)特性提出了對(duì)應(yīng)的異常數(shù)據(jù)篩選和恢復(fù)方法,并給出了基于數(shù)據(jù)相關(guān)性的數(shù)據(jù)恢復(fù)方法[7-10]。然而上述研究主要是借鑒其他系統(tǒng)的時(shí)間序列異常數(shù)據(jù)處理方法與流程,缺乏對(duì)動(dòng)態(tài)交通流數(shù)據(jù)內(nèi)在規(guī)律的分析。交通流數(shù)據(jù)具有時(shí)空相關(guān)的特性,特別是交通流三參數(shù)之間也存在內(nèi)在邏輯規(guī)律,只有深入挖掘交通流數(shù)據(jù)之間的內(nèi)在規(guī)律,才能建立適應(yīng)交通流數(shù)據(jù)特點(diǎn)的異常數(shù)據(jù)篩選與恢復(fù)方法。本文正是從這個(gè)角度出發(fā),建立動(dòng)態(tài)交通異常數(shù)據(jù)的篩選與恢復(fù)方法,形成一套適合工程應(yīng)用的異常數(shù)據(jù)處理標(biāo)準(zhǔn)化流程,為動(dòng)態(tài)交通數(shù)據(jù)的后續(xù)應(yīng)用奠定基礎(chǔ)。
1數(shù)據(jù)采樣間隔特性
交通系統(tǒng)是具有離散隨機(jī)特性的系統(tǒng),對(duì)交通系統(tǒng)的各種復(fù)雜時(shí)變特性進(jìn)行描述,就需要通過檢測(cè)在一定連續(xù)時(shí)間間隔內(nèi)的交通流特征參數(shù),通過特征參數(shù)來表征觀測(cè)時(shí)間間隔內(nèi)的交通流平均特性。在研究不同的交通流特性問題,就需要采用不同的數(shù)據(jù)采樣間隔,數(shù)據(jù)采樣間隔會(huì)對(duì)數(shù)據(jù)采集精度和交通流特征參數(shù)產(chǎn)生明顯的影響。因此,在實(shí)際工程中往往通過經(jīng)驗(yàn)分析,根據(jù)具體的研究環(huán)境、研究?jī)?nèi)容與研究方法來區(qū)別的設(shè)置交通流數(shù)據(jù)的采樣間隔。當(dāng)研究交通事件檢測(cè)時(shí),就需要采用較小的數(shù)據(jù)采樣間隔以描述數(shù)據(jù)的微觀波動(dòng)變化特性;而進(jìn)行交通管理控制時(shí),就需要采用較大的數(shù)據(jù)采樣間隔以避免因?yàn)閿?shù)據(jù)波動(dòng)造成交通管控方案的不穩(wěn)定。
圖1給出了2012年5月8日杭州城市快速路某斷面一條車道早上6∶00-9∶00 3 h內(nèi),分別采用20 s、40 s、1 min、2 min、3 min及5 min六種不同采樣間隔下的小時(shí)流量時(shí)變圖。從圖中可以明顯看出,隨著數(shù)據(jù)采樣間隔的增加,數(shù)據(jù)離散性和波動(dòng)性呈現(xiàn)減弱趨勢(shì)。
圖1 不同采樣間隔下的流量變化規(guī)律Fig.1 Volume variability under different intervals of sampling
為了定量的描述這種數(shù)據(jù)離散特性與數(shù)據(jù)采樣間隔之間的關(guān)系,本文提出了一種平滑濾波方法來定量衡量數(shù)據(jù)的波動(dòng)程度。采用實(shí)際檢測(cè)數(shù)據(jù)與經(jīng)過平滑濾波后的數(shù)值間的均方根誤差來表征數(shù)據(jù)的離散程度。根據(jù)數(shù)據(jù)特性,采用Tukey平滑算法對(duì)原始數(shù)據(jù)進(jìn)行處理,該方法采用中位數(shù)進(jìn)行魯棒估計(jì),具有很好的穩(wěn)定性。Tukey平滑算法的基本思想是通過原始數(shù)據(jù)產(chǎn)生一個(gè)曲面的進(jìn)而得到平滑估計(jì)值,其算法步驟如下:
1)通過原始的交通流時(shí)間序列參數(shù)x(i)構(gòu)造一個(gè)新的時(shí)間序列x′(i)。具體方法是取x(i),x(i+1), …,x(i+4)的中位數(shù)得到x′(i+2),然后舍去x(i)加入x(i+5)取中位數(shù)得到x′(i+3),以此類推;
2)用類似的方法在序列x′(i)相鄰的三個(gè)數(shù)據(jù)中選取中位數(shù)構(gòu)成新序列x″(i);
3)最后由序列x″(i)按式(1)的方式構(gòu)成最終序列x?(i):
(1)
通過上述3個(gè)步驟得到的時(shí)間序列x?(i)可以認(rèn)為是原始交通流數(shù)據(jù)較為穩(wěn)定的平滑值,根據(jù)實(shí)際數(shù)據(jù)與平滑值之間的誤差程度可以定量的描述原始數(shù)據(jù)的波動(dòng)程度。這種誤差值可以采用均方根誤差計(jì)算公式得到
(2)
圖2給出了上述相同情況下6種不同采樣間隔下的速度時(shí)變圖及經(jīng)過平滑處理后的速度曲線,從圖中可以看出,再經(jīng)過多次平滑處理后既保留了交通流的變化趨勢(shì)又去除了一些隨便波動(dòng)現(xiàn)象。通過對(duì)比原始數(shù)據(jù)和經(jīng)過平滑處理的數(shù)據(jù)可以表征交通流數(shù)據(jù)的離散程度。
根據(jù)不同采樣間隔下計(jì)算得到了流量和速度的RMSE值,可以建立RMSE與采樣間隔的函數(shù)關(guān)系,如圖3所示。從圖中可以看出,隨著采樣間隔的逐漸增加,流量和速度的均方根誤差均存在明顯的下降。在采樣間隔較小時(shí),均方根誤差下降明顯;隨著采樣間隔的逐漸增大,下降趨勢(shì)逐漸減緩。采用冪函數(shù)進(jìn)行曲線擬合,表明兩者具有較強(qiáng)的相關(guān)性。因此,可以利用這一關(guān)系來分析采樣間隔對(duì)數(shù)據(jù)波動(dòng)性的影響。
圖2 不同采樣間隔下的平均速度Tukey平滑結(jié)果Fig.2 Results of Tukey fitting of velocity under different intervals of sampling
圖3 均方根誤差與采樣間隔的關(guān)系Fig.3 Relation between RMSE and intervals of sampling
2數(shù)據(jù)篩選方法
通過交通流檢測(cè)器獲取的實(shí)時(shí)交通流參數(shù)(主要是流量、速度和時(shí)間占有率)由于受到外界因素的影響,會(huì)存在缺失、突變、錯(cuò)誤等異常情況,因而不能直接作為交通管理系統(tǒng)的數(shù)據(jù)輸入。對(duì)于采樣數(shù)據(jù)中的異常值篩選問題,在許多其他領(lǐng)域都形成了較為完善的理論與技術(shù)體系。然而,交通流數(shù)據(jù)具體突變、波動(dòng)、時(shí)空相關(guān)等特性,有別于其他采樣數(shù)據(jù)。通過深入挖掘交通流數(shù)據(jù)的內(nèi)在規(guī)律,文本提出了四步驟的動(dòng)態(tài)交通數(shù)據(jù)異常值篩選方法。
2.1初步篩選
初步篩選是指利用交通流參數(shù)流量(q)、速度(v)和時(shí)間占有率(o)之間簡(jiǎn)單的數(shù)值關(guān)系,將三參數(shù)作為統(tǒng)一整體進(jìn)行篩選,利用三者之間的相關(guān)關(guān)系把明顯錯(cuò)誤的組合形式篩選出來。
2.2閾值篩選
閾值篩選是指設(shè)置某些交通流參數(shù)臨界值,對(duì)超出臨界值的交通流參數(shù)進(jìn)行篩選的方法,保證了交通流參數(shù)在合理的范圍之內(nèi)。閾值篩選的關(guān)鍵是確定合適的臨界閾值,而這一閾值是與不同的地點(diǎn)、交通環(huán)境與數(shù)據(jù)采樣間隔密切相關(guān)的。通過上述對(duì)采樣間隔的影響數(shù)據(jù)波動(dòng)性的分析,本文提出了考慮數(shù)據(jù)采樣間隔的臨界閾值計(jì)算公式:
(3)
式中:xmax為交通流參數(shù)的臨界閾值;x0為交通流參數(shù)的基本限值,流量一般取車道通行能力,速度一般取路段最高限速;T為數(shù)據(jù)的采樣間隔;f()為交通流參數(shù)均方根誤差與采樣間隔T的擬合函數(shù),根據(jù)經(jīng)驗(yàn)數(shù)據(jù)得到。
2.3 交通流理論篩選
交通流理論篩選是指根據(jù)交通流理論中三參數(shù)關(guān)系模型或車輛到達(dá)特性分布等交通流理論模型來判斷實(shí)時(shí)數(shù)據(jù)是否存在異常值。雖然單個(gè)交通流參數(shù)符合閾值篩選要求,但若得到一組交通流參數(shù)不符合交通流理論篩選原則,則認(rèn)為這整組數(shù)據(jù)都是異常值,應(yīng)予以剔除。交通流理論篩選主要針對(duì)以下三方面的情況。
表1交通流三參數(shù)之間的初步篩選
Table 1Preliminary screening based on relationship of traffic three parameters
編號(hào)參數(shù)組合錯(cuò)誤類型處理方式1存在負(fù)值錯(cuò)誤剔除2q=0,v=0,o=0缺失或無車后續(xù)篩選3q≠0,v=0,o=0錯(cuò)誤刪除4q=0,v≠0,o=0錯(cuò)誤刪除5q=0,v=0,o≠0錯(cuò)誤刪除6q=0,v=0,o=1完全停車后續(xù)篩選7q=0,v≠0,o≠0錯(cuò)誤刪除8q≠0,v=0,o≠0錯(cuò)誤刪除9q≠0,v≠0,o=0待定后續(xù)篩選10q≠0,v≠0,o≠0待定后續(xù)篩選
2.3.1 數(shù)據(jù)都為零時(shí)的篩選
針對(duì)三參數(shù)數(shù)據(jù)全部為零的情況,主要存在如下兩種可能性:1)流量極低,在采樣間隔內(nèi)無車通過;2)受到數(shù)據(jù)傳輸中斷等因素影響,數(shù)據(jù)丟失。針對(duì)此種情況,需要加以區(qū)分,以免誤判。在極低流量情況下,車輛的到達(dá)服從泊松分布,其概率函數(shù)表達(dá)式為
(4)
式中:p(x)為采樣間隔內(nèi)到達(dá)x輛車的概率密度函數(shù),m為采樣間隔內(nèi)平均到達(dá)車輛數(shù),e為自然對(duì)數(shù)的底。
則在置信水平α下,采樣間隔內(nèi)有車輛到達(dá)的概率(即x>0的概率)為
(5)
因此,m=-lnα。若m>-lnα,則有1-α的概率不會(huì)出現(xiàn)流量為零的情況。通過設(shè)置水平α即可得到判別零流量是否異常的數(shù)據(jù)篩選準(zhǔn)則。
2.3.2 時(shí)間占有率為零時(shí)的最大流量篩選
從理論上來說,當(dāng)時(shí)間占有率為零時(shí),即可以表示在采樣間隔內(nèi)無車通過。但是考慮到時(shí)間占有率都采用兩位有效數(shù)字存儲(chǔ),且在速度較大時(shí)檢測(cè)器的靈敏度不足以檢測(cè)到車輛通過。因此,在實(shí)際數(shù)據(jù)中會(huì)存在一部分時(shí)間占有率數(shù)據(jù)為零,而流量速度數(shù)據(jù)非零的情況,這一比例可以達(dá)到2%以上。因此,對(duì)這一類數(shù)據(jù)進(jìn)行有效篩選就顯得很有必要。根據(jù)交通流三參數(shù)基本關(guān)系模型:
(6)
2.3.3平均有效車身長(zhǎng)度篩選
2.4質(zhì)量控制篩選
交通流數(shù)據(jù)在時(shí)間上具有一定的連貫性,即一定時(shí)間段內(nèi)的交通流參數(shù)不會(huì)出現(xiàn)突變。如果某一采樣間隔的交通流數(shù)據(jù)出現(xiàn)突變,則可以認(rèn)為該組交通流參數(shù)出現(xiàn)異常情況。這與產(chǎn)品生產(chǎn)中所采用的多元統(tǒng)計(jì)質(zhì)量控制方法類似。多元質(zhì)量控制是指對(duì)多個(gè)質(zhì)量特征共同進(jìn)行統(tǒng)計(jì)控制的一種統(tǒng)計(jì)方法[11]。結(jié)合交通流三參數(shù)之間的相關(guān)性,采樣多元質(zhì)量控制方法進(jìn)行異常值篩選。構(gòu)造多元質(zhì)量控制的指標(biāo)公式為
(7)
式中:I為多元數(shù)據(jù)質(zhì)量控制的指標(biāo),mqn、mvn、mon分別為n個(gè)采樣間隔流量、速度和時(shí)間占有率的均值,sqn、svn、son分別為流量、速度和時(shí)間占有率的標(biāo)準(zhǔn)差。
指標(biāo)I即是根據(jù)3σ原則建立的一個(gè)多元質(zhì)量控制的橢球體。若一組交通流參數(shù)qi、vi、oi使得I大于1,表明該交通流三參數(shù)向量在三維空間中的點(diǎn)落在了質(zhì)量控制橢球體之外,則該組數(shù)據(jù)是異常的,應(yīng)予以剔除,否則數(shù)據(jù)則是正常的。
3數(shù)據(jù)恢復(fù)方法
通過四步驟的數(shù)據(jù)篩選過程,就可以把交通流時(shí)間序列數(shù)據(jù)異常值篩選出來。為了能夠?qū)?dòng)態(tài)交通數(shù)據(jù)進(jìn)行實(shí)時(shí)應(yīng)用,就必須快速準(zhǔn)備對(duì)篩選出來的異常數(shù)據(jù)進(jìn)行恢復(fù),以適應(yīng)實(shí)時(shí)動(dòng)態(tài)的交通管控需求。針對(duì)不同的數(shù)據(jù)異常類型與數(shù)量,就需要建立不同的數(shù)據(jù)恢復(fù)方法。
3.1基于時(shí)間序列的數(shù)據(jù)恢復(fù)方法
時(shí)間序列的數(shù)據(jù)預(yù)測(cè)方法從本質(zhì)上來說都應(yīng)該適合交通流數(shù)據(jù)的恢復(fù)。但是考慮到交通流數(shù)據(jù)的實(shí)時(shí)性、隨機(jī)性和海量性,需要很強(qiáng)的在線處理能力。因此,本文采用較為簡(jiǎn)潔的平滑預(yù)測(cè)方法:
(8)
3.2 基于歷史數(shù)據(jù)的數(shù)據(jù)恢復(fù)方法
交通流數(shù)據(jù)的時(shí)間相關(guān)性既指時(shí)間序列中前后的關(guān)聯(lián)性,也指由于出行規(guī)律導(dǎo)致的同一時(shí)間段內(nèi)交通流參數(shù)存在相近的特性。因此,可以通過建立交通流數(shù)據(jù)庫(kù)的歷史數(shù)據(jù)來進(jìn)行異常值的恢復(fù)。交通流歷史數(shù)據(jù)計(jì)算公式為
(9)
式中:Hxi(k)為第k天第i采樣間隔的歷史數(shù)據(jù)值,xi(k)為實(shí)際檢測(cè)值,Hxi(k-7)為上周同一天同一采樣間隔的歷史數(shù)據(jù),η為平滑系數(shù)。因此,數(shù)據(jù)恢復(fù)方法可以為
(10)
式(10)即采用歷史數(shù)據(jù)對(duì)異常數(shù)據(jù)進(jìn)行恢復(fù),對(duì)于連續(xù)異常數(shù)據(jù)具有很好的恢復(fù)能力。這種方法簡(jiǎn)單易行能反映數(shù)據(jù)的趨勢(shì),但不能表征數(shù)據(jù)的微觀波動(dòng)特性。
3.3基于空間位置的數(shù)據(jù)恢復(fù)方法
交通流數(shù)據(jù)既在時(shí)間上具有相關(guān)性,同時(shí)也在空間上具有相關(guān)性,特別是城市道路交叉口不同進(jìn)口道、上下游斷面、快速路不同車道等區(qū)域,都存在著強(qiáng)相關(guān)性。利用這種空間相關(guān)性建立數(shù)據(jù)恢復(fù)方法如下:
(11)
該方法是基于不同車道歷史數(shù)據(jù)的比例關(guān)系,從而推算恢復(fù)異常數(shù)據(jù)。這種方法能夠改進(jìn)基于歷史數(shù)據(jù)的恢復(fù)方法,提高交通數(shù)據(jù)恢復(fù)的實(shí)時(shí)性。
3.4基于時(shí)空相關(guān)性的數(shù)據(jù)恢復(fù)方法
基于時(shí)空相關(guān)性的數(shù)據(jù)恢復(fù)方法是通過建立任意檢測(cè)器數(shù)據(jù)與其他檢測(cè)器數(shù)據(jù)在時(shí)空上的關(guān)聯(lián)模型,進(jìn)而通過其他檢測(cè)器數(shù)據(jù)對(duì)存在異常的數(shù)據(jù)進(jìn)行恢復(fù),改進(jìn)了數(shù)據(jù)回歸模型,考慮二元回歸及中值魯棒特性,建立數(shù)據(jù)恢復(fù)方法如下:
(12)
(13)
4實(shí)例驗(yàn)證
本部分將采用杭州市快速路檢測(cè)器數(shù)據(jù)對(duì)上述數(shù)據(jù)篩選與恢復(fù)方法進(jìn)行驗(yàn)證,以分析和比較方法的有效性與精確度。
4.1 方法流程
動(dòng)態(tài)交通數(shù)據(jù)的篩選與恢復(fù)流程主要包括數(shù)據(jù)篩選、數(shù)據(jù)恢復(fù)、歷史數(shù)據(jù)的更新等過程,如圖4所示。
圖4 動(dòng)態(tài)交通數(shù)據(jù)篩選與恢復(fù)流程Fig.4 Flow chart of dynamic traffic data screening and reconstruction
檢測(cè)器得到的每一采樣間隔的原始數(shù)據(jù)首先需要經(jīng)過四步驟的數(shù)據(jù)篩選過程,如果沒有異常,則直接進(jìn)行歷史數(shù)據(jù)更新與數(shù)據(jù)應(yīng)用。如果存在異常數(shù)據(jù),則需要根據(jù)錯(cuò)誤數(shù)據(jù)的類型選擇一種數(shù)據(jù)恢復(fù)方法進(jìn)行恢復(fù),再進(jìn)行后續(xù)的歷史數(shù)據(jù)更新與數(shù)據(jù)應(yīng)用。下面采用杭州市快速路的實(shí)測(cè)數(shù)據(jù)對(duì)該流程與方法進(jìn)行驗(yàn)證。數(shù)據(jù)來源于2014年7月杭州市快速路某斷面環(huán)形線圈檢測(cè)器24 h數(shù)據(jù),采樣間隔為5 min。
4.2數(shù)據(jù)驗(yàn)證
采用上述數(shù)據(jù)篩選方法對(duì)檢測(cè)器得到的實(shí)際數(shù)據(jù)進(jìn)行篩選,數(shù)據(jù)恢復(fù)方法采用時(shí)間序列的恢復(fù)方法。通過4步驟的數(shù)據(jù)篩選,總共剔除出9組錯(cuò)誤的數(shù)據(jù)點(diǎn)。流量、速度和時(shí)間占有率的異常數(shù)據(jù)篩選與恢復(fù)結(jié)果如圖5所示。
為了驗(yàn)證連續(xù)數(shù)據(jù)缺失情況下的數(shù)據(jù)恢復(fù)方法,以流量數(shù)據(jù)為例分別采用歷史數(shù)據(jù)、空間位置以及時(shí)空相關(guān)恢復(fù)方法,對(duì)杭州市快速路四個(gè)位置的24 h流量數(shù)據(jù)進(jìn)行恢復(fù),其中位置1的結(jié)果如圖6所示。
圖5 異常數(shù)據(jù)篩選與恢復(fù)結(jié)果Fig.5 Screening and reconstruction of abnormal data
圖6 大量缺失數(shù)據(jù)恢復(fù)結(jié)果Fig.6 Reconstruction results of lots of abnormal data
從圖6中可以看出,上述3種方法的數(shù)據(jù)恢復(fù)方法都能夠較好的擬合實(shí)際數(shù)據(jù),能夠滿足交通管理系統(tǒng)的需求,4個(gè)地點(diǎn)數(shù)據(jù)的誤差分析如表1所示。從中可以看出,3種方法的平均絕對(duì)誤差在70 veh/h左右,平均相對(duì)誤差都小于10%。不同方法在不同地點(diǎn)的恢復(fù)效果也不一樣,這是與數(shù)據(jù)采集的位置、歷史數(shù)據(jù)容量、周邊檢測(cè)器完好程度等因素密切相關(guān)的?;跉v史數(shù)據(jù)的恢復(fù)方法能夠反映數(shù)據(jù)的變化趨勢(shì),但是對(duì)于數(shù)據(jù)波動(dòng)與突變不能很好的展現(xiàn)?;诳臻g位置的恢復(fù)方法需要周邊相鄰車道數(shù)據(jù)完好,且需要有歷史數(shù)據(jù)作為支撐。從總體上看,基于時(shí)空相關(guān)性的數(shù)據(jù)恢復(fù)方法效果最好,但需要提前建立相關(guān)地點(diǎn)數(shù)據(jù)的回歸方程。
表2 恢復(fù)數(shù)據(jù)誤差比較
5結(jié)論
完整精確的實(shí)時(shí)動(dòng)態(tài)交通數(shù)據(jù)能夠?yàn)榻煌ü芾碚邔?shí)現(xiàn)交通管理與控制目標(biāo)奠定前提與基礎(chǔ)。針對(duì)原始檢測(cè)數(shù)據(jù)中存在的大量數(shù)據(jù)異常情況,本文提出了數(shù)據(jù)篩選與恢復(fù)的基本方法與流程,通過實(shí)際數(shù)據(jù)驗(yàn)證了方法的有效性與穩(wěn)定性,結(jié)果表明本文方法具有較高的精度以及較強(qiáng)的工程實(shí)用價(jià)值。在后續(xù)研究中,需重點(diǎn)考慮特殊事件情況下,交通數(shù)據(jù)隨機(jī)動(dòng)態(tài)變化所導(dǎo)致的錯(cuò)誤數(shù)據(jù)誤篩選問題,以及在連續(xù)大量數(shù)據(jù)缺失下,研究利用其他類型檢測(cè)器進(jìn)行多源數(shù)據(jù)融合的恢復(fù)方法。
參考文獻(xiàn):
[1]Texas Transportation Institute. Advances in traffic data collection and management[R]. Washington, DC: Federal Highway Administration, 2002.
[2]JENG C Y, MAY A D. Monitoring traffic detector information and incident control strategies: a survey[R]. Berkeley, California: University of California, 1984.
[3]LOMAX T, TURNER S, MARGIOTTA R. Monitoring urban roadways in 2000: using archived operations data for reliability and mobility measurement. FHWA-OP-02-029[R]. [S.l.]: Texas Transportation Institute, 2001.
[4]CLEGHORN D, HALL F L, GARBUIO D. Improved data screening techniques for freeway traffic management systems. Transportation Research Record 1320[R]. Washington, DC: Transportation Research Record, 1991: 17-23.
[5]TUROCHY R E, SMITH B L. A new procedure for detector data screening in traffic management systems. Transportation Research Record 1727 [R]. Washington, DC: Transportation Research Record, 2000: 127-131.
[6]CONKLIN J H, SCHERER W T. Data Imputation Strategies for Transportation Management Systems. UVACTS-13-0-80[R]. Charlottesville, VA: Center for Transportation Studies University of Virginia, 2003.
[7]裴玉龍, 馬驥. 實(shí)時(shí)交通數(shù)據(jù)的篩選與恢復(fù)研究[J]. 土木工程學(xué)報(bào), 2003, 36(7): 78-83.
PEI Yulong, MA Ji. Real-time traffic data screening and reconstruction[J]. China civil engineering journal, 2003, 36(7): 78-83.
[8]姜桂艷, 冮龍暉, 張曉東, 等. 動(dòng)態(tài)交通數(shù)據(jù)故障識(shí)別與修復(fù)方法[J]. 交通運(yùn)輸工程學(xué)報(bào), 2004, 4(1): 121-125.
JIANG Guiyan, GANG Longhui, ZHANG Xiaodong, et al. Malfunction identifying and modifying of dynamic traffic data[J]. Journal of traffic and transportation engineering, 2004, 4(1): 121-125.
[9]冮龍暉, 姜桂艷, 張曉東, 等. 智能運(yùn)輸系統(tǒng)交通傳感器數(shù)據(jù)的篩選與檢驗(yàn)[J]. 吉林大學(xué)學(xué)報(bào): 工學(xué)版, 2004, 34(1): 122-126.
GANG Longhui, JIANG Guiyan, ZHANG Xiaodong, et al. Screening and checking for ITS traffic sensor data[J]. Journal of Jilin university: engineering and technology edition, 2004, 34(1): 122-126.
Methods of real-time screening and reconstruction for dynamic traffic abnormal data
XU Cheng1, 2, QU Zhaowei1, TAO Pengfei1, JIN Sheng3
(1. College of Transportation, Jilin University, Changchun 130022, China; 2. Department of Traffic Management Engineering, Zhejiang Police College, Hangzhou 310053, China; 3. College of Civil Engineering and Architecture, Zhejiang University, Hangzhou 310058, China)
Abstract:Because of the large quantity of absence and abnormity of original traffic data in the real detector, by analyzing the influence of inner relationship of data acquisition interval and three traffic flow parameters and other factors, this paper designed a four-step data sieving method, including preliminary screening, threshold filtering, theoretical screening of traffic flow and quality control sieving. Then four data reconstruction methods used in different conditions were also proposed based on time series, historical data, spatial location and spatial-temporal correlation, lastly on the basis of this, the data preprocessing process was set up. Using the field data on the city expressway in Beijing, it indicates the algorithm can effectively remove abnormal data and the abnormal data reconstruction accuracy is less than 10%. These methods have been proven to have good real-time performance and stability, and can be used in engineering projects.
Keywords:interval of sampling; data screening; data reconstruction; multivariate statistical quality control; time series; spatio-temporal correlation; traffic theory screen; preprocessing traffic data
中圖分類號(hào):U491
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1006-7043(2016)02-0211-07
doi:10.11990/jheu.201503045
作者簡(jiǎn)介:徐程(1985-), 女, 講師, 博士研究生;通信作者:金盛,E-mail: jinsheng@zju.edu.cn.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(51278220, 51208462).
收稿日期:2015-03-16.網(wǎng)絡(luò)出版日期:2015-12-15.
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20151215.1030.012.html
曲昭偉(1962-), 男, 教授, 博士生導(dǎo)師;
金盛(1982-), 男, 副教授, 博士.