摘 要:交通數(shù)據(jù)的有效性分析和檢驗(yàn)是提高智能交通系統(tǒng)應(yīng)用效率的重要基礎(chǔ)之一。本文針對(duì)RFID匹配數(shù)據(jù),結(jié)合南京市建成的RFID交通數(shù)據(jù)采集平臺(tái),系統(tǒng)進(jìn)行了RFID匹配數(shù)據(jù)有效性分析,并提出了基于統(tǒng)計(jì)技術(shù)的RFID匹配數(shù)據(jù)有效性檢驗(yàn)方法。算例表明提出的方法可檢測(cè)出異常RFID匹配數(shù)據(jù)。
關(guān)鍵詞:RFID匹配數(shù)據(jù);異常數(shù)據(jù);數(shù)據(jù)有效性析;檢驗(yàn)
1 背景
城市化和機(jī)動(dòng)化的迅猛發(fā)展,使得城市機(jī)動(dòng)保有量日漸增加,隨之而來(lái)的是城市范圍內(nèi)的交通擁堵現(xiàn)象,降低了城市交通系統(tǒng)的運(yùn)行效率,嚴(yán)重影響了城市居民的日常工作和生活。為了應(yīng)對(duì)城市交通擁堵問(wèn)題,基于先進(jìn)技術(shù)應(yīng)用的城市智能交通系統(tǒng)建設(shè)得到了廣泛的關(guān)注,發(fā)展迅猛。如結(jié)合2008年北京奧運(yùn)會(huì)建立了北京奧運(yùn)智能交通管理與服務(wù)綜合系統(tǒng);結(jié)合2010年上海世博會(huì)建立了上海世博智能交通技術(shù)綜合集成系統(tǒng);結(jié)合2010年廣州亞運(yùn)會(huì)建立了廣州亞運(yùn)智能交通系統(tǒng)及應(yīng)用,一方面為上述重大體育比賽或文化盛會(huì)的順利完成發(fā)揮了保障和支撐作用,另一方面,又形成了一系列的解決我國(guó)城市交通擁堵的研究成果和技術(shù)解決方案。
和傳統(tǒng)的交通系統(tǒng)相比,廣泛的交通信息采集和處理是智能交通系統(tǒng)獨(dú)有的特點(diǎn)。在智能交通系統(tǒng)建設(shè)過(guò)程中,已經(jīng)有一系列的交通檢測(cè)技術(shù)得到了應(yīng)用,如傳統(tǒng)的磁感應(yīng)線(xiàn)圈技術(shù)、微波檢測(cè)技術(shù)、視頻檢測(cè)技術(shù)等,并在城市智能交通系統(tǒng)的建設(shè)領(lǐng)域獲得了廣泛的應(yīng)用。隨著信息采集和處理技術(shù)的進(jìn)一步發(fā)展,當(dāng)前以RFID(Radio Frequency Identification)技術(shù)為典型代表的基于物聯(lián)網(wǎng)技術(shù)的城市交通信息采集技術(shù)日益發(fā)展,并已經(jīng)在一些城市得到了應(yīng)用,如南京已經(jīng)建成的基于RFID技術(shù)的城市交通信息采集平臺(tái),可以采集到每一輛車(chē)的通行信息和特征信息,形成了海量的交通數(shù)據(jù)庫(kù),奠定了交通分析和信息挖掘的基礎(chǔ)。
然而隨著信息處理技術(shù)的不斷發(fā)展,城市交通系統(tǒng)領(lǐng)域雖然已經(jīng)相繼建立了大量的信息系統(tǒng),積累了海量的交通數(shù)據(jù),但是很多系統(tǒng)出現(xiàn)了“數(shù)據(jù)豐富,信息貧乏”現(xiàn)象,數(shù)據(jù)質(zhì)量不高是原因之一,主要表現(xiàn)在交通數(shù)據(jù)庫(kù)中存在相當(dāng)數(shù)據(jù)的錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)和可疑數(shù)據(jù)等三類(lèi)問(wèn)題[1-2]。為了應(yīng)對(duì)上述數(shù)據(jù)質(zhì)量問(wèn)題,數(shù)據(jù)有效性檢驗(yàn)技術(shù)應(yīng)運(yùn)而生。本文以目前領(lǐng)先的交通數(shù)據(jù)采集技術(shù)RFID技術(shù)為研究對(duì)象,分析RFID匹配數(shù)據(jù)的有效性,并提出基于統(tǒng)計(jì)技術(shù)的RFID匹配數(shù)據(jù)有效性檢驗(yàn)方法,以為后續(xù)的RFID數(shù)據(jù)挖掘和分析提供數(shù)據(jù)支撐。
2 交通數(shù)據(jù)采集和有效性檢驗(yàn)綜述
2.1 交通數(shù)據(jù)采集方法
城市交通運(yùn)行狀態(tài)的實(shí)時(shí)采集技術(shù),或城市交通運(yùn)行狀態(tài)的實(shí)時(shí)感知技術(shù)是構(gòu)建有效的城市智能交通系統(tǒng)的基礎(chǔ)。常用的道路交通狀態(tài)采集方法如下所述。
⑴感應(yīng)線(xiàn)圈。感應(yīng)線(xiàn)圈是一種常用的道路斷面交通數(shù)據(jù)采集技術(shù),其原理是通過(guò)預(yù)埋在道路面層下的感應(yīng)線(xiàn)圈感知通過(guò)的車(chē)輛,并計(jì)算交通狀態(tài)數(shù)據(jù),主要包括斷面流量,交通流斷面速度,占有率,其優(yōu)點(diǎn)是技術(shù)成熟,成本較低,可以探測(cè)到所有經(jīng)過(guò)感應(yīng)線(xiàn)圈的車(chē)輛數(shù)據(jù),缺點(diǎn)是須埋入路面,維護(hù)困難,受自然和車(chē)輛影響較大;并當(dāng)車(chē)輛擁堵嚴(yán)重時(shí),檢測(cè)精度下降。
⑵微波檢測(cè)器。微波檢測(cè)器是一種常用的道路斷面交通數(shù)據(jù)采集技術(shù),其原理是通過(guò)車(chē)輛的反射回波分析進(jìn)行車(chē)輛檢測(cè),優(yōu)點(diǎn)是在路側(cè)安裝,不影響路面,維護(hù)方便,在車(chē)流較為均勻穩(wěn)定時(shí)準(zhǔn)確度較高,缺點(diǎn)是在擁堵路段或者車(chē)流不穩(wěn)定路段檢測(cè)精度較低,特別是在有大車(chē)遮擋時(shí)檢測(cè)效果不理想。
⑶視頻檢測(cè)器。視頻檢測(cè)器是一種常用的道路斷面交通數(shù)據(jù)采集技術(shù),其原理是通過(guò)視頻攝像機(jī)作為傳感器采集交通視頻,并在視頻采集范圍內(nèi)設(shè)置虛擬檢測(cè)區(qū),通過(guò)視頻背景值的變化來(lái)檢測(cè)車(chē)輛,優(yōu)點(diǎn)是路側(cè)安裝,不影響路面,價(jià)格便宜,缺點(diǎn)是易受惡劣天氣、燈光和陰影等環(huán)境的影響。
⑷浮動(dòng)車(chē)。浮動(dòng)車(chē)是一種常用的路段交通數(shù)據(jù)采集技術(shù),其原理是通過(guò)在車(chē)輛上配置位置檢測(cè)器如GPS等,實(shí)時(shí)檢測(cè)車(chē)輛的行駛軌跡,并計(jì)算路段交通狀態(tài)數(shù)據(jù),其優(yōu)點(diǎn)是交通數(shù)據(jù)準(zhǔn)確,可以直接計(jì)算路段交通數(shù)據(jù),缺點(diǎn)是交通數(shù)據(jù)采集樣本受到檢測(cè)車(chē)輛的限制,難以構(gòu)建整體交通狀態(tài)數(shù)據(jù)庫(kù)。
⑸車(chē)牌匹配。車(chē)牌匹配是一種基于圖像處理的路段交通數(shù)據(jù)采集技術(shù),其原理是通過(guò)視頻檢測(cè)等技術(shù),在路段兩端進(jìn)行車(chē)輛車(chē)牌特征匹配,從而獲取路段交通狀態(tài)數(shù)據(jù),其優(yōu)點(diǎn)是可以獲得較多的路段交通狀態(tài)數(shù)據(jù),一旦匹配成功,數(shù)據(jù)準(zhǔn)確度較高,同樣,其缺點(diǎn)是車(chē)牌匹配受到車(chē)牌檢測(cè)技術(shù)限制很大,在復(fù)雜交通環(huán)境下難以實(shí)現(xiàn)有效的車(chē)牌識(shí)別及匹配。
上述傳統(tǒng)的交通數(shù)據(jù)采集技術(shù)側(cè)重于對(duì)交通流信息的采集,對(duì)單個(gè)車(chē)輛信息的關(guān)注整體上來(lái)說(shuō)不高;雖然個(gè)別方法如車(chē)牌匹配技術(shù)考慮到了車(chē)輛的識(shí)別信息,但上述識(shí)別信息受到圖像處理技術(shù)和復(fù)雜交通環(huán)境的限制,仍需采用更加先進(jìn)的技術(shù)加以完善和提高。物聯(lián)網(wǎng)技術(shù),特別是以RFID技術(shù)為代表的車(chē)輛網(wǎng)技術(shù)發(fā)展,為單一車(chē)輛特征數(shù)據(jù)的采集奠定了技術(shù)基礎(chǔ),使得車(chē)輛信息和車(chē)流信息的綜合采集成為了可能,為實(shí)現(xiàn)道路交通系統(tǒng)的綜合感知提供了前提。
2.2 交通數(shù)據(jù)有效性檢驗(yàn)
數(shù)據(jù)檢驗(yàn)技術(shù)最早出現(xiàn)在美國(guó),初期主要是針對(duì)全美社會(huì)保險(xiǎn)號(hào),取得了良好的效果。在交通數(shù)據(jù)有效性檢驗(yàn)領(lǐng)域,由于交通數(shù)據(jù)采集方法的限制,主要是針對(duì)基于線(xiàn)圈的交通數(shù)據(jù),常用的檢驗(yàn)方法主要包括邏輯檢驗(yàn)方法,閾值檢驗(yàn)方法,基于交通流理論的檢驗(yàn)方法,綜合檢驗(yàn)方法等[3-6]。邏輯檢驗(yàn)方法是檢測(cè)交通數(shù)據(jù)中的一些明顯的邏輯性錯(cuò)誤,如數(shù)據(jù)采集時(shí)間漂移、重復(fù)記錄等,可以通過(guò)人工觀測(cè)的方法實(shí)施。閾值檢驗(yàn)方法是常用的一種數(shù)據(jù)有效性檢驗(yàn)方法,其主要的原理是根據(jù)歷史交通數(shù)據(jù)資料、經(jīng)驗(yàn)公式或者交通流的基本理論,確定交通流參數(shù)的可能的取值范圍,如流量、占有率或者速度等,并根據(jù)上述確定的范圍的采集到的相應(yīng)交通流參數(shù)進(jìn)行檢驗(yàn),認(rèn)為落在預(yù)定范圍的交通流數(shù)據(jù)是可疑的。這個(gè)方法簡(jiǎn)單易行,但是閾值的確定往往受到多種因素的影響,在不同的情況下需要進(jìn)行特定的研究?;诮煌骼碚摰臋z驗(yàn)方法的基本原理是交通參數(shù)之間應(yīng)當(dāng)滿(mǎn)足交通流理論的規(guī)定性,如交通流量、密度和速度的三參數(shù)模型等,在出現(xiàn)不滿(mǎn)足上述交通流模型的情況時(shí),所采集到的交通流數(shù)據(jù)是可疑的。綜合檢測(cè)方法是將閾值檢測(cè)和交通流理論檢測(cè)等方法綜合應(yīng)用,以尋找交通流數(shù)據(jù)樣本中的更加隱蔽的可疑數(shù)據(jù),常用的如最大密度法和平均有效車(chē)長(zhǎng)法等。
在RFID數(shù)據(jù)有效性檢驗(yàn)方面,當(dāng)前的主要研究?jī)?nèi)容是針對(duì)RFID的原始數(shù)據(jù)流進(jìn)行有效性檢驗(yàn),主要方法有滑動(dòng)窗口方法[7]、時(shí)序關(guān)系法[8]、自適應(yīng)時(shí)間閾值法[9]等,然而在基于RFID技術(shù)的交通數(shù)據(jù)有效性檢驗(yàn)方面還處在初級(jí)的階段,研究成果并不多見(jiàn)。
3 RFID技術(shù)與RFID匹配數(shù)據(jù)
3.1 RFID技術(shù)
無(wú)線(xiàn)射頻識(shí)別技術(shù)(簡(jiǎn)稱(chēng)RFID)是一種非接觸式自動(dòng)識(shí)別技術(shù),其基本原理是利用射頻信號(hào)或空間耦合(電感或電磁耦合)的傳輸特性,實(shí)現(xiàn)對(duì)物體或商品的自動(dòng)識(shí)別,被廣泛應(yīng)用于物流、供應(yīng)鏈、動(dòng)物和車(chē)輛識(shí)別、門(mén)禁系統(tǒng)、圖書(shū)管理、自動(dòng)收費(fèi)和生產(chǎn)制造等領(lǐng)域。RFID射頻自動(dòng)識(shí)別技術(shù)由電子標(biāo)簽(Tag)、閱讀器(Reader)和數(shù)據(jù)交換與管理系統(tǒng)(Processor)三大部分組成。當(dāng)攜帶電子標(biāo)簽的物體在距離0~10米的范圍內(nèi)接近閱讀器時(shí),閱讀器內(nèi)部控制系統(tǒng)控制閱讀器發(fā)出微波查詢(xún)信號(hào);安裝在物體表面的電子標(biāo)簽收到閱讀器的查詢(xún)信號(hào)后,將此信號(hào)與標(biāo)簽中的數(shù)據(jù)信息合成一體反射回電子標(biāo)簽讀出裝置,反射回的微波合成信號(hào)已攜帶有電子標(biāo)簽數(shù)據(jù)信息,閱讀器接收到電子標(biāo)簽反射回的微波合成信號(hào)后,經(jīng)閱讀器內(nèi)部微處理器處理后即可將電子標(biāo)簽貯存的識(shí)別代碼等信息分離讀取出,進(jìn)一步傳輸?shù)綌?shù)據(jù)交換和管理系統(tǒng)存儲(chǔ),也可以通過(guò)相應(yīng)接口導(dǎo)出至數(shù)據(jù)庫(kù)進(jìn)行第二層面的處理。
RFID技術(shù)最大的優(yōu)點(diǎn)在于非接觸,在完成識(shí)別工作時(shí)無(wú)需人工干預(yù),適用于自動(dòng)化系統(tǒng),概括起來(lái),RFID技術(shù)具有以下特點(diǎn):1)識(shí)別精度高,可快速準(zhǔn)確的識(shí)別物體,2)采用無(wú)線(xiàn)電射頻,可以繞開(kāi)障礙物,并透過(guò)外部材料讀取數(shù)據(jù),可工作于惡劣的環(huán)境中,3)可以同時(shí)對(duì)多個(gè)物體進(jìn)行識(shí)讀,4)儲(chǔ)存的信息量大且信息可加密保存,是一般條形碼存貯信息量的幾十倍,甚至上百倍。
3.2 RFID匹配數(shù)據(jù)
RFID原始數(shù)據(jù)包括每輛裝有RFID標(biāo)簽的車(chē)輛通過(guò)各RFID基站的過(guò)車(chē)數(shù)據(jù),包括通過(guò)該基站的時(shí)間和RFID標(biāo)簽中存儲(chǔ)的準(zhǔn)確的車(chē)輛信息,如車(chē)牌等。利用傳輸系統(tǒng)將讀寫(xiě)器采集到的車(chē)輛信息傳回到交通信息中心后,基于RFID基站采集到過(guò)車(chē)車(chē)牌號(hào)和車(chē)輛通過(guò)時(shí)刻,針對(duì)任意一組和路網(wǎng)相匹配的RFID基站對(duì),可以匹配得到每一輛車(chē)通過(guò)該RFID基站對(duì)的平均行程車(chē)速,此類(lèi)由相鄰基站匹配而得到的數(shù)據(jù)稱(chēng)為匹配數(shù)據(jù)。值得說(shuō)明的是,在RFID匹配數(shù)據(jù)的計(jì)算過(guò)程中,RFID基站對(duì)的構(gòu)建是基礎(chǔ),必須考慮到路網(wǎng)的幾何拓?fù)浣Y(jié)構(gòu),在進(jìn)行車(chē)流方向分析的基礎(chǔ)上,形成以RFID基站對(duì)為基礎(chǔ)的完備的RFID基站網(wǎng)絡(luò)。
可以看出,上述RFID匹配數(shù)據(jù)的計(jì)算是基于RFID技術(shù)的交通數(shù)據(jù)采集系統(tǒng)中的關(guān)鍵環(huán)節(jié)之一,其匹配數(shù)據(jù)直接體現(xiàn)了每一車(chē)輛的行駛狀態(tài)信息,為進(jìn)行進(jìn)一步的數(shù)據(jù)處理、獲得其他交通數(shù)據(jù)參數(shù)奠定了基礎(chǔ)。在上述過(guò)程中,由于交通路網(wǎng)和交通駕駛行為的復(fù)雜性,RFID匹配數(shù)據(jù)往往也存在和傳統(tǒng)交通數(shù)據(jù)采集方法相類(lèi)的數(shù)據(jù)質(zhì)量問(wèn)題,需要加以分析和檢驗(yàn),提高RFID匹配數(shù)據(jù)的有效性和質(zhì)量。
4 RFID匹配數(shù)據(jù)有效性分析和檢驗(yàn)
如上所述,高質(zhì)量的交通流數(shù)據(jù)是智能運(yùn)輸系統(tǒng)得以實(shí)現(xiàn)預(yù)期功能的基礎(chǔ)。RFID技術(shù)作為在智能交通數(shù)據(jù)采集技術(shù)的最新發(fā)展,具有快速獲得大量車(chē)輛信息的特點(diǎn),其中RFID匹配數(shù)據(jù)是其中最為基礎(chǔ)和重要的數(shù)據(jù)。為了提高RFID匹配數(shù)據(jù)的質(zhì)量,有必要對(duì)RFID匹配數(shù)據(jù)進(jìn)行有效性分析和檢驗(yàn),以提高數(shù)據(jù)集質(zhì)量,奠定后續(xù)數(shù)據(jù)挖掘和分析的基礎(chǔ)。以下以南京市建設(shè)的基于RFID技術(shù)的交通系統(tǒng)采集平臺(tái)為對(duì)象進(jìn)行RFID匹配數(shù)據(jù)的有效性分析和檢驗(yàn)。
4.1 RFID匹配數(shù)據(jù)分析
⑴數(shù)據(jù)選擇。RFID匹配數(shù)據(jù)的選擇包括RFID基站對(duì)的選擇和分析時(shí)段的選擇,如下所述。
1)選取基站對(duì):根據(jù)基站所在道路的不同類(lèi)型和交通狀況,選取RFID樣本基站對(duì)。路段類(lèi)型主要選取主干道、次干道和支路3類(lèi),交通情況選取擁堵、交通量較大、自由流3種情況,則共選取3*3=9種情況下的基站對(duì),各選取5個(gè)基站對(duì),共45個(gè)基站對(duì)。在選取時(shí)要注意選取有視頻的基站對(duì),以對(duì)比查看道路交通狀況。
2)選取時(shí)間段:選取高峰、平峰、夜間三種情況的時(shí)間段共2小時(shí),如7:30-8:00,14:00-14:30,1:00-1:30。
⑵實(shí)例分析。在選定數(shù)據(jù)的基礎(chǔ)上,采用如下步驟進(jìn)行數(shù)據(jù)的分析,即調(diào)取每個(gè)RFID基站對(duì)在某一時(shí)間段內(nèi)各匹配數(shù)據(jù)經(jīng)過(guò)起終點(diǎn)基站的時(shí)刻數(shù)據(jù),逐個(gè)查看其時(shí)間差t,若t<0,一定是錯(cuò)誤數(shù)據(jù),否則利用該子路段長(zhǎng)度計(jì)算得到該車(chē)輛的行程車(chē)速并與交通狀況進(jìn)行對(duì)比,如果車(chē)速與交通狀況矛盾,則存在可疑。如下給出兩個(gè)典型的分析實(shí)例。
1)繞路導(dǎo)致行程車(chē)速為負(fù)值。分析發(fā)現(xiàn)在RFID基站對(duì)(6117,6115)在2012/10/23日14:00-14:20內(nèi)的過(guò)車(chē)數(shù)據(jù)中,“蘇0001”的行程車(chē)速為負(fù)值,明顯是錯(cuò)誤數(shù)據(jù)(為保護(hù)駕駛?cè)穗[私,本文對(duì)車(chē)輛牌照信息加以隱藏處理,下同)。追蹤該車(chē)在當(dāng)日17:30-17:50的過(guò)車(chē)路徑情況如下圖1所示,可以看出,該車(chē)輛依次經(jīng)過(guò)RFID基站6117和6115后,因兩次調(diào)頭,又經(jīng)過(guò)了RFID基站6116,并再次經(jīng)過(guò)了RFID基站6117,在數(shù)據(jù)匹配時(shí),由于RFID基站檢測(cè)技術(shù)在路段上基站檢測(cè)范圍外的檢測(cè)和跟蹤盲點(diǎn),將通過(guò)RFID基站6115的時(shí)間和第二次經(jīng)過(guò)RFID基站6117的時(shí)間進(jìn)行了匹配,導(dǎo)致了行程車(chē)速為負(fù)的情況。
2)繞路導(dǎo)致行程車(chē)速過(guò)小?;緦?duì)(6024,6026)在2012/10/23日17:30-17:50的過(guò)車(chē)數(shù)據(jù)中的速度分布如圖2。通過(guò)視頻跟蹤發(fā)現(xiàn)當(dāng)時(shí)該基站對(duì)間路段的交通狀況為輕微擁堵,大部分?jǐn)?shù)據(jù)是與交通狀況相符的,但有3個(gè)小于10km/h的速度值與其他的數(shù)據(jù)相比偏小,需進(jìn)一步分析。
選取最小值,即牌號(hào)為“蘇0002”的車(chē)輛的行程車(chē)速5.76km/h進(jìn)行分析,追蹤該車(chē)牌在當(dāng)日17:30-17:50的過(guò)車(chē)路徑情況如下圖3,可以發(fā)現(xiàn)該車(chē)輛在經(jīng)過(guò)起點(diǎn)基站6024后,又經(jīng)過(guò)了另外兩個(gè)站點(diǎn)后才經(jīng)過(guò)終點(diǎn)基站6026,存在繞路的情況,導(dǎo)致其經(jīng)過(guò)基站對(duì)(6024,6026)的行程車(chē)速偏小,不能很好的代表該路段的交通狀況,需要檢驗(yàn)處理。
⑶總結(jié)。在進(jìn)行大量實(shí)證數(shù)據(jù)分析的基礎(chǔ)上,總結(jié)形成RFID匹配數(shù)據(jù)異常數(shù)據(jù)分析總結(jié)表如表1。
4.2 基于統(tǒng)計(jì)的匹配數(shù)據(jù)檢測(cè)
在大量RFID匹配數(shù)據(jù)分析的基礎(chǔ)上,提出基于統(tǒng)計(jì)分析的匹配數(shù)據(jù)有效性檢驗(yàn)方法,實(shí)現(xiàn)對(duì)RFID匹配數(shù)據(jù)的有效性檢驗(yàn)。
⑴算法原理。由于交通流的漸變特性,在固定時(shí)間段內(nèi)道路上的車(chē)輛車(chē)速分布相對(duì)連續(xù),這也就說(shuō)明匹配車(chē)速的分布不可能在短時(shí)間內(nèi)出現(xiàn)大幅度的偏差,針對(duì)這種狀況可以采用統(tǒng)計(jì)的方法對(duì)匹配車(chē)速進(jìn)行有效性檢驗(yàn)。根據(jù)RFID匹配數(shù)據(jù)的連續(xù)性特征,提出利用統(tǒng)計(jì)分布模型對(duì)匹配車(chē)速進(jìn)行有效性檢驗(yàn),針對(duì)RFID基站對(duì)在固定時(shí)間段內(nèi)采集到的車(chē)輛車(chē)速計(jì)算其均值μ和方差σ,并假設(shè)上訴車(chē)輛車(chē)速符合正態(tài)分布,所以根據(jù)正態(tài)分布的性質(zhì),構(gòu)建(μ-2σ,μ+2σ)區(qū)間作為有效的RFID匹配數(shù)據(jù)范圍,其中95%的RFID匹配數(shù)據(jù)將落在該區(qū)間內(nèi),而將落在該區(qū)間之外的RFID匹配數(shù)據(jù)作為可疑的數(shù)據(jù)加以處理。除此之外,考慮到城市交通速度的可能范圍,選取120km/h作為城市交通流速度的上限。綜上所述,基于統(tǒng)計(jì)技術(shù)的RFID匹配數(shù)據(jù)有效性檢驗(yàn)步驟如下:
1)獲取RFID原始數(shù)據(jù)。2)選定某一時(shí)間段和RFID基站對(duì),獲取RFID匹配數(shù)據(jù),計(jì)算車(chē)輛的行程車(chē)速。3)計(jì)算RFID匹配數(shù)據(jù)的行程車(chē)速的均值μ和方差σ。4)根據(jù)均值μ和方差σ確定閾值。5)根據(jù)閾值,檢驗(yàn)該時(shí)間段內(nèi)該RFID匹配數(shù)據(jù)的有效性:若v1<0或v1>120km/h,則v1屬于錯(cuò)誤數(shù)據(jù);若μ-2σ< v1<μ+2σ,則v1屬于正常數(shù)據(jù);否則,v1屬于可疑數(shù)據(jù)。
⑵算例。以基站對(duì)(6095,6096)的17:59:00-18:00:00時(shí)間段內(nèi)RFID匹配車(chē)速作為樣本進(jìn)行檢驗(yàn)實(shí)例分析。在選定的基站對(duì)和時(shí)間范圍內(nèi),共有9個(gè)速度樣本如表2。
根據(jù)表2數(shù)據(jù)計(jì)算出匹配車(chē)速的均值μ=34.64km/h,方差σ=13.91km/h,從而得到該時(shí)段匹配車(chē)速的閾值范圍為(6.82km/h,62.46km/h),并根據(jù)該范圍篩選出車(chē)牌蘇0010的匹配車(chē)速為異常數(shù)據(jù)。通過(guò)對(duì)該路段在該時(shí)間段內(nèi)的視頻觀察,可以發(fā)現(xiàn)該路段交通流在高峰時(shí)段17:30:00至18:30:00間緩慢前進(jìn),車(chē)速穩(wěn)定在較低水平,不可能出現(xiàn)大幅度的跳躍,確認(rèn)蘇0010的匹配車(chē)速為異常數(shù)據(jù),驗(yàn)證了算法的有效性。
5 結(jié)論
以RFID技術(shù)為典型代表的物聯(lián)網(wǎng)技術(shù)將提高智能交通系統(tǒng)的數(shù)據(jù)采集效率,構(gòu)建海量的交通數(shù)據(jù)庫(kù)。然而,上述數(shù)據(jù)庫(kù)的有效分析和信息挖掘要求RFID數(shù)據(jù)具有較高的質(zhì)量。本文在闡述相關(guān)的交通數(shù)據(jù)采集和有效性分析方法的基礎(chǔ)上,針對(duì)RFID匹配數(shù)據(jù),結(jié)合南京市建成的RFID交通數(shù)據(jù)采集平臺(tái)數(shù)據(jù),系統(tǒng)進(jìn)行了RFID匹配數(shù)據(jù)的有效性分析,發(fā)現(xiàn)各類(lèi)RFID匹配數(shù)據(jù)異?,F(xiàn)象,并結(jié)合現(xiàn)場(chǎng)視頻深入分析了異常的原因;同時(shí),在進(jìn)行RFID匹配數(shù)據(jù)有效性分析的基礎(chǔ)上,利用統(tǒng)計(jì)技術(shù)提供了一種RFID匹配數(shù)據(jù)有效性判別方法,并給出了實(shí)際的算例,結(jié)果表明,所提出的有效性算法可以檢測(cè)異常的RFID匹配數(shù)據(jù)。
交通數(shù)據(jù)的有效性分析和檢驗(yàn)是提高智能交通系統(tǒng)應(yīng)用效率的重要基礎(chǔ)之一。在RFID交通數(shù)據(jù)采集技術(shù)領(lǐng)域,由于RFID交通采集技術(shù)的應(yīng)用尚不廣泛,在該方向的研究還處在起始階段,本文的研究成果將推動(dòng)該領(lǐng)域的研究發(fā)展。
致謝
本研究受到國(guó)家科技支撐計(jì)劃課題No.2011BAK21B01《南京城市綜合智能交通系統(tǒng)關(guān)鍵技術(shù)研究及應(yīng)用示范》資助。
[參考文獻(xiàn)]
[1]耿彥斌,于雷,趙慧.ITS 數(shù)據(jù)質(zhì)量控制技術(shù)及應(yīng)用研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2005,15(1): 82-87.
[2]王曉原,張敬磊,吳芳.交通流數(shù)據(jù)清洗規(guī)則研究[J].計(jì)算機(jī)工程,2011,37(20):191-193.
[3]秦玲,郭艷梅.吳鵬.斷面交通檢測(cè)數(shù)據(jù)檢驗(yàn)及預(yù)處理關(guān)鍵技術(shù)研究[J].公路交通科技,2006(11):39-41.
[4]Turochy R.E and Smith B.L.New procedure for detector data screening in traffic management systems[J].Transportation Research Record,2000,No.1727:127-131.
[5]Jacobson L.N.,Nihan N .L.and Bender J.D.Detecting erroneous loop detector data in a freeway traffic management system[J].Transportation Research Record,1990,1287:151-166.
[6]Chen C.,Kwon J.,Rice J.,et al.Detecting errors and imputing missing data for single-loop surveillance systems [J].Transportation Research Record,2003,No.1855:160-167.
[7]周興強(qiáng).RFID數(shù)據(jù)流清洗技術(shù)及其系統(tǒng)實(shí)現(xiàn)[D].大連海事大學(xué),2011,5:1-8.
[8]王霞,玄麗娟,夏秀峰.基于時(shí)序關(guān)系的RFID不確定數(shù)據(jù)清洗算法[J]. 遼寧大學(xué)學(xué)報(bào),2012,39(2):159-161.
[9]潘偉杰,李少波,許吉斌.自適應(yīng)時(shí)間閾值的RFID數(shù)據(jù)清洗算法[J],制造業(yè)自動(dòng)化,2012,34(7):24-27.