田春瑾
摘要:射頻識(shí)別技術(shù)(RFID)是近年來(lái)發(fā)展很快的一種非接觸式的自動(dòng)識(shí)別技術(shù),無(wú)接觸、能穿透非金屬介質(zhì)、識(shí)別距離大、使用壽命長(zhǎng)以及信息收集處理快捷等優(yōu)點(diǎn)。近幾年,為提高我國(guó)物流的效率,國(guó)家加大了RFID相關(guān)技術(shù)領(lǐng)域的投資。如何將RFID產(chǎn)生的海量數(shù)據(jù)進(jìn)行有效預(yù)處理,提高數(shù)據(jù)的利用效率,該文對(duì)RFID數(shù)據(jù)的特點(diǎn)進(jìn)行闡述分析,對(duì)RFID數(shù)據(jù)清理技術(shù)及數(shù)據(jù)挖掘技術(shù)做了介紹。
關(guān)鍵詞:RFID;數(shù)據(jù)挖掘;數(shù)據(jù)清洗
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)31-7502-02
無(wú)限射頻識(shí)別(Radio Frequency Identification)技術(shù)是一種非接觸式的自動(dòng)識(shí)別技術(shù),這種技術(shù)可通過(guò)無(wú)線(xiàn)電訊號(hào)識(shí)別特定目標(biāo)并讀寫(xiě)相關(guān)數(shù)據(jù),而無(wú)需識(shí)別系統(tǒng)與特定目標(biāo)之間建立機(jī)械或光學(xué)接觸。RFID與傳統(tǒng)的識(shí)別技術(shù)相比,具有無(wú)接觸、能穿透非金屬介質(zhì)、識(shí)別距離大、使用壽命長(zhǎng)以及信息收集處理快捷等優(yōu)點(diǎn)。目前應(yīng)用非常廣泛,尤其對(duì)零售及物流等產(chǎn)業(yè)帶來(lái)了革命性的變化。
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取有用信息的過(guò)程,是一種從大型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中提取隱藏預(yù)測(cè)信息的技術(shù)。數(shù)據(jù)挖掘通過(guò)聚類(lèi)、OLAP等多種方式提取信息,以便決策者對(duì)未來(lái)活動(dòng)進(jìn)行預(yù)測(cè)與計(jì)劃。目前在各種商業(yè)領(lǐng)域都有廣泛的應(yīng)用。比如:應(yīng)用RDIF技術(shù)的供應(yīng)商沃爾瑪在三天內(nèi)所收集的數(shù)據(jù)量就相當(dāng)于整個(gè)美國(guó)國(guó)會(huì)電子圖書(shū)館的數(shù)據(jù)量[1]。面對(duì)海量的數(shù)據(jù),在應(yīng)用環(huán)境中如何處理并進(jìn)行有效的分析是擺在當(dāng)前RFID數(shù)據(jù)挖掘技術(shù)上的難題。
1 RFID數(shù)據(jù)特點(diǎn)
RFID數(shù)據(jù)的產(chǎn)生是伴隨著物品的運(yùn)動(dòng)而來(lái)的。當(dāng)帶有標(biāo)簽的物品進(jìn)入磁場(chǎng)時(shí)會(huì)發(fā)送自身的EPC(Electronic ProductCode)編碼等信息,部署在不同位置的RFID閱讀器通過(guò)天線(xiàn)向周?chē)l(fā)送某一頻率的射頻信號(hào),讀取標(biāo)簽中的信息并解碼后將數(shù)據(jù)送至中央信息系統(tǒng),并形成一個(gè)三元組(EPC,Location,Time)插入到生產(chǎn)數(shù)據(jù)中。RFID數(shù)據(jù)不僅具有傳統(tǒng)數(shù)據(jù)相同的特征,還有自己的特點(diǎn)。對(duì)這些特點(diǎn)的研究正是對(duì)RFID數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的起點(diǎn)。其主要特點(diǎn)如下:
①原始數(shù)據(jù)元組結(jié)構(gòu)簡(jiǎn)單:RFID所產(chǎn)生的數(shù)據(jù)是一個(gè)三元組,EPC是電子標(biāo)簽的編碼,它唯一代表了一個(gè)物品。Location是 EPC被閱讀器讀出的位置,最初可能是閱讀器的編碼,通過(guò)處理后會(huì)變成部署該閱讀器的位置。Time是EPC被讀取時(shí)的時(shí)間。這些數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,元組組成的語(yǔ)義明確。
②數(shù)據(jù)量大:隨著物品頻繁的移動(dòng),大量的RFID數(shù)據(jù)自動(dòng)快速的產(chǎn)生。即便是最先進(jìn)的RFID系統(tǒng),每天也會(huì)產(chǎn)生幾個(gè)GB的記錄[2]。這將是對(duì)目前數(shù)據(jù)挖掘方法的挑戰(zhàn)。
③數(shù)據(jù)不準(zhǔn)確:由于閱讀器在讀取數(shù)據(jù)的過(guò)程中,可能會(huì)沒(méi)有讀取到需要的標(biāo)簽或者誤讀了工作范圍內(nèi)的標(biāo)簽在實(shí)際應(yīng)用中,甚至可能會(huì)將停留在同一地點(diǎn)的一段時(shí)間再次讀取一次,造成數(shù)據(jù)的冗余。在實(shí)際應(yīng)用中,閱讀器出現(xiàn)這種現(xiàn)象的概率大概有60%-70%。
2 RFID數(shù)據(jù)清洗
由于在RFID閱讀器的原始數(shù)據(jù)中存在著大量數(shù)據(jù)漏讀、誤讀以及在密集閱讀器的環(huán)境下還會(huì)產(chǎn)生大量的冗余數(shù)據(jù)。因此,為了獲取高質(zhì)量的RFID數(shù)據(jù),對(duì)原始的數(shù)據(jù)進(jìn)行清洗是目前采用的普遍的方法。目前,在RFID數(shù)據(jù)清洗領(lǐng)域已經(jīng)取得了一定的研究成果,但很多問(wèn)題亟待解決。
2.1 針對(duì)漏讀與誤讀問(wèn)題
RFID數(shù)據(jù)清理針對(duì)漏讀與誤讀問(wèn)題,很多學(xué)者提出了若干方案,最常用的方法就是平滑過(guò)濾。Jeffery等人提出了一種統(tǒng)計(jì)平滑處理算法SMURF,它將RFID數(shù)據(jù)流當(dāng)作統(tǒng)計(jì)學(xué)中的隨機(jī)事件,通過(guò)概論統(tǒng)計(jì)方法對(duì)漏讀的數(shù)據(jù)進(jìn)行填補(bǔ)。該方法可以根據(jù)標(biāo)簽閱讀率的大小,自適應(yīng)決定窗口的大小。文獻(xiàn)[4]提出了一種改進(jìn)的算法。另外,還有一些研究機(jī)構(gòu)根據(jù)特定領(lǐng)域的應(yīng)用語(yǔ)義和完整性約束規(guī)則來(lái)清洗RFID數(shù)據(jù)。例如H.Gonzalez[5]提出了一種基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的清洗方法DBNs,該方法考慮了它的觀測(cè)值和估計(jì)值,與滑動(dòng)窗口不同,它給最近數(shù)據(jù)更高的權(quán)重。另外,還有ESP機(jī)制,卡爾曼濾波算法等等。
2.2 針對(duì)數(shù)據(jù)冗余問(wèn)題
RFID數(shù)據(jù)清理針對(duì)數(shù)據(jù)冗余問(wèn)題,也有很多學(xué)者提出了軟若干方案,Y.Bai[6]提出了用max_distance來(lái)確定RFID數(shù)據(jù)是否是冗余數(shù)據(jù)。Metwally等提出利用Bloom Filters檢測(cè)數(shù)據(jù)流中的冗余,但當(dāng)數(shù)據(jù)流是長(zhǎng)時(shí)間持續(xù)產(chǎn)生的,那么Bloom Filters將失效但,隨后,Deng利用Stable Bloom Filter解決了問(wèn)題。為了去除流環(huán)境中舊數(shù)據(jù),Stable Bloom Filter設(shè)置單元數(shù)為對(duì)應(yīng)輸入數(shù)據(jù)的最大值,無(wú)論何時(shí)數(shù)據(jù)到達(dá),減少隨機(jī)選取的單元數(shù)。文獻(xiàn)[7]提出了基于MBF(Matrix Bloom Filter)的清洗算法TIMBF(Time Interval MBF),是一種改進(jìn)的Bloom Filter,支持動(dòng)態(tài)數(shù)據(jù)集。不會(huì)產(chǎn)生消極錯(cuò)誤。另外,還有Wang[8]等提出的一種解決分布式數(shù)據(jù)流的冗余數(shù)據(jù)清洗方法等。
3 RFID數(shù)據(jù)挖掘
由于RFID數(shù)據(jù)有著特殊的數(shù)據(jù)結(jié)構(gòu),它不僅包括物品的編碼,而且還包括位置以及時(shí)間,分析物品的移動(dòng)可以得到路徑痕跡信息,這些信息僅有助于提高商業(yè)的效率。但是經(jīng)過(guò)清洗的數(shù)據(jù)仍然是海量的,采用數(shù)據(jù)挖掘技術(shù)可以從海量的RFID路徑數(shù)據(jù)中挖掘出用戶(hù)所需要的信息,這將對(duì)RFID應(yīng)用領(lǐng)域有非常大的價(jià)值。
對(duì)于RFID的數(shù)據(jù)挖掘主要集中在數(shù)據(jù)類(lèi)聚和頻繁路徑的挖掘中。在RFID應(yīng)用中,粒度的選擇更為困難,不僅要考慮傳統(tǒng)的維度的抽象級(jí)別,還要從路徑或者路徑段出現(xiàn)的不同抽象級(jí)別或誤讀的抽象角度出發(fā)。RFID路徑中主要有空間位置和時(shí)間兩個(gè)屬性,這就需要聚類(lèi)方法能夠處理位置信息、時(shí)間信息,以獲時(shí)空相關(guān)的、有用的、潛在的信息模式。聚類(lèi)的目標(biāo)是在給定的時(shí)間周期內(nèi),將對(duì)應(yīng)的流數(shù)據(jù)劃分成不同的簇。其中,最常用的CluStream算法及其各種改進(jìn)算法。
針對(duì)數(shù)據(jù)流的頻繁模式挖掘,有許多學(xué)者研究各種挖掘的算法。BarjeshKochar[9] 提出了一種RFID數(shù)據(jù)頻繁模式的挖掘方法,該方法從RFID原始數(shù)據(jù)庫(kù)匯總產(chǎn)生中間數(shù)據(jù)集。在挖掘頻繁模式的過(guò)程匯總,產(chǎn)生模糊規(guī)則,用來(lái)描述不同的RFID標(biāo)簽特征。Yunhao Liu[10] 提出RFID技術(shù)在活動(dòng)監(jiān)視中應(yīng)用的便捷性,主要致力于頻繁模式的挖掘,提出了RFID數(shù)據(jù)的收集和處理方法,利用RF array對(duì)頻繁路徑挖掘。
RFID數(shù)據(jù)挖掘的主要工作是挖掘RFID數(shù)據(jù)庫(kù)中的頻繁路徑,用戶(hù)需要通過(guò)頻繁路徑信息作出決策。對(duì)頻繁路徑的算法有滑動(dòng)窗口頻繁閉路徑挖掘算法,頻繁封閉路徑挖掘算法,頻繁圖的路徑挖掘算法等等。RFID的路徑數(shù)據(jù)是由若干路徑段組成的序列,基本定義為:
① 子路徑:假設(shè)有路徑P1((l1,t1)……(lm,tm)),P2((l1,t1)……(ln,tn)),如果P1的所有元素都包含在P2中,即P1為P2的一個(gè)子集,則P1是P2的子路徑,即P1 ?P2。
② 頻繁路徑:假設(shè)有路徑P1,count(p)為路徑P的支持?jǐn)?shù),定義一個(gè)最小支持度閥值為min,如果count (p)≥min 則P為頻繁路徑模式。
③ 封閉路徑:假設(shè)有頻繁路徑P,P的真超集為Q,不存在路徑Q,使得等式count(P)=count(Q)成立,則P是封閉路徑模式,反之等式成立,則P不是封閉路徑模式。
挖掘頻繁路徑比挖掘頻繁閉合路徑要簡(jiǎn)單一些,不用檢查得到的頻繁路徑是否為封閉,但有時(shí)候挖掘出來(lái)的頻繁路徑數(shù)量過(guò)大,而頻繁閉合路徑的挖掘可以壓縮冗余信息,不會(huì)丟失頻繁路徑的信息。
4 結(jié)束語(yǔ)
RFID數(shù)據(jù)研究除了數(shù)據(jù)的清理,數(shù)據(jù)的挖掘,還包括數(shù)據(jù)的存儲(chǔ)壓縮,RFID數(shù)據(jù)的檢測(cè)等等。隨著RFID技術(shù)的不斷發(fā)展,應(yīng)用的范圍不斷擴(kuò)大,RFID數(shù)據(jù)的處理將不斷細(xì)化,這些復(fù)雜數(shù)據(jù)的處理方面都提供了可供繼續(xù)研究的內(nèi)容。
參考文獻(xiàn):
[1] 趙衛(wèi)東.RFID數(shù)據(jù)挖掘的的發(fā)展[J]. 石油石化物資采購(gòu),2010(5).
[2] 李力振.基于復(fù)合編碼的RFID數(shù)據(jù)倉(cāng)儲(chǔ)模型的研究[D]. 華南理工大學(xué),2010.
[3] 楊澤如.淺議數(shù)據(jù)倉(cāng)庫(kù)技術(shù)對(duì)RFID數(shù)據(jù)的應(yīng)用[J].企業(yè)技術(shù)開(kāi)發(fā), 2012(4).
[4] LingyongMengFengqiYu.RFID Data Cleaning Based on Adaptive Window [C].Proc of the 2nd International Conference on Future Computer and Communication. Wuhan,China 2010
[5] H.Gonzalez,J.Han,andX.Shen.Cost-Consious Cleaning of Massive RFID Data Sets [C].In ICDE,2007
[6] BAI Y,WANG F,LIU P.Efficiently Filtering RFID Data Streams [C]Proceedings of Very Large Data Bascs Workshop on Clean Database. Seoul:CleanDB,2006
[7] 付文秀,李星.基于MBF的RFID冗余數(shù)據(jù)清洗[J].鐵道學(xué)報(bào), 2013(7):85-89.
[8] X. Wang,Q.Zhang,Y.Jia. Efficiently filtering duplicates over distributed data streams. International Conference on Computer Science and Software Engineering(CSSE)[C].2008
[9] KocharB,Rjajender S C.A Novel RFID Data Mining System: Integration of Effective Sequential Pattern Mining and Fuzzy Rules Generation Techniques[J].International Journal of Wireless Information Networks,2011.
[10] Liu Y H,Zhao Y Y.Mining Frequent Trajectory Patterns for Activity Monitoring Using Radio Frequency Tag Arrays[J].IEEE Transactions on Parallel and Distributed System,2012.
[11] 陳竹西,胡孔法.現(xiàn)代物流系統(tǒng)中的頻繁封閉路徑挖掘算法[J].計(jì)算機(jī)集成制造系統(tǒng),2009,15(4):809-816.