林曉佳,黃榕寧
(1.福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福建 福州350116;2.福州師范大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福建 福州350117)
傳感器網(wǎng)絡(luò)在工業(yè)、農(nóng)業(yè)、醫(yī)療等各個領(lǐng)域應(yīng)用越來越廣泛,數(shù)據(jù)集成度逐步提高,數(shù)據(jù)量增長迅速,于是各領(lǐng)域用戶對于數(shù)據(jù)質(zhì)量[1],特別是精度、冗余度和數(shù)據(jù)覆蓋等問題非常關(guān)注,鑒于傳感器網(wǎng)絡(luò)的計算能力和存儲能力受限特點,如何從大數(shù)據(jù)中清除差錯和冗余,提取具有較高一致性、可信度和實時性的數(shù)據(jù)服務(wù)[2]成為用戶和科技界所關(guān)注的熱點問題。影響數(shù)據(jù)質(zhì)量的因素很多,包括數(shù)據(jù)的產(chǎn)生、采集、傳輸、存儲和處理等方面。因此,研究人員根據(jù)影響因素設(shè)計了一系列相應(yīng)數(shù)據(jù)處理與清洗算法。
文獻[3]基于數(shù)據(jù)和應(yīng)用特點,設(shè)計了一種支持融合與交叉的數(shù)據(jù)清洗算法。文獻[4]基于數(shù)據(jù)集動態(tài)變化的副本識別特點研究了結(jié)合聚類樹增量特性的數(shù)據(jù)清洗算法。文獻[5]以時間為對象基于事件序列,研究了提高射頻識別(radio frequency identification,RFID)數(shù)據(jù)質(zhì)量的清洗策略。文獻[6]研究了支持數(shù)據(jù)質(zhì)量評估的交互式可視形態(tài)集及其分析系統(tǒng)。
此外,WangBing等人[7]設(shè)計了一種允許用戶在相同的接口生成高維數(shù)據(jù)、沉浸式和直接數(shù)據(jù)生成的數(shù)據(jù)清潔工具。Zhang Zhaosheng 等人[8]將閾值控制和加權(quán)平均法及指數(shù)平滑法相結(jié)合提出了多閾值控制的修復(fù)方法。文獻[9]為了解決RFID 和WSNs 數(shù)據(jù)集成中的冗余度、降低能耗和保障實時性等問題研究了一種五層體系結(jié)構(gòu)。文獻[10]將并行處理與并行機群相結(jié)合研究了支持協(xié)同的大數(shù)據(jù)可視分析方法。
為了外界參量和內(nèi)部因素對數(shù)據(jù)質(zhì)量的影響和提高數(shù)據(jù)質(zhì)量保障能力,本文研究工作包括:1)單節(jié)點中,基于各類外界參量和內(nèi)部因素對數(shù)據(jù)質(zhì)量產(chǎn)生的干擾建立了數(shù)據(jù)質(zhì)量分析模型和靈敏感知決策方法;2)多節(jié)點中,通過建立協(xié)作狀態(tài)概率分析方法給出協(xié)同處理下數(shù)據(jù)質(zhì)量衰減分析模型;3)將靈敏感知與協(xié)同處理相結(jié)合提出了一種高能效和高精度的傳感器數(shù)據(jù)清洗算法。
傳感器網(wǎng)絡(luò)覆蓋范圍內(nèi),采集監(jiān)測值例如:溫度結(jié)合頻域,當(dāng)在閾值區(qū)間內(nèi)時,數(shù)據(jù)可靠;否則,主動棄包。設(shè)定滿足應(yīng)用需求的溫度區(qū)間為[Te1,Te2],頻域為[f1,f2],ni表示第i 次實際溫度值,mi表示測量值,數(shù)據(jù)舍棄判斷決策過程如圖1 所示。
圖1 數(shù)據(jù)舍棄過程Fig 1 Process of data abandon
其中,m3雖然在頻域范圍內(nèi),但與實際值n3沒有交叉,誤差較大,質(zhì)量低,應(yīng)該被舍棄,靈敏度很差。m2與n1同時滿足頻域和閾值區(qū)間質(zhì)量高,數(shù)據(jù)可靠,靈敏度高。對于m1與n1,雖有交叉,但比例較低且測量值并不完全在頻域區(qū)間內(nèi),表明數(shù)據(jù)出現(xiàn)差錯具有不確定性,其靈敏度不同,因此,可以建立感知數(shù)據(jù)靈敏度的數(shù)據(jù)質(zhì)量分析模型,從而決定是否需要舍棄或通過清洗改善數(shù)據(jù)質(zhì)量。
基于頻域的參量測量值概率分布如公式
其中,函數(shù)Dsensor(f)為測量值概率分布函數(shù),即在頻域內(nèi)[f1,f2]評價測量值與實際值。
由于傳感器節(jié)點內(nèi)部元器件噪聲、外部環(huán)境噪聲和采集誤差等對參量測量概率產(chǎn)生的影響可由式(2)得到
其中,γ=[γ1,γ2,…,γm]T為各類因素對數(shù)據(jù)質(zhì)量的干擾因子,nty表示各類影響因素,其向量長度必須與向量γ保持一致,其中定義的因素包括:外源噪聲、內(nèi)部硬件噪聲、電路輸入噪聲、電路輸出噪聲、測量不確定性、計算誤差等。
基于上述定義因素,給出傳感器誤差概率分布密度一般性計算如式(3)所示
其中,變量記錄λ 根據(jù)測量值是否在頻域內(nèi)確實是否需要考慮進一步優(yōu)化分布。
在式(1)~式(3)建立的測量概率統(tǒng)計分析基礎(chǔ)上,進一步分析數(shù)據(jù)質(zhì)量對傳感器內(nèi)部電路各器件的噪聲干擾的靈敏度,電路結(jié)構(gòu)如圖2 所示。頻率為10 Hz 時噪聲分析后各部件輸入噪聲測量結(jié)果如表1 所示。頻率對電路輸入噪聲影響如圖3 所示??梢园l(fā)現(xiàn),輸入噪聲隨著頻率增大逐步增大,40 Hz 下增速較大,此后增速減緩,而輸出噪聲不受頻率影響,在任何頻域內(nèi)均保持定值,結(jié)合圖1 的數(shù)據(jù)舍棄過程,因此,不同頻域內(nèi)不同參量對數(shù)據(jù)質(zhì)量影響程度不同,即數(shù)據(jù)質(zhì)量對各類參量具有靈敏感知。
圖2 傳感器內(nèi)部電路Fig 2 Internal circuit of sensor
表1 輸入噪聲分析Tab 1 Input noise analysis
前文是對于單節(jié)點的數(shù)據(jù)質(zhì)量干擾因素進行分析,并得出靈敏感知判斷策略,然而傳感器網(wǎng)絡(luò)應(yīng)用是在監(jiān)測區(qū)域布設(shè)高密度傳感器節(jié)點,多跳傳輸與數(shù)據(jù)轉(zhuǎn)發(fā)也將影響數(shù)據(jù)質(zhì)量,因此,基于傳感器節(jié)點間協(xié)同合作進行信號處理以便保證數(shù)據(jù)質(zhì)量。
多節(jié)點協(xié)同處理基于頻率的無線鏈路保持正常概率分布如式(4)所示
圖3 不同頻率下輸入噪聲分析Fig 3 Input noise analysis at different frequencies
其中,F(xiàn)s(f)為鏈路保持正常概率分布函數(shù),v,φ 分別為中繼節(jié)點的協(xié)作規(guī)模和保持協(xié)作狀態(tài)概率,ω 為傳感器節(jié)點工作角頻率。
協(xié)同合作信號處理過程中,隨著鏈路狀態(tài)的變化,轉(zhuǎn)發(fā)信號受外界參量等干涉后的強度如式(5)所示
此外,加入?yún)f(xié)同合作的中繼節(jié)點規(guī)模與鏈路狀態(tài)存在如式(6)所示
其中,μ 為中繼節(jié)點在協(xié)作下信號增強系數(shù)。
因此,基于單節(jié)點下靈敏感知策略的多節(jié)點協(xié)作處理的數(shù)據(jù)質(zhì)量可由式(7)分析
將靈敏感知與協(xié)作處理相結(jié)合的數(shù)據(jù)清洗算法架構(gòu)如圖4 所示。其中,單節(jié)點上的靈敏感知和協(xié)同處理模塊結(jié)構(gòu)如圖5 所示。多節(jié)點應(yīng)用下數(shù)據(jù)清洗流程如下所示:
1)單傳感器節(jié)點靈敏感知分析,根據(jù)式(1)~式(3)。
2)依據(jù)式(4)選擇中繼協(xié)作節(jié)點,并監(jiān)測節(jié)點鏈路狀態(tài)。
3)查詢協(xié)作:在頻域內(nèi),根據(jù)用戶需求和靈敏感知分析結(jié)果,建立增強數(shù)據(jù)質(zhì)量的清洗規(guī)則。
4)協(xié)同處理:規(guī)模為v 的協(xié)作處理根據(jù)數(shù)據(jù)質(zhì)量失真程度進行處理。
5)接收端節(jié)點,根據(jù)式(7)依據(jù)λ 經(jīng)過數(shù)據(jù)清洗回復(fù)質(zhì)量,保障傳輸可靠性。
圖4 數(shù)據(jù)清洗架構(gòu)Fig 4 Data cleaning architecture
圖5 單節(jié)點架構(gòu)Fig 5 Single-node architecture
實驗中,按照圖6 所示布設(shè)傳感器網(wǎng)絡(luò)架構(gòu),為了便于統(tǒng)計測量結(jié)果,在網(wǎng)關(guān)節(jié)點上增設(shè)數(shù)據(jù)存儲和查詢模塊。網(wǎng)絡(luò)中每個節(jié)點架構(gòu)如圖5 所示,為了便于在同一環(huán)境和設(shè)備上使用基于靈敏感知的數(shù)據(jù)清洗算法(記為:SDC)和所提的基于靈敏感知和協(xié)同處理的清洗算法(記為:SCDC)進行對比分析,在圖5 中增加圖7 所示的定時計數(shù)控制電路,該電路內(nèi)部產(chǎn)生的噪聲干擾與整體噪聲相比較小,故可忽略不計。
為了準確驗證所提算法性能,實驗中分別統(tǒng)計系統(tǒng)能效、數(shù)據(jù)壓縮率和準確度,分析網(wǎng)絡(luò)規(guī)模和頻率對以上性能的影響,結(jié)果如圖8 所示。
圖6 實驗布設(shè)網(wǎng)絡(luò)架構(gòu)Fig 6 Experimental layout network architecture
圖7 實驗切換定時裝備電路Fig 7 Experimental switching and timing equipment circuit
從圖8(a)發(fā)現(xiàn),SDC 算法能效很低而所提SCDC 算法能效隨著頻率增大快速增大,這主要得益于協(xié)同處理機制,在感知單節(jié)點靈敏度的前提下,多中繼協(xié)同合作明顯降低了數(shù)據(jù)清洗能效。如圖8(b)所示,SDC 與所提的SCDC 算法的數(shù)據(jù)壓縮率相差較大,而且隨著網(wǎng)絡(luò)規(guī)模的增大,SCDC 算法的壓縮率保持快速增大,單節(jié)點靈敏感知的SDC算法因受到傳輸過程的外界參量干擾和節(jié)點之間信號干涉使得數(shù)據(jù)壓縮率提升很慢。單節(jié)點使用靈敏感知方法進行數(shù)據(jù)清洗可以提高數(shù)據(jù)準確率但幅度較小,通過多節(jié)點協(xié)同合作處理降低傳輸過程中的數(shù)據(jù)質(zhì)量衰減,對失真數(shù)據(jù)進行清洗,可以顯著改善數(shù)據(jù)質(zhì)量,使用所提SCDC 算法時數(shù)據(jù)準確率較高。
圖8 清洗算法分析Fig 8 Analysis on cleaning algorithm
為了解決傳感器應(yīng)用中因內(nèi)部和外界各類干擾導(dǎo)致的數(shù)據(jù)質(zhì)量下降問題,從參量和影響因素定義出發(fā),分別對于單節(jié)點和多節(jié)點進行了深入分析:1)單節(jié)點下分析了各類因素對數(shù)據(jù)質(zhì)量產(chǎn)生影響的分析模型機靈敏感知策略;2)利用傳感器網(wǎng)絡(luò)的高密度和協(xié)同特性建立了協(xié)同處理數(shù)據(jù)質(zhì)量分析模型;3)將靈敏感知與協(xié)同處理相結(jié)合建立了適用于傳感器和網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)清洗算法。與單節(jié)點靈敏感知數(shù)據(jù)清洗算法相比,實驗從頻率和網(wǎng)絡(luò)規(guī)模對能效、壓縮率和精度等方面驗證了所提算法的可行性和優(yōu)越性。
[1] 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報,2002,13(11):2076-2082.
[2] Exner A T,Pavlichenko I,Lotsch B V,et al.Low-cost thermo-optic imaging sensors:A detection principle based on tunable onedimensional photonic crystals[J].ACS Applied Materials&Interfaces,2013,5(5):1575-1582.
[3] Chua K J,Chou S K,Yang W M,et al.Achieving better energyefficient air conditioning-A review of technologies and strategies[J].Applied Energy,2013,104:87-104.
[4] Wang Bing,Ruchikachorn P,Mueller K.SketchPadN-D:WYDIWYG sculpting and editing in high-dimensional space[J].IEEE Transactions on Visualization and Computer Graphics,2013,19(12):2060-2069.
[5] Zhang Zhaosheng,Yang Diange,Zhang Tao,et al.A study on the method for cleaning and repairing the probe vehicle data[J].IEEE Transactions on Intelligent Transportation Systems,2013,14(1):419-427.
[6] Wang Li,Xu Lida,Bi Zhuming,et al.Data cleaning for RFID and WSNs integration[J].IEEE Transactions on Industrial Informatics,2014,10(1):408-418.
[7] 劉 芳,何 飛.一種基于聚類樹的增量式數(shù)據(jù)清洗算法[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2005,33(3):46-48.
[8] 王 霞,玄麗娟,夏秀峰.基于時序關(guān)系的RFID 不確定數(shù)據(jù)清洗算法[J].遼寧大學(xué)學(xué)報:自然科學(xué)版,2012,39(2):174-178.
[9] 滕東興,曾志榮,楊海燕,等.一種面向關(guān)系型數(shù)據(jù)的可視質(zhì)量分析方法[J].軟件學(xué)報,2013,24(4):810-824.