盧堯 張?zhí)A 何二寶
摘? 要: 針對監(jiān)測多個變量的無線傳感器網(wǎng)絡(luò)(WSN)存在多維度數(shù)據(jù)冗余的問題,提出一種新型的層次化數(shù)據(jù)融合方法,通過本地計算縮減網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量,減少傳感器能耗。新方法在傳感節(jié)點和聚集節(jié)點進(jìn)行分層數(shù)據(jù)融合,首先使用相似度距離判斷并壓縮重復(fù)的采集數(shù)據(jù)向量,然后利用多項式回歸將相關(guān)的高維監(jiān)測變量表達(dá)為低維的多項式系數(shù)。數(shù)據(jù)相似性與變量相關(guān)性首次在融合方法中被綜合性地考慮,壓縮和回歸技術(shù)同時被引入,從不同維度、不同層次減少傳輸數(shù)據(jù)量。仿真實驗結(jié)果表明,相比于現(xiàn)有融合方法,所提方法在傳輸數(shù)據(jù)量、能量消耗等性能指標(biāo)上都具有更好的表現(xiàn)。
關(guān)鍵詞: 無線傳感器網(wǎng)絡(luò); 數(shù)據(jù)融合; 多變量; 向量壓縮; 多項式回歸; 仿真實驗
中圖分類號: TN919?34; TP393? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)18?0101?05
Abstract: In allusion to the multidimensional data redundancy existing in the WSN (wireless sensor network) that monitors multiple variables, a new hierarchical data fusion method is proposed, which can reduce the amount of data transmitted in the network by means of the local calculation, and decrease the energy consumption of the sensor. In the new method, the hierarchical data fusion is performed at both sensor nodes and aggregation nodes, the similarity distance is used to judge and compress the repeated vectors of collected data, and the polynomial regression is used to express the associated high?dimensional monitoring variables in terms of low?dimensional polynomial coefficients. The data similarity and variable correlation are considered comprehensively in the data fusion methods for the first time, and the compression and regression techniques are introduced simultaneously to reduce the amount of transmitted data on different dimensions and hierarchies. The simulation results show that, in comparison with the existing fusion methods, the proposed method has better performance on the indexes such as the amount of transmitted data and energy consumption.
Keywords: WSN; data fusion; multivariate; vectors compression; polynomial regression; simulation experiment
0? 引? 言
WSN(Wireless Sensor Network)是以監(jiān)測外界環(huán)境或?qū)ο鬄槟康牡男屡d網(wǎng)絡(luò),它有著非常廣闊的應(yīng)用前景[1]。然而,無線傳感器存在體積和成本的限制,其硬件性能十分有限[2]。由于任意模塊的運行都需要電源支持,能耗指標(biāo)便成為了局限傳感器能力的最重要因素之一[3]。研究表明,無線網(wǎng)絡(luò)數(shù)據(jù)傳輸是導(dǎo)致能量快速消耗的主要原因[4]。在實際的WSN應(yīng)用中,單位空間內(nèi)傳感器設(shè)備的部署需要滿足密度要求,以確保監(jiān)控區(qū)域的覆蓋率和網(wǎng)絡(luò)連通度。在相近時間段內(nèi),無論是本地節(jié)點采集數(shù)據(jù)還是相鄰范圍內(nèi)的傳感器采集數(shù)據(jù),都可能高度相似和冗余,重復(fù)數(shù)據(jù)的傳輸會降低網(wǎng)絡(luò)使用性能。此外,隨著WSN的發(fā)展,單個傳感器通常配備了多種感知設(shè)備,同時監(jiān)測多個特征,例如電子元器件生產(chǎn)過程中某工位的傳感器需要同時裝備電化學(xué)感知、電量感知等零部件。多個監(jiān)測變量之間一般存在相關(guān)性,不同變量使用獨立的數(shù)據(jù)表示方式,同樣增加了網(wǎng)絡(luò)通信的負(fù)載。為了減少網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù),數(shù)據(jù)融合方法被廣泛使用[5]。它通過計算本地節(jié)點,高效地縮減數(shù)據(jù)信息,去除冗余與不必要的數(shù)據(jù)表示,從而實現(xiàn)了減少節(jié)點能耗,延長節(jié)點工作時間的目的[6]。
J.Bahi使用前綴頻率過濾在周期性的無線傳感器網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)融合(Prefix Frequency Filtering,PFF),此方法通過相似性方程尋找由鄰居節(jié)點產(chǎn)生的相似數(shù)據(jù)[7],并將所有數(shù)據(jù)壓縮為單個數(shù)據(jù)記錄。G.Elbanby等人提出基于主元分析的數(shù)據(jù)融合方法(Principal Component Analysis,PCA)應(yīng)對多變量的WSN應(yīng)用[8],其主要原理是對多維數(shù)據(jù)進(jìn)行降維處理,通過更少的新變量表示原有數(shù)據(jù)變量的樣本。張強等人研究了基于分簇的無線傳感網(wǎng)絡(luò)高效數(shù)據(jù)聚合方案[9],其中簇內(nèi)節(jié)點引入信息熵減少數(shù)據(jù)量的發(fā)送,簇頭節(jié)點采用反饋比較值判斷是否轉(zhuǎn)發(fā)簇內(nèi)節(jié)點的數(shù)據(jù)。然而,現(xiàn)有方法的融合方式仍然過于單一,有些方法只關(guān)注削減相似數(shù)據(jù);有些方法將多變量數(shù)據(jù)的維度降低;還有些方法致力于在結(jié)構(gòu)化網(wǎng)絡(luò)中分層處理數(shù)據(jù)。本文在綜合現(xiàn)有主流方法優(yōu)點的基礎(chǔ)上,充分利用數(shù)據(jù)記錄的相似性和變量的相關(guān)性,提出了一種基于數(shù)據(jù)壓縮與變量回歸的多變量層次化數(shù)據(jù)融合方法(Compression and Regression based Multivariable Hierarchical Data Fusion,CRM),實現(xiàn)傳輸數(shù)據(jù)高效縮減。
1? WSNs環(huán)境與融合模型
為了提升數(shù)據(jù)傳輸和融合效率,WSNs通常會采用網(wǎng)絡(luò)節(jié)點進(jìn)行分層處理[10?11],經(jīng)典的分層網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,傳感節(jié)點負(fù)責(zé)周期性地采集環(huán)境數(shù)據(jù),先進(jìn)行本地數(shù)據(jù)融合,再將縮減后的數(shù)據(jù)統(tǒng)一傳輸?shù)轿ㄒ粚?yīng)的聚集節(jié)點。聚集節(jié)點將收到的鄰居數(shù)據(jù)與自己產(chǎn)生的數(shù)據(jù)進(jìn)一步融合,然后將處理后的數(shù)據(jù)傳輸給下游聚集節(jié)點,直到數(shù)據(jù)到達(dá)了基站或者匯聚節(jié)點。
1.1? 傳感數(shù)據(jù)結(jié)構(gòu)
假設(shè)用集合[Nsrc]和[Nagg]分別表示傳感節(jié)點和聚集節(jié)點的集合。[ni]表示第i個具有傳感功能的節(jié)點,其中[ni∈Nsrc?Nagg],且單個節(jié)點擁有K種感知設(shè)備,可同時監(jiān)測K個變量。在周期性采集數(shù)據(jù)的WSNs中,每個周期F被細(xì)分為t個時隙。在單個時隙[sj]內(nèi),[j={1,2,…,t}],節(jié)點[ni]上可以收集到一個感知數(shù)據(jù)向量[Vji={vji(1),vji(2),…,vji(K)}]。其中[vji(k)]表示第k個變量的數(shù)據(jù)。由此可知,在每個周期F內(nèi),節(jié)點[ni]可收到由t個向量組成的感知數(shù)據(jù)矩陣[Mi],可以表示為:
1.2? 相似數(shù)據(jù)壓縮
與監(jiān)測環(huán)境或?qū)ο蟀l(fā)生變化的頻率相比,每個時隙時長的設(shè)置一般較短。這造成了在同一節(jié)點上連續(xù)鄰近的感知數(shù)據(jù)向量相同或者高度相似。同樣,同一時間段內(nèi)的多個鄰近節(jié)點監(jiān)測相同現(xiàn)象或?qū)ο螅兄獢?shù)據(jù)也可能有很高的相似度。因此,如何有效度量數(shù)據(jù)向量間的相似性是判斷能否進(jìn)行數(shù)據(jù)壓縮的基礎(chǔ)。
將每個向量映射為K維空間的一點,每個變量就是空間中的一個維度。明可夫斯基距離能夠度量不同向量在該空間中的距離,距離越近,相似度越高。然而,不同變量的單位可能差別很大,個別變量的數(shù)據(jù)值差別對距離影響會被放大,所以需要對變量值進(jìn)行歸一化操作。假設(shè)變量k的最大值和最小值表示為[maxk]和[mink],那么兩個向量[Vxi]和[Vyi]的相似度可表示為:
根據(jù)數(shù)據(jù)精度需求,WSNs應(yīng)用會設(shè)定一個相似度門限[dTh],當(dāng)且僅當(dāng)[d(Vxi,Vyi)≤dTh]時,兩個向量才被判定為相似。向量數(shù)據(jù)可以合并壓縮,只需要將原有向量的頻率值加1,即可記錄另一個相似向量。
1.3? 相關(guān)多變量回歸
K維變量的相關(guān)性為進(jìn)一步縮減數(shù)據(jù)維度提供了可能性?,F(xiàn)有多變量處理技術(shù)的核心思想是將多變量結(jié)構(gòu)映射到更小維度的空間中,對數(shù)據(jù)進(jìn)行降維處理,例如主元分析、因子分析、典型相關(guān)分析等[12]。本文基于相關(guān)系數(shù)的概念探索多變量處理方法,在感知數(shù)據(jù)矩陣[Mi]中,假設(shè)兩個變量為[Cxi]和[Cyi],其中[Cxi=v1i(x),v2i(x),...,vti(x)T],那么它們的皮爾遜相關(guān)系數(shù)可表示為:
式中:[Cov(·)]是變量間協(xié)方差;[Var[·]]是變量的方差。本文通過相關(guān)矩陣發(fā)現(xiàn)高度相關(guān)的變量對,利用多項式回歸分析對多變量合并表達(dá)。假設(shè)存在門限值[rTh],當(dāng)且僅當(dāng)[r(Cxi,Cyi)≥rTh]時,兩個變量相關(guān)且能夠進(jìn)行多項式回歸,其中單個變量可以被另一個變量表達(dá)為:
式中:[α]是多項式系數(shù),也是回歸分析所求的結(jié)果;[q]為擬合階次,用于控制擬合程度。[q]值越大,擬合精度越高,然而計算復(fù)雜度會迅速增加,并且存儲的系數(shù)變多,也就失去了回歸的意義。經(jīng)過實驗測試表明,當(dāng)[q]值大于3時,隨著[q]值的增加,擬合精度的增加變得不再明顯。本文采用3作為擬合階次,在保證擬合效果的前提下,減小了計算復(fù)雜度。因為只需要存儲自變量[Cyi]和多項式系數(shù)[α],擬合后的方程能夠輕易地被傳感器節(jié)點存儲。當(dāng)然,執(zhí)行回歸有前提條件,變量[Cxi]或者[Cyi]的維度要遠(yuǎn)大于多項式系數(shù)的個數(shù),例如本文設(shè)置了變量維度門限值[cTh],這樣多項式回歸才能真正地達(dá)到降低數(shù)據(jù)維度的目的。
2? WSNs數(shù)據(jù)融合方案
由于WSNs具有分層結(jié)構(gòu),對于處于不同層次的節(jié)點,數(shù)據(jù)融合操作也有所不同。傳感節(jié)點只負(fù)責(zé)融合本地采集數(shù)據(jù),而聚集節(jié)點除了本地數(shù)據(jù),同時還需要融合來自于上游傳感器節(jié)點的數(shù)據(jù)。新方案中相似度和相關(guān)度門限值的設(shè)定直接關(guān)系到數(shù)據(jù)在匯聚節(jié)點的復(fù)原質(zhì)量。調(diào)節(jié)門限值既要滿足數(shù)據(jù)復(fù)原質(zhì)量的要求,也要保證融合效率。
2.1? 本地數(shù)據(jù)融合
在具有感知功能的任意節(jié)點上,采集到的感知數(shù)據(jù)需要進(jìn)行本地數(shù)據(jù)融合處理。感知數(shù)據(jù)矩陣[Mi]首先在采集周期內(nèi)進(jìn)行數(shù)據(jù)壓縮,接著在周期結(jié)束后進(jìn)行相關(guān)變量回歸,融合效果如圖2所示。數(shù)據(jù)壓縮減少了重復(fù)或相似的數(shù)據(jù)向量,即部分行數(shù)據(jù)[Vi]被刪除。變量多項式回歸用少量系數(shù)替代了部分列數(shù)據(jù)[Ci],從而進(jìn)一步縮減數(shù)據(jù)量。
假設(shè)數(shù)據(jù)向量和監(jiān)測變量出現(xiàn)頻率由屬性[freq]表示,[Vcuri]表示當(dāng)前對比數(shù)據(jù)向量,矩陣中變量相關(guān)系數(shù)的矩陣為[CMi],判定為相關(guān)的變量對的集合為[Scorr]。為了用回歸方法替代更多的變量,首先找出在變量回歸中出現(xiàn)頻率最高的變量[Cmaxi],計算公式為:
接著,與[Cmaxi]相關(guān)的變量就可使用由它組成的回歸方程表示。本地數(shù)據(jù)融合的操作可由圖3表示。感知數(shù)據(jù)在采集過程中,一旦發(fā)現(xiàn)已經(jīng)存儲了相似的數(shù)據(jù)向量,就放棄當(dāng)前采集的向量。完成單個采集周期后,如果變量的維度仍然很大,則需要進(jìn)行變量相關(guān)性判斷,然后根據(jù)情況執(zhí)行多項式回歸,將多維變量存儲轉(zhuǎn)變?yōu)榛貧w系數(shù)的存儲。
2.2? 下游數(shù)據(jù)融合
傳感節(jié)點將本地融合后的數(shù)據(jù)傳輸?shù)綄?yīng)的聚集節(jié)點。作為下游節(jié)點,聚集節(jié)點將接收的數(shù)據(jù)與自己產(chǎn)生的數(shù)據(jù)組合進(jìn)行下游融合。由于相關(guān)變量的回歸表達(dá),來自于不同節(jié)點的縮減數(shù)據(jù)矩陣的變量可能不同,首先要對變量相似度進(jìn)行判斷。假設(shè)來自兩個節(jié)點數(shù)據(jù)矩陣[Mi]和[Mj]所包含變量的集合為[CSi]和[CSj],判斷變量集合相似度可以采用杰卡德距離,如下:
如果兩個矩陣的變量完全相同,則比較數(shù)據(jù)向量相似度,符合條件的數(shù)據(jù)向量可以被壓縮處理。假設(shè)所有數(shù)據(jù)矩陣的集合為[SM](包括本地節(jié)點的數(shù)據(jù)矩陣和接收的上游節(jié)點數(shù)據(jù)矩陣),下游數(shù)據(jù)融合的過程如圖4所示。
3? 仿真與性能分析
OMNeT++作為仿真平臺被用于評估WSN數(shù)據(jù)融合方法的性能。基于分層結(jié)構(gòu)的WSN可通過路由控制協(xié)議搭建,并且實現(xiàn)周期性數(shù)據(jù)采集事件作為仿真應(yīng)用。節(jié)點產(chǎn)生的感知數(shù)據(jù)來源于英特爾伯克利實驗室的54個具有監(jiān)測天氣功能的傳感器[13]。在每一個采集時隙[sj=31 s],傳感器收集到4個變量信息,包括溫度、濕度、光照和電壓。以編號為5的節(jié)點的采集數(shù)據(jù)為例,得到變量相關(guān)矩陣,如表1所示。假如[rTh]=0.95,{溫度,濕度}{溫度,電壓}為相關(guān)變量對,濕度和電壓可被以溫度為自變量的擬合方程表示。
由于需要傳輸?shù)臄?shù)據(jù)量的變化能體現(xiàn)融合方法的效率,那么融合數(shù)據(jù)百分比就成為了主要的觀察度量參數(shù),其值等于融合后的數(shù)據(jù)量與融合前的數(shù)據(jù)量的比值,百分比值越低說明融合效果越好。相鄰時隙的數(shù)據(jù)可能相同或高度相似,只需記錄一個數(shù)據(jù)向量,增加其出現(xiàn)的頻率即可代表其他相似數(shù)據(jù)。影響壓縮效率的主要參數(shù)是相似度距離的門限值[dTh],實驗結(jié)果如圖5所示。
隨著[dTh]增加,相似判定的標(biāo)準(zhǔn)被降低,更多數(shù)據(jù)得到壓縮,傳輸數(shù)據(jù)的比率總體呈現(xiàn)下降趨勢。另外,本文提出的融合方法適用于不同的時隙個數(shù),支持不同的應(yīng)用場景,重復(fù)數(shù)據(jù)越多,壓縮效果越明顯。當(dāng)時隙t=90且[dTh]=0.12時,壓縮數(shù)據(jù)能大約達(dá)到原數(shù)據(jù)的11%。
在消除相似數(shù)據(jù)向量后,剩余數(shù)據(jù)會進(jìn)行變量回歸,用更少的變量和回歸系數(shù)表示所有變量,如圖6所示。
在圖6中,兩個傳感節(jié)點的數(shù)據(jù)被用于測試。當(dāng)[rTh]值不斷縮小時,更多的相關(guān)變量可以被擬合方程及其參數(shù)替代。對于節(jié)點5,當(dāng)門限值被放寬到0.92,經(jīng)過相似數(shù)據(jù)壓縮和變量回歸的數(shù)據(jù)約等于原始數(shù)據(jù)的5%。對于節(jié)點10,由于回歸產(chǎn)生的縮減效果更明顯,[rTh]在從0.98向0.92變化過程中,數(shù)據(jù)縮減比率提高了約2.8倍。
為證明本文所提CRM融合方法性能的優(yōu)越性,選取了PFF和PCA融合方法作為對比方法。經(jīng)過比較,CRM從相似性和相關(guān)性兩個角度進(jìn)行混合融合,數(shù)據(jù)量縮減效果要好于單獨使用一種原理進(jìn)行融合,實驗結(jié)果如圖7所示。在時隙數(shù)目增加的情況下,CRM和PFF都會隨之減少,而PCA減幅相對不夠明顯。潛在原因是PCA主要關(guān)注縮減變量維度,對重復(fù)采集數(shù)據(jù)向量出現(xiàn)的縮減效果有限。CRM總體性能最佳,當(dāng)時隙數(shù)目等于120時,原始數(shù)據(jù)能被縮減至7%左右。
數(shù)據(jù)融合方法的最終目的是通過減少傳輸數(shù)據(jù),減少傳感器的能耗。因此,本文將無線通信能量消耗模型實現(xiàn)于仿真系統(tǒng)中,全面評估新方法。無線電通信在發(fā)送器或接收器電路上的能量耗費為[eelec nJ·bit-4] ,信號放大器的耗費為[eamp pJ·bit-1·m-2],傳輸l bit數(shù)據(jù)通過距離d m所耗費的理論能量為:
計算任務(wù)同樣耗費能量,如果[Nadd,Nsht,Ncmp]分別表示計算中加法、位移和比較操作的次數(shù),[εadd,εsht,εcmp]分別表示對應(yīng)單位次數(shù)的能量耗費,那么計算任務(wù)的能量耗費如下:
數(shù)據(jù)傳輸總共的能量耗費等于計算與傳輸之和,如下所示:
一個采集周期完成后會產(chǎn)生一個感知數(shù)據(jù)矩陣,其中每個數(shù)據(jù)向量代表單個時隙的記錄,其數(shù)據(jù)容量為32p bit,p代表變量的個數(shù)。在圖8中,隨著單周期內(nèi)時隙個數(shù)的增加,PCA的變化趨勢最為顯著。是由于較低的計算復(fù)雜度和相似數(shù)據(jù)的增加;PFF增長速度較慢,消耗能量從0.08 J增長到0.18 J附近;CRM在3種方法中始終保持最低能量消耗,因為它有優(yōu)秀的數(shù)據(jù)縮減性能和較低的計算量要求。當(dāng)有120個時隙在周期中時,PCA需要消耗能量約0.35 J;而CRM只需要使用大約消耗0.13 J能量傳輸同等數(shù)量的原始數(shù)據(jù)。
4? 結(jié)? 語
由于傳感器部署覆蓋率、采集頻率等要求,WSN采集的傳感數(shù)據(jù)可能高度相似,而且多個監(jiān)測變量一般存在相關(guān)關(guān)系,這導(dǎo)致傳感器需要存儲和傳輸大量的數(shù)據(jù)。本文提出了一種新數(shù)據(jù)融合方法,以減少傳輸數(shù)據(jù)量,節(jié)省傳感器能源。在經(jīng)典分層結(jié)構(gòu)的WSN,新方法在傳感節(jié)點和聚集節(jié)點進(jìn)行層次化數(shù)據(jù)融合,利用相似度距離判斷并去除重復(fù)數(shù)據(jù)向量,同時使用多項式回歸減少傳輸?shù)淖兞總€數(shù)。仿真實驗中,分析了不同參數(shù)對于融合方法的影響,并且經(jīng)過與多個現(xiàn)有融合方法對比發(fā)現(xiàn),新方法在數(shù)據(jù)量和能量消耗上都擁有更好的性能。
參考文獻(xiàn)
[1] 任志玲,張廣全,林冬,等.無線傳感器網(wǎng)絡(luò)應(yīng)用綜述[J]. 傳感器與微系統(tǒng),2018,37(3):1?2.
[2] WANG C, JIANG C, LIU Y, et al. Aggregation capacity of wireless sensor networks: extended network case [J]. IEEE transactions on computers, 2014, 63(6): 1351?1364.
[3] MARTINEZ G, LI S, ZHOU C. Wastage?aware routing in energy?harvesting wireless sensor networks [J]. Sensors journal IEEE, 2014, 14(9): 2967?2974.
[4] TENG H J, LIU X, LIU A F, et al. Adaptive transmission power control for reliable data forwarding in sensor based networks [J]. Wireless communications & mobile computing, 2018(2): 1?22.
[5] HARB H, MAKHOUL A, TAWBI S, et al. Comparison of different data aggregation techniques in distributed sensor networks [J]. IEEE access, 2017, 5(1): 4250?4263.
[6] KOUPAEE M, KANGAVARI M R, AMIRI M J. Scalable structure?free data fusion on wireless sensor networks [J]. Journal of supercomputing, 2017, 73(12): 5105?5124.
[7] BAHI J M, MAKHOUL A, MEDLEJ M. Frequency filtering approach for data aggregation in periodic sensor networks [C]// 2012 IEEE Network Operations and Management Symposium. Hawaii: IEEE, 2012: 570?573.
[8] ELBANBY G, MADBOULY E E, ABDALLA A. Fuzzy principal component analysis for sensor fusion [C]// International Conference on Information Science. Montreal: IEEE, 2012: 442?447.
[9] 張強,盧瀟,崔曉臣.基于分簇的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)聚合方案研究[J].傳感技術(shù)學(xué)報,2010,23(12):1778?1782.
[10] 張雅瓊,張慧.無線傳感器網(wǎng)絡(luò)分簇路由協(xié)議研究[J].現(xiàn)代電子技術(shù),2014,37(8):32?34.
[11] 胡中棟,伍華林,王振東.多級異構(gòu)無線傳感器網(wǎng)絡(luò)高能效多跳分簇路由算法[J].儀表技術(shù)與傳感器,2017(9):103?108.
[12] VERDE R, IRPINO A, BALZANELLA A. Dimension reduction techniques for distributional symbolic data [J]. IEEE transactions on cybernetics, 2016, 46(2): 344.
[13] SAMUEL Madden. Intel berkeley research lab [EB/OL]. [2017?03?25]. http://db.csail.mit.edu/labdata/labdata.html.