陳園園,袁煥麗
(周口師范學(xué)院 物理與電信工程學(xué)院,河南 周口 466001)
?
WSN中基于線性回歸和最大似然的缺失值估計(jì)模型
陳園園,袁煥麗
(周口師范學(xué)院 物理與電信工程學(xué)院,河南 周口 466001)
為了解決無線傳感器網(wǎng)絡(luò)中感知數(shù)據(jù)缺失問題,筆者結(jié)合基于時(shí)間相關(guān)性的多元線性回歸模型和最大似然估計(jì)模型的兩種參數(shù)估計(jì)算法,提出了一種新的缺失值估計(jì)算法.該算法不僅可以準(zhǔn)確地估算出某時(shí)刻缺失對(duì)象的信息,而且在時(shí)間序列不滿足線性模型的情況下仍可以對(duì)缺失值進(jìn)行估計(jì),實(shí)驗(yàn)表明該算法有很好的可靠性和穩(wěn)定性.
無線傳感器網(wǎng)絡(luò);缺失值估計(jì);線性回歸模型;EM算法
無線傳感器網(wǎng)絡(luò)(WSN)早已被列為十大改變未來世界的新興技術(shù)之首[1].但由于無線傳感器網(wǎng)絡(luò)中節(jié)點(diǎn)的通信能力有限,同時(shí)又受到高山、河流等地勢(shì)的影響[2],部分節(jié)點(diǎn)可能監(jiān)測(cè)不到信息或脫離網(wǎng)絡(luò),導(dǎo)致這些節(jié)點(diǎn)的感知數(shù)據(jù)信息無法正常傳送給匯聚節(jié)點(diǎn),客戶終端也無法得到應(yīng)有的信息.傳感器節(jié)點(diǎn)的能量有限,當(dāng)傳感器節(jié)點(diǎn)不穩(wěn)定的時(shí)候也會(huì)采集到異常的數(shù)據(jù)信息,這些信息無法正?;仞伣o客戶端.當(dāng)節(jié)點(diǎn)能量耗盡時(shí),也會(huì)丟失監(jiān)測(cè)數(shù)據(jù).另外,傳感器節(jié)點(diǎn)的存儲(chǔ)能力有限,當(dāng)感知數(shù)據(jù)量超過緩沖存儲(chǔ)器的容量閥值時(shí),同樣會(huì)造成數(shù)據(jù)丟失.WSN節(jié)點(diǎn)的體積小、構(gòu)造簡(jiǎn)單、易損壞,采集的感知數(shù)據(jù)受到周圍環(huán)境影響時(shí)容易缺損.所以,難免在WSN中出現(xiàn)感知數(shù)據(jù)缺損的現(xiàn)象.
在采集的過程中,感知數(shù)據(jù)的缺損嚴(yán)重影響了信息的可用性和利用率,不僅降低了工作效果,而且很可能帶來嚴(yán)重的后果.若不對(duì)這些缺損的數(shù)據(jù)集進(jìn)行有效的處理,研究工作和應(yīng)用將無法正常進(jìn)行,若僅對(duì)部分缺損數(shù)據(jù)單元作刪除處理,將丟失大量的原始監(jiān)測(cè)數(shù)據(jù)信息,更會(huì)造成網(wǎng)絡(luò)資源的浪費(fèi).因此解決無線網(wǎng)絡(luò)中數(shù)據(jù)缺損是許多研究者面臨的難題.綜上所述,WSN中對(duì)缺損數(shù)據(jù)處理的研究有著重要現(xiàn)實(shí)意義和應(yīng)用前景.
WSN中的感知數(shù)據(jù)是連續(xù)變量,對(duì)連續(xù)變量的缺失機(jī)制的處理方法有EM法、回歸法、成組刪除法、均值法、MI填充法[3].對(duì)于二分類變量有成組刪除法和MI/Logistic回歸法對(duì)缺失值進(jìn)行處理.Gruenwald L[4]利用數(shù)據(jù)挖掘技術(shù)提出了一種WARM算法,該算法用相關(guān)聯(lián)的節(jié)點(diǎn)數(shù)據(jù)來估計(jì)缺失的數(shù)據(jù),主要是針對(duì)離散數(shù)據(jù)進(jìn)行的處理,而不是連續(xù)變化的感知數(shù)據(jù).Li等[5]為了實(shí)現(xiàn)最少數(shù)據(jù)以建立數(shù)據(jù)估計(jì)模型的目的,犧牲了對(duì)缺失值估計(jì)的精度.潘立強(qiáng)等[6-7]采用多元回歸模型,提出了一種基于時(shí)空相關(guān)性的缺失值估計(jì)算法.何麗娟等[8]基于Hermite和DESM模型提出了一種基于時(shí)空相關(guān)性的HD算法,該算法能夠自適應(yīng)的調(diào)整估計(jì)方程中的權(quán)值參數(shù).焉曉貞等[9]提出了基于多變量主元素分析(multiple variable principal Component analysis, MVPCA ) 的不確定性傳感數(shù)據(jù)預(yù)測(cè)方法,該方法通過MVPCA的特征提取這一預(yù)處理手段獲得不確定性傳感數(shù)據(jù)的本質(zhì)特征,然后采用基于相關(guān)分析的多元回歸方法對(duì)這些數(shù)據(jù)進(jìn)行建模和預(yù)測(cè).目前雖然有許多缺失值估計(jì)算法,但在WSN中應(yīng)用的較少.因此筆者設(shè)計(jì)了一種新的估計(jì)算法,該算法使EM算法和多元線性回歸法相結(jié)合,可以在缺失率符合WSN數(shù)據(jù)特點(diǎn)的情況下實(shí)現(xiàn)很好的估計(jì)效果.
1.1最大似然估計(jì)模型
EM算法是一種改進(jìn)的求參數(shù)的極大似然估計(jì)的方法,該算法在概率模型中尋找參數(shù)最大似然估計(jì),可以廣泛應(yīng)用于各種環(huán)境下的不完全數(shù)據(jù).
EM算法的基本思想是:首先對(duì)隱藏變量賦初值,計(jì)算其最大似然估計(jì)值(E步);再最大化在 E 步上求得的最大似然值,計(jì)算參數(shù)的值(M步).在M 步中得到的參數(shù)估計(jì)值被用于下一個(gè) E 步計(jì)算中,這兩個(gè)過程循環(huán)交替進(jìn)行,直到最后一個(gè)參數(shù)估計(jì)值和上一個(gè)參數(shù)估計(jì)值相等,停止迭代[10].E步先估計(jì)出期望值,M步是在插補(bǔ)的基礎(chǔ)上重新估計(jì),改進(jìn)系數(shù)的最大似然估計(jì).混合模型的估計(jì)結(jié)果比線性模型下的估計(jì)結(jié)果更接近真實(shí)值,且在缺失率小于30%時(shí),估計(jì)結(jié)果最理想.
1.2多元線性回歸模型的建立
在一個(gè)監(jiān)測(cè)區(qū)域內(nèi)每個(gè)節(jié)點(diǎn)上的大量監(jiān)測(cè)數(shù)據(jù)都有時(shí)間上的相關(guān)性,若某一時(shí)刻的感知數(shù)據(jù)缺失,可以基于多元線性回歸模型[11]利用相鄰時(shí)刻的感知數(shù)據(jù)來估計(jì)缺失值.
假設(shè)某一節(jié)點(diǎn)在ti時(shí)刻的感知數(shù)據(jù)缺失,且在這一時(shí)刻有m個(gè)相鄰時(shí)刻的感知數(shù)據(jù)是已知的,這些時(shí)刻分別記作t1,t2,…,tm.采用多元線性回歸模型刻畫節(jié)點(diǎn)在ti時(shí)刻的感知數(shù)據(jù)缺失值,公式如下:
yti=β0+β1yt1+β2yt2+…+βmytm+μi
(1)
定義:隨機(jī)誤差項(xiàng)μi服從均值為0,方差為σ2的高斯分布,即μi~N(0,σ2)βj.
(2)
模型設(shè)計(jì)
由于WSN節(jié)點(diǎn)的監(jiān)測(cè)通常是連續(xù)的,即有時(shí)間上的相關(guān)性,本文采用基于極大似然估計(jì)的EM參數(shù)估計(jì)算法和多元線性回歸模型,設(shè)計(jì)了一種新的TEM算法對(duì)缺失值進(jìn)行估計(jì).該算法首先對(duì)數(shù)據(jù)集進(jìn)行多元回歸建模,用EM算法對(duì)系數(shù)矩陣進(jìn)行最大似然估計(jì),然后把估計(jì)值作為觀測(cè)值再進(jìn)行期望最大化,最后直到收斂結(jié)束迭代,把系數(shù)矩陣代入多元回歸模型中,最終求得缺失值.該算法在缺失率符合WSN數(shù)據(jù)特點(diǎn)的情況下有很好的估計(jì)效果.
當(dāng)采集的感知數(shù)據(jù)缺失或壞損時(shí),基于時(shí)間相關(guān)性,可以利用多元線性回歸模型對(duì)其進(jìn)行估計(jì).主要步驟是對(duì)相關(guān)系數(shù)的估計(jì),利用回歸模型求得最終估計(jì)值.一般的相關(guān)系數(shù)估計(jì)算法采用普通的最小二乘法,這種方法容易發(fā)生偏離,而且實(shí)際數(shù)據(jù)的隨機(jī)性大,并不一定每個(gè)數(shù)據(jù)都滿足線性關(guān)系,采集的數(shù)據(jù)也可能存在噪聲,使得估計(jì)效果不準(zhǔn)確.為此采用EM參數(shù)估計(jì)算法,利用該算法基于最大似然估計(jì)模型對(duì)相關(guān)系數(shù)進(jìn)行估計(jì),EM算法主要用于求后驗(yàn)分布的眾數(shù),其主要思想是:首先假定參數(shù)值來估計(jì)缺失值,然后用這些估計(jì)值來更新參數(shù)值,反復(fù)迭代直到參數(shù)值不再發(fā)生變化.
問題定義:
假定要預(yù)測(cè)(xn+1,xn+2,…,xn+m)下的(yn+1,yn+2,…,yn+m)的值.
令Y=(Yobs,Ymis).其中Yobs是已知的感知數(shù)據(jù)部分(y1,y2,…,yn), Ymis是缺失數(shù)據(jù)即待估計(jì)的數(shù)據(jù)部分(yn+1,…,yn+k),與之對(duì)應(yīng)的X=(Xobs,Xmis)=(x1,x2,…,xn+k).
感知數(shù)據(jù)集Y的分布可以表示為Y=Xβ+ε,ε~Nn(0,σ2In),所以Y~Nn(Xβ,σ2In).
可得:
f(Y|β)=
(3)
對(duì)數(shù)似然函數(shù)為:
(4)
在上式中僅最后一項(xiàng)含有β,所以似然函數(shù)可以簡(jiǎn)化為:
(5)
EM算法模型的迭代:
E步:對(duì)關(guān)于Z的條件分布求期望.
(6)
M步:將Q(β|β(i),Yobs)極大化,即找到一個(gè)β(i+1)使得
(7)
對(duì)上式求導(dǎo),得
(8)
3.1實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
本文針對(duì)缺失值估計(jì)模型算法進(jìn)行仿真,開發(fā)工具為C++,采用Inter酷睿i5雙核處理器,CPU 2.0 GHz,2.0 GB DDR3內(nèi)存.實(shí)驗(yàn)數(shù)據(jù)采用兩個(gè)數(shù)據(jù)集,分別是英特爾伯克利實(shí)驗(yàn)室采集的各屬性監(jiān)測(cè)值和韓伯電子開發(fā)的ZigbeX無線傳感器采集的真實(shí)數(shù)據(jù)集.
圖1所示為模型的運(yùn)行結(jié)果圖,分別顯示了數(shù)據(jù)源部分和參數(shù)顯示區(qū),數(shù)據(jù)源可以包括像溫度、噪聲和頻率等屬性的數(shù)據(jù),參數(shù)顯示區(qū)則顯示了在模型迭代過程中每一步計(jì)算出的均值和方差,最終由EM模型估計(jì)出缺失數(shù)據(jù).
圖1 運(yùn)行結(jié)果圖
3.2TEM算法仿真結(jié)果與分析
為了測(cè)試本文中設(shè)計(jì)的缺失值估計(jì)模型的準(zhǔn)確性,在完備數(shù)據(jù)集中,先剔除部分觀測(cè)值,用算法對(duì)感知數(shù)據(jù)集中的完備數(shù)據(jù)進(jìn)行估計(jì),并用估計(jì)出來的值與原真實(shí)值進(jìn)行對(duì)比.
圖2和圖3中給出了溫度傳感器在一段時(shí)間內(nèi)的室內(nèi)溫度實(shí)際監(jiān)測(cè)值,同時(shí)分別給出了多元線性回歸模型的估計(jì)結(jié)果和TEM模型的估計(jì)結(jié)果.可以看出多元線性回歸的估計(jì)值與實(shí)際值有很多偏差,而本文中的TEM算法偏差不大,臨近的取值也非常接近實(shí)際值.
圖2 多元線性回歸模型室內(nèi)溫度數(shù)據(jù)估計(jì)結(jié)果分析圖
圖3 TEM算法室內(nèi)溫度數(shù)據(jù)估計(jì)結(jié)果分析圖
圖4和圖5中給出了溫度傳感器在一段時(shí)間內(nèi)的室外溫度實(shí)際監(jiān)測(cè)值,同時(shí)分別給出了多元線性回歸模型的估計(jì)結(jié)果和TEM模型的估計(jì)結(jié)果.可以看出多元線性回歸的估計(jì)值與實(shí)際值有較大偏差,而本文中的TEM算法的偏差很小,取得了很好的估計(jì)效果.
圖4 多元線性回歸模型室外溫度數(shù)據(jù)估計(jì)結(jié)果分析圖
圖5 TEM算法室外溫度數(shù)據(jù)估計(jì)結(jié)果分析圖
針對(duì)WSN中數(shù)據(jù)缺失的問題,本文介紹了一種基于最大似然估計(jì)的EM算法和基于時(shí)間相關(guān)性的多元回歸模型,結(jié)合兩種模型提出了一種新的WSN中缺失值估計(jì)算法.與原來的多元回歸模型進(jìn)行比較,TEM算法有很好的估計(jì)效果.
[1] 司海飛,楊忠,王珺.無線傳感器網(wǎng)絡(luò)研究現(xiàn)狀與應(yīng)用[J]. 機(jī)電工程, 2011,28(1):16-20,37.
[2] 蘇葉健. 無線傳感網(wǎng)技術(shù)綜述[J]. 信息通信, 2012(6): 275.
[3] 花琳琳. 不同缺失值處理技術(shù)的模擬比較[D]. 鄭州: 鄭州大學(xué), 2012.
[4] Halatchev M, Gruenwald L.Estimating missing values in related sensor data streams[A]. Proceedings of the 11thInternational Conference on Management of Data. Hyderabad, 2005:83-94.
[5] Li Ying-shu, Ai Chun-yu, Deshmukh W P, et al.Data estimation in sensor networks using physical and statistical methodologies[A]. Proceedings of the 28thIEEE International Conference on Distributed Computing Systems. Beijing, 2008:538-545.
[6] 潘立強(qiáng), 李建中, 駱吉洲.傳感器網(wǎng)絡(luò)中一種基于時(shí)空相關(guān)性的缺失值估計(jì)算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(1): 1-11.
[7] 潘立強(qiáng), 李建中.傳感器網(wǎng)絡(luò)中一種基于多元線性回歸模型的缺失值估計(jì)算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(12): 2101-2110.
[8] 何麗娟, 周鳴爭(zhēng), 陶皖, 等. WSN中不確定數(shù)據(jù)的估計(jì)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(28): 100-102.
[9]焉曉貞, 謝紅, 王桐.WSN的不確定傳感數(shù)據(jù)預(yù)測(cè)[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2012, 30(6): 567-572.
[10] Ephraim Y, William J. An EM algorithm for markov modulated markov processes[J]. IEEE Transactions on Signal Processing, 2009, 57(2): 463-470.
[11] 李慶陽, 王能超, 易大義. 數(shù)值分析[M]. 北京: 清華大學(xué)出版社, 2008: 25-28.
A missing value estimation model based on linear regression and maximum likelihood for WSN
CHEN Yuanyuan , YUAN Huanli
(School of Physics and Telecomunication Engineering,Zhoukou Normal University, Zhoukou 466001,China)
In order to solve the wireless sensor networks perceived problem of missing data, the author parameter estimation algorithm based on two temporal correlation of multiple linear regression model and maximum likelihood estimation model, we propose a new estimation of missing values. The algorithm not only can accurately estimate the time of a lack of information about the object, and in the case of time series does not satisfy the linear model is still able to estimate missing values, experiments show that the algorithm has good reliability and stability.
wireless sensor network; missing value estimation; linear regression model; EM algorithm
2016-03-17;
2016-04-20
河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(No.16B510009);河南省科技廳科技攻關(guān)項(xiàng)目(No.162102310607);河南省教育廳項(xiàng)目(No.2016-JSJYYB-096)
陳園園(1986-),女,河南周口人,碩士,主要研究方向:通信和信息處理.
TP393
A
1671-9476(2016)05-0071-04
10.13450/j.cnki.jzknu.2016.05.018