童金武,黃廷磊,龍鐵光,劉艷紅
(1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,桂林541004;2.桂林電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院;3.中南大學(xué))
在特殊環(huán)境下,由于傳感器自身原因或受到周?chē)h(huán)境諸多不確定干擾因素的影響,單一傳感器、單一測(cè)量周期很難精確地對(duì)某一參數(shù)進(jìn)行檢測(cè)。因此,對(duì)于傳感器所檢測(cè)的值進(jìn)行后期數(shù)據(jù)融合就顯得尤為重要了。傳感器信息融合一般采用三種方式:?jiǎn)蝹鞲衅鞫鄿y(cè)量周期、多傳感器單測(cè)量周期和多個(gè)傳感器多測(cè)量周期信息融合[1]。在數(shù)據(jù)采集與信號(hào)處理系統(tǒng)中,經(jīng)常要利用多個(gè)傳感器對(duì)同一目標(biāo)進(jìn)行重復(fù)檢測(cè),并運(yùn)用合理的算法融合多個(gè)傳感器的檢測(cè)信息。在一定范圍和條件下,傳感器節(jié)點(diǎn)越多,重復(fù)檢測(cè)周期越短,越能接近待檢測(cè)參數(shù)值。但是,隨著傳感器節(jié)點(diǎn)的數(shù)量增加,重復(fù)檢測(cè)的周期越短,采集到的數(shù)據(jù)量將急劇上升。數(shù)據(jù)量的增大將影響傳感器的實(shí)時(shí)性。目前多傳感器對(duì)于同一目標(biāo)在不同周期內(nèi)采集到了多組數(shù)據(jù),這些數(shù)據(jù)在融合算法方面[3-5],選擇不同的參數(shù)值將導(dǎo)致不同的融合結(jié)果。為此,本文運(yùn)用多元統(tǒng)計(jì)分析中的主成分分析思想,給出了一種新的數(shù)據(jù)融合方法。
1.1.1 主成分的定義
欲從原始量中得到新的綜合變量,一種較為常見(jiàn)的方法是對(duì)原變量做線(xiàn)性變換,使新的綜合變量為原變量的線(xiàn)性組合。設(shè)p維總體x的p個(gè)隨機(jī)變量為x1,x2,x3,…,xp,它們的線(xiàn)性組合構(gòu)成一個(gè)新的綜合變量:
為了用盡可能少的綜合變量代替原變量,就要求每個(gè)綜合變量盡可能多地集中原有變量信息,這可以用綜合變量的方差來(lái)表達(dá),即方差var(f1)越大,表示變量f1包含的信息量越多。若用D 來(lái)表示方差(下同),顯然對(duì)于任何常數(shù)C都有:
即a1乘以一個(gè)常數(shù)后可使方差D(f1)任意增大。要使方差D(f1)可以任意比較,還要求線(xiàn)性組合的系數(shù)滿(mǎn)足規(guī)范化條件:
在滿(mǎn)足此條件的同時(shí)力求使第一個(gè)綜合變量f1的方差D(f1)達(dá)到最大。若變量f1包含的信息不足以代表原有變量,則需建立第2,3,4,…,m 個(gè)綜合變量(m≤p)。它們的線(xiàn)性組合為:
對(duì)于每一個(gè)i(i=1,2,…,m),均應(yīng)滿(mǎn)足如下規(guī)范化條件:
和互不相關(guān)的條件:
并在滿(mǎn)足這兩個(gè)條件的前提下,方差D(fi)達(dá)到最大。則稱(chēng)綜合變量fi為總體x的第i主成分。
各主成分fi的方差λi=D(fi)又稱(chēng)為它的方差貢獻(xiàn),而λi/M×100%(其中,下同)為綜合變量fi的差貢獻(xiàn)率,前p個(gè)主成分f1,f2,f3,…,fm的方差獻(xiàn)率之和(λ1+λ2+…+λp)/M×100%,為方差累計(jì)貢獻(xiàn)率。如果前面幾個(gè)主成分的累計(jì)貢獻(xiàn)率已經(jīng)很大,說(shuō)明前幾個(gè)主成分就可以在可接受的誤差范圍內(nèi)很好地描述待測(cè)量,例如方差累計(jì)貢獻(xiàn)率超過(guò)85%或超過(guò)90%,后面的主成分就可以略去。
1.1.2 主成分的性質(zhì)
從代數(shù)上看,主成分是p個(gè)變量x1,x2,x3,…,xp的一種特殊的線(xiàn)性組合,它僅依賴(lài)于總體的協(xié)方差陣,并不要求總體是正態(tài)分布的。上述定義中,當(dāng)總體的協(xié)方差陣未知時(shí),可以用樣本的協(xié)方差矩陣或相關(guān)矩陣代替。
主成分滿(mǎn)足如下性質(zhì):
①fi與fj(i≠j)不相關(guān)。
②f1是x的一切線(xiàn)性組合中方差達(dá)到最大的;f2是與f1不相關(guān)的一切x的線(xiàn)性組合中方差達(dá)到最大的……fi+1是與f1,f2,…,fi不相關(guān)的一切x的線(xiàn)性組合中方差達(dá)到最大的。
③第i個(gè)主成分對(duì)應(yīng)于第i大特征根λi的單位化正交特征向量,其方差為λi。
按照定義,要確定p維總體x的主成分,相當(dāng)于在p維空間找出一組正交的單位矢量{ai,i=1,2,…,m},并能使方差達(dá)到最大。為了找出主成分,先分析方差的算式。設(shè)多維總體x的均值向量為μ,其協(xié)方差陣為Σ,由多元隨機(jī)變理的性質(zhì),可以得到方差)為:
因?yàn)閰f(xié)方差陣Σ為p維的非負(fù)定的實(shí)對(duì)稱(chēng)陣,由矩陣代數(shù)的性質(zhì),它的p個(gè)特征值均為非負(fù)實(shí)數(shù),設(shè)它們?yōu)棣?≥λ2≥…≥λp≥0。且存在p個(gè)相互正交的單位特征向量,設(shè)與這p個(gè)特征值相對(duì)應(yīng)的特征向量單位化,正交化后為u1,u2,…,up,可以組成一個(gè)正交陣U=(u1,u2,…,up)。
得到協(xié)方差陣Σ的分解式:
上式在aTa=1的條件下,λ1是的上確界,在a=u1的條件下,故是總體的第1主成分。同理在條件aTu1=1與aTa=1的條件下,var(aTx)的上確界為λ2,記,則有:
即f2為總體x的第2個(gè)主成分。從而得到fi=uTix(i=3,4,…,p)為總體x的第i個(gè)主成分。且第i主成分的方差為D(fi)=D(uix)=λi,對(duì)于p維總體可以得到p個(gè)主成分。討論主成分的目的就是使原總體變量要降維,減少所使用變量的個(gè)數(shù)。事實(shí)上,零特征值所對(duì)應(yīng)的主成分,其方差也為零,這樣的主成分并沒(méi)有包含原有變量的信息,是可以丟棄的。所以,一般只保留前m(m<p)個(gè)主成分以替代原有的p個(gè)變量。
主成分分析方法的計(jì)算步驟:
①數(shù)據(jù)的標(biāo)準(zhǔn)化處理。
設(shè)有n個(gè)樣本單位,每個(gè)單位有p個(gè)指標(biāo),則有矩陣X=(xij)n×p,其中xij表示第i單位的第j指標(biāo)值。矩陣X表示如下:
對(duì)上述數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理的計(jì)算公式如下:
②計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)方差矩陣。
變量X=(x1,x2,…,xp)中,兩變量間相關(guān)系數(shù)的計(jì)算公式是:
由于Z 中的變量已是標(biāo)準(zhǔn)化的變量,此時(shí)Z 的列變量的協(xié)方差矩陣就是相關(guān)系數(shù)矩陣。
③計(jì)算R的特征根和特征向量。
④計(jì)算主成分的方差貢獻(xiàn)率及累計(jì)方差貢獻(xiàn)率。
相關(guān)矩陣R 的特征根就等于對(duì)應(yīng)的主成分的方差,其大小反映了第i個(gè)主成分所包含原始數(shù)據(jù)全部信息的比重,也反映了各主成分貢獻(xiàn)的大小。定義第i個(gè)主成分的方差貢獻(xiàn)率為:
累計(jì)方差貢獻(xiàn)率:
方差貢獻(xiàn)率αk越大表明第主成分綜合變量X=(X1,X2,…,Xp)′信息的能力越強(qiáng),也就是用Yi=ui′X 的差異來(lái)解釋變量X=(X1,X2,…,Xp)′的差異的能力越強(qiáng)。累計(jì)貢獻(xiàn)率越大,表明前k個(gè)主成分包含原始信息越多。
⑤選取主成分的個(gè)數(shù)。
主成分分析的目的之一是減少變量的個(gè)數(shù),即把最初的p個(gè)變量轉(zhuǎn)化為少數(shù)的幾個(gè)綜合變量,而且這幾個(gè)少數(shù)的綜合變量還要盡可能地保留原始數(shù)據(jù)的信息,從而減少分析的工作量。所以在選取主成分的個(gè)數(shù)時(shí),一般不會(huì)選取全部p個(gè)主成分,而是取m<p個(gè)主成分。m 取多少比較合適?一般說(shuō)來(lái),一方面,m 盡量取得大些,以使選取的主成分能夠盡量多地包含原來(lái)變量的信息;另一方面,m又不能太大,m 越大表明主成分的個(gè)數(shù)越多,不能達(dá)到簡(jiǎn)化分析的目的。m 的取值可以兼顧變量的個(gè)數(shù)和累計(jì)貢獻(xiàn)率兩個(gè)方面,一般是以所取的m 使得累計(jì)貢獻(xiàn)率達(dá)到85%以上為宜。
采用4個(gè)DS18B20對(duì)溫箱(設(shè)定為23 ℃)進(jìn)行溫度檢測(cè),每隔10分鐘采樣一次溫度值并記錄,得到表1中的檢測(cè)值。
表1 4個(gè)溫度傳感器測(cè)得的不同溫度值℃
通過(guò)Matlab計(jì)算得到樣本協(xié)方差矩陣S:
相關(guān)系數(shù)陣R:
相關(guān)系數(shù)陣的特征值和特征向量如表2所列,可知第三個(gè)特征值的累計(jì)方差貢獻(xiàn)率可達(dá)99.83%,遠(yuǎn)大于通常情況下的設(shè)定值(85%),故可以取三個(gè)樣本主成分。求出原變量ti與主成分fi的相關(guān)系數(shù),計(jì)算復(fù)相關(guān)系數(shù)ρ(fi,si),復(fù)相關(guān)系數(shù)的平方τi,再計(jì)算各傳感器的綜合支持度Zi,如表3所列。
表2 相關(guān)系數(shù)陣的特征值和特征向量
表3 復(fù)相關(guān)系數(shù)、各傳感器綜合支持度
由數(shù)據(jù)融合公式:
得到主成分融合的數(shù)值,表4中列出了主成分融合法和平均法融合得到的誤差值的比較。
表4 主成分、平均值法不同時(shí)刻絕對(duì)誤差對(duì)比℃
由表4可知,主成分融合法的絕對(duì)誤差要小,且累計(jì)絕對(duì)誤差也小一些。其絕對(duì)誤差用Matlab的仿真結(jié)果如圖1所示。
圖1 主成分/平均值法絕對(duì)誤差對(duì)比
在多傳感器的系統(tǒng)中,平均法融合對(duì)于各傳感器不加區(qū)分地均等利用檢測(cè)的數(shù)據(jù),沒(méi)有考慮到不同傳感器的權(quán)重。它適用于對(duì)于傳感器投放密度比較大,且故障傳感器(或受?chē)?yán)重干擾的傳感器)比較少的系統(tǒng)中。隨著傳感器數(shù)的增大,其絕對(duì)誤差將減小。而參考文獻(xiàn)[6]中的理論,需要指派定義不同的概率指派函數(shù),而概率指派是比較難確定的?;诙嘀С侄?、相似度的數(shù)據(jù)融合,則需要定義貼近度函數(shù)。
基于主成分的主成分融合方法的原理是在海量傳感數(shù)據(jù)中,盡可能地保存有效數(shù)據(jù),剃除冗余數(shù)據(jù)。得到的新的數(shù)據(jù)量比原數(shù)據(jù)量要少很多,且能在誤差范圍里盡可能地接近被檢測(cè)真值。
本文提出了一種基于主成分分析法的多傳感器數(shù)據(jù)融合算法。利用原變量之間的相關(guān)關(guān)系,用較少的新變量代替原來(lái)較多的變量,并使這些少數(shù)變量盡可能多地保留原來(lái)較多變量所反映的信息,這樣問(wèn)題就簡(jiǎn)化了。
[1]董九英.多傳感器數(shù)據(jù)融合的主成分方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(33):111-113.
[2]萬(wàn)樹(shù)平.基于主成分分析的多傳感器數(shù)據(jù)融合[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(32):29-32.
[3]劉敏華,蕭德云.基于相似度的多傳感器數(shù)據(jù)融合[J].控制與決策,2004,19(5):534-537.
[4]孫勇,景博.基于支持度的多傳感器一致可靠性融合[J].傳感技術(shù)學(xué)報(bào),2005,18(3):537-539.
[5]萬(wàn)樹(shù)平.基于信噪比的多傳感器數(shù)據(jù)融合方法[J].傳感技術(shù)學(xué)報(bào),2008,21(1):178-181.
[6]覃仁超,劉念,黃曉芳.基于免疫和D-S證據(jù)理論的計(jì)算機(jī)病毒檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2012(8).
[7]陳德釗.多元數(shù)據(jù)處理[M].北京:化學(xué)工業(yè)出版社,1997:124-138.
[8]余家林.肖枝洪.多元統(tǒng)計(jì)及SAS應(yīng)用[M].武漢:武漢大學(xué)出版社,2007:178-190.
[9]韓中庚.數(shù)學(xué)建模方法及應(yīng)用[M].北京:高等教育出版社,2005:130-132.
[10]Smirnov M Yu,Egbert G D.Robust principal component analysis of electromagnetic arrays with missing data[J].Geophysical Journal International,2012,190(3).