楊呈永,劉佳祎
(桂林理工大學 現代教育技術中心, 廣西 桂林 541006)
物聯(lián)網的概念最早可追溯到1999年, 由Kevin等提出。 國際電信聯(lián)盟(international telecommunication union,ITU)在2005年11月的報告中對“物聯(lián)網”的概念和特征[1]以及未來發(fā)展過程中將面臨的困難等方面進行論述,并將相關成果發(fā)布到《ITU Internet reports 2005—The Internet of Things》中。 為了達到人與物相交互的目的, 人們利用如無線傳感器、 RFID、 GPS 等設備將現實中的物品進行網絡連接, 并將這一過程稱為物聯(lián)網[2]。 基礎設施的不斷完善使得物聯(lián)網核心技術也得到了快速發(fā)展, 并在日常生活的各個方面得到應用。 由于不同的應用服務商監(jiān)測的目標各不相同, 進而產生了數量巨大的待處理監(jiān)測數據, 如果不能及時高效地處理, 將會在網絡傳輸過程中造成嚴重的帶寬資源浪費。 由于物聯(lián)網的各個節(jié)點的工作狀態(tài)不能夠保證穩(wěn)定, 所以物聯(lián)網的數據存在著嚴重的不確定性問題。
信息融合作為可以把所獲取的多源信息對比、分析和評估后得到的有效信息進行融合處理的一種熱點技術,具有更加精確、更加全面的判別力,深受學者們的青睞[3-4]。目前,國內外研究學者針對D-S證據理論[5]這一熱點信息融合技術的研究主要有:利用數學模型修正證據源的沖突證據合成方法[6-7];徐琰珂等將模糊邏輯算法進行優(yōu)化用于提高信息融合系統(tǒng)的穩(wěn)定性[8];文獻[9-11]中重點介紹貝葉斯網絡和層次分析法等算法與原D-S證據理論的結合;如何用D-S證據理論解決某一具體應用中存在的問題[12-15]。
通過上述文獻可發(fā)現,在D-S證據理論中的單一問題,學者們作了良好的改進與分析,且在D-S證據理論的實際應用中,人們常常只關注融合后的最終結果,并不關注事件本身的特征,這樣會造成底層融合數據特征的流失。因此,如何在融合過程中,對事件進行多維度的分析成為目前急需解決的重點問題。
數據融合是一種將多源數據進行融合處理的技術, 是智能信息處理技術的范圍。 通過將各個節(jié)點的數據進行充分分析和整合得到對監(jiān)測對象的最佳一致估計, 比單一的數據源更為精準、 全面[16], 從而使用戶作出正確的選擇。 數據融合算法經過多年的發(fā)展, 有一些算法形成了比較成熟的方法, 還有一些算法是學者研究的熱點。 常見的數據融合方法主要有: 古典概率推理、 貝葉斯方法、 神經網絡、 模糊集理論、 D-S證據理論。
1)古典概率推理。古典概率討論的范圍僅限于隨機試驗產生的等可能結果的情形[17]。每次試驗有有限個結果,而且結果出現的可能性一致。缺點是無法直接應用先驗知識,一次只能評估兩個假設事件等。
2)貝葉斯方法。貝葉斯(Bayes)發(fā)展的比較早,該方法是基于最大后驗和似然比檢驗,如果先驗概率能夠算出,貝葉斯方法將是一個很好的解決方法。但是在實際問題求解中很難獲得先驗概率,即確定先驗的似然函數非常困難。而且,傳統(tǒng)的貝葉斯要求條件復雜苛刻[18],很難滿足和實現,這就限制了貝葉斯的應用。貝葉斯也無法處理廣義的不確定問題。
3)神經網絡。近年來以神經網絡(neural networks)進行數據融合的技術取得了很大的進步[19]。神經網絡的工作原理和人類大腦類似,模擬人腦的思維,該算法具有簡單的并行分布式計算、平行分布式處理(速度快)、容錯性高、數據魯棒性等特點。神經網絡允許多個信號的輸入和多個變量的輸出,經過系統(tǒng)訓練,把數據分配到正確的分類中輸出,適合多變量系統(tǒng)。神經網絡可以在訓練過程中輸入沒有出現過的新數據,并進行識別,因此該算法可以進行學習和自適應。通過神經網絡的學習,可以很好地適應無數學模型和難以建立數學模型的推理過程。神經網絡的神經元一般是線性的,要處理復雜的非線性問題,還需要進一步的改進和發(fā)展。此外,神經網絡的輸入數據若不是很充分,將不能夠正常工作,這也是一個局限。
4)模糊集理論。模糊集(Fuzzy Sets)理論在模糊集的基礎上發(fā)展起來,由于具有處理模糊問題的能力和模糊推理的優(yōu)勢,被廣泛地應用于信息融合領域[20]。模糊理論和模糊邏輯也被應用到多源數據融合技術中。模糊集將數據元素與集合關系的絕對化處理為模糊概率化。源數據在模糊集處理之前只有存在或不存在集合兩種關系,經過模糊運算處理之后,表示為源數據在集合中存在概率的多少,然后用一定的方法統(tǒng)一融合決策。
5)D-S證據理論。Dempster于1967年提出了證據理論,Shafer把該理論推廣到更一般情形。D-S(Dempster-Shafer)證據理論在貝葉斯的基礎上作了推廣,引入信任函數的概念,借助了多重證據來確定決策結論。通過給命題(如今天的氣溫)分配一定的信任函數,對多個問題的不精確描述有效分析后,再利用相應的公式將矛盾數據有效排除和整合,便可得到確定數據。同傳統(tǒng)的數據融合方法相比,D-S證據理論最大的特點是以證據的形式來表現數據的不確定性,且證據理論擺脫了貝葉斯理論對先驗知識的依賴。D-S證據理論的不確定性推理過程可以解決物聯(lián)網節(jié)點產生的不確定性數據,對數據進行融合運算,得到較為確定的數據[21-22]。
本文以D-S證據理論為基礎, 研究在物聯(lián)網環(huán)境下, 如何更好解決數據的不確定性問題。
1967年,為紀念A.P.Dempster和G.Shafer兩位學者在證據理論方面作出的突出貢獻,人們將證據理論稱為Dempster-Shafer理論。
用Φ集合來表示已了解的情況下所有可能出現的判決結果的集合。如果Φ中的任一個子集表示人們所關心的任一命題,則稱Φ為識別框架。
設Φ代表一個識別框架信度集函數A: 2Φ→[0,1]必須同時滿足3個條件:A(O)=0;A(Φ)=1;當?M1,M2,…,Mt?Φ時,有
(1)
由式(1)可知,D-S證據理論在整個框架中都存在不確定的信度。
當M≠O時,
(2)
當多個信度函數A1,A2,…,Ai在同一框架Φ上時,它們所對應的基本可信度分配分別為n1,n2,…,ni。 假設?M?Φ,M≠O且A1?∧?An存在基本可信度分配,用n表示,則有:
(3)
由式(2)和式(3)可知,無論有多少個證據,相結合次序都不會影響其結果,可以用兩個證據的計算來遞推得到多個證據結合的計算。
對于物聯(lián)網節(jié)點的數據融合來說,將物聯(lián)網中的各個節(jié)點看成一個命題,則具有識別、判斷及處理等功能的傳感器所展示的結果即為該命題對應的證據。若想要將物聯(lián)網中多個節(jié)點的數據進行融合時,則將采集到的數據進行度量,然后建立相應的基本概率分布函數作為可信度指標。各個函數和對應的框架稱為一個證據體,故在物聯(lián)網節(jié)點中每個傳感器都是一個證據體。利用Dempster合并規(guī)則在同一個框架下將每個證據體組合成完整的證據體,這就是物聯(lián)網節(jié)點數據融合的本質。圖1展現了基于物聯(lián)網節(jié)點的D-S數據融合方法,其中,n1(Mj),n2(Mj),…,ni(Mj)為i個節(jié)點的基本可信度分配;j=1,2,…,n;n(Mj)為經過Dempster合成法則結合成的新的基本可信度分配。
圖1 基于物聯(lián)網節(jié)點的D-S數據融合Fig.1 D-S data fusion based on IOT nodes
在物聯(lián)網各節(jié)點中多個傳感器系統(tǒng)的數據融合中,首先對系統(tǒng)進行第一次基本可信度分配,傳感器每一次報警,節(jié)點就會發(fā)送一個具有可分配的基本可信度;然后根據圖1中的法則將這些基本可信度進行合并得到最終結果;最后根據可信度和似真度等指標來判斷命題的合理性,將決策結果輸出。
在多個節(jié)點數據融合中,龐大的數據量使傳統(tǒng)的計算方式難以適用,設A為n個證據結合計算后的結果,1~n為n個證據,采用兩個證據結合的計算方法遞推出n個證據結合的計算,如圖2所示,其中,左側為傳統(tǒng)的直接計算,右側為遞推n個證據結合的計算。
圖2 多個證據等效結構圖Fig.2 Equivalent structure of multiple evidences
因為物聯(lián)網的節(jié)點監(jiān)測能力不同,發(fā)送數據的可靠性不同,節(jié)點的能耗也不同。如果某一個可靠性高的節(jié)點突然發(fā)生了故障,導致節(jié)點發(fā)送的數據產生了很大的誤差,此時,在融合的過程中如果還按照原來的權重進行基本概率分配,就會產生與實際情況不符的錯誤。因此,本文在原有節(jié)點權重的基礎上再進行一個權重的修改,在數據融合的同時考慮節(jié)點能力大小和節(jié)點沖突性。當一部分數據與其他大部分數據存在較大的沖突時, 即使這個節(jié)點的能力很大, 權重很高, 也認為這一部分數據可能會不準確, 將會相應地對該權重進行微調, 盡量使這些不精準的數據對結果沒有過多影響。 弱化壞的數據對最終決策的支持, 在一定程度上優(yōu)化最終融合結果。
假設有識別空間Φ={M1,M2,…,Mn},其中M1,M2,…,Mn是各種假設,證據集合E={E1,E2,…,Em},每個證據對應的權重集合為W={w1,w2,…,wm}。每個證據的沖突ki情況按照D-S證據理論的沖突概率大小定義為
(4)
得到每個證據的沖突概率狀況后,根據每個證據的沖突概率和整個識別空間的沖突概率對比,再進行權重調整。整個識別空間的沖突概率表示為
(5)
這時引入原來的節(jié)點權重,根據沖突概率的大小來決定權重總量W
W=m×k0×wmin,
(6)
其中,wmin是原權重中的最小值。這里的權重總量考慮了沖突狀況。
根據權重總量作調整,原有的權重大小減去權重總量的平均數,也就是每一個證據的權重減去了沖突部分的權重:
(7)
最后調整權重的大小,節(jié)點的權重大小表示為
(8)
基于節(jié)點加權的D-S證據理論方法的步驟為
輸入:待融合目標M={M1,M2,…,Mn},n個節(jié)點的信任度函數ni(M)以及相應節(jié)點權重wi,初始化i=1。
輸出:融合目標的結果。
步驟:
①計算每一個證據ni(M)的沖突概率ki,根據沖突概率調整相應的基本概率分配,得到新的基本概率分配。
②計算n1(M)和n2(M)的沖突系數K。當K≠1時,調用D-S證據融合公式進行數據融合得到融合數據n(C)。
③循環(huán)n-2次。計算n(C)和ni+2(M)的沖突系數K。當K≠1時,調用D-S證據融合公式更新融合數據n(C)。
④循環(huán)結束,得到最終的融合結果n(C)。
為驗證物聯(lián)網中數據傳輸的不確定性,本文選擇物聯(lián)網中節(jié)點1、2、3、4這4個節(jié)點,在Windows XP操作系統(tǒng)的電腦上采用NS2仿真軟件進行模擬仿真實驗。假設在一個盒子中有且僅有3種顏色的球:紅、黃、綠,記在盒子里取出球的顏色種類{紅球、 黃球、 綠球}為監(jiān)測目標,表示為A、B、C,則這4個節(jié)點分別對應的信任函數為m1,m2,m3,m4。
通過NS2仿真軟件可得到一組有效數據,4個節(jié)點的權重值分別為0.1,0.2,0.5,0.2。對監(jiān)測目標{紅球、黃球、綠球}的信任度分別為:
m1(A)=0.1,m1(B)=0.8,m1(C)=0.1;
m2(A)=0.2,m2(B)=0.7,m2(C)=0.1;
m3(A)=0.8,m3(B)=0.1,m3(C)=0.1;
m4(A)=0.1,m4(B)=0.7,m4(C)=0.2。
由上述數據可得基本概率分配(表1)。
表1 四個節(jié)點的概率分配
根據本文提出的證據理論方法,系統(tǒng)得到最終的基本可信度分配;然后根據可信度和似真度等指標來判斷命題的合理性,將決策結果輸出;最后按照傳統(tǒng)的D-S證據理論公式合成最終的數據結果。根據節(jié)點的權重計算最后的融合數據為{0.142, 0.782, 0.085},其結果為黃球。
為了檢測不同節(jié)點權重下的D-S證據融合理論的結果,將4個節(jié)點中的一個去掉,變成節(jié)點1、2、3這3個節(jié)點,監(jiān)測目標的信任函數分別為監(jiān)測目標紅球A、黃球B、綠球C。通過NS2仿真生成相關數據(表2)。
表2 不同節(jié)點權重下兩種方法的比較
可以看出, 傳統(tǒng)的D-S證據理論不考慮節(jié)點的性能,只是依照證據進行數據融合, 不適用于物聯(lián)網這種大的環(huán)境。而基于節(jié)點加權的D-S證據理論能夠充分將數據節(jié)點的可靠性、節(jié)點性能的大小,以及自身發(fā)出數據與其他節(jié)點發(fā)出數據的沖突等綜合考慮。其結果說明D-S方法在目標識別及節(jié)點加權的數據融合中最大程度支持正確結果。
為進一步檢測D-S方法在目標識別及節(jié)點加權的數據融合中最大程度支持正確結果,本文采用文獻[22]中使用的數據集進行測試,選取該數據集中的6類,共211 570個網絡流樣本,圖3有效展示數據集屬性的分布情況,算法的檢測概率和虛警概率如圖4、圖5所示。
在物聯(lián)網底層中具有大量的數據節(jié)點,由于環(huán)境等因素的影響導致很多傳輸數據具有不確定性,將數據進行加權有效降低數據融合后的不確定性,由上述兩圖可知,算法突出了對樣本的識別判斷能力,在采用節(jié)點加權樣本數據的情況下,可以有效識別判定出被觀測對象的屬性。雖然其檢測概率略低于不含節(jié)點加權樣本數據的情況,但是虛警概率明顯較低。由此可證明,基于物聯(lián)網節(jié)點加權的D-S證據理論數據融合算法在較低虛警概率下具有較好的檢測概率。
圖3 數據集屬性分布Fig.3 Data set attribute distribution
圖4 算法的檢測概率Fig.4 Detection efficiency of the algorithm
圖5 算法的虛警概率Fig.5 False alarm efficiency of the algorithm
本文為解決海量數據節(jié)點產生和傳輸中的不確定性,提出在物聯(lián)網節(jié)點加權的基礎上用D-S證據理論對數據進行融合,并且設定目標識別的決策規(guī)則。在NS2的基礎上進行物聯(lián)網數據融合的仿真實驗。利用基于節(jié)點權重的D-S證據理論對數據進行融合,根據節(jié)點權重大小以及節(jié)點間產生沖突概率的情況,對節(jié)點的權重進行調整,并按照D-S證據理論公式進行融合。通過NS2仿真軟件進行對比實驗,模擬結果表示基于節(jié)點加權的D-S證據理論可將證據沖突性、節(jié)點性能大小等眾多因素綜合考慮,驗證在數據融合方面的有效性,即使節(jié)點權重很大,只要發(fā)生多次沖突就減小權重,保證融合結果的正確性,同時可使用戶在收到融合數據后最大程度貼近真實效果。