樊 卓,汪毓鐸
(北京信息科技大學信息與通信工程學院,北京 100085)
物聯(lián)網中存在的異構數據逐日增長,用戶如何在海量物聯(lián)網數據信息中,快速檢索到對自己有用的信息成為物聯(lián)網檢索技術亟待解決的主要問題。由于物聯(lián)網中的數據多為來自不同傳感器,其來源較為廣泛,導致物聯(lián)網中數據多數均為異構數據,如何對物聯(lián)網中異構多敏感信息進行快速檢索也成為了目前的研究難點之一。
部分相關領域的研究人員對物聯(lián)網信息檢索進行了一定研究。其中,丁晗等人[1]提出一種基于UML(Unified Modeling Language)和嵌入式多線程技術的信息檢索系統(tǒng)。采用融合濾波檢索方法,收集信息分類屬性狀態(tài)函數,得到信息檢索的輸出信息流,構建信息管理系統(tǒng)的信息采集模塊和人機交互平臺。根據綜合信息處理和信息檢索的支持向量機判別函數,對信息檢索進行預處理,并加載算法程序,實現(xiàn)信息的檢索和多線程調度,提高了檢索性能,完成信息智能化的軟件開發(fā)與設計檢索系統(tǒng)。秦代輝等人[2]提出一種信息自動整合檢索仿真研究。結合文檔行向量的逼近度和極值理論,并迭代調整塊的屬性集,采用K均值聚類方法將文檔集劃分為不同的文檔數據簇。利用數學集合和高斯函數的性質計算關鍵詞的加權最近鄰值,將數據聚類與關鍵詞加權最近鄰值相結合,建立了信息自動集成檢索模型從而完成信息檢索。袁敏等人[3]提出了基于云計算環(huán)境下的信息檢索和智能融合方法。通過設計邏輯結構和加密流程,并將 ASP和 ADO結合完成信息檢索。實驗結果表明,改進后的方法能有效提高信息檢索效率,信息融合準確度較高,具有一定的實用性。
但上述三種方法缺乏對相似信息間同源連續(xù)性規(guī)律的識別,導致檢索效率和速度較低的問題。本文采用一種基于BP神經網絡在物聯(lián)網多敏感信息同源檢索算法。從多維仿生信息學理論出發(fā),采用相似性度量法,通過多維空間的幾何分析法分析信息間的關系,將同源連續(xù)性規(guī)律應用于多敏感信息同源檢索中,實現(xiàn)高效的檢索。
物聯(lián)網技術的感知終端功能十分強大,其結構可以將各個模塊集成在一起,對采集到的信息進行處理和系統(tǒng)區(qū)分[3]。將實物接入物聯(lián)網,形成一個能夠實現(xiàn)通信交互和資源共享的網絡,達到智能識別、定位、跟蹤、監(jiān)控和管理的目的,具有動態(tài)網絡設施的自我調節(jié)能力。
現(xiàn)階段,物聯(lián)網體系結構大致可以分成感知層、網絡層以及應用層。通過3個層面提高信息交互速度和服務質量,滿足市場和用戶的需求。物聯(lián)網的具體結構架構在圖1中展現(xiàn)。
圖1 物聯(lián)網體系結構框架
敏感信息作為物聯(lián)網環(huán)境中非常常見的類型,會涉及到很多機密信息。因此,在物聯(lián)網信息采集過程中,應明確信息共享性、敏感性和系統(tǒng)性的特點,進一步確保信息處理和采集過程的安全性,確保信息管理和信息維護的效果符合實際標準,提高物聯(lián)網信息處理的綜合水平[4]。
在多敏感信息與用戶之間構建統(tǒng)一的數據處理模塊,接收用戶所提出的檢索請求,還能夠協(xié)調物聯(lián)網各傳感器,采集多個敏感數據源,實施有效的信息交換操作。物聯(lián)網信息檢索體系結構在圖2中展現(xiàn)。
圖2 物聯(lián)網信息檢索體系結構
通過圖2可知,在物聯(lián)網環(huán)境下,對多敏感同源信息檢索,能夠確定物聯(lián)網數據特性,有效地提高數據檢索的效率。
一般情況下,BP網絡隱含層較多,經過幾次權值調整,可以使網絡學習樣本知識,并以權值的形式存儲;但隱含層過多,需要調整的權值數量也大幅度增加,網絡學習占用的時間也較多。理論上來講,當隱層神經元(節(jié)點)的數目可以任意設定時,一個隱層的三層BP神經網絡能夠以任意精度逼近任意連續(xù)函數;因此,在大多數應用中,只使用一個隱層的三層BP神經網絡[5]。如圖3所示。
圖3 BP網絡模型
通過圖3可知,三層BP網絡在輸入層設定n個節(jié)點,輸出層中的m個節(jié)點,隱層中的1個節(jié)點,N作為樣本數量,輸入向量[x1,x2,…xn,wji]作為隱層節(jié)點和輸入層節(jié)點間的連接權重,那么隱層節(jié)點的輸入和輸出的表達式為
(1)
Oj=f1(NTj)
(2)
隱層節(jié)點的函數f1選擇S形變換函數。wji表示輸出層節(jié)點k和隱層節(jié)點j的連接權值。f2表示輸出層節(jié)點的函數,可得出yk的表達式即
(3)
其中,誤差函數利用平方誤差函數得出,對于整體樣本的總誤差公式如下
(4)
為了能夠加快運行時的速度,防止陷入局部極小解狀態(tài),加入動態(tài)因子的學習算法,可得到公式如下
(5)
(6)
其中,t+l表示動態(tài)因子量,δjp和δkj分別代表樣本N輸入時輸出層節(jié)點k和隱藏層節(jié)點j的誤差項,其運算式為
(7)
(8)
通過上述過程可知,BP網絡具有很強的非線性映射能力,廣泛適合于模式識別和分類[6],同時結合多維仿生信息理論的點同源連續(xù)性規(guī)則,可提取到更為完整有效的多敏感信息同源相似度,其數學描述如下。
在n維特征空間Rn內,讓某類事物的所有采樣點所形成的集合為A。取任意兩個樣本X,Y∈A,當X≠Y時,必須有滿足B的集合,公式為
(9)
其中,ρ(XM,XM+1)用來描述樣本XM,XM+1之間的間隔距離,L表示采樣點數。
檢索物聯(lián)網內存在相似性的多敏感信息,并根據相似度對其進行排序[7]。
傳統(tǒng)的相似函數是關于兩個特征序列的,許多相似性度量方法得到了廣泛的應用,如Cosine Similarity,表達式為
(10)
通過多維仿生信息論的同源連續(xù)性規(guī)則,將相似性度量方法描述為H-S(Y1·Y2)函數。
將H-S(Y1·Y2)作為一個二進制函數其取值為0或1。如果函數等于1,則表示兩個特征序列是同源相似的;如果函數等于0,則表示兩個特征序列不是同源相似的。當滿足以下兩個條件之一時,由兩個特征表示的信息在某種程度上是源調[8]。
兩個相同維空間的特征數據部分匹配作為特征數據與另一個特征數據的所有序列或子序列之間存在對應關系,其表達式為
(11)
同樣,判斷Y2與Y是否部分或完全匹配,與式(11)類似。
當同一維空間中的特征數據在同一維空間中平移、旋轉或縮放時,變換前后的信息也具有同源性關聯(lián)[9]。根據多敏感信息原理的復合變換矩陣,可得出公式為
(12)
在式(12)中,a和e所描述的是水平軸和垂直軸的比例因子,α所描述的是旋轉角度,c和f所描述的是水平軸和垂直軸的平移。
根據式(12)可以表示兩個特征信息之間的相關性。如果兩個特征信息是同源的,那么兩個特征信息可以通過幾何變換實現(xiàn)近似推導。
同源性檢索作為生物信息學的基本課題之一。通過同源搜索,使生物學家可以從數據庫中得到與查詢序列相似的序列,從而快速得到大量有價值的參考信息,有助于進一步更準確地深入分析[10]。
把多維空間仿生信息理論及其點同源連續(xù)性規(guī)律應用于多敏感信息檢索中,通過幾何計算方法,使操作過程更加簡單快捷。具體過程如圖4所示。
圖4 檢索原理圖
通過圖4可知,檢索系統(tǒng)可以根據用戶提交的信息,檢索出大規(guī)模信息資源中與信息最接近的內容,對搜索信息資源的相關程度進行排序,并將排序后的搜索結果反饋給用戶[11]。
根據多維空間仿生信息學理論,MN所對應于MN維空間的P點,用數學符號PMN表示。
將MN維信息在RT維之間轉換成KH維特征點,即PMN的多維空間點表達公式如下:
(13)
通過多維仿生信息學原理,每個局部塊在RT維空間中都有對應的點,PMN的屬性數據可以用從KH特征數據和RT維空間中的點來展現(xiàn)。
利用多維仿生信息學中的幾何映射和投影擴展方法,可以在RT維中找到KH點的特征空間,得到一組μ維特征空間,表示為Rμ={p1,p2,…,pKH}。
相似性有效度量直接決定了對象的排序。當面對數據信息搜索引擎窗口所呈現(xiàn)的大量內容,用戶往往無法瀏覽全部信息內容,因此對資源信息的排序順序顯得十分重要。
特征提取之后的相似性度量作為多敏感信息同源檢索中的關鍵,實質是判斷檢索信息與被檢索信息數據庫內節(jié)點間隔距離。在多維仿生信息學理論中,特征提取之后的任何特征信息都對應于同一維空間中的一個點,因此,識別節(jié)點信息間隔就是分析其在μ維空間內點和點之間的關系。
將同源相似性和仿生距離相結合,即完成多敏感信息同源檢索。利用方程(14)中描述的θ(Y1,Y2)函數來表示特征數據計算的距離函數。
(14)
步驟1:提取多敏感信息的特征數據;
步驟2:計算每個多敏感信息和被檢索信息的H-S(Y1,Y2)和θ(Y1,Y2);
步驟3:將H-S(Y1,Y2)=1的信息檢索結果進行剔除,減輕系統(tǒng)的內存壓力。
步驟4:H-S(Y1,Y2)=0的檢索按θ(Y1,Y2)值從小到大的順序輸出。
通過同源相似性和仿生距離相結合檢索,獲得檢索結果并按照合理順序排列,在減輕系統(tǒng)內容壓力的同時,實現(xiàn)多敏感同源信息檢索。
為了驗證物聯(lián)網多敏感信息同源檢索的有效性和可行性,進行了實驗研究。在實驗過程中,以Windows 2010操作系統(tǒng)為硬件平臺,利用MATLAB軟件對實驗過程進行實驗。在相同條件下,對多用戶相似源敏感信息進行檢索,對比所提方法、文獻[1]方法和文獻[2]方法在檢索過程中耗用的時間。具體內容,如表1所示。
表1 不同方法檢索完成時間對比
由表1可以得出,本文檢索方法完成信息檢索的時間最短,說明其速度較快。通過對敏感信息特征提取降低檢索的計算復雜度,提高檢索速度。
最終目的是實現(xiàn)多用戶相似源信息的檢索,目前,用戶對檢索結果的滿意度已成為衡量檢索質量的準則。實驗中隨機選擇100個用戶,采用三種方法檢索所需信息,并允許用戶對檢索結果進行評價。把評價滿意度總分設定成10分,每10個用戶形成一組滿意度評價結果,計算各組的平均值,得到用戶滿意度對比圖如圖5所示。
圖5 不同檢索方法的用戶滿意度對比
如圖5可知,用戶對所提方法得到的檢索結果最為滿意,能夠獲得多用戶相似源信息,說明該檢索方法具有優(yōu)質有效性和可行性,可更好地滿足用戶需求。
提出基于BP神經網絡在物聯(lián)網多敏感信息同源檢索算法,利用多維信息仿生理論對多敏感信息同源相似度提取,按同源相似信息仿生距離相結合檢索。雖檢索速度和用戶滿意度較高,但占用系統(tǒng)內存大,對安裝設備硬件要求高,所以下一步研究是如何在保證查全率、查準率和查詢速度基礎上,減少對空間內存的依賴。