張金龍,孫國(guó)同
(中電科普天科技股份有限公司,廣東 廣州 510310)
傳感器網(wǎng)絡(luò)是以傳感器為節(jié)點(diǎn),采用無(wú)線方式完成通信的自組織網(wǎng)絡(luò),廣泛應(yīng)用于生態(tài)監(jiān)測(cè)、健康護(hù)理、智慧交通以及智慧物流等領(lǐng)域。目前,隨著網(wǎng)絡(luò)攻擊不確定性和復(fù)雜性的增加,傳感器網(wǎng)絡(luò)的安全預(yù)測(cè)問題備受關(guān)注。傳感器網(wǎng)絡(luò)的數(shù)據(jù)具有多模態(tài)、冗余性以及差異性的特點(diǎn),且傳感器之間存在異構(gòu)性,給傳感器網(wǎng)絡(luò)的數(shù)據(jù)融合帶來了一定難度。此外,由于安全監(jiān)控手段多樣,不同類型的安全監(jiān)控設(shè)備對(duì)傳感器的安全評(píng)估精度存在一定的差異。文章重點(diǎn)研究如何將傳感器提供的信息通過融合后形成對(duì)安全監(jiān)測(cè)環(huán)境的一致性表述。首先,采用卷積自編碼網(wǎng)絡(luò)(Convolutional Auto-Encode,CAE)對(duì)不同模態(tài)的異構(gòu)數(shù)據(jù)進(jìn)行編碼表示和解碼(重構(gòu)),從而實(shí)現(xiàn)不同模態(tài)異構(gòu)數(shù)據(jù)統(tǒng)一維度的特征表示,解決傳感器之間的異構(gòu)性問題。其次,為有效解決不同模態(tài)數(shù)據(jù)的差異性,以卷積自編碼網(wǎng)絡(luò)為基礎(chǔ),采用無(wú)監(jiān)督交叉模態(tài)哈希檢索方法(模態(tài)內(nèi)一致性、模態(tài)間一致性)約束解碼語(yǔ)義(特征重構(gòu)),將模態(tài)內(nèi)和模態(tài)間一致性約束應(yīng)用于解碼(重構(gòu))與全局特征學(xué)習(xí),解決編碼-解碼過程前后的特征損失問題,從而提升編碼表示的精度。最后,為有效利用標(biāo)簽信息,利用線性回歸學(xué)習(xí)多模態(tài)數(shù)據(jù)的線性回歸二進(jìn)制碼,并將其與多模態(tài)數(shù)據(jù)特征進(jìn)行加權(quán)融合,實(shí)現(xiàn)安全類別預(yù)測(cè)。
卷積自編碼網(wǎng)絡(luò)實(shí)際上是一種卷積自編碼器,工作過程與傳統(tǒng)的編碼器一致。首先通過卷積核自動(dòng)提取數(shù)據(jù)特征,并通過編碼表示數(shù)據(jù)語(yǔ)義,其次解碼數(shù)據(jù)語(yǔ)義,最后調(diào)整編碼和解碼的網(wǎng)絡(luò)參數(shù),使解碼的數(shù)據(jù)與原始數(shù)據(jù)差異最小,從而實(shí)現(xiàn)數(shù)據(jù)重構(gòu)。該方法通常稱為無(wú)監(jiān)督的編碼和解碼方法,在參數(shù)訓(xùn)練過程中不需要使用標(biāo)簽數(shù)據(jù),直接將重構(gòu)后的數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行比較即可。卷積自編碼網(wǎng)絡(luò)加入卷積核,是為了增強(qiáng)編碼器的抗干擾能力,提升自編碼器的健壯性[1-3]。卷積自編碼網(wǎng)絡(luò)廣泛應(yīng)用于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺以及模式識(shí)別等領(lǐng)域,通過對(duì)原始高維數(shù)據(jù)采取編碼降維措施,盡可能保持樣本的全局和局部語(yǔ)義特征,利用編碼后的特征進(jìn)行后續(xù)分類、降噪、重構(gòu)以及回歸等應(yīng)用[4-7]。
交叉模態(tài)檢索的方法來源于跨模態(tài)檢索/匹配方面的研究成果。隨著媒體數(shù)據(jù)文本、圖像和視頻等多模態(tài)技術(shù)的發(fā)展,不同模態(tài)的數(shù)據(jù)表現(xiàn)出一定的異構(gòu)性。如何快速檢索這些數(shù)據(jù)描述的事件和主題,并用于主題檢測(cè)和信息推薦,成為媒體廣泛關(guān)注的問題。與傳統(tǒng)的單模態(tài)檢索方法相比,交叉模態(tài)檢索方法需要構(gòu)建模態(tài)關(guān)系模型,學(xué)習(xí)不同模態(tài)數(shù)據(jù)之間的相似性與差異性,再比對(duì)不同模態(tài)之間的相似性,從而實(shí)現(xiàn)跨模態(tài)檢索。然而,如何學(xué)習(xí)異構(gòu)數(shù)據(jù)之間的統(tǒng)一特征空間十分重要。這種學(xué)習(xí)易構(gòu)數(shù)據(jù)統(tǒng)一特征空間的方法與矩陣分解、子空間、鄰域圖以及稀疏表示等方法密切相關(guān)[8-13]。交叉模態(tài)檢索方法通過學(xué)習(xí)多種模態(tài)數(shù)據(jù)并將其投影到統(tǒng)一特征空間,在統(tǒng)一特征空間中挖掘不同模態(tài)數(shù)據(jù)之間的相似性和差異性,能夠發(fā)掘不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)。
隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,不同來源和不同領(lǐng)域的數(shù)據(jù)實(shí)時(shí)融合處理成為可能。與傳統(tǒng)的單一數(shù)據(jù)相比,多源多模態(tài)數(shù)據(jù)能夠提供更多的信息。這些信息有些是冗余的,有些是互補(bǔ)的,但是通過對(duì)數(shù)據(jù)之間的補(bǔ)充和修正,能夠?yàn)橛脩籼峁└訙?zhǔn)確的信息。此外,不同領(lǐng)域基于多源多模態(tài)數(shù)據(jù)的融合,能夠形成對(duì)事物相對(duì)完整、一致的感知描述,從而提升信息的呈現(xiàn)效果和表達(dá)的健壯性。
然而,多模態(tài)數(shù)據(jù)融合往往需要通過數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)重構(gòu)、特征提取、語(yǔ)義匹配以及數(shù)據(jù)融合多個(gè)步驟,才能實(shí)現(xiàn)多模態(tài)數(shù)據(jù)語(yǔ)義上的融合。因此,文章提出一種多源數(shù)據(jù)約束性融合的方法,包含數(shù)據(jù)編碼、特征提取以及特征融合等過程。首先,通過采用自編碼網(wǎng)絡(luò)編碼原始數(shù)據(jù),解決多源數(shù)據(jù)維度不一致的問題;其次,采用模態(tài)內(nèi)一致性、模態(tài)間一致性以及基于標(biāo)簽信息的線性回歸學(xué)習(xí)等方法,訓(xùn)練卷積自編碼網(wǎng)絡(luò)的參數(shù)和線性回歸二進(jìn)制碼,得到數(shù)據(jù)的全局特征和局部特征;再次,將數(shù)據(jù)特征與線性回歸二進(jìn)制碼加權(quán)融合,實(shí)現(xiàn)統(tǒng)一特征空間的關(guān)聯(lián);最后,基于融合后的特征,采用激活函數(shù)Sigmoid處理融合后的特征,并結(jié)合Softmax對(duì)處理后的結(jié)果輸出概率的最大類別實(shí)現(xiàn)類別預(yù)測(cè)。多源數(shù)據(jù)約束性融合的傳感器網(wǎng)絡(luò)安全預(yù)測(cè)技術(shù)架構(gòu),如圖1所示。
圖1 多源數(shù)據(jù)約束性融合的傳感器網(wǎng)絡(luò)安全預(yù)測(cè)技術(shù)架構(gòu)
為簡(jiǎn)化所提方法公式的復(fù)雜性,采用2類傳感器的數(shù)據(jù)進(jìn)行說明。在后期使用過程中,可以將2類傳感器擴(kuò)展到k(k>2)類傳感器。
將這2類傳感器的數(shù)據(jù)輸入CAE,與經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在卷積層之后使用全連接層得到固定長(zhǎng)度的特征向量進(jìn)行分類(全聯(lián)接層+Softmax輸出)不同,CAE可以接受任意尺寸的輸入數(shù)據(jù),采用反卷積層采樣最后一個(gè)卷積層的特征映射,使其恢復(fù)到與輸入數(shù)據(jù)相同的尺寸,從而預(yù)測(cè)數(shù)據(jù)集合中的每一個(gè)維度,同時(shí)保留原始輸入數(shù)據(jù)集合中的空間信息,并在采樣的特征圖中進(jìn)行逐像素分類。
使用2個(gè)CAE分別對(duì)第一類傳感器數(shù)據(jù)和第二類傳感器采取編碼-解碼學(xué)習(xí)措施,從而提取其編碼表示和解碼表示。
第一類數(shù)據(jù)的編碼表示和解碼表示分別為
第二類數(shù)據(jù)的編碼表示和解碼表示分別為
為訓(xùn)練卷積自編碼網(wǎng)絡(luò)的參數(shù)θCAE,需要考慮以下3個(gè)問題。
2.2.1 標(biāo)簽表示
標(biāo)簽表示對(duì)于自編碼網(wǎng)絡(luò)的參數(shù)θCAE的訓(xùn)練有很大幫助。由于不同傳感器的2類樣本數(shù)據(jù)本應(yīng)該具有一致的語(yǔ)義標(biāo)簽信息,可以在有限的標(biāo)簽樣本中采用標(biāo)簽監(jiān)督不同傳感器樣本數(shù)據(jù)(或稱為不同模態(tài)數(shù)據(jù))標(biāo)簽的一致性。因此,引入線性回歸二進(jìn)制碼擬合不同模態(tài)標(biāo)簽數(shù)據(jù),即
式中:L為語(yǔ)義標(biāo)簽矩陣;W為回歸系數(shù)矩陣;B為2類數(shù)據(jù)解碼表示的拼接矩陣,有B=[Uv;Uu]。
2.2.2 數(shù)據(jù)在編碼-解碼過程的特征損失問題
針對(duì)數(shù)據(jù)在編碼-解碼過程存在的特征損失問題,采用模態(tài)內(nèi)相似性衡量同一類傳感器樣本的局部相似性,保障數(shù)據(jù)在編碼-解碼前后的編碼表示和解碼表示的一致性,即
式中:Uv為第一類傳感器數(shù)據(jù)的解碼表示集合;Uu為第二類傳感器數(shù)據(jù)的解碼表示集合;為每一類模態(tài)數(shù)據(jù)與解碼表示的殘差。
2.2.3 提升不同模態(tài)數(shù)據(jù)之間全局特征學(xué)習(xí)的適應(yīng)性為提升不同模態(tài)數(shù)據(jù)之間全局特征學(xué)習(xí)的適應(yīng)性,在編碼過程中盡可能保持原始樣本的整體特征。因此,通過描述不同模態(tài)間的一致性,實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的有效關(guān)聯(lián),即
式中:W=[Wv;Wu];Rij為第一類傳感器數(shù)據(jù)xiv與第二類傳感器數(shù)據(jù)yju相同的標(biāo)簽信息。
為求解卷積自編碼網(wǎng)絡(luò)的參數(shù)θCAE,整合式(5)、式(6)、式(7),并將模態(tài)內(nèi)和模態(tài)間最小化,有
式中:λ1、λ2、λ3為平衡函數(shù),是為了避免出現(xiàn)過擬合而設(shè)置的正則化參數(shù)。
在求出W、B以及卷積自編碼網(wǎng)絡(luò)的參數(shù)θCAE的基礎(chǔ)上,結(jié)合式(1)和式(3)求解編碼表示,得到各類傳感器數(shù)據(jù)的特征后拼接特征。拼接方式參考式(5)的B拼接,得到編碼表示的拼接矩陣G,然后結(jié)合線性回歸二進(jìn)制碼W加權(quán)實(shí)現(xiàn)特征融合L,即
在特征融合的基礎(chǔ)上,采用激活函數(shù)Sigmoid處理融合后的特征,并結(jié)合Softmax對(duì)處理后的結(jié)果輸出概率的最大類別,從而實(shí)現(xiàn)類別預(yù)測(cè)。Sigmoid函數(shù)是一種logistic函數(shù),能夠?qū)⑷我獾闹缔D(zhuǎn)換到[0,1],函數(shù)表達(dá)式為
在對(duì)融合特征值L進(jìn)行轉(zhuǎn)換后,將其放入softmax函數(shù)實(shí)現(xiàn)歸一化處理,從而確定σ(L)屬于第j個(gè)分類的概率。在各種類別的概率計(jì)算公式為
式中:y為分類類別;P[y|σ(L)|]為n種分類類別的概率值。
選取某互聯(lián)網(wǎng)公司的信息物理系統(tǒng)安全態(tài)勢(shì)數(shù)據(jù)作為數(shù)據(jù)集,采集公司連續(xù)15周的網(wǎng)絡(luò)邊界多種傳感器數(shù)據(jù)信息、網(wǎng)絡(luò)內(nèi)部的數(shù)據(jù)信息以及部分主機(jī)的審計(jì)日志數(shù)據(jù),共437 218條,其中正常數(shù)據(jù)有418 951條,異常數(shù)集據(jù)有18 267條。異常數(shù)據(jù)集的攻擊類型包含拒絕服務(wù)攻擊、漏洞掃描攻擊、非法進(jìn)入攻擊以及非法獲取攻擊4大類。正常數(shù)據(jù)的類型標(biāo)記屬性為0,拒絕服務(wù)攻擊、漏洞掃描攻擊、非法進(jìn)入攻擊以及非法獲取攻擊類型標(biāo)記屬性分別為1、2、3、4。安全態(tài)勢(shì)預(yù)測(cè)類別有安全、輕微危害、一般危害以及非常嚴(yán)重危害4個(gè)等級(jí)。
為比較不同算法在網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)領(lǐng)域的預(yù)測(cè)精度,將本文模型與融合CNN的格拉姆角場(chǎng)(Gramian Angular Field,GAF)模式識(shí)別方法進(jìn)行對(duì)比,通過多次隨機(jī)抽取30%的正常數(shù)據(jù)和10%的異常數(shù)據(jù)進(jìn)行模型訓(xùn)練與預(yù)測(cè),得到的預(yù)測(cè)精度對(duì)比如圖2所示[14]。
圖2 算法精度對(duì)比
由圖2可知,多數(shù)情況下,所提算法預(yù)測(cè)精度比融合CNN的GAF算法高。同時(shí),基于10次預(yù)測(cè)精度的曲線可知,所提算法健壯性較優(yōu)。此外,由于在處理多傳感器數(shù)據(jù)時(shí)充分考慮了傳感器數(shù)據(jù)之間的冗余性和互補(bǔ)性,采用模態(tài)內(nèi)一致性、模態(tài)間一致性以及基于標(biāo)簽信息的線性回歸學(xué)習(xí)等方法,訓(xùn)練卷積自編碼網(wǎng)絡(luò)的參數(shù)和線性回歸二進(jìn)制碼,實(shí)現(xiàn)了多種信息之間的補(bǔ)充和修正,從而為安全預(yù)測(cè)提供相對(duì)完整、一致的語(yǔ)義信息。雖然融合CNN的GAF算法在特征提取方面性能較好,但是沒有從多模態(tài)數(shù)據(jù)之間一致性、模態(tài)內(nèi)一致性的角度考慮特征的融合,因此在對(duì)抗數(shù)據(jù)的隨機(jī)性和噪聲時(shí)略遜一籌。
針對(duì)現(xiàn)有多傳感器數(shù)據(jù)融合難的問題,提出基于多源數(shù)據(jù)約束性融合的傳感器網(wǎng)絡(luò)安全預(yù)測(cè)方法。該方法彌補(bǔ)了傳統(tǒng)使用單一傳感器數(shù)據(jù)實(shí)現(xiàn)網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)的劣勢(shì)。實(shí)驗(yàn)表明,所提方法具有較高健壯性,通過關(guān)聯(lián)多種傳感器數(shù)據(jù)之間的關(guān)系,可為系統(tǒng)提供相對(duì)完整、一致的語(yǔ)義信息,有利于實(shí)現(xiàn)網(wǎng)絡(luò)安全預(yù)測(cè)。