饒 廣
(內(nèi)江職業(yè)技術(shù)學(xué)院信息與電子學(xué)院,四川 內(nèi)江 641100)
目前,工業(yè)控制網(wǎng)絡(luò)應(yīng)用范圍逐漸擴(kuò)大,在3D模擬、數(shù)控機(jī)床工作以及數(shù)據(jù)傳感等領(lǐng)域呈現(xiàn)多樣化發(fā)展趨勢。隨著工控網(wǎng)絡(luò)處理數(shù)據(jù)量的不斷上升,與網(wǎng)絡(luò)搭載的多種平臺(tái)均離不開云計(jì)算和大數(shù)據(jù)技術(shù)。這兩種技術(shù)作為數(shù)據(jù)處理的核心和前提,具備較強(qiáng)的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)模擬以及數(shù)據(jù)分類等能力。由于云計(jì)算異構(gòu)工業(yè)控制網(wǎng)絡(luò)中存在多種結(jié)構(gòu)類型數(shù)據(jù),并且多源節(jié)點(diǎn)之間的工作環(huán)境和負(fù)荷要求均不相同,導(dǎo)致網(wǎng)絡(luò)中容易出現(xiàn)泄漏和故障點(diǎn)。這會(huì)造成網(wǎng)絡(luò)入侵現(xiàn)象,從而影響網(wǎng)絡(luò)整體運(yùn)行的穩(wěn)定性和安全性。根據(jù)工業(yè)控制網(wǎng)絡(luò)的環(huán)境和運(yùn)行特點(diǎn)對(duì)多源目標(biāo)進(jìn)行入侵自動(dòng)識(shí)別,可改善工業(yè)網(wǎng)絡(luò)運(yùn)行環(huán)境。
結(jié)合目前研究現(xiàn)狀,多位研究者給出了相關(guān)入侵目標(biāo)解決策略。文獻(xiàn)[1]提出1種基于主動(dòng)學(xué)習(xí)的工業(yè)互聯(lián)網(wǎng)入侵識(shí)別檢測方法。該方法建立主動(dòng)學(xué)習(xí)系統(tǒng),通過系統(tǒng)提取工業(yè)網(wǎng)絡(luò)相關(guān)節(jié)點(diǎn)數(shù)據(jù)并將數(shù)據(jù)引入學(xué)習(xí)查詢策略中,從而通過入侵網(wǎng)絡(luò)參數(shù)查詢完成入侵識(shí)別。由于多源工業(yè)網(wǎng)絡(luò)中存在多種干擾因素,該方法只考慮了單一入侵種類的識(shí)別,導(dǎo)致識(shí)別方法限制過多、誤差較大。文獻(xiàn)[2]采用1種融合動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network,DBN)和雙向長短期記憶(bidirectional long short-term memory,BiLSTM)的工業(yè)互聯(lián)網(wǎng)入侵識(shí)別方法。該方法首先采集互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行預(yù)處理,然后根據(jù)非線性特征和信賴數(shù)據(jù)提取各節(jié)點(diǎn)特征,接著建立BiLSTM分類器進(jìn)行分類處理,最后通過閾值比對(duì)的方式完成識(shí)別。該方法沒有劃分入侵目標(biāo)特征,導(dǎo)致逐步比對(duì)的整體耗用較高、實(shí)際應(yīng)用效果較差。文獻(xiàn)[3]提出1種基于特征選擇的工業(yè)互聯(lián)網(wǎng)入侵檢測分類方法。該方法首先預(yù)處理數(shù)據(jù)集,利用皮爾遜相關(guān)系數(shù)評(píng)估特征之間的相關(guān)性,以確定最佳閾值;然后利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行二分類和多分類試驗(yàn),并進(jìn)行全面評(píng)估。該方法的有效性在真實(shí)的工業(yè)互聯(lián)網(wǎng)實(shí)踐中得以驗(yàn)證。文獻(xiàn)[4]提出1種無需依賴于協(xié)議和特定領(lǐng)域的工業(yè)入侵檢測方法。該方法不限于特定的領(lǐng)域或協(xié)議,可以在受限的區(qū)域執(zhí)行。但是該方法在面對(duì)多種網(wǎng)絡(luò)攻擊環(huán)境時(shí)不能完成精準(zhǔn)識(shí)別。
異構(gòu)工業(yè)控制網(wǎng)絡(luò)多源目標(biāo)特征不斷變化,且特征具有起伏性,導(dǎo)致入侵識(shí)別精準(zhǔn)度較低。針對(duì)該問題,本文提出1種云計(jì)算下的異構(gòu)工業(yè)控制網(wǎng)絡(luò)多源目標(biāo)入侵自動(dòng)識(shí)別方法。該方法通過設(shè)定歸一化入侵特征空間,將所有網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)換到該空間內(nèi),并根據(jù)最大值和最小值對(duì)超出范圍的數(shù)據(jù)進(jìn)行歸一化處理。在入侵特征提取方面,該方法選擇時(shí)域矩陣偏度特征、峰度特征和包絡(luò)起伏度特征作為不同類別的入侵特征。針對(duì)工控網(wǎng)絡(luò),該方法計(jì)算3種特征數(shù)據(jù)的大小?;谶@些特征表現(xiàn)參數(shù),該方法將入侵?jǐn)?shù)據(jù)樣本轉(zhuǎn)換為聚類中心值,并計(jì)算待識(shí)別目標(biāo)與聚類中心之間的歐氏距離。根據(jù)歐氏距離的大小,該方法可以自動(dòng)識(shí)別入侵目標(biāo)。本文方法專門考慮到了不同特征數(shù)據(jù)之間的表達(dá)差異,可根據(jù)不同數(shù)據(jù)特征給出不同的識(shí)別閾值,因而環(huán)境適應(yīng)性較強(qiáng)、應(yīng)用效果較好。
異構(gòu)網(wǎng)絡(luò)和多源目標(biāo)的特征種類較多,因而受環(huán)境影響因素較大。為了改善異構(gòu)數(shù)據(jù)對(duì)目標(biāo)識(shí)別的混淆影響,需要提前采集網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)據(jù),并進(jìn)行歸一化處理。數(shù)據(jù)歸一化處理的過程為:首先將工業(yè)控制網(wǎng)絡(luò)中的冗余數(shù)據(jù)全部剔除,然后按照屬性特征將數(shù)據(jù)映射到特定的高緯空間中,以便后續(xù)特征的提取和入侵目標(biāo)的識(shí)別。
在多源目標(biāo)入侵自動(dòng)識(shí)別過程中,入侵特征目標(biāo)識(shí)別是關(guān)鍵和重點(diǎn)環(huán)節(jié)。為提高識(shí)別對(duì)比范圍和精準(zhǔn)度,本文分析幾種目前常見的目標(biāo)類型,以便實(shí)現(xiàn)高精度的識(shí)別對(duì)比。
工業(yè)控制網(wǎng)絡(luò)多源入侵目標(biāo)類型特征如表1所示。
表1 工業(yè)控制網(wǎng)絡(luò)多源入侵目標(biāo)類型特征
根據(jù)表1,本文進(jìn)行特征差異的歸一化處理。歸一化處理的目的是消除多源和異構(gòu)數(shù)據(jù)之間的特征差距。本文設(shè)定歸一化后的樣本特征空間為[0,1]。
(1)
式中:f(x)為異構(gòu)工業(yè)控制網(wǎng)絡(luò)中分布在[0,1]區(qū)間內(nèi)的特征屬性值;xmax、xmin分別為屬性特征x的最大值和最小值。
完成歸一化處理后,本文提取網(wǎng)絡(luò)入侵信號(hào)特征參數(shù)。
在完成異構(gòu)工業(yè)控制網(wǎng)絡(luò)數(shù)據(jù)歸一化處理基礎(chǔ)上對(duì)具有標(biāo)識(shí)的節(jié)點(diǎn)進(jìn)行特征提取,是實(shí)現(xiàn)入侵識(shí)別的重要基礎(chǔ)。本文給出時(shí)域偏度、時(shí)域峰度、包絡(luò)起伏度這3種入侵特征值類型。這3種類型涵蓋了異構(gòu)工業(yè)控制網(wǎng)絡(luò)中的大部分入侵種類數(shù)據(jù)特征。本文將其作為特征提取的關(guān)鍵閾值,對(duì)不同類型數(shù)據(jù)進(jìn)行特征提取。具體操作步驟如下。
①基于時(shí)域偏度的特征提取。
由于網(wǎng)絡(luò)存在自我保護(hù)機(jī)制,其中的不同數(shù)據(jù)的時(shí)域表達(dá)各不相同,導(dǎo)致時(shí)域變化差距較大[5]。本文設(shè)定工業(yè)控制網(wǎng)絡(luò)的時(shí)域波形偏度變動(dòng)范圍,并對(duì)該范圍內(nèi)的網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行特征提取。工業(yè)網(wǎng)絡(luò)時(shí)域信號(hào)偏度值a′為:
(2)
式中:β為時(shí)域信號(hào)在觀測周期內(nèi)的振動(dòng)幅值,db;σ為信號(hào)在觀測周期內(nèi)的振動(dòng)標(biāo)準(zhǔn)差值,db;E為信號(hào)幅度均值,db;(x,y)、(x″,y″)分別為普通信號(hào)和時(shí)域信號(hào)[6],db。
②基于時(shí)域峰度的特征提取。
通常情況下,正常信號(hào)和干擾信號(hào)之間的信號(hào)峰值差距較大,陡峭程度和峰值大小之間存在關(guān)聯(lián)關(guān)系[7]。因此,在時(shí)域峰度特征提取過程中,需要對(duì)信號(hào)進(jìn)行時(shí)域分離,從而得到普通信號(hào)和入侵信號(hào)之間的特征差異。在觀測周期f內(nèi),各信號(hào)之間的工業(yè)網(wǎng)絡(luò)時(shí)域信號(hào)峰度b′為:
(3)
式中:β″為時(shí)域峰值信號(hào)在觀測周期內(nèi)的振動(dòng)幅值,db;σ′為時(shí)域峰值信號(hào)在觀測周期內(nèi)的振動(dòng)標(biāo)準(zhǔn)差值,db;E″為時(shí)域峰值信號(hào)的幅度均值,db。
③基于包絡(luò)起伏度的特征提取。
基于異構(gòu)工業(yè)控制網(wǎng)絡(luò)中干擾信號(hào)的走勢,本文根據(jù)信號(hào)的波動(dòng)程度觀測周圍信號(hào)的峰值變化程度。由此可得網(wǎng)絡(luò)中全部信號(hào)的包絡(luò)起伏度特征Y1。
(4)
式中:R為包絡(luò)起伏度。
本文按照式(4)提取具備時(shí)域偏度、時(shí)域峰度以及包絡(luò)起伏度特征標(biāo)記的信號(hào)值,并以此作為后續(xù)信號(hào)特征峰分離的依據(jù)[8],從而實(shí)現(xiàn)入侵自動(dòng)識(shí)別。
得到上述信號(hào)特征值后,本文利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行信號(hào)特征分離[9]。用于信號(hào)特征分離的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 用于信號(hào)特征分離的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
根據(jù)網(wǎng)絡(luò)入侵信號(hào)特征參數(shù)提取結(jié)果,在云計(jì)算環(huán)境下,由于異構(gòu)工業(yè)控制網(wǎng)絡(luò)中的數(shù)據(jù)量和基數(shù)較大,入侵目標(biāo)識(shí)別相對(duì)困難且會(huì)受一定影響。為保證自動(dòng)目標(biāo)識(shí)別的精準(zhǔn)度和效率,本文以異構(gòu)網(wǎng)絡(luò)和多源目標(biāo)為切入點(diǎn),對(duì)采集的數(shù)據(jù)特征進(jìn)行統(tǒng)計(jì)與分類。本文建立入侵自動(dòng)識(shí)別模型,通過特征分類完成自動(dòng)識(shí)別。實(shí)現(xiàn)多源目標(biāo)入侵自動(dòng)識(shí)別方法的偽代碼如下。
Input:Data initialization,
Ouput:The results of SPEA2.
1x=(x1,x2,x3,…,xN)
2f(x)=1
3 disMatrix=CalDistancetoOthers(A);
4 EISE
Delete(second);
END IF
END WHILE
在上述偽代碼的基礎(chǔ)上,本文描述分類方法實(shí)施過程。
(5)
式中:δa、δb、δc、δd均為網(wǎng)絡(luò)中的原始特征數(shù)據(jù);er為特征參數(shù);e1為首位特征;D1、D2均為向量集合;c1、c2為不同位置的隸屬度系數(shù)[10];A1~A4為不同的聚類位置數(shù)據(jù)。
通過式(5)可得數(shù)據(jù)特征與聚類中心的歐氏距離,由此判定不同數(shù)據(jù)能否歸類到同一識(shí)別區(qū)域范圍內(nèi)。特征之間的關(guān)系函數(shù)F(n)為:
F(n)=er×(A1+A2+A3+A4)
(6)
通過式(6)可判定出工業(yè)網(wǎng)絡(luò)中不同特征數(shù)據(jù)之間的相對(duì)關(guān)系。通過特征之間的對(duì)應(yīng)關(guān)系,可以識(shí)別入侵目標(biāo),并統(tǒng)一處理相同特征,從而大幅降低識(shí)別時(shí)間、提高識(shí)別效率。
根據(jù)上述過程進(jìn)行整合處理,即可確定入侵目標(biāo)函數(shù)。本文設(shè)定識(shí)別的最大迭代條件,并根據(jù)閾值對(duì)比判定網(wǎng)路中是否出現(xiàn)異?;虮蝗肭帧WR(shí)別過程如下。
①設(shè)i={ia,ib,ic,id}為工業(yè)網(wǎng)絡(luò)中采集到的原始數(shù)據(jù)值;i1~i4為網(wǎng)絡(luò)中的異常數(shù)據(jù);{A,B,C,D}為聚類中心。其中:i1為迭代處理的最大基數(shù)數(shù)據(jù);i4為迭代處理的最小基數(shù)數(shù)據(jù)。
②根據(jù)工業(yè)網(wǎng)絡(luò)現(xiàn)場實(shí)時(shí)數(shù)據(jù)更新{A,B,C,D}。
③對(duì)網(wǎng)絡(luò)中的異常數(shù)據(jù)i1~i4進(jìn)行迭代比對(duì)處理。
④將數(shù)據(jù)i1~i4與聚類中心進(jìn)行對(duì)比。
⑤按照式(7)完成入侵?jǐn)?shù)據(jù)識(shí)別。
(7)
式中:Sx為入侵判定閾值。
當(dāng)Sx 為確保試驗(yàn)的有效性,本文選取了來自美國某大學(xué)的工業(yè)網(wǎng)絡(luò)數(shù)據(jù)庫作為試驗(yàn)數(shù)據(jù)集。該數(shù)據(jù)庫具備一定的標(biāo)準(zhǔn)性和公正性。其中包含眾多種類的數(shù)據(jù),且數(shù)據(jù)規(guī)模較大,能夠滿足試驗(yàn)高質(zhì)量需求。每條數(shù)據(jù)均以X=(x1,x2,…,xn,yn)的形式進(jìn)行儲(chǔ)存。其中:xn為測試數(shù)據(jù)的特征值;yn為該數(shù)據(jù)在網(wǎng)絡(luò)中的標(biāo)簽屬性值。測試數(shù)據(jù)集中包含32個(gè)特征屬性以及1個(gè)決策屬性值。由于數(shù)據(jù)特征之間具有離散性,需要在識(shí)別前進(jìn)行預(yù)處理。試驗(yàn)所使用的數(shù)據(jù)集相關(guān)參數(shù)如下:傳輸數(shù)據(jù)的速率為54 Mbit/s,實(shí)際吞吐量為25 B/s。工作制式采用正交頻分復(fù)用(orthogonal frequency division multiplexing,OFDM)模式。射頻波段為5 GHz。這些參數(shù)與無線通信系統(tǒng)中的通信協(xié)議和頻率相關(guān)。傳輸數(shù)據(jù)的頻率范圍頻寬設(shè)置為20 MHz,帶寬設(shè)置為5 MHz。試驗(yàn)數(shù)據(jù)集中的數(shù)據(jù)量大小空間流量設(shè)置為 8 GB/s,網(wǎng)絡(luò)節(jié)點(diǎn)為32個(gè)。 為有效驗(yàn)證入侵自動(dòng)識(shí)別方法的有效性,本文使用識(shí)別率和召回率這2個(gè)指標(biāo)進(jìn)行分析。在測試環(huán)境中,本文選擇2個(gè)測試樣本集(即5 000個(gè)數(shù)據(jù)量和20 000個(gè)數(shù)據(jù)量)進(jìn)行測試,并與文獻(xiàn)[1]基于主動(dòng)學(xué)習(xí)的工業(yè)互聯(lián)網(wǎng)入侵檢測方法、文獻(xiàn)[2]融合DBN和BiLSTM的工業(yè)互聯(lián)網(wǎng)入侵檢測方法進(jìn)行對(duì)比。在測試過程中,識(shí)別率和召回率的計(jì)算式如下。 ①識(shí)別率JC為: (8) 式中:TP為被模型檢測為正的正樣本數(shù),個(gè);TN為被模型檢測為負(fù)的負(fù)樣本數(shù),個(gè);FP為被模型檢測為正的負(fù)樣本數(shù),個(gè);FN為被模型檢測為負(fù)的正樣本數(shù),個(gè)。 ②召回率CH為: (9) 試驗(yàn)給出了normal、probe、r2l以及dos這4種網(wǎng)絡(luò)攻擊類別,其中包含黑客、入侵、篡改、木馬以及其他。normal作為普通攻擊手段,主要通過篡改進(jìn)行入侵。probe為探測攻擊,通過查找網(wǎng)絡(luò)薄弱點(diǎn)進(jìn)行入侵。r2l為時(shí)間流量攻擊,針對(duì)時(shí)間節(jié)點(diǎn)進(jìn)行入侵。dos為黑客攻擊,通過輸入病毒造成網(wǎng)絡(luò)癱瘓。不同方法入侵自動(dòng)識(shí)別率對(duì)比結(jié)果(5 000個(gè)數(shù)據(jù)量)如表2所示。 表2 不同方法入侵自動(dòng)識(shí)別率對(duì)比結(jié)果(5 000個(gè)數(shù)據(jù)量) 不同方法入侵識(shí)別召回率對(duì)比結(jié)果(5 000個(gè)數(shù)據(jù)量)如圖2所示。 圖2 不同方法入侵識(shí)別召回率對(duì)比結(jié)果(5 000個(gè)數(shù)據(jù)量) 由表2、圖2可知,在5 000個(gè)數(shù)據(jù)量的測試環(huán)境下,3種方法的識(shí)別率和召回率差異不大。但通過細(xì)節(jié)對(duì)比可知,在多種攻擊類型下,本文方法的識(shí)別率和召回率略高于其他2種方法。其原因是本文方法利用特征之間的關(guān)系函數(shù)判定出工業(yè)網(wǎng)絡(luò)中不同特征數(shù)據(jù)之間的相對(duì)關(guān)系,并通過該關(guān)系進(jìn)行入侵目標(biāo)識(shí)別。在識(shí)別過程中統(tǒng)一處理相同特征的數(shù)據(jù),一定程度上有利于提高識(shí)別率和召回率。由此可知,本文方法的識(shí)別精準(zhǔn)度和效率更高。 不同方法入侵自動(dòng)識(shí)別率對(duì)比結(jié)果(20 000個(gè)數(shù)據(jù)量)如表3所示。 表3 不同方法入侵自動(dòng)識(shí)別率對(duì)比結(jié)果(20 000個(gè)數(shù)據(jù)量) 不同方法入侵識(shí)別召回率對(duì)比結(jié)果(20 000個(gè)數(shù)據(jù)量)如圖3所示。 圖3 不同方法入侵識(shí)別召回率對(duì)比結(jié)果(20 000個(gè)數(shù)據(jù)量) 由表3、圖3可知,在20 000個(gè)數(shù)據(jù)量下,3種方法的識(shí)別結(jié)果存在較大差距。其中,識(shí)別率和召回率依舊是本文方法最高。在大部分攻擊類型中,本文方法均能保證較好且穩(wěn)定的識(shí)別結(jié)果、保證識(shí)別精準(zhǔn)度和效率不受環(huán)境中其他因素影響,從而在短時(shí)間內(nèi)完成精準(zhǔn)的入侵自動(dòng)識(shí)別。其原因是本文方法以異構(gòu)網(wǎng)絡(luò)和多源目標(biāo)為切入點(diǎn)采集網(wǎng)絡(luò)數(shù)據(jù),對(duì)采集的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分類,以建立入侵自動(dòng)識(shí)別模型。通過行為特征完成自動(dòng)識(shí)別,可大幅降低識(shí)別時(shí)間、提高識(shí)別精準(zhǔn)度和效率。 工業(yè)控制網(wǎng)絡(luò)運(yùn)行安全是實(shí)現(xiàn)網(wǎng)絡(luò)在更多領(lǐng)域得到廣泛應(yīng)用的重要基礎(chǔ)。本文根據(jù)工業(yè)網(wǎng)絡(luò)運(yùn)行特點(diǎn),提出1種異構(gòu)工業(yè)控制網(wǎng)絡(luò)多源目標(biāo)入侵自動(dòng)識(shí)別方法。該方法結(jié)合當(dāng)下異構(gòu)網(wǎng)絡(luò)環(huán)境特點(diǎn),采用歸一化數(shù)據(jù)管理,經(jīng)過處理可大幅提升后續(xù)自動(dòng)識(shí)別的效率并降低誤差。識(shí)別方法以網(wǎng)絡(luò)信號(hào)入侵矩陣峰值、偏度以及包絡(luò)度為對(duì)比指標(biāo),通過計(jì)算各節(jié)點(diǎn)與入侵聚類中心之間的距離來判定識(shí)別結(jié)果。試驗(yàn)數(shù)據(jù)也證明了本文識(shí)別方法具備一定的有效性。在5 000個(gè)數(shù)據(jù)量環(huán)境和20 000個(gè)數(shù)據(jù)量環(huán)境下,本文方法的識(shí)別率和召回率更高。4 性能測試
4.1 測試數(shù)據(jù)集
4.2 識(shí)別率和召回率對(duì)比結(jié)果
5 結(jié)論