蘇思達,陳永樂,周自強,楊大哲,郭 浩+
(1.太原理工大學(xué) 信息與計算機學(xué)院,山西 晉中 030600; 2.國網(wǎng)山西省電力公司電力科學(xué)研究院 電網(wǎng)技術(shù)中心,山西 太原 030000)
基于深度學(xué)習(xí)(DL)的入侵檢測系統(tǒng)通過在流量數(shù)據(jù)集中進行特征學(xué)習(xí)以實現(xiàn)對工業(yè)控制系統(tǒng)的實時保護。由于流量數(shù)據(jù)抓取和標(biāo)簽化的成本限制,現(xiàn)有DL模型在監(jiān)控設(shè)備、協(xié)議、威脅類型等持續(xù)變化的工控通訊網(wǎng)絡(luò)中往往性能受限,并且,在一種工控網(wǎng)絡(luò)的標(biāo)簽化數(shù)據(jù)中訓(xùn)練的DL模型難以適用于對另一種網(wǎng)絡(luò)實施檢測[1-4]?,F(xiàn)有研究嘗試采用域?qū)褂?xùn)練網(wǎng)絡(luò)(DANN)[5]以減少DL模型訓(xùn)練所需標(biāo)簽化數(shù)據(jù)的數(shù)量,DANN在域適應(yīng)(DA)的基礎(chǔ)上利用生成式對抗網(wǎng)絡(luò)(GAN)[6]的博弈原理來學(xué)習(xí)不同數(shù)據(jù)集間的域不變性映射。然而,DANN將每條流量數(shù)據(jù)籠統(tǒng)地視作一個整體進行傳輸,沒有利用其細粒度結(jié)構(gòu)。對于一條流量數(shù)據(jù)而言,并非所有的特征都是可遷移的,不同特征在遷移任務(wù)中所發(fā)揮的作用也并非完全相同的。并且,由于不同流量數(shù)據(jù)特征之間的數(shù)值及分布差異,單條流量數(shù)據(jù)的整體可遷移性也存在著強弱之分。
為了應(yīng)對上述挑戰(zhàn),構(gòu)建了一個對抗性DA網(wǎng)絡(luò)來訓(xùn)練工控入侵檢測DL模型,并將域適應(yīng)的可遷移注意力(TADA)[7]引入以實現(xiàn)流量數(shù)據(jù)的跨域細粒度對齊。TADA在DANN的基礎(chǔ)上,實現(xiàn)了基于多個局部域判別器的局部注意力以及基于全局域判別器的全局注意力。這兩種注意力是互補的,局部注意力被用于突出流量數(shù)據(jù)中可遷移或在域遷移時影響系數(shù)更高的特征字段;全局注意力被用于從整體上強調(diào)可遷移性更強的單條流量數(shù)據(jù)。此外,PCA被用于實現(xiàn)數(shù)據(jù)特征的維度映射,這使DA網(wǎng)絡(luò)同樣適用于源域和目標(biāo)域特征空間異構(gòu)的情況。
工控入侵檢測系統(tǒng)根據(jù)數(shù)據(jù)來源可以劃分為基于主機的入侵檢測系統(tǒng)和基于流量的入侵檢測系統(tǒng)[8],后者得益于深度神經(jīng)網(wǎng)絡(luò)的成功獲得了更好的發(fā)展。Tiwari等[9]較為全面地評估了神經(jīng)網(wǎng)絡(luò)、支持向量機等方法在構(gòu)建入侵檢測系統(tǒng)時的性能表現(xiàn)。Kalech等[10]通過SCADA系統(tǒng)輸入輸出信號的時間序列建立系統(tǒng)行為模型,采用隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)進行異常行為判別。然而這些方法都假設(shè)所提出的模型在足夠多的標(biāo)簽化數(shù)據(jù)上完成訓(xùn)練,并未考慮數(shù)據(jù)缺乏這樣更為嚴格的現(xiàn)實環(huán)境。
Singla等[11]評估了利用Fine-tune方法以少量的訓(xùn)練數(shù)據(jù)構(gòu)建入侵檢測模型的可能性,他們首先在足夠多的源域數(shù)據(jù)集上進行訓(xùn)練,然后在目標(biāo)域上對模型進行微調(diào),然而,他們不僅假設(shè)了源域和目標(biāo)域具有相同特征空間的理想場景,而且其效果會受到模型復(fù)雜度的影響。Zhao等提出了CeHTL等[12]和HeTL等[13]遷移學(xué)習(xí)框架,將其用于訓(xùn)練目標(biāo)域中沒有標(biāo)簽化數(shù)據(jù)的NID模型,他們的框架適用于同構(gòu)和異構(gòu)的DA案例,但是在目標(biāo)數(shù)據(jù)集上的檢測精度并不高。得益于對抗思想對訓(xùn)練過程的增強,DANN能夠在一定程度上提高模型的精度。Zhang等[14]采用DANN訓(xùn)練入侵檢測系統(tǒng)并將其應(yīng)用于智能電網(wǎng)中以檢測惡意攻擊;類似地,Singla等[15]在跨域數(shù)據(jù)特征空間類似和不同兩種情況下利用DANN訓(xùn)練了一個高精度的入侵檢測DL模型,并在NSL-KDD數(shù)據(jù)集上評估了其表現(xiàn)。然而,他們的方法所建立的跨域傳輸通道是粗粒度的,并未考慮工控通訊網(wǎng)絡(luò)的復(fù)雜性。
據(jù)我們所知,在工控領(lǐng)域,本文是第一個使用對抗性DA的方法在數(shù)據(jù)集有限的情況下訓(xùn)練入侵檢測DL模型,并針對流量數(shù)據(jù)實現(xiàn)了跨域細粒度對齊的。
工控系統(tǒng)的SCADA網(wǎng)絡(luò)層數(shù)據(jù)特征可分為網(wǎng)絡(luò)流量特征和有效負載特征。通過對Modbus RTU協(xié)議和工業(yè)生產(chǎn)系統(tǒng)的分析,我們發(fā)現(xiàn),由于不同工控系統(tǒng)的SCADA系統(tǒng)所面向的數(shù)據(jù)以及所監(jiān)控設(shè)備的不同,其Modbus RTU協(xié)議中的有效負載特征通常是異構(gòu)的,這就造成了源域和目標(biāo)域特征空間的不對齊,無法應(yīng)用于DA訓(xùn)練。因此,在數(shù)據(jù)經(jīng)過清洗、標(biāo)簽化以及標(biāo)準(zhǔn)化之后,本方法采用主成分分析(PCA)的方法對特征進行維度變換,PCA[16]是一種特征提取技術(shù),它執(zhí)行從高維特征空間到低維特征空間的線性映射。PCA將數(shù)據(jù)集中n個特征轉(zhuǎn)換為一組新的線性不相關(guān)特征,即主成分。然后按照方差降序來選擇前k個主成分來表征數(shù)據(jù),即降維后的新特征,這個過程會去除最不重要的主成分。圖1是一個PCA轉(zhuǎn)換的示例,假設(shè)f1和f2是數(shù)據(jù)集中方差幾乎相等的兩個特征,PCA將這兩個特征轉(zhuǎn)換為兩個主成分pc1和pc2, 其中pc2相較于pc1方差非常小,因此可以刪除pc2, 由此,PCA將包含f1和f2的數(shù)據(jù)集轉(zhuǎn)換成了一個只含有pc1特征的數(shù)據(jù)集。類似地,我們可以使用 PCA 來轉(zhuǎn)換具有更多特征的數(shù)據(jù)集并減少數(shù)據(jù)集的維數(shù),以構(gòu)造同構(gòu)特征空間,同時保留數(shù)據(jù)集中的有效信息。
本文對TADA做出針對流量數(shù)據(jù)的適用性改進以實現(xiàn)不同工控系統(tǒng)SCADA網(wǎng)絡(luò)層數(shù)據(jù)的跨域細粒度對齊。相較于DANN,TADA中的可遷移注意力更注重跨域數(shù)據(jù)的相似性和區(qū)別,以此來推理數(shù)據(jù)以及其特征在遷移過程中的影響力權(quán)重,這使得整個DA網(wǎng)絡(luò)能夠有選擇地強調(diào)特征信息,并具備動態(tài)校準(zhǔn)的能力?;诳蛇w移注意力的對抗性DA網(wǎng)絡(luò)概覽如圖2所示,我們將從局部、全局和網(wǎng)絡(luò)整體可遷移注意力3個部分進行描述。
(1)
(2)
(3)
通過局部注意力,更具有可遷移性的維度將被更大的注意力值加權(quán),從而使DA模型重點關(guān)注更為重要的維度。由于每一維度的注意力值是根據(jù)其可遷移性生成的,因此這種局部注意力自然可以跨域遷移。
與局部可遷移注意力模塊中專注于每一維度的可遷移性以實現(xiàn)細粒度遷移不同,全局可遷移注意力進一步關(guān)注單條流量數(shù)據(jù)整體的可遷移性。流量數(shù)據(jù)具有復(fù)雜的特征空間,并且在數(shù)據(jù)準(zhǔn)備的過程中,單條流量數(shù)據(jù)經(jīng)過了多次變換,這可能使域判別器找到更少的維度進行對齊,但是,該條流量數(shù)據(jù)并不一定具有更小的遷移價值,因此,全局對抗模塊的引入是十分有必要的。
本方法將全局對抗模塊添加至特征Gb(hi), 并將其結(jié)果作為整體輸入分類器Gy,全局域判別器的損失函數(shù)可被形式化為
(4)
其中,Gb為瓶頸層,di是xi的域標(biāo)簽,Ld是全局域判別器的交叉熵損失函數(shù)。
(5)
(6)
其中,c是攻擊標(biāo)簽數(shù),pi,j是xi屬于標(biāo)簽j的概率。通過這種方式,全局判別器的輸出被用于突出能在特征空間中更好地遷移的單條流量數(shù)據(jù)的熵。通過迭代最小化熵懲罰,DL模型對這些流量數(shù)據(jù)的檢測分類準(zhǔn)確率逐漸收斂于一個穩(wěn)定值,從而提高了分類器的性能。由于每條流量數(shù)據(jù)的注意力值是根據(jù)其可遷移性生成的,因此這種全局注意力自然可以跨域遷移。
通過局部可遷移注意力和全局可遷移注意力,流量數(shù)據(jù)每一維度的負遷移被減輕,單條流量數(shù)據(jù)的正遷移被增強,基于不同維度的多對抗DA網(wǎng)絡(luò)實現(xiàn)了從源域到目標(biāo)域的細粒度傳輸路徑,而集成于全局特征的全局注意力模塊能使分類器在流量數(shù)據(jù)經(jīng)過復(fù)雜變換后正確地預(yù)測其流量類型。和大多數(shù)DA方法類似,分類器的損失函數(shù)可在標(biāo)簽化的源域數(shù)據(jù)DS上被形式化為
(7)
其中,Ly是交叉熵損失函數(shù),Gy是被用于最終進行預(yù)測的分類器,即入侵檢測模型。本文采用基于可遷移注意力的DA方法實現(xiàn)針對流量數(shù)據(jù)的更細粒度的無監(jiān)督DA,它能夠通過在一個端到端的深度架構(gòu)中集成深度特征學(xué)習(xí)、全局DA、局部DA和可遷移注意力機制來聯(lián)合學(xué)習(xí)可遷移流量特征并訓(xùn)練自適應(yīng)的入侵檢測DL模型。最終,基于可遷移注意力的DA模型被表示為
(8)
本節(jié)詳細說明了我們實驗的數(shù)據(jù)集信息,實驗的參數(shù)、設(shè)計信息以及評判標(biāo)準(zhǔn)等。此外,我們還分析了兩種注意力機制在本方法中所發(fā)揮的作用。
我們使用了密西西比州立大學(xué)建立的工控入侵檢測標(biāo)準(zhǔn)數(shù)據(jù)集來評估本研究提出的方法[17]。數(shù)據(jù)來源為天然氣管道控制系統(tǒng)(G)和儲水箱控制系統(tǒng)(W)的SCADA網(wǎng)絡(luò)層數(shù)據(jù)。這兩個工控系統(tǒng)均采用Modbus RTU協(xié)議進行通信。數(shù)據(jù)集中的屬性值均是由十進制和十六進制數(shù)構(gòu)成。其中G中含有97 019條數(shù)據(jù),每條數(shù)據(jù)包含26個特征,W中含有236 179條數(shù)據(jù),每條數(shù)據(jù)包含23個特征,G和W的數(shù)據(jù)特征空間是異構(gòu)的。這兩個數(shù)據(jù)集的攻擊類型均為四大類:指令注入攻擊、響應(yīng)注入攻擊、拒絕服務(wù)攻擊和偵察攻擊。這四大類攻擊還可以細化成7類攻擊。數(shù)據(jù)集的詳細攻擊描述及分類標(biāo)簽見表1。
表1 攻擊類型詳細描述及仿真標(biāo)簽
我們采用簡單設(shè)計的DL模型作為實驗中的基線模型,并且采用Zhang等[14]的DANN模型與所提出的方法進行比較,基線模型同時也作為DANN和本方法中的DL分類模型。注意,之前的研究[15]已經(jīng)論證了Fine-Tune[11]方法在目標(biāo)域數(shù)據(jù)量較小時的性能不足以及在異構(gòu)遷移學(xué)習(xí)時的局限性,因此本方法不再將Fine-Tune作為重點討論對象。
為了全面地評估我們所提出方法的適用性,我們在實驗中考慮了如下兩種場景:
場景1:我們評估了在一個工控系統(tǒng)網(wǎng)絡(luò)層數(shù)據(jù)上訓(xùn)練的入侵檢測DL模型針對另一系統(tǒng)的檢測情況。出于客觀性考慮,我們將分別在G→W和W→G 兩個流量數(shù)據(jù)遷移任務(wù)上評估所有的方法。在G→W中,參與評估的方法將在帶標(biāo)簽的G中訓(xùn)練,在去標(biāo)簽的W中測試。源域和目標(biāo)域在W→G中與在G→W中相反。
場景2:我們將在該場景中分析一種更為典型的情況,例如,某電力工控系統(tǒng)網(wǎng)絡(luò)層包含了8種類型的流量數(shù)據(jù),其入侵檢測DL模型基于這些數(shù)據(jù)訓(xùn)練并且分類精度良好,隨后該網(wǎng)絡(luò)空間出現(xiàn)了一種新的攻擊流量,該系統(tǒng)僅能從這個攻擊類別中收集數(shù)量有限的數(shù)據(jù)樣本。我們將在場景2中評估3種方法所訓(xùn)練的DL模型能否對新的攻擊流量做出正確識別。我們將在擁有更多數(shù)據(jù)量的W中實施場景2的實驗。
我們采用開源庫Pytorch訓(xùn)練所提出的方法以及其它對比方法。我們使用100個epoch來訓(xùn)練基線模型,并將批大小設(shè)置為32,對于本方法,我們訓(xùn)練10 000次迭代,同樣將批大小設(shè)置為32。我們?yōu)樯窠?jīng)網(wǎng)絡(luò)模型和所提出的DA方法采用自適應(yīng)學(xué)習(xí)率優(yōu)化算法Adam進行梯度優(yōu)化,并將起始學(xué)習(xí)率設(shè)置為0.001,β1=0.9,β2=0.999。 在整個實驗過程中,我們將式(8)中的平衡參數(shù)設(shè)置為λ=1.0,γ=0.1。 此外,為了同構(gòu)G和W的特征空間,我們采用PCA的方法將兩個數(shù)據(jù)集降維至d=20。
為了描述經(jīng)過訓(xùn)練的分類模型性能,我們使用精度(ACC)評判正確預(yù)測所占的比重
(9)
并采用F-score(F1)作為準(zhǔn)確率和召回率的調(diào)和平均,較為全面地評價模型性能
(10)
其中,TP為正確分類的良性樣本數(shù),TN為正確分類的攻擊樣本數(shù),F(xiàn)P為錯誤分類的良性樣本數(shù),F(xiàn)N為錯誤分類的攻擊樣本數(shù), P=TP/(TP+FP) 為精確率, R=TP/(TP+FN) 為召回率。
我們用于對比的基線模型共由9層組成,其中有3組全連接層、一個批量歸一化層和一個相互堆疊的reLU激活層,全連接層依次具有64、32、16個神經(jīng)元,輸出層具有兩個神經(jīng)元并由soft-max函數(shù)激活,用于給出給定樣本屬于攻擊或良性類別的預(yù)測概率,即DL模型被訓(xùn)練為能區(qū)分良性和攻擊樣本的二分類模型。在場景1中,基線模型在源域中訓(xùn)練,在目標(biāo)域中測試以評估其整體跨域表現(xiàn);而在場景2具體情境中,基線模型將在目標(biāo)域中進行訓(xùn)練。
4.4.1 場景1
我們在W→G和G→W兩個流量數(shù)據(jù)遷移任務(wù)中評估了基線模型、DANN,以及本方法對表1中的7種攻擊流量和正常流量跨域檢測的性能表現(xiàn),其結(jié)果見表2。無論是從精度還是F-score上都可以看出,本方法在跨域任務(wù)中的優(yōu)越性是明顯的。值得注意的是,在G→W中,源域中多類流量數(shù)據(jù)的數(shù)量都遠小于目標(biāo)域數(shù)據(jù),這意味著模型從源域中學(xué)習(xí)特征的難度更大,從特征中獲取的域遷移信息更少,因此,相較于W→G,在G→W中3種模型的性能表現(xiàn)有所下降,其中,由于基線模型沒有為跨域檢測做任何的準(zhǔn)備,下降幅度最大,而由于本方法采用的兩種注意力機制使模型能夠有效地執(zhí)行特征的動態(tài)重校準(zhǔn),能夠在全局和局部匹配源和目標(biāo)流量數(shù)據(jù)分布的復(fù)雜多模態(tài)結(jié)構(gòu),從更困難的環(huán)境中學(xué)習(xí)更多的可遷移特征,因此本方法能夠?qū)⒃趦蓚€任務(wù)中的準(zhǔn)確度差值保持在1.7%以內(nèi),F(xiàn)-score差值保持在0.4%以內(nèi),均領(lǐng)先于DANN和基線模型,具有更強的穩(wěn)定性。這種數(shù)據(jù)量的差異所產(chǎn)生的影響在3種DL模型對包括良性樣本在內(nèi)的每種流量的檢出率中體現(xiàn)得更為直觀,如圖3所示。從圖中明顯可以看出,基線模型和DANN對NMRI、MSCI、MFCI的檢出率具有比本方法更為劇烈的下降幅度。
表2 場景1中3種模型的性能表現(xiàn)
我們在10 000次迭代內(nèi)觀察并分析了3種方法的收斂效率。與基線模型相比,本方法的優(yōu)勢在訓(xùn)練過程初期就十分明顯,即使是在學(xué)習(xí)成本相對較低的W→G中,基線模型與本方法的精度差異在1500次迭代時就達到了0.047,并且其差值仍在逐漸增加。DANN在約4000次迭代之前與本方法的精度差異維持在0.009~0.018之間,然而,由于本方法對特征更深層次的提取,在第4500次迭代后,DANN的收斂效率明顯降低。此外,本方法在約9000次迭代后就逐漸收斂,基線模型和DANN仍未趨于穩(wěn)定,這表明我們對可遷移特征的處理是輕量級的。
場景1的結(jié)果還揭示了一個現(xiàn)象,像基線模型這一類在傳統(tǒng)入侵檢測中具有較淺層機器學(xué)習(xí)模型更出色的檢驗效果的深層DL模型,在相對較少的流量數(shù)據(jù)中訓(xùn)練后仍然無法在遷移任務(wù)中保持較高的精度,這驗證了即使深層DL模型在特征學(xué)習(xí)中更具優(yōu)勢,也無法有效地消除跨域差異,這意味著現(xiàn)有工控系統(tǒng)在仍然具有安全隱患,也驗證了我們所做工作的意義。
4.4.2 場景2
我們將W分為源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù),其中,源域數(shù)據(jù)包含來自6個攻擊樣本的標(biāo)簽化數(shù)據(jù),目標(biāo)域則包含來自其余一個攻擊樣本的去標(biāo)簽數(shù)據(jù),目標(biāo)域和源域都含有正常的攻擊流量。為了保證實驗結(jié)果的通用性,我們在W中的四大類攻擊中分別選擇一種并重復(fù)上述操作,其中包括指令注入攻擊MPCI、響應(yīng)注入攻擊CMRI、拒絕服務(wù)攻擊DoS和偵察攻擊Recon。我們還針對不同的目標(biāo)域數(shù)據(jù)量執(zhí)行此操作,以顯示數(shù)據(jù)量的大小對目標(biāo)模型精度的影響,由于這4種攻擊樣本在W中的總數(shù)不同,我們對數(shù)據(jù)量的劃分終點也有所不同,為了保證對比的有效性,我們對4種攻擊劃分的前4個量級都分別為100,200,500,1000。圖4展示了在場景2中基線模型、DANN以及本方法對CMRI、Recon、MPCI、DoS的檢測精度和F-score。x軸表示用于訓(xùn)練的目標(biāo)數(shù)據(jù)集樣本數(shù),y 軸表示在目標(biāo)測試數(shù)據(jù)集上測試分類模型時的準(zhǔn)確率和 F-score值。對于響應(yīng)注入攻擊CMRI來說,在目標(biāo)域樣本量只有100的時候,我們觀察到本方法在精度方面分別優(yōu)于基線模型和DANN8.08%和2.33%,在F-score值方面分別優(yōu)于基線模型和DANN9.12%和4.33%。在其它3個攻擊類別中,我們觀察到了類似的結(jié)果。當(dāng)使用少量數(shù)據(jù)樣本訓(xùn)練時,相較于DANN和本方法,基線模型明顯的低性能表現(xiàn)是由于其極度過擬合現(xiàn)象。在少量數(shù)據(jù)樣本上訓(xùn)練的DL模型能夠?qū)τ?xùn)練集進行有效分類,但是無法很好地泛化到其它未知數(shù)據(jù)上。而DANN和本方法本質(zhì)上使用源數(shù)據(jù)集樣本來擴充目標(biāo)數(shù)據(jù)集并將它們投影到一個公共的潛在子空間中,從而緩解了由于訓(xùn)練數(shù)據(jù)量非常少而導(dǎo)致的過擬合問題。
此外,相比于DANN,在目標(biāo)域樣本量越少的情況下,本方法的優(yōu)勢就更加明顯,這是由于本方法通過局部和全局注意力更有效地從數(shù)據(jù)中掌握域遷移的關(guān)鍵信息,并減少不相關(guān)信息的干擾,以更小的學(xué)習(xí)成本獲得更好的性能。
在場景2中,我們觀察到,當(dāng)目標(biāo)域樣本數(shù)足夠(大于1000)時,DANN和本方法具有與場景1類似的收斂效率表現(xiàn),而當(dāng)目標(biāo)域樣本量不充分時,DANN即使在訓(xùn)練初期也難以與本方法維持類似的精度,這意味著當(dāng)未知攻擊出現(xiàn)時,DANN對攻擊的響應(yīng)實時性更差,而本方法則能夠通過少量迭代做出更準(zhǔn)確的判斷,具有更強的適用性。
我們還測試了DANN和本方法在針對上述4類攻擊訓(xùn)練后在源域數(shù)據(jù)集上的表現(xiàn),即DL模型在包含除測試樣本外的6類良性和攻擊樣本的舊數(shù)據(jù)集上的準(zhǔn)確率。由于在目標(biāo)域上訓(xùn)練的基線模型在源域上的分類表現(xiàn)太差,不具有參考價值,所以我們未將其考慮在內(nèi),我們將在之后用一種樸素的方式對其進行評估。用DANN和本方法訓(xùn)練的分類模型的精度結(jié)果見表3,我們觀察到,本方法在源域上保持了88%~94%的精度,而DANN的表現(xiàn)是相對不穩(wěn)定的。這表明我們的方法不僅在目標(biāo)域上表現(xiàn)良好,而且在源域上也非常準(zhǔn)確,意味著其能夠檢測在目標(biāo)域中看到的新攻擊以及在源域中看到的舊攻擊,更具實用價值。
為了更加全面的對基線模型做出評估,我們將源域和目標(biāo)域數(shù)據(jù)結(jié)合為單個訓(xùn)練集,用于基線模型的訓(xùn)練,此基礎(chǔ)上,我們進行了額外的實驗。結(jié)果表明,在這種不考慮域遷移的情況下,基線模型在源域上獲得了出色的檢測精度和F-score,盡管如此,當(dāng)目標(biāo)域數(shù)據(jù)量很小的時候,基線模型的性能和本方法具有一定的差距。當(dāng)使用源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集的100個樣本進行CMRI、Recon、MPCI、DoS組合訓(xùn)練時,在目標(biāo)域數(shù)據(jù)的精度方面,本方法分別優(yōu)于基線模型8.12%、7.56%、5.91%和7.04%。注意,這種評估方式實質(zhì)上模擬了一種傳統(tǒng)情況:當(dāng)出現(xiàn)了新的攻擊類型時,工控系統(tǒng)抓取少量該攻擊的流量數(shù)據(jù)并將其簡單標(biāo)記為攻擊流量,然后將這些數(shù)據(jù)加入訓(xùn)練集并對DL模型重新進行訓(xùn)練、部署以從正常流量中識別出這些攻擊流量。我們的實驗結(jié)果表明這種簡單做法是存在風(fēng)險的,也驗證了在工控系統(tǒng)中對流量數(shù)據(jù)進行域遷移的必要性。
為了進一步探究并區(qū)分局部和全局可遷移注意力在流量數(shù)據(jù)遷移中的作用,我們用DA(局部)表示本方法中基線模型、局部注意力模塊以及熵模塊的組合;用DA(全局)表示本方法中基線模型、全局注意力模塊以及熵模塊的組合,并在場景2中對偵察攻擊Recon進行了實驗,同樣地,我們將結(jié)果與基線模型和DANN進行比較,見表4。
表3 用DANN和本方法訓(xùn)練的DL模型在源數(shù)據(jù)集上的準(zhǔn)確度表現(xiàn)
表4 5種模型所訓(xùn)練的DL模型對Recon的檢測精度表現(xiàn)
結(jié)果表明,DA(局部)和DA(全局)都比基線模型具有顯著提升,但是在更困難的情況下(目標(biāo)域樣本過少)DA(局部)比DA(全局)和DANN的表現(xiàn)要更差。局部注意力關(guān)注流量數(shù)據(jù)遷移的細粒度的維度信息,而在目標(biāo)域樣本數(shù)量較少的情況下,數(shù)據(jù)能夠提供給局部注意力模塊的信息略顯匱乏,而全局注意力能夠更快地從整體強調(diào)流量數(shù)據(jù)的可遷移信息,很好地彌補了局部注意力的不足。因此,將兩種注意力結(jié)合使用,使其相互補足的本方法擁有最出色的表現(xiàn)。
隨著工控系統(tǒng)的發(fā)展以及攻擊手段的多樣化,傳統(tǒng)入侵檢測技術(shù)在動態(tài)的工控網(wǎng)絡(luò)環(huán)境中性能的局限性日益突出。遷移學(xué)習(xí)中的相關(guān)技術(shù)手段對入侵檢測模型適應(yīng)性的改進是明顯的,然而,現(xiàn)有研究忽視了工控流量數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,導(dǎo)致域遷移的效果十分有限。本文基于遷移學(xué)習(xí)中的DA技術(shù),構(gòu)建了一個對抗性DA網(wǎng)絡(luò)來訓(xùn)練入侵檢測DL模型,并將TADA引入,分別在數(shù)據(jù)的維度和整體兩個層面對流量域遷移過程進行優(yōu)化以構(gòu)建更細粒度的遷移通道。在跨層檢測和未知攻擊檢測兩種場景中的實驗結(jié)果表明,本方法不僅嚴格保障了檢測精度,也更能滿足工控入侵檢測系統(tǒng)對于實時性和穩(wěn)定性的要求。未來,我們將開展DA網(wǎng)絡(luò)中特征提取器的相關(guān)研究,旨在從多個層面增強流量特征信息的表征能力,進一步提升工控入侵檢測模型的性能。