摘 要:提出了一種基于集成學(xué)習(xí)技術(shù)的入侵?jǐn)?shù)據(jù)檢測(cè)方法,并使用焦點(diǎn)損失函數(shù)處理數(shù)據(jù)不平衡,提高數(shù)據(jù)篡改分類能力,并利用隨機(jī)森林、深度學(xué)習(xí)、支持向量機(jī)與本文所提出方法進(jìn)行性能比較。結(jié)果表明,當(dāng)?shù)螖?shù)大于80時(shí),4種模型的收斂速度開始增加,并最終在迭代次數(shù)為140,趨于收斂。其中模型收斂的速度分別為深度學(xué)習(xí)gt;集成學(xué)習(xí)技術(shù)gt;隨機(jī)森林gt;支持向量機(jī)。集成學(xué)習(xí)技術(shù)方法實(shí)現(xiàn)了95.83%的準(zhǔn)確率,92.46%的精度,97.47%的召回率和94.90%的F1得分。相對(duì)于隨機(jī)森林模型,集成學(xué)習(xí)技術(shù)方法在F1分?jǐn)?shù)方面提高了約1.63%。集成學(xué)習(xí)技術(shù)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間分別為12、26 ms,均小于其他方法。
關(guān)鍵詞:電力系統(tǒng);數(shù)據(jù)篡改;檢測(cè);識(shí)別技術(shù)
中圖分類號(hào):TP274 + .4TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1001-5922(2024)11-0143-04
Identification of business system intrusion and datatampering attacks based on integrated learning technology
ZHANG Wenming
(State Grid Zhejiang Electric Power Co.,Ltd.,Pujiang County Power Supply Company,Pujiang 322299,Zhejiang China)
Abstract: In this paper,an intrusion data detection method based on ensemble learning technology was proposed,and the focus loss function was used to deal with the data imbalance,improve the data tampering classification abili?ty,and the performance of random forest,deep learning and support vector machine was compared with the pro?posed method. The experimental results showed that when the number of iterations was greater than 80,the conver?gence speed of the four models began to increase,and eventually tend to converge at an iteration number of 140.The speed of model convergence was as follows:deep learninggt;ensemble learning technologygt;random forestgt;sup?port vector machine. The integrated learning technology method achieved an accuracy of 95.83%,an accuracy of92.46%,a recall rate of 97.47%,and an F1 score of 94.90%. Compared to the random forest model,the ensemblelearning technology method improved F1 scores by approximately 1.63%. The training time and detection time of in?tegrated learning technology were 12 ms and 26 ms respectively,which were smaller than those of other methods.
Keywords: power marketing system;data tampering;detection;Identification technology
與傳統(tǒng)的檢測(cè)方法相比,集成學(xué)習(xí)技術(shù)可以有效識(shí)別電力營(yíng)銷系統(tǒng)復(fù)雜的訓(xùn)練數(shù)據(jù)結(jié)構(gòu) [1] ,并且可以很好地?cái)U(kuò)展到大型數(shù)據(jù)集,解決電力營(yíng)銷系統(tǒng)難以處理入侵?jǐn)?shù)據(jù)多樣性的困難。而焦點(diǎn)損失函數(shù)可以處理高度不平衡的入侵篡改數(shù)據(jù)檢測(cè)數(shù)據(jù)集 [2] ,使模型能夠優(yōu)先處理難以分類的樣本,有助于緩解數(shù)據(jù)不平衡的問(wèn)題,并提高模型準(zhǔn)確分類正樣本和負(fù)樣本的能力?;诖?,本文通過(guò)建立集成學(xué)習(xí)技術(shù)模型,進(jìn)一步檢測(cè)電力營(yíng)銷系統(tǒng)的入侵?jǐn)?shù)據(jù)篡改攻擊。
1 入侵?jǐn)?shù)據(jù)篡改攻擊檢測(cè)模型建模
1. 1 電力營(yíng)銷系統(tǒng)狀態(tài)估計(jì)
狀態(tài)估計(jì)是維持電力營(yíng)銷系統(tǒng)穩(wěn)定性和效率的關(guān)鍵機(jī)制 [3] 。物理層的測(cè)量數(shù)據(jù)(如輸電預(yù)測(cè)、電力營(yíng)銷和用電價(jià)格制定)由系統(tǒng)自動(dòng)采集。將收集到的數(shù)據(jù)發(fā)送到電力營(yíng)銷系統(tǒng)網(wǎng)絡(luò)層的控制中心 [4] ??刂浦行母鶕?jù)接收到的數(shù)據(jù)估計(jì)電力系統(tǒng)的狀態(tài),檢測(cè)突發(fā)入侵?jǐn)?shù)據(jù)事件的可能性,并向物理層的遠(yuǎn)程終端單元(RTU)發(fā)送相應(yīng)的控制信號(hào),從而確保電力營(yíng)銷系統(tǒng)的可靠運(yùn)行,完成物理電網(wǎng)的閉環(huán)控制。
隨著越來(lái)越多的電力營(yíng)銷系統(tǒng)網(wǎng)絡(luò)層漏洞被發(fā)現(xiàn),多種類型的數(shù)據(jù)篡改攻擊被證實(shí)具有潛在入侵電力營(yíng)銷系統(tǒng)的能力 [6] 。然而,傳統(tǒng)的數(shù)據(jù)篡改攻擊檢測(cè)機(jī)制只能檢測(cè)某一類篡改攻擊,從而限制了檢測(cè)范圍。
1. 2 集成學(xué)習(xí)技術(shù)的攻擊檢測(cè)模型
隨著數(shù)據(jù)篡改攻擊研究的不斷深入,數(shù)據(jù)篡改攻擊的定義也得到了進(jìn)一步擴(kuò)展。從廣義上講入侵?jǐn)?shù)據(jù)篡改攻擊可能發(fā)生在電力營(yíng)銷系統(tǒng)中的各個(gè)抽象層,攻擊者可能針對(duì)監(jiān)測(cè)、控制和保護(hù)裝置發(fā)起篡改攻擊,從而破壞電力營(yíng)銷系統(tǒng)或與之相關(guān)的應(yīng)用,如發(fā)電預(yù)測(cè)、狀態(tài)估計(jì)、經(jīng)濟(jì)營(yíng)銷調(diào)度和能量交易等 [7] 。
因此,在設(shè)計(jì)入侵?jǐn)?shù)據(jù)篡改攻擊檢測(cè)模型時(shí),應(yīng)考慮對(duì)不同類型入侵?jǐn)?shù)據(jù)篡改攻擊的檢測(cè)。
本文采用集成學(xué)習(xí)技術(shù)來(lái)檢測(cè)營(yíng)銷系統(tǒng)的不同類型入侵?jǐn)?shù)據(jù)篡改攻擊。當(dāng)入侵?jǐn)?shù)據(jù)篡改攻擊發(fā)生時(shí),往往伴隨著物理層電力系統(tǒng)設(shè)備的故障在短時(shí)間內(nèi)發(fā)生 [8] 。因此,當(dāng)電力系統(tǒng)發(fā)生暫態(tài)過(guò)程時(shí),測(cè)量數(shù)據(jù)的特征與數(shù)據(jù)篡改攻擊發(fā)生時(shí)的特征極為相似。為了準(zhǔn)確區(qū)分故障和數(shù)據(jù)篡改攻擊,在設(shè)計(jì)該模型時(shí)還特別考慮了電力營(yíng)銷系統(tǒng)故障的檢測(cè) [9] 。為了反映輸入數(shù)據(jù)與檢測(cè)結(jié)果之間的關(guān)系,數(shù)據(jù)篡改攻擊檢測(cè)模型采用多分類集合分類器。對(duì)于多分類任務(wù),設(shè)定原始數(shù)據(jù)集為 D ,數(shù)據(jù)集中有 j 個(gè)樣本,數(shù)據(jù)集的維數(shù)為 n ,則數(shù)據(jù)集 D 可用式(6)表示:如式(7)所示,數(shù)據(jù)篡改攻擊中 type1 、 type2 和type3 分別為數(shù)據(jù)增加攻擊、數(shù)據(jù)減少攻擊和數(shù)據(jù)破壞攻擊。本文提出的集成學(xué)習(xí)技術(shù)擴(kuò)大了篡改攻擊檢測(cè)的范圍。且可以區(qū)分篡改攻擊是否有效地侵入電力營(yíng)銷系統(tǒng)。當(dāng)瞬態(tài)過(guò)程發(fā)生在物理層時(shí),可以準(zhǔn)確地檢測(cè)到特定類型的篡改攻擊 [10-11] 。
對(duì)于3種不同的篡改攻擊,由于每次攻擊概率不同,最終檢測(cè)概率和誤報(bào)概率也不同。并非所有攻擊都一定會(huì)同時(shí)發(fā)起攻擊。參考3種不同的攻擊類型,可以得到3個(gè)篡改攻擊的檢測(cè)概率和誤報(bào)概率。對(duì)于電力營(yíng)銷系統(tǒng), p Hd表示檢測(cè)概率, p Hf代表誤報(bào)概率,2個(gè)概率分別為:
1. 3 損失函數(shù)
焦點(diǎn)損失函數(shù)最初被提出用于具有高度不平衡數(shù)據(jù)集的目標(biāo)檢測(cè)任務(wù)。在本文中,可以被應(yīng)用于處理高度不平衡的入侵篡改數(shù)據(jù)檢測(cè)數(shù)據(jù)集 [12] 。焦點(diǎn)損失函數(shù)調(diào)整正樣本和負(fù)樣本的權(quán)重,使模型能夠優(yōu)先處理難以分類的樣本,有助于緩解數(shù)據(jù)不平衡的問(wèn)題,并提高模型準(zhǔn)確分類正樣本和負(fù)樣本的能力。如果模型的檢測(cè)精度不能滿足電力營(yíng)銷系統(tǒng)的要求,則不利于及時(shí)處理攻擊引起的故障。當(dāng)篡改攻擊發(fā)生時(shí),物理層的營(yíng)銷數(shù)據(jù)往往包含異常分布的數(shù)據(jù),這些異常數(shù)據(jù)樣本很難通過(guò)系統(tǒng)分類器進(jìn)行分類。為了處理難分類樣本,利用焦點(diǎn)損失函數(shù)改進(jìn)電力營(yíng)銷系統(tǒng)分類器,為難分類的數(shù)據(jù)樣本賦予更高的權(quán)重 [13] 。
對(duì)于傳統(tǒng)的電力營(yíng)銷系統(tǒng)分類器,多分類損失函數(shù)是交叉熵?fù)p失函數(shù)。如式(12)所示,
式中: p i 表示數(shù)據(jù)樣本容易分類的概率; y i 表示數(shù)據(jù)的實(shí)際標(biāo)簽; T 表示類別數(shù)。而多分類損失函數(shù)迭代效率低,無(wú)法在數(shù)據(jù)量大的情況下檢測(cè)到入侵篡改攻擊。而本文利用焦點(diǎn)損失函數(shù)可以提高電力營(yíng)銷系統(tǒng)分類器的檢測(cè)分類效率,焦點(diǎn)損失函數(shù)如式(13)所示:在焦點(diǎn)損失函數(shù)的迭代過(guò)程中,當(dāng)數(shù)據(jù)樣本被錯(cuò)誤分類時(shí), p i 的值很小,調(diào)節(jié)因子( 1-p i )近似等于1,并且損失不受影響。當(dāng)數(shù)據(jù)樣本易于分類時(shí),調(diào)節(jié)因子( 1-p i )近似等于0,因此易于分類樣本的權(quán)重會(huì)降低。參數(shù) γ 可以調(diào)整較低權(quán)重的比例,調(diào)節(jié)因子的作用可以通過(guò)增加參數(shù)γ來(lái)增強(qiáng)?;谏鲜龇治?,焦點(diǎn)損失函數(shù)降低了容易分類樣本的權(quán)重,增加了難分類樣本的權(quán)重。因此,電力營(yíng)銷系統(tǒng)分類器在訓(xùn)練分類器時(shí)更加關(guān)注難分類樣本,進(jìn)一步提高數(shù)據(jù)篡改的檢測(cè)精度。
2 結(jié)果與討論
2. 1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
本文使用的實(shí)驗(yàn)硬件環(huán)境配備了英特爾酷睿i5-10300H 64位處理器、16 GB 內(nèi)存和GTX1660Ti顯卡。實(shí)驗(yàn)平臺(tái)采用TensorFlow 2.2.0和Keras 2.3.1框架,并使用Python 3.7進(jìn)行編碼實(shí)現(xiàn)。輸入到模型中的采樣時(shí)間步長(zhǎng)設(shè)置為10。學(xué)習(xí)率設(shè)置為 0.01。且為了進(jìn)一步突出本文所提出的集成學(xué)習(xí)技術(shù)的檢測(cè)模型對(duì)篡改數(shù)據(jù)的檢測(cè)性能,與深度學(xué)習(xí)、支持向量機(jī)、隨機(jī)森林模型進(jìn)行比較。
NSL-KDD數(shù)據(jù)集是入侵?jǐn)?shù)據(jù)篡改檢測(cè)研究中常用的數(shù)據(jù)集,刪除了重復(fù)和冗余記錄。該數(shù)據(jù)集包含正常和異常數(shù)據(jù),分為訓(xùn)練子集和測(cè)試子集。訓(xùn)練集包含125 973個(gè)樣本,測(cè)試集包含22 543個(gè)樣本。
入侵?jǐn)?shù)據(jù)篡改攻擊的評(píng)價(jià)指標(biāo)有4個(gè),分別為準(zhǔn)確率、精度、召回率和F1分?jǐn)?shù)。其的計(jì)算公式如下所示:
式中:TP代表準(zhǔn)確識(shí)別為具有攻擊樣本的數(shù)量;FP表示為具有攻擊的正常樣本的數(shù)量;TN代表準(zhǔn)確識(shí)別為沒(méi)有攻擊的正常樣本數(shù)量;FN代表沒(méi)有攻擊的樣本數(shù)量。但是,由于精確度和召回率經(jīng)常相互沖突,因此本研究采用精度和F1分?jǐn)?shù)作為主要評(píng)價(jià)標(biāo)準(zhǔn)。準(zhǔn)確率和F1分?jǐn)?shù)的值越大,模型的性能就越好。
此外,本研究還增加了模型訓(xùn)練時(shí)間這一指標(biāo),以評(píng)估模型訓(xùn)練的速度。
2. 2 模型損失
圖1為4種模型檢測(cè)方法的測(cè)試損耗變化。
由圖1可知,隨著迭代次數(shù)的增加,上述 4種模型的整體損失逐漸減少并最終在迭代次數(shù)(epochs)140時(shí)穩(wěn)定。當(dāng)?shù)螖?shù)小于40時(shí),集成學(xué)習(xí)技術(shù)、隨機(jī)森林、支持向量機(jī)的模型損失差別較小,平均值為2.4%。而深度學(xué)習(xí)在迭代次數(shù)40時(shí),已逐漸趨于收斂。當(dāng)?shù)螖?shù)大于80時(shí),4種模型的收斂速度開始增加,并最終在迭代次數(shù)為140,趨于收斂。同時(shí)可觀察到,4種模型的最小損失分別為0.1%、0.2%、0.3%、0.35%。結(jié)果表明,集成學(xué)習(xí)技術(shù)可以更準(zhǔn)確地識(shí)別數(shù)據(jù)篡改樣本。
2. 3 檢測(cè)性能變化研究
在模型訓(xùn)練期間,訓(xùn)練迭代的次數(shù)會(huì)極大地影響模型的準(zhǔn)確性。較少的訓(xùn)練迭代可能會(huì)導(dǎo)致模型收斂不足,而更多的訓(xùn)練迭代可能會(huì)導(dǎo)致過(guò)度擬合,將模型迭代次數(shù)設(shè)定為140。表1為 比較 4種模型對(duì)電力營(yíng)銷系統(tǒng)中篡改數(shù)據(jù)的檢測(cè)性能,包括準(zhǔn)確率、精度、召回率和 F 1 分?jǐn)?shù)。
由表4可知,通過(guò)比較 4種檢測(cè)模型對(duì)數(shù)據(jù)篡改的檢測(cè)性能,可以得出本文提出的集成學(xué)習(xí)技術(shù)方法在入侵篡改數(shù)據(jù)攻擊檢測(cè)方面具有最佳性能。集成學(xué)習(xí)技術(shù)方法實(shí)現(xiàn)了95.83%的準(zhǔn)確率,92.46%的精度,97.47%的召回率和94.90%的F1得分。相對(duì)于隨機(jī)森林模型,集成學(xué)習(xí)技術(shù)方法在F1分?jǐn)?shù)方面提高了約1.63%。在召回率方面提高了約2.19%。
2. 4 平均檢測(cè)時(shí)間及訓(xùn)練時(shí)間變化
為進(jìn)一步突出集成學(xué)習(xí)技術(shù)的入侵檢測(cè)性能,研究 4種模型的平均檢測(cè)時(shí)間及訓(xùn)練時(shí)間變化,實(shí)驗(yàn)結(jié)果如圖2所示。
由圖2可知,集成學(xué)習(xí)技術(shù)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間分別為12、26 ms。而隨機(jī)森林、深度學(xué)習(xí)、支持向量機(jī)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間均大于集成學(xué)習(xí)技術(shù),其中深度學(xué)習(xí)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間最大,分別為26、42ms較集成學(xué)習(xí)技術(shù)分別增加53.84%、38.09%。集成學(xué)習(xí)技術(shù)的訓(xùn)練時(shí)間優(yōu)化效果較好,主要原因?yàn)楸疚奶岢龅募蓪W(xué)習(xí)技術(shù)擴(kuò)大了篡改攻擊檢測(cè)的范圍。且可以區(qū)分篡改攻擊是否有效地侵入電力營(yíng)銷系統(tǒng)。
3 結(jié)語(yǔ)
本文利用集成學(xué)習(xí)技術(shù)進(jìn)行電力營(yíng)銷系統(tǒng)的入侵篡改數(shù)據(jù)攻擊檢測(cè),并利用焦點(diǎn)損失函數(shù)處理數(shù)據(jù)不平衡,提高數(shù)據(jù)篡改分類能力。集成學(xué)習(xí)技術(shù)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間分別為12、26 ms。而隨機(jī)森林、深度學(xué)習(xí)、支持向量機(jī)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間均大于集成學(xué)習(xí)技術(shù),其中深度學(xué)習(xí)的訓(xùn)練時(shí)間及檢測(cè)時(shí)間最大,分別為26、42 ms較集成學(xué)習(xí)技術(shù)分別增加53.84%、38.09%。在電力營(yíng)銷系統(tǒng)中,雖然深度學(xué)習(xí)模型的收斂速度比集成學(xué)習(xí)技術(shù)模型慢,但集成學(xué)習(xí)技術(shù)最終測(cè)試損耗最低。同時(shí)可觀察到,4種模型的最小損失分別為0.1%、0.2%、0.3%、0.35%。綜上所述,集成學(xué)習(xí)技術(shù)具有較好的檢測(cè)精度與準(zhǔn)確率,且檢測(cè)時(shí)間較短,可滿足電力營(yíng)銷系統(tǒng)的實(shí)際使用需求。
【參考文獻(xiàn)】
[1] 苗成林,李彤,呂軍,等. 基于Dempster-Shafer證據(jù)理論與抗頻譜感知數(shù)據(jù)篡改攻擊的協(xié)作式頻譜檢測(cè)算法[J]. 兵工學(xué)報(bào),2017,38(12):2406-2413.
[2] 許爽,劉智穎,李元誠(chéng),等. 針對(duì)電池儲(chǔ)能系統(tǒng)假數(shù)據(jù)注入攻擊的智能化檢測(cè)方法研究[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2023,43(17):6628-6639.
[3] 陳真,乞文超,鮑泰宇,等. 面向服務(wù)質(zhì)量感知云API推薦系統(tǒng)的數(shù)據(jù)投毒攻擊檢測(cè)方法[J]. 通信學(xué)報(bào),2023,44(8):155-167.
[4] 楊航,樊凱,梁段.基于蟻群算法的電力數(shù)據(jù)網(wǎng)絡(luò)APT攻擊特征分析及防御技術(shù)[J].微型電腦應(yīng)用,2023,39 (7):101-104.
[5] 顧仁龍,曾鴻孟,徐超,等.基于機(jī)器學(xué)習(xí)的云原生結(jié)構(gòu)數(shù)據(jù)攻擊檢測(cè)系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2023,31 (14):62-65.
[6] 杜濤,王朝龍,朱靖,等. 基于聚類算法的變壓設(shè)備運(yùn)行數(shù)據(jù)監(jiān)測(cè)與異常檢測(cè)技術(shù)[J]. 粘接,2022,49(12):137-140.
[7] 黃鵬程,陳麗丹,祁恬,等. 基于GAF-DenseNet的航空發(fā)動(dòng)機(jī)虛假數(shù)據(jù)注入攻擊檢測(cè)[J]. 航空動(dòng)力學(xué)報(bào),2023,38(7):1691-1702.
[8] 祝超群,朱怡蓉. 虛假數(shù)據(jù)注入攻擊下信息物理系統(tǒng)動(dòng)態(tài)輸出反饋控制[J].蘭州理工大學(xué)學(xué)報(bào),2023,49(1):74-82.
[9] 杜濤,王朝龍,朱靖,等. 基于聚類算法的變壓設(shè)備運(yùn)行數(shù)據(jù)監(jiān)測(cè)與異常檢測(cè)技術(shù)[J]. 粘接,2022,49(12):137-140.
[10] 劉浪,時(shí)宏偉. 基于注意力機(jī)制的CNN-LSTM的ADS-B異常數(shù)據(jù)檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2023,32(4):94-103.
[11] 劉小梅,唐鑫,楊舒婷,等. 基于Reed-Solomon編碼的抗邊信道攻擊云數(shù)據(jù)安全去重方法[J]. 信息安全學(xué)報(bào),2022,7(6):80-93.
[12] 席磊,何苗,周博奇,等. 基于改進(jìn)多隱層極限學(xué)習(xí)機(jī)的電網(wǎng)虛假數(shù)據(jù)注入攻擊檢測(cè)[J]. 自動(dòng)化學(xué)報(bào),2023,49(4):881-890.
[13] 徐超,孫金莉,楊郡,等. 基于分布式支持向量機(jī)的電網(wǎng)錯(cuò)誤數(shù)據(jù)注入檢測(cè)法[J]. 粘接,2023,50(2):188-192.