摘" 要: 為檢測電力系統(tǒng)中的網絡攻擊行為,文中提出一種基于電力數據采集與監(jiān)視控制(SCADA)系統(tǒng)的攻擊檢測方法,探討了機器學習方法作為檢測電力系統(tǒng)攻擊的可行性,并評估了其性能,討論了機器學習模型作為攻擊檢測方法的意義。此外,還提出一種基于機器學習的投票分類模型(RES),其由RF、ET和SVM三種基本分類器構成,使用投票分類中的軟投票方法,并且考慮了基本分類器的權重對投票分類模型的影響。通過在密西西比州立大學和橡樹嶺國家實驗室的電力系統(tǒng)攻擊數據集上進行實驗和分析,結果表明,與其他方法相比,RES模型在電力系統(tǒng)的攻擊檢測方面準確率得到大幅提升,在電力系統(tǒng)攻擊數據集上的二分類準確率達到了98.40%,能夠準確地檢測電網中的網絡攻擊行為。
關鍵詞: SCADA系統(tǒng); 投票分類模型; 電力系統(tǒng); 網絡攻擊; 機器學習; 入侵檢測
中圖分類號: TN915.08?34; TP391.4; TP769" " " " " 文獻標識碼: A" " " " " " " "文章編號: 1004?373X(2025)04?0018?06
Power system attack detection technology based on SCADA and voting classification model
GENG Zhenxing, WANG Yong
(School of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200120, China)
Abstract: In order to detect cyber?attack behaviors in power systems, a method of attack detection based on power SCADA (supervisory control and data acquisition) system is proposed, the feasibility of machine learning method for detecting power system attacks is discussed and its performance is evaluated, and the significance of machine learning model as an attack detection method is discussed. The machine learning based voting classification model (RES) is proposed, which is composed of three basic classifiers: random forest (RF), extra tree (ET), and support vector machine (SVM), the soft voting method in voting classification is adopted, and the influence of the weight of the basic classifier on the voting classification model is considered. Through experiments and analysis on the power system attack dataset from Mississippi State University and Oak Ridge National Laboratory, the results show that in comparison with other published methods, the RES model has substantially higher accuracy in attack detection in the power system, and the binary classification accuracy on the power system attack dataset can reach 98.40%, which is capable of accurately detecting cyber?attacks in the power grid.
Keywords: SCADA system; voting classification model; power system; cyber attack; machine learning; intrusion detection
0" 引" 言
隨著電力系統(tǒng)的數字化轉型和智能化發(fā)展,自動控制、網絡通信、人工智能等技術被廣泛地應用于新型電力系統(tǒng),并在新型電力系統(tǒng)中承擔著重要作用[1]。電力系統(tǒng)的網絡化程度越來越高,電力系統(tǒng)中的傳感設備、控制設備等連接到互聯(lián)網,使得系統(tǒng)容易受到來自網絡的攻擊[2]。2015年烏克蘭大停電是一個典型案例,其主要原因是黑客通過入侵計算機設備向物理設備發(fā)送大量惡意跳閘指令,造成了數小時的大面積停電事故[3]。2003年加拿大和美國部分地區(qū)遭受攻擊而停電,導致經濟損失上百億美元,這表明對電力系統(tǒng)的攻擊可能會對國家經濟造成巨大影響[4]。只有對這些電力系統(tǒng)攻擊的行為做到識別更準確、響應更迅速,才能在一定程度上減少損失、減輕傷害。本文就當前電力系統(tǒng)攻擊檢測存在的這兩大問題,給出了解決方案。
電力系統(tǒng)安全至關重要,入侵檢測已經成為近年來電力系統(tǒng)安全研究領域的一個重要工具,機器學習已經被廣泛提出作為一種入侵檢測方案[5]。在本文的工作中,使用機器學習模型對電力系統(tǒng)的攻擊行為進行檢測,以識別惡意的網絡攻擊事件。文中引入了數據采集與監(jiān)視控制(SCADA)系統(tǒng)的概念。SCADA系統(tǒng)能夠實時監(jiān)控電力系統(tǒng)中的參數以及設備的狀態(tài)和運行情況。本文通過部署電力SCADA系統(tǒng)來實時監(jiān)控和采集數據,以便進一步對異常數據和攻擊行為進行檢測,做到對攻擊行為的響應更迅速。此外,還提出了一種基于機器學習的投票分類模型(RES),集成了RF(Random Forest)、ET(Extra Tree)和SVM(Support Vector Machine)三種機器學習模型,在電力系統(tǒng)攻擊數據集上測試效果顯著,較以往方法準確率大幅提高,做到了對攻擊行為的識別更準確。
本文主要貢獻如下。
1) 引入了基于SCADA的攻擊檢測架構,實時監(jiān)測電力系統(tǒng)各個部件的運行狀態(tài)、參數,解決了電力系統(tǒng)攻擊檢測不及時的問題。
2) 評估了ET、XGBoost(Extreme Gradient Boosting)、DT(Decision Tree)、AdaBoost(Adaptive Boosting)、RF、BC(Bagging Classifier)、LR(Logistic Regression)和SVM共8種機器學習方法在電力系統(tǒng)攻擊數據集上的分類性能。
3) 提出了基于機器學習的投票分類模型,在密西西比州立大學和橡樹嶺國家實驗室的電力系統(tǒng)攻擊數據集上的二分類準確率達到了98.40%,解決了電力系統(tǒng)攻擊檢測準確率低的問題。
4) 引入損失函數作為評價預測概率分布和真實概率分布差異性的指標,進而提高所提模型的性能和泛化能力。
1" 相關工作
在各種技術不斷更新迭代地應用在電網領域的同時,智能電網的安全性問題成為不容忽視的一大挑戰(zhàn),需要進一步研究和解決。在已有的研究工作中,文獻[6]使用KNN(K?Nearest Neighbors)、DT(Decision Tree)、樸素貝葉斯(Naive Bayesian)、RF(Random Forest)和AdaBoost算法對電力系統(tǒng)網絡攻擊的檢測進行了實證比較,使用準確度、精確度等指標對算法的性能進行了評估,結果表明機器學習技術能夠成功地檢測電力系統(tǒng)網絡攻擊的行為。文獻[7]提出一種新的二進制粒子群特征選擇優(yōu)化(BPSWO)框架,通過加強特征選擇與訓練的耦合,提高機器學習方法的入侵檢測精度。文獻[8]提出決策樹的異常檢測方法,該方法能夠區(qū)分電力故障的正常跳閘和對物理繼電器的惡意跳閘攻擊。最后在IEEE 39總線系統(tǒng)上進行測試,結果表明所提方法能夠有效檢測攻擊。文獻[9]提出采用隔離森林算法檢測智能電網通信網絡上的隱蔽數據完整性攻擊,通過IEEE 14總線、39總線、57總線和118總線系統(tǒng)的評估,提高了檢測的準確性。文獻[10]使用卡方檢測方法檢測智能電網中虛假數據注入攻擊,檢測到攻擊后能夠采取預防措施控制風險。文獻[11]使用主成分分析(PCA)方法檢測惡意修改數據庫中的數據這一類攻擊,并在IEEE 24總線和118總線系統(tǒng)上進行了驗證,保證了電力系統(tǒng)的數據完整性。文獻[12]中對已發(fā)表的200多篇論文進行了全面分析,總結了機器學習的最新實踐,討論了機器學習在智能電網領域的應用以及發(fā)展趨勢。
2 模型建立
2.1 系統(tǒng)設計
電力SCADA系統(tǒng)結構包括SCADA主站、遠程終端單元、通信網絡、人機界面等組件。遠程終端單元安裝在電力系統(tǒng)現(xiàn)場的設備當中,負責采集現(xiàn)場數據并將數據傳輸到SCADA系統(tǒng),起到監(jiān)測和控制現(xiàn)場設備的作用。主站計算機是SCADA系統(tǒng)的核心部分,安裝在控制中心,用于處理數據、監(jiān)控和控制整個電力系統(tǒng)。通信網絡用于連接遠程終端單元和主站計算機,傳輸實時數據和控制命令。人機界面用于顯示實時數據和控制界面,實現(xiàn)人機交互。圖1所示為電力SCADA系統(tǒng)架構框圖。
在部署了電力SCADA系統(tǒng)之后,通過分析SCADA的數據流量來檢測攻擊事件和正常事件。圖2給出了電力系統(tǒng)攻擊檢測的流程圖,包括電力SCADA系統(tǒng)獲取數據、數據預處理、攻擊檢測和結果對比4個部分。預處理的作用是提高數據的準確性,為后續(xù)的實驗提供更好的數據基礎。數據清洗的作用是刪除無效值,從而獲得純凈的數據。標簽編碼可以對分類變量進行編碼,將變量轉化成模型能夠處理的數值形式。將處理好的數據使用機器學習模型ET、XGBoost、DT、AdaBoost、RF、BC(Bagging Classifier)、LR(Logistic Regression)和SVM進行檢測,再將不同模型的檢測結果進行對比,驗證所提出的投票分類模型的可行性。
2.2 本文方法
本文提出的投票分類模型使用軟投票的方法來檢測電力系統(tǒng)攻擊行為,分為兩步:第一步,對于給定的輸入[λ],各個基本分類器對其進行分類并輸出分類的概率;第二步對概率計算平均值或者加權平均值。假設有n個不同的基本分類器[{h1,h2,…,hn}],根據這些基本分類器的輸出從k個類別{C1,C2,…,Ck}中預測出最終的輸出類別。對于示例[λ],[hjiλ]表示基本分類器hi在類別Cj上對[λ]的預測輸出,其中i[∈][1,n],j[∈][1,k],[hjiλ∈][0,1]。如果平等地對待所有的基本分類器,不賦予權重,則對各個基本分類器的輸出進行簡單的平均計算即可,那么類別Cj的最終輸出可以表示為:
[Hj(λ)=1ni=1nhji(λ)] (1)
如果考慮對不同的基本分類器賦予不同的權重,那么類別Cj的最終輸出可以表示為:
[Hj(λ)=1ni=1nwihji(λ)] (2)
式中wi為賦予基本分類器hi的權重。所提方法的相關步驟如算法1所示。
算法1:投票分類算法
Dataset: Split data randomly Train∶Test=8∶2
Dataset: Train=(x_train,y_train);Test=(x_test,y_test)
Classifier h=(hi|i∈1,2,…,n)
Category C=(Cj|j∈1,2,…,k)
輸入: [λ](x_train,y_train,x_test,y_test)
y_train←x_train (train)
y_pred←x_test (test)
輸出: y_pred
begin
for j = 1 to k
[Hj(λ)=1ni=1nwihji(λ)]
end
best_prediction=Max([Hjλ|]j[∈1,2,…,k])
y_pred=Cj←Max([Hjλ])
end
在本項工作中,選取的基本分類器是RF、ET和SVM,由這三種分類器構成一個投票分類模型,稱為RES模型。根據上述方法給每個基本分類器賦予權重,將每個基本分類器輸出的分類概率與對應的權重相乘進而求加權平均值,根據加權平均值的大小確定最終預測結果。RES模型投票分類流程如圖3所示。
3 實 驗
3.1 數據集
在本項工作中,使用電力系統(tǒng)攻擊數據集,這個數據集來自密西西比州立大學和橡樹嶺國家實驗室[13]。其中二分類數據集是由初始數據集按照1%的比例隨機抽樣得到的,初始數據集中包含15個子數據集,每個數據集包含37個電力系統(tǒng)事件場景。表1描述了數據集對不同事件的二分類結果。
3.2 實驗設置
實驗在具有Apple M1 Pro芯片的macOS操作系統(tǒng)上完成,操作系統(tǒng)版本為Sonoma 14,計算機內存為16 GB,CPU和GPU分別為10核和16核。使用Python語言,在JupyterNotebook上進行開發(fā),采用scikit?learn框架。
3.3 評估參數
在機器學習中,評價分類器性能的指標主要有準確率、精確率、召回率、F1得分等,這些指標公式中所涉及的參數混淆矩陣如表2所示。其中:真陽性(TP)是指真實為陽、預測為陽的樣本;假陽性(FP)是指真實為陰、預測為陽的樣本;真陰性(TN)是指真實為陰、預測為陰的樣本;假陰性(FN)是指真實為陽、預測為陰的樣本。
評價指標的計算公式如下:
[Accuracy=TP+TNTP+FP+FN+TN] (3)
[Precision=TPTP+FP] (4)
[Recall=TPTP+FN] (5)
[F1=2×Precision×RecallPrecision+Recall] (6)
此外,在本項工作中引入了損失函數指標評估模型的性能,在實驗中使用的是對數損失函數,用來衡量預測概率分布和真實概率分布的差異性。對數損失函數的計算公式如下:
[LogLoss=-logPYX=-1Ni=1Nj=1Myijlogpij] (7)
在處理二分類問題時,對數損失函數可以簡化為:
[LogLoss=-1Ni=1N(yilogpi+(1-yi)log(1-pi))] (8)
式中:yi是第i個樣本的真實類別;pi為第i個樣本預測為類別1的概率;N為樣本量。
3.4 結果和討論
本文使用8種常見的機器學習方法對電力系統(tǒng)攻擊數據集的15個子數據集進行檢測,在15個數據集上的準確率如表3所示。從初步的實驗結果分析,就8種模型而言,ET在15個數據集上的準確率最高,達到了98.19%。從表中可以看到,排名靠前的機器學習模型分別是ET、XGBoost和RF,由此可見,ET模型對電力系統(tǒng)攻擊的檢測更為準確。
針對提出的RES投票分類模型在15個數據集上進行測試,表3和圖4顯示了RES模型和其他模型的準確率對比。可以看到,本文提出的RES模型的準確率最高,在15個數據集上的表現(xiàn)都優(yōu)于其他8個模型。值得注意的是,組成RES模型的3個基本分類器分別是RF、ET和SVM,但是這三者的檢測效果均不如RES模型,在圖5中進行了對比。在本文中使用不同的模型進行投票時,按照單個模型的準確率高低賦予權重,提高了整體模型的準確率。在單個模型的選擇上,RF和ET準確率較高,SVM準確率較低,因此參與投票的模型具有多樣性,降低了單個模型可能存在過擬合的風險。
除此之外,在RES模型中還考慮了損失函數,這是一種用來衡量模型的預測值與真實值差異的函數。在本項工作中,RES模型不僅做到了電力系統(tǒng)攻擊檢測的準確率大幅度提升,也同樣大幅減小了模型的損失函數值,增強了模型的魯棒性。RES模型和3個基本分類器的損失函數值如表4和圖6所示。本文提出的投票分類方法結合了多個模型的預測結果,可以減少單一模型可能存在的誤差,提高了整體預測的穩(wěn)定性。RF、ET和SVM三者的損失函數值在15個數據集上的表現(xiàn)均偏高并且不穩(wěn)定,只有RES模型穩(wěn)定在0.10~0.15之內。在15個不同數據集上的測試結果表明,RES的損失函數值只在百分位上輕微波動,表明此模型的泛化能力更強,使用場景更加廣泛。
為了驗證所提方法的性能,針對二分類問題,在使用同一個電力系統(tǒng)攻擊數據集的前提下,將RES模型與已有的9種方法進行比較。表5所示為RES模型和已有方法的準確率對比,結果表明,所提出的方法在準確率方面表現(xiàn)極好,與現(xiàn)有方法的最高準確率相比,RES模型表現(xiàn)更為優(yōu)秀,準確率達到了98.40%。
4 結" 語
本文提出了電力SCADA系統(tǒng)協(xié)同機器學習分類模型檢測電力系統(tǒng)攻擊的方法,提高了檢測準確率。
此外,通過實驗數據對比,本文提出的RES模型在檢測準確度上不僅優(yōu)于傳統(tǒng)的機器學習模型,還優(yōu)于現(xiàn)有的方法,說明將機器學習方法應用于電力系統(tǒng)攻擊檢測是可行的,RES模型可為電力系統(tǒng)攻擊檢測工作提供一種新思路。
后續(xù)的研究將繼續(xù)增加數據,在更加豐富的電力系統(tǒng)數據集中進行探索,挖掘隱藏的攻擊手段,選擇有價值的特征,采用更加先進的機器學習方法和技術進一步提高電力系統(tǒng)攻擊檢測方法的性能。
參考文獻
[1] OU Q H, WANG S X, SHE R, et al. Exploration of power communication network requirements and application scenarios for new power systems [J]. Distribution amp; utilization, 2022, 39(2): 1?8.
[2] ZHAO H, LIU G, SUN H, et al. An enhanced intrusion detection method for AIM of smart grid [J]. Journal of ambient intelligence and humanized computing, 2023, 14(5): 4827?4839.
[3] TONG X Y, WANG X R. Inference and countermeasure presupposition of network attack in incident on Ukrainian power grid [J]. Automation of electric power systems, 2016, 40(7): 144?148.
[4] ALIMI O A, OUAHADA K. Security assessment of the smart grid: a review focusing on the NAN architecture [C]// 2018 IEEE 7th International Conference on Adaptive Science amp; Technology. [S.l.]: IEEE, 2018: 1?8.
[5] KHAN S, KIFAYAT K, KASHIF B A, et al. Intelligent intrusion detection system in smart grid using computational intelligence and machine learning [J]. Transactions on emerging telecommunications technologies, 2021, 32(6): e4062.
[6] ALIMI O A, OUAHADA K, ABU?MAHFOUZ A M, et al. Empirical comparison of machine learning algorithms for mitigating power systems intrusion attacks [C]// 2020 International Symposium on Networks, Computers and Communications (ISNCC). [S.l.]: IEEE, 2020: 1?5.
[7] HAN Y, WANG Y, CAO Y, et al. A novel wrapped feature selection framework for developing power system intrusion detection based on machine learning methods [EB/OL]. [2023?01?17]. https://www.zhangqiaokeyan.com/journal?foreign?detail/0704076105477.html.
[8] SINGH V K, GOVINDARASU M. Decision tree based anomaly detection for remedial action scheme in smart grid using PMU data [C]// 2018 IEEE Power amp; Energy Society General Meeting (PESGM). Portland, OR, USA: IEEE, 2018: 1?5.
[9] AHMED S, LEE Y D, HYUN S H, et al. Unsupervised machine learning?based detection of covert data integrity assault in smart grid networks utilizing isolation forest [J]. IEEE transactions on information forensics and security, 2019, 14(10): 2765?2777.
[10] RAWAT D B, BAJRACHARYA C. Detection of 1 data injection attacks in smart grid communication systems [J]. IEEE signal processing letters, 2015, 22(10): 1652?1656.
[11] VALENZUELA J, WANG J, BISSINGER N. Real?time intrusion detection in power system operations [J]. IEEE transactions on power systems, 2012, 28(2): 1052?1062.
[12] IBRAHIM M S, DONG W, YANG Q. Machine learning driven smart electric power systems: current trends and new perspectives [J]. Applied energy, 2020, 272: 115237.
[13] Mississippi State University and Oak Ridge National Labora?tory. Power system attack datasets [EB/OL]. [2023?11?07]. http://www.ece.uah.edu/~thm0009/icsdatasets/PowerSystem_Dataset_README.pdf.
[14] HINK R C B, BEAVER J M, BUCKNER M A, et al. Machine learning for power system disturbance and cyber?attack discrimination [C]// 2014 7th International Symposium on Resilient Control Systems (ISRCS). Denver, CO, USA: IEEE, 2014: 1?8.
[15] UPADHYAY D, MANERO J, ZAMAN M, et al. Gradient boosting feature selection with machine learning classifiers for intrusion detection on power grids [J]. IEEE transactions on network and service management, 2020, 18(1): 1104?1116.
[16] KESHK M, MOUSTAFA N, SITNIKOVA E, et al. Privacy preservation intrusion detection technique for SCADA systems [C]// 2017 Military Communications and Information Systems Conference (MilCIS). [S.l.]: IEEE, 2017: 1?6.
[17] KESHK M, SITNIKOVA E, MOUSTAFA N, et al. An integrated framework for privacy?preserving based anomaly detection for cyber?physical systems [J]. IEEE transactions on sustainable computing, 2019, 6(1): 66?79.
[18] PANTHI M. Identification of disturbances in power system and DDoS attacks using machine learning [J]. IOP conference series: materials science and engineering, 2021, 1022(1): 012096.
[19] PANTHI M, DAS T K. Intelligent intrusion detection scheme for smart power?grid using optimized ensemble learning on selected features [J]. International journal of critical infrastructure protection, 2022, 39: 100567.
[20] HAGHNEGAHDAR L, WANG Y. A whale optimization algo?rithm?trained artificial neural network for smart grid cyber intrusion detection [J]. Neural computing and applications, 2020, 32: 9427?9441.
[21] GUMAEI A, HASSAN M M, HUDA S, et al. A robust cyber attack detection approach using optimal features of SCADA power systems in smart grids [J]. Applied soft computing, 2020, 96: 106658.
作者簡介:耿振興(1999—),男,安徽阜陽人,碩士研究生,研究方向為電力信息安全。
王" 勇(1973—),男,河南確山人,博士研究生,教授,研究方向為電力信息安全、工控系統(tǒng)安全。