中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2025)18-0005-05
Abstract:Inordertoimprove thesecuritylevelofindustrialcontrolsystemsandreducethethreatcausedbynetwork attacks,aprotectionstrategyselectionalgorithmcombiningQ-learingandparticleswarmoptimizationalgorithmisproposedThe experimentalresultsshowthat,whennoprotectivestrategyisimplemented,thebenefitsthatcanbebtainedfromtheattckcan reachupto547.3.AfterimplementingtheparticleswarmalgorithmandBayesianatackgraphselectionprotectionstrategy,the benefitsobtainedfromtheatackdecreasedto432.5and398.7respectivelyWhenimplementingtheprotectivestrategyselected bytheimprovedparticleswarmoptimizationalgorithmbasedonQ-learning,theatackbenefitdecreasedto325.6.Theabove resultsindicatethattheprotectionstrategyselectedbytheimprovedparticleswarmoptimizationalgorithmbasedonQ-learning cansignificantlyreduceattack benefitsand effectivelyprotect industrial control systems from network atacks.
Keywords: industrial control system;securityrisk; Qleaming;particleswarmoptimizationalgorithm; protectionstrategy
隨著工業(yè)控制系統(tǒng)網(wǎng)絡(luò)化浪潮的推進(jìn),工控系統(tǒng)的電子化程度逐漸增加。雖然電子化程度的增加能削弱工控系統(tǒng)的隔離性,但也增加了其受到網(wǎng)絡(luò)攻擊的風(fēng)險(xiǎn),給工控系統(tǒng)的安全帶來(lái)了極大的威脅[1-2]。當(dāng)前面向工控系統(tǒng)的安全感防護(hù)策略選擇模型主要包括基于Markov模型攻擊圖的選擇模型、基于禁忌搜索的選擇模型和基于馬爾科夫博弈模型的選擇模型等,但上述模型均難以高效準(zhǔn)確地選擇出最優(yōu)的防護(hù)策略。因此,為了提高工控系統(tǒng)的防護(hù)力度,研究提出了結(jié)合Q學(xué)習(xí)和粒子群優(yōu)化(Particle Swarm Opti-mization,PSO)算法的安全防護(hù)策略選擇模型。該模型由于僅作用于工控系統(tǒng)的入侵響應(yīng)機(jī)制,并不涉及生產(chǎn)制造過(guò)程,因此其適用于不同類型的工控系統(tǒng)。同時(shí),該模型還創(chuàng)新性地在PSO算法中引入了Q學(xué)習(xí),以避免算法陷人局部最優(yōu)的問(wèn)題。
l基于QPSO的安全防護(hù)策略選擇模型
1.1工控系統(tǒng)安全風(fēng)險(xiǎn)評(píng)估方法
在提高工控系統(tǒng)的安全性之前,首先需要對(duì)工控系統(tǒng)的風(fēng)險(xiǎn)及漏洞進(jìn)行識(shí)別,以便對(duì)癥下藥。貝葉斯攻擊圖能準(zhǔn)確表達(dá)網(wǎng)絡(luò)或信息系統(tǒng)中存在的脆弱點(diǎn),并全面地反映網(wǎng)絡(luò)或信息系統(tǒng)中脆弱點(diǎn)利用之間的依賴關(guān)系[4。貝葉斯攻擊圖的定義如式(1)所示。
BAG=(S,E,A,P)
式中: BAG 表示貝葉斯攻擊圖;S表示屬性節(jié)點(diǎn)的集合; E 表示有向邊的集合;A表示原子攻擊; P 表示屬性節(jié)點(diǎn)被攻擊的概率集合。在工控系統(tǒng)受到攻擊時(shí),系統(tǒng)中的漏洞被成功利用的概率是通過(guò)漏洞評(píng)分系統(tǒng)進(jìn)行計(jì)算的,其計(jì)算公式如式(2)所示。
p(νi)=2×AV×AC×AU
, 式中: p(νi) 表示漏洞 ui 被成功利用的概率; i 表示漏洞的索引,用于區(qū)分不同的漏洞, vi 即第 i 個(gè)漏洞; AV 表示攻擊路徑; AC 表示攻擊復(fù)雜度; .AU 表示身份驗(yàn)證值。各等級(jí)網(wǎng)絡(luò)漏洞評(píng)價(jià)得分見(jiàn)表1。
由表1可知,遠(yuǎn)程網(wǎng)絡(luò)攻擊、相鄰網(wǎng)絡(luò)攻擊和本地攻擊的得分分別為1.0、0.7和0.4;在無(wú)驗(yàn)證、單一驗(yàn)證方式、多重驗(yàn)證方式下,身份驗(yàn)證難度得分分別為 0.7,0.6 和0.5。由于父節(jié)點(diǎn)集會(huì)影響子節(jié)點(diǎn)被攻擊利用的概率,因此為了準(zhǔn)確反映屬性節(jié)點(diǎn)被成功利用的概率,需要計(jì)算屬性節(jié)點(diǎn)的條件概率。屬性節(jié)點(diǎn)的條件概率計(jì)算公式如式(3)所示。
式中:i和 j 表示不同節(jié)點(diǎn)的索引; Si 表示第 i 個(gè)屬性節(jié)點(diǎn)(子節(jié)點(diǎn)),即被攻擊的目標(biāo)節(jié)點(diǎn); Sj 表示第 j 個(gè)父節(jié)點(diǎn),即對(duì) Si 有直接影響的前置節(jié)點(diǎn); 表示在父節(jié)點(diǎn)集 Par(Si) 的影響下,屬性節(jié)點(diǎn) Si 被利用的概率; p(Sj) 表示節(jié)點(diǎn)被利用的概率; dj 表示屬性節(jié)點(diǎn)類型。此時(shí),屬性節(jié)點(diǎn)先驗(yàn)概率的計(jì)算公式如式(4)所示。
式中: i 和 j 表示不同節(jié)點(diǎn)的索引; Si 表示第 i 個(gè)屬性節(jié)點(diǎn)(子節(jié)點(diǎn)),即被攻擊的目標(biāo)節(jié)點(diǎn); Sj 表示第 j 個(gè)父節(jié)點(diǎn),即對(duì) Si 有直接影響的前置節(jié)點(diǎn); P(Si) 表示屬性節(jié)點(diǎn)的先驗(yàn)概率。為了選擇出最合適的防護(hù)策略,需要構(gòu)建合理的目標(biāo)函數(shù)。防護(hù)策略的防護(hù)成本計(jì)算公式如式(5)所示。
COSTi=ωi×νalue×100, (5)式中: COSTi 表示防護(hù)成本; ωi 表示防護(hù)策略的歸一化權(quán)重; value 表示資產(chǎn)價(jià)值。此時(shí)防護(hù)策略的有效性如式(6)所示。
式中: C(Mi) 表示防護(hù)策略 Mi 的效益; n 表示屬性節(jié)點(diǎn)的數(shù)量。而對(duì)于網(wǎng)絡(luò)攻擊而言,屬性節(jié)點(diǎn)受到攻擊后可獲得的收益如式(7)所示。
AG(Si)=p(Si)×νalue,
式中: :AG(Si) 表示屬性節(jié)點(diǎn)受到攻擊后可獲得的收益此時(shí),在防護(hù)策略啟動(dòng)后,攻擊可獲得的收益如式(8)所示。
式中: s 表示屬性節(jié)點(diǎn)的集合: AG(Si|M) 表示在防護(hù)策略下,攻擊屬性節(jié)點(diǎn)可得的收益; .AG(M) 表示在防護(hù)策略下攻擊可獲得的總收益。防護(hù)成本 攻擊收益目標(biāo)函數(shù)如式(9)所示。
,(9)式中: C(M) 表示防護(hù)策略 M 總效益;8表示攻擊收益的偏好權(quán)重; B 表示防護(hù)總成本的約束。
1.2基于QPSO的防護(hù)策略選擇算法
通過(guò)研究構(gòu)建的目標(biāo)函數(shù)雖然能選擇出合適的防護(hù)策略,但由于目標(biāo)函數(shù)求解難度較大,因此難以尋找出最優(yōu)的防護(hù)策略。而PSO算法可以實(shí)現(xiàn)對(duì)防護(hù)成本-攻擊收益目標(biāo)函數(shù)求解。PSO算法的粒子位置及速度如式(10)所示。
式中: Xi 表示粒子的位置; Xid 表示第 i 個(gè)粒子在 d 維中的位置; Vi 表示粒子的速度; Vid 表示第 i 個(gè)粒子在d 維中的速度; N 表示粒子數(shù)量; d 表示維度。粒子的位置和速度更新公式如式(11)所示。
式中: Xidt 表示在 χt 時(shí)刻粒子 d 維中的位置; Xidt+1 表示 t+ 1時(shí)刻粒子在 d 維中的位置; Vidt 表示 χt 時(shí)刻粒子在 d (204維中的速度; Vidt+1 表示 t+1 時(shí)刻粒子在 d 維中的速度;w 表示慣性權(quán)重; LP 表示自學(xué)習(xí)因子; Pidt 表示 χt 時(shí)刻 d 維中的局部最優(yōu)粒子; Lb 表示全局學(xué)習(xí)因子; GPidt 表示 χt 時(shí)刻 d 維中的全局最優(yōu)粒子。通過(guò)PSO算法雖然能實(shí)現(xiàn)目標(biāo)方程的求解,但其存在容易陷入局部最優(yōu)的問(wèn)題[7-8。因此為了避免陷入局部最優(yōu),研究提出利用Q學(xué)習(xí)對(duì)PSO算法進(jìn)行優(yōu)化。Q表的更新公式如式(12)所示。
式中: Q(stt+1,att+1) 表示更新后的 Q 值; α 表示學(xué)習(xí)率;stt 表示 χt 時(shí)刻的狀態(tài); att 表示 χt 時(shí)刻的行動(dòng); R(stt,att) 表示由狀態(tài)和行動(dòng)產(chǎn)生的獎(jiǎng)勵(lì); γ 表示折扣系數(shù)。PSO算法的空間狀態(tài)判定準(zhǔn)則見(jiàn)表2。
注: Rd 表示任意粒子與最優(yōu)粒子的相對(duì)距離; 表示搜索空間的大??; Rf 表示相對(duì)適應(yīng)度;
表示全局最優(yōu)與全局最差粒子的適應(yīng)度差值。
對(duì)于動(dòng)作而言,慣性權(quán)重、自學(xué)習(xí)因子和全局學(xué)習(xí)因子對(duì)其具有顯著影響。而QPSO算法會(huì)根據(jù)空間狀態(tài)選擇對(duì)應(yīng)的動(dòng)作,并根據(jù)粒子的適應(yīng)度值決定是進(jìn)行獎(jiǎng)勵(lì)還是懲罰。獎(jiǎng)勵(lì)函數(shù)如式(13)所示。
式中: R 表示獎(jiǎng)勵(lì); state 表示狀態(tài)。將QPSO算法與前一節(jié)中構(gòu)建的工控系統(tǒng)安全風(fēng)險(xiǎn)評(píng)估方法結(jié)合即可得到工控系統(tǒng)安全防護(hù)策略選擇模型?;赒PSO的工控系統(tǒng)安全防護(hù)策略選擇模型如圖1所示。
由圖1可知,首先進(jìn)行資產(chǎn)估計(jì)和漏洞掃描,并根據(jù)上述結(jié)果生成貝葉斯攻擊圖,然后對(duì)屬性節(jié)點(diǎn)漏洞被利用的概率進(jìn)行計(jì)算。接著根據(jù)漏洞利用概率對(duì)屬性節(jié)點(diǎn)受到攻擊的先驗(yàn)概率進(jìn)行計(jì)算。此外,在計(jì)算得到漏洞利用概率后,將其與防護(hù)成本和攻擊收益結(jié)合,構(gòu)建目標(biāo)函數(shù)。最后,利用QPSO算法對(duì)目標(biāo)函數(shù)進(jìn)行尋優(yōu),以得到最優(yōu)解。
2安全防護(hù)策略選擇結(jié)果分析
為了探究研究提出的工控系統(tǒng)安全防護(hù)策略選擇模型的性能,研究以水分配系統(tǒng)為例,對(duì)其進(jìn)行了測(cè)試。實(shí)驗(yàn)中用于生成攻擊圖環(huán)境的虛擬機(jī)為Ubuntu 20.04.1 LTS,CPU 為 Intel Core i5-6200U2.3GHZ ,內(nèi)存為32GB,運(yùn)行環(huán)境為MATLAB。QPSO算法的適應(yīng)度參數(shù)為0.5,防護(hù)總成本無(wú)上限。各屬性節(jié)點(diǎn)的先驗(yàn)概率計(jì)算結(jié)果見(jiàn)表3。
由表3可知,屬性節(jié)點(diǎn)11的先驗(yàn)概率最大,為1.00,這表明屬性節(jié)點(diǎn)11幾乎一定會(huì)被攻擊利用。屬性節(jié)點(diǎn)13的先驗(yàn)概率最小,為0.30。表3中各屬性節(jié)點(diǎn)的平均先驗(yàn)概率為0.59。上述結(jié)果表明,各屬性節(jié)點(diǎn)被攻擊成功利用的概率整體較高。各防護(hù)策略的防護(hù)成本及其對(duì)漏洞利用的影響見(jiàn)表4。
由表4可知,就防護(hù)成本而言,彌補(bǔ)編程邏輯控制器的漏洞的防護(hù)成本最低,僅為10。禁用執(zhí)行代碼的防護(hù)成本最高,為28。就對(duì)漏洞利用的影響而言,禁用網(wǎng)絡(luò)服務(wù)對(duì)其影響最大,為0.46。斷開(kāi)主機(jī)網(wǎng)絡(luò)對(duì)漏洞利用的影響最低,為 0.16?c ??梢?jiàn),彌補(bǔ)編程邏輯控制器的漏洞的防護(hù)收益最高。為了進(jìn)一步驗(yàn)證研究提出的防護(hù)策略選擇模型的性能,研究將其與基于PSO的防護(hù)策略選擇模型和基于貝葉斯攻擊圖的最優(yōu)防護(hù)策略選擇(Hardening Measures Selection based onBayesian Attack Graphs,HMSBAG)模型進(jìn)行比較,各算法的收斂曲線如圖2所示。
由圖2可知,PSO在迭代2次后開(kāi)始收斂,HMSBAG在迭代3次后開(kāi)始收斂,但其收斂值均為1.2左右。而QPSO算法雖然在迭代2次后才開(kāi)始收斂,但其收斂值僅為0.7。上述結(jié)果表明,QPSO算法的收斂性優(yōu)于其他算法。各算法的防護(hù)結(jié)果如圖3所示。
由圖3(a)可知,在實(shí)行PSO算法和HMSBAG選擇的防護(hù)策略后,攻擊可獲得的收益分別下降至432.5和398.7。而在實(shí)行QPSO算法選擇的防護(hù)策略時(shí),攻擊收益下降至 325.6 由圖3(b)可知,PSO算法、HMSBAG和QPSO算法選擇的防護(hù)策略的防護(hù)成本分別為 48.8、42.3 和29.9,其QPSO算法的防護(hù)成本低于其他算法。上述結(jié)果表明,研究提出的基于QPSO的安全防護(hù)策略選擇模型能實(shí)現(xiàn)對(duì)最優(yōu)防護(hù)策略的選擇,有效降低攻擊收益。
3結(jié)論
為了實(shí)現(xiàn)工控系統(tǒng)網(wǎng)絡(luò)安全的防護(hù),研究提出了基于QPSO算法的防護(hù)策略選擇模型,并以水分配系統(tǒng)為例進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果顯示,在眾多防護(hù)策略中,彌補(bǔ)編程邏輯控制器的漏洞的防護(hù)成本最低,僅為10;且其對(duì)漏洞影響的程度較大,為0.45。在實(shí)行QPSO算法選擇的防護(hù)策略時(shí),攻擊收益下降至325.6,顯著低于其他算法,并且QPSO算法在迭代2次后的攻擊收益就低于其他算法。上述結(jié)果表明,研究提出的基于QPSO算法的防護(hù)策略選擇模型能準(zhǔn)確選擇最優(yōu)的防護(hù)策略。但由于研究在對(duì)工控系統(tǒng)的漏洞進(jìn)行掃描時(shí),選擇的掃描工具具有局限性,無(wú)法完全涵蓋所有漏洞。因此,未來(lái)研究將對(duì)如何實(shí)現(xiàn)工控系統(tǒng)漏洞掃描的完全覆蓋進(jìn)行探索。
參考文獻(xiàn):
[1]宋晶,刁潤(rùn),周杰,等.工業(yè)控制系統(tǒng)功能安全和信息安全策略優(yōu)化方法[J].信息網(wǎng)絡(luò)安全,2022,22(11):68-76.
[13]BU Q,MING X,HUJ,et al.TransferSense:towardsenvironment independent and one -shot wifi sensing [J].Personal and Ubiquitous Computing,2022:1-19.
[14] KHAN M A A H,ROY N. Cross-Domain Unseen Activ-ityRecognition Using Transfer Learning [C]//2O22 IEEE46th Annual Computers,Software,andApplications Con-ference(COMPSAC). IEEE,2022:684-693.
[15] SHI Z,ZHANG JA,XU Y D R,et al. Environment-robust device-free human activity recognition with chan-nel-state -information enhancement and one -shot learning[J].IEEE Transactions on Mobile Computing,2020.
[16]MA X,ZHAO Y,ZHANG L,et al.Practical device-freegesture recognition using wifi signals based on metalearn-ing[J].IEEETransactionson IndustrialInformatics,2019,16(1):228-237.
[17]胡中源,薛羽,查加杰.演化循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)科學(xué),2023,50(3):254-265.
[18]WOO S,PARKJ,LEEJY,et al.Cbam:Convolutionalblock attention module [C].Proceedings of the Europeanconference on computer vision (ECCV),2018:3-19.
[19]KOLESNIKOV A,BEYER L,ZHAI X,et al.Bigtrans-fer(bit):General visual representation learning[C]//Com-puter Vision -ECCV 202O:16th Eu ropean Conference,Glasgow,UK,August 23-28,2020,Proceedings,PartV16.Springer International Publishing,2020:491-507.
[2]李軍.基于關(guān)聯(lián)規(guī)則的工業(yè)控制系統(tǒng)運(yùn)維數(shù)據(jù)挖掘方法[J].微型電腦應(yīng)用,2023,39(9):167-170.
[3]馬標(biāo),金映言,那幸儀,等.工業(yè)控制系統(tǒng)入侵檢測(cè)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(5):10-18.
[4]康琳琳.基于態(tài)勢(shì)感知的工業(yè)信息安全系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]冶金自動(dòng)化,2022,46(1):241-246.
[5]丁朝暉,張偉,楊國(guó)玉,等.工業(yè)控制系統(tǒng)網(wǎng)絡(luò)攻擊預(yù)測(cè)技術(shù)研究[J]電子技術(shù)應(yīng)用,2023,49(1):86-90.
[6]唐鶴,李偉,周俊宇.一種小波神經(jīng)網(wǎng)絡(luò)的電力短期負(fù)荷模型研究[J].微型電腦應(yīng)用,2023,39(9):115-118.
[7]楊悅,王丹,胡博,等.基于改進(jìn)多智能體Q學(xué)習(xí)的多源最優(yōu)聯(lián)合調(diào)頻控制策略研究[J].電力系統(tǒng)保護(hù)與控制,2022,50(7):135-144.
[8]高思華,顧晗,賀懷清,等.基于深度Q學(xué)習(xí)的無(wú)線傳感器網(wǎng)絡(luò)目標(biāo)覆蓋問(wèn)題算法[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2023,61(6):1432-1440.