洪 超,施宇鋒,匡曉云,許愛東,張宇南
(1.南方電網(wǎng)科學(xué)研究院有限責(zé)任公司,廣東 廣州 510663;2.浙江騰瓏網(wǎng)安科技有限公司,浙江 杭州 311225)
智能電網(wǎng)是關(guān)鍵信息基礎(chǔ)設(shè)施。因此,智能電網(wǎng)監(jiān)控系統(tǒng)攻防研究具有十分重要的戰(zhàn)略意義和現(xiàn)實(shí)意義。
近年來,智能電網(wǎng)網(wǎng)絡(luò)安全事件頻發(fā),黑客或敵對(duì)勢力利用智能電網(wǎng)中工藝、參數(shù)以及操作等漏洞,攻擊電網(wǎng)物理生產(chǎn)裝置并導(dǎo)致電網(wǎng)癱瘓[1]。2015年,烏克蘭電力系統(tǒng)遭受BlackEnergy攻擊,導(dǎo)致大面積停電、約140萬人受到影響[2]。2016年,Industroyer病毒利用電力協(xié)議實(shí)現(xiàn)對(duì)斷路器的控制,使得電網(wǎng)級(jí)聯(lián)故障,甚至造成設(shè)備損壞[3]。文獻(xiàn)[4]提出通過挖掘IEC 61850協(xié)議脆弱性,可以實(shí)現(xiàn)電網(wǎng)攻擊。雖然針對(duì)智能電網(wǎng)攻擊事件的研究已經(jīng)有很多,但是使用博弈理論和策略方法對(duì)智能電網(wǎng)的攻防研究很少。
博弈論是研究多個(gè)個(gè)體或團(tuán)隊(duì)之間在特定條件制約下尋求最優(yōu)策略的理論,廣泛應(yīng)用于網(wǎng)絡(luò)安全攻防行為策略研究。文獻(xiàn)[5]構(gòu)建基于Q學(xué)習(xí)算法的網(wǎng)絡(luò)狀態(tài)轉(zhuǎn)移與演化博弈方法,以有效識(shí)別電網(wǎng)調(diào)度網(wǎng)絡(luò)安全態(tài)勢感知。文獻(xiàn)[6]針對(duì)智能電網(wǎng)信息和物理博弈,提出了一種貝葉斯序貫博弈模型,根據(jù)序貫博弈樹得到博弈雙方攻擊者的最優(yōu)攻擊策略和防護(hù)者的最優(yōu)防護(hù)策略。文獻(xiàn)[7]提出三角模糊數(shù)的博弈算法,以提高網(wǎng)絡(luò)攻防評(píng)估結(jié)果的準(zhǔn)確性和有效性。
本文研究智能電網(wǎng)工控網(wǎng)絡(luò)安全博弈時(shí),針對(duì)博弈雙方網(wǎng)絡(luò)安全屬性難以用精確數(shù)值表示的問題,提出了一種將三角模糊數(shù)應(yīng)用到序貫博弈的算法,得到智能電網(wǎng)網(wǎng)絡(luò)安全攻防雙方最優(yōu)攻防策略,從而保障智能電網(wǎng)網(wǎng)絡(luò)安全運(yùn)行和防護(hù)。首先,本文結(jié)合智能電網(wǎng)網(wǎng)絡(luò)攻防雙方特點(diǎn),構(gòu)建網(wǎng)絡(luò)攻防輪流策略的序貫博弈模型。接著,本文采用三角模糊數(shù)攻防效用權(quán)益方法對(duì)網(wǎng)絡(luò)安全屬性進(jìn)行模糊化處理,從而得到序貫博弈最優(yōu)攻防策略。最后,本文對(duì)智能電網(wǎng)網(wǎng)絡(luò)安全博弈進(jìn)行仿真試驗(yàn),驗(yàn)證了模型和算法的準(zhǔn)確性及有效性。
智能電網(wǎng)由數(shù)據(jù)采集和監(jiān)控、遠(yuǎn)程終端、繼電保護(hù)裝置、故障錄波以及一次設(shè)備等組成,實(shí)現(xiàn)對(duì)電網(wǎng)遙測、遙信、遙控、遙調(diào)等調(diào)度和電力輸送。當(dāng)前,由電網(wǎng)工控網(wǎng)絡(luò)脆弱性引起的惡意事件越來越多,但對(duì)智能電網(wǎng)攻擊和對(duì)應(yīng)的防護(hù)策略研究較少。因此,使用博弈理論分析智能電網(wǎng)安全以及電網(wǎng)攻防策略的研究具有創(chuàng)新意義。智能電網(wǎng)博弈由攻擊者、防御者、安全防御機(jī)制等組成。攻擊者和防御者根據(jù)電網(wǎng)變化調(diào)整自身的策略,選擇對(duì)自身收益最大的策略進(jìn)行博弈。智能電網(wǎng)安全博弈如圖1所示。
圖1 智能電網(wǎng)安全博弈圖
智能電網(wǎng)通過序貫博弈進(jìn)行攻擊和防御博弈。其中:Ua、Ud分別為攻擊者和防御者功效收益集;ai、dj分別為攻擊者、防御者策略。
博弈模型是一個(gè)四元組G=
。博弈雙方參與者集為P=(Pa,Pd)。其中:Pa為攻擊者;Pd為防御者。攻防動(dòng)作集為A=(Aa,Ad)。攻擊動(dòng)作集為Aa=a1,a2,…,ai;防御動(dòng)作集為Ad=d1,d2,…,dj。博弈雙方攻擊者和防御者全部策略集為S=(Sa,Sd)。博弈雙方攻擊者和防御者獲得功效收益集為U=(Ua,Ud)。攻擊者和防御者策略收益不同。
①系統(tǒng)損失(system damage,SD)指博弈雙方攻防對(duì)目標(biāo)系統(tǒng)資源造成的損害程度,通常由可用性A′a、完整性Ia、機(jī)密性Ca組成。
(1)
式中:ρe為被攻擊者利用概率的屬性;ωa、ωi、ωc分別為可用性、完整性、機(jī)密性屬性的代價(jià)權(quán)重系數(shù),ωa+ωi+ωc=1;m為攻擊數(shù)量;Sd為SD;d為博弈樹深度。
②攻擊成本(attack cost,AC)指攻擊者為發(fā)現(xiàn)和利用攻擊需要消耗的成本。不同水平的攻擊者使用同一資源消耗的成本不同。攻擊成本Ac主要是攻擊操作成本Ao。
Ac(a)=Ao(a)
(2)
③防護(hù)成本(defence cost,DC)指目標(biāo)系統(tǒng)受到攻擊采取的防護(hù)策略需要消耗的成本。防護(hù)成本Dc主要是防護(hù)操作成本Do。
Dc(d)=Do(d)
(3)
④攻擊效用(attack effect,AE)指攻擊者對(duì)目標(biāo)系統(tǒng)造成的損害程度。攻擊效用Ua(a)為:
Ua(a)=Sd(a)+Ac(a)
(4)
⑤防護(hù)效用(defence reward,DR)指目標(biāo)系統(tǒng)遇到攻擊時(shí)采取的防護(hù)策略獲得的收益。防護(hù)效用Ud(d)為:
Ud(d)=Sd(a)+Dc(d)
(5)
智能電網(wǎng)安全博弈是攻擊者和防御者之間的雙人博弈。博弈參與者決策有先有后。后決策的參與者知道先決策的參與者做出的決策。這種決策稱為序貫博弈。攻擊者和防御者之間輪流選擇策略,可以用博弈樹表示。
序貫博弈攻擊效用Ua(a)和防護(hù)效用Ud(d)是系統(tǒng)損失Sd加上攻擊者或防御者收益。
(6)
序貫博弈雙方攻擊者和防御者策略集合為S′=(A′a,A′d)。
由于序貫博弈攻擊者和防御者輪流采取策略,當(dāng)攻擊者策略為A′a且博弈方為攻擊者時(shí),博弈行為收益是博弈樹深度d乘以攻擊者成本;當(dāng)博弈方為防御者時(shí),博弈行為收益為負(fù)的博弈樹深度d乘以防御者成本;當(dāng)防御者策略為A′d且博弈方為攻擊者時(shí),博弈行為收益是0;當(dāng)博弈方為防御者時(shí),博弈行為收益為博弈樹深度d乘以防御者成本。
納什均衡存在性為:博弈四元組G=
有n個(gè)博弈方,如果n有限,則每個(gè)博弈方策略集合Si有限。該博弈至少有一個(gè)納什均衡,而且不是純策略納什均衡就是混合策略納什均衡[6,8]。
因此,智能電網(wǎng)博弈可以用攻擊者和防御者的概率來確定納什均衡解,并確定攻擊者和防御者的類型。
攻擊者和防御者的攻防雙方SD很難用確定的計(jì)算式計(jì)算,因此,本文引入三角模糊數(shù)的方法。本文通過攻防雙方的網(wǎng)絡(luò)安全屬性值來獲得三角模糊數(shù),進(jìn)而非模糊化確定SD。
三角模糊數(shù)為M(l,m′,u)(0 (7) 式中:m′為三角模糊數(shù)M的主值;l為三角模糊數(shù)M的下界;u為三角模糊數(shù)M的上界。 三角模糊數(shù)M的下限為(m′-l)、上限為(m′-u)。(u-l)的值越大,則表示三角模糊數(shù)M的模糊程度越大。在網(wǎng)絡(luò)攻防環(huán)境下,三角模糊數(shù)上界u和下界l分別表示攻防參與者對(duì)收益的最大可能值和最小可能值,則m′為最可能值。 p=(pl,pm′,pu)用于表示三角模糊數(shù)M的概率。本文根據(jù)l、u與m′的偏離程度,確定m′的可能性,即m′的可能性為l的倍數(shù)N。同時(shí),m′的可能性為u的倍數(shù)。三角模糊數(shù)概率為pl、pm′、pu。 (8) 式中:pl+pm′+pu=1,pl>0,pm′>0,pu>0。 序貫博弈攻防SD使用三角模糊數(shù)轉(zhuǎn)化為非模糊化的三角模糊數(shù)M的均值來表示。由M的概率可得均值E(M)。 E(M)=pl×l+pm′×m′+pu×u (9) 序貫博弈各方的決策不是同時(shí)進(jìn)行,而是按一定順序選擇戰(zhàn)略,并實(shí)施最優(yōu)策略。因此,本文序貫博弈基于博弈樹由攻防雙方依次輪流采取策略。攻防雙方先后采取一次行動(dòng)后,用所構(gòu)成的一組新的子博弈來計(jì)算。計(jì)算方法采用博弈樹逆向歸納法。序貫博弈數(shù)值可以用攻防效用(即系統(tǒng)損失Sd加上攻擊者或防御者收益)求得。 三角模糊數(shù)序貫博弈算法步驟如下。 ①初始化。 本文初始化可用性、完整性、機(jī)密性的權(quán)值ωa、ωi、ωc。同時(shí),博弈樹攻擊者和防御者效用初始化為(0,0)。 ②建立序貫博弈樹。 根據(jù)序貫博弈四元組G= 建立博弈樹。每個(gè)博弈樹深度決策節(jié)點(diǎn)依次表示攻擊者和防御者。每個(gè)決策節(jié)點(diǎn)分支表示攻擊者或防御者的策略。d≥0。 ③建立三角模糊數(shù)和非模糊均值。 根據(jù)式(7)~式(9),計(jì)算三角模糊數(shù)、模糊概率分布和非模糊數(shù)均值,確定系統(tǒng)損失Sd值。 ④建立序貫博弈攻擊者或防御者效用。 以清晰化的均值作為SD,加上攻擊者或防御者行為收益,求得博弈樹的每個(gè)節(jié)點(diǎn)的效用。前者為攻擊者的效用。后者為防御者的效用。 ⑤迭代。 代碼如下。 fori=0;i≤d;i++;do if決策節(jié)點(diǎn)為攻擊者輪次then比較后續(xù)分支的攻擊者的效用,保留攻擊者效用較大的行為為策略; end if if決策節(jié)點(diǎn)為防御者輪次then比較后續(xù)分支的防御者的效用,保留防御者效用較大的行為為策略; end if end for。 隨著電網(wǎng)工控系統(tǒng)網(wǎng)絡(luò)安全威脅日益突出,電網(wǎng)數(shù)據(jù)采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)、遠(yuǎn)程終端、繼電保護(hù)裝置等控制器的公用/私用協(xié)議和漏洞機(jī)理都有可能誘發(fā)攻擊行為。若同時(shí)結(jié)合工藝業(yè)務(wù)場景脆弱性以及工藝互鎖等,可能使得電網(wǎng)負(fù)荷切投潮流、電壓/電流數(shù)據(jù)值變化、斷路器/刀閘合閘/跳閘動(dòng)作以及狀態(tài)變位等,從而造成電網(wǎng)臨界狀態(tài)轉(zhuǎn)變、電網(wǎng)設(shè)備癱瘓、設(shè)備損毀[9-10]。為了驗(yàn)證本文提出的三角模糊數(shù)序貫博弈模型和算法的有效性,本文以智能電網(wǎng)網(wǎng)絡(luò)安全模型進(jìn)行驗(yàn)證。 通過三角模糊數(shù)序貫博弈對(duì)智能電網(wǎng)進(jìn)行攻擊者和防御者策略分析,建立攻防雙方行動(dòng)空間。其中,電網(wǎng)網(wǎng)絡(luò)攻擊者使用遙信欺騙(ars)、控制接管(arc)、工藝互鎖(ate)等策略,不攻擊策略為ano;電網(wǎng)網(wǎng)絡(luò)防御者采取工控威脅感知策略(dtp),不防御者策略為dno。本文設(shè)智能電網(wǎng)網(wǎng)絡(luò)攻擊者AC為ars=3、arc=5、ate=60、ano=0;防御者行動(dòng)的DC為dtp=4、dno=0。 三角模糊數(shù)序貫博弈雙方首先采取攻擊者策略,然后使用防御者策略依次輪流行動(dòng),最后采用數(shù)值算法進(jìn)行攻防雙方效用分析。其中:三角模糊數(shù)序貫博弈樹攻擊者為實(shí)心圓;防御者為空心圓;博弈樹根節(jié)點(diǎn)攻防效用初始化為(0,0)。博弈樹高度0層為攻擊者,左側(cè)為ars,右側(cè)為ano;高度1層為防御者,即dtp和dno;高度2層為攻擊者,即ate和arc。本文根據(jù)智能電網(wǎng)序貫博弈樹,通過三角模糊數(shù)式(7)~式(9)和表1進(jìn)行攻防效用計(jì)算。 表1 攻防損失效用 本文智能電網(wǎng)的Sd用安全屬性表示,包括可用性、保密性和完整性。其安全屬性權(quán)重為ωa=0.3、ωi=0.4、ωc=0.3。由于智能電網(wǎng)的Sd很難用精確數(shù)值表示,因此用三角模糊數(shù)來表示智能電網(wǎng)SD,以求得攻防效用。每個(gè)安全屬性都規(guī)定了影響級(jí),分別為嚴(yán)重(30~20)、中等(19~10)、輕微(9~0)。不攻擊或不防御時(shí)攻防效用為零。計(jì)算得到的攻擊模糊化攻防效用值,可使用嚴(yán)重、中等、輕微表示。智能電網(wǎng)的攻防損失效用如表1所示。 表2 攻擊者去模糊化的攻防效用 依據(jù)去模糊化均值得到Sd,由式(6)可得攻防序貫博弈中的攻擊者效用Ua(a)和防御者效用Ud(d),即(Ua,Ud)。攻防效用如表3所示。 表3 攻防效用 智能電網(wǎng)三角模糊數(shù)序貫博弈和貝葉斯序貫博弈,即用逆向歸納法從最后一個(gè)決策點(diǎn)開始,找到第一個(gè)決策點(diǎn)的最優(yōu)行動(dòng)選擇和路徑,并依次找到攻防雙方最優(yōu)決策。智能電網(wǎng)攻防序貫博弈樹如圖2所示。 圖2 智能電網(wǎng)攻防序貫博弈樹 圖2中,序貫博弈樹有三層:第一層由攻擊者ars和ano進(jìn)行博弈;第二層由防御者dtp和dno進(jìn)行博弈;第三層由攻擊者ate和arc進(jìn)行博弈。 首先,最后決策是攻擊者輪次:左側(cè)攻擊者效用為ate和45.83、arc和35、ate和39.83、arc和30.17,則左側(cè)攻擊者最優(yōu)策略和效用是ate和45.83;右側(cè)攻擊者最優(yōu)策略和效用是ate和43.17。 其次,博弈樹深度1是防御者輪次:左側(cè)防御者最優(yōu)策略和效用是dtp和9.83;右側(cè)防御者最優(yōu)策略和效用是dtp和7.17。 最后,博弈樹深度0是攻擊者輪次:左側(cè)攻擊者最優(yōu)策略和效用是ars和45.83;右側(cè)攻擊者最優(yōu)策略和效用是ano和43.17。因此,攻擊者最優(yōu)效用為45.83。 本文基于貝葉斯序貫博弈模型對(duì)智能電網(wǎng)網(wǎng)絡(luò)安全進(jìn)行博弈和均衡策略分析[6]。智能電網(wǎng)攻防貝葉斯序貫博弈樹如圖3所示。 圖3 智能電網(wǎng)攻防貝葉斯序貫博弈樹 通過序貫博弈算法得到攻擊者博弈樹深度為2時(shí):左側(cè)攻擊者效用為ate和21、arc和18,則左側(cè)攻擊者最優(yōu)策略和效用是ate和21;右側(cè)攻擊者最優(yōu)策略和效用為ate和18。防御者博弈樹深度為1時(shí):左側(cè)防御者最優(yōu)策略和效用是dtp和-211;右側(cè)防御者最優(yōu)策略和效用是dtp和-208。攻擊者博弈樹高度為0時(shí):左側(cè)攻擊者最優(yōu)策略和效用是ars和21;右側(cè)攻擊者最優(yōu)策略和效用是ate和18。 綜上所述,智能電網(wǎng)安全三角模糊序貫博弈均衡路徑攻擊者的最優(yōu)策略是ars和ate,防御者的最優(yōu)策略是dtp;基于貝葉斯序貫博弈最優(yōu)策略攻擊者是ars和ate,防御者是dtp。引入三角模糊序貫博弈對(duì)智能電網(wǎng)進(jìn)行攻防判定和攻防效用,使得均衡路徑和最優(yōu)策略優(yōu)于貝葉斯序貫博弈。 本文針對(duì)智能電網(wǎng)中的工藝流程、工藝參數(shù)等脆弱性引起的物理生產(chǎn)裝置、對(duì)象損毀等現(xiàn)象,將三角模糊數(shù)理論引入序貫博弈分析模型,解決了難以用精確數(shù)值表示攻防雙方損益值的問題,為智能電網(wǎng)攻防策略提供了決策分析方法。首先,本文通過序貫博弈模型研究了SD、攻擊者成本、防御者成本以及攻防效用。其次,本文通過三角模糊數(shù)形式和概率分布為網(wǎng)絡(luò)攻防博弈SD的判定奠定了基礎(chǔ)。試驗(yàn)結(jié)果表明,智能電網(wǎng)序貫博弈和均衡路徑獲得了攻防雙方最優(yōu)攻擊策略和最優(yōu)防御策略,對(duì)實(shí)際電網(wǎng)安全防護(hù)具有一定的指導(dǎo)意義。2 三角模糊數(shù)序貫博弈算法
3 工控安全三角模糊數(shù)序貫博弈仿真
4 結(jié)論