畢文婷,林海濤,張立群
(海軍工程大學電子工程學院,武漢 430033)
近年來,隨著人工智能、大數(shù)據(jù)、5G 通信等新興技術(shù)的發(fā)展,互聯(lián)網(wǎng)面臨的威脅日益增加。隨著當前生產(chǎn)和生活對網(wǎng)絡(luò)依賴性的增強,網(wǎng)絡(luò)攻擊的數(shù)量仍在不斷攀升且類型也越來越多樣化[1]。傳統(tǒng)靜態(tài)被動防御手段如入侵檢測系統(tǒng)(Intrusion Detection System,IDS)、入侵防御系統(tǒng)(Intrusion Prevention System,IPS)等在面對各種潛在不可預知的攻擊時略顯不足,因此需要一種能夠?qū)シ佬袨檫M行分析且對防御策略進行選取的技術(shù),從而實施主動防御。
博弈論[2-3]是一種研究在一定的條件和規(guī)則制約下,對局雙方根據(jù)有限的信息和自身傾向行為進行策略選擇的理論方法。攻防雙方依靠所掌握的信息進而選取最優(yōu)的攻防策略恰好是網(wǎng)絡(luò)攻防對抗的思想。因此,網(wǎng)絡(luò)攻防對抗的本質(zhì)與博弈論特點相吻合,將博弈論思想應(yīng)用到網(wǎng)絡(luò)安全防御中,為網(wǎng)絡(luò)攻防環(huán)境下防御策略選取的安全問題提供了新的思路。
移動目標防御(Moving Target Defense,MTD)是由美國國家科學技術(shù)委員會于2011 發(fā)布的《可信網(wǎng)絡(luò)空間:聯(lián)邦網(wǎng)絡(luò)安全研發(fā)戰(zhàn)略規(guī)劃》中作為“改變游戲規(guī)則”的動態(tài)主動防御技術(shù)提出的[4]。作為一種新的主動防御思想,MTD 主要通過部署多樣化的動態(tài)機制和策略,從而降低系統(tǒng)的同構(gòu)性、靜態(tài)性和確定性,使攻擊者的攻擊難度和成本大幅提升,直至放棄攻擊。隨著網(wǎng)絡(luò)攻擊手段越來越復雜多變,將MTD應(yīng)用于防御策略選擇中對維護網(wǎng)絡(luò)空間安全具有重要意義。
近年來,國內(nèi)外已有學者開始了相關(guān)技術(shù)研究。Lye等[5]提出了完全信息靜態(tài)博弈模型分析攻擊者和防御者的最優(yōu)策略及納什均衡,但攻防收益函數(shù)量化過于簡單;林旺群等[6]構(gòu)建了一種完全信息動態(tài)博弈主動防御模型,并將攻防分析模式由網(wǎng)絡(luò)攻擊圖轉(zhuǎn)換為網(wǎng)絡(luò)博弈樹,但該模型并沒有給出詳細的策略選取算法;文獻[7]中基于完全信息非合作零和博弈建立了一個矩陣型攻防博弈模型,并設(shè)計了相應(yīng)的策略選取算法,但刪掉其靜態(tài)模型的限制不能有效應(yīng)用于動態(tài)對抗場景;王元卓等[8]建立了Petri 網(wǎng)的完全信息博弈模型并進行網(wǎng)絡(luò)安全評估,但由于博弈雙方的收益情況并不是互相透明公開的,所以完全信息假設(shè)前提不滿足實際網(wǎng)絡(luò)的攻防情況。針對上述問題,部分學者開始引入不完全信息博弈理論,例如:Baras 等[9]提出了利用不完全信息的重復博弈理論尋找非法節(jié)點;王增光等[10]基于軍事信息網(wǎng)絡(luò)背景,提出了不完全信息博弈攻防決策方法;弭乾坤等[11]構(gòu)建了用于網(wǎng)絡(luò)系統(tǒng)風險評估的不完全信息博弈模型;Lei 等[12]提出了一種基于移動目標防御的不完全信息攻防Markov 博弈決策模型,通過納什均衡求解實現(xiàn)最優(yōu)策略抉擇;文獻[22]中利用信號博弈構(gòu)建了移動目標防御決策模型,增強了網(wǎng)絡(luò)防御效能。上述研究都是基于攻擊者和防御者都是完全理性的,博弈雙方都知道如何實現(xiàn)他們的收益最大化,然而在實際網(wǎng)絡(luò)的攻防行為中,各種其他因素也可能會影響雙方的決策,因此忽視有限理性可能會導致攻防行為建模與分析出現(xiàn)偏差,影響最優(yōu)防御策略選擇方法的科學性和指導性。
綜上所述,博弈論和MTD 在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用已經(jīng)初見成效[13-16],但還缺乏系統(tǒng)化的理論研究方法。為突破這一局限性,本文將MTD 策略與博弈論相結(jié)合,提出一種動態(tài)演化信號博弈模型,以防御方主動發(fā)出誘導信號對攻擊方進行戰(zhàn)略干擾,從而達到主動防御目的。其次,博弈雙方通過學習和進化機制進行重復博弈突破了傳統(tǒng)博弈有限理性約束,本文利用復制動態(tài)方程分析多種攻擊方式下攻防雙方策略的演化趨勢,并貼合網(wǎng)絡(luò)攻防實際將單階段博弈狀態(tài)拓展至多階段博弈,設(shè)計了多階段演化信號博弈模型的移動目標防御決策算法,為網(wǎng)絡(luò)安全防御決策提供一定指導作用。
MTD 技術(shù)是美國高度重視的“改變游戲規(guī)則”的網(wǎng)絡(luò)空間革命性技術(shù)之一。與傳統(tǒng)網(wǎng)絡(luò)安全研究思路不同,MTD的思路是通過構(gòu)建動態(tài)的、異構(gòu)的、不確定的網(wǎng)絡(luò)以增加攻擊者的攻擊難度及代價,以這種不斷變化的部署機制增加了系統(tǒng)的隨機性,提高了系統(tǒng)彈性,減少了攻擊機會。MTD 技術(shù)反映了美軍將靜態(tài)的“死”網(wǎng)絡(luò)改造成變化的“活”網(wǎng)絡(luò)的下一代網(wǎng)絡(luò)安全防御發(fā)展模式,因此MTD 相較于傳統(tǒng)防御技術(shù)的優(yōu)勢相當明顯。
初始階段,防御者擁有對攻擊者類型的先驗知識,防御者先釋放最佳誘導信號,信號類型與防御者類型相對應(yīng),防御者可以自主選擇發(fā)送真實正常信號或虛假信號,發(fā)送誘導信號的原理是通過部署蜜罐系統(tǒng),將服務(wù)方部署成蜜罐和服務(wù)器兩種類型,利用蜜罐發(fā)送虛假信號對攻擊者進行欺騙,攻擊者根據(jù)掃描收集的網(wǎng)絡(luò)拓撲和防御方的系統(tǒng)信息(誘導信號)選擇最佳攻擊策略并實施,同時防御者實施最佳防御策略。博弈流程如圖1 所示。
圖1 博弈流程Fig.1 Flowchart of game
防御者與攻擊者的博弈順序為:
1)“自然”選擇一種防御者類型,防御者主動釋放干擾信號。
2)攻擊者檢測到防御信號,并判斷信號類型。
3)攻擊者結(jié)合擁有的防御者類型先驗概念,選擇最優(yōu)攻擊策略,并更新對防御者類型后驗概率判斷。
4)防御者觀察到攻擊行為后,選擇最優(yōu)MTD 策略進行防御。
5)循環(huán)以上過程,直至攻擊結(jié)束。
定義1多階段演化信號博弈模型(Muti-Stage Evolutionary Signal Game Model,MSESGM)可以表示為13元組:
1)N={NA,ND}為博弈的參與者集合,其中NA為攻擊者,ND為防御者。
2)T={TA,TD}為博弈的參與者類型集合,其中TA={A1}為攻擊者總體的類型集合,TD={D1,D2,…,Dn}為防御者總體的類型集合,且n∈N+(n≥2),n為防御者類型總數(shù)。
3)λ為段信號博弈的博弈階段總數(shù),G(k)當前博弈階段為k={1,2,…,λ}。
4)SI={SI1,SI2,…,SIγ}為信號策略集合,防御方可根據(jù)情況選擇真假信號發(fā)送,實現(xiàn)對攻擊方的誘導作用。
6)Pk={pk(Dj)|j=1,2,…,n}為博弈中攻擊方對防御方的先驗信念集合,其中每一階段的先驗概率來自于上一博弈階段的后驗概率。
7)={(Dj|SIσ)|j=1,2,…,n;σ=1,2,…,γ}為 攻擊方對防御方的后驗信念集合,其中(Dj|SIσ)表示第k階段攻擊方接收到防御方發(fā)送的誘導信號SIσ時Dj攻擊方概率的后驗判斷。
8)S={S1,S2,…,Sλ}表示各個子博弈的狀態(tài)集合。
11)ρ(0 ≤ρ≤1)為貼現(xiàn)系數(shù),表示未來收益較當前階段收益的折現(xiàn)比例。
12)μ為狀態(tài)轉(zhuǎn)移概率,μij(Sj|Si)表示系統(tǒng)狀態(tài)從Si到Sj的概率。
MTD 技術(shù)通過不斷轉(zhuǎn)移攻擊面從而增加網(wǎng)絡(luò)彈性,使攻擊者無法有效攻擊目標資源達到防御目的。信號博弈是研究如何利用信號來干擾對手判斷從而影響博弈均衡的博弈理論。在多階段進化信號博弈模型中,每一個博弈階段中博弈系統(tǒng)經(jīng)過動態(tài)攻防對抗達到博弈穩(wěn)定狀態(tài),但是網(wǎng)絡(luò)環(huán)境不是一成不變的,隨著系統(tǒng)運行環(huán)境及攻擊目的改變等因素,維持現(xiàn)有的防御策略已經(jīng)不能達到預期效果,導致穩(wěn)定狀態(tài)打破。此時,將上一階段后驗概率作為下一階段攻擊者類型的先驗概率進入下一新階段的信號博弈。經(jīng)過演化達到穩(wěn)定狀態(tài)后,根據(jù)穩(wěn)定數(shù)值利用貝葉斯法則求解后驗概率:若新階段先驗概率與后驗概率一致則求得的穩(wěn)定狀態(tài)才是有效的;否則先驗概率是不準確的,會造成結(jié)果誤差,故需調(diào)整先驗概率。本文引入馬爾可夫決策過程(Markov Decision Process,MDP),利用不同階段網(wǎng)絡(luò)狀態(tài)的隨機跳變,構(gòu)建了多階段演化信號博弈模型對MTD 攻防行為和防御決策進行分析。
攻防雙方的收益量化是決策算法中最關(guān)鍵的部分。量化方法越貼近真實攻防場景對防御決策的指導性越高,但目前學術(shù)界并未對攻防收益量化進行統(tǒng)一化標準制定。
網(wǎng)絡(luò)攻擊的目的就是對目標網(wǎng)絡(luò)造成破壞甚至摧毀,使正常的目標環(huán)境網(wǎng)絡(luò)無法工作。網(wǎng)絡(luò)安全則要保障目標網(wǎng)絡(luò)的保密性、完整性、可用性和可靠性。參考文獻[17],本文量化定義如下:
定義2攻擊成本(Attack Cost,AC):指發(fā)起攻擊行為所付出的代價,包括信息搜集、軟硬件資源和操作成本等。
定義3攻擊收益(Attack Earnings,AE):指攻擊成功時,攻擊方獲得的好處。攻擊收益由直接收益和間接收益兩部分組成:直接受益指對目標網(wǎng)絡(luò)系統(tǒng)的安全屬性造成破壞獲得的直接回報;間接收益指對發(fā)起下一步攻擊目標獲得的間接經(jīng)驗回報。
定義4誘導信號成本(Signal Cost,SC):指防御方發(fā)送誘導信號迷惑攻擊方所付出的代價。
定義5防御成本(Defense Cost,DC):指防御方實行防御行動進行資源保護所付出的代價。
定義6防御收益(Defense Earnings,DE):指保障目標網(wǎng)絡(luò)的安全屬性的價值獲得的回報。攻擊收益由直接收益和間接收益兩部分組成。直接收益指防御方成功保護網(wǎng)絡(luò)資源避免的損失,間接收益指在攻防對抗中獲得攻擊方的相關(guān)知識提高防御成功率的間接收益。
定義7系統(tǒng)損失(System Damage Cost,SYC):指攻擊行為對目標網(wǎng)絡(luò)系統(tǒng)造成的損失。攻擊的目標資產(chǎn)損失可以用攻擊致命度(Attack Lethality,AL)、危險度(Criticality)、安全屬性損害(Safety Damage Cost,SDC)來描述。本文采取DMAT(Defense-oriented Multidimensional Attack Taxonmoy)方法以攻擊目的分類賦予致命度數(shù)值,如表1 所示,攻擊致命度越高,資產(chǎn)受到攻擊時系統(tǒng)損失也越大。安全屬性損害由資產(chǎn)完整性、機密性和可用性3 個因素量化。
表1 攻擊致命度Tab.1 Attack lethality
綜上所述,系統(tǒng)損失計算方法如下:
其中:i表示主機編號,m表示受攻擊主機個數(shù)。
表2 符號及其含義Tab.2 Symbols and their meanings
基于上述定義,攻擊者在攻防博弈中的攻擊收益為:
則在攻防博弈中的攻擊收益為:
由于網(wǎng)絡(luò)攻防對抗過程中存在信號衰減等一系列噪聲影響,下一階段收益也會相應(yīng)衰減。故本文引入貼現(xiàn)預期收益準則函數(shù)來獲取實際收益值,即:
引入復制動態(tài)方程求解多階段博弈均衡:
1)防御者釋放誘導信號,攻擊方選取最優(yōu)攻擊策略。
第k階段防御方發(fā)送的誘導信號為SIσ時,攻擊收益(SIσ):
則k階段期望收益為:
構(gòu)建復制動態(tài)方程:
得到k階段不同誘導信號下的最優(yōu)攻擊策略概率分布(AS)。
2)判斷攻擊方選擇的最佳攻擊策略,防御方選取最優(yōu)誘導信號。
第k階段防御類型為Dj時,防御收益:
則期望防御收益為:
構(gòu)建復制動態(tài)方程:
得到k階段不同防御方的最優(yōu)誘導信號防御策略概率分布(SI)。
3)根據(jù)上述所求均衡解及貝葉斯法則求解對防御方判斷的后驗概率:
算法1 基于多階段演化信號博弈模型的移動目標防御決策算法。
輸入 多階段馬爾可夫進化信號博弈模型(MSESGM)參數(shù)。
輸出(SI)。
分析上述過程發(fā)現(xiàn),步驟7)、9)和10)體現(xiàn)了算法時間復雜度。步驟7)主要是收益量化值的計算,此過程的時間復雜度為O(λ);在步驟9)、10)的納什均衡求解上,整個算法的時間復雜度為O(λ(γ+n))。收益量化值和均衡計算的中間值是整個算法的主要存儲對象,收益值的存儲量占比是最大的,總共包含了數(shù)量為λ(γ+n)的存儲單元,因此,此算法的空間復雜度為O(λγn)。將本文算法與其他算法進行比較,結(jié)果如表3 所示。
表3 不同算法的博弈屬性比較Tab.3 Game properties comparison of different algorithms
通過構(gòu)建一個簡單的信息網(wǎng)絡(luò)系統(tǒng)進行仿真實驗來驗證本文算法的可行性。網(wǎng)絡(luò)系統(tǒng)的拓撲如圖2 所示。本系統(tǒng)主要由安全防御設(shè)備、Web 服務(wù)器、FTP(File Transfer Protocol)服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器、文件服務(wù)器、堡壘機等構(gòu)成,并通過防火墻進行隔離,外來主機只能訪問隔離區(qū)域,無法對內(nèi)部網(wǎng)絡(luò)進行訪問,隔離區(qū)服務(wù)器可以訪問內(nèi)部網(wǎng)絡(luò)節(jié)點,且內(nèi)部網(wǎng)絡(luò)節(jié)點可以相互訪問,因此,攻擊者只能通過攻擊隔離區(qū)域Web 服務(wù)器獲取權(quán)限,進行多步攻擊,完成破壞數(shù)據(jù)庫服務(wù)器的目的。
圖2 仿真實驗拓撲Fig.2 Simulation experiment topology
本實驗以S={S1,S2,…,S5}表示每個子博弈的穩(wěn)定狀態(tài)集合,其中:S1表示攻擊者成功入侵安全防御設(shè)備并獲取root 權(quán)限的狀態(tài);S2表示攻擊者利用Web 服務(wù)器的漏洞并獲取其root 權(quán)限的狀態(tài);S3表示攻擊者利用Web 服務(wù)器訪問并獲取應(yīng)用服務(wù)器控制權(quán)限狀態(tài);S4表示攻擊者利用FTP 服務(wù)器漏洞并獲得其root 權(quán)限狀態(tài);S5表示攻擊者利用數(shù)據(jù)庫服務(wù)器的漏洞對數(shù)據(jù)庫服務(wù)器進行攻擊破壞,使系統(tǒng)無法向客戶端提供服務(wù)。
通過漏洞掃描器Nessus 對實驗系統(tǒng)進行掃描,對獲得的漏洞數(shù)據(jù)、路由配置信息進行分析后,查詢國家信息安全漏洞庫(http://www.cnnvd.org.cn)有關(guān)數(shù)據(jù),將防御者劃分為高低({D1,D2})兩種類型,防御信號劃分為({SI1,SI2,SI3})。參照美國麻省理工學院林肯實驗室對網(wǎng)絡(luò)攻防的分類以及相關(guān)歷史數(shù)據(jù)[22],結(jié)合本文定義的收益量化方法,本次實驗選取的攻擊策略和防御策略如表4、5 所示。狀態(tài)轉(zhuǎn)移概率如表6 所示。
表4 攻擊策略集合Tab.4 Attack strategy set
表5 防御策略集合Tab.5 Defense strategy set
表6 各階段狀態(tài)轉(zhuǎn)移概率Tab.6 State transition probability of each stage
各階段攻防策略如表7 所示。根據(jù)本文收益量化方法及均衡求解方法,可獲得表8 所示各階段攻防收益矩陣,及表9 所示各階段攻防均衡值。
表7 各階段攻防策略Tab.7 Attack and defense strategies of each stage
表8 各階段攻防收益矩陣Tab.8 Attack and defense benefit matrices of each stage
表9 各階段攻防均衡值Tab.9 Attack and defense equilibrium values of each stage
分析本文模型的博弈均衡和收益,以損壞數(shù)據(jù)庫服務(wù)器資料為攻擊目標,通過Matlab2016b 工具實現(xiàn)MTD 決策算法,分析圖3~7 的仿真數(shù)據(jù)和圖像可知,攻擊者的攻擊路徑有如下兩條:
圖3 第一階段攻防演化軌跡Fig.3 First stage attack and defense evolutionary trajectori es
路徑1 安全防御設(shè)備-Web 服務(wù)器-應(yīng)用服務(wù)器-文件服務(wù)器-數(shù)據(jù)庫服務(wù)器。
路徑2 安全防御設(shè)備-Web 服務(wù)器-應(yīng)用服務(wù)器-數(shù)據(jù)庫服務(wù)器。
在博弈的第一個階段,隨著攻防雙方的博弈演化,當防御者采取高級防御策略時,釋放高級防御信號迷惑攻擊方,且攻擊者采取攻擊策略AS1時,該結(jié)果為一個分離均衡,平均防御收益為3 224;當防御者采取低級防御策略時,釋放低級防御信號迷惑攻擊方,且攻擊者采取攻擊策略AS2時,該結(jié)果為另一個分離均衡,平均防御收益為2 099。比較收益值,故本階段的最優(yōu)防御策略是防御者采取高級MTD 防御策略并釋放高級防御信號。
攻擊者成功入侵安全防御設(shè)備并獲取root 權(quán)限后攻防進入第二階段,當防御者采取高級防御策略時,釋放高級防御信號迷惑攻擊方,且攻擊者采取攻擊策略AS1時,該結(jié)果為一個分離均衡,平均防御收益為5 908;當防御者采取低級防御策略時,釋放低級防御信號迷惑攻擊方,且攻擊者采取攻擊策略AS2時,該結(jié)果為另一個分離均衡,平均防御收益為4 898。比較收益值,故本階段的最優(yōu)防御策略是防御者采取高級防御策略并釋放高級防御信號。
圖4 第二階段攻防演化軌跡Fig.4 Second stage attack and defense evolutionary trajectories
圖5 第三階段攻防演化軌跡Fig.5 Third stage attack and defense evolutionary trajectories
攻擊者利用Web 服務(wù)器的漏洞并獲取其root 權(quán)限后進入第三階段應(yīng)用服務(wù)器和第四階段FTP 服務(wù)器權(quán)限奪取攻防狀態(tài),此時分離均衡都為防御者采取高級防御策略時,釋放高級防御信號,攻擊者采取攻擊策略AS2;以及防御者采取低級防御策略時,利用蜜罐改變攻擊面呈現(xiàn)信息,釋放高級防御信號對攻擊者進行迷惑,且攻擊者采取攻擊策略AS2。比較收益值,三、四階段的最優(yōu)防御策略分別為防御者采取高級防御策略并釋放高級防御信號和防御者采取低級防御策略并釋放高級防御信號,且平均防御收益分別為3 598 和4 063。
圖6 第四階段攻防演化軌跡Fig.6 Fourth stage attack and defense evolutionary trajectories
當攻防對抗進行到第五階段保護數(shù)據(jù)庫服務(wù)器時,從仿真圖中分析得出,分離均衡分別為當防御者采取高級防御策略時,釋放高級防御信號迷惑攻擊方,且攻擊者采取攻擊策略AS1,平均防御收益為4 514;當防御者采取低級防御策略時,釋放高級防御信號迷惑攻擊方,且攻擊者采取攻擊策略AS1,平均防御收益為4 448。比較收益值,故本階段的最優(yōu)防御策略是防御者采取高級防御策略并釋放高級防御信號。
圖7 第五階段攻防演化軌跡Fig.7 Fifth stage attack and defense evolutionary trajectories
通過以上防御收益的累計,可以看出路徑1 的總防御收益大于路徑2 的防御總收益,因此路徑1 攻防過程更加滿足防御需求。通過對兩條攻擊鏈特點分析,為降低攻擊鏈2 形成的概率,因此需要降低狀態(tài)3 跳變到狀態(tài)5 的概率。分析狀態(tài)3 的攻防策略,通過本文算法可得出S3的最優(yōu)攻擊策略為Steal account and crack it,因此防御者可以重點針對這一攻擊進行移動目標防御,降低μ35(S5|S3)的值,從而達到最優(yōu)防御效果。
通過100 次蒙特卡洛仿真實驗,將使用多階段進化信號博弈最優(yōu)策略選取算法(MSESGM)和傳統(tǒng)隨機均勻策略選擇算法進行累積收益以及對比來驗證本文算法的有效性。實驗結(jié)果如圖8 所示。
圖8 不同策略收益比較Fig.8 Comparison of benefit between different strategies
由仿真圖中可以看出隨機均勻策略選擇的累計收益不高且增長緩慢,而多階段演化信號博弈最優(yōu)策略的累計收益卻穩(wěn)定大幅上升。因為隨機均勻選擇策略不考慮攻防情況及收益量化,以同等概率無差別地隨機選取防御策略,反而會造成大量的防御成本和資源浪費。本文模型采取多階段演化信號博弈策略,將上一階段的后驗,在修正的基礎(chǔ)上,作為下一階段的先驗概率,提高了對防御者類型分布的準確度,并通過主動釋放干擾信號對外進行戰(zhàn)術(shù)欺騙,對內(nèi)采取針對性防御策略,不僅提高了防御模型的有效性和安全性,也使得防御資源得到最大限度的利用。
網(wǎng)絡(luò)安全攻防對抗的策略選取問題一直是研究的熱點。本文基于多階段演化信號博弈模型研究了MTD 策略選取決策算法。本文研究的主要工作有:1)提出演化信號博弈方法,通過生物進化理論研究攻防對抗趨勢,更貼近實際網(wǎng)絡(luò)情況;2)將移動目標防御技術(shù)作為防御策略,大幅提高了防御者的主動性及防御性能;3)考慮實際攻防多回合狀況,將博弈狀態(tài)從單階段擴展至多階段,并給出了詳細的收益量化指標,使得模型具有良好的通用性,改變了網(wǎng)絡(luò)防御的被動地位,以此提高系統(tǒng)安全性。下一階段的工作任務(wù)則是進一步優(yōu)化算法,使本文模型能夠應(yīng)用于多種新型和復雜的網(wǎng)絡(luò)環(huán)境中。