譚晶磊,張恒巍,張紅旗,金輝,雷程
(1.信息工程大學三院,河南 鄭州 450001;2.河南省信息安全重點實驗室,河南 鄭州 450001)
全球性網(wǎng)絡安全攻防競賽[1]已經(jīng)達到前所未有的強度,各類網(wǎng)絡攻擊事件愈演愈烈,網(wǎng)絡攻擊者不斷制定新的攻擊策略。其中,移動目標攻擊(MTA,moving target attack)技術是最受攻擊者歡迎的攻擊方法之一,它利用各種不確定的攻擊手段隱藏攻擊意圖,并試圖逃避傳統(tǒng)網(wǎng)絡防御的檢測機制。由于傳統(tǒng)網(wǎng)絡防御機制無法準確預知攻擊者下一步攻擊行動,MTA 技術在網(wǎng)絡攻防博弈中逐漸獲得競爭優(yōu)勢,這不僅對網(wǎng)絡空間造成了很大的安全威脅,而且產(chǎn)生了高昂的防御成本。
近年來,網(wǎng)絡安全戰(zhàn)略經(jīng)歷了從被動防御到主動防御的演化升級,新興的移動目標防御(MTD,moving target defense)技術[2]已經(jīng)成為平衡網(wǎng)絡安全競爭環(huán)境的新方法,它通過引入動態(tài)性、隨機性以及異構性來保護網(wǎng)絡空間,旨在利用攻擊面的動態(tài)變換打破網(wǎng)絡系統(tǒng)的靜態(tài)特性,向攻擊者呈現(xiàn)一個不可預測的網(wǎng)絡狀態(tài),以阻止攻擊者的惡意行為,增加攻擊者攻擊成功的難度。
MTA 與MTD[3]依據(jù)攻防成本和收益選取最優(yōu)策略攻防收益最大化,具有關系非合作性。在移動目標攻防對抗過程中,MTA 試圖通過各種攻擊手段控制系統(tǒng)攻擊面,將攻擊面的暴露范圍不斷擴大,為后續(xù)持續(xù)性攻擊做好準備;而MTD 則通過動態(tài)化、隨機化和多樣化的方法控制系統(tǒng)攻擊面,轉移或者減少系統(tǒng)攻擊面,以拒止MTA 的攻擊行動,因而移動目標攻防雙方具有目標對立性。移動目標攻防雙方對于最優(yōu)策略的選取不僅僅取決于自身,同時也取決于對手,因此移動目標攻防雙方具有策略依存性。移動目標攻防過程所具有的關系非合作性、目標對立性和策略依存性與博弈論的理論特性相契合,博弈論可在選取移動目標防御最優(yōu)策略的研究中發(fā)揮重要作用。
姜偉等[4]提出了一種基于完全信息博弈的最優(yōu)防御策略選取算法,通過構建攻防隨機博弈模型,預測攻擊行為,并由此制定最優(yōu)防御策略。林旺群等[5]提出了基于完全信息動態(tài)博弈的最優(yōu)策略,通過引入“虛擬節(jié)點”將攻擊圖轉換為博弈樹,采用非合作動態(tài)博弈求解最優(yōu)防御策略,但是該模型并沒有給出詳細的策略選取算法。Manadhata 等[6]則提出了基于隨機博弈的最優(yōu)攻擊面變換方法,為了權衡安全性和可用性,將移動目標防御形式化為二人隨機博弈。然而,單階段博弈難以有效刻畫移動目標防御持續(xù)動態(tài)變化的特性,因此Vadlamudi 等[7]提出了基于貝葉斯攻擊圖的移動目標防御最優(yōu)策略選取方法,它利用貝葉斯攻擊圖描述了攻擊方利用的脆弱性間的關聯(lián)關系,以及防御方可觀測到的攻擊行為和網(wǎng)絡安全狀態(tài),但是仍然難以表征攻防對抗的動態(tài)性。為了刻畫MTD 攻防對抗的動態(tài)連續(xù)特性,Lei 等[8]將攻防雙方對資源脆弱性的利用抽象為攻擊面和探測面的變化,并在收益函數(shù)的計算中考慮了跳變的性能消耗。由于攻防雙方的行為策略會導致網(wǎng)絡系統(tǒng)狀態(tài)的改變,且狀態(tài)轉移具有Markov 性,Maleki[9]提出了基于Markov 的移動目標防御博弈模型,通過將Markov 決策過程與博弈模型相結合,對單目標IP 跳變和多目標IP 跳變策略進行分析,證明多元素跳變可以有效提高防御的收益,但是基于Markov 的博弈收益量化仍然依賴攻防對抗的歷史數(shù)據(jù)和專家經(jīng)驗。
雖然現(xiàn)有的研究取得了一定成果,但在模型構建和收益量化方面仍存在不足。一方面,現(xiàn)有的研究工作大多基于隨機博弈、貝葉斯博弈等博弈模型,難以有效刻畫MTD 攻防的動態(tài)連續(xù)特性;另一方面,現(xiàn)有的收益量化方法大都基于歷史數(shù)據(jù)與專家經(jīng)驗表征刻畫,難以保證決策結果的客觀準確性?;诖耍疚囊霑r間博弈進行博弈的動態(tài)性刻畫,并利用時間博弈隱蔽對抗的特性構建MTD 攻防模型,基于Markov 決策過程表征MTD 狀態(tài)的隨機遷移特性,通過攻防雙方對攻擊面的控制時間量化攻防收益。
移動目標攻擊體系已經(jīng)逐步發(fā)展并不斷完善,常見的移動目標攻擊技術如表1 所示。
表1 移動目標攻擊技術分類
多態(tài)MTA 可以有效規(guī)避防御者入侵檢測系統(tǒng)的特征檢測。一方面,多態(tài)MTA 使用多個加密密鑰生成相同惡意軟件的不同實例,由于新實例具有新的未知靜態(tài)簽名,使基于簽名的反惡意軟件防御無效。另一方面,多態(tài)MTA 有效載荷(代碼和數(shù)據(jù))是加密的,可以繞過防御者的深層靜態(tài)分析。多態(tài)MTA 通過更改內(nèi)存中的代碼使防御者的攻擊檢測過程復雜化。
與多態(tài)MTA 類似,自修改MTA 可以有效規(guī)避文件和內(nèi)存的自動掃描,而混淆MTA 則可以有效逃避手動檢查代碼。混淆MTA 所創(chuàng)建的具有混淆性的代碼通常難以被傳統(tǒng)檢測手段發(fā)現(xiàn),它可以創(chuàng)建帶有模糊字符串的有效負載、虛擬代碼和復雜的函數(shù)調(diào)用圖,并隨機生成惡意軟件實例。自加密MTD 則通過變換惡意軟件簽名來隱藏惡意代碼和數(shù)據(jù)。
反虛擬機/反沙箱MTA 是另一種移動目標攻擊方法,惡意軟件分析通常利用虛擬機或沙箱環(huán)境檢測惡意軟件的運行活動,如果檢測到虛擬機或沙箱,則反虛擬機/反沙箱MTA 會改變其行為并避免任何惡意活動。一旦在真實系統(tǒng)上執(zhí)行并被標記為良性之后,它就會開始其惡意行為。
反調(diào)試MTA 可以避免調(diào)試和運行時的檢測分析。如果反調(diào)試MTA 在運行時檢測到調(diào)試工具,則會更改其執(zhí)行流程保持良性操作。如果它未被調(diào)試工具檢測到,則會啟動惡意行為。
目標漏洞利用MTA 可以更改統(tǒng)一資源定位符(URL,uniform resource locator)模式、主機服務器、加密密鑰和文件名,還可以通過限制來自相同IP地址的漏洞訪問次數(shù)來規(guī)避蜜罐防御。
行為改變MTA 通常在真實用戶交互后發(fā)動攻擊,因而它可以確保在真實機器上執(zhí)行攻擊。
這些有效的移動目標攻擊方法為攻擊者贏得了不對稱的攻擊優(yōu)勢,使傳統(tǒng)防御技術處于被動不利的局面。攻擊者明確自己的攻擊對象、攻擊時間、攻擊目標和攻擊方式,而防御者則處于不確定狀態(tài),只能利用大量的成本、時間和資源來規(guī)避攻擊者可能發(fā)起的任何攻擊探測和入侵活動。因此,防御者和攻擊者之間不存在理論上的對稱性。
防止移動目標攻擊的最佳方法是使用基于移動目標防御的新安全解決方案。2009 年,美國國家賽博跨越式發(fā)展年會首先提出了移動目標防御這一概念,提出移動目標防御通過持續(xù)變換系統(tǒng)呈現(xiàn)給攻擊方的攻擊面,從而有效增加攻擊方探測目標節(jié)點脆弱性的代價[10]。2012 年,美國白宮國防安全委員會在賽博空間安全研究進展報告[11]中明確了移動目標的概念,即移動目標是可在多個維度上通過移動來降低攻擊方優(yōu)勢并增加系統(tǒng)彈性的技術手段。2014 年,《可改變游戲規(guī)則的賽博空間安全研究與發(fā)展建議》中則將移動目標防御定義為一種創(chuàng)建、分析、評估和部署多樣化、持續(xù)時變的機制和策略,以增加攻擊實施的復雜度與成本,限制和降低系統(tǒng)脆弱性曝光度和被攻擊的概率,提高系統(tǒng)彈性的防御手段[12]。
移動目標防御是一種新的主動防御思想,它通過移動或偽裝攻擊者探測的資源以擾亂應用程序存儲器。當惡意軟件獲得對移動目標防御保護系統(tǒng)的訪問權限時,它無法找到所需的易受攻擊的資源以造成損害。就其本質(zhì)而言,移動目標防御與攻擊無關,因此可以有效抵御已知和未知攻擊的多種變化。之前的研究[13]已經(jīng)總結概述了它的基本理論框架,如圖1 所示。
圖1 MTD 理論框架
將物理網(wǎng)絡映射到邏輯任務模型,由調(diào)整引擎獲取邏輯任務模型的當前狀態(tài),并由配置管理調(diào)整產(chǎn)生新狀態(tài)進行適應,分析引擎獲取物理網(wǎng)絡的實時事件,利用傳統(tǒng)防御中入侵檢測、防火墻等檢測機制進行脆弱性分析,由邏輯安全模型產(chǎn)生邏輯安全狀態(tài)發(fā)送給調(diào)整引擎,形成一個閉合自反饋的動態(tài)調(diào)整系統(tǒng)。
移動目標防御技術研究是針對系統(tǒng)不同要素、安全威脅和應用場景設計的可行防御策略,分為系統(tǒng)層MTD 和網(wǎng)絡層MTD 這2 個層面,其中,系統(tǒng)層MTD 包括硬件MTD 和軟件MTD,網(wǎng)絡層MTD 包括MAC、IP、協(xié)議、路徑、操作系統(tǒng)、指紋以及端口MTD,具體如表2 所示。本文所采用的移動目標防御策略為網(wǎng)絡層MTD。
2013 年,針對APT,美國RSA 實驗室的Dijk[14]首次提出了時間博弈,與現(xiàn)有的大多數(shù)博弈模型不同,時間博弈由防御者和攻擊者這2 個局中人以及公共資源構成,它允許局中人在任意時刻采取行動來控制資源。然而,在局中人實際移動之前,不會顯示資源控制權,因此隱蔽性是時間博弈的最大特點。每個局中人的目標是最大化控制資源時間,同時最小化移動成本。在移動目標攻防過程中,根據(jù)時間博弈基本理論,網(wǎng)絡攻防系統(tǒng)中的局中人共同爭奪對公共資源(攻擊面)的控制權,盡可能地最大化自身的收益,圖2 顯示了隨著時間變化,移動目標攻擊者(灰色)和移動目標防御者(黑色)之間的公共資源控制權的切換。
表2 移動目標防御策略集合分類
圖2 移動目標防御時間博弈說明示例
移動目標攻防策略的實施都需要付出一定的成本,其中,移動目標攻擊者的目標是破壞網(wǎng)絡關鍵服務,并盡可能降低攻擊成本。移動目標防御者的目標是增加安全防御預算,減緩或阻止攻擊行為,以最大化移動目標攻擊者的攻擊成本。移動目標攻防雙方都需要對系統(tǒng)攻擊面進行控制,不同的是,攻擊者是利用攻擊面可用的脆弱性資源發(fā)起攻擊,而防御者則是改變或減少攻擊面脆弱性資源來提高攻擊者的攻擊難度,攻擊面的控制權會隨著局中人的行動發(fā)生變化。因此,利用時間博弈刻畫單階段移動目標防御過程更符合真實網(wǎng)絡攻防場景。
本文首先利用時間博弈模型刻畫單階段移動目標防御過程,接著從全局視角出發(fā),借鑒Markov 決策過程[15],將各博弈階段之間的狀態(tài)遷移描述為隨機過程,將多階段時間博弈與Markov 決策方法相結合,構建多階段Markov 時間博弈并進行均衡求解。
首先,對單階段時間博弈進行分析,如定義1所示。
定義1單階段時間博弈模型(STG-MTD)。STG-MTD 表示為六元組(N,B,R,η,U,T),具體如下。
1)N={NMTA,NMTD}是攻防博弈的局中人集合,其中,NMTA代表移動目標攻擊方,NMTD代表移動目標防御方。
2)B={PMTA,PMTD}是攻防博弈可行動作空間,其中,PMTA和PMTD分別代表移動目標攻擊者和防御者的移動策略集。
3)R是移動目標攻防雙方所競爭的公共資源,本文將網(wǎng)絡中的攻擊面視為公共資源。
4)η是博弈信念集合,ηMTAi表示移動目標攻擊方選擇MTA 策略PMTAi(0≤i≤m)的概率,滿足表示移動目標防御方選擇MTD策略PMTDj(0≤j≤l)的概率,滿足。
5)U={UMTA,UMTD}是移動目標攻防雙方的收益函數(shù)集合,它由所有局中人對攻擊面的控制時間TN和策略實施所需成本CN共同決定,分別為UMTD(CMTDi,TMTDj)和UMTA(CMTAi,TMTAj),1≤i≤m,1≤j≤l。
6)T是博弈的總時間,T=TMTD+TMTA。
以單階段時間博弈為基礎,構建多階段Markov時間博弈模型。
1)博弈模型定義
定義2Markov 時間博弈移動目標防御模型(MTG-MTD)。MTG-MTD 可以表示為十元組(N,K,R,S,f,B,η,U,β,T),具體如下。
①N={NMTA,NMTD}是攻防博弈的局中人集合,其中,NMTA代表移動目標攻擊方,NMTD代表移動目標防御方。
②K是多階段攻防博弈的階段數(shù),G(K)代表當前攻防博弈階段,其中K={1,…,n},n∈?。
③R是移動目標攻防雙方競爭的公共資源,本文將網(wǎng)絡中的攻擊面視為公共資源。
④S={S1,S2,…,SK}是不同網(wǎng)絡攻防階段安全狀態(tài)集合。
⑤f表示狀態(tài)遷移概率,fij=f(Sj|Si)表示系統(tǒng)從狀態(tài)Si遷移至狀態(tài)Sj的概率,攻防雙方的對抗行為是影響安全狀態(tài)轉換的關鍵因素,由于攻防雙方的可行策略集和網(wǎng)絡系統(tǒng)運行環(huán)境可能發(fā)生改變,因此狀態(tài)轉換具有一定隨機性。
⑦η是博弈信念集合,在第k階段,表示移動目標攻擊方選擇MTA策略(0≤i≤m)的概率,滿足表示移動目標防御方選擇MTD 策略(0≤j≤l)的概率,滿足
⑨β是折現(xiàn)因子,表示博弈階段k中的收益相較初始階段的折現(xiàn)比例,0<β≤1 。
⑩T是單階段博弈所需的總時間。
2)移動目標攻防收益量化
移動目標攻防收益量化是最優(yōu)防御策略選取的基礎,在文獻[16]的研究基礎上,本文從移動目標攻防雙方對攻擊面的控制出發(fā),結合移動目標攻防策略特點,對移動目標攻防策略收益進行全面分析量化。
定義3防御成本(DC,defense cost)。DC 由移動目標防御者控制攻擊面的時間成本TCASC和變換攻擊面的時間成本THASC兩部分組成,DC=TCASC+THASC。
定義4攻擊成本(AC,attack cost)。AC 指移動目標攻擊者發(fā)現(xiàn)系統(tǒng)漏洞并采取MTA 策略時所產(chǎn)生的時間成本。
定義5防御有效性(DE,defense effectiveness)。DE 是移動目標防御者實施MTD 策略對攻擊面的控制時間。
定義6攻擊有效性(AE,attack effectiveness)。AE 是移動目標攻擊者實施MTA 策略對攻擊面的控制時間。
定義7防御收益。防御收益指移動目標防御者控制攻擊面獲得的收益。
定義8攻擊收益。攻擊收益指移動目標攻擊者控制攻擊面獲得的收益。
移動目標攻防收益矩陣M如下,和分別表示策略組合下的攻擊收益值和防御收益值,滿足定義7 和定義8。
令R為目標準則函數(shù),用于判斷移動目標攻防雙方策略選取的優(yōu)劣。常用的準則函數(shù)[17]主要有折現(xiàn)期望回報準則函數(shù)和平均回報準則函數(shù)。在移動目標攻防對抗過程中,由于網(wǎng)絡系統(tǒng)信息的價值與時間相關,因此采用折現(xiàn)期望回報準則函數(shù)作為博弈雙方的目標函數(shù),其中,表示攻防雙方分別采取策略PMTA和PMTD時相較于初始階段的折現(xiàn)收益值,S為初始階段狀態(tài),S′為未來階段狀態(tài),US為初始階段狀態(tài)下的攻防收益值。
移動目標攻擊方通過偵察網(wǎng)絡攻擊面,發(fā)現(xiàn)并利用系統(tǒng)資源脆弱性,進而導致系統(tǒng)性能開銷增大或系統(tǒng)功能不可用。移動目標防御方通過選取MTD策略從而增大或轉換攻擊面,進而在保證網(wǎng)絡功能正常安全運行的前提下提高系統(tǒng)的安全性。
由以上定義可知,經(jīng)過有限次博弈后,系統(tǒng)在不同狀態(tài)間進行遷移,可用攻防博弈樹表示。在TG-MTD 模型構建的基礎上,第4 節(jié)給出了模型的均衡策略分析求解和具體的最優(yōu)防御選取算法。
根據(jù)第2 節(jié)的分析,不同博弈階段中攻防雙方對攻擊面的控制順序動態(tài)變化。因此,本節(jié)首先提出時間博弈的子博弈精煉納什均衡求解方法,然后分析多階段攻防博弈的求解過程。
在時間博弈階段G(K),移動目標攻防策略分別為若為第k階段的時間穩(wěn)定策略,則對于任意攻防策略和滿足
不同移動目標攻防策略的選取會影響每階段博弈情況,根據(jù)Markov 決策準則,局中人必有一個 Markov 最優(yōu)響應策略[18]。因此,如果為Markov 最優(yōu)響應策略,那么使目標準則函數(shù)對任意階段k均滿足式(2)所示條件。
定理 1多階段 Markov 攻防時間博弈MTG-MTD 存在混合策略下的納什均衡。
證明MTG-MTD 博弈由多個獨立且相似的單階段不完全信息動態(tài)博弈構成。一方面,由于每個獨立的單階段不完全信息動態(tài)博弈均屬于有限博弈,因此,必定存在混合策略下的納什均衡[19]。另一方面,由多階段Markov 時間博弈模型的定義,依據(jù)轉移概率和收益函數(shù)可知,存在與MTG-MTD等價的有限Markov 博弈,且收益函數(shù)為凸函數(shù)。依據(jù)有限Markov 博弈的均衡策略存在性定理[20],存在混合策略下的納什均衡。證畢。
4.2.1 單階段時間博弈均衡求解
首先,給出單階段時間博弈均衡的求解過程和步驟,參照完全信息動態(tài)博弈的相關理論知識,移動目標攻防雙方對攻擊面的控制權爭奪具有先后順序,先行動的一方的各種信息會被另一方完全掌握,因而后行動的一方可以根據(jù)對方的信息進行相應調(diào)整以最大化自身利益。
針對本文完全信息動態(tài)移動目標攻防場景,引入澤爾騰的子博弈精煉納什均衡思想方法[21],去除均衡中的不可置信威脅策略的納什均衡,得出合理的預測結果。不失一般性,子博弈精煉納什均衡的每個信息集上的均衡結果均為最優(yōu)策略。
移動目標攻防雙方在不同策略組合下的收益矩陣可以用圖3 的博弈樹直觀展示。假設博弈開始時刻由移動目標攻擊者控制攻擊面,隨后移動目標防御者實施策略,爭奪攻擊面的控制權,單階段博弈總時間為T。
4.2.2 多階段Markov 時間博弈均衡求解
引入折現(xiàn)因子,將未來收益折算成基于初始階段的折現(xiàn)收益,在此基礎上,將博弈均衡策略的求解問題轉化為非線性規(guī)劃(NLP2,nonlinear programming second)最優(yōu)值問題,求解多階段均衡策略B*及其收益U*。
圖3 網(wǎng)絡攻防時間博弈樹
對于K={1,…,n},n∈?,有目標函數(shù)為
約束條件為
基于移動目標攻防場景下多階段Markov 時間博弈模型及其子博弈精煉納什均衡的研究,給出多階段Markov 時間博弈的最優(yōu)主動防御策略選取算法。
算法1多階段Markov 時間博弈的最優(yōu)防御策略選取算法
輸入多階段Markov 時間博弈模型MTG-MTD
輸出多階段最優(yōu)移動目標防御策略
算法的時間復雜度為O(k(m+n)2),空間復雜度為O(knm),表3 展示了本文提出的最優(yōu)策略選取方法與其他最優(yōu)策略選取方法的比較結果。在移動目標攻防對抗中,Manadhata 等[22]僅討論了單階段博弈。Clark 等[23]雖然將博弈模型擴展到多階段,但仍不能揭示移動目標攻防對抗的多狀態(tài)和多階段過程。Lei 等[8]結合Markov 決策過程理論和動態(tài)博弈描述了多狀態(tài)和多階段特征。上述研究成果均采用歷史數(shù)據(jù)與專家經(jīng)驗量化收益計算,本文針對MTD 攻防過程的動態(tài)連續(xù)特性,將時間因素加入收益度量能夠提高收益計算的準確性。與上述方法相比,MTG-MTD 是基于Markov 時間博弈建立的,完美地展示了移動目標攻防過程的對立性、動態(tài)性及自適應性的特征。在最優(yōu)策略選取方面,本文分析了時間因素對攻防成本和收益的影響,并將最優(yōu)策略選取問題轉化為非線性規(guī)劃問題求解,在降低復雜度的同時大大增加了不同的應用場景下的通用性。
本節(jié)通過應用實例驗證MTG-MTD 最優(yōu)防御策略選取算法的有效性,利用軟件定義網(wǎng)絡(SDN,software defined network)的部分節(jié)點拓撲搭建了實驗網(wǎng)絡環(huán)境,系統(tǒng)結構如圖4 所示。其中,LDAP服務器、FTP 服務器、Linux 數(shù)據(jù)庫等控制服務器作為移動目標防御策略的應用目標,同時移動目標攻擊者可以通過網(wǎng)絡等途徑訪問控制服務器,它們的連通性通過表4 中的訪問控制策略來確定,應用服務器作為控制服務器的應用提供者。移動目標攻擊者具有對應用服務器的用戶級訪問權限,其目標是竊取存儲在Linux 數(shù)據(jù)庫服務器中的敏感信息。
移動目標攻擊者的可能的攻擊路徑如下。
路徑1:應用服務器→LDAP 服務器→Linux 數(shù)據(jù)庫。
路徑2:應用服務器→LDAP 服務器→FTP 服務器→Linux 數(shù)據(jù)庫。
表3 不同策略選取方法對比分析
表4 訪問控制策略
圖4 實驗系統(tǒng)結構示意
1)初始化參數(shù)
令S={S1,S2,S3,S4}表示網(wǎng)絡階段狀態(tài)。其中,S1是移動目標攻擊者利用應用服務器的漏洞,并獲得其root 權限的階段狀態(tài);S2和S3分別是移動目標攻擊者利用LDAP服務器和FTP服務器的漏洞獲得Linux 數(shù)據(jù)庫訪問權限的階段狀態(tài);S4是攻擊者通過利用Linux 數(shù)據(jù)庫的漏洞獲得root 權限的階段狀態(tài)。本實驗中MTG-MTD 的折扣率為β=0.7。
2)構建策略空間,狀態(tài)轉移概率和收益矩陣
表5顯示了每個網(wǎng)絡狀態(tài)下的移動目標攻防策略。PMTA={PMTA1,PMTA2,PMTA3,PMTA4,PMTA5,PMTA6,PMTA7,PMTA8}表示移動目標攻擊者控制攻擊面,相關MTA 策略集合如表1 所示。PMTD={PMTD1,PMTD2,PMTD3}表示移動目標防御者控制著攻擊面,其中,PMTD1={IP(C 類),Port(64512),Timing(fixed)}表示MTD 在固定周期中變換IP 地址和端口號,括號中的內(nèi)容表示相應變換元素的取值范圍,IP(C 類)表示IP 的變換取值為C 類IP 地址空間,Port(64512)表示端口變換取值為64512,Timing(fixed)和Timing(random)分別表示MTD 固定變換時機和隨機變換時機,PMTD2={IP(C 類),Port(64512),Timing(random)}表 示MTD 在隨機周期中變換 IP 地址和端口號,PMTD3={Forwarding Path,Timing(fixed)}表示 MTD在固定周期內(nèi)變換轉發(fā)路徑,括號中的內(nèi)容表示相應變換元素的取值范圍。同時,網(wǎng)絡狀態(tài)轉移概率具體如表6 所示。依據(jù)3.2 節(jié)移動目標攻防收益的計算方法,表7 給出了移動目標攻防收益矩陣。
表5 不同網(wǎng)絡狀態(tài)下的移動目標攻防策略
3)選取MTG-MTD 模型的最優(yōu)策略
在選取最優(yōu)策略之前,將最優(yōu)策略選取問題等價轉化為非線性規(guī)劃問題。在此基礎上,利用所提算法及交互式的線性和通用優(yōu)化求解器(LINGO,linear interactive and general optimizer)求解最優(yōu)策略。表8 給出了攻防雙方及其相應收益的最優(yōu)策略。
表6 網(wǎng)絡系統(tǒng)狀態(tài)轉移概率
表7 移動目標攻防策略收益矩陣
約束條件為
目標函數(shù)為
表8 移動目標攻防策略和收益
通過對移動目標防御模型均衡和收益分析,可以得出以下移動目標攻防過程的一般規(guī)律。
1)由于防御實施效果的針對性,應該盡可能實施成本低且防御效果佳的MTD 策略,針對特定的移動目標攻擊,應實施適當?shù)囊苿幽繕朔烙?。例如在狀態(tài)S1,攻擊者的主要攻擊手段是利用自身的動態(tài)變換規(guī)避常規(guī)的入侵檢測系統(tǒng),因而IDS 對于上述攻擊無效;相反地,實施移動目標防御可以有效抵御此類攻擊。
2)由于攻擊的持續(xù)性,要盡可能避免攻擊者與目標系統(tǒng)建立通信控制連接,否則很難采取有效防御策略。例如在狀態(tài)S4,當攻擊者已經(jīng)入侵目標系統(tǒng),并且進行后續(xù)攻擊開發(fā)時,IDS 等傳統(tǒng)防御手段對于攻擊防御無效,并且移動目標防御的效果也不理想,此時最佳策略為關閉服務。
由于單階段博弈過程由時間博弈所刻畫,使博弈場景更貼近有實際網(wǎng)絡攻防過程,相較于矩陣博弈,本文所采用的時間博弈可以更好地刻畫博弈動態(tài)性,同時利用Markov 決策過程刻畫多階段性,從而幫助網(wǎng)絡安全管理人員更好地決策。
本文基于多階段Markov 時間博弈模型研究了移動目標攻防策略選取問題,主要工作如下。在分析移動目標攻防過程的基礎上,構建了Markov 時間博弈模型,具備分析多階段-多狀態(tài)攻防行為的能力;基于折扣總收益設計了移動目標防御博弈的目標準則函數(shù),實現(xiàn)了對多階段攻防博弈的量化分析;提出了基于非線性規(guī)劃的多階段博弈均衡計算方法,設計了多階段最優(yōu)防御策略選取算法。研究成果對于在多階段移動目標攻防中實施網(wǎng)絡防御決策具有指導意義,能夠為開展網(wǎng)絡空間攻防對抗研究提供理論模型支持。
當前網(wǎng)絡攻防策略集合均與時間無關,需要將時間作為策略因素考慮,因此對于攻防策略行動問題時機的研究是下一步開展的主要研究方向。