王碩,王建華,裴慶祺,湯光明,王洋,劉小虎
(1.信息工程大學密碼工程學院,河南 鄭州 450001;2.西安電子科技大學綜合業(yè)務網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室,陜西 西安 710071;3.西安電子科技大學陜西省區(qū)塊鏈與安全計算重點實驗室,陜西 西安 710071)
隨著網(wǎng)絡(luò)應用的廣泛普及以及支撐技術(shù)的不斷發(fā)展,云計算、智能設(shè)備、區(qū)塊鏈、物聯(lián)網(wǎng)等不斷涌現(xiàn)的新技術(shù)正在深刻改變?nèi)藗兊纳?,推動社會的飛速發(fā)展。然而,與此同時,伴隨網(wǎng)絡(luò)而來的安全問題也越發(fā)嚴重。據(jù)國家計算機網(wǎng)絡(luò)應急技術(shù)處理協(xié)調(diào)中心2018 年度網(wǎng)絡(luò)安全工作報告顯示[1],2018 年,我國境內(nèi)感染計算機惡意程序的主機數(shù)量約為1 256 萬個,規(guī)模在100 個主機以上的僵尸網(wǎng)絡(luò)數(shù)量達3 143 個,規(guī)模在10 萬個主機以上的僵尸網(wǎng)絡(luò)數(shù)量達32 個,WannaCry 蠕蟲病毒事件爆發(fā)等。然而,在眾多網(wǎng)絡(luò)攻擊形式中,滲透攻擊威脅尤其巨大,特別是以高級持續(xù)攻擊(APT,advanced persistent threat)為代表的滲透攻擊,給人們帶來了巨大的威脅。傳統(tǒng)的網(wǎng)絡(luò)防御以“筑高墻、堵漏洞、打補丁”為主,手段單一被動,不能有效應對新型攻擊形式,且存在“攻防不對稱”的嚴重劣勢。
網(wǎng)絡(luò)欺騙防御是改變“攻防不對稱”劣勢的創(chuàng)新思路,已成為當前網(wǎng)絡(luò)安全防御的研究熱點和重要研究方向之一[2-3]。它的核心思想在于:防御者在己方目標網(wǎng)絡(luò)中布設(shè)騙局,干擾、誤導攻擊者對己方網(wǎng)絡(luò)系統(tǒng)的認知,使攻擊者采取對防御方有利的動作,從而有助于發(fā)現(xiàn)、延遲或阻斷攻擊者的活動,達到防護目標網(wǎng)絡(luò)的目的[4]。美國提出的移動目標防御(MTD,moving target defense)[5-6]是增加攻擊者的認知難度,而網(wǎng)絡(luò)欺騙是干擾攻擊者的認知,甚至使攻擊者產(chǎn)生錯誤認知,顯然網(wǎng)絡(luò)欺騙相對移動目標防御層次更高,目標更遠。也有學者稱網(wǎng)絡(luò)欺騙是“后移動目標防御時代”。2016 年,Springer出版社出版了《Cyber Deception》[7],這是第一本專門介紹網(wǎng)絡(luò)欺騙研究的著作,匯集了最新的網(wǎng)絡(luò)欺騙研究成果。網(wǎng)絡(luò)欺騙不是一種具體的防御技術(shù),而是由蜜罐演進而來的一種防御思想。
現(xiàn)有研究可將蜜罐分為狹義的蜜罐和廣義的蜜罐。狹義的蜜罐作為傳統(tǒng)意義的蜜罐,用來模擬服務或服務器等網(wǎng)絡(luò)資源。根據(jù)交互水平,狹義的蜜罐可分為低交互蜜罐、中交互蜜罐和高交互蜜罐。Provos[8]提出了一種低交互蜜罐,通過模仿網(wǎng)絡(luò)堆棧行為來欺騙nmap 等指紋識別工具。此外,一些學者也提出了用于應用層協(xié)議的蜜罐,如Telnet[9]和HTTP[10],還有一些針對特殊設(shè)備的蜜罐,如智能手機[11]、USB 設(shè)備[12]和數(shù)據(jù)采集裝置[13]。廣義的蜜罐則是基于蜜罐這種模擬思想,針對相對廣泛的對象來模擬一些偽造的對象,從而達到欺騙攻擊者的效果。Juels 等[14]提出一種Honeywords 方法,通過構(gòu)造虛假賬戶密碼來檢測用該密碼嘗試攻擊的攻擊者。Araujo 等[15]提出一種Honey-patches方法,通過巧妙設(shè)計虛假漏洞補丁來欺騙攻擊者。Conroy 等[16]提出利用虛假新聞來欺騙攻擊者。Lee等[17]則提出在社交網(wǎng)絡(luò)上設(shè)計蜜罐來欺騙垃圾郵件制造者。Lazarov 等[18]提出用虛假的URL 地址欺騙攻擊者。加密消息也被用來吸引并欺騙攻擊者[19-20]。廣義的蜜罐形式多種多樣,理論上只要攻擊者對網(wǎng)絡(luò)中某一個對象有興趣,則可依據(jù)該對象偽造一個虛假的對象,達到欺騙攻擊者的目的。
此外,為了提高蜜罐的隱蔽性,避免其被攻擊者識破,Clark 等[21]通過周期性地改變蜜罐節(jié)點的IP 地址,使攻擊者已識別出的蜜罐IP 失效,從而增加蜜罐節(jié)點的安全性。Sun 等[22-23]將IP 隨機化與偽造欺騙節(jié)點巧妙結(jié)合,在目標網(wǎng)絡(luò)中放置蜜罐節(jié)點,并通過真實節(jié)點與蜜罐節(jié)點的IP 隨機化來干擾攻擊者。Venkatesan 等[24]提出利用強化學習來部署檢測器和蜜罐,實現(xiàn)最優(yōu)化地去除僵尸節(jié)點的目的。然而該方法學習周期過長,模型訓練較難。石樂義等[25]提出基于動態(tài)陣列蜜罐的協(xié)同部署方法來達到干擾和防范攻擊者的目的。然而上述幾種方法往往不考慮防御成本,從而導致實用性較低。為了獲得有限防御成本下的最優(yōu)欺騙策略,一些學者[26-30]用博弈論思想描述攻防對抗過程,并用納什均衡解作為最優(yōu)欺騙策略,取得了較好的效果。然而大多研究僅考慮納什均衡的純策略而忽略了混策略。事實上,混策略由于其特有的隨機性更能使攻擊者產(chǎn)生不確定性,更適合于欺騙防御攻防場景。
基于以上分析可知,當前的滲透攻擊往往是針對特定目標的定向攻擊,持續(xù)時間長且隱蔽性強?,F(xiàn)有蜜罐很容易被攻擊者識破而失效。為了實現(xiàn)對滲透攻擊者的最大化欺騙,本文提出一種基于動態(tài)偽裝網(wǎng)絡(luò)的主動欺騙防御方法。動態(tài)偽裝網(wǎng)絡(luò)包括真實網(wǎng)絡(luò)和偽裝網(wǎng)絡(luò),其中偽裝網(wǎng)絡(luò)是依據(jù)真實網(wǎng)絡(luò)而創(chuàng)建的虛假網(wǎng)絡(luò)。首先,基于動態(tài)偽裝網(wǎng)絡(luò)描述了攻防對抗場景。該場景中,借助動態(tài)偽裝網(wǎng)絡(luò),防御者通過向攻擊者發(fā)送偽裝信號,從而使處于真實網(wǎng)絡(luò)中的攻擊者受到威懾而放棄攻擊,并使處于偽裝網(wǎng)絡(luò)中的攻擊者受到欺騙而攻擊虛假目標,從而實現(xiàn)對真實網(wǎng)絡(luò)的更好防護。其次,為了最大化防御收益,將攻防雙方對抗過程用信號博弈模型進行描述,設(shè)計了基于雙層威脅滲透圖的攻防策略收益量化方法;進而提出了一種統(tǒng)一純策略與混策略的精煉貝葉斯納什均衡求解方法,利用精煉貝葉斯納什均衡作為最優(yōu)欺騙策略,實現(xiàn)了防御收益的最大化。最后,實驗表明了本文方法的有效性,并在分析實驗結(jié)果的基礎(chǔ)上提出了針對性的主動欺騙防御規(guī)律及建議。
一般來講,蜜罐主要通過布置一些作為虛假的主機、網(wǎng)絡(luò)服務或者信息,致使攻擊方對其實施攻擊,從而捕獲攻擊者信息。多個蜜罐組成的模擬網(wǎng)絡(luò)稱為蜜網(wǎng),其本質(zhì)仍是蜜罐,反而有時更容易被攻擊者識破。然而事實上,對于真正高水平的滲透攻擊者,其不僅對目標網(wǎng)絡(luò)有一定的了解,且其攻擊目標非常明確,為了不暴露自己的攻擊痕跡,攻擊者僅對自己的攻擊目標感興趣,如“震網(wǎng)”病毒沒有發(fā)現(xiàn)攻擊目標時,其一直保持“靜默”,直到滿足攻擊條件。面對該種攻擊者,傳統(tǒng)的蜜罐或蜜網(wǎng)很難引起攻擊者的興趣且容易被其識別,往往不能達到欺騙攻擊者的目的?;谏鲜隹紤],為了進一步提高欺騙環(huán)境的真實性而達到欺騙攻擊者的目的,本文提出一種基于動態(tài)偽裝網(wǎng)絡(luò)的主動欺騙防御方法。動態(tài)偽裝網(wǎng)絡(luò)的定義如定義1 所示。
定義1動態(tài)偽裝網(wǎng)絡(luò)(DCN,dynamic camouflage net)DCN=(G,G′)。對一個特定的真實網(wǎng)絡(luò)G,動態(tài)實時地模擬真實網(wǎng)絡(luò)G中節(jié)點、拓撲、功能及數(shù)據(jù)等,創(chuàng)建用于欺騙攻擊者入侵而獲得攻擊者知識的偽裝網(wǎng)絡(luò)G′。其中G′可以是真實的物理網(wǎng)絡(luò),也可以是利用軟件定義網(wǎng)絡(luò)(SDN,software defined network)及虛擬化的容器技術(shù)創(chuàng)建的網(wǎng)絡(luò)。動態(tài)偽裝網(wǎng)絡(luò)的拓撲示例如圖1 所示。
圖1 動態(tài)偽裝網(wǎng)絡(luò)的拓撲示例
由定義1 及圖1 可知,與傳統(tǒng)的蜜罐或蜜網(wǎng)不同,DCN 近似完美地“復制”真實網(wǎng)絡(luò)G,真實網(wǎng)絡(luò)中的每一個節(jié)點都能在偽裝網(wǎng)絡(luò)G′中找到它的“影子”節(jié)點,其真實性更高,對攻擊者的干擾性也更強,更易實現(xiàn)欺騙攻擊者的目的。然而,通常情況下,真實網(wǎng)絡(luò)運行著正常的業(yè)務活動或為合法用戶提供服務,其系統(tǒng)活躍性較高;相反,偽裝網(wǎng)絡(luò)盡管與真實網(wǎng)絡(luò)相似,但由于偽裝網(wǎng)絡(luò)是專門為攻擊者打造的,缺少正常的網(wǎng)絡(luò)業(yè)務活動,其系統(tǒng)活躍性相對較低,一旦有用戶訪問偽裝網(wǎng)絡(luò),則認為該用戶為攻擊者。該問題也導致攻擊者會依據(jù)所在網(wǎng)絡(luò)的系統(tǒng)活性來分辨其所處的網(wǎng)絡(luò)類型,防止被欺騙。
鑒于此,本文深入分析該攻防場景,利用主動欺騙思想,設(shè)計了一種基于動態(tài)偽裝網(wǎng)絡(luò)的主動欺騙防御方法。該方法中,借助動態(tài)偽裝網(wǎng)絡(luò),防御者向攻擊者發(fā)送偽裝信號,使處于真實網(wǎng)絡(luò)中的攻擊者受到威懾而放棄攻擊,并使處于偽裝網(wǎng)絡(luò)中的攻擊者受到欺騙而攻擊虛假目標,從而實現(xiàn)對目標網(wǎng)絡(luò)的更好防護?;趧討B(tài)偽裝網(wǎng)絡(luò)的主動欺騙攻防場景如圖2 所示。
圖2 基于動態(tài)偽裝網(wǎng)絡(luò)的主動欺騙攻防場景
依據(jù)圖2,基于偽裝網(wǎng)絡(luò)的網(wǎng)絡(luò)主動欺騙攻防場景可分為以下5 個步驟。
Step1攻擊者為了達到攻擊目標,需要對目標網(wǎng)絡(luò)進行持續(xù)滲透,在滲透過程中,攻擊者可能入侵真實網(wǎng)絡(luò)或者偽裝網(wǎng)絡(luò)。此外,防御者可通過流量牽引的方法,將處于真實網(wǎng)絡(luò)中某一節(jié)點的攻擊者牽引到偽裝網(wǎng)絡(luò)中對應的節(jié)點,從而實現(xiàn)攻擊者由真實網(wǎng)絡(luò)到偽裝網(wǎng)絡(luò)的被動牽引。
Step2防御者通過分析網(wǎng)絡(luò)產(chǎn)生的告警來實現(xiàn)對攻擊者的行為感知,進而推斷攻擊者當前所處的節(jié)點及攻擊目標。
Step3一方面,攻擊者通過分析所在網(wǎng)絡(luò)的系統(tǒng)活性來識別該網(wǎng)絡(luò)類型,進而決策下一步的攻擊;另一方面,防御者可發(fā)送偽裝信號來干擾攻擊者(通過減少或暫停部分網(wǎng)絡(luò)活動來降低真實網(wǎng)絡(luò)的系統(tǒng)活性,或通過偽造虛假的流量來提高偽裝網(wǎng)絡(luò)的系統(tǒng)活性),使攻擊者無法正確識別其所處的網(wǎng)絡(luò)類型。在此過程中,攻擊者與防御者展開博弈,該博弈過程可用信號博弈模型描述。
Step4依據(jù)博弈結(jié)果,防御者選取最優(yōu)的防御策略,即是否發(fā)送偽裝信號。
Step5依據(jù)博弈結(jié)果,攻擊者選取最優(yōu)的攻擊策略,即是否對攻擊目標發(fā)動攻擊。
任何實用的防御策略均需要考慮防御收益,博弈論是網(wǎng)絡(luò)安全領(lǐng)域公認的定量分析攻防對抗收益的有力工具。在基于動態(tài)偽裝網(wǎng)絡(luò)的網(wǎng)絡(luò)主動欺騙防御攻防場景中,網(wǎng)絡(luò)類型對攻擊策略有著重要的影響:若攻擊者處于真實網(wǎng)絡(luò)中,它將繼續(xù)滲透最終實現(xiàn)攻擊目標;若攻擊者處于偽裝網(wǎng)絡(luò)中,它將放棄攻擊以減少毫無意義的攻擊花費。事實上,攻擊者并不知道其所處網(wǎng)絡(luò)的類型,而需通過探測所處網(wǎng)絡(luò)的系統(tǒng)活性來推斷網(wǎng)絡(luò)類型;防御者可通過發(fā)送偽裝信號來干擾攻擊者的推斷。已有研究表明,信號博弈模型可以使防御者通過主動選擇及發(fā)送偽裝信號,實現(xiàn)對攻擊者的欺騙、干擾,提升主動欺騙防御能力,適用于本文提出的攻防場景,能夠為防御者選取最優(yōu)防御策略提供指導。
作為不完全信息動態(tài)博弈的一種,信號博弈能夠準確描述不確定信息對攻防策略選擇的影響。由第2 節(jié)的攻防場景描述可知,攻防對抗過程是一個非合作、不完全信息、多階段、動態(tài)博弈的過程。因此,該過程可用信號博弈模型來描述,定義如下。
定義2信號博弈模型(SGM,signaling game model)是一個五元組,即SGM=(?,Θ,S,P,U),各變量具體定義如下。
1)?={?d,?a}為局中人集合,?d為防御者,作為信號發(fā)送者;?a為攻擊者,作為信號接收者。
2)Θ={N,H}為防御者類型空間,在該攻擊過程中,防御者類型可認為是攻擊者所處的網(wǎng)絡(luò)類型,N表示攻擊者處于真實網(wǎng)絡(luò)G,H表示攻擊者處于偽裝網(wǎng)絡(luò)G′。攻擊者并不知道其所處的網(wǎng)絡(luò)類型,其僅有對自己所處網(wǎng)絡(luò)類型的先驗概率。
3)S={D,A}為防御者與攻擊者的行動空間。其中,D={d1,d2}為防御者的行動空間,d1代表維持和真實網(wǎng)絡(luò)相似的較高的系統(tǒng)活性,d2表示維持和偽裝網(wǎng)絡(luò)相似的較低的系統(tǒng)活性。具體來講:①當防御者類型為N時,防御者一方面可不采取任何動作來實現(xiàn)行動d1,另一方面可通過減少或暫停部分網(wǎng)絡(luò)活動來降低真實網(wǎng)絡(luò)的系統(tǒng)活性,使真實網(wǎng)絡(luò)看起來與偽裝網(wǎng)絡(luò)相似,從而來實現(xiàn)行動d2;② 當防御者類型為H時,防御者一方面可通過偽造虛假的流量來提高偽裝網(wǎng)絡(luò)的系統(tǒng)活性,使偽裝網(wǎng)絡(luò)看起來與真實網(wǎng)絡(luò)相似,從而來實現(xiàn)行動d1,另一方面可不采取任何動作來實現(xiàn)行動d2。A={a1,a2}為攻擊者的行動空間,a1表示攻擊者選擇入侵,a2表示攻擊者選擇不入侵。
4)P:Θ?[0,1]×[0,1]為攻擊者對防御者類型的先驗概率。P=[p,1-p],其中p=P(Θ=N)表示防御者類型是真實網(wǎng)絡(luò)的概率,1-p=P(Θ=H)表示防御者類型是偽裝網(wǎng)絡(luò)的概率。
5)U={ud,ua}為防御者和攻擊者的收益函數(shù)。
本文所提信號博弈模型主要分為4 個階段。
1)自然以概率分布(p,1-p)從防御者類型空間Θ={N,H}選擇防御者類型,即P(Θ=N)=p∈[0,1],P(Θ=H)=1-p∈[0,1]。
2)由于目標網(wǎng)絡(luò)入侵檢測系統(tǒng)的存在,防御者能夠?qū)崟r感知攻擊者所處的網(wǎng)絡(luò)類型。當防御者觀察到防御者類型后,從偽裝信號集D={d1,d2}中選擇一個信號進行執(zhí)行。
3)攻擊者不能觀測到防御者類型,但能觀測到防御者發(fā)送的信號,然后從攻擊行動集A={a1,a2}中選擇一個動作。
4)攻防雙方得到收益函數(shù)U={ud,ua},收益函數(shù)的設(shè)定原則為回報與花費之差。
圖3 給出了本文所提信號博弈模型的一種擴展式描述。圖3 中的每一個分支表示一種博弈情況,由虛線連接的節(jié)點構(gòu)成一個信息集。由于攻擊者不能確定防御者的類型,因此攻擊者不能區(qū)分信息集中的節(jié)點屬于哪一種防御者類型。圖3 中包含了2個信息集,一個是d1信息集,另一個是d2信息集。
圖3 信號博弈的擴展式表述
對于防御者來講,當防御者類型為N,即攻擊者當前所處的網(wǎng)絡(luò)為真實網(wǎng)絡(luò)時,若防御者執(zhí)行行動d1,表示防御者沒有采取任何動作,其花費為0;若防御者執(zhí)行行動d2,表示防御者減少或暫停部分網(wǎng)絡(luò)活動來降低真實網(wǎng)絡(luò)的系統(tǒng)活性,需要一定的花費。同樣,當防御者類型為H,即攻擊者當前所處的網(wǎng)絡(luò)為偽裝網(wǎng)絡(luò)時,若防御者執(zhí)行行動d1,表示防御者偽造虛假流量來提高偽裝網(wǎng)絡(luò)的系統(tǒng)活性,需要一定的花費;若防御者執(zhí)行行動d2,表示防御者沒有采取任何動作,其花費為0。為了簡化,假設(shè)處于真實網(wǎng)絡(luò)中的防御者減少或暫停部分網(wǎng)絡(luò)活動來降低真實網(wǎng)絡(luò)系統(tǒng)活性所需的花費與處于偽裝網(wǎng)絡(luò)中的防御者偽造虛假流量來提高偽裝網(wǎng)絡(luò)系統(tǒng)活性所需的花費相同,統(tǒng)一記為f。
對于滲透攻擊的攻擊者來講,攻擊者入侵的最終目標往往是獲得目標網(wǎng)絡(luò)中一個攻擊目標節(jié)點的Root 權(quán)限,如入侵目標網(wǎng)絡(luò)的數(shù)據(jù)庫服務器進而獲得機密數(shù)據(jù)。不妨設(shè)攻擊者的攻擊目標節(jié)點價值為g,則攻擊者入侵真實網(wǎng)絡(luò)中的攻擊目標節(jié)點成功時,其獲得收益g,付出的攻擊代價記為c,顯然,此時防御者便失去了價值g。相反,若攻擊者入侵了偽裝網(wǎng)絡(luò)中的攻擊目標節(jié)點時,由于偽裝網(wǎng)絡(luò)和真實網(wǎng)絡(luò)的拓撲相同,其付出的攻擊代價同樣為c,然而攻擊者在偽裝網(wǎng)絡(luò)中獲取的數(shù)據(jù)只能是虛假數(shù)據(jù),其攻擊收益為0。此外,該種情況下,由于入侵偽裝網(wǎng)絡(luò),攻擊者的身份等信息會暴露給防御者,對攻擊者造成一定的損失,記為k,顯然,此時防御者可得到收益k。一般來說,k的值相對較小,本文假設(shè)g>k,f>k。
在圖3 中,當防御者類型為N,防御者和攻擊者分別采取策略(d1,a1)時,防御者的收益為-g,攻擊者的收益為g-c;當防御者類型為N,防御者和攻擊者分別采取策略(d1,a2)時,防御者的收益為0,攻擊者的收益為0。其他情況的攻防雙方收益不再贅述。
3.1 節(jié)給出了攻防雙方的信號博弈模型,依據(jù)博弈均衡理論可知,該博弈模型的納什均衡能夠給出攻防雙方的最優(yōu)策略。而事實上,博弈模型的均衡結(jié)果往往取決于攻防雙方的收益函數(shù)。因此,如何準確量化博弈模型中攻防雙方的收益函數(shù)成為選取最優(yōu)防御策略的關(guān)鍵。依據(jù)圖3 可知,本文信號博弈模型中,有4 個需要量化的參數(shù):真實網(wǎng)絡(luò)中攻擊目標節(jié)點的價值g、攻擊者入侵偽裝網(wǎng)絡(luò)產(chǎn)生的損失k、防御者發(fā)送偽裝信號所需的代價f和攻擊者滲透過程花費的攻擊代價c。由于前3 個參數(shù)的設(shè)定相對簡單,可依據(jù)網(wǎng)絡(luò)自身價值以及攻擊者知識直接量化。攻擊者滲透過程花費的攻擊代價c往往與網(wǎng)絡(luò)中的漏洞難易程度、攻擊者能力及攻擊者所處的網(wǎng)絡(luò)位置等因素有關(guān),不能直接設(shè)定。鑒于此,為了準確量化該參數(shù),本文提出基于雙層滲透威脅圖(TLTPG,two-layer threat penetration graph)的攻擊代價量化方法。雙層滲透威脅圖是一個雙層圖結(jié)構(gòu),下層為主機威脅滲透圖(HTPG,host threat penetration graph),描述了目標網(wǎng)絡(luò)中任意2 個主機間的微觀滲透場景;上層為網(wǎng)絡(luò)威脅滲透圖(NTPG,network threat penetration graph),描述了目標網(wǎng)絡(luò)中各主機之間的宏觀滲透關(guān)系。
定義3主機威脅滲透圖GHTPG=(NHTPG,EHTPG)。NHTPG表示節(jié)點,用<Host,Privilege>表示,描述攻擊者獲得的主機權(quán)限,其中Host 表示攻擊者已滲透的主機,可用該主機的IP 地址表示,Privilege 表示攻擊者獲得的主機權(quán)限,分為User 和Root;EHTPG表示邊,用于描述單步滲透攻擊,用<Service,Vulnerability,Probability>表示,其中Service 表示滲透攻擊所利用的主機服務,Vulnerability 表示滲透攻擊所利用主機服務上的漏洞,一般用公共漏洞和暴露(CVE,common vulnerability and exposure)編號表示,Probability 表示滲透攻擊成功的概率。
定義4網(wǎng)絡(luò)威脅滲透圖GNTPG=(NNTPG,ENTPG)。NNTPG表示節(jié)點,描述主機標識,一般用主機的IP地址表示;ENTPG表示邊,描述主機間滲透成功概率,用<UP,RP>表示,其中UP表示從源主機滲透獲得目的主機User 權(quán)限的概率,RP表示從源主機滲透獲得目的主機Root 權(quán)限的概率,二者均為0~1之間的實數(shù)。
圖4 展示了一個簡單的TLTPG 實例。相對于傳統(tǒng)的攻擊圖,TLTPG 通過分層,宏觀與微觀相結(jié)合,有效減少了由于生成全局攻擊圖造成的高計算復雜度和空間復雜度,便于量化及計算面向滲透攻擊的攻擊代價。
TLTPG 能夠給出目標網(wǎng)絡(luò)中任意2 個主機的直接滲透成功概率,在此基礎(chǔ)上,文獻[31]給出了任意2 個主機間的最優(yōu)滲透路徑的生成方法。由于攻擊者在入侵時,總希望付出較少的攻擊代價,因此可假設(shè)攻擊者進行滲透攻擊時,會沿著最優(yōu)滲透路徑傳輸。此外,TLTPG 給出了滲透成功概率,而事實上,攻擊代價與滲透成功概率有著重要的聯(lián)系。一般人們認為,滲透成功概率越高,攻擊代價越低;相反則攻擊代價越高。滲透成功概率是依據(jù)通用漏洞評分系統(tǒng)(CVSS,common vulnerability scoring system)和網(wǎng)絡(luò)拓撲量化得來,可信度較高,也得到學者的廣泛認可。然而,針對攻擊代價量化評估的相關(guān)研究較少,大多依據(jù)專家經(jīng)驗,準確度不高。因此,通過滲透成功概率來間接量化攻擊代價是一種合理的方法。鑒于此,本文研究得出一種利用滲透成功率量化攻擊代價的新方法。不妨設(shè)當攻擊者從節(jié)點ni入侵節(jié)點nj時,其攻擊成功率為sij,其需要的攻擊代價記為cij。則在同一個TLTPG 中,cij的量化需要滿足以下2 個條件。
圖4 一個簡單的TLTPG 實例
1)對于任意2 個滲透動作eij(攻擊者從節(jié)點in入侵節(jié)點nj)和epq(攻擊者從節(jié)點np入侵節(jié)點nq),若sij≤spq,則cpq≥cij。
2)對于任意2 條攻擊路徑pathij=ni→nx→ny→ …→nz→nj和pathpq=np→→ …→→nq,若存在,則有。
定理1當時,其中κ為一正值,可用cij來表示攻擊者能力系數(shù),其滿足上述2 個條件。
證明
證畢。
信號博弈作為一種不完全信息動態(tài)博弈,其對應的納什均衡為精煉貝葉斯納什均衡。納什均衡的存在性定理表明,任何一個有限博弈都至少存在一個納什均衡(純策略和混策略)[32]。然而,許多學者在分析信號博弈的均衡過程中,為了簡化均衡求解過程,往往通過主觀限定條件,僅僅考慮純策略(包含分離策略和混同策略),忽略混策略。這種情況往往會遺漏最優(yōu)策略。除此之外,由于混策略可看成純策略的隨機組合。在混策略中,局中人在博弈前通過隨機裝置確定自己的策略,如上拋一枚硬幣等,其他局中人便不能觀測到其行為,這增加了對方的不確定性,更適合于欺騙防御攻防場景。鑒于此,本文提出一種統(tǒng)一簡潔的精煉貝葉斯納什均衡求解方法,該方法能將純策略與混策略統(tǒng)一起來求解,且求解方式快速簡潔。
定義5信號博弈模型(SGM,signaling game model)具有精煉貝葉斯納什均衡EQ=(d*(θ),a*(d),,其中d*(θ)為防御者的類型依存信號策略,表明防御者類型為θ Θ∈ 時,其執(zhí)行的偽裝信號策略為d*()θ;a*(d)為攻擊者的依存信號策略,表明攻擊者在接收到防御者發(fā)送的信號d時,其執(zhí)行的攻擊策略為a*(d);為攻擊者在接收到防御者發(fā)送的信號d后,判斷防御者類型的后驗概率。該均衡滿足以下3 個條件。
1)a*(d)=。
2)d*(θ)=。
依據(jù)定義5,本文的精煉貝葉斯均衡的求解方法可分為4 步。
1)攻防雙方策略形式化表示
若防御者的策略為:當節(jié)點類型為N時,以概率e1發(fā)送信號d1,以概率1-e1發(fā)送信號d2;當節(jié)點類型為H時,以概率e2發(fā)送信號d1,以概率1-e2發(fā)送信號d2。則該策略可形式化表示為。
若攻擊者的策略為:當接收到信號d1時,以概率τ1選擇動作a1,以概率1-τ1選擇動作a2;當接收到信號d2時,以概率τ2選擇動作a1,以概率1-τ2選擇動作a2。則該策略可形式化表示為。
2)攻擊者對防御者類型的后驗概率確定
攻擊者對防御者類型的后驗概率的確定由其先驗概率與防御者策略決定,并依據(jù)貝葉斯定理推斷得出。
不妨設(shè)先驗概率p(N)=p,則p(H)=1-p。當防御者采取策略時,由貝葉斯定理知
3)防御者最優(yōu)策略判定
進而可化簡為
4)攻擊者最優(yōu)策略判定
進而可化簡為
不妨令
由一次函數(shù)單調(diào)性可知
其中,rand(0,1)表示0~1 之間的任意值。顯然,任意一組 (e1,e2,τ1,τ2)解,均可構(gòu)成一個納什均衡
例如,當滿足
時,可得(e1,e2,τ1,τ2)=(0,0,1,0),此時存在均衡((d2,d2),(a1,a2))。式(21)可化簡為
于是,當滿足式(22)時,存在均衡((d2,d2),(a1,a2)),顯然,該均衡為純策略。同理可求得該信號博弈模型中的所有納什均衡。特別地,當 (e1,e2,τ1,τ2)的解中不存在rand(0,1)時,其對應的納什均衡為純策略納什均衡;反之,當 (e1,e2,τ1,τ2)的解中存在rand(0,1)時,其對應的納什均衡為混策略納什均衡。最終計算得出,本文信號博弈模型存在的所有納什均衡如表1 所示。表1 納什均衡中e1、e2、τ1、τ2的解均可視為rand(0,1)。
表1 不同網(wǎng)絡(luò)攻防狀態(tài)條件下的所有精煉貝葉斯均衡解
表1 展示了不同網(wǎng)絡(luò)攻防條件下的所有精煉貝葉斯納什均衡解。由納什均衡的存在性定理知,對于不同的網(wǎng)絡(luò)攻防條件,必存在納什均衡解,而該均衡解便可作為最優(yōu)欺騙防御策略。此外,在本文的攻防博弈模型中,防御者先于攻擊者做決策,即防御者具有“提前選擇”優(yōu)勢[27]。若存在多重均衡問題,一方面防御者可依據(jù)最大化自己的收益來選擇策略;另一方面由于混策略具有干擾攻擊者的作用,適用于欺騙防御策略,在收益相同的條件下,防御者可傾向于采用混策略。當防御者采用混策略時,需要根據(jù)實際情況使用一種隨機裝置,而該種隨機裝置最好不要讓攻擊者知道。
為了驗證本文方法的有效性,搭建了一個實際網(wǎng)絡(luò)環(huán)境來進行測試。實驗網(wǎng)絡(luò)拓撲如圖5 所示。
實驗網(wǎng)絡(luò)主要由2 個網(wǎng)絡(luò)構(gòu)成,即真實網(wǎng)絡(luò)和偽裝網(wǎng)絡(luò)。偽裝網(wǎng)絡(luò)是依據(jù)真實網(wǎng)絡(luò)構(gòu)造的,其拓撲與真實網(wǎng)絡(luò)保持一致。兩者之間的唯一差別在于真實網(wǎng)絡(luò)部署著真實的數(shù)據(jù)且運行著正常的業(yè)務活動,而偽裝網(wǎng)絡(luò)部署著虛假的數(shù)據(jù)且沒有運行正常的業(yè)務活動。攻擊者可利用Internet 訪問真實網(wǎng)絡(luò)。2 個網(wǎng)絡(luò)都可分為4 個區(qū)域,分別是DMZ 區(qū)、子網(wǎng)1、子網(wǎng)2 和子網(wǎng)3。DMZ 區(qū)有一臺Web 服務器。子網(wǎng)1 有2 臺設(shè)備,分別是一臺Pad 和一臺主機,可連接Internet。子網(wǎng)2 有2 臺主機,不能連接Internet。子網(wǎng)3 包括3 臺服務器,分別是打印服務器、文件服務器和數(shù)據(jù)服務器。網(wǎng)絡(luò)中的服務訪問規(guī)則如表2 所示。其中,攻擊者為Internet 中的一臺主機。通過Nessus 漏洞掃描器對網(wǎng)絡(luò)中各網(wǎng)絡(luò)段進行掃描,得到各主機中漏洞信息,結(jié)合CVSS,得到表3 所示的各主機信息及其所含漏洞信息。特別地,Pad和Host1并不能通過網(wǎng)絡(luò)訪問內(nèi)網(wǎng)的Host2和Host3,但由于人為操作不當?shù)囊蛩?,可通過USB等傳輸設(shè)備連接到Host2和Host3。
依據(jù)滲透威脅圖的生成方法[31]可知,整個目標網(wǎng)絡(luò)的網(wǎng)絡(luò)威脅滲透關(guān)系如圖6 所示。攻擊者能夠利用漏洞在網(wǎng)絡(luò)中不斷滲透,此外,防御者可利用流量牽引的方法將攻擊者從真實網(wǎng)絡(luò)中的一個節(jié)點牽引到偽裝網(wǎng)絡(luò)中對應的節(jié)點中。經(jīng)過實驗測試,流量牽引的過程時延為毫秒級,故本文假設(shè)其不會被攻擊者發(fā)現(xiàn)。進一步,參考文獻[26-27]的賦值方法,不妨設(shè)攻擊者的攻擊目標是入侵數(shù)據(jù)服務器并獲取機密數(shù)據(jù),其價值設(shè)為100,即g=100。攻擊者入侵偽裝網(wǎng)絡(luò)產(chǎn)生的損失為20,即k=20。防御者發(fā)送偽裝信號所需的代價為30,即f=30。依據(jù)圖6 可得目標網(wǎng)絡(luò)中任意節(jié)點之間的最優(yōu)滲透概率,進而可利用3.2 節(jié)的方法來定量刻畫攻擊者從一個節(jié)點到另一個節(jié)點所需的攻擊代價,不妨設(shè)攻擊者能力系數(shù)κ=30。最初,外部攻擊者成功入侵數(shù)據(jù)服務器的最優(yōu)滲透路徑為攻擊者→Pad→Host3→數(shù)據(jù)服務器,故其滲透成功概率為0.6×0.32×0.6=0.115 2,則在此過程攻擊者需要花費的攻擊代價為c=28。不妨設(shè)防御者類型為真實網(wǎng)絡(luò)的概率p=0.7,則處于外部的攻擊者與防御者展開信號博弈,納什均衡為EQ4,其中e1=0.714,τ2=0.7。由均衡結(jié)果可知,在此場景下,防御者的最優(yōu)策略為:真實網(wǎng)絡(luò)以0.714 的概率發(fā)送信號d1,以0.286 的概率發(fā)送信號d2(模擬偽裝網(wǎng)絡(luò)特征);偽裝網(wǎng)絡(luò)則發(fā)送信號d2。隨著攻擊者的滲透過程,攻擊者在網(wǎng)絡(luò)中的位置會不斷深入,本文分析了當攻擊者處于不同節(jié)點時的精煉貝葉斯均衡結(jié)果,如表4 所示。
表2 網(wǎng)絡(luò)中的服務訪問規(guī)則
圖5 實驗網(wǎng)絡(luò)拓撲
表3 各主機信息及其所含漏洞信息
圖6 實驗網(wǎng)絡(luò)的網(wǎng)絡(luò)威脅滲透關(guān)系
由表4 可知,從文件服務器及打印服務器這2個節(jié)點對目標數(shù)據(jù)服務器進行滲透的難度較大,攻擊者很少會對這2 個節(jié)點發(fā)起攻擊。當攻擊者由外部不斷向網(wǎng)絡(luò)內(nèi)部滲透時,假設(shè)攻擊者對防御者類型的信念p保持不變,攻擊者需要花費的攻擊代價c逐漸減小,存在精煉貝葉斯均衡EQ4。在此過程中,攻防雙方均依據(jù)EQ4做出最優(yōu)策略,防御者最優(yōu)策略中的e1逐漸增大,表明隨著攻擊的不斷深入,防御者發(fā)送真實信號的比重應該越來越大,而發(fā)送偽裝信號的比重應該越來越小。
表4 攻擊者處于網(wǎng)絡(luò)中不同節(jié)點時的均衡分析結(jié)果
通過分析精煉貝葉斯均衡的計算過程可知,攻擊者對防御者類型的先驗信念p和攻擊代價c是影響策略選擇和攻防雙方收益的關(guān)鍵因素,且p和c可能會隨著攻擊者的滲透過程而變化。因此,本文進一步深入分析了p和c的變化對防御者最優(yōu)策略的影響,其結(jié)果如圖7 所示。由于在本文的信號博弈模型中,防御者首先做決策,即防御者具有“提前選擇”優(yōu)勢,此種情況下攻擊者只能在觀測到防御者發(fā)出的信號后選擇最優(yōu)攻擊策略,攻擊者收益對多重均衡選擇問題并沒有影響,因此本文并沒有關(guān)注p和c的變化對攻擊者收益的影響。
在圖7 中,當p和c同時變化時,攻防雙方均依據(jù)精煉貝葉斯納什均衡做出最優(yōu)決策。圖7(a)展示了當攻擊者處于真實網(wǎng)絡(luò)中(防御者類型為N)時,p和c的變化對防御者收益的影響。當時,防御者的收益保持在-30;當時,防御者的收益保持在-100;當時,防御者的收益與攻擊者策略有關(guān),保持在-100~-30 之間。圖7(b)展示了當攻擊者處于偽裝網(wǎng)絡(luò)中(防御者類型為H)時,p和c的變化對防御者收益的影響。當時,防御者的收益保持在 0;當時,防御者的收益保持在20;當時,防御者的收益與攻擊者策略有關(guān),保持在0~14之間。圖7(c)展示了p和c的變化對防御者最優(yōu)策略中參數(shù)e1的影響。當時,e1為0;當時,e1在0~1 之間。此外,由圖7 可知,無論p和c如何變化,Ud|N<Ud|H恒成立,故可知流量牽引能夠提高防御者的收益。為了便于分析,進一步考慮了以下2 種攻防場景。
圖7 先驗信念p和攻擊代價c的變化對防御者策略的影響
場景1攻擊者對實驗網(wǎng)絡(luò)不斷滲透,一方面攻擊者對防御者類型的先驗概率保持不變,另一方面由于攻擊者位置與實驗網(wǎng)絡(luò)中漏洞情況變化會導致攻擊者的攻擊代價發(fā)生改變,即c變p不變。該場景中防御者策略結(jié)果如圖8 所示。
由圖8 可知,當攻擊者處于真實網(wǎng)絡(luò)中時,適當?shù)靥岣遚使其滿足c>p(g+k)-k,能夠提高防御者的收益,本質(zhì)上是提高攻擊難度來震懾攻擊者,使其不去攻擊真實網(wǎng)絡(luò);當攻擊者處于偽裝網(wǎng)絡(luò)中時,適當?shù)亟档蚦使其滿足c<p(g+k)-k,能夠提高防御者的收益,本質(zhì)上是降低攻擊難度來誘惑攻擊者,使其去攻擊偽裝網(wǎng)絡(luò)以達到間接保護真實網(wǎng)絡(luò)的目的。此外,當c<p(g+k)-k時,若攻擊者處于真實網(wǎng)絡(luò)中,當c較大時,防御者策略中的e1較大,表明攻擊者對虛假防御信號的分辨能力較差,此時防御者發(fā)送真實信號的比重應該越來越小,而發(fā)送偽裝信號的比重應該越來越大,以最大化干擾攻擊者。
場景2攻擊者一直嘗試從一個固定節(jié)點對目標發(fā)起攻擊且實驗網(wǎng)絡(luò)的漏洞情況不發(fā)生改變,而攻擊者對防御者類型的先驗信念會不斷變化,即p變c不變。該場景中防御者策略結(jié)果如圖9 所示。
圖8 c變p不變時對防御者策略的影響
圖9 p變c不變時對防御者策略的影響
由圖9 可知,當攻擊者處于真實網(wǎng)絡(luò)中時,適當?shù)販p小p使其滿足,能夠提高防御者收益;當攻擊者處于偽裝網(wǎng)絡(luò)中時,適當?shù)卦龃髉使其滿足,能夠提高防御者收益。該事實說明,防御者可利用社會工程學手段干擾并改變攻擊者的先驗概率來提高防御者收益。此外,當攻擊者處于真實網(wǎng)絡(luò)中時,隨著其對虛假防御信號分辨能力的提高,p會不斷變大,進而防御者策略中的e1變大,此時防御者發(fā)送真實信號的比重應該越來越大,而發(fā)送偽裝信號的比重應該越來越小,防止防御信號被攻擊者識別。
特別地,圖8 和圖9 中的垂直虛線表示均衡的一種特殊情況。在該均衡中,防御者收益受攻擊者策略影響,為一變量。例如,圖8(a)中,當c=p(g+k)-k時,均衡策略中攻擊者策略參數(shù)范圍為0<τ2<,對應的防御者收益為變量-τ2g-f。
信號博弈模型中,由于信號發(fā)送方能夠混淆信號接收方對其類型的信念,使信號博弈模型在描述不完全信息的網(wǎng)絡(luò)攻防中具有天然優(yōu)勢。當前,信號博弈模型已被很多學者應用于網(wǎng)絡(luò)攻防策略選取上。鑒于此,將本文方法與其他典型方法對比,其結(jié)果如表5 所示。
表5 本文方法與其他典型方法對比
由表5 可知,文獻[26,28-29]均不考慮混策略,僅有文獻[27]和本文方法考慮了混策略,但文獻[27]的博弈過程僅局限于單階段且均衡求解方法不夠詳細,方法的通用性一般。本文方法適用于描述滲透攻擊全過程,對場景描述詳細,方法的通用性較強,且給出了一種詳細的統(tǒng)一混策略和純策略的均衡求解方法。均衡求解及防御策略選取也表明了混策略相比純策略更適用于欺騙防御,能夠增加策略對攻擊者的干擾性,提高防御的實際效能。
綜上可知,在基于偽裝網(wǎng)絡(luò)的網(wǎng)絡(luò)主動欺騙防御攻防場景中,利用本文構(gòu)建的信號博弈模型求解的精煉貝葉斯納什均衡能夠為防御者實施最優(yōu)防御策略提供有效指導,實現(xiàn)防御者收益最大化。
為了抵抗目標性較強的滲透攻擊,本文提出一種基于動態(tài)偽裝網(wǎng)絡(luò)的主動欺騙防御方法。借助動態(tài)偽裝網(wǎng)絡(luò),防御者通過發(fā)送偽裝信號來欺騙干擾攻擊者。為了實現(xiàn)最大化防御者收益,將攻防過程用信號博弈模型進行刻畫,進一步利用精煉貝葉斯納什均衡解作為最優(yōu)欺騙防御策略。所提方法能夠同時求解出純策略和混策略,且利用混策略更利于欺騙攻擊者。實驗結(jié)果表明,本文方法能有效欺騙攻擊者,從而實現(xiàn)對真實網(wǎng)絡(luò)的保護。未來的工作包括在動態(tài)偽裝網(wǎng)絡(luò)中利用MTD 技術(shù)加強對攻擊者的干擾,并結(jié)合欺騙防御方法實現(xiàn)更有效的防御。