沈士根,周海平,黃龍軍,范 恩,胡珂立,曹奇英
(1.紹興文理學(xué)院計(jì)算機(jī)科學(xué)與工程系,浙江 紹興 312000;2. 東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620)
項(xiàng)目來(lái)源:國(guó)家自然科學(xué)基金項(xiàng)目(61772018,61603258,61272034)
2017-04-08修改日期2017-06-09
基于最優(yōu)反應(yīng)均衡的傳感網(wǎng)惡意程序傳播抑制方法*
沈士根1,周海平1,黃龍軍1,范 恩1,胡珂立1,曹奇英2
(1.紹興文理學(xué)院計(jì)算機(jī)科學(xué)與工程系,浙江 紹興 312000;2. 東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620)
為抑制傳感網(wǎng)惡意程序傳播,在考慮傳感網(wǎng)惡意程序傳播參與者“有限理性”的基礎(chǔ)上,提出一種基于最優(yōu)反應(yīng)均衡的方法。根據(jù)傳感網(wǎng)惡意程序傳播過(guò)程中的博弈分析,建立傳感網(wǎng)惡意程序傳播階段博弈模型以反應(yīng)傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)之間的博弈交互過(guò)程。由參與者之間博弈交互持續(xù)進(jìn)行的事實(shí),建立傳感網(wǎng)惡意程序傳播重復(fù)博弈模型。使用最優(yōu)反應(yīng)均衡預(yù)測(cè)傳感網(wǎng)惡意程序的行為以解決重復(fù)博弈納什均衡解求解困難的問(wèn)題,給出抑制傳感網(wǎng)惡意程序傳播的算法。實(shí)驗(yàn)分析了參與者基于最優(yōu)反應(yīng)均衡的策略,對(duì)所提出方法的有效性進(jìn)行了驗(yàn)證。
傳感網(wǎng);惡意程序;有限理性;最優(yōu)反應(yīng)均衡
近年來(lái),保障包括物聯(lián)網(wǎng)安全在內(nèi)的網(wǎng)絡(luò)空間安全已上升到前所未有的高度[1-2]。由于傳感網(wǎng)是物聯(lián)網(wǎng)構(gòu)成的基礎(chǔ),所以物聯(lián)網(wǎng)安全的保障實(shí)際上需要通過(guò)保障傳感網(wǎng)安全來(lái)實(shí)現(xiàn)。其中,傳感網(wǎng)惡意程序已成為破壞傳感網(wǎng)安全的主要威脅[3-4]。因此,迫切需要分析傳感網(wǎng)惡意程序的傳播行為,給出防御傳感網(wǎng)惡意程序傳播的方法,以便較好地抑制傳感網(wǎng)惡意程序的傳播。
針對(duì)傳感網(wǎng)惡意程序傳播如何抑制的問(wèn)題,王小明團(tuán)隊(duì)提出了面向移動(dòng)傳感網(wǎng)惡意程序空間分布的定向免疫和恢復(fù)控制策略[5],又在借鑒傳染病防御思想上提出了脈沖免疫和恢復(fù)控制策略[6],還使用Pontryagin極大值原理得到了易感節(jié)點(diǎn)免疫比例與感染節(jié)點(diǎn)恢復(fù)比例的最優(yōu)控制變量對(duì),為抑制惡意程序在移動(dòng)傳感網(wǎng)中傳播提供了安全策略[7]。楊雄等人[8]在擴(kuò)展傳統(tǒng)SIR傳播模型基礎(chǔ)上,提出了一種適用于傳感網(wǎng)的攻防策略優(yōu)化模型。傅蓉蓉等人[9]提出了一種傳感網(wǎng)環(huán)境自適應(yīng)的節(jié)點(diǎn)免疫算法。王田等人[10]在建立移動(dòng)惡意程序傳播模型基礎(chǔ)上,通過(guò)掛起感染邊界附近的高風(fēng)險(xiǎn)節(jié)點(diǎn)來(lái)阻斷惡意程序的進(jìn)一步傳播。Zhu和Zhao[11]針對(duì)傳感網(wǎng)中的惡意程序,給出了基于Pontryagin最大化原理的最優(yōu)防御策略。同樣使用Pontryagin最大化原理,Eshghi等人[12]針對(duì)聚簇網(wǎng)絡(luò)環(huán)境給出了一種優(yōu)化的補(bǔ)丁安裝策略,從而抑制惡意程序的傳播。另外,Yang等人[13]利用軟件多樣性方法抑制惡意程序的傳播。
要實(shí)現(xiàn)傳感網(wǎng)惡意程序傳播的抑制,尋找抑制策略是關(guān)鍵,而抑制策略的選擇在本質(zhì)上需要探究傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)之間的交互和相互依存性問(wèn)題。博弈論與這種交互行為有著天然的密切關(guān)系,能夠充分地考慮傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)策略的依存性及成本與收益之間的平衡性[14],因此,博弈論自然而然已成為一種尋找抑制策略的理論工具。劉玉嶺等人[15]建立了一種基于靜態(tài)貝葉斯博弈的績(jī)效評(píng)估模型以及攻防雙方對(duì)抗情形下的惡意程序攻防策略績(jī)效評(píng)估方法。陳永強(qiáng)等人[16]提出了一種基于模糊貝葉斯博弈模型的網(wǎng)絡(luò)最優(yōu)抑制策略選取方法。王晉東等人[14]提出了一種基于靜態(tài)貝葉斯博弈的最優(yōu)抑制策略選取方法。Garnaev等人[17]利用貝葉斯博弈針對(duì)惡意攻擊的不確定性給出了一種防御策略。Chen等人[18]基于演化博弈提出了一種主動(dòng)防御傳感網(wǎng)惡意程序攻擊的方法。Spyridopoulos等人[19]利用完全信息靜態(tài)博弈給出了能最小化惡意程序傳播影響的優(yōu)化策略。Liu等人[20]基于隨機(jī)演化聯(lián)盟博弈提出了一種針對(duì)傳感云(Sensor-Cloud)服務(wù)系統(tǒng)中動(dòng)態(tài)變化攻擊的動(dòng)態(tài)防御方法。Shen等人[21]提出了基于微分博弈的傳感網(wǎng)惡意程序傳播抑制策略。然而,上述文獻(xiàn)均假設(shè)博弈參與者具有“完全理性”,而在實(shí)際博弈過(guò)程中,參與者常具有學(xué)習(xí)能力,即具有“有限理性”(Bounded Rationality)的特性。
本文考慮傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)的“有限理性”,基于最優(yōu)反應(yīng)均衡(Quantal Response Equilibrium)提出一種抑制傳感網(wǎng)惡意程序傳播的方法。首先,分析傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)博弈過(guò)程中的動(dòng)作及各“動(dòng)作對(duì)”的偏好值,給出傳感網(wǎng)惡意程序傳播階段博弈模型;其次,根據(jù)實(shí)際傳感網(wǎng)環(huán)境中傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)之間博弈交互持續(xù)進(jìn)行的現(xiàn)狀,將傳感網(wǎng)惡意程序傳播階段博弈模型擴(kuò)展為傳感網(wǎng)惡意程序傳播重復(fù)博弈模型;最后,針對(duì)傳感網(wǎng)惡意程序傳播重復(fù)博弈納什均衡解求解困難的問(wèn)題和參與者雙方具有“有限理性”的事實(shí),使用最優(yōu)反應(yīng)均衡預(yù)測(cè)傳感網(wǎng)惡意程序的行為,提出抑制傳感網(wǎng)惡意程序傳播的新方法。
定義1傳感網(wǎng)惡意程序傳播階段博弈模型定義為一個(gè)三元組Θ=(Φ,Γ,Δ),其中:
①Φ={傳感網(wǎng)惡意程序,傳感網(wǎng)入侵檢測(cè)系統(tǒng)}為參與者集合;
②Γ=ΓMal×ΓIDS為參與者動(dòng)作集合的笛卡兒積,其中,ΓMal={aMal|合作(Cooperate,C),故障(Fault,F),預(yù)傳播(Pre-infect,P),傳播(Infect,I)}為傳感網(wǎng)惡意程序的動(dòng)作集合,ΓIDS={aIDS|休眠(Sleep,S),授權(quán)(Grant,G),防御(Defend,D)}為傳感網(wǎng)入侵檢測(cè)系統(tǒng)的動(dòng)作集合;
③Δ=ΔMal×ΔIDS為參與者支付集合的笛卡兒積,其中,ΔMal={uMal(aMal):ΓMal|→}為傳感網(wǎng)惡意程序的支付集合,ΔIDS={uIDS(aIDS):ΓIDS|→}為傳感網(wǎng)入侵檢測(cè)系統(tǒng)的支付集合。
在定義1中,對(duì)于傳感網(wǎng)惡意程序而言,它有4種可能的動(dòng)作。為了迷惑傳感網(wǎng)入侵檢測(cè)系統(tǒng),被惡意程序感染的傳感節(jié)點(diǎn)在與其他節(jié)點(diǎn)通信時(shí)會(huì)采取“合作”動(dòng)作C使傳感網(wǎng)入侵檢測(cè)系統(tǒng)認(rèn)為它是一個(gè)正常節(jié)點(diǎn)。由于傳感網(wǎng)屬于多跳網(wǎng)絡(luò),其網(wǎng)絡(luò)通信可靠度較有線網(wǎng)絡(luò)低,存在一定的數(shù)據(jù)丟包現(xiàn)象,對(duì)于這些不是因?yàn)閻阂獬绦虿扇阂庑袨樵斐傻木W(wǎng)絡(luò)故障問(wèn)題本文將其歸結(jié)為“故障”動(dòng)作F。然而,惡意程序的最終目的是竊取傳感節(jié)點(diǎn)感知的信息,干擾傳感網(wǎng)節(jié)點(diǎn)通信,甚至?xí)ㄟ^(guò)耗盡傳感節(jié)點(diǎn)電源等方式使傳感節(jié)點(diǎn)完全失去功能,為了達(dá)到這些目的,傳感網(wǎng)惡意程序會(huì)采取探測(cè)目標(biāo)傳感節(jié)點(diǎn)的漏洞和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)等方面的“預(yù)傳播”動(dòng)作P,最后再采取“傳播”動(dòng)作I。
另一方面,傳感網(wǎng)入侵檢測(cè)系統(tǒng)可采取的動(dòng)作跟傳感網(wǎng)特性是密切相關(guān)的。由于入侵檢測(cè)系統(tǒng)的運(yùn)行需要耗費(fèi)較多的能量,而傳感節(jié)點(diǎn)能量有限,所以,傳感網(wǎng)中的入侵檢測(cè)系統(tǒng)一直處于運(yùn)行狀態(tài)不是一種優(yōu)化策略,需要采取“休眠”動(dòng)作S降低傳感節(jié)點(diǎn)的能量消耗。傳感網(wǎng)入侵檢測(cè)系統(tǒng)啟動(dòng)后,當(dāng)未檢測(cè)到惡意行為時(shí),需要采取“授權(quán)”動(dòng)作G以便保證傳感節(jié)點(diǎn)的正常工作;當(dāng)檢測(cè)到惡意行為時(shí),需要采取“防御”動(dòng)作D防御惡意程序的傳播。值得說(shuō)明的是,未檢測(cè)到惡意行為包含兩種情況:一種情況是被檢測(cè)的數(shù)據(jù)確實(shí)不包含惡意行為,而另一種情況是由于任何入侵檢測(cè)系統(tǒng)都存在漏報(bào)率,造成惡意行為的漏報(bào)。
根據(jù)上述分析,傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)之間博弈交互時(shí)共有12種“動(dòng)作對(duì)”。例如,“動(dòng)作對(duì)”(C,S)表示傳感網(wǎng)惡意程序表現(xiàn)正常時(shí),傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作S;“動(dòng)作對(duì)”(C,D)和(F,D)分別表示傳感網(wǎng)惡意程序表現(xiàn)正常(動(dòng)作C)和網(wǎng)絡(luò)故障(動(dòng)作F)時(shí),傳感網(wǎng)入侵檢測(cè)系統(tǒng)因誤報(bào)都采取動(dòng)作D;“動(dòng)作對(duì)”(P,G)和(I,G)分別表示傳感網(wǎng)惡意程序表現(xiàn)出惡意行為而采取動(dòng)作P和I時(shí),傳感網(wǎng)入侵檢測(cè)系統(tǒng)因漏報(bào)都采取動(dòng)作G;“動(dòng)作對(duì)”(I,D)表示傳感網(wǎng)惡意程序采取動(dòng)作I時(shí),傳感網(wǎng)入侵檢測(cè)系統(tǒng)成功檢測(cè)到惡意程序的傳播行為而采取動(dòng)作D。
接下來(lái)分析傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取各“動(dòng)作對(duì)”時(shí)的偏好值,并以此確定傳感網(wǎng)惡意程序傳播博弈模型的支付矩陣。對(duì)?x,y∈Γ,記x?y和x~y分別表示“動(dòng)作對(duì)”x的偏好值優(yōu)于“動(dòng)作對(duì)”y和“動(dòng)作對(duì)”x的偏好值等價(jià)于“動(dòng)作對(duì)”y。對(duì)傳感網(wǎng)惡意程序而言,采取動(dòng)作I傳播惡意程序后傳感網(wǎng)入侵檢測(cè)系統(tǒng)未能檢測(cè)到惡意程序時(shí),它獲得的收益最大。而傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作S和G都未能檢測(cè)到惡意程序,因此,(I,S)與(I,G)具有相同的收益。接下來(lái)傳感網(wǎng)惡意程序獲得收益從大到小依次為(P,S)、(F,S)、(C,S)。另一方面,傳感網(wǎng)惡意程序獲得收益最小的是其采取“預(yù)傳播”動(dòng)作P時(shí)就被傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作D實(shí)現(xiàn)防御,隨后依次為(F,D)、(C,D)、(I,D)。綜合上述分析,可得到傳感網(wǎng)惡意程序?qū)Ω鳌皠?dòng)作對(duì)”的偏好次序?yàn)?
(I,S)~(I,G)?(P,S)~(P,G)?(F,S)~(F,G)?
(C,S)~(C,G)?(I,D)?(C,D)?(F,D)?(P,D)
(1)
對(duì)傳感網(wǎng)入侵檢測(cè)系統(tǒng)而言,獲得收益最大的是傳感網(wǎng)惡意程序采取動(dòng)作C而傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作S的情況。由于傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作G比S要消耗更多的能量用于檢查監(jiān)控?cái)?shù)據(jù),所以“動(dòng)作對(duì)”(C,G)獲得的收益其次。當(dāng)傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作D時(shí),它獲得的收益從大到小依次為“動(dòng)作對(duì)”(I,D)、(P,D)、(F,D)、(C,D)。當(dāng)傳感網(wǎng)惡意程序采取動(dòng)作I而傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作G時(shí)傳感網(wǎng)入侵檢測(cè)系統(tǒng)獲得的收益最小,接下來(lái)依次為“動(dòng)作對(duì)”(I,S)、(F,G)、(F,S)、(P,G)、(P,S)。綜合上述分析,可得到傳感網(wǎng)入侵檢測(cè)系統(tǒng)對(duì)各“動(dòng)作對(duì)”的偏好次序?yàn)?
(C,S)?(C,G)?(I,D)?(P,D)?(F,D)?(C,D)?
(P,S)?(P,G)?(F,S)?(F,G)?(I,S)?(I,G)
由Binmore[22]提供的根據(jù)偏好次序定義各參與者支付值的方法,可以得到傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取各動(dòng)作的支付矩陣,如表1所示。
表1 傳感網(wǎng)惡意程序傳播階段博弈模型的支付矩陣
在實(shí)際的傳感網(wǎng)環(huán)境中,傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)之間的博弈交互是持續(xù)進(jìn)行的。例如,當(dāng)傳感網(wǎng)惡意程序采取動(dòng)作C而傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作S完成第1階段博弈后,傳感網(wǎng)惡意程序可以采取動(dòng)作C、F、P或I進(jìn)行第2階段博弈,此時(shí),傳感網(wǎng)入侵檢測(cè)系統(tǒng)針對(duì)傳感網(wǎng)惡意程序的不同動(dòng)作可以采取S、G或D完成第2階段博弈,……,這些過(guò)程重復(fù)進(jìn)行,直到傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作D結(jié)束整個(gè)博弈。由此可知,傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)這兩個(gè)參與者誰(shuí)都不知道博弈何時(shí)結(jié)束,所以,該博弈屬于典型的無(wú)限次重復(fù)博弈類(lèi)型。圖1給出了傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)之間的重復(fù)博弈過(guò)程。
圖1 傳感網(wǎng)惡意程序傳播重復(fù)博弈過(guò)程
由圖1可知,傳感網(wǎng)惡意程序傳播重復(fù)博弈實(shí)質(zhì)是傳感網(wǎng)惡意程序傳播階段博弈的重復(fù),而對(duì)應(yīng)的策略為一系列階段博弈所定義的動(dòng)作計(jì)劃,參與者傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)能根據(jù)歷史動(dòng)作觀察到上一個(gè)階段博弈的結(jié)果,并由此選擇未來(lái)的動(dòng)作。另外,重復(fù)博弈中的支付值通常是每個(gè)階段支付值折扣后的累加值。下面給出傳感網(wǎng)惡意程序傳播重復(fù)博弈的定義。
①參與者集合Φ與定義1相同;
④β∈[0,1]為折扣因子。
對(duì)于重復(fù)博弈而言,最大的問(wèn)題是隨著階段博弈的不斷重復(fù),“策略對(duì)”總量將呈爆炸性增長(zhǎng)趨勢(shì)。在傳感網(wǎng)惡意程序傳播重復(fù)博弈的第1階段,由圖1可知共有12種“策略對(duì)”。由于傳感網(wǎng)入侵檢測(cè)系統(tǒng)采取動(dòng)作D將結(jié)束整個(gè)博弈,因此在第2階段博弈時(shí)共有9×12=108種“策略對(duì)”。依此類(lèi)推,可得到傳感網(wǎng)惡意程序傳播重復(fù)博弈在階段t時(shí)的“策略對(duì)”總量φt為:
φt=9×φt-1,t∈{2,3,4,…}
式中:φ1=12。
通常,對(duì)于一個(gè)非合作博弈,納什均衡是最優(yōu)解,達(dá)到納什均衡意味著參與者雙方都認(rèn)為自己現(xiàn)有的策略是最好的策略,因此,在對(duì)方不改變策略的前提下,任何一方都不會(huì)調(diào)整自己的策略,否則,率先改變策略的一方將減少對(duì)應(yīng)的期望效益。然而,面對(duì)傳感網(wǎng)惡意程序傳播重復(fù)博弈,求解納什均衡將隨“策略對(duì)”總量的爆炸性增長(zhǎng)變得異常復(fù)雜。另外,在多階段的傳感網(wǎng)惡意程序傳播重復(fù)博弈中,參與者雙方“完全理性”的假設(shè)變得不現(xiàn)實(shí)。例如,傳感網(wǎng)惡意程序在博弈的初始階段為了隱藏自己,常采取動(dòng)作C,此時(shí)的納什均衡解為“策略對(duì)”(C,S),而傳感網(wǎng)惡意程序最終將通過(guò)傳播自己來(lái)達(dá)到獲得傳感節(jié)點(diǎn)上感知的信息,甚至破壞傳感網(wǎng)通信的目的,此時(shí)的納什均衡解變?yōu)椤安呗詫?duì)”(I,D)。因此,針對(duì)傳感網(wǎng)惡意程序傳播重復(fù)博弈納什均衡解求解困難的問(wèn)題和參與者雙方具有“有限理性”的事實(shí),本文引入最優(yōu)反應(yīng)均衡來(lái)預(yù)測(cè)傳感網(wǎng)惡意程序的行為,從而為抑制傳感網(wǎng)惡意程序傳播提供新方法。
最優(yōu)反應(yīng)均衡在行為博弈論中是一個(gè)普遍使用的均衡概念,最早由McKelvey和Palfrey[23]提出,其最大的特點(diǎn)是考慮了實(shí)際情況中參與者具有的“有限理性”,也就是說(shuō),在計(jì)算參與者選擇動(dòng)作后的期望收益時(shí),各個(gè)參與者會(huì)因?yàn)檎J(rèn)識(shí)偏差而造成錯(cuò)誤。因此,在實(shí)際情況中參與者經(jīng)常不能選擇最優(yōu)的納什均衡,而只能選擇參與者認(rèn)為的最優(yōu)策略。對(duì)于傳感網(wǎng)惡意程序傳播重復(fù)博弈,傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)會(huì)根據(jù)每個(gè)階段博弈的結(jié)果進(jìn)行學(xué)習(xí),并修正自己的動(dòng)作。隨著博弈的進(jìn)行,各個(gè)階段博弈的均衡點(diǎn)不斷變動(dòng),最終收斂于納什均衡。
算法1基于最優(yōu)反應(yīng)均衡抑制傳感網(wǎng)惡意程序傳播的算法
步驟1 系統(tǒng)管理員配置傳感網(wǎng)入侵檢測(cè)系統(tǒng)的初使動(dòng)作;
步驟2 系統(tǒng)管理員初使化傳感網(wǎng)惡意程序傳播重復(fù)博弈的博弈參數(shù);
步驟3 傳感網(wǎng)入侵檢測(cè)系統(tǒng)被包含傳感網(wǎng)惡意程序行為的監(jiān)控?cái)?shù)據(jù)喚醒;
步驟4t=1;
步驟5 DO WHILE T.
步驟7 IFaIDS="D" THEN
步驟8 BREAK;
步驟9 ELSE
步驟14 ENDIF
步驟15t=t+1;
步驟16 ENDDO
使用Gambit實(shí)驗(yàn)工具,首先通過(guò)仿真得到傳感網(wǎng)惡意程序傳播重復(fù)博弈中傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)基于最優(yōu)反應(yīng)均衡的策略(如表2所示),再說(shuō)明基于最優(yōu)反應(yīng)均衡抑制傳感網(wǎng)惡意程序傳播的有效性。實(shí)驗(yàn)參數(shù)設(shè)置時(shí),傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)初始以等概率選擇各自的策略,即傳感網(wǎng)惡意程序以25%的概率選擇動(dòng)作C、F、P或I,而傳感網(wǎng)入侵檢測(cè)系統(tǒng)以約33.33%的概率選擇動(dòng)作S、G或D;參與者理性度參數(shù)初始設(shè)置為γ=0。
表2 傳感網(wǎng)惡意程序和傳感網(wǎng)入侵檢測(cè)系統(tǒng)基于最優(yōu)反應(yīng)均衡的策略
圖2給出了傳感網(wǎng)惡意程序在給定理性度參數(shù)前提下基于最優(yōu)反應(yīng)均衡選擇相應(yīng)動(dòng)作的變化趨勢(shì),其中,y軸表示選擇某個(gè)動(dòng)作的概率。從圖2和表2的數(shù)據(jù)中可以看出,隨著理性度γ值的增加,傳感網(wǎng)惡意程序選擇動(dòng)作C的概率經(jīng)歷先降后升最后再下降的過(guò)程(兩次拐點(diǎn)分別出現(xiàn)在理性度γ≈0.287 518和γ≈0.868 198),選擇動(dòng)作F的概率呈現(xiàn)越來(lái)越小的趨勢(shì),選擇動(dòng)作P的概率經(jīng)歷先緩慢上升再逐步下降的過(guò)程(拐點(diǎn)出現(xiàn)在理性度γ≈0.32 61),而選擇動(dòng)作I的概率呈現(xiàn)越來(lái)越大的趨勢(shì)。最終,當(dāng)理性度γ約達(dá)到15.576 65時(shí),傳感網(wǎng)惡意程序選擇動(dòng)作I的概率達(dá)到1,也就是說(shuō),此時(shí)動(dòng)作C、F、P已被傳感網(wǎng)惡意程序摒棄,傳感網(wǎng)惡意程序始終選擇動(dòng)作I以獲取最大的效益。
圖2 傳感網(wǎng)惡意程序基于最優(yōu)反應(yīng)均衡的策略
圖3給出了傳感網(wǎng)入侵檢測(cè)系統(tǒng)面對(duì)傳感網(wǎng)惡意程序采取的動(dòng)作選擇基于最優(yōu)反應(yīng)均衡的相應(yīng)動(dòng)作的變化趨勢(shì)。從圖3和表2的數(shù)據(jù)中可以看出,隨著理性度γ值的增加,傳感網(wǎng)入侵檢測(cè)系統(tǒng)選擇動(dòng)作S和G的概率越來(lái)越小,而選擇動(dòng)作D的概率越來(lái)越大。最終,當(dāng)理性度γ約達(dá)到2.293 818時(shí),傳感網(wǎng)入侵檢測(cè)系統(tǒng)選擇動(dòng)作D的概率達(dá)到1,也就是說(shuō),此時(shí)動(dòng)作S和G已被傳感網(wǎng)入侵檢測(cè)系統(tǒng)摒棄,傳感網(wǎng)入侵檢測(cè)系統(tǒng)始終選擇動(dòng)作D以獲取最大的效益。
圖3 傳感網(wǎng)入侵檢測(cè)系統(tǒng)基于最優(yōu)反應(yīng)均衡的策略
如何抑制傳感網(wǎng)惡意程序傳播已成為當(dāng)前保障傳感網(wǎng)安全的研究熱點(diǎn),本文提出了一種基于最優(yōu)反應(yīng)均衡并考慮傳感網(wǎng)惡意程序傳播參與者“有限理性”的抑制方法。建立的傳感網(wǎng)惡意程序傳播階段博弈模型分析了傳感網(wǎng)惡意程序傳播過(guò)程中各參與者的動(dòng)作及偏好值,能體現(xiàn)參與者的交互過(guò)程,進(jìn)一步建立的傳感網(wǎng)惡意程序傳播重復(fù)博弈模型能體現(xiàn)實(shí)際傳感網(wǎng)中各參與者之間的重復(fù)博弈過(guò)程。通過(guò)最優(yōu)反應(yīng)均衡預(yù)測(cè)傳感網(wǎng)惡意程序的行為,解決了重復(fù)博弈納什均衡解求解困難的問(wèn)題,給出的算法為實(shí)際應(yīng)用提供了思路。實(shí)驗(yàn)結(jié)果說(shuō)明本文方法能有效抑制傳感網(wǎng)惡意程序的傳播,為保障傳感網(wǎng)安全提供了一種新方法。
[1] 羅軍舟,楊明,凌振,等. 網(wǎng)絡(luò)空間安全體系與關(guān)鍵技術(shù)[J]. 中國(guó)科學(xué):信息科學(xué),2016,46(8):939-968.
[2] 張煥國(guó),韓文報(bào),來(lái)學(xué)嘉,等. 網(wǎng)絡(luò)空間安全綜述[J]. 中國(guó)科學(xué):信息科學(xué),2016,46(2):125-164.
[3] 沈士根,劉建華,曹奇英. 博弈論與無(wú)線傳感器網(wǎng)絡(luò)安全[M]. 北京:清華大學(xué)出版社,2016.
[4] 沈士根,黃龍軍,范恩,等. 受惡意程序傳染的WSNs可生存性評(píng)估[J]. 傳感技術(shù)學(xué)報(bào),2016,29(7):1083-1089.
[5] Wang X,He Z,Zhao X,et al. Reaction-Diffusion Modeling of Malware Propagation in Mobile Wireless Sensor Networks[J]. Science China Information Sciences,2013,56(9):1-18.
[6] Wang X,He Z,Zhang L. A Pulse Immunization Model for Inhibiting Malware Propagation in Mobile Wireless Sensor Networks[J]. Chinese Journal of Electronics,2014,23(4):810-815.
[7] 曹玉林,王小明,何早波. 移動(dòng)無(wú)線傳感網(wǎng)中惡意軟件傳播的最優(yōu)安全策略[J]. 電子學(xué)報(bào),2016,44(8):1851-1857.
[8] 楊雄,查志琴,朱宇光,等. 基于能量有限型無(wú)線傳感網(wǎng)的惡意軟件攻防優(yōu)化策略[J]. 計(jì)算機(jī)工程與科學(xué),2011,33(5):22-26.
[9] 傅蓉蓉,鄭康鋒,張冬梅,等. 無(wú)線傳感器網(wǎng)絡(luò)蠕蟲(chóng)的傳播與控制[J]. 北京交通大學(xué)學(xué)報(bào),2013,37(2):17-21.
[10] 王田,吳群,文晟,等. 無(wú)線傳感網(wǎng)中移動(dòng)式蠕蟲(chóng)的抑制與清理[J]. 電子與信息學(xué)報(bào),2016,38(9):2202-2207.
[11] Zhu L,Zhao H. Dynamical Analysis and Optimal Control for a Malware Propagation Model in an Information Network[J]. Neurocomputing,2015,149:1370-1386.
[12] Eshghi S,Khouzani M H R,Sarkar S,et al. Optimal Patching in Clustered Malware Epidemics[J]. IEEE/ACM Transactions on Networking,2016,24(1):283-298.
[13] Yang Y,Zhu S,Cao G. Improving Sensor Network Immunity under Worm Attacks:A Software Diversity Approach[J]. Ad Hoc Networks,2016,47:26-40.
[14] 王晉東,余定坤,張恒巍,等. 靜態(tài)貝葉斯博弈主動(dòng)防御策略選取方法[J]. 西安電子科技大學(xué)學(xué)報(bào),2016,43(1):144-150.
[15] 劉玉嶺,馮登國(guó),吳麗輝,等. 基于靜態(tài)貝葉斯博弈的蠕蟲(chóng)攻防策略績(jī)效評(píng)估[J]. 軟件學(xué)報(bào),2012,23(3):712-723.
[16] 陳永強(qiáng),吳曉平,付鈺,等. 基于模糊靜態(tài)貝葉斯博弈的網(wǎng)絡(luò)主動(dòng)防御策略選取[J]. 計(jì)算機(jī)應(yīng)用研究,2015,32(3):887-889.
[17] Garnaev A,Baykal-Gursoy M,Poor H V. Incorporating Attack-Type Uncertainty into Network Protection[J]. IEEE Transactions on Information Forensics and Security,2014,9(8):1278-1287.
[18] Chen Z,Qiao C,Qiu Y,et al. Dynamics Stability in Wireless Sensor Networks Active Defense Model[J]. Journal of Computer and System Sciences,2014,80(8):1534-1548.
[19] Spyridopoulos T,Maraslis K,Mylonas A,et al. A Game Theoretical Method for Cost-Benefit Analysis of Malware Dissemination Prevention[J]. Information Security Journal,2015,24(4-6):164-176.
[20] Liu J,Shen S,Yue G,et al. A Stochastic Evolutionary Coalition Game Model of Secure and Dependable Virtual Service in Sensor-Cloud[J]. Applied Soft Computing,2015,30:123-135.
[21] Shen S,Li H,Han R,et al. Differential Game-Based Strategies for Preventing Malware Propagation in Wireless Sensor Networks[J]. IEEE Transactions on Information Forensics and Security,2014,9(11):1962-1973.
[22] Binmore K. Playing for Real:A Text on Game Theory[M]. New York:Oxford University Press,2007.
[23] Mckelvey R D,Palfrey T R. Quantal Response Equilibria for Extensive Form Games[J]. Experimental Economics,1998,1:9-41.
QuantalResponseEquilibrium-BasedMethodforPreventingWSNsMalwareInfection*
SHENShigen1,ZHOUHaiping1,HUANGLongjun1,FANEn1,HUKeli1,CAOQiying2
(1.Department of Computer Science and Engineering,Shaoxing University,Shaoxing Zhejiang 312000,China; 2.College of Computer Science and Technology,Donghua University,Shanghai 201620,China)
We consider bounded rationality of players during the process of WSNs(Wireless Sensor Networks)malware infection,and propose a method based on QRE(Quantal Response Equilibrium)to prevent the infection behavior of malware. According to game analyses,we construct a stage game model to reflect interactions between two players-WSNs malware and WSNs IDS(Intrusion Detection System). Furthermore,we construct a repeated game model describing continual interactions between the two players. We then solve the problem of computing Nash Equilibrium in the repeated game by employing QRE to predict behaviors of WSNs malware,and attain an algorithm preventing WSNs malware infection. Experiments analyze QRE-based strategies for the two players,and confirm the efficiency of our method.
wireless sensor networks;malware;bounded rationality;quantal response equilibrium
TP393
A
1004-1699(2017)10-1589-07
10.3969/j.issn.1004-1699.2017.10.023
沈士根(1974-),男,漢族,紹興文理學(xué)院計(jì)算機(jī)科學(xué)與工程系教授,博士,主要研究方向?yàn)闊o(wú)線傳感器網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)、博弈論,shigens@126.com;
周海平(1977-),男,漢族,紹興文理學(xué)院計(jì)算機(jī)科學(xué)與工程系教授,博士,主要研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)、推薦算法、博弈論,hpzhou2885@163.com;
曹奇英(1960-),男,漢族,東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授,博士生導(dǎo)師,博士,主要研究方向?yàn)槠者m計(jì)算、智能信息處理,caoqiying@dhu.edu.cn。