盛津芳,沈玉鵬,王 凱,孫澤軍
(中南大學(xué) 計(jì)算機(jī)學(xué)院,長(zhǎng)沙 410083)
演化博弈論為研究自私個(gè)體之間的合作行為提供了有力的理論框架[1,2],目前在生物學(xué)、經(jīng)濟(jì)學(xué)和計(jì)算機(jī)科學(xué)等諸多學(xué)科里有著非常廣泛的應(yīng)用[3-7].在經(jīng)典博弈論中,參與博弈的個(gè)體是完全理性的,個(gè)體為了最大化自身利益選擇相應(yīng)的策略.演化博弈論將經(jīng)典博弈論與生物學(xué)中的演化思想相結(jié)合,博弈個(gè)體是非完全理性的,在多次博弈過(guò)程中,通過(guò)不斷的學(xué)習(xí),來(lái)選擇最適合自身的策略.常見的博弈模型有囚徒困境博弈[8,9],雪堆博弈[10]和公共物品博弈[11]等.其中,囚徒困境模型得到了最廣泛的應(yīng)用,成為了研究合作演化的經(jīng)典模型.
在囚徒困境模型中,對(duì)于參與博弈的個(gè)體而言,通常背叛是一個(gè)比較好的策略,因?yàn)椴挥脼槠渌麄€(gè)體提供收益,并且選擇背叛可以從合作者那里獲得更高的收益.但是合作行為仍然會(huì)出現(xiàn).因此,許多機(jī)制被提了出來(lái),用來(lái)解釋合作產(chǎn)生和維持的原因,比如直接和間接互惠[12-14],遷移[15],懲罰和獎(jiǎng)勵(lì)[16,17]等等.同時(shí)復(fù)雜網(wǎng)絡(luò)也為描述合作演化上的拓?fù)浣Y(jié)構(gòu)提供了非常方便的框架,比如方格網(wǎng)絡(luò)[18,19],隨機(jī)網(wǎng)絡(luò),無(wú)標(biāo)度網(wǎng)絡(luò)[20]和小世界網(wǎng)絡(luò)[21]等等.在圖論中,節(jié)點(diǎn)表示參與博弈的個(gè)體,節(jié)點(diǎn)之間的連邊表示個(gè)體之間存在聯(lián)系,每個(gè)節(jié)點(diǎn)可以與相連的鄰居發(fā)生博弈.參與博弈的個(gè)體可能會(huì)有不同的特點(diǎn),而合作水平受到很多因素的影響.例如以前的研究表明有些個(gè)體的某些特點(diǎn)將會(huì)對(duì)合作水平產(chǎn)生很重大的影響,如名譽(yù)[22]、年齡結(jié)構(gòu)[23]、學(xué)習(xí)能力等等[24].
在大多數(shù)以前的研究中,都認(rèn)為參與博弈的個(gè)體沒(méi)有記憶能力.個(gè)體在更新自己的策略時(shí),僅根據(jù)當(dāng)前的情況來(lái)決定自己的策略,不考慮過(guò)往的經(jīng)驗(yàn).但在現(xiàn)實(shí)社會(huì)中,個(gè)體都擁有記憶能力,并且在做決策時(shí)過(guò)往的經(jīng)驗(yàn)會(huì)有很重要的作用.因此,過(guò)往的經(jīng)驗(yàn)對(duì)于當(dāng)前的博弈會(huì)存在一定的影響.除此之外,過(guò)往研究中個(gè)體在選擇博弈鄰居時(shí)往往通過(guò)隨機(jī)的方式來(lái)選擇本次博弈的鄰居,但是在現(xiàn)實(shí)社會(huì)中個(gè)體在進(jìn)行選擇時(shí)往往具有某種偏向性.對(duì)于一種給定的情況,個(gè)體的不同鄰居對(duì)這個(gè)個(gè)體的吸引力是不同的,因此個(gè)體在選擇鄰居進(jìn)行博弈時(shí)應(yīng)該具有某種偏向性.
文獻(xiàn)[25]研究了基于記憶的雪堆博弈.在每輪博弈時(shí),每個(gè)節(jié)點(diǎn)都根據(jù)當(dāng)前相反的策略去獲得一個(gè)對(duì)應(yīng)的虛擬收益,將虛擬收益與現(xiàn)在的實(shí)際收益進(jìn)行比較,然后將能獲得最大收益的策略存入記憶區(qū).每輪迭代結(jié)束后,所有節(jié)點(diǎn)根據(jù)自身記憶區(qū)中的過(guò)往策略決定選擇合作還是背叛,記憶區(qū)過(guò)往策略集合中合作策略越多,節(jié)點(diǎn)選擇合作策略的可能性就越高.但是該文獻(xiàn)忽視了個(gè)體以往的記憶對(duì)當(dāng)前博弈鄰居選擇的影響.文獻(xiàn)[26]研究了基于節(jié)點(diǎn)度的偏向選擇對(duì)囚徒困境博弈合作水平的影響,他們發(fā)現(xiàn)節(jié)點(diǎn)偏向選擇跟自己度差異較小的鄰居進(jìn)行博弈時(shí),合作水平被抑制,而當(dāng)節(jié)點(diǎn)偏向選擇跟自己度數(shù)差異較大的鄰居進(jìn)行博弈時(shí),合作水平被提高.但該文獻(xiàn)僅根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來(lái)考慮鄰居對(duì)當(dāng)前節(jié)點(diǎn)的吸引力,未考慮到過(guò)往經(jīng)驗(yàn)對(duì)個(gè)體的影響.
本文提出了一種基于個(gè)體記憶及個(gè)體過(guò)往策略相似度的偏向選擇機(jī)制,并研究了該偏向選擇機(jī)制對(duì)合作水平的影響.特別地,提出了記憶區(qū)長(zhǎng)度M和偏向參數(shù)α.在實(shí)際生活中,人們的記憶能力是有限制的,記憶區(qū)長(zhǎng)度M表示了博弈個(gè)體對(duì)以往策略記憶的能力,M越大表示博弈個(gè)體對(duì)以往策略的記憶能力越強(qiáng).同時(shí)在實(shí)際生活中存在著“物以類聚人以群分”的現(xiàn)象,由于不同的人有不同的決策風(fēng)格,比較相似的人會(huì)更容易相聚成群.但是也存在有些人更愿意去接近那些與自己做事風(fēng)格不同的人,因此提出了偏向參數(shù)α,用來(lái)表示個(gè)體偏向選擇概率與過(guò)往策略相似度的相關(guān)性.
在經(jīng)典的囚徒困境模型中,兩名博弈對(duì)象必須同時(shí)決定自己的策略:合作(C)或者背叛(D).如果兩個(gè)博弈對(duì)象同時(shí)選擇合作,那么兩個(gè)博弈對(duì)象都將獲得收益R.如果兩個(gè)博弈對(duì)象同時(shí)選擇背叛,則兩人都將獲得收益P.如果一個(gè)博弈對(duì)象選擇合作而另一個(gè)博弈對(duì)象選擇背叛,選擇背叛的博弈對(duì)象將獲得收益T,而選擇合作的博弈對(duì)象將獲得收益S.囚徒困境模型要同時(shí)滿足T>R>P>S和2R>T+S兩個(gè)條件才成立.對(duì)應(yīng)的收益矩陣如下:
CD
本文使用空間囚徒困境博弈模型,在該模型中,每個(gè)個(gè)體占據(jù)具有周期性邊界條件的L×L方格網(wǎng)絡(luò)中的一個(gè)格子.并且本文使用弱囚徒困境博弈模型[27],收益參數(shù)設(shè)置為R=1,T=b,P=S=0.b的取值范圍為1
CD
初始化時(shí),所有節(jié)點(diǎn)按照相同的概率被初始化為合作者或背叛者.之后所有節(jié)點(diǎn)將按照隨機(jī)順序依次更新自己的策略.
在選擇博弈鄰居時(shí),節(jié)點(diǎn)根據(jù)偏向選擇機(jī)制選擇鄰居節(jié)點(diǎn)作為本次的博弈對(duì)象,節(jié)點(diǎn)i選擇自己的鄰居j作為博弈對(duì)象的概率由公式(1)確定:
(1)
其中,Ω表示節(jié)點(diǎn)i的鄰居集合.α表示節(jié)點(diǎn)偏向選擇概率與策略相似度的相關(guān)性.由公式(1)可知,當(dāng)α>0時(shí),節(jié)點(diǎn)偏向于選擇與自己過(guò)往策略相似度較大的鄰居,當(dāng)α進(jìn)一步增大時(shí),節(jié)點(diǎn)對(duì)與自己過(guò)往策略相似度較大的鄰居的偏向性會(huì)被進(jìn)一步增強(qiáng).當(dāng)α<0時(shí),節(jié)點(diǎn)偏向于選擇與自己過(guò)往策略相似度差異較大的鄰居.當(dāng)α=0時(shí),節(jié)點(diǎn)的所有鄰居對(duì)其吸引力相同,節(jié)點(diǎn)相當(dāng)于隨機(jī)選擇鄰居進(jìn)行博弈,此時(shí)記憶區(qū)長(zhǎng)度M沒(méi)有起作用.S(i,j)用來(lái)表示節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的過(guò)往策略相似度,S(i,j)定義如公式(2)所示.
(2)
公式(2)中M為記憶區(qū)長(zhǎng)度,表示博弈個(gè)體的記憶能力強(qiáng)弱程度.當(dāng)M=0時(shí),表示節(jié)點(diǎn)沒(méi)有記憶能力,此時(shí)節(jié)點(diǎn)之間無(wú)法計(jì)算相互之間的過(guò)往策略相似度,在選擇博弈鄰居時(shí)不具有偏向性,而是隨機(jī)選擇鄰居進(jìn)行博弈.當(dāng)M>0時(shí),節(jié)點(diǎn)擁有記憶能力.初始化時(shí)節(jié)點(diǎn)記憶區(qū)為空,節(jié)點(diǎn)第一次博弈時(shí)隨機(jī)選擇鄰居進(jìn)行博弈.當(dāng)進(jìn)行一次博弈之后,記憶區(qū)中開始存在過(guò)往策略,隨后節(jié)點(diǎn)根據(jù)偏向選擇機(jī)制選擇博弈鄰居.當(dāng)記憶區(qū)中存儲(chǔ)的過(guò)往策略數(shù)量達(dá)到所設(shè)定的記憶區(qū)長(zhǎng)度時(shí),之后每次加入新的記憶,都將丟棄距離現(xiàn)在最遠(yuǎn)的策略記錄,以此來(lái)保證記憶區(qū)長(zhǎng)度不超過(guò)預(yù)先的設(shè)定值.在節(jié)點(diǎn)i與節(jié)點(diǎn)j的記憶區(qū)中,如果兩節(jié)點(diǎn)的過(guò)往策略的對(duì)應(yīng)位置相同,則Δn(m)=1,否則Δn(m)=0.如當(dāng)節(jié)點(diǎn)i的記憶區(qū)為(C,D,C),節(jié)點(diǎn)j的記憶區(qū)為(C,D,D),節(jié)點(diǎn)k的記憶區(qū)為(D,C,D)時(shí),節(jié)點(diǎn)i與節(jié)點(diǎn)j的過(guò)往策略相似度為2,節(jié)點(diǎn)i與節(jié)點(diǎn)k的過(guò)往策略相似度為0.相似度公式表明了節(jié)點(diǎn)之間過(guò)往策略的相似程度.
在博弈時(shí),節(jié)點(diǎn)i將自己的策略替換為鄰居j的策略的概率由費(fèi)米準(zhǔn)則[27]確定,費(fèi)米準(zhǔn)則充分考慮了參與博弈的個(gè)體不是完全理性的這一特點(diǎn),同時(shí)費(fèi)米準(zhǔn)則體現(xiàn)了一種學(xué)習(xí)行為.在費(fèi)米準(zhǔn)則中,博弈個(gè)體根據(jù)雙方的收益來(lái)決定自己是否學(xué)習(xí)對(duì)方的策略.如果對(duì)方的收益比較高,則認(rèn)為對(duì)方的策略是一種比較成功的策略,自己將會(huì)有較大的概率學(xué)習(xí).費(fèi)米準(zhǔn)則如公式(3)所示.
(3)
在本文中,K的取值為0.1,表示參與博弈的個(gè)體具有較小程度的不理性行為.當(dāng)節(jié)點(diǎn)i的收益小于節(jié)點(diǎn)j的收益時(shí),節(jié)點(diǎn)i有較大的概率將自己的策略替換為節(jié)點(diǎn)j的策略,但同時(shí)也有較小的概率選擇不理性行為,保持自身策略不變.
每輪博弈由以下3部分組成:
1)節(jié)點(diǎn)根據(jù)偏向選擇機(jī)制選擇鄰居;
2)當(dāng)前更新節(jié)點(diǎn)與被選擇的鄰居分別計(jì)算自己的總收益;
3)根據(jù)費(fèi)米準(zhǔn)則更新當(dāng)前節(jié)點(diǎn)的策略.演化博弈的具體過(guò)程如算法1所示.
算法1.演化博弈的具體過(guò)程
步驟1.節(jié)點(diǎn)i根據(jù)偏向選擇鄰居j
步驟2.節(jié)點(diǎn)i和鄰居j計(jì)算各自的總收益
步驟3.節(jié)點(diǎn)i將當(dāng)前策略存入記憶區(qū)
步驟4.節(jié)點(diǎn)i以W(si←sj)的概率同步更新自己的策略
算法1中,步驟1根據(jù)公式(1)選擇博弈鄰居.步驟4根據(jù)公式(3)計(jì)算節(jié)點(diǎn)i更新策略的概率.
本文使用蒙特卡羅仿真來(lái)對(duì)演化博弈進(jìn)行研究,每次實(shí)驗(yàn)均由一系列蒙特卡羅時(shí)間步組成.網(wǎng)絡(luò)規(guī)模為50×50.并用合作者數(shù)量占所有博弈個(gè)體數(shù)量的比例來(lái)表示合作水平Fc.為了獲得穩(wěn)定的結(jié)果,每次實(shí)驗(yàn)均由5000蒙特卡羅時(shí)間步組成,并取最后1000次結(jié)果的平均值作為實(shí)驗(yàn)結(jié)果.
圖1展示了在不同記憶區(qū)長(zhǎng)度M和不同偏向參數(shù)α下合作水平Fc和背叛誘惑b的關(guān)系,將Fc作為b的函數(shù).在圖1(a)中,α=-1;在圖1(b)中,α=1;在圖1(c)中,α=4.每張圖中記憶區(qū)長(zhǎng)度M均有四種取值.當(dāng)M=0時(shí),表示個(gè)體的記憶區(qū)長(zhǎng)度為0,個(gè)體沒(méi)有記憶能力,此時(shí)個(gè)體隨機(jī)選擇鄰居進(jìn)行博弈.因此,圖1(a)-圖1(c)中M=0所對(duì)應(yīng)的合作水平曲線基本相同.
圖1 合作水平Fc作為背叛誘惑b的函數(shù)Fig.1 Fraction of cooperators Fc as a function of the temptation to defect b
在圖1(a)中,當(dāng)α=-1時(shí),M=0對(duì)應(yīng)的合作水平高于其他的幾個(gè)M>0對(duì)應(yīng)的合作水平.當(dāng)M=1時(shí),合作水平達(dá)到最低值,之后隨著M的增加,合作水平也對(duì)應(yīng)有所增加,逐漸接近M=0所對(duì)應(yīng)的合作水平,但始終低于M=0所對(duì)應(yīng)的合作水平.可以看出,在選擇博弈對(duì)象時(shí),偏向選擇跟圖1 合作水平Fc作為背叛誘惑b的函數(shù)自己過(guò)往策略差異較大的鄰居會(huì)降低合作水平.雖然隨著記憶區(qū)長(zhǎng)度的增加,合作水平會(huì)有所提高,但是無(wú)論記憶區(qū)長(zhǎng)度如何,合作始終受到抑制.在圖1(b)中,M=0所對(duì)應(yīng)的合作水平為最低,M=1所對(duì)應(yīng)的合作水平為最高.當(dāng)M進(jìn)一步增大時(shí),如3和10,合作水平開始略微降低,但始終高于M=0所對(duì)應(yīng)的合作水平.
在圖1(c)中,與圖1(b)類似的是當(dāng)M>0時(shí),合作水平有非常明顯的提高.不同的是,M=1所對(duì)應(yīng)的合作水平并不是最高的,當(dāng)3時(shí),合作水平有進(jìn)一步的增加,當(dāng)M=10時(shí),合作水平開始降低,甚至低于M=1時(shí)的合作水平,但始終高于M=0時(shí)所對(duì)應(yīng)的合作水平.即,隨著M的增加,合作水平呈現(xiàn)出先增加后降低的趨勢(shì).由此可以得出結(jié)論,當(dāng)個(gè)體擁有記憶能力以后,由于偏向選擇機(jī)制的影響,當(dāng)個(gè)體偏向于選擇和自己過(guò)往策略更相似的鄰居進(jìn)行博弈時(shí),可以促進(jìn)合作.同時(shí)對(duì)比圖1(b)和圖1(c)可以看出,當(dāng)α增大時(shí),合作水平也有所增加.并且對(duì)于不同的α>0,都存在一個(gè)記憶區(qū)長(zhǎng)度使合作水平達(dá)到最大值.
本文根據(jù)現(xiàn)實(shí)社會(huì)的現(xiàn)象來(lái)解釋為什么個(gè)體偏向于選擇與自己過(guò)往策略比較相似的鄰居進(jìn)行博弈時(shí)能促進(jìn)合作.當(dāng)博弈雙方記憶區(qū)的過(guò)往策略相似度比較高時(shí),可以認(rèn)為這兩個(gè)個(gè)體在某些方面有一些相似性,導(dǎo)致他們?cè)谕粫r(shí)刻容易做出相同的策略,那么博弈雙方當(dāng)前策略相同的可能性也比較大.因此偏向選擇機(jī)制在一定程度上能增加合作者和合作者相遇的概率,降低合作者和背叛者相遇的概率.當(dāng)合作者和合作者相遇時(shí),雙方都不會(huì)轉(zhuǎn)變?yōu)楸撑颜?仍然能互相提供收益.但是即使背叛者和背叛者相遇,背叛者也不能從背叛者那里獲得任何收益,因此基于過(guò)往策略相似度的偏向選擇機(jī)制在一定程度上有利于合作者的存活.
圖2 不同背叛誘惑下的策略分布Fig.2 Strategy distribution under different temptation
為了驗(yàn)證之前的想法,圖2中展示了基于隨機(jī)選擇和基于偏向選擇博弈鄰居兩種機(jī)制下博弈雙方的策略分布.由當(dāng)前博弈個(gè)體與博弈鄰居雙方的策略組成策略對(duì),共有四種策略對(duì),為別為CC,CD,DC,DD(比如,CC表示本次更新節(jié)點(diǎn)和選擇的博弈居的策略都為合作).在一次仿真后,將會(huì)產(chǎn)生許多策略對(duì),圖中展示了在不同背叛誘惑b下,每一種策略對(duì)數(shù)量占所有策略對(duì)數(shù)量的比例情況.
從圖2(a)和圖2(b)中可以看出,相對(duì)于隨機(jī)選擇,當(dāng)個(gè)體偏向于選擇與自己過(guò)往策略更加相似的鄰居進(jìn)行博弈時(shí),合作者與合作者相遇的頻率明顯增高,而背叛者和背叛者相遇的頻率明顯下降.可見該偏向選擇機(jī)制在很大程度上增大了合作者和合作者相遇的概率,由于合作者和合作者相遇不會(huì)產(chǎn)生背叛者,因此偏向選擇與自己過(guò)往策略更加相似的鄰居進(jìn)行博弈時(shí)有利于保證合作者的存活,從而提高合作水平.
從圖2(c)和圖2(d)中可以看出,在偏向選擇機(jī)制的作用下,合作者和背叛者相遇的頻率總體情況下明顯降低.但是在某些區(qū)間里,如b∈(1.04,1.07)時(shí),基于偏向選擇機(jī)制進(jìn)行博弈時(shí)合作者和背叛者相遇的頻率反而略微高于基于隨機(jī)選擇策略下合作者和背叛者相遇的頻率.這是由于在演化博弈初始階段,合作水平處于下降的趨勢(shì),因?yàn)榇藭r(shí)合作者和背叛者以同等概率初始化,合作者均勻分布在方格網(wǎng)絡(luò)中,相互之間無(wú)法提供收益,這并不利于合作者存活.所以演化博弈初始階段有很多合作者會(huì)轉(zhuǎn)變?yōu)楸撑颜?之后隨著迭代次數(shù)的增加,合作者形成小的合作者社區(qū),相互之間能提供收益,合作者社區(qū)開始向外擴(kuò)張,直到達(dá)到穩(wěn)定狀態(tài).
在b>1.07時(shí),由于背叛誘惑b較大,很快所有節(jié)點(diǎn)都成為了背叛者,因此合作者和背叛者相遇的次數(shù)較少.而在b∈(1.04,1.07)時(shí),考慮個(gè)體記憶區(qū)為空時(shí)的情況,由于個(gè)體之間無(wú)法比較過(guò)往策略,因此當(dāng)前博弈個(gè)體隨機(jī)選擇鄰居進(jìn)行博弈,此時(shí)將會(huì)有一部分個(gè)體轉(zhuǎn)變?yōu)楸撑颜?這些轉(zhuǎn)變?yōu)楸撑颜叩膫€(gè)體記憶區(qū)中的過(guò)往策略為合作,這反而在一定程度上增加了之后迭代中合作者和背叛者相遇的概率.而在合作者之間形成小的合作者社區(qū)之后,合作者社區(qū)開始向外擴(kuò)張,有些背叛者以一種較小的概率遇到合作者,此時(shí)合作者由于相互之間能提供收益,所以合作者的收益將遠(yuǎn)大于背叛者,背叛者將會(huì)以一種較高的概率轉(zhuǎn)變?yōu)楹献髡?但是這些由背叛者轉(zhuǎn)變的合作者的過(guò)往策略會(huì)與背叛者更加類似,此時(shí)又進(jìn)一步增大了合作者和背叛者相遇的概率.
總體來(lái)說(shuō),偏向選擇過(guò)往策略更相似的博弈鄰居可以增加合作者和合作者相遇的概率,合作者和合作者相遇不會(huì)產(chǎn)生背叛者,同時(shí)偏向選擇機(jī)制降低合作者和背叛者相遇的概率,這在一定程度上保證了合作者的存活,由此可以提高合作水平.同時(shí)還可以看出,基于記憶及過(guò)往策略相似度的偏向選擇機(jī)制對(duì)演化博弈過(guò)程產(chǎn)生了影響.
為了更加深入的研究負(fù)相關(guān)性的偏向選擇對(duì)合作的影響,圖3展示了使部分節(jié)點(diǎn)按負(fù)相關(guān)性偏向選擇鄰居時(shí),合作水平Fc與背叛誘惑b的關(guān)系,將Fc作為b的函數(shù),節(jié)點(diǎn)在偏向選擇鄰居時(shí),記憶區(qū)長(zhǎng)度M有若干固定取值.使合作者偏向于選擇過(guò)往策略差異更大的鄰居,背叛者隨機(jī)選擇鄰居,結(jié)果如圖3(a)所示.使背叛者偏向于選擇過(guò)往策略差異更大的鄰居,合作者隨機(jī)選擇鄰居,結(jié)果如圖3(b)所示.當(dāng)博弈節(jié)點(diǎn)按公式(1)以負(fù)相關(guān)性偏向選擇鄰居時(shí),偏向參數(shù)α的取值均為-1.
在圖3(a)和圖3(b)中,M=0表示個(gè)體沒(méi)有記憶能力,該曲線為所有節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈時(shí),合作水平Fc和背叛誘惑b之間的關(guān)系.
在圖3(a)中,M=0所對(duì)應(yīng)的合作水平曲線最高,M=1所對(duì)應(yīng)的合作水平曲線最低,當(dāng)M增大時(shí),如圖M=3和M=10所對(duì)應(yīng)的合作水平曲線,合作水平有略微的增加,但總體來(lái)說(shuō),合作受到抑制.
圖3 負(fù)相關(guān)性偏向選擇對(duì)合作的影響Fig.3 Influence of negative preferential selection on cooperation
在圖3(b)中,M=0所對(duì)應(yīng)的合作水平曲線最低,M=1所對(duì)應(yīng)的合作水平曲線最高,合作受到較大的促進(jìn)作用,當(dāng)M進(jìn)一步增大時(shí),如圖M=3和M=10所對(duì)應(yīng)的合作水平曲線,合作受到的促進(jìn)作用有略微的減小,但合作仍然受到了促進(jìn),合作水平有所提升.
綜合上述討論,可以看出,當(dāng)節(jié)點(diǎn)偏向選擇過(guò)往策略差異更大的鄰居進(jìn)行博弈時(shí),并不一定會(huì)抑制合作.如果僅讓背叛者偏向于選擇過(guò)往策略差異較大的鄰居進(jìn)行博弈,對(duì)合作有一定的促進(jìn)作用.
之前已經(jīng)知道偏向選擇機(jī)制對(duì)博弈演化過(guò)程產(chǎn)生了影響,為了更加清晰地展現(xiàn)博弈的演化過(guò)程,圖4展示了演化博弈在不同迭代次數(shù)時(shí),合作水平的快照.其中,b=1.02,黑色表示合作者,白色表示背叛者.初始化時(shí)合作者和背叛者被均勻地分散到方格網(wǎng)絡(luò)中,即每個(gè)節(jié)點(diǎn)有同等的概率成為合作者或者背叛者.圖4(a)-圖4(e)是基于隨機(jī)選擇機(jī)制的演化博弈在分別經(jīng)歷了0、10、50、500、5000次迭代后的合作水平快照,圖4(f)-4(j)是基于偏向選擇機(jī)制的演化博弈在分別經(jīng)歷了0、10、50、500、5000次迭代后的合作水平快照.
圖4 演化博弈過(guò)程快照Fig.4 Snapshot during the evolutionary game process
觀察從圖4(a)-圖4(e)以及從圖4(f)-圖4(j)整個(gè)博弈過(guò)程中合作者的分布以及數(shù)量情況,可以看出,無(wú)論是隨機(jī)選擇博弈鄰居,還是偏向選擇博弈鄰居,合作水平都呈現(xiàn)出相同的趨勢(shì),即合作水平首先降低,然后又增加,同時(shí)合作者從初始時(shí)的分散狀態(tài)慢慢聚集到了一起.這是由于初始化時(shí)合作者被均勻分散開,合作者之間不能互相提供收益,由于收益較低,合作者更傾向于學(xué)習(xí)擁有高收益的背叛者的策略.隨著迭代次數(shù)的增加,合作者逐漸變少,但是有些合作者已經(jīng)形成了合作者社區(qū),這些合作者之間可以互相提供收益,由于合作者相互提供相助而獲得的高收益,使其不僅能抵御外部背叛者的入侵,還使得背叛者開始學(xué)習(xí)擁有高收益的合作者的策略.因此合作者社區(qū)開始向外擴(kuò)張,合作水平開始提升.
不同的是,對(duì)比圖4(b)和圖4(c),圖4(c)中黑色區(qū)域開始擴(kuò)大,可見在隨機(jī)選擇機(jī)制下的演化博弈在t=10時(shí)合作水平達(dá)到最低,在t=50時(shí)合作者社區(qū)已經(jīng)開始向外擴(kuò)張,合作水平有所提高.而對(duì)比圖4(g)和圖4(h),圖4(h)中黑色區(qū)域有進(jìn)一步的縮小,但是黑色區(qū)域變的更加集中,在圖4(i)中黑色區(qū)域才開始擴(kuò)張.也就是說(shuō),在偏向選擇機(jī)制下的演化博弈在t=50時(shí)合作水平才達(dá)到最低.這對(duì)應(yīng)之前所說(shuō)的在演化博弈初始階段,由于合作者還沒(méi)有形成小的合作者社區(qū),有些合作者容易轉(zhuǎn)變?yōu)楸撑颜?但其記憶區(qū)中的過(guò)往策略與其他的合作者比較相似,此時(shí)偏向選擇機(jī)制反而增加了合作者和背叛者相遇的概率,由此造成演化博弈初始階段合作者社區(qū)形成的更慢.可以得出結(jié)論,基于記憶區(qū)和過(guò)往策略相似度的偏向選擇機(jī)制會(huì)對(duì)演化博弈過(guò)程造成影響,使得合作者之間需要更長(zhǎng)的時(shí)間來(lái)形成合作者社區(qū).同時(shí)可以看出,由于偏向選擇機(jī)制的作用,合作水平有明顯的提升.
圖5展示了當(dāng)偏向參數(shù)α的取值一定時(shí),記憶區(qū)長(zhǎng)度M對(duì)合作水平Fc的影響,將Fc作為M的函數(shù).兩個(gè)圖中α均有若干個(gè)取值.圖5(a)中,b=1.01,圖5(b)中,b=1.02.
圖5 合作水平Fc作為記憶區(qū)長(zhǎng)度M的函數(shù)Fig.5 Fc as a function of M
當(dāng)α=0時(shí),個(gè)體的所有鄰居被選擇的概率相同,此時(shí)的偏向選擇等同于隨機(jī)選擇,不同的記憶區(qū)長(zhǎng)度并沒(méi)有對(duì)合作水平造成影響,因此在兩圖中α=0所對(duì)應(yīng)的合作水平不隨著M的變化而變化,幾乎為一條水平的直線.而對(duì)于不同的α,當(dāng)M=0時(shí),個(gè)體沒(méi)有記憶能力,此時(shí)個(gè)體也通過(guò)隨機(jī)的方式選擇鄰居進(jìn)行博弈,因此兩圖中,當(dāng)M=0時(shí),不同的α所對(duì)應(yīng)的曲線交于一點(diǎn).
當(dāng)α<0時(shí),合作水平在M=0時(shí)達(dá)到最高,此時(shí)節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈.而當(dāng)M=1時(shí),合作水平達(dá)到最低,之后隨著M的增加,合作水平緩慢提高,但始終低于M=0時(shí)對(duì)應(yīng)的合作水平.
當(dāng)α>0時(shí),隨著M的增加,合作水平呈現(xiàn)出先增加后降低的趨勢(shì),存在一個(gè)M使得合作水平達(dá)到最高值.同時(shí)可以看出,對(duì)于不同的α,合作水平達(dá)到峰值時(shí)所對(duì)應(yīng)的M取值是不同的.如圖5(b)中,當(dāng)α=0時(shí),Fc在M=1處達(dá)到最大值,當(dāng)α=4時(shí),Fc在M=4處達(dá)到最大值,當(dāng)α的取值在合適的范圍內(nèi)增大時(shí),合作水平達(dá)到最大值所對(duì)應(yīng)的M也會(huì)相應(yīng)增大.
但是當(dāng)α繼續(xù)增大,如圖5(a)和圖5(b)中,α=5所對(duì)應(yīng)的曲線反而比α=4所對(duì)應(yīng)的曲線要低,合作水平有所降低.當(dāng)α大于一定值時(shí),可以認(rèn)為此時(shí)節(jié)點(diǎn)的偏向選擇不是以更高的概率選擇過(guò)往策略更相似的鄰居,而是直接選擇過(guò)往策略最相似的鄰居.因此,考慮個(gè)體直接選擇與自己過(guò)往策略最相似的鄰居時(shí)的情況,結(jié)果如圖5(a)和圖5(b)中α=+∞所對(duì)應(yīng)的曲線,該曲線處于所有曲線的下方.可以看出,博弈個(gè)體直接選擇與自己過(guò)往策略最相似的鄰居并不利于提升合作.因此得出結(jié)論,在偏向選擇與自己過(guò)往策略更相似的前提下,以較小的概率選擇其他鄰居可以提高合作水平.
從圖5可以看出合作水平Fc并不隨著α線性增大,為了進(jìn)一步查看偏向參數(shù)α對(duì)合作水平Fc的影響,圖6展示了當(dāng)記憶區(qū)長(zhǎng)度M的取值一定時(shí),偏向參數(shù)α對(duì)合作水平Fc的影響,將Fc作為α的函數(shù).兩個(gè)圖中M均有若干個(gè)取值.圖6(a)中,b=1.01,圖6(b)中,b=1.02.
圖6 合作水平Fc作為偏向參數(shù)α的函數(shù)Fig.6 Fc as a function of α
當(dāng)α=0時(shí),節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈,因此兩圖中,不同的曲線在α=0處交于同一點(diǎn).當(dāng)M=0時(shí),個(gè)體隨機(jī)選擇鄰居進(jìn)行博弈,α沒(méi)有起作用,因此兩圖中M=0所對(duì)應(yīng)的合作水平不隨著α的變化而變化,幾乎為一條水平的直線.而當(dāng)M>0時(shí),α對(duì)合作水平產(chǎn)生了影響.當(dāng)α<0時(shí),M>0所對(duì)應(yīng)的曲線均處于水平線的下方,合作被抑制.而當(dāng)α>0時(shí),合作水平首先升高又降低.當(dāng)α的取值在合適的范圍時(shí),如兩圖中α∈(0.6)時(shí),M>0所對(duì)應(yīng)的曲線均處于水平線的上方,該偏向選擇機(jī)制可以促進(jìn)合作.但當(dāng)α超過(guò)一定的范圍時(shí),如兩圖中,M=1,α=7時(shí),合作反而受到抑制.這對(duì)應(yīng)之前所獲得的結(jié)論,并不是選擇過(guò)往策略相似度最高的鄰居可以促進(jìn)合作,而是以一種比較高的概率選擇過(guò)往策略比較相似的鄰居時(shí),可以促進(jìn)合作.同時(shí)可以看出,對(duì)于不同的M>0,合作水平Fc均在α=4時(shí)達(dá)到最大值.
之前已經(jīng)得出結(jié)論,偏向選擇機(jī)制對(duì)演化博弈過(guò)程產(chǎn)生了影響.本文進(jìn)一步研究了M和α對(duì)演化博弈過(guò)程的影響,圖7展示了在不同的記憶區(qū)長(zhǎng)度M和偏向參數(shù)α下合作水平Fc隨著迭代次數(shù)t的增加而變化的時(shí)序圖.圖7(a)中,b=1.02,M=3;圖7(b)中,b=1.02,α=3.在演化博弈過(guò)程中,在合作水平達(dá)到最小值時(shí),合作者社區(qū)已經(jīng)形成,隨后合作者社區(qū)開始向外擴(kuò)張,合作水平開始提升.使用Fcmin來(lái)表示演化博弈期間合作水平Fc所能達(dá)到的最小值.
從圖7(a)可以看出α=1和α=3的Fcmin來(lái)對(duì)應(yīng)的t大于α=0的Fcmin對(duì)應(yīng)的t,圖7(b)中M也呈現(xiàn)出了和α相同的規(guī)律,M=1和M=3的Fcmin對(duì)應(yīng)的t大于M=0的Fcmin對(duì)應(yīng)的t.當(dāng)M=0時(shí),節(jié)點(diǎn)沒(méi)有記憶能力,節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈;當(dāng)α=0時(shí),節(jié)點(diǎn)的不同鄰居對(duì)節(jié)點(diǎn)的吸引力相同,節(jié)點(diǎn)也通過(guò)隨機(jī)的方式選擇鄰居進(jìn)行博弈.可以得出結(jié)論,在演化博弈過(guò)程中,節(jié)點(diǎn)偏向于選擇與自己過(guò)往策略更相似的鄰居會(huì)使合作者社區(qū)形成得更慢.
不同的是,在圖7(a)中,當(dāng)α從0增加到3時(shí),Fcmin對(duì)應(yīng)的t也顯著增加,且α=1和α=3所對(duì)應(yīng)的Fcmin的值幾乎相等.在圖7(b)中,M=1和M=3時(shí)Fcmin對(duì)應(yīng)的t相差很小,且M=1和M=3所對(duì)應(yīng)的Fcmin的值相差很大.也就是說(shuō),偏向參數(shù)α對(duì)合作者社區(qū)形成所需要的時(shí)間有較大的影響,但最終合作者社區(qū)形成時(shí),偏向參數(shù)α并不影響當(dāng)時(shí)的合作水平.而記憶區(qū)長(zhǎng)度M與偏向參數(shù)α相反,記憶區(qū)長(zhǎng)度M對(duì)合作者社區(qū)形成所需要的時(shí)間影響較小,但最終合作者社區(qū)形成時(shí),記憶區(qū)長(zhǎng)度M對(duì)當(dāng)時(shí)的合作水平有較大影響.
圖7 α和M對(duì)演化博弈過(guò)程的影響Fig.7 Influence of α and M on the evolutionary game process
此外,從圖7(a)和圖7(b)中可以看出,在演化博弈達(dá)到穩(wěn)態(tài)時(shí),更大的α或更大的M對(duì)應(yīng)著更大的t,也對(duì)應(yīng)著更大的Fc.并且在圖7(a)中,不同的α對(duì)應(yīng)的Fc相差較大;在圖7(b)中,不同的M對(duì)應(yīng)的Fc相差較小.說(shuō)明了當(dāng)記憶區(qū)長(zhǎng)度M和偏向參數(shù)α在適當(dāng)?shù)膮^(qū)間內(nèi)增加時(shí),演化博弈達(dá)到穩(wěn)態(tài)所需要的時(shí)間更長(zhǎng),并且最終所能達(dá)到的合作水平更高,而偏向參數(shù)α對(duì)合作水平的影響要大于記憶區(qū)長(zhǎng)度M對(duì)合作水平的影響.
本文提出了一種新的基于個(gè)體記憶以及個(gè)體過(guò)往策略相似度的偏向選擇機(jī)制,并且使用了囚徒困境博弈模型,在方格網(wǎng)絡(luò)上研究了該偏向選擇機(jī)制對(duì)合作的影響.結(jié)果顯示,當(dāng)偏向參數(shù)α>0且取值在合適的范圍內(nèi),即個(gè)體偏向選擇過(guò)往策略更相似的鄰居進(jìn)行博弈時(shí),合作水平有非常明顯的提高,而當(dāng)偏向參數(shù)α<0時(shí),即個(gè)體偏向選擇過(guò)往策略差異較大的鄰居進(jìn)行博弈時(shí),合作受到抑制.對(duì)于給定的α,存在M使合作水平達(dá)到最大值.同時(shí),該偏向選擇機(jī)制會(huì)增加演化博弈達(dá)到穩(wěn)態(tài)所需要的時(shí)間.并且α和M對(duì)演化博弈過(guò)程也有不同的影響.當(dāng)M一定,α變化時(shí),合作者社區(qū)形成得更慢,但并不影響合作者社區(qū)形成時(shí)的合作水平.而當(dāng)α一定,M變化時(shí),合作者社區(qū)形成所需要的時(shí)間相差不多,但當(dāng)合作者社區(qū)形成時(shí),合作水平會(huì)有很大的差別.