汪小芳,柯見洪
(溫州大學(xué)數(shù)理與電子信息工程學(xué)院,浙江溫州 325035)
自私群體中合作行為的涌現(xiàn)受到許多領(lǐng)域?qū)W者的關(guān)注[1-3].囚徒困境博弈是研究自私個體間可能存在合作行為的一個經(jīng)典范例.在囚徒困境博弈中,個體可以選擇合作策略C或背叛策略D.若博弈雙方都選擇合作,則均獲得收益R;若博弈雙方都選擇背叛,則均獲得收益P;若一方選擇合作而一方選擇背叛,則合作者獲得收益S,背叛者獲得收益T.收益矩陣可表示為:
總所周知,參與博弈的任何一方的期望收益是由所有參與者的行為共同決定的.然而,Dyson和Press[11]的研究表明,在任何的兩人重復(fù)博弈中都存在這樣一種“零行列式策略”(ZD策略),這類策略強大到無論對方如何抗?fàn)幦绾巫兓偰軌驊{借一己之力,單方面控制自己的收益剩余是對手的χ(χ>1)倍.Jie Liu等人[12]提出了一種廣義的ZD策略,這種廣義ZD策略,是基于一個引用基線參數(shù)σ(0≤σ≤1)來衡量收益的,個體可以獲得收益是他對手的χ倍(χ>1),不同的σ對應(yīng)慷慨程度不同的ZD策略,0=σ<<1對應(yīng)敲詐性比較強的ZD策略,σ≈1對應(yīng)比較順從慷慨的ZD策略,并且他們發(fā)現(xiàn)在方形點陣上均勻混合的有限演化競爭系統(tǒng)中適當(dāng)慷慨的ZD策略更容易取得成功.
早期的演化博弈研究假設(shè)個體可以與群體中任意個體進行博弈[13],然而,實際生活中個體只能接觸有限范圍內(nèi)的其他個體.因此,考慮復(fù)雜網(wǎng)絡(luò)上的演化博弈更具有現(xiàn)實意義.Nowak等學(xué)者[14-16]研究了網(wǎng)絡(luò)上的博弈行為,給出了演化圖論基本理論框架.隨著復(fù)雜網(wǎng)絡(luò)研究的興起,學(xué)者們研究了一系列復(fù)雜網(wǎng)絡(luò)上的演化博弈行為,得出了非常有意思的結(jié)果[17-20].
現(xiàn)實系統(tǒng)中完全同質(zhì)的群體幾乎沒有.由于年齡、財富、性別、知識與經(jīng)驗等差異會對參與者的行為造成一定的影響,不同參與者面臨相同狀況,往往會采用不同的決策方案.受上述研究的啟發(fā),我們將不同基線參數(shù)σ的ZD策略個體視為不同類型的個體,研究了采用不同ZD策略的異質(zhì)性群體在二維規(guī)則網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)和BA無標(biāo)度網(wǎng)絡(luò)上的囚徒困境博弈中的演化行為,重點討論了ZD策略中敲詐系數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)對群體異質(zhì)性維持的影響.
本文研究復(fù)雜網(wǎng)絡(luò)上進行的囚徒困境博弈.在網(wǎng)絡(luò)中,節(jié)點代表參與博弈的個體,節(jié)點間的連邊表示他們之間存在博弈關(guān)系.本文群體的異質(zhì)性體現(xiàn)在ZD策略個體衡量收益的基線差異上,即不同類型的ZD策略個體對應(yīng)不同的基線參數(shù)σ(0≤σ≤1).簡單起見,假定系統(tǒng)中個體采用的可能基線參數(shù)為0,0.1,0.2,…,1.0,即系統(tǒng)含有11種類型的個體.初始時,將每個個體以等概率設(shè)置為合作者或者背叛者,每個蒙特卡洛步(MCS),節(jié)點x與最近鄰節(jié)點進行囚徒困境博弈.節(jié)點x的收益是與所有最近鄰節(jié)點博弈獲得的平均收益xP,收益矩陣可表示為公式(1)的形式,即有(CC,DD,CD,DC)4種情況.此處,為了簡化模擬,囚徒困境的收益矩陣被重新標(biāo)度為T=5,R=3,S=0,P=1.
假定模擬過程中群體所處的空間結(jié)構(gòu)保持不變,僅是個體策略進行演化.在每個蒙特卡洛步(MCS),個體x通過與所有鄰居博弈獲得其收益xP.在模擬中,隨機選取群體中一個個體x,依次與其可交易的所有鄰居按如上收益矩陣進行1000輪博弈,可以得到每個個體的當(dāng)次累計收益.例如,在某一時刻,一個個體有4個鄰居,若被選個體和被選鄰居都持合作策略,則其當(dāng)輪收益為P=3,若被選個體和被選鄰居都持背叛策略,則其當(dāng)輪收益為P=1,若被選個體持合作策略而被選鄰居都持背叛策略,則其當(dāng)輪收益為P=0,若被選個體持背叛策略被選鄰居持合作策略,則其當(dāng)輪收益為P=5,每輪博弈結(jié)束后,每個個體根據(jù)某種更新規(guī)則進行策略更新,并把更新后的策略作為自己下一輪博弈中采取的策略.第二輪以后,個體總是根據(jù)自己與對手在前一輪所采用的策略,然后按照下述概率[12]:
進行策略更新.舉例說明,若σ=0類型的個體x在第一輪博弈時采用合作策略C且對手也采用策略C,則其下次選擇合作的概率是,依次類推.1000輪博弈結(jié)束后,選擇下一個鄰居進行博弈,直到與所有鄰居博弈完,計算其與4個鄰居博弈的平均收益xP.其鄰居以同樣的方式獲得收益.當(dāng)個體x完成了所有的博弈之后,將隨機選擇一個鄰居y,與其比較收益(Px和Py)的高低.當(dāng)Py>Px時,個體x的類型將轉(zhuǎn)變?yōu)猷従觵的類型;否則,個體x保持自身的類型不變.依此規(guī)則,系統(tǒng)不斷地演化,直至群體中類型的分布達到一個穩(wěn)定狀態(tài).對所有模擬,網(wǎng)絡(luò)規(guī)模N=10000.本文分別研究了二維規(guī)則網(wǎng)絡(luò),小世界網(wǎng)絡(luò)和無標(biāo)度網(wǎng)絡(luò)上的囚徒困境博弈.二維規(guī)則網(wǎng)絡(luò)取周期性邊界條件,小世界網(wǎng)絡(luò)根據(jù)Newman-Watts[21]模型生成,無標(biāo)度網(wǎng)絡(luò)則根據(jù)Barabási-Albert[22]模型生成.所有的模擬都設(shè)定
在本模型中,博弈者的敲詐系數(shù)χ是影響群體異質(zhì)性的重要參數(shù)之一.演化過程中,兩近鄰個體之間相互博弈1000輪.圖1所示的是博弈系統(tǒng)在達到演化穩(wěn)定狀態(tài)下,異質(zhì)性群體剩余數(shù)與敲詐系數(shù)χ之間的關(guān)系,橫坐標(biāo)表示敲詐系數(shù),縱坐標(biāo)表示異質(zhì)性群體的剩余人數(shù).σ較小時,對應(yīng)的參與者是掠奪性比較強的ZD策略持有者,σ比較大時,參與者則采用了比較寬容慷慨的ZD策略.
圖1 異質(zhì)性群體在二維規(guī)則網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)和BA無標(biāo)度網(wǎng)絡(luò)上的演化結(jié)果Fig 1 The Evolution Result of Heterogeneous Groups on Two-dimension Regular Network,NW Small-world Network and BA Scale-free Network
從圖1(a)可以看出,在二維規(guī)則網(wǎng)絡(luò)上,當(dāng)敲詐系數(shù)χ較小時,博弈系統(tǒng)中σ=1類型的個體數(shù)量為10000,即系統(tǒng)中只存在σ=1類型的個體,當(dāng)χ增大到20,除了σ=1的個體,σ=0的個體也開始存活下來.圖1(b)為異質(zhì)性群體在NW小世界網(wǎng)絡(luò)上的演化結(jié)果,可以看出當(dāng)敲詐系數(shù)χ小于40時,系統(tǒng)中只存在σ=1類型的個體,敲詐系數(shù)χ大于40時,各類型的個體都能存活下來且各類型的個體的數(shù)量相對均衡.從圖1(c)中可以看出,異質(zhì)性群體在BA無標(biāo)度網(wǎng)絡(luò)上的博弈結(jié)果,當(dāng)敲詐系數(shù)較小時系統(tǒng)中幾乎只剩下σ=1類型的個體,隨著χ的增大,系統(tǒng)中剩余個體的種類開始增多,各類型的個體都存在,掠奪性比較強的ZD策略取代慷慨的ZD策略成為新的優(yōu)勢策略.
上述結(jié)果表明,較小的χ不能有效地維持群體的異質(zhì)性.在一定的范圍內(nèi),χ較大時,群體的異質(zhì)性更容易維持,當(dāng)χ達到一定值時,χ的改變對群體的異質(zhì)性和持各策略的參與者的數(shù)量產(chǎn)生的影響較小.
網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)也是影響群體異質(zhì)性的一個重要因素.通常,實際系統(tǒng)中個體并非均勻混合,會表現(xiàn)出局域性,這就要求我們?nèi)タ紤]節(jié)點鄰域的拓?fù)浣Y(jié)構(gòu).在本模型中,個體分別在二維規(guī)則網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)以及BA無標(biāo)度網(wǎng)絡(luò)上進行囚徒困境博弈.每個時步,兩近鄰個體之間相互博弈1000輪.研究發(fā)現(xiàn),在不同的網(wǎng)絡(luò)中,系統(tǒng)中異質(zhì)性群體的演化行為不同,達到演化穩(wěn)定后系統(tǒng)中剩余的異質(zhì)性群體的種類和數(shù)量都不相同.從結(jié)果可以看出,相比于二維規(guī)則網(wǎng)絡(luò),在NW小世界網(wǎng)絡(luò)和BA無標(biāo)度網(wǎng)絡(luò)中異質(zhì)性更容易維持,群體的異質(zhì)性更加豐富(圖1).在全連通網(wǎng)絡(luò)的囚徒困境博弈中,合作者的收益始終比背叛者低,因此群體的所有個體最終都會成為背叛者.Nowak和May[23]發(fā)現(xiàn),在二維格子的囚徒困境博弈中,合作者通過形成團簇結(jié)構(gòu)可以有效地抵御背叛者的入侵.在合作簇內(nèi)部,合作者通過相互協(xié)作獲得很高的收益,從而保護合作簇內(nèi)部的合作者不被外面的背叛者所取代.圖1(a)顯示,當(dāng)χ比較大時,敲詐性比較強的ZD個體雖然能和慷慨的ZD個體共存于一個群體中,但其始終只能占一個較低的比例,原因是慷慨ZD個體比掠奪性較強的ZD個體的合作度高,更趨向于合作,從而獲得不低的總體收益.而敲詐性比較強的ZD個體與其他個體博弈時往往彼此都采用了背叛的策略,從而導(dǎo)致很差的收益,最終逐漸被慷慨ZD個體所取代.在此演化競爭的系統(tǒng)中,適當(dāng)慷慨的ZD個體更容易取得成功,即當(dāng)掠奪性比較強的ZD個體兩兩相遇時比較容易相互背叛而產(chǎn)生一個較低的背叛收益,而寬容慷慨的ZD個體兩兩相遇時容易產(chǎn)生一個較高的合作收益.因此,當(dāng)χ較小時,掠奪性較強的ZD個體從慷慨的ZD個體處掠奪的收益不高,σ小的ZD個體對一旦與σ大的ZD個體相鄰,前者中的一個甚至兩個會轉(zhuǎn)變?yōu)棣掖蟮腪D個體.當(dāng)然,當(dāng)χ越來越大時,即使σ小的ZD個體對無法生存,單個小σ的ZD個體還是可以通過掠奪大σ的ZD個體獲取足夠的收益而得以生存的.所以掠奪性比較強的ZD個體只能以散點或碎片的形式散布在群體中,如圖2所示.
圖2的結(jié)果也證明了文獻[23]的結(jié)論:在二維規(guī)則網(wǎng)上,σ大的ZD個體組成合作者團簇來抵御σ小的ZD個體.然而,對NW小世界網(wǎng)絡(luò)而言,隨機加邊帶來的可能后果是連通了“合作者團簇”的中心與邊緣處,從而導(dǎo)致了合作者團簇的無法形成.因此,NW小世界網(wǎng)絡(luò)上的演化結(jié)果表明,各種σ類型的個體都能共存,即異質(zhì)性得以維持,如圖1(b).無標(biāo)度網(wǎng)絡(luò)同樣不具有規(guī)則的空間點陣結(jié)構(gòu),因此小σ的合作者無法組成團簇,各種σ類型的個體能夠共存.此外,模擬結(jié)果還表明,無標(biāo)度網(wǎng)絡(luò)上度大的節(jié)點(Hub點)在演化博弈過程中往往被敲詐性較強的ZD個體(即σ較小)所占據(jù).當(dāng)敲詐系數(shù)χ較小時,為了獲取足夠的收益維持其繼續(xù)占領(lǐng)Hub點,小σ的個體必須允許周邊存在更多的σ值較大的個體,因此各種σ值的個體比例相差無幾;當(dāng)χ越來越大時,只要有少數(shù)的σ值較大的鄰居存在,小σ的個體就能夠獲得足夠的收益維持其占領(lǐng)Hub點,那么其他的鄰居將會被同化,因此σ=0的個體比例隨著χ增大而逐漸增加,如圖1(c).
圖2 正規(guī)則格子100×100中,演化穩(wěn)定狀態(tài)下,不同敲詐系數(shù)作用下異質(zhì)性群體分布情況(黃色和藍(lán)色分別代表σ =0,σ =1的ZD策略個體)Fig 2 The Distribution of Heterogeneous Groups with Different Extortion Coefficient under the State of Evolutionary Stability and on a 100×100 Square Lattice Network (Here Yellow and Blue Colors Represent Respectively ZD Strategy Units of σ =0, σ =1)
在囚徒困境博弈中,異質(zhì)性群體的演化博弈行為與ZD策略的敲詐系數(shù)及網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)有關(guān).在不同的敲詐系數(shù)下,異質(zhì)性群體的剩余種類和數(shù)量不同,較小的χ不能有效地維持群體的異質(zhì)性,在一定的范圍內(nèi)χ較大時,群體的異質(zhì)性更容易維持.當(dāng)χ達到一定值時,χ的改變對群體的異質(zhì)性和持各策略的參與者數(shù)量產(chǎn)生較小的影響.在二維規(guī)則網(wǎng)絡(luò)上,σ大的ZD個體組成合作者團簇來抵御σ小的ZD個體,所以演化穩(wěn)定時只有少數(shù)σ=0類型和大部分的σ=1類型的個體.然而,對NW小世界網(wǎng)絡(luò)而言,隨機加邊連通了“合作者團簇”的中心與邊緣處,使合作者團簇?zé)o法形成,從而導(dǎo)致了各種σ類型的個體都能共存,即異質(zhì)性得以維持.無標(biāo)度網(wǎng)絡(luò)和小世界網(wǎng)絡(luò)一樣不具有規(guī)則的空間點陣結(jié)構(gòu),因此小σ的合作者無法組成團簇,各種σ類型的個體能夠共存.此外,由于Hub點往往被敲詐性較強的ZD個體(即σ較小)所占據(jù),當(dāng)敲詐系數(shù)χ較小時,各種σ值的個體比例相差無幾,而當(dāng)χ越來越大時,σ值較小的個體比例會逐漸增加.總體來說,相比于規(guī)則網(wǎng)絡(luò),異質(zhì)性群體在小世界網(wǎng)絡(luò)和無標(biāo)度網(wǎng)絡(luò)上剩余群體的類型更加豐富,即異質(zhì)性更容易維持.
[1] Nowak M A, Sigmund K. Evolution of indirect reciprocity by image scoring [J]. Nature, 1998, 393(6685):573-577.
[2] Wedekind C, Milinski M. Cooperation through image scoring in humans [J]. Science, 2000, 288(5467):850-852.
[3] Zhen W, Szolnoki A, Perc M. If players are sparse social dilemmas are too:Importance of percolation for evolution of cooperation [J]. Sci Rep, 2012, 2(16):369.
[4] Traulsen A, Nowak M A, Pacheco J M. Stochastic dynamics of invasion and fixation [J]. Phys Rev E, 2006, 74(1):011909.
[5] Axelrod R. The emergence of cooperation among egoists [J]. Am Polit Sci Rev, 1981, 75(2):306-318.
[6] Collings J B, Wollkind D J, Moody M E. Outbreaks and oscillations in a temperature-dependent model for a mite predator-prey interaction [J]. Theor Popul Biol, 1990, 38(2):159-191.
[7] Nowak M. The evolution of stochastic strategies in the Prisoner’s Dilemma [J]. Acta Appl Math, 1990, 20(3):247-265.
[8] Iliopoulos D, Hintze A, Adami C. Critical dynamics in the evolution of stochastic strategies for the iterated prisoner’s dilemma [J]. Plos Comput Biol, 2010, 6(10):e1000948.
[9] Stewart A J, Plotkin J B. Extortion and cooperation in the Prisoner’s Dilemma [J]. Proc Natl Acad Sci U S A, 2012,109(26):10134-10135.
[10] Hilbe C, Nowak M A, Sigmund K. Evolution of extortion in Iterated Prisoner’s Dilemma games [J]. Proc Natl Acad Sci U S A, 2013, 110(17):6913-6918.
[11] Press W H, Dyson F J. Iterated Prisoner’s Dilemma contains strategies that dominate any evolutionary opponent [J].Proc Natl Acad Sci U S A, 2012, 109(26):10409-10413.
[12] Liu J, Li Y, Xu C, et al. Evolutionary behavior of generalized zero-determinant strategies in iterated prisoner’s dilemma [J]. Physica A , 2015, 430:81-92.
[13] Sigmund K, Nowak M A. Evolutionary game theory [M]. Massachusetts:MIT Press, 1997:847-858.
[14] Ohtsuki H, Nowak M A. Direct reciprocity on graphs [J]. J Theor Biol, 2007, 247(3):462-470.
[15] Nowak M A. Five rules for the evolution of cooperation [J]. Science, 2006, 314(5805):1560-1563.
[16] Taylor C, Nowak M A. Transforming the dilemma [J]. Evolution, 2007, 61(10):2281-2292.
[17] Abramson G, Kuperman M. Social games in a social network [J]. Phys Rev E, 2001, 63(1):030901.
[18] Szabó G, Vukov J. Cooperation for volunteering and partially random partnerships [J]. Phys Rev E, 2004, 69(3):036107.
[19] Hauert C, Szabó G. Game theory and physics [J]. Am J Phys, 2005, 73(5):405-414.
[20] Vukov J, Szabó G, Szolnoki A. Evolutionary Prisoner’s Dilemma game on Newman-Watts networks [J]. Phys Rev E,2008, 77(2):026109.
[21] Newman M E J, Watts D J. Renormalization group analysis of the small-world network model [J]. Phys Lett A, 1999,263(4/6):341-346.
[22] Barabási A, Albert R. Emergence of Scaling in Random Networks [J]. Science, 1999, 286(5439):509-512.
[23] Nowak M A, May R M. Evolutionary games and spatial chaos [J]. Nature, 1992, 359(6398):826-829.