摘 要:為了分析帶有懲罰機制的公共物品博弈模型下交互規(guī)模對合作水平和種群收益的影響,通過蒙特卡洛仿真,結合現實復雜的交互環(huán)境特征,提出了一種基于合作閾值的動態(tài)交互域模型。首先,根據博弈圈內合作者數目不同的特點設計了基于合作閾值的動態(tài)交互規(guī)則;其次,對加入交互域更新規(guī)則后公共物品博弈模型中的合作水平、種群收益、交互域范圍等進行了仿真實驗,觀測其演化過程;最后,通過對比不同參數值下新舊模型對種群合作演化的影響,討論了該機制作用的原理和效果。通過大量的仿真實驗,驗證了較高的合作閾值和增加交互域的變化強度都能更有效地促進合作并提高種群的平均收益。該模型能有效提高合作水平和群體收益,從而為研究動態(tài)交互環(huán)境下的公共物品博弈提供一種新的視角。
關鍵詞:系統(tǒng)建模;公共物品博弈;合作閾值;交互域;收益;合作
中圖分類號:TP301.6;F224.32
文獻標識碼:A"" DOI:10.7535/hbkd.2025yx01006
收稿日期:2024-07-03;修回日期:2024-10-25;責任編輯:馮民
基金項目:
國家自然科學基金(71871233)
第一作者簡介:
許向陽(1967—),男,河北石家莊人,副教授,碩士,主要從事無線自組網、衛(wèi)星通信方面的研究。
通信作者:
馬金龍,副教授。E-mail:mzjinlong@163.com
Cooperation evolution of dynamic interaction based on
threshold in public goods game
XU Xiangyang LIU Yajie MA Jinlong 2
(1.School of Information Science and Engineering, Hebei University of Science and Technology,
Shijiazhuang,Hebei 050018, China;
2.Hebei Technology Innovation Center of Intelligent IoT, Shijiazhuang,Hebei 050018, China)
Abstract:To analyze the impact of interaction size on cooperation level and population average payoff in the public goods game with punishment, by combining Monte Carlo simulation with the characteristics of real complex interaction environments, a dynamic interaction domain model was proposed based on a cooperation threshold. First, a dynamic interaction rule based on the cooperation threshold is designed, taking into account the characteristics of different numbers of cooperators in the game group. Secondly, simulation experiments are conducted to observe the evolution of cooperation level, population payoff, and interaction domain range in the public goods game model after incorporating the interaction domain update rule. Finally, we compare the effects of the traditional and new models on the evolution of cooperation under different parameter values and discuss the principles and effectiveness of the model. Extensive simulation experiments have validated that increasing the cooperation threshold or the variation parameter more efficaciously fosters cooperation and enhances the population's average payoff.This provides a new perspective for the study of public goods game in dynamic interactive environment.
Keywords:system modeling;the public goods game; cooperation threshold; interaction domain; payoff; cooperation
公共物品博弈(public goods game,PGG)是描述多個參與者共同使用有限資源的特殊非零和博弈。背叛策略廣泛傳播會造成公地悲劇,比如大氣污染治理、公共交通擁堵等。但是,現實中也存在合作[1]與公平使集體利益最大化。因此,如何解決公共物品博弈模型中個人與集體之間的利益矛盾,促進合作行為的涌現與維持,成為眾多學者研究的重點[3-4]。
已有研究中,學者們在公共物品博弈模型框架下,提出了許多誘導合作涌現與維持卓有成效的機制,比如懲罰[5-8]、激勵[9-11]、驅逐[12-13]、異質性投資[14-16]、聲譽[17-20]和自愿參與[21]等。而對于懲罰機制[22-23]下公共物品博弈研究,學者大多并未考慮種群結構和鄰域多樣性對個體之間相互作用的影響。大量證據表明,現實世界的相互作用結構并非是混合良好或者規(guī)則的,這種結構上的多樣性深刻影響著合作演化。SHANG等[24]將同質鄰域改為非均勻鄰域,發(fā)現合作者更易保持策略并穩(wěn)定。LI等[25]考慮了不同鄰域類型和規(guī)模,證明更大的交互域和更小的學習鄰域都將提高合作簇穩(wěn)定性。XU等[26]揭示了動態(tài)變化種群中不同團體規(guī)模促進合作涌現的機理。ZHU等[27]證明了鄰域大小能顯著影響合作策略的傳播。KIMMEL等[28]發(fā)現無論鄰域大小是隨機變化還是策略依賴變化都能通過破壞單態(tài)的穩(wěn)定性而有利于共存。本文以馮·諾依曼鄰域為研究對象,對帶有懲罰機制的公共物品博弈模型中交互域對合作的影響進行了深入研究。
1 基于合作閾值的動態(tài)交互域模型
本文考慮了在L×L(L= 99)具有周期性邊界條件的規(guī)則網絡上,以馮·諾依曼鄰域為例進行的空間公共物品博弈(spatial public goods game,SPGG),每位玩家占據一個節(jié)點。
1.1 懲罰機制下的SPGG
最初,網絡中的每位玩家以相同概率選擇合作者(cooperators,C)、背叛者(defectors,D)或懲罰者(punishing cooperators,PC)中的任一策略。在懲罰機制下,每個合作者或懲罰者都會向公共池貢獻一個單位的資源,而背叛者卻不貢獻任何資源。懲罰者需要對投資圈內的所有背叛者施加成本進行懲罰,背叛者也因被懲罰需要繳納罰金。以馮·諾依曼鄰域為例,每位玩家通過參與以交互鄰居或自己為中心的共G(5≥G≥2)輪博弈來積累收益。因此,當玩家選定某種策略,玩家i在第g組中的收益為πgi,如式(1)所示;玩家i逐一參加以自己和交互鄰居為中心的博弈圈后,獲得最終累積收益πi,如式(2)所示。
πgi=
r(ngC+ngPC)
k(i)g+1-"""""" if Si(t)=C,
r(ngC+ngPC)k(i)g+1-
βngPCk(i)g,"" if
Si(t)=D,
r(ngC+ngPC)k(i)g+1-1-γngDk(i)g," if Si(t)=PC,
(1)
πi=∑g∈Ωiπgi,(2)
式中:ngC,ngD,ngPC分別代表組g中采取合作、背叛或者懲罰策略的玩家數目;r表示增強因子;Ωi表示由i和選擇i作為其交互鄰居的玩家組成的集合;β和γ分別表示背叛者繳納的罰金和懲罰者的懲罰成本的乘法系數。為了與文獻[29]中的假設保持一致,這里β和γ分別設為0.3和0.2。每個背叛者會被要求向組內的每個懲罰者繳納β/k(i)g的罰款,而每個懲罰者將為每個被懲罰的背叛者承擔γ/k(i)g的懲罰成本。
1.2 基于合作閾值的動態(tài)交互范圍
在本文提出的模型中,假設每個玩家的互動鄰居數目不固定,這對應了現實中不同特性個體交互的異質性社會范圍[30-31]。也就是說,每個玩家的博弈對手是動態(tài)變化的。而事實上,由目標玩家及其鄰居組成的群體可能是分離的群體[32],也可能是由網絡組成的群體。這些群體也可以是靜態(tài)的,如網格或不隨時間演變的網絡,也可以是動態(tài)的[33-34],隨著群體的形成和解散而變化。以交互域中動態(tài)變化的規(guī)模和成員展開仿真研究,可以為應對現實復雜的博弈環(huán)境提供思路。
假設玩家i交互范圍變化的概率主要由當前它自身及交互域中合作者數目決定。為了探究合作者數目如何影響交互范圍的變化,引入有關玩家自身及交互域內合作者總數的閾值Z,記為合作閾值。若玩家自身及交互域內合作者總數大于或者等于閾值Z,則將保持原有的交互鄰居數目;如果合作者總數低于閾值Z,玩家在下一輪博弈開始前,將有概率改變自己的交互鄰居數目。當前博弈組(玩家自身加交互鄰居)中合作者的數目nC對玩家是否更改交互范圍的概率的影響,可以寫成等式,如式(3)所示。
fi=
Z-nCZ ," if Z≥nC,
0,"""" if Zlt;nC。 (3)
1.3 交互鄰居和策略更新規(guī)則
如果滿足了交互范圍更新的可能性,那么對于在t時刻采用不同策略的參與者在(t+1)時刻的交互范圍變化如式(4)所示。
k(t+1)=
k(t)C-l(n(t)D-n(t)PC)," if Si
(t)=C,
k(t)D-l(n(t)C+n(t)PC)," if Si(t)=D,
k(t)PC+l(n(t)C+n(t)D)," if Si
(t)=PC,(4)
式中:k(t)C、k(t)D、k(t)PC分別表示玩家i在t時刻,采用C、D、PC任意一種策略時的交互范圍值;
n(t)C、n(t)D、n(t)PC分別表示在t時刻,玩家i與交互域內的鄰居中分別采取3種不同策略的玩家總量;變化參數l代表交互范圍變化的波動程度,l越大,代表交互范圍改變的震蕩程度越高,l越小,則交互域的波動越小,交互范圍僅進行微調。在交互范圍更新過程中,交互鄰居數目遵守以下邊界條件:如果
k(t+1)lt;0,則k(t+1)=0;如果k(t+1)gt; 則k(t+1)=4。當交互范圍發(fā)生改變時,對應數目的交互鄰居通過隨機選擇得到。
為了鼓勵合作策略的傳播,合作者不僅需要通過縮小交互域驅逐隱藏在當前投資圈中的背叛者,同時也會增大交互范圍,讓更多合作者與懲罰者參與到投資中。因此,這類玩家的交互域是動態(tài)增減的。但是背叛者只會對投資成果分割,卻提供不了任何貢獻,這類玩家的交互范圍越小,種群中合作者收益更高,合作水平也更高。因此,背叛者的交互范圍要不斷減少。而對于懲罰者來說,越來越大的交互域一方面有利于更快察覺鄰域中的背叛者,對背叛行為進行處罰,從另一方面來說,這也能夠充分發(fā)揮合作性的懲罰者的合作功能,提供更高的種群收益。
每輪博弈后,每位玩家除了需要更新自己的交互域,還需要對策略進行更新。策略更新規(guī)則有很多,比如交互網絡更新[35]、與強化學習結合的策略更新[36]都能有效選擇策略,本研究采用費米更新規(guī)則。玩家i模仿鄰居j的策略時,會比較自身所獲得的收益與鄰居的收益,并以費米函數的形式計算概率P從而選擇策略更新:
P(Sj→Si)=11+exp(-πj-πiκ) ,(5)
式中:πi和πj分別是玩家i和玩家j的累積收益;κ是噪音因子,用于量化個體的不理性程度。當κ→0時,只有當玩家j的收益更高時,玩家i才會確定性地模仿玩家j的策略;κ→∞表示完全隨機模仿,即無論玩家j的收益如何,玩家i都以相同的概率維持或改變其當前策略。
本文重點研究了相互作用鄰域的多樣性對合作水平的綜合影響。為了更好地呈現討論結果,種群的合作水平定義如下:
ρC+PC=NC+NPCN,(6)
式中:ρC+PC為種群中合作者和懲罰者的比例;NC、NPC和N分別表示整個群體中合作者的數量、懲罰者的數量和群體的總規(guī)模。
2 實驗結果及分析
在以下模擬中,實驗在大小為L × L(L=99),具有周期邊界條件的方格網絡上通過蒙特卡洛仿真進行演化動力學分析。為了避免有限尺寸的效應,并使模擬結果更具準確性,MCS步長設為M=10 且取8次獨立實驗的平均值作為最終數據。
為了對比基于合作者數目的動態(tài)交互域模型與懲罰機制下的傳統(tǒng)模型對合作水平的影響,圖1依次展示了2種模型下合作水平ρC+PC隨增強因子r變化的曲線??梢杂^察到,與傳統(tǒng)模型相比,動態(tài)交互域模型中合作水平被極大促進。傳統(tǒng)模型中的合作行為在r=3.5左右才開始涌現,而動態(tài)交互域模型中無論閾值Z如何取值,都能夠比傳統(tǒng)模型更快逆轉全是背叛者的困境。這是因為動態(tài)交互域模型中的玩家都有著異質性的交互域結構,這種結構使得合作策略被快速傳播,而傳統(tǒng)模型下,所有玩家與馮·諾依曼鄰域中4個鄰居都產生交互,這種均勻的交互域導致合作策略的演化完全依賴網絡互惠而不利于合作策略的擴散。還可以觀察到,合作閾值從Z=1到Z=5逐漸增大時,合作開始涌現所需要的增強因子r越來越小,并且進入到ESS的速度越快。這意味著,只需要給予種群極少的資源,種群就能達到理想的狀態(tài)。在種群中,Z值越大,意味著種群中的更多玩家需要不斷調整自己的交互域,減少交互鄰居中的背叛者。因此較高的閾值會更有益于抑制背叛行為。不難發(fā)現,在傳統(tǒng)模型中,合作水平隨著增強因子的變化經歷了全背叛狀態(tài)、背叛與合作共存的混合狀態(tài)、全合作狀態(tài)3個階段。而動態(tài)交互域模型中卻不存在背叛與合作共存的穩(wěn)定狀態(tài)。隨著增強因子的增大,種群中的玩家從非合作的狀態(tài)突然轉變?yōu)楹献鳡顟B(tài)。這說明合作水平在特定的增強因子臨界點前后發(fā)生了突然的、不連續(xù)的一階相變。且當l=1時(即l取最大值),隨著合作閾值的增大,發(fā)生一階相變所需要臨界增強因子也越小,背叛者被驅除的速度越快。也就是說,在相同的增強因子下,該模型比傳統(tǒng)模型實現了更高水平的合作。這是因為一旦引入動態(tài)交互域,背叛者會不斷被種群驅逐,直到其交互域為0后進入穩(wěn)態(tài),背叛策略消失在種群中。
為了探索不同合作閾值Z的取值對合作演化的影響,圖2展示了分別將增強因子r固定在2.9和3.8時,合作水平在不同合作閾值下隨著時間如何變化??梢钥闯觯汉献魉诫S著博弈的進程經歷了下降、上升和穩(wěn)態(tài)3個階段;隨著合作閾值的提高,下降階段時種群合作水平
ρC+PC的最低值會更高,演化穩(wěn)態(tài)下達到全合作狀態(tài)所需的時間也逐漸提高。當Z=2時,種群中的任意玩家只要在自己及交互域中至少存在2個合作者,就會保持當前的交互域,這樣導致鄰域中的背叛者沒有機會通過動態(tài)交互域被排除,合作策略就無法被很好傳遞。而當Z=5時,玩家只有當交互域為4且自己和交互鄰居全部為合作者時,才會停止對交互域的調整。也就是說,Z值越大,越多的背叛者會被排查出來,減少了合作者被大量背叛者肆意剝削的處境,實現合作策略的更快傳播,這也說明了合作閾值對合作的促進效果是顯著的。
為了進一步解釋合作策略、背叛策略和懲罰策略這3種策略在網絡中如何演化,繪制了3種策略的微觀動力學過程,如圖3所示。初始時,3種策略在網絡中是隨機且均勻分布的,每個策略在網絡中的比例均為1/3。當r=2.9、tlt;100時,合作者和懲罰者的比例開始迅速下降,背叛者的比例不斷上升。背叛者不付出任何貢獻卻有著更高的收益,所以它們率先搶占了種群中的主動權,其他策略不斷學習背叛策略,使背叛者幾乎占據了整個網絡。但懲罰者具有懲罰特性,比起合作者更能抵抗背叛者的入侵,懲罰者在t=100左右沒有像合作者一樣完全消失,而是維持在網絡中。此時背叛者的數目達到頂峰,它們無法從同類中繼續(xù)獲利,因此收益極低。背叛策略的比例開始急速下降,懲罰策略可以通過懲罰背叛策略,令其繳納罰款。越來越低的收益使得背叛者開始更新策略成為懲罰者。于是懲罰策略的比例開始不斷蠶食背叛者,比例不斷攀升。當t=1 000后不久,背叛者經歷了一段急劇的減少后,最終在網絡中完全消亡,懲罰策略占據整個種群。而r=3.8時,由于增強因子r足夠大,合作者在背叛者急速上升階段并未完全泯滅,而是與懲罰者一樣,以一定的比例保持存活。當tgt;10時,背叛者的收益開始降低,懲罰者與背叛者之間發(fā)生“懲罰”斗爭,合作者利用懲罰者的懲罰效果,比例開始有所上升。同時合作策略通過網絡互惠性[37],不斷擴張自己的合作簇,直至t=100,背叛者在與懲罰者的戰(zhàn)斗中敗下陣來,消失在種群中。此后,由于背叛策略的消失,合作者和懲罰者的收益公式變得相同,二者以對數粗化的形式在網絡中存在[38]。
值得注意的是,即使引入了微小的合作閾值,也會使得種群的合作者和懲罰者在與背叛策略的斗爭中產生巨大優(yōu)勢。為了探究這種現象的內在原因,圖4給出合作閾值Z取不同值時,任意玩家自身及交互域中合作者數目的平均值隨時間的變化。當r=2.9時,玩家自身及鄰域中的合作者平均數目從初始的1.6迅速下降到0。合作閾值越小,平均合作者數目下降得越快。背叛者獲得的高額收益會促使它們很快占據種群的主導地位,合作者快速消失,而較小的Z會使種群初始狀態(tài)下幾乎所有的玩家自身和交互域內的合作者數目都高于合作閾值,這些玩家對于鄰域中合作者的消失感知不敏感,無法通過調整交互域的方式及時篩選并驅逐背叛者。各個玩家鄰域內合作者的銳減形勢無法被逆轉,合作者無奈消失在網絡中,只剩余極少量的懲罰者殘存并戰(zhàn)勝背叛者達到穩(wěn)態(tài)。當r=3.8時,玩家及交互域內的平均合作者數目在急速下降后,再次上升至比開始更高的數目(最后的對數粗化正與圖3中背叛策略消失后的合作策略和懲罰策略比例的走勢一致)。
這得益于較大的增強因子,使得合作者和懲罰者在抵制背叛者的剝削時更具優(yōu)勢。一旦背叛者數目開始上升觸發(fā)合作閾值機制,交互域內的合作者數目急速下降,大量玩家迅速“覺醒”,開始驅逐鄰域中的背叛者,使得合作者得到生存并較快地達到穩(wěn)態(tài),這在一定程度上縮短了達到穩(wěn)態(tài)的時間。
為了進一步探究基于合作閾值的動態(tài)交互域模型對群體收益的影響,圖5繪制了不同合作閾值下種群平均收益隨時間變化的曲線。在基于合作閾值的動態(tài)交互域模型中,對比r=2.9與r=3.8的2種情況,當r取較小值時,初始階段種群平均收益較低,隨著演化進程平均收益降低得更快、更劇烈,穩(wěn)態(tài)時所達到的平均收益也更低。甚至于,傳統(tǒng)模型在r=2.9時,玩家在演化進程中收益會變?yōu)?;而在新模型中,無論Z取何值,種群平均收益在經歷一段短暫的收益下降階段后發(fā)生回升,到穩(wěn)態(tài)時會達到比初始狀態(tài)更高的平均收益,且Z值越大,演化過程中種群維持的平均收益水平越高,達到平均收益穩(wěn)態(tài)值的速度越快。這是因為,傳統(tǒng)模型對背叛策略的抑制更多地依賴于懲罰者付出高昂的懲罰成本,這種機制必然會損傷懲罰者在種群中的利益,使得在與背叛者的斗爭中處于較弱的優(yōu)勢,背叛者肆意利用合作者獲得高收益后,不利于合作策略和懲罰策略傳播,種群平均收益較低,達到穩(wěn)態(tài)收益的速度更慢。動態(tài)交互域有效緩解了這種困境。種群內低于收益閾值的玩家,根據自身策略類型不斷調整自己的交互域,過程中背叛者的交互域不斷縮小,逐漸被孤立出來,無法獲得高昂的剝削收入。同時,懲罰者在逐漸擴張的交互域中檢測出殘余的背叛者進行懲罰,再次打擊了背叛者的“搭便車”行為。合作閾值越大,對種群平均收益的提高效果越明顯。這種方式避免了懲罰者對所有背叛者都付出懲罰成本的大量收入損失,抑制了背叛策略的傳播,合作策略和懲罰策略得以維持和涌現。
為了探索合作閾值如何影響合作策略的空間演化過程,圖6給出了這3種策略的演化快照。如圖6所示,在4種不同的演化條件下,各個策略穩(wěn)態(tài)時在方格網絡上呈現為簇的分布形式(紅色代表懲罰者,藍色代表背叛者,綠色代表合作者)。圖6 a)—l)展示了當r=3.8且l= Z取不同值時策略分布隨時間的演變過程。從t=1到t=10,3種不同的演化背景下,策略分布相似。從初始時3種策略的均勻隨機分布開始,背叛策略憑借不勞而獲的高額利益優(yōu)勢開始迅速在網絡中蔓延。合作者和懲罰者開始逐漸聚集,形成許多小簇以抵抗背叛者的入侵。從t=10到t=100,背叛者數量逐漸開始減少,最后幾乎完全消失在種群中,合作者和懲罰者占據上風,直到t=10 000種群中只有合作者和懲罰者存活。同時,對比圖6 b)、f)和j)可知,當r和l保持不變,隨著合作閾值Z的增大,合作者和懲罰者在t=10時刻存活的比例會更高。尤其是合作者,在Z=1時僅殘存極少一部分,而當Z=5時,合作者的數量幾乎與背叛者相差無幾。這是因為,此時網絡中的懲罰者將合作者包裹起來,隔絕開了背叛者,形成了一個“真空保護罩”。背叛者無法與合作者直接接觸利用其獲利,卻受到了懲罰者的審判,且Z=5時,較高的合作閾值使大量玩家頻繁調整交互域,背叛者更加快速地從交互域中被“踢出局”,遏制了背叛策略的傳播,合作者得以喘息,并憑借合作簇的網絡互惠性質得以維持。而圖6 m)—p)展示的是當Z=3、l=1、r=2.9時的演化條件下策略分布的變化。當t=100時,背叛者幾乎占據整個種群,有少量的合作者和懲罰者存活,t=10 000時,只存在懲罰者一種策略。而在其他3種情況下,穩(wěn)態(tài)時卻同時存在合作者簇和懲罰者簇。這主要是因為,增強因子越小,合作的促進效果相對越差。顯然,可以得出結論,更大的增強因子和收益閾值都能促進合作策略的生存與維持。
為了探究基于合作閾值的動態(tài)交互域模型下玩家的交互域是如何更新演化的,圖7比較了不同合作閾值下,玩家的交互域隨時間的動態(tài)分布。從交互域分布的角度看,合作閾值越高,穩(wěn)態(tài)時的平均交互域范圍越大。圖7 a)—l)描述的是當r=3.8、l=1、Z取不同值下玩家的交互域的動態(tài)演化圖。從t=1到t=10,當Z越大,玩家的交互域值越多樣化。例如,Z=1時網絡上更多的玩家及自身交互域中的合作者數目高于合作閾值,因此更不容易感知到合作者數目的減少,無法及時調整交互域的大小以應對背叛者的利用。與圖6對比觀察,當t=10時,背叛者的比例激增,較大的Z值下(比如Z=5),許多位于背叛者周圍的玩家迅速調整交互域以避免與背叛者接觸,低交互域的個體比例開始上升,但是,懲罰者卻依舊保持更高的交互域值。這一方面是為了遇見更多背叛者并懲罰對方,另一方面也通過與合作者的合作獲得更高收益,維持自身的生存。當t=100時,背叛者交互域受到式(4)的限制不斷降低,比例開始下降,幾乎完全消失在網絡中。網絡上大多數玩家都為合作者和懲罰者,因此為了獲得更高水平的合作,交互域開始擴大,整體呈現為高交互值的分布。當t=10 000、Z=3和Z=5時,種群的交互域值均為 而Z=1時玩家交互域卻依舊保持多樣性。這證明了合作閾值的引入會使玩家的交互域動態(tài)變化,合作閾值越高,對合作策略的促進效果越好,達到全合作穩(wěn)態(tài)后,玩家可以保持最大的交互范圍。對比當Z=3、l=1、r=3.8和r=2.9時交互域的不同分布特點,如圖7 e)—h)和圖7 m)—p)所示??梢钥闯?,r取較小值時演化過程中交互域的多樣性更強,且在穩(wěn)態(tài)時存在大量玩家交互范圍保持在較低的水平。這證明,更大的合作閾值和增強因子能夠促使網絡中玩家對交互域進行更快的調整并恢復至最高的交互范圍。
此外,通過比較圖6和圖7可以發(fā)現,懲罰簇的平均交互域高于合作簇的平均交互域,背叛簇的平均交互域最低。這表明,基于合作閾值的動態(tài)交互模型不僅可以驅逐背叛者,而且可以幫助策略為PC或C的合作參與者建立更大的交互域,從而獲得高收益,達到共贏。
針對交互域k(t)如何影響合作演化的問題,圖8考察了在不同的l值(代表交互域變化強度)下,增強因子r如何影響合作演化。假設l越大意味著交互域每次變化的程度越劇烈,交互域波動越大。當l=0時,等同于傳統(tǒng)帶有懲罰機制下種群的合作演化,在這個過程中交互域不會發(fā)生任何改變??梢钥闯觯攍=0時,穩(wěn)態(tài)時存在合作策略所需的增強因子最大(rgt;3.5),且當r處于中間值(3.5lt;rlt;4.1)時,存在有背叛策略和合作策略共存的較低水平合作穩(wěn)態(tài)。而當l≠0時,只需要很小的增強因子便可以達到全合作的高水平合作穩(wěn)態(tài)??梢钥吹剑攍=0.27時,由于交互域的波動程度較低,在rlt;3.4的條件下,未被驅逐出交互域的背叛者在整體上占據了主導地位。當l=0.3時,可以看到合作行為可以出現并維持的r為3.3。當l=0.55時,合作行為出現的r從3.3降低到2.9,背叛者在很長的一段時間內是優(yōu)勢策略,但是當r≥2.9時,合作策略和懲罰策略占據了整個種群。當l=1時,交互域的動態(tài)變化強度最大,只需要極小的增強因子(r=2.8)就能輕易地逆轉種群全是背叛者的局勢為全合作水平。即在動態(tài)交互域模型中,若Z取較大值(Z=3)時,隨著增強因子的增大,合作水平發(fā)生了從非合作狀態(tài)到合作狀態(tài)的一階相變,且l越大,交互域波動的程度越劇烈,發(fā)生相變所需要的r越小,這能更有效地防止玩家采取背叛行為。
為了進一步探討在不同的l值下如何影響合作水平,圖9給出了當Z=3、r=3.8、l取不同值時,合作水平ρC+PC隨時間t的演化趨勢。在圖中由于一些曲線存在重疊,故只繪制出來涵蓋了所有典型情況的4條曲線。l=0時即等同于傳統(tǒng)模型。在初始階段,無論l取何值,曲線總是從66.6%的合作水平開始,逐漸減少到最小值。這是一個合作者和懲罰者的比例減少的過程。這種現象的原因是,背叛者不需要成本卻獲得高收益的特點使它比合作者和懲罰者更容易被其他玩家選擇學習它的背叛策略。在傳統(tǒng)模型中,合作者和懲罰者試圖形成簇并利用網絡互惠生存?zhèn)鞑ィ怯捎谶@些簇過于分散,懲罰成本過高,這種斗爭的過程更艱難和持久。合作者無法生存,穩(wěn)態(tài)時僅剩余懲罰者和背叛者存活。與這種情況相比,在動態(tài)交互域模型中,背叛者的交互域降低,擴散也受到抑制,更有益于合作者和懲罰者的傳播。動態(tài)交互域使得大多數玩家在博弈過程中不可能一直與所有近鄰交互,這可以在一定程度上防止背叛者利用合作者,最終導致完全的合作,超出了網絡互惠的本身。同時,從動態(tài)交互域的曲線中可以觀察到,l的取值越大,合作水平在t=10左右時抵達的合作水平最低值越高,也能更快地到達完全合作的穩(wěn)態(tài)。據此,可以推斷出造成上述趨勢的原因是變化參數l的取值越大,種群對于檢測到的背叛行為越難以容忍,通過越劇烈的交互域變化來抵制背叛行為,使得合作水平快速上升。
為了探索動態(tài)交互域波動程度所促進的合作行為的微觀變化,圖10呈現了當l取不同值時,這3種策略分布的動態(tài)變化過程。在較小的初始狀態(tài)下,3種策略隨機等概率分布。t=10左右,背叛者比例達到最大值,此時合作策略和懲罰策略只能以分散的小簇存活。觀察第2列的4張圖不難發(fā)現,l越大,網絡中存活的合作者比例越高,合作者和懲罰者形成混合簇,位于合作簇邊緣的懲罰者保護了它們不受背叛者侵蝕。當t=100時,合作者和懲罰者逐漸在網絡中占據優(yōu)勢,區(qū)別在于,當l取較小值(l=0和0.3)背叛策略還未消失,懲罰者和合作者仍需通過調整交互域和施加懲罰來遏制背叛者的比例。當t=10 000時,所有種群均達到穩(wěn)態(tài)。由于l=0是傳統(tǒng)模型,在r=3.8時無法達到全合作水平,背叛者仍以線性小簇包裹在懲罰簇邊緣,二者比例達到動態(tài)平衡。而在交互域存在動態(tài)演化的其余3種情況下,總能在穩(wěn)態(tài)時完全消滅背叛者。從該圖的演化過程可以得知,在較大的變化參數l下,更劇烈的交互域調整有助于合作者和懲罰者的傳播,并形成更強大的集群聯(lián)盟來抵抗背叛者的剝削。l越大,種群對背叛行為的感知越敏銳,背叛者越快被驅逐出交互域,促使合作策略和懲罰策略的傳播越快。
3 結 語
構建了一種動態(tài)交互的公共物品博弈模型,引入了基于合作閾值的交互域更新規(guī)則,得出如下結論。
1)合作閾值越大,對種群合作水平和平均收益的促進效果越好,這更大程度地降低了懲罰支出,更高效地避免了合作者被懲罰者利用。
2)交互域更新程度越劇烈,種群對背叛行為的容忍度越低。背叛策略的傳播受到更強烈的懲罰者制裁和驅逐出交互域的雙重壓力,更多的背叛者不得不放棄不勞而獲,轉而選擇合作策略才得以生存,這加快了合作穩(wěn)態(tài)的進程。
綜上所述,引入基于閾值的動態(tài)交互模型對合作的促進效果顯著。盡管基于合作閾值的動態(tài)交互域模型可以很好地提高種群的集體利益,達到全合作的高水平穩(wěn)態(tài),但由于交互域的更新方式單一,應付復雜多變的現實交互環(huán)境還存在一定難度,在今后的研究中需要進一步改進優(yōu)化更新方式。
參考文獻/References:
[1] YANG Zhihu,LI Zhi.Oscillation and burst transition of human cooperation[J].Nonlinear Dynamics,202 108(4):4599-4610.
YANG Zhihu.Role polarization and its effects in the spatial ultimatum game[J].Physical Review E,2023.DOI:10.1103/PhysRevE.108.024106.
[3] 榮智海,許雄銳,吳枝喜.合作演化與網絡博弈實驗研究進展[J].中國科學:物理學力學天文學,2020,50(1):114-128.
RONG Zhihai,XU Xiongrui,WU Zhixi.Experiment research on the evolution of cooperation and network game theory[J].Scientia Sinica Physica,Mechanica amp; Astronomica,2020,50(1):114-128.
[4] 全吉,周亞文,王先甲.社會困境博弈中群體合作行為演化研究綜述[J].復雜系統(tǒng)與復雜性科學,2020,17(1):1-14.
QUAN Ji,ZHOU Yawen,WANG Xianjia.Review on evolution of cooperation in social dilemma games[J].Complex Systems and Complexity Science,2020,17(1):1-14.
[5] 蘭婷,程磊,戚靜云.空間公共品博弈中條件相互懲罰對合作的影響[J].科技通報,2017,33(6):26-31.
LAN Ting,CHENG Lei,QI Jingyun.Effect of conditional mutual punishment on the cooperation in the spatial public goods game[J].Bulletin of Science and Technology,2017,33(6):26-31.
[6] 全吉,儲育青,王先甲.具有懲罰策略的公共物品博弈與合作演化[J].系統(tǒng)工程理論與實踐,2019,39(1):141-149.
QUAN Ji,CHU Yuqing,WANG Xianjia.Public goods with punishment and the evolution of cooperation[J].Systems Engineering-Theory amp; Practice,2019,39(1):141-149.
[7] WANG Qiang,LIU Linjie,CHEN Xiaojie.Evolutionary dynamics of cooperation in the public goods game with individual disguise and peer punishment[J].Dynamic Games and Applications,2020,10(3):764-782.
[8] SZOLNOKI A,SZAB G,PERC M.Phase diagrams for the spatial public goods game with pool punishment[J].Physical Review E, Statistical, Nonlinear, and Soft Matter Physics,2011.DOI:10.1103/PhysRevE.83.036101.
[9] 謝逢潔.復雜網絡上博弈行為演化的合作激勵[J].上海交通大學學報,201 49(8):1256-1262.
XIE Fengjie.Incentive mechanism for cooperation in evolution of game behaviors on complex networks[J].Journal of Shanghai Jiaotong University,201 49(8):1256-1262.
[10]高世萍,武斌,杜金銘,等.激勵機制下合作行為的演化動力學[J].控制理論與應用,2018,35(5):627-636.
GAO Shiping,WU Bin,DU Jinming,et al.Evolutionary dynamics of cooperation driven by incentives[J].Control Theory amp; Applications,2018,35(5):627-636.
[11]鄭巍,彭雨松,楊豐玉,等.基于利他激勵的群體演化合作模型[J].計算機應用研究,202 38(2):475-478.
ZHENG Wei,PENG Yusong,YANG Fengyu,et al.Group evolution cooperation model based on altruistic incentive[J].Application Research of Computers,202 38(2):475-478.
[12]ZHUO Siqing,LIU Jie,REN Tianyu,et al.Evolution dynamics with the switching strategy of punishment and expulsion in the spatial public goods game[J].New Journal of Physics,2022.DOI:10.1088/1367-2630/aca995.
[13]李霞.具有條件驅逐策略的空間公共物品博弈與合作演化[D].武漢:武漢理工大學,2021.
LI Xia.Cooperation Evolution of Spatial Public Goods Game with Conditional Exclusion Strategy[D].Wuhan:Wuhan University of Technology,2021.
[14]HUANG Keke,WANG Tao,CHENG Yuan,et al.Effect of heterogeneous investments on the evolution of cooperation in spatial public goods game[J].PLoS One,2015.DOI:10.1371/journal.pone.0120317.
[15]CAO Xianbin,DU Wenbo,RONG Zhihai.The evolutionary public goods game on scale-free networks with heterogeneous investment[J].Physica A:Statistical Mechanics and Its Applications,2010,389(6):1273-1280.
[16]FAN Ruguo,ZHANG Yingqing,LUO Ming,et al.Promotion of cooperation induced by heterogeneity of both investment and payoff allocation in spatial public goods game[J].Physica A:Statistical Mechanics and Its Applications,2017,465(6):454-463.
[17]WANG Xiaofeng,CHEN Xiaojie,GAO Jia,et al.Reputation-based mutual selection rule promotes cooperation in spatial threshold public goods games[J].Chaos,Solitons amp; Fractals,201 56:181-187.
[18]FU Feng,HAUERT C,NOWAK M A,et al.Reputation-based partner choice promotes cooperation in social networks[J].Physical Review E, Statistical, Nonlinear, and Soft Matter Physics,2008.DOI:10.1103/PhysRevE.78.026117 .
[19]湯彩霞.空間公共物品博弈中基于聲譽機制的合作演化研究[D].武漢:武漢理工大學,2021.
TANG Caixia.Cooperation Evolution Based on Reputation Mechanism in Spatial Public Goods Game[D].Wuhan:Wuhan University of Technology,2021.
[20]辛琦.基于聲譽的網絡成長模型[J].山東農業(yè)大學學報(自然科學版),2018,49(1):166-170.
XIN Qi.Network growth model based on reputation[J].Journal of Shandong Agricultural University(Natural Science Edition),2018,49(1):166-170.
[21]全吉,儲育青,王先甲.自愿參與機制下的公共物品博弈與合作演化[J].系統(tǒng)工程學報,2020,35(2):188-200.
QUAN Ji,CHU Yuqing,WANG Xianjia.Public goods game under voluntary participation mechanism and the evolution of cooperation[J].Journal of Systems Engineering,2020,35(2):188-200.
[22]ZHU Peican,GUO Hao,ZHANG Hailun,et al.The role of punishment in the spatial public goods game[J].Nonlinear Dynamics,2020,102(4):2959-2968.
[23]HELBING D,SZOLNOKI A,PERC M,et al.Evolutionary establishment of moral and double moral standards through spatial interactions[J].PLoS Computational Biology,2010.DOI:10.1371/journal.pcbi.1000758.
[24]SHANG Lihui,SUN Sihao,AI Jun,et al.Cooperation enhanced by the interaction diversity for the spatial public goods game on regular lattices[J].Physica A:Statistical Mechanics and Its Applications,2022.DOI:10.1016/j.physa.2022.126999.
[25]LI Hongyang,XIAO Jian,LI Yumeng,et al.Effects of neighborhood type and size in spatial public goods game on diluted lattice[J].Chaos Solitons amp; Fractals,201 56:145-153.
[26]XU C,HUI P M.Evolution of cooperation in public goods game in populations of dynamic groups of varying sizes[J].Physica A:Statistical Mechanics and Its Applications,2023. DOI:10.1016/J.PHYSA.2023.128519.
[27]ZHU Chengjie,SUN Shiwen,WANG Li,et al.Promotion of cooperation due to diversity of players in the spatial public goods game with increasing neighborhood size[J].Physica A:Statistical Mechanics and Its Applications,201 406:145-154.
[28]KIMMEL G J,GERLEE P,BROWN J S,et al.Neighborhood size-effects shape growing population dynamics in evolutionary public goods games[J].Communications Biology,2019.DOI:10.1038/s42003-019-0299-4.
[29]HELBING D,SZOLNOKI A,PERC M,et al.Punish,but not too hard:How costly punishment spreads in the spatial public goods game[J].New Journal of Physics,2010.DOI:10.1088/1367-2630/12/8/083005.
[30]周萬珍,宋健,許云峰.異質網絡社區(qū)發(fā)現方法研究綜述[J].河北科技大學學報,202 42(3):231-240.
ZHOU Wanzhen,SONG Jian,XU Yunfeng.Survey of community discovery method of heterogeneous network[J].Journal of Hebei University of Science and Technology,202 42(3):231-240.
[31]陳蔚穎,潘建臣,韓文臣,等.具有異質增益因子的超圖上的演化公共品博弈[J].物理學報,202 71(11):25-33.
CHEN Weiying,PAN Jianchen,HAN Wenchen,et al.Evolutionary public goods games on hypergraphs with heterogeneous multiplication factors[J].Acta Physica Sinica,202 71(11):25-33.
[32]JANSSEN M A,GOLDSTONE R L.Dynamic-persistence of cooperation in public good games when group size is dynamic[J].Journal of Theoretical Biology,2006,243(1):134-142.
[33]YANG Zhihu,LI Zhi,WU Te,et al.Effects of adaptive dynamical linking in networked games[J].Physical Review E,Statistical,Nonlinear,and Soft Matter Physics,2013.DOI:10.1103/PhysRevE.88.042128.
[34]YANG Zhihu,YU Changbin,KIM J,et al.Evolution of cooperation in synergistically evolving dynamic interdependent networks:Fundamental advantages of coordinated network evolution[J].New Journal of Physics,2019.DOI:10.1088/1367-2630/ab32c7.
[35]WANG Pai,YANG Zhihu.The double-edged sword effect of conformity on cooperation in spatial Prisoner’s Dilemma Games with reinforcement learning[J].Chaos Solitons amp; Fractals,2024.DOI:10.1016/j.chaos.2024.115483.
[36]DU Chunpeng,LU Yikang,MENG Haoran,et al.Evolution of cooperation on reinforcement-learning driven-adaptive networks[J].Chaos:An Interdisciplinary Journal of Nonlinear Science,2024.DOI:10.1063/5.0201968.
[37]WANG Zhen,SZOLNOKI A,PERC M.Interdependent network reciprocity in evolutionary games[J].Scientific Reports,2013.DOI:10.1038/srep01183.
[38]DORNIC I,CHAT" H,CHAVE J,et al.Critical coarsening without surface tension: The universality class of the voter model[J].Physical Review Letters,2001.DOI:10.1103/PhysRevLett.87.045701.