全 吉,周亞文,王先甲
(1.武漢理工大學(xué)管理學(xué)院,武漢 430070;2.武漢大學(xué)經(jīng)濟(jì)與管理學(xué)院,武漢 430072)
社會困境問題在人類社會活動和經(jīng)濟(jì)活動中普遍存在。社會困境描述了個體的最優(yōu)行為與集體最優(yōu)行為的不一致,如何化解社會困境已成為整個社會科學(xué)關(guān)注的焦點。用博弈論的語言可將社會困境問題描述為:多人行為形成的策略均衡是帕累托無效率的,至少存在一個更好的結(jié)果,這一結(jié)果可以在不損害任何人的利益下增加某些人的收益,系統(tǒng)存在帕累托改進(jìn)的可能性。社會困境的存在向我們提出“何種機(jī)制可以實現(xiàn)社會或經(jīng)濟(jì)系統(tǒng)中的合作紅利”這一重要的科學(xué)問題。
實際上,雖然人類無時無刻不面臨著合作的困境,但在現(xiàn)實的社會關(guān)系和經(jīng)濟(jì)關(guān)系中,合作現(xiàn)象已經(jīng)四處可見。大到國家之間、地區(qū)之間、企業(yè)之間的合作,小到個人之間的合作,合作是人類社會進(jìn)步和文明的基礎(chǔ)。顯然,現(xiàn)實中的這些合作大多都是在無集權(quán)的情況下自發(fā)所產(chǎn)生的。那么,理解自利個體之間自發(fā)產(chǎn)生合作的條件或機(jī)理就成為社會科學(xué)中的一個基本問題。
《Science》雜志在2005年創(chuàng)刊125周年之際,提出了125個驅(qū)動基礎(chǔ)科學(xué)研究以及決定未來25年各領(lǐng)域研究方向的科學(xué)難題,而“人類的合作行為如何演化”被列為這125個問題中最為核心的25個問題之一[1-2]。探討合作產(chǎn)生的機(jī)理對于正確認(rèn)識合作產(chǎn)生的條件和手段有著重要的科學(xué)意義和理論價值。實際上,人類社會中的許多制度安排和經(jīng)濟(jì)活動中的契約關(guān)系都是為了解決社會困境問題而產(chǎn)生的。因此,理解合作產(chǎn)生的機(jī)理,對于幫助我們選擇有效的激勵機(jī)制和合作模式,提高合作效率以達(dá)到增加社會和個人福利方面也有著重要的應(yīng)用價值。
目前,有來自多個學(xué)科的國內(nèi)外學(xué)者對人類合作行為的演化問題進(jìn)行了研究[3-5]。已經(jīng)有了一些較為成熟的研究框架和方法論。本文將對采用演化博弈論方法研究合作問題的研究進(jìn)展進(jìn)行綜述,并給出這一領(lǐng)域未來可進(jìn)一步擴(kuò)展的研究問題。
社會困境博弈泛指一類博弈,它們具有一個共同的特征:個體的最優(yōu)行為與集體的最優(yōu)行為不一致,博弈將導(dǎo)致帕累托無效率的均衡結(jié)果。對于兩人兩策略的博弈,可以按照如圖1所示的收益矩陣對博弈進(jìn)行分類。
圖1 收益矩陣(r2>1)Fig.1 The payoff matrix
1)無沖突博弈。如果r2-r1>1并且r1>1。合作對每個人都是嚴(yán)格占優(yōu)策略。此時,(C,C)為博弈唯一的演化穩(wěn)定均衡,此均衡也是帕累托有效率的。這種情況不存在合作問題,不會形成社會困境。
2)囚徒困境博弈(Prisoners Dilemma Game,簡稱PDG)。如果r2-r1<1并且r1<1。背叛對每個人都是嚴(yán)格占優(yōu)策略。此時,(D,D)為博弈唯一的演化穩(wěn)定均衡,此均衡是帕累托無效率的(因為策略組合(C,C)形成的結(jié)果可以使雙方的收益都得到改善)。這一博弈結(jié)構(gòu)被稱為囚徒困境博弈。由Flood和Dresher在1950年首次發(fā)現(xiàn),并在同一年由Tucker[6]所正式定義。囚徒困境博弈是目前研究最多的一類社會困境博弈,研究的焦點集中在如何實現(xiàn)效率更高的(C,C)結(jié)果。
3)雪堆博弈(Snowdrift Game,簡稱SD)。如果r2-r1<1并且r1>1。此時,博弈有兩個純策略納什均衡:(C,D),(D,C)和一個混合策略納什均衡:分別以概率(p,1-p)選擇C和D,其中p=(r1-1)/(2r1-r2)。三個納什均衡中只有混合策略均衡是演化穩(wěn)定的。這一博弈結(jié)構(gòu)在1966年首次被Rapoport和Chammah[7]稱為斗雞博弈(Chicken Game);后在1973年被Maynard Smith 和Price[8]稱為鷹鴿博弈(Hawk-Dove Game);后在1986年Hamlin和Sugden的專著[9]中被稱為雪堆博弈(Snowdrift Game)。目前,在演化博弈及合作演化領(lǐng)域,更多的是采用雪堆博弈這一名稱。雪堆博弈也是一類社會困境博弈,與PDG不同的是,SD中合作和背叛可以共存,因此關(guān)注的焦點是如何提高合作者的比例以增加整個群體的收益。
4)獵鹿博弈(Stag Hunt Game)。如果r2-r1>1并且r1<1。此時,博弈有兩個純策略納什均衡:(C,C),(D,D),并且都是演化穩(wěn)定的。這一博弈結(jié)構(gòu)及名稱最早由Rousseau在其著作中所提及。在社會科學(xué)領(lǐng)域也被稱為保險博弈(Assurance Game),在國際關(guān)系領(lǐng)域也被稱為安全困境博弈(Security Dilemma Game)。這是一類協(xié)調(diào)型博弈,此處的合作問題在于如何使均衡從風(fēng)險占優(yōu)均衡(D,D)轉(zhuǎn)移到收益占優(yōu)均衡(C,C)。
上述這些社會困境問題在經(jīng)典的博弈論框架下分析,合作是不可能實現(xiàn)的。特別的,即便博弈重復(fù)進(jìn)行有限多次(現(xiàn)實中的重復(fù)博弈不可能是無限多次),利用逆向遞推法,合作也不可能出現(xiàn)。然而,有限次重復(fù)博弈中的合作現(xiàn)象在現(xiàn)實社會和各種行為實驗中都普遍存在[12-14]。這說明現(xiàn)實中的個體并沒有按照經(jīng)典博弈論中的假設(shè)進(jìn)行行為。事實上,當(dāng)個體選擇某個策略的結(jié)果不僅依賴于自己的策略選擇,而且依賴于其他人的策略選擇時,最終情形要比完全理性下博弈所預(yù)測的行為復(fù)雜的多[15]。因此,要解釋現(xiàn)實社會自私群體中自發(fā)產(chǎn)生的合作現(xiàn)象,我們需要打破完全理性的假設(shè),而傳統(tǒng)的博弈分析方法建立在理性推理的分析基礎(chǔ)上,無法反映參與人的學(xué)習(xí)過程。因此,傳統(tǒng)的靜態(tài)分析框架對于分析有限理性參與人的博弈問題是無能為力的。
演化博弈論以群體為對象,以有限理性為基礎(chǔ),有限理性下的博弈分析是一種包含參與人的學(xué)習(xí)和策略調(diào)整過程的全新的動態(tài)分析框架。讓博弈人組成一個群體,通過成員之間隨機(jī)配對的反復(fù)博弈,博弈的結(jié)果映射成個體的適應(yīng)性。這種分析框架與建立在達(dá)爾文自然選擇思想基礎(chǔ)上的生物進(jìn)化理論的分析框架很相似。并且,人類的行為與其他生物的行為也有相似之處,如人類在遇到復(fù)雜問題時一般會由直覺引發(fā)行為方式,并會模仿成功者的行為;人類的競爭合作行為與動物世界的競爭合作也是很相似的。因此,借鑒研究生物種群性狀進(jìn)化和穩(wěn)定機(jī)制的方法來分析人類的行為是一種有效的借鑒類比研究思想與方法。更重要的是,借鑒生物進(jìn)化理論與生物行為規(guī)律的分析方法還可以模擬博弈均衡解的動態(tài)實現(xiàn)過程。
目前在演化博弈的框架下分析社會困境中合作的演化已成為最有效的方法之一。演化博弈中最核心的概念是演化穩(wěn)定策略(Evolutionary Stable Strategy,簡稱ESS)。而解決社會困境問題就是要尋求相應(yīng)的機(jī)制使得合作型策略成為系統(tǒng)的演化穩(wěn)定策略。因此,在各種情形下分析博弈的ESS就成為最核心的問題。ESS的概念是1973年由Maynard Smith和Price在《Nature》上發(fā)表的論文中首次提出[16]。所謂ESS是指如果占群體絕大多數(shù)的個體選擇了此策略,那么對于任意小的采用其他策略的突變?nèi)后w就不能侵入到這個群體。
隨著學(xué)者在這一領(lǐng)域研究的不斷深化,對于無結(jié)構(gòu)的種群,目前理論研究的熱點集中在種群數(shù)量有限和考慮隨機(jī)性兩種情況下的建模和分析。實際上,演化中的隨機(jī)性會讓系統(tǒng)變得非常復(fù)雜。如Huang等人[25]建立了種群中個體數(shù)量隨群體平均收益而隨機(jī)波動的隨機(jī)演化博弈模型,并采用主方程近似以及仿真的方法分析了不同類型博弈的演化動態(tài)及均衡,發(fā)現(xiàn)了很多可能的復(fù)雜演化結(jié)果。傳統(tǒng)的演化模型及ESS概念僅僅考慮到系統(tǒng)受到微小沖擊后能否回到均衡狀態(tài),而在現(xiàn)實世界的演化中,由于變異性,系統(tǒng)可能受到連續(xù)沖擊,此時系統(tǒng)的演化穩(wěn)定狀態(tài)可能并不是隨機(jī)穩(wěn)定的,這種情況需要采用Young等人[19-20]所建立的隨機(jī)穩(wěn)定均衡(SSE)分析框架。如Liang等人[26]采用隨機(jī)微分方程建立了多人雪堆博弈的隨機(jī)演化動態(tài),分析了系統(tǒng)的SSE。Quan等人[27]采用馬爾科夫過程建立了有限群體中的非均勻連接下的隨機(jī)演化博弈模型,分析了所有2×2博弈中非均勻連接參數(shù)對于系統(tǒng)選擇不同SSE的影響。特別的,對于PDG,在非均勻連接下,合作和背叛策略可以共存。最近,Quan等人[28]采用擬生滅過程建立了具有懲罰策略和分離策略的多人公共物品隨機(jī)演化博弈,用數(shù)值方法分析了系統(tǒng)所有可能的SSE以及系統(tǒng)選擇不同SSE的概率與模型參數(shù)之間的關(guān)系,研究發(fā)現(xiàn)存在很大的參數(shù)范圍,懲罰策略可以在系統(tǒng)中涌現(xiàn)。
綜上所述,上面列出了演化博弈和合作演化領(lǐng)域所研究的大部分社會困境博弈模型(其中PDG,SDG和PGG是研究最多的三個模型)。要在演化博弈的框架下解決社會困境問題,本質(zhì)上就是要尋求相應(yīng)的機(jī)制使得合作型策略(包括各種懲罰、獎勵策略)成為系統(tǒng)的ESS。對于無結(jié)構(gòu)種群中系統(tǒng)演化動態(tài)的建模,目前主要采用的是微分方程和隨機(jī)過程的方法。因此,對于演化博弈ESS(或隨機(jī)系統(tǒng)SSE)的分析,將主要借助于數(shù)學(xué)上已經(jīng)非常成熟的微分方程的求解和穩(wěn)定性分析方法,以及隨機(jī)過程的狀態(tài)轉(zhuǎn)移和極限分布等分析求解方法。對于有結(jié)構(gòu)種群中系統(tǒng)演化的建模和分析方法,將在后面的網(wǎng)絡(luò)互惠中進(jìn)行介紹。
從行為科學(xué)的角度來看,合作問題本質(zhì)上是一個激勵問題。換句話說,如果我們希望由個體理性選擇來實現(xiàn)集體理性,獲得合作帶來的好處,就需要對個人的行為進(jìn)行激勵和誘導(dǎo)。比如,對不合作的行為給予懲罰,對合作行為給予獎勵。但是在現(xiàn)實中,懲罰和獎勵都需要成本。因此,由誰來實施獎懲以及怎樣實施獎懲,就成了此激勵問題中最為核心的問題。
從廣義上來看,按照懲罰實施方(獎勵與之類似)的不同,可分為第一方懲罰、第二方懲罰和第三方懲罰。第一方懲罰是指個人在背叛時所產(chǎn)生的不舒服感,是一種內(nèi)在的自我良心懲罰,如內(nèi)疚、羞愧和尷尬等;第二方懲罰是指博弈中的當(dāng)局者對于背叛者施加的懲罰;第三方懲罰指旁觀者對背叛者施加的懲罰,在自組織系統(tǒng)中,這里的旁觀者可以理解為未來可能與之相遇的潛在群體。
對于第一方懲罰,可將其看作是由于社會價值觀而產(chǎn)生的非物質(zhì)手段的激勵,這一懲罰機(jī)制在現(xiàn)實社會中確實存在,需要從人的心理需求角度進(jìn)行分析,或用于分析具有親緣關(guān)系的個體之間。Quan等人[29]研究了度相關(guān)的內(nèi)疚感對演化囚徒困境博弈中群體合作行為的影響,發(fā)現(xiàn)個體的內(nèi)疚心理確實可以極大程度的促進(jìn)合作。但這一機(jī)制并不具有普遍性,不能從本質(zhì)上解決社會困境問題。
對于第二方懲罰,需要博弈當(dāng)局者來實施這一懲罰。人類學(xué)家和生物學(xué)家很早就發(fā)現(xiàn)懲罰背叛行為是維護(hù)人類及其他生物種群合作的有效方法。實驗經(jīng)濟(jì)學(xué)家通過行為實驗也發(fā)現(xiàn)利他性懲罰確實可以顯著的提高群體的合作水平[30]。但是,現(xiàn)實中的懲罰本身都具有成本,除了需要消耗時間和精力外,還需要承受被報復(fù)的風(fēng)險,這樣就會產(chǎn)生“二階搭便車”行為,誰來實施懲罰本身就變成了一個二階社會困境問題[31]。正如Colman所描述的:在懲罰機(jī)制下,需要用對懲罰的解釋來取代對合作的解釋[32]。因此,在第二方懲罰機(jī)制下,最核心的是要回答什么條件可以促進(jìn)懲罰策略的演化。Ozono等人[33]通過引入領(lǐng)導(dǎo)人角色,假設(shè)領(lǐng)導(dǎo)人可以通過公共資金來對任何人進(jìn)行懲罰,而公共資金來自于群體成員的支持。他們將PGG博弈分成三個階段,并通過行為實驗驗證了此機(jī)制可以有效的解決二階搭便車行為。Ye等人[34]構(gòu)建了有限群體中PGG的隨機(jī)演化博弈模型,證明了如果公共物品投資的規(guī)模報酬遞增,則可以有效解決二階搭便車行為。Quan等人[28]證明在隨機(jī)演化中,如果同時存在分離策略和懲罰策略,則懲罰策略可以被演化,即具有分離策略時可以有效解決二階搭便車行為。
另外,在第二方懲罰機(jī)制下,各種形式的懲罰策略被提出,這些懲罰策略包括:合作的同時,懲罰背叛者和懲罰“二階搭便車”者(不對背叛者進(jìn)行懲罰的合作者)[35-37]、合作的同時懲罰其他不合作者,以及背叛的同時懲罰其他不合作者[38]、反社會懲罰[39]、基于容忍度的懲罰[40]、基于合作成功率的自組織懲罰[41]、懲罰強(qiáng)度基于懲罰者數(shù)量的條件懲罰[42]、概率分?jǐn)倷C(jī)制下的懲罰[43]。最近還出現(xiàn)了對群體的連帶性懲罰[44]、根據(jù)懲罰者的承受能力進(jìn)行分類的異質(zhì)性懲罰[45]、以及親社會和社會排斥多種懲罰同時存在時的競爭演化[46],等等。關(guān)于社會困境博弈中第二方懲罰機(jī)制的研究進(jìn)展,可以參考Perc等人最近的綜述文章[47]。需要指出的是,在現(xiàn)實世界中,通過第二方懲罰來促進(jìn)合作存在著一些缺陷[48],除了實施此行為本身可能會引起的效率損失外,由于增加了作用環(huán)節(jié),其效果可能還受其他因素影響。如Nikiforakis等人[49]通過行為實驗發(fā)現(xiàn)公共物品博弈中懲罰的作用形式及其反饋方式會對群體合作行為產(chǎn)生影響,只有合適的懲罰反饋才能促進(jìn)群體的合作。王龍等人[50]研究了社會困境中的反饋機(jī)制,如懲罰和獎勵對合作的影響。葉航[51]采用計算機(jī)仿真方法對公共物品博弈中的二階搭便車問題進(jìn)行了模擬。黃璜[52]研究了引入強(qiáng)合作和強(qiáng)欺騙策略下的合作演化問題。
對于第三方懲罰,在無集權(quán)的情況下,可看作是未來可能與之相遇的潛在群體對其實施的懲罰。與第二方懲罰不同的是,這里不需要假設(shè)兩個個體之間重復(fù)進(jìn)行博弈,這一假設(shè)實際上也更符合現(xiàn)實,因為現(xiàn)實中的兩個陌生人之間很多時候都只會相遇一次,發(fā)生一次博弈。此時,分析的框架是建立在間接互惠的基礎(chǔ)上,比如,A因為之前與B合作而被其他個體(如C)觀察到,后續(xù)C遇到A時就更傾向于與之合作。其實,這里從聲譽的角度更好理解間接互惠,C愿意與A合作是因為A之前與B交互時選擇了合作而被賦予了一個好的聲譽。
如前所述,基于聲譽的懲罰可看作是一種間接懲罰。Kandori[53]研究了聲譽機(jī)制下的每個個體與不同個體匹配進(jìn)行重復(fù)囚徒困境的問題,證明了在某些特定假設(shè)下,即便每個個體只有有限信息,系統(tǒng)也可以實現(xiàn)合作,還可以實現(xiàn)重復(fù)囚徒博弈中的任意合作結(jié)果(重復(fù)博弈中的無名氏定理)。在聲譽機(jī)制中,需要解決兩個核心的問題,其一是,如何描述和評價每個個體的聲譽;其二是,每個個體如何獲得其他個體的聲譽。
目前,在演化博弈的框架下已有較多研究引入了聲譽描述和評價機(jī)制,并通過模型或?qū)嵶C方法驗證了聲譽信息對于合作行為的促進(jìn)作用。Nowak等人[54]用最簡單的二元聲譽機(jī)制(聲譽只有好和壞兩種情況)和最簡單的一階評價規(guī)則(每個人的聲譽僅僅取決于其上一輪的行為,合作則聲譽好,背叛則聲譽壞)研究了間接互惠的演化穩(wěn)定條件:正確獲得對手聲譽的概率必須超過合作行為的成本收益比。Wedekind等人[55]在考慮很多混合因素的條件下,采用實驗的方法驗證了在直接互惠不可能的情況下,聲譽機(jī)制確實可以促進(jìn)合作。Milinski等人[56]提出了一種采用聲譽機(jī)制來維持公共資源的方法,驗證聲譽機(jī)制可以幫助解決“公共地的悲劇”問題。Panchanathan等人[57]通過演化模型和仿真實驗驗證了間接互惠和聲譽可以使合作成為演化穩(wěn)定策略,并且不出現(xiàn)二階搭便車行為。Nowak和Sigmund[58]采用二元聲譽機(jī)制和三階評價規(guī)則(每個人的聲譽取決于其上一輪的行為,其上一輪的聲譽,以及和其交互的個體上一輪的聲譽),建立了間接互惠機(jī)制下的策略演化模型,得到了間接互惠能促進(jìn)合作的條件。Ohtsuki等人[59]在間接互惠中進(jìn)一步考慮了懲罰的作用,他們采用二元聲譽機(jī)制和二元評價規(guī)則(每個人的收益取決于其上一輪的行為和與其交互的個體上一輪的聲譽),通過模型發(fā)現(xiàn)在間接互惠中,只有一個很小的參數(shù)區(qū)域,在這個區(qū)域中,帶成本的懲罰策略會導(dǎo)致更有效率的均衡。在大多數(shù)情況下,不使用懲罰策略會更好。Swakman等人[60]通過行為實驗,發(fā)現(xiàn)了人們積極尋求二階信息,通過二階聲譽機(jī)制的信息進(jìn)行合作決策的證據(jù),理論上為基于聲譽的合作機(jī)制提供了強(qiáng)有力的實證支持。Ule等人[61]通過實驗驗證了通過聲譽來間接懲罰參與者可以維持合作的長期發(fā)展。Martinez-Vaquero等人[62]則分析基于聲譽的間接互惠模型的進(jìn)化穩(wěn)定性以及如何抵制欺騙策略。
關(guān)于聲譽機(jī)制,已有的大部分研究都假設(shè)每個人都有足夠的信息和能力來獲得其他個體的聲譽(聲譽是共同知識)。Uchida和Sasaki[63]則分析了私人信息和評估誤差對結(jié)果的影響,發(fā)現(xiàn)其可能會導(dǎo)致評價規(guī)則的崩潰。Tanimoto[64]將聲譽機(jī)制用于具有交互結(jié)構(gòu)的群體博弈中,分析了信息結(jié)構(gòu)對于合作的影響,發(fā)現(xiàn)高水平的信息并不總是優(yōu)于低水平的信息。Berger和Grune[65]比較分析了評估誤差對于合作穩(wěn)定性的影響,發(fā)現(xiàn)一階評價規(guī)則比二階評價規(guī)則的穩(wěn)定性更好。用于評價個體聲譽的評價規(guī)則實際上可看作是一種社會規(guī)范。最近,Santos等人[66]研究了個體策略的變異對于間接互惠下合作演化動態(tài)的影響,發(fā)現(xiàn)結(jié)果取決于社會規(guī)范的具體形式。Abbink等人[67]發(fā)現(xiàn)如果社會規(guī)范不好,懲罰會對合作起負(fù)面作用。Sasaki等人[68]提出了一種新的社會規(guī)范形式:如果對手聲譽不好,是否對其提供幫助不影響其自身聲譽,并且證明了這種社會規(guī)范能更好的促進(jìn)合作。關(guān)于間接互惠與合作演化,可以參考張艷玲等人的綜述[69]。
綜上所述,對于第二方懲罰,目前已經(jīng)提出了很多種具體的懲罰策略,這些懲罰策略與傳統(tǒng)的合作與背叛策略之間的演化動態(tài)已經(jīng)有了大量研究。現(xiàn)有的研究還有待繼續(xù)擴(kuò)展的領(lǐng)域主要包括:隨機(jī)情形下懲罰策略的演化動態(tài)及隨機(jī)穩(wěn)定性判斷,多策略(多種懲罰策略或懲罰策略與其他策略)共存下的演化,以及各種懲罰策略促進(jìn)合作的效率分析。對于聲譽機(jī)制,目前還有待繼續(xù)擴(kuò)展的研究包括:分析不同的社會規(guī)范形式對于群體合作的影響,尋求最有利于合作的社會規(guī)范形式;進(jìn)一步分析聲譽的不完全性及噪音對各種社會規(guī)范下合作的影響,等等。
分離策略是指在重復(fù)博弈的過程中,如果個體發(fā)現(xiàn)其對手不友好,可以直接終止與對手的博弈關(guān)系,而避免與其無休止的互相背叛。在現(xiàn)實中,分離策略有其應(yīng)用的背景,因為很多時候參與并不是強(qiáng)制的或者參與人有退出的權(quán)利。如勞動力市場上人員的離職和解雇,多國貿(mào)易關(guān)系中的貿(mào)易中斷,等等。
由于現(xiàn)實中參與博弈都是有機(jī)會成本的,因此通常假設(shè)選擇分離策略可以獲得一個固定的收益。允許策略的分離也可看作是一種可選擇參與機(jī)制。Hauert等人[70]在《Science》雜志上首次研究了公共物品博弈中的可選擇參與機(jī)制,通過在PGG中引入一種分離策略,參與者可以自由選擇參與或退出此項公共物品的投資,不參與的個體不貢獻(xiàn)投資,也不獲得合作收益。研究發(fā)現(xiàn),分離策略的引入可以在一定程度上化解PGG中的合作困境,在有退出者的情況下,合作者和背叛者可以共存。隨后,Brandt等人[71]建立了具有懲罰策略和分離策略的公共物品博弈復(fù)制動態(tài)方程,對模型的演化動態(tài)進(jìn)行了分析。復(fù)制動態(tài)模型假設(shè)群體中個體數(shù)量足夠大,為了描述有限群體中的演化動態(tài)及演化過程中的變異性,Hauert等人[72]采用Moran過程建立了具有懲罰策略和分離策略的公共物品演化博弈模型,采用扎根概率分析了系統(tǒng)的演化特性。
由于具有較強(qiáng)的可解釋性,以上述Hauert等人的模型為基礎(chǔ),具有懲罰策略和分離策略的公共物品演化模型得到了學(xué)者們的廣泛研究。一方面的擴(kuò)展集中在采用不同的演化動態(tài)對模型進(jìn)行了研究,如Wang和Xu等人[73-74]引入?yún)⑴c人的有限理性程度,采用近似最優(yōu)反應(yīng)動態(tài)方程研究了具有懲罰策略和分離策略的公共物品演化博弈。Xu等人引入了個體策略更新的自我調(diào)整規(guī)則,研究了在此規(guī)則下具有分離策略的公共物品演化博弈[75],以及同時具有懲罰策略和分離策略的公共物品演化博弈[76]。Song等人[77]采用Logit演化動態(tài)研究了具有分離策略的公共物品博弈中群體合作行為。Quan等人[28]采用生滅過程研究了具有分離策略和懲罰策略的公共物品博弈。另外,在可選擇參與機(jī)制下,其他一些因素對群體合作行為的影響也得到了研究。如Dercole等人[78]研究發(fā)現(xiàn),在可選擇參與機(jī)制下,不需要過重的懲罰即可實現(xiàn)合作策略的演化。Rand等人[39]在可選擇參與機(jī)制下,研究了反社會懲罰對于公共物品博弈中群體合作行為的影響。Zhong等人[79]研究了在可選擇參與機(jī)制下,群體由于驅(qū)利而引起的流動性和合作策略的聚集性對群體合作行為的影響。Nakamaru等人[80]研究了不同的加入機(jī)制對群體合作的影響,發(fā)現(xiàn)允許驅(qū)逐比無條件接納更能促進(jìn)群體的合作。Valverde等人[81]在網(wǎng)絡(luò)交互機(jī)制下,通過在群體作用網(wǎng)絡(luò)中引入一種簡單隨機(jī)流動性,研究了這種波動對可選擇參與機(jī)制下的公共物品博弈的影響。最近,Quan等人[82]研究了有限群體中的隨機(jī)演化公共物品博弈,發(fā)現(xiàn)在隨機(jī)情形下,分離策略的引入更能促進(jìn)群體的合作。
剝削策略(Extortion Strategy)在2012年由Press和Dyson[83]在美國科學(xué)院院報(PNAS)雜志上首次提出,也稱為零行列式策略(Zero-Determinant Strategies,簡稱ZD策略)。它是重復(fù)博弈中的一類基于概率的且具有一步記憶的策略,這類策略可以在不管對手策略如何反應(yīng)的情況下,單方面設(shè)計對手的收益與自己的收益表現(xiàn)為一種線性關(guān)系,從而實現(xiàn)自己的收益不低于對手的收益。
這一特殊屬性吸引了研究者的廣泛關(guān)注,也越來越多的被用在重復(fù)囚徒困境博弈的研究中。Adami和Hintze[84]研究發(fā)現(xiàn)ZD策略雖然可以單方面設(shè)定對手在重復(fù)囚徒困境博弈中的期望收益,保證自己的收益不低于對手,但在經(jīng)典的復(fù)制動態(tài)模型以及混合均勻的群體中,這一策略并不是演化穩(wěn)定的,可以很容易被普通策略所入侵。Hilbe等人[85]研究進(jìn)一步發(fā)現(xiàn)雖然ZD策略不是演化穩(wěn)定的,但這一策略在合作和背叛策略都存在的時候可以扮演催化劑的作用,它的存在可以促進(jìn)合作策略的涌現(xiàn)。他們在文獻(xiàn)[86]中系統(tǒng)地探索了所有ZD策略的空間,提供了研究所有ZD策略演化動態(tài)的分析框架,發(fā)現(xiàn)種群規(guī)模的大小將對演化結(jié)果產(chǎn)生決定性影響。他們還研究了具有N步記憶的社會困境博弈中,魯棒性合作策略應(yīng)該具有的性質(zhì)[87]。Stewart和Plotkin[88]研究了ZD策略中的一個子集:寬宏大量的ZD策略,這一類策略對于背叛策略表現(xiàn)出更大的容忍,研究發(fā)現(xiàn)寬宏大量的ZD策略可以在群體中演化,并且表現(xiàn)出很好的穩(wěn)定性。Hilbe等人[89]將ZD策略擴(kuò)展到多人社會困境博弈中,并研究了哪些策略可以維持群體的合作。此外,還提出了兩種簡單的多人困境聯(lián)盟模式來促進(jìn)合作。
Szolnoki和Perc[90-91]將ZD策略用于具有種群結(jié)構(gòu)的囚徒困境博弈中,進(jìn)一步發(fā)現(xiàn)了ZD策略的催化劑作用,這一策略的存在可以在多策略共存的情況下促進(jìn)合作。Wu等人[92]采用意愿驅(qū)動策略更新規(guī)則,研究了ZD策略在空間演化囚徒困境博弈中對合作的出現(xiàn)和維持的積極作用。Hao等人[93]給出了具有噪音的重復(fù)博弈中ZD策略的一般形式,并發(fā)現(xiàn)ZD策略對誤差具有很高的魯棒性,即噪音下也能實現(xiàn)偶然剝削。Hilbe等人[94]討論了具有一階記憶的重復(fù)囚徒困境博弈中的伙伴策略,競爭策略以及ZD策略之間的聯(lián)系。Lee等人[95]證明了種群博弈中的博弈歷史包含了可以被復(fù)雜策略成功利用的信息,基于機(jī)器學(xué)習(xí)和統(tǒng)計推斷技術(shù),實施的策略可以打敗包括ZD策略在內(nèi)的所有只利用一階記憶的策略。Pan等人[96]研究了重復(fù)公共物品博弈中的ZD策略,證明了ZD策略在多人博弈中的存在性,但與二人博弈相比,實施的條件更加嚴(yán)格。McAvoy和Hauert[97]將ZD策略擴(kuò)展到具有更一般行動空間的重復(fù)囚徒困境博弈中,證明了同樣存在剝削策略可以實現(xiàn)與對手收益分配的線性關(guān)系,從而實現(xiàn)剝削。最近,Wang等人[98]在實驗室建立對Press-Dyson理論預(yù)測結(jié)果的計算機(jī)實證驗證,發(fā)現(xiàn)一半以上的ZD策略最終獲得的平均分高于相互合作的平均分。Xu等人[99-100]研究了財富分配的異質(zhì)性和社會關(guān)系的多樣性對具有ZD策略的帶結(jié)構(gòu)種群中合作的影響,發(fā)現(xiàn)這種異質(zhì)性可以顯著增強(qiáng)ZD策略的催化劑作用,合作水平與異質(zhì)性程度之間存在正相關(guān)關(guān)系。Xu等人[101]揭示了不同網(wǎng)絡(luò)結(jié)構(gòu)中ZD策略對促進(jìn)合作的不同機(jī)理,在規(guī)則的格子網(wǎng)絡(luò)上,剝削者既可以作為一個盾牌,將內(nèi)部的合作者保護(hù)起來,也可以作為一把利劍,和鄰近的合作者聯(lián)盟打敗周圍的背叛者。在無標(biāo)度網(wǎng)絡(luò)中,剝削者像“墊腳石”一樣,可以幫助小度的合作者自底向上的擴(kuò)散,最終占據(jù)整個網(wǎng)絡(luò)。
綜上所述,分離策略和剝削策略的存在使得系統(tǒng)的演化變得更為復(fù)雜,分離策略和剝削策略都可以起到一定的調(diào)和作用,在合作和背叛同時存在的情況下,通過制約背叛策略而促進(jìn)合作的演化。這兩種策略的提出也為我們進(jìn)一步研究合作的演化問題提供了新的思路。
所謂網(wǎng)絡(luò)互惠機(jī)制,是指博弈群體具有某種組織結(jié)構(gòu),個體不能與所有個體相互接觸,而只能與周圍的幾個個體發(fā)生博弈關(guān)系。如果將個體看作節(jié)點,能發(fā)生博弈關(guān)系的個體之間用邊連接,那么群體的這種組織結(jié)構(gòu)可以用一個網(wǎng)絡(luò)來進(jìn)行描述。在每一個時間步,節(jié)點與其所有的直接鄰居進(jìn)行博弈,累積博弈所獲得的收益,然后根據(jù)總收益和某種規(guī)則(此規(guī)則也稱為學(xué)習(xí)機(jī)制)進(jìn)行策略更新,如此這樣重復(fù)迭代下去。具有種群結(jié)構(gòu)的演化博弈也稱為空間演化博弈。在網(wǎng)絡(luò)互惠中,群體交互結(jié)構(gòu)和個體的學(xué)習(xí)機(jī)制都會影響合作演化。
自Nowak等人[102]1992年在《Nature》上發(fā)表了空間囚徒困境博弈的開創(chuàng)新研究以來,學(xué)者們越來越關(guān)注在不同的網(wǎng)絡(luò)結(jié)構(gòu)下,自私個體策略的演化和群體合作的涌現(xiàn)問題。在Nowak等人的研究中,他們采用二維的空間格子結(jié)構(gòu),并采用模仿收益最大的鄰居的策略更新規(guī)則,發(fā)現(xiàn)對于囚徒困境博弈,即便是這種簡單的空間結(jié)構(gòu),也能促進(jìn)群體合作的產(chǎn)生和維持。但是,Hauert等人[103]在《Nature》上的另一篇文章卻發(fā)現(xiàn)對于雪堆博弈,博弈群體的這種空間格子結(jié)構(gòu)往往會抑制群體的合作。Vukov等人[104]研究了具有分級格子結(jié)構(gòu)的演化囚徒困境。Perc等人[105]則發(fā)現(xiàn),在方形格子上的囚徒困境博弈中,增加個體之間的某些限制連接結(jié)構(gòu)或允許有影響力的個體的移動都可以有效的促進(jìn)合作。Szabo等人[106]研究了鄰居個數(shù)對于空間囚徒困境博弈中合作的影響。Jun等人[107]考慮了一維環(huán)上的囚徒困境博弈,引入了交互半徑和損益比兩個參數(shù),他們發(fā)現(xiàn)對于每個交互半徑,都存在一個臨界的損益比,使得合作不能維持。當(dāng)交互半徑不斷增大時,此臨界值會不斷下降。
隨著復(fù)雜網(wǎng)絡(luò)理論的發(fā)展,具有更復(fù)雜交互結(jié)構(gòu)的網(wǎng)絡(luò)被考慮。最早研究小世界網(wǎng)絡(luò)對群體合作行為影響的是Abramson和Kuperman[108],他們采取確定性的模仿最優(yōu)鄰居的演化規(guī)則,研究了WS小世界網(wǎng)絡(luò)上的演化囚徒困境博弈,發(fā)現(xiàn)網(wǎng)絡(luò)生成算法中的重連概率與群體的合作水平有明顯的關(guān)聯(lián)性,網(wǎng)絡(luò)的平均度和重連概率在某些范圍內(nèi)能夠促進(jìn)合作,在另一些情況下則會抑制合作。Masuda等人[109]研究了從規(guī)則格子到隨機(jī)網(wǎng)絡(luò)等一系列類型網(wǎng)絡(luò)上的演化囚徒困境,發(fā)現(xiàn)小世界的拓?fù)浣Y(jié)構(gòu)最有利于群體中合作的傳播。Santos等人[110]比較了WS小世界網(wǎng)絡(luò)和隨機(jī)交換邊所生成的隨機(jī)正則網(wǎng)絡(luò)上的囚徒困境行為的差異。Wu等人[111]中研究了NW小世界網(wǎng)絡(luò)上具有自愿參與者策略的演化囚徒困境博弈。小世界網(wǎng)絡(luò)結(jié)構(gòu)對雪堆博弈中合作水平的影響也引起了廣泛的關(guān)注。Tomassini等人[112]基于雪堆博弈,采用模仿者動態(tài)、比例更新和最優(yōu)更新三種策略更新規(guī)則,研究了WS小世界網(wǎng)絡(luò)上的合作行為,發(fā)現(xiàn)群體的合作水平與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、博弈的損益比、個體所采用的策略更新規(guī)則和更新方式等都有關(guān)系,在某些條件下空間結(jié)構(gòu)能夠促進(jìn)群體的合作行為,而另外一些情況則會抑制合作。Zhong等人[113]中研究了WS小世界網(wǎng)絡(luò)上的雪堆博弈模型,他們發(fā)現(xiàn)網(wǎng)絡(luò)的隨機(jī)重連可以有限程度的提高網(wǎng)絡(luò)的合作水平,但是合作水平仍然低于混合均勻的情況,合作現(xiàn)象消失的臨界值與網(wǎng)絡(luò)度的方差有關(guān)。
Santos等人[114-115]首先研究了無標(biāo)度網(wǎng)絡(luò)上的博弈行為,他們發(fā)現(xiàn)無論對于囚徒困境博弈還是雪堆博弈,BA無標(biāo)度網(wǎng)絡(luò)都能夠極大程度地促進(jìn)合作行為的涌現(xiàn)。Chen等人[116]同樣研究了無標(biāo)度網(wǎng)絡(luò)上的囚徒困境博弈,他們發(fā)現(xiàn)網(wǎng)絡(luò)的平均度越小,聚集系數(shù)越大,越有利于群體的合作;另外,通過引入不滿者對背叛者一個懲罰的概率同樣會促進(jìn)群體的合作。Fu等人[117]研究了某網(wǎng)站上的具有小世界和無標(biāo)度特性的朋友關(guān)系網(wǎng)絡(luò)對囚徒困境和雪堆博弈中合作的影響。Assenza等人[118]研究了無標(biāo)度網(wǎng)絡(luò)中的聚集系數(shù)對囚徒困境博弈中群體合作的影響,他們發(fā)現(xiàn)高的聚集系數(shù)即便是在很大的背叛誘惑下也可以導(dǎo)致群體合作的產(chǎn)生。Lee等人[119]研究了BA網(wǎng)絡(luò)上的N人雪堆博弈中的合作。Santos等人[120]研究了異質(zhì)網(wǎng)絡(luò)上的公共品博弈,指出社會網(wǎng)絡(luò)的異質(zhì)性促進(jìn)了合作。最近,Allen等人在《Nature》上發(fā)表了一項開創(chuàng)性研究[121],報導(dǎo)了在弱選擇的情況下,如何用解析近似的方法分析群體交互網(wǎng)絡(luò)的微小變化對系統(tǒng)演化結(jié)果的影響。這一研究為任意網(wǎng)絡(luò)結(jié)構(gòu)下的解析分析提供了可能,也為回答何種網(wǎng)絡(luò)結(jié)果更能促進(jìn)合作提供了可能。
在上述所列的文獻(xiàn)中,都是假設(shè)個體之間相互交互的網(wǎng)絡(luò)不隨個體策略的調(diào)整而變化,是一種靜態(tài)的網(wǎng)絡(luò)。而在現(xiàn)實中,每個個體都可以有偏向的選擇或拒絕與某些類型的個體相互交互,通過改變其鄰居節(jié)點集合從而影響整個交互網(wǎng)絡(luò)的結(jié)構(gòu)。實際上,改變交互對象也是個體的一種策略調(diào)整。個體同時調(diào)整交互對象和調(diào)整博弈策略的問題也稱為網(wǎng)絡(luò)和博弈的互演化問題。
Zimmermann等人[122-123]首先對網(wǎng)絡(luò)和博弈的互演化問題進(jìn)行了建模,他們認(rèn)為個體可以依據(jù)博弈結(jié)果調(diào)整與鄰居的邊來實現(xiàn)合作者與合作者之間的聯(lián)合,從而有利于合作行為的涌現(xiàn)和維持。關(guān)于網(wǎng)絡(luò)演化和策略演化的時間尺度問題,Pacheco等人[124-125]在互演化模型中引入了兩個不同的速率用于描述網(wǎng)絡(luò)的連接動態(tài)和博弈的演化動態(tài),當(dāng)這兩個速率不在一個數(shù)量級時(極限情況),他們給出了解析的結(jié)果;其余情況他們做了相應(yīng)的仿真分析。Santos等人[126]引入了一個參數(shù)用于描述策略演化的時間尺度和網(wǎng)絡(luò)結(jié)構(gòu)演化的時間尺度之間的比值,他們發(fā)現(xiàn)這一比值參數(shù)存在一個臨界值,當(dāng)高于臨界值時,合作會消滅背叛;他們還發(fā)現(xiàn),當(dāng)比值參數(shù)達(dá)到臨界值時,網(wǎng)絡(luò)的異質(zhì)性會達(dá)到最大。
關(guān)于個體博弈策略的調(diào)整,大部分文獻(xiàn)都采用的Fermi規(guī)則,即隨機(jī)的選取一個鄰居,按照一個與其收益差相關(guān)的概率函數(shù)進(jìn)行模仿。Szabo等人[127]提出了一種新的配對共同策略更新規(guī)則,并指出這一規(guī)則更有利于合作的涌現(xiàn)。Liu等人[128]提出了方格網(wǎng)絡(luò)上的帶有記憶學(xué)習(xí)的囚徒困境模型。Quan等人[29]研究了BA無標(biāo)度網(wǎng)絡(luò)上具有記憶和模仿學(xué)習(xí)的囚徒困境博弈,以及學(xué)習(xí)參數(shù)對于合作的影響。Cao等人[129]采用基于個體抱負(fù)的學(xué)習(xí)機(jī)制,研究了抱負(fù)水平對規(guī)則格子上的囚徒困境博弈中合作水平的影響。Bo等人[130-131]考慮了除博弈收益以外的,個體對不公平的厭惡以及嫉妒、負(fù)罪感等其他偏好對復(fù)雜網(wǎng)絡(luò)上的囚徒困境中合作的影響。Chen等人[132-133]研究了NW網(wǎng)絡(luò)中的囚徒困境博弈,他們發(fā)現(xiàn)個體采用隨機(jī)的“贏了保持輸了改變”(win-stay-lose-shift)的策略可以有效地促進(jìn)合作,個體的抱負(fù)水平在很大程度上也可以促進(jìn)合作。Pena等人[134]研究了個體的盲從性,即人類模仿附近大眾行為的一種現(xiàn)象,對無標(biāo)度網(wǎng)絡(luò)上的囚徒困境博弈和雪堆博弈的影響。他們發(fā)現(xiàn)當(dāng)盲從性達(dá)到一定程度時,無標(biāo)度網(wǎng)絡(luò)不再能夠促進(jìn)合作的涌現(xiàn)。Quan等人[135]中提出了一種連續(xù)策略下的學(xué)習(xí)機(jī)制,并將其用于空間連續(xù)囚徒困境博弈中。最近,Quan等人[136]采用粒子群優(yōu)化算法(PSO)對個體的策略更新方法進(jìn)行建模,研究發(fā)現(xiàn)基于PSO的學(xué)習(xí)機(jī)制在空間社會困境博弈中可以很大程度的促進(jìn)合作。
另外,關(guān)于噪音和隨機(jī)性對合作的影響,也有相關(guān)研究。如文獻(xiàn)[137-138]研究了空間囚徒困境博弈中的噪音對合作的影響。Quan等人[139]研究了非均勻連接中的噪音強(qiáng)度對一類隨機(jī)演化博弈均衡的影響。文獻(xiàn)[140-141]研究了收益矩陣的隨機(jī)性或個體間交互的隨機(jī)性對方格網(wǎng)絡(luò)上囚徒困境博弈中合作的影響。最近,Cong等人[142]研究發(fā)現(xiàn)在空間公共物品博弈中,如果允許網(wǎng)絡(luò)中的個體進(jìn)行移動,可以有效促進(jìn)懲罰策略的演化,并且存在一個中間的最佳移動水平。最近,Li等人[143]通過實驗檢驗網(wǎng)絡(luò)互惠與有代價的懲罰這兩種促進(jìn)合作機(jī)制是否會共同存進(jìn)合作。研究表明:網(wǎng)絡(luò)互惠確實具有促進(jìn)合作的作用;而有代價的懲罰這一機(jī)制并不能有效的促進(jìn)合作,獎懲機(jī)制會弱化網(wǎng)絡(luò)的異質(zhì)性給合作帶來的好處。
綜上所述,在網(wǎng)絡(luò)互惠中,博弈結(jié)構(gòu)、網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)機(jī)制等都會影響系統(tǒng)的演化和合作涌現(xiàn)。網(wǎng)絡(luò)上的演化博弈問題實際上屬于系統(tǒng)動力學(xué)的范疇,一般研究所用的博弈模型和策略更新規(guī)則都比較簡單。復(fù)雜性主要體現(xiàn)在系統(tǒng)的結(jié)構(gòu)與群體行為的交互方面。這一問題與統(tǒng)計物理研究的模式相同:通過個體之間作用的微觀機(jī)制研究系統(tǒng)的宏觀行為。因此系統(tǒng)的模擬和均衡態(tài)的分析可以借鑒統(tǒng)計物理中已經(jīng)比較成熟的方法。在這里,基于網(wǎng)絡(luò)的博弈規(guī)則和個體的學(xué)習(xí)和策略調(diào)整規(guī)則實際上給出了微觀作用機(jī)制,而最終群體的合作水平實際是系統(tǒng)的一種宏觀行為。
綜上所述,近十五年隨著大量關(guān)于演化博弈和合作演化的相關(guān)研究成果發(fā)表在《Nature》《Science》《PNAS》等國際頂級期刊上,社會困境中的合作演化問題引起了世界各地不同學(xué)科學(xué)者們的廣泛關(guān)注。最近幾年,國內(nèi)權(quán)威期刊《中國科學(xué)》《中國社會科學(xué)》《經(jīng)濟(jì)研究》《管理世界》《管理科學(xué)學(xué)報》《系統(tǒng)工程理論與實踐》等也刊登了若干篇相關(guān)研究成果,合作的演化問題在國內(nèi)自然科學(xué)和社會科學(xué)領(lǐng)域都掀起了一股研究熱潮。目前來看,學(xué)者們在演化博弈與合作演化領(lǐng)域已有豐碩的研究成果,然而,現(xiàn)有的研究仍有很多可以繼續(xù)拓展和深化的領(lǐng)域。下面,結(jié)合最近的幾項研究熱點,我們對該領(lǐng)域未來可進(jìn)一步拓展的問題進(jìn)行展望。
首先,關(guān)于獎懲機(jī)制,在只有合作和背叛策略的情況下,已有大量研究表明網(wǎng)絡(luò)的異質(zhì)性可以很好地促進(jìn)合作,但是,最近有研究表明獎懲機(jī)制會弱化網(wǎng)絡(luò)的異質(zhì)性給合作帶來的好處[143]。因為獎懲都是有成本的,會帶來效率的損失。這一研究結(jié)果的出現(xiàn)給我們提出了“合作困境中獎懲機(jī)制的規(guī)范和有效性”這一重要的科學(xué)問題。即在考慮獎懲效率的基礎(chǔ)上確定獎懲的方式和規(guī)范。具體包括:在何種情形下適合采用獎懲機(jī)制,以及在不同的情形下應(yīng)該選用何種獎懲機(jī)制等問題。特別的,分離策略和剝削策略對于合作的演化起到一定的調(diào)節(jié)作用,那么,在考慮分離策略和剝削策略的基礎(chǔ)上,設(shè)計懲罰的方式以實現(xiàn)更有效率的合作也有待進(jìn)一步研究。
其次,關(guān)于網(wǎng)絡(luò)互惠和具有種群結(jié)構(gòu)的策略演化,最近有研究報導(dǎo)用解析近似的方法分析群體交互網(wǎng)絡(luò)的微小變化對系統(tǒng)演化結(jié)果的影響,為任意網(wǎng)絡(luò)上的策略演化提供了思路[121]。該項研究結(jié)果的出現(xiàn)給前面的問題提供了更廣闊的研究空間。具體包括:在有結(jié)構(gòu)的種群中,當(dāng)存在獎懲策略時,確定網(wǎng)絡(luò)結(jié)構(gòu)對懲罰策略能有效促進(jìn)合作的影響;在有獎懲策略時,在已有結(jié)構(gòu)上調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),使其更好地促進(jìn)合作。特別的,在引入分離策略或剝削策略后,進(jìn)一步確定網(wǎng)絡(luò)結(jié)構(gòu)對懲罰方式有效性的影響,即當(dāng)分離策略或剝削策略存在時調(diào)整和設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)以實現(xiàn)更大程度的合作,這些問題都有待進(jìn)一步研究。
最后,關(guān)于聲譽機(jī)制,最近有研究表明,如果社會規(guī)范不好,基于聲譽的懲罰會對合作起負(fù)面作用[67]。最近也有研究提出了新的社會規(guī)范形式:如果對手聲譽不好,是否對其提供幫助不影響其自身聲譽,并且證明了這種社會規(guī)范能更好的促進(jìn)合作[68]。這兩項研究結(jié)果的出現(xiàn)也給我們提出了“如何篩選社會規(guī)范”這一重要的科學(xué)問題。社會規(guī)范本質(zhì)上是從每個人的歷史信息(包括歷史策略,歷史聲譽,對手的歷史聲譽)到其當(dāng)前聲譽的一個映射,這種映射形式在數(shù)學(xué)上有很多種。篩選社會規(guī)范具體包括:在完全信息和無噪音的情況下,確定何種社會規(guī)范能更好地促進(jìn)合作;提煉這些社會規(guī)范之間的共同特征。對于有噪音的情況,最近有研究表明當(dāng)個體策略會發(fā)生變異時,不同社會規(guī)范對合作的影響取決于社會規(guī)范的具體形式[66]。那么,在有噪音或者當(dāng)信息不完全時(聲譽不是共同知識),確定何種社會規(guī)范在促進(jìn)合作上具有更好的魯棒性,這一問題也需要進(jìn)一步研究。
對于這些問題的研究一方面將進(jìn)一步豐富直接互惠、間接互惠和網(wǎng)絡(luò)互惠的結(jié)果,從而為現(xiàn)實中廣泛存在的合作行為提供理論依據(jù),另一方面也將幫助我們選擇更有效的獎懲機(jī)制和合作模式提供決策指導(dǎo)。