張宏芝
[提要] 如果將分配問題中所涉及的分配對(duì)象劃分為盡可能小的“粒度”,不被公平分配均衡狀態(tài)所吸引的大多數(shù)初始狀態(tài)會(huì)被接近于公平分配的多態(tài)所吸引,最終達(dá)到一個(gè)非公平分配但是公平分配的均衡穩(wěn)態(tài)情形。雖然也會(huì)有打破公平分配的均衡狀態(tài)可能性,但是處在公平分配的均衡狀態(tài)相對(duì)更多。通過動(dòng)態(tài)演化機(jī)制深入考察公平的穩(wěn)態(tài),以及從純策略均衡、混合策略均衡的博弈論視角,運(yùn)用Netlogo仿真發(fā)現(xiàn),無論出于什么原因,不管是純策略還是混合策略,向著公正的演進(jìn)是一個(gè)均衡穩(wěn)態(tài)。由于制度變遷中的路徑依賴,當(dāng)前民生政策走向影響未來福利制度模式。我國(guó)民生政策需要頂層設(shè)計(jì),當(dāng)務(wù)之急是擴(kuò)大社保覆蓋面,把城鎮(zhèn)居民、公共部門、農(nóng)民工整合進(jìn)全國(guó)一盤棋的一元結(jié)構(gòu),實(shí)行基于公平正義的救助型福利政策。
關(guān)鍵詞:純策略;混合策略;Netlogo仿真
中圖分類號(hào):C913.7 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2020年8月18日
正義是人們?cè)诰唧w情境中進(jìn)行理性選擇和群體選擇雙重力量作用的結(jié)果,是在博弈均衡狀態(tài)下達(dá)成的一種社會(huì)契約,是社會(huì)演化的結(jié)果。通過引入博弈論模型研究正義問題,可以得出代表正義的社會(huì)契約不僅具有穩(wěn)定和效率特征,而且是平等的。博弈是人類或者動(dòng)物在任何情況之下的互動(dòng)。參與者所計(jì)劃采取的行動(dòng)稱為策略。當(dāng)一個(gè)人的策略給定時(shí),那么另一個(gè)就不可能通過改變自己的主張以達(dá)到更好的結(jié)果,同樣的情況反過來也一樣,這種情形我們稱為達(dá)到均衡,這樣的均衡就是博弈論中的核心概念。最早提出這種概念的是1838年法國(guó)經(jīng)濟(jì)學(xué)家安東尼·奧古斯丁·庫(kù)爾諾(古諾),這是納什均衡應(yīng)用的最早版本,這種均衡在約翰·納什證明了具有普遍存在性之后,通常被稱為“納什均衡”。納什均衡是一種策略組合,主要分為純策略均衡和混合策略均衡。對(duì)于每一個(gè)參與人所選擇的策略都是對(duì)于其他參與人的策略所做出的最優(yōu)反應(yīng)。這種均衡具有強(qiáng)制力,在這種均衡狀態(tài)下,如果一方偏離這個(gè)均衡結(jié)果,他不僅事實(shí)上將一無所獲,而且會(huì)因?yàn)樗麑?duì)均衡的偏離,帶來比均衡狀態(tài)下更加糟糕的結(jié)果。這種具有超強(qiáng)穩(wěn)定性質(zhì)的均衡叫做“嚴(yán)格納什均衡”。
所以,以肯·賓默爾的公正博弈理論為依托,輔以計(jì)算機(jī)演化仿真工具,得出不管是純策略的演化,還是出現(xiàn)多態(tài)情況的混合策略,對(duì)于公平分配問題最后都趨于一種穩(wěn)定均衡狀態(tài)。如果政府關(guān)心民生,那么正義的規(guī)則就是最大的民生。當(dāng)所謂民生政策指向福利主義時(shí),它其實(shí)已經(jīng)背離了真正的民生。對(duì)于公平分配趨于一種穩(wěn)定均衡狀態(tài)的研究,對(duì)我國(guó)福利政策正義規(guī)則的制定具有一定參考價(jià)值。
一、原初狀態(tài)的討價(jià)還價(jià)與策略均衡
原初狀態(tài)是約翰·羅爾斯在《正義論》里試圖推出社會(huì)契約的正義所設(shè)置的一個(gè)初始狀態(tài),是“作為公平的正義”概念的研究起點(diǎn)。我們?yōu)槭裁磿?huì)關(guān)注公平?肯·賓默爾認(rèn)為,因?yàn)槲覀兿茸娴纳羁偸窃诓┺闹校绞蔷膺x擇問題的演化解。他將羅爾斯《正義論》所推論的關(guān)于正義的條件看作是人類公平標(biāo)準(zhǔn)的普遍深層結(jié)構(gòu)。約翰·羅爾斯認(rèn)為在原初狀態(tài)下,理性討價(jià)還價(jià)將會(huì)得到一個(gè)公平的社會(huì)契約,這個(gè)契約首先保障一些基本的權(quán)利和自由,然后余下的是分配問題,羅爾斯使用“差別原理”得以解決。羅爾斯的差別原理被解釋為一個(gè)討價(jià)還價(jià)問題的平等主義的解,所謂差別原理的核心就是“最大最小化標(biāo)準(zhǔn)”,即最好的社會(huì)契約會(huì)使那些處在最劣勢(shì)的人(或階層)盡可能過得好一些,沒在社會(huì)重復(fù)博弈中,這個(gè)“解”才能勝出。
(一)純策略均衡。所謂“純戰(zhàn)略”,是提供給參與主體要如何進(jìn)行博弈的一個(gè)完整的定義。特別的是,純戰(zhàn)略決定在任何一種情況下要做的移動(dòng),相應(yīng)的純策略均衡就是參與其中的主體都采用純策略。公平在多方?jīng)Q策過程中扮演關(guān)鍵角色。
早在20世紀(jì)80年代初由德國(guó)經(jīng)濟(jì)學(xué)家古斯等人進(jìn)行了第一場(chǎng)最后通牒博弈實(shí)驗(yàn)。最后通牒博弈是一種由兩名參與者進(jìn)行的非零和博弈。在這種博弈中,一名提議者向另一名響應(yīng)者提出一種分配資源的方案,如果響應(yīng)者同意這一方案,則按照這種方案進(jìn)行資源分配;如果不同意,則兩人都會(huì)什么都得不到。隨后經(jīng)濟(jì)學(xué)家對(duì)最后通牒博弈實(shí)驗(yàn)做了近千次的實(shí)驗(yàn)。大量的行為實(shí)驗(yàn)的研究者都發(fā)現(xiàn),人們并非像經(jīng)典理論所預(yù)測(cè)的那樣,必然會(huì)通過背叛來增進(jìn)自身利益。這些實(shí)驗(yàn)對(duì)“經(jīng)濟(jì)人”和“理性人”的自利假設(shè)構(gòu)成了系統(tǒng)性背離。根據(jù)賓謨的研究發(fā)現(xiàn),“實(shí)驗(yàn)結(jié)果呈現(xiàn)多樣化,但是提議者提出的方案很可能在50∶50附近,接近一半對(duì)一半的分配結(jié)果。而對(duì)響應(yīng)者而言,如果其分配的數(shù)額不少于1/3,他將趨向于接受”。在最后通牒博弈實(shí)驗(yàn)中,提議者與響應(yīng)者面對(duì)著二者相互作用的最優(yōu)化問題,問題的解決方案是二者相互作用的最優(yōu)化問題解的均衡解,最終會(huì)達(dá)到一個(gè)穩(wěn)定的狀態(tài)。
(二)混合策略均衡。“混合戰(zhàn)略”是指允許參與主體隨機(jī)選擇一個(gè)純戰(zhàn)略,是對(duì)博弈中策略的一種擴(kuò)充,也就是在原來給定的策略中,按照一定的隨機(jī)規(guī)律來選擇策略。我們不妨做以下假設(shè):假設(shè)1:群體中有人主張分得2/3的蛋糕(稱之為“貪婪者”);假設(shè)2:群體中有人主張分得1/3的蛋糕(稱之為“謙虛者”);假設(shè)3:群體中有人主張分得1/2的蛋糕(稱之為“公平者”)。通過假設(shè)1和假設(shè)2可以得到一個(gè)討價(jià)還價(jià)的博弈圖。其中,一個(gè)貪婪者碰到另一個(gè)貪婪者與碰到另一個(gè)謙虛者的機(jī)會(huì)是均等的。如果一個(gè)貪婪者碰到了另一個(gè)貪婪者,由于他們主張分割的蛋糕之和超出了整塊蛋糕100%,所有他們各自將一無所獲;如果一個(gè)貪婪者碰到了一個(gè)謙虛者,貪婪者就會(huì)得到2/3的蛋糕,謙虛者得到1/3的蛋糕;如果一個(gè)謙虛者碰到一個(gè)貪婪者,謙虛者分得1/3蛋糕,貪婪者分得2/3蛋糕;如果這個(gè)謙虛者碰到另一個(gè)謙虛者,他們各自分得1/3蛋糕。其中,貪婪者-貪婪者的(0,0)是不穩(wěn)定的,會(huì)趨向收益更高的貪婪者-謙虛者;謙虛者-謙虛者的(1/3,1/3)也是不穩(wěn)定的,也會(huì)趨向收益更高的謙虛者-貪婪者的(1/3,2/3)。最終形成貪婪者-謙虛者的(2/3,1/3)收益以及謙虛者-貪婪者的(1/3,2/3)收益的強(qiáng)穩(wěn)定性。
以上不管對(duì)于純策略均衡還是混合策略均衡的討論,都無法從直觀揭示重復(fù)博弈n次收斂于某個(gè)均衡解,或者博弈是否存在收斂。這時(shí),我們需要求助于計(jì)算機(jī)演化仿真工具,直觀顯示這一穩(wěn)定均衡解。
二、NetLogo演化仿真分析穩(wěn)定均衡:Divide The Cake模型
混合策略被用來標(biāo)示一個(gè)種群的狀態(tài),混合策略的概率指定給已有的純策略的概率,被認(rèn)為是等同于這個(gè)種群中的動(dòng)物或人通常使用的純策略概率。這樣的話,我們就能夠通過觀察代表目前種群狀態(tài)混合策略是怎樣隨時(shí)間變化的,來描繪演化過程的軌跡。
NetLogo是由Uri Wilensky在1999年發(fā)起的,由連接學(xué)習(xí)和計(jì)算機(jī)建模中心(CCL)負(fù)責(zé)持續(xù)開發(fā),它是一個(gè)用于對(duì)自然和社會(huì)現(xiàn)象進(jìn)行仿真的可編程建模環(huán)境。Netlogo特別適合對(duì)隨時(shí)間演化的復(fù)雜系統(tǒng)進(jìn)行建模,這使得研究微觀層面上的個(gè)體行為與宏觀模式之間的聯(lián)系成為可能,這些宏觀模式是由許多個(gè)體之間的交互涌現(xiàn)出來的。Netlogo工具中的Divide The Cake模型是基于William Harms的“分蛋糕”模型,是一個(gè)進(jìn)化博弈模型。在最初的模型中它是蛋糕,但是本文把它想象成可食用的草。
NetLogo軟件主要由兩個(gè)基本要素構(gòu)成:第一個(gè)要素是“世界”,也就是軟件出現(xiàn)的主視圖界面;第二個(gè)要素是“主體”或者“行動(dòng)者”,是指執(zhí)行指令的個(gè)體。每個(gè)主體都同時(shí)執(zhí)行各自的行為。本文模型中的主體有三個(gè):謙虛主體(modest簡(jiǎn)稱為M,要求分割1/3)、公平主體(fair簡(jiǎn)稱為F,要求分割1/2)和貪婪主體(greedy簡(jiǎn)稱為G,要求分割2/3)。運(yùn)行NetLogo后,主體們四處活動(dòng)爭(zhēng)奪草地,主體需要草才能產(chǎn)生后代,因此隨著時(shí)間的推移,獲得更多草的主體類型將傾向于增加數(shù)量。草地上有三個(gè)主體,即有謙虛(棕色)、公平(紅色)和貪婪(藍(lán)色)。公平的主體盡量吃1/2的草,謙虛的主體盡量吃1/3的草,貪婪的主體盡量吃2/3的草。如果兩個(gè)主體請(qǐng)求的總金額大于100%,則兩個(gè)主體都將死亡,否則每個(gè)主體都將獲得其請(qǐng)求的修補(bǔ)程序資源份額。所以,我們可以將前面的假設(shè)1、假設(shè)2、假設(shè)3用Sample模型庫(kù)中的Divide The Cake模型進(jìn)行具體仿真實(shí)驗(yàn)來驗(yàn)證。我們可以將前面介紹的假設(shè)1、假設(shè)2、假設(shè)3用Sample模型庫(kù)中的Divide The Cake模型進(jìn)行具體仿真實(shí)驗(yàn)來驗(yàn)證。通過不同的變量數(shù)值設(shè)置,本文假設(shè)了以下4種情形進(jìn)行演化仿真,實(shí)驗(yàn)發(fā)現(xiàn)不管是否進(jìn)行平均分配不同主體的數(shù)量,在演化仿真1,000次后,都會(huì)保持一種穩(wěn)定均衡的狀態(tài)。
情形1:將1,000個(gè)主體平均分配,M、F、G各占33%,試圖驗(yàn)證M、F、G相同數(shù)量的情況下,主體之間是如何相互作用。這種情形下,每個(gè)主體的數(shù)量相同,不同的是不同主體要求分割的蛋糕數(shù)量不同。模擬仿真1,000次之后,數(shù)據(jù)顯示F明顯占據(jù)多數(shù),也就是公平者占多數(shù),說明M在整個(gè)過程中,需求1/3,但是貪婪者需求2/3,在演化1,000次后,謙虛者和貪婪者都會(huì)死亡,最終剩下公平者占據(jù)大多數(shù),達(dá)到一個(gè)公平的穩(wěn)定均衡狀態(tài)。
情形2:將1,000個(gè)主體分成M占10%,剩下的F與G平均分配,各占45%,試圖驗(yàn)證當(dāng)M數(shù)量很少的時(shí)候,主體之間如何相互作用。模擬仿真1,000次之后,F(xiàn)還是占據(jù)大多數(shù),與情形1中的情況類似甚至多余情形1中的百分比,最終達(dá)到一個(gè)穩(wěn)定的均衡狀態(tài)。
情形3:將1,000個(gè)主體分成G占10%,剩下的M與F平均分配,各占45%,試圖驗(yàn)證當(dāng)G數(shù)量很少的時(shí)候,主體之間如何相互作用。模擬仿真1,000次之后,F(xiàn)還是占據(jù)大多數(shù),與情形1和情形2中的情況類似,最終達(dá)到一個(gè)穩(wěn)定的均衡狀態(tài)。
情形4:將1,000個(gè)主體分為F占10%,其余的M與G平均分配,各占45%,試圖驗(yàn)證當(dāng)F數(shù)量很少的時(shí)候,主體之間如何相互作用。模擬仿真1,000次之后,雖然沒有涌現(xiàn)出像情形1、2、3那樣F的數(shù)量占據(jù)大多數(shù),但是演化1,000后,最終也呈現(xiàn)出謙虛者數(shù)量最多,貪婪者次之,公平者數(shù)量最少,這樣的一個(gè)趨于穩(wěn)定的均衡狀態(tài)。
通過演化仿真,我們可以看出在除了情形4仿真過程中F的初始數(shù)量很少的極端情況下,仿真演化出的F數(shù)量很少之外,在情形1、2、3仿真過程中G很快滅亡于這個(gè)群體,M也很快滅亡于這個(gè)群體,只不過滅亡的速度會(huì)比貪婪者滅亡的速度要慢很多,最終F公平主體的數(shù)量占據(jù)較高的百分比。這也就可以主觀展示了前面我們論述的不管在純策略還是混合策略演化過程中,都存在一個(gè)穩(wěn)定的均衡,其中趨于公平的分配模式處于一種穩(wěn)定均衡的狀態(tài)。
三、結(jié)語
Netlogo非常適用于個(gè)案中個(gè)體或群體間互動(dòng)性關(guān)系的研究,不僅適用于人口學(xué)、社會(huì)學(xué)、政治選舉、公共衛(wèi)生、新聞傳播等領(lǐng)域,特別是本文的博弈行為領(lǐng)域有廣泛的使用。隨著復(fù)雜性科學(xué)的深入,已經(jīng)有越來越多的學(xué)者開始重視社會(huì)科學(xué)中的計(jì)算機(jī)仿真方法了,演化仿真的方法已經(jīng)深入了社會(huì)科學(xué)的各個(gè)領(lǐng)域,相信這對(duì)于我國(guó)社會(huì)科學(xué)領(lǐng)域是一次全新的挑戰(zhàn),也是一次全新的機(jī)遇?;诒疚牡难芯?,不管是純策略的演化還是出現(xiàn)多態(tài)的情況,對(duì)于公平分配問題最后都會(huì)趨于一種穩(wěn)定均衡狀態(tài)。在對(duì)稱的討價(jià)還價(jià)博弈中,公平分配是獨(dú)特的演化穩(wěn)定均衡策略,它的強(qiáng)穩(wěn)定性保證了在模仿者動(dòng)態(tài)策略演化過程中,一直是極具吸引力的均衡結(jié)果。即使存在為了獲得更大利益而提高要求分配比例的策略趨勢(shì)(或者可能性),公平分配依然是動(dòng)態(tài)演化過程中的穩(wěn)定策略,因?yàn)槿魏螁畏矫娴谋畴x公平分配策略的行為都將導(dǎo)致更加糟糕的回報(bào)。
所以,未來我國(guó)的社會(huì)福利制度要實(shí)行“補(bǔ)救型主導(dǎo),分類共存多元主義福利”。補(bǔ)救型模式注重弱勢(shì)群體救助和社會(huì)穩(wěn)定,因此提出補(bǔ)救型為主導(dǎo),分領(lǐng)域?qū)嵭胁煌@贫阮愋?、多元主體提供的福利制度戰(zhàn)略,既符合我國(guó)傳統(tǒng)和轉(zhuǎn)型現(xiàn)實(shí)也符合福利國(guó)家經(jīng)驗(yàn),最終才能達(dá)到一個(gè)公平分配的穩(wěn)定均衡狀態(tài)。
主要參考文獻(xiàn):
[1](美)布萊恩·史蓋姆斯著(Brian Skyrms).社會(huì)契約演化論[M].申海波,楊培雷,譯.上海:上海財(cái)經(jīng)大學(xué)出版社,2012.
[2](英)肯·賓默爾(Ken Binmore)著.博弈論與社會(huì)契約(第2卷·下冊(cè)):公正博弈[M].潘春陽(yáng),等,譯.上海:上海財(cái)經(jīng)大學(xué)出版社,2016.
[3](美)約翰·羅爾斯.正義論[M].何懷宏,何包鋼,廖申白,譯.北京:中國(guó)社會(huì)科學(xué)出版社,2009.
[4]葉航.公共合作中的社會(huì)困境與社會(huì)正義——基于計(jì)算機(jī)仿真的經(jīng)濟(jì)學(xué)跨學(xué)科研究[J].經(jīng)濟(jì)研究,2012.47(08).
[5]葉航,王國(guó)梁.排他性機(jī)制的重構(gòu)和準(zhǔn)公共產(chǎn)品受益的均等化--一種實(shí)現(xiàn)包容性增長(zhǎng)的1新路徑[J].浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2011.41(06).