崔建英
?
后向歸納法的動(dòng)態(tài)認(rèn)知刻畫*
崔建英
[摘要]后向歸納法BI(Backward Induction)是求解動(dòng)態(tài)博弈的經(jīng)典算法,其認(rèn)知機(jī)制的探討多是基于靜態(tài)的認(rèn)知模型展開的。這樣,為了給BI算法結(jié)果中具有反事實(shí)性的理性行動(dòng)提供合理置信的解釋,一些非平凡的條件被添加到這類認(rèn)知模型中,形成多種較為復(fù)雜的條件知識(shí)(或信念)或?qū)蛹?jí)式(Hierarchical)知識(shí)(或信念)系統(tǒng)。我們構(gòu)建了一類博弈認(rèn)知模型,基于公開宣告邏輯PAL(Public Announcement Logic),實(shí)現(xiàn)博弈認(rèn)知模型的動(dòng)態(tài)更新,論證了在完美信息動(dòng)態(tài)博弈中,選手間的理性公共知識(shí)能夠?qū)е翨I算法結(jié)果,為該算法的認(rèn)知條件提供了一種新的邏輯刻畫。這種刻畫沒有涉及選手策略等博弈概念,通過利用PAL中模型更新的動(dòng)態(tài)性來描述動(dòng)態(tài)博弈中的BI算法認(rèn)知條件,不會(huì)受到通常BI算法認(rèn)知刻畫理論中所涉及的反事實(shí)(無論是主觀還是客觀)推理的影響,從而有效地避免了復(fù)雜的條件信念(或知識(shí))系統(tǒng)或?qū)蛹?jí)式知識(shí)(或信念)和信念修正的問題。
[關(guān)鍵詞]后向歸納法理性公開宣告邏輯
*本文系國家社科基金資助項(xiàng)目(12CZX056)、教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目(15JJD720014)、廣東省哲學(xué)社會(huì)科學(xué)“十二五”規(guī)劃青年項(xiàng)目(GD11YZX03)的階段性成果。
在動(dòng)態(tài)博弈中,關(guān)于選手理性選擇的刻畫往往是基于一類靜態(tài)的認(rèn)知模型而展開進(jìn)行的。[1]在這類認(rèn)知模型中,我們不僅需要描述出理性決策路徑上選手們的知識(shí)(或信念),而且還需要說明當(dāng)一個(gè)不是理性決策路徑上的行動(dòng)如果被對(duì)手選擇到時(shí),每個(gè)選手原有的初始知識(shí)(或信念)、在此情形下選手對(duì)于原有知識(shí)(或信念)所進(jìn)行的修正以及其對(duì)手關(guān)于該選手修正后的知識(shí)(或信念)等。例如,在一個(gè)動(dòng)態(tài)博弈中,選手2初始時(shí)知道(或相信)理性選手1應(yīng)該選擇馬上結(jié)束博弈的行動(dòng),然而,他還需要知道(或相信),如果選手1讓博弈繼續(xù)進(jìn)行,給出機(jī)會(huì)讓他進(jìn)行選擇時(shí),選手1所基于的知識(shí)(或信念)是什么,以引導(dǎo)選手2在此情形下做出理性的選擇。因此,這類模型必然會(huì)涉及復(fù)雜的條件知識(shí)(或信念)系統(tǒng)或?qū)蛹?jí)式(Hierarchical)系統(tǒng)和信念修正的問題。同時(shí),基于此類模型,選手初始時(shí)理性的公共知識(shí)是不能蘊(yùn)涵后向歸納法BI(Backward Induction)的結(jié)果的。[2] [3] [4]
在本文中,我們基于一個(gè)動(dòng)態(tài)邏輯系統(tǒng)——公開宣告邏輯PAL(Public Announcement Logic),將理性選手定義為或者該選手對(duì)于當(dāng)前世界所相應(yīng)的結(jié)果沒有絕對(duì)決策權(quán),或者他知道參與博弈的選手在他們能夠?qū)Σ┺慕Y(jié)果具有絕對(duì)決策權(quán)時(shí)總是追求其自身利益最大化,論證了在完美信息動(dòng)態(tài)博弈中,基于這種理性的公共知識(shí)能夠?qū)е翨I算法結(jié)果,從而為該算法的認(rèn)知條件提供了一種新的邏輯刻畫。由于這種刻畫理論是通過利用PAL中模型更新的動(dòng)態(tài)性來描述動(dòng)態(tài)博弈中的BI算法的動(dòng)態(tài)剔除博弈結(jié)果的過程,沒有涉及選手策略的問題,不會(huì)受到通常BI算法認(rèn)知刻畫理論中所涉及的反事實(shí)(無論是主觀還是客觀)推理問題的影響,從而有效地避免了復(fù)雜的條件信念(或知識(shí))系統(tǒng)或?qū)蛹?jí)式信念(或知識(shí))和信念修正的問題。[5] [6] [7] [8] [9] [10] [11] [12] [13]同時(shí),由于我們的刻畫分析是基于動(dòng)態(tài)認(rèn)知邏輯PAL之上,這也為未來我們研究動(dòng)態(tài)模型檢測(cè)動(dòng)態(tài)博弈認(rèn)知系統(tǒng)性質(zhì),提供了可行的理論基礎(chǔ)。
本文的討論主要涉及了公開宣告邏輯和具有完美信息動(dòng)態(tài)博弈的內(nèi)容,因此,在本節(jié)中,我們將主要介紹與這兩個(gè)內(nèi)容相關(guān)的一些概念和定理,并定義一個(gè)行動(dòng)函數(shù),用于后文中博弈認(rèn)知模型的構(gòu)建。
(一)公開宣告邏輯PAL
借助于動(dòng)態(tài)認(rèn)知邏輯研究虛擬在博弈選手頭腦間的交流情形與博弈進(jìn)程中模型變化之間的關(guān)系近十多年得到迅速發(fā)展。本文研究所基于的PAL是一種較為簡(jiǎn)單的動(dòng)態(tài)認(rèn)知邏輯,主要是通過公告某個(gè)命題φ,剔除原認(rèn)知模型中與命題φ不相容的狀態(tài)(或可能世界),而保留原模型中主體認(rèn)知擇選關(guān)系不變,從而顯性地描述主體間信息的互動(dòng),以及由此引發(fā)的主體認(rèn)知情形變化的一種邏輯。這種邏輯的語言是通過添加一個(gè)行動(dòng)模態(tài)算子[! P],即,公開宣告算子,到標(biāo)準(zhǔn)的多主體認(rèn)知邏輯構(gòu)成,[14]公式[! P]φ表示了真實(shí)宣告命題P后,公式φ成立,語義解釋為:
因此,公開宣告一個(gè)命題為真的直接結(jié)果就是各個(gè)主體摒棄那些原先自己認(rèn)為的可能為假的那些可能世界。經(jīng)過這種變化后,主體的認(rèn)知狀態(tài)相應(yīng)地發(fā)生了改變(這里,行動(dòng)模態(tài)算子[! P]實(shí)質(zhì)上是起到從一個(gè)模型到它的相對(duì)化子模型的動(dòng)態(tài)轉(zhuǎn)換功能)。值得注意的是,由于公告命題P這類認(rèn)知行為的觸發(fā)是基于P為真的條件,因此,公告算子是一種部分函數(shù)。
這樣,借助于PAL語言,我們可以表達(dá)諸如,[!φ]Kiψ:在公開宣告事實(shí)φ后,主體i知道了命題ψ;[!φ] CGψ:公開宣告φ后,ψ成為群體G間的公共知識(shí)等認(rèn)知情形。同時(shí),van Benthem在文中,[15]定義了公開宣告某命題φ的極限模型是重復(fù)公告φ不再對(duì)其相應(yīng)的初始模型M產(chǎn)生任何的影響(即模型不再被改變)的第一個(gè)子模型,用#(φ, M)表示。并且,van Benthem論證了當(dāng)此極限模型#(φ, M)是非空的,那么,我們就獲得了一個(gè)使得φ成為主體間的公共知識(shí)的模型。
后文中,證明宣告極限模型#(Ra, MG)中的元素與BI算法求解的結(jié)果之間的一致性,正是本文中一個(gè)重要的刻畫定理,是我們證明理性公共知識(shí)蘊(yùn)涵BI算法求解結(jié)果的基石。
(二)具有完美信息的動(dòng)態(tài)博弈和行動(dòng)函數(shù)
我們采用基于博弈歷史來描述動(dòng)態(tài)博弈模型——擴(kuò)展式博弈模型(或稱博弈樹模型)。
設(shè)A是一個(gè)行動(dòng)集合,A*表示A中一個(gè)有窮行動(dòng)序列集合。如果h=〈a1,a2,…ak〉∈A*且1≤j≤k,則稱序列〈a1,a2,…aj〉是h的前綴。一個(gè)具有完美信息的有窮擴(kuò)展式博弈G是五元組〈H, N, A, f, {ui}i∈N〉,[16]其中,H是滿足條件H?A*的有窮歷史集,且相對(duì)于取前綴運(yùn)算是封閉的(即若h∈H且h’∈A*是h的前綴,則h’∈H);N是有窮的選手集;A是有窮行動(dòng)集合(Ai?A是可供選手i選擇的行動(dòng)集);函數(shù)f是給每個(gè)決策歷史指派一個(gè)選手,f(h)表示在歷史h上的決策者;效用函數(shù)ui指派給每個(gè)具有博弈終點(diǎn)的歷史,對(duì)應(yīng)不同選手的一個(gè)效用值。這里,我們用?表示空歷史〈〉,它是每個(gè)歷史的前綴;字母Z用以表示具有博弈終點(diǎn)(或稱葉子)的歷史,而D=H是指非終點(diǎn)式的歷史集,A(h)表示在歷史h中所包含的行動(dòng)集。
考慮到在一個(gè)動(dòng)態(tài)博弈中,不同選手所選擇的相同行動(dòng)或者同一個(gè)選手在不同時(shí)刻選擇的同一個(gè)行動(dòng),由于選擇人和選擇時(shí)段的不同,實(shí)質(zhì)上都是不同的行動(dòng),因此,我們規(guī)定對(duì)?a,b∈A,有a≠b。同時(shí),出于下文定義行動(dòng)函數(shù)的需要,我們用符號(hào)0和⊥0表示任意一個(gè)空行動(dòng)和假行動(dòng),①這里空行動(dòng)是指博弈開始前選手們的行動(dòng),類似于空歷史的概念;而假行動(dòng)則是指當(dāng)某歷史的長度小于博弈進(jìn)程時(shí)刻值時(shí)選手們的一種虛擬的行動(dòng)。并將它們添加到每個(gè)選手的行動(dòng)集中,即,0∧⊥0∈∧i∈NAi。
如果對(duì)一個(gè)有窮擴(kuò)展式博弈G中的任何一個(gè)h∈H,都至多有一個(gè)選手具有一個(gè)非單元素的行動(dòng)集,那么,稱這樣的博弈是具有完美信息的有窮博弈。進(jìn)一步來說,如果對(duì)每一個(gè)選手i,若z和z’對(duì)應(yīng)是不同的結(jié)果,則必有ui(z)≠ui(z’),則稱此博弈是泛型的(generic)。[17]由于BI算法主要被用于求解完美信息的動(dòng)態(tài)博弈,因此,本文重點(diǎn)考察具有完美信息的有窮泛型博弈。
為方便敘述,我們將含有葉子的歷史z記為是一串不包含括號(hào)和逗號(hào)的行動(dòng)序列,如,z=〈?, a1, a2, …,a5〉被記為z=0a1a2a3a4a5,并用符號(hào)l(z)表示該歷史的長度,這里l(z)=5(空段不計(jì)入長度),lmax(G)=max{ l(z),?z∈H}則表示博弈樹G的最大長度。
在一個(gè)歷史z中,博弈不同時(shí)段對(duì)應(yīng)的行動(dòng)是不同的,為此,我們定義一個(gè)行動(dòng)函數(shù),用于尋找博弈t時(shí)段(t∈N|t≤l(G)-1)時(shí),歷史z中的行動(dòng)。而借助此函數(shù),我們可以刻畫出BI算法解集。
定義1.給定一個(gè)具有完美信息的泛型擴(kuò)展式博弈G,行動(dòng)函數(shù)Λz(t):Z×T→A,用于尋找在博弈t階段時(shí),歷史z上所對(duì)應(yīng)的行動(dòng)。其中,Λz(0)=0,Λz(t)=⊥0(當(dāng)l(z)<t時(shí))。
依此定義,如果Λz(t)=Λz’(t)(其中z≠z’),那么,兩個(gè)不同的歷史z和z’在博弈t時(shí)段時(shí)具有相同的行動(dòng)。并且,z和z’具有長度不大于t的相同前綴。
定義2.給定一個(gè)具有完美信息的泛型擴(kuò)展式博弈G=〈H, N, A, f, {ui}i∈N〉且l(G)=m。令BI*是該博弈BI算法均衡解的集合,則BI*=∩n≥1BIn=∩n≥1(BIn-1-DBn-1)(n∈N,1≤n≤m),這里DBn表示逆推第n階段時(shí),被BI算法剔除的結(jié)果集,而BIn表示逆推第n階段時(shí)未被BI算法所剔除的結(jié)果集。其中,BI0=Z,DB0= {z∈Z|Λz(m)∈Ai/{⊥0}且ui(z)<max {ui(z’)},其中Λz(m-1)=Λz’(m-1)}。對(duì)?z∈DBn(n≥1),滿足:
(i)z∈BIn-1;
(ii)Λz(m-n)∈Ai/{⊥0}且ui(z)<max{ui(z’)},其中Λz(m-n-1)=Λz'(m-n-1)。
隨著博弈進(jìn)程的展開,選手關(guān)于博弈結(jié)果的知識(shí)在增加:博弈開始前,每個(gè)選手都認(rèn)為所有的博弈結(jié)果都是可能的,而當(dāng)某個(gè)選手做出一個(gè)行動(dòng)選擇后,某些博弈結(jié)果一定會(huì)從選手當(dāng)前的認(rèn)知可能世界集中消失,從而縮減了選手的認(rèn)知可能世界集,選手關(guān)于博弈結(jié)果的知識(shí)得到增加。以下,我們通過將選手關(guān)于博弈結(jié)果的知識(shí)隨著博弈的進(jìn)程展開而發(fā)生的這種變化,與我們所定義的行動(dòng)函數(shù)一起,刻畫選手關(guān)于某博弈結(jié)果的絕對(duì)決策權(quán)。進(jìn)而在此基礎(chǔ)上,將理性選手定義為能夠知道具有絕對(duì)決策權(quán)的選手總是最大化他們收益的選手,并證明重復(fù)公告這種理性后所達(dá)到的、公告極限模型的可能世界集,與BI算法解集具有完全的一致性,從而提供出一個(gè)關(guān)于BI算法認(rèn)知基礎(chǔ)的完全刻畫定理。
考慮到易讀性,我們將一類符號(hào)集專門用以表達(dá)與博弈相關(guān)的命題。如符號(hào)ADi表示選手i對(duì)于歷史z所相應(yīng)的結(jié)果具有絕對(duì)決策權(quán),Rai表示i是理性的,zv’≥izv表示選手i偏好的是博弈結(jié)果v’而不是v。這樣,對(duì)于給定的一個(gè)動(dòng)態(tài)博弈G,基于公開宣告邏輯PAL,我們構(gòu)建博弈G的認(rèn)知模型如下:
定義3.給定一個(gè)完美信息有窮泛型博弈G,關(guān)于G的一個(gè)博弈認(rèn)知模型MG’是一個(gè)四元組〈W, T, {Ri}i∈N,V〉,其中:
T是博弈G進(jìn)程時(shí)刻點(diǎn)集,即T={t|t∈N且t≤l(G)};
W是由博弈歷史z和博弈時(shí)段值t構(gòu)成的有序?qū)?,W={w|(zw,tw)∈Z×T};
Ri?W* W是狀態(tài)集N上的二元關(guān)系,Ri(w)= {v∈W|tv=tw且Λzv(t-1)=Λzw(t-1)≠⊥0};
V: W→2W是賦值函數(shù),指派原子命題到每個(gè)可能世界;
那么,與博弈相關(guān)的命題公式語義解釋為:①因其他公式語義是標(biāo)準(zhǔn)的Kripke語義,這里不再贅述。
MG’,(zw,tw)ADi當(dāng)且僅當(dāng)Λzw(tw)∈Ai/{⊥0}且?v∈{(zv,tv)∈W| zv=zw,tv≠tw,Card(Ri(v)≥2},滿足Card(Ri(v))>Card(Ri(w))≥2;
MG’,(zw,tw)zv’≥izv當(dāng)且僅當(dāng)ui(zv’)≥ui(zv);
MG’,(zw,tw)Rai當(dāng)且僅當(dāng)或者?v∈{(zv,tv)∈W|zv=zw},MG’,(zv,tv)ADi或者?v∈{(zv,tv)∈W|zv=zw}且?j∈N,滿足MG’,(zv,tv)Ki(ADj∧(zv≥jzv’)),其中?v’∈Rj(v)。
釋義1:在上述關(guān)于選手認(rèn)知擇換關(guān)系的定義中,條件tv=tw確保了選手的認(rèn)知擇換關(guān)系具有自反、對(duì)稱和傳遞性;而條件Λzv(t-1)=Λzw(t-1)則要求只要博弈下一階段的決策者(或活動(dòng)選手)沒有做出選擇,那么,任何一個(gè)屬于當(dāng)前階段中的博弈結(jié)果都不會(huì)被選手排除。這是一個(gè)合理的規(guī)則,原因在于每個(gè)人在對(duì)手未做出選擇前,是不可能知道哪些結(jié)果確定地不會(huì)被選擇,即便下個(gè)決策者是自己,也是具有犯錯(cuò)誤的可能性而選錯(cuò)了行動(dòng),從而,任何一個(gè)結(jié)果都不應(yīng)該在下個(gè)選手未做出選擇前,而被選手從他們的可能世界集中剔除。同時(shí),由于我們所關(guān)注的是選手關(guān)于博弈結(jié)果知識(shí)的描述,因此,對(duì)于一個(gè)具有完美信息的博弈而言,每個(gè)選手在博弈的每個(gè)階段,對(duì)于當(dāng)前博弈結(jié)果可能性的認(rèn)知都是一樣的,即對(duì)?w∈W,Ri(w)=Rj(w)。
釋義2:一個(gè)選手i在某可能世界w上具有絕對(duì)決策權(quán)ADi是指,選手i不需要考慮到后續(xù)博弈階段中參與選手行動(dòng)選擇的影響,而可直接決定w所相應(yīng)的博弈結(jié)果是否能夠成為整個(gè)博弈的最終結(jié)果。②按照定義3,如果選手只是可以直接決定某結(jié)果,并不一定具有對(duì)于該結(jié)果的絕對(duì)決策權(quán),因?yàn)檫@并不意味著他不需要考慮后續(xù)階段參與選手的影響。例如,在前述例1中,盡管在博弈第2個(gè)時(shí)段(即t=2時(shí)),選手2可以直接選擇行動(dòng)b3而使得博弈最終結(jié)果為z3。但是,由于在此階段選手2需要考慮到其對(duì)手后續(xù)行動(dòng)對(duì)于自己當(dāng)前選擇所導(dǎo)致的收益的影響,使得他并不能確定地知道是否此結(jié)果是這個(gè)博弈中能夠最優(yōu)自己收益的結(jié)果,因此,選手2在此時(shí)段,并沒有此結(jié)果的絕對(duì)決策權(quán)。如前述,選手關(guān)于博弈結(jié)果的知識(shí)是隨著博弈進(jìn)程的展開而增加:在博弈初始階段選手i的認(rèn)知可能世界往往是較大集合。而隨著博弈進(jìn)程展開,某些結(jié)果會(huì)被選手摒棄,使得i關(guān)于最終博弈結(jié)果的知識(shí)在增加,相應(yīng)地,他的認(rèn)知可能世界集在減小。如果選手i在某世界w上擁有絕對(duì)決策權(quán),那么,i是博弈此階段的決策者(即,Λzw(tw)∈Ai/{⊥0})的同時(shí),他還能夠確定地知道下一階段行動(dòng)所導(dǎo)致結(jié)果的孰劣孰優(yōu)。因此,i一定他在此階段(tw)的認(rèn)知可能世界集Ri(w),應(yīng)該是所有相應(yīng)于狀態(tài)w上博弈結(jié)果(zw)他的那些非單元素的、認(rèn)知可能世界集中最小的集合,即?v∈{(zv,tv)∈W|zv=zw,tv≠tw,Card(Ri(v)≥2},滿足Card(Ri(v))>Card(Ri(w))≥2。這里,由于只有當(dāng)Λzw(tw)=⊥0或者選手在tw時(shí)已經(jīng)做出了選擇,其在w處的可能世界集才會(huì)是單元素集,即Ri(w)={w}。而在這兩種情形下,該選手都不可能具有絕對(duì)決策權(quán)。因此,通過選手在當(dāng)前世界上的認(rèn)知可能世界集的基數(shù)大小,來定義其在該世界上是否具有關(guān)于該世界的博弈結(jié)果的絕對(duì)決策權(quán),并限定Ri(v)和Ri(w)的基數(shù)值不小于2是有意義的。并且,根據(jù)定義3中關(guān)于選手認(rèn)知關(guān)系Ri的說明,不難得出:命題CNADi(?i∈N)在我們的博弈認(rèn)知模型中是恒有效的,從而保證了“博弈結(jié)構(gòu)是選手間的公共知識(shí)”這一經(jīng)典的博弈分析原則的成立。
釋義3:我們認(rèn)為如果選手i在某可能世界w上是理性的,那么,或者i對(duì)于當(dāng)前世界所相應(yīng)的結(jié)果沒有絕對(duì)決策權(quán);或者i知道博弈選手都是偏好最大化自我效益結(jié)果并且w對(duì)應(yīng)的結(jié)果zw是可以最大化未來對(duì)此結(jié)果具有絕對(duì)決策權(quán)的選手的收益。這是一種直觀性較強(qiáng)的理性要求。同時(shí),理性Ra也是一種“面向未來”的理性,這是因?yàn)榫哂羞@樣理性特征的選手,要知道其他對(duì)手在有絕對(duì)選擇權(quán)時(shí)都會(huì)選擇自我利益最大化的行動(dòng),否則,如果當(dāng)前世界相應(yīng)的結(jié)果zw在未來不能最大化具有絕對(duì)決策權(quán)選手(如選手j)的收益,則該結(jié)果一定會(huì)被j所剔除,也因而不會(huì)使得當(dāng)前世界上的決策者i欲通過選擇該世界在此時(shí)段對(duì)應(yīng)zw的行動(dòng)而獲得較好收益的愿望得到實(shí)現(xiàn)。因此,不同于已有文獻(xiàn)中關(guān)于BI算法理性要求,理性的判定需要涉及關(guān)于對(duì)手的信念、偏好等眾多信息,在我們的認(rèn)知模型中,選手的知識(shí)信息僅包括博弈結(jié)果認(rèn)知的判定,從而使得理性判定更為簡(jiǎn)單直觀。
具體地說,下圖1是給定某博弈G(左圖)的認(rèn)知模型MG’,其中,W={w1,…, w15},分別是:
這里,歷史z1=a1b1和z5= a2b4a4在t=0和t=2階段時(shí)的行動(dòng)函數(shù)分別是Λz1(0)=0和Λz5(0)=b4,R1(w1)={w1,w4,w7,w10,w13}(即博弈開始前,在世界w1上,選手1認(rèn)為這些都是有可能成為最終的博弈結(jié)果),R1(w15)={w12, w15}(當(dāng)選手2選擇行動(dòng)b4后,在世界w15上,選手1認(rèn)為歷史z4和z5所對(duì)應(yīng)的結(jié)果是有可能成為最終的博弈結(jié)果)。這樣,依定義7,因?yàn)樵趙15上選手1具有絕對(duì)決策權(quán),即,MG’,w15AD1,并且MG’,w15z5≥1z4,所以,MG’,w15Ra1,進(jìn)而有MG’,w13Ra1和MG’,w14Ra1(因?yàn)閦w13=zw14=zw15=z5);相應(yīng)地,因?yàn)閣12對(duì)應(yīng)的結(jié)果z4不能夠最大化選手1的收益,所以在w10,w11和w12這三個(gè)世界上,選手1不再是理性的。另一方面,考慮到zw1= zw2= zw3= z1并且MG’,w1﹁AD1(因?yàn)镃ard(w1)>Card(w2)≥2),MG’,w2﹁AD1(因?yàn)棣珃w2(2)=b1∈A2/{⊥0}),MG’,w3﹁AD1(因?yàn)镃ard(w3)=1),所以MG’,wkRa1(k=1, 2, 3)。依此分析可得,在這個(gè)初始的博弈認(rèn)知模型中,選手1只在w10,w11和w12這三個(gè)世界上是不理性的,而選手2在w4,w5和w6這三個(gè)世界上是不理性的。
考慮到公開宣告某個(gè)命題φ會(huì)導(dǎo)致原來模型M中φ不成立的可能世界被刪除,縮減了原來的認(rèn)知模型。隨著模型的變小,主體的知識(shí)在不斷增加。這一過程與博弈論中的重復(fù)剔除劣策略算法有很大的相似性。接下來我們將基于公開宣告邏輯PAL,通過證實(shí)理性可以作為宣告的命題,表明宣告理性Ra(記Ra=∧i∈NRai)的極限模型#(! Ra,MG’)中的可能世界集是與BI算法求解的均衡結(jié)果集是一致的。
為方便起見,我們用Ra表示博弈中所有選手都是理性的,即Ra=∧i∈NRai。并將一個(gè)初始完整的博弈認(rèn)知模型MG’的任一個(gè)子模型MG’|Ra稱為MG’的廣義博弈認(rèn)知模型,并用M’G’表示。
由于在完美信息博弈中,博弈結(jié)構(gòu)和選手的偏好都是公共知識(shí),因此,在任一個(gè)廣義博弈認(rèn)知模型中,命題:ADi→KjADi和zw≥izv→Kj(zw≥izv)恒為真(這里,符號(hào)i, j代表任意的兩個(gè)選手)。另外,由于公告算子是一種部分函數(shù),即公告行為并不總是可以得到執(zhí)行,只有真命題才能作為公告的事實(shí),因此,下面的定理1確保了理性Ra是適合作為公開宣告的斷定。
定理1: Ra在任一個(gè)廣義博弈認(rèn)知模型中都是可滿足的。
考慮到重復(fù)宣告可以看做是博弈前存在于選手間思維中的一種虛擬信息流互動(dòng)的情形,[18]下文刻畫定理I表明:博弈開始前,具有理性選手推理彼此也為這樣的理性特征時(shí),選手間的這種虛擬高階信息互動(dòng)交流(即你知道我知道你是理性的選手等互動(dòng)認(rèn)知交流情形)的結(jié)果,迫使選手將與理性命題真值不一致的可能狀態(tài)排除在外,從而化簡(jiǎn)原博弈認(rèn)知模型到宣告極限模型,而最終留在此宣告極限模型中的可能世界所對(duì)應(yīng)的博弈結(jié)果,則是與通過BI算法求得的博弈結(jié)果是完全一致的。
定理2(刻畫定理I):給定一個(gè)完美信息有窮泛型博弈G,MG’=〈W, T, {Ri}i∈N,V〉是關(guān)于G的博弈認(rèn)知模型,設(shè)w∈W,如果經(jīng)過重復(fù)公開宣告命題后Ra,w仍被保留在最終穩(wěn)定的某個(gè)廣義博弈認(rèn)知模型M’G’,即,M’G’是一個(gè)宣告極限模型#(Ra, MG’),那么,w所對(duì)應(yīng)的結(jié)果也一定屬于BI算法的均衡結(jié)果集,反之亦成立。形式化為:w∈#(Ra, MG’)?zw∈BI*
圖2展示了重復(fù)公開宣告主體理性所導(dǎo)致的博弈結(jié)果。在公開宣告理性三次后,博弈認(rèn)知模型達(dá)到宣告極限,不再發(fā)生改變,而對(duì)此博弈,這個(gè)宣告極限中的可能世界所對(duì)應(yīng)的結(jié)果恰是該博弈的子博弈精煉均衡。
基于上面的刻畫定理,進(jìn)一步我們易得:
定理3(刻畫定理II):給定一個(gè)完美信息有窮泛型博弈G,如果歷史z∈BI*,那么存在一個(gè)博弈認(rèn)知模型,使得對(duì)wz∈W, MG’,wzCNRa,反之亦成立。
圖2
利用動(dòng)態(tài)認(rèn)知邏輯研究動(dòng)態(tài)博弈的思想是由van Benthem提出來[19]并進(jìn)行了多次討論[20]。本文的研究主要受益于這些成果。不過在這些研究論述中,van Benthem著眼于將邏輯作為工具,促進(jìn)和深化博弈研究的思想引領(lǐng),并沒有給出關(guān)于BI算法認(rèn)知條件的刻畫理論。盡管van Benthem也提及通過重復(fù)公告理性可以得到BI算法結(jié)果,然而在這些研究中,他所描述的理性沒有涉及選手的知識(shí)或信念,是一種“行為理性”。但由于公告算子是部分函數(shù),即公告行為可以發(fā)生的前提是所要公告的事實(shí)必須為真。這樣,公告這種理性的動(dòng)作只能是在博弈完全結(jié)束后才能發(fā)生。因此van Benthem在這些文獻(xiàn)中所提出的重復(fù)公告理性理論只是一種通過動(dòng)態(tài)邏輯求解完美信息動(dòng)態(tài)博弈的方法,并不是關(guān)于BI算法的認(rèn)知刻畫。本文中,我們著眼于算法本身,通過構(gòu)建一類博弈認(rèn)知模型,利用公告邏輯PAL動(dòng)態(tài)更新認(rèn)知模型,探討了BI算法背后的認(rèn)知機(jī)制并提供了一種關(guān)于此算法的動(dòng)態(tài)認(rèn)知刻畫理論。由于刻畫分析是基于一種動(dòng)態(tài)認(rèn)知邏輯—公開宣告邏輯PAL,這為未來我們研究動(dòng)態(tài)模型檢測(cè)動(dòng)態(tài)博弈認(rèn)知系統(tǒng)性質(zhì),提供了能行的理論基礎(chǔ)。未來我們將拓展DEMO,①DEMO是由Eijck在2007年提出的一種動(dòng)態(tài)模型檢測(cè)工具,已被開發(fā)用于許多認(rèn)知問題的解決方案正確性的檢測(cè)(J. Eijck, DEMO-a Demo of Epistemic Modelling Interactive Logic,Amsterdam: Amsterdam University Press, 2007,Technology Report)。實(shí)現(xiàn)利用該工具驗(yàn)測(cè)我們理論的正確性。
[參考文獻(xiàn)]
[1] Giacomo Bonanno,“A Dynamic Epistemic Characterization of Backward Induction without Counterfactuals”,Games and Economic Behavior, 2013, vol. 78, pp.31-44.
[2] Pierpaolo Battigalli, Alfredo Di-Tillio and Dov Samet,“Strategies and Interactive Beliefs in Dynamic Games”,[book auth.] Daron Acemoglu, Manuel Arellano and Eddie Dekel,Advances in Economics and Econometrics. Theory and Applications: Tenth World Congress,Cambridge: Cambridge University Press, 2012.
[3][7] Pierpaolo Battigalli, Marciano Siniscalchi,“Strong Belief and Forward Induction Reasoning”,J. Econ. Theory, 2002,pp.356-391.
[4][12] Elchanan Ben-Porath,“Nash Equilibrium and Backwards Induction in Perfect Information Games”,Rev. Econ. Stud.,1997, vol.64, pp.23-46.
[5] Robert Aumann,“On the Centipede Game”,Games Econ. Behav.,1998, vol.23, pp.97-105.
[6] Robert Aumann,“Backward Induction and Common Knowledge of Rationality”,Games Econ. Behav.,1995,pp.8-19.
[8] Thorsten Clausing,“Doxastic Conditions for Backward Induction”,Theory Dec.,2003, pp.315-336.
[9] Adam Brandenburger,“The Power of Paradox: Some Recent Developments in Interactive Epistemology”,Int. J. Game Theory,2007, vol.35, pp.465-492.
[10] Andrés Perea, Belief in the Opponents’Future Rationality,Maastricht University,2011,Technical Report.
[11] Andrés Perea, Epistemic Game Theory: Reasoning and Choice,Cambridge: Cambridge University Press, 2012.
[13] Joseph Halpern,“Substantive Rationality and Backward Induction”,Games Econ. Behav.,2001, vol.37, pp.425-435.
[14] A. Baltag, L. S. Moss and S. Solecki, The Logic of Public Announcements, Common Knowledge and Private Suspicious,Amsterdam University. s.l.: CWI, 1997,Technical Report SEN-R9922.
[15][18][19] Johan van Benthem,“Rational Dynamics and Epistemic Logic in Games”,Game Theory Review International,2007, vol.9,no.1,pp.13-45.
[16] A. Rubinstein, A Course in Game Theory,Cambridge, Mass.: The MIT Press, 1994.
[17] Geir B. Asheim,“On the Epistemic Foundation of Backward Induction”,Mathematical Social Sciences,2002, vol.44, pp.121-144.
[20] Johan van Benthem, Logic in Games,Cambridge, Massachusetts: The MIT Press, 2014.
責(zé)任編輯:羅蘋
作者簡(jiǎn)介崔建英,中山大學(xué)哲學(xué)系、邏輯與認(rèn)知研究所講師(廣東廣州,510275)。
〔中圖分類號(hào)〕B81-05
〔文獻(xiàn)標(biāo)識(shí)碼〕A
〔文章編號(hào)〕1000-7326(2016)04-0035-07