許 潔,藺瑞強(qiáng)
微分對(duì)策問(wèn)題的研究始于20世紀(jì)40年代,最初起源于軍事需求,美國(guó)數(shù)學(xué)家Issacs 博士及其團(tuán)隊(duì)把現(xiàn)代控制理論中的一些概念、原理與方法引入對(duì)策論中,Issacs 整理出版的《微分對(duì)策》一書,是世界上第一部微分對(duì)策專著,標(biāo)志著微分對(duì)策理論的誕生.隨著人們對(duì)微分對(duì)策問(wèn)題研究的深入,其應(yīng)用不再局限于軍事問(wèn)題,更被廣泛應(yīng)用在航空、工業(yè)控制、經(jīng)濟(jì)管理等方面.眾所周知,生活中幾乎到處都充滿了不確定因素,因此選擇刻畫系統(tǒng)的狀態(tài)方程時(shí)選擇隨機(jī)方程更符合客觀實(shí)際.隨機(jī)微分方程的發(fā)展更進(jìn)一步推動(dòng)了隨機(jī)微分對(duì)策問(wèn)題的研究.楊依蕓等[1]討論了在部分信息下帶跳線性二次平均場(chǎng)類型的二人零和微分對(duì)策問(wèn)題,得到其相應(yīng)最優(yōu)控制的反饋表示.張保凱[2]研究了一類帶泊松跳的零和線性二次隨機(jī)微分對(duì)策問(wèn)題,且其擴(kuò)散項(xiàng)系數(shù)不為零,得到了在這種動(dòng)態(tài)的博弈中取得一個(gè)均衡點(diǎn),即最優(yōu)反饋控制策略對(duì).史敬濤[3]研究了帶Poisson 跳躍的零和正倒向隨機(jī)微分對(duì)策的最大值原理與動(dòng)態(tài)規(guī)劃之間的關(guān)系;在一定的可微性假設(shè)下,建立了對(duì)偶過(guò)程、廣義Hamilton 函數(shù)和值函數(shù)之間的聯(lián)系.王光臣[4]結(jié)合正倒向隨機(jī)微分方程理論和濾波技術(shù),討論了一類部分可觀測(cè)信息下線性二次非零和隨機(jī)微分對(duì)策問(wèn)題.吳霜[5]研究倒向隨機(jī)時(shí)滯系統(tǒng)的微分對(duì)策問(wèn)題,并得到了納什均衡點(diǎn)滿足的必要條件和充分條件,并將其應(yīng)用到一類最優(yōu)消費(fèi)選擇問(wèn)題中.肖華[6]通過(guò)研究完全信息和部分信息下的正倒向隨機(jī)微分方程的隨機(jī)濾波、最優(yōu)控制和微分對(duì)策,得到了非零和對(duì)策均衡點(diǎn)與零和對(duì)策鞍點(diǎn)的最大值原理和驗(yàn)證定理.吳臻等[7]對(duì)一類以布朗運(yùn)動(dòng)和泊松過(guò)程為噪聲源的正倒向隨機(jī)微分方程,在單調(diào)性假設(shè)下,給出了解的存在性和唯一性的結(jié)果,并將所得結(jié)果應(yīng)用于帶隨機(jī)跳躍的線性二次非零和微分對(duì)策問(wèn)題之中,得到了開環(huán)Nash 均衡點(diǎn)的顯式形式.唐矛寧等[8]研究了由Brown 運(yùn)動(dòng)和Poisson 隨機(jī)鞅測(cè)度共同驅(qū)動(dòng)的完全耦合的正倒向隨機(jī)系統(tǒng)的開環(huán)雙人非零和隨機(jī)微分對(duì)策問(wèn)題,證明了開環(huán)Nash 均衡點(diǎn)存在的一個(gè)必要條件及一個(gè)充分條件.左姍姍[9]研究了平均場(chǎng)正倒向隨機(jī)系統(tǒng)的微分對(duì)策問(wèn)題,討論了零和以及非零和微分對(duì)策的最大值原理.
目前,對(duì)非零和差分對(duì)策的研究越來(lái)越廣泛,在此類問(wèn)題研究的基礎(chǔ)上,該文探索倒向重隨機(jī)系統(tǒng)驅(qū)動(dòng)的非零和微分對(duì)策問(wèn)題,利用凸變分技術(shù)和對(duì)偶方法給出納什均衡點(diǎn)存在的必要條件.
首先給出本文中的一些符號(hào).Rn表示n維歐氏空間,Rn×d表示n×d矩陣空間,<·>表示內(nèi)積,|·|表示Eudidean 范數(shù),AT表示轉(zhuǎn)置矩陣.文中所給符號(hào)和不等式都是在dt× dP意義下在[0,T] × Ω 中幾乎必然成立.
設(shè)(Ω,?,P)是一個(gè)概率空間,[0,T]是任意大的時(shí)間區(qū)間,{B(t):0≤t≤T}是兩個(gè)取值在Rd、Rl的獨(dú)立標(biāo)準(zhǔn)布朗運(yùn)動(dòng).設(shè)表示? 中所有的P-零集,對(duì)于任意的t∈[0,T],則有?t=?tω∨?Bt,T.其中:?tω=∨σ{W(r)-W(0):0≤r≤t},?Bt,T=∨σ{B(r)-B(t):t≤r≤T}.對(duì)任意的t∈[0,T],顯然集合{?t} 既不遞增也不遞減,故不構(gòu)成信息流.
假設(shè)M2(0,T;Rn)={φ(t)|φ(t)為n維?t-可測(cè)量隨機(jī)過(guò)程且
設(shè)?(t) ∈M2(0,T;Rn)定義正向伊藤積分和倒向伊藤積分,這兩類積分都是It?-Skorohod積分.L2(Ω,?T,P; Rn)={ξ:ξ是n維?t-可測(cè)的隨機(jī)變量并滿足E|ξ|2<∞}.
首先考慮受控的倒向重隨機(jī)系統(tǒng),其狀態(tài)方程為:
其中:v1(·)和v2(·)分別表示博弈雙方的控制過(guò)程,設(shè)為控制者1 和控制者2.設(shè)Ui為Rk的一個(gè)非空凸子集.Ui(i=1,2)為滿足以下條件的控制過(guò)程集合:
①Ui是?t-適應(yīng)的并且vi(t) ∈Ui,t∈[0,T].
Ui中任意元素都被稱為控制者的開環(huán)容許控制,并被稱為他們的容許控制集.除了在結(jié)束時(shí)間T獲得期望的結(jié)果ξ外,控制者還同時(shí)關(guān)心自己的利益.可以使用以下價(jià)值泛函來(lái)表示,即
給出下列假設(shè):
(A1)存在常數(shù)c> 0 和0 <σ< 1 對(duì)于任意的 (ω,t)∈Ω×[0,T],(y1,z1,u1),(y2,z2,u2)∈Rn×Rn×d× Rk,則有
(A2)f和g關(guān)于(y,z,v1,v2)是連續(xù)可微的,且f和g關(guān)于(y,z,v1,v2)的偏導(dǎo)數(shù)是一致有界的.
(A3)Li對(duì)于(y,z,v1,v2)是連續(xù)可微的,Φi對(duì)于y是連續(xù)可微的,且存在正常數(shù)C使得偏導(dǎo)數(shù)Liy,Liz,Liv1,Liv2有界.
引理1[10]假設(shè)(A1)~(A2)成立,對(duì)于給定u(·) ∈U(0,T),存在唯一解滿足等式(1),其中(y(·),z(·))=(y(·,u(·)),z(·,u(·)))∈S2(0,T,Rn) ×M2(0,T,Rn×d).
引理2 假設(shè)α∈S2(0,T;Rn),β∈M2(0,T;Rn),γ∈M2(0,T; Rn× Rm),δ∈M2(0,T; Rn× Rd),則有
一般來(lái)說(shuō)ψ∈C2(Rn),那么
引理3[11]假設(shè)(A1)~(A2)成立,設(shè),則有:
引理4[11]假設(shè)(A2)成立,設(shè)
則有:
假設(shè)控制雙方都想選擇最優(yōu)的容許控制vi(·)(i=1,2)來(lái)優(yōu)化自己的價(jià)值泛函,即尋找容許控制(v1(·),v2(·)) ∈U1×U2使其滿足:
如果可以得到滿足式(6)的容許控制(u1(·),u2(·)),則它被稱為一個(gè)納什均衡點(diǎn).
此時(shí)系統(tǒng)相應(yīng)的變分方程可以寫成:
定理1 假設(shè)(A2)和(A3)成立,則有:
其中:Liβ(t)=Liβ(t,yu1,u2(t),zu1,u2(t),u1(t),u2(t)),β=y,z,v1,v2,(i=1,2).
證明 對(duì)于任意的v1(·) ∈U1,v2(·) ∈U2,由式(2)和式(6)可得
即
繼而可得:
由不等式(11)的第一項(xiàng)推導(dǎo)可得:
根據(jù)引理4,可推得:
類似地,由不等式(11)的第二項(xiàng)可推得:
同理,可從不等式(9)中推出i=2 的情況,結(jié)合i=1 和i=2,定理證畢.
定義哈密頓函數(shù)如下:
對(duì)應(yīng)系統(tǒng),定義它的伴隨方程,系統(tǒng)的伴隨方程形式如下:
其中:Liβ(t)=Liβ(t,yu1,u2(t),zu1,u2(t),u1(t),u2(t)),β=y,z.
哈密頓形式的伴隨方程如下:
其中:Hi(t)=H(t,yu1,u2(t),zu1,u2(t),u1(t),u2(t),pi(t),qi(t)),Hiy(t)、Hiz(t)表示對(duì)y和z的偏導(dǎo)數(shù).
定理2 假設(shè)(A2)和(A3)成立,對(duì)于任意的(v1,v2) ∈U1×U2,假設(shè)(u1(·),u2(·))是一個(gè)納什均衡點(diǎn),且(yu1,u2(·),zu1,u2(·))是對(duì)應(yīng)的最優(yōu)軌跡,則有:
及
其中:(pi(·),qi(·))是伴隨方程(18)的唯一解.
證明 對(duì)xi(t),pi(t)應(yīng)用伊藤公式,可得:
取期望并計(jì)算,可得:
由定理1,可以得到:
對(duì)于任意滿足v1(·) +u1(·) ∈U1的v1(·)不等式(26)成立.如果假設(shè)v1(s) +u1(s)=?(s),s∈[t,t+ε],且v1(s) +u1(s)=u1(s),s?[t,t+ε],那么可從不等式(26)推出:
假設(shè)ω(t)=v1IA+u1(t)IcA,?v1∈U1,A∈?t,其中IA是集合上A的示性函數(shù)且ω(·)是一個(gè)容許控制,通過(guò)將ω(·)代入不等式(27),可以推得:
對(duì)任意的A∈?t,不等式(28)都成立,則有:
類似地,可推得:
自1994年P(guān)ardoux 和彭實(shí)戈教授給出倒向重隨機(jī)微分方程以來(lái),討論由倒向重隨機(jī)微分方程驅(qū)動(dòng)的控制問(wèn)題成為人們研究的熱點(diǎn).本文探討了由倒向重隨機(jī)微分方程刻畫的非零和微分對(duì)策問(wèn)題,在此類問(wèn)題的研究中,系統(tǒng)的伴隨方程是研究的關(guān)鍵,該文利用伴隨方程的解刻畫了納什均衡點(diǎn)存在的必要條件,此結(jié)果類似于隨機(jī)最優(yōu)控制問(wèn)題的最大值原理.然而由于伴隨方程結(jié)構(gòu)的復(fù)雜性,關(guān)于其解的形式成為研究的難點(diǎn),將在后續(xù)的工作中對(duì)此類問(wèn)題做進(jìn)一步探討.