張芬1,吳紅星1,駱雯琦1,周富磊
(1.上饒師范學(xué)院 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,江西 上饒 334001;2.上饒中學(xué),江西 上饒 334000)
隨機(jī)二人零和微分博弈
張芬1,吳紅星1,駱雯琦1,周富磊2
(1.上饒師范學(xué)院 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,江西 上饒 334001;2.上饒中學(xué),江西 上饒 334000)
利用最優(yōu)控制理論來分析隨機(jī)條件下的二人微分博弈問題。首先,給出隨機(jī)微分方程和性能指標(biāo)函數(shù);然后,引出了相應(yīng)的隨機(jī)二人零和微分博弈問題;最后,通過Q-Riccati微分方程來得到隨機(jī)微分博弈的最優(yōu)閉環(huán)表達(dá)式和性能指標(biāo)函數(shù)表達(dá)式。
最優(yōu)控制;博弈;隨機(jī)微分方程;Q-Riccati方程
Fleming研究了一般條件下的隨機(jī)零和微分博弈問題,并得到相應(yīng)值函數(shù)的存在性,這為研究隨機(jī)零和微分博弈問題建立了基礎(chǔ)[1]。潘立平利用Q-Riccati微分方程研究無限維最優(yōu)控制問題,得出可以用有限維的最優(yōu)控制問題解來逼近相應(yīng)無限維的最優(yōu)控制問題解[2]。Elliott研究了隨機(jī)微分博弈最優(yōu)控制策略和鞍點策略的存在性[3]。朱懷念通過Riccati微分方程和It積分研究了不定仿線性二人零和微分博弈問題,并給出了最優(yōu)可行決策的顯示表達(dá)式,且進(jìn)一步得到了最優(yōu)性能指標(biāo)函數(shù)的表達(dá)式以及其存在的充分必要條件[4]。尤云程利用Q-Riccati方程研究了確定性情況下的二人零和微分博弈[5]。王源昌通過Q-Riccati微分方程給出了非自治二人零和微分博弈的最優(yōu)控制解[6]。這些結(jié)果為本文的研究奠定了基礎(chǔ)。
本文主要討論在時間區(qū)域0,T(T>0)中的隨機(jī)二人零和微分博弈。定義0,y0∈0,T×Rn(0為初始時間,y0為初始狀態(tài)),并給出相應(yīng)的隨機(jī)狀態(tài)方程如下:
(1)
其中y(·)∈Rn,矩陣A,C∈Rn×n,B1,B2∈Rn×k,函數(shù)u1(t),u2(t)∈Rk,Y=L2(0,T;Rn),Yc=C([0,T];Rn),U1=L2(0,T;Rk)以及U2=L2(0,T;Rk)定義成所需的空間,將所有的策略u,v∈U1×U2稱之為可行策略。且其性能指標(biāo)函數(shù)[7]形式如下:
(2)
定義h(·):Rn→R,并將h(y(T))定義為C2(Rn)函數(shù),同時設(shè)R1是n×n階正定矩陣,R2是n×n階負(fù)定矩陣。
(3)
為了解決此問題,現(xiàn)引進(jìn)Q-Riccati微分方程:
(4)
其中,Q-Riccati的解P(t,y):0,T×Rn是一個非線性的映射。Pt(t,y)和Py(t,y)分別表示關(guān)于P(t,y)對t和y求偏導(dǎo)。且Q-Riccati微分方程式(4)的解滿足下面的定義。
定義1[5-6]設(shè)P(t,y)是Q-Riccati微分方程式(4)的一個正規(guī)解,并滿足下面的條件:
(1)P(t,y)關(guān)于(t,y)連續(xù),并且P(t,y)分別對t和y是連續(xù)可微;
(2)對于?t∈0,T,P(t,·):Rn→Rn為梯度算子;
(5)
關(guān)于任意給定的y0∈Rn,式(5)必只存在一個全局解y∈Yc。
令P(t,y)為微分方程式(4)的正規(guī)解,則根據(jù)P(t,y)的定義可知:對于?t∈0,T,?P(t,y)的不定積分φ(t,y),其中φ(t,y):0,T×Rn是一個非線性函數(shù)且滿足下式:
(6)
引理設(shè)y(·)是初始值為y0和可行策略u1(·),u2(·)的狀態(tài)軌跡方程。如果P(t,y)是微分方程式(4)的正規(guī)解,且φ(t,y)是P(t,y)的一個不定積分,則φ(·,y(·))在時間域0,T上是絕對連續(xù)函數(shù)的,也既φ(·,y(·))∈AC0,T;R。
定理1 設(shè)y(·)是關(guān)于初始值取y0和可行策略u1(·),u2(·)狀態(tài)軌跡方程。當(dāng)P(t,y)是式(4)的一個正規(guī)解時,則?P(t,y)的不定積分φ(t,y),且φ(·,y(·))∈AC0,T;R,使得對a.e.的t∈0,T成立下式:
證明:由引理可知φ(t,y(t))a.e.關(guān)于時間域0,T上的t可微,且成立下式:
(8)
對式(8)的兩邊關(guān)于t求微分整理可得下式:
其中P(t,y)為對稱矩陣,故P(t,y)為自伴算子,所以Py(t,y(t))=Py(t,y(t))'。第三個等式結(jié)合方程式(4)便可得到?,F(xiàn)對式(9)進(jìn)行分布計算:
(11)
(12)
現(xiàn)在將式(11)和式(12)代入式(9)可得下式:
(13)
因此定理1證畢。
定理2[6]設(shè)P(t,y)為微分方程式(4)的正規(guī)解,則相應(yīng)的隨機(jī)二人微分博弈問題可解,其最優(yōu)策略和性能指標(biāo)函數(shù)值形式如下:
(14)
(15)
并可知式(14)使得式(15)滿足不等式(3)。
證明:通過利用閉環(huán)表示定理和“配方法”來證定理2。根據(jù)定理1可得P(t,y)為式(4)的一個正規(guī)解,現(xiàn)由Q-Riccati微分方程解的性質(zhì)可知:P(t,y)既滿足引理又滿足定理1。故進(jìn)一步,結(jié)合式(2)和式(13)便得下式:
(16)
現(xiàn)引進(jìn)一個α(t,y(t))函數(shù),且其定義如下:
(17)
由式(17)可得下式:
(18)
所以將式(18)代入式(16)整理可得:
(19)
現(xiàn)對式(19)兩邊關(guān)于t從0到T取積分可得:
(20)
由式(4)和式(6)可知: 對于任意的y∈Rn,φ(T,y)-φ(T,0)=h(y)-h(0)和φ(T,y)≡h(y)。現(xiàn)將φ(T,y)≡h(y)代入式(20),對其進(jìn)行移項整理并取期望整理可得下式:
(21)
因此由式(21)可得:
定理2證畢。
[1] FLEMING W H,SOUGANIDIS P E.On the existence of value functions of two-player zero-sum stochastic differential games[J].Indiana University Mathematics Journal,1989,38(2):293-314.
[2] 潘立平.無限維線性—非二次最優(yōu)控制問題[J].數(shù)學(xué)年刊,1997,18(A):93-108.
[3] ELLIOTT R J.The existence of optimal strategies and saddle point in stochastic differentialgames[J].Lecture Notes in Control & Information Sciences,1997,3:123-135.
[4] 朱懷念,張成科,李云龍,等.一類不定仿線性二次型隨機(jī)微分博弈的鞍點均衡策略[J].廣東工業(yè)大學(xué)學(xué)報,2012,290(3):35-39.
[5] YOU Y C.Syntheses of differential games and pseudo-Riccati equations[J].Abstract & Applied Analysis,2002,7(2):61-83.
[6] 張芬,王源昌,雷丹.非自治的二人微分博弈[J].云南師范大學(xué)(自然科學(xué)版),2014,34(6):8-13.
[7] 雍炯敏,樓紅衛(wèi).最優(yōu)控制理論簡明教程[M].北京:高等教育出版社,2006.
Random Two-person Zero-sum Differential Games
ZHANG Fen1,WU Hongxing1,LUO Wenqi1,ZHOU Fulei2
(1.School of Mathematics and Computer Science,Shangrao Normal University,Shangrao Jiangxi 334001,China;2.Shangrao Middle School,Shangrao Jiangxi 334000,China)
Using the optimal control theory to analyze that the problem of two-player zero-sum differential game in stochastic situations. First,giving the stochastic differential equation and performance index function;Then,introducing the problem of stochastic two-player zero-sum differential game. Finally,by the Q-Riccati differential equation to obtained the closed-loop expression and the optimal equation of state equation for stochastic differential game.
optimal control;game;stochastic differential equation;Q-Riccati equation
2017-07-04
上饒師范學(xué)院自然科學(xué)基金資助項目(201724)
張芬(1990-),女,江西上饒人,助教,碩士,主要研究方向金融數(shù)學(xué)。E-mail:1024866868@qq.com
O225;O232
A
1004-2237(2017)06-0012-04
10.3969/j.issn.1004-2237.2017.06.003