梅俊,顧和平
(中南民族大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,武漢 430074)
最優(yōu)控制問(wèn)題旨在為系統(tǒng)設(shè)計(jì)一個(gè)控制器,以?xún)?yōu)化系統(tǒng)性能[1-2].通常,線性系統(tǒng)可用Riccati 方程求解[3].對(duì)于低維數(shù)的非線性系統(tǒng),有學(xué)者提出了動(dòng)態(tài)規(guī)劃方法[4],將復(fù)雜的最優(yōu)控制問(wèn)題轉(zhuǎn)化為一個(gè)多階段的決策過(guò)程.但當(dāng)系統(tǒng)狀態(tài)變量維數(shù)增加時(shí),動(dòng)態(tài)規(guī)劃方法的計(jì)算量會(huì)呈指數(shù)倍增長(zhǎng).于是,為了克服維數(shù)增長(zhǎng)帶來(lái)的難題,美國(guó)學(xué)者WERBOS提出了自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP),有效解決了復(fù)雜非線性系統(tǒng)的最優(yōu)控制問(wèn)題.
近年來(lái),已經(jīng)報(bào)道了許多基于ADP 的控制方法[5-7],其基本思想是利用函數(shù)近似結(jié)構(gòu)來(lái)逼近動(dòng)態(tài)規(guī)劃方程中的成本函數(shù)和控制策略,使之滿(mǎn)足Bellman 最優(yōu)性原理.通常,傳統(tǒng)的控制器是對(duì)系統(tǒng)進(jìn)行實(shí)時(shí)控制的,控制器每時(shí)每刻都在更新,因此耗費(fèi)大量寬帶資源[8].為了降低控制器的執(zhí)行次數(shù),本文引入了采樣控制方法[9-10].采樣控制只在采樣時(shí)刻更新控制器[11],并將這一控制信號(hào)保持到下一采樣時(shí)刻,從而減少了控制頻率.因此,與傳統(tǒng)的控制相比,采樣控制在合適的采樣周期內(nèi)可以使得系統(tǒng)信號(hào)傳輸更加高效[12].
目前,針對(duì)基于ADP 的非線性系統(tǒng)采樣控制的研究鮮有報(bào)道,為此,本文將研究基于ADP 的采樣控制方面的問(wèn)題. 首先,根據(jù)Hamilton-Jacobi-Bellman(HJB)方 程 和 零 階 保 持 器(Zero Order Holder,ZOH)的思想得出最優(yōu)采樣控制器;然后,利用評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)逼近成本函數(shù),并且通過(guò)最小二乘法訓(xùn)練得到評(píng)價(jià)NN 權(quán)值;另外,通過(guò)Lyapunov 穩(wěn)定性理論得出系統(tǒng)穩(wěn)定的充分條件,證明閉環(huán)系統(tǒng)一致最終有界(Uniformly Ultimately Bounded,UUB);最后,通過(guò)數(shù)值仿真的例子驗(yàn)證所提方法的有效性.
符號(hào)說(shuō)明:Rn表示n維列向量,Rn×m表示n×m階矩陣,‖ · ‖表示向量或矩陣范數(shù),上標(biāo)T 表示向量或矩陣的轉(zhuǎn)置,N 表示正整數(shù)集,?= ??x表示梯度運(yùn)算,λmin(·)表示矩陣的最小特征值.
考慮如下連續(xù)時(shí)間非線性系統(tǒng):
其中,x(t) ∈Rn為系統(tǒng)狀態(tài),f(·) ∈Rn和g(·) ∈Rn×m為光滑連續(xù)的系統(tǒng)動(dòng)力學(xué)函數(shù),u(t) ∈Rm為控制輸入.假設(shè)f(0) = 0,f(·)在包含原點(diǎn)的有界閉集Ω ?Rn上是Lipschitz連續(xù)的.
定義如下成本函數(shù):
其中,r(x,u) =xTQx+uTRu為效用函數(shù).Q∈Rn×n和R∈Rm×m均為正定矩陣.為簡(jiǎn)單起見(jiàn),后續(xù)與時(shí)間t相關(guān)的變量或函數(shù)在表示時(shí)均省略t.假設(shè)V(x) ∈C1(Ω),則其滿(mǎn)足如下方程:
其中,?V(x) = ?V(x) ?x.
定義系統(tǒng)(1)的Hamiltonian如下:
根據(jù)Bellman最優(yōu)性原理可以得到如下HJB方程:
其中,Λ(Ω)為容許控制域,V*(x)為最優(yōu)成本函數(shù).假設(shè)方程(5)左端存在唯一極小值,即:
結(jié)合(4)~(6)式得到最優(yōu)控制策略如下:
根 據(jù)(7)式,可 以 將HJB 方 程(5)寫(xiě) 為:
注控制目的旨在從HJB 方程(8)中解出?V*(x),從而設(shè)計(jì)一個(gè)控制策略u(píng)*使得閉環(huán)系統(tǒng)(1)漸近穩(wěn)定,同時(shí)將成本函數(shù)最小化.
結(jié)合(7)式和(9)式,設(shè)計(jì)最優(yōu)采樣控制器如下:
其中,xk=x(tk)為采樣系統(tǒng)狀態(tài).
根據(jù)采樣控制思想可以將系統(tǒng)(1)寫(xiě)為:
采樣控制序列通過(guò)ZOH 轉(zhuǎn)換為連續(xù)信號(hào)并作用在系統(tǒng)上,實(shí)現(xiàn)采樣控制.由于最優(yōu)控制u*可分為區(qū)間[t,t+T]上的最優(yōu)控制以及區(qū)間[t+T,∞]上的最優(yōu)控制,根據(jù)Bellman 最優(yōu)性原理,對(duì)x(t) ∈Ω 和x(t+T) ∈Ω 可 將最優(yōu) 成本函 數(shù)寫(xiě)為:
其中,t∈[tk,tk+1),V*(0) = 0.
假設(shè)1最優(yōu)控制u*是局部Lipschitz 連續(xù)的,即:
其中,lu為正的Lipschitz常數(shù).
定理1在假設(shè)1 下,若成立,則系統(tǒng)(11)在最優(yōu)采樣控制器(10)的作用下漸近穩(wěn)定.
證明選取Lyapunov函數(shù)L1:
當(dāng)t∈[tk,tk+1)時(shí),將(14)式沿著系統(tǒng)軌跡(11)式求導(dǎo)可得:
根據(jù)(4)式、(5)式和(7)式得:
將(16)式、(17)式代入(15)式并結(jié)合(13)式可得:
當(dāng)t=tk+1時(shí),對(duì)于連續(xù)的系統(tǒng)狀態(tài)x,有ΔL1=V*(x+)-V*(x) ≤0,因 此 當(dāng)Tmax時(shí),有(x) <0成立,此時(shí)閉環(huán)系統(tǒng)(11)是漸近穩(wěn)定的.其中,rmin(x,u(tk)) >0表示采樣控制過(guò)程中的最小效用函數(shù).
由于HJB 方程的非線性特性,導(dǎo)致其直接求解?V*(x)極其困難,因此本節(jié)應(yīng)用ADP 方法的評(píng)價(jià)NN 結(jié)構(gòu)逼近V*(x),進(jìn)而得到?V*(x).對(duì)于x∈Ω,構(gòu)造評(píng)價(jià)NN結(jié)構(gòu)如下:
其中,W∈Rq為評(píng)價(jià)NN 輸出層權(quán)值,隱含層權(quán)值均為1,在訓(xùn)練中不會(huì)改變;φ(x) ∈Rq為激活函數(shù),q為隱含層神經(jīng)元個(gè)數(shù).對(duì)(19)式求關(guān)于x的偏導(dǎo)可得:
根據(jù)(20)式將(7)式和(10)式寫(xiě)為:
根據(jù)(19)式可以將(12)式寫(xiě)為:
由于最優(yōu)成本函數(shù)被NN 近似代替,故(23)式有殘差:
為了得到評(píng)價(jià)NN 權(quán)值自適應(yīng)更新律,利用最小二乘法最小化目標(biāo)函數(shù):
即,利用Lebesgue 積分的內(nèi)積形式將其寫(xiě)為:
根據(jù)(23)式、(24)式可將(26)式寫(xiě)為:
由(27)式可以得到評(píng)價(jià)NN自適應(yīng)更新律:
其中:
根據(jù)文獻(xiàn)[13]知θ是可逆的.
假設(shè)2設(shè)函數(shù)g(x)和激活函數(shù)的梯度?φ(x)均有界,即其中bg、bφ均為正常數(shù),x∈Ω為系統(tǒng)狀態(tài).
假設(shè)3設(shè)函數(shù)g(x)和激活函數(shù)的梯度?φ(x)均是局部Lipschitz連續(xù)的,即:
其中l(wèi)g、lφ均為正的Lipschitz常數(shù),x∈Ω為連續(xù)系統(tǒng)狀態(tài),xk∈Ω 為采樣系統(tǒng)狀態(tài),εk=x-xk為采樣狀態(tài)誤差.
定理2在假設(shè)2、假設(shè)3下,評(píng)價(jià)NN 權(quán)值自適應(yīng)更新律為(28)式,若采樣狀態(tài)誤差εk滿(mǎn)足:
則系統(tǒng)(11)與最優(yōu)采樣控制器(22)形成的閉環(huán)為UUB.
證明選取Lyapunov函數(shù)L:
其中,L1=V*(x),L2=V*(xk).
情形1:當(dāng)t∈[tk,tk+1)時(shí),= 0,在最優(yōu)采樣控制u*(tk)的作用下,對(duì)L1沿系統(tǒng)軌跡求關(guān)于t的導(dǎo)數(shù):
結(jié)合(16)式、(17)式,將(33)式寫(xiě)為:
根據(jù)(21)式、(22)式有:
情形2:當(dāng)t=tk+1時(shí),由(32)式可得:
由于系統(tǒng)狀態(tài)x是連續(xù)的,于是有:
結(jié)合(38)~(40)式,可知Lyapunov 函數(shù)(32)是遞減的,其中κ(·)為κ類(lèi)函數(shù).
綜合以上兩種情形,定理得證.
考慮如下非線性系統(tǒng):
實(shí)驗(yàn)中取lu= 1,lg=lφ= 2,bg= 1,bφ= 3,則可驗(yàn)證假設(shè)1~假設(shè)3成立.從圖1可以看出,系統(tǒng)狀態(tài)x在最優(yōu)采樣控制器的作用下收斂到0.成本函數(shù)和最優(yōu)采樣控制輸入的變化過(guò)程分別在圖2 和圖3 中展示.在圖4中,評(píng)價(jià)NN權(quán)值最終收斂到穩(wěn)定值,即W=[5 0 10]T.圖5 表明:所提的方法優(yōu)于傳統(tǒng)方法(如連續(xù)控制),傳統(tǒng)方法的控制器需要實(shí)時(shí)更新,而所提出的采樣控制方法減少了控制器的更新頻率,因而在實(shí)際應(yīng)用中更節(jié)約通信資源.
圖1 系統(tǒng)狀態(tài)的收斂過(guò)程Fig.1 The convergence process of the system state
圖2 成本函數(shù)的變化過(guò)程Fig.2 Change process of cost function
圖3 最優(yōu)采樣控制輸入的變化過(guò)程Fig.3 Change process of optimal sampling control input
圖4 評(píng)價(jià)NN權(quán)值的變化過(guò)程Fig.4 Change process of critic NN weights
圖5 采樣次數(shù)對(duì)比Fig.5 Comparison of sampling times
本文運(yùn)用ADP 方法研究了非線性系統(tǒng)的最優(yōu)采樣控制.通過(guò)仿真發(fā)現(xiàn):所提方法有效降低了控制器的執(zhí)行次數(shù),同時(shí)保證了系統(tǒng)的穩(wěn)定性.首先,在原有的控制器上結(jié)合ZOH 設(shè)計(jì)采樣控制器;其次,在自適應(yīng)控制過(guò)程中利用評(píng)價(jià)NN 逼近未知的最優(yōu)成本函數(shù),并運(yùn)用最小二乘法訓(xùn)練評(píng)價(jià)NN 權(quán)值;最后,通過(guò)一個(gè)非線性系統(tǒng)仿真驗(yàn)證了所提方法的正確性和有效性.在接下來(lái)的研究中,有望將基于ADP 的采樣控制方法擴(kuò)展到未知?jiǎng)恿W(xué)的非線性系統(tǒng)中.