王 鼎 趙明明 哈明鳴 喬俊飛
復(fù)雜非線性系統(tǒng)的控制與優(yōu)化廣泛存在于工業(yè)和生活領(lǐng)域[1?2].針對一般的非線性系統(tǒng),通常采用Hamilton-Jacobi-Bellman (HJB)方程的框架來解決其最優(yōu)控制問題[3].由于這類偏微分方程的解析解難以獲取,于是人們提出許多方法求得HJB方程的近似解.其中,自適應(yīng)動態(tài)規(guī)劃(Adaptive dynamic programming,ADP)整合了動態(tài)規(guī)劃理論、函數(shù)近似工具和強(qiáng)化學(xué)習(xí)機(jī)制,能夠獲得令人滿意的近似最優(yōu)控制策略[4?5].至今,ADP 在解決復(fù)雜非線性系統(tǒng)的最優(yōu)控制問題上已有大量的成果,例如跟蹤控制[6?8],魯棒控制[9?11]和事件觸發(fā)控制[12?14]等.根據(jù)基本的迭代形式,ADP 算法通常分為值迭代[15]和策略迭代[16].針對一般離散非線性系統(tǒng),文獻(xiàn)[15]詳盡地闡明了具有零初始代價(jià)函數(shù)的值迭代算法收斂性,而文獻(xiàn)[16]討論了策略迭代算法的收斂性.值得一提的是,策略迭代算法需要一個初始可容許控制律并且迭代過程中的控制律都能使得系統(tǒng)穩(wěn)定,而值迭代過程中的迭代控制律可能是無效的,即不能保證系統(tǒng)的穩(wěn)定性.然而,復(fù)雜非線性系統(tǒng)的初始可容許控制律通常難以獲取且策略迭代過程中的計(jì)算量較大.因此,我們更關(guān)注如何改進(jìn)值迭代過程中迭代控制律的實(shí)用性.傳統(tǒng)值迭代算法要求零初始條件并且迭代指標(biāo)增大到無窮才能保證控制律是可容許的.但是在實(shí)際應(yīng)用中,算法必須在有限迭代步驟內(nèi)找到一個有效的控制律[17].因此,提出合適的停止準(zhǔn)則對于算法的實(shí)現(xiàn)是至關(guān)重要的.為了保證迭代控制律的可用性以及克服傳統(tǒng)值迭代算法的不足,廣義值迭代算法應(yīng)運(yùn)而生[18?20].廣義值迭代算法允許任意一個半正定函數(shù)作為初始代價(jià)函數(shù),這使得迭代代價(jià)函數(shù)的單調(diào)性不唯一.針對非線性系統(tǒng)的最優(yōu)控制,文獻(xiàn)[17]討論了無折扣廣義值迭代框架下迭代控制律的可容許性并提出了一個新的迭代停止準(zhǔn)則.無折扣情況下單調(diào)遞減的代價(jià)函數(shù)序列能夠保證所有的控制律都是可容許的.然而有折扣情況下單調(diào)遞減的代價(jià)函數(shù)序列無法保證迭代控制律的穩(wěn)定性.基于廣義值迭代算法,文獻(xiàn)[20]進(jìn)一步指明了折扣因子與系統(tǒng)穩(wěn)定性的關(guān)系.然而,在帶有折扣因子的廣義值迭代算法中,迭代控制律的可容許性以及折扣因子和初始代價(jià)函數(shù)的關(guān)系還沒有研究.在本文中,我們旨在進(jìn)一步研究折扣廣義值迭代中迭代控制律的可容許性,并將廣義值迭代算法推廣到解決非線性系統(tǒng)的最優(yōu)跟蹤問題中.
非線性系統(tǒng)的跟蹤問題一直是工程領(lǐng)域的熱點(diǎn)之一.傳統(tǒng)控制方法存在參數(shù)固定和自適應(yīng)能力差的局限,使其難以應(yīng)對復(fù)雜的外界干擾.ADP 方法具有顯著的自適應(yīng)能力,已廣泛應(yīng)用于求解復(fù)雜未知非線性系統(tǒng)的跟蹤問題.為了實(shí)現(xiàn)有效的跟蹤,最優(yōu)跟蹤控制問題通常被轉(zhuǎn)換為關(guān)于誤差系統(tǒng)的最優(yōu)調(diào)節(jié)問題.文獻(xiàn)[6]使用貪婪迭代啟發(fā)式動態(tài)規(guī)劃(Heuristic dynamic programming,HDP)算法解決了無限時(shí)域的最優(yōu)跟蹤控制問題.文獻(xiàn)[7]則提出了一種有限時(shí)域的神經(jīng)最優(yōu)跟蹤控制策略.基于執(zhí)行-評判結(jié)構(gòu),文獻(xiàn)[8]提出了一種部分模型未知的自適應(yīng)最優(yōu)控制方法,有效地解決了離散系統(tǒng)的跟蹤問題.文獻(xiàn)[21]通過對誤差系統(tǒng)建模從而解決了帶有控制約束的非線性系統(tǒng)跟蹤問題.然而,這些研究更傾向于仿射系統(tǒng)或者對誤差系統(tǒng)進(jìn)行建模.仿射系統(tǒng)的穩(wěn)定控制可以根據(jù)其表達(dá)式求解,這有利于實(shí)現(xiàn)跟蹤控制.然而,由于存在復(fù)雜的數(shù)學(xué)模型或者模型信息未知,非仿射形式的穩(wěn)定控制往往難以求解.為了解決非仿射系統(tǒng)的跟蹤控制問題,文獻(xiàn)[22]使用了一種新的數(shù)值方法來求解穩(wěn)定控制并避免了對誤差系統(tǒng)建模.利用數(shù)據(jù)驅(qū)動思想,文獻(xiàn)[23]使用HDP 技術(shù)實(shí)現(xiàn)了對污水處理過程中溶解氧和硝態(tài)氮濃度的跟蹤控制.文獻(xiàn)[24?25]運(yùn)用二次啟發(fā)式動態(tài)規(guī)劃算法克服了對稱和不對稱約束情況下的復(fù)雜系統(tǒng)跟蹤控制問題.總之,基于ADP的非線性系統(tǒng)最優(yōu)跟蹤控制研究已經(jīng)取得了很大的進(jìn)展.然而,上述工作都是基于傳統(tǒng)的值迭代算法,并沒有討論迭代過程中誤差系統(tǒng)的穩(wěn)定性和跟蹤控制律的可容許性.
基于此,本文提出一種基于折扣廣義值迭代算法的離散時(shí)間未知非線性系統(tǒng)近似最優(yōu)跟蹤控制方法.值得注意的是,該算法的初始代價(jià)函數(shù)不為零并且需要滿足一定條件使得代價(jià)函數(shù)序列單調(diào)遞減.在不同折扣因子的作用下,我們討論了迭代跟蹤控制律的可容許性和誤差系統(tǒng)的穩(wěn)定性.通過收集系統(tǒng)的輸入輸出樣本數(shù)據(jù)來構(gòu)造模型網(wǎng)絡(luò)以評估下一時(shí)刻狀態(tài)和求解穩(wěn)定控制.評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)分別用于近似代價(jià)函數(shù)和跟蹤控制律.此外,我們建立了一個新的停止準(zhǔn)則作為迭代過程停止的依據(jù).最后,通過兩個仿真實(shí)例驗(yàn)證了本文提出算法的控制性能.
在本文中,R 表示所有實(shí)數(shù)集.Rn表示由全部n維實(shí)向量組成的歐氏空間.令 ? 為 Rn上的一個緊集.Rn×m表示n×m實(shí)矩陣組成的空間.In為n×n維單位矩陣.N={0,1,2,···}為所有非負(fù)整數(shù)的集合.N+={1,2,···}為所有正整數(shù)的集合.
考慮一類具有非仿射形式的動態(tài)系統(tǒng)
其中,x(k)∈Rn是狀態(tài)向量,u(k)∈Rm是控制向量.系統(tǒng)函數(shù)F(·) 相對于其參數(shù)在緊集 ? 上是可微的.假設(shè)系統(tǒng)(1)是可控的,且其狀態(tài)和控制量可觀測.考慮跟蹤問題,我們的目標(biāo)是設(shè)計(jì)一個反饋控制策略u(x(k)) 使得原始系統(tǒng)(1)跟蹤上參考軌跡.這里,定義有界參考軌跡為
其中,r(k)∈Rn是k時(shí)刻的參考軌跡,R(·):Rn →Rn是一個可微的函數(shù).不失一般性,我們假設(shè)存在一個相對于參考軌跡的穩(wěn)定控制u(r(k)) 滿足方程r(k+1)=F(r(k),u(r(k)))并且可以求解.對于仿射系統(tǒng),其穩(wěn)定控制可以通過狀態(tài)矩陣和控制矩陣的構(gòu)造形式來求解.然而,對于非仿射系統(tǒng),上述穩(wěn)定控制的求解方法已不適用.因此,本文將在后續(xù)部分給出非仿射系統(tǒng)穩(wěn)定控制的求解方法.為了構(gòu)造誤差系統(tǒng),分別定義跟蹤誤差和跟蹤控制律為
和
基于式(1)~ (4),可以得到如下所示的誤差系統(tǒng)動態(tài)
最優(yōu)跟蹤控制的思想是通過調(diào)節(jié)跟蹤誤差系統(tǒng)(5)使得誤差衰減到零向量,即e(k)→0.假設(shè)誤差系統(tǒng)是可控的,那意味著存在至少一個連續(xù)的跟蹤控制律u(e(k))使得誤差系統(tǒng)漸近穩(wěn)定.受文獻(xiàn)[6?7,22]啟發(fā),針對含有折扣因子的誤差系統(tǒng)最優(yōu)調(diào)節(jié)問題,我們定義如下所示的代價(jià)函數(shù)
其中,γ ∈(0,1] 是折扣因子,U(e(l),u(e(l)))≥0是效用函數(shù),U(0,0)=0 .在本文中,效用函數(shù)選為二次型形式,即U(e(l),u(e(l)))=eT(l)Qe(l)+uT(e(l))Ru(e(l)),其中Q和R是正定矩陣.簡潔起見,效用函數(shù)中的二次型重寫為Q(e(l))+R(u(e(l))) .待設(shè)計(jì)的跟蹤控制律不僅需要在 ? 上使得誤差系統(tǒng)穩(wěn)定,并且需要使得式(6)中的代價(jià)函數(shù)有界,即u(e(k))是可容許的跟蹤控制律[15,26].對于誤差系統(tǒng)(5),假設(shè)存在至少一個可容許的跟蹤控制律.接下來,式(6)中的代價(jià)函數(shù)可以進(jìn)一步寫為
最優(yōu)跟蹤控制問題的核心是找到一個最優(yōu)跟蹤控制策略使得代價(jià)函數(shù)(7)最小,這種最小的代價(jià)函數(shù)也稱為最優(yōu)代價(jià)函數(shù).根據(jù)Bellman 最優(yōu)性原理,最優(yōu)代價(jià)函數(shù)滿足如下所示的HJB 方程
因此,相應(yīng)的最優(yōu)跟蹤控制策略為
對于本文中的一般非線性系統(tǒng),由于最優(yōu)代價(jià)函數(shù)和最優(yōu)跟蹤控制策略不能夠精確地求解,我們使用廣義值迭代算法來獲取其近似解.
在本節(jié)中,我們給出帶有折扣因子的廣義值迭代算法并討論折扣廣義值迭代算法的性質(zhì).
基于值迭代思想,我們構(gòu)建兩個迭代序列,即代價(jià)函數(shù)序列{Vi(e(k))}和跟蹤控制律序列{νi(e(k))},其中i ∈N 為迭代指標(biāo).不同于傳統(tǒng)的值迭代算法,廣義值迭代算法允許采用任意一個半正定函數(shù)進(jìn)行初始化.在此,令初始代價(jià)函數(shù)為V0(e(k))=eT(k)Λe(k),其中,Λ 是一個半正定的矩陣.對于i=0,1,···,算法的學(xué)習(xí)過程包括以迭代方式計(jì)算跟蹤控制律
和代價(jià)函數(shù)
為了最小化迭代過程中的代價(jià)函數(shù),迭代跟蹤控制律的形式為
值得一提的是,本文沒有對誤差動態(tài)系統(tǒng)(5)進(jìn)行建模.對誤差系統(tǒng)進(jìn)行建模會增大計(jì)算量并且引入新的逼近誤差.因此,為了克服求解的困難,我們基于文獻(xiàn)[22]引入如下的一個轉(zhuǎn)換公式?e(k+1)?u(e(k))
進(jìn)而,式(12)中e(k+1) 相對于u(e(k)) 的偏導(dǎo)數(shù)轉(zhuǎn)換為,后者的獲取通過對原系統(tǒng)建立的模型網(wǎng)絡(luò)來實(shí)現(xiàn),這樣既減少了計(jì)算量,又能避免誤差系統(tǒng)建模過程中逼近誤差對控制器設(shè)計(jì)產(chǎn)生的不利影響.
接下來,我們重點(diǎn)關(guān)注折扣廣義值迭代算法的性質(zhì),包括單調(diào)性、有界性、收斂性和最優(yōu)性.
引理 1 (單調(diào)性).定義跟蹤控制律序列{νi}和代價(jià)函數(shù)序列{Vi}如式(10)和式(11)所示,V0(e(k))=eT(k)Λe(k).對于所有的e(k)∈?,如果V0(e(k))≤V1(e(k)),則Vi(e(k))≤Vi+1(e(k)),?i ≥0 ;另一方面,如果V0(e(k))≥V1(e(k)),則Vi(e(k))≥Vi+1(e(k)),?i ≥0.
引理 2 (有界性).令π(e(k)) 是一個任意的控制策略且π(0)=0 .我們定義一個新的迭代代價(jià)函數(shù)為
如果π(e(k)) 是可容許控制律,則limi→∞Zi(e(k))有界.
引理1 和引理2 的證明可通過與文獻(xiàn)[17]類似的方法給出,只需注意折扣因子的存在.引理1中的單調(diào)性是至關(guān)重要的,這也是廣義值迭代算法和傳統(tǒng)值迭代算法的最大區(qū)別.傳統(tǒng)值迭代算法中的{Vi}是一個單調(diào)非減序列,而廣義值迭代算法中代價(jià)函數(shù)序列的單調(diào)性不唯一.事實(shí)上,單調(diào)遞減的代價(jià)函數(shù)序列有利于判斷系統(tǒng)的穩(wěn)定性和控制律的可容許性.無折扣廣義值迭代算法的收斂性已在文獻(xiàn)[17?18]中給出.接下來,我們將闡明具有折扣因子的廣義值迭代算法的收斂性.
定理 1 (收斂性).假設(shè)條件 0≤γJ?(e(k+1))≤δU(e(k),u(e(k))) (0<δ <∞)一致成立且初始代價(jià)函數(shù)滿足其中如果跟蹤控制律序列{νi}和代價(jià)函數(shù)序列{Vi}按照式(10)和式(11)進(jìn)行迭代更新,且V0(e(k))=eT(k)Λe(k),則代價(jià)函數(shù)序列通過以下的不等式一致收斂到最優(yōu)代價(jià)函數(shù)
證明.首先,用公式推導(dǎo)來證明不等式的左邊部分.當(dāng)i=0 時(shí),成立.當(dāng)i=1 時(shí),可以得到
假設(shè)不等式(15) 的左邊部分對于i ?1 成立.對于i,可以進(jìn)一步得到
不等式(15)右邊的證明過程與之類似,這里不再詳細(xì)展開.接下來,我們將證明隨著迭代指標(biāo)增加到無窮時(shí)代價(jià)函數(shù)的一致收斂性.當(dāng)i →∞時(shí),對于 0<δ <∞,可以推導(dǎo)出
定義V∞(e(k))=limi→∞Vi(e(k)),進(jìn)一步可以得到V∞(e(k))=J?(e(k)) .因?yàn)?? 是緊集,因此可以得到代價(jià)函數(shù)序列一致收斂[18].□
實(shí)際中值迭代算法的迭代指標(biāo)不可能增大到無窮,算法必須在有限的迭代步驟內(nèi)停止.通常值迭代過程的停止準(zhǔn)則為|Vi+1(e(k))?Vi(e(k))|,其中?是一個小的正數(shù),此時(shí)相應(yīng)的跟蹤控制律νi(e(k))可作用于受控系統(tǒng).然而,滿足條件|Vi+1(e(k))?Vi(e(k))|
定理 2.定義迭代跟蹤控制律νi(e(k)) 和迭代代價(jià)函數(shù)Vi(e(k)) 如式(10)和式(11)所示,V0(e(k))=eT(k)Λe(k).對于任意的e(k)0,如果跟蹤控制律νi(e(k))使得下式成立
則迭代指標(biāo)為i時(shí)的跟蹤控制律是可容許的.
證明.根據(jù)式(20),一定存在一個常數(shù)?∞<1滿足
將式(11)代入式(21),可得
不等式(22)的右半部分是一個負(fù)數(shù),于是可得Vi(e(k+1))?Vi(e(k))<0,這意味著νi(e(k)) 是一個穩(wěn)定控制律.此外,通過擴(kuò)展不等式(22)可以得到
因?yàn)棣蚷(e(k)) 是一個穩(wěn)定控制律,當(dāng)N →∞,可以得到 limN→∞Vi(e(k+N))=0.于是,式(23)可將進(jìn)一步歸納為
對于 ?∞<1 和有界的e(k) 而言,Vi(e(k))是有界的.由此可以得到是有界的.由于折扣因子的取值范圍為γ ∈(0,1],進(jìn)一步地,可以得到是有界的,這滿足了可容許性的條件.□
定理2 中給出了迭代跟蹤控制律的可容許性判別條件.需要注意的是,可容許的νi(e(k)) 并不能保證跟蹤控制律νi+η(e(k))也是可容許的,η ∈N+.此外,νi(e(k)) 也不一定是近似最優(yōu)控制律.我們希望如果當(dāng)前迭代步的跟蹤控制律νi(e(k)) 為可容許控制律,則該迭代步之后的所有跟蹤控制律νi+η(e(k))都是可容許的.
在無折扣廣義值迭代算法框架下,當(dāng)V0(e(k))>V1(e(k))時(shí),迭代代價(jià)函數(shù)將以單調(diào)遞減的形式收斂,即
根據(jù)式(25),可以得到
這表明每一個迭代步的跟蹤控制律都能夠鎮(zhèn)定被控系統(tǒng).這不僅克服了傳統(tǒng)值迭代中控制律無法確保系統(tǒng)穩(wěn)定的困難,也避免了在策略迭代中求取初始可容許控制律.值得一提的是,代價(jià)函數(shù)單調(diào)遞減的條件V0(e(k))>V1(e(k)) 是容易實(shí)現(xiàn)的,例如增大初始代價(jià)函數(shù)中矩陣 Λ 的元素值.然而,式(25)中引入折扣因子后,Vi+1(e(k))
定理 3.定義迭代跟蹤控制律νi(e(k)) 和迭代代價(jià)函數(shù)Vi(e(k)) 如式(10)和式(11)所示,V0(e(k))=eT(k)Λe(k).對于任意的e(k)0,如果折扣因子γ滿足
則νi(e(k)),i ∈N,是可容許的跟蹤控制律.
證明.當(dāng)V0(e(k))>V1(e(k)) 時(shí),可以得到
根據(jù)式(28),可以得到
為了實(shí)現(xiàn)Vi(e(k+1))?Vi(e(k))<0,折扣因子需要滿足以下不等式
即當(dāng)式(30)成立時(shí),νi(e(k)) 是一個穩(wěn)定的跟蹤控制律.接下來,我們證明νi(e(k)) 是一個可容許的跟蹤控制律.當(dāng)Vi(e(k+1))?Vi(e(k))<0 時(shí),存在一個常數(shù) ?∞<1,使得
進(jìn)而可得
由于Vi(e(k)) 是有界的,結(jié)合式(32) 的左邊,進(jìn)一步可以得到有界,這意味著νi(e(k)) 是一個可容許的跟蹤控制律.由于U(e(k),νi(e(k))) 不具備單調(diào)特性,因此式(30)的成立只能表明νi(e(k)) 可以使得誤差系統(tǒng)穩(wěn)定,不能作為通用的判別準(zhǔn)則.考慮到Q(e(k))≤U(e(k),νi(e(k))),可以得到
即當(dāng)折扣因子大于式(33)右半部分時(shí),即可保證跟蹤控制律νi(e(k)) 的可容許性.式(33)右側(cè)的條件比左側(cè)更加嚴(yán)格,但其優(yōu)點(diǎn)顯著,能夠保證此后所有迭代控制律的可容許性.為了方便,定義Ψi(e(k))=1?Q(e(k))/Vi(e(k)).由于{Vi(e(k))}是一個單調(diào)遞減的序列,可以得到{Ψi(e(k))}也是一個單調(diào)遞減的序列.當(dāng)條件γ >Ψi(e(k))成立時(shí),我們可以得到γ >Ψi+η(e(k)),η ∈N+,這意味著νi(e(k)) 及以后所有的迭代跟蹤控制律νi+j(e(k))) 都是可容許的.也就是說,條件γ>Ψi(e(k))既保證Vi+η(e(k+1))?Vi+η(e(k))<0,同時(shí)使得(e(k+j)))有界.根據(jù)代價(jià)函數(shù)的單調(diào)性,有
由此可以推出
因此,我們最終可以得到,當(dāng)γ >Ψ0(e(k))=1?Q(e(k))/V0(e(k))時(shí),每一個迭代步的跟蹤控制律都是可容許的.□
值得一提的是,在代價(jià)函數(shù)單調(diào)遞減的情況下,γ=1能夠滿足定理3 中的所有判別條件,具有顯著的優(yōu)勢.折扣因子不為 1 時(shí),迭代控制律的可容許性得不到保證.在下文中,為了驗(yàn)證一般折扣因子的作用,折扣因子不再取γ=1 .事實(shí)上,式(27)提出的可容許判別準(zhǔn)則相對比較嚴(yán)格,要求接近于1的折扣因子.于是,為了更易實(shí)現(xiàn)算法,我們使用γ >Ψi(e(k))作為實(shí)際的判別準(zhǔn)則.總而言之,本文提出的迭代算法的停止準(zhǔn)則為|Vi+1(e(k))?Vi(e(k))|Ψi(e(k)),其中第1 項(xiàng)用于保證跟蹤控制律的近似最優(yōu)性,而第2 項(xiàng)用于保證跟蹤控制律的可容許性.值得一提的是,本文提出的穩(wěn)定性條件是一個充分條件,折扣因子較大時(shí)容易滿足該條件從而使得控制律穩(wěn)定,而折扣因子較小時(shí)不能滿足該穩(wěn)定條件,其穩(wěn)定性無法確定.
由于系統(tǒng)(1)是非仿射的,穩(wěn)定控制和x(k+1)相對于u(x(k)) 的偏導(dǎo)數(shù)難以求解.在本文中,我們建立一個模型網(wǎng)絡(luò)來辨識系統(tǒng)以求解穩(wěn)定控制和上述偏導(dǎo)數(shù).此外,分別構(gòu)造評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)來近似代價(jià)函數(shù)和跟蹤控制律.接下來,我們給出基于折扣廣義值迭代算法的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方案.
構(gòu)造一個模型網(wǎng)絡(luò)以學(xué)習(xí)非線性系統(tǒng)動態(tài),從而避免對系統(tǒng)精確數(shù)學(xué)模型的要求.通過輸入狀態(tài)和控制律,模型網(wǎng)絡(luò)的輸出表達(dá)式為
其中,xm(k)=[xT(k),uT(x(k))]T,ωm2和ωm1是權(quán)值矩陣,bm2和bm1是閾值向量,Θm是激活函數(shù).不失一般性,定義模型網(wǎng)絡(luò)的訓(xùn)練性能指標(biāo)為
本文中,我們使用MATLAB 神經(jīng)網(wǎng)絡(luò)工具箱來訓(xùn)練模型網(wǎng)絡(luò).值得一提的是,模型網(wǎng)絡(luò)在算法的迭代過程開始前已經(jīng)完成訓(xùn)練.對于仿射系統(tǒng),穩(wěn)定控制的求解依賴于原始系統(tǒng)的狀態(tài)矩陣和控制矩陣.然而,本文的原始系統(tǒng)函數(shù)是非仿射的,這就導(dǎo)致穩(wěn)定控制的求解變得困難.因此,我們使用訓(xùn)練好的模型網(wǎng)絡(luò)表達(dá)式來求解穩(wěn)定控制,即
其中,由于式(37)中除了rm(k)=[rT(k),uT(r(k))]T.u(r(k))以外都是已知變量,我們可以通過數(shù)值方法來計(jì)算穩(wěn)定控制u(r(k)).
在這里,我們利用評判網(wǎng)絡(luò)來近似代價(jià)函數(shù)Vi(e(k)).對于輸入e(k),評判網(wǎng)絡(luò)的近似值為
其中,ωc2和ωc1是相應(yīng)的權(quán)值矩陣,Θc是激活函數(shù).結(jié)合式(11)和式(38),定義評判網(wǎng)絡(luò)的訓(xùn)練性能指標(biāo)為
通過權(quán)值矩陣ωa2和ωa1,我們使用執(zhí)行網(wǎng)絡(luò)來近似迭代跟蹤控制律
其中,Θa是執(zhí)行網(wǎng)絡(luò)的激活函數(shù).類似地,執(zhí)行網(wǎng)絡(luò)的訓(xùn)練性能指標(biāo)定義為
其中,νi(e(k)) 可根據(jù)下式獲得
采用梯度下降算法,評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)值矩陣更新規(guī)則為
其中,αc,αa∈(0,1) 分別為評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的學(xué)習(xí)率.
本節(jié)開展兩個仿真實(shí)驗(yàn)用于體現(xiàn)算法的控制性能,首先針對一個非仿射的倒立擺裝置,其次考慮污水處理應(yīng)用.
考慮一個具有雙曲切線輸入的倒立擺裝置[27],其離散時(shí)間狀態(tài)方程為
其中,x(k)=[x1(k),x2(k)]T是狀態(tài)變量,u(x(k)) 是控制律,x(0)=[?0.2,0.8]T.令代價(jià)函數(shù)如式(6)所示.根據(jù)自適應(yīng)評判領(lǐng)域常用的準(zhǔn)則,學(xué)習(xí)參數(shù)在表1 中給出.其選取原則是使得代價(jià)函數(shù)序列收斂.
表1 基于廣義值迭代算法的跟蹤控制參數(shù)值Table 1 Parameter values of tracking control based on generalized value iterative algorithm
在開展迭代算法之前,需要提前對三層結(jié)構(gòu)的模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練.選取 1000 組樣本數(shù)據(jù)并設(shè)定學(xué)習(xí)率αm=0.02,我們使用MATLAB 神經(jīng)網(wǎng)絡(luò)工具箱來訓(xùn)練模型網(wǎng)絡(luò),其中訓(xùn)練誤差為 10?8,訓(xùn)練步數(shù)為500.當(dāng)訓(xùn)練結(jié)束后,模型網(wǎng)絡(luò)的權(quán)值保持不變.根據(jù)式(36)所示的性能指標(biāo),模型網(wǎng)絡(luò)的訓(xùn)練效果如圖1 所示.
圖1 模型網(wǎng)絡(luò)的訓(xùn)練誤差Fig.1 The training errors of the model network
接下來,給出需要跟蹤的參考軌跡方程為
其中,r(k)=[r1(k),r2(k)]T,r(0)=[?0.1,0.2]T.根據(jù)式(37),我們使用 MATLAB 中的“fsolve”來求解穩(wěn)定控制.為了執(zhí)行迭代算法,我們建立結(jié)構(gòu)同為2–8–1 的評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò).在神經(jīng)網(wǎng)絡(luò)的更新中,兩個網(wǎng)絡(luò)的初始權(quán)值范圍為 [?0.2,0.2],激活函數(shù)選為 tanh(·),學(xué)習(xí)率為αc=αa=0.05.基于選定的參數(shù),我們執(zhí)行具有折扣因子的廣義值迭代算法來獲得近似最優(yōu)的跟蹤控制律.值得一提的是,當(dāng)停止準(zhǔn)則中兩個條件滿足時(shí),即|Vi+1(e(k))?Vi(e(k))|Ψi,其中?=10?5,我們停止算法的迭代.在每一次迭代時(shí),我們訓(xùn)練評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)直到性能指標(biāo)小于 10?8或者達(dá)到最大訓(xùn)練步 500 .
執(zhí)行迭代算法后,迭代代價(jià)函數(shù)的收斂曲線如圖2 所示,折扣因子和 Ψi在圖3 中給出,評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)值矩陣范數(shù)收斂效果在圖4 中給出.當(dāng)i=13時(shí),條件γ >Ψi成立.即在13 次迭代之后的所有跟蹤控制律都為可容許控制律.而條件|Vi+1(e(k))?Vi(e(k))|
圖2 代價(jià)函數(shù)收斂過程Fig.2 The convergence process of the cost function
圖3 折扣因子和 Ψi 曲線Fig.3 The curves of the discount factor and Ψi
圖4 權(quán)值矩陣范數(shù)收斂過程Fig.4 The convergence process of the norm of weight matrices
圖5 系統(tǒng)狀態(tài)和控制律軌跡Fig.5 Trajectories of the state and the control law
圖6 跟蹤誤差和跟蹤控制律軌跡Fig.6 Trajectories of the error and the tracking control law
污水處理是實(shí)現(xiàn)水資源循環(huán)利用的一個重要途徑.大多數(shù)污水處理廠采用活性污泥工藝來處理污水,其中脫氮除磷是主要的實(shí)現(xiàn)目標(biāo).以污水處理國際標(biāo)準(zhǔn)模型(Benchmark simulation model No.1,BSM1)為平臺,我們將提出的值迭代跟蹤算法應(yīng)用于污水處理中溶解氧濃度和硝態(tài)氮濃度的控制設(shè)計(jì).在污水處理反應(yīng)過程中,通常要求溶解氧濃度 (SO,5) 和硝態(tài)氮濃度(SNO,2)維持在合理的水平,即 2 mg/l 和 1 mg/l[28?29].此外,氧傳遞系數(shù)KLa,5和內(nèi)回流量Qa是對應(yīng)的控制變量.在這里,定義系統(tǒng)狀態(tài)為x(k)=[SO,5,SNO,2]T,參考軌跡為r(k)=[2,1]T,控制輸入為u(x(k))=[KLa,5,Qa]T.圖7 給出了污水處理過程的簡單結(jié)構(gòu)圖.污水處理過程具有的非線性和不確定性使其難以建立精確的數(shù)學(xué)模型.因此,我們使用一個結(jié)構(gòu)為4–12–2 的模型網(wǎng)絡(luò)來學(xué)習(xí)系統(tǒng)的復(fù)雜動態(tài).利用晴天情況下的26 880 組輸入輸出數(shù)據(jù)來訓(xùn)練模型網(wǎng)絡(luò),其中學(xué)習(xí)率為0.02,訓(xùn)練步為800,訓(xùn)練精度為 10?4.訓(xùn)練結(jié)束后,模型網(wǎng)絡(luò)權(quán)值不再變化且訓(xùn)練誤差如圖8 所示.然后,我們使用MATLAB 中的“fsolve”函數(shù)來求解穩(wěn)定控制.由于跟蹤的參考軌跡r=[2,1]T是常數(shù),于是得到的穩(wěn)定控制也為常數(shù),即u(r(k))=[206,29 166]T.
圖7 污水處理過程示意圖Fig.7 The simple structure of the wastewater treatment process
圖8 模型網(wǎng)絡(luò)的訓(xùn)練誤差Fig.8 The training errors of the model network
接下來,我們實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的折扣廣義值迭代算法.效用函數(shù)中的正定矩陣和初始代價(jià)函數(shù)中的矩陣以及其他學(xué)習(xí)參數(shù)在表1 中給出.從實(shí)際平臺中,我們可以觀測到溶解氧濃度和硝態(tài)氮濃度的初始值x(0)=[0.5,3.7]T.我們構(gòu)造結(jié)構(gòu)為2–20–1 的評判網(wǎng)絡(luò)和2–20–2 的執(zhí)行網(wǎng)絡(luò)來近似代價(jià)函數(shù)和跟蹤控制律.在每個迭代步內(nèi),設(shè)置學(xué)習(xí)率αc=αa=0.05,我們使用1 000 個訓(xùn)練步來訓(xùn)練評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)直到誤差小于 10?8.在771 次迭代后,代價(jià)函數(shù),Ψi和權(quán)值矩陣范數(shù)收斂結(jié)果分別展示在圖9~ 11 中.可以看出,代價(jià)函數(shù)是單調(diào)遞減的且在第124 次迭代時(shí)跟蹤控制律的可容許條件得到滿足.
圖9 代價(jià)函數(shù)收斂過程Fig.9 The convergence process of the cost function
對于給定的零初始值x(0),我們將得到的近似最優(yōu)跟蹤控制律作用于受控系統(tǒng).在運(yùn)行600 個時(shí)間步后,系統(tǒng)的狀態(tài)響應(yīng)曲線和控制律曲線如圖12所示,而跟蹤誤差和跟蹤控制律的曲線在圖13 中給出.可以清楚地看到,溶解氧濃度和硝態(tài)氮濃度維持在理想值.這驗(yàn)證了所提折扣廣義值迭代算法的有效性以及停止準(zhǔn)則的可用性.
圖10 折扣因子和 Ψi 曲線Fig.10 The curves of the discount factor and Ψi
圖11 權(quán)值矩陣范數(shù)收斂過程Fig.11 The convergence process of the norm of weight matrices
圖12 系統(tǒng)狀態(tài)和控制律軌跡Fig.12 Trajectories of the state and the control law
圖13 跟蹤誤差和跟蹤控制律軌跡Fig.13 Trajectories of the error and the tracking control law
為了驗(yàn)證算法的自適應(yīng)能力,我們對系統(tǒng)控制階段的前200 個時(shí)間步施加一個大的干擾量.具體為在氧傳遞系數(shù)中增加一個取值為 [?25,25] 的擾動分量,同時(shí)在內(nèi)回流量中增加一個取值為[?150,150]的擾動分量.這時(shí)系統(tǒng)狀態(tài)和控制輸入的變化曲線如圖14 所示.在干擾的作用下,系統(tǒng)仍能跟蹤上期望的設(shè)定值,這反映了本文設(shè)計(jì)的算法具有自適應(yīng)性和魯棒性.
圖14 帶有干擾的系統(tǒng)狀態(tài)和控制律軌跡Fig.14 Trajectories of the state and the control law with the disturbance input
針對非仿射系統(tǒng)的跟蹤設(shè)計(jì)問題,我們提出了一種基于折扣廣義值迭代的自適應(yīng)控制方法.首先,利用系統(tǒng)的輸入輸出數(shù)據(jù),建立模型網(wǎng)絡(luò)來獲得穩(wěn)定控制和提供下一時(shí)刻狀態(tài)相對于控制律的偏導(dǎo)數(shù),這個過程不要求精確的數(shù)學(xué)模型或系統(tǒng)動態(tài)矩陣.然后,基于折扣廣義值迭代的性質(zhì),通過使迭代中的代價(jià)函數(shù)單調(diào)遞減從而給出迭代跟蹤控制律的可容許性判別準(zhǔn)則.在兩個停止條件的作用下,本文獲得的跟蹤控制律具有可容許性和近似最優(yōu)性.最后,通過兩個仿真實(shí)例驗(yàn)證了所提軌跡跟蹤策略的有效性.目前的研究是基于離線迭代開展的,未來我們將致力于擴(kuò)展該方法到在線控制領(lǐng)域以及實(shí)際場景應(yīng)用.