代曉清, 趙 旭
(1.成都師范學院計算機科學學院,成都 611000; 2.南京信息工程大學計算機與軟件學院,南京 210000)
為了結合最優(yōu)控制與自適應控制的優(yōu)點,可以借鑒機器學習中強化學習的思想。強化學習[1-3]需要自適應地處理動態(tài)變化的環(huán)境,最優(yōu)控制理論中的近似動態(tài)規(guī)劃[4-5]被證明是一個有效的、以自適應方式解決強化學習問題的方法。
基于近似動態(tài)規(guī)劃的Q學習算法是根據馬爾可夫決策過程而設計的一種強化學習方法[5],可被視為一種收斂的最優(yōu)直接自適應控制算法。Q學習算法的最大優(yōu)點是不需要環(huán)境模型,且對于任何有限馬爾可夫決策過程,最終都能找到一個最優(yōu)策略。
現有文獻關于Q學習算法的研究大多基于有限時域的離散系統(tǒng)[5-7]。文獻[5]對強化學習理論及Q學習算法進行了詳細的介紹,并將其應用于有限時域的離散控制系統(tǒng);文獻[6]將強化學習應用于離散的無人機航路自主規(guī)劃問題,對強化學習理論在多智能體路徑規(guī)劃中的應用進行了有益的探索;文獻[7]將Q學習算法與網絡邊緣云策略相結合,并將其應用于高速移動的智能網聯交通系統(tǒng)的研究,實現了在線決策的優(yōu)化,但系統(tǒng)本質上仍為離散系統(tǒng)。
隨著2015年DeepMind團隊將強化學習理論引入連續(xù)動態(tài)系統(tǒng)的研究[1-2],許多學者對此問題的應用與拓展進行了大量研究[3,8-10]。文獻[8-9]針對連續(xù)時間的博弈模型,分別研究了非線性系統(tǒng)的零和博弈及基于博弈理論的交通信號控制;文獻[3]針對部分信息已知的連續(xù)系統(tǒng),基于積分強化學習理論研究了線性二次型跟蹤問題。本文在文獻[1-2]的基礎上,將連續(xù)控制系統(tǒng)Q學習算法拓展到無限時域的最優(yōu)控制問題中,通過參數化的方法將連續(xù)時間無限時域最優(yōu)控制問題轉化為Q學習問題,基于李雅普諾夫穩(wěn)定性分析嚴格證明了閉環(huán)系統(tǒng)的狀態(tài)是有界的,且收斂于最優(yōu)解。此外,在系統(tǒng)動態(tài)完全未知的情況下,采用積分強化學習方法設計一個Actor/Critic逼近器結構以實現無限時域無模型的在線Q學習算法,相較于文獻[3]中的假設,放寬了約束條件。
考慮如下的線性時不變連續(xù)系統(tǒng)
(1)
式中:x(t)∈Rn,為可測的狀態(tài)變量;u(t)∈Rm,為控制輸入;A∈Rn×n,B∈Rn×m,分別為系統(tǒng)矩陣和輸入矩陣,在此模型中假設其具有不確定性或為未知的,同時假定是(A,B)可控的。
假設模型的時域是無限的,控制的目標是設計控制器使得以下代價函數最小[11]
(2)
因此,控制目標可以描述為尋找最優(yōu)的控制輸入u*,使得代價函數滿足條件J(x(0),u*)≤J(x(0),u),即,如式(1)所示的系統(tǒng),對于任意的輸入u應滿足最小值條件
(3)
此時,最優(yōu)的值函數V*可以定義為
(4)
且不依賴于系統(tǒng)動態(tài)方程的信息。
根據式(1)系統(tǒng)與式(4)價值函數,可定義哈密頓函數為
(5)
令哈密頓函數關于控制輸入的一階偏導數為0,可求得最優(yōu)控制律為
(6)
由于此系統(tǒng)模型式(1)為線性的,可將最優(yōu)價值函數表示為關于狀態(tài)量的二次型的形式,即
(7)
式中,P∈Rn×n,為對稱正定矩陣,可通過求解如下的黎卡提方程得到
ATP+PA-PBR-1BTP+M=0
(8)
最優(yōu)控制律式(5)可以表示為
u*(x)=-R-1BTPx?x
(9)
根據最優(yōu)控制理論[12],求解式(8)、式(9)需要知道動態(tài)系統(tǒng)完整的信息,即系統(tǒng)矩陣A和輸入矩陣B。假設系統(tǒng)動態(tài)完全未知,下面基于無模型描述設計無限時域的在線Q學習算法。
根據最優(yōu)的值函數式(7)和哈密頓函數式(6),Q函數Q(x,u):Rn+m→R可以寫成如下形式
(10)
式(10)可以寫成關于狀態(tài)量和控制輸入的二次型的形式,即
(11)
證明 首先將式(9)代入式(10),進一步,因為P是黎卡提方程的解,結合式(8)即可得到Q*(x,u*)=V*(x)。
由于最優(yōu)Q函數關于輸入的偏導數為0,可以得到最優(yōu)控制輸入的無模型描述為
(12)
由于本文主要應用Q學習算法對無限時域的最優(yōu)控制問題進行設計,因此,對于時域無限時的偏向穩(wěn)定性及折扣期望等問題不進行討論,但并不因此影響所設計算法的有效性。下面基于本節(jié)的無模型描述進行算法設計。
在Actor/Critic算法中,Critic逼近器用于近似Q函數式(11),Actor逼近器用于近似最優(yōu)控制器式(12)。首先將式(11)寫成
(13)
(14)
(15)
根據積分強化學習[9]理論,值函數式(4)可以寫成貝爾曼方程
(16)
式中,T∈R+,為某一固定時間間隔。
引理1給出了最優(yōu)值函數與最優(yōu)Q函數的等價性,基于此可以得到方程
(17)
進一步定義誤差e∈R,通過設計合適的校正律使其最終趨于零。根據貝爾曼方程式(17),考慮實際Q函數的值,可以得到如下的誤差表達式
(18)
對于Actor逼近器,定義相應的誤差ea∈R,其表達式可以寫成
(19)
(20)
(21)
(22)
(23)
式中,αc∈R+,為常值增益,其值大小影響收斂速度。
(24)
式中,αa∈R+,為常值增益,其值大小影響收斂速度。
定義權重估計誤差
(25)
其動態(tài)方程可以寫成
(26)
式中,
(27)
定理1對于如式(1)所示的系統(tǒng),給定Critic逼近器與最優(yōu)控制律分別如式(14)與(15)所示,Critic權重與Actor權重校正律分別如式(22)與(24)所示。如果校正增益αc與αa相比足夠大,且滿足
(28)
證明 首先定義Lyapunov函數
(29)
式(29)對時間求一階導數
(30)
將式(26)代入式(30)可得
(31)
(32)
將黎卡提方程式(8)代入T1可得
(33)
對式(33)應用楊氏不等式可得
(34)
由式(22)、式(23),T2滿足如下性質
(35)
對于T3,借助于楊氏不等式可得
(36)
結合式(34)~(36)可以得到
(37)
結合條件式(28),定理1得證。
為了驗證所設計的學習算法的有效性,考慮如下常用的渦輪增壓發(fā)動機的6階線性系統(tǒng)模型[13]
(38)
系統(tǒng)的狀態(tài)曲線如圖1所示,Critic權重誤差與Actor權重誤差曲線分別如圖2與圖3所示。
圖1 系統(tǒng)狀態(tài)曲線Fig.1 State curves of the system
圖3 Actor權重誤差曲線 of Actor weight error
針對無限時域最優(yōu)控制問題設計了一種無模型的在線Q學習算法,主要結論如下:
1) 通過將Q函數寫成狀態(tài)和控制的參數化形式,連續(xù)線性系統(tǒng)的無限時域最優(yōu)控制可與無模型Q學習問題等價求解;
2) 采用積分強化學習方法設計了一個Actor/Critic逼近器結構,在保證閉環(huán)漸近穩(wěn)定性和最優(yōu)解收斂的同時,實現了在線估計Q函數的參數。