孫明軒 徐晨晨 鄒勝祥
(浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023)
積分自適應(yīng)方法適用于連續(xù)時(shí)間參數(shù)系統(tǒng),它提供的自適應(yīng)機(jī)制在線調(diào)整控制器參數(shù),以實(shí)現(xiàn)期望的控制性能。這種自適應(yīng)方法的典型特征在于其積分自適應(yīng)參數(shù)估計(jì)算法,可利用 Lyapunov綜合方法推導(dǎo)這種自適應(yīng)律,并建立閉環(huán)系統(tǒng)穩(wěn)定性與收斂性。積分自適應(yīng)算法在相關(guān)文獻(xiàn)中較為常見,關(guān)于它的詳細(xì)理論(包括算法推導(dǎo)、算法性質(zhì))可參見文獻(xiàn)[1,2]。由已發(fā)表文獻(xiàn)可以看出,積分自適應(yīng)方法在處理參數(shù)不確定性方面是十分有效的,通過算法形式的設(shè)置能夠直接導(dǎo)致性能分析的完成。由于自適應(yīng)算法的積分形式,實(shí)現(xiàn)時(shí)需要求解用于估值計(jì)算的積分方程,即需要進(jìn)行離散近似。離散近似后的參數(shù)估值與積分自適應(yīng)律所得結(jié)果是存在偏差的。已發(fā)表文獻(xiàn)中提出了多種魯棒自適應(yīng)策略,可以使得積分自適應(yīng)律在離散實(shí)現(xiàn)時(shí)仍能夠保證閉環(huán)系統(tǒng)的控制性能[2]。通過采取界已知的不確定性魯棒處理手段,文獻(xiàn)[3]提出的自適應(yīng)魯棒控制方法能夠預(yù)先規(guī)定系統(tǒng)性能,從而有效改進(jìn)了閉環(huán)系統(tǒng)的瞬態(tài)性能。
迭代學(xué)習(xí)方法借鑒人們處理重復(fù)行為的做法,經(jīng)由逐步學(xué)習(xí)過程不斷改善、提高性能,如運(yùn)動(dòng)員的訓(xùn)練過程。迭代學(xué)習(xí)控制技術(shù)適于有限區(qū)間上重復(fù)運(yùn)行的受控對(duì)象,通過學(xué)習(xí)可實(shí)現(xiàn)完全跟蹤任務(wù)。值得借鑒之處在于學(xué)習(xí)算法的構(gòu)造形式,它能夠提供關(guān)于時(shí)變參數(shù)的估計(jì),但每次作業(yè)完成后要求初始定位。重復(fù)控制是與迭代學(xué)習(xí)控制并行發(fā)展的領(lǐng)域,重復(fù)控制適于周期參考信號(hào)控制任務(wù),可實(shí)現(xiàn)周期參考信號(hào)的漸近跟蹤及周期干擾的抑制[3-8]。自適應(yīng)方法已被用于處理存在未知周期時(shí)變參數(shù)的情形,形成了自適應(yīng)學(xué)習(xí)控制,其中的周期性自適應(yīng)機(jī)制用于估計(jì)周期性時(shí)變參數(shù)。它適用于處理周期性干擾信號(hào),因?yàn)檫@種干擾可以被認(rèn)為是受控系統(tǒng)動(dòng)態(tài)特性中的周期時(shí)變參數(shù)[7-9]。學(xué)習(xí)控制器設(shè)計(jì)時(shí)的一個(gè)重要問題是估值限幅,通過限幅措施可以確保有界估計(jì)[10-13]。這種控制技術(shù)在電機(jī)控制等工業(yè)場(chǎng)合已有應(yīng)用報(bào)道[14-17]。
借鑒上述學(xué)習(xí)控制方法,本文提出增量自適應(yīng)學(xué)習(xí)策略,以推廣學(xué)習(xí)控制的適用范圍。具體地,增量自適應(yīng)學(xué)習(xí)方法可應(yīng)用于連續(xù)運(yùn)行受控對(duì)象,其參考信號(hào)不要求為周期的。針對(duì)連續(xù)時(shí)間自適應(yīng)系統(tǒng),文中應(yīng)用增量自適應(yīng)學(xué)習(xí)策略,避免使用積分自適應(yīng)律,從而規(guī)避了在實(shí)現(xiàn)積分自適應(yīng)律時(shí)進(jìn)行離散化帶來的近似問題。文中提出具有未知常參數(shù)不確定系統(tǒng)的自適應(yīng)學(xué)習(xí)控制算法,與通常自適應(yīng)控制類似,適合于任何參考輸入信號(hào)跟蹤(除光滑性要求外),并未有周期性或重復(fù)性要求。本文詳細(xì)分析了非限幅和限幅自適應(yīng)學(xué)習(xí)機(jī)制,給出了數(shù)值仿真結(jié)果,并將其應(yīng)用于實(shí)際運(yùn)動(dòng)控制裝置。
考慮下述參數(shù)不確定動(dòng)態(tài)系統(tǒng):
(1)
其中,x和u分別是標(biāo)量狀態(tài)和控制輸入,θ是nθ維未知參數(shù)向量,φ(·)是連續(xù)非線性函數(shù)向量。θ在式(1)的右端呈線性形式,這表明與傳統(tǒng)自適應(yīng)系統(tǒng)類似,本文也注重處理線性參數(shù)不確定性。本文的控制目標(biāo)是,對(duì)于系統(tǒng)式(1),設(shè)計(jì)自適應(yīng)控制器,使得系統(tǒng)狀態(tài)收斂于0,即當(dāng)t→∞時(shí),x(t)→0;同時(shí),閉環(huán)系統(tǒng)中所有信號(hào)都是有界的。為了實(shí)現(xiàn)這一控制目標(biāo),本文提出設(shè)計(jì)控制器的增量自適應(yīng)方法,而不是采用通常的積分自適應(yīng)方法。
常規(guī)積分自適應(yīng)控制器具有如下形式:
(2)
并采用下述自適應(yīng)律:
(3)
(4)
(5)
式(3)被稱為積分自適應(yīng)律,這是因?yàn)樗蓪憺?/p>
對(duì)于t>T,
將上述兩式相減,可得式(3)的增量形式為
(6)
利用積分中值定理:
(7)
其中,ξ位于t-T和t之間的某個(gè)時(shí)刻。式(7)右邊的第2項(xiàng),其取值取決于ξ;由于ξ的不確定性,在不同時(shí)刻這一項(xiàng)的取值也無法確定。由于實(shí)際控制系統(tǒng)中采用計(jì)算機(jī)技術(shù),該積分自適應(yīng)律在應(yīng)用時(shí)只能近似實(shí)現(xiàn),即x(ξ)以x(t)替代,也可以x(t-T)替代。通常,閉環(huán)性能分析是針對(duì)式(3)進(jìn)行的,或者是針對(duì)式(6)進(jìn)行的,而不是針對(duì)替代后的閉環(huán)系統(tǒng)。因此,替代后的閉環(huán)系統(tǒng)性能尚無理論保證。本文擬探討無需采用積分近似的自適應(yīng)方法,以便規(guī)避實(shí)現(xiàn)積分自適應(yīng)算法時(shí)遇到的問題,并分析其閉環(huán)系統(tǒng)控制性能。
本節(jié)給出的自適應(yīng)系統(tǒng)設(shè)計(jì)采用了增量自適應(yīng)方法,它不同于使用積分自適應(yīng)算法的傳統(tǒng)設(shè)計(jì)。本文將分別討論未限幅和限幅自適應(yīng)機(jī)制。
首先,考慮下述自適應(yīng)律:
(8)
證明選擇下述Lyapunov-Krasovski泛函:
(9)
它關(guān)于時(shí)間的導(dǎo)數(shù)為
利用下述等式:
可將V的導(dǎo)數(shù)表達(dá)為
(10)
利用自適應(yīng)律式(8),可將式(10)寫為
(11)
可以得出,x∈L2T。進(jìn)一步地,對(duì)于t∈[iT, (i+1)T],t0=t-iT∈[0,T)。
因而,
由級(jí)數(shù)收斂的必要性條件可知:
利用不等式(a-b)2≤2a2+2b2,由式(4)得:
由于x的有界性和φ(x)的連續(xù)性,存在常數(shù)c1和c2使得:
式(8)給出了一種增量形式的自適應(yīng)律,它在應(yīng)用中可以直接實(shí)現(xiàn),無近似計(jì)算。不像式(6)那樣含有積分運(yùn)算,實(shí)現(xiàn)時(shí)需近似計(jì)算積分。
通過在式(8)所示自適應(yīng)律中引入飽和函數(shù),本文提出如下形式學(xué)習(xí)律:
(12)
(13)
證明利用式(4),V的時(shí)間導(dǎo)數(shù)可表達(dá)為
依據(jù)文獻(xiàn)[11]中引理1(取q1=1,q2=0),
因此,
利用式(12)和式(13),得到:
-βx2(t)≤-βx2(t)
至此,容易推出該自適應(yīng)學(xué)習(xí)系統(tǒng)的穩(wěn)定性和收斂性結(jié)果。
仿真結(jié)果如圖1~圖3所示。從圖1可以看出,系統(tǒng)狀態(tài)在所提出的控制器作用下收斂;圖2為控制輸入信號(hào);由增量自適應(yīng)學(xué)習(xí)律給出的參數(shù)估值收斂性能如圖3所示。
圖3 參數(shù)θ的估計(jì)(其真值為3)
圖2 控制輸入u
圖1 系統(tǒng)狀態(tài)x
這一節(jié),本文將增量自適應(yīng)方法應(yīng)用于實(shí)際中常見的運(yùn)動(dòng)控制系統(tǒng)。對(duì)于這類系統(tǒng),自適應(yīng)魯棒控制是一種有效控制方法。
考慮下述不確定運(yùn)動(dòng)控制系統(tǒng):
(14)
其中,x1和x2分別為系統(tǒng)位置與速度變量,u是控制輸入,M為慣性負(fù)載的轉(zhuǎn)動(dòng)慣量,B為粘滯摩擦系數(shù),Δ表示擾動(dòng)、建模誤差等集總不確定性。
為了表達(dá)簡(jiǎn)便,定義參數(shù)θ1=M,θ2=B,可將式(14)寫為
(15)
對(duì)于未知參數(shù)及外部干擾,假設(shè)其變化范圍有界,且界已知。
假設(shè)1在式(15)中:
θ∈Ωθ={θ: 0<θmin<θ<θmax}
(16)
(17)
給定位置參考軌跡xd,本文的控制目標(biāo)是設(shè)計(jì)控制輸入u,使得系統(tǒng)實(shí)際位置盡可能跟蹤上該參考軌跡。為了達(dá)到此控制目標(biāo),本文采用增量自適應(yīng)學(xué)習(xí)算法估計(jì)未知參數(shù),同時(shí)以魯棒手段處理外部擾動(dòng),設(shè)計(jì)增量自適應(yīng)魯棒控制器。
為此,定義如下濾波誤差函數(shù):
(18)
對(duì)式(18)求導(dǎo),并代入式(15)可得:
(19)
考慮誤差動(dòng)態(tài)方程式(19),本文設(shè)計(jì)如下自適應(yīng)學(xué)習(xí)控制器:
u=ua+ur
(20)
(21)
ur=us1+us2
(22)
(23)
(24)
(25)
(26)
這里,γ1、γ2>0為增益系數(shù),sat(·)為飽和函數(shù)。ur為由2項(xiàng)組成的控制項(xiàng),比例反饋控制項(xiàng)us1=-ksef,ks>0,us2為魯棒控制項(xiàng),用于處理不確定性影響,本文假定us2有界(在狀態(tài)有界情形下)。與文獻(xiàn)[3]中相似,此項(xiàng)需滿足以下條件:
(27)
P2:efus2≤0
(28)
本文首先僅考慮存在參數(shù)不確定性的閉環(huán)系統(tǒng)收斂性能,即考慮Δ=0的情形。
定理3系統(tǒng)式(15)在控制律式(20)作用下,當(dāng)Δ=0時(shí),閉環(huán)系統(tǒng)所有變量有界,且跟蹤誤差漸近收斂于0。
證明選取如下Lyapunov泛函:
(29)
為了分析收斂性能,本文考查該泛函在整個(gè)周期上的差,即ΔL(t)=L(t)-L(t-T),
(30)
當(dāng)Δ=0時(shí),對(duì)于上式右端的前2項(xiàng),依據(jù)條件式(28)可得:
(31)
進(jìn)一步地,有下述關(guān)系式:
(32)
以及
(33)
將式(31)~(33)代入式(30),可得:
(34)
依據(jù)文獻(xiàn)[11]中引理1(取q1=1,q2=0)可知:
這樣,式(34)可寫為
(35)
對(duì)于t∈[iT,(i+1)T],記t0=t-iT∈[0,T),可將L(t)寫為
由式(35)可知:
(36)
為了得到L(t)的有界性,需先證得L(t0)是有界的,即,對(duì)于t∈[0,T),L(t)有界。由L(t)的定義可知:
對(duì)上式關(guān)于時(shí)間求導(dǎo):
為了方便實(shí)現(xiàn),本文需設(shè)計(jì)具體的魯棒控制項(xiàng)us2。該項(xiàng)需滿足條件P1和P2,本文設(shè)計(jì)us2為如下形式:
(37)
式中,取h滿足:
(38)
這里,各界值定義見假設(shè)1。
定理4系統(tǒng)式(15)在控制律式(20)作用下(采用式(37)給出的us2),當(dāng)Δ≠0時(shí),系統(tǒng)響應(yīng)滿足下述微分不等式:
(39)
證明根據(jù)式(20),對(duì)V求導(dǎo)可得:
可得:
定理得證。
由定理4可以看出,在控制器式(20)中采用魯棒控制項(xiàng)式(37)規(guī)定了閉環(huán)系統(tǒng)響應(yīng)的瞬態(tài)過程,瞬態(tài)及穩(wěn)態(tài)性能可以預(yù)先設(shè)定。這與常規(guī)自適應(yīng)魯棒控制方法是相同的。對(duì)于增量自適應(yīng)學(xué)習(xí)算法(不同于積分自適應(yīng)算法),本文證明了這種控制性能能夠預(yù)先設(shè)定的特點(diǎn)。本文提出的控制方案并未要求參考軌跡是周期信號(hào),這不同于重復(fù)控制方法。
在電機(jī)實(shí)驗(yàn)裝置上,實(shí)現(xiàn)本文提出的增量自適應(yīng)學(xué)習(xí)控制方案,以便驗(yàn)證其控制效果。該實(shí)驗(yàn)裝置如圖4所示,它以TMS320F2812控制器、ELMO HAR-5/60驅(qū)動(dòng)器、APM-SB01AGN交流伺服電機(jī)構(gòu)成閉環(huán)控制系統(tǒng),完成位置跟蹤控制過程,上位機(jī)作為運(yùn)行監(jiān)控設(shè)備。
圖4 電機(jī)實(shí)驗(yàn)裝置
實(shí)驗(yàn)中采用了2組期望軌跡,以便檢驗(yàn)正弦信號(hào)跟蹤與點(diǎn)到點(diǎn)控制效果。
取正弦參考信號(hào)xd(t)=90sin(πt)。圖5~圖7為采用增量自適應(yīng)學(xué)習(xí)算法的跟蹤控制結(jié)果。其中,圖5(a)分別給出實(shí)際輸出信號(hào)與參考信號(hào);圖5(b)為跟蹤誤差。由圖中可以看出,它最終收斂于-0.3520~0.3020 deg;圖6為控制輸入;圖7為參數(shù)θ1和θ2的估計(jì),如圖中所示,參數(shù)估值會(huì)逐漸趨于常值(或是在某鄰域內(nèi)波動(dòng)),但無法確認(rèn)參數(shù)估值是否收斂于真值,因?yàn)楸疚脑诒WC穩(wěn)定性與控制精度下,僅證明參數(shù)估值有界。
圖5 增量自適應(yīng)學(xué)習(xí)控制下的實(shí)際輸出軌跡與跟蹤誤差
圖6 控制輸入
圖7 參數(shù)θ1和θ2的估值
為了檢驗(yàn)由式(23)~(26)所表示的增量自適應(yīng)學(xué)習(xí)算法性能,在測(cè)試點(diǎn)到點(diǎn)控制性能時(shí)考慮以下3種學(xué)習(xí)周期:T=Ts=0.005 s;T=5Ts=0.025 s;T=10Ts=0.05 s。
點(diǎn)到點(diǎn)參考信號(hào)如圖8所示;圖9分別給出3種學(xué)習(xí)周期下的跟蹤誤差,對(duì)于不同的學(xué)習(xí)周期,誤差最大峰值分別為-1.8238 deg、-1.7990 deg、-1.8296 deg,且跟蹤誤差分別收斂至[-0.3495,0.3660] deg、[-0.3540,0.3697] deg、[-0.3793,0.3540] deg;圖10為3種學(xué)習(xí)周期下的控制輸入;圖11和圖12給出了不同學(xué)習(xí)周期下的參數(shù)θ1和θ2的估計(jì)。
圖12 系統(tǒng)參數(shù)θ2的估值
圖11 系統(tǒng)參數(shù)θ1的估值
圖8 點(diǎn)到點(diǎn)運(yùn)動(dòng)參考信號(hào)
圖9 跟蹤誤差
圖10 控制輸入
本文提出了一種增量自適應(yīng)學(xué)習(xí)策略,適用于連續(xù)時(shí)間自適應(yīng)控制系統(tǒng),它不同于傳統(tǒng)自適應(yīng)系統(tǒng)中采用的積分自適應(yīng)算法,在實(shí)現(xiàn)時(shí)規(guī)避了像積分自適應(yīng)算法那樣的離散化處理。為此,本文分析了積分自適應(yīng)算法在應(yīng)用時(shí)的近似實(shí)現(xiàn)方式。提出的增量自適應(yīng)學(xué)習(xí)策略具有未限幅與限幅2種形式。本文證明了非限幅增量自適應(yīng)系統(tǒng)的漸近收斂性,且估值在L2T意義下有界。提出的限幅增量自適應(yīng)學(xué)習(xí)算法,能夠保證參數(shù)估值本身有界,并借助類Barbalat引理,證明了閉環(huán)系統(tǒng)收斂性。理論分析與實(shí)驗(yàn)結(jié)果表明,提出的增量自適應(yīng)學(xué)習(xí)算法能夠有效處理受控系統(tǒng)中的參數(shù)不確定性,也證明了引入限幅是獲得有界估計(jì)的有效方法;更為重要的是,它規(guī)避了積分自適應(yīng)算法的離散化實(shí)現(xiàn)方式。