邱志成,杜佳豪
華南理工大學(xué)機械與汽車工程學(xué)院,廣東 廣州 510641
隨著科學(xué)技術(shù)的不斷發(fā)展,人們對宇宙的探索不斷進行著.僅在2018年,全球共執(zhí)行114次發(fā)射任務(wù)[1].對航空航天器的功能要求使得航天結(jié)構(gòu)大型化、復(fù)雜化、柔性化.航天航空器柔性結(jié)構(gòu)在運動過程中容易產(chǎn)生殘余振動,且頻率低,時間長.結(jié)果,可能導(dǎo)致控制的性能下降.更糟糕的是各個柔性結(jié)構(gòu)之間存在耦合關(guān)系.在最壞的情況下,可能會導(dǎo)致受控系統(tǒng)的不穩(wěn)定[2],甚至造成疲勞損壞.
柔性梁粘貼壓電傳感器和致動器這種智能材料,也稱智能結(jié)構(gòu),在主動振動抑制中的應(yīng)用廣泛[3].婁軍強等[4]以壓電陶瓷為致動器對旋轉(zhuǎn)柔性機械臂系統(tǒng)進行振動抑制;GARCIA等[5]利用壓電陶瓷貼片對柔性連桿機器人進行振動控制.多柔性梁振動存在耦合關(guān)系,非線性因素等,其主動控制是一個研究熱點與難點.ABE等[6]提出了一種雙柔性連桿點對點運動抑制殘余振動的前饋控制方法;PRADHAN與SUBUDHI[7]提出一種新的非線性自適應(yīng)模型預(yù)測控制器,用于雙鏈柔性機械臂在不同載荷作用下的末端位置控制;ROSENZWEIG等[8]提出了一種基于預(yù)測水平向下采樣的運動塊法對末端彈性聯(lián)接的多柔性梁結(jié)構(gòu)進行振動抑制.
柔性梁的建模方法常見的有假設(shè)模態(tài)法、有限單元法等,利用Lagrange方程,結(jié)合變分法、虛功原理等方法進行建模[9].ANDREAS和THOMAS[10]使用Hamilton原理,對多柔性懸臂梁結(jié)構(gòu)進行了建模;張娟等[11]對帶有壓電陶瓷作動器和傳感器的平面智能柔性梁進行了有限元動力學(xué)建模.
近年來,強化學(xué)習(xí)控制得到了廣泛關(guān)注.強化學(xué)習(xí)是機器學(xué)習(xí)的一個重要分支,其本質(zhì)是描述和解決智能體在與環(huán)境的交互過程中學(xué)習(xí)策略以最大化回報或?qū)崿F(xiàn)特定目標(biāo)的問題[12].徐意鈞等[13]提出一種基于概率推斷式強化學(xué)習(xí)的關(guān)節(jié)控制方法以提高空間機械臂的自主操作能力.PRADHAN等[14]利用強化學(xué)習(xí)技術(shù),對一個雙連桿柔性機械臂的末端軌跡和振動進行實時自適應(yīng)控制.
本文將研究多柔性梁耦合結(jié)構(gòu)的殘余振動,為此搭建多柔性梁耦合結(jié)構(gòu)平臺,采用有限元法,對該結(jié)構(gòu)進行理論建模分析;設(shè)計了模糊強化學(xué)習(xí)控制器與PD控制器和自抗擾控制器,對多柔性梁的殘余振動進行控制仿真,結(jié)果與PD控制器和自抗擾控制器進行比較.
為研究多柔性梁耦合結(jié)構(gòu)特點,搭建了多柔性梁結(jié)構(gòu)平臺,以三柔性梁為例.為了給后續(xù)仿真提供環(huán)境模型,采用有限元法建立系統(tǒng)運動模型.
如圖1所示的為多梁耦合結(jié)構(gòu).隔振平臺上安裝有多柔性梁耦合結(jié)構(gòu).多柔性梁包括了3只柔性梁,一端固定,相鄰兩梁之間存在彈簧聯(lián)接,最外邊的柔性梁有彈簧與固定端聯(lián)接.靠近自由端有激光位移傳感器作為檢測裝置.
圖1 多柔性梁結(jié)構(gòu)Fig.1 Multiflexible beams structure
如圖2所示為多柔性梁結(jié)構(gòu)示意圖.柔性梁靠近固定端粘貼有壓電驅(qū)動器,雙面對稱粘貼,用于控制.一根梁上所有壓電驅(qū)動器施加的電壓相同.各梁接近末端添加有附加質(zhì)量塊.柔性梁使用環(huán)氧板制成,壓電驅(qū)動器為壓電陶瓷片.
圖2 多柔性梁結(jié)構(gòu)示意圖Fig.2 Schematic diagram of multi flexible beam structure
柔性梁的位置與激光位移傳感器的位置均可在隔振平臺上自由調(diào)整.彈簧剛度及附加質(zhì)量塊可以自由更換.
如圖3所示,為普通梁單元,圖4所示為雙面粘貼的壓電梁單元,基于Euler-Bernoulli梁理論進行建模.
圖3 梁單元示意圖Fig.3 Schematic diagram of beam element
圖4 壓電梁單元示意圖Fig.4 Schematic diagram of piezoelectric beam element
由Hamilton原理可知
(1)
式中,L=T-U+Wf,T表示動能,U表示彈性應(yīng)變能,Wf表示外力功[15].
(1)動能
普通柔性梁單元的動能為
(2)
對于壓電柔性梁單元的動能為
(3)
(2)應(yīng)變能
普通柔性梁單元的應(yīng)變能為
(4)
對于壓電梁單元的應(yīng)變能為
(5)
(3)外力功
設(shè)存在集中力fe作用于梁單元節(jié)點上,則普通柔性梁單元的外力功為
(6)
對于壓電梁單元,則存在控制驅(qū)動力
(7)
由式(1)可以得到兩種單元的運動方程
此外,梁與梁之間的彈簧單元有
kspde=fsp
(8)
式中ksp表示彈簧的剛度矩陣.
最后是測量單元,采用的是激光位移傳感器,其單元輸出為
(9)
將多柔性梁結(jié)構(gòu)劃分為有限數(shù)量的單元,如圖5所示,將各個單元組裝,并通過刪除法添加固定約束,可以得到多柔性梁的總體運動方程
圖5 單元節(jié)點示意圖Fig.5 Schematic diagram of cell node
(10)
式中,M為總體質(zhì)量矩陣,Λ=k0M+k1K為瑞利阻尼矩陣,其中k0、k1為質(zhì)量阻尼系數(shù)和剛度阻尼系數(shù);Fc=HcUc為壓電驅(qū)動力矢量,Hc為總體的控制力系數(shù)矩陣,Uc為控制電壓矢量,F(xiàn)為其他外力矢量,d為總體自由度矢量.
激光位移傳感器輸出可以表示為
Y=Slaserd
(11)
其中Slaser為總體測量系數(shù)矩陣.
可以得到狀態(tài)空間方程
(12)
所使用的材料以及結(jié)構(gòu)尺寸如表1所示,彈簧剛度如表2所示,附加質(zhì)量塊均為0.05 kg.
表1 材料屬性Tab.1 The material properties
表2 彈簧剛度Tab.2 Spring stiffness
通過上述有限元建模方法,每個梁單元長度均為0.02 m,得到多柔性梁耦合結(jié)構(gòu)的模態(tài)頻率如表3所示,以及其對應(yīng)的振型特征,如圖6 (a)~(f)所示.可見前3階模態(tài)頻率較為接近,第4階模態(tài)頻率約為前幾階6倍,而之后的4到6階頻率又較為接近.多柔性梁耦合結(jié)構(gòu)的殘余振動呈現(xiàn)了密頻的特性.
圖6 各階模態(tài)振型特征Fig.6 Modal characteristics of each order
表3 模態(tài)頻率Tab.3 Modal frequencies
由于殘余振動主要集中在前三階模態(tài)中,為簡化模型,仿真所采用的模型截取前三階模態(tài).不考慮施加的其他外力,僅考慮控制力作用,則式(12)的模態(tài)截斷模型可以寫成
(13)
(14)
如圖7及圖8所示,分別為激勵1梁和激勵2梁時所引起的響應(yīng),可見梁與梁之間存在著耦合關(guān)系,且有“此消彼長”的特點.
圖7 激勵梁1的振動響應(yīng)Fig.7 Vibration responses of excitation beam 1
圖8 激勵梁2的振動響應(yīng)Fig.8 Vibration responses of excitation beam 2
激勵梁1時,梁1與梁3的振動主要為前三階模態(tài)結(jié)合,梁2主要為1階和3階結(jié)合.三梁耦合呈現(xiàn)密頻特性,拍頻特征.而激勵梁2時,三梁的振動均主要為1階和3階頻率結(jié)合.三梁耦合也呈現(xiàn)密頻特性,有很明顯的拍頻特征,且振動時間長,特別是小幅值振動.
自抗擾控制由韓京清[16]提出,并在多個領(lǐng)域得到了應(yīng)用.根據(jù)文獻[17]設(shè)計多柔性梁結(jié)構(gòu)自抗擾控制器如圖9所示,其控制律為
圖9 自抗擾控制器控制框圖Fig.9 Block diagram of active disturbance rejection controller
(15)
(16)
(17)
(18)
強化學(xué)習(xí)在離散動作方面取得了許多成果,但難以處理連續(xù)動作方面問題,為此引入T-S模糊作為解決途徑[18-19].
T-S模糊規(guī)則如下:
Ri:ifs1isFi1and...snisFin
thenui,1withqi,1or...ui,jwithqi,j.
式中,sm表示第m個狀態(tài),F(xiàn)im為第i條規(guī)則相應(yīng)的模糊集,m=1,2,…,n;ui,j為第i規(guī)則的后件第j個動作,qi,j為所對應(yīng)的狀態(tài)動作價值.由此可以建立模糊控制電壓表{ui,j},以及動作價值表{qi,j}.
則對第i條規(guī)則有激活度
κi(s)=μ1(s1)×μ2(s2)…×μn(sn)
(19)
式中μm(sm)表示第m個狀態(tài)隸屬度.對激活度進行歸一化操作有
(20)
T-S模糊后件的選擇通過ε-貪婪策略進行,即有1-ε的概率選擇狀態(tài)動作價值最大的動作,ε的概率選擇其他動作,如下所示
(21)
式中,π(u|s)表示在狀態(tài)s下選擇動作u的概率.
T-S模糊的實際輸出為
(22)
而強化學(xué)習(xí)目標(biāo)為使得累計回報期望最大,即
(23)
式中rt+1表示t時刻與環(huán)境互動后獲得回報值,γ為折扣系數(shù).而Q(s,u)反映當(dāng)前狀態(tài)s下采取控制電壓u,所能獲得的未來累計回報期望,即
Q(s,u)=E(Gt|st=s,ut=u)
因此,只要動作狀態(tài)價值收斂,隨著策略參數(shù)ε的減小,就能收斂到最優(yōu)動作序列.
記動作狀態(tài)價值的TD誤差為
δt=rt+1+γQ(st+1,ut+1)-Q(st,ut)
對于每條規(guī)則后件的更新為
(24)
引入資格跡能有效加速訓(xùn)練效果[20]
(25)
式中,λ為加權(quán)因子;zt為資格跡矢量,z0=0.則后件更新為
qt+1=qt+αδtzt
(26)
式中α表示更新步長.
對于多梁控制可以視為分別單獨進行控制,對于模糊規(guī)則后件動作的設(shè)置,采用等差擴展的方法,即
式中,ui,mid表示所擴展動作的中項,nj與nmid分別為ui,j與ui,mid的對應(yīng)項數(shù),di為公差.
回報設(shè)置為
r=-sTKs-uTΓu
(27)
式中K與Γ分別為狀態(tài)權(quán)重與電壓權(quán)重.
如圖10所示,為模糊強化學(xué)習(xí)控制框圖.圖11為控制流程圖.
圖10 模糊強化學(xué)習(xí)控制框圖Fig.10 Fuzzy reinforcement learning control block diagram
圖11 模糊強化學(xué)習(xí)控流程圖Fig.11 Flow chart of fuzzy reinforcement learning control
PD控制器控制律如下所示:
(28)
式中,e(k)=r(k)-y(k),r(k)表示參考值,u(k)為控制輸入,kp,kd分別為比例項增益系數(shù)矩陣和微分項增益系數(shù)矩陣.
在MATLAB中進行仿真,以激勵梁1為例,設(shè)置梁1初始位移為10 mm,振動1 s后控制介入;控制電壓u∈[-150,150]V.
PD參數(shù)選擇為比例kp=diag{23,23,23},微分kd=-diag{1.5,1.5,1.5}.如圖12所示為PD控制各梁的振動情況;如圖13所示為各梁控制電壓圖.可以看出PD控制大幅值振動衰減迅速,但是小幅值的振動持續(xù)時間較長.
圖12 PD控制下各梁振動Fig.12 Vibration of each beam under PD control
圖13 PD控制下各梁控制電壓Fig.13 Voltage of each beam under PD control
在MATLAB中進行仿真,以激勵梁1為例,設(shè)置梁1初始位移為10 mm,振動1 s后控制介入;控制電壓u∈[-150,150]V.
如圖14所示為自抗擾控制器各梁的振動情況;如圖15所示為各梁控制電壓圖.自抗擾控制器控制效果略優(yōu)于PD,但其結(jié)構(gòu)也更為復(fù)雜.
圖14 自抗擾控制下各梁振動Fig.14 Vibration of each beam under ADRC control
圖15 自抗擾控制下各梁控制電壓Fig.15 Voltage of each beam under ADRC control
圖16 位移誤差模糊集Fig.16 Displacement error fuzzy sets
圖17 速度誤差模糊集Fig.17 Speed error fuzzy sets
設(shè)置折扣系數(shù)γ=0.99,加權(quán)因子λ=0.6.貪婪系數(shù)ε隨著幕數(shù)nepi變化為ε=0.5×0.99nepi,步長α也隨幕數(shù)nepi變化,α=0.8×0.99nepi.
如圖18所示為第1次訓(xùn)練的控制效果與第500次訓(xùn)練控制效果對比;圖19所示為第1次訓(xùn)練的控制電壓與第500次訓(xùn)練控制電壓對比.可以看出,第1次訓(xùn)練中的控制電壓較為紊亂,控制幾乎無效果,而在第500次訓(xùn)練時,控制效果得到很明顯的提升.
圖18 模糊強化學(xué)習(xí)控制下各梁振動Fig.18 Vibration of each beam under FRLC
圖19 模糊強化學(xué)習(xí)控制下各梁控制電壓Fig.19 Voltage of each beam under FRLC
為了解決訓(xùn)練開始控制電壓大范圍跳動可能造成對壓電片的損傷,且初期幾乎無控制效果的問題,鑒于模糊控制表具有很好的可移植性,使用PD控制電壓初始化設(shè)置擴展動作的中項umid,公差d=5 V,擴展數(shù)量為21.其控制效果如圖20與圖21所示.可見訓(xùn)練開始時的效果接近于PD控制效果,經(jīng)500次訓(xùn)練后控制效果有明顯提升.
圖20 PD初始化模糊強化學(xué)習(xí)控制各梁振動Fig.20 Vibration of each beam under FRLC with PD initiated
圖21 PD初始化模糊強化學(xué)習(xí)下的各梁控制電壓Fig.21 Voltage of each beam under FRLC with PD initiated
圖22顯示每幕到達設(shè)定終止?fàn)顟B(tài)時所經(jīng)歷的時間.雖然到達終止?fàn)顟B(tài)時間存在一定的變動,但總體趨勢可以明顯看出,隨著幕數(shù)增加,到達終止?fàn)顟B(tài)的時間越來越短,然后逐漸趨平.
圖22 訓(xùn)練過程Fig.22 Training process
相比于自抗擾與PD控制器,模糊強化學(xué)習(xí)控制能夠更好的抑制小幅值振動.自抗擾控制器到達終止?fàn)顟B(tài)時間需要13.5 s左右,而經(jīng)過500次訓(xùn)練的模糊強化學(xué)習(xí)控制器到達終止?fàn)顟B(tài)僅需要10 s左右.
針對多柔性梁殘余振動的主動控制,本文分析了殘余振動密頻的特點,設(shè)計了模糊強化學(xué)習(xí)控制器,并進行訓(xùn)練及控制的仿真,采用PD初始化控制電壓表能在初期得到較好效果.結(jié)果顯示模糊強化學(xué)習(xí)控制器能有效地控制多梁殘余振動,特別是小幅值的振動.