• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強化學習的火星無人機狀態(tài)約束控制*

      2023-09-04 03:02:46田翰文夏元清潘振華王泰祺
      航天控制 2023年4期
      關(guān)鍵詞:火星約束神經(jīng)網(wǎng)絡

      田翰文,夏元清,潘振華,王泰祺

      北京理工大學自動化學院,北京 100081

      1 概述

      作為一種新型的火星探測裝置,火星無人機可以克服火星車和軌道探測器的一些缺陷,為探索火星、開發(fā)火星提供了一條重要的技術(shù)途徑[1]。目前,火星無人機主要包括浮式氣球、固定翼、共軸和轉(zhuǎn)子4種類型:浮式氣球研究較早且功能有限,尚未深入研究,固定翼無人機和轉(zhuǎn)子無人機無法獲得良好的起降環(huán)境,不適合火星飛行。

      火星無人機主要扮演2大角色[2]:1)“火星車行駛領(lǐng)航員”?;鹦菬o人機在一次飛行中就可完成半徑幾百米范圍的火星地表成像,快速實現(xiàn)周邊地形,精準領(lǐng)航火星車安全快速行駛[3]。2)“火星車探測效能倍增器”[4]。火星無人機的飛行速度快,能快速覆蓋并掌握周邊地表形貌和成分特性,發(fā)現(xiàn)并引導火星車快速抵近高價值目標[5],又快又準地實現(xiàn)科學探測,推動火星車對高價值目標探測能力的“倍增”[6]。

      苛刻的火星環(huán)境對火星無人機技術(shù)研究具有極大的挑戰(zhàn)[7]。在同軸火星無人機的飛行控制中,由于火星大氣稀薄,無人機旋翼升力隨旋翼轉(zhuǎn)速的變化范圍遠小于地球環(huán)境,因此火星無人機的飛行位置調(diào)整過程較慢?;鹦秋L、沙塵暴等現(xiàn)象會嚴重影響火星無人機的飛行穩(wěn)定性,這就要求火星無人機能快速適應不斷變化的環(huán)境,保證無人機的飛行安全。一旦到達火星,無人機必須生存下來,并進行操作。沒有任何物理干預的可能性;因此,火星無人機需要適應環(huán)境變化和最大干擾(如空氣密度、溫度、風向、地形特征及光照)[8]。而當前所用的方法為PID控制,對火星無人機的抗干擾能力以及狀態(tài)約束方面均提升有限,因此控制方法應在地球無人機(UAV)控制方法的基礎上考慮抗環(huán)境干擾。

      火星無人機在多種約束條件下運行[9],例如由外部環(huán)境條件、系統(tǒng)性能要求或火星無人機安全問題引起的約束[10-11]。目前,基于障礙Lyapunov函數(shù)(或積分障礙Lyapunov函數(shù))的反演控制方法總是涉及到虛擬控制器的可行性條件[12],即虛擬控制器必須滿足一定的預定約束區(qū)域[13-15],這給相應控制方案的設計和實現(xiàn)帶來了很大的困難[16-17]。針對火星無人機是一個連續(xù)時間非線性多輸入多輸出系統(tǒng),提出了一種考慮輸入約束的基于積分強化學習的最優(yōu)跟蹤控制方法。為了避免對持續(xù)激勵條件的要求,結(jié)合了積分強化學習和經(jīng)驗回放技術(shù),并考慮了輸入飽和度。

      本文基于六自由度運動方程和牛頓-歐拉動力學方程,建立了火星無人機的數(shù)學模型,引入了純粹基于系統(tǒng)狀態(tài)的非線性狀態(tài)相關(guān)函數(shù)。經(jīng)過坐標變換,通過采用基于障礙Lyapunov函數(shù)和積分Lyapunov函數(shù)的方法來處理在全狀態(tài)和非對稱約束下的非線性系統(tǒng),并分別對虛擬控制器的可行性進行評估,經(jīng)過評判神經(jīng)網(wǎng)絡設計和動作神經(jīng)網(wǎng)絡設計,采用積分強化學習技術(shù)建立連續(xù)時間系統(tǒng)的Bellman方程誤差。提出了一種考慮輸入約束的基于積分強化學習的最優(yōu)跟蹤控制方法,完成了火星共軸無人機的位置控制。

      2 火星無人機數(shù)學模型

      火星無人機的嚴格反饋非線性系統(tǒng)為:

      (1)

      其中:x1=[x11,x12,x13]T表示無人機的位置,x2=[x21,x22,x23]T表示無人機的速度,ωb=[ωbx,ωby,ωbz]T表示無人機繞x、y、z三軸的角速率,m表示無人機的質(zhì)量,Fb表示無人機在機體坐標系下所受到的力。

      主要受到以下非對稱約束:

      x1i:-K1i

      (2)

      其中:K1i和K2i是已知的正常數(shù)。

      本文的控制目標是設計火星無人機的自適應神經(jīng)網(wǎng)絡魯棒控制器,使得系統(tǒng)y(t)的輸出緊密跟蹤期望軌跡yd(t),并且保證系統(tǒng)最終一致且有界,系統(tǒng)中獲得的任何信號都有界。同時,在沒有虛擬控制器可行性條件的情況下,繼續(xù)保持一個完全的非對稱狀態(tài)約束。

      根據(jù)式(1)~(2),可以得出:

      (3)

      g2(x1,x2)u(t)+k(t)

      (4)

      其中:g1(x1,x2)=([g(x1,x2)+gT(x1,x2)]/2),g2(x1,x2)=([g(x1,x2)-gT(x1,x2)]/2)。

      g(x1,x2)是一個非奇異矩陣,并且這個非奇異矩陣的弗羅比尼烏斯均值是有界的。

      火星無人機的跟蹤誤差為:

      h=x1-xe

      (5)

      (6)

      3 神經(jīng)網(wǎng)絡函數(shù)近似

      3.1 神經(jīng)網(wǎng)絡函數(shù)設計

      神經(jīng)網(wǎng)絡是一種通用逼近器,可用于逼近緊集中的未知函數(shù)。神經(jīng)網(wǎng)絡具有良好的抗干擾能力,可以有效降低火星環(huán)境下惡劣環(huán)境對無人機的影響。因此,激活函數(shù)一般為徑向基函數(shù)。對于緊集Ω中定義的f(x)∈R3,x∈R3,可以用f(x)個典型線性參數(shù)RBF神經(jīng)網(wǎng)絡來逼近。

      f(x)=W*Tφ(x)+χ(x)

      (7)

      其中:W*是神經(jīng)網(wǎng)絡的權(quán)重矩陣,χ(x)是近似誤差,φ(x)是基函數(shù)向量。

      (8)

      其中:cri∈R3表示RBF神經(jīng)網(wǎng)絡中心,σNN表示基函數(shù)的寬度。由于一般的近似性質(zhì),我們可以得到N>0,且如果N>N0,那么χ(x)→0。

      3.2 非線性狀態(tài)函數(shù)

      本節(jié)將指定一個長期的表示度量,然后通過使用積分強化學習技術(shù)來解決這個長期成本。未知的控制方向需要用Nussbaum型函數(shù)求解。基于Barrier Lyapunov函數(shù)的控制技術(shù)通常將狀態(tài)約束問題轉(zhuǎn)化為跟蹤誤差問題,從而對系統(tǒng)的初始狀態(tài)產(chǎn)生更多的約束。此外,大多數(shù)先前的理論通常是在對稱約束的簡單情況下發(fā)展起來的。為了能夠求解非對稱狀態(tài)約束,列出了火星無人機位置狀態(tài)的非線性相關(guān)函數(shù):

      (9)

      且可以得到:

      (10)

      對于任何具有狀態(tài)約束的嚴格反饋系統(tǒng),基于障礙Lyapunov函數(shù)或積分障礙Lyapunov函數(shù)的控制方法都會涉及到所提出的可行性條件。

      -K1i<α1i(t)

      (11)

      其中:α1i(t)代表虛擬控制率。對于虛擬控制律α1,即虛擬控制α′1ivs,雖然依賴于狀態(tài)變量和其他待設計參數(shù),但要始終保持在相應控制方案可行的區(qū)域內(nèi)顯然是不切實際的,因為找到這些參數(shù)很困難,甚至是不可能的。

      引理2對?l∈Rq和p>0,L=llT+pIq和λmin(L)=c是正定對稱矩陣,并滿足:

      1)當l=0,L=pIq是正定的;

      2)當?l≠0,因為llT的特征值是[1,0,…,0],L的特征值是[p+1,p,…,p],所以L是正定對稱的。

      4 控制方向未知的積分強化學習

      在本節(jié)中,針對具有非對稱狀態(tài)約束的嚴格反饋非線性系統(tǒng)(火星無人機)提出了一種基于魯棒自適應的新型控制方案。該控制器設計的關(guān)鍵在于,它不直接使用基于坐標變換的通用設計方法z2=x2-α1,也不直接使用基于坐標變換的一般DCS方法z2=x2-α2f,其中xi表示系統(tǒng)狀態(tài),α1表示虛擬控制器,α2f是一階濾波器的輸出。

      將坐標變換設計如下:

      (12)

      (13)

      (14)

      (15)

      另外可以得到:

      (16)

      其有助于進行穩(wěn)定性分析,該方法不需要復雜的離線約束優(yōu)化程序來獲得最優(yōu)設計參數(shù)。

      4.1 評判神經(jīng)網(wǎng)絡設計

      定義火星無人機的長期性能指標為:

      (17)

      情形1:zi2(t)>>cpi,zi2(t)≥max{K12,K22},?ξ∈[t-T,t)

      情形2:zi2(t)≥cpi,zi2(t)≤min{|K12|,|K22|},?ξ∈[t-T,t)

      情形3:zi2(t)

      設計以下公式:

      (18)

      其中:閾值設計為cqi>0。式(18)可以不斷提高火星無人機適應環(huán)境的能力。

      跟蹤誤差僅限于狀態(tài)約束條件:

      上述的情形1中zi(t)遠大于cqi,qz=1代表較差的跟蹤性能。當火星無人機受到干擾,系統(tǒng)狀態(tài)越界時,可以利用強化學習將系統(tǒng)拉回約束區(qū)域。上述的情形2中zi(t)大于等于cqi,qz=0.3表示具有一般的跟蹤性能,0.3是根據(jù)火星無人機的控制特性進行設計。上述的情形3中zi(t)小于cqi,qz=0表示具有優(yōu)秀的跟蹤性能。

      “1”表示U(t)增加,代表當前的控制會導致很大的跟蹤誤差,“0”表示U(t)減小,代表當前的控制得到了很好的控制效果。cqi是一個很小的常數(shù),如1,0.1和0.01。我們利用U(t-T)和U(t)之間的關(guān)系,設置了cqi=0.02,并設計了連續(xù)時間非線性系統(tǒng)的貝爾曼誤差。

      γ-1(U(t)+qc)

      (19)

      從式(18)可以得出,qc=[qc1,qc2,…,qcn]T,并且

      (20)

      由式(19)可以發(fā)現(xiàn),U(t)包含了火星無人機中未來系統(tǒng)的信息。無法直接獲得信息的問題很難直接解決,需要特殊的功能設計和適當?shù)脑O計參數(shù)。通常使用值函數(shù)近似。用臨界RBF神經(jīng)網(wǎng)絡對其進行逼近

      (21)

      (22)

      U(t-T)可以估計為

      (23)

      由于xe是先驗已知的,所以可以選擇它為xm。設計

      xm(t)=[x1T(t),sT(t),xeT(t+Te),…,xeT(t+NeTe)]T

      Ne是指定的數(shù)字,Te是時間間隔。

      因此,時間誤差可以寫為:

      (24)

      (25)

      (26)

      4.2 動作神經(jīng)網(wǎng)絡設計

      針對火星無人機連續(xù)時間非線性多輸入多輸出系統(tǒng),提出了一種基于積分強化學習的狀態(tài)約束神經(jīng)網(wǎng)絡控制方法。為了估計系統(tǒng)的不確定性,設計了一種作用徑向基函數(shù)神經(jīng)網(wǎng)絡來估計火星無人機系統(tǒng)的不確定性:

      (27)

      (28)

      定義動作神經(jīng)網(wǎng)絡的權(quán)值誤差

      (29)

      (30)

      (31)

      盡管f(x1,x2)和g(x1,x2)都是未知的,但本文研究了主要的未知控制方向。這意味著g(x1,x2)不會出現(xiàn)在u(t)里。一般來說,用評判RBF神經(jīng)網(wǎng)絡近似f(x1,x2)是估計火星無人機動力學不確定性的一種方法。

      (32)

      (33)

      下面進行控制器設計:

      第1步:求得時間的導數(shù):

      (34)

      (35)

      (36)

      (37)

      通過在式(15)和(17)中對z2和y2的定義,得到:

      (38)

      (39)

      (40)

      通過使用楊氏不等式:

      (41)

      (42)

      (43)

      (44)

      可以得出:

      (45)

      將式(45)代入式(40)可得:

      (46)

      (47)

      最終給出了虛擬控制律:

      (48)

      (49)

      (50)

      (51)

      因此:

      (52)

      最終得出:

      (53)

      第2步:取z2的導數(shù)作為時間收益率

      (54)

      選擇李雅普諾夫函數(shù)

      (55)

      (56)

      實際控制律u表示如下:

      (57)

      (58)

      其中:c2,γ2和σ2是正的設計系數(shù)。

      定理1根據(jù)火星無人機的連續(xù)時間系統(tǒng)模型,考慮評判神經(jīng)網(wǎng)絡和動作神經(jīng)網(wǎng)絡?;诖嗽O計的自適應積分強化學習神經(jīng)網(wǎng)絡控制器具有式(27)和式(40)的更新特性,在初始值有界時還具有以下特性:

      1)在火星無人機閉環(huán)系統(tǒng)中,任何信號都是半全局均勻且最終有界的;

      (59)

      同時,設計了動作神經(jīng)網(wǎng)絡σn

      σn>bφmbφn

      (60)

      5 仿真驗證與分析

      本節(jié)在Matlab/Simulink環(huán)境下進行數(shù)值模擬驗證。在考慮外部干擾和執(zhí)行器死區(qū)特性的情況下,控制目標是使火星無人機在100 s內(nèi)達到所期望的狀態(tài),并給出了火星共軸雙旋翼無人機的仿真結(jié)果。

      給定無人機的各項參數(shù)為:火星無人機質(zhì)量為1.8 kg,無人機的姿態(tài)角為[0.2,0.1,1.5]Trad,初始位置為[6.1,6.9,5.1]Tm,預期位置為[3.1,10,8.03]Tm。

      假設火星無人機的系統(tǒng)干擾上限為1.2×10-3N。設計的控制器參數(shù)及所期望軌跡Sp表示如下:

      (61)

      設計了控制器的積分區(qū)間為T=0.1,γ=0.88,δ=1。同時,狀態(tài)約束的函數(shù)參數(shù)為K11=3,K21=-5,K12=K22=-15。所設計的位置控制回路的參數(shù)為c1=[0.06,0.06,0.06]T,設計速度控制回路的參數(shù)為c2=[16,16,16]T。此外,還設計了一系列強化學習評判神經(jīng)網(wǎng)絡的參數(shù)Γc=0.08,σc=0.16。

      最后,將強化學習動作網(wǎng)絡的參數(shù)設計為Γa=0.01,σa=0.1。

      仿真程序運行了400 s,火星無人機的位置如圖1所示,x軸在T=64.1 s后趨于穩(wěn)定,y軸在T=75.8 s后趨于穩(wěn)定,z軸在T=130.8 s后趨于穩(wěn)定,三軸均達到所需位置。圖2顯示了火星無人機的三軸速度??梢钥闯?當T=79.5 s時,y軸和z軸的速度趨于0,當T=133.3 s時x軸的速度趨于0,當無人機到達所需位置時,速度將變?yōu)?。

      圖1 火星無人機位置變化曲線

      圖2 火星無人機速度變化曲線

      圖3 評判神經(jīng)網(wǎng)絡輸出變化曲線

      圖4 動作神經(jīng)網(wǎng)絡輸出變化曲線

      控制器u的應用程序輸出如圖5所示。在初始階段,對于較大的跟蹤誤差,輸出變化很大,控制器達到穩(wěn)態(tài)的時間相對較快,在T=97.8 s時達到。在穩(wěn)態(tài)階段,控制器α1,u的輸出是穩(wěn)定的。因此,控制器的穩(wěn)定性可以通過狀態(tài)有界性來實現(xiàn)。

      圖5 控制器u輸出曲線

      如果約束條件很小,則這些最優(yōu)設計參數(shù)將不可用。但在給定的控制條件下,對虛擬控制器α1沒有約束,也不需要使用復雜的算法來尋找最合適的參數(shù),因此,該方法更有效。

      5 結(jié)論

      針對共軸雙旋翼火星無人機非線性系統(tǒng)抗干擾能力的問題,提出了一種基于強化學習和狀態(tài)約束的連續(xù)時間非線性系統(tǒng)自適應神經(jīng)網(wǎng)絡控制方法。嚴格的理論分析表明,閉環(huán)系統(tǒng)是穩(wěn)定的;保證所有閉環(huán)信號一致且最終有界。設計了一個RBF神經(jīng)網(wǎng)絡來近似它。利用運動神經(jīng)網(wǎng)絡逼近未知漂移動力學,求解未知控制方向。通過嚴格的李雅普諾夫函數(shù)證明,得到了閉環(huán)的穩(wěn)定性和一致極限的有界性。同時,我們將權(quán)重誤差和跟蹤誤差限制在一個緊集,所設計的算法可以有效地提高火星無人機的環(huán)境適應性。采用李亞普諾夫函數(shù)和積分李亞普諾夫函數(shù)方法處理非線性系統(tǒng),避免了將狀態(tài)約束轉(zhuǎn)化為新的誤差邊界和虛擬控制器的可行性條件。仿真實驗和數(shù)據(jù)表明本研究提出的方法可以使火星無人機在惡劣環(huán)境下穩(wěn)定飛行,增強了對環(huán)境的適應能力。

      猜你喜歡
      火星約束神經(jīng)網(wǎng)絡
      玩轉(zhuǎn)火星
      海外文摘(2021年7期)2021-08-31 21:33:44
      “碳中和”約束下的路徑選擇
      約束離散KP方程族的完全Virasoro對稱
      火星!火星!
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      適當放手能讓孩子更好地自我約束
      人生十六七(2015年6期)2015-02-28 13:08:38
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      不等式約束下AXA*=B的Hermite最小二乘解
      东至县| 诸暨市| 双峰县| 威远县| 临颍县| 乐都县| 荣成市| 上杭县| 鄂伦春自治旗| 聊城市| 山阳县| 庆元县| 祥云县| 民丰县| 肥乡县| 镇赉县| 阿瓦提县| 志丹县| 黄骅市| 砚山县| 惠安县| 枞阳县| 江阴市| 鄂托克前旗| 广安市| 上饶市| 陆丰市| 南溪县| 建始县| 上蔡县| 岱山县| 抚顺县| 府谷县| 勐海县| 奉新县| 寿光市| 乌兰县| 沧州市| 定结县| 肃宁县| 达拉特旗|