• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強化學習的無人機著陸軌跡跟蹤控制

      2020-02-12 02:22:58宋欣嶼王英勛蔡志浩趙江陳小龍宋棟梁
      航空科學技術 2020年1期
      關鍵詞:固定翼力矩軌跡

      宋欣嶼,王英勛蔡志浩趙江陳小龍,宋棟梁

      1.北京航空航天大學自動化科學與電氣工程學院,北京 100191

      2.航空工業(yè)自控所飛行器控制一體化技術國防科技重點實驗室,陜西 西安 710065

      固定翼無人機沒有人員傷亡的風險,還有著機動性能強、飛行速度快、航程遠、成本低、重量(質(zhì)量)輕等多種優(yōu)點,在很多領域得到了廣泛的應用。在民用上,固定翼無人機可被用于資源探測、森林防火、城市規(guī)劃、大氣監(jiān)測、邊境及海岸線巡邏等領域。在軍用上,可執(zhí)行空中偵察、戰(zhàn)情評估、電子干擾、對地攻擊、攔截巡航導彈,甚至空中格斗等多種任務[1]。隨著科技的發(fā)展,無人機的自主飛行技術日益成熟,但自主著陸仍然是一大難點。據(jù)統(tǒng)計,起飛和著陸是無人機最容易發(fā)生事故的階段,而其中著陸最為嚴重[2]。在很大程度上,軌跡跟蹤控制如果不夠精確,無人機的飛行安全、任務的完成效果都會受到極大的影響。在飛行安全要求極高的著陸過程中,軌跡跟蹤控制顯得格外重要[3,4]。

      針對無人機的軌跡跟蹤控制問題,眾多學者提出了多種不同的控制方法,如最為經(jīng)典的PID控制方法、魯棒性較好的滑??刂品椒?、在線辨識改變控制器參數(shù)的自適應控制方法等,這些方法雖然都通過了試驗的驗證,但都有著各自的不足。PID算法最早被用于實際應用中,也最為經(jīng)典,但它需要人工整定參數(shù),需要經(jīng)過大量的嘗試不斷調(diào)整,十分繁瑣?;?刂品椒m然響應速度很快,魯棒性也較強,但它存在抖動的問題,需要配合其他方法一起使用。2016年人工智能機器人AlphaGo 戰(zhàn)勝了圍棋世界冠軍李世石,這場人機大戰(zhàn)使人工智能走進了人們的視野。隨著人工智能的不斷發(fā)展,作為人工智能重要組成部分的強化學習算法的研究也日益深入,目前強化學習在諸多領域都取得了成功的應用,如機器人控制領域[5,6]、多智能體編隊控制問題[7,8]等。

      最早將強化學習應用到無人機控制領域中的是斯坦福大學的吳恩達教授[9],他選擇了Yamaha R-50無人直升機作為控制對象。這一直升機全長約3.6m,負載可高達20kg,機上載有一臺飛控計算機和多種傳感器[10]。吳恩達根據(jù)卡內(nèi)基梅隆大學的Bernard Mettler 團隊的方法建立了Yamaha R-50 無人直升機的12 階模型[11,12],利用強化學習中隨機策略搜索算法的思想對直升機進行訓練,使其可以維持穩(wěn)定的懸停狀態(tài),試驗結果顯示了強化學習懸停控制器具有很好的控制效果。此后他又利用強化學習使直升機能完成其他如原地轉(zhuǎn)彎、倒飛、360°翻轉(zhuǎn)等難度更高的動作,均取得了良好的效果。他的學生Pieter Abbeel 利用強化學習中學徒學習的算法,從專業(yè)飛手的任務演示中獲取訓練集進行學習,設計出了直升機的控制器,這一算法極大地提高了直升機控制的自主性,抗干擾能力也較強。

      強化學習方法雖然獲得了一些有效的應用,但是大多數(shù)特征狀態(tài)需要人工設定,在面對高維數(shù)據(jù)所表示的復雜環(huán)境時,難以找到合適的特征表達方法,容易陷入維數(shù)災難問題。而深度學習網(wǎng)絡無須人類干預,可以自動進行特征提取[13]。因而將深度學習與強化學習相結合,由強化學習定義任務的模型目標及優(yōu)化的方向,深度學習給出表征問題以及解決問題的方式,就可以更好地解決高維連續(xù)空間的控制問題。

      針對固定翼無人機著陸軌跡跟蹤控制問題,本文基于大量的訓練設計了深度強化學習軌跡跟蹤控制器,仿真試驗結果表明,這一控制方法實現(xiàn)了對固定翼無人機著陸軌跡的一體化跟蹤控制且控制精度優(yōu)于PID控制方法。

      1 固定翼無人機建模

      本文選取了Ultra Stick 25E無人機(見圖1)作為參考對象。這是一架小型商用無線電遙控固定翼無人機,該無人機具有傳統(tǒng)的水平和垂直尾翼,采用對稱翼型機翼,并具有副翼和襟翼操縱面。其所有操縱面均由Hitec 伺服系統(tǒng)驅(qū)動,推進系統(tǒng)由一臺功率為600W 的E-Flite 電動機和APC 12×6的螺旋槳組成[14]。

      無人機是一個十分復雜的多輸入多輸出的非線性系統(tǒng),若考慮飛行過程中所有的因素會給建模帶來極大的難度。由于本文的小型固定翼無人機在大氣層內(nèi)飛行,飛行速度和高度有限,因此可以做出合理地假設以簡化模型。作用在無人機上的重力、推力、空氣動力和力矩是因為不同的原因而產(chǎn)生的,合理地選擇坐標系分析受力有助于簡化計算。本文選擇了地面坐標系來分析無人機受到的重力作用,選擇機體坐標系分析無人機受到的推力和力矩的影響,選擇氣流坐標系來描述無人機受到的空氣動力和力矩。

      在分析無人機所受力與力矩時,主要分為了三個部分。

      (1)重力

      無人機受到的重力是一個慣性矢量,由于假設質(zhì)量和重力加速度不變,因此大小恒定,由于重力作用于無人機的質(zhì)心,因此不會產(chǎn)生力矩。

      (2)推力

      本文所研究的無人機的推力由電機驅(qū)動螺旋槳轉(zhuǎn)動獲得,由于電機數(shù)據(jù)無法從制造商處獲得,因此利用商業(yè)軟件MotorCalc[15]獲取數(shù)據(jù)對推進系統(tǒng)進行建模。選擇具有零空速的靜態(tài)飛行條件,模擬油門輸入從0 逐步增加到1,步長為0.1時,無人機受到的推力。利用Matlab對這些數(shù)據(jù)進行三次多項式插值處理,獲得無人機受到的推力T與油門輸入δT的關系。

      (3)空氣動力

      本文研究的無人機的主要操縱面有升降舵、副翼和方向舵,操縱面主要通過影響空氣動力來控制無人機的飛行狀態(tài)。設總空氣動力沿氣流坐標系各軸的分量分別為XA、YA、ZA,總空氣動力矩沿機體坐標系各軸的分量分別為、MA、NA。通常用D、L、Y分別表示阻力、升力和側力,于是有D=XA,L=-ZA,Y=YA。設ρ為空氣密度(取ρ=1.225kg/m3),V為空速,SW為機翼參考面積,b為機翼展長,c為機翼平均幾何弦長,q為動壓分別為滾轉(zhuǎn)、俯仰、偏航角速度,δe、δr、δa分別為升降舵、方向舵、副翼偏轉(zhuǎn)角,則有:

      (1)氣流坐標系的下空氣動力

      升力:

      阻力:

      側力:

      (2)機體坐標系下的空氣動力矩

      滾轉(zhuǎn)力矩:

      俯仰力矩:

      偏航力矩:

      將這三部分整合到一起,結合無人機的運動學與動力學方程,即可根據(jù)每一時刻無人機的狀態(tài)矢量x=(u,v,w,φ,θ,ψ,p,q,r,xg,yg,h)T和 控 制 輸 入 矢 量u=(δT,δe,δr,δa)T得知任何時刻無人機的運動狀態(tài),仿真模型示意圖如圖2所示。

      圖2 無人機仿真模型Fig.2 Simulation model of UAV

      2 著陸軌跡跟蹤控制方法

      2.1 無人機著陸軌跡設計

      由于固定翼無人機一般有著固定的航跡切換點,在切換時對速度和姿態(tài)也有著一定的要求,所以進近段的著陸軌跡無論是形式還是參數(shù)都較為固定,適合離線規(guī)劃[17]。本文在設計無人機的進近段著陸軌跡時,主要考慮了如圖3所示的4個階段,即定高、下滑、拉平及滑跑。

      圖3 著陸過程示意圖Fig.3 Diagram of landing process

      根據(jù)無人機的有關參數(shù),本文設計的著陸軌跡定高飛行的高度H1為15m,進場速度Venter為15m/s,下滑段下滑角γ為5°,拉平段選擇指數(shù)拉平,其中拉平時間常數(shù)τ為2.6970s。無人機接地后進入滑跑階段,這一階段只需要調(diào)整偏航角使無人機能對準跑道中心即可,不需要進行軌跡規(guī)劃,本文不對這一階段進行控制和研究。根據(jù)上述內(nèi)容,為Ultra Stick 25E無人機設計的著陸軌跡如圖4所示。

      圖4 著陸軌跡Fig.4 Landing trajectory

      2.2 PID軌跡跟蹤控制器

      由于本文主要研究縱向著陸的軌跡跟蹤控制,所以假設固定翼無人機橫側向所受的力與力矩始終為0,滾轉(zhuǎn)角、偏航角、滾轉(zhuǎn)角速度、偏航角速度、橫側向的速度和位移也始終保持0,在設計PID 軌跡跟蹤控制器時,也只考慮了縱向。

      軌跡控制(外環(huán))是建立在姿態(tài)控制(內(nèi)環(huán))基礎上的,在控制高度時,首先要對俯仰角進行控制,然后在此基礎上設計縱向下降速度的控制器,在最外環(huán)設計高度的跟蹤控制器,高度控制原理如圖5 所示。在控制縱程時也是同理,先設計了速度的控制器,在外環(huán)設計縱程跟蹤控制器(見圖6)。

      2.3 深度強化學習軌跡跟蹤控制方法

      在強化學習中,通常將可以通過學習來自動獲取有價值的信息的機器稱作智能體,應具備必要的計算能力。強化學習的基本原理如圖7 所示,智能體在完成某一項任務時,首先要通過產(chǎn)生一個動作at來與環(huán)境進行交互,在動作at和環(huán)境的共同作用下,智能體會產(chǎn)生新的狀態(tài)st+1,環(huán)境會給出一個同步的回報rt+1,智能體根據(jù)新的狀態(tài)st+1產(chǎn)生新的動作at+1,繼續(xù)與環(huán)境交互。按照這種方式不斷循環(huán)下去,在智能體和環(huán)境不斷交互的過程中(見圖8)會產(chǎn)生大量的數(shù)據(jù),強化學習算法,利用這些數(shù)據(jù)修改自身產(chǎn)生動作的策略,再與環(huán)境交互,進而產(chǎn)生大量新的數(shù)據(jù),并利用新的數(shù)據(jù)進一步學習以改善自身的動作策略。經(jīng)過多次的迭代和學習后,智能體最后就可以學到能完成期望的任務所對應的最優(yōu)的動作策略。

      圖5 高度控制框圖Fig.5 Block diagram of height control

      圖6 縱程控制框圖Fig.6 Block diagram of longitudinal length control

      圖7 強化學習基本框架圖Fig.7 Basic framework of reinforcement learning

      圖8 智能體與環(huán)境的交互過程示意圖Fig.8 Schematic diagram of the interaction process between the agent and the environment

      根據(jù)動作輸出連續(xù)還是離散,可以將強化學習算法分為值函數(shù)方法和策略梯度方法。采用值函數(shù)近似的方法,需要將輸出的動作進行離散化,但對固定翼無人機輸出的舵偏和油門指令進行離散會產(chǎn)生很大的動作空間,很難保證訓練結果一定收斂。一方面會導致輸出的舵偏和油門指令不夠準確,另一方面過于離散的控制指令也不符合無人機的機械特性。同時,由于強化學習具有較強的決策能力,但對感知問題束手無策,而深度學習具有較強的感知能力,但是缺乏一定的決策能力。將深度學習的感知能力和強化學習的決策能力相結合,令二者優(yōu)勢互補,可以直接從高維原始數(shù)據(jù)學習控制策略。因此針對固定翼無人機的著陸軌跡跟蹤控制問題時,本文設計了基于深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG[18])的無人機著陸軌跡跟蹤控制器,既確保了無人機輸出的控制指令的連續(xù)性,也便于對高維連續(xù)數(shù)據(jù)的處理。

      DDPG 是一種基于Actor-Critic 框架的算法,可以用于解決連續(xù)動作空間上的深度強化學習問題,基本框架如圖9所示。單獨采用Critic網(wǎng)絡低方差,但基于貪婪策略無法處理連續(xù)的動作域,單獨使用Actor 網(wǎng)絡通過參數(shù)化可以處理連續(xù)動作域,但方差很高。Actor-Critic 結合兩者優(yōu)點,使用參數(shù)化的Actor 來根據(jù)當前狀態(tài)產(chǎn)生動作,并能處理連續(xù)動作域,使用Critic 的低方差的值函數(shù)來評估Actor產(chǎn)生的動作,產(chǎn)生一個更好的梯度估計值,改善局部優(yōu)化的問題。

      圖9 DDPG原理框圖Fig.9 Block diagram of DDPG algorithm

      DDPG 算 法 中 共 有 4 種 網(wǎng) 絡 :(1)當 前 Actor 網(wǎng) 絡μ(s;θμ);(2)當前 Critic 網(wǎng)絡Q(s,a;θQ);(3)目標 Actor 網(wǎng)絡μ(s;θμ');(4)目標 Critic 網(wǎng)絡Q(s,a;θQ')。其中,Actor 網(wǎng)絡以狀態(tài)為輸入,動作為輸出;Critic 網(wǎng)絡以狀態(tài)和動作為輸入,Q值為輸出。在訓練完一組最小批量的數(shù)據(jù)之后,更新當前網(wǎng)絡的參數(shù),然后再通過軟更新算法更新目標網(wǎng)絡的參數(shù)。目標網(wǎng)絡參數(shù)變化小,算法更為穩(wěn)定,訓練易于收斂。

      對無人機著陸軌跡跟蹤控制器進行訓練的過程如圖10所示,主要分為以下幾個步驟:(1)初始化Actor和Critic當前網(wǎng)絡的參數(shù):θμ和θQ;(2)將當前網(wǎng)絡的參數(shù)拷給對應的目標網(wǎng)絡:θμ'←θμ,θQ'←θQ;(3)初始化經(jīng)驗緩存。

      圖10 訓練過程原理圖Fig.10 Schematic diagram of the training process

      對于每個回合:

      (1)初始化Uhlenbeck-Ornstein(UO)隨機過程;

      (2)獲得無人機初始狀態(tài)s1;

      (3)重復以下過程直至到達最大步長:

      (a)Actor 網(wǎng)絡根據(jù)當前策略選擇一個動作μ(st),引入UO 隨機過程產(chǎn)生的噪聲Nt,下達指令at=μ(st|θμ)+Nt給無人機模型;

      (b)無人機執(zhí)行這一指令,返回獎勵rt和新的狀態(tài)st+1;

      (c)將狀態(tài)轉(zhuǎn)移信息(st,at,rt,st+1)存入經(jīng)驗緩存,作為訓練當前網(wǎng)絡的數(shù)據(jù)集;

      (d)從經(jīng)驗緩存中,隨機采樣N個數(shù)據(jù),作為當前Actor網(wǎng)絡和當前Critic網(wǎng)絡的訓練數(shù)據(jù),用(si,ai,ri,si+1)表示單個狀態(tài)轉(zhuǎn)移數(shù)據(jù);

      (e)通過最小化Critic網(wǎng)絡的損失函數(shù)

      更新目標Critic網(wǎng)絡(采用Adam優(yōu)化器更新θQ)。

      (f)根據(jù)Actor網(wǎng)絡的策略梯度

      更新當前Actor網(wǎng)絡(采用Adam優(yōu)化器更新θμ)。

      (g)更新目標網(wǎng)絡

      式中:0 <τ< 1。

      在訓練無人機的著陸軌跡跟蹤控制器時,本文采用的狀態(tài)為s=[u,w,θ,q,Xg,h]。由于無人機在著陸階段主要控制的是高度的變化,橫向速度基本恒定,因此油門仍由PID控制器控制,而升降舵舵偏作為訓練的動作,即a=[δe]。利用訓練好的智能體控制無人機進行著陸軌跡跟蹤的示意圖如圖11所示。

      圖11 深度強化學習控制器原理框圖Fig.11 Block diagram of controller based on DRL

      3 仿真試驗與分析

      3.1 PID軌跡跟蹤控制

      將設計的著陸軌跡中高度和縱程隨時間的變化數(shù)據(jù),作為無人機的高度指令輸入,初始條件為φ=0,θ=0,ψ=0,u= 15m/s,v= 0,w= 0,p= 0,q= 0,r= 0,xg= 0,yg= 0,h=15m,軌跡跟蹤仿真結果如圖12所示。

      在利用PID 控制器跟蹤著陸軌跡的過程中,高度的最大誤差為0.4361m??梢娝O計的PID 軌跡跟蹤控制器在控制過程中各狀態(tài)量較為平穩(wěn),且能夠以較小的誤差對預先設計好的著陸軌跡進行跟蹤,效果良好。

      3.2 深度強化學習軌跡跟蹤控制

      在訓練時,首先初始化網(wǎng)絡參數(shù)和經(jīng)驗緩存,令無人機的初始狀態(tài)為s0=(15,0,0,0,0,15),也就是在離地15m 的空中以15m/s 的速度平飛。然后對Actor 網(wǎng)絡選擇動作添加一個方差為5的隨機噪聲,方差隨訓練次數(shù)增多逐漸減少。將產(chǎn)生的動作輸入無人機模型,返回新的狀態(tài)和回報。這里的回報函數(shù)設置為:

      圖12 PID軌跡跟蹤仿真結果Fig.12 Results of trajectory tracking simulation using PID

      將數(shù)據(jù)存入經(jīng)驗緩存中,從經(jīng)驗緩存隨機采樣一組數(shù)據(jù)進行網(wǎng)絡的訓練,訓練時狀態(tài)和動作都進行了歸一化處理,并在縱程達到閾值或達到最大步長MAX_EP_STEPD時停止這一回合,計算當前回合的總的代價。重復上述過程,直到達到設置的最大訓練回合數(shù)MAX_EPISODES。以下為訓練20000個回合中回報函數(shù)最大的網(wǎng)絡控制無人機著陸軌跡的仿真結果,圖13為在DDPG軌跡跟蹤控制器控制下的無人機著陸軌跡跟蹤結果。

      可以觀察到利用DDPG算法訓練出的智能體可以控制無人機對預先設計好的著陸軌跡進行跟蹤,在控制過程中各狀態(tài)量較為平穩(wěn),高度控制的最大誤差為0.2491m。

      3.3 仿真結果分析

      與傳統(tǒng)PID 控制器高度誤差最大達0.4361m 相比,DDPG 控制方法最大高度誤差僅0.2491m,控制精度優(yōu)于PID 控制方法。但由于DDPG 的Actor 網(wǎng)絡輸出與前一刻的動作無關,所以輸出的動作連續(xù)性較差,導致中間的狀態(tài)量波動較大。與PID 控制器的效果對比如圖14 所示。

      圖13 DDPG軌跡跟蹤仿真結果Fig.13 Results of trajectory tracking simulation based on DDPG

      圖14 DDPG與PID控制結果對比Fig.14 Comparison diagram of DDPG and PID control

      仿真試驗結果表明,本文設計的基于深度強化學習方法的無人機著陸軌跡跟蹤控制器不僅免去了手動調(diào)整參數(shù)的繁瑣過程,而且在控制精度上要優(yōu)于傳統(tǒng)PID控制方法,具有研究價值。

      4 結論

      針對固定翼無人機著陸軌跡跟蹤控制問題,本文對Ultra Stick 25E 小型固定翼無人機進行了適當?shù)暮喕c運動假設,對該型無人機在不同坐標系下進行受力與力矩分析,結合無人機的運動學與動力學方程,搭建了該無人機的仿真模型。同時,根據(jù)所建模型的特性,為其離線設計了可以保證其安全著陸的著陸軌跡。本文采用深度強化學習的思想,設計了合理的獎勵函數(shù)和控制方式,通過大量的訓練得到了深度強化學習軌跡跟蹤控制器,實現(xiàn)了對固定翼無人機著陸軌跡的一體化跟蹤控制。為了檢測其控制效果,本文同時利用PID控制方法實現(xiàn)了對固定翼無人機著陸軌跡的跟蹤控制。仿真試驗結果表明,深度強化學習著陸軌跡跟蹤控制方法具有比傳統(tǒng)PID軌跡跟蹤控制方法更高的精度。

      猜你喜歡
      固定翼力矩軌跡
      垂直起降固定翼無人機串聯(lián)混電系統(tǒng)優(yōu)化設計
      軌跡
      軌跡
      一種新型固定翼無人機的研制
      電子制作(2019年7期)2019-04-25 13:18:24
      軌跡
      進化的軌跡(一)——進化,無盡的適應
      中國三峽(2017年2期)2017-06-09 08:15:29
      “V”系列固定翼無人機
      航空模型(2016年10期)2017-05-09 06:25:59
      發(fā)動機阻力矩計算和起動機介紹
      山東青年(2016年12期)2017-03-02 18:22:48
      小型力矩電機波動力矩的測量
      彈性負載力矩下舵偏轉(zhuǎn)角度的測量方法
      齐齐哈尔市| 哈密市| 宣城市| 伽师县| 孝感市| 惠州市| 娱乐| 凤庆县| 宿州市| 昆明市| 绥中县| 桑植县| 高碑店市| 广饶县| 泽州县| 赤城县| 宜兰县| 洮南市| 蓝田县| 夏津县| 大港区| 瑞金市| 宜章县| 米易县| 个旧市| 大竹县| 理塘县| 丰都县| 马山县| 祁阳县| 洛隆县| 铜梁县| 称多县| 嵩明县| 保康县| 呼玛县| 保亭| 青铜峡市| 密山市| 伊吾县| 琼结县|