江未來 吳俊 王耀南
摘要:針對傳統(tǒng)深度強化學(xué)習(xí)在求解無人機自主避障與目標(biāo)追蹤任務(wù)時所存在的訓(xùn)練效率低、環(huán)境適應(yīng)性差的問題,在深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入與模型無關(guān)的元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML),設(shè)計一種內(nèi)外部元參數(shù)更新規(guī)則,提出了元深度確定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta-DDPG)算法,以提升模型的收斂速度和泛化能力.此外,在模型預(yù)訓(xùn)練部分構(gòu)造基本元任務(wù)集以提升實際工程中的預(yù)訓(xùn)練效率.最后,在多種測試環(huán)境下對所提算法進行了仿真驗證,結(jié)果表明基本元任務(wù)集的引入可使模型預(yù)訓(xùn)練效果更優(yōu),Meta-DDPG算法相比DDPG算法在收斂特性和環(huán)境適應(yīng)性方面更有優(yōu)勢,并且元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強化學(xué)習(xí)具有通用性.
關(guān)鍵詞:元強化學(xué)習(xí);無人機;自主避障;目標(biāo)追蹤;路徑規(guī)劃
中圖分類號:V249.1文獻標(biāo)志碼:A
Autonomous Obstacle Avoidance and Target Tracking of UAV Based on Meta-Reinforcement Learning
JIANG Weilai1,2,WU Jun1,2,WANG Yaonan1,2
(1. College of Electrical and Information Engineering,Hunan Unviersity,Changsha 410082,China;2. National Engineering Research Center of Robot Visual Perception & Control Technology,Hunan University,Changsha 410082,China)
Abstract:There are some problems with traditional deep reinforcement learning in solving autonomous obstacle avoidance and target tracking tasks for unmanned aerial vehicles(UAV),such as low training efficiency and weak adaptability to variable environments. To overcome these problems,this paper designs an internal and external metaparameter update rule by incorporating Model-Agnostic Meta-Learning (MAML)into Deep Deterministic Policy Gradient (DDPG)algorithm and proposes a Meta-Deep Deterministic Policy Gradient (Meta-DDPG)algorithm inovder to improve the convergence speed and generalization ability of the model. Furthermore,the basic meta-task sets are constructed in the model,s pre-training stage to improve the efficiency of pre-training in practical engineering. Finally,the proposed algorithm is simulated and verified in Various testing environments. The results show thatthe introduction of the basic meta-task sets can make the model’s pre-training more efficient,Meta-DDPG algorithm has better convergence characteristics and environmental adaptability when compared with the DDPG algorithm. Furthermore,the meta-learning and the basic meta-task sets are universal to deterministic policy reinforcement learning.
Key words:meta-reinforcement learning;Unmanned Aerial Vehicle(UAV);autonomous obstacle avoidance;target tracking;path planning
隨著衛(wèi)星導(dǎo)航、信號傳輸、電氣儲能等相關(guān)技術(shù)的進步,無人機的應(yīng)用領(lǐng)域在不斷擴大,如森林防火、電力巡檢、物流運輸?shù)?這些任務(wù)的基本前提均為無人機目標(biāo)追蹤,只有追上目標(biāo)或到達指定地點才可以繼續(xù)執(zhí)行任務(wù).無人機執(zhí)行目標(biāo)追蹤任務(wù)時不可避免地會遇到障礙物,例如房屋、樹木、電線等. 如何讓無人機安全自主地避開障礙物并實現(xiàn)目標(biāo)追蹤是無人機領(lǐng)域一大研究熱點.
傳統(tǒng)避障算法有蟻群算法[1]、最短路徑制導(dǎo)向量場[2]和貝葉斯推理等.這些算法都是將避障問題轉(zhuǎn)換為優(yōu)化問題,通過求解優(yōu)化模型而得到最終的無人機飛行軌跡.但是這些方法由于存在迭代時間長、泛化能力弱、智能化水平低等缺點,無法適用于環(huán)境多變或環(huán)境未知下的避障問題.隨著人工智能技術(shù)發(fā)展,深度強化學(xué)習(xí)逐漸被運用于求解無人機自主避障與目標(biāo)追蹤問題.文獻[3-5]基于深度Q網(wǎng)絡(luò)(Deep Q Net,DQN)[6]算法完成無人機離散動作空間下路徑規(guī)劃.文獻[7-8]采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[9]算法實現(xiàn)無人機連續(xù)動作空間下目標(biāo)追蹤的自主決策.
雖然上述算法均取得了一定的成果,但是傳統(tǒng)深度強化學(xué)習(xí)算法訓(xùn)練速度慢,且只能應(yīng)對單一環(huán)境下的任務(wù),而當(dāng)障礙物環(huán)境或目標(biāo)運動軌跡改變時,智能體往往需要重新進行大量探索和訓(xùn)練.因此如何提升深度強化學(xué)習(xí)算法面對復(fù)雜動態(tài)任務(wù)時的收斂速度和適應(yīng)性成為強化學(xué)習(xí)領(lǐng)域的一大熱點和難點.
近年來,有學(xué)者將元學(xué)習(xí)與深度強化學(xué)習(xí)相結(jié)合,提出了元強化學(xué)習(xí)概念.元學(xué)習(xí)主張讓機器學(xué)習(xí)如何學(xué)習(xí),人類之所以比機器更智能是因為當(dāng)遇到一個新任務(wù)時,人類知道怎么在短時間內(nèi)得出執(zhí)行任務(wù)的要領(lǐng).Finn等[10]提出與模型無關(guān)的元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML),可適用于任何采用梯度下降更新方法的機器學(xué)習(xí)算法.Wang等[11]首次將長短期記憶網(wǎng)絡(luò)與強化學(xué)習(xí)結(jié)合,使得神經(jīng)網(wǎng)絡(luò)具有能夠獨立訓(xùn)練任務(wù)的能力.Xu等[12]提出在深度強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中添加嵌入層對上下文潛在變量進行元訓(xùn)練以提高分布式數(shù)據(jù)挖掘的效率.然而,發(fā)揮元強化學(xué)習(xí)可根據(jù)新任務(wù)自主適應(yīng)的優(yōu)勢,用以解決復(fù)雜動態(tài)環(huán)境下的無人機自主避障與目標(biāo)追蹤問題鮮有報道.
綜上,為解決傳統(tǒng)深度強化學(xué)習(xí)在求解無人機自主避障與目標(biāo)追蹤任務(wù)時收斂特性差、環(huán)境適應(yīng)性弱的問題,本文提出了一種元深度確定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta- DDPG)算法.將元學(xué)習(xí)算法MAML與深度強化學(xué)習(xí)算法DDPG相結(jié)合,在預(yù)訓(xùn)練過程中設(shè)計內(nèi)外部元參數(shù)更新規(guī)則,獲取可以適應(yīng)多種任務(wù)的元初始參數(shù).此外,構(gòu)造基本元任務(wù)集運用于Meta-DDPG算法預(yù)訓(xùn)練階段.最后仿真結(jié)果表明,采用基本元任務(wù)集使得工程應(yīng)用更加高效,Meta-DDPG算法與DDPG算法相比具有更優(yōu)的收斂特性與環(huán)境適應(yīng)性,并且元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強化學(xué)習(xí)算法具有較高的通用性.
1問題描述
1.1無人機運動模型
考慮到實際情況中無人機速度不能瞬間變化,故無人機運動方程可表示為
式中:n為無人機t時刻的加速度大??;α為加速度方向與水平線的夾角.
1.2無人機自主避障與目標(biāo)追蹤任務(wù)建模
為了更好地描述無人機自主避障與目標(biāo)追蹤任務(wù),將其定義為馬爾可夫決策過程(Markov decision process,MDP). MDP由狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率P、獎勵函數(shù)R和折扣因子γ組成,并以元組表示為(S,A,P,R,γ).在該任務(wù)中狀態(tài)空間S為無人機的本體狀態(tài)與傳感器采集的環(huán)境信息;動作空間A為無人機采取的追蹤動作;狀態(tài)轉(zhuǎn)移概率P[s丨s,a]為狀態(tài)s下執(zhí)行動作a轉(zhuǎn)移到s的概率;獎勵函數(shù)R為在狀態(tài)s下采取動作a,無人機可以獲得的即時獎勵,即R(s,a);折扣因子γ為未來獎勵對當(dāng)前狀態(tài)的影響因素.在此定義動作值函數(shù)的貝爾曼方程為
式中:π表示智能體所采取的動作序列,稱為策略;
Q(s,a)表示在狀態(tài)s處,采取動作a后,所得到的折扣累計獎勵的期望.根據(jù)Q(s,a)值大小可評估策略π的優(yōu)劣.
1.2.1狀態(tài)空間S
狀態(tài)空間S為智能體自身狀態(tài)和環(huán)境信息的集
最終狀態(tài)空間S記作
1.2.2動作空間A
動作空間A為智能體可執(zhí)行的動作.由于無人機速度不能瞬間變化,所以動作空間由加速度大小n和加速度方向與水平線的夾角α組成,同樣進行歸一化為
式中,n為無人機最大加速度.
所以動作空間A記作
A=[n′,α′](7)
深度強化學(xué)習(xí)算法最終目標(biāo)是獲得最優(yōu)策略π,即在任意狀態(tài)s下所執(zhí)行的動作a.
1.2.3獎勵函數(shù)R
獎勵函數(shù)的設(shè)定對深度強化學(xué)習(xí)的訓(xùn)練結(jié)果至關(guān)重要,不同的獎勵函數(shù)對模型收斂特性影響都不同.此任務(wù)中,若采用稀疏獎勵,也即只在無人機追蹤成功或失敗后才反饋獎勵,會造成收斂速度緩慢的問題.因此本文設(shè)置連續(xù)獎勵函數(shù)為
2DDPG算法
DDPG是一種處理連續(xù)狀態(tài)空間和動作空間問題的確定性策略強化學(xué)習(xí)算法.傳統(tǒng)演員-評論家(Actor-Critic,AC)算法中演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)在訓(xùn)練時往往不穩(wěn)定.DDPG算法針對此問題,分別構(gòu)建了一對結(jié)構(gòu)完全相同的評估(Eval)神經(jīng)網(wǎng)絡(luò)和目標(biāo)(Target)神經(jīng)網(wǎng)絡(luò).其中Eval神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練更新網(wǎng)絡(luò)參數(shù),Target神經(jīng)網(wǎng)絡(luò)采用軟更新的方式來跟隨Eval神經(jīng)網(wǎng)絡(luò)參數(shù),保證訓(xùn)練過程的穩(wěn)定性.
對于演員Eval網(wǎng)絡(luò),可訓(xùn)練參數(shù)為θ,輸入為狀態(tài)s,輸出為動作a.演員Eval神經(jīng)網(wǎng)絡(luò)損失函數(shù)為
Target神經(jīng)網(wǎng)絡(luò)采用式(14)周期性地進行軟更新,其中τ是常數(shù).
3MAML
元學(xué)習(xí)使智能體具有學(xué)會學(xué)習(xí)的能力[14].元學(xué)習(xí)的重點在于如何在模型中引入先驗知識,并在訓(xùn)練過程中優(yōu)化外部記憶,從而在訓(xùn)練新任務(wù)時更快更準(zhǔn)確地學(xué)習(xí).MAML與其他深度學(xué)習(xí)算法不同之處在于其不是尋找完成某個任務(wù)的最優(yōu)參數(shù),而是通過訓(xùn)練一系列與任務(wù)相關(guān)的元任務(wù)來尋找使模型在面對新任務(wù)時快速達到最優(yōu)的初始參數(shù)η.η具有對新任務(wù)學(xué)習(xí)域分布的敏感特性,在面臨新任務(wù)時可使訓(xùn)練模型內(nèi)部的某些特征更容易地在多種任務(wù)之間相互轉(zhuǎn)換,經(jīng)過幾步更新后即可獲得最優(yōu)的模型網(wǎng)絡(luò)參數(shù).MAML梯度下降過程如圖2所示.圖中,η表示經(jīng)過MAML預(yù)訓(xùn)練后得到的初始化參數(shù);L,L,L分別表示新任務(wù)的損失函數(shù);▽表示梯度算子;η,η,η表示在新任務(wù)下的最優(yōu)更新方向.
4元強化學(xué)習(xí)
在深度強化學(xué)習(xí)的訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)的不確定性往往會導(dǎo)致算法收斂特性較差,且訓(xùn)練的結(jié)果是一個僅適應(yīng)當(dāng)前任務(wù)和環(huán)境的策略.針對深度強化學(xué)習(xí)實施過程中存在的上述問題,本文在DDPG算法中引入MAML,提出一種元強化學(xué)習(xí)算法——Meta-DDPG算法.其基本思想是設(shè)計一種內(nèi)外部元參數(shù)更新規(guī)則以獲得一組元初始參數(shù),提高模型面對不同任務(wù)的收斂速度和環(huán)境適應(yīng)性.
4.1基本元任務(wù)集
環(huán)境適應(yīng)性是指模型面對一個新任務(wù)環(huán)境時經(jīng)過少量訓(xùn)練便可獲取正確策略的能力.元強化學(xué)習(xí)需要利用元任務(wù)集獲得先驗知識而提升模型的環(huán)境適應(yīng)性,大部分元強化學(xué)習(xí)中的元任務(wù)集與實際任務(wù)場景相似[15-16].若把多種不同的復(fù)雜測試環(huán)境作為求解無人機自主避障與目標(biāo)追蹤問題的元任務(wù)集,使用Meta-DDPG算法進行預(yù)訓(xùn)練將花費大量時間,降低工程效率.為此,根據(jù)MAML中元任務(wù)的定義,將一個復(fù)雜多變的整體任務(wù)分解為多個只完成單一子任務(wù)目標(biāo)的基本元任務(wù),并將它們構(gòu)成基本元任務(wù)集T={T,T,…,T},其中T為第j個基本元
在無人機自主避障與目標(biāo)追蹤任務(wù)中,基本元任務(wù)集中包含無人機追蹤與無人機避障兩個基本元任務(wù),如圖3所示.在Meta-DDPG算法預(yù)訓(xùn)練中,首先學(xué)習(xí)無人機在無障礙物環(huán)境下靜態(tài)目標(biāo)追蹤策略,然后學(xué)習(xí)無人機在簡單障礙物環(huán)境下的自主避障策略,最終獲得一個可以適應(yīng)自主避障和目標(biāo)追蹤新任務(wù)的元初始參數(shù).由于基本元任務(wù)都較為簡單,只需要較少幕數(shù)便可獲取其中的先驗知識,提高了預(yù)訓(xùn)練的效率.
4.2Meta-DDPG算法
Meta-DDPG算法分為預(yù)訓(xùn)練和整體任務(wù)訓(xùn)練兩部分.在預(yù)訓(xùn)練中,設(shè)計一種內(nèi)外部元參數(shù)更新規(guī)則,內(nèi)部網(wǎng)絡(luò)訓(xùn)練和外部元參數(shù)更新以一定的頻率交替進行.內(nèi)部網(wǎng)絡(luò)依次學(xué)習(xí)各個基本元任務(wù)獲得不同的內(nèi)部參數(shù),外部元參數(shù)更新通過優(yōu)化不同的參數(shù)獲得一個環(huán)境適應(yīng)性較強的元初始參數(shù).在整體任務(wù)訓(xùn)練中,對于不同測試環(huán)境下無人機自主避障與目標(biāo)追蹤,Meta-DDPG算法僅通過少量訓(xùn)練幕數(shù)就能快速收斂,獲取正確動作策略.
Meta-DDPG預(yù)訓(xùn)練中內(nèi)部參數(shù)更新可描述為依次對每個基本元任務(wù)的訓(xùn)練過程,利用Meta-DDPG中Eval神經(jīng)網(wǎng)絡(luò)與Target神經(jīng)網(wǎng)絡(luò)配合不斷更新獲得適用于基本元任務(wù)的神經(jīng)網(wǎng)絡(luò)內(nèi)部參數(shù).對于外部元參數(shù)更新,可描述為對基本元任務(wù)集的神經(jīng)網(wǎng)絡(luò)參數(shù)二次梯度優(yōu)化過程.外部周期性地對元參數(shù)進行更新,更新規(guī)則為
以基本元任務(wù)T為例,當(dāng)Meta-DDPG網(wǎng)絡(luò)內(nèi)部更新一定步數(shù)后外部元參數(shù)也進行更新.在每個基本元任務(wù)交替過程中,將外部元參數(shù)賦值給內(nèi)部參數(shù)作為下一個基本元任務(wù)T的初始參數(shù),直至遍歷完基本元任務(wù)集后獲得整體任務(wù)的元初始參數(shù). 預(yù)訓(xùn)練流程如算法1所示.
通過以上算法可獲得無人機自主避障與目標(biāo)追蹤任務(wù)的元初始參數(shù)θ0、w.訓(xùn)練整體任務(wù)時利用此參數(shù)初始化,模型可充分利用先驗知識,僅需少量迭代便可收斂并獲得完成任務(wù)的策略,后續(xù)對整體任務(wù)的訓(xùn)練過程與DDPG算法相同,在此不再贅述. 另需指出的是,本文所提出的Meta-DDPG算法面對新任務(wù)時不必重復(fù)預(yù)訓(xùn)練,只需使用元初始參數(shù)進行網(wǎng)絡(luò)初始化.
5仿真結(jié)果與分析
使用Meta-DDPG算法求解無人機自主避障與目標(biāo)追蹤任務(wù).設(shè)定追蹤場景為600 m×600 m的二維正方形領(lǐng)域,場景中存在多個障礙物,并且當(dāng)目標(biāo)感知無人機靠近時會產(chǎn)生逃逸動作.無人機可利用GPS等設(shè)備獲取目標(biāo)位置且通過傳感器獲取與障礙物的距離.當(dāng)無人機自主避開障礙物并追蹤到目標(biāo)視為任務(wù)成功;當(dāng)無人機撞上障礙物、無人機或目標(biāo)離開正方形領(lǐng)域兩種情況視為任務(wù)失敗.
5.1實驗參數(shù)
5.2深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
根據(jù)式(5)知狀態(tài)空間S包含7個參數(shù),故演員深度神經(jīng)網(wǎng)絡(luò)為7維輸入;由式(7)動作空間A包含2個參數(shù),故為2維輸出.評論家深度神經(jīng)網(wǎng)絡(luò)輸入為當(dāng)前狀態(tài)與演員深度神經(jīng)網(wǎng)絡(luò)輸出的動作,故為9維輸入;輸出為行為值Q(s,a),故為1維輸出.由上可設(shè)演員和評論家深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別為7×256×256×256×2和9×256×256×256×1.
演員深度神經(jīng)網(wǎng)絡(luò)中,輸出動作均歸一化至[- 1,1],輸出層使用Tanh激活函數(shù),其余層均使用Relu激活函數(shù).評論家深度神經(jīng)網(wǎng)絡(luò)中,輸出層為線性激活函數(shù)以確保行為值Q(s,a)正常輸出,其余層也均使用Relu激活函數(shù).
5.3實驗結(jié)果
5.3.1基本元任務(wù)集預(yù)訓(xùn)練效果驗證
構(gòu)造基本元任務(wù)集,將無人機自主避障與目標(biāo)追蹤任務(wù)分解為無人機追蹤與無人機避障兩個基本元任務(wù)并分別構(gòu)建經(jīng)驗回放池,如圖3所示.作為對比,將圖5中兩個復(fù)雜測試環(huán)境下動態(tài)目標(biāo)追蹤任務(wù)作為復(fù)雜元任務(wù)集.使用Meta-DDPG算法,對兩種元任務(wù)集各進行共200幕預(yù)訓(xùn)練.整體任務(wù)為圖6(2)中測試環(huán)境(1)下的無人機自主避障與目標(biāo)追蹤.
利用平均獎勵值的收斂特性來衡量網(wǎng)絡(luò)的預(yù)訓(xùn)練效果.如圖6(b)所示,可知在每個元任務(wù)訓(xùn)練100 幕的情況下,當(dāng)采用基本元任務(wù)集時可以更充分地利用先驗知識獲得適應(yīng)整體任務(wù)的元初始參數(shù).平均獎勵值的上升速度與收斂特性都優(yōu)于復(fù)雜元任務(wù)集.Meta-DDPG算法整體任務(wù)測試結(jié)果如圖6(a)所示.
5.3.2Meta-DDPG收斂特性驗證
使用5.3.1節(jié)中預(yù)訓(xùn)練獲得的元初始參數(shù),在圖7(a)測試環(huán)境(2)中進行500幕訓(xùn)練后測試.為了更好地體現(xiàn)Meta-DDPG在收斂速度上的優(yōu)勢,使用不經(jīng)預(yù)訓(xùn)練的DDPG算法與之比較.利用平均獎勵值的收斂特性和Tensorboard中演員Eval神經(jīng)網(wǎng)絡(luò)的Loss值來衡量算法的性能,仿真曲線分別如圖7(b)、圖7(c)所示.
由圖7(b)可知,使用Meta-DDPG算法時,平均獎勵值在訓(xùn)練伊始就迅速上升,且經(jīng)過150幕訓(xùn)練后逐漸達到收斂.由圖7(c)知元初始參數(shù)可使演員Eval網(wǎng)絡(luò)Loss值迅速下降,并在訓(xùn)練120幕后在一個較低的范圍內(nèi)波動.使用Meta-DDPG訓(xùn)練500幕所得模型進行測試,測試結(jié)果如圖7(a)所示,由圖知無人機可自主繞過障礙物并準(zhǔn)確地追上逃逸的目標(biāo). 而DDPG算法由于先驗知識缺失、探索效率低、經(jīng)驗樣本質(zhì)量差等原因,在較短的訓(xùn)練幕數(shù)與較少的經(jīng)驗池容量下陷入錯誤的局部最優(yōu),無法得到完成此任務(wù)的策略.圖7(b)可知平均獎勵曲線無法正確地收斂,平均獎勵始終小于0.圖7(c)可知DDPG無法通過訓(xùn)練使演員Eval網(wǎng)絡(luò)Loss函數(shù)梯度下降,loss值始終大于0.
5.3.3Meta-DDPG環(huán)境適應(yīng)性驗證
為了突出Meta-DDPG算法的環(huán)境適應(yīng)性,在如圖8(a)所示障礙物大小不同、目標(biāo)運動軌跡不同的測試環(huán)境(3)中,使用與5.3.2節(jié)相同的元初始參數(shù)進行訓(xùn)練與測試.作為對比,使用能夠在測試環(huán)境(1)中完成任務(wù)的DDPG算法模型進行訓(xùn)練.由圖8(b)可知,Meta-DDPG算法的平均獎勵在訓(xùn)練伊始就快速上升,150幕后相對穩(wěn)定,環(huán)境適應(yīng)性較強.而DDPG算法的平均獎勵值在350幕才開始上升,且在500幕內(nèi)尚未收斂.Meta-DDPG算法整體任務(wù)測試結(jié)果如圖8(a)所示.
5.3.4元學(xué)習(xí)方法與基本元任務(wù)集通用性驗證
為了體現(xiàn)元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強化學(xué)習(xí)算法的通用性,將其運用于與DDPG 算法同為確定性策略的雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)[17]算法,構(gòu)造Meta-TD3算法.使用圖3的基本元任務(wù)集預(yù)訓(xùn)練,并在測試環(huán)境(2)-(3)中對其收斂特性和環(huán)境適應(yīng)性進行仿真驗證,仿真結(jié)果見圖9.
由圖9(a)可知,Meta-TD3算法與Meta-DDPG算法結(jié)果類似,均可在較短訓(xùn)練幕數(shù)與較小經(jīng)驗池容量下充分利用元初始參數(shù)內(nèi)的先驗知識,平均獎勵曲線在250幕后逐漸收斂.而TD3算法在此情況下同樣陷入錯誤的局部最優(yōu),無法正確收斂且平均獎勵始終小于0.由圖9(b)可知Meta-TD3算法面對新測試環(huán)境時可在300幕后逐漸達到收斂,具有較高的環(huán)境適應(yīng)性.以上表明元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強化學(xué)習(xí)算法具有較好的通用性,且元強化學(xué)習(xí)方法能夠有效地解決傳統(tǒng)深度強化學(xué)習(xí)算法中存在的收斂特性差、面對新任務(wù)泛化能力弱的問題.
6結(jié)論
本文對無人機自主避障與目標(biāo)追蹤任務(wù)進行建模,將深度強化學(xué)習(xí)算法DDPG與元學(xué)習(xí)算法MAML結(jié)合,并設(shè)計一種內(nèi)外部元參數(shù)更新規(guī)則,提出元強化學(xué)習(xí)算法Meta-DDPG.該算法能夠有效地解決傳統(tǒng)深度強化學(xué)習(xí)存在的收斂特性差、面對新任務(wù)泛化能力弱的問題.此外,構(gòu)建基本元任務(wù)集以提升工程應(yīng)用時預(yù)訓(xùn)練的效率.仿真結(jié)果表明,在求解無人機自主避障與目標(biāo)追蹤任務(wù)時,不論是對于該無人機任務(wù)訓(xùn)練的收斂特性,還是面對不同任務(wù)的環(huán)境適應(yīng)性,Meta-DDPG算法與DDPG算法對比都有著顯著的提高.同時,使用基本元任務(wù)集進行預(yù)訓(xùn)練時,比傳統(tǒng)元任務(wù)集更為高效.且元學(xué)習(xí)方法和基本元任務(wù)集對于確定性策略強化學(xué)習(xí)算法具有較好的通用性.
參考文獻
[1]馬小銘,靳伍銀.基于改進蟻群算法的多目標(biāo)路徑規(guī)劃研究[J].計算技術(shù)與自動化,2020,39(4):100-105.
MA X M,JIN W Y. Mulit-objcctive path planning based on improved and colony algorithm [J]. Computing Technology and Automation,2020,39(4):100-105. (In Chinese).
[2]XU H T,HINOSTROZA M A,GUEDES SOARES C G. Modified vector field path-following control system for an underactuated autonomous surface ship modelin the presence of static obstacles [J]. Journal of Marine Science and Engineering,2021,9(6):652.
[3]ZHANG TK,LEI J Y,LIU Y W,et al. Trajectory optimization for UAV emergency communication with limited user equipment energy:a safe-DQN approach [J]. IEEE Transactions on Green Communications and Networking,2021,5(3):1236-1247.
[4]HUANG H J,YANG Y C,WANG H,et al. Deep reinforcement learning for UAV navigation through massive MIMO technique [J]. IEEE Transactions on Vehicular Technology,2020,69(1):1117-1121
[5] WU X,CHEN H L,CHEN C G,et al. The autonomous navigation and obstacle avoidance for USVs with ANOA deep reinforcement learning method[J]. Knowledge-Based Systems,2020,196:105201.
[6]MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015,518(7540):529-533.
[7]YOU S X,DIAO M,GAO L P,et al. Target tracking strategy using deep deterministic policy gradient[J] Applied Soft Comput- ing,2020,95:106490.
[8] HU Z J,WAN K F,GAO X G,et al. Deep reinforcement learning approach with multiple experience pools for UAV’s autonomous motion planning in complex unknown environments [J]. Sensors (Basel,Switzerland),2020,20(7):1890.
[9]LILLICRAP T P,HUNT J J,PRITZEL A,et al Continuous control with deep reinforcement learning [EB/OL]. 2015:arXiv:1509.02971 [cs. LG]. https://arxiv.org/abs/1509.02971.
[10] FINN C,ABBEEL P,LEVINE S Model-agnostic meta-learning for fast adaptation of deep networks[EB/OL]. 2017:arXiv:1703.03400[cs. LG]. https://arxiv.org/abs/1703.03400.
[11] WANG J X,KURTH-NELSON Z,TIRUMALA D,et al. Learning to reinforcement learn[EB/OL] 2016:arXiv:1611.05763[cs LG] https://arxiv.org/abs/1611.05763.
[12] XU J Y,YAO L,LI L,et al Argumentation based reinforcement learning for meta-knowledge extraction[J]. Information Sciences,2020,506:258-272
[13]張耀中,許佳林,姚康佳,等.基于DDPG算法的無人機集群追擊任務(wù)[J].航空學(xué)報,2020,41(10):324000.
ZHANG Y Z,XU J L,YAO K J,et al Pursuit missions for UAV swarms based on DDPG algorithm[J] Acta Aeronautica et Astro- nautica Sinica,2020,41(10):324000. (In Chinese).
[14]陸嘉猷,凌興宏,劉全,等.基于自適應(yīng)調(diào)節(jié)策略熵的元強化學(xué)習(xí)算法[J].計算機科學(xué),2021,48(6):168-174.
LU J Y,LING X H,LIU Q,et al Meta-reinforcement learning algorithm based on automating policy entropy[J] Computer Sci- ence,2021,48(6):168-174 (In Chinese).
[15] HU Y,CHEN M Z,SAAD W,et al Distributed multi-agent meta learning for trajectory design in wireless drone networks[J] IEEE Journal on Selected Areas in Communications,2021,39 (10):3177-3192.
[16] BELKHALE S,LI R,KAHN G,et al Model-based metareinforcement learning for flight with suspended payloads [J] IEEE Robotics and Automation Letters,2021,6(2):1471-1478
[17] FUJIMOTO S,VAN HOOF H,MEGER D Addressing function approximation error in actor-critic methods[EB/OL]. 2018:arXiv:1802.09477[cs. AI]. https://arxiv.org/abs/1802.09477.