李忠偉 劉偉鵬 羅偲
摘 要:針對(duì)在雜亂、障礙物密集的復(fù)雜環(huán)境下移動(dòng)機(jī)器人使用深度強(qiáng)化學(xué)習(xí)進(jìn)行自主導(dǎo)航所面臨的探索困難,進(jìn)而導(dǎo)致學(xué)習(xí)效率低下的問題,提出了一種基于軌跡引導(dǎo)的導(dǎo)航策略優(yōu)化(TGNPO)算法。首先,使用模仿學(xué)習(xí)的方法為移動(dòng)機(jī)器人訓(xùn)練一個(gè)能夠同時(shí)提供專家示范行為與導(dǎo)航軌跡預(yù)測(cè)功能的專家策略,旨在全面指導(dǎo)深度強(qiáng)化學(xué)習(xí)訓(xùn)練;其次,將專家策略預(yù)測(cè)的導(dǎo)航軌跡與當(dāng)前時(shí)刻移動(dòng)機(jī)器人所感知的實(shí)時(shí)圖像進(jìn)行融合,并結(jié)合坐標(biāo)注意力機(jī)制提取對(duì)移動(dòng)機(jī)器人未來導(dǎo)航起引導(dǎo)作用的特征區(qū)域,提高導(dǎo)航模型的學(xué)習(xí)性能;最后,使用專家策略預(yù)測(cè)的導(dǎo)航軌跡對(duì)移動(dòng)機(jī)器人的策略軌跡進(jìn)行約束,降低導(dǎo)航過程中的無效探索和錯(cuò)誤決策。通過在仿真和物理平臺(tái)上部署所提算法,實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的先進(jìn)方法,所提算法在導(dǎo)航的學(xué)習(xí)效率和軌跡平滑方面取得了顯著的優(yōu)勢(shì)。這充分證明了該算法能夠高效、安全地執(zhí)行機(jī)器人導(dǎo)航任務(wù)。
關(guān)鍵詞:移動(dòng)機(jī)器人自主導(dǎo)航;軌跡預(yù)測(cè);軌跡-圖像融合;軌跡約束;深度強(qiáng)化學(xué)習(xí)
中圖分類號(hào):TP242.6?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2024)05-025-1456-06
doi: 10.19734/j.issn.1001-3695.2023.09.0422
Autonomous navigation? policy optimization algorithm for mobile robots based on trajectory guidance
Abstract:Addressing the exploration challenges faced by mobile robots using deep reinforcement learning for autonomous navi-gation in cluttered, obstacle-dense complex environments, this paper proposed the trajectory-guided navigation policy optimization (TGNPO) algorithm. Firstly, it employed an imitation learning approach to train an expert policy? for a mobile robot, which could provide both expert demonstration behavior and navigation trajectory prediction and aimed to comprehensively guide the training of deep reinforcement learning. Secondly, it fused the predicted navigation trajectory from the expert policy with real-time images perceived by the mobile robot at the current moment. Combining the coordinate attention mechanism, it extracted feature regions which would guide the robots future navigation, thereby enhancing the learning performance of the navigation model. Finally, it utilized the navigation trajectory predicted by the expert policy to constrain the policy trajectory of the mobile robot, mitigating ineffective exploration and erroneous decision-making during navigation process By deploying the proposed algorithm on both simulation and physical platforms, experimental results demonstrated significant advantages in navigation learning efficiency and trajectory smoothness compared to existing state-of-the-art methods which fully proves the proposed algorithms capability to efficiently and safely execute robot navigation tasks.
Key words:autonomous navigation of mobile robots; trajectory prediction; trajectory-image fusion; trajectory constraint; deep reinforcement learning
0 引言
在移動(dòng)機(jī)器人領(lǐng)域,自主導(dǎo)航被視為最為普遍的任務(wù)之一。特別是在雜亂、擁擠的環(huán)境下,機(jī)器人需要有效地解決避障、軌跡平滑以及避免次優(yōu)解等問題,這增加了自主導(dǎo)航過程的復(fù)雜性和挑戰(zhàn)性。
當(dāng)面臨復(fù)雜環(huán)境時(shí),大多數(shù)傳統(tǒng)基于地圖的方法[1,2]的實(shí)現(xiàn)將變得困難。盡管已經(jīng)有一些研究[3,4]在導(dǎo)航過程中可以無須地圖信息,但是傳統(tǒng)方法在應(yīng)對(duì)復(fù)雜環(huán)境時(shí)緩慢的計(jì)算速度和對(duì)原始傳感器數(shù)據(jù)中的噪聲敏感性,降低了自主導(dǎo)航的效率。
近年來,為了解決傳統(tǒng)算法在自主導(dǎo)航問題中的不足,已經(jīng)提出了許多基于學(xué)習(xí)的方法[5~7]。其中一種稱為模仿學(xué)習(xí)(imitation learning,IL)的方法[8~10]在移動(dòng)機(jī)器人導(dǎo)航任務(wù)中實(shí)現(xiàn)了快速推理。這些方法基于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表示能力,直接將原始高維感官數(shù)據(jù)(如RGB圖像和激光雷達(dá)點(diǎn)云)作為輸入,并輸出低級(jí)控制命令(如轉(zhuǎn)向和油門)。然而,雖然IL可以高效地從專家演示中提取導(dǎo)航知識(shí),但面臨一個(gè)常見問題是分布不匹配,即模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在實(shí)際執(zhí)行中的數(shù)據(jù)上可能表現(xiàn)不佳,這是因?yàn)橛?xùn)練數(shù)據(jù)和實(shí)際執(zhí)行數(shù)據(jù)之間存在差異。
另一種基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)[11]的方法在移動(dòng)機(jī)器人自主導(dǎo)航領(lǐng)域得到廣泛應(yīng)用[12~14]。DRL方法使移動(dòng)機(jī)器人與環(huán)境互動(dòng)學(xué)習(xí),根據(jù)試錯(cuò)和獎(jiǎng)勵(lì)來改善其行為,其中一類被稱為無模型的深度強(qiáng)化學(xué)習(xí)(model-free DRL)[15~18]。盡管無模型的深度強(qiáng)化學(xué)習(xí)在某些情況下表現(xiàn)出色,但在復(fù)雜環(huán)境中,狀態(tài)空間可能變得極其龐大,包含大量不同的變量和可能的取值組合,這使得深度強(qiáng)化學(xué)習(xí)算法需要花費(fèi)大量時(shí)間和資源來探索這個(gè)龐大的狀態(tài)空間,以學(xué)習(xí)出適當(dāng)?shù)牟呗裕瑥亩鴮?dǎo)致學(xué)習(xí)效率低下。
為了提高移動(dòng)機(jī)器人的學(xué)習(xí)效率,一些研究[19,20]提出模仿學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)相結(jié)合的方法。這些方法利用僅包含專家示范行為的專家策略來指導(dǎo)智能體(移動(dòng)機(jī)器人)學(xué)習(xí),通過衡量每一時(shí)刻專家策略與DRL策略之間的差距來決定采取哪種策略,雖然一定程度上可以降低智能體的自主探索率,但是可能導(dǎo)致專家策略對(duì)智能體的學(xué)習(xí)產(chǎn)生過多干預(yù)。
針對(duì)上述問題,本文使用模仿學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)結(jié)合的框架,并受Cimurs等人[21]提出的從環(huán)境中獲得可能導(dǎo)航方向的興趣點(diǎn)(PoI)這一觀點(diǎn)的啟發(fā),提出了一種基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化方法,下文敘述中DRL策略等同于導(dǎo)航策略。TGNPO中的專家策略考慮了專家示范行為和導(dǎo)航軌跡預(yù)測(cè)。專家策略的導(dǎo)航軌跡預(yù)測(cè)具備對(duì)導(dǎo)航中的關(guān)鍵特征區(qū)域的了解,將這些預(yù)測(cè)軌跡與機(jī)器人實(shí)時(shí)感知的圖像融合,可以幫助導(dǎo)航策略模型更快地識(shí)別并了解這些特征區(qū)域,提高自主探索時(shí)模型的學(xué)習(xí)性能。同時(shí),TGNPO中的軌跡約束的關(guān)鍵在于在自主探索和專家干預(yù)之間建立平衡。機(jī)器人首先有機(jī)會(huì)自主探索環(huán)境,這有助于了解環(huán)境和積累經(jīng)驗(yàn)。然而,當(dāng)自主探索的距離大于約束距離時(shí),專家干預(yù)將確保機(jī)器人不會(huì)遠(yuǎn)離安全范圍,從而降低了進(jìn)一步探索的風(fēng)險(xiǎn)。這種平衡有助于提高學(xué)習(xí)效率,因?yàn)樗试S機(jī)器人在探索和專家干預(yù)之間取得良好的折中。本文的主要貢獻(xiàn)如下:
a)針對(duì)目前模仿學(xué)習(xí)中的專家策略都是只輸出專家示范行為,忽略專家軌跡對(duì)導(dǎo)航策略的影響這一問題,提出在每一時(shí)刻可以同時(shí)提供專家示范行為與導(dǎo)航軌跡預(yù)測(cè)功能的專家策略,更全面地指導(dǎo)移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化。
b)提出一種新穎的軌跡-圖像融合的方法,以迅速識(shí)別圖像中對(duì)移動(dòng)機(jī)器人未來導(dǎo)航具有指導(dǎo)意義的特征區(qū)域,提高導(dǎo)航模型性能。
c)提出一個(gè)新的基于軌跡約束的決策標(biāo)準(zhǔn),用于移動(dòng)機(jī)器人在特定時(shí)刻決定執(zhí)行專家示范行為還是DRL策略,以在不同情境下優(yōu)化決策。
e)提出一種適用于連續(xù)環(huán)境的懲罰-獎(jiǎng)勵(lì)機(jī)制,以提升DRL策略在模仿專家示范行為的準(zhǔn)確性。
1 問題構(gòu)建
本文討論移動(dòng)機(jī)器人在連續(xù)空間中學(xué)習(xí)自主導(dǎo)航,并將深度強(qiáng)化學(xué)習(xí)問題定義為馬爾可夫決策過程(Markov decision process,MDP)中的策略搜索。MDP由狀態(tài)空間Euclid Math OneSAp、動(dòng)作空間Euclid Math OneAAp、轉(zhuǎn)移概率Euclid Math OnePAp、獎(jiǎng)勵(lì)函數(shù)Euclid Math OneRAp:Euclid Math OneSAp×Euclid Math OneAApEuclid ExtraaApEuclid ExtraaBp,以及折扣因子γ組成。假設(shè)移動(dòng)機(jī)器人處于狀態(tài)st,依據(jù)DRL策略π選擇動(dòng)作at,π:Euclid Math OneSApEuclid ExtraaApEuclid Math OneAAp;基于選擇的動(dòng)作,移動(dòng)機(jī)器人從環(huán)境中獲得獎(jiǎng)勵(lì)rt,依據(jù)轉(zhuǎn)移概率p(st+1|st,at)到達(dá)下一個(gè)狀態(tài)st+1;重復(fù)此過程形成一條導(dǎo)航路徑τ=(st,st+1,…,sT)。
1.1 狀態(tài)空間
移動(dòng)機(jī)器人自主導(dǎo)航的狀態(tài)空間由元組(sp,sl,sg,sd)組成。其中,sp為當(dāng)前時(shí)刻的RGB圖像數(shù)據(jù),sl為激光雷達(dá)數(shù)據(jù),sg 為導(dǎo)航目標(biāo)位置,sd為移動(dòng)機(jī)器人實(shí)時(shí)方向角。圖像數(shù)據(jù)捕捉視覺特征,激光雷達(dá)數(shù)據(jù)提供障礙物和距離信息,目標(biāo)點(diǎn)位置和方向角則有助于移動(dòng)機(jī)器人進(jìn)行導(dǎo)航和位置定位。這些多模態(tài)數(shù)據(jù)類型可以提供豐富的環(huán)境信息,從而增強(qiáng)移動(dòng)機(jī)器人的環(huán)境感知能力。
1.2 動(dòng)作空間
移動(dòng)機(jī)器人的動(dòng)作空間包括連續(xù)的線性速度v和角速度w。經(jīng)過一系列仿真測(cè)試,設(shè)置v∈[0,0.6]和w∈[-1,1]。動(dòng)作空間范圍的設(shè)定經(jīng)過系統(tǒng)的分析和綜合評(píng)估,旨在深入理解移動(dòng)機(jī)器人在復(fù)雜環(huán)境中的運(yùn)動(dòng)行為。
1.3 獎(jiǎng)勵(lì)函數(shù)
獎(jiǎng)勵(lì)函數(shù)對(duì)于指導(dǎo)移動(dòng)機(jī)器人在環(huán)境中學(xué)習(xí)和優(yōu)化導(dǎo)航策略具有重要影響。本文構(gòu)建了包含碰撞情況、導(dǎo)航目標(biāo)點(diǎn)、機(jī)器人方向角與偏航角在內(nèi)的多維狀態(tài)信息的獎(jiǎng)勵(lì)函數(shù),以引導(dǎo)機(jī)器人學(xué)習(xí)適應(yīng)性的自主導(dǎo)航策略。具體的計(jì)算公式為
R(st)=Rg(st)+Rc(st)+Rh(st)+Rd(st)(1)
其中:Rg(st)為移動(dòng)機(jī)器人到達(dá)目標(biāo)點(diǎn)的獎(jiǎng)勵(lì)函數(shù),其值為rgoal;Rc(st)為碰撞獎(jiǎng)勵(lì)函數(shù),值為rcollision;Rh(st)為關(guān)于方向角與偏航角的獎(jiǎng)勵(lì)函數(shù),如式(2)所示。
其中:式(2)中的h為移動(dòng)機(jī)器人的方向角與偏航角之間的差值,用來表示移動(dòng)機(jī)器人當(dāng)前朝向與其期望朝向之間的偏差,其計(jì)算如式(3)所示;h0與h1為偏差閾值,在其范圍內(nèi),h越小,移動(dòng)機(jī)器人獲得的獎(jiǎng)勵(lì)越高。
其中:a tan2(yg-y,xg-x)為反正切函數(shù),用來計(jì)算移動(dòng)機(jī)器人的方向角;yaw為偏航角;a tan2(yg-y,xg-x)-yaw 為方向角與偏航角差值,記為h*;(x,y)為移動(dòng)機(jī)器人當(dāng)前時(shí)刻的坐標(biāo);(xg,yg)為導(dǎo)航目標(biāo)點(diǎn)坐標(biāo)。
式(1)中的Rd表示移動(dòng)機(jī)器人在當(dāng)前時(shí)刻相對(duì)于前一時(shí)刻與目標(biāo)點(diǎn)的距離的變化量,其計(jì)算公式如式(4)所示。
Rd(st)=‖ct-cg‖-‖ct-1-cg‖(4)
其中:ct為移動(dòng)機(jī)器人在t時(shí)刻的坐標(biāo),cg為導(dǎo)航的目標(biāo)點(diǎn)。
2 軌跡引導(dǎo)策略優(yōu)化
本文提出的TGPON算法框架如圖1所示,主要由四個(gè)模塊構(gòu)成,即專家策略模塊、軌跡-圖像融合模塊、DRL模塊、軌跡約束模塊。專家策略模塊在處理輸入時(shí)僅考慮了RGB圖像這一信息源。相比之下,DRL模塊具有更豐富的信息輸入,包括RGB圖像、激光雷達(dá)數(shù)據(jù)、導(dǎo)航目標(biāo)位置和方向角等多個(gè)數(shù)據(jù)維度。這種多維信息的融合使得DRL模塊具備更全面的環(huán)境感知和任務(wù)理解能力,有助于更智能地制定導(dǎo)航?jīng)Q策和學(xué)習(xí)適應(yīng)不同情況的策略。TGNPO通過軌跡-圖像融合的方法改進(jìn)DRL模塊的價(jià)值與策略網(wǎng)絡(luò),顯著提升了模型的學(xué)習(xí)性能,使模型更深入地理解環(huán)境。此外,該算法對(duì)移動(dòng)機(jī)器人在深度強(qiáng)化學(xué)習(xí)策略下生成的導(dǎo)航軌跡進(jìn)行了約束,以使機(jī)器人在處理復(fù)雜環(huán)境時(shí)表現(xiàn)得更加出色。算法流程如算法1所示。
算法1 TGNPO算法
2.1 專家策略模塊
專家策略在自主導(dǎo)航中發(fā)揮了關(guān)鍵作用,其對(duì)DRL策略的學(xué)習(xí)過程進(jìn)行了指導(dǎo)。本文通過對(duì)以往專家策略的改進(jìn),使其在每一時(shí)刻不僅能夠輸出當(dāng)前的專家示范行為,還能夠預(yù)測(cè)未來I個(gè)時(shí)間步的專家導(dǎo)航軌跡。這樣的改進(jìn)使得專家策略成為一個(gè)更為強(qiáng)大和全面的引導(dǎo)器,能夠提供更長(zhǎng)遠(yuǎn)的指引信息,指導(dǎo)DRL策略在未來的一系列時(shí)間步中作出更優(yōu)的決策。
專家策略模塊主要采用了監(jiān)督學(xué)習(xí)的方法,將專家數(shù)據(jù)(st,(aEt,wEt,…,wEt+I))中的st看作樣本輸入,此時(shí)的st僅為RGB圖像數(shù)據(jù)。(aEt,wEt,…,wEt+I)為標(biāo)簽,其中aEt為專家示范行為,(wEt,…,wEt+I)為未來I個(gè)時(shí)間步的專家導(dǎo)航軌跡,學(xué)習(xí)的目標(biāo)為
其中:Euclid Math OneLAp(πEψ(s),(a,w))為損失函數(shù),采用適用于回歸任務(wù)的MSE。πEψ(s)為要學(xué)習(xí)的專家策略網(wǎng)絡(luò),采用一種計(jì)算量小、參數(shù)少、輕量級(jí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)MobileNet-v3[22]。
2.2 軌跡-圖像融合模塊
移動(dòng)機(jī)器人當(dāng)前時(shí)刻所感知到的圖像中蘊(yùn)涵著未來導(dǎo)航軌跡的重要線索,而移動(dòng)機(jī)器人在自主導(dǎo)航中對(duì)位置信息極為敏感,準(zhǔn)確的定位對(duì)其至關(guān)重要。坐標(biāo)注意力機(jī)制(coordinate attention)[23]不僅能夠捕獲跨通道信息,還捕獲方向感知和位置信息,這有助于模型更準(zhǔn)確地定位和識(shí)別感興趣的對(duì)象。因此,本文提出將當(dāng)前時(shí)刻的未來I個(gè)時(shí)間步的專家導(dǎo)航軌跡與當(dāng)前時(shí)刻移動(dòng)機(jī)器人所感知的實(shí)時(shí)圖像狀態(tài)融合,結(jié)合坐標(biāo)注意力機(jī)制提取導(dǎo)航所需要關(guān)注的圖像中的重點(diǎn)區(qū)域。
上述步驟實(shí)現(xiàn)了軌跡與圖像的初步融合,在F上引入坐標(biāo)注意力機(jī)制對(duì)其分配注意力權(quán)重,以便模型能夠重點(diǎn)關(guān)注對(duì)導(dǎo)航起引導(dǎo)作用的特征區(qū)域。
對(duì)ZHN、ZWN進(jìn)行合并,然后使用1×1卷積變換函數(shù)F1對(duì)其進(jìn)行變換:
f=δ(F1([ZHN,ZWN]))(11)
上述方法將未來專家導(dǎo)航軌跡的特征表達(dá)FHM與FWM融合到圖像特征中,捕捉不同特征之間的關(guān)聯(lián),豐富了特征圖F的表達(dá)能力,自動(dòng)地突出那些在未來導(dǎo)航中起關(guān)鍵作用的特征區(qū)域,提高移動(dòng)機(jī)器人學(xué)習(xí)導(dǎo)航策略的效率。
2.3 DRL模塊
TGNPO算法框架可以與廣泛的深度強(qiáng)化學(xué)習(xí)算法協(xié)同工作,用于訓(xùn)練導(dǎo)航策略。本文選用了一種先進(jìn)的離線策略方法,即soft actor-critic(SAC)[25]算法,來作為DRL的訓(xùn)練框架。該方法利用兩個(gè)神經(jīng)網(wǎng)絡(luò),包括估計(jì)狀態(tài)-動(dòng)作價(jià)值的Q網(wǎng)絡(luò)Q,和策略網(wǎng)絡(luò)πθ,和θ都是參數(shù)。在每一輪訓(xùn)練迭代中,算法通過交替執(zhí)行策略評(píng)估和策略改進(jìn)來進(jìn)行訓(xùn)練。策略評(píng)估過程通過最小化熵正則化TD誤差的L2范數(shù)來更新估計(jì)的Q函數(shù):
圖3展示了策略網(wǎng)絡(luò)的結(jié)構(gòu)示意圖,而價(jià)值網(wǎng)絡(luò)的結(jié)構(gòu)與其類似。該模塊首先對(duì)激光雷達(dá)數(shù)據(jù)、導(dǎo)航目標(biāo)點(diǎn)位置以及方向角進(jìn)行特征提取得到特征向量FM1;然后,從軌跡-圖像融合模塊得到F*并將其映射成特征向量FM2;最后,將FM1與FM2進(jìn)行堆疊得到特征向量F′,再經(jīng)過幾層MLP后得到DRL策略aπ。該模塊方法將不同傳感器獲取的信息進(jìn)行堆疊,可以融合多個(gè)數(shù)據(jù)源的信息,從而獲得更全面、多樣化的特征表示。這有助于提升DRL策略網(wǎng)絡(luò)的感知能力和決策質(zhì)量。
2.4 軌跡約束模塊
在復(fù)雜場(chǎng)景中,移動(dòng)機(jī)器人面臨巨大的探索空間,其中包含許多無效的行動(dòng)路徑,這給學(xué)習(xí)自主導(dǎo)航策略帶來了挑戰(zhàn)。TGNPO將未來專家導(dǎo)航軌跡與移動(dòng)機(jī)器人自主探索軌跡之間的距離作為約束標(biāo)準(zhǔn),在特定時(shí)間步通過模仿專家示范行為來引導(dǎo)移動(dòng)機(jī)器人在復(fù)雜場(chǎng)景中進(jìn)行探索學(xué)習(xí)。兩條軌跡間的角度距離突出了軌跡的方向特征,歐拉距離突出了軌跡的空間分布特征。因此,本文結(jié)合方向與空間兩個(gè)維度來計(jì)算距離d。
本文將移動(dòng)機(jī)器人向前自主探索的步長(zhǎng)等于專家策略預(yù)測(cè)的導(dǎo)航軌跡時(shí)間步長(zhǎng)I。隨后,通過計(jì)算這I個(gè)時(shí)間步長(zhǎng)內(nèi)移動(dòng)機(jī)器人軌跡與專家軌跡的距離d,判斷是否超過了預(yù)設(shè)的距離閾值η,其計(jì)算公式如式(18)所示。
其中:d_angle為兩條軌跡的角度距離;d_euler為兩條軌跡的歐拉距離;λ1與λ2分別為角度距離與歐拉距離的權(quán)重;tr_π為移動(dòng)機(jī)器人自主探索的軌跡;tr_e為未來專家導(dǎo)航軌跡。tr_π·tr_e為兩條軌跡的點(diǎn)積;‖tr_π‖×‖tr_e‖表示分別求兩條軌跡的范數(shù)再相乘。
如果d<η,移動(dòng)機(jī)器人將在下一個(gè)時(shí)間步采取DRL策略;否則,將在下一個(gè)時(shí)間步長(zhǎng)引入專家策略進(jìn)行干預(yù),具體如圖4所示。圖5中,I=5并且d>η,在下一時(shí)刻專家將進(jìn)行干預(yù),移動(dòng)機(jī)器人執(zhí)行專家行為aE。
在此情景下,本文的目標(biāo)是通過使用專家策略的指導(dǎo),讓移動(dòng)機(jī)器人在執(zhí)行任務(wù)時(shí)更加趨向于模仿專家的行為。為了實(shí)現(xiàn)這一目標(biāo), 本文借鑒Dey等人[26]提出構(gòu)造轉(zhuǎn)移元組(st,aπt,rpt,st+1)的方法,并且改進(jìn)文獻(xiàn)[27]中的非平滑的懲罰獎(jiǎng)勵(lì)函數(shù),如式(19)所示,提出了一種基于雙曲正切函數(shù)的連續(xù)平滑的懲罰獎(jiǎng)勵(lì)函數(shù),如式(20)所示。
rpt=r-l(19)
rpt=r-|r|·tanh(‖aE-aπ‖/σ2)(20)
其中:r為正常的獎(jiǎng)勵(lì)值;l為懲罰常數(shù)項(xiàng)。式(20)中超參數(shù)σ用來控制模仿專家示范行為的精度,從而使移動(dòng)機(jī)器人在執(zhí)行任務(wù)時(shí)更加符合專家的行為模式。
3 實(shí)驗(yàn)分析
本章將通過對(duì)比實(shí)驗(yàn)來驗(yàn)證本文提出的TGNPO算法在導(dǎo)航性能方面的卓越表現(xiàn),同時(shí)旨在通過消融實(shí)驗(yàn)來找到最佳導(dǎo)航軌跡。
在對(duì)比實(shí)驗(yàn)中,TGNPO與目前深度強(qiáng)化學(xué)習(xí)先進(jìn)的SAC[25]、JIRL[26]和SAC-Lag[28]算法進(jìn)行比較。在消融實(shí)驗(yàn)中,本文測(cè)試了軌跡-圖像融合模塊中的未來專家導(dǎo)航軌跡步長(zhǎng)I與軌跡約束模塊中的軌跡距離η這兩個(gè)超參數(shù)對(duì)導(dǎo)航策略優(yōu)化的影響。
下述指標(biāo)用于評(píng)估TGNPO與其他方法之間的性能差異:
a)平均回報(bào)(average return,AR):移動(dòng)機(jī)器人從起點(diǎn)到導(dǎo)航目標(biāo)點(diǎn)所獲的平均獎(jiǎng)勵(lì)總和。
b)平均軌跡長(zhǎng)度(average trajectory length,ATL):移動(dòng)機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)的平均導(dǎo)航軌跡長(zhǎng)度。
c)平均導(dǎo)航時(shí)間(average navigation time,ANT):移動(dòng)機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)的平均導(dǎo)航時(shí)間成本。
d)平均完成率(average completion rate,ACR):移動(dòng)機(jī)器人從初始出發(fā)點(diǎn)到達(dá)碰撞點(diǎn)的距離與從初始出發(fā)點(diǎn)到導(dǎo)航目標(biāo)點(diǎn)的距離之比,ACR∈[0.97,0.99]。
3.1 仿真對(duì)比實(shí)驗(yàn)環(huán)境
本文在Gazebo仿真平臺(tái)中構(gòu)建了一個(gè)雜亂、障礙物密集的復(fù)雜環(huán)境,該環(huán)境劃分簡(jiǎn)單和復(fù)雜區(qū)域,如圖5所示。仿真移動(dòng)機(jī)器人為搭載激光雷達(dá)、深度相機(jī)和控制器插件的LIMO智能車,如圖6所示。深度相機(jī)拍攝的RGB圖像大小為96×64,數(shù)據(jù)隨后通過ROS(機(jī)器人操作系統(tǒng))進(jìn)行獲取、傳輸。通過在這個(gè)具有挑戰(zhàn)性的環(huán)境中進(jìn)行實(shí)驗(yàn),能夠更全面地評(píng)估所提出的基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化方法在面對(duì)復(fù)雜情況時(shí)的性能和適應(yīng)能力。
本文實(shí)驗(yàn)使用一臺(tái)配置有NVIDIA GTX 3090顯卡、128 GB RAM以及Intel Xeon Silver 4216 CPU的計(jì)算機(jī)上訓(xùn)練導(dǎo)航策略。為了保證結(jié)果的穩(wěn)定性和可靠性,所有實(shí)驗(yàn)使用了不同的隨機(jī)種子來重復(fù)實(shí)驗(yàn),共進(jìn)行了5次訓(xùn)練。在訓(xùn)練中,移動(dòng)機(jī)器人會(huì)在以下情況之一發(fā)生時(shí)終止訓(xùn)練:到達(dá)導(dǎo)航任務(wù)目標(biāo)、發(fā)生碰撞,或執(zhí)行了T個(gè)時(shí)間步。
表1列出實(shí)驗(yàn)所用到的超參數(shù)的值。
本文提出的TGNPO算法以及其他對(duì)比算法每次訓(xùn)練進(jìn)行500個(gè)迭代。如圖7(a)(b)所示,TGNPO在經(jīng)過200個(gè)迭代的訓(xùn)練后迅速達(dá)到了收斂狀態(tài),其學(xué)得的導(dǎo)航策略能夠生成獎(jiǎng)勵(lì)最高的導(dǎo)航軌跡。相比之下,JIRL與SAC-Lag算法也最終學(xué)得了導(dǎo)航策略,但所獲得的獎(jiǎng)勵(lì)相對(duì)較低。SAC算法在經(jīng)過320個(gè)迭代的訓(xùn)練后,獎(jiǎng)勵(lì)值和完成率保持了穩(wěn)定,沒有出現(xiàn)明顯的變化,這表明其陷入了局部困難,無法完成導(dǎo)航任務(wù)。
實(shí)驗(yàn)采用SLAM(simultaneous localization and mapping) 算法來構(gòu)建仿真環(huán)境的占據(jù)柵格地圖,并將移動(dòng)機(jī)器人的導(dǎo)航軌跡在地圖上進(jìn)行了可視化展示。根據(jù)圖8的結(jié)果顯示,在簡(jiǎn)單區(qū)域中,所有算法都能找到可行的導(dǎo)航路徑。在復(fù)雜、擁擠的雜亂區(qū)域中,TGNPO算法學(xué)習(xí)到最安全的導(dǎo)航策略,使移動(dòng)機(jī)器人用最少的時(shí)間步到達(dá)導(dǎo)航目標(biāo)點(diǎn),并生成平滑、最高獎(jiǎng)勵(lì)的導(dǎo)航軌跡,部分導(dǎo)航拍攝的圖像狀態(tài)如圖9所示。與之相比,SAC-Lag和JIRL方法在面對(duì)障礙物時(shí),線速度與角速度曲線波動(dòng)較大,且未能作出更好的避障選擇,需要大量資源來探索其他成功率較低、風(fēng)險(xiǎn)較高的可行解決方案。
表2顯示了不同方法下機(jī)器人導(dǎo)航任務(wù)的詳細(xì)比較結(jié)果。在整個(gè)地圖中,SAC方法因?yàn)閺?fù)雜的障礙物未能導(dǎo)航到目標(biāo)位置。在導(dǎo)航軌跡長(zhǎng)度方面, TGNPO算法在圖5所示的復(fù)雜環(huán)境區(qū)域表現(xiàn)更為出色,相對(duì)較短的導(dǎo)航軌跡表明了導(dǎo)航策略的高效性,而SAC-Lag或JIRL在同樣的環(huán)境中表現(xiàn)不佳。盡管SAC-Lag、JIRL和TGNPO最終都能夠完成導(dǎo)航任務(wù),但是可以發(fā)現(xiàn)TGNPO達(dá)到目標(biāo)花費(fèi)的時(shí)間顯明更少。這表明TGNPO在導(dǎo)航任務(wù)中具有更高的效率,移動(dòng)機(jī)器人能夠更快地到達(dá)目標(biāo)位置,從而提高了任務(wù)執(zhí)行的速度。
3.2 現(xiàn)實(shí)場(chǎng)景對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置了兩個(gè)現(xiàn)實(shí)場(chǎng)景來驗(yàn)證TGNPO的算法性能。實(shí)驗(yàn)采用搭載RPlidar A2激光雷達(dá)、ORBBEC@Dabai深度相機(jī)、Jetson Nano控制器與IMU的LIMO移動(dòng)機(jī)器人,如圖10所示。移動(dòng)機(jī)器人的車長(zhǎng)為322 mm,車寬為220 mm,軸距為200 mm,阿克曼最小轉(zhuǎn)彎半徑為0.4 m。實(shí)驗(yàn)基于ROS(開源機(jī)器人操作系統(tǒng))平臺(tái)進(jìn)行數(shù)據(jù)交互。
在真實(shí)場(chǎng)景實(shí)驗(yàn)中將本文算法與JIRL、TGNPO算法進(jìn)行對(duì)比,部分實(shí)驗(yàn)屏幕截圖及其相應(yīng)的軌跡如圖11所示,TGNPO算法部分導(dǎo)航圖像如圖12所示。根據(jù)仿真實(shí)驗(yàn)的結(jié)果發(fā)現(xiàn),JIRL算法在實(shí)際環(huán)境中表現(xiàn)出一些局限性,在一些情境下沒有作出最優(yōu)的決策,盡管在一些危險(xiǎn)情況下可以進(jìn)行及時(shí)修正,但相比于TGNPO算法,它生成的軌跡更長(zhǎng),導(dǎo)致了更高的時(shí)間成本;相反,TGNPO算法在面對(duì)障礙物時(shí)能夠作出更加明智的決策,生成的導(dǎo)航軌跡更加安全、平滑。
3.3 消融實(shí)驗(yàn)
本文進(jìn)行了一系列的消融研究,旨在研究軌跡-圖像融合模塊I和軌跡約束模塊η對(duì)TGNPO導(dǎo)航策略的影響。TGNPO算法的參數(shù)在每次調(diào)整后都需要進(jìn)行300個(gè)迭代的訓(xùn)練。表3記錄了所有的測(cè)試數(shù)據(jù)??傮w來看,當(dāng)I=5,η=0.6導(dǎo)航策略的綜合效果最佳。雖然當(dāng)I=5,η=0.4時(shí),平均軌跡長(zhǎng)度最短且平均耗時(shí)最少,但專家策略干預(yù)度過高,這顯然會(huì)限制移動(dòng)機(jī)器人的探索性。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)I>5時(shí),導(dǎo)航效果相對(duì)次優(yōu),這是因?yàn)樵谝恍?fù)雜且障礙物密集的區(qū)域,過長(zhǎng)的軌跡信息無法完全反映在當(dāng)前圖像中,會(huì)對(duì)移動(dòng)機(jī)器人導(dǎo)航產(chǎn)生偏差引導(dǎo)。而當(dāng)I<5時(shí),由于圖像狀態(tài)中包含的軌跡指引信息不足,導(dǎo)致導(dǎo)航效果同樣次優(yōu)。當(dāng)η>0.6時(shí),機(jī)器人的自主探索權(quán)過大,導(dǎo)致其在一些無效區(qū)域進(jìn)行探索,進(jìn)而產(chǎn)生較長(zhǎng)的導(dǎo)航軌跡。相反,如果η越小,整個(gè)訓(xùn)練過程專家示范行為的控制比例越大,這將導(dǎo)致移動(dòng)機(jī)器人的導(dǎo)航軌跡更加趨近于專家導(dǎo)航軌跡。
4 結(jié)束語
本文討論了在雜亂、障礙物密集的復(fù)雜環(huán)境下移動(dòng)機(jī)器人自主導(dǎo)航的問題,提出了基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化(TGNPO)算法。該算法以深度強(qiáng)化學(xué)習(xí)為基礎(chǔ)框架,同時(shí)引入了專家策略模塊、軌跡-圖像融合模塊以及軌跡約束模塊,以提高導(dǎo)航模型性能與移動(dòng)機(jī)器人的探索效率。實(shí)驗(yàn)結(jié)果表明,TGNPO相對(duì)其他對(duì)比方法顯著減少了導(dǎo)航策略的學(xué)習(xí)時(shí)間。同時(shí),該算法所學(xué)到的導(dǎo)航策略產(chǎn)生了平滑、安全且高獎(jiǎng)勵(lì)的導(dǎo)航軌跡,這意味著移動(dòng)機(jī)器人能夠更快速地適應(yīng)復(fù)雜環(huán)境,確保了導(dǎo)航的高效性。本文研究的是單目標(biāo)點(diǎn)導(dǎo)航問題,未來將深入研究移動(dòng)機(jī)器人在多目標(biāo)點(diǎn)導(dǎo)航任務(wù)中的應(yīng)用。
參考文獻(xiàn):
[1]Khan M S A,Hussian D,Ali Y,et al. Multi-sensor SLAM for efficient navigation of a mobile robot [C]// Proc of the 4th International Conference on Computing & Information Sciences. Piscataway,NJ:IEEE Press,2021: 1-5.
[2]Matsui N,Jayarathne I,Kageyama H,et al. Local and global path planning for autonomous mobile robots using hierarchized maps [J]. Journal of Robotics and Mechatronics,2022,34(1): 86-100.
[3]Missura M,Bennewitz M. Predictive collision avoidance for the dynamic window approach [C]// Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 8620-8626.
[4]Ali M A H,Shanono I H. Path planning methods for mobile robots: a systematic and bibliometric review [J]. ELEKTRIKA-Journal of Electrical Engineering,2020,19(3): 14-34.
[5]Patel U,Kumar N K S,Sathyamoorthy A J,et al. DWA-RL: dynamically feasible deep reinforcement learning policy for robot navigation among mobile obstacles [C]// Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2021: 6057-6063.
[6]Fan Tingxiang,Long Pinxin,Liu Wenxi,et al. Distributed multi-robot collision avoidance via deep reinforcement learning for navigation in complex scenarios [J]. The International Journal of Robotics Research,2020,39(7): 856-892.
[7]Sartoretti G,Kerr J,Shi Yunfei,et al. Primal: pathfinding via reinforcement and imitation multi-agent learning [J]. IEEE Robotics and Automation Letters,2019,4(3): 2378-2385.
[8]Codevilla F,Müller M,López A,et al. End-to-end driving via conditional imitation learning [C]//Proc of International conference on robotics and automation. Piscataway,NJ:IEEE Press,2018: 4693-4700.
[9]Cai Peide,Wang Sukai,Sun Yuxiang,et al. Probabilistic end-to-end vehicle navigation in complex dynamic environments with multimodal sensor fusion [J]. IEEE Robotics and Automation Letters,2020,5(3): 4218-4224.
[10]Pan Yunpeng,Cheng C A,Saigol K,et al. Imitation learning for agile autonomous driving [J]. The International Journal of Robotics Research,2020,39(2-3): 286-302.
[11]Sutton R S,Barto A G. Reinforcement learning: an introduction [M]. [S.l.]:MIT Press,2018.
[12]許宏鑫,吳志周,梁韻逸. 基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車路徑規(guī)劃方法研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(11): 3211-3217. (Xu Hongxin,Wu Zhizhou,Liang Yunyi. Review of research on path planning methods for autonomous vehicles based on reinforcement learning [J]. Application Research of Computers,2023,40(11): 3211-3217.)
[13]張目,唐俊,楊友波,等. 基于時(shí)空感知增強(qiáng)的深度Q網(wǎng)絡(luò)無人水面艇局部路徑規(guī)劃 [J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(5): 1330-1334. (Zhang Mu,Tang Jun,Yang Youbo,et al. Deep Q-network-based local path planning for unmanned surface vehicles enhanced with spatiotemporal perception [J]. Application Research of Computers,2023,40(5): 1330-1334.)
[14]賀雪梅,匡胤,楊志鵬,等. 基于深度強(qiáng)化學(xué)習(xí)的AGV智能導(dǎo)航系統(tǒng)設(shè)計(jì) [J]. 計(jì)算機(jī)應(yīng)用研究,2022,39(5): 1501-1504,1509. (He Xuemei,Kuang Yin,Yang Zhipeng,et al. Design of AGV intel-ligent navigation system based on deep reinforcement learning [J]. Application Research of Computers,2022,39(5):1501-1504,1509.)
[15]Francis A,F(xiàn)aust A,Chiang H T L,et al. Long-range indoor navigation with PRM-RL [J]. IEEE Trans on Robotics,2020,36(4): 1115-1134.
[16]Ruan Xiaogang,Lin Chenliang,Huang Jing,et al. Obstacle avoidance navigation method for robot based on deep reinforcement learning [C]//Proc of the 6th Information Technology and Mechatronics Engineering Conference. Piscataway,NJ:IEEE Press,2022: 1633-1637.
[17]Andrychowicz O A I M,Baker B,Chociej M,et al. Learning dexterous in-hand manipulation [J]. The International Journal of Robotics Research,2020,39(1): 3-20.
[18]Cai Peide,Wang Hengli,Huang Huaiyang,et al. Vision-based autonomous car racing using deep imitative reinforcement learning [J]. IEEE Robotics and Automation Letters,2021,6(4): 7262-7269.
[19]Menda K,Driggs-Campbell K,Kochenderfer M J. EnsembleDAgger:a Bayesian approach to safe imitation learning [C]// Proc of International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2019:5041-5048.
[20]Liu Haochen,Huang Zhiyu,Wu Jingda,et al. Improved deep reinforcement learning with expert demonstrations for urban autonomous driving [C]//Proc of IEEE Intelligent Vehicles Symposium. Pisca-taway,NJ:IEEE Press,2022: 921-928.
[21]Cimurs R,Suh I H,Lee J H. Goal-driven autonomous exploration through deep reinforcement learning [J]. IEEE Robotics and Automation Letters,2021,7(2): 730-737.
[22]Howard A,Sandler M,Chu G,et al. Searching for MobileNetV3 [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2019: 1314-1324.
[23]Hou Qibin,Zhou Daquan,F(xiàn)eng Jiashi. Coordinate attention for ef-ficient mobile network design [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021: 13713-13722.
[24]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 770-778.
[25]Haarnoja T,Zhou A,Hartikainen K,et al. Soft actor-critic algorithms and applications [EB/OL]. (2018).https://arxiv.org/abs/1812.05905.
[26]Dey S,Pendurkar S,Sharon G,et al. A joint imitation-reinforcement learning framework for reduced baseline regret [C]// Proc of International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2021:3485-3491.
[27]Hester T,Vecerik M,Pietquin O,et al. Deep Q-learning from demonstrations [C]// Proc of AAAI Conference on Artificial Intelligence. 2018.
[28]Ha S,Xu Peng,Tan Zhenyu,et al. Learning to walk in the real world with minimal human effort[EB/OL]. (2020). https://arxiv.org/abs/2002.08550.