摘 要:
在城市戰(zhàn)場環(huán)境下,無人偵察車有助于指揮部更好地了解目標(biāo)地區(qū)情況,提升決策準(zhǔn)確性,降低軍事行動的威脅。目前,無人偵察車多采用阿克曼轉(zhuǎn)向結(jié)構(gòu),傳統(tǒng)算法規(guī)劃的路徑不符合無人偵察車的運(yùn)動學(xué)模型。對此,將自行車運(yùn)動模型和深度Q網(wǎng)絡(luò)相結(jié)合,通過端到端的方式生成無人偵察車的運(yùn)動軌跡。針對深度Q網(wǎng)絡(luò)學(xué)習(xí)速度慢、泛化能力差的問題,根據(jù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特點提出基于經(jīng)驗分類的深度Q網(wǎng)絡(luò),并提出具有一定泛化能力的狀態(tài)空間。仿真實驗結(jié)果表明,相較于傳統(tǒng)路徑規(guī)劃算法,所提算法規(guī)劃出的路徑更符合無人偵察車的運(yùn)動軌跡并提升無人偵察車的學(xué)習(xí)效率和泛化能力。
關(guān)鍵詞:
深度強(qiáng)化學(xué)習(xí); 無人偵察車; 路徑規(guī)劃; 深度Q網(wǎng)絡(luò)
中圖分類號:
TP 242
文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.19
Path planning for unmanned vehicle reconnaissance based on deep Q-network
XIA Yuqi, HUANG Yanyan*, CHEN Qia
(School of Automation, Nanjing University of Science and Technology, Nanjing 210094, China)
Abstract:
In urban battlefield environments, unmanned reconnaissance vehicles help command centers better understand the situation in target areas, enhance decision-making accuracy, and reduce the threat of military operations. At present, unmanned reconnaissance vehicles mostly use Ackermann steering geometry. The path planned by the traditional algorithms does not conform to the kinematic model of the unmanned reconnaissance vehicle. Thus, the combination of bicycle motion model and deep Q-network are proposed to generate the motion trajectory of unmanned reconnaissance vehicles in an end-to-end manner. In order to solve the problems of slow learning speed and poor generalizing of deep Q-network, a deep Q-network based on experience classification according to the training characteristics of neural network and a state space with certain generalization ability are proposed. The simulation experiment results show that compared with the traditional path planning algorithms, the path planned by proposed algorithm is more in line with the movement trajectory of the unmanned reconnaissance vehicle, and which improve the learning efficiency and generalization ability of the unmanned reconnaissance vehicle.
Keywords:
deep reinforcement learning; unmanned reconnaissance vehicle; path planning; deep Q-network
0 引 言
軍事行動中,無人偵察車作為一種新型智能設(shè)備,具有機(jī)動性高、靈活性強(qiáng)、結(jié)構(gòu)簡單、價格低廉、隱蔽性好[1-2]等特點,在作戰(zhàn)領(lǐng)域中發(fā)揮了重要的作用。這些無人偵察車通過搭載不同功能的傳感器來代替人類完成繁瑣或危險的任務(wù)[3-4]。在城市作戰(zhàn)背景下,前線情報的收集十分危險,使用無人偵察車可以承擔(dān)高風(fēng)險任務(wù),進(jìn)入未知區(qū)域進(jìn)行偵察,有效減少士兵的傷亡。無人偵察車通常搭配了先進(jìn)的偵察設(shè)備,如高清攝像頭、熱成像儀、激光雷達(dá)等設(shè)備,這些設(shè)備可以為指揮官提供實時監(jiān)測和反饋,幫助指揮官迅速做出反應(yīng),提升決策多樣性和準(zhǔn)確性,降低作戰(zhàn)風(fēng)險,提高打擊效能。
目前,無人偵察車具有各式各樣功能進(jìn)行偵察工作。其中,路徑規(guī)劃能力保證了其任務(wù)能夠順利的完成。針對移動無人偵察車的路徑規(guī)劃問題,已有大量的學(xué)者進(jìn)行了探索[5-6]。傳統(tǒng)的路徑規(guī)劃算法主要有A*算法[7-8]、快速搜索隨機(jī)樹法[9-10]、蟻群算法[11-12]、人工勢場法[13-15]、粒子群優(yōu)化算法[16]等,此類路徑規(guī)劃算法在進(jìn)行路徑規(guī)劃之前需要將環(huán)境進(jìn)行建模。但在實際戰(zhàn)場偵察環(huán)境中,無人偵察車往往無法完整獲取全局環(huán)境信息,這種情況下使用環(huán)境完全已知的路徑規(guī)劃方法是不可行的。因此,基于環(huán)境未知或部分環(huán)境未知的實際情況設(shè)計符合偵察任務(wù)需求的路徑規(guī)劃方法更具實際意義。
除此之外,常見的無人偵察車為基于阿克曼轉(zhuǎn)向輪的四輪無人偵察車,傳統(tǒng)算法規(guī)劃的路徑不符合無人偵察車的車輛運(yùn)動學(xué)模型[17],使無人偵察車無法成功地跟蹤其路徑。因此,傳統(tǒng)路徑規(guī)劃算法規(guī)劃出的路徑需要額外使用B樣條曲線或多項式曲線[18-19]的方式生成適合無人偵察車行進(jìn)的路線。
隨著機(jī)器學(xué)習(xí)算法的發(fā)展,強(qiáng)化學(xué)習(xí)逐漸用于解決無人偵察車路徑規(guī)劃問題。強(qiáng)化學(xué)習(xí)方法可以根據(jù)無人偵察車在環(huán)境中的狀態(tài)中進(jìn)行訓(xùn)練和學(xué)習(xí),通過端到端的方式學(xué)習(xí)策略,最終實現(xiàn)智能體從起始位置到目標(biāo)位置的路徑規(guī)劃。
目前,強(qiáng)化學(xué)習(xí)中最具有代表性的算法是Q-learning算法[20],該算法能在與環(huán)境的互動過程中學(xué)習(xí)環(huán)境中各狀態(tài)的Q值,根據(jù)Q值得出最優(yōu)策略。在狀態(tài)空間較小路徑規(guī)劃環(huán)境中,Q-learning算法能夠在一段時間的學(xué)習(xí)后,規(guī)劃出合適的路徑。但現(xiàn)實生活中無人偵察車處于一個連續(xù)的空間,此時狀態(tài)空間無窮大,Q-learning算法面臨維度爆炸的窘境。針對這種情況,Sutton等[21]提出函數(shù)逼近的強(qiáng)化學(xué)習(xí)方法,此方法將環(huán)境抽象成一個特征,通過函數(shù)擬合Q表數(shù)據(jù),其雖能夠一定程度上緩解維度爆炸帶來的問題,但對于不同的環(huán)境需要設(shè)計不同的函數(shù)進(jìn)行擬合,遷移性較差。隨著深度學(xué)習(xí)的發(fā)展,Mnih等[22-23]將深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合提出深度Q網(wǎng)絡(luò) (deep Q-network, DQN) 算法,DQN算法運(yùn)用在Atari2600中處理高維感知決策問題,并在多個游戲中比分超過人類專家。因此,DQN算法相較于之前的強(qiáng)化學(xué)習(xí)算法具有更廣泛的應(yīng)用前景。
基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃的研究中,Wang等[24]提出的tow-steam Q網(wǎng)絡(luò),其將前后兩個觀測的激光掃描的差值輸入DQN中,提升智能體在部分可觀測環(huán)境下的路徑規(guī)劃能力。Devo等[25]在深度強(qiáng)化學(xué)習(xí)中設(shè)計目標(biāo)定位網(wǎng)絡(luò)與導(dǎo)航網(wǎng)絡(luò)共同協(xié)作的方式,降低狀態(tài)空間的大小,提升學(xué)習(xí)的速度。Li等[26]使用改進(jìn)后的深度策略梯度強(qiáng)化學(xué)習(xí)訓(xùn)練無人機(jī)對目標(biāo)進(jìn)行跟蹤任務(wù),取得良好的成果。Lei等[27]使用深度雙Q網(wǎng)絡(luò) (double deep Q-network, DDQN) 算法在訓(xùn)練智能體,使得其能夠在動態(tài)的環(huán)境中進(jìn)行路徑規(guī)劃并躲避障礙物。周彬等[28]基于導(dǎo)向強(qiáng)化Q學(xué)習(xí)進(jìn)行無人機(jī)路徑規(guī)劃任務(wù),其通過接受信號的強(qiáng)度提升強(qiáng)化Q學(xué)習(xí)的學(xué)習(xí)速度。楊清清等[29]設(shè)計基于深度強(qiáng)化學(xué)習(xí)的海上戰(zhàn)場目標(biāo)搜尋的路徑規(guī)劃任務(wù),建立海上目標(biāo)搜尋場景數(shù)學(xué)模型,驗證所提方法的可行性。由此可見,DQN算法解決了狀態(tài)空間維度爆炸的問題,但在無人偵察領(lǐng)域,無人偵察車多為基于阿克曼轉(zhuǎn)向輪的四輪無人偵察車。將目前基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法運(yùn)用于四輪無人偵察車主要有以下兩個問題。
(1) 四輪無人偵察車存在一定的轉(zhuǎn)彎半徑,以上算法規(guī)劃出的路徑多為柵格環(huán)境下離散點,無法規(guī)劃出適合四輪無人偵察車實際運(yùn)行的路徑。
(2) 以上基于深度強(qiáng)化學(xué)習(xí)方法的學(xué)習(xí)速度慢,并且在不同的地圖中需要重新進(jìn)行訓(xùn)練,泛化能力低。
因此,為規(guī)劃出符合基于阿克曼轉(zhuǎn)向輪無人偵察車的路徑,本文提出一種自行車運(yùn)動模型[30]下基于改進(jìn)DQN的無人偵察車路徑規(guī)劃方法,該方法可以在環(huán)境部分可知的情況下運(yùn)用控制無人偵察車在仿真環(huán)境中進(jìn)行探索和學(xué)習(xí),最終規(guī)劃出從任意起點到目標(biāo)點的路徑。
本文主要的貢獻(xiàn)如下。
(1) 用自行車運(yùn)動模型建立符合阿克曼轉(zhuǎn)向原理的無人偵察車運(yùn)動模型,結(jié)合運(yùn)動模型與深度強(qiáng)化學(xué)習(xí)算法生成符合四輪無人偵察車的路徑。
(2) 結(jié)合實際無人偵察車的傳感器,設(shè)計了加入激光傳感器數(shù)據(jù)的狀態(tài)空間,提升深度強(qiáng)化學(xué)習(xí)的泛化能力以及四輪無人偵察車在不同環(huán)境下持續(xù)學(xué)習(xí)的能力。
(3) 提出經(jīng)驗分類的方法,將無人偵察車通過深度Q學(xué)習(xí)得到的數(shù)據(jù)進(jìn)行多分類,提升強(qiáng)化學(xué)習(xí)的訓(xùn)練速度。
本文組成如下所示,第1節(jié)主要介紹DQN算法、自行車運(yùn)動模型、環(huán)境信息的基礎(chǔ)知識;第2節(jié)主要介紹無人偵察車系統(tǒng)中的狀態(tài)空間,動作空間以及提出改進(jìn)后基于經(jīng)驗分類的DQN算法;第3節(jié)給出算法中的網(wǎng)絡(luò)結(jié)構(gòu),系統(tǒng)中的仿真參數(shù)以及算法結(jié)果展示;第4節(jié)總結(jié)本文內(nèi)容和未來主要工作。
1 DQN算法及無人偵察車運(yùn)動模型構(gòu)建
1.1 DQN
在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境交互的方式不斷學(xué)習(xí),最終達(dá)到任務(wù)目標(biāo),這一交互的過程一般用馬爾可夫決策過程 (Markov decision process, MDP) 描述。一個標(biāo)準(zhǔn)的MDP可以用一個五元組表示〈S,A,P,R,γ〉[31]。其中,S表示表示狀態(tài)空間,A表示動作空間,P:S×A→S′表示狀態(tài)轉(zhuǎn)移矩陣,R:S×A×S′→r表示即時獎勵函數(shù),γ∈[0,1] 表示折扣因子。在MDP中,任意時刻智能體的狀態(tài)為st(st∈S),根據(jù)策略選擇的動作為at(at∈A),選擇動作后智能體的狀態(tài)st根據(jù)轉(zhuǎn)移矩陣P轉(zhuǎn)移到st+1(st+1∈S),根據(jù)即時獎勵函數(shù)得到回報rt(rt∈S′)。在路徑規(guī)劃過程中,移動機(jī)器人不斷進(jìn)行MDP直到到達(dá)目標(biāo)位置為止。
Q-learning[17]是一種基于值函數(shù)的表格型強(qiáng)化學(xué)習(xí)算法,但是當(dāng)強(qiáng)化學(xué)習(xí)任務(wù)中的狀態(tài)空間和動作空間維度很大的時候,表格型的Q-learning算法就會出現(xiàn)維度災(zāi)難這樣的問題。所以,文獻(xiàn)[22] 中提出了使用神經(jīng)網(wǎng)絡(luò)來擬合Q表的方法,其中的DQN算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.3 基于經(jīng)驗分類的DQN算法
經(jīng)典的DQN算法在處理無人偵察車的路徑規(guī)劃問題時,存在經(jīng)驗池中數(shù)據(jù)存儲不均勻的問題。在無人偵察車訓(xùn)練前期,靠近目標(biāo)與遠(yuǎn)離目標(biāo)的經(jīng)驗數(shù)據(jù)數(shù)量相差較大,致使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果向數(shù)據(jù)多的一方傾斜,最終導(dǎo)致學(xué)習(xí)速度更加緩慢。針對這一問題,本文提出了基于經(jīng)驗分類的DQN (classified replay memory DQN, CRMDQN) 方法,該方法將無人偵察車在環(huán)境中探索得到的數(shù)據(jù)分類后存儲,不同類別的數(shù)據(jù)占據(jù)相同的比例。其可以在不增加額外存儲空間和計算量的情況下提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率,加快智能體的學(xué)習(xí)速度,降低智能體陷入局部最優(yōu)的可能性。
CRMDQN算法經(jīng)驗池的結(jié)構(gòu)如圖5所示。
在本文中,主要將經(jīng)驗分為4個類別:① 靠近目標(biāo)且激光傳感器未檢測到障礙物;② 靠近目標(biāo)且激光傳感器檢測到障礙物;③ 遠(yuǎn)離目標(biāo)且激光傳感器未檢測到障礙物;④ 遠(yuǎn)離目標(biāo)且激光傳感器檢測到障礙物。
相比經(jīng)典DQN算法,CRMDQN算法在經(jīng)驗池中加入了經(jīng)驗分類器。這一方法將經(jīng)驗池劃分為若干部分,每部分存儲不同類型的數(shù)據(jù)。
CRMDQN算法網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
相比起經(jīng)典DQN算法,CRMDQN算法在原本的基礎(chǔ)上加入經(jīng)驗分類器對經(jīng)驗進(jìn)行分類,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候從不同類別的經(jīng)驗中抽取等量的樣本混合后進(jìn)行訓(xùn)練,從而提升DQN的學(xué)習(xí)效率。
CRMDQN算法流程如算法1所示。
3 仿真實驗結(jié)果與分析
為了驗證本文算法在無人偵察車城市環(huán)境路徑規(guī)劃的合理性,本文通過python語言設(shè)計了仿真物理環(huán)境,無人偵察車在仿真物理環(huán)境中可以根據(jù)自行車運(yùn)動模型生成運(yùn)動軌跡,并使用python-opencv庫用于展示仿真環(huán)境。在本環(huán)境中使用A*算法、快速搜索隨機(jī)樹 (rapidly-exploring radom tree, RRT) 算法、DQN算法與CRMDQN算法進(jìn)行比較,驗證基于自行車運(yùn)動模型的CRMDQN算法在無人偵察車路徑規(guī)劃中的可行性及其優(yōu)勢。
3.1 實驗參數(shù)設(shè)計
如圖7所示,環(huán)境中有許多障礙物和目標(biāo),圖7中左下角的圓形表示無人偵察車安全運(yùn)行范圍;無人偵察車外圍的線段表示激光探測器發(fā)射出來的激光;無人偵察車右側(cè)小箭頭表示小車當(dāng)前的前進(jìn)方向;圖紙黑色的方塊表示障礙物,右上角的圓形表示目標(biāo)所在位置。
本次實驗采用的仿真物理環(huán)境大小為50 m×50 m的矩形區(qū)域,無人偵察車的初始位置和目標(biāo)的位置隨地圖的不同而改變,本次仿真物理環(huán)境參數(shù)設(shè)計如表1所示。CRMDQN算法參數(shù)設(shè)計如表2所示。
其中,方向回報參數(shù)λ1lt;λ2表示智能體靠近目標(biāo)給予的獎勵小于智能體遠(yuǎn)離目標(biāo)時給的懲罰,保證智能體不會出現(xiàn)為避免發(fā)生碰撞而原地打轉(zhuǎn)。碰撞回報rcollision和目標(biāo)回報raim設(shè)定為一個較大值保證智能體能順利收斂。設(shè)定強(qiáng)化學(xué)習(xí)的折扣系數(shù)和貪婪因子保證智能體在學(xué)習(xí)的同時具有一定探索能力。設(shè)定Q網(wǎng)絡(luò)的學(xué)習(xí)率、學(xué)習(xí)間隔、目標(biāo)網(wǎng)絡(luò)賦值間隔、訓(xùn)練抽取的樣本數(shù)目、經(jīng)驗池大小保證Q網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。設(shè)定初始隨機(jī)步數(shù)保證智能體在訓(xùn)練初期對環(huán)境的探索,設(shè)定最大訓(xùn)練回合數(shù)目和最大運(yùn)行步數(shù)保證當(dāng)前回合遇到死循環(huán)時能終止當(dāng)前回合的訓(xùn)練。
CRMDQN算法中的評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)均采用全連接網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接,結(jié)構(gòu)如圖8所示。其中,每個隱層采用Relu函數(shù)作為激活函數(shù)。
3.2 仿真實驗結(jié)果與分析
根據(jù)上述無人偵察車物理參數(shù)和CRMDQN算法參數(shù)在不同的地圖中做的相應(yīng)的仿真,得到不同算法的路線如圖9~圖12所示。
在傳統(tǒng)A*算法和RRT算法的對比中,本研究采用的結(jié)合自行車運(yùn)動模型與DQN算法結(jié)合方法所規(guī)劃出的路徑表現(xiàn)得更加平滑,符合基于阿克曼轉(zhuǎn)向輪的無人偵察車的路徑規(guī)劃需求。與傳統(tǒng)的DQN算法相比,本文提出的CRMDQN算法在相同的訓(xùn)練時長內(nèi)能夠規(guī)劃出更為高效的路徑。
不同算法規(guī)劃出來的路徑長度如表3所示。
在以上4種仿真環(huán)境下,DQN算法規(guī)劃出的路徑平均長度為81.05 m,而CRMDQN算法規(guī)劃出的路徑平均長度為68.425 m,均小于DQN算法規(guī)劃出的路徑長度。在部分環(huán)境下,CRMDQN算法規(guī)劃出來的路徑長度最短。驗證了CRMDQN算法不僅能夠規(guī)劃出更加適合無人偵察車運(yùn)動的路線,并且能夠提高效偵察路線的效率。
DQN算法和CRMDQN算法在環(huán)境1~環(huán)境4中的訓(xùn)練過程如圖13~圖16所示。
其中,由于DQN算法和CRMDQN算法在訓(xùn)練過程中存在一定的隨機(jī)性,所以本次實驗的訓(xùn)練數(shù)據(jù)是在同一張地圖中運(yùn)行DQN算法和CRMDQN算法各5次求平均后得到的結(jié)果。
由DQN算法和CRMDQN算法的訓(xùn)練數(shù)據(jù)可知,CRMDQN算法在無人偵察車的訓(xùn)練前期可以提升無人偵察車的訓(xùn)練速度,使其每回合的平均成功率、平均回報快速上升。DQN算法和CRMDQN算法在各環(huán)境下平均成功率達(dá)到80%所需的回合數(shù)目如表4所示。
從表4中可知,在各環(huán)境下,CRMDQN算法平均成功率達(dá)到80%所需的回合數(shù)均小于DQN算法所需的回合數(shù)目。本文提出的CRMDQN算法具有更快的學(xué)習(xí)速度。
DQN算法與CRMDQN算法在環(huán)境1到環(huán)境4中的平均成功率和平均回報值如表5所示。
由表5可知,CRMDQN算法在各個環(huán)境中訓(xùn)練得到的平均成功率和平均回報均大于DQN算法,并且CRMDQN算法在大多圖中的整體訓(xùn)練步長均小于DQN算法,因此其整體的訓(xùn)練速度和最終效果都要優(yōu)于DQN算法。
3.3 泛化能力實驗結(jié)果與分析
為驗證本提出的方法具備一定的泛化能力,本文使用環(huán)境1訓(xùn)練后的CRMDQN算法用于環(huán)境2的訓(xùn)練,得到的訓(xùn)練效果如圖17和圖18所示。
通過實驗得到使用CRMDQN算法在環(huán)境2中進(jìn)行訓(xùn)練達(dá)到80%的成功率所需訓(xùn)練回合數(shù)目為344。而載入環(huán)境1 Q網(wǎng)絡(luò)參數(shù)后,CRMDQN算法在環(huán)境2中進(jìn)行訓(xùn)練達(dá)到80%的成功率所需訓(xùn)練回合數(shù)目為40。由此可見,通過載入其他模型神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練新的環(huán)境所需要的訓(xùn)練時間將大大縮減。本實驗驗證了本文設(shè)計的狀態(tài)空間和動作空間可使無人偵察車在訓(xùn)練過程中具有一定的泛化能力,使得無人偵察車在新環(huán)境中可以載入不同環(huán)境下訓(xùn)練后的參數(shù),提升在新環(huán)境中訓(xùn)練的速度。
4 結(jié)束語
為解決針對無人偵察車路徑規(guī)劃的問題。本文提出了一種適用于無人偵察車路徑規(guī)劃的DQN算法——CRMDQN算法,結(jié)合自行車運(yùn)動模型與CRMDQN算法生成適合無人偵察車行駛的路徑,并最終使用python搭建仿真環(huán)境用于本文提出方法的可行性,相比起A*和RRT算法,CRMDQN算法能規(guī)劃出符合無人偵察車所跟隨的路徑,提升基于阿克曼轉(zhuǎn)向輪的無人偵察車的運(yùn)行效率,且具有一定的泛化能力。相比起DQN算法,CRMDQN算法在原本的基礎(chǔ)上提出了經(jīng)驗分類的結(jié)構(gòu),將獲取得到的經(jīng)驗進(jìn)行有效的分類,大大提升DQN中神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度和最終學(xué)習(xí)效果表現(xiàn),在路徑規(guī)劃的過程中能夠更快且更高效的規(guī)劃路徑。
盡管在本研究取得了一定的提升,但仍有幾個方面可以提升:
(1) 模仿學(xué)習(xí)。雖然無人偵察車可以在環(huán)境部分已知的條件下進(jìn)行學(xué)習(xí),但整個學(xué)習(xí)過程仍需要一定的時間,在此過程中引入模仿學(xué)習(xí)通過模仿人類專家的來提升學(xué)習(xí)的速度。
(2) 終身學(xué)習(xí)。每當(dāng)無人偵察車進(jìn)入一個新環(huán)境的時需要重新學(xué)習(xí)。但是,這一過程十分浪費(fèi)算力。因為路徑規(guī)劃的過程之間具有相似性,可以通過引入終身學(xué)習(xí)的方式使無人偵察車在不同的環(huán)境中可以繼續(xù)進(jìn)行學(xué)習(xí)。最終達(dá)到在不同地圖中持續(xù)進(jìn)行路徑規(guī)劃。
參考文獻(xiàn)
[1] WANG X C, WANG X L, WILKES D M. Machine learning-based natural scene recognition for mobile robot localization in an unknown environment[M]. Berlin: Springer, 2019.
[2] PANDA M, DAS B, SUBUDHI B, et al. A comprehensive review of path planning algorithms for autonomous underwater vehicles[J]. International Journal of Automation and Computing, 2020, 17(3): 321-352.
[3] PATLE B K, PANDEY A, PARHI D R K, et al. A review: on path planning strategies for navigation of mobile robot[J]. Defence Technology, 2019, 15(4): 582-606.
[4] SANCHEZ-IBANEZ J R, PEREZ-DEL-PULGAR C J, GARCA-CEREZO A. Path planning for autonomous mobile robots: a review[J]. Sensors, 2021, 21(23): 7898.
[5] WAHAB A W M, NEFTI-MEZIANI S, ATYABI A. A comparative review on mobile robot path planning: classical or meta-heuristic methods?[J]. Annual Reviews in Control, 2020, 50: 233-252.
[6] WANG B, LIU Z, LI Q B, et al. Mobile robot path planning in dynamic environments through globally guided reinforcement learning[J]. IEEE Robotics and Automation Letters, 2020, 5(4): 6932-6939.
[7] 張浩杰, 張玉東, 梁榮敏, 等. 改進(jìn)A*算法的機(jī)器人能耗最優(yōu)路徑規(guī)劃方法[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(2): 513-520.
ZHANG H J, ZHANG Y D, LIANG R M, et al. Energy-efficient path planning method for robots based on improved A* algorithm[J]. Systems Engineering and Electronics, 2023, 45(2): 513-520.
[8] 李文剛, 汪流江, 方德翔, 等. 聯(lián)合A*與動態(tài)窗口法的路徑規(guī)劃算法[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(12): 3694-3702.
LI W G, WANG L J, FANG D X, et al. Path planning algorithm combining A* with DWA[J]. Systems Engineering and Electronics, 2021, 43(12): 3694-3702.
[9] KOTHARI M, POSTLETHWAITE I. A probabilistically robust path planning algorithm for UAVs using rapidly-exploring random trees[J]. Journal of Intelligent amp; Robotic Systems, 2013, 71(2): 231-253.
[10] SHI Y Y, LI Q Q, BU S Q, et al. Research on intelligent vehicle path planning based on rapidly-exploring random tree[J]. Mathematical Problems in Engineering, 2020, 2020(1): 5910503.
[11] KONATOWSKI S, PAWLOWSKI P. Ant colony optimization algorithm for UAV path planning[C]∥Proc.of the 14th International Conference on Advanced Trends in Radioelecrtronics, 2018: 177-182.
[12] LIANG Y, WANG L D. Applying genetic algorithm and ant colony optimization algorithm into marine investigation path planning model[J]. Soft Computing, 2020, 24(11): 8199-8210.
[13] LI W H. An improved artificial potential field method based on chaos theory for UAV route planning[C]∥Proc.of the 34rd Youth Academic Annual Conference of Chinese Association of Automation, 2019: 47-51.
[14] 孫鵬耀, 黃炎焱, 潘堯. 基于改進(jìn)勢場法的移動機(jī)器人路徑規(guī)劃[J]. 兵工學(xué)報, 2020, 41(10): 2106-2121.
SUN P Y, HUANG Y Y, PAN Y. Path planning of mobile robots based on improved potential field algorithm[J]. Acta Armamentarii, 2020, 41(10): 2106 – 2121.
[15] 田洪清, 王建強(qiáng), 黃荷葉, 等. 越野環(huán)境下基于勢能場模型的智能車概率圖路徑規(guī)劃方法[J]. 兵工學(xué)報, 2021, 42(7): 1496-1505.
TIAN H Q, WANG J Q, HUANG H Y, et al. Probabilistic roadmap method for path planning of intelligent vehicle based on artificial potential field model in off-road environment[J]. Acta Armamentarii, 2021, 42(7): 1496-1505.
[16] SALAMAT B, TONELLO A M. A modelling approach to gene-rate representative UAV trajectories using PSO[C]∥Proc.of the 27th European Signal Processing Conference, 2019.
[17] KARNOPP D. Vehicle dynamics, stability, and control[M]. Florida: CRC Press, 2013.
[18] WU Z C, SU W Z, LI J H. Multi-robot path planning based on improved artificial potential field and B-spline curve optimization[C]∥Proc.of the Chinese Control Conference, 2019: 4691-4696.
[19] ESHTEHARDIAN S A, KHODAYGAN S. A continuous RRT*-based path planning method for non-holonomic mobile robots using B-spline curves[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(7): 8693-8702.
[20] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8: 279-292.
[21] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT press, 2018.
[22] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. [2023-07-01]. http:∥doi.org/10.48550/arXiv.1312.5602.
[23] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.
[24] WANG Y D, HE H B, SUN C Y. Learning to navigate through complex dynamic environment with modular deep reinforcement learning[J]. IEEE Trans.on Games, 2018, 10(4): 400-412.
[25] DEVO A, MEZZETTI G, COSTANTE G, et al. Towards generalization in target-driven visual navigation by using deep reinforcement learning[J]. IEEE Trans.on Robotics, 2020, 36(5): 1546-1561.
[26] LI B H, WU Y J. Path planning for UAV ground target tracking via deep reinforcement learning[J]. IEEE Access, 2020, 8: 29064-29074.
[27] LEI X Y, ZHANG Z A, DONG P F. Dynamic path planning of unknown environment based on deep reinforcement learning[J]. Journal of Robotics, 2018, 2018(1): 5781591.
[28] 周彬, 郭艷, 李寧, 等. 基于導(dǎo)向強(qiáng)化Q學(xué)習(xí)的無人機(jī)路徑規(guī)劃[J]. 航空學(xué)報, 2021, 42(9): 498-505.
ZHOU B, GUO Y, LI N, et al. Path planning of UAV using guided enhancement Q-learning algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(9): 498-505.
[29] 楊清清, 高盈盈, 郭玙, 等. 基于深度強(qiáng)化學(xué)習(xí)的海戰(zhàn)場目標(biāo)搜尋路徑規(guī)劃[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(11): 3486-3495.
YANG Q Q, GAO Y Y, GUO Y, et al. Target search path planning for naval battle field based on deep reinforcement learning[J].Systems Engineering and Electronics,2022, 44(11): 3486-3495.
[30] RAJAMANI R. Vehicle dynamics and control[M]. Berlin:Springer Science amp; Business Media, 2011.
[31] OTTERLO M, WIERING M. Reinforcement learning and Markov decision processes[M]∥Reinforcement Learning. Berlin:Springer, 2012.
[32] SNIDER J M. Automatic steering methods for autonomous automobile path tracking[R]. Pittsburgh:Robotics Institute, Carnegie Mellon University, 2009.
作者簡介
夏雨奇(1997—),男,博士研究生,主要研究方向為機(jī)器人控制。
黃炎焱(1973—),男,教授,博士,主要研究方向為有/無人系統(tǒng)協(xié)同規(guī)劃與控制。
陳 ?。?000—),男,碩士研究生,主要研究方向為系統(tǒng)建模與仿真。