• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)型DDPG算法的多智能體編隊(duì)控制與仿真

    2023-07-17 21:45:11景永年耿雙雙向瑤文家燕
    關(guān)鍵詞:避障強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)

    景永年 耿雙雙 向瑤 文家燕

    摘 要:針對(duì)多智能體系統(tǒng)編隊(duì)在路徑規(guī)劃過程中隊(duì)形不穩(wěn)定、獲取路徑時(shí)間較慢以及在避障過程中存在與障礙物距離較近的問題,本文采用角度距離度量的方式對(duì)多智能體進(jìn)行編隊(duì),通過改變傳統(tǒng)的由起始點(diǎn)到達(dá)終點(diǎn)避障過程所形成的路徑規(guī)劃方法,弱化起始點(diǎn)和終點(diǎn)概念,添加路徑中點(diǎn)的方式,使智能體同時(shí)從起點(diǎn)以及終點(diǎn)向中點(diǎn)移動(dòng),形成由起點(diǎn)指向中點(diǎn)、終點(diǎn)指向中點(diǎn)的2條路徑。將獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為同號(hào)智能體相碰為正向獎(jiǎng)勵(lì),異號(hào)智能體相碰以及智能體(同號(hào)智能體和異號(hào)智能體)與障礙物之間相碰均為負(fù)向獎(jiǎng)勵(lì)。在搭建的靜態(tài)和動(dòng)態(tài)障礙物2種仿真環(huán)境下分別進(jìn)行可變?nèi)萘矿w驗(yàn)池深度確定性策略梯度算法(deep deterministic policy gradient -variable capacity experience pool, DDPG-vcep)驗(yàn)證,并對(duì)比不同訓(xùn)練次數(shù)下的獎(jiǎng)賞值。仿真結(jié)果表明,改進(jìn)后的DDPG編隊(duì)算法較傳統(tǒng)DDPG算法節(jié)約了路徑獲取時(shí)間,編隊(duì)避障的效果更加明顯。

    關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);深度確定性策略梯度算法(DDPG算法);多智能體;編隊(duì)控制;避障

    中圖分類號(hào):TP273 DOI:10.16375/j.cnki.cn45-1395/t.2023.03.009

    0 引言

    隨著多智能體系統(tǒng)在軍事和民用領(lǐng)域上的應(yīng)用越來越廣泛,其中多智能體系統(tǒng)之間的協(xié)作或協(xié)調(diào)問題受到了越來越多的關(guān)注,在衛(wèi)星群協(xié)同控制、無人機(jī)編隊(duì)控制、多機(jī)器人系統(tǒng)分布式優(yōu)化、自動(dòng)化公路系統(tǒng)調(diào)度等領(lǐng)域有著廣泛的應(yīng)用[1-4]。

    在多智能體群體中,編隊(duì)控制是最基本、最重要的研究課題之一,它要求一組智能體保持預(yù)定的隊(duì)形在期望的軌跡上運(yùn)動(dòng),也可以看作是所有的自治智能體通過協(xié)作來完成共同的任務(wù)。因此,多智能體編隊(duì)可以廣泛應(yīng)用于航空航天、工業(yè)、娛樂等領(lǐng)域[5-7]。隨著理論研究的深入和現(xiàn)實(shí)應(yīng)用需求的增加,圍繞多智能體編隊(duì)控制的研究越來越結(jié)合實(shí)際工況約束?,F(xiàn)有的編隊(duì)控制方法主要是針對(duì)確定性多智能體系統(tǒng),不考慮任何隨機(jī)干擾。然而多智能體通信中經(jīng)常受到各種隨機(jī)噪聲的干擾,如熱噪聲、信道衰落和編解碼過程中的量化效應(yīng)[8-12],因此,隨機(jī)動(dòng)態(tài)模型比確定性模型更能準(zhǔn)確地描述實(shí)際的多智能體系統(tǒng)。為確定性系統(tǒng)開發(fā)的許多控制技術(shù)已成功地?cái)U(kuò)展到隨機(jī)動(dòng)態(tài)系統(tǒng),但由于高維度問題[13],這些技術(shù)無法直接應(yīng)用于多智能體系統(tǒng)控制中。近年來,隨著深度強(qiáng)化學(xué)習(xí)方法在多智能體系統(tǒng)編隊(duì)控制的深入研究,為解決維度高的問題提供了新思路。

    深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法是一種只適用于連續(xù)動(dòng)作空間的off-policy算法,是深度Q-Learning算法在連續(xù)動(dòng)作空間中的擴(kuò)展。本文在傳統(tǒng)的DDPG算法的基礎(chǔ)上進(jìn)行改進(jìn),在多智能體編隊(duì)避障過程出現(xiàn)“局部困擾”和獲得避障路徑效率低的情況下,結(jié)合雙向搜索以及改進(jìn)獎(jiǎng)勵(lì)函數(shù)解決多智能體編隊(duì)避障控制問題。

    1 整體框架

    在傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法DDPG基礎(chǔ)上研究多智能體系統(tǒng)編隊(duì)整體框架,如圖1所示,主要由4個(gè)模塊構(gòu)成。

    1) 環(huán)境建模模塊:設(shè)置智能體需要訓(xùn)練的環(huán)境,包括多智能體的起始點(diǎn)位置、中點(diǎn)位置、障礙物位置等。

    2) 多智能體系統(tǒng)模塊:由多個(gè)智能體構(gòu)成,本實(shí)驗(yàn)設(shè)置的是4個(gè)智能體。多智能體系統(tǒng)設(shè)置的是智能體本身的一些參數(shù),包括轉(zhuǎn)角、移動(dòng)速度等。

    3) 基于改進(jìn)的DDPG算法的多智能體系統(tǒng)編隊(duì)控制算法模塊:該模塊中涉及到的改進(jìn)算法是在DDPG算法基礎(chǔ)上作了獎(jiǎng)勵(lì)函數(shù)以及智能體編隊(duì)方式、智能體起點(diǎn)中點(diǎn)設(shè)置的改進(jìn)。

    4) 任務(wù)分配(編隊(duì))模塊:每個(gè)智能體在保持自身與其他智能體相對(duì)位置的情況下,構(gòu)建成菱形編隊(duì)到達(dá)中點(diǎn)位置,遇到障礙物會(huì)切換隊(duì)形,并重新設(shè)置智能體之間的相對(duì)距離,形成一字型繞過障礙物。

    1.1 環(huán)境建模

    多智能體避障所構(gòu)建的環(huán)境如圖2所示,環(huán)境地圖較為簡(jiǎn)單。所建環(huán)境大小為10×10,其中地圖中的數(shù)字由小到大分別對(duì)應(yīng)的是智能體可行使區(qū)域、障礙物位置、智能體所在位置、中點(diǎn)位置。在二維坐標(biāo)平面分別在(1,2)、(1,3)、(2,2)、(2,3)位置處設(shè)立智能體的初始位置;在二維坐標(biāo)平面(5,5)、(5,6)、(6,5)、(6,6)位置處建立第一次由起始位置所到達(dá)的中點(diǎn)位置;在二維坐標(biāo)平面(8,7)、(8,8)、(9,7)、(9,8)位置處建立4個(gè)智能體的第二次起點(diǎn)位置;重點(diǎn)設(shè)立的障礙物在二維平面坐標(biāo)的中點(diǎn)位置附近,目的是干擾智能體到達(dá)中點(diǎn),驗(yàn)證改進(jìn)算法的可行性。

    1.2 任務(wù)分配

    任務(wù)分配是多智能體系統(tǒng)編隊(duì)中必須應(yīng)用到的。本文研究的多智能體編隊(duì)控制的任務(wù)分配問題是:在環(huán)境中有4個(gè)智能體,每個(gè)智能體對(duì)應(yīng)的任務(wù)分配為從起點(diǎn)以一定的隊(duì)形到達(dá)對(duì)應(yīng)的目標(biāo)點(diǎn),此為任務(wù)分配一;對(duì)于任務(wù)分配二,要求4個(gè)智能體從目標(biāo)點(diǎn)出發(fā)按照相同的隊(duì)形到達(dá)起點(diǎn),在遇到障礙物時(shí)變換隊(duì)形越過障礙物,最終實(shí)現(xiàn)任務(wù)一與任務(wù)二的統(tǒng)一,在中點(diǎn)處重合,形成一條完整的避障路徑,以達(dá)到獲取避障路徑效率最快的目的。

    1.3 多Agent編隊(duì)控制算法

    本文采用的多智能體系統(tǒng)編隊(duì)控制方法是多智能體首先在障礙物環(huán)境中有一個(gè)起始位置,然后按照智能體之間設(shè)置的安全距離進(jìn)行菱形編隊(duì),向著中點(diǎn)方向進(jìn)行移動(dòng),在移動(dòng)過程中若遇到障礙物則進(jìn)行編隊(duì)重構(gòu),形成一字型,繞過障礙物,之后恢復(fù)菱形編隊(duì)到達(dá)中點(diǎn)。與同類型編隊(duì)算法不同的是,本文算法新添加了一重反方向的編隊(duì),中點(diǎn)位置沒有發(fā)生改變,從第一次多智能體到達(dá)的目標(biāo)點(diǎn)為起點(diǎn)向著中點(diǎn)進(jìn)行編隊(duì)前行。最終二者會(huì)形成一條完整的避障路徑,會(huì)在避障效率上大大減少訓(xùn)練時(shí)間。

    1.3.1 菱形編隊(duì)

    多智能體采用菱形編隊(duì)的示意圖如圖3所示。其中黑色方塊代表的是智能體[P1]、[P2]、[P3]、[P4],對(duì)應(yīng)位置坐標(biāo)分別為[(x1,y1)]、[(x2,y2)]、[(x3,y3)]、[(x4,y4)]。智能體[P1]、[P2]之間的夾角為[θ1],智能體[P2]、[P3]之間的夾角為[θ2],智能體[P3]、[P4]之間的夾角為[θ3]。通過采用角度距離的測(cè)量方式保持智能體間的相對(duì)距離,形成菱形編隊(duì)。

    角度距離度量的是智能體之間的方向,角度度量的距離更多的是衡量在各個(gè)維度上的比例差異,和絕對(duì)距離數(shù)值關(guān)系不大。其中一個(gè)特點(diǎn)是在智能體與原點(diǎn)連線上的角度距離不變,因此單獨(dú)2個(gè)智能體避障時(shí)不宜采用角度距離的方式限制它們之間的相對(duì)位置。但本文采用4個(gè)智能體進(jìn)行編隊(duì),角度距離度量可以使智能體之間產(chǎn)生菱形編隊(duì)。由于直接計(jì)算智能體之間的夾角比較困難,可采用[arccosθ]來代替[θ]角的計(jì)算,具體計(jì)算公式如式(1)—式(4)所示:

    研究表明[17],如果獎(jiǎng)賞值設(shè)置過小,會(huì)導(dǎo)致智能體在訓(xùn)練過程中所得到的獎(jiǎng)勵(lì)變化不大,使得智能體在到達(dá)目標(biāo)點(diǎn)的過程中效率變低;如果獎(jiǎng)賞值設(shè)置過大,而對(duì)應(yīng)懲罰太小,則會(huì)導(dǎo)致智能體在進(jìn)行避障探索中出現(xiàn)無作為的現(xiàn)象,即無法獲得大的獎(jiǎng)勵(lì),智能體將會(huì)在原位置保持不動(dòng),使整個(gè)路徑規(guī)劃緩慢。基于文獻(xiàn)[17],將式(9)、式(10)中的數(shù)值設(shè)置為100。將改進(jìn)后的獎(jiǎng)賞函數(shù)值設(shè)置為100的目的有二:其一為與對(duì)比仿真算法保持一致;其二是使獎(jiǎng)賞值與懲罰保持在合理區(qū)間,使得智能體快速到達(dá)目標(biāo)點(diǎn)。

    3 數(shù)值仿真分析

    為了使算法學(xué)習(xí)到的策略更吻合真實(shí)環(huán)境下多智能體系統(tǒng)編隊(duì)避障,使用Python語言與pyglet數(shù)據(jù)庫(kù)搭建了仿真環(huán)境模型,最大程度地還原真實(shí)環(huán)境信息。本文仿真環(huán)境模型搭建以及算法實(shí)驗(yàn)驗(yàn)證所使用的計(jì)算機(jī)配置為:編程語言Python3.6.0,深度學(xué)習(xí)框架Tensorflow2.0.0,pyglet、numpy、matplotlib等數(shù)據(jù)庫(kù)。

    3.1 靜態(tài)障礙物環(huán)境下仿真

    圖8為驗(yàn)證改進(jìn)算法的多智能體系統(tǒng)避障環(huán)境。設(shè)置環(huán)境地圖大小為[400×400]的二維空間,采用柵格法模擬環(huán)境。黑色的圓形部分代表障礙物,其大小不一;4個(gè)綠色的三角構(gòu)成的是同構(gòu)智能體,其大小設(shè)置為每個(gè)邊長(zhǎng)為[L=5],速度設(shè)置為[v=1];紅色的三角位置分別代表每個(gè)智能體需要到達(dá)的中點(diǎn)位置,其坐標(biāo)由起點(diǎn)和終點(diǎn)的位置決定,其中橫縱坐標(biāo)僅表示智能體和障礙物的相對(duì)位置信息,計(jì)算公式為[xend-xstart/2,] [yend-ystart/2]。

    仿真實(shí)驗(yàn)以4個(gè)智能體為例,仿真結(jié)果如圖9所示。

    圖9所示為多智能體系統(tǒng)采用改進(jìn)的DDPG算法與編隊(duì)隊(duì)形切換方法結(jié)合后在靜態(tài)障礙物環(huán)境下的避障仿真圖。從圖9(a)—(f)中可以看出,多智能體的起始位置隨機(jī)變化,將智能體以菱形隊(duì)形編隊(duì)并設(shè)置其初始位置,設(shè)置移動(dòng)速度[v=1]向中點(diǎn)移動(dòng),在移動(dòng)的過程中遇到障礙物時(shí),為保障智能體能安全繞過障礙物,并縮小智能體間的相對(duì)空間,以“一”字隊(duì)形繞開障礙物,然后恢復(fù)到菱形編隊(duì)到達(dá)中點(diǎn)位置。從圖9(g)—(l)中可以看出,多智能體設(shè)置移動(dòng)速度[v=-1]向中點(diǎn)移動(dòng),其移動(dòng)過程為鏡像下的起點(diǎn)向中點(diǎn)移動(dòng)。當(dāng)智能體同時(shí)進(jìn)行如圖9(a)—(f)和圖9(g)—(l)所示的訓(xùn)練時(shí),所獲得的多智能體編隊(duì)避障路徑時(shí)間將減少近50%。為驗(yàn)證改進(jìn)的DDPG算法以及編隊(duì)算法的通用性,設(shè)置了多智能體在動(dòng)態(tài)障礙物環(huán)境下的仿真實(shí)驗(yàn)。

    3.2 動(dòng)態(tài)障礙物環(huán)境下仿真

    在圖8搭建的靜態(tài)障礙物環(huán)境基礎(chǔ)上,添加了2個(gè)動(dòng)態(tài)障礙物,其在不同時(shí)刻下的狀態(tài)圖如圖10所示。動(dòng)態(tài)障礙物以[v=1]的速度分別在[X=150]處和[X=300]處向豎直方向上下移動(dòng),其移動(dòng)規(guī)則設(shè)置為:在設(shè)置的平面內(nèi)進(jìn)行移動(dòng)時(shí)不與靜態(tài)障礙物發(fā)生碰撞,這樣可以維持整個(gè)搭建環(huán)境的穩(wěn)定性。

    多智能體系統(tǒng)采用改進(jìn)的DDPG算法與編隊(duì)隊(duì)形切換方法結(jié)合后在動(dòng)態(tài)障礙物環(huán)境下的避障仿真圖如圖11所示。

    從圖11(a)—(f)中可以看出,將智能體以菱形隊(duì)形編隊(duì)并設(shè)置其初始位置,設(shè)置移動(dòng)速度[v=1]向中點(diǎn)移動(dòng),在移動(dòng)的過程中遇到動(dòng)態(tài)障礙物時(shí),為保障智能體能安全繞過障礙物,縮小智能體間的相對(duì)空間,以“一”字隊(duì)形繞開障礙物,然后恢復(fù)到菱形編隊(duì)到達(dá)中點(diǎn)位置。從圖11(g)—(l)中可以看出,多智能體設(shè)置移動(dòng)速度為[v=-1]向中點(diǎn)移動(dòng),其移動(dòng)過程與鏡像下的多智能體起點(diǎn)向中點(diǎn)移動(dòng)不同,當(dāng)遇到在[X=300]位置處上下移動(dòng)的動(dòng)態(tài)障礙物時(shí),多智能體會(huì)通過隊(duì)形切換方式轉(zhuǎn)換成“一”字形隊(duì)形,繞開障礙物,之后恢復(fù)菱形隊(duì)形向中點(diǎn)移動(dòng)。當(dāng)智能體同時(shí)進(jìn)行如圖11(a)—(f)和圖11(g)—(l)所示的訓(xùn)練時(shí),所獲得的多智能體編隊(duì)避障路徑時(shí)間將會(huì)減少。結(jié)合靜態(tài)障礙物環(huán)境以及動(dòng)態(tài)障礙物環(huán)境下的仿真驗(yàn)證的結(jié)果,可以得出:改進(jìn)的DDPG算法在結(jié)合編隊(duì)隊(duì)形切換方法使用時(shí),具有通用性以及在獲取避障路徑時(shí)的高效性。

    4 對(duì)比實(shí)驗(yàn)與分析

    為了驗(yàn)證改進(jìn)DDPG算法的有效性,以本文構(gòu)建的路徑規(guī)劃仿真環(huán)境為實(shí)驗(yàn)平臺(tái),通過對(duì)改進(jìn)的DDPG算法與其他同類型的智能避障算法在不同訓(xùn)練次數(shù)下的比較來驗(yàn)證改進(jìn)算法在編隊(duì)避障過程中的高效性。仿真結(jié)果如圖12所示,其中縱坐標(biāo)表示智能體在避障環(huán)境中獲得的獎(jiǎng)賞值,[memory_][size=2 000],[r=0.9]。

    圖12(a)—(e)為算法DDPG-nature、DDPG-other以及本文的改進(jìn)DDPG算法(DDPG-vcep)在不同訓(xùn)練次數(shù)時(shí)的獎(jiǎng)賞對(duì)比,其中DDPG-nature[18]指?jìng)鹘y(tǒng)的深度確定性策略梯度算法,DDPG-other為Zong等[19]提出的DDPG改進(jìn)算法,DDPG-vcep是本文提出的對(duì)DDPG算法中的獎(jiǎng)勵(lì)函數(shù)采用稀疏函數(shù)設(shè)計(jì)的方法,vcep是可變?nèi)萘矿w驗(yàn)池(variable capacity experience pool)。由圖12可以得出如下結(jié)論:

    1)從整個(gè)訓(xùn)練過程可以看出,采用本文改進(jìn)算法的智能體在避障環(huán)境中獲得的獎(jiǎng)賞值均處于領(lǐng)先地位,較其他同類型的智能避障算法的優(yōu)勢(shì)明顯。

    2)在前期訓(xùn)練過程中可以看出,在訓(xùn)練步數(shù)較少的情況下所獲得的獎(jiǎng)勵(lì)較小,說明多智能體系統(tǒng)編隊(duì)的避障效果不理想。但隨著訓(xùn)練步數(shù)的不斷增多,訓(xùn)練效果越來越突出,編隊(duì)避障效果越來越好。

    3)從整個(gè)訓(xùn)練步數(shù)可以看出,在步數(shù)為2 000步之后,使用改進(jìn)的算法訓(xùn)練智能體,獎(jiǎng)勵(lì)將不發(fā)生變化,而使用其他同類型的算法,獎(jiǎng)勵(lì)卻依然增加,說明改進(jìn)后的編隊(duì)避障算法收斂速度更快,獲得的避障路徑效率更高。

    5 結(jié)論

    本文以傳統(tǒng)的DDPG算法為基礎(chǔ),分別對(duì)多智能體編隊(duì)方式和算法獎(jiǎng)勵(lì)函數(shù)以及多智能體編隊(duì)算法進(jìn)行改進(jìn),通過對(duì)多智能體模型進(jìn)行起始點(diǎn)同色編號(hào),對(duì)DDPG算法中的獎(jiǎng)勵(lì)函數(shù)采用稀疏函數(shù)設(shè)計(jì)的方法,提出一種改進(jìn)的DDPG算法;通過采用角度度量的方式,使多智能體編隊(duì)時(shí)的穩(wěn)定性更高;在本文建立的障礙物環(huán)境中將該算法與其他典型算法進(jìn)行對(duì)比實(shí)驗(yàn),得到驗(yàn)證結(jié)果。實(shí)驗(yàn)結(jié)果表明,與其他同類型的智能避障算法相比,改進(jìn)后的算法在訓(xùn)練步數(shù)較少時(shí)獲得獎(jiǎng)勵(lì)較小,但隨著訓(xùn)練步數(shù)的增加,獎(jiǎng)勵(lì)會(huì)逐漸增加,且訓(xùn)練步數(shù)在到達(dá)一定數(shù)量之后將不再變化,說明其收斂速度更快,獲得避障的路徑效率更高。但本研究?jī)H涉及二維地圖環(huán)境中的多智能體系統(tǒng)編隊(duì)避障控制,缺乏三維立體的算法驗(yàn)證,下一步將拓展研究范圍,建立復(fù)雜的三維立體仿真環(huán)境,進(jìn)一步研究該避障算法的適用性。

    參考文獻(xiàn)

    [1] 顧大強(qiáng),鄭文鋼.多移動(dòng)機(jī)器人協(xié)同搬運(yùn)技術(shù)綜述[J].智能系統(tǒng)學(xué)報(bào),2019,14(1):20-27.

    [2] 劉延棟.基于DDPG強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃[D].呼和浩特:內(nèi)蒙古工業(yè)大學(xué),2019.

    [3] 楊帆.多移動(dòng)機(jī)器人編隊(duì)控制與協(xié)作運(yùn)輸研究[D].上海:華東理工大學(xué),2011.

    [4] 班林林.多移動(dòng)機(jī)器人群體協(xié)同編隊(duì)與路徑規(guī)劃[D].北京:北京交通大學(xué),2018.

    [5] KARTAL Y,SUBBARAO K,GANS N R, et al. Distributed backstepping based control of multiple UAV formation flight subject to time delays[J]. IET Control Theory and Applications,2020,14(12):1628-1638.

    [6] 霍祥.基于自適應(yīng)控制的機(jī)器人軌跡跟蹤算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019.

    [7] ZHANG W X,MA L,LI X N.Multi-agent reinforcement learning based on local communication[J].Cluster Computing,2019,22(6):15357-15366.

    [8] 楊繼明,朱先睿.一類非線性最優(yōu)控制問題的間斷有限元方法[J].湖南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,27(3):37-39.

    [9] 徐鵬,謝廣明,文家燕,等.事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)多智能體編隊(duì)控制[J].智能系統(tǒng)學(xué)報(bào),2019,14(1):93-98.

    [10] 王文欣,葉洪濤,羅文廣,等.事件觸發(fā)機(jī)制下多智能體系統(tǒng)的非對(duì)稱二分一致性[J].廣西科技大學(xué)學(xué)報(bào),2021,32(4):28-34.

    [11] 唐博文,王智文,胡振寰.基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障研究[J].廣西科技大學(xué)學(xué)報(bào),2019,30(1):96-102,117.

    [12] 賈丙佳,李平.復(fù)雜環(huán)境下移動(dòng)機(jī)器人路徑規(guī)劃算法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,42(1):103-112.

    [13] 鄧小豪,侯進(jìn),譚光鴻,等.基于強(qiáng)化學(xué)習(xí)的多目標(biāo)車輛跟隨決策算法[J].控制與決策,2021,36(10):2497-2503.

    [14] 李文超.移動(dòng)機(jī)器人環(huán)境建模與路徑規(guī)劃方法研究[D].邯鄲:河北工程大學(xué),2019.

    [15] JOHNSON J D,LI J H,CHEN Z S.Reinforcement learning:an introduction[J].Neurocomputing,2000,35(1-4):205-206.

    [16] SILVER D,LEVER G,HEESS N,et al.Deterministic policy gradient algorithms[C]//International Conference on Machine Learning,2014:387-395.

    [17] PROENCA H,NEVES J C.Deep-PRWIS:periocular recognition without the iris and sclera using deep learning frameworks[J]. IEEE Transactions on Information Forensics and Security,2018,13(4):888-896.

    [18] XING X R,DING H W,LIANG Z G,et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm[J].Mechatronics,2022,88:102918.

    [19] ZONG X P,XU G Y,YU G Z,et al.Obstacle avoidance for self-driving vehicle with reinforcement learning[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems,2017,11(1):30-39.

    Multi-agent formation control and simulation based on improved DDPG algorithm

    JING Yongnian1,2, GENG Shuangshuang1,3, XIANG Yao1,3, WEN Jiayan*1,3,4

    (1. School of Automation, Guangxi University of Science and Technology, Liuzhou 545616, China;

    2. Black Sesame Technologies Company Limited, Shenzhen 518055, China;

    3. Research Center for Intelligent Cooperation and Cross-application,Guangxi University of Science and Technology, Liuzhou 545616, China;

    4. Guangxi Key Laboratory of Automobile Components and Vehicle Technology, Guangxi University of Science and Technology, Liuzhou 545616, China)

    Abstract: In view of the problems of unstable formation in the path planning process, slow time to obtain path, and close distance to obstacles in the process of obstacle avoidance, in this paper, the method of angular distance measurement is used to form multiple agents, and by changing the traditional path planning method formed by the obstacle avoidance process from the start point to the end point, weakening the concept of start point and end point, and adding the path midpoint, the agent moves from the start point and the end point to the midpoint at the same time, forming two paths from the start point to the midpoint and the end point to the midpoint. The reward function is designed to meet agents of the same number as a positive reward, and the collision of different agents and the collision between agents(agents of the same number and different agents)and obstacles are all negative rewards. The deep deterministic policy gradient-variable capacity experience pool(DDPG-vcep)algorithm is verified respectively in the static and dynamic obstacle simulation environments, and the reward values under different training times are compared. The simulation results show that compared with the traditional DDPG algorithm, the improved DDPG formation algorithm saves the path acquisition time and has a more obvious obstacle avoidance effect.

    Key words: deep learning; reinforcement learning; deep deterministic policy gradient algorithm(DDPG algorithm); multi-agent; formation control; obstacle avoidance

    (責(zé)任編輯:黎 婭)

    猜你喜歡
    避障強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
    智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
    基于LabVIEW的自主巡航與遙控雙功能智能小車研發(fā)
    基于HC—SR04超聲波傳感器的智能避障小車設(shè)計(jì)
    基于STM32芯片的移動(dòng)機(jī)器人的避障研究
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    99热这里只有是精品50| 久久久久人妻精品一区果冻| 色吧在线观看| 在线天堂最新版资源| 欧美区成人在线视频| 精品视频人人做人人爽| 亚洲欧美成人精品一区二区| 亚洲av中文av极速乱| 在线观看三级黄色| 精品视频人人做人人爽| 国产免费福利视频在线观看| 十分钟在线观看高清视频www | 伊人久久国产一区二区| 在线免费十八禁| 一级av片app| 中文在线观看免费www的网站| 精品一区二区三卡| 久久久a久久爽久久v久久| 亚洲三级黄色毛片| 免费少妇av软件| 免费黄网站久久成人精品| 日日啪夜夜爽| h视频一区二区三区| 国产精品不卡视频一区二区| 九草在线视频观看| 91精品一卡2卡3卡4卡| 久久久久久久久久成人| 精品酒店卫生间| 寂寞人妻少妇视频99o| 亚洲欧美日韩无卡精品| 久久99热这里只有精品18| 亚洲综合色惰| 久久影院123| 女人十人毛片免费观看3o分钟| 日韩欧美精品免费久久| 麻豆成人午夜福利视频| 欧美xxxx性猛交bbbb| 女的被弄到高潮叫床怎么办| 亚洲av成人精品一区久久| 色5月婷婷丁香| 久久精品国产亚洲av涩爱| 欧美xxⅹ黑人| 天天躁夜夜躁狠狠久久av| 蜜臀久久99精品久久宅男| 老司机影院毛片| 日韩人妻高清精品专区| 亚洲精品视频女| 国产极品天堂在线| 精华霜和精华液先用哪个| 美女国产视频在线观看| 免费看日本二区| av不卡在线播放| 97精品久久久久久久久久精品| 国产中年淑女户外野战色| 97精品久久久久久久久久精品| 久久精品久久久久久久性| 熟妇人妻不卡中文字幕| 欧美 日韩 精品 国产| 晚上一个人看的免费电影| 久久久久久久久久久丰满| 国产大屁股一区二区在线视频| 日韩视频在线欧美| 国产午夜精品一二区理论片| 国产午夜精品一二区理论片| 不卡视频在线观看欧美| 欧美最新免费一区二区三区| 成人亚洲欧美一区二区av| 午夜福利网站1000一区二区三区| 国内少妇人妻偷人精品xxx网站| 只有这里有精品99| 国产亚洲5aaaaa淫片| 精华霜和精华液先用哪个| 成人影院久久| 久久综合国产亚洲精品| 国产精品久久久久久av不卡| 在线 av 中文字幕| 中文字幕亚洲精品专区| 日本欧美视频一区| 国产精品99久久久久久久久| 亚洲色图av天堂| 内射极品少妇av片p| 看免费成人av毛片| 亚洲中文av在线| 在线观看免费视频网站a站| 在线精品无人区一区二区三 | 午夜福利高清视频| 国产成人免费观看mmmm| 精品久久国产蜜桃| 日本av手机在线免费观看| 美女cb高潮喷水在线观看| 热re99久久精品国产66热6| 国产91av在线免费观看| 一级爰片在线观看| 赤兔流量卡办理| 欧美人与善性xxx| 久久久成人免费电影| 免费播放大片免费观看视频在线观看| 菩萨蛮人人尽说江南好唐韦庄| 偷拍熟女少妇极品色| 一本久久精品| 热re99久久精品国产66热6| 国产淫语在线视频| 精品国产一区二区三区久久久樱花 | 麻豆成人午夜福利视频| videos熟女内射| 人人妻人人看人人澡| 国产白丝娇喘喷水9色精品| 免费观看av网站的网址| 久久99精品国语久久久| 日本vs欧美在线观看视频 | 久久久久久久精品精品| 毛片女人毛片| 狂野欧美白嫩少妇大欣赏| 欧美日韩亚洲高清精品| 久久久久久久亚洲中文字幕| 国产 一区 欧美 日韩| 国产在线免费精品| 边亲边吃奶的免费视频| 又大又黄又爽视频免费| a级毛片免费高清观看在线播放| 中文乱码字字幕精品一区二区三区| 99热这里只有精品一区| 中文资源天堂在线| 欧美精品一区二区大全| 亚洲一级一片aⅴ在线观看| 亚洲色图综合在线观看| 国产精品嫩草影院av在线观看| 人妻系列 视频| 国产高清三级在线| 人人妻人人爽人人添夜夜欢视频 | av在线老鸭窝| 91狼人影院| 免费观看在线日韩| 交换朋友夫妻互换小说| 日韩制服骚丝袜av| xxx大片免费视频| av国产精品久久久久影院| 亚洲欧美中文字幕日韩二区| 狂野欧美白嫩少妇大欣赏| 在线观看人妻少妇| 国产成人一区二区在线| 亚洲成人av在线免费| 男女啪啪激烈高潮av片| 久久久久视频综合| 嫩草影院入口| 国产成人aa在线观看| 狠狠精品人妻久久久久久综合| 秋霞伦理黄片| 伦理电影大哥的女人| 熟女电影av网| 久久久午夜欧美精品| 婷婷色综合大香蕉| 777米奇影视久久| 国产免费视频播放在线视频| 国模一区二区三区四区视频| 日韩亚洲欧美综合| 狂野欧美激情性bbbbbb| 国产无遮挡羞羞视频在线观看| 亚洲精品中文字幕在线视频 | 嫩草影院入口| 国产黄色视频一区二区在线观看| 香蕉精品网在线| 成人美女网站在线观看视频| 女性生殖器流出的白浆| 亚洲真实伦在线观看| 久久久久久伊人网av| 免费不卡的大黄色大毛片视频在线观看| 日韩强制内射视频| 99久久精品国产国产毛片| 亚洲av在线观看美女高潮| 国产伦在线观看视频一区| 精品人妻偷拍中文字幕| 视频区图区小说| 亚洲国产欧美人成| 国产免费一区二区三区四区乱码| 亚洲av不卡在线观看| 在线播放无遮挡| 你懂的网址亚洲精品在线观看| 国产黄频视频在线观看| 欧美国产精品一级二级三级 | 午夜福利影视在线免费观看| 熟妇人妻不卡中文字幕| 免费看不卡的av| 永久免费av网站大全| 日韩大片免费观看网站| 美女福利国产在线 | 女人久久www免费人成看片| 久久99蜜桃精品久久| 亚洲欧洲日产国产| 国产老妇伦熟女老妇高清| 99热这里只有是精品50| 日本-黄色视频高清免费观看| 又粗又硬又长又爽又黄的视频| 性色av一级| 日韩,欧美,国产一区二区三区| 男人舔奶头视频| 国产成人a∨麻豆精品| 亚洲成人一二三区av| 久久久久久久久久成人| 欧美国产精品一级二级三级 | 一个人看的www免费观看视频| 午夜激情久久久久久久| 久久久久久久国产电影| 99视频精品全部免费 在线| 亚洲av福利一区| 韩国av在线不卡| 最近中文字幕2019免费版| a级毛片免费高清观看在线播放| 成年av动漫网址| 午夜福利网站1000一区二区三区| 18禁在线无遮挡免费观看视频| 久久久精品免费免费高清| 99热国产这里只有精品6| 精品一区二区三区视频在线| 国产av精品麻豆| 国产高清国产精品国产三级 | 国产精品三级大全| 久久久久久久国产电影| 亚洲精品,欧美精品| 一区二区三区乱码不卡18| 午夜免费男女啪啪视频观看| 七月丁香在线播放| 久久久久久久大尺度免费视频| 国产女主播在线喷水免费视频网站| 嫩草影院新地址| 国产色婷婷99| 精品一区二区免费观看| 91精品国产九色| 日本黄大片高清| 欧美一区二区亚洲| 久久婷婷青草| 99久久中文字幕三级久久日本| 成年免费大片在线观看| 国产免费一级a男人的天堂| 久久99热这里只频精品6学生| 免费少妇av软件| 精品久久久久久久久亚洲| 亚洲欧美中文字幕日韩二区| 国产精品久久久久久久电影| 一二三四中文在线观看免费高清| 免费看不卡的av| 成人国产av品久久久| 久久韩国三级中文字幕| 久久久欧美国产精品| 日日撸夜夜添| 国产v大片淫在线免费观看| 亚洲欧美一区二区三区黑人 | 国产乱人偷精品视频| 免费高清在线观看视频在线观看| 国产精品久久久久久精品电影小说 | 日韩大片免费观看网站| 免费黄网站久久成人精品| 国产极品天堂在线| 国产精品99久久99久久久不卡 | 看免费成人av毛片| 国产精品女同一区二区软件| 80岁老熟妇乱子伦牲交| 亚洲av福利一区| 中文字幕免费在线视频6| 亚洲精品日韩在线中文字幕| 麻豆成人午夜福利视频| 午夜福利在线观看免费完整高清在| 久久青草综合色| 一级毛片aaaaaa免费看小| 精品一区二区免费观看| 成年av动漫网址| 亚洲精品,欧美精品| 亚洲精品日本国产第一区| 少妇高潮的动态图| 少妇裸体淫交视频免费看高清| 男人添女人高潮全过程视频| 久久久久视频综合| 国产亚洲av片在线观看秒播厂| 五月伊人婷婷丁香| 性色av一级| 亚洲电影在线观看av| 亚洲色图综合在线观看| 久久精品国产亚洲av涩爱| 国国产精品蜜臀av免费| 国产成人a区在线观看| 少妇丰满av| 国产精品一二三区在线看| 亚洲av日韩在线播放| 嫩草影院入口| 人妻制服诱惑在线中文字幕| 国产亚洲最大av| 国产亚洲av片在线观看秒播厂| 少妇人妻一区二区三区视频| 美女高潮的动态| 国产成人精品久久久久久| 国产成人免费无遮挡视频| 久久亚洲国产成人精品v| 亚洲伊人久久精品综合| 亚洲美女搞黄在线观看| 欧美bdsm另类| 在线亚洲精品国产二区图片欧美 | 国产一区二区三区综合在线观看 | 成人高潮视频无遮挡免费网站| 一级毛片 在线播放| 欧美 日韩 精品 国产| 制服丝袜香蕉在线| 2021少妇久久久久久久久久久| 国产成人一区二区在线| 美女xxoo啪啪120秒动态图| 日韩视频在线欧美| 国产一区亚洲一区在线观看| 久久精品国产亚洲av天美| 国产精品福利在线免费观看| 久久精品夜色国产| 两个人的视频大全免费| 国产精品熟女久久久久浪| 波野结衣二区三区在线| 王馨瑶露胸无遮挡在线观看| 精品酒店卫生间| 美女xxoo啪啪120秒动态图| 国产av一区二区精品久久 | 欧美成人精品欧美一级黄| 亚洲一区二区三区欧美精品| 久久久久国产精品人妻一区二区| 欧美精品人与动牲交sv欧美| 中文乱码字字幕精品一区二区三区| 精品国产露脸久久av麻豆| 一区二区三区四区激情视频| 亚洲在久久综合| 国产精品一区二区在线不卡| 久久精品熟女亚洲av麻豆精品| 一区二区av电影网| 高清毛片免费看| 成人黄色视频免费在线看| 麻豆乱淫一区二区| 久久久午夜欧美精品| 欧美精品亚洲一区二区| 我的老师免费观看完整版| 六月丁香七月| 一个人看的www免费观看视频| 国产av国产精品国产| av视频免费观看在线观看| 国产亚洲91精品色在线| 国产淫语在线视频| 啦啦啦在线观看免费高清www| 久久精品国产亚洲av天美| 在线观看一区二区三区| 欧美日韩亚洲高清精品| 久久国产乱子免费精品| 日本黄色片子视频| 国产高潮美女av| 午夜老司机福利剧场| 亚洲中文av在线| 国精品久久久久久国模美| 熟女av电影| 97在线视频观看| 亚洲丝袜综合中文字幕| 一级片'在线观看视频| 国产大屁股一区二区在线视频| 婷婷色综合大香蕉| 九九爱精品视频在线观看| 久久99蜜桃精品久久| 国产精品99久久99久久久不卡 | 成年美女黄网站色视频大全免费 | 欧美一区二区亚洲| 色5月婷婷丁香| 免费av中文字幕在线| 国产成人a区在线观看| av免费在线看不卡| 老师上课跳d突然被开到最大视频| 观看av在线不卡| 久久人人爽人人片av| 天天躁夜夜躁狠狠久久av| 国产精品99久久99久久久不卡 | 欧美日韩综合久久久久久| 男男h啪啪无遮挡| 看免费成人av毛片| 亚洲色图综合在线观看| 国产精品一区二区在线观看99| 在线观看美女被高潮喷水网站| 80岁老熟妇乱子伦牲交| 亚洲国产精品一区三区| 欧美人与善性xxx| 噜噜噜噜噜久久久久久91| 亚洲人成网站在线观看播放| 久久久精品94久久精品| 日韩一区二区视频免费看| 日韩av免费高清视频| 国产成人a区在线观看| av免费在线看不卡| av在线老鸭窝| 午夜激情久久久久久久| 国产淫语在线视频| 久久ye,这里只有精品| 人妻 亚洲 视频| 大片电影免费在线观看免费| 久久久精品免费免费高清| 亚洲欧洲日产国产| 成人午夜精彩视频在线观看| 国产高清国产精品国产三级 | 亚洲婷婷狠狠爱综合网| 成人亚洲欧美一区二区av| 亚洲成人手机| 三级经典国产精品| 亚洲国产最新在线播放| 人体艺术视频欧美日本| 国语对白做爰xxxⅹ性视频网站| 一级毛片黄色毛片免费观看视频| 免费观看的影片在线观看| 99视频精品全部免费 在线| 国产精品久久久久成人av| 亚洲电影在线观看av| 亚洲综合精品二区| 高清黄色对白视频在线免费看 | 成人一区二区视频在线观看| 国产精品三级大全| 蜜桃在线观看..| 噜噜噜噜噜久久久久久91| 午夜免费男女啪啪视频观看| 偷拍熟女少妇极品色| 国产一区二区三区综合在线观看 | 久久人妻熟女aⅴ| 亚洲av免费高清在线观看| 国产女主播在线喷水免费视频网站| 水蜜桃什么品种好| 亚洲美女黄色视频免费看| 如何舔出高潮| 高清日韩中文字幕在线| 精品视频人人做人人爽| 丰满迷人的少妇在线观看| 亚洲性久久影院| 国精品久久久久久国模美| 成人免费观看视频高清| 我要看黄色一级片免费的| 纵有疾风起免费观看全集完整版| 三级国产精品片| 哪个播放器可以免费观看大片| 男人狂女人下面高潮的视频| 国产精品秋霞免费鲁丝片| 免费黄频网站在线观看国产| 少妇的逼好多水| 日韩在线高清观看一区二区三区| 日本爱情动作片www.在线观看| 国产精品.久久久| av国产久精品久网站免费入址| 成年美女黄网站色视频大全免费 | 日韩欧美精品免费久久| 在线看a的网站| 亚洲国产精品成人久久小说| 久久99蜜桃精品久久| 晚上一个人看的免费电影| 亚洲伊人久久精品综合| 国产色婷婷99| 女人十人毛片免费观看3o分钟| 麻豆成人av视频| 人人妻人人添人人爽欧美一区卜 | 狂野欧美激情性xxxx在线观看| 亚洲精品一二三| 人人妻人人添人人爽欧美一区卜 | 搡老乐熟女国产| 91狼人影院| 亚洲欧美日韩卡通动漫| 插逼视频在线观看| 午夜激情福利司机影院| 蜜臀久久99精品久久宅男| 亚洲国产成人一精品久久久| av免费在线看不卡| 亚洲三级黄色毛片| 在线观看美女被高潮喷水网站| 伊人久久精品亚洲午夜| 亚洲国产最新在线播放| 22中文网久久字幕| 人妻系列 视频| 免费观看a级毛片全部| 九九爱精品视频在线观看| 亚洲综合色惰| 国产av一区二区精品久久 | 青春草视频在线免费观看| 国产精品爽爽va在线观看网站| 亚洲国产日韩一区二区| 国产免费一区二区三区四区乱码| av网站免费在线观看视频| 国产片特级美女逼逼视频| 男女啪啪激烈高潮av片| 国产无遮挡羞羞视频在线观看| 久久久久精品久久久久真实原创| 熟妇人妻不卡中文字幕| 777米奇影视久久| 国产伦理片在线播放av一区| 最近中文字幕高清免费大全6| 波野结衣二区三区在线| 国产精品一区www在线观看| 亚洲精品乱码久久久久久按摩| 亚洲av不卡在线观看| 亚洲伊人久久精品综合| 精品久久久噜噜| 激情 狠狠 欧美| 日韩,欧美,国产一区二区三区| 丰满少妇做爰视频| 亚洲激情五月婷婷啪啪| 蜜桃亚洲精品一区二区三区| 黑人高潮一二区| 国产成人午夜福利电影在线观看| 天美传媒精品一区二区| 高清午夜精品一区二区三区| 亚洲欧美日韩另类电影网站 | 久久人人爽人人片av| 国产一区二区在线观看日韩| 亚洲av成人精品一区久久| 亚洲国产精品一区三区| 伦理电影大哥的女人| 国产片特级美女逼逼视频| 2022亚洲国产成人精品| 纯流量卡能插随身wifi吗| 国产精品人妻久久久影院| 欧美变态另类bdsm刘玥| 欧美zozozo另类| 制服丝袜香蕉在线| 麻豆精品久久久久久蜜桃| 精品一区二区免费观看| 成年女人在线观看亚洲视频| 国产av国产精品国产| 在线天堂最新版资源| 久久精品夜色国产| 日韩制服骚丝袜av| 久热这里只有精品99| 亚洲,一卡二卡三卡| 国产av码专区亚洲av| 久久精品夜色国产| 视频区图区小说| 中文字幕久久专区| 国精品久久久久久国模美| 国产精品久久久久久久电影| 人妻系列 视频| 亚洲av男天堂| 日韩一区二区视频免费看| 一二三四中文在线观看免费高清| 午夜福利在线观看免费完整高清在| 免费在线观看成人毛片| 亚洲av男天堂| 国产在线男女| 欧美xxxx黑人xx丫x性爽| 纵有疾风起免费观看全集完整版| 免费看日本二区| 亚洲av福利一区| 尾随美女入室| 一级毛片我不卡| 91久久精品电影网| 欧美另类一区| 大陆偷拍与自拍| 秋霞在线观看毛片| 十分钟在线观看高清视频www | 精品少妇黑人巨大在线播放| 欧美成人一区二区免费高清观看| 免费高清在线观看视频在线观看| 免费黄网站久久成人精品| 九色成人免费人妻av| 国产在线免费精品| 久久久色成人| av国产免费在线观看| 夜夜爽夜夜爽视频| 在线观看美女被高潮喷水网站| 欧美xxⅹ黑人| 国产精品久久久久久久久免| 最近最新中文字幕免费大全7| 国产精品国产av在线观看| 日韩欧美精品免费久久| 街头女战士在线观看网站| 老女人水多毛片| 午夜免费鲁丝| 男女免费视频国产| 久久久久久久大尺度免费视频| 精品久久国产蜜桃| 网址你懂的国产日韩在线| 亚洲欧美日韩另类电影网站 | 国产精品蜜桃在线观看| 欧美精品国产亚洲| 伦理电影大哥的女人| 日韩 亚洲 欧美在线| 久久99热这里只有精品18| 18+在线观看网站| 国语对白做爰xxxⅹ性视频网站| 亚洲精品久久久久久婷婷小说| 免费黄频网站在线观看国产| 最近中文字幕高清免费大全6| 人妻夜夜爽99麻豆av| 高清毛片免费看| 国产视频首页在线观看| 精品国产露脸久久av麻豆| 国产精品伦人一区二区| 国产亚洲91精品色在线| h日本视频在线播放| 一级黄片播放器| 黑人高潮一二区| 色综合色国产| 午夜激情福利司机影院| 丰满人妻一区二区三区视频av| 久久久久久久久久成人| 丝袜脚勾引网站| 菩萨蛮人人尽说江南好唐韦庄| 亚洲精品一二三| 一本一本综合久久| 精品久久久久久久久亚洲| 人人妻人人看人人澡| 2021少妇久久久久久久久久久| 五月伊人婷婷丁香| 国产又色又爽无遮挡免| 精品久久久精品久久久| 国产精品无大码| 日韩欧美一区视频在线观看 | 在线观看人妻少妇| 天美传媒精品一区二区| 日韩av不卡免费在线播放| 精品人妻一区二区三区麻豆| 久久久久久久精品精品| 亚洲av欧美aⅴ国产| 涩涩av久久男人的天堂| 国产av国产精品国产| 亚洲精品视频女| 久久国产精品男人的天堂亚洲 |