郭心德,丁宏強(qiáng)
(1. 廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006;2. 物聯(lián)網(wǎng)智能信息處理與系統(tǒng)集成教育部重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006;3. 香港中文大學(xué),廣東 深圳 518172)
機(jī)器人技術(shù)的飛速發(fā)展見證了現(xiàn)代機(jī)器人的出現(xiàn)。越來(lái)越多的機(jī)器人被用以協(xié)助或取代人類在大量領(lǐng)域執(zhí)行復(fù)雜控制操作和規(guī)劃任務(wù)。然而,為移動(dòng)機(jī)器人設(shè)計(jì)可靠的路徑規(guī)劃通常是一個(gè)復(fù)雜的過(guò)程,即使是專門為移動(dòng)機(jī)器人進(jìn)行路徑規(guī)劃的專家也需要花費(fèi)大量的時(shí)間進(jìn)行設(shè)計(jì)和試驗(yàn)[1]。移動(dòng)機(jī)器人面臨的不確定環(huán)境的復(fù)雜性使得機(jī)器人的路徑規(guī)劃相當(dāng)困難,手動(dòng)路徑規(guī)劃通常是一個(gè)昂貴且非常耗時(shí)的過(guò)程。因此,與其為機(jī)器人預(yù)先編寫路徑規(guī)劃程序,不如讓機(jī)器人自己學(xué)習(xí)路徑規(guī)劃[2]。
路徑規(guī)劃技術(shù)已被廣泛應(yīng)用于移動(dòng)機(jī)器人、機(jī)械臂、無(wú)人機(jī)的導(dǎo)航中。路徑規(guī)劃是指機(jī)器人在復(fù)雜的環(huán)境中規(guī)劃出一條從初始位置到目標(biāo)位置的合適路徑,是移動(dòng)機(jī)器人導(dǎo)航最基本的部分[3]。配備多種傳感器的移動(dòng)機(jī)器人可以通過(guò)路徑規(guī)劃技術(shù)進(jìn)行定位、控制運(yùn)動(dòng)器、檢測(cè)障礙物并避開障礙物。自主智能的路徑規(guī)劃可以使得移動(dòng)機(jī)器人根據(jù)環(huán)境信息進(jìn)行綜合判斷和智能決策[4]。
近年來(lái),許多經(jīng)典的路徑規(guī)劃方法已經(jīng)被深入研究,常見的有A*算法[5]、D*算法[6]、人工勢(shì)場(chǎng)法[7-8]和蟻群算法[9]。然而,這些方法仍然存在一些缺點(diǎn),例如無(wú)法或難以處理復(fù)雜的高維環(huán)境信息(如圖像)或在復(fù)雜環(huán)境中容易陷入局部最優(yōu)。相比之下,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是近年來(lái)構(gòu)建自適應(yīng)和智能系統(tǒng)的強(qiáng)大方法。在強(qiáng)化學(xué)習(xí)的框架中,智能體是決策者,它可以在環(huán)境中采取行動(dòng),并在與環(huán)境進(jìn)行交互的過(guò)程中獲得強(qiáng)化信號(hào),該信號(hào)通常稱為獎(jiǎng)勵(lì)(或懲罰),是評(píng)估一個(gè)動(dòng)作的結(jié)果。智能體不斷進(jìn)行環(huán)境交互與訓(xùn)練,以最大化一段時(shí)間內(nèi)的總累積獎(jiǎng)勵(lì)[10]。此外,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)具有深度學(xué)習(xí)的強(qiáng)大感知能力和強(qiáng)化學(xué)習(xí)的智能決策能力,在面對(duì)復(fù)雜的環(huán)境和任務(wù)時(shí)表現(xiàn)突出[11]。例如,文獻(xiàn)[12]中應(yīng)用了深度強(qiáng)化學(xué)習(xí)的AlphaGo打敗了人類。文獻(xiàn)[13]將深度強(qiáng)化學(xué)習(xí)成功應(yīng)用于復(fù)雜的交通燈周期控制。近年來(lái),在將DRL應(yīng)用于移動(dòng)機(jī)器人路徑規(guī)劃方面也有突破性的工作。例如,在文獻(xiàn)[14]中,應(yīng)用DRL的行星車可以成功避開碎石和巖石。在文獻(xiàn)[15]中,基于DRL的智能體可以在復(fù)雜3D迷宮中實(shí)現(xiàn)端到端的導(dǎo)航,即使在開始/目標(biāo)位置頻繁變化時(shí),其表現(xiàn)也與人類水平相似。在文獻(xiàn)[16]中,一種基于DRL的方法用于移動(dòng)機(jī)器人的軌跡跟蹤和動(dòng)態(tài)避障,實(shí)現(xiàn)了視覺感知到動(dòng)作決策的端到端學(xué)習(xí)方式。在文獻(xiàn)[17]中,應(yīng)用DRL的水面艦艇(USV)實(shí)現(xiàn)了在復(fù)雜未知的環(huán)境中最優(yōu)的跟蹤控制方案。
本文研究了離散制造智能工廠中AGV (Automated Guided Vehicle)的自主路徑規(guī)劃問(wèn)題。為了提高AGV的自主路徑規(guī)劃能力和導(dǎo)航自由度,首先將AGV路徑規(guī)劃問(wèn)題表述為馬爾可夫決策過(guò)程模型,該模型包含3個(gè)主要元素:狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)[18]。AGV上多個(gè)傳感器感知到的多模態(tài)環(huán)境信息被作為狀態(tài)空間,由此產(chǎn)生的馬爾科夫決策過(guò)程模型是一個(gè)高維模型,它包含由多模態(tài)環(huán)境信息組成的高維狀態(tài)空間和二維動(dòng)作空間。融合了DQN[19-20]3種經(jīng)典改進(jìn)(Double Deep Q Network[21]、Dueling DQN[22]、Prioritized Experience Replay[23])的Dueling Double DQN with Prioritized Experience Replay (Dueling DDQN-PER)深度強(qiáng)化學(xué)習(xí)方法,進(jìn)行AGV在復(fù)雜環(huán)境中最優(yōu)控制策略訓(xùn)練。
本文的主要工作如下:
(1) 基于機(jī)器人操作系統(tǒng)(Robot Operating System, ROS)和機(jī)器人仿真工具箱Gazebo對(duì)物理仿真環(huán)境進(jìn)行建模。這2項(xiàng)工作能夠?yàn)橹悄荏w和環(huán)境建立一個(gè)交互平臺(tái),并為基于深度強(qiáng)化學(xué)習(xí)的AGV路徑規(guī)劃提供一個(gè)實(shí)驗(yàn)平臺(tái)。
(2) 在實(shí)際的離散制造智能工廠的智能物流系統(tǒng)中,除了貨架和工作區(qū)的位置固定外,其他AGV的位置是在不斷變化的。為了解決復(fù)雜智能物流系統(tǒng)中AGV的路徑規(guī)劃問(wèn)題,本文在AGV路徑規(guī)劃方法中應(yīng)用了基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法提高規(guī)劃成功率。同時(shí),本文重新設(shè)計(jì)了一種可以處理多模態(tài)傳感器信息的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其可以同時(shí)處理來(lái)自AGV傳感器的位置、速度、圖像和激光雷達(dá)點(diǎn)云信息。
(3) 本文首先在無(wú)障礙環(huán)境中對(duì)AGV進(jìn)行全局路徑規(guī)劃訓(xùn)練,該仿真實(shí)驗(yàn)比較了幾種不同DQN算法的訓(xùn)練性能,并為復(fù)雜環(huán)境下的路徑規(guī)劃訓(xùn)練提供預(yù)訓(xùn)練策略。隨后,在復(fù)雜的智能物流仿真環(huán)境中驗(yàn)證所提出的基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法。
在離散制造智能工廠的智能物流系統(tǒng)中,AGV常用以運(yùn)輸原材料,對(duì)于進(jìn)行路徑規(guī)劃的AGV來(lái)說(shuō),貨架、工作區(qū)、其他AGV和邊界圍欄都是障礙。因此,需要控制AGV的速度和角速度來(lái)進(jìn)行最優(yōu)路徑規(guī)劃。AGV可以利用全局信息進(jìn)行全局路徑規(guī)劃,找到一條從起始位置到目標(biāo)位置的相對(duì)較短且接近直線的路徑,并利用局部信息進(jìn)行局部路徑規(guī)劃以避開障礙物。主要目標(biāo)是在不遇到障礙的情況下使路徑長(zhǎng)度最短。
本文應(yīng)用ROS和Gazebo構(gòu)建了離散制造智能工廠仿真環(huán)境。整個(gè)環(huán)境為一個(gè)被圍墻包圍的30 m×30 m的正方形區(qū)域,內(nèi)有6個(gè)2 m×2 m的工作區(qū)、8個(gè)貨架、10個(gè)其他AGV和一個(gè)主體AGV-Agent。本文中智能物流仿真環(huán)境如圖1所示。
圖1 離散制造智能工廠仿真環(huán)境Fig.1 Discrete manufacturing smart factory simulation environment
圖2 RGB圖像Fig.2 RGB image
圖3 激光點(diǎn)云信息可視化圖Fig.3 Visualization of laser point cloud information
AGV-Agent可以通過(guò)自身位置和目標(biāo)位置信息識(shí)別圖像信息前方是否有障礙物,并不斷接近目標(biāo)位置。為了讓智能體更有效地學(xué)習(xí),對(duì)AGV狀態(tài)信息進(jìn)行預(yù)處理。將768×1 024×3的圖像轉(zhuǎn)換為80×80×3的RGB圖像,并記為simg,位置與速度信息融合成一個(gè)四維向量[d,θ,v,ω],其中d表示AGV與目標(biāo)位置的距離, θ表示與目標(biāo)位置的角度。
本文的AGV-Agent控制量是速度和角速度,將速度為0 m/s、0.5 m/s、1 m/s和角速度為0 rad/s、0.5 rad/s、?0.5 rad/s、1 rad/s、?1 rad/s組合成10種動(dòng)作選擇。雖然動(dòng)作總數(shù)是任意的,但其中有一種選擇不應(yīng)該組合,即速度為0 m/s,角速度為0 rad/s,原因是當(dāng)最優(yōu)策略選擇此動(dòng)作組合時(shí),AGV-Agent獲取到的環(huán)境信息是沒(méi)有變化的,因此很容易造成AGVAgent長(zhǎng)時(shí)間停留在固定位置上。
在強(qiáng)化學(xué)習(xí)的框架中,AGV的獎(jiǎng)勵(lì)設(shè)置對(duì)于策略網(wǎng)絡(luò)的收斂速度和訓(xùn)練效果至關(guān)重要。合適的獎(jiǎng)勵(lì)設(shè)計(jì)有利于策略的快速收斂,相反,不適合的獎(jiǎng)勵(lì)設(shè)計(jì)可能會(huì)降低收斂速度甚至?xí)?dǎo)致無(wú)法收斂,進(jìn)而造成智能體訓(xùn)練失敗。本文在考慮實(shí)際的離散制造智能工廠環(huán)境下,提出了一種有利于智能體進(jìn)行學(xué)習(xí)的獎(jiǎng)勵(lì)和懲罰的設(shè)計(jì)。
本文重新設(shè)計(jì)的處理多模態(tài)傳感器信息的神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖4所示。AGV-Agent在每次交互過(guò)程中接收一張來(lái)自前置攝像頭的768×1 024×3的RGB圖像、來(lái)自激光雷達(dá)的360維激光點(diǎn)云信息和一個(gè)包含速度、角速度、目標(biāo)位置距離和目標(biāo)位置角度的四維向量。因此,重新設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用3個(gè)卷積層來(lái)提取RGB圖像的特征信息,并使用一個(gè)全連接層來(lái)提取更遠(yuǎn)的環(huán)境信息。長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)用于提取激光雷達(dá)點(diǎn)云特征信息,全連接層用于提取四維向量特征信息。最后,使用CONCAT層進(jìn)行特征信息融合。綜合的特征信息作為Dueling網(wǎng)絡(luò)結(jié)構(gòu)的輸入。
圖4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Neural network structure
Dueling網(wǎng)絡(luò)結(jié)構(gòu)分別對(duì)動(dòng)作值函數(shù)A(s,a;θ,β)和狀態(tài)值函數(shù)V(s;θ,α)進(jìn)行評(píng)估,最后形成Dueling網(wǎng)絡(luò)結(jié)構(gòu)的最終輸出Q值,即為
式中:s為當(dāng)前狀態(tài),a為當(dāng)前狀態(tài)下的動(dòng)作, θ為共享層的神經(jīng)網(wǎng)絡(luò)參數(shù), α為狀態(tài)值函數(shù)的神經(jīng)網(wǎng)絡(luò)參數(shù), β為動(dòng)作值函數(shù)的網(wǎng)絡(luò)參數(shù)。
Dueling網(wǎng)絡(luò)結(jié)構(gòu)的應(yīng)用可以提高最終Q值評(píng)估的準(zhǔn)確性,最終提高學(xué)習(xí)效率和學(xué)習(xí)性能。最終網(wǎng)絡(luò)會(huì)輸出某個(gè)狀態(tài)輸入下的10個(gè)動(dòng)作Q值,進(jìn)而實(shí)現(xiàn)狀態(tài)空間到動(dòng)作空間的映射。最終選擇Q值最大的動(dòng)作作為AGV-Agent與環(huán)境交互的動(dòng)作。
卷積網(wǎng)絡(luò)本質(zhì)上是一種輸入到輸出的映射。它可以學(xué)習(xí)到大量輸入和輸出之間的映射關(guān)系,而不需要輸入和輸出之間的任何精確的數(shù)學(xué)表達(dá)式,只要已知模型訓(xùn)練卷積網(wǎng)絡(luò),并且網(wǎng)絡(luò)具有輸入和輸出對(duì)之間的映射能力。因此,使用3個(gè)卷積層來(lái)提取AGV-Agent的前視攝像頭獲得的預(yù)處理圖像信息。3個(gè)卷積核的大小分別為8×8×3×32、4×4×32×64、3×3×64×64。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。與一般的神經(jīng)網(wǎng)絡(luò)相比,它可以處理時(shí)空序列變化的數(shù)據(jù)。LSTM是一種特殊的RNN,主要解決長(zhǎng)序列訓(xùn)練過(guò)程中梯度消失和梯度爆炸的問(wèn)題。LSTM在更長(zhǎng)的序列中比普通RNN表現(xiàn)更好。因此,將LSTM單元的單位設(shè)置為256來(lái)提取360維激光點(diǎn)云信息。
全連接層(Fully Connected Layers, FC)在神經(jīng)網(wǎng)絡(luò)中扮演“分類器”的角色。如果卷積層、LSTM等網(wǎng)絡(luò)結(jié)構(gòu)將原始數(shù)據(jù)映射到隱藏層特征空間,則全連接層起到將學(xué)習(xí)到的分布式特征表示映射到樣本標(biāo)簽空間的作用。全連接層在本文的網(wǎng)絡(luò)結(jié)構(gòu)中有2個(gè)功能,一是提取AGV-Agent的速度和地理位置信息的特征,二是將信息融合后的特征映射到動(dòng)作空間中。
RGB圖像simg、四維向量作[d,θ,v,ω]和360維激光點(diǎn)云信息[x1,x2,x3,···,x360]為預(yù)處理后的環(huán)境信息s,它們被作為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入,神經(jīng)網(wǎng)絡(luò)最終輸出為在該狀態(tài)下的10種動(dòng)作Q值,Q值為動(dòng)作?價(jià)值函數(shù)的值,表示未來(lái)獎(jiǎng)勵(lì)的期望回報(bào)。
式中:St為狀態(tài)空間S中t時(shí)刻的狀態(tài),At為動(dòng)作空間A中t時(shí)刻的動(dòng)作。在DRL中,利用神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似器來(lái)估計(jì)動(dòng)作?價(jià)值函數(shù)Q(s,a)。
選取神經(jīng)網(wǎng)絡(luò)輸出的最大Q值對(duì)應(yīng)的動(dòng)作作為AGV-Agent的當(dāng)前動(dòng)作a,并以該動(dòng)作與環(huán)境交互得到獎(jiǎng)勵(lì)r、下一狀態(tài)s′和回合結(jié)束標(biāo)記Fterminal,由此形成五元組〈s,a,r,s′,Fterminal〉,將該五元組存入經(jīng)驗(yàn)池D中。使用Double DQN和Dueling DQN來(lái)避免過(guò)估計(jì)并提高訓(xùn)練性能。因此存在2個(gè)網(wǎng)絡(luò):當(dāng)前網(wǎng)絡(luò)Q,目標(biāo)網(wǎng)絡(luò)Q︿。通過(guò)經(jīng)驗(yàn)優(yōu)先回放方法在重放記憶D中選擇固定數(shù)量的〈s,a,r,s′,Fterminal〉片段,形成一個(gè)Bminibatch并用于更新當(dāng)前網(wǎng)絡(luò)的參數(shù)θ。目標(biāo)Q值yj可以通過(guò)式(4)計(jì)算。
在訓(xùn)練過(guò)程中,AGV-Agent的位置初始化對(duì)網(wǎng)絡(luò)的收斂性有關(guān)鍵影響。AGV-Agent的初始位置位于整個(gè)軌跡的開頭,這會(huì)導(dǎo)致在初始位置一定范圍內(nèi)過(guò)度學(xué)習(xí),從而導(dǎo)致網(wǎng)絡(luò)對(duì)該狀態(tài)下環(huán)境信息形成過(guò)估計(jì),而靠近目標(biāo)位置的狀態(tài)序列會(huì)缺乏學(xué)習(xí),從而造成AGV-Agent無(wú)法更快地到達(dá)目標(biāo)位置。為了克服這個(gè)問(wèn)題,本文使用的起始位置初始化方案為:貨架前面的位置和目標(biāo)位置8 m內(nèi)的位置的初始化各占50%的概率。
然后,根據(jù)一定的概率從該策略中生成一定的樣本放入記憶池中。
在無(wú)障礙環(huán)境中,AGV-Agent在每個(gè)回合開始時(shí)隨機(jī)初始化起始位置和目標(biāo)位置,初始化需要滿足這兩個(gè)位置的距離在20~25 m之間。當(dāng)AGVAgent到達(dá)目標(biāo)位置或當(dāng)前回合達(dá)到最大300步時(shí),該回合結(jié)束,并進(jìn)入下一回合的訓(xùn)練。
本實(shí)驗(yàn)評(píng)估了基于DQN算法的3種不同關(guān)鍵改進(jìn)(Double Deep Q Network[21]、Dueling DQN[22]、Prioritized Experience Replay[23])的3種組合算法,分別為Double Deep Q Network(DDQN)、Dueling Double Deep Q Network(Dueling DDQN)和Dueling DDQNPER。圖5顯示了預(yù)訓(xùn)練策略學(xué)習(xí)曲線,可以注意到Dueling DDQN-PER具有稍快的收斂速度和更好的穩(wěn)定性,而其他兩種算法在收斂后保持一定程度的振動(dòng)。分別應(yīng)用3種不同改進(jìn)組合的DQN算法進(jìn)行測(cè)試評(píng)估,其中前10個(gè)測(cè)試回合的路徑長(zhǎng)度統(tǒng)計(jì)在表1。從表1可以看出,Dueling DDQN-PER在10個(gè)回合內(nèi)的平均路徑長(zhǎng)度為23.61 m,略優(yōu)于DDQN的23.68 m和Dueling DDQN的23.87 m。
圖5 預(yù)訓(xùn)練策略學(xué)習(xí)曲線Fig.5 Pre-training policy learning curve
表1 測(cè)試回合路徑長(zhǎng)度Table 1 Path length of test episodem
Dueling DDQN-PER是結(jié)合DQN算法的3個(gè)關(guān)鍵改進(jìn)而衍生出來(lái)的,這意味著它具有Dueling網(wǎng)絡(luò)結(jié)構(gòu)對(duì)每個(gè)動(dòng)作的Q值的相對(duì)準(zhǔn)確的評(píng)估。Double DQN可以更好地避免過(guò)估計(jì),經(jīng)驗(yàn)優(yōu)先回放機(jī)制可以為模型更快的收斂提供高效有益的數(shù)據(jù)。
本實(shí)驗(yàn)的對(duì)比結(jié)果可為復(fù)雜離散制造智能工廠環(huán)境下的路徑規(guī)劃選用最優(yōu)的算法,且該預(yù)訓(xùn)練策略可用于復(fù)雜環(huán)境下AGV的環(huán)境交互,從而獲得更優(yōu)的訓(xùn)練回合數(shù)據(jù)供AGV進(jìn)行訓(xùn)練。
在無(wú)其他AGV的離散制造智能工廠環(huán)境中,經(jīng)過(guò)本文方法訓(xùn)練后的AGV可以在保證規(guī)劃成功率的前提下,使得規(guī)劃長(zhǎng)度較短。規(guī)劃成功率從預(yù)訓(xùn)練策略的全局路徑規(guī)劃的34%提升至96%;在8個(gè)測(cè)試回合里,該方法的平均規(guī)劃路徑長(zhǎng)度為22.11 m,優(yōu)于快速擴(kuò)展隨機(jī)樹算法(Rapidly-exploring Random Tree,RRT)的23.87 m。規(guī)劃的路徑軌跡對(duì)比如圖6所示。
圖6 路徑規(guī)劃軌跡對(duì)比圖Fig.6 Comparison chart of path planning trajectory
離散智能制造工廠下的智能物流仿真環(huán)境中,不僅有一臺(tái)主體AGV-Agent完成物料配送任務(wù),環(huán)境中還包括多臺(tái)AGV正在進(jìn)行物料配送任務(wù)。在這種情況下,多臺(tái)AGV會(huì)成為彼此的障礙,在避開工作區(qū)和貨架的同時(shí),也需要避開其他AGV。
在復(fù)雜環(huán)境的路徑規(guī)劃實(shí)驗(yàn)中,AGV-Agent經(jīng)過(guò)70 000次連續(xù)的環(huán)境交互與迭代訓(xùn)練,策略神經(jīng)網(wǎng)絡(luò)的參數(shù)收斂到最優(yōu)值。訓(xùn)練過(guò)程的代價(jià)曲線如圖7所示。經(jīng)過(guò)訓(xùn)練后的AGV-Agent學(xué)會(huì)了如何在未知復(fù)雜的環(huán)境中面對(duì)障礙物做出規(guī)避的動(dòng)作選擇。神經(jīng)網(wǎng)絡(luò)可以將AGV-Agent配備傳感器獲得的環(huán)境信息映射到最優(yōu)動(dòng)作選擇。圖8展示了6個(gè)測(cè)試回合的路徑規(guī)劃結(jié)果??梢杂^察到,AGV-Agent在面對(duì)障礙物時(shí),不僅可以作出規(guī)避的動(dòng)作選擇,而且規(guī)劃的軌跡也較為平滑。從圖中的6條軌跡圖也可以明顯看出,當(dāng)其他AGV出現(xiàn)在AGV-Agent前面時(shí),其可以及時(shí)作出合適的動(dòng)作選擇,并改變當(dāng)前的前進(jìn)方向,從而避開障礙物。
圖7 復(fù)雜環(huán)境訓(xùn)練曲線Fig.7 Training curve of complex environment
圖8 測(cè)試回合軌跡圖Fig.8 Trajectory graph of test episode
在實(shí)驗(yàn)中,隨著路徑規(guī)劃環(huán)境變得越來(lái)越復(fù)雜,障礙物的數(shù)量和類型也越來(lái)越多,AGV-Agent的規(guī)劃決策也變得越來(lái)越困難。盡管如此,在大多數(shù)情況下,AGV-Agent可以成功規(guī)劃路徑軌跡。因此,本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以實(shí)現(xiàn)多模態(tài)傳感器信息的融合感知,基于DRL的方法可以有效進(jìn)行AGV路徑規(guī)劃的訓(xùn)練。實(shí)驗(yàn)證明了所提出的Dueling DDQNPER算法在不同路徑規(guī)劃環(huán)境下的可行性和穩(wěn)定性。
本文提出了一種基于RL的面向離散制造智能工廠路徑規(guī)劃方法。該方法主要基于Dueling DDQNPER實(shí)現(xiàn),具有優(yōu)先經(jīng)驗(yàn)回放和全局路徑規(guī)劃策略的優(yōu)勢(shì),提高了RL的收斂速度。此外,提出了一種新的神經(jīng)網(wǎng)絡(luò),可以處理RGB圖像、地理位置信息、速度信息和激光信息等多模式傳感器信息。這可以讓AGV-Agent獲得足夠的環(huán)境信息特征,以便更好地進(jìn)行自主路徑規(guī)劃。實(shí)驗(yàn)結(jié)果證明了所提出的AGV路徑規(guī)劃方法的可行性,AGV-Agent可以在包含多臺(tái)AGV且不可預(yù)測(cè)的離散制造智能工廠動(dòng)態(tài)環(huán)境下安全地完成自主路徑規(guī)劃。本文提出的方法可以利用深度學(xué)習(xí)強(qiáng)大的感知能力和強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力,使AGV具有探索和避開障礙物的能力,從而可以更快地接近目標(biāo)位置,并具有更短的路徑軌跡長(zhǎng)度。
在未來(lái)的工作中,繼續(xù)加強(qiáng)學(xué)習(xí)的研究,嘗試使用多智能體RL方法同時(shí)進(jìn)行多臺(tái)AGV的路徑規(guī)劃來(lái)完成某項(xiàng)任務(wù)。此外,將嘗試使用RL方法進(jìn)行連續(xù)動(dòng)作控制,例如使用DDPG進(jìn)行路徑規(guī)劃,可以更有效地模擬AGV的連續(xù)速度控制。
廣東工業(yè)大學(xué)學(xué)報(bào)2021年6期