摘 要:作為智能物流系統(tǒng)中重要運(yùn)輸工具的自動(dòng)引導(dǎo)車(Automated Guided Vehicle, AGV),AGV路徑規(guī)劃與避障算法是移動(dòng)機(jī)器人領(lǐng)域重要研究熱點(diǎn)之一。為了解決現(xiàn)有倉儲(chǔ)環(huán)境下的AGV在運(yùn)用Q-learning算法進(jìn)行路徑規(guī)劃時(shí)的前期收斂速度慢且探索利用不平衡的問題,提出一種結(jié)合引力勢(shì)場(chǎng)改進(jìn)Q-learning的算法,同時(shí)對(duì)貪婪系數(shù)進(jìn)行動(dòng)態(tài)調(diào)整。首先,針對(duì)傳統(tǒng)的Q-learning算法規(guī)劃時(shí)學(xué)習(xí)效率低問題,構(gòu)建從AGV到目標(biāo)點(diǎn)的引力場(chǎng),引導(dǎo)AGV始終朝著目標(biāo)點(diǎn)方向移動(dòng),減少算法初期盲目性,加強(qiáng)初始階段的目標(biāo)性。然后,解決算法探索利用平衡問題,對(duì)貪婪系數(shù)進(jìn)行動(dòng)態(tài)改進(jìn)。仿真實(shí)驗(yàn)表明,探索速率提升的同時(shí),算法穩(wěn)定性也有一定的提升。
關(guān)鍵詞:Q-learning算法;強(qiáng)化學(xué)習(xí);人工勢(shì)場(chǎng)算法;AGV;路徑規(guī)劃
中圖分類號(hào):TP23;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)02-0171-05
AGV Path Planning Based on Improved Q-learning algorithm in Intelligent Warehouse
GENG Hua, FENG Tao
(School of Information and Electrical Engineering, Hebei University of Engineering, Handan 056038, China)
Abstract: Automated Guided Vehicle (AGV) serves as a crucial transportation means in intelligent logistics systems, and the AGV path planning and obstacle avoidance algorithm is a significant research hotspot in the domain of mobile robots. To tackle the issues of slow convergence speed and imbalanced exploration and exploitation in AGV path planning using the Q-learning algorithm under the existing warehouse environment, this paper proposes an improved Q-learning algorithm combined with gravitational potential field, along with a dynamic adjustment of the greedy coefficient. Firstly, Aiming at the problem of low learning efficiency in traditional Q-learning algorithm planning, it builds a gravitational potential field from the AGV to the target point, directs the AGV to constantly move towards the direction of target point, reduces the initial algorithm blindness, and enhances the targeting performance of initial stage. Next, the algorithm balance problem of exploration and exploitation is solved, and the greedy coefficient is dynamically improved. Simulation experiments demonstrate that while the exploration rate rises, there is a certain enhancement in algorithm stability as well.
Keywords: Q-learning algorithm; Reinforcement Learning; Artificial Potential Field algorithm; AGV; path planning
DOI:10.19850/j.cnki.2096-4706.2025.02.032
0 引 言
隨著互聯(lián)網(wǎng)技術(shù)和電商行業(yè)的迅速發(fā)展,企業(yè)對(duì)物流搬運(yùn)、存取貨物的效率提出更高的要求。自動(dòng)引導(dǎo)車AGV(Automatic Guided Vehicle)[1]逐漸應(yīng)用到物流倉儲(chǔ)系統(tǒng)中。AGV的使用不僅提高貨物的分揀速度還降低了勞動(dòng)成本,逐漸實(shí)現(xiàn)由“人到貨”到“貨到人”揀貨方式的轉(zhuǎn)變。
AGV的路徑規(guī)劃是指AGV在特定環(huán)境下尋找一條從起點(diǎn)到目標(biāo)點(diǎn)的路徑,滿足路徑長(zhǎng)度盡可能短、路徑平滑度高,并且能實(shí)現(xiàn)AGV的安全避障等要求。路徑規(guī)劃算法主要分為三種:基于圖搜索的算法、智能仿生算法和機(jī)器學(xué)習(xí)算法。其中,基于圖搜索算法主要有Dijkstar算法、柵格法[2]、A*算法[3]等,但算法進(jìn)行探索時(shí)可能存在內(nèi)存消耗大、易陷入局部最優(yōu)等問題,影響路徑規(guī)劃的效果和效率。智能仿生算法通過模擬生物行為進(jìn)行路徑探索,具有較強(qiáng)的適應(yīng)性和自組織性,算法主要包括:粒子群算法[4-5]、遺傳算法[6]、蟻群算法[7]等,但遺傳算法進(jìn)行路徑規(guī)劃時(shí)易出現(xiàn)計(jì)算量大,易早熟收斂,且參數(shù)選擇較困難等問題[8]。粒子群算法路徑規(guī)劃適用于全局路徑規(guī)劃并能在復(fù)雜環(huán)境中找到較優(yōu)路徑,但迭代中對(duì)過度依賴參數(shù)設(shè)置且后期搜索精度不高。機(jī)器學(xué)習(xí)算法在數(shù)據(jù)處理和模型泛化能力方面表現(xiàn)出色,它能處理大規(guī)模數(shù)據(jù),挖掘潛在模式且模型具有較好的通用性,代表算法分為兩類:強(qiáng)化學(xué)習(xí)算法[4]、神經(jīng)網(wǎng)絡(luò)算法[9],神經(jīng)網(wǎng)絡(luò)算法具有強(qiáng)大的魯棒性及學(xué)習(xí)力,但是算法泛化能力不強(qiáng),對(duì)樣本質(zhì)量要求過高;強(qiáng)化學(xué)習(xí)算法通過在環(huán)境中“試錯(cuò)”的方式獲取環(huán)境的反饋信息選擇行為,這個(gè)特性使得強(qiáng)化學(xué)習(xí)算法在路徑規(guī)劃時(shí)能充分適應(yīng)動(dòng)態(tài)環(huán)境,且具有較好的泛化能力和靈活性。
強(qiáng)化學(xué)習(xí)算法屬于機(jī)器學(xué)習(xí)算法,與監(jiān)督學(xué)習(xí)算法不同,強(qiáng)化學(xué)習(xí)算法無須在有標(biāo)記的數(shù)據(jù)集上進(jìn)行學(xué)習(xí),要求AGV通過與環(huán)境交互得到獎(jiǎng)勵(lì)選擇下一步動(dòng)作,不斷交互迭代來探索最優(yōu)策略。這使得強(qiáng)化學(xué)習(xí)算法在毫無先驗(yàn)環(huán)境知識(shí)的條件下也可進(jìn)行學(xué)習(xí)[10]。強(qiáng)化學(xué)習(xí)算法中,Q-learning算法在空間搜索、非線性控制、路徑規(guī)劃等領(lǐng)域廣泛應(yīng)用[11]。但傳統(tǒng)的Q-learning算法在初始化Q值時(shí)設(shè)置成固定值0,這樣會(huì)使得算法前無任何先驗(yàn)信息,造成算法初期盲目搜索從而導(dǎo)致收斂速度慢。另外,在探索和利用之間難以平衡也是Q-learning算法的主要問題。
1 相關(guān)理論
1.1 Q-learning算法
Q-learning主要用來解決馬爾可夫過程決策的相關(guān)問題,屬于強(qiáng)化學(xué)習(xí)算法中的一種時(shí)序差分算法,當(dāng)其應(yīng)用在AGV路徑規(guī)劃時(shí),Q-learning可以用于學(xué)習(xí)一個(gè)最優(yōu)的路徑策略,使得AGV能夠在按照一定的策略在一個(gè)倉儲(chǔ)環(huán)境下按照其任務(wù)分配的要求找到從出發(fā)點(diǎn)到目標(biāo)點(diǎn)的最佳路徑。在Q-learning算法中,狀態(tài)-動(dòng)作對(duì)所對(duì)應(yīng)的Q值需要存儲(chǔ)在Q-table中,Q-table表示記錄了在給定狀態(tài)下采取特定動(dòng)作所能獲得的預(yù)期累計(jì)獎(jiǎng)勵(lì),Q值表示執(zhí)行特定動(dòng)作后,在當(dāng)前狀態(tài)下所能獲得的預(yù)期獎(jiǎng)勵(lì)值。Q值的更新公式如下:
(1)
在式(1)中,α表示學(xué)習(xí)率,γ表示折扣系數(shù),r表示反饋值(亦稱作獎(jiǎng)勵(lì)值),s表示AGV當(dāng)下所處的狀態(tài),α表示在狀態(tài)s下AGV所選取的動(dòng)作,s′表示實(shí)施動(dòng)作α后下一個(gè)狀態(tài),α′表示與之對(duì)應(yīng)的下一個(gè)動(dòng)作,在狀態(tài)s′下于Q-table里的最大Q值被表述為maxAQ(s′,α′)。算法流程圖如圖1所示。
除了直接從Q-table中提取策略之外,Q-learning算法也可以通過一種稱為ε-貪婪策略在訓(xùn)練過程中進(jìn)行探索和利用的平衡。在ε-貪婪策略中,在大部分情況下選擇Q值最高的動(dòng)作,但也會(huì)以ε概率隨機(jī)選擇其他動(dòng)作,有利于擴(kuò)大AGV探索路徑的范圍,從而保證算法具有更好的探索性。
1.2 人工勢(shì)場(chǎng)法
人工勢(shì)場(chǎng)法(Artifical Potential Fifield approach, AFP)是一種虛擬力場(chǎng)方法,用于實(shí)時(shí)避障的局部路徑規(guī)劃算法,它能將AGV所處倉儲(chǔ)環(huán)境抽象為力場(chǎng),AGV在任何位置都受到來自目標(biāo)點(diǎn)方向的引力,為AGV指導(dǎo)方向,且AGV距離目標(biāo)點(diǎn)越遠(yuǎn)引力值越大。同時(shí),障礙物對(duì)AGV產(chǎn)生一個(gè)斥力場(chǎng),距離障礙物越近斥力越大,借助斥力場(chǎng)有效的避免AGV與障礙物發(fā)生碰撞。
引力勢(shì)場(chǎng)函數(shù)為:
(2)
其中,ma表示引力系數(shù),ρs表示AGV當(dāng)前位置到目標(biāo)位置之間的歐式距離,引力Fatt表示引力勢(shì)場(chǎng)的負(fù)梯度。
斥力場(chǎng)函數(shù)為:
(3)
(4)
其中,mr表示斥力系數(shù);ρ0表示障礙物的影響系數(shù)。ρob代表障礙物到AGV之間的歐式距離,斥力場(chǎng)Frep的負(fù)梯度,斥力的方向由障礙物指向AGV。
2 基于改進(jìn)Q-learning算法的AGV路徑規(guī)劃
2.1 仿真環(huán)境構(gòu)建
2.1.1 柵格圖環(huán)境
倉儲(chǔ)AGV環(huán)境仿真采用二維柵格法,如圖2所示,此后的路徑規(guī)劃均在此環(huán)境地圖上進(jìn)行。使用柵格法能將復(fù)雜的環(huán)境問題分解成簡(jiǎn)單問題,適合應(yīng)用于靜態(tài)環(huán)境的路徑規(guī)劃,且算法計(jì)算量小,便于實(shí)現(xiàn)。
如圖2所示,白色為可通過的無障礙區(qū),實(shí)心黑色表示為倉儲(chǔ)環(huán)境的障礙物區(qū)域,每個(gè)柵格的邊長(zhǎng)均為1,在實(shí)際情況下,對(duì)于某些并不規(guī)則的障礙物,按照其最大的邊長(zhǎng)填充為由網(wǎng)格單元組成的障礙物區(qū)域[12]。為簡(jiǎn)化計(jì)算和后期存儲(chǔ),對(duì)地圖柵格進(jìn)行編號(hào)處理。由左下角開始,建立編號(hào)和柵格中心點(diǎn)坐標(biāo)的對(duì)應(yīng)關(guān)系,對(duì)應(yīng)關(guān)系坐標(biāo)公式為:
(5)
式中,mod表示求余運(yùn)算;i表示柵格的序號(hào);Nx表示柵格的總行數(shù);Ny表示柵格的總列數(shù);fix表示向零方向取整。如圖2所示,20×20柵格地圖中,柵格的序號(hào)從左到右從上到下的順序?yàn)?到400,如可以把第一個(gè)柵格設(shè)置為初始點(diǎn),第400個(gè)柵格設(shè)置為終點(diǎn)即目標(biāo)點(diǎn)。
2.1.2 確定AGV搜索方向
基于柵格法運(yùn)用Q-learning算法對(duì)AGV進(jìn)行路徑規(guī)劃時(shí),可以將一個(gè)柵格表示成一種狀態(tài),同時(shí)要定義AGV可以執(zhí)行的動(dòng)作,通常有4個(gè)動(dòng)作(上、下、左、右),但在實(shí)際中,機(jī)器人的運(yùn)動(dòng)方向是多樣的,因此為了使仿真效果更貼近實(shí)際,同時(shí)又不過度增加算法的復(fù)雜性,本文將AGV運(yùn)動(dòng)分為8個(gè)方向,即每個(gè)方向間隔45°角如圖3所示,分為上、下、左、右、右上、右下、左上、左下8個(gè)方向。AGV每次步長(zhǎng)為1或。
2.2 利用引力場(chǎng)函數(shù)改進(jìn)Q值更新函數(shù)
傳統(tǒng)的Q-learning算法對(duì)Q-table初始化時(shí)的默認(rèn)值設(shè)置為0或者隨機(jī)數(shù)。這種初始化方式會(huì)導(dǎo)致算法初期大量與目標(biāo)方向相反的無效迭代,因此在算法進(jìn)行中引入先驗(yàn)知識(shí),使得算法能夠減少前期盲目搜索過程。在Q值更新函數(shù)過程中引入引力勢(shì)場(chǎng)函數(shù)Uatt,首先改進(jìn)勢(shì)場(chǎng)函數(shù)如式(6),其中,η表示引力的影響系數(shù),ρg表示AGV距離目標(biāo)點(diǎn)的歐式距離,m表示一個(gè)正常數(shù)。通過改進(jìn)Q值更新函數(shù)(7),來實(shí)現(xiàn)Q值的更新。
(6)
(7)
2.3 動(dòng)態(tài)改進(jìn)貪系數(shù)ε
傳統(tǒng)的Q-learning算法對(duì)AGV進(jìn)行路徑規(guī)劃時(shí),通常采用ε-貪婪策略來解決探索和平衡利用的問題。探索指的是AGV在選擇下一個(gè)動(dòng)作時(shí)不遵循算法學(xué)習(xí)策略,而是根據(jù)ε(0<ε<1)概率進(jìn)行探索其他動(dòng)作,通過這種方式可以對(duì)擴(kuò)大搜索范圍,減少局部最優(yōu)解發(fā)生的概率。利用是指AGV在1-ε的概率下選擇動(dòng)作,并且完全按照Q-learning學(xué)習(xí)策略選擇最優(yōu)解。通過這種方式優(yōu)化了Q-learning算法的探索利用平衡問題,但是,傳統(tǒng)的Q-learning算法在探索初始階段,由于不具備先驗(yàn)知識(shí)AGV對(duì)動(dòng)作選擇比較隨機(jī),因此前期需要加大探索的概率,隨著算法不斷迭代,后期趨于收斂需要多利用,應(yīng)降低探索的概率。本文對(duì)這個(gè)問題的貪婪系數(shù)進(jìn)行動(dòng)態(tài)改進(jìn)。
(8)
上式中,arctan(t)表示反正切函數(shù),其定義域?yàn)閷?shí)數(shù)集,值域?yàn)椋?π/2,π/2)。當(dāng)t>0時(shí),arctan(t)的取值范圍為(0,π/2),Sn表示標(biāo)準(zhǔn)差,表示算法每迭代n次后的平均值與當(dāng)前的次數(shù)差值,迭代步數(shù)差別越大標(biāo)準(zhǔn)差Sn就越大,說明算法此時(shí)需要加強(qiáng)對(duì)環(huán)境的搜索,相反Sn越小代表迭代次數(shù)之間的步數(shù)差距小,說明算法已經(jīng)越來越趨近收斂,此時(shí)算法需要多利用先驗(yàn)知識(shí)并減少探索的概率。T表示算法的尺度系數(shù),b表示探索率的最大值,c表示探索率的最小值。
經(jīng)過改進(jìn)在Q-learning算法的前期,由于算法未收斂迭代標(biāo)準(zhǔn)差Sn比較大,AGV以b的概率對(duì)環(huán)境進(jìn)行探索并選擇動(dòng)作。隨著路徑算法的進(jìn)行,AGV通過探索積累了經(jīng)驗(yàn),使得Sn不斷減小,使得貪婪系數(shù)ε在(b,c)之間,Sn低于c,表示算法已經(jīng)趨于收斂,此時(shí)探索概率穩(wěn)定在c。通過上述算法對(duì)貪婪系數(shù)ε的動(dòng)態(tài)調(diào)整,使得算法初始階段能夠更大概率對(duì)環(huán)境進(jìn)行探索,隨著算法路徑搜索的進(jìn)行,ε不斷減小,算法趨于利用,能夠更好的平衡Q-learning算法的探索利用平衡的問題。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)驗(yàn)仿真即參數(shù)設(shè)置
為驗(yàn)證改進(jìn)后的 Q-learning算法的性能,開展仿真實(shí)驗(yàn)。選用MATLAB(R2022a)作為編譯工具,在實(shí)驗(yàn)中運(yùn)用柵格地圖法對(duì)智能倉儲(chǔ)AGV環(huán)境進(jìn)行仿真,采用20×20個(gè)單位的柵格,以左下角坐標(biāo)為原點(diǎn),建立一個(gè)水平方向?yàn)閄軸,垂直方向?yàn)閅軸的坐標(biāo)軸[13]。
如圖4所示,其中“*”表示移動(dòng)機(jī)器人的初始位置,“o”表示移動(dòng)機(jī)器人的目標(biāo)位置,白色部分為自由活動(dòng)區(qū)域,黑色實(shí)心方框代表無法穿過的障礙區(qū)域[14],移動(dòng)機(jī)器人的動(dòng)作空間以角度45度為單位的八個(gè)方向,即上、下、左、右、左上、右上、左下、右下八個(gè)方向。柵格圖中共有400個(gè)柵格,在Q-learning算法中代表400中狀態(tài),起點(diǎn)為(0,0)坐標(biāo)位置,即狀態(tài)(1,1),終點(diǎn)為(20,20)。
Q-learning算法中,需要首先設(shè)定參數(shù),這些參數(shù)會(huì)影響到最終的收斂。分別對(duì)比傳統(tǒng)Q-learning算法,優(yōu)化Q值后的Q-learning算法,加入貪婪系數(shù)后的Q-learning算法,三種算法進(jìn)行比較如表1所示。
獎(jiǎng)勵(lì)值的設(shè)置:
(9)
利用勢(shì)場(chǎng)的引力場(chǎng)思想對(duì)Q-learning算法進(jìn)行改進(jìn),中ρg表示距為起點(diǎn)與目標(biāo)點(diǎn)的歐式距離,勢(shì)場(chǎng)中的引力系數(shù)η = 0.6,常數(shù)m = 1;動(dòng)態(tài)改進(jìn)貪婪系數(shù)參數(shù)取值:b = 0.6,c = 0.01,T = 1 000,n = 10。
3.2 實(shí)驗(yàn)分析
在仿真實(shí)驗(yàn)中,圖5為傳統(tǒng)Q-learning算法的路徑規(guī)劃收斂圖,如圖5所示在5 000次的探索中,大約在迭代2 000次時(shí)算法趨于收斂。運(yùn)行時(shí)間為2.73 s。但前期的算法無效迭代次數(shù)過多,導(dǎo)致1 000次左右算法才開始出現(xiàn)成功迭代。后期由于貪婪系數(shù)固定值,導(dǎo)致收斂后曲線不平滑。
Q-learning算法在引入引力勢(shì)場(chǎng)函數(shù)后(如圖6所示),AGV在的方向性更強(qiáng),始終以較大概率朝著目標(biāo)點(diǎn)方向行進(jìn)且減少了盲目搜索次數(shù),與圖5相比,引入引力勢(shì)場(chǎng)函數(shù)后算法有效減少了前期的無效迭代次數(shù),由1 000次降到600次左右,收斂次數(shù)過程也是逐漸由高到低,同時(shí),引入引力勢(shì)場(chǎng)函數(shù)后,收斂速度也有所提升,在1 500次迭代后趨于收斂。
如圖7所示,進(jìn)行完上述改進(jìn)后,進(jìn)一步將算法中的貪婪系數(shù)ε進(jìn)行動(dòng)態(tài)調(diào)整,早期增加了貪婪系數(shù)的值,由固定的0.1上漲到0.6,擴(kuò)大了對(duì)環(huán)境的探索,因此迭代次數(shù)相較于圖6有所增加,在算法運(yùn)行的后期趨于收斂,貪婪因子減小到接近0.01,使得算法后期趨于利用,減少了探索失敗的次數(shù),同時(shí)進(jìn)一步減少了程序的運(yùn)行時(shí)間。
三種算法時(shí)間和最短路徑如表2所示。
4 結(jié) 論
論本文提出一種針對(duì)運(yùn)用柵格法仿真?zhèn)}儲(chǔ)AGV運(yùn)動(dòng)環(huán)境,對(duì)Q-learning算法那進(jìn)行改進(jìn)的路徑規(guī)劃算法,算法運(yùn)用人工勢(shì)場(chǎng)法的引力勢(shì)場(chǎng)思想,引入了改進(jìn)后的引力勢(shì)場(chǎng)函數(shù)改進(jìn)Q值更新函數(shù),同時(shí),對(duì)貪婪系數(shù)進(jìn)行了動(dòng)態(tài)改進(jìn),通過實(shí)驗(yàn)仿真表明,引入勢(shì)場(chǎng)函數(shù)后的Q-learning算法收斂速度提高,動(dòng)態(tài)改進(jìn)結(jié)果的穩(wěn)定性增加。但本文只是針對(duì)單個(gè)AGV路徑規(guī)劃算法,對(duì)倉儲(chǔ)環(huán)境下的多AGV路徑規(guī)劃還需進(jìn)一步研究。
參考文獻(xiàn):
[1] CHEN X,LIU S,ZHAO J,et al. Autonomous Port Management based AGV Path Planning and Optimization Via an Ensemble Reinforcement Learning Framework [J/OL].Ocean and Coastal Management,2024,251:107087(2024-03-10).https://doi.org/10.1016/j.ocecoaman.2024.107087.
[2] 朱磊,樊繼壯,趙杰,等.基于柵格法的礦難搜索機(jī)器人全局路徑規(guī)劃與局部避障 [J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2011,42(11):3421-3428.
[3] 余翔,姜陳,段思睿,等.改進(jìn)A*算法和人工勢(shì)場(chǎng)法的路徑規(guī)劃 [J].系統(tǒng)仿真學(xué)報(bào),2024,36(3):782-794.
[4] 藺文軒,謝文俊,張鵬,等.基于分組優(yōu)化改進(jìn)粒子群算法的無人機(jī)三維路徑規(guī)劃 [J].火力與指揮控制,2023,48(1):20-25+32.
[5] XIN J,LI Z,ZHANG Y,et al. Efficient Real-Time Path Planning with Self-Evolving Particle Swarm Optimization in Dynamic Scenarios [J].Unmanned Systems,2024,12(2):215-226.
[6] 楊海蘭,祁永強(qiáng),榮丹.倉儲(chǔ)環(huán)境下基于憶阻強(qiáng)化學(xué)習(xí)的AGV路徑規(guī)劃 [J].計(jì)算機(jī)工程與應(yīng)用,2023,59(17):318-327.
[7] CUI Y,REN J,ZHANG Y. Path Planning Algorithm for Unmanned Surface Vehicle based on Optimized Ant Colony Algorithm [J].IEEJ Transactions on Electrical and Electronic Engineering,2022,17(7):1027-1037.
[8] LI D D,WANG L,CAI J C,et al. Research on Path Planning of Mobile Robot based on Improved Genetic Algorithm [J/OL].International Journal of Modeling, Simulation, and Scientific Computing,2023,14(6):2341030[2024-03-16].https://doi.org/10.1142/S1793962323410301.
[9] 徐曉蘇,袁杰.基于改進(jìn)強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃方法 [J].中國(guó)慣性技術(shù)學(xué)報(bào),2019,27(3):314-320.
[10] SURESH K S,VENKATESAN R,VENUGOPAL S. Mobile Robot path Planning Using Multi-Objective Genetic Algorithm in Industrial Automation [J].Soft Computing,2022,26(15):7387-7400.
[11] 吉紅,趙忠義,王穎麗,等.復(fù)雜環(huán)境下多AGV路徑規(guī)劃與調(diào)度系統(tǒng)研究 [J].機(jī)械設(shè)計(jì),2023,40(6):110-115.
[12] 王志偉,鄒艷麗,劉唐慧美,等.基于改進(jìn)Q-learning算法和DWA的路徑規(guī)劃 [J].傳感器與微系統(tǒng),2023,42(9):148-152.
[13] 任學(xué)干,葛英飛.基于改進(jìn)勢(shì)場(chǎng)蟻群算法的AGV路徑規(guī)劃 [J].南京工程學(xué)院學(xué)報(bào):自然科學(xué)版,2021,19(1):36-41.
[14] 段建民,陳強(qiáng)龍.利用先驗(yàn)知識(shí)的Q-Learning路徑規(guī)劃算法研究 [J].電光與控制,2019,26(9):29-33.
作者簡(jiǎn)介:耿華(1985—),男,漢族,河北邯鄲人,講師,博士,研究方向:復(fù)雜系統(tǒng)建模與控制;馮濤(1987—),女,漢族,河北邯鄲人,碩士在讀,研究方向:移動(dòng)機(jī)器人路徑規(guī)劃。
收稿日期:2024-07-12