鄧輔秦,官檜鋒,譚朝恩,付蘭慧,王宏民,林天麟,張建民*
(1.五邑大學 智能制造學部,廣東 江門 529000;2.香港中文大學(深圳)深圳市人工智能與機器人研究院,廣東 深圳 518000;3.深圳市杉川機器人有限公司,廣東 深圳 518000)
隨著時代的進步,電商、物流、戶外搜索等行業(yè)的大力發(fā)展越來越離不開多機器人系統(tǒng),而多機器人路徑規(guī)劃(Multi-Agent Path Finding,MAPF)是多機器人系統(tǒng)的重要組成部分[1]。MAPF 旨在為全部機器人規(guī)劃出少阻塞甚至無阻塞的一組路徑,一些基于圖節(jié)點結構的搜索方法如A*、基于碰撞的搜索(Conflict Based Search,CBS)、D*Lite 在簡單、擁擠程度低的非動態(tài)環(huán)境具有較高的求解效率[2-6]。然而,在一些特定的場景(如過道擁擠的動態(tài)倉儲環(huán)境、災后搜索等障礙物無規(guī)則分布的復雜環(huán)境),上述方法存在兩個主要問題:1)機器人難以對周圍的動態(tài)環(huán)境建模;2)機器人因為缺少信息交互而規(guī)劃出不協(xié)調(diào)的動作策略。
隨著深度學習在圖像領域的快速發(fā)展,結合深度學習的深度強化學習方法能夠使用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)等圖像處理技術對動態(tài)環(huán)境進行圖像化建模,此外,基于神經(jīng)網(wǎng)絡支持多維信息輸入的特性,設計進行信息交互的神經(jīng)網(wǎng)絡架構,故而在一系列決策任務中獲得顯著的成功,如游戲領域和多機器人路徑規(guī)劃領域[7-9]。雖然每個機器人能夠利用CNN 對其視野進行特征提取,但是該網(wǎng)絡缺乏高效的信息傳遞功能。
有效的溝通是合作成功的關鍵,近年來,一些方法如VDN(Value-Decomposition Network)[10]、QMIX[11-12]、QTRAN[13]學習每個機器人的獨立Q 函數(shù),并使用混合網(wǎng)絡將這些局部狀態(tài)行動值(Q 值)組合成全局狀態(tài)行動值,進行一定的信息傳遞實現(xiàn)對動作策略的優(yōu)化。上述方法屬于集中式的方法,能融合所有機器人的信息參與決策,但也會帶來冗余的信息,增加方法計算量。因此,如何為每個機器人提供本身所需的精準信息并降低網(wǎng)絡計算量,成為重要研究方向。
為了降低多機器人路徑規(guī)劃的阻塞率,本文基于Actor-Critic 架構提出一種分布式請求與應答通信機制與局部注意力機制的多機器人深度強化學習路徑規(guī)劃方法(Distributed Communication and local Attention based Multi-Agent Path Finding,DCAMAPF)。針對機器人間信息傳遞效率不高、難以精確獲得所需信息的問題,本文設計一種基于請求與應答機制的Actor 網(wǎng)絡。如圖1 所示,以3 號機器人為例,3 號機器人請求視野范圍(灰色)其他機器人的局部觀測和動作信息,并主動獲取動態(tài)障礙物的相對位置信息,其中2、8、9 號機器人及時反饋信息。5 號機器人由于距離較遠、傳輸遲延等導致信息傳輸超時,而本文的Actor 網(wǎng)絡能自動屏蔽傳輸超時帶給CNN 的影響。與此同時,3 號機器人也會主動感知視野內(nèi)的動態(tài)障礙物,獲得其動態(tài)障礙物的相對位置,作為本機器人局部觀測信息的一部分。最終,將應答的信息和本機信息一起輸入Actor 網(wǎng)絡,進而規(guī)劃出3 號機器人的動作策略。針對全局注意力機制帶來的冗余信息的問題,本文提出基于局部注意力機制的Critic 網(wǎng)絡,該網(wǎng)絡能將注意力權重動態(tài)分配給視野內(nèi)的其他機器人,降低計算量。
圖1 請求與應答機制(以3號機器人為例)Fig.1 Request-response mechanism(taking robot No.3 as example)
相較于最新的路徑規(guī)劃方法如基于進化方法與強化學習的多機器人路徑規(guī)劃(Multi-Agent Path Planning with Evolutionary Reinforcement learning,MAPPER)[14]、動態(tài)環(huán)境下基于注意力機制與BicNet 通信模塊的多機器人路徑規(guī)劃方法(Attention and BicNet based MAPPER,AB-MAPPER)[15],本文的主要工作為:
1)設計一種基于請求與應答通信機制的Actor 網(wǎng)絡,機器人請求視野內(nèi)其他機器人的狀態(tài)信息與最新的動作信息,使機器人能獲得精確的局部觀測-動作信息,規(guī)劃出協(xié)調(diào)的動作,提高機器人的避障能力。
2)設計一種基于局部注意力機制的Critic網(wǎng)絡,機器人能夠?qū)⒆⒁饬嘀貏討B(tài)分配給視野內(nèi)的其他機器人,相較于全局注意力網(wǎng)絡,本文的Critic 網(wǎng)絡縮小注意力權重的分配范圍,降低注意力權重的計算量,將權重分配給更該注意的周圍機器人,提高策略優(yōu)化的效率,減少顯卡緩存的占用量。
3)與傳統(tǒng)動態(tài)路徑規(guī)劃方法D*Lite、最新的分布式強化學習方法MAPPER 和最新的集中式強化學習方法AB-MAPPER 相比:DCAMAPF 在離散初始化環(huán)境,阻塞率均值約減小了6.91、4.97 和3.56 個百分點。在集中區(qū)域初始化環(huán)境下能更高效地避免發(fā)生阻塞,阻塞率均值約減小了15.86、11.71、5.54 個百分點,并降低占用的計算緩存。
溝通有助于學習他人的經(jīng)驗并傳遞知識,以更好地在團隊中工作,是形成智能的一個基本要素。在多機器人強化學習中,機間通信允許多個機器人通過合作完成共同目標。在部分可觀察的環(huán)境中,多機器人能夠通過通信分享它們從觀察視野中獲得的信息,規(guī)劃出更優(yōu)的策略。
近年來的深度強化學習方法普遍基于Actor-Critic 架構,該架構由兩部分組成:Actor 網(wǎng)絡負責規(guī)劃動作策略;Critic網(wǎng)絡負責以Q 值的形式評估Actor 規(guī)劃出的動作策略,機器人每執(zhí)行完一次動作策略,都會進行一次策略的優(yōu)化,因此能快速提高方法收斂的速度。
Liu等[14]提出了MAPPER,每個機器人用圖像化建模的方式對視野內(nèi)的環(huán)境信息進行表征?;谶M化方法在迭代一定次數(shù)后將挑選一個最大獎勵值的機器人所屬的網(wǎng)絡模型替換一些獎勵值低的機器人網(wǎng)絡模型,在一定程度上進行了信息傳遞,該機制使該方法在動態(tài)擁擠環(huán)境下的路徑規(guī)劃效率比近年較為經(jīng)典的方法基于強化學習與模仿學習的路徑規(guī)劃方法(Pathfinding via Reinforcement and Imitation Multi-Agent Learning-Lifelong,PRIMAL2)方法[9]更高,因此,MAPPER 成為最新的多機器人強化學習路徑規(guī)劃方法,也是本文的對比方法之一。
通過替換網(wǎng)絡模型屬于一種規(guī)劃后信息交互的模式,這雖然能提高方法的收斂速度,但卻不能使機器人在規(guī)劃動作策略前獲得更精確的信息,不能為機器人規(guī)劃出阻塞率更低的動作策略。
多機器人強化學習中大多數(shù)現(xiàn)有的通信工作都集中于廣播式通信,即將每個機器人的信息廣播到所有其他或預定義的機器人 。Sukhbaatar 等[16]提出了 CommNet(Communication Neural Net),每個機器人需要在一個公共的通道傳播一個通信向量,通過這個通道各自接收其他機器人匯總的通信向量。在合作任務中,該網(wǎng)絡提高了機器人的協(xié)作能力。然而,CommNet 對所有機器人的通信向量做算術平均操作,這意味著它將不同機器人的信息看作等價。由于CommNet 的公共通道將所有機器人的信息傳達給每一個機器人,每個機器人被動接收大量冗余信息,因此不適用于解決局部路徑?jīng)_突的路徑規(guī)劃任務。類似地,Peng 等[17]提出了基于雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)神經(jīng)網(wǎng)絡的 BicNet(Multiagent Bidirectionally-coordinated Nets)通信網(wǎng)絡,與CommNet 要進行信息聚合不同,BicNet 是一種集中式的網(wǎng)絡,信息只在Actor 和Critic 網(wǎng)絡內(nèi)流通,不會聚合,所有接入BicNet 的機器人都能接收其他機器人的信息。此外,LSTM 的門控機制使它能自主決定是否接收傳遞的信息以規(guī)劃動作,提高了通信的效率。Kim 等[18]提出了SchedNet 方法,該方法在Actor網(wǎng)絡上搭建了一個調(diào)度器模塊,該調(diào)度器模塊學習如何對機器人的局部觀測賦予權重進而在有限的通信帶寬下挑選最有利的局部觀測信息規(guī)劃動作。
上述隸屬于集中式的網(wǎng)絡模型雖然在一定程度上解決了機器人的通信問題,但普遍需要所有機器人的局部觀測信息作為輸入,導致方法難以在較多的冗余信息中甄別強相關信息,缺乏靈活性。隨著機器人數(shù)的增加,集中式方法難以從全局共享的信息中區(qū)分有助于合作決策的有價值信息[19]。
為了提高通信的靈活性,更精準地獲取其他機器人的相關信息,Jiang 等[19]提出了ATOC(ATtentional Communication)方法,該方法的Actor 網(wǎng)絡部分通過一個注意力模塊對視野內(nèi)的其他機器人賦予權重,決定該機器人是否允許通信,從而選擇相應的協(xié)作者。在選擇協(xié)作者時,通信發(fā)起者依據(jù)距離依次在沒有被選擇過的機器人、別的發(fā)起者的協(xié)作者、別的發(fā)起者三個類別的機器人中選擇一個作為協(xié)作者,獲得了較為精準的信息,提高了通信的效率。類似地,有針對性的通信是提高通信效率的關鍵,Das 等[20]提出了TarMAC(Targeted Multi-Agent Communication)方法,該方法的Actor 網(wǎng)絡使用了注意力機制,信息發(fā)送方發(fā)送通信向量,在接收端的每個機器人會預測一個詢問向量,詢問向量將與所有通信向量進行點乘操作,其結果用歸一化處理之后采用Softmax函數(shù)得到每個通信向量的注意力權重,當通信向量與詢問向量相似時,注意力權重則比較高,實現(xiàn)有針對性的通信。Ding 等[21]提出了I2C(Individually Inferred Communication)方法,該方法的Actor 部分包含一個輸出置信度的優(yōu)先級網(wǎng)絡,該優(yōu)先級網(wǎng)絡決定視野內(nèi)哪些機器人需要進行通信,隨后,通信發(fā)起者請求獲取被賦予置信度機器人的局部觀測信息,通信接收方應答發(fā)起者,實現(xiàn)點對點的通信,進一步提高通信效率。受I2C 網(wǎng)絡啟發(fā),本文的Actor 網(wǎng)絡雖基于請求與應答機制,但與上述方法不同,本文的Actor 網(wǎng)絡不僅基于請求與應答機制獲取局部觀測信息,還會獲取其他機器人最新的動作信息,并在規(guī)劃動作策略前參考其他機器人的動作信息,因此能降低機器人的阻塞率,提高路徑規(guī)劃的效率。
策略的評估和優(yōu)化是提高機器人學習能力的關鍵,在Actor-Critic 架構中,Critic 網(wǎng)絡用于策略的評價。Parnika等[22]設計的基于注意力機制的Critic 網(wǎng)絡將注意力權重分配到所有機器人的局部觀測和動作信息上,并學習如何將較大的權重分配給需要關注的機器人。在AB-MAPPER 中,也使用基于注意力機制的Critic 網(wǎng)絡學習如何對機器人的局部觀測信息和動作信息賦予權重[15]。然而上述方法使用的是集中式的方法架構,每個機器人基于Critic 網(wǎng)絡進行策略評判時,需要其余所有機器人的局部觀測和動作信息,在機器人數(shù)較少時,注意力權重的分配范圍較小,注意力權重不會被稀釋;然而,隨著機器人數(shù)的增加,集中式網(wǎng)絡被輸入更多信息,注意力權重的分配范圍也會逐漸擴大,導致注意力權重被稀釋得越來越小,網(wǎng)絡難以區(qū)分哪些信息更需關注,不利于策略的優(yōu)化。
事實上,只有周圍其他機器人的動作才會影響到當前機器人的決策,其他距離較遠的機器人的局部觀測信息和動作信息不僅對當前機器人的決策沒有幫助,反而會帶來冗余信息,干擾當前機器人的決策和策略優(yōu)化。
為了降低冗余信息的干擾,Liu 等[23]在池化層與卷積層之間引入局部注意力網(wǎng)絡,有效增強了抑制無用特征的能力。類似地,本文為了降低冗余信息的干擾,基于請求與應答機制通信機制與局部注意力機制,將注意力權重只分配給應答成功的機器人,縮小Critic 網(wǎng)絡中注意力權重的分配范圍,不僅避免了冗余信息的干擾,還利用具有較強相關性機器人的信息參與策略優(yōu)化,減少了顯卡緩存的占用量,提高了路徑規(guī)劃的效率。
本文將機器人與環(huán)境的交互過程建模為部分可觀測馬爾可夫決策過程(S,A,P,R,O,M,γ),其中S是狀態(tài)空間,A是動作空間,P:S×A×S→[0,1]表示狀態(tài)轉移概率,R:S×A→R為獎勵函數(shù),O代表局部觀測,M代表狀態(tài)轉移概率矩陣,γ是獎勵折扣因子[24-25]。類似PRIMAL2和MAPPER 中的環(huán)境建模方法,本文將環(huán)境的局部觀測由3 個有限視野(15×15 網(wǎng)格大小,如圖1 淺灰色區(qū)域)的觀測圖像組成,分別對應圖2(a)中每個機器人的局部觀測(Observation)Oi由3 個矩陣構成。第1 個矩陣存儲當前觀察到的靜態(tài)障礙物、周圍其他機器人和動態(tài)障礙物的相對位置,這些位置由不同的值表示;第2 個矩陣記錄了周圍其他機器人和動態(tài)障礙物的軌跡,對時間序列信息進行了編碼;第3 個矩陣記錄了當前機器人基于靜態(tài)環(huán)境圖通過A*方法規(guī)劃的局部參考路徑。Maxpool為最大池化層,F(xiàn)CN(Fully Convolutional Network)為全連接網(wǎng)絡,MLP(Multilayer Perceptron)為多層感知機,Dummy 為反饋動作信息失敗的機器人設置的無效動作向量,以保證網(wǎng)絡能夠正常運算。由于Actor-Critic 框架可以幫助強化學習方法通過當前策略的梯度有效地更新策略,適用于路徑規(guī)劃中的實時決策任務[26],因此本文使用Actor-Critic 架構。
圖2 DCAMAPF網(wǎng)絡架構Fig.2 Network architecture of DCAMAPF
基于集中式網(wǎng)絡架構的方法在獲取所有接入該網(wǎng)絡的機器人信息后,才能統(tǒng)一為所有機器人進行信息的數(shù)值計算,該類方法在通信時延小、機器人數(shù)較少的情況下具有能與其他機器人充分傳遞信息的優(yōu)勢;然而,隨著機器人數(shù)的增多,信息流通存在計算量大、冗余信息多、無法為每個機器人精準獲取所需信息等問題。分布式網(wǎng)絡無須基于所有機器人的信息參與決策,每個機器人都有獨屬自己的方法網(wǎng)絡,能靈活地進行決策和優(yōu)化,因此,將方法網(wǎng)絡模型進行分布式設計是一個可行方向。
本文方法主要分為三步:首先,基于請求與應答機制,機器人對視野內(nèi)的其他機器人發(fā)送請求,請求它們的局部觀測以及最新動作信息,其他機器人在限定的時間內(nèi)回應;其次,該機器人的Actor 網(wǎng)絡分別用兩種不同維度的CNN 對反饋的局部觀測信息和動作信息進行特征提取,進而規(guī)劃動作;最后,對于每一個機器人,基于局部注意力機制的Critic 網(wǎng)絡在請求與應答機制下將注意力權重動態(tài)分配到視野內(nèi)成功應答本機器人的其他機器人局部觀測-動作信息上。
本文將Actor 網(wǎng)絡進行分布式設計,機器人之間的信息傳遞采用請求與應答機制,如圖2(a)所示,具體在Actor 網(wǎng)絡的改進如下:1)每個機器人在規(guī)劃動作前先獲取在本機器人視野里其他機器人的編號,并向它發(fā)送請求,期望獲取它的局部觀測信息(三維矩陣)和動作信息(a)i。2)視野內(nèi)的機器人接收請求,并作出應答,反饋自己的局部觀測信息和動作信息。3)在規(guī)定時間內(nèi),機器人接收應答成功的機器人的局部觀測信息和動作信息,結合本身的局部觀測信息一并輸入到卷積神經(jīng)網(wǎng)絡,最終規(guī)劃出本機器人的動作策略?;谡埱笈c應答機制的通信機制,既能捕獲周圍機器人的局部觀測信息以及動作信息、又不需要像集中式網(wǎng)絡匯集所有信息才能規(guī)劃策略,因此能提高信息傳遞的效率、利用更加精準的信息規(guī)劃出更優(yōu)的動作策略。
在MAPPER 方法的Critic 網(wǎng)絡中,每個機器人只基于自己的局部觀測信息和動作信息進行評判,缺少與其他機器人進行信息傳遞,難以對機器人的策略進行充分的評判。在AB-MAPPER 中,每個機器人使用基于注意力機制的Critic 網(wǎng)絡將注意力權重分配到所有機器人的局部觀測信息和動作信息中,評判出Q 值,意味著注意力機制的分配范圍是全部機器人,換言之,該方法容易增加一些冗余信息,不利于策略的優(yōu)化。此外,為了對局部觀測信息和動作信息進行編碼,也需要更多的編碼網(wǎng)絡,這導致Critic 網(wǎng)絡承擔更大的計算量以及需要更多的緩存。
注意力機制可以被描述成可查詢的鍵-值記憶模型,如圖3 所示,有3 個要素query(q)、key(k)、value(v)[22],這3 個要素實質(zhì)上都是矩陣,通過式(1)計算出注意力權重矩陣ω:
圖3 注意力機制Fig.3 Attention mechanism
其中dk是k的維度。
本文設計了更加靈活的局部注意力網(wǎng)絡,如圖2(b)所示,本文以3 號機器人為例,3 號機器人只請求在其視野范圍內(nèi)的其他機器人(2、5、8、9)最新的局部觀測信息和動作信息;隨后,在指定時間間隔內(nèi),其他機器人反饋回來的局部觀測信息和動作信息會將輸入單獨的多層感知機(MultiLayer Perceptron,MLP)進行編碼,得到狀態(tài)動作編碼(e2,e8,e9)。在本文中,k和v是狀態(tài)動作編碼即本文的e,q是狀態(tài)編碼即本文的F。每個注意力頭都是自注意力網(wǎng)絡,X3是vj的權重乘積和,j是成功應答3 號機器人的其他機器人編號集合,如式(2)所示:
ω3是3 號機器人分配給2、8、9 號機器人的注意力權重,如式(3)所示:
其中:F3是3 號機器人的狀態(tài)編碼。f是一層全連接網(wǎng)絡,h是多層感知機,最終,Critic 網(wǎng)絡對3 號機器人的評判值如式(4)所示:
與MAPPER 相同,本文使用Actor-Critic 架構下最新的優(yōu)勢Actor-Critic 方法A2C(Advantage Actor-Critic),相較于原始的Actor-Critic 方法新增了一項優(yōu)勢函數(shù)Advantage,在本文中,具體如式(5)所示,該函數(shù)作為衡量所規(guī)劃出動作策略的優(yōu)劣,如果函數(shù)值大于零,則策略優(yōu):
R3是3 號機器人執(zhí)行a3后環(huán)境反饋的獎懲值,γ是獎勵折扣因子。3 號機器人的Actor 網(wǎng)絡損失函數(shù)如式(6)所示:
Critic 網(wǎng)絡的損失函數(shù)如式(7)所示:
為驗證本文方法DCAMAPF 求解多機器人路徑規(guī)劃問題的性能,本文將傳統(tǒng)的基于圖節(jié)點搜索方法D*Lite、深度強化學習方法MAPPER 和集中式強化學習方法AB-MAPPER作為對比方法。實驗環(huán)境如圖4 所示,圖4(a)、(b)為20×20維度,35 個機器人(藍色紅字)30 個動態(tài)障礙物(人形),分別模擬機器人在災后搜索時集中初始化并向四周散開的場景和機器人災后搜索場景散開后遇到無規(guī)則障礙物分布的場景;(c)、(d)為24×30 維度,35 個機器人15 個動態(tài)障礙物,分別模擬機器人在倉儲環(huán)境集中初始化的并向四周散開的場景和機器人散開后遇到規(guī)則障礙物分布的倉儲場景。形狀較大的灰色方塊為靜態(tài)障礙物,黑色方塊為目標點,此外,本文在圖4(a)做了消融實驗,對比方法主要為最新的深度強化學習方法 MAPPER、MAPPER+local Attention、ABMAPPER。所有實驗在操作系統(tǒng)為Linux、編程語言為Python、深度學習依賴庫為PyTorch 的環(huán)境下進行。
圖4 實驗環(huán)境Fig.4 Experimental environments
為了公平比較,將在指定步數(shù)內(nèi)成功抵達目標點的機器人數(shù)占機器人總數(shù)的比例定義為成功率,將路徑規(guī)劃途中為避免發(fā)送碰撞而選擇自主阻塞的機器人占機器人總數(shù)的比例定義為阻塞率。本文設置訓練迭代次數(shù)8 000,在方法收斂后,每個環(huán)境進行100 次路徑規(guī)劃任務測試,以獲得成功率和阻塞率均值。此外,本文統(tǒng)計了每個機器人占用GPU的緩存。
本文使用與MAPPER 相同的獎勵機制,總的獎勵值為R=rs+rc+rο+τrf+rg,其中rs、rc、rο分別是執(zhí)行動作、發(fā)生阻塞、發(fā)生震蕩的獎懲值,類似MAPPER,本文也用全局規(guī)劃方法A*在忽略動態(tài)障礙物的情況下生成局部參考路徑S,rf用于懲罰機器人當前位置pa偏離參考路徑S中的路徑點p,τ是偏離獎懲因子設置為0.3,rg是抵達目標點的獎懲值。獎勵折扣因子γ被設置為0.99,對比方法以及本文方法的獎勵機制如表1 所示。DCAMAPF 方法Actor 網(wǎng)絡的學習率設置為0.000 3,Critic 網(wǎng)絡學習率設置為0.000 03,進化方法迭代次數(shù)為100,Critic 網(wǎng)絡的軟更新參數(shù)設置為0.001。
表1 獎勵機制Tab.1 Reward mechanism
實驗結果如表2 所示,在圖4 的4 種環(huán)境中,DCAMAPF的阻塞率均值比AB-MAPPER、MAPPER 與D*Lite 低,成功率均值比其他三種方法高。這是因為D*Lite 不能對周圍動態(tài)障礙物建模;MAPPER 雖然能對動態(tài)環(huán)境進行建模,但無法進行有效的信息傳遞;而AB-MAPPER 兩者都考慮,但所需處理的信息量過大,無法精準、高效地傳遞信息,此外,上述方法均沒有利用其他機器人的動作信息規(guī)劃動作策略,而DCAMAPF 不僅能對動態(tài)環(huán)境進行圖像化建模,也能基于請求與應答機制、局部注意力機制高效傳遞信息。
表2 四種方法在圖4不同環(huán)境阻塞率均值和成功率均值比較 單位:%Tab.2 Comparison of mean blocking rate and mean success rate among four methods in different environments in Fig.4 unit:%
D*Lite 在擴展的節(jié)點時如果新的障礙物占據(jù)路徑擴展節(jié)點,則更新啟發(fā)式值,然后執(zhí)行新的動作策略避開新障礙物。然而,在執(zhí)行動作之前更新的啟發(fā)式值不能有效引導機器人避開實時移動的障礙物,這是因為占據(jù)其擴展節(jié)點的障礙物是動態(tài)移動的,D*Lite 更新的節(jié)點信息只能確保規(guī)劃出的動作不會碰撞原占據(jù)拓展節(jié)點的障礙物,也無法利用動態(tài)障礙物、其他機器人的信息規(guī)劃動作,這是D*Lite 碰撞率高的原因。
MAPPER 的阻塞率低于D*Lite,這是因為MAPPER 的局部觀測信息中的第二維、第三維矩陣包含周圍動態(tài)障礙物的軌跡信息和當前機器人的局部參考路徑信息,利用到了其他機器人的局部觀測信息規(guī)劃動作策略,一定程度上協(xié)助了機器人避開障礙物。
AB-MAPPER 阻塞率均值皆比MAPPER 小,這是因為AB-MAPPER 在執(zhí)行動作之前,所有機器人的局部觀測信息會在Bi-LSTM 神經(jīng)網(wǎng)絡內(nèi)部流通,傳遞信息。在執(zhí)行完動作后,結合全局注意力機制的Critic 網(wǎng)絡分配注意力權重給所有機器人的局部觀測信息和動作信息,評判動作策略。雖然AB-MAPPER 解決了通信的問題,但是集中式架構需要處理更多的信息,所有機器人的局部觀測信息需要在網(wǎng)絡內(nèi)部流通,信息量大,AB-MAPPER 的Bi-LSTM 也難以精確地甄別哪些機器人的信息是當前機器人所需要的。此外,集中式網(wǎng)絡在同一時刻為所有機器人規(guī)劃動作,這導致每個機器人占用的方法網(wǎng)絡資源、顯卡內(nèi)存大。
DCAMAPF 方法是分布式架構,每個機器人都有自己的方法網(wǎng)絡,Actor 網(wǎng)絡能基于請求與應答通信機制獲取視野內(nèi)其他機器人的局部觀測和動作信息,規(guī)劃出協(xié)調(diào)的動作策略。在進行策略優(yōu)化時,Critic 網(wǎng)絡基于局部注意力機制,只將注意力權重分配給應答成功的機器人,將注意力應用于具有較強相關性的機器人,降低了信息冗余,利用了更精準的信息,更有利于策略的優(yōu)化。機器人集中區(qū)域初始化會使環(huán)境變得擁擠,信息傳遞的重要性逐漸凸顯。如表2 所示,相較于D*Lite、MAPPER、AB-MAPPER 方法,DCAMAPF 在離散區(qū)域初始化環(huán)境(圖4(b)和圖4(d)),阻塞率均值約減小6.91、4.97、3.56 個百分點;在集中區(qū)域初始化環(huán)境(圖4(a)和圖4(c)),阻塞率均值約縮小了15.86、11.71、5.54 個百分點??梢?,本文方法在集中區(qū)域初始化環(huán)境的阻塞率均值比在離散區(qū)域初始化的大,能更高效地避免發(fā)生阻塞。
為了凸顯本文方法的優(yōu)勢,本文在圖4(a)環(huán)境進行消融實驗,如圖5 所示,DCAMAPF 在視野范圍內(nèi)基于請求與應答機制獲取必要的局部觀測信息和動作信息,能精確且有效地傳遞信息,基于較強相關性的信息規(guī)劃出協(xié)調(diào)的動作策略,有效避免阻塞。
圖5 消融實驗方法訓練曲線Fig.5 Training curves of ablation experiment methods
如圖5 中MAPPER+local Attention 曲線所示,局部注意力機制將注意力權重分配給視野內(nèi)成功應答機器人的局部觀測信息和動作信息,避免了其他冗余信息的干擾,能更有效優(yōu)化策略。此外,本文還統(tǒng)計了每個機器人基于以上深度強化學習方法所占用的顯卡緩存,如表3 所示,基于DCAMAPF的每個機器人占用的緩存也比集中式方法AB-MAPPER 低,因此DCAMAPF 適用于求解不同動態(tài)環(huán)境下的多機器人路徑規(guī)劃任務。
表3 三種深度強化學習方法每個機器人所需顯卡緩存 單位:MBTab.3 Graphic card cache required by each robot for three deep reinforcement learning methods unit:MB
針對已有路徑規(guī)劃方法面對動態(tài)環(huán)境中的MAPF 問題阻塞率高的問題,本文采用Actor-Critic 強化學習框架進行解決。同時,為了更加靈活地獲取精準的信息、規(guī)劃出協(xié)調(diào)的動作策略,本文提出DCAMAPF。首先機器人請求獲取視野內(nèi)其他機器人的局部觀測信息和動作信息,接著將應答成功的機器人信息以及本身的局部觀測信息和動作信息輸入多通道CNN 的Actor 網(wǎng)絡,從而規(guī)劃出協(xié)調(diào)的動作策略。同樣地,在Critic 網(wǎng)絡,將注意力權重動態(tài)地分配給應答成功的機器人的局部觀測信息和動作信息。分布式的DCAMAPF 方法不僅使用了更少、更精準的信息規(guī)劃更協(xié)調(diào)的動作,而且占用的顯卡內(nèi)存比集中式方法更少,相較于D* Lite、Mapper、AB-MAPPER 方法,DCAMAPF 在離散初始化環(huán)境,阻塞率均值約縮小了6.91、4.97、3.56 個百分點。在集中初始化環(huán)境下能更高效地避免發(fā)生阻塞,阻塞率均值約減小了15.86、11.71、5.54 個百分點。因此,所提方法確保了路徑規(guī)劃的效率,適用于求解不同動態(tài)環(huán)境下的多機器人路徑規(guī)劃任務。目前存在每個機器人都需要頻繁地獲取其他機器人的信息的問題,后續(xù)工作可以考慮設計出可以接受任意輸入維數(shù)的信息處理網(wǎng)絡以及信息共享機制,以進一步提高系統(tǒng)的運行效率。