• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DPES Dueling DQN的路徑規(guī)劃方法研究

    2023-07-07 03:10:16
    計算機應(yīng)用與軟件 2023年6期
    關(guān)鍵詞:記憶規(guī)劃智能

    武 曲 張 義 郭 坤 王 璽

    (青島理工大學信息與控制工程學院 山東 青島 266520)

    0 引 言

    在路徑規(guī)劃領(lǐng)域,目前已經(jīng)存在很多經(jīng)典的算法。如迪杰斯特拉提出的Dijkstra算法,應(yīng)用貪心的思想,通過每次在未標記的節(jié)點中選擇距離源點最近的節(jié)點實現(xiàn)最短路徑的求解[1]。在已知地圖的情況下,這種算法仍可以取得很好的效果。A*算法在Dijkstra算法的基礎(chǔ)上,加入了啟發(fā)式函數(shù)[2],也就是一種評估當前點到達目標的度量,用來決定下一步應(yīng)該優(yōu)先擴展哪個節(jié)點,這種算法在多維度規(guī)劃問題上,或是在較大規(guī)模的地圖上,算法復(fù)雜度很大。勢場法將規(guī)劃空間看作物理學中“場”的概念,將智能體看作一個粒子,障礙物會對這個粒子產(chǎn)生斥力,目標會對這個粒子產(chǎn)生引力,兩者的合力即為最后智能體運動的方向[3],勢場法成功的關(guān)鍵在于如何設(shè)計引力和斥力函數(shù)。這種方法實時性較好,同時產(chǎn)生的路徑通常十分平滑,適合于機械臂一類的應(yīng)用,缺點是在合力為0的位置智能體容易陷入局部最優(yōu)解。

    近年來,由于人工智能的興起,很多基于人工智能的路徑規(guī)劃方法被提出,文獻[4]提出了一種基于模糊邏輯的移動機器人路徑規(guī)劃算法,將狀態(tài)空間與動作空間關(guān)聯(lián)起來,形成映射關(guān)系,解決了人工勢場法中容易陷入局部極小的問題;文獻[5]中詳細介紹了遺傳算法在路徑規(guī)劃中的研究,并提出了一種基于改進染色體編碼的自適應(yīng)遺傳算法,使得算法能夠避免過早收斂的問題;文獻[6]中提出了利用雙向神經(jīng)網(wǎng)絡(luò)來解決在未知環(huán)境中進行路徑規(guī)劃的方法。

    盡管上述方法可以在各自的領(lǐng)域取得不錯的效果,但是它們都基于已知環(huán)境這個前提,需要人工將環(huán)境與路徑規(guī)劃算法結(jié)合,在實際應(yīng)用時具有一定的局限性。強化學習是一類應(yīng)用在未知環(huán)境的機器學習方法[7],作為機器學習的三大分支之一,不同于監(jiān)督學習和無監(jiān)督學習,強化學習無須提供數(shù)據(jù),所有的學習資料都將從環(huán)境中獲取。智能體通過不斷地探索環(huán)境,根據(jù)不同的動作產(chǎn)生的不同的反饋進行模型的學習,最終智能體將能以最優(yōu)策略在指定環(huán)境中完成任務(wù)。

    在利用強化學習進行路徑規(guī)劃問題方面,也已經(jīng)出現(xiàn)了一些研究成果,文獻[8]提出利用偏好評估的強化學習技術(shù),結(jié)合降維的方法,實現(xiàn)了智能體在存在移動障礙物的環(huán)境中的路徑規(guī)劃;文獻[9]將深度強化學習技術(shù)與策略梯度法結(jié)合起來,解決自動駕駛中的路徑規(guī)劃問題,提升了路徑規(guī)劃問題的效率;文獻[10]將監(jiān)督學習與強化學習相結(jié)合,為智能體提供規(guī)劃好的路徑,接下來智能體利用強化學習中函數(shù)近似的方法來進行泛化,實現(xiàn)在其他環(huán)境中的路徑規(guī)劃,具有較強的泛化能力。

    將深度學習與強化結(jié)合的結(jié)合上,Mnih等[11]構(gòu)建的DQN(Deep Q Network)無疑是一項重要的研究成果,通過經(jīng)驗重放的off-policy方式,解決了強化學習領(lǐng)域的數(shù)據(jù)之間的強相關(guān)性無法在深度學習算法中取得好的效果的問題??梢哉f,經(jīng)驗重放是深度學習與強化學習結(jié)合的關(guān)鍵所在,一些學者就此過程進行研究。Schaul等[12]提出了一種基于優(yōu)先級經(jīng)驗重放的(Prioritized Experience Replay,PER)的采樣方式,記憶庫中的數(shù)據(jù)按照被利用來進行訓(xùn)練時的TD error計算其優(yōu)先級,造成的TD error比較大的樣本說明模型對此類樣本還未能很好地收斂,在再次采樣時應(yīng)該更多地選擇此類樣本,反之,造成TD error小的樣本應(yīng)該盡量少地被再次采樣。這種方式被證明優(yōu)于隨機采樣的方式,在多種Atari中的表現(xiàn)優(yōu)于隨機采樣。陳希亮等[13]提出一種基于重抽樣優(yōu)選緩存經(jīng)驗回放的抽樣機制,解決了PER抽樣方式導(dǎo)致的抽樣不充分的問題。何明等[14]提出一種PES(Prioritized Experience Selected)的采樣方式,根據(jù)TD error排序序數(shù)的倒序為樣本設(shè)定優(yōu)先級,解決了PER過程中TD error量級間隔過大而導(dǎo)致的多數(shù)樣本因采樣概率低而無法被采集到的問題,在MADDPG算法中取得了比PER采樣過程更好的效果。

    以上抽樣方法都著重于從記憶庫中采樣的方式,在離線學習的深度強化學習的機制中,需要設(shè)定一個記憶庫來存儲與環(huán)境的交互數(shù)據(jù),通常,這個數(shù)據(jù)庫被設(shè)計為固定規(guī)格,當記憶庫存滿后,采用先進先出的替換原則用新的數(shù)據(jù)把當前記憶庫中最先存入的數(shù)據(jù)替換出去,以此來為模型提供較新的數(shù)據(jù)。這種抽樣的方式帶來的問題是對于早期存入的數(shù)據(jù),即使有高的優(yōu)先級,也有可能被替換出去,而排在末尾的低優(yōu)先級的數(shù)據(jù),也會因為有更長的存在時間而可能被抽樣。本文采用了一種基于堆結(jié)構(gòu)的優(yōu)先級經(jīng)驗置換策略,在無須嚴格排序的基礎(chǔ)上實現(xiàn)了樣本替換優(yōu)先級的定義與運用,保證了記憶庫中樣本的高可用性。此外為了解決訓(xùn)練過程被某些異常高loss樣本所誘導(dǎo)產(chǎn)生的訓(xùn)練不平穩(wěn)的問題,本文提出使用基于層序數(shù)的優(yōu)先級采樣進行解決。

    另外,在多智能體聯(lián)動學習方面,OpenAI團隊在其提出的MADDPG[15]算法中使用了集中式學習、分布式執(zhí)行的框架,不同進程之間共享最新的參數(shù),可以使模型更快地收斂。

    Dueling DQN[16]是在DQN算法上的一種改進,該算法將Q值分為Value和Advantage兩部分,經(jīng)本文驗證Dueling DQN在復(fù)雜長回合問題中具有更好的表現(xiàn)。

    綜上,本文提出一種分布式優(yōu)先級經(jīng)驗置換Dueling DQN(DPES Dueling DQN)的算法結(jié)構(gòu),并在較大規(guī)模的復(fù)雜環(huán)境中進行路徑規(guī)劃的仿真實驗,驗證了本文算法的可行性和高效性。

    1 相關(guān)理論

    1.1 DQN

    Q-Learning算法是強化學習中一種經(jīng)典的基于值的算法[17],該算法維護一個狀態(tài)與動作的Q值表格,在每一個狀態(tài)下,都可以通過查詢表格的方式獲得各個動作所對應(yīng)的Q值,其中一個表項值Qij表示在狀態(tài)si下選擇動作aj的行為價值,通常依argmaxa(Qij)的策略進行動作選擇。在動作執(zhí)行之后,根據(jù)從環(huán)境中獲得回報r按式(1)對當前值對應(yīng)的Q值進行更新。

    Q(s,a)←Q(s,a)+γ[r+maxa′Q(s′,a′)-Q(s,a)]

    (1)

    循環(huán)該過程直至整個Q值表收斂。式中:γ表示衰減度,用來表達一個回合中較后的動作所產(chǎn)生的回報對較前的動作選擇的影響。

    Q-Learning算法可以近乎完美地解決低維簡單的強化學習問題,但是在處理多狀態(tài)多動作的復(fù)雜問題時,Q-Learning算法就會變得力不從心,復(fù)雜的狀態(tài)空間和動作空間讓Q值表變得非常巨大,兩相組合更是使得Q值表的數(shù)量級呈指數(shù)型增長,這就導(dǎo)致Q值表的收斂變得異常困難。另外對于未參與訓(xùn)練的狀態(tài),Q-Learning算法將無法為其生成動作,也就是說Q-Learning算法沒有泛化能力。

    上述限制使得強化學習在很長一段時間沒有出現(xiàn)突破性的研究進展,一直到2013年,DeepMind團隊的Mnih等提出了DQN算法,這標志著DRL(Deep Reinforcement Learning) 時代的到來,自此不斷涌現(xiàn)出許多DRL的相關(guān)技術(shù)。

    DQN由兩個結(jié)構(gòu)相同但參數(shù)間隔更新的網(wǎng)絡(luò)構(gòu)成,可以分別定義為Qtarget和Qeval,其中Qeval從記憶庫中提取數(shù)據(jù)進行學習,其參數(shù)實時更新,而Qtarget每隔一定步數(shù)之后同步Qeval的參數(shù),通過如式(2)所示的loss值來進行Qeval網(wǎng)絡(luò)的學習。

    (2)

    深度學習的使用通常以訓(xùn)練數(shù)據(jù)相互之間互不相關(guān)為前提,而在強化學習中,一個回合的前后動作之間往往存在著很強的相關(guān)性,這就為深度學習的使用帶了困擾。在DQN中,通過離線學習的方式解決了這個問題。DQN引入了記憶庫的概念,模型會將訓(xùn)練過程中的所有實時產(chǎn)生的元組保存在記憶庫中,并不立即用來進行模型的學習,而是通過在記憶庫中隨機抽樣的方式選擇數(shù)據(jù)進行網(wǎng)絡(luò)的學習。這樣就有效地減弱了數(shù)據(jù)之間的相關(guān)性,使得訓(xùn)練好的模型能夠具有泛化性。

    1.2 Dueling DQN

    Dueling DQN是DQN的一種改進,Dueling DQN將Q值分成了價值函數(shù)Value和優(yōu)勢函數(shù)Advantage兩部分,其中:Value表示當前狀態(tài)的重要程度;Advantage則對應(yīng)每個動作各有一個值代表每個動作的優(yōu)勢,而后通過式(3)構(gòu)造最終的Q值。

    Q(s,a;θ,α,β)=V(s;θ,β)+(A(s,a;θ,α)-

    (3)

    式中:θ表示網(wǎng)絡(luò)卷積層的參數(shù);α和β分別表示Advantage和Value函數(shù)全連接層的參數(shù)。

    本文實驗證明,Dueling DQN的這種設(shè)計有利于長回合場景下的動作選擇,在復(fù)雜環(huán)境的路徑規(guī)劃應(yīng)用中有較好的表現(xiàn)。

    2 本文算法實現(xiàn)

    2.1 分布式執(zhí)行框架

    本文算法采用一種分布式執(zhí)行的框架,框架結(jié)構(gòu)如圖1所示。通過多線程的方式構(gòu)建多個智能體,多個智能體各自獨立地進行動作選擇、動作執(zhí)行,在獲得回報后將數(shù)據(jù)樣本存入共享的記憶庫。

    圖1 DPES Dueling DQN結(jié)構(gòu)

    智能體在執(zhí)行時,首先加載最新的共享全局參數(shù),再進行動作選擇。智能體在學習時,各自獨立地從記憶庫中進行樣本抽取,對參數(shù)進行梯度更新后將智能體參數(shù)上傳到全局共享參數(shù),以保證全局參數(shù)獲得實時更新,通過多智能體分布式處理的方式,可以進一步降低樣本之間的相關(guān)性,減少模型收斂耗費的時間。

    2.2 基于小根堆的PES策略

    在傳統(tǒng)的離線學習模型中,當記憶庫存滿時,模型便采用先進先出的機制,從索引0開始替換掉最先存入的數(shù)據(jù),這樣會導(dǎo)致高采樣優(yōu)先級的數(shù)據(jù)樣本可能因為位于記憶庫開始而被替換出去,造成有價值數(shù)據(jù)被丟棄。

    本文提出的PES策略采用小根堆的結(jié)構(gòu)實現(xiàn)。堆是二叉樹的一種,不同于排序二叉樹在節(jié)點增刪時需要調(diào)整樹的結(jié)構(gòu)來保證樹的平衡,堆結(jié)構(gòu)在增刪節(jié)點的同時自動保證了自身的平衡性,也就保證了在插入刪除時的平均復(fù)雜度。堆有小根堆和大根堆之分,小根堆中的根節(jié)點是整個樹中的最小節(jié)點,其子樹中的根節(jié)點同樣滿足此性質(zhì)。大根堆中則是根節(jié)點為最大節(jié)點。

    小根堆在移動節(jié)點時的上浮和下沉兩種操作定義如下:

    上浮若當前節(jié)點權(quán)重比父節(jié)點權(quán)重值小,交換當前節(jié)點與父節(jié)點的位置。

    下沉若當前節(jié)點權(quán)重比左子節(jié)點權(quán)重或右子節(jié)點權(quán)重大,交換當前節(jié)點與較小的子節(jié)點位置。

    記憶庫處在運行態(tài)時,在不同情境下的處理方式如下:

    1) 新數(shù)據(jù)插入。

    (1) 堆節(jié)點數(shù)未達到上限。為新節(jié)點賦予初始權(quán)重1,將節(jié)點插入到堆末尾。

    (2) 堆節(jié)點數(shù)達到上限時。替換掉堆根節(jié)點,為新節(jié)點賦予初始權(quán)重等同堆尾節(jié)點的權(quán)重,對節(jié)點進行下沉操作,移動節(jié)點到合適位置。

    2) 權(quán)重更新后的節(jié)點移動。改變被抽樣的節(jié)點權(quán)重,根據(jù)新的權(quán)重值大小決定節(jié)點上浮或是下沉,移動節(jié)點到合適位置。

    本文利用數(shù)據(jù)樣本參與訓(xùn)練時產(chǎn)生的TD-error即損失值作為構(gòu)建堆的權(quán)重,loss越大,說明模型對此樣本尚不能很好地擬合,需要保留在記憶庫中繼續(xù)訓(xùn)練。反之,loss越小,說明模型對該樣本擬合得很好,此樣本就應(yīng)該從記憶庫中替換出去,避免該類樣本過多地參與訓(xùn)練使模型陷入局部最優(yōu)。而通過小根堆的方式,loss最小的樣本將會始終被放置在根節(jié)點的位置,可以以O(shè)(1)的時間復(fù)雜度拿到并完成樣本替換。而之所以在新樣本存入初始化其權(quán)重與堆尾節(jié)點相同,是為了保證新寫入數(shù)據(jù)的采樣優(yōu)先級。

    2.3 基于堆層序數(shù)的優(yōu)先級采樣

    在采樣環(huán)節(jié),本文提出一種基于堆層序數(shù)的優(yōu)先級采樣方法。在Schaul等提出的PER中,根據(jù)式(4)構(gòu)建的優(yōu)先級進行采樣。

    (4)

    式中:pi表示需要為i的樣本參與訓(xùn)練時產(chǎn)生的損失值。本文通過實驗發(fā)現(xiàn),模型在訓(xùn)練前期所產(chǎn)生的誤差之間差異較大,依此方式產(chǎn)生的樣本抽樣概率將會更加懸殊,這并不利于模型的平滑收斂。

    本文提出的基于小根堆層序數(shù)的優(yōu)先級采樣方式減弱了這種現(xiàn)象的影響。基于小根堆層序數(shù)的優(yōu)先級采樣并不嚴格依賴損失值的完整排序。在小根堆中的數(shù)據(jù)并不像二叉排序樹那樣滿足嚴格的排序關(guān)系,堆中的層級間滿足如下偏序關(guān)系:

    Li≤Lji

    (5)

    式中:Li表是第i層的數(shù)據(jù)。依照此偏序關(guān)系構(gòu)建每層的采樣優(yōu)先級,既可以保證高損失的樣本具有較高的采樣優(yōu)先級,又不至于采樣被限制在某些異常高的loss值上。基于層序數(shù)的優(yōu)先級采樣具體實現(xiàn)方式為首先令pi=i,i=1,2,…,log2(n+1),其中:i為堆的層序數(shù);n為堆中節(jié)點的總個數(shù)。將序列p代入式(4)中獲得堆中各層的采樣概率。在選中抽樣層后,層內(nèi)采用隨機抽樣的方式進行采樣。本文方法的優(yōu)勢在于實現(xiàn)代價低,無須對序列進行排序,且能保證按優(yōu)先級進行采樣。此外,本文方法的采樣效率比較高,可以直接通過索引定位數(shù)據(jù),時間復(fù)雜度為O(1),相較于PES中通過SumTree的O(log2n)的時間復(fù)雜度有了較大的提升。

    2.4 模型核心網(wǎng)絡(luò)

    DPES Dueling DQN的網(wǎng)絡(luò)如圖2所示,其中包含三個全連接的隱藏層,每層設(shè)置300個節(jié)點,以ReLU作為激活函數(shù)。第4層采用Dueling的設(shè)計方式,分為Value和Advantage兩部分,輸出層即為Q值,由第四層中的兩部分相加而得。

    圖2 DPES Dueling DQN核心網(wǎng)絡(luò)結(jié)構(gòu)

    2.5 DPES Dueling DQN算法步驟

    DPES Dueling DQN的算法偽代碼如算法1所示。

    算法1DPES Dueling DQN算法

    Initialize Agent_Ps, Heap, Learn_point, Global_θ

    To every Agent_P:

    Repeat max_loop:

    while True:

    loadθfrom Global_θ

    take actionai, returnr,s′

    replace the root element in heap with the new data and sink it

    if Counter_Memory>Memory_size:

    if Counter_Learn%Replace_point:

    updateθfromQevaltoQtarget

    end if

    do model_P learn

    updateθto global_θ

    end if

    ifs′∈Stargetors′∈Sdanger:

    end while

    end if

    3 強化學習環(huán)境搭建

    本文的環(huán)境借助OpenAI團隊構(gòu)筑的gym環(huán)境框架搭建而成,環(huán)境以某建筑其中一層平面構(gòu)建模擬環(huán)境,其可視化效果如圖3所示。

    圖3 環(huán)境仿真

    模擬環(huán)境由40×40的格點區(qū)域組成,仿真地圖區(qū)域主要包含房間、樓道、樓梯井三部分。為驗證算法處理復(fù)雜環(huán)境的能力,本文在實驗時除了普通障礙(即環(huán)境中的“wall”)外另添加了一種“危險區(qū)域”(即環(huán)境中的“danger”)。加入該場景后的環(huán)境如圖4所示。

    圖4 發(fā)生險情的環(huán)境仿真

    假定發(fā)生險情后,智能體可能會分布在地圖中的任意位置,要求強化學習模型可以為智能體規(guī)劃最短最安全的逃生路徑。智能體到達安全出口(圖中的exit區(qū)域)視為逃生路徑規(guī)劃成功。在地圖中間區(qū)域附近出現(xiàn)兩處危險點(圖中的danger區(qū)域),若智能體不慎步入其中,將隨即死亡,本回合路徑規(guī)劃失敗。另外,環(huán)境中原本的一處安全出口因為險情無法通過,也變?yōu)槲kU區(qū)域。

    3.1 狀態(tài)空間構(gòu)建

    環(huán)境中的狀態(tài)由網(wǎng)格點的二維坐標表示,狀態(tài)空間為平面中智能體所有可能處于的位置。即去除墻體和樓梯井之外的所有網(wǎng)格點。

    3.2 動作空間構(gòu)建

    本文設(shè)定的動作空間為離散空間,包括5個動作,分別為原地不動、上、下、左、右,分別以整型數(shù)0、1、2、3、4表示。

    3.3 環(huán)境回報構(gòu)建

    強化學習主要依賴環(huán)境的回報優(yōu)化動作選擇策略以完成任務(wù),所以環(huán)境的回報對于任務(wù)的成功與否具有決定作用,本文基于先驗知識和實驗經(jīng)驗進行了下述的回報設(shè)定。

    (1) 單步回報。因為環(huán)境中發(fā)生了險情,對于智能體來說,每多走一步,就會增加一分危險,因此設(shè)定rstep=-1。這樣的設(shè)定也會使得智能體會選擇多條可行路徑中最短的一條路徑。

    (2) 越界、碰壁回報。如果智能體在墻體邊緣選擇了“撞墻”的動作,這是一步無意義的動作,因此應(yīng)當為此類動作設(shè)定一個負值回報rwall=-1。

    (3) 險地回報。智能體踏入險地即死亡,回合結(jié)束,因此險地的回報應(yīng)該為全局最小值。同時為了保證智能體能通過險地之間的過道,險地的設(shè)定值不應(yīng)該太小,經(jīng)過多次實驗,最終設(shè)定rdanger=-50。

    (4) 安全出口回報。安全出口處是路徑規(guī)劃任務(wù)的最終目標,因此應(yīng)給予全局最大的正值回報。安全出口的回報應(yīng)該能保證即使長路程的規(guī)劃路徑回合的總回報大于短路程的死亡回合的總回報,在本實驗中,設(shè)定其回報為rtarget=200。

    綜上,智能體獲得的回報定義如式(6)所示。

    (6)

    4 仿真實驗

    4.1 實驗參數(shù)設(shè)置

    對于模型的核心網(wǎng)絡(luò),設(shè)計的層數(shù)、節(jié)點越少,則網(wǎng)絡(luò)無法完成對復(fù)雜環(huán)境的全局收斂;設(shè)計的層數(shù)、節(jié)點過多,則可能會產(chǎn)生過擬合,且十分耗費計算資源。經(jīng)過多次實驗測試,最終設(shè)定網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,為3×300節(jié)點的全連接層,以ReLU作為激活函數(shù)。設(shè)定學習率為10-4,采用批量梯度下降的方式進行學習,設(shè)定batch_size為256,Qtarget每2 000步與Qeval同步參數(shù)。

    設(shè)定記憶庫的規(guī)模memory_size為50 000,記憶庫中存儲數(shù)據(jù)到達10 000條時開始進行模型的學習。

    軟件環(huán)境為Ubuntu18.04,內(nèi)存24 GB,顯卡為GTX1060,顯存6 GB,采用Pytorch的深度學習框架。

    4.2 實驗結(jié)果分析

    為了驗證本文方法,還同時進行與DQN、Dueling DQN、DPER Dueling DQN算法的對比實驗,表1對比DQN、Dueling DQN、DPER Dueling DQN、DPES Dueling DQN在各自在訓(xùn)練的不同階段的模型效果。

    表1 測試效果對比表

    表1中的完成率指標是加載當時的訓(xùn)練模型進行100次隨機初始起點的模擬逃生路徑規(guī)劃成功次數(shù)所占的比例。其中的回報值為這100次路徑規(guī)劃的回合回報的均值,為了避免智能體在環(huán)境中徘徊,設(shè)置單回合最大步數(shù)為200,超過此限制則認為路徑規(guī)劃任務(wù)失敗。

    從表1的數(shù)據(jù)可以看出保證了采樣空間中的數(shù)據(jù)的高價值性、并通過優(yōu)先級進行數(shù)據(jù)采樣的PES策略的表現(xiàn)最佳,可以使訓(xùn)練產(chǎn)生的模型具有更好的全局可用性。

    用三種算法分別訓(xùn)練200 000個回合,得到損失變化如圖5所示。

    圖5 loss變化

    可以看出,Dueling的結(jié)構(gòu)在較大規(guī)模復(fù)雜環(huán)境中有較好的表現(xiàn),體現(xiàn)在訓(xùn)練之初,通過代表狀態(tài)重要性的Value值更能確定準確的方向選擇,體現(xiàn)在loss圖中為在訓(xùn)練開始時可以更快地向著擬合模型,降低loss。而PER和PES策略能在處理訓(xùn)練后期尚未收斂的個別數(shù)據(jù)時發(fā)揮作用,PER策略可以提高這些個別數(shù)據(jù)的抽樣優(yōu)先級,而本文的PES策略在保證其優(yōu)先級的同時,又能確保這些數(shù)據(jù)能夠保持在記憶庫中不被替換出去,在loss圖中可以看出PER策略幾乎把loss降低了一個量級,而本文的PES策略又進一步降低了loss。而且本文方法得到的曲線更加平滑,這也印證了本文方法不會被個別異常數(shù)據(jù)所左右的觀點。結(jié)合表1的數(shù)據(jù)也可以看出本文提出的PES策略具有更好的全局收斂效果。

    圖6所示為隨著訓(xùn)練進行,平均回合回報的變化趨勢,通過對比平均回合回報的變化趨勢也可以得到與上文同樣的結(jié)論。本文方法可以更快地完成收斂,Dueling的結(jié)構(gòu)可以更好地幫助智能體找尋前進方向,能盡快地完成收斂。PES的采樣方式則可以使模型盡快適應(yīng)某些尚未收斂的格點,更快地達到在全局任意位置都能安全逃生的路徑規(guī)劃效果。

    圖6 平均回合回報

    訓(xùn)練到20 000輪的參數(shù)進行測試效果如圖7所示,其中每個格點上的小三角形指示了智能體位于該位置時應(yīng)該選擇的動作方向。可以看到對于地圖上的絕大部分區(qū)域,智能體都能找到安全逃生路徑。

    圖7 第20 000輪的路徑規(guī)劃效果

    取第110 000輪的參數(shù)進行測試,效果如圖8所示,此時無論在地圖上的任意位置,智能體都能完成安全逃生的路徑規(guī)劃。

    圖8 第110 000輪的路徑規(guī)劃效果

    另外,本文還利用DPES Dueling DQN算法進行如圖9和圖10場景下的測試。圖9是在未發(fā)生險情的安全路徑規(guī)劃場景,可以看到在地圖中的任何位置,智能體都能按照指示方向到達安全出口,且所選路徑為最短路徑。圖10所示環(huán)境中,一處險情阻塞了主要通道,可以看到模型在進行路徑規(guī)劃時會選擇穿過其他房間到達安全出口。

    圖9 無險情發(fā)生時路徑規(guī)劃效果

    圖10 險情阻塞主干道路徑規(guī)劃效果

    綜合上述的實驗可以看出,本文提出的PES策略可以在深度強化學習算法的訓(xùn)練過程中取得較好的加速表現(xiàn),記憶庫中樣本質(zhì)量的提高有助于模型更快、更穩(wěn)定地收斂。此外,結(jié)合Dueling DQN提出的DPES Dueling DQN算法應(yīng)用在路徑規(guī)劃場景中很好地完成了路徑規(guī)劃任務(wù),通過不同實驗場景的訓(xùn)練,本文算法的泛化性也得到了證明。

    5 結(jié) 語

    本文將深度強化學習應(yīng)用在路徑規(guī)劃領(lǐng)域,提出使用DPES Dueling DQN算法進行復(fù)雜環(huán)境下的路徑規(guī)劃。采用PES策略將欠擬合的樣本數(shù)據(jù)保留在記憶庫中,使記憶庫中的樣本對于模型的全局收斂而言是高收益的。采用分布式的方式既有利于收集全局樣本,也提高了模型收斂的速度及學習效率。又結(jié)合了在較大環(huán)境中表現(xiàn)更佳Dueling DQN算法進行最優(yōu)路徑規(guī)劃。最終通過實驗與DQN、Dueling DQN、DPER Dueling DQN進行對比,驗證了DPES Dueling DQN方法進行路徑規(guī)劃的高效性和泛化能力。

    猜你喜歡
    記憶規(guī)劃智能
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    規(guī)劃引領(lǐng)把握未來
    快遞業(yè)十三五規(guī)劃發(fā)布
    商周刊(2017年5期)2017-08-22 03:35:26
    記憶中的他們
    多管齊下落實規(guī)劃
    兒時的記憶(四)
    兒時的記憶(四)
    久久久久精品人妻al黑| 十分钟在线观看高清视频www| 91午夜精品亚洲一区二区三区| 99精国产麻豆久久婷婷| 亚洲精品美女久久av网站| 久久av网站| 国产xxxxx性猛交| 久久久a久久爽久久v久久| 999久久久国产精品视频| 啦啦啦啦在线视频资源| 国产在视频线精品| 人人澡人人妻人| www.精华液| 国产亚洲欧美精品永久| 18禁裸乳无遮挡动漫免费视频| 久久精品久久久久久噜噜老黄| 香蕉国产在线看| 18在线观看网站| 寂寞人妻少妇视频99o| 中文字幕人妻丝袜制服| 99精国产麻豆久久婷婷| 久久国产精品大桥未久av| 午夜福利一区二区在线看| 97在线人人人人妻| 97在线人人人人妻| 老熟女久久久| 九九爱精品视频在线观看| 在线亚洲精品国产二区图片欧美| 热re99久久精品国产66热6| 国产日韩欧美视频二区| 少妇熟女欧美另类| 一二三四在线观看免费中文在| 春色校园在线视频观看| 免费日韩欧美在线观看| 丝袜脚勾引网站| 国产精品久久久久久精品电影小说| a级毛片黄视频| 国产黄色视频一区二区在线观看| 人妻少妇偷人精品九色| 亚洲欧美精品综合一区二区三区 | 最近手机中文字幕大全| 国产在视频线精品| 丰满少妇做爰视频| 9热在线视频观看99| 日韩免费高清中文字幕av| 一级毛片我不卡| 女性被躁到高潮视频| 最近2019中文字幕mv第一页| 建设人人有责人人尽责人人享有的| 啦啦啦啦在线视频资源| 欧美 日韩 精品 国产| 亚洲国产成人一精品久久久| 亚洲少妇的诱惑av| 久久久久久久亚洲中文字幕| 亚洲少妇的诱惑av| 在线观看免费视频网站a站| 欧美激情 高清一区二区三区| 精品酒店卫生间| 亚洲成人av在线免费| 在线天堂中文资源库| 交换朋友夫妻互换小说| 久久精品国产鲁丝片午夜精品| 午夜精品国产一区二区电影| 毛片一级片免费看久久久久| 欧美国产精品一级二级三级| 免费观看a级毛片全部| 亚洲伊人久久精品综合| 精品久久久久久电影网| 国产麻豆69| 桃花免费在线播放| 国产精品三级大全| 国产高清国产精品国产三级| xxx大片免费视频| 午夜激情久久久久久久| 丰满乱子伦码专区| 在线观看国产h片| 精品少妇久久久久久888优播| 亚洲成人手机| 精品久久久精品久久久| 久久久久精品性色| 侵犯人妻中文字幕一二三四区| 日韩 亚洲 欧美在线| 久久久精品区二区三区| 纯流量卡能插随身wifi吗| 精品99又大又爽又粗少妇毛片| 亚洲少妇的诱惑av| 久久久a久久爽久久v久久| 久热这里只有精品99| 亚洲欧美成人精品一区二区| 中文字幕人妻丝袜一区二区 | 日韩精品免费视频一区二区三区| 午夜福利乱码中文字幕| 久久av网站| 久久国产精品大桥未久av| 纵有疾风起免费观看全集完整版| 天堂中文最新版在线下载| 婷婷色麻豆天堂久久| 香蕉国产在线看| 日韩伦理黄色片| 日韩大片免费观看网站| 久久久精品94久久精品| 国精品久久久久久国模美| 99久久精品国产国产毛片| 九色亚洲精品在线播放| 少妇 在线观看| 女人被躁到高潮嗷嗷叫费观| 伊人久久国产一区二区| h视频一区二区三区| 黄片小视频在线播放| 国产不卡av网站在线观看| 成人亚洲精品一区在线观看| 色网站视频免费| 日韩人妻精品一区2区三区| 久久99蜜桃精品久久| 人人妻人人澡人人看| 久久久久视频综合| 亚洲精品国产色婷婷电影| 久久 成人 亚洲| 国产老妇伦熟女老妇高清| 如何舔出高潮| 极品少妇高潮喷水抽搐| 午夜福利乱码中文字幕| 成年人免费黄色播放视频| 精品亚洲乱码少妇综合久久| 天天操日日干夜夜撸| 高清黄色对白视频在线免费看| 精品国产乱码久久久久久男人| 美女高潮到喷水免费观看| 亚洲精品美女久久久久99蜜臀 | 成人国语在线视频| 搡老乐熟女国产| av国产久精品久网站免费入址| 97人妻天天添夜夜摸| 黑人巨大精品欧美一区二区蜜桃| 一区二区日韩欧美中文字幕| 波野结衣二区三区在线| 亚洲av国产av综合av卡| 色婷婷av一区二区三区视频| 国产一区二区 视频在线| 亚洲国产最新在线播放| 青春草国产在线视频| 波多野结衣av一区二区av| 国产成人一区二区在线| 黄频高清免费视频| av福利片在线| 91久久精品国产一区二区三区| 久久亚洲国产成人精品v| 欧美日本中文国产一区发布| 在线看a的网站| 青草久久国产| 亚洲av.av天堂| 一区二区三区四区激情视频| 最近手机中文字幕大全| 纯流量卡能插随身wifi吗| 男女无遮挡免费网站观看| 在线天堂中文资源库| 亚洲精品自拍成人| 一区二区av电影网| 制服人妻中文乱码| 一本大道久久a久久精品| 国产精品久久久久久精品古装| 伊人久久国产一区二区| 亚洲国产精品999| 最近最新中文字幕大全免费视频 | 亚洲精品在线美女| 97在线人人人人妻| 欧美+日韩+精品| 男女下面插进去视频免费观看| av福利片在线| 多毛熟女@视频| 一区二区三区乱码不卡18| 亚洲av综合色区一区| 久久国产精品男人的天堂亚洲| 亚洲经典国产精华液单| 最新的欧美精品一区二区| 免费不卡的大黄色大毛片视频在线观看| 国产亚洲欧美精品永久| 一本久久精品| 另类精品久久| 精品一品国产午夜福利视频| 熟女电影av网| 日本色播在线视频| 丰满乱子伦码专区| 99久久精品国产国产毛片| 国产精品久久久久久久久免| 国产淫语在线视频| 人人妻人人澡人人爽人人夜夜| 国产精品成人在线| 大片电影免费在线观看免费| 毛片一级片免费看久久久久| 三级国产精品片| 精品视频人人做人人爽| 精品酒店卫生间| 两性夫妻黄色片| av免费在线看不卡| 在线观看免费高清a一片| 亚洲三区欧美一区| 欧美97在线视频| 国产成人精品在线电影| 男人操女人黄网站| 欧美另类一区| 在现免费观看毛片| 狠狠精品人妻久久久久久综合| 久久毛片免费看一区二区三区| 久久久久久久久久人人人人人人| 中文欧美无线码| 高清av免费在线| 精品国产国语对白av| 国产成人欧美| 欧美老熟妇乱子伦牲交| 亚洲成人av在线免费| 免费观看a级毛片全部| 亚洲欧洲日产国产| 老司机亚洲免费影院| 亚洲伊人色综图| 亚洲中文av在线| 国产精品一国产av| 激情五月婷婷亚洲| 欧美 亚洲 国产 日韩一| 在线亚洲精品国产二区图片欧美| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 伊人亚洲综合成人网| av片东京热男人的天堂| 久久 成人 亚洲| 蜜桃国产av成人99| 日韩在线高清观看一区二区三区| 精品国产乱码久久久久久男人| 精品一区二区免费观看| 啦啦啦中文免费视频观看日本| 国产精品免费视频内射| 久久国产精品男人的天堂亚洲| 国产有黄有色有爽视频| 国产麻豆69| 久久97久久精品| 婷婷色av中文字幕| 欧美黄色片欧美黄色片| 久久免费观看电影| 国产成人精品婷婷| 免费在线观看视频国产中文字幕亚洲 | 国产精品人妻久久久影院| 一本久久精品| 高清在线视频一区二区三区| 国产探花极品一区二区| a级毛片在线看网站| 亚洲av福利一区| 超碰成人久久| 91成人精品电影| av.在线天堂| 日本vs欧美在线观看视频| 国产亚洲最大av| 国产成人精品婷婷| 免费久久久久久久精品成人欧美视频| 国产成人免费观看mmmm| 欧美少妇被猛烈插入视频| 在线 av 中文字幕| 日韩电影二区| 亚洲一码二码三码区别大吗| 亚洲av男天堂| 亚洲国产最新在线播放| 精品人妻一区二区三区麻豆| 亚洲av电影在线进入| 免费播放大片免费观看视频在线观看| 免费观看性生交大片5| 如何舔出高潮| 十八禁网站网址无遮挡| 免费高清在线观看视频在线观看| 久久久久久久久免费视频了| 激情视频va一区二区三区| 午夜免费男女啪啪视频观看| av网站免费在线观看视频| 欧美精品国产亚洲| 不卡av一区二区三区| 巨乳人妻的诱惑在线观看| 高清黄色对白视频在线免费看| 一本色道久久久久久精品综合| 丰满少妇做爰视频| av在线app专区| 成人亚洲欧美一区二区av| 日韩制服骚丝袜av| 亚洲国产最新在线播放| 男女午夜视频在线观看| 成人亚洲欧美一区二区av| 亚洲精品乱久久久久久| 五月天丁香电影| h视频一区二区三区| 1024视频免费在线观看| 国产高清国产精品国产三级| 亚洲av综合色区一区| 黄色配什么色好看| 少妇人妻 视频| 国产精品久久久久久av不卡| 久久久久久人人人人人| 国产在线免费精品| 日韩伦理黄色片| 精品卡一卡二卡四卡免费| 高清在线视频一区二区三区| 精品国产露脸久久av麻豆| 亚洲一级一片aⅴ在线观看| 国产精品久久久久成人av| 国产淫语在线视频| 麻豆av在线久日| 亚洲欧洲精品一区二区精品久久久 | 精品国产露脸久久av麻豆| 色吧在线观看| 一区二区三区乱码不卡18| 国产免费又黄又爽又色| 满18在线观看网站| 日本猛色少妇xxxxx猛交久久| 免费黄色在线免费观看| 免费在线观看完整版高清| 午夜av观看不卡| 久久精品久久精品一区二区三区| 丝瓜视频免费看黄片| 成人亚洲精品一区在线观看| 日日撸夜夜添| 国产精品久久久久久精品电影小说| 1024香蕉在线观看| 黄片无遮挡物在线观看| 9色porny在线观看| 精品99又大又爽又粗少妇毛片| 国产免费现黄频在线看| 亚洲av.av天堂| 国产片特级美女逼逼视频| 久久毛片免费看一区二区三区| 一区二区三区精品91| 看免费av毛片| 亚洲图色成人| 国产有黄有色有爽视频| av网站在线播放免费| 久久久久国产精品人妻一区二区| 18禁国产床啪视频网站| 大香蕉久久成人网| 久久韩国三级中文字幕| 日日啪夜夜爽| 寂寞人妻少妇视频99o| 自拍欧美九色日韩亚洲蝌蚪91| 一边摸一边做爽爽视频免费| 捣出白浆h1v1| 美女国产视频在线观看| 亚洲四区av| 国产精品国产av在线观看| 日韩伦理黄色片| 美女福利国产在线| 伊人久久国产一区二区| 满18在线观看网站| 在线观看美女被高潮喷水网站| 伊人久久大香线蕉亚洲五| 香蕉丝袜av| 一级毛片电影观看| 三上悠亚av全集在线观看| 熟女电影av网| av天堂久久9| 成年av动漫网址| 边亲边吃奶的免费视频| 黄片播放在线免费| 涩涩av久久男人的天堂| 视频在线观看一区二区三区| 亚洲精品av麻豆狂野| 一个人免费看片子| 1024视频免费在线观看| 看免费av毛片| av在线老鸭窝| 2022亚洲国产成人精品| 性色avwww在线观看| 秋霞伦理黄片| 日本av免费视频播放| 欧美日韩国产mv在线观看视频| 日韩一区二区视频免费看| 久久99精品国语久久久| 好男人视频免费观看在线| 美女午夜性视频免费| 国产精品偷伦视频观看了| 午夜老司机福利剧场| 免费看不卡的av| 精品久久久久久电影网| a 毛片基地| 日本黄色日本黄色录像| 99热网站在线观看| 久久人人爽人人片av| 日韩熟女老妇一区二区性免费视频| 久久久久视频综合| 日韩中文字幕欧美一区二区 | 亚洲综合精品二区| 久久毛片免费看一区二区三区| 国产麻豆69| 亚洲av日韩在线播放| 国产精品一区二区在线不卡| 日韩制服丝袜自拍偷拍| 午夜福利在线观看免费完整高清在| 91久久精品国产一区二区三区| www.自偷自拍.com| 亚洲精品日韩在线中文字幕| videossex国产| 人妻一区二区av| 美女国产视频在线观看| 黄网站色视频无遮挡免费观看| 人体艺术视频欧美日本| 黄片播放在线免费| 老女人水多毛片| 亚洲精品,欧美精品| 中文字幕精品免费在线观看视频| a级片在线免费高清观看视频| 少妇被粗大猛烈的视频| 免费日韩欧美在线观看| 精品酒店卫生间| 亚洲精品国产一区二区精华液| 中文字幕亚洲精品专区| 国产福利在线免费观看视频| 黄色毛片三级朝国网站| 精品人妻在线不人妻| 精品一区二区三区四区五区乱码 | 午夜福利一区二区在线看| 亚洲欧洲国产日韩| 在线免费观看不下载黄p国产| 大陆偷拍与自拍| 精品一区在线观看国产| 精品亚洲成国产av| 青草久久国产| 老司机亚洲免费影院| 捣出白浆h1v1| 国产亚洲午夜精品一区二区久久| 亚洲精品国产av蜜桃| 电影成人av| 亚洲欧美一区二区三区久久| 国产午夜精品一二区理论片| 成人国产av品久久久| 只有这里有精品99| 国语对白做爰xxxⅹ性视频网站| 日韩在线高清观看一区二区三区| 女人精品久久久久毛片| 超碰97精品在线观看| 男女下面插进去视频免费观看| 日本av手机在线免费观看| 一级爰片在线观看| 国产熟女午夜一区二区三区| av女优亚洲男人天堂| 人人妻人人澡人人爽人人夜夜| 久久ye,这里只有精品| 午夜影院在线不卡| 男人操女人黄网站| 最近的中文字幕免费完整| 大陆偷拍与自拍| 天美传媒精品一区二区| 日韩精品免费视频一区二区三区| 免费在线观看黄色视频的| 人妻系列 视频| 久久99一区二区三区| 嫩草影院入口| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 91精品伊人久久大香线蕉| 1024香蕉在线观看| 日韩三级伦理在线观看| 18禁观看日本| av在线观看视频网站免费| 久久国内精品自在自线图片| 黄色配什么色好看| 久久久精品94久久精品| 欧美av亚洲av综合av国产av | 亚洲av成人精品一二三区| 欧美精品亚洲一区二区| 99热全是精品| 99国产综合亚洲精品| av在线播放精品| 国产精品国产av在线观看| 精品久久蜜臀av无| 亚洲av在线观看美女高潮| 看非洲黑人一级黄片| 免费看av在线观看网站| 日韩av在线免费看完整版不卡| 2021少妇久久久久久久久久久| www.av在线官网国产| 9色porny在线观看| 少妇的逼水好多| 大码成人一级视频| 九九爱精品视频在线观看| 亚洲av国产av综合av卡| 美女国产高潮福利片在线看| 亚洲在久久综合| 国产亚洲最大av| 久久精品熟女亚洲av麻豆精品| 爱豆传媒免费全集在线观看| 韩国精品一区二区三区| 国产熟女午夜一区二区三区| 日韩一区二区三区影片| 亚洲av欧美aⅴ国产| av女优亚洲男人天堂| 国产成人精品久久久久久| 亚洲国产最新在线播放| 国产av码专区亚洲av| 免费不卡的大黄色大毛片视频在线观看| 啦啦啦视频在线资源免费观看| 高清视频免费观看一区二区| 观看美女的网站| 不卡视频在线观看欧美| 日本爱情动作片www.在线观看| 不卡视频在线观看欧美| 啦啦啦中文免费视频观看日本| 免费大片黄手机在线观看| 免费观看无遮挡的男女| 国产av码专区亚洲av| 国产精品久久久久成人av| 精品国产一区二区三区久久久樱花| 亚洲欧美清纯卡通| 国产有黄有色有爽视频| 午夜福利视频精品| 女人久久www免费人成看片| 一本久久精品| 你懂的网址亚洲精品在线观看| 美女国产高潮福利片在线看| 亚洲欧美一区二区三区黑人 | 99国产精品免费福利视频| 一区二区三区四区激情视频| 亚洲人成77777在线视频| 欧美 亚洲 国产 日韩一| 电影成人av| 亚洲五月色婷婷综合| 波多野结衣一区麻豆| 韩国精品一区二区三区| 中文字幕色久视频| 人妻 亚洲 视频| 成人影院久久| 国产不卡av网站在线观看| 9色porny在线观看| 国产一区二区三区综合在线观看| 欧美日韩视频高清一区二区三区二| 看免费成人av毛片| 国产av国产精品国产| 日韩制服骚丝袜av| 精品99又大又爽又粗少妇毛片| 七月丁香在线播放| 少妇精品久久久久久久| 男女边吃奶边做爰视频| 欧美激情 高清一区二区三区| 精品少妇久久久久久888优播| 久久久久久久久久久免费av| 亚洲精品国产av成人精品| 午夜福利网站1000一区二区三区| 精品少妇一区二区三区视频日本电影 | 亚洲国产欧美日韩在线播放| 亚洲欧美成人综合另类久久久| 亚洲伊人色综图| 亚洲av福利一区| 亚洲精华国产精华液的使用体验| 久久综合国产亚洲精品| 日韩熟女老妇一区二区性免费视频| 丰满少妇做爰视频| 叶爱在线成人免费视频播放| 亚洲欧美清纯卡通| 午夜福利在线观看免费完整高清在| 国产 精品1| 日本av免费视频播放| 99久久人妻综合| 免费不卡的大黄色大毛片视频在线观看| 国产xxxxx性猛交| 亚洲欧洲日产国产| 亚洲在久久综合| 精品卡一卡二卡四卡免费| 制服丝袜香蕉在线| 亚洲精品第二区| 99香蕉大伊视频| 久久人人97超碰香蕉20202| 99久久中文字幕三级久久日本| 男女无遮挡免费网站观看| 久久ye,这里只有精品| 精品少妇黑人巨大在线播放| 免费在线观看黄色视频的| 精品国产国语对白av| 久久国产精品大桥未久av| 一本久久精品| 寂寞人妻少妇视频99o| 曰老女人黄片| 丝袜人妻中文字幕| 人妻系列 视频| 免费女性裸体啪啪无遮挡网站| 国产1区2区3区精品| 国产熟女欧美一区二区| 亚洲精品国产av成人精品| 叶爱在线成人免费视频播放| 国产精品久久久久成人av| 亚洲国产日韩一区二区| av网站在线播放免费| 精品视频人人做人人爽| 有码 亚洲区| videos熟女内射| 美女主播在线视频| 高清在线视频一区二区三区| 日韩大片免费观看网站| 日本欧美视频一区| 国产激情久久老熟女| 国产又色又爽无遮挡免| 国产日韩一区二区三区精品不卡| 91精品三级在线观看| 热re99久久国产66热| 美女脱内裤让男人舔精品视频| 一本大道久久a久久精品| 美女大奶头黄色视频| 青春草国产在线视频| 只有这里有精品99| 狠狠精品人妻久久久久久综合| 精品久久久久久电影网| 久久久久久久亚洲中文字幕| √禁漫天堂资源中文www| 国产毛片在线视频| 国精品久久久久久国模美| 国产熟女欧美一区二区| 777久久人妻少妇嫩草av网站| freevideosex欧美| 午夜精品国产一区二区电影| 免费不卡的大黄色大毛片视频在线观看| 在线观看免费视频网站a站| 欧美国产精品一级二级三级| 国产探花极品一区二区| 日韩欧美精品免费久久| 国产精品 国内视频| 国产成人欧美|