• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學(xué)習(xí)算法的車輛行為決策研究

    2022-05-18 04:26:34陳名松張澤功吳冉冉吳泳蓉
    關(guān)鍵詞:經(jīng)驗動作策略

    陳名松, 張澤功, 吳冉冉, 吳泳蓉

    (桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)

    近年來,隨著經(jīng)濟(jì)發(fā)展和科技進(jìn)步,我國城市居民汽車保有量持續(xù)增長,據(jù)國家統(tǒng)計局發(fā)布的2018國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計公報顯示,2019年末全國民用私家車保有量達(dá)2.07億,比上年末增長9.37%。然而,汽車出行方便了日常生活的同時也帶來了一系列問題,據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)顯示,2018年我國汽車交通事故發(fā)生數(shù)達(dá)到24.5萬起,造成人員傷亡23.5萬人次,直接財產(chǎn)損失13億8 456萬元。另有研究表明,駕駛員失誤導(dǎo)致的交通事故占交通事故總量的90%,主要因素有駕駛員分心、注意力不集中和疲勞駕駛等[1]。所以對于自動駕駛的研究成為一個熱點方向,谷歌、百度、AMD等企業(yè)及國內(nèi)外研究人員均對此進(jìn)行了相關(guān)研究。

    自動駕駛是指車輛通過感知周圍環(huán)境并在無人工干預(yù)情況下進(jìn)行自主駕駛的行為。首先車輛要感知周圍環(huán)境,識別駕駛環(huán)境中的行人、車輛、車道等信息。這一過程通常通過計算機視覺技術(shù)進(jìn)行處理,通過對圖像進(jìn)行獲取、處理、分析和理解等一系列步驟將現(xiàn)實世界中的高維度特征轉(zhuǎn)換成數(shù)字信息并輸入一個策略模型中,在動態(tài)的環(huán)境信息中,嘗試得到獎勵值最大的駕駛行為,實現(xiàn)最佳的決策。DQN算法[2]是深度強化學(xué)習(xí)算法的開山之作,它與自動駕駛技術(shù)的整合研究是一種非常流行且有效的方式。2015年,Mnih等利用卷積神經(jīng)網(wǎng)絡(luò)計算Q函數(shù),并利用該框架在Atari 2600游戲中成功達(dá)到超過職業(yè)玩家的水平。2016年,Bojarski團(tuán)隊使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端自動駕駛系統(tǒng)的研究,通過將攝像頭獲取的數(shù)據(jù)送入CNN進(jìn)行訓(xùn)練,從而實現(xiàn)對方向盤的控制。Sallab團(tuán)隊[3]利用DQN算法進(jìn)行了車道保持輔助系統(tǒng)的仿真研究,通過對比實驗分析了不同終止條件下訓(xùn)練得到的策略的區(qū)別。2017年,Chae等[4]利用DQN進(jìn)行自主剎車系統(tǒng)研究,在經(jīng)過7萬多次模擬試驗后,Agent可以學(xué)習(xí)到自主剎車的能力。夏偉等[5]提出了結(jié)合聚類算法和DQN算法的自動駕駛策略學(xué)習(xí)模型,也取得了一定效果。

    雖然DQN在不同的模擬器上通過離散化方向盤和剎車等行為實現(xiàn)了對自動駕駛的模擬,但是DQN的本質(zhì)依然與傳統(tǒng)的強化學(xué)習(xí)一樣旨在解決離散和低維動作空間,它會產(chǎn)生大量的狀態(tài)-動作對,不適用于像油門、剎車和方向盤這樣的連續(xù)動作空間。即使通過離散化將DQN應(yīng)用于連續(xù)域也會引起維度災(zāi)難等問題,不利于后續(xù)計算。針對上述問題,深度確定性策略梯度算法[6](deep deterministic policy gradient,簡稱DDPG)應(yīng)運而生。DDPG算法是一種無模型、異策略的算法,它結(jié)合了DQN算法、A-C方法和DPG算法,在連續(xù)域控制問題上具有良好的表現(xiàn),引起了學(xué)者們的廣泛關(guān)注。張斌等[7]將DDPG算法與策略動作過濾相結(jié)合,通過將策略網(wǎng)絡(luò)的多輸出改為單輸出來控制油門和剎車,降低了自動駕駛中的非法策略比。吳俊塔等[8]通過基于DDPG算法的多個子策略平均集成的方式進(jìn)行自動駕駛行為的控制。

    1 基于深度強化學(xué)習(xí)的自動駕駛模型

    1.1 強化學(xué)習(xí)模型

    強化學(xué)習(xí)是機器學(xué)習(xí)的一個分支,智能體Agent通過與環(huán)境的不斷交互學(xué)習(xí),提高Agent對于未知環(huán)境的探索和適應(yīng)能力,從環(huán)境探索中得到最大回報,從而學(xué)習(xí)到完整策略[7]。強化學(xué)習(xí)就是給一個馬爾科夫決策過程(MDP)尋找最優(yōu)策略π,使得該策略下的累計回報期望最大。

    所謂策略指狀態(tài)到動作的映射,即:

    πθ(a|s)=p[At=a|St=s,θ],

    (1)

    表示在狀態(tài)s下指定一個動作a的概率。若策略是確定的,則給定一個確切動作。整個MDP過程可以用五元組(S,A,P,R,γ)表示,其中S為有限狀態(tài)集合,A為有限動作集合,P為狀態(tài)轉(zhuǎn)移概率,R為回報函數(shù),γ∈[0,1]為折扣因子。當(dāng)Agent與環(huán)境進(jìn)行交互,在狀態(tài)st處的累計回報為

    (2)

    為了評價狀態(tài)s的價值和求解最優(yōu)策略,引入狀態(tài)值函數(shù)υπ(s)和狀態(tài)-行為值函數(shù)qπ(s,a),實際應(yīng)用中采用其貝爾曼方程:

    υπ(s)=Eπ(Rt+1+γυπSt+1|St=s),

    (3)

    Qπ(s,a)=Eπ[Rt+1+γQ(St+1,At+1)|St=s,At=a]。

    (4)

    求解上述值函數(shù)有2種方法:基于表的方法和基于值函數(shù)逼近的方法[9]。基于表的方法包括傳統(tǒng)Q-learning和Sarsa算法,該類算法因為無法構(gòu)建足夠大的Q值表,所以其應(yīng)用局限于狀態(tài)-動作空間很小的情況。為了解決上述問題,DeepMind公司利用神經(jīng)網(wǎng)絡(luò)來逼近狀態(tài)值函數(shù),提出了結(jié)合深度學(xué)習(xí)和強化學(xué)習(xí)的DQN[10]算法,從而完整地表示了狀態(tài)-動作空間。

    1.2 基于DDPG算法的行為決策框架

    1.2.1 DPG算法

    DPG算法[11]即確定性行為策略,根據(jù)式(1)定義了一個策略網(wǎng)絡(luò)。策略網(wǎng)絡(luò)的輸入是環(huán)境信息S,包括車輛距離車道的距離、車輛速度等,輸出為車輛要進(jìn)行的下一步動作a,包括轉(zhuǎn)向、剎車、油門等控制信息,每步的行為通過策略函數(shù)直接獲得確定值,該策略網(wǎng)絡(luò)的目標(biāo)函數(shù)定義為

    Ex~p(x|θ)[R]。

    (5)

    其中策略網(wǎng)絡(luò)的目標(biāo)函數(shù)梯度是狀態(tài)-行為值函數(shù)梯度的期望,如式(6)所示,這樣可以在不考慮動作空間維度的情況下更好地估計策略網(wǎng)絡(luò)目標(biāo)函數(shù)的梯度,提高了計算效率。

    (6)

    1.2.2 DQN算法

    DQN算法是第一個深度強化學(xué)習(xí)算法,其利用神經(jīng)網(wǎng)絡(luò)對狀態(tài)-行為值函數(shù)進(jìn)行擬合,狀態(tài)-行為值函數(shù)可表示為

    Qπ(S,a)≈Q(s,a,w),

    (7)

    其中ω為神經(jīng)網(wǎng)絡(luò)的的權(quán)重,結(jié)合式(6),可得DDPG算法:

    (8)

    1.2.3 DDPG算法流程

    DDPG算法將上述2種算法進(jìn)行了融合,如圖1所示,該算法由Actor(策略)模塊、Critic(評價)模塊和經(jīng)驗池組成。其中Actor和Critic模塊分別利用神經(jīng)網(wǎng)絡(luò)對策略函數(shù)和Q函數(shù)進(jìn)行擬合。同時,由于Actor網(wǎng)絡(luò)與環(huán)境交互所產(chǎn)生的時間序列是高度相關(guān)的,直接利用這些數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練會導(dǎo)致網(wǎng)絡(luò)過擬合,不易收斂。因此,借鑒DQN算法,引入了經(jīng)驗回放機制(experience replay),通過在經(jīng)驗池中進(jìn)行隨機批量取樣對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,解決了上述問題。

    圖1 基于DDPG算法的車輛決策流程

    Actor-Critic方法將策略梯度算法和值函數(shù)結(jié)合在一起。Actor網(wǎng)絡(luò)產(chǎn)生當(dāng)前策略,輸出動作;Critic網(wǎng)絡(luò)對該動作進(jìn)行評判。然后,基于此評判,Actor網(wǎng)絡(luò)調(diào)整其網(wǎng)絡(luò)權(quán)重,使得輸出的動作在下一次變得更好。為提高算法訓(xùn)練的穩(wěn)定性,DDPG中引入了Target-Actor網(wǎng)絡(luò)和Target-Critic網(wǎng)絡(luò),初始結(jié)構(gòu)和參數(shù)均與其對應(yīng)的Actor和Critic網(wǎng)絡(luò)一致,后續(xù)則根據(jù)式(9)即圖中的Soft Update進(jìn)行參數(shù)更新,其中θQ、θQ′、θπ、θπ′分別為Target-Critic網(wǎng)絡(luò)、Critic網(wǎng)絡(luò)、Target-Actor網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)的參數(shù)。

    (9)

    2 改進(jìn)的DDPG算法

    為提高算法的訓(xùn)練效率和網(wǎng)絡(luò)的穩(wěn)定性,針對傳統(tǒng)DDPG算法提出以下幾點改進(jìn),主要包括將引導(dǎo)學(xué)習(xí)和優(yōu)選經(jīng)驗回放結(jié)合,以下稱之為LS-DDPG。

    2.1 引導(dǎo)式學(xué)習(xí)

    一般而言,新手在完成一項任務(wù)時,需要具有經(jīng)驗的師傅對其進(jìn)行指導(dǎo),這樣完成任務(wù)的效率和準(zhǔn)確率會比獨自探索高很多。受此啟發(fā),在利用傳統(tǒng)DDPG算法對TORCS中的車輛進(jìn)行自動控制時,引入一個專業(yè)的控制器,將其作為“老師”來引導(dǎo),進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練。傳統(tǒng)DDPG算法對于Critic網(wǎng)絡(luò)的訓(xùn)練是通過隨機抽取經(jīng)驗緩存池中的經(jīng)驗樣本數(shù)據(jù)并送入Critic網(wǎng)絡(luò)中進(jìn)行批訓(xùn)練,經(jīng)驗數(shù)據(jù)根據(jù)回報函數(shù)得到評估值Q。對于Actor網(wǎng)絡(luò)的訓(xùn)練過程則是利用環(huán)境信息S對動作a的梯度來進(jìn)行訓(xùn)練。

    引導(dǎo)式學(xué)習(xí)的DDPG算法對于網(wǎng)絡(luò)的訓(xùn)練包括預(yù)訓(xùn)練和正常訓(xùn)練2個階段。預(yù)訓(xùn)練階段不涉及強化學(xué)習(xí)的內(nèi)容,僅利用專業(yè)控制器來進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到一個預(yù)訓(xùn)練模型。在后期強化學(xué)習(xí)的正式訓(xùn)練中,先加載此預(yù)訓(xùn)練模型進(jìn)行Agent與環(huán)境的交互,通過采取特定策略,使得訓(xùn)練前期預(yù)訓(xùn)練模型在動作的輸出方面占主導(dǎo),然后逐漸減少預(yù)訓(xùn)練模型的主導(dǎo)作用,Actor網(wǎng)絡(luò)逐漸占據(jù)主導(dǎo)。這樣允許Actor網(wǎng)絡(luò)在學(xué)習(xí)引導(dǎo)行為的同時可以探索更多引導(dǎo)行為之外的動作。

    2.2 優(yōu)選經(jīng)驗回放

    傳統(tǒng)DDPG算法利用經(jīng)驗回放機制將Agent與環(huán)境交互得到的經(jīng)驗樣本存儲到經(jīng)驗緩存池中,然后通過隨機抽取BATCH_SIZE數(shù)據(jù)進(jìn)行Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。這種處理方式消除了經(jīng)驗樣本之間的相關(guān)性,提高了網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。但由于經(jīng)驗樣本的選取是隨機的,選取的經(jīng)驗樣本質(zhì)量參差不齊,網(wǎng)絡(luò)訓(xùn)練速度和效率較低。為解決此問題,Schaul等[12]提出了優(yōu)先經(jīng)驗緩存機制(prioritized experience replay),通過計算TD-error得到經(jīng)驗樣本的重要程度,將重要程度較大的數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。這種算法對于加速神經(jīng)網(wǎng)絡(luò)的收斂有一定作用,但是算法復(fù)雜度較高。本著不提升算法復(fù)雜度同時提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率的原則,利用經(jīng)驗池分離原則,采用優(yōu)選經(jīng)驗樣本回放的方式對DDPG算法進(jìn)行改進(jìn)。

    1)經(jīng)驗樣本分離存儲。優(yōu)選經(jīng)驗樣本回放需要通過設(shè)置閾值區(qū)分樣本的優(yōu)劣,然后分別存入不同的經(jīng)驗池。劣勢樣本包括脫離軌道的經(jīng)驗樣本、發(fā)生碰撞的經(jīng)驗樣本以及rt為負(fù)值的經(jīng)驗樣本等。同時,根據(jù)對應(yīng)測試的賽道寬度d和車身寬度l設(shè)置經(jīng)驗存放閾值dth=(d-l)/d。車輛行駛在賽道閾值以外所得到的經(jīng)驗被認(rèn)定為劣勢樣本,反之則為優(yōu)勢樣本。

    2)調(diào)整經(jīng)驗樣本抽取比例。按一定比例α從不同的經(jīng)驗池抽取經(jīng)驗樣本,在1個批處理樣本中2類樣本必須同時存在,以防止神經(jīng)網(wǎng)絡(luò)達(dá)到局部最優(yōu)。同時優(yōu)勢樣本與劣勢樣本的抽取比例α隨著當(dāng)前訓(xùn)練步數(shù)的增加而逐漸降低,防止Agent學(xué)習(xí)到的策略網(wǎng)絡(luò)過擬合。

    3)降低策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的更新頻率。DDPG算法涉及到了2個神經(jīng)網(wǎng)絡(luò),且每次都在連續(xù)狀態(tài)中更新參數(shù),每次參數(shù)更新前后都存在相關(guān)性。若評價網(wǎng)絡(luò)某次評價產(chǎn)生過估計的情況,則在利用差分誤差進(jìn)行頻繁的網(wǎng)絡(luò)參數(shù)更新時會導(dǎo)致誤差累積放大,策略更新向著發(fā)散的方向進(jìn)行,不利于算法收斂。因此,應(yīng)該控制策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的更新頻率低于評價網(wǎng)絡(luò),即在進(jìn)行策略網(wǎng)絡(luò)更新前,最小化估計誤差。

    2.3 LS-DDPG算法流程

    主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的參數(shù)初始化方式均為隨機初始化,OU噪聲的添加會隨著訓(xùn)練步數(shù)的增加而改變,是一個線性改變的過程,這樣可以控制預(yù)訓(xùn)練權(quán)重和策略網(wǎng)絡(luò)的主導(dǎo)比重。LS-DDPG算法偽代碼如下。

    1:初始化Actor網(wǎng)絡(luò)π(s,θπ)和Critic網(wǎng)絡(luò)Q(st,at,θQ), 經(jīng)驗池大小N, BATCH_SIZE大小M;

    2:初始化Target-Actor網(wǎng)絡(luò)π′(s,θπ′)和Target-Critic網(wǎng)絡(luò)Q′(st,at,θQ′);

    3:創(chuàng)建經(jīng)驗緩存池Bs和Bf, 并設(shè)置經(jīng)驗緩存閾值dth, 加載預(yù)訓(xùn)練權(quán)重;

    4:Episode循環(huán)開始:

    5:選擇始化狀態(tài)st, 初始化OU噪聲;

    6:Step循環(huán)開始:

    7:將OU噪聲添加到動作策略中, Actor網(wǎng)絡(luò)根據(jù)當(dāng)前策略做出動作at;

    8:將at送入TORCS環(huán)境中, 轉(zhuǎn)化成車輛控制動作執(zhí)行, 得到當(dāng)前動作的回報值rt和新的環(huán)境值st+1;

    9:根據(jù)rt是否大于0與當(dāng)前環(huán)境信息中的車輛位置是否大于dth決定(st,at,rt,st+1,done)存入對應(yīng)的經(jīng)驗池;

    10:根據(jù)樣本采樣比例α, 在Bs和Bf分別采樣數(shù)據(jù), 采樣數(shù)據(jù)總量為M;

    11:通過Target-Critic網(wǎng)絡(luò)計算當(dāng)前動作的期望回報;

    13:當(dāng)Step到達(dá)設(shè)置的Actor網(wǎng)絡(luò)的更新頻率時:

    15:利用式(9)更新Target網(wǎng)絡(luò);

    16:結(jié)束Step循環(huán);

    17:結(jié)束Episode循環(huán)。

    3 實驗設(shè)計

    3.1 實驗運行環(huán)境

    實驗運行環(huán)境為Ubuntu 16.04,Python 3.6,Keras 2.1.6,Tensorflow 1.13.2,CUDA 10.0.130,CUDNN 7.5.0,gym,TORCS仿真平臺,地圖為A-Speedway地圖。CPU為Intel i7 7800X,GPU為GTX 2080TI,運行內(nèi)存32 GiB。

    3.2 實驗設(shè)計

    實驗中對于DDPG算法、LS-DDPG算法設(shè)計均采用2層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏單元數(shù)分別為600、300,而后actor網(wǎng)絡(luò)緊接著的3個全連接層的輸出分別對應(yīng)智能體的轉(zhuǎn)向、油門和剎車3個控制變量。轉(zhuǎn)向的取值范圍為[-1,1],分別代表向左到底和向右到底;油門和剎車的取值范圍為[0,1],分別代表不踩踏板和將踏板踩到底。算法中將以下函數(shù)作為獎勵函數(shù):

    r=(1-tracPos)(Vxcosθ-Vx|sinθ|-

    (10)

    網(wǎng)絡(luò)訓(xùn)練均以當(dāng)前賽道的10圈作為目標(biāo),而后分析算法的總回報、平均回報、收斂速度及模型表現(xiàn)與訓(xùn)練步數(shù)的關(guān)系。

    4 實驗結(jié)果分析

    實驗進(jìn)行了對于傳統(tǒng)DDPG算法的實現(xiàn),并在A-Speedway地圖上進(jìn)行了訓(xùn)練,訓(xùn)練中設(shè)置了4個約束條件,以便讓小車能夠正確地行駛,盡量行駛在道路中央。這4個約束條件為:1)在車輛與周邊環(huán)境中的障礙物發(fā)生碰撞時,即時回報值為-50;2)在車輛行駛出當(dāng)前車道時,即時回報值為-100,且有20%的概率結(jié)束此次行駛,重啟TORCS客戶端;3)當(dāng)車輛行駛100步依然沒有進(jìn)展或者車輛行駛速度低于5 km/h時,結(jié)束當(dāng)前回合;4)當(dāng)車輛運行中車身角度處于[-90,90]以外時,結(jié)束當(dāng)前回合。

    在DDPG算法運行過程中發(fā)現(xiàn),當(dāng)車輛學(xué)習(xí)到的速度過高(超過200 km/h),在進(jìn)行轉(zhuǎn)彎時會脫離軌道,對于剎車的學(xué)習(xí)不理想。長期學(xué)習(xí)不到會導(dǎo)致車輛一直陷于學(xué)習(xí)如何順利度過當(dāng)前彎道的情況,導(dǎo)致算法收斂時間變長,效率降低。因此,在進(jìn)行LS-DDPG算法訓(xùn)練時,為了讓車輛學(xué)習(xí)到更準(zhǔn)確的駕駛技能,提高駕駛準(zhǔn)確性和算法效率,更改了第2個限制條件來進(jìn)行彎道行駛的限制,即當(dāng)前車輛車身靠近車道線邊緣達(dá)到閾值但未駛出車道時,返回即時回報值為-100;若車駛出了車道,則返回即時回報值為-200,并結(jié)束當(dāng)前回合。同時,為消除車輛行駛速度過高這種不符合實際情況的狀況,在車輛學(xué)習(xí)的后期,對于油門進(jìn)行一定控制,主動剎車降低車速。

    4.1 有效行駛距離

    圖2和圖3分別為LS-DDPG和DDPG算法訓(xùn)練車輛在賽道上跑10圈的狀況下,訓(xùn)練輪數(shù)和車輛每輪的行駛距離。DDPG算法下訓(xùn)練567輪行駛了78 102步,LS-DDPG算法訓(xùn)練了192輪行駛了61 942步。LS-DDPG相比DDPG算法,訓(xùn)練輪數(shù)上減少了375輪,效率提升了66.14%;訓(xùn)練步數(shù)降低了16 160步,效率提升了20.07%;LS-DDPG平均每輪行駛322步,DDPG算法平均每輪行駛138步,平均每輪行駛步數(shù)增加184步,有效行駛距離提升133%。LS-DDPG算法下車輛所學(xué)習(xí)到的策略從剛開始訓(xùn)練就比DDPG算法具有更長的有效行駛距離,會減少很多無效操作,提高了車輛探索的效率。后期在完成1圈的情況下,LS-DDPG算法會行駛比DDPG算法更多的步數(shù)。這是由于LS-DDPG算法在訓(xùn)練時有意地控制了其在訓(xùn)練后期的車輛速度,所以在后期LS-DDPG算法訓(xùn)練的車輛行駛速度沒有DDPG算法高,導(dǎo)致同樣的行駛距離下行駛步數(shù)會相對較高。

    圖2 LS-DDPG算法中每個回合的訓(xùn)練步數(shù)

    圖3 DDPG算法中每個回合的行駛步數(shù)

    4.2 回報值

    圖4和圖5分別為LS-DDPG和DDPG算法在訓(xùn)練中對應(yīng)的訓(xùn)練輪數(shù)和總回報的關(guān)系。LS-DDPG算法下的總回報在小范圍內(nèi)變動較大,在150輪后基本呈平穩(wěn)上升狀態(tài)。DDPG算法在400輪后呈平穩(wěn)上升狀態(tài)。圖6和圖7分別為LS-DDPG和DDPG算法在訓(xùn)練中對應(yīng)的訓(xùn)練輪數(shù)和平均回報的關(guān)系。LS-DDPG算法在前期由于添加了更加嚴(yán)格的懲罰項,導(dǎo)致平均回報較小,但在120輪后會有良好的提升,后期整體處于平穩(wěn)。DDPG算法在65輪后平均回報穩(wěn)步上升,在訓(xùn)練后期平均回報高于LS-DDPG算法。由于上述提到速度控制的原因,導(dǎo)致LS-DDPG算法訓(xùn)練的車輛后期速度沒有DDPG算法訓(xùn)練的高,回報值相比DDPG算法小。但是在行駛表現(xiàn)中,LS-DDPG算法訓(xùn)練出來的車輛在轉(zhuǎn)彎時會更多地減速慢行,更符合人類的實際操控。

    圖4 LS-DDPG算法中隨回合數(shù)變化的總回報值

    圖5 DDPG算法中隨回合數(shù)變化的總回報值

    圖6 LS-DDPG算法中每個回合的平均回報值

    圖7 DDPG算法中每個回合的平均回報值

    5 結(jié)束語

    分析了DDPG算法下的自動駕駛決策策略,并對傳統(tǒng)DDPG算法進(jìn)行了改進(jìn)。在TORCS平臺上驗證了改進(jìn)算法在訓(xùn)練效率和有效行駛距離上的提升。但該實驗僅在單車輛且環(huán)境相對簡單的情況下進(jìn)行,缺少在復(fù)雜環(huán)境下的解決能力,且DDPG算法在高速行駛下也無法高效地學(xué)會剎車。如何根據(jù)現(xiàn)實情況進(jìn)行更加規(guī)范的駕駛行為是下一步要研究的內(nèi)容。

    猜你喜歡
    經(jīng)驗動作策略
    2021年第20期“最值得推廣的經(jīng)驗”評選
    黨課參考(2021年20期)2021-11-04 09:39:46
    例談未知角三角函數(shù)值的求解策略
    我說你做講策略
    經(jīng)驗
    2018年第20期“最值得推廣的經(jīng)驗”評選
    黨課參考(2018年20期)2018-11-09 08:52:36
    動作描寫要具體
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    畫動作
    動作描寫不可少
    非同一般的吃飯動作
    九九久久精品国产亚洲av麻豆| 国产成人福利小说| 亚洲四区av| 在线播放国产精品三级| 国产精品99久久久久久久久| 亚洲精品亚洲一区二区| 亚洲av美国av| 欧美激情在线99| 51国产日韩欧美| 精品一区二区三区av网在线观看| 少妇高潮的动态图| 99久久精品热视频| 18禁裸乳无遮挡免费网站照片| 老司机福利观看| a级一级毛片免费在线观看| 国产午夜福利久久久久久| 国产一区二区在线观看日韩| 欧美黑人巨大hd| 免费在线观看成人毛片| 亚洲国产日韩欧美精品在线观看| 2021天堂中文幕一二区在线观| 精品久久国产蜜桃| 欧美xxxx性猛交bbbb| 人妻丰满熟妇av一区二区三区| 国产熟女欧美一区二区| 亚洲av免费在线观看| 久久久久国内视频| 淫妇啪啪啪对白视频| 一级黄色大片毛片| 色吧在线观看| 精品欧美国产一区二区三| 一本精品99久久精品77| 国内精品美女久久久久久| 丰满人妻一区二区三区视频av| 欧美xxxx黑人xx丫x性爽| 真人做人爱边吃奶动态| 久久久久久九九精品二区国产| 我的女老师完整版在线观看| 久久午夜亚洲精品久久| 精品久久久久久久久久免费视频| 91久久精品电影网| 综合色av麻豆| 男人狂女人下面高潮的视频| 国产精品乱码一区二三区的特点| 精品国产三级普通话版| 精品久久久久久久末码| 国产高清三级在线| 亚洲国产高清在线一区二区三| 免费av毛片视频| 精品久久久久久久末码| 人妻丰满熟妇av一区二区三区| 国内精品美女久久久久久| 国产成年人精品一区二区| 午夜免费激情av| 精品久久久久久久久久久久久| 亚洲精品一卡2卡三卡4卡5卡| 欧美bdsm另类| a在线观看视频网站| av黄色大香蕉| 两个人的视频大全免费| 高清日韩中文字幕在线| 日韩欧美免费精品| 亚洲av不卡在线观看| 亚洲第一电影网av| 在线天堂最新版资源| 国产私拍福利视频在线观看| 久9热在线精品视频| 日韩大尺度精品在线看网址| 日本免费一区二区三区高清不卡| 黄色视频,在线免费观看| 亚洲人成伊人成综合网2020| 久久久久国产精品人妻aⅴ院| 久久精品国产自在天天线| 欧美激情在线99| 内地一区二区视频在线| 成人特级黄色片久久久久久久| 99久久中文字幕三级久久日本| 嫁个100分男人电影在线观看| 国产又黄又爽又无遮挡在线| av在线蜜桃| 长腿黑丝高跟| 熟女人妻精品中文字幕| 午夜日韩欧美国产| 3wmmmm亚洲av在线观看| 性色avwww在线观看| 国产aⅴ精品一区二区三区波| 亚洲精品一卡2卡三卡4卡5卡| 久久久久久伊人网av| 久久久久九九精品影院| 久久久久久久久中文| 欧美又色又爽又黄视频| 免费人成视频x8x8入口观看| 淫妇啪啪啪对白视频| 国产高潮美女av| 国产一区二区亚洲精品在线观看| 久久草成人影院| 白带黄色成豆腐渣| 长腿黑丝高跟| 老司机午夜福利在线观看视频| 欧美日韩瑟瑟在线播放| 热99在线观看视频| 精品欧美国产一区二区三| 日韩一区二区视频免费看| 亚洲专区中文字幕在线| 亚洲av熟女| 欧美高清性xxxxhd video| 变态另类成人亚洲欧美熟女| 国产成人福利小说| 如何舔出高潮| 亚洲第一区二区三区不卡| АⅤ资源中文在线天堂| 国产单亲对白刺激| 国产乱人伦免费视频| 91麻豆精品激情在线观看国产| 免费观看的影片在线观看| 亚洲欧美日韩高清在线视频| 欧美日本亚洲视频在线播放| 国产成人影院久久av| 成人综合一区亚洲| 人人妻,人人澡人人爽秒播| 免费观看人在逋| 日韩欧美在线二视频| 亚洲第一区二区三区不卡| 国产精品三级大全| 婷婷丁香在线五月| 亚洲中文字幕一区二区三区有码在线看| 长腿黑丝高跟| 国产精品伦人一区二区| 亚洲第一区二区三区不卡| 久久精品综合一区二区三区| 精品午夜福利视频在线观看一区| 国产一级毛片七仙女欲春2| 国产精品日韩av在线免费观看| 桃色一区二区三区在线观看| 少妇高潮的动态图| 五月玫瑰六月丁香| 啦啦啦啦在线视频资源| 成年女人看的毛片在线观看| 亚洲狠狠婷婷综合久久图片| 久久人妻av系列| 欧美一区二区精品小视频在线| 极品教师在线免费播放| 国产aⅴ精品一区二区三区波| 欧美一区二区精品小视频在线| 亚洲性夜色夜夜综合| 特大巨黑吊av在线直播| 国产精品亚洲一级av第二区| 久久久久久国产a免费观看| 日本黄色片子视频| 国产精品亚洲一级av第二区| 欧美一区二区亚洲| 又爽又黄a免费视频| 亚洲一区二区三区色噜噜| 狂野欧美激情性xxxx在线观看| 性欧美人与动物交配| 波野结衣二区三区在线| 淫秽高清视频在线观看| 国产综合懂色| 午夜福利18| 欧美成人a在线观看| 日本一本二区三区精品| 亚洲精品一区av在线观看| 亚洲av一区综合| 久久久久久久久久久丰满 | 自拍偷自拍亚洲精品老妇| 欧美日韩乱码在线| 欧美一级a爱片免费观看看| av天堂在线播放| 免费人成视频x8x8入口观看| 欧美高清成人免费视频www| www日本黄色视频网| 久久久久国内视频| 国产免费男女视频| 国产欧美日韩精品亚洲av| 日本黄色片子视频| 国产免费一级a男人的天堂| 亚洲性夜色夜夜综合| 欧洲精品卡2卡3卡4卡5卡区| 国产高清视频在线播放一区| 欧美3d第一页| 熟女电影av网| 搡老妇女老女人老熟妇| 九色国产91popny在线| 欧美+亚洲+日韩+国产| 嫩草影院新地址| 十八禁国产超污无遮挡网站| 18禁黄网站禁片免费观看直播| 99久久精品国产国产毛片| 18+在线观看网站| 午夜a级毛片| 午夜免费激情av| 亚洲国产日韩欧美精品在线观看| 国产精品一区二区三区四区久久| 两人在一起打扑克的视频| 欧美精品啪啪一区二区三区| 亚州av有码| 成人鲁丝片一二三区免费| 夜夜看夜夜爽夜夜摸| 综合色av麻豆| 黄色丝袜av网址大全| 午夜福利高清视频| 在线观看午夜福利视频| 国产精品人妻久久久久久| 国内揄拍国产精品人妻在线| 亚洲人成伊人成综合网2020| av在线蜜桃| 狠狠狠狠99中文字幕| 精品久久久噜噜| 深夜a级毛片| 97热精品久久久久久| 中文字幕久久专区| 亚洲精品亚洲一区二区| 制服丝袜大香蕉在线| 成人亚洲精品av一区二区| 国产免费男女视频| 国产黄a三级三级三级人| 午夜福利成人在线免费观看| 亚洲精品在线观看二区| 1024手机看黄色片| 一级黄色大片毛片| 嫩草影院新地址| 精品国内亚洲2022精品成人| 一进一出好大好爽视频| 精品午夜福利视频在线观看一区| 久久久久久九九精品二区国产| 亚洲黑人精品在线| av在线亚洲专区| 丰满人妻一区二区三区视频av| 欧美丝袜亚洲另类 | 国产人妻一区二区三区在| 亚洲最大成人中文| 国产成人福利小说| 精品久久久久久久久久久久久| av中文乱码字幕在线| 午夜免费激情av| 欧美人与善性xxx| 久久中文看片网| 成人鲁丝片一二三区免费| 身体一侧抽搐| 18禁裸乳无遮挡免费网站照片| 国产精品亚洲美女久久久| 亚洲国产欧洲综合997久久,| 高清在线国产一区| 日韩中字成人| 成年免费大片在线观看| 身体一侧抽搐| 男插女下体视频免费在线播放| 国产免费男女视频| 成人特级av手机在线观看| 日韩欧美国产在线观看| 国产一区二区在线观看日韩| 久久久国产成人精品二区| av在线蜜桃| 性插视频无遮挡在线免费观看| 亚洲中文日韩欧美视频| 九色成人免费人妻av| 亚洲精品乱码久久久v下载方式| 日韩欧美国产一区二区入口| 国产真实乱freesex| 婷婷精品国产亚洲av| 乱人视频在线观看| 赤兔流量卡办理| 高清日韩中文字幕在线| 久久精品国产亚洲av天美| 免费看a级黄色片| 久久九九热精品免费| 日韩,欧美,国产一区二区三区 | 搡老熟女国产l中国老女人| 国产私拍福利视频在线观看| 亚洲图色成人| 国内揄拍国产精品人妻在线| 精品日产1卡2卡| 成人国产一区最新在线观看| 给我免费播放毛片高清在线观看| 少妇高潮的动态图| 亚洲七黄色美女视频| 少妇的逼水好多| 精品乱码久久久久久99久播| 天堂影院成人在线观看| 精品国产三级普通话版| 欧美极品一区二区三区四区| 日韩欧美精品v在线| 熟女人妻精品中文字幕| 亚洲成人久久性| 亚洲精华国产精华精| 特级一级黄色大片| 嫩草影院精品99| 淫妇啪啪啪对白视频| 男女做爰动态图高潮gif福利片| 麻豆精品久久久久久蜜桃| 三级国产精品欧美在线观看| 日本一二三区视频观看| 熟女电影av网| a在线观看视频网站| 国产毛片a区久久久久| 日韩强制内射视频| 欧美潮喷喷水| 日韩欧美三级三区| 九色国产91popny在线| 日本 av在线| 麻豆av噜噜一区二区三区| 午夜福利在线观看免费完整高清在 | 午夜免费男女啪啪视频观看 | 亚洲四区av| 波野结衣二区三区在线| 欧美成人a在线观看| 伊人久久精品亚洲午夜| 欧美日韩乱码在线| 内射极品少妇av片p| 欧美性猛交黑人性爽| 午夜精品一区二区三区免费看| 久久精品国产亚洲av香蕉五月| 如何舔出高潮| 午夜福利欧美成人| 老司机福利观看| 亚洲自拍偷在线| 国产中年淑女户外野战色| 欧美日韩黄片免| 亚洲精品久久国产高清桃花| 日本成人三级电影网站| www.www免费av| 亚洲av二区三区四区| 嫩草影院新地址| 日日摸夜夜添夜夜添av毛片 | 伊人久久精品亚洲午夜| 精品免费久久久久久久清纯| 久久精品国产亚洲av涩爱 | 欧美黑人欧美精品刺激| 久久人妻av系列| 日韩欧美一区二区三区在线观看| 欧洲精品卡2卡3卡4卡5卡区| 黄色女人牲交| 99久久成人亚洲精品观看| 少妇丰满av| 91精品国产九色| 国产午夜精品久久久久久一区二区三区 | 亚洲av熟女| 搡老熟女国产l中国老女人| 91久久精品国产一区二区三区| 99精品在免费线老司机午夜| 国产成人福利小说| 波多野结衣巨乳人妻| 九色成人免费人妻av| 精品久久久噜噜| av天堂在线播放| 久久久色成人| 全区人妻精品视频| 久久九九热精品免费| 亚洲成人免费电影在线观看| 春色校园在线视频观看| 久久精品91蜜桃| www.www免费av| 三级男女做爰猛烈吃奶摸视频| 男女视频在线观看网站免费| 黄色日韩在线| 日韩高清综合在线| 成年女人看的毛片在线观看| 最近在线观看免费完整版| 欧美三级亚洲精品| 一边摸一边抽搐一进一小说| 国产精品久久久久久久电影| 亚洲四区av| 国产极品精品免费视频能看的| 99久久精品国产国产毛片| 一区二区三区激情视频| 国内精品宾馆在线| 国产爱豆传媒在线观看| 日本撒尿小便嘘嘘汇集6| 久久久午夜欧美精品| bbb黄色大片| 欧美一区二区精品小视频在线| 午夜精品久久久久久毛片777| 九九在线视频观看精品| 99riav亚洲国产免费| 国产视频一区二区在线看| 99riav亚洲国产免费| 在线天堂最新版资源| 日本一二三区视频观看| 成人av一区二区三区在线看| 熟女人妻精品中文字幕| 免费看a级黄色片| 麻豆av噜噜一区二区三区| 国产精品无大码| 成年女人毛片免费观看观看9| 国产精品无大码| 亚洲精品456在线播放app | 亚洲人成网站高清观看| 国产国拍精品亚洲av在线观看| 天堂网av新在线| 日本精品一区二区三区蜜桃| 精品国内亚洲2022精品成人| 日韩强制内射视频| 国产探花极品一区二区| 国产精品久久久久久av不卡| 欧美区成人在线视频| 日韩高清综合在线| 我的老师免费观看完整版| 久久久国产成人免费| 国产乱人视频| 色视频www国产| 成人三级黄色视频| 蜜桃久久精品国产亚洲av| 亚洲精品日韩av片在线观看| 中出人妻视频一区二区| 亚洲美女视频黄频| 国产又黄又爽又无遮挡在线| 九色成人免费人妻av| 少妇的逼水好多| 亚洲性夜色夜夜综合| 特级一级黄色大片| 日本 欧美在线| 欧美区成人在线视频| 毛片女人毛片| 欧美一区二区精品小视频在线| 午夜激情欧美在线| 搡老岳熟女国产| 内地一区二区视频在线| 久久久久久久久久黄片| 免费人成在线观看视频色| 亚洲av日韩精品久久久久久密| 亚洲精华国产精华液的使用体验 | 天堂√8在线中文| 国产伦精品一区二区三区四那| 噜噜噜噜噜久久久久久91| 熟妇人妻久久中文字幕3abv| 亚洲av第一区精品v没综合| 欧美精品啪啪一区二区三区| 午夜老司机福利剧场| 国内精品美女久久久久久| 可以在线观看的亚洲视频| 日韩欧美国产一区二区入口| 美女高潮的动态| 色噜噜av男人的天堂激情| 欧美高清性xxxxhd video| 99久久中文字幕三级久久日本| 成人综合一区亚洲| 乱人视频在线观看| 亚洲色图av天堂| 桃红色精品国产亚洲av| 久久久久久九九精品二区国产| 在线看三级毛片| 婷婷色综合大香蕉| 国产 一区 欧美 日韩| 十八禁网站免费在线| 国产欧美日韩精品一区二区| 亚洲最大成人av| 欧美激情国产日韩精品一区| 亚洲aⅴ乱码一区二区在线播放| 欧美最新免费一区二区三区| 在现免费观看毛片| 国产三级在线视频| 一卡2卡三卡四卡精品乱码亚洲| 久久久成人免费电影| 国内精品久久久久精免费| 九九热线精品视视频播放| 国产精品99久久久久久久久| 嫩草影院入口| 日韩欧美 国产精品| 97超级碰碰碰精品色视频在线观看| 97人妻精品一区二区三区麻豆| 国产精品永久免费网站| 亚洲精品粉嫩美女一区| 熟妇人妻久久中文字幕3abv| 在线免费观看的www视频| 一本精品99久久精品77| 亚洲无线在线观看| 色综合色国产| 在现免费观看毛片| 村上凉子中文字幕在线| 天堂影院成人在线观看| a级毛片免费高清观看在线播放| 久久久久久久久久成人| 亚洲va在线va天堂va国产| 中文字幕av成人在线电影| 女人被狂操c到高潮| 精品一区二区免费观看| 天堂av国产一区二区熟女人妻| 俄罗斯特黄特色一大片| 日本成人三级电影网站| 久99久视频精品免费| 亚洲国产精品sss在线观看| 尤物成人国产欧美一区二区三区| 国产一区二区亚洲精品在线观看| 看免费成人av毛片| 亚洲av免费高清在线观看| 婷婷精品国产亚洲av在线| 国产精品久久电影中文字幕| 久久人人爽人人爽人人片va| 日韩国内少妇激情av| 欧美成人一区二区免费高清观看| 久久热精品热| 特大巨黑吊av在线直播| 五月玫瑰六月丁香| 熟妇人妻久久中文字幕3abv| 日本一二三区视频观看| 久久人人精品亚洲av| 久久精品国产亚洲av天美| 亚洲内射少妇av| 亚洲va日本ⅴa欧美va伊人久久| 国产成人影院久久av| 波多野结衣高清无吗| 91麻豆av在线| 久久精品影院6| 国产探花极品一区二区| 国内精品宾馆在线| 亚洲国产精品sss在线观看| 久久人妻av系列| 亚洲狠狠婷婷综合久久图片| 国产高清不卡午夜福利| 国产麻豆成人av免费视频| 精品久久久久久久久亚洲 | 免费大片18禁| 国产视频一区二区在线看| 非洲黑人性xxxx精品又粗又长| 一区福利在线观看| 99久久精品一区二区三区| 99国产精品一区二区蜜桃av| 色哟哟哟哟哟哟| 老司机午夜福利在线观看视频| 97超视频在线观看视频| 亚洲无线观看免费| 男人的好看免费观看在线视频| 男人舔奶头视频| 九九爱精品视频在线观看| 国产精品三级大全| 网址你懂的国产日韩在线| 国产真实乱freesex| eeuss影院久久| 99热精品在线国产| 91久久精品国产一区二区成人| 国产高潮美女av| 一卡2卡三卡四卡精品乱码亚洲| 国产av不卡久久| 久久久久国产精品人妻aⅴ院| 麻豆国产av国片精品| 亚洲国产精品sss在线观看| 精品一区二区三区av网在线观看| 男女之事视频高清在线观看| 人妻夜夜爽99麻豆av| 精品午夜福利视频在线观看一区| 变态另类丝袜制服| 欧美激情久久久久久爽电影| 精品人妻熟女av久视频| 国产伦精品一区二区三区视频9| 国产av麻豆久久久久久久| 女人十人毛片免费观看3o分钟| 国产高清视频在线播放一区| 亚洲久久久久久中文字幕| 女生性感内裤真人,穿戴方法视频| 亚洲av五月六月丁香网| 国产美女午夜福利| 精品一区二区免费观看| 尾随美女入室| 久久午夜亚洲精品久久| 久久精品国产自在天天线| a级一级毛片免费在线观看| 亚洲精品影视一区二区三区av| 欧美精品啪啪一区二区三区| 亚洲国产色片| 午夜a级毛片| 中文字幕av在线有码专区| 中亚洲国语对白在线视频| 午夜免费成人在线视频| 国产高清三级在线| 欧美成人性av电影在线观看| 日韩人妻高清精品专区| 免费黄网站久久成人精品| 综合色av麻豆| 成人特级黄色片久久久久久久| 久久精品国产99精品国产亚洲性色| 亚洲18禁久久av| 少妇高潮的动态图| x7x7x7水蜜桃| 免费不卡的大黄色大毛片视频在线观看 | 成人永久免费在线观看视频| 国产精品嫩草影院av在线观看 | 啦啦啦啦在线视频资源| 亚洲熟妇中文字幕五十中出| 白带黄色成豆腐渣| 国产日本99.免费观看| 久久中文看片网| 伊人久久精品亚洲午夜| 熟女人妻精品中文字幕| 久久久久久久久大av| 国产精品亚洲美女久久久| 欧美色视频一区免费| 日韩精品有码人妻一区| 小蜜桃在线观看免费完整版高清| 俺也久久电影网| 精华霜和精华液先用哪个| 可以在线观看毛片的网站| 一边摸一边抽搐一进一小说| 国产 一区精品| 99精品在免费线老司机午夜| 久久午夜福利片| 成人国产一区最新在线观看| 久久人妻av系列| 欧美zozozo另类| 午夜免费成人在线视频| 国产色婷婷99| 欧美成人a在线观看| 国产午夜精品久久久久久一区二区三区 | 免费黄网站久久成人精品| 我要看日韩黄色一级片| 色哟哟哟哟哟哟| 直男gayav资源| 国产伦人伦偷精品视频| 大型黄色视频在线免费观看| 九色国产91popny在线| 欧美zozozo另类| 人人妻人人澡欧美一区二区| 大又大粗又爽又黄少妇毛片口| 嫩草影院入口| 少妇人妻一区二区三区视频| 国产在线男女|