◆楊霄 李曉婷
基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)研究
◆楊霄 李曉婷
(北方自動(dòng)控制技術(shù)研究所軍種指控系統(tǒng)研發(fā)部 山西 030000)
傳統(tǒng)的自動(dòng)駕駛行為決策算法需要人為設(shè)定復(fù)雜的規(guī)則,從而導(dǎo)致車輛決策時(shí)間長(zhǎng)、決策效果不佳、對(duì)于新的環(huán)境不具有適應(yīng)性,而強(qiáng)化學(xué)習(xí)作為近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的主要方法之一,車輛僅通過與環(huán)境交互便可以學(xué)習(xí)到合理、有效的策略。本文基于DDPG((Deep Deterministic Policy Gradient)算法,通過設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略,在Carla模擬器中實(shí)現(xiàn)指定路線的自動(dòng)駕駛。
自動(dòng)駕駛;深度強(qiáng)化學(xué)習(xí);行為決策
自動(dòng)駕駛汽車(Autonomous Car)是指一類能夠自我感知環(huán)境、規(guī)劃路徑并對(duì)實(shí)時(shí)路況進(jìn)行合理決策的智能汽車[1]。行為決策模塊是自動(dòng)駕駛汽車的“大腦”,受到傳統(tǒng)車企乃至相關(guān)高校的高度關(guān)注[2]。強(qiáng)化學(xué)習(xí)在20世紀(jì)80年代已經(jīng)興起,但隨著問題的復(fù)雜度逐漸增大,傳統(tǒng)的表格式強(qiáng)化學(xué)習(xí)已經(jīng)難以解決龐大的狀態(tài)空間和搜索空間,因此,利用深度神經(jīng)網(wǎng)絡(luò)擬合Q值或輸出行為策略的深度強(qiáng)化學(xué)習(xí)被提出,并在策略游戲、直升機(jī)特技表演、火電廠控制等領(lǐng)域取得了極大的成功,其中,DDPG算法在目前的深度強(qiáng)化學(xué)習(xí)算法中應(yīng)用是最廣的[3-4]。本文基于DDPG算法,通過設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略,在Carla模擬器中實(shí)現(xiàn)指定路線的自動(dòng)駕駛。
根據(jù)現(xiàn)代決策理論的發(fā)展,可以將行為決策理論分為理性決策理論和行為決策理論,理性決策理論在20世紀(jì)80年代之前一直處于主導(dǎo)地位,之后隨著行為科學(xué)研究的興起,行為決策理論逐步發(fā)展壯大。
行為決策理論是一個(gè)多學(xué)科交叉的研究領(lǐng)域,旨在探討“人們實(shí)際是怎樣決策的”以及“這樣決策的根據(jù)是什么”,目前,關(guān)于機(jī)器人的行為決策理論較為成熟,從機(jī)器人學(xué)科的角度來看,無人駕駛汽車可以看作是一種移動(dòng)輪式機(jī)器人,因此移動(dòng)機(jī)器人的行為決策方法也可以應(yīng)用在無人駕駛汽車中[5]。
無人駕駛行為決策的目標(biāo)是對(duì)可能出現(xiàn)的駕駛的道路環(huán)境都給出一個(gè)合理的、實(shí)時(shí)的行為策略,核心任務(wù)是消化上層規(guī)劃模塊的輸出軌跡點(diǎn),通過一系列結(jié)合自身屬性和外界物理因素的動(dòng)力學(xué)計(jì)算,轉(zhuǎn)換成對(duì)汽車控制的油門、剎車、方向盤信號(hào)[4,6-7]。
隨機(jī)性策略梯度算法被廣泛應(yīng)用于解決大型空間或者連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問題中,直到2014年,效力于谷歌公司旗下Deepmind實(shí)驗(yàn)室的David Silver提出確定性策略梯度理論,不僅從數(shù)學(xué)上證明了確定性策略梯度的存在,同時(shí)提出確定性策略梯度算法(Deterministic Policy Gradient,DPG)。DDPG便是深度神經(jīng)網(wǎng)絡(luò)與DPG算法結(jié)合的產(chǎn)物,實(shí)現(xiàn)端到端的學(xué)習(xí)。
隨機(jī)性策略:
確定性策略:
確定性策略的動(dòng)作是確定的,避免了隨機(jī)性策略需要在高維空間頻繁采樣的問題,有效提高決策的效率。
DQN是強(qiáng)化學(xué)習(xí)中第一個(gè)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,通過神經(jīng)網(wǎng)絡(luò)的引入,使智能體可以從高維視頻像素中直接學(xué)習(xí)控制策略的方法,但是,DQN對(duì)于連續(xù)動(dòng)作問題便顯得無能為力,而DPG算法可以有效解決動(dòng)作空間連續(xù)問題,DDPG結(jié)合DQN與DPG,實(shí)現(xiàn)了從原始數(shù)據(jù)中進(jìn)行端到端學(xué)習(xí)。
算法框架如圖1:
圖1 DDPG算法框架
其中:
參數(shù)更新采用了一種更新目標(biāo)網(wǎng)絡(luò)的有效方式:滑動(dòng)平均(soft-update),可以大大提高學(xué)習(xí)的穩(wěn)定性:
根據(jù)接口定義,通過調(diào)整油門(throttle)、方向盤(steer)、剎車(brake)信號(hào)實(shí)現(xiàn)自動(dòng)駕駛車輛的控制(表1)。
表1 行為決策
(1)預(yù)處理,原始輸入圖像為RGB圖像,這樣不僅浪費(fèi)算力,還導(dǎo)致深度卷積網(wǎng)絡(luò)的計(jì)算時(shí)間較長(zhǎng),因此,將RGB圖像編碼成單通道的灰度圖像。
(2)深度卷積網(wǎng)絡(luò)結(jié)構(gòu)如表2。
表2 深度卷積網(wǎng)絡(luò)
經(jīng)過對(duì)比訓(xùn)練,設(shè)計(jì)復(fù)合獎(jiǎng)勵(lì)函數(shù)如下:
本文通過給確定性策略添加噪聲N來構(gòu)建行為策略,保證智能體可以高效的探索:
式中,選擇隨機(jī)噪聲。
Carla作為一款專業(yè)的自動(dòng)駕駛模擬環(huán)境,提供多元化的Python接口實(shí)現(xiàn)地圖切換、傳感器信號(hào)切換、汽車控制等[4-8]。
實(shí)驗(yàn)環(huán)境為ubuntu18.04操作系統(tǒng)、256G內(nèi)存、Tesla V100顯卡*(4)Carla 0.9.2、python 3.7。
訓(xùn)練7000個(gè)回合,每個(gè)回合500步。
(1)獎(jiǎng)勵(lì)
圖2 獎(jiǎng)勵(lì)
由圖可以看出,DDPG算法引導(dǎo)的自動(dòng)駕駛車輛經(jīng)過大約3000個(gè)回合后,獎(jiǎng)勵(lì)逐漸趨于穩(wěn)定。
(2)指定路線成功率
測(cè)試選擇20條不同的路線,每條路線測(cè)試5次,成功率如表3所示:
表3 成功率
本文采用深度強(qiáng)化學(xué)習(xí)的方法,通過設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略,實(shí)現(xiàn)車輛指定路線的自動(dòng)駕駛。同時(shí),通過測(cè)試回放發(fā)現(xiàn),車輛在包含環(huán)島路況的路線時(shí)效果欠佳,未來的工作,將針對(duì)此進(jìn)行算法優(yōu)化和改進(jìn)。
[1]王鑫鵬,陳志軍,吳超仲,熊盛光.考慮駕駛風(fēng)格的智能車自主駕駛決策方法[J].交通信息與安全,2020,38(02):37-46.
[2]張一弛. 自動(dòng)駕駛汽車縱向控制的強(qiáng)化學(xué)習(xí)算法研究[D].吉林大學(xué),2020.
[3]劉偲.基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛研究[J].自動(dòng)化應(yīng)用,2020(05):57-59.
[4]方川. 基于深度強(qiáng)化學(xué)習(xí)的無人駕駛車道保持決策的研究[D].南京大學(xué),2019.
[5]朱向陽. 基于深度強(qiáng)化學(xué)習(xí)的無人駕駛決策控制研究[D].湖南大學(xué),2019.
[6]Daniel Casini, Alessandro Biondi, Giorgio Buttazzo. Timing isolation and improved scheduling of deep neural networks for real‐time systems. 2020, 50(9):1760-1777.
[7]李志航.基于深度遞歸強(qiáng)化學(xué)習(xí)的無人自主駕駛策略研究[J].工業(yè)控制計(jì)算機(jī),2020,33(04):61-63.
[8]吳俊塔. 基于集成的多深度確定性策略梯度的無人駕駛策略研究[D].中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院),2019.