陳名松, 張澤功, 吳冉冉, 吳泳蓉
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
近年來,隨著經(jīng)濟(jì)發(fā)展和科技進(jìn)步,我國城市居民汽車保有量持續(xù)增長,據(jù)國家統(tǒng)計局發(fā)布的2018國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計公報顯示,2019年末全國民用私家車保有量達(dá)2.07億,比上年末增長9.37%。然而,汽車出行方便了日常生活的同時也帶來了一系列問題,據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)顯示,2018年我國汽車交通事故發(fā)生數(shù)達(dá)到24.5萬起,造成人員傷亡23.5萬人次,直接財產(chǎn)損失13億8 456萬元。另有研究表明,駕駛員失誤導(dǎo)致的交通事故占交通事故總量的90%,主要因素有駕駛員分心、注意力不集中和疲勞駕駛等[1]。所以對于自動駕駛的研究成為一個熱點方向,谷歌、百度、AMD等企業(yè)及國內(nèi)外研究人員均對此進(jìn)行了相關(guān)研究。
自動駕駛是指車輛通過感知周圍環(huán)境并在無人工干預(yù)情況下進(jìn)行自主駕駛的行為。首先車輛要感知周圍環(huán)境,識別駕駛環(huán)境中的行人、車輛、車道等信息。這一過程通常通過計算機視覺技術(shù)進(jìn)行處理,通過對圖像進(jìn)行獲取、處理、分析和理解等一系列步驟將現(xiàn)實世界中的高維度特征轉(zhuǎn)換成數(shù)字信息并輸入一個策略模型中,在動態(tài)的環(huán)境信息中,嘗試得到獎勵值最大的駕駛行為,實現(xiàn)最佳的決策。DQN算法[2]是深度強化學(xué)習(xí)算法的開山之作,它與自動駕駛技術(shù)的整合研究是一種非常流行且有效的方式。2015年,Mnih等利用卷積神經(jīng)網(wǎng)絡(luò)計算Q函數(shù),并利用該框架在Atari 2600游戲中成功達(dá)到超過職業(yè)玩家的水平。2016年,Bojarski團(tuán)隊使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端自動駕駛系統(tǒng)的研究,通過將攝像頭獲取的數(shù)據(jù)送入CNN進(jìn)行訓(xùn)練,從而實現(xiàn)對方向盤的控制。Sallab團(tuán)隊[3]利用DQN算法進(jìn)行了車道保持輔助系統(tǒng)的仿真研究,通過對比實驗分析了不同終止條件下訓(xùn)練得到的策略的區(qū)別。2017年,Chae等[4]利用DQN進(jìn)行自主剎車系統(tǒng)研究,在經(jīng)過7萬多次模擬試驗后,Agent可以學(xué)習(xí)到自主剎車的能力。夏偉等[5]提出了結(jié)合聚類算法和DQN算法的自動駕駛策略學(xué)習(xí)模型,也取得了一定效果。
雖然DQN在不同的模擬器上通過離散化方向盤和剎車等行為實現(xiàn)了對自動駕駛的模擬,但是DQN的本質(zhì)依然與傳統(tǒng)的強化學(xué)習(xí)一樣旨在解決離散和低維動作空間,它會產(chǎn)生大量的狀態(tài)-動作對,不適用于像油門、剎車和方向盤這樣的連續(xù)動作空間。即使通過離散化將DQN應(yīng)用于連續(xù)域也會引起維度災(zāi)難等問題,不利于后續(xù)計算。針對上述問題,深度確定性策略梯度算法[6](deep deterministic policy gradient,簡稱DDPG)應(yīng)運而生。DDPG算法是一種無模型、異策略的算法,它結(jié)合了DQN算法、A-C方法和DPG算法,在連續(xù)域控制問題上具有良好的表現(xiàn),引起了學(xué)者們的廣泛關(guān)注。張斌等[7]將DDPG算法與策略動作過濾相結(jié)合,通過將策略網(wǎng)絡(luò)的多輸出改為單輸出來控制油門和剎車,降低了自動駕駛中的非法策略比。吳俊塔等[8]通過基于DDPG算法的多個子策略平均集成的方式進(jìn)行自動駕駛行為的控制。
強化學(xué)習(xí)是機器學(xué)習(xí)的一個分支,智能體Agent通過與環(huán)境的不斷交互學(xué)習(xí),提高Agent對于未知環(huán)境的探索和適應(yīng)能力,從環(huán)境探索中得到最大回報,從而學(xué)習(xí)到完整策略[7]。強化學(xué)習(xí)就是給一個馬爾科夫決策過程(MDP)尋找最優(yōu)策略π,使得該策略下的累計回報期望最大。
所謂策略指狀態(tài)到動作的映射,即:
πθ(a|s)=p[At=a|St=s,θ],
(1)
表示在狀態(tài)s下指定一個動作a的概率。若策略是確定的,則給定一個確切動作。整個MDP過程可以用五元組(S,A,P,R,γ)表示,其中S為有限狀態(tài)集合,A為有限動作集合,P為狀態(tài)轉(zhuǎn)移概率,R為回報函數(shù),γ∈[0,1]為折扣因子。當(dāng)Agent與環(huán)境進(jìn)行交互,在狀態(tài)st處的累計回報為
(2)
為了評價狀態(tài)s的價值和求解最優(yōu)策略,引入狀態(tài)值函數(shù)υπ(s)和狀態(tài)-行為值函數(shù)qπ(s,a),實際應(yīng)用中采用其貝爾曼方程:
υπ(s)=Eπ(Rt+1+γυπSt+1|St=s),
(3)
Qπ(s,a)=Eπ[Rt+1+γQ(St+1,At+1)|St=s,At=a]。
(4)
求解上述值函數(shù)有2種方法:基于表的方法和基于值函數(shù)逼近的方法[9]。基于表的方法包括傳統(tǒng)Q-learning和Sarsa算法,該類算法因為無法構(gòu)建足夠大的Q值表,所以其應(yīng)用局限于狀態(tài)-動作空間很小的情況。為了解決上述問題,DeepMind公司利用神經(jīng)網(wǎng)絡(luò)來逼近狀態(tài)值函數(shù),提出了結(jié)合深度學(xué)習(xí)和強化學(xué)習(xí)的DQN[10]算法,從而完整地表示了狀態(tài)-動作空間。
1.2.1 DPG算法
DPG算法[11]即確定性行為策略,根據(jù)式(1)定義了一個策略網(wǎng)絡(luò)。策略網(wǎng)絡(luò)的輸入是環(huán)境信息S,包括車輛距離車道的距離、車輛速度等,輸出為車輛要進(jìn)行的下一步動作a,包括轉(zhuǎn)向、剎車、油門等控制信息,每步的行為通過策略函數(shù)直接獲得確定值,該策略網(wǎng)絡(luò)的目標(biāo)函數(shù)定義為
Ex~p(x|θ)[R]。
(5)
其中策略網(wǎng)絡(luò)的目標(biāo)函數(shù)梯度是狀態(tài)-行為值函數(shù)梯度的期望,如式(6)所示,這樣可以在不考慮動作空間維度的情況下更好地估計策略網(wǎng)絡(luò)目標(biāo)函數(shù)的梯度,提高了計算效率。
(6)
1.2.2 DQN算法
DQN算法是第一個深度強化學(xué)習(xí)算法,其利用神經(jīng)網(wǎng)絡(luò)對狀態(tài)-行為值函數(shù)進(jìn)行擬合,狀態(tài)-行為值函數(shù)可表示為
Qπ(S,a)≈Q(s,a,w),
(7)
其中ω為神經(jīng)網(wǎng)絡(luò)的的權(quán)重,結(jié)合式(6),可得DDPG算法:
(8)
1.2.3 DDPG算法流程
DDPG算法將上述2種算法進(jìn)行了融合,如圖1所示,該算法由Actor(策略)模塊、Critic(評價)模塊和經(jīng)驗池組成。其中Actor和Critic模塊分別利用神經(jīng)網(wǎng)絡(luò)對策略函數(shù)和Q函數(shù)進(jìn)行擬合。同時,由于Actor網(wǎng)絡(luò)與環(huán)境交互所產(chǎn)生的時間序列是高度相關(guān)的,直接利用這些數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練會導(dǎo)致網(wǎng)絡(luò)過擬合,不易收斂。因此,借鑒DQN算法,引入了經(jīng)驗回放機制(experience replay),通過在經(jīng)驗池中進(jìn)行隨機批量取樣對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,解決了上述問題。
圖1 基于DDPG算法的車輛決策流程
Actor-Critic方法將策略梯度算法和值函數(shù)結(jié)合在一起。Actor網(wǎng)絡(luò)產(chǎn)生當(dāng)前策略,輸出動作;Critic網(wǎng)絡(luò)對該動作進(jìn)行評判。然后,基于此評判,Actor網(wǎng)絡(luò)調(diào)整其網(wǎng)絡(luò)權(quán)重,使得輸出的動作在下一次變得更好。為提高算法訓(xùn)練的穩(wěn)定性,DDPG中引入了Target-Actor網(wǎng)絡(luò)和Target-Critic網(wǎng)絡(luò),初始結(jié)構(gòu)和參數(shù)均與其對應(yīng)的Actor和Critic網(wǎng)絡(luò)一致,后續(xù)則根據(jù)式(9)即圖中的Soft Update進(jìn)行參數(shù)更新,其中θQ、θQ′、θπ、θπ′分別為Target-Critic網(wǎng)絡(luò)、Critic網(wǎng)絡(luò)、Target-Actor網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)的參數(shù)。
(9)
為提高算法的訓(xùn)練效率和網(wǎng)絡(luò)的穩(wěn)定性,針對傳統(tǒng)DDPG算法提出以下幾點改進(jìn),主要包括將引導(dǎo)學(xué)習(xí)和優(yōu)選經(jīng)驗回放結(jié)合,以下稱之為LS-DDPG。
一般而言,新手在完成一項任務(wù)時,需要具有經(jīng)驗的師傅對其進(jìn)行指導(dǎo),這樣完成任務(wù)的效率和準(zhǔn)確率會比獨自探索高很多。受此啟發(fā),在利用傳統(tǒng)DDPG算法對TORCS中的車輛進(jìn)行自動控制時,引入一個專業(yè)的控制器,將其作為“老師”來引導(dǎo),進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練。傳統(tǒng)DDPG算法對于Critic網(wǎng)絡(luò)的訓(xùn)練是通過隨機抽取經(jīng)驗緩存池中的經(jīng)驗樣本數(shù)據(jù)并送入Critic網(wǎng)絡(luò)中進(jìn)行批訓(xùn)練,經(jīng)驗數(shù)據(jù)根據(jù)回報函數(shù)得到評估值Q。對于Actor網(wǎng)絡(luò)的訓(xùn)練過程則是利用環(huán)境信息S對動作a的梯度來進(jìn)行訓(xùn)練。
引導(dǎo)式學(xué)習(xí)的DDPG算法對于網(wǎng)絡(luò)的訓(xùn)練包括預(yù)訓(xùn)練和正常訓(xùn)練2個階段。預(yù)訓(xùn)練階段不涉及強化學(xué)習(xí)的內(nèi)容,僅利用專業(yè)控制器來進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到一個預(yù)訓(xùn)練模型。在后期強化學(xué)習(xí)的正式訓(xùn)練中,先加載此預(yù)訓(xùn)練模型進(jìn)行Agent與環(huán)境的交互,通過采取特定策略,使得訓(xùn)練前期預(yù)訓(xùn)練模型在動作的輸出方面占主導(dǎo),然后逐漸減少預(yù)訓(xùn)練模型的主導(dǎo)作用,Actor網(wǎng)絡(luò)逐漸占據(jù)主導(dǎo)。這樣允許Actor網(wǎng)絡(luò)在學(xué)習(xí)引導(dǎo)行為的同時可以探索更多引導(dǎo)行為之外的動作。
傳統(tǒng)DDPG算法利用經(jīng)驗回放機制將Agent與環(huán)境交互得到的經(jīng)驗樣本存儲到經(jīng)驗緩存池中,然后通過隨機抽取BATCH_SIZE數(shù)據(jù)進(jìn)行Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。這種處理方式消除了經(jīng)驗樣本之間的相關(guān)性,提高了網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。但由于經(jīng)驗樣本的選取是隨機的,選取的經(jīng)驗樣本質(zhì)量參差不齊,網(wǎng)絡(luò)訓(xùn)練速度和效率較低。為解決此問題,Schaul等[12]提出了優(yōu)先經(jīng)驗緩存機制(prioritized experience replay),通過計算TD-error得到經(jīng)驗樣本的重要程度,將重要程度較大的數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。這種算法對于加速神經(jīng)網(wǎng)絡(luò)的收斂有一定作用,但是算法復(fù)雜度較高。本著不提升算法復(fù)雜度同時提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率的原則,利用經(jīng)驗池分離原則,采用優(yōu)選經(jīng)驗樣本回放的方式對DDPG算法進(jìn)行改進(jìn)。
1)經(jīng)驗樣本分離存儲。優(yōu)選經(jīng)驗樣本回放需要通過設(shè)置閾值區(qū)分樣本的優(yōu)劣,然后分別存入不同的經(jīng)驗池。劣勢樣本包括脫離軌道的經(jīng)驗樣本、發(fā)生碰撞的經(jīng)驗樣本以及rt為負(fù)值的經(jīng)驗樣本等。同時,根據(jù)對應(yīng)測試的賽道寬度d和車身寬度l設(shè)置經(jīng)驗存放閾值dth=(d-l)/d。車輛行駛在賽道閾值以外所得到的經(jīng)驗被認(rèn)定為劣勢樣本,反之則為優(yōu)勢樣本。
2)調(diào)整經(jīng)驗樣本抽取比例。按一定比例α從不同的經(jīng)驗池抽取經(jīng)驗樣本,在1個批處理樣本中2類樣本必須同時存在,以防止神經(jīng)網(wǎng)絡(luò)達(dá)到局部最優(yōu)。同時優(yōu)勢樣本與劣勢樣本的抽取比例α隨著當(dāng)前訓(xùn)練步數(shù)的增加而逐漸降低,防止Agent學(xué)習(xí)到的策略網(wǎng)絡(luò)過擬合。
3)降低策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的更新頻率。DDPG算法涉及到了2個神經(jīng)網(wǎng)絡(luò),且每次都在連續(xù)狀態(tài)中更新參數(shù),每次參數(shù)更新前后都存在相關(guān)性。若評價網(wǎng)絡(luò)某次評價產(chǎn)生過估計的情況,則在利用差分誤差進(jìn)行頻繁的網(wǎng)絡(luò)參數(shù)更新時會導(dǎo)致誤差累積放大,策略更新向著發(fā)散的方向進(jìn)行,不利于算法收斂。因此,應(yīng)該控制策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的更新頻率低于評價網(wǎng)絡(luò),即在進(jìn)行策略網(wǎng)絡(luò)更新前,最小化估計誤差。
主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的參數(shù)初始化方式均為隨機初始化,OU噪聲的添加會隨著訓(xùn)練步數(shù)的增加而改變,是一個線性改變的過程,這樣可以控制預(yù)訓(xùn)練權(quán)重和策略網(wǎng)絡(luò)的主導(dǎo)比重。LS-DDPG算法偽代碼如下。
1:初始化Actor網(wǎng)絡(luò)π(s,θπ)和Critic網(wǎng)絡(luò)Q(st,at,θQ), 經(jīng)驗池大小N, BATCH_SIZE大小M;
2:初始化Target-Actor網(wǎng)絡(luò)π′(s,θπ′)和Target-Critic網(wǎng)絡(luò)Q′(st,at,θQ′);
3:創(chuàng)建經(jīng)驗緩存池Bs和Bf, 并設(shè)置經(jīng)驗緩存閾值dth, 加載預(yù)訓(xùn)練權(quán)重;
4:Episode循環(huán)開始:
5:選擇始化狀態(tài)st, 初始化OU噪聲;
6:Step循環(huán)開始:
7:將OU噪聲添加到動作策略中, Actor網(wǎng)絡(luò)根據(jù)當(dāng)前策略做出動作at;
8:將at送入TORCS環(huán)境中, 轉(zhuǎn)化成車輛控制動作執(zhí)行, 得到當(dāng)前動作的回報值rt和新的環(huán)境值st+1;
9:根據(jù)rt是否大于0與當(dāng)前環(huán)境信息中的車輛位置是否大于dth決定(st,at,rt,st+1,done)存入對應(yīng)的經(jīng)驗池;
10:根據(jù)樣本采樣比例α, 在Bs和Bf分別采樣數(shù)據(jù), 采樣數(shù)據(jù)總量為M;
11:通過Target-Critic網(wǎng)絡(luò)計算當(dāng)前動作的期望回報;
13:當(dāng)Step到達(dá)設(shè)置的Actor網(wǎng)絡(luò)的更新頻率時:
15:利用式(9)更新Target網(wǎng)絡(luò);
16:結(jié)束Step循環(huán);
17:結(jié)束Episode循環(huán)。
實驗運行環(huán)境為Ubuntu 16.04,Python 3.6,Keras 2.1.6,Tensorflow 1.13.2,CUDA 10.0.130,CUDNN 7.5.0,gym,TORCS仿真平臺,地圖為A-Speedway地圖。CPU為Intel i7 7800X,GPU為GTX 2080TI,運行內(nèi)存32 GiB。
實驗中對于DDPG算法、LS-DDPG算法設(shè)計均采用2層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏單元數(shù)分別為600、300,而后actor網(wǎng)絡(luò)緊接著的3個全連接層的輸出分別對應(yīng)智能體的轉(zhuǎn)向、油門和剎車3個控制變量。轉(zhuǎn)向的取值范圍為[-1,1],分別代表向左到底和向右到底;油門和剎車的取值范圍為[0,1],分別代表不踩踏板和將踏板踩到底。算法中將以下函數(shù)作為獎勵函數(shù):
r=(1-tracPos)(Vxcosθ-Vx|sinθ|-
(10)
網(wǎng)絡(luò)訓(xùn)練均以當(dāng)前賽道的10圈作為目標(biāo),而后分析算法的總回報、平均回報、收斂速度及模型表現(xiàn)與訓(xùn)練步數(shù)的關(guān)系。
實驗進(jìn)行了對于傳統(tǒng)DDPG算法的實現(xiàn),并在A-Speedway地圖上進(jìn)行了訓(xùn)練,訓(xùn)練中設(shè)置了4個約束條件,以便讓小車能夠正確地行駛,盡量行駛在道路中央。這4個約束條件為:1)在車輛與周邊環(huán)境中的障礙物發(fā)生碰撞時,即時回報值為-50;2)在車輛行駛出當(dāng)前車道時,即時回報值為-100,且有20%的概率結(jié)束此次行駛,重啟TORCS客戶端;3)當(dāng)車輛行駛100步依然沒有進(jìn)展或者車輛行駛速度低于5 km/h時,結(jié)束當(dāng)前回合;4)當(dāng)車輛運行中車身角度處于[-90,90]以外時,結(jié)束當(dāng)前回合。
在DDPG算法運行過程中發(fā)現(xiàn),當(dāng)車輛學(xué)習(xí)到的速度過高(超過200 km/h),在進(jìn)行轉(zhuǎn)彎時會脫離軌道,對于剎車的學(xué)習(xí)不理想。長期學(xué)習(xí)不到會導(dǎo)致車輛一直陷于學(xué)習(xí)如何順利度過當(dāng)前彎道的情況,導(dǎo)致算法收斂時間變長,效率降低。因此,在進(jìn)行LS-DDPG算法訓(xùn)練時,為了讓車輛學(xué)習(xí)到更準(zhǔn)確的駕駛技能,提高駕駛準(zhǔn)確性和算法效率,更改了第2個限制條件來進(jìn)行彎道行駛的限制,即當(dāng)前車輛車身靠近車道線邊緣達(dá)到閾值但未駛出車道時,返回即時回報值為-100;若車駛出了車道,則返回即時回報值為-200,并結(jié)束當(dāng)前回合。同時,為消除車輛行駛速度過高這種不符合實際情況的狀況,在車輛學(xué)習(xí)的后期,對于油門進(jìn)行一定控制,主動剎車降低車速。
圖2和圖3分別為LS-DDPG和DDPG算法訓(xùn)練車輛在賽道上跑10圈的狀況下,訓(xùn)練輪數(shù)和車輛每輪的行駛距離。DDPG算法下訓(xùn)練567輪行駛了78 102步,LS-DDPG算法訓(xùn)練了192輪行駛了61 942步。LS-DDPG相比DDPG算法,訓(xùn)練輪數(shù)上減少了375輪,效率提升了66.14%;訓(xùn)練步數(shù)降低了16 160步,效率提升了20.07%;LS-DDPG平均每輪行駛322步,DDPG算法平均每輪行駛138步,平均每輪行駛步數(shù)增加184步,有效行駛距離提升133%。LS-DDPG算法下車輛所學(xué)習(xí)到的策略從剛開始訓(xùn)練就比DDPG算法具有更長的有效行駛距離,會減少很多無效操作,提高了車輛探索的效率。后期在完成1圈的情況下,LS-DDPG算法會行駛比DDPG算法更多的步數(shù)。這是由于LS-DDPG算法在訓(xùn)練時有意地控制了其在訓(xùn)練后期的車輛速度,所以在后期LS-DDPG算法訓(xùn)練的車輛行駛速度沒有DDPG算法高,導(dǎo)致同樣的行駛距離下行駛步數(shù)會相對較高。
圖2 LS-DDPG算法中每個回合的訓(xùn)練步數(shù)
圖3 DDPG算法中每個回合的行駛步數(shù)
圖4和圖5分別為LS-DDPG和DDPG算法在訓(xùn)練中對應(yīng)的訓(xùn)練輪數(shù)和總回報的關(guān)系。LS-DDPG算法下的總回報在小范圍內(nèi)變動較大,在150輪后基本呈平穩(wěn)上升狀態(tài)。DDPG算法在400輪后呈平穩(wěn)上升狀態(tài)。圖6和圖7分別為LS-DDPG和DDPG算法在訓(xùn)練中對應(yīng)的訓(xùn)練輪數(shù)和平均回報的關(guān)系。LS-DDPG算法在前期由于添加了更加嚴(yán)格的懲罰項,導(dǎo)致平均回報較小,但在120輪后會有良好的提升,后期整體處于平穩(wěn)。DDPG算法在65輪后平均回報穩(wěn)步上升,在訓(xùn)練后期平均回報高于LS-DDPG算法。由于上述提到速度控制的原因,導(dǎo)致LS-DDPG算法訓(xùn)練的車輛后期速度沒有DDPG算法訓(xùn)練的高,回報值相比DDPG算法小。但是在行駛表現(xiàn)中,LS-DDPG算法訓(xùn)練出來的車輛在轉(zhuǎn)彎時會更多地減速慢行,更符合人類的實際操控。
圖4 LS-DDPG算法中隨回合數(shù)變化的總回報值
圖5 DDPG算法中隨回合數(shù)變化的總回報值
圖6 LS-DDPG算法中每個回合的平均回報值
圖7 DDPG算法中每個回合的平均回報值
分析了DDPG算法下的自動駕駛決策策略,并對傳統(tǒng)DDPG算法進(jìn)行了改進(jìn)。在TORCS平臺上驗證了改進(jìn)算法在訓(xùn)練效率和有效行駛距離上的提升。但該實驗僅在單車輛且環(huán)境相對簡單的情況下進(jìn)行,缺少在復(fù)雜環(huán)境下的解決能力,且DDPG算法在高速行駛下也無法高效地學(xué)會剎車。如何根據(jù)現(xiàn)實情況進(jìn)行更加規(guī)范的駕駛行為是下一步要研究的內(nèi)容。