王鑫鵬 陳志軍 吳超仲▲ 熊盛光
(1.武漢理工大學國家水運安全工程技術研究中心 武漢430063;2.武漢理工大學智能交通系統(tǒng)研究中心 武漢430063;3.武漢理工大學水路公路交通安全控制與裝備教育部工程研究中心 武漢430063)
道路交通安全是全球交通領域關注的熱點問題。據(jù)統(tǒng)計,我國2018 年發(fā)生機動車交通事故166 906 起,造成169 046 人受傷,46 161 人死亡,直接財產(chǎn)損失118 671.6萬元[1]。事故原因分析指出,人為因素導致的道路交通事故占比高達90%。為消除駕駛人帶來的安全隱患,業(yè)界開始研發(fā)智能車技術,以自主駕駛系統(tǒng)替代駕駛人。近年來,隨著科學技術的進步,特別是信息技術和AI 技術的飛速發(fā)展,智能車技術得到極大提升,智能汽車時代逐漸到來[2]。
然而,實現(xiàn)全自動駕駛還需要一定的過度時期。此前,智能汽車的駕駛系統(tǒng)通常是基于安全準則設計的,沒有考慮駕乘者的駕駛習慣。在德國有調(diào)查顯示,約1/4的駕駛人不愿接受自動駕駛服務,因其固定的駕駛模式讓受訪者在思想上感到束縛和不安[3]。單一的駕駛風格無法滿足所有駕乘者的個性化需求,這將影響智能汽車駕駛技術的發(fā)展和應用。因此,開展類人駕駛研究,提升智能汽車的乘坐舒適性是必要的。
國內(nèi)外學者、機構和企業(yè)對智能車技術開展了大量研究,通過多種方法實現(xiàn)了一定程度的自動駕駛。一些高校選擇與企業(yè)合作,使用基于規(guī)則和控制的方法研發(fā)智能車駕駛決策系統(tǒng),取得了一定成果。Leonard等[4]基于串聯(lián)式駕駛規(guī)則庫設計了駕駛決策系統(tǒng),通過視覺與多種測距傳感器獲取駕駛環(huán)境信息,序貫的做出駕駛決策,控制車輛行駛,以6 h的成績完成了50 km 的城市道路環(huán)境測試。Montemerlo 等[5]設計了Junior 智能車,基于13 個相互獨立的并聯(lián)式駕駛規(guī)則庫設計駕駛決策系統(tǒng),以測距儀和激光雷達為感知手段,動態(tài)制定駕駛決策,盡管通過了城市道路環(huán)境測試,但暴露出場景覆蓋度不足的缺點。
隨著機器學習技術的發(fā)展,其非線性映射學習能力得到極大提升,一些研究人員將相關技術應用在駕駛決策研究中。Codevilla 等[6]以深度學習技術設計了駕駛決策系統(tǒng),使用車輛控制數(shù)據(jù)訓練神經(jīng)網(wǎng)絡,以視覺圖像為輸入,由神經(jīng)網(wǎng)絡輸出橫向控制指令和加減速控制指令,實現(xiàn)端到端的駕駛決策學習。Tan 等[7]使用強化學習算法A3C 設計了駕駛決策系統(tǒng),以連續(xù)4幀的語義分割圖像作為輸入,直接輸出駕駛動作。在TORCS(the open racing car simulator)平臺訓練后,使用Cityscapes 公共數(shù)據(jù)集測試,達到了36.6%的識別準確度。
在駕駛決策個性化方面,Ramyar 等[8]結合輔助駕駛系統(tǒng),考慮駕駛人的個性化駕駛行為,分別針對高速公路環(huán)境和換輔助場景,設計了控制系統(tǒng),提升舒適性并保障行車安全。Chen等[9]基于稀疏表示方法提出了駕駛行為的分類識別模型。該模型以視覺采集的車輛運動軌跡為輸入,使用稀疏表示方法挖掘駕駛行為決策特性。楚文慧等[10]針對疲勞駕駛狀態(tài)識別,考慮不同駕駛人的個性化行為,使用徑向基神經(jīng)網(wǎng)絡識別車道保持場景下的車速和車道偏離量,輸出轉向盤轉角,獲得了85%的識別率。
綜上,全局環(huán)境未知的自動駕駛研究,通常關注駕駛策略安全性和場景覆蓋度,少有研究考慮駕駛風格的差異;個性化駕駛研究多基于輔助駕駛系統(tǒng)設計,或對駕駛風格進行劃分和識別,無法實現(xiàn)自主駕駛。面對個性化自主駕駛,基于規(guī)則與基于深度神經(jīng)網(wǎng)絡的方法都存在較大缺陷:基于規(guī)則的方法,需要對研究對象建模,以線性表示的方法對駕駛規(guī)則進行抽象,這一過程忽略了較多信息,建模的精度對駕駛決策影響較大;基于深度神經(jīng)網(wǎng)絡的方法,需要海量的訓練數(shù)據(jù)保證學習效果,獲取個性化駕駛數(shù)據(jù)限定了數(shù)據(jù)來源,樣本的人工標定更需要投入大量的資源。而基于深度強化學習算法設計決策系統(tǒng),該方法具備強大的非線性擬合能力,可以確保學習個性化駕駛決策過程的完整性,同時具備一定的可解釋性,用于調(diào)節(jié)駕駛決策個性化程度。
為此,筆者提出一種考慮駕駛風格的個性化駕駛決策學習方法:設計模擬駕駛實驗,采集并分析駕駛人駕駛數(shù)據(jù),選取個性化駕駛決策評價指標,并對駕駛風格進行分類;基于仿真平臺設計駕駛決策學習系統(tǒng),以傳感器感知結果作為輸入,駕駛操作參數(shù)為輸出;以學習不同駕駛風格為目標,對輸出的駕駛動作進行線性變換,形成個性化駕駛決策學習算法;采用在線交互的方式訓練并測試改進的算法。
為選取個性化評價指標,需要設計駕駛實驗,采集駕駛數(shù)據(jù)并進行有效分析。由于深度強化學習算法的訓練是基于環(huán)境的,駕駛決策學習系統(tǒng)包含決策算法和駕駛環(huán)境。因此,模擬駕駛實驗使用與駕駛決策學習系統(tǒng)相同的TORCS環(huán)境平臺。
強化學習采用在線訓練的方式:算法按照一定策略生成駕駛決策,車輛執(zhí)行決策在環(huán)境中行駛,交互結果形成駕駛經(jīng)驗,經(jīng)獎勵函數(shù)評價后形成訓練樣本。其樣本生成過程和標定過程是自動完成的,算法需要搭載到具備感知能力的智能車上。本文選用TORCS 作為算法訓練的環(huán)境平臺[11]。為保證車輛動力學模型和環(huán)境模型相同,駕駛實驗也在TORCS中完成。
使用仿真駕駛平臺采集駕駛數(shù)據(jù),確保了研究人員和參與者的安全,不需要真實的車輛與駕駛環(huán)境,降低了研究成本。TORCS平臺內(nèi)部完成了場景及車輛的動力學建模工作,控制指令也被集成,使用者可專注于決策算法的開發(fā)。
參加實驗的駕駛人共計20名,考慮到研究目的并非探究各年齡段駕駛人的駕駛風格,而是使駕駛決策算法達到與駕駛人相似的駕駛表現(xiàn),被試年齡段對研究無顯著影響,且年齡較輕的駕駛人對模擬駕駛平臺接受度更高,因此選取年齡較輕的熟練駕駛人作為研究對象(年齡均值=26.5 年,標準差=4.2年;駕齡均值=4.4年,標準差=1.2年)。
實驗場景選用4 個平臺內(nèi)置的地圖,道路外觀見圖1,道路信息見表1。
圖1 人工駕駛實驗場景Fig.1 Manual driving traffic scene
表1 駕駛環(huán)境道路數(shù)據(jù)Tab.1 Driving environment road data
平臺搭載于PC端,第一視角的駕駛場景由顯示屏反饋給駕駛人。駕駛模擬器使用羅技G29,通過USB接口連接至PC端。仿真車輛搭載多種虛擬傳感器,可輸出多種車輛運動信息和決策控制信息,平臺與駕駛模擬控制器通過UDP 的方式傳輸數(shù)據(jù)。駕駛實驗中直接輸出及通過變換得到的指標見表2。
表2 人工駕駛數(shù)據(jù)采集參數(shù)Tab.2 Manual driving data acquisition parameters
其中,車道邊緣距離指標是由車身上19個距離傳感器讀數(shù)合成的復合參數(shù),不具有可解釋性。實驗中每位被試需在每個地圖中完成5 次駕駛任務,共采集400組駕駛數(shù)據(jù)。
為評價個性化駕駛決策學習算法的個性化程度,需要選取相應的評價指標。在駕駛決策個性化評價指標方面,此前并未形成統(tǒng)一的結論,不同研究選取的指標存在較大差異?,F(xiàn)有指標可能存在信息重復的情況,使用全部指標來進行評價是不必要的。由于模擬駕駛實驗采集的數(shù)據(jù)不作為算法輸入,評價時需要較強的可解釋性,因此使用特征選擇的方法對現(xiàn)有參數(shù)指標進行降維。
使用Spearman相關性檢驗方法,對采集到的數(shù)據(jù)指標進行降維[12]。通過判斷不同指標間的相關性,選擇出信息重復較少的參數(shù)作為評價指標。在所有指標中,不同被試的車道偏移百分比與車道線夾角雖然存在差異,但不應作為個性化自主駕駛算法的學習目標,因此不作為評價指標。制動踏板開度指標在全部400 組數(shù)據(jù)中只被激活過16 次,同樣不做考慮。
將剩余指標分為3 組,速度表征組包含橫向速度、縱向速度和車速;橫向控制表征組包含橫向加速度、轉向盤轉角和轉向盤角速度;縱向控制表征組包含車速、縱向加速度和油門踏板開度。組內(nèi)使用隨機選取的3位被試數(shù)據(jù)做正交式的相關性檢驗。由于檢測結果相似,每組選擇1 位被試的指標檢測結果展示,見表3。
速度組的指標全部兩兩相關。在日常行車中,駕駛人無需考慮車輛在各個軸上的速度分量,僅僅關注行駛速度。研究使用的深度強化學習方法屬于端到端的學習方法,通過獎懲的方式學習環(huán)境感知到駕駛決策的直接映射(油門踏板開度、制動踏板開度、轉向盤轉角),同樣無需考慮速度分量。因此,選擇車速作為評價指標,被試數(shù)據(jù)的瞬時車速均值與標準差參數(shù)見圖2。
表3 部分相關性檢驗結果Tab.3 Results of partial correlation tests
橫向控制組中,橫向加速度、轉向盤轉速均與轉向盤轉角相關,彼此不相關。對于該組參數(shù),轉向盤轉角即包含了橫向加速度和轉向盤轉速的一定信息,且轉向盤轉角是算法的輸出參數(shù)之一,因此選擇轉向盤轉角作為評價指標。轉向盤轉角指標對稱分布,僅做標準差計算,不另展示。
縱向控制組的指標全部兩兩相關。由于制動踏板激活頻率過低,不予考慮,縱向加速度僅與車輛動力學模型、運動學模型和油門踏板開度相關,考慮到算法直接輸出加速踏板開度參數(shù),因此選擇該參數(shù)作為評價指標,油門踏板開度均值與標準差參數(shù)見圖3。盡管速度與加速操作是相關的,但二者并不呈線性關系,代表的含義有所區(qū)別[13]。
得到車速、轉向盤轉角和加速踏板開度作為個性化駕駛決策的評價指標,驗證算法的駕駛決策個性化程度。
聚類分析提供了一個劃分駕駛風格的分類方法,已被應用于個性化駕駛行為研究[14]。在1.2 節(jié),得到駕駛決策個性化評價指標:車速v、轉向盤轉角θ 和油門踏板開度p。使用K-means 聚類方法[15]對評價指標的標準差聚類,具體為
圖2 被試車速指標的均值和標準差Fig.2 Mean and standard deviation of speed indicators for drivers
圖3 被試油門踏板開度指標的均值和標準差Fig.3 Mean and standard deviation of accelerator pedal opening indicators for drivers
一般研究中對駕駛風格的分類為保守型、中間型、激進型3 類[16],因此本研究將被試分為3 種駕駛風格,聚類結果見圖4,每種駕駛風格的聚類中心評價指標標準差見表4。
圖4 被試駕駛風格聚類結果Fig.4 Cluster results of driving style
表4 不同駕駛風格聚類中心評價指標標準差Tab.4 Standard deviation of evaluation indexes for clustering centers of different driving styles
通過聚類分析,將20位被試的駕駛風格分為保守型、中間型和激進型,并得到每種風格聚類中心的評價指標標準差。為驗證本文提出方法的駕駛決策個性化效果,以3 種駕駛風格的聚類中心為學習目標,設計個性化駕駛決策學習方法?;趯W習目標的評價指標表現(xiàn),調(diào)節(jié)算法的駕駛效果。
深度強化學習(deep reinforcement learning,DRL)融合了強化學習(reinforcement learning,RL)和深度學習(deep learning,DL),具備強化學習的決策學習能力,和深度學習的數(shù)據(jù)擬合能力[17]。Q-learning是一個經(jīng)典的基于動作價值的算法[18],通過構造一個二維表格表示其策略假設,其中每一個“狀態(tài)-動作”均對應一個表項。Agent 觀測其當前的狀態(tài)st,按照當前策略選擇某個動作at執(zhí)行,然后觀測回報值r 并接收下一狀態(tài)st+1。Agent不斷重復此過程并以式(2)更新
Mnih 等[19]結合深度學習中的卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNNs)和傳統(tǒng)強化學習中求解最優(yōu)動作值函數(shù)的Q-learning算法,提出了一種深度Q 網(wǎng)絡模型(deep Q-Network,DQN)近似表示動作值函數(shù)。該方法在Atari 2 600 游戲平臺上的表現(xiàn)已經(jīng)趕上甚至超過了人類玩家的水平。隨后,Lillicrap等[20]提出了深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法。此前已有研究證明,DDPG 算法能夠有效處理駕駛決策任務[21],但尚未有研究將該方法用于個性化駕駛決策學習。
駕駛策略的本質(zhì)是學習從環(huán)境感知到駕駛動作的映射。使用深度強化學習方法學習駕駛策略,其優(yōu)勢是具備非線性映射的學習能力,無需對駕駛過程進行規(guī)則抽象,也無需對駕駛人建立數(shù)學模型,避免過度簡化研究對象而引入累積的偏差;其劣勢是學習過程是“黑盒”式的,可解釋性差的特點導致該方法在個性化研究中并無優(yōu)勢。
此前的個性化駕駛決策研究多使用基于控制的方法,在駕駛輔助系統(tǒng)中實現(xiàn)限定場景的個性化輔助駕駛。其建立的線性模型盡管對研究對象有所簡化,但具備了個性化駕駛策略的擬合能力。在深度強化學習算法中加入線性變換,可使算法具備擬合多種策略的能力。
被試數(shù)據(jù)分析結果顯示,在相同的駕駛環(huán)境中,不同駕駛人個性化駕駛決策評價指標的均值與標準差存在差異。受此現(xiàn)象啟發(fā),使用深度強化學習的決策學習能力,學習駕駛環(huán)境到駕駛動作的非線性映射,對算法選擇的原始動作加入線性變換,擬合學習目標的駕駛表現(xiàn)。
原始算法接收環(huán)境觀測值后,根據(jù)當前神經(jīng)網(wǎng)絡存儲參數(shù)對應的策略,選擇駕駛動作并執(zhí)行。為擬合不同風格的駕駛策略,對算法選擇的原始駕駛動作做線性變換,形成優(yōu)化算法linear transformation-DDPG,具體過程為
式中:由算法選取的原始動作為at;經(jīng)線性變換后的目標動作為bt;參數(shù)k 調(diào)節(jié)駕駛動作分布的離散度;參數(shù)c 調(diào)節(jié)駕駛動作分布的均值。
算法將當前的駕駛策略以網(wǎng)絡參數(shù)形式存儲:Critic 網(wǎng)絡(網(wǎng)絡參數(shù)θQ)來近似擬合值函數(shù)它估計在環(huán)境狀態(tài)st中選擇駕駛動作at時預期累積折扣獎勵的值Q( s,a );Actor網(wǎng)絡(網(wǎng)絡參數(shù)θμ)近似策略函數(shù)在輸入確定的情況下,估計最佳駕駛策略,選擇最佳駕駛動作。Agent與環(huán)境交互后,將狀態(tài)、動作、獎勵值和下一狀態(tài)以( st,at,rt,st+1) 形式,存入經(jīng)驗池。經(jīng)驗達到一定數(shù)量后,隨機采樣生成樣本供算法進行訓練。由于環(huán)境執(zhí)行目標動作bt替代原始動作,因此算法收斂后的策略即為“環(huán)境觀測-目標動作”的映射,該策略是個性化的。
個性化駕駛決策學習算法如下。
其中:τ 為目標網(wǎng)絡的更新系數(shù),目標網(wǎng)絡的更新速度較慢,穩(wěn)定性高,易于收斂。深度網(wǎng)絡隱藏層使用原算法的結構,輸入層神經(jīng)元數(shù)量為6,輸出層神經(jīng)元數(shù)量為3。
在1.3節(jié)將被試駕駛風格劃分為3類,使用聚類中心作為學習目標。為驗證提出方法的有效性,調(diào)節(jié)線性變換過程的參數(shù),形成3個參數(shù)組合,分別學習不同風格的駕駛策略。學習保守型駕駛風格的算法稱為linear transformation 1(LT1),學習中間型駕駛風格的算法稱為linear transformation 2(LT2),學習激進型駕駛風格的算法稱為linear transformation 3(LT3)。線性變換參數(shù)取值見表5。
表5 不同駕駛風格參數(shù)取值情況Tab.5 Values of different driving style parameters
基于深度強化學習的自主駕駛決策學習系統(tǒng),包含個性化駕駛決策學習算法和TORCS環(huán)境。算法完成決策制定與參數(shù)訓練任務,TORCS平臺提供車輛控制與駕駛場景,系統(tǒng)結構見圖5。
駕駛場景見圖6,中間部分為行駛道路,兩側有緩沖區(qū),最外側為護欄。
圖5 自主駕駛決策學習系統(tǒng)結構示意圖Fig.5 Structure of automatic driving decision learning system
圖6 駕駛場景示意圖Fig.6 Driving environment
采用傳感參數(shù)表征的駕駛狀態(tài)作為輸入,油門踏板開度、轉向盤轉角和制動踏板開度作為輸出,參數(shù)見表6。狀態(tài)輸入量為1 個6 維度的橫向拼接數(shù)組。輸出動作包含加速、轉向和減速3個動作,動作取值是連續(xù)的,仿真車輛可以做出平滑的駕駛操作。
表6 狀態(tài)輸入及動作輸出參數(shù)Tab.6 State input and action output parameters
獎勵函數(shù)是對當前策略的評價標準,直接標定訓練樣本,間接影響策略收斂方向。此前已有研究表明,在復雜彎道中保持正常行駛依舊存在一定的挑戰(zhàn)[21]。為保證駕駛策略的安全性,獎勵函數(shù)見式(4)。
在此獎勵函數(shù)下,車輛保持一定的速度在道路中心行駛將獲得最大累計獎勵,算法的駕駛策略向著該方向收斂。在此基礎上,對輸出駕駛動作做線性變換,按照學習目標的駕駛決策特點改變算法的駕駛策略。由此,完成了個性化駕駛決策學習算法的設計和系統(tǒng)的構建。
訓練與測試過程在TORCS 平臺完成,訓練地圖使用Aalborg賽道,測試地圖分別選用E-Track 6、E-Road 和CG track 3,見圖1。為對比本文方法在駕駛決策學習方面的優(yōu)勢,加入經(jīng)典算法DQN 與DDPG進行對比。
訓練階段,若車輛與道路邊緣的護欄發(fā)生碰撞,則終止當前回合并開始新的回合進行訓練,避免劣質(zhì)經(jīng)驗進入經(jīng)驗池,影響算法收斂。訓練過程的損失函數(shù)值和單步獎勵值見圖7。
圖7 不同算法訓練過程的損失函數(shù)值及單步獎勵值Fig.7 Loss function value and single step reward value of different algorithms
融入神經(jīng)網(wǎng)絡的機器學習以損失值最小為收斂標準。訓練結果顯示,DQN 算法在177 400 步左右完成收斂,DDPG 算法在130 000 步左右完成收斂,本文方法在102 300 步左右完成收斂,相較DDPG算法收斂速度提升21.3%,獲取的獎勵與DDPG 算法無顯著差異。
為驗證策略安全性,使算法在每個測試地圖中進行5 次駕駛測試任務,單次測試內(nèi)容為在賽道中完成駕駛任務1圈。訓練及測試結果見表7,測試數(shù)據(jù)包括完成時間和損毀程度。其中,損毀程度是車輛與護欄碰撞時,計量車輛破壞程度的數(shù)值。計算過程由TORCS平臺完成,破壞程度越大數(shù)值越高,數(shù)值為0 代表沒有產(chǎn)生碰撞。完成時間取5 次測試的平均值,最低速度從測試最初的30步之后開始統(tǒng)計(起步加速階段不計入)。
表7 訓練及測試成績Tab.7 Training and testing scores
結果顯示,全部測試中的損毀程度均為0,車輛始終未與護欄發(fā)生碰撞。改進算法在測試環(huán)境內(nèi),依然可以無碰撞的完成駕駛任務。為進一步驗證駕駛策略安全性,對比了算法與被試駕駛車輛的車道偏移百分比參數(shù),檢驗對車輛的橫向控制效果,圖8為算法與被試的車道偏移百分比的均值和標準差。
圖8 個性化駕駛決策學習算法與被試車道偏移百分比對比Fig.8 Comparison of algorithm and drivers lane deviation percentage
對比結果顯示,多數(shù)被試在整個駕駛過程中,車輛總體偏向道路左側(車道偏移百分比均值為負)。與車輛橫向控制效果較好的11號被試相比,算法的偏移程度降低73.0%,車道偏移百分比標準差降低25.1%,算法的橫向道路保持效果更好。
提取改進算法的駕駛數(shù)據(jù),計算得到評價指標的標準差。3 個學習目標和對應的駕駛決策學習算法的評價指標標準差對比見圖9,偏差數(shù)值見表8。
結果顯示,改進算法的評價指標標準差表現(xiàn)出遞增的變化趨勢,與學習目標一致,但具體數(shù)值存在偏差。學習保守型駕駛決策的LT1的油門踏板開度標準差偏差最小,相較學習目標低8.3%;轉向盤轉角標準差偏差最大,相較學習目標低53.7%。為驗證改進算法與學習目標的評價指標偏差是否可以接受,再次使用評價指標的標準差對所有被試及算法進行聚類,結果見圖10。
聚類結果顯示,學習不同駕駛風格的算法,在聚類中被劃分至學習目標所在的駕駛風格簇,算法的駕駛表現(xiàn)與聚類中心相似,評價指標偏差可以接受,個性化駕駛決策學習效果得到驗證。
通過改進深度強化學習算法,在非線性映射的學習過程中加入線性變換過程,得到個性化駕駛決策學習方法。盡管經(jīng)過聚類驗證,算法能夠學習到與目標相似的駕駛策略,但仍有部分評價指標的偏差較大。
圖9 算法與學習目標評價指標標準差對比Fig.9 Standard deviation comparison of evaluation index between algorithm and learning objective
表8 不同駕駛風格算法與學習目標評價指標標準差的偏差Tab.8 Deviation of the algorithm and the learning objectives in the evaluation index %
圖10 個性化駕駛決策學習算法與被試駕駛風格聚類結果Fig.10 Cluster results of decision algorithm and drivers'driving style
1)深度強化學習的訓練過程依賴與環(huán)境的交互,為保障安全,降低研發(fā)成本,在仿真平臺TORCS中設計駕駛決策學習系統(tǒng),訓練并測試改進算法,實現(xiàn)個性化自動駕駛。為保障算法駕駛車輛的動力學模型和運動學模型與被試相同,駕駛模擬實驗也在TORCS 平臺中開展。此前有研究使用相似方法采集駕駛數(shù)據(jù),但TORCS 中提供的車輛與環(huán)境仍與現(xiàn)實有一定差距。修改TORCS內(nèi)的車輛模型和環(huán)境模型,使之更接近真實駕駛情況,將進一步提高研究可靠性。
2)盡管研究目的并非探究駕駛人的駕駛習慣,可以接受模擬駕駛實驗中被試表現(xiàn)與真實駕駛習慣存在差異,但在接近真實的駕駛座艙中采集駕駛數(shù)據(jù),選擇評價指標并確定學習目標,有助于提高結果的準確性。
3)目前,同一駕駛風格算法輸出的3 個駕駛動作,使用同一組線性變換參數(shù)進行調(diào)節(jié),部分評價指標偏差較大,個性化學習能力有限。使用獨立的參數(shù)調(diào)節(jié)不同駕駛動作,可提升駕駛決策的擬合能力,可以推廣至多種風格的駕駛策略學習,或對個體駕駛人的學習,個性化水平進一步提升。
本研究通過模擬駕駛實驗采集了駕駛數(shù)據(jù),使用相關性檢驗的數(shù)據(jù)降維方式,選取車速、轉向盤轉角和油門踏板開度作為個性化駕駛決策的評價指標。通過K-means聚類方法對被試駕駛風格進行分類,以聚類中心作為此類駕駛風格的學習目標。對DDPG 算法做出改進,為算法輸出加入線性變換過程,擬合學習對象的駕駛表現(xiàn)?;诟倪M算法和仿真平臺設計了駕駛決策學習系統(tǒng),對個性化駕駛決策學習算法進行在線訓練及測試。測試結果表明,相比于DDPG算法,本文方法收斂速度提升21.3%;與被試相比,車道偏移量降低71.0%,算法的橫向控制能力更高;與駕駛風格學習目標相比,盡管評價指標數(shù)值存在一定偏差,但算法在聚類中與學習目標屬于同一駕駛風格,偏差可以接受。該方法能夠在保證安全的前提下,學習到不同駕駛風格的駕駛決策。
本研究也存在一些不足。首先,研究未考慮交叉路口等復雜道路環(huán)境;其次,由于此前少有研究在未知環(huán)境中同時處理自主駕駛與個性化駕駛問題,本研究探索性更強,未考慮多車交互的場景;最后,當前線性變換的參數(shù)是手動調(diào)節(jié)的,智能化程度有待提升。因此,后續(xù)將繼續(xù)深入探究,進一步提升個性化駕駛決策學習方法的個性化水平和智能化水平。