• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智能網(wǎng)聯(lián)汽車基于逆強(qiáng)化學(xué)習(xí)的軌跡規(guī)劃優(yōu)化機(jī)制研究

      2023-08-21 04:15:48彭浩楠唐明環(huán)查奇文王聰王偉達(dá)
      關(guān)鍵詞:特征值軌跡加速度

      彭浩楠,唐明環(huán),查奇文,王聰,王偉達(dá)

      (1.中國(guó)工業(yè)互聯(lián)網(wǎng)研究院,北京 100102;2.北京理工大學(xué) 機(jī)械與車輛學(xué)院,北京 100081)

      軌跡規(guī)劃模塊的作用是為智能網(wǎng)聯(lián)汽車計(jì)算出包含路徑和速度信息的安全可行軌跡,規(guī)劃過程需要考慮車輛行駛安全性、穩(wěn)定性、舒適性以及行駛效率等[1].目前已有許多關(guān)于自動(dòng)駕駛軌跡規(guī)劃的研究,典型軌跡規(guī)劃方法主要可以分為3 類:包括模型預(yù)測(cè)控制方法、人工勢(shì)場(chǎng)法等的基于優(yōu)化計(jì)算的軌跡規(guī)劃;包括柵格法、隨機(jī)搜索法等的基于搜索的規(guī)劃方法;基于特定函數(shù)的軌跡規(guī)劃方法[2].近年來,人工智能為自動(dòng)駕駛規(guī)劃控制提供了變革性發(fā)展契機(jī).基于智能學(xué)習(xí)算法的軌跡規(guī)劃方法逐漸成為智能網(wǎng)聯(lián)汽車決策控制領(lǐng)域的研究熱點(diǎn).

      其中,包括各種群類算法如魚群、蟻群、粒子群,遺傳算法,神經(jīng)網(wǎng)絡(luò)等[3?4]的智能學(xué)習(xí)算法可解決非線性規(guī)劃問題,有不過分依賴物理模型、適用范圍廣、易于進(jìn)行移植、收斂速度較快的優(yōu)點(diǎn),但同時(shí)存在陷入局部最優(yōu)的弊端.在模仿經(jīng)驗(yàn)駕駛員的模型預(yù)測(cè)(model predictive control, MPC)優(yōu)化軌跡規(guī)劃方法中,各個(gè)優(yōu)化目標(biāo)函數(shù)的權(quán)重系數(shù)需要手動(dòng)反復(fù)標(biāo)定.在不同的復(fù)雜動(dòng)態(tài)環(huán)境中,權(quán)重系數(shù)標(biāo)定是一個(gè)重復(fù)且繁瑣耗時(shí)的過程,并且需要豐富的駕駛經(jīng)驗(yàn)[5].更重要地,基于非線性MPC 的優(yōu)化軌跡規(guī)劃方法的求解計(jì)算量和預(yù)測(cè)步長(zhǎng)Np成指數(shù)關(guān)系,即MPC 方法的求解計(jì)算量會(huì)隨著預(yù)測(cè)步長(zhǎng)的升高成指數(shù)增長(zhǎng),還要處理各種約束,所以求解計(jì)算量非常巨大,實(shí)時(shí)性很差[6].

      隨著人工智能技術(shù)、大數(shù)據(jù)以及高算力計(jì)算硬件的逐步發(fā)展,各種學(xué)習(xí)類算法也被用于解決軌跡規(guī)劃問題,主要包括模仿學(xué)習(xí)算法(imitation learning algorithms, LL)和強(qiáng)化學(xué)習(xí)算法(reinforcement learning algorithms, RL)兩大類.有學(xué)者采用深度強(qiáng)化學(xué)習(xí)算法[7?8]和Q-Learning 強(qiáng)化學(xué)習(xí)算法[9?10]解決軌跡規(guī)劃問題,不同類型的學(xué)習(xí)算法以各自不同的方式學(xué)習(xí)最優(yōu)軌跡.但是,一方面,直接模仿學(xué)習(xí)方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程在可解釋性和泛化能力上存在不足,另一方面,獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)方法的瓶頸難題.如何使上述學(xué)習(xí)方法學(xué)習(xí)后的模型具有強(qiáng)泛化能力,解決當(dāng)前研究成果在實(shí)時(shí)性和可解釋性上的問題值得深入研究.目前也有很多研究文獻(xiàn)聚焦于采用模仿學(xué)習(xí)算法解決軌跡規(guī)劃問題,通過以不同的形式學(xué)習(xí)專家示范軌跡以實(shí)現(xiàn)期望軌跡的規(guī)劃,包括基于神經(jīng)網(wǎng)絡(luò)的直接模仿學(xué)習(xí)方法[11]和基于最大熵原則的逆強(qiáng)化學(xué)習(xí)算法[12?14]等.

      為了解決算法實(shí)時(shí)性差、目標(biāo)函數(shù)權(quán)重系數(shù)難以標(biāo)定優(yōu)化和模仿學(xué)習(xí)方法的可解釋性不足等問題,本文提出了基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法,通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制,規(guī)劃出符合人類駕駛習(xí)慣的整體最優(yōu)的換道軌跡.本文提出的方法通過最大熵原則求出專家軌跡的概率分布模型,再通過極大似然估計(jì)得到專家軌跡特征優(yōu)化權(quán)重參數(shù)的計(jì)算方法,通過迭代求出優(yōu)化權(quán)重參數(shù),達(dá)到最終學(xué)習(xí)軌跡特征與專家軌跡特征相匹配的綜合最優(yōu)效果.

      1 雙車道交通場(chǎng)景描述與換道動(dòng)機(jī)

      1.1 場(chǎng)景描述

      本文所研究的交通場(chǎng)景是自動(dòng)駕駛汽車在城市結(jié)構(gòu)化道路中典型的雙車道交通工況,自動(dòng)駕駛汽車(自車)行駛在雙車道的右車道上,在此車道上自車前后方各有前車1 和尾車2 向前行駛,相鄰車道上也有前車3 和尾車4 向前行駛.

      如圖1 所示,左車道為快車道,自車所在車道為慢車道.自車在慢車道上跟隨前車1 進(jìn)行自適應(yīng)巡航行駛.假設(shè)某一時(shí)刻慢車道上前車1 突然減速,自車則也會(huì)相應(yīng)地減速行駛,當(dāng)前車1 減速至速度很低時(shí),自車開始產(chǎn)生自主換道意圖,欲換道跟隨前車3 從而實(shí)現(xiàn)高速巡航行駛.此時(shí)自車需要根據(jù)當(dāng)前量測(cè)到的場(chǎng)景參數(shù)—TTC(碰撞時(shí)間)和THW(車頭時(shí)距),采用貝葉斯概率理論對(duì)相鄰待換車道和本車道進(jìn)行安全性風(fēng)險(xiǎn)評(píng)估,得到當(dāng)前場(chǎng)景每個(gè)車道的安全性條件概率,然后根據(jù)安全效用做出相應(yīng)的行為決策,選擇保持該車道繼續(xù)行駛或更換車道.如果待換車道很危險(xiǎn),自車選擇保持該車道繼續(xù)行駛,直到待換車道尾車4 超過自車,新的尾車4 出現(xiàn),此時(shí)自車再重新對(duì)兩個(gè)車道進(jìn)行風(fēng)險(xiǎn)評(píng)估.當(dāng)自車做出更換車道的行為決策,發(fā)出換道指令時(shí),自車采用相應(yīng)的方法進(jìn)行軌跡規(guī)劃,得到最優(yōu)換道軌跡.

      1.2 決策方法

      針對(duì)此雙車道交通場(chǎng)景,可采用基于貝葉斯概率理論的風(fēng)險(xiǎn)評(píng)估方法和基于安全效用理論的行為決策方法,構(gòu)建易于擴(kuò)展到一般復(fù)雜場(chǎng)景的風(fēng)險(xiǎn)評(píng)估貝葉斯網(wǎng)絡(luò)和決策圖[15].該方法充分考慮了場(chǎng)景輸入量測(cè)數(shù)據(jù)的不確定性,對(duì)當(dāng)前交通場(chǎng)景的換道風(fēng)險(xiǎn)等級(jí)做出了定量化的概率描述.

      2 基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法

      近年來,隨著人工智能技術(shù)的發(fā)展,利用逆強(qiáng)化學(xué)習(xí)方法從專家示范數(shù)據(jù)集中自動(dòng)學(xué)習(xí)獲取代價(jià)函數(shù)的研究獲得了自動(dòng)駕駛汽車領(lǐng)域的廣泛關(guān)注.自動(dòng)駕駛汽車的軌跡規(guī)劃必須達(dá)到經(jīng)驗(yàn)駕駛員水平,實(shí)現(xiàn)安全決策和規(guī)劃.如何設(shè)計(jì)合適獎(jiǎng)勵(lì)函數(shù)來指導(dǎo)智能體做出類優(yōu)秀駕駛員駕駛策略,即強(qiáng)化學(xué)習(xí)方法中的獎(jiǎng)勵(lì)函數(shù)是一項(xiàng)非常有挑戰(zhàn)性的問題.因此,本文設(shè)計(jì)讓智能體從優(yōu)秀駕駛員的駕駛行為里面學(xué)習(xí)(估計(jì)、推導(dǎo))出一個(gè)可以指導(dǎo)智能體收斂到優(yōu)秀駕駛員的行駛策略的代價(jià)函數(shù),即通過逆強(qiáng)化學(xué)習(xí)方法學(xué)出專家軌跡的內(nèi)在優(yōu)化機(jī)制.

      本文采用基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法來學(xué)習(xí)專家軌跡的優(yōu)化機(jī)制,專家軌跡由模仿優(yōu)秀駕駛員的MPC 優(yōu)化軌跡規(guī)劃方法求得,驗(yàn)證逆強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)自動(dòng)駕駛汽車軌跡規(guī)劃的可行性,為自動(dòng)駕駛汽車實(shí)現(xiàn)軌跡規(guī)劃提供一個(gè)可靠、可理解、可泛化,能夠成功實(shí)現(xiàn)最優(yōu)換道軌跡的學(xué)習(xí)思路,實(shí)現(xiàn)采用逆強(qiáng)化學(xué)習(xí)方法離線學(xué)習(xí)駕駛員專家軌跡的優(yōu)化機(jī)制,進(jìn)而構(gòu)建與場(chǎng)景風(fēng)險(xiǎn)等級(jí)成映射關(guān)系的專家軌跡優(yōu)化代價(jià)函數(shù)庫(kù).

      利用直接模仿學(xué)習(xí)方法可以直接學(xué)習(xí)得出專家示范軌跡的策略函數(shù),即利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練環(huán)境特征到動(dòng)作(最優(yōu)軌跡)的映射.但是由于優(yōu)化代價(jià)函數(shù)(獎(jiǎng)勵(lì)函數(shù))未知,黑箱的訓(xùn)練過程無法直觀理解,此方法存在可解釋性差、無法泛化轉(zhuǎn)移、存在失誤率的問題.與直接模仿學(xué)習(xí)方法相比,逆強(qiáng)化學(xué)習(xí)方法的優(yōu)點(diǎn)在于:

      ① 簡(jiǎn)潔:通過逆強(qiáng)化學(xué)習(xí)方法能夠獲得優(yōu)化代價(jià)函數(shù),此代價(jià)函數(shù)體現(xiàn)了專家軌跡的優(yōu)化機(jī)制,這一優(yōu)化機(jī)制可以量化且直觀得被工程師所理解,所以代價(jià)函數(shù)是描述智能體理想行為的簡(jiǎn)潔形式,可解釋性強(qiáng).而策略函數(shù)(特征到動(dòng)作的映射)和代價(jià)函數(shù)相比則更為復(fù)雜,工程師無法直觀量化地理解訓(xùn)練過程,可解釋性差.

      ② 魯棒:通過基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的直接模仿學(xué)習(xí)方法得到的動(dòng)作容易受到外部干擾的影響.當(dāng)外部環(huán)境和內(nèi)部參數(shù)發(fā)生變化時(shí),特征到動(dòng)作的映射也會(huì)變化,但是代價(jià)函數(shù)始終不會(huì)發(fā)生變化,不會(huì)受到外部的影響.因此與策略函數(shù)相比,逆強(qiáng)化學(xué)習(xí)方法學(xué)出的優(yōu)化代價(jià)函數(shù)更具有魯棒性.

      ③ 可泛化轉(zhuǎn)移:通過逆強(qiáng)化學(xué)習(xí)方法學(xué)得的優(yōu)化代價(jià)函數(shù),體現(xiàn)了專家軌跡的優(yōu)化目標(biāo),在當(dāng)前風(fēng)險(xiǎn)等級(jí)場(chǎng)景下,優(yōu)秀駕駛員的優(yōu)化目標(biāo)不會(huì)發(fā)生變化.因此,此優(yōu)化代價(jià)函數(shù)可以用于各類車型,是可泛化轉(zhuǎn)移的.

      逆強(qiáng)化學(xué)習(xí)方法試圖恢復(fù)并獲得智能體在專家示范行為背后偏好(優(yōu)化機(jī)制)的過程.這種偏好(優(yōu)化機(jī)制)通常以代價(jià)函數(shù)或獎(jiǎng)勵(lì)函數(shù)的形式表現(xiàn)出來,代價(jià)函數(shù)與獎(jiǎng)勵(lì)函數(shù)將每個(gè)系統(tǒng)狀態(tài)的特征映射為一個(gè)狀態(tài)成本值.逆強(qiáng)化學(xué)習(xí)中的代價(jià)函數(shù)與特征之間的映射關(guān)系可能是線性、非線性或者神經(jīng)網(wǎng)絡(luò).本節(jié)與大多數(shù)逆強(qiáng)化學(xué)習(xí)方法一樣,假設(shè)特征與代價(jià)函數(shù)之間成線性映射關(guān)系,此線性關(guān)系可以表示為

      式中:C為優(yōu)化代價(jià)函數(shù);θ ∈Rn是用來參數(shù)化代價(jià)函數(shù)的特征權(quán)重向量;fξi∈Rn定義為對(duì)給定軌跡的某些抽象信息進(jìn)行編碼量化的相關(guān)特征,ξi為某個(gè)給定的軌跡.在本文討論的換道軌跡規(guī)劃問題中,這種軌跡特征包括目標(biāo)橫向位置、縱向巡航速度、橫向速度、縱橫向加速度等.基于以上定義,逆強(qiáng)化學(xué)習(xí)方法的目標(biāo)可以描述為:給定智能體的專家示范軌跡,找到能夠再現(xiàn)與專家示范軌跡相似的軌跡的優(yōu)化代價(jià)函數(shù),即每個(gè)軌跡特征的權(quán)重系數(shù),與專家示范軌跡相似的軌跡可以通過求解基于權(quán)重系數(shù)的參數(shù)化代價(jià)函數(shù)的優(yōu)化問題獲得.具體目標(biāo)為找到智能體所學(xué)軌跡的概率分布,使得由此推導(dǎo)出的軌跡特征值與專家示范軌跡的經(jīng)驗(yàn)特征值相匹配:

      2.1 最大熵原則

      熵是一個(gè)描述物質(zhì)系統(tǒng)狀態(tài)很重要的參量.通過研究最大熵原理,斯坦福大學(xué)和加州大學(xué)伯克利分校學(xué)者ZIEBART 等[16]和LIU 等[17]指出,熵最大的概率分布最好地代表了給定的專家示范信息,因?yàn)槌颂卣髌ヅ渲?,它沒有表現(xiàn)出任何其他額外的偏好.通俗地講,所學(xué)習(xí)軌跡的概率分布的熵越大,系統(tǒng)越穩(wěn)定,熵最大,系統(tǒng)最好.根據(jù)定義,關(guān)于軌跡概率分布的熵H(p)為

      在連續(xù)空間中,如本文所考慮的軌跡規(guī)劃問題,專家選擇某條軌跡是隨機(jī)概率分布事件,極大化系統(tǒng)的熵可以求得期望的專家軌跡概率分布模型p?(ξi)為

      特征匹配是重要的等式約束,如下所示.

      式(4)和(5)所示為標(biāo)準(zhǔn)的含約束的拉格朗日優(yōu)化問題.引入拉格朗日乘子 α?,θ?,該問題為

      其中 θ的維數(shù)為軌跡特征的個(gè)數(shù).引入拉格朗日函數(shù)L(p)為

      求解偏導(dǎo)數(shù)方程:

      則專家軌跡的概率分布模型的表達(dá)式為

      可以看出,由最大熵原則推導(dǎo)出的概率分布模型中,如果把 θTfξi解釋為代價(jià)函數(shù),專家軌跡的概率分布模型表達(dá)式p(ξi|θ)與相關(guān)特征的代價(jià)函數(shù)的指數(shù)成正比.這個(gè)概率分布模型中的超參數(shù)為 θ.所以根據(jù)最大熵原理,這個(gè)概率分布模型意味著:代價(jià)函數(shù)成本值越高的軌跡是更不可能出現(xiàn)的,專家選擇的概率越低,隨著代價(jià)函數(shù)成本值升高,概率成指數(shù)函數(shù)降低,換言之,智能體模仿學(xué)習(xí)專家軌跡時(shí)以指數(shù)形式的可能性更傾向于選擇代價(jià)函數(shù)成本值低的軌跡.

      又根據(jù)式(4),可得

      則概率分布模型的分母表達(dá)式為

      最終,可以得到期望的專家軌跡概率分布模型為

      其中,Z(θ)為概率分布模型的歸一化(配分)因子.

      然后,引入極大似然估計(jì)方法來獲取上述概率分布模型中超參數(shù)的計(jì)算表達(dá)式.用已有的專家采樣數(shù)據(jù),即給定的專家示范軌跡進(jìn)行極大似然估計(jì),極大化專家的似然求出概率分布模型中的超參數(shù) θ.使得專家軌跡的似然最大,也就是使得已有的專家軌跡數(shù)據(jù)最真實(shí).這樣求得的 θ參數(shù)值能夠保證專家軌跡的出現(xiàn)概率最大.所以,特征匹配下的軌跡分布熵最大化問題就轉(zhuǎn)化為了在上述指數(shù)概率分布模型下,專家軌跡的極大似然估計(jì)問題.

      在軌跡規(guī)劃問題中,規(guī)劃出的軌跡是關(guān)于橫坐標(biāo)、縱坐標(biāo)和速度的三維函數(shù),即專家軌跡是蘊(yùn)含時(shí)間信息的.因?yàn)檐壽E上每一點(diǎn)的速度都是隨機(jī)的,所以專家軌跡樣本集個(gè)數(shù)為無數(shù)條,假設(shè)專家軌跡樣本集個(gè)數(shù)為N條,則專家示范軌跡的樣本集可以表示為,i=N.為專家示范軌跡樣本集中的軌跡.

      定義專家軌跡的似然函數(shù),即聯(lián)合概率密度函數(shù)為

      式中:l(θ) 為專家軌跡的似然函數(shù);p(D|θ)為專家軌跡的聯(lián)合概率密度函數(shù).極大化似然函數(shù)l(θ),即可求出模型超參數(shù) θ?值,使得出現(xiàn)該組樣本的概率最大.

      定義專家軌跡的對(duì)數(shù)似然函數(shù)為W(θ?),表達(dá)式如下.

      式(17)中的歸一化配分因子Z(θ)也可以采用積分的方式表示.利用專家軌跡樣本集試驗(yàn)結(jié)果和極大似然估計(jì)方法得到的參數(shù)值,能夠使專家軌跡樣本集出現(xiàn)的可能性最大.

      2.2 配分因子的近似和優(yōu)化權(quán)重參數(shù)的計(jì)算

      根據(jù)上述分析和公式(17))可知,極大化專家軌跡似然的過程中,如何計(jì)算歸一化(配分)因子Z(θ)是該方法的難點(diǎn)所在.由于所有軌跡在高維空間上積分是不可處理的,即在連續(xù)狀態(tài)下,無法對(duì)全軌跡進(jìn)行積分,因此無法計(jì)算得到精確的配分因子Z(θ)[18?19].只能采用二階泰勒展開/拉布拉斯近似、蒙特卡洛采樣和一次軌跡樣條代替等方式進(jìn)行配分因子 的近似計(jì)算.基于二階泰勒展開/拉布拉斯近似的優(yōu)化權(quán)重參數(shù)最優(yōu)解法理論性較強(qiáng),試圖一次性求解出優(yōu)化權(quán)重參數(shù) θ,但此方法的代碼實(shí)現(xiàn)較為困難,很難一步到位求出最優(yōu)解.所以本節(jié)不采用此種方法求解 θ.

      本文采用基于一次軌跡樣條近似代替的梯度下降方法,迭代求解出優(yōu)化權(quán)重參數(shù) θ,直至智能體最終的學(xué)習(xí)軌跡特征與專家軌跡特征相匹配.

      如上所述,采用最大熵原理推導(dǎo)出專家軌跡的指數(shù)概率分布模型之后,可以采用極大似然估計(jì)方法得到概率分布模型中的超參數(shù):

      專家軌跡的似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù) θ的梯度可以被推導(dǎo)為

      所以專家軌跡的似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù)θ的梯度表達(dá)式為

      式中:fD為專家示范軌跡特征值的均值,fD?[fξ?d1+fξ?d2+···+fξ?dN]/N.ξ?i為專家用當(dāng)前的優(yōu)化權(quán)重參數(shù) θ在優(yōu)化一個(gè)代價(jià)函數(shù)得到一條當(dāng)前最有可能出現(xiàn)的最優(yōu)軌跡.

      與文獻(xiàn)[20]類似,利用逆最優(yōu)控制的思想:專家用當(dāng)前自己的優(yōu)化權(quán)重參數(shù) θ在刻意優(yōu)化一個(gè)代價(jià)函數(shù)得到一條當(dāng)前最有可能出現(xiàn)的最優(yōu)軌跡 ξ?i(此時(shí)專家不是在概率分布模型中隨機(jī)采樣),假設(shè)此條軌跡的概率近似為1.通過計(jì)算當(dāng)前這條最有可能出現(xiàn)的軌跡的特征值來近似代替期望特征值,即用一次軌跡樣條進(jìn)行近似代替,而不是計(jì)算采樣出的有限條軌跡的特征值.利用一次軌跡樣條方法進(jìn)行近似代替可以表示為

      因此,用一次軌跡樣條方法進(jìn)行近似代替后的專家軌跡似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù)的梯度表達(dá)式就變成了

      f′即為最有可能出現(xiàn)的軌跡的特征值.當(dāng)然,如前所述,本文假設(shè)智能體模仿專家選擇的軌跡實(shí)際上是通過最小化當(dāng)前的代價(jià)函數(shù)而產(chǎn)生的,而不是假設(shè)專家選擇的軌跡是從概率分布中抽樣的.所以,基于一次軌跡樣條近似代替的優(yōu)化權(quán)重參數(shù)梯度下降迭代公式為

      式 中:θk+1為 迭代更新 后 的優(yōu)化權(quán)重 參 數(shù)值;θk為專家當(dāng)前的優(yōu)化權(quán)重參數(shù)值;α為學(xué)習(xí)參數(shù)值:梯度下降速度.

      每次梯度下降迭代后,都會(huì)得到一個(gè)新的優(yōu)化權(quán)重參數(shù)向量,之后即可得到新的優(yōu)化代價(jià)函數(shù),得到的由優(yōu)化權(quán)重參數(shù)構(gòu)成的優(yōu)化代價(jià)函數(shù)能夠讓工程師直觀地、量化地理解當(dāng)前的內(nèi)在優(yōu)化機(jī)制和原則,即在換道場(chǎng)景中專家軌跡究竟更在意哪些優(yōu)化目標(biāo),在意到什么程度.逆強(qiáng)化學(xué)習(xí)方法的內(nèi)層一定要有一個(gè)優(yōu)化的過程,所以得到新的優(yōu)化權(quán)重參數(shù)和優(yōu)化代價(jià)函數(shù)之后,需要求解這個(gè)很簡(jiǎn)單的最優(yōu)問題.通過求解此優(yōu)化代價(jià)函數(shù),得到幾個(gè)優(yōu)化的學(xué)習(xí)軌跡離散點(diǎn)坐標(biāo)(本文為6 個(gè)),也可以說是,通過優(yōu)化幾個(gè)軌跡離散點(diǎn)的坐標(biāo)使優(yōu)化代價(jià)函數(shù)極小化.

      2.3 三次樣條插值方法和特征的提取

      求解由當(dāng)前優(yōu)化權(quán)重參數(shù)構(gòu)成的優(yōu)化代價(jià)函數(shù),得到時(shí)間間隔T/5的6 個(gè)最優(yōu)離散點(diǎn)坐標(biāo),假定被學(xué)習(xí)的專家軌跡總的時(shí)間間隔為T.為了提取學(xué)習(xí)軌跡的相關(guān)特征,在本文中,對(duì)6 個(gè)優(yōu)化后的等時(shí)間間距離散坐標(biāo)點(diǎn)采用3 次樣條插值方法進(jìn)行插值獲得軌跡的3 次樣條函數(shù).本文用3 次樣條函數(shù)來表示隨時(shí)間t變化的換道軌跡橫向位置y和縱向位置x.

      采用3 次樣條插值法得到軌跡的3 次樣條函數(shù)之后,即可提取當(dāng)前軌跡的相關(guān)特征,當(dāng)前的這條軌跡為智能體用迭代更新得到的當(dāng)前優(yōu)化權(quán)重參數(shù) θ,極小化相應(yīng)的優(yōu)化代價(jià)函數(shù)得到的軌跡.本文提取一些典型的軌跡特征,這些特征能夠反映換道軌跡的相關(guān)重要特性,包括汽車期望橫向位置特征(式(24))ftar(ξ)、汽車 期 望 縱向巡航速度 特 征(式(25))fvx(ξ)、以及汽車橫向速度(式(26))、縱向加速度(式(27))和橫向加速度(式(28))等高階動(dòng)力學(xué)特征fvy(ξ)、fax(ξ)、fay(ξ).

      式中:ytarget為目標(biāo)車道中心線的橫向位置;vxdes為換道結(jié)束后跟隨快車道上的前車的期望巡航縱向速度.最后的軌跡特征fξi可以通過組合以上這些子特征得到.本文從當(dāng)前軌跡中提取這5 個(gè)特征,與從專家軌跡中提取的這5 個(gè)特征做匹配、做比較,分別判斷當(dāng)前軌跡的5個(gè)特征是否和專家軌跡的5個(gè)特征近似相同,ε為特征差閾值常數(shù).如果兩者不匹配、不相同,則根據(jù)公式(23)迭代更新求出橫向或縱向的每個(gè)特征對(duì)應(yīng)的新的優(yōu)化權(quán)重參數(shù) θ1,θ2,θ3和θ4,θ5,構(gòu)成新的優(yōu)化代價(jià)函數(shù),如式(29)所示,優(yōu)化求解出新的軌跡,提取新的軌跡特征,重復(fù)以上過程,直至智能體當(dāng)前軌跡的特征與專家軌跡的特征相匹配,即近似相同,最終迭代求出的此時(shí)的優(yōu)化權(quán)重參數(shù) θ*為可以復(fù)現(xiàn)專家軌跡的最優(yōu)優(yōu)化權(quán)重參數(shù).

      在逆強(qiáng)化學(xué)習(xí)方法中,采用基于一次軌跡樣條近似代替的梯度下降迭代法求解最優(yōu)優(yōu)化權(quán)重參數(shù)θ?的算法過程可用以下偽代碼表示.軌跡的3 個(gè)橫向相關(guān)特征和兩個(gè)縱向相關(guān)特征對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù)分別按照以下過程進(jìn)行求解.

      算法1 逆強(qiáng)化學(xué)習(xí)方法(基于一次軌跡樣條代替近似的梯度下降迭代法)

      其中,?為軌跡支撐點(diǎn)的集合,grad為特征差梯度.基于一次軌跡樣條近似代替的梯度下降迭代方法按照“優(yōu)化一次、插值一次、匹配一次、迭代一次”4 步的總體思路實(shí)現(xiàn)逆強(qiáng)化學(xué)習(xí)方法的過程,直至求出最終的優(yōu)化權(quán)重參數(shù)與相應(yīng)的軌跡,此方法可操作性強(qiáng),選用此方法復(fù)現(xiàn)專家軌跡.

      3 專家軌跡逆強(qiáng)化學(xué)習(xí)仿真結(jié)果

      MPC 優(yōu)化軌跡規(guī)劃方法的優(yōu)化機(jī)制符合人類駕駛經(jīng)驗(yàn)和習(xí)慣[21?22].本文將利用模仿優(yōu)秀駕駛員的MPC 優(yōu)化軌跡規(guī)劃方法求出的一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的自車最優(yōu)換道軌跡作為一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景兩個(gè)場(chǎng)景的專家示范軌跡.一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的自車最優(yōu)換道軌跡,即文獻(xiàn)[15]在一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景中采用非線性MPC 優(yōu)化軌跡規(guī)劃方法求解出的最優(yōu)軌跡.模仿優(yōu)秀駕駛員的基于非線性MPC 的優(yōu)化軌跡規(guī)劃方法的軟約束為優(yōu)化目標(biāo)勢(shì)場(chǎng)函數(shù),考慮了自車換道位置準(zhǔn)確性、安全性、動(dòng)力性、舒適性等優(yōu)化目標(biāo),硬約束包含等式約束—二自由度汽車運(yùn)動(dòng)學(xué)方程和防碰撞安全域不等式約束.在汽車運(yùn)動(dòng)學(xué)方程模型中,汽車的軸距為1.8 m.

      一般風(fēng)險(xiǎn)場(chǎng)景中,周車1 和2 的車速都為15 m/s,自車和周車4 的車速都為16 m/s,周車3 的車速為20 m/s.以自車的起始位置為縱向坐標(biāo)原點(diǎn),自車縱向坐標(biāo)為0 m.周車1 和周車3 的起始位置坐標(biāo)為100 m,周車2 和周車4 的起始位置坐標(biāo)為?80 m.在高風(fēng)險(xiǎn)場(chǎng)景中,周車1 和2 的車速都為15 m/s,周車3 和周車4 的車速分別為20 m/s 和17 m/s,自車的車速為16 m/s.以自車的起始位置為縱向坐標(biāo)原點(diǎn).周車1 和周車3 的起始位置坐標(biāo)為100 m,周車2 和周車4 的起始位置坐標(biāo)分別為?80 m 和?58 m.一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的區(qū)別在于自車相鄰車道上的尾車4 的速度和起始位置不同.尾車4 的車速越高,與自車的縱向距離越近,自車的換道風(fēng)險(xiǎn)越高;反之,尾車4 的車速越低,與自車的縱向距離越遠(yuǎn),自車的換道風(fēng)險(xiǎn)越低.

      通過基于MATLAB 的仿真,驗(yàn)證所提出的逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)兩個(gè)場(chǎng)景中專家軌跡的能力.

      3.1 一般風(fēng)險(xiǎn)場(chǎng)景專家軌跡的逆強(qiáng)化學(xué)習(xí)結(jié)果

      為學(xué)習(xí)此一般風(fēng)險(xiǎn)場(chǎng)景的專家軌跡,選取初始優(yōu)化權(quán)重參數(shù) θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個(gè)特征的初始值依次為:0.01、1、10、20、1.圖2 為自車期望橫向位置、橫向速度、橫向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖3(a) 為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差范數(shù)的迭代演化,如式(30)所示.

      圖2 一般風(fēng)險(xiǎn)場(chǎng)景期望橫向位置、速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.2 IRL results of lateral position, speed, and acceleration in the general-risk scenario

      從圖3 可以看出,在一般風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化權(quán)重參數(shù)經(jīng)優(yōu)化插值生成的橫向?qū)W習(xí)軌跡(自車的橫向位置坐標(biāo)、橫向速度和橫向加速度3 組曲線)與橫向?qū)<臆壽E差別較大,初始軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差的范數(shù)比較大(不到500),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差稍大于20,橫向速度特征值之差也存在.智能體按照基于一次軌跡樣條代替近似的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡也和專家軌跡越來越相似,智能體學(xué)習(xí)得到的軌跡橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值的差值也逐漸減小,迭代至20 次時(shí),特征差基本收斂至0.優(yōu)化參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為橫向最終學(xué)習(xí)軌跡,即3 組橫向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與橫向?qū)<臆壽E很相近,特別是橫向位置與橫向速度.迭代最終的橫向位置、橫向速度和橫向加速度優(yōu)化權(quán)重參數(shù)為0.880 3、0.089 7、0.360 4,量化地表達(dá)了與橫向最終學(xué)習(xí)軌跡相近的橫向?qū)<臆壽E的內(nèi)在優(yōu)化機(jī)制,即專家在換道過程中對(duì)不同橫向目標(biāo)的不同重視程度.

      圖4 為自車期望縱向巡航速度、縱向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖5(a)為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差范數(shù)的迭代演化,如式(30)所示.

      圖4 一般風(fēng)險(xiǎn)場(chǎng)景下期望縱向速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.4 IRL results of longitudinal speed and acceleration in the general-risk scenario

      圖5 一般風(fēng)險(xiǎn)場(chǎng)景期望縱向軌跡關(guān)鍵參數(shù)結(jié)果Fig.5 IRL results of key parameters of longitudinal trajectories in the general-risk scenario

      圖5(b)為逆強(qiáng)化學(xué)習(xí)過程中自車期望縱向巡航速度和縱向加速度兩個(gè)特征梯度的迭代演化.圖5(c)為逆強(qiáng)化學(xué)習(xí)過程中,自車期望縱向巡航速度和縱向加速度兩個(gè)特征相對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù) θ4和 θ5的迭代演化.

      從圖5 可以看出,在一般風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化參數(shù)經(jīng)優(yōu)化插值生成的縱向?qū)W習(xí)軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向?qū)<臆壽E存在一定的差距,初始軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差的范數(shù)很大(接近800),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差不到30,縱向加速度特征值之差稍大于5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡和專家軌跡越來越相似,智能體學(xué)習(xí)得到的軌跡縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值的差值也逐漸減小,迭代至60 次時(shí),特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為縱向最終學(xué)習(xí)軌跡,即兩組縱向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與縱向?qū)<臆壽E很相近,特別是縱向巡航速度.迭代最終的縱向巡航速度和縱向加速度優(yōu)化權(quán)重參數(shù)為4.673 3×10?7和5.226×10?7,量化地表達(dá)了與縱向最終學(xué)習(xí)軌跡相近的縱向?qū)<臆壽E的內(nèi)在優(yōu)化機(jī)制,也就是專家在換道過程中對(duì)兩個(gè)縱向相關(guān)目標(biāo)的各自的重視程度.

      3.2 高風(fēng)險(xiǎn)場(chǎng)景專家軌跡的逆強(qiáng)化學(xué)習(xí)結(jié)果

      為學(xué)習(xí)此高風(fēng)險(xiǎn)場(chǎng)景的專家軌跡,選取初始優(yōu)化權(quán)重參數(shù) θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個(gè)特征的初始權(quán)重參數(shù)依次為:0.01、1、10、0.01、1.圖6 為高風(fēng)險(xiǎn)場(chǎng)景中自車期望橫向位置、橫向速度、橫向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖7(a)為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差范數(shù)的迭代演化.圖7(b)為高風(fēng)險(xiǎn)場(chǎng)景中自車期望橫向位置、橫向速度、橫向加速度3 個(gè)特征梯度的迭代演化.圖7(c)為在此高風(fēng)險(xiǎn)場(chǎng)景的逆強(qiáng)化學(xué)習(xí)過程中,自車期望橫向位置、橫向速度、橫向加速度3 個(gè)特征相對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù) θ1、θ2、θ3的迭代演化.

      圖6 高風(fēng)險(xiǎn)場(chǎng)景期望橫向位置、速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.6 IRL results of lateral position, speed, and acceleration in the high-risk scenario

      圖7 高風(fēng)險(xiǎn)場(chǎng)景期望橫向軌跡關(guān)鍵參數(shù)結(jié)果Fig.7 IRL results of key parameters of lateral trajectories in the high-risk scenario

      從圖7 可以看出,在高風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化權(quán)重參數(shù)生成的橫向?qū)W習(xí)軌跡(自車的橫向位置坐標(biāo)、橫向速度和橫向加速度3 組曲線)與橫向?qū)<臆壽E相差甚遠(yuǎn),初始軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差的范數(shù)也很大(900 左右),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差不到30,橫向速度特征值之差在?5 左右,橫向加速度特征值之差稍小于?10.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體學(xué)習(xí)得到的軌跡和專家軌跡越來越接近,智能體學(xué)習(xí)得到的軌跡橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值的差值也逐漸減小,迭代至50 次時(shí),特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為橫向最終學(xué)習(xí)軌跡,即3 組橫向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與橫向?qū)<臆壽E很相近,特別是橫向位置與橫向速度,盡管橫向速度與橫向加速度最終學(xué)習(xí)軌跡后期有微小波動(dòng).迭代最終的橫向位置、橫向速度和橫向加速度優(yōu)化權(quán)重參數(shù)為5.967 6,0.081 0,0.503 9.可見,與一般風(fēng)險(xiǎn)場(chǎng)景相比,專家軌跡的橫向位置優(yōu)化權(quán)重系數(shù)明顯升高,所以在高風(fēng)險(xiǎn)場(chǎng)景換道專家軌跡的內(nèi)在優(yōu)化機(jī)制中,大大加強(qiáng)了對(duì)期望橫向位置這個(gè)橫向目標(biāo)的重視程度,明顯超過了對(duì)控制橫向速度和橫向加速度不要過大的重視程度.此換道場(chǎng)景中,專家最在意讓自車盡早到達(dá)期望橫向位置,完成自主換道.

      圖8 為高風(fēng)險(xiǎn)場(chǎng)景中,自車期望縱向巡航速度、縱向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖8(a)為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差范數(shù)的迭代演化.圖8(b)為高風(fēng)險(xiǎn)場(chǎng)景中自車期望縱向巡航速度和縱向加速度兩個(gè)特征梯度的迭代演化.圖8(c)為在高風(fēng)險(xiǎn)場(chǎng)景的逆強(qiáng)化學(xué)習(xí)過程中,自車期望縱向巡航速度和縱向加速度兩個(gè)特征相對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù) θ4和 θ5的迭代演化.

      圖8 高風(fēng)險(xiǎn)場(chǎng)景下期望縱向速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.8 IRL results of longitudinal speed and acceleration in the high-risk scenario

      從圖8 可以看出,在高風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化權(quán)重參數(shù)生成的縱向?qū)W習(xí)軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向?qū)<臆壽E存在一些差距,初始軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差的范數(shù)比較大(接近300),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差大于15,縱向加速度特征值之差稍大于?5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡和專家軌跡的相似程度越來越高,智能體學(xué)習(xí)得到的軌跡縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值的差值也逐漸減小,迭代至30 次時(shí),特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為縱向最終學(xué)習(xí)軌跡,即兩組縱向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與縱向?qū)<臆壽E很相近,特別是縱向巡航速度.雖然縱向加速度最終學(xué)習(xí)曲線和縱向加速度專家軌跡曲線不完全吻合,但兩者變化趨勢(shì)一致.迭代最終的縱向巡航速度和縱向加速度優(yōu)化權(quán)重參數(shù)為0.422 和0.002.可見,與一般風(fēng)險(xiǎn)場(chǎng)景相比,專家軌跡的縱向巡航速度優(yōu)化權(quán)重系數(shù)有所升高,所以在高風(fēng)險(xiǎn)場(chǎng)景換道專家軌跡的內(nèi)在優(yōu)化機(jī)制中,加強(qiáng)了對(duì)期望縱向巡航速度這個(gè)縱向目標(biāo)的重視程度,并且其超過了對(duì)舒適性(控制縱向加速度不要過大)的重視程度.此換道場(chǎng)景中,專家意圖讓自車的縱向巡航速度快速升高.

      仿真結(jié)果可知,與一般風(fēng)險(xiǎn)場(chǎng)景通過逆強(qiáng)化學(xué)習(xí)方法得到的專家軌跡優(yōu)化代價(jià)函數(shù)相比,在高風(fēng)險(xiǎn)場(chǎng)景的優(yōu)化代價(jià)函數(shù)中,期望橫向位置和期望縱向巡航速度目標(biāo)的優(yōu)化權(quán)重系數(shù)更大,二者中,期望橫向位置的權(quán)重系數(shù)明顯升高.高風(fēng)險(xiǎn)場(chǎng)景中,學(xué)習(xí)專家軌跡的智能體更加重視和在意期望橫向位置和期望縱向巡航速度這兩個(gè)優(yōu)化目標(biāo),相對(duì)來講,此時(shí)的智能體不非常重視舒適性和經(jīng)濟(jì)性,即不再著重較多地限制高階動(dòng)力學(xué)特性響應(yīng)過大,而是希望自車快速到達(dá)期望橫向位置,且快速升高車速以跟隨車速較高的前車巡航行駛.這充分證明了所提出的逆強(qiáng)化學(xué)習(xí)方法成功地學(xué)習(xí)了優(yōu)秀駕駛員(仿優(yōu)秀駕駛員的MPC 方法)換道過程的優(yōu)化機(jī)制,這一優(yōu)化機(jī)制可以量化且直觀得被工程師所理解,具有可解釋、可轉(zhuǎn)移和可泛化到其他智能體的特點(diǎn).

      從兩個(gè)場(chǎng)景的專家軌跡逆強(qiáng)化學(xué)習(xí)示例中可以得出結(jié)論,此逆強(qiáng)化學(xué)習(xí)方法有能力通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制(專家軌跡優(yōu)化代價(jià)函數(shù)的權(quán)重系數(shù))從而成功復(fù)現(xiàn)換道的橫縱向?qū)<臆壽E,即通過逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)優(yōu)秀駕駛員換道的優(yōu)化機(jī)制,復(fù)現(xiàn)專家軌跡是完全可行的.此可行性結(jié)論為未來利用逆強(qiáng)化學(xué)習(xí)方法大量離線學(xué)習(xí)優(yōu)秀駕駛員在不同風(fēng)險(xiǎn)場(chǎng)景的專家軌跡的優(yōu)化機(jī)制,構(gòu)建與場(chǎng)景風(fēng)險(xiǎn)等級(jí)成映射關(guān)系的專家軌跡優(yōu)化代價(jià)函數(shù)庫(kù)奠定了理論和方法基礎(chǔ).以逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)得出的優(yōu)化代價(jià)函數(shù)作為目標(biāo)函數(shù),通過求解基于此目標(biāo)函數(shù)的優(yōu)化問題,可以實(shí)現(xiàn)自動(dòng)駕駛汽車的軌跡規(guī)劃功能.

      4 結(jié)論與展望

      本文提出了基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法,通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制來復(fù)現(xiàn)換道的專家軌跡.首先,根據(jù)最大熵原則推導(dǎo)出專家軌跡的指數(shù)型概率分布模型,再由極大似然估計(jì)方法得到專家軌跡特征的優(yōu)化權(quán)重參數(shù)的計(jì)算方法.然后通過基于一次軌跡樣條近似代替的梯度下降方法,迭代求出優(yōu)化權(quán)重參數(shù),最后實(shí)現(xiàn)智能體軌跡的特征與專家軌跡的特征相匹配.利用MPC 方法求出的自車換道軌跡作為一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的專家軌跡,從兩個(gè)典型場(chǎng)景的逆強(qiáng)化學(xué)習(xí)結(jié)果得出,逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制進(jìn)而實(shí)現(xiàn)換道軌跡規(guī)劃是完全可行的.該方法學(xué)習(xí)到的優(yōu)化機(jī)制具有魯棒、可量化、可轉(zhuǎn)移泛化、直觀、強(qiáng)解釋性的優(yōu)點(diǎn).

      本文驗(yàn)證了逆強(qiáng)化學(xué)習(xí)方法通過學(xué)習(xí)專家軌跡的優(yōu)化機(jī)制復(fù)現(xiàn)專家軌跡的可行性,為通過大量離線學(xué)習(xí)建立專家軌跡優(yōu)化代價(jià)函數(shù)庫(kù)提供必要的理論基礎(chǔ).本文研究旨在通過學(xué)習(xí)駕駛專家軌跡的內(nèi)在優(yōu)化機(jī)制,實(shí)現(xiàn)符合人類駕駛習(xí)慣的優(yōu)化換道軌跡規(guī)劃.此外,不同駕駛者或乘員都有各自的駕駛風(fēng)格和乘坐偏好,因此將個(gè)性化學(xué)習(xí)納入智能駕駛決策規(guī)劃過程是另一項(xiàng)亟需解決的課題.本文研究工作在一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的學(xué)習(xí)結(jié)果表明本方法具有適應(yīng)個(gè)性化駕駛學(xué)習(xí)的潛力,因此未來工作將聚焦于駕駛風(fēng)格個(gè)性化的智能駕駛軌跡規(guī)劃學(xué)習(xí)方法研究.

      猜你喜歡
      特征值軌跡加速度
      “鱉”不住了!從26元/斤飆至38元/斤,2022年甲魚能否再跑出“加速度”?
      一類帶強(qiáng)制位勢(shì)的p-Laplace特征值問題
      單圈圖關(guān)聯(lián)矩陣的特征值
      軌跡
      軌跡
      天際加速度
      汽車觀察(2018年12期)2018-12-26 01:05:42
      創(chuàng)新,動(dòng)能轉(zhuǎn)換的“加速度”
      金橋(2018年4期)2018-09-26 02:24:46
      死亡加速度
      軌跡
      進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
      五常市| 于都县| 顺义区| 柘城县| 广西| 伊吾县| 南岸区| 陆河县| 辽宁省| 崇义县| 普兰店市| 德州市| 岢岚县| 玛纳斯县| 自治县| 盐亭县| 忻城县| 方正县| 策勒县| 玉林市| 桑植县| 柳江县| 高淳县| 甘肃省| 株洲市| 石家庄市| 青龙| 吴忠市| 凤阳县| 鹿泉市| 枣庄市| 防城港市| 华宁县| 贵州省| 满洲里市| 安仁县| 普格县| 吴忠市| 四会市| 萨迦县| 华安县|