• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智能網(wǎng)聯(lián)汽車基于逆強(qiáng)化學(xué)習(xí)的軌跡規(guī)劃優(yōu)化機(jī)制研究

    2023-08-21 04:15:48彭浩楠唐明環(huán)查奇文王聰王偉達(dá)
    關(guān)鍵詞:特征值軌跡加速度

    彭浩楠,唐明環(huán),查奇文,王聰,王偉達(dá)

    (1.中國(guó)工業(yè)互聯(lián)網(wǎng)研究院,北京 100102;2.北京理工大學(xué) 機(jī)械與車輛學(xué)院,北京 100081)

    軌跡規(guī)劃模塊的作用是為智能網(wǎng)聯(lián)汽車計(jì)算出包含路徑和速度信息的安全可行軌跡,規(guī)劃過程需要考慮車輛行駛安全性、穩(wěn)定性、舒適性以及行駛效率等[1].目前已有許多關(guān)于自動(dòng)駕駛軌跡規(guī)劃的研究,典型軌跡規(guī)劃方法主要可以分為3 類:包括模型預(yù)測(cè)控制方法、人工勢(shì)場(chǎng)法等的基于優(yōu)化計(jì)算的軌跡規(guī)劃;包括柵格法、隨機(jī)搜索法等的基于搜索的規(guī)劃方法;基于特定函數(shù)的軌跡規(guī)劃方法[2].近年來,人工智能為自動(dòng)駕駛規(guī)劃控制提供了變革性發(fā)展契機(jī).基于智能學(xué)習(xí)算法的軌跡規(guī)劃方法逐漸成為智能網(wǎng)聯(lián)汽車決策控制領(lǐng)域的研究熱點(diǎn).

    其中,包括各種群類算法如魚群、蟻群、粒子群,遺傳算法,神經(jīng)網(wǎng)絡(luò)等[3?4]的智能學(xué)習(xí)算法可解決非線性規(guī)劃問題,有不過分依賴物理模型、適用范圍廣、易于進(jìn)行移植、收斂速度較快的優(yōu)點(diǎn),但同時(shí)存在陷入局部最優(yōu)的弊端.在模仿經(jīng)驗(yàn)駕駛員的模型預(yù)測(cè)(model predictive control, MPC)優(yōu)化軌跡規(guī)劃方法中,各個(gè)優(yōu)化目標(biāo)函數(shù)的權(quán)重系數(shù)需要手動(dòng)反復(fù)標(biāo)定.在不同的復(fù)雜動(dòng)態(tài)環(huán)境中,權(quán)重系數(shù)標(biāo)定是一個(gè)重復(fù)且繁瑣耗時(shí)的過程,并且需要豐富的駕駛經(jīng)驗(yàn)[5].更重要地,基于非線性MPC 的優(yōu)化軌跡規(guī)劃方法的求解計(jì)算量和預(yù)測(cè)步長(zhǎng)Np成指數(shù)關(guān)系,即MPC 方法的求解計(jì)算量會(huì)隨著預(yù)測(cè)步長(zhǎng)的升高成指數(shù)增長(zhǎng),還要處理各種約束,所以求解計(jì)算量非常巨大,實(shí)時(shí)性很差[6].

    隨著人工智能技術(shù)、大數(shù)據(jù)以及高算力計(jì)算硬件的逐步發(fā)展,各種學(xué)習(xí)類算法也被用于解決軌跡規(guī)劃問題,主要包括模仿學(xué)習(xí)算法(imitation learning algorithms, LL)和強(qiáng)化學(xué)習(xí)算法(reinforcement learning algorithms, RL)兩大類.有學(xué)者采用深度強(qiáng)化學(xué)習(xí)算法[7?8]和Q-Learning 強(qiáng)化學(xué)習(xí)算法[9?10]解決軌跡規(guī)劃問題,不同類型的學(xué)習(xí)算法以各自不同的方式學(xué)習(xí)最優(yōu)軌跡.但是,一方面,直接模仿學(xué)習(xí)方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程在可解釋性和泛化能力上存在不足,另一方面,獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)方法的瓶頸難題.如何使上述學(xué)習(xí)方法學(xué)習(xí)后的模型具有強(qiáng)泛化能力,解決當(dāng)前研究成果在實(shí)時(shí)性和可解釋性上的問題值得深入研究.目前也有很多研究文獻(xiàn)聚焦于采用模仿學(xué)習(xí)算法解決軌跡規(guī)劃問題,通過以不同的形式學(xué)習(xí)專家示范軌跡以實(shí)現(xiàn)期望軌跡的規(guī)劃,包括基于神經(jīng)網(wǎng)絡(luò)的直接模仿學(xué)習(xí)方法[11]和基于最大熵原則的逆強(qiáng)化學(xué)習(xí)算法[12?14]等.

    為了解決算法實(shí)時(shí)性差、目標(biāo)函數(shù)權(quán)重系數(shù)難以標(biāo)定優(yōu)化和模仿學(xué)習(xí)方法的可解釋性不足等問題,本文提出了基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法,通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制,規(guī)劃出符合人類駕駛習(xí)慣的整體最優(yōu)的換道軌跡.本文提出的方法通過最大熵原則求出專家軌跡的概率分布模型,再通過極大似然估計(jì)得到專家軌跡特征優(yōu)化權(quán)重參數(shù)的計(jì)算方法,通過迭代求出優(yōu)化權(quán)重參數(shù),達(dá)到最終學(xué)習(xí)軌跡特征與專家軌跡特征相匹配的綜合最優(yōu)效果.

    1 雙車道交通場(chǎng)景描述與換道動(dòng)機(jī)

    1.1 場(chǎng)景描述

    本文所研究的交通場(chǎng)景是自動(dòng)駕駛汽車在城市結(jié)構(gòu)化道路中典型的雙車道交通工況,自動(dòng)駕駛汽車(自車)行駛在雙車道的右車道上,在此車道上自車前后方各有前車1 和尾車2 向前行駛,相鄰車道上也有前車3 和尾車4 向前行駛.

    如圖1 所示,左車道為快車道,自車所在車道為慢車道.自車在慢車道上跟隨前車1 進(jìn)行自適應(yīng)巡航行駛.假設(shè)某一時(shí)刻慢車道上前車1 突然減速,自車則也會(huì)相應(yīng)地減速行駛,當(dāng)前車1 減速至速度很低時(shí),自車開始產(chǎn)生自主換道意圖,欲換道跟隨前車3 從而實(shí)現(xiàn)高速巡航行駛.此時(shí)自車需要根據(jù)當(dāng)前量測(cè)到的場(chǎng)景參數(shù)—TTC(碰撞時(shí)間)和THW(車頭時(shí)距),采用貝葉斯概率理論對(duì)相鄰待換車道和本車道進(jìn)行安全性風(fēng)險(xiǎn)評(píng)估,得到當(dāng)前場(chǎng)景每個(gè)車道的安全性條件概率,然后根據(jù)安全效用做出相應(yīng)的行為決策,選擇保持該車道繼續(xù)行駛或更換車道.如果待換車道很危險(xiǎn),自車選擇保持該車道繼續(xù)行駛,直到待換車道尾車4 超過自車,新的尾車4 出現(xiàn),此時(shí)自車再重新對(duì)兩個(gè)車道進(jìn)行風(fēng)險(xiǎn)評(píng)估.當(dāng)自車做出更換車道的行為決策,發(fā)出換道指令時(shí),自車采用相應(yīng)的方法進(jìn)行軌跡規(guī)劃,得到最優(yōu)換道軌跡.

    1.2 決策方法

    針對(duì)此雙車道交通場(chǎng)景,可采用基于貝葉斯概率理論的風(fēng)險(xiǎn)評(píng)估方法和基于安全效用理論的行為決策方法,構(gòu)建易于擴(kuò)展到一般復(fù)雜場(chǎng)景的風(fēng)險(xiǎn)評(píng)估貝葉斯網(wǎng)絡(luò)和決策圖[15].該方法充分考慮了場(chǎng)景輸入量測(cè)數(shù)據(jù)的不確定性,對(duì)當(dāng)前交通場(chǎng)景的換道風(fēng)險(xiǎn)等級(jí)做出了定量化的概率描述.

    2 基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法

    近年來,隨著人工智能技術(shù)的發(fā)展,利用逆強(qiáng)化學(xué)習(xí)方法從專家示范數(shù)據(jù)集中自動(dòng)學(xué)習(xí)獲取代價(jià)函數(shù)的研究獲得了自動(dòng)駕駛汽車領(lǐng)域的廣泛關(guān)注.自動(dòng)駕駛汽車的軌跡規(guī)劃必須達(dá)到經(jīng)驗(yàn)駕駛員水平,實(shí)現(xiàn)安全決策和規(guī)劃.如何設(shè)計(jì)合適獎(jiǎng)勵(lì)函數(shù)來指導(dǎo)智能體做出類優(yōu)秀駕駛員駕駛策略,即強(qiáng)化學(xué)習(xí)方法中的獎(jiǎng)勵(lì)函數(shù)是一項(xiàng)非常有挑戰(zhàn)性的問題.因此,本文設(shè)計(jì)讓智能體從優(yōu)秀駕駛員的駕駛行為里面學(xué)習(xí)(估計(jì)、推導(dǎo))出一個(gè)可以指導(dǎo)智能體收斂到優(yōu)秀駕駛員的行駛策略的代價(jià)函數(shù),即通過逆強(qiáng)化學(xué)習(xí)方法學(xué)出專家軌跡的內(nèi)在優(yōu)化機(jī)制.

    本文采用基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法來學(xué)習(xí)專家軌跡的優(yōu)化機(jī)制,專家軌跡由模仿優(yōu)秀駕駛員的MPC 優(yōu)化軌跡規(guī)劃方法求得,驗(yàn)證逆強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)自動(dòng)駕駛汽車軌跡規(guī)劃的可行性,為自動(dòng)駕駛汽車實(shí)現(xiàn)軌跡規(guī)劃提供一個(gè)可靠、可理解、可泛化,能夠成功實(shí)現(xiàn)最優(yōu)換道軌跡的學(xué)習(xí)思路,實(shí)現(xiàn)采用逆強(qiáng)化學(xué)習(xí)方法離線學(xué)習(xí)駕駛員專家軌跡的優(yōu)化機(jī)制,進(jìn)而構(gòu)建與場(chǎng)景風(fēng)險(xiǎn)等級(jí)成映射關(guān)系的專家軌跡優(yōu)化代價(jià)函數(shù)庫(kù).

    利用直接模仿學(xué)習(xí)方法可以直接學(xué)習(xí)得出專家示范軌跡的策略函數(shù),即利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練環(huán)境特征到動(dòng)作(最優(yōu)軌跡)的映射.但是由于優(yōu)化代價(jià)函數(shù)(獎(jiǎng)勵(lì)函數(shù))未知,黑箱的訓(xùn)練過程無法直觀理解,此方法存在可解釋性差、無法泛化轉(zhuǎn)移、存在失誤率的問題.與直接模仿學(xué)習(xí)方法相比,逆強(qiáng)化學(xué)習(xí)方法的優(yōu)點(diǎn)在于:

    ① 簡(jiǎn)潔:通過逆強(qiáng)化學(xué)習(xí)方法能夠獲得優(yōu)化代價(jià)函數(shù),此代價(jià)函數(shù)體現(xiàn)了專家軌跡的優(yōu)化機(jī)制,這一優(yōu)化機(jī)制可以量化且直觀得被工程師所理解,所以代價(jià)函數(shù)是描述智能體理想行為的簡(jiǎn)潔形式,可解釋性強(qiáng).而策略函數(shù)(特征到動(dòng)作的映射)和代價(jià)函數(shù)相比則更為復(fù)雜,工程師無法直觀量化地理解訓(xùn)練過程,可解釋性差.

    ② 魯棒:通過基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的直接模仿學(xué)習(xí)方法得到的動(dòng)作容易受到外部干擾的影響.當(dāng)外部環(huán)境和內(nèi)部參數(shù)發(fā)生變化時(shí),特征到動(dòng)作的映射也會(huì)變化,但是代價(jià)函數(shù)始終不會(huì)發(fā)生變化,不會(huì)受到外部的影響.因此與策略函數(shù)相比,逆強(qiáng)化學(xué)習(xí)方法學(xué)出的優(yōu)化代價(jià)函數(shù)更具有魯棒性.

    ③ 可泛化轉(zhuǎn)移:通過逆強(qiáng)化學(xué)習(xí)方法學(xué)得的優(yōu)化代價(jià)函數(shù),體現(xiàn)了專家軌跡的優(yōu)化目標(biāo),在當(dāng)前風(fēng)險(xiǎn)等級(jí)場(chǎng)景下,優(yōu)秀駕駛員的優(yōu)化目標(biāo)不會(huì)發(fā)生變化.因此,此優(yōu)化代價(jià)函數(shù)可以用于各類車型,是可泛化轉(zhuǎn)移的.

    逆強(qiáng)化學(xué)習(xí)方法試圖恢復(fù)并獲得智能體在專家示范行為背后偏好(優(yōu)化機(jī)制)的過程.這種偏好(優(yōu)化機(jī)制)通常以代價(jià)函數(shù)或獎(jiǎng)勵(lì)函數(shù)的形式表現(xiàn)出來,代價(jià)函數(shù)與獎(jiǎng)勵(lì)函數(shù)將每個(gè)系統(tǒng)狀態(tài)的特征映射為一個(gè)狀態(tài)成本值.逆強(qiáng)化學(xué)習(xí)中的代價(jià)函數(shù)與特征之間的映射關(guān)系可能是線性、非線性或者神經(jīng)網(wǎng)絡(luò).本節(jié)與大多數(shù)逆強(qiáng)化學(xué)習(xí)方法一樣,假設(shè)特征與代價(jià)函數(shù)之間成線性映射關(guān)系,此線性關(guān)系可以表示為

    式中:C為優(yōu)化代價(jià)函數(shù);θ ∈Rn是用來參數(shù)化代價(jià)函數(shù)的特征權(quán)重向量;fξi∈Rn定義為對(duì)給定軌跡的某些抽象信息進(jìn)行編碼量化的相關(guān)特征,ξi為某個(gè)給定的軌跡.在本文討論的換道軌跡規(guī)劃問題中,這種軌跡特征包括目標(biāo)橫向位置、縱向巡航速度、橫向速度、縱橫向加速度等.基于以上定義,逆強(qiáng)化學(xué)習(xí)方法的目標(biāo)可以描述為:給定智能體的專家示范軌跡,找到能夠再現(xiàn)與專家示范軌跡相似的軌跡的優(yōu)化代價(jià)函數(shù),即每個(gè)軌跡特征的權(quán)重系數(shù),與專家示范軌跡相似的軌跡可以通過求解基于權(quán)重系數(shù)的參數(shù)化代價(jià)函數(shù)的優(yōu)化問題獲得.具體目標(biāo)為找到智能體所學(xué)軌跡的概率分布,使得由此推導(dǎo)出的軌跡特征值與專家示范軌跡的經(jīng)驗(yàn)特征值相匹配:

    2.1 最大熵原則

    熵是一個(gè)描述物質(zhì)系統(tǒng)狀態(tài)很重要的參量.通過研究最大熵原理,斯坦福大學(xué)和加州大學(xué)伯克利分校學(xué)者ZIEBART 等[16]和LIU 等[17]指出,熵最大的概率分布最好地代表了給定的專家示范信息,因?yàn)槌颂卣髌ヅ渲?,它沒有表現(xiàn)出任何其他額外的偏好.通俗地講,所學(xué)習(xí)軌跡的概率分布的熵越大,系統(tǒng)越穩(wěn)定,熵最大,系統(tǒng)最好.根據(jù)定義,關(guān)于軌跡概率分布的熵H(p)為

    在連續(xù)空間中,如本文所考慮的軌跡規(guī)劃問題,專家選擇某條軌跡是隨機(jī)概率分布事件,極大化系統(tǒng)的熵可以求得期望的專家軌跡概率分布模型p?(ξi)為

    特征匹配是重要的等式約束,如下所示.

    式(4)和(5)所示為標(biāo)準(zhǔn)的含約束的拉格朗日優(yōu)化問題.引入拉格朗日乘子 α?,θ?,該問題為

    其中 θ的維數(shù)為軌跡特征的個(gè)數(shù).引入拉格朗日函數(shù)L(p)為

    求解偏導(dǎo)數(shù)方程:

    則專家軌跡的概率分布模型的表達(dá)式為

    可以看出,由最大熵原則推導(dǎo)出的概率分布模型中,如果把 θTfξi解釋為代價(jià)函數(shù),專家軌跡的概率分布模型表達(dá)式p(ξi|θ)與相關(guān)特征的代價(jià)函數(shù)的指數(shù)成正比.這個(gè)概率分布模型中的超參數(shù)為 θ.所以根據(jù)最大熵原理,這個(gè)概率分布模型意味著:代價(jià)函數(shù)成本值越高的軌跡是更不可能出現(xiàn)的,專家選擇的概率越低,隨著代價(jià)函數(shù)成本值升高,概率成指數(shù)函數(shù)降低,換言之,智能體模仿學(xué)習(xí)專家軌跡時(shí)以指數(shù)形式的可能性更傾向于選擇代價(jià)函數(shù)成本值低的軌跡.

    又根據(jù)式(4),可得

    則概率分布模型的分母表達(dá)式為

    最終,可以得到期望的專家軌跡概率分布模型為

    其中,Z(θ)為概率分布模型的歸一化(配分)因子.

    然后,引入極大似然估計(jì)方法來獲取上述概率分布模型中超參數(shù)的計(jì)算表達(dá)式.用已有的專家采樣數(shù)據(jù),即給定的專家示范軌跡進(jìn)行極大似然估計(jì),極大化專家的似然求出概率分布模型中的超參數(shù) θ.使得專家軌跡的似然最大,也就是使得已有的專家軌跡數(shù)據(jù)最真實(shí).這樣求得的 θ參數(shù)值能夠保證專家軌跡的出現(xiàn)概率最大.所以,特征匹配下的軌跡分布熵最大化問題就轉(zhuǎn)化為了在上述指數(shù)概率分布模型下,專家軌跡的極大似然估計(jì)問題.

    在軌跡規(guī)劃問題中,規(guī)劃出的軌跡是關(guān)于橫坐標(biāo)、縱坐標(biāo)和速度的三維函數(shù),即專家軌跡是蘊(yùn)含時(shí)間信息的.因?yàn)檐壽E上每一點(diǎn)的速度都是隨機(jī)的,所以專家軌跡樣本集個(gè)數(shù)為無數(shù)條,假設(shè)專家軌跡樣本集個(gè)數(shù)為N條,則專家示范軌跡的樣本集可以表示為,i=N.為專家示范軌跡樣本集中的軌跡.

    定義專家軌跡的似然函數(shù),即聯(lián)合概率密度函數(shù)為

    式中:l(θ) 為專家軌跡的似然函數(shù);p(D|θ)為專家軌跡的聯(lián)合概率密度函數(shù).極大化似然函數(shù)l(θ),即可求出模型超參數(shù) θ?值,使得出現(xiàn)該組樣本的概率最大.

    定義專家軌跡的對(duì)數(shù)似然函數(shù)為W(θ?),表達(dá)式如下.

    式(17)中的歸一化配分因子Z(θ)也可以采用積分的方式表示.利用專家軌跡樣本集試驗(yàn)結(jié)果和極大似然估計(jì)方法得到的參數(shù)值,能夠使專家軌跡樣本集出現(xiàn)的可能性最大.

    2.2 配分因子的近似和優(yōu)化權(quán)重參數(shù)的計(jì)算

    根據(jù)上述分析和公式(17))可知,極大化專家軌跡似然的過程中,如何計(jì)算歸一化(配分)因子Z(θ)是該方法的難點(diǎn)所在.由于所有軌跡在高維空間上積分是不可處理的,即在連續(xù)狀態(tài)下,無法對(duì)全軌跡進(jìn)行積分,因此無法計(jì)算得到精確的配分因子Z(θ)[18?19].只能采用二階泰勒展開/拉布拉斯近似、蒙特卡洛采樣和一次軌跡樣條代替等方式進(jìn)行配分因子 的近似計(jì)算.基于二階泰勒展開/拉布拉斯近似的優(yōu)化權(quán)重參數(shù)最優(yōu)解法理論性較強(qiáng),試圖一次性求解出優(yōu)化權(quán)重參數(shù) θ,但此方法的代碼實(shí)現(xiàn)較為困難,很難一步到位求出最優(yōu)解.所以本節(jié)不采用此種方法求解 θ.

    本文采用基于一次軌跡樣條近似代替的梯度下降方法,迭代求解出優(yōu)化權(quán)重參數(shù) θ,直至智能體最終的學(xué)習(xí)軌跡特征與專家軌跡特征相匹配.

    如上所述,采用最大熵原理推導(dǎo)出專家軌跡的指數(shù)概率分布模型之后,可以采用極大似然估計(jì)方法得到概率分布模型中的超參數(shù):

    專家軌跡的似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù) θ的梯度可以被推導(dǎo)為

    所以專家軌跡的似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù)θ的梯度表達(dá)式為

    式中:fD為專家示范軌跡特征值的均值,fD?[fξ?d1+fξ?d2+···+fξ?dN]/N.ξ?i為專家用當(dāng)前的優(yōu)化權(quán)重參數(shù) θ在優(yōu)化一個(gè)代價(jià)函數(shù)得到一條當(dāng)前最有可能出現(xiàn)的最優(yōu)軌跡.

    與文獻(xiàn)[20]類似,利用逆最優(yōu)控制的思想:專家用當(dāng)前自己的優(yōu)化權(quán)重參數(shù) θ在刻意優(yōu)化一個(gè)代價(jià)函數(shù)得到一條當(dāng)前最有可能出現(xiàn)的最優(yōu)軌跡 ξ?i(此時(shí)專家不是在概率分布模型中隨機(jī)采樣),假設(shè)此條軌跡的概率近似為1.通過計(jì)算當(dāng)前這條最有可能出現(xiàn)的軌跡的特征值來近似代替期望特征值,即用一次軌跡樣條進(jìn)行近似代替,而不是計(jì)算采樣出的有限條軌跡的特征值.利用一次軌跡樣條方法進(jìn)行近似代替可以表示為

    因此,用一次軌跡樣條方法進(jìn)行近似代替后的專家軌跡似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù)的梯度表達(dá)式就變成了

    f′即為最有可能出現(xiàn)的軌跡的特征值.當(dāng)然,如前所述,本文假設(shè)智能體模仿專家選擇的軌跡實(shí)際上是通過最小化當(dāng)前的代價(jià)函數(shù)而產(chǎn)生的,而不是假設(shè)專家選擇的軌跡是從概率分布中抽樣的.所以,基于一次軌跡樣條近似代替的優(yōu)化權(quán)重參數(shù)梯度下降迭代公式為

    式 中:θk+1為 迭代更新 后 的優(yōu)化權(quán)重 參 數(shù)值;θk為專家當(dāng)前的優(yōu)化權(quán)重參數(shù)值;α為學(xué)習(xí)參數(shù)值:梯度下降速度.

    每次梯度下降迭代后,都會(huì)得到一個(gè)新的優(yōu)化權(quán)重參數(shù)向量,之后即可得到新的優(yōu)化代價(jià)函數(shù),得到的由優(yōu)化權(quán)重參數(shù)構(gòu)成的優(yōu)化代價(jià)函數(shù)能夠讓工程師直觀地、量化地理解當(dāng)前的內(nèi)在優(yōu)化機(jī)制和原則,即在換道場(chǎng)景中專家軌跡究竟更在意哪些優(yōu)化目標(biāo),在意到什么程度.逆強(qiáng)化學(xué)習(xí)方法的內(nèi)層一定要有一個(gè)優(yōu)化的過程,所以得到新的優(yōu)化權(quán)重參數(shù)和優(yōu)化代價(jià)函數(shù)之后,需要求解這個(gè)很簡(jiǎn)單的最優(yōu)問題.通過求解此優(yōu)化代價(jià)函數(shù),得到幾個(gè)優(yōu)化的學(xué)習(xí)軌跡離散點(diǎn)坐標(biāo)(本文為6 個(gè)),也可以說是,通過優(yōu)化幾個(gè)軌跡離散點(diǎn)的坐標(biāo)使優(yōu)化代價(jià)函數(shù)極小化.

    2.3 三次樣條插值方法和特征的提取

    求解由當(dāng)前優(yōu)化權(quán)重參數(shù)構(gòu)成的優(yōu)化代價(jià)函數(shù),得到時(shí)間間隔T/5的6 個(gè)最優(yōu)離散點(diǎn)坐標(biāo),假定被學(xué)習(xí)的專家軌跡總的時(shí)間間隔為T.為了提取學(xué)習(xí)軌跡的相關(guān)特征,在本文中,對(duì)6 個(gè)優(yōu)化后的等時(shí)間間距離散坐標(biāo)點(diǎn)采用3 次樣條插值方法進(jìn)行插值獲得軌跡的3 次樣條函數(shù).本文用3 次樣條函數(shù)來表示隨時(shí)間t變化的換道軌跡橫向位置y和縱向位置x.

    采用3 次樣條插值法得到軌跡的3 次樣條函數(shù)之后,即可提取當(dāng)前軌跡的相關(guān)特征,當(dāng)前的這條軌跡為智能體用迭代更新得到的當(dāng)前優(yōu)化權(quán)重參數(shù) θ,極小化相應(yīng)的優(yōu)化代價(jià)函數(shù)得到的軌跡.本文提取一些典型的軌跡特征,這些特征能夠反映換道軌跡的相關(guān)重要特性,包括汽車期望橫向位置特征(式(24))ftar(ξ)、汽車 期 望 縱向巡航速度 特 征(式(25))fvx(ξ)、以及汽車橫向速度(式(26))、縱向加速度(式(27))和橫向加速度(式(28))等高階動(dòng)力學(xué)特征fvy(ξ)、fax(ξ)、fay(ξ).

    式中:ytarget為目標(biāo)車道中心線的橫向位置;vxdes為換道結(jié)束后跟隨快車道上的前車的期望巡航縱向速度.最后的軌跡特征fξi可以通過組合以上這些子特征得到.本文從當(dāng)前軌跡中提取這5 個(gè)特征,與從專家軌跡中提取的這5 個(gè)特征做匹配、做比較,分別判斷當(dāng)前軌跡的5個(gè)特征是否和專家軌跡的5個(gè)特征近似相同,ε為特征差閾值常數(shù).如果兩者不匹配、不相同,則根據(jù)公式(23)迭代更新求出橫向或縱向的每個(gè)特征對(duì)應(yīng)的新的優(yōu)化權(quán)重參數(shù) θ1,θ2,θ3和θ4,θ5,構(gòu)成新的優(yōu)化代價(jià)函數(shù),如式(29)所示,優(yōu)化求解出新的軌跡,提取新的軌跡特征,重復(fù)以上過程,直至智能體當(dāng)前軌跡的特征與專家軌跡的特征相匹配,即近似相同,最終迭代求出的此時(shí)的優(yōu)化權(quán)重參數(shù) θ*為可以復(fù)現(xiàn)專家軌跡的最優(yōu)優(yōu)化權(quán)重參數(shù).

    在逆強(qiáng)化學(xué)習(xí)方法中,采用基于一次軌跡樣條近似代替的梯度下降迭代法求解最優(yōu)優(yōu)化權(quán)重參數(shù)θ?的算法過程可用以下偽代碼表示.軌跡的3 個(gè)橫向相關(guān)特征和兩個(gè)縱向相關(guān)特征對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù)分別按照以下過程進(jìn)行求解.

    算法1 逆強(qiáng)化學(xué)習(xí)方法(基于一次軌跡樣條代替近似的梯度下降迭代法)

    其中,?為軌跡支撐點(diǎn)的集合,grad為特征差梯度.基于一次軌跡樣條近似代替的梯度下降迭代方法按照“優(yōu)化一次、插值一次、匹配一次、迭代一次”4 步的總體思路實(shí)現(xiàn)逆強(qiáng)化學(xué)習(xí)方法的過程,直至求出最終的優(yōu)化權(quán)重參數(shù)與相應(yīng)的軌跡,此方法可操作性強(qiáng),選用此方法復(fù)現(xiàn)專家軌跡.

    3 專家軌跡逆強(qiáng)化學(xué)習(xí)仿真結(jié)果

    MPC 優(yōu)化軌跡規(guī)劃方法的優(yōu)化機(jī)制符合人類駕駛經(jīng)驗(yàn)和習(xí)慣[21?22].本文將利用模仿優(yōu)秀駕駛員的MPC 優(yōu)化軌跡規(guī)劃方法求出的一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的自車最優(yōu)換道軌跡作為一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景兩個(gè)場(chǎng)景的專家示范軌跡.一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的自車最優(yōu)換道軌跡,即文獻(xiàn)[15]在一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景中采用非線性MPC 優(yōu)化軌跡規(guī)劃方法求解出的最優(yōu)軌跡.模仿優(yōu)秀駕駛員的基于非線性MPC 的優(yōu)化軌跡規(guī)劃方法的軟約束為優(yōu)化目標(biāo)勢(shì)場(chǎng)函數(shù),考慮了自車換道位置準(zhǔn)確性、安全性、動(dòng)力性、舒適性等優(yōu)化目標(biāo),硬約束包含等式約束—二自由度汽車運(yùn)動(dòng)學(xué)方程和防碰撞安全域不等式約束.在汽車運(yùn)動(dòng)學(xué)方程模型中,汽車的軸距為1.8 m.

    一般風(fēng)險(xiǎn)場(chǎng)景中,周車1 和2 的車速都為15 m/s,自車和周車4 的車速都為16 m/s,周車3 的車速為20 m/s.以自車的起始位置為縱向坐標(biāo)原點(diǎn),自車縱向坐標(biāo)為0 m.周車1 和周車3 的起始位置坐標(biāo)為100 m,周車2 和周車4 的起始位置坐標(biāo)為?80 m.在高風(fēng)險(xiǎn)場(chǎng)景中,周車1 和2 的車速都為15 m/s,周車3 和周車4 的車速分別為20 m/s 和17 m/s,自車的車速為16 m/s.以自車的起始位置為縱向坐標(biāo)原點(diǎn).周車1 和周車3 的起始位置坐標(biāo)為100 m,周車2 和周車4 的起始位置坐標(biāo)分別為?80 m 和?58 m.一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的區(qū)別在于自車相鄰車道上的尾車4 的速度和起始位置不同.尾車4 的車速越高,與自車的縱向距離越近,自車的換道風(fēng)險(xiǎn)越高;反之,尾車4 的車速越低,與自車的縱向距離越遠(yuǎn),自車的換道風(fēng)險(xiǎn)越低.

    通過基于MATLAB 的仿真,驗(yàn)證所提出的逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)兩個(gè)場(chǎng)景中專家軌跡的能力.

    3.1 一般風(fēng)險(xiǎn)場(chǎng)景專家軌跡的逆強(qiáng)化學(xué)習(xí)結(jié)果

    為學(xué)習(xí)此一般風(fēng)險(xiǎn)場(chǎng)景的專家軌跡,選取初始優(yōu)化權(quán)重參數(shù) θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個(gè)特征的初始值依次為:0.01、1、10、20、1.圖2 為自車期望橫向位置、橫向速度、橫向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖3(a) 為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差范數(shù)的迭代演化,如式(30)所示.

    圖2 一般風(fēng)險(xiǎn)場(chǎng)景期望橫向位置、速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.2 IRL results of lateral position, speed, and acceleration in the general-risk scenario

    從圖3 可以看出,在一般風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化權(quán)重參數(shù)經(jīng)優(yōu)化插值生成的橫向?qū)W習(xí)軌跡(自車的橫向位置坐標(biāo)、橫向速度和橫向加速度3 組曲線)與橫向?qū)<臆壽E差別較大,初始軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差的范數(shù)比較大(不到500),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差稍大于20,橫向速度特征值之差也存在.智能體按照基于一次軌跡樣條代替近似的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡也和專家軌跡越來越相似,智能體學(xué)習(xí)得到的軌跡橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值的差值也逐漸減小,迭代至20 次時(shí),特征差基本收斂至0.優(yōu)化參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為橫向最終學(xué)習(xí)軌跡,即3 組橫向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與橫向?qū)<臆壽E很相近,特別是橫向位置與橫向速度.迭代最終的橫向位置、橫向速度和橫向加速度優(yōu)化權(quán)重參數(shù)為0.880 3、0.089 7、0.360 4,量化地表達(dá)了與橫向最終學(xué)習(xí)軌跡相近的橫向?qū)<臆壽E的內(nèi)在優(yōu)化機(jī)制,即專家在換道過程中對(duì)不同橫向目標(biāo)的不同重視程度.

    圖4 為自車期望縱向巡航速度、縱向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖5(a)為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差范數(shù)的迭代演化,如式(30)所示.

    圖4 一般風(fēng)險(xiǎn)場(chǎng)景下期望縱向速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.4 IRL results of longitudinal speed and acceleration in the general-risk scenario

    圖5 一般風(fēng)險(xiǎn)場(chǎng)景期望縱向軌跡關(guān)鍵參數(shù)結(jié)果Fig.5 IRL results of key parameters of longitudinal trajectories in the general-risk scenario

    圖5(b)為逆強(qiáng)化學(xué)習(xí)過程中自車期望縱向巡航速度和縱向加速度兩個(gè)特征梯度的迭代演化.圖5(c)為逆強(qiáng)化學(xué)習(xí)過程中,自車期望縱向巡航速度和縱向加速度兩個(gè)特征相對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù) θ4和 θ5的迭代演化.

    從圖5 可以看出,在一般風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化參數(shù)經(jīng)優(yōu)化插值生成的縱向?qū)W習(xí)軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向?qū)<臆壽E存在一定的差距,初始軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差的范數(shù)很大(接近800),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差不到30,縱向加速度特征值之差稍大于5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡和專家軌跡越來越相似,智能體學(xué)習(xí)得到的軌跡縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值的差值也逐漸減小,迭代至60 次時(shí),特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為縱向最終學(xué)習(xí)軌跡,即兩組縱向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與縱向?qū)<臆壽E很相近,特別是縱向巡航速度.迭代最終的縱向巡航速度和縱向加速度優(yōu)化權(quán)重參數(shù)為4.673 3×10?7和5.226×10?7,量化地表達(dá)了與縱向最終學(xué)習(xí)軌跡相近的縱向?qū)<臆壽E的內(nèi)在優(yōu)化機(jī)制,也就是專家在換道過程中對(duì)兩個(gè)縱向相關(guān)目標(biāo)的各自的重視程度.

    3.2 高風(fēng)險(xiǎn)場(chǎng)景專家軌跡的逆強(qiáng)化學(xué)習(xí)結(jié)果

    為學(xué)習(xí)此高風(fēng)險(xiǎn)場(chǎng)景的專家軌跡,選取初始優(yōu)化權(quán)重參數(shù) θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個(gè)特征的初始權(quán)重參數(shù)依次為:0.01、1、10、0.01、1.圖6 為高風(fēng)險(xiǎn)場(chǎng)景中自車期望橫向位置、橫向速度、橫向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖7(a)為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差范數(shù)的迭代演化.圖7(b)為高風(fēng)險(xiǎn)場(chǎng)景中自車期望橫向位置、橫向速度、橫向加速度3 個(gè)特征梯度的迭代演化.圖7(c)為在此高風(fēng)險(xiǎn)場(chǎng)景的逆強(qiáng)化學(xué)習(xí)過程中,自車期望橫向位置、橫向速度、橫向加速度3 個(gè)特征相對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù) θ1、θ2、θ3的迭代演化.

    圖6 高風(fēng)險(xiǎn)場(chǎng)景期望橫向位置、速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.6 IRL results of lateral position, speed, and acceleration in the high-risk scenario

    圖7 高風(fēng)險(xiǎn)場(chǎng)景期望橫向軌跡關(guān)鍵參數(shù)結(jié)果Fig.7 IRL results of key parameters of lateral trajectories in the high-risk scenario

    從圖7 可以看出,在高風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化權(quán)重參數(shù)生成的橫向?qū)W習(xí)軌跡(自車的橫向位置坐標(biāo)、橫向速度和橫向加速度3 組曲線)與橫向?qū)<臆壽E相差甚遠(yuǎn),初始軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差的范數(shù)也很大(900 左右),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差不到30,橫向速度特征值之差在?5 左右,橫向加速度特征值之差稍小于?10.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體學(xué)習(xí)得到的軌跡和專家軌跡越來越接近,智能體學(xué)習(xí)得到的軌跡橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值的差值也逐漸減小,迭代至50 次時(shí),特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為橫向最終學(xué)習(xí)軌跡,即3 組橫向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與橫向?qū)<臆壽E很相近,特別是橫向位置與橫向速度,盡管橫向速度與橫向加速度最終學(xué)習(xí)軌跡后期有微小波動(dòng).迭代最終的橫向位置、橫向速度和橫向加速度優(yōu)化權(quán)重參數(shù)為5.967 6,0.081 0,0.503 9.可見,與一般風(fēng)險(xiǎn)場(chǎng)景相比,專家軌跡的橫向位置優(yōu)化權(quán)重系數(shù)明顯升高,所以在高風(fēng)險(xiǎn)場(chǎng)景換道專家軌跡的內(nèi)在優(yōu)化機(jī)制中,大大加強(qiáng)了對(duì)期望橫向位置這個(gè)橫向目標(biāo)的重視程度,明顯超過了對(duì)控制橫向速度和橫向加速度不要過大的重視程度.此換道場(chǎng)景中,專家最在意讓自車盡早到達(dá)期望橫向位置,完成自主換道.

    圖8 為高風(fēng)險(xiǎn)場(chǎng)景中,自車期望縱向巡航速度、縱向加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果.圖8(a)為逆強(qiáng)化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差范數(shù)的迭代演化.圖8(b)為高風(fēng)險(xiǎn)場(chǎng)景中自車期望縱向巡航速度和縱向加速度兩個(gè)特征梯度的迭代演化.圖8(c)為在高風(fēng)險(xiǎn)場(chǎng)景的逆強(qiáng)化學(xué)習(xí)過程中,自車期望縱向巡航速度和縱向加速度兩個(gè)特征相對(duì)應(yīng)的優(yōu)化權(quán)重參數(shù) θ4和 θ5的迭代演化.

    圖8 高風(fēng)險(xiǎn)場(chǎng)景下期望縱向速度、加速度的逆強(qiáng)化學(xué)習(xí)結(jié)果Fig.8 IRL results of longitudinal speed and acceleration in the high-risk scenario

    從圖8 可以看出,在高風(fēng)險(xiǎn)場(chǎng)景中,初始優(yōu)化權(quán)重參數(shù)生成的縱向?qū)W習(xí)軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向?qū)<臆壽E存在一些差距,初始軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差的范數(shù)比較大(接近300),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差大于15,縱向加速度特征值之差稍大于?5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強(qiáng)化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡和專家軌跡的相似程度越來越高,智能體學(xué)習(xí)得到的軌跡縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值的差值也逐漸減小,迭代至30 次時(shí),特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時(shí),經(jīng)優(yōu)化插值生成的軌跡為縱向最終學(xué)習(xí)軌跡,即兩組縱向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與縱向?qū)<臆壽E很相近,特別是縱向巡航速度.雖然縱向加速度最終學(xué)習(xí)曲線和縱向加速度專家軌跡曲線不完全吻合,但兩者變化趨勢(shì)一致.迭代最終的縱向巡航速度和縱向加速度優(yōu)化權(quán)重參數(shù)為0.422 和0.002.可見,與一般風(fēng)險(xiǎn)場(chǎng)景相比,專家軌跡的縱向巡航速度優(yōu)化權(quán)重系數(shù)有所升高,所以在高風(fēng)險(xiǎn)場(chǎng)景換道專家軌跡的內(nèi)在優(yōu)化機(jī)制中,加強(qiáng)了對(duì)期望縱向巡航速度這個(gè)縱向目標(biāo)的重視程度,并且其超過了對(duì)舒適性(控制縱向加速度不要過大)的重視程度.此換道場(chǎng)景中,專家意圖讓自車的縱向巡航速度快速升高.

    仿真結(jié)果可知,與一般風(fēng)險(xiǎn)場(chǎng)景通過逆強(qiáng)化學(xué)習(xí)方法得到的專家軌跡優(yōu)化代價(jià)函數(shù)相比,在高風(fēng)險(xiǎn)場(chǎng)景的優(yōu)化代價(jià)函數(shù)中,期望橫向位置和期望縱向巡航速度目標(biāo)的優(yōu)化權(quán)重系數(shù)更大,二者中,期望橫向位置的權(quán)重系數(shù)明顯升高.高風(fēng)險(xiǎn)場(chǎng)景中,學(xué)習(xí)專家軌跡的智能體更加重視和在意期望橫向位置和期望縱向巡航速度這兩個(gè)優(yōu)化目標(biāo),相對(duì)來講,此時(shí)的智能體不非常重視舒適性和經(jīng)濟(jì)性,即不再著重較多地限制高階動(dòng)力學(xué)特性響應(yīng)過大,而是希望自車快速到達(dá)期望橫向位置,且快速升高車速以跟隨車速較高的前車巡航行駛.這充分證明了所提出的逆強(qiáng)化學(xué)習(xí)方法成功地學(xué)習(xí)了優(yōu)秀駕駛員(仿優(yōu)秀駕駛員的MPC 方法)換道過程的優(yōu)化機(jī)制,這一優(yōu)化機(jī)制可以量化且直觀得被工程師所理解,具有可解釋、可轉(zhuǎn)移和可泛化到其他智能體的特點(diǎn).

    從兩個(gè)場(chǎng)景的專家軌跡逆強(qiáng)化學(xué)習(xí)示例中可以得出結(jié)論,此逆強(qiáng)化學(xué)習(xí)方法有能力通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制(專家軌跡優(yōu)化代價(jià)函數(shù)的權(quán)重系數(shù))從而成功復(fù)現(xiàn)換道的橫縱向?qū)<臆壽E,即通過逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)優(yōu)秀駕駛員換道的優(yōu)化機(jī)制,復(fù)現(xiàn)專家軌跡是完全可行的.此可行性結(jié)論為未來利用逆強(qiáng)化學(xué)習(xí)方法大量離線學(xué)習(xí)優(yōu)秀駕駛員在不同風(fēng)險(xiǎn)場(chǎng)景的專家軌跡的優(yōu)化機(jī)制,構(gòu)建與場(chǎng)景風(fēng)險(xiǎn)等級(jí)成映射關(guān)系的專家軌跡優(yōu)化代價(jià)函數(shù)庫(kù)奠定了理論和方法基礎(chǔ).以逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)得出的優(yōu)化代價(jià)函數(shù)作為目標(biāo)函數(shù),通過求解基于此目標(biāo)函數(shù)的優(yōu)化問題,可以實(shí)現(xiàn)自動(dòng)駕駛汽車的軌跡規(guī)劃功能.

    4 結(jié)論與展望

    本文提出了基于最大熵原則的逆強(qiáng)化學(xué)習(xí)方法,通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制來復(fù)現(xiàn)換道的專家軌跡.首先,根據(jù)最大熵原則推導(dǎo)出專家軌跡的指數(shù)型概率分布模型,再由極大似然估計(jì)方法得到專家軌跡特征的優(yōu)化權(quán)重參數(shù)的計(jì)算方法.然后通過基于一次軌跡樣條近似代替的梯度下降方法,迭代求出優(yōu)化權(quán)重參數(shù),最后實(shí)現(xiàn)智能體軌跡的特征與專家軌跡的特征相匹配.利用MPC 方法求出的自車換道軌跡作為一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的專家軌跡,從兩個(gè)典型場(chǎng)景的逆強(qiáng)化學(xué)習(xí)結(jié)果得出,逆強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機(jī)制進(jìn)而實(shí)現(xiàn)換道軌跡規(guī)劃是完全可行的.該方法學(xué)習(xí)到的優(yōu)化機(jī)制具有魯棒、可量化、可轉(zhuǎn)移泛化、直觀、強(qiáng)解釋性的優(yōu)點(diǎn).

    本文驗(yàn)證了逆強(qiáng)化學(xué)習(xí)方法通過學(xué)習(xí)專家軌跡的優(yōu)化機(jī)制復(fù)現(xiàn)專家軌跡的可行性,為通過大量離線學(xué)習(xí)建立專家軌跡優(yōu)化代價(jià)函數(shù)庫(kù)提供必要的理論基礎(chǔ).本文研究旨在通過學(xué)習(xí)駕駛專家軌跡的內(nèi)在優(yōu)化機(jī)制,實(shí)現(xiàn)符合人類駕駛習(xí)慣的優(yōu)化換道軌跡規(guī)劃.此外,不同駕駛者或乘員都有各自的駕駛風(fēng)格和乘坐偏好,因此將個(gè)性化學(xué)習(xí)納入智能駕駛決策規(guī)劃過程是另一項(xiàng)亟需解決的課題.本文研究工作在一般風(fēng)險(xiǎn)場(chǎng)景和高風(fēng)險(xiǎn)場(chǎng)景的學(xué)習(xí)結(jié)果表明本方法具有適應(yīng)個(gè)性化駕駛學(xué)習(xí)的潛力,因此未來工作將聚焦于駕駛風(fēng)格個(gè)性化的智能駕駛軌跡規(guī)劃學(xué)習(xí)方法研究.

    猜你喜歡
    特征值軌跡加速度
    “鱉”不住了!從26元/斤飆至38元/斤,2022年甲魚能否再跑出“加速度”?
    一類帶強(qiáng)制位勢(shì)的p-Laplace特征值問題
    單圈圖關(guān)聯(lián)矩陣的特征值
    軌跡
    軌跡
    天際加速度
    汽車觀察(2018年12期)2018-12-26 01:05:42
    創(chuàng)新,動(dòng)能轉(zhuǎn)換的“加速度”
    金橋(2018年4期)2018-09-26 02:24:46
    死亡加速度
    軌跡
    進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
    97人妻天天添夜夜摸| 欧美精品啪啪一区二区三区 | 三上悠亚av全集在线观看| 制服人妻中文乱码| 黄色视频不卡| 欧美日韩国产mv在线观看视频| 欧美少妇被猛烈插入视频| 极品人妻少妇av视频| 国产亚洲精品久久久久5区| 午夜激情av网站| 久久久精品国产亚洲av高清涩受| 90打野战视频偷拍视频| 丁香六月天网| 久久久久国产精品人妻一区二区| 久久99热这里只频精品6学生| 婷婷色综合大香蕉| 亚洲av电影在线进入| av在线app专区| xxxhd国产人妻xxx| 18禁黄网站禁片午夜丰满| 波野结衣二区三区在线| 日本91视频免费播放| 日日摸夜夜添夜夜爱| 中文字幕人妻熟女乱码| 18在线观看网站| 99国产精品一区二区蜜桃av | 中文字幕色久视频| 国产黄频视频在线观看| 国产福利在线免费观看视频| 久久精品国产亚洲av高清一级| 人人妻,人人澡人人爽秒播 | 午夜影院在线不卡| 亚洲精品国产av蜜桃| 欧美 日韩 精品 国产| 国产亚洲av高清不卡| 欧美黄色淫秽网站| 在线天堂中文资源库| 三上悠亚av全集在线观看| 99热全是精品| a级毛片黄视频| 又紧又爽又黄一区二区| 夜夜骑夜夜射夜夜干| 国产精品 国内视频| 免费黄频网站在线观看国产| 下体分泌物呈黄色| 欧美黄色淫秽网站| 别揉我奶头~嗯~啊~动态视频 | av又黄又爽大尺度在线免费看| 国产极品粉嫩免费观看在线| 国产成人系列免费观看| 丁香六月天网| 精品人妻在线不人妻| 亚洲av在线观看美女高潮| 国产精品久久久久久精品电影小说| 久久久久国产精品人妻一区二区| 国产无遮挡羞羞视频在线观看| 麻豆乱淫一区二区| 悠悠久久av| 日本五十路高清| 精品高清国产在线一区| 狠狠婷婷综合久久久久久88av| 国产av一区二区精品久久| 91精品伊人久久大香线蕉| 亚洲国产精品一区三区| 日本wwww免费看| www.999成人在线观看| 亚洲av在线观看美女高潮| 秋霞在线观看毛片| av不卡在线播放| 一区二区三区四区激情视频| 亚洲av男天堂| 成人黄色视频免费在线看| 最黄视频免费看| 免费高清在线观看视频在线观看| 久久国产精品大桥未久av| 精品人妻在线不人妻| 99久久人妻综合| 国产老妇伦熟女老妇高清| 亚洲精品久久午夜乱码| 大片电影免费在线观看免费| 99精品久久久久人妻精品| 精品国产乱码久久久久久男人| 国产91精品成人一区二区三区 | 国产精品久久久久久人妻精品电影 | 亚洲 国产 在线| av不卡在线播放| 热99国产精品久久久久久7| 日日摸夜夜添夜夜爱| 国产精品 国内视频| 欧美激情极品国产一区二区三区| 少妇精品久久久久久久| 亚洲中文字幕日韩| 亚洲欧美精品综合一区二区三区| 脱女人内裤的视频| www.熟女人妻精品国产| 国产成人av教育| 嫁个100分男人电影在线观看 | 国产精品免费大片| 满18在线观看网站| 亚洲九九香蕉| 51午夜福利影视在线观看| 男女免费视频国产| 丝袜人妻中文字幕| 久久精品人人爽人人爽视色| 1024香蕉在线观看| 一本一本久久a久久精品综合妖精| av有码第一页| 精品国产一区二区三区久久久樱花| 黄片小视频在线播放| 久久久久久久国产电影| av不卡在线播放| 99国产精品99久久久久| 午夜91福利影院| 2021少妇久久久久久久久久久| av不卡在线播放| 啦啦啦视频在线资源免费观看| 一本—道久久a久久精品蜜桃钙片| 精品熟女少妇八av免费久了| 亚洲精品自拍成人| 久久女婷五月综合色啪小说| 亚洲人成77777在线视频| 人成视频在线观看免费观看| 视频在线观看一区二区三区| 一区二区三区精品91| 成年人黄色毛片网站| 亚洲九九香蕉| 99国产精品一区二区蜜桃av | 19禁男女啪啪无遮挡网站| 亚洲av美国av| 香蕉丝袜av| 欧美精品人与动牲交sv欧美| 国产成人av激情在线播放| 久久99热这里只频精品6学生| 久久久久国产一级毛片高清牌| 在线看a的网站| 黄频高清免费视频| 亚洲人成电影观看| 亚洲欧洲国产日韩| 亚洲综合色网址| 日日爽夜夜爽网站| 亚洲精品第二区| 自线自在国产av| 80岁老熟妇乱子伦牲交| 国产高清不卡午夜福利| 捣出白浆h1v1| 宅男免费午夜| 精品人妻在线不人妻| 久热这里只有精品99| 国产精品国产av在线观看| 精品人妻在线不人妻| 亚洲国产精品999| 久久久久精品人妻al黑| 久久天堂一区二区三区四区| 人体艺术视频欧美日本| 中文字幕另类日韩欧美亚洲嫩草| www.999成人在线观看| 欧美黑人欧美精品刺激| 久久毛片免费看一区二区三区| 日韩视频在线欧美| 久热这里只有精品99| 午夜免费观看性视频| 日韩精品免费视频一区二区三区| 亚洲国产日韩一区二区| 精品国产乱码久久久久久男人| 51午夜福利影视在线观看| 大话2 男鬼变身卡| 成人亚洲欧美一区二区av| 精品少妇黑人巨大在线播放| cao死你这个sao货| 中文欧美无线码| av又黄又爽大尺度在线免费看| 国产男女内射视频| 久久久国产一区二区| 国产精品 欧美亚洲| 日本av手机在线免费观看| 一区二区三区乱码不卡18| 晚上一个人看的免费电影| 久久精品熟女亚洲av麻豆精品| 一个人免费看片子| 亚洲欧美激情在线| 又黄又粗又硬又大视频| 亚洲午夜精品一区,二区,三区| √禁漫天堂资源中文www| 两人在一起打扑克的视频| 久久久久久亚洲精品国产蜜桃av| 9色porny在线观看| 午夜91福利影院| 老司机影院成人| 亚洲国产欧美网| 日本欧美国产在线视频| 国产亚洲av高清不卡| 中文字幕高清在线视频| 黄片播放在线免费| 免费在线观看视频国产中文字幕亚洲 | 纵有疾风起免费观看全集完整版| 欧美日韩亚洲综合一区二区三区_| 你懂的网址亚洲精品在线观看| 色精品久久人妻99蜜桃| 日韩人妻精品一区2区三区| 亚洲美女黄色视频免费看| 欧美日韩视频精品一区| 两人在一起打扑克的视频| 黑人猛操日本美女一级片| 久久免费观看电影| 亚洲国产精品一区二区三区在线| 国产高清不卡午夜福利| 高清黄色对白视频在线免费看| 国产精品av久久久久免费| 18在线观看网站| 久久九九热精品免费| 女性生殖器流出的白浆| 久久亚洲国产成人精品v| 一本一本久久a久久精品综合妖精| 久久亚洲国产成人精品v| 黄色视频不卡| 99国产精品免费福利视频| 1024香蕉在线观看| 亚洲第一青青草原| 高清av免费在线| 久久人人爽av亚洲精品天堂| 青春草亚洲视频在线观看| 大码成人一级视频| 亚洲欧洲日产国产| av福利片在线| 亚洲人成电影观看| cao死你这个sao货| 久久中文字幕一级| 久久国产精品大桥未久av| 成在线人永久免费视频| 人妻一区二区av| 国产av一区二区精品久久| 亚洲国产精品999| 精品视频人人做人人爽| 国产在线观看jvid| 亚洲欧美色中文字幕在线| 999久久久国产精品视频| 热re99久久国产66热| 精品国产一区二区久久| 黄色一级大片看看| 久久国产精品大桥未久av| 日韩大码丰满熟妇| 国产精品国产三级专区第一集| 久久久久久久久久久久大奶| 久久精品成人免费网站| 电影成人av| 亚洲一区二区三区欧美精品| 老司机午夜十八禁免费视频| 精品一区二区三区av网在线观看 | 久久久久久人人人人人| 婷婷成人精品国产| 日本欧美视频一区| 午夜影院在线不卡| 亚洲人成网站在线观看播放| 五月开心婷婷网| 人妻一区二区av| 久久亚洲精品不卡| 国产欧美日韩精品亚洲av| 国产欧美日韩精品亚洲av| 亚洲国产精品一区二区三区在线| 色婷婷av一区二区三区视频| 在线观看国产h片| 亚洲欧美精品综合一区二区三区| 老司机在亚洲福利影院| 午夜日韩欧美国产| 91九色精品人成在线观看| 国产日韩欧美视频二区| 真人做人爱边吃奶动态| 最近手机中文字幕大全| 秋霞在线观看毛片| 日韩精品免费视频一区二区三区| 欧美人与善性xxx| 精品国产乱码久久久久久男人| 国产成人精品久久二区二区91| 亚洲色图 男人天堂 中文字幕| 一本色道久久久久久精品综合| 日韩大片免费观看网站| 亚洲精品国产色婷婷电影| 老司机影院成人| 少妇 在线观看| 国产淫语在线视频| 午夜免费观看性视频| 97在线人人人人妻| 黄色a级毛片大全视频| 好男人视频免费观看在线| 精品亚洲成a人片在线观看| 亚洲,欧美,日韩| 亚洲一区二区三区欧美精品| 欧美大码av| 性色av一级| 日本黄色日本黄色录像| 大香蕉久久成人网| 久久国产亚洲av麻豆专区| 晚上一个人看的免费电影| 1024香蕉在线观看| 香蕉丝袜av| 精品欧美一区二区三区在线| 在现免费观看毛片| 久热这里只有精品99| 亚洲七黄色美女视频| 菩萨蛮人人尽说江南好唐韦庄| 人妻人人澡人人爽人人| 国产亚洲av高清不卡| 美女中出高潮动态图| 捣出白浆h1v1| 少妇人妻 视频| 日本av手机在线免费观看| 午夜激情av网站| 亚洲第一青青草原| 国产成人影院久久av| 我的亚洲天堂| 久久久久网色| 国产淫语在线视频| 欧美日韩综合久久久久久| 只有这里有精品99| 精品国产一区二区久久| 中文字幕高清在线视频| 久久久久久免费高清国产稀缺| 日韩视频在线欧美| 精品福利永久在线观看| 美女主播在线视频| 国产亚洲午夜精品一区二区久久| 中文字幕av电影在线播放| 久久久久久久国产电影| 亚洲,欧美,日韩| 纵有疾风起免费观看全集完整版| 91麻豆av在线| 精品卡一卡二卡四卡免费| 精品人妻一区二区三区麻豆| 久久精品国产亚洲av涩爱| 久久免费观看电影| 成人国语在线视频| 97精品久久久久久久久久精品| 十八禁高潮呻吟视频| 欧美黑人欧美精品刺激| 午夜老司机福利片| 91精品国产国语对白视频| 黑人巨大精品欧美一区二区蜜桃| 赤兔流量卡办理| 欧美日韩综合久久久久久| 搡老乐熟女国产| av国产精品久久久久影院| 精品福利永久在线观看| 亚洲欧美激情在线| 成年动漫av网址| 视频在线观看一区二区三区| 99热网站在线观看| 男女高潮啪啪啪动态图| 亚洲国产欧美网| 老熟女久久久| 亚洲精品美女久久久久99蜜臀 | 免费看十八禁软件| 国产精品免费大片| 午夜福利影视在线免费观看| av天堂在线播放| 你懂的网址亚洲精品在线观看| 成年人黄色毛片网站| 亚洲国产中文字幕在线视频| 99国产精品一区二区三区| 精品一品国产午夜福利视频| 国产欧美亚洲国产| 制服诱惑二区| 免费在线观看日本一区| 9热在线视频观看99| 搡老岳熟女国产| 天天躁夜夜躁狠狠久久av| 啦啦啦在线免费观看视频4| 蜜桃国产av成人99| 亚洲国产日韩一区二区| 成年女人毛片免费观看观看9 | 真人做人爱边吃奶动态| 日本五十路高清| 亚洲激情五月婷婷啪啪| 一级毛片 在线播放| 亚洲国产最新在线播放| 国产在线一区二区三区精| 国产在线视频一区二区| 久久九九热精品免费| 中国国产av一级| 亚洲情色 制服丝袜| 狠狠精品人妻久久久久久综合| 欧美黑人欧美精品刺激| 午夜福利免费观看在线| 美女主播在线视频| 欧美久久黑人一区二区| 悠悠久久av| kizo精华| 美女脱内裤让男人舔精品视频| 十八禁人妻一区二区| 操美女的视频在线观看| 欧美人与性动交α欧美软件| 精品一区二区三卡| av网站免费在线观看视频| 一级毛片电影观看| 男人舔女人的私密视频| 欧美日韩亚洲综合一区二区三区_| 又粗又硬又长又爽又黄的视频| 亚洲精品成人av观看孕妇| 五月开心婷婷网| 国产精品人妻久久久影院| 亚洲熟女毛片儿| 国产在线免费精品| 99久久精品国产亚洲精品| 亚洲精品一卡2卡三卡4卡5卡 | 王馨瑶露胸无遮挡在线观看| 悠悠久久av| 亚洲一码二码三码区别大吗| 日日夜夜操网爽| 热99久久久久精品小说推荐| 国产麻豆69| 亚洲中文字幕日韩| 最近中文字幕2019免费版| 性少妇av在线| 9热在线视频观看99| 免费在线观看完整版高清| 国产成人一区二区三区免费视频网站 | 最新在线观看一区二区三区 | 欧美在线黄色| 亚洲美女黄色视频免费看| 亚洲精品久久午夜乱码| 国产一级毛片在线| 波野结衣二区三区在线| 成人三级做爰电影| 国产精品国产三级国产专区5o| 国产一区二区激情短视频 | 国产精品亚洲av一区麻豆| 久久人人爽人人片av| a级片在线免费高清观看视频| 精品福利永久在线观看| 亚洲欧洲精品一区二区精品久久久| 老司机靠b影院| 19禁男女啪啪无遮挡网站| 亚洲国产欧美在线一区| 亚洲精品中文字幕在线视频| 免费观看av网站的网址| 黑人欧美特级aaaaaa片| 啦啦啦啦在线视频资源| 老汉色av国产亚洲站长工具| 精品久久久久久电影网| 一边摸一边抽搐一进一出视频| 高清视频免费观看一区二区| 亚洲av成人精品一二三区| 啦啦啦啦在线视频资源| 又大又爽又粗| 国产精品99久久99久久久不卡| 高清视频免费观看一区二区| 国产精品欧美亚洲77777| 国产日韩欧美亚洲二区| 又大又爽又粗| 欧美乱码精品一区二区三区| 十八禁网站网址无遮挡| 操美女的视频在线观看| 少妇 在线观看| 国产成人系列免费观看| 精品国产一区二区久久| 狠狠精品人妻久久久久久综合| 精品福利观看| 国产在线免费精品| 搡老乐熟女国产| 老汉色av国产亚洲站长工具| 啦啦啦中文免费视频观看日本| 老司机影院毛片| 制服人妻中文乱码| 久久久国产精品麻豆| 中文字幕色久视频| kizo精华| 中文字幕av电影在线播放| 国产欧美日韩精品亚洲av| 精品国产国语对白av| 亚洲成色77777| av国产精品久久久久影院| 大陆偷拍与自拍| 亚洲情色 制服丝袜| 亚洲av日韩精品久久久久久密 | 亚洲,一卡二卡三卡| 精品少妇黑人巨大在线播放| 咕卡用的链子| 久久久久久久久久久久大奶| 国产老妇伦熟女老妇高清| 欧美日韩成人在线一区二区| 一级a爱视频在线免费观看| 成人手机av| 精品高清国产在线一区| 成人亚洲精品一区在线观看| 免费在线观看视频国产中文字幕亚洲 | 涩涩av久久男人的天堂| 午夜激情久久久久久久| h视频一区二区三区| 七月丁香在线播放| 9色porny在线观看| 2018国产大陆天天弄谢| 久久国产亚洲av麻豆专区| 亚洲国产看品久久| av福利片在线| 久久久久久久大尺度免费视频| 久久久久久久久久久久大奶| 色婷婷久久久亚洲欧美| 亚洲,欧美精品.| 亚洲国产精品一区三区| 日韩 欧美 亚洲 中文字幕| 欧美黄色淫秽网站| 一区二区三区激情视频| 国产精品久久久久久人妻精品电影 | 人人妻人人添人人爽欧美一区卜| 婷婷色综合www| avwww免费| 后天国语完整版免费观看| 国产精品国产三级国产专区5o| 少妇裸体淫交视频免费看高清 | 免费女性裸体啪啪无遮挡网站| 激情五月婷婷亚洲| 精品一区二区三卡| 欧美精品一区二区免费开放| 亚洲 欧美一区二区三区| 熟女av电影| 老司机午夜十八禁免费视频| 久久人人爽人人片av| av有码第一页| 高清av免费在线| 国产日韩欧美在线精品| 亚洲激情五月婷婷啪啪| 免费在线观看日本一区| 国产主播在线观看一区二区 | 国产高清videossex| 人人妻,人人澡人人爽秒播 | 晚上一个人看的免费电影| 18在线观看网站| 乱人伦中国视频| 丰满人妻熟妇乱又伦精品不卡| 美女高潮到喷水免费观看| 国精品久久久久久国模美| 最近最新中文字幕大全免费视频 | 人成视频在线观看免费观看| 一区二区三区激情视频| 国产成人影院久久av| av天堂在线播放| 国产高清videossex| 久久国产精品男人的天堂亚洲| 中国国产av一级| 最近中文字幕2019免费版| 夜夜骑夜夜射夜夜干| 又大又爽又粗| av国产久精品久网站免费入址| 国产福利在线免费观看视频| 欧美成人精品欧美一级黄| 视频区图区小说| 精品视频人人做人人爽| 婷婷丁香在线五月| 欧美日本中文国产一区发布| 中国国产av一级| 女人久久www免费人成看片| 曰老女人黄片| 又大又黄又爽视频免费| 极品少妇高潮喷水抽搐| 亚洲精品国产色婷婷电影| 蜜桃在线观看..| 国语对白做爰xxxⅹ性视频网站| 一区二区三区精品91| 亚洲成人免费电影在线观看 | 国产片特级美女逼逼视频| 成人黄色视频免费在线看| 免费看av在线观看网站| 色综合欧美亚洲国产小说| 黄色视频不卡| 美女福利国产在线| 婷婷色麻豆天堂久久| 国产深夜福利视频在线观看| xxx大片免费视频| 人人妻人人爽人人添夜夜欢视频| xxxhd国产人妻xxx| 亚洲黑人精品在线| 777久久人妻少妇嫩草av网站| 亚洲av成人精品一二三区| 久久久欧美国产精品| 我的亚洲天堂| 满18在线观看网站| 在线 av 中文字幕| 国产成人av教育| 18禁国产床啪视频网站| 人人澡人人妻人| 午夜福利在线免费观看网站| 亚洲欧美一区二区三区久久| 国产色视频综合| 日韩视频在线欧美| 日日摸夜夜添夜夜爱| 精品国产一区二区三区久久久樱花| 久久精品久久久久久久性| 麻豆国产av国片精品| 久久亚洲精品不卡| 99九九在线精品视频| 大话2 男鬼变身卡| 亚洲 国产 在线| av一本久久久久| 人妻一区二区av| 一边摸一边抽搐一进一出视频| 精品国产一区二区久久| 国产日韩欧美亚洲二区| 日本av手机在线免费观看| 美女大奶头黄色视频| 亚洲三区欧美一区| 亚洲综合色网址| 国产成人精品在线电影| netflix在线观看网站| 亚洲人成电影观看| 天天躁狠狠躁夜夜躁狠狠躁| 啦啦啦在线免费观看视频4| 免费看十八禁软件| 999精品在线视频| 久久这里只有精品19| 波多野结衣av一区二区av| 国产激情久久老熟女| 日韩欧美一区视频在线观看| 校园人妻丝袜中文字幕| 免费高清在线观看日韩| 欧美国产精品va在线观看不卡| 日韩av在线免费看完整版不卡|