• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強化學習的自動駕駛決策研究綜述 *

    2023-05-04 10:06:58金立生韓廣德謝憲毅郭柏蒼劉國峰朱文濤
    汽車工程 2023年4期
    關鍵詞:框架決策自動

    金立生,韓廣德,謝憲毅,郭柏蒼,劉國峰,朱文濤

    (燕山大學車輛與能源學院,秦皇島 066004)

    前言

    自動駕駛技術作為汽車產(chǎn)業(yè)未來轉(zhuǎn)型升級的重要方向[1],在緩解交通擁堵、提高交通安全性、降低能耗等方面具有巨大潛能。隨著自動駕駛車輛在局部道路測試中的快速部署,自動駕駛車輛和人類駕駛車輛之間相互影響的混合交通場景正成為一種新常態(tài)[2]。決策技術作為自動駕駛車輛智能、高效完成各項行駛?cè)蝿盏暮诵捏w現(xiàn),需要有效應對復雜環(huán)境信息不確定性帶來的挑戰(zhàn),以滿足車輛安全性、經(jīng)濟性和乘車舒適性等需求。因此,復雜交通場景下的智能決策技術已成為自動駕駛智能化的重要標簽。

    現(xiàn)階段,自動駕駛的決策技術多采用基于規(guī)則(rule-based)的分解式方案,主要應用于稀疏交通工況[3],面對復雜的交通環(huán)境,依據(jù)現(xiàn)有預測模型難以編寫出涵蓋所有交通場景與行為的全部決策方案。強化學習(reinforcement learning,RL)領域的進步極大推動了自動駕駛決策技術的發(fā)展。RL 基于馬爾科夫過程(Markov decision process,MDP)采用閉環(huán)學習的形式,利用回報函數(shù)作為激勵,采用探索試錯的方法自主迭代學習[4],逐步改善決策能力。基于RL 的自動駕駛決策技術具有較好的自主決策能力,能夠依據(jù)有效的回報函數(shù)(安全性、舒適性等)指導相應的駕駛行為。RL 憑借對高維信息較好的提取能力,通過不斷探索學習從復雜的交通場景中抽象出最優(yōu)策略的隱藏映射,可較好應對場景特征難以顯性表達的難題和減緩不確定性的影響,在自動駕駛決策領域具有巨大的應用潛力。

    學者們基于RL 算法在自動駕駛決策領域開展了諸多研究,在駕駛模擬器Carla、Torcs、Prescan 等仿真環(huán)境中展現(xiàn)出RL算法強大的優(yōu)越性和靈活性,涵蓋L3-L5 級自動駕駛的車道保持、跟馳、換道、交叉口通行等駕駛?cè)蝿?。RL 可以通過處理非結構化數(shù)據(jù),利用高維度感知信息學習實現(xiàn)數(shù)據(jù)驅(qū)動的決策映射,即端到端方案[5]。端到端方案與分解式方案相比,具有框架簡潔、環(huán)感信息無損輸入等優(yōu)點[6],在自動駕駛決策領域得到廣泛應用。但是端到端方案存在可解釋性低、遷移性不強等缺點[7-8],尤其面臨交互式駕駛場景的復雜性和不確定性,實現(xiàn)完全自主決策仍然是一個非常具有挑戰(zhàn)性的問題。

    現(xiàn)階段的學者們和車企普遍專注于單車智能決策的解決方案,本文中以RL 算法發(fā)展為主線,梳理RL 算法演變、分類、主要思想及在單車智能決策領域的應用;歸納了RL前沿發(fā)展,以逆強化學習、分層強化學習、混合策略等算法為例著重分析其在決策領域的應用;總結分析了RL在自動駕駛決策應用的不足,并提出了研究展望。

    1 RL算法發(fā)展與決策應用

    1.1 RL傳統(tǒng)算法演變歷程

    RL 主要由智能體(Agent)、環(huán)境(Env)、狀態(tài)(State)、動作(Action)、獎勵(Reward)組成[9]。RL 概念由Minsky(1954)首次提出[10],歷經(jīng)動態(tài)規(guī)劃方法[11](1957)、策略迭代[12](1960)、獎懲機制應用控制理論[13](1965)、時間差分算法[14](1988)、Q-learning算法[15](1989)、SARSA 算法[16](1994)、神經(jīng)動態(tài)規(guī)劃方法[17](1996)、置信上限樹算法[18](2006)、確定性策 略 梯 度(deterministic policy gradient,DPG)[19](2014)等傳統(tǒng)算法發(fā)展,形成試錯法、最優(yōu)控制及時序差分法等學習思想,RL 算法不依賴標簽數(shù)據(jù),關注Agent與Env之間的交互。

    其中應用較為廣泛的傳統(tǒng)算法Q-learning 和SARSA 都是基于時序差分法的RL 算法,依據(jù)QTable 實現(xiàn)決策,二者的Q(s,a)值更新方式看似相似,實現(xiàn)原理卻截然不同。

    式 中:s為 當 前State;a為 當 前Action;r為 獲 得 的Reward;s′為下一個State;a′為下一個Action;α為學習率;γ為折扣系數(shù);Q(s,a)、Q(s′,a′)為動作價值Q函數(shù)。

    Q-learning 為離線策略算法,依據(jù)ε-greedy 策略選擇當前s對應的動作a,與Env 交互得到r、s′[20],maxa′Q(s′,a′)中的動作a′不依賴于當前ε-greedy 策略,動作a和a′并非來自同一個策略。SARSA 屬于在線策略算法,動作a和a′是來自同一個策略,即Q(s′,a′)中的a′為依據(jù)ε-greedy策略獲得。

    現(xiàn)階段RL 算法在自動駕駛決策領域的應用較少,學者們基于值函數(shù)的RL算法執(zhí)行一些離散的駕駛動作策略,這類傳統(tǒng)算法通常只能處理一些相對簡單且低維State空間的駕駛場景。

    Pyeatt 等[21](1998)將Q-learning 算法應用于賽車模擬器中賽車的轉(zhuǎn)向、加速等基本任務。Qlearning 和SARSA 等RL 傳統(tǒng)算法,面對連續(xù)或高維State 的 動 態(tài) 駕 駛 場 景 時,Agent 受Q-Table 容 量 限制,很難快速迭代出最大行為價值函數(shù)值并選擇相應的Action 或找到全局最優(yōu)解,可能會導致自動駕駛車輛在超車環(huán)節(jié)因輸入空間不能更好地擴展而無法完美地避免碰撞發(fā)生。

    1.2 DRL經(jīng)典算法與決策應用

    直至DQN 算法[22](2015)在《Nature》發(fā)表,新的子領域—深度強化學習(deep reinforcement learning,DRL)真正推動自動駕駛決策技術的發(fā)展。學者們借鑒DQN 算法利用深度神經(jīng)網(wǎng)絡(deep neural networks,DNN)近似行為價值函數(shù)的思想,結合深度學習(deep learning,DL)算法的感知能力與RL 算法的決策能力,將相機、模擬器界面等采集的圖像作為State輸入,較好地完成車輛車道保持和避障等任務[23]。

    此后,RL 研究進展與成果備受關注,DRL 典型算法相繼被提出,算法多樣化,應用靈活性較高。以單智能體為例,根據(jù)算法是否依賴模型,RL 可分為基于無模型的強化學習(model-free RL,MFRL)和基于模型的強化學習(model-based RL,MBRL)兩類[24]。Guan 等[25]按照最優(yōu)策略的獲得方式進一步細分為直接式RL 和間接式RL,見表1。直接式RL基于梯度下降法,直接優(yōu)化累積獎勵的期望值求解最優(yōu)策略;而間接式RL 則根據(jù)貝爾曼方程,間接求解最優(yōu)性條件獲得最優(yōu)策略。

    1.2.1 基于MFRL的決策研究

    (1)MFRL經(jīng)典算法

    MFRL 不依賴轉(zhuǎn)移概率,算法框架相對簡單,可分為基于值、策略以及結合值與策略(actor-critic,AC)3類[26]。

    基于值的MFRL算法,以DNN逼近價值函數(shù),應用于離散的動作空間問題,如DQN 系列算法,見表2。

    表2 DQN系列算法

    基于策略的MFRL 算法,無須估計State 或State-Action 的價值,通常直接將策略以參數(shù)化表示[34],可以應用于連續(xù)的動作空間問題,但樣本利用率偏低。如策略梯度法,由于梯度每次更新后會根據(jù)新分布進行采樣,造成新梯度的估計只與現(xiàn)策略有關而獨立于過去的估計。

    Lillicrap 等[35](2015)結合DQN、DPG、AC[36-38]等算法思想,提出了深度確定性策略梯度算法(deep deterministic policy gradient,DDPG),基 于AC 的MFRL 算法,可以提升RL 算法對連續(xù)動作空間的適應性。隨后,TRPO、PPO、SAC 等各類典型算法相繼提出,見表3。

    表3 MFRL典型算法更新

    (2)基于MFRL的決策研究

    車聯(lián)網(wǎng)(vehicle to everything,V2X)技術為自動駕駛車輛獲取全面、有效的感知數(shù)據(jù)提供了強有力的支撐和新的發(fā)展思路。面對合作駕駛、對抗駕駛等多種駕駛策略,RL以環(huán)境狀態(tài)完全可知作為MDP成立的必要條件,目前學術研究主要側(cè)重于完全可觀察的確定性環(huán)境。MFRL 算法因框架簡潔、種類多樣,被廣泛應用于自動駕駛的決策子任務,不同算法適用駕駛場景的復雜程度、Reward 時效性、樣本數(shù)量等各不相同。

    基于值的MFRL 算法,面臨自動駕駛決策技術中連續(xù)或大的離散動作空間問題時,依據(jù)貪婪策略很難找到最優(yōu)值。雖然可以將車速和轉(zhuǎn)向角的控制范圍劃分為均勻的離散動作空間,達到降低復雜性的目的,但若步長值過大,易產(chǎn)生不穩(wěn)定的動作輸出。

    車速和轉(zhuǎn)向角采用連續(xù)動作輸出有利于車輛的穩(wěn)定運行?;诓呗缘腗FRL 算法旨在通過無梯度或梯度法直接評估最佳策略,適用于自動駕駛連續(xù)動作空間決策問題,但若每步策略改變過多,易破壞決策算法訓練的穩(wěn)定性。

    趨于AC 框架的MFRL 算法兼顧基于值、策略算法的優(yōu)點,針對決策領域的適應性更強,同時一些優(yōu)異算法融入MFRL 算法框架,如內(nèi)在獎勵指導智能體探索環(huán)境的好奇心機制、改善輸入特征的注意力機制、考慮歷史行為影響的長短期記憶(long shortterm memory,LSTM)等優(yōu)化方法,以此提升算法的效率和決策效果。

    ① 車道保持

    自動駕駛車輛根據(jù)當前車道、導航、地圖等信息,考慮安全、效率、舒適性等需求輸出相應的決策動作,車道保持作為自動駕駛決策技術中必不可缺的基礎子任務,側(cè)重于車輛的橫向控制,故在此僅做簡要分析。DDPG、PPO、SAC 等經(jīng)典算法基于端到端方案,能夠依據(jù)視覺等信息直接輸出連續(xù)動作,從而提供更平滑的軌跡,在駕駛模擬器中較好完成了直線道路和彎道等車道保持任務[47-50]。其State、Action等參數(shù)的常見設置見表4。

    表4 車道保持任務State、Action等設置

    ② 跟馳

    跟馳以車道保持技術為基礎,主要集中于主車的縱向速度策略優(yōu)化研究。作為自動決策技術關鍵性的基礎子任務,可采用基于RL算法端到端的方案集成舒適性、駕駛風格等決策需求進行統(tǒng)一設計。跟馳效果受道路條件的不確定性、車輛參數(shù)以及前車運動的隨機性等因素影響?;贛FRL 的跟馳算法能夠根據(jù)車輛狀態(tài)及周圍環(huán)境信息進行自主決策,在滿足駕駛習慣、乘坐舒適性等決策需求的同時,實現(xiàn)車輛加速、減速或勻速等縱向速度的策略映射,體現(xiàn)決策系統(tǒng)的人性化。跟馳算法的獎勵函數(shù)可結合安全性、乘車舒適性等多部分組成。其State、Action等參數(shù)的常見設置見表5。

    表5 跟馳任務State、Action等設置

    朱冰等[51](2019)利用真實駕駛數(shù)據(jù)對前車運動的隨機性建模并引入PPO 算法框架中,實現(xiàn)跟馳決策策略,并在真實駕駛數(shù)據(jù)庫中驗證了跟馳效果。Gao 等[52](2019)考慮駕駛風險,通過人性化地設計Reward 函數(shù),采用Q-learning 算法,基于端到端方案實現(xiàn)了跟馳的自主決策,在跟車效率、安全性等方面都取得較好效果。

    跟馳決策結合人類專家數(shù)據(jù)集,可提高訓練過程的穩(wěn)定性或經(jīng)驗回放機制的效率。Vecerik 等[53](2017)使用示教數(shù)據(jù)(模擬器采集的專家數(shù)據(jù))、Agent 與仿真環(huán)境交互所得的采集數(shù)據(jù)混合于經(jīng)驗池中,采用優(yōu)先經(jīng)驗回放機制提升Rward 收斂速度。Liu 等[54](2021)提出了SAC 算法結合人類專家數(shù)據(jù)集(模擬器采集)的新框架,Agent自適應調(diào)整探索和人類專家數(shù)據(jù)集之間的采樣率,提升學習進程。Li等[55](2021)運用真實世界的人類駕駛數(shù)據(jù)集與Agent采集數(shù)據(jù)交互存儲到經(jīng)驗池,采用 DDPG 算法結合優(yōu)先經(jīng)驗的方式在Carla 模擬器中訓練自動駕駛車輛的跟馳任務。不同專家的數(shù)據(jù)來源屬性不同,跟馳效果存在一定區(qū)別。

    ③ 換道

    面對交通場景的不確定性,換道決策仍然是自動駕駛汽車復雜且具有挑戰(zhàn)性的任務之一。目前,主動換道以直線多車道場景為主,強制換道多為高速公路、城市高架道路合流區(qū)場景的匯入、匯出任務。換道決策的研究有助于提升自動駕駛車輛應對復雜駕駛工況的決策水平。

    高速公路場景因其路況良好、不確性因素少,是自動駕駛技術落地應用的最佳場景,學者們運用MFRL 經(jīng)典算法能訓練出較好的換道策略[56]。而城市道路交通復雜,通常受限于MFRL 經(jīng)典算法傳統(tǒng)框架稀疏獎勵、獎勵設定不合理等問題,影響RL 算法的收斂程度和訓練效果。

    除LSTM、注意力機制、動作約束等改善RL學習效率的方法外,Liu等[57](2020)通過收集多名駕駛員的換道等駕駛操作和習慣、機器視覺和車輛狀態(tài)信息等數(shù)據(jù),提取駕駛風格等特征融入DDPG 框架,實現(xiàn)自動駕駛個性化駕駛的策略。

    考慮周圍車輛的影響,結合風險評估進行Reward 設計,對Agent 規(guī)避危險動作具有一定的指導性。Li等[58](2022)基于概率模型的駕駛風險評估方法,提出了基于DQN 算法的風險感知決策策略,面對相鄰車道附近車輛的影響,在Carla 駕駛器中較好地完成換道決策。

    強制換道,以高速公路合流區(qū)匯入任務為例,車輛匯入受合流區(qū)的幾何設計、車道通行規(guī)則(限速等)及主線交通流狀況等因素影響。車輛在有限的加速匝道選擇合適的車速及匯入時機,對決策技術是個考驗。RL 多采用交通環(huán)境、周圍車輛等信息(主線車速度、匝道自主車速度、兩車縱向/橫向車距等參數(shù))作為State輸入。

    LSTM 算法可以將歷史和交互駕駛數(shù)據(jù)對Action 選擇的影響融入DNN,提升車輛匯入效率。Wang等[59](2018)通過LSTM算法學習自主車輛與其他車輛的交互駕駛行為作為內(nèi)部State 輸入DQN 網(wǎng)絡中,在SUMO仿真環(huán)境完成車輛匯入任務。

    根據(jù)映射思想對Reward 做進一步設計引導目標函數(shù)的收斂性。Lin 等[60](2019)采用DDPG 框架,將處于匝道的匯入車輛向主干道做投影,以映射的等效碰撞距離作為Reward 設計依據(jù)之一,有效提升了車輛匯入效率。

    ④ 交叉口通行

    城市道路交叉口的自動駕駛安全通行屬于多目標優(yōu)化及策略問題,其不確定性和交通事故率高而備受關注。自動駕駛車輛在交叉路口的通行決策通常為連續(xù)的動作控制問題,是自動駕駛汽車最具有挑戰(zhàn)性的任務之一。

    以十字形交叉路口場景為例,其中筆直交叉路徑、左轉(zhuǎn)越過橫向方向路徑和左轉(zhuǎn)越過相反方向路徑是碰撞風險較高的3種典型場景[61]。

    MFRL 經(jīng)典算法基于信號燈規(guī)律可實現(xiàn)十字形交叉路口無車流干擾的規(guī)則通行,結合LSTM、鳥瞰圖、注意力機制、風險評估等方法,可以提升十字形交叉路口場景的通行效率。

    Li等[61](2022)根據(jù)車輛前端相機以兩個不同時間步長采集的交通圖像,結合CNN-LSTM 網(wǎng)絡框架提取空間、時間特征作為DQN 算法框架的State 輸入,在Carla 模擬器中實現(xiàn)無信號燈十字形交叉口的安全通行。Kargar等[62](2022)在無紅綠燈的城市道路仿真環(huán)境中,將高精度地圖的可行駛區(qū)域、道路邊界等信息以及車輛參考路徑、自主車、其他車輛的相關信息轉(zhuǎn)換成鳥瞰圖作為State 輸入,結合視覺注意力機制提取地圖中的重要車輛和關鍵部分的特征,提升學習收斂速度,采用DQN 算法較好地完成十字路口通行任務。基于風險評估的Reward 相對于基于碰撞的Reward,可以加快策略的收斂速度,針對十字形交叉口可以適應一定程度的遮擋等突發(fā)場景。Kamran 等[63](2020)考慮風險度量和效用的Reward,設計了最低安全Reward指導DQN算法框架的十字形交叉口通行策略,通行任務效果良好。

    1.2.2 基于MBRL的決策研究

    MBRL 源自最優(yōu)控制領域[64],Agent 根據(jù)Env 建立的模型進行學習并獲取下一State 的Action,對策略進行優(yōu)化并找到最優(yōu)策略,以獲得最大的累積Reward。由于每一個樣本都可以用來逼近模型,在數(shù)據(jù)效率上明顯優(yōu)于MFRL。如人工智能AlphaGo采用樹搜索與DNN 結合的MBRL 方法在圍棋博弈中擊敗人類頂尖選手[65]。

    MBRL與MFRL兩種方法各有優(yōu)劣,適用不同的任務場景。雖然MBRL 的研究相對于MFRL 更為前沿,但Agent 的學習效果與模型的準確性息息相關。由于交通環(huán)境的不確定性以及駕駛策略的多樣性,MBRL 模型的設計難度相對較高。相對于MFRL 在自動駕駛決策領域的廣泛應用,目前,MBRL 算法主要集中在控制、能量管理、生態(tài)駕駛等領域,在智能決策領域通常采用前沿算法的混合策略,單純MBRL算法應用較少。

    Puccetti 等[66](2021)基 于 自 回 歸 模 型ARX 的MBRL 算法,設計了一種車輛最優(yōu)速度的控制器,用于實現(xiàn)車輛最優(yōu)的速度跟蹤策略,表現(xiàn)出較好的魯棒性和學習效率。

    學者們借助V2X 技術,采用DRL 方法結合道路坡度、交通規(guī)則、信號燈、曲率等因素進行經(jīng)濟駕駛,開展智能網(wǎng)聯(lián)汽車巡航研究。Lee 等[67](2022)基于Q-learning算法結合車輛縱向動力學、電池能耗等方面分析,考慮道路坡度與跟車距離等駕駛條件,建立Dyna 風格的MBRL 算法調(diào)整車輛巡航速度,達到最小化能耗的目的,見圖1。

    圖1 考慮道路坡度與跟車距離的巡航速度策略

    2 POMDP決策應用

    環(huán)境狀態(tài)完全可觀測是RL 算法MDP 建模成立的前提,基于V2X 的自動駕駛技術正迅速成為解決眾多交通問題的解決方案之一。但受其信號傳輸效率、建設成本等問題的制約,大規(guī)模應用尚未實現(xiàn)。

    自動駕駛車輛進入無通信路口易受到靜態(tài)遮擋和動態(tài)遮擋,由于傳感器噪聲干擾、采集范圍受限和感知結果的不確定性,存在駕駛盲區(qū)、中遠距離感知不穩(wěn)定等問題。非完全可觀測情況下的自動駕駛?cè)蝿湛梢暈镸DP 的一般表現(xiàn)形式,即部分可觀察的馬爾可夫決策過程(partially observable Markov decision processes,POMDP)。

    POMDP 作為環(huán)境狀態(tài)部分可知或動態(tài)不確定環(huán)境下序貫決策的理想模型,POMDP可由類似MDP的描述方式六元組< S,A,O,T,R,Z>來描述,S表示有限狀態(tài)集合,A 表示有限動作集合,O 表示有限觀察集合,T是一個狀態(tài)轉(zhuǎn)移矩陣,R是獎勵函數(shù),Z是觀察函數(shù)[68]。由于Agent 在受遮擋的環(huán)境中無法直接觀察某些狀態(tài)信息,例如周圍車輛的駕駛意圖,可將其概率分布轉(zhuǎn)換至狀態(tài)。用于表示觀察確定的情況下環(huán)境所處狀態(tài)的概率分布,稱為信念狀態(tài),通常以b表示。當前置信b的情況下,在執(zhí)行動作a和 得 到 觀 察O 后,需 要 更 新 置 信 為b'[69]。POMDP 利用信念狀態(tài)映射Action,令累積Reward 的期望最大化,找到最優(yōu)策略。當前Action 影響下一步的State及Reward。

    面對動態(tài)不確定性的駕駛環(huán)境,基于POMDP構建包含自動駕駛汽車所有可執(zhí)行Action 的信念搜索樹,通過樹搜索得出順序決策,應用框架如圖2所示。

    圖2 POMDP決策應用框架[68]

    Bai 等[70](2015)基 于 在 線POMDP 算 法 之 一DESPOT 算法,結合貝爾曼方程對置信度樹內(nèi)部節(jié)點選擇最佳動作,在動態(tài)的多行人環(huán)境中完成實車自動駕駛。提出的POMDP 規(guī)劃器僅控制車輛沿參考路徑行駛的加速度大小,實現(xiàn)加速、保持和減速等行為動作。未對行人模型進行意圖變化分析,但在POMDP 算法中進行了置信度更新和重規(guī)劃處理。Hoel等[71](2019)針對主干道連續(xù)行駛和靠近出口匝道行駛的兩種交通場景轉(zhuǎn)化為POMDP 問題進行研究,通過蒙特卡洛樹搜索改進神經(jīng)網(wǎng)絡訓練過程,根據(jù)AlphaGo Zero 算法建立的決策框架,在仿真環(huán)境中實現(xiàn)自動駕駛車輛換道和跟馳任務。

    結合駕駛員過交叉口慢行、待轉(zhuǎn)、習慣性觀察的思想,在十字形交叉口設置左轉(zhuǎn)關鍵位置點,可以輔助十字形交叉口左轉(zhuǎn)任務的實施。Shu 等[72](2020)針對十字形交叉口有遮擋的左轉(zhuǎn)通行進行研究,依據(jù)大量十字路口左轉(zhuǎn)自然駕駛數(shù)據(jù)得出待轉(zhuǎn)位置關鍵左轉(zhuǎn)點,如圖3 所示,建立基于POMDP 理論的分層規(guī)劃框架,仿真驗證結果令左轉(zhuǎn)通行效率提升20%以上。

    圖3 基于關鍵點轉(zhuǎn)向示意圖

    面對復雜場景下不完全狀態(tài)信息的建模,如添加動態(tài)貝葉斯網(wǎng)絡推理交通參與者的意圖或非正態(tài)分布的多模態(tài)不確定性POMDP 問題,求解POMDP的最優(yōu)策略需消耗巨大算力。

    3 RL前沿與決策應用

    RL 算法通常以DNN 近似駕駛決策策略,但其DNN 往往只是一個平滑的映射,DRL 經(jīng)典算法很難學習一個能夠表現(xiàn)出不同行為的策略。例如城市環(huán)境中自動駕駛由多項任務組成,由于周圍車輛的交互影響,復雜任務的決策算法可能會被多個子任務所影響,自動駕駛決策技術迫切需要適應性更強的RL決策模型和發(fā)展前沿。

    3.1 RL前沿發(fā)展

    RL 作為人工智能的主流方向之一,已經(jīng)進入百家爭鳴的時代。學者們針對RL算法樣本復雜性、超參數(shù)的敏感性、可解釋性和安全性等問題,面向單智能體決策,圍繞以下幾個方面開展前沿性研究:逆強化學習[73](IRL)、分層強化學習[74](HRL)、元強化學習[75](Meta RL)、離線強化學習[76](Offline RL)、多任務強化學習[77](MTDRL)、混合型強化學習[78]等,見表6。同時遷移強化學習[79]、量子強化學習[80]、分布式強化學習[81]、Transformer 強化學習[82]、安全強化學習[83]、貝葉斯強化學習[84]、可解釋的強化學習[85]等方面也是近年的研究熱點。

    表6 RL主要前沿方向

    3.2 RL前沿決策應用

    面向單車智能駕駛的RL前沿決策技術,目前應用廣泛、相對成熟的前沿主流為IRL、HRL 及混合策略等算法,且均取得了突破性進展。

    3.2.1 基于IRL的行為決策研究

    IRL 起源于模仿學習,將專家做出的決策視為最優(yōu)或接近最優(yōu)的策略,即專家策略所產(chǎn)生的累積Reward 設為最高。IRL 基于最大邊際化或概率模型的角度出發(fā),從已有策略或觀察到的專家行為推斷Reward,從而改善Reward 誤差過大、獎賞稀疏、收斂困難等問題。

    在自動駕駛決策研究中,IRL 通常借助專家駕駛員的行為數(shù)據(jù)進行學習并推理出Reward,再根據(jù)Reward 正向執(zhí)行RL 算法,結合駕駛場景的特征優(yōu)化駕駛行為策略。其中結合GAN 思想的反向RL 方法—對抗性逆強化學習(GAIL)近年來被廣泛應用[127-128],如圖4所示。

    圖4 GAIL結構圖

    You等[129](2019)考慮駕駛員的駕駛風格建立基于State-Action 的獎勵函數(shù),采用Q-learning 結合最大熵原理的IRL 框架確定車輛在多車道環(huán)境的最優(yōu)駕駛策略。Wang等[130](2021)將元學習算法與GAIL算法相結合,把保守和中性駕駛風格作為元訓練任務,并用挑戰(zhàn)性駕駛風格(攻擊性駕駛)作為元測試任務,仿真環(huán)境中實現(xiàn)自動駕駛車輛換道決策。Liu等[131](2022)采用主成分分析法將專家先驗知識提取駕駛風格,采用基于最大熵的IRL 框架根據(jù)駕駛風格定制自動駕駛車輛變道任務。

    IRL 算法多適用于車道保持、跟馳、巡航或簡易換道等任務。由于復雜交通場景中周圍參與者的不確定性,所需的專家駕駛數(shù)據(jù)通常較大,且相同情況下不同的專家駕駛員做出的決策可能完全不同,推理出的Reward 指導性過弱而導致策略不適應?,F(xiàn)實世界的部分專家數(shù)據(jù)集(NGSIM等)僅涵蓋具體任務的交通場景。模擬環(huán)境中采集的專家數(shù)據(jù),會存在泛化性弱和數(shù)據(jù)集偏差等問題。

    3.2.2 基于HRL的行為決策研究

    依據(jù)駕駛員實際駕駛過程為離散與連續(xù)的分層次駕駛思想,HRL 算法以MDP、POMDP 作為數(shù)學基礎,建立離散的上層決策與連續(xù)的下層執(zhí)行框架。分層系統(tǒng)中不同的局部策略作為一個獨立的子功能,如高速公路主干道行駛總策略可細分為左/右換道、車道保持、跟馳等多個獨立子任務,簡化了State空間容量,可以較好地應對RL經(jīng)典算法中可能出現(xiàn)的維度災難等問題,提升整體決策性能。

    Option、HAM、MAXQ、Skill系列算法抽象出不同級別的控制層,實現(xiàn)HRL 多級控制。而基于目標(Goal)的HRL 算法,其Goal 則屬于目標層面上的定義,上層控制器根據(jù)上層策略選擇一個關鍵Goal,下層控制器根據(jù)Goal及下層策略選擇Action。

    Chen 等[132](2018)針對具有人行道與紅綠燈設施的駕駛場景,采用基于策略梯度算法的HRL 框架,設定了紅燈、黃燈、綠燈分別執(zhí)行的子通行策略,在仿真環(huán)境中實現(xiàn)自動駕駛車輛的信號燈通行任務。Chen 等[133](2019)基于DDPG 的HRL 框架融入時間/空間注意力機制,提升了神經(jīng)網(wǎng)絡的結構性和換道效率,在TORCS 模擬器中實現(xiàn)換道任務。Duan等[134](2020)針對高速公路主干路駕駛場景,采用HRL 思想將駕駛?cè)蝿辗纸鉃檐嚨纼?nèi)行駛、左/右車道變更3個Option,采用異步并行的訓練方法學習每個動作的子策略和主策略。周圍車輛社會偏好性的融入可以較好地體現(xiàn)超車決策算法的舒適性和穩(wěn)定性。呂超等[135](2022)基于周圍車輛的社會偏好性(利他型、利己型和互惠型)概率模型,結合Qlearning 算法搭建HRL 框架,通過實車采集數(shù)據(jù)與Carla模擬器完成自車超車任務的聯(lián)合驗證。

    HRL 算法可很好地解決自動駕駛多任務決策,但是與MTDRL的原理截然不同,HRL上下層次同時訓練的不穩(wěn)定問題,高價狀態(tài)遷移函數(shù)的平穩(wěn)性、自動學習分層結構及避免人工定義Goal 空間是進一步有待解決的問題。

    3.2.3 基于混合策略的RL算法

    直接采用端到端方案在解決自動駕駛復雜決策任務時,由于須考慮的影響因素多,框架設計存在困難,結合多種決策方案組成混合策略,可以兼容多種方案的特點,提升決策能力。

    (1)分解式框架與端到端方案的混合策略

    將基于先驗知識(車輛模型、駕駛行為數(shù)據(jù)、交通規(guī)則等)的Rule-base 算法與RL算法聯(lián)合實施,提升自動駕駛車輛決策能力的適應性。Qiao 等[136](2019)針對具有停止線的十字形交叉路口場景將基于啟發(fā)式的決策結構與基于Option 類型的DQN 分層算法構建混合模型框架,完成跟隨前車和停止線停止的任務。Lubars 等[137](2020)針對高速合流區(qū)匯入任務,利用DDPG 算法提升匯入效率和乘客舒適度、MPC算法提升車輛匯入安全性的特點,將兩種算法相聯(lián)合作為匯入決策,在SUMO 模擬器單加速車道和單主干道的仿真環(huán)境中較好地完成了匯入決策。Bai 等[138](2022)提出了一種混合型決策框架,該框架基于Rule-base 的IDM 算法和Dueling DQN算法的共同協(xié)作,如圖5 所示??紤]安全規(guī)則的影響,實現(xiàn)自動駕駛車輛在有信號交叉口的安全通行。

    圖5 基于規(guī)則和RL協(xié)作策略框架

    利用MBRL 算法的決策能力,結合下層Rulebase 算法執(zhí)行軌跡跟蹤任務,可在一定程度上提升車輛軌跡的穩(wěn)定性,遇到突發(fā)狀況,可結合Rulebase 方法執(zhí)行安全冗余設計。Shi 等[139](2019)提出基于h-DQN 的變道決策與純跟蹤控制體系搭建的混合式結構,仿真環(huán)境中完成自動駕駛車輛完整換道任務。HRL 算法開展換道時間和換道軌跡的決策,純跟蹤算法執(zhí)行軌跡跟蹤任務。Naveed 等[140](2021)將一種HRL結構結合PID控制器構建自動駕駛決策和軌跡跟蹤的混合框架,利用LSTM 來處理不完全觀測的問題,在Carla 模擬器中完成車輛換道/跟馳任務。

    針對自動駕駛生態(tài)駕駛,基于MBRL 算法構建混合策略可以較好地應對交通規(guī)則,并兼顧車輛的能量管理。Yavas 等[141](2022)針對自適應巡航任務,將傳統(tǒng)跟馳模型IDM 與基于Dyna 思想的MBRL算法組成混合策略,提升巡航效果的優(yōu)越性。

    (2)集成式?jīng)Q控混合策略

    將決策和控制問題整合為集成式?jīng)Q控框架,使用統(tǒng)一的約束模型。Guan 等[78](2021)針對十字交叉路口交通場景,提出了集成式?jīng)Q策和控制框架(IDC),采用基于MBRL 的GEP 算法,實現(xiàn)不同交通條件下的無碰撞駕駛,并進行了實車驗證。Jiang等[142](2021)針對基于靜態(tài)路徑規(guī)劃和最佳動態(tài)跟蹤模塊組成的IDC 框架,通過融入有限狀態(tài)機選擇路徑進行改進,實現(xiàn)十字交叉路口識別信號燈的通行。

    任何RL算法都非常依賴算力?;赗L的自動駕駛決策技術,無論采用先離線訓練策略、后在線應用策略的方式,還是同時訓練和應用策略的方式[143],都需要面對車載單元有限資源的限制和安全性的約束。智能網(wǎng)聯(lián)云系統(tǒng)的發(fā)展為此提供了較好支撐。李升波[143](2022)依托李克強院士[144](2020)提出的云支持智能網(wǎng)聯(lián)汽車架構,通過云端平臺獲取車輛狀態(tài)及環(huán)境信息、迭代訓練基于RL的自動駕駛策略,車端接收成熟的RL策略、測試驗證和應用,循環(huán)往復,實現(xiàn)車云路一體化的自動駕駛策略進化與應用。

    4 總結與展望

    智能決策能力是衡量和評價自動駕駛能力的核心指標。RL 技術在仿真環(huán)境中可以有效地用于不同級別的自動駕駛決策任務,經(jīng)過RL相關技術及前沿算法的開發(fā)與應用,訓練效率、收斂性與穩(wěn)定性、場景泛化能力均得到一定的提升與改善,但除特定場景的自動駕駛車輛應用外,現(xiàn)有的相關研究并未在實際環(huán)境中開展,基于RL的自動駕駛決策技術在工程化落地存在諸多困難。RL 在智能決策方面的應用需要實質(zhì)性的突破,對其決策技術展望如下。

    (1)安全冗余決策系統(tǒng)的設立

    決策系統(tǒng)對自動駕駛汽車的安全性具有決定性作用。DRL 算法固有的DNN 黑盒特性,除網(wǎng)絡結構改進外,可結合自動駕駛多層鳥瞰語義地圖、其他模型(如樹模型、混合決策策略等)來提高RL智能決策的可解釋性;“長尾效應”作為自動駕駛的難題,海量數(shù)據(jù)是解決問題的核心資源,先驗知識和基于RL的學習融合、V2X 的信息共享等技術是解決“長尾”的算法基礎;Reward 無法兼顧策略安全性與穩(wěn)定性,安全深度強化學習算法的前沿發(fā)展是提高RL 算法安全性的趨勢之一。自動駕駛作為系統(tǒng)化工程,無法從單點解決問題,尤其面對決策系統(tǒng)自身算法性能的局限性、決策輸入/輸出信息準確率的影響,車輛安全、平穩(wěn)、高效的行駛需要安全冗余的決策系統(tǒng)。從整車框架層面、功能定義層面進行決策技術的安全冗余設計,也是自動駕駛真正落地的基礎和前提。

    (2)虛擬環(huán)境向真實的轉(zhuǎn)換

    目前,基于RL的自動駕駛決策應用大部分研究工作是在仿真環(huán)境下完成的,只有少數(shù)研究成果實現(xiàn)工程化應用。真實環(huán)境和虛擬環(huán)境之間的較大差異,令仿真環(huán)境中RL的應用效果與實際部署之間存在較大差距。借助云端化網(wǎng)聯(lián)自動駕駛技術的虛實結合模式,如平行駕駛技術等,也是引導決策算法由虛擬邁入現(xiàn)實的有效手段之一;虛擬到現(xiàn)實的策略遷移,可以通過域自適應、域隨機化和圖像翻譯等學習方法縮小兩者之間的差距;遷移強化學習等研究的投入有助于加快虛擬環(huán)境向真實環(huán)境的轉(zhuǎn)換。仿真中的環(huán)境狀態(tài)信息全部可知,但面對真實環(huán)境下無V2X 應用、存在遮擋情況的實際駕駛場景,自動駕駛RL 技術的工程化落地面臨很多挑戰(zhàn),現(xiàn)階段RL 技術的應用還處于摸索階段,自動駕駛決策的潛力還沒有被完全發(fā)掘出來,但這一領域仍然具有廣闊前景。

    猜你喜歡
    框架決策自動
    框架
    為可持續(xù)決策提供依據(jù)
    自動捕盜機
    學生天地(2020年5期)2020-08-25 09:09:08
    廣義框架的不相交性
    決策為什么失誤了
    基于STM32的自動喂養(yǎng)機控制系統(tǒng)
    電子測試(2018年10期)2018-06-26 05:53:36
    WTO框架下
    法大研究生(2017年1期)2017-04-10 08:55:06
    關于自動駕駛
    汽車博覽(2016年9期)2016-10-18 13:05:41
    一種基于OpenStack的云應用開發(fā)框架
    Stefan Greiner:我們?yōu)槭裁葱枰詣玉{駛?
    午夜老司机福利剧场| 亚洲国产高清在线一区二区三| 午夜爱爱视频在线播放| 国产成人影院久久av| 国产一区二区激情短视频| 日韩精品青青久久久久久| 国产乱人伦免费视频| 欧美最黄视频在线播放免费| 亚洲天堂国产精品一区在线| x7x7x7水蜜桃| 国内毛片毛片毛片毛片毛片| 免费av毛片视频| 国产精品无大码| 一进一出抽搐gif免费好疼| av在线亚洲专区| 少妇的逼水好多| 校园春色视频在线观看| 最近最新免费中文字幕在线| 69人妻影院| 床上黄色一级片| 色综合亚洲欧美另类图片| 亚洲精品在线观看二区| 色综合色国产| 亚洲国产日韩欧美精品在线观看| 99久国产av精品| 1024手机看黄色片| 国模一区二区三区四区视频| 可以在线观看毛片的网站| 日本爱情动作片www.在线观看 | 精品福利观看| 看片在线看免费视频| 国产在线男女| 成人综合一区亚洲| 日本三级黄在线观看| 亚洲精品456在线播放app | 国产伦一二天堂av在线观看| 亚洲人成网站高清观看| 内地一区二区视频在线| 国产精品伦人一区二区| 国产麻豆成人av免费视频| 嫁个100分男人电影在线观看| 色吧在线观看| 91久久精品电影网| 欧美日本视频| 99热精品在线国产| 十八禁国产超污无遮挡网站| 九九爱精品视频在线观看| 精品无人区乱码1区二区| 最后的刺客免费高清国语| 亚洲国产精品成人综合色| 欧美日韩乱码在线| 淫秽高清视频在线观看| 亚洲av成人av| 免费电影在线观看免费观看| 国产免费av片在线观看野外av| 久久精品人妻少妇| 不卡一级毛片| 久久精品国产亚洲av涩爱 | 色在线成人网| 精品一区二区三区人妻视频| 网址你懂的国产日韩在线| 国产亚洲精品av在线| 国产 一区 欧美 日韩| 国产精品永久免费网站| 欧美xxxx性猛交bbbb| 简卡轻食公司| 欧美成人a在线观看| 久久亚洲真实| 性插视频无遮挡在线免费观看| 九九久久精品国产亚洲av麻豆| 一区二区三区激情视频| 不卡视频在线观看欧美| 欧美日本视频| 国产激情偷乱视频一区二区| 国产精品电影一区二区三区| 校园春色视频在线观看| 非洲黑人性xxxx精品又粗又长| 99国产精品一区二区蜜桃av| 一本久久中文字幕| 乱人视频在线观看| 国产高清视频在线观看网站| 少妇人妻一区二区三区视频| 日韩欧美 国产精品| 免费观看在线日韩| 又紧又爽又黄一区二区| 欧美绝顶高潮抽搐喷水| 亚洲无线观看免费| av福利片在线观看| 中国美白少妇内射xxxbb| 日本在线视频免费播放| 99热6这里只有精品| 两人在一起打扑克的视频| 欧美色视频一区免费| 免费观看的影片在线观看| 久久久色成人| 免费看av在线观看网站| 亚洲av熟女| 亚洲va在线va天堂va国产| 国产一区二区三区在线臀色熟女| 亚洲精品成人久久久久久| 91久久精品电影网| 国产一级毛片七仙女欲春2| 一个人看的www免费观看视频| 国产色婷婷99| 成人亚洲精品av一区二区| 中文字幕精品亚洲无线码一区| а√天堂www在线а√下载| 亚洲一级一片aⅴ在线观看| 亚洲乱码一区二区免费版| 国语自产精品视频在线第100页| 天堂影院成人在线观看| 色av中文字幕| 亚洲国产色片| 桃红色精品国产亚洲av| 亚洲七黄色美女视频| 亚洲狠狠婷婷综合久久图片| 深夜精品福利| 精品一区二区免费观看| 99热这里只有是精品50| 熟女人妻精品中文字幕| 最近在线观看免费完整版| 中亚洲国语对白在线视频| av在线天堂中文字幕| 免费高清视频大片| 国产免费av片在线观看野外av| 久久精品91蜜桃| 婷婷亚洲欧美| 久久久久久久久久成人| 真人做人爱边吃奶动态| 成人综合一区亚洲| 久久久久久久亚洲中文字幕| 一本精品99久久精品77| 老司机福利观看| 蜜桃亚洲精品一区二区三区| 老司机午夜福利在线观看视频| 男插女下体视频免费在线播放| 噜噜噜噜噜久久久久久91| 国产av不卡久久| 91麻豆精品激情在线观看国产| 嫩草影视91久久| 熟女电影av网| 亚洲最大成人中文| 午夜免费男女啪啪视频观看 | 亚洲国产精品成人综合色| 俄罗斯特黄特色一大片| 成年女人永久免费观看视频| 久久中文看片网| 美女高潮喷水抽搐中文字幕| 他把我摸到了高潮在线观看| 高清日韩中文字幕在线| 国产精品av视频在线免费观看| 精品人妻偷拍中文字幕| 三级国产精品欧美在线观看| 全区人妻精品视频| 成年女人看的毛片在线观看| 国产精品亚洲一级av第二区| 伦精品一区二区三区| a级一级毛片免费在线观看| 黄色欧美视频在线观看| 久久精品国产亚洲av天美| 亚洲不卡免费看| 最近最新中文字幕大全电影3| 麻豆精品久久久久久蜜桃| 国内精品宾馆在线| 亚洲最大成人手机在线| 午夜精品在线福利| 午夜免费激情av| 能在线免费观看的黄片| 亚洲成人久久爱视频| 午夜激情福利司机影院| 久久久久性生活片| 国产人妻一区二区三区在| 午夜精品久久久久久毛片777| 岛国在线免费视频观看| 天美传媒精品一区二区| 亚洲最大成人av| 国产精品自产拍在线观看55亚洲| 欧美日韩综合久久久久久 | 超碰av人人做人人爽久久| 一个人免费在线观看电影| 久久久久久大精品| or卡值多少钱| 观看美女的网站| 男女之事视频高清在线观看| 我要看日韩黄色一级片| 超碰av人人做人人爽久久| av视频在线观看入口| 女人十人毛片免费观看3o分钟| 日韩强制内射视频| 嫩草影院精品99| 美女xxoo啪啪120秒动态图| 免费看美女性在线毛片视频| 欧美日韩乱码在线| 欧美成人a在线观看| 男女视频在线观看网站免费| 一区二区三区四区激情视频 | 九色国产91popny在线| 亚洲av中文字字幕乱码综合| 亚洲精品乱码久久久v下载方式| 中文字幕精品亚洲无线码一区| 日韩 亚洲 欧美在线| 美女高潮的动态| 午夜久久久久精精品| 精品国内亚洲2022精品成人| 午夜日韩欧美国产| 最近最新中文字幕大全电影3| 国产单亲对白刺激| 精品日产1卡2卡| 乱码一卡2卡4卡精品| 又黄又爽又刺激的免费视频.| 欧美性猛交╳xxx乱大交人| 色综合站精品国产| 免费大片18禁| 中亚洲国语对白在线视频| 99久久精品国产国产毛片| 久久国内精品自在自线图片| 一本一本综合久久| 国产日本99.免费观看| 亚洲avbb在线观看| 精品久久久久久久久久久久久| 日本在线视频免费播放| 国产精品久久久久久久久免| 如何舔出高潮| 精品久久久久久成人av| 精品国内亚洲2022精品成人| 内地一区二区视频在线| 日本一本二区三区精品| 真人做人爱边吃奶动态| 搡老熟女国产l中国老女人| 国产探花极品一区二区| 在线a可以看的网站| 22中文网久久字幕| 国产不卡一卡二| 国产私拍福利视频在线观看| 少妇的逼好多水| 在线观看美女被高潮喷水网站| 一级毛片久久久久久久久女| 欧美黑人巨大hd| 亚洲国产色片| 免费看日本二区| 国产 一区 欧美 日韩| 在线播放无遮挡| 国产精品1区2区在线观看.| 又粗又爽又猛毛片免费看| 日韩中字成人| 亚洲av成人av| 亚洲狠狠婷婷综合久久图片| 毛片一级片免费看久久久久 | 久久久国产成人免费| 色视频www国产| 大又大粗又爽又黄少妇毛片口| 亚洲图色成人| 亚洲图色成人| 精品人妻1区二区| av.在线天堂| 搡老岳熟女国产| 99热只有精品国产| 精品免费久久久久久久清纯| 女人十人毛片免费观看3o分钟| 日日摸夜夜添夜夜添av毛片 | 亚洲人成网站高清观看| 免费av观看视频| 在线a可以看的网站| 久久热精品热| 五月伊人婷婷丁香| 亚洲熟妇中文字幕五十中出| 久久6这里有精品| 一进一出抽搐动态| 热99re8久久精品国产| 中出人妻视频一区二区| 免费在线观看日本一区| 欧美绝顶高潮抽搐喷水| 亚洲中文字幕一区二区三区有码在线看| 夜夜看夜夜爽夜夜摸| 国产一区二区三区av在线 | 两人在一起打扑克的视频| 亚洲天堂国产精品一区在线| 国产精品亚洲美女久久久| 精品一区二区三区视频在线观看免费| 精品人妻1区二区| 欧美黑人欧美精品刺激| 啪啪无遮挡十八禁网站| 免费在线观看成人毛片| 午夜精品一区二区三区免费看| 国产伦一二天堂av在线观看| 午夜福利在线在线| 国产av不卡久久| 亚洲五月天丁香| 国产成人av教育| 乱码一卡2卡4卡精品| 欧美精品啪啪一区二区三区| 国产女主播在线喷水免费视频网站 | а√天堂www在线а√下载| 99热这里只有是精品在线观看| 亚洲美女搞黄在线观看 | 欧美最黄视频在线播放免费| 亚洲成人免费电影在线观看| 99久久精品热视频| 欧美在线一区亚洲| 两人在一起打扑克的视频| 看片在线看免费视频| 99久久久亚洲精品蜜臀av| 久久精品国产亚洲av香蕉五月| 综合色av麻豆| 熟女人妻精品中文字幕| 国产精品电影一区二区三区| 欧美三级亚洲精品| 久久99热这里只有精品18| 一夜夜www| 国产中年淑女户外野战色| 美女被艹到高潮喷水动态| 12—13女人毛片做爰片一| 亚洲一级一片aⅴ在线观看| 国产精品久久视频播放| 校园春色视频在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 啪啪无遮挡十八禁网站| a在线观看视频网站| 九九爱精品视频在线观看| 欧美绝顶高潮抽搐喷水| 少妇人妻一区二区三区视频| 偷拍熟女少妇极品色| 亚洲一区高清亚洲精品| 中国美白少妇内射xxxbb| av中文乱码字幕在线| 男女边吃奶边做爰视频| 1024手机看黄色片| 精品久久久久久久久久免费视频| 亚洲欧美日韩东京热| 精华霜和精华液先用哪个| 春色校园在线视频观看| 亚洲一区高清亚洲精品| 淫妇啪啪啪对白视频| 在线观看免费视频日本深夜| 婷婷六月久久综合丁香| 久久亚洲真实| 免费黄网站久久成人精品| 日韩精品中文字幕看吧| 黄片wwwwww| 精品免费久久久久久久清纯| 午夜福利成人在线免费观看| 在线天堂最新版资源| 深夜精品福利| x7x7x7水蜜桃| 亚洲av五月六月丁香网| 亚洲国产欧洲综合997久久,| 中文字幕精品亚洲无线码一区| 别揉我奶头 嗯啊视频| 夜夜看夜夜爽夜夜摸| 色哟哟·www| 国产69精品久久久久777片| 亚洲av二区三区四区| 99久久中文字幕三级久久日本| 午夜亚洲福利在线播放| 免费黄网站久久成人精品| 国产精品1区2区在线观看.| 免费高清视频大片| 桃色一区二区三区在线观看| 欧美不卡视频在线免费观看| 国产国拍精品亚洲av在线观看| 久久久色成人| 亚洲精华国产精华液的使用体验 | 狂野欧美激情性xxxx在线观看| 国产成人aa在线观看| 成人二区视频| 日韩精品中文字幕看吧| 97超视频在线观看视频| 成人性生交大片免费视频hd| 亚洲精华国产精华液的使用体验 | 别揉我奶头~嗯~啊~动态视频| 可以在线观看毛片的网站| 最好的美女福利视频网| 亚洲国产精品成人综合色| 亚洲av成人精品一区久久| 国内少妇人妻偷人精品xxx网站| 长腿黑丝高跟| 亚洲欧美激情综合另类| 伦精品一区二区三区| 最新中文字幕久久久久| videossex国产| 天堂网av新在线| 一进一出抽搐gif免费好疼| 国产精品爽爽va在线观看网站| 韩国av在线不卡| 不卡视频在线观看欧美| 成人国产麻豆网| 久久九九热精品免费| 中文字幕高清在线视频| 国产真实伦视频高清在线观看 | 日日夜夜操网爽| 国产精品福利在线免费观看| videossex国产| 天堂网av新在线| 神马国产精品三级电影在线观看| 黄色视频,在线免费观看| 免费看av在线观看网站| 熟妇人妻久久中文字幕3abv| 久久亚洲精品不卡| 春色校园在线视频观看| 大又大粗又爽又黄少妇毛片口| 日本黄色视频三级网站网址| 深夜精品福利| 又爽又黄无遮挡网站| 亚洲一区二区三区色噜噜| 最近中文字幕高清免费大全6 | 搡老熟女国产l中国老女人| 国产精品,欧美在线| 欧美中文日本在线观看视频| 国产精品久久久久久久电影| 久久久久久国产a免费观看| 如何舔出高潮| 欧美一区二区精品小视频在线| a级毛片a级免费在线| 亚洲男人的天堂狠狠| 麻豆久久精品国产亚洲av| 极品教师在线免费播放| 国产又黄又爽又无遮挡在线| 欧美又色又爽又黄视频| 欧美成人a在线观看| 午夜免费男女啪啪视频观看 | 长腿黑丝高跟| 亚洲成人久久爱视频| 黄色一级大片看看| 国产亚洲91精品色在线| 99热这里只有精品一区| 人人妻,人人澡人人爽秒播| 一边摸一边抽搐一进一小说| 日日摸夜夜添夜夜添小说| 一级a爱片免费观看的视频| 啪啪无遮挡十八禁网站| 国产精品野战在线观看| 最新中文字幕久久久久| 日韩亚洲欧美综合| 伊人久久精品亚洲午夜| 色哟哟·www| 天堂影院成人在线观看| 国产精品久久久久久亚洲av鲁大| 偷拍熟女少妇极品色| 国产aⅴ精品一区二区三区波| 久久热精品热| 亚洲黑人精品在线| 观看免费一级毛片| 国产精品无大码| 成人无遮挡网站| 波多野结衣巨乳人妻| 国产精品av视频在线免费观看| 午夜精品在线福利| 欧美+日韩+精品| 国产精品一区二区三区四区久久| 国内精品久久久久久久电影| 日本熟妇午夜| 国产欧美日韩精品亚洲av| 国产精品久久电影中文字幕| 中文字幕av成人在线电影| 亚洲国产精品成人综合色| 成熟少妇高潮喷水视频| 欧美一区二区精品小视频在线| 嫩草影院精品99| 午夜久久久久精精品| 无遮挡黄片免费观看| 禁无遮挡网站| 久久久久免费精品人妻一区二区| 久久精品夜夜夜夜夜久久蜜豆| 亚洲国产色片| 亚洲人成网站在线播放欧美日韩| 国产精品自产拍在线观看55亚洲| 日本在线视频免费播放| 亚洲专区中文字幕在线| 免费观看的影片在线观看| 色综合色国产| a级毛片a级免费在线| 国产又黄又爽又无遮挡在线| 无遮挡黄片免费观看| av女优亚洲男人天堂| 国产精品一区二区三区四区免费观看 | 精品久久久久久久久久免费视频| 婷婷精品国产亚洲av在线| 国产亚洲av嫩草精品影院| 又黄又爽又免费观看的视频| 日本精品一区二区三区蜜桃| 久久精品国产99精品国产亚洲性色| 免费av不卡在线播放| 噜噜噜噜噜久久久久久91| 亚洲av成人精品一区久久| 久久精品国产亚洲av香蕉五月| 简卡轻食公司| 变态另类成人亚洲欧美熟女| 亚洲最大成人av| 老女人水多毛片| 国产真实伦视频高清在线观看 | 免费无遮挡裸体视频| 俄罗斯特黄特色一大片| 国产大屁股一区二区在线视频| av中文乱码字幕在线| 亚洲av免费高清在线观看| 免费无遮挡裸体视频| 亚洲成人久久性| 午夜亚洲福利在线播放| 欧美最黄视频在线播放免费| 九九久久精品国产亚洲av麻豆| 18禁黄网站禁片午夜丰满| 熟女电影av网| videossex国产| 两性午夜刺激爽爽歪歪视频在线观看| 国产高清视频在线观看网站| 免费黄网站久久成人精品| 精品人妻1区二区| 久久久色成人| 亚洲中文字幕日韩| 色播亚洲综合网| 尾随美女入室| a级毛片a级免费在线| 成人美女网站在线观看视频| 欧美日韩精品成人综合77777| 国产淫片久久久久久久久| 国产精品人妻久久久久久| 国产欧美日韩精品亚洲av| 中文字幕人妻熟人妻熟丝袜美| 日本五十路高清| 久9热在线精品视频| 在线观看66精品国产| 午夜福利在线观看吧| 国产精品乱码一区二三区的特点| 99在线人妻在线中文字幕| 日韩欧美在线二视频| 18禁黄网站禁片免费观看直播| 免费在线观看成人毛片| 亚洲真实伦在线观看| 一级黄片播放器| 男女啪啪激烈高潮av片| 久久久色成人| 精品一区二区三区视频在线观看免费| 日本免费a在线| 日韩欧美在线乱码| 欧美一区二区国产精品久久精品| 色尼玛亚洲综合影院| 色噜噜av男人的天堂激情| 又爽又黄无遮挡网站| 国产精品福利在线免费观看| 成人av在线播放网站| 国产午夜福利久久久久久| 最近最新免费中文字幕在线| 亚洲va日本ⅴa欧美va伊人久久| 欧美日韩中文字幕国产精品一区二区三区| 十八禁国产超污无遮挡网站| 99久久中文字幕三级久久日本| 免费看av在线观看网站| 此物有八面人人有两片| 国产精品美女特级片免费视频播放器| 亚洲经典国产精华液单| 免费人成视频x8x8入口观看| 久久久久国产精品人妻aⅴ院| 国产精品女同一区二区软件 | 日本 av在线| 精品99又大又爽又粗少妇毛片 | 欧美色视频一区免费| 波野结衣二区三区在线| 色播亚洲综合网| av天堂中文字幕网| 丝袜美腿在线中文| 黄色一级大片看看| 欧美激情在线99| 亚洲av五月六月丁香网| 欧美黑人巨大hd| 免费av不卡在线播放| 少妇猛男粗大的猛烈进出视频 | 三级国产精品欧美在线观看| 国产精华一区二区三区| 欧美三级亚洲精品| 午夜精品在线福利| 成年女人看的毛片在线观看| 久久国内精品自在自线图片| 欧美区成人在线视频| 免费观看的影片在线观看| 夜夜看夜夜爽夜夜摸| 麻豆国产av国片精品| 亚洲专区中文字幕在线| 一进一出抽搐动态| 日韩欧美国产一区二区入口| 午夜激情福利司机影院| 波多野结衣高清无吗| 一进一出抽搐动态| 嫩草影视91久久| 亚洲人与动物交配视频| 亚洲 国产 在线| 无人区码免费观看不卡| 亚洲成人精品中文字幕电影| 男人狂女人下面高潮的视频| 免费看a级黄色片| 欧美丝袜亚洲另类 | 亚洲av一区综合| 中文资源天堂在线| 欧美性感艳星| 国产成人一区二区在线| 国内毛片毛片毛片毛片毛片| 欧美人与善性xxx| 日本爱情动作片www.在线观看 | 国产精品人妻久久久久久| 露出奶头的视频| av在线亚洲专区| 91在线精品国自产拍蜜月| 国产乱人伦免费视频| 高清毛片免费观看视频网站| 日本黄大片高清| 人妻少妇偷人精品九色| 国产精品久久久久久亚洲av鲁大| 日韩 亚洲 欧美在线| 日本五十路高清| 色视频www国产| 少妇人妻一区二区三区视频| 精品午夜福利视频在线观看一区| 国产三级在线视频| 久久精品国产99精品国产亚洲性色| 久久欧美精品欧美久久欧美| 韩国av在线不卡|