• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BC-MAAC算法的高速入口匝道合并類人決策

    2025-03-09 00:00:00于鏑張昌熊雙雙劉朋友
    計算機應(yīng)用研究 2025年1期

    摘 要:針對在自動駕駛復(fù)雜環(huán)境下多智能體強化學(xué)習(xí)算法決策缺乏人類表現(xiàn)出的智能性和獎勵函數(shù)設(shè)計難度大的問題,提出基于BC-MAAC算法的高速入口匝道合并類人決策方案。將行為克隆思想與多智能體注意力動作—評價算法相融合,提出BC-MAAC算法,并且從Highway-env平臺收集的多智能體專家數(shù)據(jù)中推導(dǎo)出專家策略,利用推導(dǎo)的專家策略與智能體當(dāng)前策略的KL散度來塑造獎勵函數(shù),指導(dǎo)智能體訓(xùn)練過程。同時,應(yīng)用動作屏蔽機制,在每一步過濾掉不安全或無效的動作,提高學(xué)習(xí)效率。兩種不同交通密度場景的仿真結(jié)果表明所提算法整體性能優(yōu)于基線算法,提升了車輛的通行效率和安全性。簡單模式中,所提算法的成功率達(dá)到100%,平均速度和平均獎勵分別至少提升0.73%和11.14%;困難模式中,所提算法的成功率達(dá)到93.40%,平均速度和平均獎勵分別至少提升3.96%和12.23%。可見BC-MAAC算法通過專家獎勵函數(shù)指導(dǎo)網(wǎng)聯(lián)自動駕駛車輛,能夠通過合作更類人的完成高速入口匝道合并任務(wù)。

    關(guān)鍵詞:網(wǎng)聯(lián)自動駕駛車輛;智能決策;高速入口匝道合并;行為克隆;多智能體強化學(xué)習(xí)

    中圖分類號:TP181"" 文獻(xiàn)標(biāo)志碼:A

    文章編號:1001-3695(2025)01-017-0117-08

    doi: 10.19734/j.issn.1001-3695.2024.06.0204

    Highway on-ramp merging human-like decision based on BC-MAAC algorithm

    Abstract:To address the lack of human-like intelligence and the difficulty in designing reward functions in multi-agent reinforcement learning algorithms for autonomous driving in complex environments, this paper advanced a human-like decision-making scheme for highway on-ramp merging based on the BC-MAAC algorithm. Combined behavior cloning IDEA with the multi-actor-attention-critic algorithm, it proposed the BC-MAAC algorithm. Derives expert policies from multi-agent expert data collected on the Highway-env platform, and used the KL divergence between the derived expert policies and the current policies of agents to shape the reward function, so as to guide the training process of the agents. At the same time, the algorithm applied an action masking mechanism to filter out unsafe or ineffective actions at each step to improve learning efficiency. Simulation results under two different traffic density scenarios show that the proposed algorithm outperforms the baseline algorithm overall, improving vehicle efficiency and safety. In the easy mode, the proposed algorithm achieves 100% success rate, improves the average speed and the average reward by at least 0.73% and 11.14%, respectively. In the hard mode, the proposed algorithm achieves 93.40% success rate, improves the average speed and the average reward by at least 3.96% and 12.23%, respectively. It is obvious that the BC-MAAC algorithm guides connected autonomous vehicles to complete the highway on-ramp merging task more human-like through cooperation by using the expert reward function.

    Key words:connected autonomous vehicle; intelligent decision-making; highway on-ramp merging; behavior cloning; multi-agent reinforcement learning

    0 引言

    隨著自動駕駛技術(shù)如火如荼的發(fā)展,智能網(wǎng)聯(lián)技術(shù)得到了廣泛的應(yīng)用[1]。在網(wǎng)聯(lián)自動駕駛車輛(connected autonomous vehicles, CAV)和人類駕駛車輛(human driving vehicles, HDV)并存的混合交通流中,高速入口匝道合并是最具挑戰(zhàn)性的場景之一。面對周圍環(huán)境的不可預(yù)見性,CAV需理解其周圍環(huán)境并作出合適的駕駛決策,從而確保安全順暢地合并到主路中而不妨礙整體交通效率。因此,高速公路匝道入口安全高效的決策至關(guān)重要。

    目前,CAV在高速匝道合并任務(wù)中主要借助兩種方法來解決,即數(shù)學(xué)模型[2~5]和深度強化學(xué)習(xí)(deep reinforcement learning,DRL)[6~8]。其中,數(shù)學(xué)模型方法有基于規(guī)則的方法和基于優(yōu)化的方法。基于規(guī)則的匝道合并方法核心在于根據(jù)交通法規(guī)和駕駛經(jīng)驗制定一系列規(guī)則,并將其轉(zhuǎn)換為具體的控制策略,以確保CAV能夠有效完成匝道合并操作。文獻(xiàn)[2]對基于規(guī)則方法在高速入口匝道合并中的應(yīng)用進行了總結(jié),盡管這些方法在計算效率上表現(xiàn)優(yōu)異,但在優(yōu)化合并序列方面仍有改進空間。文獻(xiàn)[3]針對高速公路匝道上兩車道車輛的縱向協(xié)調(diào)問題,開發(fā)了一種基于規(guī)則的調(diào)整算法,旨在實現(xiàn)主路與匝道車輛之間接近最優(yōu)的合并順序,確保交通流的高效和安全。文獻(xiàn)[4]提出了一種創(chuàng)新的分層模型,旨在優(yōu)化CAV在匝道合并過程中的協(xié)同控制。然而,目前的最優(yōu)協(xié)同歸并控制方法通常限定入匝道車輛采用固定的合并點,從而限制了合并操作的靈活性。文獻(xiàn)[5]提出了一種CAV分層協(xié)同合并控制模型,支持靈活選擇合并位置,從而在提高合并效率的同時降低風(fēng)險。文獻(xiàn)[6]針對智能網(wǎng)聯(lián)環(huán)境下CAV的匝道匯入問題,通過深度Q網(wǎng)絡(luò)算法構(gòu)建了一種基于DRL的匝道匯入模型,使得自車可以根據(jù)周圍環(huán)境車輛行駛速度的不同自動調(diào)節(jié)自身的駕駛策略。文獻(xiàn)[7]成功地將深度確定性策略梯度算法應(yīng)用于高速入口匝道合并的橫向決策與縱向決策中,取得了顯著成效。強化學(xué)習(xí)(reinforcement learning, RL)訓(xùn)練的控制器安全性難以得到保證,因此文獻(xiàn)[8]提出了RL與模型預(yù)測控制相結(jié)合的方法,用于實現(xiàn)更為安全且高效的車輛控制。該方法融合了決策能力與預(yù)測控制能力,以在復(fù)雜環(huán)境中實現(xiàn)安全、高效的車輛控制。然而,在現(xiàn)實交通場景中,需要更多的CAV協(xié)同學(xué)習(xí)控制策略,因此多智能體強化學(xué)習(xí)(multi-agent reinforcement learning, MARL)算法備受研究人員青睞。

    MARL算法因其可擴展性和魯棒性已被廣泛用于CAV協(xié)同決策的相關(guān)任務(wù)中[9~19]。具體來說,文獻(xiàn)[9]提出基于多智能體近端策略優(yōu)化(proximal policy optimization, PPO)和端到端原則的交叉道路通行優(yōu)化方法,以最小化總體擁堵、排放和延誤為目標(biāo),研究混合交通下的交叉路口車流量優(yōu)化問題,即如何協(xié)調(diào)不同類型車輛CAV和HDV在復(fù)雜路況中的行為選擇。文獻(xiàn)[10]提出雙層變道行為規(guī)劃策略,其中上層是基于MARL的變道決策模型,下層是基于協(xié)商的路權(quán)分配模型。實驗驗證該組合方法能實現(xiàn)安全、高效、和諧的變道,提升車輛協(xié)作性和整體交通效率。文獻(xiàn)[11]將MARL方法應(yīng)用到高速公路變道任務(wù),結(jié)果表明,采用MARL算法訓(xùn)練CAV作出聯(lián)合決策,從而可以緩解高速公路的瓶頸擁堵。文獻(xiàn)[12]針對高速公路合流場景的問題,提出了一種MARL框架。該框架通過接收其他車輛的狀態(tài)信息作為輸入數(shù)據(jù),進而生成各CAV的加速指令,以實現(xiàn)無碰撞地完成匝道合并任務(wù)。文獻(xiàn)[13]提出利用參數(shù)共享和局部獎勵來促進智能體間合作的MARL算法來解決匝道合并問題,同時實現(xiàn)極大的可擴展性。文獻(xiàn)[14]為了更安全且高效地執(zhí)行匝道合并任務(wù),引入新型的基于優(yōu)先級的安全監(jiān)督器,使算法在安全性方面得到了顯著提升。文獻(xiàn)[15]為提升匝道合并通行效率,確保CAV有序通過,提出集成DRL算法中智能體間通信協(xié)議與軟動作-評價算法的方法,并通過實驗驗證了其有效性。文獻(xiàn)[16]針對高速入口匝道合并區(qū)交通特性,基于分布式MARL框架提出集中式訓(xùn)練分布式執(zhí)行的改進框架,建立基于兩種框架的優(yōu)勢動作評論家和PPO兩種控制算法。通過實驗證明,所建立算法整體性能優(yōu)于原算法。為了提升CAV在高速匝道合并中的決策成功率,文獻(xiàn)[17]提出基于PPO算法的獨立學(xué)習(xí)與參數(shù)共享策略的方法。實驗結(jié)果證明該方法在高速入口匝道合流任務(wù)中顯著提高了CAV的決策成功率。文獻(xiàn)[18]采用分布式智能體深度確定性策略梯度,設(shè)計了CAV協(xié)同匯入控制,考慮安全及加速度約束,構(gòu)建匝道并線與車輛模型,顯著降低了能耗與行駛時間。文獻(xiàn)[19]利用圖神經(jīng)網(wǎng)絡(luò)與RL,在雙匝道高速上構(gòu)建交互駕駛環(huán)境,實驗驗證圖神經(jīng)網(wǎng)絡(luò)能精確模擬車輛內(nèi)部交互,增強MARL決策效能。

    許多研究人員采用模仿學(xué)習(xí)的思想在DRL任務(wù)中融入人類專家數(shù)據(jù)[20~26],從而驅(qū)使智能體更加類人化。文獻(xiàn)[20]將行為克?。╞ehavior cloning, BC)思想應(yīng)用到自動駕駛領(lǐng)域。文獻(xiàn)[21]提出結(jié)合模仿學(xué)習(xí)和DRL的智能車輛變道決策方法。宏觀決策模塊和細(xì)化子模塊分別采用模仿學(xué)習(xí)和深度確定策略梯度算法,以實現(xiàn)更加準(zhǔn)確、高效的車輛變道行為。文獻(xiàn)[22]在分析多位駕駛員的駕駛表現(xiàn)后,提取各自獨特的駕駛風(fēng)格特征,進而利用逆強化學(xué)習(xí)算法根據(jù)這些不同的駕駛風(fēng)格,為CAV定制多種變道策略。文獻(xiàn)[23]使用通道—空間注意力機制改進BC,并使用模仿專家策略指導(dǎo)DRL算法的學(xué)習(xí)過程,并在無信號燈路口左轉(zhuǎn)決策中進行驗證。結(jié)果表明,基于專家先驗的DRL算法比傳統(tǒng)的DRL算法更具優(yōu)勢。文獻(xiàn)[24]在CAV的縱向控制上,結(jié)合了專家演示和DRL方法,以實現(xiàn)更高效的駕駛控制策略。文獻(xiàn)[25]開發(fā)專家實時指導(dǎo)的DRL方法,通過干預(yù)和糾正智能體的不合理行為,使得算法快速收斂并提升性能。文獻(xiàn)[26]提出在DRL策略更新過程中加入模仿學(xué)習(xí),從人類專家數(shù)據(jù)和智能體探索中學(xué)習(xí),最小化智能體行為與專家行為之間的差距,以提升算法性能。

    在上述成果啟發(fā)下,本文融合多智能體注意力動作—評價(multi actor-attention-critic, MAAC)算法[27]和BC思想,提出BC-MAAC算法,使得CAV通過合作更安全高效地完成匝道合并任務(wù)。其主要貢獻(xiàn)如下:

    a)為了建模專家在高速入口匝道合并協(xié)同決策任務(wù)中起到協(xié)調(diào)作用,采用新穎的專家示范范式,在同一時刻為多個CAV部署專家示范動作,收集專家數(shù)據(jù)。

    b)提出基于BC-MAAC算法的高速入口匝道合并類人決策方案。融合專家指導(dǎo)思想、注意力、參數(shù)共享以及動作掩碼等機制,收集高效且合作的專家數(shù)據(jù),并將KL散度描述的專家指導(dǎo)獎勵引入到訓(xùn)練過程中,啟發(fā)智能體策略最大化自身獎勵值并向?qū)<也呗钥拷?,從而避免過度優(yōu)化自身獎勵而作出過激行為。

    c)基于Highway-env平臺構(gòu)建混合交通流高速入口匝道合并場景,并設(shè)置兩種不同交通密度,證明所提算法能夠保證CAV作出更類人的合作行為,從而更安全高效地完成高速入口匝道合并任務(wù)。

    1 多智能體強化學(xué)習(xí)基礎(chǔ)知識

    MARL算法按照訓(xùn)練過程和執(zhí)行過程可分為三種框架,分別為分布式訓(xùn)練分布式執(zhí)行、集中式訓(xùn)練集中式執(zhí)行和集中式訓(xùn)練分布式執(zhí)行(centralized training decentralized execution, CTDE)。本文采用CTDE框架,如圖1所示。在訓(xùn)練階段集中訓(xùn)練一個評價網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠接收所有智能體的觀測—動作信息,而動作網(wǎng)絡(luò)則保持獨立性,僅依賴每個智能體的局部觀測來輸出其動作。

    2 基于BC-MAAC算法高速入口匝道合并類人決策方案

    本文提出基于BC-MAAC算法高速入口匝道合并類人決策方案,如圖2所示。在多智能體專家演示階段,由人類專家基于Highway-env平臺對每個CAV進行單獨控制,并將專家執(zhí)行的動作和每個CAV的觀測以觀測-動作對的形式進行存儲,收集專家數(shù)據(jù)。采用BC方法從上述收集到的人類專家數(shù)據(jù)中推導(dǎo)出專家策略。然后將專家策略與CAV當(dāng)前策略之間的KL散度用于構(gòu)建BC-MAAC算法獎勵函數(shù)的專家指導(dǎo)部分,從而指導(dǎo)CAV的學(xué)習(xí)過程。同時,采用動作屏蔽機制篩選出不安全或無效的動作,從而提高學(xué)習(xí)效率。

    3 具體實現(xiàn)

    3.1 BC-MAAC算法

    人類駕駛員在駕駛過程中往往會通過合作安全高效地完成駕駛?cè)蝿?wù),同時在駕駛車輛時往往更關(guān)心可能會影響自車運動的周車信息而并非全部車輛信息。因此融合BC思想和具備注意力機制的MAAC算法,本文提出BC-MAAC算法完成高速入口匝道合并類人決策。在CTDE框架的基礎(chǔ)上沿用MAAC算法的基礎(chǔ)架構(gòu),通過注意力機制,模型可以自動學(xué)習(xí)并關(guān)注輸入數(shù)據(jù)中的關(guān)鍵特征,并且通過這些特征的加權(quán)處理,模型可以更好地理解周圍的場景并作出準(zhǔn)確的決策,以提高整體的安全性能。同時為了避免CAV過度優(yōu)化自身獎勵,作出過激行為而影響駕駛安全,將多智能體專家演示收集到的專家數(shù)據(jù),采用BC推導(dǎo)專家策略,指導(dǎo)BC-MAAC算法訓(xùn)練過程。具體實現(xiàn)方法是用智能體當(dāng)前策略與專家策略的KL散度作為額外的獎勵值來引導(dǎo)智能體策略向?qū)<也呗钥拷C-MAAC算法框圖如圖3所示。

    其中:fi為兩層感知機,gi為單層感知機。在訓(xùn)練開始時,將車輛i的當(dāng)前觀測oi與動作ai輸入gi便得到車輛i的編碼信息。同時,基于其他車輛的編碼信息采用多頭自注意力機制獲取其他車輛對車輛i影響的總貢獻(xiàn)xi,如式(2)所示。

    其中:αij是車輛j對車輛i的注意力權(quán)重,通過比較車輛i與車輛j的嵌入向量gi與gj之間的相似性αij∝exp(eTjWTkWqei)得到。Wq將ei映射成查詢值,而Wk則將ej映射成健值,另外需要將αij放縮到合適的值以防止梯度消失。vj是車輛j觀測動作對的嵌入,即首先用gj對觀測動作對進行嵌入編碼,然后利用線性矩陣V進行線性變換,最后進行非線性映射h。

    由于不同車輛的評價網(wǎng)絡(luò)之間參數(shù)共享,所以BC-MAAC算法提出用聯(lián)合的損失函數(shù)來訓(xùn)練各個車輛的評價網(wǎng)絡(luò),即

    其中:α是平衡最大熵和獎勵的參數(shù)。由于通過多智能體專家演示的數(shù)據(jù)BC得出的專家策略,在面對樣本數(shù)據(jù)之外的情況

    其中:αKL為KL散度參數(shù);DKL表示專家策略與智能體策略之間的差異值。各個車輛的動作網(wǎng)絡(luò)通過式(7)進行更新:

    其中:b(o,a\i)[27]是BC-MAAC算法用于解決信用分配的反事實基線;a\i表示去除第i個車輛的聯(lián)合動作。

    分別通過梯度上升法和梯度下降法更新第i個車輛的動作網(wǎng)絡(luò)與評價網(wǎng)絡(luò)的參數(shù)θi與ψi,更新公式如式(8)(9)所示。

    3.2 多智能體專家數(shù)據(jù)收集

    本文基于Highway-env仿真平臺,針對高速入口匝道合并的駕駛?cè)蝿?wù),把收集到的人類專家的示范動作與車輛的觀測存儲為專家數(shù)據(jù)。具體來說,人類專家以第一人稱視角觀察駕駛環(huán)境,在每個時間步,通過鍵盤數(shù)字鍵0、1、2、3和4操縱五種離散的行動,分別為每輛CAV提供決策行為,從而指揮高速入口匝道路段CAV通過合作完成合并任務(wù),避免CAV出現(xiàn)自私行為而影響駕駛安全。數(shù)字鍵0、1、2、3和4分別對應(yīng)橫向上的左變道和右變道兩個離散動作、巡航操作以及縱向上的加速和減速兩個離散動作。

    3.3 行為克隆

    BC算法的目的是尋找使智能體獲得的累計獎勵值最大的策略。本文采用帶標(biāo)簽的專家演示數(shù)據(jù)進行行為克隆來近似專家策略。給定N條軌跡DE:τiN組成的專家演示數(shù)據(jù)集,數(shù)據(jù)集中的若干觀測—動作對分別對應(yīng)于監(jiān)督學(xué)習(xí)中的輸入值與標(biāo)簽。其中觀測動作對表示如下:

    τ={oi,1,ai,1,oi,2,ai,2,…,oi,N,ai,N}(12)

    其中:θBC為策略網(wǎng)絡(luò)參數(shù)。策略網(wǎng)絡(luò)通常采取最小化專家策略網(wǎng)絡(luò)的輸出與專家動作之間的均方誤差方式來進行訓(xùn)練,專家策略網(wǎng)絡(luò)損失函數(shù)如式(14)所示。

    3.4 安全機制

    當(dāng)CAV通過MARL訓(xùn)練時,動作網(wǎng)絡(luò)輸出的動作得分會進入softmax層,生成各個動作的概率,這個概率用于采樣動作,即ai=πθi(oi)。πθi(oi)表示在給定觀測oi和參數(shù)θi下,選擇動作ai的概率分布,而softmax函數(shù)則產(chǎn)生所有動作的概率值,并使得所有可能動作的概率值之和為1。

    然而,這種采樣方式可能導(dǎo)致一些無效動作通過動作網(wǎng)絡(luò)被采樣,使車輛作出不安全動作,同時無效的動作信息也會阻礙動作網(wǎng)絡(luò)更新。為了解決這一問題,本文考慮使用動作掩碼機制來屏蔽無效的動作。具體來說,本文利用動作掩碼判定動作有效性,其中“0”代表無效動作,而“1”則代表有效動作,被判定為無效動作其對應(yīng)對數(shù)值將被-1E8替換,通過softmax層后,其對應(yīng)的概率接近0,從而避免其在訓(xùn)練過程中被選中,確保智能體僅從有效動作中采樣。在本文研究中,當(dāng)CAV在到達(dá)匝道的合并部分之前嘗試改變車道進行合并時,以及當(dāng)CAV其速度已經(jīng)達(dá)到預(yù)定的最大或最小速度時嘗試加速或減速時,規(guī)定這兩種動作無效。安全機制示意圖如圖4所示。

    3.5 算法流程

    算法1 BC-MAAC算法

    4 智能網(wǎng)聯(lián)車輛的部分可觀測馬爾可夫決策過程

    本文將混合交通下的高速入口匝道合并任務(wù)建模為部分可觀測馬爾可夫決策過程,其中每個CAV只觀察周圍環(huán)境重點需要關(guān)注的部分車輛,用五元組{S,A,P,R,O}來描述該過程。

    4.1 狀態(tài)空間

    在典型的匝道合流場景中,需要考慮主車的行駛狀態(tài)以及與周圍車輛的相互運動關(guān)系。狀態(tài)空間設(shè)置應(yīng)有利于主車及時獲取周圍車輛的運動狀態(tài),從而確定最優(yōu)駕駛行為,避免與周圍車輛發(fā)生碰撞,以提高決策成功率。因此,本文將CAV的狀態(tài)定義為維數(shù)NNi×W的矩陣。其中NNi為觀測到的車輛數(shù)量,W為用于表示車輛狀態(tài)的特征數(shù)量。本文將采用自主車輛附近五輛車觀測組成系統(tǒng)狀態(tài)空間O=(O1,O2,O3,O4,O5),每輛交通車輛均包含五個狀態(tài)特性,即Oi=[pei,xi,yi,vxi,vyi]。其中:pei為一個二元變量,表示第i個車輛是否在自主車輛附近可觀察到;xi為被觀察的第i個車輛相對于自主車輛的縱向位置;yi為被觀察的第i個車輛相對于自主車輛的橫向位置;vxi為被觀察的第i個車輛相對于自主車輛的縱向速度;vyi為被觀察的第i個車輛相對于自主車輛的橫向速度。

    4.2 動作空間

    CAV的離散動作空間設(shè)計為Ai=(a0,a1,a2,a3,a4),其中a0,a1,a2,a3,a4分別代表左轉(zhuǎn)彎、右轉(zhuǎn)彎、巡航、加速和減速。系統(tǒng)的整體動作空間A=A1×A2×…×AN為各CAV的聯(lián)合動作。車輛收到動作決策指令,底層控制器就會產(chǎn)生相應(yīng)的轉(zhuǎn)向和油門控制信號來操縱CAV。

    4.3 獎勵函數(shù)

    當(dāng)CAV采取行動時,其對環(huán)境的影響會以獎勵的形式反饋回來,用于衡量當(dāng)前狀態(tài)下的行動效果。根據(jù)式(5)(6)所示,本文綜合考慮了安全、高效、車頭時距和合并成本來設(shè)計了傳統(tǒng)MARL獎勵函數(shù)r-i和專家先驗知識的獎勵函數(shù)ri,KL。傳統(tǒng)MARL獎勵函數(shù)中的wc、ws、wh和wm分別是獎勵各部分系數(shù),其中ri,c是碰撞獎勵,ri,s是高速獎勵,ri,h是車道時間評估獎勵,ri,m是合并成本獎勵。由于安全是最重要的標(biāo)準(zhǔn),所以本文考慮使wc權(quán)重大于其他權(quán)重,以優(yōu)先考慮安全。第i個CAV在時間步長t的獎勵定義為ri,t:

    ri,t=wcri,c+wsri,s+whri,h+wmri,m+ri,KL(15)

    a)碰撞評估獎勵函數(shù)為[14]

    b)高速評估獎勵函數(shù)為[14]

    其中:vt為車輛當(dāng)前速度,vmin=20 m/s,vmax=30 m/s。

    c)車頭時距評估獎勵為[14]

    其中:dh是車頭時距;th是一個預(yù)定義的車頭時距閾值,取1.2 s/Veh。當(dāng)車頭時距大于th時,CAV才會得到獎勵。

    d)合并成本獎勵為[28]

    其中:x為CAV在坡道上行駛的距離,L為坡道長度。隨著CAV靠近合并末端,懲罰增加。

    5 仿真驗證

    5.1 實驗設(shè)置

    本文使用Highway-env仿真平臺對本文算法進行驗證,該平臺是用于自動駕駛研究的仿真平臺。本文實驗場景為高速入口匝道合并,在設(shè)置的場景中,自主車輛的目標(biāo)是通過完成變道合并、跟車和超車,即找到一種既安全(無碰撞)又高效(高速)的駕駛策略。

    實驗環(huán)境設(shè)置如圖5所示,本文將公路長度設(shè)置為520 m,忽略道路以外的車輛,其中合并車道入口L1為320 m,合并車道長度為L2為100 m,合并后主路車道長度L3為100 m。從0 m到220 m,在直通車道和匝道車道上每隔40 m均勻設(shè)置一個車輛刷出點。

    為了盡可能模擬真實環(huán)境,根據(jù)車輛密度的不同分為了兩種實驗?zāi)J剑汉唵文J椒謩e有2輛CAV和1~3輛HDV;困難模式分別有 3~5 輛 CAV和3~5輛HDV。在每個訓(xùn)練回合中,不同數(shù)量的HDV和CAV會隨機出現(xiàn)在刷出點,并在每個初始刷出點添加隨機位置噪聲(均勻分布在[-1.5 m, 1.5 m])。車輛控制采樣頻率為1 Hz,即CAV每1秒采取一次動作。同時,采用IDM和MOBIL分別對高速公路環(huán)境車輛的縱向加速和橫向變道決策進行了研究。CAV的高層決策由BC-MAAC算法作出,并由底層PID控制器跟蹤。 BC-MAAC其余參數(shù)設(shè)置如表1所示。

    5.2 實驗結(jié)果分析

    本文將BC-MAAC與MAAC[27]、MAA2C[29]、MAPPO[30]和MAACKTR算法(ACKTR[31]算法擴展到多智能體環(huán)境)進行比較。MAAC算法是一種多智能體強化學(xué)習(xí)算法,它借鑒了動作—評價網(wǎng)絡(luò)架構(gòu)的思想,并采用了CTDE框架來提高訓(xùn)練穩(wěn)定性和效率,同時引入了注意力機制,選擇性地關(guān)注來自其他智能體的信息來學(xué)習(xí)每個智能體的評價網(wǎng)絡(luò)。MAA2C算法采用了A2C算法的框架將其擴展到多智能體環(huán)境,從而適應(yīng)多智能體系統(tǒng)的復(fù)雜性與交互性。MAACKTR利用獨立學(xué)習(xí)和參數(shù)共享技術(shù),將單智能體算法ACKTR擴展到多智能體環(huán)境。MAPPO是PPO算法的多智能體擴展版本,它通過引入廣義優(yōu)勢估計以及值裁剪等策略,對MARL的框架進行了改進。根據(jù)式(15),CAV在每個回合內(nèi)所累積的獎勵是由安全性、效率、車頭時距、合并成本和MARL智能體策略與專家策略之間的KL散度共同決定的。為了最大化累積獎勵,需要對這些因素進行考慮。在訓(xùn)練過程中,累積獎勵的增加可以被視為策略的優(yōu)化和改進,而累積獎勵的收斂則表明策略已達(dá)到了局部最優(yōu)狀態(tài)。

    5.2.1 懲罰系數(shù)對于決策的影響

    在正式訓(xùn)練前,本文首先分析碰撞系數(shù)對策略安全性和通行效率的影響。具體來說,在簡單模式下,首先利用BC-MAAC算法,在不同的碰撞懲罰系數(shù)下進行模型訓(xùn)練。接著保存這些經(jīng)過訓(xùn)練的模型,并對它們進行60回合的測試。在訓(xùn)練和測試過程中,保持獎勵函數(shù)中其他參數(shù)不變,分析不同碰撞懲罰系數(shù)對策略的影響。本文選擇訓(xùn)練過程中每回合平均獎勵與平均速度作為評價指標(biāo),測試過程中選擇成功率與平均速度作為評價指標(biāo),實驗結(jié)果如圖6、7和表2所示。

    仿真結(jié)果表示,不同碰撞懲罰系數(shù)下,BC-MAAC算法均能有效控制CAV實現(xiàn)較優(yōu)的駕駛策略。然后,隨著碰撞懲罰系數(shù)的增加,盡管CAV的安全性會有所提升,但CAV平均速度會有所降低。這是因為當(dāng)過分強調(diào)安全性時,CAV會傾向于采取更保守的駕駛策略,從而犧牲了部分駕駛效率。因此,在后續(xù)的實驗中,本文將把碰撞系數(shù)wc設(shè)定為20,這一數(shù)值在確保安全性的同時,也充分考慮到了交通效率,實現(xiàn)了兩者的良好平衡。

    5.2.2 訓(xùn)練結(jié)果分析

    在訓(xùn)練階段,本文將BC-MAAC算法與基線算法控制的CAV分別在兩種不同交通密度下對平均獎勵和平均速度進行了探討。圖8和9分別為簡單模式與困難模式下BC-MAAC算法與基線算法控制的CAV獎勵隨訓(xùn)練回合變化曲線,圖10和11分別為簡單模式與困難模式下BC-MAAC算法與基線算法控制的CAV平均速度隨訓(xùn)練回合變化的曲線。

    如圖8和9所示,隨著車輛密度增大,車輛訓(xùn)練環(huán)境變得更復(fù)雜,因此,在困難模式下,各個算法控制的CAV的平均獎勵均有所降低。由圖可知,BC-MAAC算法控制的CAV在兩種不同交通密度下的平均獎勵始終優(yōu)于基線算法,說明了通過專家策略指導(dǎo)訓(xùn)練的MAAC算法控制的CAV獲得了更優(yōu)的駕駛策略,能夠通過合作,更熟練更類人地完成高速入口匝道合并任務(wù)。在兩種不同交通密度條件下,MAAC與MAA2C算法控制下的CAV均隨著訓(xùn)練回合的增多,實現(xiàn)了平均獎勵的穩(wěn)步提升,最終達(dá)到了較優(yōu)的駕駛策略。由于MAAC算法引入了注意力機制,使其能夠更深入地理解匝道合并場景中的復(fù)雜交互,從而提高了決策的準(zhǔn)確性。因此,相較于MAA2C算法,MAAC算法控制下的CAV在兩種交通密度下均展現(xiàn)出了更高的平均獎勵。MAPPO算法控制下的CAV在兩種交通密度下的平均獎勵波動較大,這反映出該算法在尋找最優(yōu)駕駛策略時容易陷入局部最優(yōu)解,從而未能獲得穩(wěn)定的優(yōu)秀表現(xiàn)。MAACKTR算法控制下的CAV在簡單模式下,隨著訓(xùn)練回合的增加,平均獎勵逐漸提高,展現(xiàn)出了較優(yōu)的駕駛策略。然而,在困難模式下,該算法的表現(xiàn)并不理想,未能有效地應(yīng)對復(fù)雜場景中的挑戰(zhàn),因此未能獲得優(yōu)秀的駕駛策略。

    如圖10和11所示,隨著車輛密度的增加,車輛訓(xùn)練環(huán)境變得更為復(fù)雜,因此,在困難模式下,為確保匝道合并任務(wù)的安全完成,各算法控制下的CAV的平均速度均有所下降。由圖可知,BC-MAAC算法控制下的CAV在兩種交通密度條件下,其平均速度始終優(yōu)于基線算法,這證明了通過專家策略指導(dǎo)訓(xùn)練的MAAC算法控制的CAV在匝道合并區(qū)域具有更高的通行效率。MAAC與MAA2C算法控制的CAV在兩種交通密度下均展現(xiàn)出較優(yōu)的駕駛策略,并維持了相對較高的平均速度。特別是MAAC算法,由于引入了注意力機制,使得每個CAV能夠更精準(zhǔn)地關(guān)注其他車輛的行為,從而作出更為高效和合理的決策。因此,相較于MAA2C算法,MAAC算法控制下的CAV在兩種交通密度下均展現(xiàn)出了更高的平均速度。MAPPO算法控制的CAV在兩種交通密度下的平均速度表現(xiàn)出較大的波動,始終未能趨于平穩(wěn),這反映了該算法在應(yīng)對復(fù)雜交通環(huán)境時可能存在的穩(wěn)定性問題。MAACKTR算法控制的CAV雖然在簡單模式下的平均速度變化穩(wěn)定且逐步提升,最終趨于平穩(wěn)收斂,但在困難模式下表現(xiàn)不佳,平均速度未呈現(xiàn)上升趨勢,這證明了該算法在應(yīng)對更復(fù)雜交通環(huán)境時可能存在的局限性。

    5.2.3 測試結(jié)果分析

    訓(xùn)練結(jié)束后,保存通過BC-MAAC算法與基線算法訓(xùn)練的模型,并在兩個交通密度下使用三個隨機種子進行60回合測試,測試指標(biāo)成功率、平均速度、平均速度標(biāo)準(zhǔn)差、平均獎勵和平均獎勵標(biāo)準(zhǔn)差如表3所示。由表可見,在兩種交通密度測試下,BC-MAAC算法控制下的CAV展現(xiàn)出了優(yōu)越的性能,具有最高的成功率、平均速度和平均獎勵。其中在簡單模式下表現(xiàn)優(yōu)異實現(xiàn)了零碰撞,在困難模式也有較高成功率,達(dá)到了0.934。這一結(jié)果表明,通過專家策略指導(dǎo)訓(xùn)練的CAV能夠高效合作地完成合高速入口匝道合并任務(wù),有效減少了因自私行為可能導(dǎo)致的駕駛安全隱患。此外,模型在測試的回合中具有最低的平均獎勵標(biāo)準(zhǔn)差和較低的平均速度標(biāo)準(zhǔn)差,同時本文選取95%置信區(qū)間進行區(qū)間估計,簡單模式下BC-MAAC算法的平均獎勵置信區(qū)間為[12.2897,13.6503]、平均速度置信區(qū)間為[27.0329,27.8471],困難模式下BC-MAAC算法的平均獎勵置信區(qū)間為[4.1841,6.0959]、平均速度置信區(qū)間為[24.7676,25.6324],相較于其他基線算法,BC-MAAC算法有著較小的置信區(qū)間。這一結(jié)果表明,通過BC-MAAC算法訓(xùn)練的模型在不同測試場景下仍能保持優(yōu)異且穩(wěn)定的性能。MAAC與MAA2C算法控制下的CAV在兩種交通密度的測試環(huán)境中均展現(xiàn)出良好的性能,具備較高的成功率、平均速度和平均獎勵。由于MAAC算法引入了注意力機制,使其在處理多車交互和決策時更加合理,所以在成功率、平均速度和平均獎勵方面相較于MAA2C算法表現(xiàn)出更為優(yōu)越的性能。MAPPO算法控制下的CAV在兩種交通密度下的表現(xiàn)則不盡人意。由于其頻繁的速度變化,導(dǎo)致該算法在應(yīng)對復(fù)雜交通環(huán)境時存在較大的不確定性,進而影響了其成功率的穩(wěn)定性。MAACKTR算法控制下的CAV在兩種交通密度下的表現(xiàn)均較為不佳,未能很好地完成匝道合并任務(wù),這可能是由于該算法在應(yīng)對復(fù)雜交通環(huán)境時存在某些局限。

    6 結(jié)束語

    本文研究了CAV和HDV混合交通流中的高速公路匝道合并決策問題,構(gòu)建了基于BC-MAAC算法的新型決策方案,包括注意力機制、參數(shù)共享、動作掩蔽和專家指導(dǎo)思想,使CAV能夠通過合作表現(xiàn)出更類人的駕駛行為,從而確保安全、高效地完成高速匝道合并任務(wù)。BC思想用于從通過多智能體專家演示收集的數(shù)據(jù)中推導(dǎo)出專家策略,從而指導(dǎo)智能體的訓(xùn)練過程。實驗結(jié)果表明,通過BC-MAAC算法訓(xùn)練的CAV性能優(yōu)異且穩(wěn)定,同時在成功率和流量效率方面優(yōu)于其他基線算法。在未來的研究中,將繼續(xù)研究混合交通流下的高速入口匝道合并場景,預(yù)計會將預(yù)測與決策結(jié)合,進一步提升通過算法訓(xùn)練的模型的魯棒性和安全性。

    參考文獻(xiàn):

    [1]李克強, 戴一凡, 李升波, 等. 智能網(wǎng)聯(lián)汽車技術(shù)的發(fā)展現(xiàn)狀及趨勢 [J]. 汽車安全與節(jié)能學(xué)報, 2017, 8 (1): 1-14. (Li Keqiang, Dai Yifan, Li Shengbo, et al.Development status and trends of intelligent connected vehicles technology [J]. Journal of Automotive Safety and Energy Conservation, 2017, 8 (1): 1-14.)

    [2]Rios-Torres J,Malikopoulos A A. A survey on the coordination of connected and automated vehicles at intersections and merging at highway on-ramps [J]. IEEE Trans on Intelligent Transportation Systems, 2017, 18 (5): 1066-1077.

    [3]Ding Jishiyu, Li Li, Peng Hui, et al.A rule-based cooperative merging strategy for connected and automated vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2019, 21 (8): 3436-3446.

    [4]Chen Na, Arem B V,Alkim T, et al.A hierarchical model-based optimization control approach for cooperative merging by connected automated vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2021, 22 (12): 7712-7725.

    [5]Tang Zhixian, Zhu Hong, Zhang Xin, et al.A novel hierarchical cooperative merging control model of connected and automated vehicles featuring flexible merging positions in system optimization [J]. Transportation Research Part C: Emerging Technologies, 2022, 138: 103650.

    [6]喬良, 鮑泓, 玄祖興, 等. 基于強化學(xué)習(xí)的無人駕駛匝道匯入模型 [J]. 計算機工程, 2018, 44 (7): 20-24. (Qiao Liang, Bao Hong, Xuan Zuxing, et al.Reinforcement learning-based model for autonomous vehicle on-ramp merging [J]. Computer Engineering, 2018, 44 (7): 20-24.)

    [7]Lin Yuan, McPhee J, Azad N L. Anti-jerk on-ramp merging using deep reinforcement learning [C]// Proc of IEEE Intelligent Vehicles Symposium.Piscataway,NJ: IEEE Press, 2020: 7-14.

    [8]Kimura H, Takahashi M, Nishiwaki K,et al.Decision-making based on reinforcement learning and model predictive control considering space generation for highway on-ramp merging [J]. IFAC-Papers On Line, 2022, 55 (27): 241-246.

    [9]申元霞, 謝悅, 張學(xué)鋒, 等. 基于多智能體強化學(xué)習(xí)的交叉道路車輛協(xié)同控制 [J/OL]. 西華大學(xué)學(xué)報:自然科學(xué)版.(2023-10-24)." https://link. cnki. net/urlid/51. 1686. N. 20231024. 1056. 002.(Shen Yuanxia, Xie Yue, Zhang Xuefeng, et al.Cooperative vehicle control at intersection based on multi-agent reinforcement learning [J/OL]. Journal of Xihua University :Natural Science Edition. (2023-10-24).https://link. cnki. net/urlid/51. 1686. N. 20231024. 1056. 002.)

    [10]Zhang Jiawei, Chang Cheng, Zeng Xiaolin,et al.Multi-agent DRL-based lane change with right-of-way collaboration awareness [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (1): 854-869.

    [11]Ha P Y J, Chen Sikai, Dong Jiqian, et al.Leveraging the capabilities of connected and autonomous vehicles and multi-agent reinforcement learning to mitigate highway bottleneck congestion [EB/OL]. (2020-10-12). https://arxiv.org/abs/2010. 05436.

    [12]Schester L, Ortiz L E. Automated driving highway traffic merging using deep multi-agent reinforcement learning in continuous state-action spaces [C]// Proc of IEEE Intelligent Vehicles Symposium. Piscataway,NJ: IEEE Press, 2021: 280-287.

    [13]Zhou Wei, Chen Dong, Yan Jun,et al.Multi-agent reinforcement learning for cooperative lane changing of connected and autonomous vehicles in mixed traffic [J]. Autonomous Intelligent Systems, 2022, 2 (1): 5-16.

    [14]Chen Dong,Hajidavalloo R M, Li Zhaojian, et al.Deep multi-agent reinforcement learning for highway on-ramp merging in mixed traffic [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (11): 11623-11638.

    [15]Li Meng, Li Zhibin, Wang Shunchao, et al.Enhancing cooperation of vehicle merging control in heavy traffic using communication based soft actor-critic algorithm [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (6): 6491-6506.

    [16]李春, 吳志周, 許宏鑫, 等. 基于多智能體強化學(xué)習(xí)自動合流控制方法研究 [J]. 計算機工程與應(yīng)用,2024,60(23):349-356. (Li Chun, Wu Zhizhou, Xu Hongxin, et al.Research on automatic merging control method based on multi-agent reinforcement learning [J]. Computer Engineering and Applications,2024,60(23):349-356.

    [17]Zhang Xinfeng, Wu Lin, Liu Huan, et al.High-speed ramp merging behavior decision for autonomous vehicles based on multi-agent reinforcement learning [J]. IEEE Internet of Things Journal, 2023, 10 (24): 22664-22672.

    [18]Zhou Shanxing, Zhuang Weichao, Yin Guodong, et al.Cooperative on ramp merging control of connected and automated vehicles: distri-buted multi-agent deep reinforcement learning approach [C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 402-408.

    [19]Liu Qi, Li Zirui, Li Xueyuan, et al.Graph convolution-based deep reinforcement learning for multi-agent decision-making in interactive traffic scenarios [C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 4074-4081.

    [20]Bojarski M, Testa D D, Dworakowski D, et al.End to end learning for self-driving cars [EB/OL]. (2016-04-26).https://arxiv.org/abs/1604. 07316.

    [21]宋曉琳, 盛鑫, 曹昊天, 等. 基于模仿學(xué)習(xí)和強化學(xué)習(xí)的智能車輛換道行為決 [J]. 汽車工程, 2021, 43 (1): 59-67. (Song Xiaolin, Sheng Xin, Cao Haotian, et al.Intelligent vehicle lane changing behavior decision based on imitation learning and reinforcement lear-ning [J]. Automotive Engineering, 2021, 43 (1): 59-67.)

    [22]Liu Jundi, Boyle L N, Banerjee A G. An inverse reinforcement lear-ning approach for customizing automated lane change systems [J]. IEEE Trans on Vehicular Technology, 2022, 71(9): 9261-9271.

    [23]傅明建, 郭福強. 基于深度強化學(xué)習(xí)的無信號燈路口決策研究 [J]. 計算機工程, 2024, 50 (5): 91-99. (Fu Mingjian, Guo Fuqiang. Decision research on signal-free intersection based on deep reinforcement learning [J]. Computer Engineering, 2024, 50 (5): 91-99.)

    [24]Liu Haochen, Huang Zhiyu, Wu Jingda, et al.Improved deep reinforce-ment learning with expert demonstrations for urban autonomous driving [C]// Proc of IEEE Intelligent Vehicles Symposium. Pisca-taway,NJ: IEEE Press, 2022: 921-928.

    [25]Wu Jingda, Hang Zhiyu, Hu Zhongxu, et al.Toward human-in-the-loop AI: enhancing deep reinforcement learning via real-time human guidance for autonomous driving [J]. Engineering, 2023, 21: 75-91.

    [26]Huang Zhiyu, Wu Jingda, Lyu Chen. Efficient deep reinforcement learning with imitative expert priors for autonomous driving [J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34 (10): 7391-7403.

    [27]Iqbal S, Sha F. Actor-attention-critic for multi-agent reinforcement learning [C]// Proc of International Conference on Machine Lear-ning. 2019: 2961-2970.

    [28]Bouton M,Nakhaei A, Fujimura K, et al.Cooperation-aware reinforcement learning for merging in dense traffic [C]// Proc of IEEE Intelligent Transportation Systems Conference. Piscataway,NJ: IEEE Press, 2019: 3441-3447.

    [29]Lin Kaixiang, Zhao Renyu, Xu Zhe, et al. Efficient large-scale fleet management via multi-agent deep reinforcement learning [C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York:ACM Press, 2018: 1774-1783.

    [30]Yu Chao, Velu A, Vinitsky E,et al.The surprising effectiveness of PPO in cooperative multi-agent games [C]//Advances in Neural Information Processing Systems. 2022: 24611-24624.

    [31]Wu Yuhuai, Mansimov M, Liao Shun, et al.Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation [EB/OL]. (2017-08-17). https://arxiv.org/abs/1708. 05144.

    国产1区2区3区精品| 亚洲国产看品久久| 人人妻人人爽人人添夜夜欢视频| 欧美日韩乱码在线| 国产国语露脸激情在线看| 成人18禁在线播放| 国产精品乱码一区二三区的特点 | 一级作爱视频免费观看| 校园春色视频在线观看| 99国产精品99久久久久| 国产精品综合久久久久久久免费 | 国产精品久久电影中文字幕| 色播在线永久视频| 国产高清视频在线播放一区| 亚洲男人天堂网一区| 1024视频免费在线观看| 亚洲国产中文字幕在线视频| 国产熟女xx| 日韩精品青青久久久久久| 长腿黑丝高跟| tocl精华| 国产精品一区二区免费欧美| 精品不卡国产一区二区三区| 国产蜜桃级精品一区二区三区| 亚洲一码二码三码区别大吗| 欧美成人免费av一区二区三区| 91在线观看av| 人人妻,人人澡人人爽秒播| 国产一区二区三区综合在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| 黄色a级毛片大全视频| 久久国产精品影院| 巨乳人妻的诱惑在线观看| 99国产综合亚洲精品| 精品无人区乱码1区二区| 91精品国产国语对白视频| 色哟哟哟哟哟哟| 亚洲男人天堂网一区| 桃红色精品国产亚洲av| svipshipincom国产片| 日韩精品中文字幕看吧| 啦啦啦免费观看视频1| 日韩欧美免费精品| 欧美中文日本在线观看视频| 亚洲自偷自拍图片 自拍| 欧美日本亚洲视频在线播放| 免费看美女性在线毛片视频| 性欧美人与动物交配| 91在线观看av| 色在线成人网| 香蕉丝袜av| 最新在线观看一区二区三区| 久久精品亚洲精品国产色婷小说| 日韩成人在线观看一区二区三区| 一夜夜www| 国产成人欧美在线观看| 老司机深夜福利视频在线观看| 午夜福利18| 极品教师在线免费播放| 性欧美人与动物交配| 亚洲专区字幕在线| 美女免费视频网站| 大型av网站在线播放| 亚洲av电影不卡..在线观看| 97人妻天天添夜夜摸| 午夜福利欧美成人| 一个人观看的视频www高清免费观看 | 9191精品国产免费久久| av中文乱码字幕在线| 黄色视频,在线免费观看| 国产成人一区二区三区免费视频网站| 欧美乱码精品一区二区三区| 精品久久久久久,| 国产伦人伦偷精品视频| 欧美成人免费av一区二区三区| 色老头精品视频在线观看| 最好的美女福利视频网| 日本a在线网址| 精品午夜福利视频在线观看一区| 成人国产综合亚洲| 午夜福利一区二区在线看| 1024视频免费在线观看| 成人18禁高潮啪啪吃奶动态图| 久久香蕉精品热| 久久婷婷人人爽人人干人人爱 | 国产欧美日韩一区二区精品| 一区二区三区高清视频在线| 老汉色∧v一级毛片| 久久欧美精品欧美久久欧美| 国产精品久久久人人做人人爽| 亚洲精品国产精品久久久不卡| 一区在线观看完整版| 精品国内亚洲2022精品成人| 亚洲精品中文字幕在线视频| videosex国产| 最新在线观看一区二区三区| 少妇熟女aⅴ在线视频| 美女午夜性视频免费| 国产精品久久久久久人妻精品电影| 美女扒开内裤让男人捅视频| 国产亚洲精品久久久久久毛片| 亚洲,欧美精品.| 成年人黄色毛片网站| 日日夜夜操网爽| 嫩草影视91久久| av在线天堂中文字幕| 久久草成人影院| 老司机在亚洲福利影院| 亚洲第一青青草原| 欧美日韩一级在线毛片| 亚洲午夜理论影院| 啦啦啦免费观看视频1| av超薄肉色丝袜交足视频| 成人18禁高潮啪啪吃奶动态图| 麻豆久久精品国产亚洲av| 久久久久久久午夜电影| 国产成人欧美在线观看| 变态另类成人亚洲欧美熟女 | 老司机福利观看| 97人妻天天添夜夜摸| 亚洲,欧美精品.| 少妇裸体淫交视频免费看高清 | 91九色精品人成在线观看| 99国产极品粉嫩在线观看| 精品国产乱码久久久久久男人| 99久久综合精品五月天人人| 精品少妇一区二区三区视频日本电影| 变态另类丝袜制服| 久久久久久亚洲精品国产蜜桃av| 手机成人av网站| 精品国产美女av久久久久小说| 欧美乱妇无乱码| 一级毛片高清免费大全| 国产又爽黄色视频| 麻豆av在线久日| 日韩大尺度精品在线看网址 | 免费久久久久久久精品成人欧美视频| 在线观看www视频免费| 啦啦啦 在线观看视频| 99久久精品国产亚洲精品| 亚洲最大成人中文| 久久中文看片网| 中文字幕人妻熟女乱码| 国产成+人综合+亚洲专区| 日本 av在线| 成人手机av| 国产99久久九九免费精品| 亚洲精品在线观看二区| 啪啪无遮挡十八禁网站| 高潮久久久久久久久久久不卡| 18禁观看日本| 搡老妇女老女人老熟妇| 最新美女视频免费是黄的| 精品一区二区三区视频在线观看免费| 男女午夜视频在线观看| 一区二区三区国产精品乱码| 午夜日韩欧美国产| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲 国产 在线| 免费av毛片视频| 欧美激情极品国产一区二区三区| 男女下面插进去视频免费观看| 免费在线观看亚洲国产| 中文字幕最新亚洲高清| 免费在线观看视频国产中文字幕亚洲| 国产亚洲av高清不卡| 97人妻精品一区二区三区麻豆 | 亚洲全国av大片| 日本精品一区二区三区蜜桃| 啪啪无遮挡十八禁网站| 国产成人欧美在线观看| 精品国产超薄肉色丝袜足j| 成人免费观看视频高清| 一卡2卡三卡四卡精品乱码亚洲| 国产亚洲精品久久久久久毛片| 女性生殖器流出的白浆| www.精华液| 妹子高潮喷水视频| 亚洲九九香蕉| 中文字幕最新亚洲高清| 国产男靠女视频免费网站| 国产精品 国内视频| √禁漫天堂资源中文www| 99精品在免费线老司机午夜| 一区二区三区精品91| 午夜精品久久久久久毛片777| 成人国语在线视频| 久久久久久久久中文| 日本免费一区二区三区高清不卡 | 久久久久久亚洲精品国产蜜桃av| 免费一级毛片在线播放高清视频 | 久9热在线精品视频| 中文字幕久久专区| 亚洲欧美激情在线| 国产欧美日韩一区二区三| 午夜福利在线观看吧| 亚洲第一电影网av| 黑人巨大精品欧美一区二区mp4| 在线永久观看黄色视频| 麻豆av在线久日| 伦理电影免费视频| 悠悠久久av| 亚洲性夜色夜夜综合| 久久久久久亚洲精品国产蜜桃av| 色尼玛亚洲综合影院| 18禁裸乳无遮挡免费网站照片 | 色在线成人网| 天堂动漫精品| 日本 欧美在线| 精品久久久久久成人av| 色婷婷久久久亚洲欧美| 美女免费视频网站| 99国产精品一区二区蜜桃av| 夜夜夜夜夜久久久久| 成人精品一区二区免费| 国产亚洲精品久久久久久毛片| 国产真人三级小视频在线观看| 制服丝袜大香蕉在线| 国产精品秋霞免费鲁丝片| 亚洲中文日韩欧美视频| 99国产极品粉嫩在线观看| 国产av精品麻豆| 欧美成人免费av一区二区三区| 精品福利观看| 久久精品国产清高在天天线| 香蕉国产在线看| 日日夜夜操网爽| 此物有八面人人有两片| 久久久久久久午夜电影| x7x7x7水蜜桃| 国产免费男女视频| 日韩精品免费视频一区二区三区| 视频在线观看一区二区三区| 天堂影院成人在线观看| 亚洲熟女毛片儿| 亚洲精品国产精品久久久不卡| 两人在一起打扑克的视频| 日韩精品中文字幕看吧| 午夜福利欧美成人| 18禁美女被吸乳视频| 制服人妻中文乱码| 亚洲精品中文字幕在线视频| 色综合站精品国产| 一卡2卡三卡四卡精品乱码亚洲| 亚洲三区欧美一区| 欧美激情极品国产一区二区三区| 国产亚洲欧美98| 天天一区二区日本电影三级 | 久久人人爽av亚洲精品天堂| 黄网站色视频无遮挡免费观看| 国产欧美日韩一区二区三| 日韩大码丰满熟妇| 精品国产乱子伦一区二区三区| 少妇粗大呻吟视频| 啦啦啦 在线观看视频| 黄色片一级片一级黄色片| 欧美日本视频| av天堂在线播放| 搡老妇女老女人老熟妇| 十分钟在线观看高清视频www| 一级毛片女人18水好多| 在线观看66精品国产| 亚洲国产看品久久| cao死你这个sao货| 国产麻豆69| 黄色毛片三级朝国网站| 亚洲成人免费电影在线观看| 久久亚洲精品不卡| 麻豆av在线久日| 欧美丝袜亚洲另类 | 亚洲免费av在线视频| 一级黄色大片毛片| 欧美午夜高清在线| cao死你这个sao货| www.精华液| 9热在线视频观看99| 国产精品,欧美在线| 男人操女人黄网站| 精品高清国产在线一区| 精品人妻1区二区| 国产一区二区三区在线臀色熟女| 国产精品秋霞免费鲁丝片| 精品久久久久久久人妻蜜臀av | 一进一出好大好爽视频| 69av精品久久久久久| 大码成人一级视频| 日韩精品中文字幕看吧| 欧美av亚洲av综合av国产av| 性色av乱码一区二区三区2| 日本撒尿小便嘘嘘汇集6| 99精品在免费线老司机午夜| 韩国精品一区二区三区| 女生性感内裤真人,穿戴方法视频| 波多野结衣一区麻豆| 国产亚洲精品av在线| 久久天堂一区二区三区四区| 91麻豆av在线| 国产男靠女视频免费网站| 99精品久久久久人妻精品| 男男h啪啪无遮挡| 亚洲av片天天在线观看| 午夜成年电影在线免费观看| 亚洲av成人一区二区三| 国产精品久久久久久亚洲av鲁大| 一二三四社区在线视频社区8| 国产极品粉嫩免费观看在线| 国产伦一二天堂av在线观看| 国产主播在线观看一区二区| 91国产中文字幕| 一级毛片高清免费大全| 人人妻人人澡欧美一区二区 | 91老司机精品| 久久欧美精品欧美久久欧美| 亚洲国产精品成人综合色| 成人三级做爰电影| 欧美成人午夜精品| 亚洲熟妇熟女久久| 可以免费在线观看a视频的电影网站| 久久精品91蜜桃| 女性生殖器流出的白浆| 亚洲色图综合在线观看| 亚洲熟妇熟女久久| 国产99久久九九免费精品| 午夜福利,免费看| 在线播放国产精品三级| 精品国产一区二区三区四区第35| 老司机福利观看| 亚洲国产精品sss在线观看| 97超级碰碰碰精品色视频在线观看| 日韩免费av在线播放| 国产熟女午夜一区二区三区| 中文亚洲av片在线观看爽| 色精品久久人妻99蜜桃| 精品福利观看| 久久天躁狠狠躁夜夜2o2o| 欧美不卡视频在线免费观看 | 90打野战视频偷拍视频| 国产成人精品久久二区二区免费| 淫秽高清视频在线观看| 亚洲国产欧美网| 美女高潮到喷水免费观看| 国产99久久九九免费精品| 天堂动漫精品| 久久青草综合色| 99热只有精品国产| 国内精品久久久久精免费| 欧美老熟妇乱子伦牲交| 精品久久久久久久久久免费视频| 亚洲久久久国产精品| xxx96com| 老汉色av国产亚洲站长工具| 国产激情欧美一区二区| 国产亚洲欧美在线一区二区| 99国产精品99久久久久| or卡值多少钱| 亚洲专区字幕在线| 最近最新中文字幕大全免费视频| 激情在线观看视频在线高清| 啪啪无遮挡十八禁网站| 亚洲欧美日韩另类电影网站| 国产亚洲av嫩草精品影院| 精品少妇一区二区三区视频日本电影| 大香蕉久久成人网| 老司机靠b影院| 好男人在线观看高清免费视频 | 欧美日本中文国产一区发布| 黄色毛片三级朝国网站| 嫩草影院精品99| 亚洲av片天天在线观看| 免费看美女性在线毛片视频| www日本在线高清视频| 黑丝袜美女国产一区| 国产成人免费无遮挡视频| 欧美黑人欧美精品刺激| 国产精品电影一区二区三区| 90打野战视频偷拍视频| 无限看片的www在线观看| 中文字幕另类日韩欧美亚洲嫩草| 亚洲一区中文字幕在线| av超薄肉色丝袜交足视频| 久热爱精品视频在线9| 欧美成人一区二区免费高清观看 | 免费不卡黄色视频| 97人妻精品一区二区三区麻豆 | 怎么达到女性高潮| 色综合站精品国产| 国产亚洲精品一区二区www| 中文字幕另类日韩欧美亚洲嫩草| 老熟妇乱子伦视频在线观看| 一边摸一边抽搐一进一小说| 久久婷婷成人综合色麻豆| 久久久国产成人免费| 成人av一区二区三区在线看| 精品无人区乱码1区二区| av中文乱码字幕在线| 女人被狂操c到高潮| 免费看a级黄色片| 国产成人一区二区三区免费视频网站| 亚洲美女黄片视频| 亚洲男人的天堂狠狠| 日韩欧美一区二区三区在线观看| 最近最新中文字幕大全电影3 | 免费观看人在逋| 亚洲最大成人中文| 免费看十八禁软件| 丝袜在线中文字幕| 欧美色欧美亚洲另类二区 | 久久国产精品人妻蜜桃| 长腿黑丝高跟| 韩国av一区二区三区四区| 免费女性裸体啪啪无遮挡网站| 色婷婷久久久亚洲欧美| www.www免费av| 亚洲 欧美 日韩 在线 免费| 别揉我奶头~嗯~啊~动态视频| 午夜福利高清视频| 成人国语在线视频| 男女做爰动态图高潮gif福利片 | 亚洲片人在线观看| 国产在线精品亚洲第一网站| 日韩三级视频一区二区三区| 韩国av一区二区三区四区| 亚洲欧美一区二区三区黑人| 国产精品一区二区精品视频观看| 成年人黄色毛片网站| 日韩免费av在线播放| 亚洲成a人片在线一区二区| 乱人伦中国视频| www国产在线视频色| 久久亚洲精品不卡| 夜夜躁狠狠躁天天躁| 日韩三级视频一区二区三区| 国产精品亚洲美女久久久| 亚洲一码二码三码区别大吗| 亚洲中文字幕日韩| 热99re8久久精品国产| 亚洲美女黄片视频| 成人18禁在线播放| 国产黄a三级三级三级人| 午夜日韩欧美国产| 亚洲欧美一区二区三区黑人| 午夜两性在线视频| 操出白浆在线播放| 97人妻精品一区二区三区麻豆 | 中文字幕人妻熟女乱码| 亚洲第一青青草原| 女警被强在线播放| 色哟哟哟哟哟哟| 这个男人来自地球电影免费观看| 欧美激情久久久久久爽电影 | 国产aⅴ精品一区二区三区波| 国产一区在线观看成人免费| 日本撒尿小便嘘嘘汇集6| 女人被躁到高潮嗷嗷叫费观| 91国产中文字幕| 在线观看66精品国产| 男女下面插进去视频免费观看| 亚洲国产日韩欧美精品在线观看 | 91成人精品电影| 人人妻人人澡人人看| 欧美日韩黄片免| 亚洲黑人精品在线| 欧美乱色亚洲激情| videosex国产| 黄色a级毛片大全视频| 男女下面进入的视频免费午夜 | 中亚洲国语对白在线视频| 美女国产高潮福利片在线看| 欧美黄色片欧美黄色片| 欧美日韩中文字幕国产精品一区二区三区 | 久久久久久久久久久久大奶| 日日爽夜夜爽网站| 88av欧美| 久久影院123| avwww免费| 精品午夜福利视频在线观看一区| 国产精品影院久久| 久久久精品国产亚洲av高清涩受| 女人被躁到高潮嗷嗷叫费观| 欧美色视频一区免费| 激情视频va一区二区三区| 一边摸一边抽搐一进一小说| 亚洲精品一卡2卡三卡4卡5卡| 亚洲一码二码三码区别大吗| 欧美 亚洲 国产 日韩一| 亚洲av电影在线进入| 麻豆一二三区av精品| 女生性感内裤真人,穿戴方法视频| 夜夜躁狠狠躁天天躁| 深夜精品福利| 最新美女视频免费是黄的| 岛国视频午夜一区免费看| 久久国产精品人妻蜜桃| 亚洲第一青青草原| 国产在线精品亚洲第一网站| 国产主播在线观看一区二区| 自拍欧美九色日韩亚洲蝌蚪91| 国产99白浆流出| 一a级毛片在线观看| 首页视频小说图片口味搜索| 乱人伦中国视频| 午夜老司机福利片| 久久香蕉精品热| 久久精品国产亚洲av高清一级| 老司机深夜福利视频在线观看| 久久久精品欧美日韩精品| 我的亚洲天堂| 欧美黑人欧美精品刺激| 亚洲在线自拍视频| 十八禁网站免费在线| 精品国内亚洲2022精品成人| 天堂√8在线中文| 精品国内亚洲2022精品成人| 亚洲精品国产精品久久久不卡| 日日爽夜夜爽网站| 久久久久久久午夜电影| 亚洲中文日韩欧美视频| 黑丝袜美女国产一区| 国产亚洲精品一区二区www| 欧美日韩亚洲综合一区二区三区_| 美国免费a级毛片| 午夜亚洲福利在线播放| 757午夜福利合集在线观看| 亚洲aⅴ乱码一区二区在线播放 | 最近最新免费中文字幕在线| 国产精品免费视频内射| 十八禁人妻一区二区| 国产99白浆流出| 中文字幕人妻熟女乱码| 波多野结衣高清无吗| 国内久久婷婷六月综合欲色啪| videosex国产| 一级黄色大片毛片| 99久久精品国产亚洲精品| 午夜免费观看网址| 香蕉久久夜色| 成年人黄色毛片网站| 97人妻精品一区二区三区麻豆 | 老司机深夜福利视频在线观看| 国产精华一区二区三区| 亚洲欧美日韩无卡精品| 黄片播放在线免费| 搡老妇女老女人老熟妇| 12—13女人毛片做爰片一| 熟女少妇亚洲综合色aaa.| 变态另类丝袜制服| 午夜激情av网站| 国产极品粉嫩免费观看在线| av视频免费观看在线观看| 久久久久久久久中文| 这个男人来自地球电影免费观看| 涩涩av久久男人的天堂| 91老司机精品| 99国产精品一区二区蜜桃av| 好男人电影高清在线观看| www.熟女人妻精品国产| 极品教师在线免费播放| 国产一级毛片七仙女欲春2 | 亚洲精品一卡2卡三卡4卡5卡| 久久这里只有精品19| 国产一卡二卡三卡精品| 美国免费a级毛片| tocl精华| 在线观看免费视频网站a站| 精品高清国产在线一区| 国产成人影院久久av| 日韩成人在线观看一区二区三区| 国产欧美日韩一区二区精品| avwww免费| 精品卡一卡二卡四卡免费| 高清毛片免费观看视频网站| 在线视频色国产色| 99精品在免费线老司机午夜| a级毛片在线看网站| 国产av在哪里看| 久久人人爽av亚洲精品天堂| 大型av网站在线播放| 韩国精品一区二区三区| 欧美中文综合在线视频| av有码第一页| 午夜两性在线视频| 精品午夜福利视频在线观看一区| 国产亚洲欧美在线一区二区| 国产视频一区二区在线看| 中文字幕色久视频| 国产午夜精品久久久久久| 久久国产精品影院| 美女 人体艺术 gogo| 免费在线观看完整版高清| 99国产精品一区二区三区| 精品熟女少妇八av免费久了| 色综合亚洲欧美另类图片| 美国免费a级毛片| 久9热在线精品视频| 国产免费av片在线观看野外av| 国产成+人综合+亚洲专区| av福利片在线| 国产91精品成人一区二区三区| 不卡av一区二区三区| 三级毛片av免费| 亚洲男人天堂网一区| 亚洲色图av天堂| 十分钟在线观看高清视频www| 日韩三级视频一区二区三区| 精品不卡国产一区二区三区| 精品欧美一区二区三区在线| 露出奶头的视频| 在线观看www视频免费| 亚洲男人的天堂狠狠| 俄罗斯特黄特色一大片| 国产成人欧美| 国内久久婷婷六月综合欲色啪| 性色av乱码一区二区三区2| 自线自在国产av| xxx96com|