• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法研究

    2022-04-08 03:43:04張?chǎng)纬?/span>劉元盛謝龍洋
    關(guān)鍵詞:車道無(wú)人決策

    張?chǎng)纬?,?軍,劉元盛,路 銘,謝龍洋

    1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101

    2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101

    3.北京聯(lián)合大學(xué) 應(yīng)用科技學(xué)院,北京 100101

    無(wú)人駕駛技術(shù)可以使人們的出行更加方便、安全,同時(shí)也可以減少因人為因素導(dǎo)致的交通事故。而無(wú)人車換道決策問(wèn)題是無(wú)人駕駛技術(shù)中的重要問(wèn)題之一[1],因此,如何在保證安全的前提下使無(wú)人車更有效率的行駛成為了研究者聚焦的重點(diǎn)[2]。目前,無(wú)人車換道決策算法主要分為兩部分:基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法?;谝?guī)則的換道決策算法模型主要有間隙接受模型[3]、勢(shì)場(chǎng)模型[4-5]、模糊邏輯模型[6]等,這些算法較基于機(jī)器學(xué)習(xí)的算法相比,泛化能力較弱,且往往得到二元的換道決策結(jié)果(換道、不換道),無(wú)法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場(chǎng)景中的問(wèn)題。

    針對(duì)基于規(guī)則換道決策算法存在的不足,基于機(jī)器學(xué)習(xí)的算法被逐漸應(yīng)用于無(wú)人車換道決策的研究中。文獻(xiàn)[7-8]使用支持向量機(jī)將數(shù)據(jù)集中無(wú)人車和無(wú)人車周圍的環(huán)境車的車輛參數(shù)作為模型輸入,最終對(duì)無(wú)人車的換道行為決策結(jié)果進(jìn)行分類,這種方法雖然可以解決在高維的數(shù)據(jù)下的輸入問(wèn)題,但是由于數(shù)據(jù)量較大,算法的時(shí)間復(fù)雜度較高,導(dǎo)致效率較低。文獻(xiàn)[9]使用隨機(jī)森林和決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分析,并分別輸出了直行和換道的決策結(jié)果,然而這種方法需要收集車輛駕駛員的標(biāo)簽數(shù)據(jù),這種標(biāo)簽數(shù)據(jù)的采集十分困難并且數(shù)據(jù)中的噪聲會(huì)直接影響分類結(jié)果的準(zhǔn)確性。當(dāng)使用以上監(jiān)督學(xué)習(xí)算法來(lái)解決無(wú)人車換道決策問(wèn)題時(shí),往往需要大規(guī)模數(shù)據(jù)集作為算法輸入,導(dǎo)致算法訓(xùn)練時(shí)間較長(zhǎng),同時(shí)在訓(xùn)練時(shí)將數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)當(dāng)作“真值”,使得算法缺乏探索能力。文獻(xiàn)[10]使用進(jìn)化策略(evolution strategy,ES)對(duì)無(wú)人車換道決策算法進(jìn)行研究,提出了基于ES的神經(jīng)網(wǎng)絡(luò)算法,使用并輸出了保持原道,左換道,右換道三種結(jié)果。此方法雖然解決了梯度下降法易使模型收斂到局部最優(yōu)的問(wèn)題,但是優(yōu)化速度較慢,計(jì)算成本較高。上述算法與基于強(qiáng)化學(xué)習(xí)的換道決策方法相比,往往需要大量的數(shù)據(jù)集作為輸入用于模型訓(xùn)練,同時(shí)數(shù)據(jù)集中的噪聲會(huì)直接影響模型訓(xùn)練的準(zhǔn)確性,最終影響模型的測(cè)試結(jié)果。針對(duì)上述問(wèn)題,研究者提出基于強(qiáng)化學(xué)習(xí)的無(wú)人車換道決策算法。該方法現(xiàn)已成功應(yīng)用在人工智能領(lǐng)域中,例如Atari游戲[11-12]、圍棋比賽[13]、機(jī)器人路徑規(guī)劃[14]、無(wú)人車車道保持問(wèn)題[15]等。文獻(xiàn)[16]使用Q-learning對(duì)高速公路車輛的換道決策進(jìn)行研究,但該研究?jī)H考慮簡(jiǎn)單的雙車道場(chǎng)景,且當(dāng)輸入狀態(tài)維數(shù)過(guò)高時(shí),該算法會(huì)消耗大量時(shí)間,計(jì)算效率很低。文獻(xiàn)[17-19]使用DQN對(duì)高速公路場(chǎng)景中的車輛建模,并對(duì)決策成功率和平均獎(jiǎng)勵(lì)等評(píng)價(jià)指標(biāo)進(jìn)行了分析,但由于DQN存在過(guò)度估計(jì)的問(wèn)題,使得估計(jì)的Q值大于真實(shí)Q值,使得在模型測(cè)試時(shí)不能得到準(zhǔn)確的結(jié)果,算法往往會(huì)收斂到局部最優(yōu),同時(shí)DQN每次都是從經(jīng)驗(yàn)回放單元中等概率抽樣,導(dǎo)致一些重要的經(jīng)驗(yàn)樣本被忽略,進(jìn)而降低了算法的收斂速度和網(wǎng)絡(luò)參數(shù)更新的效率。

    為了更好地解決無(wú)人車換道決策問(wèn)題,本文提出了一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將算法的狀態(tài)值輸入到兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)中,并分別計(jì)算出估計(jì)值和目標(biāo)值,以此來(lái)減少經(jīng)驗(yàn)樣本之間的相關(guān)性,進(jìn)而提升算法的收斂性;然后將隱藏層輸出的無(wú)人車狀態(tài)信息同時(shí)輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中,更好地平衡了無(wú)人車狀態(tài)與動(dòng)作的關(guān)系;最后采用PER的方式從經(jīng)驗(yàn)回放單元中抽取經(jīng)驗(yàn)樣本,以此提升樣本的利用率,使得無(wú)人車更好地理解周圍環(huán)境變化,進(jìn)而得到更加合理的換道決策結(jié)果。

    1 改進(jìn)深度Q網(wǎng)絡(luò)的換道決策模型

    1.1 雙深度Q網(wǎng)絡(luò)

    雙深度Q網(wǎng)絡(luò)[20](double deep Q network,DDQN)針對(duì)DQN過(guò)度估計(jì)的問(wèn)題,將動(dòng)作的選擇和評(píng)估進(jìn)行解耦。首先通過(guò)參數(shù)為w的主網(wǎng)絡(luò)選擇最大的Q值對(duì)應(yīng)的動(dòng)作,再使用參數(shù)為w′的目標(biāo)網(wǎng)絡(luò)計(jì)算此動(dòng)作所對(duì)應(yīng)的目標(biāo)值,進(jìn)而對(duì)選擇的動(dòng)作進(jìn)行評(píng)估,再根據(jù)評(píng)估值Q(s j-1,a j-1,w)和目標(biāo)值計(jì)算損失函數(shù)L j(w),并通過(guò)誤差反向傳遞的方式更新主網(wǎng)絡(luò)的參數(shù)w,如公式(1)和(2)所示:

    其中為目標(biāo)值,Q(s j-1,a j-1,w)為評(píng)估值,γ為衰減因子,r j為獎(jiǎng)勵(lì)值,損失函數(shù)L j(w)根據(jù)評(píng)估值和目標(biāo)值的均方誤差(mean square error,MSE)計(jì)算得到。

    1.2 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)

    基于競(jìng)爭(zhēng)結(jié)構(gòu)的深度Q網(wǎng)絡(luò)(dueling deep Q network,dueling DQN)[21]和基于競(jìng)爭(zhēng)結(jié)構(gòu)的雙深度Q網(wǎng)絡(luò)(dueling double deep Q network,dueling DDQN)分別從DQN和DDQN的基礎(chǔ)上在主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)(dueling network architecture),以便更準(zhǔn)確的估計(jì)Q值,上述兩個(gè)模型的主網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    圖1 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Dueling network structure

    無(wú)人車在行駛過(guò)程中從周圍環(huán)境獲取狀態(tài)值作為網(wǎng)絡(luò)輸入,通過(guò)隱藏層的狀態(tài)信息分別被輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中進(jìn)行進(jìn)一步的數(shù)據(jù)處理,然后將兩個(gè)函數(shù)流的輸出相加,最后輸出Q(s,a)的值。Q(s,a)的計(jì)算方式如公式(3)所示:

    其中Q(s,a|θ,α,β)為輸出的Q值,V(s|θ,β)為狀態(tài)價(jià)值函數(shù),A(s,a|θ,α)為動(dòng)作優(yōu)勢(shì)函數(shù),θ為公共隱藏層的網(wǎng)絡(luò)參數(shù),α為動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)的參數(shù),β為狀態(tài)價(jià)值網(wǎng)絡(luò)的參數(shù),a′為所有可能采取的動(dòng)作,average則是對(duì)所有動(dòng)作優(yōu)勢(shì)函數(shù)取均值。

    1.3 優(yōu)先級(jí)經(jīng)驗(yàn)回放

    在無(wú)人車與環(huán)境不斷交互的過(guò)程中,經(jīng)驗(yàn)樣本被不斷的存儲(chǔ)到經(jīng)驗(yàn)回放單元中用于模型的訓(xùn)練,但不同經(jīng)驗(yàn)樣本之間的重要性是不同的,隨著經(jīng)驗(yàn)回放單元中樣本的不斷更新,如果采取均勻隨機(jī)取樣的方式從經(jīng)驗(yàn)回放單元中抽取小批量樣本作為模型輸入,那么一些重要性較高的經(jīng)驗(yàn)樣本就無(wú)法被充分利用甚至被直接覆蓋,導(dǎo)致模型訓(xùn)練效率降低。為提升模型的訓(xùn)練效率,使用一種優(yōu)先級(jí)經(jīng)驗(yàn)回放[22]的方式從經(jīng)驗(yàn)回放單元中抽取樣本,以此增加重要性較高的樣本被抽取的概率。即用δj表示樣本j的時(shí)間差分誤差(temporal differenceerror,TD-error),并以此來(lái)衡量每個(gè)經(jīng)驗(yàn)樣本的重要性,如公式(4)所示:

    其中p j為樣本j的優(yōu)先級(jí),ε為很小的正常數(shù)進(jìn)而保證TD-error幾乎為0的樣本也有較低的概率被抽取。P(j)為樣本j的優(yōu)先級(jí)權(quán)重,α為經(jīng)驗(yàn)回放時(shí)優(yōu)先級(jí)權(quán)重所占的比例,若α為0,則采用均勻隨機(jī)抽樣,否則根據(jù)歸一化后的權(quán)重w j抽樣。如公式(5)~(7)所示,N為經(jīng)驗(yàn)回放單元的大小,β為抽樣權(quán)重系數(shù),取值范圍為β∈[0,1]。在抽取樣本時(shí)通過(guò)采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式,提升了主網(wǎng)絡(luò)誤差反向傳遞時(shí)更新參數(shù)的效率以及網(wǎng)絡(luò)的收斂速度。

    1.4 改進(jìn)的深度Q網(wǎng)絡(luò)

    為了使無(wú)人車在決策過(guò)程中得到更優(yōu)的駕駛策略,使用改進(jìn)的深度Q網(wǎng)絡(luò)建立換道決策算法。此算法先將DDQN與競(jìng)爭(zhēng)結(jié)構(gòu)結(jié)合,并用于主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中來(lái)解決DQN過(guò)度估計(jì)問(wèn)題,同時(shí)更好地平衡了狀態(tài)價(jià)值函數(shù)和動(dòng)作優(yōu)勢(shì)函數(shù)的關(guān)系。然后采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式抽取小批量數(shù)據(jù)作為模型輸入,進(jìn)一步提升了TD-error的絕對(duì)值較大的樣本利用效率。基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)圖如圖2所示,在無(wú)人車的行駛過(guò)程中,首先無(wú)人車獲取自身以及周圍車輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值,同時(shí)將動(dòng)作值、無(wú)人車與環(huán)境交互得到的獎(jiǎng)勵(lì)值、以及下一時(shí)刻的狀態(tài)值作為一個(gè)元組,即(s,a,r,s′),存儲(chǔ)到經(jīng)驗(yàn)回放單元D中,然后使用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式進(jìn)行抽取樣本,并將狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,根據(jù)兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果以及獎(jiǎng)勵(lì)值r對(duì)損失函數(shù)進(jìn)行計(jì)算,進(jìn)而更新主網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直到算法完成迭代。

    圖2 改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)Fig.2 Structure diagram of autonomous vehicle lane change strategy algorithm based on improved deep Q network

    2 實(shí)驗(yàn)場(chǎng)景搭建

    實(shí)驗(yàn)場(chǎng)景搭建分為數(shù)據(jù)預(yù)處理和環(huán)境車輛模型搭建兩部分。如圖3所示,通過(guò)數(shù)據(jù)預(yù)處理對(duì)道路環(huán)境中的車流量、車輛速度及初速度范圍、車輛初始位置進(jìn)行提取,同時(shí)結(jié)合環(huán)境車輛模型,對(duì)真實(shí)道路環(huán)境進(jìn)行還原,并將此場(chǎng)景作為算法的訓(xùn)練和測(cè)試場(chǎng)景。

    圖3 US-101高速場(chǎng)景Fig.3 US-101 highway scene

    2.1 數(shù)據(jù)預(yù)處理

    實(shí)驗(yàn)中選用NGSIM數(shù)據(jù)集中US-101高速公路的車輛數(shù)據(jù)進(jìn)行車輛及道路參數(shù)的提取。US-101高速公路場(chǎng)景如圖3所示,高速路全長(zhǎng)約640 m,共有8條車道,其中1~5號(hào)車道為主車道,6號(hào)車道為輔路道,7、8號(hào)車道分別為車流匯入車道和匯出車道。實(shí)驗(yàn)中選用主車道(1~5號(hào))中的車輛數(shù)據(jù)搭建5車道道路實(shí)驗(yàn)場(chǎng)景。

    首先對(duì)主車道車輛數(shù)據(jù)進(jìn)行預(yù)處理,剔除轎車外的其他車輛類型數(shù)據(jù),并篩選出主車道前300 m的車輛數(shù)據(jù),該段數(shù)據(jù)對(duì)應(yīng)的道路中的車流量適中。由于5號(hào)車道中的車輛受6~8號(hào)車道內(nèi)車輛匯入和匯出的影響,故分別統(tǒng)計(jì)1~4號(hào)車道的車輛與5號(hào)車道的車流量、車輛速度及初速度范圍、車輛初始位置等參數(shù),以便更好地還原真實(shí)環(huán)境中的道路場(chǎng)景。統(tǒng)計(jì)后的車輛數(shù)據(jù)信息如表1所示,1~5車道車輛速度分布如圖4所示,車輛初速度分布如圖5所示。

    表1 車輛數(shù)據(jù)信息Table 1 Information of vehicle data

    圖4 車輛速度分布Fig.4 Vehicle speed distribution

    圖5 車輛初速度分布Fig.5 Initial vehicle speed distribution

    根據(jù)表1可知,在900 s內(nèi),1~4號(hào)車道共有1 502輛車,即車流量約為每分鐘100輛;5號(hào)車道共有389輛車,即車流量約為每分鐘26輛。

    根據(jù)圖4、5可知,1~4號(hào)車道的車輛速度范圍和初速度范圍主要分布在7~19 m/s和6~14 m/s,比例分別達(dá)到99.75%和99.51%;5號(hào)車道的車輛速度范圍和初速度范圍主要分布在1~19 m/s和10~12 m/s,比例分別達(dá)到99.98%和91.89%。為適應(yīng)絕大多數(shù)車輛的駕駛規(guī)律,故使用上述車輛的初速度和速度范圍作為車輛仿真環(huán)境參數(shù)。車輛初始位置可通過(guò)數(shù)據(jù)集直接獲取。同時(shí),對(duì)主車道車輛的長(zhǎng)度寬度進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果為:長(zhǎng)度為12 ft(約3.6 m),寬度為6 ft(約1.8 m)的車輛所占比例最大,故選用長(zhǎng)3.6 m、寬1.8 m的車輛作為實(shí)驗(yàn)仿真車輛。仿真車輛參數(shù)如表2所示。

    表2 仿真環(huán)境參數(shù)設(shè)定Table 2 Simulation environment parameters setting

    2.2 環(huán)境車輛模型搭建

    為了更好地模擬真實(shí)道路環(huán)境中車輛的駕駛行為,分別使用車輛橫向和縱向模型對(duì)實(shí)驗(yàn)場(chǎng)景中的環(huán)境車輛進(jìn)行建模。其中橫向模型采用MOBIL(minimizing overall braking induced by lane change)模型,使用此策略模型對(duì)環(huán)境車輛的換道行為進(jìn)行建模,如公式(8)~(10)所示:

    上述公式中,Δa為加速度增益,alc、aold、anew分別為執(zhí)行換道車輛、換道前原車道的后方車輛以及目標(biāo)車道后方車輛的加速度,alc'、aold'、anew'分別為以上換道車輛換道后的加速度,p為禮貌因子,該參數(shù)描述了環(huán)境車輛駕駛的激進(jìn)程度,取值范圍為0~1,b s為保證安全的最大減速度,Δath為決策閾值。若anew'大于-b s,同時(shí)加速度增益Δa大于決策閾值Δath時(shí),環(huán)境車輛進(jìn)行換道操作。

    車輛縱向模型采用IDM(intelligent driver model),此模型描述了環(huán)境車輛的跟車行為,如公式(11)和(12)所示:

    上述公式中,d×(v,Δv)為最小期望間距,d0為最小安全間距,v為車輛當(dāng)前速度值T為期望安全時(shí)距,Δv為同車道當(dāng)前車輛與前車的速度差,amax為期望最大加速度值,b為期望減速度值,vd為期望速度值,δ為加速度指數(shù)。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)定

    實(shí)驗(yàn)中環(huán)境采用Python3.7語(yǔ)言作為編程語(yǔ)言,使用gym庫(kù)創(chuàng)建實(shí)驗(yàn)場(chǎng)景,神經(jīng)網(wǎng)絡(luò)框架使用PyTorch1.4.0;計(jì)算機(jī)配置為:顯卡NVIDIA GTX1060,操作系統(tǒng)為Ubuntu16.04,處理器為i7-8750H,內(nèi)存為16 GB。

    設(shè)定訓(xùn)練最大回合數(shù)為10 000,單回合最大步長(zhǎng)為30,道路環(huán)境刷新周期為1 s,同時(shí)根據(jù)上一章節(jié)2.1中主車道車流量信息,可知1~4車道的單回合車流量為每回合50輛,5車道的單回合車流量為每回合13輛,單回合終止條件為無(wú)人車單回合執(zhí)行步數(shù)達(dá)到最大或無(wú)人車與環(huán)境車發(fā)生碰撞,且在實(shí)驗(yàn)過(guò)程中設(shè)定無(wú)人車均保持在可行使區(qū)域內(nèi)行駛。算法參數(shù)設(shè)定如表3所示。

    表3 算法參數(shù)設(shè)定Table 3 Algorithm parameters setting

    表3中的衰減因子γ描述的是未來(lái)得到的獎(jiǎng)勵(lì)值對(duì)當(dāng)前狀態(tài)的影響,通過(guò)分析實(shí)驗(yàn)所有回合中累計(jì)步數(shù)的分布確定當(dāng)γ=0.98時(shí),算法的收斂性最好,同時(shí)平均獎(jiǎng)勵(lì)值達(dá)到最大。學(xué)習(xí)率的選取通過(guò)網(wǎng)絡(luò)誤差和網(wǎng)絡(luò)的收斂速度確定,實(shí)驗(yàn)結(jié)果顯示當(dāng)學(xué)習(xí)率為2.5×10-4時(shí)網(wǎng)絡(luò)的收斂速度最快(算法的平均獎(jiǎng)勵(lì)值在訓(xùn)練2 400回合左右基本穩(wěn)定),同時(shí)算法的成功率最高。記憶庫(kù)容量和批尺寸的大小通過(guò)獲得的平均獎(jiǎng)勵(lì)值的網(wǎng)絡(luò)收斂速度確定,記憶庫(kù)容量的大小會(huì)對(duì)網(wǎng)絡(luò)參數(shù)更新效率產(chǎn)生影響;而在批尺寸的大小選取方面:若采取較大的批尺寸則算法容易收斂到局部最小值,若較小時(shí)則不利于算法的收斂。實(shí)驗(yàn)中分別采用了批尺寸為16、32、64這3個(gè)超參數(shù)分別進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,結(jié)果表明當(dāng)記憶庫(kù)容量大小為8×104,批尺寸為32時(shí),算法的收斂速度最快,同時(shí)獲得的平均獎(jiǎng)勵(lì)值最高。優(yōu)先級(jí)權(quán)重占比α用來(lái)確定從經(jīng)驗(yàn)回放單元中抽取樣本時(shí)樣本優(yōu)先級(jí)所占的比例,而抽樣權(quán)重β用來(lái)修正優(yōu)先級(jí)回放所帶來(lái)的誤差,實(shí)驗(yàn)結(jié)果顯示當(dāng)α=0.8,β=0.5時(shí),算法的魯棒性最好,此超參數(shù)組合增加了重要性樣本被采樣的概率,同時(shí)模型的魯棒性也得到提升。

    3.2 實(shí)驗(yàn)約束條件設(shè)定

    結(jié)合具體的換道決策場(chǎng)景,分別設(shè)定狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)如下所示。

    狀態(tài)空間:狀態(tài)空間S描述了無(wú)人車與周圍環(huán)境車輛的駕駛行為信息,以無(wú)人車和無(wú)人車感知范圍內(nèi)最近的6輛環(huán)境車狀態(tài)值的集合作為狀態(tài)空間,具體定義如公式(13)所示:

    其中vhost為無(wú)人車的速度,s1~s6為無(wú)人車周圍環(huán)境車輛的狀態(tài)值,s={exist,x,y,v x,v y},exist表示為是否存在此環(huán)境車輛,若此車存在,則exist=1,否則exist=0。x為無(wú)人車相對(duì)于此環(huán)境車的橫向距離,y為無(wú)人車相對(duì)于此環(huán)境車的縱向距離,v x為無(wú)人車相對(duì)于此環(huán)境車的橫向速度,v y為無(wú)人車相對(duì)于此環(huán)境車的縱向速度。

    動(dòng)作空間:動(dòng)作空間描述了無(wú)人車行駛過(guò)程中可以采取的動(dòng)作,具體描述如表4所示。

    表4 動(dòng)作空間表示Table 4 Action space representation

    獎(jiǎng)勵(lì)函數(shù):為使無(wú)人車學(xué)習(xí)到最佳的換道決策策略,獎(jiǎng)勵(lì)函數(shù)定義如下所示。

    若無(wú)人車與環(huán)境車發(fā)生碰撞,則設(shè)定碰撞懲罰函數(shù):

    設(shè)定速度獎(jiǎng)勵(lì)函數(shù):

    其中vhost為無(wú)人車速度,vmax和vmin分別為1~4號(hào)車道的最高速度(19 m/s)和最低速度(7 m/s),vmax'和vmin'分別為5號(hào)車道的最高速度(19 m/s)和最低速度(1 m/s),即若無(wú)人車行駛在1~4車道,則取1~4號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值;若無(wú)人車行駛在5車道,則取5號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值。

    為避免無(wú)人車在行駛過(guò)程中頻繁的變更車道,設(shè)定換道懲罰函數(shù):

    如果無(wú)人車在單個(gè)步長(zhǎng)內(nèi)未發(fā)生碰撞,則設(shè)定單步獎(jiǎng)勵(lì)函數(shù):

    如果無(wú)人車在整回合內(nèi)未發(fā)生碰撞,則設(shè)定回合獎(jiǎng)勵(lì)函數(shù):

    單回合總獎(jiǎng)勵(lì)函數(shù)R為:

    上述公式中,T為單回合執(zhí)行總步數(shù),p為執(zhí)行步數(shù)。

    3.3 算法訓(xùn)練與分析

    分別使用DQN、DDQN、Dueling DDQN與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比,且4種算法的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及實(shí)驗(yàn)參數(shù)均保持一致,訓(xùn)練過(guò)程中設(shè)定環(huán)境車輛橫向模型參數(shù)的禮貌因子p=1。通過(guò)分析決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)來(lái)描述模型訓(xùn)練結(jié)果,4種算法訓(xùn)練的結(jié)果隨回合數(shù)變化趨勢(shì)如圖6~8以及表5所示。

    圖6 訓(xùn)練過(guò)程中各算法的決策成功率對(duì)比Fig.6 Comparison of strategy success rate of each algorithm during training process

    表5 訓(xùn)練過(guò)程中各算法平均獎(jiǎng)勵(lì)分布對(duì)比Table 5 Comparison of average reward distribution of each algorithm training process

    由圖6可知,在算法訓(xùn)練開(kāi)始階段,4種算法的成功率不斷增加,訓(xùn)練10 000回合后,DQN、DDQN、Dueling DDQN、本文方法的成功率依次為:81.43%、84.48%、86.30%、87.09%。本文方法在訓(xùn)練過(guò)程中的決策成功率更高。

    結(jié)合圖7和表4可知:在算法訓(xùn)練過(guò)程中所獲得的平均獎(jiǎng)勵(lì)方面:本文方法在訓(xùn)練結(jié)束后的得到的總平均獎(jiǎng)勵(lì)最高,為10.14,且平均獎(jiǎng)勵(lì)值在2 400回合左右基本穩(wěn)定,而其他方法均在5 500回合后逐漸趨于穩(wěn)定狀態(tài),算法穩(wěn)定時(shí)的回合數(shù)約為本文方法的2.29倍。同時(shí)該方法在1 001~2 000回合內(nèi)的平均獎(jiǎng)勵(lì)達(dá)到最高,為10.85,Dueling DDQN、DDQN、DQN依次降低,分別為9.74、9.29、8.95,且平均獎(jiǎng)勵(lì)峰值均分布在3 001~4 000回合范圍內(nèi)。由此可見(jiàn),本文方法可以在更少的訓(xùn)練回合數(shù)內(nèi)完成對(duì)算法的訓(xùn)練并獲得更高的平均獎(jiǎng)勵(lì)值。同時(shí)由于改進(jìn)的深度Q網(wǎng)絡(luò)在經(jīng)驗(yàn)回放時(shí)提高了重要程度較高的樣本的利用率,增加這些樣本的抽樣概率。本文方法與DQN、DDQN、Dueling DDQN相比提升了網(wǎng)絡(luò)的收斂速度和參數(shù)更新的效率,同時(shí)提高了智能體的學(xué)習(xí)速度。

    圖7 訓(xùn)練過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.7 Comparison of average reward of each algorithm during training process

    由圖8可知,在1 000回合訓(xùn)練后,本文方法的平均累計(jì)步數(shù)均高于DQN等網(wǎng)絡(luò)模型,說(shuō)明本文方法單回合執(zhí)行步數(shù)最高,同時(shí)結(jié)合圖6可知,本文方法在保持決策成功率最高的同時(shí),平均累計(jì)步數(shù)較DQN、DDQN、Dueling DDQN分別高出3.14、2.17、1.60,由此說(shuō)明本文方法具有更好的學(xué)習(xí)能力和更強(qiáng)的適應(yīng)性。

    圖8 訓(xùn)練過(guò)程中各算法的平均累計(jì)步數(shù)對(duì)比Fig.8 Comparison of average cumulative steps of each algorithm during training process

    3.4 算法測(cè)試與分析

    針對(duì)不同道路場(chǎng)景中環(huán)境車輛,通過(guò)改變環(huán)境車輛車流量,以及環(huán)境車輛橫向模型中的禮貌因子p,進(jìn)而搭建車輛環(huán)境不同的實(shí)驗(yàn)場(chǎng)景,設(shè)定測(cè)試回合數(shù)為1 000,同時(shí)保持其他仿真環(huán)境參數(shù)和網(wǎng)絡(luò)參數(shù)不變。其中p∈[0,1],該參數(shù)越接近0說(shuō)明環(huán)境車輛駕駛風(fēng)格越激進(jìn)。通過(guò)改變上述兩個(gè)參數(shù),設(shè)定兩個(gè)道路環(huán)境不同的測(cè)試場(chǎng)景,具體描述如下所示。

    3.4.1 算法測(cè)試場(chǎng)景一

    測(cè)試場(chǎng)景一使用與算法訓(xùn)練時(shí)相同的場(chǎng)景,即1~4車道和5車道的單回合車流量分別為50輛/回合,和13輛/回合,禮貌因子p=1。4種算法在場(chǎng)景一中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖9、10所示,測(cè)試1 000回合后的結(jié)果如表6、7所示。

    圖9 場(chǎng)景一測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.9 Comparison of strategy success rate of each algorithm during test processin scenario one

    圖10 場(chǎng)景一測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.10 Comparison of average reward of each algorithm during test processin scenario one

    表6 場(chǎng)景一各算法測(cè)試結(jié)果對(duì)比Table 6 Comparison of test results of each algorithm in scenario one

    由圖9、10和表6可知,在場(chǎng)景一的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出0.9、1.7、4.4個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法。4種算法在測(cè)試1 000回合中的成功次數(shù)分別是:DQN為905次、DDQN為932次、Dueling DDQN為940次、本文方法為949次;同時(shí)結(jié)合表7分析可得:在各算法測(cè)試成功回合中,本文方法的單回合獎(jiǎng)勵(lì)值高于11.3的回合所占百分比最高,為78.29%。而單回合獎(jiǎng)勵(lì)值低于11.3的原因是由于無(wú)人車在一段時(shí)間內(nèi)為避免碰撞而保守行駛,使得在單回合內(nèi)獲得的獎(jiǎng)勵(lì)值較低。由此說(shuō)明本文方法可以更好地根據(jù)經(jīng)驗(yàn)回放單元中的經(jīng)驗(yàn)樣本來(lái)理解測(cè)試環(huán)境中車輛的狀態(tài)變化,在保證決策成功率的前提下減少了保守行駛的回合數(shù),使得無(wú)人車獲得更優(yōu)的決策策略。

    表7 場(chǎng)景一各算法成功回合中獎(jiǎng)勵(lì)值分布比例Table 7 Proportion of reward value distribution in successful rounds of each algorithm in scenario one

    3.4.2 算法測(cè)試場(chǎng)景二

    測(cè)試場(chǎng)景二設(shè)定禮貌因子p=0.4,環(huán)境車輛的車流量采用US-101道路中車流量較大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為126輛/min和48輛/min,即單回合車流量分別為63輛/回合和24輛/回合。4種算法在場(chǎng)景二中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖11、12所示,測(cè)試1 000回合后的結(jié)果如表8、9所示。

    圖11 場(chǎng)景二測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.11 Comparison of strategy success rate of each algorithm during test processin scenario two

    圖12 場(chǎng)景二測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.12 Comparison of average reward of each algorithm during test processin scenario two

    表8 場(chǎng)景二各算法測(cè)試結(jié)果對(duì)比Table 8 Comparison of test results of each algorithm in scenario two

    結(jié)合圖11、12和表8分析可知,在場(chǎng)景二的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出4.2、7.7、15.1個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.85、10.12、9.51、9.09,與場(chǎng)景一中的測(cè)試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.06、0.30、0.53、0.63,成功率分別下降了2.5、5.8、8.5、13.2個(gè)百分點(diǎn)。其中DQN下降幅度最大,原因是DQN使用最大化的方法來(lái)計(jì)算目標(biāo)值,這樣的計(jì)算方式往往使得算法得到次優(yōu)的決策策略,同時(shí)DQN等概率的抽樣方式使得一些重要性較高的經(jīng)驗(yàn)樣本被忽略,從而降低了訓(xùn)練過(guò)程中網(wǎng)絡(luò)參數(shù)的更新效率,最終導(dǎo)致DQN在更復(fù)雜的場(chǎng)景中的測(cè)試結(jié)果的成功率和平均獎(jiǎng)勵(lì)較低。

    由表9可知,在各算法發(fā)生碰撞的回合中,本文方法單回合執(zhí)行步數(shù)小于10的回合數(shù)(單回合執(zhí)行步數(shù)為30)所占比例最低,為6.58%,Dueling DDQN、DDQN、DQN依次升高,為16.10%、59.48%、66.08%。其中DQN和DDQN單回合執(zhí)行步數(shù)小于10的比例分別是本文方法的10.04倍和9.04倍,由此可見(jiàn),DDQN和DQN的碰撞相對(duì)集中發(fā)生測(cè)試過(guò)程的前三分之一階段,說(shuō)明這兩種算法的適應(yīng)性較差,無(wú)法根據(jù)測(cè)試過(guò)程中環(huán)境車輛的狀態(tài)變化做出最優(yōu)的動(dòng)作。

    表9 場(chǎng)景二各算法碰撞回合中單回合步數(shù)分布比例Table 9 Proportion of reward value distribution in successful rounds of each algorithm in scenario two%

    對(duì)比場(chǎng)景一和場(chǎng)景二的測(cè)試結(jié)果可知,4種算法的得到平均獎(jiǎng)勵(lì)均有所下降,原因是隨著測(cè)試場(chǎng)景的復(fù)雜程度增加,導(dǎo)致無(wú)人車換道決策的成功率和平均速度的下降,同時(shí)無(wú)人車發(fā)生碰撞的次數(shù)增多,使得單回合內(nèi)獲得的步數(shù)獎(jiǎng)勵(lì)減少,最終導(dǎo)致平均獎(jiǎng)勵(lì)的下降。

    3.4.3 算法測(cè)試場(chǎng)景三

    測(cè)試場(chǎng)景三設(shè)定禮貌因子p=0,環(huán)境車輛的車流量采用US-101道路中車流量最大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為144輛/min和64輛/min,即單回合車流量分別為72輛/回合和32輛/回合。4種算法在場(chǎng)景三中測(cè)試1 000回合后的結(jié)果如表10所示。

    表10 場(chǎng)景三各算法測(cè)試結(jié)果對(duì)比Table 10 Comparison of test results of various algorithm in scenario three

    由表10可知,在場(chǎng)景三的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出6.9、13.3、24.0個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.76、9.89、9.04、8.54,與場(chǎng)景二中的測(cè)試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.09、0.23、0.47、0.55,成功率分別下降了2.2、4.9、7.8、11.1個(gè)百分點(diǎn)。隨著測(cè)試場(chǎng)景環(huán)境車輛車流量的增大,場(chǎng)景的復(fù)雜程度增加,本文方法的成功率和平均獎(jiǎng)勵(lì)下降幅度最小,說(shuō)明該方法對(duì)于復(fù)雜環(huán)境的適應(yīng)性更強(qiáng),這是由于加入了優(yōu)先級(jí)經(jīng)驗(yàn)回放的機(jī)制,使得重要性更高的樣本被抽取的概率增加,進(jìn)而增加了算法訓(xùn)練時(shí)的網(wǎng)絡(luò)參數(shù)的更新效率,同時(shí)競(jìng)爭(zhēng)結(jié)構(gòu)的存在使得該算法在更新主網(wǎng)絡(luò)參數(shù)時(shí)價(jià)值函數(shù)被優(yōu)先更新,導(dǎo)致在當(dāng)前狀態(tài)下所有的Q值均被更新,從而更準(zhǔn)確地得到了每個(gè)動(dòng)作所對(duì)應(yīng)的Q值。

    對(duì)比3種場(chǎng)景中各算法的測(cè)試結(jié)果,如表11所示。

    表11 3種場(chǎng)景中各算法測(cè)試的平均結(jié)果對(duì)比Table 11 Comparison of average results of each algorithm test in three scenarios

    由表11可知,在3種場(chǎng)景的平均測(cè)試成功率方面,本文方法最高,為92.50%,比Dueling DDQN、DDQN和DQN算法的分別高出4.0、7.6、14.5個(gè)百分點(diǎn);在平均獎(jiǎng)勵(lì)方面,本文方法最高,為10.84。由此說(shuō)明,本文方法可以更好地理解外部環(huán)境狀態(tài)的變化,同時(shí)具有更好的魯棒性和更強(qiáng)的適用性。

    4 結(jié)束語(yǔ)

    針對(duì)傳統(tǒng)DQN在高速公路場(chǎng)景下的無(wú)人車換道決策中存在過(guò)估計(jì)且收斂速度較慢的問(wèn)題,本文提出一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將得到的無(wú)人車與環(huán)境車的狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,進(jìn)而將動(dòng)作的選擇和評(píng)估解耦,提高了網(wǎng)絡(luò)的穩(wěn)定性,解決了網(wǎng)絡(luò)的過(guò)估計(jì)問(wèn)題;然后在網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)結(jié)構(gòu),使模型對(duì)動(dòng)作價(jià)值的估計(jì)更加準(zhǔn)確;最后通過(guò)增加重要樣本被回放的概率,提升網(wǎng)絡(luò)的更新效率和收斂速度。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)DQN等算法,改進(jìn)的深度Q網(wǎng)絡(luò)在訓(xùn)練和測(cè)試的決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)方面上均有提升;測(cè)試結(jié)果也表明,該方法的魯棒性更強(qiáng),在車流量更大、環(huán)境車輛駕駛風(fēng)格更激進(jìn)的測(cè)試場(chǎng)景中仍能保持92%以上的換道決策成功率。

    雖然本文算法在不同場(chǎng)景的測(cè)試結(jié)果中均能保持較高的換道決策成功率,但只能應(yīng)對(duì)離散的動(dòng)作空間問(wèn)題,接下來(lái)的研究將聚焦于使用Actor-Critic的強(qiáng)化學(xué)習(xí)方法,以此來(lái)應(yīng)對(duì)連續(xù)動(dòng)作空間中的無(wú)人車換道決策問(wèn)題。

    猜你喜歡
    車道無(wú)人決策
    北斗+手機(jī)實(shí)現(xiàn)車道級(jí)導(dǎo)航應(yīng)用
    為可持續(xù)決策提供依據(jù)
    避免跟車闖紅燈的地面車道線
    淺談MTC車道改造
    決策為什么失誤了
    無(wú)人戰(zhàn)士無(wú)人車
    反擊無(wú)人機(jī)
    詩(shī)到無(wú)人愛(ài)處工
    無(wú)人超市會(huì)流行起來(lái)嗎?
    低速ETC/MTC混合式收費(fèi)車道的設(shè)計(jì)與實(shí)現(xiàn)
    中文资源天堂在线| 欧美成狂野欧美在线观看| 精品国产超薄肉色丝袜足j| 国产av不卡久久| 丁香欧美五月| 亚洲av成人不卡在线观看播放网| 国产精品亚洲一级av第二区| 一二三四在线观看免费中文在| 国产精品亚洲美女久久久| 女警被强在线播放| 免费搜索国产男女视频| 黄色女人牲交| 女人高潮潮喷娇喘18禁视频| 免费在线观看影片大全网站| 国产一级毛片七仙女欲春2| 亚洲熟女毛片儿| 怎么达到女性高潮| 精品国内亚洲2022精品成人| 天堂影院成人在线观看| 精品一区二区三区四区五区乱码| 久久这里只有精品19| 最近视频中文字幕2019在线8| 宅男免费午夜| 亚洲片人在线观看| 国产又色又爽无遮挡免费看| avwww免费| av欧美777| 美女免费视频网站| 日韩免费av在线播放| 国产精品98久久久久久宅男小说| 无限看片的www在线观看| 无限看片的www在线观看| 国内精品久久久久精免费| 国产av一区在线观看免费| 无人区码免费观看不卡| 亚洲五月天丁香| 国产精品精品国产色婷婷| 男女之事视频高清在线观看| 国产欧美日韩精品亚洲av| 午夜免费观看网址| av欧美777| av国产免费在线观看| 欧美又色又爽又黄视频| 每晚都被弄得嗷嗷叫到高潮| 亚洲专区字幕在线| 亚洲国产欧美网| 一级毛片女人18水好多| 久久久久久久久免费视频了| 色综合婷婷激情| 高潮久久久久久久久久久不卡| 日韩有码中文字幕| 少妇的丰满在线观看| 欧美色视频一区免费| 在线观看免费午夜福利视频| 免费观看的影片在线观看| 日本a在线网址| 露出奶头的视频| 男女床上黄色一级片免费看| 19禁男女啪啪无遮挡网站| 日韩精品青青久久久久久| av福利片在线观看| 日本一本二区三区精品| 国产精品一区二区免费欧美| 国产亚洲欧美98| 国产成人精品无人区| cao死你这个sao货| 久久久久久久精品吃奶| av视频在线观看入口| 久久久色成人| a级毛片在线看网站| 欧美zozozo另类| 波多野结衣高清无吗| 老司机在亚洲福利影院| 亚洲中文字幕一区二区三区有码在线看 | 国产精品久久久人人做人人爽| 美女高潮喷水抽搐中文字幕| 97超视频在线观看视频| 久久香蕉国产精品| 国产欧美日韩精品亚洲av| 欧美日韩黄片免| 激情在线观看视频在线高清| 日日摸夜夜添夜夜添小说| 亚洲在线自拍视频| 国产av一区在线观看免费| 亚洲人成网站高清观看| 国产1区2区3区精品| 色av中文字幕| 国产亚洲欧美98| 伦理电影免费视频| e午夜精品久久久久久久| 欧洲精品卡2卡3卡4卡5卡区| 欧美另类亚洲清纯唯美| 亚洲第一电影网av| 一卡2卡三卡四卡精品乱码亚洲| 免费在线观看成人毛片| 麻豆国产av国片精品| 一级作爱视频免费观看| 香蕉国产在线看| 99在线视频只有这里精品首页| 亚洲五月婷婷丁香| 国产真实乱freesex| 毛片女人毛片| 性色avwww在线观看| 少妇裸体淫交视频免费看高清| 亚洲精品粉嫩美女一区| 日本与韩国留学比较| 日韩欧美精品v在线| 97人妻精品一区二区三区麻豆| 日韩免费av在线播放| 悠悠久久av| 麻豆久久精品国产亚洲av| 麻豆成人av在线观看| 免费av不卡在线播放| 精品国产超薄肉色丝袜足j| av天堂中文字幕网| 国产精品99久久99久久久不卡| 国产黄片美女视频| 国产精品99久久99久久久不卡| 国产极品精品免费视频能看的| 亚洲成人久久性| 不卡一级毛片| 日本与韩国留学比较| 男女做爰动态图高潮gif福利片| 国产免费av片在线观看野外av| 黄色女人牲交| 国产欧美日韩精品亚洲av| 九色成人免费人妻av| 最新中文字幕久久久久 | 成人三级黄色视频| 亚洲精品美女久久久久99蜜臀| 久久久久久久午夜电影| 岛国在线免费视频观看| 久久精品91无色码中文字幕| 青草久久国产| 老司机午夜十八禁免费视频| 亚洲欧洲精品一区二区精品久久久| 精品99又大又爽又粗少妇毛片 | 国产精品 国内视频| 69av精品久久久久久| 欧美成人性av电影在线观看| 色播亚洲综合网| 亚洲精华国产精华精| 亚洲精品久久国产高清桃花| 男人和女人高潮做爰伦理| 欧美黄色淫秽网站| 久久草成人影院| 精品久久蜜臀av无| 亚洲第一电影网av| 黑人操中国人逼视频| 久久久久国产精品人妻aⅴ院| 亚洲精品一卡2卡三卡4卡5卡| 动漫黄色视频在线观看| 午夜免费成人在线视频| 精华霜和精华液先用哪个| 精品国产美女av久久久久小说| 国产黄a三级三级三级人| 国产黄色小视频在线观看| a级毛片a级免费在线| 性色av乱码一区二区三区2| 久久久国产成人免费| 两人在一起打扑克的视频| 99久久成人亚洲精品观看| 久久人妻av系列| 欧美乱色亚洲激情| 国产伦在线观看视频一区| 国产亚洲精品一区二区www| 听说在线观看完整版免费高清| 午夜免费观看网址| 国产精品精品国产色婷婷| 免费人成视频x8x8入口观看| 精品熟女少妇八av免费久了| 国产精品亚洲av一区麻豆| 黄色丝袜av网址大全| 亚洲中文日韩欧美视频| 超碰成人久久| 亚洲电影在线观看av| 亚洲国产精品sss在线观看| 变态另类丝袜制服| 国产一区二区激情短视频| 国产av不卡久久| 国产精品精品国产色婷婷| 一个人免费在线观看电影 | 看片在线看免费视频| 亚洲午夜精品一区,二区,三区| 黑人巨大精品欧美一区二区mp4| 午夜免费成人在线视频| 男人舔女人下体高潮全视频| 色在线成人网| 色综合亚洲欧美另类图片| 国产精品免费一区二区三区在线| 久久久久久大精品| 欧美xxxx黑人xx丫x性爽| av女优亚洲男人天堂 | 国产av在哪里看| 精品久久久久久,| 精品乱码久久久久久99久播| 日日干狠狠操夜夜爽| 免费观看的影片在线观看| 美女 人体艺术 gogo| 免费在线观看成人毛片| 国产激情偷乱视频一区二区| 日本黄大片高清| 久久人人精品亚洲av| 亚洲色图av天堂| 一个人看的www免费观看视频| 好男人电影高清在线观看| 人人妻人人澡欧美一区二区| 久久中文看片网| 免费看美女性在线毛片视频| av在线天堂中文字幕| 这个男人来自地球电影免费观看| 国产麻豆成人av免费视频| 国产又黄又爽又无遮挡在线| 国产在线精品亚洲第一网站| 国产亚洲精品综合一区在线观看| 国产精品一区二区三区四区免费观看 | 长腿黑丝高跟| 一夜夜www| 一本一本综合久久| 美女高潮的动态| 久久久精品大字幕| 国产伦精品一区二区三区四那| 少妇熟女aⅴ在线视频| 我的老师免费观看完整版| 国产真人三级小视频在线观看| 国内毛片毛片毛片毛片毛片| 精品熟女少妇八av免费久了| 中文字幕久久专区| 欧美乱色亚洲激情| 麻豆久久精品国产亚洲av| av国产免费在线观看| 国产一区二区激情短视频| 国产精品 国内视频| 非洲黑人性xxxx精品又粗又长| svipshipincom国产片| 看黄色毛片网站| 又紧又爽又黄一区二区| 国产精品久久久久久亚洲av鲁大| 51午夜福利影视在线观看| 亚洲天堂国产精品一区在线| 不卡一级毛片| 俄罗斯特黄特色一大片| svipshipincom国产片| 三级国产精品欧美在线观看 | 亚洲欧美日韩高清专用| 真人做人爱边吃奶动态| 久久久久亚洲av毛片大全| 成在线人永久免费视频| 免费观看人在逋| 一边摸一边抽搐一进一小说| 国产综合懂色| 国产亚洲精品久久久久久毛片| 久久精品国产亚洲av香蕉五月| 听说在线观看完整版免费高清| 欧洲精品卡2卡3卡4卡5卡区| 国产精品一区二区精品视频观看| 午夜福利欧美成人| 欧美xxxx黑人xx丫x性爽| 精品国产乱子伦一区二区三区| 午夜福利在线在线| 男女之事视频高清在线观看| 又爽又黄无遮挡网站| 欧美日韩亚洲国产一区二区在线观看| 亚洲av片天天在线观看| 国产爱豆传媒在线观看| 女生性感内裤真人,穿戴方法视频| 18禁黄网站禁片午夜丰满| 国产成人精品久久二区二区免费| 欧美另类亚洲清纯唯美| 亚洲自偷自拍图片 自拍| 又黄又粗又硬又大视频| 国产极品精品免费视频能看的| 婷婷精品国产亚洲av在线| 丰满的人妻完整版| 国内毛片毛片毛片毛片毛片| 午夜免费激情av| 成人亚洲精品av一区二区| 丁香六月欧美| 国产精品1区2区在线观看.| av天堂在线播放| 黄色女人牲交| 精品国产乱码久久久久久男人| 嫁个100分男人电影在线观看| 国产69精品久久久久777片 | 国产午夜精品论理片| 黑人巨大精品欧美一区二区mp4| 女人高潮潮喷娇喘18禁视频| 亚洲,欧美精品.| 性色av乱码一区二区三区2| 欧美乱妇无乱码| 狂野欧美激情性xxxx| 免费观看精品视频网站| 精品久久久久久久人妻蜜臀av| 国产视频一区二区在线看| 亚洲真实伦在线观看| 岛国视频午夜一区免费看| 欧美激情在线99| 欧美色视频一区免费| 高清在线国产一区| 国产精品1区2区在线观看.| 国产精品一及| 少妇裸体淫交视频免费看高清| 欧美乱妇无乱码| 亚洲avbb在线观看| 久久久久久久久中文| 国产极品精品免费视频能看的| 国产精品香港三级国产av潘金莲| 久久久久久久午夜电影| 嫁个100分男人电影在线观看| 99久久综合精品五月天人人| 脱女人内裤的视频| 黄色成人免费大全| 人人妻人人澡欧美一区二区| 制服丝袜大香蕉在线| 俺也久久电影网| 美女扒开内裤让男人捅视频| 午夜精品一区二区三区免费看| 曰老女人黄片| 午夜免费成人在线视频| 老汉色av国产亚洲站长工具| 久久久久国内视频| 99久久综合精品五月天人人| 国产av麻豆久久久久久久| av福利片在线观看| 国产一区在线观看成人免费| 成在线人永久免费视频| 亚洲人成电影免费在线| 国产精品一区二区免费欧美| 国产99白浆流出| 宅男免费午夜| 亚洲av熟女| 欧美色欧美亚洲另类二区| 91老司机精品| 日韩中文字幕欧美一区二区| 国产精品久久久av美女十八| or卡值多少钱| 熟女人妻精品中文字幕| 亚洲欧洲精品一区二区精品久久久| 国产精品国产高清国产av| 村上凉子中文字幕在线| or卡值多少钱| 女警被强在线播放| 怎么达到女性高潮| 精品国产超薄肉色丝袜足j| 天天躁狠狠躁夜夜躁狠狠躁| 一个人免费在线观看的高清视频| 99精品久久久久人妻精品| 亚洲天堂国产精品一区在线| 久久久久国产精品人妻aⅴ院| av天堂在线播放| 国产精品爽爽va在线观看网站| 亚洲成a人片在线一区二区| 韩国av一区二区三区四区| www日本黄色视频网| а√天堂www在线а√下载| 欧美另类亚洲清纯唯美| 三级男女做爰猛烈吃奶摸视频| 久久中文看片网| 99精品久久久久人妻精品| 啦啦啦韩国在线观看视频| 国内少妇人妻偷人精品xxx网站 | 欧美大码av| 老熟妇仑乱视频hdxx| 床上黄色一级片| 国产成人av教育| 欧美日韩福利视频一区二区| 精品国产乱子伦一区二区三区| 无遮挡黄片免费观看| 嫁个100分男人电影在线观看| 黑人操中国人逼视频| 国产精品,欧美在线| 青草久久国产| 亚洲午夜精品一区,二区,三区| 国产精品九九99| 国产成人啪精品午夜网站| 日韩欧美国产一区二区入口| 性色avwww在线观看| 又黄又粗又硬又大视频| 亚洲av免费在线观看| 一进一出抽搐动态| 一级黄色大片毛片| 国产精品精品国产色婷婷| 国产精品一区二区免费欧美| 啦啦啦免费观看视频1| 亚洲成人久久爱视频| 久久国产精品影院| 成在线人永久免费视频| 久久久精品大字幕| 少妇丰满av| 在线看三级毛片| 黄色 视频免费看| 欧美黑人巨大hd| 曰老女人黄片| 久久久久九九精品影院| 12—13女人毛片做爰片一| 操出白浆在线播放| 村上凉子中文字幕在线| 熟女少妇亚洲综合色aaa.| 婷婷六月久久综合丁香| 久久久久久久久免费视频了| 久久久久久国产a免费观看| 亚洲国产欧美网| 免费观看人在逋| 久久久久国产精品人妻aⅴ院| 免费搜索国产男女视频| 成人特级黄色片久久久久久久| 午夜精品在线福利| 男人舔女人的私密视频| 免费在线观看亚洲国产| 国产一区在线观看成人免费| 日韩欧美国产在线观看| 变态另类丝袜制服| 国产熟女xx| 51午夜福利影视在线观看| 免费无遮挡裸体视频| www.www免费av| 午夜福利在线观看免费完整高清在 | av欧美777| 黄色丝袜av网址大全| 岛国视频午夜一区免费看| 可以在线观看毛片的网站| 国产亚洲欧美在线一区二区| 欧美乱码精品一区二区三区| 欧美激情在线99| 又紧又爽又黄一区二区| 精品一区二区三区视频在线 | 久久精品夜夜夜夜夜久久蜜豆| aaaaa片日本免费| 日韩欧美精品v在线| 最新在线观看一区二区三区| 亚洲av成人不卡在线观看播放网| 国产淫片久久久久久久久 | 国产欧美日韩精品一区二区| 噜噜噜噜噜久久久久久91| 一个人看视频在线观看www免费 | 最新美女视频免费是黄的| 深夜精品福利| 黑人操中国人逼视频| 亚洲精品中文字幕一二三四区| 国产精品98久久久久久宅男小说| 日本一二三区视频观看| 97碰自拍视频| 99久国产av精品| 亚洲美女视频黄频| 亚洲在线自拍视频| 黄色视频,在线免费观看| 国产午夜精品论理片| 国产人伦9x9x在线观看| 欧美一级a爱片免费观看看| 国产午夜精品久久久久久| 天堂影院成人在线观看| 九色成人免费人妻av| 亚洲国产日韩欧美精品在线观看 | 国产精品久久电影中文字幕| 岛国视频午夜一区免费看| 亚洲av中文字字幕乱码综合| 国产精品av久久久久免费| 岛国在线观看网站| 久久九九热精品免费| 亚洲av五月六月丁香网| 亚洲欧美日韩高清专用| 午夜福利18| 色av中文字幕| 亚洲av成人av| 国产亚洲精品综合一区在线观看| 91久久精品国产一区二区成人 | 国产男靠女视频免费网站| 校园春色视频在线观看| 国产精品免费一区二区三区在线| 免费在线观看日本一区| 免费大片18禁| 久久香蕉精品热| 女警被强在线播放| 色噜噜av男人的天堂激情| 男女那种视频在线观看| 视频区欧美日本亚洲| 超碰成人久久| 丝袜人妻中文字幕| 国产三级中文精品| 老司机福利观看| 88av欧美| 国产精品亚洲美女久久久| 欧美xxxx黑人xx丫x性爽| 国产精品综合久久久久久久免费| 国产v大片淫在线免费观看| 国产91精品成人一区二区三区| 国产精品一区二区免费欧美| 黄片小视频在线播放| 两个人看的免费小视频| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品,欧美在线| 国内久久婷婷六月综合欲色啪| 国产av在哪里看| 欧美丝袜亚洲另类 | 婷婷丁香在线五月| 男女下面进入的视频免费午夜| 精品午夜福利视频在线观看一区| 国产高清激情床上av| 高清在线国产一区| 国产精品,欧美在线| 九色国产91popny在线| 国产高清视频在线观看网站| xxx96com| 99热只有精品国产| 欧美中文日本在线观看视频| 日韩欧美精品v在线| 精品午夜福利视频在线观看一区| 美女午夜性视频免费| 亚洲第一电影网av| 久久精品国产清高在天天线| 特大巨黑吊av在线直播| 黄色女人牲交| 亚洲人成网站高清观看| 久久这里只有精品中国| 人妻久久中文字幕网| 久久久成人免费电影| 美女cb高潮喷水在线观看 | 亚洲人与动物交配视频| 99国产极品粉嫩在线观看| 亚洲欧美激情综合另类| 久久国产乱子伦精品免费另类| 老司机福利观看| 无遮挡黄片免费观看| 亚洲国产色片| 亚洲一区二区三区色噜噜| 精品乱码久久久久久99久播| 啦啦啦观看免费观看视频高清| 免费高清视频大片| 观看免费一级毛片| 亚洲激情在线av| 欧洲精品卡2卡3卡4卡5卡区| 精品国产三级普通话版| 丰满人妻熟妇乱又伦精品不卡| 欧美午夜高清在线| 亚洲欧洲精品一区二区精品久久久| 欧美午夜高清在线| 亚洲国产中文字幕在线视频| 久久精品aⅴ一区二区三区四区| 在线播放国产精品三级| 日韩欧美一区二区三区在线观看| www.精华液| 久久天堂一区二区三区四区| 日本一本二区三区精品| 国产成年人精品一区二区| 怎么达到女性高潮| 久久久久久国产a免费观看| 日韩欧美在线乱码| 久久中文字幕人妻熟女| 免费看光身美女| 成人午夜高清在线视频| 国产精品一区二区精品视频观看| a级毛片在线看网站| 熟女电影av网| 欧美日韩一级在线毛片| 亚洲真实伦在线观看| 欧美成人免费av一区二区三区| 国产一区二区在线观看日韩 | 非洲黑人性xxxx精品又粗又长| 亚洲国产精品999在线| 性欧美人与动物交配| 在线观看一区二区三区| 国产人伦9x9x在线观看| 日韩三级视频一区二区三区| 9191精品国产免费久久| 国产精品精品国产色婷婷| www日本在线高清视频| 欧美成人一区二区免费高清观看 | 亚洲人与动物交配视频| 丁香欧美五月| 久久人妻av系列| 亚洲av日韩精品久久久久久密| 国产免费男女视频| 在线观看午夜福利视频| 久久久久久九九精品二区国产| e午夜精品久久久久久久| 男人舔女人下体高潮全视频| xxx96com| 国产一区二区三区在线臀色熟女| 网址你懂的国产日韩在线| 亚洲色图 男人天堂 中文字幕| 欧美日本亚洲视频在线播放| 国产激情久久老熟女| 国产精品久久久av美女十八| 国产97色在线日韩免费| 国产欧美日韩一区二区三| 丁香六月欧美| а√天堂www在线а√下载| 亚洲中文字幕日韩| 美女 人体艺术 gogo| 久久这里只有精品中国| 国产精品久久电影中文字幕| 婷婷亚洲欧美| 毛片女人毛片| 色在线成人网| 国产在线精品亚洲第一网站| 亚洲九九香蕉| 日韩中文字幕欧美一区二区| 老司机午夜十八禁免费视频| 欧美在线黄色| 免费在线观看日本一区| 亚洲av第一区精品v没综合| 三级国产精品欧美在线观看 | 男人舔女人的私密视频| 国产成人啪精品午夜网站| 久久久久久久午夜电影| 在线十欧美十亚洲十日本专区| 91在线精品国自产拍蜜月 | 午夜福利欧美成人| 高潮久久久久久久久久久不卡| 少妇裸体淫交视频免费看高清| 亚洲国产高清在线一区二区三| 在线看三级毛片| 久久久成人免费电影| 黑人操中国人逼视频| 日本一二三区视频观看|