• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于融合離散動作的雙延遲深度確定性策略梯度算法的自動駕駛端到端行為決策方法*

    2022-03-20 14:42:30王一權(quán)劉佳琦段玉林張榮輝
    交通信息與安全 2022年1期
    關(guān)鍵詞:決策車輛動作

    楊 璐 王一權(quán) 劉佳琦 段玉林 張榮輝

    (1.天津理工大學(xué)天津市先進機電系統(tǒng)設(shè)計與智能控制重點實驗室 天津 300384;2.天津理工大學(xué)機電工程國家級實驗教學(xué)示范中心 天津 300384;3.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所 北京 100081;4.中山大學(xué)廣東省智能交通系統(tǒng)重點實驗室 廣州 510275)

    0 引 言

    在復(fù)雜多變的環(huán)境中學(xué)習(xí)最優(yōu)駕駛策略是自動駕駛領(lǐng)域一直面臨的挑戰(zhàn),傳統(tǒng)的決策方法主要基于規(guī)則[1-3],通過有限狀態(tài)機、決策樹等方法對狀態(tài)、規(guī)則進行劃分,進而進行計算、決策。然而基于規(guī)則的方法無法覆蓋所有可能出現(xiàn)的場景,難以適應(yīng)復(fù)雜的環(huán)境。隨著機器學(xué)習(xí)在自動駕駛領(lǐng)域的應(yīng)用,決策模型利用神經(jīng)網(wǎng)絡(luò)處理駕駛相關(guān)環(huán)境信息,輸出車輛控制信號,實現(xiàn)端到端的決策控制,成為了研究熱點。

    目前端到端的自動駕駛決策方法主要基于模仿學(xué)習(xí)和強化學(xué)習(xí)?;谀7聦W(xué)習(xí)的方法旨在模仿專家(人類駕駛員)進行學(xué)習(xí),實現(xiàn)對專家行為的再現(xiàn)[4]。英偉達最初基于深度神經(jīng)網(wǎng)絡(luò),在端到端自動駕駛系統(tǒng)中取得了成功,然而在新的環(huán)境中表現(xiàn)不佳。為此,巴明月[5]在輸入中增加語義分割深度圖像,并在動作輸出前加入高級控制命令提高模型的魯棒性。Toromanoff等[6]對數(shù)據(jù)進行增強,僅使用1個魚眼相機實現(xiàn)了端到端自動駕駛橫向控制。Chen等[7]在專家數(shù)據(jù)中加入了隨機噪聲,提高了模型的泛化能力。然而,基于模仿學(xué)習(xí)的決策方法仍存在局限:①訓(xùn)練時需要大量的專家數(shù)據(jù)以保證其泛化性,導(dǎo)致算法難以訓(xùn)練;②專家數(shù)據(jù)全為成功的正樣本,在面對失敗的情況時難以做出正確的決策。因此,只適用于道路上車道保持或橫向輔助控制等簡單的駕駛?cè)蝿?wù),面對復(fù)雜多變的城市交通環(huán)境,難以做出最優(yōu)決策。

    基于強化學(xué)習(xí)的方法讓智能體通過“試錯”的方式在環(huán)境中進行,根據(jù)動作的回報對策略進行改善學(xué)習(xí),無需標注樣本。深度強化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)的優(yōu)點[8],適合解決連續(xù)控制問題,因此被許多學(xué)者應(yīng)用在端到端自動駕駛決策中。Perot等[9]在WRC平臺上,使用異步優(yōu)勢動作評價算法(Asynchronous advantage actor-critic,A3C)[10]同時在3條不同的賽道上訓(xùn)練車輛,證明了其泛化能力。Kendall等[11]基于單目圖像學(xué)習(xí)車道保持任務(wù),首次將深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[12]應(yīng)用在現(xiàn)實車輛。閆浩等[13]采用REINFORCE算法設(shè)計車輛便道控制方法,并提出對經(jīng)驗池預(yù)處理解決樣本數(shù)值和方差過大的問題。羅鵬等[14]根據(jù)專家知識和的強化學(xué)習(xí)算法決策的差別確定獎懲函數(shù),引導(dǎo)值函數(shù)訓(xùn)練。Chen等[15]將感知信息轉(zhuǎn)換為鳥瞰圖作為狀態(tài)輸入,提高了深度強化學(xué)習(xí)決策的可解釋性。Zhu等[16]對基于深度強化學(xué)習(xí)的跟車模型進行優(yōu)化,在安全性和舒適性優(yōu)于人類駕駛員。宋曉琳等[17]利用模仿學(xué)習(xí)輸出高層指令,根據(jù)高層指令使用DDPG算法輸出底層決策,縮減了所需求解問題的規(guī)模。

    出于安全考慮,在實際中訓(xùn)練強化學(xué)習(xí)的方法很少,大多數(shù)基于強化學(xué)習(xí)的自動駕駛工作都是在模擬中進行的。Carla仿真平臺是開源的城市模擬器,擁有開放的數(shù)字資源,包括城市布局、車輛、交通信號燈等,并提供了A3C算法的強化學(xué)習(xí)基準和模仿學(xué)習(xí)基準[18]。目前多數(shù)研究都基于Carla仿真,并通過在Carla自動駕駛挑戰(zhàn)賽[19]中證明算法的有效性。

    基于深度強化學(xué)習(xí)的端到端決策方法在自動駕駛領(lǐng)域已經(jīng)取得了一定的成績,但目前的研究工作存在不足:①深度強化學(xué)習(xí)算法在訓(xùn)練時需要進行大量探索,使智能體在訓(xùn)練前期容易獲得過多的低回報經(jīng)驗,導(dǎo)致算法學(xué)習(xí)效率低,盡管通過對輸入圖像進行處理或使用其他感知數(shù)據(jù)的方式可以改善模型的輸出,但在算法探索效率上并沒有得到優(yōu)化;②目前已有研究提出利用專家演示數(shù)據(jù)對網(wǎng)絡(luò)進行預(yù)訓(xùn)練,然后使用強化學(xué)習(xí)訓(xùn)練的方法來優(yōu)化模型[20-22],但只有Actor網(wǎng)絡(luò)是使用演示數(shù)據(jù)預(yù)先訓(xùn)練的,Critic網(wǎng)絡(luò)仍然是隨機初始化的,當智能體開始與環(huán)境交互時,由于不正確的價值函數(shù)估計,決策性能將下降;③自動駕駛為連續(xù)控制任務(wù),需要動作變化平滑,輸出離散空間動作的深度Q網(wǎng)絡(luò)(DQN)[23]的表現(xiàn)不如輸出連續(xù)動作的DDPG、PPO、A3C等網(wǎng)絡(luò),然而在直線行駛?cè)蝿?wù)中,輸出連續(xù)動作的Actor網(wǎng)絡(luò)卻由于訓(xùn)練過程中過多的低回報經(jīng)驗,導(dǎo)致算法學(xué)習(xí)效率低下,模型收斂后車輛會在直線車道上大幅度左右擺動的情況,存在舒適性、安全性問題。

    針對目前基于強化學(xué)習(xí)的自動駕駛研究中存在的問題,對無模型強化學(xué)習(xí)算法智能體探索進行研究,提出1種融合不同動作空間網(wǎng)絡(luò)輸出的端到端自動駕駛行為決策方法融合離散動作的雙延遲深度確定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient with Discrete,TD3WD),基于不同動作空間網(wǎng)絡(luò)輸出融合,結(jié)合2種網(wǎng)絡(luò)的優(yōu)點,提高模型的學(xué)習(xí)效率;基于模型訓(xùn)練存在的算力問題,通過預(yù)訓(xùn)練網(wǎng)絡(luò)提取圖片特征的方式降低訓(xùn)練過程計算成本;在Calra仿真平臺中對決策系統(tǒng)進行設(shè)計,通過實驗驗證本研究的可行性。

    1 融合離散動作的雙延遲深度確定性策略梯度算法

    1.1 問題描述

    在強化學(xué)習(xí)中,問題被定義為1個馬爾可夫決策過程(Markov decision process,MDP),由1個元組表示。智能體根據(jù)當前狀態(tài)st∈S,通過策略π:s→a選擇動作a t∈A。在交互環(huán)境中完成動作執(zhí)行后,由轉(zhuǎn)移函數(shù)st+1=P(st+1|s t,at)獲取下1個狀態(tài),通過獎懲函數(shù)r(s,a)獲取獎勵值rt。深度強化學(xué)習(xí)的目標是通過學(xué)習(xí)得到最優(yōu)策略π*,使期望累計獎勵最大,期望累計獎勵用狀態(tài)值函數(shù)Vπ來表示。

    式中:Gt為累計獎勵;γ∈( 0,1)為折扣因子,表示對未來狀態(tài)的影響程度。

    同樣,將在策略π下采取動作的動作值函數(shù)用Qπ來表示。

    最優(yōu)策略π*滿足

    強化學(xué)習(xí)算法分為基于模型和無模型2種,無模型的算法不需要智能體完整了解所在環(huán)境的模型,更容易實現(xiàn)和調(diào)整。在本文研究中,采用無模型強化學(xué)習(xí)算法雙延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3),將車輛前方攝像頭圖像作為輸入,轉(zhuǎn)向盤轉(zhuǎn)角、油門開度、剎車開度作為輸出,實現(xiàn)端到端自動駕駛決策。

    1.2 考慮融合動作的TD3算法

    TD3算法基于Actor-Critic結(jié)構(gòu),使用2個Critic網(wǎng)絡(luò)評估動作值,避免單個網(wǎng)絡(luò)的過估計,屬于無模型算法。無模型算法存在探索效率問題,需要大量的樣本去學(xué)習(xí),容易使經(jīng)驗回放池在訓(xùn)練前期存儲大量負面經(jīng)驗,導(dǎo)致算法學(xué)習(xí)效率低,模型性能差。為了提高探索效率,使智能體向更好的方向探索,提出了TD3WD,系統(tǒng)模型見圖1。

    圖1 TD3WD系統(tǒng)模型Fig.1 TD3WDsystem model

    TD3WD包含1組Actor(Actor和Target Actor)網(wǎng)絡(luò)和2組Critic(Critic和Target Critic)網(wǎng)絡(luò),附加網(wǎng)絡(luò)本質(zhì)為1組深度Q網(wǎng)絡(luò)(Eval Q和Target Q),Actor網(wǎng)絡(luò)負責(zé)輸出連續(xù)動作,2個Critic網(wǎng)絡(luò)負責(zé)對動作進行評價,Eval Q網(wǎng)絡(luò)負責(zé)輸出離散動作,所有Target網(wǎng)絡(luò)負責(zé)輸出各部分的目標值。與輸出連續(xù)動作的Actor網(wǎng)絡(luò)相比,Eval Q網(wǎng)絡(luò)可執(zhí)行動作數(shù)量有限,數(shù)值變化量較大,在彎道場景下的轉(zhuǎn)向盤動作變化沒有連續(xù)網(wǎng)絡(luò)平滑;而在直線行駛場景下離散空間動作可以使輸出轉(zhuǎn)向盤轉(zhuǎn)角為0,連續(xù)網(wǎng)絡(luò)則由于訓(xùn)練前期探索效率低,車輛會在直線車道上左右擺動。因此,利用Eval Q網(wǎng)絡(luò)輔助Actor網(wǎng)絡(luò)探索,提高探索效率,見圖2。

    圖2 輔助探索Fig.2 Uxiliary exploration

    圖中:α為動作比重系數(shù),表示Actor網(wǎng)絡(luò)輸出對最終輸出動作所占比重;aCt為Actor網(wǎng)絡(luò)輸出動作;a Dt為Eval Q網(wǎng)絡(luò)輸出動作;at為加權(quán)融合后動作。利用at代替aCt作為智能體輸出與環(huán)境進行交互,加強模型對環(huán)境的探索。在收集交互經(jīng)驗時,將融合前后的動作均保存在經(jīng)驗回放池中,當選取經(jīng)驗進行訓(xùn)練時,使用at訓(xùn)練原TD3各網(wǎng)絡(luò),同時附加Q網(wǎng)絡(luò)使用a Dt訓(xùn)練。隨訓(xùn)練迭代次數(shù)增加,Eval Q網(wǎng)絡(luò)輸出所占比重減小到0,訓(xùn)練結(jié)束時,動作完全由Actor網(wǎng)絡(luò)輸出。和使用專家經(jīng)驗進行強化學(xué)習(xí)訓(xùn)練的方法相比,本文算法所有經(jīng)驗均通過智能體與環(huán)境交互所得,避免了值函數(shù)的不正確估計。

    在TD3中,2個Critic網(wǎng)絡(luò)用于輸出當前狀態(tài)動作的Q值,更新時使用梯度下降的方法最小化損失函數(shù)L1。

    式中:N為訓(xùn)練選取樣本批量大??;為Critic網(wǎng)絡(luò)參數(shù);yi為Target Critic網(wǎng)絡(luò)估計的目標動作值,取2個網(wǎng)絡(luò)輸出的較小值;γ1為折扣因子;a'為Target Actor網(wǎng)絡(luò)輸出的目標動作,TD3算法在Target Actor輸出增加基于正態(tài)分布的隨機噪聲以提高智能體探索能力,本文將Target Q網(wǎng)絡(luò)輸出作為噪聲與Target Actor輸出進行加權(quán)融合,鼓勵智能體探索,權(quán)重同樣使用探索中的比重系數(shù)α;為Target Critic網(wǎng)絡(luò)參數(shù)。

    Actor網(wǎng)絡(luò)根據(jù)當前狀態(tài)輸出動作,為了加強智能體的探索能力,在更新網(wǎng)絡(luò)時,同Target Actor網(wǎng)絡(luò)輸出,將Eval Q網(wǎng)絡(luò)輸出作為噪聲與Actor輸出進行加權(quán)融合。Actor更新時使用確定性策略梯度。

    式中:θμ為Actor網(wǎng)絡(luò)參數(shù);θQ1為Critic1網(wǎng)絡(luò)參數(shù)。Actor網(wǎng)絡(luò)采取延遲更新的方式,每更新2次Critic網(wǎng)絡(luò)時更新1次。

    Actor部分和Critic部分各自對應(yīng)的Target網(wǎng)絡(luò),分別輸出目標動作和目標Q值。TD3算法采用軟更新的方法對Target網(wǎng)絡(luò)進行更新。

    式中:τ為更新系數(shù),使主網(wǎng)絡(luò)與Target網(wǎng)絡(luò)存在一定差異。同Actor網(wǎng)絡(luò)更新,Target網(wǎng)絡(luò)也采取延遲更新的方式。

    Eval Q網(wǎng)絡(luò)利用損失函數(shù)L2更新。

    式中:θ為Eval Q網(wǎng)絡(luò)參數(shù);γ2為折扣因子;為Target Q網(wǎng)絡(luò)參數(shù)。Target Q網(wǎng)絡(luò)更新如采取硬更新方式,每迭代一定次數(shù),Target Q網(wǎng)絡(luò)參數(shù)對Eval Q網(wǎng)絡(luò)參數(shù)進行1次復(fù)制,保證網(wǎng)絡(luò)存在一定差異。

    2基于TD3WD的端到端決策模型

    2.1 狀態(tài)空間設(shè)計

    狀態(tài)空間包含自動駕駛汽車決策所需信息,包括前方道路環(huán)境信息和車輛自身狀態(tài)信息,車輛狀態(tài)空間定義為

    使用英特爾公司研發(fā)的Carla仿真平臺,通過在模擬自動駕駛車輛設(shè)置前向RGB攝像頭,獲取前方道路實時圖像,輸入圖像像素為800×400。如圖3所示,將原始圖像進行尺寸處理,并將其輸入到經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)[24],該網(wǎng)絡(luò)為Carla官方提供的端到端決策網(wǎng)絡(luò),利用專家數(shù)據(jù)進行端到端模仿學(xué)習(xí),可用于提取前方道路圖像特征信息,代替原始圖像輸入。將得到的特征編碼向量β與車輛速度v(m/s)以及上一時刻動作信息(轉(zhuǎn)向盤轉(zhuǎn)角ω、油門開度t、剎車開度b)進行信息融合,將所有信息進行拼接,得到的新向量為狀態(tài)s t,作為全連接層網(wǎng)絡(luò)輸入。

    圖3 狀態(tài)信息處理Fig.3 State information processing

    2.2 動作空間設(shè)計

    車輛動作空間由轉(zhuǎn)向盤轉(zhuǎn)角ω、油門開度t、剎車開度b組成,動作空間由連續(xù)空間aCt和離散空間a Dt組成。連續(xù)空間定義為

    連續(xù)空間中對動作進行歸一化,將轉(zhuǎn)向盤轉(zhuǎn)角歸一化到[-1,1],油門和剎車歸一化到[0,1]。

    由于輔助網(wǎng)絡(luò)輸出離散動作,且每次只能選取1個動作,因此將離散動作值選取{0.3,0.6,1.0}這3個級別,離散空間定義為

    在直行加速和減速動作中各有3個級別,考慮在轉(zhuǎn)彎過程中盡量避免速度發(fā)生較大變化,因此在設(shè)計左轉(zhuǎn)和右轉(zhuǎn)的離散空間動作中,所有的油門開度均設(shè)置為0.6,使車輛能夠在轉(zhuǎn)彎過程中盡量勻速行駛,并通過不同轉(zhuǎn)向盤數(shù)值來表示轉(zhuǎn)彎幅度的大小,因此共有12組離散動作組合。

    最終輸出動作為

    為了使車輛在安全的速度范圍內(nèi)行駛,當速度超過8.5 m/s的時候,設(shè)置最大油門開度為0.5。

    2.3 獎懲函數(shù)設(shè)計

    為了衡量自動駕駛車輛所作動作的好壞,并引導(dǎo)車輛學(xué)習(xí),在設(shè)計獎懲函數(shù)時考慮4個因素:車速、轉(zhuǎn)向盤轉(zhuǎn)角、壓線、碰撞。獎懲函數(shù)需要鼓勵車輛沿車道向前行駛,當車輛超出車道時給予懲罰,同時還要使動作輸出變化盡量平滑,設(shè)計獎懲函數(shù)為

    獎懲函數(shù)包括速度獎勵和安全懲罰。

    1)速度獎勵。在車輛探索過程中,要獎勵車輛向前行駛,同時懲罰車輛產(chǎn)生較大轉(zhuǎn)向角和較大轉(zhuǎn)角變化率的行為。

    式中:v為車輛速度,m/s;ωt,ωt-1分別為當前時刻與上一時刻的轉(zhuǎn)向盤轉(zhuǎn)角。

    2)安全懲罰。在車輛探索過程中,要懲罰車輛超出車道線和馬路邊線以及發(fā)生碰撞的行為。

    式中:l ol,l or分別為車輛超出車道線和馬路邊線的面積比;rc為車輛碰撞時的懲罰,當發(fā)生碰撞時rc取-100。

    2.4 終止條件設(shè)計

    深度強化學(xué)習(xí)在探索中進行訓(xùn)練,在訓(xùn)練前期容易長時間停留在低回報區(qū)域,使記憶池存儲大量負面記憶,影響訓(xùn)練速度,因此需要設(shè)置終止條件。設(shè)計了以下終止條件。

    1)車輛停止。當車輛在連續(xù)20步內(nèi)不移動時,停止當前仿真,設(shè)置回報為-2,開始下一輪訓(xùn)練。

    2)超出車道。設(shè)定道路侵占比的閾值為0.2,即當車輛超出車道線或馬路邊線的面積比大于該閾值時,停止當前仿真,開始下一輪訓(xùn)練。

    3)發(fā)生碰撞。當車輛發(fā)生碰撞時,停止當前仿真,開始下一輪訓(xùn)練。

    2.5 網(wǎng)絡(luò)結(jié)構(gòu)與超參數(shù)設(shè)計

    TD3WD各子網(wǎng)絡(luò)結(jié)構(gòu)見表1,所有的Target網(wǎng)絡(luò)與其對應(yīng)網(wǎng)絡(luò)的結(jié)構(gòu)完全相同。由于輸入狀態(tài)為向量,因此所有子網(wǎng)絡(luò)結(jié)構(gòu)均由全連接層構(gòu)成。

    表1 TD3WD網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 TD3WD network structure

    網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置見表2。通過與仿真環(huán)境進行在線交互來訓(xùn)練TD3WD各模塊,每當交互達到1 000步或達到終止條件時終止當前訓(xùn)練輪次,重新隨機初始化仿真環(huán)境后開始新的訓(xùn)練輪次,直到完成設(shè)定輪次訓(xùn)練。

    表2 超參數(shù)設(shè)置Tab.2 Hyper parameter setting

    3 實驗與結(jié)果分析

    3.1 實驗環(huán)境設(shè)置

    使用Carla軟件作為仿真平臺,搭建自動駕駛的模擬環(huán)境。通過Carla官方文件提供的程序接口可以獲取車輛實時速度、轉(zhuǎn)向、加速度、坐標等數(shù)據(jù),以及紅綠燈、交通標志等交通信號信息;還可以通過自主添加RGB相機、激光雷達、景深傳感器等傳感器來獲取環(huán)境信息;利用控制器可以對車輛進行加速、剎車、轉(zhuǎn)向盤、換擋、手剎操作。Carla可以滿足算法訓(xùn)練的需求。

    選用穩(wěn)定版本的Carla 0.8.2,選取的模擬環(huán)境為2個小鎮(zhèn)地圖,道路為雙車道,擁有丁字路口和交叉路口。使用地圖Town 1進行訓(xùn)練,地圖見圖4。

    圖4 訓(xùn)練地圖Town1Fig.4 Training map Town1

    在該場景中,不同的路段環(huán)境差別較大,為避免樣本分布不均勻,使車輛能夠適應(yīng)在環(huán)境中不同路段行駛,每一輪訓(xùn)練開始時隨機選擇初始地點,并隨機選擇天氣條件,以提高模型泛化能力,見圖5。為了使實驗條件更加接近真實環(huán)境,在仿真中增加紅燈停車的情況,在紅燈條件下強制設(shè)置車輛減速停止,轉(zhuǎn)向盤仍由決策網(wǎng)絡(luò)輸出控制,增加車輛靜止啟動的經(jīng)驗。

    圖5 隨機初始環(huán)境Fig.5 Random initial environment

    3.2 訓(xùn)練結(jié)果分析

    為了證明本文算法的學(xué)習(xí)能力,除TD3WD、TD3、DDPG算法外,將本文思想加入到DDPG中作為對比算法(delayed deep deterministic policy gradient with discrete DDPGWD),對4種算法分別進行訓(xùn)練,在相同的實驗條件下在地圖Town 1中分別訓(xùn)練了3 000個輪次,并對下述3個指標進行了統(tǒng)計:①輪次平均獎勵,將輪次的累計獎勵每10輪取1次平均值,通過累計收益評價任務(wù)學(xué)習(xí)情況;②輪次平均行駛距離,將輪次的行駛距離每10輪取1次平均值,利用行駛距離評價任務(wù)實際的完成效率;③單步平均獎勵,記錄每個輪次實際交互的步數(shù),求取單步平均所得獎勵,通過單步獎勵進一步評價模型的好壞。

    4種算法的訓(xùn)練結(jié)果見圖6~8,各曲線均在上升后趨于平緩,表明算法經(jīng)過學(xué)習(xí)后達到收斂。從圖中可以看出,TD3算法由于使用了2個Critic網(wǎng)絡(luò),避免了高估偏差,收斂后各項數(shù)值均在DDPG之上,性能超過了DDPG。TD3算法在2 500輪次左右完成了收斂,TD3WD算法在1 750輪次左右完成收斂,相較DDPG算法收斂速度提升了30%,學(xué)習(xí)速度更快,收斂后表現(xiàn)更好,累計獎勵、行駛距離和單步獎勵均超過了其他算法,可以輸出更高回報的動作,學(xué)習(xí)效率更高;根據(jù)動作比重α設(shè)置,TD3WD在第2 000輪時完成訓(xùn)練,在2 000輪之后,各圖曲線并未隨訓(xùn)練繼續(xù)而受影響,所提出算法訓(xùn)練是成功的。將融合動作的思想加入DDPG后,改進后的DDPGWD算法同樣超越了DDPG和TD3算法,證明了本文算法思想的正確性。

    圖6 輪次平均獎勵Fig.6 Episode average reward

    圖7 輪次平均行駛距離Fig.7 Episode average driving distance

    圖8 單步平均獎勵Fig.8 Single step average reward

    3.3 測試結(jié)果分析

    將4種算法訓(xùn)練后的模型在地圖Town 1中,針對直線行駛、彎道轉(zhuǎn)彎、穿過交叉路口、丁字路口轉(zhuǎn)彎4個任務(wù)進行測試,并根據(jù)任務(wù)的完成情況設(shè)置壓線率、轉(zhuǎn)角變化、碰撞3個評價指標,在相同的天氣條件下,每個任務(wù)測試10個輪次,測試結(jié)果見表3。為了證明模型的泛化能力,在Town 1中選擇訓(xùn)練過程中沒有用到的天氣條件,以及在Town 2新環(huán)境下,再進行2組測試,結(jié)果見表4~5。

    表3 Town 1測試結(jié)果Tab.3 Town 1 test results

    表4 Town 1測試結(jié)果(新天氣)Tab.4 Town 1 test results(New weather)

    從表中結(jié)果可以看出,TD3WD可以很好的完成各任務(wù),各項指標綜合超過了對比算法,與原TD3相比,平均壓線率降低了74.4%,平均轉(zhuǎn)向盤轉(zhuǎn)角變化降低了56.4%,性能更加穩(wěn)定,輸出變化更加平滑。加入本文思想的DDPGWD同樣獲得了很好的結(jié)果,各項指標均得到了較高的提升。DDPG與TD3則由于轉(zhuǎn)角變化較大,不能滿足舒適性的需求。此外,在新的天氣條件和新環(huán)境下,DDPG的表現(xiàn)較差,甚至不能完成任務(wù),發(fā)生多次碰撞,而TD3WD則表現(xiàn)出更好的泛化能力,仍然可以更好地完成各項任務(wù)。

    表5 Town 2測試結(jié)果Tab.5 Town 2 test results

    通過仿真實驗結(jié)果可以看出,本文所提算法可以提高模型的學(xué)習(xí)效率,使網(wǎng)絡(luò)可以輸出更高回報的動作,使車輛的舒適度、安全性得到了提高,證明了本文算法思想的正確性。

    4 結(jié)束語

    本文基于無模型深度強化學(xué)習(xí)算法,對自動駕駛端到端行為決策技術(shù)展開研究。

    1)利用融合不同動作空間網(wǎng)絡(luò)輸出的方式,鼓勵智能體對環(huán)境的探索,提高了模型的學(xué)習(xí)效率。

    2)在改進算法的基礎(chǔ)上使用模仿學(xué)習(xí)預(yù)訓(xùn)練的網(wǎng)絡(luò)提取圖像特征,降低強化學(xué)習(xí)算法訓(xùn)練過程中的計算成本。

    3)通過仿真實驗分析,結(jié)果表明該方法提高了模型的決策能力,輸出變化更加平滑。

    下一步研究將對基于融合導(dǎo)航信息的強化學(xué)習(xí)決策方法開展,并將環(huán)境擴展為多車道場景,研究復(fù)雜駕駛場景下的決策任務(wù)。此外,將動態(tài)規(guī)劃加入到?jīng)Q策中,以提高決策方法的實用性。

    猜你喜歡
    決策車輛動作
    為可持續(xù)決策提供依據(jù)
    決策為什么失誤了
    車輛
    小太陽畫報(2018年3期)2018-05-14 17:19:26
    動作描寫要具體
    畫動作
    動作描寫不可少
    冬天路滑 遠離車輛
    車輛出沒,請注意
    提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
    汽車文摘(2015年11期)2015-12-02 03:02:53
    非同一般的吃飯動作
    亚洲情色 制服丝袜| www.自偷自拍.com| 午夜免费男女啪啪视频观看| av.在线天堂| 国产欧美日韩综合在线一区二区| 中文字幕最新亚洲高清| 国产片特级美女逼逼视频| 国产乱人偷精品视频| 九草在线视频观看| 波多野结衣一区麻豆| 中文字幕最新亚洲高清| 免费黄色在线免费观看| 一个人免费看片子| 久久久久久久久久久免费av| 一区二区三区精品91| 亚洲综合色网址| 亚洲欧美一区二区三区久久| 亚洲图色成人| 黄色视频不卡| av免费观看日本| 两个人看的免费小视频| 97精品久久久久久久久久精品| 免费少妇av软件| 大陆偷拍与自拍| 最黄视频免费看| 人人妻人人添人人爽欧美一区卜| 天堂俺去俺来也www色官网| 青春草视频在线免费观看| 欧美日韩一区二区视频在线观看视频在线| 日日撸夜夜添| 99九九在线精品视频| 男人舔女人的私密视频| 岛国毛片在线播放| 成人黄色视频免费在线看| 国产精品女同一区二区软件| 日韩一区二区三区影片| 亚洲视频免费观看视频| 国产精品 国内视频| 国产男人的电影天堂91| 又黄又粗又硬又大视频| 亚洲成人免费av在线播放| 波野结衣二区三区在线| 成人国产麻豆网| 亚洲精品久久午夜乱码| 黄色 视频免费看| 国产成人一区二区在线| 黄片无遮挡物在线观看| 青春草亚洲视频在线观看| 一二三四在线观看免费中文在| 巨乳人妻的诱惑在线观看| 黄频高清免费视频| av又黄又爽大尺度在线免费看| 人妻人人澡人人爽人人| 波多野结衣av一区二区av| 夫妻性生交免费视频一级片| 久久这里只有精品19| 亚洲婷婷狠狠爱综合网| 十八禁高潮呻吟视频| 午夜福利在线免费观看网站| 精品一区二区三区四区五区乱码 | 国产成人a∨麻豆精品| 美女视频免费永久观看网站| 99国产精品免费福利视频| 两性夫妻黄色片| 亚洲国产精品一区三区| 麻豆乱淫一区二区| 久久亚洲国产成人精品v| 亚洲人成电影观看| 9色porny在线观看| 亚洲av综合色区一区| 人人妻人人爽人人添夜夜欢视频| 香蕉国产在线看| 人人澡人人妻人| 天堂俺去俺来也www色官网| 人人妻人人爽人人添夜夜欢视频| 日本色播在线视频| 午夜福利视频精品| 国产在线一区二区三区精| 久久女婷五月综合色啪小说| 亚洲伊人久久精品综合| 高清欧美精品videossex| 天天躁狠狠躁夜夜躁狠狠躁| 男女免费视频国产| 国产精品 欧美亚洲| 少妇人妻精品综合一区二区| 尾随美女入室| 欧美日韩视频精品一区| 高清不卡的av网站| 男人舔女人的私密视频| 久久久国产欧美日韩av| 男女之事视频高清在线观看 | 中国国产av一级| 日韩一区二区三区影片| 亚洲在久久综合| 又大又黄又爽视频免费| 国产1区2区3区精品| 国产爽快片一区二区三区| 成人亚洲精品一区在线观看| 最近最新中文字幕免费大全7| 亚洲四区av| 丁香六月天网| 国产在线免费精品| 日韩人妻精品一区2区三区| 亚洲一级一片aⅴ在线观看| 欧美日韩视频高清一区二区三区二| 97精品久久久久久久久久精品| 18禁国产床啪视频网站| 亚洲天堂av无毛| 一二三四中文在线观看免费高清| 国产乱人偷精品视频| 黄频高清免费视频| 免费av中文字幕在线| 亚洲熟女毛片儿| 99国产精品免费福利视频| 免费在线观看黄色视频的| 亚洲婷婷狠狠爱综合网| 精品一区二区三卡| 丝袜人妻中文字幕| 人人妻人人添人人爽欧美一区卜| 亚洲av成人不卡在线观看播放网 | www.av在线官网国产| 亚洲欧洲国产日韩| 亚洲精品国产av成人精品| 在线观看一区二区三区激情| a级毛片在线看网站| 9色porny在线观看| 九九爱精品视频在线观看| 色网站视频免费| 午夜激情久久久久久久| 久久人人爽人人片av| 久久av网站| 欧美日韩福利视频一区二区| 日韩免费高清中文字幕av| 国产又爽黄色视频| 又大又爽又粗| 黄色毛片三级朝国网站| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲精品日韩在线中文字幕| www.熟女人妻精品国产| 2021少妇久久久久久久久久久| 人妻人人澡人人爽人人| 成年人午夜在线观看视频| 色婷婷久久久亚洲欧美| 亚洲精品国产av蜜桃| 人妻 亚洲 视频| 精品酒店卫生间| 成人黄色视频免费在线看| 啦啦啦视频在线资源免费观看| 欧美 日韩 精品 国产| 日本黄色日本黄色录像| 日韩一本色道免费dvd| 777米奇影视久久| 夜夜骑夜夜射夜夜干| 久久精品国产a三级三级三级| www.自偷自拍.com| 免费黄网站久久成人精品| 亚洲欧美成人精品一区二区| 女人久久www免费人成看片| 伊人亚洲综合成人网| 中国三级夫妇交换| 黄色怎么调成土黄色| 亚洲国产精品成人久久小说| 欧美日韩亚洲高清精品| 亚洲精品久久成人aⅴ小说| 成人免费观看视频高清| 成人手机av| 爱豆传媒免费全集在线观看| 啦啦啦中文免费视频观看日本| 国产精品久久久久久精品电影小说| 欧美av亚洲av综合av国产av | 国产老妇伦熟女老妇高清| 欧美黄色片欧美黄色片| av片东京热男人的天堂| 秋霞在线观看毛片| 看免费成人av毛片| 亚洲国产欧美在线一区| 精品国产超薄肉色丝袜足j| 90打野战视频偷拍视频| 亚洲精品国产一区二区精华液| 久久久久久免费高清国产稀缺| 大香蕉久久网| av福利片在线| 观看美女的网站| 丝袜脚勾引网站| 老熟女久久久| kizo精华| 国产成人精品久久久久久| 99精品久久久久人妻精品| 青春草亚洲视频在线观看| 中文乱码字字幕精品一区二区三区| 纯流量卡能插随身wifi吗| 久久亚洲国产成人精品v| 在线看a的网站| 久久久久精品久久久久真实原创| 天堂8中文在线网| 一级黄片播放器| 亚洲成人国产一区在线观看 | 男女边摸边吃奶| 久久精品久久久久久噜噜老黄| 激情五月婷婷亚洲| 午夜福利影视在线免费观看| 熟妇人妻不卡中文字幕| 亚洲精品美女久久久久99蜜臀 | 成人黄色视频免费在线看| 日本猛色少妇xxxxx猛交久久| 国产精品嫩草影院av在线观看| 中文字幕亚洲精品专区| 久久av网站| 亚洲av国产av综合av卡| 国产精品免费大片| 老司机影院成人| 巨乳人妻的诱惑在线观看| 高清黄色对白视频在线免费看| 丰满饥渴人妻一区二区三| 亚洲图色成人| 免费高清在线观看日韩| 国产精品秋霞免费鲁丝片| 日韩成人av中文字幕在线观看| 国产精品嫩草影院av在线观看| 91成人精品电影| 国产精品一区二区在线观看99| 午夜日本视频在线| 爱豆传媒免费全集在线观看| 99久久99久久久精品蜜桃| 九九爱精品视频在线观看| 久久av网站| 这个男人来自地球电影免费观看 | av视频免费观看在线观看| 高清黄色对白视频在线免费看| 国产成人欧美在线观看 | 夜夜骑夜夜射夜夜干| 国产毛片在线视频| 熟女少妇亚洲综合色aaa.| 晚上一个人看的免费电影| 成人毛片60女人毛片免费| 久久青草综合色| 亚洲国产看品久久| 日本wwww免费看| 麻豆精品久久久久久蜜桃| 美女脱内裤让男人舔精品视频| 久久ye,这里只有精品| videos熟女内射| 成人手机av| 在线 av 中文字幕| 午夜免费观看性视频| 欧美精品人与动牲交sv欧美| av免费观看日本| 成人影院久久| 亚洲国产精品成人久久小说| avwww免费| 国产成人精品无人区| 欧美日韩亚洲国产一区二区在线观看 | 中文字幕亚洲精品专区| 91精品三级在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| xxxhd国产人妻xxx| 18禁观看日本| 国产精品av久久久久免费| 国产亚洲欧美精品永久| 国产精品99久久99久久久不卡 | 熟女少妇亚洲综合色aaa.| 亚洲欧美日韩另类电影网站| 亚洲成人一二三区av| 亚洲av电影在线观看一区二区三区| 亚洲欧美激情在线| 国产日韩欧美亚洲二区| 高清黄色对白视频在线免费看| www.精华液| 亚洲精品第二区| 国产男人的电影天堂91| 久久久久久免费高清国产稀缺| 美女脱内裤让男人舔精品视频| av一本久久久久| 亚洲国产欧美日韩在线播放| 波野结衣二区三区在线| 在线观看免费午夜福利视频| 国产老妇伦熟女老妇高清| 午夜免费男女啪啪视频观看| 哪个播放器可以免费观看大片| 久久国产亚洲av麻豆专区| 波多野结衣av一区二区av| 老鸭窝网址在线观看| 人人妻人人添人人爽欧美一区卜| 亚洲av成人不卡在线观看播放网 | 欧美日韩国产mv在线观看视频| av视频免费观看在线观看| 免费高清在线观看视频在线观看| 国产成人av激情在线播放| 丝瓜视频免费看黄片| 亚洲欧美精品自产自拍| 精品一区在线观看国产| 中文字幕制服av| 最近中文字幕2019免费版| 国产精品亚洲av一区麻豆 | 男女边摸边吃奶| 校园人妻丝袜中文字幕| 精品亚洲乱码少妇综合久久| 午夜福利网站1000一区二区三区| 毛片一级片免费看久久久久| 久久久久久久国产电影| 国产有黄有色有爽视频| 国产视频首页在线观看| 狠狠精品人妻久久久久久综合| 丝袜美腿诱惑在线| √禁漫天堂资源中文www| 亚洲精品中文字幕在线视频| 精品国产一区二区三区久久久樱花| 亚洲国产中文字幕在线视频| 欧美亚洲日本最大视频资源| 叶爱在线成人免费视频播放| www.熟女人妻精品国产| 三上悠亚av全集在线观看| 免费女性裸体啪啪无遮挡网站| 搡老乐熟女国产| 成年av动漫网址| 欧美精品一区二区大全| 久久精品久久精品一区二区三区| 日本91视频免费播放| 日韩大码丰满熟妇| 咕卡用的链子| 赤兔流量卡办理| 欧美日韩一级在线毛片| 夜夜骑夜夜射夜夜干| 国产色婷婷99| 如日韩欧美国产精品一区二区三区| xxxhd国产人妻xxx| 亚洲精品一区蜜桃| 国产女主播在线喷水免费视频网站| 黑人欧美特级aaaaaa片| 涩涩av久久男人的天堂| 美女大奶头黄色视频| 久久99热这里只频精品6学生| 91成人精品电影| 这个男人来自地球电影免费观看 | 女人久久www免费人成看片| 国产精品三级大全| 美女视频免费永久观看网站| 一级毛片黄色毛片免费观看视频| 国产片内射在线| 国产在线一区二区三区精| 色精品久久人妻99蜜桃| 色视频在线一区二区三区| 高清av免费在线| 亚洲精品国产区一区二| 国产熟女欧美一区二区| 男女高潮啪啪啪动态图| 亚洲av成人不卡在线观看播放网 | 亚洲国产精品国产精品| 一级片免费观看大全| 色视频在线一区二区三区| tube8黄色片| 如日韩欧美国产精品一区二区三区| 亚洲欧美清纯卡通| 亚洲,欧美精品.| 少妇的丰满在线观看| 熟妇人妻不卡中文字幕| 色精品久久人妻99蜜桃| 咕卡用的链子| 国产毛片在线视频| 18禁裸乳无遮挡动漫免费视频| 亚洲三区欧美一区| www.av在线官网国产| 欧美另类一区| 亚洲专区中文字幕在线 | 国产精品久久久久久精品电影小说| 午夜福利免费观看在线| 在线观看国产h片| 国产又爽黄色视频| 日本wwww免费看| 性色av一级| 亚洲人成77777在线视频| 男女边吃奶边做爰视频| 男人舔女人的私密视频| 亚洲国产欧美一区二区综合| 国产1区2区3区精品| 国产精品久久久人人做人人爽| 久久这里只有精品19| 一边摸一边做爽爽视频免费| 国产男女超爽视频在线观看| 成人18禁高潮啪啪吃奶动态图| 日本91视频免费播放| 香蕉国产在线看| 国产精品嫩草影院av在线观看| 在线天堂中文资源库| 欧美中文综合在线视频| 免费黄网站久久成人精品| 日韩大码丰满熟妇| 老司机亚洲免费影院| 啦啦啦 在线观看视频| 激情五月婷婷亚洲| 成年动漫av网址| 欧美中文综合在线视频| 欧美老熟妇乱子伦牲交| 久久久久久久精品精品| 午夜福利免费观看在线| 高清欧美精品videossex| 亚洲欧美精品自产自拍| 九色亚洲精品在线播放| 欧美亚洲 丝袜 人妻 在线| 天堂俺去俺来也www色官网| 黄片无遮挡物在线观看| 天天躁夜夜躁狠狠躁躁| 最新在线观看一区二区三区 | 1024香蕉在线观看| 国产精品女同一区二区软件| 九草在线视频观看| 亚洲欧美一区二区三区久久| 亚洲国产精品一区二区三区在线| 97精品久久久久久久久久精品| 十八禁人妻一区二区| 国产无遮挡羞羞视频在线观看| 国产 一区精品| 18禁动态无遮挡网站| 日韩不卡一区二区三区视频在线| 免费黄频网站在线观看国产| 亚洲国产中文字幕在线视频| 午夜福利,免费看| 黄色怎么调成土黄色| 国产在线免费精品| 日韩免费高清中文字幕av| 久久人妻熟女aⅴ| 亚洲欧美中文字幕日韩二区| 在线观看免费日韩欧美大片| 久久人人97超碰香蕉20202| 免费观看a级毛片全部| 久久人人97超碰香蕉20202| 操美女的视频在线观看| 亚洲国产看品久久| 两个人看的免费小视频| 国产免费现黄频在线看| 国产精品熟女久久久久浪| 天天躁夜夜躁狠狠久久av| 国产精品一二三区在线看| 日本午夜av视频| 久久久久久人妻| 国产精品亚洲av一区麻豆 | 久久青草综合色| 久久精品人人爽人人爽视色| 国产精品熟女久久久久浪| 久久久亚洲精品成人影院| 日本色播在线视频| 精品少妇内射三级| 久久亚洲国产成人精品v| 亚洲综合色网址| 国产日韩欧美亚洲二区| 在线观看免费午夜福利视频| 亚洲精品第二区| av网站免费在线观看视频| 欧美 亚洲 国产 日韩一| 国产精品一区二区在线观看99| 久久久久久久精品精品| 午夜免费男女啪啪视频观看| xxx大片免费视频| 日日啪夜夜爽| 欧美日韩福利视频一区二区| 国产无遮挡羞羞视频在线观看| 久久免费观看电影| 2021少妇久久久久久久久久久| 老司机影院毛片| 亚洲 欧美一区二区三区| 久久亚洲国产成人精品v| √禁漫天堂资源中文www| 亚洲国产毛片av蜜桃av| 国产视频首页在线观看| 国产在线免费精品| 99久国产av精品国产电影| 电影成人av| 欧美亚洲日本最大视频资源| 亚洲免费av在线视频| 欧美黑人精品巨大| 日本av手机在线免费观看| 亚洲成人av在线免费| 在现免费观看毛片| 国产精品国产三级专区第一集| 午夜精品国产一区二区电影| 精品午夜福利在线看| 久久久欧美国产精品| 啦啦啦在线免费观看视频4| 国产男女超爽视频在线观看| a 毛片基地| 日本色播在线视频| 欧美av亚洲av综合av国产av | 精品酒店卫生间| 亚洲自偷自拍图片 自拍| 这个男人来自地球电影免费观看 | 色综合欧美亚洲国产小说| 熟女av电影| 午夜日韩欧美国产| 亚洲av欧美aⅴ国产| 最近的中文字幕免费完整| 欧美日韩一级在线毛片| 国产xxxxx性猛交| 成人18禁高潮啪啪吃奶动态图| 成人亚洲精品一区在线观看| 水蜜桃什么品种好| 看非洲黑人一级黄片| 少妇精品久久久久久久| 国产一区二区 视频在线| 午夜福利在线免费观看网站| 狂野欧美激情性bbbbbb| av福利片在线| 日韩电影二区| 日日爽夜夜爽网站| 永久免费av网站大全| 国产无遮挡羞羞视频在线观看| 国产成人免费观看mmmm| 宅男免费午夜| 亚洲综合精品二区| 久久99精品国语久久久| 亚洲精品一区蜜桃| 免费av中文字幕在线| 五月开心婷婷网| 一边摸一边抽搐一进一出视频| 男人操女人黄网站| 搡老岳熟女国产| 国产成人av激情在线播放| 在线天堂最新版资源| 韩国av在线不卡| 精品一区二区免费观看| 国产淫语在线视频| 免费观看性生交大片5| 国产成人精品久久久久久| 国产无遮挡羞羞视频在线观看| 亚洲免费av在线视频| 久久亚洲国产成人精品v| 亚洲欧美一区二区三区久久| 免费高清在线观看视频在线观看| 新久久久久国产一级毛片| 久久ye,这里只有精品| 久久国产精品大桥未久av| 最近的中文字幕免费完整| 午夜老司机福利片| 国产午夜精品一二区理论片| 中文字幕高清在线视频| 亚洲精品自拍成人| 高清在线视频一区二区三区| 在线观看国产h片| 叶爱在线成人免费视频播放| 久久久精品区二区三区| 可以免费在线观看a视频的电影网站 | 精品国产乱码久久久久久小说| 青春草视频在线免费观看| 久久97久久精品| 男的添女的下面高潮视频| 欧美日韩亚洲高清精品| 日本猛色少妇xxxxx猛交久久| 国产一区二区激情短视频 | 咕卡用的链子| 街头女战士在线观看网站| 欧美精品高潮呻吟av久久| 亚洲精品久久午夜乱码| 国产女主播在线喷水免费视频网站| 久久久久久久大尺度免费视频| 久久久久国产一级毛片高清牌| 深夜精品福利| 免费在线观看视频国产中文字幕亚洲 | 尾随美女入室| 超碰成人久久| av福利片在线| 国产精品久久久人人做人人爽| av国产久精品久网站免费入址| 欧美亚洲 丝袜 人妻 在线| 丝袜喷水一区| 人人妻人人添人人爽欧美一区卜| 国产成人精品无人区| 天天躁夜夜躁狠狠躁躁| 久久久久精品国产欧美久久久 | 久久久国产欧美日韩av| 天美传媒精品一区二区| 午夜福利网站1000一区二区三区| 黄色 视频免费看| 精品久久久久久电影网| 巨乳人妻的诱惑在线观看| 亚洲精品国产色婷婷电影| 国产欧美亚洲国产| 毛片一级片免费看久久久久| 大话2 男鬼变身卡| 日韩中文字幕欧美一区二区 | av又黄又爽大尺度在线免费看| 日韩 欧美 亚洲 中文字幕| 激情五月婷婷亚洲| 深夜精品福利| 男男h啪啪无遮挡| 精品国产一区二区三区久久久樱花| 老司机影院成人| 日韩av在线免费看完整版不卡| 国产无遮挡羞羞视频在线观看| 在线观看免费午夜福利视频| 丁香六月天网| 午夜久久久在线观看| 国产毛片在线视频| 国产成人a∨麻豆精品| 国产免费福利视频在线观看| 在线免费观看不下载黄p国产| 免费观看a级毛片全部| 亚洲少妇的诱惑av| 国产男人的电影天堂91| 欧美激情 高清一区二区三区| 丁香六月欧美| 黄频高清免费视频| 国产亚洲av高清不卡| 欧美人与性动交α欧美精品济南到| 韩国精品一区二区三区| 亚洲综合色网址| 亚洲男人天堂网一区| 在线观看免费高清a一片| 日韩大码丰满熟妇| 国产又爽黄色视频| 嫩草影院入口| 香蕉国产在线看| 日韩欧美一区视频在线观看| 好男人视频免费观看在线| 国产精品一国产av| 成人午夜精彩视频在线观看| 99九九在线精品视频|