• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的無人駕駛車輛行為決策方法研究進(jìn)展

    2021-05-12 13:47:22張佳鵬
    電子科技 2021年5期
    關(guān)鍵詞:分層決策車輛

    張佳鵬,李 琳,朱 葉

    (上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200000)

    當(dāng)今社會逐漸向著智能化的方向發(fā)展,無人駕駛變成了一個十分受關(guān)注的熱點(diǎn)。自動駕駛車輛的系統(tǒng)架構(gòu)可以分為環(huán)境感知、行為決策、運(yùn)動控制3個部分。環(huán)境感知系統(tǒng)[1-2]能夠利用攝像頭、雷達(dá)等車載傳感器與計算機(jī)視覺、傳感器信息融合技術(shù)來感知環(huán)境信息。行為決策系統(tǒng)[3]用來對環(huán)境及自車信息進(jìn)行理解并做出合理的駕駛行為決策。運(yùn)動控制系統(tǒng)[4]能夠根據(jù)決策系統(tǒng)給出的控制信號來控制車輛的運(yùn)動。如果將環(huán)境感知模塊比作自動駕駛車輛的眼睛和耳朵,將運(yùn)動控制模塊看作自動駕駛車輛的手和腳,那么行為決策模塊就相當(dāng)于是自動駕駛車輛的大腦,是實(shí)現(xiàn)自動駕駛最為核心的技術(shù)。

    強(qiáng)化學(xué)習(xí)[5]作為一種新興的人工智能算法,其通過智能體與環(huán)境不斷的交互產(chǎn)生評價性的反饋信號,并利用反饋信號不斷改善智能體的策略,最終使智能體能夠自主學(xué)習(xí)到適應(yīng)環(huán)境的最優(yōu)策略。該方法在序貫決策問題上表現(xiàn)出了強(qiáng)大的優(yōu)越性和靈活性。在自動駕駛決策領(lǐng)域,基于規(guī)則的傳統(tǒng)行為決策方法[6-9]缺乏對動態(tài)變化環(huán)境的適應(yīng)能力,于是研究人員嘗試使用強(qiáng)化學(xué)習(xí)算法來得到適應(yīng)性強(qiáng)的決策模型。文獻(xiàn)[10]使用強(qiáng)化學(xué)習(xí)算法為一個具有14自由度的仿真車輛建立決策模型,幫助自動駕駛車輛在仿真環(huán)境中完成沿道路行駛的任務(wù)。文獻(xiàn)[11]將跟車行駛場景建模為馬爾科夫決策過程模型(Markov Decision Process,MDP),并使用Q-Learning算法為該模型求解最優(yōu)的跟車策略,最終通過多次不同情況下的仿真實(shí)驗(yàn)驗(yàn)證了算法的有效性。

    基于強(qiáng)化學(xué)習(xí)算法的決策模型雖然取得了初步的成功,但仍存在很多缺陷:(1)決策模型的精度較低。傳統(tǒng)強(qiáng)化學(xué)習(xí)算法采用低維的狀態(tài)空間和離散的動作空間建立模型,這導(dǎo)致自動駕駛車輛只能根據(jù)粗糙的感知做出粗糙的決策,無法在復(fù)雜的環(huán)境中很好的應(yīng)用;(2)決策模型的廣度不夠。傳統(tǒng)強(qiáng)化學(xué)習(xí)算法只能針對某一種駕駛場景或駕駛?cè)蝿?wù)進(jìn)行設(shè)計,訓(xùn)練完成后的決策模型只能夠在該類場景下發(fā)揮作用,無法像人類駕駛員一樣采用一個決策模型就能綜合處理多種駕駛?cè)蝿?wù);(3)在真實(shí)的道路交通環(huán)境中存在一些不確定因素,例如車載傳感器的噪聲、傳感器范圍受限或受到遮擋以及周圍其他的交通參與者意圖未知等。而基于傳統(tǒng)強(qiáng)化學(xué)習(xí)的決策模型屬于確定性推理模型,在環(huán)境中存在不確定因素的條件下進(jìn)行決策難以保證行車安全。

    本文對近年來基于強(qiáng)化學(xué)習(xí)的決策模型在提高決策精度、提高決策廣度、應(yīng)對不確定因素以提高行車安全這3個方面的研究進(jìn)展進(jìn)行介紹,以期為后來的研究者提供參考。

    1 決策精度的提升

    基于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的決策模型采用低維的環(huán)境信息來組成狀態(tài)空間,少量離散的動作值來組成動作空間,訓(xùn)練完成后得到的決策模型只能依據(jù)簡略的環(huán)境信息給出粗糙的駕駛行為。這種精度較低的決策模型無法在具有復(fù)雜信息的駕駛環(huán)境中發(fā)揮良好的作用。

    深度強(qiáng)化學(xué)習(xí)算法[12]將深度學(xué)習(xí)[13-14]的表征能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,顯著地提升了強(qiáng)化學(xué)習(xí)模型中狀態(tài)空間以及動作空間的維度和規(guī)模,使智能體能夠根據(jù)高維特征輸入給出精密的動作輸出,為提高復(fù)雜場景下的決策精度提供了方向。文獻(xiàn)[15]首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Q-Learning算法相結(jié)合提出了深度Q網(wǎng)絡(luò)算法(Deep Q Network,DQN)。訓(xùn)練完成后的DQN算法在Atari游戲中的表現(xiàn)超過了人類專家。文獻(xiàn)[16]進(jìn)一步將DQN算法與蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)相結(jié)合開發(fā)出了AlphaGo程序。AlphaGo在動作空間更大,策略更復(fù)雜的圍棋游戲上先后擊敗了人類頂級棋手李世石和柯潔。文獻(xiàn)[17]基于DQN算法的理念提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),成功將深度強(qiáng)化學(xué)習(xí)擴(kuò)展到連續(xù)動作域中,使其在20多個具有連續(xù)高維動作空間的物理任務(wù)上取得了較好的性能。OPENAI團(tuán)隊(duì)使用深度強(qiáng)化學(xué)習(xí)算法在狀態(tài)空間和動作空間更加復(fù)雜的DOTA2游戲中戰(zhàn)勝了人類頂級玩家。鑒于在復(fù)雜空間問題上的優(yōu)異表現(xiàn),深度強(qiáng)化學(xué)習(xí)算法被研究人員引入到自動駕駛車輛的行為決策領(lǐng)域,用來提高決策模型的精度。

    文獻(xiàn)[18]提出了一種基于DQN算法的車道保持(Lane Keeping)決策模型。該方法以高維相機(jī)圖像特征作為狀態(tài)輸入,以離散化后的方向盤轉(zhuǎn)角作為動作輸出,采用DQN算法計算出最優(yōu)狀態(tài)動作價值,使得自動駕駛車輛能夠在勻速行駛的基礎(chǔ)上根據(jù)高維傳感器圖像輸入選擇合適的方向盤轉(zhuǎn)角,達(dá)到以端到端方式控制車輛的目的。文獻(xiàn)[19]提出了一種基于DQN算法的復(fù)雜動態(tài)城市道路環(huán)境下的自主制動決策系統(tǒng),車輛與行人在隨機(jī)的環(huán)境中進(jìn)行交互,障礙物的位置會隨著時間的變化而變化,每一次的碰撞風(fēng)險也會隨之變化。該研究將駕駛場景建模為一個馬爾科夫決策過程,然后采用深度Q網(wǎng)絡(luò)算法來學(xué)習(xí)制動策略,使得自動駕駛車輛能夠利用從傳感器獲取的障礙物信息以及自身速度等特征,在遇到碰撞風(fēng)險時自主決定何時進(jìn)行制動以及制動的程度大小。DQN算法雖通過提高狀態(tài)空間的維度,增加動作空間的規(guī)模,極大提高了決策模型的精度,但其依舊采用離散的動作空間,這在一定程度上限制了模型的精度。

    基于DDPG算法在連續(xù)空間控制問題上的優(yōu)異表現(xiàn), 文獻(xiàn)[20]提出了一種基于DDPG算法的車道跟隨(Lane Following,LF)的決策模型。該模型使用連續(xù)的動作空間,并在TORCS仿真環(huán)境中對算法的有效性進(jìn)行驗(yàn)證并與DQN算法進(jìn)行對比。該研究結(jié)果證明,基于DDPG算法的決策模型能夠更加平滑和精準(zhǔn)地完成單車道行駛。 文獻(xiàn)[21]將文獻(xiàn)[20]中的方法從仿真環(huán)境擴(kuò)展了到真實(shí)環(huán)境中,以高維單眼圖像作為狀態(tài)輸入,以方向盤轉(zhuǎn)角和速度等連續(xù)值作為動作輸出,根據(jù)車輛行駛的距離給出獎勵,然后采用DDPG算法來求解最優(yōu)的決策模型,并通過實(shí)車測試驗(yàn)證了該模型在真實(shí)駕駛環(huán)境中的有效性。 文獻(xiàn)[22]提出了一種基于DDPG算法的跟車行駛(Car Following, CF)決策方法。該研究將跟車場景建模為一個馬爾科夫決策過程模型,然后采用DDPG算法來求解最優(yōu)的跟車策略,并在一個貼近真實(shí)的VISSIM高可靠性仿真駕駛環(huán)境中驗(yàn)證算法的有效性。實(shí)驗(yàn)結(jié)果表明,在保證駕駛舒適度的前提下,與經(jīng)典的自適應(yīng)巡航控制和智能駕駛員模型相比,訓(xùn)練后的車輛的跟車效率分別提高了7.9%和3.8%。

    綜上所述,基于深度強(qiáng)化學(xué)習(xí)的決策模型能夠有效地提高決策模型的精度。但是精度提高的同時也增加了策略學(xué)習(xí)的復(fù)雜度,造成算法的收斂困難,魯棒性差。因此,在提升決策模型精度的同時保證算法能夠快速收斂并提高模型的魯棒性是未來的研究重點(diǎn)。

    2 決策廣度的提升

    全自動駕駛是一個十分復(fù)雜的問題,其中包含多種不同的駕駛場景:車道保持、跟車行駛、換道、超車、交叉口通行等?;趥鹘y(tǒng)強(qiáng)化學(xué)習(xí)算法的行為決策系統(tǒng)只能夠針對某一種駕駛場景進(jìn)行設(shè)計。針對跟車行駛場景得到的決策模型只能夠用于跟車行駛,無法應(yīng)用于換道(Lane Changing,LC)場景,更無法像人類駕駛員一樣能夠綜合處理各種場景下的駕駛?cè)蝿?wù)。使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法綜合學(xué)習(xí)多個駕駛?cè)蝿?wù)往往會產(chǎn)生維數(shù)災(zāi)難。為了解決這個問題,研究人員將分層的思想引入到強(qiáng)化學(xué)習(xí)理論中。

    自然界中大部分的復(fù)雜系統(tǒng)都具有分層結(jié)構(gòu)。從理論角度講,層次結(jié)構(gòu)為從簡單進(jìn)化為復(fù)雜提供了可能性;從動力學(xué)角度講,復(fù)雜系統(tǒng)具有可分解性,這一特性使其行為過程和描述方式更加簡化。從這個角度來講,一個復(fù)雜的強(qiáng)化學(xué)習(xí)問題可以通過分層的方式加以簡化。分層強(qiáng)化學(xué)習(xí)[23]致力于將一個復(fù)雜的強(qiáng)化學(xué)習(xí)問題分解成幾個子問題并分別解決,可以取得比直接解決整個問題更好的效果。它能夠緩解維數(shù)災(zāi)難,是解決大規(guī)模強(qiáng)化學(xué)習(xí)問題的潛在途徑。分層是通過抽象實(shí)現(xiàn)的,分層強(qiáng)化學(xué)習(xí)中常用的抽象技術(shù)[24-25]包括狀態(tài)空間分解、時態(tài)抽象、狀態(tài)抽象。其中,時態(tài)抽象是最為常用的一種分層技術(shù)。由于能夠通過任務(wù)分解進(jìn)行多任務(wù)學(xué)習(xí)的優(yōu)點(diǎn),分層強(qiáng)化學(xué)習(xí)算法被研究人員引入到自動駕駛的決策領(lǐng)域,用于增加決策模型的決策廣度。

    文獻(xiàn)[26]提出了一種基于分層強(qiáng)化學(xué)習(xí)的多場景行為決策方法,該方法將駕駛?cè)蝿?wù)劃分為高層任務(wù)級與底層控制級兩個層次。其中,高層任務(wù)級采用一些離散量如道路行駛、進(jìn)入交叉口、進(jìn)入停車區(qū)域等作為狀態(tài)空間,以左轉(zhuǎn)、右轉(zhuǎn)、換道、停車等高層選項(xiàng)作為動作空間;底層控制級以速度、車身角度等動力學(xué)參數(shù)作為狀態(tài)空間,以方向盤轉(zhuǎn)角、加速度等底層連續(xù)控制量作為動作空間。使用時序邏輯為高層動作選項(xiàng)設(shè)定約束,并根據(jù)車輛兩層狀態(tài)以及是否滿足約束來給出獎勵。然后,使用DQN算法來學(xué)習(xí)高層任務(wù)級策略,采用DDPG算法來學(xué)習(xí)底層控制級策略。最終使得自動駕駛車輛能夠先根據(jù)高層狀態(tài)執(zhí)行相應(yīng)的高層任務(wù)級駕駛策略,并在高層選項(xiàng)的基礎(chǔ)上根據(jù)車輛的底層狀態(tài)執(zhí)行底層控制級策略,用以完成復(fù)雜的駕駛?cè)蝿?wù)。文獻(xiàn)[27]提出一種基于分層強(qiáng)化學(xué)習(xí)的多車道巡航場景下的多任務(wù)決策方法。多車道巡航場景中包含著多種駕駛?cè)蝿?wù):車道保持、跟車行駛和換道等,是一個復(fù)合多個駕駛?cè)蝿?wù)的復(fù)雜場景。該研究利用空間抽象技術(shù)將多車道巡航場景下的駕駛?cè)蝿?wù)分為高層任務(wù)級與底層控制級,其中高層任務(wù)包括車道保持、換道、跟車行駛,底層控制層針對不同的高層任務(wù)執(zhí)行不同的底層控制策略。在SimpleTraffic仿真模擬器中的實(shí)驗(yàn)表明,分層決策模型能夠很好地完成多車道巡航場景下的駕駛?cè)蝿?wù)。

    由上述的研究成果可知,分層強(qiáng)化學(xué)習(xí)算法通過分層的方法將一個復(fù)雜的駕駛?cè)蝿?wù)分解為多個相對簡單的子任務(wù),可以在不產(chǎn)生維度災(zāi)難的情況下實(shí)現(xiàn)多任務(wù)學(xué)習(xí),增加了決策模型的廣度。但是,高層任務(wù)分解目前是通過人工實(shí)現(xiàn)的,這種分解方法費(fèi)時費(fèi)力且容易忽視任務(wù)之間的某些內(nèi)在聯(lián)系或造成任務(wù)之間的重疊或者空白。使算法能夠自主學(xué)習(xí)到合理的分層是未來研究的重點(diǎn)。另外,底層控制策略也并不完美,存在一定程度的震蕩,造成這種現(xiàn)象的原因也需要進(jìn)一步研究。

    3 應(yīng)對不確定因素

    基于傳統(tǒng)強(qiáng)化學(xué)習(xí)的決策模型屬于確定性的推理模型,只能適用于環(huán)境狀態(tài)完全已知的駕駛環(huán)境。在真實(shí)的交通場景中,由于傳感器噪音、范圍受限、受遮擋以及其他交通參與者意圖未知等因素的存在導(dǎo)致自動駕駛車輛無法準(zhǔn)確的得到全部的環(huán)境信息。確定性推理模型忽略了這些不確定因素的潛在影響,可能會導(dǎo)致決策系統(tǒng)做出錯誤的決定并引發(fā)嚴(yán)重的后果。因此,使車輛的決策系統(tǒng)在不確定條件下給出合理的行為決策并保證行車安全是一個非常重要的問題。

    部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP)[28-30]是一種基于不確定性的序貫決策模型,它假設(shè)系統(tǒng)的狀態(tài)信息無法直接觀測得到,而是部分可知的。POMDP引入了信念狀態(tài)空間(Belief State Space)的概念,它能夠根據(jù)環(huán)境狀態(tài)的觀測值推理出環(huán)境狀態(tài)有可能的真實(shí)值及其發(fā)生的概率。早在1971年,研究人員就提出了利用信念狀態(tài)空間求解POMDP模型的精確算法,并從理論上證明精確算法是可以獲得最優(yōu)解的,但是計算復(fù)雜度會隨著問題的規(guī)模呈指數(shù)級增長。鑒于POMDP模型精確求解的困難性,后來的研究人員以精確算法為基礎(chǔ)開發(fā)出了多種高效的近似算法。研究人員將POMDP模型引入自動駕駛車輛的決策系統(tǒng)中,用來規(guī)避不確定因素可能會給決策帶來的風(fēng)險。

    傳感器噪聲、感知范圍受限或受到遮擋是各類駕駛場景下普遍都存在的一種不確定因素。其他交通參與者的速度、位置、角度等信息會因?yàn)閭鞲衅髟肼暤拇嬖诙鵁o法準(zhǔn)確測量,確定性的推理模型基于不準(zhǔn)確的信息做出決策就可能會導(dǎo)致危險的情況發(fā)生。文獻(xiàn)[31]研究了在傳感器具有噪聲的條件下完成跟車行駛的行為決策方法。該研究使用一個POMDP模型將傳感器噪聲帶來的不確定因素納入考慮之中,使用信念空間表示當(dāng)前真實(shí)狀態(tài)的概率分布,并且采用了一種在信念狀態(tài)空間中采樣的QMDP值算法來近似求解模型的最優(yōu)策略,在盡可能減少計算復(fù)雜度的情況下得到具有抗干擾性的決策模型。實(shí)驗(yàn)證明,該決策模型能夠使自動駕駛車輛在不同的感知置信度下表現(xiàn)出不同程度的保守性,規(guī)避行車中可能存在的風(fēng)險,保證了行車安全。文獻(xiàn)[32]提出了傳感器噪聲的條件下進(jìn)行全自動駕駛時的換道決策方法。該研究將換道場景建模為一個POMDP模型,并采用一個兩步算法來求解最優(yōu)策略。該方法首先使用兩個信號處理網(wǎng)絡(luò)對POMDP模型的信念狀態(tài)空間進(jìn)行處理,得到一個簡化的信念狀態(tài)空間。然后,采用QMDP值方法與盲策略(Blind Policy,BP)計算價值函數(shù)的上下界,并結(jié)合分支界限樹搜索(Branch and Bound Tree Search)算法來在線求解當(dāng)前信念空間下的最優(yōu)策略。實(shí)驗(yàn)證明,該方法相對于傳統(tǒng)基于規(guī)則的方法以及傳統(tǒng)強(qiáng)化學(xué)習(xí)方法能夠更加謹(jǐn)慎更加安全的做出換道決策。雖然上述方法[31-32]都取得了成效,但是其POMDP模型中的狀態(tài)空間、動作空間、獎勵函數(shù)等都是針對相應(yīng)的駕駛場景專門設(shè)計的,難以推廣到其他駕駛場景中使用。于是,研究人員又提出了將帶有不確定因素的駕駛場景建模為一個連續(xù)空間的POMDP模型,并采用連續(xù)狀態(tài)分層貝葉斯模型結(jié)合值迭代算法來求解最優(yōu)策略[33]。這個方法的好處在于它不僅能夠針對當(dāng)前的駕駛?cè)蝿?wù)做出安全可靠魯棒性強(qiáng)的決策,還能夠針對不同的駕駛場景自動進(jìn)行優(yōu)化而無需重新設(shè)計POMDP模型中的狀態(tài)量或其他參數(shù)。

    另一類重要的不確定因素是其他交通參與者的意圖。自動駕駛車輛往往要與其他交通參與者共同在道路上行駛,不同的交通參與者的意圖不同。通過感知其他交通參與者當(dāng)前的意圖以及在該意圖下有可能的產(chǎn)生的運(yùn)動能夠提高行車安全。但是,由于人類行為的多樣性和微妙性以及沒有測量人類意圖的傳感器,得到其他交通參與者的意圖往往比較困難。文獻(xiàn)[34]提出了一種假設(shè)有限個未知意圖集合來構(gòu)造實(shí)際模型的方法。該方法首先為集合中的每個意圖構(gòu)造一個運(yùn)動模型;然后將這些模型與其他環(huán)境信息一起組合成一個混合可觀測馬爾科夫決策過程(POMDP的一種結(jié)構(gòu)化變體);最終采用相應(yīng)的強(qiáng)化學(xué)習(xí)算法為模型求解最優(yōu)策略。仿真實(shí)驗(yàn)結(jié)果表明,該方法具有較強(qiáng)的識別意圖和有效利用環(huán)境信息進(jìn)行決策的能力。文獻(xiàn)[35]提出將其他交通參與者的意圖建模為子目標(biāo)位置,將其運(yùn)動模型建模為以意圖為條件的隱變量,然后使用一個兩層的規(guī)劃算法來計算駕駛策略。其中,高層使用Hybird A*算法來規(guī)劃出一條穿越其他交通參與者的無碰路徑。底層利用POMDP模型來計算車輛沿該路徑行駛時的速度。雖然將意圖建模為子目標(biāo)的方法在復(fù)雜應(yīng)用中取得了成功,但是在一定程度上受到了特定環(huán)境的限制,缺乏通用性。文獻(xiàn)[36]則提出了一種融合道路環(huán)境與車輛運(yùn)動意圖的道路態(tài)勢模型。其中,車輛的運(yùn)動意圖是通過車輛的反應(yīng)推斷出來的,即觀察到的車輛狀態(tài)與道路環(huán)境代表的參考車輛狀態(tài)的偏差。這種意圖模型具有更強(qiáng)的通用性。然后,將道路態(tài)勢模型融入POMDP模型中,通過DESPOT算法在線求解最優(yōu)策略。文獻(xiàn)[37]將其他交通參與者的意圖建模為一個隱馬爾可夫模型,它能夠輸出其他交通參與者的橫向意圖(左轉(zhuǎn)、右轉(zhuǎn)、直行)與縱向意圖(屈服程度)。然后使用POMDP模型來對相應(yīng)的駕駛環(huán)境進(jìn)行建模并求解最優(yōu)策略。該研究在一個交叉口的場景下對環(huán)境的有效性進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果證明該方法能夠幫助自動駕駛車輛安全高效地通過交叉口。

    由上文的總結(jié)與分析可知,基于POMDP的決策模型能夠極大地提升自動駕駛車輛在具有不確定因素的環(huán)境中行車的安全性。但是這種方法也存在計算復(fù)雜度高的缺點(diǎn),難以在復(fù)雜空間場景中應(yīng)用。因此開發(fā)一種高效且具有低復(fù)雜度的策略求解方法是未來研究的重中之重。另外,開發(fā)出更加精確的意圖感知模型也是非常有意義的。

    4 結(jié)束語

    本文總結(jié)了基于強(qiáng)化學(xué)習(xí)的無人駕駛車輛行為決策算法的相關(guān)研究進(jìn)展,從提高決策精度、提高決策廣度以及應(yīng)對不確定因素這3個方向進(jìn)行系統(tǒng)性的描述??梢钥闯?,基于深度強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)、POMDP的決策模型已經(jīng)在相應(yīng)的方向上取得了突破性的進(jìn)展,但是依舊面臨著許多問題:深度強(qiáng)化學(xué)習(xí)可以提高決策模型的精度但同時也增加了模型的訓(xùn)練復(fù)雜度,導(dǎo)致模型難以收斂;分層強(qiáng)化學(xué)習(xí)提升了決策模型處理復(fù)雜任務(wù)的能力,但是任務(wù)分解卻費(fèi)時費(fèi)力。POMDP模型的求解復(fù)雜度太高也限制著它在復(fù)雜場景中的進(jìn)一步應(yīng)用。

    根據(jù)上述問題,基于強(qiáng)化學(xué)習(xí)的行為決策方法未來的研究重點(diǎn)集中為以下3個方面:(1)通過駕駛員數(shù)據(jù)預(yù)訓(xùn)練或改進(jìn)經(jīng)驗(yàn)回放機(jī)制等方法提升深度強(qiáng)化學(xué)習(xí)的訓(xùn)練效率,加快模型收斂速度;(2)使用監(jiān)督學(xué)習(xí)幫助分層強(qiáng)化學(xué)習(xí)自主學(xué)習(xí)合理的任務(wù)分解方式,避免人工分解的麻煩;(3)在已有算法的基礎(chǔ)上繼續(xù)開發(fā)更加高效POMDP求解算法,降低計算復(fù)雜度。

    猜你喜歡
    分層決策車輛
    為可持續(xù)決策提供依據(jù)
    一種沉降環(huán)可準(zhǔn)確就位的分層沉降儀
    決策為什么失誤了
    雨林的分層
    車輛
    小太陽畫報(2018年3期)2018-05-14 17:19:26
    有趣的分層
    冬天路滑 遠(yuǎn)離車輛
    車輛出沒,請注意
    提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
    汽車文摘(2015年11期)2015-12-02 03:02:53
    跨越式跳高遞進(jìn)與分層設(shè)計
    国产精品麻豆人妻色哟哟久久| 成人国产麻豆网| 一级av片app| 日本vs欧美在线观看视频 | 菩萨蛮人人尽说江南好唐韦庄| 亚洲丝袜综合中文字幕| 免费在线观看成人毛片| 色视频在线一区二区三区| 国产男女超爽视频在线观看| 99热全是精品| 久久精品久久精品一区二区三区| 肉色欧美久久久久久久蜜桃| 国产精品伦人一区二区| 午夜福利视频精品| 国产精品国产三级国产av玫瑰| 亚洲欧美精品自产自拍| 日韩精品免费视频一区二区三区 | 久久精品熟女亚洲av麻豆精品| 久久精品国产亚洲av天美| 成年人午夜在线观看视频| 黑人猛操日本美女一级片| 夫妻性生交免费视频一级片| 又黄又爽又刺激的免费视频.| 亚洲国产精品成人久久小说| 久久影院123| 国产免费福利视频在线观看| 午夜视频国产福利| 美女视频免费永久观看网站| 国产免费一区二区三区四区乱码| 久久久久久久久大av| 久久久久国产网址| 国产高清三级在线| av女优亚洲男人天堂| 少妇丰满av| 久久久久久久久久成人| 2021少妇久久久久久久久久久| 欧美国产精品一级二级三级 | 国产 精品1| 亚洲国产精品一区三区| 一区二区av电影网| 成人毛片60女人毛片免费| 午夜福利,免费看| 亚洲国产精品国产精品| av女优亚洲男人天堂| 人人妻人人添人人爽欧美一区卜| 精品一区二区免费观看| 22中文网久久字幕| 国产成人freesex在线| 久久久a久久爽久久v久久| 亚洲精品成人av观看孕妇| 久久国产亚洲av麻豆专区| 亚州av有码| av播播在线观看一区| 黑丝袜美女国产一区| h视频一区二区三区| 欧美日韩亚洲高清精品| 五月天丁香电影| 国精品久久久久久国模美| xxx大片免费视频| 国产一区二区三区av在线| 亚洲第一区二区三区不卡| 久久毛片免费看一区二区三区| 高清毛片免费看| 少妇 在线观看| 亚洲婷婷狠狠爱综合网| 91久久精品国产一区二区三区| 亚洲av成人精品一二三区| 中文天堂在线官网| 九草在线视频观看| 久热这里只有精品99| 国产精品蜜桃在线观看| 国产精品熟女久久久久浪| 少妇被粗大的猛进出69影院 | 亚洲国产精品999| 国产日韩欧美亚洲二区| 国产69精品久久久久777片| 美女cb高潮喷水在线观看| 狂野欧美激情性xxxx在线观看| 亚洲精品乱久久久久久| 国产精品偷伦视频观看了| 免费观看av网站的网址| 精品少妇黑人巨大在线播放| 精品亚洲成国产av| 亚洲国产欧美日韩在线播放 | 99视频精品全部免费 在线| 午夜免费男女啪啪视频观看| av在线app专区| 免费看av在线观看网站| 久久久久网色| 黄色毛片三级朝国网站 | 欧美精品高潮呻吟av久久| 性色av一级| 一本一本综合久久| 一二三四中文在线观看免费高清| 亚洲精品国产成人久久av| 久久久久久久久大av| 亚洲熟女精品中文字幕| 久久久久久久久久久久大奶| 国产高清不卡午夜福利| 亚洲性久久影院| 精品一区二区三卡| 高清毛片免费看| 亚洲成人一二三区av| 一本一本综合久久| 国产成人a∨麻豆精品| 久久久久人妻精品一区果冻| 国产欧美另类精品又又久久亚洲欧美| 免费观看a级毛片全部| 男女边摸边吃奶| 九九在线视频观看精品| 免费大片黄手机在线观看| 国产午夜精品一二区理论片| 伊人久久国产一区二区| 成人二区视频| 亚洲欧美一区二区三区国产| 婷婷色综合www| 国精品久久久久久国模美| 在线观看国产h片| 一级a做视频免费观看| 国产成人91sexporn| 日本色播在线视频| 免费高清在线观看视频在线观看| 制服丝袜香蕉在线| 亚洲经典国产精华液单| 人人妻人人爽人人添夜夜欢视频 | 大陆偷拍与自拍| 免费看光身美女| 亚洲精品一二三| 成人午夜精彩视频在线观看| 国产亚洲av片在线观看秒播厂| 免费黄网站久久成人精品| 国产69精品久久久久777片| 国产黄色视频一区二区在线观看| 我要看黄色一级片免费的| av卡一久久| 啦啦啦中文免费视频观看日本| 久久久久人妻精品一区果冻| 一级a做视频免费观看| 亚洲国产欧美在线一区| 久久久久久伊人网av| 久久精品国产自在天天线| 在线观看免费日韩欧美大片 | 午夜福利网站1000一区二区三区| 欧美区成人在线视频| 久久女婷五月综合色啪小说| 黄色一级大片看看| 日本黄色日本黄色录像| 亚洲在久久综合| 熟女av电影| 亚洲丝袜综合中文字幕| 久久国产精品男人的天堂亚洲 | 日韩不卡一区二区三区视频在线| 亚洲精品日韩av片在线观看| 久久99蜜桃精品久久| 国产黄色免费在线视频| 成人毛片60女人毛片免费| 国产成人精品久久久久久| 人体艺术视频欧美日本| 亚洲经典国产精华液单| av有码第一页| 黄色视频在线播放观看不卡| 精品国产国语对白av| 欧美日韩国产mv在线观看视频| 国产精品久久久久久av不卡| 最近中文字幕高清免费大全6| 成人漫画全彩无遮挡| 噜噜噜噜噜久久久久久91| 男女国产视频网站| 色哟哟·www| 久久人人爽人人爽人人片va| 中文精品一卡2卡3卡4更新| 国产亚洲91精品色在线| 黑人高潮一二区| 亚州av有码| 午夜激情久久久久久久| 国产国拍精品亚洲av在线观看| 少妇的逼好多水| 午夜激情久久久久久久| 国产男女内射视频| 国产精品免费大片| 激情五月婷婷亚洲| 日韩欧美 国产精品| 天天躁夜夜躁狠狠久久av| a级毛片在线看网站| 91午夜精品亚洲一区二区三区| 伊人亚洲综合成人网| 三级国产精品欧美在线观看| 国产精品一区二区性色av| 国产成人精品无人区| 成人毛片a级毛片在线播放| 男的添女的下面高潮视频| 日韩av不卡免费在线播放| www.色视频.com| 色吧在线观看| 黑人高潮一二区| 精品久久久久久久久av| 激情五月婷婷亚洲| 青青草视频在线视频观看| 观看美女的网站| 国产av国产精品国产| 热re99久久国产66热| av国产久精品久网站免费入址| 成人无遮挡网站| 美女cb高潮喷水在线观看| 国产片特级美女逼逼视频| 欧美日韩av久久| 少妇 在线观看| 亚洲成人一二三区av| 自线自在国产av| 一个人免费看片子| 精品一品国产午夜福利视频| 成人午夜精彩视频在线观看| 亚洲无线观看免费| 国产在线视频一区二区| 国产精品.久久久| 国产av精品麻豆| 午夜福利网站1000一区二区三区| 亚洲精品自拍成人| av播播在线观看一区| 日韩精品有码人妻一区| 国产精品国产三级国产av玫瑰| 九色成人免费人妻av| 亚洲精品国产色婷婷电影| 色视频在线一区二区三区| 男男h啪啪无遮挡| 亚洲四区av| 亚洲欧美日韩另类电影网站| 丝袜在线中文字幕| 精品亚洲成a人片在线观看| 久久婷婷青草| 欧美激情国产日韩精品一区| 免费av不卡在线播放| 日本黄大片高清| 天天躁夜夜躁狠狠久久av| 少妇人妻一区二区三区视频| 视频区图区小说| 国产成人精品婷婷| 一级毛片久久久久久久久女| 91精品国产国语对白视频| 午夜福利影视在线免费观看| 熟女人妻精品中文字幕| 嘟嘟电影网在线观看| 91成人精品电影| 久久久欧美国产精品| 岛国毛片在线播放| 天堂中文最新版在线下载| 91午夜精品亚洲一区二区三区| 日本色播在线视频| 丰满人妻一区二区三区视频av| 精品久久国产蜜桃| 国产黄片视频在线免费观看| videossex国产| 狂野欧美白嫩少妇大欣赏| 亚洲国产成人一精品久久久| 久久久久久久亚洲中文字幕| 日韩在线高清观看一区二区三区| www.av在线官网国产| 国产精品一区二区性色av| 欧美精品一区二区免费开放| 色婷婷av一区二区三区视频| 黑人猛操日本美女一级片| 久久国产亚洲av麻豆专区| 久久久久精品性色| 特大巨黑吊av在线直播| 一个人免费看片子| 麻豆成人av视频| 高清午夜精品一区二区三区| 日日啪夜夜撸| 少妇丰满av| 精品久久国产蜜桃| 少妇猛男粗大的猛烈进出视频| 男人爽女人下面视频在线观看| 在线观看www视频免费| 日本91视频免费播放| 亚洲性久久影院| 欧美三级亚洲精品| 欧美日韩视频精品一区| 成人国产av品久久久| 99久久精品热视频| 国产视频首页在线观看| 国产亚洲精品久久久com| 免费黄网站久久成人精品| 色5月婷婷丁香| 少妇丰满av| 在线观看美女被高潮喷水网站| 日韩 亚洲 欧美在线| 欧美精品高潮呻吟av久久| 美女脱内裤让男人舔精品视频| 久久久久精品久久久久真实原创| 韩国av在线不卡| 黑人巨大精品欧美一区二区蜜桃 | 爱豆传媒免费全集在线观看| 青春草亚洲视频在线观看| 国产在视频线精品| 嘟嘟电影网在线观看| 免费人成在线观看视频色| 大香蕉久久网| 美女大奶头黄色视频| 国产伦精品一区二区三区视频9| 成人影院久久| 熟妇人妻不卡中文字幕| 99视频精品全部免费 在线| 国产真实伦视频高清在线观看| 精品午夜福利在线看| 卡戴珊不雅视频在线播放| 免费黄色在线免费观看| 十八禁高潮呻吟视频 | 少妇的逼好多水| 久久午夜福利片| 99热6这里只有精品| 久久久久久久亚洲中文字幕| 免费大片黄手机在线观看| 亚洲一区二区三区欧美精品| 日韩大片免费观看网站| 一级毛片久久久久久久久女| av女优亚洲男人天堂| av黄色大香蕉| 欧美激情国产日韩精品一区| 天天操日日干夜夜撸| 日韩精品有码人妻一区| 成人18禁高潮啪啪吃奶动态图 | 国产精品麻豆人妻色哟哟久久| 免费大片黄手机在线观看| 午夜日本视频在线| 欧美精品国产亚洲| 久久6这里有精品| 国产中年淑女户外野战色| 欧美一级a爱片免费观看看| .国产精品久久| 国产熟女午夜一区二区三区 | 自拍欧美九色日韩亚洲蝌蚪91 | 欧美日本中文国产一区发布| 日韩欧美 国产精品| 亚洲一级一片aⅴ在线观看| 最近中文字幕高清免费大全6| 99热全是精品| 秋霞伦理黄片| 成年美女黄网站色视频大全免费 | 深夜a级毛片| 搡老乐熟女国产| 丝袜脚勾引网站| 丝袜喷水一区| 亚洲av二区三区四区| 国产一区二区三区av在线| 狂野欧美激情性xxxx在线观看| 国产精品嫩草影院av在线观看| 精品人妻一区二区三区麻豆| 岛国毛片在线播放| 午夜av观看不卡| 美女xxoo啪啪120秒动态图| 少妇 在线观看| 久久这里有精品视频免费| 成人毛片a级毛片在线播放| 精品一区在线观看国产| 高清欧美精品videossex| 精品亚洲乱码少妇综合久久| 十八禁网站网址无遮挡 | 五月天丁香电影| 国产高清三级在线| 黑丝袜美女国产一区| 日本wwww免费看| 国产精品久久久久久av不卡| 特大巨黑吊av在线直播| 伦精品一区二区三区| 国产精品国产三级专区第一集| 色哟哟·www| 曰老女人黄片| 黄色配什么色好看| 欧美亚洲 丝袜 人妻 在线| 欧美国产精品一级二级三级 | 久久久久久久久久人人人人人人| 亚洲精品,欧美精品| 成人漫画全彩无遮挡| 亚洲色图综合在线观看| 狂野欧美白嫩少妇大欣赏| 晚上一个人看的免费电影| h视频一区二区三区| 亚洲av欧美aⅴ国产| 日本猛色少妇xxxxx猛交久久| 精品一区二区三区视频在线| 精品一区二区三卡| 日韩欧美 国产精品| 日本猛色少妇xxxxx猛交久久| 亚洲国产精品成人久久小说| 男女无遮挡免费网站观看| 日韩欧美 国产精品| 有码 亚洲区| 51国产日韩欧美| 国产又色又爽无遮挡免| 亚洲精品久久久久久婷婷小说| 国产亚洲91精品色在线| 麻豆成人午夜福利视频| 在线观看免费视频网站a站| 男的添女的下面高潮视频| 欧美国产精品一级二级三级 | 成年美女黄网站色视频大全免费 | 精品国产一区二区久久| 美女内射精品一级片tv| 97在线人人人人妻| 国产有黄有色有爽视频| 亚州av有码| 丝袜脚勾引网站| 久久毛片免费看一区二区三区| 亚洲av国产av综合av卡| 在线观看国产h片| 免费看日本二区| 性高湖久久久久久久久免费观看| 草草在线视频免费看| 一本久久精品| 青春草视频在线免费观看| 天天躁夜夜躁狠狠久久av| 亚洲精品国产色婷婷电影| 热re99久久精品国产66热6| 久久鲁丝午夜福利片| 美女国产视频在线观看| 啦啦啦中文免费视频观看日本| 久久精品国产亚洲网站| 日韩欧美一区视频在线观看 | av卡一久久| 国产欧美日韩一区二区三区在线 | 午夜视频国产福利| 男的添女的下面高潮视频| 亚洲国产欧美在线一区| 插阴视频在线观看视频| 伊人久久国产一区二区| h日本视频在线播放| 成人国产麻豆网| 毛片一级片免费看久久久久| 欧美 日韩 精品 国产| 久久精品国产亚洲av涩爱| 又大又黄又爽视频免费| videossex国产| 日韩视频在线欧美| 久久久亚洲精品成人影院| 青青草视频在线视频观看| 中文字幕免费在线视频6| 国产熟女欧美一区二区| 国产男女内射视频| 建设人人有责人人尽责人人享有的| 精品少妇黑人巨大在线播放| 一区二区av电影网| 色婷婷久久久亚洲欧美| 亚洲精品一二三| 久久精品久久久久久噜噜老黄| 亚洲综合精品二区| a级一级毛片免费在线观看| 自拍偷自拍亚洲精品老妇| 男男h啪啪无遮挡| 男人添女人高潮全过程视频| 日韩av在线免费看完整版不卡| 免费大片18禁| 国产一级毛片在线| 欧美区成人在线视频| 国产亚洲午夜精品一区二区久久| 国产日韩欧美视频二区| 女人久久www免费人成看片| 日韩大片免费观看网站| 国产美女午夜福利| 看免费成人av毛片| 国产成人91sexporn| 欧美xxxx性猛交bbbb| 黄色一级大片看看| 欧美精品国产亚洲| 亚洲成人一二三区av| 美女脱内裤让男人舔精品视频| 黑人猛操日本美女一级片| 欧美 日韩 精品 国产| 交换朋友夫妻互换小说| 久久国内精品自在自线图片| 国产伦理片在线播放av一区| 亚洲av.av天堂| 少妇熟女欧美另类| 人人妻人人澡人人爽人人夜夜| 有码 亚洲区| 亚洲av不卡在线观看| 国产免费一级a男人的天堂| 天美传媒精品一区二区| 91成人精品电影| 只有这里有精品99| 能在线免费看毛片的网站| 人妻 亚洲 视频| 少妇人妻 视频| 日韩 亚洲 欧美在线| 三级经典国产精品| 97在线视频观看| 老熟女久久久| 这个男人来自地球电影免费观看 | 最新的欧美精品一区二区| 亚洲,一卡二卡三卡| 日韩视频在线欧美| 婷婷色综合大香蕉| 一本一本综合久久| 欧美日本中文国产一区发布| 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲精品日韩在线中文字幕| 久久国产亚洲av麻豆专区| a级一级毛片免费在线观看| 少妇人妻 视频| 秋霞在线观看毛片| 你懂的网址亚洲精品在线观看| 亚洲情色 制服丝袜| 午夜影院在线不卡| 精品久久久久久久久亚洲| 曰老女人黄片| 亚洲成色77777| 我要看日韩黄色一级片| 免费黄频网站在线观看国产| 深夜a级毛片| 亚洲国产色片| 女性生殖器流出的白浆| 一级a做视频免费观看| 欧美成人午夜免费资源| 日韩av在线免费看完整版不卡| 成人无遮挡网站| a级片在线免费高清观看视频| 亚洲av男天堂| 日本黄色片子视频| 我的老师免费观看完整版| 男男h啪啪无遮挡| 久久av网站| 高清av免费在线| 国产在线一区二区三区精| 亚洲精品,欧美精品| 成年人午夜在线观看视频| 久久久国产精品麻豆| 丰满迷人的少妇在线观看| 一级爰片在线观看| 亚洲欧洲国产日韩| 性色av一级| 国内少妇人妻偷人精品xxx网站| 国产免费一区二区三区四区乱码| 尾随美女入室| 国产成人精品婷婷| 97在线人人人人妻| 五月伊人婷婷丁香| 国产精品国产三级国产专区5o| 高清黄色对白视频在线免费看 | 一个人看视频在线观看www免费| 黑人高潮一二区| 乱人伦中国视频| 亚洲美女黄色视频免费看| 欧美日韩av久久| 亚洲电影在线观看av| 国产在视频线精品| 女人久久www免费人成看片| 久久午夜综合久久蜜桃| 久久精品熟女亚洲av麻豆精品| 女人精品久久久久毛片| 久久久久久久国产电影| 街头女战士在线观看网站| 简卡轻食公司| 99视频精品全部免费 在线| 亚洲,一卡二卡三卡| 人人妻人人爽人人添夜夜欢视频 | 春色校园在线视频观看| 三级经典国产精品| 国产黄片视频在线免费观看| 欧美老熟妇乱子伦牲交| 国产精品欧美亚洲77777| 成人美女网站在线观看视频| 亚洲国产精品专区欧美| 在线亚洲精品国产二区图片欧美 | 日韩人妻高清精品专区| 国产精品嫩草影院av在线观看| 插逼视频在线观看| 亚洲婷婷狠狠爱综合网| 免费大片黄手机在线观看| 视频中文字幕在线观看| 久久亚洲国产成人精品v| 欧美国产精品一级二级三级 | 国产成人91sexporn| 黑人巨大精品欧美一区二区蜜桃 | 麻豆精品久久久久久蜜桃| a级毛片在线看网站| 国产淫片久久久久久久久| 精品国产一区二区三区久久久樱花| 卡戴珊不雅视频在线播放| 国产一区二区三区综合在线观看 | 国产精品人妻久久久久久| 男女边吃奶边做爰视频| 男人添女人高潮全过程视频| 国产一区亚洲一区在线观看| 久久久a久久爽久久v久久| av免费在线看不卡| 91成人精品电影| 十分钟在线观看高清视频www | 岛国毛片在线播放| av国产精品久久久久影院| 日本黄色日本黄色录像| 最近中文字幕高清免费大全6| 99国产精品免费福利视频| 人人澡人人妻人| 精品少妇黑人巨大在线播放| 色视频在线一区二区三区| 亚洲久久久国产精品| 天美传媒精品一区二区| 久久精品国产亚洲av涩爱| 色视频在线一区二区三区| 国产探花极品一区二区| 日本爱情动作片www.在线观看| 国产成人午夜福利电影在线观看| 伦理电影免费视频| 亚洲欧美成人精品一区二区| 中国国产av一级| 麻豆成人av视频| 精品少妇久久久久久888优播| 免费看光身美女| 久久国产亚洲av麻豆专区| 亚洲av二区三区四区| 日韩欧美精品免费久久| 久久久久久久久久人人人人人人| 丰满少妇做爰视频| 精品国产一区二区三区久久久樱花| 能在线免费看毛片的网站| 欧美日韩一区二区视频在线观看视频在线|