張佳鵬,李 琳,朱 葉
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200000)
當(dāng)今社會逐漸向著智能化的方向發(fā)展,無人駕駛變成了一個十分受關(guān)注的熱點(diǎn)。自動駕駛車輛的系統(tǒng)架構(gòu)可以分為環(huán)境感知、行為決策、運(yùn)動控制3個部分。環(huán)境感知系統(tǒng)[1-2]能夠利用攝像頭、雷達(dá)等車載傳感器與計算機(jī)視覺、傳感器信息融合技術(shù)來感知環(huán)境信息。行為決策系統(tǒng)[3]用來對環(huán)境及自車信息進(jìn)行理解并做出合理的駕駛行為決策。運(yùn)動控制系統(tǒng)[4]能夠根據(jù)決策系統(tǒng)給出的控制信號來控制車輛的運(yùn)動。如果將環(huán)境感知模塊比作自動駕駛車輛的眼睛和耳朵,將運(yùn)動控制模塊看作自動駕駛車輛的手和腳,那么行為決策模塊就相當(dāng)于是自動駕駛車輛的大腦,是實(shí)現(xiàn)自動駕駛最為核心的技術(shù)。
強(qiáng)化學(xué)習(xí)[5]作為一種新興的人工智能算法,其通過智能體與環(huán)境不斷的交互產(chǎn)生評價性的反饋信號,并利用反饋信號不斷改善智能體的策略,最終使智能體能夠自主學(xué)習(xí)到適應(yīng)環(huán)境的最優(yōu)策略。該方法在序貫決策問題上表現(xiàn)出了強(qiáng)大的優(yōu)越性和靈活性。在自動駕駛決策領(lǐng)域,基于規(guī)則的傳統(tǒng)行為決策方法[6-9]缺乏對動態(tài)變化環(huán)境的適應(yīng)能力,于是研究人員嘗試使用強(qiáng)化學(xué)習(xí)算法來得到適應(yīng)性強(qiáng)的決策模型。文獻(xiàn)[10]使用強(qiáng)化學(xué)習(xí)算法為一個具有14自由度的仿真車輛建立決策模型,幫助自動駕駛車輛在仿真環(huán)境中完成沿道路行駛的任務(wù)。文獻(xiàn)[11]將跟車行駛場景建模為馬爾科夫決策過程模型(Markov Decision Process,MDP),并使用Q-Learning算法為該模型求解最優(yōu)的跟車策略,最終通過多次不同情況下的仿真實(shí)驗(yàn)驗(yàn)證了算法的有效性。
基于強(qiáng)化學(xué)習(xí)算法的決策模型雖然取得了初步的成功,但仍存在很多缺陷:(1)決策模型的精度較低。傳統(tǒng)強(qiáng)化學(xué)習(xí)算法采用低維的狀態(tài)空間和離散的動作空間建立模型,這導(dǎo)致自動駕駛車輛只能根據(jù)粗糙的感知做出粗糙的決策,無法在復(fù)雜的環(huán)境中很好的應(yīng)用;(2)決策模型的廣度不夠。傳統(tǒng)強(qiáng)化學(xué)習(xí)算法只能針對某一種駕駛場景或駕駛?cè)蝿?wù)進(jìn)行設(shè)計,訓(xùn)練完成后的決策模型只能夠在該類場景下發(fā)揮作用,無法像人類駕駛員一樣采用一個決策模型就能綜合處理多種駕駛?cè)蝿?wù);(3)在真實(shí)的道路交通環(huán)境中存在一些不確定因素,例如車載傳感器的噪聲、傳感器范圍受限或受到遮擋以及周圍其他的交通參與者意圖未知等。而基于傳統(tǒng)強(qiáng)化學(xué)習(xí)的決策模型屬于確定性推理模型,在環(huán)境中存在不確定因素的條件下進(jìn)行決策難以保證行車安全。
本文對近年來基于強(qiáng)化學(xué)習(xí)的決策模型在提高決策精度、提高決策廣度、應(yīng)對不確定因素以提高行車安全這3個方面的研究進(jìn)展進(jìn)行介紹,以期為后來的研究者提供參考。
基于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的決策模型采用低維的環(huán)境信息來組成狀態(tài)空間,少量離散的動作值來組成動作空間,訓(xùn)練完成后得到的決策模型只能依據(jù)簡略的環(huán)境信息給出粗糙的駕駛行為。這種精度較低的決策模型無法在具有復(fù)雜信息的駕駛環(huán)境中發(fā)揮良好的作用。
深度強(qiáng)化學(xué)習(xí)算法[12]將深度學(xué)習(xí)[13-14]的表征能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,顯著地提升了強(qiáng)化學(xué)習(xí)模型中狀態(tài)空間以及動作空間的維度和規(guī)模,使智能體能夠根據(jù)高維特征輸入給出精密的動作輸出,為提高復(fù)雜場景下的決策精度提供了方向。文獻(xiàn)[15]首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Q-Learning算法相結(jié)合提出了深度Q網(wǎng)絡(luò)算法(Deep Q Network,DQN)。訓(xùn)練完成后的DQN算法在Atari游戲中的表現(xiàn)超過了人類專家。文獻(xiàn)[16]進(jìn)一步將DQN算法與蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)相結(jié)合開發(fā)出了AlphaGo程序。AlphaGo在動作空間更大,策略更復(fù)雜的圍棋游戲上先后擊敗了人類頂級棋手李世石和柯潔。文獻(xiàn)[17]基于DQN算法的理念提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),成功將深度強(qiáng)化學(xué)習(xí)擴(kuò)展到連續(xù)動作域中,使其在20多個具有連續(xù)高維動作空間的物理任務(wù)上取得了較好的性能。OPENAI團(tuán)隊(duì)使用深度強(qiáng)化學(xué)習(xí)算法在狀態(tài)空間和動作空間更加復(fù)雜的DOTA2游戲中戰(zhàn)勝了人類頂級玩家。鑒于在復(fù)雜空間問題上的優(yōu)異表現(xiàn),深度強(qiáng)化學(xué)習(xí)算法被研究人員引入到自動駕駛車輛的行為決策領(lǐng)域,用來提高決策模型的精度。
文獻(xiàn)[18]提出了一種基于DQN算法的車道保持(Lane Keeping)決策模型。該方法以高維相機(jī)圖像特征作為狀態(tài)輸入,以離散化后的方向盤轉(zhuǎn)角作為動作輸出,采用DQN算法計算出最優(yōu)狀態(tài)動作價值,使得自動駕駛車輛能夠在勻速行駛的基礎(chǔ)上根據(jù)高維傳感器圖像輸入選擇合適的方向盤轉(zhuǎn)角,達(dá)到以端到端方式控制車輛的目的。文獻(xiàn)[19]提出了一種基于DQN算法的復(fù)雜動態(tài)城市道路環(huán)境下的自主制動決策系統(tǒng),車輛與行人在隨機(jī)的環(huán)境中進(jìn)行交互,障礙物的位置會隨著時間的變化而變化,每一次的碰撞風(fēng)險也會隨之變化。該研究將駕駛場景建模為一個馬爾科夫決策過程,然后采用深度Q網(wǎng)絡(luò)算法來學(xué)習(xí)制動策略,使得自動駕駛車輛能夠利用從傳感器獲取的障礙物信息以及自身速度等特征,在遇到碰撞風(fēng)險時自主決定何時進(jìn)行制動以及制動的程度大小。DQN算法雖通過提高狀態(tài)空間的維度,增加動作空間的規(guī)模,極大提高了決策模型的精度,但其依舊采用離散的動作空間,這在一定程度上限制了模型的精度。
基于DDPG算法在連續(xù)空間控制問題上的優(yōu)異表現(xiàn), 文獻(xiàn)[20]提出了一種基于DDPG算法的車道跟隨(Lane Following,LF)的決策模型。該模型使用連續(xù)的動作空間,并在TORCS仿真環(huán)境中對算法的有效性進(jìn)行驗(yàn)證并與DQN算法進(jìn)行對比。該研究結(jié)果證明,基于DDPG算法的決策模型能夠更加平滑和精準(zhǔn)地完成單車道行駛。 文獻(xiàn)[21]將文獻(xiàn)[20]中的方法從仿真環(huán)境擴(kuò)展了到真實(shí)環(huán)境中,以高維單眼圖像作為狀態(tài)輸入,以方向盤轉(zhuǎn)角和速度等連續(xù)值作為動作輸出,根據(jù)車輛行駛的距離給出獎勵,然后采用DDPG算法來求解最優(yōu)的決策模型,并通過實(shí)車測試驗(yàn)證了該模型在真實(shí)駕駛環(huán)境中的有效性。 文獻(xiàn)[22]提出了一種基于DDPG算法的跟車行駛(Car Following, CF)決策方法。該研究將跟車場景建模為一個馬爾科夫決策過程模型,然后采用DDPG算法來求解最優(yōu)的跟車策略,并在一個貼近真實(shí)的VISSIM高可靠性仿真駕駛環(huán)境中驗(yàn)證算法的有效性。實(shí)驗(yàn)結(jié)果表明,在保證駕駛舒適度的前提下,與經(jīng)典的自適應(yīng)巡航控制和智能駕駛員模型相比,訓(xùn)練后的車輛的跟車效率分別提高了7.9%和3.8%。
綜上所述,基于深度強(qiáng)化學(xué)習(xí)的決策模型能夠有效地提高決策模型的精度。但是精度提高的同時也增加了策略學(xué)習(xí)的復(fù)雜度,造成算法的收斂困難,魯棒性差。因此,在提升決策模型精度的同時保證算法能夠快速收斂并提高模型的魯棒性是未來的研究重點(diǎn)。
全自動駕駛是一個十分復(fù)雜的問題,其中包含多種不同的駕駛場景:車道保持、跟車行駛、換道、超車、交叉口通行等?;趥鹘y(tǒng)強(qiáng)化學(xué)習(xí)算法的行為決策系統(tǒng)只能夠針對某一種駕駛場景進(jìn)行設(shè)計。針對跟車行駛場景得到的決策模型只能夠用于跟車行駛,無法應(yīng)用于換道(Lane Changing,LC)場景,更無法像人類駕駛員一樣能夠綜合處理各種場景下的駕駛?cè)蝿?wù)。使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法綜合學(xué)習(xí)多個駕駛?cè)蝿?wù)往往會產(chǎn)生維數(shù)災(zāi)難。為了解決這個問題,研究人員將分層的思想引入到強(qiáng)化學(xué)習(xí)理論中。
自然界中大部分的復(fù)雜系統(tǒng)都具有分層結(jié)構(gòu)。從理論角度講,層次結(jié)構(gòu)為從簡單進(jìn)化為復(fù)雜提供了可能性;從動力學(xué)角度講,復(fù)雜系統(tǒng)具有可分解性,這一特性使其行為過程和描述方式更加簡化。從這個角度來講,一個復(fù)雜的強(qiáng)化學(xué)習(xí)問題可以通過分層的方式加以簡化。分層強(qiáng)化學(xué)習(xí)[23]致力于將一個復(fù)雜的強(qiáng)化學(xué)習(xí)問題分解成幾個子問題并分別解決,可以取得比直接解決整個問題更好的效果。它能夠緩解維數(shù)災(zāi)難,是解決大規(guī)模強(qiáng)化學(xué)習(xí)問題的潛在途徑。分層是通過抽象實(shí)現(xiàn)的,分層強(qiáng)化學(xué)習(xí)中常用的抽象技術(shù)[24-25]包括狀態(tài)空間分解、時態(tài)抽象、狀態(tài)抽象。其中,時態(tài)抽象是最為常用的一種分層技術(shù)。由于能夠通過任務(wù)分解進(jìn)行多任務(wù)學(xué)習(xí)的優(yōu)點(diǎn),分層強(qiáng)化學(xué)習(xí)算法被研究人員引入到自動駕駛的決策領(lǐng)域,用于增加決策模型的決策廣度。
文獻(xiàn)[26]提出了一種基于分層強(qiáng)化學(xué)習(xí)的多場景行為決策方法,該方法將駕駛?cè)蝿?wù)劃分為高層任務(wù)級與底層控制級兩個層次。其中,高層任務(wù)級采用一些離散量如道路行駛、進(jìn)入交叉口、進(jìn)入停車區(qū)域等作為狀態(tài)空間,以左轉(zhuǎn)、右轉(zhuǎn)、換道、停車等高層選項(xiàng)作為動作空間;底層控制級以速度、車身角度等動力學(xué)參數(shù)作為狀態(tài)空間,以方向盤轉(zhuǎn)角、加速度等底層連續(xù)控制量作為動作空間。使用時序邏輯為高層動作選項(xiàng)設(shè)定約束,并根據(jù)車輛兩層狀態(tài)以及是否滿足約束來給出獎勵。然后,使用DQN算法來學(xué)習(xí)高層任務(wù)級策略,采用DDPG算法來學(xué)習(xí)底層控制級策略。最終使得自動駕駛車輛能夠先根據(jù)高層狀態(tài)執(zhí)行相應(yīng)的高層任務(wù)級駕駛策略,并在高層選項(xiàng)的基礎(chǔ)上根據(jù)車輛的底層狀態(tài)執(zhí)行底層控制級策略,用以完成復(fù)雜的駕駛?cè)蝿?wù)。文獻(xiàn)[27]提出一種基于分層強(qiáng)化學(xué)習(xí)的多車道巡航場景下的多任務(wù)決策方法。多車道巡航場景中包含著多種駕駛?cè)蝿?wù):車道保持、跟車行駛和換道等,是一個復(fù)合多個駕駛?cè)蝿?wù)的復(fù)雜場景。該研究利用空間抽象技術(shù)將多車道巡航場景下的駕駛?cè)蝿?wù)分為高層任務(wù)級與底層控制級,其中高層任務(wù)包括車道保持、換道、跟車行駛,底層控制層針對不同的高層任務(wù)執(zhí)行不同的底層控制策略。在SimpleTraffic仿真模擬器中的實(shí)驗(yàn)表明,分層決策模型能夠很好地完成多車道巡航場景下的駕駛?cè)蝿?wù)。
由上述的研究成果可知,分層強(qiáng)化學(xué)習(xí)算法通過分層的方法將一個復(fù)雜的駕駛?cè)蝿?wù)分解為多個相對簡單的子任務(wù),可以在不產(chǎn)生維度災(zāi)難的情況下實(shí)現(xiàn)多任務(wù)學(xué)習(xí),增加了決策模型的廣度。但是,高層任務(wù)分解目前是通過人工實(shí)現(xiàn)的,這種分解方法費(fèi)時費(fèi)力且容易忽視任務(wù)之間的某些內(nèi)在聯(lián)系或造成任務(wù)之間的重疊或者空白。使算法能夠自主學(xué)習(xí)到合理的分層是未來研究的重點(diǎn)。另外,底層控制策略也并不完美,存在一定程度的震蕩,造成這種現(xiàn)象的原因也需要進(jìn)一步研究。
基于傳統(tǒng)強(qiáng)化學(xué)習(xí)的決策模型屬于確定性的推理模型,只能適用于環(huán)境狀態(tài)完全已知的駕駛環(huán)境。在真實(shí)的交通場景中,由于傳感器噪音、范圍受限、受遮擋以及其他交通參與者意圖未知等因素的存在導(dǎo)致自動駕駛車輛無法準(zhǔn)確的得到全部的環(huán)境信息。確定性推理模型忽略了這些不確定因素的潛在影響,可能會導(dǎo)致決策系統(tǒng)做出錯誤的決定并引發(fā)嚴(yán)重的后果。因此,使車輛的決策系統(tǒng)在不確定條件下給出合理的行為決策并保證行車安全是一個非常重要的問題。
部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP)[28-30]是一種基于不確定性的序貫決策模型,它假設(shè)系統(tǒng)的狀態(tài)信息無法直接觀測得到,而是部分可知的。POMDP引入了信念狀態(tài)空間(Belief State Space)的概念,它能夠根據(jù)環(huán)境狀態(tài)的觀測值推理出環(huán)境狀態(tài)有可能的真實(shí)值及其發(fā)生的概率。早在1971年,研究人員就提出了利用信念狀態(tài)空間求解POMDP模型的精確算法,并從理論上證明精確算法是可以獲得最優(yōu)解的,但是計算復(fù)雜度會隨著問題的規(guī)模呈指數(shù)級增長。鑒于POMDP模型精確求解的困難性,后來的研究人員以精確算法為基礎(chǔ)開發(fā)出了多種高效的近似算法。研究人員將POMDP模型引入自動駕駛車輛的決策系統(tǒng)中,用來規(guī)避不確定因素可能會給決策帶來的風(fēng)險。
傳感器噪聲、感知范圍受限或受到遮擋是各類駕駛場景下普遍都存在的一種不確定因素。其他交通參與者的速度、位置、角度等信息會因?yàn)閭鞲衅髟肼暤拇嬖诙鵁o法準(zhǔn)確測量,確定性的推理模型基于不準(zhǔn)確的信息做出決策就可能會導(dǎo)致危險的情況發(fā)生。文獻(xiàn)[31]研究了在傳感器具有噪聲的條件下完成跟車行駛的行為決策方法。該研究使用一個POMDP模型將傳感器噪聲帶來的不確定因素納入考慮之中,使用信念空間表示當(dāng)前真實(shí)狀態(tài)的概率分布,并且采用了一種在信念狀態(tài)空間中采樣的QMDP值算法來近似求解模型的最優(yōu)策略,在盡可能減少計算復(fù)雜度的情況下得到具有抗干擾性的決策模型。實(shí)驗(yàn)證明,該決策模型能夠使自動駕駛車輛在不同的感知置信度下表現(xiàn)出不同程度的保守性,規(guī)避行車中可能存在的風(fēng)險,保證了行車安全。文獻(xiàn)[32]提出了傳感器噪聲的條件下進(jìn)行全自動駕駛時的換道決策方法。該研究將換道場景建模為一個POMDP模型,并采用一個兩步算法來求解最優(yōu)策略。該方法首先使用兩個信號處理網(wǎng)絡(luò)對POMDP模型的信念狀態(tài)空間進(jìn)行處理,得到一個簡化的信念狀態(tài)空間。然后,采用QMDP值方法與盲策略(Blind Policy,BP)計算價值函數(shù)的上下界,并結(jié)合分支界限樹搜索(Branch and Bound Tree Search)算法來在線求解當(dāng)前信念空間下的最優(yōu)策略。實(shí)驗(yàn)證明,該方法相對于傳統(tǒng)基于規(guī)則的方法以及傳統(tǒng)強(qiáng)化學(xué)習(xí)方法能夠更加謹(jǐn)慎更加安全的做出換道決策。雖然上述方法[31-32]都取得了成效,但是其POMDP模型中的狀態(tài)空間、動作空間、獎勵函數(shù)等都是針對相應(yīng)的駕駛場景專門設(shè)計的,難以推廣到其他駕駛場景中使用。于是,研究人員又提出了將帶有不確定因素的駕駛場景建模為一個連續(xù)空間的POMDP模型,并采用連續(xù)狀態(tài)分層貝葉斯模型結(jié)合值迭代算法來求解最優(yōu)策略[33]。這個方法的好處在于它不僅能夠針對當(dāng)前的駕駛?cè)蝿?wù)做出安全可靠魯棒性強(qiáng)的決策,還能夠針對不同的駕駛場景自動進(jìn)行優(yōu)化而無需重新設(shè)計POMDP模型中的狀態(tài)量或其他參數(shù)。
另一類重要的不確定因素是其他交通參與者的意圖。自動駕駛車輛往往要與其他交通參與者共同在道路上行駛,不同的交通參與者的意圖不同。通過感知其他交通參與者當(dāng)前的意圖以及在該意圖下有可能的產(chǎn)生的運(yùn)動能夠提高行車安全。但是,由于人類行為的多樣性和微妙性以及沒有測量人類意圖的傳感器,得到其他交通參與者的意圖往往比較困難。文獻(xiàn)[34]提出了一種假設(shè)有限個未知意圖集合來構(gòu)造實(shí)際模型的方法。該方法首先為集合中的每個意圖構(gòu)造一個運(yùn)動模型;然后將這些模型與其他環(huán)境信息一起組合成一個混合可觀測馬爾科夫決策過程(POMDP的一種結(jié)構(gòu)化變體);最終采用相應(yīng)的強(qiáng)化學(xué)習(xí)算法為模型求解最優(yōu)策略。仿真實(shí)驗(yàn)結(jié)果表明,該方法具有較強(qiáng)的識別意圖和有效利用環(huán)境信息進(jìn)行決策的能力。文獻(xiàn)[35]提出將其他交通參與者的意圖建模為子目標(biāo)位置,將其運(yùn)動模型建模為以意圖為條件的隱變量,然后使用一個兩層的規(guī)劃算法來計算駕駛策略。其中,高層使用Hybird A*算法來規(guī)劃出一條穿越其他交通參與者的無碰路徑。底層利用POMDP模型來計算車輛沿該路徑行駛時的速度。雖然將意圖建模為子目標(biāo)的方法在復(fù)雜應(yīng)用中取得了成功,但是在一定程度上受到了特定環(huán)境的限制,缺乏通用性。文獻(xiàn)[36]則提出了一種融合道路環(huán)境與車輛運(yùn)動意圖的道路態(tài)勢模型。其中,車輛的運(yùn)動意圖是通過車輛的反應(yīng)推斷出來的,即觀察到的車輛狀態(tài)與道路環(huán)境代表的參考車輛狀態(tài)的偏差。這種意圖模型具有更強(qiáng)的通用性。然后,將道路態(tài)勢模型融入POMDP模型中,通過DESPOT算法在線求解最優(yōu)策略。文獻(xiàn)[37]將其他交通參與者的意圖建模為一個隱馬爾可夫模型,它能夠輸出其他交通參與者的橫向意圖(左轉(zhuǎn)、右轉(zhuǎn)、直行)與縱向意圖(屈服程度)。然后使用POMDP模型來對相應(yīng)的駕駛環(huán)境進(jìn)行建模并求解最優(yōu)策略。該研究在一個交叉口的場景下對環(huán)境的有效性進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果證明該方法能夠幫助自動駕駛車輛安全高效地通過交叉口。
由上文的總結(jié)與分析可知,基于POMDP的決策模型能夠極大地提升自動駕駛車輛在具有不確定因素的環(huán)境中行車的安全性。但是這種方法也存在計算復(fù)雜度高的缺點(diǎn),難以在復(fù)雜空間場景中應(yīng)用。因此開發(fā)一種高效且具有低復(fù)雜度的策略求解方法是未來研究的重中之重。另外,開發(fā)出更加精確的意圖感知模型也是非常有意義的。
本文總結(jié)了基于強(qiáng)化學(xué)習(xí)的無人駕駛車輛行為決策算法的相關(guān)研究進(jìn)展,從提高決策精度、提高決策廣度以及應(yīng)對不確定因素這3個方向進(jìn)行系統(tǒng)性的描述??梢钥闯?,基于深度強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)、POMDP的決策模型已經(jīng)在相應(yīng)的方向上取得了突破性的進(jìn)展,但是依舊面臨著許多問題:深度強(qiáng)化學(xué)習(xí)可以提高決策模型的精度但同時也增加了模型的訓(xùn)練復(fù)雜度,導(dǎo)致模型難以收斂;分層強(qiáng)化學(xué)習(xí)提升了決策模型處理復(fù)雜任務(wù)的能力,但是任務(wù)分解卻費(fèi)時費(fèi)力。POMDP模型的求解復(fù)雜度太高也限制著它在復(fù)雜場景中的進(jìn)一步應(yīng)用。
根據(jù)上述問題,基于強(qiáng)化學(xué)習(xí)的行為決策方法未來的研究重點(diǎn)集中為以下3個方面:(1)通過駕駛員數(shù)據(jù)預(yù)訓(xùn)練或改進(jìn)經(jīng)驗(yàn)回放機(jī)制等方法提升深度強(qiáng)化學(xué)習(xí)的訓(xùn)練效率,加快模型收斂速度;(2)使用監(jiān)督學(xué)習(xí)幫助分層強(qiáng)化學(xué)習(xí)自主學(xué)習(xí)合理的任務(wù)分解方式,避免人工分解的麻煩;(3)在已有算法的基礎(chǔ)上繼續(xù)開發(fā)更加高效POMDP求解算法,降低計算復(fù)雜度。