林澤陽,賴 俊,陳希亮
(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)分支之一,在人工智能領(lǐng)域具有重要地位[1]:智能體在環(huán)境中通過“交互-試錯”獲取正/負(fù)獎勵值,調(diào)整自身的動作策略,從而生成總獎勵值最大的動作策略模型[2]。
傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在有限狀態(tài)空間和動作空間的任務(wù)中能夠取得較好的收斂效果[3],但復(fù)雜空間狀態(tài)任務(wù)往往具有很大的狀態(tài)空間和連續(xù)的動作空間,尤其當(dāng)輸入數(shù)據(jù)為圖像和聲音時,傳統(tǒng)強(qiáng)化學(xué)習(xí)很難處理,會出現(xiàn)維度爆炸問題[4-5]。解決上述問題的一個方法,就是將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)結(jié)合,用多層神經(jīng)網(wǎng)絡(luò)來顯式表示強(qiáng)化學(xué)習(xí)中的值函數(shù)和策略函數(shù)[6]。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合[7],近年來在人工智能領(lǐng)域迅猛發(fā)展,例如Atari游戲[8-9]、復(fù)雜機(jī)器人動作控制[10-11],以及圍棋AlphaGo智能的應(yīng)用[12]等,2015年機(jī)器學(xué)習(xí)領(lǐng)域著名專家Hinton、Bengio、Lecun在《Nature》上發(fā)表的深度學(xué)習(xí)綜述一文將深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的重要發(fā)展方向[13]。
盡管在過去三十年間取得很大進(jìn)步,但由于標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)智能體的初始設(shè)定都是隨機(jī)策略,在簡單環(huán)境中通過隨機(jī)探索和試錯,能夠達(dá)成較好的訓(xùn)練效果[14]。但在復(fù)雜環(huán)境中由于狀態(tài)空間的復(fù)雜性、獎勵信號的稀疏性,強(qiáng)化學(xué)習(xí)從環(huán)境中獲取樣本的成本不斷提高,學(xué)習(xí)時間過長,從而影響了智能體的有效探索[15]。
解決上述問題的一個有效途徑,就是將課程學(xué)習(xí)(Curriculum Learning,CL)和深度強(qiáng)化學(xué)習(xí)相結(jié)合[16]。2009年,以機(jī)器學(xué)習(xí)領(lǐng)軍人物Bengio為首的科研團(tuán)隊(duì)在國際頂級機(jī)器學(xué)習(xí)會議ICML上首次提出課程學(xué)習(xí)的概念[17],引起機(jī)器學(xué)習(xí)領(lǐng)域的巨大轟動。課程學(xué)習(xí)借鑒人類從簡單到復(fù)雜的學(xué)習(xí)思想,首先在任務(wù)集中篩選出部分簡單任務(wù)進(jìn)行學(xué)習(xí)以產(chǎn)生訓(xùn)練課程,而后在剩余的復(fù)雜任務(wù)中利用訓(xùn)練課程進(jìn)行學(xué)習(xí),最后在整個訓(xùn)練集中進(jìn)行訓(xùn)練。將課程學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合,可以有以下兩個方面的作用[18]:(1)可以加快訓(xùn)練模型的收斂速度,避免訓(xùn)練初期對于復(fù)雜任務(wù)投入過多訓(xùn)練時間;(2)提高模型的泛化能力,增強(qiáng)對復(fù)雜任務(wù)的學(xué)習(xí)能力。
該文首先對課程學(xué)習(xí)進(jìn)行簡要描述,從四個角度對深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類整理,之后對近三年的基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)新算法進(jìn)行了總結(jié)分析,最后討論了基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的發(fā)展前景和挑戰(zhàn)。
課程學(xué)習(xí)的目標(biāo)是自動設(shè)計(jì)和選擇完整序列的任務(wù)(即課程)M1,M2,…,Mt對智能體進(jìn)行訓(xùn)練,從而提高對目標(biāo)任務(wù)的學(xué)習(xí)速度或性能[19],課程學(xué)習(xí)流程如圖1所示。
課程馬爾可夫決策過程(Curriculum Markov Decision Process,CMDP)[20]是一個6元組(S,A,p,r,Δs0,Sf),其中S是狀態(tài)空間集,A是動作空間集,p(s'|s,a)代表智能體在狀態(tài)s時采取動作a后轉(zhuǎn)移到狀態(tài)s'的概率,r(s,a,s')代表在狀態(tài)s采取動作a到達(dá)狀態(tài)s'所獲得的即時獎勵,Δs0代表初始狀態(tài)分布,Sf代表最終狀態(tài)集。
常見的課程創(chuàng)建方法有以下兩種[21]:(1)在線創(chuàng)建課程,根據(jù)智能體對給定頂點(diǎn)樣本的學(xué)習(xí)進(jìn)度動態(tài)添加邊;(2)離線創(chuàng)建課程,在訓(xùn)練前生成圖,并根據(jù)與不同頂點(diǎn)相關(guān)聯(lián)的樣本的屬性選擇邊。課程設(shè)計(jì)流程如圖2所示。
課程學(xué)習(xí)方法可認(rèn)為包括三部分[22]:任務(wù)生成、排序和遷移學(xué)習(xí)。任務(wù)生成是創(chuàng)建一組好的中間任務(wù)的過程,從中獲取經(jīng)驗(yàn)樣本。排序研究了如何在一組經(jīng)驗(yàn)樣本上創(chuàng)建部分排序D,也就是說,如何生成課程圖的邊。遷移學(xué)習(xí)主要研究如何將知識從一個或多個源任務(wù)直接轉(zhuǎn)移到目標(biāo)任務(wù)。為了評價源任務(wù)遷移到目標(biāo)任務(wù)的性能優(yōu)劣[23-24],有以下指標(biāo)可以量化。(1)學(xué)習(xí)速度提升。即智能體在遷移知識的前提下能夠以多快的速度學(xué)習(xí)到最優(yōu)策略,從而在目標(biāo)任務(wù)上實(shí)現(xiàn)預(yù)期的性能值GO≥δ,其中δ是總?cè)蝿?wù)期望的性能閾值。(2)初始性能提升。通過從源任務(wù)進(jìn)行遷移,觀察智能體在學(xué)習(xí)過程中對目標(biāo)任務(wù)的初始性能提升來衡量遷移效果。(3)漸近性能提升。通過比較智能體在使用遷移與不使用遷移時目標(biāo)任務(wù)收斂后的最終性能來衡量遷移效果。
對于強(qiáng)化學(xué)習(xí)智能體來說,自主學(xué)習(xí)一項(xiàng)復(fù)雜任務(wù)需要很長的時間。在深度強(qiáng)化學(xué)習(xí)中應(yīng)用課程學(xué)習(xí),可以通過利用一個或多個源任務(wù)的知識來加速或改善復(fù)雜目標(biāo)任務(wù)的學(xué)習(xí)[25]。
Felipe等人提出了新方法[26]:(1)將目標(biāo)任務(wù)劃分為簡單任務(wù);(2)在盡量小的專家經(jīng)驗(yàn)支持下,根據(jù)面向?qū)ο蟮娜蝿?wù)描述自動生成課程;(3)使用生成的課程來跨任務(wù)重用知識。實(shí)驗(yàn)表明在人工指定和生成子任務(wù)方面都取得了更好的性能。
為了提高多智能體的學(xué)習(xí)性能,Jayesh等人應(yīng)用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)完成協(xié)同控制任務(wù)[27],包括離散和連續(xù)動作任務(wù),Daphna等人提出了推斷課程(Inference Curriculum,IC)的方法[28],從另一個網(wǎng)絡(luò)遷移學(xué)習(xí)的方式,接受不同任務(wù)的訓(xùn)練。為了解決從稀疏和延遲獎勵中學(xué)習(xí)的局限性問題,Atsushi提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)(Progressive Neural Network,PNN)的課程學(xué)習(xí)方法[29],帶參數(shù)的模塊被附加上預(yù)先確定的參數(shù),該策略比單組參數(shù)的效果更好。
傳統(tǒng)課程學(xué)習(xí)對于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯,但在大規(guī)模多智能體環(huán)境中,由于環(huán)境和智能體之間的復(fù)雜動態(tài)以及狀態(tài)-動作空間的維度爆炸,這仍然具有挑戰(zhàn)性,所以如何更好地學(xué)習(xí)和產(chǎn)生更有效的任務(wù)課程是課程學(xué)習(xí)的研究重點(diǎn)。
王維塤等人設(shè)計(jì)了一種新的動態(tài)多智能體課程學(xué)習(xí)(Dynamic Multi-agent Curriculum Learning,DyMA-CL)來解決大規(guī)模智能體學(xué)習(xí)的問題[30],從一個小規(guī)模的多智能體場景開始學(xué)習(xí),逐步增加智能體的數(shù)量。網(wǎng)絡(luò)設(shè)計(jì)里有三種遷移機(jī)制:緩存復(fù)用(Buffer Reuse,BR)、基于KL散度的課程蒸餾(Curriculum Distillation,CD)和模型重載(Model Reload,MR)。
DyAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由于不同課程間智能體數(shù)量以及觀測維度變化,緩存復(fù)用和基于KL散度的課程蒸餾機(jī)制不能直接用于DyMA-CL框架中,王維塤等人提供了一個語義映射函數(shù)φ(·),將語義信息從每個智能體的觀察值中抽取出來,從而找出不同狀態(tài)空間之間的映射關(guān)系。
傳統(tǒng)的課程學(xué)習(xí)主要是針對單一類型智能體和固定的動作空間進(jìn)行設(shè)計(jì),Wu等人引入主從智能體的概念[31],采用異步策略共享感知網(wǎng)絡(luò),在不同的動作空間內(nèi)同時訓(xùn)練多個智能體。
主從智能體以異步方式同時學(xué)習(xí)相應(yīng)的控制策略,以不同的頻率運(yùn)行,其中主智能體占用一半的線程,從智能體共享其余的一半線程。
不同的多智能體合作控制問題需要智能體在實(shí)現(xiàn)各自目標(biāo)的同時為全局目標(biāo)的成功做出貢獻(xiàn)。這種多目標(biāo)多智能體的設(shè)置給目前針對單一的全局獎勵設(shè)置的算法帶來兩個問題[32]:(1)需要高效的學(xué)習(xí)探索,既要實(shí)現(xiàn)智能體的個體目標(biāo),又要為其他智能體的成功而進(jìn)行合作;(2)不同智能體的行動和目標(biāo)之間相互作用的信度分配。
為解決這兩個問題,Yang等人推導(dǎo)出一種基于多目標(biāo)多智能體的梯度策略算法[33],并采用信度分配函數(shù)進(jìn)行局部信度分配,使用一個增強(qiáng)函數(shù)來連接價值函數(shù)和策略函數(shù)。多目標(biāo)多智能體的梯度策略如圖4所示。
階段1:作者在N=1和隨機(jī)目標(biāo)采樣的誘導(dǎo)式MDP中訓(xùn)練了一個演員π1(a|o,g)和一個評論家Q1(s1,a,g),與完整的多智能體環(huán)境相比,這種方法使用的樣本數(shù)量要少得多。
L(θQC)=
(1)
?θJ(π)=
在多智能體游戲中,隨著智能體數(shù)量的增加,環(huán)境的復(fù)雜性會呈指數(shù)級增長,所以在大規(guī)模智能體的前提下學(xué)習(xí)好的策略尤其具有挑戰(zhàn)性。為解決這一挑戰(zhàn),Long等人引入了進(jìn)化種群課程(Evolutionary Population Curriculum,EPC)[34],使用種群進(jìn)化的方法來解決整個課程中的一個客觀錯位問題[35]:早期訓(xùn)練的規(guī)模較小智能體模型,未必是應(yīng)用到后期大規(guī)模智能體訓(xùn)練的最佳模型。Long等人在訓(xùn)練的各個階段維護(hù)多個智能體集,對各個智能體集進(jìn)行混合匹配和微調(diào),篩選出最佳適應(yīng)性的智能體集進(jìn)入下個階段。種群不變Q函數(shù)如圖5所示。
如圖5所示,左半部分中,作者利用注意力機(jī)制組合來自不同觀察動作編碼器fi的嵌入,右半部分是fi的詳細(xì)說明,作者還利用注意力模塊將M個不同的實(shí)體組合到一個觀察值中。
在強(qiáng)化學(xué)習(xí)中,以往的任務(wù)排序方法都以減少模型訓(xùn)練時間并達(dá)到給定性能水平為目標(biāo)進(jìn)行探索。Francesco等人定義了一個通用的任務(wù)排序優(yōu)化框架[36],并評估了常用的元啟發(fā)式搜索方法在多個任務(wù)上的性能。
給定一個評估指標(biāo)P:C≤L×M→,它為一個特定的最終任務(wù)評估課程,考慮找到一個最優(yōu)課程C的問題,如下:
P(c*,mf)≥P(c,mf)?c∈C≤L
(3)
與其他自監(jiān)督的強(qiáng)化學(xué)習(xí)方法(如內(nèi)在驅(qū)動方法)相比,多智能體的競爭可能會隨著環(huán)境復(fù)雜性的提高而更加激烈,并導(dǎo)致智能體產(chǎn)生類似于人類技能的行為[37]。Bowen等人提出一種以遷移和微調(diào)作為定量評估目標(biāo)能力的方法[38],并且在一組特定領(lǐng)域的智力測驗(yàn)中將捉迷藏智能體和內(nèi)在驅(qū)動與隨機(jī)初始化基準(zhǔn)值進(jìn)行了比較。
在復(fù)雜的任務(wù)中,比如那些組合行動空間大的任務(wù),隨機(jī)探索的效率太低,當(dāng)前的學(xué)習(xí)進(jìn)展比較緩慢。Gregory等人使用一個漸進(jìn)增長的動作空間的課程來加速學(xué)習(xí)[39],智能體可以通過最初限制其動作空間來設(shè)置內(nèi)部課程。Gregory的方法使用非策略強(qiáng)化學(xué)習(xí)來同時估計(jì)多個動作空間的最優(yōu)值函數(shù),并有效地將數(shù)據(jù)、值函數(shù)估計(jì)和狀態(tài)表示從受限的動作空間遷移到完整的任務(wù)。
(4)
因?yàn)槊總€動作空間都是較大動作空間的嚴(yán)格子集,因此在最壞的情況下,智能體總是可以退回到使用更受限制的動作空間的策略。
課程學(xué)習(xí)方法通常依靠啟發(fā)式方法來估計(jì)訓(xùn)練實(shí)例的難度和模型的學(xué)習(xí)能力[40]。John P等人提出了基于能力評估的課程學(xué)習(xí)動態(tài)數(shù)據(jù)選擇(Dynamic Data Selection for Curriculum Learning via Ability Estimation,DDaCLAE)策略[41],該策略在每個訓(xùn)練階段根據(jù)模型在該階段的能力評估動態(tài)選擇最佳訓(xùn)練實(shí)例。
算法 1:DDaCLAE
輸入:數(shù)據(jù)(X,Y),模型φ,難度D,num_epochs
輸出:訓(xùn)練好的模型φ
1: forein num_epochs do
5: train(φ,Xe,Ye)
6: end for
11:end procedure
DDaCLAE的訓(xùn)練過程見算法1,John P等人使用評分函數(shù)估計(jì)模型能力,使用完整的訓(xùn)練集而不是更新模型參數(shù)來獲取響應(yīng)數(shù)據(jù)。John P等人發(fā)現(xiàn),在GLUE分類任務(wù)上,使用學(xué)習(xí)困難參數(shù)的模型優(yōu)于基于啟發(fā)式的課程學(xué)習(xí)模型。
通過課程來訓(xùn)練智能體以提高智能體的性能和學(xué)習(xí)速度,Andrea等人提出了一種基于任務(wù)復(fù)雜度的自動課程生成方法[42],引入了不同的進(jìn)程函數(shù),包括基于智能體性能的自主在線任務(wù)進(jìn)程。與其他基于任務(wù)的課程學(xué)習(xí)方法不同,這種方法的進(jìn)階函數(shù)決定了智能體在每個中間任務(wù)上應(yīng)該訓(xùn)練多長時間。通過在網(wǎng)格世界[43]和復(fù)雜模擬導(dǎo)航領(lǐng)域[44]中與兩種最先進(jìn)的課程學(xué)習(xí)算法的性能進(jìn)行對比分析,證明了自動課程生成方法的優(yōu)點(diǎn)和廣泛的適用性。
傳統(tǒng)課程學(xué)習(xí)的數(shù)值方法只提供了最初的啟發(fā)式解決方案,幾乎不能保證它們的質(zhì)量。Francesco等人定義了一個新的灰盒函數(shù)[45],該函數(shù)包含一個合適的調(diào)度問題,可以有效地用來重構(gòu)課程學(xué)習(xí)問題。
通過引入灰盒函數(shù)ψ:n×n→R,可以用參數(shù)(u,p)來計(jì)算課程c,并返回遺憾值Pr(c)。利用灰盒函數(shù)ψ,問題可以重新表示為:
(5)
(7)
(8)
強(qiáng)化學(xué)習(xí)是處理序列決策任務(wù)的流行范式[46],盡管在過去的三十年中取得了許多進(jìn)步,但在許多領(lǐng)域的學(xué)習(xí)仍然需要與環(huán)境進(jìn)行大量的交互,導(dǎo)致模型的訓(xùn)練時間過長,收斂速度過慢。為了解決這個問題,課程學(xué)習(xí)被用于強(qiáng)化學(xué)習(xí),這樣在一個任務(wù)中獲得的經(jīng)驗(yàn)可以在開始學(xué)習(xí)下一個更難的任務(wù)時加以利用。然而,盡管課程學(xué)習(xí)理論、算法和應(yīng)用研究在國內(nèi)外已普遍開展,并且也已經(jīng)取得了較多的研究成果[47-48],但仍然有許多問題還亟待解決。
在算法和理論方面,傳統(tǒng)課程學(xué)習(xí)對于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯,但在大規(guī)模多智能體環(huán)境中,由于環(huán)境和智能體之間的復(fù)雜動態(tài)以及狀態(tài)-行動空間的爆炸,因此在實(shí)際問題的解決上進(jìn)展不大[49]。得益于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理能力,使用深度神經(jīng)網(wǎng)絡(luò)表示回報函數(shù),避免了特征提取工作,當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法在實(shí)驗(yàn)場景中應(yīng)用于StarCraft[50]、grid-world[51]、hide-and-seek[52]、Sokoban[53]等經(jīng)典強(qiáng)化學(xué)習(xí)問題的解決。隨著課程學(xué)習(xí)技術(shù)的發(fā)展,算法在智能決策[54]、困難編隊(duì)下的合作導(dǎo)航[55]、在SUMO交通模擬器中協(xié)商多車輛變道[56]以及在Checkers環(huán)境下的戰(zhàn)略合作[57]等領(lǐng)域也取得了一定的成功。
該綜述分四個角度對目前強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)方法進(jìn)行分類并介紹,希望能夠?yàn)橄嚓P(guān)研究人員提供一點(diǎn)幫助。為方便了解和對比,該文分析、對比了這幾類方法的優(yōu)缺點(diǎn),并歸納在表1中。
表1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法匯總
(1)基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)。解決大規(guī)模問題的方法是從小型多智能體場景開始學(xué)習(xí),逐步增加智能體的數(shù)量,最終學(xué)習(xí)目標(biāo)任務(wù)。使用多種傳輸機(jī)制以加速課程學(xué)習(xí)過程,課程設(shè)計(jì)是影響課程遷移成績的關(guān)鍵因素。如何選擇合適的課程(包括如何決定每個任務(wù)的訓(xùn)練步長,如何選擇合適的學(xué)習(xí)模型重新加載等)是至關(guān)重要的。如何自動生成多智能體課程可能是目前尚存在的主要局限性,這將在今后的工作中進(jìn)一步研究[58]。
(2)基于多智能體合作的課程學(xué)習(xí)。是根據(jù)全局目標(biāo)和個體目標(biāo)之間的關(guān)系進(jìn)行學(xué)習(xí)探索,使用信度分配[33]、種群進(jìn)化課程[34]、任務(wù)排序框架[36],通過函數(shù)增強(qiáng)方案來連接價值和策略函數(shù)的階段,在具有高維狀態(tài)空間的多目標(biāo)多智能體環(huán)境中執(zhí)行高挑戰(zhàn)性任務(wù)性能較好,缺點(diǎn)是沖突較為頻繁、更高的方差和無法維持合作解決方案[59],目前難以推廣到非齊次系統(tǒng)或沒有已知目標(biāo)分配的設(shè)置的工作。
(3)基于能力評估的課程學(xué)習(xí)。通過限制其最初行動空間來設(shè)置內(nèi)部課程,使用非策略強(qiáng)化學(xué)習(xí)同時估計(jì)多個行動空間的最優(yōu)值函數(shù),建立技能、表述和有意義的經(jīng)驗(yàn)數(shù)據(jù)集,從而避免從頭開始學(xué)習(xí),加快學(xué)習(xí)效率。缺點(diǎn)是集群對每個狀態(tài)都會改變[60],這可能會干擾泛化,因?yàn)闆]有一致的語義。
(4)基于功能函數(shù)的課程學(xué)習(xí)。通過設(shè)定級數(shù)函數(shù)和映射函數(shù)來為智能體量身定制在線課程,通過高斯過程定義智能體函數(shù),學(xué)習(xí)策略在單位之間共享,以鼓勵合作行為。使用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器來估計(jì)動作-價值函數(shù),并提出一個獎勵函數(shù)來幫助單位平衡它們的移動和攻擊。缺點(diǎn)是只提供最初的啟發(fā)式解決方案[61],而且質(zhì)量不能得到保證。
通過對最新課程學(xué)習(xí)算法理論的研究分析,本節(jié)對當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)存在的開放性問題和可能的研究方向進(jìn)行討論。
(1)自動創(chuàng)建任務(wù)課程。
任務(wù)創(chuàng)建是課程學(xué)習(xí)方法的重要組成部分,任務(wù)質(zhì)量會影響課程的生成質(zhì)量,任務(wù)數(shù)量會影響課程排序算法的搜索空間和效率?,F(xiàn)有課程學(xué)習(xí)中的任務(wù)大多由人工創(chuàng)建,減少任務(wù)創(chuàng)建過程中的人工輸入量是未來工作的重要發(fā)展方向[62]。
(2)遷移不同類型知識。
課程任務(wù)之間,知識必須從一個任務(wù)遷移到另一個任務(wù)。目前大部分研究中,知識遷移的類型是固定的。例如,Narvekar等人在任務(wù)之間遷移價值函數(shù)[63],而Svetlik等人遷移成型獎勵[64]。這種知識遷移類型的局限性在于,不同的任務(wù)對于知識類型的需求可能是不同的,因此可以從不同任務(wù)中分別提取知識進(jìn)行組合。例如,從一個任務(wù)中提取一個選項(xiàng),從另一個任務(wù)中提取模型,從而達(dá)成更好的學(xué)習(xí)效果。
(3)課程重用的成本分?jǐn)偂?/p>
當(dāng)前課程學(xué)習(xí)方法的另一個局限性是,生成課程的時間可能比直接學(xué)習(xí)目標(biāo)任務(wù)的時間更長。原因在于,課程通常是為每個智能體和目標(biāo)任務(wù)獨(dú)立學(xué)習(xí)的。因此,分?jǐn)偝杀镜囊环N方法是學(xué)習(xí)一門課程來訓(xùn)練多個不同的智能體[65],或解決多個不同的目標(biāo)任務(wù)。
該文對基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)進(jìn)行了回顧,由淺入深地對課程學(xué)習(xí)進(jìn)行了分析,介紹了課程學(xué)習(xí)的概念理論、經(jīng)典算法、研究進(jìn)展和發(fā)展展望等,從基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)、基于多智能體合作的課程學(xué)習(xí)、基于能力評估的課程學(xué)習(xí)、基于功能函數(shù)的課程學(xué)習(xí)四個角度對強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類梳理、對比分析,最后對基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的未來展望進(jìn)行簡要分析。
根據(jù)當(dāng)前深度強(qiáng)化學(xué)習(xí)中存在的狀態(tài)空間復(fù)雜、維數(shù)災(zāi)難、學(xué)習(xí)時間長等問題,課程學(xué)習(xí)會是未來的一個發(fā)展方向。課程學(xué)習(xí)算法可以將目標(biāo)任務(wù)分解成多個子任務(wù),結(jié)合大多數(shù)的強(qiáng)化學(xué)習(xí)算法,使用多種傳輸機(jī)制以加速強(qiáng)化學(xué)習(xí)進(jìn)程,大大提高了學(xué)習(xí)探索效率和通用性。最后,目前課程算法在大規(guī)模多智能體場景的研究進(jìn)展緩慢,其主要原因在于多智能體場景的復(fù)雜性。然而大規(guī)模多智能體場景更加貼近現(xiàn)實(shí),優(yōu)質(zhì)的課程學(xué)習(xí)算法能夠在很大程度上提高學(xué)習(xí)探索的效率。因此,相信課程學(xué)習(xí)算法會成為深度強(qiáng)化學(xué)習(xí)的熱門方向,加快深度強(qiáng)化學(xué)習(xí)的發(fā)展速度。