摘 要:傳統(tǒng)強(qiáng)化學(xué)習(xí)方法存在效率低下、泛化性能差、策略模型不可遷移的問(wèn)題。針對(duì)此問(wèn)題,提出了一種非均勻多任務(wù)強(qiáng)化學(xué)習(xí)方法,通過(guò)學(xué)習(xí)多個(gè)強(qiáng)化任務(wù)提升效率和泛化性能,將智能體形態(tài)構(gòu)建為圖,利用圖神經(jīng)網(wǎng)絡(luò)能處理任意連接和大小的圖來(lái)解決狀態(tài)和動(dòng)作空間維度不同的非均勻任務(wù),突破模型不可遷移的局限,充分發(fā)揮圖神經(jīng)網(wǎng)絡(luò)天然地利用圖結(jié)構(gòu)歸納偏差的優(yōu)點(diǎn),實(shí)現(xiàn)了模型高效訓(xùn)練和泛化性能提升,并可快速遷移到新任務(wù)。多任務(wù)學(xué)習(xí)實(shí)驗(yàn)結(jié)果表明,與以往方法相比,該方法在多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)實(shí)驗(yàn)中均表現(xiàn)出更好的性能,在遷移學(xué)習(xí)實(shí)驗(yàn)中展現(xiàn)出更準(zhǔn)確的知識(shí)遷移。通過(guò)引入圖結(jié)構(gòu)偏差,使該方法具備更高的效率和更好的遷移泛化性能。
關(guān)鍵詞:多任務(wù)強(qiáng)化學(xué)習(xí); 圖神經(jīng)網(wǎng)絡(luò); 變分圖自編碼器; 形態(tài)信息編碼; 遷移學(xué)習(xí)
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼: A文章編號(hào):1001-3695(2024)04-009-1022-07
doi:10.19734/j.issn.1001-3695.2023.07.0373
Method for inhomogeneous multi-task reinforcement learning based on morphological information encoding by graph embedding
He Xiao1,2,3, Wang Wenxue1,2
Abstract:Traditional reinforcement learning methods have problems of low efficiency,poor generalization performance,and untransferable policy models.In response to this issue,this paper proposed an inhomogeneous multitask reinforcement learning method,which improved efficiency and generalization performance by learning multiple reinforcement tasks.It constructed the morphology of agent into a graph,and the graph neural network could handle graphs with any connection pattern and size graph,which was really suitable to solve inhomogeneous tasks with different dimensions of state and action space.This breaks through the limitations that model couldn’t be transferred and fully utilizes the advantages of graph neural network’s natural use of graph structure to induce bias.The model had achieved efficient training and improved generalization performance,and could be quickly migrated to new tasks.The results of multi task learning experiments show that compared with previous methods,this method exhibits better performance in both multi task learning and transfer learning experiments,and exhibits more accurate knowledge transfer in transfer learning experiments.By introducing bias in the structure of the agent graph,this method has achieved higher efficiency and better migration generalization performance.
Key words:multi-task reinforcement learning; graph neural network; variational graph autoencoder; morphology information encoding; transfer learning
0 引言
近年來(lái),強(qiáng)化學(xué)習(xí)(RL)在眾多學(xué)習(xí)任務(wù)中取得了令人矚目的成績(jī),例如在棋盤游戲中打敗世界冠軍[1,2]、在電子游戲[3]任務(wù)中達(dá)到人類最高水平,以及成功用于機(jī)器人感覺(jué)運(yùn)動(dòng)控制[4]等。由于RL是一種智能體不斷與環(huán)境交互,從而獲得環(huán)境信息進(jìn)行學(xué)習(xí)的過(guò)程,所以目前的RL方法需要專門針對(duì)特定任務(wù)進(jìn)行策略定制,從頭開(kāi)始獲取數(shù)據(jù)并訓(xùn)練策略網(wǎng)絡(luò),需要大量的環(huán)境交互數(shù)據(jù),這對(duì)于很多學(xué)習(xí)任務(wù)來(lái)說(shuō)十分困難,例如機(jī)器人控制任務(wù),不僅數(shù)據(jù)獲取成本高,并且耗費(fèi)巨大的時(shí)間成本,效率低下。多任務(wù)學(xué)習(xí)可以從多個(gè)相關(guān)任務(wù)中聯(lián)合訓(xùn)練模型,利用任務(wù)之間的共性和差異來(lái)提高任務(wù)特定模型的學(xué)習(xí)效率和預(yù)測(cè)準(zhǔn)確性,將這種方法應(yīng)用到RL中,形成一種新的多任務(wù)強(qiáng)化學(xué)習(xí)(MTRL)[5]方法,可以有效解決上述問(wèn)題。然而用于多個(gè)任務(wù)的強(qiáng)化學(xué)習(xí)策略訓(xùn)練并不簡(jiǎn)單,比如為特定機(jī)器人設(shè)計(jì)的策略通常不能用于具有不同形態(tài)的其他機(jī)器人,這使得為機(jī)器人創(chuàng)建類似于圖像分類[6]或者自然語(yǔ)言[7,8]的通用、可預(yù)訓(xùn)練的模型變得十分困難,因此,目前的大多數(shù)MTRL方法主要是面向均勻(homogeneous)任務(wù),即假設(shè)狀態(tài)和動(dòng)作空間的維度在任務(wù)之間是相同的[9~13],并通過(guò)其自身獎(jiǎng)勵(lì)函數(shù)定義每個(gè)任務(wù),例如抓取杯子或者用機(jī)器人手臂移動(dòng)杯子等。然而,在機(jī)器人領(lǐng)域,經(jīng)常面臨非均勻(inhomogeneous)任務(wù)[14]環(huán)境,即任務(wù)之間具有不同的狀態(tài)和動(dòng)作空間維度,這無(wú)法通過(guò)常見(jiàn)的MTRL方法解決。
圖神經(jīng)網(wǎng)絡(luò)(GNN)[15~17]可以有效解決上述問(wèn)題,機(jī)器人智能體通常具有離散的圖結(jié)構(gòu),因此可以將智能體構(gòu)造為圖進(jìn)行處理,其中肢體和關(guān)節(jié)表示為節(jié)點(diǎn)和邊。GNN是一種運(yùn)行在圖上的神經(jīng)網(wǎng)絡(luò),其中一個(gè)重要特征是它可以處理任意連接和大小的圖。不僅如此,通過(guò)GNN可以獲取單個(gè)策略模型以控制具有不同狀態(tài)和動(dòng)作空間維度的任務(wù)中的智能體,并且GNN可以使模型在狀態(tài)特征如何相關(guān)的結(jié)構(gòu)信息下訓(xùn)練,例如智能體肢體之間是如何相連的,因此,GNN天然地利用了圖結(jié)構(gòu)產(chǎn)生的歸納偏差,原則上非常適用于不均勻的任務(wù)環(huán)境。
最近,GNN已被應(yīng)用于連續(xù)控制環(huán)境中的非均勻RL任務(wù)中。Wang等人[14]提出一種利用GNN顯示建模智能體形態(tài)的非均勻MTRL結(jié)構(gòu)化策略NerveNet,通過(guò)message passing(MP)在智能體圖中相鄰的節(jié)點(diǎn)之間傳遞信息,智能體每個(gè)肢體接收來(lái)自圖結(jié)構(gòu)中相鄰節(jié)點(diǎn)的信息并作出決策,并向相鄰節(jié)點(diǎn)發(fā)出信息,在對(duì)多個(gè)形態(tài)不同的機(jī)器人的非均勻任務(wù)環(huán)境中取得了較好的強(qiáng)化學(xué)習(xí)控制效果。Huang等人[18]在此基礎(chǔ)上提出了一種共享模塊化策略(SMP),將此全局策略表示為一組相同的模塊化神經(jīng)網(wǎng)絡(luò)。在這種模塊化策略設(shè)置中,首先利用SMP通過(guò)bottom-up方式從智能體圖最外層節(jié)點(diǎn)向上傳遞信息,然后利用SMP通過(guò)top-down方式從中心節(jié)點(diǎn)向相鄰節(jié)點(diǎn)傳遞信息并作出決策,依次逐層執(zhí)行。Kurin等人[19]指出上述GNN方法中的MP方案會(huì)出現(xiàn)過(guò)平滑問(wèn)題,會(huì)導(dǎo)致多跳通信過(guò)程中的關(guān)鍵信息被清洗掉,利用形態(tài)學(xué)信息的非均勻MTRL方法的優(yōu)勢(shì)也被掩蓋,并且在自然語(yǔ)言處理中,Transformer被證明在沒(méi)有明顯結(jié)構(gòu)偏差的情況下表現(xiàn)更好,甚至可以從數(shù)據(jù)中學(xué)習(xí)這種結(jié)構(gòu)[20~23],因此提出了一種基于Transformer模型的模塊化MTRL方法AMORPHEUS。AMORPHEUS忽略了智能體形態(tài)結(jié)構(gòu),而是使用注意力機(jī)制,可以視為是具有注意力聚集的完全連接的GNN[17],允許節(jié)點(diǎn)之間直接通信,而不是使用形態(tài)信息定義MP方案的GNN,不需要學(xué)習(xí)多跳通信,在非均勻任務(wù)環(huán)境中取得了更好的強(qiáng)化學(xué)習(xí)控制效果。
雖然AMORPHEUS在忽略形態(tài)的條件下相比基于MP的GNN取得了更好的效果,但已有研究表明,在注意力機(jī)制中引入結(jié)構(gòu)歸納偏差可以顯著提升性能[24],在相同的上下文中,相鄰節(jié)點(diǎn)的狀態(tài)可能比非相鄰節(jié)點(diǎn)的狀態(tài)更加重要。因此,本文提出引入形態(tài)信息的方法——AMORPHEUS-VGAE,該方法在AMORPHEUS的基礎(chǔ)上,通過(guò)添加智能體形態(tài)信息來(lái)引入結(jié)構(gòu)歸納偏差。在智能體圖中,形態(tài)信息全部包含在鄰接矩陣內(nèi),因此AMORPHEUS-VGAE利用圖變分自編碼器(VGAE)[25]進(jìn)行圖嵌入來(lái)編碼智能體圖中的形態(tài)信息,然后將形態(tài)信息編碼添加到Transformer模型中,從而引入結(jié)構(gòu)歸納偏差。這樣不僅允許節(jié)點(diǎn)之間直接通信,同時(shí)還考慮了機(jī)器人形態(tài)信息。通過(guò)仿真實(shí)驗(yàn),驗(yàn)證了AMORPHEUS-VGAE在非均勻MTRL實(shí)驗(yàn)中的性能優(yōu)于AMORPHEUS。并對(duì)比了兩種方法在遷移學(xué)習(xí)中的性能,實(shí)驗(yàn)結(jié)果表明,AMORPHEUS-VFAE的遷移泛化性能同樣優(yōu)于AMORPHEUS。這表明在機(jī)器人MTRL中,形態(tài)信息至關(guān)重要。
1 方法
本文非均勻MTRL方法總體框架如圖1所示。首先,在非均勻MTRL環(huán)境中的每個(gè)機(jī)器人以形態(tài)結(jié)構(gòu)為依據(jù)構(gòu)建圖,得到多個(gè)不同大小和連接的圖,通過(guò)鄰接矩陣表達(dá)圖結(jié)構(gòu),以圖數(shù)據(jù)方式存儲(chǔ)和處理各肢體節(jié)點(diǎn)特征,在不同圖中共享策略。如圖1所示,共享策略首先利用線性神經(jīng)網(wǎng)絡(luò)對(duì)智能體節(jié)點(diǎn)狀態(tài)進(jìn)行特征提取,得到狀態(tài)嵌入,然后利用變分圖自編碼提取智能體形態(tài)特征,獲取形態(tài)嵌入,接下來(lái)將狀態(tài)嵌入與形態(tài)嵌入進(jìn)行疊加送入Transformer模型,利用Transformer中的encoder實(shí)現(xiàn)節(jié)點(diǎn)之間的直接通信,注意力機(jī)制可實(shí)現(xiàn)不同節(jié)點(diǎn)信息傳遞強(qiáng)弱的動(dòng)態(tài)調(diào)節(jié),最后利用線性神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)智能體動(dòng)作解碼,最終實(shí)現(xiàn)智能體狀態(tài)到動(dòng)作的映射。
1.1 智能體圖構(gòu)建
如圖2(a)所示,圖由頂點(diǎn)和連接頂點(diǎn)的邊構(gòu)成,表示為頂點(diǎn)和邊的集合,記為G=(V,E)。其中,V是頂點(diǎn)集合,E是邊集合,一條連接頂點(diǎn)vi,vj∈V的邊記為eij。如果存在一條邊連接頂點(diǎn)vi和vj,則稱vj是vi的鄰居,記vi的所有鄰居為集合N(vi),即智能體圖的度矩陣 D 是一個(gè)對(duì)角陣,對(duì)角線上的元素是對(duì)應(yīng)頂點(diǎn)的度。
1.2 變分圖自編碼器
自編碼器[25]是一種表示學(xué)習(xí)模型,它以輸入數(shù)據(jù)作為參考,而不是利用標(biāo)簽信息進(jìn)行監(jiān)督,因此是一種無(wú)監(jiān)督學(xué)習(xí)模型,可用于數(shù)據(jù)降維和特征提取。其原理為:將輸入映射到某個(gè)特征空間,再?gòu)奶卣骺臻g映射回輸入空間進(jìn)行重構(gòu)。圖自編碼器(GAE)是一個(gè)簡(jiǎn)單的兩層圖卷積神經(jīng)網(wǎng)絡(luò)(GCN),包含編碼器和解碼器。GCN是一種運(yùn)行在圖上的神經(jīng)網(wǎng)絡(luò),并且始終保持圖結(jié)構(gòu)不變。
變分圖自編碼器(VGAE)中,節(jié)點(diǎn)嵌入向量 Z 從一個(gè)多維高斯分布中采樣得到。高斯分布的均值和方差由兩個(gè)GCN確定,均值 μ =GCN μ(X,A ),方差logσ =GCN σ(X,A )。通過(guò)均值和方差可以唯一確定一個(gè)多維高斯分布,如圖3所示,然后從中進(jìn)行采樣得到節(jié)點(diǎn)的嵌入表示,嵌入向量的后驗(yàn)概率分布為
通過(guò)VGAE完成鄰接矩陣 A 重構(gòu)后,利用編碼器將輸入的圖編碼到一個(gè)隱藏變量,隱藏變量編碼了智能體形態(tài)信息,將其作為結(jié)構(gòu)歸納偏差添加到后續(xù)的策略模型中。
這種MP消息傳遞方式應(yīng)用在SMP[18]和NerveNet[14]中,該方式會(huì)導(dǎo)致多跳通信過(guò)程中的關(guān)鍵信息被清洗掉,AMORPHEUS[19]利用Transformer模型將智能體圖當(dāng)成全連接圖,利用自注意力機(jī)制允許節(jié)點(diǎn)之間進(jìn)行直接通信,比SMP和NerveNet取得了更好的非均勻MTRL效果。AMORPHEUS-VGAE在利用自注意力機(jī)制實(shí)現(xiàn)節(jié)點(diǎn)間直接通信的基礎(chǔ)上,引入形態(tài)信息編碼,該策略模型總體如圖4所示。利用線性神經(jīng)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)狀態(tài)特征提取,同時(shí)利用VGAE提取形態(tài)信息,將形態(tài)信息和節(jié)點(diǎn)特征混合,然后添加到Transformer模型中實(shí)現(xiàn)節(jié)點(diǎn)間的直接信息傳遞,輸出動(dòng)作編碼,最后利用線性神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作解碼。
肢體嵌入向量 ψ 編碼了智能體形態(tài)信息,將此嵌入向量添加到節(jié)點(diǎn)狀態(tài) υ ,引入結(jié)構(gòu)歸納偏差,從而得到包含形態(tài)信息編碼的節(jié)點(diǎn)特征:
1.5 雙延遲確定性策略梯度(TD3)算法
確定性策略梯度(DPG)算法[26]是一種actor-critic方法,該方法十分適用于連續(xù)控制任務(wù)[27]。TD3算法[28]結(jié)合了DDPG[29]和Double DQN[30],都可通過(guò)Deep Q-Learning方法[3]估計(jì)Q值尋找最優(yōu)策略。Q網(wǎng)絡(luò)目標(biāo)值為
因?yàn)闃颖敬嬖谠肼?,所以真?shí)情況中,有誤差的動(dòng)作價(jià)值估計(jì)的最大值通常比真實(shí)值大,訓(xùn)練過(guò)程中Q-Learning方法的自舉機(jī)制會(huì)不斷造成真實(shí)最優(yōu)價(jià)值函數(shù)Q的過(guò)高估計(jì)。DDPG算法通過(guò)對(duì)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)都設(shè)置目標(biāo)網(wǎng)絡(luò)(target network),可有效緩解過(guò)估問(wèn)題。
TD3算法采用與DDPG算法同樣的目標(biāo)網(wǎng)絡(luò)設(shè)置,并采用Double DQN方法學(xué)習(xí)兩個(gè)Q函數(shù),選取兩個(gè)Q函數(shù)得到的最小目標(biāo)Q值或者兩者平均值,作為最終目標(biāo)Q值,可進(jìn)一步緩解過(guò)估問(wèn)題,增加訓(xùn)練平穩(wěn)性。例如,選擇最小Q值作為最終目標(biāo)Q值:
通過(guò)策略梯度進(jìn)行梯度上升更新actor參數(shù),策略梯度為
TD3算法延遲策略函數(shù)優(yōu)化的更新速度,解耦策略函數(shù)和Q網(wǎng)絡(luò)兩者的更新,對(duì)目標(biāo)策略網(wǎng)絡(luò)進(jìn)行了平滑化,在仿真機(jī)器人環(huán)境中取得了更好的連續(xù)控制效果。
2 實(shí)驗(yàn)結(jié)果及分析
2.1 實(shí)驗(yàn)設(shè)置
本文設(shè)置域內(nèi)實(shí)驗(yàn)和跨域?qū)嶒?yàn)兩類。在域內(nèi)實(shí)驗(yàn)中,設(shè)置三類環(huán)境,即Walker+ +、Humanoid+ +以及Hopper+ +;在跨域?qū)嶒?yàn)中,本文設(shè)置了兩類環(huán)境,即Walker-Humanoid+ +、Walker-Humanoid-Hopper+ +。每一類實(shí)驗(yàn)環(huán)境中所包含的機(jī)器人類型如表1所示。
根據(jù)實(shí)驗(yàn)設(shè)置,使用MuJoCo搭建實(shí)驗(yàn)環(huán)境,包括機(jī)器人模型、機(jī)器人動(dòng)作-獎(jiǎng)勵(lì)的定義、控制器設(shè)計(jì),通過(guò)OpenAI Gym提供的強(qiáng)化學(xué)習(xí)接口實(shí)現(xiàn)虛擬環(huán)境的操作,控制機(jī)器人運(yùn)動(dòng),RL智能體通過(guò)控制器將相應(yīng)的action轉(zhuǎn)換為機(jī)器人的關(guān)節(jié)扭矩,從而實(shí)現(xiàn)對(duì)機(jī)器人的控制。MuJoCo則通過(guò)物理引擎等功能包將智能體和環(huán)境交互產(chǎn)生的環(huán)境狀態(tài)變化反饋給智能體。
智能體的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)包含3層注意力層2頭Transformer模型,隱藏層包含256個(gè)神經(jīng)元,使用ReLU作為激活函數(shù),采用層標(biāo)準(zhǔn)化(layer normalization, LN)的方法實(shí)現(xiàn)正則化,選擇Adam作為網(wǎng)絡(luò)優(yōu)化器。每次訓(xùn)練的batch size為100,獎(jiǎng)勵(lì)折扣因子γ=0.99。訓(xùn)練開(kāi)始的10 000個(gè)時(shí)間步內(nèi),智能體先隨機(jī)選擇動(dòng)作進(jìn)行探索,10 000步之后,通過(guò)策略網(wǎng)絡(luò)選擇動(dòng)作,設(shè)置每一類實(shí)驗(yàn)中智能體訓(xùn)練總時(shí)間步長(zhǎng)為10E6。本研究使用CPU為i7-11700KF、GPU為3080Ti的Linux系統(tǒng)配置個(gè)人工作站運(yùn)行實(shí)驗(yàn)。在兩類實(shí)驗(yàn)中,將本文提出的利用形態(tài)學(xué)信息的方法AMORPHEUS-VGAE與AMORPHEUSS進(jìn)行比較。使用TD3算法來(lái)訓(xùn)練這兩類方法中的策略網(wǎng)絡(luò),并且訓(xùn)練時(shí)策略網(wǎng)絡(luò)在以上每一類實(shí)驗(yàn)環(huán)境包含的所有形態(tài)的機(jī)器人上進(jìn)行聯(lián)合訓(xùn)練,每一類實(shí)驗(yàn)設(shè)置3個(gè)隨機(jī)種子后取平均結(jié)果進(jìn)行比較。
2.2 非均勻MTRL實(shí)驗(yàn)結(jié)果
在每一類實(shí)驗(yàn)環(huán)境中,對(duì)于設(shè)置的3個(gè)隨機(jī)種子實(shí)驗(yàn),以最短數(shù)據(jù)長(zhǎng)度為基準(zhǔn)對(duì)所有實(shí)驗(yàn)中的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)截?cái)嗍箤?shí)驗(yàn)數(shù)據(jù)對(duì)齊,對(duì)3個(gè)隨機(jī)種子實(shí)驗(yàn)中實(shí)驗(yàn)步長(zhǎng)和預(yù)期獎(jiǎng)勵(lì)取平均結(jié)果,最終以6E6作為所有實(shí)驗(yàn)最終步長(zhǎng),并對(duì)比本文方法與AMORPHEUS以及SMP的實(shí)驗(yàn)結(jié)果,最終結(jié)果如圖5所示。SMP方法因?yàn)檫^(guò)平滑問(wèn)題在所有方法中表現(xiàn)出最差的多任務(wù)強(qiáng)化學(xué)習(xí)性能,AMORPHEUS方法忽略了形態(tài)信息,但是AMORPHEUS允許節(jié)點(diǎn)間直接通信,使得其展現(xiàn)出多任務(wù)強(qiáng)化學(xué)習(xí)效果。AMORPHEUS-VGAE方法不僅考慮了形態(tài)信息,也允許節(jié)點(diǎn)間的直接通信,使其在域內(nèi)實(shí)驗(yàn)和跨域?qū)嶒?yàn),都展現(xiàn)出了比AMORPHEUS和SMP方法更好的非均勻MTRL性能,尤其是在域內(nèi)實(shí)驗(yàn)Humanoid+ +實(shí)驗(yàn)中最為明顯,表現(xiàn)出最大的性能差距。這些結(jié)果表明在本文設(shè)置的實(shí)驗(yàn)中,隨著越來(lái)越多的機(jī)器人一起聯(lián)合訓(xùn)練,本文方法明顯優(yōu)于目前較為先進(jìn)的AMORPHEUS方法。推測(cè)本文方法有效的原因是,VGAE提取的形態(tài)結(jié)信息有利于本文模型在相似的部分形態(tài)之間轉(zhuǎn)移共性,同時(shí)區(qū)分不相關(guān)的形態(tài)。通過(guò)在所有環(huán)境中使用這些形態(tài)嵌入,本文模型可以比沒(méi)有形態(tài)結(jié)構(gòu)嵌入的模型獲得更高的最終回報(bào)。
以Walker+ +實(shí)驗(yàn)為例,分析所有方法在單一環(huán)境的性能,如圖6所示。SMP在單一環(huán)境中表現(xiàn)出最差的控制效果。比較AMORPHEUS-VGAE和AMORPHEUS在單一環(huán)境中的性能,結(jié)果表明AMORPHEUS方法對(duì)肢體較少的Walker型機(jī)器人控制效果較差,尤其是在只有兩個(gè)肢體的Walker-2型機(jī)器人環(huán)境中得到的預(yù)期回報(bào)非常低,而AMORPHEUS-VGAE則有更好的效果,推測(cè)其原因是形態(tài)結(jié)構(gòu)信息的加入使得模型在智能體相似的部分形態(tài)之間更好地轉(zhuǎn)移共性,從而幫助形態(tài)相對(duì)不完整的智能體進(jìn)行學(xué)習(xí)。隨著肢體數(shù)量的增加,機(jī)器人形態(tài)逐漸變得復(fù)雜,AMOPHEUS與AMORPHEUS-VGAE之間對(duì)單一環(huán)境機(jī)器人控制性能差距逐漸減??;而在Hopper+ +實(shí)驗(yàn)環(huán)境中,隨著機(jī)器人肢體數(shù)量增加,AMORPHEUS-VGAE對(duì)單一環(huán)境機(jī)器人控制性能與AMORPHEUS之間的差距逐漸增大;在Humanoids+ +實(shí)驗(yàn)環(huán)境中,AMORPHEUS-VGAE與AMORPHEUS性能保持較大的差距,并且這種差距保持在相對(duì)穩(wěn)定的范圍;在WH+ +實(shí)驗(yàn)環(huán)境中,AMORPHEUS-VGAE在大部分單一環(huán)境中有微弱優(yōu)勢(shì),在少數(shù)機(jī)器人中性能不如AMORPHEUS;在WHH+ +實(shí)驗(yàn)環(huán)境中,AMORPHEUS-VGAE和AMORPHEUS在不同形態(tài)機(jī)器人中各有優(yōu)劣,但是AMORPHEUS-VGAE方法在有優(yōu)勢(shì)的機(jī)器人控制中體現(xiàn)出更大優(yōu)勢(shì)。
以最終訓(xùn)練步長(zhǎng)6E6為基準(zhǔn),分析各算法在不同實(shí)驗(yàn)環(huán)境中的計(jì)算效率,強(qiáng)化學(xué)習(xí)算法的計(jì)算效率體現(xiàn)在時(shí)間步長(zhǎng)和樣本數(shù)量上,學(xué)習(xí)所需的時(shí)間步長(zhǎng)或樣本越少,算法的效率越高。如表2所示,根據(jù)訓(xùn)練樣本數(shù)量可以看出,SMP需要最多的訓(xùn)練樣本,但是根據(jù)多任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果,SMP方法的最終回報(bào)最低,因此SMP的樣本效率最低,AMORPHEUS-VGAE在除了Humanoid+ +的其他所有實(shí)驗(yàn)環(huán)境中使用的訓(xùn)練樣本數(shù)量最少,并且根據(jù)多任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)構(gòu),其可以在6E6個(gè)訓(xùn)練時(shí)間步長(zhǎng)內(nèi)實(shí)現(xiàn)最高的最終回報(bào),具有更高的樣本效率。另外根據(jù)非均勻多任務(wù)強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果可以看出,在取得相同回報(bào)的條件下,AMORPHEUS-VGAE所需的時(shí)間步長(zhǎng)最少,以Walker+ +為例,若設(shè)定最終各算法的最終獎(jiǎng)勵(lì)目標(biāo)為4 000,AMORPHEUS-VGAE只需要2.5E6個(gè)時(shí)間步長(zhǎng)就能達(dá)到目標(biāo),而AMORPHEUS和SMP分別需要3E6和6E6多個(gè)時(shí)間步長(zhǎng)才能達(dá)到設(shè)定目標(biāo)。綜上所述,AMORPHEUS-VGAE算法能夠在更少的時(shí)間步長(zhǎng)以及更少的訓(xùn)練樣本的情況下,實(shí)現(xiàn)更高的回報(bào),表明AMORPHEUS-VGAE算法的效率要高于AMORPHEUS以及SMP。
2.3 注意力分析
本文提出的RL策略模型基于3層注意力的Transformer模型,對(duì)RL策略中的注意力進(jìn)行分析。圖7(a)顯示了Walker+ +實(shí)驗(yàn)中的策略模型在 Walker-7機(jī)器人單個(gè)控制軌跡中展示的不同注意力模式,表明了AMORPHEUS-VGAE可以根據(jù)輸入處理狀態(tài)空間的不同部分。同時(shí)分析了該模型在單條控制軌跡中的注意力周期性循環(huán)模式,這種周期性循環(huán)出現(xiàn)在第一層注意力層。圖7(b)展示了在單次實(shí)驗(yàn)中Walker-7的下肢注意力權(quán)重的列和。列和直觀地顯示了其他節(jié)點(diǎn)對(duì)該列對(duì)應(yīng)節(jié)點(diǎn)感興趣的程度。結(jié)果表明,本文模型能夠自動(dòng)調(diào)整機(jī)器人肢體間的關(guān)聯(lián)性,使機(jī)器人能夠保持穩(wěn)定的周期性節(jié)律運(yùn)動(dòng)。
另外還研究了注意力權(quán)重是如何隨著時(shí)間的推移而演變的,如圖8所示。在訓(xùn)練早期,注意力權(quán)重均勻地分布在整個(gè)圖形中。隨著訓(xùn)練的不斷進(jìn)行,圖形的注意力權(quán)重分布變得不那么均勻。這表明隨著訓(xùn)練不斷進(jìn)行,本文模型有選擇性地在運(yùn)動(dòng)關(guān)聯(lián)性更高的肢體之間建立更強(qiáng)的直接通信,弱化運(yùn)動(dòng)關(guān)聯(lián)性不強(qiáng)的肢體之間的直接通信。
2.4 行為分析
分析聯(lián)合訓(xùn)練的智能體如何在單個(gè)環(huán)境發(fā)揮作用,可視化在WHH+ +中訓(xùn)練的智能體軌跡。圖9(a)比較了AMORPHEUS-VGAE和AMORPHEUS在具有最多肢體數(shù)量的9肢體Humanoid機(jī)器人單一環(huán)境中的平均性能,AMORPHEUS-VGAE的性能顯然比AMORPHEUS好。 除此之外,AMORPHEUS模型的MTRL產(chǎn)生了令人意外的效果,如圖9(b)所示,9肢體Humanoid智能體并沒(méi)有學(xué)會(huì)像人一樣走路,而是學(xué)習(xí)到像Hopper一樣跳躍向前的運(yùn)動(dòng)模式,說(shuō)明從Hopper型機(jī)器人環(huán)境中學(xué)習(xí)到的知識(shí)阻礙了AMORPHEUS學(xué)習(xí)Humanoid型機(jī)器人的行走。這表明,來(lái)自其他任務(wù)的知識(shí)并不總是有利于AMORPHEUS完成其他感興趣的學(xué)習(xí)任務(wù),因此,對(duì)這些知識(shí)的不小心利用,將會(huì)阻礙而不是幫助學(xué)習(xí)。而AMORPHEUS-VGAE模型在所有實(shí)驗(yàn)中都使Humanoid型機(jī)器人成功學(xué)會(huì)了行走。推測(cè)是因?yàn)樾螒B(tài)嵌入使得智能體能夠很好地利用任務(wù)之間的共性,從不同智能體中學(xué)習(xí)到相似肢體的嵌入被緊密地映射在一起,并區(qū)分不同任務(wù)之間的差異性,從而能夠遷移來(lái)自其他任務(wù)中適當(dāng)?shù)闹R(shí)幫助學(xué)習(xí)。
2.5 遷移學(xué)習(xí)實(shí)驗(yàn)及結(jié)果
在遷移學(xué)習(xí)環(huán)境中,策略在各種訓(xùn)練任務(wù)中進(jìn)行訓(xùn)練,然后轉(zhuǎn)移到另一個(gè)下游任務(wù),這是CV和NLP中常見(jiàn)的學(xué)習(xí)策略。本文比較兩種方法在遷移學(xué)習(xí)環(huán)境中的非均勻MTRL控制效果。兩類方法都在訓(xùn)練環(huán)境中進(jìn)行了預(yù)訓(xùn)練,并轉(zhuǎn)移到測(cè)試環(huán)境中,測(cè)試環(huán)境中的任務(wù)是在訓(xùn)練過(guò)程中從未出現(xiàn)過(guò)的。本文在Humanoid+ +和WHH+ +兩個(gè)實(shí)驗(yàn)上對(duì)兩類方法進(jìn)行了評(píng)估,Humanoid+ +是域內(nèi)環(huán)境中肢體數(shù)量最多的,形態(tài)也是最復(fù)雜的,而WHH+ +包含所有的域內(nèi)環(huán)境。在遷移學(xué)習(xí)中,只訓(xùn)練這兩種環(huán)境的智能體的100萬(wàn)個(gè)時(shí)間步長(zhǎng)。
遷移學(xué)習(xí)實(shí)驗(yàn)結(jié)果如圖10所示。AMORPHEUS-VGAE預(yù)訓(xùn)練模型在較短的訓(xùn)練步長(zhǎng)后就能在測(cè)試集中實(shí)現(xiàn)較高的平均回報(bào),在設(shè)置的兩類遷移學(xué)習(xí)實(shí)驗(yàn)中均表現(xiàn)出較好的遷移學(xué)習(xí)性能。如圖10(a)所示,SMP和AMORPHEUS-VGAE方法在域內(nèi)實(shí)驗(yàn)中都表現(xiàn)出比AMORPHEUS更好的遷移學(xué)習(xí)性能,其中SMP性能最好,但是SMP在前期的遷移學(xué)習(xí)速度沒(méi)有AMORPHEUS-VGAE方法快,并且隨著多任務(wù)環(huán)境的復(fù)雜性增加,SMP方法的性能逐漸不如AMORPHEUS-VGAE方法性能好,如圖10(b)所示。在最復(fù)雜的WHH+ +跨域環(huán)境中,AMOEPHEUS-VGAE表現(xiàn)出最好的遷移學(xué)習(xí)性能,并且學(xué)習(xí)速度比AMORPHEUS和SMP快得多,顯示出更高的樣本效率。該方法遷移學(xué)習(xí)性能較好的原因與多任務(wù)學(xué)習(xí)類似,通過(guò)VGAE提取智能體形態(tài)結(jié)構(gòu)信息,可以將從訓(xùn)練任務(wù)中獲得的有用知識(shí)有效地轉(zhuǎn)移到測(cè)試任務(wù)中,從而能夠用更少的樣本快速適應(yīng)當(dāng)前任務(wù)。
除此之外,本文也進(jìn)行了零樣本學(xué)習(xí)實(shí)驗(yàn),表3和4分別為域內(nèi)和跨域零樣本實(shí)驗(yàn)結(jié)果。在域內(nèi)實(shí)驗(yàn)中,每個(gè)策略先在訓(xùn)練集Walker+ +、Hopper+ +、Humanoid+ +上訓(xùn)練,然后分別在測(cè)試集上進(jìn)行評(píng)估。例如,在Walker+ +訓(xùn)練集上訓(xùn)練,然后在測(cè)試集Walker_3_main和Walker_6_main上進(jìn)行測(cè)試評(píng)估??缬?qū)嶒?yàn)中,策略在WHH+ +訓(xùn)練集上訓(xùn)練,然后在測(cè)試集上進(jìn)行評(píng)估。設(shè)置3個(gè)隨機(jī)種子進(jìn)行實(shí)驗(yàn),每個(gè)隨機(jī)種子實(shí)驗(yàn)中包含100個(gè)單次實(shí)驗(yàn),取平均結(jié)果。從表3中可以看出,域內(nèi)實(shí)驗(yàn)中,AMORPHEUS-VGAE方法在3個(gè)環(huán)境中得到的平均獎(jiǎng)勵(lì)都比AMORPHEUS和SMP高;從表4可以看出,AMORPHEUS-VGAE方法在3個(gè)環(huán)境中得到的平均獎(jiǎng)勵(lì)比AMORPHEUS高,然而只有2個(gè)環(huán)境中的平均獎(jiǎng)勵(lì)比SMP高。以上結(jié)果表明,在零樣本學(xué)習(xí)中,AMORPHEUS-VGAE方法相比AMORPHEUS具有更好的遷移泛化性能,與SMP 相比在某些方面能夠展現(xiàn)出其遷移學(xué)習(xí)性能的優(yōu)勢(shì)。
3 結(jié)束語(yǔ)
本文認(rèn)為智能體的形態(tài)學(xué)知識(shí)在機(jī)器人非均勻MTRL中有重要作用,在忽略形態(tài)學(xué)知識(shí)的AMORPHEUS方法上,提出了利用形態(tài)信息引入結(jié)構(gòu)歸納偏差的AMORPHEUS-VGAE方法。該方法通過(guò)變分自編碼器對(duì)形態(tài)信息進(jìn)行編碼,將其結(jié)合到基于Transformer的策略中,允許節(jié)點(diǎn)間進(jìn)行通信,并利用了智能體形態(tài)編碼信息引入結(jié)構(gòu)偏差。通過(guò)實(shí)驗(yàn)證明了該方法在機(jī)器人運(yùn)動(dòng)的非均勻任務(wù)環(huán)境中比AMORPHEUS和SMP具有更好的性能,并且該方法能夠更好地利用任務(wù)之間的共性,還能區(qū)分不同任務(wù)之間的差異,適當(dāng)?shù)卦诓煌蝿?wù)之間遷移知識(shí)來(lái)幫助學(xué)習(xí),并且在設(shè)置的遷移學(xué)習(xí)實(shí)驗(yàn)中也比AMORPHEUS的性能更好,具有更好的遷移泛化性能。
本文方法還有很大的提升空間,設(shè)置的MTRL多任務(wù)環(huán)境相對(duì)簡(jiǎn)單,這對(duì)越來(lái)越復(fù)雜的多任務(wù)環(huán)境來(lái)說(shuō)是一個(gè)較大的挑戰(zhàn),未來(lái)需要向更復(fù)雜的多任務(wù)環(huán)境進(jìn)行擴(kuò)展,并向?qū)嶋HMTRL應(yīng)用中擴(kuò)展。
參考文獻(xiàn):
[1]Silver D,Schrittwieser J,Simonyan K,et al.Mastering the game of Go without human knowledge[J]. Nature ,2017, 550 (7676):354-359.
[2]Silver D,Huang A,Maddison C J,et al.Mastering the game of Go with deep neural networks and tree search[J]. Nature ,2016, 529 (7587):484-489.
[3]Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J]. Nature ,2015, 518 (7540):529-533.
[4]Levine S,F(xiàn)inn C,Darrell T,et al.End-to-end training of deep visuomotor policies[J]. The Journal of Machine Learning Research ,2016, 17 (1):1334-1373.
[5]Vithayathil V N,Mahmoud Q H.A survey of multi-task deep reinforcement learning[J]. Electronics ,2020, 9 (9):article ID 1363.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM ,2017, 60 (6):84-90.
[7]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of NAACL-HLT.Stroudsburg,PA:ACL,2019:4171-4186.
[8]Radford A,Wu J,Child R,et al.Language models are unsupervised multitask learners[J]. OpenAI Blog ,2019, 1 (8):9.
[9]Rusu A A,Colmenarejo S G,Gulcehre C,et al.Policy distillation[C]//Proc of International Conference on Learning Representations.2016.
[10]Parisotto E,Ba J L,Salakhutdinov R.Actor-Mimic:deep multitask and transfer reinforcement learning[C]//Proc of International Conference on Learning Representations.2016.
[11]Pinto L,Gupta A.Learning to push by grasping:using multiple tasks for effective learning[C]//Proc of IEEE International Conference on Robotics and Automation .Piscataway,NJ:IEEE Press,2017:2161-2168.
[12]Yang Ruihan,Xu Huazhe,Wu Yi,et al.Multi-task reinforcement learning with soft modularization[C]//Proc of the 34th Annual Conference on Neural Information Processing Systems.New York:ACM Press,2020:4767-4777.
[13]Kalashnikov D,Varley J,Chebotar Y,et al.MT-Opt:continuous multi-task robotic reinforcement learning at scale[EB/OL].(2021-04-27).https://arxiv.org/abs/2104.08212.
[14]Wang Tingwu ,Liao Renjie ,F(xiàn)idler S.NerveNet:learning structured policy with graph neural networks[C]//Proc of International Confe-rence on Learning Representations.2018.
[15]Gori M,Monfardini G,Scarselli F.A new model for learning in graph domains[C]//Proc of IEEE International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2005:729-734.
[16]Scarselli F,Yong S L,Gori M,et al.Graph neural networks for ranking Web pages[C]//Proc of IEEE/WIC/ACM International Conference on Web Intelligence.Piscataway,NJ:IEEE Press,2005:666-672.
[17]Battaglia P W,Hamrick J B,Bapst V,et al.Relational inductive biases,deep learning,and graph networks[EB/OL].(2018-10-17)[2023-10-20].http://arxiv.org/abs/1806.01261.
[18]Huang W,Mordatch I,Pathak D.One policy to control them all:shared modular policies for agent-agnostic control[C]//Proc of the 37th International Conference on Machine Learning.New York:ACM Press,2020:4455-4464.
[19]Kurin V,Rocktaschel T,Whiteson S,et al.My body is a cage:the role of morphology in graph-based incompatible control[C]//Proc of International Conference on Learning Representations.2021.
[20]Vig J,Belinkov Y.Analyzing the structure of attention in a Transfor-mer language model[EB/OL].(2019-06-07).https://arxiv.org/abs/1906.04284.
[21]Goldberg Y.Assessing BERT’s syntactic abilities[EB/OL].(2019-01-16)[2023-10-20].https://doi.org/10.48550/arXiv.1901.05287.
[22]Peters M,Neumann M,Zettlemoyer L,et al.Dissecting contextual word embeddings:architecture and representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2018:1499-1509.
[23]Tenney I,Xia P,Chen B,et al.What do you learn from context? Probing for sentence structure in contextualized word representations[C]//Proc of International Conference on Learning Representations.2019.
[24]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st Conference on Neural Information Processing System.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[25]Kipf T N,Welling M.Variational graph auto-encoders[EB/OL].(2016-11-21)[2023-10-20].http://arxiv.org/abs/1611.07308.
[26]Silver D,Lever G,Heess N,et al.Deterministic policy gradient algorithms[C]//Proc of the 31st International Conference on Machine Learning.[S.l.]:PMLR,2014:387-395.
[27]Peters J,Schaal S.Policy gradient methods for robotics[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2006:2219-2225.
[28]Fujimoto S.Addressing function approximation error in Actor-Critic methods[C]//Proc of the 35th International Conference on Machine Learning.[S.l.]:PMLR,2018:1587-1596.
[29]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[C]//Proc of International Conference on Learning Representations.2019.
[30]Van Hasselt H,Guez A,Silver D.Deep reinforcement learning with double Q-Learning[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:2094-2100.
收稿日期:2023-07-25;修回日期:2023-09-13 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(U1908215);遼寧省“興遼英才計(jì)劃”資助項(xiàng)目(XLYC2002014)
作者簡(jiǎn)介:賀曉(1995—),男,湖北孝感人,碩士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、機(jī)制人智能控制理論與技術(shù);王文學(xué)(1973—),男(通信作者),遼寧沈陽(yáng)人,研究員,博導(dǎo),博士,主要研究方向?yàn)槲⒓{機(jī)器人、機(jī)器人人機(jī)交互理論與技術(shù)(wangwenxue@sia.cn).