摘 要:在現(xiàn)代工業(yè)自動(dòng)化領(lǐng)域,機(jī)器人執(zhí)行復(fù)雜裝配任務(wù)的能力至關(guān)重要。盡管強(qiáng)化學(xué)習(xí)為機(jī)器人策略學(xué)習(xí)提供了一種有效途徑,但在裝配任務(wù)的策略訓(xùn)練初始階段存在采樣效率低和樣本質(zhì)量差的問(wèn)題,導(dǎo)致算法收斂速度慢,容易陷入局部最優(yōu)解。針對(duì)上述問(wèn)題,提出了一種融合先驗(yàn)知識(shí)與引導(dǎo)策略搜索算法的機(jī)器人軌跡規(guī)劃方法。該方法首先利用人類專家演示和歷史任務(wù)數(shù)據(jù)的先驗(yàn)知識(shí)來(lái)構(gòu)建初始策略,并將先驗(yàn)知識(shí)保留在經(jīng)驗(yàn)池中,以提高學(xué)習(xí)效率;隨后,通過(guò)引導(dǎo)策略搜索算法對(duì)初始策略進(jìn)行在線優(yōu)化,逐步提升策略的精確度和適應(yīng)性;最后,通過(guò)機(jī)器人軸孔裝配任務(wù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,該方法顯著提高了策略學(xué)習(xí)效率,減少了訓(xùn)練時(shí)間和試錯(cuò)次數(shù)。研究表明,融合先驗(yàn)知識(shí)的方法可以有效提高強(qiáng)化學(xué)習(xí)學(xué)習(xí)效率,使機(jī)器人快速得到能夠完成裝配任務(wù)的策略。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);先驗(yàn)知識(shí);引導(dǎo)策略搜索;策略優(yōu)化;軸孔裝配任務(wù)
中圖分類號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2025)04-007-1018-07
doi: 10.19734/j.issn.1001-3695.2024.08.0324
Robotic pin-hole assembly method integrating prior knowledge and guided policy search
Chen Haojie1,2,3,4, Dong Qingwei1,2,3,4, Liu Ruikai1,2,3,4, Zeng Peng1,2,3
(1.State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China; 2. Key Laboratory of Networked Control Systems, Chinese Academy of Sciences, Shenyang 110016, China; 3. Institutes for Robotics amp; Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China; 4. University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract:In modern industrial automation, robots play a crucial role in performing complex assembly tasks. Reinforcement learning provides an effective approach for robot strategy learning, but it encounters challenges such as low sampling efficiency and poor sample quality during the early stages of strategy training. These challenges slow down algorithm convergence and increase the risk of getting stuck in local optima. To address these issues, this paper presented a robot trajectory planning method that integrated prior knowledge with the guided policy search algorithm. The method drew on prior knowledge from human expert demonstrations and historical task data to build an initial policy and stored this knowledge in an experience pool to improve learning efficiency. The guided policy search algorithm optimized the policy online, gradually enhancing the precision and adaptability of the strategy. The research team conducted experiments on a robotic pin-hole assembly task and found that this method significantly improved strategy learning efficiency, reduced training time, and minimized trial-and-error iterations. The results show that integrating prior knowledge effectively improves the learning efficiency of reinforcement lear-ning, allowing robots to quickly obtain strategies that can complete assembly tasks.
Key words:reinforcement learning; prior knowledge; guided policy search; policy optimization; pin-hole assembly task
0 引言
在現(xiàn)代工業(yè)生產(chǎn)中,機(jī)器人在執(zhí)行結(jié)構(gòu)化環(huán)境中的重復(fù)性任務(wù)時(shí)發(fā)揮著重要作用[1, 2]。然而,對(duì)于自動(dòng)化領(lǐng)域的前沿任務(wù),例如軸孔裝配任務(wù),這類要求機(jī)器人高度適應(yīng)性和涉及復(fù)雜接觸動(dòng)力學(xué)的任務(wù)難以用傳統(tǒng)自動(dòng)化技術(shù)完成[3, 4]。軸孔裝配任務(wù)本質(zhì)上是一個(gè)具有物理約束和復(fù)雜接觸動(dòng)力學(xué)的路徑規(guī)劃問(wèn)題。在實(shí)際操作中,傳統(tǒng)方法需要進(jìn)行大量設(shè)置和重編程來(lái)適應(yīng)新環(huán)境,同時(shí)還需要控制接觸力,以避免過(guò)大接觸力導(dǎo)致設(shè)備損壞。為了減小軸孔裝配過(guò)程中接觸力帶來(lái)的不利影響,研究人員通常在傳統(tǒng)方法中引入柔順裝配?,F(xiàn)有柔順控制方法分為主動(dòng)柔順和被動(dòng)柔順策略[5]。被動(dòng)柔順策略通過(guò)機(jī)械結(jié)構(gòu)的形變來(lái)順應(yīng)外力,盡管實(shí)現(xiàn)簡(jiǎn)單,但控制精度和適應(yīng)性較差;而主動(dòng)柔順策略通過(guò)機(jī)器人控制算法實(shí)時(shí)調(diào)整末端位姿以順應(yīng)外界環(huán)境,常用的主動(dòng)柔順策略有力/位混合控制和阻抗控制。這些策略雖然能夠處理已知或結(jié)構(gòu)化環(huán)境中的外力干擾,但依賴一定的系統(tǒng)建模,在應(yīng)對(duì)未知干擾或復(fù)雜的非結(jié)構(gòu)化環(huán)境存在局限性。因此,需要一種不依賴系統(tǒng)建模的智能算法,來(lái)完成非結(jié)構(gòu)化環(huán)境下的裝配任務(wù)。
近些年來(lái),國(guó)內(nèi)外學(xué)者將研究重心轉(zhuǎn)向強(qiáng)化學(xué)習(xí)領(lǐng)域[6~8]。強(qiáng)化學(xué)習(xí)(RL)通過(guò)試錯(cuò)機(jī)制使機(jī)器人與環(huán)境交互,并通過(guò)最大化累計(jì)獎(jiǎng)勵(lì)的方式,使其無(wú)須了解詳細(xì)的接觸動(dòng)力學(xué)信息即可學(xué)習(xí)有效的控制策略[9]。具體來(lái)說(shuō),Lillicrap等人[10]開(kāi)發(fā)的DDPG算法,結(jié)合深度神經(jīng)網(wǎng)絡(luò)與確定性策略,適用于需要高精度對(duì)準(zhǔn)和插入操作的連續(xù)控制任務(wù)。Schulman等人[11]提出的PPO算法,通過(guò)策略梯度方法的簡(jiǎn)化與改進(jìn),在探索與利用之間取得了很好的平衡,并實(shí)現(xiàn)對(duì)連續(xù)動(dòng)作空間的精確控制。Haarnoja等人[12]提出的SAC算法,通過(guò)融合最大熵策略與離策略學(xué)習(xí)方法,為裝配任務(wù)帶來(lái)了穩(wěn)定而高效的學(xué)習(xí)過(guò)程,顯著提升了成功率。Levine等人[13]開(kāi)發(fā)的GPS算法,通過(guò)環(huán)境交互數(shù)據(jù)的收集和模型預(yù)測(cè)與實(shí)際操作反饋的結(jié)合,有效完成了復(fù)雜的裝配任務(wù)。盡管強(qiáng)化學(xué)習(xí)在機(jī)器人控制領(lǐng)域取得了一定進(jìn)展,克服了傳統(tǒng)控制方法對(duì)環(huán)境狀態(tài)變化適應(yīng)能力差的問(wèn)題,但仍有一些方面存在不足。強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)訓(xùn)練的初始階段,往往會(huì)遇到連續(xù)狀態(tài)動(dòng)作空間采樣效率不高和樣本質(zhì)量較差的問(wèn)題,進(jìn)而減緩了獎(jiǎng)勵(lì)函數(shù)的收斂速度。此外,如果策略探索不充分或獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不夠理想,訓(xùn)練過(guò)程容易陷入局部最優(yōu)解,對(duì)訓(xùn)練結(jié)果產(chǎn)生不利影響。
針對(duì)策略學(xué)習(xí)過(guò)程中出現(xiàn)的不足,申偉霖等人[14]提出了USAGE自主探索算法。該算法結(jié)合均勻掃描和專注引導(dǎo)策略,通過(guò)信息增益和轉(zhuǎn)向代價(jià)優(yōu)化探索目標(biāo),提升了探索效率,減少了探索時(shí)間。此外,引入先驗(yàn)知識(shí)可能是改善策略學(xué)習(xí)過(guò)程中出現(xiàn)的不利情況的有效手段[15,16]。研究表明,通過(guò)引入先驗(yàn)知識(shí),機(jī)器人可以更快地學(xué)習(xí)特定技能。例如,Le等人[17]提出了一種通過(guò)多模態(tài)人類示教快速學(xué)習(xí)操控技能的創(chuàng)新方法。該方法融合了任務(wù)參數(shù)化優(yōu)化和基于吸引子的阻抗控制,有效地整合了位置和力的特征,并針對(duì)不同技能階段優(yōu)化了剛度。由此,機(jī)器人能夠根據(jù)不同場(chǎng)景中演示的位置和力輪廓,以高可靠性再現(xiàn)所需的技能。Qin等人[18]提出了一種先進(jìn)的微裝配技能學(xué)習(xí)方法。該方法采用GMM對(duì)示教的行動(dòng)數(shù)據(jù)進(jìn)行編碼,采用GMR對(duì)狀態(tài)的分布進(jìn)行預(yù)測(cè),不僅使運(yùn)動(dòng)具有非線性,也保證了運(yùn)動(dòng)的全局穩(wěn)定性和泛化能力。該方法僅需少量的專家演示就能使機(jī)器人掌握所需的技能,具有高效的學(xué)習(xí)效率。此外,Makondo等人[19]使用局部普洛克魯斯特分析(local procrustes analysis)模型,利用歷史經(jīng)驗(yàn)數(shù)據(jù)向機(jī)器人傳授知識(shí),有效加速了機(jī)器人學(xué)習(xí)控制技能的過(guò)程。這些研究顯示,先驗(yàn)知識(shí)可以顯著加快機(jī)器人的初步學(xué)習(xí)進(jìn)程,但受限于數(shù)據(jù)質(zhì)量和環(huán)境復(fù)雜性,單靠先驗(yàn)知識(shí)往往不足以應(yīng)對(duì)高適應(yīng)性任務(wù),而結(jié)合強(qiáng)化學(xué)習(xí)的迭代優(yōu)化策略,可以進(jìn)一步提升機(jī)器人在這些復(fù)雜環(huán)境中的表現(xiàn)和適應(yīng)性。在國(guó)內(nèi)外的研究中,Chen等人[20]提出了一種基于深度Q學(xué)習(xí)的機(jī)器人抓取技能學(xué)習(xí)算法和基于PPO的機(jī)器人裝配技能學(xué)習(xí)算法,其中引入先驗(yàn)知識(shí)信息來(lái)設(shè)計(jì)約束獎(jiǎng)勵(lì)函數(shù),減少策略學(xué)習(xí)算法所需的訓(xùn)練時(shí)間和交互數(shù)據(jù)。Vidakovi等人[21]提出了一種結(jié)合先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的機(jī)器人軌跡學(xué)習(xí)算法,利用先驗(yàn)知識(shí)為強(qiáng)化學(xué)習(xí)策略搜索擬合初始策略,減少了策略學(xué)習(xí)算法所需的訓(xùn)練時(shí)間,更快地得到運(yùn)動(dòng)策略。Guzman等人[22]通過(guò)Vicon運(yùn)動(dòng)捕捉系統(tǒng)記錄專家的運(yùn)動(dòng)軌跡。這些操作軌跡擬合了初始參考策略。隨后他們使用PPO算法,并利用獎(jiǎng)勵(lì)函數(shù)的反饋(如避障任務(wù)中的距離獎(jiǎng)勵(lì))對(duì)策略進(jìn)行調(diào)整和優(yōu)化,從而獲得性能更優(yōu)的控制策略。
本文提出了一種結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索(GPS)方法,通過(guò)分析和學(xué)習(xí)人類專家演示或者任務(wù)的歷史軌跡經(jīng)驗(yàn)的先驗(yàn)知識(shí),擬合初始動(dòng)態(tài)模型,并提取出較好的初始策略,用以指導(dǎo)RL過(guò)程中的策略探索。然后,通過(guò)引導(dǎo)策略搜索算法對(duì)該模型進(jìn)行局部在線調(diào)整,得到優(yōu)化后的策略,可以快速學(xué)習(xí)適用于接觸豐富的機(jī)器人操作技能。其他研究通常側(cè)重于策略初始化或獎(jiǎng)勵(lì)函數(shù)的塑造,相比之下,本文方法不僅利用先驗(yàn)知識(shí)來(lái)初始化策略,還將其用于動(dòng)態(tài)模型的初步擬合,為強(qiáng)化學(xué)習(xí)提供了一個(gè)更豐富的起點(diǎn),降低對(duì)數(shù)據(jù)的依賴性。該方法利用少量高質(zhì)量數(shù)據(jù)的初始化優(yōu)勢(shì),加速學(xué)習(xí)過(guò)程,并建立動(dòng)態(tài)模型,引導(dǎo)機(jī)器人向更高回報(bào)的區(qū)域探索采樣,并限制了策略搜索空間,提高了探索效率,進(jìn)而獲得更高質(zhì)量的樣本數(shù)據(jù)。
本文的主要貢獻(xiàn)為:a)通過(guò)學(xué)習(xí)先驗(yàn)知識(shí)中的軌跡信息,建立初始動(dòng)態(tài)模型,得到機(jī)器人運(yùn)動(dòng)的初始策略,加快學(xué)習(xí)進(jìn)程,減少了在策略訓(xùn)練初期所需的探索時(shí)間和試錯(cuò)次數(shù);
b)利用強(qiáng)化學(xué)習(xí)引導(dǎo)策略搜索算法對(duì)從先驗(yàn)知識(shí)中獲得的策略進(jìn)行迭代優(yōu)化,提高策略對(duì)裝配任務(wù)的適應(yīng)性;c)融合先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)引導(dǎo)策略搜索算法,構(gòu)建了一個(gè)能夠快速學(xué)習(xí)和完成復(fù)雜裝配任務(wù)的框架。
1 問(wèn)題構(gòu)建
機(jī)器人的軸孔裝配問(wèn)題,本質(zhì)上是一個(gè)特殊的機(jī)器人路徑規(guī)劃問(wèn)題,機(jī)器人在執(zhí)行此類任務(wù)時(shí),其運(yùn)動(dòng)不僅受到復(fù)雜環(huán)境和物理模型的嚴(yán)格約束,還要執(zhí)行高精度操作。傳統(tǒng)的軌跡規(guī)劃方法在處理這類問(wèn)題時(shí)往往受限,而強(qiáng)化學(xué)習(xí)提供了一種尋找最優(yōu)軌跡的替代途徑。
1.1 MDP模型
本文將機(jī)器人軸孔裝配任務(wù)建模為馬爾可夫決策過(guò)程(Markov decision process,MDP),如圖1所示。具體而言,在MDP模型中,將完成特定裝配任務(wù)所需的機(jī)器人運(yùn)動(dòng)軌跡表述為一個(gè)由T個(gè)時(shí)間步的信息組成的軌跡序列,可以寫(xiě)為τ={x1,u1,x2,u2,…,xt,ut}。其中每一個(gè)時(shí)間步的信息代表機(jī)器人在特定時(shí)刻的狀態(tài)xt和采取的動(dòng)作ut。在每個(gè)時(shí)間步t,智能體可以觀察到一個(gè)狀態(tài)xt,然后根據(jù)策略p(ut|xt)選擇一個(gè)動(dòng)作ut,從而導(dǎo)致?tīng)顟B(tài)跟隨概率模型p(xt+1|xt,ut)變化。目標(biāo)由獎(jiǎng)勵(lì)l(xt,ut)指定,策略則是最大化從時(shí)間步1到T的獎(jiǎng)勵(lì)總和的策略。MDP模型詳細(xì)定義了狀態(tài)量、動(dòng)作量、狀態(tài)轉(zhuǎn)移概率模型以及策略,以便在裝配過(guò)程中實(shí)現(xiàn)最優(yōu)化控制。
建立該任務(wù)的MDP過(guò)程,如下:
a)狀態(tài)量xt。狀態(tài)量xt由關(guān)節(jié)角度、關(guān)節(jié)角速度、末端執(zhí)行器的姿態(tài)(編碼為3個(gè)笛卡爾坐標(biāo)點(diǎn))以及這些點(diǎn)的速度組成,維度為30。
b)動(dòng)作量ut。動(dòng)作量ut為機(jī)器人關(guān)節(jié)力矩,維度為6,與傳統(tǒng)的位置控制相比,力矩控制為機(jī)器人提供更高的柔順性,這種控制方式讓機(jī)器人能在裝配過(guò)程中靈活適應(yīng)接觸力變化和敏感環(huán)境。
c)狀態(tài)轉(zhuǎn)移概率模型p(xt+1|xt,ut)。狀態(tài)轉(zhuǎn)移概率模型是通過(guò)離散時(shí)間動(dòng)態(tài)系統(tǒng)的狀態(tài)更新方程xt+1=Ft[xt;ut]+ft來(lái)表示,該方程描述了機(jī)器人在當(dāng)前狀態(tài)xt和動(dòng)作ut情況下,機(jī)器人在下一時(shí)間步下?tīng)顟B(tài)的概率分布xt+1。
d)策略p(ut|xt)。策略通過(guò)離散時(shí)間控制律ut=Ktxt+kt來(lái)表示,根據(jù)當(dāng)前狀態(tài)xt生成控制動(dòng)作ut。策略可以是確定性的或隨機(jī)性的,后者通過(guò)在策略中加入高斯噪聲實(shí)現(xiàn)。
1.2 代價(jià)函數(shù)設(shè)計(jì)
策略學(xué)習(xí)目標(biāo)是最小化軌跡τ={x1,u1,x2,u2,…,xt,ut}所有時(shí)間步的代價(jià)總和minEp[∑Tt=1l(xt,ut)],其中包括優(yōu)化每個(gè)時(shí)間步當(dāng)前位置與目標(biāo)位置的偏差和控制輸入,代價(jià)函數(shù)設(shè)計(jì)如下:
l(xt,ut)=l1d2t+l2log(d2t+α)+wu‖ut‖2
(1)
其中:l1、l2以及wu是代價(jià)函數(shù)中各項(xiàng)系數(shù),將小的常數(shù)α加入到對(duì)數(shù)項(xiàng)中,確保代價(jià)函數(shù)在零點(diǎn)附近也是可微的。表1列出了代價(jià)函數(shù)的系數(shù)設(shè)定,設(shè)定各項(xiàng)系數(shù)的值。
代價(jià)函數(shù)由兩部分組成:
a)位置偏差代價(jià)Ld。位置偏差代價(jià)Ld如圖2所示,是指當(dāng)前時(shí)間步末端執(zhí)行器點(diǎn)位置與目標(biāo)位置的偏差代價(jià):
l(xt,ut)=l1d2t+l2log(d2t+α)
(2)
其中:dt是末端執(zhí)行器上三點(diǎn)與目標(biāo)位置之間的距離,二次項(xiàng)鼓勵(lì)末端執(zhí)行器在遠(yuǎn)處向目標(biāo)位置移動(dòng),對(duì)數(shù)項(xiàng)鼓勵(lì)將其精確地放置在目標(biāo)位置上。Ld隨著dt的變化而變化的趨勢(shì)如圖2所示。當(dāng)距離偏差dt接近于零時(shí),損失值迅速降低,當(dāng)dt值遠(yuǎn)離零點(diǎn)時(shí),曲線變得較為平緩,這有助于優(yōu)化算法在距離偏差較小時(shí)實(shí)現(xiàn)快速收斂,同時(shí)在距離偏差較大時(shí)避免過(guò)大的步長(zhǎng),進(jìn)而防止出現(xiàn)超調(diào)情況。
b)控制輸入代價(jià)Ud。該部分代價(jià)是通過(guò)最小化動(dòng)作量(即力矩)的二范數(shù)平方來(lái)定義,該設(shè)計(jì)確保了控制策略的平滑性,避免了大幅度的控制動(dòng)作,從而減少機(jī)器人運(yùn)動(dòng)的劇烈變化。
通過(guò)建立MDP模型,可以系統(tǒng)地分析并優(yōu)化機(jī)器人在軸孔裝配任務(wù)中的行為,使其能夠在復(fù)雜的工業(yè)環(huán)境中自主學(xué)習(xí)和調(diào)整運(yùn)動(dòng)軌跡,提高裝配任務(wù)的成功率和效率。
2 方法實(shí)現(xiàn)
本章介紹了融合先驗(yàn)知識(shí)和引導(dǎo)策略搜索(GPS)去解決機(jī)器人軸孔裝配問(wèn)題的具體方法。
2.1 先驗(yàn)知識(shí)
2.1.1 先驗(yàn)知識(shí)來(lái)源
在強(qiáng)化學(xué)習(xí)(RL)和機(jī)器人控制領(lǐng)域,先驗(yàn)知識(shí)是指提前獲得的信息或經(jīng)驗(yàn),它對(duì)于提高策略學(xué)習(xí)效率至關(guān)重要。傳統(tǒng)的強(qiáng)化學(xué)習(xí),通常是從零開(kāi)始訓(xùn)練智能體,需要與環(huán)境進(jìn)行大量的交互試錯(cuò),以獲取足夠的數(shù)據(jù),逐步學(xué)習(xí)到有效的策略。然而,在很多場(chǎng)合中,大量試錯(cuò)是不被允許的。為了減少試錯(cuò)并提高學(xué)習(xí)效率,先驗(yàn)知識(shí)在此發(fā)揮著重要作用,使得基于少量樣本的學(xué)習(xí)成為可能。
本研究主要從人類專家演示和歷史任務(wù)數(shù)據(jù)兩個(gè)渠道獲取先驗(yàn)知識(shí)。a)人類專家演示。通過(guò)詳細(xì)記錄機(jī)器人在自由空間下(無(wú)裝配臺(tái)存在的空曠環(huán)境)從初始點(diǎn)運(yùn)動(dòng)到裝配位置的到達(dá)任務(wù)的軌跡序列,進(jìn)而收集到高質(zhì)量的示范數(shù)據(jù)。這些軌跡數(shù)據(jù)涵蓋了關(guān)節(jié)角度、關(guān)節(jié)角速度、末端執(zhí)行器位姿和速度等關(guān)鍵信息,為控制策略的初始化提供了一個(gè)較為優(yōu)秀的起點(diǎn)。b)歷史任務(wù)數(shù)據(jù)。這些歷史任務(wù)數(shù)據(jù)來(lái)自同一個(gè)機(jī)器人的不同起點(diǎn)和終點(diǎn)的到達(dá)或裝配任務(wù)的相似軌跡序列,其中包括任務(wù)成功和失敗案例的軌跡信息。在這些歷史軌跡序列中,當(dāng)進(jìn)行新的軸孔裝配任務(wù)時(shí),本文將從距離方面考慮,將歷史數(shù)據(jù)中和新任務(wù)起點(diǎn)及終點(diǎn)較近、接近和較遠(yuǎn)的軌跡序列,依次劃分為優(yōu)、次優(yōu)和差的不同質(zhì)量的軌跡序列群。這些歷史數(shù)據(jù)不僅為策略學(xué)習(xí)提供了豐富多樣的操作樣本,高質(zhì)量的軌跡序列還有助于限制策略學(xué)習(xí)空間,指導(dǎo)新任務(wù)中的策略學(xué)習(xí),從而降低試錯(cuò)頻率。
本文從上述先驗(yàn)知識(shí)中獲取N條高質(zhì)量的演示軌跡,其中每條軌跡的長(zhǎng)度為T,都是由狀態(tài)xt和控制輸入ut組成的序列。狀態(tài)由四元組xt=[θ;;x;v]組成,θ為關(guān)節(jié)角度,為關(guān)節(jié)角速度,x為末端執(zhí)行器特征點(diǎn)位置,v為末端執(zhí)行器特征點(diǎn)速度,控制輸入ut為關(guān)節(jié)力矩。將每一條軌跡表示如下:
τ={x1,u1,x2,u2,…,xt,ut}
(3)
將這些先驗(yàn)知識(shí)中的軌跡數(shù)據(jù)放入集合{τi}中,進(jìn)行初始策略擬合,并可以在強(qiáng)化學(xué)習(xí)的早期階段為機(jī)器人提供高質(zhì)量的軌跡樣本,加速算法的收斂。
2.1.2 經(jīng)驗(yàn)池更新
為進(jìn)一步提高學(xué)習(xí)過(guò)程的靈活性和適應(yīng)性,可以設(shè)計(jì)一個(gè)動(dòng)態(tài)調(diào)整的經(jīng)驗(yàn)池。該經(jīng)驗(yàn)池不僅存儲(chǔ)了從先驗(yàn)知識(shí)中獲得的軌跡數(shù)據(jù),也會(huì)逐漸融合來(lái)自實(shí)時(shí)交互獲取的新數(shù)據(jù)。該過(guò)程的目的是逐步減少對(duì)舊先驗(yàn)知識(shí)的依賴,增強(qiáng)模型對(duì)新環(huán)境和新情況的適應(yīng)能力。
經(jīng)驗(yàn)池D在初始化時(shí),主要包括從人類專家演示和歷史任務(wù)數(shù)據(jù)中獲取的先驗(yàn)知識(shí)集合{τi},這些數(shù)據(jù)構(gòu)成了機(jī)器人的初始學(xué)習(xí)基礎(chǔ),記作Dprior。隨著新數(shù)據(jù)的不斷獲取,本文使用一個(gè)動(dòng)態(tài)的更新規(guī)則來(lái)調(diào)整經(jīng)驗(yàn)池中數(shù)據(jù)的比例和組成。定義新數(shù)據(jù)注入比例α,該參數(shù)隨迭代次數(shù)k動(dòng)態(tài)調(diào)整,初始設(shè)置為較小數(shù)值,以保留更多的先驗(yàn)知識(shí)。更新公式可以表達(dá)為
D=(1-αk)Dprior+αkDnew
(4)
其中:Dnew是新收集的數(shù)據(jù);αk是第k次迭代時(shí)新數(shù)據(jù)的注入比例,這個(gè)比例隨迭代次數(shù)逐漸增加,從而減少先驗(yàn)數(shù)據(jù)在經(jīng)驗(yàn)池中的比重。注入比例αk的具體調(diào)整策略依賴于模型在實(shí)際應(yīng)用中的表現(xiàn),可以用式(5)動(dòng)態(tài)調(diào)整。
αk=min(kM,1)
(5)
其中:M是一個(gè)預(yù)設(shè)的閾值,表示當(dāng)?shù)螖?shù)達(dá)到M時(shí),經(jīng)驗(yàn)池完全轉(zhuǎn)變?yōu)樾聰?shù)據(jù)驅(qū)動(dòng)。這種設(shè)置幫助模型逐步過(guò)渡到完全依賴當(dāng)前和最近的數(shù)據(jù),減少對(duì)舊數(shù)據(jù)的依賴。
在每次迭代后,部分舊的先驗(yàn)知識(shí)被新的數(shù)據(jù)替換,使得模型能更好地適應(yīng)當(dāng)前環(huán)境的變化。通過(guò)這種動(dòng)態(tài)調(diào)整經(jīng)驗(yàn)池的策略,可以使得機(jī)器人控制系統(tǒng)在初期受益于豐富的先驗(yàn)知識(shí),而在后期能更好地適應(yīng)新的操作環(huán)境和任務(wù)要求。
2.2 動(dòng)力學(xué)模型
在使用先驗(yàn)知識(shí)的軌跡數(shù)據(jù){τi}擬合策略過(guò)程中,首先擬合動(dòng)力學(xué)模型,動(dòng)力學(xué)模型可以在擬合策略時(shí)提供先驗(yàn)信息,來(lái)提高數(shù)據(jù)的利用效率。
2.2.1 時(shí)變線性模型(TVLM)
在環(huán)境特別復(fù)雜的情況下,動(dòng)力學(xué)模型難以通過(guò)機(jī)理建模方法給出,但可以通過(guò)基于數(shù)據(jù)驅(qū)動(dòng)的擬合方法得到,本文將動(dòng)力學(xué)模型建模為時(shí)變線性模型(time-varying linear model,TVLM),時(shí)變線性模型的優(yōu)勢(shì)在于能夠捕捉環(huán)境的動(dòng)態(tài)特性,并以概率形式表達(dá)模型的不確定性,其中高斯分布是描述這種不確定性的理想選擇:p(xt+1|xt,ut)=Euclid Math OneNAp(f(xt,ut),F(xiàn)t),其中,xt和ut分別表示在時(shí)間步t的狀態(tài)和動(dòng)作,f(xt,ut)是線性函數(shù),F(xiàn)t是模型的協(xié)方差矩陣,表示模型的不確定性。
線性回歸(linear regression,LR)方法是一種廣泛應(yīng)用的擬合線性模型的方法。本文將從先驗(yàn)知識(shí)中獲得的軌跡數(shù)據(jù){τi}重構(gòu)為數(shù)據(jù)集{xi,ui,x′i},其中xi和ui分別代表系統(tǒng)的狀態(tài)和控制輸入,x′i是后續(xù)狀態(tài)。然后將線性回歸問(wèn)題重構(gòu)為擬合數(shù)據(jù)集的高斯模型問(wèn)題,計(jì)算該數(shù)據(jù)集的經(jīng)驗(yàn)協(xié)方差Σ和經(jīng)驗(yàn)均值μ。在估計(jì)了Σ和μ后,通過(guò)將聯(lián)合分布條件化在當(dāng)前狀態(tài)xt和控制ut上,可以獲得關(guān)于下一狀態(tài)xt+1的概率預(yù)測(cè),這里的高斯模型不僅僅預(yù)測(cè)一個(gè)值,而是預(yù)測(cè)一個(gè)分布,即為動(dòng)力學(xué)模型:
(9)
在強(qiáng)化學(xué)習(xí)的框架中,動(dòng)力學(xué)模型一般是未知的,傳統(tǒng)強(qiáng)化學(xué)習(xí)通常從零開(kāi)始訓(xùn)練智能體,需要與環(huán)境進(jìn)行大量的交互試錯(cuò)來(lái)獲取足夠的數(shù)據(jù),本文利用先驗(yàn)知識(shí)中的歷史任務(wù)數(shù)據(jù)和專家演示數(shù)據(jù),來(lái)初始化動(dòng)力學(xué)模型。本文通過(guò)對(duì)這些先驗(yàn)數(shù)據(jù)進(jìn)行回歸分析和擬合,可以得到初始的時(shí)變線性模型參數(shù)。這種初始化方式減少了策略對(duì)隨機(jī)探索的需求,提高了初始模型的準(zhǔn)確性。隨著策略迭代的進(jìn)行,本文使用新采集的交互數(shù)據(jù)更新動(dòng)力學(xué)模型,確保其能夠更準(zhǔn)確地反映當(dāng)前環(huán)境動(dòng)態(tài)。
2.2.2 高斯混合模型
在擬合高維系統(tǒng)的線性動(dòng)力學(xué)模型時(shí),樣本復(fù)雜度隨系統(tǒng)維度的增加而顯著提高。對(duì)于高維系統(tǒng),基于數(shù)據(jù)對(duì)每一個(gè)時(shí)刻進(jìn)行線性擬合時(shí)需要足夠的樣本數(shù)據(jù),否則會(huì)出現(xiàn)過(guò)擬合的情況,不能真實(shí)反映模型,而收集足夠的樣本擬合精確的動(dòng)力學(xué)模型又需要較長(zhǎng)的時(shí)間。為了避免過(guò)擬合并減少訓(xùn)練時(shí)間,采用了高斯混合模型(Gaussian mixture model,GMM)來(lái)近似復(fù)雜的非線性動(dòng)力學(xué)。
高斯混合模型非常適合于建模分段線性動(dòng)力學(xué),這對(duì)于在環(huán)境中接觸物體的關(guān)節(jié)系統(tǒng)(如機(jī)器人)是一個(gè)很好的近似。具體來(lái)說(shuō),GMM通過(guò)將動(dòng)力學(xué)模型分割成多個(gè)高斯分布的簇來(lái)近似復(fù)雜的非線性動(dòng)力學(xué)。
在每次迭代中,使用數(shù)據(jù)集(xt,ut,xt+1)T構(gòu)建一個(gè)高斯混合模型。在每個(gè)簇ci中,條件分布ci(xt+1|xt,ut)是一個(gè)線性高斯動(dòng)力學(xué)模型,而邊緣分布ci(xt,ut)則表示該模型有效的區(qū)域。
為了將GMM用作線性動(dòng)力學(xué)的先驗(yàn),采取以下步驟:
a)計(jì)算平均簇權(quán)重。在每個(gè)時(shí)間步,計(jì)算樣本的平均簇權(quán)重,這些權(quán)重反映了樣本在不同簇中的分布情況。
b)加權(quán)平均和協(xié)方差。使用平均簇權(quán)重計(jì)算樣本的加權(quán)平均值和協(xié)方差Σ^,為構(gòu)建先驗(yàn)分布提供基礎(chǔ)。
c)擬合正態(tài)-逆Wishart先驗(yàn)。使用上述平均值和協(xié)方差Σ^,在時(shí)間步t處擬合(xt,ut,xt+1)T的正態(tài)-逆Wishart先驗(yàn),并通過(guò)對(duì)(xt,ut)T進(jìn)行條件處理得到動(dòng)力學(xué)模型。
這種方法允許使用比狀態(tài)維度更少的樣本,同時(shí)保持動(dòng)力學(xué)模型的準(zhǔn)確性。通過(guò)利用歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的結(jié)合,能夠更有效地?cái)M合動(dòng)力學(xué)模型。
2.3 線性高斯策略和LQG控制
在本研究中,使用了時(shí)變線性高斯控制器作為智能體的決策策略,這種策略雖然整體上是非線性的,但在每個(gè)時(shí)間步都是局部線性的,從而簡(jiǎn)化了控制律的計(jì)算。該策略是以軌跡為中心的,可以表示任意高斯軌跡分布,其中包含大量參數(shù)來(lái)適應(yīng)不同的狀態(tài)和動(dòng)作。時(shí)變線性高斯策略的形式為p(ut|xt)=Euclid Math OneNAp(Ktxt+kt,Ct),其中xt和ut分別是時(shí)間步t的狀態(tài)和動(dòng)作。
本文利用先驗(yàn)知識(shí)的軌跡信息來(lái)擬合時(shí)變線性高斯動(dòng)力學(xué)模型,然后求解線性二次高斯(linear quadratic Gaussian,LQG)問(wèn)題的變體,以找到在此模型下最優(yōu)的新控制器p(ut|xt)。本文計(jì)算了成本函數(shù)在每個(gè)樣本周圍的二階展開(kāi),并將展開(kāi)的結(jié)果平均起來(lái),以獲得局部近似成本:
l(xt,ut)≈12[xt;ut]Tlxu,xut[xt;ut]+[xt;ut]Tlxut+const(10)
其中:下標(biāo)表示導(dǎo)數(shù);lxut是成本函數(shù)相對(duì)于[xt;ut]的梯度,而lxu,xut是成本函數(shù)相對(duì)于[xt;ut]的海森矩陣;const是常數(shù)項(xiàng)。
當(dāng)代價(jià)函數(shù)為二次函數(shù)且動(dòng)力學(xué)為線性-高斯時(shí),最優(yōu)時(shí)變線性高斯控制器可以通過(guò)LQG方法得到[23]。在LQG設(shè)置中,可以通過(guò)一個(gè)自后向前的動(dòng)態(tài)規(guī)劃算法來(lái)計(jì)算每個(gè)時(shí)間步的Q函數(shù)和值函數(shù):
(16)
其中:下標(biāo)表示導(dǎo)數(shù);Qxut表示在時(shí)間t處關(guān)于[xt;ut]的代價(jià)導(dǎo)數(shù);Qxu,xut是Hessian矩陣;依此類推??梢缘玫阶顑?yōu)控制器g(xt)=Ktxt+kt,其中Kt=-Q-1u,utQu,xt和kt=-Q-1u,utQut。如果將p(τ)視為由確定性控制律g(xt)和隨機(jī)動(dòng)力學(xué)p(xt+1|xt,ut)形成的軌跡分布,那么線性二次調(diào)節(jié)器優(yōu)化標(biāo)準(zhǔn)目標(biāo)為
在利用先驗(yàn)知識(shí)得到策略后,本文通過(guò)該策略執(zhí)行重新采樣,擬合并調(diào)整動(dòng)態(tài)模型,隨后通過(guò)線性二次高斯(LQG)方法對(duì)策略進(jìn)行求解優(yōu)化,使新策略適應(yīng)當(dāng)前環(huán)境。
在策略迭代更新過(guò)程中,為了在不偏離先前軌跡分布p(ut|xt)太多的情況下更新線性高斯控制器p(ut|xt),要求其軌跡分布p(τ)=∏tp(xt+1|xt,ut)p(ut|xt)與先前的分布(τ)之間的偏差在一個(gè)限定的范圍內(nèi),設(shè)立了一個(gè)約束目標(biāo),設(shè)定為
(22)
時(shí),該目標(biāo)可以通過(guò)拉格朗日量除以η得到。因此,可以通過(guò)在修改后的代價(jià)(xt,ut)=1ηl(xt,ut)-log (ut|xt)下求解LQG問(wèn)題來(lái)對(duì)其進(jìn)行求解優(yōu)化,對(duì)偶變量η通過(guò)對(duì)偶梯度下降(dual gradient descent,DGD)獲得,通過(guò)反復(fù)求解LQG問(wèn)題并根據(jù)約束違反量更新η。通過(guò)對(duì)η進(jìn)行區(qū)間線搜索可以將需要的對(duì)偶梯度下降迭代次數(shù)減少到僅3到5次。
2.4 引導(dǎo)策略搜索(GPS)
2.4.1 結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索算法
本研究采用了引導(dǎo)策略搜索算法(guided policy search),目的在于解決連續(xù)動(dòng)作空間的機(jī)器人控制問(wèn)題[25,26]。該算法通過(guò)構(gòu)建馬爾可夫決策過(guò)程(MDP)來(lái)描述任務(wù),然后采用策略搜索方法來(lái)尋找最優(yōu)策略。該算法結(jié)合了基于模型預(yù)測(cè)和優(yōu)化過(guò)程,通過(guò)優(yōu)化技術(shù)來(lái)改進(jìn)策略,提高采樣效率和完成裝配。結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索算法如下:
算法 結(jié)合先驗(yàn)知識(shí)的引導(dǎo)策略搜索算法
輸入:人類專家演示和歷史任務(wù)數(shù)據(jù){τi}。
輸出:最終策略p(ut|xt)。
a) 初始化經(jīng)驗(yàn)池D,其中包含人類專家演示和歷史任務(wù)數(shù)據(jù)τ={x1,u1,x2,u2,…,xt,ut}
b) 使用經(jīng)驗(yàn)池D,初始化動(dòng)力學(xué)模型p(xt+1|xt,ut)
c) 擬合初始控制策略p(ut|xt)
d) 迭代過(guò)程:進(jìn)行k=1到K次的迭代
e) "根據(jù)當(dāng)前策略p(ut|xt),收集軌跡樣本{τi}
f) "更新經(jīng)驗(yàn)池D=(1-αk)Dprior+αkDnew,其中αk=min(k/M,1)為新數(shù)據(jù)注入比例
g) "使用新經(jīng)驗(yàn)池D更新動(dòng)力學(xué)模型p(xt+1|xt,ut)
h) "使用LQR優(yōu)化策略,使策略滿足p(ut|xt)←argminp(ut|xt)Ep[∑Tt=1l(xt,ut)] s.t. DKL(p(τ)‖(τ))≤ε
i) 結(jié)束迭代,輸出最終策略p(ut|xt)
2.4.2 策略應(yīng)用和操作
機(jī)器人進(jìn)行復(fù)雜裝配操作的控制流程,如圖3所示。在機(jī)器人進(jìn)行復(fù)雜裝配任務(wù)時(shí),機(jī)器人通過(guò)視覺(jué)獲取或已知目標(biāo)裝配位置,利用多個(gè)傳感器實(shí)時(shí)收集末端執(zhí)行器特征點(diǎn)位置和速度、關(guān)節(jié)角度和關(guān)節(jié)速度等信息。這些傳感器信息快速傳輸至機(jī)器人控制器,并輸入到GPS策略生成器中。機(jī)器人通過(guò)先驗(yàn)知識(shí)擬合初始策略,基于機(jī)器人傳感器信息獲取到的當(dāng)前狀態(tài),策略輸出下一步動(dòng)作和控制器參數(shù),以適應(yīng)機(jī)器人的動(dòng)態(tài)行為和外部環(huán)境變化。控制器接收策略的輸出后,生成關(guān)節(jié)力矩指令并傳遞給機(jī)器人。機(jī)器人根據(jù)指令執(zhí)行動(dòng)作,并通過(guò)傳感器收集反饋信息,形成閉環(huán)控制。這些反饋信息再次被傳輸至控制器,用于GPS策略的預(yù)測(cè)和調(diào)整。該過(guò)程不斷重復(fù)進(jìn)行,直至裝配任務(wù)完成。這種策略和控制流程的緊密結(jié)合,增強(qiáng)了機(jī)器人在面對(duì)復(fù)雜多變環(huán)境時(shí)的適應(yīng)性和穩(wěn)定性。
3 實(shí)驗(yàn)與結(jié)果
3.1 實(shí)驗(yàn)設(shè)置
本文方法在工業(yè)機(jī)器人敏捷性挑戰(zhàn)賽(Agile Robotics for Industrial Automation Competition,ARIAC)中對(duì)regulator工件的軸孔裝配任務(wù)進(jìn)行了評(píng)估。仿真實(shí)驗(yàn)是在Ubuntu 18.04+Gazebo 9.0.0的環(huán)境下進(jìn)行的,使用的機(jī)器人是Kinova Gen3六自由度機(jī)器人,機(jī)器人控制頻率設(shè)置為20 Hz。在實(shí)驗(yàn)中,本文采用了regulator工件來(lái)進(jìn)行裝配任務(wù)研究,其中regulator工件軸的直徑為26 mm,裝配孔的直徑為34 mm。
實(shí)驗(yàn)場(chǎng)景如圖4所示,能夠觀察到機(jī)械臂在執(zhí)行存在豐富接觸問(wèn)題的軸孔裝配任務(wù)中的裝配初始狀態(tài)和裝配目標(biāo)狀態(tài)。在裝配初始狀態(tài)下,機(jī)器人通過(guò)吸盤吸取regulator工件,工件在裝配位置上方。在裝配目標(biāo)狀態(tài)下,機(jī)器人將regulator工件裝配到相應(yīng)孔中。場(chǎng)景A和B是裝配任務(wù)的兩個(gè)實(shí)驗(yàn)條件,它們具有相同的裝配位置和不同的初始位置。
在每個(gè)實(shí)驗(yàn)條件下,機(jī)器人策略訓(xùn)練的迭代次數(shù)N為20次,每次迭代采集5條軌跡樣本,軌跡樣本長(zhǎng)度T 為100個(gè)時(shí)間步長(zhǎng)。
3.2 數(shù)據(jù)和結(jié)果
在實(shí)驗(yàn)中,使用原GPS方法的初始策略去執(zhí)行軸孔裝配任務(wù),機(jī)器人末端執(zhí)行器最終位置呈現(xiàn)隨機(jī)位置,樣本最終姿態(tài)也是隨機(jī)狀態(tài);使用通過(guò)先驗(yàn)知識(shí)擬合得到的初始策略,機(jī)器人末端執(zhí)行器最終位置接近裝配位置,樣本最終姿態(tài)也接近目標(biāo)姿態(tài)。先驗(yàn)知識(shí)擬合的初始策略生成的軌跡質(zhì)量較高,能夠引導(dǎo)策略較快完成優(yōu)化。
a)將結(jié)合先驗(yàn)知識(shí)的GPS方法與其他方法的學(xué)習(xí)性能進(jìn)行對(duì)比。通過(guò)圖5、6的數(shù)據(jù)分析,可以觀察到結(jié)合先驗(yàn)知識(shí)的GPS方法、GPS方法和PPO方法在機(jī)器人裝配任務(wù)中的性能差異,這種對(duì)比強(qiáng)調(diào)了不同策略在迭代學(xué)習(xí)過(guò)程中達(dá)到收斂的速度和效率。
在總代價(jià)方面,在場(chǎng)景A和B兩個(gè)初始條件下,使用結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法進(jìn)行實(shí)驗(yàn),每種方法的實(shí)驗(yàn)重復(fù)3次,總代價(jià)的均值和誤差范圍如圖5所示。
從圖5可以看出,在迭代的總代價(jià)方面,在場(chǎng)景A中,兩種方法分別在第7和12次達(dá)到收斂,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快41%達(dá)到收斂;在場(chǎng)景B中,兩種方法分別在第7和13次完成收斂,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快46%達(dá)到收斂。結(jié)果表明,將先驗(yàn)知識(shí)擬合策略的初始優(yōu)勢(shì)與GPS算法的優(yōu)化能力結(jié)合,可以顯著加速策略學(xué)習(xí)過(guò)程,快速減小總代價(jià)。
在末端執(zhí)行器最終位置與目標(biāo)位置的距離偏差方面,在場(chǎng)景A和B兩個(gè)初始條件下,使用結(jié)合先驗(yàn)知識(shí)的GPS方法、GPS方法和PPO方法進(jìn)行實(shí)驗(yàn),每種方法的實(shí)驗(yàn)重復(fù)3次,距離偏差的均值和誤差范圍如圖6所示。
從圖6可以看出,在每次迭代的最后時(shí)間步末端執(zhí)行器所有特征點(diǎn)到目標(biāo)位置的距離偏差方面,對(duì)于場(chǎng)景A和B,三種方法在策略訓(xùn)練過(guò)程中都可以實(shí)現(xiàn)軸孔裝配(其中,設(shè)置迭代次數(shù)為橫坐標(biāo)變量,距離偏差為縱坐標(biāo)變量。設(shè)置三種算法均采樣500個(gè)時(shí)間步后更新策略,設(shè)定結(jié)合先驗(yàn)知識(shí)的GPS方法和GPS方法更新一次策略時(shí)為一次迭代,為了更好地觀察PPO方法實(shí)驗(yàn)情況,設(shè)定PPO方法更新四次策略時(shí),為一次迭代,該做法便于觀察三種方法的位置偏差變化趨勢(shì)。設(shè)置將工件插入孔中,距離lt;0.01時(shí)可以認(rèn)為裝配成功)。
在每次迭代的最后時(shí)間步末端執(zhí)行器所有特征點(diǎn)到目標(biāo)位置的距離偏差方面,對(duì)于場(chǎng)景A,結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法,分別在第8和14次迭代實(shí)現(xiàn)軸孔裝配,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快43%實(shí)現(xiàn)軸孔裝配,而PPO方法,約在第66次迭代后,可以實(shí)現(xiàn)軸孔裝配;對(duì)于場(chǎng)景B,結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法,分別在第7和14次迭代實(shí)現(xiàn)軸孔裝配,結(jié)合先驗(yàn)知識(shí)的GPS方法比GPS方法約快50%實(shí)現(xiàn)軸孔裝配,而PPO方法,約在第54次迭代后,可以實(shí)現(xiàn)軸孔裝配。實(shí)驗(yàn)結(jié)果顯示結(jié)合先驗(yàn)知識(shí)的GPS方法與GPS方法以及PPO方法相比,該方法在訓(xùn)練機(jī)器人完成軸孔裝配任務(wù)策略的效率。
b)將基于先驗(yàn)知識(shí)得到的策略與結(jié)合先驗(yàn)知識(shí)的GPS方法得到的策略,進(jìn)行完成regulator工件裝配任務(wù)時(shí)每一時(shí)間步末端執(zhí)行器所有特征點(diǎn)到目標(biāo)位置點(diǎn)的距離對(duì)比。在場(chǎng)景A和B兩個(gè)條件下,兩種策略的實(shí)驗(yàn)重復(fù)3次,任務(wù)執(zhí)行的軌跡均值和誤差范圍如圖7所示。
通過(guò)圖7的比較分析,對(duì)于場(chǎng)景A和B,當(dāng)使用僅基于先驗(yàn)知識(shí)得到的策略時(shí),末端執(zhí)行器的所有特征點(diǎn)到目標(biāo)位置的距離相對(duì)較遠(yuǎn),遠(yuǎn)離零點(diǎn)。盡管先驗(yàn)知識(shí)擬合的策略能夠提供一定的操作指導(dǎo)和初始行為模仿,但它可能缺乏必要的精確控制和適應(yīng)復(fù)雜或動(dòng)態(tài)變化條件的能力,難以適應(yīng)新的工作環(huán)境,該策略難以完成裝配任務(wù)。結(jié)合先驗(yàn)知識(shí)的GPS方法訓(xùn)練的策略顯著改善了末端執(zhí)行器到目標(biāo)位置的精確性,末端執(zhí)行器到目標(biāo)位置的距離接近于零(在實(shí)驗(yàn)中,將工件插入孔中,距離lt;0.01時(shí)可以認(rèn)為裝配成功)。這種改進(jìn)指出GPS方法能有效優(yōu)化先驗(yàn)知識(shí)擬合的初始策略,通過(guò)更精細(xì)的調(diào)整和環(huán)境反饋學(xué)習(xí),實(shí)現(xiàn)對(duì)復(fù)雜動(dòng)態(tài)的適應(yīng),該策略可以實(shí)現(xiàn)復(fù)雜裝配操作。
以上實(shí)驗(yàn)結(jié)果表明通過(guò)使用先驗(yàn)知識(shí),改善了策略在訓(xùn)練過(guò)程中出現(xiàn)局部最小值的問(wèn)題,提高了采樣效率,減少了迭代次數(shù)。結(jié)合先驗(yàn)知識(shí)的GPS方法為解決復(fù)雜裝配任務(wù)提供了一種高效且精確的解決方案。
4 結(jié)束語(yǔ)
本文提出了一種融合先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的機(jī)器人裝配技能學(xué)習(xí)方法,為自動(dòng)化領(lǐng)域技術(shù)的進(jìn)步提供了新的視角。本文方法與傳統(tǒng)從零開(kāi)始的強(qiáng)化學(xué)習(xí)方法不同,它借鑒了人類學(xué)習(xí)技能的自然過(guò)程:首先通過(guò)觀察和模仿獲取初步技能,然后通過(guò)實(shí)踐和調(diào)整來(lái)完善這些技能。本文結(jié)合了這種思想,機(jī)器人通過(guò)先驗(yàn)知識(shí)實(shí)現(xiàn)策略快速初始化,然后將策略在軸孔裝配任務(wù)環(huán)境下約束訓(xùn)練,利用強(qiáng)化學(xué)習(xí)的迭代優(yōu)化提升策略性能,機(jī)器人無(wú)須知道動(dòng)力學(xué)信息,即可較快獲取能夠完成非結(jié)構(gòu)環(huán)境下裝配的策略。因此,將先驗(yàn)知識(shí)與強(qiáng)化學(xué)習(xí)相結(jié)合,提高策略學(xué)習(xí)效率是未來(lái)工作的方向之一。本文僅采用經(jīng)典的圓形軸孔裝配來(lái)驗(yàn)證所提出的方法,未來(lái)將把所提方法應(yīng)用于不規(guī)則形狀或可變形零件的裝配任務(wù)。同時(shí)本文希望能夠引入視覺(jué)模塊,獲取機(jī)器人運(yùn)動(dòng)的圖像樣本,提高樣本豐富度。
參考文獻(xiàn):
[1]高峰, 郭為忠. 中國(guó)機(jī)器人的發(fā)展戰(zhàn)略思考 [J]. 機(jī)械工程學(xué)報(bào), 2016, 52(7): 1-5. (Gao Feng, Guo Weizhong. Thinking of the development strategy of robots in China [J]. Journal of Mechanical Engineering, 2016, 52 (7): 1-5.)
[2]計(jì)時(shí)鳴, 黃希歡. 工業(yè)機(jī)器人技術(shù)的發(fā)展與應(yīng)用綜述 [J]. 機(jī)電工程, 2015, 32(1): 1-13. (Ji Shiming, Huang Xihuan. Review of development and application of industrial robot technology [J]. Journal of Mechanical and Electrical Engineering, 2015, 32 (1): 1-13.)
[3]Taesi C, Aggogeri F, Pellegrini N. COBOT applications—recent advances and challenges [J]. Robotics, 2023, 12(3): 79.
[4]王耀南, 江一鳴, 姜嬌, 等. 機(jī)器人感知與控制關(guān)鍵技術(shù)及其智能制造應(yīng)用 [J]. 自動(dòng)化學(xué)報(bào), 2023, 49(3): 494-513. (Wang Yaonan, Jiang Yiming, Jiang Jiao, et al. Key technologies of robot perception and control and its intelligent manufacturing applications [J]. Acta Automatica Sinica, 2023, 49 (3): 494-513.)
[5]Sadun A S, Jalani J, Sukor J A. An overview of active compliance control for a robotic hand [J]. ARPN Journal of Engineering and Applied Sciences, 2016, 11 (20): 11872-11876.
[6]董豪, 楊靜, 李少波, 等. 基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人運(yùn)動(dòng)控制研究進(jìn)展 [J]. 控制與決策, 2022, 37(2): 278-292. (Dong Hao, Yang Jing, Li Shaobo, et al. Research progress of robot motion control based on deep reinforcement learning [J]. Control and Decision, 2022, 37 (2): 278-292.)
[7]Arents J, Greitans M. Smart industrial robot control trends, challenges and opportunities within manufacturing [J]. Applied Sciences, 2022, 12(2): 937.
[8]Singh B, Kumar R, Singh V P. Reinforcement learning in robotic app-lications: a comprehensive survey [J]. Artificial Intelligence Review, 2022, 55(2): 945-990.
[9]Zhang Tengteng, Mo Hongwei. Reinforcement learning for robot research:a comprehensive review and open issues [J]. International Journal of Advanced Robotic Systems, 2021, 18 (3): 17298814211007305.
[10]Lillicrap T P, Hunt J J, Pritzel A,et al. Continuous control with deep reinforcement learning [EB/OL]. (2015-09-09). https://arxiv.org/abs/1509. 02971.
[11]Schulman J, Wolski F, Dhariwal P,et al. Proximal policy optimization algorithms [EB/OL]. (2017-07-20).https://arxiv.org/abs/1707. 06347.
[12]Haarnoja T, Zhou A, Abbeel P,et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of International Conference on Machine Learning. 2018: 1861-1870.
[13]Levine S, Finn C, Darrell T,et al. End-to-end training of deep visuomotor policies [J]. Journal of Machine Learning Research, 2016, 17 (39): 1-40.
[14]申偉霖, 陳薈慧, 關(guān)柏良, 等. 基于均勻掃描和專注引導(dǎo)策略的自主探索算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(11): 3415-3419. (Shen Weilin, Chen Huihui, Guan Boliang, et al. Autonomous exploration algorithm based on uniform scanning and attentive guidance explorer [J]. Application Research of Computers, 2024, 41 (11): 3415-3419.)
[15]Kroemer O, Niekum S, Konidaris G. A review of robot learning for manipulation:challenges, representations, and algorithms [J]. Journal of machine learning research, 2021, 22 (30): 1-82.
[16]Song Meiping, Gu Guochang, Zhang Rubo. Behavior control of multi-robot using the prior-knowledge based reinforcement learning[C]//Proc of the 5th World Congress on Intelligent Control and Automation. Piscataway,NJ:IEEE Press, 2004: 5027-5030.
[17]Le A T, Guo Meng,Van Duijkeren N, et al. Learning forceful mani-pulation skills from multi-modal human demonstrations[C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2021: 7770-7777.
[18]Qin Fangbo, Xu De, Zhang Dapeng,et al. Robotic skill learning for precision assembly with microscopic vision and force feedback [J]. IEEE/ASME Trans on Mechatronics, 2019, 24 (3): 1117-1128.
[19]Makondo N, Rosman B, Hasegawa O. Knowledge transfer for lear-ning robot models via local Procrustes analysis[C]//Proc of the 15th IEEE-RAS International Conference on Humanoid Robots. Pisca-taway,NJ:IEEE Press, 2015: 1075-1082.
[20]Chen Chengjun, Zhang Hao, Pan Yong,et al. Robot autonomous grasping and assembly skill learning based on deep reinforcement learning [J]. The International Journal of Advanced Manufacturing Technology, 2024, 130 (11): 5233-5249.
[21]Vidakovi J, Jerbi B, ekoranja B,et al. Accelerating robot trajectory learning for stochastic tasks [J]. IEEE Access, 2020, 8: 71993-72006.
[22]Guzman L, Morellas V, Papanikolopoulos N. Robotic embodiment of human-like motor skills via reinforcement learning [J]. IEEE Robotics and Automation Letters, 2022, 7(2): 3711-3717.
[23]Li Weiwei, Todorov E. Iterative linear quadratic regulator design for nonlinear biological movement systems[C]//Proc of the 1st International Conference on Informatics in Control, Automation and Robo-tics.[S.l.]:SciTePress, 2004: 222-229.
[24]Levine S, Koltun V. Guided policy search[C]//Proc of International Conference on Machine Learning. 2013: 1-9.
[25]Levine S, Wagener N, Abbeel P. Learning contact-rich manipulation skills with guided policy search[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2015:156-163.
[26]Dong Qingwei, Zeng Peng, Wan Guangxi,et al. Kalman filter-based one-shot sim-to-real transfer learning [J]. IEEE Robotics and Automation Letters, 2023, 9 (1): 311-318.