中圖分類(lèi)號(hào):TP242.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)06-009-1668-08
doi:10.19734/j.issn.1001-3695.2024.11.0474
Robot motion control strategy based on improved behavior cloning algorithm
Huang Xiaoxia, Yang Bo? ,Xiang Xin,Chen Ling,Chen Zhongxiang,Sun Shunyao, Xiao Hongfeng (College of Engineeringamp; Design,Hunan Normal University,Changsha 41oo81,China)
Abstract:This paper addressed the challenges of complex motion control strategy training,ineffcientand imprecisepath planing executioninrobotsperformingfineoperationssuchasdual-armcooperativeinsertiontasks.Itproposedanimproved robotbehavior cloning algorithmbasedonmulti-scale feature pyramidsandatention mechanisms.Thealgorithmcombinedresidual networksandfeaturepyramidstodesignthebackbone network,extractingandfusingmulti-scaleimagefeatures,which enhancedtherobot’senvironmentalperceptionand visualfeedback capabilities.Itintroducedanactionsegmentation module to improvetheauracyandsmoohnessofcontrol strategies,reducingcompounderrors inbehaviorcloning.Additionally,the algorithmtrainedthecontrol strategyasaconditional varitionalautoencoder(CVAE)using theatentionmechanism to learn thedistributionofdemonstrationdataandcapturethecorelationbetween image features andactions.This appoachimproved thegeneralizationabilityandadaptabilityofthestrategyinunfamiliarenvironments.Simulationresultsshowthattheproposed algorithmoutperformsfivebaselinemodels intermsofsuccessrateandtrajectorysmoothnessintwofineoperationtasks.These results demonstrate thatthe algorithm can execute precise robot fine operation tasks through simple training.
Key words:precision operation of robot;motion control strategy;behavioral cloning;action sequence
0 引言
隨著機(jī)器人技術(shù)的不斷進(jìn)步,雙臂機(jī)器人在工業(yè)、醫(yī)療、家庭等多個(gè)領(lǐng)域的應(yīng)用日益廣泛。然而,精細(xì)的操作任務(wù)如雙臂轉(zhuǎn)移、協(xié)同插孔等,對(duì)機(jī)器人來(lái)說(shuō)是較為困難的,機(jī)器人要完成這些精細(xì)操作,就需要有精確的環(huán)境感知和視覺(jué)反饋以及高效的運(yùn)動(dòng)控制策略[1,2]。大多數(shù)機(jī)器人控制方法[3-5]主要依賴于手動(dòng)設(shè)計(jì)的規(guī)則和傳統(tǒng)的控制算法,難以適應(yīng)精細(xì)化和復(fù)雜化的任務(wù)需求。
近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)[6.7]的進(jìn)步,模仿學(xué)習(xí)方法在機(jī)器人控制技術(shù)中得到了廣泛應(yīng)用[8\~10]。模仿學(xué)習(xí)方法的主要特點(diǎn)在于其能夠通過(guò)觀察和學(xué)習(xí)他人的示范來(lái)獲取技能,而無(wú)須顯式地編程所有可能的情況和反應(yīng)[11\~13]。這種方法尤其適用于需要快速部署和實(shí)時(shí)響應(yīng)的應(yīng)用,如服務(wù)型機(jī)器人和協(xié)作機(jī)器人。此外,模仿學(xué)習(xí)還能夠通過(guò)收集和分析大量的實(shí)際數(shù)據(jù)來(lái)提高機(jī)器人的運(yùn)動(dòng)精度和適應(yīng)性,從而增強(qiáng)其在復(fù)雜環(huán)境中的表現(xiàn)能力。傳統(tǒng)的模仿學(xué)習(xí)方法例如基于高斯混合模型的運(yùn)動(dòng)生成[14]和基于有監(jiān)督學(xué)習(xí)的行為克隆[15],已經(jīng)在機(jī)器人的動(dòng)作規(guī)劃和學(xué)習(xí)中展現(xiàn)出了一定的成效。然而,模仿學(xué)習(xí)方法也存在一些挑戰(zhàn)和局限性。首先,它們通常依賴于高質(zhì)量和多樣性的訓(xùn)練數(shù)據(jù),因此在數(shù)據(jù)獲取和標(biāo)注方面可能會(huì)面臨挑戰(zhàn),為了達(dá)到較好的學(xué)習(xí)效果,模仿學(xué)習(xí)可能需要大量的示范數(shù)據(jù)。在實(shí)際應(yīng)用中,收集這些數(shù)據(jù)可能既費(fèi)時(shí)又費(fèi)力。其次,模仿學(xué)習(xí)方法的泛化能力可能受到限制,特別是在面對(duì)未知環(huán)境或者復(fù)雜的非結(jié)構(gòu)化任務(wù)時(shí),因?yàn)槟7聦W(xué)習(xí)學(xué)到的行為通常是靜態(tài)的,不會(huì)根據(jù)環(huán)境的變化或反饋進(jìn)行調(diào)整,這限制了模型在面對(duì)環(huán)境變化時(shí)的適應(yīng)性,所以模仿學(xué)習(xí)方法在處理動(dòng)態(tài)和不確定性方面可能表現(xiàn)不佳。而且模仿學(xué)習(xí)在許多復(fù)雜任務(wù)中存在累積誤差的問(wèn)題,這些因素都可能影響機(jī)器人在實(shí)際應(yīng)用中的穩(wěn)定性和可靠性[16]。為了解決這些問(wèn)題,一些研究提出基于模仿學(xué)習(xí)改進(jìn)的機(jī)器人運(yùn)動(dòng)控制方法,文獻(xiàn)[17]以物體投擲作為激勵(lì)用例,參考多種輸入數(shù)據(jù)模態(tài),通過(guò)動(dòng)作捕捉技術(shù)收集到的數(shù)據(jù)用于訓(xùn)練模型。文獻(xiàn)[18]通過(guò)雙邊控制和模仿學(xué)習(xí),機(jī)器人能夠?qū)W習(xí)如何在人機(jī)協(xié)作環(huán)境中控制動(dòng)態(tài)交互,提高了機(jī)器人在復(fù)雜環(huán)境中的適應(yīng)能力。文獻(xiàn)[19]通過(guò)引入自然語(yǔ)言,建立了人類(lèi)專(zhuān)家與機(jī)器人之間的有效溝通渠道,可以傳達(dá)任務(wù)的關(guān)鍵方面。文獻(xiàn)[20]通過(guò)結(jié)合RGB-D圖像和隱馬爾可夫模型提高機(jī)器人模仿學(xué)習(xí)的智能層次,并能夠處理中間邏輯關(guān)系。文獻(xiàn)[21]通過(guò)改進(jìn)交叉熵?fù)p失和引入噪聲網(wǎng)絡(luò)模型來(lái)增強(qiáng)模仿學(xué)習(xí)在對(duì)抗攻擊和噪聲干擾下的魯棒性。文獻(xiàn)22]引入能夠?qū)W習(xí)示教數(shù)據(jù)分布的條件變分自編碼器(CVAE)方法到行為克隆中,將來(lái)自相機(jī)的RGB圖像映射到動(dòng)作,并提出動(dòng)作分塊和時(shí)間集成提升策略的平滑性。上述文獻(xiàn)局限于無(wú)法做到簡(jiǎn)單的訓(xùn)練與生成的控制策略高精度、高泛化性并存。
為了更精確、高效地執(zhí)行機(jī)器人運(yùn)動(dòng)控制,本文提出了一種基于多尺度特征金字塔和注意力機(jī)制改進(jìn)的機(jī)器人行為克隆算法。通過(guò)引入特征金字塔模塊加強(qiáng)backbone網(wǎng)絡(luò)提取圖像特征的能力,以提高機(jī)器人對(duì)運(yùn)動(dòng)環(huán)境的目標(biāo)檢測(cè)能力;使用多層自注意力模塊、交叉注意力模塊組成CVAE解碼器以加強(qiáng)模型對(duì)序列中不同位置元素之間關(guān)系的理解,生成機(jī)器人在當(dāng)前觀察下更精確、高效的動(dòng)作序列。
本文工作的貢獻(xiàn)如下:
a)提出一種引入多尺度特征金字塔融合不同尺度特征的backbone網(wǎng)絡(luò)(F-backbone),提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境中目標(biāo)物的能力。b)提出一種結(jié)合多層自注意力模塊、交叉注意力模塊的CVAE解碼器網(wǎng)絡(luò)(A-CVAE),加強(qiáng)模型對(duì)圖像關(guān)鍵信息的聚焦能力,捕獲圖像特征和動(dòng)作的相關(guān)性以生成更精準(zhǔn)、高效的機(jī)器人動(dòng)作序列。c)提出一種基于多尺度特征金字塔和注意力機(jī)制改進(jìn)的機(jī)器人行為克隆算法(FA-BC),實(shí)現(xiàn)精確、高效的機(jī)器人運(yùn)動(dòng)策略。d)通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了所提算法在雙臂機(jī)器人物品轉(zhuǎn)移、插孔等精細(xì)操作任務(wù)中的優(yōu)越性,特別是在成功率和軌跡平滑方面。
1問(wèn)題描述
模仿學(xué)習(xí)使機(jī)器人能夠通過(guò)觀察人類(lèi)或其他機(jī)器人(稱(chēng)為“專(zhuān)家示范者”)的行為來(lái)學(xué)習(xí)新的技能,即利用高質(zhì)量的決策示例來(lái)生成類(lèi)似決策。模仿學(xué)習(xí)主要有三個(gè)部分構(gòu)成,首先是策略神經(jīng)網(wǎng)絡(luò),其次是專(zhuān)家示范動(dòng)作,第三是環(huán)境模擬器。對(duì)于一個(gè)馬爾可夫決策過(guò)程框架:
M=(S,A,P,R,γ,ρ)
其中: s 和A分別是狀態(tài)和動(dòng)作空間; 指定了環(huán)境轉(zhuǎn)移概率:
指定了獎(jiǎng)勵(lì); γ∈(0,1] 是折扣因子 ;ρ 指定了初始狀態(tài)分布。由專(zhuān)家策略 πE 收集到的數(shù)據(jù)集為 D={(si,ai)}i=1m ,其中每一個(gè)狀態(tài)動(dòng)作對(duì)是由 πE 和環(huán)境交互產(chǎn)生的。決策者的目標(biāo)是找到一個(gè)穩(wěn)態(tài)策略 π:SΔ(A) 來(lái)使累計(jì)獎(jiǎng)勵(lì)最大化,公式為
(204號(hào) (2)并最小化與專(zhuān)家策略的值函數(shù)差異:
,即期望 π 能從專(zhuān)家示例中很好地恢復(fù)出專(zhuān)家的決策行為來(lái)使得決策者的值函數(shù)比較大。
1.1專(zhuān)家示范數(shù)據(jù)構(gòu)建
對(duì)于模仿學(xué)習(xí)來(lái)說(shuō),首先需要專(zhuān)家給出一些模仿的數(shù)據(jù),稱(chēng)為專(zhuān)家示范數(shù)據(jù),通常是專(zhuān)家去觀測(cè)當(dāng)前時(shí)刻的環(huán)境是怎樣的狀態(tài),專(zhuān)家在這個(gè)狀態(tài)下給出什么動(dòng)作,動(dòng)作作用于環(huán)境之后會(huì)進(jìn)入下一狀態(tài),在這個(gè)新的狀態(tài)下專(zhuān)家又做出什么動(dòng)作,將這一系列數(shù)據(jù)延續(xù)下去,將其命名為專(zhuān)家示范數(shù)據(jù)集。通過(guò)將專(zhuān)家示范數(shù)據(jù)集分解為狀態(tài)與動(dòng)作的對(duì)應(yīng)關(guān)系,機(jī)器學(xué)習(xí)中的模仿學(xué)習(xí)便是在這些數(shù)據(jù)基礎(chǔ)上,學(xué)習(xí)到一種較為優(yōu)秀的策略。
1.2行為克隆
模仿學(xué)習(xí)最主流的方法是行為克隆。行為克隆通過(guò)監(jiān)督學(xué)習(xí)的方式,讓機(jī)器學(xué)習(xí)狀態(tài)和動(dòng)作之間的相對(duì)應(yīng)關(guān)系。首先,算法將專(zhuān)家的示范數(shù)據(jù)拆分成狀態(tài)和動(dòng)作對(duì),這些數(shù)據(jù)就變成了有標(biāo)記的數(shù)據(jù)。然后將狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,將動(dòng)作作為神經(jīng)網(wǎng)絡(luò)的輸出,通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓機(jī)器學(xué)習(xí)狀態(tài)和動(dòng)作之間的映射關(guān)系。
行為克隆算法學(xué)習(xí)方法如圖1所示。首先把訓(xùn)練數(shù)據(jù)分成訓(xùn)練集合與驗(yàn)證集合,通過(guò)最小化訓(xùn)練集的誤差來(lái)進(jìn)行訓(xùn)練,直到驗(yàn)證集的誤差不再收斂。訓(xùn)練完成后將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)應(yīng)用于實(shí)際環(huán)境中,從環(huán)境中獲取當(dāng)前狀態(tài),利用神經(jīng)網(wǎng)絡(luò)決定相應(yīng)的動(dòng)作,并作用于環(huán)境,如此循環(huán)直到任務(wù)完成,以評(píng)估訓(xùn)練效果。
1.3 行為克隆的不足
即使有高質(zhì)量的演示,行為克隆也需要精確的視覺(jué)反饋,如圖2所示,預(yù)測(cè)動(dòng)作中的小錯(cuò)誤會(huì)導(dǎo)致?tīng)顟B(tài)的大差異,加劇模仿學(xué)習(xí)的復(fù)合誤差問(wèn)題。假設(shè)可以尋找到一個(gè)策略 π ,其與最優(yōu)策略的損失函數(shù)值小于給定的精度 ? ,這個(gè)策略與專(zhuān)家策略的決策質(zhì)量上有如式(3)所示的保證:
可以看到,損失函數(shù)值越小,兩者的值函數(shù)差異越小。這個(gè)差異是以 1/(1-γ)2 的速度在放大。這個(gè)現(xiàn)象在模仿學(xué)習(xí)中被稱(chēng)作為復(fù)合誤差,綜合來(lái)看,它的誤差在每一步累積,而且隨著其誤差的累積,它會(huì)越來(lái)越脫離原來(lái)訓(xùn)練時(shí)候的數(shù)據(jù),導(dǎo)致行為克隆雖然用起來(lái)很方便,但是它的效果會(huì)很有限。然而在機(jī)器人的精細(xì)操作任務(wù)中,如果機(jī)器沒(méi)有辦法完全復(fù)制專(zhuān)家的行為,產(chǎn)生了一點(diǎn)偏差,最后得到的結(jié)果就會(huì)差很多。此外,當(dāng)訓(xùn)練數(shù)據(jù)少的時(shí)候,模型無(wú)法訓(xùn)練出完整的策略分布,而且行為克隆算法只能依賴已有的數(shù)據(jù)和模式,即只能復(fù)制專(zhuān)家示范者在訓(xùn)練數(shù)據(jù)中展示的行為,如果遇到訓(xùn)練數(shù)據(jù)中沒(méi)有見(jiàn)過(guò)的情況,由于缺乏適應(yīng)性和創(chuàng)造性,算法無(wú)法獨(dú)立生成新的解決方案或適應(yīng)未知的變化環(huán)境,泛化能力較差。
2改進(jìn)行為克隆算法
為解決行為克隆算法復(fù)合誤差的問(wèn)題,本文基于多尺度特征金字塔設(shè)計(jì)了融合不同尺度特征的backbone網(wǎng)絡(luò),提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境和視覺(jué)反饋的能力。為了進(jìn)一步提高策略的精準(zhǔn)性,引入動(dòng)作分塊和時(shí)間集成,策略預(yù)測(cè)了接下來(lái) k 個(gè)時(shí)間步的自標(biāo)關(guān)節(jié)位置,并在重疊的動(dòng)作塊上進(jìn)行平均,以產(chǎn)生既準(zhǔn)確又平滑的軌跡。
為解決行為克隆算法只能簡(jiǎn)單復(fù)制專(zhuān)家示范者的行為,泛化性能不足的局限,本文引人能夠?qū)W習(xí)示教數(shù)據(jù)分布的條件變分自編碼器(CVAE)方法以捕獲數(shù)據(jù)中的可變性。如圖3所示,基于自注意力模塊、交叉注意力模塊設(shè)計(jì)CVAE,將機(jī)器人控制策略訓(xùn)練為一個(gè)生成模型,由輸入的機(jī)器人當(dāng)前環(huán)境的RGB圖像和關(guān)節(jié)位置生成下一時(shí)間段的機(jī)器人動(dòng)作序列。
2.1基于特征金字塔的backbone 網(wǎng)絡(luò)模塊
為了提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境和視覺(jué)反饋的能力,本文設(shè)計(jì)了基于特征金字塔的backbone網(wǎng)絡(luò)用于從輸人的機(jī)器人運(yùn)動(dòng)場(chǎng)景RGB圖像中提取多尺度特征,通過(guò)特征金字塔網(wǎng)絡(luò)(FPN)增強(qiáng)這些特征的表達(dá)能力。如圖4所示,輸入圖像首先通過(guò)ResNet提取特征,然后FPN處理這些特征以生成不同尺度的特征圖。最后,將特征圖與位置編碼相結(jié)合,為后續(xù)任務(wù)提供富含位置信息的特征表示。整個(gè)網(wǎng)絡(luò)能夠有效地捕捉圖像中的多尺度信息和位置關(guān)系,從而提高視覺(jué)任務(wù)的性能。
FPN包含自下而上網(wǎng)絡(luò)、自上而下網(wǎng)絡(luò)、橫向連接。最左側(cè)為ResNet18,用于提取圖像特征,ResNet的核心公式為 y= F(x,Wi)+x ,通過(guò)將輸入特征 x 與殘差映射 F 相加,得到輸出y,ResNet 的殘差塊可以表示為 y=H(x)+x ,輸出特征由殘差塊中的卷積層組 H(x) 和輸入特征組成。如圖4所示,C1標(biāo)識(shí)了ResNet的前幾個(gè)卷積層和池化層,而C2~C5則分別對(duì)應(yīng)于ResNet中的不同卷積模塊。這些模塊內(nèi)部包含了多個(gè)Bottle-neck單元,每個(gè)模塊內(nèi)部的特征圖尺寸保持一致,而不同模塊間的特征圖尺寸則逐級(jí)減小。特征金字塔網(wǎng)絡(luò)(FPN)輸出四個(gè)不同尺度的特征圖,根據(jù) RoI 的大小,選擇相應(yīng)的特征圖進(jìn)行特征提?。狠^大的 RoI 會(huì)在更深的特征圖如P5上進(jìn)行提取,而較小的 RoI 則會(huì)在較淺的特征圖如P2上進(jìn)行提取,F(xiàn)PN的級(jí)別 (Pk) 是通過(guò)式(4)。
將寬度為 w 、高度為 h 的 RoI 分配得來(lái)的,224是標(biāo)準(zhǔn)的ImageNet 預(yù)訓(xùn)練大小,對(duì)于 ResNet,k0 設(shè)置為4。FPN的上采樣模塊為
y=F(x)+U(y′)
其中: y′ 是上采樣模塊的輔助特征; F(x) 是上采樣模塊的卷積層; U(y′) 是上采樣模塊的上采樣操作;FPN的下采樣模塊為
y=D(x)
D(x) 是下采樣模塊的卷積層。首先,通過(guò)在C5上執(zhí)行1×1 卷積操作來(lái)減少通道數(shù),進(jìn)而生成 P5 。接著,對(duì)P5執(zhí)行上采樣操作以獲得P4、P3和P2,這一過(guò)程的目的是為了得到與C4、C3和C2尺寸一致的特征圖,以便于后續(xù)進(jìn)行逐元素加和。這里使用的是2倍最近鄰上采樣方法,在生成的圖像中,位置 (i,j) 的像素值直接由原圖中位置 (2i,2j) 的像素值復(fù)制而來(lái),而不是采用非線性插值。為了將上采樣后的高語(yǔ)義特征與較淺層的精確定位特征相結(jié)合,上采樣后的特征圖在尺寸上與對(duì)應(yīng)的淺層特征圖匹配,并將通道數(shù)統(tǒng)一調(diào)整為512。因此,需要對(duì)C2\~C4的特征圖進(jìn)行卷積處理,使其通道數(shù)也達(dá)到512,之后進(jìn)行逐元素加和以形成P4、P3和P2。由于C1的特征圖尺寸較大且包含的語(yǔ)義信息有限,故未將其納入橫向連接。在完成特征圖的逐元素加和之后,通過(guò) 3×3 卷積進(jìn)一步融合P2~P4,以消除上采樣過(guò)程中產(chǎn)生的混疊效應(yīng),并生成最終的特征圖。FPN通過(guò)將深層語(yǔ)義信息傳遞到更淺層,增強(qiáng)了淺層特征的語(yǔ)義信息,從而實(shí)現(xiàn)了具有高分辨率和豐富語(yǔ)義信息的特征提取。將ResNet18與FPN相結(jié)合,backbone網(wǎng)絡(luò)能夠同時(shí)利用深度的表示能力和多尺度的上下文信息,從而更好地感知機(jī)器人運(yùn)動(dòng)場(chǎng)景中的目標(biāo)物并作出相應(yīng)的視覺(jué)反饋。
2.2動(dòng)作分塊和時(shí)間集成模塊
為了進(jìn)一步減少模仿學(xué)習(xí)中的復(fù)合誤差,產(chǎn)生既準(zhǔn)確又平滑的軌跡,本文引入一種與像素到動(dòng)作策略兼容的方式來(lái)減少高頻收集的長(zhǎng)軌跡的有效視域,參考文獻(xiàn)[22]把動(dòng)作分塊和時(shí)間集成加到策略中,基于Transformers實(shí)現(xiàn)動(dòng)作分塊策略,通過(guò)動(dòng)作分塊來(lái)減少任務(wù)的有效視界。對(duì)于每種任務(wù),策略都預(yù)測(cè)了接下來(lái) k 個(gè)時(shí)間步的目標(biāo)關(guān)節(jié)位置,而不僅僅是一次一步,即預(yù)測(cè)一個(gè)動(dòng)作序列而不是單個(gè)動(dòng)作,并在重疊的動(dòng)作塊上進(jìn)行平均,將個(gè)體動(dòng)作進(jìn)行分組并作為一個(gè)單元執(zhí)行,從而更有效地存儲(chǔ)和執(zhí)行。例如,雙臂插孔協(xié)作任務(wù)的一組動(dòng)作可以對(duì)應(yīng)于抓住凹槽和插銷(xiāo)或?qū)⒉邃N(xiāo)插入凹槽中。如圖5所示,動(dòng)作塊大小固定為 k :每 k 步接收一個(gè)觀察,并生成下一組的 k 個(gè)動(dòng)作,然后依次執(zhí)行這些動(dòng)作,這意味著任務(wù)的有效視界減少了 k 倍。
策略模擬 而不是
。單步策略將對(duì)抗與時(shí)間相關(guān)的干擾因素,例如示范數(shù)據(jù)的過(guò)程中間出現(xiàn)暫停,因?yàn)樾袨椴粌H取決于狀態(tài)還取決于時(shí)間步長(zhǎng)。通過(guò)采用動(dòng)作分塊方法可以緩解這種混淆。這樣做可以使不同的動(dòng)作塊相互重疊,在給定的時(shí)間步長(zhǎng)上產(chǎn)生多個(gè)預(yù)測(cè)動(dòng)作。時(shí)間集成通過(guò)加權(quán)平均對(duì)這些預(yù)測(cè)進(jìn)行處理,指數(shù)加權(quán)公式為
其中: ??w0 表示最早動(dòng)作的權(quán)重,新觀察到達(dá)時(shí)速度由參數(shù) m 決定,較小的 ∣m∣ 意味著更快地納人新觀察。與典型平滑方法不同(當(dāng)前動(dòng)作與相鄰時(shí)間步中的動(dòng)作被聚合在一起,那樣會(huì)引入偏差),只將同一時(shí)間步內(nèi)的預(yù)測(cè)動(dòng)作進(jìn)行聚合,在 t=n 時(shí)最終采用什么動(dòng)作,由 t=0,t=1,t=2,…,t=k-1 這 k 段進(jìn)行指數(shù)加權(quán)平均,最終能夠產(chǎn)生準(zhǔn)確且平滑流暢的機(jī)器人運(yùn)動(dòng)效果。
2.3基于注意力改進(jìn)的CVAE模塊
行為克隆算法只能簡(jiǎn)單復(fù)制專(zhuān)家示范者的行為,如果遇到訓(xùn)練數(shù)據(jù)中沒(méi)有見(jiàn)過(guò)的情況,算法很容易生成錯(cuò)誤的行為,無(wú)法正確地泛化到新的環(huán)境中。因此本文將策略訓(xùn)練為條件變分自編碼器(CVAE),使模型能學(xué)習(xí)示教數(shù)據(jù)分布,捕捉數(shù)據(jù)的可變性。結(jié)合多層自注意力模塊、交叉注意力模塊設(shè)計(jì)了CVAE解碼器網(wǎng)絡(luò),加強(qiáng)模型對(duì)圖像關(guān)鍵信息的聚焦能力,捕獲圖像特征和動(dòng)作的相關(guān)性以生成更精準(zhǔn)、高效的機(jī)器人動(dòng)作序列。
首先采集機(jī)器人的運(yùn)動(dòng)場(chǎng)景RGB圖像,以及兩個(gè)七自由度機(jī)器人手臂的關(guān)節(jié)位置(總共 7+7=14 自由度)作為模型的輸入。CVAE包括CVAE編碼器和CVAE解碼器,編碼器包含一個(gè)Transformerencoder,解碼器包含一個(gè)修改后的Transformerencoder和一個(gè)修改后的Transformerdecoder,如圖6、7所示。使用圖6底部藍(lán)色所示(見(jiàn)電子版)的CVAE編碼器推斷機(jī)器人的動(dòng)作類(lèi)型變量z。在編碼器的輸入階段,將隨機(jī)初始化的學(xué)習(xí)權(quán)值[CLS]token、關(guān)節(jié)位置的嵌人表示embeddedjoints和動(dòng)作序列的嵌入表示embeddedactionsequence合并成一個(gè)序列。為了將關(guān)節(jié)位置和動(dòng)作序列轉(zhuǎn)換成適合Transformer編碼器的格式,使用線性層linearlayer1將動(dòng)作序列從 k×14 維投影到 k×512 維,使用線性層linearlayer2將關(guān)節(jié)位置從14維投影到512維。合并這三個(gè)輸入后,形成了 (k+2)× embedding-dimension的序列,即 (k+2)×512 。編碼器對(duì)輸入序列進(jìn)行處理后只取第一個(gè)輸出 z 變量,這個(gè)輸出對(duì)應(yīng)于[CLS]標(biāo)記,指定了機(jī)器人的動(dòng)作類(lèi)型。然后,使用另一個(gè)線性網(wǎng)絡(luò)來(lái)預(yù)測(cè)分布的均值和方差,并將它們參數(shù)化為對(duì)角高斯分布。為了在采樣過(guò)程中進(jìn)行反向傳播,使用了重新參數(shù)化的方法,這種方法允許在采樣過(guò)程中對(duì)編碼器和解碼器進(jìn)行聯(lián)合優(yōu)化。然后將z變量輸入圖6上部分的CVAE解碼器中的Transformerencoder。
圖6中Transformerencoder的輸入還有來(lái)自經(jīng)backbone網(wǎng)絡(luò)提取得到的機(jī)器人運(yùn)動(dòng)場(chǎng)景RGB圖像的特征序列。每個(gè)圖像通過(guò)ResNet18處理,得到一個(gè) 15×20×728 的特征圖。然后,這個(gè)特征圖被壓平為一個(gè) 300×728 的特征序列,再通過(guò)一個(gè)線性層投影到512維的嵌入空間,并添加了一個(gè)2D正弦位置嵌人來(lái)保留空間信息。接下來(lái),對(duì)來(lái)自 n 個(gè)攝像機(jī)的圖像重復(fù)上述操作,將來(lái)自每個(gè)攝像機(jī)的特征序列連接起來(lái),得到一個(gè) n×300×512 的特征序列,作為T(mén)ransformerencoder的輸人之一。Transformerencoder的最后一個(gè)輸入是機(jī)器人當(dāng)前的關(guān)節(jié)位置joints。關(guān)節(jié)位置joints和類(lèi)型變量 z 分別通過(guò)線性層投影到512維。最終,Transformer編碼器的輸入是形成一個(gè)[(n×300)+2]×512 的特征序列,它包含了來(lái)自 n 張圖像的特征、關(guān)節(jié)位置和類(lèi)型變量的特征。Transformerencoder layer通過(guò)兩個(gè)多頭自注意力層來(lái)編碼輸人序列,每個(gè)自注意力層后接一個(gè)殘差連接和層歸一化,通過(guò)自注意力機(jī)制捕捉序列內(nèi)部的依賴關(guān)系,并經(jīng)前饋網(wǎng)絡(luò)提供非線性變換以增強(qiáng)表示能力,同時(shí)使用dropout和層歸一化來(lái)穩(wěn)定訓(xùn)練并防止過(guò)擬合,最終得到輸入序列經(jīng)過(guò)編碼后的表示,這些表示捕捉了序列內(nèi)部的長(zhǎng)距離依賴關(guān)系和非線性特征。具體而言,輸入序列首先通過(guò)第一個(gè)自注意力層捕捉輸入序列中不同位置的依賴關(guān)系,計(jì)算出每個(gè)位置的上下文表示,接著是一個(gè)前饋神經(jīng)網(wǎng)絡(luò),包括兩個(gè)線性層和激活函數(shù),用于在每個(gè)位置上進(jìn)一步處理和轉(zhuǎn)換特征及非線性變換,同樣通過(guò)殘差連接和層歸一化處理。然后經(jīng)過(guò)第二個(gè)自注意力層,讓模型在不同的注意力機(jī)制下學(xué)習(xí)輸入序列的不同特征和關(guān)系,進(jìn)一步提取和整合輸入序列的信息,以及捕獲更復(fù)雜的序列依賴關(guān)系。Transformerencoderlayer引入了額外的注意力計(jì)算,允許模型在不同的注意力機(jī)制下學(xué)習(xí)輸人序列的不同特征和關(guān)系,更好地捕捉輸入序列中的長(zhǎng)距離依賴關(guān)系和更復(fù)雜的模式,使得模型能夠更好地適應(yīng)復(fù)雜的序列建模任務(wù)。
如圖7,CVAE解碼器中Transformerdecoder的輸入包含兩部分:一部分是固定維度的正弦位置嵌入,作為解碼器的查詢(query),維度為 k×512 ;另一部分是來(lái)自Transformerencoder輸出的特征,這些特征在解碼器的交叉注意力層中作為鍵(keys)和值(values)。Transformerdecoderlayer包含三個(gè)多頭注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò),每個(gè)組件都通過(guò)殘差連接和層歸一化進(jìn)行處理。第一個(gè)自注意力層處理目標(biāo)序列以捕捉序列內(nèi)部的依賴關(guān)系,第二個(gè)交叉注意力層(編碼器-解碼器注意力)使用編碼器記憶(memory)和位置編碼(pos)對(duì)經(jīng)過(guò)自注意力調(diào)整后的目標(biāo)序列進(jìn)行注意力計(jì)算,將目標(biāo)序列與編碼器的輸出相結(jié)合以考慮上下文信息,用于處理輸入序列中不同位置之間的關(guān)系和重要性,接著通過(guò)線性變換和激活函數(shù)(linearl,activation,linear2)實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程,用于增強(qiáng)特征表示和提高模型的非線性建模能力。然后經(jīng)過(guò)添加的第三個(gè)交叉注意力層再次對(duì)目標(biāo)序列和編碼器記憶進(jìn)行注意力計(jì)算,進(jìn)一步加強(qiáng)模型對(duì)輸入序列信息的理解和處理能力,更有效地捕捉目標(biāo)序列和記憶之間的復(fù)雜依賴關(guān)系,進(jìn)而增加了模型的深度和復(fù)雜度,幫助模型更好地適應(yīng)和學(xué)習(xí)復(fù)雜的序列關(guān)系、更好地捕捉和處理序列內(nèi)部的復(fù)雜依賴關(guān)系,從而提升了模型的泛化能力和性能表現(xiàn)。整個(gè)結(jié)構(gòu)通過(guò)dropout來(lái)進(jìn)行正則化和減少過(guò)擬合,并通過(guò)位置編碼來(lái)考慮序列的位置信息。最后輸出得到經(jīng)過(guò)編碼和處理的目標(biāo)序列表示,它包含了輸入序列經(jīng)過(guò)多層變換后的豐富特征表示,輸出維度同樣是k×512 ,然后通過(guò)一個(gè)多層感知機(jī)(MLP)進(jìn)行下投影,將輸出維度降至 k×14 ,這對(duì)應(yīng)于接下來(lái) k 個(gè)步驟的預(yù)測(cè)目標(biāo)關(guān)節(jié)位置。通過(guò)這種方式,解碼器在接收到編碼器的輸出后,能夠精確、高效地預(yù)測(cè)接下來(lái)的動(dòng)作序列。CVAE編碼器只在訓(xùn)練策略時(shí)使用,在測(cè)試時(shí)丟棄CVAE編碼器,將 z 設(shè)置為先驗(yàn)的平均值(即零)。策略直接將來(lái)自商品網(wǎng)絡(luò)相機(jī)的RGB圖像映射到動(dòng)作,生成以當(dāng)前觀察為條件的動(dòng)作序列。
結(jié)合上述三大模塊組成最終的基于改進(jìn)行為克隆算法,首先訓(xùn)練生成機(jī)器人控制策略,然后測(cè)試策略的有效性,算法偽代碼如下:
算法1用于訓(xùn)練機(jī)器人控制策略的算法輸入:專(zhuān)家示范數(shù)據(jù) D ,動(dòng)作分塊尺寸 k ,權(quán)重 β 輸出:生成預(yù)測(cè)動(dòng)作 的機(jī)器人控制策略 πθ 。初始化 χt 時(shí)間步的動(dòng)作和觀察分別為 at ,
表示沒(méi)有圖像觀察的 ot ,初始化encoder
;//初始化編碼器生成 z 的分布初始化decoder
;//初始化解碼器生成策略for n=1 to N dosample ot,at:t+k from
獲取機(jī)器人運(yùn)動(dòng)場(chǎng)景觀察和動(dòng)作sample z from
//獲取機(jī)器人動(dòng)作類(lèi)型變量zpredict
from
/根據(jù)策略預(yù)測(cè)動(dòng)作(20
//重構(gòu)損失(20
//正則化損失update θ ? with ADAM and L=Lreconst+βLreg (204號(hào)//更新參數(shù)并計(jì)算總的損失算法2用于測(cè)試機(jī)器人控制策略的算法輸入:訓(xùn)練好的策略 πθ ,決策次數(shù) T ,權(quán)重 m? 輸出;機(jī)器人在當(dāng)前狀態(tài)的下一組動(dòng)作序列
。初始化FIFO緩沖器 B[0;T] , B[t] 存儲(chǔ)時(shí)間步 χt 的預(yù)測(cè)動(dòng)作;for t=1,2,…,T dopredict
with
where z=0 (20//將編碼器丟棄后預(yù)測(cè)動(dòng)作add
to buffers
respectively//添加預(yù)測(cè)動(dòng)作到緩沖器中obtain current step actions At=B[t] //獲取當(dāng)前步驟動(dòng)作apply
,with
2//應(yīng)用權(quán)重計(jì)算當(dāng)前要執(zhí)行的動(dòng)作
3 仿真實(shí)驗(yàn)與分析
本章使用對(duì)比實(shí)驗(yàn)對(duì)改進(jìn)后的行為克隆算法進(jìn)行分析和驗(yàn)證。實(shí)驗(yàn)環(huán)境:Ubuntu20.04.6LTS(FocalFossa)操作系統(tǒng)、NVIDIAGeForceRTX4090顯卡、13thGenIntelCorei9-13900K處理器的計(jì)算機(jī),仿真平臺(tái)MuJoCo2.3.7。仿真實(shí)驗(yàn)的目的是通過(guò)模擬一個(gè)真實(shí)的雙臂機(jī)器人精細(xì)操作環(huán)境,用FA-BC算法與模仿學(xué)習(xí)中一些先進(jìn)的算法如ACT、BC-ConvMLP、BeT、RT-1、VINN進(jìn)行比較,從而驗(yàn)證本文算法在雙臂機(jī)器人精細(xì)操作方面的卓越表現(xiàn),并設(shè)計(jì)消融實(shí)驗(yàn)測(cè)試F-backbone網(wǎng)絡(luò)和A-CVAE解碼器對(duì)優(yōu)化行為克隆算法的影響。
實(shí)驗(yàn)所用的超參數(shù)如表1所示。
3.1仿真對(duì)比實(shí)驗(yàn)設(shè)計(jì)
本文在 MuJoCo 中構(gòu)建了兩個(gè)模擬的雙臂機(jī)器人精細(xì)操作任務(wù)環(huán)境。任務(wù)一:雙臂協(xié)作傳送立方體,環(huán)境中包含左右兩個(gè)機(jī)械臂和一個(gè)紅色立方體,首先由右臂撿起桌子上的紅色立方體,然后將其放在另一只手臂的夾持器內(nèi)。由于立方體和左夾鉗之間的間隙很?。s 1cm ),小錯(cuò)誤會(huì)導(dǎo)致碰撞和任務(wù)失敗。任務(wù)二:雙臂協(xié)作插孔任務(wù),環(huán)境包含左右兩個(gè)機(jī)械臂和一個(gè)藍(lán)色的凹槽和紅色的插銷(xiāo),左臂和右臂需要分別拿起凹槽和插銷(xiāo),凹槽內(nèi)設(shè)計(jì)有一個(gè)用于感應(yīng)插銷(xiāo)正確插入的引腳,然后雙臂在空中完成插孔操作,使插銷(xiāo)無(wú)碰撞準(zhǔn)確接觸到凹槽內(nèi)的引腳,插入階段的間隙約為 5mm 。兩個(gè)任務(wù)的初始環(huán)境如圖8所示。環(huán)境在每次加載開(kāi)始時(shí)被初始化,其中紅色方塊及藍(lán)色凹槽和紅色插銷(xiāo)(見(jiàn)電子版)的初始位置在每次加載仿真環(huán)境時(shí)都會(huì)隨機(jī)化產(chǎn)生。
如圖9所示,任務(wù)一雙臂協(xié)作傳送立方體的目標(biāo)是使用兩個(gè)機(jī)械臂將一個(gè)紅色方塊從右手轉(zhuǎn)移到左手,并且在轉(zhuǎn)移過(guò)程中確保方塊不接觸桌子。評(píng)定標(biāo)準(zhǔn)基于方塊與左右手抓取器的接觸狀態(tài)以及是否接觸桌子來(lái)給予獎(jiǎng)勵(lì)。具體來(lái)說(shuō),任務(wù)提供了以下獎(jiǎng)勵(lì):獎(jiǎng)勵(lì) 1(reward=1 ),當(dāng)方塊被右手抓取時(shí);獎(jiǎng)勵(lì)2(reward =2 ),當(dāng)方塊被右手抓取并且已經(jīng)抬起,即方塊已離開(kāi)桌子;獎(jiǎng)勵(lì)3(reward °=3 ),當(dāng)方塊開(kāi)始嘗試從右手轉(zhuǎn)移到左手時(shí);獎(jiǎng)勵(lì)4(reward O=4 ),當(dāng)方塊成功從右手轉(zhuǎn)移到左手,并且不再接觸桌子時(shí)。獎(jiǎng)勵(lì)函數(shù)通過(guò)檢測(cè)方塊與左右手抓取器以及桌子之間的接觸狀態(tài)來(lái)確定獎(jiǎng)勵(lì)值。如果方塊同時(shí)與左右手抓取器接觸,則不給予獎(jiǎng)勵(lì)。此外,如果方塊接觸桌子,則視為失敗,獎(jiǎng)勵(lì)為0。任務(wù)的最終目標(biāo)是獲得最大的獎(jiǎng)勵(lì)4,表示方塊成功從右手轉(zhuǎn)移到左手,且在轉(zhuǎn)移過(guò)程中沒(méi)有接觸桌子。
如圖10所示,任務(wù)二雙臂協(xié)作插孔任務(wù)的目標(biāo)是通過(guò)兩個(gè)機(jī)械臂,將一個(gè)紅色插銷(xiāo)插入到藍(lán)色凹槽中,同時(shí)確保在插入過(guò)程中插銷(xiāo)和凹槽不接觸桌子。任務(wù)的評(píng)定標(biāo)準(zhǔn)基于方塊與機(jī)械臂抓取器之間的接觸狀態(tài),以及方塊是否接觸桌子。具體來(lái)說(shuō),任務(wù)提供了以下獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)1 ),當(dāng)方塊被左右手抓取器同時(shí)接觸時(shí);獎(jiǎng)勵(lì) 2(reward=2) ),當(dāng)方塊被左右手抓取器同時(shí)接觸,并且沒(méi)有接觸桌子時(shí),表示方塊已經(jīng)被抓取并準(zhǔn)備插入;獎(jiǎng)勵(lì)3 reward=3 ),當(dāng)方塊與插座接觸,并且沒(méi)有接觸桌子時(shí),表示方塊已經(jīng)開(kāi)始插入過(guò)程;獎(jiǎng)勵(lì) 4(reward=4 ),當(dāng)方塊與插座接觸,并且與引腳接觸時(shí),表示方塊已經(jīng)成功插入到插座中。獎(jiǎng)勵(lì)函數(shù)通過(guò)檢測(cè)方塊與左右手抓取器、插座、桌子以及釘子之間的接觸狀態(tài)來(lái)確定獎(jiǎng)勵(lì)值。如果方塊同時(shí)與左右手抓取器接觸,則不給予獎(jiǎng)勵(lì)。此外,如果方塊接觸桌子,則視為失敗,獎(jiǎng)勵(lì)為0。任務(wù)的最終目標(biāo)是獲得最大的獎(jiǎng)勵(lì)4,表示方塊成功插人到插座中,且在插入過(guò)程中沒(méi)有接觸桌子。
通過(guò)在這兩個(gè)模擬的機(jī)器人精細(xì)操作環(huán)境中進(jìn)行仿真實(shí)驗(yàn),能夠更全面地評(píng)估所提出的基于改進(jìn)行為克隆算法的機(jī)器人運(yùn)動(dòng)控制策略在面對(duì)多樣化的機(jī)器人精細(xì)操作任務(wù)時(shí)的高性能和適用力。
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 對(duì)比實(shí)驗(yàn)
本文首先使用腳本收集機(jī)器人在所創(chuàng)建仿真環(huán)境下的50次專(zhuān)家示范數(shù)據(jù)。然后將50次專(zhuān)家示范數(shù)據(jù)輸人CVAE訓(xùn)練機(jī)器人控制策略,最后將訓(xùn)練好的策略在仿真環(huán)境中進(jìn)行測(cè)試運(yùn)行。對(duì)于兩個(gè)任務(wù),調(diào)節(jié)動(dòng)作分塊 k 的大小發(fā)現(xiàn),k在100時(shí)策略性能都表現(xiàn)最佳,因此,將 k 固定為100以訓(xùn)練生成策略,對(duì)每個(gè)任務(wù)設(shè)置3個(gè)隨機(jī)種子,每次測(cè)試運(yùn)行50次雙臂機(jī)器人精細(xì)操作任務(wù)策略評(píng)估。表2報(bào)告了將本文算法(FA-BC)與五種經(jīng)典模仿學(xué)習(xí)方法進(jìn)行比較的結(jié)果,根據(jù)不同算法在兩個(gè)任務(wù)中每次評(píng)估得到的獎(jiǎng)勵(lì)值統(tǒng)計(jì),表2記錄了兩個(gè)仿真任務(wù)在所有測(cè)試中每一個(gè)獎(jiǎng)勵(lì)值對(duì)應(yīng)的子任務(wù)的成功率。
BC-ConvMLP[23] 是最簡(jiǎn)單但使用最廣泛的基線,其通過(guò)級(jí)聯(lián)卷積層和多層感知器(MLP)層來(lái)逐步提取特征,并利用邊界感知機(jī)制提高對(duì)目標(biāo)物體邊界的識(shí)別能力,但其訓(xùn)練難度較大、實(shí)時(shí)性較差且感知和控制網(wǎng)絡(luò)沒(méi)有聯(lián)合優(yōu)化;RT-1[24]是另一種基于Transformer的架構(gòu),它可以根據(jù)過(guò)去固定長(zhǎng)度的觀察歷史來(lái)預(yù)測(cè)一個(gè)動(dòng)作,不足在于對(duì)初始目標(biāo)定位敏感;BeT(boundary-enhanced Transformer)[25]和RT-1都將動(dòng)作空間離散化,輸出是離散倉(cāng)上的分類(lèi)分布,BeT從倉(cāng)中心添加了連續(xù)偏移,能夠有效提高分割邊界的準(zhǔn)確性,但計(jì)算資源消耗較大,且對(duì)訓(xùn)練數(shù)據(jù)量和質(zhì)量有較高要求。VINN(variationalinferenceneuralnetwork)[26]通過(guò)在神經(jīng)網(wǎng)絡(luò)中嵌入變分推理步驟來(lái)估計(jì)模型參數(shù)的分布,能夠處理帶噪聲或不完整的數(shù)據(jù),并給出概率性的預(yù)測(cè),但計(jì)算復(fù)雜度高,優(yōu)化困難,且對(duì)于超參數(shù)的選擇較為敏感;2023年由斯坦福大學(xué)Zhao等人提出的低成本機(jī)器人操作系統(tǒng)ALOHA(alow-cost open-source hardware sys-temforbimanualteleoperation)中的ACT算法將控制策略訓(xùn)練為CVAE編碼器,直接由輸入圖像預(yù)測(cè)機(jī)器人的連續(xù)動(dòng)作,該算法在單物品精細(xì)操作中表現(xiàn)較好,但在需要力反饋及物品接觸類(lèi)的精細(xì)操作任務(wù)中操作精度不足、任務(wù)成功率不高。本文算法可以直接由圖像預(yù)測(cè)機(jī)器人的連續(xù)動(dòng)作,在兩個(gè)精細(xì)操作任務(wù)的單步成功率、最終成功率上都高于其他五個(gè)基線,最終成功率在涉及物品接觸的插孔任務(wù)中比表現(xiàn)第二好的ACT高出20百分點(diǎn),在單物品轉(zhuǎn)移任務(wù)上比ACT高7百分點(diǎn)。這表明本文提出的算法在機(jī)器人精細(xì)操作任務(wù)中具有更高的精度和效率,機(jī)器人能更好地感知機(jī)器人運(yùn)作的環(huán)境,并生成更精準(zhǔn)和高效的動(dòng)作序列。
圖11記錄了本文算法生成的機(jī)器人運(yùn)動(dòng)控制策略在仿真任務(wù)中機(jī)器人運(yùn)動(dòng)過(guò)程的關(guān)節(jié)角度變化。圖11的左、右部分分別記錄了左、右機(jī)械臂各7個(gè)關(guān)節(jié)的狀態(tài)和命令角度變化,左右臂共14個(gè)關(guān)節(jié)的真實(shí)運(yùn)動(dòng)狀態(tài)(state)與期望的關(guān)節(jié)運(yùn)動(dòng)命令(command)能較好地重合,說(shuō)明機(jī)器人能精確地執(zhí)行運(yùn)動(dòng)控制。
圖12和13記錄了機(jī)器人在轉(zhuǎn)移任務(wù)和插孔任務(wù)中的運(yùn)動(dòng)過(guò)程,在兩項(xiàng)仿真任務(wù)中,雙臂機(jī)器人能執(zhí)行平滑的運(yùn)動(dòng)軌跡,無(wú)抖動(dòng)、跳變等不穩(wěn)定的運(yùn)動(dòng)產(chǎn)生。這表明本文算法在隨機(jī)初始化的機(jī)器人精細(xì)操作任務(wù)中能產(chǎn)生既準(zhǔn)確又平滑的運(yùn)動(dòng)軌跡。
3.2.2消融實(shí)驗(yàn)
本節(jié)進(jìn)行了一系列的消融實(shí)驗(yàn),旨在研究基于特征金字塔的backbone網(wǎng)絡(luò)模塊和基于注意力改進(jìn)的CVAE模塊對(duì)本算法訓(xùn)練得到的機(jī)器人控制策略性能的影響。表3報(bào)告了逐步消融這些組件中的每一個(gè)后在兩個(gè)仿真任務(wù)中機(jī)器人精細(xì)操作測(cè)試的最終成功率??梢钥吹?,消融融合特征金字塔的backbone網(wǎng)絡(luò),僅用ResNet提取特征時(shí),兩個(gè)仿真任務(wù)的最終成功率分別下降了4和12百分點(diǎn);消融基于注意力改進(jìn)的CVAE模塊,使用類(lèi)似文獻(xiàn)22]中的基礎(chǔ)CVAE編碼器時(shí),兩個(gè)仿真任務(wù)的最終成功率分別下降了2和4百分點(diǎn);當(dāng)消融以上兩個(gè)組件時(shí),兩個(gè)仿真任務(wù)的最終成功率分別下降了7和20百分點(diǎn)。
F-backbone網(wǎng)絡(luò)融合了特征金字塔,能夠從不同尺度的特征層次中獲取信息,從而提高網(wǎng)絡(luò)對(duì)場(chǎng)景的識(shí)別能力。在機(jī)器人精細(xì)操作任務(wù)中,操作細(xì)節(jié)往往需要通過(guò)不同尺度的特征來(lái)精確判斷,而特征金字塔能夠有效地捕捉到這些多層次的細(xì)節(jié)信息,并對(duì)多尺度信息有效地整合。消融了這一模塊后,使用單一尺度的 ResNet 喪失了對(duì)細(xì)粒度特征的捕捉能力,因此導(dǎo)致了成功率的下降。A-CVAE模塊引入了基于注意力機(jī)制的改進(jìn),能夠在生成任務(wù)中聚焦于更為重要的特征或區(qū)域,減少噪聲和無(wú)關(guān)信息的干擾,增強(qiáng)對(duì)關(guān)鍵信息的提取能力。在精細(xì)操作任務(wù)中,注意力機(jī)制能讓模型更加專(zhuān)注于與操作相關(guān)的重要特征,從而提高了任務(wù)執(zhí)行的精度和成功率。消融了這一模塊后,模型失去了這種精細(xì)的關(guān)注能力,導(dǎo)致任務(wù)成功率有所下降。F-backbone網(wǎng)絡(luò)主要負(fù)責(zé)從輸入數(shù)據(jù)中提取多尺度的特征,而A-CVAE模塊則通過(guò)生成潛在空間和使用注意力機(jī)制對(duì)任務(wù)進(jìn)行建模。這兩個(gè)模塊的結(jié)合使得機(jī)器人能夠更加精細(xì)地處理輸入信息,生成準(zhǔn)確的控制策略。在缺少這兩個(gè)模塊的情況下,機(jī)器人控制系統(tǒng)失去了對(duì)輸入特征的精確提取能力和對(duì)任務(wù)關(guān)鍵區(qū)域的關(guān)注,從而導(dǎo)致了較大的性能下降。以上實(shí)驗(yàn)結(jié)果和分析說(shuō)明本文設(shè)計(jì)的F-backbone網(wǎng)絡(luò)和A-CVAE解碼器能有效提高機(jī)器人精細(xì)操作任務(wù)的效率和精度。
4結(jié)束語(yǔ)
本文針對(duì)機(jī)器人在進(jìn)行雙臂協(xié)同插孔等精細(xì)操作時(shí)面臨的運(yùn)動(dòng)控制模型訓(xùn)練復(fù)雜、環(huán)境感知和視覺(jué)反饋能力差及路徑規(guī)劃執(zhí)行效率低下和精度不足的問(wèn)題,提出了一種新型的改進(jìn)機(jī)器人行為克隆算法(FA-BC)。該算法通過(guò)結(jié)合特征金字塔和ResNet設(shè)計(jì),能提取并融合多尺度特征的backbone網(wǎng)絡(luò),加強(qiáng)機(jī)器人對(duì)運(yùn)動(dòng)場(chǎng)景中自標(biāo)物的感知和視覺(jué)反饋能力;為了進(jìn)一步降低行為克隆算法的復(fù)合誤差并加強(qiáng)策略生成動(dòng)作的平滑性,引入動(dòng)作分塊和時(shí)間集成,以產(chǎn)生既準(zhǔn)確又平滑的軌跡。為了更簡(jiǎn)單地訓(xùn)練策略,提升行為克隆算法在未知環(huán)境的適應(yīng)性和創(chuàng)造性,加強(qiáng)策略的泛化能力,將機(jī)器人控制策略訓(xùn)練為CVAE,即一個(gè)動(dòng)作序列生成模型,基于注意力機(jī)制重新設(shè)計(jì)CVAE解碼器,提高模型對(duì)圖像關(guān)鍵信息的聚焦能力,更好地捕獲圖像特征和動(dòng)作的相關(guān)性,生成更精準(zhǔn)、高效的機(jī)器人動(dòng)作序列。由于基于注意力機(jī)制重新設(shè)計(jì)的CVAE解碼器添加了額外的注意力計(jì)算,在提升性能的同時(shí)增加了模型訓(xùn)練的計(jì)算量和內(nèi)存,后續(xù)將進(jìn)一步研究如何減少模型的訓(xùn)練復(fù)雜度和加快模型訓(xùn)練的收斂速度。本研究未涉及在存在障礙物的情況下進(jìn)行避障運(yùn)動(dòng)規(guī)劃,且未在實(shí)體機(jī)器人上進(jìn)行實(shí)驗(yàn),后續(xù)將進(jìn)一步增加機(jī)器人操作環(huán)境的復(fù)雜度,并用實(shí)體機(jī)器人驗(yàn)證算法的可靠性。
參考文獻(xiàn):
[1]郭憲,方勇純.仿生機(jī)器人運(yùn)動(dòng)步態(tài)控制:強(qiáng)化學(xué)習(xí)方法綜述 [J].智能系統(tǒng)學(xué)報(bào),2020,15(1):152-159.(GuoXian,F(xiàn)ang Yongchun.Locomotion gait-control for bionic robots:a review of reinforcement learningmethods[J].CAAl Transon Intelligent Systems,2020,15(1):152-159.)
[2] 羅欣,丁曉軍.地面移動(dòng)作業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃與控制研究綜述 [J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2021,53(1):1-15.(Luo Xin,Ding Xiaojun.Research and prospective on motion planning and control of ground mobile manipulators[J].Journal of Harbin lnstituteof Technology,2021,53(1):1-15.)
[3]艾福強(qiáng),包建東,劉正權(quán).基于粒子群優(yōu)化模糊PID控制的多足 式真空吸附機(jī)器人控制方案設(shè)計(jì)[J].電子測(cè)量技術(shù),2023,46 (2):67-72. (Ai Fuqiang,Bao Jiandong,Liu Zhengquan. Design of multilegged vacuum adsorption robot control scheme based on PSOfuzzy PID control[J].Electronic Measurement Technology, 2023,46(2):67-72.)
[4]甄富帥,宋光明,毛巨正,等.基于STM32的夾爪式蛇形機(jī)器人 控制系統(tǒng)設(shè)計(jì)[J].儀表技術(shù)與傳感器,2022(9):96-100. (ZhenFushuai,Song Guangming,Mao Juzheng,et al.Design of control system for claw-clamping snake robot based on STM32[J]. Instrument Technique and Sensor,2022(9):96-100.)
[5]宮赤坤,吳潯煒,袁立鵬.基于阻抗和虛擬模型的四足機(jī)器人控 制方法[J].系統(tǒng)仿真學(xué)報(bào),2022,34(10):2152-2161.(Gong Chikun,Wu Xunwei,Yuan Lipeng. Control of quadruped robot based onimpedance and virtual model[J].Journal of System Simulation,2022,34(10):2152-2161.)
[6]閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研 究,2004,13(7):4-10.(Yan Youbiao,Chen Yuanyan.A survey onmachine learning andits main strategy [J]. Application Research of Computers,2004,21(7):4-10,13.)
[7]Hua Jiang,Zeng Liangcai,Li Gongfa,et al.Learning for a robot: deep reinforcement learning,imitation learning,transfer learning [J].Sensors,2021,21(4):1278.
[8]李忠偉,劉偉鵬,羅傯.基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu) 化算法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(5):1456-1461.(Li Zhongwei,Liu Weipeng,Luo Cai.Autonomous navigation policy optimization algorithm for mobile robots based on trajectory guidance[J]. Application Research of Computers,2024,41(5):1456-1461.)
[9]李至,潘越,陳殿生,等.基于模仿學(xué)習(xí)的眼底手術(shù)行為機(jī)器人復(fù) 現(xiàn)[J].機(jī)器人,2024,46(3):361-369.(LiZhi,PanYue,Chen Diansheng,et al. Fundus surgical behavior reproduction of robot based on imitation learning[J].Robot,2024,46(3):361-369.)
[10]王浩杰,陶冶,魯超峰,基于碰撞預(yù)測(cè)的強(qiáng)化模仿學(xué)習(xí)機(jī)器人導(dǎo) 航方法[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(10):341-352.(Wang Haojie,Tao Ye,Lu Chaofeng.Reinforcement imitationlearning method based on collision prediction for robots navigation[J].Computer Engineering and Applications,2024,60(10):341-352.)
[11]邢志偉,張前前,羅謙,等.基于模仿學(xué)習(xí)的機(jī)場(chǎng)停機(jī)位再分配決 策算法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(9):2665-2670.(Xing Zhiwei,ZhangQianqian,Luo Qian,etal.Decision-makingalgorithm for airport gate reassignment based on imitation learning[J]. Application Research of Computers,2022,39(9):2665-2670.)
[12]AhmedH,MohamedMG,EyadE,etal.Imitationlearning:a survey of learning methods[J].ACM Computing Surveys,2017,50 (2):1-35.
[13]閆子晨.協(xié)作機(jī)器人模仿學(xué)習(xí)運(yùn)動(dòng)規(guī)劃與軌跡跟蹤控制研究 [D].北京:北京科技大學(xué),2023.(Yan Zichen.Imitation learning based on motion planning and trajectory tracking control for collaborative robots[D].Beijing:Beijing Keji University,2023.)
[14]Yuan Yuan,Liu Jie,Chi Wenzheng,et al. A gaussian mixture model based fast motion planning method through online environmental featurelearning[J].IEEE Trans on Industrial Electronics,2022, 70(4) : 3955-3965.
[15]Felipe C,Eder S,Antonio M,et al.Exploring the limitations of behavior cloning for autonomous driving[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9329-9338.
[16]FangBin,Jia Shidong,GuoDi,et al.Survey of imitation learning for robotic manipulation [J]. International Journal of Intelligent Robotics and Applications,2019,3(4):362-369.
[17]RacinskisP,ArentsJ,Greitans M.A motion capture and imitation learning based approach to robot control[J].Applied Sciences, 2022,12(14): 7186.
[18]Sasagawa A,F(xiàn)ujimoto K,Sakaino S,et al. Imitation learning based onbilateral control for human-robot cooperation[J].IEEE Robotics andAutomationLetters,2020,5(4):6169-6176.
[19]Stepputtis S,Campbell J,Phielipp M,et al.Language-conditioned imitation learning for robot manipulation tasks[J].Advancesin Neural Information Processing Systems,2020,33:13139-13150.
[20]于旭,陶先童,寧丹陽(yáng),等.RGB-D圖像引導(dǎo)的機(jī)器人操作任務(wù) 模仿學(xué)習(xí)[J].組合機(jī)床與自動(dòng)化加工技術(shù),2023(4):165- 168,173.(Yu Xu,Tao Xiantong,Ning Danyang,et al. Imitation learning of robot operation task based on RGB-D image[J].Modular Machine Tool amp; Automatic Manufacturing Technique,2023(4): 165-168,173.)
[21]李曉豪,鄭海斌,王雪柯,等.基于改進(jìn)交叉熵的模仿學(xué)習(xí)魯棒性 增強(qiáng)方法[J].控制與決策,2024,39(3):768-776.(Li Xiaohao, Zheng Haibin,Wang Xueke,et al. Imitation learning robustness enhancement based on modified cross entropy[J].Control and Decision,2024,39(3):768-776.)
[22]Zhao TZ,Kumar V,LevineS,et al. Learning fine-grained bimanual manipulation with low-cost hardware[EB/OL].(2023-04-23) [2024-07-24]. htps://arxiv.org/pdf/2304.13705.
[23]LiJiachen,Hassani A,Walton S,et al.ConvMLP:hierarchical convolutional MLPs for vision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:6307-6316.
[24]BrohanA,BrownN,Carbajal J,etal.RT-1:robotics Transformer forreal-world control at scale[EB/OL].(2023-08-11)[2024-07- 24].https://arxiv.org/pdf/2212.06817.
[25]Lin Xian,Yu Li,Cheng K T,et al.BATFormer:towards boundaryaware lightweight transformer for efficient medical image segmentation [J].IEEE Journal of Biomedical and Health Informatics,2023, 27(7):3501-3512.
[26]Ferianc M,F(xiàn)an Hongxiang,Rodrigues M.VINNAS:variational inference-based neural network architecture search[EB/OL]. (2021-01-14)[2024-07-24].hps://ar-xiv.org/pdf/2007.06103.