中圖分類號:TP242;TG248 DOI:10.16578/j.issn.1004.2539.2025.07.019
0 引言
近年來,工業(yè)機(jī)器人在特定結(jié)構(gòu)化環(huán)境中的應(yīng)用日益普及,顯著提升了生產(chǎn)效率。然而,面對非特定任務(wù)時(shí),機(jī)器人示教編程仍存在過程煩瑣、學(xué)習(xí)成本高等問題。因此,如何讓機(jī)器人具備自主學(xué)習(xí)新技能的能力,成為當(dāng)前研究的熱點(diǎn)。目前,強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)和深度學(xué)習(xí)[-2等先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)已成功應(yīng)用于機(jī)器人的技能學(xué)習(xí)。在各種學(xué)習(xí)方法中,從演示中學(xué)習(xí)已被證明是一種最有效的方法,可以讓機(jī)器人模仿人類的行為,最終掌握操作技能[3-4]
演示學(xué)習(xí)的核心問題是演示軌跡樣本的編碼與泛化。對此,國內(nèi)外學(xué)者提出了許多演示學(xué)習(xí)算法,進(jìn)行軌跡的有效編碼與泛化,例如:動態(tài)運(yùn)動基元[5]33-33l]((Dynamical Movement Primitive,DMP)、概率運(yùn)動基元[72616-24(Probabilitic MovementPrimitive,ProMP)和高斯混合模型與回歸(GaussianMixtureMod-el-GaussianMixtureRegression,GMM-GMR)等以及相關(guān)改進(jìn)算法[8-9]。這些算法中,DMP具有高度的非線性特性和高實(shí)時(shí)性,已被廣泛應(yīng)用于機(jī)器人的各個(gè)領(lǐng)域。DMP是一種基于2階動力學(xué)系統(tǒng)的運(yùn)動基元算法,其數(shù)學(xué)模型由線性彈簧阻尼系統(tǒng)和一個(gè)可學(xué)習(xí)的非線性項(xiàng)組成。其中,非線性項(xiàng)是多個(gè)基函數(shù)的線性組合,能夠用于擬合軌跡形狀,通常使用局部加權(quán)最小二乘[]、遞歸最小二乘[等方法進(jìn)行參數(shù)求解。
盡管DMP在軌跡編碼和泛化上具備一定優(yōu)勢,但DMP屬于單樣本學(xué)習(xí)算法,單次演示具有很強(qiáng)的隨機(jī)性和不確定性,難以直接用于演示軌跡學(xué)習(xí)。為了學(xué)習(xí)多條演示軌跡的特征,GINESI等2通過引入一個(gè)額外的變量對多個(gè)相似軌跡建模,提高了DMP的泛化能力;PARASCHOS等[7]2616-2624提出ProMP方法進(jìn)行軌跡分布建模,使用與DMP相似的非線性項(xiàng),并引入高斯分布對演示軌跡進(jìn)行建模。上述算法雖已成功應(yīng)用于不同的演示任務(wù)學(xué)習(xí)[13-14],但存在過多的超參數(shù),容易使參數(shù)估計(jì)陷入局部最優(yōu)。文獻(xiàn)[15]1521-1544和文獻(xiàn) [16]17-20 采用高斯混合模型(Gauss-ianMixtureModel,GMM)和高斯混合回歸(GaussianMixtureRegression,GMR)作為基元進(jìn)行軌跡編碼,模型參數(shù)通過期望最大化(ExpectationMaximization,EM)算法學(xué)習(xí)。然而,在進(jìn)行GMM軌跡編碼時(shí),高斯函數(shù)的個(gè)數(shù)無法確定;基于期望最大化算法進(jìn)行參數(shù)估計(jì)時(shí),需要反復(fù)計(jì)算數(shù)據(jù)的協(xié)方差,存在計(jì)算效率低的問題。
針對上述問題,本文在文獻(xiàn)[15]521-1544和文獻(xiàn)[16]17-45 的基礎(chǔ)上,提出一種復(fù)合DMP算法。首先,通過GMM進(jìn)行多條演示軌跡的建模,使用DMP對高斯混合回歸軌跡進(jìn)行學(xué)習(xí),克服DMP單樣本學(xué)習(xí)的缺陷;為了提高GMM的軌跡建模效率,使用路徑積分和Welford公式增量式計(jì)算演示軌跡數(shù)據(jù)所屬分布、均值和協(xié)方差,從而實(shí)現(xiàn)GMM參數(shù)的在線更新;最后,設(shè)計(jì)并完成了手寫體字母多軌跡建模和商標(biāo)紙拆垛軌跡學(xué)習(xí)與泛化試驗(yàn)。試驗(yàn)結(jié)果表明,本文所提方法具有快速多軌跡建模能力和穩(wěn)定的泛化能力。
1復(fù)合動態(tài)運(yùn)動基元算法
復(fù)合動態(tài)運(yùn)動基元算法流程如圖1所示。在軌跡演示過程中,使用增量式參數(shù)更新策略進(jìn)行高斯混合模型的參數(shù)計(jì)算。得到模型參數(shù)后,使用動態(tài)運(yùn)動基元進(jìn)行高斯混合回歸軌跡學(xué)習(xí),并在新的工作位置完成軌跡泛化。
1.1動態(tài)運(yùn)動基元算法
DMP是由IJSPEERT等[5]33-335在2002年提出的,其基本思想是在一個(gè)簡單穩(wěn)定的動態(tài)系統(tǒng)中引入非線性函數(shù),并通過非線性函數(shù)控制系統(tǒng)的運(yùn)動過程,使系統(tǒng)最終達(dá)到目標(biāo)吸引子狀態(tài)。具體表達(dá)式為
式中, τ 為時(shí)間常數(shù),用于控制系統(tǒng)的時(shí)間縮放; 為系統(tǒng)的加速度; α 和 β 均為正的系統(tǒng)參數(shù),在合適的參數(shù)選擇下,系統(tǒng)會達(dá)到臨界阻尼狀態(tài); xg 為系統(tǒng)的目標(biāo)位置; x 為系統(tǒng)的位置;
為系統(tǒng)的速度;f(t) 為非線性強(qiáng)制項(xiàng); χt 為時(shí)間。對非線性項(xiàng)進(jìn)行建模,可以實(shí)現(xiàn)DMP對不同目標(biāo)位置軌跡的泛化。強(qiáng)制項(xiàng)由徑向基核函數(shù)線性加權(quán)表示,一般為
式中, φi(t) 為徑向基核函數(shù); wi 為基函數(shù)對應(yīng)的權(quán)重值; N?1 為基函數(shù)的數(shù)目,其大小取決于演示軌跡的復(fù)雜程度。
為了避免顯式時(shí)間依賴,引入標(biāo)準(zhǔn)的1階動力學(xué)衰減系統(tǒng),即
式中, γ 為衰減系數(shù); s 為相位變量。強(qiáng)制項(xiàng)可以進(jìn)一步改寫為
對于該系統(tǒng)來說,從任意初始位置開始,令 s 的值從1單調(diào)收斂到0,同時(shí)系統(tǒng)從初始位置收斂至目標(biāo)位置??梢圆捎镁植考訖?quán)回歸對權(quán)重參數(shù) wi 進(jìn)行估計(jì),以保證參數(shù)學(xué)習(xí)速度。在單次的演示過程中,記錄下軌跡點(diǎn)的位置、速度和加速度數(shù)據(jù)序列 ,就可以估算出 f 將演示軌跡數(shù)據(jù)代入到式(1)中,得到強(qiáng)制項(xiàng)為
在進(jìn)行權(quán)重參數(shù)求解時(shí),可以將式(4)改寫為線性組合形式,即
f(wi,s)=Tw
式中, T 為回歸矩陣; w=[w1 , w2 wN1Jr 。 T 的具體表達(dá)式為
定義損失函數(shù)為
利用最小二乘法求取 J 的極小值,可以得到對應(yīng)的最佳權(quán)重并擬合出演示軌跡序列,從而給出學(xué)習(xí)后的軌跡數(shù)據(jù)。對于初始位置和目標(biāo)位置發(fā)生改變的情況,可以將相位變量重置為1,并根據(jù)式(1)重新計(jì)算能夠適應(yīng)新的目標(biāo)位置的軌跡數(shù)據(jù)。DMP的優(yōu)點(diǎn)在于計(jì)算效率高,且模型能夠很好地保留演示軌跡的形狀和運(yùn)動特征。然而,DMP是單樣本學(xué)習(xí)算法,無法實(shí)現(xiàn)多條演示軌跡的學(xué)習(xí)。因此,本研究將對DMP算法做出改進(jìn)。
1. 2 高斯混合模型
為了將DMP算法推廣到多演示軌跡學(xué)習(xí)中,本文采用高斯混合模型與回歸的方法對多條演示軌跡進(jìn)行建模,并使用DMP對高斯回歸軌跡進(jìn)行學(xué)習(xí)。假設(shè)共進(jìn)行了 n 次演示,可將采集到的軌跡數(shù)據(jù)表示為 X={X1 , X2 ,…, 其中,單次演示軌跡表示為 Xi∈X,i=1 ,2,…, n 。這些軌跡數(shù)據(jù)包含在有限高斯混合模型中。假設(shè)數(shù)據(jù)來自以下分布
式中, k 為高斯函數(shù)的個(gè)數(shù); πc 為混合系數(shù); μc 和 分別為高斯分布的均值和協(xié)方差。在給定一組觀測值 x1 , x2 ,…, xn 時(shí),可以采用EM算法進(jìn)行最大似然估計(jì),即通過EM算法對數(shù)據(jù)進(jìn)行高斯混合模型的擬合。具體步驟是:首先,初始化均值、協(xié)方差和混合系數(shù);其次,在E步驟和M步驟之間交替進(jìn)行,不斷調(diào)整先驗(yàn)參數(shù) πc 和GMM模型的高斯函數(shù)參數(shù)(均值 μc 和協(xié)方差矩陣
)。
在E步驟中,使用當(dāng)前的參數(shù)值,對所有 i= 1,2,…, Ωn 和所有 c=1 ,2,…, k 計(jì)算以下后驗(yàn)概率:
在 M 步驟中,使用 γ(zic) 的值重新估計(jì)參數(shù):
式中,
1.3在線參數(shù)辨識算法
采用GMM的軌跡編碼方式可以充分利用多條演示軌跡數(shù)據(jù),提取更多的運(yùn)動特征,從而將DMP算法推廣到多演示軌跡學(xué)習(xí)。然而,在上述EM算法進(jìn)行GMM參數(shù)估計(jì)時(shí),需要獲取所有演示軌跡后才能進(jìn)行迭代求解,整體計(jì)算效率較低。針對上述問題,本節(jié)提出一種高效的GMM參數(shù)估計(jì)方法。該方法采用增量式更新策略,在采樣過程中僅利用單個(gè)采樣點(diǎn)進(jìn)行參數(shù)估計(jì),從而顯著提升計(jì)算效率。算法運(yùn)行過程如圖2所示。
進(jìn)行參數(shù)估計(jì)時(shí),GMM的高斯分布個(gè)數(shù)k需要人工預(yù)先指定,并進(jìn)行多次測試才能確認(rèn)合適的取值。因此,本節(jié)通過設(shè)置軌跡長度閾值進(jìn)行k值的自適應(yīng)更新。首先,通過路徑點(diǎn)的離散積分計(jì)算軌跡長度 L [式(14)];然后,基于軌跡長度確定高斯分布個(gè)數(shù) k [式(15)]。 k 值隨著軌跡長度的變化進(jìn)行動態(tài)更新。
式中, Δxi=xi-xi-1?Δyi=yi-yi-1?Δzi=zi-zi-1 分別表示第 i 次采樣點(diǎn)坐標(biāo)和第 i-1 次采樣點(diǎn)坐標(biāo)的前向差分值; λ 表示長度閾值,當(dāng)某個(gè)高斯分布距離超過 λ 時(shí),產(chǎn)生新的高斯分布。經(jīng)過現(xiàn)場進(jìn)行的多次反復(fù)試驗(yàn)可知,演示軌跡的長度主要集中在0.1~2m 。進(jìn)一步試驗(yàn)表明,當(dāng)將長度閾值 λ 設(shè)定為0.1m 時(shí),算法能夠適應(yīng)這一區(qū)間范圍內(nèi)的軌跡學(xué)習(xí)需求。
最后,采用Welford公式增量計(jì)算數(shù)據(jù)點(diǎn)所屬分布的均值和協(xié)方差,實(shí)現(xiàn)GMM參數(shù)的在線更新。有
綜上所述,增量式高斯混合模型參數(shù)估計(jì)算法如算法1所示。
1.4 高斯混合回歸
通過上述求解方法,可以得到更新后的GMM參數(shù) ,
,
;然后,采用高斯混合回歸方法生成期望軌跡。具體做法是:將數(shù)據(jù)分為輸入、輸出兩部分 (x0|x1) ,且滿足
根據(jù)式(18)和式(19)所示分解方式,可以得到給定輸入下期望輸出的條件概率,即
式中,
然后,根據(jù)高斯分布的特性,可以得到輸人輸出數(shù)據(jù)的期望和協(xié)方差之間的關(guān)系,即
最后,可以得到期望輸出,即
2 試驗(yàn)分析與討論
2.1 試驗(yàn)平臺
試驗(yàn)平臺如圖3所示。其中,機(jī)器人為6自由度工業(yè)機(jī)器人,各個(gè)關(guān)節(jié)上安裝有高精度光電編碼器以進(jìn)行位置反饋,末端執(zhí)行器上配備有專用夾具以進(jìn)行商標(biāo)紙抓取。演示學(xué)習(xí)算法軟件通過TCP/IP與機(jī)器人控制系統(tǒng)進(jìn)行數(shù)據(jù)交互,算法參數(shù)如表1所示。
為了驗(yàn)證所提算法的有效性,分別設(shè)計(jì)了手寫體字母軌跡的復(fù)現(xiàn)試驗(yàn)和機(jī)器人拆垛演示試驗(yàn)。首先,通過在手寫字母體軌跡上的軌跡編碼與復(fù)現(xiàn)試驗(yàn),對EM算法和本文所提的基于路徑積分和Welford公式的增量式參數(shù)估計(jì)算法的性能進(jìn)行對比分析。然后,在實(shí)際機(jī)器人拆垛任務(wù)上進(jìn)行演示軌跡學(xué)習(xí)與泛化試驗(yàn),以驗(yàn)證所提復(fù)合DMP算法的有效性。
2.2算法性能指標(biāo)
為了量化演示學(xué)習(xí)的效果,引入均方根誤差和皮爾遜相關(guān)系數(shù),衡量復(fù)現(xiàn)軌跡與演示軌跡之間的相似性。其中,根據(jù)泛化軌跡數(shù)據(jù)點(diǎn)與演示軌跡數(shù)據(jù)點(diǎn) x 的誤差來計(jì)算均方根誤差(RootMeanSquareError,RMSE),計(jì)算過程如式(25)所示。其中, N 代表一條演示軌跡中的數(shù)據(jù)點(diǎn)總數(shù)。根據(jù)數(shù)據(jù)方差和協(xié)方差之間的比例關(guān)系計(jì)算皮爾遜相關(guān)系數(shù) ρx ,計(jì)算過程如式(26)所示。
式中, σ 為樣本的標(biāo)準(zhǔn)差。
2.3手寫體軌跡復(fù)現(xiàn)試驗(yàn)
本節(jié)采用公共數(shù)據(jù)集中10條手寫體字母S的軌跡作為演示軌跡,并進(jìn)行增量式GMM參數(shù)估計(jì)方法的計(jì)算效率和軌跡復(fù)現(xiàn)性能試驗(yàn)。為了模擬實(shí)際的演示建模過程,在試驗(yàn)中設(shè)置軌跡數(shù)據(jù)采樣頻率為 500Hz ○
為了合理評估本文所提算法的計(jì)算效率,兩種算法都分別進(jìn)行10次參數(shù)估計(jì)試驗(yàn)。其中,基于增量式的在線估計(jì)方法在采樣過程中進(jìn)行實(shí)時(shí)計(jì)算,所需時(shí)間均值僅為 0.035ms 。而基于EM算法需要得到所有軌跡數(shù)據(jù)后才能進(jìn)行模型迭代求解,其求解所需時(shí)間的均值為 5616ms 。
圖4和圖5所示分別為采用基于增量式GMM參數(shù)估計(jì)過程和基于EM方法的軌跡復(fù)現(xiàn)效果??梢钥闯?,兩種方法都可以從數(shù)據(jù)中提取軌跡特征并完成軌跡復(fù)現(xiàn)。試驗(yàn)結(jié)果表明,基于增量式的參數(shù)估計(jì)方法不需要使用全部數(shù)據(jù),可以極大地縮短計(jì)算時(shí)間。
從表2所示量化指標(biāo)數(shù)據(jù)可得,兩種方法得到的復(fù)現(xiàn)軌跡與演示軌跡之間都具有高度的相似性。其中,基于增量式參數(shù)估計(jì)方法的皮爾遜系數(shù)和均方根誤差的平均值分別為 0.984mm 和 0.056mm ,基于EM方法的皮爾遜系數(shù)和均方根誤差的平均值分別為 0.984mm 和 0.057mm ??梢钥闯?,本文所提的改進(jìn)方法在保證多軌跡學(xué)習(xí)能力的同時(shí),具有更高的計(jì)算效率。
2.4機(jī)器人商標(biāo)紙拆垛試驗(yàn)
機(jī)器人商標(biāo)紙拆垛演示學(xué)習(xí)過程如圖6所示。商標(biāo)紙拆垛中,最重要的兩個(gè)動作是抓取物體和放置物體。因此,試驗(yàn)使用復(fù)合動態(tài)運(yùn)動基元算法學(xué)習(xí)抓取軌跡和上料軌跡的特征,并在不同位置進(jìn)行軌跡泛化,以驗(yàn)證本文所提算法的有效性。圖7、圖8所示分別為抓取、上料軌跡建模與泛化結(jié)果。表3所示為抓取和上料回歸軌跡的皮爾遜系數(shù)。
從圖7和表3中可見,在抓取軌跡建模與學(xué)習(xí)的過程中,當(dāng)目標(biāo)位置發(fā)生變化時(shí),機(jī)器人依然能夠很好地進(jìn)行軌跡的建模并保持軌跡形狀。其中,基于增量式和基于EM參數(shù)估計(jì)方法的皮爾遜系數(shù)的平均值分別為0.987和0.983。
從圖8和表3中可見,當(dāng)上料軌跡初始位置發(fā)生變化時(shí),機(jī)器人依然能夠保持軌跡形狀并完成演示任務(wù)。其中,基于增量式和基于EM參數(shù)估計(jì)方法的皮爾遜系數(shù)的平均值分別為0.993和0.993。上述結(jié)果表明,本文所提方法能夠使機(jī)器人很好地完成抓取和上料軌跡的建模與泛化。
為了測試所提算法的計(jì)算效率,采用基于EM算法、基于增量式更新算法分別進(jìn)行上述抓取與上料試驗(yàn),重復(fù)運(yùn)行10次,計(jì)算出各自完成軌跡建模與復(fù)現(xiàn)所需的時(shí)間,結(jié)果如表4所示。數(shù)據(jù)表明,本文所提增量式更新算法平均只需 0.033ms 即可完成軌跡建模與泛化,具有很高的計(jì)算效率。
3結(jié)論
提出了一種基于復(fù)合動態(tài)運(yùn)動基元的機(jī)器人拆垛軌跡演示學(xué)習(xí)算法,旨在解決傳統(tǒng)算法在軌跡學(xué)習(xí)上的局限性。該算法引入GMM對多演示軌跡進(jìn)行建模,通過路徑積分和Welford公式在線進(jìn)行參數(shù)估計(jì);完成多軌跡建模后,進(jìn)一步利用DMP學(xué)習(xí)高斯混合回歸軌跡,有效克服了EM算法參數(shù)估計(jì)效率低以及DMP單樣本學(xué)習(xí)的缺陷。
通過手寫體字母和具有實(shí)際應(yīng)用價(jià)值的商標(biāo)紙拆垛任務(wù)試驗(yàn)測試了算法的有效性。結(jié)果表明,基于復(fù)合動態(tài)運(yùn)動基元的演示學(xué)習(xí)算法具備多軌跡學(xué)習(xí)的能力,且計(jì)算效率高,泛化能力強(qiáng)。該算法為機(jī)器人商標(biāo)紙拆垛任務(wù)的編程提供了一種便捷、高效的學(xué)習(xí)途徑,有望在實(shí)際應(yīng)用中發(fā)揮重要作用。
參考文獻(xiàn)
[1]孫宇,汪泳.探析工業(yè)機(jī)器人技術(shù)在輕工企業(yè)的應(yīng)用研究[J].輕 紡工業(yè)與技術(shù),2021,50(4):55-56. SUN Yu,WANG Yong.Research on the application of industrial robottechnologyin light industry enterprises[J].Lightand Textile Industryand Technology,2021,50(4):55-56.
[2] 方寧,盧光明.工業(yè)機(jī)器人在煙草行業(yè)的應(yīng)用[J].煙草科技, 2000,33(3):21-22. FANG Ning,LU Guangming.Application of industrial robots in tobacco industry[J].Tobacco Scienceamp; Technology,20oo,33(3): 21-22.
[3] 曾超,楊辰光,李強(qiáng),等.人-機(jī)器人技能傳遞研究進(jìn)展[J].自動 化學(xué)報(bào),2019,45(10):1813-1828. ZENG Chao,YANG Chenguang,LI Qiang,et al. Research progresson human-robot skill transfer[J].Acta Automatica Sinica, 2019,45(10):1813-1828.
[4]遲明善,姚玉峰,劉亞欣.基于示教編程的共融機(jī)器人技能學(xué)習(xí) 方法的研究進(jìn)展[J].儀器儀表學(xué)報(bào),2020,41(1):71-83. CHI Mingshan,YAO Yufeng,LIU Yaxin. Advances in coexistingcooperative-cognitive robots skill learning approach based on learning from demonstration[J].Chinese Journal of Scientific Instrument,2020,41(1):71-83.
[5] IJSPEERTAJ,NAKANISHIJ,HOFFMANNH,etal.Dynamical movement primitives:learning attractor models for motor behaviors[J].Neural Computation,2013,25(2):328-373.
[6] SAVERIANOM,ABU-DAKKAFJ,KRAMBERGER A,etal. Dynamic movement primitives in robotics:a tutorial survey[J]. The International JournalofRoboticsResearch,2023,42(13): 1133-1184.
[7] PARASCHOSA,DANIELC,PETERSJ,etal.Probabilisticmovementprimitives[C]//Proceedingsofthe27th International Conferenceon Neural Information Processing Systems.New York:CurranAssociatesInc.,2013:2616-2624.
[8]CALINON S,GUENTERF,BILLARDA.On learning,representing,and generalizinga task ina humanoid robot[J]. IEEE TransactionsonSystems,Man,andCyberneticsPartB,Cybernetics,2007, 37(2):286-298.
[9] RAVICHANDARH,POLYDOROSA S,CHERNOVA S,et al. Recent advances in robot learning from demonstration[J].Annual Review ofControl,Robotics,and Autonomous Systems,2020,3 (1):297-330.
[10]CLEVELAND W S.Robust locally weighted regression and smoothing scatterplots[J]. Journal of the American Statistical Association,1979,74(368):829-836.
[11]SCHAAL S,ATKESON C G.Constructive incremental learning fromonly local information[J].Neural Computation,1998,10 (8):2047-2084.
[12]GINESI M,SANSONETTO N,F(xiàn)IORINI P.Overcoming some drawbacks of dynamic movement primitives[J].Robotics and Autonomous Systems,2021,144:103844.
[13]殷聰聰,張秋菊.機(jī)器人演示學(xué)習(xí)編程技術(shù)研究綜述[J].計(jì)算機(jī) 科學(xué)與探索,2020,14(8):1275-1287. YIN Congcong,ZHANG Qiuju.Review of research on robot programmingby learning from demonstration[J].Journal ofFrontiers ofComputer Science and Technology,2020,14(8):1275-1287.
[14]YU XB,LIU PS,HE W,et al.Human-robot variable impedance skillstransfer learning based on dynamic movement primitives[J]. IEEERoboticsandAutomationLetters,2022,7(3):6463-6470.
[15]GUENTERF,HERSCHM,CALINON S,et al.Reinforcement learning for imitating constrained reaching movements [J]. AdvancedRobotics,2007,21(13):1521-1544.
[16]胡晉.機(jī)械臂運(yùn)動的示教學(xué)習(xí)方法與應(yīng)用研究[D].杭州:浙江 大學(xué),2018:17-45. HU Jin.Motion imitation learningand execution for robot manipulators[D].Hangzhou:Zhejiang University,2018:17-45.
[17]CALINON S.A tutorial on task-parameterized movement learning and retrieval[J].Intelligent ServiceRobotics,2016,9(1):1-29.
Research on online modeling of multiple demonstration trajectories for robotsbased on compositemovement primitives
LI Zhiyong1 YAN Bin'HUANG Xiaoping1LIU Changsheng1MA Cunguo'LIU Tundong2 (1.Xiamen Tobacco Industrial Co.,Ltd.,Xiamen 361028, China) (2.Pen-Tung Sah Institute ofMicro-Nano Science and Technology,Xiamen University,Xiamen 361102,China)
Abstract:[Objective]Aimingat theproblems oflowparameter estimationeficiencyand lackofmulti-trajectory modeling abilityintraditionalrobotdemonstrationlearningalgorithm,anonlinemodelingmethodofrobotmultipledemonstration trajectories based on composite dynamical movement primitives was proposed.[Methods]Gausian mixture model was used to modelmulti-demonstrationtrajectoryinthecompositealgorithm.Throughdynamical movementprimitives,theregesion trajectoryof the Gausian mixture modelwas learnedwhichenhanced the multi-trajectory modelingcapability.To improvethe eficiencyofparameterestimationofthemodel,anonlineparameterestimationalgorithmbasedonWelford’sformulaandpath integralwas designed tocalculate model parameters icrementallyduring the trajectorysampling proces,andthe parameter estimationcouldbecompletedat thendofthedemonstration.Finallasix-degreeof-freedomindustrialrobotwasusedasthe objecttodesignandcomplete thelearning experimentofthedepaletizingtrajectorydemonstration.[Results]Thersultsshow thattheparameter estimation timeoftheproposedalgorithmisonly 0.033ms .Thedemonstrationlearningalgorithmbased on improveddynamic motionprimitivesisefficientinparameter estimationandhastheabilityoffastmult-trajectory modelingand generalization.
Key Words: Dynamical movement primitive; Gaussian mixture model; Online demonstration learning