梅雪松,劉 星,趙 飛,孫 錚,陶 濤
(1.西安交通大學(xué)陜西省智能機(jī)器人重點(diǎn)實(shí)驗(yàn)室,西安 710049;2.西安交通大學(xué)機(jī)械工程學(xué)院,西安 710049)
隨著我國(guó)人口紅利的逐漸消失,機(jī)器人的應(yīng)用領(lǐng)域不斷拓展,傳統(tǒng)工業(yè)機(jī)器人簡(jiǎn)單的自動(dòng)化功能已經(jīng)不能滿足當(dāng)前社會(huì)生產(chǎn)的需求。機(jī)器人與人在共享的工作空間中協(xié)作完成復(fù)雜的任務(wù),已經(jīng)成為機(jī)器人行業(yè)新的發(fā)展趨勢(shì)[1]。這一新的生產(chǎn)模式對(duì)機(jī)器人的安全性和可操作性提出了更高的要求。外力感知和柔順控制是應(yīng)對(duì)這一要求的關(guān)鍵技術(shù)[2]。傳統(tǒng)工業(yè)機(jī)器人缺乏外力感知能力,通常采用高剛度的位置控制模式,柔順性差,難以適應(yīng)人機(jī)協(xié)作的生產(chǎn)環(huán)境。一旦出現(xiàn)碰撞操作者或障礙物的情況,就會(huì)造成嚴(yán)重的安全事故,存在較大的安全隱患。傳統(tǒng)的解決方案是將機(jī)器人視為危險(xiǎn)源,通過(guò)圍欄等設(shè)施建立隔離空間,同時(shí)通過(guò)復(fù)雜的編程與嚴(yán)格的管理來(lái)提高機(jī)器人系統(tǒng)的安全性。對(duì)獨(dú)立工作空間的需求使得傳統(tǒng)工業(yè)機(jī)器人占用了大量的空間,而且無(wú)法實(shí)現(xiàn)人機(jī)協(xié)作。隨著機(jī)器人技術(shù)在各行各業(yè)中的普及,新型機(jī)器人為了適應(yīng)越來(lái)越多樣化的任務(wù),將更多地注重人機(jī)協(xié)作。未來(lái)將是人、機(jī)器人共融的時(shí)代,因此開(kāi)發(fā)具有外力感知和柔順控制功能的協(xié)作機(jī)器人在工程實(shí)踐中具有重要意義。
圖1 協(xié)作機(jī)器人典型應(yīng)用場(chǎng)景Fig.1 Typical application scenarios of collaborative robots
同時(shí),隨著對(duì)智能制造、助老助殘、醫(yī)療康復(fù)、娛樂(lè)陪伴等機(jī)器人應(yīng)用領(lǐng)域研究興趣的增長(zhǎng),人們期望機(jī)器人能夠在復(fù)雜且未知的社會(huì)化環(huán)境中工作[3]。協(xié)作機(jī)器人能夠勝任這類工作并得到了迅速的發(fā)展,在越來(lái)越多的應(yīng)用場(chǎng)合中受到青睞,如圖1所示。協(xié)作機(jī)器人與傳統(tǒng)的工業(yè)機(jī)器人的本質(zhì)差異在于傳統(tǒng)工業(yè)機(jī)器人要求高精度和高可重復(fù)性,而協(xié)作機(jī)器人則關(guān)注安全問(wèn)題以及與環(huán)境之間的交互協(xié)作[1,4]。此外,大多數(shù)工業(yè)機(jī)器人被預(yù)先編程,并被置于固定環(huán)境中工作。換言之,如果工作環(huán)境存在不確定因素,工業(yè)機(jī)器人就無(wú)法正常工作。與傳統(tǒng)工業(yè)機(jī)器人不同,協(xié)作機(jī)器人能夠以安全和舒適的方式與人類和環(huán)境進(jìn)行交互[2]。協(xié)作機(jī)器人不僅是具有預(yù)定義功能的自動(dòng)化機(jī)器,還必須能夠理解、學(xué)習(xí)和適應(yīng)人類及周圍環(huán)境[5]。目前尚有許多具有挑戰(zhàn)性的問(wèn)題有待解決,其中機(jī)器人外力感知以及與復(fù)雜非結(jié)構(gòu)化環(huán)境之間的物理交互控制是當(dāng)前的研究重點(diǎn)。
機(jī)器人–環(huán)境物理交互控制要求機(jī)器人具有力感知能力[6]。在傳統(tǒng)的操作任務(wù)中,機(jī)械臂末端的靜態(tài)接觸力可以通過(guò)多維力傳感器來(lái)測(cè)量。但對(duì)于動(dòng)態(tài)操作任務(wù),末端執(zhí)行器的慣性力/力矩對(duì)于末端力傳感器的測(cè)量精度有著不可忽視的影響。機(jī)器人的外力感知通常需要融合多傳感器信息,比如通過(guò)腕力傳感器、慣性傳感器和關(guān)節(jié)角度傳感器來(lái)估計(jì)機(jī)器人與環(huán)境的接觸力[7]。這些外力感知方案可以在很多應(yīng)用場(chǎng)景中很好地執(zhí)行。然而,這些方法大多是基于安裝在機(jī)器人末端上的多維力傳感器,只能感知到機(jī)器人末端執(zhí)行器上的接觸力,無(wú)法實(shí)現(xiàn)全機(jī)身外力感知。在機(jī)器人–環(huán)境交互問(wèn)題中,機(jī)器人與環(huán)境之間的接觸區(qū)域并不僅僅局限于末端執(zhí)行器[8],機(jī)器人的任何部位都有可能與人類或環(huán)境接觸,這使得該方案具有很大的安全風(fēng)險(xiǎn)。因此,研究具有全機(jī)身外力感知能力的機(jī)器人系統(tǒng)并研究其柔順控制技術(shù),對(duì)協(xié)作機(jī)器人的發(fā)展具有重要的理論意義和應(yīng)用價(jià)值。
作為協(xié)作機(jī)器人的關(guān)鍵技術(shù),機(jī)器人外力感知的主要目的是測(cè)量或估計(jì)機(jī)器人與環(huán)境之間的接觸力。為了避免與人類或環(huán)境的誤接觸,可以使用非接觸式傳感器,如視覺(jué)傳感器,在碰撞發(fā)生前對(duì)其進(jìn)行預(yù)測(cè),從而避免機(jī)器人與環(huán)境之間的碰撞[9]。該方法需要附加視覺(jué)傳感器和圖像識(shí)別技術(shù)的支持,計(jì)算量大、反應(yīng)較慢,無(wú)法從根本上避免碰撞,因此應(yīng)用場(chǎng)景相對(duì)有限。從本質(zhì)上講,為了提高機(jī)器人的安全性,機(jī)器人應(yīng)該具有力感知能力[6]。
為了使機(jī)器人具有全機(jī)身外力感知能力,Lumelsky 等[10]使用電子皮膚傳感器實(shí)現(xiàn)外力感知。然而,該方法需要昂貴的電子皮膚傳感器,應(yīng)用場(chǎng)景有限。Aksman 等[11]研究了具有諧波減速器的機(jī)器人外力感知方法,利用機(jī)器人動(dòng)力學(xué)特性和電機(jī)反饋信息來(lái)估計(jì)外力。近年來(lái),基于關(guān)節(jié)力矩傳感器的外力感知技術(shù)受到越來(lái)越多的關(guān)注。Takakura 等[12]提出了一種利用擾動(dòng)觀測(cè)器觀測(cè)關(guān)節(jié)扭矩和檢測(cè)碰撞的方法。然而,這種方法需要機(jī)器人的加速度信號(hào),而該信號(hào)非常嘈雜。De Luca 等[13–14]提出了一種基于廣義動(dòng)量觀測(cè)器的外力估計(jì)方法,避免了加速度信號(hào)的使用,同時(shí)提高了外力估計(jì)精度。Cho 等[15]將基于廣義動(dòng)量的擾動(dòng)觀測(cè)器算法應(yīng)用于七自由度機(jī)器人,以檢測(cè)機(jī)器人與環(huán)境之間的接觸力。同時(shí),在力感知的基礎(chǔ)上,對(duì)同一機(jī)器人進(jìn)行了碰撞響應(yīng)試驗(yàn),驗(yàn)證了算法的有效性。Briot 等[16]在機(jī)器人末端添加具有精確質(zhì)量的負(fù)載,使機(jī)器人沿著標(biāo)準(zhǔn)軌跡運(yùn)行,實(shí)現(xiàn)了對(duì)機(jī)器人關(guān)節(jié)扭矩傳感器信號(hào)的精確補(bǔ)償。
現(xiàn)有的基于腕力傳感器的外力感知技術(shù)已經(jīng)不能滿足新一代協(xié)作機(jī)器人的安全和柔順操作要求。利用關(guān)節(jié)扭矩傳感器實(shí)現(xiàn)機(jī)器人全機(jī)身外力感知是當(dāng)今的主流趨勢(shì)。而基于關(guān)節(jié)扭矩傳感器的外力感知技術(shù)仍處于發(fā)展階段,在技術(shù)方案和感知精度方面還有待提升。針對(duì)這些問(wèn)題,Liu 等[17–18]提出了將廣義動(dòng)量觀測(cè)器和神經(jīng)網(wǎng)絡(luò)全局摩擦擬合相結(jié)合的外力觀測(cè)方法,利用關(guān)節(jié)扭矩傳感器實(shí)現(xiàn)準(zhǔn)確的單點(diǎn)和多點(diǎn)接觸外力估計(jì)。關(guān)節(jié)扭矩傳感器的使用能夠顯著減少建模的工作量以及影響估計(jì)結(jié)果精度的誤差項(xiàng)。對(duì)于神經(jīng)網(wǎng)絡(luò)摩擦擬合,提出了合適的激勵(lì)軌跡和全局基函數(shù)是全局摩擦擬合的充分條件,并從理論上對(duì)該定理予以證明。同時(shí)結(jié)合反向法實(shí)現(xiàn)了對(duì)多點(diǎn)接觸力的估計(jì)。試驗(yàn)結(jié)果表明,該方法能夠準(zhǔn)確地估計(jì)柔性關(guān)節(jié)機(jī)械臂的接觸外力。
阻抗控制是指對(duì)機(jī)器人的期望機(jī)械阻抗進(jìn)行控制。Hogan[19–21]在1985年提出了阻抗控制的概念。阻抗控制允許機(jī)器人以受控的方式與環(huán)境進(jìn)行交互,使得機(jī)器人能夠在受約束或無(wú)約束的環(huán)境中工作,而無(wú)需在兩個(gè)狀態(tài)之間切換,因而是一種具有高魯棒性的通用方法[22]。
阻抗控制在機(jī)器人系統(tǒng)中得到了廣泛的應(yīng)用[23–39]。與位置控制或力控制不同,阻抗控制可以實(shí)時(shí)調(diào)節(jié)機(jī)器人系統(tǒng)的動(dòng)態(tài)行為。當(dāng)機(jī)器人系統(tǒng)需要與環(huán)境進(jìn)行交互并希望避免與外部環(huán)境碰撞造成損害時(shí),阻抗控制能夠起到很好的作用。阻抗控制通過(guò)控制末端執(zhí)行器的運(yùn)動(dòng)和接觸力之間的關(guān)系來(lái)實(shí)現(xiàn)理想的動(dòng)態(tài)行為控制效果。根據(jù)不同的實(shí)現(xiàn)方法,阻抗控制可分為基于扭矩的阻抗控制(TBIC)[25,40–41]和基于位置的阻抗控制(PBIC)[28,32,35–36]。在TBIC中,需要一個(gè)內(nèi)部扭矩/力控制回路,阻抗模型根據(jù)實(shí)際位置信號(hào)調(diào)整所需的扭矩/力,從而實(shí)現(xiàn)期望的阻抗,如圖2所示。PBIC的不同之處在于其內(nèi)環(huán)是位置環(huán),它根據(jù)反饋的相互作用力來(lái)調(diào)整期望的運(yùn)動(dòng)軌跡,如圖3所示。在機(jī)器人應(yīng)用中,TBIC 需要精確地包括摩擦力在內(nèi)的系統(tǒng)動(dòng)力學(xué)模型,并且對(duì)不確定性和時(shí)變參數(shù)非常敏感,但是其優(yōu)點(diǎn)在于控制器響應(yīng)帶寬較高[42]。而PBIC 具有更強(qiáng)的魯棒性,因?yàn)樵跈C(jī)器人建模精度較差時(shí)可以使用自適應(yīng)/魯棒軌跡跟蹤方法[43],其缺點(diǎn)在于控制器響應(yīng)帶寬較低[44]。此外,由于大部分伺服電機(jī)控制系統(tǒng)具有位置和速度控制模式,因此基于位置的阻抗控制是實(shí)際應(yīng)用中的首選方案。
阻抗控制方法在工業(yè)生產(chǎn)[45–46]、醫(yī)療康復(fù)[47–49]以及協(xié)作機(jī)器人[25,37,50–51]等接觸任務(wù)較多的機(jī)器人領(lǐng)域中得到了廣泛的應(yīng)用。
在工業(yè)生產(chǎn)領(lǐng)域,阻抗控制特別適用于裝配作業(yè),可以有效地改善卡阻現(xiàn)象。Connolly 等[52]使用基于神經(jīng)網(wǎng)絡(luò)算法的力/位混合控制策略,利用神經(jīng)網(wǎng)絡(luò)獲得外力約束和選擇矩陣,成功地進(jìn)行了插孔試驗(yàn)。Chan等[53]在操作空間設(shè)計(jì)了機(jī)器人的阻抗控制關(guān)系,并使用基于力矩控制的阻抗控制算法通過(guò)力、位置和速度反饋調(diào)節(jié)關(guān)節(jié)力矩,實(shí)現(xiàn)了在機(jī)器人裝配中的應(yīng)用。Lopes 等[54]提出了一種聯(lián)合控制的策略,將小型高頻阻抗控制并聯(lián)操作器(RCID)和普通工業(yè)機(jī)器人相結(jié)合,該方案主要適用于環(huán)境未知的場(chǎng)景中,如裝配、輪廓跟蹤等任務(wù)。
在醫(yī)療器械領(lǐng)域,阻抗控制廣泛應(yīng)用于康復(fù)機(jī)器人中。Li 等[55]提出了一種用于康復(fù)機(jī)器人的迭代學(xué)習(xí)阻抗控制器,將期望的阻抗模型作為控制目標(biāo),從而保證了機(jī)器人的瞬態(tài)性能。Taherifar 等[56]針對(duì)老年人或部分癱瘓患者開(kāi)發(fā)了智能輔助控制系統(tǒng),使用了自適應(yīng)阻抗控制來(lái)優(yōu)化患者在不同階段與外骨骼之間的交互行為。Akdogan 等[57]提出了一種混合阻抗控制策略并將其應(yīng)用于三自由度上肢康復(fù)機(jī)器人中,試驗(yàn)表明該方法能夠使患者的肢體力量得到顯著改善。
在協(xié)作機(jī)器人領(lǐng)域,已經(jīng)對(duì)阻抗控制技術(shù)進(jìn)行了廣泛的研究。Ikeura等[58]分析了人–人協(xié)作過(guò)程中的特征,提出了一種可用于人機(jī)協(xié)作的優(yōu)化變阻抗控制方法。Li 等[59]考慮了人–機(jī)器人協(xié)作過(guò)程中的接觸力,設(shè)計(jì)了一種新的基于勢(shì)壘Lyapunov 函數(shù)的優(yōu)化阻抗控制器,試驗(yàn)結(jié)果表明所提出的控制器能夠有效地執(zhí)行人–機(jī)器人協(xié)作任務(wù)。Ko 等[60]使用模糊推理方法來(lái)識(shí)別人–機(jī)器人交互過(guò)程中的用戶意圖,通過(guò)模糊推理實(shí)現(xiàn)了基于變阻抗控制的移動(dòng)機(jī)器人拖動(dòng)示教,并與使用傳統(tǒng)阻抗控制的移動(dòng)機(jī)器人示教結(jié)果進(jìn)行了對(duì)比,證明了變阻抗控制方法能夠提高拖動(dòng)示教的效率。
圖2 基于力控制的阻抗控制方案Fig.2 Impedance control scheme based on force control
圖3 基于位置控制的阻抗控制方案Fig.3 Impedance control scheme based on position control
阻抗控制調(diào)節(jié)機(jī)器人–環(huán)境之間的相互作用力以及相對(duì)運(yùn)動(dòng)之間的關(guān)系。因此,機(jī)器人能夠順應(yīng)環(huán)境施加的作用力并保證安全。在阻抗控制的早期研究中,通常規(guī)定一個(gè)理想的無(wú)源阻抗模型,但Buerger 等[61]研究認(rèn)為該模型過(guò)于保守,除了機(jī)器人本身以外,還應(yīng)考慮環(huán)境模型以獲得期望的阻抗參數(shù)。Tsumugiwa 等[62]研究認(rèn)為,在很多應(yīng)用中,由于環(huán)境的變化,采用固定的阻抗控制參數(shù)是不夠的。為此,自適應(yīng)阻抗控制[50–51,62–63]和迭代學(xué)習(xí)阻抗控制方法[28,33,55,64–65]被廣泛研究。自適應(yīng)阻抗控制方法能夠?qū)崿F(xiàn)機(jī)器人與環(huán)境的高效交互,具有較好的性能,然而它不是交互控制的最優(yōu)解決方案,而且只適用于恒定或緩慢變化的環(huán)境。而迭代學(xué)習(xí)控制方法需要機(jī)器人重復(fù)進(jìn)行操作,在一定程度上比較繁瑣。由于以上原因,自適應(yīng)最優(yōu)阻抗控制方法具有廣闊的應(yīng)用前景。
在阻抗控制器的設(shè)計(jì)中,優(yōu)化起著重要的作用。阻抗控制的目標(biāo)包括力調(diào)節(jié)和軌跡跟蹤,而且通常是這兩個(gè)目標(biāo)的權(quán)衡[32]。人類肢體對(duì)力和阻抗進(jìn)行適應(yīng),同時(shí)實(shí)現(xiàn)了肌肉空間中不穩(wěn)定性、運(yùn)動(dòng)誤差和代謝水平的最小化[66]。在之前的研究中,選擇線性二次調(diào)節(jié)器(LQR)來(lái)確定阻抗參數(shù),但是需要知道環(huán)境動(dòng)力學(xué)參數(shù)[67]。在實(shí)際應(yīng)用中,這通常不成立。自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)方法得到了廣泛的研究,以實(shí)現(xiàn)對(duì)未知?jiǎng)恿W(xué)系統(tǒng)的最優(yōu)控制[34–35,68–72]。目前已有研究工作采用ADP 方法對(duì)機(jī)械臂阻抗進(jìn)行控制[72–74]。然而,上述研究工作中一般不考慮完整的環(huán)境模型及參數(shù),包括動(dòng)力學(xué)參數(shù)和位置/軌跡等。同時(shí),在機(jī)器人–環(huán)境或人–機(jī)器人交互場(chǎng)景中,環(huán)境位置或由人類中樞神經(jīng)系統(tǒng)產(chǎn)生的期望參考軌跡通常是未知的,或者是難于測(cè)量的。因此,并非整個(gè)機(jī)器人–環(huán)境交互系統(tǒng)中的所有狀態(tài)都是可測(cè)的。系統(tǒng)動(dòng)力學(xué)參數(shù)及部分狀態(tài)未知給求解穩(wěn)定或優(yōu)化的機(jī)器人–環(huán)境交互控制策略帶來(lái)了很大的挑戰(zhàn)。這在實(shí)際應(yīng)用中非常常見(jiàn),而目前的研究還較少,這也是未來(lái)的研究重點(diǎn)。
機(jī)器人協(xié)作控制可分為被動(dòng)協(xié)作控制[37,51]、共享協(xié)作控制[34–35,71]和主動(dòng)協(xié)作控制[30–36,75–76]3類。
對(duì)于被動(dòng)協(xié)作控制,機(jī)器人沒(méi)有自己的運(yùn)動(dòng)意圖或期望運(yùn)動(dòng)軌跡,只是強(qiáng)調(diào)對(duì)外部交互力的響應(yīng),以順應(yīng)其伙伴,如人類伙伴的運(yùn)動(dòng)意圖。這在人–機(jī)器人拖動(dòng)示教中很常見(jiàn)。Ficuciello 等[51]選擇了不同的被動(dòng)阻抗調(diào)制策略進(jìn)行機(jī)器人被動(dòng)指引操作,并在七自由度的KUKA–LWR4 上進(jìn)行了試驗(yàn)測(cè)試。在這種情況下,雖然機(jī)器人能夠順應(yīng)接觸力,但由于虛擬質(zhì)量、阻尼和剛度的存在,機(jī)器人智能體仍然表現(xiàn)為負(fù)載特性。
對(duì)于共享控制,機(jī)器人及其伙伴都有自己的運(yùn)動(dòng)意圖或目標(biāo)位置/軌跡。當(dāng)不存在外部干預(yù)或交互作用時(shí),機(jī)器人會(huì)堅(jiān)持自己的運(yùn)動(dòng)意圖。當(dāng)存在外部干預(yù)或交互作用時(shí),機(jī)器人將尋求堅(jiān)持自身運(yùn)動(dòng)意圖和順應(yīng)外部環(huán)境之間的平衡[34–35]。機(jī)器人與伙伴之間的平衡是通過(guò)機(jī)器人的角色自適應(yīng)[35,77–81]或者參考運(yùn)動(dòng)軌跡自適應(yīng)[82–83]來(lái)實(shí)現(xiàn)的。Li等[35]利用博弈理論,使用角色自適應(yīng)方法實(shí)現(xiàn)人–機(jī)器人交互過(guò)程中的自然交互效果。Kucukyilmaz 等[77]研究了這樣一種動(dòng)態(tài)角色交換機(jī)制的效用,即協(xié)作伙伴通過(guò)觸覺(jué)通道進(jìn)行協(xié)商,以在協(xié)作任務(wù)上交換其控制角色。Wang 等[82]建立了描述機(jī)器人與環(huán)境相互作用性能的代價(jià)函數(shù),將軌跡跟蹤誤差和機(jī)器人與環(huán)境之間的相互作用力結(jié)合起來(lái)。在此基礎(chǔ)上提出了基于軌跡參數(shù)化和迭代學(xué)習(xí)的機(jī)器人參考軌跡自適應(yīng)方法。在這種情況下,由于兩者的任務(wù)目標(biāo)不一致,機(jī)器人與伙伴之間仍然存在沖突。
在主動(dòng)協(xié)作控制方面,機(jī)器人主動(dòng)估計(jì)、預(yù)測(cè)或?qū)W習(xí)伙伴的運(yùn)動(dòng)意圖[30,75–76,84–90]、任務(wù)分配[91–92]、協(xié)作角色[93]、動(dòng)力學(xué)參數(shù)[61,94–96]和成本函數(shù)[35]。具體地,Li 等[30,76]利用徑向基神經(jīng)網(wǎng)絡(luò)方法對(duì)協(xié)作伙伴的運(yùn)動(dòng)軌跡進(jìn)行在線擬合,從而實(shí)現(xiàn)機(jī)器人與協(xié)作伙伴之間的主動(dòng)協(xié)作控制。Wang 等[84]使用意向驅(qū)動(dòng)動(dòng)力學(xué)模型(Intention–driven dynamics model)從概率的角度模擬由意圖引導(dǎo)的運(yùn)動(dòng)的生成過(guò)程。Wang 等[85]使用隱馬爾科夫(HMM)方法對(duì)人–機(jī)器人握手過(guò)程中人類伙伴的運(yùn)動(dòng)意圖進(jìn)行估計(jì),從而實(shí)現(xiàn)更加自然順暢的協(xié)作效果。Khansari-Zadeh等[90]基于高斯混合模型對(duì)人–機(jī)器人協(xié)作過(guò)程中人類的運(yùn)動(dòng)方程進(jìn)行參數(shù)化建模,從而實(shí)現(xiàn)主動(dòng)協(xié)作。Khoramshahi 等[91]利用動(dòng)力學(xué)系統(tǒng)方法對(duì)人–機(jī)器人協(xié)作過(guò)程中不同任務(wù)進(jìn)行估計(jì)和自適應(yīng)。M?rtl等[93]基于人的反饋提出了兩種動(dòng)態(tài)角色交換機(jī)制調(diào)節(jié)機(jī)器人,以完成主動(dòng)協(xié)作任務(wù)。Song 等[94]提出了一種帶自適應(yīng)窗的滑動(dòng)最小二乘法(SLMS–AW)在線估計(jì)手臂阻抗模型參數(shù)的方法,提高了康復(fù)機(jī)器人與人交互過(guò)程中運(yùn)動(dòng)的平滑性和柔順性。Chang 等[96]將SCARA 機(jī)器人和IMBIC的隨機(jī)估計(jì)方法用彈簧陣列進(jìn)行驗(yàn)證后,將該方法應(yīng)用于人體手臂阻抗的估計(jì)。因此,協(xié)作伙伴對(duì)機(jī)器人智能體來(lái)說(shuō)具有一定的透明性。在此基礎(chǔ)上,機(jī)器人智能體可以采用相同的控制策略,如相同的運(yùn)動(dòng)意圖和成本函數(shù),實(shí)現(xiàn)與協(xié)作伙伴的真正主動(dòng)協(xié)作。因此,對(duì)于主動(dòng)協(xié)作控制而言,機(jī)器人與協(xié)作伙伴之間的沖突最小,也是目前重要的研究趨勢(shì)。
阻抗控制在機(jī)器人–環(huán)境物理交互控制中得到了廣泛的應(yīng)用。阻抗參數(shù)描述了交互力與交互點(diǎn)處相對(duì)運(yùn)動(dòng)之間簡(jiǎn)單而緊湊的關(guān)系。阻抗控制能夠調(diào)節(jié)交互作用點(diǎn)處的動(dòng)態(tài)行為,但是阻抗控制模型只是動(dòng)態(tài)行為控制的一種特殊情況。在實(shí)際應(yīng)用中,動(dòng)態(tài)行為模型有很多種,不僅僅局限于阻抗控制模型。一個(gè)典型的例子是機(jī)器人–環(huán)境多點(diǎn)交互控制問(wèn)題。在多點(diǎn)交互中,每個(gè)接觸點(diǎn)處的交互行為不僅與該點(diǎn)的狀態(tài)有關(guān),還與其他接觸點(diǎn)的狀態(tài)有關(guān)。顯然,這無(wú)法用傳統(tǒng)的阻抗模型來(lái)描述,需要用更為一般的動(dòng)態(tài)行為模型來(lái)描述。從行為理論的角度出發(fā),行為描述了單個(gè)智能體或智能體群體對(duì)內(nèi)外部環(huán)境變化或刺激的反應(yīng)。機(jī)器人通過(guò)行為來(lái)體現(xiàn)其類人智能,而基于行為的機(jī)器人(Behavior based robotics)或行為機(jī)器人就是其中的一種實(shí)現(xiàn)方法[97]。如人類一樣,機(jī)器人的行為也分為許多不同類型。動(dòng)態(tài)或運(yùn)動(dòng)行為是最重要的行為之一,尤其在機(jī)器人–環(huán)境物理交互中更為常見(jiàn)。一些文獻(xiàn)研究了動(dòng)態(tài)行為模型的定義、性質(zhì)以及調(diào)節(jié)動(dòng)態(tài)行為的方法和算法,以獲得更好的機(jī)器人–環(huán)境之間的交互性能。Ang 等[98]提出了基于阻抗控制的機(jī)器人動(dòng)態(tài)行為控制方法,其中阻抗模型是對(duì)機(jī)器人動(dòng)態(tài)行為的一種簡(jiǎn)潔、方便的描述。Jarrassé 等[99]介紹了一種用于描述兩個(gè)協(xié)作智能體之間交互行為的框架,該框架用于解釋和分類先前關(guān)于人–機(jī)器人運(yùn)動(dòng)交互的工作,這也使得能夠?qū)Σ煌瑓f(xié)作智能體之間的角色進(jìn)行分配和切換。Sabattini等[100]提出了將多機(jī)器人系統(tǒng)劃分為獨(dú)立機(jī)器人和非獨(dú)立機(jī)器人來(lái)控制多機(jī)器人系統(tǒng)以實(shí)現(xiàn)協(xié)同跟蹤任意周期性軌跡的方法。Prokop 等[101]調(diào)整了機(jī)械臂的參考位置和控制系數(shù),以調(diào)節(jié)機(jī)器人的動(dòng)態(tài)響應(yīng)行為。Khatib 等[102]建立了仿人機(jī)器人全機(jī)身動(dòng)態(tài)行為模型,提出了一個(gè)將任務(wù)與姿態(tài)目標(biāo)之間進(jìn)行解耦并對(duì)動(dòng)力學(xué)特性進(jìn)行補(bǔ)償?shù)娜珯C(jī)身控制框架。De Luca和Flacco 等[103–104]基于行為層次結(jié)構(gòu),提出了實(shí)現(xiàn)人–機(jī)器人安全交互的集成化控制框架,其中包括安全行為、共存行為和協(xié)作行為,如圖4所示[103,105]。Khoramshahi等[91]基于協(xié)作層次結(jié)構(gòu),提出了實(shí)現(xiàn)人–機(jī)器人協(xié)作的集成化控制框架,其中包括決策層、運(yùn)動(dòng)規(guī)劃層和協(xié)作控制層,見(jiàn)圖5[91]。Schiavi 等[106]討論了在機(jī)械臂實(shí)時(shí)控制方案中集成機(jī)器人主動(dòng)和被動(dòng)的安全控制方法。Sch?ner 等[107]分別利用吸引子和排斥子來(lái)描述移動(dòng)機(jī)器人的期望運(yùn)動(dòng)行為和避障行為,并對(duì)不同運(yùn)動(dòng)行為的動(dòng)力學(xué)方程進(jìn)行了描述。
劉星[108]等提出的動(dòng)態(tài)行為控制框架主要包括任務(wù)模型部分、動(dòng)態(tài)行為控制部分、機(jī)器人模型部分和環(huán)境模型部分,如圖6所示。任務(wù)分配部分通過(guò)人工指令或管理系統(tǒng)向機(jī)器人智能體分配任務(wù)。具體的任務(wù)描述包括角色分配模塊、運(yùn)動(dòng)規(guī)劃模塊、控制性能模塊和期望交互模塊,用來(lái)指定任務(wù)的初始角色值、參考運(yùn)動(dòng)軌跡、代價(jià)函數(shù)、期望的交互任務(wù)和接觸位置等。動(dòng)態(tài)行為控制部分從任務(wù)分配部分接收任務(wù)信息,從機(jī)器人模型和環(huán)境模型部分接收系統(tǒng)狀態(tài)信息。在接收到上述信息之后,動(dòng)態(tài)行為控制部分識(shí)別接觸或非接觸交互狀態(tài),包括接觸位置和接觸力。通過(guò)動(dòng)態(tài)行為控制部分的計(jì)算,將生成新的參考運(yùn)動(dòng)軌跡并發(fā)送到機(jī)器人模型部分。該部分將實(shí)現(xiàn)位置控制回路,然后更新機(jī)器人狀態(tài)并反饋給動(dòng)態(tài)行為控制部分。此外,對(duì)于協(xié)作機(jī)器人,機(jī)器人模型和環(huán)境模型彼此作用產(chǎn)生廣義交互力并改變環(huán)境狀態(tài),這些廣義力以及環(huán)境狀態(tài)將反饋到動(dòng)態(tài)行為控制部分以進(jìn)行動(dòng)態(tài)行為學(xué)習(xí)/自適應(yīng)。
協(xié)作機(jī)器人動(dòng)態(tài)行為控制方法相較阻抗控制方法而言,具有更多的可能性和更廣泛的適用性,在不同的應(yīng)用場(chǎng)景下可以設(shè)計(jì)不同的動(dòng)態(tài)行為控制策略,這也將是未來(lái)重要的研究趨勢(shì)。協(xié)作機(jī)器人形式多種多樣,應(yīng)用場(chǎng)景廣泛,比如家庭服務(wù)機(jī)器人、康復(fù)機(jī)器人、手術(shù)機(jī)器人、太空機(jī)器人、深海機(jī)器人、越野機(jī)器人等。針對(duì)不同的機(jī)器人樣式,如機(jī)械臂、移動(dòng)機(jī)器人、空中機(jī)器人等,以及不同的受力情況,如多點(diǎn)受力或全身受力等情況,可以制定不同的機(jī)器人動(dòng)態(tài)行為控制策略,實(shí)現(xiàn)機(jī)器人–環(huán)境交互過(guò)程的穩(wěn)定或優(yōu)化控制效果。
圖4 集成化的物理人–機(jī)器人交互控制框架Fig.4 Integrated physical human–robot interaction control framework
圖5 一種通用的人–機(jī)器人協(xié)作控制框架Fig.5 A general collaborative control framework of human–robot
圖6 一種通用的協(xié)作機(jī)器人動(dòng)態(tài)行為控制框架Fig.6 A general dynamic behavior control framework for collaborative robots
面對(duì)日益復(fù)雜的人–機(jī)器人協(xié)作交互場(chǎng)景,人–機(jī)器人交互在許多方面對(duì)現(xiàn)有的研究構(gòu)成了挑戰(zhàn):動(dòng)態(tài)、部分未知的環(huán)境;需要理解和解釋具有豐富語(yǔ)義的各種情況;與人類的物理交互需要精細(xì)、低延時(shí)、穩(wěn)定的控制策略;自然和多模態(tài)的交流方式;要求機(jī)器人具有任務(wù)理解與記憶能力;掌握常識(shí)規(guī)則等。目前從認(rèn)知控制的角度對(duì)人–機(jī)器人交互過(guò)程中的機(jī)器人控制策略進(jìn)行了一些研究,提高機(jī)器人應(yīng)對(duì)復(fù)雜交互場(chǎng)景的能力,使機(jī)器人真正具有類人的交互能力,這也將是未來(lái)的研究熱點(diǎn)。在認(rèn)知心理學(xué)中,認(rèn)知控制協(xié)調(diào)認(rèn)知和執(zhí)行過(guò)程,支持適應(yīng)性反應(yīng)和復(fù)雜的目標(biāo)/任務(wù)導(dǎo)向行為。類似的機(jī)制可以應(yīng)用于機(jī)器人系統(tǒng)中,以便靈活地執(zhí)行復(fù)雜的非結(jié)構(gòu)化任務(wù)[109]。
Gadanho 等[110]在2003年的工作中,提出了一種既具有情感學(xué)習(xí)又具有認(rèn)知學(xué)習(xí)的ALEC–agent 結(jié)構(gòu),以及適應(yīng)現(xiàn)實(shí)環(huán)境的情感和認(rèn)知決策能力。該認(rèn)知系統(tǒng)基于CLARION模型中提出的自適應(yīng)規(guī)則決策系統(tǒng),允許智能體以自下而上的方式從環(huán)境交互中學(xué)習(xí)決策規(guī)則。這種方法與人類非常相似,因?yàn)槿祟惥哂袑W(xué)習(xí)、更新、收集和利用日常生活中與環(huán)境相互作用過(guò)程中獲得的基于規(guī)則的知識(shí)的能力,例如,通過(guò)觀察玻璃從桌子上掉下來(lái)摔碎,獲得了玻璃易碎的知識(shí)。Lemaignan 等[109,111]研究中提出了一組關(guān)鍵的決策策略(圖7[111]),以便認(rèn)知機(jī)器人能夠成功地與人類共享空間和任務(wù),包括幾何推理和情境評(píng)估;多智能體(人類和機(jī)器人)知識(shí)模型的獲取和表示;情境、自然的和多模態(tài)交流;以人類為中心的任務(wù)規(guī)劃(Human-aware task planning);人–機(jī)器人聯(lián)合任務(wù)實(shí)現(xiàn)。試驗(yàn)結(jié)果表明,該方法最終展示了顯性知識(shí)管理(包括符號(hào)和幾何知識(shí)管理)能夠幫助機(jī)器人控制系統(tǒng)實(shí)現(xiàn)更豐富、更自然的人機(jī)交互。
同時(shí),在人機(jī)交互場(chǎng)景中,任務(wù)執(zhí)行過(guò)程中的意圖理解和協(xié)作是關(guān)鍵問(wèn)題。由于人類行為的不可預(yù)測(cè)性和模糊性,交互式機(jī)器人系統(tǒng)根據(jù)用戶的行為不斷地解釋其意圖和目標(biāo),從而適應(yīng)其執(zhí)行和交流過(guò)程。Caccavale 等[112]在2016年的研究中提出了一個(gè)集成系統(tǒng),利用注意力機(jī)制,靈活地適應(yīng)多模態(tài)人機(jī)交互中的規(guī)劃和執(zhí)行過(guò)程;在2017年[113]提出了一種模仿學(xué)習(xí)和靈活執(zhí)行雙臂結(jié)構(gòu)化任務(wù)的方法。該框架利用模仿學(xué)習(xí)和注意力監(jiān)控來(lái)學(xué)習(xí)一組動(dòng)作基元和任務(wù)結(jié)構(gòu)。人類的演示被自動(dòng)分割成運(yùn)動(dòng)基元,這些運(yùn)動(dòng)基元由一個(gè)將它們與一個(gè)分層任務(wù)結(jié)構(gòu)相關(guān)聯(lián)的注意力系統(tǒng)來(lái)監(jiān)督。此外,長(zhǎng)期記憶(LTM)和工作記憶(WM)也被用來(lái)描述任務(wù)和行為,以便于任務(wù)的分割、調(diào)節(jié)和執(zhí)行。Caccavale等[114]在2018年的工作中提出了一個(gè)框架,允許機(jī)械手學(xué)習(xí)如何根據(jù)人類演示執(zhí)行結(jié)構(gòu)化任務(wù),如圖8所示。該系統(tǒng)將物理人機(jī)交互與注意力監(jiān)控相結(jié)合,以支持拖動(dòng)示教、增量學(xué)習(xí)和分層任務(wù)的協(xié)同執(zhí)行。在提出的框架中,人類的示范按照任務(wù)結(jié)構(gòu)自動(dòng)分割成基本動(dòng)作,由一個(gè)監(jiān)督整體交互過(guò)程的注意力系統(tǒng)來(lái)完成。注意力系統(tǒng)允許在不同的抽象層次上跟蹤人類的示范,并支持在教學(xué)和執(zhí)行階段的隱性非語(yǔ)言交流。另一方面,注意力系統(tǒng)使得機(jī)器人能夠有效地快速學(xué)習(xí)和靈活地執(zhí)行結(jié)構(gòu)化任務(wù)。Cacace 等[115]在2018年的研究中假設(shè)交互任務(wù)能夠顯式地表示為分層任務(wù)網(wǎng)絡(luò),以利用人類的拖動(dòng)指引學(xué)習(xí)并執(zhí)行交互任務(wù)。在這種情況下,機(jī)器人系統(tǒng)不斷地解釋人類的干預(yù),以推斷人類的指導(dǎo)是否與計(jì)劃的活動(dòng)相一致。然后,該解釋被機(jī)器人系統(tǒng)利用,以適應(yīng)其在執(zhí)行協(xié)作任務(wù)期間的合作行為。根據(jù)估計(jì)的操作者意圖,機(jī)器人系統(tǒng)可以調(diào)整任務(wù)或動(dòng)作,同時(shí)調(diào)節(jié)機(jī)器人的順應(yīng)性,以便跟隨或引導(dǎo)人類伙伴。該方法在一個(gè)由KUKA–LBR–iiwa 機(jī)械臂以及執(zhí)行協(xié)同操作任務(wù)的人工操作員組成的測(cè)試場(chǎng)景中得到了驗(yàn)證,具有可行性和有效性。Caccavale等[116]在2019年的工作中提出了一個(gè)機(jī)器人認(rèn)知控制的框架,該框架被賦予了注意力調(diào)節(jié)和任務(wù)執(zhí)行的功能;同時(shí),提出了一種方法,允許學(xué)習(xí)如何利用自上而下和自下而上的注意力規(guī)則來(lái)指導(dǎo)分層結(jié)構(gòu)任務(wù)的執(zhí)行。
圖8 協(xié)作機(jī)器人任務(wù)示教和執(zhí)行的認(rèn)知控制框架Fig.8 Cognitive control framework for task demonstration and implementation of collaborative robots
協(xié)作機(jī)器人將應(yīng)用于越來(lái)越復(fù)雜的非結(jié)構(gòu)化場(chǎng)景中,從認(rèn)知控制的角度提高人–機(jī)器人交互過(guò)程中的控制效果將是未來(lái)的必然發(fā)展趨勢(shì)。具體來(lái)說(shuō),將人的注意力控制系統(tǒng)、長(zhǎng)短記憶系統(tǒng)、規(guī)則推理和知識(shí)表征能力、社會(huì)認(rèn)知能力以及認(rèn)知發(fā)展能力等引入到人–機(jī)器人交互的控制策略中,對(duì)于提高機(jī)器人的類人交互能力具有重要的意義。認(rèn)知控制目前仍然處于研究當(dāng)中,對(duì)于認(rèn)知控制架構(gòu)的探索是未來(lái)一段時(shí)間的研究熱點(diǎn)。隨著認(rèn)知科學(xué)和認(rèn)知控制領(lǐng)域的發(fā)展和進(jìn)步,人–機(jī)器人交互過(guò)程的控制效果將得到進(jìn)一步提高,同時(shí)也將有更多問(wèn)題值得進(jìn)一步研究和探索。
隨著機(jī)器人應(yīng)用場(chǎng)景和生產(chǎn)范式的轉(zhuǎn)變,協(xié)作機(jī)器人將會(huì)得到越來(lái)越多的應(yīng)用。協(xié)作機(jī)器人外力感知和交互控制對(duì)于實(shí)現(xiàn)協(xié)作機(jī)器人安全交互和柔順操作功能具有重要意義。同時(shí),隨著協(xié)作機(jī)器人在復(fù)雜交互任務(wù)中的應(yīng)用越來(lái)越多,對(duì)于機(jī)器人的環(huán)境認(rèn)知和任務(wù)認(rèn)知能力也有了更高的要求。本文對(duì)協(xié)作機(jī)器人外力感知、交互控制、認(rèn)知控制3方面的研究進(jìn)行了綜述,對(duì)于協(xié)作機(jī)器人感知與控制具有一定的指導(dǎo)意義。