如今,科學(xué)家們提出了各種方法學(xué)習(xí)應(yīng)用于機(jī)器人上的視覺運(yùn)動(dòng)策略。其中常用的就是在模擬環(huán)境中進(jìn)行學(xué)習(xí),然后將其遷移到現(xiàn)實(shí)世界中。在本文中,澳大利亞機(jī)器人視覺中心(ACRV)、昆士蘭科技大學(xué)(QUT)和莫納什大學(xué)(Monash University)的科學(xué)家們提出了一種對抗鑒別式遷移方法,用于將視覺運(yùn)動(dòng)策略以更低的成本從模擬遷移到真實(shí)世界中。
現(xiàn)如今,人們已經(jīng)提出了各種方法來學(xué)習(xí)用于現(xiàn)實(shí)世界機(jī)器人應(yīng)用的視覺運(yùn)動(dòng)策略。其中一種解決方案是:首先在模擬中進(jìn)行學(xué)習(xí),然后將其遷移到真實(shí)世界。在遷移的過程中,大多數(shù)現(xiàn)有方法需要帶有標(biāo)記的真實(shí)圖像。然而,在許多機(jī)器人應(yīng)用中,標(biāo)記的過程通常是昂貴甚至是不切實(shí)際的。在本文中,我們提出了一種對抗鑒別式的從模擬到真實(shí)的遷移方法,以降低標(biāo)記真實(shí)數(shù)據(jù)的成本。該方法的有效性通過一個(gè)桌面物體抓取任務(wù)的模塊化網(wǎng)絡(luò)得以演示。在該任務(wù)中,一個(gè)具有7個(gè)自由度的手臂被控制在速度模式下,以通過視覺觀察抓取雜亂環(huán)境中的一個(gè)藍(lán)色長方體。該對抗性遷移方法將對標(biāo)記實(shí)際數(shù)據(jù)的需求降低了50%。策略可以通過僅使用93個(gè)標(biāo)記和186個(gè)未標(biāo)記的真實(shí)圖像遷移到真實(shí)環(huán)境中。這種遷移的視覺運(yùn)動(dòng)策略對于雜亂環(huán)境中的全新(在訓(xùn)練中未見過的)對象甚至是移動(dòng)目標(biāo)是具有魯棒性的,達(dá)到了97.8%的成功率和1.8厘米的控制精確度。
近年來,大型數(shù)據(jù)集和復(fù)雜的機(jī)器學(xué)習(xí)模型(通常稱為深度學(xué)習(xí))的出現(xiàn)創(chuàng)造了一種趨勢,即從手動(dòng)的解決方案轉(zhuǎn)向更多由數(shù)據(jù)驅(qū)動(dòng)的解決方案。自早期研究(Krizhevsky等人于2012年提出)以來,學(xué)習(xí)技術(shù)在魯棒性和性能方面取得了顯著提高,特別是在計(jì)算機(jī)視覺領(lǐng)域。
傳統(tǒng)的基于機(jī)器人視覺的抓取方法是基于手動(dòng)的控制器的。這些控制器將(啟發(fā)式)運(yùn)動(dòng)規(guī)劃器與手動(dòng)操作的特征相結(jié)合,以可視化地定位目標(biāo)。最近,人們提出了解決這個(gè)問題的學(xué)習(xí)方法,但是大多數(shù)方法面臨的一致問題是依賴大量數(shù)據(jù)來訓(xùn)練這些模型。而泛化則形成了另一個(gè)挑戰(zhàn):當(dāng)學(xué)習(xí)模型被應(yīng)用于與訓(xùn)練中所使用的不同的機(jī)器人配置或場景時(shí),許多當(dāng)前系統(tǒng)都是非常脆弱的。這就引出了一個(gè)問題:如何更好地學(xué)習(xí)和遷移機(jī)器人的視覺運(yùn)動(dòng)策略以完成諸如抓取的任務(wù)?
人們已經(jīng)提出了各種方法來解決這個(gè)問題。一些研究試圖直接從大規(guī)模真實(shí)世界數(shù)據(jù)集中學(xué)習(xí)(Levine等人于2016年;Pinto和Gupta于2016年提出)。然而,在機(jī)器人應(yīng)用中收集大量真實(shí)數(shù)據(jù)可能會(huì)十分昂貴。例如,一個(gè)擁有6到14個(gè)物理機(jī)器人的“手臂農(nóng)場”被開發(fā)用以并行收集數(shù)據(jù),以學(xué)習(xí)機(jī)器人抓?。↙evine等人于2016年提出)。因此,人們提出了一些方法,通過使用模擬或合成數(shù)據(jù)來降低收集大量真實(shí)世界數(shù)據(jù)的成本(Bateux等人于2018年;D'Innocente等人于2017年;Tobin等人于2017年;James等人于2017年提出)。
還有一些人試圖利用模擬和真實(shí)數(shù)據(jù)來獲得更加平衡的解決方案(Fitzgerald等人于2015年;Tzeng等人于2016年提出)。一種特殊的方法是模塊化的深度Q網(wǎng)絡(luò),用于在模擬中學(xué)習(xí)平面抓取任務(wù),然后將其遷移到具有少量已標(biāo)記的真實(shí)圖像的真實(shí)環(huán)境中(Zhang 等人于2017年提出)。
在這項(xiàng)研究中,我們擴(kuò)展了模塊化方法(Zhang等人于2017年提出),并專注于同時(shí)利用模擬和真實(shí)數(shù)據(jù)來學(xué)習(xí)機(jī)器人技能。在模塊化的深度Q網(wǎng)絡(luò)中,已標(biāo)記的真實(shí)圖像是先前使用過的。雖然其數(shù)量很少,但標(biāo)記數(shù)據(jù)的成本很重要。相比之下,圖像本身對于基于視覺的機(jī)器人系統(tǒng)來說是便宜的。為了獲得更多的數(shù)據(jù)有效學(xué)習(xí),人們提出了一種類似于GAN的對抗式方法(Goodfellow等人于2014年提出),以學(xué)習(xí)使用已標(biāo)記的合成數(shù)據(jù)和未標(biāo)記的真實(shí)數(shù)據(jù)來進(jìn)行抓取的分類器(Bousmalis等人于2018年提出)。然而,大多數(shù)現(xiàn)有研究都使用對抗式方法進(jìn)行分類任務(wù),例如對可行駛路徑分割進(jìn)行增量式的對抗式域自適應(yīng)(Wulfmeier等人于2018年提出)。據(jù)我們所知,目前還沒有使用對抗式方法來對回歸任務(wù)進(jìn)行遷移的研究。
在本文中,我們提出了一種用于回歸遷移的對抗鑒別式方法,并研究了其從模擬到真實(shí)世界學(xué)習(xí)視覺運(yùn)動(dòng)策略的有效性。該方法通過視覺化引導(dǎo)的桌面物體抓取任務(wù)中用于具有7個(gè)自由度的機(jī)械臂的模塊化網(wǎng)絡(luò)進(jìn)行了驗(yàn)證(圖1)。通過引入對抗時(shí)損失,僅使用93個(gè)已標(biāo)記的和186個(gè)未標(biāo)記的真實(shí)圖像,就可以成功地將視覺運(yùn)動(dòng)策略從模擬(圖1A)遷移到真實(shí)(圖1B)環(huán)境。受益于模塊化結(jié)構(gòu)和加權(quán)的端到端微調(diào),經(jīng)過學(xué)習(xí)的視覺運(yùn)動(dòng)策略實(shí)現(xiàn)了1.8厘米的抓取精度,且僅有333條軌跡(在模擬中所收集的30225個(gè)狀態(tài)速度對)。經(jīng)過學(xué)習(xí)的視覺運(yùn)動(dòng)策略不僅能夠在可見的雜亂干擾物中抓取到目標(biāo)對象,而且在全新的(在訓(xùn)練中未見過的)干擾物乃至在目標(biāo)對象移動(dòng)的情況下也能夠?qū)崿F(xiàn)抓取。特別地,本文有三個(gè)主要貢獻(xiàn):
·在半監(jiān)督方式中引入對抗鑒別式方法,以便從模擬到真實(shí)世界實(shí)現(xiàn)更高數(shù)據(jù)效率的感知遷移,用減少了50%的已標(biāo)記真實(shí)數(shù)據(jù)實(shí)現(xiàn)較高的精確度(2.7 厘米),以及用減少了75%的已標(biāo)記真實(shí)數(shù)據(jù)實(shí)現(xiàn)稍差一些的精確度(3.0 厘米)(與監(jiān)督自適應(yīng)相比:2.8厘米)。
·進(jìn)一步驗(yàn)證模塊化神經(jīng)網(wǎng)絡(luò)(Zhang等人于2017年提出),在更逼真的機(jī)器人抓取任務(wù)中實(shí)現(xiàn)視覺運(yùn)動(dòng)策略從模擬到真實(shí)的遷移:桌面物體在速度模式下使用一個(gè)具有7個(gè)自由度的臂在雜亂中實(shí)現(xiàn)抓取,成功率達(dá)到97.8%,精確度達(dá)到1.8厘米。
·通過綜合比較實(shí)驗(yàn)和詳細(xì)分析,對我們的對抗鑒別式方法中的重要因素所進(jìn)行的研究顯示出了它對未來研究的益處和局限性。
相關(guān)研究
數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法在計(jì)算機(jī)視覺中越來越普遍,并開始取代機(jī)器人應(yīng)用中的手動(dòng)解決方案(Sünderhauf等人于2018年提出)。特別是人們對機(jī)器人視覺任務(wù)(直接基于真實(shí)圖像數(shù)據(jù)的機(jī)器人任務(wù))的興趣越來越大,例如物體抓取和操縱(Levine等人于2016年;Pinto和Gupta于2016年;Lenz等人于2015年提出)。數(shù)據(jù)驅(qū)動(dòng)的機(jī)器人學(xué)習(xí)方法中的一個(gè)重要因素是來自真實(shí)世界或模擬中的大規(guī)模數(shù)據(jù)集。
從真實(shí)數(shù)據(jù)集中學(xué)習(xí)
在真實(shí)世界中,許多并行操作機(jī)器人的使用提升了收集深度學(xué)習(xí)所需的數(shù)據(jù)集的速度(Levine等人于2016年提出)。使用所記錄的超過80萬次抓握嘗試,對一個(gè)深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練以預(yù)測一系列動(dòng)作的成功率。這些動(dòng)作的目的在于使用帶有雙指抓手的具有7個(gè)自由度的機(jī)械臂進(jìn)行抓取。結(jié)合簡單的無導(dǎo)數(shù)優(yōu)化算法,該抓取系統(tǒng)的成功率達(dá)到80%。另一個(gè)用于抓取的數(shù)據(jù)集收集樣本是在真實(shí)世界中進(jìn)行自監(jiān)督抓取的學(xué)習(xí)方法,其中,力傳感器用于自主標(biāo)記樣本(Pinto和Gupta于2016年提出)。在使用分階段傾斜方法對5萬個(gè)真實(shí)世界的試驗(yàn)進(jìn)行訓(xùn)練后,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得了70%左右的抓取成功率。
上述結(jié)果令人印象深刻,但在費(fèi)用、空間和時(shí)間(數(shù)周至數(shù)月)方面的成本很高。為了降低成本,Levine等人引入了基于CNN的策略表征架構(gòu),增加了引導(dǎo)式策略搜索(GPS)以學(xué)習(xí)視覺運(yùn)動(dòng)策略(將關(guān)節(jié)角度和相機(jī)圖像映射到關(guān)節(jié)力矩)(Levine等人于2016年提出)。這可以通過提供oracle(或?qū)<业某跏紬l件來開始學(xué)習(xí))減少真實(shí)世界訓(xùn)練樣本的數(shù)量。它在復(fù)雜的任務(wù)中已經(jīng)取得了令人印象深刻的結(jié)果,例如懸掛衣架、將塊插入玩具以及擰緊瓶蓋。
從模擬中學(xué)習(xí)
模擬是另一種降低收集真實(shí)數(shù)據(jù)集成本的資源。通過域隨機(jī)化,使用真實(shí)的RGB相機(jī)觀察操作任務(wù)中的真實(shí)場景,在模擬中學(xué)習(xí)到的策略具有強(qiáng)大的魯棒性,足以直接用于真實(shí)機(jī)器人(Tobin等人于2017年;James等人于2017年提出)。最近也有人提出了模擬深度圖像來學(xué)習(xí),然后直接將抓取技能遷移到真實(shí)世界的機(jī)器人手臂(Viereck等人于2017年提出)。
也有一些負(fù)面結(jié)果表明,在低保真度的模擬器中所學(xué)習(xí)到的視覺運(yùn)動(dòng)策略不會(huì)通過真實(shí)相機(jī)觀察真實(shí)場景而直接遷移到真實(shí)機(jī)器人上(Zhang等人于2015年提出)。實(shí)際上,在模擬環(huán)境中,非常小的圖像失真(小的平移、高斯噪聲和RGB顏色通道的縮放)會(huì)導(dǎo)致系統(tǒng)的性能急劇下降。引入真實(shí)相機(jī)來觀察游戲屏幕甚至更糟(Tow等人于2016年提出)。然而,如果采用少量真實(shí)圖像,在低保真度的模擬器中學(xué)習(xí)的視覺運(yùn)動(dòng)策略可以很好地遷移到機(jī)器人平面抓取任務(wù)的真實(shí)場景中(Zhang等人于2017年提出)。
遷移學(xué)習(xí)
遷移學(xué)習(xí)嘗試開發(fā)在不同任務(wù)(場景)之間遷移知識的方法(Pan和Yang于2010年;Taylor和Stone于2009年提出)。為了減少真實(shí)世界中收集的數(shù)據(jù)量(昂貴),將技能從模擬遷移到真實(shí)世界是一種很有吸引力的選擇。對于模擬中的預(yù)訓(xùn)練而言,使用非常少的真實(shí)樣本進(jìn)行自適應(yīng)需要合適的遷移學(xué)習(xí)方法。
為了減少學(xué)習(xí)視覺運(yùn)動(dòng)策略所需的真實(shí)世界圖像的數(shù)量,人們提出了一種從模擬到真實(shí)環(huán)境的自適應(yīng)視覺表征方法,在“鉤環(huán)”任務(wù)中實(shí)現(xiàn)了79.2%的成功率,只用了真實(shí)世界圖像的數(shù)量的十分之一(Tzeng等人于2016年提出)。另一個(gè)基于視覺的策略遷移的例子是漸進(jìn)式神經(jīng)網(wǎng)絡(luò)(progressive neural networks),它被提出用于在學(xué)習(xí)復(fù)雜的任務(wù)序列時(shí)改善遷移并避免災(zāi)難性的遺忘(Rusu等人于2016年提出)。它們的有效性已經(jīng)在強(qiáng)化學(xué)習(xí)任務(wù)上得到驗(yàn)證,例如Atari、3D迷宮游戲以及模擬機(jī)器人操作(Rusu等人于2017年提出)。
與GAN類似,Goodfellow等人于2014年人們也提出了在分類背景下用于域自適應(yīng)的對抗式方法,例如手寫數(shù)字識別(Tzeng等人于2017年;Luo等人于2017年;Ge等人于2017年提出)、地點(diǎn)分類和分割(Wulfmeier等人于2017年,2018年提出)。另一種類似的方法是域混淆,其可行性已經(jīng)在目標(biāo)識別(Tzeng等人于2015年提出)和細(xì)粒度識別(Gebru等人于2017年提出)中得到驗(yàn)證。還提出了一種提高學(xué)習(xí)分類器效率的對抗式適應(yīng)方法,以確定抓取命令是否成功(Bousmalis等人于2018年提出)。這些方法使用于分類任務(wù)的數(shù)據(jù)有效的域自適應(yīng)成為可能,但是,我們還沒有找到任何使用對抗式方法進(jìn)行回歸任務(wù)的研究。
在我們之前的研究中(Zhang等人于2017年提出),提出了一種模塊化結(jié)構(gòu)和它的訓(xùn)練方法,以便以低成本的方式將視覺運(yùn)動(dòng)策略從模擬遷移到真實(shí)世界。通過使用1418個(gè)已標(biāo)記的真實(shí)圖像對在模擬中已預(yù)訓(xùn)練的感知模塊進(jìn)行微調(diào)從而實(shí)現(xiàn)遷移。本文提出了一種半監(jiān)督的遷移方法來減少所需的已標(biāo)記真實(shí)圖像的數(shù)量。我們將這種半監(jiān)督方法稱為對抗鑒別式遷移(Adversarial Discriminative Transfer,ADT),其主要受益于對抗式損失的引入(Tzeng等人于2017年提出)。
在本文中,我們提出了一種對抗鑒別式遷移方法,用于將視覺運(yùn)動(dòng)策略以更低的成本從模擬遷移到真實(shí)世界。其可行性是通過任務(wù)中的模塊化方法證明的,該任務(wù)是在速度模式下使用一個(gè)具有7 個(gè)自由度的機(jī)械臂在雜亂環(huán)境中抓取一個(gè)桌面物體。我們的對抗式遷移方法將對已標(biāo)記的真實(shí)數(shù)據(jù)的需求降低了50%。僅使用93個(gè)已標(biāo)記和186個(gè)未標(biāo)記的真實(shí)圖像即可成功完成遷移。通過使用加權(quán)損失,以端到端的方式對組合網(wǎng)絡(luò)進(jìn)行微調(diào),其抓取精確度得到顯著提高(比進(jìn)行微調(diào)前提高了37.9%),成功率為97.8%,中間控制誤差為1.8厘米。該經(jīng)過學(xué)習(xí)的策略對于雜亂環(huán)境甚至移動(dòng)目標(biāo)中的新型干擾物對象具有強(qiáng)大的魯棒性。對抗鑒別式遷移以及模塊化方法有望實(shí)現(xiàn)更為有效的視覺運(yùn)動(dòng)策略從模擬到真實(shí)世界的遷移。