• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    空間機(jī)器人操作:一種多任務(wù)學(xué)習(xí)視角

    2022-07-21 11:50:56李林峰解永春
    中國空間科學(xué)技術(shù) 2022年3期
    關(guān)鍵詞:多任務(wù)機(jī)器人文獻(xiàn)

    李林峰,解永春

    北京控制工程研究所,北京 100190

    1 引言

    隨著人類的太空探索從地球軌道走向深空區(qū)域,對航天器的自主性需求顯著增加。空間機(jī)器人操作利用空間機(jī)器人輔助、代替宇航員完成各類操作任務(wù),是提升航天器自主性的重要手段。當(dāng)前,基于遙操作、人在環(huán)路的空間機(jī)器人操作能夠執(zhí)行低地球軌道的操作任務(wù)(例如空間站內(nèi)部、空間站外圍的維修、裝配、輔助對接[1]等),并具備一定的自主性。但對于不確定性更強(qiáng)的高軌、深空環(huán)境,由于通信時延大、軌道動力學(xué)不確定性強(qiáng)等因素,難以實現(xiàn)高自主、強(qiáng)魯棒的任務(wù)規(guī)劃與執(zhí)行。提高空間機(jī)器人的自主學(xué)習(xí)能力是解決上述問題的有效手段。

    近年,深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等方法的交叉在提高系統(tǒng)自主性與魯棒性方面初見成效。目前,無論是空間機(jī)器人操作,還是一般的地面機(jī)器人操作,多數(shù)工作圍繞獨立執(zhí)行、短時間范圍的單一任務(wù)學(xué)習(xí)問題開展研究。例如:文獻(xiàn)[2]利用深度確定性策略梯度[3]算法和人工示教的結(jié)合,學(xué)習(xí)了機(jī)械臂插銷入洞任務(wù);文獻(xiàn)[4]利用置信域策略優(yōu)化[5]算法在四足機(jī)器人平臺ANYmal上分別實現(xiàn)了步態(tài)規(guī)劃和翻倒恢復(fù)的自主學(xué)習(xí);文獻(xiàn)[6]利用近端策略優(yōu)化[7]算法實現(xiàn)了Shadow五指靈巧手翻滾立方塊的學(xué)習(xí)。

    但是,空間機(jī)器人操作面臨的工況通常是多任務(wù)的,上述單一任務(wù)學(xué)習(xí)算法很難用于解決空間機(jī)器人操作問題。特別地,空間機(jī)器人操作的典型特征包括:

    1) 多任務(wù)適應(yīng)性要求高。服務(wù)航天器造價昂貴,其在軌運(yùn)行期間需要適應(yīng)盡可能多的目標(biāo)航天器,完成盡可能多類型的操作任務(wù)。例如,NASA的OSAM (on-orbit servicing, assembly and manufacturing)項目[8]計劃為通用客戶衛(wèi)星進(jìn)行在軌燃料補(bǔ)加,整個過程包括了7個子任務(wù)(如圖1所示),即更換末端工具、捕捉與重定位目標(biāo)衛(wèi)星、切割包覆膜、切斷絞索、擰開蓋子、加注槍抵近插入、燃料加注。

    圖1 NASA OSAM計劃驗證任務(wù):非合作衛(wèi)星燃料補(bǔ)加[8]Fig.1 Demonstration tasks of NASA OSAM: non-cooperative satellite refueling [8]

    2)精細(xì)化要求高。①小范圍:受運(yùn)載能力和發(fā)射成本限制,航天器往往具有布局緊湊的復(fù)雜結(jié)構(gòu),導(dǎo)致操作環(huán)境復(fù)雜且操作空間受限。②多模態(tài):需要機(jī)械臂關(guān)節(jié)測量、力觸、圖像等多模態(tài)感知信息。③高精度:過大的接觸力將導(dǎo)致反向推離甚至損害航天器和捕獲工具,微小的位置偏差將導(dǎo)致不可恢復(fù)的任務(wù)失效。

    3)不確定性強(qiáng)。目標(biāo)航天器外形和結(jié)構(gòu)不確定性、非結(jié)構(gòu)化程度高,空間光照條件復(fù)雜、差異性大,目標(biāo)測量往往存在多源干擾;目標(biāo)航天器質(zhì)量慣量特性難測量,導(dǎo)致接觸操作過程運(yùn)動特性、接觸力不確定,進(jìn)而接觸碰撞后難以準(zhǔn)確預(yù)估其動作軌跡。

    因此,針對上述空間機(jī)器人操作的典型特征,研究相應(yīng)的多任務(wù)學(xué)習(xí)算法,賦予空間機(jī)器人系統(tǒng)多任務(wù)學(xué)習(xí)能力,是進(jìn)一步提升自主性的關(guān)鍵。本文首先分析在軌服務(wù)的多任務(wù)發(fā)展需求;其次介紹機(jī)器人操作單任務(wù)學(xué)習(xí)的原理與局限,全面綜述多任務(wù)學(xué)習(xí)方法及其在機(jī)器人操作上的應(yīng)用;最后針對如何利用多任務(wù)學(xué)習(xí)方法實現(xiàn)高自主、強(qiáng)魯棒的空間機(jī)器人操作,分析研究挑戰(zhàn),給出關(guān)鍵技術(shù)發(fā)展建議。

    2 在軌服務(wù)的多任務(wù)需求

    在軌服務(wù)指服務(wù)航天器與目標(biāo)航天器完成交會或?qū)雍?,通過機(jī)械臂/航天員對目標(biāo)航天器進(jìn)行末段操作的過程。典型的在軌服務(wù)包括:燃料補(bǔ)加、故障修復(fù)、模塊更換等。

    在軌服務(wù)技術(shù)的發(fā)展已有40余年。1973年5月14日,美國Skylab空間站入軌過程發(fā)生熱覆膜損壞。11天后,宇航員攜帶地面補(bǔ)制的雙極太陽罩抵達(dá)Skylab,并于8月6日出艙完成了在軌維修。這一事件被認(rèn)為是在軌服務(wù)誕生的標(biāo)志[9]。此后,NASA又相繼驗證了姿態(tài)控制模塊的在軌更換(SolarMax衛(wèi)星,1984年)和科學(xué)載荷的維修與更新(Hubble望遠(yuǎn)鏡,1993—2009年)。

    近10年,發(fā)展了諸多以航天器延壽為目標(biāo)的在軌服務(wù)項目,如DARPA的軌道快車項目(Orbital Express)、鳳凰計劃(Phoenix),NASA的RRM(Robotic Refueling Mission)、Restore-L等。2011—2018年,NASA陸續(xù)實施了3階段RRM任務(wù),開發(fā)了多種專用集成工具,依托于國際空間站,驗證了啟動鎖拆卸、液態(tài)乙醇加注、移除電氣連接蓋、拆卸螺栓、切割導(dǎo)熱包覆、液態(tài)氧/液態(tài)甲烷/氙的轉(zhuǎn)移補(bǔ)加、軟體機(jī)器人管路檢查等。表1摘要了RRM和其他典型在軌服務(wù)項目的驗證任務(wù)與關(guān)鍵時間節(jié)點。

    表1 近期典型的在軌服務(wù)項目

    在軌服務(wù)的技術(shù)發(fā)展趨勢可歸納為如下3點:

    1)任務(wù)需求多樣化。首先,多變化的操作對象特征(比如幾何形狀、軌道與姿態(tài)動力學(xué)、表面材質(zhì)等)、低成本可復(fù)用的技術(shù)需求都決定了服務(wù)航天器應(yīng)具備多任務(wù)執(zhí)行能力。此外,增材制造技術(shù)的發(fā)展,使得在軌服務(wù)從模塊化的單一服務(wù)模式,轉(zhuǎn)向制造、裝配、服務(wù)一體的多樣化服務(wù)模式。例如,2020年4月,NASA將Restore-L和Archinaut整合為新項目OSAM,旨在建立具有長期、可持續(xù)自主運(yùn)營能力的“空間工廠”與“太空補(bǔ)給站”。

    2)艙外操作自主化。通過航天員出艙執(zhí)行太空服務(wù)成本高,安全性低,且只能用于低軌場景;尋求空間機(jī)械臂替代是主要方案。低軌場景下,典型配置是大型機(jī)械臂搭配多用途末端工具(Canadarm2+Dextre);高軌場景下,服務(wù)衛(wèi)星配備一個或多個小型機(jī)械臂,執(zhí)行抓取、加注等操作。目前,這類操作基本通過遙操作控制,并不具備真正意義的自主性。

    3)感知執(zhí)行一體化。從利用航天員作為“末端工具”,轉(zhuǎn)向具有高級感知與執(zhí)行能力的一體化末端工具。典型例子有Dextre、VIPIR(visual inspection poseable invertebrate robot)等,均具有多模態(tài)(視覺、力、位移)的感知模塊和多功能(切割、抓取、管路檢測等)的執(zhí)行模塊。

    在上述3點技術(shù)發(fā)展趨勢中,任務(wù)需求多樣化是最重要的一點,它也是多種太空任務(wù)(在軌裝配、在軌制造、輔助離軌、空間碎片捕獲等)的共性需求。

    3 機(jī)器人操作學(xué)習(xí)原理

    機(jī)器人操作學(xué)習(xí)將傳統(tǒng)機(jī)器人控制中的控制器設(shè)計,替換為深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化,憑借深度神經(jīng)網(wǎng)絡(luò)對圖像信號的強(qiáng)表示能力,通過深度圖像特征引導(dǎo)機(jī)械臂進(jìn)行規(guī)劃與控制,對非結(jié)構(gòu)化、不確定環(huán)境的適應(yīng)能力更強(qiáng),是近年機(jī)器人領(lǐng)域的研究重點。本節(jié)將簡要介紹單一任務(wù)的機(jī)器人操作學(xué)習(xí),包括原理與方法,分析單一任務(wù)學(xué)習(xí)的局限性,進(jìn)而闡明研究機(jī)器人操作多任務(wù)學(xué)習(xí)的必要性。

    首先,通過Markov決策過程(Markov decision process, MDP)定義任務(wù)。定義一個MDP為M:=(S,A,P,r,ρ,γ),其中S代表狀態(tài)空間,A代表動作空間,P:S×A×S|[0,1]代表狀態(tài)轉(zhuǎn)移概率,r:S×A|R代表獎勵函數(shù),ρ:S|[0,1]代表初始狀態(tài)分布,γ∈[0,1)代表折損因子。進(jìn)一步,學(xué)習(xí)就是對策略πθ(a|s)∈Π:S×A|[0,1]進(jìn)行參數(shù)優(yōu)化的過程。策略πθ(a|s)一般通過參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)表示,也被稱為策略網(wǎng)絡(luò),它的功能是控制機(jī)器人執(zhí)行相應(yīng)動作。

    操作任務(wù)學(xué)習(xí)的實質(zhì)是策略網(wǎng)絡(luò)的優(yōu)化。策略網(wǎng)絡(luò)的優(yōu)化方式主要有兩種,一是模仿學(xué)習(xí),二是強(qiáng)化學(xué)習(xí)。模仿學(xué)習(xí)需要人為機(jī)器人提供行為引導(dǎo),給定相同輸入,利用監(jiān)督學(xué)習(xí)的方式使策略網(wǎng)絡(luò)能夠復(fù)現(xiàn)人的輸出,典型工作見文獻(xiàn)[10-12]。強(qiáng)化學(xué)習(xí)則通過機(jī)器人與環(huán)境的不斷交互獲取交互數(shù)據(jù)τ:=(s0,a0,s1,a2,…,sT)(其中T是最大采樣步數(shù)),基于交互數(shù)據(jù)進(jìn)行策略優(yōu)化,達(dá)到累積獎勵最大化的優(yōu)化目標(biāo)。上述兩類方法的學(xué)習(xí)過程都需要大量交互數(shù)據(jù)。得益于機(jī)械臂剛體動力學(xué)模型的相對確定性,交互數(shù)據(jù)采集可在虛擬仿真系統(tǒng)中完成,相比于真實物理環(huán)境采樣更高效,更安全;進(jìn)一步通過域隨機(jī)化(domain randomization)可以將環(huán)境模擬多樣化,進(jìn)而實現(xiàn)將優(yōu)化后的策略網(wǎng)絡(luò)從虛擬仿真環(huán)境遷移到真實物理環(huán)境。

    圖2 基于強(qiáng)化學(xué)習(xí)的機(jī)器人操作原理Fig.2 Schematic of robotic manipulation using reinforcement learning

    利用上述框架可以實現(xiàn)簡單的空間機(jī)器人操作,例如圖3展示了在真實地面試驗環(huán)境下的在軌加注任務(wù)執(zhí)行結(jié)果,實現(xiàn)了自主加注孔識別、自主抵近、自主插入,并且對位置不確定、光強(qiáng)不確定等情況具有較好的魯棒性[13]。在上述例子中,抵近與插入就是兩種不同的任務(wù):抵近過程圖像信號起主導(dǎo)作用,插入過程力信號起主導(dǎo)作用,操作模式也不相同。

    采用多種任務(wù)獨立學(xué)習(xí)(即一個策略網(wǎng)絡(luò)對應(yīng)一個任務(wù))是一種可行方案,但這種方式的局限性在于:①表示不統(tǒng)一,無法提取多任務(wù)之間的共性特征;②切換條件難設(shè)計,需要額外設(shè)計、優(yōu)化判斷任務(wù)切換的模型。因此,針對以在軌加注為代表的長時間范圍、序列化的空間機(jī)器人操作,通過多任務(wù)學(xué)習(xí)方法克服上述局限具有其必要性。

    圖3 真實地面試驗環(huán)境,機(jī)械臂可以在策略網(wǎng)絡(luò)的控制下完成加注口抵近、插入等多任務(wù)操作[13]Fig.3 In the real ground test environment, the learned policy network is able to control robotic arm conducting multiple tasks like reaching fueling port and inserting[13]

    4 多任務(wù)學(xué)習(xí)算法

    多任務(wù)學(xué)習(xí)能力被認(rèn)為是通用人工智能的關(guān)鍵要素之一,多任務(wù)學(xué)習(xí)算法也是機(jī)器學(xué)習(xí)領(lǐng)域近年的研究熱點。在國內(nèi)外相關(guān)工作中,與多任務(wù)學(xué)習(xí)相近的研究議題包括:遷移學(xué)習(xí)[14]、課程學(xué)習(xí)[15]、小樣本學(xué)習(xí)[16]、主動學(xué)習(xí)[17]等。文獻(xiàn)[18]詳述了上述議題的共性與差別。簡而言之,課程學(xué)習(xí)、小樣本學(xué)習(xí)、主動學(xué)習(xí)側(cè)重學(xué)習(xí)模式,而遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)均側(cè)重學(xué)習(xí)目標(biāo),理論范疇更大,與強(qiáng)化學(xué)習(xí)的交叉工作也更多。

    首先,還是通過MDP定義多任務(wù)。在強(qiáng)化學(xué)習(xí)語境下一個MDP就代表了一個任務(wù),由此,狀態(tài)空間、動作空間、狀態(tài)轉(zhuǎn)移概率、獎勵、初始狀態(tài)分布等要素變動形成的MDP集合/分布就被稱為多任務(wù)。相應(yīng)地,多任務(wù)學(xué)習(xí)的目標(biāo)就是:學(xué)習(xí)最優(yōu)策略,使得MDP集合/分布上的總體獎勵最大化。需要指出的是,針對空間機(jī)器人操作的多任務(wù)學(xué)習(xí)相關(guān)研究,國內(nèi)外未見公開報道。因此,這里討論一般的機(jī)器人操作多任務(wù)學(xué)習(xí),特別地,以多任務(wù)強(qiáng)化學(xué)習(xí)(multi-task reinforcement learning, MTRL)為重點。

    圖4展示了本節(jié)內(nèi)容安排:多任務(wù)強(qiáng)化學(xué)習(xí)的方法研究可歸納為5類,即經(jīng)驗復(fù)用、持續(xù)學(xué)習(xí)、結(jié)構(gòu)化策略、蒸餾、梯度優(yōu)化與適應(yīng),分布式學(xué)習(xí)是實施算法的必要手段。圖4縱軸歸納了上述方法研究在機(jī)器人操作上的應(yīng)用。

    圖4 多任務(wù)學(xué)習(xí)方法的研究現(xiàn)狀及其在機(jī)器人操作上的應(yīng)用Fig.4 An overview of multi-task learning research with its application in robotic manipulation

    4.1 經(jīng)驗復(fù)用

    1)知識表示復(fù)用。文獻(xiàn)[19]指出,“通過理解世界,能夠使策略最優(yōu)行為的搜索復(fù)雜度大大降低”。這一工作中,理解世界的載體是一個循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)表示的M網(wǎng)絡(luò)(model network,模型網(wǎng)絡(luò)),其功能是模擬環(huán)境動力學(xué)、預(yù)測環(huán)境反饋;通過同步更新C網(wǎng)絡(luò)(controller network,策略網(wǎng)絡(luò))和模型網(wǎng)絡(luò),實現(xiàn)在非平穩(wěn)(環(huán)境時變)、反應(yīng)式環(huán)境(環(huán)境反饋隨策略輸出變化)中的學(xué)習(xí)。文獻(xiàn)[20]從算法信息論角度,將文獻(xiàn)[19]的C、M網(wǎng)絡(luò)之間的信息閉環(huán)定義為更廣義的詢問、回答,實現(xiàn)了持續(xù)主動的抽象推理、規(guī)劃與決策;文獻(xiàn)[21]將文獻(xiàn)[19]的CM系統(tǒng)擴(kuò)展為VCM系統(tǒng),進(jìn)一步引入視覺編解碼器(vision network,V網(wǎng)絡(luò)),解決視覺經(jīng)驗表示與存儲,M網(wǎng)絡(luò)采用帶混合密度輸出的RNN,預(yù)測下一時刻圖像幀的概率分布。上述工作中,經(jīng)驗表示與存儲通過高維、多層RNN實現(xiàn),在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、優(yōu)化速度等方面存在一定局限。

    2)策略整體復(fù)用。文獻(xiàn)[22]提出概率的策略復(fù)用,歷史策略作為當(dāng)前策略學(xué)習(xí)的概率偏度,在Q-learning框架下,根據(jù)-greedy探索選擇運(yùn)行歷史策略或當(dāng)前策略,得到相應(yīng)動作,優(yōu)化Q函數(shù)。存儲多個歷史策略,形成策略庫,在優(yōu)化過程中策略庫的元素可以增量更新。

    3)交互數(shù)據(jù)復(fù)用。附加任務(wù)學(xué)習(xí)是一種典型思路。例如,文獻(xiàn)[23]提出UNREAL (unsupervised reinforcement and auxiliary learning) 算法。整體過程分3環(huán):①并行采樣,并行運(yùn)行A3C智能體[24],采用卷積-遞歸網(wǎng)絡(luò)結(jié)構(gòu),交互數(shù)據(jù)存儲于重播寄存器;②附加任務(wù),采樣重播寄存器的經(jīng)驗數(shù)據(jù),以無監(jiān)督方式訓(xùn)練3個附加任務(wù)——像素控制、獎勵函數(shù)預(yù)測、值函數(shù)擬合;③整體優(yōu)化,將上述附加任務(wù)的損失與A3C損失結(jié)合,整體優(yōu)化。

    4)目標(biāo)重標(biāo)注(goal relabeling)。文獻(xiàn)[25]提出UVFA (universal value function approximators)算法,將深度Q函數(shù)擴(kuò)展到多目標(biāo)情況,此時深度Q函數(shù)與狀態(tài)、動作、目標(biāo)三者有關(guān),每輪采樣目標(biāo)保持固定。利用Horde算法[26]提供單個、具體的目標(biāo),可以實現(xiàn)貪心策略泛化。在UVFA的基礎(chǔ)上,文獻(xiàn)[27]提出后視經(jīng)驗重播(hindsight experience replay,HER)算法,整體思路是為重播寄存器中的狀態(tài)轉(zhuǎn)移標(biāo)注新目標(biāo)。達(dá)到效果是軌跡在原目標(biāo)的意義下獎勵低,但在新目標(biāo)的意義下獎勵高,進(jìn)而產(chǎn)生“成功的失敗”效應(yīng)。HER的優(yōu)點在于:①交互數(shù)據(jù)的利用效率高;②異策略優(yōu)化易于融合人工示教經(jīng)驗;③解決稀疏/二值獎勵函數(shù)問題。文獻(xiàn)[28]利用條件化變分自動編碼器實現(xiàn)了圖像目標(biāo)的生成,RL以初始圖像的編碼表示、根據(jù)當(dāng)前狀態(tài)的生成目標(biāo)為狀態(tài),基于隨機(jī)交互數(shù)據(jù)進(jìn)行異策略的自監(jiān)督學(xué)習(xí),實現(xiàn)了對未見物體的推動任務(wù)。文獻(xiàn)[29]建立了目標(biāo)調(diào)節(jié)強(qiáng)化學(xué)習(xí)的概率模型,并提出后視期望最大化(hindsight expectation maximization, HEM),利用變分推斷技巧實現(xiàn)了更穩(wěn)定的評價網(wǎng)絡(luò)學(xué)習(xí)。

    綜上,經(jīng)驗復(fù)用類方法:①相比于知識表示復(fù)用、策略整體復(fù)用,交互數(shù)據(jù)復(fù)用模型無關(guān)、易于融合人的示教、算法實現(xiàn)簡單,是目前研究領(lǐng)域的主攻方向;②以異策略優(yōu)化為主,欠缺策略改進(jìn)特性[30-31];③目標(biāo)調(diào)節(jié)RL中,目標(biāo)的確定、采樣方式設(shè)計等缺乏理論依據(jù)。

    4.2 持續(xù)學(xué)習(xí)

    人類的學(xué)習(xí)過程是循序漸進(jìn)的。持續(xù)學(xué)習(xí)的目標(biāo)就是在學(xué)習(xí)系統(tǒng)上復(fù)現(xiàn)這種機(jī)制,克服穩(wěn)定性-可塑性(stability-plasticity)困境,在持續(xù)學(xué)習(xí)新任務(wù)的過程中保留歷史任務(wù)的記憶/經(jīng)驗。早期典型工作是文獻(xiàn)[32]提出的CQ-learning,解決序列多任務(wù)決策問題。CQ-learning總體分為3模塊:Q值估計模塊、門模塊和偏置模塊。前兩者與狀態(tài)相關(guān),偏置模塊與狀態(tài)無關(guān)。利用門模塊進(jìn)行子任務(wù)識別與切換,偏置模塊提供加性偏置,自適應(yīng)地修正Q值估計。表格導(dǎo)航驗證結(jié)果表明,CQ-learning框架中的門模塊對序列化的新任務(wù)引入具有適應(yīng)性,但收斂速度受任務(wù)序列設(shè)定的影響較大。早期工作還包括文獻(xiàn)[33-35]。近期,持續(xù)學(xué)習(xí)方面,文獻(xiàn)[18]總結(jié)了持續(xù)學(xué)習(xí)與機(jī)器人的交叉研究;文獻(xiàn)[36]歸納了利用深度神經(jīng)網(wǎng)絡(luò)的持續(xù)學(xué)習(xí)研究進(jìn)展。

    處理深度神經(jīng)網(wǎng)絡(luò)的災(zāi)難性遺忘(catastrophic forgetting)、選擇合適的經(jīng)驗存儲載體、檢測非平穩(wěn)的分布偏移是持續(xù)學(xué)習(xí)的3個主要挑戰(zhàn)[18]。對于歷史任務(wù)的經(jīng)驗存儲是持續(xù)學(xué)習(xí)的核心。具體到持續(xù)強(qiáng)化學(xué)習(xí),歷史任務(wù)經(jīng)驗的存儲體現(xiàn)在“(交互數(shù)據(jù))采樣-(值函數(shù))評價-(策略)優(yōu)化”基本3環(huán)節(jié)之中:

    1)存儲交互數(shù)據(jù),也被稱為排練(rehearsal),對于異策略優(yōu)化,主要利用重播寄存器,典型工作是SEM算法[37];對于同策略優(yōu)化,需要融合同策略的采樣數(shù)據(jù),典型工作是文獻(xiàn)[38-39]。CLEAR[40]聯(lián)合使用了異策略(舊任務(wù))和同策略(新任務(wù))數(shù)據(jù)。

    2)存儲值函數(shù),典型工作是Horde算法[26]。Horde算法利用異策略的GQ(λ)更新,實現(xiàn)了Critterbot機(jī)器人的尋點、尋光、旋轉(zhuǎn)等任務(wù)。盡管驗證任務(wù)動作為離散情況,知識表示的結(jié)構(gòu)較簡單(二進(jìn)制、線性特征),但實現(xiàn)了無監(jiān)督的大規(guī)模并行采樣。

    3)存儲優(yōu)化要素,存儲隱層網(wǎng)絡(luò)權(quán)重、正則化參數(shù)等。例如,文獻(xiàn)[41]提出PG-ELLA算法,隨新任務(wù)的引入自適應(yīng)地更新隱空間表示。

    4.3 結(jié)構(gòu)化策略

    (1)分塊策略

    文獻(xiàn)[42]采用多個專家網(wǎng)絡(luò)模塊+門模塊結(jié)構(gòu),前者的前饋運(yùn)行依照后者的輸出概率進(jìn)行切換,解決了多人的元音字母語音識別問題。第4.2小節(jié)提到的CQ-learning也是早期典型工作。上述工作中,模塊間競爭與聯(lián)合的權(quán)衡主要通過門模塊調(diào)節(jié)實現(xiàn)。近期文獻(xiàn)[43]提出的膠囊網(wǎng)絡(luò)(capsule network)本質(zhì)上與文獻(xiàn)[42]類似,都是“分塊-投票”機(jī)制的實現(xiàn)。

    對于更復(fù)雜的多任務(wù)學(xué)習(xí)問題,權(quán)重共享型策略結(jié)構(gòu)是常用方案:即神經(jīng)網(wǎng)絡(luò)的一部分負(fù)責(zé)共性功能(起聯(lián)合作用),剩余部分負(fù)責(zé)特定功能(起競爭作用),進(jìn)而實現(xiàn)總體的調(diào)節(jié)。文獻(xiàn)[44]也將這種方式概括為依特征變換(feature-wise transformations),將任務(wù)的學(xué)習(xí)定義為一種調(diào)節(jié)(conditioning),并歸納了幾種調(diào)節(jié)模式:串聯(lián)調(diào)節(jié)、加性偏置、乘性尺度變換、仿射變換。文獻(xiàn)[45]按分層的方式進(jìn)行策略分塊,每個低層子任務(wù)訓(xùn)練獨立的子策略,訓(xùn)練通過序列化的課程學(xué)習(xí)實現(xiàn)。文獻(xiàn)[46]提出一種模塊化的元強(qiáng)化學(xué)習(xí)方法SNAIL (simple neural attentive learner),策略網(wǎng)絡(luò)分為瞬時卷積模塊和因果注意力模塊,前者利用歷史經(jīng)驗聚類情境(context,或稱上下文)信息,后者推斷具體信息與情境信息之間的對應(yīng),性能優(yōu)于一般的LSTM策略結(jié)構(gòu)。

    機(jī)器人應(yīng)用方面,文獻(xiàn)[47]較早地研究了模塊化策略網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí),解決多機(jī)器人-多任務(wù)問題。策略網(wǎng)絡(luò)分為任務(wù)模塊和機(jī)器人模塊,前者提取任務(wù)表示,后者輸出動作,但只能適用于同一環(huán)境的高相似任務(wù)。文獻(xiàn)[48]研究了機(jī)器人操作任務(wù)的序列控制切換,利用人工示教數(shù)據(jù)訓(xùn)練,策略總體分3模塊:①由卷積混合密度網(wǎng)絡(luò)表示的動作策略,輸入圖像表示,輸出目標(biāo)轉(zhuǎn)角供機(jī)械臂進(jìn)行伺服控制;②由變分自動編碼器網(wǎng)絡(luò)表示的前向動力學(xué)模型,用以計算n步狀態(tài)前推;③由卷積混合密度網(wǎng)絡(luò)表示的目標(biāo)分?jǐn)?shù)估計器(goal scoring estimator, GSE),用以計算輸出實際圖像相對于目標(biāo)圖像的似然概率,選擇執(zhí)行控制器集合中最匹配的控制器。控制器集合含有3種操作任務(wù):PR2機(jī)器人對齒輪零件的抬起、移動、穿孔。盡管此方法可以執(zhí)行不同表示、不同帶寬的控制器,但控制器集合有限、封閉,數(shù)據(jù)來源并不充分,難以實現(xiàn)更大范圍的任務(wù)探索與泛化。

    (2)分層策略

    早期工作有選項框架[49]、MaxQ值函數(shù)分解[50]、分層抽象機(jī)(hierarchical abstract machine, HAM)[51-53]等,但大多需要任務(wù)指定設(shè)計,常假設(shè)簡單、給定的層級結(jié)構(gòu),難以處理高維、連續(xù)的復(fù)雜環(huán)境反饋問題。近期,文獻(xiàn)[54]研究了無模型、目標(biāo)調(diào)制的分層強(qiáng)化學(xué)習(xí),提出了HIRO(hierarchical reinforcement learning with Off-policy correction)算法,通過引入離線策略經(jīng)驗緩解了高層策略的非平穩(wěn)問題,提高了采樣效率;文獻(xiàn)[55]基于HIRO,提出了分層Sim2Real,通過層級域隨機(jī)化,以零樣本代價實現(xiàn)了兩個四足機(jī)器人行走、推動、合作的策略遷移。文獻(xiàn)[56]提出HAAR(HRL with advantage function-based auxiliary rewards)算法,利用高層策略的優(yōu)勢函數(shù),為低層策略提供附加獎勵引導(dǎo),算法保留了策略單調(diào)改進(jìn)性質(zhì),在虛擬環(huán)境“螞蟻-迷宮”任務(wù)上性能優(yōu)于HIRO。

    文獻(xiàn)[57]提出DIAYN(Diversity is all you need)方法,建立隱變量的技能分布模型,不再需要設(shè)計復(fù)雜的多任務(wù)獎勵,具有如下特點:①不同技能指示智能體訪問的不同狀態(tài);②利用狀態(tài)而非動作區(qū)分技能;③設(shè)置技能多樣化的優(yōu)化目標(biāo)。優(yōu)化目標(biāo)設(shè)定為I(S;Z)+H(A|S)-H(A;Z|S),其中Z~p(z)是技能隱變量,S和A分別是狀態(tài)/動作變量。利用判別模型qφ(z|s)逼近后驗分布p(z|s),根據(jù)ELBO表達(dá)式可獲得“偽獎勵”的計算方式lgqφ(z|s)-lgp(z),p(z)設(shè)定為均勻分布使隱變量的熵最大。策略優(yōu)化采用SAC算法,判別器的優(yōu)化采用一般的SGD。數(shù)值仿真結(jié)果表明:Half cheetah機(jī)器人能夠?qū)W到以不同速度前進(jìn)、后退、跳躍等多種技能;Hopper機(jī)器人能夠?qū)W到前跳、后跳、平衡等多種技能。

    綜上,通過結(jié)構(gòu)化策略進(jìn)行多任務(wù)學(xué)習(xí):①更利于實現(xiàn)多任務(wù)間遷移學(xué)習(xí)[58];②可通過隱變量的任務(wù)表示,建立與變分推斷(variational inference)的關(guān)系;③結(jié)構(gòu)本質(zhì)上是人的先驗知識,可規(guī)模化存在局限。

    4.4 蒸餾

    文獻(xiàn)[59]利用“教師”網(wǎng)絡(luò)(多參數(shù))引導(dǎo)“學(xué)生”網(wǎng)絡(luò)(少參數(shù))學(xué)習(xí),實現(xiàn)了知識遷移和模型壓縮。受此工作啟發(fā),在強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展了策略蒸餾相關(guān)方法。文獻(xiàn)[60]在多任務(wù)聯(lián)合學(xué)習(xí)時,直接最小化“教師”策略和“學(xué)生”策略輸出之間的差異;在任務(wù)遷移時,輔以輸出前一層的隱層特征回歸。文獻(xiàn)[61]提出策略蒸餾方法,在Atari游戲上實現(xiàn)了模型壓縮、多任務(wù)“學(xué)生”策略性能優(yōu)于單任務(wù)“教師”策略、實時在線式蒸餾。

    文獻(xiàn)[62]針對共享權(quán)重的策略表示不直觀,性能高度依賴網(wǎng)絡(luò)結(jié)構(gòu)問題,提出Distral(distill & transfer learning)算法,在多任務(wù)策略學(xué)習(xí)過程中,共享一個蒸餾策略,并以此作為各單任務(wù)策略優(yōu)化的約束。優(yōu)化目標(biāo)為:

    式中:i為任務(wù)指標(biāo);n為任務(wù)總數(shù);γ折損因子。在最大化任務(wù)內(nèi)累計獎勵的同時,添加兩項正則化:①鄰近正則化,最小化已蒸餾策略π0和任務(wù)策略πi之間的KL散度,提取蒸餾策略的經(jīng)驗;②任務(wù)策略πi的最大熵正則化,增加探索程度,防止任務(wù)策略πi退化為貪心策略?;赟QL(soft Q-learning)優(yōu)化、Boltzmann策略表示,在表格任務(wù)、視覺導(dǎo)航任務(wù)上,Distral算法具有較好的收斂速度和超參數(shù)魯棒性。

    文獻(xiàn)[63]提出DnC(divide-and-conquer)框架,核心思想是:利用初始狀態(tài)的數(shù)據(jù)關(guān)聯(lián),通過聚類得到隱式的情境信息,以此替代人工定義的任務(wù)。優(yōu)化過程與Distral類似,交替優(yōu)化“情境指定/局部”策略和“中心/全局”策略。底層優(yōu)化采用置信域策略優(yōu)化[5],不同情境之間的采樣數(shù)據(jù)可以共享,提高了采樣效率;跨情境策略之間的KL散度最小化作為優(yōu)化約束,實現(xiàn)了向全局策略的正則化。在抓取、拋物、接物3種機(jī)械臂任務(wù)和螞蟻、臺階2個行走任務(wù)上,實現(xiàn)了優(yōu)于Distral的性能。特別地,在抓取任務(wù)中,基線方案最多能應(yīng)對4 cm×4 cm的目標(biāo)物體位置攝動;DnC優(yōu)化由于具有更小的策略梯度方差,此范圍可被擴(kuò)展到30 cm×30 cm。

    一些最近的工作包括:文獻(xiàn)[64]研究了具有連續(xù)任務(wù)空間的課程蒸餾(curriculum distillation)問題,基于文獻(xiàn)[65]提出的連續(xù)教師-學(xué)生框架,設(shè)計了一種可在任務(wù)分布上采樣-優(yōu)化的算法,但課程的形式是連續(xù)、可參數(shù)化的環(huán)境(Bipedal Walker環(huán)境),距離實際環(huán)境仍有差距。文獻(xiàn)[66]利用變分信息最大化(variational information maximization)的方法,解決教師、學(xué)生策略狀態(tài)/動作空間不匹配的問題,但驗證任務(wù)的設(shè)定簡單、相關(guān)性強(qiáng)(設(shè)定腿數(shù)不同的Centipede任務(wù))。

    綜上,蒸餾類方法:1)在性能、模型壓縮等方面優(yōu)于權(quán)重共享型多任務(wù)學(xué)習(xí),一定條件下能實現(xiàn)“學(xué)生”策略性能優(yōu)于各“教師”策略;2)處理多任務(wù)學(xué)習(xí)問題時,能夠有效降低策略梯度方差,但代價是采樣復(fù)雜度的提高。

    4.5 梯度優(yōu)化與適應(yīng)

    優(yōu)化:對于單任務(wù)的RL優(yōu)化,一個核心問題就是如何降低策略梯度的方差;對于多任務(wù)RL,梯度項的估計需要進(jìn)一步在任務(wù)分布上進(jìn)行累加,使這一問題更加突出。一個主要方向是利用分布式的強(qiáng)化學(xué)習(xí)降低策略梯度方差,例如IMPALA[67]和它的改進(jìn)算法PopArt[68]、LASER[69],具體見第4.6小節(jié)。PCGrad算法[70]考慮了多任務(wù)優(yōu)化的梯度沖突問題,利用梯度投影的方法,在Meta-world基準(zhǔn)平臺上改進(jìn)了SAC算法的性能。

    適應(yīng):人類習(xí)慣從習(xí)得技能中提取經(jīng)驗,加速對于新技能的學(xué)習(xí)過程。為了在機(jī)器學(xué)習(xí)系統(tǒng)上復(fù)現(xiàn)這種機(jī)制,研究者們提出了元學(xué)習(xí)(meta-learning)這一概念。元學(xué)習(xí)也被稱為學(xué)習(xí)如何學(xué)習(xí)(learning to learn),是一門系統(tǒng)地觀察機(jī)器學(xué)習(xí)方法在多種學(xué)習(xí)任務(wù)上的性能差異,學(xué)習(xí)這些經(jīng)驗(元數(shù)據(jù))并快速適應(yīng)新任務(wù)的科學(xué)。文獻(xiàn)[71-73]較早研究了元學(xué)習(xí)。利用循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶特性,文獻(xiàn)[74-75]最早提出并實現(xiàn)了元強(qiáng)化學(xué)習(xí),主要思想是利用循環(huán)神經(jīng)網(wǎng)絡(luò)(如LSTM、GRU等)的隱層單元作為“經(jīng)驗容器”。具體地,RL2算法[75]包含以下4步。

    Step 1:采樣一個新的MDP,Mi~p(M)。

    Step 2:重置模型所有的隱層狀態(tài)。

    Step 3:采樣多條軌跡,優(yōu)化模型參數(shù)。

    Step 4:返回Step 1。

    這里,策略不再是常規(guī)RL中的πθ(at|st),而是變成πθ(at|at-1,rt-1,st)。

    上述基于RNN的方法,依靠一次前向傳播,來實現(xiàn)對新任務(wù)的適應(yīng),需要網(wǎng)絡(luò)的維數(shù)、層數(shù)足夠多,一方面難設(shè)計,另一方面難優(yōu)化。利用優(yōu)化進(jìn)行適應(yīng),可以解決這一問題。例如,文獻(xiàn)[76]提出了基于梯度優(yōu)化的元學(xué)習(xí)算法MAML(model-agnostic meta-learning),元訓(xùn)練階段的經(jīng)驗被提取為元測試階段的策略網(wǎng)絡(luò)參數(shù)初始化,面對不同的未見任務(wù)執(zhí)行不同的策略參數(shù)元更新,實現(xiàn)了多任務(wù)間的快速適應(yīng)。由于MAML不依賴策略的表示,經(jīng)驗提取與適應(yīng)都由梯度優(yōu)化實現(xiàn),便于規(guī)?;cRL的結(jié)合很快在機(jī)器人控制上得到應(yīng)用。文獻(xiàn)[77]利用MAML實現(xiàn)了多種機(jī)械臂操作任務(wù)的元強(qiáng)化學(xué)習(xí),但任務(wù)集有限封閉并且相似程度較大。文獻(xiàn)[78-79]研究了在線/增量式的元學(xué)習(xí)。

    綜上,梯度優(yōu)化與適應(yīng)類方法,具有隨機(jī)梯度下降的一般化特點:①模型無關(guān)(model-agnostic),與問題設(shè)定、任務(wù)數(shù)量無關(guān),具有良好的可規(guī)?;芰?;②在非凸的問題設(shè)定下,收斂到全局最優(yōu)難保證;③多任務(wù)下的分布偏移(distributional shift)問題,導(dǎo)致梯度項的估計方差大,策略優(yōu)化難收斂、收斂慢。

    4.6 分布式學(xué)習(xí)

    分布式學(xué)習(xí)(distributed learning)是數(shù)據(jù)驅(qū)動型學(xué)習(xí)系統(tǒng)必要的底層功能。具體地,分布式強(qiáng)化學(xué)習(xí)的工作模式有二,一是采樣(數(shù)據(jù))并行,二是優(yōu)化(模型)并行。表2歸納了2015—2020年有關(guān)分布式(深度)強(qiáng)化學(xué)習(xí)的進(jìn)展,按照時間順序排列。

    4.7 小結(jié)

    本節(jié)綜述了經(jīng)驗復(fù)用、持續(xù)學(xué)習(xí)、結(jié)構(gòu)化策略、蒸餾、梯度優(yōu)化與適應(yīng)、分布式學(xué)習(xí)等方面的相關(guān)研究,涉及算法原理、經(jīng)典工作、最新進(jìn)展、與機(jī)器人操作的交叉等。從算法角度,理想的多任務(wù)學(xué)習(xí)算法應(yīng)具備如下條件:

    條件1:給定一個目標(biāo)任務(wù),選擇合適的源任務(wù)(集)[84]。

    條件2:學(xué)習(xí)源任務(wù)(集)與目標(biāo)任務(wù)之間的關(guān)系[84]。

    條件3:源任務(wù)(集)到目標(biāo)任務(wù)的高效知識遷移[84]。

    條件4:使源任務(wù)(集)和目標(biāo)任務(wù)的整體累積獎勵函數(shù)最大。

    總體而言,本節(jié)所述相關(guān)算法可至少滿足上述4條件之一,但尚未達(dá)到符合全部4個條件。

    表2 分布式(深度)強(qiáng)化學(xué)習(xí)框架

    5 空間機(jī)器人操作多任務(wù)學(xué)習(xí)挑戰(zhàn)

    盡管多任務(wù)學(xué)習(xí)方法在提高機(jī)器人操作自主性、魯棒性方面初見成效,但仍難以直接應(yīng)用于復(fù)雜多變的空間環(huán)境。針對如何利用多任務(wù)學(xué)習(xí)方法實現(xiàn)高自主、強(qiáng)魯棒的空間機(jī)器人操作,本節(jié)分析研究挑戰(zhàn),給出關(guān)鍵技術(shù)發(fā)展建議。

    5.1 研究挑戰(zhàn)

    難點1:虛擬-真實策略遷移。對于一般的連續(xù)控制學(xué)習(xí)問題,常用方案是在虛擬環(huán)境學(xué)習(xí)訓(xùn)練,以零樣本或少樣本的代價將訓(xùn)練好的策略網(wǎng)絡(luò)遷移到真實環(huán)境;空間操作的強(qiáng)化學(xué)習(xí)則需要3種環(huán)境間的遷移,即虛擬環(huán)境、地面試驗環(huán)境、真實空間環(huán)境。由于空間環(huán)境的高動態(tài)、不確定等復(fù)雜因素,實際上很難利用虛擬環(huán)境逼近真實環(huán)境,制約了策略學(xué)習(xí)效率與策略運(yùn)行性能的進(jìn)一步提升。

    難點2:多模態(tài)感知信息融合與利用??臻g機(jī)器人的感知信息主要有3類:視覺感知,一般又分全局視角/局部視角圖像;力觸感知,即末端力/力矩測量;本體感知,即機(jī)器人關(guān)節(jié)角/角速度測量。首先,需要對上述多模態(tài)感知信息進(jìn)行預(yù)處理,提取多模態(tài)特征;其次,需要對提取的多模態(tài)特征進(jìn)行融合,并根據(jù)多階段任務(wù)進(jìn)行調(diào)度。具體而言,對于大范圍移動的前段操作,此時沒有力觸感知,只需視覺與本體感知;對于小范圍移動的末段操作,過小尺度的局部圖像特征無法提供有效引導(dǎo),須利用觸覺、本體感知實現(xiàn)高精度操作。一些研究考慮了碰撞動力學(xué)的建模[85-86],但并未將視覺感知引入系統(tǒng)閉環(huán)。

    難點3:長時限、序列化多任務(wù)處理。例如,為了實現(xiàn)對非合作目標(biāo)的在軌加注任務(wù),服務(wù)航天器需要首先進(jìn)行捕獲目標(biāo)航天器、重定位、切割包覆膜、剪線、開蓋等,才能執(zhí)行加注操作。實際上,很難通過強(qiáng)化學(xué)習(xí)優(yōu)化的單個策略網(wǎng)絡(luò)執(zhí)行上述多種操作任務(wù)。此外,對于多任務(wù)/多MDP的強(qiáng)化學(xué)習(xí),需要采集的樣本數(shù)量多,也需要相應(yīng)地提高策略網(wǎng)絡(luò)的參數(shù)維度,造成優(yōu)化過程的梯度估計方差大、算法收斂性不佳等方面的問題。

    5.2 關(guān)鍵技術(shù)

    1) 高效的多任務(wù)樣本采集與利用。現(xiàn)有研究工作中,異策略優(yōu)化+目標(biāo)重標(biāo)注是提高樣本利用效率的一種方式,但仍需要大量的同策略數(shù)據(jù)采樣,是采樣復(fù)雜度進(jìn)一步降低的瓶頸因素。由此,需要研究一種具有“交互數(shù)據(jù)一次離線采集、多種任務(wù)多次重復(fù)利用”特點的多任務(wù)強(qiáng)化學(xué)習(xí)方法,提高數(shù)據(jù)的利用效率,增加跨環(huán)境的策略可部署性。利用分層的結(jié)構(gòu),即將單個策略網(wǎng)絡(luò)分為上、下兩層,上層策略網(wǎng)絡(luò)為下層策略網(wǎng)絡(luò)提供目標(biāo),下層策略網(wǎng)絡(luò)產(chǎn)生與環(huán)境交互的動作信號,在時序上實現(xiàn)一種分層抽象;在優(yōu)化時,上、下層策略的參數(shù)更新頻率不同,下層策略更新快,上層策略更新慢,有利于降低單次優(yōu)化的負(fù)擔(dān)。

    2) 可學(xué)習(xí)的任務(wù)表示與關(guān)系?!霸慈蝿?wù)與目標(biāo)任務(wù)服從同一分布”是多任務(wù)強(qiáng)化學(xué)習(xí)的基本假設(shè)。這種分布的描述更多是定性的而非定量的,導(dǎo)致當(dāng)前大部分研究不是“在一定的MDP分布上學(xué)習(xí),使總體獎勵最大化”,而是“先尋找一組相近的MDP,再學(xué)習(xí)使總體獎勵最大化”。這種處理方式適合離散型多任務(wù)問題,不適合機(jī)器人學(xué)習(xí)這類連續(xù)控制問題;另外,將制約多任務(wù)策略網(wǎng)絡(luò)的任務(wù)容量,進(jìn)而降低空間操作應(yīng)對復(fù)雜空間環(huán)境的能力。有限狀態(tài)機(jī)、任務(wù)分解圖等多任務(wù)表示依賴人的設(shè)計,難以參數(shù)化、規(guī)?;S纱?,需要研究可學(xué)習(xí)的任務(wù)表示結(jié)構(gòu),在此基礎(chǔ)上建立多任務(wù)表示之間的關(guān)系(例如利用隱空間的連續(xù)分布表示,代替one-hot型的離散分布表示),提高策略的任務(wù)容量。

    3) 多源不確定性量化、估計與推斷。具有多種來源的不確定性是復(fù)雜空間環(huán)境的關(guān)鍵特征。相關(guān)研究工作中未見針對此問題的討論?,F(xiàn)有研究工作中,域隨機(jī)化作為一種增加策略執(zhí)行魯棒性的有效手段,對環(huán)境引入的攝動因素,增加交互數(shù)據(jù)的多樣性。但攝動因素的確定(例如機(jī)械臂結(jié)構(gòu)、質(zhì)量、關(guān)節(jié)阻尼、控制時延、光照強(qiáng)度等),以及攝動方差的大小常通過經(jīng)驗來設(shè)計。攝動方差設(shè)定過大將破壞策略優(yōu)化的收斂性,這一問題在多任務(wù)學(xué)習(xí)的問題設(shè)定下更加明顯。此外,主觀引入的攝動因素,和客觀的環(huán)境不確定性之間會存在耦合影響,一旦優(yōu)化算法訓(xùn)練失敗,很難定位影響因素。由此,需要揭示空間環(huán)境不確定性的多方面來源,研究如何對多源不確定性進(jìn)行量化、估計與推斷,提高策略學(xué)習(xí)與執(zhí)行的魯棒性、靈活性。

    6 結(jié)論

    空間機(jī)器人操作面臨多任務(wù)適應(yīng)性要求高、精細(xì)化要求高、不確定性強(qiáng)問題。通過機(jī)器學(xué)習(xí)方法,特別是深度強(qiáng)化學(xué)習(xí)方法,可以實現(xiàn)簡單的機(jī)械臂輔助加注操作,并具有一定的魯棒性。但是多種任務(wù)獨立學(xué)習(xí)的方案表示不統(tǒng)一、切換條件難設(shè)計,制約了這類方法的更深一步應(yīng)用。針對長時間范圍、序列化的空間機(jī)器人操作,依次遞進(jìn)地討論了機(jī)器人操作學(xué)習(xí)、機(jī)器人操作多任務(wù)學(xué)習(xí)、空間機(jī)器人操作多任務(wù)學(xué)習(xí)。全面綜述了多任務(wù)學(xué)習(xí)方法相關(guān)工作,包括經(jīng)驗復(fù)用、持續(xù)學(xué)習(xí)、結(jié)構(gòu)化策略、蒸餾、梯度優(yōu)化與適應(yīng)、分布式學(xué)習(xí)等方面,涉及算法、計算與機(jī)器人應(yīng)用3個維度。從算法角度,給出了理想的多任務(wù)學(xué)習(xí)算法應(yīng)具備的4個條件。在滿足多任務(wù)總體性能的同時,當(dāng)前算法在任務(wù)選擇、任務(wù)關(guān)系推斷、跨任務(wù)知識遷移方面的性能仍存在局限。

    圍繞如何通過多任務(wù)學(xué)習(xí)方法實現(xiàn)高自主、強(qiáng)魯棒的空間機(jī)器人操作,分析了共性關(guān)鍵技術(shù),具體包括提高交互數(shù)據(jù)采樣效率、建立可學(xué)習(xí)的任務(wù)表示、多源不確定性的量化等。上述共性關(guān)鍵技術(shù)的突破不僅可支撐在軌服務(wù),還可支撐在軌裝配、在軌制造、輔助離軌、空間碎片捕獲等多種太空任務(wù),為提升高軌、地外、深空等場景的空間操作智能性、助力我國空間機(jī)器人系統(tǒng)向全自主方向邁進(jìn)打下技術(shù)基礎(chǔ)。

    猜你喜歡
    多任務(wù)機(jī)器人文獻(xiàn)
    Hostile takeovers in China and Japan
    速讀·下旬(2021年11期)2021-10-12 01:10:43
    Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
    大東方(2019年12期)2019-10-20 13:12:49
    基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
    The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
    The Role and Significant of Professional Ethics in Accounting and Auditing
    商情(2017年1期)2017-03-22 16:56:36
    基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
    電測與儀表(2016年5期)2016-04-22 01:13:46
    機(jī)器人來幫你
    認(rèn)識機(jī)器人
    機(jī)器人來啦
    三级毛片av免费| 老司机靠b影院| 亚洲国产看品久久| 成年人免费黄色播放视频| 亚洲av日韩在线播放| 久久香蕉激情| 黑人欧美特级aaaaaa片| 亚洲五月色婷婷综合| 日韩制服丝袜自拍偷拍| 亚洲中文av在线| 久久九九热精品免费| 美女扒开内裤让男人捅视频| 啦啦啦在线免费观看视频4| 亚洲精品第二区| 日本欧美视频一区| 精品国产一区二区三区久久久樱花| 国产熟女午夜一区二区三区| 我的亚洲天堂| 妹子高潮喷水视频| 久久精品国产亚洲av香蕉五月 | 18禁国产床啪视频网站| 天天操日日干夜夜撸| 在线av久久热| 一本久久精品| 91成人精品电影| 欧美日韩中文字幕国产精品一区二区三区 | 丝袜喷水一区| 人人妻人人爽人人添夜夜欢视频| 欧美日韩成人在线一区二区| 丰满迷人的少妇在线观看| 侵犯人妻中文字幕一二三四区| 涩涩av久久男人的天堂| 国产精品自产拍在线观看55亚洲 | a级毛片在线看网站| 少妇人妻久久综合中文| 91九色精品人成在线观看| 每晚都被弄得嗷嗷叫到高潮| 美女高潮到喷水免费观看| 麻豆av在线久日| 熟女少妇亚洲综合色aaa.| 国产在视频线精品| 日本欧美视频一区| 一级片免费观看大全| 久久久国产一区二区| 欧美 亚洲 国产 日韩一| 精品人妻一区二区三区麻豆| 国产精品九九99| 亚洲天堂av无毛| 久久久久久久久免费视频了| 黄色 视频免费看| 欧美黄色片欧美黄色片| 后天国语完整版免费观看| 黑人欧美特级aaaaaa片| 国产高清视频在线播放一区 | 久久精品国产综合久久久| 久久久久久人人人人人| 成人亚洲精品一区在线观看| 欧美日韩福利视频一区二区| 精品国产乱子伦一区二区三区 | 亚洲国产av新网站| 丝袜美足系列| videos熟女内射| 亚洲性夜色夜夜综合| 国产欧美日韩综合在线一区二区| 国产免费视频播放在线视频| 99国产极品粉嫩在线观看| 91成年电影在线观看| 国产精品秋霞免费鲁丝片| 真人做人爱边吃奶动态| 嫩草影视91久久| 亚洲性夜色夜夜综合| 最新在线观看一区二区三区| 国产精品熟女久久久久浪| 在线观看一区二区三区激情| 欧美精品人与动牲交sv欧美| 天天影视国产精品| 午夜福利在线免费观看网站| 一区二区av电影网| 亚洲欧美一区二区三区久久| 亚洲欧美色中文字幕在线| 性色av乱码一区二区三区2| 成年女人毛片免费观看观看9 | 成人三级做爰电影| 亚洲va日本ⅴa欧美va伊人久久 | 久9热在线精品视频| 精品国产乱子伦一区二区三区 | 99久久精品国产亚洲精品| 9191精品国产免费久久| 好男人电影高清在线观看| 欧美激情极品国产一区二区三区| 精品国产一区二区久久| 欧美人与性动交α欧美软件| 国产精品香港三级国产av潘金莲| 久久久久国内视频| 精品国产乱子伦一区二区三区 | 熟女少妇亚洲综合色aaa.| 日韩 亚洲 欧美在线| 国产主播在线观看一区二区| 嫁个100分男人电影在线观看| 国产一区二区 视频在线| 妹子高潮喷水视频| 亚洲性夜色夜夜综合| 日日摸夜夜添夜夜添小说| 国产高清视频在线播放一区 | 亚洲午夜精品一区,二区,三区| 人妻 亚洲 视频| 亚洲一区二区三区欧美精品| 日本av手机在线免费观看| 国产高清视频在线播放一区 | 一二三四在线观看免费中文在| 国产精品国产av在线观看| 18在线观看网站| 两个人看的免费小视频| 亚洲国产欧美日韩在线播放| 亚洲性夜色夜夜综合| 亚洲国产欧美在线一区| 99热全是精品| 亚洲中文av在线| 国产97色在线日韩免费| 亚洲五月色婷婷综合| www.999成人在线观看| 在线观看免费午夜福利视频| 99久久综合免费| 丝袜喷水一区| 午夜福利在线观看吧| 亚洲av电影在线观看一区二区三区| 超碰97精品在线观看| www.av在线官网国产| 精品一区二区三区四区五区乱码| 美国免费a级毛片| 精品视频人人做人人爽| 免费观看a级毛片全部| 国产成人a∨麻豆精品| 欧美+亚洲+日韩+国产| 免费观看av网站的网址| 高清在线国产一区| 嫩草影视91久久| 亚洲精品中文字幕一二三四区 | 黑人巨大精品欧美一区二区mp4| 免费在线观看完整版高清| 成人黄色视频免费在线看| 91精品国产国语对白视频| 国产日韩欧美亚洲二区| 亚洲激情五月婷婷啪啪| 中文字幕av电影在线播放| 韩国精品一区二区三区| 日本a在线网址| 午夜成年电影在线免费观看| 成年av动漫网址| 国产有黄有色有爽视频| av天堂久久9| 久久久久久久国产电影| 高清黄色对白视频在线免费看| 国产片内射在线| 亚洲国产欧美日韩在线播放| 国产成人精品久久二区二区91| 青春草亚洲视频在线观看| 每晚都被弄得嗷嗷叫到高潮| 欧美在线一区亚洲| av在线播放精品| 欧美av亚洲av综合av国产av| 最新的欧美精品一区二区| 看免费av毛片| 成年动漫av网址| 国产黄频视频在线观看| 天天躁日日躁夜夜躁夜夜| 日韩 欧美 亚洲 中文字幕| 日韩大码丰满熟妇| 亚洲av片天天在线观看| 两个人免费观看高清视频| 午夜精品久久久久久毛片777| 精品国产国语对白av| 精品国产一区二区三区四区第35| 亚洲熟女精品中文字幕| 99国产精品一区二区三区| 久久毛片免费看一区二区三区| 国产欧美日韩一区二区精品| 国产成+人综合+亚洲专区| 两个人免费观看高清视频| 最黄视频免费看| 9191精品国产免费久久| 性色av一级| 建设人人有责人人尽责人人享有的| 老司机午夜十八禁免费视频| 夫妻午夜视频| 啦啦啦中文免费视频观看日本| 黄色 视频免费看| h视频一区二区三区| 黑丝袜美女国产一区| 男人操女人黄网站| 国产亚洲欧美精品永久| 亚洲av成人一区二区三| 一区二区三区激情视频| 亚洲国产欧美网| 在线av久久热| netflix在线观看网站| 永久免费av网站大全| 免费久久久久久久精品成人欧美视频| 男女边摸边吃奶| 欧美黄色淫秽网站| 50天的宝宝边吃奶边哭怎么回事| 9热在线视频观看99| 他把我摸到了高潮在线观看 | 午夜福利免费观看在线| 亚洲精品久久久久久婷婷小说| 成人18禁高潮啪啪吃奶动态图| 亚洲精品第二区| 亚洲伊人色综图| 老司机在亚洲福利影院| 精品人妻1区二区| a级毛片黄视频| 国产老妇伦熟女老妇高清| 嫩草影视91久久| 日韩,欧美,国产一区二区三区| 欧美精品一区二区大全| 日本猛色少妇xxxxx猛交久久| 少妇 在线观看| 91老司机精品| 亚洲一区中文字幕在线| 日韩 欧美 亚洲 中文字幕| 久久天躁狠狠躁夜夜2o2o| 亚洲精品国产一区二区精华液| 国产精品久久久久成人av| 国产在线观看jvid| 考比视频在线观看| 在线观看免费日韩欧美大片| 亚洲精品久久午夜乱码| 国产精品一区二区精品视频观看| 91字幕亚洲| 亚洲久久久国产精品| 免费看十八禁软件| 男女国产视频网站| 久久国产精品影院| 午夜免费观看性视频| 国产精品 国内视频| 午夜成年电影在线免费观看| 亚洲欧美日韩另类电影网站| 久久久欧美国产精品| 久久性视频一级片| 淫妇啪啪啪对白视频 | 亚洲国产毛片av蜜桃av| 欧美在线一区亚洲| 一级毛片电影观看| 麻豆乱淫一区二区| 亚洲成av片中文字幕在线观看| 大香蕉久久成人网| 大片免费播放器 马上看| 日本欧美视频一区| 久久免费观看电影| 色综合欧美亚洲国产小说| 久久久久国产精品人妻一区二区| 在线永久观看黄色视频| 日韩欧美免费精品| 成人国语在线视频| 欧美人与性动交α欧美软件| 男人添女人高潮全过程视频| av超薄肉色丝袜交足视频| 成人18禁高潮啪啪吃奶动态图| 国产一级毛片在线| 国产精品一区二区在线观看99| 两人在一起打扑克的视频| 久久精品亚洲熟妇少妇任你| 美女午夜性视频免费| 国产精品久久久久久人妻精品电影 | 亚洲七黄色美女视频| av网站在线播放免费| 老司机在亚洲福利影院| 亚洲国产精品999| 欧美黑人精品巨大| 国产亚洲av片在线观看秒播厂| 在线精品无人区一区二区三| 男人操女人黄网站| 午夜91福利影院| 咕卡用的链子| 少妇精品久久久久久久| 女人久久www免费人成看片| 99香蕉大伊视频| 91精品国产国语对白视频| 老熟妇仑乱视频hdxx| 在线天堂中文资源库| 欧美日韩一级在线毛片| 精品国产国语对白av| 精品一区二区三卡| 伊人亚洲综合成人网| 久久热在线av| 性色av一级| 欧美激情极品国产一区二区三区| 午夜精品久久久久久毛片777| 王馨瑶露胸无遮挡在线观看| 精品人妻1区二区| av电影中文网址| 精品少妇久久久久久888优播| www日本在线高清视频| 国产欧美日韩一区二区三 | 女人精品久久久久毛片| 欧美国产精品va在线观看不卡| 精品国产一区二区三区四区第35| 丝袜人妻中文字幕| 日日爽夜夜爽网站| 涩涩av久久男人的天堂| 亚洲av日韩在线播放| 丰满迷人的少妇在线观看| 丝瓜视频免费看黄片| 69av精品久久久久久 | 一本大道久久a久久精品| 久久亚洲国产成人精品v| 日韩制服骚丝袜av| 老司机深夜福利视频在线观看 | 后天国语完整版免费观看| 亚洲成av片中文字幕在线观看| 一级,二级,三级黄色视频| 免费一级毛片在线播放高清视频 | 夜夜骑夜夜射夜夜干| 久久久久久久国产电影| 亚洲va日本ⅴa欧美va伊人久久 | 纯流量卡能插随身wifi吗| 9191精品国产免费久久| 天天躁狠狠躁夜夜躁狠狠躁| 叶爱在线成人免费视频播放| 18禁裸乳无遮挡动漫免费视频| 五月天丁香电影| 日韩精品免费视频一区二区三区| 亚洲一区二区三区欧美精品| 亚洲中文日韩欧美视频| 欧美中文综合在线视频| 不卡av一区二区三区| 国产精品国产av在线观看| 在线观看免费午夜福利视频| 欧美乱码精品一区二区三区| 亚洲一区中文字幕在线| 久久亚洲国产成人精品v| 亚洲天堂av无毛| 亚洲色图综合在线观看| 亚洲少妇的诱惑av| 亚洲精品自拍成人| 99国产精品99久久久久| 91成人精品电影| 亚洲一区二区三区欧美精品| 亚洲成人手机| 在线永久观看黄色视频| 三级毛片av免费| 水蜜桃什么品种好| 国产三级黄色录像| 精品久久蜜臀av无| 美女视频免费永久观看网站| 狠狠狠狠99中文字幕| 日本av手机在线免费观看| 欧美精品高潮呻吟av久久| 国产色视频综合| 久久精品亚洲熟妇少妇任你| 99国产精品免费福利视频| 亚洲免费av在线视频| 亚洲精品成人av观看孕妇| 90打野战视频偷拍视频| av天堂久久9| 国产亚洲av片在线观看秒播厂| 免费人妻精品一区二区三区视频| 国产免费一区二区三区四区乱码| av在线老鸭窝| 亚洲国产日韩一区二区| 亚洲国产av新网站| 国产精品久久久久久精品电影小说| 午夜福利免费观看在线| 国产成人av激情在线播放| 国产91精品成人一区二区三区 | 成年人黄色毛片网站| netflix在线观看网站| 成人av一区二区三区在线看 | 91九色精品人成在线观看| 国产不卡av网站在线观看| 成年女人毛片免费观看观看9 | 狠狠狠狠99中文字幕| 黄色怎么调成土黄色| 91成人精品电影| 如日韩欧美国产精品一区二区三区| 99国产精品一区二区三区| 19禁男女啪啪无遮挡网站| 熟女少妇亚洲综合色aaa.| 中文字幕制服av| 婷婷成人精品国产| 日韩欧美国产一区二区入口| 亚洲色图 男人天堂 中文字幕| 真人做人爱边吃奶动态| 欧美 日韩 精品 国产| 亚洲国产欧美一区二区综合| 亚洲欧美一区二区三区久久| 丝袜喷水一区| 欧美激情极品国产一区二区三区| 老司机午夜福利在线观看视频 | 国产高清国产精品国产三级| 男女午夜视频在线观看| 男女边摸边吃奶| 色婷婷久久久亚洲欧美| 美女高潮到喷水免费观看| 欧美国产精品一级二级三级| 亚洲成人免费av在线播放| 超色免费av| 亚洲欧美精品综合一区二区三区| h视频一区二区三区| 午夜老司机福利片| 一本久久精品| 一本一本久久a久久精品综合妖精| 国产精品亚洲av一区麻豆| 老熟女久久久| 国产精品成人在线| 亚洲自偷自拍图片 自拍| 十八禁网站网址无遮挡| 免费av中文字幕在线| 一个人免费看片子| 中文字幕人妻熟女乱码| 精品少妇一区二区三区视频日本电影| 老司机影院毛片| av在线播放精品| 国产欧美日韩一区二区三 | 9色porny在线观看| 欧美97在线视频| 亚洲免费av在线视频| 精品国产超薄肉色丝袜足j| 1024视频免费在线观看| 亚洲 欧美一区二区三区| 国产欧美日韩一区二区三区在线| 欧美+亚洲+日韩+国产| 欧美xxⅹ黑人| netflix在线观看网站| 精品人妻熟女毛片av久久网站| 欧美日韩亚洲国产一区二区在线观看 | 悠悠久久av| 交换朋友夫妻互换小说| 亚洲国产欧美网| 久久久久精品人妻al黑| 丰满迷人的少妇在线观看| 日韩精品免费视频一区二区三区| 桃花免费在线播放| 午夜精品国产一区二区电影| 又大又爽又粗| 热99国产精品久久久久久7| 亚洲中文av在线| 久久99热这里只频精品6学生| 欧美老熟妇乱子伦牲交| 日韩欧美一区二区三区在线观看 | 久久人妻福利社区极品人妻图片| 12—13女人毛片做爰片一| 国产精品 欧美亚洲| 精品国产超薄肉色丝袜足j| 亚洲黑人精品在线| 精品高清国产在线一区| 少妇被粗大的猛进出69影院| 成人国语在线视频| 99久久人妻综合| 国产欧美日韩一区二区精品| 午夜两性在线视频| 亚洲一码二码三码区别大吗| 国产免费一区二区三区四区乱码| 久久久水蜜桃国产精品网| 国产一区二区 视频在线| 欧美变态另类bdsm刘玥| 国产97色在线日韩免费| 欧美+亚洲+日韩+国产| 欧美日韩福利视频一区二区| 超碰97精品在线观看| 亚洲五月婷婷丁香| 国产精品免费视频内射| 纵有疾风起免费观看全集完整版| 一区二区三区乱码不卡18| 国产精品九九99| 国产av国产精品国产| 午夜福利,免费看| 久久午夜综合久久蜜桃| 国产精品久久久人人做人人爽| 777米奇影视久久| 午夜免费观看性视频| 黄色怎么调成土黄色| 最近中文字幕2019免费版| 女性被躁到高潮视频| 亚洲精品日韩在线中文字幕| 伊人久久大香线蕉亚洲五| 欧美一级毛片孕妇| 精品乱码久久久久久99久播| 亚洲欧美日韩高清在线视频 | 男人操女人黄网站| 青青草视频在线视频观看| 99国产极品粉嫩在线观看| 日韩制服骚丝袜av| 新久久久久国产一级毛片| 久久精品久久久久久噜噜老黄| 男人舔女人的私密视频| 69精品国产乱码久久久| 色老头精品视频在线观看| 欧美日韩亚洲综合一区二区三区_| 国产99久久九九免费精品| 人妻一区二区av| 久久国产精品人妻蜜桃| 国产精品香港三级国产av潘金莲| 国产男人的电影天堂91| 国产精品香港三级国产av潘金莲| av网站在线播放免费| 日韩精品免费视频一区二区三区| 日本猛色少妇xxxxx猛交久久| 一区二区日韩欧美中文字幕| 国产成人欧美在线观看 | 国产黄色免费在线视频| 久热爱精品视频在线9| 国产精品久久久久久人妻精品电影 | 午夜日韩欧美国产| 欧美日韩中文字幕国产精品一区二区三区 | 婷婷成人精品国产| 人人妻人人澡人人看| av天堂在线播放| 成人国语在线视频| 80岁老熟妇乱子伦牲交| 国产亚洲午夜精品一区二区久久| 巨乳人妻的诱惑在线观看| 精品熟女少妇八av免费久了| 精品亚洲乱码少妇综合久久| 日韩中文字幕视频在线看片| 久久狼人影院| av天堂久久9| 亚洲国产日韩一区二区| 99九九在线精品视频| 久久精品国产亚洲av高清一级| 水蜜桃什么品种好| 免费人妻精品一区二区三区视频| 999精品在线视频| 亚洲人成电影免费在线| 国产在线一区二区三区精| 国产国语露脸激情在线看| 久久久久久久国产电影| e午夜精品久久久久久久| av在线老鸭窝| 自拍欧美九色日韩亚洲蝌蚪91| 午夜免费成人在线视频| 国产97色在线日韩免费| 男人添女人高潮全过程视频| 精品一区在线观看国产| 精品乱码久久久久久99久播| 看免费av毛片| 亚洲av电影在线进入| 在线 av 中文字幕| 中亚洲国语对白在线视频| 狂野欧美激情性bbbbbb| 91国产中文字幕| 国产精品久久久久久精品古装| 欧美日韩一级在线毛片| 精品亚洲成国产av| 91麻豆av在线| 在线永久观看黄色视频| 91老司机精品| 女性生殖器流出的白浆| 精品卡一卡二卡四卡免费| 90打野战视频偷拍视频| 亚洲欧美一区二区三区久久| 大型av网站在线播放| 欧美性长视频在线观看| 国产精品久久久久久人妻精品电影 | 午夜久久久在线观看| 国产成人系列免费观看| 一本—道久久a久久精品蜜桃钙片| 国产淫语在线视频| 久久综合国产亚洲精品| av有码第一页| 亚洲欧美一区二区三区久久| 黄色视频,在线免费观看| 亚洲va日本ⅴa欧美va伊人久久 | 成年av动漫网址| 日本av免费视频播放| 999久久久精品免费观看国产| 亚洲天堂av无毛| 国产男人的电影天堂91| 久久久精品免费免费高清| 黑人欧美特级aaaaaa片| 女人久久www免费人成看片| 搡老熟女国产l中国老女人| 大型av网站在线播放| 午夜两性在线视频| 中文字幕人妻熟女乱码| 男女午夜视频在线观看| 欧美另类亚洲清纯唯美| kizo精华| 久久国产亚洲av麻豆专区| 精品国产乱码久久久久久男人| 欧美 亚洲 国产 日韩一| 最近最新免费中文字幕在线| 999久久久精品免费观看国产| 国产成人av教育| 国产在线观看jvid| 黑人猛操日本美女一级片| 91精品三级在线观看| 黑人操中国人逼视频| 纵有疾风起免费观看全集完整版| 午夜两性在线视频| 99精品久久久久人妻精品| 男女午夜视频在线观看| 熟女少妇亚洲综合色aaa.| 国产伦理片在线播放av一区| 啦啦啦视频在线资源免费观看| 国产有黄有色有爽视频| 亚洲国产欧美日韩在线播放| www.熟女人妻精品国产| 免费女性裸体啪啪无遮挡网站| 黄色 视频免费看| 男女高潮啪啪啪动态图| 黄色视频,在线免费观看| 老司机靠b影院| 正在播放国产对白刺激| 精品国产乱码久久久久久男人| 久久久久久人人人人人| av天堂久久9| 久久99一区二区三区| 精品人妻1区二区| 免费在线观看日本一区| av网站免费在线观看视频| 99久久人妻综合| 高潮久久久久久久久久久不卡| 欧美在线一区亚洲| videos熟女内射|