• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    機(jī)器人操作技能學(xué)習(xí)方法綜述

    2019-04-11 12:14:20劉乃軍魯濤蔡瑩皓王碩
    自動(dòng)化學(xué)報(bào) 2019年3期
    關(guān)鍵詞:操作技能機(jī)器人函數(shù)

    劉乃軍 魯濤 蔡瑩皓 王碩

    各式機(jī)器人正逐漸應(yīng)用于家庭、工廠(chǎng)、國(guó)防以及外太空探索等領(lǐng)域[1?2],具備諸如衣服整理、機(jī)械零件裝配、炸彈拆除等操作技能.隨著機(jī)器人技術(shù)的發(fā)展,人們期望機(jī)器人具備更強(qiáng)的自主操作能力,在更多領(lǐng)域代替人類(lèi)完成更加復(fù)雜的操作任務(wù).在人工分析機(jī)器人行為特性和工作任務(wù)要求的基礎(chǔ)上,采用傳統(tǒng)復(fù)雜編程、遙操作或示教編程等常規(guī)方法可使機(jī)器人具備一定的操作技能,較好地勝任于諸多結(jié)構(gòu)化工作環(huán)境和單一固定任務(wù)的工作場(chǎng)景,快速準(zhǔn)確地完成可重復(fù)位置和力控制的任務(wù).然而伴隨機(jī)器人應(yīng)用領(lǐng)域的不斷擴(kuò)大,機(jī)器人往往會(huì)面臨未知、動(dòng)態(tài)及難預(yù)測(cè)的復(fù)雜環(huán)境.采用傳統(tǒng)常規(guī)方法設(shè)計(jì)的機(jī)器人操作技能不能動(dòng)態(tài)地適應(yīng)該類(lèi)非結(jié)構(gòu)化工作環(huán)境或場(chǎng)景多變的工作場(chǎng)合,且機(jī)器人操作技能開(kāi)發(fā)過(guò)程中存在周期長(zhǎng)、效率低、工作量大及不能滿(mǎn)足需求的多樣性等諸多難題[3].隨著人工智能技術(shù)研究的快速發(fā)展及關(guān)鍵技術(shù)的突破,采用機(jī)器學(xué)習(xí)方法[4?5]設(shè)計(jì)具備一定自主決策和學(xué)習(xí)能力的機(jī)器人操作技能學(xué)習(xí)系統(tǒng),使機(jī)器人在復(fù)雜、動(dòng)態(tài)的環(huán)境中學(xué)習(xí)并獲取操作技能,能彌補(bǔ)傳統(tǒng)編程等常規(guī)方法的缺陷,極大提高機(jī)器人對(duì)環(huán)境的適應(yīng)能力.機(jī)器人操作技能學(xué)習(xí)作為未來(lái)機(jī)器人應(yīng)具備的重要性能之一,對(duì)未來(lái)機(jī)器人技術(shù)的發(fā)展具有重要意義,是未來(lái)機(jī)器人在各領(lǐng)域得以廣泛應(yīng)用的重要基礎(chǔ).近年來(lái),機(jī)器人操作技能學(xué)習(xí)研究正逐漸成為機(jī)器人研究領(lǐng)域的前沿和熱點(diǎn)[6?8],新的學(xué)習(xí)方法被逐漸應(yīng)用于機(jī)器人的操作技能學(xué)習(xí)中,諸多著名研究機(jī)構(gòu)和公司,如DeepMind[9?10]、加州大學(xué)伯克利分校[11?12]、OpenAI[13?14]、Google Brain[15]等在此領(lǐng)域取得了一定的成果,但仍面臨著巨大挑戰(zhàn).本文針對(duì)近年來(lái)機(jī)器人操作技能學(xué)習(xí)領(lǐng)域的主要研究工作進(jìn)行概述,并以此為基礎(chǔ)列舉了機(jī)器人操作技能學(xué)習(xí)未來(lái)的主要研究方向.

    1 研究進(jìn)展概述

    機(jī)器人操作技能學(xué)習(xí)方法涉及眾多機(jī)器學(xué)習(xí)算法,機(jī)器人訓(xùn)練數(shù)據(jù)的產(chǎn)生方式?jīng)Q定了機(jī)器人學(xué)習(xí)所要采用的具體方法[16].機(jī)器人操作技能學(xué)習(xí)所需數(shù)據(jù)大致可由機(jī)器人與環(huán)境交互產(chǎn)生或由專(zhuān)家提供[5,17].基于此,本文將機(jī)器人操作技能學(xué)習(xí)方法分為基于強(qiáng)化學(xué)習(xí)的方法、基于示教學(xué)習(xí)的方法和基于小數(shù)據(jù)學(xué)習(xí)的方法(如圖1所示),并基于該分類(lèi)對(duì)機(jī)器人操作技能學(xué)習(xí)的研究現(xiàn)狀進(jìn)行概述和分析.

    圖1 操作技能學(xué)習(xí)方法分類(lèi)Fig.1 The categories of robot manipulation skills learning methods

    1.1 基于強(qiáng)化學(xué)習(xí)

    在基于強(qiáng)化學(xué)習(xí)的機(jī)器人操作技能學(xué)習(xí)中,機(jī)器人以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過(guò)最大化累計(jì)獎(jiǎng)賞的方式學(xué)習(xí)到最優(yōu)操作技能策略[18?19].該類(lèi)方法分為執(zhí)行策略、收集樣本及優(yōu)化策略三個(gè)階段,如圖2所示.

    圖2 基于強(qiáng)化學(xué)習(xí)的操作技能學(xué)習(xí)示意圖Fig.2 Illustration of manipulation skills learning method based on reinforcement learning

    在執(zhí)行策略階段,機(jī)器人在狀態(tài)st依據(jù)當(dāng)前策略π執(zhí)行動(dòng)作at得到獎(jiǎng)賞值rt+1并根據(jù)狀態(tài)轉(zhuǎn)移概率p(st+1/st,at)到達(dá)新?tīng)顟B(tài)st+1,重復(fù)該過(guò)程,直到機(jī)器人到達(dá)終止?fàn)顟B(tài).

    在收集樣本階段,得到軌跡序列τ:s0,a0,s1,a1,···,sH,其中H為軌跡序列長(zhǎng)度.機(jī)器人在環(huán)境中執(zhí)行策略π后,所得累計(jì)獎(jiǎng)賞值R(τ)為

    其中,γ為折扣因子.機(jī)器人在狀態(tài)s對(duì)應(yīng)的價(jià)值函數(shù)Vπ(s)表示其在狀態(tài)s執(zhí)行策略π后得到的累計(jì)獎(jiǎng)賞值.

    在狀態(tài)s實(shí)施動(dòng)作a后得到的動(dòng)作–狀態(tài)值函數(shù)Qπ(s,a)的定義為

    由貝爾曼(Bellman)方程[20]可得動(dòng)作–狀態(tài)值函數(shù)的迭代關(guān)系式為

    機(jī)器人在狀態(tài)st所要執(zhí)行的最優(yōu)動(dòng)作為

    在策略?xún)?yōu)化階段,對(duì)機(jī)器人操作技能策略進(jìn)行優(yōu)化.依據(jù)最優(yōu)動(dòng)作的獲得是否需要價(jià)值函數(shù)Vπ(s)或動(dòng)作–狀態(tài)值函數(shù)Qπ(s,a),將強(qiáng)化學(xué)習(xí)方法分為值函數(shù)強(qiáng)化學(xué)習(xí)和策略搜索強(qiáng)化學(xué)習(xí).近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,諸多學(xué)者采用由深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合得到的深度強(qiáng)化學(xué)習(xí)方法來(lái)獲取機(jī)器人的操作技能策略.

    1.1.1 值函數(shù)強(qiáng)化學(xué)習(xí)方法

    值函數(shù)強(qiáng)化學(xué)習(xí)方法依據(jù)機(jī)器人與環(huán)境交互是否需要依靠先驗(yàn)知識(shí)或交互數(shù)據(jù)學(xué)習(xí)得到系統(tǒng)的狀態(tài)轉(zhuǎn)移模型,可分為基于學(xué)習(xí)模型的值函數(shù)方法和基于無(wú)模型的值函數(shù)方法.

    1)基于學(xué)習(xí)模型的值函數(shù)強(qiáng)化學(xué)習(xí).Lioutikov等[21]基于局部線(xiàn)性系統(tǒng)估計(jì)(Local linear system estimation)得到系統(tǒng)的狀態(tài)轉(zhuǎn)移概率模型,實(shí)現(xiàn)了二連桿機(jī)械臂對(duì)乒乓球拍的操作(如圖3(a)所示).Schenck等[22]基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建立了推斷挖取和傾倒動(dòng)作的預(yù)測(cè)模型,實(shí)現(xiàn)了KUKA機(jī)器人挖取豆粒物體的操作技能任務(wù)(如圖3(b)所示).Hester等[23]基于決策樹(shù)得到系統(tǒng)的狀態(tài)轉(zhuǎn)移概率模型,實(shí)現(xiàn)了人形機(jī)器人踢足球的操作技能.

    2)基于無(wú)模型的值函數(shù)強(qiáng)化學(xué)習(xí).機(jī)器人各狀態(tài)的價(jià)值函數(shù)采用諸如蒙特卡洛[24]、TD(λ)[25]、Q-leaning[26]及SARSA[27]等算法進(jìn)行估計(jì),進(jìn)而得到各狀態(tài)的最優(yōu)動(dòng)作.Konidaris等[28?29]基于CST(Constructing skill tree)算法將機(jī)器人所要執(zhí)行的任務(wù)序列化,完成了機(jī)器人在室內(nèi)環(huán)境中移動(dòng)到指定位置并執(zhí)行開(kāi)門(mén)的操作任務(wù)(如圖3(c)所示).Asada等[30]基于視覺(jué)信息構(gòu)建得到了機(jī)器人工作環(huán)境中目標(biāo)物體的幾何尺寸及方位信息,采用Q-leaning算法成功實(shí)現(xiàn)了機(jī)器人將球擊打到指定位置的操作任務(wù).Kroemer等[31]提出了一種基于強(qiáng)化學(xué)習(xí)和視覺(jué)反饋策略的混合控制器,以處理抓取任務(wù)中的不確定性問(wèn)題,成功實(shí)現(xiàn)了機(jī)器人抓取不同種類(lèi)物體的任務(wù)目標(biāo)(如圖3(d)所示).

    圖3 基于值函數(shù)強(qiáng)化學(xué)習(xí)的操作技能Fig.3 Manipulation skills based on value function of reinforcement learning

    總體而言,基于無(wú)模型的值函數(shù)方法不需對(duì)系統(tǒng)建模,計(jì)算量小,但價(jià)值函數(shù)的獲取需要通過(guò)機(jī)器人與環(huán)境的不斷交互采樣估計(jì)得到.基于學(xué)習(xí)模型的值函數(shù)方法首先需要依據(jù)機(jī)器人與環(huán)境的交互數(shù)據(jù)學(xué)習(xí)得到系統(tǒng)模型,并基于該模型采用仿真形式得到最優(yōu)策略,故其在真實(shí)環(huán)境中所需的樣本少,但計(jì)算量大.

    1.1.2 策略搜索強(qiáng)化學(xué)習(xí)方法

    與基于通過(guò)價(jià)值函數(shù)推導(dǎo)間接得到最優(yōu)策略不同,基于策略搜索的強(qiáng)化學(xué)習(xí)算法直接基于給定的策略評(píng)價(jià)函數(shù)在策略空間內(nèi)搜索得到最優(yōu)控制策略.將策略表示為參數(shù)θ的函數(shù)πθ,則對(duì)策略的優(yōu)化間接轉(zhuǎn)化為對(duì)參數(shù)θ的優(yōu)化.給定的策略評(píng)價(jià)函數(shù)為

    依據(jù)策略搜索是否需要求導(dǎo),可將策略搜索分為免求導(dǎo)方法和策略梯度方法.常見(jiàn)的免求導(dǎo)方法包含 CEM(Cross-entropy method)[32]、CMA(Covariance matrix adaptation)[33]等.策略梯度方法通過(guò)求解策略評(píng)價(jià)函數(shù)關(guān)于參數(shù)θ的導(dǎo)數(shù),得到策略參數(shù)θ的搜索方向?θη(θ)

    其中,p(τ;θ)表示執(zhí)行策略πθ得到軌跡τ的概率分布.進(jìn)而得到更新后的策略參數(shù)θi+1為

    其中,α為更新步長(zhǎng).Endo等[34]基于策略梯度,實(shí)現(xiàn)了雙足機(jī)器人行走的操作技能任務(wù).Peters等[35]將策略梯度與運(yùn)動(dòng)基元相結(jié)合,訓(xùn)練得到了機(jī)械臂擊打棒球的操作技能策略(如圖4(a)所示).Deisenroth等[36]提出了一種基于模型的策略搜索方法,將深度相機(jī)提供的環(huán)境圖像信息和機(jī)器人操作任務(wù)的空間約束加入到學(xué)習(xí)過(guò)程,實(shí)現(xiàn)了機(jī)器人搭積木的操作任務(wù)(如圖4(b)所示),之后采用高斯過(guò)程[37]建立系統(tǒng)狀態(tài)轉(zhuǎn)移概率模型,減小了模型偏差對(duì)機(jī)器人操作技能學(xué)習(xí)的不利影響.

    圖4 基于策略搜索強(qiáng)化學(xué)習(xí)的操作技能Fig.4 Manipulation skills based on policy search of reinforcement learning

    相較而言,在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,策略搜索比基于價(jià)值函數(shù)的強(qiáng)化學(xué)習(xí)方法更具優(yōu)勢(shì),主要體現(xiàn)在:1)采用策略搜索方法可以較為方便地融入專(zhuān)家知識(shí),可依據(jù)獲取的專(zhuān)家策略對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,以加速策略?xún)?yōu)化的收斂過(guò)程;2)策略函數(shù)比價(jià)值函數(shù)具有更少的學(xué)習(xí)參數(shù),基于策略搜索的強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)效率更加高效[38].

    1.1.3 深度強(qiáng)化學(xué)習(xí)方法

    基于深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的新分支,通過(guò)組合低層特征形成更加抽象的高層表示,得到數(shù)據(jù)的分布式特征.近年來(lái),諸多學(xué)者將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合得到的深度強(qiáng)化學(xué)習(xí)算法[39]成功應(yīng)用于視頻游戲[40]和圍棋[41?42]等領(lǐng)域.

    1)基于價(jià)值函數(shù)的深度強(qiáng)化學(xué)習(xí).Deep-Mind[40]提出的DQN(Deep Q-network)首次在視頻游戲領(lǐng)域超越了人類(lèi)游戲玩家.DQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示,輸入是距離當(dāng)前時(shí)刻最近的若干幀圖像,經(jīng)過(guò)若干層卷積網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)非線(xiàn)性變換后,最后輸出各動(dòng)作對(duì)應(yīng)的狀態(tài)–動(dòng)作值.其通過(guò)最小化誤差函數(shù)

    對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,式中yi為目標(biāo)狀態(tài)–動(dòng)作值.

    其中,θi為第i次迭代更新后的網(wǎng)絡(luò)參數(shù)值.為了防止學(xué)習(xí)過(guò)程中過(guò)高估計(jì)動(dòng)作–狀態(tài)值,van Hasselt等[43]提出了雙DQN(Double DQN),其目標(biāo)狀態(tài)–動(dòng)作值為

    之后競(jìng)爭(zhēng)網(wǎng)路(Dueling network)[44]和深度循環(huán)網(wǎng)絡(luò)(Deep recurrent network)[45]相繼被提出.Zhang等[46?47]創(chuàng)建虛擬訓(xùn)練環(huán)境將DQN算法用于訓(xùn)練三關(guān)節(jié)機(jī)器人抓取任務(wù)的控制策略,然而由于訓(xùn)練環(huán)境與真實(shí)場(chǎng)景存在一定差異并且其將動(dòng)作空間進(jìn)行了離散化,導(dǎo)致訓(xùn)練后的控制器在真實(shí)場(chǎng)景下的抓取效果欠佳.Google Brain和DeepMind聯(lián)合提出了基于連續(xù)動(dòng)作空間和學(xué)習(xí)模型的DQN改進(jìn)算法[48],在虛擬環(huán)境中成功實(shí)現(xiàn)了機(jī)器人抓取、夾手移動(dòng)等操作任務(wù).

    圖5 DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.5 Illustration of DQN neural network

    2)基于策略搜索的深度強(qiáng)化學(xué)習(xí).為解決連續(xù)動(dòng)作空間上的控制問(wèn)題,Lillicrap等[9]通過(guò)對(duì)確定性策略梯度(Deterministic policy gradient,DPG)[49]方法進(jìn)行改造,提出了一種基于A(yíng)ctor-Critic框架的深度確定性策略梯度(Deep deterministic policy gradient,DDPG)算法,并在模擬仿真環(huán)境Mujoco中實(shí)現(xiàn)了機(jī)器人的抓取操作任務(wù)目標(biāo).為了保證策略?xún)?yōu)化過(guò)程中性能漸進(jìn)提高,Schulman等[50]提出了TRPO(Trust region policy optimization)算法,其通過(guò)優(yōu)化目標(biāo)函數(shù)

    對(duì)策略參數(shù)進(jìn)行更新,式中t為優(yōu)勢(shì)函數(shù)(Advantage function)在時(shí)刻t的估計(jì)值,πθ,πθold分別表示在同一批次訓(xùn)練數(shù)據(jù)上優(yōu)化前后的新舊策略,δ為較小值,用于限制新舊策略分布的KL散度差異.TRPO算法被成功應(yīng)用于虛擬場(chǎng)景下的機(jī)器人操作技能學(xué)習(xí).隨后,DeepMind和OpenAI提出了基于TRPO一階近似形式的改進(jìn)型算法PPO(Proximal policy optimization)[10,13],在虛擬仿真環(huán)境機(jī)器人的操作技能學(xué)習(xí)中取得了優(yōu)于TRPO的效果.基于異步梯度下降形式actor-critic的A3C(Asynchronous advantage actor-critic)[51]算法也被用于機(jī)器人的操作技能策略學(xué)習(xí).

    鑒于在策略?xún)?yōu)化的每個(gè)迭代步中,都需要采集一定量的訓(xùn)練數(shù)據(jù)來(lái)更新策略,而在真實(shí)機(jī)器人工作場(chǎng)景中,訓(xùn)練數(shù)據(jù)的獲取成本高昂,為此加州大學(xué)伯克利分校的Levine等[11?12,52?53]提出了引導(dǎo)策略搜索(Guided policy search,GPS)算法,通過(guò)使用優(yōu)化軌跡分布來(lái)生成具有引導(dǎo)作用的訓(xùn)練樣本,并采用監(jiān)督學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略.之后Levine等[12]又將環(huán)境的圖像信息作為機(jī)器人策略狀態(tài)的一部分,進(jìn)行端到端的訓(xùn)練,獲取了機(jī)器人抓取、搭衣服等多種操作技能(如圖6所示).

    與常規(guī)強(qiáng)化學(xué)習(xí)方法相比,深度強(qiáng)化學(xué)習(xí)算法將具有強(qiáng)表征能力的深度神經(jīng)網(wǎng)絡(luò)用于強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù)和策略函數(shù)的表達(dá),避免了人為手工設(shè)計(jì)特征,同時(shí)也易融入環(huán)境中的圖像感知信息,較適合于機(jī)器人操作技能學(xué)習(xí).

    強(qiáng)化學(xué)習(xí)方法在機(jī)器人的操作技能學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用,基于機(jī)器人操作技能學(xué)習(xí)的任務(wù)特點(diǎn),應(yīng)用于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域的強(qiáng)化學(xué)習(xí)有別于其他應(yīng)用領(lǐng)域的不同之處,主要體現(xiàn)在其狀態(tài)及動(dòng)作空間均為高維連續(xù)空間、收集訓(xùn)練樣本代價(jià)高等方面,具體如表1所示.

    圖6 基于引導(dǎo)策略搜索的機(jī)器人操作技能[12]Fig.6 Manipulation skills based on guided policy search[12]

    表1 機(jī)器人和其他應(yīng)用中強(qiáng)化學(xué)習(xí)比較Table 1 Comparison of reinforcement learning methods applied in robotics and other fields

    1.2 基于示教學(xué)習(xí)

    在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,示教學(xué)習(xí)通過(guò)模仿給定的專(zhuān)家數(shù)據(jù)學(xué)習(xí)得到操作技能策略.示教學(xué)習(xí)可降低機(jī)器人搜索策略空間的復(fù)雜度,在一定程度上提高了機(jī)器人操作技能的學(xué)習(xí)效率.近年來(lái),示教學(xué)習(xí)已成為機(jī)器人操作技能學(xué)習(xí)的熱點(diǎn)領(lǐng)域之一[54].依據(jù)對(duì)示教數(shù)據(jù)的使用方式,大致可將示教學(xué)習(xí)分為行為克隆(Behavior cloning)[55]和逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning)[56]兩大類(lèi),如圖7所示.

    行為克隆是基于給定的多個(gè)示教軌跡序列τ1,τ2,···,τm,其中τi為,ni為軌跡τi的軌跡長(zhǎng)度,收集得到狀態(tài)–動(dòng)作對(duì)樣本集合D[57]

    采用常見(jiàn)的監(jiān)督學(xué)習(xí)方法,直接學(xué)習(xí)到狀態(tài)到動(dòng)作的映射關(guān)系.日本東北大學(xué)基于隱馬爾科夫模型(Hidden Markov model,HMM)[58]訓(xùn)練得到了能與人共跳華爾茲舞的機(jī)器人策略.Calinon等[59]基于高斯混合模型(Gaussian mixture model,GMM)學(xué)習(xí)到機(jī)器人移動(dòng)棋子以及抓取糖塊并放到嘴里的操作技能,之后該課題組又通過(guò)可穿戴式運(yùn)動(dòng)傳感器采集示教數(shù)據(jù),采用高斯混合回歸(Gaussian mixture regression,GMR)[60],實(shí)現(xiàn)了人形機(jī)器人完成籃球裁判員諸多判罰動(dòng)作的操作機(jī)能.Rahmatizadeh等[61]通過(guò)在虛擬仿真環(huán)境中采集大量示教數(shù)據(jù)訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)策略,在真實(shí)機(jī)械臂上實(shí)現(xiàn)了抓取不同位置物體的目標(biāo).Calinon等[62]通過(guò)結(jié)合隱馬爾科夫模型、高斯混合回歸與機(jī)器人的系統(tǒng)動(dòng)態(tài)特性建立冗余策略模型,實(shí)現(xiàn)了機(jī)器人擊打乒乓球的操作任務(wù).Levine等[15]通過(guò)在多臺(tái)機(jī)械臂上收集大量抓取種類(lèi)各異物體數(shù)據(jù)(如圖8所示),對(duì)深度卷積網(wǎng)絡(luò)控制策略進(jìn)行訓(xùn)練,在無(wú)需對(duì)相機(jī)標(biāo)定的情況下,實(shí)現(xiàn)了高效準(zhǔn)確抓取不同物體的目標(biāo).Zhang等[63]采用VR虛擬設(shè)備采集示教數(shù)據(jù)(如圖9所示),通過(guò)監(jiān)督學(xué)習(xí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)控制策略,實(shí)現(xiàn)了PR2機(jī)器人抓取、到達(dá)指定位置等若干操作技能.

    圖7 示教學(xué)習(xí)分類(lèi)示意圖Fig.7 Illustration of classification of imitation learning methods

    圖8 多臺(tái)機(jī)器人收集訓(xùn)練數(shù)據(jù)[15]Fig.8 Collecting training data by many robots[15]

    圖9 基于VR虛擬現(xiàn)實(shí)設(shè)備的示教學(xué)習(xí)[63]Fig.9 Imitation learning based on VR device[63]

    在有限樣本條件下,直接基于監(jiān)督學(xué)習(xí)得到的策略適用性不強(qiáng),逆向強(qiáng)化學(xué)習(xí)能夠基于給定的有限示教數(shù)據(jù)反推得到獎(jiǎng)賞函數(shù),從而提高學(xué)習(xí)策略的泛化性能.逆強(qiáng)化學(xué)習(xí)分為兩個(gè)階段,第一階段基于給定的示教軌跡推導(dǎo)出能使示教軌跡最優(yōu)的獎(jiǎng)賞函數(shù),第二階段基于推導(dǎo)出的獎(jiǎng)賞函數(shù)采用強(qiáng)化學(xué)習(xí)算法得到機(jī)器人執(zhí)行該示教操作任務(wù)的技能策略.Abbeel等[64]提出了依據(jù)示教數(shù)據(jù)得到獎(jiǎng)賞函數(shù)的最大邊際原則(Max margin principle),依據(jù)該原則可使基于獎(jiǎng)賞函數(shù)學(xué)習(xí)到的最優(yōu)策略和其他次優(yōu)策略之間的差異最大.Ratliff等[65]基于最大邊際原則提出了最大邊際規(guī)劃框架,將獎(jiǎng)賞函數(shù)的學(xué)習(xí)問(wèn)題轉(zhuǎn)化為結(jié)構(gòu)化預(yù)測(cè)問(wèn)題,并通過(guò)四足機(jī)器人對(duì)該方法進(jìn)行了驗(yàn)證.然而,基于最大邊際原則得到的獎(jiǎng)賞函數(shù)往往存在二義性問(wèn)題,同時(shí)基于真實(shí)機(jī)器人得到的示教數(shù)據(jù)往往混有噪聲,導(dǎo)致在一些機(jī)器人的應(yīng)用場(chǎng)景中效果不佳.為此,Ziebart等[66]基于最大熵原則構(gòu)建了序列決策的概率模型獎(jiǎng)賞函數(shù),能保證在示教數(shù)據(jù)非最優(yōu)及示教數(shù)據(jù)混有噪聲的情況下,機(jī)器人控制策略也具有較優(yōu)的性能表現(xiàn).上述均為基于線(xiàn)性特征得到獎(jiǎng)賞函數(shù)的方法,基于非線(xiàn)性特征的方法如高斯過(guò)程[67]、boosting[68]也被用來(lái)求解示教軌跡中潛在的獎(jiǎng)賞函數(shù),其表現(xiàn)效果在一些任務(wù)領(lǐng)域優(yōu)于基于線(xiàn)性特征得到獎(jiǎng)賞函數(shù).

    為了避免人工設(shè)計(jì)獎(jiǎng)賞函數(shù)特征,同時(shí)保證易于處理機(jī)器人狀態(tài)為高維、連續(xù)空間,深度神經(jīng)網(wǎng)絡(luò)[69?70]已逐漸應(yīng)用于獎(jiǎng)賞函數(shù)的表達(dá).

    此外,Finn等[71]提出了引導(dǎo)式獎(jiǎng)賞函數(shù)的逆強(qiáng)化學(xué)習(xí)方法,將獎(jiǎng)賞函數(shù)作為優(yōu)化目標(biāo)生成接近專(zhuān)家示例軌跡數(shù)據(jù)的獎(jiǎng)賞函數(shù).Ho等[72]采用生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[73]的思想,將獎(jiǎng)賞函數(shù)的優(yōu)化比作判別器,同時(shí)將策略的優(yōu)化比作生成器,使獎(jiǎng)賞函數(shù)優(yōu)化與策略?xún)?yōu)化交替迭代以生成能夠判別示教軌跡為較優(yōu)軌跡的獎(jiǎng)賞函數(shù).加州大學(xué)伯克利分校提出了deepmimic算法[73],給定示教范例,采用強(qiáng)化學(xué)習(xí)中的PPO算法[13]對(duì)虛擬仿真環(huán)境中的人形機(jī)器人等進(jìn)行訓(xùn)練,實(shí)現(xiàn)了武術(shù)、跳舞及多種雜技等高難度操作技能(如圖10所示).

    圖10 人形機(jī)器人高難度操作技能[73]Fig.10 Difficulty manipulation skills learned by human robots[73]

    相比于強(qiáng)化學(xué)習(xí)方法策略起始狀態(tài)的隨機(jī)導(dǎo)致的學(xué)習(xí)效率低,示教學(xué)習(xí)方法基于示教數(shù)據(jù)對(duì)策略進(jìn)行初始化,可加快機(jī)器人操作技能學(xué)習(xí)速率.然而示教學(xué)習(xí)中也存在收集示教數(shù)據(jù)成本高昂和訓(xùn)練所得策略易陷入局部最優(yōu)解的問(wèn)題,從而可能導(dǎo)致機(jī)器人操作技能的學(xué)習(xí)效果欠佳.為此有學(xué)者將示教學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,以更加高效地獲取機(jī)器人的操作技能.Zhu等[74]提出了無(wú)模型的深度強(qiáng)化學(xué)習(xí)方法,采用強(qiáng)化學(xué)習(xí)與示教學(xué)習(xí)相結(jié)合的方式在合成的逼真虛擬仿真環(huán)境中對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,之后將訓(xùn)練得到的策略直接應(yīng)用到真實(shí)環(huán)境中(如圖11所示).Hester等[75]提出了一種將示教數(shù)據(jù)添加到DQN回放記憶單元(Replay memory)中的示教學(xué)習(xí)方法,提升了操作技能學(xué)習(xí)效率.

    圖11 虛擬環(huán)境中訓(xùn)練策略應(yīng)用于真實(shí)環(huán)境[74]Fig.11 Policies trained in simulated environment applied in real-world environment[74]

    1.3 基于小數(shù)據(jù)學(xué)習(xí)

    無(wú)論是基于強(qiáng)化學(xué)習(xí)還是基于示教學(xué)習(xí)的機(jī)器人操作技能學(xué)習(xí)方法都需要一定量的訓(xùn)練數(shù)據(jù).使用少量訓(xùn)練數(shù)據(jù)就可學(xué)習(xí)到新的操作技能成為了機(jī)器人快速應(yīng)用于各領(lǐng)域的關(guān)鍵.

    近年來(lái)發(fā)展的遷移學(xué)習(xí)(Transfer learning)和元學(xué)習(xí)(Meta learning)[76]具有利用先前數(shù)據(jù)經(jīng)驗(yàn)的機(jī)制,在面對(duì)新任務(wù)少量數(shù)據(jù)時(shí),能夠?qū)崿F(xiàn)基于小樣本數(shù)據(jù)的快速任務(wù)學(xué)習(xí).

    遷移學(xué)習(xí)是從一個(gè)或多個(gè)源域(Source domain)中抽取知識(shí)、經(jīng)驗(yàn),然后應(yīng)用于目標(biāo)域(Target domain)的學(xué)習(xí)方法[77],已在諸如計(jì)算機(jī)視覺(jué)[78?79]及控制[80?81]等領(lǐng)域取得了一定的進(jìn)展.在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)可將基于一種或多種任務(wù)上學(xué)習(xí)到的能力遷移到另一種新的任務(wù)上,以提高機(jī)器人操作技能的學(xué)習(xí)效率.Ammar等[82]提出了一種基于策略梯度的多任務(wù)學(xué)習(xí)方法,通過(guò)從不同的工作任務(wù)中遷移知識(shí)實(shí)現(xiàn)了機(jī)器人的高效學(xué)習(xí).Gupta等[83]通過(guò)構(gòu)建多個(gè)機(jī)器人之間共有的特征空間,采用多任務(wù)學(xué)習(xí)的形式在虛擬仿真環(huán)境中實(shí)現(xiàn)了將3連桿機(jī)器人抓取、移動(dòng)指定物體的操作技能通過(guò)少量數(shù)據(jù)遷移給4連桿機(jī)器人的目標(biāo).Tzeng等[84]通過(guò)在虛擬環(huán)境中合成與真實(shí)環(huán)境中相對(duì)應(yīng)的圖像信息對(duì)機(jī)器人的操作技能進(jìn)行訓(xùn)練,之后采用遷移學(xué)習(xí)的方式將機(jī)器人的操作技能應(yīng)用于真實(shí)環(huán)境中.

    機(jī)器人的遷移學(xué)習(xí)在一定程度上可提高機(jī)器人學(xué)習(xí)操作技能的效率,然而在面對(duì)新任務(wù)時(shí),仍然需要以機(jī)器人與環(huán)境進(jìn)行一定的交互為前提,即仍然不能使機(jī)器人通過(guò)一次或極少次示教數(shù)據(jù)成功學(xué)習(xí)到新的操作技能.

    元學(xué)習(xí)(Meta learning)及以此為基礎(chǔ)的一次性學(xué)習(xí)(One-shot learning)是一種基于少量訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行學(xué)習(xí)的機(jī)器學(xué)習(xí)方法.元學(xué)習(xí)通過(guò)在大量相關(guān)任務(wù)且每種任務(wù)包含少量標(biāo)記數(shù)據(jù)的任務(wù)集上對(duì)策略進(jìn)行訓(xùn)練,能夠自動(dòng)學(xué)得訓(xùn)練任務(wù)集中的共有知識(shí).諸多學(xué)者將該方法應(yīng)用于圖像識(shí)別[85?87]、生成式模型[88?89]、強(qiáng)化學(xué)習(xí)中智能體的快速學(xué)習(xí)[90?91]等領(lǐng)域.還有一些學(xué)者嘗試將元學(xué)習(xí)應(yīng)用在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域.Duan等[92]提出了一次性模仿(One-shot imitation)學(xué)習(xí)方法(如圖12所示),基于多種任務(wù)采用元學(xué)習(xí)算法訓(xùn)練得到元學(xué)習(xí)策略,學(xué)習(xí)完成后基于新任務(wù)的一次示教就可完成執(zhí)行新任務(wù)的操作技能,并通過(guò)搭積木的操作任務(wù)驗(yàn)證了該方法的有效性.Finn等[93]提出了MAML(Model-agnostic meta-learning)元學(xué)習(xí)方法,通過(guò)多種任務(wù)采用梯度下降方法對(duì)同一個(gè)深度網(wǎng)絡(luò)策略模型的參數(shù)進(jìn)行元學(xué)習(xí)更新,利用少量訓(xùn)練數(shù)據(jù)和較少步的梯度下降更新策略參數(shù)進(jìn)行新任務(wù)學(xué)習(xí)(如圖13所示),在虛擬仿真環(huán)境中快速學(xué)習(xí)到了機(jī)器人的前進(jìn)、后退等操作技能.OpenAI[14]基于策略梯度提出了一種適用于動(dòng)態(tài)環(huán)境中的元學(xué)習(xí)算法,在虛擬環(huán)境中實(shí)現(xiàn)了多種構(gòu)型機(jī)器人之間的競(jìng)爭(zhēng)操作技能學(xué)習(xí).

    圖12 一次性模仿學(xué)習(xí)算法示意圖[92]Fig.12 Illustration of one-shot imitation learning algorithm[92]

    圖13 MAML元學(xué)習(xí)方法策略參數(shù)梯度更新示意圖[93]Fig.13 Illustration of gradient update for policy parameters with MAML meta learning algorithm[93]

    另外,一些學(xué)者提出了面對(duì)新任務(wù)少數(shù)據(jù)學(xué)習(xí)的其他方法.Xu等[94]通過(guò)采用神經(jīng)網(wǎng)絡(luò)推理方法[95]將機(jī)器人的操作技能任務(wù)進(jìn)行分解,在采用大量監(jiān)督數(shù)據(jù)對(duì)模型訓(xùn)練的基礎(chǔ)上,通過(guò)在虛擬環(huán)境中進(jìn)行一次示教,就可使機(jī)器人完成諸如整理餐桌等操作任務(wù).Tobin等[96]提出了域隨機(jī)化(Domain randomization)方法,通過(guò)在虛擬環(huán)境中改變物體的紋理、光照以及相機(jī)的位置等條件對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,之后不需額外數(shù)據(jù)訓(xùn)練即可將在虛擬環(huán)境中訓(xùn)練得到的策略直接應(yīng)用到了真實(shí)環(huán)境中.

    在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)及元學(xué)習(xí)都可認(rèn)為是通過(guò)少量數(shù)據(jù)學(xué)習(xí)到新操作技能的方法,但不同之處在于,遷移學(xué)習(xí)是將機(jī)器人在某一或某幾種任務(wù)上已經(jīng)學(xué)習(xí)好的技能遷移到新任務(wù)上,元學(xué)習(xí)是通過(guò)大量任務(wù)對(duì)元學(xué)習(xí)策略進(jìn)行訓(xùn)練,基于新任務(wù)的少量數(shù)據(jù)實(shí)現(xiàn)機(jī)器人操作技能策略的跨任務(wù)泛化.

    本文將機(jī)器人操作技能學(xué)習(xí)方法分為基于強(qiáng)化學(xué)習(xí)的方法、基于示教學(xué)習(xí)的方法和基于小數(shù)據(jù)學(xué)習(xí)的方法,并基于此進(jìn)行了綜述分析,基于機(jī)器人操作技能策略訓(xùn)練數(shù)據(jù)的使用量、學(xué)習(xí)效率和學(xué)習(xí)成本的對(duì)比如表2所示.

    表2 三類(lèi)操作技能學(xué)習(xí)方法特點(diǎn)對(duì)比Table 2 Comparison of three kinds of manipulation skills learning methods

    2 未來(lái)發(fā)展方向

    通過(guò)分析已有的機(jī)器人操作技能學(xué)習(xí)研究工作,機(jī)器人操作技能學(xué)習(xí)問(wèn)題主要聚焦于兩方面:1)如何使機(jī)器人學(xué)習(xí)得到的技能策略具有更好的泛化性能;2)如何采用較少的訓(xùn)練數(shù)據(jù)、較低的訓(xùn)練代價(jià)學(xué)習(xí)得到新的操作技能.如何解決這兩方面的問(wèn)題是機(jī)器人操作技能學(xué)習(xí)的研究重點(diǎn).為此,本文列舉了如下的未來(lái)研究方向.

    2.1 高效學(xué)習(xí)算法設(shè)計(jì)

    以兼俱感知、決策能力的深度強(qiáng)化學(xué)習(xí)為核心算法的機(jī)器學(xué)習(xí)方法在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域取得了一定進(jìn)展,但由于采用深度學(xué)習(xí)方法對(duì)價(jià)值函數(shù)或策略函數(shù)進(jìn)行擬合,通常需要通過(guò)多步梯度下降方法進(jìn)行迭代更新,采用強(qiáng)化學(xué)習(xí)得到機(jī)器人不同狀態(tài)所要執(zhí)行的最優(yōu)動(dòng)作也需機(jī)器人在環(huán)境中經(jīng)過(guò)多步探索得到,這就導(dǎo)致了該類(lèi)算法的學(xué)習(xí)效率較低.例如人類(lèi)花費(fèi)數(shù)小時(shí)學(xué)會(huì)的操作技能,機(jī)器人需花費(fèi)數(shù)倍時(shí)間才能到達(dá)同等水平.

    現(xiàn)有的深度強(qiáng)化學(xué)習(xí)算法,諸如DQN,DDPG,A3C,TRPO,PPO等均為通用的深度強(qiáng)化學(xué)習(xí)算法,既能適用于電子游戲,也能適用于虛擬環(huán)境下的機(jī)器人控制策略訓(xùn)練.但在機(jī)器人實(shí)際操作環(huán)境中,存在數(shù)據(jù)樣本獲取困難、數(shù)據(jù)噪聲干擾大等特點(diǎn),導(dǎo)致現(xiàn)有操作技能學(xué)習(xí)方法學(xué)習(xí)效率低,學(xué)習(xí)效果欠佳.因此,結(jié)合機(jī)器人操作技能學(xué)習(xí)的固有特性及先驗(yàn)知識(shí)設(shè)計(jì)高效學(xué)習(xí)算法,實(shí)現(xiàn)有限樣本下操作技能策略的快速迭代和優(yōu)化對(duì)于機(jī)器人操作技能學(xué)習(xí)具有重要價(jià)值.

    2.2 技能遷移學(xué)習(xí)

    基于機(jī)器人操作技能學(xué)習(xí)中的遷移學(xué)習(xí)主要包含兩個(gè)方面:1)基于環(huán)境,將虛擬環(huán)境中學(xué)習(xí)到的操作技能遷移到真實(shí)環(huán)境中;2)基于任務(wù),將在一種任務(wù)上學(xué)習(xí)到的操作技能遷移到另一種任務(wù)上.

    在仿真環(huán)境中,機(jī)器人操作技能學(xué)習(xí)的訓(xùn)練成本低廉,并可避免使用真實(shí)機(jī)器人訓(xùn)練所帶來(lái)的諸多不便性和危險(xiǎn)性.但由于仿真環(huán)境與機(jī)器人真實(shí)工作場(chǎng)景不同,導(dǎo)致仿真環(huán)境中學(xué)習(xí)到的操作技能策略在真實(shí)環(huán)境中表現(xiàn)效果欠佳,為此如何將在虛擬環(huán)境中學(xué)習(xí)到的策略較好地應(yīng)用于真實(shí)環(huán)境是機(jī)器人操作技能學(xué)習(xí)中研究的關(guān)鍵問(wèn)題之一.

    通過(guò)基于一種或多種任務(wù)學(xué)習(xí)的技能策略初始化新任務(wù)技能策略,可加快機(jī)器人對(duì)新任務(wù)操作技能策略的學(xué)習(xí)效率,但這僅限于機(jī)器人的任務(wù)類(lèi)型和工作環(huán)境存在極小差異的情況.為此如何在具有一定差異的不同任務(wù)之間實(shí)現(xiàn)操作技能的遷移,并且避免可能出現(xiàn)的負(fù)遷移(Negative transfer)現(xiàn)象,也是機(jī)器人操作技能學(xué)習(xí)中要解決的重要問(wèn)題.

    2.3 層次化任務(wù)學(xué)習(xí)

    在機(jī)器人的操作技能學(xué)習(xí)任務(wù)中,復(fù)雜操作任務(wù)都可以分解成若干簡(jiǎn)單子任務(wù).例如機(jī)器人倒水操作任務(wù)可以分解成機(jī)器人從當(dāng)前位置移動(dòng)到水杯位置、機(jī)器人末端夾手抓住水杯、移動(dòng)機(jī)器人到指定容器位置、轉(zhuǎn)動(dòng)末端夾手將水倒入容器中.機(jī)器人開(kāi)門(mén)操作任務(wù)可以分解為移動(dòng)機(jī)器人夾手到門(mén)把手位置、夾手抓住門(mén)把手、轉(zhuǎn)動(dòng)末端夾手將門(mén)打開(kāi).上述任務(wù)雖不相同,但均包含機(jī)器人末端執(zhí)行器到達(dá)、末端夾手夾持等子任務(wù),為此對(duì)機(jī)器人要執(zhí)行的任務(wù)進(jìn)行層次化分解可有利于操作技能的學(xué)習(xí).針對(duì)復(fù)雜操作技能任務(wù),訓(xùn)練學(xué)習(xí)將復(fù)雜任務(wù)分解成多個(gè)子任務(wù)的高級(jí)策略和執(zhí)行子任務(wù)的低級(jí)策略,可使操作技能的學(xué)習(xí)過(guò)程更加高效.

    2.4 元學(xué)習(xí)

    元學(xué)習(xí)作為一種學(xué)會(huì)學(xué)習(xí)(Learning to learn)的方法,在機(jī)器人操作技能學(xué)習(xí)領(lǐng)域已取得了一定的進(jìn)展.將元學(xué)習(xí)思想應(yīng)用于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域可能存在的問(wèn)題基于兩方面:1)要確定機(jī)器人操作技能學(xué)習(xí)的訓(xùn)練環(huán)境和訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)形式;2)是設(shè)計(jì)適宜的元學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu).目前在計(jì)算機(jī)視覺(jué)領(lǐng)域,研究者提出了多種類(lèi)型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而在基于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域的特定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還不多見(jiàn).為此借鑒其他研究領(lǐng)域,設(shè)計(jì)學(xué)習(xí)效率高,性能優(yōu)異的元學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是機(jī)器人操作技能學(xué)習(xí)的重要研究方向.

    元學(xué)習(xí)作為一種少數(shù)據(jù)學(xué)習(xí)方法,當(dāng)前還僅限于面對(duì)新任務(wù)的測(cè)試階段需少量數(shù)據(jù),而在元學(xué)習(xí)的訓(xùn)練階段,仍需提供大量訓(xùn)練數(shù)據(jù).為此基于訓(xùn)練環(huán)境、訓(xùn)練數(shù)據(jù)形式及網(wǎng)絡(luò)結(jié)構(gòu)等方面,設(shè)計(jì)高效的元學(xué)習(xí)訓(xùn)練算法,實(shí)現(xiàn)真正的少數(shù)據(jù)學(xué)習(xí),是機(jī)器人操作技能學(xué)習(xí)的未來(lái)發(fā)展方向之一.

    3 結(jié)論

    相比于傳統(tǒng)復(fù)雜編程、遙操作及示教編程等常規(guī)方法,機(jī)器人操作技能學(xué)習(xí)方法可使機(jī)器人具備一定的決策和學(xué)習(xí)能力,動(dòng)態(tài)地適應(yīng)諸多非結(jié)構(gòu)化工作環(huán)境或場(chǎng)景多變的工作場(chǎng)合,是機(jī)器人能夠廣泛應(yīng)用于各領(lǐng)域的基礎(chǔ).機(jī)器人操作技能學(xué)習(xí)作為機(jī)器人研究領(lǐng)域的前沿方向吸引了諸多學(xué)者的研究興趣.

    目前,人工智能技術(shù)的發(fā)展為機(jī)器人操作技能的學(xué)習(xí)提供了新的方法,開(kāi)拓了新的思路.相比于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域,機(jī)器人的操作技能學(xué)習(xí)所需代價(jià)更高、成本更大.因此,基于如何使機(jī)器人的操作技能學(xué)習(xí)更加高效,如何使學(xué)習(xí)的操作技能策略泛化性能更強(qiáng)等問(wèn)題的研究,也將對(duì)機(jī)器學(xué)習(xí)及人工智能技術(shù)的發(fā)展起到促進(jìn)作用.近年來(lái),人工智能技術(shù)中的深度學(xué)習(xí)技術(shù)已開(kāi)始廣泛應(yīng)用于機(jī)器人操作技能學(xué)習(xí)領(lǐng)域,除與強(qiáng)化學(xué)習(xí)結(jié)合外,還應(yīng)用于示教學(xué)習(xí)以及元學(xué)習(xí)中.但由于機(jī)器人應(yīng)用場(chǎng)景和操作技能學(xué)習(xí)的特殊性,決定了應(yīng)用于機(jī)器人領(lǐng)域的深度學(xué)習(xí)技術(shù)與其他應(yīng)用領(lǐng)域具有不同的特性,例如在機(jī)器人操作技能學(xué)習(xí)應(yīng)用領(lǐng)域,深度學(xué)習(xí)技術(shù)除應(yīng)用于物體識(shí)別外還需進(jìn)行物體的空間定位.此外,深度學(xué)習(xí)技術(shù)目前還缺乏一定的理論支持,基于深度學(xué)習(xí)技術(shù)獲取的機(jī)器人操作技能可解釋性差,在操作任務(wù)中需要的定位精確性、運(yùn)動(dòng)靈巧性和平穩(wěn)性以及執(zhí)行任務(wù)的實(shí)時(shí)性暫時(shí)還不能從理論上得到保證,還需進(jìn)一步開(kāi)展相關(guān)的研究和論證.

    猜你喜歡
    操作技能機(jī)器人函數(shù)
    機(jī)械裝配中鉗工的操作技能分析
    二次函數(shù)
    第3講 “函數(shù)”復(fù)習(xí)精講
    二次函數(shù)
    函數(shù)備考精講
    關(guān)于學(xué)生實(shí)驗(yàn)操作技能省級(jí)測(cè)試的思考——以高中生物學(xué)為例
    機(jī)器人來(lái)幫你
    認(rèn)識(shí)機(jī)器人
    機(jī)器人來(lái)啦
    認(rèn)識(shí)機(jī)器人
    水蜜桃什么品种好| 九色亚洲精品在线播放| 最黄视频免费看| 国产av精品麻豆| 久久亚洲国产成人精品v| 美女视频免费永久观看网站| 精品午夜福利在线看| 日韩av在线免费看完整版不卡| 蜜桃在线观看..| 性色av一级| 成人漫画全彩无遮挡| 免费观看a级毛片全部| 亚洲人成网站在线观看播放| 成人影院久久| 黑丝袜美女国产一区| 亚洲av不卡在线观看| 久久青草综合色| 色吧在线观看| 国产欧美亚洲国产| 蜜桃国产av成人99| 伦理电影免费视频| av又黄又爽大尺度在线免费看| 人成视频在线观看免费观看| av.在线天堂| 在线播放无遮挡| 欧美亚洲日本最大视频资源| 男人爽女人下面视频在线观看| 久久国产亚洲av麻豆专区| 国产亚洲欧美精品永久| 国产精品.久久久| 国产淫语在线视频| 999精品在线视频| 国产在视频线精品| 校园人妻丝袜中文字幕| 国产男人的电影天堂91| 精品久久久久久久久亚洲| 日本免费在线观看一区| 丝瓜视频免费看黄片| 久久99热6这里只有精品| 丰满少妇做爰视频| 国产亚洲最大av| 成人国产av品久久久| 在线精品无人区一区二区三| 午夜91福利影院| 一级a做视频免费观看| 久久精品国产亚洲av涩爱| 女性被躁到高潮视频| 性色avwww在线观看| 黄色毛片三级朝国网站| 午夜免费鲁丝| 免费观看性生交大片5| 久久影院123| 中文字幕最新亚洲高清| 国产片内射在线| 人人妻人人添人人爽欧美一区卜| 一本色道久久久久久精品综合| 国产 一区精品| 欧美变态另类bdsm刘玥| 免费看av在线观看网站| 中文字幕人妻熟人妻熟丝袜美| 亚洲成人手机| 观看美女的网站| 青春草亚洲视频在线观看| 日韩制服骚丝袜av| 26uuu在线亚洲综合色| 亚洲天堂av无毛| 亚洲精品,欧美精品| av免费观看日本| 日韩一本色道免费dvd| 母亲3免费完整高清在线观看 | 三级国产精品欧美在线观看| 看免费成人av毛片| 91精品三级在线观看| 91精品一卡2卡3卡4卡| 亚洲三级黄色毛片| 久久这里有精品视频免费| 亚洲精品一区蜜桃| 久久精品久久久久久久性| 久久久久网色| 亚洲综合色网址| 一级毛片黄色毛片免费观看视频| 另类亚洲欧美激情| 国产亚洲精品第一综合不卡 | 人人澡人人妻人| 丰满迷人的少妇在线观看| 成人18禁高潮啪啪吃奶动态图 | 午夜福利影视在线免费观看| 久久青草综合色| 亚洲av电影在线观看一区二区三区| √禁漫天堂资源中文www| 各种免费的搞黄视频| 午夜av观看不卡| 久久99蜜桃精品久久| 黄片无遮挡物在线观看| 永久网站在线| 99国产精品免费福利视频| 国产爽快片一区二区三区| 好男人视频免费观看在线| 最后的刺客免费高清国语| 免费观看的影片在线观看| av在线播放精品| 日日爽夜夜爽网站| 国产精品久久久久久av不卡| 欧美 亚洲 国产 日韩一| 国产男人的电影天堂91| 国产一区二区在线观看av| 亚洲伊人久久精品综合| 日韩av不卡免费在线播放| 在线精品无人区一区二区三| 91精品一卡2卡3卡4卡| 两个人免费观看高清视频| 午夜影院在线不卡| h视频一区二区三区| 国产av一区二区精品久久| 尾随美女入室| 久久av网站| 亚洲国产日韩一区二区| 国产精品.久久久| 亚洲av二区三区四区| 国产女主播在线喷水免费视频网站| 国产免费一级a男人的天堂| 三级国产精品欧美在线观看| 国产成人精品久久久久久| 午夜福利在线观看免费完整高清在| 午夜福利,免费看| 人人妻人人爽人人添夜夜欢视频| 国产成人午夜福利电影在线观看| 国产毛片在线视频| 午夜视频国产福利| 日韩精品免费视频一区二区三区 | 观看美女的网站| 啦啦啦在线观看免费高清www| 成人国产麻豆网| 国产成人91sexporn| 多毛熟女@视频| 午夜av观看不卡| 满18在线观看网站| 亚洲欧美成人综合另类久久久| av又黄又爽大尺度在线免费看| av一本久久久久| 黑人欧美特级aaaaaa片| 一级毛片电影观看| 亚洲综合色网址| 国产成人精品婷婷| 黄片播放在线免费| 一区二区三区四区激情视频| 18禁在线无遮挡免费观看视频| 久久久久国产精品人妻一区二区| 曰老女人黄片| a级毛片黄视频| 欧美 日韩 精品 国产| 一二三四中文在线观看免费高清| 中文字幕av电影在线播放| 欧美日韩国产mv在线观看视频| 性色avwww在线观看| 免费大片18禁| 搡老乐熟女国产| 中国三级夫妇交换| 少妇人妻 视频| 久久久久视频综合| 免费大片18禁| av电影中文网址| a 毛片基地| 国产无遮挡羞羞视频在线观看| 高清毛片免费看| 日韩视频在线欧美| 九草在线视频观看| 人妻一区二区av| 女人久久www免费人成看片| 国产成人精品在线电影| 你懂的网址亚洲精品在线观看| 日本免费在线观看一区| 三级国产精品欧美在线观看| 成人毛片a级毛片在线播放| 91aial.com中文字幕在线观看| 最新中文字幕久久久久| 亚洲精品乱久久久久久| 免费av中文字幕在线| 一级片'在线观看视频| 一级毛片电影观看| 99久久综合免费| 性色avwww在线观看| 久久精品夜色国产| 丝袜在线中文字幕| 亚洲精品乱码久久久v下载方式| 久久久久久久亚洲中文字幕| 色5月婷婷丁香| 国产欧美亚洲国产| 肉色欧美久久久久久久蜜桃| 最新的欧美精品一区二区| 日韩中字成人| 日韩中文字幕视频在线看片| 日本猛色少妇xxxxx猛交久久| 欧美国产精品一级二级三级| 欧美少妇被猛烈插入视频| 国产片内射在线| 亚洲四区av| 亚洲成人一二三区av| 如何舔出高潮| 亚洲精品国产av成人精品| 国产精品欧美亚洲77777| 欧美性感艳星| 精品少妇内射三级| 久久久久网色| 蜜桃久久精品国产亚洲av| 黄色欧美视频在线观看| 欧美激情 高清一区二区三区| 免费av不卡在线播放| 亚洲精品久久久久久婷婷小说| 国产成人91sexporn| av免费在线看不卡| 一级a做视频免费观看| 欧美日韩国产mv在线观看视频| 丰满饥渴人妻一区二区三| 熟妇人妻不卡中文字幕| 久久婷婷青草| 国产成人精品福利久久| 肉色欧美久久久久久久蜜桃| 午夜日本视频在线| 亚洲伊人久久精品综合| 亚洲综合色网址| 在线观看美女被高潮喷水网站| 99久久综合免费| 国产 精品1| 久热久热在线精品观看| 亚洲欧美色中文字幕在线| 久久av网站| 成年美女黄网站色视频大全免费 | 2018国产大陆天天弄谢| a级毛片免费高清观看在线播放| 91精品国产国语对白视频| 一本一本综合久久| 日韩一区二区三区影片| 自线自在国产av| 日韩精品免费视频一区二区三区 | 午夜激情av网站| 国产69精品久久久久777片| 丁香六月天网| 伦精品一区二区三区| 国产熟女欧美一区二区| 精品人妻偷拍中文字幕| 婷婷色综合大香蕉| 亚州av有码| 久久综合国产亚洲精品| 午夜91福利影院| 超碰97精品在线观看| 国产乱人偷精品视频| 人妻 亚洲 视频| 欧美日本中文国产一区发布| 在线看a的网站| 欧美bdsm另类| 亚洲欧洲日产国产| 少妇猛男粗大的猛烈进出视频| 国产免费一区二区三区四区乱码| 欧美成人午夜免费资源| 国产精品.久久久| tube8黄色片| 成年美女黄网站色视频大全免费 | 亚洲国产色片| 久久久久久久大尺度免费视频| 日韩精品免费视频一区二区三区 | 黄色视频在线播放观看不卡| 精品99又大又爽又粗少妇毛片| 秋霞伦理黄片| 久久精品人人爽人人爽视色| 亚洲av中文av极速乱| 日本wwww免费看| 最近中文字幕高清免费大全6| 国产视频内射| 美女中出高潮动态图| 人体艺术视频欧美日本| 国产极品粉嫩免费观看在线 | 欧美精品亚洲一区二区| 国产日韩欧美在线精品| 波野结衣二区三区在线| 日本色播在线视频| 亚洲国产精品一区三区| 黄色视频在线播放观看不卡| 蜜桃久久精品国产亚洲av| 久久鲁丝午夜福利片| 亚洲精品自拍成人| 青春草亚洲视频在线观看| 亚洲国产色片| 又黄又爽又刺激的免费视频.| 亚洲经典国产精华液单| 国产一区二区三区av在线| 国国产精品蜜臀av免费| 99久久精品国产国产毛片| 免费黄网站久久成人精品| 久久精品国产亚洲av涩爱| 纵有疾风起免费观看全集完整版| 亚洲综合色惰| av在线播放精品| 国产69精品久久久久777片| kizo精华| freevideosex欧美| 久久久精品94久久精品| 99久久精品国产国产毛片| 精品亚洲乱码少妇综合久久| 日韩欧美一区视频在线观看| 中文字幕人妻丝袜制服| 国产精品秋霞免费鲁丝片| 午夜久久久在线观看| 成人漫画全彩无遮挡| 国语对白做爰xxxⅹ性视频网站| 精品卡一卡二卡四卡免费| 国产欧美日韩一区二区三区在线 | 亚洲av成人精品一二三区| 18禁在线播放成人免费| 精品人妻熟女av久视频| 在线观看免费视频网站a站| 国产成人精品无人区| av又黄又爽大尺度在线免费看| 高清欧美精品videossex| 国产色爽女视频免费观看| 成人免费观看视频高清| 91aial.com中文字幕在线观看| 在线观看美女被高潮喷水网站| 99热全是精品| 97超碰精品成人国产| 日本色播在线视频| 国产亚洲最大av| 亚洲av免费高清在线观看| 亚洲精品一区蜜桃| 女人久久www免费人成看片| 少妇被粗大猛烈的视频| 天堂8中文在线网| 啦啦啦啦在线视频资源| 十八禁网站网址无遮挡| 亚洲色图 男人天堂 中文字幕 | 欧美日本中文国产一区发布| 国产午夜精品久久久久久一区二区三区| 久久精品久久精品一区二区三区| 久久精品国产亚洲av天美| 欧美人与善性xxx| 91午夜精品亚洲一区二区三区| 成人国产av品久久久| 久久久久久久大尺度免费视频| 色5月婷婷丁香| 日韩伦理黄色片| 久久 成人 亚洲| 蜜桃久久精品国产亚洲av| 国产高清不卡午夜福利| 国产欧美另类精品又又久久亚洲欧美| 国产精品嫩草影院av在线观看| 精品人妻在线不人妻| 亚洲精品乱码久久久久久按摩| 日韩三级伦理在线观看| 热99国产精品久久久久久7| 中文字幕人妻熟人妻熟丝袜美| 成年人免费黄色播放视频| 久久99精品国语久久久| 国产亚洲欧美精品永久| 日韩免费高清中文字幕av| 亚洲少妇的诱惑av| 国产高清不卡午夜福利| 草草在线视频免费看| 一二三四中文在线观看免费高清| 丝袜在线中文字幕| 人妻制服诱惑在线中文字幕| 成人黄色视频免费在线看| 国精品久久久久久国模美| 黑人巨大精品欧美一区二区蜜桃 | 美女中出高潮动态图| 插逼视频在线观看| www.色视频.com| 五月天丁香电影| 人妻 亚洲 视频| 亚洲天堂av无毛| 国模一区二区三区四区视频| 丝瓜视频免费看黄片| 久久久a久久爽久久v久久| 少妇高潮的动态图| 草草在线视频免费看| 婷婷色综合www| 中国美白少妇内射xxxbb| 又大又黄又爽视频免费| 久久午夜福利片| 乱人伦中国视频| 国产有黄有色有爽视频| av又黄又爽大尺度在线免费看| 亚洲婷婷狠狠爱综合网| 久久久国产欧美日韩av| 三级国产精品欧美在线观看| 成人国语在线视频| 精品国产国语对白av| 久久精品国产亚洲av天美| 国产探花极品一区二区| 国产永久视频网站| 伦理电影免费视频| 精品人妻熟女av久视频| 在线观看免费视频网站a站| 亚洲国产精品一区二区三区在线| 亚洲综合色网址| 麻豆精品久久久久久蜜桃| 精品少妇黑人巨大在线播放| 少妇人妻 视频| 亚洲精品av麻豆狂野| av在线老鸭窝| a级毛片在线看网站| 午夜免费鲁丝| 高清在线视频一区二区三区| 母亲3免费完整高清在线观看 | 激情五月婷婷亚洲| 啦啦啦啦在线视频资源| 伦理电影大哥的女人| 久久久久久久久大av| 久久久久网色| 国产一区二区三区综合在线观看 | 日韩中字成人| 亚洲欧美清纯卡通| 久久毛片免费看一区二区三区| 日本av免费视频播放| 国产在视频线精品| 免费看不卡的av| 日韩大片免费观看网站| 日本黄色片子视频| 国产av码专区亚洲av| 91久久精品国产一区二区三区| 三上悠亚av全集在线观看| 大话2 男鬼变身卡| 午夜免费鲁丝| 精品亚洲成a人片在线观看| 交换朋友夫妻互换小说| 丰满迷人的少妇在线观看| 啦啦啦啦在线视频资源| 亚洲av二区三区四区| 九九久久精品国产亚洲av麻豆| 嫩草影院入口| 国产亚洲精品第一综合不卡 | 国产精品一区二区三区四区免费观看| 啦啦啦在线观看免费高清www| 蜜桃国产av成人99| 国产av码专区亚洲av| 欧美另类一区| 国产深夜福利视频在线观看| 国产永久视频网站| 精品少妇内射三级| 日韩在线高清观看一区二区三区| 一本—道久久a久久精品蜜桃钙片| 狂野欧美激情性bbbbbb| 亚洲精华国产精华液的使用体验| 精品久久久久久久久亚洲| av女优亚洲男人天堂| 久久精品人人爽人人爽视色| 亚洲内射少妇av| 丝袜在线中文字幕| 日本免费在线观看一区| 日韩强制内射视频| 亚洲精品乱码久久久v下载方式| 我的老师免费观看完整版| 人人澡人人妻人| 亚洲少妇的诱惑av| 国产精品无大码| 日本欧美国产在线视频| 中国美白少妇内射xxxbb| 久久久久久久久大av| 国产视频内射| 亚洲精品aⅴ在线观看| 在线观看免费高清a一片| 久久毛片免费看一区二区三区| 亚洲国产精品专区欧美| 免费黄色在线免费观看| 久久精品国产亚洲av涩爱| 自拍欧美九色日韩亚洲蝌蚪91| 一级黄片播放器| 老司机影院毛片| 青青草视频在线视频观看| 丝袜喷水一区| 日本色播在线视频| 亚洲四区av| 秋霞伦理黄片| 久久精品国产自在天天线| 美女国产高潮福利片在线看| 久久鲁丝午夜福利片| 中国三级夫妇交换| 久久99热6这里只有精品| 人体艺术视频欧美日本| 丰满迷人的少妇在线观看| 精品一区二区三区视频在线| 欧美3d第一页| 美女大奶头黄色视频| 久久午夜福利片| 高清视频免费观看一区二区| 久久久久视频综合| 中文字幕制服av| 婷婷色麻豆天堂久久| 我要看黄色一级片免费的| 成年人免费黄色播放视频| 男女国产视频网站| 在线观看人妻少妇| 精品国产乱码久久久久久小说| 亚洲精品成人av观看孕妇| 亚洲第一区二区三区不卡| 精品少妇久久久久久888优播| 男女无遮挡免费网站观看| 一区二区av电影网| 国产亚洲一区二区精品| 美女国产视频在线观看| 97精品久久久久久久久久精品| 免费高清在线观看日韩| 国产黄片视频在线免费观看| 欧美变态另类bdsm刘玥| 亚洲国产欧美在线一区| 99久久人妻综合| 少妇丰满av| 妹子高潮喷水视频| 日韩av不卡免费在线播放| av不卡在线播放| 免费av不卡在线播放| 国产高清有码在线观看视频| 亚洲精华国产精华液的使用体验| 日韩中文字幕视频在线看片| 久久精品国产a三级三级三级| 国产精品成人在线| 亚洲av免费高清在线观看| 久久国产精品大桥未久av| 高清不卡的av网站| 国产精品人妻久久久久久| 少妇的逼好多水| 狠狠精品人妻久久久久久综合| 汤姆久久久久久久影院中文字幕| 亚洲av免费高清在线观看| 精品酒店卫生间| 国产精品女同一区二区软件| 日韩精品免费视频一区二区三区 | 欧美老熟妇乱子伦牲交| 又粗又硬又长又爽又黄的视频| 中文字幕人妻熟人妻熟丝袜美| 少妇丰满av| 18禁动态无遮挡网站| 国产 一区精品| 热re99久久精品国产66热6| 国产永久视频网站| 亚洲四区av| 人体艺术视频欧美日本| 大片免费播放器 马上看| 大香蕉久久网| 天美传媒精品一区二区| 蜜桃在线观看..| 多毛熟女@视频| 中文字幕久久专区| av免费在线看不卡| 欧美成人午夜免费资源| 哪个播放器可以免费观看大片| 一边摸一边做爽爽视频免费| a级毛片在线看网站| a级毛片黄视频| 国产免费福利视频在线观看| 国语对白做爰xxxⅹ性视频网站| 性高湖久久久久久久久免费观看| 观看美女的网站| 高清视频免费观看一区二区| 91久久精品国产一区二区三区| 久久精品熟女亚洲av麻豆精品| 大码成人一级视频| 少妇精品久久久久久久| 一级毛片 在线播放| 伊人久久国产一区二区| 亚洲美女视频黄频| 99热这里只有精品一区| 精品久久久久久久久亚洲| 纯流量卡能插随身wifi吗| 亚洲熟女精品中文字幕| 天堂俺去俺来也www色官网| 2022亚洲国产成人精品| 亚洲欧美日韩另类电影网站| 22中文网久久字幕| 老司机影院成人| 男女免费视频国产| 亚洲av免费高清在线观看| 高清午夜精品一区二区三区| 亚洲国产最新在线播放| 久久精品人人爽人人爽视色| 久久国产亚洲av麻豆专区| 国产精品一区二区在线观看99| av卡一久久| 高清午夜精品一区二区三区| 春色校园在线视频观看| 午夜福利在线观看免费完整高清在| 一区二区三区乱码不卡18| av.在线天堂| 一本大道久久a久久精品| 天堂中文最新版在线下载| 精品一区二区三区视频在线| 男女啪啪激烈高潮av片| 少妇熟女欧美另类| freevideosex欧美| 国产精品一二三区在线看| 久久99蜜桃精品久久| 一本一本综合久久| 免费观看av网站的网址| 热99国产精品久久久久久7| 成人毛片a级毛片在线播放| 亚洲国产精品成人久久小说| 交换朋友夫妻互换小说| 最近的中文字幕免费完整| 亚洲激情五月婷婷啪啪| 国产乱来视频区| 国产精品无大码| 久久久久久人妻| 精品午夜福利在线看| 蜜桃在线观看..| 日韩强制内射视频| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 大片免费播放器 马上看| 久久国产精品大桥未久av| 国产在视频线精品| 大话2 男鬼变身卡| 秋霞在线观看毛片| 欧美日韩精品成人综合77777| 日日啪夜夜爽| av又黄又爽大尺度在线免费看| 一级毛片aaaaaa免费看小| 黑人猛操日本美女一级片|