• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)行為克隆算法的機(jī)器人運(yùn)動(dòng)控制策略

    2025-08-03 00:00:00黃小霞陽(yáng)波向鑫陳靈陳中祥孫舜堯肖宏峰
    關(guān)鍵詞:方塊編碼器注意力

    中圖分類(lèi)號(hào):TP242.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)06-009-1668-08

    doi:10.19734/j.issn.1001-3695.2024.11.0474

    Robot motion control strategy based on improved behavior cloning algorithm

    Huang Xiaoxia, Yang Bo? ,Xiang Xin,Chen Ling,Chen Zhongxiang,Sun Shunyao, Xiao Hongfeng (College of Engineeringamp; Design,Hunan Normal University,Changsha 41oo81,China)

    Abstract:This paper addressed the challenges of complex motion control strategy training,ineffcientand imprecisepath planing executioninrobotsperformingfineoperationssuchasdual-armcooperativeinsertiontasks.Itproposedanimproved robotbehavior cloning algorithmbasedonmulti-scale feature pyramidsandatention mechanisms.Thealgorithmcombinedresidual networksandfeaturepyramidstodesignthebackbone network,extractingandfusingmulti-scaleimagefeatures,which enhancedtherobot’senvironmentalperceptionand visualfeedback capabilities.Itintroducedanactionsegmentation module to improvetheauracyandsmoohnessofcontrol strategies,reducingcompounderrors inbehaviorcloning.Additionally,the algorithmtrainedthecontrol strategyasaconditional varitionalautoencoder(CVAE)using theatentionmechanism to learn thedistributionofdemonstrationdataandcapturethecorelationbetween image features andactions.This appoachimproved thegeneralizationabilityandadaptabilityofthestrategyinunfamiliarenvironments.Simulationresultsshowthattheproposed algorithmoutperformsfivebaselinemodels intermsofsuccessrateandtrajectorysmoothnessintwofineoperationtasks.These results demonstrate thatthe algorithm can execute precise robot fine operation tasks through simple training.

    Key words:precision operation of robot;motion control strategy;behavioral cloning;action sequence

    0 引言

    隨著機(jī)器人技術(shù)的不斷進(jìn)步,雙臂機(jī)器人在工業(yè)、醫(yī)療、家庭等多個(gè)領(lǐng)域的應(yīng)用日益廣泛。然而,精細(xì)的操作任務(wù)如雙臂轉(zhuǎn)移、協(xié)同插孔等,對(duì)機(jī)器人來(lái)說(shuō)是較為困難的,機(jī)器人要完成這些精細(xì)操作,就需要有精確的環(huán)境感知和視覺(jué)反饋以及高效的運(yùn)動(dòng)控制策略[1,2]。大多數(shù)機(jī)器人控制方法[3-5]主要依賴于手動(dòng)設(shè)計(jì)的規(guī)則和傳統(tǒng)的控制算法,難以適應(yīng)精細(xì)化和復(fù)雜化的任務(wù)需求。

    近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)[6.7]的進(jìn)步,模仿學(xué)習(xí)方法在機(jī)器人控制技術(shù)中得到了廣泛應(yīng)用[8\~10]。模仿學(xué)習(xí)方法的主要特點(diǎn)在于其能夠通過(guò)觀察和學(xué)習(xí)他人的示范來(lái)獲取技能,而無(wú)須顯式地編程所有可能的情況和反應(yīng)[11\~13]。這種方法尤其適用于需要快速部署和實(shí)時(shí)響應(yīng)的應(yīng)用,如服務(wù)型機(jī)器人和協(xié)作機(jī)器人。此外,模仿學(xué)習(xí)還能夠通過(guò)收集和分析大量的實(shí)際數(shù)據(jù)來(lái)提高機(jī)器人的運(yùn)動(dòng)精度和適應(yīng)性,從而增強(qiáng)其在復(fù)雜環(huán)境中的表現(xiàn)能力。傳統(tǒng)的模仿學(xué)習(xí)方法例如基于高斯混合模型的運(yùn)動(dòng)生成[14]和基于有監(jiān)督學(xué)習(xí)的行為克隆[15],已經(jīng)在機(jī)器人的動(dòng)作規(guī)劃和學(xué)習(xí)中展現(xiàn)出了一定的成效。然而,模仿學(xué)習(xí)方法也存在一些挑戰(zhàn)和局限性。首先,它們通常依賴于高質(zhì)量和多樣性的訓(xùn)練數(shù)據(jù),因此在數(shù)據(jù)獲取和標(biāo)注方面可能會(huì)面臨挑戰(zhàn),為了達(dá)到較好的學(xué)習(xí)效果,模仿學(xué)習(xí)可能需要大量的示范數(shù)據(jù)。在實(shí)際應(yīng)用中,收集這些數(shù)據(jù)可能既費(fèi)時(shí)又費(fèi)力。其次,模仿學(xué)習(xí)方法的泛化能力可能受到限制,特別是在面對(duì)未知環(huán)境或者復(fù)雜的非結(jié)構(gòu)化任務(wù)時(shí),因?yàn)槟7聦W(xué)習(xí)學(xué)到的行為通常是靜態(tài)的,不會(huì)根據(jù)環(huán)境的變化或反饋進(jìn)行調(diào)整,這限制了模型在面對(duì)環(huán)境變化時(shí)的適應(yīng)性,所以模仿學(xué)習(xí)方法在處理動(dòng)態(tài)和不確定性方面可能表現(xiàn)不佳。而且模仿學(xué)習(xí)在許多復(fù)雜任務(wù)中存在累積誤差的問(wèn)題,這些因素都可能影響機(jī)器人在實(shí)際應(yīng)用中的穩(wěn)定性和可靠性[16]。為了解決這些問(wèn)題,一些研究提出基于模仿學(xué)習(xí)改進(jìn)的機(jī)器人運(yùn)動(dòng)控制方法,文獻(xiàn)[17]以物體投擲作為激勵(lì)用例,參考多種輸入數(shù)據(jù)模態(tài),通過(guò)動(dòng)作捕捉技術(shù)收集到的數(shù)據(jù)用于訓(xùn)練模型。文獻(xiàn)[18]通過(guò)雙邊控制和模仿學(xué)習(xí),機(jī)器人能夠?qū)W習(xí)如何在人機(jī)協(xié)作環(huán)境中控制動(dòng)態(tài)交互,提高了機(jī)器人在復(fù)雜環(huán)境中的適應(yīng)能力。文獻(xiàn)[19]通過(guò)引入自然語(yǔ)言,建立了人類(lèi)專(zhuān)家與機(jī)器人之間的有效溝通渠道,可以傳達(dá)任務(wù)的關(guān)鍵方面。文獻(xiàn)[20]通過(guò)結(jié)合RGB-D圖像和隱馬爾可夫模型提高機(jī)器人模仿學(xué)習(xí)的智能層次,并能夠處理中間邏輯關(guān)系。文獻(xiàn)[21]通過(guò)改進(jìn)交叉熵?fù)p失和引入噪聲網(wǎng)絡(luò)模型來(lái)增強(qiáng)模仿學(xué)習(xí)在對(duì)抗攻擊和噪聲干擾下的魯棒性。文獻(xiàn)22]引入能夠?qū)W習(xí)示教數(shù)據(jù)分布的條件變分自編碼器(CVAE)方法到行為克隆中,將來(lái)自相機(jī)的RGB圖像映射到動(dòng)作,并提出動(dòng)作分塊和時(shí)間集成提升策略的平滑性。上述文獻(xiàn)局限于無(wú)法做到簡(jiǎn)單的訓(xùn)練與生成的控制策略高精度、高泛化性并存。

    為了更精確、高效地執(zhí)行機(jī)器人運(yùn)動(dòng)控制,本文提出了一種基于多尺度特征金字塔和注意力機(jī)制改進(jìn)的機(jī)器人行為克隆算法。通過(guò)引入特征金字塔模塊加強(qiáng)backbone網(wǎng)絡(luò)提取圖像特征的能力,以提高機(jī)器人對(duì)運(yùn)動(dòng)環(huán)境的目標(biāo)檢測(cè)能力;使用多層自注意力模塊、交叉注意力模塊組成CVAE解碼器以加強(qiáng)模型對(duì)序列中不同位置元素之間關(guān)系的理解,生成機(jī)器人在當(dāng)前觀察下更精確、高效的動(dòng)作序列。

    本文工作的貢獻(xiàn)如下:

    a)提出一種引入多尺度特征金字塔融合不同尺度特征的backbone網(wǎng)絡(luò)(F-backbone),提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境中目標(biāo)物的能力。b)提出一種結(jié)合多層自注意力模塊、交叉注意力模塊的CVAE解碼器網(wǎng)絡(luò)(A-CVAE),加強(qiáng)模型對(duì)圖像關(guān)鍵信息的聚焦能力,捕獲圖像特征和動(dòng)作的相關(guān)性以生成更精準(zhǔn)、高效的機(jī)器人動(dòng)作序列。c)提出一種基于多尺度特征金字塔和注意力機(jī)制改進(jìn)的機(jī)器人行為克隆算法(FA-BC),實(shí)現(xiàn)精確、高效的機(jī)器人運(yùn)動(dòng)策略。d)通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了所提算法在雙臂機(jī)器人物品轉(zhuǎn)移、插孔等精細(xì)操作任務(wù)中的優(yōu)越性,特別是在成功率和軌跡平滑方面。

    1問(wèn)題描述

    模仿學(xué)習(xí)使機(jī)器人能夠通過(guò)觀察人類(lèi)或其他機(jī)器人(稱(chēng)為“專(zhuān)家示范者”)的行為來(lái)學(xué)習(xí)新的技能,即利用高質(zhì)量的決策示例來(lái)生成類(lèi)似決策。模仿學(xué)習(xí)主要有三個(gè)部分構(gòu)成,首先是策略神經(jīng)網(wǎng)絡(luò),其次是專(zhuān)家示范動(dòng)作,第三是環(huán)境模擬器。對(duì)于一個(gè)馬爾可夫決策過(guò)程框架:

    M=(S,A,P,R,γ,ρ)

    其中: s 和A分別是狀態(tài)和動(dòng)作空間; 指定了環(huán)境轉(zhuǎn)移概率: 指定了獎(jiǎng)勵(lì); γ∈(0,1] 是折扣因子 指定了初始狀態(tài)分布。由專(zhuān)家策略 πE 收集到的數(shù)據(jù)集為 D={(si,ai)}i=1m ,其中每一個(gè)狀態(tài)動(dòng)作對(duì)是由 πE 和環(huán)境交互產(chǎn)生的。決策者的目標(biāo)是找到一個(gè)穩(wěn)態(tài)策略 π:SΔ(A) 來(lái)使累計(jì)獎(jiǎng)勵(lì)最大化,公式為

    (204號(hào) (2)并最小化與專(zhuān)家策略的值函數(shù)差異: ,即期望 π 能從專(zhuān)家示例中很好地恢復(fù)出專(zhuān)家的決策行為來(lái)使得決策者的值函數(shù)比較大。

    1.1專(zhuān)家示范數(shù)據(jù)構(gòu)建

    對(duì)于模仿學(xué)習(xí)來(lái)說(shuō),首先需要專(zhuān)家給出一些模仿的數(shù)據(jù),稱(chēng)為專(zhuān)家示范數(shù)據(jù),通常是專(zhuān)家去觀測(cè)當(dāng)前時(shí)刻的環(huán)境是怎樣的狀態(tài),專(zhuān)家在這個(gè)狀態(tài)下給出什么動(dòng)作,動(dòng)作作用于環(huán)境之后會(huì)進(jìn)入下一狀態(tài),在這個(gè)新的狀態(tài)下專(zhuān)家又做出什么動(dòng)作,將這一系列數(shù)據(jù)延續(xù)下去,將其命名為專(zhuān)家示范數(shù)據(jù)集。通過(guò)將專(zhuān)家示范數(shù)據(jù)集分解為狀態(tài)與動(dòng)作的對(duì)應(yīng)關(guān)系,機(jī)器學(xué)習(xí)中的模仿學(xué)習(xí)便是在這些數(shù)據(jù)基礎(chǔ)上,學(xué)習(xí)到一種較為優(yōu)秀的策略。

    1.2行為克隆

    模仿學(xué)習(xí)最主流的方法是行為克隆。行為克隆通過(guò)監(jiān)督學(xué)習(xí)的方式,讓機(jī)器學(xué)習(xí)狀態(tài)和動(dòng)作之間的相對(duì)應(yīng)關(guān)系。首先,算法將專(zhuān)家的示范數(shù)據(jù)拆分成狀態(tài)和動(dòng)作對(duì),這些數(shù)據(jù)就變成了有標(biāo)記的數(shù)據(jù)。然后將狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,將動(dòng)作作為神經(jīng)網(wǎng)絡(luò)的輸出,通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓機(jī)器學(xué)習(xí)狀態(tài)和動(dòng)作之間的映射關(guān)系。

    行為克隆算法學(xué)習(xí)方法如圖1所示。首先把訓(xùn)練數(shù)據(jù)分成訓(xùn)練集合與驗(yàn)證集合,通過(guò)最小化訓(xùn)練集的誤差來(lái)進(jìn)行訓(xùn)練,直到驗(yàn)證集的誤差不再收斂。訓(xùn)練完成后將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)應(yīng)用于實(shí)際環(huán)境中,從環(huán)境中獲取當(dāng)前狀態(tài),利用神經(jīng)網(wǎng)絡(luò)決定相應(yīng)的動(dòng)作,并作用于環(huán)境,如此循環(huán)直到任務(wù)完成,以評(píng)估訓(xùn)練效果。

    圖1行為克隆算法學(xué)習(xí)過(guò)程

    1.3 行為克隆的不足

    即使有高質(zhì)量的演示,行為克隆也需要精確的視覺(jué)反饋,如圖2所示,預(yù)測(cè)動(dòng)作中的小錯(cuò)誤會(huì)導(dǎo)致?tīng)顟B(tài)的大差異,加劇模仿學(xué)習(xí)的復(fù)合誤差問(wèn)題。假設(shè)可以尋找到一個(gè)策略 π ,其與最優(yōu)策略的損失函數(shù)值小于給定的精度 ? ,這個(gè)策略與專(zhuān)家策略的決策質(zhì)量上有如式(3)所示的保證:

    可以看到,損失函數(shù)值越小,兩者的值函數(shù)差異越小。這個(gè)差異是以 1/(1-γ)2 的速度在放大。這個(gè)現(xiàn)象在模仿學(xué)習(xí)中被稱(chēng)作為復(fù)合誤差,綜合來(lái)看,它的誤差在每一步累積,而且隨著其誤差的累積,它會(huì)越來(lái)越脫離原來(lái)訓(xùn)練時(shí)候的數(shù)據(jù),導(dǎo)致行為克隆雖然用起來(lái)很方便,但是它的效果會(huì)很有限。然而在機(jī)器人的精細(xì)操作任務(wù)中,如果機(jī)器沒(méi)有辦法完全復(fù)制專(zhuān)家的行為,產(chǎn)生了一點(diǎn)偏差,最后得到的結(jié)果就會(huì)差很多。此外,當(dāng)訓(xùn)練數(shù)據(jù)少的時(shí)候,模型無(wú)法訓(xùn)練出完整的策略分布,而且行為克隆算法只能依賴已有的數(shù)據(jù)和模式,即只能復(fù)制專(zhuān)家示范者在訓(xùn)練數(shù)據(jù)中展示的行為,如果遇到訓(xùn)練數(shù)據(jù)中沒(méi)有見(jiàn)過(guò)的情況,由于缺乏適應(yīng)性和創(chuàng)造性,算法無(wú)法獨(dú)立生成新的解決方案或適應(yīng)未知的變化環(huán)境,泛化能力較差。

    圖2行為克隆中的復(fù)合誤差Fig.2Compound error in behavioral cloning

    2改進(jìn)行為克隆算法

    為解決行為克隆算法復(fù)合誤差的問(wèn)題,本文基于多尺度特征金字塔設(shè)計(jì)了融合不同尺度特征的backbone網(wǎng)絡(luò),提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境和視覺(jué)反饋的能力。為了進(jìn)一步提高策略的精準(zhǔn)性,引入動(dòng)作分塊和時(shí)間集成,策略預(yù)測(cè)了接下來(lái) k 個(gè)時(shí)間步的自標(biāo)關(guān)節(jié)位置,并在重疊的動(dòng)作塊上進(jìn)行平均,以產(chǎn)生既準(zhǔn)確又平滑的軌跡。

    為解決行為克隆算法只能簡(jiǎn)單復(fù)制專(zhuān)家示范者的行為,泛化性能不足的局限,本文引人能夠?qū)W習(xí)示教數(shù)據(jù)分布的條件變分自編碼器(CVAE)方法以捕獲數(shù)據(jù)中的可變性。如圖3所示,基于自注意力模塊、交叉注意力模塊設(shè)計(jì)CVAE,將機(jī)器人控制策略訓(xùn)練為一個(gè)生成模型,由輸入的機(jī)器人當(dāng)前環(huán)境的RGB圖像和關(guān)節(jié)位置生成下一時(shí)間段的機(jī)器人動(dòng)作序列。

    圖3CVAE模型總覽

    2.1基于特征金字塔的backbone 網(wǎng)絡(luò)模塊

    為了提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境和視覺(jué)反饋的能力,本文設(shè)計(jì)了基于特征金字塔的backbone網(wǎng)絡(luò)用于從輸人的機(jī)器人運(yùn)動(dòng)場(chǎng)景RGB圖像中提取多尺度特征,通過(guò)特征金字塔網(wǎng)絡(luò)(FPN)增強(qiáng)這些特征的表達(dá)能力。如圖4所示,輸入圖像首先通過(guò)ResNet提取特征,然后FPN處理這些特征以生成不同尺度的特征圖。最后,將特征圖與位置編碼相結(jié)合,為后續(xù)任務(wù)提供富含位置信息的特征表示。整個(gè)網(wǎng)絡(luò)能夠有效地捕捉圖像中的多尺度信息和位置關(guān)系,從而提高視覺(jué)任務(wù)的性能。

    圖4基于特征金字塔的backbone網(wǎng)絡(luò) Fig.4Backbone network based on feature pyramid

    FPN包含自下而上網(wǎng)絡(luò)、自上而下網(wǎng)絡(luò)、橫向連接。最左側(cè)為ResNet18,用于提取圖像特征,ResNet的核心公式為 y= F(x,Wi)+x ,通過(guò)將輸入特征 x 與殘差映射 F 相加,得到輸出y,ResNet 的殘差塊可以表示為 y=H(x)+x ,輸出特征由殘差塊中的卷積層組 H(x) 和輸入特征組成。如圖4所示,C1標(biāo)識(shí)了ResNet的前幾個(gè)卷積層和池化層,而C2~C5則分別對(duì)應(yīng)于ResNet中的不同卷積模塊。這些模塊內(nèi)部包含了多個(gè)Bottle-neck單元,每個(gè)模塊內(nèi)部的特征圖尺寸保持一致,而不同模塊間的特征圖尺寸則逐級(jí)減小。特征金字塔網(wǎng)絡(luò)(FPN)輸出四個(gè)不同尺度的特征圖,根據(jù) RoI 的大小,選擇相應(yīng)的特征圖進(jìn)行特征提?。狠^大的 RoI 會(huì)在更深的特征圖如P5上進(jìn)行提取,而較小的 RoI 則會(huì)在較淺的特征圖如P2上進(jìn)行提取,F(xiàn)PN的級(jí)別 (Pk) 是通過(guò)式(4)。

    將寬度為 w 、高度為 h 的 RoI 分配得來(lái)的,224是標(biāo)準(zhǔn)的ImageNet 預(yù)訓(xùn)練大小,對(duì)于 ResNet,k0 設(shè)置為4。FPN的上采樣模塊為

    y=F(x)+U(y

    其中: y 是上采樣模塊的輔助特征; F(x) 是上采樣模塊的卷積層; U(y) 是上采樣模塊的上采樣操作;FPN的下采樣模塊為

    y=D(x)

    D(x) 是下采樣模塊的卷積層。首先,通過(guò)在C5上執(zhí)行1×1 卷積操作來(lái)減少通道數(shù),進(jìn)而生成 P5 。接著,對(duì)P5執(zhí)行上采樣操作以獲得P4、P3和P2,這一過(guò)程的目的是為了得到與C4、C3和C2尺寸一致的特征圖,以便于后續(xù)進(jìn)行逐元素加和。這里使用的是2倍最近鄰上采樣方法,在生成的圖像中,位置 (i,j) 的像素值直接由原圖中位置 (2i,2j) 的像素值復(fù)制而來(lái),而不是采用非線性插值。為了將上采樣后的高語(yǔ)義特征與較淺層的精確定位特征相結(jié)合,上采樣后的特征圖在尺寸上與對(duì)應(yīng)的淺層特征圖匹配,并將通道數(shù)統(tǒng)一調(diào)整為512。因此,需要對(duì)C2\~C4的特征圖進(jìn)行卷積處理,使其通道數(shù)也達(dá)到512,之后進(jìn)行逐元素加和以形成P4、P3和P2。由于C1的特征圖尺寸較大且包含的語(yǔ)義信息有限,故未將其納入橫向連接。在完成特征圖的逐元素加和之后,通過(guò) 3×3 卷積進(jìn)一步融合P2~P4,以消除上采樣過(guò)程中產(chǎn)生的混疊效應(yīng),并生成最終的特征圖。FPN通過(guò)將深層語(yǔ)義信息傳遞到更淺層,增強(qiáng)了淺層特征的語(yǔ)義信息,從而實(shí)現(xiàn)了具有高分辨率和豐富語(yǔ)義信息的特征提取。將ResNet18與FPN相結(jié)合,backbone網(wǎng)絡(luò)能夠同時(shí)利用深度的表示能力和多尺度的上下文信息,從而更好地感知機(jī)器人運(yùn)動(dòng)場(chǎng)景中的目標(biāo)物并作出相應(yīng)的視覺(jué)反饋。

    2.2動(dòng)作分塊和時(shí)間集成模塊

    為了進(jìn)一步減少模仿學(xué)習(xí)中的復(fù)合誤差,產(chǎn)生既準(zhǔn)確又平滑的軌跡,本文引入一種與像素到動(dòng)作策略兼容的方式來(lái)減少高頻收集的長(zhǎng)軌跡的有效視域,參考文獻(xiàn)[22]把動(dòng)作分塊和時(shí)間集成加到策略中,基于Transformers實(shí)現(xiàn)動(dòng)作分塊策略,通過(guò)動(dòng)作分塊來(lái)減少任務(wù)的有效視界。對(duì)于每種任務(wù),策略都預(yù)測(cè)了接下來(lái) k 個(gè)時(shí)間步的目標(biāo)關(guān)節(jié)位置,而不僅僅是一次一步,即預(yù)測(cè)一個(gè)動(dòng)作序列而不是單個(gè)動(dòng)作,并在重疊的動(dòng)作塊上進(jìn)行平均,將個(gè)體動(dòng)作進(jìn)行分組并作為一個(gè)單元執(zhí)行,從而更有效地存儲(chǔ)和執(zhí)行。例如,雙臂插孔協(xié)作任務(wù)的一組動(dòng)作可以對(duì)應(yīng)于抓住凹槽和插銷(xiāo)或?qū)⒉邃N(xiāo)插入凹槽中。如圖5所示,動(dòng)作塊大小固定為 k :每 k 步接收一個(gè)觀察,并生成下一組的 k 個(gè)動(dòng)作,然后依次執(zhí)行這些動(dòng)作,這意味著任務(wù)的有效視界減少了 k 倍。

    圖5動(dòng)作分塊與時(shí)間集成Fig.5Action chunking and temporal ensembling

    策略模擬 而不是 。單步策略將對(duì)抗與時(shí)間相關(guān)的干擾因素,例如示范數(shù)據(jù)的過(guò)程中間出現(xiàn)暫停,因?yàn)樾袨椴粌H取決于狀態(tài)還取決于時(shí)間步長(zhǎng)。通過(guò)采用動(dòng)作分塊方法可以緩解這種混淆。這樣做可以使不同的動(dòng)作塊相互重疊,在給定的時(shí)間步長(zhǎng)上產(chǎn)生多個(gè)預(yù)測(cè)動(dòng)作。時(shí)間集成通過(guò)加權(quán)平均對(duì)這些預(yù)測(cè)進(jìn)行處理,指數(shù)加權(quán)公式為

    其中: ??w0 表示最早動(dòng)作的權(quán)重,新觀察到達(dá)時(shí)速度由參數(shù) m 決定,較小的 ∣m∣ 意味著更快地納人新觀察。與典型平滑方法不同(當(dāng)前動(dòng)作與相鄰時(shí)間步中的動(dòng)作被聚合在一起,那樣會(huì)引入偏差),只將同一時(shí)間步內(nèi)的預(yù)測(cè)動(dòng)作進(jìn)行聚合,在 t=n 時(shí)最終采用什么動(dòng)作,由 t=0,t=1,t=2,…,t=k-1 這 k 段進(jìn)行指數(shù)加權(quán)平均,最終能夠產(chǎn)生準(zhǔn)確且平滑流暢的機(jī)器人運(yùn)動(dòng)效果。

    2.3基于注意力改進(jìn)的CVAE模塊

    行為克隆算法只能簡(jiǎn)單復(fù)制專(zhuān)家示范者的行為,如果遇到訓(xùn)練數(shù)據(jù)中沒(méi)有見(jiàn)過(guò)的情況,算法很容易生成錯(cuò)誤的行為,無(wú)法正確地泛化到新的環(huán)境中。因此本文將策略訓(xùn)練為條件變分自編碼器(CVAE),使模型能學(xué)習(xí)示教數(shù)據(jù)分布,捕捉數(shù)據(jù)的可變性。結(jié)合多層自注意力模塊、交叉注意力模塊設(shè)計(jì)了CVAE解碼器網(wǎng)絡(luò),加強(qiáng)模型對(duì)圖像關(guān)鍵信息的聚焦能力,捕獲圖像特征和動(dòng)作的相關(guān)性以生成更精準(zhǔn)、高效的機(jī)器人動(dòng)作序列。

    首先采集機(jī)器人的運(yùn)動(dòng)場(chǎng)景RGB圖像,以及兩個(gè)七自由度機(jī)器人手臂的關(guān)節(jié)位置(總共 7+7=14 自由度)作為模型的輸入。CVAE包括CVAE編碼器和CVAE解碼器,編碼器包含一個(gè)Transformerencoder,解碼器包含一個(gè)修改后的Transformerencoder和一個(gè)修改后的Transformerdecoder,如圖6、7所示。使用圖6底部藍(lán)色所示(見(jiàn)電子版)的CVAE編碼器推斷機(jī)器人的動(dòng)作類(lèi)型變量z。在編碼器的輸入階段,將隨機(jī)初始化的學(xué)習(xí)權(quán)值[CLS]token、關(guān)節(jié)位置的嵌人表示embeddedjoints和動(dòng)作序列的嵌入表示embeddedactionsequence合并成一個(gè)序列。為了將關(guān)節(jié)位置和動(dòng)作序列轉(zhuǎn)換成適合Transformer編碼器的格式,使用線性層linearlayer1將動(dòng)作序列從 k×14 維投影到 k×512 維,使用線性層linearlayer2將關(guān)節(jié)位置從14維投影到512維。合并這三個(gè)輸入后,形成了 (k+2)× embedding-dimension的序列,即 (k+2)×512 。編碼器對(duì)輸入序列進(jìn)行處理后只取第一個(gè)輸出 z 變量,這個(gè)輸出對(duì)應(yīng)于[CLS]標(biāo)記,指定了機(jī)器人的動(dòng)作類(lèi)型。然后,使用另一個(gè)線性網(wǎng)絡(luò)來(lái)預(yù)測(cè)分布的均值和方差,并將它們參數(shù)化為對(duì)角高斯分布。為了在采樣過(guò)程中進(jìn)行反向傳播,使用了重新參數(shù)化的方法,這種方法允許在采樣過(guò)程中對(duì)編碼器和解碼器進(jìn)行聯(lián)合優(yōu)化。然后將z變量輸入圖6上部分的CVAE解碼器中的Transformerencoder。

    圖6中Transformerencoder的輸入還有來(lái)自經(jīng)backbone網(wǎng)絡(luò)提取得到的機(jī)器人運(yùn)動(dòng)場(chǎng)景RGB圖像的特征序列。每個(gè)圖像通過(guò)ResNet18處理,得到一個(gè) 15×20×728 的特征圖。然后,這個(gè)特征圖被壓平為一個(gè) 300×728 的特征序列,再通過(guò)一個(gè)線性層投影到512維的嵌入空間,并添加了一個(gè)2D正弦位置嵌人來(lái)保留空間信息。接下來(lái),對(duì)來(lái)自 n 個(gè)攝像機(jī)的圖像重復(fù)上述操作,將來(lái)自每個(gè)攝像機(jī)的特征序列連接起來(lái),得到一個(gè) n×300×512 的特征序列,作為T(mén)ransformerencoder的輸人之一。Transformerencoder的最后一個(gè)輸入是機(jī)器人當(dāng)前的關(guān)節(jié)位置joints。關(guān)節(jié)位置joints和類(lèi)型變量 z 分別通過(guò)線性層投影到512維。最終,Transformer編碼器的輸入是形成一個(gè)[(n×300)+2]×512 的特征序列,它包含了來(lái)自 n 張圖像的特征、關(guān)節(jié)位置和類(lèi)型變量的特征。Transformerencoder layer通過(guò)兩個(gè)多頭自注意力層來(lái)編碼輸人序列,每個(gè)自注意力層后接一個(gè)殘差連接和層歸一化,通過(guò)自注意力機(jī)制捕捉序列內(nèi)部的依賴關(guān)系,并經(jīng)前饋網(wǎng)絡(luò)提供非線性變換以增強(qiáng)表示能力,同時(shí)使用dropout和層歸一化來(lái)穩(wěn)定訓(xùn)練并防止過(guò)擬合,最終得到輸入序列經(jīng)過(guò)編碼后的表示,這些表示捕捉了序列內(nèi)部的長(zhǎng)距離依賴關(guān)系和非線性特征。具體而言,輸入序列首先通過(guò)第一個(gè)自注意力層捕捉輸入序列中不同位置的依賴關(guān)系,計(jì)算出每個(gè)位置的上下文表示,接著是一個(gè)前饋神經(jīng)網(wǎng)絡(luò),包括兩個(gè)線性層和激活函數(shù),用于在每個(gè)位置上進(jìn)一步處理和轉(zhuǎn)換特征及非線性變換,同樣通過(guò)殘差連接和層歸一化處理。然后經(jīng)過(guò)第二個(gè)自注意力層,讓模型在不同的注意力機(jī)制下學(xué)習(xí)輸入序列的不同特征和關(guān)系,進(jìn)一步提取和整合輸入序列的信息,以及捕獲更復(fù)雜的序列依賴關(guān)系。Transformerencoderlayer引入了額外的注意力計(jì)算,允許模型在不同的注意力機(jī)制下學(xué)習(xí)輸人序列的不同特征和關(guān)系,更好地捕捉輸入序列中的長(zhǎng)距離依賴關(guān)系和更復(fù)雜的模式,使得模型能夠更好地適應(yīng)復(fù)雜的序列建模任務(wù)。

    圖6CVAE編碼器和CVAE解碼器中的Transformerencoder部分Fig.6 Transformer encoder of CVAE encoder and CVAEdecoder

    如圖7,CVAE解碼器中Transformerdecoder的輸入包含兩部分:一部分是固定維度的正弦位置嵌入,作為解碼器的查詢(query),維度為 k×512 ;另一部分是來(lái)自Transformerencoder輸出的特征,這些特征在解碼器的交叉注意力層中作為鍵(keys)和值(values)。Transformerdecoderlayer包含三個(gè)多頭注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò),每個(gè)組件都通過(guò)殘差連接和層歸一化進(jìn)行處理。第一個(gè)自注意力層處理目標(biāo)序列以捕捉序列內(nèi)部的依賴關(guān)系,第二個(gè)交叉注意力層(編碼器-解碼器注意力)使用編碼器記憶(memory)和位置編碼(pos)對(duì)經(jīng)過(guò)自注意力調(diào)整后的目標(biāo)序列進(jìn)行注意力計(jì)算,將目標(biāo)序列與編碼器的輸出相結(jié)合以考慮上下文信息,用于處理輸入序列中不同位置之間的關(guān)系和重要性,接著通過(guò)線性變換和激活函數(shù)(linearl,activation,linear2)實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程,用于增強(qiáng)特征表示和提高模型的非線性建模能力。然后經(jīng)過(guò)添加的第三個(gè)交叉注意力層再次對(duì)目標(biāo)序列和編碼器記憶進(jìn)行注意力計(jì)算,進(jìn)一步加強(qiáng)模型對(duì)輸入序列信息的理解和處理能力,更有效地捕捉目標(biāo)序列和記憶之間的復(fù)雜依賴關(guān)系,進(jìn)而增加了模型的深度和復(fù)雜度,幫助模型更好地適應(yīng)和學(xué)習(xí)復(fù)雜的序列關(guān)系、更好地捕捉和處理序列內(nèi)部的復(fù)雜依賴關(guān)系,從而提升了模型的泛化能力和性能表現(xiàn)。整個(gè)結(jié)構(gòu)通過(guò)dropout來(lái)進(jìn)行正則化和減少過(guò)擬合,并通過(guò)位置編碼來(lái)考慮序列的位置信息。最后輸出得到經(jīng)過(guò)編碼和處理的目標(biāo)序列表示,它包含了輸入序列經(jīng)過(guò)多層變換后的豐富特征表示,輸出維度同樣是k×512 ,然后通過(guò)一個(gè)多層感知機(jī)(MLP)進(jìn)行下投影,將輸出維度降至 k×14 ,這對(duì)應(yīng)于接下來(lái) k 個(gè)步驟的預(yù)測(cè)目標(biāo)關(guān)節(jié)位置。通過(guò)這種方式,解碼器在接收到編碼器的輸出后,能夠精確、高效地預(yù)測(cè)接下來(lái)的動(dòng)作序列。CVAE編碼器只在訓(xùn)練策略時(shí)使用,在測(cè)試時(shí)丟棄CVAE編碼器,將 z 設(shè)置為先驗(yàn)的平均值(即零)。策略直接將來(lái)自商品網(wǎng)絡(luò)相機(jī)的RGB圖像映射到動(dòng)作,生成以當(dāng)前觀察為條件的動(dòng)作序列。

    結(jié)合上述三大模塊組成最終的基于改進(jìn)行為克隆算法,首先訓(xùn)練生成機(jī)器人控制策略,然后測(cè)試策略的有效性,算法偽代碼如下:

    算法1用于訓(xùn)練機(jī)器人控制策略的算法輸入:專(zhuān)家示范數(shù)據(jù) D ,動(dòng)作分塊尺寸 k ,權(quán)重 β 輸出:生成預(yù)測(cè)動(dòng)作 的機(jī)器人控制策略 πθ 。初始化 χt 時(shí)間步的動(dòng)作和觀察分別為 at , 表示沒(méi)有圖像觀察的 ot ,初始化encoder ;//初始化編碼器生成 z 的分布初始化decoder ;//初始化解碼器生成策略for n=1 to N dosample ot,at:t+k from 獲取機(jī)器人運(yùn)動(dòng)場(chǎng)景觀察和動(dòng)作sample z from //獲取機(jī)器人動(dòng)作類(lèi)型變量zpredict from /根據(jù)策略預(yù)測(cè)動(dòng)作(20 //重構(gòu)損失(20 //正則化損失update θ ? with ADAM and L=Lreconst+βLreg (204號(hào)//更新參數(shù)并計(jì)算總的損失算法2用于測(cè)試機(jī)器人控制策略的算法輸入:訓(xùn)練好的策略 πθ ,決策次數(shù) T ,權(quán)重 m? 輸出;機(jī)器人在當(dāng)前狀態(tài)的下一組動(dòng)作序列 。初始化FIFO緩沖器 B[0;T] , B[t] 存儲(chǔ)時(shí)間步 χt 的預(yù)測(cè)動(dòng)作;for t=1,2,…,T dopredict with where z=0 (20//將編碼器丟棄后預(yù)測(cè)動(dòng)作add to buffers respectively//添加預(yù)測(cè)動(dòng)作到緩沖器中obtain current step actions At=B[t] //獲取當(dāng)前步驟動(dòng)作apply ,with 2//應(yīng)用權(quán)重計(jì)算當(dāng)前要執(zhí)行的動(dòng)作

    3 仿真實(shí)驗(yàn)與分析

    本章使用對(duì)比實(shí)驗(yàn)對(duì)改進(jìn)后的行為克隆算法進(jìn)行分析和驗(yàn)證。實(shí)驗(yàn)環(huán)境:Ubuntu20.04.6LTS(FocalFossa)操作系統(tǒng)、NVIDIAGeForceRTX4090顯卡、13thGenIntelCorei9-13900K處理器的計(jì)算機(jī),仿真平臺(tái)MuJoCo2.3.7。仿真實(shí)驗(yàn)的目的是通過(guò)模擬一個(gè)真實(shí)的雙臂機(jī)器人精細(xì)操作環(huán)境,用FA-BC算法與模仿學(xué)習(xí)中一些先進(jìn)的算法如ACT、BC-ConvMLP、BeT、RT-1、VINN進(jìn)行比較,從而驗(yàn)證本文算法在雙臂機(jī)器人精細(xì)操作方面的卓越表現(xiàn),并設(shè)計(jì)消融實(shí)驗(yàn)測(cè)試F-backbone網(wǎng)絡(luò)和A-CVAE解碼器對(duì)優(yōu)化行為克隆算法的影響。

    實(shí)驗(yàn)所用的超參數(shù)如表1所示。

    表1實(shí)驗(yàn)所用的超參數(shù)Tab.1Hyperparameters used in the experiment

    3.1仿真對(duì)比實(shí)驗(yàn)設(shè)計(jì)

    本文在 MuJoCo 中構(gòu)建了兩個(gè)模擬的雙臂機(jī)器人精細(xì)操作任務(wù)環(huán)境。任務(wù)一:雙臂協(xié)作傳送立方體,環(huán)境中包含左右兩個(gè)機(jī)械臂和一個(gè)紅色立方體,首先由右臂撿起桌子上的紅色立方體,然后將其放在另一只手臂的夾持器內(nèi)。由于立方體和左夾鉗之間的間隙很?。s 1cm ),小錯(cuò)誤會(huì)導(dǎo)致碰撞和任務(wù)失敗。任務(wù)二:雙臂協(xié)作插孔任務(wù),環(huán)境包含左右兩個(gè)機(jī)械臂和一個(gè)藍(lán)色的凹槽和紅色的插銷(xiāo),左臂和右臂需要分別拿起凹槽和插銷(xiāo),凹槽內(nèi)設(shè)計(jì)有一個(gè)用于感應(yīng)插銷(xiāo)正確插入的引腳,然后雙臂在空中完成插孔操作,使插銷(xiāo)無(wú)碰撞準(zhǔn)確接觸到凹槽內(nèi)的引腳,插入階段的間隙約為 5mm 。兩個(gè)任務(wù)的初始環(huán)境如圖8所示。環(huán)境在每次加載開(kāi)始時(shí)被初始化,其中紅色方塊及藍(lán)色凹槽和紅色插銷(xiāo)(見(jiàn)電子版)的初始位置在每次加載仿真環(huán)境時(shí)都會(huì)隨機(jī)化產(chǎn)生。

    圖7CVAE解碼器中的Transformerdecoder部分Fig.7Transformerdecoder of CVAEdecoder圖8仿真環(huán)境初始狀態(tài)

    如圖9所示,任務(wù)一雙臂協(xié)作傳送立方體的目標(biāo)是使用兩個(gè)機(jī)械臂將一個(gè)紅色方塊從右手轉(zhuǎn)移到左手,并且在轉(zhuǎn)移過(guò)程中確保方塊不接觸桌子。評(píng)定標(biāo)準(zhǔn)基于方塊與左右手抓取器的接觸狀態(tài)以及是否接觸桌子來(lái)給予獎(jiǎng)勵(lì)。具體來(lái)說(shuō),任務(wù)提供了以下獎(jiǎng)勵(lì):獎(jiǎng)勵(lì) 1(reward=1 ),當(dāng)方塊被右手抓取時(shí);獎(jiǎng)勵(lì)2(reward =2 ),當(dāng)方塊被右手抓取并且已經(jīng)抬起,即方塊已離開(kāi)桌子;獎(jiǎng)勵(lì)3(reward °=3 ),當(dāng)方塊開(kāi)始嘗試從右手轉(zhuǎn)移到左手時(shí);獎(jiǎng)勵(lì)4(reward O=4 ),當(dāng)方塊成功從右手轉(zhuǎn)移到左手,并且不再接觸桌子時(shí)。獎(jiǎng)勵(lì)函數(shù)通過(guò)檢測(cè)方塊與左右手抓取器以及桌子之間的接觸狀態(tài)來(lái)確定獎(jiǎng)勵(lì)值。如果方塊同時(shí)與左右手抓取器接觸,則不給予獎(jiǎng)勵(lì)。此外,如果方塊接觸桌子,則視為失敗,獎(jiǎng)勵(lì)為0。任務(wù)的最終目標(biāo)是獲得最大的獎(jiǎng)勵(lì)4,表示方塊成功從右手轉(zhuǎn)移到左手,且在轉(zhuǎn)移過(guò)程中沒(méi)有接觸桌子。

    Fig.8Initial state of simulation environment圖9轉(zhuǎn)移任務(wù)過(guò)程 Fig.9Process of transferring task

    如圖10所示,任務(wù)二雙臂協(xié)作插孔任務(wù)的目標(biāo)是通過(guò)兩個(gè)機(jī)械臂,將一個(gè)紅色插銷(xiāo)插入到藍(lán)色凹槽中,同時(shí)確保在插入過(guò)程中插銷(xiāo)和凹槽不接觸桌子。任務(wù)的評(píng)定標(biāo)準(zhǔn)基于方塊與機(jī)械臂抓取器之間的接觸狀態(tài),以及方塊是否接觸桌子。具體來(lái)說(shuō),任務(wù)提供了以下獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)1 ),當(dāng)方塊被左右手抓取器同時(shí)接觸時(shí);獎(jiǎng)勵(lì) 2(reward=2) ),當(dāng)方塊被左右手抓取器同時(shí)接觸,并且沒(méi)有接觸桌子時(shí),表示方塊已經(jīng)被抓取并準(zhǔn)備插入;獎(jiǎng)勵(lì)3 reward=3 ),當(dāng)方塊與插座接觸,并且沒(méi)有接觸桌子時(shí),表示方塊已經(jīng)開(kāi)始插入過(guò)程;獎(jiǎng)勵(lì) 4(reward=4 ),當(dāng)方塊與插座接觸,并且與引腳接觸時(shí),表示方塊已經(jīng)成功插入到插座中。獎(jiǎng)勵(lì)函數(shù)通過(guò)檢測(cè)方塊與左右手抓取器、插座、桌子以及釘子之間的接觸狀態(tài)來(lái)確定獎(jiǎng)勵(lì)值。如果方塊同時(shí)與左右手抓取器接觸,則不給予獎(jiǎng)勵(lì)。此外,如果方塊接觸桌子,則視為失敗,獎(jiǎng)勵(lì)為0。任務(wù)的最終目標(biāo)是獲得最大的獎(jiǎng)勵(lì)4,表示方塊成功插人到插座中,且在插入過(guò)程中沒(méi)有接觸桌子。

    通過(guò)在這兩個(gè)模擬的機(jī)器人精細(xì)操作環(huán)境中進(jìn)行仿真實(shí)驗(yàn),能夠更全面地評(píng)估所提出的基于改進(jìn)行為克隆算法的機(jī)器人運(yùn)動(dòng)控制策略在面對(duì)多樣化的機(jī)器人精細(xì)操作任務(wù)時(shí)的高性能和適用力。

    3.2 實(shí)驗(yàn)結(jié)果

    3.2.1 對(duì)比實(shí)驗(yàn)

    本文首先使用腳本收集機(jī)器人在所創(chuàng)建仿真環(huán)境下的50次專(zhuān)家示范數(shù)據(jù)。然后將50次專(zhuān)家示范數(shù)據(jù)輸人CVAE訓(xùn)練機(jī)器人控制策略,最后將訓(xùn)練好的策略在仿真環(huán)境中進(jìn)行測(cè)試運(yùn)行。對(duì)于兩個(gè)任務(wù),調(diào)節(jié)動(dòng)作分塊 k 的大小發(fā)現(xiàn),k在100時(shí)策略性能都表現(xiàn)最佳,因此,將 k 固定為100以訓(xùn)練生成策略,對(duì)每個(gè)任務(wù)設(shè)置3個(gè)隨機(jī)種子,每次測(cè)試運(yùn)行50次雙臂機(jī)器人精細(xì)操作任務(wù)策略評(píng)估。表2報(bào)告了將本文算法(FA-BC)與五種經(jīng)典模仿學(xué)習(xí)方法進(jìn)行比較的結(jié)果,根據(jù)不同算法在兩個(gè)任務(wù)中每次評(píng)估得到的獎(jiǎng)勵(lì)值統(tǒng)計(jì),表2記錄了兩個(gè)仿真任務(wù)在所有測(cè)試中每一個(gè)獎(jiǎng)勵(lì)值對(duì)應(yīng)的子任務(wù)的成功率。

    表2不同算法的任務(wù)成功率Tab.2Task success rate of different algorithms/%

    BC-ConvMLP[23] 是最簡(jiǎn)單但使用最廣泛的基線,其通過(guò)級(jí)聯(lián)卷積層和多層感知器(MLP)層來(lái)逐步提取特征,并利用邊界感知機(jī)制提高對(duì)目標(biāo)物體邊界的識(shí)別能力,但其訓(xùn)練難度較大、實(shí)時(shí)性較差且感知和控制網(wǎng)絡(luò)沒(méi)有聯(lián)合優(yōu)化;RT-1[24]是另一種基于Transformer的架構(gòu),它可以根據(jù)過(guò)去固定長(zhǎng)度的觀察歷史來(lái)預(yù)測(cè)一個(gè)動(dòng)作,不足在于對(duì)初始目標(biāo)定位敏感;BeT(boundary-enhanced Transformer)[25]和RT-1都將動(dòng)作空間離散化,輸出是離散倉(cāng)上的分類(lèi)分布,BeT從倉(cāng)中心添加了連續(xù)偏移,能夠有效提高分割邊界的準(zhǔn)確性,但計(jì)算資源消耗較大,且對(duì)訓(xùn)練數(shù)據(jù)量和質(zhì)量有較高要求。VINN(variationalinferenceneuralnetwork)[26]通過(guò)在神經(jīng)網(wǎng)絡(luò)中嵌入變分推理步驟來(lái)估計(jì)模型參數(shù)的分布,能夠處理帶噪聲或不完整的數(shù)據(jù),并給出概率性的預(yù)測(cè),但計(jì)算復(fù)雜度高,優(yōu)化困難,且對(duì)于超參數(shù)的選擇較為敏感;2023年由斯坦福大學(xué)Zhao等人提出的低成本機(jī)器人操作系統(tǒng)ALOHA(alow-cost open-source hardware sys-temforbimanualteleoperation)中的ACT算法將控制策略訓(xùn)練為CVAE編碼器,直接由輸入圖像預(yù)測(cè)機(jī)器人的連續(xù)動(dòng)作,該算法在單物品精細(xì)操作中表現(xiàn)較好,但在需要力反饋及物品接觸類(lèi)的精細(xì)操作任務(wù)中操作精度不足、任務(wù)成功率不高。本文算法可以直接由圖像預(yù)測(cè)機(jī)器人的連續(xù)動(dòng)作,在兩個(gè)精細(xì)操作任務(wù)的單步成功率、最終成功率上都高于其他五個(gè)基線,最終成功率在涉及物品接觸的插孔任務(wù)中比表現(xiàn)第二好的ACT高出20百分點(diǎn),在單物品轉(zhuǎn)移任務(wù)上比ACT高7百分點(diǎn)。這表明本文提出的算法在機(jī)器人精細(xì)操作任務(wù)中具有更高的精度和效率,機(jī)器人能更好地感知機(jī)器人運(yùn)作的環(huán)境,并生成更精準(zhǔn)和高效的動(dòng)作序列。

    圖11記錄了本文算法生成的機(jī)器人運(yùn)動(dòng)控制策略在仿真任務(wù)中機(jī)器人運(yùn)動(dòng)過(guò)程的關(guān)節(jié)角度變化。圖11的左、右部分分別記錄了左、右機(jī)械臂各7個(gè)關(guān)節(jié)的狀態(tài)和命令角度變化,左右臂共14個(gè)關(guān)節(jié)的真實(shí)運(yùn)動(dòng)狀態(tài)(state)與期望的關(guān)節(jié)運(yùn)動(dòng)命令(command)能較好地重合,說(shuō)明機(jī)器人能精確地執(zhí)行運(yùn)動(dòng)控制。

    圖12和13記錄了機(jī)器人在轉(zhuǎn)移任務(wù)和插孔任務(wù)中的運(yùn)動(dòng)過(guò)程,在兩項(xiàng)仿真任務(wù)中,雙臂機(jī)器人能執(zhí)行平滑的運(yùn)動(dòng)軌跡,無(wú)抖動(dòng)、跳變等不穩(wěn)定的運(yùn)動(dòng)產(chǎn)生。這表明本文算法在隨機(jī)初始化的機(jī)器人精細(xì)操作任務(wù)中能產(chǎn)生既準(zhǔn)確又平滑的運(yùn)動(dòng)軌跡。

    圖12機(jī)器人轉(zhuǎn)移任務(wù)運(yùn)動(dòng)過(guò)程 Fig.12Movement process of the robot’s transfer task
    圖13機(jī)器人插孔任務(wù)運(yùn)動(dòng)過(guò)程 Fig.13Movement process of the robot’sinsertion task

    3.2.2消融實(shí)驗(yàn)

    本節(jié)進(jìn)行了一系列的消融實(shí)驗(yàn),旨在研究基于特征金字塔的backbone網(wǎng)絡(luò)模塊和基于注意力改進(jìn)的CVAE模塊對(duì)本算法訓(xùn)練得到的機(jī)器人控制策略性能的影響。表3報(bào)告了逐步消融這些組件中的每一個(gè)后在兩個(gè)仿真任務(wù)中機(jī)器人精細(xì)操作測(cè)試的最終成功率??梢钥吹?,消融融合特征金字塔的backbone網(wǎng)絡(luò),僅用ResNet提取特征時(shí),兩個(gè)仿真任務(wù)的最終成功率分別下降了4和12百分點(diǎn);消融基于注意力改進(jìn)的CVAE模塊,使用類(lèi)似文獻(xiàn)22]中的基礎(chǔ)CVAE編碼器時(shí),兩個(gè)仿真任務(wù)的最終成功率分別下降了2和4百分點(diǎn);當(dāng)消融以上兩個(gè)組件時(shí),兩個(gè)仿真任務(wù)的最終成功率分別下降了7和20百分點(diǎn)。

    表3消融實(shí)驗(yàn)結(jié)果Tab.3Ablation experimental results /%

    F-backbone網(wǎng)絡(luò)融合了特征金字塔,能夠從不同尺度的特征層次中獲取信息,從而提高網(wǎng)絡(luò)對(duì)場(chǎng)景的識(shí)別能力。在機(jī)器人精細(xì)操作任務(wù)中,操作細(xì)節(jié)往往需要通過(guò)不同尺度的特征來(lái)精確判斷,而特征金字塔能夠有效地捕捉到這些多層次的細(xì)節(jié)信息,并對(duì)多尺度信息有效地整合。消融了這一模塊后,使用單一尺度的 ResNet 喪失了對(duì)細(xì)粒度特征的捕捉能力,因此導(dǎo)致了成功率的下降。A-CVAE模塊引入了基于注意力機(jī)制的改進(jìn),能夠在生成任務(wù)中聚焦于更為重要的特征或區(qū)域,減少噪聲和無(wú)關(guān)信息的干擾,增強(qiáng)對(duì)關(guān)鍵信息的提取能力。在精細(xì)操作任務(wù)中,注意力機(jī)制能讓模型更加專(zhuān)注于與操作相關(guān)的重要特征,從而提高了任務(wù)執(zhí)行的精度和成功率。消融了這一模塊后,模型失去了這種精細(xì)的關(guān)注能力,導(dǎo)致任務(wù)成功率有所下降。F-backbone網(wǎng)絡(luò)主要負(fù)責(zé)從輸入數(shù)據(jù)中提取多尺度的特征,而A-CVAE模塊則通過(guò)生成潛在空間和使用注意力機(jī)制對(duì)任務(wù)進(jìn)行建模。這兩個(gè)模塊的結(jié)合使得機(jī)器人能夠更加精細(xì)地處理輸入信息,生成準(zhǔn)確的控制策略。在缺少這兩個(gè)模塊的情況下,機(jī)器人控制系統(tǒng)失去了對(duì)輸入特征的精確提取能力和對(duì)任務(wù)關(guān)鍵區(qū)域的關(guān)注,從而導(dǎo)致了較大的性能下降。以上實(shí)驗(yàn)結(jié)果和分析說(shuō)明本文設(shè)計(jì)的F-backbone網(wǎng)絡(luò)和A-CVAE解碼器能有效提高機(jī)器人精細(xì)操作任務(wù)的效率和精度。

    4結(jié)束語(yǔ)

    本文針對(duì)機(jī)器人在進(jìn)行雙臂協(xié)同插孔等精細(xì)操作時(shí)面臨的運(yùn)動(dòng)控制模型訓(xùn)練復(fù)雜、環(huán)境感知和視覺(jué)反饋能力差及路徑規(guī)劃執(zhí)行效率低下和精度不足的問(wèn)題,提出了一種新型的改進(jìn)機(jī)器人行為克隆算法(FA-BC)。該算法通過(guò)結(jié)合特征金字塔和ResNet設(shè)計(jì),能提取并融合多尺度特征的backbone網(wǎng)絡(luò),加強(qiáng)機(jī)器人對(duì)運(yùn)動(dòng)場(chǎng)景中自標(biāo)物的感知和視覺(jué)反饋能力;為了進(jìn)一步降低行為克隆算法的復(fù)合誤差并加強(qiáng)策略生成動(dòng)作的平滑性,引入動(dòng)作分塊和時(shí)間集成,以產(chǎn)生既準(zhǔn)確又平滑的軌跡。為了更簡(jiǎn)單地訓(xùn)練策略,提升行為克隆算法在未知環(huán)境的適應(yīng)性和創(chuàng)造性,加強(qiáng)策略的泛化能力,將機(jī)器人控制策略訓(xùn)練為CVAE,即一個(gè)動(dòng)作序列生成模型,基于注意力機(jī)制重新設(shè)計(jì)CVAE解碼器,提高模型對(duì)圖像關(guān)鍵信息的聚焦能力,更好地捕獲圖像特征和動(dòng)作的相關(guān)性,生成更精準(zhǔn)、高效的機(jī)器人動(dòng)作序列。由于基于注意力機(jī)制重新設(shè)計(jì)的CVAE解碼器添加了額外的注意力計(jì)算,在提升性能的同時(shí)增加了模型訓(xùn)練的計(jì)算量和內(nèi)存,后續(xù)將進(jìn)一步研究如何減少模型的訓(xùn)練復(fù)雜度和加快模型訓(xùn)練的收斂速度。本研究未涉及在存在障礙物的情況下進(jìn)行避障運(yùn)動(dòng)規(guī)劃,且未在實(shí)體機(jī)器人上進(jìn)行實(shí)驗(yàn),后續(xù)將進(jìn)一步增加機(jī)器人操作環(huán)境的復(fù)雜度,并用實(shí)體機(jī)器人驗(yàn)證算法的可靠性。

    參考文獻(xiàn):

    [1]郭憲,方勇純.仿生機(jī)器人運(yùn)動(dòng)步態(tài)控制:強(qiáng)化學(xué)習(xí)方法綜述 [J].智能系統(tǒng)學(xué)報(bào),2020,15(1):152-159.(GuoXian,F(xiàn)ang Yongchun.Locomotion gait-control for bionic robots:a review of reinforcement learningmethods[J].CAAl Transon Intelligent Systems,2020,15(1):152-159.)

    [2] 羅欣,丁曉軍.地面移動(dòng)作業(yè)機(jī)器人運(yùn)動(dòng)規(guī)劃與控制研究綜述 [J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2021,53(1):1-15.(Luo Xin,Ding Xiaojun.Research and prospective on motion planning and control of ground mobile manipulators[J].Journal of Harbin lnstituteof Technology,2021,53(1):1-15.)

    [3]艾福強(qiáng),包建東,劉正權(quán).基于粒子群優(yōu)化模糊PID控制的多足 式真空吸附機(jī)器人控制方案設(shè)計(jì)[J].電子測(cè)量技術(shù),2023,46 (2):67-72. (Ai Fuqiang,Bao Jiandong,Liu Zhengquan. Design of multilegged vacuum adsorption robot control scheme based on PSOfuzzy PID control[J].Electronic Measurement Technology, 2023,46(2):67-72.)

    [4]甄富帥,宋光明,毛巨正,等.基于STM32的夾爪式蛇形機(jī)器人 控制系統(tǒng)設(shè)計(jì)[J].儀表技術(shù)與傳感器,2022(9):96-100. (ZhenFushuai,Song Guangming,Mao Juzheng,et al.Design of control system for claw-clamping snake robot based on STM32[J]. Instrument Technique and Sensor,2022(9):96-100.)

    [5]宮赤坤,吳潯煒,袁立鵬.基于阻抗和虛擬模型的四足機(jī)器人控 制方法[J].系統(tǒng)仿真學(xué)報(bào),2022,34(10):2152-2161.(Gong Chikun,Wu Xunwei,Yuan Lipeng. Control of quadruped robot based onimpedance and virtual model[J].Journal of System Simulation,2022,34(10):2152-2161.)

    [6]閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研 究,2004,13(7):4-10.(Yan Youbiao,Chen Yuanyan.A survey onmachine learning andits main strategy [J]. Application Research of Computers,2004,21(7):4-10,13.)

    [7]Hua Jiang,Zeng Liangcai,Li Gongfa,et al.Learning for a robot: deep reinforcement learning,imitation learning,transfer learning [J].Sensors,2021,21(4):1278.

    [8]李忠偉,劉偉鵬,羅傯.基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu) 化算法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(5):1456-1461.(Li Zhongwei,Liu Weipeng,Luo Cai.Autonomous navigation policy optimization algorithm for mobile robots based on trajectory guidance[J]. Application Research of Computers,2024,41(5):1456-1461.)

    [9]李至,潘越,陳殿生,等.基于模仿學(xué)習(xí)的眼底手術(shù)行為機(jī)器人復(fù) 現(xiàn)[J].機(jī)器人,2024,46(3):361-369.(LiZhi,PanYue,Chen Diansheng,et al. Fundus surgical behavior reproduction of robot based on imitation learning[J].Robot,2024,46(3):361-369.)

    [10]王浩杰,陶冶,魯超峰,基于碰撞預(yù)測(cè)的強(qiáng)化模仿學(xué)習(xí)機(jī)器人導(dǎo) 航方法[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(10):341-352.(Wang Haojie,Tao Ye,Lu Chaofeng.Reinforcement imitationlearning method based on collision prediction for robots navigation[J].Computer Engineering and Applications,2024,60(10):341-352.)

    [11]邢志偉,張前前,羅謙,等.基于模仿學(xué)習(xí)的機(jī)場(chǎng)停機(jī)位再分配決 策算法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(9):2665-2670.(Xing Zhiwei,ZhangQianqian,Luo Qian,etal.Decision-makingalgorithm for airport gate reassignment based on imitation learning[J]. Application Research of Computers,2022,39(9):2665-2670.)

    [12]AhmedH,MohamedMG,EyadE,etal.Imitationlearning:a survey of learning methods[J].ACM Computing Surveys,2017,50 (2):1-35.

    [13]閆子晨.協(xié)作機(jī)器人模仿學(xué)習(xí)運(yùn)動(dòng)規(guī)劃與軌跡跟蹤控制研究 [D].北京:北京科技大學(xué),2023.(Yan Zichen.Imitation learning based on motion planning and trajectory tracking control for collaborative robots[D].Beijing:Beijing Keji University,2023.)

    [14]Yuan Yuan,Liu Jie,Chi Wenzheng,et al. A gaussian mixture model based fast motion planning method through online environmental featurelearning[J].IEEE Trans on Industrial Electronics,2022, 70(4) : 3955-3965.

    [15]Felipe C,Eder S,Antonio M,et al.Exploring the limitations of behavior cloning for autonomous driving[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9329-9338.

    [16]FangBin,Jia Shidong,GuoDi,et al.Survey of imitation learning for robotic manipulation [J]. International Journal of Intelligent Robotics and Applications,2019,3(4):362-369.

    [17]RacinskisP,ArentsJ,Greitans M.A motion capture and imitation learning based approach to robot control[J].Applied Sciences, 2022,12(14): 7186.

    [18]Sasagawa A,F(xiàn)ujimoto K,Sakaino S,et al. Imitation learning based onbilateral control for human-robot cooperation[J].IEEE Robotics andAutomationLetters,2020,5(4):6169-6176.

    [19]Stepputtis S,Campbell J,Phielipp M,et al.Language-conditioned imitation learning for robot manipulation tasks[J].Advancesin Neural Information Processing Systems,2020,33:13139-13150.

    [20]于旭,陶先童,寧丹陽(yáng),等.RGB-D圖像引導(dǎo)的機(jī)器人操作任務(wù) 模仿學(xué)習(xí)[J].組合機(jī)床與自動(dòng)化加工技術(shù),2023(4):165- 168,173.(Yu Xu,Tao Xiantong,Ning Danyang,et al. Imitation learning of robot operation task based on RGB-D image[J].Modular Machine Tool amp; Automatic Manufacturing Technique,2023(4): 165-168,173.)

    [21]李曉豪,鄭海斌,王雪柯,等.基于改進(jìn)交叉熵的模仿學(xué)習(xí)魯棒性 增強(qiáng)方法[J].控制與決策,2024,39(3):768-776.(Li Xiaohao, Zheng Haibin,Wang Xueke,et al. Imitation learning robustness enhancement based on modified cross entropy[J].Control and Decision,2024,39(3):768-776.)

    [22]Zhao TZ,Kumar V,LevineS,et al. Learning fine-grained bimanual manipulation with low-cost hardware[EB/OL].(2023-04-23) [2024-07-24]. htps://arxiv.org/pdf/2304.13705.

    [23]LiJiachen,Hassani A,Walton S,et al.ConvMLP:hierarchical convolutional MLPs for vision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:6307-6316.

    [24]BrohanA,BrownN,Carbajal J,etal.RT-1:robotics Transformer forreal-world control at scale[EB/OL].(2023-08-11)[2024-07- 24].https://arxiv.org/pdf/2212.06817.

    [25]Lin Xian,Yu Li,Cheng K T,et al.BATFormer:towards boundaryaware lightweight transformer for efficient medical image segmentation [J].IEEE Journal of Biomedical and Health Informatics,2023, 27(7):3501-3512.

    [26]Ferianc M,F(xiàn)an Hongxiang,Rodrigues M.VINNAS:variational inference-based neural network architecture search[EB/OL]. (2021-01-14)[2024-07-24].hps://ar-xiv.org/pdf/2007.06103.

    猜你喜歡
    方塊編碼器注意力
    注意力分配視角下對(duì)大學(xué)生碎片化學(xué)習(xí)注意力失焦現(xiàn)象的積極理解
    基于Transformer模型的圖書(shū)館借閱量預(yù)測(cè)研究
    方方的寫(xiě)實(shí)
    一種融合注意力機(jī)制與ED-LSTM模型的核工程虛擬測(cè)量方法
    微型全國(guó)產(chǎn)化精密單軸轉(zhuǎn)臺(tái)設(shè)計(jì)
    外部知識(shí)與內(nèi)部上下文語(yǔ)義聚合的短文本新聞虛假檢測(cè)模型
    基于多頭集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要模型
    精品久久国产蜜桃| 精品欧美国产一区二区三| 大型黄色视频在线免费观看| 中文字幕av在线有码专区| 一本精品99久久精品77| 丝袜美腿在线中文| 麻豆国产97在线/欧美| 日韩欧美三级三区| 欧美激情久久久久久爽电影| 国产午夜精品论理片| 熟女人妻精品中文字幕| 亚洲精品国产av成人精品| 我的女老师完整版在线观看| .国产精品久久| 99久久九九国产精品国产免费| 日日摸夜夜添夜夜添av毛片| 美女 人体艺术 gogo| 99九九线精品视频在线观看视频| 国产一区二区在线观看日韩| 男人舔奶头视频| 又粗又爽又猛毛片免费看| 亚洲电影在线观看av| h日本视频在线播放| 两性午夜刺激爽爽歪歪视频在线观看| 国产精品不卡视频一区二区| 欧美激情国产日韩精品一区| av在线亚洲专区| 国产伦在线观看视频一区| 欧美高清成人免费视频www| 国产精品电影一区二区三区| 天堂网av新在线| 亚洲在线观看片| 国产成人精品一,二区 | av在线亚洲专区| 赤兔流量卡办理| 赤兔流量卡办理| 国产伦理片在线播放av一区 | 国产老妇女一区| 免费av不卡在线播放| 一区福利在线观看| 搞女人的毛片| 欧美人与善性xxx| 色5月婷婷丁香| 国产伦一二天堂av在线观看| 亚洲在久久综合| 天天一区二区日本电影三级| 亚洲无线观看免费| 欧美最黄视频在线播放免费| 99精品在免费线老司机午夜| 成人一区二区视频在线观看| 欧美一级a爱片免费观看看| 免费看av在线观看网站| 99久国产av精品| 一级av片app| 精品99又大又爽又粗少妇毛片| 国产又黄又爽又无遮挡在线| 最近最新中文字幕大全电影3| 久久久a久久爽久久v久久| 亚洲欧美日韩高清在线视频| 国产久久久一区二区三区| 一卡2卡三卡四卡精品乱码亚洲| 在线免费观看不下载黄p国产| 三级毛片av免费| 精品人妻熟女av久视频| 国产精品一区www在线观看| 最近的中文字幕免费完整| 亚洲国产精品成人久久小说 | 成人永久免费在线观看视频| 九草在线视频观看| 欧美激情国产日韩精品一区| 免费无遮挡裸体视频| 网址你懂的国产日韩在线| 一级黄色大片毛片| 成年女人看的毛片在线观看| 亚洲欧美精品专区久久| 精品人妻视频免费看| 婷婷色综合大香蕉| 免费av毛片视频| 亚洲欧洲国产日韩| 国产男人的电影天堂91| 最近视频中文字幕2019在线8| 欧美性猛交╳xxx乱大交人| 我要搜黄色片| 日日摸夜夜添夜夜爱| 国产精品嫩草影院av在线观看| 亚洲av免费高清在线观看| 欧美xxxx黑人xx丫x性爽| 久久国内精品自在自线图片| 精品欧美国产一区二区三| 简卡轻食公司| 久久精品国产99精品国产亚洲性色| 老司机福利观看| 日本三级黄在线观看| 国产在视频线在精品| 亚洲三级黄色毛片| 国产伦在线观看视频一区| 日韩,欧美,国产一区二区三区 | 熟妇人妻久久中文字幕3abv| 国语自产精品视频在线第100页| 欧美日韩一区二区视频在线观看视频在线 | 黑人高潮一二区| 国产一区亚洲一区在线观看| 免费电影在线观看免费观看| 亚洲av免费在线观看| 欧美bdsm另类| 婷婷精品国产亚洲av| 在线天堂最新版资源| av在线蜜桃| 天天躁夜夜躁狠狠久久av| 国产av在哪里看| 村上凉子中文字幕在线| 国内揄拍国产精品人妻在线| www.色视频.com| 欧美精品国产亚洲| a级毛片免费高清观看在线播放| 国产视频首页在线观看| а√天堂www在线а√下载| 午夜福利在线观看吧| 欧美色视频一区免费| 久久精品久久久久久久性| 国产精品永久免费网站| 亚洲欧美日韩高清在线视频| 国产午夜精品论理片| 欧美不卡视频在线免费观看| 在线a可以看的网站| 边亲边吃奶的免费视频| 村上凉子中文字幕在线| 国产精品,欧美在线| 一边亲一边摸免费视频| 欧美一区二区亚洲| 在线观看午夜福利视频| 久久久色成人| 免费看日本二区| 国产成人a区在线观看| 欧美日本视频| 国产精品一区二区在线观看99 | 欧美变态另类bdsm刘玥| 国产乱人偷精品视频| 男女那种视频在线观看| 成人欧美大片| 亚洲av二区三区四区| 精品人妻偷拍中文字幕| 久久亚洲精品不卡| 国产一区二区激情短视频| 日日干狠狠操夜夜爽| 久久九九热精品免费| 晚上一个人看的免费电影| 国产色爽女视频免费观看| 午夜免费男女啪啪视频观看| 亚洲色图av天堂| 人妻夜夜爽99麻豆av| 国产 一区精品| 久久中文看片网| 精品久久国产蜜桃| 六月丁香七月| 简卡轻食公司| 给我免费播放毛片高清在线观看| 国内精品宾馆在线| 久久久久九九精品影院| 久久精品国产亚洲网站| 国产高清三级在线| 国产在线男女| 一级黄色大片毛片| 久久99精品国语久久久| 免费av毛片视频| 偷拍熟女少妇极品色| 国内精品宾馆在线| 成年av动漫网址| 久久久久久久久中文| 亚洲国产高清在线一区二区三| 村上凉子中文字幕在线| 国产高清视频在线观看网站| 国产黄片视频在线免费观看| 日本一二三区视频观看| 中文字幕制服av| 国产欧美日韩精品一区二区| h日本视频在线播放| 欧美日本亚洲视频在线播放| 亚洲精品色激情综合| 精品免费久久久久久久清纯| 好男人在线观看高清免费视频| 免费看av在线观看网站| 国产91av在线免费观看| 人人妻人人看人人澡| 国产成人精品久久久久久| 两个人的视频大全免费| 男人舔女人下体高潮全视频| 黄色视频,在线免费观看| 国产精品女同一区二区软件| 日本欧美国产在线视频| 久久精品夜色国产| 国产日韩欧美在线精品| 国产激情偷乱视频一区二区| 亚洲va在线va天堂va国产| 如何舔出高潮| 日韩,欧美,国产一区二区三区 | 青春草视频在线免费观看| 最近最新中文字幕大全电影3| 内射极品少妇av片p| 三级国产精品欧美在线观看| 国内揄拍国产精品人妻在线| 国产一区二区在线av高清观看| 性色avwww在线观看| 成人二区视频| 免费一级毛片在线播放高清视频| 网址你懂的国产日韩在线| 国产精品福利在线免费观看| 亚洲精品色激情综合| 少妇猛男粗大的猛烈进出视频 | 日韩一区二区三区影片| 久久人妻av系列| 两性午夜刺激爽爽歪歪视频在线观看| 久久久久久九九精品二区国产| 亚洲av.av天堂| 嫩草影院新地址| 亚洲国产精品成人久久小说 | 男女做爰动态图高潮gif福利片| 久久综合国产亚洲精品| 乱系列少妇在线播放| 国产精品永久免费网站| 国产精品不卡视频一区二区| 色哟哟哟哟哟哟| 久久精品国产亚洲av香蕉五月| 日韩成人av中文字幕在线观看| 国产黄色视频一区二区在线观看 | 99久久人妻综合| 国产伦理片在线播放av一区 | 一边亲一边摸免费视频| 欧美xxxx黑人xx丫x性爽| 男人狂女人下面高潮的视频| 国产在视频线在精品| 国产白丝娇喘喷水9色精品| 国产av在哪里看| 亚洲欧洲日产国产| 亚洲欧美清纯卡通| 国内久久婷婷六月综合欲色啪| 国产精品人妻久久久久久| 国内少妇人妻偷人精品xxx网站| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 老熟妇乱子伦视频在线观看| 日韩精品青青久久久久久| 91麻豆精品激情在线观看国产| videossex国产| 韩国av在线不卡| 国产精品野战在线观看| 全区人妻精品视频| 国产高清激情床上av| 国产黄片视频在线免费观看| 99热这里只有是精品在线观看| 99精品在免费线老司机午夜| 欧美最新免费一区二区三区| av国产免费在线观看| 久久综合国产亚洲精品| 在线免费观看不下载黄p国产| 亚洲欧美成人精品一区二区| 悠悠久久av| 97超视频在线观看视频| 精品久久久久久久末码| 成年av动漫网址| 黄色日韩在线| 久久亚洲精品不卡| 色综合站精品国产| 成人漫画全彩无遮挡| 久99久视频精品免费| 国产在视频线在精品| 欧美变态另类bdsm刘玥| 内射极品少妇av片p| 成人毛片60女人毛片免费| 久久热精品热| 国产黄a三级三级三级人| 中文乱码字字幕精品一区二区三区| 成年av动漫网址| 大香蕉久久网| 精品久久久久久久久亚洲| 久久99热这里只频精品6学生| 热re99久久精品国产66热6| 青春草视频在线免费观看| 亚洲第一区二区三区不卡| 国产成人免费观看mmmm| 美女福利国产在线| 九九爱精品视频在线观看| 国产免费现黄频在线看| 日本午夜av视频| 9色porny在线观看| 青春草国产在线视频| 国产精品人妻久久久久久| 亚洲精品视频女| 男女高潮啪啪啪动态图| 女性被躁到高潮视频| tube8黄色片| 99精国产麻豆久久婷婷| 菩萨蛮人人尽说江南好唐韦庄| 热re99久久国产66热| 老熟女久久久| 99精国产麻豆久久婷婷| 五月玫瑰六月丁香| 熟女人妻精品中文字幕| av视频免费观看在线观看| 久久免费观看电影| 男女边吃奶边做爰视频| 久久精品夜色国产| 亚洲精华国产精华液的使用体验| 亚洲精品乱码久久久久久按摩| 国产精品人妻久久久影院| 午夜福利影视在线免费观看| 日本欧美视频一区| 欧美三级亚洲精品| 国产成人免费观看mmmm| 一级毛片我不卡| videos熟女内射| 精品熟女少妇av免费看| 大片电影免费在线观看免费| 五月天丁香电影| 亚洲精品久久成人aⅴ小说 | 日韩av免费高清视频| 精品人妻熟女av久视频| 两个人免费观看高清视频| 母亲3免费完整高清在线观看 | 在线亚洲精品国产二区图片欧美 | 多毛熟女@视频| 午夜激情av网站| 十八禁网站网址无遮挡| 91国产中文字幕| 国产精品女同一区二区软件| 国产 精品1| 国产午夜精品一二区理论片| 午夜av观看不卡| 大片免费播放器 马上看| tube8黄色片| 亚洲精品亚洲一区二区| 视频中文字幕在线观看| 99热这里只有精品一区| 欧美最新免费一区二区三区| 十分钟在线观看高清视频www| 亚洲国产精品成人久久小说| 久久毛片免费看一区二区三区| 最新的欧美精品一区二区| 久久精品久久精品一区二区三区| 午夜精品国产一区二区电影| 免费观看在线日韩| 丰满乱子伦码专区| 蜜桃国产av成人99| 亚洲成色77777| 亚洲综合色网址| 人妻系列 视频| 国产在线免费精品| 亚洲国产av影院在线观看| av不卡在线播放| 日韩一区二区视频免费看| 国产免费一级a男人的天堂| 国产亚洲最大av| 三上悠亚av全集在线观看| 国产免费现黄频在线看| 免费不卡的大黄色大毛片视频在线观看| a级毛片黄视频| 欧美+日韩+精品| 亚洲欧洲国产日韩| 免费日韩欧美在线观看| 少妇的逼水好多| av免费观看日本| videossex国产| 日韩欧美一区视频在线观看| 街头女战士在线观看网站| 毛片一级片免费看久久久久| 美女中出高潮动态图| 18在线观看网站| 欧美精品高潮呻吟av久久| 国产免费现黄频在线看| 日日撸夜夜添| 曰老女人黄片| 99国产精品免费福利视频| 成人国语在线视频| 狂野欧美白嫩少妇大欣赏| 99国产精品免费福利视频| 少妇人妻 视频| 五月天丁香电影| 91精品一卡2卡3卡4卡| 亚洲av成人精品一二三区| 国产片特级美女逼逼视频| 久久av网站| 日日撸夜夜添| 最近的中文字幕免费完整| 亚洲国产日韩一区二区| 极品人妻少妇av视频| 国产精品99久久99久久久不卡 | 久久av网站| 国产极品天堂在线| 久久综合国产亚洲精品| 黑人巨大精品欧美一区二区蜜桃 | 最近中文字幕2019免费版| 在线观看三级黄色| 97精品久久久久久久久久精品| 亚洲国产日韩一区二区| 各种免费的搞黄视频| 超碰97精品在线观看| 国产免费现黄频在线看| 夫妻午夜视频| 熟女人妻精品中文字幕| 亚洲国产毛片av蜜桃av| 欧美日韩在线观看h| 欧美日韩国产mv在线观看视频| 青春草视频在线免费观看| 欧美精品一区二区免费开放| 一本久久精品| 亚洲人成网站在线观看播放| 国产精品一国产av| 亚洲综合精品二区| 一区二区日韩欧美中文字幕 | 大陆偷拍与自拍| 九色成人免费人妻av| 午夜精品国产一区二区电影| 成人毛片60女人毛片免费| 日韩成人av中文字幕在线观看| 国产乱人偷精品视频| 国产黄频视频在线观看| 欧美日韩国产mv在线观看视频| 少妇的逼水好多| 欧美人与性动交α欧美精品济南到 | 大片电影免费在线观看免费| 在线免费观看不下载黄p国产| .国产精品久久| 国国产精品蜜臀av免费| 超碰97精品在线观看| 午夜福利网站1000一区二区三区| 国精品久久久久久国模美| 久久久国产欧美日韩av| 日本av免费视频播放| 亚洲综合精品二区| 国产成人freesex在线| 国产视频首页在线观看| 亚洲国产成人一精品久久久| 一级毛片黄色毛片免费观看视频| 亚洲av电影在线观看一区二区三区| 精品亚洲成国产av| 22中文网久久字幕| 黄色毛片三级朝国网站| 亚洲丝袜综合中文字幕| 九九久久精品国产亚洲av麻豆| 欧美xxxx性猛交bbbb| 国产精品.久久久| 制服人妻中文乱码| 免费黄频网站在线观看国产| 日本色播在线视频| 中文乱码字字幕精品一区二区三区| 久久精品国产亚洲av涩爱| 色婷婷av一区二区三区视频| 久久久久国产精品人妻一区二区| 亚洲经典国产精华液单| 免费大片18禁| 国产高清三级在线| 久久99热这里只频精品6学生| 精品少妇久久久久久888优播| 纯流量卡能插随身wifi吗| 满18在线观看网站| 亚洲国产最新在线播放| 中国美白少妇内射xxxbb| 亚洲精品乱久久久久久| 妹子高潮喷水视频| 亚洲精品aⅴ在线观看| 一区二区三区四区激情视频| 午夜视频国产福利| 色婷婷av一区二区三区视频| 嘟嘟电影网在线观看| 成人毛片60女人毛片免费| 久久毛片免费看一区二区三区| 熟女电影av网| 久久99热这里只频精品6学生| 精品人妻一区二区三区麻豆| 91aial.com中文字幕在线观看| 日韩免费高清中文字幕av| 国产精品不卡视频一区二区| 亚洲av福利一区| 亚洲av不卡在线观看| 国产女主播在线喷水免费视频网站| 啦啦啦中文免费视频观看日本| 精品视频人人做人人爽| 亚洲国产av新网站| 狂野欧美白嫩少妇大欣赏| 99精国产麻豆久久婷婷| 黄片播放在线免费| 中文字幕久久专区| 日韩伦理黄色片| 99热6这里只有精品| 免费看光身美女| 91午夜精品亚洲一区二区三区| 王馨瑶露胸无遮挡在线观看| 久热这里只有精品99| 精品久久久久久电影网| 特大巨黑吊av在线直播| 母亲3免费完整高清在线观看 | 自线自在国产av| 美女中出高潮动态图| 狂野欧美激情性xxxx在线观看| 亚洲经典国产精华液单| 在线天堂最新版资源| 成人午夜精彩视频在线观看| 亚洲综合精品二区| 晚上一个人看的免费电影| 超碰97精品在线观看| 欧美激情国产日韩精品一区| 亚洲激情五月婷婷啪啪| 一区二区三区乱码不卡18| 成人综合一区亚洲| 亚洲精品视频女| av国产久精品久网站免费入址| 日本欧美视频一区| 日韩中字成人| 99热全是精品| 少妇的逼水好多| 久久久久久伊人网av| 欧美丝袜亚洲另类| 成人毛片a级毛片在线播放| 久久久久人妻精品一区果冻| 丰满饥渴人妻一区二区三| 成年人免费黄色播放视频| 只有这里有精品99| 亚洲精品av麻豆狂野| 久久人人爽人人片av| 黄色视频在线播放观看不卡| 久久久久网色| 精品视频人人做人人爽| 欧美日韩视频精品一区| 亚洲欧美日韩卡通动漫| 97精品久久久久久久久久精品| 国产精品国产三级国产专区5o| 欧美 日韩 精品 国产| 精品久久久噜噜| 少妇高潮的动态图| 午夜av观看不卡| 777米奇影视久久| 日韩在线高清观看一区二区三区| 日韩一本色道免费dvd| xxxhd国产人妻xxx| 自线自在国产av| 亚洲精品aⅴ在线观看| 久久人人爽av亚洲精品天堂| 晚上一个人看的免费电影| 麻豆成人av视频| 边亲边吃奶的免费视频| 日韩大片免费观看网站| 91精品伊人久久大香线蕉| 欧美日韩视频高清一区二区三区二| av免费观看日本| 国产亚洲最大av| 九九爱精品视频在线观看| 十八禁网站网址无遮挡| 满18在线观看网站| 免费av中文字幕在线| 国产精品久久久久久精品古装| 99精国产麻豆久久婷婷| 久久久久精品久久久久真实原创| 搡老乐熟女国产| 亚洲精品中文字幕在线视频| 肉色欧美久久久久久久蜜桃| 国产精品免费大片| 久久久精品区二区三区| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 五月天丁香电影| 男人添女人高潮全过程视频| 大又大粗又爽又黄少妇毛片口| 精品卡一卡二卡四卡免费| 老司机亚洲免费影院| h视频一区二区三区| 久久人妻熟女aⅴ| 色哟哟·www| 高清毛片免费看| 亚洲精品久久久久久婷婷小说| 王馨瑶露胸无遮挡在线观看| 国产精品不卡视频一区二区| 97超视频在线观看视频| 嘟嘟电影网在线观看| 午夜福利在线观看免费完整高清在| 国产成人av激情在线播放 | 91成人精品电影| 观看av在线不卡| 国产成人免费无遮挡视频| 在线观看人妻少妇| 国产成人精品福利久久| 69精品国产乱码久久久| 啦啦啦在线观看免费高清www| 午夜老司机福利剧场| 老女人水多毛片| freevideosex欧美| 亚洲国产精品一区三区| av电影中文网址| 午夜视频国产福利| 久久久久久伊人网av| 男人爽女人下面视频在线观看| 秋霞伦理黄片| 久久久亚洲精品成人影院| videossex国产| 午夜视频国产福利| 亚洲精品,欧美精品| xxxhd国产人妻xxx| 亚洲图色成人| 人妻制服诱惑在线中文字幕| 国产极品天堂在线| 一级毛片我不卡| 久久狼人影院| 国产成人精品无人区| 国产一区亚洲一区在线观看| 成人18禁高潮啪啪吃奶动态图 | 激情五月婷婷亚洲| 国产成人aa在线观看| 伦精品一区二区三区| 欧美另类一区| 久久久a久久爽久久v久久| 婷婷色综合大香蕉| 婷婷成人精品国产| 日韩av在线免费看完整版不卡| 老司机影院成人| 欧美xxⅹ黑人| 日韩欧美精品免费久久| 国产日韩欧美在线精品| 91aial.com中文字幕在线观看|