宋明俊,嚴(yán)文,鄧益昭,張俊然,涂海燕
(四川大學(xué) 電氣工程學(xué)院,四川 成都 610065)
機(jī)器人抓取是機(jī)器人與環(huán)境交互的一種重要手段,實(shí)現(xiàn)準(zhǔn)確、快速地抓取是機(jī)器人高質(zhì)量、高效率地完成抓取任務(wù)的前提.在結(jié)構(gòu)化環(huán)境(structured environment)中,待抓取物體的種類(lèi)通常是十分單一的,并且物體的形狀和大小較為規(guī)則.在這種受控環(huán)境中,機(jī)器人可以充分利用待抓取物體的先驗(yàn)知識(shí),來(lái)完成特定的抓取任務(wù).例如,在工業(yè)環(huán)境下的工業(yè)機(jī)器人可以通過(guò)事先學(xué)習(xí)和識(shí)別待抓取物體的特征,針對(duì)特定的物體準(zhǔn)備特定的抓取動(dòng)作,從而有效地完成抓取任務(wù).然而,在非結(jié)構(gòu)化環(huán)境中,待抓取物體的形狀(2D或3D模型)、大小、種類(lèi)、物理屬性等先驗(yàn)知識(shí)往往不能預(yù)先獲取[1-6],并且待抓取物體的位置和姿態(tài)會(huì)發(fā)生變化[1,4,6],實(shí)現(xiàn)機(jī)器人準(zhǔn)確、快速地抓取是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[1,6-7].
近年來(lái),基于深度學(xué)習(xí)的抓取方法憑借無(wú)需人工設(shè)計(jì)抓取特征[2-4,6]、特征提取能力強(qiáng)[1,6-7]、泛化性好[2,4,6-9]等優(yōu)點(diǎn)在機(jī)器人抓取領(lǐng)域獲得巨大成功.Jiang等[5]提出抓取矩形框,將機(jī)器人抓取問(wèn)題轉(zhuǎn)變?yōu)樽ト∥蛔藱z測(cè)問(wèn)題.Lenz等[6]首先將深度學(xué)習(xí)應(yīng)用于抓取檢測(cè)中,利用深度學(xué)習(xí)自動(dòng)提取特征,從而無(wú)須耗時(shí)費(fèi)力地人工設(shè)計(jì)抓取特征.Redmon等[10]直接對(duì)抓取框參數(shù)進(jìn)行單階段回歸,有效減少了以往滑動(dòng)窗口法[5]和兩階段候選[6]導(dǎo)致的檢測(cè)耗時(shí).Kumra等[11]使用深層網(wǎng)絡(luò)ResNet50[12]提取抓取特征,該方法表明使用深層網(wǎng)絡(luò)可提高抓取檢測(cè)準(zhǔn)確率.Guo等[13]將機(jī)器人抓取物體過(guò)程中的力矩?cái)?shù)據(jù)作為機(jī)器人抓取結(jié)果的反饋,使得抓取檢測(cè)網(wǎng)絡(luò)可以學(xué)習(xí)到更豐富的抓取特征.Chu等[14]將非抓取類(lèi)標(biāo)簽作為角度分類(lèi)標(biāo)簽的競(jìng)爭(zhēng)項(xiàng),利用該方法可對(duì)多個(gè)物體同時(shí)生成抓取檢測(cè)結(jié)果.Zhou等[15]提出旋轉(zhuǎn)錨框機(jī)制,該方法改進(jìn)Guo等[13]的定向錨框,增強(qiáng)了對(duì)抓取角度的約束.夏晶等[8]提出Angle-Net對(duì)抓取角度進(jìn)行精細(xì)估計(jì),提高了抓取角度的檢測(cè)精度.喻群超等[9]提出3級(jí)級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)逐級(jí)評(píng)估抓取檢測(cè)框,提高了抓取框的檢測(cè)準(zhǔn)確度.Morrison等[16]提出輕量化的GG-CNN,該方法對(duì)輸入深度圖像中每個(gè)像素點(diǎn)位置處的抓取參數(shù)進(jìn)行預(yù)測(cè),使得網(wǎng)絡(luò)能夠生成像素級(jí)的抓取檢測(cè)結(jié)果.張?jiān)浦薜萚7]將多層級(jí)特征應(yīng)用于抓取檢測(cè),該方法對(duì)尺度變化的物體表現(xiàn)出較好的檢測(cè)效果.Kumra等[17]將殘差模塊[12]引入到GG-CNN中,提高了網(wǎng)絡(luò)對(duì)抓取特征的提取能力.Cheng等[18]使用高斯函數(shù)對(duì)角度分類(lèi)標(biāo)簽進(jìn)行平滑編碼,緩解了one-hot編碼角度方式存在的抓取角度分類(lèi)損失的一致性問(wèn)題.Wang等[19]在Morrison等[16]基礎(chǔ)上使用transformer結(jié)構(gòu)取代卷積神經(jīng)網(wǎng)絡(luò)作為特征提取主干網(wǎng)絡(luò),利用transformer的自注意力機(jī)制對(duì)輸入圖像中的全局抓取信息進(jìn)行建模,實(shí)現(xiàn)了更好的抓取檢測(cè)效果.
上述抓取檢測(cè)算法[5-11,13-19]均未能較好地兼顧檢測(cè)準(zhǔn)確率和檢測(cè)速度2方面的性能.有些研究[15,18-19]在檢測(cè)準(zhǔn)確率上取得了比較可觀的結(jié)果,但檢測(cè)速度較慢,難以滿(mǎn)足機(jī)器人實(shí)時(shí)抓取檢測(cè)的需求;有些研究[7,16-17]在抓取速度上取得了不錯(cuò)的結(jié)果,但檢測(cè)準(zhǔn)確率不高,難以實(shí)現(xiàn)機(jī)器人對(duì)物體準(zhǔn)確的抓取檢測(cè).實(shí)現(xiàn)機(jī)器人準(zhǔn)確、快速的抓取需要抓取檢測(cè)算法兼顧檢測(cè)準(zhǔn)確率和檢測(cè)速度2方面的性能.
針對(duì)上述問(wèn)題,本研究提出輕量化的實(shí)時(shí)抓取檢測(cè)算法RTGN(real-time grasp net).為了解決深層網(wǎng)絡(luò)[8,11,14-15]帶來(lái)的檢測(cè)耗時(shí)長(zhǎng)的問(wèn)題,提出多尺度空洞卷積模塊以構(gòu)建輕量化的特征提取主干網(wǎng)絡(luò).設(shè)計(jì)混合注意力模塊,使網(wǎng)絡(luò)能夠直接關(guān)注于通道維度和空間維度上的重要抓取特征.引入金字塔池化模塊[20]對(duì)多層級(jí)特征中不同區(qū)域大小的局部特征進(jìn)行融合,增強(qiáng)網(wǎng)絡(luò)對(duì)抓取物體的上下文感知能力.綜上所述,RTGN能夠準(zhǔn)確、快速地實(shí)現(xiàn)對(duì)物體的抓取檢測(cè),實(shí)現(xiàn)了檢測(cè)準(zhǔn)確率和檢測(cè)速度2方面性能的進(jìn)一步提升.
在給定機(jī)器人抓取目標(biāo)場(chǎng)景的RGB圖像和深度圖像的情況下,須對(duì)水平工作臺(tái)上形狀、大小、種類(lèi)等變化不一的未知物體進(jìn)行抓取檢測(cè).其中,機(jī)器人二指抓取檢測(cè)問(wèn)題可以描述為由五維抓取參數(shù) {u,v,w,h,θ} 構(gòu)成的旋轉(zhuǎn)矩形框[6],如圖1所示.圖中,(u,v) 為矩形框中心在圖像像素坐標(biāo)系下的坐標(biāo),w、h分別為矩形框的寬和高,θ 為矩形框相對(duì)于像素坐標(biāo)系下x軸正方向的旋轉(zhuǎn)角度.
圖1 五維抓取表示[6]示意圖Fig.1 Schematic diagram of five-dimensional grasp representation[6]
對(duì)于確定的末端夾持工具,五維抓取參數(shù)可簡(jiǎn)化為四維抓取參數(shù) {u,v,w,θ},Morrison等[16]以熱力圖形式將此四維抓取參數(shù)圖形化,如圖2所示.圖中,Q為表示抓取中心 (u,v) 的熱力圖,圖像中每一像素點(diǎn)的值表示該點(diǎn)為抓取中心的概率P;W為表示抓取寬度w的熱力圖,圖像中每一像素點(diǎn)的值表示該點(diǎn)對(duì)應(yīng)的抓取寬度;Φ 為表示抓取角度 θ 的熱力圖,圖像中每一像素點(diǎn)的值表示該點(diǎn)對(duì)應(yīng)的抓取角度,其取值范圍為[-π/2,π/2];Φcos、Φsin分別為抓取角度熱力圖Φ的余弦、正弦編碼,Φcos=cos(2Φ)、Φsin=sin(2Φ).通過(guò)這種方式,四維抓取參數(shù) {u,v,w,θ} 轉(zhuǎn)換為G={Q,W,Φcos,Φsin}的 熱力圖抓取表示.Q,W,Φ,Φcos,Φsin∈RH×W,H、W分別為輸入圖像的高、寬.
圖2 四維抓取參數(shù)熱力圖表示[16]Fig.2 Four-dimensional grasp representation using heatmaps[16]
輸入圖像 (r,c) 位置處的抓取四維參數(shù),可由如下公式給出:
式中:W(r,c)、Φ(r,c)、Φcos(r,c)、Φsin(r,c) 為抓取寬度熱力圖W、抓取角度熱力圖Φ、抓取角度余弦編碼熱力圖 Φcos、抓取角度正弦編碼熱力圖 Φsin在 (r,c) 位置處的值,分別表示該點(diǎn)的抓取寬度、抓取角度、抓取角度余弦編碼值、抓取角度正弦編碼值,r,c∈N 且有r≤W-1,c≤H-1.
通常,將抓取中心熱力圖Q中具有最大抓取概率值對(duì)應(yīng)的像素點(diǎn)選取為抓取中心 (u,v),以輸出最優(yōu)抓取檢測(cè)結(jié)果:
式中:Q(r,c) 為抓取 中心熱力圖Q在 (r,c) 位置處的值,表示該點(diǎn)為抓取中心的概率.
綜上,機(jī)器人抓取檢測(cè)問(wèn)題變?yōu)槿缦潞瘮?shù) Γ的求解問(wèn)題:
式中:I∈RC×H×W為輸入的視覺(jué)圖像,C為輸入圖像的通道數(shù).本研究提出RTGN抓取檢測(cè)算法通過(guò)監(jiān)督學(xué)習(xí)的方式來(lái)近似 Γ.
本研究提出以抓取場(chǎng)景的RGB-D視覺(jué)數(shù)據(jù)為輸入的實(shí)時(shí)抓取檢測(cè)算法RTGN,算法整體結(jié)構(gòu)如圖3所示.RTGN主要包括4部分:多尺度空洞卷積模塊(multi-scale dilated convolution module,MDM)、混合注意力模塊(mixed attention module,MAM)、金字塔池化模塊[20](pyramid pool module,PPM)以及預(yù)測(cè)輸出頭(predict head).
圖3 RTGN抓取檢測(cè)算法整體結(jié)構(gòu)Fig.3 Overview architecture of RTGN grasp detection algorithm
如圖3所示,RTGN可看作由編碼器(encoder)和解碼器(decoder)2部分組成.編碼器主要由多尺度空洞卷積模塊MDM、混合注意力模塊MAM及金字塔池化模塊PPM組成,負(fù)責(zé)從輸入的RGB-D圖像中提取抓取特征;解碼器由預(yù)測(cè)輸出頭構(gòu)成,負(fù)責(zé)將編碼器提取的抓取特征解碼為熱力圖抓取表示.接下來(lái)對(duì)各個(gè)模塊作詳細(xì)介紹.
為了使網(wǎng)絡(luò)能夠從輸入圖像中提取更復(fù)雜、抽象的抓取特征,提高網(wǎng)絡(luò)的擬合能力,有些研究[8,11,14-15]使用深層網(wǎng)絡(luò)作為特征提取主干網(wǎng)絡(luò).雖然檢測(cè)準(zhǔn)確率有所提高,但深層網(wǎng)絡(luò)的使用卻使得檢測(cè)耗時(shí)嚴(yán)重,難以滿(mǎn)足實(shí)時(shí)性的要求.受Wang等[21]啟發(fā),本研究提出多尺度空洞卷積模塊,用于構(gòu)建輕量化的特征提取主干網(wǎng)絡(luò),以提升抓取檢測(cè)速度.
多尺度空洞卷積模塊的結(jié)構(gòu)如圖4所示,其主體部分由3個(gè)不同空洞率(dilation rate)的空洞卷積核串聯(lián)而成.圖中,空洞卷積的核心是向普通卷積核中進(jìn)行“插空”,從而可以在不增加參數(shù)量和計(jì)算量的情況下,擴(kuò)大卷積核的感受野[21].
圖4 多尺度空洞卷積模塊結(jié)構(gòu)圖Fig.4 Structure of multi-scale dilated convolution module
如圖5所示,以3×3大小的卷積核為例,當(dāng)空洞率為1時(shí),空洞卷積核和普通卷積核并無(wú)區(qū)別,它們感受野大小相同;當(dāng)空洞率大于1時(shí),空洞卷積核的感受野比普通卷積核更大.本研究通過(guò)將3個(gè)不同空洞率的空洞卷積進(jìn)行串聯(lián),使得卷積核能夠逐漸感知更大區(qū)域的輸入特征信息,從而更好地捕捉全局抓取特征,實(shí)現(xiàn)高效的抓取特征提取.
圖5 不同空洞率下3×3大小的空洞卷積核Fig.5 3×3 dilated convolution kernels at different dilation rates
多尺度空洞卷積模塊中3個(gè)空洞卷積核的空洞率分別為1、2、5,大小為5×5,滑動(dòng)步長(zhǎng)為1.此外,采用殘差連接結(jié)構(gòu)[12],將輸入特征經(jīng)過(guò)1×1卷積變換維度后與輸出特征進(jìn)行連接,以提高網(wǎng)絡(luò)訓(xùn)練過(guò)程中梯度傳播的穩(wěn)定性.同時(shí),為了避免網(wǎng)絡(luò)在訓(xùn)練過(guò)程中發(fā)生過(guò)擬合,將Dropout[22]引入模塊中,以減少抓取特征之間的相互依賴(lài)性,從而提高網(wǎng)絡(luò)的泛化能力.
在抓取檢測(cè)任務(wù)中,網(wǎng)絡(luò)提取到的抓取特征并非都對(duì)最終的檢測(cè)結(jié)果起關(guān)鍵作用.為了解決這個(gè)問(wèn)題,將注意力機(jī)制引入檢測(cè)算法中,使網(wǎng)絡(luò)能夠有選擇性地關(guān)注重要的抓取特征并忽略其他無(wú)關(guān)的特征.注意力機(jī)制是網(wǎng)絡(luò)中額外的特殊結(jié)構(gòu),它通過(guò)對(duì)輸入特征進(jìn)行加權(quán)處理,從而實(shí)現(xiàn)對(duì)重要特征的關(guān)注.
Woo等[23]提出CBAM注意力模塊,將通道注意力與空間注意力進(jìn)行結(jié)合,使得網(wǎng)絡(luò)能夠同時(shí)考慮通道和空間維度上的特征重要性[23].然而,CBAM[23]中的空間注意力機(jī)制通過(guò)卷積操作來(lái)感知空間維度上的特征,這使得CBAM[23]對(duì)空間維度上長(zhǎng)距離特征的感知能力受限于卷積核的大小.
針對(duì)此問(wèn)題,將坐標(biāo)注意力[24]引入CBAM[23]中,將坐標(biāo)注意力與CBAM中的通道注意力進(jìn)行聚合,形成混合注意力模塊.通道注意力可以使網(wǎng)絡(luò)關(guān)注于通道維度上的重要特征,坐標(biāo)注意力可以使網(wǎng)絡(luò)關(guān)注于空間維度上的重要特征.與CBAM中的空間注意力不同的是,坐標(biāo)注意力將空間特征分解為水平和垂直2個(gè)不同空間方向上的位置編碼,再由位置編碼組成空間注意力特征圖.通過(guò)空間位置分解,坐標(biāo)注意力可以提供準(zhǔn)確的空間位置編碼,使得網(wǎng)絡(luò)可以在空間維度上感知更長(zhǎng)距離的抓取特征.
將兩者聚合后,混合注意力模塊可使網(wǎng)絡(luò)同時(shí)關(guān)注于不同通道和空間位置上的重要抓取特征,從而進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)重要抓取特征的表達(dá)能力.
2.2.1 通道注意力模塊 通道注意力模塊[23](channel attention module,CAM)通過(guò)學(xué)習(xí)輸入特征在每個(gè)通道的注意力權(quán)重,來(lái)自適應(yīng)地調(diào)整不同通道特征的重要程度,其結(jié)構(gòu)如圖6所示.首先,輸入特征在通道方向上經(jīng)過(guò)全局最大池化和全局平均池化操作,得到位置敏感和范圍敏感的2列通道注意力權(quán)值.然后,這2列通道注意力權(quán)值分別通過(guò)一個(gè)共享權(quán)重參數(shù)的多層感知機(jī)(multi-layer perceptron,MLP)進(jìn)行重組,以重新分配各通道的權(quán)重.最后,這2列通道注意力權(quán)值按元素相加并經(jīng)過(guò)sigmoid函數(shù)進(jìn)行激活,得到輸入特征在每個(gè)通道上的注意力權(quán)值.
2.2.2 坐標(biāo)注意力模塊 坐標(biāo)注意力機(jī)制[24](coordinate attention module,CA)通過(guò)學(xué)習(xí)輸入特征在2個(gè)不同空間方向上的注意力權(quán)重,來(lái)自適應(yīng)地調(diào)整不同空間位置的重要程度,其結(jié)構(gòu)如圖7所示.首先,輸入特征經(jīng)過(guò)2個(gè)不同空間方向的池化操作,形成對(duì)空間方向敏感的權(quán)值張量.然后,將這2個(gè)權(quán)值張量拼接,并通過(guò)一個(gè)多層感知機(jī)進(jìn)行權(quán)值重組.最后,將重組后的權(quán)值張量進(jìn)行拆分并經(jīng)過(guò)sigmoid函數(shù)進(jìn)行激活,得到輸入特征在2個(gè)不同空間方向上的注意力權(quán)值.
圖7 坐標(biāo)注意力模塊結(jié)構(gòu)圖Fig.7 Structure of coordinate attention module
2.2.3 特征聚合模塊 為了充分利用通道維度與空間維度中的特征信息,使檢測(cè)算法能夠直接關(guān)注于通道維度和空間維度上的重要抓取特征,將CAM模塊[23]與CA模塊[24]的輸出特征進(jìn)行融合,形成混合注意力模塊.此外,為了使混合注意力模塊能夠逐漸學(xué)習(xí)到重要的抓取特征,引入自適應(yīng)權(quán)值將模塊輸入特征與輸出增強(qiáng)特征進(jìn)行融合.整個(gè)混合注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,模塊的輸出特征TM表達(dá)式如下:
圖8 混合注意力模塊結(jié)構(gòu)圖Fig.8 Structure of mixed attention module
式中:TI、TM為混合注意力模塊的輸入、輸出特征;CA(·)、C AM(·) 為CA模塊、CAM模塊的計(jì)算輸出;· 表示矩陣按元素相乘;α 為自適應(yīng)權(quán)值,權(quán)值 α 初值為1.0,并在訓(xùn)練過(guò)程中自適應(yīng)調(diào)整權(quán)重.
淺層特征含有豐富的細(xì)節(jié)信息,有利于小尺度物體的抓取檢測(cè);深層特征含有豐富的語(yǔ)義信息,適合大尺度物體的抓取檢測(cè)[7].為了提高算法對(duì)尺度大小變化的物體的檢測(cè)準(zhǔn)確率,將主干網(wǎng)絡(luò)提取到的3個(gè)不同層級(jí)位置的特征在通道維度進(jìn)行拼接形成多層級(jí)特征(見(jiàn)圖3),將多層級(jí)特征用于抓取檢測(cè).此外,為了實(shí)現(xiàn)更加準(zhǔn)確的抓取感知,同時(shí)又避免增加過(guò)多的復(fù)雜計(jì)算,在檢測(cè)算法中引入輕量化的金字塔池化模塊[20]來(lái)融合多層級(jí)特征的上下文抓取特征,以進(jìn)一步提升算法的性能.
金字塔池化模塊結(jié)構(gòu)如圖9所示.首先,將多層級(jí)特征作為模塊的輸入特征,經(jīng)過(guò)全局自適應(yīng)平均池化(global adaptive average pooling,GAP)操作,得到4個(gè)不同尺度大小的池化子區(qū)域特征.然后,使用1×1卷積對(duì)這些池化子區(qū)域特征進(jìn)行降維處理,再對(duì)降維后的特征進(jìn)行上采樣操作,使其尺寸與輸入特征相同.最后,將得到的池化子區(qū)域特征與輸入特征在通道維度進(jìn)行拼接,并再次使用1×1卷積對(duì)拼接特征進(jìn)行降維,得到最終的融合特征.多尺度池化子區(qū)域的尺寸分別為3×3、7×7、15×15、31×31,這些池化子區(qū)域特征聚合了輸入特征中不同區(qū)域的局部特征.通過(guò)融合這些多尺度池化子區(qū)域特征,可以將更廣泛的上下文抓取特征用于抓取檢測(cè),從而盡可能避免抓取檢測(cè)算法陷入到局部最優(yōu)的檢測(cè)結(jié)果.
圖9 金字塔池化模塊結(jié)構(gòu)圖Fig.9 Structure of pyramid pool module
預(yù)測(cè)輸出頭結(jié)構(gòu)如圖10所示.預(yù)測(cè)輸出頭采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)卷積和上采樣操作,將主干網(wǎng)絡(luò)提取的抓取特征以單階段回歸的方式解碼為與原始輸入圖像尺寸相同的抓取中心Q、抓取角 度余弦編碼Φcos、抓取角 度正弦編碼Φsin、抓取寬度W這4個(gè)抓取參數(shù)的熱力圖.通過(guò)這種方式,在對(duì)原始輸入圖像進(jìn)行像素級(jí)抓取檢測(cè)的同時(shí),也在一定程度上解決了直接使用全連接層對(duì)特征圖進(jìn)行解碼所存在的參數(shù)量過(guò)大的問(wèn)題.
圖10 預(yù)測(cè)輸出頭結(jié)構(gòu)圖Fig.10 Structure of predict head
使用Huber loss函數(shù)L作為RTGN預(yù)測(cè)輸出Q、W、Φcos、Φsin的回歸損失函數(shù),總的回歸損失Lobj為4部分損失各自的均值之和.
式中:G={Q,W,Φcos,Φsin} ;gp、gt分別表示預(yù)測(cè)抓取和抓取標(biāo)簽對(duì)應(yīng)的熱力圖,gp,gt∈RH×W;gp(r,c)、gt(r,c) 分別表 示熱力 圖gp、gt在(r,c)位置處的預(yù)測(cè)值、真值;mean(·) 表示對(duì)括號(hào)內(nèi)數(shù)據(jù)求均值;δ 為Huber loss函數(shù)中用來(lái)控制對(duì)異常值敏感程度的超參數(shù),在本研究中設(shè)置 δ=1.0.
RTGN的搭建和訓(xùn)練在Pytorch(1.13.0)深度學(xué)習(xí)框架下完成,編程語(yǔ)言為Python(3.9.15).實(shí)驗(yàn)所用計(jì)算機(jī)操作系統(tǒng)為Ubuntu 20.04,GPU為NVIDIA GeForce RTX 2080,處理器為Intel? CoreTMi9-9900K CPU @ 3.60GHz×16,運(yùn)行內(nèi)存為48 GB.訓(xùn)練時(shí)使用Adam參數(shù)優(yōu)化算法,權(quán)值衰減(weight decay)為 1.0×10-8,批量大小(batchsize)設(shè)置為8,epoch設(shè)置為250,每個(gè)epoch迭代訓(xùn)練200次,初始學(xué)習(xí)率設(shè)置為 1.8×10-4,訓(xùn)練時(shí)學(xué)習(xí)率每9個(gè)epoch衰減0.99.
在Cornell抓取數(shù)據(jù)集[6]上對(duì)RTGN進(jìn)行訓(xùn)練和評(píng)估.Cornell數(shù)據(jù)集包含240種真實(shí)物體在不同位置和姿態(tài)下的885張RGB圖像和深度圖像,每張圖像大小為640×480,該數(shù)據(jù)集在機(jī)器人二指平面抓取檢測(cè)研究中被廣泛使用[6-11,13-19].
由于RGB圖像和深度圖像的像素值數(shù)值范圍不一致,統(tǒng)一將其線(xiàn)性歸一化到[0,1.0],并以0填充深度圖像中的缺省值.同時(shí),對(duì)訓(xùn)練集圖像進(jìn)行數(shù)據(jù)增強(qiáng)來(lái)避免網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合.首先,將圖像按標(biāo)注抓取框中心進(jìn)行最大尺寸為360×360的隨機(jī)裁剪;然后,將圖像縮放到256×256,并按圖像中心在0~360°隨機(jī)旋轉(zhuǎn);最后,將旋轉(zhuǎn)后的圖像再次縮放到256×256,并在水平、垂直方向上進(jìn)行隨機(jī)鏡像翻轉(zhuǎn).測(cè)試集圖像的增強(qiáng)在訓(xùn)練集圖像增強(qiáng)方式的基礎(chǔ)上將隨機(jī)裁剪變?yōu)楣潭?60×360裁剪,并將旋轉(zhuǎn)角度間隔調(diào)整為90°,每張測(cè)試圖像經(jīng)過(guò)增強(qiáng)后得到8張不同的圖像.
使用矩形度量評(píng)估方式[5-11,13-19]來(lái)評(píng)估RTGN的抓取檢測(cè)結(jié)果,其定義如下:若預(yù)測(cè)抓取框Gp和標(biāo)注抓取框Gt同時(shí)滿(mǎn)足以下2個(gè)條件,則認(rèn)為預(yù)測(cè)抓取框Gp為較好的抓取檢測(cè)結(jié)果.
1)預(yù)測(cè)抓取框Gp的抓取角度與標(biāo)注抓取框Gt的抓取角度之間的角度差小于30°;
2)預(yù)測(cè)抓取框Gp與標(biāo)注 抓取框Gt的Jaccard系數(shù)大于0.25,其中Jaccard系數(shù)表達(dá)式如下:
3.4.1 Cornell抓取數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 與之前的研究[6-11,13-19]相同,采用五折交叉驗(yàn)證方法對(duì)RTGN進(jìn)行評(píng)估,訓(xùn)練集與測(cè)試集的劃分比例為4∶1,評(píng)估結(jié)果為5次測(cè)試結(jié)果的平均值.同時(shí),按照?qǐng)D像拆分(image-wise split)和對(duì)象拆分(object-wise split)2種方式對(duì)數(shù)據(jù)集進(jìn)行劃分.圖像拆分方式可以較好地評(píng)估模型對(duì)已知物體位置和姿態(tài)變化的適應(yīng)性,對(duì)象拆分方式可以較好地評(píng)估模型對(duì)未知物體的泛化性[6-11,13-19].
RTGN為像素級(jí)的抓取檢測(cè)算法,因此會(huì)為輸入視覺(jué)圖像的每一像素點(diǎn)生成預(yù)測(cè)抓取框,在測(cè)試時(shí)只選取抓取中心概率最大的預(yù)測(cè)抓取框用來(lái)評(píng)估(見(jiàn)式(2)).在Cornell抓取數(shù)據(jù)集上,將RTGN與現(xiàn)有的一些代表性抓取檢測(cè)算法[5-11,13-19]進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示,其中最優(yōu)結(jié)果加粗顯示.表中,A為準(zhǔn)確率,v為檢測(cè)速度.
表1 Cornell抓取數(shù)據(jù)集上不同算法對(duì)比結(jié)果Tab.1 Comparison results of different algorithms on Cornell grasping dataset
如表1所示,RTGN在圖像拆分和對(duì)象拆分上分別取得了98.26%和97.65%的最高檢測(cè)準(zhǔn)確率,并且RTGN的平均檢測(cè)速度(7 ms)也超過(guò)了表1中其他的14種算法[5-11,13-19],表明RTGN兼顧了檢測(cè)準(zhǔn)確率和檢測(cè)速度2方面性能的提升.在圖像拆分和對(duì)象拆分上的評(píng)估結(jié)果表明,RTGN不僅能夠較好地適應(yīng)抓取物體的位置和姿態(tài)變化,還對(duì)未參與訓(xùn)練的未知物體具有較強(qiáng)的泛化能力.與此同時(shí),RTGN對(duì)每張圖像的平均抓取檢測(cè)耗時(shí)僅為7 ms,完全滿(mǎn)足抓取檢測(cè)的實(shí)時(shí)性要求.
在對(duì)象拆分方式下,將RTGN在Cornell數(shù)據(jù)集上的部分測(cè)試結(jié)果進(jìn)行可視化,如圖11所示.圖中,從左到右的每列圖像分別為抓取中心Q、抓取角度 Φ、抓取寬度W及抓取檢測(cè)結(jié)果,紅綠色為真值抓取框,品紅-青色為預(yù)測(cè)抓取框.如圖11所示,RTGN能夠?qū)π螤?、大小、種類(lèi)等變化不一的未知物體生成可靠的預(yù)測(cè)熱力圖,從而生成準(zhǔn)確的抓取檢測(cè)結(jié)果.
圖11 RTGN在Cornell數(shù)據(jù)集上的抓取檢測(cè)可視化結(jié)果Fig.11 Visualization results of grasping detection on Cornell grasping dataset predicted by RTGN
值得注意的是,由于數(shù)據(jù)集的不完全標(biāo)注,在測(cè)試時(shí)RTGN的部分預(yù)測(cè)抓取矩形框并不滿(mǎn)足矩形度量評(píng)估條件,但這些預(yù)測(cè)結(jié)果仍然可行[18],如圖12所示.參照Cheng等[18],本研究將這類(lèi)誤檢結(jié)果也計(jì)入正例.
圖12 Cornell數(shù)據(jù)集的不完全標(biāo)注Fig.12 Incomplete labelled ground truth of Cornell grasping dataset
3.4.2 消融實(shí)驗(yàn) 為了直觀理解各模塊對(duì)RTGN抓取檢測(cè)性能的影響,對(duì)MAM模塊和PPM模塊進(jìn)行消融實(shí)驗(yàn).同時(shí),為了評(píng)估本研究設(shè)計(jì)的MAM模塊對(duì)檢測(cè)性能的影響,用已有的CBAM[23]模塊對(duì)MAM模塊進(jìn)行替換,并進(jìn)行檢測(cè)性能對(duì)比.實(shí)驗(yàn)環(huán)境和訓(xùn)練細(xì)節(jié)與上文一致,實(shí)驗(yàn)結(jié)果如表2所示.其中基線(xiàn)算法(MDM-Backbone)為在RTGN(見(jiàn)圖3)基礎(chǔ)上去掉MAM模塊,并以1×1卷積代替PPM模塊,基線(xiàn)算法可用于評(píng)估本研究所設(shè)計(jì)的輕量化特征提取主干網(wǎng)絡(luò)的檢測(cè)性能.實(shí)驗(yàn)結(jié)果表明,本研究所設(shè)計(jì)的輕量化特征提取主干網(wǎng)絡(luò)在檢測(cè)速度上優(yōu)勢(shì)明顯(5.29 ms),并且MAM模塊和PPM模塊能夠有效地進(jìn)一步提升算法的抓取檢測(cè)準(zhǔn)確率.其次,相比于CBAM[23]模塊,無(wú)論是將MAM模塊單獨(dú)引入到網(wǎng)絡(luò)中或是與PPM模塊結(jié)合,都能夠更有效地提升檢測(cè)準(zhǔn)確率.將MAM模塊和PPM模塊結(jié)合后,算法在圖像拆分和對(duì)象拆分上的檢測(cè)準(zhǔn)確率有明顯提高,同時(shí)對(duì)算法的檢測(cè)速度影響較小,從而使得算法的整體性能得到進(jìn)一步提升.
表2 Cornell數(shù)據(jù)集上模塊消融實(shí)驗(yàn)對(duì)比結(jié)果Tab.2 Ablation experiments on Cornell grasping dataset
3.4.3 模型參數(shù)大小對(duì)比實(shí)驗(yàn) 本研究采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出參數(shù)規(guī)模較小的輕量化實(shí)時(shí)抓取檢測(cè)算法RTGN.如表3所示為RTGN的模型性能和參數(shù)大小與已有方法[7-8,11,14-16]的對(duì)比.表中,P為模型的參數(shù)量,F(xiàn)為模型的浮點(diǎn)運(yùn)算次數(shù).
表3 不同方法的模型性能和參數(shù)大小對(duì)比結(jié)果Tab.3 Comparison results of network performance and size for different methods
現(xiàn)有方法難以同時(shí)滿(mǎn)足檢測(cè)準(zhǔn)確率和檢測(cè)速度的要求,Morrison等[16]具有較少的參數(shù)但準(zhǔn)確率較低,有些研究[8,11,14-15]的準(zhǔn)確率尚可但檢測(cè)速度較低且參數(shù)量較大.本研究提出的RTGN在參數(shù)規(guī)模為1.66 M的情況下,實(shí)現(xiàn)了檢測(cè)準(zhǔn)確率和檢測(cè)速度2方面性能的提升,使得模型具有輕量化的特性.
與使用知識(shí)蒸餾[25]來(lái)使模型輕量化的方法不同的是,RTGN的輕量化是通過(guò)設(shè)計(jì)更為簡(jiǎn)單、輕量的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)的.這使得RTGN不依賴(lài)于教師模型,從而可以避免額外的訓(xùn)練過(guò)程以及教師模型性能對(duì)學(xué)生模型性能的影響,使得RTGN能夠獨(dú)立地達(dá)到理想的性能.
3.4.4 單個(gè)未知物體抓取檢測(cè)實(shí)驗(yàn) 為了評(píng)估RTGN對(duì)真實(shí)環(huán)境下的未知物體的抓取檢測(cè)泛化性,從日常生活中選取69個(gè)形狀、大小、種類(lèi)等變化不一的物體進(jìn)行抓取檢測(cè)實(shí)驗(yàn),使用的相機(jī)為Intel RealSense L515 RGB-D相機(jī).須注意的是,所選取的物體都未參與到RTGN的訓(xùn)練過(guò)程,即實(shí)驗(yàn)中使用的物體對(duì)RTGN來(lái)說(shuō)都是未知物體,這可以較好地評(píng)估RTGN的泛化能力.并且,與RTGN訓(xùn)練時(shí)所用的Cornell抓取數(shù)據(jù)集的白色背景不同,實(shí)際抓取場(chǎng)景下的光影變化、背景變化干擾更加明顯,這要求抓取檢測(cè)算法具有較好的魯棒性.在實(shí)驗(yàn)時(shí)每個(gè)物體按照不同的位置和姿態(tài)進(jìn)行擺放,然后由RTGN生成抓取檢測(cè)結(jié)果(https://www.bilibili.com/video/BV1Gm4y1h72F/?spm_id_from=333.999.0.0).
為了綜合評(píng)估RTGN在真實(shí)環(huán)境中對(duì)形狀、大小、種類(lèi)等變化不一的未知物體的檢測(cè)效果,將RTGN與TF-Grasp[19]的抓取檢測(cè)效果進(jìn)行對(duì)比,如圖13所示.結(jié)果表明,當(dāng)未知物體存在大尺度變化、光影干擾、透明物體等情況時(shí),RTGN也能生成準(zhǔn)確的抓取檢測(cè)框.相比于TF-Grasp[19],RTGN對(duì)真實(shí)環(huán)境下形狀、大小、種類(lèi)等變化不一的未知物體的抓取檢測(cè)具有更好的泛化性和魯棒性.
圖13 RTGN和TF-Grasp[19]對(duì)單個(gè)未知物體的抓取檢測(cè)對(duì)比結(jié)果Fig.13 Comparison results of RTGN and TF-Grasp[19] on grasping detection for single novel object
3.4.5 多個(gè)未知物體抓取檢測(cè)實(shí)驗(yàn) 在單個(gè)未知物體的抓取檢測(cè)實(shí)驗(yàn)基礎(chǔ)上,對(duì)多個(gè)未知物體進(jìn)行抓取檢測(cè)實(shí)驗(yàn).如圖14所示為RTGN對(duì)多個(gè)未知物體的抓取檢測(cè)的可視化結(jié)果.圖中,從上到下的每行圖像分別為抓取中心Q、抓取角度 Φ、抓取寬度W及抓取檢測(cè)結(jié)果.
圖14 RTGN對(duì)多個(gè)未知物體的抓取檢測(cè)可視化結(jié)果Fig.14 Visualization results of grasping detection for multiple novel objects predicted by RTGN
如圖14所示,盡管RTGN在訓(xùn)練時(shí)僅使用了單個(gè)物體,但在多個(gè)未知物體的抓取檢測(cè)任務(wù)中,RTGN仍能生成準(zhǔn)確的預(yù)測(cè)熱力圖,從而得出可靠的抓取檢測(cè)結(jié)果.該實(shí)驗(yàn)表明RTGN能夠較好地適應(yīng)多個(gè)未知物體的抓取檢測(cè).
為了進(jìn)一步評(píng)估RTGN抓取真實(shí)環(huán)境中的未知物體的應(yīng)用效果,搭建了如圖15所示的機(jī)器人抓取平臺(tái).所使用的機(jī)器人為大象6自由度機(jī)械臂Pro600,圖中數(shù)字1~6代表其6個(gè)關(guān)節(jié);相機(jī)為Intel RealSense L515 RGB-D相機(jī),相機(jī)與機(jī)器人之間以eye-to-hand方式固定安裝;末端夾持工具為平行二指電動(dòng)夾爪.
圖15 機(jī)器人抓取實(shí)驗(yàn)平臺(tái)Fig.15 Physical platform of robotic grasping experiment
機(jī)器人抓取實(shí)驗(yàn)所用物體為抓取檢測(cè)實(shí)驗(yàn)中選取的20個(gè)代表物體,如圖16所示.這些物體的形狀、大小、種類(lèi)各不相同,并且都未參與到RTGN的訓(xùn)練過(guò)程,即抓取物體均為未知物體.
圖16 機(jī)器人抓取實(shí)驗(yàn)所用物體Fig.16 Objects used in robotic grasping experiment
在機(jī)器人抓取實(shí)驗(yàn)中,采用頂抓策略控制機(jī)械臂執(zhí)行抓取動(dòng)作.首先,初始化機(jī)械臂位姿以及夾爪張開(kāi)寬度,并將RTGN在圖像像素坐標(biāo)系下的抓取檢測(cè)結(jié)果轉(zhuǎn)換到機(jī)器人基座坐標(biāo)系,得到抓取點(diǎn)位置和抓取角度;然后,控制機(jī)械臂末端到達(dá)抓取點(diǎn)的正上方,并旋轉(zhuǎn)末端執(zhí)行器至對(duì)應(yīng)的抓取角度;最后,控制機(jī)械臂末端豎直向下移動(dòng)(夾爪抓取深度應(yīng)盡可能大,以增大夾爪兩指與物體的接觸面積,避免物體滑動(dòng),同時(shí)也要考慮夾爪兩指抓取區(qū)域環(huán)境深度分布情況和夾爪兩指長(zhǎng)度限制,以避免發(fā)生碰撞),并使夾爪閉合,完成對(duì)物體的抓取.
RTGN的抓取檢測(cè)結(jié)果由圖像像素坐標(biāo)系下向機(jī)器人基底坐標(biāo)系下的轉(zhuǎn)換如下:
式中:z為像素坐標(biāo)系下 (u,v) 處的像素點(diǎn)在相機(jī)坐標(biāo)系下的Z軸坐標(biāo)值,可由深度圖像得到;K為相機(jī)的內(nèi)參矩陣,通過(guò)標(biāo)定相機(jī)內(nèi)部參數(shù)得到,K∈R3×4;R、T為機(jī)器人基座坐標(biāo)系與相機(jī)坐標(biāo)系之間的旋轉(zhuǎn)變換矩陣和平移變換矩陣,通過(guò)標(biāo)定相機(jī)外部參數(shù)得 到,R∈R3×3,T∈R3×1;(X,Y,Z) 為像素坐標(biāo)系下 (u,v) 處的像素點(diǎn)在機(jī)器人基座坐標(biāo)系下的坐標(biāo).
機(jī)器人成功抓取的部分結(jié)果如圖17所示,圖像從左到右分別表示抓取位姿檢測(cè)、抓取位姿執(zhí)行、物體被抓起.抓取實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果如表4所示.表中,As為成功率.可以看出,在對(duì)20個(gè)未知物體的400次抓取中,機(jī)器人的平均抓取成功率為96%.該實(shí)驗(yàn)表明RTGN在真實(shí)環(huán)境中對(duì)于形狀、大小、種類(lèi)等變化不一的未知物體的抓取具有較好的實(shí)用性.
表4 機(jī)器人抓取統(tǒng)計(jì)結(jié)果Tab.4 Statistic results of robotic grasping experiment
圖17 機(jī)器人對(duì)未知物體的抓取Fig.17 Robotic grasping of novel objects
為了進(jìn)一步提升機(jī)器人對(duì)形狀、大小、種類(lèi)等變化不一的未知物體的抓取檢測(cè)準(zhǔn)確率及檢測(cè)速度,本研究提出輕量化的抓取位姿實(shí)時(shí)檢測(cè)算法.算法以多尺度空洞卷積模塊為基礎(chǔ)來(lái)構(gòu)建輕量化的特征提取主干網(wǎng)絡(luò),有效地提升了檢測(cè)速度.通過(guò)結(jié)合混合注意力模塊和金字塔池化模塊,增強(qiáng)了算法對(duì)重要抓取特征的表達(dá)能力以及對(duì)抓取物體的抓取感知能力,進(jìn)一步提升了檢測(cè)準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)有算法,所提算法兼顧了檢測(cè)準(zhǔn)確率和檢測(cè)速度2方面性能的進(jìn)一步提升.在真實(shí)抓取場(chǎng)景中,所提算法對(duì)形狀、大小、種類(lèi)等變化不一的未知物體表現(xiàn)出良好的抓取檢測(cè)效果,對(duì)多個(gè)未知物體的抓取檢測(cè)也有較好的適應(yīng)性.
盡管本研究所提方法取得了較好的準(zhǔn)確率與實(shí)時(shí)性,但仍然存在一些有待改進(jìn)的地方.由于所提算法在檢測(cè)時(shí)無(wú)須考慮抓取物體的種類(lèi),這可能導(dǎo)致機(jī)器人對(duì)多個(gè)物體進(jìn)行抓取時(shí)不能優(yōu)先抓取指定類(lèi)別的物體.在未來(lái)的工作中可以將目標(biāo)檢測(cè)和語(yǔ)義分割方法進(jìn)行結(jié)合,避免抓取過(guò)程的無(wú)序性.