韓慧妍,王文俊,韓 燮,況立群,薛紅新
(1.中北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030051;2.機(jī)器視覺與虛擬現(xiàn)實(shí)山西省重點(diǎn)實(shí)驗(yàn)室,山西 太原 030051;3.山西省視覺信息處理及智能機(jī)器人工程研究中心,山西 太原 030051)
基于視覺信息計(jì)算物體的抓取位姿是智能機(jī)器人的一項(xiàng)基本任務(wù)[1]。面對(duì)種類繁多、位姿各異、雜亂堆疊的物體,需要從單視角輸入信息中推斷每個(gè)物體的幾何和物理屬性[2]。一種簡(jiǎn)單的方法是將位姿約束到4-DoF(Degree of Freedom)實(shí)現(xiàn)平面抓取。但是,在抓取水杯、瓶子等物體時(shí),容易出現(xiàn)重心擾動(dòng)導(dǎo)致抓取失敗的問題。在復(fù)雜堆疊場(chǎng)景中,需要更加靈活的抓取方式[3]。
隨著深度學(xué)習(xí)從二維數(shù)據(jù)向三維數(shù)據(jù)的拓寬,很多研究人員將深度學(xué)習(xí)用于6-DoF抓取,以克服平面抓取的局限性。最早的網(wǎng)絡(luò)模型[4]通過評(píng)估抓取樣本的質(zhì)量分?jǐn)?shù),獲取最佳抓取位姿。最近的研究[5-7]則通過回歸6-DoF位姿參數(shù)以獲得魯棒抓取,其中位姿參數(shù)以四元數(shù)為主[6,7]。但是,其存在一些不足:(1)單任務(wù)的抓取預(yù)測(cè)容易忽略物體的邊界信息,無法區(qū)分相鄰的不同物體,常出現(xiàn)同時(shí)抓取多個(gè)物體的情況,導(dǎo)致成功率不高[8];(2)四元數(shù)形式的抓取方向非線性且不連續(xù),不利于模型擬合[9]。因此,本文提出一種基于多任務(wù)學(xué)習(xí)的抓取位姿估計(jì)方法,從場(chǎng)景的單視角截?cái)喾?hào)距離函數(shù)TSDF(Truncated Signed Distance Function)值中直接回歸6-DoF抓取位姿。本文主要工作包括:
(1)提出一種融合語義實(shí)例重建的抓取檢測(cè)網(wǎng)絡(luò)SIRGN(Semantic Instance Reconstruction Grasping Network),進(jìn)行6-DoF抓取位姿估計(jì)的同時(shí),利用前景和實(shí)例中心預(yù)測(cè)被抓取物體的隱式幾何信息,輔助抓取任務(wù)。
(2)提出一種分解旋轉(zhuǎn)矩陣的抓取方向表示方法,利用接近向量和垂直向量組成單位正交向量組,間接求得第三維方向,降低高維位姿學(xué)習(xí)難度。
(3)在仿真環(huán)境和真實(shí)環(huán)境完成抓取實(shí)驗(yàn),SIRGN的抓取成功率和場(chǎng)景清除率相比體積抓取網(wǎng)絡(luò)VGN(Volumetric Grasping Network)[7]和GIGA(Grasp detection via Implicit Geometry and Affordance)[10]的均有顯著提升。
(1)抓取位姿估計(jì):判別式方法使用啟發(fā)式規(guī)則采樣抓取候選樣本,訓(xùn)練一個(gè)評(píng)估網(wǎng)絡(luò)對(duì)每個(gè)樣本進(jìn)行評(píng)價(jià)。由于采樣效率的限制,完成對(duì)全部樣本的檢索是一項(xiàng)頗為耗時(shí)的任務(wù)[6]。回歸式抓取方法旨在克服判別式方法的低效性,在搜索空間中同時(shí)預(yù)測(cè)所有點(diǎn)的抓取得分和抓取位姿參數(shù)[11],其關(guān)鍵在于尋找SO(3)(3D Special Orthogonal)空間中抓取方向的高效表示[12]。本文在體素表示的體積抓取網(wǎng)絡(luò)[7](VGN)基礎(chǔ)上,提出一種分解旋轉(zhuǎn)矩陣的抓取方向表示方法,與軸角或四元數(shù)的表示方式相比,本文方法更直觀,且具有連續(xù)性[13]。
(2)單視角三維重建:當(dāng)目標(biāo)形狀未知時(shí),基于已有經(jīng)驗(yàn)和單視角目標(biāo)三維信息對(duì)其進(jìn)行重建,利用重建結(jié)果計(jì)算抓取位姿,可擴(kuò)大抓取的適用范圍[14]。由于三維卷積層占用大量的內(nèi)存,通常難以完成高分辨率的重建任務(wù)。ConvONet(Convolutional Occupancy Networks)[15]通過將三維特征投影到二維正交平面,基于隱式三維重建提高了效率。本文以ConvONet作為主干網(wǎng)絡(luò)。
(3)未知目標(biāo)實(shí)例分割:機(jī)器人處理未知目標(biāo)時(shí),無法采用預(yù)設(shè)類別的實(shí)例分割方法。對(duì)未知目標(biāo)進(jìn)行實(shí)例分割有2種方法:一種方法是通過預(yù)測(cè)分割出場(chǎng)景的前景目標(biāo),然后進(jìn)行后處理分割出感興趣的目標(biāo)[16];另一種方法是基于三維信息得到實(shí)例中心投票結(jié)果,通過聚類方法進(jìn)行實(shí)例分割[17]。3D DSN(Depth Seeding Network)[18]結(jié)合這2種方法,得到與類別無關(guān)的實(shí)例級(jí)掩碼,過濾出指定目標(biāo)。本文對(duì)3D DSN進(jìn)行簡(jiǎn)化,加入語義實(shí)例重建分支,得到實(shí)例的隱式幾何信息,為目標(biāo)的魯棒抓取提供了基礎(chǔ)。
本文研究了單視角深度圖像下未知?jiǎng)傮w的6-DoF抓取位姿估計(jì)問題。首先,在桌面上放置多個(gè)剛體形成待處理雜亂場(chǎng)景;然后,使用深度相機(jī)拍攝得到單視角深度圖像,計(jì)算每個(gè)點(diǎn)到最近物體表面的截?cái)嗑嚯x,得到截?cái)喾?hào)距離函數(shù)(TSDF)值;最后,傳遞到深度學(xué)習(xí)網(wǎng)絡(luò)模型中,并行評(píng)估多個(gè)查詢點(diǎn)的抓取位姿,經(jīng)過篩選得到可抓取位姿。
(1)輸入:作為輸入的TSDF是一個(gè)N×N×N大小的體素網(wǎng)格V,其中每個(gè)單元Vi的值為該單元到最近物體表面的截?cái)嗑嚯x。與單純的體素相比,TSDF還包含距離信息,可以提高抓取檢測(cè)性能[7,19]。
(2)查詢點(diǎn):在點(diǎn)云空間中均勻采樣N3個(gè)查詢點(diǎn),形成集合P并將其對(duì)齊到體素網(wǎng)格。網(wǎng)絡(luò)解碼分支輸出抓取位姿和語義實(shí)例信息。
(3)抓取位姿估計(jì):將6-DoF抓取位姿定義為g=(p,r,w),其中p∈R3為抓取中心(同查詢點(diǎn)坐標(biāo)),r∈SO(3)表示抓取方向,w∈R表示夾持器指尖張開距離,即抓取寬度。對(duì)每個(gè)抓取位姿,計(jì)算抓取質(zhì)量q∈[0,1],即抓取成功的概率。
(4)語義實(shí)例重建:對(duì)于查詢點(diǎn)p∈R3,實(shí)例語義預(yù)測(cè)模塊計(jì)算其所屬的剛體目標(biāo),同時(shí)重建整個(gè)場(chǎng)景的前景信息,有助于物體雜亂時(shí)目標(biāo)抓取位姿的估計(jì)[9]。
多任務(wù)抓取位姿估計(jì)的目標(biāo)是找到映射t:(V,P)→(G,Q,I),其中G、Q和I分別表示每個(gè)查詢點(diǎn)的抓取位姿g、抓取質(zhì)量q和實(shí)例信息i的集合。
為了高效地預(yù)測(cè)抓取位姿和語義實(shí)例信息,在ConvONet[15]的Volume-Multi Plane分支基礎(chǔ)上,搭建融合語義實(shí)例重建的抓取檢測(cè)網(wǎng)絡(luò)SIRGN,其整體框架結(jié)構(gòu)如圖1所示,包括編碼和解碼2大模塊。
Figure 1 SIRGN network architecture
在特征編碼部分,給定場(chǎng)景的單視角TSDF輸入V,通過單層3D CNN獲得體素級(jí)的初步特征信息。將初步特征投影到XYZ標(biāo)準(zhǔn)正交平面,對(duì)3組二維特征分別使用二維U-Net(U-Network)提取深層特征,完成特征編碼。
在特征解碼部分,出于對(duì)訓(xùn)練時(shí)效的考慮,不直接使用體素所在坐標(biāo)監(jiān)督輸出,而是在空間中隨機(jī)采樣查詢點(diǎn)。對(duì)于給定查詢點(diǎn)pi∈P,首先使用雙線性插值從投影平面得到pi的3個(gè)平面特征分量,經(jīng)過組合得到特征向量ψ(pi);其次,將每個(gè)ψ(pi)輸入通過殘差連接的全連接網(wǎng)絡(luò),分別預(yù)測(cè)pi的抓取位姿(p,r,w),并重建其語義實(shí)例信息(前景語義預(yù)測(cè)f,所屬實(shí)例投票c)。在測(cè)試時(shí),選取所有體素坐標(biāo)作為查詢點(diǎn),并將每個(gè)查詢點(diǎn)的預(yù)測(cè)值相結(jié)合,即得到全場(chǎng)景各點(diǎn)的抓取位姿、前景掩碼和實(shí)例掩碼。
抓取位姿估計(jì)的目標(biāo)是預(yù)測(cè)全場(chǎng)景中各查詢點(diǎn)的抓取屬性,為后續(xù)魯棒性抓取提供基礎(chǔ)。由于SE(3)(3D Special Euclid)空間抓取位姿的高維特性,網(wǎng)絡(luò)難以直接回歸這些參數(shù)[11]。因此,抓取位姿估計(jì)的關(guān)鍵是尋找一種高效的抓取位姿表示方法。
由于使用基于查詢點(diǎn)的抓取位姿估計(jì)方法,無需顯式回歸抓取點(diǎn)3D坐標(biāo),只需計(jì)算三自由度抓取方向r′和抓取寬度w。四元數(shù)/向量組表示優(yōu)于其它三參數(shù)表示方法(歐拉角、旋轉(zhuǎn)向量),能在學(xué)習(xí)正運(yùn)動(dòng)學(xué)方面取得更高的精度[19]。但是,四元數(shù)的不連續(xù)性是導(dǎo)致擬合結(jié)果性能飽和的重要原因[8,11],因此并非抓取方向的最佳選擇。在LookAt視圖矩陣和三維方向降維方法[11]的啟發(fā)下,提出一種高效的基于向量組的抓取方向表示方法,用2個(gè)正交的單位向量分解旋轉(zhuǎn)矩陣r′,如式(1)所示:
r′=[u×l,u,l]
(1)
其中,l∈R3表示接近向量,即夾持器靠近物體的方向;u∈R3為垂直向量,即與夾持器閉合平面垂直的方向;2個(gè)向量根據(jù)右手定則得到u×l向量,三者組合得到旋轉(zhuǎn)矩陣。新的抓取位姿表示如圖2所示。
Figure 2 Grasping pose representation
訓(xùn)練時(shí),將旋轉(zhuǎn)損失Lr分為3個(gè)部分:偏移損失Loff、相關(guān)損失Lcor和正交損失Lort。偏移損失傾向約束預(yù)測(cè)向量的位置偏移量,使其與真實(shí)值距離更近;相關(guān)損失偏向約束角度差值,使兩者更接近平行關(guān)系;正交損失限制預(yù)測(cè)向量組的垂直關(guān)系,以符合旋轉(zhuǎn)矩陣的要求。旋轉(zhuǎn)損失及其分量分別如式(2)和式(3)所示:
(2)
(3)
對(duì)于查詢點(diǎn)集合P,若點(diǎn)pi存在抓取位姿參數(shù)標(biāo)注,則設(shè)置該點(diǎn)的抓取質(zhì)量為1,記為可抓取點(diǎn);否則設(shè)置該點(diǎn)的抓取質(zhì)量為0。對(duì)可抓取點(diǎn)和非可抓取點(diǎn)采取不同的訓(xùn)練策略,集合P的抓取損失函數(shù)如式(4)所示:
(4)
其中,Lq為抓取質(zhì)量的二元交叉熵?fù)p失,衡量該點(diǎn)是否可抓取;對(duì)于可抓取點(diǎn)組成的集合Pg?P,進(jìn)一步擬合其位姿參數(shù)損失Lr和Lw,Lw代表抓取寬度的均方誤差損失,β為平衡系數(shù)。
機(jī)器人需要場(chǎng)景的幾何信息來估計(jì)抓取位姿[10,20],同時(shí)也需要語義實(shí)例信息來獲取場(chǎng)景的完整幾何信息并區(qū)分緊鄰的多個(gè)物體,以完成更具針對(duì)性的抓取[9,11]。三維數(shù)據(jù)集和仿真工具的涌現(xiàn)為三維深度學(xué)習(xí)(如實(shí)例/語義分割和幾何重建)創(chuàng)造了條件[21,22]。為了獲取幾何和實(shí)例信息,將語義實(shí)例重建分解為前景語義預(yù)測(cè)和所屬實(shí)例中心投票任務(wù),以完成未知目標(biāo)的隱式實(shí)例級(jí)重建。前景語義預(yù)測(cè)根據(jù)查詢點(diǎn)所在坐標(biāo)是否被物體占據(jù),分為前景和背景,網(wǎng)絡(luò)輸出每個(gè)查詢點(diǎn)屬于前景的概率,即占據(jù)概率,在這一過程中完成對(duì)物體的隱式重建。
在所屬實(shí)例中心投票任務(wù)中,對(duì)3D DSN[18]進(jìn)行改進(jìn),省略耗時(shí)的聚類損失計(jì)算,直接回歸查詢點(diǎn)的實(shí)例中心坐標(biāo)而非相對(duì)實(shí)例中心的偏移向量,使得屬于同一實(shí)例的查詢點(diǎn)的預(yù)測(cè)值更具一致性。將所得實(shí)例信息與重建獲得的隱式幾何信息相結(jié)合,完成對(duì)場(chǎng)景中物體的未知目標(biāo)分割任務(wù),達(dá)到區(qū)分每個(gè)實(shí)例的目的。
訓(xùn)練時(shí),已知每個(gè)點(diǎn)的前景語義(占據(jù))信息和其所屬實(shí)例中心坐標(biāo),使用二元交叉熵函數(shù)優(yōu)化前景損失Lf,而中心損失函數(shù)Lc則由加權(quán)的均方誤差損失函數(shù)擬合每個(gè)物體中心所在坐標(biāo),如式(5)所示:
(5)
對(duì)于查詢點(diǎn)集合P,總的語義實(shí)例損失函數(shù)如式(6)所示:
(6)
將2個(gè)分支各自的損失函數(shù)相加,得到SIRGN方法的整體損失函數(shù),定義為L(zhǎng)=LG+LI。
5.1.1 數(shù)據(jù)集及數(shù)據(jù)生成
使用2021年公開的VGN[7]方法提供的數(shù)據(jù)集完成模型的訓(xùn)練,利用PyBullet工具搭建仿真抓取環(huán)境,包含303個(gè)訓(xùn)練對(duì)象和40個(gè)測(cè)試對(duì)象,模擬了16 000個(gè)Packed(擁擠)場(chǎng)景和83 000個(gè)Pile(堆疊)場(chǎng)景,每個(gè)場(chǎng)景包含不同數(shù)量的對(duì)象及其多樣化、密集的魯棒抓取位姿信息,可以全面地評(píng)估網(wǎng)絡(luò)的抓取位姿估計(jì)性能。為完成SIRGN的多任務(wù)訓(xùn)練,在每個(gè)場(chǎng)景中均勻采樣100 000個(gè)點(diǎn),依次記錄每個(gè)采樣點(diǎn)的前景語義信息(該點(diǎn)是否屬于抓取對(duì)象)和實(shí)例中心信息(用該點(diǎn)所屬實(shí)例的重心坐標(biāo)表示)。
5.1.2 評(píng)價(jià)指標(biāo)
由于工作空間內(nèi)合理抓取標(biāo)注值難以覆蓋完全,且仿真與真實(shí)環(huán)境中同一場(chǎng)景具有不可再現(xiàn)性,抓取檢測(cè)通常以抓取結(jié)果作為評(píng)價(jià)指標(biāo),故采用與其他研究人員相同的評(píng)價(jià)方法,使用非訓(xùn)練集對(duì)象進(jìn)行測(cè)試,以成功率和清除率作為評(píng)價(jià)指標(biāo):
(1)抓取成功率GSR(Grasp Success Rate):在指定位姿閉合夾持器,若物體在夾持器回退過程中未滑落,則記為一次成功抓取。成功抓取次數(shù)與總抓取次數(shù)的比值為成功率。
(2)清除率DR(Delutter Rate):對(duì)單個(gè)場(chǎng)景進(jìn)行連續(xù)清理作業(yè),直到以下情況之一發(fā)生:①所有對(duì)象被移除;②剩余對(duì)象沒有找到合適的抓取位姿;③連續(xù)發(fā)生2次抓取失敗。移除物體的數(shù)量占總物體數(shù)量的比例為清除率。
5.1.3 實(shí)驗(yàn)設(shè)置
將單視角深度圖像渲染為分辨率N=40的TSDF數(shù)據(jù)。對(duì)于所提端到端網(wǎng)絡(luò)SIGRN,同時(shí)訓(xùn)練N3個(gè)坐標(biāo)的輸出值會(huì)導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng)。為了提高訓(xùn)練的效率,使用查詢點(diǎn)策略,每次訓(xùn)練均從訓(xùn)練集所給的10 000個(gè)查詢點(diǎn)中隨機(jī)選取2 048個(gè)點(diǎn)用于監(jiān)督輸出,該值與以往工作設(shè)置一致,且在一定程度上起到了避免過擬合的作用。對(duì)于損失函數(shù),設(shè)置參數(shù)α1=0.6,α2=α3=0.2,β=0.01。訓(xùn)練時(shí)使用Adam優(yōu)化器,學(xué)習(xí)率為2×10-4,利用NVIDIA GeForce RTX 3090顯卡分別對(duì)2類抓取場(chǎng)景訓(xùn)練10個(gè)批次,批大小為32。在測(cè)試時(shí),對(duì)Pile和Packed環(huán)境分別進(jìn)行5次實(shí)驗(yàn),每次實(shí)驗(yàn)均使用PyBullet工具隨機(jī)生成100個(gè)抓取測(cè)試場(chǎng)景。對(duì)輸出的抓取位姿進(jìn)行篩選時(shí),在工作空間均勻采樣N3個(gè)查詢點(diǎn),使得每個(gè)查詢點(diǎn)坐標(biāo)均與體素單元對(duì)應(yīng),過濾掉抓取質(zhì)量低于閾值σ=0.9和處于檢索空間邊緣的抓取點(diǎn),最后得到場(chǎng)景的較優(yōu)抓取。
為了更直觀地驗(yàn)證SIRGN的抓取位姿估計(jì)能力,將目前較先進(jìn)的VGN[7]和GIGA[10]方法與本文的SIRGN進(jìn)行對(duì)比。從數(shù)據(jù)集2類場(chǎng)景中分別選取具有代表性的3個(gè)場(chǎng)景,3個(gè)方法的較優(yōu)抓取可視化結(jié)果對(duì)比如圖3所示。圖中標(biāo)記了一些重要的結(jié)果,三角代表失敗抓取,圓圈表示成功抓取。
Figure 3 Qualitative results of 6-DoF grasping experiments
從抓取魯棒性方面來看,使用四元數(shù)的VGN和GIGA方法對(duì)原始標(biāo)注的抓取方向擬合效果較差,在Packed_2和Pile_3場(chǎng)景的長(zhǎng)方體位置產(chǎn)生了碰撞抓取;而SIRGN方法在這些位置均可以得到正確的抓取位姿,說明SIRGN的分解旋轉(zhuǎn)矩陣抓取方向表示更容易學(xué)習(xí),抓取位姿預(yù)測(cè)更準(zhǔn)確。
從抓取多樣性方面來看:(1)未進(jìn)行幾何重建的VGN方法由于信息缺失無法區(qū)分場(chǎng)景,在Packed_1場(chǎng)景中忽略了后排的2個(gè)圓柱,在Pile_1場(chǎng)景中沒有檢測(cè)到抓取位姿;而SIRGN方法通過從單視角輸入中估計(jì)物體不可見部分的幾何信息,生成了多樣的抓取位姿,說明重建任務(wù)學(xué)習(xí)到的完整3D信息能對(duì)被遮擋或堆疊對(duì)象的抓取提供幾何信息補(bǔ)充。(2)VGN和GIGA方法由于未設(shè)置歸一化系數(shù),均忽略了Pile_1場(chǎng)景中右側(cè)的盒子、左后方的玩具鴨和Pile_2場(chǎng)景中左側(cè)的盒子;而SIRGN方法對(duì)實(shí)例重建訓(xùn)練時(shí)設(shè)置了歸一化系數(shù),可以保證不同大小的物品均有相等的優(yōu)化機(jī)會(huì),獲取分布更廣泛的抓取位姿。
從抓取合理性方面來看:(1)GIGA方法的場(chǎng)景級(jí)重建將Packed_1后排靠近的3個(gè)物品視為一個(gè)整體,將位姿選在物體之間,導(dǎo)致抓取落空;在Packed_3中,由于視角限制,右下角的2個(gè)盒子也被當(dāng)作一個(gè)物體,產(chǎn)生無效抓取;而SIRGN方法通過檢索學(xué)習(xí)到的實(shí)例級(jí)幾何信息,正確地估計(jì)了實(shí)例的形狀,得到合理的抓取。(2)缺乏實(shí)例信息導(dǎo)致的抓取失敗情況在Pile場(chǎng)景中同樣出現(xiàn)了,GIGA方法在Pile_1和Pile_2場(chǎng)景中抓取2個(gè)物品間的縫隙,導(dǎo)致失敗的碰撞抓取;而SIRGN額外增加的語義實(shí)例信息使模型能夠識(shí)別緊鄰實(shí)例間的差異,產(chǎn)生屬于每個(gè)實(shí)例的合理抓取。
在仿真環(huán)境測(cè)試時(shí),在前一步實(shí)驗(yàn)基礎(chǔ)上獲取全景較優(yōu)抓取位姿信息,使用非極大值抑制得到用于執(zhí)行的抓取位姿,并計(jì)算仿真環(huán)境中的平均抓取成功率GSR和平均清除率DR,2類指標(biāo)的對(duì)比結(jié)果如表1所示,表中數(shù)值第1部分為中心值,第2部分為最高上限和最低下限。從表1中可以看出,SIRGN在2類抓取場(chǎng)景的2個(gè)指標(biāo)均優(yōu)于VGN和GIGA方法的,在Pile類場(chǎng)景的抓取結(jié)果體現(xiàn)更明顯,SIRGN方法比VGN方法的GSR和DR分別高出了17.4%和15.3%,比GIGA方法的GSR和DR分別高出了8.8%和9.5%。這說明SIRGN的抓取方向表示方法降低了擬合難度,可以更準(zhǔn)確地回歸抓取角度真值,顯著提升了抓取成功率。同時(shí),在Pile場(chǎng)景中,SIRGN方法比VGN和GIGA方法的成功率的標(biāo)準(zhǔn)方差分別降低了2.3%和1.3%,說明語義實(shí)例重建分支使網(wǎng)絡(luò)能夠更準(zhǔn)確地理解實(shí)例幾何特征和實(shí)例邊界,在堆疊場(chǎng)景的抓取表現(xiàn)更穩(wěn)定。在計(jì)算時(shí)間方面,由于并行計(jì)算的高效性,SIRGN方法單次推理僅需25 ms,與GIGA(23 ms)和VGN(22 ms)的基本持平,實(shí)時(shí)性較強(qiáng)。
Table 1 Quantitative results of 6-DoF grasping experiments
5.3.1 網(wǎng)絡(luò)模型設(shè)置
SIRGN多任務(wù)學(xué)習(xí)抓取位姿估計(jì)方法引入了語義實(shí)例重建模塊和分解旋轉(zhuǎn)矩陣表示的抓取方向,以提高抓取位姿估計(jì)的性能。為了驗(yàn)證這些模塊的必要性,實(shí)施模型設(shè)置消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
Table 2 Ablation experiment results of model setup
在位姿學(xué)習(xí)方面,四元數(shù)方法具備普遍性[13]。相關(guān)研究表明,其性能參數(shù)優(yōu)于其余三參數(shù)表示方法[19]的,故以四元數(shù)(Quaternion)表示抓取方向作為基線。參考以往研究的做法,訓(xùn)練時(shí)直接優(yōu)化四元數(shù)預(yù)測(cè)值與真實(shí)值之間的L2距離,同時(shí)使用單任務(wù)學(xué)習(xí)模式,僅保留抓取位姿預(yù)測(cè)分支?;€設(shè)置與VGN方法的較為相似,二者僅存在網(wǎng)絡(luò)結(jié)構(gòu)的差異,但GSR和DR平均提升了8.4%和6.3%以上,說明SIRGN方法使用的ConvONet網(wǎng)絡(luò)的特征提取能力更強(qiáng)。
在基線的基礎(chǔ)上,使用SIRGN方法所提出的基于分解旋轉(zhuǎn)矩陣的向量組方法(Vector-pairs)替換四元數(shù)用于學(xué)習(xí)抓取方向,結(jié)果顯示Packed/Pile場(chǎng)景的GSR和DR較四元數(shù)方法的分別提升了3.8%/5.4%和1.7%/3.1%,表明所提向量組方法學(xué)習(xí)到的抓取角度能更好地?cái)M合標(biāo)注值,有利于提高抓取成功率。
在添加所提出的語義實(shí)例重建任務(wù)后(Vector-pairs+Semantic),各項(xiàng)指標(biāo)均提升了3%左右,且Pile場(chǎng)景的GSR和DR的方差分別降低了1.6%和2.6%。這說明SIRGN方法對(duì)堆疊場(chǎng)景的泛化能力更強(qiáng),語義實(shí)例重建可以幫助模型獲得全場(chǎng)景的隱式實(shí)例信息,其中的幾何邊界信息對(duì)多物體抓取發(fā)揮了重要作用。
5.3.2 參數(shù)設(shè)置
在所有可變參數(shù)中,體素分辨率N是影響實(shí)驗(yàn)結(jié)果的首要因素[7]。根據(jù)已有研究對(duì)分辨率設(shè)置的經(jīng)驗(yàn),以及出于與對(duì)比方法公平比較的目的,在上述實(shí)驗(yàn)中均設(shè)置N=40。為探究分辨率對(duì)抓取性能和推理速度的影響,通過N=30,50這2種不同的消融設(shè)置進(jìn)行對(duì)比分析。
參數(shù)設(shè)置實(shí)驗(yàn)結(jié)果如表3所示。縱向分析,隨著體素分辨率的增加,抓取成功率和清除率均有不同程度的提高,但增加的趨勢(shì)在放緩。同時(shí),由于立方數(shù)的影響,底數(shù)增長(zhǎng)相同數(shù)量會(huì)導(dǎo)致參與計(jì)算的體素?cái)?shù)成倍增加,在N=50時(shí),單次推理需要38 ms,實(shí)時(shí)性水平有所下降。從橫向角度出發(fā),相比于Packed場(chǎng)景的抓取結(jié)果,高分辨率設(shè)置對(duì)于Pile場(chǎng)景所獲得的收益更大,這是由于Pile場(chǎng)景的結(jié)構(gòu)更加復(fù)雜,對(duì)抓取的精度要求更高。過高的分辨率設(shè)置會(huì)加重計(jì)算負(fù)擔(dān)并影響推理速度,在具體實(shí)施時(shí),可根據(jù)環(huán)境條件和時(shí)間要求對(duì)參數(shù)N進(jìn)行靈活設(shè)置,以達(dá)到實(shí)際工作的要求。
Table 3 Ablation experiment results of parameter setup
消融實(shí)驗(yàn)充分證明了SIRGN方法參數(shù)設(shè)置的合理性,以及語義實(shí)例重建模塊和分解旋轉(zhuǎn)矩陣的抓取方向表示方法的有效性。
本節(jié)在真實(shí)環(huán)境中完成實(shí)驗(yàn)以驗(yàn)證仿真環(huán)境訓(xùn)練結(jié)果的可移植性。使用UR3機(jī)械臂以及RealSense D435深度相機(jī)組成“眼在手上”抓取平臺(tái),每輪隨機(jī)選取與仿真物品形狀類似的5個(gè)對(duì)象搭建測(cè)試環(huán)境,分別使用VGN、GIGA和SIRGN方法對(duì)Packed和Pile場(chǎng)景進(jìn)行15輪實(shí)驗(yàn),并預(yù)測(cè)最優(yōu)抓取。SIRGN方法基于分解旋轉(zhuǎn)矩陣表示抓取方向,在真實(shí)環(huán)境中同樣適用。與VGN和GIGA方法相比,在Packed場(chǎng)景中抓取圓柱類型對(duì)象時(shí)更穩(wěn)定,發(fā)生抓取滑脫的情況更少,如圖4a和圖4b所示。由于缺乏實(shí)例級(jí)信息,在Pile場(chǎng)景中,VGN和GIGA方法會(huì)發(fā)生同時(shí)抓取多個(gè)物體導(dǎo)致的抓取碰撞情況。但是,SIRGN方法通過語義實(shí)例重建分支學(xué)習(xí)到與類別無關(guān)的實(shí)例信息,能夠得到單個(gè)物體的無碰撞抓取,避免了這一問題,如圖4c和圖4d所示。
Figure 4 Instances of physical environment grasping
真實(shí)環(huán)境實(shí)驗(yàn)的定量結(jié)果如表4所示,其中括號(hào)內(nèi)的數(shù)字表示具體比值,括號(hào)外的數(shù)字表示約數(shù)。與VGN和GIGA方法相比,SIRGN方法獲得了更高的抓取成功率和場(chǎng)景清除率。這與仿真實(shí)驗(yàn)的結(jié)果一致,說明TSDF適用環(huán)境廣泛,數(shù)據(jù)不受環(huán)境光照、物體紋理等因素的影響,具備從仿真環(huán)境到真實(shí)環(huán)境遷移的能力。此外,SIRGN方法總的抓取嘗試次數(shù)較VGN和GIGA的平均減少了6.5次和4.5次,意味著對(duì)某一對(duì)象需要再抓取的情況更少。這說明所提分解旋轉(zhuǎn)矩陣方法降低了抓取方向的學(xué)習(xí)難度,得到的抓取位姿更合理,執(zhí)行效率更優(yōu)。
Table 4 Experiment results in physical environment
本文將非結(jié)構(gòu)化環(huán)境中的6-DoF抓取位姿估計(jì)定義為多任務(wù)學(xué)習(xí)問題,在預(yù)測(cè)抓取的同時(shí)監(jiān)督全場(chǎng)景的語義實(shí)例輸出;針對(duì)高維位姿學(xué)習(xí)的復(fù)雜性,對(duì)旋轉(zhuǎn)矩陣進(jìn)行分解,提出了一種簡(jiǎn)化的抓取位姿學(xué)習(xí)方法。在仿真實(shí)驗(yàn)中,研究了所提方法對(duì)抓取成功率和清除率的影響。結(jié)果表明,實(shí)例級(jí)隱式幾何信息與新的抓取方向表示方法相結(jié)合能夠改善抓取位姿學(xué)習(xí),抓取形式更豐富。真實(shí)環(huán)境的實(shí)驗(yàn)結(jié)果表明,基于TSDF數(shù)據(jù)的網(wǎng)絡(luò)模型無需調(diào)整就可以直接遷移到真實(shí)環(huán)境,模型的泛化能力較強(qiáng)。
該方法還有改進(jìn)空間:(1)現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)將三維特征投影到二維平面,可能存在信息丟失的情況,下一步可以尋找更加高效的編碼網(wǎng)絡(luò)。(2)利用語義實(shí)例重建分支輸出的實(shí)例級(jí)掩碼,以實(shí)現(xiàn)場(chǎng)景中特定實(shí)例的抓取。(3)將抓取執(zhí)行路徑中的碰撞考慮在內(nèi),以避免由于物體間遮擋導(dǎo)致抓取失敗。