雷志明,李 勇+,雙 豐,杜嘉龍,劉 熹,王瑞琛,黃瀚樟
(1.廣西大學(xué) 電氣工程學(xué)院廣西制造系統(tǒng)與先進制造技術(shù)重點實驗室,廣西 南寧 530004;2.廣西大學(xué) 電氣工程學(xué)院廣西電力裝備智能控制與運維重點實驗室,廣西 南寧 530004)
目前大多數(shù)機械臂只是機械地完成點到點的操作,而且只能在環(huán)境固定單一和任務(wù)固定重復(fù)的情況下有效工作,一旦工作環(huán)境、目標(biāo)狀態(tài)和抓取任務(wù)發(fā)生了變化,就需要重新配置,缺少靈活性。因此,對于機械臂抓取而言,正確估計出位姿未知的目標(biāo)物體非常具有挑戰(zhàn)性。由于現(xiàn)實中對象的復(fù)雜性和多樣性,估計目標(biāo)物體的位姿會受光照變化、雜物遮擋和場景中各種雜波干擾等影響。得益于深度學(xué)習(xí)技術(shù)的高速發(fā)展,研究將深度學(xué)習(xí)技術(shù)與機器人操作相結(jié)合,具有很好的學(xué)術(shù)價值和現(xiàn)實意義。
深度相機的出現(xiàn)催生了許多基于RGB-D的圖像姿態(tài)估計方法,即以RGB-D圖像作為網(wǎng)絡(luò)的輸入,同時將深度圖轉(zhuǎn)為點云圖,并與目標(biāo)的3D點云模型通過迭代最近點(Iterative Closest Point,ICP)算法[1]匹配出位姿,整個過程繁瑣復(fù)雜,數(shù)據(jù)集也難以制作。因為需要深度才能工作,所以當(dāng)深度信息缺失或錯誤時會導(dǎo)致失敗,雖然可以通過RGB-D數(shù)據(jù)推斷出尺度,但是缺少令人信服的方法來實現(xiàn)對平面內(nèi)視圖的旋轉(zhuǎn)[2]。經(jīng)典方法中,LINEMOD算法[3]通過模板匹配估計位姿,再通過ICP算法進行微調(diào),其缺點是對目標(biāo)尺寸的變化比較敏感,出現(xiàn)遮擋時匹配度降低較多,而且深度相機的價格也限制了其應(yīng)用范圍。因此,僅使用廉價的RGB相機求解目標(biāo)物體的位姿非常具有挑戰(zhàn)性。
按照發(fā)展歷程,基于RGB圖像的位姿估計方法分為經(jīng)典法和深度學(xué)習(xí)法,經(jīng)典法主要有基于模板匹配[4-7]和基于關(guān)鍵特征點[8-12]兩種方法。在經(jīng)典的基于模板的方法中,每個對象都會配置一個模板,然后通過掃描、匹配和測試找到姿態(tài),該方法的優(yōu)點是能夠較好地響應(yīng)沒有紋理的目標(biāo),對已知3D模型不同視角的模板與輸入圖片進行匹配,從而將匹配度最高的作為估計結(jié)果,解決了因為紋理匱乏導(dǎo)致無法進行特征設(shè)計的問題;缺點是在有雜物遮擋目標(biāo)物體或者光照的情況下,會因匹配度過低導(dǎo)致估計失敗。在深度學(xué)習(xí)方法中,dope算法[13]先預(yù)測圖像中的9個關(guān)鍵點,然后基于多點透視成像(Perspective-n-Point,PnP)[14]算法回歸到6D位姿。該算法采用合成數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)取得了較好的效果,然而對于存在部分遮擋的目標(biāo)物體,也會因匹配度過低導(dǎo)致估計精度下降甚至出現(xiàn)識別錯誤。
本文針對存在遮擋和復(fù)雜的場景,研究了基于RGB圖像的目標(biāo)物體位姿估計方法,主要包括采用深度學(xué)習(xí)和PnP算法求解目標(biāo)物體的位姿,通過機器人操作系統(tǒng)(Robot Operating System,ROS)驅(qū)動機械臂對目標(biāo)進行抓取操作來驗證位姿估計的實際應(yīng)用效果。本文搭建了基于ROS的機械臂抓取實驗平臺,如圖1所示。
主要硬件有UR5機械臂、RobotiQ機械爪、相機、控制器、交換機和計算機,其中UR5機械臂負(fù)責(zé)將操作末端執(zhí)行器移動到目標(biāo)位姿,RobotiQ二指機械爪負(fù)責(zé)執(zhí)行抓取操作,相機負(fù)責(zé)獲取RGB圖像信息,控制器負(fù)責(zé)控制和驅(qū)動UR5機械臂,交換機負(fù)責(zé)計算機與控制器的信息通信,計算機負(fù)責(zé)處理相機獲取的圖像信息、求解目標(biāo)物體位姿和UR5運動控制中的相關(guān)參數(shù),以及發(fā)布控制信息和接收反饋信息。
本文實驗平臺系統(tǒng)的整個算法是在ROS下運行。ROS提供了一個操作系統(tǒng)應(yīng)有的服務(wù),包括硬件抽象、底層的設(shè)備控制、進程之間的消息傳遞和對功能包的管理,實現(xiàn)對機器人的控制和節(jié)點之間的信息傳遞。本文實驗平臺系統(tǒng)的軟件框架分為感知模塊、位姿估計模塊、坐標(biāo)轉(zhuǎn)換模塊、操作模塊和話題傳遞模塊,如圖2所示。
本文的主要貢獻有:
(1)提出一種用于目標(biāo)物體6D位姿估計的新型深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。網(wǎng)絡(luò)基于Res2Net,僅以RGB圖像信息作為網(wǎng)絡(luò)的輸入,預(yù)測輸出目標(biāo)物體的投影特征點,然后通過PnP算法求解輸出6D姿態(tài),不需要進一步進行姿態(tài)后處理。
(2)提出基于多級金字塔池化模塊的方法來融合多種不同尺度下的特征。通過融合不同區(qū)域的上下文信息挖掘全局和局部上下文信息,從而提取足夠的全局和局部特征,解析出被遮擋物體的特征信息,對物體之間有遮擋的情況進行位姿估計,該方法具有魯棒性。能夠解決抓取過程中的遮擋問題。
(3)基于虛擬合成數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)能夠成功應(yīng)用在實際場景并抓取到目標(biāo)物體。本文采用虛擬合成數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),所得模型在現(xiàn)實場景中仍能有效估計出實際目標(biāo)物體的位姿并在UR機械臂平臺實現(xiàn)抓取,具有很強的魯棒性。
數(shù)據(jù)集用于訓(xùn)練網(wǎng)絡(luò)模型和物體識別的測試,針對3D目標(biāo)物體位姿估計數(shù)據(jù)集難以制作的問題,采用模擬合成數(shù)據(jù)替代真實數(shù)據(jù),這是訓(xùn)練此類深度神經(jīng)網(wǎng)絡(luò)的一種替代方法,計算機幾乎能夠自動生成無限數(shù)量帶有標(biāo)記的此類合成數(shù)據(jù)[13]。在位姿估計中,由于提高模型精確度帶來了計算復(fù)雜和耗時問題,合成數(shù)據(jù)采用一種通過特性簡單的幾何空間體(即包圍盒)近似替代精確的3D目標(biāo)物體模型的方法。
包圍盒用于提供提取目標(biāo)物體位姿信息所需的特征點,是一種求解空間中離散點集最優(yōu)包圍空間的方法,其基本思想是采用體積稍大且特性簡單的幾何空間體近似地代替比較復(fù)雜的幾何體對象。本文合成數(shù)據(jù)采用一種軸對齊最小包圍盒的方法包圍目標(biāo)物體,根據(jù)被包圍對象的形狀特點使包圍盒盡可能緊密地包圍對象,并使包圍盒的邊平行于坐標(biāo)軸,如圖3所示。建立了目標(biāo)物體的包圍盒后,需要選取目標(biāo)物體的關(guān)鍵點作為參考點,并建立虛擬參考坐標(biāo)系作為目標(biāo)物體的世界坐標(biāo)系。選取9個點作為3D-2D關(guān)鍵點,其中8個關(guān)鍵點為包圍盒頂點,1個為包圍盒質(zhì)心點;以目標(biāo)物體包圍盒的質(zhì)心點作為虛擬坐標(biāo)系的原點,各軸線與包圍盒相對應(yīng)的邊平行。如圖3所示。
本次采用的目標(biāo)對象有芥末醬瓶、紅色搪瓷杯、餅干盒和番茄湯罐頭4個,如圖4所示。
相比3D目標(biāo)物體,2D目標(biāo)數(shù)據(jù)標(biāo)注的2D框相對較易注釋,3D目標(biāo)位姿數(shù)據(jù)難以手工標(biāo)注。故本文使用合成數(shù)據(jù),如圖5所示,圖像大小為960×540,目標(biāo)物體隨機放置,并隨機從各個方位對目標(biāo)物體進行模擬拍攝。
針對2D目標(biāo)檢測在位姿估計上的局限性,提出一種基于Res2Net[15]網(wǎng)絡(luò)模型并結(jié)合PnP算法的位姿估計算法,求解RGB圖像中目標(biāo)物體的位姿信息,算法主要流程如圖6所示。相機獲取RGB圖像數(shù)據(jù)后進行預(yù)處理,再輸入使用合成數(shù)據(jù)訓(xùn)練的深度CNN中,生成3D目標(biāo)物體的2D投影特征點熱力圖,并根據(jù)特征投影點數(shù)選取不同的PnP算法,即P3P和基于Levenberg-Marquardt[16]最優(yōu)化算法的PnP迭代算法,估計出目標(biāo)物體的位姿。
目前,大多數(shù)6D對象位姿估計方法尚不能創(chuàng)建一個魯棒的特征來解決傳感器噪聲、場景雜波、光照條件和對象被遮擋等問題?;赗GB圖像的6D位姿估計方法的關(guān)鍵技術(shù)是通過提取到足夠的特征,在復(fù)雜環(huán)境和存在遮擋的情況下估計出目標(biāo)物體的位姿。本文的深度卷積網(wǎng)絡(luò)基于Res2Net特征提取網(wǎng)絡(luò)和金字塔場景池化解析網(wǎng)絡(luò),融合不同區(qū)域的上下文信息來提高挖掘全局和局部上下文信息的能力,從而提取足夠的全局和局部特征,解析出被遮擋物體的特征信息,同時通過建立包圍盒頂點和包圍盒質(zhì)心點之間的方向向量場表示,使其有效解決抓取過程中的遮擋問題。整個網(wǎng)絡(luò)組成如圖7所示。
首先,采用Res2Net的前三層作為前饋網(wǎng)絡(luò)提取多尺度特征,從而挖掘出局部特征信息;其次,采用金字塔池化模塊融合多個不同尺度下的特征,進一步提取因遮擋而被忽略的全局特征信息;然后,將特征提取部分的多尺度局部特征信息與金字塔池化模塊融合的多種全局特征信息融合,挖掘全局與局部上下文信息。提取前饋網(wǎng)絡(luò)特征后,采用多級架構(gòu)的CNN檢測投影關(guān)鍵點以及包圍盒頂點和包圍盒質(zhì)心點之間的方向向量場。
如圖7①所示,特征提取層采用Res2Net的前三層作為前饋網(wǎng)絡(luò)提取多尺度特征,相比于ResNet,Res2Net對bottleneck塊進行了改進。圖8所示為圖7②的bottleneck,其中左邊是最基本的原始卷積模塊,右邊是針對中間3×3卷積層進行的改進。
Res2Net是一種簡單而有效的多尺度處理方法,與現(xiàn)有的增強CNN分層多尺度表示強度的方法不同,在不增加計算負(fù)載的情況下,其特征提取能力更強,在更細(xì)粒度的層次上提高了多尺度表示能力。為了實現(xiàn)該目標(biāo),Res2Net將n個通道中的3×3濾波器替換為一組更小的濾波器組,每個濾波器組有w個通道。這些較小的濾波器組以類似殘差的層次化方式連接,從而增加輸出特征可以表示的尺度數(shù)量。具體而言,首先對經(jīng)過1×1輸出后的特征圖按通道數(shù)均分為s(如s=4)塊,每一塊是xi,i∈{1,2,…,s}。每一個xi對應(yīng)3×3卷積,用Ki()表達,即有yi=Ki()。特征子集xi與Ki-1()的輸出相加,代入Ki()。x1的3×3卷積被省略,可以看做是對特征的重復(fù)利用,減少因s而增加的參數(shù)。因此yi可寫成
(1)
由此得到不同數(shù)量和不同感受野大小的輸出,這種先拆分后融合的策略使卷積能夠更加高效地處理特征。在Res2Net模塊中,對分片進行多尺度處理有利于提取全局信息和局部信息,并將分割部分連接起來,通過1×1的卷積進行傳遞,以融合不同尺度的信息。
對于圖7③,為進一步減少信息丟失,尤其是多個不同區(qū)域的上下文信息,采用一種如PSPNet[17]的分層方法,該方法包含不同尺度的信息,并在不同子區(qū)域之間存在差異,被稱為金字塔池化方法。
金字塔池化模塊在深度神經(jīng)網(wǎng)絡(luò)的最終層特征圖基礎(chǔ)上進行全局場景的先驗構(gòu)建,如圖7③所示。該模塊通過聚合不同區(qū)域的上下文,提高了提取網(wǎng)絡(luò)全局上下文中信息的能力。同時,該模塊融合了多種不同金字塔尺度下的特征,不同級別的輸出包括不同大小的特征圖,表示不同尺度下的信息,用1×1卷積核經(jīng)過每個金字塔級別降低通道維度后,再通過雙線性插值得到與輸入模塊相同尺寸的特征圖,不同層次特征最后融合為金字塔池全局特征。利用金字塔池化模塊,采用擴張網(wǎng)絡(luò)策略[18-19]提取特征映射,最終特征映射圖的大小為輸入圖像的1/16。多級池化使金字塔池模塊可以收集各級信息,比全局池[20]更具代表性。
前饋網(wǎng)絡(luò)提取相關(guān)特征信息后,采用多級架構(gòu)檢測特征投影關(guān)鍵點以及包圍盒頂點和包圍盒質(zhì)心點之間的方向向量場。如圖9所示,該網(wǎng)絡(luò)分階段運行,每一階段通過卷積生成置信熱力圖和向量場兩部分,而且在考慮當(dāng)前特征的同時還考慮最初始階段的輸出,最終與當(dāng)前信念熱力圖和向量場融合。由于所有階段都是卷積的,當(dāng)數(shù)據(jù)通過網(wǎng)絡(luò)時,會經(jīng)過一個越來越大的有效接受場,這使網(wǎng)絡(luò)能夠在早期階段解決因接受域較小而導(dǎo)致的歧義,并在后期階段結(jié)合越來越多的上下文信息。設(shè)輸入的RGB圖像寬為w,高為h,則前饋網(wǎng)絡(luò)中以尺寸為w×h×3的RGB圖像輸入特征層后的輸出作為輸入,通過此處多級卷積架構(gòu)產(chǎn)生置信熱力圖和向量場兩種不同的輸出,信念熱力圖共9個,8個為每個目標(biāo)物體包圍盒投影的8個頂點,1個為質(zhì)心點的投影。類似地,向量場表示頂點投影點指向質(zhì)心投影點的方向表示,每個向量場分為x分量和y分量,8個向量場共輸出16個分量,用于檢測同一類型對象的多個實例。
PnP算法根據(jù)所選參考點的數(shù)目被分為3≤n≤5和n≥6兩類。第1類因參考點數(shù)目比較少而精度低,魯棒性不高,當(dāng)存在噪聲干擾時結(jié)果會更差;第2類PnP問題用于計算相機位姿的參考點數(shù)目相對較多,其算法的魯棒性、抗噪性和求解精度均優(yōu)于第1類。
(2)
(3)
q0,q1,q2,q3存在如下關(guān)系:
(4)
對于式(2),有
(5)
(6)
然而,在實際場景中,由于存在各種因素(如噪聲),式(6)會有一個誤差。這里構(gòu)建一個非線性最小二乘最優(yōu)化問題的目標(biāo)函數(shù)
(7)
本文根據(jù)參考點數(shù)的不同采用不同的PnP算法。針對第1類3≤n≤5的情況,直接采用P3P算法求解獲得外參信息R,T的值;針對第2類n≥6的情況,給定的配對點較多,P3P算法很難利用更多信息,故以P3P方法求得的值作為初值,通過式(7),基于Levenberg-Marquardt最優(yōu)化算法的PnP迭代算法求解,再利用多對配對點不斷修正誤差,最后求出誤差最小時所對應(yīng)的參數(shù)值ξ,即可還原出相機的外參信息。
網(wǎng)絡(luò)是對關(guān)鍵點熱力圖和方向向量場的回歸預(yù)測,因此采用均方誤差,即L2損失函數(shù)作為該網(wǎng)絡(luò)的損失函數(shù),即
(8)
搭建完成網(wǎng)絡(luò)模型后,采用合成數(shù)據(jù)對模型進行訓(xùn)練,因為學(xué)習(xí)率過小導(dǎo)致學(xué)習(xí)速度過慢,學(xué)習(xí)率過大又導(dǎo)致訓(xùn)練過程出現(xiàn)往復(fù)跳躍,無法有效收斂,所以本文在起始時設(shè)置學(xué)習(xí)率為0.01,加快初期收斂速度,然后每過20個epoch學(xué)習(xí)率乘0.1倍,使訓(xùn)練后期能夠更好地收斂。優(yōu)化器采用Adam[21]。訓(xùn)練完成后,為驗證模型效果,設(shè)計了位姿估計和實際抓取兩個實驗。在現(xiàn)實場景抓取目標(biāo)物體前,先測試位姿估計的效果,對比目標(biāo)物體的實際位置和模型預(yù)測的位置,分析預(yù)測位置是否可抓取,并可視化顯示位姿估計效果。在分析可否抓取后,將模型部署至所搭建的實驗平臺,驗證模型在實際場景下的可應(yīng)用性。
為驗證模型位姿估計的效果,本次實驗將目標(biāo)物體放置在相機的可視區(qū)域內(nèi),預(yù)測目標(biāo)物體在基坐標(biāo)系下的位姿,同時測量目標(biāo)物體在UR5機械臂基坐標(biāo)系下的質(zhì)心點實際位置,并計算與模型預(yù)測位置的質(zhì)心偏差,質(zhì)心偏差即兩質(zhì)心點間的歐式距離
(9)
通過質(zhì)心偏差估計其是否可抓取,對于本次目標(biāo)物體,通常質(zhì)心偏差在2 cm內(nèi)能夠成功抓取,本文算法與dope算法的實驗對比如表1所示。
表中黑色加粗部分為所在列的最小值和最大值,可見dope偏差變化大,最大質(zhì)心偏差達到9.67 cm,平均質(zhì)心偏差達到3.14 cm,而本文質(zhì)心偏差范圍在2 cm內(nèi),平均質(zhì)心偏差1.2 cm,質(zhì)心偏差除了由位姿估計誤差造成外,還有由手動測量、手眼標(biāo)定和坐標(biāo)轉(zhuǎn)換數(shù)值計算帶來的誤差,這些誤差對于本文所抓取的目標(biāo)對象幾何體積來說是可以接受的,因此目標(biāo)物體是可抓取的。
為驗證模型位姿估計的實際效果,對位姿估計進行可視化顯示。本文在復(fù)雜場景下,分別對4種目標(biāo)物體在無遮擋、雜物遮擋、互相遮擋和混合遮擋情況下進行位姿估計對比實驗,如圖10所示。
圖中第1行為所要估計位姿的原始圖像信息,第2行為dope位姿估計實驗結(jié)果,第3行為本文位姿估計實驗結(jié)果。本次實驗在復(fù)雜場景中分4組進行對比,即無遮擋、雜無遮擋、相互遮擋和混合遮擋。無遮擋場景下目標(biāo)物體相互獨立且不受雜物遮擋,雜物遮擋情況僅用場景中雜物對目標(biāo)物體進行部分遮擋,相互遮擋只是目標(biāo)物體間的相互遮擋,混合遮擋既有雜物的遮擋,也有目標(biāo)物體間的相互遮擋。實驗表明,無遮擋情況下,dope因在復(fù)雜場景受到的雜物干擾較大而出現(xiàn)誤識別和未識別,本文算法則能不受影響地識別出目標(biāo)物體并估計出位姿;雜物遮擋情況下,dope僅識別出1個目標(biāo)物體,其余3個因被雜物遮擋而未被識別,本文算法則在被雜物嚴(yán)重遮擋的情況下仍然能夠識別目標(biāo)物體并估計位姿;在目標(biāo)物體相互遮擋的情況下,dope識別出3個目標(biāo)物體,對餅干盒出現(xiàn)了誤識別,芥末醬瓶位姿估計的包圍盒出現(xiàn)了變形,本文算法則表現(xiàn)出很強的魯棒性,尤其對被嚴(yán)重遮擋的深色搪瓷杯仍然能夠有效識別并較好地估計出其位姿;對于混合遮擋,dope僅對一個目標(biāo)物體進行了有效識別并估計了位姿,對餅干盒出現(xiàn)了誤識別和估計偏移,而本文算法除了餅干盒的位姿估計包圍盒稍有偏差外,其余3個目標(biāo)物體位姿的估計效果良好。綜上所述,dope在環(huán)境復(fù)雜和有遮擋的情況下,會出現(xiàn)位姿估計失效、估計錯誤和估計誤差偏大的情況,導(dǎo)致后續(xù)抓取實驗無法有效抓取目標(biāo)物體。本文的位姿估計算法則表現(xiàn)出了良好的魯棒性,無論在復(fù)雜場景還是對目標(biāo)物體進行部分遮擋,均能有效識別目標(biāo)物體并估計其位姿,甚至在嚴(yán)重遮擋的情況下,估計效果仍然較好。因此,對于多目標(biāo)發(fā)生遮擋的復(fù)雜場景下,本文所提位姿估計算法仍然具有良好的魯棒性。
前文分析中位姿估計的質(zhì)心偏差在2 cm以內(nèi),驗證了UR5機械臂抓取目標(biāo)的可行性,為驗證本文的位姿估計方法在真實環(huán)境中的應(yīng)用效果,將位姿估計模型部署在實驗平臺上進行實驗測試。以芥末醬瓶為抓取對象,圖11所示為機械臂抓取的4個主要過程:①位姿估計,估計出目標(biāo)物體的位姿;②驅(qū)動機械臂到達抓取位置,機械爪保持待抓取姿態(tài);③驅(qū)動機械臂到達目標(biāo)位置,并抓取目標(biāo)物體;④將目標(biāo)物體放置到指定位置;⑤返回初始姿態(tài)。路徑規(guī)劃算法采用快速搜索隨機樹(Rapidly-exploring Random Trees,RRT)算法、RRT*算法或者SAGB_RRT*(rapidly exploring random tree star algorithm for adaptive goal bias based on grid space)算法[22]等。
隨機更換目標(biāo)物體位姿的實驗過程如圖12所示。
隨機更換目標(biāo)物體位姿后,重復(fù)圖11的步驟。重復(fù)多組實驗,記錄各環(huán)節(jié)消耗的時間,包括系統(tǒng)初始化、位姿估計、抓取目標(biāo)、放置目標(biāo)和回位初始姿態(tài),并計算其整個實驗過程的總時間,如表2所示。
表2 多組抓取實驗結(jié)果
在21組實驗中,有4次抓取失敗,1次未估計出位姿;2次因位姿估計誤差,在平置目標(biāo)物體的情況下,z方向的抓取點估計不足,導(dǎo)致機械爪落空;1次是由于抓取過程中,機械爪卡住導(dǎo)致抓取失敗。運行時間方面,初始化系統(tǒng)在1.383 s左右,位姿估計時間在0.345 s左右,因此能較快估計出目標(biāo)物體的位姿,這里對位姿進行了簡單濾波,獲取了30組結(jié)果并排序,去掉最小最大的5組結(jié)果后取平均值,即為估計值。抓取、放置和回位初始姿態(tài)基本在5 s以內(nèi),總時間平均為20 s。實驗表明,在一般情況下,本文采用的基于RGB圖像的位姿估計方法在實際應(yīng)用中具有可行性,可成功抓取目標(biāo)物體。
本文僅通過普通相機獲取的RGB圖像信息,實現(xiàn)了復(fù)雜場景下對目標(biāo)物體的位姿估計,而且無需昂貴的深度相機來額外獲取深度信息。本文算法通過多級金字塔池模塊融合了不同區(qū)域的上下文信息,進而挖掘全局和局部上下文信息,提取足夠的全局和局部特征,解析出被遮擋物體的特征信息,在物體之間相互遮擋下仍具有魯棒性。通過實際場景中成功抓取位姿未知的目標(biāo)物體表明,本文使用合成數(shù)據(jù)訓(xùn)練的模型在實際抓取場景下具有可行性。后續(xù)研究將著力解決紋理性缺失目標(biāo)的位姿估計、被遮擋物體的抓取、目標(biāo)物體的真實質(zhì)心與包圍盒質(zhì)心偏差較大時的算法設(shè)計等問題,同時將通過深度相機為算法引入深度信息,探討深度信息對位姿估計與機械臂抓取任務(wù)的影響。