梁達(dá)勇,陳俊洪,朱展模,黃可思,劉文印
廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006
近年來,隨著機(jī)器人的快速發(fā)展,機(jī)器人在各行業(yè)的部署應(yīng)用也快速增多,例如家庭服務(wù)、工業(yè)制造等,然而這些應(yīng)用絕大多只能處理特定操作環(huán)境下的場景,對于背景凌亂、物體遮擋和光線不足等環(huán)境場景,機(jī)器人難以實(shí)現(xiàn)精準(zhǔn)抓取。要更好地解決該問題,機(jī)器人必須對物體的6DoF姿態(tài)進(jìn)行估計(jì),通過三維點(diǎn)云信息有效地掌握物體的形狀大小等信息,從而調(diào)整自身機(jī)械手抓取的角度實(shí)現(xiàn)準(zhǔn)確抓取,可以說6DoF姿態(tài)估計(jì)是機(jī)器人在真實(shí)環(huán)境中實(shí)現(xiàn)精準(zhǔn)抓取的必要工作。
雖然現(xiàn)有的物體抓取研究在RGB數(shù)據(jù)集上已經(jīng)取得了很大進(jìn)展,但是在實(shí)際機(jī)器人抓取應(yīng)用場景中,由于缺少深度信息,機(jī)器人在與周圍環(huán)境進(jìn)行交互操作時無法對物體進(jìn)行穩(wěn)定的抓取。對此,人們提出了將RGB圖和深度圖像進(jìn)行融合的基于RGBD的姿態(tài)估計(jì)方法。Xiang等人[1]提出了一種端到端的6D姿態(tài)估計(jì)網(wǎng)絡(luò)PoseCNN,通過利用迭代最近點(diǎn)(iterative closest point,ICP)算法來增強(qiáng)深度信息在姿態(tài)估計(jì)中的作用。Li等人[2]使用深度迭代匹配(deep iterative matching,DeepIM)算法迭代優(yōu)化6D姿態(tài),但是此類需要點(diǎn)云進(jìn)行復(fù)雜后期優(yōu)化操作的算法非常耗時,并不適用于現(xiàn)階段的機(jī)器人應(yīng)用。Jafari等人[3]提出了一個包含了mask感知模塊的框架,該模塊在定位所有已知對象后將像素密集地映射到三維物體表面的位置,并使用幾何優(yōu)化算法預(yù)測6D姿勢,取得了不錯的效果。Wang等人[4]設(shè)計(jì)了一個可以單獨(dú)處理并融合RGB圖和深度數(shù)據(jù)的融合網(wǎng)絡(luò),將融合的特征進(jìn)行姿態(tài)回歸,然而這個過程需要用到PointNet[5]來處理點(diǎn)云信息,計(jì)算量非常龐大。Xu等人[6]在PointNet基礎(chǔ)上處理圖片和對應(yīng)的點(diǎn)云,并做回歸,輸出3D Box。
為了更好地精簡網(wǎng)絡(luò)框架并提高計(jì)算效率,本文提出了一個基于像素級融合網(wǎng)絡(luò)的遮擋物體6DoF姿態(tài)估計(jì)框架,該框架主要包含三個模塊,分別為:RGB特征提取網(wǎng)絡(luò)、像素融合結(jié)構(gòu)和6D姿態(tài)回歸網(wǎng)絡(luò)。其中第一個模塊主要利用目標(biāo)檢測從RGB圖片中識別出目標(biāo)物體,并利用編碼器與解碼器提取RGB像素特征;第二個模塊用于提取物體模型特征并與RGB像素特征進(jìn)行融合;最后一個模塊用于計(jì)算物體6D姿態(tài)。與其他多階段姿態(tài)估計(jì)結(jié)構(gòu)的方法相比,本文所提出來的框架在損失較少的精度情況下效率提高了上百倍,并且對于物體被遮擋或部分點(diǎn)云丟失的情況下也具有良好的魯棒性。
基于RGB圖片的6D姿態(tài)估計(jì)是常見的做法之一,Do等人[7]提出通過改變Mask R-CNN預(yù)測分支的方法對物體6D姿態(tài)進(jìn)行估計(jì),但是該方法在物體被遮擋時魯棒性較差。為了解決該問題,近年來大量方法利用分段網(wǎng)絡(luò)的方法來預(yù)測6D姿態(tài)。Kehl等人[8]通過預(yù)先估計(jì)物體的2D位置和四元數(shù)quaternion來計(jì)算物體可能的6D姿勢池,再通過優(yōu)化每個池中的估計(jì)選擇最佳的6D姿態(tài);Xiang等人[1]提出先建立分割網(wǎng)絡(luò)對物體的具體位置進(jìn)行估計(jì),再利用物體的位置計(jì)算出平移矩陣,并結(jié)合圖片特征預(yù)測四元數(shù)。雖然這些方法都可以有效地計(jì)算出物體的6D姿態(tài),但是都需要高度復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)以及后期的深度信息優(yōu)化步驟才可以得到準(zhǔn)確的6D姿態(tài)。
在基于RGB的姿態(tài)估計(jì)方法中,由于基于特征點(diǎn)匹配的網(wǎng)絡(luò)框架可以取得較高的精度,因此此類方法受到人們廣泛的關(guān)注。Peng等人[9]對每個像素點(diǎn)都回歸一個關(guān)鍵點(diǎn)后,利用隨機(jī)抽樣一致方法(random sample consensus,RANSAC)投票系統(tǒng)對關(guān)鍵點(diǎn)進(jìn)行投票,從而選出更適合的關(guān)鍵點(diǎn);Hu等人[10]提出一個分割驅(qū)動型網(wǎng)絡(luò)框架,該框架先將物體進(jìn)行分割,再利用物體預(yù)測局部的候選6D姿態(tài),最后通過投票計(jì)算出最佳的6D姿態(tài),該方法在物體被遮擋的情況下取得了較好的效果。雖然基于RGB的姿態(tài)估計(jì)方法比較高效,但在缺少深度信息的情況下使得該方法過度依賴RGB信息的完整性,當(dāng)數(shù)據(jù)信息缺失嚴(yán)重時,模型估計(jì)精度便會大幅度下降,因而結(jié)合了深度信息等多特征的方法框架在現(xiàn)實(shí)環(huán)境中將更具實(shí)用性。
隨著硬件的快速發(fā)展,近年來利用深度信息對物體的6D姿態(tài)進(jìn)行估計(jì)逐漸成為熱門方向。文獻(xiàn)[11-12]提出利用隨機(jī)森林從RGB-D圖像中抽取局部特征,再通過投票建立3D到2D的對應(yīng)關(guān)系,進(jìn)而對物體6D姿態(tài)進(jìn)行估計(jì);文獻(xiàn)[13-14]利用回歸網(wǎng)絡(luò)將局部采樣的RGB-D信息方塊應(yīng)用于6D姿態(tài)投票,然而塊到塊的RGB-D信息提取框架無法有效地將RGB信息和深度信息進(jìn)行融合。為了解決該問題,最近人們提出基于點(diǎn)云特征融合的方法,該方法通過密集型特征融合的方式將兩種信息進(jìn)行了融合。Xu等人[6]描述了一種像素級融合方法,他們使用密集型融合機(jī)制將RGB信息和點(diǎn)云信息進(jìn)行了融合,并通過網(wǎng)絡(luò)回歸出3D框,最后使用兩種投票機(jī)制選擇出最佳的6D姿態(tài)。為了進(jìn)一步優(yōu)化融合網(wǎng)絡(luò),Wang等人[4,15-16]在原有方法上進(jìn)行了改進(jìn),通過將像素級的2D信息嵌入三維空間點(diǎn)云信息來增強(qiáng)每個點(diǎn)云的作用。雖然以上方法都有較好的效果,但是這些方法過度依賴于PointNet[5]的特征提取分支結(jié)構(gòu),這導(dǎo)致了系統(tǒng)計(jì)算量大。為了解決該缺陷,本文提出使用單個像素級信息源進(jìn)行密集融合,簡化了點(diǎn)云特征的提取網(wǎng)絡(luò)的結(jié)構(gòu),從而提高了計(jì)算效率。
本文的目標(biāo)是從RGB-D圖像中預(yù)測出一個物體在三維空間下的6D姿態(tài),其中6D姿態(tài)表示從物體坐標(biāo)系到攝像機(jī)坐標(biāo)系下的剛性變換,用[R|T]表示,R表示旋轉(zhuǎn)矩陣,T表示平移矩陣。本文不直接預(yù)測[R|T],而是先預(yù)測四元數(shù)q以及未經(jīng)過深度信息微調(diào)的平移矩陣t,最后進(jìn)行四元數(shù)到旋轉(zhuǎn)矩陣的轉(zhuǎn)換和平移矩陣的微調(diào)。總體的框架流程圖如圖1所示,整個結(jié)構(gòu)分成三個模塊:RGB特征提取網(wǎng)絡(luò)(圖1(1))、像素融合結(jié)構(gòu)(圖1(2))以及6D姿態(tài)回歸網(wǎng)絡(luò)(圖1(3)),接下來將具體介紹框架的細(xì)節(jié)。
為了縮小目標(biāo)對象范圍,使用在圖片數(shù)據(jù)集MSCOCO[17]上預(yù)訓(xùn)練過的Mask R-CNN[18]對目標(biāo)對象進(jìn)行分割,即預(yù)訓(xùn)練模型的參數(shù)使用的是Mask R-CNN上提供的基礎(chǔ)模型MS-COCO的訓(xùn)練參數(shù)。Mask RCNN在Faster R-CNN的基礎(chǔ)上加入了Mask分支,可以大幅度提高物體定位精度。然而在分割過程中,由于存在多物體遮擋的情況,導(dǎo)致語義分割得到的感興趣區(qū)域(region of interest,ROI)裁剪圖通常會包含其他物體以及無關(guān)的背景信息,因此將ROI裁剪圖按照相對于指定攝影機(jī)坐標(biāo)系變換而來的點(diǎn)云圖進(jìn)行橫向關(guān)聯(lián),通過這樣的方式來對物體的局部像素特征進(jìn)行選擇。經(jīng)過Mask R-CNN進(jìn)行分割后,得到了一組ROI識別框B={b1,b2,…,bn}和物體掩碼M={m1,m2,…,mn},利用得到的ROI框bn和物體掩碼mn,可以為像素融合網(wǎng)絡(luò)提供對應(yīng)物體的ROI裁剪圖和對應(yīng)的稀疏點(diǎn)云圖,其中ROI裁剪圖主要用于RGB特征的提取,而稀疏點(diǎn)云圖用于6D姿態(tài)回歸。
Fig.1 Overview of pixel-level fusion network圖1 像素融合網(wǎng)絡(luò)框架圖
對于ROI裁剪圖,由于存在物體被遮擋的情況,因此在ROI裁剪圖上隨機(jī)抽取了Np個像素輸入到特征提取結(jié)構(gòu)(embedding)中進(jìn)行特征的提取,具體結(jié)構(gòu)如圖2所示。從圖中可以看到,整個特征提取結(jié)構(gòu)主要由Resnet-18[19]特征編碼器和基于PPM(pyramid pooling module)[20]設(shè)計(jì)的解碼器組成。其中,PPM解碼器是一種較好的充分利用了全局信息的方式,里面的多尺度pooling能在不同尺度下保留全局上下文信息。PPM解碼器處理從Resnet-18提取到的特征的方式跟Pyramid Scene Parsing Network[20]里的處理方式一致。并且,為了進(jìn)一步得到有效的特征,還基于PPM解碼器增加了一個卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行高層次的特征提取,其中CNN網(wǎng)絡(luò)包括兩層卷積操作,第一層卷積核大小為1×32,輸出維度為64×Np,第二層卷積核大小為1×64,輸出維度為128×Np。增添的CNN網(wǎng)絡(luò)的參數(shù)設(shè)置參考了Pyramid Scene Parsing Network[20]最后的CNN分類網(wǎng)絡(luò)參數(shù)設(shè)置,能結(jié)合Resnet-18提取的特征獲得更完整的特征信息。為了完全提取到深層次的特征,將兩層卷積的特征都保留下來,以供后續(xù)的像素融合操作。
其中,兩層卷積都使用ReLU作為激活函數(shù),步長設(shè)置為1,padding設(shè)定為0。最后輸出128×Np維特征,其中Np為選取的RGB像素個數(shù)。為了獲取更多特征信息,將經(jīng)過第一層卷積的特征也保存下來,特征維度為64×Np,最后將兩層卷積中分別得到的特征進(jìn)行融合。
RGB信息能為物體姿態(tài)估計(jì)提供顏色形狀特征,但在RGB信息嚴(yán)重缺失時將會失去對物體形狀的判斷,采用物體模型視圖特征融合的方式來增強(qiáng)物體外觀信息的特征表示?;谖墨I(xiàn)[21]中的模型特征提取方法,將物體三維模型從12個角度進(jìn)行截取,并將這12個物體視圖作為像素融合網(wǎng)絡(luò)的附加嵌入特征,其中對于每一個物體模型截取大小為12×120×120的物體視圖,截取角度為0°到300°的方位角以及-30°和30°的仰角,這樣即使物體的視覺外觀發(fā)生了變化,這些物體模型視圖仍能夠捕獲不同方向的真實(shí)物體的形狀和輪廓[22]。通過獲取不同方向上的物體形狀和外觀信息,可以有效彌補(bǔ)物體像素融合特征的不足,以及降低物體被遮擋情況下的不利影響,從后續(xù)的驗(yàn)證結(jié)果可知物體視圖特征在非對稱物體姿態(tài)估計(jì)上起到了輔助作用。
在獲取到不同物體視圖后,將其特征與RGB特征進(jìn)行融合,并進(jìn)行全局特征的提取,具體的提取和融合過程如圖3所示。首先將12張物體視圖輸入到2.1節(jié)所提到的embedding結(jié)構(gòu)進(jìn)行特征的抽取,相應(yīng)地得到一個64×Np特征矩陣和一個128×Np特征矩陣,并把128×Np特征矩陣與128×NpRGB特征進(jìn)行拼接融合。緊接著受PointFusion方法[6]啟發(fā),將融合后的特征輸入到多層感知機(jī)中進(jìn)行全局特征的抽取,并且在多層感知機(jī)最后兩層卷積層后分別增加了一層平均池化層進(jìn)行特征的降維,最終得到一個1×1 024的全局特征矩陣。緊接著把全局特征矩陣拓展Np份嵌入到原來融合所得到的局部特征當(dāng)中,輸出一個維度為1×1 048×Np的特征矩陣,并把該矩陣作為下一步6D姿態(tài)回歸網(wǎng)絡(luò)的輸入。
Fig.2 Embedding feature extraction structure圖2 Embedding特征提取結(jié)構(gòu)
Fig.3 Object viewpoints optimization architecture圖3 物體視圖優(yōu)化結(jié)構(gòu)
6D姿態(tài)回歸網(wǎng)絡(luò)的目標(biāo)是將輸入的每一個像素特征進(jìn)行回歸計(jì)算,預(yù)測出該像素所對應(yīng)的四元數(shù)矩陣、平移矩陣以及對應(yīng)的矩陣評分,最后根據(jù)這些矩陣評分選出最優(yōu)的矩陣。具體網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)如圖4所示。
從圖4中可以看出該網(wǎng)絡(luò)一共包含4層卷積網(wǎng)絡(luò),其中第一個卷積層卷積核大小為1 408×1,輸出特征維度為640×Np,第二個卷積層卷積核大小為640×1,輸出特征維度為256×Np,第三個卷積層卷積核大小為256×1,輸出特征維度為128×Np,第四個卷積層卷積核大小為128×1,輸出特征維度Np×j根據(jù)預(yù)測參數(shù)的維度而定。每一層卷積的步長和padding都設(shè)定為1,并使用ReLU作為激活函數(shù)。
除此之外,還在點(diǎn)云融合層面進(jìn)行了優(yōu)化改進(jìn),簡化了點(diǎn)云特征的提取結(jié)構(gòu),并把點(diǎn)云信息作為微調(diào)信息融入到姿態(tài)回歸網(wǎng)絡(luò)中。具體來說,利用Mask R-CNN中所得到的掩碼和深度圖,經(jīng)過裁剪得到僅包含目標(biāo)物體信息的物體深度裁剪圖,并且為了降低物體被遮擋時所造成誤判的影響,隨機(jī)選取i個點(diǎn)代表整張裁剪圖進(jìn)行訓(xùn)練,并將這i個點(diǎn)通過相機(jī)坐標(biāo)系的內(nèi)參轉(zhuǎn)換轉(zhuǎn)化成物體的點(diǎn)云集合P,其中P包含i個點(diǎn)云像素p,這些點(diǎn)云像素可以為RGB圖像在像素融合過程中提供足夠的空間信息。
定義第i個像素點(diǎn)的預(yù)測姿態(tài)為,第i個點(diǎn)云pi平移矩陣定義為:
其中,GT(j)代表真實(shí)姿態(tài)下的物體模型上采樣的N個點(diǎn)云中點(diǎn)x(j)的所在位置:
Fig.4 6D pose estimation network圖4 6D姿態(tài)回歸網(wǎng)絡(luò)
但是由于對稱對象可能有無數(shù)的6D姿態(tài)表示形式,這導(dǎo)致了式(2)并不適用于對稱物體的姿態(tài)預(yù)測。因此針對對稱物體,引入了另一損失函數(shù)對物體模型上的點(diǎn)云與真實(shí)姿態(tài)下物體模型最近的點(diǎn)云之間的平均偏移量進(jìn)行最優(yōu)化估計(jì),該損失函數(shù)如下:
并且,為了從每個像素特征預(yù)測的轉(zhuǎn)換矩陣中選出最優(yōu)的轉(zhuǎn)換矩陣,本文根據(jù)PointFusion的評分方法,并結(jié)合上文定義的式(2)和式(5)以及網(wǎng)絡(luò)回歸得到的對應(yīng)矩陣評分Ci,重新設(shè)計(jì)了一個非監(jiān)督log損失函數(shù):
其中,Ci表示從M個隨機(jī)挑選的像素特征中預(yù)測出來的矩陣評分,w是個超參數(shù),表示矩陣評分的權(quán)重。由最終的非監(jiān)督損失函數(shù)可知,當(dāng)評分Ci越低時,wlnCi越高,最后整體的評分Lscore就越低。
YCB-Video數(shù)據(jù)集[23]:該數(shù)據(jù)集由92個RGB-D視頻序列組成,擁有130 000幀真實(shí)場景的圖像數(shù)據(jù)以及80 000幀合成模型渲染圖像數(shù)據(jù),一共涵蓋了21個不規(guī)則物體,并且每個物體都存在不同程度的物體遮擋或者不良照明等外部影響因素。
YCB-Occlusion數(shù)據(jù)集:為了測試像素融合網(wǎng)絡(luò)框架在極端環(huán)境下物體姿態(tài)估計(jì)的魯棒性,本文根據(jù)YCB-Video數(shù)據(jù)集中的2 949張關(guān)鍵測試幀,添加新的物體掩碼制作成新的數(shù)據(jù)集。具體來說,利用Mask R-CNN中得到的2D掩碼對RGB圖以及對應(yīng)的深度圖進(jìn)行隨機(jī)裁剪,裁剪后每個物體都只保留了大概10%到30%的RGB圖像可視區(qū)域,剩余區(qū)域根據(jù)遮擋范圍填充零值,表示RGB信息丟失;相應(yīng)地,在深度圖像上也只保留了跟RGB圖像相同位置的可視區(qū)域,其他區(qū)域用零值填充,以表示深度信息丟失,處理后的數(shù)據(jù)集如圖5所示,其中上列為處理過后的RGB圖像,下列為相對應(yīng)的深度圖像。
Fig.5 YCB-Occlusion dataset圖5 YCB-Occlusion數(shù)據(jù)集
LINEMOD數(shù)據(jù)集[24]:該數(shù)據(jù)集擁有12個未被遮擋的物體,本文主要將其用于測試物體表面特征不明顯、背景場景混亂等情況。
對于6D姿態(tài)估計(jì),使用最近點(diǎn)云平均距離ADDS[24]對模型進(jìn)行評判,并且將評價(jià)指標(biāo)分為以下兩類:
ADD-S AUC:當(dāng)預(yù)測的點(diǎn)云與實(shí)際的點(diǎn)云差值小于10 cm時,認(rèn)為估計(jì)的轉(zhuǎn)換矩陣是正確的。
ADD-S 0.1d:當(dāng)預(yù)測的點(diǎn)云與實(shí)際的點(diǎn)云差值小于物體直徑的10%,認(rèn)為估計(jì)的轉(zhuǎn)換矩陣是正確的。
在物體定位分割階段,使用在MS-COCO[16]預(yù)訓(xùn)練的Mask R-CNN參數(shù),并在實(shí)驗(yàn)中分別使用YCBVideo和LINEMOD數(shù)據(jù)集進(jìn)行了參數(shù)微調(diào),將Mask R-CNN基礎(chǔ)模型的參數(shù)作為本文模型的超參數(shù)。
在物體姿態(tài)估計(jì)階段,把模型學(xué)習(xí)率設(shè)為1×10-4,batch size設(shè)為1,并且對于不同的數(shù)據(jù)集,采取不同的參數(shù)設(shè)置,對于YCB-Video和YCB-Occlusion數(shù)據(jù)集,將更新迭代次數(shù)設(shè)置為30次,像素個數(shù)Np設(shè)置為1 009個。除此之外,還為每個物體增加1 000張合成模型圖以防止過擬合;對于LINEMOD數(shù)據(jù)集,把更新迭代次數(shù)設(shè)置為40次,像素個數(shù)Np設(shè)置為500個,不提供額外的物體合成模型圖。
在物體姿態(tài)模型測試階段,為了與PoseCNN進(jìn)行效果對比,在YCB-Video數(shù)據(jù)集上使用與PoseCNN相同的物體2D分割掩碼,而在LINEMOD數(shù)據(jù)集上則使用Mask R-CNN預(yù)測的分割掩碼。
模型實(shí)時性分析:經(jīng)過模型復(fù)雜度檢測,PFNet+Model模型的參數(shù)總數(shù)量為29.85 MB,模型計(jì)算量FLOPs為22.13 GB,在一張TITAN X顯卡上進(jìn)行實(shí)驗(yàn)測試時,PFNet模型在YCB-Video數(shù)據(jù)集上能實(shí)現(xiàn)19 FPS,PFNet+Model模型也能實(shí)現(xiàn)14 FPS,測試結(jié)果如表1所示,已能滿足在現(xiàn)實(shí)環(huán)境中機(jī)器人進(jìn)行物體實(shí)時抓取與操控的姿態(tài)估計(jì)需求。
Mask R-CNN微調(diào)性能分析:在進(jìn)行6D姿態(tài)估計(jì)前,利用Mask R-CNN進(jìn)行物體分割來獲取物體特征,在經(jīng)過YCB-Video以及LINEMOD數(shù)據(jù)集的數(shù)據(jù)微調(diào)后,物體分割得到較高的平均精度。在YCBVideo數(shù)據(jù)集測試中,被遮擋的物體分割I(lǐng)oU(intersection over union)超過85%的精度AP85達(dá)到49.4%,mAP達(dá)到46.5%,以達(dá)到Mask R-CNN在遮擋物體上的測試標(biāo)準(zhǔn)。在LINEMOD數(shù)據(jù)集測試中AP85為82.7%,mAP為72.9%,具體的測試精度如表2所示。
YCB-Video數(shù)據(jù)集測試結(jié)果與分析:將結(jié)果與PoseCNN[1]進(jìn)行了比較,并且為了進(jìn)一步驗(yàn)證本文所提出的多視角像素融合結(jié)構(gòu)的有效性,將該結(jié)構(gòu)進(jìn)行了單獨(dú)的比較,對比結(jié)果如表1所示。從表中可以看出,本文所提出的方法精度分別為88.7%和89.3%,精度上比PoseCNN方法稍差,但是在計(jì)算效率上,本文方法比前者提高了155倍,這得益于在數(shù)據(jù)輸入時僅將點(diǎn)云作為原始信息來進(jìn)行輸入,而無需進(jìn)行費(fèi)時的迭代優(yōu)化,而PoseCNN需要經(jīng)過耗時的ICP深度優(yōu)化之后才能取得不錯的效果。除此之外,根據(jù)表中可以看到,使用多視角像素融合結(jié)構(gòu)可以在物體少量遮擋的情況下稍微提高實(shí)驗(yàn)精度。部分實(shí)驗(yàn)結(jié)果的可視化效果如圖6所示。
YCB-Occlusion測試集測試結(jié)果與分析:為了進(jìn)一步驗(yàn)證本文所提出的多視角像素級融合結(jié)構(gòu)的有效性,對該結(jié)構(gòu)進(jìn)行了測試,測試結(jié)果如表3所示。從表中可以看出,使用該結(jié)構(gòu)的模型在物體RGB信息和深度信息大面積缺失的情況下,仍然可以取得74.9%和77.2%的精確度,比未使用物體模型視圖的網(wǎng)絡(luò)模型要分別高出10.6個百分點(diǎn)和9.7個百分點(diǎn)。其中,對于表面紋路不清晰的木頭和碗,以及深度信息容易丟失的黑色記號筆和夾子,精度下降幅度尤為明顯。相較于PoseCNN+ICP模型中的ICP優(yōu)化,PFNet模型中的深度信息能直接對應(yīng)地進(jìn)行點(diǎn)云微調(diào),使得深度信息能更好地融合RGB像素特征,從而避免了特征嚴(yán)重缺失帶來的點(diǎn)云不匹配問題。而且本文還利用可視化技術(shù)對測試結(jié)果做了進(jìn)一步分析,可視化效果如圖7所示,可知當(dāng)物體丟失的信息為該物體的關(guān)鍵特征時,例如物體表面紋路和深度信息時,6D姿態(tài)估計(jì)的誤差就會相對較大;而丟失非關(guān)鍵特征時,例如紋路較淺的顏色特征,則6D姿態(tài)估計(jì)的誤差就會相對較小。
Table 1 Performance comparison of different models on YCB-Video dataset表1 在YCB-Video數(shù)據(jù)集上的不同模型效果對比
Table 2 Test accuracy of Mask R-CNN表2 Mask R-CNN測試精度%
Table 3 Comparison of model performance on YCB-Occlusion dataset表3 在YCB-Occlusion數(shù)據(jù)集上的模型效果對比
Fig.7 Visualization of results on YCB-Occlusion dataset圖7 YCB-Occlusion數(shù)據(jù)集結(jié)果可視化
由于物體RGB信息丟失以及深度信息丟失兩者對像素級融合網(wǎng)絡(luò)有著不同程度的影響,因此選擇四種表面紋理較為明顯且不容易丟失深度信息的物體進(jìn)行測試,分別為:廚師罐頭、魚罐頭、湯罐頭和杯子。對這四個物體分別設(shè)計(jì)了三組實(shí)驗(yàn)進(jìn)行對比,分別是:只丟失RGB信息、只丟失深度信息、同時丟失RGB和深度信息的,其中丟失信息的位置相同。對比結(jié)果如圖8所示,由圖可知,只丟失RGB信息的以及同時丟失兩種信息的效果都要優(yōu)于只丟失深度信息的效果,這種驗(yàn)證結(jié)果表明:(1)當(dāng)RGB像素丟失時,深度信息也能對姿態(tài)估計(jì)進(jìn)行校準(zhǔn)優(yōu)化,但精度有所下滑;(2)在姿態(tài)估計(jì)階段,深度信息的微調(diào)起到了關(guān)鍵作用;(3)如果微調(diào)過程每個RGB像素特征能在相應(yīng)位置獲得準(zhǔn)確的深度信息,那么姿態(tài)估計(jì)結(jié)果較為準(zhǔn)確,反之則誤差較大。以上對比實(shí)驗(yàn)將進(jìn)一步驗(yàn)證本文所提出的多視角像素級融合結(jié)構(gòu)的有效性。
LINEMOD數(shù)據(jù)集測試結(jié)果與對比:本文還將所提出的模型在LINEMOD數(shù)據(jù)集上進(jìn)行測試,測試結(jié)果如表4所示。由于LINEMOD數(shù)據(jù)集的物體并未被遮擋,而且一張圖片中只估計(jì)一個物體姿態(tài),在MaskRCNN精度較高的情況下,深度信息與RGB信息的融合更加精確,因而姿態(tài)估計(jì)的精度相較于其他ICP優(yōu)化的方法有顯著提高。從表中可以看到,與經(jīng)過ICP優(yōu)化的方法(Implicit 3D[25]以及SSD-6D[8])相比較,本文方法精度提升了18個百分點(diǎn);由于LINEMOD數(shù)據(jù)集并未考慮到遮擋問題,也未提供物體三維合成模型,因此本文并未使用物體視圖特征進(jìn)行優(yōu)化,但本文框架的效果仍要遠(yuǎn)優(yōu)于其他ICP優(yōu)化框架。
Fig.8 Importance comparison of RGB and depth information圖8 RGB以及深度信息的重要性對比
Table 4 Comparison of model performance on LINEMOD dataset表4 在LINEMOD數(shù)據(jù)集上的模型效果對比
本文提出了一種像素級融合網(wǎng)絡(luò)框架,該框架能在遮擋環(huán)境中結(jié)合RGB像素特征和物體視圖的局部特征,更有效地預(yù)測物體6D姿態(tài),即可利用多模塊特征來解決復(fù)雜環(huán)境下的物體姿態(tài)估計(jì)。并且通過大量的實(shí)驗(yàn)表明,本文方法在物體被嚴(yán)重遮擋以及光線不足情況所導(dǎo)致的物體像素丟失時都能展示魯棒性。
在以后的工作中,將在以下幾個方面進(jìn)行擴(kuò)展:(1)將觸覺傳感器和本文的框架結(jié)合起來以獲得準(zhǔn)確的抓取操作;(2)逐漸削弱融合網(wǎng)絡(luò)中的RGB像素,使得機(jī)器人在黑暗中根據(jù)深度信息也能執(zhí)行抓取等操作。