(山東科技大學(xué) 機(jī)器人研究中心 山東 青島 266590)
隨著社會(huì)的不斷發(fā)展,人口老齡化問(wèn)題越來(lái)越嚴(yán)重,世界各國(guó)對(duì)人口老齡化問(wèn)題越來(lái)越重視。針對(duì)老人和殘疾人設(shè)計(jì)的助老助殘機(jī)器人,在日常生活中為老人和殘疾人提供基礎(chǔ)的服務(wù),提高他們的生活質(zhì)量,能夠在一定程度上緩解老齡化問(wèn)題帶來(lái)的社會(huì)壓力。對(duì)于助老助殘機(jī)器人而言,感知是十分重要的部分,通過(guò)傳感器準(zhǔn)確獲取物體真實(shí)位姿,是實(shí)現(xiàn)自動(dòng)化抓取實(shí)物等操作的關(guān)鍵。但目前機(jī)器人搭載的傳感器一般采用激光雷達(dá)或者深度相機(jī)作為傳感器,成本高且計(jì)算量大。面對(duì)真實(shí)環(huán)境中復(fù)雜的場(chǎng)景,如果能僅依靠RGB相機(jī)從二維圖像中準(zhǔn)確檢測(cè)三維物體的位姿信息,將有效降低硬件成本和計(jì)算量。
傳統(tǒng)的物體姿態(tài)估計(jì)方法大都基于人工的局部特征匹配等(例如SIFT[1]),但這些方法僅適用于紋理豐富的對(duì)象。對(duì)于紋理簡(jiǎn)單的對(duì)象,通常使用基于模板的匹配[2]或密集特征學(xué)習(xí)方法[3],但該類(lèi)方法通常對(duì)照明和遮擋很敏感,檢測(cè)結(jié)果易受環(huán)境干擾。特征學(xué)習(xí)方法[4]比基于模板的方法具有更強(qiáng)的泛化能力,但也具有許多不足之處,例如前期需要耗時(shí)進(jìn)行多階段預(yù)處理來(lái)學(xué)習(xí)密集特征,要在產(chǎn)生粗略物體姿態(tài)位置之后,再進(jìn)行姿態(tài)信息的精確優(yōu)化等。
圖1 三維空間物體坐標(biāo)系列變換Fig.1 Three dimensional space objectscoordinate transformation
隨著深度學(xué)習(xí)的發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)的興起,二維圖像中二維物體分類(lèi)、檢測(cè)以及語(yǔ)義分割等[5]方面都取得了顯著的進(jìn)步,但CNN對(duì)二維圖像中三維物體姿態(tài)估計(jì)問(wèn)題的應(yīng)用卻仍然有限。最近,有一些研究[6-8]應(yīng)用深度學(xué)習(xí)從二維圖像中進(jìn)行三維物體姿態(tài)估計(jì),但這些方法均不是端對(duì)端的訓(xùn)練方式。如其中文獻(xiàn)[7]先估計(jì)粗略的物體姿態(tài),再通過(guò)后期改進(jìn)提高精度,大大增加運(yùn)行時(shí)間。本研究將一種基于李代數(shù)的三維物體姿態(tài)表征方式與深度學(xué)習(xí)算法結(jié)合,運(yùn)用李代數(shù)方程將旋轉(zhuǎn)矩陣轉(zhuǎn)化為向量,并利用卷積神經(jīng)網(wǎng)絡(luò)回歸三維物體的旋轉(zhuǎn)向量和平移向量,直接通過(guò)端到端的方式高效、準(zhǔn)確地從二維圖像中預(yù)測(cè)三維物體姿態(tài)信息,同時(shí)也大大降低了三維物體姿態(tài)檢測(cè)的運(yùn)行時(shí)間。
在三維空間中,一個(gè)剛體的運(yùn)動(dòng)可由旋轉(zhuǎn)和平移組成。
旋轉(zhuǎn)一般通過(guò)旋轉(zhuǎn)矩陣、四元數(shù)和歐拉角來(lái)表征[9-10]。此時(shí)矩陣R由兩組基之間的內(nèi)積組成,刻畫(huà)了旋轉(zhuǎn)前后同一個(gè)向量的坐標(biāo)變換關(guān)系,即矩陣R為旋轉(zhuǎn)矩陣。旋轉(zhuǎn)矩陣是行列式為1的正交矩陣,旋轉(zhuǎn)矩陣的集合定義為:
SO(n)={R∈Rn×n|RRT=I,det(R)=1},
(1)
其中,SO(n)是特殊正交群,這個(gè)集合由n維空間的旋轉(zhuǎn)矩陣組成。SO(3)是三維空間的旋轉(zhuǎn),通過(guò)旋轉(zhuǎn)矩陣可以準(zhǔn)確描述相機(jī)的旋轉(zhuǎn)。
平移也是歐式坐標(biāo)變換中的一種??紤]世界坐標(biāo)系中的向量a,經(jīng)過(guò)一次旋轉(zhuǎn)(用R描述)和一次平移t之后,得到a′,則:
a′=Ra+t。
(2)
其中,t為平移向量,相比于旋轉(zhuǎn),平移部分只需要把這個(gè)平移量加到旋轉(zhuǎn)之后的坐標(biāo)上,通過(guò)上式,可以用一個(gè)旋轉(zhuǎn)矩陣R和一個(gè)平移向量t完整描述歐式空間的坐標(biāo)變換關(guān)系[11]。
旋轉(zhuǎn)矩陣描述了一個(gè)6自由度的三維剛體運(yùn)動(dòng),其中矩陣R中有9個(gè)變量但每次旋轉(zhuǎn)只能調(diào)整3個(gè)自由度,這種描述方式是冗余的;同時(shí)旋轉(zhuǎn)矩陣必須是正交矩陣(即行列式為1),這些約束會(huì)使得將旋轉(zhuǎn)矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的真實(shí)值進(jìn)行梯度求導(dǎo)反向傳播求最優(yōu)解變得困難。
對(duì)于任意一個(gè)旋轉(zhuǎn)都可以用一個(gè)旋轉(zhuǎn)軸和一個(gè)旋轉(zhuǎn)角來(lái)刻畫(huà),使用一個(gè)向量,其方向與旋轉(zhuǎn)軸一致,長(zhǎng)度等于旋轉(zhuǎn)角,稱(chēng)為旋轉(zhuǎn)向量,這種表示方法只需要一個(gè)三維向量即可描述旋轉(zhuǎn)。旋轉(zhuǎn)向量和旋轉(zhuǎn)矩陣之間是可以轉(zhuǎn)換的。設(shè)有一個(gè)旋轉(zhuǎn)軸n、角度為θ的旋轉(zhuǎn),對(duì)應(yīng)的旋轉(zhuǎn)向量為θn,從旋轉(zhuǎn)向量到旋轉(zhuǎn)矩陣的轉(zhuǎn)換過(guò)程由羅德里格斯公式完成,有:
R=cosθI+(1-cosθ)nnT+sinθn∧。
(3)
符號(hào)∧表示向量到反對(duì)稱(chēng)矩陣的轉(zhuǎn)換符。
對(duì)于三維旋轉(zhuǎn)矩陣構(gòu)成的特殊正交群SO(3),其對(duì)加法是不封閉的,而對(duì)乘法是封閉的(封閉即變換后仍是旋轉(zhuǎn)矩陣)。對(duì)于任意旋轉(zhuǎn)矩陣R,通過(guò)對(duì)矩陣的求導(dǎo)和在R(0)=I處進(jìn)行一階泰勒展開(kāi),可知其在SO(3)原點(diǎn)附近的正切空間上,同時(shí)在t0附近,設(shè)φ保持為常數(shù)即φ(t0)=φ0,將初始值R(0)=I代入,得:
(4)
so(3)表示SO(3)對(duì)應(yīng)的李代數(shù)向量。至此,SO(3)和so(3)由指數(shù)映射給定:
(5)
由此可知,旋轉(zhuǎn)矩陣和旋轉(zhuǎn)向量可由指數(shù)映射和對(duì)數(shù)映射互相轉(zhuǎn)換。其中,每個(gè)SO(3)中的元素,都可以找到一個(gè)so(3)元素與之對(duì)應(yīng);但很可能存在多個(gè)so(3)對(duì)應(yīng)同一個(gè)SO(3),因?yàn)樾D(zhuǎn)角存在周期性的問(wèn)題,在此處將其固定在正負(fù)180°之間,則李群和李代數(shù)是一一對(duì)應(yīng)的,也就是其三維物體旋轉(zhuǎn)矩陣和旋轉(zhuǎn)向量的對(duì)應(yīng)關(guān)系。
在僅利用二維圖像來(lái)預(yù)測(cè)其中三維物體的姿態(tài)信息時(shí),需要將數(shù)據(jù)集中給定的旋轉(zhuǎn)矩陣與旋轉(zhuǎn)、平移向量互相轉(zhuǎn)化,此時(shí)利用李代數(shù)表征旋轉(zhuǎn)和平移向量,將原來(lái)的學(xué)習(xí)矩陣簡(jiǎn)化為學(xué)習(xí)向量,大大降低了卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。
給定預(yù)測(cè)的旋轉(zhuǎn)矩陣,即來(lái)自姿態(tài)網(wǎng)絡(luò)預(yù)測(cè)的四維向量的前三維,使用指數(shù)羅德里格斯映射來(lái)映射它到相應(yīng)的旋轉(zhuǎn)向量[12-14]。為了準(zhǔn)確計(jì)算平移向量,依賴(lài)于預(yù)測(cè)的z分量(tz-四維預(yù)測(cè)向量中最后一個(gè)元素)和預(yù)測(cè)的邊界框坐標(biāo)來(lái)計(jì)算兩個(gè)缺失分量tx和ty。假設(shè)邊界盒中心(在輸入二維圖片中)是三維檢測(cè)物體重心(對(duì)象坐標(biāo)系的原點(diǎn))的投影點(diǎn)。在此假設(shè)下,使用三維-二維投影公式,按如下方式計(jì)算tx和ty:
(6)
其中u0,v0是二維圖像中的邊界框中心,矩陣[fx,cx,fy,cy]是已知的內(nèi)部相位校準(zhǔn)矩陣。
為了實(shí)現(xiàn)整個(gè)卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)的端到端訓(xùn)練,本研究提出了新的訓(xùn)練方式,將二維圖像作為輸入,輸出檢測(cè)物體的三維姿態(tài)。這需要一種有效的方式來(lái)表征三維物體姿態(tài),同時(shí)也要設(shè)計(jì)合理的損失函數(shù)來(lái)衡量預(yù)測(cè)結(jié)果的準(zhǔn)確性。采用四維向量表征姿態(tài),其中前三維向量表示姿態(tài)的旋轉(zhuǎn)矩陣對(duì)應(yīng)的x和y軸向量,最后一個(gè)元素表示姿態(tài)的平移向量的z軸分量。給定預(yù)測(cè)的z分量和來(lái)自三維邊框回歸分支的預(yù)測(cè)邊界框坐標(biāo),使用三維物體投影屬性來(lái)恢復(fù)完整的平移和旋轉(zhuǎn)向量。三維物體姿態(tài)識(shí)別的結(jié)構(gòu)如圖2所示。
將三維物體投影到二維圖像中時(shí),對(duì)于平移向量,具有相同z軸分量和不同x軸y軸分量的兩個(gè)平移向量可以產(chǎn)生兩個(gè)在二維圖像中具有非常相似的外觀和比例的對(duì)象(在圖像中的不同位置處),且在平行投影的極端情況下,很難有效區(qū)分。這導(dǎo)致網(wǎng)絡(luò)難以通過(guò)僅使用外觀信息作為輸入來(lái)預(yù)測(cè)平移向量的x和y軸分量。
設(shè)計(jì)姿態(tài)回歸網(wǎng)絡(luò)的關(guān)鍵之處是通過(guò)學(xué)習(xí)歐幾里得空間的映射關(guān)系,輸出三維物體姿態(tài)的平移向量,此過(guò)程不需要預(yù)測(cè)完整的映射向量,而是訓(xùn)練網(wǎng)絡(luò)模型僅對(duì)平移向量z軸分量進(jìn)行回歸預(yù)測(cè)。
但表征姿態(tài)的旋轉(zhuǎn)向量比平移向量要復(fù)雜得多。歐拉角因參數(shù)的明確含義易于理解,但歐拉角是以2π弧度環(huán)繞,即對(duì)于相同的旋轉(zhuǎn)角會(huì)對(duì)應(yīng)多個(gè)數(shù)值,這導(dǎo)致對(duì)單個(gè)標(biāo)量進(jìn)行回歸訓(xùn)練是困難的,同時(shí),基于歐拉角的表示方法還受到了萬(wàn)向節(jié)鎖定問(wèn)題的困擾;另一種思路是使用3×3正交矩陣進(jìn)行冗余表征,但在通過(guò)反向傳播訓(xùn)練網(wǎng)絡(luò)時(shí)會(huì)產(chǎn)生強(qiáng)制正交性約束的問(wèn)題,這種約束容易導(dǎo)致優(yōu)化算法陷入局部極小值;而常用的一種表征方式是使用單位長(zhǎng)度的四維四元數(shù),但四元數(shù)表征的缺點(diǎn)是運(yùn)算復(fù)雜且在某些情況下解不穩(wěn)定。
圖2 三維物體姿態(tài)識(shí)別模型結(jié)構(gòu)Fig. 2 Structure of 3D object pose recognition model
本研究使用李代數(shù)與李群(三維旋轉(zhuǎn)矩陣的空間)相關(guān)聯(lián)作為旋轉(zhuǎn)表示方法。李代數(shù)so(3)被稱(chēng)為李群so(3)的恒等元素處的切空間。之所以選擇李代數(shù)so(3)來(lái)表示旋轉(zhuǎn),是因?yàn)閟o(3)的任意元素允許由R3中的矢量參數(shù)化的斜對(duì)稱(chēng)矩陣表示,表示的元素是連續(xù)且平滑的,便于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)進(jìn)行反向傳播,這意味著網(wǎng)絡(luò)只需要回歸三個(gè)標(biāo)量,無(wú)需任何約束即可表示三維物體的旋轉(zhuǎn)矩陣。在訓(xùn)練過(guò)程中,通過(guò)羅德里格斯公式對(duì)數(shù)映射將旋轉(zhuǎn)矩陣的三維信息映射到對(duì)應(yīng)向量中。在學(xué)習(xí)預(yù)測(cè)旋轉(zhuǎn)矩陣時(shí),映射的值用作回歸目標(biāo)值。所以,訓(xùn)練姿態(tài)網(wǎng)絡(luò)目的是回歸四維向量,其中前三個(gè)元素表示旋轉(zhuǎn)部分,最后一個(gè)元素表示姿態(tài)的平移部分的z軸分量。
為了訓(xùn)練網(wǎng)絡(luò),定義一個(gè)新的損失函數(shù)來(lái)訓(xùn)練三維物體的姿態(tài)坐標(biāo):
Loss=Lpose。
(7)
姿態(tài)網(wǎng)絡(luò)中每個(gè)特征輸出4個(gè)向量,表示旋轉(zhuǎn)的李代數(shù)和平移的z分量。姿態(tài)回歸損失Lpose的定義如下:
(8)
采用網(wǎng)絡(luò)模型Inception-Resnet,其中的Inception-resnet模塊在Inception子網(wǎng)絡(luò)的最后加入了一個(gè)1×1擴(kuò)展卷積操作用于使其輸出寬度(channels數(shù)目)與子網(wǎng)絡(luò)的輸入寬度相同,既降低了輸出維度,也加入了非線(xiàn)性激勵(lì),提升了網(wǎng)絡(luò)的表達(dá)能力。同時(shí)該模型在Inception的基礎(chǔ)上增加了殘差網(wǎng)絡(luò)的思想,在網(wǎng)絡(luò)搭建中加入了殘差模塊,能讓網(wǎng)絡(luò)設(shè)計(jì)更加深,具體模型架構(gòu)如圖3所示。
圖3 Inception-Resnet網(wǎng)絡(luò)結(jié)構(gòu)(不同形狀表示不同模塊)Fig. 3 Structure of Inception-Resnet network (different shapes represent different modules)
在圖3的模型結(jié)構(gòu)圖中,將網(wǎng)絡(luò)劃分為主干和分支網(wǎng)絡(luò)兩個(gè)部分。主干網(wǎng)絡(luò)用于在整個(gè)圖像上提取特征作為分支網(wǎng)絡(luò)的輸入。主干網(wǎng)絡(luò)使用Inception-Resnet提取RGB圖像特征,并輸出4 096維的特征層,此特征層用作分支網(wǎng)絡(luò)的輸入。使用類(lèi)不可知思想設(shè)計(jì),即該分支輸出單個(gè)預(yù)測(cè)結(jié)果,而不管類(lèi)是什么。根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),這種設(shè)計(jì)降低了模型的復(fù)雜性和推理時(shí)間,有效提高了輸出結(jié)果的準(zhǔn)確性。
姿態(tài)預(yù)測(cè)分支網(wǎng)絡(luò)由4個(gè)全連接網(wǎng)絡(luò)組成,其中輸出的數(shù)量為4 096→4 096→384→4。除了最后一層外,在每個(gè)完全層之后使用ReLU激活層,強(qiáng)化有效特征的輸出結(jié)果。其中對(duì)于回歸預(yù)測(cè)網(wǎng)絡(luò)的全連接網(wǎng)絡(luò)部分,本方法未做更多復(fù)雜的設(shè)計(jì)。
使用Pytorch深度學(xué)習(xí)庫(kù)實(shí)施整個(gè)模型架構(gòu)[15]。卷積神經(jīng)網(wǎng)絡(luò)的輸入是尺寸為299×299×3的RGB圖像。因在訓(xùn)練調(diào)參過(guò)程中發(fā)現(xiàn),相比于旋轉(zhuǎn)向量,平移向量的學(xué)習(xí)誤差更大,適當(dāng)增大平移向量損失函數(shù)的比例可提高預(yù)測(cè)結(jié)果準(zhǔn)確性,故姿態(tài)損失函數(shù)(13)中β值設(shè)定為1.5。姿態(tài)損失函數(shù)(13)的一個(gè)重要選擇是回歸范數(shù)p。通常,深度學(xué)習(xí)模型使用p=1或p=2,即利用L1范數(shù)或者L2范數(shù)來(lái)衡量預(yù)測(cè)值與真實(shí)值的誤差,使用本文中用到的數(shù)據(jù)集,p= 1會(huì)得到更好的結(jié)果。端到端訓(xùn)練時(shí)使用隨機(jī)梯度下降算法優(yōu)化,其中動(dòng)量參數(shù)為0.9,衰減系數(shù)為0.000 5。該網(wǎng)絡(luò)模型在Titan X GPU上進(jìn)行了50 000次迭代訓(xùn)練,每個(gè)訓(xùn)練批次輸入4張圖片(因其網(wǎng)絡(luò)模型較復(fù)雜,占顯存較大)。對(duì)于第一輪迭代過(guò)程,學(xué)習(xí)速率設(shè)置為0.001,然后對(duì)于剩余的迭代,學(xué)習(xí)速率減少為原來(lái)的十分之一。
輸入圖像進(jìn)行正向傳播計(jì)算,選擇RPN生成的前1 000個(gè)RoI(感興趣區(qū)域)并將其輸入分支網(wǎng)絡(luò)進(jìn)行框回歸,然后進(jìn)行非極大值抑制?;诜种ЬW(wǎng)絡(luò)的輸出結(jié)果,選擇具有高于特定閾值(0.9)的輸出框作為預(yù)測(cè)結(jié)果,然后將姿態(tài)分支網(wǎng)絡(luò)結(jié)果應(yīng)用于檢測(cè)三維物體姿態(tài),其輸出向量轉(zhuǎn)化為三維物體姿態(tài)坐標(biāo)。
本研究在單個(gè)物體姿態(tài)數(shù)據(jù)集LINEMOD[6]上進(jìn)行了模型預(yù)測(cè)結(jié)果評(píng)估,并與二維圖像進(jìn)行三維物體姿態(tài)估計(jì)的相關(guān)方法[6-8]進(jìn)行結(jié)果比較。
度量標(biāo)準(zhǔn):使用文獻(xiàn)[7-8]中的標(biāo)準(zhǔn)指標(biāo)。為了測(cè)量二維中的姿態(tài)誤差,將三維對(duì)象模型投影到圖像中預(yù)測(cè)估計(jì)姿態(tài)坐標(biāo)并與真實(shí)坐標(biāo)的區(qū)域進(jìn)行交并比計(jì)算。如果兩個(gè)檢測(cè)框之間的交并比高于0.5(或者常用閾值如0.9),則接受估計(jì)的坐標(biāo),該指標(biāo)稱(chēng)為二維姿態(tài)評(píng)價(jià)指標(biāo)。
對(duì)于測(cè)量三維物體中的姿態(tài)誤差,使用5cm5°和ADD指標(biāo)進(jìn)行評(píng)價(jià)。在5cm5°度量中,如果在5cm的平移誤差和5°的真實(shí)姿態(tài)角度誤差范圍內(nèi),則接受估計(jì)的姿態(tài)(越小越好)。在ADD度量中,如果由真實(shí)姿態(tài)構(gòu)造的變換模型點(diǎn)云與估計(jì)姿態(tài)之間的平均距離小于檢測(cè)物體直徑的10%,則接受估計(jì)姿態(tài)(越小越好)。對(duì)于IoU的閾值一般使用0.5和0.9兩個(gè)值作為評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果的準(zhǔn)確度。
在文獻(xiàn)[6]的數(shù)據(jù)集中包含雜亂場(chǎng)景中紋理復(fù)雜的物體,本研究?jī)H使用RGB圖像來(lái)評(píng)估。數(shù)據(jù)集包含12個(gè)對(duì)象序列,為了與文獻(xiàn)[6-8]進(jìn)行同等情況下比較,在可獲得的12個(gè)三維物體序列上進(jìn)行評(píng)估。每個(gè)對(duì)象序列中的圖像包含多個(gè)物體,但是,只有一個(gè)物體使用真實(shí)值類(lèi)標(biāo)簽和三維姿態(tài),同時(shí)攝像機(jī)內(nèi)在矩陣參數(shù)也隨數(shù)據(jù)集一起提供。按照文獻(xiàn)[7-8]中的評(píng)價(jià)標(biāo)準(zhǔn),使用相同的數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試:對(duì)于每個(gè)對(duì)象序列,隨機(jī)選擇30%的圖像進(jìn)行訓(xùn)練和驗(yàn)證,剩下的圖像用作測(cè)試集,測(cè)試部分結(jié)果如圖4所示。
表1列出了本研究方法與Brachmann、BB8和SSD-6D在LINEMODE數(shù)據(jù)集[6]上進(jìn)行二維和三維姿態(tài)檢測(cè)的結(jié)果,共分為三個(gè)部分。其中第一部分是圖像的二維誤差矩陣比較,可見(jiàn)三種方法在二維檢測(cè)的性能上并無(wú)較大差別;第二部分給出了本文與Brachmann[6]等對(duì)三維物體姿態(tài)估計(jì)精度的結(jié)果比較,其中方法Brachmann[6]、BB8[7]、SSD-6D[8]均使用二維圖像作為輸入來(lái)預(yù)測(cè)姿態(tài)。在5cm5°度量下,本文略低于BB8方法,而顯著優(yōu)于文獻(xiàn)[6],超過(guò)約39%。ADD指標(biāo)方面,本方法的表現(xiàn)優(yōu)于BB8方法,誤差指標(biāo)低于7.8%,且結(jié)果也比BB8更穩(wěn)定。
圖4 模型預(yù)測(cè)結(jié)果(深色框?yàn)轭A(yù)測(cè)坐標(biāo),淺色框?yàn)檎鎸?shí)坐標(biāo))Fig. 4 Model prediction results (deep box is the predicted result; light box is the GT result)
從表1中對(duì)比可知,本文方法和BB8在5cm5°和ADD誤差指標(biāo)方面都比SSD-6D差。原因在于兩個(gè)方面:一是SSD-6D不單使用來(lái)自數(shù)據(jù)集序列圖像進(jìn)行訓(xùn)練,更是在整個(gè)旋轉(zhuǎn)空間上執(zhí)行離散采樣,并使用已知的三維對(duì)象模型生成圖像用于訓(xùn)練。通過(guò)這種方式,SSD-6D的訓(xùn)練數(shù)據(jù)能夠覆蓋比Brachmann、BB8和本文方法更多的旋轉(zhuǎn)空間,大大擴(kuò)充了訓(xùn)練數(shù)據(jù)集的廣度;二是SSD-6D還使用了基于ICP算法的改進(jìn)方式來(lái)提高精度。而與SSD-6D相比,雖然本方法在評(píng)價(jià)指標(biāo)上稍差,但本方法是端到端的訓(xùn)練方式,直接輸出姿態(tài)而無(wú)需任何后處理,在保證一定準(zhǔn)確率的前提下,提高了計(jì)算效率,達(dá)到了準(zhǔn)確率和效率的平衡。圖4展示了本方法在LINEMOD數(shù)據(jù)集上進(jìn)行單個(gè)對(duì)象姿態(tài)估計(jì)的結(jié)果,可以看出,本方法能較好地預(yù)測(cè)三維物體的姿態(tài)。
表1 不同方法測(cè)試結(jié)果Tab.1 Test results of different methods
表2比較了本研究方法和其他方法的運(yùn)行時(shí)間,其中Brachmann給出每張圖像的運(yùn)行時(shí)間約為0.45 s。本方法的端到端架構(gòu)允許在Titan X GPU上每張圖像的測(cè)試運(yùn)行時(shí)間大約為0.08 s。SSD-6D和BB8相應(yīng)的運(yùn)行時(shí)間約分別為0.1 s和0.3 s。本方法和SSD-6D的測(cè)試速度相當(dāng),比BB8方法快4倍左右。其中,由于使用了后期優(yōu)化方法,當(dāng)輸入圖像包含多個(gè)對(duì)象時(shí),SSD-6D和BB8的測(cè)試時(shí)間可能會(huì)隨之線(xiàn)性增加。
表2 不同方法運(yùn)行時(shí)間比較Tab.2 Results of operating time compared with different methods
針對(duì)助老助殘機(jī)器人識(shí)別和檢測(cè)三維物體姿態(tài)坐標(biāo)問(wèn)題,提出一種基于李代數(shù)的三維物體姿態(tài)檢測(cè)方法,用于從單張二維圖像中預(yù)測(cè)三維物體的姿態(tài)信息。由于本研究方法采用端到端的訓(xùn)練方式,可以直接輸出估計(jì)的三維物體姿態(tài)信息而無(wú)需任何后期優(yōu)化。其中的創(chuàng)新之處在于使用李代數(shù)來(lái)表示旋轉(zhuǎn)和平移向量,通過(guò)李群和李代數(shù)之間的轉(zhuǎn)換來(lái)獲取三維物體的姿態(tài)信息。本方法與目前主流的基于二維RGB圖像的三維物體姿態(tài)估計(jì)方法相比在準(zhǔn)確性和速度方面具有優(yōu)勢(shì)。但網(wǎng)絡(luò)參數(shù)未針對(duì)速度進(jìn)行優(yōu)化,可通過(guò)精心選擇參數(shù)來(lái)實(shí)現(xiàn)速度和準(zhǔn)確度間的更好平衡,需在下一步工作中解決。