王勇,陳薈西,馮雨齊
(1.重慶理工大學(xué)兩江人工智能學(xué)院,重慶,400054;2.重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶,400054)
抓取檢測是機(jī)器人抓取任務(wù)中一個具有挑戰(zhàn)性的問題,它與目標(biāo)檢測的相同之處在于它們都需要從當(dāng)前視覺傳感器獲取的信息,快速、準(zhǔn)確地檢測出理想位置。在目標(biāo)檢測算法中,基于Anchor-based 的方法使得one-stage[1?3]算法性能與two-stage[4?6]的性能相當(dāng);同樣在抓取檢測中,Anchor-based方法能借助預(yù)先設(shè)置的先驗(yàn)信息提升檢測效果,GUO等[7]受Faster-RCNN的啟發(fā),在抓取檢測中采用Anchor box 的先驗(yàn)機(jī)制,降低了直接進(jìn)行回歸計(jì)算的難度;CHU等[8]在多目標(biāo)的抓取檢測中運(yùn)用了Anchor box 的機(jī)制;ZHOU等[9]提出了一種定向Anchor box先驗(yàn)機(jī)制,合理引入了抓取檢測中旋轉(zhuǎn)角度參數(shù)的先驗(yàn)信息,提高了檢測的正確率。但Anchor-based方法嚴(yán)重增加了超參數(shù)的數(shù)量以及網(wǎng)絡(luò)的復(fù)雜度,從而降低了訓(xùn)練的效率。
傳統(tǒng)的目標(biāo)檢測方法大多先窮舉出候選的目標(biāo)位置,而后對位置進(jìn)行分類,這些方法效率較低,且需要后續(xù)處理。目前最新研究中提出將目標(biāo)看作1 個點(diǎn),從而轉(zhuǎn)換為基于關(guān)鍵點(diǎn)檢測的方法。LAW等[10]提出CornerNet模型,采用檢測出的1對左上角和右下角代替錨框(anchor box),同時引入corner pooling 提高檢測能力;DUAN 等[11]在CornerNet 的基礎(chǔ)上進(jìn)行改進(jìn),提出Triplets CenterNet 模型,通過3 個關(guān)鍵點(diǎn)(中心點(diǎn)、左上角和右下角)確定目標(biāo)邊界框;ZHOU 等[12]則提出結(jié)構(gòu)簡化的CenterNet 模型,只預(yù)測邊界框的中心點(diǎn)這1 個關(guān)鍵點(diǎn),它是真正意義上的Anchor-free;ZHOU等[13]提出了ExtremeNet這個自底而上的目標(biāo)檢測框架,將預(yù)測的4 個極點(diǎn)(最上、最左、最底和最右)和目標(biāo)中心點(diǎn)組成5個關(guān)鍵點(diǎn),若這5個點(diǎn)滿足幾何對齊關(guān)系,則可將其組合成一個邊界框。
由于抓取框的中心位置是抓取檢測中最關(guān)鍵的問題,本文將關(guān)鍵點(diǎn)檢測的思想引入機(jī)械臂的抓取檢測中,并基于CenterNet[12]網(wǎng)絡(luò)模型進(jìn)行改進(jìn),提升獲取的中心位置的準(zhǔn)確度;為了更準(zhǔn)確地檢測到抓取感興趣的區(qū)域,本文在特征提取階段之后設(shè)計(jì)一種視覺注意力機(jī)制。
CenterNet[12]使用邊界框的中心點(diǎn)來表示物體,如圖1所示。
圖1 CenterNet模型的邊界框表示Fig.1 Bounding box representation in CenterNet model
首先,將圖像送入全卷積網(wǎng)絡(luò)得到1個關(guān)鍵點(diǎn)的熱力圖,取熱力圖的峰值點(diǎn)為目標(biāo)的中心點(diǎn)
預(yù)測得到目標(biāo)邊界框(x′,y′,w′,h′),其計(jì)算方式為
為了提高視覺信息處理的效率和準(zhǔn)確率,注意力機(jī)制被廣泛引入計(jì)算機(jī)視覺相關(guān)算法中。在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制[15]能夠應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),增強(qiáng)對圖像中的顯著性區(qū)域的提取,而忽略無關(guān)信息。注意力機(jī)制通常通過一個額外的神經(jīng)網(wǎng)絡(luò)模塊來實(shí)現(xiàn),能夠針對性選擇處理輸入的某些部分,或者給輸入的不同部分給予不同權(quán)重。孫文赟[16]在進(jìn)行人臉表情識別時將視覺注意力模型融入全連接網(wǎng)絡(luò)中,WANG等[17]利用ResNet[18]中的殘差模塊來構(gòu)造多個注意力網(wǎng)絡(luò)分支,從而提出了一種殘差注意力學(xué)習(xí)的方法。
與目標(biāo)檢測不同的是抓取檢測具有方向性,JIANG 等[14]提出了由五維參數(shù)(x,y,w,h,θ)構(gòu)成的抓取矩形來表示目標(biāo)的待抓取位置,它僅僅在目標(biāo)檢測邊界框的基礎(chǔ)上加入旋轉(zhuǎn)角度參數(shù),如圖2所示。圖2中,(x,y)為矩形的中心,w和h分別為矩形的寬和高,并且w為夾持器張開的距離,h為夾持器的物理高度,θ(0°~180°)表示相對于水平軸方向的矩形順時針旋轉(zhuǎn)角度。
圖2 抓取位置表示Fig.2 Grasping position representation
與其他基于關(guān)鍵點(diǎn)的目標(biāo)檢測模型相比,CenterNet 模型主要檢測目標(biāo)的中心位置。這種Anchor-free 方法不需要預(yù)先設(shè)置一些超參數(shù),從而檢測更加簡單。在用于機(jī)械臂抓取檢測時,準(zhǔn)確獲得抓取矩形的中心位置對有效預(yù)測抓取矩形至關(guān)重要。本文將中心位置預(yù)測作為關(guān)鍵點(diǎn)估計(jì)問題進(jìn)行重點(diǎn)研究,改進(jìn)CenterNet 模型能夠用于抓取檢測。設(shè)計(jì)一種視覺注意力機(jī)制,以提高檢測的準(zhǔn)確性。
圖3所示為改進(jìn)后的CenterNet 的抓取位置。這里的目標(biāo)是生成關(guān)鍵點(diǎn)的熱力圖其中W為寬,H為高,尺寸縮放比例R為4,關(guān)鍵點(diǎn)類型數(shù)C為1??梢园炎ト∥恢脵z測看作是一個排序問題,需要尋找到一個最優(yōu)的抓取位置;通過對熱力圖的峰值點(diǎn)排序可以確定最大抓取矩形的中心位置,同時也輸出用于修正中心位置的偏移量以及矩形的寬、高和旋轉(zhuǎn)角度
圖3 改進(jìn)CenterNet中抓取位置表示Fig.3 Grasping position representation in improved CenterNet
最終預(yù)測的抓取位置(x′,y′,w′,h′,θ′)計(jì)算方式如式(2)所示,其中x′,y′,w′和h′的預(yù)測方式與CenterNet[12]的相同。大量實(shí)驗(yàn)證明,抓取檢測中的旋轉(zhuǎn)角度θ′比寬和高更難準(zhǔn)確預(yù)測,若直接使用回歸方法計(jì)算該參數(shù),則可能帶來較大誤差。因此,本文先使用激活函數(shù)σ將網(wǎng)絡(luò)輸出值θ′歸一化,然后再轉(zhuǎn)換至[0,180]的取值范圍內(nèi)。
與文獻(xiàn)[16?17]相比,本文設(shè)計(jì)了一種新的視覺注意力機(jī)制,用于特征提取和回歸預(yù)測。該機(jī)制結(jié)構(gòu)更簡單,參數(shù)更少,更容易訓(xùn)練。在網(wǎng)絡(luò)中新增分支來計(jì)算注意力的權(quán)重,使網(wǎng)絡(luò)能夠更加關(guān)注圖像中的關(guān)鍵信息,更好地進(jìn)行關(guān)鍵點(diǎn)的檢測和回歸計(jì)算,從而提升預(yù)測能力。設(shè)通過特征提取得到的特征圖為A∈Rw×h×c,經(jīng)過視覺注意力模塊處理后得到的特征圖為Z∈Rw×h×c,則A→Z的計(jì)算如式(3)所示,
式中:k為一個1×1 的卷積核,而A′ ∈Rw×h,為通過k后輸出的特征圖。使用激活函數(shù)Sigmoid 直接獲取A′的權(quán)重圖I∈[0,1]W×H,每個像素點(diǎn)的權(quán)重代表其注意力的強(qiáng)度,最后權(quán)重I與原特征圖A進(jìn)行點(diǎn)乘運(yùn)算,并加上原特征圖A的值,從而得到處理后的特征圖Z。該注意力機(jī)制在計(jì)算過程中使用的參數(shù)量僅為c。
通常來說,層次越深、越復(fù)雜的神經(jīng)網(wǎng)絡(luò)能夠提取到抽象程度更高的特征。本文采用了具有較強(qiáng)特征提取能力的Hourglass-104[19]作為主干網(wǎng)絡(luò),整體結(jié)構(gòu)由Hourglass-104 模塊、注意力模塊和3個預(yù)測網(wǎng)絡(luò)組成,如圖4所示。
圖4 改進(jìn)CenterNet的機(jī)械臂抓取檢測模型Fig.4 Grasp detection model based on improved CenterNet
在網(wǎng)絡(luò)輸入階段,將RGB 圖像和深度圖像通過前期特征融合的方式變?yōu)镽GD 圖像,經(jīng)特征提取后形成128×128×256的特征圖。在注意力機(jī)制階段,通過一層卷積神經(jīng)網(wǎng)絡(luò)將原通道數(shù)降維為1,然后對應(yīng)生成為128×128×1的權(quán)重圖,將權(quán)重圖與原特征圖按像素點(diǎn)相乘再加上原特征圖,最后輸出128×128×256 的特征圖。預(yù)測網(wǎng)絡(luò)包括3 個部分,各自采用不同的2層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算。
第1部分進(jìn)行關(guān)鍵點(diǎn)預(yù)測,輸出128×128的熱力圖,每個值代表該點(diǎn)權(quán)重,其范圍為[0,1]。當(dāng)某個權(quán)重超過預(yù)設(shè)的閾值時,對應(yīng)的像素點(diǎn)被作為檢測出的關(guān)鍵點(diǎn),最后從關(guān)鍵點(diǎn)中排序選出最大權(quán)重對應(yīng)的點(diǎn)作為最終的抓取預(yù)測矩形中心點(diǎn)。
第2部分進(jìn)行關(guān)鍵點(diǎn)偏移量預(yù)測,代表關(guān)鍵點(diǎn)在x和y方向上的偏移量,輸出為128×128×2 的向量;
第3部分為以每個關(guān)鍵點(diǎn)為中心其他3個參數(shù)預(yù)測,包括抓取矩形的寬、高和旋轉(zhuǎn)角度,輸出為128×128×3的向量。
康奈爾抓取數(shù)據(jù)集中有240個不同的物體,共計(jì)885幅圖像,對于每1幅圖像都包括RGB圖像和對應(yīng)的原始點(diǎn)云數(shù)據(jù)。數(shù)據(jù)集中還有每幅圖像中給定目標(biāo)的多個正矩形和負(fù)矩形標(biāo)簽。本文忽略負(fù)矩形標(biāo)簽,僅使用正矩形標(biāo)簽進(jìn)行實(shí)驗(yàn),圖5所示為數(shù)據(jù)集中部分正標(biāo)簽進(jìn)行可視化呈現(xiàn)的例子。
圖5 數(shù)據(jù)集中部分正矩形標(biāo)簽Fig.5 Some rectangle labels in dataset
為了達(dá)到更好檢測效果,并加速訓(xùn)練過程,本文對網(wǎng)絡(luò)ourglass-104 在目標(biāo)檢測COCO 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在此基礎(chǔ)上進(jìn)行整個模型的端到端訓(xùn)練。
在計(jì)算網(wǎng)絡(luò)誤差時,首先對抓取矩形的標(biāo)簽值進(jìn)行預(yù)處理。對于每個真實(shí)的中心位置p,進(jìn)行采樣獲得對應(yīng)的關(guān)鍵點(diǎn)
式中:λ為康奈爾抓取數(shù)據(jù)集評估中的IOU 閾值,取0.25。
本文采用的損失函數(shù)L包含L1和L2這2 個部分,其中,L1為關(guān)鍵點(diǎn)熱力圖的損失函數(shù),采用Focal Loss[20]解決熱力圖上關(guān)鍵點(diǎn)與非關(guān)鍵點(diǎn)在數(shù)量上不均衡的問題,其計(jì)算方式如式(5)所示;L2為其他參數(shù)的損失函數(shù),直接采用均方誤差函數(shù)。
式中:N為關(guān)鍵點(diǎn)個數(shù);α和β為超參數(shù),取值分別為2 和4。為了避免損失出現(xiàn)NAN 或INF 的情況,本文加入?yún)?shù)e,取10-6。
與同類研究一致,本文也采用五折交叉驗(yàn)證方法來評估預(yù)測結(jié)果。采用圖像分割和對象分割2種方式來進(jìn)行訓(xùn)練集和測試集的劃分。
1)圖像分割方式。圖像分割方式是指將數(shù)據(jù)集中按圖像本身進(jìn)行五折隨機(jī)分割,這有助于評估評估模型檢測不同位置和姿態(tài)物體的性能。
2)對象分割方式。對象分割是指將數(shù)據(jù)集中數(shù)據(jù)按其中的對象實(shí)例進(jìn)行五折隨機(jī)分割。這將有助于提高看不見的對象評估模型性能。
按照康奈爾抓取數(shù)據(jù)集上的矩形度量標(biāo)準(zhǔn)對結(jié)果進(jìn)行評估:如果預(yù)測出的抓取矩形G與任意一個正矩形標(biāo)簽G′能同時滿足如下2 個條件,則認(rèn)為該矩形代表一個合理的抓取位置。
其中,式(6)表示預(yù)測矩形與正矩形標(biāo)簽的角度相差小于30°,式(7)表示預(yù)測的矩形與正矩形標(biāo)簽的Jaccard相似系數(shù)大于25%。
表1所示為本文模型與其他模型使用圖像分割和對象分割2 種方式進(jìn)行實(shí)驗(yàn)的抓取檢測結(jié)果對比。由表1可見:
表1 抓取檢測對比結(jié)果Table 1 Grasping detection contrast results %
1)無注意力機(jī)制的圖像分割和對象分割上的正確率分別為97.7%和94.8%;而加入注意力機(jī)制的正確率分別達(dá)到98.3%和96.7%。
2)文獻(xiàn)[21?25]提出的模型均采用Anchor-free的方法,可以看出最終改進(jìn)的CenterNet模型(有注意力機(jī)制)性能超過了先前算法性能,并且模型滿足端到端的訓(xùn)練,結(jié)構(gòu)更加簡單。
3)文獻(xiàn)[7?9]采用的是基于Anchor-based 的方法,可以看出本文提出的方法比有更高的正確率。
本文將在測試集上進(jìn)行檢測的部分結(jié)果進(jìn)行可視化,如圖6所示。其中,紫色邊框的矩形是待抓取目標(biāo)的正矩形標(biāo)簽,橙色矩形的邊框是關(guān)鍵點(diǎn)檢測中得出的最可能中心點(diǎn)以及其對應(yīng)的其他參數(shù)組成的抓取矩形。由圖6可見模型的檢測結(jié)果與標(biāo)簽重合度比較高。
圖6 部分實(shí)驗(yàn)結(jié)果Fig.6 Part of experimental results
1)本文基于關(guān)鍵點(diǎn)的抓取檢測方法不需要設(shè)置任何先驗(yàn)信息,大幅度降低了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,提升了網(wǎng)絡(luò)的高效性和靈活性。
2)在網(wǎng)絡(luò)中引入的注意力機(jī)制提高了檢測的視覺顯著性,從而提高了檢測的準(zhǔn)確性。
3)通過在康奈爾抓取數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,本文方法具有較高準(zhǔn)確率。