摘 要:針對復(fù)雜場景中機器人的無序抓取需要,提出一種兩階段的抓取檢測算法。改進YOLOv5的網(wǎng)絡(luò)模型,在多尺度特征融合上將淺層位置信息和深層語義信息進行注意力融合,提高多尺度目標(biāo)的檢測能力;將排斥因子引入損失函數(shù)中,提高了模型在遮擋環(huán)境下的魯棒性;在目標(biāo)檢測后對抓取目標(biāo)邊界框進行裁切處理,避免了抓取檢測過程中其余目標(biāo)的干擾;改進抓取檢測算法,引入CSP結(jié)構(gòu)和注意力機制,提高了模型的特征提取能力。在真實環(huán)境下針對隨意擺放的多目標(biāo)遮擋物體進行抓取實驗,結(jié)果表明:機器人抓取成功率為95%。
關(guān)鍵詞:調(diào)壓閥;目標(biāo)檢測算法;輕量化;重參數(shù)化;特征融合
中圖分類號:TP391.41" 文獻(xiàn)標(biāo)志碼:A" 文章編號:1671-5276(2024)05-0218-06
A Two-stage Grasp Detection Algorithm Based on Improved YOLOv5
Abstract:A two-stage grasp detection algorithm is proposed for the disorderly grasping needs of robots in complex scenes. The network model of YOLOv5 is improved by attention fusion of shallow location information and deep semantic information on multi-scale feature fusion to improve the detection of multi-scale targets. The rejection factor is introduced into the loss function to enhance the robustness of the model in occlusion environment. The grasp target bounding box is cropped after the target detection to avoid the interference from the rest of the targets during the grasp detection process. The grasp detection algorithm is improved by introducing the CSP structure and attention mechanism to improve the feature extraction ability of the model. In grasping multi-target obscured objects randomly placed in a real environment, the results show that the robot has a 95% success rate.
Keywords:pressure regulating valve;target detection algorithm;lightweight;re-parameterization;feature fusion
0 引言
伴隨著人工智能的快速崛起,智能制造業(yè)中機器人的應(yīng)用深度和廣度得到了顯著提升。機械手抓取作為智能機器人最重要的技能之一,被廣泛應(yīng)用在工業(yè)領(lǐng)域中替代人工進行工件抓取分類、產(chǎn)品包裝等工作[1]。目前,在復(fù)雜環(huán)境下的多目標(biāo)抓取檢測仍具有較大挑戰(zhàn),獲取更高精度的抓取姿態(tài)成為了抓取控制領(lǐng)域的研究熱點[2]。
近年來,基于深度學(xué)習(xí)的經(jīng)驗法抓取取得了一定的研究成果。LENZ等[3]首次采用滑動窗口檢測框架搭建神經(jīng)網(wǎng)絡(luò),達(dá)到了73.9%的準(zhǔn)確率,但是其模型計算量過大,無法進行實時檢測;REDMON等[4]舍棄滑動窗口的檢測方法,利用AlexNet網(wǎng)絡(luò)直接回歸獲得檢測結(jié)果,達(dá)到了88%的準(zhǔn)確率,且可以實時運行;MORRISON等[5]借鑒語義分割的算法思想,提出了基于像素點檢測的輕量化抓取模型GGCNN,模型運行速度快,但準(zhǔn)確率不高;KUMRA等[6]在其基礎(chǔ)上將殘差模塊添加到特征提取骨干網(wǎng)絡(luò),以RGB-D融合圖像作為輸入,提高了模型的準(zhǔn)確率;張志康等[7]提出了基于語義分割分階段特征融合的抓取檢測算法,具有較高的檢測精度,但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜;金歡[8]采用級聯(lián)式的網(wǎng)絡(luò)結(jié)構(gòu),將原始圖像先分割后檢測,實現(xiàn)了多目標(biāo)抓取檢測。
綜上所述,已知的抓取檢測算法僅利用特征提取網(wǎng)絡(luò)中的最后一層輸出特征圖進行特征預(yù)測,對于尺寸多變、形狀不同、姿態(tài)未知的目標(biāo),往往傾向于生成大目標(biāo)的抓取框,而對小目標(biāo)的檢測性能較差,同時大部分的抓取模型為單目標(biāo)場景抓取,沒有考慮實際工業(yè)環(huán)境中背景復(fù)雜、目標(biāo)間存在相互遮擋等問題。針對以上問題,本文提出了一種兩階段的抓取檢測算法。
1 兩階段抓取檢測算法
為了滿足抓取檢測中無序抓取的任務(wù)需求,除了生成最優(yōu)的抓取檢測框外,還需要識別出目標(biāo)種類,本文通過設(shè)計并聯(lián)式的兩階段抓取檢測算法,實現(xiàn)在復(fù)雜環(huán)境中雜亂物體的抓取。整個抓取檢測流程如圖1所示。
2 目標(biāo)檢測網(wǎng)絡(luò)
YOLOv5在目標(biāo)檢測領(lǐng)域具有了較好的檢測精度和檢測效率,其網(wǎng)絡(luò)框架如圖2所示。但是在實際應(yīng)用環(huán)境中,機器人檢測的目標(biāo)多樣復(fù)雜、抓取環(huán)境雜亂、物體密集堆疊。針對以上問題,本文在數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)以及損失函數(shù)部分做出改進。
2.1 數(shù)據(jù)預(yù)處理
在訓(xùn)練的過程中,通過模擬物體遮擋,可以提高模型被遮擋時的抗干擾性,同時對于整體數(shù)據(jù)集而言是一種正則化處理方式,避免了網(wǎng)絡(luò)過擬合,對模型的學(xué)習(xí)能力有所提升。
本文采用多種數(shù)據(jù)增強方法來模擬物體遮擋的效果,具體效果如圖3所示。Cutout和Random erasing均通過在圖像中隨機裁切一個矩形區(qū)域,前者直接在此區(qū)域內(nèi)填充0,后者賦值隨機像素值;Hide-and-Seek 為解決弱監(jiān)督問題中目標(biāo)定位的精度問題,采用隨機裁切若干個區(qū)域,從而讓模型學(xué)習(xí)物體的全局信息;GridMask在 HaS的基礎(chǔ)上采用了等間隔裁切區(qū)域的方式,并且對該區(qū)域?qū)崿F(xiàn)一定的旋轉(zhuǎn)。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
在卷積神經(jīng)網(wǎng)絡(luò)中,通過上下采樣可以獲得不同尺寸的特征圖。低緯特征圖能夠包含目標(biāo)物體的空間特征信息,有利于確定目標(biāo)的空間位置,而高緯特征圖包含更豐富的語義特征信息,具有圖像的概括能力,有利于分類任務(wù)的完成。
原有的YOLOv5采用SPP(空間金字塔池化)來獲取不同感受野的大小,采用統(tǒng)一步長,不同大小卷積核對輸入特征圖進行卷積操作,沒有綜合局部信息與全面信息的語義關(guān)系。本文結(jié)合深度可分離卷積實現(xiàn)ASPP(空洞空間金字塔池化),降低參數(shù)計算量,無需通過減小圖片和多個卷積核串聯(lián)來增加感受野。如圖4所示, 第1個分支采用1×1卷積,保留輸入特征的感受野;中間3個分支分別采用擴張系數(shù)為1、3、5的空洞卷積,獲得不同大小的感受野;第5個分支采用全局池化得到全局感受野;最后將各個特征輸出Concat拼接后經(jīng)過一個1×1卷積,實現(xiàn)多尺度特征提取。經(jīng)過ASPP后的多尺度特征信息包含了大量的冗余信息,可通過添加注意力機制提高其特征提取效率。
YOLOv5原有的FPN+PAN在多尺度特征融合上對不同的輸入特征圖采用了平等的處理方式,而不同尺寸的特征圖擁有不同的信息密度,在特征融合過程中所提供的有效特征是不相等的。為了提高多尺度融合中特征復(fù)用效率,本文采用BiFPN[9](加權(quán)雙向特征金字塔網(wǎng)絡(luò)),在不同尺度的特征通道上引入了可學(xué)習(xí)的權(quán)重,重復(fù)利用自頂向下和自下而上的多尺度特征融合,充分利用不同分辨率中的特征信息。
CBAM[10]作為混合注意力機制,包含兩個獨立的子模塊:通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM),分別將注意力映射到特征圖的通道和空間兩個維度,實現(xiàn)自適應(yīng)特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
本文將CBAM嵌入到ASPP和CSP模塊后, 在特征融合之前,對特征圖進行加權(quán)處理,提升關(guān)鍵特征,并抑制無關(guān)特征,使得網(wǎng)絡(luò)能將重要信息加以融合。這樣不僅使融合后的特征圖包含更有效的目標(biāo)信息,提升遮擋目標(biāo)的定位精度,還達(dá)到降低模型的計算量,提升檢測速度的目的。
2.3 損失函數(shù)改進
為了提高模型的遮擋檢測性能,本文在CIoU的基礎(chǔ)上引入新的損失函數(shù)Repulsion loss[11],通過調(diào)整目標(biāo)預(yù)測框與真實框、重疊目標(biāo)預(yù)測框和真實框之間的關(guān)系,盡可能讓預(yù)測框靠近真實框,遠(yuǎn)離其他目標(biāo)框,降低NMS對閾值的敏感度。Repulsion loss損失函數(shù)如下所示。
L=LAttr+α×LRepGT+β×LRepBox(1)
式中:LAttr表示目標(biāo)預(yù)測框與真實框之間的損失,本文采用CIoU替換原有的SmoothL1損失;LRepGT表示目標(biāo)預(yù)測框與周圍其他目標(biāo)真實框之間的損失;LRepBox表示目標(biāo)預(yù)測框與周圍其他目標(biāo)預(yù)測框之間的距離;α、β為權(quán)重調(diào)節(jié)系數(shù)。
LRepGT是所有正樣本預(yù)測框與其最大CIoU值的真實框的IoG均值,公式如下所示。
式中:G表示真實框;g為所有真實框的集合;P表示預(yù)測框;p為IoU大于閾值的正樣本預(yù)測框的集合;BP是根據(jù)預(yù)測框P調(diào)整后獲得;GPRep是目標(biāo)預(yù)測框p除與之匹配的最大CIoU值的真實框;GPAttr是與目標(biāo)預(yù)測框p相對應(yīng)具有最大CIoU值的真實框。
LRepBox作為相鄰但不同目標(biāo)預(yù)測框之間的排斥項,使得預(yù)測框和周圍的其他預(yù)測框盡可能遠(yuǎn)離,公式如下所示。
3 抓取檢測網(wǎng)絡(luò)
GR-ConvNet是基于抓取點的抓取位姿檢測算法模型。通過RGB-D的像素點信息預(yù)測出抓取目標(biāo)的最佳抓取姿態(tài)以及每一個抓取點的質(zhì)量分?jǐn)?shù),其網(wǎng)絡(luò)模型如圖6所示。
該算法主要應(yīng)用于單目標(biāo)的抓取位姿檢測,無法對目標(biāo)對象進行分類處理,抓取受到環(huán)境干擾大,同時在多尺度檢測上容易忽視小目標(biāo)的抓取。針對以上問題,本文在數(shù)據(jù)預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)部分做出改進。
3.1 數(shù)據(jù)預(yù)處理
在多目標(biāo)復(fù)雜場景以及目標(biāo)之間存在堆疊時,輸入圖片中的背景和其他物體所包含的像素信息對GR-ConvNet算法具有一定的干擾性,主要是由于檢測過程中只生成一個最佳的抓取框,抓取框選取的是全局圖像中抓取置信度最高的點,而部分噪聲點會干擾抓取框的選取,導(dǎo)致誤檢現(xiàn)象的發(fā)生。本文采用目標(biāo)檢測算法對抓取檢測輸入的圖像進行預(yù)處理,只保留目標(biāo)物體的邊界框,將其余部分填充0。
3.2 模型結(jié)構(gòu)優(yōu)化
針對原有模型中的殘差模塊,本文引進注意力機制CBAM,如圖7所示,嵌入在殘差模塊中的BN層后,提高模型的特征提取能力。同時借鑒CSP模塊對其進行優(yōu)化,通過采用CSP模塊將輸入特征分為兩個分支使得通道數(shù)減半,其中一部分通過5個改進的殘差模塊后與另一部分進行通道相加,減少了計算量;在梯度反向傳播過程中,同一個梯度在不同的模塊中被反復(fù)計算,會導(dǎo)致大量的梯度冗余,通過對特征通道的裁剪,使得梯度在不同的分支中獨自進行梯度回傳,沒有重復(fù)計算,有效地降低了梯度冗余,提高了模型的運行速度。
4 實驗及結(jié)果分析
4.1 目標(biāo)檢測
本實驗采用自制工件數(shù)據(jù)集進行模型訓(xùn)練,如圖8所示,對自動化裝備生產(chǎn)中所需的氣動工件采用Kinect V2深度相機采集。一共選取4種工件,采集了1 200張圖像,以VOC格式對其進行標(biāo)注,按照8∶1∶1的比例劃分為訓(xùn)練集、驗證集和測試集。
為充分驗證模型改進的有效性,設(shè)置消融實驗和對比實驗探究不同改進策略對檢測算法的性能影響。本文采用mAP(均值平均精度)和FPS(幀率)作為評價指標(biāo),表示檢測算法對目標(biāo)的平均檢測精度和速度。
消融實驗如表1所示,A表示替換ASPP模塊后模型在不增加計算量的前提下,擴大了感受野,增強了模型識別不同尺寸目標(biāo)的能力,檢測速度和檢測精度均有所提升;B表示增加注意力機制CBAM,加強了目標(biāo)對象的關(guān)注度,有效降低了背景的干擾,增強了模型的魯棒性,提高了模型的檢測精度;C表示在特征融合階段采用了BiFPN,在不同深度的特征圖中采用不同的權(quán)重進行特征裁切,檢測速度有小幅度降低但精度有所提升;D表示在損失函數(shù)中引入排斥因子,使得模型在復(fù)雜環(huán)境中對遮擋物體的檢測能力和精度得到了提升。相比原有模型,改進后的YOLOV5檢測算法mAP提高了4.3個百分點,而檢測速度基本沒有受到影響。
為探究改進算法在各類別檢測上的影響,本文將原算法A與改進算法B進行類別性能測試實驗,如表2所示。
由表2可知,改進模型在準(zhǔn)確率、召回率和平均精度上均有所提升。在多目標(biāo)遮擋環(huán)境下,流量控制器的模型較小,且表面特征不明顯,部分特征與壓力傳感器相似,當(dāng)遮擋情況嚴(yán)重時便會導(dǎo)致誤檢或漏檢,而改進后的模型顯著提高了對流量控制器的特征提取能力以及遮擋情況下的召回率。
將改進后的YOLOv5算法與目前主流的目標(biāo)檢測算法進行性能對比(表3),檢測速度和檢測精度均有了提升。在背景環(huán)境復(fù)雜、檢測目標(biāo)存在遮擋的情況下依然可以識別出目標(biāo)并精準(zhǔn)定位,減少了漏檢、誤檢的概率。
4.2 抓取位姿檢測
由于cornell數(shù)據(jù)集全部為單目標(biāo)場景,缺少多目標(biāo)堆疊場景下的數(shù)據(jù)集,本文選用cornell數(shù)據(jù)集和自制單目標(biāo)工件數(shù)據(jù)集作為訓(xùn)練集和驗證集,自制多目標(biāo)工件數(shù)據(jù)集作為測試集,驗證不同遮擋程度下抓取檢測算法的性能。
測試數(shù)據(jù)集首先通過目標(biāo)檢測算法進行圖像預(yù)處理,裁切出抓取目標(biāo)區(qū)域并將其余背景部分進行填0處理,再輸入到抓取位姿檢測模型中。不同的檢測算法實驗結(jié)果如表4所示。
由表4可知,在抓取位姿檢測模型中,采用輕量化設(shè)計的GGCNN在檢測速度上優(yōu)勢較大,但是檢測準(zhǔn)確率較低,通過將彩色圖像和深度圖像融合進行多模態(tài)輸入,模型的檢測精度有所提升;本文改進的GR-ConvNet采用RGB-D圖像作為輸入,引入CSP模塊和CBAM注意力機制對殘差結(jié)構(gòu)進行優(yōu)化,減少了梯度冗余,提高了模型的特征提取能力,解決了模型推理速度和檢測精度不平衡的問題,在增加少量推理時間前提下獲取了較高的準(zhǔn)確率,相比原有模型提高了9.1個百分點。
4.3 真實機械臂抓取實驗
本文采用UR5機械臂、Robotiq機械夾爪和Kinect V2深度相機搭建抓取實驗平臺,采用眼在手外的方式固定相機,如圖9所示。
實驗采用多目標(biāo)場景,在平臺上隨機擺放工件,部分工件之間存在遮擋現(xiàn)象,重復(fù)實驗50次,以實際抓取的成功率作為評價指標(biāo)。抓取效果如表5所示。
由表5可知,本文提出的雙階段抓取檢測算法在遮擋條件下具有較高的抓取成功率,通過目標(biāo)檢測算法獲取遮擋目標(biāo)的局部信息,提高了模型的抗干擾性,但依然存在檢測失敗和抓取失敗的案例。高度遮擋環(huán)境下,目標(biāo)間重疊面積過高,導(dǎo)致檢測對象的特征不明顯,對后續(xù)的抓取檢測也有著較大的挑戰(zhàn)。分氣排模型較大且形狀簡單,在抓取過程中具有最佳的抓取表現(xiàn);壓力傳感器由于其表面存在金屬光澤,在圖像中有效像素較少,抓取成功率相比其他種類較低;背壓閥的最佳抓取位姿較少且表面光滑,使用二指夾爪在抓取過程中容易脫落導(dǎo)致抓取失敗。
5 結(jié)語
為實現(xiàn)工業(yè)環(huán)境中工件無序分揀,針對環(huán)境中背景復(fù)雜和目標(biāo)間存在堆疊,難以實現(xiàn)高效分類抓取的問題,提出了一種兩階段抓取檢測算法對工件進行抓取位姿估計。在第一階段采用了目標(biāo)檢測算法,通過修改網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),增強了對遮擋目標(biāo)的檢測能力,在多目標(biāo)密集遮擋環(huán)境下獲得了良好的性能,降低了模型漏檢、誤檢的概率。第二階段中,算法利用第一階段生成的目標(biāo)檢測結(jié)果,對最佳抓取范圍進行裁切,抑制甚至消除了環(huán)境背景對檢測的干擾,再對目標(biāo)物體進行細(xì)粒度的姿態(tài)估計和抓取框生成,實現(xiàn)了最佳的抓取效果。該算法在實際的機器人抓取場景中得到了廣泛應(yīng)用和驗證,具有較強的通用性和魯棒性,能夠適應(yīng)各種不同形態(tài)和大小的物體,并實現(xiàn)高效、精確的抓取操作。今后將進一步研究多個目標(biāo)之間的順序抓取問題以及被遮擋物體的信息補全,進一步提升抓取成功率。
參考文獻(xiàn):
[1] 陳苗苗,葉文華,馬庭田,等. 不規(guī)則金屬物料的抓取位姿實時檢測方法研究[J]. 機械制造與自動化,2022,51(1):177-180,191.
[2] DU GG,WANG K,LIAN S G,et al. Vision-based robotic grasping from object localization,object pose estimation to grasp estimation for parallel grippers:a review[J]. Artificial Intelligence Review,2021,54(3):1677-1734.
[3] LENZ I,LEE H,SAXENA A. Deep learning for detecting robotic grasps[J]. The International Journal of Robotics Research,2015,34(4/5):705-724.
[4] REDMON J,ANGELOVA A. Real-time grasp detection using convolutional neural networks[C]//2015 IEEE International Conference on Robotics and Automation. Seattle,WA,USA: IEEE,2015:1316-1322.
[5] MORRISON D,CORKE P,LEITNER J. Learning robust,real-time,reactive robotic grasping[J]. The International Journal of Robotics Research,2020,39(2/3):183-201.
[6] KUMRA S,JOSHI S,SAHIN F. Antipodal robotic grasping using generative residual convolutional neural network[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas,NV,USA: IEEE,2021:9626-9633.
[7] 張志康,魏赟. 基于語義分割的兩階段抓取檢測算法[J/OL]. 計算機集成制造系統(tǒng).(2022-05-11)[2022-12-11]. http:/lkns.cnki.net/kcms/detail/11.5946.TP.20220517.1009.008.html.
[8] 金歡. 基于卷積神經(jīng)網(wǎng)絡(luò)的機器人抓取檢測研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2019.
[9] TAN MX,PANG R M,LE Q V. EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USA: IEEE,2020:10778-10787.
[10] WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham:Springer International Publishing,2018:3-19.
[11] WANG X L,XIAO T T,JIANG Y N,et al. Repulsion loss:detecting pedestrians in a crowd[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA: IEEE,2018:7774-7783.