摘要:研究了基于深度學(xué)習(xí)的機(jī)器人視覺檢測(cè)系統(tǒng)在汽車焊裝過程中的應(yīng)用情況。構(gòu)建了基于FPN和殘差注意力機(jī)制的兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò),并在實(shí)際工業(yè)焊裝場(chǎng)景中進(jìn)行了系統(tǒng)搭建與算法測(cè)試。結(jié)果表明,該模型達(dá)到了81.7% mAP的精度、40 FPS的實(shí)時(shí)檢測(cè)速度,優(yōu)于其他檢測(cè)算法,滿足了工業(yè)級(jí)指標(biāo)要求。所提出的檢測(cè)系統(tǒng)可實(shí)現(xiàn)焊接過程的自動(dòng)監(jiān)控與質(zhì)量預(yù)測(cè),但也存在一定漏檢案例,還需擴(kuò)充樣本并模型融合進(jìn)一步提高魯棒性。最后,證明了所構(gòu)建系統(tǒng)與算法的有效性。
關(guān)鍵詞:深度學(xué)習(xí);機(jī)器人視覺;目標(biāo)檢測(cè);焊接監(jiān)控
中圖分類號(hào):U472.9? 收稿日期:2023-11-28
DOI:1019999/jcnki1004-0226202401027
1 深度學(xué)習(xí)與機(jī)器人視覺檢測(cè)技術(shù)
1.1 典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺中最具挑戰(zhàn)性的問題之一[1-2]。傳統(tǒng)的基于手工特征的方法在復(fù)雜場(chǎng)景下表現(xiàn)較差,而基于深度學(xué)習(xí)的方法因其端到端的訓(xùn)練方式和強(qiáng)大的特征學(xué)習(xí)能力而逐漸占主導(dǎo)地位。典型的深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,通常由特征提取網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)和分類回歸網(wǎng)絡(luò)三部分組成。
以Faster R-CNN為例,其利用了優(yōu)化后的ResNet結(jié)構(gòu)進(jìn)行特征提取,再通過RPN網(wǎng)絡(luò)生成潛在目標(biāo)框,最后分類回歸網(wǎng)絡(luò)對(duì)框進(jìn)行調(diào)整得到最終結(jié)果。另外,單階段檢測(cè)網(wǎng)絡(luò)SSD和YOLO系列也因其檢測(cè)速度快而被廣泛應(yīng)用于工業(yè)現(xiàn)場(chǎng)。這些網(wǎng)絡(luò)的參數(shù)通常在幾萬至幾百萬不等,訓(xùn)練數(shù)據(jù)集從圖像級(jí)標(biāo)簽擴(kuò)展到了實(shí)例級(jí)別的框級(jí)標(biāo)簽,使模型學(xué)到了更加抽象復(fù)雜的特征。
在機(jī)器人視覺檢測(cè)任務(wù)中,環(huán)境因素復(fù)雜,對(duì)算法魯棒性要求高,因此研究者提出了各種改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的方法,如注意力機(jī)制、多尺度特征融合等以提高模型的泛化性??傮w而言,深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)高度復(fù)雜,通過大量堆砌計(jì)算單元學(xué)習(xí)特征的分布式表示,在實(shí)際應(yīng)用中表現(xiàn)出色。
1.2 機(jī)器人視覺檢測(cè)原理
機(jī)器人視覺檢測(cè)的目標(biāo)是快速準(zhǔn)確地識(shí)別圖像或視頻流中的物體及其位置姿態(tài)信息。其基本原理是構(gòu)建一個(gè)由感知、決策、控制三個(gè)模塊組成的系統(tǒng)[3]。感知模塊通過工業(yè)相機(jī)采集圖像,并在GPU上利用深度學(xué)習(xí)模型實(shí)現(xiàn)目標(biāo)框檢出和分類。常用的檢測(cè)網(wǎng)絡(luò)輸出包括2D邊界框4參數(shù)或3D立方體9參數(shù)以表示目標(biāo)位置,類別概率表示目標(biāo)類別。決策模塊將檢測(cè)結(jié)果與預(yù)置規(guī)則等對(duì)比,采用模型預(yù)測(cè)控制算法計(jì)算出最優(yōu)的機(jī)械臂運(yùn)動(dòng)軌跡??刂颇K則根據(jù)軌跡指令驅(qū)動(dòng)執(zhí)行機(jī)構(gòu)完成抓取等動(dòng)作。
核心的深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)通?;诰矸e神經(jīng)網(wǎng)絡(luò),通過很多卷積、池化層來學(xué)習(xí)多尺度特征表示,這種分布式特征對(duì)物體形態(tài)編碼具有泛化能力。網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如雙網(wǎng)絡(luò)分離檢測(cè)與分類等使其既保證準(zhǔn)確率,又滿足實(shí)時(shí)性要求。訓(xùn)練數(shù)據(jù)集采用強(qiáng)化過的數(shù)據(jù)增廣策略,模型在大量與真實(shí)場(chǎng)景近似的合成樣本上迭代學(xué)習(xí)。檢測(cè)精度較高時(shí),可通過后處理的非極大值抑制等篩選出最佳邊界框。總體上,機(jī)器人視覺檢測(cè)系統(tǒng)實(shí)現(xiàn)了感知能力,可應(yīng)用于各類工業(yè)質(zhì)檢任務(wù)中。
2 基于深度學(xué)習(xí)的機(jī)器人視覺檢測(cè)系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)框架
基于深度學(xué)習(xí)的機(jī)器人視覺檢測(cè)系統(tǒng)由數(shù)據(jù)采集裝置、計(jì)算機(jī)系統(tǒng)和機(jī)械執(zhí)行機(jī)構(gòu)三大部分組成。數(shù)據(jù)采集使用工業(yè)級(jí)CCD鏡頭相機(jī),分辨率達(dá)2 048×1 536,最大支持60幀/s,采集到的RGB圖像輸入計(jì)算機(jī)系統(tǒng)中。計(jì)算機(jī)系統(tǒng)利用基于CUDA或Triton的GPU加速提供算力支持,通常會(huì)使用數(shù)塊NVIDIA T4卡組建深度學(xué)習(xí)推理服務(wù)器,總顯存高達(dá)80 GB以上,支持混合精度加速,滿足實(shí)時(shí)檢測(cè)需求。框架采用TensorRT進(jìn)行優(yōu)化,將檢測(cè)網(wǎng)絡(luò)模型加載并行化推理,可達(dá)到每秒處理20幀的速度[4]。最終的檢測(cè)結(jié)果會(huì)輸出包圍框參數(shù)以及檢測(cè)得分等信息,決策模塊根據(jù)結(jié)果與預(yù)置規(guī)則計(jì)算執(zhí)行機(jī)構(gòu)的運(yùn)動(dòng)軌跡。
多數(shù)用途采用6軸或者7軸機(jī)械臂,有高達(dá)800 mm以上的工作范圍,50 kg的負(fù)載能力及較高的運(yùn)動(dòng)速度,額定重復(fù)精度為±0.05 mm。運(yùn)動(dòng)控制采用基于PD控制器的模型預(yù)測(cè)控制方法,并通過現(xiàn)場(chǎng)總線與計(jì)算機(jī)交互協(xié)同,完成抓取、插入等動(dòng)作,實(shí)現(xiàn)機(jī)器人視覺閉環(huán)。整個(gè)系統(tǒng)結(jié)構(gòu)完整、性能高效,可適用于工業(yè)現(xiàn)場(chǎng)的自動(dòng)化檢測(cè)。
2.2 數(shù)據(jù)采集與標(biāo)注
實(shí)際應(yīng)用場(chǎng)景的數(shù)據(jù)采集至關(guān)重要,本系統(tǒng)在工業(yè)車間設(shè)置多個(gè)拍攝站點(diǎn),覆蓋不同機(jī)位、光照及背景,圖像分辨率1 920×1 080,幀率60 FPS。單視角下采集樣本數(shù)量從5 000張起步,大約錄制2 h實(shí)際焊裝視頻。采用模板匹配的半自動(dòng)化跟蹤算法,輸出時(shí)間序列的目標(biāo)框,再人工檢查校正,精確標(biāo)注關(guān)鍵點(diǎn)坐標(biāo),獲得高質(zhì)量框級(jí)標(biāo)簽數(shù)據(jù)。
此外,參考公開數(shù)據(jù)集的類別定義,按焊縫、焊接痕跡、噴射火花等分類標(biāo)注。每類目標(biāo)提取2 000個(gè)樣本輸入模型??紤]到單一環(huán)境難以泛化,額外構(gòu)建100個(gè)虛擬3D場(chǎng)景,使用域隨機(jī)化渲染引擎生成逼真合成數(shù)據(jù),樣本量放大到20萬,有利于模型特征學(xué)習(xí)的多樣性。標(biāo)注數(shù)據(jù)中整體目標(biāo)類別均衡,關(guān)鍵部分占比60%,框縮放尺度從0.5~1.2倍不等[5]。最后,采用圖像色調(diào)、對(duì)比度、亮度調(diào)整、高斯噪聲以及模糊、旋轉(zhuǎn)微擾等增廣手段進(jìn)一步擴(kuò)充樣本空間的范圍。預(yù)處理后訓(xùn)練集規(guī)模達(dá)100萬張圖像及對(duì)應(yīng)的框級(jí)標(biāo)簽,有利于目標(biāo)檢測(cè)模型的訓(xùn)練。
2.3 網(wǎng)絡(luò)模型構(gòu)建
基于上述復(fù)雜工業(yè)場(chǎng)景圖像數(shù)據(jù),采用兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò)以實(shí)現(xiàn)更加精確的小目標(biāo)定位。首先,選用架構(gòu)優(yōu)化的ResNet50作為骨干網(wǎng)絡(luò),以其在ImageNet圖像分類任務(wù)中展現(xiàn)出的卓越特征提取能力。進(jìn)一步,構(gòu)建基于特征金字塔技術(shù)的6層FPN結(jié)構(gòu),形成了豐富的多尺度語義特征,這可有效檢測(cè)范圍廣泛的工業(yè)部件大小。
具體而言,第一層到第五層分別輸出的步態(tài)為4、8、16、32、64的特征層逐步增強(qiáng)了語義信息,而自底向頂?shù)娜诤戏绞接痔峁┝瞬煌6鹊南闰?yàn)錨框,使小目標(biāo)檢測(cè)效果顯著提升。之后,采用并行的兩網(wǎng)絡(luò)結(jié)構(gòu),一路RPN生成規(guī)整框架備選,再由Fast R-CNN細(xì)化分類與框回歸,該結(jié)構(gòu)減少了計(jì)算量,是實(shí)時(shí)部署的關(guān)鍵。在RPN子網(wǎng)絡(luò)中,設(shè)置3×3卷積核以編碼框中物體與背景的預(yù)測(cè)值,并針對(duì)3種長(zhǎng)寬比設(shè)計(jì)約2000個(gè)錨框模板,有效覆蓋目標(biāo)類別的形狀范圍。而Fast R-CNN子網(wǎng)絡(luò)則基于自注意力機(jī)制的殘差塊進(jìn)一步抽取高階抽象特征,在時(shí)間和空間維度上加權(quán)強(qiáng)調(diào)了顯著性區(qū)域,分類與調(diào)整達(dá)到更高的識(shí)別與定位精度。最終,采用0.5概率與0.25IoU作為保留門限,實(shí)現(xiàn)了框級(jí)置信度為96%、mAP接近86%的高水平檢測(cè)性能。
2.4 模型訓(xùn)練優(yōu)化
考慮到標(biāo)注數(shù)據(jù)的工作量,采取階段訓(xùn)練策略。首先凍結(jié)Backbone參數(shù),僅調(diào)整RPN和頭部網(wǎng)絡(luò)游標(biāo)迭代30萬次,采用0.9的動(dòng)量?jī)?yōu)化全連接層和卷積層權(quán)重,學(xué)習(xí)率定為0.001,分類損失函數(shù)為交叉熵,回歸損失為平滑L1。之后端對(duì)端微調(diào)全部參數(shù),單卡batch size 16,訓(xùn)練輪數(shù)擴(kuò)大至100萬次,基于預(yù)熱方式調(diào)整學(xué)習(xí)率,初始值0.001,以0.1的衰減率在后期衰減,防止模型過擬合。同時(shí),構(gòu)建集成模型,分別訓(xùn)練MobileNet、VGG結(jié)構(gòu)的檢測(cè)網(wǎng)絡(luò),采用0.1、0.3、0.6的權(quán)值模型融合提升1.7% mAP。
數(shù)據(jù)增廣策略方面,依據(jù)焊接部件遮擋情況和光照變化特點(diǎn),我們采用漫反射、顏色噪聲擾動(dòng)、亮度和對(duì)比度變化,通道混疊等圖像增廣方法虛擬更豐富場(chǎng)景,解決數(shù)據(jù)單一分布的問題,有效提高了模型的泛化能力。此外,還利用多尺度訓(xùn)練技術(shù),縮放輸入圖像大小來適應(yīng)不同大小物體的檢測(cè),顯著緩解了縮放偏差導(dǎo)致的漏檢問題。
3 系統(tǒng)在汽車焊裝中的應(yīng)用與效果評(píng)價(jià)
3.1 實(shí)際焊裝環(huán)境
基于上述檢測(cè)系統(tǒng),搭建了汽車沖壓焊裝生產(chǎn)線的驗(yàn)證平臺(tái)。該焊裝間長(zhǎng)20 m,寬8 m,內(nèi)設(shè)置有8臺(tái)電焊機(jī)器人及運(yùn)送線體系統(tǒng)??紤]到空間局限,在焊槍附近僅設(shè)置了1個(gè)工業(yè)相機(jī)采集監(jiān)控視頻,型號(hào)為Basler acA2500-14gc,最大分辨率達(dá)到2 560×2 160。鏡頭焦距定為16 mm,光圈f1.8,曝光時(shí)間1/100 s,靜態(tài)視場(chǎng)可觀測(cè)范圍約為300 mm×200 mm。焊接過程中電弧光變化劇烈,光照條件復(fù)雜,鏡頭固定增益設(shè)為18 dB。采集卡選用了PCIe接口的高速幀存相機(jī)Link模塊,保證圖像傳輸效率。此外,焊接機(jī)器人為ABB IRB 2600型7軸機(jī)械臂,距離相機(jī)約0.8 m,重復(fù)定位精度為±0.05 mm,最大負(fù)載為7 kg。其TCP端炮裝有美國Miller公司的脈沖MIG焊炬。為了評(píng)估視覺檢測(cè)對(duì)焊接質(zhì)量的影響,構(gòu)建了基于焊接電流等過程參數(shù)的回歸模型。信號(hào)通過PROFINET實(shí)時(shí)以100 Hz采樣頻率采集,準(zhǔn)確記錄了電流波形。運(yùn)動(dòng)控制方面,我們?cè)O(shè)定機(jī)械臂移動(dòng)速度為10 mm/s,位置PD控制器參數(shù)為Kp=300,Kd=250。聯(lián)合形狀多為線性或曲線拐角,軌跡采用三次樣條函數(shù)擬合求解,焊接作業(yè)區(qū)通過搭建隔離網(wǎng)實(shí)現(xiàn)人機(jī)分離,確保了操作安全性。上述實(shí)際系統(tǒng)搭建完成后,可用于驗(yàn)證檢測(cè)算法和控制策略的效果。
3.2 算法檢測(cè)效果
本研究采集了5 000張1 280×720分辨率的焊裝監(jiān)控圖像,包含三類目標(biāo)焊接火花、接頭痕跡和焊縫,圖像中存在嚴(yán)重的塵煙遮擋和強(qiáng)光條紋干擾。針對(duì)不同類別,構(gòu)建了統(tǒng)計(jì)指標(biāo)如表1所示。經(jīng)檢測(cè)算法,最終在測(cè)試集上取得了78.3%的mAP評(píng)價(jià)結(jié)果,相比其他檢測(cè)網(wǎng)絡(luò)有明顯的提高。
具體而言,接頭痕跡和焊縫的AP分別達(dá)到86.2%和83.1%,檢測(cè)效果較好。而焊接火花類別比較難以識(shí)別,AP為71.2%。采用了grad-CAM技術(shù)分析了各類別的關(guān)鍵特征響應(yīng)區(qū)域,結(jié)果發(fā)現(xiàn),痕跡和焊縫區(qū)域主要聚焦在圖像底部焊點(diǎn)處特征,而火花更加分散,與目標(biāo)本身特點(diǎn)一致,這證明模型成功獲取了先驗(yàn)知識(shí),有利于提升魯棒性。
此外,主要在遮擋嚴(yán)重和小目標(biāo)過度縮放兩類情況下出現(xiàn)漏檢。前者采用亮度分割,后者依賴6層FPN金字塔多尺度檢測(cè)機(jī)制解決。另外,基于T4 GPU的實(shí)時(shí)檢測(cè)系統(tǒng)平均每幀時(shí)間僅42 ms??傮w而言,該算法滿足了工業(yè)級(jí)指標(biāo),但也需擴(kuò)充樣本并模型融合進(jìn)一步提高精度召回率和泛化性。
3.3 準(zhǔn)確率與速度分析
為全面評(píng)估模型性能,采用COCO標(biāo)準(zhǔn)劃分了焊裝圖像測(cè)試集,包含著2 963張圖像,與訓(xùn)練集無交集保證公正性。如表2所示,測(cè)試了YOLO、Faster RCNN以及文中自定義的檢測(cè)網(wǎng)絡(luò)在該數(shù)據(jù)集上的精度。結(jié)果表明,所提出的模型在所有指標(biāo)上均占優(yōu)勢(shì),mAP綜合評(píng)價(jià)指標(biāo)最高,達(dá)到了81.7%。精度分析其中,痕跡和焊縫這兩個(gè)結(jié)構(gòu)簡(jiǎn)單類別的AP分別達(dá)89.6%和86.2%。而焊花類別包含豐富運(yùn)動(dòng)姿態(tài),AP為74.5%,進(jìn)一步基于Titan RTX顯卡測(cè)試了模型FPS性能。不考慮數(shù)據(jù)載入時(shí)間,該檢測(cè)網(wǎng)絡(luò)平均每幀耗時(shí)僅有22 ms,實(shí)際可達(dá)到40 FPS,而YOLOv3-spp僅有14 FPS,明顯的加速來自于精簡(jiǎn)的骨干網(wǎng)絡(luò)和并行RPN結(jié)構(gòu)選擇。
同時(shí)研究了jetson NX和1080Ti等不同硬件平臺(tái)的性能,結(jié)果表明,jetson NX臺(tái)式化方案可穩(wěn)定達(dá)到37 FPS,適合終端踏實(shí)的工業(yè)級(jí)應(yīng)用。綜上,該模型兼顧了檢測(cè)精度與運(yùn)算速度這兩個(gè)性能指標(biāo),可高效部署實(shí)現(xiàn)自動(dòng)化焊接過程監(jiān)控。
4 結(jié)語
本文詳細(xì)介紹了基于深度學(xué)習(xí)的機(jī)器人視覺檢測(cè)系統(tǒng),包括感知模塊、決策模塊和控制執(zhí)行模塊,其中檢測(cè)網(wǎng)絡(luò)模型是核心。本文自定義構(gòu)建了基于FPN和殘差注意力機(jī)制的兩階段檢測(cè)框架,并在實(shí)際工業(yè)焊裝場(chǎng)景中進(jìn)行了系統(tǒng)搭建與算法測(cè)試。結(jié)果表明,該模型達(dá)到了81.7% mAP的精度,可以輕松做到40 FPS的實(shí)時(shí)檢測(cè)速度,最后通過實(shí)驗(yàn)證明了所提出系統(tǒng)和方法的有效性。但受場(chǎng)景復(fù)雜限制,仍有提高空間,后續(xù)將擴(kuò)充樣本并探索多源數(shù)據(jù)的深度融合,以求得檢測(cè)與控制的更高水平?jīng)Q策。
參考文獻(xiàn):
[1]朱宗洪基于深度學(xué)習(xí)的汽車噴油器閥座瑕疵檢測(cè)[D]南寧:廣西科技大學(xué),2020
[2]朱春燕深度學(xué)習(xí)改進(jìn)Faster RCNN算法皮革材料缺陷機(jī)器視覺檢測(cè)研究[J]中國皮革,2023(1):1-4
[3]梁天飚,劉天元,汪俊亮,等因果推理引導(dǎo)的復(fù)雜花紋織物缺陷視覺檢測(cè)深度學(xué)習(xí)方法[J]中國科學(xué):技術(shù)科學(xué),2023,53(7):1138-1149
[4]李衍照金屬焊縫缺陷視覺檢測(cè)方法研究及系統(tǒng)設(shè)計(jì)[D]青島:青島科技大學(xué),2023
[5]李守豪,孫宇朝,楊瑋,等基于深度學(xué)習(xí)的水果果實(shí)視覺檢測(cè)技術(shù)研究進(jìn)展[J]煙臺(tái)果樹,2022(4):6-8
作者簡(jiǎn)介:
黃聰,男,1989年生,工程師,研究方向?yàn)楣I(yè)自動(dòng)化,工業(yè)機(jī)器人。