王 帥,郭銳鋒,董志勇,王鴻亮,張曉星
(1.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)與控制學(xué)院,北京 100049;2.中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所,遼寧 沈陽(yáng) 110168;3.陸軍炮兵防空兵學(xué)院士官學(xué)校,遼寧 沈陽(yáng) 110867)
伴隨著信息技術(shù)和先進(jìn)制造的深度融合,智能制造日益成為制造業(yè)發(fā)展的主要趨勢(shì),裝配是機(jī)械制造中的重要生產(chǎn)階段,其任務(wù)繁多且過程復(fù)雜[1],正確裝配是保證合格產(chǎn)品高精度組裝的先決條件。目前人工裝配仍具有不可替代的作用。傳統(tǒng)的人工裝配檢測(cè)需要大量的勞動(dòng)力且檢測(cè)效果具有不確定性。溫沛涵等[2]采用傳統(tǒng)圖像處理技術(shù),并引入基于紋理分析和統(tǒng)計(jì)圖像處理方法,進(jìn)行裝配視覺檢測(cè),但耗時(shí)較長(zhǎng)。王小巧等[3]提出裝配過程質(zhì)量門監(jiān)控方法,并基于狀態(tài)空間模型進(jìn)行裝配誤差分析,但裝配質(zhì)量控制參數(shù)有待進(jìn)一步優(yōu)化。模式學(xué)習(xí)、形狀匹配、圖像分割、特征分析、決策分類[4],以及基于單目、雙目的目標(biāo)識(shí)別[5-6]也是傳統(tǒng)的工件檢測(cè)識(shí)別方法。但這些方法大多是人為特征提取,主觀性較強(qiáng)、設(shè)計(jì)較復(fù)雜,難以適應(yīng)實(shí)體二維成像表觀特征的多樣性,普遍存在時(shí)間復(fù)雜度高,對(duì)多樣性樣本魯棒性差的特點(diǎn)。近年來,深度學(xué)習(xí)對(duì)復(fù)雜背景下的目標(biāo)識(shí)別表現(xiàn)突出[7],而且被廣泛應(yīng)用于智能制造領(lǐng)域?;诨旌犀F(xiàn)實(shí)的裝配檢測(cè)可以實(shí)時(shí)進(jìn)行裝配和檢測(cè),能最大程度地避免周期延誤、經(jīng)費(fèi)消耗、效率低下的情況。但是基于深度學(xué)習(xí)的混合現(xiàn)實(shí)裝配檢測(cè)方法存在兩點(diǎn)問題:①光線干擾,裝配者佩戴混合現(xiàn)實(shí)眼鏡,無固定光源確保采集樣本感光一致;②混合現(xiàn)實(shí)眼鏡具有位姿不確定性,裝配者與工件距離和角度都會(huì)對(duì)檢測(cè)結(jié)果造成影響,對(duì)模型的泛化能力要求較高。
眾所周知,深度學(xué)習(xí)是有標(biāo)簽的監(jiān)督學(xué)習(xí),樣本需要大量人工標(biāo)注,費(fèi)時(shí)費(fèi)力,成本昂貴。因此,采用數(shù)據(jù)增強(qiáng)技術(shù)轉(zhuǎn)換人工標(biāo)注,保留標(biāo)簽生成數(shù)據(jù)增強(qiáng)集[8]是目前最為有效的數(shù)據(jù)擴(kuò)充方法。大量研究者應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充樣本優(yōu)化深度學(xué)習(xí)模型,提升識(shí)別精度。薛月菊等[9]采用自適應(yīng)直方圖均衡化方法減少光照因素的影響,通過調(diào)整圖片亮度,可有效增加樣本圖像光照的多樣性。但該方法對(duì)圖片局部對(duì)比度提高過大,易導(dǎo)致圖像失真較嚴(yán)重,而且局部對(duì)比度過高還會(huì)放大圖像中的噪聲。Yang等[10]采用多角度旋轉(zhuǎn)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行工件識(shí)別,未涉及復(fù)雜照明和背景下的多目標(biāo)檢測(cè)的研究。Stern等[11]先使用隨機(jī)數(shù)據(jù)增強(qiáng)樣本(如旋轉(zhuǎn)90度和亮度變化),再經(jīng)過多個(gè)卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化分類結(jié)果,該方法未規(guī)劃數(shù)據(jù)增強(qiáng)方式,數(shù)據(jù)增強(qiáng)的方式為隨機(jī)產(chǎn)生。Zhong等[12]隨機(jī)為樣本生成遮擋效果,增加低質(zhì)量樣本,進(jìn)而提高模型的魯棒性,但低質(zhì)量樣本占整個(gè)數(shù)據(jù)集的比重過大易影響模型的識(shí)別精度。Jia等[13]對(duì)基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類任務(wù)的數(shù)據(jù)增強(qiáng)方法進(jìn)行了綜述,未討論多種類的不平衡訓(xùn)練數(shù)據(jù)和負(fù)責(zé)網(wǎng)絡(luò)模型。Cubuk等[14]考慮到樣本的非對(duì)稱性,采用搜索算法尋找最佳策略進(jìn)行數(shù)據(jù)增強(qiáng)。袁功霖等[15]用Retinex算法進(jìn)行增強(qiáng)處理,以增強(qiáng)夜間圖片與日間圖片的相似性,有效識(shí)別夜間航拍圖片。由此得出,選擇合適的策略對(duì)樣本檢測(cè)的正誤率非常重要,但目前缺少對(duì)混合現(xiàn)實(shí)裝配檢測(cè)行之有效的深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)預(yù)處理方法的相關(guān)研究。為此,本文提出一種混合現(xiàn)實(shí)裝配檢測(cè)中深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法,在已有的基于卷積神經(jīng)網(wǎng)絡(luò)的智慧車間裝配檢測(cè)和跟蹤方法的相關(guān)研究[16-17]基礎(chǔ)上,采用人為最佳數(shù)據(jù)增強(qiáng)策略的數(shù)據(jù)預(yù)處理方法,從而有效進(jìn)行數(shù)據(jù)集的擴(kuò)充,提高模型的檢測(cè)精度和泛化能力。
混合現(xiàn)實(shí)技術(shù)在制造方面的研究是一個(gè)新興領(lǐng)域,可有效增強(qiáng)裝配制造過程,從而縮短時(shí)間、降低成本、提高質(zhì)量[18]?;诨旌犀F(xiàn)實(shí)技術(shù)的裝配檢測(cè)具有以下特點(diǎn):①虛擬信息與真實(shí)場(chǎng)景無縫疊加,互相依賴且上下文敏感,可實(shí)時(shí)交互,無眩暈感,可有效增強(qiáng)裝配者的裝配體驗(yàn);②無固定攝像頭采樣和固定屏幕顯示,裝配自由度更好,能確保準(zhǔn)確裝配的同時(shí)簡(jiǎn)化裝配生產(chǎn)線布局。
混合現(xiàn)實(shí)裝配檢測(cè)的整個(gè)過程分為客戶端和服務(wù)器端。客戶端如圖1所示,裝配人員在裝配過程中佩戴混合現(xiàn)實(shí)眼鏡,可實(shí)時(shí)完成裝配和檢測(cè)??蛻舳瞬杉瘜?shí)時(shí)數(shù)據(jù)上傳到服務(wù)器端,服務(wù)器端存放裝配零件的目標(biāo)檢測(cè)模型,模型將處理完成的混合現(xiàn)實(shí)提示信息及時(shí)傳回傳客戶端。整個(gè)過程用時(shí)不到60 s,肉眼不能分辨,近乎實(shí)時(shí)檢測(cè)。該模型由Faster R-CNN(towards real-time object detection with region proposal networks)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到,F(xiàn)aster R-CNN卷積神經(jīng)網(wǎng)絡(luò)可以看作是區(qū)域建議網(wǎng)絡(luò)和Fast R-CNN 網(wǎng)絡(luò)的組合,區(qū)域建議網(wǎng)絡(luò)生成候選框,F(xiàn)ast R-CNN 網(wǎng)絡(luò)進(jìn)行目標(biāo)識(shí)別。前期自定義13 類待檢測(cè)目標(biāo),首先采用預(yù)訓(xùn)練VGG16網(wǎng)絡(luò)進(jìn)行模型初始化,然后樣本數(shù)據(jù)集經(jīng)過預(yù)訓(xùn)練模型處理生成裝配檢測(cè)模型?;旌犀F(xiàn)實(shí)技術(shù)直觀地輔助指導(dǎo)裝配人員,避免屏幕與裝配實(shí)體存在對(duì)應(yīng)有誤的問題。然而,針對(duì)混合現(xiàn)實(shí)裝配檢測(cè)中裝配者的檢測(cè)位姿具有不確定性,極易發(fā)生誤檢漏檢的問題,本文提出一種混合現(xiàn)實(shí)裝配檢測(cè)中深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法。該方法可有效解決深度學(xué)習(xí)中人工標(biāo)注樣本任務(wù)量大的問題,提升檢測(cè)模型的泛化能力和裝配檢測(cè)模型的識(shí)別精度。同時(shí),分該方法還能彌補(bǔ)工件多樣性造成的二維表觀特征難以充分表示的不足,解決比如小工件和相似形狀或材質(zhì)的工件二維成像后表觀特征難以區(qū)分的問題。
采用數(shù)據(jù)增強(qiáng)技術(shù)增加樣本多樣性是提升卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)精度和泛化能力最簡(jiǎn)單有效的方法。數(shù)據(jù)增強(qiáng)技術(shù)通過采用人為最佳數(shù)據(jù)增強(qiáng)策略和隨機(jī)增加數(shù)據(jù)多樣性的方法來實(shí)現(xiàn)。實(shí)驗(yàn)中的數(shù)據(jù)增強(qiáng)集的表達(dá)式為D=Dorigin∪DA-all∪DS-all∪Dlow,如圖2所示為數(shù)據(jù)增強(qiáng)集部分樣本,數(shù)據(jù)增強(qiáng)集相關(guān)內(nèi)容如表1所示,其中Dorigin=DS-origin∪DA-origin,Dorigin為采集樣本的原始數(shù)據(jù)集;DS-origin為對(duì)稱樣本原始數(shù)據(jù)集;DA-origin為非對(duì)稱樣本原始數(shù)據(jù)集;DS-all為對(duì)稱樣本數(shù)據(jù)增強(qiáng)集;DA-all為非對(duì)稱樣本數(shù)據(jù)增強(qiáng)集;Dlow是低質(zhì)量圖像樣本集,Dlow=Dnoise∪DeraseDnoise;Dnoise是人為噪聲干擾增強(qiáng)數(shù)據(jù)集;Derase為隨機(jī)遮擋效果數(shù)據(jù)增強(qiáng)集。
表1 增強(qiáng)數(shù)據(jù)集
由于隨機(jī)干擾的影響以及裝配件車間存在粉塵大、陰天照明度低的客觀因素制約,線陣工業(yè)攝像頭采集的圖像樣本常伴有噪聲混入。針對(duì)細(xì)節(jié)模糊、對(duì)比度低的圖像樣本,加強(qiáng)圖像邊緣、保持真實(shí)度是圖像增強(qiáng)時(shí)關(guān)注的兩大要素。本文在自適應(yīng)直方圖均衡化方法[19]的基礎(chǔ)上對(duì)局部對(duì)比度進(jìn)行限制,選用局部對(duì)比度限制自適應(yīng)直方圖均衡化方法[19],對(duì)裝配件圖像樣本進(jìn)行降噪和對(duì)比度增強(qiáng),樣本增強(qiáng)后效果如圖3所示。
圖3b所示的限制對(duì)比度的自適應(yīng)直方圖均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE)方法對(duì)有海綿的樣本處理后效果不佳,失真較為嚴(yán)重,故本文對(duì)CLAHE 方法進(jìn)行改進(jìn),提出V-CLAHE(value-CLAHE)方法提高圖像顏色逼真度,V-CLAHE 方法是CLAHE 方法與HSV(Hue,Saturation,Value)顏色模型中V 通道結(jié)合的方法。V-CLAHE方法流程如圖4所示,具體步驟如下:
步驟1輸入真實(shí)圖像樣本。
步驟2真實(shí)圖像樣本由RGB 空間變換到HSV空間。
步驟3針對(duì)亮度V 通道采用靜態(tài)小波變換,分解為入射分量和反射分量。
步驟4利用CLAHE方法對(duì)亮度通道的入射分量進(jìn)行能量重分配。
獲取輸入值平均像素?cái)?shù)值Paverage、對(duì)比度受限值L、每個(gè)灰度級(jí)獲得剪裁部分的像素值和分配裁剪像素的步長(zhǎng)S。剪切直方圖并生成灰度映射。在每個(gè)灰度級(jí)上劃分,計(jì)算平均像素?cái)?shù)值:
式中:Paverage為平均像素?cái)?shù)值,Pgray為局部子區(qū)域灰度級(jí)像素值,Px為局部子區(qū)域x方向像素值,Py為局部子區(qū)域y方向像素值。計(jì)算對(duì)比度受限值:
式中:α表示裁剪系數(shù),α∈[0,1]。截取每個(gè)局部子區(qū)域直方圖中大于L的像素?cái)?shù),裁剪部分的總像素為∑Pclip,求出裁剪部分的總像素分配到每個(gè)灰度級(jí)的像素?cái)?shù)為:
計(jì)算分配裁剪像素的步長(zhǎng):
其中:S為分配像素步長(zhǎng),Sgray為灰度范圍長(zhǎng)度。
步驟5按步長(zhǎng)循環(huán)搜索灰度級(jí)小于對(duì)比度受限值的位置并分配一個(gè)像素值。如像素未分配完,則重復(fù)步驟4,直到分配完所有剩余像素。
步驟6小波逆變換后,進(jìn)行雙線性插值運(yùn)算完成灰度映射,將增強(qiáng)后的真實(shí)圖像樣本由HSV空間變換到RGB 空間,修正三基色RGB 的加權(quán)系數(shù)。
步驟7輸出新生成的圖像樣本。
自動(dòng)數(shù)據(jù)增強(qiáng)方法[14]是創(chuàng)建一個(gè)搜索空間,使用搜索算法來尋找最佳策略,為每個(gè)樣本隨機(jī)選擇兩種操作變換的圖像處理函數(shù),依據(jù)樣本特性,選取適合特定數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)策略。本文提出對(duì)稱幾何變換方法(method of Symmetrical Geometric Transformation,SGT)和非對(duì)稱幾何變換方法(method of Asymmetric Geometric Transfprmation,AGT),對(duì)實(shí)驗(yàn)者熟知的數(shù)據(jù)增強(qiáng)方法進(jìn)行改進(jìn),如采用平移、剪切、縮放、旋轉(zhuǎn)、鏡像、加噪聲、調(diào)整色彩亮度和對(duì)比度[11]等操作,有效擴(kuò)充訓(xùn)練樣本。SGT方法針對(duì)對(duì)稱樣本效果明顯,AGT 方法針對(duì)非對(duì)稱樣本效果明顯,如表2所示樣本示例中,裝配件B和裝配件D 是對(duì)稱樣本,裝配件A、裝配件C和裝配件E是非對(duì)稱樣本。實(shí)驗(yàn)證明,非對(duì)稱樣本進(jìn)行鏡像數(shù)據(jù)增強(qiáng)為無效操作。
2.3.1 SGT方法
定理1SGT方法是指對(duì)稱裝配件人為決策最佳數(shù)據(jù)增強(qiáng)的幾何變換最優(yōu)組合方法,詳見算法1。
算法1SGT方法。
輸入人工選擇不同放置姿態(tài),不同背景的真實(shí)圖像樣本。
輸出增加的數(shù)據(jù)集DS-all,以及對(duì)應(yīng)的檢測(cè)特征目標(biāo)標(biāo)簽的集合PS-all。
步驟1設(shè)置增加圖像的數(shù)量Qi,輸入不同放置姿態(tài),不同背景的真實(shí)圖像樣本。
步驟2讀取實(shí)際圖像樣本Ti,并將輸入圖像作為模板圖像,獲取圖像樣本邊緣矩形框的4個(gè)頂點(diǎn)A(Xtop,Yleft),B(Xtop,Yright),C(Xbottom,Yleft),D(Xbottom,Yright)。
步驟3獲取手動(dòng)標(biāo)記的裝配件上檢測(cè)特征目標(biāo)的標(biāo)簽,得到每個(gè)檢測(cè)特征目標(biāo)對(duì)應(yīng)的4個(gè)頂點(diǎn)(xi-top,yi-left),(xi-top,yi-right),(xi-bottom,yi-left),(xi-bottom,yi-right)。
步驟4對(duì)圖像樣本邊緣矩形框的4個(gè)頂點(diǎn)和樣本中已標(biāo)記的檢測(cè)特征目標(biāo)點(diǎn)進(jìn)行關(guān)于Y軸的水平翻轉(zhuǎn)變換Ti-h。設(shè)原圖像高為h,寬為w,圖像中A(Xtop,Yleft)經(jīng)過水平翻轉(zhuǎn)Ch點(diǎn)(x1,y1)矩陣表達(dá)式為
步驟5對(duì)圖像樣本邊緣矩形框的4個(gè)頂點(diǎn)和樣本中已標(biāo)記的檢測(cè)特征目標(biāo)點(diǎn)進(jìn)行關(guān)于X軸的垂直翻轉(zhuǎn)變換Ti-V。設(shè)原圖像高為h,寬為w,圖像中A(Xtop,Yleft)經(jīng)過水平翻轉(zhuǎn)CV點(diǎn)(x2,y2)矩陣表達(dá)式為
步驟6將水平翻轉(zhuǎn)后得到的圖像Ti-h和垂直翻轉(zhuǎn)后得到的圖像Ti-V得到數(shù)據(jù)集D1加入實(shí)際圖像Ti所在的數(shù)據(jù)集DS-origin,得到增強(qiáng)數(shù)據(jù)集D2=DS-origin∪D1。
步驟7數(shù)據(jù)集L1旋轉(zhuǎn)操作和縮放操作并行輸出,分別旋轉(zhuǎn)θ°,縮放比例因子為M,實(shí)驗(yàn)中θ=[30°,60°,90°,120°,150°]。圖像樣本上的點(diǎn)A(Xtop,Yleft)圍繞中點(diǎn)O(x0,y0)旋轉(zhuǎn),得到A1(Xtop1,Yleft1)。
如圖5所示,圖像樣本Ti的4個(gè)頂點(diǎn)為A,B,C,D,對(duì)角線交點(diǎn)為O,從O點(diǎn)向AD邊作垂足交于E點(diǎn),從O點(diǎn)向DE邊作垂足交于F點(diǎn),∠BA'B'=∠θ,∠FOC'=∠φ',∠FOC=∠φ。圖像樣本Ti的長(zhǎng)為h,寬為w,即AB=h,AD=w,∠φ旋轉(zhuǎn)角為θ,則φ'=φ-θ??s放比例因子為
步驟8將旋轉(zhuǎn)并按比例因子M縮放后的圖像集合得到數(shù)據(jù)集D3,加入翻轉(zhuǎn)增強(qiáng)的數(shù)據(jù)集D2得到新增強(qiáng)數(shù)據(jù)集D4=D2∪D3。
步驟9增強(qiáng)數(shù)據(jù)集D4進(jìn)行裁剪操作。如圖1所示,通過D'點(diǎn)作邊AD的平行線交AB和CD邊分別為點(diǎn)G和H,裁剪操作就是剪裁掉矩形AGHD。
步驟10如果條件成立,執(zhí)行步驟4~步驟9。
步驟11用式(8)~式(13)映射匹配檢測(cè)特征目標(biāo)標(biāo)簽,得到新標(biāo)簽PS-all。
步驟12增加的數(shù)據(jù)集DS-all=D4∪DS-origin,以及對(duì)應(yīng)的檢測(cè)特征目標(biāo)標(biāo)簽的集合PS-all。
2.3.2 AGT方法
定理2AGT 方法是指非對(duì)稱裝配件在基礎(chǔ)幾何變換操作基礎(chǔ)上,融合樣本圖像增強(qiáng),人為篩選最佳數(shù)據(jù)增強(qiáng)策略的方法,詳見算法2。
算法2AGT方法。
輸入人工選擇不同放置姿態(tài),不同背景的真實(shí)圖像樣本。
輸出增加的數(shù)據(jù)集DA-all,以及對(duì)應(yīng)的檢測(cè)特征目標(biāo)標(biāo)簽的集合PA-all。
步驟1~步驟3與上文SGT方法相同。
步驟4將輸入圖像樣本數(shù)據(jù)集DA-origin,以圖片樣本中心O為原點(diǎn)進(jìn)行旋轉(zhuǎn)操作,圖片經(jīng)過歸一化處理,故旋轉(zhuǎn)中心O與上文相同。
步驟5獲得旋轉(zhuǎn)操作后的圖像樣本集合DR。
步驟6對(duì)圖像樣本邊緣矩形框的4個(gè)頂點(diǎn)和樣本中已標(biāo)記的檢測(cè)特征目標(biāo)點(diǎn)進(jìn)行平移變換。圖像中A(Xtop,Yleft)經(jīng)過平移變換點(diǎn)At(xt,yt)的矩陣表達(dá)式為
根據(jù)采集樣本的自身特性,為最大程度地保留已標(biāo)記的檢測(cè)特征目標(biāo)點(diǎn),平移操作需在指定范圍,即
步驟7獲得平移操作后的圖像樣本集合DT。
步驟8用CLAHE方法進(jìn)行圖像樣本增強(qiáng),獲得CLAHE 方法操作后的圖像樣本集合DV-CLAHE。
步驟9如果條件成立,執(zhí)行步驟4~步驟8。
步驟10用式(14)映射匹配檢測(cè)特征目標(biāo)標(biāo)簽和圖像增強(qiáng)樣本標(biāo)簽Padd,得到新標(biāo)簽匯總集合PA-all。
步驟11增加的數(shù)據(jù)集DA-all=DA-origin∪DR∪DT∪DV-CLAHE,及對(duì)應(yīng)檢測(cè)特征目標(biāo)標(biāo)簽的集合PA-all。
由于模型精度過高,不易于真實(shí)樣本檢測(cè),為保證樣本圖像的多樣性,提升模型的泛化能力,在樣本中加入噪聲干擾和隨機(jī)遮擋,降低圖像質(zhì)量。采用具有零均值特性的高斯噪聲,降低樣本學(xué)習(xí)時(shí)的高頻特征,有效提升模型的泛化能力。但在降低高頻特征信息的同時(shí),低頻特征也會(huì)受到影響,故添加適量的噪聲干擾,再通過大量樣本學(xué)習(xí)來忽略影響。實(shí)驗(yàn)證明,本方法能夠有效防止模型的過擬合。噪聲干擾增強(qiáng)數(shù)據(jù)集Dnoise如圖2c和圖2f所示。
實(shí)際應(yīng)用中,當(dāng)裝配者佩戴混合現(xiàn)實(shí)眼鏡進(jìn)行實(shí)時(shí)裝配時(shí),很多客觀因素決定了訓(xùn)練生成模型需要對(duì)遮擋具有魯棒性,同時(shí)降低過度擬合的風(fēng)險(xiǎn)。隨機(jī)擦除圖像中的一個(gè)矩形區(qū)域[12],擦除細(xì)節(jié)信息,降低圖像質(zhì)量,相當(dāng)于生成了不同遮擋程度的訓(xùn)練圖像,可對(duì)常用的數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行較好的補(bǔ)充,隨機(jī)遮擋訓(xùn)練圖像樣本如圖2a、圖2b、圖2d和圖2e所示。實(shí)驗(yàn)時(shí)在裝配件AB數(shù)據(jù)集中應(yīng)用Derase增強(qiáng)數(shù)據(jù)集。
被采集的裝配件共5種,其中檢測(cè)特征目標(biāo)13類,用Hololens混合現(xiàn)實(shí)眼鏡和工業(yè)攝像頭采集實(shí)驗(yàn)數(shù)據(jù),如表2所示。采集時(shí)燈光為室內(nèi)日光燈或日光光線。汽車裝配車間內(nèi)一天的光線變化較明顯,樣本覆蓋一天的光線變化。將數(shù)據(jù)增強(qiáng)的樣本歸一化處理,固定長(zhǎng)寬比為0.5,分辨率為800×400 pixel。采集的實(shí)驗(yàn)數(shù)據(jù)人工標(biāo)注檢測(cè)特征目標(biāo),具體位置存儲(chǔ)在XML文件中,用于生成增強(qiáng)數(shù)據(jù)集和訓(xùn)練模型。
表2 5種裝配件檢測(cè)特征目標(biāo)
本文實(shí)驗(yàn)操作系統(tǒng)是Ubuntu Linux 16.04,深度學(xué)習(xí)框架是Caffe。CPU 是Intel(R)Core(TM)i5-7500 CPU @3.40 GHz。顯卡的處理器是Ge-Force GTX 1060,GPU RAM 是6 GB。CUDA 架構(gòu)(compute unified device architecture)是NVIDIA提出的通用并行計(jì)算架構(gòu),用來解決GPU 復(fù)雜的計(jì)算問題,其版本號(hào)是8.0.44,CUDNN 庫(kù)是NVIDIA專門為深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的基于GPU 的加速庫(kù),成功安裝后訓(xùn)練速度是原來的4倍,其版本號(hào)是5.0.5。Python版本號(hào)是2.7.14。
3.3.1 訓(xùn)練實(shí)驗(yàn)
實(shí)驗(yàn)中,用loss值判斷模型學(xué)習(xí)訓(xùn)練的成功性,用準(zhǔn)確率和召回率評(píng)判識(shí)別的準(zhǔn)確性。采樣原始數(shù)據(jù)集為823個(gè)樣本,數(shù)據(jù)增強(qiáng)集為15 219個(gè)樣本。學(xué)習(xí)率(base-lr)為0.000 5,閾值(Io U)為0.4,丟失率(dropout-ratio)設(shè)置為0.5。使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化方法,收斂效果更加快速穩(wěn)定。每訓(xùn)練20次顯示一次收斂結(jié)果,上一次梯度值的權(quán)重(momentum)設(shè)置為0.9,權(quán)重衰減參數(shù)(weight-decay)為0.000 5。卷積層核大小(kernel-size)設(shè)置為2,步長(zhǎng)(stride)設(shè)為2,卷積層網(wǎng)絡(luò)可視化如圖6所示,圖像特征平滑清晰,對(duì)比度較大,特征提取較好,訓(xùn)練時(shí)模型擬合較佳。
迭代次數(shù)設(shè)置為60 000時(shí),此時(shí)完全收斂,模型的訓(xùn)練耗時(shí)相對(duì)較短,檢測(cè)效果最佳。原始數(shù)據(jù)集中樣本較單一,訓(xùn)練時(shí)網(wǎng)絡(luò)收斂較快,在30 000次迭代時(shí)基本完成收斂,loss值穩(wěn)定趨于0.009,此時(shí)得到訓(xùn)練模型M。因而數(shù)據(jù)增強(qiáng)集樣本的多樣性使模型的差異性增大,因而收斂速度相對(duì)較慢,在45 000次迭代時(shí)基本完成收斂,loss值穩(wěn)定趨于0.004,此時(shí)得到訓(xùn)練模型N,loss損失函數(shù)值越小,模型擬合效果越好。本實(shí)驗(yàn)訓(xùn)練過程的loss特征曲線如圖7所示。
準(zhǔn)確率和召回率曲線(Precision-Recall,PR)能有效地反映出訓(xùn)練模型的檢測(cè)性能。準(zhǔn)確率和召回率互相制約,以準(zhǔn)確率為縱軸,召回率為橫軸繪制出的曲線成為PR曲線,PR 曲線包圍的面積越大,表示訓(xùn)練模型的檢測(cè)性能越強(qiáng)。如表2所示,在樣本數(shù)據(jù)集中選取頂角A、鋁角、海綿A、T 孔四個(gè)檢測(cè)特征目標(biāo),應(yīng)用增強(qiáng)數(shù)據(jù)集前后對(duì)比效果的PR 曲線如圖8所示,分別對(duì)應(yīng)8a圖、8b圖、8c和圖8d,其中P-R表示原始數(shù)據(jù)集產(chǎn)生的識(shí)別結(jié)果,new P-R表示增強(qiáng)數(shù)據(jù)集產(chǎn)生的識(shí)別結(jié)果。準(zhǔn)確率(P)是在識(shí)別出來的圖片中,正樣本被正確識(shí)別為正樣本所占的比率。召回率(R)是測(cè)試集中所有正樣本樣例中,被正確識(shí)別為正樣本的比例,定義如下:
式中:TP為正樣本被正確識(shí)別為正樣本;TN為負(fù)樣本被正確識(shí)別為負(fù)樣本;FP為假的正樣本,即負(fù)樣本被錯(cuò)誤識(shí)別為正樣本;FN為假的負(fù)樣本,即正樣本被錯(cuò)誤識(shí)別為負(fù)樣本。
3.3.2 測(cè)試實(shí)驗(yàn)
以上的訓(xùn)練過程各個(gè)指標(biāo)達(dá)到預(yù)期結(jié)果,模型的泛化能力和魯棒性還需要進(jìn)行測(cè)試集驗(yàn)證。使用改進(jìn)的數(shù)據(jù)增強(qiáng)集訓(xùn)練模型N進(jìn)行測(cè)試驗(yàn)證,用十折交叉驗(yàn)證,測(cè)試集樣本為1 522個(gè),隨機(jī)選取20個(gè)測(cè)試樣本進(jìn)行測(cè)試,其中包含檢測(cè)特征目標(biāo)13類,每種裝配件有20張采集圖片,每張采集圖片中,均含有多種檢測(cè)特征目標(biāo),測(cè)試集裝配檢測(cè)結(jié)果如表3所示。
表3 測(cè)試集裝配檢測(cè)結(jié)果
由表中數(shù)據(jù)可得綜合460個(gè)測(cè)試目標(biāo)的正檢測(cè)率為94.15%。其中裝配件B上的檢測(cè)目標(biāo)鋁片均出現(xiàn)了錯(cuò)檢、漏檢和重疊檢測(cè)的情況。這是因?yàn)棰贅?biāo)注者在標(biāo)注時(shí)存在主觀判斷和選取設(shè)定誤差;②采集訓(xùn)練樣本時(shí),由于標(biāo)注目標(biāo)在側(cè)面存在遮擋情況,導(dǎo)致樣本數(shù)少;③鋁片在裝配件的側(cè)面,檢測(cè)視角與訓(xùn)練樣本有一定差距;④鋁片金屬材質(zhì)存在一定程度的反光,測(cè)試樣本受光照因素影響。由此可見光線、距離、角度因素與混合現(xiàn)實(shí)裝配檢測(cè)結(jié)果密切相關(guān)。
裝配者佩戴增強(qiáng)現(xiàn)實(shí)頭戴設(shè)備在完成裝配的同時(shí)進(jìn)行多角度的實(shí)時(shí)裝配檢測(cè)?;旌犀F(xiàn)實(shí)設(shè)備具有無法固定光源和視覺檢測(cè)位姿不確定性的特點(diǎn)。實(shí)驗(yàn)從光線、距離和角度3個(gè)要素定量分析增強(qiáng)數(shù)據(jù)集對(duì)提升模型魯棒性和泛化能力的實(shí)驗(yàn)效果,受光線、距離和角度因素影響平均裝配正檢測(cè)率的實(shí)驗(yàn)數(shù)據(jù)分析如圖9所示,其中平均裝配正檢測(cè)率受光線、距離和角度因素影響,平均裝配正檢測(cè)率分別提升10.98%、11.37%和11.79%。實(shí)驗(yàn)結(jié)果表明,該方法訓(xùn)練得到的新模型對(duì)汽車裝配生產(chǎn)線零件的平均檢測(cè)精度提升11.38%。
(1)光線因素影響平均裝配正檢測(cè)率
考慮日光強(qiáng)度隨時(shí)間變化而改變,用24時(shí)計(jì)時(shí)方式,選取7時(shí)~19時(shí)這12小時(shí)時(shí)間段進(jìn)行平均裝配正檢測(cè)率受光線因素影響的測(cè)試。增強(qiáng)數(shù)據(jù)集訓(xùn)練的模型在工作時(shí)間正檢測(cè)率在92%~96%之間,檢測(cè)精度較佳,可見數(shù)據(jù)增強(qiáng)集中的V-CLAHE方法起到了一定作用。如圖9所示,在9時(shí)~15時(shí)日光光強(qiáng)較大正確檢測(cè)率較高,19時(shí)日光幾乎為0,僅依靠裝配車間的室內(nèi)照明燈,光線最弱,在混合現(xiàn)實(shí)眼鏡上加點(diǎn)光源,隨裝配者視角發(fā)生變化,檢測(cè)目標(biāo)暗影也會(huì)變化,因此造成的重疊率較高,此時(shí)正檢測(cè)率最低,應(yīng)用增強(qiáng)數(shù)據(jù)集比原始數(shù)據(jù)集平均裝配正檢測(cè)率增加12.49%。
(2)距離因素影響平均裝配正檢測(cè)率
距離因素主要考慮混合現(xiàn)實(shí)眼鏡到裝配件中心距離。訓(xùn)練樣本采集的距離范圍為裝配者臂長(zhǎng)觸及裝配件距離。但有時(shí)需要進(jìn)行裝配后的質(zhì)量校驗(yàn),故測(cè)試時(shí)距離范圍擴(kuò)大,以利于實(shí)驗(yàn)的全面性。如圖1所示裝配者裝配過程已知,AB=dcm 為距離,BC=xcm 為裝配件中心到裝配者中心的長(zhǎng)度,實(shí)驗(yàn)設(shè)定每10 cm 為一個(gè)長(zhǎng)度間隔,則x={10,20,30,40,50,60},裝配者身高范圍150 cm~190 cm,裝配工作臺(tái)高h(yuǎn)'=800 cm,AC=hcm,則h={70,80,90,100,110}。綜合各種身高范圍和人為設(shè)定長(zhǎng)度間隔的由式(16)計(jì)算可得距離d={79.75,88.69,97.85,107.16,116.58}。
受距離影響下的平均裝配正檢測(cè)率,實(shí)際裝配中身高為150 cm 與190 cm 的裝配者極少,且距離為116.58 cm時(shí),此時(shí)與裝配件距離較遠(yuǎn)的原始正檢測(cè)率最差僅為78.96%。但在增強(qiáng)正檢測(cè)率中可明顯看到12.09%的顯著提升,其主要原因是增強(qiáng)數(shù)據(jù)集中用SGT方法進(jìn)行數(shù)據(jù)擴(kuò)充的數(shù)據(jù)起到關(guān)鍵作用,則增強(qiáng)的正檢測(cè)率在遠(yuǎn)距離時(shí)優(yōu)于最近距離1.78%。常規(guī)身高的裝配者在裝配范圍可自由變換位置,正檢測(cè)率基本沒有變化為96%左右,與實(shí)驗(yàn)預(yù)期基本一致,滿足混合現(xiàn)實(shí)裝配中位置不斷變化這一基礎(chǔ)且核心的需求。
(3)角度因素影響平均裝配正檢測(cè)率
裝配者中心和裝配件中心點(diǎn)夾角為θ,θ={-60°,-30°,0°,30°,60°}。考慮裝配工作臺(tái)的寬度和傳送帶情況,裝配者的活動(dòng)范圍在-60°~60°之間。如圖9所示,原始數(shù)據(jù)集和增強(qiáng)數(shù)據(jù)集訓(xùn)練的模型在無角度的情況下訓(xùn)練效果均最好,差值為10.37%。增強(qiáng)數(shù)據(jù)集訓(xùn)練的模型對(duì)角度變化不敏感,具有較強(qiáng)的適應(yīng)性,角度為負(fù)時(shí),檢測(cè)效果一般,這是由于部分檢測(cè)目標(biāo)被遮擋。
應(yīng)用深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法,混合現(xiàn)實(shí)裝配檢測(cè)者不受光線、距離、角度三要素的約束,在裝配的同時(shí)完成實(shí)時(shí)檢測(cè)。能清楚區(qū)分該工件中待識(shí)別的細(xì)小檢測(cè)單元,識(shí)別裝配正確后返回精準(zhǔn)位置信息,并在混合現(xiàn)實(shí)設(shè)備中標(biāo)注綠色框,即裝配成功;識(shí)別裝配錯(cuò)誤后也會(huì)返回精準(zhǔn)位置信息,并在混合現(xiàn)實(shí)設(shè)備中標(biāo)注紅色框,即漏裝或者誤裝。Hololens混合現(xiàn)實(shí)裝配檢測(cè)的第一視角效果展示如圖10所示,實(shí)驗(yàn)選取具有代表性的裝配件,裝配件E具有檢測(cè)目標(biāo)小且顏色相似的特點(diǎn),圖10a為9時(shí)普通日光采集測(cè)試樣本,此時(shí)檢測(cè)目標(biāo)是旋孔,安裝位置角度有誤,故標(biāo)記為紅色框,即發(fā)生錯(cuò)誤安裝,能及時(shí)裝配者提醒;圖10b為13時(shí)日光強(qiáng)烈采集測(cè)試樣本,此時(shí)旋孔位置完全正確,故標(biāo)記為綠色框,表示成功安裝;圖10c裝配件A為非對(duì)稱性淺色工件,檢測(cè)出一個(gè)紅色框,是缺少頂角A故識(shí)別為T孔,即發(fā)生漏裝;圖10d裝配件B為對(duì)稱深色裝配件,其中頂角B、鋁片、海綿B均成功裝配,標(biāo)記紅色框?yàn)榘l(fā)生錯(cuò)誤裝配。由實(shí)驗(yàn)可得,增強(qiáng)數(shù)據(jù)集對(duì)提升模型魯棒性和泛化能力有較強(qiáng)效果,能很好地應(yīng)用于實(shí)際工業(yè)裝配中。
3.3.3 對(duì)比實(shí)驗(yàn)
為證明數(shù)據(jù)增強(qiáng)的數(shù)據(jù)預(yù)處理方法的有效性,分別采用Fast RCNN[20]、Faster RCNN[21]、SSD300和SSD512[22]不同深度學(xué)習(xí)算法進(jìn)行對(duì)比實(shí)驗(yàn)證明,該方法對(duì)不同模型都有提高,如表4所示。其中:對(duì)Fast RCNN方法性能平均提高7.2%,對(duì)Faster RCNN方法性能平均提高7.7%,對(duì)SSD300 方法和SSD512方法性能分別平均提高3.1%和3.5%。
表4 應(yīng)用數(shù)據(jù)增強(qiáng)集前后在不同模型下特征目標(biāo)檢測(cè)精度對(duì)比 %
本文提出一種混合現(xiàn)實(shí)裝配檢測(cè)中深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法。通過圖像增強(qiáng)、幾何變換、少量噪聲干擾和隨機(jī)遮擋的方式以人為最佳策略生成增強(qiáng)數(shù)據(jù)集,有效增加了樣本的多樣性,解決了深度學(xué)習(xí)樣本人工標(biāo)注任務(wù)量大的問題。在圖像增強(qiáng)模塊,提出V-CLAHE圖像增強(qiáng)方法,有效改善了經(jīng)過圖像增強(qiáng)后裝配件的海綿鋁角特征失真的情況。實(shí)驗(yàn)結(jié)果表明,該方法能有效擴(kuò)充數(shù)據(jù)集,提高模型泛化能力。引入增強(qiáng)現(xiàn)實(shí)技術(shù)從多角度實(shí)時(shí)進(jìn)行裝配檢測(cè),增強(qiáng)數(shù)據(jù)集具有樣本多樣性和較佳的實(shí)驗(yàn)效果。該基于深度學(xué)習(xí)的混合現(xiàn)實(shí)裝配檢測(cè)方法與傳統(tǒng)人工裝配檢測(cè)方法檢測(cè)相比,檢測(cè)精度更高、追溯性更強(qiáng);與傳統(tǒng)圖像識(shí)別裝配檢測(cè)方法相比,檢測(cè)時(shí)間更少。響應(yīng)速度更快;與固定攝像頭的裝配檢測(cè)方式相比,檢測(cè)人員自由度更大、產(chǎn)線布局更精簡(jiǎn)。
目前實(shí)驗(yàn)主要對(duì)視頻單幀和二維圖像的進(jìn)行檢測(cè),增強(qiáng)數(shù)據(jù)集為非任意視角的二維圖像序列,后續(xù)研究擬增加任意視角樣本,更全面地表達(dá)裝配零件的完整視角信息,再引入數(shù)字孿生技術(shù)解決裝配車間的生產(chǎn)要素的多元性問題,增加裝配過程和結(jié)果的可預(yù)測(cè)性。