石 敏 喬昆磊 王素琴 朱登明③
(*華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院 北京102206)
(**中國科學(xué)院計(jì)算技術(shù)研究所前瞻研究實(shí)驗(yàn)室 北京100190)
(***太倉中科信息技術(shù)研究院 太倉215400)
橡膠密封圈是一種重要的工業(yè)用品,是多個(gè)行業(yè)的基礎(chǔ)零部件,被廣泛應(yīng)用于石油化工、船舶、能源、航空航天、武器裝備等領(lǐng)域。在橡膠密封圈的生產(chǎn)過程中,生產(chǎn)工藝、模具、異物、磨損等原因使得密封圈表面產(chǎn)生破損、裂痕、斷裂等缺陷,影響密封性能,導(dǎo)致液壓、氣動系統(tǒng)出現(xiàn)漏水、漏油問題,嚴(yán)重時(shí)會導(dǎo)致液壓、氣動系統(tǒng)無法工作,并導(dǎo)致機(jī)械發(fā)生故障,因此密封圈在使用前必須進(jìn)行缺陷檢測。
目前我國的密封圈檢測大部分依賴于人工檢測,在進(jìn)行大規(guī)模的密封圈檢測時(shí),這種方式不僅耗時(shí)長、精度不高、勞動強(qiáng)度大,其檢測結(jié)果還會受到個(gè)人主觀因素的影響。僅僅依賴人工檢測,檢測的效果與效率明顯不能適應(yīng)現(xiàn)在越來越高的質(zhì)量要求和越來越昂貴的人工成本,所以對于無人檢測系統(tǒng)的需求越來越迫切。
基于機(jī)器視覺的自動化缺陷檢測技術(shù)由于具有檢測速度快、人工成本低和檢測結(jié)果穩(wěn)定可靠等特點(diǎn),被廣泛應(yīng)用于缺陷檢測領(lǐng)域?;跈C(jī)器視覺的傳統(tǒng)檢測方法一般分為目標(biāo)分割、人工特征提取和統(tǒng)計(jì)方法3 個(gè)步驟。但人工特征提取的好壞很大程度上依賴個(gè)人經(jīng)驗(yàn),具有很大的不確定性,而且人工提取特征方法往往存在算法實(shí)用性和通用性不足的缺點(diǎn)。
本文研究的密封圈圖像中存在嚴(yán)重的亮度不均衡、干擾噪聲大、缺陷區(qū)域大小不確定以及缺陷特征與背景相似性高的問題,基于傳統(tǒng)機(jī)器視覺的技術(shù)很難提取到合適的缺陷特征,提取的缺陷特征不具備普適性,往往導(dǎo)致檢測效果不佳。
近年來,深度學(xué)習(xí)以其不需人工提取特征、精確度高、通用性強(qiáng)等特點(diǎn)在缺陷檢測領(lǐng)域中越來越受到重視。但深度網(wǎng)絡(luò)模型在訓(xùn)練時(shí),龐大的網(wǎng)絡(luò)參數(shù)需要龐大的數(shù)據(jù)量進(jìn)行支持,訓(xùn)練的數(shù)據(jù)集動輒就是數(shù)千張,甚至是數(shù)萬張照片。往往訓(xùn)練樣本規(guī)模越大,訓(xùn)練的效果就越好。然而在真實(shí)的生產(chǎn)環(huán)境中,獲取大量的缺陷產(chǎn)品是很困難的,而且對缺陷產(chǎn)品標(biāo)注的人工成本較高,有些數(shù)據(jù)標(biāo)注甚至還需要該領(lǐng)域內(nèi)的專業(yè)人士才能完成。如何盡可能使用較少的訓(xùn)練樣本實(shí)現(xiàn)較好的檢測效果成為了缺陷檢測領(lǐng)域的研究難點(diǎn)。
U-Net 網(wǎng)絡(luò)[1]是一個(gè)編碼器-解碼器類型的網(wǎng)絡(luò)模型,其通過對稱式的編解碼結(jié)構(gòu)融合網(wǎng)絡(luò)中的高維和低維特征,能夠充分利用訓(xùn)練集數(shù)據(jù),在數(shù)據(jù)集較少的情況下依然表現(xiàn)良好。受U-Net 網(wǎng)絡(luò)的啟發(fā),本文提出了一種基于編解碼結(jié)構(gòu)的語義分割缺陷檢測算法,該檢測算法以編解碼結(jié)構(gòu)網(wǎng)絡(luò)為基礎(chǔ)框架,并根據(jù)密封圈圖像的特點(diǎn)做出一系列的改進(jìn),以提升該網(wǎng)絡(luò)對密封圈缺陷區(qū)域的分割精度。本文的主要貢獻(xiàn)如下。
(1) 向編碼器端的各個(gè)卷積模塊注入不同尺度的圖像特征,以增加模型的多尺度信息,同時(shí)使用膨脹卷積,增加網(wǎng)絡(luò)的感受野并減少下采樣過程中圖像細(xì)節(jié)信息的損失,引入注意力機(jī)制以實(shí)現(xiàn)對缺陷區(qū)域的高精度分割。
(2) 將解碼器端輸出的不同尺度特征信息進(jìn)行融合,實(shí)現(xiàn)了多種尺度的特征信息的互補(bǔ),有利于將語義信息和位置信息融合在一起,提高模型對較小缺陷的分割精度。
已有的密封圈表面缺陷檢測是通過工人在光照條件下進(jìn)行眼檢,由于工人長時(shí)間檢測導(dǎo)致的視覺疲勞,檢測精度隨之下降,具有不穩(wěn)定性。隨著計(jì)算機(jī)視覺理論知識的不斷發(fā)展,現(xiàn)階段很多機(jī)器視覺方法在工業(yè)產(chǎn)品的表面缺陷檢測中發(fā)揮著越來越重要的作用,大幅提高了工業(yè)生產(chǎn)效率。
文獻(xiàn)[2]提出了基于機(jī)器視覺技術(shù)的橡膠密封圈凸點(diǎn)缺陷檢測方法,該方法利用中值濾波去除噪聲干擾,然后使用Canny 算法進(jìn)行邊緣檢測,并重點(diǎn)對凸點(diǎn)缺陷的邊緣檢測進(jìn)行了研究。文獻(xiàn)[3]使用Canny 算子對軸承密封圈圖像進(jìn)行邊緣提取,并使用最小二乘法對密封圈的破損和毛刺缺陷進(jìn)行識別。文獻(xiàn)[4]提出了一種橡膠密封件裂縫缺陷的定位方法,該方法將閾值分割算法和數(shù)學(xué)形態(tài)學(xué)細(xì)化算法進(jìn)行結(jié)合,進(jìn)而實(shí)現(xiàn)從復(fù)雜的密封件圖像中分割出裂縫區(qū)域并完成對裂縫缺陷的定位。文獻(xiàn)[5]搭建了橡膠密封圈的實(shí)驗(yàn)平臺,實(shí)現(xiàn)了橡膠密封圈的表面缺陷及尺寸的檢測。文獻(xiàn)[6]提出一種利用平穩(wěn)小波變換(stationary wavelet transform,SWT)的磁瓦缺陷檢測的方法,該方法在不同光照條件下,通過Sobel 操作去除不平坦的背景,然后分別采用索引低通濾波和非線性增強(qiáng)方法消除干擾,提高SWT產(chǎn)生的子帶目標(biāo),從而提取磁瓦缺陷特征。文獻(xiàn)[7]通過基于邊緣特征的金字塔匹配算法快速提取磁材邊界,再結(jié)合各向異性濾波方法進(jìn)行缺陷分割,然后根據(jù)缺陷的幾何形狀進(jìn)行分類,由于該算法比較依賴光照特性和磁片的缺陷形狀,具有一定局限性。
上述基于機(jī)器視覺的表面缺陷的研究工作,主要存在以下不足:需要人工提取缺陷的特征,缺陷特征提取的好壞很大程度上依賴個(gè)人經(jīng)驗(yàn),具有很大的不確定性;由于密封圈圖像存在嚴(yán)重的亮度不均衡、干擾噪聲大以及缺陷特征與背景特征的相似性很高等因素,傳統(tǒng)的機(jī)器視覺技術(shù)很難提取到合適的特征向量,往往導(dǎo)致檢測效果不佳。
近年來,深度學(xué)習(xí)以其不需人工提取特征、精確度高、通用性強(qiáng)等特點(diǎn)在表面缺陷檢測中越來越受到重視。文獻(xiàn)[8]構(gòu)建了一種用于圖像裂紋缺陷檢測的改進(jìn)全卷積網(wǎng)絡(luò)模型,該模型對全卷積網(wǎng)絡(luò)(fully convolutional network,FCN)進(jìn)行改進(jìn),取消了原來FCN 結(jié)構(gòu)中全連接層的Droupout,增加網(wǎng)絡(luò)深度,并在網(wǎng)絡(luò)之后添加更高尺度的反卷積層來擴(kuò)充局部精細(xì)細(xì)節(jié)。文獻(xiàn)[9]提出了一種應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的手機(jī)表面缺陷檢測方法,首先利用工業(yè)線陣相機(jī)獲取手機(jī)的原始表面圖像,接著通過預(yù)處理方法自動提取出分割圖像,進(jìn)而在GoogleNet 網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),大大減少了參數(shù)的數(shù)量而不影響檢測速率。文獻(xiàn)[10]提出了用于檢測發(fā)光二極管(light emitting diode,LED)芯片圖像缺陷的LEDNet架構(gòu),該架構(gòu)使用了30 000 張低分辨率圖像的數(shù)據(jù)集,提出的網(wǎng)絡(luò)遵循AlexNet 架構(gòu),使用類激活映射(class activation maps,CAM)代替全連接層。這種設(shè)計(jì)僅使用每個(gè)圖像標(biāo)簽進(jìn)行學(xué)習(xí),并使用CAM 來定位缺陷。與傳統(tǒng)方法相比,所提出的LEDNet 顯著提高了LED 缺陷檢測率。
文獻(xiàn)[11]提出一種用于金屬表面缺陷的檢測方法,借助自編碼器在圖像重建上的性能,設(shè)計(jì)一種級聯(lián)自編碼器體系結(jié)構(gòu),用于金屬表面異常的分割和定位,再利用CNN 將分割后的缺陷區(qū)域做細(xì)分類。文獻(xiàn)[12]以Faster R-CNN 深度學(xué)習(xí)算法為算法框架,引入聚類理論來確定anchor 方案。通過對比k-meansII 和使用代表點(diǎn)的聚類算法(clustering using representative,CURE)生成anchor 對檢測結(jié)果的影響,提出了基于聚類生成anchor 方案的Faster R-CNN 的零件表面缺陷檢測算法,并引入多級感興趣區(qū)域(region of interest,ROI)池化層結(jié)構(gòu),減少ROI 池化過程中帶來的偏差,實(shí)現(xiàn)高效并準(zhǔn)確檢測零件表面缺陷的目的。文獻(xiàn)[13]提出了一種基于視覺注意力網(wǎng)絡(luò)的工件表面缺陷檢測算法,該算法通過注意力模塊生成軟注意力模板,為卷積模塊構(gòu)成的主干網(wǎng)絡(luò)的特征圖加權(quán),增強(qiáng)缺陷區(qū)域特征并抑制背景區(qū)域特征,提升工件表面缺陷檢測的準(zhǔn)確率。文獻(xiàn)[14]在輕量網(wǎng)絡(luò)SqueezeNext 的基礎(chǔ)上結(jié)合實(shí)例-批歸一化網(wǎng)絡(luò)(instance-batch normalization network,IBN-NET)結(jié)構(gòu),將淺層網(wǎng)絡(luò)的批標(biāo)準(zhǔn)化(batch normalization,BN)用一定比例的實(shí)例標(biāo)準(zhǔn)化(instance normalization,IN)替代,提出SqueezeNextIBN-a 和SqueezeNextIBN-b 模型,并用于金屬圓柱工件缺陷識別。
基于深度學(xué)習(xí)的缺陷檢測方法具有自動提取缺陷特征、精度高、通用性強(qiáng)的優(yōu)點(diǎn),但深度學(xué)習(xí)模型需要龐大的數(shù)據(jù)量進(jìn)行訓(xùn)練。然而在真實(shí)的生產(chǎn)環(huán)境中,獲取大量的缺陷產(chǎn)品是困難的,而且缺陷產(chǎn)品標(biāo)注的成本較高。本文根據(jù)密封圈圖像的特點(diǎn),設(shè)計(jì)一種具有編解碼結(jié)構(gòu)的語義分割缺陷檢測算法,該算法能夠充分利用訓(xùn)練數(shù)據(jù)集,避免特征信息的損失,在較少數(shù)據(jù)上表現(xiàn)良好,能夠有效地提升密封圈的分割精度。本文的主要工作如下。
(1) 在編碼器端增加多尺度的圖像特征輸入,使得網(wǎng)絡(luò)能夠獲取更廣泛的密封圈圖像語義特征,增加網(wǎng)絡(luò)的冗余信息以提高網(wǎng)絡(luò)對微小缺陷的分割精度。
(2) 在編碼器端使用膨脹卷積增加網(wǎng)絡(luò)的感受野范圍,減少在下采樣過程中的圖像細(xì)節(jié)信息的損失,同時(shí)在編碼器和解碼器之間引入注意力機(jī)制加強(qiáng)網(wǎng)絡(luò)對缺陷區(qū)域特征的獲取,提高模型對缺陷的分割精度。
(3) 在解碼器端將多尺度的特征信息進(jìn)行融合,實(shí)現(xiàn)了多種尺度特征信息的互補(bǔ),有助于將語義信息和位置信息融合在一起,提高模型對較小缺陷的分割精度。
針對密封圈圖像的特點(diǎn),本文提出了一種基于語義分割的缺陷檢測網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)模型的總體結(jié)構(gòu)如圖1 所示,主要包括編碼模塊、解碼模塊和注意力模塊。編碼模塊主要用于提取密封圈的缺陷特征,解碼模塊用于精準(zhǔn)定位缺陷區(qū)域位置,注意力模塊用于加強(qiáng)模型對密封圈缺陷區(qū)域信息的捕獲,抑制模型對密封圈背景或噪聲信息的獲取。針對密封圈圖像的缺陷特征,本文進(jìn)行了以下4 個(gè)方面的設(shè)計(jì)。
圖1 整體網(wǎng)絡(luò)架構(gòu)
2.1.1 多尺度圖像特征輸入
密封圈圖像的缺陷區(qū)域大小不一,有些缺陷區(qū)域較大,有些缺陷區(qū)域過小。密封圈圖像中缺陷區(qū)域尺度有著明顯的差異,為了解決多尺度下的缺陷區(qū)域的分割問題,通過在編碼器端輸入多尺度的圖像特征,以此增加模型的多尺度信息和冗余信息。多尺度信息和冗余信息能夠幫助網(wǎng)絡(luò)更好地分割出密封圈的缺陷區(qū)域。本文對輸入的密封圈訓(xùn)練集樣本連續(xù)進(jìn)行3 次平均池化操作(average pooling)獲取形似金字塔的多尺度密封圈圖像。在編碼器端,分別向4 個(gè)卷積模塊注入不同尺度的圖像。
2.1.2 增大模型感受野
由于密封圈圖像中較小的缺陷區(qū)域所占的像素?cái)?shù)量很少,隨著模型的加深,卷積層和每一個(gè)下采樣層的操作都會使得較小缺陷區(qū)域逐漸減少甚至消失,使得較小的缺陷區(qū)域分割精度不高。網(wǎng)絡(luò)的編碼器具有4 個(gè)下采樣層,理論上小于24=16 像素的缺陷區(qū)域?qū)o法分割出來。
為了解決圖像分割中下采樣層導(dǎo)致的圖像信息損失問題,文獻(xiàn)[15]使用膨脹卷積(dilated convolution)擴(kuò)大卷積核的感受野,提升圖像分割任務(wù)的準(zhǔn)確率。如圖2 所示,膨脹卷積與普通卷積相比,就是在普通卷積核中加入膨脹系數(shù)(dilation rate),對原圖像以膨脹系數(shù)減1 進(jìn)行間隔采樣。對于膨脹系數(shù)為d、卷積核大小為k的膨脹卷積,其感受野計(jì)算公式為
圖2 普通卷積和膨脹卷積
膨脹卷積的主要優(yōu)點(diǎn)是避免了下采樣操作所帶來的信息損失,增大了感受野范圍,獲取了圖像更多的特征信息,讓每個(gè)卷積層的輸出都覆蓋較大區(qū)域的信息,同時(shí)不會造成模型參數(shù)增多。
為了減少密封圈圖像在下采樣操作中所造成的缺陷特征損失,并增大網(wǎng)絡(luò)的感受野,使模型不漏掉任何一個(gè)小的缺陷,本文在編碼器端使用膨脹卷積層代替常規(guī)卷積層,編碼器端從上到下分別使用膨脹系數(shù)為1、1、2、2、3 的膨脹卷積層。
2.1.3 注意力機(jī)制
在對密封圈圖像的特征提取期間,某些特征可能有用,而其他特征可能是噪聲點(diǎn)或背景對象。視覺注意力機(jī)制[16]從大量信息中快速篩選出高價(jià)值信息,獲取每個(gè)特征通道的重要程度,然后依照重要程度突出有用特征并抑制用處不大的特征,將權(quán)重加權(quán)到每個(gè)通道特征上。
為了突出密封圈的缺陷特征,抑制噪聲和其他無關(guān)特征,本文引入注意力機(jī)制,提升網(wǎng)絡(luò)提取缺陷特征的能力。注意力模塊如圖3 所示,注意力模塊首先使用全局平均池化操作對輸入的特征圖進(jìn)行壓縮,得到1×1×C的特征向量,再使用2 個(gè)全卷積層組成一個(gè)Bottleneck 結(jié)構(gòu)去計(jì)算通道間的相關(guān)性。第1 個(gè)全卷積層將特征維度降低到輸入的1/4,然后經(jīng)過ReLu 激活后通過第2 個(gè)全卷積層將特征維度增加到原始維度。并使用sigmoid 函數(shù)獲得每個(gè)特征通道的權(quán)重參數(shù),最后通過乘法逐通道將權(quán)重參數(shù)加權(quán)到原始的特征圖,完成對輸入特征圖的重新標(biāo)定。
圖3 注意力模塊圖
為了突出最重要的缺陷特征,提高密封圈缺陷區(qū)域的分割精度,本文使用注意力機(jī)制對來自編碼器路徑的特征映射通道進(jìn)行加權(quán)處理,使得網(wǎng)絡(luò)可以更好地學(xué)習(xí)缺陷特征,提升密封圈缺陷區(qū)域的分割精度。
2.1.4 多尺度融合
編解碼網(wǎng)絡(luò)結(jié)構(gòu)中一個(gè)比較明顯的問題就是在最后完成分割的時(shí)候,僅僅使用了最后一個(gè)卷積層的特征,信息比較單一,不足以包含豐富的細(xì)節(jié)信息。一些密封圈缺陷比較小,僅使用單一卷積層的特征,很難對較小缺陷區(qū)域精確分割。
在目標(biāo)檢測領(lǐng)域中,文獻(xiàn)[17]提出了特征金字塔方法來檢測圖像中的較小目標(biāo)。特征金字塔方法通過融合多尺度的特征信息,增強(qiáng)了圖像中的細(xì)節(jié)信息,使得模型可以根據(jù)豐富的特征信息檢測較小的目標(biāo)。本文通過利用特征金字塔方法將解碼器的多尺度密封圈缺陷特征進(jìn)行融合,如圖2 所示,將解碼器端每次經(jīng)過上采樣和卷積操作后的特征圖調(diào)整為與輸入圖像相同的尺寸。具體為將解碼器端經(jīng)過上采樣和卷積操作后的特征圖自下向上分別進(jìn)行8、4、2、1 倍上采樣操作,然后采用逐像素相加的方式將上述經(jīng)過上采樣的特征圖進(jìn)行合并。實(shí)現(xiàn)編碼器端多尺度信息的融合,有助于將語義信息和位置信息融合在一起,提高模型對較小缺陷的分割精度。
密封圈圖像中的缺陷區(qū)域只占整幅圖像的5%左右,背景區(qū)域占95%左右,密封圈樣本數(shù)據(jù)集出現(xiàn)正負(fù)樣本不平衡的問題,導(dǎo)致模型很難學(xué)習(xí)到缺陷區(qū)域的特征。為了解決樣本數(shù)據(jù)集中正負(fù)樣本不平衡的難題,使模型對小缺陷更加敏感、收斂速度更快、泛化能力更強(qiáng),本文使用FTLc(focal Tversky loss)損失函數(shù)[18]作為模型訓(xùn)練的損失函數(shù),FTLc損失函數(shù)的具體計(jì)算過程為
其中,r取值范圍為[1,3],在文中r取3,c為缺陷的類別,并且
在所有橡膠密封圈中,O 型橡膠密封圈因其幾何形狀簡單、生產(chǎn)方便、成本低廉等優(yōu)點(diǎn)被廣泛使用。O 型橡膠密封圈具有防水、防油、防氣、減震等功能,它的質(zhì)量好壞直接影響產(chǎn)品的性能和使用壽命,O 型密封圈的結(jié)構(gòu)如圖4 所示。本文以O(shè) 型密封圈為例對密封圈的缺陷檢測進(jìn)行實(shí)驗(yàn)。
圖4 O 型密封圈實(shí)物圖
本文采用的數(shù)據(jù)集為工業(yè)相機(jī)對某密封圈制造廠生產(chǎn)的O 型密封圈產(chǎn)品拍攝圖。在標(biāo)注數(shù)據(jù)之前,對圖片數(shù)據(jù)進(jìn)行預(yù)處理,提取密封圈區(qū)域,排除非密封圈區(qū)域?qū)z測的影響并減少圖片尺寸以縮短檢測時(shí)間,提取的密封圈圖像尺寸為800 ×800 像素。由于密封圈的缺陷區(qū)域過小,為了使缺陷的特征更加顯著,本文將提取的密封圈區(qū)域圖像放大1倍(即1600 ×1600 像素),然后使用PhotoShop 軟件中的切片工具將圖像裁剪成800 ×800 像素的圖像,并篩選含有缺陷區(qū)域的圖像作為訓(xùn)練輸入樣本。通過使用LabelMe 軟件對密封圈樣本進(jìn)行標(biāo)記,標(biāo)注后對得到的JSON 文件進(jìn)行處理獲得標(biāo)注圖像,密封圈圖像與標(biāo)注圖像如圖5 所示。
圖5 原圖與缺陷標(biāo)注圖
本文原始數(shù)據(jù)集含有378 張密封圈缺陷樣本。數(shù)據(jù)集的樣本不足會導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,影響模型對密封圈缺陷區(qū)域的分割精度。為了解決數(shù)據(jù)集樣本不足的問題,本文對訓(xùn)練樣本進(jìn)行數(shù)據(jù)增強(qiáng),通過對數(shù)據(jù)集樣本旋轉(zhuǎn)一定的角度、水平翻轉(zhuǎn)擴(kuò)充數(shù)據(jù),最終獲得含有700 張圖像的數(shù)據(jù)集,其中隨機(jī)劃分600 張用作訓(xùn)練數(shù)據(jù)集,100 張用作測試數(shù)據(jù)集。
本文實(shí)驗(yàn)的硬件環(huán)境為:Ubuntu 18.04 LST64位操作系統(tǒng),32 GB 內(nèi)存,顯卡是NVIDIA Tesla V100,處理器是Intel(R) Core(TM)i7-7700K CPU 3.60 GHz。軟件環(huán)境采用Keras 深度學(xué)習(xí)框架。模型采用Adam 優(yōu)化器更新參數(shù),學(xué)習(xí)率設(shè)置為0.0001,訓(xùn)練與測試的批尺寸取2。
在評估分割性能的時(shí)候,背景像素作為負(fù)樣本,缺陷像素作為正樣本。兩類像素比例差距較大,背景像素占有較大的比例。因此,在本文的分割算法中,使用了精確率(Precision)、召回率(Recall)和相似性系數(shù)(Dice similarity coefficient,Dice)評估模型性能,各個(gè)指標(biāo)的具體計(jì)算公式為
式中,TP(true positiv)表示真正例,即被模型預(yù)測為正的正樣本;TN(true negative)為真負(fù)例,即被模型預(yù)測為負(fù)的負(fù)樣本;FP(false positive)為假正例,即被模型預(yù)測為正的負(fù)樣本;FN(false negative)為假負(fù)例,即被模型預(yù)測為負(fù)的正樣本。Dice系數(shù)表示模型預(yù)測的像素集合與標(biāo)簽圖的像素集合的相似性;Precision表示被檢測出的真正缺陷像素占被檢測到的缺陷像素的比例,也稱為查準(zhǔn)率;Recall表示被檢測出的真正的缺陷像素占所有缺陷像素的比例,也稱為查全率。
為了說明本文針對密封圈圖像特點(diǎn)而設(shè)計(jì)的策略可以有效提高算法的分割性能,本文做了多組對比實(shí)驗(yàn)來說明多尺度輸入(Multi-Input)、注意力(Attention)機(jī)制、膨脹卷積(Dilation-Conv)和多尺度融合(Multi-Fusion)可以在不同程度上提高算法的分割性能。多種改進(jìn)策略的分割算法的比較如表1所示,表中N1~N5 分別表示加入不同模塊的語義分割模型。
表1 多種改進(jìn)策略分割算法的比較
由表1 中的N1 和N5 實(shí)驗(yàn)數(shù)據(jù)可知,加入多尺度融合操作使得模型Dice值提升5.5%,Precision值提升6.4%,Recall值降低1.3%;由N2 和N5 可知,加入多尺度輸入操作使得模型Dice值提升5.2%,Precision值提升5.1%,Recall值降低0.2%;由N3 和N5 可知,加入注意力機(jī)制使得模型Dice值提升2.2%,Precision值提升0.8%,Recall值降低1.2%;由N4 和N5 可知,加入膨脹卷積使得模型Dice值提升5.5%,Precision值提升0.2%,Recall值提升1.1%。
由以上分析可知,加入多尺度輸入、注意力機(jī)制、膨脹卷積和多尺度融合等方法可在Recall值減少較低幅度下有效提升Dice和Precision值,實(shí)現(xiàn)缺陷區(qū)域較為準(zhǔn)確的分割,有效減少對背景區(qū)域的誤判。
為了更好地驗(yàn)證本文所提算法的性能,將所提出的算法與經(jīng)典算法U-Net、FCN-8s、FCN-32s、Seg-Net、PSPNet 以及Tabernik 等人[19]于2019 年提出的缺陷檢測網(wǎng)絡(luò)模型進(jìn)行比較,不同分割算法的比較結(jié)果如表2 所示。
表2 不同分割算法的比較
由表2 可知,本文提出的分割算法取得最高的Dice值為93.5%,以及最高的Precision值為92.4%,均高于U-Net、FCN-8s、FCN-32s、SegNet、PSPNet 和Tabernik 提出的缺陷檢測網(wǎng)絡(luò)模型所取得的Dice值和Precision值。在Recall值上,本文所提出的分割算法略低于U-Net。
為了更加直觀地對不同算法的分割性能進(jìn)行比較,本文對密封圈圖像在不同分割算法下的預(yù)測圖與標(biāo)準(zhǔn)圖進(jìn)行比較。如圖6 所示,SegNet、FCN-8s 以及Tabernik 提出的缺陷檢測網(wǎng)絡(luò)模型均出現(xiàn)欠分割問題,只能分割出部分缺陷區(qū)域,未能實(shí)現(xiàn)對缺陷區(qū)域的完整分割。而U-Net 和PSPNet 則存在過分割問題,易把密封圈的背景區(qū)域和紋理區(qū)域誤檢為缺陷區(qū)域。與以上算法相比,本文算法能夠?qū)θ毕輩^(qū)域進(jìn)行較為精確的分割,并能較大幅度減少將背景區(qū)域和紋理區(qū)域誤檢為缺陷區(qū)域的概率,具有更少的誤檢率。本文算法在背景較為復(fù)雜的密封圈缺陷區(qū)域分割任務(wù)中,仍具有較好的分割效果,在保證一定的高準(zhǔn)確率的同時(shí),具有更少的誤檢率。
圖6 不同分割算法效果圖
為了驗(yàn)證本文所提出的算法模型的泛化性與可推廣性,本文在公共數(shù)據(jù)集KolektorSDD上對本文所提算法模型進(jìn)行檢驗(yàn)。KolektorSDD 數(shù)據(jù)集是由電子換向器圖像構(gòu)成的,該數(shù)據(jù)集一共包括399 張電子轉(zhuǎn)向器圖像,其中52 張存在缺陷,剩余347 張無缺陷,圖像的分辨率為1408 ×512 像素。將KolektorSDD 數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測試集,其中訓(xùn)練集共含有319 張圖像,其中有缺陷圖42 張,無缺陷圖277 張;測試集共含有80 張圖像,其中10 張有缺陷,70 張無缺陷。
在保持實(shí)驗(yàn)環(huán)境和模型參數(shù)設(shè)置不變的情況下,使用公共數(shù)據(jù)集KolektorSDD 進(jìn)行實(shí)驗(yàn),并將本文算法與U-Net、FCN-8s、FCN-32s、SegNet、PSPNet進(jìn)行比較,不同分割算法的比較結(jié)果如表3 所示。
表3 KolektorSDD 數(shù)據(jù)集下不同分割算法的比較
由表3 數(shù)據(jù)可知,本文提出的分割算法取得最高的Dice值即97.5%,以及最高的Precision值98.2%和最高的Recall值96.2%,均高于U-Net、FCN-8s、FCN-32s、SegNet、PSPNet所取得的Dice、Precision和Recall值。實(shí)驗(yàn)結(jié)果顯示,本文所提算法在KolektorSDD 數(shù)據(jù)集上表現(xiàn)良好,具有較好的可推廣性和泛化性。
針對密封圈的缺陷區(qū)域過小以及缺陷特征與密封圈背景特征相似性較高等造成的密封圈缺陷檢測困難等問題,本文提出了一種基于語義分割的密封圈缺陷檢測方法。一方面,向編碼模塊輸入不同尺度的密封圈圖像,以此增強(qiáng)模型的多尺度信息和提高模型對不同尺度特征的適應(yīng)能力。此外,使用膨脹卷積層替換常規(guī)卷積層,增大模型的感受野,使得模型不漏掉較小的缺陷,提高模型對較小的缺陷區(qū)域的分割精度。另一方面,通過注意力機(jī)制的級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),加強(qiáng)模型對密封圈缺陷區(qū)域信息的捕獲,抑制模型對密封圈背景或噪聲信息的獲取,最后在解碼器端融合不同尺度的特征信息,有效地將語義信息和位置信息融合,實(shí)現(xiàn)多個(gè)特征信息的互補(bǔ)。實(shí)驗(yàn)結(jié)果表明,在對密封圈缺陷區(qū)域的分割實(shí)驗(yàn)中,與其他方法相比,本文所提出的方法能夠有效地對較小的、邊緣不清晰的密封圈缺陷進(jìn)行分割,并能避免將密封圈的背景區(qū)域和紋理區(qū)域誤檢為缺陷區(qū)域。本文算法的不足是算法的Recall值略低于U-Net網(wǎng)絡(luò),這可能是因?yàn)楸疚氖褂玫臄?shù)據(jù)集樣本較少或密封圈中的缺陷過小以及與背景的對比度較低等因素。在后續(xù)的工作中將考慮該算法的不足之處,進(jìn)一步提高算法的性能和召回率。