曹富強(qiáng),王明泉,張俊生,邵亞璐,張雪洋
(1.中北大學(xué) 儀器科學(xué)與動(dòng)態(tài)測(cè)試教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030051;2.太原工業(yè)學(xué)院 電子工程系,山西 太原 030051)
輪轂是現(xiàn)代工業(yè)中常見的工業(yè)鑄件,被廣泛用于汽車、飛機(jī)等領(lǐng)域。汽車輪轂是指汽車輪胎內(nèi)廓支撐輪胎的金屬部件,起著重要的支撐作用[1],好的輪轂還可以有效降低車輛本身的懸架重量,其質(zhì)量決定著車輛的轉(zhuǎn)向、剎車反應(yīng)速度和操控系統(tǒng)的穩(wěn)定性,許多交通事故的發(fā)生都與輪轂有著密不可分的關(guān)系。為避免“問題輪轂”流入市場(chǎng)造成悲劇,工業(yè)上一直以來都對(duì)輪轂的生產(chǎn)進(jìn)行著嚴(yán)格的質(zhì)量把控,對(duì)其檢測(cè)手段也不斷升級(jí),只有順利通過輪轂質(zhì)量檢測(cè)的輪轂才能進(jìn)入市場(chǎng)。因此,對(duì)輪轂內(nèi)部缺陷進(jìn)行高效率的無損檢測(cè)具有重要的現(xiàn)實(shí)意義。
目前汽車輪轂的主要材質(zhì)為鋁合金,即將鋁合金通過低壓鑄造等方式加工而成。但是,金屬在冷卻過程中會(huì)受到各種因素的影響,導(dǎo)致其內(nèi)部產(chǎn)生諸如氣孔、縮松和裂紋缺陷[2],肉眼通常無法識(shí)別這些內(nèi)部缺陷,目前工業(yè)上采用X 射線來對(duì)輪轂內(nèi)部缺陷探測(cè),工人們通過對(duì)射線采集圖像的判別來決定其內(nèi)部是否存在缺陷。早期的判別方法為手動(dòng)檢測(cè)法,即由工人來完整地控制整個(gè)流程,通過肉眼鑒別X 射線圖像的方式確認(rèn)其是否合格,這種探測(cè)方式效率低下,尤其依賴于工人的主觀性,已經(jīng)漸漸被淘汰。進(jìn)入21世紀(jì),輪轂檢測(cè)已經(jīng)進(jìn)入全自動(dòng)模式,工廠在檢測(cè)過程中引入缺陷自動(dòng)識(shí)別模塊來代替人眼目檢,并將采集到的圖像與工廠標(biāo)準(zhǔn)進(jìn)行嚴(yán)格的機(jī)器比對(duì)來決定其質(zhì)量,客觀性大幅提升。缺陷識(shí)別算法是目前輪轂全自動(dòng)檢測(cè)系統(tǒng)中驅(qū)動(dòng)自動(dòng)識(shí)別模塊工作的核心。2002年,D.Merry 和D.Filbert 共同提出了一種基于射線圖像序列中潛在缺陷跟蹤的輪轂內(nèi)部缺陷檢測(cè)法[3],勉強(qiáng)滿足當(dāng)時(shí)的工業(yè)需要;2006年,談紹熙[4]提出了一種快速區(qū)域分割方法,該方法巧妙使用了工業(yè)射線圖像的灰度信息,同時(shí)結(jié)合了圖像的幾何特征;樓國(guó)紅、張俊生[5]將動(dòng)態(tài)閾值分割算法和數(shù)學(xué)形態(tài)學(xué)重建算法聯(lián)系起來提取缺陷區(qū)域;隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的廣泛引用,焦騰云[6]在輪轂的缺陷檢測(cè)中首次將支持向量機(jī)引入缺陷的分類識(shí)別和定級(jí)工作;郭瑞琦[7]提出一種基于U-Net 網(wǎng)絡(luò)的輪轂內(nèi)部缺陷分割方法;王爾琪[8]使用了Mask R-CNN 網(wǎng)絡(luò)實(shí)現(xiàn)輪轂缺陷的目標(biāo)檢測(cè)和實(shí)例分割。
上述工作推動(dòng)了現(xiàn)代工業(yè)鑄件無損檢測(cè)技術(shù)的發(fā)展,使用了不同的方法對(duì)工業(yè)鑄件射線圖像進(jìn)行了缺陷提取,但是在小目標(biāo)的缺陷分割面前表現(xiàn)不佳,且其檢測(cè)的精度和準(zhǔn)確度還有待提升,針對(duì)以上問題,本文提出了一種改進(jìn)的DeepLabv3+缺陷分割算法。在網(wǎng)絡(luò)的特征提取模塊,使用更加輕量化的EfficientNet[9]來取代原先的Xception[10],降低網(wǎng)絡(luò)參數(shù)量,提高網(wǎng)絡(luò)的運(yùn)行效率;針對(duì)輪轂內(nèi)部缺陷目標(biāo)小的特點(diǎn),原有DeepLabv3+中的大空洞率擴(kuò)張卷積已不適合輪轂缺陷特征的提取,調(diào)整空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊中的3 層擴(kuò)張卷積的空洞率,以增加卷積核對(duì)小目標(biāo)的魯棒性;針對(duì)DeepLabv3+的解碼端在低級(jí)特征恢復(fù)高級(jí)特征丟失的細(xì)節(jié)信息的問題,使得經(jīng)過1×1 卷積的ASPP 輸出再經(jīng)過上采樣后,與特征提取模塊的3 層低級(jí)特征圖依次拼接,更加充分利用網(wǎng)絡(luò)的淺層信息,提高小目標(biāo)的分割準(zhǔn)確率。
DeepLab[11]系列模型是Google 公司提出的完成圖像語義分割任務(wù)的系列模型。2014年第1 款DeepLab 模型即DeepLabv1 面世,隨后Google 公司依次提出了v2、v3 網(wǎng)絡(luò)的更新迭代版本,更加出色地實(shí)現(xiàn)圖像語義分割,新網(wǎng)絡(luò)在不大規(guī)模改變網(wǎng)絡(luò)整體架構(gòu)的前提下對(duì)網(wǎng)絡(luò)進(jìn)行更新迭代。
空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)[12]在DeepLabv2 中首次被提出,如圖1所示,該模塊利用多個(gè)采樣率對(duì)圖像采樣,使用Rate 為[6,12,18,24]擴(kuò)張率的4 種空洞卷積并行對(duì)圖像進(jìn)行特征提取,獲得了豐富的上下文語音信息。由于其優(yōu)越的分割效果和一直被保留至最新提出的網(wǎng)絡(luò)架構(gòu)中。2018年DeepLabv3+[13]
圖1 ASPP 模塊結(jié)構(gòu)圖Fig.1 Structure diagram of ASPP module
網(wǎng)絡(luò)框架被提出,圖2所示為DeepLabv3+網(wǎng)絡(luò)的整體結(jié)構(gòu)。
圖2 DeepLabv3+網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure diagram of DeepLabv3+ network
DeepLabv3+網(wǎng)絡(luò)模型采用了經(jīng)典的端到端模式,利用DeepLabv3 作為其編碼端,以Xception 和特征金字塔模塊的級(jí)聯(lián)特征提取,通過將ASPP 模塊的輸出4 倍上采樣與特征提取階段的第1 層Block 進(jìn)行特征融合后,再經(jīng)過卷積層調(diào)整通道維度最終完成解碼[14]。DeepLabv3+網(wǎng)絡(luò)模型在一些經(jīng)典的圖像分割數(shù)據(jù)集如Cityscape 和PASCAL VOC2012 等都表現(xiàn)出色,但由于其大比率的膨脹卷積且使用簡(jiǎn)單的雙線性差值的方法進(jìn)行上采樣,使得其并無法很好地完成對(duì)小尺寸目標(biāo)的分割任務(wù)。
傳統(tǒng)的圖像特征提取網(wǎng)絡(luò)往往采用提高圖像分辨率、增加網(wǎng)絡(luò)深度和增加特征層的通道數(shù)等方式來提高網(wǎng)絡(luò)模型的擬合能力,如ResNet[15]系列網(wǎng)絡(luò)通過旁路疊加的方式,使網(wǎng)絡(luò)深度可以大幅提高,并且由于通過這種Add 方式的疊加,并不會(huì)阻礙網(wǎng)絡(luò)的收斂。但是對(duì)于一些特征提取網(wǎng)絡(luò),增加網(wǎng)絡(luò)的深度造成了整體網(wǎng)絡(luò)參數(shù)量的增加,而通過大量實(shí)驗(yàn)研究表明,參數(shù)量的多少與網(wǎng)絡(luò)擬合能力并不成正比,甚至很多情況下由于網(wǎng)絡(luò)深度過深、參數(shù)量過于龐大會(huì)導(dǎo)致阻礙網(wǎng)絡(luò)的反向傳播,影響其收斂。在圖像的特征提取網(wǎng)絡(luò)中,加深網(wǎng)絡(luò)可以獲取圖像的高級(jí)語義特征,但低級(jí)語義特征往往在網(wǎng)絡(luò)加深的過程中被丟失,細(xì)節(jié)得不到保留,只有同時(shí)兼顧高級(jí)特征與低級(jí)特征才能完成優(yōu)秀的圖像語義分割。
針對(duì)上述問題,2019年Google 算法團(tuán)隊(duì)在通過對(duì)網(wǎng)絡(luò)深度(network depth)、網(wǎng)絡(luò)寬度(network width)和圖像分辨率(image resolution)的不同組合進(jìn)行思考,提出了一種可以平衡三者系列模型EfficientNets。該模型通過限制資源,使用復(fù)合系數(shù)來控制復(fù)合縮放,公式為
式中:φ是復(fù)合系數(shù),用來進(jìn)行資源調(diào)整;α 、 β 、 γ指定了如何將這些額外資源分別分配到網(wǎng)絡(luò)寬度、深度和分辨率上。在約束條件(2)式下,通過神經(jīng)架構(gòu)搜索(neural architecture search,NAS)對(duì)各參數(shù)進(jìn)行優(yōu)化調(diào)整,尋找最優(yōu)解已達(dá)到最優(yōu)的精度,最終通過參數(shù)縮放得到EfficientNet_B0~B7 模型。以EfficientNet_B0 為例,它主要由若干MBConv 模塊構(gòu)成,表1 為EfficientNet B0 模型參數(shù)設(shè)置。
表1 EfficientNet_B0 模型參數(shù)Table 1 EfficientNet_B0 model parameters
EfficientNet_B0 由多個(gè)不同參數(shù)的MBConv模塊構(gòu)成。MBConv 模塊融合了注意力機(jī)制[16]和ResNet 網(wǎng)絡(luò)思想,并使用了深度可分離卷積和1×1逐點(diǎn)卷積,將Sigmoid 激活函數(shù)更改為Swish[17],使用較少的參數(shù)量得到了很好的特征提取。
針對(duì)DeepLabv3+對(duì)鑄件內(nèi)部缺陷分割精度較低、模型不夠輕量和高效化的問題,本文提出了一種基于Effi-DeepLab 的缺陷分割網(wǎng)絡(luò)。在網(wǎng)絡(luò)的特征提取模塊,采用EfficientNet 中的MBConv模塊來代替原先的Xception Module 進(jìn)行特征提取,降低網(wǎng)絡(luò)參數(shù)量,提高網(wǎng)絡(luò)的運(yùn)行效率;通過實(shí)驗(yàn)調(diào)整ASPP 模塊中的3 層擴(kuò)張卷積的空洞率,提高該空洞率下的空洞卷積核對(duì)小目標(biāo)的魯棒性;在解碼階段將編碼端的輸出特征圖經(jīng)過上采樣后,與特征提取模塊的3 層低級(jí)特征圖依次拼接,更加充分利用網(wǎng)絡(luò)的淺層信息,提高小目標(biāo)的分割準(zhǔn)確率。
通過上述對(duì)EfficientNet 的分析可知其在圖像特征提取階段的優(yōu)秀表現(xiàn)。因此為改善DeepLabv3+骨干網(wǎng)絡(luò)的特征提取能力,采用EfficientNet 中的MBConv 模塊來代替原先的Xception Module 進(jìn)行特征提取,圖3所示為MBConv 網(wǎng)絡(luò)結(jié)構(gòu)。
圖3 MBConv 模塊內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of MBConv module
圖像在傳入MBConv 模塊后,首先經(jīng)過第1 個(gè)卷積模塊,該模塊由1×1 卷積塊、BN 層和Swish激活函數(shù)組成,經(jīng)過該模塊的輸入特征圖可以完成升維工作,BN(batch normalization)層可以提供給網(wǎng)絡(luò)批標(biāo)準(zhǔn)化,Swish 函數(shù)相比Sigmoid 函數(shù)可以給網(wǎng)絡(luò)帶來更大的非線性,提高網(wǎng)絡(luò)的擬合能力。升維后的特征圖緊接著經(jīng)過深度可分離卷積模塊,該模塊是由逐通道卷積模塊(depthwise convolution module)和逐點(diǎn)卷積模塊(piontwise convolution module)組成,二者也都使用了BN 層來進(jìn)行批標(biāo)準(zhǔn)化,逐點(diǎn)卷積模塊額外使用了Dropout 結(jié)構(gòu)隨機(jī)丟棄參數(shù)來加速網(wǎng)絡(luò)收斂。逐通道卷積相比傳統(tǒng)的常規(guī)卷積有所不同,一個(gè)卷積核負(fù)責(zé)一個(gè)通道,卷積后生成的特征圖數(shù)量與輸入特征圖的通道數(shù)相同,這種運(yùn)算對(duì)輸入層的每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算,沒有有效利用不同通道在相同空間位置上的信息。因此需要逐點(diǎn)卷積來將這些特征進(jìn)行組合。
MBConv 模塊還融合了通道注意力機(jī)制,即使用了SE(squeeze excitation)模塊,SE 模塊首先將特征圖的通道維度壓縮成一維,再建立新的分支學(xué)習(xí)一維序列的權(quán)重,最后將學(xué)習(xí)到的新權(quán)重與原始特征層相乘從而達(dá)到特征層通道權(quán)重的有效分配,使得網(wǎng)絡(luò)給突出信息分配更高的權(quán)重,達(dá)到“注意力”的目的。
本文通過MBConv 模塊構(gòu)建特征提取骨干網(wǎng)絡(luò),具體結(jié)構(gòu)如圖4所示。通過MBConv 模塊的級(jí)聯(lián),實(shí)現(xiàn)對(duì)輸入圖像的特征提取,同時(shí)在網(wǎng)絡(luò)內(nèi)部增加3 個(gè)分支,完成后續(xù)與解碼的多尺度融合,網(wǎng)絡(luò)最后將輸出特征圖送入ASPP 模塊,特征圖大小被壓縮至輸入圖的1/16。
圖4 特征提取網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Schematic diagram of feature extraction network structure
ASPP 是DeepLabv3+分割網(wǎng)絡(luò)的核心模塊,該模塊的核心是使用了空洞卷積代替?zhèn)鹘y(tǒng)的池化進(jìn)行下采樣。為了擴(kuò)大感受野,提取圖像的抽象畫語義信息,卷積神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)輸入圖像進(jìn)行下采樣,傳統(tǒng)的池化操作主要為最大池化和全局平均池化,然而這兩種池化雖然可以得到具有高級(jí)特征信息的特征圖,但是在池化的過程中往往會(huì)丟失局部信息與細(xì)節(jié)信息??斩淳矸e(dilated convolution)的提出解決了這一難題,它可以使得網(wǎng)絡(luò)能夠不進(jìn)行下采樣,但同樣能啟到擴(kuò)大感受野的目的。
圖5所示為空洞卷積的示意圖:圖5(a)為標(biāo)準(zhǔn)卷積;圖5(b)為空洞是1 的空洞卷積,使用給卷積核插入“空洞”的方法來擴(kuò)大其范圍但不增加參數(shù)數(shù)量,其空洞卷積中只有標(biāo)記為紅色的圓點(diǎn)會(huì)和圖像進(jìn)行卷積操作,未被標(biāo)紅的點(diǎn)權(quán)重設(shè)置為0。所以相比于傳統(tǒng)標(biāo)準(zhǔn)的3×3 卷積,雖然kernel size 相同,但是實(shí)際感受野已經(jīng)增大到了7×7。同理,圖5(c)也只使用9 個(gè)參數(shù)進(jìn)行卷積操作,但是實(shí)際感受野擴(kuò)大到了15×15。
圖5 空洞卷積原理圖Fig.5 Schematic diagram of hole convolution
ASPP 模塊充分結(jié)合了圖像的多尺度信息和空洞卷積的優(yōu)點(diǎn),使用擴(kuò)張率分別為6、12、18 的空洞卷積分別對(duì)圖像進(jìn)行特征提取,可以在不犧牲特征空間分辨率的同時(shí)擴(kuò)大特征接收野,獲得豐富的上下文語音信息。但是研究發(fā)現(xiàn),當(dāng)目標(biāo)尺度較小時(shí),大擴(kuò)張率的空洞卷積無法有效獲得小目標(biāo)區(qū)域的特征信息,且通過實(shí)驗(yàn)表明原始擴(kuò)張率在工業(yè)鑄件內(nèi)部缺陷分割的表現(xiàn)并不能達(dá)到理想的效果。針對(duì)工業(yè)鑄件內(nèi)部缺陷尺寸小且不易分割的問題,本文重新設(shè)計(jì)了ASPP 模塊中空洞卷積的空洞率,設(shè)置空洞率分別為3、6、9、12 的4 種空洞卷積對(duì)圖像進(jìn)行特征提取,實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的4 種空洞率的空洞卷積對(duì)小目標(biāo)更具有魯棒性。
改進(jìn)后的Effi-DeepLab 模型結(jié)構(gòu)圖如圖6所示,在解碼階段,不同于原始網(wǎng)絡(luò)僅使用一次合并完成拼接的方法,考慮到僅進(jìn)行一次級(jí)聯(lián)會(huì)導(dǎo)致低級(jí)語義特征信息的缺失,本文采用與骨干網(wǎng)絡(luò)多個(gè)特征圖采取多次級(jí)聯(lián)的方式完成上采樣,以找回網(wǎng)絡(luò)不斷下采樣丟失的低級(jí)語義信息。
圖6 Effi-DeepLab 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Structure diagram of Effi-DeepLab network
如圖6所示,紅色虛線框區(qū)域(下方)所示為整體網(wǎng)絡(luò)的解碼階段,首先將特征提取階段中MBBlock-C 模塊的輸出流入分支網(wǎng)絡(luò),進(jìn)入分支網(wǎng)絡(luò)的特征圖通過1×1 的卷積塊,更改通道維度使其與MB-Block-B 的輸出通道數(shù)一致,然后進(jìn)行2 倍上采樣后與MB-Block-B 的輸出進(jìn)行特征融合作為第1 次解碼的輸入。將改進(jìn)后的ASPP 模塊的輸出同樣經(jīng)過1×1 的卷積塊改變通道維度后進(jìn)行2 倍上采樣,與MB-Block-B 和MB-Block-C 融合后的特征圖進(jìn)行拼接完成第1 次解碼,然后將該輸出再次進(jìn)行2 倍上采樣與骨干網(wǎng)絡(luò)中MB-Block-A的輸出完成拼接實(shí)現(xiàn)第2 次解碼,最后將得到的特征圖經(jīng)過3×3 的卷積模塊后4 倍上采樣恢復(fù)至輸入圖像大小,完成圖像分割。相比原始網(wǎng)絡(luò)直接4 倍上采樣僅與單模塊的特征網(wǎng)絡(luò)分支拼接的方式,本文考慮了多尺度拼接,充分平衡了網(wǎng)絡(luò)中的低級(jí)語義特征與抽象高階信息,提高了網(wǎng)絡(luò)對(duì)小目標(biāo)的分割精度。
本文通過在輪轂質(zhì)檢工廠的工業(yè)鑄件檢測(cè)系統(tǒng)中采集得到輪轂內(nèi)部射線圖像,挑選帶有缺陷的輪轂圖像,進(jìn)行數(shù)據(jù)擴(kuò)充,并結(jié)合2015年學(xué)者D.Merry 發(fā)布的公開數(shù)據(jù)集GDXray[18]中的1316張鋁合金輪轂射線圖像,共同構(gòu)建本文數(shù)據(jù)集(car wheel ray image dataset),覆蓋了輪輻、輪輞、輪芯等部位,共計(jì)2316 張射線圖像,對(duì)數(shù)據(jù)集圖像大小統(tǒng)一處理為512×512 像素,并劃分1621 張圖像作為訓(xùn)練集、695 張圖像作為測(cè)試集。圖7所示為本文采集到的缺陷圖像和標(biāo)記過程。
圖7 數(shù)據(jù)集標(biāo)注可視化Fig.7 Data set annotation visualization
為驗(yàn)證本文算法的泛化性,還將提出的Effi-DeepLab 算法在公開數(shù)據(jù)集Cityscapes[19]進(jìn)行訓(xùn)練驗(yàn)證。Cityscapes 是圖像分割的經(jīng)典數(shù)據(jù)集,內(nèi)含5000 張城市街景圖像以及對(duì)應(yīng)的高質(zhì)量像素級(jí)注釋,共包含34 個(gè)類別,統(tǒng)一尺寸至2048×1024 像素。發(fā)布者將數(shù)據(jù)集分成3 部分,分別作為測(cè)試集、驗(yàn)證集與測(cè)試集。
本文實(shí)驗(yàn)選取均交并比(mIoU)指標(biāo)作為標(biāo)準(zhǔn)來評(píng)價(jià)網(wǎng)絡(luò)分割性能。mIoU是語義分割實(shí)驗(yàn)中常用的度量指標(biāo),其取值為先計(jì)算每類上真實(shí)值和預(yù)測(cè)值2 個(gè)集合交集與并集的比值,再求所有類別交并比的平均值,即均交并比。
式中:k表示標(biāo)簽標(biāo)記的類別;k+1表示包含空類或背景的總類別;pii表示實(shí)際為i類且預(yù)測(cè)為i類的像素?cái)?shù)量;pij表示實(shí)際為i類但預(yù)測(cè)為j類的像素?cái)?shù)量;pji表示實(shí)際為j類但預(yù)測(cè)為i類的像素?cái)?shù)量。mIoU的取值范圍為[0,1],其值越大,說明預(yù)測(cè)的分割圖越 準(zhǔn)確。
表2 列出了本文實(shí)驗(yàn)的相關(guān)配置,采用Tensor-Flow 框架來實(shí)現(xiàn)改進(jìn)算法圖像語義分割,CPU 為i9-9900K,GPU 使用NVIDIA GTX2080Ti完成算法加速。
表2 實(shí)驗(yàn)相關(guān)配置Table 2 Experiment related configuration
3.3.1 輪轂缺陷數(shù)據(jù)集對(duì)比實(shí)驗(yàn)
本文實(shí)驗(yàn)在控制其他參數(shù)都相同的前提下,使用相同的損失函數(shù)、學(xué)習(xí)率、優(yōu)化器,對(duì)DeepLabv3、DeepLabv3+和本文提出算法Effi-DeepLab 在Car-Wheel 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),表3 為算法改進(jìn)前后的數(shù)據(jù)對(duì)比結(jié)果,圖8 展示了3 種算法在Car-Wheel 數(shù)據(jù)集上的分割結(jié)果。
圖8 缺陷分割結(jié)果對(duì)比Fig.8 Comparison of defect segmentation results
表3 基于Car-Wheel 數(shù)據(jù)集下的結(jié)果對(duì)比Table 3 Comparison of results based on Car-Wheel data set
由表3 可以看出,改進(jìn)后算法的準(zhǔn)確率(Acc)和全局平均值(mIoU)相比DeepLabv3+分別提升了2.24%和1.65%,說明了本文提出的Effi-DeepLab算法對(duì)輪轂內(nèi)部缺陷具有更好的分割效果。由測(cè)試時(shí)間可以看出,本文算法雖然在解碼端使用了3 次級(jí)聯(lián)的方式增加了解碼端的參數(shù)量,但由于在編碼端使用了更輕量高效的特征提取網(wǎng)絡(luò),所以整體并未增加網(wǎng)絡(luò)的運(yùn)行時(shí)間,同時(shí)保證了算法的精度。由圖8 所展示的可視化輪轂缺陷分割結(jié)果可以看出,本文算法相較于DeepLabv3和DeepLabv3+對(duì)于缺陷的分割效果更好。其中:圖8(c)和圖8(d)幾乎沒有完整地分割出小缺陷,甚至很多缺陷被忽略掉而沒有識(shí)別出來,這對(duì)于汽車行駛安全來說是致命的;圖8(e)中的小缺陷被很好地識(shí)別出來并完成了分割,且對(duì)于大缺陷的分割邊緣更加平滑,說明本文提出算法的優(yōu)良性能。
3.3.2 空洞率模擬實(shí)驗(yàn)
由于原始DeepLabv3+采用的空洞率在本文算法的輪轂內(nèi)部缺陷數(shù)據(jù)集上未展現(xiàn)出良好的性能,考慮本文數(shù)據(jù)集中缺陷目標(biāo)較小,大空洞率的空洞卷積組成的ASPP 模塊在對(duì)其進(jìn)行特征提取時(shí)會(huì)造成信息的缺失,本文基于Car Wheel數(shù)據(jù)集進(jìn)行了不同空洞率的組合對(duì)比實(shí)驗(yàn),表4為不同空洞率下ASPP 模塊對(duì)整體網(wǎng)絡(luò)的結(jié)果影響分析。
表4 空洞率組合對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparison of voidage test results
從表4 可以看出,原空洞率的組合方式為[6,12,18],在該空洞率下組合而成的ASPP 模塊在測(cè)試中平均交并比低,為79.49%。當(dāng)更改空洞率組合為[3,6,9,12]時(shí),得到的測(cè)試分?jǐn)?shù)最高,因此本文選取該空洞率組合成的空洞卷積塊構(gòu)建ASPP模塊。
3.3.3 網(wǎng)絡(luò)泛化性實(shí)驗(yàn)
本文提出的網(wǎng)絡(luò)并不局限于工業(yè)鑄件內(nèi)部缺陷的分割,為驗(yàn)證Effi-DeepLab 算法的泛化性,使用圖像分割經(jīng)典數(shù)據(jù)集Cityscapes 進(jìn)行泛化性訓(xùn)練與測(cè)試,并選取了FCN[20]、U-Net[21]、SegNet[22]3 種經(jīng)典圖像分割模型進(jìn)行對(duì)比實(shí)驗(yàn)。表5 為各模型在該數(shù)據(jù)集上的性能對(duì)比。從表5 可以看出,本文算法mIoU 達(dá)到了82.33%,而選取的另外3 種
表5 基于Cityscapes 數(shù)據(jù)集下的結(jié)果對(duì)比Table 5 Comparison of results based on Cityscapes data set
經(jīng)典算法中U-Net 的mIoU 最高為78.19%,本文算法相較其提高了4.14%;準(zhǔn)確率方面,本文得分也高于其他3 種算法,相較于其他三者中最高的算法提高了2.93%,達(dá)到了85.69%。證明本文提出的
Effi-DeepLab 算法在Cityscapes 數(shù)據(jù)集上同樣具有優(yōu)越的性能。
圖9 為Cityscapes 數(shù)據(jù)集的可視化測(cè)試結(jié)果,從第1 行對(duì)比圖中可以看出,對(duì)比算法中都將右側(cè)后方行人識(shí)別成了電線桿,并且未將左側(cè)自動(dòng)升降桿的區(qū)域分割出來;從第2 行對(duì)比圖中可以看到,前幾種算法把汽車誤識(shí)別成了其他物體,本文算法識(shí)別正確;從第3 行對(duì)比圖可以看出,F(xiàn)CN 和SegNet 沒有完成遠(yuǎn)距離車輛的分割,并且將人與汽車等背景融為一體,U-Net 雖然識(shí)別出了遠(yuǎn)距離的汽車,但是邊緣細(xì)節(jié)損失嚴(yán)重,分割不完整,本文算法可以完整地將該部分分割出來。
圖9 基于Cityscapes 數(shù)據(jù)集的可視化分割結(jié)果Fig.9 Visualized segmentation results based on Cityscapes data set
綜合本文在Cityscapes 數(shù)據(jù)集上的綜合得分與可視化結(jié)果可以看出,Effi-DeepLab 算法相對(duì)于其他經(jīng)典圖像分割網(wǎng)絡(luò)有更高的分割精度,證明了本文算法具有良好的泛化性。
本文的基于DeepLabv3+的改進(jìn)分割算法,首先使用了更加輕量化的MBConv 來取代原先的Xception Module,降低網(wǎng)絡(luò)參數(shù)量,提高網(wǎng)絡(luò)的運(yùn)行效率;針對(duì)工業(yè)鑄件內(nèi)部缺陷目標(biāo)小的特點(diǎn),增加ASPP 模塊中的空洞卷積數(shù)量,并降低空洞率以增加卷積核對(duì)小目標(biāo)的魯棒性;針對(duì)DeepLabv3+的解碼端在低級(jí)特征恢復(fù)高級(jí)特征丟失的細(xì)節(jié)信息的問題,在解碼端使用多尺度特征融合,將網(wǎng)絡(luò)深處的高級(jí)語義特征與3 層低級(jí)特征圖拼接,更加充分利用網(wǎng)絡(luò)的淺層信息,提高小目標(biāo)的分割準(zhǔn)確率。實(shí)驗(yàn)結(jié)果邊表明,本文提出的算法提高了缺陷分割精度,對(duì)小尺寸缺陷能完成更精確的分割;且具有泛化性,將本算法在公開數(shù)據(jù)集上測(cè)試得到了較好結(jié)果,適用于多場(chǎng)景下的圖像語義分割。在后續(xù)的研究中,將考慮壓縮網(wǎng)絡(luò)結(jié)構(gòu),將其部署在移動(dòng)端,以期在精度影響不大的情況下使網(wǎng)絡(luò)更加輕量化。