劉桂雄 何彬媛 吳俊芳 林鎮(zhèn)秋
摘要:基于深度學(xué)習(xí)圖像分類是視覺檢測應(yīng)用的基本任務(wù)。該文系統(tǒng)總結(jié)基于模型深度化圖像分類網(wǎng)絡(luò)、基于模型輕量化圖像分類網(wǎng)絡(luò)及其他優(yōu)化網(wǎng)絡(luò)主要思想、網(wǎng)絡(luò)結(jié)構(gòu)、實(shí)現(xiàn)技術(shù)、技術(shù)指標(biāo)、應(yīng)用場景,指出網(wǎng)絡(luò)模型深度化、輕量化分別有助于提高圖像分類準(zhǔn)確性、實(shí)時(shí)性。最后,面向零部件質(zhì)量檢測需求,應(yīng)根據(jù)其類型多少、結(jié)構(gòu)復(fù)雜程度、特征異同等特點(diǎn),結(jié)合實(shí)時(shí)性要求,選擇合適的圖像分類網(wǎng)絡(luò)構(gòu)建零部件質(zhì)量智能檢測系統(tǒng)。
關(guān)鍵詞:圖像分類;深度學(xué)習(xí);視覺檢測;零部件質(zhì)量檢測
中圖分類號:TP301.6 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-5124(2019)07-0001-10
收稿日期:2019-05-04;收到修改稿日期:2019-06-02
基金項(xiàng)目:廣州市產(chǎn)學(xué)研重大項(xiàng)目(201802030006);廣東省現(xiàn)代幾何與力學(xué)計(jì)量技術(shù)重點(diǎn)實(shí)驗(yàn)室開放課題(SCMKF201801)
作者簡介:劉桂雄(1968-),男,廣東揭陽市人,教授,博導(dǎo),主要從事先進(jìn)傳感與儀器研究。
0 引言
圖像分類是根據(jù)圖像所反映的不同特征信息,確定特定視覺目標(biāo)類的概率來標(biāo)記輸入圖像。它是目標(biāo)檢測、語義分割等的基礎(chǔ)模型,是機(jī)器視覺檢測應(yīng)用基本任務(wù),是專家學(xué)者研究熱點(diǎn)之一[1]。圖像分類根據(jù)顏色、紋理、形狀、空間關(guān)系等特征將區(qū)分不同類別圖像,主要流程包括圖像預(yù)處理、圖像特征描述與提取[2]分類器設(shè)計(jì)與訓(xùn)練[3]、分類結(jié)果評價(jià)等。通常在圖像特征描述與提取前,會進(jìn)行圖像濾波[4]、尺寸歸一化[5]等預(yù)處理,圖像濾波目的在于增強(qiáng)圖像中目標(biāo)與背景對比度,尺寸歸一化有助于圖像批量特征提取。不同類別的圖像特征具有多樣性、復(fù)雜性,同一類別的圖像特征則存在平移、旋轉(zhuǎn)、尺度變換、顏色空間變換等情況。因此,有效的圖像特征描述與提取方法應(yīng)具備類內(nèi)圖像特征不變性描述能力、類間圖像特征分辨與提取能力,是圖像分類任務(wù)的難點(diǎn)。分類器根據(jù)所提取圖像特征學(xué)習(xí)的分類函數(shù)或構(gòu)造的分類模型,傳統(tǒng)分類器包括邏輯回歸[6]、K鄰近[7]與決策樹[8]等。經(jīng)典圖像分類方法按照上述流程分步進(jìn)行,最常用方法為基于視覺詞袋(bags of visual words,BoW)方法[9],將圖像塊仿射不變描述符的矢量量化直方圖[10]完成圖像特征提取,再輸入到樸素貝葉斯分類器(naive bayesclassifier,NBC)[11]或支持向量機(jī)(support vectormachine,SVM)[12]完成分類。經(jīng)典圖像分類算法所采用特征均為圖像底層視覺特征,對具體圖像及特定的分類方式針對性不足,對于類別間差異細(xì)微、圖像干擾嚴(yán)重等問題,其分類精度將大大降低,在復(fù)雜場景中經(jīng)典圖像分類方法難以達(dá)到好效果。
隨著視覺檢測技術(shù)發(fā)展與計(jì)算能力巨大提升,深度網(wǎng)絡(luò)已在圖像分類、視覺檢測任務(wù)上應(yīng)用與發(fā)展。近年來,各種深度學(xué)習(xí)圖像分類方法已經(jīng)被廣泛探討[13-18]。美國印第安納大學(xué)2007年詳細(xì)介紹幾種主要先進(jìn)分類方法和提高分類精度的技術(shù),討論影響分類性能一些重要問題,認(rèn)為神經(jīng)網(wǎng)絡(luò)等非參數(shù)分類器成為多元數(shù)據(jù)分類的重要方法[13]。南京大學(xué)2017年從強(qiáng)監(jiān)督、弱監(jiān)督兩個(gè)角度對比不同深度學(xué)習(xí)算法,討論深度學(xué)習(xí)作為圖像分類未來研究方向所面對挑戰(zhàn)[14]。美國賓夕法尼亞州立大學(xué)2018年研究視覺分析與深度學(xué)習(xí)的圖像分類方法,總結(jié)圖像分類網(wǎng)絡(luò)經(jīng)典架構(gòu)并展望基于深度學(xué)習(xí)的圖像分類方法應(yīng)用前景[17]。目前基于深度學(xué)習(xí)圖像分類框架的圖像識別算法已廣泛應(yīng)用于醫(yī)療CT圖像診斷[19]、汽車輔助駕駛[20-21]、制造產(chǎn)品質(zhì)量檢測[22-24]等。在復(fù)雜多變的工業(yè)圖像檢測環(huán)境下,不同圖像分類場景具有不同檢測需求,如制造零部件質(zhì)量檢測有類內(nèi)差小[25]、圖像對比度低[26]等特點(diǎn)。經(jīng)典圖像分類方法難以滿足復(fù)雜的工業(yè)檢測應(yīng)用要求,深度學(xué)習(xí)圖像分類方法具備特征不變形描述能力、高維特征提取能力,能較好地解決上述問題。
本文系統(tǒng)總結(jié)面向視覺檢測的深度學(xué)習(xí)圖像分類網(wǎng)絡(luò),對比各種基于深度學(xué)習(xí)的圖像分類網(wǎng)絡(luò)在ILSVRC競賽ImageNet2012[27]數(shù)據(jù)集中的分類性能,指出不同分類方法適用的視覺檢測任務(wù)場景,并結(jié)合基于深度學(xué)習(xí)零部件質(zhì)量檢測技術(shù)加以分析與應(yīng)用。
1 基于視覺檢測的深度學(xué)習(xí)圖像分類網(wǎng)絡(luò)
基于視覺檢測的深度學(xué)習(xí)圖像分類網(wǎng)絡(luò)按模型結(jié)構(gòu)可分為模型深度化圖像分類網(wǎng)絡(luò)[28]、模型輕量化圖像分類網(wǎng)絡(luò)[29],兩者區(qū)別主要在于使用更深層卷積層以提取深層圖像特征還是通過減小網(wǎng)絡(luò)參數(shù)量、存儲空間滿足工業(yè)應(yīng)用要求[30]。
1.1 圖像分類網(wǎng)絡(luò)性能評價(jià)指標(biāo)
基于深度學(xué)習(xí)圖像分類方法是通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)基本模型實(shí)現(xiàn)準(zhǔn)確分類,由輸入層、卷積層、池化層、全連接層、輸出層構(gòu)成[31]。通過多層卷積運(yùn)算對圖像逐層提取特征,獲取更高階的統(tǒng)計(jì)數(shù)據(jù)再通過分類器實(shí)現(xiàn)圖像多分類。主要通過圖像分類準(zhǔn)確率與模型復(fù)雜度評價(jià)深度學(xué)習(xí)圖像分類方法。
在圖像分類任務(wù)中,通常采用Top-1錯(cuò)誤率、Top-5錯(cuò)誤率對分類準(zhǔn)確率進(jìn)行評價(jià)[31]。Top-1錯(cuò)誤率是用預(yù)測概率最大那一類作為分類結(jié)果,預(yù)測結(jié)果中概率最大的那個(gè)類錯(cuò)誤,則認(rèn)為分類錯(cuò)誤,即Top-1錯(cuò)誤率代表預(yù)測概率最大的那一類不是正確類別的比率;同理,Top-5錯(cuò)誤率是用預(yù)測概率最大的前5名作為分類結(jié)果,前5名中不出現(xiàn)正確類即為分類錯(cuò)誤,即Top-5錯(cuò)誤率代表預(yù)測概率最大的5個(gè)類別中不包含正確類別的比率。
模型復(fù)雜度主要由時(shí)間復(fù)雜度、空間復(fù)雜度組成。時(shí)間復(fù)雜度決定模型的訓(xùn)練、預(yù)測時(shí)間,如果復(fù)雜度過高,則會導(dǎo)致模型訓(xùn)練和預(yù)測耗費(fèi)大量時(shí)間,既無法快速地驗(yàn)證模型構(gòu)建方案、改善模型,也難以實(shí)現(xiàn)實(shí)時(shí)預(yù)測??臻g復(fù)雜度主要由CNN結(jié)構(gòu)決定,CNN規(guī)模越大,模型參數(shù)越多,訓(xùn)練模型所需的數(shù)據(jù)量就越大,在提高圖像特征提取能力的同時(shí),也會占用更多運(yùn)算空間且易導(dǎo)致數(shù)據(jù)過擬合問題[32]。隨著硬件水平以及計(jì)算能力的快速發(fā)展,已經(jīng)開始研究模型復(fù)雜度對訓(xùn)練和預(yù)測的影響問題,如應(yīng)用到一些對實(shí)時(shí)性要求高的項(xiàng)目中,需要研究更輕量化的網(wǎng)絡(luò)。時(shí)間復(fù)雜度可以通過浮點(diǎn)運(yùn)算次數(shù)(floating-point operations,F(xiàn)LOPS)計(jì)算,即:
空間復(fù)雜度由網(wǎng)絡(luò)各層卷積核參數(shù)、輸出特征圖參數(shù)共同決定,即:式中:M——每個(gè)卷積核輸出特征圖尺寸;
K——每個(gè)卷積核尺寸;
Cl——第l個(gè)卷積層卷積核個(gè)數(shù);
Cl-1——第l-1個(gè)卷積層卷積核個(gè)數(shù);
D——網(wǎng)絡(luò)層數(shù)。
1.2 基于模型深度化的圖像分類網(wǎng)絡(luò)
基于網(wǎng)絡(luò)深度化的圖像分類模型是通過增加網(wǎng)絡(luò)深度提高圖像特征提取與表征能力,融合顏色、形狀等低層特征和語義特征等高層特征,在高特征維度中將不同類別圖像分離開來,提升圖像分類效果。
1)AlexNet
Alex Krizhevsky等[33]2012年設(shè)計(jì)出深層卷積神經(jīng)網(wǎng)絡(luò)AlexNet,AlexNet是具有歷史意義的網(wǎng)絡(luò)結(jié)構(gòu),在其被提出之后,更多更深的神經(jīng)網(wǎng)絡(luò)被提出,并成為圖像分類方法的基礎(chǔ)網(wǎng)絡(luò)模型。圖1為AlexNet模型網(wǎng)絡(luò)結(jié)構(gòu)圖,整體結(jié)構(gòu)分為上下兩個(gè)部分的網(wǎng)絡(luò),分別對應(yīng)兩個(gè)GPU(特定的網(wǎng)絡(luò)層需要兩塊GPU進(jìn)行交互以提高運(yùn)算效率)。以一個(gè)GPU為例,網(wǎng)絡(luò)總共的層數(shù)為8層,包括5層卷積和3層全連接層,將224×224×3圖像輸入到第一層卷積層,每一層卷積層的輸出作為下一層卷積層的輸入,經(jīng)過5層卷積層后輸入到全連接層,每一層全連接層神經(jīng)元個(gè)數(shù)為4096,最終由softmax分類器輸出圖像在1000類別預(yù)測中的分類概率。
AlexNet通過多層網(wǎng)絡(luò)實(shí)現(xiàn)深層次圖像特征提取以完成分類任務(wù),較傳統(tǒng)方法分類準(zhǔn)確率有很大提高,且通用性強(qiáng)。AlexNet每層使用線性整流函數(shù)(rectified linear unit,ReLU)作為激活函數(shù),因其梯度下降速度更快,使得訓(xùn)練模型所需的迭代次數(shù)大大降低,同時(shí)使用隨機(jī)失活(dropout)操作,在一定程度上避免因訓(xùn)練產(chǎn)生的過擬合現(xiàn)象,計(jì)算量大大降低。在ILSVRC2012競賽中AlexNet奪得冠軍,其準(zhǔn)確率遠(yuǎn)超第二名(Top-5錯(cuò)誤率為15.4%,第二名為26.2%),但受限于當(dāng)時(shí)計(jì)算性能,AlexNet在網(wǎng)絡(luò)深度、特征提取效果上未能達(dá)到最理想水平。
2)ZFNet
紐約大學(xué)Matthew Zeiler等[34]2013年在AlexNet基礎(chǔ)上進(jìn)行微小改進(jìn)從而設(shè)計(jì)出ZFNet網(wǎng)絡(luò),提出圖像反卷積方法實(shí)現(xiàn)卷積特征可視化,證明淺層網(wǎng)絡(luò)學(xué)習(xí)到的是圖像邊緣、顏色和紋理特征,而深層網(wǎng)絡(luò)學(xué)習(xí)到的是圖像抽象特征,指出網(wǎng)絡(luò)有效原因與性能提升方法。圖2為ZFNet網(wǎng)絡(luò)結(jié)構(gòu)圖,ZFNet基本保留AlexNet骨干結(jié)構(gòu),由于AlexNet第一層卷積核尺寸、步長過大,提取的特征混雜大量高頻與低頻信息而缺少中頻信息,故ZFNet將第1層卷積核的大小由11×11調(diào)整為7×7,步長(stride)從4改為2。
ZFNet設(shè)計(jì)反卷積網(wǎng)絡(luò)實(shí)現(xiàn)卷積特征可視化,發(fā)現(xiàn)第一層的卷積核對特征提取影響大,提出第一層卷積核進(jìn)行規(guī)范化方法,如果RMS(root meansquare)超過0.1,就把卷積核的均方根固定為0.1。同時(shí),ZFNet論證更深網(wǎng)絡(luò)模型在圖像平移、旋轉(zhuǎn)等條件下分類魯棒性更好,層次越高的特征圖,其特征不變性越強(qiáng)。ZFNet是ILSVRC2013分類任務(wù)冠軍,Top-5錯(cuò)誤率為14.7%。ZFNet以實(shí)踐方法展示網(wǎng)絡(luò)不同層級的特征提取結(jié)果與性能,但沒有從理論角度解釋網(wǎng)絡(luò)原理與設(shè)計(jì)規(guī)則。
3)VGGNet
針對AlexNet的大卷積核問題,牛津大學(xué)計(jì)算機(jī)視覺組和Google DeepMind項(xiàng)目研究員共同探索卷積神經(jīng)網(wǎng)絡(luò)深度與其性能之間的關(guān)系[35],提出用若干較小尺寸卷積核代替大尺寸卷積核,能夠有效提高特征提取能力,從而提升圖像分類準(zhǔn)確性。Karen Simonyan等[36]2014年提出VGG網(wǎng)絡(luò)模型,其將卷積神經(jīng)網(wǎng)絡(luò)深度推廣至16~19層,以VGG16為例,圖3為VGG16網(wǎng)絡(luò)結(jié)構(gòu)圖,圖像輸入后經(jīng)過第一段卷積網(wǎng)絡(luò),包括兩個(gè)卷積層與一個(gè)最大池化層后輸出,再進(jìn)入與第一段結(jié)構(gòu)相同的第二段卷積網(wǎng)絡(luò),之后通過反復(fù)堆疊的3×3小型卷積核和2x2最大池化層,最后通過全連接層輸出到softmax分類器。
VGGNet在AlexNet基礎(chǔ)上采用多個(gè)小卷積核代替大卷積核,增強(qiáng)圖像特征非線性表達(dá)能力、減少模型參數(shù)。如一個(gè)7×7卷積核可看作是3層3x3卷積核的疊加,但一個(gè)7×7卷積核有49個(gè)模型參數(shù),只能提供一層特征圖像、一種感受野,而3層3x3卷積核只有27個(gè)模型參數(shù),提供3層不同尺度下的特征圖像。VGGNet是ILSVRC2014競賽的亞軍,在Top-5中取得6.8%的錯(cuò)誤率,VGGNet表明增加網(wǎng)絡(luò)層數(shù)有利于提高圖像分類的準(zhǔn)確度,但過多層數(shù)會產(chǎn)生網(wǎng)絡(luò)退化問題[37],影響檢測結(jié)果,最終VGGNet的層數(shù)確定在16層和19層兩個(gè)版本。同時(shí)由于網(wǎng)絡(luò)層數(shù)過多而造成參數(shù)過多,會使得模型在不夠復(fù)雜的數(shù)據(jù)上傾向于過擬合。
4)GoogLeNet
AlexNet與VGGNet均從增加網(wǎng)絡(luò)深度來提取不同尺度下圖像特征進(jìn)而提高圖像分類性能,而Szegedy C等[38]2015年提出的GoogLeNet模型除考慮深度問題,還采用模塊化結(jié)構(gòu)(Inception結(jié)構(gòu))方便模型的增添與修改。GoogLeNet將全連接甚至是卷積中的局部連接,全部替換為稀疏連接以達(dá)到減少參數(shù)的目的。圖4為Inception v1結(jié)構(gòu)結(jié)構(gòu)圖,該模塊共有4個(gè)分支,第一個(gè)分支對輸入進(jìn)行1×1卷積,它可以降低維度、減少計(jì)算瓶頸、跨通道組織信息,從而提高網(wǎng)絡(luò)的表達(dá)能力;第二個(gè)分支先使用1×1卷積,然后連接3×3卷積,相當(dāng)于進(jìn)行了兩次特征變換;第三個(gè)分支先是1×1的卷積,然后連接5×5卷積;最后一個(gè)分支則是3×3最大池化后直接使用1×1卷積。
GoogLeNet最大特點(diǎn)是引入Inception結(jié)構(gòu),優(yōu)勢是控制計(jì)算量和參數(shù)量的同時(shí),也具有非常好的分類性能。Inception結(jié)構(gòu)中間層接另兩條分支來利用中間層的特征增加梯度回傳,使得其參數(shù)量僅為Alexnet的1/12,模型計(jì)算量大大減小;其次網(wǎng)絡(luò)最后采用平均池化(average pooling)來代替全連接層將準(zhǔn)確率提高0.6%,圖像分類精度上升到一個(gè)新的臺階。Inception模塊提取3種不同尺度特征,既有較為宏觀的特征又有較為微觀的特征,增加特征多樣性,Top-5錯(cuò)誤率為6.67%。 GoogLeNet網(wǎng)絡(luò)雖然在減少參數(shù)量上做出一定貢獻(xiàn),但大參數(shù)量仍限制其在工業(yè)上應(yīng)用。
5)ResNet
為了解決網(wǎng)絡(luò)層數(shù)過多而造成梯度彌散或梯度爆炸問題,Kaiming He等[39,2016年提出ResNet(residual neural network)網(wǎng)絡(luò),通過殘差塊模型解決“退化”問題,該模型是ILSVRC 2015冠軍網(wǎng)絡(luò)。ResNet提出的殘差塊(residual block)結(jié)構(gòu)主要思想是在網(wǎng)絡(luò)中增加直連通道,即高速路神經(jīng)網(wǎng)絡(luò)(highwaynetwork)思想。圖5為ResNet網(wǎng)絡(luò)結(jié)構(gòu)圖,圖像輸人后,維度匹配的跳躍連接(short connection)為實(shí)線,反之為虛線,維度不匹配時(shí),可選擇兩種同等映射方式:直接通過補(bǔ)零來增加維度、乘以W矩陣投影到新的空間,使得理論上網(wǎng)絡(luò)一直處于最優(yōu)狀態(tài),性能不會隨著深度增加而降低。
當(dāng)模型變復(fù)雜時(shí),會出現(xiàn)準(zhǔn)確率達(dá)到飽和后迅速下降產(chǎn)生更高訓(xùn)練誤差、隨機(jī)梯度下降(stochasticgradient descent,SGD)優(yōu)化變得更加困難等現(xiàn)象。Residual結(jié)構(gòu)用于解決上述問題,使得網(wǎng)絡(luò)模型深度在很大范圍內(nèi)不受限制(目前可達(dá)到1000層以上),ResNetTop-5錯(cuò)誤率為4.49%,同時(shí)參數(shù)量比VGGNet低,效果非常突出。ResNet是目前深度化模型代表,但是深度化使得網(wǎng)絡(luò)龐大,所占存儲空間更多。
綜合以上分析,基于模型深度化圖像分類網(wǎng)絡(luò)采用增加網(wǎng)絡(luò)層數(shù)提高圖像特征提取效果,引入殘差塊模型解決層數(shù)過多帶來的“退化”問題,提取并融合深層網(wǎng)絡(luò)圖像抽象特征與淺層網(wǎng)絡(luò)圖像邊緣、顏色和紋理特征,有效提高圖像分類高準(zhǔn)確率,但網(wǎng)絡(luò)深度化模型復(fù)雜、占用空間大,適合用于圖像特征復(fù)雜、圖像分類實(shí)時(shí)性要求不高的場合。
1.3 基于模型輕量化的圖像分類網(wǎng)絡(luò)
與圖像分類網(wǎng)絡(luò)深度化方法不同,基于模型輕量化的圖像分類網(wǎng)絡(luò)主要是解決模型存儲問題和模型預(yù)測速度問題,使得圖像分類網(wǎng)絡(luò)兼顧分類準(zhǔn)確率的同時(shí)提高效率,實(shí)現(xiàn)分類網(wǎng)絡(luò)移動端應(yīng)用。圖像分類輕量化方法有對參數(shù)和激活函數(shù)進(jìn)行量化以減少占用空間、設(shè)計(jì)更高效的特征提取方式和網(wǎng)絡(luò)結(jié)構(gòu)等。
1)ShuffleNet
ShuffleNet網(wǎng)絡(luò)是由Face++團(tuán)隊(duì)Zhang X等2017年提出的輕量化網(wǎng)絡(luò)結(jié)構(gòu),其主要思路是使用點(diǎn)態(tài)組卷積層(group convolution,Gconv)與通道混合(channel shuffle)來減少模型使用的參數(shù)量[40]。圖6為ShuffleNet網(wǎng)絡(luò)結(jié)構(gòu)圖,在ResNet基礎(chǔ)上將1×1卷積核換成1×1Gconv,其次在第一個(gè)1×1Gconv之后增加1個(gè)通道混合以實(shí)現(xiàn)分組卷積信息交換,最后在旁路增加平均池化層,以減小特征圖分辨率帶來的信息損失。
ShuffleNet采用ResNet的思想,在提取圖像深層次特征同時(shí)通過減少模型參數(shù)量實(shí)現(xiàn)卷積層信息交換。在ImageNet 2012數(shù)據(jù)集上時(shí)間復(fù)雜度為38 MFLOPs,但通道混合在工程實(shí)現(xiàn)時(shí)會占用大量內(nèi)存及出現(xiàn)指針跳轉(zhuǎn)而導(dǎo)致耗時(shí)。
2)DenseNet
Gao H等[41]2017年通過脫離加深網(wǎng)絡(luò)層數(shù)(ResNet)和加寬網(wǎng)絡(luò)結(jié)構(gòu)(Inception)來提升網(wǎng)絡(luò)性能的定式思維,從圖像特征角度提出DenseNet網(wǎng)絡(luò)。DenseNet網(wǎng)絡(luò)通過特征重用和旁路設(shè)置,減少網(wǎng)絡(luò)參數(shù)量及在一定程度上緩解梯度消失問題產(chǎn)生。圖7為DenseNet網(wǎng)絡(luò)構(gòu)圖,第i層輸入不僅與i-1層輸出相關(guān),還有之前所有層輸出有關(guān),對于一個(gè)L層網(wǎng)絡(luò),DenseNet共包含L×(L+1)12個(gè)連接,相比ResNet,這是一種密集連接,而且DenseNet是直接連接來自不同層特征圖,能夠?qū)崿F(xiàn)特征重用與融合。
DenseNet作為另一種有較深層數(shù)的卷積神經(jīng)網(wǎng)絡(luò),具有如下特點(diǎn):相比ResNet參數(shù)數(shù)量更少;通過旁路加強(qiáng)特征重用與新特征提取;網(wǎng)絡(luò)更易于訓(xùn)練,并有一定正則效果;緩解梯度消失與模型退化問題。250層DenseNet參數(shù)大小僅為15.3MB,在ImageNet 2012數(shù)據(jù)集中Top-5錯(cuò)誤率為529%。
3)MobileNet v2
Sandler M等[42]2018年研究更高效的網(wǎng)絡(luò)結(jié)構(gòu)MobileNet v2,以深度可分離的卷積作為高效的構(gòu)建塊,提出倒置殘差結(jié)構(gòu)(inverted residual structure,IRS),提高梯度在乘數(shù)層上傳播能力、內(nèi)存效率。圖8為MobileNet v2倒置殘差結(jié)構(gòu)圖,方塊的高度代表通道數(shù),中間的深度卷積較寬,先使1×1卷積層升維,再使用3X3卷積層ReLU對特征濾波,最后用1×1卷積層+ReLU對特征再降維,呈現(xiàn)倒立狀態(tài),理論上保持所有必要信息不丟失,獲得更優(yōu)精確度。
MobileNet v2網(wǎng)絡(luò)在參數(shù)為MobileNet v170%的情況下減少兩倍運(yùn)算數(shù)量,在Google Pixel手機(jī)上測試結(jié)果比MobileNet v1快30%~40%。該網(wǎng)絡(luò)能保持類似精度條件下顯著減少模型參數(shù)和計(jì)算量,使得實(shí)時(shí)性與精度得到較好平衡。
基于模型輕量化的圖像分類網(wǎng)絡(luò)突破深層化網(wǎng)絡(luò)模型復(fù)雜度高、網(wǎng)絡(luò)退化的問題,通過設(shè)計(jì)更高效的卷積方式以減少網(wǎng)絡(luò)參數(shù)、自動化神經(jīng)架構(gòu)搜索網(wǎng)絡(luò)優(yōu)化計(jì)算效率而不損失網(wǎng)絡(luò)性能,使得圖像分類網(wǎng)絡(luò)實(shí)現(xiàn)工業(yè)檢測或移動端的實(shí)時(shí)應(yīng)用。
1.4 其他分類網(wǎng)絡(luò)
除基于模型深度化、輕量化的圖像分類網(wǎng)絡(luò)外,一些圖像分類網(wǎng)絡(luò)通過多模型融合進(jìn)一步降低模型復(fù)雜度、提高模型分類準(zhǔn)確性。
1)Inception v2、v4
Szegedy C 2017年在Inception v1基礎(chǔ)上研究,指出利用中間層特征增加梯度回傳可以提取多層圖像特征,但沒有真正解決大參數(shù)量導(dǎo)致訓(xùn)練速度問題。Szegedy C等[43],在 Inception v2中提出BN(batch normalization)在用于神經(jīng)網(wǎng)絡(luò)某層時(shí)會對每一個(gè)小批量數(shù)據(jù)內(nèi)部進(jìn)行標(biāo)準(zhǔn)化處理,使輸出規(guī)范化到N(0,1)正態(tài)分布,減少內(nèi)部神經(jīng)元分布的改變,使得大型卷積網(wǎng)絡(luò)訓(xùn)練速度加快很多倍,同時(shí)收斂后分類準(zhǔn)確率也可以得到大幅提高,一定程度上可以不使用dropout降低收斂速度的方法,卻起到正則化作用,提高模型泛化性。Inception v4將Inception模塊結(jié)合殘差連接(residual connection),極大地加速訓(xùn)練,同時(shí)極大提升性能[44]。
2)DPN
多模型融合通過結(jié)合多個(gè)網(wǎng)絡(luò)優(yōu)勢提高圖像分類網(wǎng)絡(luò)性能。Chen Y等[45]2017年提出DPN(dualpath networks)融合ResNet與DenseNet的核心思想,利用分組操作使得DPN模型、計(jì)算量更小,訓(xùn)練速度更快。DPN結(jié)合ResNet特征重用與DenseNet提取新特征優(yōu)勢,通過雙路徑網(wǎng)絡(luò)共享公共特性,同時(shí)保持雙路徑體系結(jié)構(gòu)探索新特性的靈活性,DPN在ImageNet數(shù)據(jù)集上達(dá)到與ResNet-101相當(dāng)?shù)姆诸愋ЧA(chǔ)上,其模型尺寸、計(jì)算成本、內(nèi)存消耗僅為后者的26%、25%、8%。
表1為各種圖像分類網(wǎng)絡(luò)性能對比表??梢钥闯?,基于模型深度化、寬度化的圖像分類網(wǎng)絡(luò)分別在分類準(zhǔn)確率、模型復(fù)雜度性能上表現(xiàn)優(yōu)異,在工業(yè)應(yīng)用中,應(yīng)根據(jù)應(yīng)用場景、任務(wù)要求選擇圖像分類網(wǎng)絡(luò)。
2 圖像分類網(wǎng)絡(luò)在零部件質(zhì)量檢測中應(yīng)用
零部件質(zhì)量圖像檢測過程中,首先對獲取的零部件裝配圖像進(jìn)行特征提取,其次根據(jù)零部件類型、缺陷等進(jìn)行分類識別,最后根據(jù)零部件圖像分類結(jié)果完成質(zhì)量評價(jià)。結(jié)合零部件質(zhì)量檢測應(yīng)用需求,發(fā)揮圖像分類網(wǎng)絡(luò)在特征提取、識別分類中的優(yōu)勢,能夠有效完成零部件圖像特征提取、零部件質(zhì)量檢測任務(wù)[46-47]。
2.1 零部件圖像特征提取
圖像特征提取是分類的基礎(chǔ)。在零部件質(zhì)量檢測過程中,由于零部件種類各異,不同零部件圖像有不同特點(diǎn),需根據(jù)具體檢測對象選擇合適的特征提取網(wǎng)絡(luò),進(jìn)而完成質(zhì)量檢測任務(wù)。傳統(tǒng)零部件圖像特征提取采用提取圖像角點(diǎn)特征實(shí)現(xiàn)圖像分類。郭雪梅等[48]2017年提出面向標(biāo)準(zhǔn)件裝配質(zhì)量的PI-SURF檢測區(qū)域劃分技術(shù),利用SURF(speeded-uprobust features)提取特征描述感興趣點(diǎn),實(shí)現(xiàn)機(jī)箱裝配標(biāo)準(zhǔn)件分類;黃堅(jiān)等[49]2017年分析Harris、Shi-Tomasi、Fast方法角點(diǎn)特征提取機(jī)理與判定條件,提出多角點(diǎn)結(jié)合的機(jī)箱標(biāo)準(zhǔn)件圖像特征提取方法。圖9為零件圖像特征提取示例,傳統(tǒng)圖像特征提取方法能夠很好地學(xué)習(xí)零部件顏色、紋理等特征,在類型差異大、顏色對比鮮明的零部件特征提取效果較好,但對對比度低、類內(nèi)差小零部件則需要提取其深層抽象特征。
深度學(xué)習(xí)圖像分類網(wǎng)絡(luò)能從淺層網(wǎng)絡(luò)提取圖像邊緣、顏色和紋理特征,從深層網(wǎng)絡(luò)提取圖像抽象特征。李宜汀等[50]2019年提出基于Faster R-CNN(faster regions with convolutional neural network)的缺陷檢測方法,提取零件圖像稀疏濾波與VGG-16雙重深度特征,實(shí)現(xiàn)零件缺陷分類?;谀P蜕疃然膱D像分類網(wǎng)絡(luò)能夠滿足多層圖像特征提取要求,分類準(zhǔn)確性高。
2.2 零部件質(zhì)量檢測
根據(jù)圖像分類網(wǎng)絡(luò)提取的圖像特征,網(wǎng)絡(luò)完成零部件分類識別,結(jié)合零部件質(zhì)量評價(jià)標(biāo)準(zhǔn)完成零部件質(zhì)量檢測。Deng等[51]2018年提出PCB自動缺陷檢測系統(tǒng),通過深度神經(jīng)網(wǎng)絡(luò)完成缺陷分類,降低PCB缺陷檢測的誤檢率與漏檢率。筆者團(tuán)隊(duì)前期研究機(jī)箱裝配質(zhì)量智能檢測方法[52],目前正在研究基于深度學(xué)習(xí)圖像分類網(wǎng)絡(luò)在機(jī)箱裝配質(zhì)量檢測應(yīng)用,圖10為機(jī)箱裝配零部件質(zhì)量檢測流程圖,待測機(jī)箱裝配圖像輸入后通過CNN網(wǎng)絡(luò)進(jìn)行零部件特征提取,根據(jù)各層提取信息完成零部件分類,最后結(jié)合制定的裝配標(biāo)準(zhǔn)實(shí)現(xiàn)機(jī)箱裝配質(zhì)量檢測。
零部件質(zhì)量檢測首先提取圖像淺層及深層特征;其次利用分類器對零部件分類,分類有時(shí)需滿足檢測具體要求,如有無缺陷、遮擋等;最后根據(jù)質(zhì)量評價(jià)標(biāo)準(zhǔn)對分類結(jié)果做出評判。零部件質(zhì)量檢測屬于對象復(fù)雜、特征多的圖像識別檢測任務(wù),且需要滿足一定實(shí)時(shí)性要求,應(yīng)選擇網(wǎng)絡(luò)層數(shù)較深且模型復(fù)雜度較小的網(wǎng)絡(luò)以滿足其準(zhǔn)確性和實(shí)時(shí)性。
3 結(jié)束語
圖像分類是機(jī)器視覺檢測應(yīng)用的基本任務(wù),根據(jù)網(wǎng)絡(luò)模型特點(diǎn)可分為深度化圖像分類網(wǎng)絡(luò)、輕量化圖像類網(wǎng)絡(luò)和其他改進(jìn)網(wǎng)絡(luò)?;谏疃葘W(xué)習(xí)圖像分類網(wǎng)絡(luò)廣泛應(yīng)用于零部件質(zhì)量檢測領(lǐng)域,總結(jié)如下:
1)基于模型深度化圖像分類網(wǎng)絡(luò)采用增加網(wǎng)絡(luò)層數(shù),提取深層網(wǎng)絡(luò)圖像抽象特征與淺層網(wǎng)絡(luò)圖像邊緣、顏色和紋理特征,實(shí)現(xiàn)圖像分類高準(zhǔn)確率。深度化圖像分類網(wǎng)絡(luò)特點(diǎn)是分類準(zhǔn)確性高,適合用于圖像特征復(fù)雜的檢測任務(wù)。
2)基于模型輕量化圖像分類網(wǎng)絡(luò)突破深層化網(wǎng)絡(luò)瓶頸問題——網(wǎng)絡(luò)退化、模型復(fù)雜度高,通過設(shè)計(jì)更高效的卷積方式以減少網(wǎng)絡(luò)參數(shù)、自動化神經(jīng)架構(gòu)搜索網(wǎng)絡(luò)優(yōu)化計(jì)算效率而不損失網(wǎng)絡(luò)性能,適用于實(shí)時(shí)工業(yè)檢測或移動端。
3)一些圖像分類網(wǎng)絡(luò)通過多模型融合方法,發(fā)揮不同網(wǎng)絡(luò)在不同層級圖像特征提取優(yōu)勢,結(jié)合參數(shù)量小、計(jì)算速度快優(yōu)點(diǎn),進(jìn)一步降低模型復(fù)雜度,提高模型分類準(zhǔn)確性。
4)零部件質(zhì)量檢測任務(wù)包括零部件圖像特征提取、零部件分類識別、結(jié)合質(zhì)量評價(jià)標(biāo)準(zhǔn)的零部件質(zhì)量評價(jià)。應(yīng)用過程中應(yīng)根據(jù)零部件類型復(fù)雜、特征多等特點(diǎn),結(jié)合實(shí)時(shí)性要求,構(gòu)建零部件質(zhì)量智能檢測系統(tǒng)。
參考文獻(xiàn)
[1]FREEMAN W T,ADELSON E H.The design and use ofsteerable filters[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1991(9):891-906.
[2]ZHANG D,LIU B,SUN C,et al.Learning the classifiercombination for image classification[J].Journal ofComputers,2011,6(8):1756-1763.
[3]BAY H,TUYT].,AARS T,VAN G L.Surf:Speeded uprobust features[C]//Springer.European Conference onComputer Vision,2006:404-417.
[4]ITTI L,KOCH C,NIEBUR E.A model of saliency-basedvisual attention for rapid scene analysis[J].IEEE Transactionson Pattern Analysis&Machine Intelligence,1998(11):1254-1259.
[5]GUO Y,LIU Y,OERLEMANS A,et al.Deep learning forvisual understanding:A review[J].Neurocomputing,2016,187(C):27-48.
[6]MENAR]]S.Applied logistic regression analysis[M].London:Sage Publications,2002:61-80.
[7]AMATO G,F(xiàn)ALCHI F.OnkNN classification and localfeature based image similarity functions[C]//InternationalConference on Agents and Artificial Intelligence,2011:224-239.
[8]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[9]BAY H,ESS A,TUYTELAARS T,et al.Speeded-up robustfeatures(SURF)[J].Computer Vision and ImageUnderstanding,2008,110(3):346-359.
[10]DENIZ O,BUENO G,SALHDO J,et al.Face recognitionusing histograms of oriented gradients[J].Pattern RecognitionLetters,2011,32(12):1598-1603.
[11]MARON M E,KUHNS J L.On relevance,probabilisticindexing and information retrieval[J].Journal of the ACM(JACM),1960,7(3):216-244.
[12]JOACHIMS T.Making large-scale SVM learning practical[R].Universitat Dortmund,1998.
[13]LU D,WENG Q.A survey of image classification methodsand techniques for improving classification performance[J].International Journal of Remote Sensing,2007,28(5):823-870.
[14]羅建豪,昊建鑫.基于深度卷積特征的細(xì)粒度圖像分類研究綜述[J].自動化學(xué)報(bào),2017,43(8):1306-1318.
[15]RAWAT W,WANG Z.Deep convolutional neural networksfor image classification:A comprehensive review[J].NeuralComputation,2017,29(9):2352-2449.
[16]楊真真,匡楠,范露,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述[J].信號處理,2018,34(12):1474-1489.
[17]YANG L P,MACEACHREN A,MITRA P,et al.Visually-enabled active deep learning for(geo)text and imageclassification:a review[J].ISPRS International Journal ofGeo-Information,2018,7(2):65-103.
[18]田萱,王亮,丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述[J].軟件學(xué)報(bào),2019(2):440-468.
[19]LIU X,HOU F,QIN H,et al.Multi-view multi-scale CNNsfor lung nodule type classification from CT images[J].PatternRecognition,2018,77:262-275.
[20]TONUTTI M,RUFFALDI E,CATTANEO A,et al.Robustand subject-independent driving manoeuver anticipationthrough Domain-Adversarial Recurrent Neural Networks[J].Robotics and Autonomous Systems,2019,115:162-173.
[21]李云鵬,侯凌燕,王超.基于YOLOv3的自動駕駛中運(yùn)動目標(biāo)檢測[J].計(jì)算機(jī)工程與設(shè)計(jì),2019(4):1139-1144.
[22]馬曉云,朱丹,金晨,等.基于改進(jìn)Faster R-CNN的子彈外觀缺陷檢測[J/OL].激光與光電子學(xué)進(jìn)展:1-14[20]9-05-04].http://kns.cnki.net/kcms/detail/31.1690.TN.20190308.1705.004.html.
[23]常海濤,茍軍年,李曉梅.Faster R-CNN在工業(yè)CT圖像缺陷檢測中的應(yīng)用[J].中國圖象圖形學(xué)報(bào),2018,23(7):1061-1071.
[24]IWAHORI Y,TAKADA Y,SHINA T,et al.DefectClassification of Electronic Board Using Dense SIFT andCNN[J].Procedia Computer Science,2018,126:1673-1682.
[25]趙浩如,張永,劉國柱.基于RPN與B-CNN的細(xì)粒度圖像分類算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(3):210-213,264.
[26]王陳光,王晉疆,趙顯庭.低對比度圖像特征點(diǎn)提取與匹配
[J].半導(dǎo)體光電,2017,38(6):888-892,897.
[27]RUSSAKOVSKY O,DENG J,SU H,et al.Imagenet largescale visual recognition challenge[J].International Journal ofComputer Vision,2015,115(3):211-252.
[28]REDMON J,DIVVALA S,GIRSHICK R,et al.You onlylook once:Unified,real-time object detection[C]//Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition,2016:779-788.
[29]LAW H,DENG J.Cornernet:Detecting objects as pairedkeypoints[C]//Proceedings of the European Conference onComputer Vision(ECCV),2018:734-750.
[30]CHOLLET F.Xception:Deep learning with depthwiseseparable convolutions[C]//Proceedings of the IEEEconference on computer vision and pattern recognition,2017:1251-1258.
[31]JIA Y,SHELHAMER E,DONAHUE J,et al.Caffe:Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference onMultimedia,2014:675-678.
[32]HE K,SUN J.Convolutional neural networks at constrainedtime cost[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2015:5353-5360.
[33]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenetclassification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012:1097-1105.
[34]ZEILER M D,F(xiàn)ERGUS R.Visualizing and understandingconvolutional networks[C]//European Conference on ComputerVision,2013:818-833.
[35]LIN T Y,MAR S.Visualizing and understanding deep texturerepresentations[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2016:2791-2799.
[36]SIMONYAN K,ZISSERMAN A.Very deep convolutionalnetworks for large-scale image recognition[C]// 2015International Conference on Learning Representations,2015:1-14.
[37]BENGIO Y,SIMARD P,F(xiàn)RASCONI P.Learning long-termdependencies with gradient descent is difficult[J].IEEETransactions on Neural Networks,1994,5(2):157-166.
[38]SZEGEDY C,LIU W,JIA Y,et al.Going deeper withconvolutions[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2015.
[39]HE K,ZHANG X,REN S,et al.Deep residual learning forimage recognition[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2016:770-778.
[40]ZHANG X,ZHOU X,LIN M,et al.Shufflenet:An extremelyefficient convolutional neural network for mobiledevices[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2018:6848-6856.
[41]HUANG G,LIU Z,VAN DER MAATEN L,et al.Denselyconnected convolutional networks[C]//Proceedings of theIEEE Conference on Computer Vision and PatternRecognition,2017.
[42]SANDLER M,HOWARD A,ZHU M,et al.Mobilenetd2:Inverted residuals and linear bottlenecks[C]//Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,2018:4510-4520.
[43]IOFFE S,SZEGEDY C.Batch normalization:Acceleratingdeep network training by reducing internal covariateshift[C]//International Conference on Machine Learning,2015:448-456.
[44]SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-resnet and the impact of residual connections onlearning[C]//Thirty-First AAAI Conference on ArtificialIntelligence,2017.
[45]CHEN Y,LI J,XIAO H,et al.Dual path networks[C]//Advances in Neural Information Processing Systems,2017:4467-4475.
[46]TAO X,ZHANG D,MA W,et al.Automatic metallic surfacedefect detection and recognition with convolutional neuralnetworks[J].Applied Sciences,2018,8(9):1575.
[47]SHIPWAY N J,BARDEN T J,HUTHWAITE P,et al.Automated defect detection for fluorescent penetrantinspection using random forest[J].NDT&E International,2019,101:113-123.
[48]郭雪梅,劉桂雄,黃堅(jiān),等.面向標(biāo)準(zhǔn)件裝配質(zhì)量的PI-SURF檢測區(qū)域劃分技術(shù)[J].中國測試,2017,43(8):101-105.
[49]黃堅(jiān),劉桂雄,林鎮(zhèn)秋.基于多角點(diǎn)結(jié)合的機(jī)箱標(biāo)準(zhǔn)件圖像特征提取方法[J].中國測試,2017,43(9):123-127.
[50]李宜汀,謝慶生,黃海松,等.基于Faster R-CNN的表面缺陷檢測方法研究[J/OL].計(jì)算機(jī)集成制造系統(tǒng):1-19[2019-05-04].http://kns.cnki.net/kcms/detail/11.5946.tp.20190110.1415.002.html.
[51]DENG Y S,LUO A C,DAI M J.Building an AutomaticDefect Verification System Using Deep Neural Network forPCB Defect Classification[C]//2018 4th InternationalConference on Frontiers of Signal Processing(ICFSP),2018.
[52]何彬媛,黃堅(jiān),劉桂雄,等.面向機(jī)箱標(biāo)準(zhǔn)件裝配質(zhì)量局部特征的智能檢測技術(shù)[J].中國測試,2019,45(3):18-23.
(編輯:李剛)