摘 要:為實(shí)現(xiàn)自動(dòng)化工業(yè)生產(chǎn)中零件的自動(dòng)識(shí)別,對(duì)深度殘差網(wǎng)絡(luò)的殘差結(jié)構(gòu)進(jìn)行改進(jìn)。將儲(chǔ)備池模塊應(yīng)用到殘差網(wǎng)絡(luò)的殘差連接結(jié)構(gòu)中,使得輸入數(shù)據(jù)的各個(gè)區(qū)域互相關(guān)聯(lián)后重新進(jìn)行表征。將提出的模型在工業(yè)零件數(shù)據(jù)集以及公開(kāi)數(shù)據(jù)集上與其他深度學(xué)習(xí)模型進(jìn)行比較。結(jié)果表明:在工業(yè)零件數(shù)據(jù)集上提出的具有數(shù)據(jù)關(guān)聯(lián)表征的殘差網(wǎng)絡(luò)ResNet18-RC比ResNet18提高了0.17%,且均比其他模型的識(shí)別率高。在CIFAR-10、CIFAR-100、Tiny-ImageNet等公開(kāi)數(shù)據(jù)集上,具有數(shù)據(jù)關(guān)聯(lián)表征的殘差網(wǎng)絡(luò)ResNet50-RC分別比ResNet50提高了0.35、0.62、0.54、1.31個(gè)百分點(diǎn)的精度,具有很好的圖像檢測(cè)性能。
關(guān)鍵詞:圖像識(shí)別;殘差神經(jīng)網(wǎng)絡(luò);儲(chǔ)備池計(jì)算;數(shù)據(jù)關(guān)聯(lián)表征;工業(yè)零件
中圖分類號(hào):TP391.41" 文獻(xiàn)標(biāo)志碼:A" 文章編號(hào):1671-5276(2024)05-0191-04
Industrial Parts Detection Based on Data Correlation Representation
Abstract:For the realization of automatic identification of industrial parts in automated industrial production, the residual structure of deep residual network is upgraded. The reservoir module is applied to the residual connection structure of the residual network so that each area of the input data can be represented after being correlated with each other. The proposed model is compared with other deep learning models on industrial parts dataset and public dataset. The experimental results show that the proposed residual network with data correlation representation Resnet18-RC is 0.17%, better than ResNet18 on the industrial parts dataset, and the recognition accuracy is higher than other models. The public dataset like CIFAR-10, CIFAR-100 and Tiny-Imagined indicates that the residual network Resnet50-RC is respectively 0.35, 0.62, 0.54, 1.31 per cent, higher than ResNet50 in terms of accuracy, and has good image recognition performanc.
Keywords:image recognition;residual neural network;reservoir computing;data correlation representation;industrial parts
0 引言
近年來(lái),隨著人工智能技術(shù)的發(fā)展,自動(dòng)化的生產(chǎn)車(chē)間已經(jīng)越來(lái)越普遍。因此,對(duì)于如螺絲、螺母等零件的正確識(shí)別非常重要。近年來(lái)有人通過(guò)GAPSO-SVM方法進(jìn)行鈑金零件圖像識(shí)別[1]。機(jī)器錯(cuò)誤地識(shí)別和抓取零件可能會(huì)造成難以估量的損失。為了解決這個(gè)問(wèn)題,通過(guò)先進(jìn)的圖像識(shí)別模型算法來(lái)完成對(duì)零件的正確選擇尤為重要。
圖片分類算法的研究一直是最近幾年來(lái)的熱點(diǎn),期間許多性能強(qiáng)悍的模型不斷涌現(xiàn)。比如在2012年的ILSVRC[2]分類挑戰(zhàn)大賽中,基于卷積結(jié)構(gòu)的深度網(wǎng)絡(luò)AlexNet[3-4]取得了很好的成績(jī)。除此之外,VGG[5]網(wǎng)絡(luò)模型的top-5準(zhǔn)確率也達(dá)到了93.2%。而ResNet[6]通過(guò)殘差學(xué)習(xí)的方式,解決了CNN深度很深時(shí)性能退化的問(wèn)題,提高了網(wǎng)絡(luò)的可擴(kuò)展深度,并在ILSVRC中達(dá)到了很高的分類準(zhǔn)確率。
在圖像識(shí)別的算法中,卷積模塊、殘差結(jié)構(gòu)以及注意力機(jī)制[7]等模塊互相組合,有效提取圖像特征。除了這些經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)模塊,其他的一些機(jī)制或許可以被利用。近年來(lái),一種新的機(jī)器學(xué)習(xí)范式—儲(chǔ)備池計(jì)算(reservoir computing, RC)[8],開(kāi)始被廣泛地使用和研究,儲(chǔ)備池也在語(yǔ)音識(shí)別等一些工程領(lǐng)域有很好的效果。
本文對(duì)殘差神經(jīng)網(wǎng)絡(luò)的殘差結(jié)構(gòu)進(jìn)行改進(jìn)。通過(guò)將處于混沌邊緣狀態(tài)的儲(chǔ)備池模塊[9-11]應(yīng)用在殘差神經(jīng)網(wǎng)絡(luò)的殘差層中,提出了具有數(shù)據(jù)關(guān)聯(lián)表征殘差結(jié)構(gòu)的殘差神經(jīng)網(wǎng)絡(luò)模型。在工業(yè)零件數(shù)據(jù)集上,改進(jìn)ResNet18模型,并對(duì)相關(guān)的圖像識(shí)別模型進(jìn)行訓(xùn)練并對(duì)比驗(yàn)證。除此之外,為驗(yàn)證提出的方法在圖像識(shí)別模型的有效性,本文在ResNet50的殘差網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行改進(jìn),在CIFAR-10,CIFAR-100[12], Tiny-ImageNet[13]等圖像數(shù)據(jù)集上與其他網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),充分驗(yàn)證了本文所提出的模型對(duì)于正確物體圖像識(shí)別的可能性。
1 模型與方法
1.1 殘差連接的改進(jìn)
殘差連接是當(dāng)前深度神經(jīng)網(wǎng)絡(luò)的最重要結(jié)構(gòu)之一,它保證了人工神經(jīng)網(wǎng)絡(luò)能夠往更深的深度發(fā)展,并使網(wǎng)絡(luò)更好地收斂。圖1展示了ResNet18網(wǎng)絡(luò)中殘差連接的方式以及對(duì)殘差連接結(jié)構(gòu)的改進(jìn)。圖1(a)表示普通的殘差連接結(jié)構(gòu),輸入經(jīng)過(guò)卷積層后通道數(shù)改變,輸出與輸入直接相加前,原輸入需要卷積成與輸出相同的通道數(shù);圖1(b)的結(jié)構(gòu)表示對(duì)殘差結(jié)構(gòu)的改進(jìn),在殘差連接中加入了儲(chǔ)備池模塊。
1.2 儲(chǔ)備池模塊
儲(chǔ)備池計(jì)算由輸入層、儲(chǔ)備池以及讀出層3部分構(gòu)成。儲(chǔ)備池的基本結(jié)構(gòu)如圖2所示,其中Win表示輸入權(quán)重,在[0,1]的范圍內(nèi)隨機(jī)均勻采樣。處于中間層的儲(chǔ)備池,是一個(gè)RNN網(wǎng)絡(luò),內(nèi)部具有循環(huán)連接權(quán)重Wres,神經(jīng)元之間稀疏連接,其中xi表示神經(jīng)元i的值。在儲(chǔ)備池中,Win和Wres均不訓(xùn)練,在初始化后保持固定不變。Wout表示讀出權(quán)重,它將儲(chǔ)備池和讀出層連接起來(lái)。
儲(chǔ)備池內(nèi)部的神經(jīng)元狀態(tài)更新方式如式(1)所示。
x(n+1)=(1-α)x(n)+αtanh[Wresx(n)+Winxin(n+1)](1)
式中:x(n)是第n時(shí)刻儲(chǔ)備池神經(jīng)元電壓組成的狀態(tài)列向量;α表示神經(jīng)元的泄露率,在[0,1]區(qū)間內(nèi)取值;tanh是非線性激活函數(shù)。
1.3 數(shù)據(jù)關(guān)聯(lián)表征殘差連接
本文將普通的殘差連接更改為具有儲(chǔ)備池模塊的數(shù)據(jù)關(guān)聯(lián)表征殘差連接結(jié)構(gòu),如圖1所示。
在殘差連接的卷積層之前,加入了儲(chǔ)備池模塊。首先將輸入數(shù)據(jù)按照區(qū)域分為一個(gè)個(gè)的小塊,每一個(gè)小塊按照從左到右、從上到下的順序依次進(jìn)行拉平,在某個(gè)時(shí)刻輸入給儲(chǔ)備池,每個(gè)時(shí)刻只輸入一個(gè)小圖片塊。小圖片塊輸入給儲(chǔ)備池后,網(wǎng)絡(luò)在混沌邊緣的狀態(tài)下,將不同部分的小數(shù)據(jù)塊互相關(guān)聯(lián)起來(lái),相當(dāng)于一個(gè)全局的注意力操作,數(shù)據(jù)被表征出了更多的特征,變?yōu)榱烁呔S的網(wǎng)絡(luò)狀態(tài)。隨后網(wǎng)絡(luò)狀態(tài)經(jīng)過(guò)一個(gè)線形層讀出信息后再進(jìn)行一個(gè)相反的操作,把網(wǎng)絡(luò)狀態(tài)變?yōu)檩斎氲脑夹螤?。圖片分塊輸入給儲(chǔ)備池的過(guò)程如圖3所示。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
為了提高模型在對(duì)于工業(yè)零件識(shí)別的準(zhǔn)確率和有效性,首先從公開(kāi)數(shù)據(jù)集中選取了螺栓(bolt)、定位銷(xiāo)(locatingpin)、螺母(nut)、墊片(washer) 等。除此之外,為了驗(yàn)證提出的模型在多物體數(shù)據(jù)集上的物體識(shí)別能力和泛化能力,本文還在CIFAR-10、CIFAR-100、Tiny-ImageNet、FLOWER數(shù)據(jù)集上與其他的網(wǎng)絡(luò)模型進(jìn)行了比較。
2.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本文實(shí)驗(yàn)基于Pytorch框架,在NVIDIA V100上完成網(wǎng)絡(luò)的訓(xùn)練和測(cè)試過(guò)程。實(shí)驗(yàn)使用SGD優(yōu)化器,采用0.01的學(xué)習(xí)率,學(xué)習(xí)率隨著實(shí)驗(yàn)過(guò)程逐漸減小,優(yōu)化器中的參數(shù)weight-decay設(shè)置為1×10-4。損失函數(shù)選擇了交叉熵?fù)p失CrossEntropyLoss。儲(chǔ)備池的特征值譜半徑設(shè)置為1,儲(chǔ)備池神經(jīng)元數(shù)目設(shè)置為1 000。
2.3 工業(yè)零件分類實(shí)驗(yàn)結(jié)果
本文根據(jù)2.2節(jié)中的實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置,在工業(yè)零件圖片數(shù)據(jù)集上進(jìn)行了圖片識(shí)別驗(yàn)證。對(duì)ResNet18的殘差網(wǎng)絡(luò)模型進(jìn)行改進(jìn),在殘差結(jié)構(gòu)中加入1.3節(jié)所示的數(shù)據(jù)關(guān)聯(lián)表征,提出了ResNet18-RC模型。該模型與其他模型在此工業(yè)零件數(shù)據(jù)集上的比較如表1所示。ResNet18-RC達(dá)到了99.67%的準(zhǔn)確率,能夠準(zhǔn)確地識(shí)別4種工業(yè)零件的圖片。由表1可知,ResNet18-RC與ResNext、VGG16、DenseNet和ResNet18等模型相比,具有更高的模型識(shí)別準(zhǔn)確率。
在此實(shí)驗(yàn)中,隨機(jī)選擇一些圖片進(jìn)行測(cè)試,模型分類零件的熱力圖如圖4所示。圖4表明提出的數(shù)據(jù)關(guān)聯(lián)殘差結(jié)構(gòu)模型能夠觀察到各類不同零件上的關(guān)鍵特征。
2.4 公開(kāi)數(shù)據(jù)集分類實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證本文提出的數(shù)據(jù)關(guān)聯(lián)表征殘差結(jié)構(gòu)在模型上的效果,接下來(lái)在公開(kāi)數(shù)據(jù)集上驗(yàn)證模型的識(shí)別準(zhǔn)確率。本文繼續(xù)使用2.2節(jié)中的實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置,在比ResNet18深度更深的殘差神經(jīng)網(wǎng)絡(luò)ResNet50上對(duì)殘差結(jié)構(gòu)進(jìn)行改進(jìn),提出了ResNet50-RC模型,在公開(kāi)數(shù)據(jù)集CIFAR-10、CIFAR-100、Tiny-ImageNet以及FLOWER上與其他模型VGG16、ResNext、DenseNet以及ResNet50進(jìn)行比較,在測(cè)試集中計(jì)算。實(shí)驗(yàn)結(jié)果如表2所示。
如表2所示,無(wú)論是在CIFAR-10、CIFAR-100還是在Tiny-ImageNet數(shù)據(jù)集上,所提出的具有數(shù)據(jù)關(guān)聯(lián)表征殘差結(jié)構(gòu)的模型ResNet50-RC和其他模型相比,均有更好地準(zhǔn)確率。從表2中可以看出,ResNet50-RC模型在CIFAR-10、CIFAR-100、Tiny-ImageNet以及FLOWER數(shù)據(jù)集上的準(zhǔn)確率比ResNet50模型分別高了0.35、0.62、0.54、1.31個(gè)百分點(diǎn)。
表1和表2都表明:提出的具有數(shù)據(jù)關(guān)聯(lián)表征殘差結(jié)構(gòu)在圖片識(shí)別上能夠提高網(wǎng)絡(luò)的準(zhǔn)確率,無(wú)論是在機(jī)械零件數(shù)據(jù)集,還是在公開(kāi)數(shù)據(jù)集上,具有數(shù)據(jù)關(guān)聯(lián)表征殘差連接的網(wǎng)絡(luò)均有很好的效果。
最后在CIFAR-10數(shù)據(jù)集上,對(duì)ResNet50-RC模型在不同的Stage上加入數(shù)據(jù)關(guān)聯(lián)表征殘差連接進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表3所示。表3表明,在第3、第4個(gè)stage改進(jìn)殘差連接的模型分類準(zhǔn)確率越高。
3 結(jié)語(yǔ)
在自動(dòng)化工業(yè)組裝生產(chǎn)中,提高機(jī)械零件的識(shí)別率是降低生產(chǎn)事故、減少損失的關(guān)鍵之一。通過(guò)在殘差神經(jīng)網(wǎng)絡(luò)的殘差結(jié)構(gòu)中引入儲(chǔ)備池模塊,對(duì)殘差輸入進(jìn)行數(shù)據(jù)關(guān)聯(lián)表征,實(shí)現(xiàn)了全局注意力的操作,增加了數(shù)據(jù)的特征,提高了網(wǎng)絡(luò)識(shí)別圖像的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明:深度殘差網(wǎng)絡(luò)結(jié)合基于儲(chǔ)備池的數(shù)據(jù)關(guān)聯(lián)表征殘差連接,能夠?qū)崿F(xiàn)更高的圖像識(shí)別準(zhǔn)確率,無(wú)論是在工業(yè)機(jī)械零件數(shù)據(jù)集還是在公開(kāi)數(shù)據(jù)集中都有一定的提升。
參考文獻(xiàn):
[1] 方舟,程筱勝,崔海華,等. 基于GAPSO-SVM的鈑金零件圖像識(shí)別方法[J]. 機(jī)械制造與自動(dòng)化,2020,49(5):116-118,122.
[2] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet Large scale visual recognition challenge[J]. International Journal of Computer Vision,2015,115(3):211-252.
[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[4] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA: IEEE,2015:1-9.
[5] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-04-04)[2022-10-08]. https://doi.org/10.48550/arXiv.1409.1556.
[6] HE K M,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA: IEEE,2016:770-778.
[7] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An image is worth 16x16 words:transformers for image recognition at scale [EB/OL]. (2020-10-22)[2022-10-08]. https://doi.org/10.48550/arXiv.2010.11929.
[8] SCHRAUWEN B,VERSTRAETEN D,CAMPENHOUT J V. An overview of reservoir computing:theory,applications and implementations[C]//ESANN'2007 Proceedings - European Symposium on Artificial Neural Networks, Bruges (Belgium): [s.n.], 2007: 471-482.
[9] LUKOEVICˇIUS M, JAEGER H. Reservoir computing approaches to recurrent neural network training[J]. Computer Science Review,2009,3(3):127-149.
[10] SOMPOLINSKY H,CRISANTI A,SOMMERS H J. Chaos in random neural networks[J]. Physical Review Letters,1988,61(3):259-262.
[11] LANGTON C G. Computation at the edge of chaos:phase transitions and emergent computation[J]. Physica D:Nonlinear Phenomena,1990,42(1/2/3):12-37.
[12] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[R]. Technical report, University of Toronto, 2009.
[13] LE Y,YANG X S. Tiny ImageNet visual recognition challenge[J]. [S.I:s.n.]. 2015.