王新嬌 曾上游 魏書(shū)偉
摘 ?要: 針對(duì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)單一,模塊中卷積核使用單一,網(wǎng)絡(luò)特征提取不充分導(dǎo)致圖片分類(lèi)準(zhǔn)確度不夠,以及模型大的問(wèn)題,提出卷積核交叉模塊的網(wǎng)絡(luò)設(shè)計(jì)。此模塊先將輸出特征圖分成兩組,每一組采用不同數(shù)量、不同大小的卷積核進(jìn)行特征提取,然后將分組得到的特征圖進(jìn)行級(jí)聯(lián)操作后再通過(guò)1×1的卷積核進(jìn)行整合。該文設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的網(wǎng)絡(luò)相比,在食物101_food數(shù)據(jù)集上將識(shí)別精度由56.7%提升至72.63%;在交通GTSRB數(shù)據(jù)集上將識(shí)別精度由96.3%提升至98.41%。實(shí)驗(yàn)結(jié)果表明,該文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)性能優(yōu)越,且網(wǎng)絡(luò)模型較小。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); 網(wǎng)絡(luò)改進(jìn); 卷積核; 圖像分類(lèi); 特征提取; 結(jié)果分析
中圖分類(lèi)號(hào): TN926?34; TP391.4 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)24?0182?05
Design of convolution neural network based on parallel convolution kernel cross module
WANG Xinjiao, ZENG Shangyou, WEI Shuwei
(School of Electronic Engineering, Guangxi Normal University, Guilin 541004, China)
Abstract: In allusion to the problems of insufficient accuracy of image classification caused by the single structure of convolution neural network, single use of convolution kernel in the module and insufficient extraction of network features, as well as large model problem, a network design of convolution kernel cross module is proposed. In this module, the output feature map is divided into two groups, each group uses convolution kernels with different number and size for the feature extraction, and then the grouped feature map is cascaded and integrated through 1×1 convolution kernels. In comparison with the traditional network, the recognition accuracy by the convolution neural network designed in this paper can be improved from 56.7% to 72.63% in the food 101_food dataset, and from 96.3% to 98.41% in the traffic GTSRB dataset. The experimental results show that the network structure designed in this paper has superior performance and smaller network model.
Keywords: convolution neural network; network improvement; convolution kernel; image classification; feature extraction; result analysis
0 ?引 ?言
隨著互聯(lián)網(wǎng)的快速發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),深度學(xué)習(xí)已經(jīng)成為當(dāng)前人工智能領(lǐng)域研究的熱點(diǎn)[1]。人工智能的發(fā)展是當(dāng)今世界研究的主流,國(guó)家也在強(qiáng)調(diào)“互聯(lián)網(wǎng)”時(shí)代,而深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音處理、數(shù)據(jù)挖掘、自然語(yǔ)言處理以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,解決了很多復(fù)雜的難題,使得人工智能技術(shù)取得了很大進(jìn)步。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)算法中一種重要的算法。在2006年深度學(xué)習(xí)理論被提出后,卷積神經(jīng)的表征學(xué)習(xí)能力開(kāi)始被大家關(guān)注,隨著數(shù)值計(jì)算的更新得到發(fā)展。2012年ImageNet大規(guī)模視覺(jué)挑戰(zhàn)賽(ILSVRC),AlexNet開(kāi)始得到GPU計(jì)算集群支持并多次成為ImageNet視覺(jué)識(shí)別競(jìng)賽的優(yōu)勝算法[2],使得之后各類(lèi)深度網(wǎng)絡(luò)結(jié)構(gòu)相繼誕生,包括2014年的VGGNet[3]、GoogLeNet和2015年的ResNet。
AlexNet相比于之前的LeNet網(wǎng)絡(luò)具有更深的網(wǎng)絡(luò)結(jié)構(gòu),使用層疊的卷積層來(lái)學(xué)習(xí)更豐富更高維的圖像特征,通過(guò)數(shù)據(jù)增強(qiáng)的方式來(lái)擴(kuò)增數(shù)據(jù)集。AlexNet中重要的一點(diǎn)是使用ReLu[4]函數(shù)代替Sigmoid函數(shù),很好地解決了梯度飽和導(dǎo)致訓(xùn)練收斂慢的問(wèn)題,大大提高了訓(xùn)練效率。但同時(shí)網(wǎng)絡(luò)結(jié)構(gòu)的加深使得參數(shù)量加大,使網(wǎng)絡(luò)訓(xùn)練強(qiáng)度增大并且模型增大。針對(duì)這個(gè)問(wèn)題,本文卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用Cross Input?Net,利用Min Lin等提出的Network in Network中1×1的卷積核,將模塊中分組獲得的圖像特征實(shí)現(xiàn)整合然后進(jìn)行降維,模塊中采用不平等分組,1×1,3×3和5×5卷積核的交叉使用,使得特征提取更加準(zhǔn)確,網(wǎng)絡(luò)中使用ResNet結(jié)構(gòu),最后用全局平均池化代替全連接,可輕松訓(xùn)練非常深的CNN架構(gòu)的同時(shí)大大提高了網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確度。
3 ?實(shí) ?驗(yàn)
3.1 ?實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)環(huán)境:本實(shí)驗(yàn)所有網(wǎng)絡(luò)都是基于Caffe[14]深度學(xué)習(xí)框架基礎(chǔ)上進(jìn)行的,各模型實(shí)驗(yàn)結(jié)果在計(jì)算機(jī)i7?6700k 4核CPU、Ubuntu 14.04操作系統(tǒng)、32 GB內(nèi)存以及NVIDIA?GTX1070的GPU上完成的。
參數(shù)設(shè)置:網(wǎng)絡(luò)訓(xùn)練參數(shù)的調(diào)試對(duì)網(wǎng)絡(luò)性能優(yōu)劣至關(guān)重要,學(xué)習(xí)率是網(wǎng)絡(luò)訓(xùn)練中的重要一步,學(xué)習(xí)率過(guò)高或過(guò)低都會(huì)對(duì)網(wǎng)絡(luò)產(chǎn)生一定影響。本次實(shí)驗(yàn)2個(gè)網(wǎng)絡(luò)均采用相同的參數(shù)設(shè)置,根據(jù)網(wǎng)絡(luò)和數(shù)據(jù)集設(shè)置的學(xué)習(xí)率參數(shù)及變化值:在101_food數(shù)據(jù)集上訓(xùn)練時(shí),學(xué)習(xí)率大小設(shè)置為0.005,學(xué)習(xí)率采用多步變化,迭代次數(shù)設(shè)置為40 000,80 000和120 000,最大迭代次數(shù)為150 000;在GTSRB上訓(xùn)練時(shí),學(xué)習(xí)率大小設(shè)置為0.005,學(xué)習(xí)率采用多步變化,迭代次數(shù)設(shè)置為24 000和48 000,最大迭代次數(shù)為60 000。
數(shù)據(jù)集介紹:實(shí)驗(yàn)所用的數(shù)據(jù)集是GTSRB和101_food,GTSRB交通標(biāo)志數(shù)據(jù)集總共51 831張交通圖片,分為43類(lèi),其中,訓(xùn)練集有39 209張圖片,測(cè)試集有12 432張圖片,所有圖片都是在復(fù)雜背景下拍攝見(jiàn)圖5。
101_food總共101 000張食物圖片,分為101類(lèi),每類(lèi)有1 000張圖片,其中,訓(xùn)練集有75 750張圖片,測(cè)試集有25 250張,如圖6所示。
預(yù)處理:對(duì)圖片進(jìn)行左上角、右上角、左下角、右下角和中間進(jìn)行不同程度的裁剪,大小裁剪為227×227,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng);然后進(jìn)行歸一化和去均值處理,通過(guò)水平翻轉(zhuǎn)等方式增加數(shù)據(jù)集的數(shù)量。
3.2 ?實(shí)驗(yàn)結(jié)果及分析
本文實(shí)驗(yàn)在AlexNet基礎(chǔ)上將卷積層進(jìn)行替換,又通過(guò)使用BN、ResNet、Avepool以及Dropout等來(lái)優(yōu)化網(wǎng)絡(luò),通過(guò)對(duì)比AlexNet網(wǎng)絡(luò),網(wǎng)絡(luò)1和網(wǎng)絡(luò)2不管是在準(zhǔn)確率還是模型大小上都有很大的改進(jìn),其中,網(wǎng)絡(luò)2的性能更優(yōu)越。
表1和表2分別表示網(wǎng)絡(luò)在101_food和GTSRB上的精確度和實(shí)驗(yàn)?zāi)P痛笮。瑘D7和圖8分別展示了各模型在數(shù)據(jù)集上變化的準(zhǔn)確率曲線。
由表1和表2可知,Cross Input?Net1和Cross Input?Net2都有較好的精確度,網(wǎng)絡(luò)整體模型大小也減小很多。傳統(tǒng)網(wǎng)絡(luò)和AlexNet網(wǎng)絡(luò)結(jié)構(gòu)較淺,網(wǎng)絡(luò)整體參數(shù)較小,所以訓(xùn)練時(shí)間比較短,本文網(wǎng)絡(luò)每個(gè)模塊中從不同通道使用了不同的卷積核進(jìn)行卷積,2條支路的使用相當(dāng)于支路參數(shù)的累加,網(wǎng)絡(luò)的加寬、加深也使得網(wǎng)絡(luò)整體參數(shù)增加不少,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間相對(duì)較長(zhǎng)。
整體來(lái)說(shuō),網(wǎng)絡(luò)的加深、加寬對(duì)BN層及激活層的計(jì)算增加了不少,使得相同時(shí)間迭代下網(wǎng)絡(luò)訓(xùn)練加長(zhǎng),但是全局平均池化代替全連接又減少了大量的卷積層參數(shù),同時(shí)不同通道卷積核的交叉混用使得特征提取更充分,網(wǎng)絡(luò)訓(xùn)練精確度更高。Cross Input?Net2的網(wǎng)絡(luò)在綜合對(duì)比下性能也更優(yōu)越。
4 ?結(jié) ?語(yǔ)
本文通過(guò)對(duì)AlexNet基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),提出雙通道卷積交叉網(wǎng)絡(luò)模型,使用不同卷積核進(jìn)行特征提取,充分提取特征的同時(shí)也增加了網(wǎng)絡(luò)的深度和寬度,使用BN進(jìn)行歸一化處理,用ResNet殘差消除梯度問(wèn)題,用Dropout來(lái)防止過(guò)擬合,用全局平均池化代替全連接減少網(wǎng)絡(luò)參數(shù)。在101_food和GTSRB數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)性能優(yōu)越,在提高網(wǎng)絡(luò)識(shí)別精度的同時(shí)減小了網(wǎng)絡(luò)模型大小。雖然網(wǎng)絡(luò)在一定程度上有很大改進(jìn),但是后續(xù)工作仍需要繼續(xù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),網(wǎng)絡(luò)加深、加寬帶來(lái)的網(wǎng)絡(luò)模型大,訓(xùn)練時(shí)間長(zhǎng)問(wèn)題還需要進(jìn)一步優(yōu)化,同時(shí)網(wǎng)絡(luò)需要在更多大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,將其運(yùn)用到更多方面,提高應(yīng)用性能。
注:本刊通訊作者為曾上游。
參考文獻(xiàn)
[1] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313: 504?507.
[2] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// International Conference on Neural Information Processing Systems. Boston: Massachusetts Institute of Technology Press, 2012:1097?1105.
[3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [J]. Computer science, 2014(7): 21?34.
[4] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229?1251.
[5] 李策,陳海霞,漢語(yǔ),等.深度學(xué)習(xí)算法中卷積神經(jīng)網(wǎng)絡(luò)的概念綜述[J].電子測(cè)試,2018(23):61?62.
[6] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [J]. Computer science, 2015(11): 102?110.
[7] 楊遠(yuǎn)飛,曾上游,周悅,等.基于輕量型卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別[J].電視技術(shù),2018,42(3):40?44.
[8] 周悅,曾上游,楊遠(yuǎn)飛,等.基于分組模塊的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)[J].微電子學(xué)與計(jì)算機(jī),2019,36(2):68?72.
[9] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1?9.
[10] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770?778.
[11] 潘兵,曾上游,楊遠(yuǎn)飛,等.基于雙網(wǎng)絡(luò)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)[J].電光與控制,2019,26(2):57?61.
[12] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]// European Conference on Computer Vision. Zurich: Springer, 2014: 818?833.
[13] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting [J]. Journal of machine learning research, 2014, 15(1): 1929?1958.
[14] JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// ACM International Conference on Multimedia. Xiamen: Springer, 2014: 675?678.
作者簡(jiǎn)介:王新嬌(1995—),女,山東濰坊人,碩士,研究方向?yàn)槿斯ぶ悄苌疃葘W(xué)習(xí)。
曾上游(1974—),男,工學(xué)博士,教授,研究領(lǐng)域?yàn)榉蔷€性動(dòng)力學(xué)、計(jì)算神經(jīng)科學(xué)。
魏書(shū)偉(1994—),男,山東臨沂人,碩士,研究方向?yàn)槿斯ぶ悄苌疃葘W(xué)習(xí)。