曾維亮,林志賢,陳永灑
(1.福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116;2.TCL集團(tuán)工業(yè)研究院,廣東 深圳 518055)
基于卷積神經(jīng)網(wǎng)絡(luò)的智能冰箱果蔬圖像識別的研究*
曾維亮1,林志賢1,陳永灑2
(1.福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116;2.TCL集團(tuán)工業(yè)研究院,廣東 深圳 518055)
智能冰箱物體識別主要涉及對水果和蔬菜的識別,冰箱中果蔬數(shù)量繁多,光照不均,環(huán)境復(fù)雜,對此提出了一種用于處理該類識別問題的卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)采用ReLU作為激活函數(shù),它比傳統(tǒng)的Sigmoid函數(shù)具有更強(qiáng)的稀疏能力和更大的梯度值,能夠極大地加速網(wǎng)絡(luò)收斂。隱含層中引入隨機(jī)Dropout,使得某些節(jié)點(diǎn)不工作,減少節(jié)點(diǎn)間的“共同適應(yīng)”,降低網(wǎng)絡(luò)對某一局部特征的過擬合,可減少網(wǎng)絡(luò)計(jì)算復(fù)雜度并有效提升識別率。網(wǎng)絡(luò)采用帶動(dòng)量項(xiàng)的基于梯度下降的反向傳播算法,避免網(wǎng)絡(luò)陷入局部極小值,提高識別率。最后通過用Supermarket Produce Dataset數(shù)據(jù)集模擬冰箱果蔬圖像進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
卷積神經(jīng)網(wǎng)絡(luò);果蔬識別; Dropout;梯度下降
智能冰箱的果蔬識別可收集用戶果蔬產(chǎn)品的消耗情況,利用該數(shù)據(jù)分析出用戶喜好,商家可通過終端APP適時(shí)向用戶做出果蔬產(chǎn)品推薦,或提醒用戶盡快食用即將過期的食品。目前智能冰箱的物體識別方法主要有:用戶手動(dòng)輸入或語音輸入食物種類、無線射頻識別掃描[1]、條形碼或二維碼掃描[2]等技術(shù)。針對果蔬圖像識別,BOLLE R M等人[3]等通過提取圖像的顏色、紋理統(tǒng)計(jì)特征,首次實(shí)現(xiàn)了隨意擺放農(nóng)產(chǎn)品的識別與分類。ROCHA A等人[4]比較了和差直方圖(Unser)、顏色聚合向量(Color Coherence Vector,CCV)、內(nèi)外點(diǎn)顏色直方圖(Border/Interior pixel Classfication,BIC)等紋理、顏色特征,采用K-means與自底向上聚類(Bottom-up Clustering Procedure)方法對這幾類特征進(jìn)行識別,同時(shí)指出采用特征融合的辦法可以取得更好的效果,但是該方法不能很好地表現(xiàn)果蔬紋理的差異性,且對外界光照較敏感。Zhang Yudong等人提出利用Unser、RGB顏色直方圖、外形等作為識別特征,采用多核SVM進(jìn)行果蔬產(chǎn)品識別[5],取得了較好的識別效果,但是多核支持向量機(jī)訓(xùn)練時(shí)間長,成本較大。ROCHA A等人[6]后期繼續(xù)采用特征融合的方法對果蔬識別技術(shù)進(jìn)行了優(yōu)化。陶華偉等人[7]提出一種基于顏色完全局部二值模式來提取物體紋理特征的方法,提高了智能果蔬系統(tǒng)的識別率。以上對果蔬圖像識別的研究均屬于人工提取特征的范疇。
LECUN Y等人[8]提出的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)在數(shù)字識別中取得了巨大的成功,隨后以該模型為代表的卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用到車牌識別、手寫數(shù)字識別、視頻人體動(dòng)作識別[9]、人臉特征點(diǎn)的檢測[10]等眾多領(lǐng)域。KRIZHEVSKY A等人[11]提出的網(wǎng)絡(luò)模型在ImageNet數(shù)據(jù)集上達(dá)到了83.6%的識別率,更是引起了廣泛的關(guān)注。李思雯等人[12]利用集成的卷積神經(jīng)網(wǎng)絡(luò)識別智能冰箱果蔬種類,但是融合多個(gè)模型的方法比較復(fù)雜、參數(shù)較多,容易出現(xiàn)“過擬合”。本文提出一種用于識別冰箱果蔬種類的卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)采用ReLU做為激活函數(shù),避免出現(xiàn)飽和狀態(tài),加速網(wǎng)絡(luò)收斂。而在隱含層加入隨機(jī)Dropout,使得網(wǎng)絡(luò)結(jié)構(gòu)更加“稀疏”,減少了神經(jīng)元的相互依賴性。卷積神經(jīng)網(wǎng)絡(luò)對特定的遮擋、光照、平移、旋轉(zhuǎn)、縮放及其他形式的扭曲都具有良好的魯棒性,非常適合用于處理該類果蔬識別問題,因此成為了近年該方向的研究熱點(diǎn)。
卷積神經(jīng)網(wǎng)絡(luò)是可以直接以2D圖像作為輸入的深度神經(jīng)網(wǎng)絡(luò),它主要包括特征提取和分類器兩部分。特征提取模塊由卷積層和降采樣層交替組成,卷積層通過卷積濾波的方式獲取圖像的有用特征,降采樣層通過對卷積層的數(shù)據(jù)采樣降維,減少了數(shù)據(jù)處理量。這種從隱含層逐層地自主選取圖像由邊、顏色等低層到角點(diǎn)、形狀等高層特征的方式,避免了人工提取特征的繁瑣與片面,使網(wǎng)絡(luò)具有自主選取特征并進(jìn)行學(xué)習(xí)與識別的能力。最后利用分類器對提取到的特征進(jìn)行識別分類,分類器通常使用一層或兩層的全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。
1.1 LeNet-5網(wǎng)絡(luò)模型
經(jīng)典的LeNet-5模型由輸入層、兩層卷積層、兩層降采樣層、兩層全連接網(wǎng)絡(luò)以及輸出層組成,LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
圖1 LeNet-5網(wǎng)絡(luò)模型結(jié)構(gòu)
在卷積層中,輸入圖像通過j個(gè)不同的卷積核卷積,生成j個(gè)不同的特征圖,運(yùn)算過程如式(1)所示。
(1)
降采樣層的運(yùn)算過程如式(2)所示。
(2)
式中:down(·)表示meanpooling降采樣,即輸入圖像中每個(gè)不同的n×n區(qū)域求和再求平均作為輸出圖像的一個(gè)點(diǎn),使得輸出圖像在不同維度都縮小為原來的1/n。每個(gè)輸出圖像都有不同的乘積因子β以及偏置因子b。
分類器的第一層是與上層降采樣層的所有特征圖全連接的卷積層,因輸入大小為5×5,而卷積核的大小也為5×5,故可以看作是全連接層。分類器第二層計(jì)算輸入向量和權(quán)重之間的點(diǎn)積,然后通過激活函數(shù)最終產(chǎn)生輸出層單元的一個(gè)狀態(tài),決定識別結(jié)果。
1.2 基于ReLU激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)中常見的激活函數(shù)包括Sigmoid函數(shù)f(x)=(1+e-x)-1和雙曲正切函數(shù)f(x)=tanh(x),這兩種函數(shù)均屬于飽和非線性函數(shù),收斂速度較慢。本文采用非飽和線性修正單元(RectifiedLinearUnits,ReLU),即f(x)=max(x),該函數(shù)通過線性修正的方式,強(qiáng)制某些數(shù)據(jù)為零,使得模型具有適度的稀疏表達(dá)。ReLU函數(shù)梯度值大,在反向傳播階段,能夠防止梯度傳播到前幾層網(wǎng)絡(luò)時(shí)彌散消失,性能比傳統(tǒng)的激活函數(shù)優(yōu)良,并且ReLU的單邊抑制更符合生物學(xué)的觀點(diǎn),其連接網(wǎng)絡(luò)的過程如圖2所示。
圖2 ReLU激活函數(shù)連接網(wǎng)絡(luò)示意圖
1.3 基于隨機(jī)Dropout的CNN網(wǎng)絡(luò)
圖3 加入Dropout的隱含層示意圖
卷積神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練階段受樣本庫容量影響大,在樣本數(shù)量有限的情況下要防止模型出現(xiàn)“過擬合”。本文網(wǎng)絡(luò)結(jié)構(gòu)引入隨機(jī)Dropout,即隨機(jī)“凍結(jié)”某些神經(jīng)元,在網(wǎng)絡(luò)訓(xùn)練過程中保留其當(dāng)前的權(quán)值,同時(shí)將輸出設(shè)定為0,而這些被選擇的神經(jīng)元在下次訓(xùn)練過程中又會恢復(fù)之前保留的取值,并再次隨機(jī)選擇部分神經(jīng)元重復(fù)此過程。隨機(jī)Dropout可以避免每兩個(gè)神經(jīng)元同時(shí)產(chǎn)生作用,從而使權(quán)值的更新不再依賴于有固定關(guān)系隱含節(jié)點(diǎn)的共同作用,即神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)在每次訓(xùn)練過程中都發(fā)生變化。這種方式降低了神經(jīng)元之間的依賴,有效提高了神經(jīng)網(wǎng)絡(luò)的泛化能力,因此能學(xué)習(xí)到魯棒性更強(qiáng)的特征。本文隨機(jī)設(shè)定兩個(gè)卷積層的30%的神經(jīng)元輸出為零,如圖3所示。
1.4 帶動(dòng)量因子的梯度下降反向傳播算法
本文訓(xùn)練過程中網(wǎng)絡(luò)的權(quán)值更新基于帶動(dòng)量因子的梯度下降反向傳播算法,權(quán)重更新規(guī)則如式(3)、(4)所示。
(3)
ωi+1=ωi+vi+1
(4)
1.5 本文的卷積神經(jīng)網(wǎng)絡(luò)模型
本文卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,分別為輸入層、兩層卷積層、兩層降采樣層、全連接層、輸出層。卷積:輸入圖像經(jīng)過一個(gè)可訓(xùn)練的濾波器進(jìn)行卷積,得到卷積層的特征圖。降采樣:對卷積層的特征圖中每個(gè)2×2的鄰域求平均得到降采樣層的一個(gè)值,因此降采樣層的特征圖在各個(gè)維度都縮小為卷積層特征圖的1/2。全連接:將最后一層降采樣層的特征圖展開成一個(gè)向量,乘上加權(quán)并通過激活函數(shù)得到輸出層神經(jīng)元。
圖4 本文的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
網(wǎng)絡(luò)模型各層采用的參數(shù)如表1所示。
表1 網(wǎng)絡(luò)各層的具體參數(shù)
2.1 數(shù)據(jù)集
冰箱中果蔬種類、數(shù)量繁多,擺放無規(guī)則,果蔬視角多變,光照不均,情況十分復(fù)雜。采用Supermarket Produce Dataset[10]數(shù)據(jù)集模擬冰箱獲取的圖像進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集共有15類、2 633張冰箱中常見果蔬的圖像,每類果蔬圖像數(shù)量為75~264張不等,圖像尺寸為1 024×768。為了使各類圖像數(shù)據(jù)整齊并相對均衡,采取隨機(jī)復(fù)制的方式使得數(shù)據(jù)集的幾類果蔬增加了167張圖像,并在這些圖像中加入高斯白噪聲。因此修正的數(shù)據(jù)集共有15類、2 800張果蔬圖像,分別為土豆(黃)、土豆(紅)、腰果、小毛桃、富士蘋果、青蘋果、香瓜、獼猴桃、油桃、洋蔥、橘、李子、梨、青桔、西瓜。
2.2 實(shí)驗(yàn)方法
本文構(gòu)建了如圖4所示的卷積神經(jīng)網(wǎng)絡(luò)模型,各層的參數(shù)如表1所示。輸入圖像尺寸為28×28,因此應(yīng)先將圖像裁剪并等寬高地縮小為1 ∶1的尺寸,等寬高地縮小是為了防止圖像畸變而丟失重要特征信息。采用批量隨機(jī)梯度下降法(Mini-batch Stochastic Gradient Descend,Mini-batch SGD)迭代200次(200 epochs),對每次epoch,每輸入10個(gè)樣本訓(xùn)練后,進(jìn)行反向傳播并更新一次權(quán)值。本文設(shè)定學(xué)習(xí)率η的初始值為0.1,待識別率沒有顯著上升或者上升趨勢變慢時(shí),將學(xué)習(xí)率η變?yōu)樵瓉淼?/2;動(dòng)量項(xiàng)α設(shè)值為0.6;權(quán)重衰減因子λ設(shè)為0.000 5;實(shí)驗(yàn)采用留出法(hold-out)劃分?jǐn)?shù)據(jù)集,隨機(jī)選取2 240張圖像作為訓(xùn)練集,其余的560張作為測試集。
2.3 實(shí)驗(yàn)結(jié)果與分析
2.3.1 各類果蔬識別的混淆矩陣
圖5為本文方法測試各類果蔬識別正確率的混淆矩陣。矩陣對角線位置顏色較深方塊中的數(shù)據(jù)為Y軸對應(yīng)果蔬的識別率,其余較淡色方塊的數(shù)據(jù)為Y軸對應(yīng)果蔬被錯(cuò)誤識別為X軸對應(yīng)的果蔬的識別率。從混淆矩陣中可以看出獼猴桃易被誤識別為青蘋果,梨易被誤識別為土豆(黃)。從數(shù)據(jù)集圖像中可發(fā)現(xiàn)這幾類水果客觀上外形比較相似;其余腰果、洋蔥、富士蘋果,香瓜、洋蔥、橘、李子、青桔等識別率較高,特別地香瓜和橘能夠達(dá)到100%的正確率。即本文的卷積神經(jīng)網(wǎng)絡(luò)模型和參數(shù)對該類果蔬識別問題能達(dá)到一個(gè)較好的識別效果。
圖5 果蔬識別率的混淆矩陣
2.3.2 采用Sigmoid和ReLU做為激活函數(shù)的識別率對比圖
圖6為網(wǎng)絡(luò)采用Sigmoid函數(shù)和ReLU函數(shù)迭代200次的收斂速度對比圖,其中實(shí)線為ReLU激活函數(shù)的識別率曲線,點(diǎn)實(shí)線為Sigmoid激活函數(shù)的識別率曲線。從圖中可以發(fā)現(xiàn)采用ReLU函數(shù)前期收斂速度更快;網(wǎng)絡(luò)趨于穩(wěn)定時(shí),采用ReLU激活函數(shù)的整體識別率約為83.4%,遠(yuǎn)高于Sigmoid函數(shù)的識別率67.7%,因其能夠有效地防止網(wǎng)絡(luò)出現(xiàn)“過擬合”,故能夠在較大程度上提高果蔬的識別率。
圖6 采用ReLU和Sigmoid作為激活函數(shù)的識別率對比圖
圖7 隨機(jī)Dropout與否的識別率對比圖
2.3.3 網(wǎng)絡(luò)加入隨機(jī)Dropout與否的識別率對比圖
圖7分別為網(wǎng)絡(luò)加入隨機(jī)Dropout與否的200次迭代后的識別率曲線圖,其中實(shí)線為加入隨機(jī)Dropout比例為30%時(shí)得到的識別率曲線,點(diǎn)實(shí)線為未加入Dropout的識別率曲線。網(wǎng)絡(luò)趨于穩(wěn)定時(shí),加入隨機(jī)Dropout的整體識別率約為83.4%,未加入隨機(jī)Dropout的整體識別率約為79.3%,識別率提高了4.1%。引入一定比例的隨機(jī)Dropout可以使得網(wǎng)絡(luò)更加稀疏,減少了神經(jīng)元之間的共同作用,在一定程度上能夠提高果蔬的識別率,并且網(wǎng)絡(luò)“抖動(dòng)”更小,魯棒性更強(qiáng)。
本文通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型對果蔬圖像進(jìn)行識別,網(wǎng)絡(luò)采用ReLU線性函數(shù)作為神經(jīng)元的激活函數(shù),加快了網(wǎng)絡(luò)的收斂,提高了訓(xùn)練效率及識別率。而在隱含層引入一定比例的Dropout,使網(wǎng)絡(luò)具有更好的泛化能力。今后將研究輸入較大的圖像尺寸,使得特征信息更加豐富,并將顏色信息加入到網(wǎng)絡(luò)中,研究顏色對果蔬圖像識別的影響以及在現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)上繼續(xù)改進(jìn)達(dá)到提高識別率的效果,從而有效地處理該類識別問題。
[1] Gu Hanshen,Wang Dong. A content-aware fridge based on RFID in smart home for home-healthcare[C].Proceedings of the 11th International Conference on Advanced Communications Technology,Beijing,IEEE,2009:987-990.
[2] 戴楊,于盛林.二維條形碼編碼與譯碼的計(jì)算機(jī)實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理,2003,18(3):356-360.
[3] BOLLE R M,CONNELL J H,HASS N,et al. Veggievison:a produce recognition system[P].United States:US 5546475A, 1996-08-13.
[4] ROCHA A,HAUAGGE D C,WAINER J,et al. Automatic produce classification from images using color,texture and appearance cues[C]. 21st Brazilian Symposium on Computer Graphics and Image Processing, CampoGrande,Brazil,IEEE,2008:3-10.
[5] Zhang Yudong,Wu Lenan. Classification of fruits using computer vision and multiclass support vector machine[J].Sensors,2012,12(9):12489-12505.
[6] FARIA F A,dos SANTOS J A, ROCHA A,et al. Automatic classifier fusion for produce recognition[C].25th SIBGRAPI on Graphics,Patterns and Images,OuroPreto,Brazil,IEEE,2012:20-25.
[7] 陶華偉,趙力,奚吉,等.基于顏色及紋理特征的果蔬種類識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2014,30(16):305-311.
[8] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[C].Proceedings of the IEEE 86,1998:2278-2324.
[9] Ji Shuiwang,Xu Wei,Yang Ming,et al.3D convolutional neural networks for human action recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[10] Sun Yi, Wang Xiaogang,Tang Xiaoou. Deep convolutional network cascade for facial point detection[C].2013 IEEE Conference on Computer Vision and Patten Recognition(CVPR),IEEE,2013:3467-3483.
[11] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].Advances in Neural Information Processing System 25:Proceeding of the 26th Annual Conference on Neural Information Processing Systems,Lake Tahoe,USA,2012:1097-1105.
[12] 李思雯,呂建成,倪勝巧.集成的卷積神經(jīng)網(wǎng)絡(luò)在智能冰箱果蔬識別中的應(yīng)用[J].數(shù)據(jù)采集與處理,2016,18(3):205-212.
Fruits and vegetables image recognition in intelligent refrigerator based on convolutional neural network
Zeng Weiliang1,Lin Zhixian1,Chen Yongsa2
(1.College of Physics&Information Engineering,F(xiàn)uzhou University,F(xiàn)uzhou 350116,China;2.TCL Group Industry Research Institute,Shenzhen 518055,China)
Object recognition in intelligent refrigerator mainly involves fruits and vegetables.Large stock of fruits and vegetables and uneven illumination make a complex environment in fridge. This paper presents a model of convolutional neural network(CNN) to solve such problems.The model uses ReLU as activation function which is stronger than Sigmoid with sparse ability and has larger gradient value,and it can greatly accelerate network convergence.Random Dropout is applied to the hidden layers to make some hidden units not work,which can reduce the phenomenon of ‘co-adaptation’ between them.Besides,it can also reduce the possibility of overfitting to a local feature, which is able to simplify the algorithm complexity and improve recognition rate. The paper uses BP algorithm based on gradient descent with a momentum factor which could avoid the network falling into a local minimum value and enhance recognition rate.Finally,the supermarket produce dataset is used to simulate fruits and vegetables in fridge to identify the effectiveness of proposed methods.
convolutional neural network;fruits and vegetables recognition; Dropout;gradient descent
國家重點(diǎn)研發(fā)計(jì)劃課題(2016YFB0401503);福建省科技重大專項(xiàng)(2014HZ0003-1);廣東省科技重大專項(xiàng)(2016B090906001);福建省資助省屬高校專項(xiàng)課題(JK2014002)
TP391.4
A
10.19358/j.issn.1674- 7720.2017.08.018
曾維亮,林志賢,陳永灑.基于卷積神經(jīng)網(wǎng)絡(luò)的智能冰箱果蔬圖像識別的研究[J].微型機(jī)與應(yīng)用,2017,36(8):56-59.
2016-10-30)
曾維亮(1992-),男,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)。
林志賢(1975-),通信作者,男,博士,教授,主要研究方向:平板顯示器件驅(qū)動(dòng)技術(shù)、圖像處理技術(shù)等。E-mail:lzx2005000@163.com。
陳永灑(1984-),男,碩士,主要研究方向:數(shù)字圖像處理、機(jī)器學(xué)習(xí)。
________________________