劉斌 龍健寧 程方毅 龔德文
摘要:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)針對物流環(huán)境下貨物的圖像分類問題進行了研究。首先,在實際物流環(huán)境下收集了13種貨物的 ROI圖像,并通過每隔10°旋轉(zhuǎn)的方式來擴充數(shù)據(jù)集以防止過擬合現(xiàn)象的發(fā)生;然后,在考慮了實際硬件條件的情況下構(gòu)建了輕量級 CNN ,并進行了基于自建數(shù)據(jù)集的訓練,訓練實驗發(fā)現(xiàn),輕量級 CNN模型具有很快的收斂速度并在驗證集取得了100%的準確率;最后,研究了旋轉(zhuǎn)對貨物圖像分類性能的影響,并進行了可視化分析,驗證了 CNN對旋轉(zhuǎn)操作基本不具備一致性。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);圖像分類;自動識別;旋轉(zhuǎn)不變性
中圖分類號:TP391.41???????????? 文獻標志碼:A??????? 文章編號:1009-9492(2021)12-0079-04
Research on Goods Image Classification Based on Convolutional Neural Networkin Logistic Environment
Liu Bin1,Long Jianning1,Cheng Fangyi1,Gong Dewen2
(1. Key Laboratory of Polymer Processing Engineering of Ministry of Education//Guangdong Provincial Key Laboratory of Technique andEquipment for Macromolecular Advance Manufacturing// National Engineering Research Center of Novel Equipment for Polymer Processing,Guangzhou 510641, China;2. Guangdong Changheng Intelligent Technology Co., Ltd., Dongguan, Guangdong 523841, China)
Abstract: The classification of goods images in logistics environment based on convolutional neural networks has been studied. First, ROI images of 13 kinds of goods in logistics environment were collected and the data set was expanded by rotating every 10° to prevent overfitting. Then, a lightweight CNN was constructed and trained based on self-built data set considering the actual hardware conditions, and the training experiment showed that the model converged quickly and achieved 100% accuracy in the validation set. Finally, the effect of rotation on the classification performance of goods images was studied and performed a visual analysis, the result showed that CNN had poor invariance to rotation operation.
Key words: CNN; image classification; automatic recognition; rotation invariance
0 引言
近年來,隨著電子商務(wù)的飛速發(fā)展,物流行業(yè)的業(yè)務(wù)量隨之劇增,不斷成熟的自動識別技術(shù)引入到現(xiàn)代物流當中以代替人眼對貨物進行分辨識別,物流行業(yè)的自動化程度在不斷提升的同時,物流過程的效率在很大程度上得以提升[1]。
目前,在物流行業(yè)中最為常見的兩種自動識別技術(shù)為條形碼技術(shù)以及 RFID 技術(shù),但是,在諸如食品、醫(yī)藥以及化妝品等行業(yè)當中,不僅貨物種類多樣,而且其外表面沒有或者難以張貼條碼或射頻卡等信息載體,這種情況下,就需要利用貨物自身的形狀、顏色以及表面紋理特征等,來實現(xiàn)貨物種類的自動識別。傳統(tǒng)的圖像分類往往只能針對圖像的某一特征,如顏色、輪廓、紋理等進行分類,因而魯棒性和泛化能力不足,而鑒于物流環(huán)境下的復雜性,傳統(tǒng)的圖像分類就難以滿足實際物流需求[2-3]。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以將圖像直接作為輸入,并自動提取圖像中的各種特征,得益于卷積神經(jīng)網(wǎng)絡(luò)的豐富的參數(shù)以及非線性計算,充分保證了圖像處理過程中的泛化性和準確性,十分契合物流環(huán)境下貨物圖像分類要求[4-5]。
鑒于卷積神經(jīng)網(wǎng)絡(luò)的種種優(yōu)勢,本文基于卷積神經(jīng)網(wǎng)絡(luò)在圖像分類上的強大能力,在真實物流環(huán)境下采集貨物的圖像信息,并建立自有數(shù)據(jù)集,并在此基礎(chǔ)上通過卷積神經(jīng)網(wǎng)絡(luò)進行訓練和參數(shù)優(yōu)化,進一步提高圖像分類效率以及準確率,以期為基于自動識別技術(shù)的物流貨物分揀的研究和應(yīng)用提供有益的參考和借鑒。
1 物流貨物圖像數(shù)據(jù)集的建立
圖1所示為在物流輸送線上采集的經(jīng)過圖像分割后的13種貨物的 ROI 圖像,序號代表其對應(yīng)的標簽。貨物為13類紙箱,分別為“冰紅茶”“鹵香牛肉面”“安慕?!薄霸绮秃颂遗D獭薄八厶摇薄鞍贇q山”“脈動(椰汁菠蘿)”“脈動(青檸)”“營養(yǎng)快線(組合裝)”“藤椒牛肉面”“阿薩姆”“香菇雞蛋面”以及“香辣牛肉面”。同個紙箱的6個面的顏色、紋理等不盡相同,在這里,只采集每種紙箱6個面當中特征最為豐富的一面的圖像,作為利用 CNN進行圖像分類的研究對象。
CNN模型分類識別的準確率往往依賴于訓練數(shù)據(jù)的樣本數(shù)量,在訓練迭代次數(shù)相同的情況下,越多的訓練數(shù)據(jù)可以得到越準確的分類識別結(jié)果[6]。過擬合現(xiàn)象的發(fā)生往往都是由于圖像數(shù)據(jù)量不足,而實際 ROI 圖像需要通過相機采集,工作量十分巨大且效率不高,因此,為了解決實際采集 ROI 圖像數(shù)量不足的問題,每種紙箱分別獲取40張 ROI 圖像,并通過對 ROI 圖像每隔10°旋轉(zhuǎn)一次的方式擴充樣本數(shù)量,如圖2所示。通過數(shù)據(jù)擴充,樣本數(shù)量擴充36倍,最終的數(shù)據(jù)集一共由18720張彩色圖像構(gòu)成。
2 卷積神經(jīng)網(wǎng)絡(luò)模型訓練和調(diào)優(yōu)
CNN模型的層數(shù)越多,相應(yīng)的參數(shù)量以及計算量也越多,對于硬件的要求也越高,因此考慮到自建數(shù)據(jù)集的復雜性以及實際硬件條件,經(jīng)過不斷嘗試,最終構(gòu)建了一種輕量級 CNN模型,它包含4個卷積層和3個全連接層,每個卷積層后面連接著一個最大池化層,具體參數(shù)配置如表1所示[7]。
整個輕量級網(wǎng)絡(luò)的參數(shù)總量為5526221,設(shè)置學習率為0.01,迭代次數(shù)為3000,優(yōu)化方法選擇 Adam[8],分別設(shè)置批處理量為8、16和128時,訓練情況如圖3所示。其中,批處理量為128時訓練得到的模型稱為模型 A。
由圖3(a)可知,對比模型在3種批處理量下訓練的損失函數(shù)變化,在批處理量為8的情況下,當?shù)螖?shù)少于1000次時,損失函數(shù)曲線的波動十分劇烈,當?shù)螖?shù)超過1000次后,損失函數(shù)趨于收斂;而在批處理量為16的情況下,當代次數(shù)少于250次時,損失函數(shù)曲線存在著較為明顯的波動,當?shù)螖?shù)超過250次后,損失函數(shù)趨于收斂;而在批處理量為128的情況下,損失函數(shù)的波動現(xiàn)象消失,并且函數(shù)收斂值比上述兩種情況更小。查看批數(shù)據(jù)大小為128時的輸出日志可以看到,迭代次數(shù)為100時,損失函數(shù)就已經(jīng)降到5.57×10-4。根據(jù)深度學習理論,隨著迭代次數(shù)的增加,模型參數(shù)不斷優(yōu)化,迭代次數(shù)分別為500、1000和3000時,損失函數(shù)為1.62×10-5、4.85×10-6和2.59×10-7。
綜合對比分析圖3(b)和圖3(c)可知,模型在3種批處理量下訓練的驗證集準確率、測試集準確率變化與損失函數(shù)類似,隨著批處理量的增大,驗證集準確率以及測試集準確率曲線的波動逐漸減小并消失;同樣的,隨著迭代次數(shù)的增加,驗證集準確率以及測試集準確率曲線都趨于收斂,而批處理量為128時,收斂速度最快。
3 旋轉(zhuǎn)對物流貨物圖像分類性能的影響
3.1 CNN機制的相關(guān)研究
由于 CNN巨大的參數(shù)量和高度的非線性化,CNN的輸入與輸出之間就像一個黑盒,其內(nèi)部運行機制不容易進行分析解釋,只能以訓練結(jié)果為依據(jù)不斷地進行參數(shù)調(diào)整,還有結(jié)構(gòu)優(yōu)化,這會導致 CNN訓練的時間成本很高而效率降低。
基于上述原因,近年來,CNN的可視化和可解釋性受到了越來越多學者的關(guān)注和研究,解釋 CNN的運行機制對于深度學習的發(fā)展意義非凡[9-10]。Zeiler等[11-12]使用反卷積網(wǎng)絡(luò)來可視化各層提取到的特征圖,結(jié)果發(fā)現(xiàn) CNN 低層學習到的基本是顏色、輪廓等特征,中層學習的是紋理特征,到了高層則學習的是有區(qū)別性的特征,最后學習到的則是完整的、具有辨別性的關(guān)鍵特征??偠灾?,提取到的特征隨著層次的提高而越來越抽象,同時,特征的區(qū)分性越強。
3.2 實驗方案和結(jié)果
參考 Zeiler等人提出 CNN對旋轉(zhuǎn)操作基本不具備不變性的原理,這里做一個實驗來研究旋轉(zhuǎn)對物流環(huán)境下的紙箱貨物圖像分類性能的影響。
構(gòu)建的數(shù)據(jù)集僅包含收集到的13種紙箱的上下左右4個方位的圖像,每種紙箱的4個方位分別收集約30張圖像,以此數(shù)據(jù)集進行訓練而得到模型 B ,并在上下左右及45°傾斜方位上進行識別測試,上下左右及45°傾斜5個方位的示意圖如圖4所示[7]。使用批數(shù)據(jù)為128的輕量級 CNN進行訓練,損失函數(shù)、訓練集準確率和驗證集準確率均很快收斂,其中,驗證集準確率為100%。
利用模型 B 對每種類別貨物進行5個方位的識別測試,每個方位測試10次,觀察識別結(jié)果,上下左右方位幾乎完全識別正確。45°方向識別結(jié)果如表2所示[7],其中,在10組測試中,”安慕?!薄ⅰ痹绮秃颂遗D獭?、”脈動(青檸)”和”營養(yǎng)快線”紙箱的識別錯誤率超過90%,而“阿薩姆”紙箱的識別錯誤率為50%,“鹵香牛肉面”和“水蜜桃”紙箱雖然識別正確,但是置信度較低,“冰紅茶”、“百歲山”、“脈動(椰汁菠蘿)”、藤椒牛肉面”、”香菇燉雞面”和”香辣牛肉面”紙箱的均識正確均為100%,并且置信度也均大于0.9。
利用僅收集上下左右4個方位圖像信息進行訓練而得到的模型 B ,測試上下左右及45°五個方位紙箱圖像時,結(jié)果發(fā)現(xiàn)模型 B 能夠正確識別上下左右方位的圖像,而對45°方位圖像的識別出現(xiàn)大量錯誤情況。同樣地,利用批處理量設(shè)置為128的、經(jīng)過每隔10°旋轉(zhuǎn)擴充數(shù)據(jù)集訓練得到的模型 A ,對每種類別紙箱圖像任意角度測試20次,結(jié)果發(fā)現(xiàn)均識別正確且置信度大于0.99。
3.3 CNN的可視化分析
觀察表2中的45°方位時的實驗結(jié)果,推測 CNN在訓練過程中提取了圖像的顏色、紋理特征,可能原因如下:45°時“安慕?!奔埾浜汀盃I養(yǎng)快線”紙箱均被錯誤識別為“百歲山”紙箱,推測是由于“安慕希”紙箱、“百歲山”紙箱和“營養(yǎng)快線”紙箱均具有相似的顏色特征,即大片白色區(qū)域;而“鹵香牛肉面”紙箱和“冰紅茶”直線45°時均識別正確,是由于二者具有比較明顯的不同表面紋理特征,但二者顏色相近,因此,識別的置信度不高;“阿薩姆”紙箱和脈動“(椰汁菠蘿)”紙箱的表面均具有大面積的相似顏色區(qū)域,因此,在10次測試當中,45°時“阿薩姆”紙箱有4次被識別為脈動(椰汁菠蘿);而“脈動(青檸)”紙箱和“脈動(椰汁菠蘿)”紙箱不僅表面顏色相似,而且紋理特征也很相近,因此,在10次測試當中,,“脈動(青檸)”紙箱均被識別為“脈動(椰汁菠蘿)”紙箱。
CNN提取特征的方式,可通過可視化圖像經(jīng)過卷積層運算后的輸出結(jié)果來進行觀察分析。由表1可知,所構(gòu)建的輕量級CNN四個卷積層中的每一層都會輸出數(shù)量很多的特征圖,因此,為了方便展示,將圖像在卷積層由卷積核經(jīng)過激活函數(shù)之后的特征圖按1∶1融合,可視化融合后整體的特征圖。選擇一張 45°傾斜的“脈動(青檸)”紙箱圖像,可知其由模型B識別時,被錯誤識別為“脈動(椰汁菠蘿) ”紙箱,可視化圖像經(jīng)過模型每一層卷積后的整體特征圖,結(jié)果如圖5所示。同樣還是該“脈動(青檸) ”紙箱圖像,將其輸入模型 A 時,可以被正確識別為“脈動(青檸) ”紙箱,可視化卷積后的整體特征圖如圖6所示[7]。
綜合對比圖 5 和圖 6,并結(jié)合文獻[11]和[12]進行分析,由于模型A是經(jīng)過訓練360°圖像得到的CNN模型,其由低層的顏色、輪廓等特征到中層的紋理特征,再到高層的抽象特征依次進行特征提取。而模型B是僅訓練上下左右4個方位圖像而得到的,其只需要學習到中層或相對高層的特征提取方式就已經(jīng)可以準確地識別4個方位的貨物圖像,但是這種情況下,模型的泛化能力不足,因此,在輸入 45°傾斜的圖像時,模型容易出現(xiàn)識別錯誤。而在訓練360°的貨物圖像時,模型提取的是高維的、具有區(qū)分度的抽象特征,因此,360°的紙箱圖像訓練得到的模型的魯棒性和泛化性更強,能夠較為準確地識別多個角度的紙箱圖像。
4 結(jié)束語
在物流貨物圖像分類的應(yīng)用研究中,收集了13種紙箱的ROI圖像,為了避免過擬合現(xiàn)象的發(fā)生,通過每10° 旋轉(zhuǎn)方式擴充數(shù)據(jù)集在所構(gòu)建的輕量級CNN網(wǎng)絡(luò)進行訓練時,在實際硬件條件下可以輕易設(shè)置較大的訓練參數(shù),并在驗證集上取得了100%的準確率。另外,還通過實驗表明了旋轉(zhuǎn)造成貨物圖像分類性能的下降,并由 CNN的可視化分析可知,雖然CNN的特征提取是由低維到高維的方式進行以保證魯棒性以及泛化性,但是CNN 并不具備旋轉(zhuǎn)一致性,因此,需要借助于旋轉(zhuǎn)方式擴充數(shù)據(jù)集,以保證對任意角度貨物圖像識別的準確率。
參考文獻:
[1] 郭午陽. 自動識別技術(shù)在物流管理中的應(yīng)用分析[J]. 信息與電腦(理論版),2017(4):135-136.
[2] 周俊宇,趙艷明.卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和目標檢測應(yīng)用綜述[J].計算機工程與應(yīng)用,2017,53(13):34-41.
[3] 劉斌,程方毅,龔德文.圖像自動識別技術(shù)在物流自動化中的研究與應(yīng)用現(xiàn)狀分析[J].機電工程技術(shù),2020,49(10):104-109.
[4] 鄭遠攀,李廣陽,李曄. 深度學習在圖像識別中的應(yīng)用研究綜述[J]. 計算機工程與應(yīng)用,2019(12):20-36.
[5] Gu J X, Wang Z H, Kuen J, et al. Recent Advances in Convolu? tional Neural Networks[J]. Pattern Recognition, 2018(77): 354-377.
[6] 焦瀚暉,胡明輝,王星,等.基于特征快速構(gòu)造與卷積神經(jīng)網(wǎng)絡(luò)的機泵故障識別研究[J].機電工程,2020,37(9):1063-1068.
[7] 程方毅. 物流自動化標準單元智能分揀系統(tǒng)的研究與實現(xiàn) [D].廣州:華南理工大學,2020.
[8] Kingma D, Ba J. Adam: A Method for Stochastic Optimization[J/ OL]. https://arxiv.org/abs/1412.6980, 2017-01-30.
[9] Zhang Q, Zhu S. Visual interpretability for deep learning:a survey [J]. Frontiers of Information Technology & Electronic Engineer? ing, 2018, 19(1): 27-39.
[10] Zhou B, Khosla A, Lapedriza A, et al. Learning Deep Features for Discriminative Localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016: 2921-2929.
[11] Zeiler M D, Krishnan D. Deconvolutional networks[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2528-2535.
[12] Zeiler M D, Fergus R. Visualizing and Understanding Convolu? tional Networks[C]//European Conference on Computer Vision. Zurich, Switzerland, 2014: 834-849.
第一作者簡介:劉斌(1969-),男,博士,教授,研究領(lǐng)域為模具CAD/CAE/CAM和材料成型裝備及數(shù)控技術(shù),已發(fā)表論文230余篇。
(編輯:王智圣)