淡衛(wèi)波,朱勇建,2,黃毅
基于深度學(xué)習(xí)的煙包識(shí)別與分類
淡衛(wèi)波1,朱勇建1,2,黃毅3
(1.浙江科技學(xué)院 機(jī)械與能源工程學(xué)院,杭州 310023;2.寧波敏捷信息科技有限公司,寧波 315000;3.長(zhǎng)沙理工大學(xué) 汽車與機(jī)械工程學(xué)院,長(zhǎng)沙 410114)
提取煙包圖像數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)目標(biāo)檢測(cè)模型,提升煙包流水線揀包效率和準(zhǔn)確性?;谏疃葘W(xué)習(xí)建立一種煙包識(shí)別分類模型,對(duì)原始YOLOv3模型進(jìn)行改進(jìn),在原網(wǎng)絡(luò)中加入設(shè)計(jì)的多空間金字塔池化結(jié)構(gòu)(M–SPP),將64×64尺度的特征圖下采樣與32×32尺度的特征圖進(jìn)行拼接,并去除16×16尺度的預(yù)測(cè)特征層,提高模型的檢測(cè)準(zhǔn)確率和速度,并采用K–means++算法對(duì)先驗(yàn)框參數(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)表明該目標(biāo)檢測(cè)模型平均準(zhǔn)確率達(dá)到99.68%,檢測(cè)速度達(dá)到70.82幀/s?;谏疃葘W(xué)習(xí)建立的圖像識(shí)別分類模型準(zhǔn)確率高且檢測(cè)速度快,有效滿足煙包流水線自動(dòng)化實(shí)時(shí)檢測(cè)。
深度學(xué)習(xí);煙包識(shí)別;YOLOv3;K–means++
早在2011年,國(guó)家煙草專賣局提出“煙草物流是煙草行業(yè)核心業(yè)務(wù),是中國(guó)煙草面向未來提升核心競(jìng)爭(zhēng)力的重要支撐”,明確了卷煙物流在行業(yè)中的重要地位[1]。煙包流水線當(dāng)前揀包合規(guī)性主要依托于揀包系統(tǒng),但是煙包經(jīng)過冗長(zhǎng)的流水線,伴隨著訂單流水號(hào)的分流、拆包、組包后,往往會(huì)隨機(jī)出現(xiàn)煙包丟失、錯(cuò)亂的現(xiàn)象,僅依靠傳統(tǒng)的人工方式復(fù)查難以實(shí)現(xiàn)精準(zhǔn)、及時(shí)地發(fā)現(xiàn)錯(cuò)誤,進(jìn)而會(huì)造成后續(xù)一系列的揀包錯(cuò)亂。若無法及時(shí)監(jiān)管到揀包錯(cuò)亂現(xiàn)象,會(huì)造成流水線停線,甚至是召回配送車,直接造成大量生產(chǎn)時(shí)間的浪費(fèi)和資金的損失,因此,實(shí)現(xiàn)煙包流水線自動(dòng)化實(shí)時(shí)監(jiān)測(cè),對(duì)煙草物流提質(zhì)增效至關(guān)重要。對(duì)此,張毅等[2]基于機(jī)器視覺對(duì)煙包圖像進(jìn)行特征點(diǎn)匹配,實(shí)現(xiàn)對(duì)煙包的識(shí)別,但未考慮不同品牌香煙包裝信息的差異,具有一定的局限性。劉瑩等[3]通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)10種品牌煙盒進(jìn)行分類,該方法僅對(duì)單個(gè)煙盒進(jìn)行分類,對(duì)實(shí)際煙包流水線復(fù)雜的場(chǎng)景并不適用。
二十世紀(jì)以來,人工智能技術(shù)逐漸應(yīng)用于越來越多的工業(yè)領(lǐng)域,而深度學(xué)習(xí)[4]作為人工智能領(lǐng)域重要的分支,在圖像相關(guān)的實(shí)踐工作中取得了顯著的成果。尤其是隨著計(jì)算機(jī)硬件的圖形處理器(GPU)計(jì)算能力的快速發(fā)展,深度學(xué)習(xí)技術(shù)迎來了蓬勃發(fā)展的春天。在計(jì)算機(jī)視覺領(lǐng)域中,目標(biāo)檢測(cè)[5]任務(wù)一直以來都具有舉足輕重的地位,同時(shí)也充滿挑戰(zhàn)。傳統(tǒng)目標(biāo)檢測(cè)技術(shù)通過人工提取目標(biāo)圖像的特征,2012年以來隨著AlexNet[6]圖像分類網(wǎng)絡(luò)的誕生,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法迎來了飛速發(fā)展?;诰矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法可以分為兩階段目標(biāo)檢測(cè)和單階段目標(biāo)檢測(cè)[7]。兩階段目標(biāo)檢測(cè)技術(shù)使用算法生成圖像的候選框,由卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行分類;單階段目標(biāo)檢測(cè)技術(shù)不生成候選框,而是把目標(biāo)檢測(cè)問題轉(zhuǎn)化為回歸問題。兩階段目標(biāo)檢測(cè)技術(shù)的優(yōu)勢(shì)在于準(zhǔn)確率和定位精度更高,而單階段目標(biāo)檢測(cè)技術(shù)的檢測(cè)速度更加快。
煙包流水線自動(dòng)化檢測(cè)項(xiàng)目是在每條生產(chǎn)線的2個(gè)出入口各自安裝訂單對(duì)比系統(tǒng),利用深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù),快速地對(duì)原始訂單流水號(hào)與出口圖像進(jìn)行智能比對(duì),并通過信號(hào)燈觸發(fā)報(bào)警糾錯(cuò)。首先,使用圖像采集裝置采集煙包流水線上的圖像數(shù)據(jù),制作煙包數(shù)據(jù)集。其次,根據(jù)煙包的圖像特征對(duì)原始YOLOv3[8]模型進(jìn)行改進(jìn),提出以下3點(diǎn)改進(jìn):為了提高對(duì)煙包圖像數(shù)據(jù)的識(shí)別精度,采用K–means++[9]算法對(duì)煙包數(shù)據(jù)集進(jìn)行聚類,獲得6種寬高比的目標(biāo)候選框。由于煙包在整幅圖像中屬于較小目標(biāo),因此將原始網(wǎng)絡(luò)中預(yù)測(cè)大目標(biāo)的16×16尺度的特征預(yù)測(cè)層去除,并將原網(wǎng)絡(luò)中64×64尺度的特征圖進(jìn)行2倍下采樣,與32×32尺度的特征圖進(jìn)行拼接,然后使用32×32和64×64尺度的特征預(yù)測(cè)層預(yù)測(cè)目標(biāo),提高網(wǎng)絡(luò)對(duì)煙包目標(biāo)的召回率及檢測(cè)精確率。在主干網(wǎng)絡(luò)Darknet–53后加入設(shè)計(jì)的多空間金字塔池化結(jié)構(gòu)(M–SPP),通過對(duì)特征圖不同尺度的池化操作,將特征圖的局部和全局信息進(jìn)行結(jié)合。將文中改進(jìn)的網(wǎng)絡(luò)與多種目標(biāo)檢測(cè)網(wǎng)絡(luò)在流水線煙包數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明改進(jìn)后的網(wǎng)絡(luò)準(zhǔn)確率、召回率和檢測(cè)速度都有提高。
文中需要對(duì)流水線煙包的圖像進(jìn)行采集,因此在流水線上搭建了煙包圖像采集裝置見圖1。此裝置通過LED高強(qiáng)度光源照亮目標(biāo),形成合適的成像效果,煙包被傳輸?shù)綑z測(cè)位置時(shí)觸發(fā)CCD相機(jī)采集高清晰的圖像。另外,文中算法運(yùn)行的計(jì)算機(jī)硬件配置為AIMB–706主板,CPU為i7–9700,GPU為RTX 3090,Ubuntu16.04操作系統(tǒng),使用Pytorch深度學(xué)習(xí)框架。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,數(shù)據(jù)集的制作至關(guān)重要,目標(biāo)檢測(cè)算法的性能表現(xiàn)很大程度上取決于其所用的數(shù)據(jù)集。數(shù)據(jù)集選取樣本量大且具有代表性的5類煙包,通過圖像采集裝置采集1 600張?jiān)紙D像,包含白沙(baisha)856張、云煙(yunyan)745張、利群(liqun)613張、南京(nanjing)763張和芙蓉王(furongwang)671張,數(shù)據(jù)集內(nèi)標(biāo)簽數(shù)量分別為白沙2 567個(gè)、云煙2 143個(gè)、利群2 387個(gè)、南京2 073個(gè)、芙蓉王2 281個(gè),按照9∶1的比例制作訓(xùn)練集和測(cè)試集用于訓(xùn)練和驗(yàn)證。
圖1 煙包圖像采集裝置結(jié)構(gòu)圖
通過LabelImg圖像標(biāo)注工具對(duì)采集到的煙包圖像進(jìn)行標(biāo)注,使用標(biāo)記框選擇不同類型的煙包進(jìn)行區(qū)域標(biāo)注,并添加相應(yīng)的類別標(biāo)簽,生成對(duì)應(yīng)的xml格式的文件。煙包圖像標(biāo)注界面見圖2。
圖2 煙包圖像標(biāo)注界面
YOLOv3[8]網(wǎng)絡(luò)是在YOLOv1[10]和YOLOv2[11]網(wǎng)絡(luò)的基礎(chǔ)之上改進(jìn)而來。YOLOv3通過Darknet–53主干網(wǎng)絡(luò)來提取輸入圖像的特征,Darknet–53的殘差單元結(jié)構(gòu)借鑒了ResNet(Residual Neural Network)[12]的網(wǎng)絡(luò)結(jié)構(gòu),弱化了卷積神經(jīng)網(wǎng)絡(luò)中層與層之間的緊密聯(lián)系,減弱了梯度消失現(xiàn)象,同時(shí)加深了網(wǎng)絡(luò)的深度。此外,YOLOv3網(wǎng)絡(luò)中沒有池化層,而是將卷積層的步長(zhǎng)設(shè)置為2來達(dá)到下采樣的效果,同時(shí)將尺度不變特征傳到下一層。批量歸一化(Batch Normalization)[13]、卷積層和激活函數(shù)(Leaky Relu)共同構(gòu)成YOLOv3網(wǎng)絡(luò)的基本單元。
YOLOv3網(wǎng)絡(luò)的預(yù)測(cè)結(jié)構(gòu)借鑒了特征金字塔(FPN)[14]策略,采用3種尺度預(yù)測(cè)層對(duì)不同大小的目標(biāo)進(jìn)行檢測(cè),提高了網(wǎng)絡(luò)的檢測(cè)能力。輸入圖像通過主干網(wǎng)絡(luò)提取特征,下采樣5次,輸出16×16大小的特征圖來檢測(cè)大尺寸的目標(biāo);然后將16×16特征圖上采樣與特征提取網(wǎng)絡(luò)中32×32的特征圖進(jìn)行張量拼接(Concat)得到32×32大小的特征圖,融合2種尺度特征來檢測(cè)中等尺寸的目標(biāo);同樣將32×32的特征圖上采樣與特征提取網(wǎng)絡(luò)的64×64特征圖進(jìn)行張量拼接,可以得到64×64大小的特征圖,用來檢測(cè)小尺寸目標(biāo)。另外,YOLOv3網(wǎng)絡(luò)沿用了YOLOv2網(wǎng)絡(luò)中關(guān)于先驗(yàn)框的策略,先驗(yàn)框的設(shè)置參考了Faster RCNN[15]和SSD[16]網(wǎng)絡(luò)中的區(qū)域生成方法,但沒有根據(jù)工程經(jīng)驗(yàn)人為設(shè)計(jì)先驗(yàn)框長(zhǎng)寬比的大小,而是通過K–means聚類的方法獲得9個(gè)先驗(yàn)框的值。原始YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)見圖3。
研究發(fā)現(xiàn),由于煙包數(shù)據(jù)集中的目標(biāo)均屬于較小目標(biāo),物體尺寸相似均為長(zhǎng)矩形。直接使用原始YOLOv3網(wǎng)絡(luò)模型對(duì)煙包進(jìn)行識(shí)別,準(zhǔn)確率不能滿足煙包流水線自動(dòng)化實(shí)時(shí)識(shí)別的要求,因此,基于煙包圖像的特征做出以下3點(diǎn)改進(jìn)。
YOLOv3作為基于先驗(yàn)框機(jī)制的目標(biāo)檢測(cè)算法,先驗(yàn)框的比例與尺寸設(shè)置十分重要。YOLOv3網(wǎng)絡(luò)總共輸出3種尺度的預(yù)測(cè)特征圖,每種尺度的特征圖預(yù)測(cè)3種尺寸的輸出,因此共有9種大小不同的先驗(yàn)框。先驗(yàn)框尺寸的設(shè)置是根據(jù)K–means[17]聚類算法在公共數(shù)據(jù)集上得到的,而文中的數(shù)據(jù)為煙包圖像,與公共數(shù)據(jù)集的檢測(cè)目標(biāo)尺寸相差巨大,因此,需要對(duì)采集到的煙包數(shù)據(jù)進(jìn)行聚類分析得到合適的先驗(yàn)框尺寸。
K–means聚類算法的結(jié)果十分依賴初始點(diǎn)的選取,若算法隨機(jī)生成的初始點(diǎn)不合適,將會(huì)導(dǎo)致最終的迭代結(jié)果陷入局部最優(yōu)解。K–means++[9]算法對(duì)聚類中心的選取采取以下流程。
1)從數(shù)據(jù)集中隨機(jī)選取1個(gè)點(diǎn)作為初始聚類的中心1。
3)重復(fù)步驟2直到選擇出個(gè)聚類中心點(diǎn)。
綜合,由上述流程可以看出,K–means++算法選取了更加離散的初始點(diǎn),提高了先驗(yàn)框分布的合理性。由于數(shù)據(jù)集中的煙包均為長(zhǎng)寬比例相似的矩形,圖像中的待測(cè)目標(biāo)因?yàn)榭臻g位置不同尺寸有所差異,相對(duì)于整幅圖像的尺寸屬于較小的檢測(cè)目標(biāo),因此用檢測(cè)較小尺寸的2個(gè)預(yù)測(cè)特征層上的6個(gè)先驗(yàn)框來預(yù)測(cè)目標(biāo)。如圖4所示,煙包數(shù)據(jù)集使用K–means++聚類算法生成了6種長(zhǎng)寬比的先驗(yàn)框尺寸,分別為(22,16)、(35,25)、(48,36)、(64,48)、(85,45)、(95,49)。
深度卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是隨著卷積層數(shù)的加深,卷積層提取的特征越來越抽象。深度卷積神經(jīng)網(wǎng)絡(luò)可以作為有效的信息蒸餾管道,向網(wǎng)絡(luò)中輸入原始數(shù)據(jù)(文中的煙包圖像),通過反復(fù)對(duì)其進(jìn)行不同尺度卷積,將無關(guān)信息過濾(比如物體的具體輪廓細(xì)節(jié)),并放大和細(xì)化有用的信息。
由于文中待測(cè)目標(biāo)即煙包的物體尺寸相同,相對(duì)整幅圖像屬于尺寸較小的目標(biāo)。為了減少誤檢,提高網(wǎng)絡(luò)對(duì)待測(cè)目標(biāo)的檢測(cè)準(zhǔn)確率,將原YOLOv3網(wǎng)絡(luò)中用來預(yù)測(cè)尺寸較大目標(biāo)的16×16預(yù)測(cè)特征層去除。在深度卷積神經(jīng)網(wǎng)絡(luò)中較低層的特征圖中包含待檢測(cè)物體的邊緣、顏色等基本信息,而煙包識(shí)別分類任務(wù)需要這些信息,因此,對(duì)原始YOLOv3網(wǎng)絡(luò)進(jìn)行不同尺度特征圖的特征融合,提高檢測(cè)網(wǎng)絡(luò)對(duì)煙包圖像的邊緣、顏色等基本特征的識(shí)別效果。
圖3 原YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)
圖4 煙包數(shù)據(jù)基于K–means++的聚類結(jié)果
YOLOv3網(wǎng)絡(luò)采用多尺度檢測(cè),使用3個(gè)不同尺度16×16、32×32、64×64的特征圖來預(yù)測(cè)目標(biāo)。在64×64的底層預(yù)測(cè)特征圖中包含待測(cè)目標(biāo)更多的邊緣和顏色等基本信息,因此,在64×64的底層特征圖做類別預(yù)測(cè)2之前,先提取其特征圖,并通過2倍下采樣與32×32的中層特征圖進(jìn)行張量拼接,不會(huì)損失特征信息同時(shí)參與類別預(yù)測(cè),相當(dāng)于在網(wǎng)絡(luò)中添加自下向上的特征融合路徑,使網(wǎng)絡(luò)更好地運(yùn)用待測(cè)目標(biāo)的邊緣、顏色等基本信息。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)見圖5。
圖5 改進(jìn)的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv3中特征提取主干網(wǎng)絡(luò)輸出的特征圖尺寸為16×16,不同尺度的特征圖對(duì)目標(biāo)檢測(cè)的優(yōu)勢(shì)不同,大尺度的特征圖對(duì)目標(biāo)定位更加準(zhǔn)確,小尺度的特征圖包含的語(yǔ)義信息更加豐富[18]。在網(wǎng)絡(luò)中加入空間金字塔池化結(jié)構(gòu)[19](SPP),通過不同尺度的最大池化處理使特征圖包含的語(yǔ)義信息更加豐富,并融合不同層次的特征圖信息。
圖6所示為設(shè)計(jì)的多空間金字塔池化結(jié)構(gòu)(M–SPP),此結(jié)構(gòu)在原SPP的基礎(chǔ)上增加2個(gè)不同尺度的最大池化核,能夠融合更多層次的特征圖信息,提高檢測(cè)準(zhǔn)確率。該結(jié)構(gòu)添加在YOLOv3特征提取網(wǎng)絡(luò)Darknet–53之后,由最大池化卷積核大小為3×3、5×5、7×7、9×9、11×11和一個(gè)跨層連接組成,然后以Concatenate拼接的方式輸出向量。
圖6 多空間金字塔池化結(jié)構(gòu)(M–SPP)
模型的評(píng)價(jià)指標(biāo)主要為均值平均精度mAP(Mean Average Precision),均值平均召回率mAR(Mean Average Recall),單張圖像檢測(cè)時(shí)間。采用的計(jì)算式見式(1)—(6)。
式中:P為預(yù)測(cè)正確的目標(biāo)個(gè)數(shù);P為預(yù)測(cè)錯(cuò)誤的目標(biāo)個(gè)數(shù);N為沒有預(yù)測(cè)出的目標(biāo)個(gè)數(shù)。由上述、可以繪制–曲線,P則為–曲線圍成的面積。mAP為5個(gè)類別的P平均值,代表模型在5個(gè)類別上的檢測(cè)準(zhǔn)確率。
將制作的數(shù)據(jù)集送入模型中進(jìn)行訓(xùn)練,提前對(duì)網(wǎng)絡(luò)參數(shù)初始化,網(wǎng)絡(luò)中的學(xué)習(xí)率設(shè)置為0.001,迭代次數(shù)(epoch)設(shè)置為200,批量大小設(shè)置為64,衰減系數(shù)設(shè)置為0.000 5,動(dòng)量因子設(shè)置為0.9。如圖7a所示,在訓(xùn)練過程中,原YOLOv3網(wǎng)絡(luò)在60個(gè)epoch附近開始收斂,而使用2個(gè)預(yù)測(cè)層的改進(jìn)網(wǎng)絡(luò)模型在50個(gè)epoch附近開始收斂,收斂速度更快。由圖7b可以得出,在YOLOv3網(wǎng)絡(luò)中加入M–SPP結(jié)構(gòu)比加入SPP結(jié)構(gòu)在驗(yàn)證集上mAP值(Iou為0.5)提升約0.5%,提高了檢測(cè)精度。
為了對(duì)比模型不同改進(jìn)部分的具體效果,設(shè)計(jì)了如表1的消融實(shí)驗(yàn),表1中“P”表示使用對(duì)應(yīng)的改進(jìn)方法。在相同的實(shí)驗(yàn)情況下,YOLOv3網(wǎng)絡(luò)中加入M–SPP結(jié)構(gòu),用K–means++算法優(yōu)化先驗(yàn)框均可以提高檢測(cè)精度,兩者結(jié)合使用可以提高mAP值約1.5%,而將網(wǎng)絡(luò)中的預(yù)測(cè)層減少到2層可以提升檢測(cè)速度,檢測(cè)時(shí)間減少約2 ms。將3個(gè)改進(jìn)部分同時(shí)應(yīng)用于模型后,對(duì)模型的檢測(cè)精度和速度都有提升。
圖7 模型訓(xùn)練過程
表1 消融實(shí)驗(yàn)數(shù)據(jù)
圖8a、b為原YOLOv3網(wǎng)絡(luò)的識(shí)別結(jié)果,圖8c、d為改進(jìn)的網(wǎng)絡(luò)識(shí)別結(jié)果,對(duì)比圖8a、c和圖8b、d可以發(fā)現(xiàn)原YOLOv3網(wǎng)絡(luò)對(duì)圖像中左下角的白沙(baisha)類別的煙包未檢測(cè)出,而改進(jìn)的網(wǎng)絡(luò)則正確地預(yù)測(cè)出圖像中所有煙包的類別和數(shù)量,因此,改進(jìn)的網(wǎng)絡(luò)提高了對(duì)模糊目標(biāo)和不完整目標(biāo)的檢測(cè)準(zhǔn)確率,提升了模型的檢測(cè)能力。
為了對(duì)比改進(jìn)后的網(wǎng)絡(luò)檢測(cè)效果,選擇當(dāng)前主流的Faster R–CNN、SSD、YOLOv3和YOLOv5[20]網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比,分別將這5個(gè)檢測(cè)網(wǎng)絡(luò)在制作的數(shù)據(jù)集上進(jìn)行訓(xùn)練,測(cè)試結(jié)果見表2。
圖8 原YOLOv3網(wǎng)絡(luò)與改進(jìn)的YOLOv3網(wǎng)絡(luò)對(duì)煙包的識(shí)別結(jié)果對(duì)比
表2 不同目標(biāo)檢測(cè)網(wǎng)絡(luò)的檢測(cè)結(jié)果對(duì)比
表2所示,雖然改進(jìn)的網(wǎng)絡(luò)在mAP指標(biāo)上比Faster R–CNN、SSD網(wǎng)絡(luò)領(lǐng)先不多,但在mAR指標(biāo)上領(lǐng)先SSD網(wǎng)絡(luò)約4%,另外在檢測(cè)速度上改進(jìn)的網(wǎng)絡(luò)遠(yuǎn)遠(yuǎn)領(lǐng)先Faster R–CNN和SSD網(wǎng)絡(luò),稍領(lǐng)先于YOLOv5網(wǎng)絡(luò),檢測(cè)速度在煙包流水線自動(dòng)化識(shí)別中至關(guān)重要。綜合mAP和檢測(cè)時(shí)間來看,改進(jìn)的網(wǎng)絡(luò)性能更加均衡,在保證檢測(cè)精度的前提下提升了檢測(cè)速度,可以滿足流水線煙包實(shí)時(shí)、精準(zhǔn)的識(shí)別要求。
流水線煙包識(shí)別分類是一個(gè)長(zhǎng)期制約煙草物流高質(zhì)量發(fā)展的重要因素,而傳統(tǒng)的檢測(cè)方法及人工復(fù)查難以滿足實(shí)時(shí)、精準(zhǔn)的識(shí)別分類要求。文中提出了改進(jìn)的YOLOv3網(wǎng)絡(luò),首先采用K–means++算法針對(duì)煙包數(shù)據(jù)集進(jìn)行聚類,獲得最優(yōu)的目標(biāo)候選框:其次針對(duì)煙包圖像目標(biāo)的特點(diǎn),去除原網(wǎng)絡(luò)中預(yù)測(cè)大目標(biāo)的16×16尺度的特征預(yù)測(cè)層,并將64×64尺度的特征預(yù)測(cè)層2倍下采樣與32×32尺度的特征預(yù)測(cè)層進(jìn)行特征融合,進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。經(jīng)過實(shí)驗(yàn)驗(yàn)證,文中改進(jìn)后的YOLOv3網(wǎng)絡(luò)平均檢測(cè)精度達(dá)到99.68%,同時(shí)檢測(cè)速度也進(jìn)一步提升,可以實(shí)現(xiàn)流水線煙包實(shí)時(shí)準(zhǔn)確地識(shí)別分類。
[1] 冰火, 禾木. 論煙草供應(yīng)鏈物流建設(shè)[J]. 中國(guó)煙草學(xué)報(bào), 2014, 20(2): 1-8.
BING Huo, HE Mu. On Construction of Supply Chain Logistics in Tobacco Industry[J]. Acta Tabacaria Sinica, 2014, 20(2): 1-8.
[2] 張毅, 王彥博, 付華森, 等. 基于機(jī)器視覺的不規(guī)則煙包校對(duì)碼垛系統(tǒng)[J]. 煙草科技, 2019, 52(6): 105-111.
ZHANG Yi, WANG Yan-bo, FU Hua-sen, et al. Irregular Cigarette Parcel Stacking System Coupled with Machine Vision-Based Parcel Identification[J]. Tobacco Science & Technology, 2019, 52(6): 105-111.
[3] 劉瑩, 王曉宇, 徐卓飛, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像識(shí)別[J]. 數(shù)字印刷, 2020(6): 33-40.
LIU Ying, WANG Xiao-yu, XU Zhuo-fei, et al. Recognition of Commodities Images Based on the Convolutional Neural Network[J]. Digital Printing, 2020(6): 33-40.
[4] 鄭遠(yuǎn)攀, 李廣陽(yáng), 李曄. 深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(12): 20-36.
ZHENG Yuan-pan, LI Guang-yang, LI Ye. Survey of Application of Deep Learning in Image Recognition[J]. Computer Engineering and Applications, 2019, 55(12): 20-36.
[5] 段仲靜, 李少波, 胡建軍, 等. 深度學(xué)習(xí)目標(biāo)檢測(cè)方法及其主流框架綜述[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(12): 59-74.
DUAN Zhong-jing, LI Shao-bo, HU Jian-jun, et al. Review of Deep Learning Based Object Detection Methods and Their Mainstream Frameworks[J]. Laser & Optoelectronics Progress, 2020, 57(12): 59-74.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[7] 劉洋, 戰(zhàn)蔭偉. 基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)算法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(2): 37-48.
LIU Yang, ZHAN Yin-wei. Survey of Small Object Detection Algorithms Based on Deep Learning[J]. Computer Engineering and Applications, 2021, 57(2): 37-48.
[8] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[C]// IEEE conference on Computer Vision and Pattern Recognition, 2018.
[9] ARTHUR D, VASSILVITSKII S. K-Means++: The Advantages of Careful Seeding[C]// Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, New York: ACM, 2007: 1027-1035.
[10] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016: 779-788.
[11] REDMON J, FARHADI A. YOLO9000: Better, Faster, Sronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017: 6517-6525.
[12] HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Deep Residual Learning for Image Recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770-778.
[13] IOFFE S, SZEGEDY C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[C]// Proceedings ofthe 32nd International Conference on Machine Learning, Lille, France, 2015: 448-456.
[14] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017: 936-944.
[15] REN Shao-qing, HE Kai-ming, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[16] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[M]. Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[17] 楊俊闖, 趙超. K–Means聚類算法研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(23): 7-14.
YANG Jun-chuang, ZHAO Chao. Survey on K-Means Clustering Algorithm[J]. Computer Engineering and Applications, 2019, 55(23): 7-14.
[18] 姜文濤, 張馳, 張晟翀, 等. 多尺度特征圖融合的目標(biāo)檢測(cè)[J]. 中國(guó)圖象圖形學(xué)報(bào), 2019, 24(11): 1918-1931.
JIANG Wen-tao, ZHANG Chi, ZHANG Sheng-chong, et al. Multiscale Feature Map Fusion Algorithm for Target Detection[J]. Journal of Image and Graphics, 2019, 24(11): 1918-1931.
[19] HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[20] Ultralytics. YOLOv5[EB/OL]. [2021-03-14]. https:// github.com/ultralytics/yolov5.
Cigarette Pack Recognition and Classification Based on Deep Learning
DAN Wei-bo1, ZHU Yong-jian1,2, HUANG Yi3
(1. College of Mechanical and Energy Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, China; 2. Ningbo Agile Information Technology Co., Ltd., Ningbo 315000, China; 3. College of Automotive and Mechanical Engineering, Changsha University of Science & Technology, Changsha 410114, China)
The work aims to extract the cigarette pack image data to train the deep learning target detection model, and improve the efficiency and accuracy of cigarette pack assembly lines. A cigarette pack recognition and classification model was established based on deep learning to improve the original YOLOv3 model. The designed multi-space pyramid pooling structure (M-SPP) was added to the original network. The downsampling of the 64×64 feature map was spliced with that of the 32×32 feature map. The prediction feature layer of 16×16 was removed to improve the detection accuracy and speed of the model, and the K-means++ algorithm was used to optimize the a priori frame parameters. The experiment showed that the average accuracy of the target detection model reached 99.68%, and the detection speed reached 70.82 frames per second. It is concluded that the image recognition and classification model established based on deep learning has high accuracy and fast detection speed, which can effectively meet the automatic real-time detection of cigarette pack assembly lines.
deep learning; cigarette pack recognition; YOLOv3; K-means++
TP391
A
1001-3563(2023)01-0133-08
10.19554/j.cnki.1001-3563.2023.01.015
2022?01?19
國(guó)家自然科學(xué)基金(51875048);浙江省基礎(chǔ)公益研究計(jì)劃(LGG21E050006)
淡衛(wèi)波(1995—),男,碩士生,主攻計(jì)算機(jī)視覺與目標(biāo)檢測(cè)。
朱勇建(1979—),男,博士,副研究員,主要研究方向?yàn)闄C(jī)器視覺與三維測(cè)量。
責(zé)任編輯:曾鈺嬋