張少林,姜吳瑾,李太福,楊 杰
1.重慶科技學院 電氣工程學院,重慶 400030
2.重慶科技學院 安全工程學院,重慶 400030
3.重慶工貿(mào)職業(yè)技術學院 人工智能學院,重慶 408000
4.重慶新制導智能科技研究院有限公司,重慶 400000
隨著經(jīng)濟水平和互聯(lián)網(wǎng)技術的不斷向前發(fā)展,以自動販賣機為代表的新零售方式已成為寫字樓、商超中的常客,它極大地提高了商品交易效率,為顧客提供了方便、快捷的購物選擇。在新冠疫情常態(tài)化防控的當下,自動販賣機也以無接觸式、快捷式售賣方式降低了消費者感染風險。現(xiàn)階段常用的自動販賣機通常使用RFID技術對商品進行識別,此技術對每樣商品貼上電子標簽,通過RFID 技術讀取商品的詳細信息,然后進行商品價格結(jié)算[1]。但此種方法成本較高,需要給每件商品人工張貼標簽,無法大規(guī)模應用到自動販賣機中,研究人員考慮用深度學習目標檢測的方法來處理商品檢測問題[2]。
自2012 年Hinton 等人[3]在ImageNet 大賽中提出AlexNet模型以來,深度學習網(wǎng)絡模型得到了長足發(fā)展,科研人員提出的越來越多的卷積神經(jīng)網(wǎng)絡模型已廣泛地應用于圖像目標檢測領域之中。目前,基于深度學習的目標檢測算法主要包括兩類,一類是以R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]為代表的two-stage檢測算法,其主要方法是先生成一系列候選框,然后根據(jù)候選框進行目標分類識別工作,相比較于one-stage 系列檢測算法,two-stage 算法檢測精度普遍較高,但是檢測速度相對較慢,在實時檢測性能上邊表現(xiàn)較差。另一類是以YOLO系列算法[7-9]以及SSD[10]系列算法為代表的one-stage算法,此類算法檢測速度較快,能夠滿足實時檢測的需求,但是整體檢測準確率相對較低,仍具有較大的提升空間。近年來,在通用目標檢測領域,以Transformer框架為核心的算法逐漸成為研究主流[11],但此類算法模型普遍較大,無法滿足自動販賣機商品檢測任務中對模型輕量化、實時性的需求。而以YOLOv4、YOLOv5、YOLOX 為代表的模型以輕量化的模型大小、較為迅速的檢測速度和相對精確的識別精度,成為解決目標檢測模型輕量化問題的重要抓手,其中YOLOX模型憑借其在目標檢測工作上優(yōu)異的檢測速度和檢測精度,贏得了越來越多研究人員的青睞。
在針對自動販賣機商品檢測的研究之中,科研人員已經(jīng)做了大量的工作。劉照邦等人[12]則針對商品檢測問題對RetinaNet 通用目標檢測框架做出改進,提出用A-Softmax 替換傳統(tǒng)SoftMax 函數(shù),改進模型對場景形態(tài)和商品相似性的容忍度有了較大改進,提升了商品目標識別效果。Ji等人[13]針對商品小而密的特征提出了一種名為CommodityNet 的one-stage 框架,在自建數(shù)據(jù)集SDOD-MT上取得了卓越的性能。此外,劉文豪等人[14]提出了一種基于SSD模型和YOLOv3模型的半監(jiān)督模型,采用self-training 方式充分利用大量無標簽數(shù)據(jù)來提高模型的特征學習能力,相比于基準模型,改進模型的檢測精度得到了顯著提升。
上述方案主要針對商品檢測任務中數(shù)據(jù)量少、魯棒性差、數(shù)據(jù)分布密集等問題提出改進方案,而由于自動販賣機中攝像頭拍攝角度是俯視角,商品目標特征信息較少,且商品之間互相遮擋造成對商品的特征提取較為困難,此外圖片邊緣部分圖像畸變嚴重,造成部分特征損失,對商品的識別造成一定的困難。此外,出于成本考慮,自動販賣機對模型計算量和大小容忍度較低,選用模型須保持輕量化和低計算量。針對上述問題,本文在目前綜合性能較好的YOLOX-s 算法上進行改進,在進一步提高識別準確率的同時,保持原模型的輕量化和檢測速度,本文主要改進點如下:
(1)針對YOLOX-s 中PAFPN 網(wǎng)絡特征融合過程中容易丟失淺層網(wǎng)絡信息的問題,采用改進后的雙向特征金字塔網(wǎng)絡(BiFPN-m)重構(gòu)原始特征提取網(wǎng)絡,在不增加額外損失的同時,將淺層網(wǎng)絡與深層網(wǎng)絡直接進行融合,增強不同網(wǎng)絡層的特征信息傳遞,從而增強整個模型的特征提取能力。
(2)針對采用BiFPN網(wǎng)絡重構(gòu)后模型規(guī)模大幅度增加、計算量增加明顯等問題,借鑒Ghost 卷積[15]思想,利用少量的卷積核對輸入進行特征提取,然后將特征圖進行線性運算,通過Concat 模塊拼接生成最終的特征圖,此方法可以有效地降低模型計算資源,且能保持模型性能。
(3)為了讓模型更好地提取目標關鍵特征,本文借鑒注意力機制思想,經(jīng)過充分實驗論證,將CBAM[16]引入CSP3模塊中,賦予重要特征更高的權(quán)重,以增強模型的目標識別能力。
經(jīng)過在自動販賣機商品檢測數(shù)據(jù)集上進行實驗,與原始YOLOX-s 網(wǎng)絡模型相比,改進后的模型犧牲了部分檢測速度,但在mAP指標上提升了1.91個百分點,達到了99.57%的識別準確率,且模型大小基本保持不變,在能夠更加精確地識別出飲料販賣機中飲料類別的同時,保持了模型的輕量化和較快的檢測速度,能夠滿足自動販賣機實際應用的使用要求。
YOLOX-s網(wǎng)絡是由Ge等人[9]于2021年提出的YOLO系列網(wǎng)絡模型,其主要由輸入端、主干網(wǎng)絡(Backbone)部分、特征提取網(wǎng)絡(Neck)和用于結(jié)果預測的檢測頭(YOLO Head)等四部分構(gòu)成。與YOLOv5-s 相比,YOLOX-s 網(wǎng)絡模型在多個部分做出了優(yōu)化和改進。YOLOX-s網(wǎng)絡模型基本結(jié)構(gòu)如圖1所示。
圖1 YOLOX-s網(wǎng)絡結(jié)構(gòu)圖Fig.1 Structure of YOLOX-s network
在輸入端部分,使用MixUp方法將不同輸入圖片按照一定比例生成新的圖像,同時生成對應標簽,在后續(xù)訓練過程中采用新的圖片和標簽進行訓練,而原始圖像不再參與訓練。此外,采用Mosaic 方法將四張輸入圖片拼接到一起,使模型可以一次訓練4 張圖,此種方式可以極大地豐富目標背景,一定程度增強網(wǎng)絡模型的魯棒性。
在BackBone 部分,沿用YOLO 系列的CSPDarkent結(jié)構(gòu),整體結(jié)構(gòu)主要包含4 個部分,分別是Focus 模塊、CBS模塊、CSP1模塊、CSP2模塊、CSP3模塊和SSP模塊。
在Neck 層部分,采用FPN+PAN 的級聯(lián)結(jié)構(gòu),其中FPN采用自上而下的方式,將淺層信息與深層信息進行信息融合,傳遞目標語義信息。PAN則采用自下而上的方式,將深層信息傳遞給淺層部分進行融合,傳遞目標位置信息。
在YOLO Head部分,開創(chuàng)性地提出Decoupled Head解耦頭,提高了整體模型的收斂速度和精度,有利于YOLOX-s 實現(xiàn)端到端化,也便于下游任務一體化。此外采用Anchor Free 方式進行目標框的標注,實驗證明相較于YOLOv3、YOLOv4、YOLOv5 中采用的Anchor Based 方式,Anchor Free 在減小計算量的同時,能顯著提高模型最終識別準確率。
作為端到端的目標檢測模型,YOLOX-s 網(wǎng)絡通過PAFPN網(wǎng)絡可以滿足對不同尺度特征圖進行目標檢測,淺層網(wǎng)絡檢測小目標,深層網(wǎng)絡檢測大目標,但是在淺層網(wǎng)絡到深層網(wǎng)絡的特征融合過程中,特征圖容易丟失一些重要的特征信息,對此本文提出了相應改進方案。
原始YOLOX-s模型在Neck層采用PAN+FPN的方式實現(xiàn)淺層和深層網(wǎng)絡的特征融合,而BiFPN網(wǎng)絡相比于PAN+FPN 可以獲得更高級的特征融合方式,它可以增加各尺度特征的耦合,特別是有助于小目標檢測的淺層特征[17-18]。此外,由于BiFPN采用了跨尺度連接方式,可以對不同檢測特征按照跨尺度權(quán)重進行抑制或者增強特征表達,從而緩解因檢測目標重合導致的識別不準確問題。FPN網(wǎng)絡、PAFPN網(wǎng)絡和BiFPN網(wǎng)絡結(jié)構(gòu)圖如圖2所示。
圖2 三種特征金字塔結(jié)構(gòu)對比Fig.2 Comparison of structure of three network
原始YOLOX-s模型僅會將主干網(wǎng)絡的3層深層特征輸入Neck層進行特征融合。受鐘志峰等人[19]研究成果啟發(fā),本文將原始BiFPN 網(wǎng)絡結(jié)構(gòu)簡化為3 層結(jié)構(gòu)(記為BiFPN-m),此步驟可將BiFPN 融入YOLOX-s 網(wǎng)絡結(jié)構(gòu),在減少模型計算量的同時實現(xiàn)對同級節(jié)點最大程度的特征融合,具體網(wǎng)絡結(jié)構(gòu)如圖3 所示。相比于5層BiFPN網(wǎng)絡,BiFPN-m網(wǎng)絡的特征融合方式可以降低淺層特征中噪聲對模型精度的干擾,顯著降低模型計算量,并提高模型檢測速度。后續(xù)實驗也驗證了多尺度特征輸出層數(shù)的改進對算法整體檢測效果,相比于5 層BiFPN 網(wǎng)絡,將BiFPN-m 模塊融入網(wǎng)絡模型中,能夠以更快的檢測速度、更小的模型、更少的參數(shù)量得到更好的檢測精度。
圖3 BiFPN-m網(wǎng)絡結(jié)構(gòu)圖Fig.3 BiFPN-m network structure
在BiFPN-m 結(jié)構(gòu)中,P3~P5是從主干網(wǎng)絡層傳入的不同特征尺度的輸入,每個輸出節(jié)點的數(shù)學表達式如式(1)~(4)所示:
Ghost卷積是Han等人[15]在2020年CVPR會議上提出的一種稀疏卷積層網(wǎng)絡,其基本結(jié)構(gòu)如圖4所示。對于一個輸入特征圖,Ghost 卷積先采用原始卷積得到m個特征圖,然后利用分組線性運算得到n個Ghost 特征圖,最后通過簡單的Concat 拼接操作輸出最終的n×m個特征圖,傳統(tǒng)卷積和Ghost 卷積的參數(shù)量分別為S1、S2,兩者參數(shù)量之比為S1/S2,其中c表示輸入圖像通道數(shù),k·k表示傳統(tǒng)卷積核的大小,d·d為線性運算卷積核的大小,最終通過比較可以得到Ghost卷積運算所用參數(shù)計算量約為傳統(tǒng)卷積的1/n。
圖4 Ghost卷積網(wǎng)絡結(jié)構(gòu)Fig.4 Structure of ghost convolution network
CBAM(convolutional block attention module)是由Woo等人[16]在注意力機制理論和SENet研究基礎上,提出的一種新的注意力機制模塊。相比于SENet 模塊通過學習的方式獲取輸入端每個通道的重要程度,CBAM 模塊則同時關注輸入數(shù)據(jù)在空間和通道兩個方面的重要程度,從而更好地提升整個網(wǎng)絡模型的性能。自注意力機制模塊提出以來,許多科研人員將其添加進網(wǎng)絡模型以提升模型效果[20-21],進一步證明了模塊的有效性。CBAM模塊包含channel attention module(CAM模塊,圖5)和spatial attention module(SAM 模塊,圖6)等兩個部分,其基本原理如圖7所示。
圖5 CAM網(wǎng)絡結(jié)構(gòu)Fig.5 Structure of CAM network
圖6 SAM網(wǎng)絡結(jié)構(gòu)Fig.6 Structure of SAM network
圖7 CBAM網(wǎng)絡結(jié)構(gòu)Fig.7 Structure of CBAM network
CAM是針對特征圖在通道維度上特征分布不均而提出的方案,用于強化重要特征的權(quán)重并弱化不重要特征的權(quán)重,具體方案為將輸入特征圖分別進行最大池化和平均池化操作,之后將兩個輸出分別經(jīng)過MLP網(wǎng)絡,將輸出結(jié)果進行特征融合再經(jīng)過sigmoid函數(shù)得到像素點權(quán)重,其基本公式如式(6)所示,其中MLP 代表兩層神經(jīng)網(wǎng)絡,σ表示sigmoid激活函數(shù)。
SAM 則是討論空間層面上輸入特征圖的內(nèi)在關系,將CAM模塊的輸出結(jié)果沿Channel方向進行再次平均池化和最大池化,將兩者結(jié)果經(jīng)過卷積核為7×7大小的卷積層和sigmoid函數(shù)后得到SAM模塊的特征圖,其基本公式如式(7)所示,其中f n×n表示n×n的卷積運算,σ表示sigmoid激活函數(shù)。
WOO 等人[16]已通過實驗證明,將注意力機制模塊嵌入不同目標檢測任務之中,可以帶來較好的性能提升,但是將CBAM 模塊嵌入網(wǎng)絡結(jié)構(gòu)的哪一部分沒有具體的參考標準,所以本文將改進后的YOLOX-s-BG(YOLOX-s+BiFPN+Ghost 卷積)算法在主干網(wǎng)絡CSP1和CSP2 模塊內(nèi)、特征提取網(wǎng)絡的CSP3 模塊內(nèi)、主干網(wǎng)絡與特征提取網(wǎng)絡連接處、特征提取網(wǎng)絡的CSP3 模塊前分別嵌入CBAM 模塊,探究其對網(wǎng)絡性能的影響,從而產(chǎn)生了4 種網(wǎng)絡模型,分別為YOLOX-s-BG-A、YOLOX-s-BG-B、YOLOX-s-BG-C、YOLOX-s-BG-D,具體位置如圖8所示。
圖8 四種嵌入CBAM模塊后的YOLOX-s-BG模型Fig.8 Four YOLOX-s-BG models embedded with CBAM modules
圖8(a)、(c)、(d)三種融合方案均是在特征融合過程中提取關鍵信息,但是在后續(xù)更深層次特征融合中仍會造成一定程度的特征損失,而將CBAM 模塊融入CSP3 中能夠同時在淺層和深層網(wǎng)絡中提取重要特征,從而可以更好地為檢測頭提供更多的關鍵性信息,后續(xù)實驗也證明,將CSP3中對應位置加上CBAM模塊對網(wǎng)絡模型精度提升較大,因此本文最終選取了此種方法作為最終網(wǎng)絡模型,命名為YOLOX-s-BGC(BiFPN-m+Ghost卷積+CBAM),其網(wǎng)絡結(jié)構(gòu)如圖9所示。
圖9 YOLOX-s-BGC網(wǎng)絡結(jié)構(gòu)Fig.9 YOLOX-s-BGC network structure
本文選用第六屆信也科技杯圖像算法大賽提供的自動販賣機商品檢測數(shù)據(jù)集,本數(shù)據(jù)集采用魚眼攝像頭拍攝,包含5 422張圖片,已經(jīng)按照7∶2∶1的比例分為訓練集、驗證集和測試集,數(shù)據(jù)集分布情況和數(shù)據(jù)集示例分別如表1和圖10所示。
表1 數(shù)據(jù)分布Table 1 Data distribution
圖10 數(shù)據(jù)集展示Fig.10 Dataset presentation
整個數(shù)據(jù)集包含了113 種自動販賣機中常見的商品類型,商品數(shù)量分布較為不均。單張圖片至少包含一個待檢測商品目標,至多包含40 多個待檢測商品目標。部分類型商品之間細粒度差異極小,僅存在顏色和包裝文字的差異,對檢測算法特征提取能力要求較高。此外,由于商品目標之間互相遮擋,數(shù)據(jù)圖片邊緣部分圖像畸變嚴重造成部分特征損失,也給檢測算法特征提取能力帶來了一定挑戰(zhàn)。
操作系統(tǒng)為Ubuntu 20.04.1;處理器為AMD Ryzen 9 5900X 12-Core;GPU 為NVIDIA GeForce GTX 3090(24 GB);深度學習框架為Pytorch 1.12.0;利用CUDA 11.2 和cuDNN 8.1.1 加速訓練;使用Python 3.7.2 作為主要編程語言。
YOLOX-s-BGC網(wǎng)絡初始化設置信息為:采用Mosaic和Mixup方式對圖像數(shù)據(jù)進行數(shù)據(jù)增強,增強概率設置分別設置為0.5和0.7,epoch設置為150,batch_size設置為32,IoU閾值設置為0.5,運行線程數(shù)設置為4,選取的優(yōu)化器為SGD。在實際訓練過程中,初始學習率設定為0.01,最低學習率為0.000 1,采用余弦退火算法作為學習率降低的策略。
為評判模型的有效性,本文選取均值平均精度(mean average precision,mAP)、準確率(precision rate,P)、召回率(recall rate,R)、F1 值、每秒幀率(frame per second,F(xiàn)PS)、模型大小和參數(shù)量等七個指標作為模型的評估指標。其中P和R指標依賴于真正例(true positive,TP)、假正例(false positive,F(xiàn)P)、真負例(true nagetive,TN)和假負例(false nagetive,F(xiàn)N),P和R指標的計算公式如式(8)、(9)所示;AP 表示P-R 曲線的面積,F(xiàn)PSAP值越高表示模型準確度越高,mAP表示所有檢測類別AP的平均值,AP和mAP的計算公式如式(10)、(11)所示。
訓練過程中訓練集和驗證集的損失曲線如圖11所示,訓練集和驗證集的loss值最終收斂于1.85和1.48。
圖11 Loss值下降曲線Fig.11 Decline curve of Loss value
為了驗證將5 層BiFPN 網(wǎng)絡(模型記為YOLOX-s-B1)和3層BiFPN網(wǎng)絡(模型記為YOLOX-s-B2)融入原始YOLOX-s 模型中特征提取層的效果,本文將原始YOLOX-s模型與改進后的兩種模型在數(shù)據(jù)集上作了實驗對比,實驗結(jié)果如表2所示。
表2 改進特征提取層驗證實驗Table 2 Verifying experiment of improved feature extraction layer
結(jié)果表明,相比于原始YOLOX-s 模型,改進后的YOLOX-s-B1模型檢測精度提升不明顯,且模型FPS大幅下降,模型大小和參數(shù)量大幅增加,證明此方案改進效果不佳。而YOLOX-s-B2模型算法相比于原始YOLOX-s模型,精度提升了1.54 個百分點,且模型檢測速度也有一定的加快,說明BiFPN-m網(wǎng)絡可以在一定程度上更好地融合特征圖中的特征,證明了將BiFPN-m 融入模型Neck層的有效性,此網(wǎng)絡模型記為YOLOX-s-B。
為了驗證將卷積層替換為Ghost卷積對模型性能提升的有效性,本文將原始YOLOX-s 模型中的部分卷積層替換為Ghost卷積,其余部分不做改動,改動后的算法記為YOLOX-s-G,將改進前后算法在數(shù)據(jù)集上進行實驗對比,實驗結(jié)果如表3所示。
表3 改進卷積層驗證實驗Table 3 Verifying experiment of improved convolution layer
結(jié)果表明,將原始YOLOX-s 模型中的部分卷積層替換為Ghost 卷積之后,改進后的模型在mAP、Recall、Precision等指標上僅下降0.1~0.4個百分點,但是在模型大小和計算參數(shù)量等指標上均減少了50%,即改進方法對模型輕量化效果有一定的提升,證明了改進方案的有效性。
為了驗證融合CBAM 模塊對原始模型的有效性并探究將CBAM 模塊嵌入網(wǎng)絡模型的具體位置,本文以經(jīng)過Ghost 卷積和BiFPN-m網(wǎng)絡改進后的YOLOX-s網(wǎng)絡模型(YOLOX-s-BG)為基礎,將CBAM模塊分別嵌入網(wǎng)絡模型的不同位置,形成了1.4 節(jié)所示的4 個新的網(wǎng)絡模型,將4種模型與YOLOX-s-BG模型在數(shù)據(jù)集上進行實驗對比,實驗結(jié)果如表4所示。
表4 融合CBAM模塊驗證實驗Table 4 Verifying experiment of fusion CBAM
結(jié)果表明,通過四種方式將CBAM 模塊嵌入到Y(jié)OLOX-s-BG 模型后,均能進一步提升整體模型的精度,證明了CBAM 模塊對本模型改進的有效性。通過各項指標對比發(fā)現(xiàn),將CBAM模塊嵌入CSP3模塊的對應位置之后,改進后模型的mAP 提升最大,達到了99.57%的整體識別準確率,因此本文最終選定圖8(b)方案作為CBAM最終嵌入的位置。
本文所提的改進方案分別為B(BiFPN-m)、G(Ghost卷積)、C(CBAM)。為了驗證改進方案在不同方案上的改進效果及其有效性,本文在采用相同軟硬件配置、相同參數(shù)設置的前提下,探究了原始YOLOX-s 網(wǎng)絡模型與添加1種改進方案、2種改進方案和3種改進方案的不同優(yōu)化策略進行對比實驗,實驗結(jié)果如表5所示。結(jié)果表明,三種改進方案均能取得預想的改進效果,證明了改進的有效性。
表5 消融實驗Table 5 Ablation experimental
為了進一步驗證本文提出的改進網(wǎng)絡模型的有效性和性能的優(yōu)越性,本文將改進后的YOLOX-s-BGC算法與原始YOLOX-s 算法、SSD 算法、ScaledYOLOv4 算法[22]、YOLOv5Lite-g 算法[23]在數(shù)據(jù)集上進行了對比實驗,實驗結(jié)果如表6所示。
表6 不同算法網(wǎng)絡模型性能對比Table 6 Performance comparison of different algorithm models
結(jié)果表明,本文提出的YOLOX-s-BGC網(wǎng)絡模型相較于其他主流算法,在mAP、Recall、Precision、F1值等指標上有著明顯的優(yōu)勢。其中,相較于SSD 算法,本文所提方法在模型大小上只有SSD的24.5%,且在整體精度上提升了8.66個百分點,優(yōu)勢較為明顯。而相較于體積相似的YOLOv5Lite-g 算法和ScaledYOLOv4 算法,本文所提算法在保持模型輕量化的同時,檢測精度也有了較大的提高,且FPS 下降不明顯,能滿足實時檢測的需求,證明了本文所提算法的優(yōu)越性。改進前后網(wǎng)絡模型識別效果圖如圖12所示。
圖12 算法改進前后效果對比圖Fig.12 Comparison of detection effect before and after algorithm improvement
通過對比可以看出,在待檢測商品邊緣壓縮較為嚴重、商品特征丟失明顯的情況下,SSD 算法、Scaled YOLOv4、YOLOv5Lite-g 算法模型均存在漏檢、誤檢等問題,而經(jīng)過本文改進后的YOLOX-s-BGC模型能夠精準識別所有待檢測商品,明顯提升了商品檢測準確率。
本文針對魚眼相機拍攝的商品圖片檢測任務提出了一種YOLOX-s-BGC算法。首先,為提高模型對不同尺度特征提取能力,同時減小特征圖損失,使用改進的BiFPN 網(wǎng)絡(BiFPN-m)替換原始YOLOX-s 網(wǎng)絡中的PAFPN結(jié)構(gòu),在提高模型推理速度的同時大幅提高了模型的識別準確率。然后,為避免改進模型過大,使用Ghost 卷積替換部分卷積層,在大幅減小模型大小和計算參數(shù)量的同時,保持模型識別準確率基本不下降。此外,為了進一步增強模型對目標關鍵特征的提取能力,在改進模型的CSP3模塊中引入CBAM注意力機制,實現(xiàn)了模型整體mAP值的進一步提升,最終達到了99.57%的識別精度。將YOLOX-s-BGC模型與YOLOv3、Scaled YOLOv4、YOLOv5-Lite-g 以及原始YOLOX 模型對比,改進后的模型在mAP、Recall、Precision、F1 值等多個指標上均取得了最優(yōu),而在FPS、模型大小、計算參數(shù)量等指標上也保持了較為優(yōu)越的性能,達到了模型改進的目的。將YOLOX-s-BGC 模型應用到無人販賣機的商品檢測中,能夠達到實際應用的要求。但是,本文的算法仍存在一些問題,對只有顏色差異的兩類產(chǎn)品的識別準確度相對較低,同時沒有考慮自動販賣機照明故障等特殊情況對模型檢測精度的影響。后續(xù)研究將針對這些不足,進一步優(yōu)化算法,提高模型的魯棒性。