摘"要:為解決傳統(tǒng)目標(biāo)檢測(cè)精確度不高、有效性差、難以適應(yīng)倉儲(chǔ)環(huán)境下多目標(biāo)識(shí)別應(yīng)用場(chǎng)景的問題,提出了一種改進(jìn)型Faster"RCNN目標(biāo)檢測(cè)算法。首先,采用ResNet50替換VGG16作為特征提取網(wǎng)絡(luò),以提高模型的檢測(cè)精度;同時(shí),為兼顧多尺度及小目標(biāo)物體的檢測(cè),引入了特征金字塔網(wǎng)絡(luò),形成了殘差金字塔特征提取網(wǎng)絡(luò)ResFPN;其次,引入了注意力機(jī)制,提高輸入特征的空間和通道有效信息利用率;最后,使用RoI"Align代替原有的RoI"Pooling,以消除因量化取整而產(chǎn)生的預(yù)測(cè)框回歸誤差。在經(jīng)圖像增廣處理的自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試,結(jié)果表明,提出的改進(jìn)型Faster"RCNN算法在倉儲(chǔ)環(huán)境下能滿足對(duì)人員、叉車和托盤的目標(biāo)檢測(cè)需求,其平均檢測(cè)精確度能達(dá)到90.2%。
關(guān)鍵詞:倉儲(chǔ)環(huán)境;目標(biāo)檢測(cè);注意力機(jī)制;Faster"RCNN
中圖分類號(hào):TP391.41,TP183""""文獻(xiàn)標(biāo)識(shí)碼:A
Research"on"Object"Recognition"in"Warehouse"
Environment"Based"on"Improved"Faster"RCNN
ZHOU"Shijie1,"WANG"Yuhuai1,SHEN"Sicheng1,"CHEN"Zaie1,HAN"Jiangtao1,CHEN"Yuzhen2
(1.Hangzhou"Normal"University"Qianjiang"College,"Hangzhou,Zhejiang"310036,"China;
2."Zhejiang"Academy"of"Surveying"and"Mapping,"Hangzhou,Zhejiang"311100,"China)
Abstract:In"order"to"solve"the"problem"of"low"accuracy"and"poor"effectiveness"of"traditional"target"detection,"which"is"difficult"to"adapt"to"the"application"scenarios"of"multitarget"recognition"in"warehouse"environment,"an"improved"Faster"RCNN"target"detection"algorithm"is"proposed."Firstly,"ResNet50"is"used"to"replace"VGG16"as"the"feature"extraction"network"to"improve"the"detectionnbsp;accuracy"of"the"model."At"the"same"time,"in"order"to"take"into"account"the"detection"of"multiscale"and"small"target"objects,"a"feature"pyramid"network"is"introduced"to"form"a"residual"pyramid"feature"extraction"network"called"ResFPN."Secondly,"attention"mechanism"is"introduced"to"improve"the"effective"information"utilization"rate"of"the"input"feature"space"and"channels."Finally,"ROI"Align"is"used"to"replace"the"original"ROI"Pooling"to"eliminate"the"prediction"box"regression"error"caused"by"quantization"rounding."The"experimental"tests"were"conducted"on"the"selfbuilt"data"set"with"data"augmentation."The"experimental"results"show"that"the"improved"Faster"RCNN"algorithm"proposed"in"this"paper"can"meet"the"detection"requirements"of"targets"such"as"people,"forklifts"and"pallets"in"the"warehouse"environment"with"an"average"detection"accuracy"of"90.2%.
Key"words:warehouse"environment;"object"detection;"attention"mechanism;"Faster"RCNN
針對(duì)倉儲(chǔ)環(huán)境的智能搬運(yùn)系統(tǒng)是智慧物流和智能制造的重要組成部分,其中托盤和叉車等的智能識(shí)別是制造生產(chǎn)和倉儲(chǔ)環(huán)境智能搬運(yùn)的重要環(huán)節(jié)之一。其檢測(cè)的準(zhǔn)確率直接決定著整個(gè)倉儲(chǔ)系統(tǒng)的容錯(cuò)率,因此對(duì)托盤、叉車等目標(biāo)物體的高精度智能識(shí)別與檢測(cè)研究具有重要意義。
目前,國(guó)內(nèi)外主流的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法有單階段檢測(cè)算法和雙階段檢測(cè)算法。前者無需單獨(dú)尋找候選區(qū)域,典型算法有SSD、YOLO[1]等。該類算法端到端檢測(cè)速度快,但同時(shí)存在檢測(cè)精度偏低的不足。相反,后者通過候選區(qū)域生成網(wǎng)絡(luò)(Region"Proposal"Network,RPN)獲取候選區(qū)域,再進(jìn)行分類,提高檢測(cè)精度的同時(shí)犧牲了一定的檢測(cè)速度,如RCNN系列等。為了進(jìn)一步提高其檢測(cè)速度,Ren等[2]提出了Faster"RCNN網(wǎng)絡(luò),首次采用RPN網(wǎng)絡(luò)代替分割算法生成候選框并與Fast"RCNN結(jié)合的方式,使其檢測(cè)速度提升近10倍。
在倉儲(chǔ)環(huán)境目標(biāo)檢測(cè)應(yīng)用中,李天劍等[3]通過融合SSD和DenseNet,實(shí)現(xiàn)了對(duì)托盤等目標(biāo)物體的識(shí)別,但檢測(cè)精度較有限僅有69.5%;劉江玉等[4]使用以VGG16為特征提取網(wǎng)絡(luò)的Fast"RCNN算法進(jìn)行托盤檢測(cè),但在檢測(cè)精度提升至79.7%的同時(shí)檢測(cè)速度變慢;張亞輝等[5]在Faster"RCNN網(wǎng)絡(luò)中引入Kmeans算法和SoftNMS算法,優(yōu)化了預(yù)測(cè)框的選取。倉儲(chǔ)物體識(shí)別極易受環(huán)境干擾導(dǎo)致模型特征提取不準(zhǔn)確。近年來,注意力機(jī)制[6-7]受到研究者的大量關(guān)注。通過引入注意力機(jī)制,能有效抑制干擾,增強(qiáng)有效特征。應(yīng)用注意力機(jī)制為環(huán)境干擾下倉儲(chǔ)目標(biāo)檢測(cè)提供了新思路。
綜上所述,本文提出一種針對(duì)倉儲(chǔ)環(huán)境下多類物體高精度識(shí)別的改進(jìn)型Faster"RCNN算法,采用自建數(shù)據(jù)集訓(xùn)練模型,并將其應(yīng)用到倉儲(chǔ)環(huán)境托盤、叉車及人員檢測(cè)識(shí)別中。
1"Faster"RCNN算法及其改進(jìn)
1.1"Faster"RCNN算法
Faster"RCNN是一種兩階段目標(biāo)檢測(cè)算法,其主要由特征提取網(wǎng)絡(luò)、候選區(qū)域生成網(wǎng)絡(luò)、目標(biāo)檢測(cè)網(wǎng)絡(luò)組成。
Faster"RCNN算法流程可分為三個(gè)步驟:一是先將圖像輸入到特征提取網(wǎng)絡(luò)中得到相應(yīng)的特征圖;二是將特征圖共享至RPN結(jié)構(gòu)生成候選框,再將該候選框投影到特征圖上獲得相應(yīng)的特征矩陣;三是將每個(gè)特征矩陣通過感興趣區(qū)域池化層(RoInbsp;Pooling)調(diào)整特征圖大小,再將特征圖展平并通過一系列全連接層得到預(yù)測(cè)結(jié)果。
1.2"Faster"RCNN算法的改進(jìn)與實(shí)現(xiàn)
為了提高倉儲(chǔ)環(huán)境目標(biāo)檢測(cè)的精確度,結(jié)合目標(biāo)易被遮擋等實(shí)際問題,本文對(duì)Faster"RCNN算法的改進(jìn)主要包括以下四個(gè)部分:一是特征提取網(wǎng)絡(luò)更換為ResNet50網(wǎng)絡(luò),以增強(qiáng)特征提取能力;二是引入特征金字塔網(wǎng)絡(luò)(Feature"Pyramid"Network,F(xiàn)PN),以實(shí)現(xiàn)多尺度特征圖融合;三是引入注意力機(jī)制(Convolutional"Block"Attention"Module,CBAM),以使特征覆蓋到待識(shí)別物體的更多部位[8];四是RoI"Pooling改用采用了雙線性插值法的RoI"Align,以解決RoI"Pooling操作中兩次量化造成的區(qū)域不匹配的問題[9]。所提出的改進(jìn)型"Faster"RCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2.1"特征提取網(wǎng)絡(luò)
Faster"RCNN的特征提取網(wǎng)絡(luò)VGG16,它是通過小卷積核的堆疊來加深網(wǎng)絡(luò)層數(shù),從而提升網(wǎng)絡(luò)性能,但隨著網(wǎng)絡(luò)層數(shù)的不斷增加,梯度消失、梯度爆炸和“退化”等問題也隨之凸現(xiàn),致使訓(xùn)練效果變差[10]。
為了緩解上述問題,訓(xùn)練更深的網(wǎng)絡(luò),得到更好的訓(xùn)練效果,選擇具有三層殘差模塊的ResNet50作為特征提取網(wǎng)絡(luò)進(jìn)行特征提取。
1.2.2"殘差多尺度特征提取網(wǎng)絡(luò)
在特征提取網(wǎng)絡(luò)中,圖像經(jīng)過深層網(wǎng)絡(luò)的多層卷積后得到的特征圖會(huì)丟失圖片細(xì)節(jié)信息,導(dǎo)致小尺度目標(biāo)不易被檢測(cè)。針對(duì)這一問題,將FPN網(wǎng)絡(luò)添加到殘差網(wǎng)絡(luò)中,使其在不顯著增加原有模型計(jì)算量的情況下,能大幅度提升深度網(wǎng)絡(luò)和提升對(duì)小目標(biāo)檢測(cè)的性能[11]。如圖2所示,通過自下而上的路徑、自上而下的路徑和橫向連接三個(gè)部分,將淺層細(xì)節(jié)特征和深層語義特征融合至各特征層,最終得到特征金字塔。
在選取ResNet50網(wǎng)絡(luò)進(jìn)行特征提取的基礎(chǔ)上,通過增加FPN構(gòu)成殘差多尺度特征提取網(wǎng)絡(luò)ResFPN,其結(jié)構(gòu)如圖3所示。{C2,C3,C4,C5}分別表示為ResNet50第2、3、4、5層卷積輸出的特征圖,{P2,P3,P4,P5}分別表示經(jīng)FPN輸出包含豐富細(xì)節(jié)和語義信息的多尺度特征圖。
1.2.3"注意力機(jī)制
為了提高網(wǎng)絡(luò)模型對(duì)檢測(cè)目標(biāo)的注意力,抑制圖像背景和其他噪聲的特征干擾,引入了注意力機(jī)制模塊CBAM對(duì)特征提取網(wǎng)絡(luò)進(jìn)行優(yōu)化。CBAM由通道注意力(Channel"Attention"Module,CAM)和空間注意力(Spatial"Attention"Module,SAM)兩個(gè)模塊連接而成。其實(shí)現(xiàn)步驟包括:
首先,將輸入特征圖F∈RC×H×W傳入通道注意力模塊,這里R表示實(shí)數(shù)空間,C、H和W分別表示輸入特征圖的通道數(shù)、高度和寬度,從而得到通道注意力圖Mc∈RC×1×1,如式(1)所示。
Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))"(1)
其中,σ"表示Sigmoid函數(shù),MLP表示多層感知機(jī),AvgPool表示平均池化,MaxPool表示最大池化。將Mc再與F進(jìn)行矩陣相乘得到輸出特征圖F′,如式(2)所示。
F′=Mc(F)F""(2)
然后,再將F′作為空間注意力模塊的輸入特征圖,經(jīng)過空間注意力模塊,得到空間注意力圖Ms∈R1×H×W,如式(3)所示。
Ms(F′)=σ(f7×7(AvgPool(F′);MaxPool(F′)))"(3)
其中,f7×7表示7×7大小的卷積核。
最后,Ms再與F′進(jìn)行相乘得到最終輸出特征圖F′′,如式(4)所示。
F″=Ms(F′)F′"(4)
1.2.4"RoI"Align
RoI"Pooling是卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)任務(wù)中被廣泛使用的操作,是對(duì)不同尺寸的候選區(qū)域進(jìn)行最大池化,從而得到固定尺寸的特征圖,其間需經(jīng)過兩次量化操作。然而,量化會(huì)造成區(qū)域建議框原始回歸位置與現(xiàn)在位置產(chǎn)生偏差,引起區(qū)域不匹配的問題,從而影響目標(biāo)檢測(cè)的精確性。
RoI"Align是一種區(qū)域特征聚集方式。相比于RoI"Pooling,其在映射和分割單元后均保留浮點(diǎn)數(shù),再使用雙線性插值法來計(jì)算各單元的四個(gè)采樣點(diǎn)位置,最后經(jīng)最大池化得到固定尺寸的特征圖。RoI"Align的區(qū)域特征聚集特點(diǎn)使RoI"Pooling引起的區(qū)域不匹配得以解決。因此,在本文檢測(cè)任務(wù)中將RoI"Pooling替換為RoI"Align,以提高模型檢測(cè)的精確性。
2"數(shù)據(jù)集的準(zhǔn)備與制作
2.1"數(shù)據(jù)集制作
在倉儲(chǔ)環(huán)境中,所檢測(cè)的目標(biāo)主要包括人員、叉車和托盤三類。所有數(shù)據(jù)集圖像來自網(wǎng)絡(luò)公開圖像和實(shí)地現(xiàn)場(chǎng)拍攝,共有1174張,其中分別包含人員、叉車和托盤的圖像356張、367張和802張。數(shù)據(jù)集通過LabelImg軟件進(jìn)行標(biāo)定標(biāo)簽,使每張圖像生成對(duì)應(yīng)的xml文件,其中包含圖像名、圖像寬高度、目標(biāo)類別和目標(biāo)框坐標(biāo)等信息。
2.2"圖像增廣
網(wǎng)絡(luò)模型訓(xùn)練依賴大量圖像,然而自建數(shù)據(jù)集總量過少且三類目標(biāo)樣本數(shù)不均衡。因而,需要進(jìn)行圖像增廣,使模型具有更好的適應(yīng)性和防止出現(xiàn)過擬合現(xiàn)象。利用Python語言和OpenCV庫對(duì)圖像進(jìn)行像素增強(qiáng)和空間增強(qiáng),具體包括圖像亮度、飽和度、對(duì)比度、隨機(jī)剪裁和隨機(jī)翻轉(zhuǎn)等處理,如圖4所示。經(jīng)圖像增廣后,數(shù)據(jù)集有1574張圖像。
3"實(shí)驗(yàn)結(jié)果及分析
3.1"實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
軟件平臺(tái)是64位Windows"10操作系統(tǒng),硬件平臺(tái)為Intel"Core"i9-10900K十核3.70"GHz的CPU,NVIDIA"GeForce"RTX"3070"8"GB的GPU,內(nèi)存32"GB。深度學(xué)習(xí)框架為Anaconda3+Py"Torch,利用Python編程語言實(shí)現(xiàn)倉儲(chǔ)環(huán)境下的目標(biāo)檢測(cè)模型的訓(xùn)練與測(cè)試。
本實(shí)驗(yàn)采用改進(jìn)型Faster"RCNN作為目標(biāo)檢測(cè)模型,數(shù)據(jù)集按7∶3比例隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集,并以PASCAL"VOC2012為樣本數(shù)據(jù)集格式。改進(jìn)型Faster"RCNN模型訓(xùn)練關(guān)鍵參數(shù)設(shè)置如表1所示。
3.2"實(shí)驗(yàn)分析
為了驗(yàn)證本文所提出的目標(biāo)檢測(cè)模型的有效性,將包含人員、叉車和托盤三類的自建數(shù)據(jù)集在改進(jìn)型Faster"RCNN模型上進(jìn)行驗(yàn)證,并與傳統(tǒng)Faster"RCNN模型實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。針對(duì)目標(biāo)檢測(cè)常用的AP和mAP兩個(gè)指標(biāo),網(wǎng)絡(luò)模型對(duì)比實(shí)驗(yàn)結(jié)果如表2。
由表可見,本文提出的改進(jìn)型Faster"RCNN算法較于傳統(tǒng)Faster"RCNN算法,在人員、叉車和托盤的識(shí)別精確度分別提升了12.9%、10.4%、5.4%。三類物體識(shí)別精確度的最小提升發(fā)生在托盤檢測(cè)中,分析其原因,在于托盤高度較低且經(jīng)常存在被貨物等遮擋情況,致使識(shí)別難度加大,精確度提升幅度受限。同時(shí),改進(jìn)型Faster"RCNN算法的mAP也提高了9.6%,達(dá)到了90.2%。
圖5為本文改進(jìn)型模型訓(xùn)練損失值和學(xué)習(xí)率曲線圖,其橫軸為訓(xùn)練的迭代次數(shù),左縱軸為損失值,右縱軸為學(xué)習(xí)率。學(xué)習(xí)率采用等間隔下降方法進(jìn)行更新,每間隔3個(gè)epoch使其學(xué)習(xí)率縮小為原來的0.33。由圖可見,損失值在前5個(gè)epoch快速下降,之后下降速度逐漸放緩,并于第15個(gè)epoch后趨于穩(wěn)定,表明本文所提模型的有效性。
4"結(jié)"論
針對(duì)倉儲(chǔ)環(huán)境下目標(biāo)物體高精度檢測(cè)的要求,提出了一種改進(jìn)型Faster"RCNN算法。該算法通過ResFPN和注意力機(jī)制,實(shí)現(xiàn)了特征融合,增強(qiáng)了模型特征提取能力;加之使用RoI"Align,提高了預(yù)測(cè)框的精確度。經(jīng)過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),所提出改進(jìn)型Faster"RCNN算法比傳統(tǒng)Faster"RCNN算法在對(duì)倉儲(chǔ)環(huán)境人員檢測(cè)提升最大為12.9%,對(duì)托盤檢測(cè)提升最小為5.4%,驗(yàn)證了本文算法在倉儲(chǔ)環(huán)境物體檢測(cè)識(shí)別的可行性和有效性。
參考文獻(xiàn)
[1]"REDMON"J,"FARHADI"A."YOLOv3:"an"incremental"improvement"[R].arXiv"eprints:"arXiv,"2018:"1804.02767.
[2]"REN"S"Q,"HE"K"M,"GIRSHICK"R,"et"al."Faster"RCNN:"towards"realtime"object"detection"with"region"proposal"networks"[J]."IEEE"transactions"on"pattern"analysis"and"machine"intelligence,"2017,"39"(6):"1137-1149.
[3]"李天劍,黃斌,劉江玉,等.卷積神經(jīng)網(wǎng)絡(luò)物體檢測(cè)算法在物流倉庫中的應(yīng)用[J].計(jì)算機(jī)工程,2018,44(6):176-181.
[4]"劉江玉,李天劍.基于深度學(xué)習(xí)的倉儲(chǔ)托盤檢測(cè)算法研究[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,32(2):78-84+94.
[5]"張亞輝,楊林,白雪.基于Faster"RCNN網(wǎng)絡(luò)的倉儲(chǔ)托盤檢測(cè)方法[J].現(xiàn)代信息科技,2021,5(2):57-62.
[6]"陶磊,李天劍,胡歡.基于改進(jìn)Mask"RCNN的紙箱堆垛分割與定位方法[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,35(3):85-88.
[7]"WOO"S,"PARK"J,"LEE"J"Y,"et"al."Cbam:"convolutional"block"attention"module"[C]."Proceedings"of"the"European"Conference"on"Computer"Vision"(ECCV),"Cham:"Springer,"2018:"3-19.
[8]"楊永波,李棟.改進(jìn)YOLOv5的輕量級(jí)安全帽佩戴檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(9):201-207.
[9]"李恒凱,肖松松,王秀麗,等.基于Mask"RCNN的高分遙感影像的稀土開采識(shí)別方法[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2020,49(6):1215-1222.
[10]譚鶴群,李玉祥,朱明,等.通過圖像增強(qiáng)與改進(jìn)FasterRCNN網(wǎng)絡(luò)的重疊魚群尾數(shù)檢測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(13):167-176.
[11]賀藝斌,田圣哲,蘭貴龍.基于改進(jìn)FasterRCNN算法的行人檢測(cè)[J].汽車實(shí)用技術(shù),2022,47(5):34-37.