人工安檢效率低,易出錯(cuò),實(shí)現(xiàn)基于人工智能的自動(dòng)安檢是安檢的發(fā)展趨勢(shì).針對(duì)YOLOv8目標(biāo)檢測(cè)模型在X線違禁品檢測(cè)中檢測(cè)精度低和對(duì)少量類別漏檢率高的問題,對(duì)YOLOv8模型進(jìn)行改進(jìn).在YOLOv8n的基礎(chǔ)上修改網(wǎng)絡(luò)結(jié)構(gòu),引入注意力機(jī)制,提出帶有通道注意力(efficient channel attention,ECA)的YOLOv8-ECA目標(biāo)檢測(cè)模型,以便更好地提取X線圖像中違禁品的特征,同時(shí)采用圖像旋轉(zhuǎn)等一系列數(shù)據(jù)增強(qiáng)方法,對(duì)少量類別樣本進(jìn)行樣本擴(kuò)充.在自建的X線安檢圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法較原始YOLOv8n模型在檢測(cè)精度上提升6%,在檢測(cè)速度上較原始YOLOv8n模型提升15.7%,同時(shí)降低少量類別的漏檢率.
YOLOv8n; ECA注意力; 深度學(xué)習(xí); X線圖像; 違禁品檢查
O357.5 A 0253-08 02.010
伴隨著社會(huì)科技的不斷發(fā)展,人們的出行方式變得更加多元化.同時(shí),違禁品的種類也變得更加復(fù)雜.因此,在如今的社會(huì)中,安檢是一項(xiàng)不可或缺的工作.安檢被廣泛應(yīng)用于飛機(jī)、火車和地鐵等場(chǎng)所,在人們的生活中發(fā)揮著非常重要的作用[1].
X線安檢圖像通過安檢儀生成,安檢儀是安檢程序中最常用的設(shè)備,X線安檢圖像具有以下特點(diǎn):1) 重疊性:安檢圖像中存在一定的區(qū)域,這塊區(qū)域中會(huì)有很多物品重疊在一起,從而產(chǎn)生嚴(yán)重干擾.2) 多尺度性:安檢物品種類繁多,形狀也各不相同,甚至可能因外力導(dǎo)致物體變形,導(dǎo)致同一類別的違禁品在外觀上出現(xiàn)較大差異[2-4].
目前,我國(guó)的X線安全檢查主要是通過安全檢查人員和設(shè)備共同進(jìn)行.在這一工作方式中,安全檢查人員的工作狀況常常決定著安全檢查的質(zhì)量.人工檢查受到精力的限制,還會(huì)造成工作效率低下,很有可能出現(xiàn)誤檢和漏檢的情況[5-7]. 因此,使用現(xiàn)有的目標(biāo)檢測(cè)網(wǎng)絡(luò)并不能更加精確地檢測(cè)出違禁品.
本文主要從以下2個(gè)方面進(jìn)行研究:1) 針對(duì)YOLOv8n目標(biāo)檢測(cè)模型在X線違禁品檢測(cè)中檢測(cè)精度低和對(duì)少量類別漏檢率高的問題,在YOLOv8n模型的基礎(chǔ)上修改模型結(jié)構(gòu),加入ECA注意力機(jī)制,提出帶有注意力機(jī)制的目標(biāo)檢測(cè)網(wǎng)絡(luò)模型,命名為YOLOv8n-ECA,并與原模型YOLOv8n進(jìn)行對(duì)比實(shí)驗(yàn)分析.2) 針對(duì)X線圖像類別數(shù)量不均衡問題,利用數(shù)據(jù)增強(qiáng)的方法,對(duì)少量類別樣本進(jìn)行樣本擴(kuò)充,提高模型的魯棒性.
實(shí)驗(yàn)結(jié)果表明,加入ECA注意力機(jī)制后的YOLOv8n-ECA網(wǎng)絡(luò)的性能相較于YOLOv8n網(wǎng)絡(luò)有明顯提升,在檢測(cè)精度上提升了6%,檢測(cè)速度提升了15.7%,更適合用于違禁品檢測(cè).本文主要貢獻(xiàn)有:1) 針對(duì)YOLOv8n網(wǎng)絡(luò)精確度較低的問題,通過改進(jìn)激活函數(shù)、添加注意力機(jī)制以獲得更佳效果.2) 針對(duì)X線圖像類別數(shù)量不均衡問題,進(jìn)行數(shù)據(jù)增強(qiáng)處理,均衡不同種類的數(shù)量,提高模型的魯棒性.
1 相關(guān)工作
1.1 目標(biāo)檢測(cè)算法
神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法已廣泛運(yùn)用在許多任務(wù)上[8-11],在目標(biāo)檢測(cè)任務(wù)上,當(dāng)前主流的方法是基于深度學(xué)習(xí)的方法.目前的目標(biāo)檢測(cè)算法主要分為單階段和雙階段2類檢測(cè)算法.
1) 單階段方法:2016年,文獻(xiàn)[12]提出了關(guān)于目標(biāo)檢測(cè)YOLO(you only look once)的概念和一種單階段主要算法,之后文獻(xiàn)[13-14]提出了SSD算法,隨后文獻(xiàn)[15-17]的網(wǎng)絡(luò)精確度也在不斷提升,版本也升級(jí)到2023年的YOLOv8,YOLOv8n是YOLOv8系列的一種.
2) 雙階段方法:文獻(xiàn)[18]提出的RCNN模型為以后的雙階段目標(biāo)檢測(cè)技術(shù)的開發(fā)打下了堅(jiān)實(shí)的基礎(chǔ).后續(xù)時(shí)間里依次出現(xiàn)了快速的Fast R-CNN[19]網(wǎng)絡(luò)、更快速的Faster R-CNN[20-22]網(wǎng)絡(luò),以及兼顧目標(biāo)分割的Mask R-CNN[23-24]網(wǎng)絡(luò).這些方法有著精度高但檢測(cè)速度慢的特點(diǎn)[25].
1.2 基于深度學(xué)習(xí)的X線目標(biāo)檢測(cè)研究現(xiàn)狀
Ak ay等[26]首次將深度學(xué)習(xí)應(yīng)用于X線圖像的行李分類檢測(cè),并使用遷移學(xué)習(xí)將AlexNet網(wǎng)絡(luò)應(yīng)用于研究.研究結(jié)果表明,深度學(xué)習(xí)在行李分類檢測(cè)中對(duì)比傳統(tǒng)機(jī)器學(xué)習(xí)具有優(yōu)秀的性能和魯棒性.Mery等[27]通過基于詞袋模型、稀疏表示、深度學(xué)習(xí)和經(jīng)典模式識(shí)別多種方法進(jìn)行了行李檢測(cè)實(shí)驗(yàn),并發(fā)現(xiàn)AlexNet和GoogleNet能夠達(dá)到相當(dāng)高的識(shí)別率,這證明了深度學(xué)習(xí)方法在設(shè)計(jì)自動(dòng)違禁品識(shí)別設(shè)備方面的可行性.文獻(xiàn)[28-29]將深度學(xué)習(xí)分類網(wǎng)絡(luò)與視覺詞袋模型進(jìn)行了對(duì)比研究,并發(fā)現(xiàn)深度學(xué)習(xí)分類性能優(yōu)于視覺詞袋模型,表明深度學(xué)習(xí)適合于設(shè)計(jì)自動(dòng)的X線圖像分類任務(wù).吉祥凌等[30]在SSD基礎(chǔ)上使用了多尺度特征融合的方法,以提高小目標(biāo)檢測(cè)的效果.郭守向等[31]在YOLOv3基礎(chǔ)上修改了骨干網(wǎng)絡(luò),并引入了特征增強(qiáng)模塊,以提高小目標(biāo)檢測(cè)的效果.張友康等[32]提出了空洞多視野卷積模塊和注意力模塊,以解決目標(biāo)遮擋問題.Li等[33]將語義分割網(wǎng)絡(luò)與Mask R-CNN組合成雙階段CNN模型,以改善X線圖像中物體重疊導(dǎo)致的性能下降問題.李文強(qiáng)等[34]在YOLOv8n模YOLOv5基礎(chǔ)上引入Swin Transformer模塊和注意力模塊,提升了網(wǎng)絡(luò)性能和X線圖像全局特征的提取能力.
1.3 YOLOv8n模型結(jié)構(gòu)
模型結(jié)構(gòu)分為幾個(gè)部分(如圖1所示):1) 輸入端:自適應(yīng)調(diào)整輸入圖片的大小,對(duì)圖片進(jìn)行預(yù)處理.2) 主干網(wǎng)絡(luò):進(jìn)行下采樣特征提取,獲得圖片的細(xì)節(jié)信息.3) Neck部分:采用feature pyramid networks(FPN)和path aggregation networks(PAN)相結(jié)合的方式,但是YOLOv8n去掉了PAN中的2個(gè)上采樣卷積操作.這樣既能獲得圖片的語義信息和獲得定位信息,又可以減少計(jì)算量.4) Prediction部分:采用了解耦頭的結(jié)構(gòu),2條并行的分支分別提取類別特征和位置特征.同時(shí)采用anchor-free方式對(duì)小、中、大目標(biāo)檢測(cè),并在原圖上對(duì)檢測(cè)物進(jìn)行錨框標(biāo)注.雖然YOLOv8模型在COCO等公開數(shù)據(jù)集上的性能有所提升,但YOLOv8模型在X線違禁品數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),性能并不是很好.本文在YOLOv8模型的基礎(chǔ)上修改了模型結(jié)構(gòu),加入ECA注意力機(jī)制,提出了帶有注意力機(jī)制的YOLOv8n-ECA目標(biāo)檢測(cè)模型,提高了YOLOv8模型在X線違禁品數(shù)據(jù)集上性能.
圖1為YOLOv8的基本網(wǎng)絡(luò)架構(gòu),主干網(wǎng)(Backbone)通過C2f模塊來提取特征圖片,C2f模塊是由CBS模塊和x個(gè)Bottleneck1組件拼接而成,而CBS模塊是由標(biāo)準(zhǔn)卷積、歸一化和SiLU激活函數(shù)組成.
2 帶有注意力機(jī)制的YOLOv8模型
2.1 輸入數(shù)據(jù)集增強(qiáng)
針對(duì)剪刀這類數(shù)據(jù)集比其他類別的數(shù)量少的問題,使用數(shù)據(jù)增強(qiáng)的方法,對(duì)剪刀這類數(shù)據(jù)集進(jìn)行圖像擴(kuò)增,來提高數(shù)據(jù)集的可靠性.擴(kuò)充的途徑包括:1) 圖像的翻轉(zhuǎn)、圖像的縮放和色彩空間的變換.在圖像翻轉(zhuǎn)方面,考慮到真實(shí)安檢過程中物體會(huì)發(fā)生不同角度的翻轉(zhuǎn),對(duì)X線圖像進(jìn)行左右、上下、45°、135°、225°等翻轉(zhuǎn),增加不同角度X線圖像的多樣性.2) 對(duì)X線圖像進(jìn)行色彩調(diào)節(jié),可以使圖像的邊緣更深,并能使圖像的特點(diǎn)更加明顯.樣本擴(kuò)充后的效果圖如圖2所示.3) 使用Mixup方法[35],從訓(xùn)練集中挑選帶有剪刀類的圖像和不帶有剪刀類的圖像,然后將它們通過Mixup逐像素線性相加(如圖3所示),得到混合后的圖像,同時(shí)把對(duì)應(yīng)的標(biāo)簽也加在沒有剪刀類的圖像上.
2.2 網(wǎng)絡(luò)優(yōu)化
通過對(duì)網(wǎng)絡(luò)中使用的激活函數(shù)進(jìn)行分析,選擇更優(yōu)的激活函數(shù)來代替原有的激活函數(shù),提高網(wǎng)絡(luò)的精確度,解決對(duì)于復(fù)雜場(chǎng)景的處理效果不佳的問題.通過加入注意力機(jī)制到不同的網(wǎng)絡(luò)層,來進(jìn)一步提高網(wǎng)絡(luò)的精確度,解決對(duì)遮擋目標(biāo)檢測(cè)效果不佳的問題.
2.2.1 [WTBZ][STBZ]改進(jìn)YOLOv8模型的激活函數(shù)[WT][ST]
YOLOv8n網(wǎng)絡(luò)使用的是SiLU激活函數(shù),它是Swish激活函數(shù)[36]中的一個(gè)特例.Swish激活函數(shù)是ReLU激活函數(shù)[37]的平滑近似,使用Swish激活函數(shù)性能更好.但是,Swish只能激活非線性的網(wǎng)絡(luò)節(jié)點(diǎn),一些線性的節(jié)點(diǎn)就會(huì)被忽略,從而使得網(wǎng)絡(luò)的性能受到影響.
Meta-ACON激活函數(shù)[38]是在ACON激活函數(shù)的基礎(chǔ)上提出的一種自適應(yīng)激活函數(shù).ACON激活函數(shù)是一種可以自適應(yīng)地選擇是否激活神經(jīng)元的激活函數(shù),Meta-ACON激活函數(shù)通過引入開關(guān)因子來學(xué)習(xí)非線性(激活)和線性(非激活)之間的參數(shù)切換.它能夠自適應(yīng)地選擇是否激活神經(jīng)元,通過替換原網(wǎng)絡(luò)的激活層,能提升網(wǎng)絡(luò)精度.它是基于個(gè)激活函數(shù)ReLU和Swish得來的.ReLU的平滑近似函數(shù)
Sβ(x1,x2,…,xn)=∑[DD(]n[]i=1[DD)]xieβxi∑[DD(]n[]i=1[DD)]eβxi,
(1)
根據(jù)式(1)得
Sβ(ηa(x),ηb(x))=
(ηa(x)-ηb(x))σ[β(ηa(x)-ηb(x))]+ηb(x).
(2)
通過式(2)能夠得到Swish激活函數(shù)式(3):當(dāng)式(3)中的β=1時(shí),就是SiLU激活函數(shù)
Sβ(x,0)=xσ(βx),
(3)
由式(3)獲得ReLU激活函數(shù)
f(x1,x2)=max(x1,x2)=max(x,0).
(4)
此時(shí)Swish和ReLU激活函數(shù)只能通過非線性的方式激活神經(jīng)元.(2)式中的β就是決定是否激活線性或非線性的參數(shù).當(dāng)β為常量時(shí),式(2)就已經(jīng)明確了線性或非線性,此時(shí)需要?jiǎng)討B(tài)學(xué)習(xí)β,使得網(wǎng)絡(luò)有著能夠自適應(yīng)線性或非線性的能力,從而提高網(wǎng)絡(luò)泛化能力和精確度.
將主干網(wǎng)中的CBS模塊里的SiLU激活函數(shù)替換成Meta-ACON,可以在參數(shù)量增加不大的情況下很好地提升性能,形成新的CBM模塊,如圖4所示.
2.2.2 對(duì)[WTBZ]ECA注意力模塊的改進(jìn)[WT]
ECA注意力[39]解決了通道間的注意力問題,采用一維卷積核提取明顯的特征,再利用Sigmoid激活函數(shù)將特征歸一化,將得到的通道注意力信息與原始輸入的特征圖相結(jié)合,得到具有不同權(quán)重的特征圖.
Sigmoid激活函數(shù)中包含指數(shù)計(jì)算,會(huì)造成計(jì)算量增大,那么將Sigmoid激活函數(shù)替換成Meta-ACON激活函數(shù),得到ECA_M模塊(如圖5所示),可以避免出現(xiàn)指數(shù)計(jì)算,從而減低計(jì)算量.
2.2.3 [WTBZ][STBZ]將ECA_M模塊引入YOLOv8n網(wǎng)絡(luò)[WT][ST]
為了在特征提取過程中讓網(wǎng)絡(luò)模型能夠著重提取到所標(biāo)注的物品的特征,將優(yōu)化后的ECA_M模塊加入到已經(jīng)修改過的YOLOv8n網(wǎng)絡(luò)中.
為了使網(wǎng)絡(luò)的優(yōu)化有更好的效果,本文設(shè)計(jì)了多種實(shí)驗(yàn)進(jìn)行對(duì)比,即在主干網(wǎng)絡(luò)不同的層中添加若干注意力模塊.具體方法如下:首先,分別將ECA_M模塊連接在主干網(wǎng)的P3、P4、P5層后端,此時(shí)網(wǎng)絡(luò)中就加入了一層注意力模塊,得到網(wǎng)絡(luò)YOLOv8n-E3、YOLOv8n-E4、YOLOv8n-E5;再次,同時(shí)將ECA_M模塊連接在P3和P4、P3和P5、P4和P5層后端,此時(shí)網(wǎng)絡(luò)中加入了2層注意力模塊,得到網(wǎng)絡(luò)YOLOv8n-E34、YOLOv8n-E35、YOLOv8n-E45;然后,將ECA_M模塊同時(shí)加入到P3、P4和P5層后端,此時(shí)網(wǎng)絡(luò)中加入了3層注意力模塊,得到網(wǎng)絡(luò)YOLOv8n-E345;最后,在3層注意力模塊的基礎(chǔ)上,將ECA_M模塊加到SPPF層的后端,此時(shí)網(wǎng)絡(luò)中加入了4層注意力模塊,得到網(wǎng)絡(luò)YOLOv8n-ECA.
利用Prediction部分對(duì)獲得的特征進(jìn)行預(yù)測(cè),并解碼預(yù)測(cè)結(jié)果,從而在原圖上繪出預(yù)測(cè)框并標(biāo)注類別.
YOLOv8n-En網(wǎng)絡(luò)相較于YOLOv8n網(wǎng)絡(luò),在理論上可以獲得更好的檢測(cè)效果,對(duì)X線安檢圖像中違禁品的檢測(cè)精度更高.同時(shí),YOLOv8n-En網(wǎng)絡(luò)因增加注意力模塊使得單張圖片的檢測(cè)速度減慢.不過在X線安檢場(chǎng)景中更注重檢測(cè)的精確度性能,適當(dāng)?shù)慕档蜋z測(cè)速度是能夠接受的,YOLOv8n-En網(wǎng)絡(luò)仍具有可行性,這里的n代表ECA_M模塊加入的情況.
3 實(shí)驗(yàn)測(cè)試與結(jié)果
本節(jié)先對(duì)剪刀這種類別進(jìn)行數(shù)據(jù)擴(kuò)充,在YOLOv8n模型的基礎(chǔ)上將擴(kuò)充后的數(shù)據(jù)集與原數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),分析實(shí)驗(yàn)結(jié)果.
然后將YOLOv8n中的激活函數(shù)替換成Meta-ACON,得到Y(jié)OLOv8n-MA,再針對(duì)優(yōu)化激活函數(shù)后的網(wǎng)絡(luò)YOLOv8n-MA、YOLOv8n-E3、YOLOv8n-E4、YOLOv8n-E5、YOLOv8n-E34、YOLOv8n-E35、YOLOv8n-E45、YOLOv8n-E345以及YOLOv8n-ECA進(jìn)行對(duì)比實(shí)驗(yàn),分別比較它們檢測(cè)各種違禁品的性能和網(wǎng)絡(luò)平均精確度.
3.1 實(shí)驗(yàn)準(zhǔn)備
3.1.1 數(shù)據(jù)集選擇
1) 目前公開的X線安檢圖像數(shù)據(jù)集有以下2種:a) GDXray數(shù)據(jù)集[40],此數(shù)據(jù)集的圖片是單色圖像,包含違禁品5類,且形狀過于少量,數(shù)量有8 150張;2) SIXray數(shù)據(jù)集[41],此數(shù)據(jù)集是由中國(guó)科學(xué)院大學(xué)收集并整理的,樣本標(biāo)簽數(shù)有8 929個(gè),共有6種類別,分別為手槍(Gun)、刀具(Knife)、扳手(Wrench)、鑷子(Pliers)、剪刀(Scissor)和錘子(Hammer).此數(shù)據(jù)集內(nèi)容比較復(fù)雜,圖片色彩豐富,種類多樣,包含物品重疊等干擾,符合實(shí)驗(yàn)需求.SIXray數(shù)據(jù)集部分圖片如圖6所示.實(shí)驗(yàn)中去掉了錘子這一類,并通過數(shù)據(jù)增強(qiáng)的方式,將剪刀這類的數(shù)量趨向其他類別的數(shù)量.使用增強(qiáng)后的數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn).
3.1.2 超參數(shù)設(shè)置
batch_size設(shè)置為8,epoch為200輪,圖片的初始大小為640 dpi×640 dpi,學(xué)習(xí)率設(shè)為0.01.
3.1.3 評(píng)估指標(biāo)
TP(真正例)為模型正確預(yù)測(cè)為正例的樣本數(shù),TN(真負(fù)例)為模型正確預(yù)測(cè)為負(fù)例的樣本數(shù),F(xiàn)P(假正例)為模型錯(cuò)誤地預(yù)測(cè)為正例的樣本數(shù),F(xiàn)N(假負(fù)例)為模型錯(cuò)誤地預(yù)測(cè)為負(fù)例的樣本數(shù).
精確率(precision):指在模型預(yù)測(cè)為正例的樣本中,真正為正例的樣本所占的比例.它衡量了模型預(yù)測(cè)為正例時(shí)的準(zhǔn)確性,公式為
Wprecision=nTPnTP+nFP.
(5)
召回率(recall):指在真正為正例的樣本中,被模型預(yù)測(cè)為正例的樣本所占的比例.它衡量了模型對(duì)于真實(shí)正例的發(fā)現(xiàn)能力,公式為
Wrecall=nTPnTP+nFN.
(6)
平均正確率(AP):是對(duì)精確率-召回率曲線下面積(PR曲線下面積)的平均值.AP值越高,說明模型性能越好.
交并比(IoU):交并比是指預(yù)測(cè)框與真實(shí)框之間的交集與并集之比.當(dāng)交并比大于等于某個(gè)閾值時(shí),認(rèn)為預(yù)測(cè)框與真實(shí)框匹配成功.
mAP@0.5:0.95指將交并比的臨界值設(shè)置在0.5~0.95時(shí),所有類別的平均精確度.本文將選擇mAP@0.5:0.95作為模型性能的評(píng)判指標(biāo).
FPS:檢測(cè)每秒能處理的圖片數(shù)量.
3.2 少類樣本擴(kuò)充對(duì)比實(shí)驗(yàn)
剪刀是該數(shù)據(jù)集中的較少類別,所以使用在2.1節(jié)中提到的數(shù)據(jù)增強(qiáng)方法,對(duì)剪刀這種少類數(shù)據(jù)進(jìn)行擴(kuò)充,然后使用YOLOv8n模型將擴(kuò)充后的數(shù)據(jù)集與原數(shù)據(jù)集進(jìn)行對(duì)比,得到的對(duì)比結(jié)果如表1所示.
根據(jù)表1,剪刀類別通過數(shù)據(jù)增強(qiáng)后,召回率提升了8.4%,有效地降低了少量類別的漏檢率.
3.3 各模型性能對(duì)比實(shí)驗(yàn)
在訓(xùn)練后測(cè)試同一組測(cè)試集,先列出YOLOv8n原網(wǎng)絡(luò)與替換激活函數(shù)后的YOLOv8n-MA網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)(見表2),再分別列出YOLOv8n-MA、YOLOv8n-E3、YOLOv8n-E4、YOLOv8n-E5、YOLOv8n-E34、YOLOv8n-E35、YOLOv8n-E45、YOLOv8n-E345以及YOLOv8n-ECA等9個(gè)模型的性能指標(biāo):精度、召回率、mAP值和每秒處理的圖片數(shù)量(FPS),檢測(cè)結(jié)果分別如表3所示.
根據(jù)表2可以看到,替換后的YOLOv8n-MA網(wǎng)絡(luò)在精度、召回率和mAP方面比YOLOv8n網(wǎng)絡(luò)的表現(xiàn)要好,分別提高了3.6%,3.8%和7.7%,表明替換激活函數(shù)可以顯著提高目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能.
根據(jù)表3,得到以下結(jié)論:
1) 精度方面,各個(gè)網(wǎng)絡(luò)的差異不大,表現(xiàn)較好的是YOLOv8n-E3和YOLOv8n-E34,精確度達(dá)到98.6%;
2) 召回率方面,網(wǎng)絡(luò)的差異值不大,而YOLOv8n-ECA有著更好的召回率,達(dá)到95.1%;
3) mAP值,本實(shí)驗(yàn)使用的是IoU在0.5~0.99范圍的平均精確度,YOLOv8n-ECA有著更好的mAP,相對(duì)于YOLOv8n-MA提高了1.4%;
4) FPS,加入注意力模塊后每秒處理圖片的數(shù)量有所下降,這在預(yù)期內(nèi),可以看到Y(jié)OLOv8n-ECA下降的幅度最小.綜上,YOLOv8n-ECA總體的性能超過了YOLOv8n-MA網(wǎng)絡(luò).
根據(jù)表4,YOLOv8n-ECA網(wǎng)絡(luò)模型相較于原始YOLOv8n網(wǎng)絡(luò)模型在X線安檢數(shù)據(jù)集上的精確度提升了3.9%,召回率提升了4.7%,mAP提升了6%,F(xiàn)PS提升了15.7%.
4 結(jié)束語
本文旨在提高處于X線安檢圖像數(shù)據(jù)的情況下目標(biāo)檢測(cè)模型的精確度,在原YOLOv8n網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行激活函數(shù)的改進(jìn)以及加入注意力模塊,構(gòu)建了YOLOv8n-ECA等一系列網(wǎng)絡(luò).根據(jù)對(duì)比實(shí)驗(yàn),得到結(jié)論:YOLOv8n-ECA網(wǎng)絡(luò)的總體性能較YOLOv8n提升了6%,且每秒處理圖片的數(shù)量為130.6,符合安檢工作中的要求.綜上所述,YOLOv8n-ECA網(wǎng)絡(luò)符合安檢工作時(shí)的幀數(shù)要求,能夠更精確地識(shí)別違禁品,為公共環(huán)境提供安全保障.
參考文獻(xiàn)
[1] 陳燕蝶. 人工智能在安檢工作的應(yīng)用研究[J]. 電大理工,2022(2):65-71.
[2] 鐘健,甘玉鳳,高向東. 違禁品安檢技術(shù)現(xiàn)狀與展望綜述[J]. 傳感器世界,2022,28(7):1-7.
[3] 楊嘉誠(chéng),黃佳慧,韓永麟,等. 優(yōu)化YOLOv4算法的安檢X線圖像檢測(cè)網(wǎng)絡(luò)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(12):116-122.
[4] 曹洋,張莉,孟俊熙,等. 針對(duì)X線安檢場(chǎng)景的多目標(biāo)違禁品識(shí)別算法[J]. 激光與光電子學(xué)進(jìn)展,2022,59(10):324-332.
[5] MERY D, MONDRAGON G, RIFFO V, et al. Detection of regular objects in baggage using multiple X-ray views[J]. Insight- Non-Destructive Testing and Condition Monitoring,2013,55(1):16-20.
[6] 張偉烽. 基于深度學(xué)習(xí)的X線安檢圖像危險(xiǎn)品檢測(cè)算法及其應(yīng)用[D]. 深圳:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院),2022.
[7] 任杰. 基于YOLOv5的X線安檢圖像違禁品檢測(cè)[D]. 北京:中國(guó)地質(zhì)大學(xué),2021.
[8] 代偉,劉洪. 基于神經(jīng)網(wǎng)絡(luò)的中文語音識(shí)別技術(shù)[J]. 四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,45(1):131-135.
[9] 林秀麗,李均利,田竟民,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的算法選擇研究[J]. 四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,45(6):830-838.
[10] 郭逸凡,裴瑄,王大寒,等. HyperSegUNet:基于超網(wǎng)絡(luò)的超參自學(xué)習(xí)醫(yī)學(xué)圖像分割模型[J]. 四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,47(1):127-135.
[11] 劉星宇,程建,牛藝曉,等. 基于AGA-RBF神經(jīng)網(wǎng)絡(luò)模型的葉綠素a質(zhì)量濃度預(yù)測(cè)研究[J]. 四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,47(5):670-675.
[12] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE,2016:779-788.
[13] 楊高坤. 單階段法目標(biāo)檢測(cè)技術(shù)研究[J]. 電子世界,2021(3):77-78.
[14] 魏澤發(fā),崔華. 基于 SqueezeNet 卷積神經(jīng)網(wǎng)絡(luò)的車輛檢測(cè)[J]. 物聯(lián)網(wǎng)學(xué)報(bào),2020,4(3):120-125.
[15] KANG JC, ZHAO L J, WANG K T, et al. Research on an improved YOL0v8 image segmentation model for crop pests[EB/OL]. (2023-04-13)[2023-10-24]. http://166.62.7.99/assets/defaulV/article/2023/04/13/article_1681397118. pdf.
[16] 袁紅春,陶磊. 基于改進(jìn)的Yolov8商業(yè)漁船電子監(jiān)控?cái)?shù)據(jù)中魚類的檢測(cè)與識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào),2023,38(3):533-542.
[17] LI Y T, FAN Q S, HUANG H S, et al. A modified YOLOv8 detection network for UAV aerial image recognition[J]. Drones,2023,7(5):304.
[18] 吳健生,王健全,付美霞,等. 基于改進(jìn)Faster-RCNN算法的帶鋼缺陷檢測(cè)[J]. 鞍鋼技術(shù),2022(6):23-28.
[19] GIRSHICK R. Fast R-CNN[EB/OL]. Computer Science,2015. https://ar5iv.labs.arxiv.org/html/1504.08083.
[20] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems,2016,39(6):1137-1149.
[21] 趙留陽. 基于改進(jìn)的Faster-RCNN的中藥檢測(cè)[J]. 現(xiàn)代信息科技,2022,6(17):71-74.
[22] 劉德祥,梁苗,王鈺棋. 改進(jìn)Faster-RCNN的工程車輛識(shí)別方法[J]. 城市勘測(cè),2023(1):110-113.
[23] HE K M, GKIOXARI G, DOLLR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice: IEEE,2017:2980-2988.
[24] 游江川. 基于改進(jìn)Mask-RCNN的路面裂縫檢測(cè)[J]. 電視技術(shù),2022,46(6):7-9.
[25] 路斯棋,管鳳旭,賴海濤,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的雙階段水下圖像增強(qiáng)方法[J/OL]. 北京航空航天大學(xué)學(xué)報(bào),(2022-01-15)[2023-08-22].https://doi.org/10.13700/j.bh.1001-5965.2022.1003.
[26] AKAY S, KUNDEGORSKI M E, DEVEREUX M, et al. Transfer learning using convolutional neural networks for object classification within X-ray baggage security imagery[C]//2016 IEEE International Conference on Image Processing (ICIP).Phoenix: IEEE,2016:1057-1061.
[27] MERY D, SVEC E, ARIAS M, et al. Modern computer vision techniques for X-ray testing in baggage inspection[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems,2017,47(4):682-692.
[28] AKCAY S, BRECKON T P. An evaluation of region based object detection strategies within X-ray baggage security imagery[C]//2017 IEEE International Conference on Image Processing (ICIP). Beijing: IEEE,2017:1337-1341.
[29] AKCAY S, KUNDEGORSKI M E, WILLCOCKS C G, et al. Using deep convolutional neural network architectures for object classification and detection within X-ray baggage security imagery[J]. IEEE Transactions on Information Forensics and Security,2018,13(9):2203-2215.
[30] 吉祥凌,吳軍,易見兵,等. 基于深度學(xué)習(xí)的管制物品自動(dòng)檢測(cè)算法研究[J]. 激光與光電子學(xué)進(jìn)展,2019,56(18):76-86.
[31] 郭守向,張良. Yolo-C:基于單階段網(wǎng)絡(luò)的 X 光圖像違禁品檢測(cè)[J]. 激光與電子學(xué)進(jìn)展,2021,58(8):67-76.
[32] 張友康,蘇志剛,張海剛,等. X線安檢圖像多尺度違禁品檢測(cè)[J]. 信號(hào)處理,2020,36(7):1096-1106.
[33] LI J C, LIU Y H, CUI Z C. Segmentation and attention network for complicated X-ray images[C]//2020 35th Youth Academic Annual Conference of Chinese Association of Automation (YAC). Zhanjiang: IEEE,2020:727-731.
[34] 李文強(qiáng),陳莉,謝旭,等. 改進(jìn) YOLOv5 的X光圖像違禁品檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用雜志,2023,59(16):170-176.
[35] 張京愛,王江濤. 基于多尺度卷積神經(jīng)網(wǎng)絡(luò)和類內(nèi)mixup操作的磁瓦表面質(zhì)量識(shí)別[J]. 計(jì)算機(jī)應(yīng)用,2021,41(1):275-279.
[36] RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activation functions[EB/OL]. (2017-10-27)[2023-10-24]. https://arxiv.org/pdf/1710.05941v1.pdf.
[37] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics. Fort Lauderdale: JMLR,2011:315-323.
[38] MA N N, ZHANG X Y, LIU M, et al. Activate or not: learning customized activation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Nashville: IEEE,2021:8028-8038.
[39] WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE,2020:11531-11539.
[40] MERY D, RIFFO V, ZSCHERPEL U, et al. GDXray: the database of X-ray images for nondestructive testing [J]. Journal of Nondestructive Evaluation,2015,34(4):42.
[41] MIAO C J, XIE L X, WAN F, et al. SIXray: a large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE,2019:2114-2123.
A Contraband Detection Method for X-ray Security ImagesBased on Improved YOLOv[STHZ]8[STBZ]
MAO Weiyang1, YANG Jun1,2, LIU Xudong1, LIANG Daozheng1
(1. School of Computer Science, Sichuan Normal University, Chengdu 610101, Sichuan;
2. Key Laboratory of Visual Computing and Virtual Reality, Sichuan Normal University, Chengdu 610101, Sichuan)
The efficiency of manual security checks is low and prone to errors. Implementing automatic security checks based on artificial intelligence is the development trend of security checks. The YOLOv8 object detection model has been improved to address the issues of low detection accuracy and high missed detection rate for a small number of categories in X-ray prohibited item detection. On the basis of YOLOv8n, the network structure was modified, attention mechanism was introduced, and a YOLOv8n-ECA object detection model with Efficient Channel Attention (ECA) was proposed to better extract the features of prohibited items in X-ray images. At the same time, a series of data augmentation methods such as image rotation were used to expand the sample size for a small number of category samples. Experiments were conducted on a self-building X-ray security inspection image dataset, and the results showed that the improved algorithm enhanced detection accuracy by 6% compared to the original YOLOv8n model, increased detection speed by 15.7% compared to the original YOLOv8n model, and reduced the missed detection rate of a small number of categories.
YOLOv8n; ECA attention; deep learning; X-ray images; prohibited goods inspection
(編輯 鄭月蓉)