摘? 要:近年來(lái)目標(biāo)檢測(cè)技術(shù)發(fā)展十分迅速,出現(xiàn)了很多優(yōu)秀的目標(biāo)檢測(cè)算法,諸如Faster RCNN、YOLO和SSD等,其中尤以SSD目標(biāo)檢測(cè)算法表現(xiàn)突出,其運(yùn)行速度可以和YOLO媲美,檢測(cè)精度可以和Faster RCNN媲美,但SSD目標(biāo)檢測(cè)算法已生成六個(gè)特征圖,接著單獨(dú)送進(jìn)網(wǎng)絡(luò)里面檢測(cè),并沒有考慮到多尺度特征融合問(wèn)題?;诖?,文章對(duì)SSD目標(biāo)檢測(cè)算法的多尺度特征融合技術(shù)進(jìn)行了研究,使用特征圖融合技術(shù)和三支路多尺度特征融合技術(shù)改進(jìn)SSD目標(biāo)檢測(cè)算法,并獲得更優(yōu)的效果。
關(guān)鍵詞:SSD;目標(biāo)檢測(cè);多尺度特征融合;FPN
中圖分類號(hào):TP391.41? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)18-0122-03
Abstract:In recent years,the development of target detection technology has been very rapid,and there have been many excellent target detection algorithms,such as Faster RCNN,YOLO,and SSD. Among them,the SSD target detection algorithm has outstanding performance,its running speed can be comparable to YOLO,and the detection accuracy can be comparable to Faster RCNN. The SSD target detection algorithm generated six feature maps separately and sent them to the network for detection,and does not take into account the problem of multi-scale feature fusion. Based on this,the article studies the multi-scale feature fusion technology of the SSD target detection algorithm,and uses feature map fusion and three-branch multi-scale feature fusion technology to improve the SSD target detection algorithm and obtain better results.
Keywords:SSD;target detection;multi-scale feature fusion;FPN
0? 引? 言
目標(biāo)檢測(cè)目前是圖像處理領(lǐng)域的一個(gè)基本方向,是近些年來(lái)理論和應(yīng)用的研究熱點(diǎn)。目標(biāo)檢測(cè)技術(shù)應(yīng)用十分廣泛,其主要目標(biāo)是在圖像或圖像序列中精確識(shí)別出各種目標(biāo)的類別和位置信息。近年來(lái),無(wú)人駕駛市場(chǎng)熱度很高,各種報(bào)道層出不窮,無(wú)人駕駛技術(shù)尤其在軌道交通領(lǐng)域具有深遠(yuǎn)影響,其運(yùn)用了深度學(xué)習(xí)圖像識(shí)別技術(shù),汽車或者機(jī)器人要對(duì)駕駛路徑進(jìn)行目標(biāo)檢測(cè),特別是對(duì)行人、汽車、自行車和摩托車等重要目標(biāo)的識(shí)別。筆者作為工科學(xué)校的控制科學(xué)與工程專業(yè)的研究生,對(duì)目標(biāo)檢測(cè)在軌道交通場(chǎng)景中的運(yùn)用進(jìn)行了研究,駕駛場(chǎng)景的目標(biāo)檢測(cè)需要實(shí)時(shí)性和高精度性,F(xiàn)aster RCNN和YOLO都有各自的不足,筆者通過(guò)改進(jìn)SSD目標(biāo)檢測(cè)算法的多尺度特征融合技術(shù)(特征圖融合技術(shù)和三支路多尺度特征融合技術(shù)皆為多尺度特征融合技術(shù)),提升了SSD目標(biāo)檢測(cè)算法精度,使其適用于無(wú)人駕駛等軌道交通場(chǎng)景。
1? SSD目標(biāo)檢測(cè)簡(jiǎn)介
SSD采用VGG16作為基礎(chǔ)模型,然后在VGG16的基礎(chǔ)上用Conv6和Conv7替換掉了FC6和FC7,用卷積層來(lái)獲得更多的特征語(yǔ)義用于檢測(cè)。SSD提取了Conv4_3、Conv7和四個(gè)額外添加的特征圖Conv8_2、Conv9_2、Conv 10_2、Conv11_2,其大小分別是(38,38)(19,19)(10,10)(5,5)(3,3)(1,1),將總共六個(gè)特征圖送進(jìn)后續(xù)的回歸網(wǎng)絡(luò)進(jìn)行定位和分類,SSD使用感受野大的特征圖去檢測(cè)大目標(biāo),使用感受野小的特征圖去檢測(cè)小目標(biāo)。SSD的損失函數(shù)包括兩部分的加權(quán):(1)位置損失函數(shù)Lloc(x,l,g);(2)置信度損失函數(shù)Lconf(x,c)。整個(gè)損失函數(shù)為:
其中,N為先驗(yàn)框的正樣本數(shù)量,c為類別置信度預(yù)測(cè)值,l為先驗(yàn)框?qū)?yīng)bounding box的位置對(duì)應(yīng)值,g為ground truth的位置參數(shù),α一般取1。
2? 基于SSD目標(biāo)檢測(cè)算法的多尺度特征融合技術(shù)
2.1? 金字塔網(wǎng)絡(luò)
多尺度特征融合技術(shù)中最出名的是特征金字塔網(wǎng)絡(luò)(FPN),如圖1所示,特征金字塔網(wǎng)絡(luò)在正向傳播時(shí),特征圖在每個(gè)階段進(jìn)行下采樣(即降為原來(lái)的1/2),將高層特征經(jīng)過(guò)兩倍上采樣,與經(jīng)過(guò)1×1卷積核的底層特征相加可以得到更豐富的語(yǔ)義信息。特征金字塔網(wǎng)絡(luò)加強(qiáng)了各特征圖之間的聯(lián)系,增強(qiáng)了特征圖之間的融合,并成功改進(jìn)了Faster RCNN算法,使其獲得了不錯(cuò)的提升。
2.2? 特征圖融合
如圖2所示,SSD網(wǎng)絡(luò)中提取了六個(gè)特征圖,我們先進(jìn)行預(yù)處理操作(把C1、C2、C3、C4、C5和C6用1×1的卷積統(tǒng)一將通道數(shù)轉(zhuǎn)變?yōu)?56),然后將C2、C3和C4采樣至與C1分辨率相同,接著進(jìn)行concat操作,再通過(guò)1×1的卷積將通道數(shù)由1 024轉(zhuǎn)為512,從而生成D1特征圖取代原有的C1特征圖。D1是由38×38、19×19、10×10和5×5的特征圖進(jìn)行融合而成,具有自下而上多層信息,同時(shí)保持C2、C3、C4特征圖不變。1×1的特征圖C6和3×3的特征圖C5相對(duì)38×38實(shí)在太小,采樣到38×38的分辨率只能攜帶很少信息,基于實(shí)時(shí)性考慮,并沒有采樣C5和C6。最后將特征融合后的D1與C2、C3、C4、C5和C6配合下文的雙路多尺度特征融合送入檢測(cè)頭進(jìn)行定位和置信度分析。
特征圖融合公式可表示為:
其中,Ci{i∈(1,2,3,4)},代表SSD提取的前四個(gè)特征圖,Ti代表Ci的通道數(shù)轉(zhuǎn)換和分辨率轉(zhuǎn)換,f代表concat融合Ci,φ代表送入檢測(cè)頭定位和分類操作,(1,2,3,4,5,6)代表特征圖的序號(hào)。
2.3? 三支路多尺度特征融合
SSD目標(biāo)檢測(cè)算法的六個(gè)特征圖是獨(dú)立地傳進(jìn)網(wǎng)絡(luò)中進(jìn)行目標(biāo)定位和目標(biāo)識(shí)別,由于特征圖與特征圖之間沒有聯(lián)系,導(dǎo)致SSD出現(xiàn)兩個(gè)問(wèn)題:(1)底層特征語(yǔ)義不夠;(2)最高分辨率不高。
本文將基于SSD目標(biāo)檢測(cè)算法提出新的多尺度特征融合技術(shù),如圖3所示,SSD算法總共提取了六個(gè)特征圖(C1、C2、C3、C4、C5、C6),C1和C3通道數(shù)為512,C2通道數(shù)為1 024,C4、C5和C6通道數(shù)都是256,我們統(tǒng)一讓六個(gè)特征圖都先經(jīng)過(guò)1×1的卷積(通道數(shù)為256),將六個(gè)特征圖的通道數(shù)都調(diào)整為256,然后讓經(jīng)過(guò)調(diào)整后的C1…C6分別經(jīng)過(guò)卷積核為1×1、通道數(shù)為256的卷積,生成C1_1…C6_1;然后讓輸入的C1…C6分別經(jīng)過(guò)卷積核為3×3、通道數(shù)為256的卷積,生成C1_2…C6_2,最后讓輸入的C1…C6分別經(jīng)過(guò)卷積核為5×5、通道數(shù)為256的卷積,生成C1_3…C6_3。
以C5和C6為例,由輸入C6,經(jīng)過(guò)通道數(shù)為256,卷積核分別為1×1、3×3、5×5的卷積,分別生成了C6_1、C6_2、C6_3;由輸入C5,經(jīng)過(guò)通道數(shù)為256,卷積核分別為1×1、3×3、5×5的卷積,分別生成了C5_1、C5_2、C5_3,可得:
3? 實(shí)驗(yàn)結(jié)果
如表1所示,表1展示了Faster RCNN、YOLO、SSD300*和本文算法的實(shí)驗(yàn)結(jié)果對(duì)比圖,train數(shù)據(jù)為VOC07+12,test數(shù)據(jù)為VOC07,對(duì)比得出SSD300*效果明顯好于Faster RCNN和YOLO。SSD300*的FPS可以實(shí)現(xiàn)在100左右,在精度上不遜色于Faster RCNN,在速度上不輸YOLO;SSD300*經(jīng)過(guò)本文多尺度特征融合技術(shù)改進(jìn)之后,F(xiàn)PS可以實(shí)現(xiàn)在55左右,mAP比SSD300*提高了1.5。經(jīng)過(guò)本文多尺度特征融合技術(shù)改進(jìn)后的算法對(duì)比SSD300*可以得出,無(wú)論是大目標(biāo)和小目標(biāo),特別是對(duì)于較難識(shí)別的bottle和plant類別,改進(jìn)后的算法相較于SSD300*分別有5.3%和2.9%的提升。
如圖4所示,圖4(a)和圖4(b)為SSD目標(biāo)檢測(cè)算法的檢測(cè)效果圖,圖4(c)和圖4(d)圖為使用多尺度特征融合技術(shù)后的SSD目標(biāo)檢測(cè)算法檢測(cè)效果圖。由圖4(a)和圖4(c)對(duì)比、圖4(b)和圖4(d)對(duì)比可以看出,加入多尺度特征融合技術(shù)后的SSD算法準(zhǔn)確框出了人、自行車、汽車等物體,在人群、車輛等密集的情況下,使用多尺度特征融合技術(shù)的SSD算法比原SSD算法框住了更多的目標(biāo),同時(shí)實(shí)現(xiàn)了位置定位和目標(biāo)識(shí)別精度的超越。
4? 結(jié)? 論
特征融合一共有三條支路,分別為1×1、3×3、5×5,1×1卷積自頂而下,3×3卷積自下而上,5×5卷積自頂而下,三支路多尺度特征融合技術(shù)融合了高尺度語(yǔ)義信息和低尺度圖像信息,同時(shí)采用了三種不同的卷積核,有效解決了傳統(tǒng)FPN唯一的自頂而下的單向提取特征融合模式。在送入三支路多尺度特征融合模塊之前先進(jìn)行特征圖融合,融合后的特征圖有更豐富的語(yǔ)義,在不影響實(shí)時(shí)性的同時(shí)還取得了比SSD算法更優(yōu)的結(jié)果。
參考文獻(xiàn):
[1] 黃健,張鋼.深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2020,56(17):12-23.
[2] LIN T Y,DOLL?R P,GIRSHICK R,et al.Feature Pyramid Networks for Object Detection [C]//Proceedings of the 2017 IEEE conference on computer vision and pattern recognition. 2017:2117-2125.
[3] LIU W,ANGUELOV D,ERHAN D,et al.SSD:Single Shot MultiBox Detector [C]// Computer Vision-ECCV 2016,2016:21-37.
[4] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[5] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J]. IEEE transactions on pattern analysis and machine intelligence,2017,39(6):1137-1149.
[6] LI Z,ZHOU F. FSSD:Feature Fusion Single Shot Multibox Detector [J/OL]. arXiv:1712.00960 [cs.CV].(2017-12-04).https://arxiv.org/abs/1712.00960v1.
作者簡(jiǎn)介:黃和錕(1996—),男,漢族,廣西玉林人,碩士,研究方向:目標(biāo)檢測(cè)。