張世輝,王紅蕾,陳宇翔,劉新煥, 張 健,何 歡,任衛(wèi)東
(1.燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島066004;2.河北省計(jì)算機(jī)虛擬技術(shù)與系統(tǒng)集成 重點(diǎn)實(shí)驗(yàn)室,河北秦皇島066004;3.北京計(jì)算機(jī)技術(shù)及應(yīng)用研究所,北京100854)
近年來,目標(biāo)檢測(cè)成為大量高級(jí)視覺任務(wù)的必要組成部分,如視覺測(cè)量、人數(shù)統(tǒng)計(jì)、輿情監(jiān)控、智能交通、場(chǎng)景內(nèi)容理解等[1~5],因此相關(guān)領(lǐng)域的諸多學(xué)者致力于目標(biāo)檢測(cè)方法的研究,并不斷提出新的目標(biāo)檢測(cè)方法。
現(xiàn)有的目標(biāo)檢測(cè)方法可分為傳統(tǒng)的檢測(cè)方法和基于深度學(xué)習(xí)的檢測(cè)方法兩大類。傳統(tǒng)的目標(biāo)檢測(cè)方法主要通過提取Harr、HOG(histogram of oriented gradient)等[6~8]特征,用AdaBoost、SVM(support vector machine)等[9~11]對(duì)特征進(jìn)行分類進(jìn)而實(shí)現(xiàn)目標(biāo)檢測(cè)。這些傳統(tǒng)方法使用的是人工設(shè)計(jì)的特征,某些情況下的檢測(cè)效果與實(shí)際需求有一定的差距?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)方法使用的是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)自動(dòng)提取的特征。其中,文獻(xiàn)[12]提出使用SS(selective search)[13]獲取區(qū)域建議并使用CNN提取區(qū)域建議特征的R-CNN方法;文獻(xiàn)[14]提出使用SS獲取區(qū)域建議并利用SPP(spatial pyramid pooling)網(wǎng)絡(luò)提取區(qū)域建議特征的SPP-net方法;文獻(xiàn)[15]提出先用CNN提取整幅圖像的特征,然后通過映射得到區(qū)域建議特征的Fast R-CNN方法;文獻(xiàn)[16]提出使用CNN提取圖像特征并用RPN(region proposal networks)網(wǎng)絡(luò)獲取區(qū)域建議的Faster R-CNN方法;文獻(xiàn)[17]提出利用卷積核預(yù)測(cè)不同尺度卷積層上目標(biāo)邊界框的類別分?jǐn)?shù)和偏移量的SSD方法;文獻(xiàn)[18]提出通過將特征圖劃分為S×S的格子而得到目標(biāo)的邊界框、定位置信度及類別概率向量的YOLO方法。上述文獻(xiàn)[12~16,18]中均使用CNN提取輸入圖像的特征,且都利用了CNN所提取的特征圖中最深層的特征圖,但均未利用淺層的特征圖;文獻(xiàn)[17]雖然利用多尺度特征圖進(jìn)行目標(biāo)檢測(cè),但目標(biāo)檢測(cè)的精度有待提高。通過分析卷積神經(jīng)網(wǎng)絡(luò)提取的各層次特征圖的特點(diǎn)發(fā)現(xiàn),淺層的特征圖包含更多細(xì)節(jié)性的特征,有利于提高目標(biāo)的檢測(cè)精度?,F(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法中,一部分利用卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的最深層特征圖進(jìn)行目標(biāo)檢測(cè),另一部分是將深層特征圖上采樣后與淺層特征圖進(jìn)行等權(quán)重(即權(quán)重比值為1)融合,這部分方法雖然提高了目標(biāo)檢測(cè)精度,但會(huì)令融合后用于后續(xù)網(wǎng)絡(luò)層的特征圖維度變大,從而使計(jì)算量增加,同時(shí)也不利于目標(biāo)檢測(cè)的實(shí)時(shí)性。綜合考慮上述內(nèi)容,本文提出將卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的淺層特征圖采樣后與最深層特征圖進(jìn)行加權(quán)融合的思想,并將該思想用于目標(biāo)檢測(cè),以提高目標(biāo)檢測(cè)的精度。
目標(biāo)檢測(cè)就是對(duì)圖像中數(shù)目不定的目標(biāo)進(jìn)行定位和分類,定位即確定圖像中目標(biāo)的具體位置并以邊界框的形式標(biāo)出目標(biāo)位置,分類即確定圖像中目標(biāo)是什么類別。
本文所提目標(biāo)檢測(cè)方法的總體思想:首先,利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的特征并得到一系列處于不同層次的特征圖;其次,基于特征圖加權(quán)融合思想并結(jié)合用于提取圖像特征的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)確定需要融合的淺層特征圖及融合方法;然后,將由特征圖加權(quán)融合得到的新特征圖輸入到改進(jìn)的RPN網(wǎng)絡(luò)中得到包含更多面積種類的區(qū)域建議;最后,將新特征圖和區(qū)域建議輸入到ROI Pooling層中,得到區(qū)域建議特征并用Softmax對(duì)特征進(jìn)行分類,從而實(shí)現(xiàn)目標(biāo)檢測(cè)??傮w流程見圖1所示。
圖1 目標(biāo)檢測(cè)總體流程Fig.1 The overall process of object detection
生活中,人們可以快速準(zhǔn)確地完成對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)的任務(wù)。但是,若讓計(jì)算機(jī)完成目標(biāo)檢測(cè)任務(wù)則首先需要通過一定的方法提取圖像特征,然后對(duì)特征進(jìn)行分類才能完成目標(biāo)檢測(cè),且檢測(cè)過程中所用的圖像特征直接影響著目標(biāo)檢測(cè)的效果。
現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法中,主要通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征且此過程中會(huì)生成一系列處于不同層次的特征圖[19,20]。其中,深層的特征圖分辨率低、語義信息高;淺層的特征圖分辨率高、語義信息低。淺層特征圖包含低層的、細(xì)節(jié)性的特征,有利于提高目標(biāo)的檢測(cè)精度。
綜合考慮由卷積層產(chǎn)生的特征圖的上述特點(diǎn),本文提出將卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的淺層特征圖與最深層特征圖進(jìn)行加權(quán)融合的思想。
圖2展示了具有n個(gè)卷積層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,由于不同的卷積神經(jīng)網(wǎng)絡(luò)中下采樣層的位置和數(shù)量各不相同,且用于融合的特征圖均由卷積層產(chǎn)生,故該圖中暫時(shí)未考慮下采樣層。由圖2可知,卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的過程中,每個(gè)卷積層產(chǎn)生的特征圖的大小即長(zhǎng)×寬×通道數(shù)(W×H×D)不完全相同,且一般情況下最深層特征圖的大小小于淺層特征圖,因此,利用特征圖加權(quán)融合思想進(jìn)行特征圖融合時(shí),需要對(duì)淺層特征圖進(jìn)行采樣,以使其與最深層特征圖的大小相同。在特征圖加權(quán)融合過程中,雖然需要對(duì)淺層特征圖進(jìn)行采樣,但是該采樣過程是一次性將淺層特征圖轉(zhuǎn)換到最深層特征圖的大小,并不是像最深層特征圖一樣由淺層特征圖經(jīng)過多次卷積與下采樣得到,因此采樣后的淺層特征圖仍包含較多的細(xì)節(jié)性特征??紤]到目標(biāo)檢測(cè)方法不僅需要較高的檢測(cè)精度,還需要較快的檢測(cè)速度,而隨著融合的淺層特征圖數(shù)的增加目標(biāo)檢測(cè)速度也會(huì)下降,因此,在確定要融合的淺層特征圖時(shí)要根據(jù)具體情況而定。
圖2 卷積神經(jīng)網(wǎng)絡(luò)中特征圖融合示意圖Fig.2 The sketch map of feature map fusion in CNN
由上述特征圖加權(quán)融合思想可知,在確定要融合的淺層特征圖時(shí)需要綜合考慮精度和速度,因此不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)要融合的淺層特征圖的層數(shù)并不相同,且特征圖加權(quán)融合的具體方案也會(huì)因網(wǎng)絡(luò)結(jié)構(gòu)的不同而存在差異。鑒于目前常用的卷積神經(jīng)網(wǎng)絡(luò)主要為L(zhǎng)eNet-5、AlexNet、ZFNet、GoogLeNet和VGGNet等,且現(xiàn)有的經(jīng)典目標(biāo)檢測(cè)方法中大多數(shù)以VGGNet(VGG網(wǎng)絡(luò))為基礎(chǔ)實(shí)現(xiàn),為了與已有方法進(jìn)行對(duì)比,也為了體現(xiàn)所提目標(biāo)檢測(cè)方法的普適性,本文目標(biāo)檢測(cè)任務(wù)的實(shí)現(xiàn)仍以VGGNet為基礎(chǔ)。
目標(biāo)檢測(cè)過程中,用VGG網(wǎng)絡(luò)中的前13個(gè)卷積層(Conv)和前4個(gè)下采樣層(max pooling)提取圖像特征,見圖3所示。其中,4個(gè)下采樣層可以把13個(gè)卷積層分為5個(gè)卷積階段,每個(gè)階段中最后一個(gè)卷積層產(chǎn)生的特征圖表達(dá)能力最強(qiáng),且特征圖每經(jīng)過一次下采樣得到的特征圖的長(zhǎng)寬都會(huì)縮減為上一階段特征圖長(zhǎng)寬的1/2。若輸入到VGG網(wǎng)絡(luò)中的圖像長(zhǎng)寬為w×h,則經(jīng)過4次下采樣后所得特征圖的長(zhǎng)寬為(w/16)×(h/16)。VGG網(wǎng)絡(luò)中同一個(gè)階段的卷積層產(chǎn)生的特征圖間的差別小于不同階段的卷積層產(chǎn)生的特征圖間的差別,因此在VGG網(wǎng)絡(luò)中的特征圖加權(quán)融合是在網(wǎng)絡(luò)的不同階段間進(jìn)行的。由于VGG網(wǎng)絡(luò)產(chǎn)生的不同階段的特征圖大小不同,進(jìn)行特征圖加權(quán)融合時(shí)需要對(duì)淺層特征圖進(jìn)行采樣。本文對(duì)淺層特征圖進(jìn)行均值下采樣(average pooling),其原因有二:一是均值下采樣不僅能完成特征圖降維,還能更多地保留特征的完整性;二是最深層特征圖Conv13是由淺層特征圖經(jīng)過最大值下采樣等操作生成,此處用均值下采樣對(duì)淺層特征圖進(jìn)行降維變換,可實(shí)現(xiàn)對(duì)同一淺層特征圖進(jìn)行兩種不同方式的降維,從而使最終獲取的特征具有魯棒性。同時(shí),雖然淺層特征圖與最深層特征圖融合后有助于提高目標(biāo)檢測(cè)精度,但是兩者對(duì)提高目標(biāo)檢測(cè)精度所做的貢獻(xiàn)并不相同,因此為不同層次的特征圖設(shè)置不同的權(quán)重。根據(jù)上述特征圖加權(quán)融合思想,結(jié)合VGG網(wǎng)絡(luò)的具體結(jié)構(gòu)特點(diǎn),僅將VGG中第10層卷積層產(chǎn)生的特征圖Conv10與最深層特征圖Conv13進(jìn)行加權(quán)融合生成新特征圖。在生成新特征圖的過程中,用g表示特征圖Conv10,G表示降維后的特征圖Conv10,則特征圖Conv10的均值下采樣過程可表示為:
Gi=αifdown(gi)+βi
(1)
式中:Gi表示G中的第i個(gè)通道;gi表示g中的第i個(gè)通道;fdown(·)為下采樣函數(shù);αi表示乘性偏置;βi表示加性偏置。用Fnew表示所得新特征圖,g13表示特征圖Conv13,則特征圖融合可表示為:
(2)
圖3 VGG網(wǎng)絡(luò)特征圖加權(quán)融合Fig.3 The feature map fusion in VGGNet
得到新特征圖后,需要將新特征圖輸入到后續(xù)的RPN網(wǎng)絡(luò)中來獲取區(qū)域建議。為了進(jìn)一步提升目標(biāo)檢測(cè)方法的精度與速度,提出改進(jìn)的RPN網(wǎng)絡(luò):首先,增加RPN網(wǎng)絡(luò)中候選窗口的面積種類,即在卷積核3×3×512×512經(jīng)過的每一個(gè)位置處生成面積為{64×64,128×128,256×256,512×512}、長(zhǎng)寬比為{1:1,1:2,2:1}的12種候選窗口。因?yàn)殡m然傳統(tǒng)的RPN網(wǎng)絡(luò)會(huì)在卷積核3×3×512×512經(jīng)過的每一個(gè)位置處生成面積為{128×128,256×256,512×512}、長(zhǎng)寬比為{1:1,1:2,2:1}的9種候選窗口,但是通過增加候選窗口的面積種類,可以使一些待檢測(cè)目標(biāo)有更大的幾率被包含于候選窗口中,從而提高目標(biāo)檢測(cè)的精度。因此,在綜合考慮輸入圖像大小和候選窗口已有面積種類的情況下,增加了面積大小為64×64的候選窗口。其次,降低RPN網(wǎng)絡(luò)提取的特征維度,即將RPN網(wǎng)絡(luò)中的卷積核3×3×512×512用3×3×512×128替代。卷積核3×3×512×512在新特征圖的每個(gè)位置處除了生成候選窗口,還生成一個(gè)512-d(512維)向量,并將該向量用于后續(xù)計(jì)算。由于在RPN網(wǎng)絡(luò)中新特征圖與卷積核3×3×512×512進(jìn)行卷積后會(huì)生成近200個(gè)512-d向量,且每一個(gè)512-d向量維數(shù)較大,因此后續(xù)的處理過程計(jì)算量較大。為了減小RPN網(wǎng)絡(luò)中的計(jì)算量,提出使用卷積核3×3×512×128來降低提取的特征維度,如圖4所示。至此,理論上可以在目標(biāo)檢測(cè)過程中得到新特征圖和包含更多面積種類的區(qū)域建議。
圖4 改進(jìn)的RPN網(wǎng)絡(luò)Fig.4 Improved RPN network
本文所提目標(biāo)檢測(cè)方法本質(zhì)上是基于深度學(xué)習(xí)的有監(jiān)督學(xué)習(xí)方法,因此該方法中的各層網(wǎng)絡(luò)(VGG、RPN、ROI Pooling和Softmax等)均需要訓(xùn)練且訓(xùn)練過程是端到端的,故無論采用哪種數(shù)據(jù)集進(jìn)行目標(biāo)檢測(cè),都需要將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分。其中,訓(xùn)練集用于網(wǎng)絡(luò)各層的訓(xùn)練,訓(xùn)練所用時(shí)間的長(zhǎng)短與用于提取圖像特征的卷積神經(jīng)網(wǎng)絡(luò)和訓(xùn)練集中圖像的數(shù)量有關(guān)。卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)越多、結(jié)構(gòu)越復(fù)雜且訓(xùn)練集中的圖像越多時(shí)訓(xùn)練所用時(shí)間越長(zhǎng)。訓(xùn)練過程分為4個(gè)階段:
階段1:用在ImageNet上的預(yù)訓(xùn)練模型對(duì)所提目標(biāo)檢測(cè)方法中的網(wǎng)絡(luò)進(jìn)行初始化,并對(duì)改進(jìn)的RPN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初步確定改進(jìn)的RPN網(wǎng)絡(luò)的參數(shù);
階段2:使用階段1中訓(xùn)練的RPN網(wǎng)絡(luò)提取區(qū)域建議,對(duì)所提目標(biāo)檢測(cè)方法中的利用特征圖加權(quán)融合的VGG、ROI Pooling等進(jìn)行訓(xùn)練以初步確定參數(shù);
階段3:利用階段2訓(xùn)練的VGG、ROI Pooling等對(duì)階段1中RPN網(wǎng)絡(luò)的參數(shù)進(jìn)行微調(diào),得到微調(diào)后的RPN網(wǎng)絡(luò),在此過程中階段2訓(xùn)練的用于提取圖像特征的卷積層(VGG卷積層)的參數(shù)保持不變;
階段4:使用階段3中訓(xùn)練的RPN網(wǎng)絡(luò)提取的區(qū)域建議對(duì)階段2中訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào),同樣保持階段2訓(xùn)練的用于提取圖像特征的卷積層(VGG卷積層)的參數(shù)不變。至此得到一個(gè)完整的用于目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型。
測(cè)試集用于對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行測(cè)試,以獲取該網(wǎng)絡(luò)模型對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)的結(jié)果以及該網(wǎng)絡(luò)模型在相應(yīng)數(shù)據(jù)集上的目標(biāo)檢測(cè)精度。
實(shí)驗(yàn)硬件環(huán)境為CPU Intel Xeon(R) E5-2620 v4@2.10 GHz×16、內(nèi)存大小為62.8 GiB、顯卡型號(hào)NVINIA TITAN Xp以及顯存大小為3×12 189 MiB;軟件環(huán)境為Ubuntu14.0、CUDA-8.0、OpenCV-3.0、MATLAB R2014a、Python2.7和Caffe框架。實(shí)驗(yàn)所用的數(shù)據(jù)集有KITTI、PASCAL VOC2007和PASCAL VOC2012。其中,數(shù)據(jù)集KITTI中標(biāo)記出的目標(biāo)有truck、pedestrian、car、cyclist、tram等8種類別。除了用全部的KITTI數(shù)據(jù)集中的圖像進(jìn)行多類別目標(biāo)檢測(cè)實(shí)驗(yàn)外,還用Python程序從數(shù)據(jù)集KITTI中選取含有車輛目標(biāo)的6 798張圖像(記為數(shù)據(jù)集KITTI-1)進(jìn)行單類別目標(biāo)檢測(cè)實(shí)驗(yàn)。數(shù)據(jù)集PASCAL VOC2007和VOC2012中標(biāo)記出的目標(biāo)有aeroplane,bicycle,bird,boat,bottle,bus,car,cat,chair,dog等20種生活中常見的類別。
為了全面、合理地評(píng)估所提方法的目標(biāo)檢測(cè)效果,本文的實(shí)驗(yàn)主要分為兩部分進(jìn)行:第一部分是所提目標(biāo)檢測(cè)方法在各種情況下的實(shí)驗(yàn)結(jié)果及分析;第二部分是所提目標(biāo)檢測(cè)方法與已有目標(biāo)檢測(cè)方法的比較。實(shí)驗(yàn)過程中,確定淺層特征圖和最深層特征圖的權(quán)重分別為0.3和1(即μ=0.3,φ=1),并主要以目標(biāo)檢測(cè)的平均精度均值(mean average precision,mAP)、檢測(cè)一張圖像所用時(shí)間、精確率(precision)和召回率(recall)作為目標(biāo)檢測(cè)效果的衡量標(biāo)準(zhǔn)。其中,目標(biāo)檢測(cè)的mAP是多種類別目標(biāo)檢測(cè)精度(AP)的平均值,其值介于0~1且越大越好。精確率=(檢測(cè)出的正確的目標(biāo)總數(shù)/檢測(cè)出的目標(biāo)總數(shù))×100%,召回率=(檢測(cè)出的正確的目標(biāo)總數(shù)/Ground Truth中目標(biāo)總數(shù))×100%。
4.2.1 所提方法的實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證所提方法的可行性,對(duì)所提目標(biāo)檢測(cè)方法進(jìn)行了相關(guān)實(shí)驗(yàn)。圖5展示了所提目標(biāo)檢測(cè)方法對(duì)數(shù)據(jù)集KITTI中部分圖像進(jìn)行目標(biāo)檢測(cè)的結(jié)果。由圖5可知, 所提方法能夠準(zhǔn)確地對(duì)圖像中的目標(biāo)進(jìn)行準(zhǔn)確定位與分類。
為了充分地評(píng)估所提方法,對(duì)所提目標(biāo)檢測(cè)方法在不同的特征圖加權(quán)融合、不同的候選窗口數(shù)量以及RPN網(wǎng)絡(luò)提取不同維度特征時(shí)分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表1。常用于目標(biāo)檢測(cè)的數(shù)據(jù)集有KITTI,PASCAL VOC2007和PASCAL VOC2012,由于數(shù)據(jù)集KITTI場(chǎng)景復(fù)雜更具挑戰(zhàn)性,因此,實(shí)驗(yàn)在數(shù)據(jù)集KITTI上進(jìn)行多類別目標(biāo)檢測(cè),在數(shù)據(jù)集KITTI-1上進(jìn)行單類別目標(biāo)檢測(cè)來評(píng)估所提方法。其中,在數(shù)據(jù)集KITTI上檢測(cè)的目標(biāo)類別有8種:cyclist,van,tram,car,misc,pedestrian,truck,person_sitting,表1中展示的在數(shù)據(jù)集KITTI上的目標(biāo)檢測(cè)精度均是這8種類別目標(biāo)檢測(cè)精度的mAP。為了評(píng)估所提方法只檢測(cè)一種類別目標(biāo)時(shí)的效果,實(shí)驗(yàn)過程中選取數(shù)據(jù)集KITTI中目標(biāo)總數(shù)最多的“car”類作為檢測(cè)類別,因此在數(shù)據(jù)集KITTI-1上檢測(cè)的目標(biāo)類別只有1種:car,且表1中展示的在數(shù)據(jù)集KITTI-1上的平均檢測(cè)精度也是car這一種目標(biāo)本身的檢測(cè)精度(AP)。
圖5 所提目標(biāo)檢測(cè)方法的檢測(cè)結(jié)果Fig.5 The results of the proposed object detection method
表1 不同情況下的目標(biāo)檢測(cè)方法在數(shù)據(jù)集KITTI上的目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果Tab.1 Object detection experiment results on dataset KITTI in different situations
由表1可知,當(dāng)目標(biāo)檢測(cè)方法采用特征圖加權(quán)融合時(shí),通過比較第1、2兩種情況可知,目標(biāo)檢測(cè)方法的檢測(cè)精度明顯提高了且在兩種數(shù)據(jù)集上分別提高2.22%和5.89%,從而驗(yàn)證了特征圖加權(quán)融合的可行性;當(dāng)目標(biāo)檢測(cè)方法未采用特征圖加權(quán)融合時(shí),通過比較表1中第1、3兩種情況可知,候選窗口數(shù)增加后,目標(biāo)檢測(cè)方法的檢測(cè)精度明顯提高,且在兩種數(shù)據(jù)集上分別提高了2.76%和6.2%;同時(shí)當(dāng)目標(biāo)檢測(cè)方法采用特征圖加權(quán)融合時(shí),通過比較表1中第2、4兩種情況可知,候選窗口數(shù)增加后,目標(biāo)檢測(cè)方法的檢測(cè)精度也明顯提高,且在兩種數(shù)據(jù)集上分別提高了2.18%和1.63%,由此驗(yàn)證了增加候選窗口面積種類的可行性;當(dāng)目標(biāo)檢測(cè)方法采用特征圖加權(quán)融合且在候選窗口數(shù)為12時(shí),通過比較表1中第4、5兩種情況可知,降低RPN網(wǎng)絡(luò)提取的特征維度并沒有對(duì)目標(biāo)檢測(cè)精度有明顯的影響,從而驗(yàn)證了降低RPN網(wǎng)絡(luò)提取特征維度的可行性。綜上可知,本文所提的目標(biāo)檢測(cè)方法具有可行性。
為了驗(yàn)證進(jìn)行特征圖加權(quán)融合和改進(jìn)RPN網(wǎng)絡(luò)在提高目標(biāo)檢測(cè)精度的同時(shí)并沒有降低目標(biāo)檢測(cè)的速度,本文以表1中第1、2、4和5四種情況下的目標(biāo)檢測(cè)速度為例,展示了在數(shù)據(jù)集KITTI上需要檢測(cè)8種類別目標(biāo)時(shí)檢測(cè)完成一張圖像所用的平均時(shí)間,和在數(shù)據(jù)集KITTI-1上只檢測(cè)一種類別目標(biāo)時(shí)檢測(cè)完成一張圖像所用的平均時(shí)間,具體如表2所示。通過對(duì)比分析表2中的數(shù)據(jù)可知,與未進(jìn)行特征圖加權(quán)融合和未改進(jìn)RPN網(wǎng)絡(luò)的情況相比,進(jìn)行特征圖加權(quán)融合和增加候選窗口面積種類的目標(biāo)檢測(cè)方法檢測(cè)圖像的速度幾乎沒有變化,但在降低RPN網(wǎng)絡(luò)提取的特征維度后,目標(biāo)的檢測(cè)速度有所提高,這進(jìn)一步驗(yàn)證了本文所提目標(biāo)檢測(cè)方法的可行性。
表2 目標(biāo)檢測(cè)方法在不同情況下檢測(cè)一張圖像所用的平均時(shí)間Tab.2 The average time of object detection method to detect an image in different situations ms
為了清楚地展現(xiàn)本文所提目標(biāo)檢測(cè)方法在目標(biāo)檢測(cè)過程中精確率和召回率的變化情況,圖6給出了表1中第1種情況和第5種情況下,目標(biāo)檢測(cè)方法在數(shù)據(jù)集KITTI-1上進(jìn)行單類別目標(biāo)檢測(cè)時(shí)的精確率和召回率的變化情況。
4.2.2 所提方法與已有方法的比較
由于已有的目標(biāo)檢測(cè)方法主要基于數(shù)據(jù)集PASCAL VOC2007和PASCAL VOC2012進(jìn)行實(shí)驗(yàn),為了便于比較,本文方法也基于數(shù)據(jù)集PASCAL VOC2007和PASCAL VOC2012進(jìn)行了實(shí)驗(yàn)。表3中給出了文獻(xiàn)[13,14,15,16]中4種不同的目標(biāo)檢測(cè)方法和本文所提方法在數(shù)據(jù)集PASCAL VOC2007上的目標(biāo)檢測(cè)結(jié)果,以及文獻(xiàn)[15,16,17,18]中4種不同的目標(biāo)檢測(cè)方法和本文所提方法在數(shù)據(jù)集PASCAL VOC2007+2012上的目標(biāo)檢測(cè)結(jié)果。
圖6 不同情況下目標(biāo)檢測(cè)方法的精確率-召回率Fig.6 The precision and recall of the object detection method in different situations
通過對(duì)表3中的數(shù)據(jù)進(jìn)行比較分析可知,在數(shù)據(jù)集PASCAL VOC2007上,本文所提方法的目標(biāo)檢測(cè)精度高于文獻(xiàn)[13,14,15,16]中方法的目標(biāo)檢測(cè)精度。在數(shù)據(jù)集PASCAL VOC2007+2012上,本文所提方法的目標(biāo)檢測(cè)精度高于文獻(xiàn)[15,16,17,18]中方法的目標(biāo)檢測(cè)精度。由此可知,與已有方法相比,本文所提方法的性能較好、精度較高,進(jìn)一步驗(yàn)證了本文所提方法的可行性和有效性。
表3給出實(shí)驗(yàn)結(jié)果均是數(shù)據(jù)集PASCAL VOC2007和VOC2012上多種類別目標(biāo)檢測(cè)精度的平均值。為了更充分地驗(yàn)證所提方法的有效性,本文將所提方法在數(shù)據(jù)集PASCAL VOC2007和VOC2012上的每種類別目標(biāo)的檢測(cè)精度與其它方法在相同數(shù)據(jù)集上的每種類別目標(biāo)的檢測(cè)精度進(jìn)行了比較分析。圖7給出了從文獻(xiàn)[13~16]中選擇出檢測(cè)精度較高的3種目標(biāo)檢測(cè)方法與本文所提方法進(jìn)行單類別目標(biāo)檢測(cè)精度比較。其中,圖7中所示的4種方法均是在數(shù)據(jù)集VOC2007和VOC2012的訓(xùn)練集上進(jìn)行訓(xùn)練,在數(shù)據(jù)集VOC2007的測(cè)試集上進(jìn)行測(cè)試。
表3 所提方法和其他目標(biāo)檢測(cè)方法的比較Tab.3 The comparison of proposed method and other methods
圖7 所提方法與其它方法針對(duì)不同類別 目標(biāo)的檢測(cè)精度比較Fig.7 Comparison between proposed method and other methods for different types of objects
由圖7可知,在數(shù)據(jù)集VOC2007和VOC2012上,本文所提方法對(duì)大多數(shù)類別的檢測(cè)精度明顯高于文獻(xiàn)[15,17]方法的檢測(cè)精度;而將本文所提方法與文獻(xiàn)[16]方法進(jìn)行比較時(shí)發(fā)現(xiàn),兩種方法在某些類別上的檢測(cè)精度雖然相接近,但是所提方法在多數(shù)類別上的檢測(cè)精度高于文獻(xiàn)[16]方法,且在“bird”和“bottle”等部分類別上的檢測(cè)精度明顯高于文獻(xiàn)[16]方法,從而驗(yàn)證了所提方法的有效性。為了進(jìn)一步驗(yàn)證所提方法的目標(biāo)檢測(cè)精度高于文獻(xiàn)[16]方法,本文將兩種方法分別在數(shù)據(jù)集KITTI和KITTI-1上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。
由表4數(shù)據(jù)可知,無論是在KITTI上進(jìn)行8種類別的目標(biāo)檢測(cè),還是在KITTI-1上進(jìn)行1種類別的目標(biāo)檢測(cè),本文所提方法的目標(biāo)檢測(cè)精度均明顯高于文獻(xiàn)[16]方法,從而驗(yàn)證了所提方法的目標(biāo)檢測(cè)精度更高,也驗(yàn)證了其有效性。
表4 本文方法和文獻(xiàn)[16]方法的比較Tab.4 The comparison of proposed method and literature [16] method on dataset KITTI (%)
提出一種基于深度學(xué)習(xí)利用特征圖加權(quán)融合實(shí)現(xiàn)目標(biāo)檢測(cè)的方法。主要貢獻(xiàn):(1) 根據(jù)卷積神經(jīng)網(wǎng)絡(luò)提取的不同層次特征圖的特點(diǎn),提出將卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的淺層特征圖采樣后與最深層特征圖進(jìn)行加權(quán)融合的思想,該思想不僅為如何更充分地利用卷積神經(jīng)網(wǎng)絡(luò)提取的各層次特征提供了一種思路,而且具有普適性。(2) 根據(jù)特征圖加權(quán)融合思想提出VGG網(wǎng)絡(luò)進(jìn)行特征圖加權(quán)融合的具體方法,并將所提方法用于目標(biāo)檢測(cè)任務(wù)。與其他目標(biāo)檢測(cè)方法相比,本文方法所提取的新特征圖包含更多的細(xì)節(jié)特征,所以目標(biāo)檢測(cè)精度較高;尤其是在復(fù)雜場(chǎng)景中檢測(cè)精度的提高較為明顯,有利于更好地完成相應(yīng)的視覺任務(wù)。(3) 為了更好地利用由特征圖加權(quán)融合方法得到的新特征圖中含有的細(xì)節(jié)性特征,對(duì)RPN網(wǎng)絡(luò)進(jìn)行了改進(jìn)。與使用原始RPN網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法相比,使用改進(jìn)RPN網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法精度更高、效果更好。