吳正平,張程鵬,雷幫軍*,趙俊臣
(1. 三峽大學(xué)計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443002;2. 三峽大學(xué)水電工程視覺(jué)監(jiān)測(cè)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443002)
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,目標(biāo)檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用到了智能交通、智慧醫(yī)療等領(lǐng)域。小目標(biāo)檢測(cè)作為目標(biāo)檢測(cè)領(lǐng)域中的一個(gè)難點(diǎn),已經(jīng)成為了研究的熱點(diǎn)方向。計(jì)算機(jī)視覺(jué)領(lǐng)域通常使用兩種方式來(lái)定義小目標(biāo):根據(jù)相對(duì)尺寸進(jìn)行定義和根據(jù)絕對(duì)尺寸進(jìn)行定義。根據(jù)相對(duì)尺寸進(jìn)行定義時(shí)將小目標(biāo)定義為在256×256的圖像中目標(biāo)面積小于80像素的目標(biāo),即目標(biāo)面積小于圖像面積的0.12%。根據(jù)絕對(duì)尺寸進(jìn)行定義時(shí),以COCO數(shù)據(jù)集為例,尺寸小于32×32像素的目標(biāo)即為小目標(biāo)。當(dāng)前,小目標(biāo)檢測(cè)面臨的挑戰(zhàn)[1]主要有:1)可利用特征少,低分辨率的小目標(biāo)可視化信息少,難以提取到重要特征;2)定位精度要求高,小目標(biāo)由于尺寸小,在預(yù)測(cè)過(guò)程中,預(yù)測(cè)框偏移一個(gè)像素點(diǎn),與目標(biāo)框的IOU(Intersection over union)就會(huì)出現(xiàn)大的變化;3)數(shù)據(jù)集中小目標(biāo)占比少,小目標(biāo)在圖像中分布不均勻;由于這些問(wèn)題的存在,小目標(biāo)檢測(cè)仍然是一個(gè)具有挑戰(zhàn)的課題。
近年來(lái)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法在復(fù)雜基準(zhǔn)數(shù)據(jù)集(例如PASCAL VOC和COCO)上的對(duì)象識(shí)別準(zhǔn)確率取得了巨大的進(jìn)步?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法[2]主要分為兩種不同的解決方式:1)兩階段目標(biāo)檢測(cè)算法;2)單階段目標(biāo)檢測(cè)算法。兩階段目標(biāo)檢測(cè)算法將目標(biāo)檢測(cè)分為檢測(cè)與識(shí)別兩個(gè)階段,第一階段基于目標(biāo)候選框檢測(cè)目標(biāo),第二階段通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。而基于回歸的端到端實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù)的一體化卷積網(wǎng)絡(luò)就稱(chēng)為單階段目標(biāo)檢測(cè)算法。兩階段目標(biāo)檢測(cè)算法,以區(qū)域建議網(wǎng)絡(luò)R-CNN[3]算法為代表,逐步衍生出了Fast R-CNN[4]、Faster R-CNN[5]算法,檢測(cè)精度得到大幅度提升,但因網(wǎng)絡(luò)參數(shù)量較大,導(dǎo)致檢測(cè)速度較慢。單階段目標(biāo)檢測(cè)算法,以YOLO[6]、YOLO V2[7]、YOLO V3[8]、YOLO V4[9]、SSD[10]系列算法為代表,相比于兩階段目標(biāo)檢測(cè)算法,單階段目標(biāo)檢測(cè)算法在檢測(cè)精度上雖然有所降低,但在檢測(cè)速度上得到了一定幅度的提升,使得實(shí)時(shí)檢測(cè)成為了可能。
針對(duì)小目標(biāo)檢測(cè)中目標(biāo)體積小,背景雜亂等挑戰(zhàn),Li等人[11]提出使用生成對(duì)抗網(wǎng)絡(luò)(Perceptual GAN)來(lái)減少小目標(biāo)和大目標(biāo)在特征表示上的差距,其中生成器生成小目標(biāo)的超分表達(dá),判別器能從生成的超分圖形中的檢測(cè)獲益量來(lái)計(jì)算損失值,然后交替地執(zhí)行生成器和判別器網(wǎng)絡(luò)對(duì)抗分枝的訓(xùn)練過(guò)程,利用大小目標(biāo)的結(jié)構(gòu)相關(guān)性來(lái)增強(qiáng)小目標(biāo)的表達(dá),使其與對(duì)應(yīng)大目標(biāo)的表達(dá)相似,從而提高小目標(biāo)檢測(cè)性能。為了進(jìn)一步改進(jìn)小目標(biāo)的特征表示,Lee等人[12]提出特征級(jí)超分辨率方法,在基本檢測(cè)模型的基礎(chǔ)上,引入了四個(gè)附加組件:SR特征發(fā)生器和鑒別器、SR目標(biāo)提取器和小預(yù)測(cè)器。SR特征發(fā)生器作為一種基于GAN[13]的模型,利用SR目標(biāo)提取器的特征作為目標(biāo),在SR特征鑒別器的引導(dǎo)下產(chǎn)生高分辨率的特征。
本文模型針對(duì)小目標(biāo)檢測(cè)難點(diǎn)所做的工作可總結(jié)為三點(diǎn):一是在ResNet-FPN特征提取模塊中使用密集連接思想改進(jìn)ResNet[14],在FPN[15]中使用特征拼接替換特征融合,同時(shí),在數(shù)據(jù)輸入時(shí)采用Overlapping Patches方式,緩解了小目標(biāo)特征丟失的問(wèn)題;二是在特征提取模塊的輸出中引入通道注意力和像素注意力模塊,緩解了難以提取重要特征,定位不準(zhǔn)的問(wèn)題;三是在數(shù)據(jù)預(yù)處理時(shí)使用Copy-paste[16]數(shù)據(jù)增強(qiáng)方式緩解了數(shù)據(jù)集小目標(biāo)占比少,小目標(biāo)在圖像中分布不均勻的問(wèn)題。通過(guò)在RetinaNet[17]算法的基礎(chǔ)上進(jìn)行以上三點(diǎn)改進(jìn),有效改善了原始RetinaNet算法中存在的不足。
RetinaNet目標(biāo)檢測(cè)算法是2017由 He提出的一種one-stage深度學(xué)習(xí)目標(biāo)檢測(cè)算法。標(biāo)準(zhǔn)的RetinaNet目標(biāo)檢測(cè)算法體系結(jié)構(gòu)由4個(gè)主要部分組成:a)骨干網(wǎng)絡(luò)基于ResNet網(wǎng)絡(luò)模型,用于從輸入圖像中提取特征;b)特征金字塔網(wǎng)絡(luò)(FPN),以金字塔形式構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),用于結(jié)合網(wǎng)絡(luò)上下兩層特征圖的優(yōu)點(diǎn);c)分類(lèi)子網(wǎng),它從FPN中提取有關(guān)對(duì)象類(lèi)別信息,從而解決分類(lèi)問(wèn)題;d)回歸子網(wǎng),它從FPN中提取有關(guān)圖像中對(duì)象坐標(biāo)的信息,從而解決回歸問(wèn)題。標(biāo)準(zhǔn)的RetinaNet目標(biāo)檢測(cè)算法總體架構(gòu)如圖1,架構(gòu)細(xì)節(jié)如圖2。
圖1 標(biāo)準(zhǔn)的RetinaNet目標(biāo)檢測(cè)算法總體架構(gòu)
圖2 標(biāo)準(zhǔn)的RetinaNet目標(biāo)檢測(cè)算法架構(gòu)細(xì)節(jié)
本文在RetinaNet目標(biāo)檢測(cè)模型基礎(chǔ)上,結(jié)合DenseNet[18]網(wǎng)絡(luò)模型密集連接的思想和特征拼接思想改進(jìn)了ResNet-FPN特征提取模塊,同時(shí)為了保證檢測(cè)精度,引入通道注意力和像素注意力機(jī)制模塊,提出了新的RFA-RetinaNet(ResNet-FPN*-Attention-RetinaNet)模型用于交通目標(biāo)檢測(cè),可以有效的檢測(cè)出圖像中的小目標(biāo)。本文模型總體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,架構(gòu)細(xì)節(jié)如圖4所示。
圖3 RFA-RetinaNet模型總體網(wǎng)絡(luò)結(jié)構(gòu)
圖4 RFA-RetinaNet模型架構(gòu)細(xì)節(jié)
在網(wǎng)絡(luò)的特征提取階段,采用Resnet50網(wǎng)絡(luò)。然而,在本文收集的交通數(shù)據(jù)集中摩托車(chē)的尺寸極小(圖像尺寸的0.02%-0.07%),通過(guò)利用整張圖像去獲得良好的辨別特征非常困難。
標(biāo)準(zhǔn)的Resnet50網(wǎng)絡(luò)輸入圖像大小固定(473×473)。因此,將圖像從高分辨率圖像調(diào)整到低分辨率圖像(1080×1920到473×473),會(huì)進(jìn)一步的將小目標(biāo)的空間分辨率壓縮。隨著網(wǎng)絡(luò)的加深,提取到的特征圖中失去小目標(biāo)的特征信息,導(dǎo)致小目標(biāo)的漏檢。為了解決這個(gè)問(wèn)題,本文創(chuàng)新地采用了兩種預(yù)處理方法:1)對(duì)小目標(biāo)使用隨機(jī)粘貼方式進(jìn)行數(shù)據(jù)增廣;2)為了避免調(diào)整圖像大小,將每張圖像分成四個(gè)相互重疊的區(qū)域。
圖5 隨機(jī)粘貼數(shù)據(jù)增廣
圖6 將一張圖像分割成四張相互重疊圖像
在ResNet網(wǎng)絡(luò)中通過(guò)一系列下采樣得到的特征圖有{C2,C3,C4,C5},對(duì)應(yīng)步長(zhǎng)分別為{4,8,16,32}。C2層下采樣倍數(shù)最小,包含信息最多,為了減少小目標(biāo)特征的丟失,將C2層與C3層,C4層,C5層進(jìn)行密集連接。從而可以將更多可辨識(shí)小目標(biāo)的特征納入訓(xùn)練與檢測(cè),利用更多特征檢測(cè)小目標(biāo)。改進(jìn)后的結(jié)構(gòu)如圖7。
圖7 改進(jìn)后的ResNet網(wǎng)絡(luò)結(jié)構(gòu)
特征金字塔(FPN)不同層級(jí)的特征之間存在語(yǔ)義差異,為了兼顧機(jī)器計(jì)算能力,很多網(wǎng)絡(luò)在設(shè)計(jì)上,底層特征的通道數(shù)較少,特征尺度大,包含的語(yǔ)義信息不夠豐富[19],往往只得到一些底層信息(如邊緣);
相反,高層特征,由于經(jīng)過(guò)較多卷積層,通道數(shù)往往會(huì)比較大,包含較多的語(yǔ)義信息。在將相鄰兩個(gè)尺度的特征融合時(shí),F(xiàn)PN首先將高層特征經(jīng)過(guò)1×1卷積進(jìn)行降維,從而使得它和下面一層特征有同樣的通道數(shù),然后通過(guò)2倍上采樣進(jìn)行尺度上的適配,最終使得兩個(gè)特征層的shape完全相同,直接相加進(jìn)行特征融合。這種特征融合方式存在的問(wèn)題是,高層特征和底層特征進(jìn)行適配的過(guò)程中,高層特征經(jīng)過(guò)一個(gè)1×1的卷積減少通道數(shù),通道數(shù)的減少顯然會(huì)損失信息。為了避免因?yàn)闇p少通道數(shù)而丟失信息,在對(duì)相鄰兩層特征進(jìn)行融合時(shí),只對(duì)高層特征上采樣進(jìn)行尺度上的適配,保持原來(lái)的通道數(shù)不變,然后對(duì)得到的特征進(jìn)行拼接[20],最大限度保留高層特征的語(yǔ)義信息。特征拼接過(guò)程如圖8。
圖8 改進(jìn)后的FPN特征拼接過(guò)程
為了證明改進(jìn)后的FPN特征拼接過(guò)程的有效性,在不改變RetinaNet其它結(jié)構(gòu)的情況下對(duì)兩種方式進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖9所示。圖中p3代表原始FPN網(wǎng)絡(luò)中的最底層特征圖,p3*代表使用本文特征融合方式的FPN網(wǎng)絡(luò)的最底層特征圖。由圖9可以看出隨著目標(biāo)尺寸的減小,即使是在最底層特征圖上的檢測(cè)效果也不理想,但是在采用本文所用方式后小目標(biāo)的檢測(cè)效果有所提升。
圖9 兩種特征融合方式效果對(duì)比
通過(guò)RetinaNet在VOC數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)繪制圖10,小尺寸目標(biāo)只能在特征金字塔的底層特征圖(P3層、P4層)上被檢測(cè)出來(lái)。Hu 等人[21]證明了增加小目標(biāo)周?chē)纳舷挛男畔⒖梢杂行У奶岣呔W(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)率。因此,為了提升對(duì)小目標(biāo)的檢測(cè)效果,同時(shí)減少計(jì)算量,受Hu等人啟發(fā),本文模型在特征金字塔的P3層、P4層引入注意力模塊。
圖10 FPN各層次中的目標(biāo)尺寸
整個(gè)注意力模塊由通道注意力(Channel Attention)和像素注意力模塊(Pixel Attention)組成。
通道注意力機(jī)制模塊對(duì)輸入的特征圖進(jìn)行全局平均池化,再分別采用ReLU激活函數(shù)和Sigmoid激活函數(shù),進(jìn)行兩次全連接。通過(guò)調(diào)整通道的權(quán)重,達(dá)到選擇更具有價(jià)值的特征信息的目的。通道注意力實(shí)現(xiàn)如圖12(a)所示。通道注意力模塊中全局平均池化公式如式(1)所示
(1)
式中,Xc(i,j)表示第c個(gè)通道在(i,j)位置的值;Hp為全局平均池化函數(shù);Fc為輸入特征圖,大小為W×H×C,gc為全局平均池化之后的注意力矩陣,大小為1×1×C。最終輸出為
(2)
圖11 注意力機(jī)制模塊
(3)
(4)
在本節(jié)中,分別介紹實(shí)驗(yàn)數(shù)據(jù)集和度量指標(biāo),對(duì)改進(jìn)的RetinaNet目標(biāo)檢測(cè)網(wǎng)絡(luò)性能進(jìn)行驗(yàn)證。
實(shí)驗(yàn)條件:Ubuntu 18.04操作系統(tǒng),內(nèi)存(RAM)為16GB,處理器(CPU)為Intel Core i7-4770 @ 3.40GHz八核,顯卡(GPU)型號(hào)為NVIDIA GeForce GTX 1660,顯存6GB。
深度學(xué)習(xí)開(kāi)發(fā)環(huán)境為:JetBrains PyCharm Community Edition 2017.2.4 x64,Python 3.6.13,Cuda 10.2,cuDNN 7.6.5,Pytorch 1.2.0。
本實(shí)驗(yàn)在采集的交通數(shù)據(jù)集和VOC數(shù)據(jù)集上進(jìn)行。
交通數(shù)據(jù)集原始數(shù)據(jù)在湖北省宜昌市多個(gè)車(chē)輛通行較為密集的交通路口使用無(wú)人機(jī)采集,原始圖片大小為1080×1920像素。本文實(shí)驗(yàn)采用其中1180張圖片,檢測(cè)目標(biāo)設(shè)定為小車(chē)(car)、公交(car)和摩托車(chē)(motorcycle)三類(lèi)。包含目標(biāo)總數(shù)為40515,其中標(biāo)簽car的數(shù)量為37120,標(biāo)簽bus的數(shù)量為2910,標(biāo)簽motorcycle的數(shù)量為485。主要使用AP和mAP對(duì)模型進(jìn)行評(píng)估。
圖12 兩種注意力機(jī)制
1)表1給出了原始基線RetinaNet網(wǎng)絡(luò),改進(jìn)的Resnet50-FPN*-RetinaNet,Resnet50-FPN-Attention-RetinaNet和RFA-RetinaNet網(wǎng)絡(luò)在采集的交通數(shù)據(jù)集上的目標(biāo)檢測(cè)結(jié)果。詳細(xì)比較了各個(gè)網(wǎng)絡(luò)的性能。對(duì)于實(shí)驗(yàn)數(shù)據(jù)的具體分析如下:
(a)由表1,Resnet50-FPN*-RetinaNet
在采集的交通數(shù)據(jù)集上的目標(biāo)檢測(cè)平均精度均值(mAP)為95.87%,比基線網(wǎng)絡(luò)RetinaNet提升了0.59%。
Resnet50-FPN*-RetinaNet對(duì)基線網(wǎng)絡(luò)RetinaNet的特征提取模塊Resnet-FPN做出了改進(jìn),將Resnet50網(wǎng)絡(luò)C2層與C3層,C4層,C5層進(jìn)行密集連接,同時(shí)在FPN網(wǎng)絡(luò)中用特征拼接代替特征融合。該實(shí)驗(yàn)數(shù)據(jù)證實(shí):改進(jìn)的Resnet50-FPN*特征提取網(wǎng)絡(luò)減少了目標(biāo)信息丟失,可以提高目標(biāo)檢測(cè)精度。
(b)由表1,RFA-RetinaNet在Resnet50-FPN*-RetinaNet網(wǎng)絡(luò)的基礎(chǔ)上嵌入了注意力機(jī)制模塊,可以加強(qiáng)對(duì)小目標(biāo)特征的提取。
RFA-RetinaNet在采集的交通數(shù)據(jù)集上的目標(biāo)檢測(cè)平均精度均值(mAP)為97.38%,比Resnet50-FPN*-RetinaNet提升了1.51%。
(c)由表1,RFA-RetinaNet在采集的交通數(shù)據(jù)集上,針對(duì)小目標(biāo)(motorcycle)檢測(cè)的AP值為93.07%,比基線RetinaNet網(wǎng)絡(luò)提升了4.52%。比Resnet50-FPN*-RetinaNet網(wǎng)絡(luò)提升了3.12%。
上述實(shí)驗(yàn)結(jié)果表明:本文網(wǎng)絡(luò)設(shè)計(jì)中增加的注意力機(jī)制模塊可以學(xué)習(xí)到通道之間的相關(guān)性和像素之間的相關(guān)性,篩選出針對(duì)通道和像素的注意力,雖稍微增加了一些參數(shù)量,但并不影響檢測(cè)實(shí)時(shí)性,且獲得了相對(duì)最高的檢測(cè)精度。
表1 四種模型的對(duì)比結(jié)果
2)在VOC2007測(cè)試集上,實(shí)驗(yàn)主要是將RFA-RetinaNet目標(biāo)檢測(cè)算法(主干網(wǎng)絡(luò)為 ResNet50)的各個(gè)類(lèi)別的AP值與原始RetinaNet算法作對(duì)比,具體結(jié)果如圖14所示。從圖可以看出RFA-RetinaNet算法的大多數(shù)類(lèi)別的平均精度高于原始RetinaNet算法,特別是bird、bottle、pottedplant等小目標(biāo)的AP值提升明顯,分別提高了3.6%、2.2%和3.1%。但是boat、bus、sofa的AP值較低于原始RetinaNet算法,其原因在于 VOC 訓(xùn)練集圖片數(shù)量較少,隨著網(wǎng)絡(luò)層數(shù)的加深,參數(shù)量的增加,算法的訓(xùn)練效果稍低,測(cè)試集中含有重疊目標(biāo)的圖片不易進(jìn)行檢測(cè)。圖15是RFA-RetinaNet和RetinaNet的可視化檢測(cè)結(jié)果對(duì)比。共五組,通過(guò)對(duì)比可以發(fā)現(xiàn),改進(jìn)型RetinaNet能夠檢測(cè)出更多的小目標(biāo),如(a)組和(c)組中的boat盡管存在陰影、光照不足等問(wèn)題RFA-RetinaNet仍然能夠檢測(cè)出來(lái)。(b)組中尺寸極小的car,(d)組和(e)組中目標(biāo)間存在相互遮擋的sheep和bird,RFA-RetinaNet都被檢測(cè)出來(lái)。
圖13 RFA-RetinaNet模型檢測(cè)結(jié)果
圖14 改進(jìn)型RetinaNet算法與基線模型在PASCAL VOC test 2007 上20 類(lèi)目標(biāo)的比較
圖15 兩種算法的可視化對(duì)比RetinaNet(top),Ours(bottom)
可見(jiàn),本文設(shè)計(jì)的網(wǎng)絡(luò)模型在輕微程度遮擋(圖14(d)和圖14(e))、陰影、光照不足(圖14(a)和圖14(c))等情況下對(duì)小目標(biāo)均有較好的檢測(cè)效果。因而,本文提出的模型更適用于多種復(fù)雜場(chǎng)景中小目標(biāo)檢測(cè)。
3)本組實(shí)驗(yàn)以基于ResNet50-FPN*特征提取網(wǎng)絡(luò)的Resnet50-FPN*-RetinaNet目標(biāo)檢測(cè)模型為基線模型,分別在FPN*的不同輸出層引入注意力模塊,在采集的交通數(shù)據(jù)上進(jìn)行小目標(biāo)(motorcycle)檢測(cè)效果對(duì)比。對(duì)實(shí)驗(yàn)結(jié)果的影響如表2所示。
雖然在FPN*網(wǎng)絡(luò)高層的特征語(yǔ)義信息更為精細(xì),但隨著網(wǎng)絡(luò)逐層升高,圖像中小目標(biāo)的特征語(yǔ)義信息被逐漸淡化。相反FPN*網(wǎng)絡(luò)低層小目標(biāo)的特征語(yǔ)義信息豐富,在低層引入注意力機(jī)制模塊可以將注意力集中在感興趣的特征信息上,對(duì)提高小目標(biāo)檢測(cè)準(zhǔn)確率有積極作用。
從表2可以看出,在FPN*網(wǎng)絡(luò)的不同輸出層引入注意力機(jī)制模塊,對(duì)小目標(biāo)檢測(cè)的AP也不同。在P3,P4,P5,P6,P7五個(gè)輸出層上全部引入注意力模塊,小目標(biāo)檢測(cè)的AP反而最低,當(dāng)只在低層引入注意力機(jī)制模塊而不在高層引入時(shí),針對(duì)小目標(biāo)檢測(cè)的AP逐漸升高,當(dāng)在P3,P4分別引入注意力機(jī)制模塊時(shí),針對(duì)小目標(biāo)檢測(cè)的AP達(dá)到最高。
表2 FPN*不同輸出層引入注意力機(jī)制對(duì)實(shí)驗(yàn)結(jié)果的影響
針對(duì)交通車(chē)輛檢測(cè)中小目標(biāo)檢測(cè)問(wèn)題,將RetinaNet目標(biāo)檢測(cè)算法作為基礎(chǔ)檢測(cè)算法,提出了新的RFA-RetinaNet目標(biāo)檢測(cè)模型,制作了新的交通檢測(cè)數(shù)據(jù)集。
本文為了解決高空交通數(shù)據(jù)集中圖像分辨率高,小目標(biāo)(motorcycle)尺寸小、數(shù)量少的問(wèn)題,為基線RetinaNet目標(biāo)檢測(cè)模型引入了新的數(shù)據(jù)增強(qiáng)方式,首先使用Copy-paste方式擴(kuò)充小目標(biāo)數(shù)量,然后通過(guò)Overlapping-patches切割高分辨率圖像,減少小目標(biāo)信息丟失。
在網(wǎng)絡(luò)結(jié)構(gòu)方面,通過(guò)對(duì)ResNet輸出模塊之間的密集連接,使得C2層豐富的語(yǔ)義信息更加高效的向后傳遞。在FPN模塊引入特征拼接,充分融合了金字塔模塊相鄰兩層之間的語(yǔ)義信息。進(jìn)一步在FPN的P3、P4層引入注意力機(jī)制模塊,優(yōu)化檢測(cè)網(wǎng)絡(luò)。
檢測(cè)實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型在構(gòu)造的交通數(shù)據(jù)集上,針對(duì)car、bus和motorcycle分別取得了99.48%,99.60%和93.7%的AP值。說(shuō)明了,該目標(biāo)檢測(cè)模型對(duì)交通場(chǎng)景中的小目標(biāo)具有較好的檢測(cè)效果,其可以在實(shí)際應(yīng)用中準(zhǔn)確識(shí)別、分類(lèi)和定位小目標(biāo)。
目前本實(shí)驗(yàn)只針對(duì)car、bus和motor-cycle三類(lèi)交通場(chǎng)景中的目標(biāo)進(jìn)行檢測(cè),后續(xù)考慮增加檢測(cè)目標(biāo)的種類(lèi),統(tǒng)計(jì)數(shù)據(jù)集中的大小目標(biāo)檢測(cè)情況。本文模型在FPN的低層輸出引入注意力機(jī)制,忽略了高層的語(yǔ)義信息,后續(xù)考慮融入高層語(yǔ)義信息,繼續(xù)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,以尋求更好的網(wǎng)絡(luò)模型。