琚長(zhǎng)瑞 袁廣林 秦曉燕 李 豪
(中國(guó)人民解放軍陸軍炮兵防空兵學(xué)院計(jì)算機(jī)教研室 合肥 230031)
目標(biāo)檢測(cè)[1~6]是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要研究方向,主要包含目標(biāo)的識(shí)別與定位兩個(gè)任務(wù),最終目的是對(duì)圖像中感興趣的實(shí)例進(jìn)行分類并給出其位置邊界框。小目標(biāo)由于包含信息較少、數(shù)據(jù)集中存在的數(shù)量較低等因素,導(dǎo)致小目標(biāo)檢測(cè)一直是目標(biāo)檢測(cè)領(lǐng)域的難點(diǎn)、熱點(diǎn)[7]問(wèn)題。目前,對(duì)小目標(biāo)檢測(cè)問(wèn)題的研究主要有兩類方法。
第一種是數(shù)據(jù)增強(qiáng)的方法。2019年Kisantal[8]等針對(duì)小目標(biāo)檢測(cè)問(wèn)題提出一種簡(jiǎn)單、直接的數(shù)據(jù)增強(qiáng)方法,對(duì)數(shù)據(jù)集中小目標(biāo)進(jìn)行復(fù)制以及仿射變換,大幅增加了數(shù)據(jù)集中的小目標(biāo)數(shù)量,使用增強(qiáng)后的數(shù)據(jù)集進(jìn)行訓(xùn)練,對(duì)小目標(biāo)檢測(cè)率提升明顯。2021年Chen[9]等使用圖像拼接技術(shù)動(dòng)態(tài)地生成拼接圖像提升小目標(biāo)數(shù)量,從而增強(qiáng)小目標(biāo)的檢測(cè)精度。這類方法主要缺點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、實(shí)現(xiàn)步驟繁瑣,并且降低了訓(xùn)練和檢測(cè)的效率。
第二種是多尺度預(yù)測(cè)的方法。2017年Lin[10]等提出了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),采用自上而下的方法逐層將深層特征上采樣后與淺層特征融合,使淺層特征獲得了更強(qiáng)的語(yǔ)義信息,利用融合后的特征圖做多尺度預(yù)測(cè)。2019年G.Ghiasi[11]等對(duì)FPN結(jié)構(gòu)做了進(jìn)一步優(yōu)化,利用強(qiáng)化學(xué)習(xí)對(duì)適合當(dāng)前任務(wù)的特征融合最優(yōu)結(jié)構(gòu)進(jìn)行自動(dòng)搜索,并采用最優(yōu)結(jié)構(gòu)進(jìn)行檢測(cè)。此類方法主要缺點(diǎn)是采用多尺度預(yù)測(cè)的方式大大增加了計(jì)算量,從而大幅降低了檢測(cè)速度。
綜合來(lái)看,現(xiàn)有小目標(biāo)的檢測(cè)方法存在結(jié)構(gòu)復(fù)雜、檢測(cè)速度慢等問(wèn)題。對(duì)此,本文提出一種基于特征融合的CenterNet[12]快速小目標(biāo)檢測(cè)方法。該方法根據(jù)不同深度特征的特點(diǎn)對(duì)CenterNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),采用自上而下的方式將高層語(yǔ)義特征加入到淺層特征中,并用所得到的高分辨率融合特征圖檢測(cè)目標(biāo)。同時(shí),針對(duì)現(xiàn)有數(shù)據(jù)集中小目標(biāo)較少問(wèn)題,提出一種簡(jiǎn)單有效的訓(xùn)練數(shù)據(jù)預(yù)處理方法,利用訓(xùn)練集中的較大目標(biāo)提高相似小目標(biāo)的檢測(cè)率。在PASCAL VOC數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明:與原始CenterNet相比,所提出的方法對(duì)小目標(biāo)的檢測(cè)精度提升明顯,且保持了較快的檢測(cè)速度。
在一個(gè)多層卷積神經(jīng)網(wǎng)絡(luò)中,不同深度的特征具有不同的特點(diǎn)。目前主流的目標(biāo)檢測(cè)方法大多傾向于從深層特征預(yù)測(cè)結(jié)果,而淺層特征在預(yù)測(cè)過(guò)程中往往被忽略。在特征提取網(wǎng)絡(luò)中,深層特征擁有更大的感受野,包含豐富的語(yǔ)義信息,具有高度抽象性;淺層特征感受野小,擁有更多細(xì)節(jié)信息,如邊緣、紋理等。檢測(cè)較大的目標(biāo)需要更大的感受野及其抽象特征,在深層特征上進(jìn)行預(yù)測(cè)效果較好;而小目標(biāo)并不需要較大的感受野,并且在深層特征圖中僅剩下幾個(gè)到十幾個(gè)像素點(diǎn),包含的特征信息非常少,因此小目標(biāo)更適合在淺層特征進(jìn)行預(yù)測(cè)。另外,經(jīng)過(guò)多次下采樣,深層特征對(duì)于目標(biāo)的位置變化不夠敏感。例如一個(gè)8倍下采樣的網(wǎng)絡(luò),原圖上目標(biāo)位置發(fā)生40像素的位置變化,深層特征僅體現(xiàn)出5個(gè)像素的偏移。淺層特征則具有相對(duì)更強(qiáng)的定位能力,在檢測(cè)任務(wù)中對(duì)目標(biāo)的定位更加有利。
為了同時(shí)利用深層與淺層特征不同的信息優(yōu)勢(shì),F(xiàn)PN結(jié)構(gòu)被廣泛應(yīng)用于基于錨框(anchorbased)的檢測(cè)方法當(dāng)中,采用自上而下的特征融合結(jié)構(gòu),并從多個(gè)不同尺度的融合特征圖提取候選區(qū)域,取得了較好效果。FPN結(jié)構(gòu)證明了,采取自上而下逐層進(jìn)行特征融合的方式,得到的高分辨率融合特征同時(shí)具有深層語(yǔ)義信息和淺層細(xì)節(jié)信息。
在原始CenterNet檢測(cè)方法中,表征檢測(cè)結(jié)果的熱力圖及對(duì)應(yīng)的寬高、中心點(diǎn)偏移均由網(wǎng)絡(luò)的最深層特征經(jīng)過(guò)3×3的卷積得到,本質(zhì)上只利用了最后一層特征圖的信息,對(duì)小目標(biāo)的檢測(cè)效果不理想。為提升CenterNet對(duì)小目標(biāo)的檢測(cè)效果,本文參考了FPN特征融合方法的思想,利用反卷積與可變形卷積將深層特征逐層加入到淺層特征中,并在融合了深層特征的淺層特征圖進(jìn)行預(yù)測(cè)。
首先,為在檢測(cè)速度與精度之間取得更好的平衡,本文選取殘差網(wǎng)絡(luò)ResNet-50替代原文中的特征提取網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖1 特征融合CenterNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
為獲得更高分辨率的特征圖,刪除了主干網(wǎng)絡(luò)ResNet-50的第一個(gè)最大池化層以減少整體下采樣倍數(shù)。輸入圖像尺度統(tǒng)一Resize至512×512后,先經(jīng)過(guò)一個(gè)卷積核大小為7×7的卷積層進(jìn)行2倍下采樣,變成256×256包含64個(gè)通道的特征圖。而后經(jīng)過(guò)4個(gè)殘差塊(block1-block4)提取特征,同時(shí)進(jìn)一步下采樣,從block1到block4的輸出特征圖大小分別為原圖的1/2、1/4、1/8/、1/16。
特征融合階段,先將block4的輸出特征圖分別經(jīng)過(guò)大小為3×3的反卷積(Deconvolution)與大小為3×3的可變形卷積(Deformable Convolution Network v2,DCNv2),進(jìn)行2倍上采樣,獲得的特征圖與block3的輸出特征圖相加進(jìn)行特征融合。然后采用相同方式對(duì)得到的融合特征圖進(jìn)行2倍上采樣,與block2的輸出特征進(jìn)行相加融合,得到大小為128×128的融合特征圖。該融合特征圖下采樣倍數(shù)為4,相較于最頂層特征具有更高的分辨率,包含了更多檢測(cè)小目標(biāo)需要的細(xì)節(jié)信息,并且對(duì)目標(biāo)的定位能力更強(qiáng)。在該融合特征圖上分別使用卷積得到預(yù)測(cè)熱力圖、寬高圖以及偏移圖,最后輸出檢測(cè)結(jié)果。
為展示特征融合的效果,圖2(a)給出了PASCAL VOC數(shù)據(jù)集中一張圖像,圖2(b)-(e)顯示了圖2(a)在特征融合網(wǎng)絡(luò)中block1至block4的輸出特征圖,圖2(f)是其最終融合特征圖。對(duì)比圖2(b)-(f)各特征圖可以看出:block1與block2由于網(wǎng)絡(luò)深度較淺,其輸出特征圖中大船與小船都保留了較多細(xì)節(jié)信息。block3與block4網(wǎng)絡(luò)較深,其輸出特征中語(yǔ)義信息較多,大船能夠看出輪廓而丟失了內(nèi)部紋理、邊緣等細(xì)節(jié),小船的信息幾乎全部丟失。經(jīng)過(guò)對(duì)前兩個(gè)模塊的特征融合,最終融合特征圖3(f)中,大船的深層信息在淺層特征中得到加強(qiáng),小船的細(xì)節(jié)信息在融合特征中被保留。
圖2 目標(biāo)圖像與深度特征圖
在數(shù)據(jù)方面,現(xiàn)有目標(biāo)檢測(cè)數(shù)據(jù)集中,由于標(biāo)注成本較高等因素,很多小目標(biāo)沒(méi)有被標(biāo)注。但不少與小目標(biāo)擁有相同類別的較大目標(biāo)是具有標(biāo)簽的,如圖3所示。
圖3 數(shù)據(jù)集中相似的未標(biāo)注小目標(biāo)及有標(biāo)簽大目標(biāo)
紅框標(biāo)出的是有標(biāo)簽?zāi)繕?biāo),黃色框標(biāo)出的為未標(biāo)注的同類小目標(biāo)。這些未標(biāo)注的小目標(biāo)具有與同類大目標(biāo)相似的外觀特征。如圖3(a)中箭頭標(biāo)出的船只以及(b)中箭頭標(biāo)出的羊,縮放到統(tǒng)一尺度后外觀特征非常相似,只是較大的目標(biāo)更清晰,小目標(biāo)更模糊。由于包含的信息量不同,外觀相似的大、小目標(biāo)經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取到的特征存在較大差異,導(dǎo)致訓(xùn)練后的網(wǎng)絡(luò)對(duì)大目標(biāo)的檢測(cè)率較高,而對(duì)同類的小目標(biāo)檢測(cè)率較低。對(duì)此,本文提出一種訓(xùn)練數(shù)據(jù)預(yù)處理方法,對(duì)訓(xùn)練集中的原圖進(jìn)行“升噪處理”,生成一批具有相同分辨率而信息量更低的圖像加入訓(xùn)練集當(dāng)中。處理后大目標(biāo)與原圖上的同類小目標(biāo)具有相近的信息密度,從而達(dá)到利用已有大目標(biāo)的標(biāo)簽信息,學(xué)習(xí)同類小目標(biāo)特征的效果。
所用的圖像模糊方式包括高斯模糊、均值濾波、中值濾波以及下采樣方法,這些圖像處理方式均能有效地降低圖像中的細(xì)節(jié)信息。其中,高斯模糊采用3×3高斯卷積核對(duì)圖像進(jìn)行卷積,卷積核σ設(shè)置為1。均值濾波與中值濾波的濾波器大小均設(shè)置為3×3。下采樣方法先采用最大池化進(jìn)行2倍下采樣,然后再用線性插值的方式上采樣,將圖像恢復(fù)成原始大小并引入噪聲。經(jīng)過(guò)處理后的圖像與原圖共享相同的標(biāo)簽信息,并加入訓(xùn)練集當(dāng)中與原圖一起參與訓(xùn)練。幾類處理方式中,下采樣方法的效果最好,實(shí)驗(yàn)部分將給出對(duì)比說(shuō)明。將部分經(jīng)過(guò)下采樣方法得到的較大目標(biāo)與原圖中的相似小目標(biāo)進(jìn)行對(duì)比展示,效果如圖4所示??梢钥闯?,處理后的較大目標(biāo)與原圖中的相似小目標(biāo)差異確實(shí)更小,包含的信息量更加接近。
圖4 處理后的大目標(biāo)與原圖小目標(biāo)對(duì)比
為了驗(yàn)證所提出的特征融合方法的有效性,在CenterNet上更換不同深度的ResNet特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn),并與原網(wǎng)絡(luò)進(jìn)行對(duì)比。同時(shí),對(duì)幾種不同訓(xùn)練數(shù)據(jù)模糊方式得到的模型也進(jìn)行了測(cè)試對(duì)比。為了提高模型的訓(xùn)練效果,將VOC 2007訓(xùn)練集和驗(yàn)證集與VOC 2012訓(xùn)練集和驗(yàn)證集進(jìn)行了合并作為訓(xùn)練集和驗(yàn)證集,共包含16551張、20類目標(biāo)圖像。測(cè)試集由VOC 2007與VOC 2012測(cè)試集合并得到,共包含4952張圖像。
4.2.1 特征融合實(shí)驗(yàn)
在不同深度的ResNet殘差網(wǎng)絡(luò)加入特征融合,實(shí)驗(yàn)結(jié)果如表1所示,其中帶FF前綴的表示加入特征融合后的網(wǎng)絡(luò)。從表1可以看出:不同深度的ResNet經(jīng)過(guò)特征融合后,對(duì)小目標(biāo)的檢測(cè)精度均有不同程度的提升,并且網(wǎng)絡(luò)越深提升效果越明顯。ResNet-18提升最小,主要原因是其網(wǎng)絡(luò)深度相對(duì)較淺,本身保存的細(xì)節(jié)信息相對(duì)更多,因此提升效果并不明顯。ResNet-101的小目標(biāo)檢測(cè)精度最低,特征融合后ResNet-101的小目標(biāo)檢測(cè)精度提升最大,但是檢測(cè)速度有較大降低,這一結(jié)果表明:當(dāng)網(wǎng)絡(luò)層數(shù)超過(guò)某一閾值時(shí),網(wǎng)絡(luò)越深越不利于小目標(biāo)的檢測(cè),同時(shí)檢測(cè)速度也會(huì)明顯下降。特征融合后ResNet-50的小目標(biāo)精度提升了6.4%,整體精度mAP有少許降低,但是其檢測(cè)速度仍然較快。
表1 不同深度ResNet網(wǎng)絡(luò)特征融合檢測(cè)結(jié)果
4.2.2 訓(xùn)練數(shù)據(jù)處理實(shí)驗(yàn)
分別用高斯模糊(Gaussian Blur,Gs-B)、均值濾波(Mean Filtering,Mn-F)、中值濾波(Median Filtering,Md-F)以及下采樣方法(Down Sampling,Dn-S)對(duì)訓(xùn)練集圖像進(jìn)行模糊處理,得到高斯模糊數(shù)據(jù)(Gs-B Data)、均值模糊數(shù)據(jù)(Mn-F Data)、中值模糊數(shù)據(jù)(Md-F Data)以及下采樣模糊數(shù)據(jù)(Dn-S Data),并分別與原始訓(xùn)練集(Original Data,O Date)混合,結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果說(shuō)明:通過(guò)對(duì)訓(xùn)練集圖像進(jìn)行一定模糊處理,能有效降低圖像中大目標(biāo)與同類、相似小目標(biāo)之間的差異,從而有效利用標(biāo)注的大目標(biāo)來(lái)提高模型對(duì)小目標(biāo)的檢測(cè)率。下采樣方法在幾種方法之間更具優(yōu)勢(shì),可能的原因是最大池化與線性插值所引入的噪聲與小目標(biāo)中的噪聲相對(duì)更加擬合。在小目標(biāo)標(biāo)注成本較高,缺少訓(xùn)練數(shù)據(jù)的情況下,利用該方法能對(duì)數(shù)據(jù)集進(jìn)行快速、有效的增強(qiáng),并提升小目標(biāo)的檢測(cè)性能。
表2 不同圖像處理方法測(cè)試結(jié)果
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門研究方向,近年來(lái)取得了快速發(fā)展。小目標(biāo)檢測(cè)一直是其中的難點(diǎn)問(wèn)題。現(xiàn)有針對(duì)小目標(biāo)的檢測(cè)方法還存在網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、實(shí)現(xiàn)步驟繁瑣、檢測(cè)速度慢或者不具備通用性等問(wèn)題。針對(duì)現(xiàn)有問(wèn)題,本文對(duì)小目標(biāo)檢測(cè)進(jìn)行研究。首先利用無(wú)錨框的單階段方法CenterNet作為基礎(chǔ)框架,在特征提取網(wǎng)絡(luò)中加入自上而下的特征融合,并從得到的高分辨率特征圖檢測(cè)結(jié)果;其次提出一種訓(xùn)練集數(shù)據(jù)預(yù)處理方法,有效利用了訓(xùn)練集中的大目標(biāo)來(lái)學(xué)習(xí)同類、相似小目標(biāo)的特征,解決了訓(xùn)練集當(dāng)中小目標(biāo)較少的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文提出改進(jìn)方法使CenterNet的小目標(biāo)檢測(cè)性能提升明顯。另外,所提訓(xùn)練數(shù)據(jù)預(yù)處理方法能快速增強(qiáng)數(shù)據(jù)集并提升模型的小目標(biāo)檢測(cè)能力。