向南,潘傳忠,虞高翔
融合優(yōu)化特征提取結(jié)構(gòu)的目標(biāo)檢測(cè)算法
向南*,潘傳忠,虞高翔
(重慶理工大學(xué) 兩江國(guó)際學(xué)院,重慶 401135)(?通信作者電子郵箱xiangnan@cqut.edu.cn)
針對(duì)DETR對(duì)小目標(biāo)的檢測(cè)精度低的問(wèn)題,基于DETR提出一種優(yōu)化特征提取結(jié)構(gòu)的目標(biāo)檢測(cè)算法——CF?DETR。首先通過(guò)結(jié)合了優(yōu)化跨階段部分(CSP)網(wǎng)絡(luò)的CSP?Darknet53對(duì)原始圖進(jìn)行特征提取并輸出4種尺度的特征圖;其次利用特征金字塔網(wǎng)絡(luò)(FPN)對(duì)4種尺度特征圖進(jìn)行下采樣和上采樣后進(jìn)行拼接融合,并輸出52×52尺寸的特征圖;最后將該特征圖與位置編碼信息結(jié)合輸入Transformer后得到特征序列,輸入到作為預(yù)測(cè)頭的前向反饋網(wǎng)絡(luò)后輸出預(yù)測(cè)目標(biāo)的類(lèi)別與位置信息。在COCO2017數(shù)據(jù)集上,與DETR相比,CF?DETR的模型的超參數(shù)量減少了2×106,在小目標(biāo)上的平均檢測(cè)精度提高2.1個(gè)百分點(diǎn),在中、大尺寸目標(biāo)上的平均檢測(cè)精度提高了2.3個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,優(yōu)化特征提取結(jié)構(gòu)能夠在降低模型超參數(shù)量的同時(shí)有效提高DETR的檢測(cè)精度。
目標(biāo)檢測(cè);小目標(biāo);DETR算法;特征提??;跨階段部分網(wǎng)絡(luò);特征金字塔網(wǎng)絡(luò);Transformer
目標(biāo)檢測(cè)是一項(xiàng)應(yīng)用型研究,其目的是在數(shù)字圖像中快速準(zhǔn)確地檢測(cè)出目標(biāo)物體的種類(lèi)和位置。隨著近年來(lái)硬件的發(fā)展以及深度學(xué)習(xí)的廣泛應(yīng)用,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)取得了突破性的進(jìn)展。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)能夠提取數(shù)字圖像信息的特征,提升了目標(biāo)檢測(cè)的精度?,F(xiàn)代基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法大多是在文獻(xiàn)[1]提出的CNN基礎(chǔ)上,通過(guò)不斷地卷積間接地得到目標(biāo)信息,需要考慮大量的邊界框、anchor以及窗口中心點(diǎn)等信息。本文提出一種以DEtection TRansformer(DETR)算法[2]為基礎(chǔ),結(jié)合改進(jìn)跨階段部分(Cross Stage Partial, CSP)網(wǎng)絡(luò)[3]與特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)[4]結(jié)構(gòu)的目標(biāo)檢測(cè)算法,該算法無(wú)需考慮anchor、邊界框等信息,能直接輸出目標(biāo)物體在圖像中的類(lèi)別以及位置信息,在保證目標(biāo)檢測(cè)的速度同時(shí)能夠進(jìn)一步提升在小目標(biāo)物體上的平均檢測(cè)精度(Average Precision, AP)。
近年來(lái),基于CNN的目標(biāo)檢測(cè)算法逐漸成為主流的檢測(cè)算法?;贑NN的目標(biāo)檢測(cè)算法基于階段數(shù)的不同,可分為單階段、二階段、多階段。Grishick等[5]提出了R?CNN(Regions with Convolutional Neural Network)二階段目標(biāo)檢測(cè)算法,需要先在圖像上獲取候選區(qū)域,再對(duì)候選區(qū)域進(jìn)行分類(lèi)和回歸,在傳統(tǒng)的方法上引入深度學(xué)習(xí)方法極大提高了檢測(cè)的精度。Cai等[6]提出的Cascade?RCNN作為多階段目標(biāo)檢測(cè)算法,其檢測(cè)步驟與二階段相似,不同的是多階段目標(biāo)檢測(cè)算法會(huì)反復(fù)修正候選區(qū)域,在不降低檢測(cè)速率的情況下提高了目標(biāo)檢測(cè)的準(zhǔn)確率。二階段目標(biāo)檢測(cè)算法在精度上取得了階段性的勝利,但是由于體量大而無(wú)法達(dá)到實(shí)時(shí)同步檢測(cè)的速度。于是單階段端到端的YOLO算法[7-9]、RetinaNet算法[10]、EfficienDet算法[11]等優(yōu)秀目標(biāo)檢測(cè)算法被提出。在2020年,Bochkovskiy等[12]提出了YOLOv4算法,這是YOLO目標(biāo)檢測(cè)算法的第四代版本,作為輕體量模型在檢測(cè)精度堪比二階段的同時(shí)檢測(cè)速度大幅提高。YOLOv4的Backbone是在CSP?Darknet53基礎(chǔ)上引入CSP結(jié)構(gòu)的CSP?Darknet53,與作為Neck部分的PANet(Path Aggregation Network)算法[13]搭配后,大幅提高了算法的精度與速度。江金洪等[14]在YOLOv3的基礎(chǔ)上提出了深度可分離卷積,顯著地降低了超參數(shù)量,提高了運(yùn)算效率。徐利鋒等[15]提出將FPN結(jié)構(gòu)應(yīng)用到DenseNet,構(gòu)建多尺度特征模塊以達(dá)到提高小目標(biāo)檢測(cè)精度的目的。
DETR是Facebook AI Research提出的基于Transformer算法[16]的端到端目標(biāo)檢測(cè)算法,屬于單階段端到端目標(biāo)檢測(cè)算法的延伸,它沒(méi)有非極大值抑制(Non?Maximum Suppression, NMS)處理步驟,沒(méi)有anchor,在COCO2017數(shù)據(jù)集上訓(xùn)練300個(gè)epoch后的檢測(cè)精度與Faster RCNN算法[17]相當(dāng),但在小目標(biāo)的檢測(cè)上存在精度不足的問(wèn)題。
針對(duì)DETR在小目標(biāo)檢測(cè)精度低的問(wèn)題,本文工作主要體現(xiàn)在以下兩個(gè)方面:1)基于DETR的baseline修改其Backbone部分,將ResNet[18]替換為優(yōu)化CSP結(jié)構(gòu)的CSP? Darknet53,并將輸出階段由1個(gè)增加到4個(gè);2)引入Neck部分,通過(guò)改進(jìn)FPN結(jié)構(gòu)擴(kuò)充輸出特征圖尺度,降低小目標(biāo)的漏檢率。
DETR結(jié)構(gòu)如圖1所示,由作為Backbone的特征提取網(wǎng)絡(luò)ResNet50、Transformer Encoder?Decoder和Prediction Heads組成。ResNet50可分為5個(gè)階段,對(duì)圖片進(jìn)行特征提取后在第5個(gè)階段輸出特征圖。先對(duì)原始圖進(jìn)行位置編碼,然后調(diào)整為Backbone輸出特征圖同等尺度,將重新調(diào)整尺度的位置編碼與特征圖進(jìn)行結(jié)合后輸入Transformer編解碼器。經(jīng)過(guò)Transformer處理好的數(shù)據(jù)分別輸入前向反饋網(wǎng)絡(luò)集(Forward Feedback Network, FFN)后便可得到預(yù)測(cè)的類(lèi)別和位置信息。DETR的總體思路是把檢測(cè)看成一個(gè)集預(yù)測(cè)的問(wèn)題,并且使用Transformer來(lái)預(yù)測(cè)邊界框的集合。DETR利用標(biāo)準(zhǔn)Transformer架構(gòu)執(zhí)行傳統(tǒng)上特定于目標(biāo)檢測(cè)的操作,從而簡(jiǎn)化了檢測(cè)的流水線技術(shù)。
圖 1 DETR網(wǎng)絡(luò)結(jié)構(gòu)
最初的檢測(cè)方法中,無(wú)論是R?CNN系列還是YOLO系列,均無(wú)法像生物一般直接標(biāo)記指出物體的位置與類(lèi)別,而是用密集的先驗(yàn)覆蓋整幅圖中可能出現(xiàn)目標(biāo)的部分,然后預(yù)測(cè)該視野區(qū)域中目標(biāo)的類(lèi)別與位置。DETR將檢測(cè)方法回歸到了本質(zhì),不需要考慮anchor,也沒(méi)有非極大值抑制(Non? Maximum Suppression,NMS)等,采用真正的端到端。并且在300個(gè)epoch訓(xùn)練后的DETR,在檢測(cè)速率上達(dá)到28 FPS(Frames Per Second),與高度優(yōu)化的Faster RCNN[15]持平,且在大目標(biāo)檢測(cè)效果上DETR的APL值為61.1,要優(yōu)于Faster RCNN的52.0。
雖然DETR對(duì)大目標(biāo)檢測(cè)精度有所提升,但是仍然存在以下問(wèn)題。DETR采用ResNet50作為特征提取網(wǎng)絡(luò),ResNet50由眾多的1×1卷積層和3×3卷積層組成。由于池化操作的下采樣會(huì)導(dǎo)致部分特征信息丟失,而且經(jīng)過(guò)不斷卷積,最后輸出的位置信息較少。在Transformer階段由于位置信息的缺乏,DETR檢測(cè)小目標(biāo)時(shí)易發(fā)生漏檢及錯(cuò)檢。針對(duì)以上問(wèn)題,本文提出了CF?DETR(DETR combined CSP? Darknet53 and FPN)目標(biāo)檢測(cè)方法。
CSP?Darknet53結(jié)構(gòu)如圖2所示,由下采樣卷積層以及包含1×1卷積層和3×3卷積層殘差模塊的CSPResNet結(jié)構(gòu)組成。相較于ResNet50與ResNet101,CSP?Darknet53的最小輸出尺寸更大,能輸出的階段數(shù)更多,所以會(huì)有更好的FPN結(jié)構(gòu)效果。相較于YOLOv3的Darknet53,結(jié)合CSP結(jié)構(gòu)后Backbone的超參數(shù)量大幅減少,能夠有效提高檢測(cè)速率。以416×416尺度的圖像作為輸入,經(jīng)過(guò)一次步長(zhǎng)為2的下采樣卷積后通過(guò)第一個(gè)階段的一次殘差后得到2倍下采樣特征圖。繼續(xù)下采樣通過(guò)2次殘差得到尺度為104×104的4倍下采樣特征圖。通過(guò)后續(xù)的卷積下采樣與殘差塊,依次得到作為輸出的8倍下采樣尺度52×52特征圖、16倍下采樣尺度26×26特征圖、32倍下采樣尺度13×13特征圖。
FPN是傳統(tǒng)CNN增強(qiáng)圖片信息進(jìn)行表達(dá)輸出的一種方法。其目的是改進(jìn)CNN的特征提取方式,以使最終輸出的特征更好地表示出輸入圖片各個(gè)維度的信息。它可以分成兩個(gè)階段進(jìn)行:自底向上的通路,即自下至上的不同維度特征生成;自上至下的通路,即自上至下的特征補(bǔ)充增強(qiáng)。自底向上的通路就是特征提取網(wǎng)絡(luò)的前向過(guò)程,即CSP?Darknet53中各尺度特征圖的生成;自上至下的過(guò)程采用上采樣結(jié)合同等大小的特征圖進(jìn)行融合,最終可輸出多個(gè)尺度的特征增強(qiáng)的特征圖。
在CNN中,在多次卷積下,低層的特征圖含有較少的語(yǔ)義信息,但是含有較多的位置信息;而高層的特征圖中則含有較多的語(yǔ)義信息,但是含有較少的位置信息。CSP?Darknet53采用了類(lèi)似ResNet的方式,使用了大量跳躍連接結(jié)構(gòu)保證了訓(xùn)練不會(huì)出現(xiàn)梯度彌散的現(xiàn)象。CSP? Darknet53還采用了步長(zhǎng)為2的卷積層代替最大池化操作實(shí)現(xiàn)下采樣,這樣不僅減少了下采樣過(guò)程中的計(jì)算量,還極大地保留了更多低層的特征信息。所以使用CSP?Darknet53結(jié)合FPN結(jié)構(gòu)進(jìn)而將高層與低層的信息相融合,可以提升目標(biāo)檢測(cè)的準(zhǔn)確率。
圖 2 結(jié)合FPN結(jié)構(gòu)的Darknet53
本文提出的CF?DETR目標(biāo)檢測(cè)方法是在DETR算法主框架下使用改進(jìn)CSP?Darknet53,同時(shí)結(jié)合FPN結(jié)構(gòu)的改進(jìn)方法。如圖3所示,其中前端數(shù)據(jù)輸入在包含改進(jìn)CSP結(jié)構(gòu)的Backbone中進(jìn)行預(yù)處理,在對(duì)數(shù)據(jù)處理前的Neck部分采用FPN結(jié)構(gòu)對(duì)特征圖進(jìn)行上采樣與下采樣后融合,進(jìn)而放大特征圖尺度,從而保留更多小目標(biāo)的特征信息。經(jīng)過(guò)Neck部分的FPN輸出的52×52尺度的特征圖結(jié)合位置編碼輸入Transformer進(jìn)行編譯碼后,通過(guò)預(yù)測(cè)頭輸出預(yù)測(cè)目標(biāo)的類(lèi)別和位置信息。CF?DETR在增加網(wǎng)絡(luò)深度、提高檢測(cè)精度的同時(shí),使模型輕量化,大幅降低模型檢測(cè)所需超參數(shù)量。
圖 3 CF?DETR網(wǎng)絡(luò)結(jié)構(gòu)
為提高融合多尺度特征和準(zhǔn)確識(shí)別小目標(biāo)的能力,本文改進(jìn)了CSP?Darknet53多尺度特征圖輸出網(wǎng)絡(luò),稱(chēng)為Im?CSPR(Improved CSPResNet),其結(jié)構(gòu)如圖4所示。為了避免CSPR(CSPResNet)對(duì)于前段通道特征圖的語(yǔ)義信息提取的忽視,Im?CSPR將原本的特征圖通過(guò)兩個(gè)階段6次Split卷積形成4個(gè)與原特征圖尺寸大小相同、但通道數(shù)為原特征圖1/4的子特征圖,并對(duì)前后段通道的子特征圖進(jìn)行殘差卷積處理以充分提取圖像的語(yǔ)義信息。Im?CSPR保留了ResNet的特征復(fù)用特性的優(yōu)點(diǎn),同時(shí)也通過(guò)截?cái)嗵荻攘?,防止了過(guò)多的重復(fù)梯度信息。這一思想通過(guò)設(shè)計(jì)分層特征融合策略并用于ResBlock層來(lái)實(shí)現(xiàn)。
在特征提取過(guò)程中經(jīng)過(guò)卷積層數(shù)越多的特征圖,所經(jīng)歷的卷積核越多,在眾多卷積核超參數(shù)的特征提取后所蘊(yùn)含的語(yǔ)義信息越豐富。由于卷積過(guò)程涉及大量卷積核超參數(shù),所以增加了內(nèi)存成本與計(jì)算瓶頸。設(shè)卷積核大小為,輸入通道數(shù)為,輸出通道數(shù)為,則一個(gè)卷積層的超參數(shù)的數(shù)量可由式(1)計(jì)算得到。
而ResBlock中使用的一個(gè)1×1卷積結(jié)合一個(gè)3×3的卷積后疊加組成,那么在CSP結(jié)構(gòu)中可計(jì)算卷積所需超參數(shù)量如式(2)所示。
Im?CSPR結(jié)構(gòu)中計(jì)算卷積所需要的超參數(shù)量如式(3)所示。
一般情況下,輸入的圖片矩陣以及后面的卷積核,特征圖矩陣都是方陣,設(shè)卷積輸入矩陣大小為×,卷積核大小為,卷積步幅為,padding為,則卷積后產(chǎn)生的特征圖大小可通過(guò)式(4)計(jì)算獲得。
本文輸入圖像大小為416×416像素。Im?CSPR將輸出階段由CSP?Darknet53的三個(gè)階段增加到了四個(gè)階段,經(jīng)過(guò)5次為2、為2、為1的下采樣卷積后,輸出的特征圖尺度由13×13、26×26、52×52、104×104這組不同尺度組成。
在Backbone特征提取的前向過(guò)程中,特征圖的大小在經(jīng)過(guò)某些層后會(huì)改變,而在經(jīng)過(guò)其他一些層時(shí)不會(huì)改變。本文將不改變特征圖大小的層歸為一個(gè)階段,這樣就能構(gòu)成特征金字塔。原本的CSP?Darknet53第二個(gè)階段中對(duì)104×104尺度的特征圖進(jìn)行兩次殘差,Im?CSPR額外地將第一次殘差后的104×104尺度的特征圖進(jìn)行輸出。將有較多位置信息、尺度較大的104×104特征圖輸入FPN,再對(duì)多尺度的特征圖進(jìn)行融合處理。相較于ResNet50只輸出1個(gè)階段,Im?CSPR包含4個(gè)輸出階段,將多尺度特征的語(yǔ)義信息與位置信息輸出到Neck階段進(jìn)行特征增強(qiáng),從而提高了目標(biāo)檢測(cè)的準(zhǔn)確率。
圖 4 三種不同殘差結(jié)構(gòu)的對(duì)比
FPN是利用深度CNN固有的多尺度、多層級(jí)的金字塔結(jié)構(gòu)去構(gòu)建,同時(shí)使用一種自上而下的側(cè)邊連接方式,在多尺度構(gòu)建了高級(jí)語(yǔ)義的特征圖。這就需要使用FPN來(lái)融合多層特征以及改進(jìn)CNN的特征提取。DETR的ResNet50直接輸出縮小到原尺寸1/32的下采樣特征圖去檢測(cè)目標(biāo),所以當(dāng)目標(biāo)在輸入為416×416像素大小的原圖中,其所占的像素面積小于13×13時(shí),是無(wú)法檢測(cè)到的。為了降低這一小目標(biāo)物體容易被誤篩的概率,引入了改進(jìn)的FPN結(jié)構(gòu)。
CF?DETR中引進(jìn)了FPN結(jié)構(gòu)以減小輸出特征圖的下采樣倍數(shù),增大輸出特征圖的尺度。FPN往往用于上采樣并配上三個(gè)尺度逐漸縮小的特征圖,改進(jìn)的FPN結(jié)構(gòu)通過(guò)輸入四個(gè)不同尺寸的特征圖,對(duì)多尺度特征圖進(jìn)行上采樣與下采樣相結(jié)合的方法進(jìn)行處理。最終拼接融合后輸出一張52×52的特征圖,從而保留更多的位置信息并提高小目標(biāo)檢測(cè)的精度。
本文實(shí)驗(yàn)選取COCO2017數(shù)據(jù)集進(jìn)行訓(xùn)練與驗(yàn)證。COCO2017數(shù)據(jù)集一共有五種標(biāo)注類(lèi)型,本次實(shí)驗(yàn)使用實(shí)例類(lèi)型的標(biāo)注信息。COCO2017包含90個(gè)類(lèi),訓(xùn)練集包含共11 GB大小的118×103張圖片,驗(yàn)證集包含共1 GB大小的5×103張圖片。訓(xùn)練集中平均每張圖片包含7個(gè)目標(biāo),最多單張圖片包含63個(gè)目標(biāo),這些目標(biāo)覆蓋小、中、大三種尺寸。本文實(shí)驗(yàn)會(huì)計(jì)算每個(gè)訓(xùn)練輪次后驗(yàn)證集的AP值并記錄log文件中。
選取DETR不同Backbone模型中的DETR?R50?DC5、DETR?R50、DETR?R101、DETR?Dn53?FPN與CF?DETR進(jìn)行對(duì)比實(shí)驗(yàn),以驗(yàn)證本文方法CF?DETR的有效性。其中DETR?R50?DC5、DETR?R50、DETR?R101在50個(gè)epoch下訓(xùn)練結(jié)果的實(shí)驗(yàn)數(shù)據(jù)根據(jù)Facebook AI實(shí)驗(yàn)室所發(fā)布的數(shù)據(jù)作為參照;DETR?Dn53?FPN則為DETR模型使用Darknet53作為Backbone并結(jié)合FPN結(jié)構(gòu),且未加入CSP結(jié)構(gòu)的消融對(duì)比實(shí)驗(yàn)所用模型。模型參數(shù)量對(duì)比數(shù)據(jù)如表1所示,模型精度對(duì)比如表2所示。
表2中:AP表示平均檢測(cè)精度;50表示廣義交并比閾值為50%時(shí)的檢測(cè)精度;S、M、L表示對(duì)小、中、大三種尺寸目標(biāo)的檢測(cè)精度。對(duì)比實(shí)驗(yàn)表明:未加Im?CSPR結(jié)構(gòu)的Darknet53+FPN使DETR檢測(cè)精度提高了2.7個(gè)百分點(diǎn),F(xiàn)PS降低了8,且超參數(shù)量相對(duì)DETR增加了63%,與其他對(duì)比模型比較,在小、中、大三種尺度的目標(biāo)檢測(cè)精度上均表現(xiàn)SOTA(State Of The Art)。而加入Im?CSP結(jié)構(gòu)的CF?DETR的超參數(shù)量是所有對(duì)比DETR模型的中最小的,且FPS相對(duì)未加入Im?CSP結(jié)構(gòu)前增加了6。
本文模型檢測(cè)效果如圖5所示。Im?CSPR?Darknet+FPN結(jié)構(gòu)的引入使檢測(cè)速度有一定下降,雖然改進(jìn)的CF?DETR參數(shù)量少于對(duì)比的其他模型,但是由于其結(jié)構(gòu)的復(fù)雜性使檢測(cè)速率降低。本實(shí)驗(yàn)暫時(shí)只做了50個(gè)epoch訓(xùn)練結(jié)果的數(shù)據(jù)對(duì)比,通過(guò)更多epoch訓(xùn)練后的模型檢測(cè)精度可以?xún)?yōu)于DETR對(duì)標(biāo)的Faster RCNN模型。
表1 模型參數(shù)量與每秒傳輸幀數(shù)的對(duì)比
表 2 模型精度對(duì)比 單位: %
圖 5 測(cè)試圖片檢測(cè)效果
針對(duì)DETR模型在小目標(biāo)檢測(cè)上精度難以保證的問(wèn)題,本文提出了CF?DETR目標(biāo)檢測(cè)方法,融入了豐富的位置信息及上下文信息,同時(shí)減少了特征圖下采樣導(dǎo)致的特征丟失。實(shí)驗(yàn)結(jié)果表明CF?DETR有效提高了小目標(biāo)檢測(cè)的精度,減少了小目標(biāo)的錯(cuò)檢漏檢;但是由于引入FPN結(jié)構(gòu)后模型復(fù)雜度增加,以及Im?CSPR需要計(jì)算卷積次數(shù)的計(jì)算量增加,檢測(cè)速度有所降低。雖然CSP結(jié)構(gòu)對(duì)于超參數(shù)量的減少有較大作用,從而提高了模型的檢測(cè)速率,但同時(shí)也降低了模型的檢測(cè)精度。其他諸如DeepWise卷積結(jié)構(gòu)、倒殘差卷積結(jié)構(gòu)這類(lèi)降低超參數(shù)量結(jié)構(gòu)的引入,可能在降低超參數(shù)量、提高檢測(cè)速率的同時(shí)不降低檢測(cè)精度。另一方面,在提高檢測(cè)速率、降低超參數(shù)量的同時(shí),引入注意力模塊也可彌補(bǔ)檢測(cè)精度不足的問(wèn)題。下一步的研究計(jì)劃就是如何平衡檢測(cè)精度與檢測(cè)速度的問(wèn)題。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2012: 1097-1105.
[2] CARION N, MASSA F, SYNNAEVE G, et al. End?to?end object detection with transformers[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12346. Cham: Springer, 2020: 213-229.
[3] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2020: 1571-1580.
[4] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 936-944.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 580-587.
[6] CAI Z W, VASCONCELOS N. Cascade R?CNN: delving into high quality object detection[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6154-6162.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real?time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[8] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.
[9] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08)[2021-09-23]. https://arxiv.org/pdf/1804.02767.pdf.
[10] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007.
[11] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 10778-10787.
[12] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2021-09-08]. https://arxiv.org/pdf/2004.10934.pdf.
[13] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8759-8768.
[14] 江金洪,鮑勝利,史文旭,等. 基于YOLO v3算法改進(jìn)的交通標(biāo)志識(shí)別算法[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(8): 2472-2478.(JIANG J H, BAO S L, SHI W X, et.al. Improved traffic sign recognition algorithm based on YOLO v3 algorithm[J]. Journal of Computer Applications, 2020, 40(8): 2472-2478.)
[15] 徐利鋒,黃海帆,丁維龍,等. 基于改進(jìn)DenseNet的水果小目標(biāo)檢測(cè)[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2021, 55(2):377-385.(XU L F, HUANG H F, DING W L, et al. Detection of small fruit target based on improved DenseNet[J]. Journal of Zhejiang University (Engineering Science), 2021, 55(2): 377-385.)
[16] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:6000-6010.
[17] REN S Q, HE K M, GIRSHICK R, et al. Faster R?CNN: towards real?time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[19] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 658-666.
Object detection algorithm combined with optimized feature extraction structure
XIANG Nan*, PAN Chuanzhong, YU Gaoxiang
(,,401135,)
Concerning the problem of low object detection precision of DEtection TRansformer (DETR) for small targets, an object detection algorithm with optimized feature extraction structure, called CF?DETR (DETR combined CSP?Darknet53 and Feature pyramid network), was proposed on the basis of DETR. Firstly, CSP?Darknet53 combined with the optimized Cross Stage Partial (CSP) network was used to extract the features of the original image, and feature maps of 4 scales were output. Secondly, the Feature Pyramid Network (FPN) was used to splice and fuse the 4 scale feature maps after down?sampling and up?sampling, and output a 52×52 size feature map. Finally, the obtained feature map and the location coding information were combined and input into the Transformer to obtain the feature sequence. Through the Forward Feedback Networks (FFNs) as the prediction head, the category and location information of the prediction object was output. On COCO2017 dataset, compared with DETR, CF?DETR has the number of model hyperparameters reduced by 2×106, the average detection precision of small objects improved by 2.1 percentage points, and the average detection precision of medium? and large?sized objects improved by 2.3 percentage points. Experimental results show that the optimized feature extraction structure can effectively improve the DETR detection precision while reducing the number of model hyperparameters.
object detection; samll target; DEtection TRansformer (DETR) algorithm; feature extraction; Cross Stage Partial (CSP) network; Feature Pyramid Network (FPN); Transformer
This work is partially supported by National Natural Science Foundation of China (61872051), Science and Technology Research Program of Chongqing Municipal Education Commission (KJQN202001118), Application Research Project of Banan Science and Technology Commission (2018TJ02).
XIANG Nan, born in 1984, Ph. D., associate professor. His research interests include affective computing, social computing, object detection.
PAN Chuanzhong, born in 1995, M. S. candidate. His research interests include object detection.
YU Gaoxiang, born in 1995, M. S. candidate. His research interests include object detection.
1001-9081(2022)11-3558-06
10.11772/j.issn.1001-9081.2021122122
2021?12?17;
2022?02?13;
2022?02?14。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61872051);重慶市教委科學(xué)技術(shù)研究計(jì)劃項(xiàng)目(KJQN202001118);巴南區(qū)科委應(yīng)用研究項(xiàng)目(2018TJ02)。
TP391.41
A
向南(1984—),男,陜西旬陽(yáng)人,副教授,博士,CCF會(huì)員,主要研究方向:情感計(jì)算、社交計(jì)算、目標(biāo)檢測(cè);潘傳忠(1995—),男,湖北咸寧人,碩士研究生,主要研究方向:目標(biāo)檢測(cè);虞高翔(1995—),男,江西上饒人,碩士研究生,主要研究方向:目標(biāo)檢測(cè)。