黃劍航,王振友
(廣東工業(yè)大學(xué) 應(yīng)用數(shù)學(xué)學(xué)院,廣東 廣州 510520)
隨著深度學(xué)習(xí)的發(fā)展,圖像所傳遞的信息比其他形式的信息更加豐富、形象、具體。21世紀(jì)信息技術(shù)時(shí)代,計(jì)算機(jī)網(wǎng)絡(luò)、多媒體、人工智能等技術(shù)都離不開圖像。目標(biāo)檢測(cè)(object detection)是計(jì)算機(jī)視覺和數(shù)字圖像處理的一個(gè)熱門方向,廣泛應(yīng)用于人工智能控制、視頻監(jiān)控、航空航天等領(lǐng)域,通過人工智能控制能有效減少人力資本的消耗,這種技術(shù)在現(xiàn)實(shí)生活中具有重要的意義。并且目標(biāo)檢測(cè)算法是計(jì)算機(jī)視覺任務(wù)當(dāng)中的基礎(chǔ)性算法,在語義分割(semantic segmentation)、實(shí)例分割(instance segmentation)、目標(biāo)跟蹤(object tracking)等高級(jí)視覺任務(wù)中發(fā)揮著至關(guān)重要的作用,因此目標(biāo)檢測(cè)成為了近年來視覺領(lǐng)域理論和應(yīng)用重點(diǎn)關(guān)注的研究熱點(diǎn)。
傳統(tǒng)的目標(biāo)檢測(cè)方法一般分為3個(gè)階段:首先在給定的圖像上經(jīng)過選擇性搜索方法(selective search)選擇一些候選區(qū)域,然后對(duì)這些候選區(qū)域經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)CNN (Convolutional Neural Networks)進(jìn)行提取特征,最后使用已經(jīng)訓(xùn)練好的分類器對(duì)提取的特征進(jìn)行分類。但傳統(tǒng)的目標(biāo)檢測(cè)方法主要依靠人工的先驗(yàn)知識(shí)來設(shè)計(jì)特征提取器,缺乏一定的客觀存在性,所以在復(fù)雜的場(chǎng)景下傳統(tǒng)的目標(biāo)檢測(cè)算法很難取得比較好的檢測(cè)效果。隨著深度學(xué)習(xí)的迅速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法陸續(xù)被眾多學(xué)者提出,其中典型的方法是依靠CNN來提取特征[1-7],這些經(jīng)過CNN提取的特征信息相比傳統(tǒng)的方法在計(jì)算機(jī)視覺下語義性更強(qiáng),因此模型通過網(wǎng)絡(luò)的學(xué)習(xí)后擁有更強(qiáng)的泛化能力。
圖像經(jīng)過CNN多層級(jí)的特征提取后,相鄰層級(jí)的特征圖具有較大的相關(guān)性,但是隨著卷積層數(shù)的增加,圖像經(jīng)過大量的特征處理后相關(guān)性會(huì)愈加弱化,導(dǎo)致在檢測(cè)的過程中分類和回歸的精度不高。因此本文針對(duì)網(wǎng)絡(luò)各層之間特征信息的差異性和相關(guān)性,提出了一種基于Mask-RCNN二次特征融合的目標(biāo)檢測(cè)算法[1],彌補(bǔ)特征之間相關(guān)性的損失,融合豐富的有用信息,使得這種網(wǎng)絡(luò)所提取的特征更具有表征能力。
在目標(biāo)檢測(cè)領(lǐng)域,多尺度問題一直是一項(xiàng)艱巨的任務(wù),早期的檢測(cè)算法是圖像經(jīng)過CNN特征提取出來特征圖后直接進(jìn)行預(yù)測(cè)[2-4],顯然這種方法只能得到單一尺度的信息,這些模型對(duì)復(fù)雜背景下和小維度的目標(biāo)檢測(cè)性能并不好。當(dāng)背景和目標(biāo)的顏色相近或者檢測(cè)目標(biāo)較小的情況下,會(huì)出現(xiàn)正負(fù)樣本難以區(qū)分和定位不準(zhǔn)確的問題。為解決上述問題,近年來大量研究工作都集中在特征網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上,后來有學(xué)者設(shè)計(jì)出能夠輸出多尺度特征圖的網(wǎng)絡(luò)結(jié)構(gòu),下列的研究表明對(duì)多尺度的特征圖進(jìn)行預(yù)測(cè)可以得到較好的檢測(cè)效果。
在卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,圖像金字塔(featurized image pyramids)是傳統(tǒng)的解決多尺度問題的思路,具有一定意義的尺度不變性。圖像金字塔主要在人工特征中使用,比如算法DPM(Deformable Parts Model)就要用到它產(chǎn)生密集尺度的樣本以提升檢測(cè)水平。但是該方法對(duì)圖像金字塔每一層的處理都具有耗時(shí)長(zhǎng)、顯存占用空間大等問題。近年來有學(xué)者提出網(wǎng)絡(luò)結(jié)構(gòu)TridentNet[5]和SNIPER[6](Scale Normalization for Image Pyramids with Efficient Resampling)來進(jìn)行多分支多尺度訓(xùn)練,但采樣到的圖像分辨率過大,導(dǎo)致大樣本難以區(qū)分,最終精度提升不明顯。早期Liu等[7]借鑒了圖像金字塔的思想提出了SSD(Single Shot MultiBox Detector),為了減少計(jì)算機(jī)能力的開銷以及避免太多底層特征的利用,SSD重復(fù)使用了特征圖并在偏后的卷積層conv4_3開始,又往后加了幾層卷積層,分別抽取每層特征。但是SSD只利用了低分辨率的高層特征,而對(duì)于高分辨率的低層特征沒有再利用,并且忽略了對(duì)特征之間的融合。而Kong等[8]提出了將不同階段的特征圖進(jìn)行融合成單一圖片,忽略了多尺度的效應(yīng)。針對(duì)上述問題,Liu等[9]提出了RFB Net(Receptive Field Block Network)在SSD的基礎(chǔ)上引入了RFB模塊加強(qiáng)特征提取能力,在該模塊最后使用concat操作達(dá)到融合效果,Lin等[10]提出了多尺度特征融合網(wǎng)絡(luò)FPN,F(xiàn)PN是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖片信息進(jìn)行表達(dá)輸出的一種增強(qiáng),利用特征上采樣來構(gòu)建自頂向下的特征層級(jí),融合了不同尺度的特征圖。Li等[11]提出了利用融合基層特征后再經(jīng)過卷積層來生成多尺度特征的單階段FSSD(Feature Fusion Single Shot Multibox Detector)目標(biāo)檢測(cè)方法,將經(jīng)過卷積層得到的不同層級(jí)、不同尺度的特征圖進(jìn)行上采樣后將這些特征圖進(jìn)行特征融合成基層特征圖,然后將基層特征圖進(jìn)行下采樣構(gòu)建多尺度特征層級(jí)。Fu等[12]借鑒FPN思想提出DSSD (Deconvolutional Single Shot Detector),在SSD的基礎(chǔ)上增加了轉(zhuǎn)置卷積模塊和預(yù)測(cè)模塊,從而使得對(duì)小目標(biāo)的檢測(cè)有著顯著的提升。后來溫捷文等[13]提出了一種改進(jìn)SSD的小目標(biāo)檢測(cè)算法,該方法對(duì)多層次的特征圖進(jìn)行拼接融合操作,最終得到特征信息豐富的特征集合。高俊艷等[14]提出了結(jié)合注意力與特征融合的目標(biāo)跟蹤算法,利用特征融合的方式提高了跟蹤模型的競(jìng)爭(zhēng)力。He等[15]在Faster RCNN的基礎(chǔ)上用ResNet替代VGG(Visual Geometry Group)網(wǎng)絡(luò)并且利用FPN網(wǎng)絡(luò)融合多層特征圖挖掘了多尺度特征信息,后來YOLO V3[16](You Only Look Once, Version3)同樣采用類似FPN的上采樣和融合的方法在多個(gè)尺度上做檢測(cè)。這些方法都基于特征融合的網(wǎng)絡(luò)結(jié)構(gòu)提取多尺度的特征信息,對(duì)漏檢情況以及小目標(biāo)的檢測(cè)問題有著明顯的改善。
通過對(duì)文獻(xiàn)[9-16]所提出的方法進(jìn)行研究,發(fā)現(xiàn)特征融合的方法對(duì)傳統(tǒng)目標(biāo)檢測(cè)算法精度的提升有著重要的作用。卷積特征圖中低層特征分辨率高,對(duì)檢測(cè)小目標(biāo)有較好的效果,高層特征分辨率小,但語義信息較強(qiáng),利用多尺度的特征圖進(jìn)行融合互補(bǔ)特征信息可以明顯提升檢測(cè)效果。因此,本文提出一種基于Mask-RCNN進(jìn)行二次特征融合的目標(biāo)檢測(cè)方法。
不同尺度的特征圖信息互相融合可以提高目標(biāo)檢測(cè)任務(wù)的精度,低層的特征分辨率高,更多關(guān)注的是目標(biāo)的細(xì)節(jié),而缺少語義信息。高層的特征分辨率低,但語義信息較豐富,學(xué)習(xí)的是目標(biāo)的輪廓或者更抽象的特征。目前特征圖上采樣的方式多為人工特定工程的插值方法,并沒有參數(shù)進(jìn)行學(xué)習(xí)。為了充分利用不同尺度的特征圖的特征信息以及上采樣操作能有參數(shù)被網(wǎng)絡(luò)所學(xué)習(xí),本文提出一種二次特征融合的CNN結(jié)構(gòu),融合模塊的結(jié)構(gòu)如圖1所示。
圖1 改進(jìn)后融合模塊圖Fig.1 The improved fusion module
(1) 采用特征重復(fù)使用的方式,將學(xué)習(xí)高層抽象特征時(shí)已得到的低層特征進(jìn)行重復(fù)使用,低層特征分辨率高,對(duì)小目標(biāo)的檢測(cè)發(fā)揮著重要的作用,本文二次特征融合的過程中都充分利用所有層級(jí)特征,在不犧牲表達(dá)能力、速度和額外內(nèi)存開銷的情況下達(dá)到更高的模型精度。
(2) 采用二次特征融合的方式,如圖1所示,讓過渡特征再次進(jìn)行自底向上的融合,在一定程度上特征信息豐富的低層特征補(bǔ)充到高層特征中,得到更具表達(dá)能力的模型。
(3) 采用轉(zhuǎn)置卷積的上采樣方式替代原始的插值方法,使得上采樣的過程中有參數(shù)可以被網(wǎng)絡(luò)學(xué)習(xí),從而提高檢測(cè)任務(wù)的精度。
本文提出的模型是基于Mask-RCNN改進(jìn)的,整體結(jié)構(gòu)采取了two-stage的檢測(cè)方法,特征提取模塊選取ResNet50作為整個(gè)模型的骨干網(wǎng)絡(luò),將原始圖片調(diào)整為1020×1024的分辨率輸入骨干網(wǎng)絡(luò),把整個(gè)特征提取網(wǎng)絡(luò)分為5個(gè)階段,每個(gè)階段大量交替使用尺寸為1×1和3×3的卷積核,其中每個(gè)1×1的卷積核都只改變特征通道的大小,不改變特征圖的尺寸,特征提取的過程中利用3×3的卷積核對(duì)圖像進(jìn)行特征壓縮,利用1×1的卷積核來增加通道數(shù)目從而擴(kuò)大特征維度。深度卷積神經(jīng)網(wǎng)絡(luò)隨著卷積層的增加,高層特征的語義信息更強(qiáng),但其分辨率低,相反,低層特征的分辨率高,語義信息較弱。為了充分利用高層特征和低層特征的優(yōu)勢(shì),采用重復(fù)使用特征的方式,將高層特征的抽象特征橫向連接后自頂向下與復(fù)用的低層特征進(jìn)行第一次特征融合,得到過渡特征集合,然后在第二次特征融合過程對(duì)過渡特征中的高層特征進(jìn)行特征復(fù)用,將過渡特征中的低層特征橫向連接后自底向上與復(fù)用的高層特征進(jìn)行特征融合,最終得到多尺度特征集合。特征網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 特征網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Feature network structure
本文算法在ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)中采用自底向上的路徑進(jìn)行特征提取,前向過程中分為5個(gè)階段,每個(gè)階段都是尺度步長(zhǎng)為2的特征映射,其中在同一個(gè)階段內(nèi)都有許多同樣輸出大小的特征層級(jí),結(jié)果表明,高層的特征輸出表征能力更強(qiáng),因此本文將采用每個(gè)階段最后一層的輸出作為組成特征集合的特征,如圖2,C1~C5是每個(gè)階段最后一層的輸出組成的特征集合。
第一階段特征融合的過程中,因?yàn)镃1分辨率過大,語義信息較弱,考慮到訓(xùn)練過程中占用大量的顯存,所以特征融合的過程中將摒棄第一階段輸出的特征C1。本文采用1×1的卷積核對(duì)C2~C5的特征橫向連接進(jìn)行深度修正,將所有特征圖的通道數(shù)目都統(tǒng)一修正為256,然后在這基礎(chǔ)上添加自頂向下的縱向連接,對(duì)每個(gè)特征圖進(jìn)行上采樣,為了上采樣操作都能有參數(shù)可以被網(wǎng)絡(luò)學(xué)習(xí),這里使用轉(zhuǎn)置卷積進(jìn)行上采樣替代原來的雙線性插值,本文在實(shí)驗(yàn)部分對(duì)比了雙線性插值和轉(zhuǎn)置卷積上采樣的兩種方法。
在經(jīng)過第一階段的特征融合后,得到5個(gè)尺度不一的特征圖F2~F6,其中F6是由F5特征圖下采樣得到的。雖然經(jīng)過了第一次特征融合,但是過渡特征中高層的特征信息相比低層特征較弱,低層特征中分辨率高,包含了更多細(xì)小目標(biāo)的細(xì)節(jié)特征,這對(duì)于小目標(biāo)的檢測(cè)尤為重要。而且高層特征與低層特征之間的相對(duì)路徑較長(zhǎng),直接融合會(huì)造成特征相關(guān)性的流失。
基于上述問題,本文作出了設(shè)想,對(duì)第一次融合后的過渡特征再進(jìn)行第二次特征融合,采用1×1的卷積核對(duì)F2~F6特征圖橫向連接,首先對(duì)F2經(jīng)過1×1的橫向卷積得到L2,然后對(duì)L2進(jìn)行最大池化下采樣操作得到與F3同樣尺寸的特征圖,最后采用ele-sum方式融合得到L3。在這基礎(chǔ)上,同樣的操作方式添加自底向上的縱向連接,對(duì)每個(gè)特征圖利用最大池化進(jìn)行下采樣,然后采用ele-sum的方式實(shí)現(xiàn)多尺度的特征融合。最后,對(duì)融合得到的L2~L6特征圖通過3×3的卷積運(yùn)算,去除混疊效應(yīng)后輸入到RPN網(wǎng)絡(luò)進(jìn)行分類和回歸。
經(jīng)過兩次特征融合后,得到特征圖L2~L6,本文將第二次融合的特征集{L2,L3,L4,L5,L6}輸入到區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)中,RPN進(jìn)行分類和回歸前先遍歷輸入的每張?zhí)卣鲌D的像素點(diǎn),生成目標(biāo)的候選區(qū)域,文中采用5種不同尺度面積{322, 642, 1282, 2562, 5122}分別對(duì)應(yīng)3種比例為{1∶2, 1∶1, 2∶1}的矩形寬高,在每個(gè)像素點(diǎn)生成15個(gè)不同尺度的錨框(anchor)。
在所有特征圖上得到錨框后,為平衡正負(fù)樣本的數(shù)量,獲得高質(zhì)量的訓(xùn)練數(shù)據(jù),RPN對(duì)所有錨框和目標(biāo)的真實(shí)目標(biāo)框進(jìn)行IOU(Intersection over Union)計(jì)算來劃分所有正負(fù)樣本。由于產(chǎn)生的錨框數(shù)量較多,訓(xùn)練過程中選取128個(gè)正樣本和128個(gè)負(fù)樣本進(jìn)行訓(xùn)練。RPN前向傳播計(jì)算目標(biāo)的分類得分和坐標(biāo)點(diǎn)的偏移量,如圖3展示了RPN網(wǎng)絡(luò)的具體結(jié)構(gòu)實(shí)際分為兩條分支,上面一條分支表示錨框通過SoftMax二分類來獲得前景和背景,下面一條分支用于計(jì)算錨框的坐標(biāo)點(diǎn)偏移量以及框的寬高微調(diào),從而獲得精確的建議框(proposal)。RPN對(duì)錨框的回歸計(jì)算如圖4所示,本文設(shè)定IOU閾值為0.7,當(dāng)錨框與真實(shí)目標(biāo)IOU值大于0.7時(shí),將被判定為正樣本,由于被選取的正樣本P坐標(biāo)與真實(shí)目標(biāo)G的坐標(biāo)存在一定的差異,所以網(wǎng)絡(luò)會(huì)通過對(duì)這些樣本進(jìn)行回歸計(jì)算學(xué)習(xí)一種映射關(guān)系,使得訓(xùn)練樣本P的坐標(biāo)經(jīng)過回歸計(jì)算后得到與G更加接近的回歸坐標(biāo)?。對(duì)于候選框相對(duì)于圖像的位置,本文使用(x,y,w,h)表示錨框的中心坐標(biāo)和寬高,其中(x,y)表示候選框的中心點(diǎn)坐標(biāo),(w,h)表示候選框的寬高?;貧w的思路是:給定P=(Px,Py,Pw,Ph),尋找一種映射f,使得f(Px,Py,Pw,Ph)=(?x,?y,?w,?h),?中(?x,?y,?w,?h)≈(Gx,Gy,Gw,Gh)。
圖3 RPN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 RPN network structure
圖4 邊框回歸過程圖Fig.4 Border regression process
回歸過程中先做平移(Δx,Δy),其中Δx=Pwdx(P),Δy=Phdy(P),方程表達(dá)式為
然后做尺度縮放(Sw,Sh),其中Sw=Pwdw(P),Sh=Phdh(P),方程表達(dá)式為
觀察公式(1)~(4)可知,需要學(xué)習(xí)的是dx(P),dy(P),dw(P),dh(P)這4個(gè)變換。當(dāng)輸入的錨框與真實(shí)目標(biāo)框相差較小時(shí),這種變化可以被認(rèn)為是一種線性變換,那么就可以用線性回歸來對(duì)窗口進(jìn)行建模微調(diào)。對(duì)于該問題,輸入的特征向量被定義為Φ(P);用d*(P)表示dx(P),dy(P),dw(P),dh(P)這4個(gè)變換,所以目標(biāo)函數(shù)可以表示為d*(P)=W*TΦ(P),符號(hào)*表示(x,y,w,h)內(nèi)的其中一個(gè),那么W*對(duì)應(yīng)(x,y,w,h)中模型要學(xué)習(xí)的參數(shù),也就是每個(gè)變換對(duì)應(yīng)上述的目標(biāo)函數(shù)。同時(shí),訓(xùn)練模型還需要傳入預(yù)測(cè)邊界框A與真實(shí)邊界框G之間的變化量,即(tx,ty,tw,th),為了讓預(yù)測(cè)值d*(P)與真實(shí)值差距最小,設(shè)計(jì)了smooth L1損失函數(shù),詳見式(9)。
錨框(anchor)經(jīng)過RPN的分類和回歸后,得到一些候選區(qū)域(proposal),接下來的步驟是將這些候選區(qū)域(proposal)重新映射到原圖的位置,并通過ROI(Region of Interest) Align使得每個(gè)候選區(qū)域生成同樣尺寸的特征圖,最后把這些特征圖連接兩個(gè)獨(dú)立的全連接層,對(duì)其進(jìn)行第二次精準(zhǔn)的分類和回歸,從而得到該候選區(qū)域的所屬類別以及具體坐標(biāo),除此之外還添加了一條mask分支進(jìn)行語義分割。本文的檢測(cè)過程主要是two-stage,首先利用RPN網(wǎng)絡(luò)進(jìn)行二分類和回歸,然后經(jīng)過RCNN連接全連接層進(jìn)行多分類、回歸以及mask分支的語義分割。算法流程圖如圖5所示。針對(duì)這些地方本文采用cross entropy loss和smooth L1 loss,相關(guān)損失函數(shù)定義如下:L=Lbox+Lmask,mask分支在每個(gè)像素點(diǎn)上應(yīng)用sigmoid函數(shù)代替SoftMax函數(shù),整體Lmask損失函數(shù)定義為平均二值交叉熵,這樣可以避免類別之間的競(jìng)爭(zhēng),其中Lbox表示目標(biāo)的分類損失和回歸損失和,表示為
圖5 算法流程圖Fig.5 Algorithm process
分類損失函數(shù)包括RPN分類損失和RCNN分類損失:
Ncls和Nreg分別表示分類和回歸的樣本個(gè)數(shù),i代表第i個(gè)樣本,表示樣本的預(yù)測(cè)概率,當(dāng)為正樣本時(shí),其值為1,否則為0;和為預(yù)測(cè)的變換值和真實(shí)的變換值。
本文實(shí)驗(yàn)所使用的環(huán)境配置為:LINUX 64 bit操作系統(tǒng):Ubuntu16.04,Intel Xeon E5 V3 2600系列CPU,16 GB內(nèi)存,NVIDIA GeForce RTX2080Ti 11 GB顯卡。實(shí)驗(yàn)程序所在TensorFlow[17]深度學(xué)習(xí)框架下使用python編程語言實(shí)現(xiàn)。
MS COCO的全稱是Microsoft Common Objects in Context,是目前最具有權(quán)威的數(shù)據(jù)集之一。COCO數(shù)據(jù)集是一個(gè)大型的、豐富的物體檢測(cè)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集以平常的視覺物體為目標(biāo),主要從復(fù)雜的日常場(chǎng)景中截取。圖像包括91類目標(biāo),328000影響和2500000個(gè)標(biāo)簽。目前為止為語義分割最大的數(shù)據(jù)集,提供類別有80類,有超過33萬張圖片,其中20萬張有標(biāo)注,整個(gè)數(shù)據(jù)集中個(gè)體目標(biāo)超過150萬個(gè)。本文采用COCO2014的數(shù)據(jù)集作為訓(xùn)練和測(cè)試,2014年版本訓(xùn)練集擁有82783張圖片,驗(yàn)證集擁有40504張,測(cè)試集40775張圖片,有270 K的分割人物和886 K的分割物體。
本文采用COCO2014作為訓(xùn)練集和測(cè)試集,實(shí)驗(yàn)采取了端到端的訓(xùn)練方法,利用ImageNet[18]預(yù)訓(xùn)練的權(quán)重初始化ResNet50骨干網(wǎng)絡(luò),其余部分的網(wǎng)絡(luò)權(quán)重采取隨機(jī)初始化。網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率為0.001,權(quán)重衰減系數(shù)為0.0001,優(yōu)化動(dòng)量參數(shù)為0.9。最大訓(xùn)練迭代次數(shù)為192000,驗(yàn)證迭代次數(shù)為9600,NMS閾值的設(shè)置為0.7。對(duì)于輸入的圖片尺寸都調(diào)整為最短邊不小于800,最長(zhǎng)邊不超過1200,訓(xùn)練的過程中先對(duì)每個(gè)批次的訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。一定程度避免網(wǎng)絡(luò)訓(xùn)練過擬合。
為比較上采樣方法中雙線性插值和轉(zhuǎn)置卷積的性能,本文算法基于ResNet50+FPN的骨干網(wǎng)絡(luò),采用AP(Average Precision)作為定量的評(píng)估指標(biāo),其中AP表示IOU閾值在0.5~0.95之間每隔0.5計(jì)算一次,然后取平均值得到,AP50、AP75分別表示IOU閾值大于0.5和0.75的測(cè)量值。在COCO2014的數(shù)據(jù)集上,轉(zhuǎn)置卷積相比于雙線性插值分別在AP、AP50、AP75上取得了1.8%,0.6%,0.2%的提升,結(jié)果表明利用轉(zhuǎn)置卷積進(jìn)行上采樣被網(wǎng)絡(luò)學(xué)習(xí)有利于得到較好的檢測(cè)效果,如表1所示。
表1 不同上采樣方法的性能比較Table 1 Performance comparison of different upsampling methods
本文將主流的目標(biāo)檢測(cè)算法R-FCN[19]、FSSD、Mask RCNN與提出的算法進(jìn)行性能比較,見圖6和表2。從表2中可以看出,本文提出的方法是基于ResNet50+FPN的骨架網(wǎng)絡(luò)中對(duì)過渡特征復(fù)用并進(jìn)行二次特征融合,最終在各項(xiàng)評(píng)價(jià)指標(biāo)AP、AP50、AP75中效果都優(yōu)于以上3個(gè)算法。在APS、APM、APL的3項(xiàng)指標(biāo)中也能取得較好的效果,分別得到了20.4%,36.1%,53.3%的預(yù)測(cè)值(指標(biāo)APS表示為像素面積小于322的目標(biāo)框的AP預(yù)測(cè)值,APM表示像素面積在322~962的目標(biāo)框預(yù)測(cè)值,APL表示像素面積大于962的目標(biāo)框預(yù)測(cè)值)。特別的,對(duì)于小目標(biāo)的AP預(yù)測(cè)值相比于Mask RCNN有著3.5%的提升,結(jié)果表明特征融合對(duì)小目標(biāo)的檢測(cè)有著明顯的提升,二次融合彌補(bǔ)了特征提取過程中特征之間相關(guān)性的損失,融合了各層級(jí)特征中豐富有用的信息,使得本文的網(wǎng)絡(luò)所提取的特征更具有表征能力。
圖6 本文算法和Mask RCNN的檢測(cè)效果對(duì)比圖Fig.6 Comparison of the detection effect of the algorithm in this paper and Mask RCNN
表2 經(jīng)典算法的性能比較Table 2 Performance comparison of classic algorithms
多尺度問題一直是目標(biāo)檢測(cè)算法中關(guān)注的問題,文中提出了一種基于Mask RCNN二次融合的目標(biāo)檢測(cè)算法,該算法在FPN的基礎(chǔ)上對(duì)過渡特征進(jìn)行復(fù)用并采用二次特征融合的方式,讓過渡特征的特征圖再次進(jìn)行自底向上的融合,在一定程度上特征信息豐富的低層補(bǔ)充到高層特征。最終在COCO2014的數(shù)據(jù)集上AP、AP50、AP75分別達(dá)到了35.3%,57.5%,36.6%,APS、APM、APL都達(dá)到了較好的效果,分別為20.4%,36.7%,47.0%,實(shí)驗(yàn)結(jié)果表明對(duì)卷積特征進(jìn)行二次特征融合,彌補(bǔ)了特征提取過程中特征之間相關(guān)性的損失,融合了各層級(jí)特征中豐富的有用信息,使得網(wǎng)絡(luò)所提取的特征更具有表征能力,對(duì)漏檢的避免和小目標(biāo)的檢測(cè)有著顯著的提升。但本文采取了轉(zhuǎn)置卷積和二次特征融合,一定程度上影響了算法的訓(xùn)練速度,所以如何保持精度的同時(shí)優(yōu)化模型的網(wǎng)絡(luò)結(jié)構(gòu),從而提高訓(xùn)練速度是未來的研究方向。
(責(zé)任編輯:楊耀輝)