梁延禹,李金寶,3+
1.黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,哈爾濱 150080
2.黑龍江大學(xué)黑龍江省數(shù)據(jù)庫(kù)與并行計(jì)算重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150080
3.黑龍江大學(xué)軟件學(xué)院,哈爾濱 150080
近幾年隨著深度學(xué)習(xí)的發(fā)展,越來越多的目標(biāo)檢測(cè)算法被提出。對(duì)于具有較高分辨率的大目標(biāo),目前的檢測(cè)方法已經(jīng)取得了較好的檢測(cè)結(jié)果[1-3]。但是這些方法在對(duì)包含語(yǔ)義信息相對(duì)較少的小目標(biāo)檢測(cè)時(shí)效果較差。而小目標(biāo)檢測(cè)在日常生活普遍存在,例如遠(yuǎn)距離的人臉識(shí)別、自動(dòng)駕駛中交通標(biāo)志檢測(cè)等。因此小目標(biāo)檢測(cè)仍然是目標(biāo)檢測(cè)中的一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
卷積神經(jīng)網(wǎng)絡(luò)目前廣泛應(yīng)用在目標(biāo)檢測(cè)中,它利用卷積核實(shí)現(xiàn)了局部連接,傳遞相鄰兩個(gè)特征層之間的信息。為了獲取距離較遠(yuǎn)的局部特征之間的相關(guān)性,通常需要經(jīng)過大量的卷積操作。對(duì)于在整個(gè)圖像中占比較小、包含語(yǔ)義信息較少的小目標(biāo)而言,卷積操作會(huì)損失大量的細(xì)節(jié)信息,在后續(xù)傳播中可能造成小目標(biāo)的細(xì)節(jié)特征丟失。
最近提出的基于深度學(xué)習(xí)的方法研究了小目標(biāo)檢測(cè)任務(wù)中目標(biāo)的特征表達(dá)能力弱的問題。Chen等人[4]通過擴(kuò)大輸入圖片的尺度進(jìn)而增加小目標(biāo)的分辨率,提高了小目標(biāo)的檢測(cè)準(zhǔn)確率,但同時(shí)也降低了網(wǎng)絡(luò)的檢測(cè)速度。2016年,Liu等人[5]首次提出利用不同尺度特征圖進(jìn)行的目標(biāo)檢測(cè)方法(single shot multibox detector,SSD),使小目標(biāo)能夠在目標(biāo)細(xì)節(jié)信息較為豐富的淺層特征圖中進(jìn)行檢測(cè)。但是,淺層特征中缺乏目標(biāo)的上下文語(yǔ)義信息,會(huì)導(dǎo)致檢測(cè)到的小目標(biāo)出現(xiàn)局部缺失等問題。為了解決此類問題,Zhu等人[6]利用特征金字塔結(jié)構(gòu)將網(wǎng)絡(luò)的深、淺層特征進(jìn)行結(jié)合,以獲取小目標(biāo)的豐富特征。Li等人[7]提出利用感知生成對(duì)抗網(wǎng)絡(luò)生成小目標(biāo)的高分辨率表達(dá)特征,縮小小目標(biāo)與大目標(biāo)特征之間的差距以提升小目標(biāo)檢測(cè)效果,但該網(wǎng)絡(luò)中包含的參數(shù)較多,增加了計(jì)算負(fù)擔(dān)。
針對(duì)上述小目標(biāo)檢測(cè)存在的問題,本文提出一種多尺度非局部注意力網(wǎng)絡(luò)(multi-scale non-local attention network,MSNAN)。首先,MSNAN利用淺層特征圖中目標(biāo)細(xì)節(jié)信息相對(duì)豐富的特點(diǎn),在淺層特征中進(jìn)行小目標(biāo)的檢測(cè)。其次,為了提高網(wǎng)絡(luò)的特征獲取能力,又在深層特征中利用密集連接結(jié)構(gòu)實(shí)現(xiàn)特征的跨層連接,加強(qiáng)深層網(wǎng)絡(luò)的信息傳輸能力。不僅提高了小目標(biāo)檢測(cè)的準(zhǔn)確率,而且使模型具有實(shí)時(shí)性。為了彌補(bǔ)淺層特征中缺乏的目標(biāo)上下文語(yǔ)義信息,本文設(shè)計(jì)了一個(gè)非局部通道注意力模塊(non-local channel attention block,NLCA-Block)。該模塊包括兩個(gè)過程,在非局部操作過程中通過合并通道信息獲取全局空間信息對(duì)局部特征的影響;在注意力機(jī)制過程中利用池化操作收集每個(gè)通道的全局信息,以生成通道間的非線性關(guān)系。該模塊既利用空間域信息增強(qiáng)了局部特征表達(dá)能力,又利用通道域注意力機(jī)制對(duì)通道間的特征進(jìn)行校準(zhǔn),將空間注意力機(jī)制與通道注意力機(jī)制相結(jié)合,豐富了淺層特征中小目標(biāo)的上下文語(yǔ)義信息。本文提出的MSNAN在PASCAL VOC[8]、MS COCO[9]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有目標(biāo)檢測(cè)方法相比,MSNAN能夠有效提高小目標(biāo)的檢測(cè)效果,并且可以達(dá)到實(shí)時(shí)檢測(cè)。
利用多尺度特征進(jìn)行檢測(cè)可以提高小目標(biāo)的檢測(cè)效果。其中多尺度特征通??梢酝ㄟ^多尺度的輸入圖片[10]或在網(wǎng)絡(luò)結(jié)構(gòu)中選擇多尺度特征圖實(shí)現(xiàn),進(jìn)而對(duì)不同大小的目標(biāo)進(jìn)行檢測(cè)。
Shen等人[11]提出一種無需預(yù)訓(xùn)練模型的目標(biāo)檢測(cè)算法,利用密集連接結(jié)構(gòu)[12]的思想實(shí)現(xiàn)模塊間的特征傳遞,最終可以達(dá)到與使用預(yù)訓(xùn)練模型檢測(cè)方法相近的檢測(cè)精度。Cai等人[13]針對(duì)多尺度目標(biāo)的檢測(cè)問題,在不同檢測(cè)層設(shè)計(jì)了不同的檢測(cè)方法以檢測(cè)相應(yīng)的目標(biāo)。利用反卷積操作增加淺層特征圖的分辨率,雖然提高了小目標(biāo)檢測(cè)效果,但增加了模型計(jì)算量。Liu等人[14]模擬人類視覺的感受野,通過擴(kuò)張卷積操作有效增大了感受野,提高了目標(biāo)檢測(cè)準(zhǔn)確率。
為了獲取目標(biāo)更加豐富的語(yǔ)義信息,一些方法采用將卷積過程中的多個(gè)特征圖相融合的方法增強(qiáng)特征的表達(dá)能力[15-16]。Lin等人[17]將深層特征和淺層特征進(jìn)行融合,逐步增加了淺層特征的高級(jí)語(yǔ)義信息,進(jìn)而提升了整個(gè)模型的檢測(cè)效果。Zhou等人[18]采用自帶高低層特征融合的DenseNet網(wǎng)絡(luò)[12]作為特征提取網(wǎng)絡(luò),并融合各部分預(yù)測(cè)結(jié)果得到最終結(jié)果。其中特征融合過程采用類似特征金字塔的結(jié)構(gòu),利用尺度轉(zhuǎn)移層生成尺寸較大的特征映射。Fu等人[19]利用反卷積模型將不同尺度特征進(jìn)行融合,形成了類似沙漏型的網(wǎng)絡(luò)結(jié)構(gòu),在多個(gè)檢測(cè)層中獨(dú)立進(jìn)行檢測(cè),但引入大量參數(shù),降低了模型檢測(cè)速度。Cui等人[20]將淺層特征與深層特征進(jìn)行融合,采用7個(gè)不同尺度特征圖進(jìn)行檢測(cè),在小目標(biāo)檢測(cè)任務(wù)中取得較好檢測(cè)效果。
上述檢測(cè)方法的目的是通過多尺度特征獲取小目標(biāo)的豐富信息,利用融合后的特征增強(qiáng)小目標(biāo)特征表達(dá)能力,進(jìn)而提高小目標(biāo)檢測(cè)準(zhǔn)確率。然而,這些方法并沒有在獲取小目標(biāo)上下文語(yǔ)義信息的同時(shí)兼顧模型的計(jì)算量,會(huì)產(chǎn)生降低網(wǎng)絡(luò)檢測(cè)速度的問題。
最近注意力機(jī)制受到了人們的廣泛關(guān)注,這種方法常應(yīng)用于圖像分類、檢測(cè)等方面。一些研究利用注意力機(jī)制增強(qiáng)特征的表達(dá)能力,提高目標(biāo)檢測(cè)任務(wù)的檢測(cè)效果。
Hu等人[21]首次提出利用注意力機(jī)制對(duì)通道間的相互依賴關(guān)系進(jìn)行建模。該方法獲得特征圖的每個(gè)通道的全局信息,并為每個(gè)特征通道重新分配權(quán)重,根據(jù)重要性提升或抑制相應(yīng)的特征。Kong等人[22]在特征金字塔結(jié)構(gòu)基礎(chǔ)上,將全局注意力與局部注意力重新組合,進(jìn)而在空間和通道間提取目標(biāo)全局和局部的相關(guān)特征。Wang等人[23]提出了非局部神經(jīng)網(wǎng)絡(luò),通過建立特征圖中位置間的聯(lián)系,增強(qiáng)空間局部特征的表達(dá)能力。然而,非局部操作僅利用特征的空間信息相關(guān)性,對(duì)每個(gè)通道內(nèi)的特征進(jìn)行相同處理,忽略了不同通道間的信息對(duì)目標(biāo)特征的影響,無法充分提取小目標(biāo)的細(xì)粒度特征,影響最終的檢測(cè)效果。
本文在淺層特征的空間域和通道域兩方面對(duì)目標(biāo)特征進(jìn)行增強(qiáng)和校準(zhǔn),利用全局信息對(duì)局部信息的影響,獲取空間局部信息的遠(yuǎn)距離依賴關(guān)系,并利用通道注意力機(jī)制增強(qiáng)淺層特征中小目標(biāo)的表達(dá)能力。同時(shí),在深層特征中利用密集連接結(jié)構(gòu)實(shí)現(xiàn)不相鄰的特征層之間的信息傳遞,增強(qiáng)網(wǎng)絡(luò)的特征獲取能力。在實(shí)現(xiàn)深度網(wǎng)絡(luò)的特征提取的同時(shí)減少模型的參數(shù)量,提高網(wǎng)絡(luò)中特征的利用率和網(wǎng)絡(luò)的運(yùn)行速度。
Fig.1 Architecture model of multi-scale non-local attention network圖1 多尺度非局部注意力網(wǎng)絡(luò)整體框架結(jié)構(gòu)
針對(duì)目標(biāo)檢測(cè)任務(wù)中小目標(biāo)上下文語(yǔ)義信息缺失的問題,本文提出了一個(gè)多尺度非局部注意力網(wǎng)絡(luò)MSNAN,如圖1所示。MSNAN是一個(gè)端到端的網(wǎng)絡(luò),它主要由兩部分組成:一個(gè)是淺層網(wǎng)絡(luò)中的非局部通道注意力模塊;另一個(gè)是深層網(wǎng)絡(luò)中的密集連接模塊。整個(gè)網(wǎng)絡(luò)以VGG-16作為基礎(chǔ)部分,分別用兩個(gè)卷積過程替換其兩個(gè)全連接層。在Conv7層后利用連續(xù)的卷積層進(jìn)行下采樣操作,獲取不同尺度的特征圖,整個(gè)網(wǎng)絡(luò)共包括11個(gè)卷積過程。選擇基礎(chǔ)網(wǎng)絡(luò)中的2個(gè)卷積層作為檢測(cè)層,在新添加的卷積過程中選擇4個(gè)卷積層作為檢測(cè)層,共利用6個(gè)不同尺度檢測(cè)層構(gòu)建多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)。
非局部通道注意力模塊:為增強(qiáng)淺層特征中小目標(biāo)的上下文語(yǔ)義信息,在網(wǎng)絡(luò)的淺層部分添加非局部通道注意力模塊。該模塊首先利用1×1的卷積操作對(duì)特征圖的通道進(jìn)行合并,以得到特征信息空間域的相關(guān)性。然后利用全局平均池化操作對(duì)特征圖的空間維度進(jìn)行壓縮,添加Relu激活函數(shù)和Sigmoid函數(shù)重構(gòu)通道間的非線性關(guān)系,彌補(bǔ)忽略的通道間的目標(biāo)特征關(guān)系。使目標(biāo)特征能夠利用空間及通道間的全局信息得以增強(qiáng)。選取網(wǎng)絡(luò)淺層部分中感受野較大的Conv4_3和Conv7兩個(gè)檢測(cè)層進(jìn)行小目標(biāo)檢測(cè),其中NLCA-Block將不改變特征圖的大小,對(duì)應(yīng)的特征圖尺寸分別為38和19,通道數(shù)分別為512和1 024。
密集連接模塊:利用NLCA-Block在淺層特征中得到了包含目標(biāo)上下文信息的特征,同時(shí)還在網(wǎng)絡(luò)的深層部分采用卷積層的密集連接(dense block)結(jié)構(gòu),進(jìn)一步加強(qiáng)不相鄰的特征層之間的信息傳遞,避免梯度消失問題。其中每個(gè)密集單元將之前所有層的特征作為輸入特征,并將輸出特征通過合并的方式與該單元的輸入特征進(jìn)行拼接,作為下一個(gè)密集單元的輸入特征。選擇在Conv8和Conv9卷積過程中使用密集連接結(jié)構(gòu),這種連接結(jié)構(gòu)增強(qiáng)了網(wǎng)絡(luò)中的特征傳遞。MSNAN中的密集連接模塊共包含6個(gè)密集連接單元,如圖1所示,X0作為密集連接模塊的輸入特征圖,通道數(shù)為512,卷積核大小為1×1和3×3,增長(zhǎng)率設(shè)定為32,得到了輸出特征圖X5。將密集連接模塊替換卷積操作過程,提高了深層網(wǎng)絡(luò)的特征獲取能力并減少了模型的參數(shù)量。
最后,整個(gè)網(wǎng)絡(luò)中選取了6個(gè)不同尺度的特征圖對(duì)目標(biāo)進(jìn)行檢測(cè),特征圖的大小分別為32、19、10、5、3、1。在每個(gè)檢測(cè)層中生成默認(rèn)目標(biāo)候選框,并計(jì)算候選框與真實(shí)標(biāo)簽之間的損失。利用Softmax函數(shù)計(jì)算模型的分類損失,利用Smooth L1函數(shù)計(jì)算模型的回歸損失。
NLCA-Block的目的是增強(qiáng)網(wǎng)絡(luò)淺層部分小目標(biāo)的上下文語(yǔ)義信息,然后在包含小目標(biāo)上下文語(yǔ)義信息的特征層中進(jìn)行小目標(biāo)檢測(cè)。同時(shí)該模塊可增強(qiáng)整個(gè)網(wǎng)絡(luò)前饋過程中的特征表達(dá)能力,提高模型的檢測(cè)準(zhǔn)確率。NLCA-Block如圖2所示。
非局部模塊(non-local block)[23]在圖像和視頻檢測(cè)中表現(xiàn)出了較好效果,該模塊可以壓縮通道特征、聚合全局空間特征以增強(qiáng)目標(biāo)局部特征。該過程首先計(jì)算了當(dāng)前像素點(diǎn)與特征圖內(nèi)所有像素點(diǎn)間的相似性值,然后對(duì)相似性值進(jìn)行加權(quán)求和以表示當(dāng)前像素點(diǎn)特征信息,達(dá)到利用全局空間特征增強(qiáng)局部特征的目的。
NLCA-Block首先通過非局部操作獲取特征在空間域的全局信息,進(jìn)而增強(qiáng)小目標(biāo)空間維度特征表達(dá)能力,具體計(jì)算過程如下:
Fig.2 Non-local channel attention block圖2 非局部通道注意力模塊
其中,X、Y分別為輸入和輸出特征,X∈?H×W×C(H、W、C分別為特征圖的高度、寬度和通道數(shù)),X和Y具有相同維度。j為輸入特征中所有的位置索引,i為輸出特征的所有位置索引。F(Xi,Xj)函數(shù)用于計(jì)算Xi和Xj之間的相似性,g(Xj)函數(shù)計(jì)算位置j的特征表示,T(X)為歸一化參數(shù)。本文采用嵌入式高斯函數(shù)作為相似性函數(shù),可表示為:
其中,θ(Xi)=Wθ Xi,φ(Xj)=WφXj。Wθ、Wφ是通過學(xué)習(xí)得到的權(quán)重矩陣。
結(jié)合殘差網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn),該模塊將原始輸入信息X與非局部操作得到的結(jié)果WzY進(jìn)行疊加,得到通過空間全局信息得以增強(qiáng)的目標(biāo)特征Z。該模塊也可添加到其他的網(wǎng)絡(luò)框架中,可表示為:
其中,Y由式(1)計(jì)算得到,Wz為權(quán)重矩陣。
由于非局部操作過程把特征圖各通道進(jìn)行了合并,忽略了特征圖通道之間的相關(guān)性。因此提出了非局部通道注意力模塊,進(jìn)一步利用通道注意力機(jī)制獲取特征圖各通道間的依賴關(guān)系,使目標(biāo)特征從空間和通道間均得以增強(qiáng)。該模塊對(duì)特征圖各通道進(jìn)行全局平均池化,將特征圖空間維度進(jìn)行壓縮,操作過程如下:
其中,H和W分別為特征圖的高度和寬度,ZC表示第C個(gè)通道的特征,i和j分別為特征圖高度和寬度的位置索引。通過式(4)對(duì)每個(gè)特征圖進(jìn)行歸一化,將特征圖空間維度進(jìn)行壓縮,在通道上響應(yīng)全局分布。將H×W×C的輸入特征轉(zhuǎn)化為1×1×C的輸出特征,輸入與輸出特征在通道數(shù)上相匹配,從而獲取到每個(gè)通道域的全局信息。
對(duì)式(4)中得到的M重新計(jì)算通道的權(quán)重。利用兩個(gè)全連接層、Relu激活函數(shù)和Sigmoid函數(shù)獲取0~1之間的歸一化權(quán)重,并將歸一化后的權(quán)重加權(quán)到每個(gè)通道的特征上,完成通道維度上對(duì)特征Z的重新標(biāo)定,并得到特征S,計(jì)算過程如下:
其中,特征Z由式(3)得到,M由式(4)得到;σ(?)為Relu激活函數(shù);δ(?)為Sigmoid函數(shù);W1、W2是權(quán)重矩陣。
最后,利用特征S與原始特征X進(jìn)行像素點(diǎn)的疊加,如式(6):
為了評(píng)估本文方法的檢測(cè)效果,在PASCAL VOC數(shù)據(jù)集和MS COCO數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)。其中PASCAL VOC數(shù)據(jù)集包括20類目標(biāo),MS COCO數(shù)據(jù)集包括80類目標(biāo),使用平均準(zhǔn)確率(mean average precision,mAP)和幀率(frame per second,F(xiàn)PS)作為評(píng)價(jià)指標(biāo)。根據(jù)MS COCO數(shù)據(jù)集的標(biāo)準(zhǔn),規(guī)定目標(biāo)面積小于32×32為小目標(biāo),目標(biāo)面積大于32×32且小于96×96為中等目標(biāo),目標(biāo)面積大于96×96則為大目標(biāo)。
采用與SSD類似的訓(xùn)練設(shè)置進(jìn)行模型訓(xùn)練。首先,為了增強(qiáng)模型的性能,對(duì)數(shù)據(jù)集中原始圖片進(jìn)行數(shù)據(jù)增強(qiáng),其方法包括隨機(jī)裁剪、隨機(jī)光照補(bǔ)償、隨機(jī)尺度變換、隨機(jī)水平和垂直翻轉(zhuǎn)等,此操作能夠使模型在檢測(cè)過程中更加穩(wěn)定。其次,為檢測(cè)不同尺度圖像中包含的不同尺度、不同形狀的目標(biāo),在每個(gè)檢測(cè)層中設(shè)定不同尺度的先驗(yàn)框與真實(shí)標(biāo)簽進(jìn)行匹配。參考SSD方法中先驗(yàn)框的設(shè)計(jì)原則,為每個(gè)先驗(yàn)框設(shè)定兩種不同的長(zhǎng)寬比,分別為2.0和3.0。其中在Conv10_2和Conv11_2檢測(cè)層中每個(gè)檢測(cè)點(diǎn)設(shè)置4個(gè)候選框,在其他4個(gè)檢測(cè)層中每個(gè)檢測(cè)點(diǎn)設(shè)置6個(gè)檢測(cè)框。
實(shí)驗(yàn)環(huán)境為基于Windows 7操作系統(tǒng)的PyTorch深度學(xué)習(xí)框架,使用GPU進(jìn)行訓(xùn)練,配置NVIDIA CUDA8.0+cuDNN6.0的深度學(xué)習(xí)庫(kù)加速GPU運(yùn)算。硬件配置為:Intel Core i7-7820X處理器,NVIDIA GeForce GTX 1080Ti GPU,Kingston DDR4 128 GB內(nèi)存。
在PASCAL VOC 2007和PASCLA VOC 2012數(shù)據(jù)集的訓(xùn)練驗(yàn)證集對(duì)模型進(jìn)行聯(lián)合訓(xùn)練(16 551張圖片),并在PASCAL VOC 2007測(cè)試集中進(jìn)行測(cè)試(4 952張圖片)。其中當(dāng)輸入圖片大小為300×300時(shí),設(shè)定批次大小為32;當(dāng)輸入圖片大小為512×512時(shí),設(shè)定批次大小為16。使用初始學(xué)習(xí)率為10-3迭代60 000次,將學(xué)習(xí)率降為10-4迭代40 000次,最后將學(xué)習(xí)率降為10-5迭代20 000次。使用隨機(jī)梯度下降優(yōu)化方法優(yōu)化參數(shù),動(dòng)量和權(quán)重衰減參數(shù)分別為0.9和0.000 5。
表1給出了本文方法與Faster R-CNN、R-FCN、SSD、DSSD和MDSSD等檢測(cè)方法在PASCAL VOC 2007測(cè)試集中的檢測(cè)準(zhǔn)確率對(duì)比結(jié)果。在輸入圖片尺寸為300×300像素時(shí),MSNAN方法的mAP為79%,將輸入圖片尺寸擴(kuò)大為512×512像素時(shí),MSNAN方法的mAP為80.5%。與SSD方法相比,MSNAN的檢測(cè)精度分別提高了1.5個(gè)百分點(diǎn)和1個(gè)百分點(diǎn)。雖然MDSSD將網(wǎng)絡(luò)中不同層特征進(jìn)行融合,增強(qiáng)網(wǎng)絡(luò)特征的表達(dá)能力,但其檢測(cè)準(zhǔn)確率仍低于本文方法。由此說明,本文利用非局部通道注意力模塊和密集連接結(jié)構(gòu)有效地提高了檢測(cè)效果。
此外MSNAN與輸入圖片尺寸較大的兩階段目標(biāo)檢測(cè)算法,例如Faster R-CNN、MR-CNN、R-FCN等方法相比不僅檢測(cè)速度快,而且檢測(cè)準(zhǔn)確率也得到較大提升。雖然DSSD513的mAP高于MSNAN 512,但由于DSSD513使用深層次的Residual-101結(jié)構(gòu)作為網(wǎng)絡(luò)基礎(chǔ)部分,其訓(xùn)練和測(cè)試過程將造成大量時(shí)間消耗。而MSNAN512采用VGG-16作為基礎(chǔ)部分,網(wǎng)絡(luò)層次較少,檢測(cè)速度可以達(dá)到22.4FPS。
在PASCAL VOC 2007數(shù)據(jù)集中將MSNAN模型在檢測(cè)速度和檢測(cè)準(zhǔn)確率方面與現(xiàn)有的檢測(cè)方法進(jìn)行對(duì)比,結(jié)果如表2所示。MSNAN 300和MSNAN-512的運(yùn)行速度分別為42.5 FPS和22.4 FPS。本文方法的檢測(cè)性能在準(zhǔn)確率和速度上均優(yōu)于Faster RCNN、R-FCN等兩階段目標(biāo)檢測(cè)方法,其中MSNAN-512在更小輸入圖片條件下達(dá)到R-FCN檢測(cè)的準(zhǔn)確率,并且檢測(cè)速度提升2.5倍。MSNAN方法在SSD模型基礎(chǔ)上增加了非局部通道注意力模塊,因此檢測(cè)速度比SSD稍慢,但準(zhǔn)確率得到了較大提升。由于DSSD513利用Residual-101結(jié)構(gòu)作為基礎(chǔ)網(wǎng)絡(luò),并且使用了特征融合過程,雖然檢測(cè)準(zhǔn)確率較高,但測(cè)試過程需要的時(shí)間是MSNAN512的4倍以上。而MDSSD采用VGG-16作為主干網(wǎng)絡(luò)提高了DSSD的檢測(cè)速度,但使用了效率較低的特征融合過程,其檢測(cè)速度仍然慢于MSNAN。另外,相比于YOLOv2、YOLOv3方法,MSNAN采用多尺度特征圖檢測(cè),并充分利用淺層特征中目標(biāo)信息,提升了檢測(cè)準(zhǔn)確率,即使檢測(cè)速度稍有降低,但仍具實(shí)時(shí)性。
Table 1 Detection results on PASCAL VOC 2007表1 PASCAL VOC 2007測(cè)試集檢測(cè)結(jié)果 %
Table 2 Comparison of speed and accuracy on PASCAL VOC 2007表2 PASCAL VOC 2007測(cè)試集上檢測(cè)速度與檢測(cè)準(zhǔn)確率對(duì)比
圖3展示了本文的MSNAN在PASCAL VOC 2007數(shù)據(jù)集中的檢測(cè)結(jié)果。在每列圖片中,上面圖片為SSD檢測(cè)結(jié)果,下面圖片為MSNAN檢測(cè)結(jié)果。不同顏色的識(shí)別框標(biāo)記出不同種類的目標(biāo)。本文方法在以下兩方面的檢測(cè)結(jié)果優(yōu)于SSD:第一個(gè)方面是對(duì)小目標(biāo)的檢測(cè)效果更好,圖3中的圖片顯示,MSNAN在檢測(cè)牛、汽車等小目標(biāo)時(shí)的準(zhǔn)確率更高。本文方法增強(qiáng)了淺層特征空間和通道間信息的相關(guān)性,彌補(bǔ)了一階段目標(biāo)檢測(cè)任務(wù)中小目標(biāo)檢測(cè)效果差的缺點(diǎn)。第二個(gè)方面是在復(fù)雜背景條件下的檢測(cè)效果更好。例如圖3中MSNAN能更好地檢測(cè)到遮擋條件下的瓶子、椅子等目標(biāo)。因此非局部通道注意力模塊和密集連接模塊有效地利用全局特征增強(qiáng)了目標(biāo)的上下文語(yǔ)義信息,提高了小目標(biāo)檢測(cè)準(zhǔn)確率,并且能在相對(duì)密集的環(huán)境中檢測(cè)出更多的目標(biāo)。
MS COCO數(shù)據(jù)集包含80 000張訓(xùn)練圖片,40 000張驗(yàn)證圖片和20 000張測(cè)試圖片。本文使用訓(xùn)練驗(yàn)證集進(jìn)行訓(xùn)練,測(cè)試集進(jìn)行測(cè)試,其中當(dāng)輸入圖片尺寸為300×300像素時(shí),批次大小設(shè)為32,輸入圖片尺寸為512×512像素時(shí),批次大小設(shè)為16。使用初始學(xué)習(xí)率為10-3迭代160 000次,學(xué)習(xí)率降為10-4迭代40 000次,最后降為10-5迭代40 000次。
表3給出了本文方法在test-dev中的檢測(cè)結(jié)果,分別使用不同交并比值檢測(cè)的準(zhǔn)確率(Avg.Precision,IoU)和不同尺度目標(biāo)檢測(cè)的準(zhǔn)確率(Avg.Precision,Area)作為評(píng)價(jià)指標(biāo)。MSNAN的檢測(cè)效果明顯優(yōu)于Faster R-CNN、R-FCN等兩階段檢測(cè)方法。MSNAN-300在AP@[0.50:0.95]、AP@0.50和AP@0.75時(shí)的結(jié)果分別為28.2%、46.3%、29.5%。MSNAN300與SSD300相比,AP分別提高3.1個(gè)百分點(diǎn)、3.2個(gè)百分點(diǎn)、3.7個(gè)百分點(diǎn)。MSNAN300與DSSD321相比,AP分別提高了0.2個(gè)百分點(diǎn)、0.2個(gè)百分點(diǎn)、0.3個(gè)百分點(diǎn)。在對(duì)小目標(biāo)S(面積<32×32)進(jìn)行檢測(cè)時(shí),MSNAN-300與MSNAN512檢測(cè)準(zhǔn)確率達(dá)到13.4%和17.2%。對(duì)中等目標(biāo)M(32×32<面積<96×96)、大目標(biāo)L(面積>96×96)進(jìn)行檢測(cè)時(shí),本文方法也取得較好的檢測(cè)效果。
通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),相比于SSD、DSSD和YOLOv2模型,MSNAN300檢測(cè)方法的檢測(cè)效果得到了明顯提升。由于YOLOv3使用殘差結(jié)構(gòu)的Darknet-53作為基礎(chǔ)網(wǎng)絡(luò),同時(shí)利用608×608像素圖片進(jìn)行模型訓(xùn)練,而本文方法使用深度較淺的VGG作為基礎(chǔ)網(wǎng)絡(luò),并且輸入圖片尺寸不及YOLOv3的一半,因此針對(duì)部分目標(biāo)的識(shí)別效果YOLOv3優(yōu)于MSNAN300。但是本文方法在512×512像素圖片中進(jìn)行檢測(cè)時(shí),由于擴(kuò)大了輸入圖片,MSNAN512的準(zhǔn)確率相比于MSNAN 300提升到33.6%,并且高于YOLOv3方法的檢測(cè)準(zhǔn)確率,這是由于MSNAN利用非局部密通道注意力模塊加強(qiáng)了對(duì)淺層特征的處理,同時(shí)在相對(duì)較大的輸入圖片中檢測(cè),小目標(biāo)的檢測(cè)準(zhǔn)確率有所提升,因此總體上本文方法的檢測(cè)精度高于YOLOv3方法。
Fig.3 Detection results on VOC2007圖3 VOC2007數(shù)據(jù)集中檢測(cè)結(jié)果
Table 3 Detection results on MS COCO test-dev表3 MS COCO測(cè)試集檢測(cè)結(jié)果
圖4展示了MSNAN在MS COCO數(shù)據(jù)集中對(duì)小目標(biāo)的檢測(cè)結(jié)果,說明了非局部通道注意力模塊在網(wǎng)絡(luò)淺層部分加強(qiáng)了目標(biāo)的特征提取,獲取了小目標(biāo)的上下文語(yǔ)義信息,因此MSNAN能準(zhǔn)確檢測(cè)到人、橘子等小目標(biāo)。同時(shí)網(wǎng)絡(luò)利用密集連接結(jié)構(gòu),將豐富的圖像特征傳遞到網(wǎng)絡(luò)的深層,提高了網(wǎng)絡(luò)對(duì)風(fēng)箏、牛等大目標(biāo)的檢測(cè)準(zhǔn)確率。
為了進(jìn)一步研究非局部通道注意力模塊和密集連接模塊在網(wǎng)絡(luò)架構(gòu)中的有效性和必要性,設(shè)置不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練,并在PASCAL VOC 2007數(shù)據(jù)集中測(cè)試,表4列出了不同網(wǎng)絡(luò)設(shè)置的檢測(cè)結(jié)果。
Fig.4 Detection results of MSNAN on MS COCO dataset圖4 MSNAN方法在MS COCO數(shù)據(jù)集的檢測(cè)結(jié)果
Table 4 Ablation studies on PASCAL VOC 2007 dataset表4 PASCAL VOC 2007數(shù)據(jù)集上模型簡(jiǎn)化測(cè)試
非局部通道注意力模塊(NLCA-Block):使用SSD方法進(jìn)行目標(biāo)檢測(cè)的平均準(zhǔn)確率為77.5%。在SSD網(wǎng)絡(luò)架構(gòu)的淺層部分添加一個(gè)非局部模塊進(jìn)行檢測(cè)的平均準(zhǔn)確率為78.3%,較SSD提高0.8個(gè)百分點(diǎn)。由此說明,通過非局部模塊獲取了特征圖的全局信息,在空間維度增強(qiáng)目標(biāo)的局部特征。在相同網(wǎng)絡(luò)結(jié)構(gòu)下使用本文提出的NLCA-Block的檢測(cè)準(zhǔn)確率得到進(jìn)一步提升,證實(shí)了NLCA-Block不僅利用空間域的全局特征信息增強(qiáng)了目標(biāo)的局部信息,而且彌補(bǔ)了通道域上忽略的特征信息,進(jìn)而增強(qiáng)淺層特征中的小目標(biāo)上下文語(yǔ)義信息。
多模塊串行疊加(NLCA-Block(S)):為了研究多模塊串行疊加結(jié)構(gòu)進(jìn)行檢測(cè)的效果,在網(wǎng)絡(luò)中將多個(gè)NLCA-Block疊加進(jìn)行檢測(cè),其中在38×38和19×19像素的檢測(cè)層前分別疊加了2個(gè)和3個(gè)NLCABlocks。結(jié)果如表4所示,可以發(fā)現(xiàn)使用多個(gè)NLCABlocks串行疊加結(jié)構(gòu)提高了模型0.2個(gè)百分點(diǎn)的檢測(cè)準(zhǔn)確率。進(jìn)一步證實(shí)該模塊的疊加操作增強(qiáng)了遠(yuǎn)距離特征間的相關(guān)性,目標(biāo)特征能夠在不同位置間進(jìn)行信息回傳,同時(shí)可以在保證模型檢測(cè)速度的同時(shí)提高檢測(cè)準(zhǔn)確率。
密集連接模塊(Dense Block(S)):密集連接結(jié)構(gòu)能夠?qū)崿F(xiàn)特征的跨層連接,如表4所示,在網(wǎng)絡(luò)的深層部分使用密集連接結(jié)構(gòu)進(jìn)行特征提取,模型的mAP提高到79.0%,證明了網(wǎng)絡(luò)中的密集連接模塊有效地加強(qiáng)網(wǎng)絡(luò)中的特征傳遞,增強(qiáng)特征的表達(dá)能力,進(jìn)而提高模型的檢測(cè)準(zhǔn)確率。
本文提出了一個(gè)有效進(jìn)行小目標(biāo)檢測(cè)的網(wǎng)絡(luò)MSNAN。通過特征圖空間和通道間的全局信息增強(qiáng)目標(biāo)局部信息的表達(dá)能力,彌補(bǔ)了小目標(biāo)檢測(cè)所缺乏的上下文語(yǔ)義信息。并采用密集連接結(jié)構(gòu)增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,提高了網(wǎng)絡(luò)的檢測(cè)速度。在PASCLA VOC數(shù)據(jù)集和MS COCO數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果表明,本文方法在檢測(cè)準(zhǔn)確率和檢測(cè)速度上均表現(xiàn)突出,有效地提高了小目標(biāo)的檢測(cè)精度,同時(shí)達(dá)到實(shí)時(shí)檢測(cè)目的。未來的工作將繼續(xù)探索復(fù)雜場(chǎng)景中的小目標(biāo)的檢測(cè)方法,包括模糊、強(qiáng)弱光照等低質(zhì)量圖像中進(jìn)行檢測(cè)。