張馨月,降愛蓮
太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600
小目標(biāo)檢測是指針對圖像中像素占比較少的目標(biāo),借助計(jì)算機(jī)視覺在圖像中找到并判斷該目標(biāo)所屬類別的目標(biāo)檢測技術(shù),目前已被廣泛應(yīng)用于國防軍事、交通運(yùn)輸、工業(yè)等領(lǐng)域[1]。在復(fù)雜的現(xiàn)實(shí)場景中,由于拍攝角度不同、非目標(biāo)物體遮擋、成像天氣和光照條件各異,導(dǎo)致小目標(biāo)不易定位,難以辨別[2]。同時(shí),小尺寸目標(biāo)缺乏區(qū)分自身與背景或相似類別的外觀信息,且在深度卷積網(wǎng)絡(luò)中極易丟失特征信息,在檢測時(shí)容易出現(xiàn)漏檢和誤檢的情況[3],因此在復(fù)雜場景中準(zhǔn)確定位和識別小目標(biāo)是計(jì)算機(jī)視覺中一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
隨著深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測取得了顯著的進(jìn)展?;诰矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法分為兩類,分別是兩階段目標(biāo)檢測算法和單階段目標(biāo)檢測算法。單階段目標(biāo)檢測算法可以通過圖像上規(guī)則和密集的采樣網(wǎng)格來定位對象,實(shí)現(xiàn)了端到端的目標(biāo)檢測,相比于兩階段目標(biāo)檢測算法,具有較高的檢測準(zhǔn)確率和檢測速度,如YOLOv3[4]和SSD[5](single shot multibox detector)等。為了能夠檢測尺寸差距很大的目標(biāo),SSD首次將特征金字塔的思想應(yīng)用于目標(biāo)檢測,從多尺度特征圖中檢測具有不同尺度和縱橫比的目標(biāo)。但自底向上提取特征的模型,淺層特征圖缺乏語義信息,深層特征圖缺乏位置信息,導(dǎo)致小目標(biāo)的檢測準(zhǔn)確率較低。因此,很多學(xué)者提出通過增強(qiáng)SSD模型的語義信息,達(dá)到進(jìn)一步提高小目標(biāo)檢測的效果。DSSD[6]利用跳躍連接和反卷積層融合上下文信息,豐富了淺層特征圖的語義信息,但由于模型參數(shù)量較大導(dǎo)致檢測速度較慢。MDSSD[7]通過融合深層語義信息生成信息豐富的特征圖,增強(qiáng)了特征圖中小目標(biāo)的語義特征。梁延禹等[8]提出采用密集連接結(jié)構(gòu)提高主干的特征提取能力,并使用特征圖空間和通道間的全局信息,增強(qiáng)淺層特征中小目標(biāo)的上下文語義信息。Zhai等[9]提出了一種多尺度特征層次的融合機(jī)制,將網(wǎng)絡(luò)結(jié)構(gòu)中的淺層位置特征與深層語義特征有機(jī)地相結(jié)合。Huang等[10]提出使用跨尺度特征融合的方法增強(qiáng)了上下文之間的關(guān)聯(lián),但跨尺度特征圖存在語義差異,直接融合可能導(dǎo)致位置偏移和混疊效應(yīng)[11]。FPN(feature pyramid network)[12]引入自深向淺的語義信息傳遞路徑,通過融合相鄰特征圖的方式增強(qiáng)淺層特征圖的語義信息。Tan等[13]提出的雙向特征金字塔網(wǎng)絡(luò),通過引入可學(xué)習(xí)的權(quán)值來學(xué)習(xí)不同輸入特征的重要性,提高了小目標(biāo)的檢測準(zhǔn)確率。
本文提出了一種不僅能增強(qiáng)淺層特征圖語義信息,又能平衡特征圖間特征信息的算法:融合特征增強(qiáng)和自注意力的SSD小目標(biāo)檢測算法FA-SSD,該算法具有以下4個(gè)特點(diǎn):
(1)在SSD基礎(chǔ)上添加一條自深向淺的遞歸反向路徑,采用遞歸的方式融合上采樣深層特征圖與淺層特征圖,從深層向淺層傳遞語義信息,增強(qiáng)淺層特征圖的語義信息。
(2)提取并融合深層多尺度特征圖的全局上下文信息、局部上下文信息和語義信息,增強(qiáng)深層特征信息的可鑒別性。
(3)采用亞像素卷積和逐層并聯(lián)的膨脹卷積,擴(kuò)大特征圖的分辨率并提取目標(biāo)周圍的上下文信息,增強(qiáng)上采樣后特征圖的語義信息。
(4)利用自注意力機(jī)制自適應(yīng)地調(diào)整融合了深層語義信息和淺層位置信息的特征圖,增強(qiáng)特征圖中關(guān)鍵信息的權(quán)重,緩解融合特征圖產(chǎn)生的混疊效應(yīng)和位置偏移。
SSD模型是一種基于卷積神經(jīng)網(wǎng)絡(luò)的單階段目標(biāo)檢測模型,該模型使用VGG16網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),將VGG16網(wǎng)絡(luò)末端的全連接層轉(zhuǎn)換為卷積層,并在此基礎(chǔ)上新增額外的卷積層來獲得更多的特征圖,然后使用VGG16網(wǎng)絡(luò)和新添加的卷積層中分辨率不同的特征圖獨(dú)立地預(yù)測。SSD的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其首先對原始輸入圖像進(jìn)行規(guī)范化處理,將其縮放至固定大小,作為模型的輸入;其次,使用SSD網(wǎng)絡(luò)提取輸入圖像的特征,得到尺寸大小為38×38×512、19×19×1 024、10×10×512、5×5×256、3×3×256和1×1×256的6個(gè)多尺度特征層,每個(gè)特征層側(cè)重于提取特定尺度對象的特征信息,其中深層特征圖關(guān)注大目標(biāo)的特征,淺層特征圖關(guān)注小目標(biāo)的特征;最后,對不同尺寸的特征圖設(shè)置不同長寬比和數(shù)量的先驗(yàn)框,通過兩個(gè)3×3卷積層預(yù)測默認(rèn)邊界框的類分?jǐn)?shù)和位置偏移量,使用最大值抑制分解(NMS)的后處理策略來獲得最終的定位邊界框[14]。
圖1 SSD網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of SSD
SSD模型采用先驗(yàn)框機(jī)制,在特征圖的每個(gè)單元格上設(shè)置不同長寬比的默認(rèn)先驗(yàn)框。淺層特征圖具有較小的感受野,包含了豐富的位置信息,能夠準(zhǔn)確地定位目標(biāo)的位置,且分辨率大,像素點(diǎn)多,在每個(gè)像素點(diǎn)設(shè)置4個(gè)尺寸較小的先驗(yàn)框,適合檢測尺寸較小的目標(biāo),但其語義信息表達(dá)能力弱,不利于目標(biāo)的分類。深層特征圖具有較大感受野,包含了豐富的語義信息,能夠準(zhǔn)確地對目標(biāo)進(jìn)行分類,且分辨率小,像素點(diǎn)少,生成的先驗(yàn)框尺寸較大,可以更好地對應(yīng)尺寸較大的目標(biāo),適合檢測大目標(biāo)。
深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺注意力機(jī)制類似,核心目標(biāo)是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息,能夠有效提高感知信息處理的效率和準(zhǔn)確性[15]。如今,將注意力機(jī)制應(yīng)用在目標(biāo)檢測上的模型都取得了良好的效果。SENet[16]是經(jīng)典的通道注意力機(jī)制,其通過學(xué)習(xí)信道之間的依賴關(guān)系,動(dòng)態(tài)增強(qiáng)或者抑制各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。CBAM[17]結(jié)合空間和通道注意力機(jī)制,通過學(xué)習(xí)加強(qiáng)或抑制相關(guān)的特征信息,有效地幫助信息在網(wǎng)絡(luò)傳遞。
自注意力機(jī)制是注意力機(jī)制的一個(gè)分支,它基于內(nèi)部的相關(guān)性,依靠自身的輸入生成注意力權(quán)重,減少了對外部信息的依賴。自注意力機(jī)制可以捕獲特征圖的全局信息,學(xué)習(xí)上下文間的相關(guān)性,獲得更關(guān)鍵的特征信息,從而使網(wǎng)絡(luò)能夠更加準(zhǔn)確高效地識別目標(biāo)。Vaswani等[18]首次提出使用自注意力機(jī)制刻畫輸入和輸出間的全局依賴關(guān)系,并將其應(yīng)用于機(jī)器翻譯。DANet[19]通過自注意力機(jī)制從全局視野自適應(yīng)地整合了任何尺度的相似特征,將局部特征和全局的依賴性自適應(yīng)地整合到一起。AFF[20]提出了注意力特征融合模塊,將局部信道上下文添加到全局信道中,克服了輸入特征之間的語義差異和尺度不一致問題。
SSD模型利用多尺度特征圖進(jìn)行多尺度預(yù)測,能夠同時(shí)檢測到不同大小的目標(biāo)。但是,由于淺層特征圖提取到的特征缺乏語義信息,導(dǎo)致SSD在檢測小目標(biāo)時(shí)會(huì)存在漏檢和誤檢。為了有效地檢測小目標(biāo),本文提出融入了特征增強(qiáng)和自適應(yīng)特征融合策略的FA-SSD模型。該模型的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其使用VGG-16作為主干網(wǎng)絡(luò),在SSD的基礎(chǔ)上添加了一條自深向淺的遞歸反向路徑,該路徑將增強(qiáng)后的深層特征信息向前傳遞,采用遞歸的方式自適應(yīng)地融合淺層特征圖和上采樣后的深層特征圖,將深層的語義信息傳遞到淺層,使得淺層特征圖能夠同時(shí)利用淺層的強(qiáng)位置信息和深層的強(qiáng)語義信息。反向路徑增加了模型對于小目標(biāo)的感知能力,便于確定小目標(biāo)的位置和類別,從而提升模型的小目標(biāo)檢測效果。該路徑包含設(shè)計(jì)的三個(gè)模塊:深層特征增強(qiáng)模塊(deep layerfeature enhancement module,DEM)、上采樣特征增強(qiáng)模塊(up-sampling feature enhancement module,UEM)和自適應(yīng)特征融合模塊(adaptive feature fusion module,AFFM)。AFFM由串聯(lián)的通道注意力模塊(channel attention module,CA)和位置注意力模塊(positional attention module,PA)組成。
圖2 FA-SSD整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Overall network structure of FA-SSD
深度卷積網(wǎng)絡(luò)在提取特征圖信息時(shí)易丟失小目標(biāo)的關(guān)鍵位置信息,使用目標(biāo)的上下文信息可以指導(dǎo)定位區(qū)域的選擇,提高檢測準(zhǔn)確率[21]。通常網(wǎng)絡(luò)的最深層特征圖僅包含單層的語義信息,導(dǎo)致淺層特征圖通過反向路徑獲得的語義信息較少,不利于小目標(biāo)的檢測。為了增強(qiáng)深層特征的表達(dá)能力,本文設(shè)計(jì)了深層特征增強(qiáng)模塊。DEM使用并行路徑提取深層多尺度特征圖的全局上下文信息和局部上下文信息,并融合最深層特征圖的語義信息。全局上下文信息指整個(gè)場景的全局信息,有助于確定不同目標(biāo)的準(zhǔn)確位置,更好地解決局部模糊性問題;局部上下文信息指目標(biāo)和周圍部分的相互關(guān)系,有助于提高各個(gè)目標(biāo)的分類準(zhǔn)確率。
DEM結(jié)構(gòu)如圖3所示,Conv9-c包含使用3×3卷積在Conv9中提取的局部上下文信息;Conv9-g和Conv10-g分別包含使用全局平均池化(global average pooling,GAP)從Conv9和Conv10中提取的兩個(gè)不同的全局上下文信息,同時(shí)使用可以使模型獲得全面的全局信息;Conv11是SSD的最后一個(gè)預(yù)測層,包含了深層豐富的語義信息;Conv9_1是由Conv9-c和廣播后的Conv9-g、Conv10-g和Conv11融合生成的,包含了全局上下文信息、局部上下文信息和深層語義信息。廣播操作是對Conv9-g、Conv10-g和Conv11進(jìn)行上采樣,將三個(gè)1×1大小的特征圖按照各個(gè)通道的值復(fù)制擴(kuò)大為與Conv9-c維度相同的特征圖。DEM通過結(jié)合深層多尺度特征圖的上下文信息和最深層語義信息,增強(qiáng)了反向路徑深層特征信息的可鑒別性,有助于確定目標(biāo)的準(zhǔn)確位置和提高目標(biāo)的分類準(zhǔn)確率。
圖3 深層特征增強(qiáng)模塊結(jié)構(gòu)Fig.3 Deep feature enhancement module structure
不同尺度特征圖的分辨率不同,在進(jìn)行特征融合前需對小尺寸特征圖進(jìn)行上采樣操作。常用的上采樣方法有最近鄰插值算法和反卷積。最近鄰插值法使用與填充位置最鄰近的數(shù)字對其填充,導(dǎo)致圖像出現(xiàn)明顯的鋸齒狀;反卷積通過填充數(shù)字0擴(kuò)大圖像的尺寸,填充的是無效信息,導(dǎo)致特征圖丟失了有效的語義信息。與傳統(tǒng)的上采樣方法不同,亞像素卷積(subpixel convolution)[22]通過多通道間重組的方式擴(kuò)大特征圖分辨率,能夠?qū)⑻卣鲌D不同通道中的特征重新排列組合為一個(gè)通道。在重組時(shí)使用的數(shù)字均來自特征圖本身,不會(huì)產(chǎn)生無效信息干擾目標(biāo)的檢測,能夠在提高特征圖分辨率的同時(shí)保存更多的有效信息。亞像素卷積在數(shù)學(xué)上的定義為:
公式(1)中,PS表示將特征圖從H×W×C·r2轉(zhuǎn)換為r·H×r·W×C,H、W、C分別表示特征圖的高度、寬度和通道數(shù),r表示上升因子,T表示輸入特征。
上采樣后的特征圖會(huì)丟失一部分特征信息,使用膨脹卷積(dilated convolution)擴(kuò)大感受野,能夠提取目標(biāo)的上下文信息。但膨脹卷積無法對空洞部分進(jìn)行采樣,會(huì)導(dǎo)致提取到的信息不具有連續(xù)性。本模塊設(shè)計(jì)的逐層并聯(lián)的膨脹卷積,逐層并聯(lián)了不同膨脹率的膨脹卷積。不同大小的感受野能夠檢測不同尺度的目標(biāo),小感受野的膨脹卷積可以提取小目標(biāo)的位置細(xì)節(jié)信息,大感受野的膨脹卷積可以提取小目標(biāo)上下文信息和大目標(biāo)的深層語義信息。使用逐層并聯(lián)的聯(lián)接方式可以逐次拼接膨脹率相近的膨脹卷積,避免了因膨脹率相差過大帶來的信息偏差,能夠更好地填補(bǔ)膨脹卷積的空洞部分,增強(qiáng)提取到信息的連續(xù)性,提升網(wǎng)絡(luò)對小目標(biāo)特征的提取效果。
本文設(shè)計(jì)的上采樣特征增強(qiáng)模塊結(jié)合了亞像素卷積和逐層并聯(lián)的膨脹卷積,擴(kuò)大了特征圖的分辨率和感受野,利用目標(biāo)的上下文信息,增強(qiáng)了網(wǎng)絡(luò)對小目標(biāo)的敏感度。UEM分為3個(gè)部分:亞像素卷積層、特征增強(qiáng)層和連接層。其中,亞像素卷積層使用亞像素卷積進(jìn)行上采樣操作,調(diào)整特征圖的尺寸大小,減少特征圖通道數(shù);特征增強(qiáng)層由三個(gè)逐層并聯(lián)的膨脹卷積組成,膨脹卷積的膨脹率分別為1、3、5,其中膨脹率為1、3的膨脹卷積適合檢測小目標(biāo)的位置信息,膨脹率為5的膨脹卷積能夠提供小目標(biāo)的上下文信息。逐層并聯(lián)不同感受野的膨脹卷積,能夠交互多尺度的特征信息,增強(qiáng)特征信息的連續(xù)性;連接層將特征增強(qiáng)層輸出的特征圖通過級聯(lián)(Concat)的方式連接起來,保留了不同感受野特征圖的特征信息。
UEM結(jié)構(gòu)如圖4所示,首先將輸入層Di+1輸入到亞像素卷積層,使特征層分辨率擴(kuò)大2倍的同時(shí)減少特征層4倍的通道數(shù);然后將上采樣特征圖分為三路,通過逐層并聯(lián)的方式經(jīng)過膨脹率為1、3、5的膨脹卷積,得到三個(gè)感受野大小不同的特征圖;最后通過拼接通道數(shù)的方式聚合三個(gè)特征圖,并使用1×1卷積改變特征層的通道數(shù),將其完全合并,生成分辨率擴(kuò)大兩倍通道數(shù)不變的特征圖Si,其中Di+1是指FA-SSD自淺向深第i+1個(gè)預(yù)測層,Si是指FA-SSD自淺向深第i個(gè)UEM的輸出層。
圖4 上采樣特征增強(qiáng)模塊結(jié)構(gòu)Fig.4 Up-sampling feature enhancement module structure
特征融合的常見方法是通過連接特征圖的通道或者逐元素相加的方法來合并特征。逐元素相加可以在維度不變的情況下使特征圖的信息量增多,且計(jì)算量小于級聯(lián)。但由于多尺度特征圖的感受野大小不同,導(dǎo)致特征信息存在差異,使用這些方式無法反映不同尺度下通道特征的相關(guān)性和空間特征的重要性,會(huì)導(dǎo)致混疊效應(yīng)和位置偏移,從而混淆定位和識別任務(wù)。為了避免特征融合產(chǎn)生的冗余信息對檢測結(jié)果帶來的負(fù)面影響,本文提出了一個(gè)自適應(yīng)特征融合模塊。該模塊利用自注意力機(jī)制學(xué)習(xí)特征圖通道間的相關(guān)性和目標(biāo)間的空間依賴關(guān)系,優(yōu)先將更多的注意力放置在對當(dāng)前任務(wù)目標(biāo)有意義的關(guān)鍵信息上,自適應(yīng)地調(diào)整逐元素相加后的特征圖。
2.3.1 通道注意力模塊
通道注意力模塊若僅使用全局平均池化提取特征圖的上下文信息,對不同通道進(jìn)行權(quán)值重標(biāo)定,可能會(huì)導(dǎo)致同一通道內(nèi)關(guān)鍵特征和背景特征均分權(quán)重,削弱了小目標(biāo)的特征。本文提出的通道注意力模塊利用并行的全局平均池化和全局最大池化(global maximum pooling,GMP),提取不同的通道間全局信息。通過學(xué)習(xí)到的通道間依賴關(guān)系,能夠有選擇地更新通道的加權(quán)值。
CA結(jié)構(gòu)如圖5所示,首先將Ci和Si逐元素相加得到生成特征圖Ni∈RH×W×C,其中,Ci為SSD模型自淺向深的第i個(gè)預(yù)測層,Si為FA-SSD模型自淺向深第i個(gè)UEM的輸出層;其次,并行使用全局平均池化和全局最大池化生成了兩個(gè)特征圖Ni1和Ni2,{Ni1,Ni2}∈R1×1×C,分別提取了特征圖各通道間的全局信息,可以分別表示為:
圖5 通道注意力模塊結(jié)構(gòu)Fig.5 Channel attention module structure
公式(2)中的AvgPool()指全局平均池化函數(shù),公式(3)中的MaxPool()指全局最大池化函數(shù)。
隨后分別將特征信息傳遞到全連接層和Relu激活層,兩個(gè)全連接層分別用來減少和增加通道的數(shù)量,Relu激活層則學(xué)習(xí)不同通道之間的非線性關(guān)系。然后,聚合兩個(gè)不同的通道信息,并利用激活函數(shù)(Sigmoid)為每個(gè)通道生成權(quán)值集合,權(quán)重反映了通道之間的相關(guān)性,該過程可表示為:
公式(4)中CA()指通道注意函數(shù),?()指sigmoid函數(shù),F(xiàn)R()指全連接層和激活層函數(shù)。
最后,將特征圖Ni與通道權(quán)重逐元素相乘,得到通道注意力特征圖Ei,該過程可表示為:
公式(5)中Ei指FA-SSD自淺向深第i個(gè)CA生成的通道注意力特征圖。使用通道注意力模塊,能夠增強(qiáng)網(wǎng)絡(luò)中有用的特征并抑制背景特征,減輕融合特征帶來的混疊效應(yīng),從通道特征的角度關(guān)注目標(biāo)。
2.3.2 位置注意力模塊
通道注意力模塊關(guān)注的是特征圖中哪些通道更有意義,并沒有考慮特征圖上哪些部分更重要。本文提出的位置注意力模塊,利用淺層特征圖豐富的位置信息,提升了自注意力機(jī)制捕捉特征圖任意兩個(gè)位置間的空間依賴關(guān)系的能力。通過對重點(diǎn)位置特征的加權(quán),有選擇地聚合每個(gè)位置的特征。
PA結(jié)構(gòu)如圖6所示,首先將淺層特征圖Ci和通道注意力特征圖Ei級聯(lián),合并特征圖的通道數(shù),生成特征圖Mi∈RH×W×2C,并經(jīng)過兩個(gè)并行帶有BN層和Relu層的1×1卷積NJ和NK,生成兩個(gè)特征圖J和K,{J,K}∈RH×W×C;隨后將J通過重塑(reshape,R)和轉(zhuǎn)置(transpose,T)操作轉(zhuǎn)為矩陣JT∈RC×N,將K通過Reshape操作轉(zhuǎn)為矩陣K′∈RC×N,其中N=H×M;然后,將JT與K′進(jìn)行矩陣乘法,生成相關(guān)矩陣:
圖6 位置注意力模塊結(jié)構(gòu)Fig.6 Positional attention module structure
公式(6)中,Q∈RN×N。隨后對Q進(jìn)行reshape操作轉(zhuǎn)換為特征圖QR∈RH×W×N,之后使用激活函數(shù)和平均池化(average pooling,AP),得到注意力矩陣S∈RH×W×1。最后,將生成的注意力矩陣S與Ei逐像素相乘后再逐元素相加,得到富含目標(biāo)位置信息的位置注意力特征圖:
公式(7)中,Di∈RH×W×C是空間注意力模塊的輸出,作為FA-SSD模型自淺向深的第i預(yù)測層。位置注意力模塊旨在學(xué)習(xí)任意兩個(gè)特征之間的關(guān)聯(lián),突出目標(biāo)空間區(qū)域的重要性,能夠增強(qiáng)深層特征圖關(guān)鍵位置信息的表達(dá)能力。
數(shù)據(jù)集:本文在目標(biāo)檢測領(lǐng)域數(shù)據(jù)集PASCAL VOC和小目標(biāo)交通標(biāo)志數(shù)據(jù)集TT100K[23]上進(jìn)行實(shí)驗(yàn)。PASCAL VOC數(shù)據(jù)集,包含20個(gè)類別(加背景類21類),訓(xùn)練集為包含16 000圖像的VOC2007和VOC2012,測試集為包含5 000圖像的VOC2007。TT100K是一個(gè)交通標(biāo)志檢測和分類的數(shù)據(jù)集,該數(shù)據(jù)集包含10萬張高分辨率圖像和30 000個(gè)交通符號實(shí)例,其中物體大多數(shù)都是小物體,92%的實(shí)例的覆蓋面積在整個(gè)圖像中占比不超過0.2%,易被樹木遮擋,受光照、天氣條件影響嚴(yán)重,且場景復(fù)雜,是復(fù)雜場景小目標(biāo)檢測的優(yōu)秀數(shù)據(jù)集。本文選擇其中含有實(shí)例最多的20個(gè)類,訓(xùn)練集包含31 107張圖片,測試集包含3 073張圖片。
評價(jià)指標(biāo):本文遵循兩個(gè)數(shù)據(jù)集定義的標(biāo)準(zhǔn)協(xié)議,在PASCAL VOC和TT100K兩個(gè)數(shù)據(jù)集上,采用平均精度均值(mean average precision,mAP)和每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)作為評價(jià)指標(biāo)。平均精度均值為所有類別平均精度(average precision,AP)的平均值,用來評估模型的檢測精度,如果預(yù)測框與真實(shí)框的交并比(IOU)大于0.5,則預(yù)測結(jié)果是正確的。每秒傳輸幀數(shù)評估模型的檢測速度。
本文實(shí)驗(yàn)使用隨機(jī)梯度下降算法(stochastic gradient descent,SGD),初始學(xué)習(xí)率設(shè)置為0.000 35,前500次迭代學(xué)習(xí)率逐漸上升,促進(jìn)模塊的快速收斂,權(quán)值衰減為0.000 5、動(dòng)量為0.9。實(shí)驗(yàn)中使用兩種分辨率不同的輸入。當(dāng)輸入圖片分辨率的大小為300×300時(shí),模型的批處理大小為設(shè)置為16,學(xué)習(xí)率在120 000和140 000次迭代時(shí)分別下降10倍,迭代180 000次得到最終的網(wǎng)絡(luò)模型。當(dāng)輸入圖片分辨率的大小為512×512時(shí),模型設(shè)置批處理大小為8,學(xué)習(xí)率在140 000和160 000次迭代時(shí)分別下降10倍,迭代200 000次得到最終的網(wǎng)絡(luò)模型。實(shí)驗(yàn)均在型號為NVIDIA RTX 2080Ti的顯卡上進(jìn)行。
3.3.1 PASCAL VOC數(shù)據(jù)集性能檢測對比
為驗(yàn)證本文算法的有效性,將FA-SSD與目前先進(jìn)的兩階段目標(biāo)檢測算法和單階段目標(biāo)檢測算法進(jìn)行對比,所有比較的方法均在PASCAL VOC2007和PASCAL VOC2012訓(xùn)練集上進(jìn)行訓(xùn)練,在VOC2007測試集上測試,實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同算法在PASCAL VOC數(shù)據(jù)集性能對比Table 1 Comparison of performance of different algorithms in PASCAL
由表1可知,當(dāng)輸入圖像分辨率大小為300×300時(shí),F(xiàn)A-SSD的mAP可以達(dá)到84.6%,檢測速度為34.5 frame/s。與兩階段的目標(biāo)檢測算法Faster R-CNN和R-FCN相比,F(xiàn)A-SSD的mAP提升了11.4個(gè)百分點(diǎn)和5.1個(gè)百分點(diǎn),F(xiàn)PS提升了27.5和28.7,說明本文算法在檢測準(zhǔn)確率和檢測速度上均優(yōu)于兩階段算法。與YOLOv3和當(dāng)前性能和運(yùn)行效率均最優(yōu)的YOLOv5相比,F(xiàn)A-SSD增強(qiáng)了淺層特征圖的語義信息,mAP分別提升了5個(gè)百分點(diǎn)和1.9個(gè)百分點(diǎn),說明本文算法的檢測準(zhǔn)確率優(yōu)于目前先進(jìn)算法,但由于增加了模型參數(shù)量導(dǎo)致檢測速度有所下降。與SSD及其改進(jìn)RSSD、DSSD、FSSD、MDSSD和RFB-Net相比較,F(xiàn)A-SSD的mAP提升了7.4個(gè)百分點(diǎn)、6.1個(gè)百分點(diǎn)、6個(gè)百分點(diǎn)、5.8個(gè)百分點(diǎn)、6個(gè)百分點(diǎn)和4.1個(gè)百分點(diǎn),提升效果顯著,證明通過添加反向路徑增強(qiáng)淺層語義信息,能夠提升模型檢測小目標(biāo)的效果。當(dāng)輸入為512×512時(shí),F(xiàn)A-SSD的mAP為92.5%,檢測速度為17.9 frame/s,與相同輸入大小的SSD及其改進(jìn)RSSD、FSSD、MDSSD和RFB-Net相比較,F(xiàn)A-SSD的mAP提高了14個(gè)百分點(diǎn)、11.7個(gè)百分點(diǎn)、11.6個(gè)百分點(diǎn)、11.5個(gè)百分點(diǎn)和10.3個(gè)百分點(diǎn),說明當(dāng)輸入圖像分辨率越大時(shí),F(xiàn)A-SSD的檢測效果提升得越明顯。分析結(jié)果可知,本文提出的算法通過增強(qiáng)特征圖的特征信息和自適應(yīng)的融合特征,有效減少了小目標(biāo)的漏檢和誤檢,明顯改善了小目標(biāo)的檢測效果。
表2展示了不同算法在VOC2007測試集上單個(gè)小目標(biāo)類別的測試結(jié)果。實(shí)驗(yàn)證明,在輸入圖像分辨率大小為300×300時(shí),F(xiàn)A-SSD檢測帆船、瓶子和盆栽等小目標(biāo)的檢測效果明顯優(yōu)于其他檢測算法。
表2 小目標(biāo)類別不同算法測試結(jié)果Table 2 Test results of different algorithms for small target categories %
3.3.2 TT100K數(shù)據(jù)集性能檢測對比
本文在TT100K數(shù)據(jù)集上,設(shè)置輸入圖片的分辨率大小為512×512。表3展示了本文算法和其他主流的目標(biāo)檢測算法在TT100K測試集的測試結(jié)果。由圖3可知,F(xiàn)A-SSD的mAP達(dá)到80.2%,檢測速度為13.6 frame/s,與YOLO系列的YOLOv3和YOLOv5相比分別提高了9.4個(gè)百分點(diǎn)和5.6個(gè)百分點(diǎn);與相同輸入大小和主干的SSD、RFB-Net和MDSSD相比分別提高了11.5個(gè)百分點(diǎn)、5.8個(gè)百分點(diǎn)和2.6個(gè)百分點(diǎn)與相同輸入大小和主干的SSD、RFB-Net和MDSSD相比分別提高了11.5個(gè)百分點(diǎn)、5.8個(gè)百分點(diǎn)和2.6個(gè)百分點(diǎn)。,證明在SSD上添加自深向淺的遞歸反向路徑,能夠有效提高小目標(biāo)的檢測準(zhǔn)確率。同時(shí),與輸入圖片分辨率的大小均大于512×512的目標(biāo)檢測算法Faster R-CNN、Mask R-CNN和FPN相比,F(xiàn)A-SSD的mAP分別提高了27.3個(gè)百分點(diǎn)、9.4個(gè)百分點(diǎn)和10.3個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果證明,通過擴(kuò)大感受野結(jié)合小目標(biāo)周圍的上下文信息,并自適應(yīng)地融合特征圖來增強(qiáng)特征信息,有助于復(fù)雜場景中缺乏信息的小目標(biāo)更好地定位和分類,能夠提升小目標(biāo)檢測的準(zhǔn)確率。
表3 不同算法在TT100K數(shù)據(jù)集性能對比表Table 3 Performance comparison of different algorithms in TT100K dataset
為了證明FA-SSD在小目標(biāo)檢測上的有效性,本文選擇在TT100K數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),在SSD模型上逐步添加深層特征增強(qiáng)模塊(DEM)、上采樣特征增強(qiáng)模塊(UEM)和自適應(yīng)特征融合模塊(AFFM),并通過比較檢測精度的差異,分析FA-SSD每個(gè)模塊的性能。總體消融實(shí)驗(yàn)報(bào)告見表4。
表4 消融實(shí)驗(yàn)結(jié)果分析Table 4 Analysis of ablation test results
為了驗(yàn)證DEM的有效性,本文設(shè)置實(shí)驗(yàn)以傳統(tǒng)SSD為基線,在模型深層特征圖單獨(dú)添加DEM,增強(qiáng)了特征層的上下文特征信息,模型的mAP比SSD增加了4.5個(gè)百分點(diǎn),F(xiàn)PS下降了0.6,證明了與單一特征圖相比,融合的多尺度特征圖包含了更多有用信息,對小目標(biāo)檢測有益,同時(shí)提取多種特征信息增加了少量的網(wǎng)絡(luò)參數(shù),降低了模型的檢測速度。
為了驗(yàn)證UEM的有效性,設(shè)置實(shí)驗(yàn)在傳統(tǒng)SSD上添加三個(gè)UEM,通過逐元素相加的方式將上采樣的特征圖和SSD預(yù)測層融合,生成新的預(yù)測層,單獨(dú)添加時(shí)模型mAP比SSD模型提高了5.4個(gè)百分點(diǎn);同時(shí)添加DEM和UEM時(shí),模型的mAP比SSD模型提高了7.5個(gè)百分點(diǎn),證明UEM使用膨脹卷積獲得不同感受野的上下文信息,增強(qiáng)了淺層特征層的語義信息,提高了小目標(biāo)的檢測準(zhǔn)確率。
為了驗(yàn)證AFFM的有效性,設(shè)置實(shí)驗(yàn)在添加了前兩個(gè)模塊的SSD模型上,首先僅添加CA并使用輸出的通道注意力特征層作為預(yù)測層,模型的mAP比SSD模型提高了9.3個(gè)百分點(diǎn),比添加前提高了1.8個(gè)百分點(diǎn),證明了通道注意力模塊可以緩解特征融合產(chǎn)生的混疊效果;接著僅添加PA并使用輸出的位置注意力特征層作為預(yù)測層,模型的mAP比SSD模型提高了9.7個(gè)百分點(diǎn),比添加前提高了2.2個(gè)百分點(diǎn),證明位置注意力模塊可以學(xué)習(xí)到小目標(biāo)精確的位置信息;最后添加AFFM,模型的mAP達(dá)到了80.2%,比SSD模型提高了11.5個(gè)百分點(diǎn),比添加AFFM之前提高了4個(gè)百分點(diǎn),證明AFFM能夠有效地進(jìn)行特征融合,緩解特征圖之間的信息不平衡問題。
為了更直觀地分析本文的檢測結(jié)果,圖7和圖8分別可視化了當(dāng)輸入圖像分辨率為512×512時(shí),SSD和FA-SSD在PASCAL VOC數(shù)據(jù)集和TT100K數(shù)據(jù)集上的測試結(jié)果,圖中第一行是SSD的檢測結(jié)果,第二行是FA-SSD的檢測結(jié)果。對比圖7展示中的檢測效果可知,SSD在分辨率低的目標(biāo)上檢測效果差,大部分小目標(biāo)都沒有檢測出來,而FA-SSD能夠檢測到更多數(shù)量的小尺寸的人(圖7中第二、四和五列)、船(圖7中第一列)和盆栽(圖7中第三列)。圖8中的交通標(biāo)志圖像存在遮擋、光線變化和標(biāo)志較模糊等情況,受此影響SSD在檢測小目標(biāo)時(shí)出現(xiàn)嚴(yán)重漏檢現(xiàn)象,而FA-SSD則能夠檢測出更多的小尺寸交通標(biāo)志且置信度較高,如圖8中第一、二、三、四列圖像中最右側(cè)的藍(lán)色交通標(biāo)志,以及第五列圖像的綠色交通標(biāo)志。綜上,F(xiàn)A-SSD可以檢測到更多數(shù)量的小目標(biāo),降低了小目標(biāo)漏檢率,提高了小目標(biāo)的平均準(zhǔn)確率,具有更好的小目標(biāo)檢測效果。
圖7 PASCAL VOC數(shù)據(jù)集可視化結(jié)果Fig.7 Visualized results of PASCAL VOC dataset
圖8 TT100K數(shù)據(jù)集可視化結(jié)果Fig.8 Visualized results of TT100K dataset
針對淺層特征圖缺乏語義信息帶來的SSD小目標(biāo)檢測準(zhǔn)確率低的問題,本文提出一種融合特征增強(qiáng)和自注意力的SSD小目標(biāo)檢測算法FA-SSD。該算法的核心思想是在SSD的基礎(chǔ)構(gòu)建一條自深向淺的遞歸反向路徑,在此路徑上利用深層特征增強(qiáng)模塊增強(qiáng)深層特征信息的可鑒別性;通過上采樣特征增強(qiáng)模塊增強(qiáng)反向傳遞過程中特征圖的語義信息;使用自適應(yīng)特征融合模塊自適應(yīng)地融合深層語義信息和淺層空間信息,增強(qiáng)淺層特征圖的語義信息,進(jìn)而提高小目標(biāo)的檢測準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該算法對于復(fù)雜場景下的有遮擋和不清晰的小目標(biāo),具有較好的檢測效果。