譚湘粵,胡曉,楊佳信,向俊將
基于遞進(jìn)式特征增強(qiáng)聚合的偽裝目標(biāo)檢測(cè)
譚湘粵1,胡曉2*,楊佳信1,向俊將1
(1.廣州大學(xué) 電子與通信工程學(xué)院, 廣州 510006; 2.廣州大學(xué) 機(jī)械與電氣工程學(xué)院,廣州 510006)( ? 通信作者電子郵箱huxiao@gzhu.edu.cn)
偽裝目標(biāo)檢測(cè)(COD)旨在檢測(cè)隱藏在復(fù)雜環(huán)境中的目標(biāo)?,F(xiàn)有COD算法在結(jié)合多層次特征時(shí),忽略了特征的表達(dá)和融合方式對(duì)檢測(cè)性能的影響。為此,提出一種基于遞進(jìn)式特征增強(qiáng)聚合的COD算法。首先,通過主干網(wǎng)絡(luò)提取多級(jí)特征;然后,為了提高特征的表達(dá)能力,使用由特征增強(qiáng)模塊(FEM)構(gòu)成的增強(qiáng)網(wǎng)絡(luò)對(duì)多層次特征進(jìn)行增強(qiáng);最后,在聚合網(wǎng)絡(luò)中設(shè)計(jì)鄰近聚合模塊(AAM)實(shí)現(xiàn)相鄰特征之間的信息融合,以突顯偽裝目標(biāo)區(qū)域的特征,并提出新的遞進(jìn)式聚合策略(PAS)通過漸進(jìn)的方式聚合鄰近特征,從而在實(shí)現(xiàn)多層特征有效融合的同時(shí)抑制噪聲。在3個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提算法相較于12種最先進(jìn)的算法在4個(gè)客觀評(píng)價(jià)指標(biāo)上均取得最優(yōu)表現(xiàn),尤其是在COD10K數(shù)據(jù)集上所提算法的加權(quán)的F測(cè)評(píng)法和平均絕對(duì)誤差(MAE)分別達(dá)到了0.809和0.037。由此可見,所提算法在COD任務(wù)上擁有較優(yōu)的性能。
卷積神經(jīng)網(wǎng)絡(luò);偽裝目標(biāo)檢測(cè);特征增強(qiáng);鄰近聚合模塊;遞進(jìn)式聚合策略
偽裝目標(biāo)檢測(cè)(Camouflaged Object Detection, COD)致力于檢測(cè)隱藏在背景環(huán)境中的目標(biāo)。作為一項(xiàng)復(fù)雜背景下的檢測(cè)技術(shù),COD有助于推動(dòng)農(nóng)業(yè)昆蟲控制[1]、軍事檢測(cè)[2]、醫(yī)學(xué)圖像分析[3-4]等領(lǐng)域的發(fā)展。與顯著性目標(biāo)檢測(cè)(Salient Object Detection, SOD)[5-10]和通用目標(biāo)檢測(cè)(Generic Object Detection, GOD)[11-13]不同,COD是更具有挑戰(zhàn)性的研究方向。由于偽裝目標(biāo)的視覺特征與背景環(huán)境具有高度相似性,因此,相比SOD與GOD,COD要求更高的特征表達(dá)能力和算法魯棒性[1]。
近年來(lái),深度學(xué)習(xí)的發(fā)展推動(dòng)了COD的研究進(jìn)程。Le等[14]提出了基于端到端的分支網(wǎng)絡(luò)(Anabranch Network, ANet),通過分類網(wǎng)絡(luò)對(duì)圖像中偽裝目標(biāo)進(jìn)行感知,再采用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,F(xiàn)CN)進(jìn)行偽裝目標(biāo)分割。Yan等[15]提出了一種雙流分割網(wǎng)絡(luò),通過翻轉(zhuǎn)圖像作為輸入的對(duì)抗分割流實(shí)現(xiàn)對(duì)主分割流的增強(qiáng),提高檢測(cè)偽裝目標(biāo)的能力。然而,這兩種算法的分割思想忽略了語(yǔ)義特征之間的相關(guān)性,限制了算法推斷全局特征和局部特征的能力,不利于生成完整、準(zhǔn)確的偽裝預(yù)測(cè)圖[16]。
研究者們發(fā)現(xiàn)豐富的感受野能夠獲取更多的上下文信息,加強(qiáng)全局特征和局部特征之間的聯(lián)系,進(jìn)而增強(qiáng)有利于檢測(cè)的特征表達(dá)[17]。Dong等[18]設(shè)計(jì)了雙分支混合卷積模塊,利用多個(gè)非對(duì)稱卷積層和膨脹卷積層擴(kuò)大特征感受野,提取圖像中的上下文信息,并設(shè)計(jì)了交互融合模塊聚合含有豐富上下文信息的多尺度特征。Ren等[19]設(shè)計(jì)了紋理感知細(xì)化模塊用于強(qiáng)化圖像中的上下文信息,實(shí)現(xiàn)偽裝目標(biāo)和背景的分離。Fan等[1]提出了搜索識(shí)別網(wǎng)絡(luò)(Search and Identification Network,SINet),通過擴(kuò)大感受野以及部分解碼組件聚合多級(jí)特征,逐步實(shí)現(xiàn)搜索和識(shí)別偽裝目標(biāo)。
雖然上述算法不同程度地增強(qiáng)了特征的表達(dá)能力,提高了COD模型的檢測(cè)性能,但并未考慮不同層特征信息對(duì)檢測(cè)網(wǎng)絡(luò)的貢獻(xiàn)[16,20]以及跳躍式特征融合方式的局限性[21],使得低層特征中非目標(biāo)區(qū)域的細(xì)節(jié)信息融合到高層次的檢測(cè)特征中,導(dǎo)致檢測(cè)目標(biāo)出現(xiàn)模糊的現(xiàn)象。因此,一種有效的特征聚合策略對(duì)COD算法性能的提升顯得尤其重要。此外,文獻(xiàn)[18]的研究表明,注意力機(jī)制在一定程度上可以抑制網(wǎng)絡(luò)中的噪聲,提高特征的表達(dá)能力以及網(wǎng)絡(luò)的理解能力。Lv等[22]最新提出的偽裝檢測(cè)模型,論證了注意力機(jī)制在COD任務(wù)中的有效性。因此,本文引入注意力機(jī)制用于輔助網(wǎng)絡(luò)的優(yōu)化,提高網(wǎng)絡(luò)的檢測(cè)能力。
綜上所述,針對(duì)特征的表達(dá)能力以及特征聚合兩個(gè)方面,本文提出了基于遞進(jìn)式特征增強(qiáng)聚合的偽裝目標(biāo)檢測(cè)。算法由3個(gè)部分組成:主干網(wǎng)絡(luò)、增強(qiáng)網(wǎng)絡(luò)和聚合網(wǎng)絡(luò)。首先,采用有效的特征提取網(wǎng)絡(luò)Res2NeXt-50[23]作為主干網(wǎng)絡(luò)提取多尺度、多層次特征;然后,增強(qiáng)網(wǎng)絡(luò)通過基于注意力和感受野的特征增強(qiáng)模塊(Feature Enhancement Module, FEM)提高特征的表達(dá)能力,實(shí)現(xiàn)多尺度特征的有效增強(qiáng);最后,在聚合網(wǎng)絡(luò)中設(shè)計(jì)基于注意力的鄰近聚合模塊(Adjacency Aggregation Module, AAM),將相鄰特征的信息進(jìn)行融合以突出偽裝目標(biāo)區(qū)域;并提出遞進(jìn)式聚合策略(Progressive Aggregation Strategy, PAS),使多級(jí)特征充分聚合的同時(shí)抑制噪聲,從而提高模型檢測(cè)偽裝目標(biāo)的能力。在3個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文的算法在4個(gè)客觀評(píng)價(jià)指標(biāo)上顯示了一定的優(yōu)越性。
目前,偽裝目標(biāo)檢測(cè)算法[1,18-19,22]主要通過感受野模塊、注意力機(jī)制以及特征聚合策略三大影響因素提升偽裝目標(biāo)檢測(cè)的性能。
1)感受野模塊。文獻(xiàn)[17]研究表明,感受野模塊具有增強(qiáng)特征可判別性和魯棒性的作用。最典型的感受野模塊有起始?jí)K(Inception Block)[12]、空洞空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)[24]和感受野塊(Receptive Field Block, RFB)[17]。起始?jí)K[12]具有多個(gè)分支結(jié)構(gòu),通過不同大小的卷積核捕獲多感受野特征。在初始?jí)K的基礎(chǔ)上,ASPP[24]引入了膨脹卷積擴(kuò)大感受野的范圍,但使用相同大小的卷積核容易使背景和目標(biāo)之間發(fā)生混淆的現(xiàn)象。為了解決上述問題,Liu等[17]提出了RFB模塊,通過使用較小的卷積核為靠近中心位置的目標(biāo)分配更大的權(quán)重,從而增強(qiáng)特征的表述能力。Fan等[1]在RFB的基礎(chǔ)上提出了感受野(Receptive Field, RF)模塊,進(jìn)一步擴(kuò)大了特征的感受野范圍,取得了更好的性能。
2)注意力機(jī)制。注意力機(jī)制能夠有選擇性地關(guān)注圖像中最重要的部分,提高網(wǎng)絡(luò)的理解能力[25]。早期,Hu等[26]提出了壓縮與激勵(lì)(Squeeze-and-Excitation,SE)模塊,通過學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道的關(guān)注度,并根據(jù)獲得的關(guān)注度加強(qiáng)重要的特征。在SE模塊的基礎(chǔ)上,Roy等[27]考慮到空間注意力對(duì)網(wǎng)絡(luò)的影響,結(jié)合通道和空間兩個(gè)維度實(shí)現(xiàn)特征圖的增強(qiáng)。Woo等[25]提出的卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)沿著通道和空間兩個(gè)獨(dú)立的維度依次輸入注意力映射,并將注意力映射與輸入特征圖相乘實(shí)現(xiàn)自適應(yīng)特征優(yōu)化功能。
3)特征聚合策略。特征聚合策略是提升網(wǎng)絡(luò)性能的一個(gè)重要因素[18]。為了實(shí)現(xiàn)特征的有效聚合,Lin等[11]提出了一種特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),通過從上到下的側(cè)向連接結(jié)構(gòu),實(shí)現(xiàn)多級(jí)特征的信息融合。Zhou等[28]提出了一種新的U型網(wǎng)絡(luò)(UNet++),通過一系列稠密的跳躍連接方式,進(jìn)而減少編、解碼網(wǎng)絡(luò)中的語(yǔ)義缺失。然而,上述算法通過跳躍融合操作直接將差異較大的特征進(jìn)行聚合,容易引入大量的噪聲,使得網(wǎng)絡(luò)的整體性能降低[21]。此外,Wu等[9]認(rèn)為低層特征消耗了大量的計(jì)算成本,進(jìn)而提出了只聚合較高層特征的級(jí)聯(lián)部分解碼器(Cascaded Partial Decoder,CPD),然而該算法丟失了低層特征包含的細(xì)節(jié)信息,不利于網(wǎng)絡(luò)生成具有清晰邊界的預(yù)測(cè)圖。
綜上所述,本文考慮到不同特征層的重要性以及跳躍式融合方式的局限性,提出了一種PAS,對(duì)鄰近特征進(jìn)行漸進(jìn)式融合,實(shí)現(xiàn)高、低層特征的有效聚合。此外,本文以注意力機(jī)制和感受野模塊為基礎(chǔ),設(shè)計(jì)了FEM,旨在豐富特征的感受野,增強(qiáng)特征的表達(dá)能力。
在COD領(lǐng)域,常用的主干網(wǎng)絡(luò)是殘差系列,包括基本的殘差網(wǎng)絡(luò)(Residual Network,ResNet)[29]以及其改進(jìn)版ResNeXt[30]、Res2Net[23]和Res2NeXt[23]。ResNeXt結(jié)合了分組卷積和ResNet的思想,其每一個(gè)分支具有相同的拓?fù)浣Y(jié)構(gòu),因此網(wǎng)絡(luò)的參數(shù)量較小、運(yùn)行速度較高;Res2Net在ResNet的基礎(chǔ)上,通過對(duì)殘差塊的內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn),增加了分層的殘差類連接,形成了具有更強(qiáng)的多尺度感知能力和更大的感受野的主干網(wǎng)絡(luò);而Res2NeXt是將Res2Net改進(jìn)的殘差塊集成到ResNeXt中,結(jié)合了兩者參數(shù)量少和感知能力強(qiáng)的優(yōu)點(diǎn),具有更強(qiáng)大的特征提取能力。因此,本文選擇采用Res2NeXt作為主干網(wǎng)絡(luò),以實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)量和性能之間的平衡。
本文考慮到主干網(wǎng)絡(luò)提取的多級(jí)特征的表達(dá)能力有限,直接聚合多層次特征通常會(huì)使信息丟失或引入模糊的特征。因此,本文在聚合多層次特征之前,先將其經(jīng)過具有4個(gè)FEM的增強(qiáng)網(wǎng)絡(luò),對(duì)偽裝目標(biāo)區(qū)域的特征進(jìn)行增強(qiáng),抑制背景環(huán)境的干擾,以充分地利用有效信息,提高特征的表達(dá)能力。
為了對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行有效的增強(qiáng),本文基于文獻(xiàn)[1,25]引入FEM,如圖1所示,在主干網(wǎng)絡(luò)提取出來(lái)的每個(gè)特征圖之后引入FEM,提高特征的表示能力,突出偽裝目標(biāo)區(qū)域的特征。
圖1 本文算法的總體框架
具體而言,如圖2所示,F(xiàn)EM首先通過CBAM[25]賦予重要的通道和空間更大的權(quán)重,挖掘與偽裝目標(biāo)相關(guān)的通道和空間信息;然后通過RF[1]擴(kuò)大感受野范圍來(lái)整合更具鑒別性的特征表示,實(shí)現(xiàn)特征的有效增強(qiáng)。FEM可描述為:
為了進(jìn)一步增強(qiáng)特征的表達(dá),本文利用RF模塊擴(kuò)大特征感受野,獲取全局上下文信息。如圖2所示,RF模塊包括5個(gè)分支,可詳細(xì)表示為:
本文提出的FEM,從通道、空間以及感受野3個(gè)角度挖掘豐富的目標(biāo)特征信息??紤]到操作順序?qū)μ卣鞅磉_(dá)能力的影響,本文在FEM的消融實(shí)驗(yàn)中設(shè)計(jì)了6組實(shí)驗(yàn)驗(yàn)證不同的順序組合方式對(duì)網(wǎng)絡(luò)的影響。表1的實(shí)驗(yàn)結(jié)果證明了依次進(jìn)行通道、空間和感受野操作對(duì)增強(qiáng)特征表達(dá)能力更為有效。
為了充分且有效地聚合多層次特征信息,本文采用一種遞進(jìn)式聚合策略實(shí)現(xiàn)多級(jí)特征的聚合。與跳躍式融合操作不同,該策略逐級(jí)聚合相鄰特征避免了跨層融合引入噪聲的問題。在聚合的過程中,為了有效整合鄰近特征的信息,本文設(shè)計(jì)AAM用于保留相鄰特征的重要信息并抑制噪聲。如圖1所示,聚合網(wǎng)絡(luò)采用了6個(gè)AAM對(duì)成對(duì)的相鄰特征進(jìn)行遞進(jìn)式聚合,實(shí)現(xiàn)偽裝目標(biāo)的精準(zhǔn)檢測(cè)。
2.3.1鄰近聚合模塊
首先,本文設(shè)計(jì)的鄰近聚合模塊(AAM)的輸入均為二鄰近特征,即兩個(gè)具有較小差異的相鄰特征,避免了具有大量干擾信息的低層特征與高層語(yǔ)義特征的直接融合,這在一定程度上解決了跨層聚合引入較多噪聲的問題;其次,AAM引入了注意力機(jī)制來(lái)聚合二鄰近特征的上下文信息,自適應(yīng)地選擇具有最高響應(yīng)的共同特征,并將其傳遞給下一個(gè)AAM;最后,AAM的輸出維度需要與輸入維度保持一致,為實(shí)現(xiàn)遞進(jìn)式聚合奠定基礎(chǔ)。
圖3 鄰近聚合模塊結(jié)構(gòu)
2.3.2遞進(jìn)式聚合策略
其中,,表示更新的鄰近特征,即聚合網(wǎng)絡(luò)中第個(gè)遞進(jìn)層的第個(gè)AAM的輸出特征;例如,表示圖1聚合網(wǎng)絡(luò)中第1個(gè)遞進(jìn)層的第1個(gè)AAM的輸出特征;表示AAM。整個(gè)聚合網(wǎng)絡(luò)包含三個(gè)遞進(jìn)層,由6個(gè)權(quán)值不共享的AAM組成。對(duì)最后的輸出特征進(jìn)行簡(jiǎn)單的卷積降維操作以及上采樣操作,即可獲得最終的偽裝圖。遞進(jìn)式聚合策略中間特征的可視化如圖4所示,較低層特征包含較多的紋理細(xì)節(jié)信息,較高層特征包含明顯的位置信息,每一次遞進(jìn)操作將差異較小的二鄰近特征進(jìn)行融合,逐步聚合偽裝目標(biāo)的位置信息和紋理信息,進(jìn)而使偽裝目標(biāo)(飛蛾)逐層變清晰,且從圖中可以明顯看出在特征聚合的過程中無(wú)關(guān)的噪聲得到了抑制,達(dá)到了預(yù)期的效果。
不同于UNet++[28]、PFANet(Pyramid Feature Attention Network for saliency detection)[7]、和F3Net(Fusion, Feedback and Focus for salient object detection)[20]算法的聚合方式,本文提出的遞進(jìn)式聚合策略顯著優(yōu)勢(shì)在于利用相鄰特征融合的優(yōu)點(diǎn),避免了跳躍融合操作,進(jìn)而達(dá)到抑制噪聲的目的。此外,與僅融合更深層特征而丟棄低層特征的CPD算法[9]不同,本文的遞進(jìn)式聚合策略考慮到不同特征層的重要性,既利用低層特征中的細(xì)節(jié)信息,又利用高層特征中的語(yǔ)義信息,充分且有效地表達(dá)目標(biāo)特征。
3.1.1訓(xùn)練損失
3.1.2實(shí)驗(yàn)設(shè)置
本文算法基于Pytorch框架在單張RTX 2080Ti GPU上設(shè)計(jì)實(shí)驗(yàn)。主干網(wǎng)絡(luò)(Res2NeXt-50[23])的參數(shù)根據(jù)ImageNet上預(yù)先訓(xùn)練的模型進(jìn)行初始化。在訓(xùn)練階段,采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)算法以0.9的動(dòng)量和0.000 5的權(quán)重衰減訓(xùn)練網(wǎng)絡(luò),批量化大小設(shè)置為16,輸入的RGB圖像尺寸調(diào)整為352×352。整個(gè)訓(xùn)練過程需要迭代150次,初始學(xué)習(xí)率設(shè)為0.002,采用學(xué)習(xí)率計(jì)劃策略,在迭代次數(shù)達(dá)到60后學(xué)習(xí)率下降10%,以優(yōu)化網(wǎng)絡(luò)的收斂情況。
3.1.3數(shù)據(jù)集
本文使用了3個(gè)公開的偽裝目標(biāo)檢測(cè)數(shù)據(jù)集。CAMO數(shù)據(jù)集[14]包含8個(gè)偽裝類別,共1 250張偽裝圖像,其中1 000張偽裝圖像用于訓(xùn)練,250張用于測(cè)試。CHAMELEON數(shù)據(jù)集[31]包含76張偽裝圖用于測(cè)試。最新的COD10K數(shù)據(jù)集[1],包括5個(gè)超類(兩棲動(dòng)物、水生動(dòng)物、空中動(dòng)物、陸地動(dòng)物以及其他類)和69個(gè)子類,共有5 066張偽裝圖像,其中3 040張偽裝圖像用于訓(xùn)練,2 026張用于測(cè)試。本文在上述3個(gè)數(shù)據(jù)集的測(cè)試集上對(duì)網(wǎng)絡(luò)模型進(jìn)行評(píng)估,為了進(jìn)行公平的比較,采用了文獻(xiàn)[1]相同的訓(xùn)練數(shù)據(jù)集,該訓(xùn)練集由3 040張COD10K訓(xùn)練圖像和1 000張CAMO訓(xùn)練圖像組成。
3.1.4評(píng)估指標(biāo)
平均絕對(duì)誤差[32]表示預(yù)測(cè)偽裝圖與真值圖之間的平均絕對(duì)誤差。其數(shù)學(xué)表達(dá)式為:
S測(cè)評(píng)法[33]是一種判斷預(yù)測(cè)偽裝圖和真值圖結(jié)構(gòu)相似性的評(píng)價(jià)指標(biāo)。其數(shù)學(xué)表達(dá)式為:
加權(quán)的F測(cè)評(píng)法[34]是一種基于區(qū)域相似度的評(píng)價(jià)指標(biāo),其數(shù)學(xué)表達(dá)式為:
增強(qiáng)-匹配測(cè)評(píng)法[35]是一種基于視覺感知機(jī)制的評(píng)價(jià)指標(biāo),利用圖像級(jí)和局部像素級(jí)統(tǒng)計(jì)來(lái)評(píng)估預(yù)測(cè)圖。其數(shù)學(xué)表達(dá)式為:
此外,為了形象地展示實(shí)驗(yàn)數(shù)據(jù)及對(duì)比各算法性能,本文繪制了各算法的精確率-召回率(Precision-Recall, PR)曲線。
為了驗(yàn)證特征增強(qiáng)模塊(FEM)和鄰近聚合模塊(AAM)設(shè)計(jì)的有效性,對(duì)模塊內(nèi)部結(jié)構(gòu)進(jìn)行了消融性研究。此外,還討論了文中增強(qiáng)網(wǎng)絡(luò)和融合網(wǎng)絡(luò)對(duì)模型檢測(cè)性能的影響,設(shè)計(jì)了一組網(wǎng)絡(luò)間的消融實(shí)驗(yàn)。本文所有的消融性實(shí)驗(yàn)都采用3.1節(jié)4個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估。
1)為了驗(yàn)證FEM結(jié)構(gòu)的有效性,本文對(duì)通道注意力機(jī)制、空間注意力機(jī)制以及感受野模塊三個(gè)組件的順序進(jìn)行探討。由于不同組件具有不同的功能,因此不同的順序會(huì)在一定程度上影響網(wǎng)絡(luò)的整體性能。表1是FEM的消融性實(shí)驗(yàn)結(jié)果,表中加粗字體表示最優(yōu)結(jié)果,CA表示通道注意力機(jī)制,SA表示空間注意力機(jī)制,RF表示感受野模塊。如表1所示,在CHAMELEON和CAMO數(shù)據(jù)集上,CA+SA+RF是6種不同組合方式中整體表現(xiàn)最優(yōu)的,這驗(yàn)證了本文依次從通道、空間以及感受野3個(gè)方面來(lái)提升特征表達(dá)能力的有效性。
2)為了驗(yàn)證AAM結(jié)構(gòu)的有效性,本文設(shè)計(jì)了三組實(shí)驗(yàn)。表2是AAM的消融性實(shí)驗(yàn)結(jié)果,表中加粗字體表示最優(yōu)結(jié)果。圖5展示了各實(shí)驗(yàn)方案的具體結(jié)構(gòu)。由表2可知,與三鄰近-二鄰近(圖5(a))和二鄰近-三鄰近(圖5(b))相比,本文設(shè)計(jì)的二鄰近(圖5(c))結(jié)構(gòu)取得了最優(yōu)性能,這驗(yàn)證了二鄰近聚合的優(yōu)越性。如圖5所示,本文提出的AAM融合了具有二鄰近特點(diǎn)的相鄰特征,旨在避免容易引入噪聲的跳躍融合操作。此外,與三鄰近的特征相比,二鄰近的特征之間具有更大的相似性,以便達(dá)到突出偽裝目標(biāo)區(qū)域并抑制噪聲的效果。
表1CHAMELEON和CAMO數(shù)據(jù)集上FEM的消融實(shí)驗(yàn)結(jié)果
Tab.1 Ablation experimental results of FEM on CHAMELEON and CAMO datasets
表2CHAMELEON和CAMO數(shù)據(jù)集上AAM的消融實(shí)驗(yàn)結(jié)果
Tab.2 Ablation experimental results of AAM on CHAMELEON and CAMO datasets
圖5 3種不同鄰近方式的AAM組合結(jié)構(gòu)
3)為了驗(yàn)證本文算法設(shè)計(jì)的增強(qiáng)網(wǎng)絡(luò)和聚合網(wǎng)絡(luò)的有效性,本文設(shè)計(jì)了消融實(shí)驗(yàn)。實(shí)驗(yàn)選擇Res2NeXt-50[23]作為主干網(wǎng)絡(luò),將主干網(wǎng)絡(luò)提取的4層特征分別經(jīng)過文獻(xiàn)[6]中的降維模塊,再將降維后的特征輸入具有跳躍式融合操作的U-Net[6]作為實(shí)驗(yàn)的基本網(wǎng)絡(luò)(即No.1)。消融實(shí)驗(yàn)設(shè)置為:用增強(qiáng)網(wǎng)絡(luò)替換基本網(wǎng)絡(luò)中的4個(gè)降維模塊(即基本網(wǎng)絡(luò)+增強(qiáng)網(wǎng)絡(luò),No.2)以及用聚合網(wǎng)絡(luò)替換基本網(wǎng)絡(luò)中的U-Net(即基本網(wǎng)絡(luò)+聚合網(wǎng)絡(luò),No.3)。表3是網(wǎng)絡(luò)間的消融實(shí)驗(yàn)結(jié)果,表中加粗字體表示最優(yōu)結(jié)果。如表3所示,由No.1和No.3實(shí)驗(yàn)數(shù)據(jù)可知,聚合網(wǎng)絡(luò)在本文算法中起了主要作用,這也驗(yàn)證了本文提出的AAM和遞進(jìn)式聚合策略的有效性;其次,在基本網(wǎng)絡(luò)+聚合網(wǎng)絡(luò)的基礎(chǔ)上,使用增強(qiáng)網(wǎng)絡(luò)替換基本網(wǎng)絡(luò)的4個(gè)降維模塊(即基本網(wǎng)絡(luò)+增強(qiáng)網(wǎng)絡(luò)+聚合網(wǎng)絡(luò),No.4),性能得到進(jìn)一步提升,這也表明了本文算法的有效性;此外,圖6展示了采用跳躍式聚合方式的算法(No.2)和本文遞進(jìn)式聚合方式的算法(No.4)輸出層前一層特征圖的可視化結(jié)果。由圖6可知,跳躍式聚合方式生成的特征圖(圖6(c))存在大量噪聲,而本文的遞進(jìn)式聚合方式生成的特征圖(圖6(d))的噪聲較少,質(zhì)量較高,直觀地驗(yàn)證了遞進(jìn)式聚合策略有效避免了跳躍式融合帶來(lái)的噪聲問題。
表3 COD10K數(shù)據(jù)集上網(wǎng)絡(luò)間的消融實(shí)驗(yàn)結(jié)果
圖6 跳躍式聚合與遞進(jìn)式聚合的特征可視化結(jié)果
將本文算法與12種最先進(jìn)的(State-Of-The-Art, SOTA)深度學(xué)習(xí)算法進(jìn)行了比較,包括FPN[11]、UNet++(a nested U-Net architecture for medical image segmentation)[28]、PFANet(Pyramid Feature Attention Network for saliency detection)[7]、PoolNet(a simple Pooling-based design for real-time salient object detection)[8]、CPD[9]、EGNet(Edge Guidance Network for salient object detection)[10]、SINet[1]、PraNet(Parallel reverse attention Network for polyp segmentation)[3]、MCIF-Net(towards accurate camouflaged object detection with Mixture Convolution and Interactive Fusion)[18]、Rank-Net(simultaneously localize, segment and Rank the camouflaged objects)[22]、TANet(deep Texture-Aware features for camouflaged object detection)[19]。為了進(jìn)行公平比較,本文利用了文獻(xiàn)[1]提供的算法測(cè)試結(jié)果和算法原文提供的可運(yùn)行代碼,在CHAMELEON數(shù)據(jù)集[31]、CAMO[14]和COD10K[1]的測(cè)試集上對(duì)模型進(jìn)行評(píng)估,其中,最新的MCIF-Net[18]、Rank-Net[22]和TANet[19]偽裝目標(biāo)檢測(cè)算法原文還未公開完整代碼和相關(guān)數(shù)據(jù),因此,本文直接采用了上述算法的原文數(shù)據(jù)進(jìn)行對(duì)比。
1)客觀評(píng)價(jià)。
表4各算法在3個(gè)COD數(shù)據(jù)集上的客觀評(píng)價(jià)
Tab.4 Objective evaluation of different algorithms on three COD datasets
圖7 9種算法在3個(gè)COD數(shù)據(jù)集上的精確率-召回率曲線對(duì)比
2)主觀評(píng)價(jià)。
圖8是本文算法與9種SOTA算法預(yù)測(cè)結(jié)果的直觀比較。如圖8所示,本文算法優(yōu)于所有競(jìng)爭(zhēng)算法,生成了最接近真值圖的預(yù)測(cè)結(jié)果。這歸功于本文算法聚合高低層特征時(shí)采用了遞進(jìn)式聚合鄰近特征的方式,避免了跳躍融合操作,生成的偽裝圖存在較少的噪聲,進(jìn)而呈現(xiàn)出更清晰的視覺效果。相比之下,競(jìng)爭(zhēng)算法無(wú)法準(zhǔn)確地檢測(cè)到偽裝目標(biāo),呈現(xiàn)的視覺效果不佳。此外,本文算法在昏暗光線的環(huán)境(第1、2行)、細(xì)長(zhǎng)的偽裝目標(biāo)(第3、4行)、低對(duì)比度環(huán)境(第5、6行)以及目標(biāo)遮擋問題(第7、8行)上始終表現(xiàn)出優(yōu)異的性能,表明了本文算法具有較好的魯棒性。
本文提出了一種基于遞進(jìn)式特征增強(qiáng)聚合的偽裝目標(biāo)檢測(cè)算法。為了有效地增強(qiáng)特征的表達(dá)能力,算法采用由FEM構(gòu)成的增強(qiáng)網(wǎng)絡(luò),通過利用注意力機(jī)制和感受野模塊對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行優(yōu)化;此外,算法考慮到跳躍融合操作引入噪聲的問題,在聚合網(wǎng)絡(luò)中設(shè)計(jì)AAM融合相鄰特征,并提出PAS利用鄰近特征的優(yōu)點(diǎn)實(shí)現(xiàn)多層特征信息的有效聚合,以突出偽裝目標(biāo)區(qū)域并抑制噪聲。在3個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)表明,與12種SOTA算法相比本文算法在性能上具有一定的優(yōu)越性。
在未來(lái)的工作中,針對(duì)偽裝目標(biāo)檢測(cè)的細(xì)節(jié)問題,將進(jìn)一步研究特征的聚合方式以及低層特征攜帶的細(xì)節(jié)信息對(duì)網(wǎng)絡(luò)性能的影響,探索新的網(wǎng)絡(luò)結(jié)構(gòu)以加強(qiáng)細(xì)節(jié)處理,并考慮其他形式的輸入作為指導(dǎo)(如深度圖、熱圖等),實(shí)現(xiàn)更精準(zhǔn)的偽裝目標(biāo)檢測(cè)。
圖8 9種算法的可視化對(duì)比
[1] FAN D P, JI G P, SUN G L, et al. Camouflaged object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 2774-2784.
[2] FANG Z, ZHANG X W, DENG X T, et al. Camouflage people detection via strong semantic dilation network[C]// Proceedings of the 2019 ACM Turing Celebration Conference - China. New York: ACM, 2019: No.134.
[3] FAN D P, JI G P, ZHOU T, et al. PraNet: parallel reverse attention network for polyp segmentation[C]// Proceedings of the 2020 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 12266/LNIP 12266. Cham: Springer, 2020: 263-273.
[4] FAN D P, ZHOU T, JI G P, et al. Inf-Net: automatic COVID-19 lung infection segmentation from CT images[J]. IEEE Transactions on Medical Imaging, 2020, 39(8): 2626-2637.
[5] 溫靜,宋建偉. 基于多級(jí)全局信息傳遞模型的視覺顯著性檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(1): 208-214.(WEN J, SONG J W. Visual saliency detection based on multi-level global information propagation model[J]. Journal of Computer Applications, 2021, 41(1): 208-214.)
[6] WU Z, SU L, HUANG Q M. Stacked cross refinement network for edge-aware salient object detection[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 7263-7272.
[7] ZHAO T, WU X Q. Pyramid feature attention network for saliency detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3080-3089.
[8] LIU J J, HOU Q B, CHENG M M, et al. A simple pooling-based design for real-time salient object detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3912-3921.
[9] WU Z, SU L, HUANG Q M. Cascaded partial decoder for fast and accurate salient object detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3902-3911.
[10] ZHAO J X, LIU J J, FAN D P, et al. EGNet: edge guidance network for salient object detection[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 8778-8787.
[11] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 936-944.
[12] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[13] 劉子威,鄧春華,劉靜. 基于非對(duì)稱沙漏網(wǎng)絡(luò)結(jié)構(gòu)的目標(biāo)檢測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(12): 3526-3533.(LIU Z W, DENG C H, LIU J. Object detection algorithm based on asymmetric hourglass network structure[J]. Journal of Computer Applications, 2020, 40(12): 3526-3533.)
[14] LE T N, NGUYEN T V, NIE Z L, et al. Anabranch network for camouflaged object segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45-56.
[15] YAN J N, LE T N, NGUYEN K D, et al. MirrorNet: bio-inspired camouflaged object segmentation[J]. IEEE Access, 2021, 9: 43290-43300.
[16] CHEN Z Y, XU Q Q, CONG R M, et al. Global context-aware progressive aggregation network for salient object detection[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 10599-10606.
[17] LIU S T, HUANG D, WANG Y H. Receptive field block net for accurate and fast object detection[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11215/LNIP 11215. Cham: Springer, 2018: 404-419.
[18] DONG B, ZHUGE M C, WANG Y X, et al. Towards accurate camouflaged object detection with mixture convolution and interactive fusion[EB/OL]. (2021-05-26) [2021-05-31].https://arxiv.org/pdf/2101.05687.pdf.
[19] REN J J, HU X W, ZHU L, et al. Deep texture-aware features for camouflaged object detection[J].IEEE Transactions on Circuits and Systems for Video Technology, 2021(Early Access): 1-1.
[20] WEI J, WANG S H, HUANG Q M. F3Net: fusion, feedback and focus for salient object detection[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12321-12328.
[21] PANG Y W, ZHAO X Q, ZHANG L H, et al. Multi-scale interactive network for salient object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 9410-9419.
[22] LV Y Q, ZHANG J, DAI Y C, et al. Simultaneously localize, segment and rank the camouflaged objects[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 11586-11596.
[23] GAO S H, CHENG M M, ZHAO K, et al. Res2Net: a new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2): 652-662.
[24] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[25] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211/LNIP 11211. Cham: Springer, 2018: 3-19.
[26] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[27] ROY A G, NAVAB N, WACHINGER C. Concurrent spatial and channel ‘squeeze & excitation’ in fully convolutional networks[C]// Proceedings of the 2018 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 11070/LNIP 11070. Cham: Springer, 2018: 421-429.
[28] ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation[C]// Proceedings of the 2018 International Workshop on Deep Learning in Medical Image Analysis and 2018 International Workshop on Multimodal Learning for Clinical Decision Support, LNCS 11045/LNIP 11045. Cham: Springer, 2018: 3-11.
[29] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[30] XIE S N, GIRSHICK R, DOLLáR P, et al. Aggregated residual transformations for deep neural networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5987-5995.
[31] SKUROWSKI P, ABDULAMEER H, B?ASZCZYK J, et al. Animal camouflage analysis: CHAMELEON database[DB/OL]. [202-05-31].https://www.polsl.pl/rau6/chameleon-database-animal-camouflage-analysis/.
[32] PERAZZI F, KR?HENBüHL P, PRITCH Y, et al. Saliency filters: contrast based filtering for salient region detection[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2012: 733-740.
[33] FAN D P, CHENG M M, LIU Y, et al. Structure-measure: a new way to evaluate foreground maps[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 4558-4567.
[34] MARGOLIN R, ZELNIK-MANOR L, TAL A. How to evaluate foreground maps[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 248-255.
[35] FAN D P, GONG C, CAO Y, et al. Enhanced-alignment measure for binary foreground map evaluation[C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2018: 698-704.
TAN Xiangyue, born in 1998, M. S. candidate. Her research interests include deep learning, camouflaged object detection.
HU Xiao, born in 1969, Ph. D., professor. His research interests include computer vision, artificial intelligence, intelligent video analysis.
YANG Jiaxin, born in 1996, M. S. candidate. His research interests include deep learning, salient object detection.
XIANG Junjiang, born in 1996, M. S. candidate. His research interests include video analysis, object detection.
Camouflaged object detection based on progressive feature enhancement aggregation
TAN Xiangyue1, HU Xiao2*, YANG Jiaxin1, XIANG Junjiang1
(1,,510006,;2,,510006,)
Camouflaged Object Detection (COD) aims to detect objects hidden in complex environments. The existing COD algorithms ignore the influence of feature expression and fusion methods on detection performance when combining multi-level features. Therefore, a COD algorithm based on progressive feature enhancement aggregation was proposed. Firstly, multi-level features were extracted through the backbone network. Then, in order to improve the expression ability of features, an enhancement network composed of Feature Enhancement Module (FEM) was used to enhance the multi-level features. Finally, Adjacency Aggregation Module (AAM) was designed in the aggregation network to achieve information fusion between adjacent features to highlight the features of the camouflaged object area, and a new Progressive Aggregation Strategy (PAS) was proposed to aggregate adjacent features in a progressive way to achieve effective multi-level feature fusion while suppressing noise. Experimental results on 3 public datasets show that the proposed algorithm achieves the best performance on 4 objective evaluation indexes compared with 12 state-of-the-art algorithms, especially on COD10K dataset, the weighted F-measure and the Mean Absolute Error (MAE) of the proposed algorithm reach 0.809 and 0.037 respectively. It can be seen that the proposed algorithm achieves better performance on COD tasks.
Convolutional Neural Network (CNN); Camouflaged Object Detection (COD); feature enhancement; Adjacency Aggregation Module (AAM); Progressive Aggregation Strategy (PAS)
This work is partially supported by National Natural Science Foundation of China (62076075).
TP391.4
A
1001-9081(2022)07-2192-09
10.11772/j.issn.1001-9081.2021060900
2021?06?03;
2021?08?01;
2021?08?06。
國(guó)家自然科學(xué)基金資助項(xiàng)目(62076075)。
譚湘粵(1998—),女,湖南衡陽(yáng)人,碩士研究生,主要研究方向:深度學(xué)習(xí)、偽裝目標(biāo)檢測(cè); 胡曉(1969—),男,湖南郴州人,教授,博士,主要研究方向:計(jì)算機(jī)視覺、人工智能、智能視頻分析; 楊佳信(1996—),男,廣東揭陽(yáng)人,碩士研究生,主要研究方向:深度學(xué)習(xí)、顯著性目標(biāo)檢測(cè); 向俊將(1996—),男,湖南益陽(yáng)人,碩士研究生,主要研究方向:視頻分析、目標(biāo)檢測(cè)。