劉仲任,彭 力
(江南大學(xué) 物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無錫 214000)
顯著性目標(biāo)檢測能夠從復(fù)雜場景中檢測出人類視覺注意力最為集中的顯著性對象,目前有許多計(jì)算機(jī)視覺領(lǐng)域的科研人員提出了基于手工特征的顯著度算法和基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型以識別顯著性對象。顯著性目標(biāo)檢測技術(shù)已經(jīng)應(yīng)用于圖片摘要、信息發(fā)現(xiàn)、圖片檢索[1]、目標(biāo)跟蹤、目標(biāo)檢測[2]等領(lǐng)域,通過顯著性目標(biāo)檢測預(yù)先獲得圖像的顯著性區(qū)域,有利于促進(jìn)計(jì)算機(jī)視覺等眾多領(lǐng)域的研究與發(fā)展。
傳統(tǒng)的顯著性目標(biāo)檢測方法[3]使用單一低級手工特征來計(jì)算顯著性特征值,如圖像的顏色分布、紋理結(jié)構(gòu)和對比度。依賴圖像手工特征和顯著度算法的傳統(tǒng)檢測方法難以捕獲顯著性目標(biāo)的空間結(jié)構(gòu)信息。文獻(xiàn)[4]在高維顏色空間中使用顏色的線性組合來創(chuàng)建圖像的顯著性映射,結(jié)合顏色對比度和超像素之間的相對位置來計(jì)算顯著度。文獻(xiàn)[5]利用顯著度算法獲得顯著性先驗(yàn)信息,再通過高斯馬爾可夫隨機(jī)場增強(qiáng)顯著性區(qū)域的一致性,從而實(shí)現(xiàn)顯著性檢測。對于顯著性對象和背景環(huán)境較為統(tǒng)一且場景復(fù)雜的自然圖像,低級手工特征缺乏深度語義信息的指導(dǎo),準(zhǔn)確檢測顯著性目標(biāo)的能力受到限制。
近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和計(jì)算機(jī)硬件的更新迭代,基于深度網(wǎng)絡(luò)的顯著性目標(biāo)檢測算法表現(xiàn)出優(yōu)異性能。利用高層級語義信息的全卷積神經(jīng)網(wǎng)絡(luò)算法已經(jīng)能夠準(zhǔn)確檢測出人類視覺感興趣的顯著性目標(biāo),檢測方法大致分為以下3 類:
1)基于邊界感知的顯著性目標(biāo)檢測方法。文獻(xiàn)[6]針對顯著性目標(biāo)檢測的邊緣模糊現(xiàn)象,提出注意力反饋網(wǎng)絡(luò),通過使用注意力反饋模塊來產(chǎn)生更銳化的推理結(jié)果,其通過引入邊界增強(qiáng)損失函數(shù)作為輔助,增強(qiáng)了邊緣細(xì)節(jié)。文獻(xiàn)[7]提出新的全卷積網(wǎng)絡(luò)框架,在目標(biāo)邊界信息的引導(dǎo)下循環(huán)地集成多層卷積特征,實(shí)現(xiàn)了精確的邊界推理和語義增強(qiáng)。文獻(xiàn)[8]提出一種非局部深度特征網(wǎng)絡(luò),同時實(shí)現(xiàn)一個邊緣感知的損失函數(shù),該網(wǎng)絡(luò)通過多分辨率網(wǎng)格結(jié)構(gòu)整合局部信息與全局信息以進(jìn)行顯著性目標(biāo)檢測。該類方法優(yōu)化了顯著性目標(biāo)的邊界,但是難以檢測小目標(biāo)。
2)基于深度特征融合的顯著性目標(biāo)檢測方法。文獻(xiàn)[9]提出Amulet 網(wǎng)絡(luò),并設(shè)計(jì)一種聚合多層次卷積特征的網(wǎng)絡(luò)框架,引入聚合不同分辨率信息的特征集成模塊來自適應(yīng)地推理顯著性目標(biāo),該網(wǎng)絡(luò)提高了檢測準(zhǔn)確率。文獻(xiàn)[10]提出的多尺度注意力引導(dǎo)模塊能夠有效提取多尺度特征,同時更加關(guān)注具有更多顯著性特征的映射圖,衰減顯著性鑒別度較弱的特征圖。文獻(xiàn)[11]提出一種利用矛盾信息的顯著性目標(biāo)和偽裝目標(biāo)檢測方法,引入一個相似性度量模塊對相互矛盾的屬性進(jìn)行建模,實(shí)現(xiàn)了魯棒性更健壯的檢測對抗網(wǎng)絡(luò)。該類方法檢測性能優(yōu)異,但是由于網(wǎng)絡(luò)參數(shù)量和計(jì)算量較大,導(dǎo)致推理速度較慢。
3)基于實(shí)時的顯著性目標(biāo)檢測方法。文獻(xiàn)[12]在U 型架構(gòu)的基礎(chǔ)上,提出一個基于池化的實(shí)時顯著性目標(biāo)檢測方法,充分發(fā)揮池化在卷積神經(jīng)網(wǎng)絡(luò)中的作用,通過全局引導(dǎo)模塊對產(chǎn)生的特征圖進(jìn)行逐級優(yōu)化,最終生成細(xì)節(jié)豐富的顯著圖,由于采用了大量的池化模塊,因此大幅提高了模型的推理速度。文獻(xiàn)[13]通過在整體嵌套邊緣檢測器的跳層結(jié)構(gòu)中引入短連接,增強(qiáng)了網(wǎng)絡(luò)每層的特征表示,縮短了檢測時間。文獻(xiàn)[14]針對檢測網(wǎng)絡(luò)規(guī)模和計(jì)算開銷較大的問題,引入多尺度立體注意力模塊,通過立體注意力機(jī)制搭建編解碼網(wǎng)絡(luò)以自適應(yīng)融合各種尺度特征,在加快推理速度的同時保證了較高的檢測精度。該類方法大幅減少了計(jì)算開銷和網(wǎng)絡(luò)規(guī)模,雖然犧牲了一定的檢測精度,但是能夠?qū)崟r檢測顯著性目標(biāo)。
雖然深度學(xué)習(xí)在顯著性目標(biāo)檢測中已經(jīng)取得了一定成果,但是復(fù)雜場景下的顯著性目標(biāo)檢測仍然存在以下挑戰(zhàn):自然圖像往往背景復(fù)雜,現(xiàn)有顯著性目標(biāo)檢測方法通常采用單一特征檢測,導(dǎo)致顯著圖邊緣不清晰和內(nèi)部不均勻,難以從復(fù)雜場景中提取出符合要求的顯著性目標(biāo);部分現(xiàn)有檢測方法缺乏淺層特征的空間位置信息,難以抑制背景噪聲,導(dǎo)致顯著圖邊緣輪廓不連續(xù)且背景模糊。雖然可以通過融合多種顯著圖來改善由單一特征檢測引起的不足,但是不合理的融合策略可能進(jìn)一步降低算法的檢測性能。為了解決以上問題,本文提出一種多尺度視覺感知融合的顯著性目標(biāo)檢測方法。
本文模型基于U 型結(jié)構(gòu)設(shè)計(jì)2 個新的模塊,即多尺度視覺感知模塊(Multi-scale Visual Perception Module,MVPM)和多尺度特征融合模塊(Multi-scale Feature Fusion Module,MFFM)。MVPM 的設(shè)計(jì)靈感來源于靈長類動物的視覺系統(tǒng)分層處理視覺信號的機(jī)制[15],使用不同膨脹率的空洞卷積[16]構(gòu)建感受野并模擬靈長類視覺皮層進(jìn)行學(xué)習(xí),在主干網(wǎng)絡(luò)中從淺層到深層逐級提取顯著性目標(biāo)的全局空間信息,該模塊輸出的多尺度視覺感知管道(Multi-scale Visual Perception Pipes,MVPPs)為解碼網(wǎng)絡(luò)提供不同特征層次的潛在顯著性目標(biāo)的空間位置信息。MFFM 基于特征金字塔結(jié)構(gòu),將主干網(wǎng)絡(luò)的輸出通過特征金字塔映射到不同尺度以挖掘更多的語義信息,再通過空間注意力機(jī)制自適應(yīng)融合不同尺度的特征。
本文所提網(wǎng)絡(luò)基于U 型網(wǎng)絡(luò)架構(gòu),包含多尺度視覺感知模塊MVPM 和多尺度特征融合模塊MFFM。多尺度視覺感知模塊能夠有效提取全局上下文信息和細(xì)節(jié)信息,用于指導(dǎo)特征融合。多尺度特征融合模塊可以將主干網(wǎng)絡(luò)輸出的特征圖擴(kuò)展到不同尺度空間,再與多尺度視覺感知模塊的輸出融合得到每一階段的顯著圖,并且各個階段都進(jìn)行監(jiān)督優(yōu)化。最后將各階段的預(yù)測圖進(jìn)行跨通道級聯(lián),通過得分層獲得最終的顯著圖。
本文顯著性目標(biāo)檢測網(wǎng)絡(luò)框架如圖1所示。主干網(wǎng)絡(luò)(backbone)采用ResNet-50[17],該網(wǎng)絡(luò)廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,是計(jì)算機(jī)視覺任務(wù)的經(jīng)典主干神經(jīng)網(wǎng)絡(luò)之一。ResNet-50 利用殘差學(xué)習(xí)塊優(yōu)化深度網(wǎng)絡(luò)訓(xùn)練,通過加深網(wǎng)絡(luò)層數(shù)獲取更加豐富的深層特征信息。本文將主干網(wǎng)絡(luò)最后的全局平均池化層和全連接層全部刪除,使用其中的5 層特征圖E(i)(i?{0,1,2,3,4})作為主干特征。將主干所有特征圖E(i)作為多尺度視覺感知模塊MVPM 的輸入,通過MVPM 提取顯著性目標(biāo)的空間位置信息,輸出4 條多尺度視覺 感知管道,用m(i()i?{0,1,2,3})表示。在網(wǎng)絡(luò)自下而上的支路上設(shè)計(jì)多尺度特征融合模塊M(i()i?{0,1,2,3,4}),第i個多尺 度特征 融合模塊M(i)可以表示為:
圖1 顯著性目標(biāo)檢測網(wǎng)絡(luò)框架Fig.1 Framework of salient object detection network
其中:φ(*)函數(shù)表示多尺度特征融合操作;⊕運(yùn)算表示對特征圖進(jìn)行跨通道級聯(lián)操作。各階段的M(i)通過上采樣恢復(fù)到原圖尺寸,再通過1×1 大小的卷積進(jìn)行通道對齊,可以表示為:
其中:μ(*)是雙線性插值上采樣函數(shù);F1×1(*)是1×1大小的卷積操作。最終的顯著圖P可以表示為:
其中:η(*)函數(shù)表示得分層預(yù)測概率的計(jì)算操作。上式實(shí)際上是通過3×3 卷積運(yùn)算使得通道降維,再通過激活函數(shù)映射成預(yù)測結(jié)果圖。
本文網(wǎng)絡(luò)基于經(jīng)典U 型架構(gòu),當(dāng)較高層次的特征信息被傳播至較低層次時,空間位置的語義信息也將逐步地被稀釋,尤其是在更深層次上,卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)感知野比理論感受野要小得多,因此,整個網(wǎng)絡(luò)的感知野不夠大,無法捕獲輸入圖像的全局信息,只有顯著性目標(biāo)的突出部分可以被網(wǎng)絡(luò)發(fā)現(xiàn),背景噪聲過大,顯著圖缺乏完整性。本文設(shè)計(jì)的多尺度視覺感知模塊MVPM 由改進(jìn)的空洞空間卷積池化金字塔(ASPP)和一系列多尺度視覺感知管道MVPPs 組成,為多尺度特征融合模塊提供顯著性目標(biāo)的位置和細(xì)節(jié)特征信息。MVPM 模塊結(jié)構(gòu)如圖2所示,其中表示卷積核大小為k、膨脹率為r的空洞卷積層。
MVPM 采用空洞卷積來模擬不同的視覺皮層區(qū)域,這些區(qū)域具有不同的感受野,其大小和偏心率與空洞卷積核的大小和擴(kuò)張率有相似的關(guān)系。MVPM的輸入為主干網(wǎng)絡(luò)的所有特征層輸出E(i),其中,第0~第3 個特征層對應(yīng)膨脹率分別為7、5、3、1 的3×3膨脹卷積處理,再經(jīng)過3×3 大小的卷積層和ReLU激活函數(shù)處理后得到和輸入尺寸相同的特征圖。針對最后一層特征圖E(4),采用改進(jìn)的ASPP 進(jìn)行深層特征挖掘,改進(jìn)ASPP 模塊的輸出通過雙線性插值進(jìn)行0、2、4、8 倍的上采樣,輸出4 條MVPPs 通路。本文的MVPM 獨(dú)立于U 型結(jié)構(gòu),可以很方便地將高級語義信息輸入至不同級別的特征圖,并且增加了MVPPs 的權(quán)重,確保顯著性目標(biāo)的空間位置信息不會被稀釋。
MVPM 的核心是發(fā)揮了空洞卷積在神經(jīng)網(wǎng)絡(luò)中的作用。在圖形采樣的過程中存在分辨率損失和信息丟失等問題,雖然通過增大卷積核、池化、步長可以提高感知野,但是會增加模型的參數(shù)計(jì)算量??斩淳矸e可以改變超參數(shù)膨脹率r來獲取更大的感知野,同時保證輸出的特征圖大小不變。膨脹率r表示卷積核中的采樣間隔,數(shù)值越大,進(jìn)行卷積操作時掃描的圖像區(qū)域就越大。空洞卷積的優(yōu)勢在于:一方面,不同擴(kuò)張率的空洞卷積帶來了多種尺度的感知野,能夠提供豐富的全局上下文感知信息,有助于指導(dǎo)特征融合并預(yù)測顯著性目標(biāo)的空間位置;另一方面,能夠保證輸出圖像的尺寸不變,圖像信息保存相對完整,且不產(chǎn)生額外的計(jì)算量。
在網(wǎng)絡(luò)自上而下的支路上引入多尺度特征融合模塊MFFM,利用該模塊充分聚合多尺度信息,將主干網(wǎng)絡(luò)的輸出通過特征金字塔映射到不同空間尺度,并對MVPM 輸出的空間位置信息和淺層細(xì)節(jié)特征信息進(jìn)行有效整合,生成混合特征圖。該模塊結(jié)構(gòu)如圖3 所示。
MFFM 首先通過平均池化操作對特征圖進(jìn)行8、4、2 倍下采樣,將輸入特征圖轉(zhuǎn)換到不同的尺度空間,再進(jìn)行3×3 大小的卷積操作以挖掘特征信息;然后對不同分支的特征圖進(jìn)行上采樣并加和,再進(jìn)行一個3×3 大小的卷積操作,有效減少在上下采樣過程中出現(xiàn)的混疊效應(yīng),提高特征聚合性能;最后加入一個空間注意力模塊(Spatial Attention Module,SAM),衡量融合特征的貢獻(xiàn)度同時捕獲更深的顯著性目標(biāo)空間信息。
注意力機(jī)制[18]是一種增強(qiáng)深度卷積神經(jīng)網(wǎng)絡(luò)性能的方式,部分研究已經(jīng)驗(yàn)證了注意力機(jī)制對顯著性目標(biāo)檢測任務(wù)的有效性。本文采用SAM 提高M(jìn)FFM 的融合性能。SAM 是卷積塊注意力模塊[19]的一部分,空間注意力聚焦在特征圖最具信息量的部分,通過權(quán)重衡量每個空間位置信息的重要程度。SAM 結(jié)構(gòu)如圖4 所示。
SAM 首先沿著通道方向應(yīng)用平均池化和最大池化操作,然后通過跨通道級聯(lián)將兩者輸出連接起來,生成一個有效的特征描述,最后通過一個卷積核大小為3×3、padding 填充為1 的卷積將通道壓縮為單通道,生成與輸入尺寸一致的空間注意力圖Ms(E′),可以表示為:
其中:Avg(*)為平均池化操作;Max(*)為最大池化操作均為大小為1×H×W的特征描述矩陣;ξ(*)為Sigmoid 函數(shù);f3×3(*)是卷積核大小為3×3的卷積運(yùn)算。
MFFM 具備兩大優(yōu)勢:該模塊能夠從不同的尺度空間觀察局部環(huán)境,進(jìn)而拓展整個網(wǎng)絡(luò)的感受野,有助于捕捉顯著性目標(biāo)的具體空間位置;空間注意力模塊增加了特征權(quán)重,能夠有效衡量空間特征的重要程度。
本文引入三重聯(lián)合損失函數(shù)[20],由BCE(Binary Cross Entropy)、IoU(Intersection over Union)和SSIM(Structural Similarity)損失組成,計(jì)算公式如下:
BCE 二進(jìn)制交叉熵?fù)p失函數(shù)是二值分類和分割中使用最廣泛的損失函數(shù),計(jì)算公式如下:
其中:G(r,c)?{0,1}是像素(r,c)在真實(shí)圖中的像素坐標(biāo);S(r,c)?[0,1]是顯著性目標(biāo)像素的預(yù)測概率。
IoU 交并比損失函數(shù)對尺度不敏感且具有尺度不變性,通過預(yù)檢測錨框與真實(shí)檢測錨框的重疊區(qū)域反映檢測效果,在圖像任務(wù)中有很好的表現(xiàn),計(jì)算公式如下:
SSIM 損失函數(shù)類比圖片的3 個特征(亮度、對比度和結(jié)構(gòu)性)來判斷兩張圖是否相似,計(jì)算公式如下:
其中:μx、μy表示N個像素點(diǎn)的平均亮度;σx、σy表示圖片明暗變化的劇烈程度,σxy是它們的協(xié)方差,表示圖片的結(jié)構(gòu)相似性。為了防止分母為0,C1一般取值為0.012,C2一般取值為0.032。
本文訓(xùn)練集采用DUTS 數(shù)據(jù)集。為了評估本文算法的有效性,在5 個公開數(shù)據(jù)集上進(jìn)行測試,分別是HKU-IS、ECSSD、DUTS、DUT-OMRON、SOD[21]圖像數(shù)據(jù)集。其中,DUTS 數(shù)據(jù)集總共包含15 572 張圖像,在這5 個數(shù)據(jù)集中圖像數(shù)量最多,大部分顯著性目標(biāo)檢測算法都會使用該數(shù)據(jù)集進(jìn)行訓(xùn)練測試。DUT-OMRON 是一個包含5 168 張圖像的數(shù)據(jù)集,其中部分圖像中包含多個顯著性目標(biāo),大多數(shù)前景對象在結(jié)構(gòu)上很復(fù)雜,這對于顯著性目標(biāo)檢測算法有很大的挑戰(zhàn)性。
本文選擇PyTorch1.3.1 深度學(xué)習(xí)框架來實(shí)現(xiàn)顯著性目標(biāo)檢測網(wǎng)絡(luò)。使用ResNet-50 預(yù)訓(xùn)練模型初始化部分網(wǎng)絡(luò)參數(shù),使用默認(rèn)值初始化其余網(wǎng)絡(luò)參數(shù)。所有實(shí)驗(yàn)都使用Adam 優(yōu)化器[22]來優(yōu)化損失函數(shù),權(quán)重衰減設(shè)置為5×10-4,初始學(xué)習(xí)率設(shè)置為5×10-5,在第15 輪訓(xùn)練結(jié)束后學(xué)習(xí)率設(shè)置為原來的1/10。網(wǎng)絡(luò)總共訓(xùn)練21 輪,在不使用驗(yàn)證集的情況下訓(xùn)練網(wǎng)絡(luò),訓(xùn)練損失函數(shù)在第15 輪后收斂。在測試過程中,預(yù)測圖使用Sigmoid 函數(shù)將像素預(yù)測概率值映射為[0,1]區(qū)間內(nèi)的值,然后再乘以灰度范圍255恢復(fù)成灰度圖。訓(xùn)練網(wǎng)絡(luò)使用的設(shè)備為浪潮英信服務(wù)器NP3020M4 和單卡GPU NVIDIA GTX 1080ti。
本文采用F-Measure(Fβ)[23]、平均絕對誤差(Mean Absolute Error,MAE)作為評 價指標(biāo)。其 中,F(xiàn)-Measure 是衡量模型的整體指標(biāo),由精確率P和召回率R共同計(jì)算得出。首先遍歷灰度閾值,將大于閾值的區(qū)域定義為顯著性目標(biāo),低于閾值的區(qū)域定義為背景。精確率與召回率的計(jì)算公式如下:
其中:TP、FP和FN分別代表真陽性、假陽性和假陰性。Fβ由精確率和召回率加權(quán)平均生成,計(jì)算公式如下:
為了強(qiáng)化精確率[24]的重要性,其中β2通常被設(shè)置為0.3。本文選取精確率-召回率(Precision-Recall,PR)曲線計(jì)算的平均值作為Fβ指標(biāo),記為Fm。
MAE 指標(biāo)定義為計(jì)算歸一化的顯著圖和真實(shí)圖之間的平均絕對誤差,計(jì)算公式如下:
其中:S和G分別指顯著圖和對應(yīng)的真實(shí)圖;H表示顯著圖的高;W表示顯著圖的寬;(r,c)表示對應(yīng)的像素點(diǎn)坐標(biāo)。MAE 值越小,代表檢測的預(yù)測圖與真實(shí)圖越接近,檢測方法性能越好。
本文進(jìn)行相關(guān)的結(jié)構(gòu)消融實(shí)驗(yàn)來驗(yàn)證本文算法的有效性,所有實(shí)驗(yàn)都在DUTS 數(shù)據(jù)集上進(jìn)行。表1列出了基準(zhǔn)網(wǎng)絡(luò)U-Net、多尺度特征融合模塊MFFM和多尺度視覺感知模塊MVPM 的定量比較結(jié)果。從表1 可以看出:本文提出的MFFM 單獨(dú)使用時在Fm和MAE 這2 個指標(biāo)上相比基準(zhǔn)網(wǎng)絡(luò)分別提升0.127、0.048;同時使 用MFFM 和MVPM 時 在Fm和MAE 這2 個指標(biāo)上相比基準(zhǔn)網(wǎng)絡(luò)分別提升0.142、0.054。MVPM 對MFFM 的增益 在Fm和MAE 這2 個指標(biāo)上分別為0.015、0.006,雖然增益不高,但是MVPM 的加入使得顯著圖的邊緣輪廓更加清晰連續(xù),有效抑制了背景噪聲。
表1 算法使用不同模塊時的性能比較Table 1 Performance comparison of algorithms using different modules
如圖5 所示,未加入MFFM 模塊的網(wǎng)絡(luò)產(chǎn)生的顯著圖模糊,邊緣輪廓不清晰,背景出現(xiàn)大量噪聲,加入了MFFM 的網(wǎng)絡(luò)能夠有效改善以上問題。當(dāng)加入MVPM 時,整個顯著圖邊緣輪廓的檢測效果和背景的抑制能力得到了一定的增強(qiáng)。
圖5 不同模塊的顯著性檢測結(jié)果比較Fig.5 Comparison of salient detection results of different modules
MVPM 的核心部分是如何設(shè)計(jì)空洞卷積,使其能夠有效模擬靈長類視覺系統(tǒng)中的感受野,其中的通路設(shè)計(jì)和空洞卷積膨脹率r選擇是MVPM 能否有效捕獲顯著性目標(biāo)空間位置信息和抑制背景噪聲的關(guān)鍵。為了獲得性能更好的參數(shù)和通路結(jié)構(gòu),本文設(shè)計(jì)多個實(shí)驗(yàn)進(jìn)行ASPP參數(shù)選擇,實(shí)驗(yàn)結(jié)果如表2所示,其中,M(4)表示加入主干網(wǎng)絡(luò)的最后一層輸出通路,rate表示采用空洞卷積的膨脹率參數(shù),pool 表示加入全局平均池化通路。從表2 可以看出,當(dāng)?shù)? 個通路采用主干網(wǎng)絡(luò)的最后一層輸出、其余4個通路采用擴(kuò)張率r分別為3、5、7、9 的空洞卷積時,MVPM 對檢測網(wǎng)絡(luò)的增益最高,F(xiàn)m和MAE 這2個指標(biāo)分別達(dá)到0.884和0.035。
表2 本文算法使用不同膨脹率和通路的性能比較Table 2 Performance comparison of this algorithm using different expansion rates and passages
2.6.1 定量比較
將本文所提算法與7 種先進(jìn)算法進(jìn)行比較,包括RANet[25]、PiCANet[26]、BMPM[27]、DGRL[28]、CARCCNet[29]、MLMSNet[30]和LEGS[31]。圖6 所 示為本文算法與其他顯著性目標(biāo)檢測算法的PR 曲線比較結(jié)果(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。表3 列出了各算法在5 個公開數(shù)據(jù)集上的Fm和MAE 性能指標(biāo)比較結(jié)果。
表3 8 種算法在5 個數(shù)據(jù)集上的性能比較結(jié)果Table 3 Performance comparison results of eight algorithms on five datasets
圖6 8 種算法在5 個數(shù)據(jù)集上的PR 曲線比較結(jié)果Fig.6 Comparison results of PR curves of eight algorithms on five datasets
實(shí)驗(yàn)結(jié)果表明:對于評價指標(biāo)Fm,在5 個數(shù)據(jù)集上本文算法相比RANet 和CARCCNet 平均分別提高0.015 和0.025;對于評價指標(biāo)MAE,在5 個數(shù)據(jù)集上本文算法相比RANet、CARCCNet 平均分別降低0.011 和0.016;在圖片數(shù)量最多的DUTS 數(shù)據(jù)集和背景更加復(fù)雜的SOD 數(shù)據(jù)集上,相比DGRL 算法,本文算法在Fm指標(biāo)上提高0.034,在MAE 指標(biāo)上降低0.009。
2.6.2 定性比較
顯著性目標(biāo)檢測旨在從復(fù)雜場景中檢測出人類視覺注意力最為集中的對象區(qū)域,檢測結(jié)果的優(yōu)劣依賴于視覺體驗(yàn),圖7 展示了本文算法對顯著性目標(biāo)邊緣輪廓和背景噪聲的優(yōu)化結(jié)果。圖7 的第1 行、第3 行和第4 行分別展示了本文算法檢測出顯著性目標(biāo)細(xì)節(jié)的效果,算法能檢測出纖細(xì)的海鷗肢體和狗的尾巴,保留了顯著性目標(biāo)的細(xì)節(jié)結(jié)構(gòu)。圖7 的第2 行、第5 行和第6 行分別展示了本文算法對背景噪聲的抑制效果。第2 行圖片中帆船的背景比較復(fù)雜且包含其他船只,部分檢測算法受背景影響,顯著圖邊緣輪廓不清晰且背景出現(xiàn)模糊,本文算法能夠有效抑制背景噪聲;第5 行由于人和排球都是顯著性目標(biāo),本文算法能檢測出整體目標(biāo),且排球目標(biāo)的內(nèi)部均勻,無灰色陰影孔洞;第6 行的小鹿肢體與復(fù)雜自然環(huán)境相融,本文算法能夠檢測出細(xì)節(jié)信息并抑制復(fù)雜的背景噪聲。綜上,本文算法能夠有效增強(qiáng)前景區(qū)域,抑制背景噪聲區(qū)域,保留顯著性目標(biāo)的細(xì)節(jié)結(jié)構(gòu)信息,檢測出的顯著性目標(biāo)邊緣清晰且背景干凈。
圖7 不同算法的顯著性目標(biāo)檢測效果對比Fig.7 Comparison of salient target detection effects of different algorithms
本文針對顯著性目標(biāo)檢測中顯著圖邊緣不清晰和背景噪聲抑制效果差的問題,基于全卷積神經(jīng)網(wǎng)絡(luò)提出一種多尺度視覺感知融合的顯著性目標(biāo)檢測算法。受靈長類動物視覺系統(tǒng)對視覺信號分層處理的啟發(fā),利用空洞卷積模擬具有不同感受野的視覺皮層區(qū)域,設(shè)計(jì)多尺度視覺感知模塊進(jìn)行分層感知學(xué)習(xí),有效增強(qiáng)顯著性目標(biāo)前景區(qū)域,抑制背景區(qū)域。通過特征金字塔將特征映射到不同尺度,結(jié)合空間注意力機(jī)制將高級語義信息與細(xì)節(jié)特征混合,在抑制噪聲傳遞的同時有效恢復(fù)顯著性目標(biāo)的空間結(jié)構(gòu)信息。實(shí)驗(yàn)結(jié)果表明,相較于RANet、PiCANet等顯著性目標(biāo)檢測算法,本文算法檢測出的顯著性目標(biāo)邊緣輪廓更加清晰,背景更加干凈,各項(xiàng)性能指標(biāo)都有一定提升。下一步將針對網(wǎng)絡(luò)輕量化問題進(jìn)行研究,以在實(shí)際應(yīng)用中進(jìn)行網(wǎng)絡(luò)部署。