王劍哲,吳 秦,2+
1.江南大學人工智能與計算機學院,江蘇無錫214122
2.江南大學江蘇省模式識別與計算智能工程實驗室,江蘇無錫214122
顯著性目標檢測旨在模擬人的視覺特征分割出圖像中感興趣的目標或區(qū)域。作為計算機視覺領域中一項重要的預處理操作,顯著性目標檢測已被廣泛應用于圖像分類[1]、語義分割[2]、目標檢測[3]以及目標跟蹤[4]等任務中。但由于目標所在場景復雜,顯著性目標檢測任務依然存在諸多挑戰(zhàn)。
傳統(tǒng)的顯著性目標檢測主要使用手工提取特征或啟發(fā)式先驗方法來檢測圖像中的顯著性目標[5]。這些方法往往是根據顏色或輪廓等低級特征來尋找目標,在單一場景下效果顯著,而在包含豐富背景信息的復雜場景下則極易產生誤判,無法生成高質量的預測圖。近年來,卷積神經網絡在特征提取上展現(xiàn)出巨大的優(yōu)勢,隨著全卷積網絡(fully convolutional network,F(xiàn)CN)[6]在圖像分割領域取得的成功,現(xiàn)有的顯著性目標檢測方法大多基于FCN且采用金字塔結構來對特征進行編解碼以增強感興趣目標的表征能力。
盡管特征金字塔的結構能夠有效提取不同層次的特征,但其依然存在一些問題:首先,復雜場景中存在容易被誤判的背景噪聲,如圖1(1)至(3)中的標志牌、影子等,由于其具有與顯著目標相似的特征,在特征提取過程中極易發(fā)生誤判,對檢測精度和預測圖都會產生較大影響。其次,如圖1(4)至(6)所示,被檢測的顯著性目標往往擁有復雜的形狀和輪廓,導致網絡難以精確地界定其邊界,而目標邊界的檢測效果同樣影響最終的顯著圖質量。
圖1 顯著性目標檢測問題的圖像示例Fig.1 Examples of problem in salient object detection
為有效減少背景誤判且同時關注對顯著目標邊界的預測,本文提出一種特征金字塔結構下的坐標注意力顯著性目標檢測網絡。金字塔結構下的網絡將首先自底向上地提取不同層次的特征,并使用坐標注意力模塊(coordinate attention module,CAM)調整蘊含著高級語義信息的最深層網絡下的特征圖權重,進一步鎖定顯著性目標,在突出關鍵特征的同時有效抑制了背景噪聲對顯著圖生成的干擾。在自頂向下的解碼過程中,加入特征細化模塊(feature refinement module,F(xiàn)RM)以融合不同層次下的不同尺度形態(tài)的特征,以防止逐層特征提取過程中丟失關鍵信息。此外,還提出邊界感知損失函數(shù)來使網絡提升對目標邊界預測情況的關注度,進一步修正顯著目標的邊緣檢測情況,結合多層次監(jiān)督使得網絡能更好地界定目標范圍,同時生成更高質量的顯著圖。本文的主要貢獻如下:
(1)提出坐標注意力特征金字塔的顯著性目標檢測網絡,結合特征金字塔提取多層次特征的優(yōu)勢與坐標注意力對深層次特征的挖掘能力,有效解決顯著目標背景誤判問題。
(2)提出特征細化模塊,保留特征的細節(jié)信息,實現(xiàn)不同層次特征的高效融合。
(3)提出邊界感知損失,幫助網絡捕獲顯著目標邊界信息,解決邊界模糊問題。
(4)大量的實驗數(shù)據表明了所提方法對提高顯著性目標檢測精度的有效性,可視化的實驗結果論證了所提模塊確實能有效解決背景誤判與邊界復雜問題。
顯著性目標檢測于1998 年被提出,主要分為基于手工提取特征的傳統(tǒng)方法和當前基于卷積神經網絡(convolutional neural network,CNN)的方法。傳統(tǒng)顯著性目標檢測方法主要依賴于對低級特征的利用,例如顏色對比、背景先驗以及探索相似特征等。基于卷積神經網絡的顯著性目標檢測方法則通過多個神經元對圖像進行學習,提取了不同層次和形態(tài)的目標特征,并探索了具有更深層含義的高級語義信息,取得了比傳統(tǒng)方法更準確的檢測精度。自2015 年Long 等人[6]提出FCN 后,像素級的圖像分割任務得到進一步發(fā)展。其中,Ronneberger 等人[7]與Badrinarayanan 等人[8]均采用編解碼結構網絡,并應用于不同的分割領域。Zhang 等人[9]則將特征金字塔結構應用于顯著性目標檢測中,進一步整合了低級特征與高級語義信息,有效提高了檢測性能?,F(xiàn)有的工作通過特征融合、注意力機制以及邊界感知等方法有效提高了顯著性目標檢測的精度,本章將對這些方法依次介紹。
為了充分利用不同階段的特征形態(tài)又演變出諸多特征融合的方法,張守東等人[10]融合深度-手工特征與深層網絡特征,避免了模型過擬合問題,提高網絡性能。Liu 等人[11]則設計了金字塔池化模塊和全局指導模塊,并將其用于特征融合,以銳化顯著物體細節(jié),提高檢測精度。然而,這些方法采用的像素點相加的融合方式將導致不同層次下細節(jié)信息丟失。針對這一問題,本文提出的特征細化模塊將在融合不同層次特征時,通過像素級相乘過濾背景噪聲,并采用像素級相加保留更多細節(jié)信息。
檢測方法中往往使用注意力機制幫助網絡進一步聚焦關鍵特征,削弱無關信息權重,以提高網絡區(qū)分前背景的能力,這一模式也被廣泛應用于分割領域。Hu等人[12]曾提出通道注意力模塊SENet(squeezeand-excitation networks)為不同通道的特征分配不同權重,以探尋通道之間的關系,有效放大關鍵信息。Woo等人[13]在通道注意力的基礎上加入空間注意力,設計了卷積塊注意力模塊(convolutional block attention module,CBAM)幫助網絡自適應地在空間和通道維度上調節(jié)特征權重。Zhao 等人[14]則將CBAM 應用于顯著性目標檢測中,提升了預測精度。然而,這些注意力機制均僅能捕獲局部信息,缺少對全局信息的把控能力。本文將使用坐標注意力(coordinate attention,CA)[15],分別從水平和垂直兩個空間方向聚集特征,在捕獲一個空間方向上長期依賴關系的同時,保留另一空間方向上精確的位置信息,使網絡對目標整體的結構信息有一個更好的把握。同時,坐標注意力模塊將方向感知與位置敏感的注意力圖互補地應用于顯著圖像,有效增強了顯著性區(qū)域特征的表征。
為有效改善邊界預測,Zhou 等人[16]設計了邊界模塊用于學習目標的邊界信息。Su 等人[17]同樣設計了針對邊界學習的分支,將生成的邊界與顯著圖結合以獲得最終的結果。這些模塊和分支均在一定程度上改善了目標在邊界上的預測,但是都將增加網絡的參數(shù)量和計算量,降低了網絡的效率。本文則針對復雜邊界設計了邊界感知損失函數(shù),通過引入邊界感知系數(shù)來賦予邊界像素點不同的權重,使網絡更適應復雜邊界的同時,提升網絡對邊界預測的關注度,以進一步提高檢測精度和最終顯著圖的質量。
盡管特征融合、注意力機制、邊界感知等方法對提高顯著性目標檢測性能起到了一定的作用。然而現(xiàn)有方法中依然存在特征融合的細節(jié)丟失、高性能注意力機制的應用、邊界感知網絡的低效等問題。針對這些問題,本文的坐標注意力特征金字塔模型,加入特征細化模塊、坐標注意力模塊以及邊界感知損失,在對這些方法改進的同時,提高了顯著性目標檢測的性能。
本文提出的坐標注意力特征金字塔顯著性目標檢測模型結構如圖2 所示。整體為端到端的編解碼框架,其中編碼器使用特征金字塔提取不同深度層次特征,以辨識場景中多尺度顯著目標;坐標注意力應用于深層次特征,起到聚焦顯著目標區(qū)域,抑制背景噪聲的作用,以生成高質量的顯著圖;解碼器用于融合不同層次特征,以充分結合空間信息和通道信息。網絡具體的參數(shù)配置如表1 所示。
表1 網絡參數(shù)Table 1 Network parameters
圖2 坐標注意力特征金字塔網絡結構Fig.2 Architecture of coordinate attention feature pyramid network
給定的輸入圖I首先通過由ResNet-50[18]前48 層組成的編碼器,生成不同層次的編碼圖Ei(i=1,2,3,4)。深層次編碼圖E4則通過坐標注意力模塊CAM,以生成解碼圖D4。解碼器采用3 個特征細化模塊自頂向下地融合不同層的編碼圖Ei和解碼圖Di+1,輸出結合后的解碼圖Di與監(jiān)督圖Si(i=1,2,3,4)。其中監(jiān)督圖Si用于多層次監(jiān)督,網絡最終的預測結果P則由編碼圖D1經過卷積、歸一化、ReLU 生成。
后續(xù)將依次對組成網絡的關鍵模塊進行詳細介紹,包括組成解碼器的特征細化模塊FRM,編解碼器中間的坐標注意力模塊CAM 以及訓練過程中所使用的邊界感知損失函數(shù)。
解碼器旨在逐層融合來自編碼器中不同層次的特征,達到空間信息與通道信息的有效結合。FCN方法采用像素相加的方式實現(xiàn)相鄰層次特征的融合。由于不同層次特征間差異,此舉往往造成融合中細節(jié)信息的丟失??紤]到殘差結構能有效保留原特征圖中信息,本文設計了特征細化模塊以應對特征融合中存在的細節(jié)丟失問題,其具體結構如圖3所示。
圖3 特征細化模塊結構Fig.3 Architecture of feature refinement module
特征細化模塊的輸入為特征圖Ei和上一層特征融合后所得的特征圖Di+1。其中Ei為編碼階段所得,其雖蘊含豐富的低級特征卻同時存在大量背景噪聲。而Di+1則包含的是更高層次的語義特征,其有效過濾背景噪聲,卻缺失目標的全局信息。
特征細化模塊旨在有效融合不同層次的特征圖Ei和Di+1。其首先使用像素級相乘的方式將經過卷積學習后的特征圖Ei和Di+1結合得到特征圖Xi,不僅充分融合顯著性目標的低級特征和高級特征,而且有效過濾背景噪聲。再將中間特征圖Ni和Mi+1以像素級相加的方式與Xi結合,以防止有效信息丟失。特征細化模塊最終將輸出整合后的特征圖Di用于與下層低級特征進一步進行融合,同時輸出特征圖Si用于后續(xù)多層次監(jiān)督。
基于特征金字塔的編解碼結構通過融合不同層次特征實現(xiàn)顯著目標的高效檢測。然而,對于圖像中易被誤判為顯著目標的背景噪聲這一問題,特征金字塔并不能有效解決。而注意力機制則通過增加顯著區(qū)域賦予高的權重,幫助網絡更加關注顯著區(qū)域。相比僅采用全局池化捕獲局部信息而忽略了特征在平面上不同方向的呈現(xiàn)形式的卷積塊注意力模塊CBAM,坐標注意力在捕獲通道信息的同時,保留了對捕捉物體結構和產生空間選擇性注意力圖至關重要的方向信息,同時還捕獲到長范圍依賴信息,有利于更好地定位和識別顯著性區(qū)域[16]。結合了坐標注意力的特征金字塔結構能夠有效解決背景誤判問題,生成高質量的顯著圖。
坐標注意力模塊具體結構如圖4 所示,其輸入為最深層的擁有最大感受野的特征編碼圖E4,在結合通道及方向信息調整E4中不同區(qū)域特征權重維度后輸出特征圖D4,以進行進一步解碼。整個過程中特征圖均保持寬高為8,通道數(shù)為2 048。對特征圖在不同方向和通道上的注意力圖的學習主要分為坐標信息嵌入和坐標注意力生成兩個步驟。
圖4 坐標注意力模塊結構Fig.4 Architecture of coordinate attention module
坐標信息嵌入操作具體體現(xiàn)為采用尺寸為8×1和1×8 的全局池化操作,將特征圖分解為垂直與水平維度的特征編碼。其從垂直與水平方向編碼顯著圖,以保留特征空間結構信息。其具體計算過程如式(1)和式(2)所示。
其中,W和H為特征圖的寬和高。E4(i,j)為特征圖E4在(i,j)位置的值。得到的zh與zw為垂直與水平方向上所得的單向坐標感知注意力圖,坐標注意力生成操作則旨在編碼顯著圖的通道信息并重新調整顯著區(qū)域的權重。在顯著圖通道信息編碼過程中,首先將單向編碼特征圖zh和zw進行級聯(lián)并通過1×1的卷積探尋通道間關系以對其進行調整,其過程如式(3)。
其中,F(xiàn)1×1為1×1 卷積,cat為級聯(lián)操作。f為所得的尺寸為1×16×64 的同時具備空間和通道維度重要特征探索能力的雙向通道注意力圖。隨后對特征圖f進行切分并轉置成8×1×64 的fh和1×8×64的fw,結合1×1 卷積,最終生成一對方向感知和位置敏感的注意力圖gh和gw,其具體操作如式(4)和式(5)所示。
在顯著區(qū)域權重分配中,gh和gw可以通過像素點相乘互補地應用于特征圖E4,得到模塊輸出的坐標注意力圖D4,以增強對顯著目標的表征,計算過程如式(6)。
顯著性目標檢測中常用交叉熵損失來監(jiān)督網絡,其計算方式如式(7)所示。
其中,Gij和Pij為真值圖G和預測圖P在位置(i,j)的值。Pr(Pij=l|φ)指的是給定所有參數(shù)φ的條件下,Pij=l的預測概率。函數(shù)t(Gij=l)如式(8)。
然而,交叉熵計算單個像素點的損失值,給每個像素點賦予同樣的權重,未區(qū)分邊界點和其他點對于顯著目標檢測的重要程度差異。為幫助網絡感知邊界,提升邊界預測能力,本文使用wij提高邊界像素點的損失值,具體如式(9)。
其中,Aij指的是以(i,j)為中心、大小為31×31的區(qū)域。wij取值范圍為[0,1],wij取值越大,就意味著像素點(i,j)越接近邊界。通過將wij與交叉熵損失函數(shù)結合,得到能夠感知邊界像素的損失函數(shù)Lwbce,如式(10)。
其中,μ和γ為用于調整邊界權重的超參數(shù)。Lwbce具有以下優(yōu)點:(1)通過引入邊界感知因子wij,Lwbce獲得感知邊界像素點的能力。(2)通過引入邊界權重μ和γ,提升了網絡對于顯著目標邊界預測的關注度,使得模型對不同復雜度的邊界信息擁有了更好的適應和調整能力。
此外,由于Lwbce計算的是單像素點的損失,其缺少對顯著圖像整體的感知能力,為了使網絡學習到顯著圖像的整體信息,使用式(11)定義的IoU 損失來監(jiān)督實例級的分割情況。
基于以上討論,使用由式(12)定義的損失函數(shù)來指導監(jiān)督圖P的生成。
此外,為了提升模型的學習能力,本文還將多層次監(jiān)督的特征圖Si納入損失函數(shù)中。其中,S1和S2為千層網絡輸出的特征圖,其中多為繁雜的低級特征,使用邊界像素損失Lwbce較為合理;S3和S4為高層網絡生成的、蘊含著語義信息的高級特征,適合使用整體性損失LIoU。因此,最終的損失函數(shù)為定義在式(13)中的多層監(jiān)督損失,其中的P和Si為圖2 中模型的預測圖和監(jiān)督圖。
本章首先介紹使用的數(shù)據集與實驗環(huán)境,然后介紹評估模型使用的評價指標,接著對網絡的參數(shù)設置和實現(xiàn)細節(jié)進行說明,最后通過定性與定量的方式與當前主流的顯著性目標檢測方法進行對比與分析。
為了驗證模型的有效性,使用五個在顯著性目標檢測領域常用的數(shù)據集來評估模型性能,分別為ECSSD[19]、PASCAL-S[20]、HKU-IS[21]、DUTS[22]和DUTOMRON[23]。ECSSD 包含1 000 張來自網絡的復雜場景的顯著圖像,且均有像素級標注。PASCAL-S包含850 張不同的自然圖像,這些圖像來自PASCAL VOC2010[24]分割比賽。HKU-IS 包含4 447 張高質量像素級顯著圖像,每張圖像中有多個顯著目標區(qū)域。DUTS 是目前最大的顯著性目標檢測數(shù)據集,來自ImageNetDET[25]和SUN[26]數(shù)據集,共包含15 572 張圖像,其中10 553 張作為訓練集DUTS-TR,剩下的5 019 張作為測試集DUTS-TE。DUT-OMRON 包含5 168 張顯著圖像,這些圖像選自140 000 張自然圖像,每張都包含多個顯著目標與復雜的背景信息。相比其他數(shù)據集,DUT-OMRON 更具有挑戰(zhàn)性,在顯著性目標檢測領域有著更大的研究空間。
5 個評估指標用于度量模型的性能,包括平均絕對誤差(mean absolute error,MAE)、準確率-召回率(precision-recall,PR)曲線、F 值、結構相似性度量(Smeasure)和E 值。
MAE 用于評估預測圖和真值圖之間像素級平均誤差,其值越小,則說明誤差越小。其實現(xiàn)如式(14)。
其中,P和G分別為預測圖和真值圖。
PR 曲線用于刻畫準確率與召回率之間的關系,通過一組0 到255 的閾值,計算預測圖與真值圖之間的準確率和召回率,計算方式如式(15)。
其中,Precision為準確率,Recall為召回率。TP、FP、FN分別表示顯著區(qū)域預測為顯著區(qū)域、背景預測為顯著區(qū)域、顯著區(qū)域預測為背景的像素點數(shù)量。
F 值為準確率和召回率的加權調和平均,用于統(tǒng)合評估模型性能。其計算公式如式(16)。
其中,β根據文獻[27]設置為0.3。
S 值用于計算預測圖和真值圖間的結構相似性,計算方法如式(17)。
其中,Sr為基于區(qū)域的結構相似性,So為基于目標的結構相似性。α根據經驗被設置為0.5。文獻[28]展示該指標的具體細節(jié)。
E 值同樣作為評估預測圖與真值圖的整體性指標,計算方法參考文獻[29]。
模型使用DUTS 中具有10 553 張圖像的DUTSTR 作為訓練集,DUTS-TE 和其他的數(shù)據集作為測試集用于評估模型性能。在數(shù)據增強階段,加入水平翻轉和隨機裁剪。ResNet-50 使用ImageNet 預訓練模型。ResNet-50 初始學習率設置為0.005,其他部分設置為0.05。模型采用SGD 優(yōu)化器,最小學習率為0.000 5。Batchsize設置為32,訓練輪數(shù)為64。
將本文提出的坐標注意力的特征金字塔網絡同當前流行的其他基于深度學習的先進方法進行對比。對比的方法包括RAS[30]、R3Net[31]、TDBU[32]、AFNet[33]、PoolNet[11]、BANet[17]、CPR-R[34]、GCPA[35]、GateNet[36]、ITSD[16]、MINet[37]。為保證公平性,參與對比的方法使用相同的評估代碼。
3.4.1 定量分析
表2 和表3 展示本文方法與其他11 種方法在數(shù)據集ECSSD、PASCAL-S、DUTS、HKU-IS 和DUTOMRON 上不同評價指標的對比結果。如表2 和表3所示,得益于特征金字塔對各層次特征的有效融合與坐標注意力模塊對顯著區(qū)域的權重分配,本文的模型在整體上取得較好的成績。在數(shù)據集DUTS 和HKU-IS 上,本文方法在各項指標上均超過其他方法。在數(shù)據集PASCAL-S 上,除了S 指標比最好的方法GCPA[35]低0.003 外,其他指標上均取得一定程度的領先。對于最具挑戰(zhàn)的數(shù)據集DUT-OMROM,模型在MAE 與F 指標上同樣取得最好的結果,而在其他指標上也與其他先進的方法保持一致。圖5 展示本文方法和其他4 種方法的PR 曲線圖,本文方法同樣表現(xiàn)出更好的性能。
表2 數(shù)據集ECSSD、PASCAL-S 和DUTS 上的定量對比Table 2 Quantitative comparison on datasets ECSSD,PASCAL-S and DUTS
圖5 本文模型與其他先進方法的PR 曲線Fig.5 PR curves of proposed model and other state-of-the-art methods
表3 數(shù)據集HKU-IS 和DUT-OMRON 上的定量對比Table 3 Quantitative comparison on datasets HKU-IS and DUT-OMRON
3.4.2 定性分析
為了進一步驗證本文方法的性能,圖6 展示本文方法與其他方法的可視化對比結果。加入了特征細化模塊的特征金字塔網絡結構,能夠有效檢測不同尺度的顯著目標。由圖6(1)至(3)可以看出,對復雜場景下不同大小的顯著目標,本文方法均能夠生成高質量顯著圖。坐標注意力模塊的加入,有助于網絡對顯著區(qū)域與背景噪聲的有效判斷。由圖6(4)至(6)可以看出,與昆蟲相鄰的花朵以及動物的影子,都屬于背景中易被誤判的噪聲,而本文模型均能夠將它們區(qū)別出來。得益于邊界感知損失幫助網絡對邊緣信息的學習,網絡能夠更準確地預測邊界像素點。由圖6(7)至(8)看出,相比其他缺少邊界感知的方法,本文模型生成的顯著圖具有更加清晰的邊界。
圖6 本文方法與其他先進方法的可視化對比Fig.6 Visual comparison of proposed model and other state-of-the-art methods
3.5.1 所提內容有效性驗證
為驗證各個模塊的有效性,在數(shù)據集DUTS 和DUT-OMRON 上進行相關的消融實驗。基礎網絡結構包括ResNet-50 編碼器和3 個VGGBlock 組成的解碼器。之后用特征細化模塊FRM 代替VGGBlock,再依次加入多層特征監(jiān)督(multi-level supervision,MLS)和坐標注意力模塊CAM。實驗結果如表4 所示,可以看出,在使用特征細化模塊FRM 后,得益于細節(jié)保留能力,檢測性能有了顯著提升。DUTS 數(shù)據集中MAE 由0.040 降至0.036,DUT-OMRON 數(shù)據集MAE 也由0.062 降至0.055,其他指標也有較為顯著的提升。隨后加入多層特征監(jiān)督MLS 以優(yōu)化訓練過程,檢測精度F 值和結構相似性指標S 值有所提升。DUTS 數(shù)據集中F 值提高0.005,E 值提高0.004。DUT-OMRON 數(shù)據集中F 值提高0.008。在融入坐標注意力模塊CAM 后,模型有效解決背景誤判問題,模型檢測效果進一步提升。DUTS 數(shù)據集的MAE 降低0.002,F(xiàn) 值提高0.004。DUT-OMRON 數(shù)據集的MAE由0.055降低至0.053,F(xiàn)值由0.791提升至0.795。
表4 不同模塊的消融實驗Table 4 Ablation study for different modules
為進一步探索各個模塊的有效性,本小節(jié)進行了可視化對比的消融實驗。特征細化模塊在解碼過程中保留更多的細節(jié)信息,有助于生成更加清晰的顯著圖,而多層次監(jiān)督能夠在這一過程中起到優(yōu)化作用。圖7 展示了特征細化模塊FRM 和多層次監(jiān)督MLS 的可視化對比??梢钥闯?,在加入FRM 與MLS后,預測圖的顯著區(qū)域更加準確,也沒有模糊區(qū)域。監(jiān)督圖S1至監(jiān)督圖S4的顯著區(qū)域不斷精細的過程也反映了MLS 的有效性。
圖7 特征細化模塊與多層次監(jiān)督的可視化對比Fig.7 Visual comparison of feature refinement module and multi-level supervision
坐標注意力模塊捕獲深層次的通道信息與長范圍空間信息,為顯著區(qū)域與非顯著區(qū)域分配不同權重,增強前景,抑制背景。圖8 展示了坐標注意力模塊的可視化對比。在不加入坐標注意力的情況下,網絡依然不能準確區(qū)分易被誤判的背景噪聲,而加入坐標注意力模塊后,模型則能夠對這些噪聲有效判斷,解決背景誤判問題。
圖8 坐標注意力模塊的可視化對比Fig.8 Visual comparison of coordinate attention module
3.5.2 損失函數(shù)對比
為使網絡具有更好的性能,本小節(jié)對損失函數(shù)進行消融實驗。首先對式(10)中Lwbce中超參數(shù)γ和μ進行調參。如表5 和表6 所示,當γ和μ分別取2和5 時,模型取得最好的性能。
表5 超參數(shù)γ 消融實驗Table 5 Ablation study for hyper-parameter γ
表6 超參數(shù)μ 消融實驗Table 6 Ablation study for hyper-parameter μ
本小節(jié)將提出的邊界感知損失與式(7)中的交叉熵損失、式(11)中的IoU 損失以及兩者相加所得到的結果進行對比。得益于邊界感知損失對邊界信息賦予更多的權重,網絡對邊界像素點的預測更加準確。如表7 所示,相比使用Lbce+LIoU,邊界損失感知在各項評估指標上有了更好的表現(xiàn),這也論證了邊界感知損失的有效性。圖9 展示了損失函數(shù)的可視化對比結果,在未使用邊界感知損失的情況下,模型會因為目標邊界復雜而產生模糊的邊界,甚至將部分邊界像素點預測為背景。使用邊界損失后,這些像素點得到有效的預測,顯著圖邊界也更加清晰準確。這也論證了邊界感知損失的加入,更有助于網絡對邊界像素點的準確判斷。
表7 不同損失函數(shù)的消融實驗Table 7 Ablation study for different loss functions
圖9 損失函數(shù)的可視化對比Fig.9 Visual comparison of loss functions
本文提出了一種坐標注意力的特征金字塔模型以解決顯著性目標檢測中背景誤判和邊界復雜問題。設計特征細化模塊,使不同層特征的融合更加高效。通過坐標注意力模塊,減少背景中易誤判的噪聲。為使網絡能夠更加關注邊界信息,生成具有清晰邊界的顯著圖像,本文設計邊界感知損失。在與其他先進方法的實驗對比中,所提出的模型具有更強的競爭力。未來的工作中,將考慮通過逐層收縮的方式,提高對相鄰特征節(jié)點的關注度,以便動態(tài)更新不同層次特征權重。