趙應(yīng)丁,岳星宇,楊文姬,4,張吉昊,楊紅云,4
(1.江西農(nóng)業(yè)大學(xué)軟件學(xué)院,江西 南昌 330045;2.江西農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,江西 南昌 330045;3.華中科技大學(xué)外國語學(xué)院,湖北 武漢 430074;4.江西省高等學(xué)校農(nóng)業(yè)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330045)
人類視覺注意力機(jī)制使得人眼能夠快速地從視覺場景中獲取到感興趣的區(qū)域并傳遞給大腦,大腦重點(diǎn)處理感興趣區(qū)域細(xì)節(jié)信息,這種方式大大加速了人類對視覺場景的理解。顯著性檢測即模仿人類視覺注意力機(jī)制,通過一系列的處理獲得圖像中容易引起人眼注意的區(qū)域或目標(biāo),其能夠大大降低后續(xù)處理的復(fù)雜度,因此被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,其中包括目標(biāo)檢測[1]、語義分割[2]、圖像描述[3]、視頻摘要[4]和無監(jiān)督視頻對象分割[5]等。
由于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)在計(jì)算機(jī)視覺領(lǐng)域中的突出表現(xiàn),基于CNN的深度顯著性檢測方法成為顯著性檢測的主流方法。相比于傳統(tǒng)的顯著性檢測方法,深度顯著性檢測方法不需要人為設(shè)計(jì)特征,能夠自動學(xué)習(xí)有利于顯著性檢測的特征,使得到的顯著性目標(biāo)更加準(zhǔn)確,而且深度顯著性檢測方法具有更強(qiáng)的魯棒性。近幾年,各種各樣的深度顯著性檢測方法被提出。比如,Wang等人[6]通過集成局部估計(jì)和全局搜索來預(yù)測顯著性圖:首先使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)局部塊特征,為每個像素提供顯著性值;然后將局部顯著性圖、全局對比度和幾何信息合并在一起,輸入到另一個神經(jīng)網(wǎng)絡(luò)中,預(yù)測每個區(qū)域的顯著性值。Zhao等人[7]提出一種用于顯著對象檢測的多上下文深度學(xué)習(xí)框架,設(shè)計(jì)2個不同的CNN,以獨(dú)立捕獲每個分割段的全局和局部上下文信息,最后通過回歸器確定每個分割段的顯著性值。Lee等人[8]將CNN提取的高級語義特征和人工設(shè)計(jì)特征進(jìn)行融合,通過全連接神經(jīng)網(wǎng)絡(luò)預(yù)測每一個查詢區(qū)域的顯著性。Hou等人[9]通過添加短連接對HED(Holisitcally-nested Edge Detector)網(wǎng)絡(luò)進(jìn)行更改,使其能夠用于顯著性檢測,短連接的方式使得底層網(wǎng)絡(luò)可在高層語義特征指導(dǎo)下,更好地定位顯著性目標(biāo)或區(qū)域,同時底層網(wǎng)絡(luò)也能夠優(yōu)化高層網(wǎng)絡(luò)的輸出結(jié)果。Li等人[10]提出多分支CNN,網(wǎng)絡(luò)最后分為2個分支,2個分支分別進(jìn)行語義分割和顯著性檢測,通過這樣的策略,網(wǎng)絡(luò)中共享的部分就能夠產(chǎn)生對對象感知更有效的特征,促進(jìn)顯著性檢測。Wang等人[11]提出一種用于顯著性檢測的循環(huán)全卷積網(wǎng)絡(luò),并將顯著性先驗(yàn)融合到全卷積網(wǎng)絡(luò)中,利用顯著性先驗(yàn)不斷地修正之前的檢測結(jié)果,從而獲得更加準(zhǔn)確的顯著性圖。文獻(xiàn)[12]將3個VGG16網(wǎng)絡(luò)并聯(lián),使得網(wǎng)絡(luò)能夠提取不同尺度的特征,然后通過融合3個VGG16網(wǎng)絡(luò)預(yù)測的結(jié)果獲得最終的顯著性圖,雖然能夠得到更準(zhǔn)確的結(jié)果,但是網(wǎng)絡(luò)并聯(lián)極大地增加了參數(shù)量。Luo等人[13]同樣使用VGG16作為骨干網(wǎng)絡(luò),提出一種多尺度的網(wǎng)絡(luò)模型,通過融合不同尺度下的檢測結(jié)果得到最終的顯著性圖。文獻(xiàn)[14]通過利用輸入圖像的對比度信息提出一個深度對比度網(wǎng)絡(luò),它結(jié)合了像素級完全卷積流和分段空間池化流,最后使用條件隨機(jī)場進(jìn)一步完善來自對比網(wǎng)絡(luò)的預(yù)測結(jié)果。Liu等人[15]設(shè)計(jì)了一個2階段的深度網(wǎng)絡(luò),通過該網(wǎng)絡(luò)生成粗略的顯著性圖,然后使用遞歸的CNN逐步地完善顯著性圖的細(xì)節(jié)。
雖然深度顯著性檢測方法發(fā)展極快,很大程度上提升了顯著性檢測結(jié)果的準(zhǔn)確性,但是它也存在如下問題:(1)受卷積核尺寸的限制,網(wǎng)絡(luò)底層只能在較小感受野內(nèi)提取特征;(2)CNN是通過不斷堆疊卷積層的方式獲取全局特征的,網(wǎng)絡(luò)將局部信息從底層傳遞到高層,在高層綜合局部信息獲得全局信息,逐層傳遞的過程會造成大量信息遺失,此外,網(wǎng)絡(luò)太深也會導(dǎo)致計(jì)算開銷加大,難以優(yōu)化。本文提出一種基于多特征融合卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)具備在多個尺度下學(xué)習(xí)局部特征和全局特征的能力,最后通過融合不同尺度的結(jié)果獲得最終的顯著性圖。本文在多特征融合卷積神經(jīng)網(wǎng)絡(luò)中加入局部特征增強(qiáng)模塊和全局上下文模塊,較好地解決了上述2個問題。
Figure 1 Structure diagram of multi-feature fusion convolutional neural network圖1 多特征融合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
縱觀文獻(xiàn),好的顯著性特征必須考慮圖像的局部和全局上下文信息,并融合各種分辨率的細(xì)節(jié)特征。為達(dá)到上述目的,本文設(shè)計(jì)了一種基于多特征融合卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測方法。該方法的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,網(wǎng)絡(luò)使用VGG16作為骨干網(wǎng)絡(luò),并將其最后3層全連接層替換成全卷積層,用于提取全局特征。VGG16網(wǎng)絡(luò)中包含5個池化層,每次池化操作后特征圖大小都只有原來的一半,5次池化后將會獲得5種分辨率的特征圖。在網(wǎng)絡(luò)的每個池化層后,都加入側(cè)出部分用于提取特定分辨率的特征,這樣,網(wǎng)絡(luò)就具備學(xué)習(xí)多尺度特征的能力。網(wǎng)絡(luò)的側(cè)出部分:第1行由局部特征增強(qiáng)LFE(Local Feature Enhancement)模塊組成,LFE大幅地增加了網(wǎng)絡(luò)的特征提取范圍;第2行由全局上下文建模GCM(Global Context Modeling)模塊組成,GCM用來學(xué)習(xí)特征圖的全局信息,然后將學(xué)習(xí)到的全局信息融合到特征圖中,并輸入到下一行的卷積層中;第3行的卷積層通過對包含了全局信息的特征圖的學(xué)習(xí),得到不同分辨率的多尺度局部特征圖;第4行由對比度層組成,目的是捕獲多尺度局部特征圖中前景和背景的差異信息,學(xué)習(xí)對比度特征;最后一行用于融合多尺度局部特征圖和對比度特征圖;由于每一列局部特征圖的分辨率不統(tǒng)一,所以增加了反卷積層,從分辨率小的特征圖開始,逐層從后往前進(jìn)行融合,最后通過一個卷積層來得到側(cè)出部分輸出的最終局部特征。將最終的局部特征和全局特征分別通過一個卷積層再相加,獲得包含局部和全局的特征,最后通過Softmax輸出預(yù)測的顯著圖。
對于給定圖像I,首先將圖像尺寸調(diào)整為416*416,然后輸入到如圖1所示的網(wǎng)絡(luò)中。網(wǎng)絡(luò)采用VGG16作為骨干網(wǎng)絡(luò),網(wǎng)絡(luò)的每一次池化操作都會使得特征圖大小變?yōu)樵瓉淼囊话耄?jīng)過5次池化操作(Pool-1到Pool-5)即可得到5種分辨率的特征圖,記為{F1,F2,F3,F4,F5}。
在CNN中,卷積操作只在感受野內(nèi)進(jìn)行,對于特征圖中的每個位置,都是以該位置為中心點(diǎn),將該位置及其周圍鄰域位置進(jìn)行加權(quán)求和得到新的特征圖中該位置對應(yīng)的濾波結(jié)果。對于顯著性檢測而言,更大的感受野可以更好地幫助網(wǎng)絡(luò)定位感興趣區(qū)域。在網(wǎng)絡(luò)底層,相對于特征圖尺寸,感受野尺寸太小,感受野范圍內(nèi)的特征變化不明顯,導(dǎo)致局部對比不強(qiáng)烈,不利于顯著性檢測。因此,可以適當(dāng)增加感受野范圍,而感受野大小受到卷積核尺寸的限制,所以可以通過增加卷積核尺寸來增加感受野范圍,使網(wǎng)絡(luò)能夠在更大視野范圍內(nèi)提取特征,從而達(dá)到增強(qiáng)局部特征的目的。但是,直接采用更大卷積核勢必伴隨著參數(shù)量的大幅增長,例如,對于一個13*13的卷積核而言,其參數(shù)數(shù)量是3*3卷積核的18.8倍,因此,直接使用13*13卷積核會造成負(fù)擔(dān)不起的計(jì)算花銷。
基于此,本文在前述提取的特征上加入局部特征增強(qiáng)模塊,在只增加較少參數(shù)量的情況下大幅度增大了感受野的范圍,從而達(dá)到了增強(qiáng)局部特征的目的,局部特征增強(qiáng)模塊的結(jié)構(gòu)如圖2所示,其中,H*W表示特征圖尺寸,C表示通道數(shù)。該模塊可以提取到13*13范圍內(nèi)的特征,但相比13*13卷積核的參數(shù)量,該模塊的參數(shù)量減少了83.4%,為3*3卷積核參數(shù)量的3倍。
Figure 2 Local feature enhancement module圖2 局部特征增強(qiáng)模塊
全局上下文信息也是顯著性檢測的有效線索。在CNN中,首先,卷積層通過卷積核對特征圖進(jìn)行局部感知,然后通過不斷堆疊卷積層方式,將底層感知的局部信息逐層向網(wǎng)絡(luò)高層進(jìn)行傳遞,在網(wǎng)絡(luò)高層中綜合這些局部信息來獲得全局信息。這樣的方式有很大局限性,堆疊卷積層會大量增加計(jì)算量,增大網(wǎng)絡(luò)優(yōu)化難度,而且信息從底層傳遞到高層的過程中也會造成信息的大量遺失。
本文通過在傳統(tǒng)CNN網(wǎng)絡(luò)中嵌入全局上下文建模模塊[16]的方式克服上述問題,使得網(wǎng)絡(luò)不需要通過疊加卷積模塊就能夠快速地獲得對特征圖的全局理解。該模塊的具體結(jié)構(gòu)如圖3所示,其中X和Z分別表示輸入和輸出,Wk、Wv1、Wv2表示3次卷積操作,r控制通道數(shù)量。模塊主要分為3個階段:首先獲取全局上下文信息,然后通過卷積操作進(jìn)行特征轉(zhuǎn)換,最后通過逐元素相加的形式進(jìn)行特征融合。
Figure 3 Global context modeling module圖3 全局上下文建模模塊
(1)
其中,F(xiàn)′i表示Fi局部平均池化后的結(jié)果,平均池化的核尺寸為3*3。
(2)
其中,concat表示特征圖融合,Deconv表示反卷積操作。
(3)
檢測圖像中的顯著性對象需要捕獲圖像的全局信息,因此,本文在Pool-5層后,使用3個卷積層Conv-G1、Conv-G2和Conv-G3替換VGG16網(wǎng)絡(luò)中的3個全連接層,用來獲得全局特征,將全局特征記為FG,這3個卷積層均包含128個特征通道,卷積核尺寸分別是7*7,5*5和3*3。
組合前面得到的局部特征FL和全局特征FG來計(jì)算最終的顯著性圖S,本文使用局部特征和全局特征的線性組合來計(jì)算顯著性圖,最后,使用Softmax函數(shù)計(jì)算每個像素v是顯著性對象的概率P,具體如下:
S(v)=P(G(v)=c)=
(4)
其中,G(v)表示人工標(biāo)注圖G中的像素v,c和c′分別代表類別和類別集合,wL和wG表示局部和全局權(quán)重參數(shù),bL和bG表示局部和全局偏置參數(shù)。
顯著性檢測可以認(rèn)為是二分類任務(wù),而在二分類任務(wù)中,通常使用的損失函數(shù)為交叉熵?fù)p失。交叉熵?fù)p失能夠衡量真實(shí)概率分布和預(yù)測概率分布之間的差異性。二分類的交叉熵?fù)p失計(jì)算公式如式(5)所示:
(5)
其中,N表示樣本個數(shù);G和S分別表示人工標(biāo)注的顯著圖和網(wǎng)絡(luò)預(yù)測的顯著圖。
為了縮短網(wǎng)絡(luò)的訓(xùn)練時間,使用預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)權(quán)重對網(wǎng)絡(luò)的骨干部分進(jìn)行初始化,網(wǎng)絡(luò)的其余部分采用隨機(jī)初始化。網(wǎng)絡(luò)使用Adam優(yōu)化器優(yōu)化目標(biāo)函數(shù),初始學(xué)習(xí)率設(shè)置為10-6,β1=0.9,β2=0.999。
選用MSRA-B數(shù)據(jù)集作為網(wǎng)絡(luò)的訓(xùn)練集,其中,BatchSize被設(shè)置為1,圖像在輸入網(wǎng)絡(luò)之前尺寸會被重新調(diào)整為416*416,總共訓(xùn)練20輪,總耗時22 h。訓(xùn)練使用的計(jì)算機(jī)主要硬件配置如表1所示。
Table 1 Computer hardware configuration
為了驗(yàn)證所提方法的有效性,分別在HKU-IS、DUT-OMRON、ECSSD和SOD數(shù)據(jù)集上對網(wǎng)絡(luò)性能進(jìn)行了驗(yàn)證。這4個數(shù)據(jù)集均提供像素級的人工標(biāo)注圖,各個數(shù)據(jù)集的簡要說明如下:HKU-IS數(shù)據(jù)集包含4 447幅圖像,大多數(shù)圖像對比度低且具有多個邊界重疊的顯著性目標(biāo);DUT-OMRON數(shù)據(jù)集由5 168幅圖像組成,大部分圖像具有比較復(fù)雜的背景;ECSSD數(shù)據(jù)集共有1 000幅圖像,圖像內(nèi)容多是包含結(jié)構(gòu)復(fù)雜的自然場景;SOD數(shù)據(jù)集包含300幅圖像,大多數(shù)圖像中包含多個顯著性目標(biāo),而且顯著性目標(biāo)和背景的顏色對比度較低。
在上述4個數(shù)據(jù)集上,將本文方法同其它11種顯著性檢測方法(MR[17]、HDCT[18]、TLLT[19]、RFCN[11]、NLDF[13]、DS[10]、DCL[14]、ELD[8]、SBF[20]、UCF[21]和RSD[22])分別在視覺和定量分析上進(jìn)行了對比,其中前3種方法屬于傳統(tǒng)顯著性檢測方法,后8種方法是深度顯著性檢測方法,實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于參與比較的方法。
4.2.1 視覺對比
為了將本文方法檢測的顯著性圖和由其它11種方法生成的顯著性圖進(jìn)行視覺對比,在此,分別從HKU-IS、DUT-OMRON、ECSSD和SOD數(shù)據(jù)集中選擇具有復(fù)雜背景或前景和背景對比度比較低的圖像進(jìn)行對比,具體結(jié)果如圖4所示,其中GT表示人工標(biāo)注的結(jié)果。
Figure 4 Saliency detection results of different methods圖4 本文方法與11種方法的視覺對比圖
通過觀察圖4可以發(fā)現(xiàn),深度顯著性檢測方法的結(jié)果整體上是優(yōu)于傳統(tǒng)顯著性檢測方法的,后者錯檢和漏檢的情況比較明顯。觀察深度顯著性檢測方法的結(jié)果(圖4f~圖4n)可以發(fā)現(xiàn),它們都大致檢測出了顯著性目標(biāo)的主要區(qū)域,觀察圖4c、圖4d、圖4g和圖4h發(fā)現(xiàn),大多數(shù)深度顯著性檢測方法雖然檢測出了顯著性目標(biāo)的主體,但輪廓卻不夠完整,缺失較多邊界細(xì)節(jié),只有本文方法不僅準(zhǔn)確檢測出了顯著性目標(biāo),同時保留了比較完整的目標(biāo)輪廓(從圖中可以看出,本文方法的檢測結(jié)果不僅包含了老虎和山雞的主體部分,其中比較細(xì)小的尾巴區(qū)域也被較完整地檢測出來),因此本文方法的有效性得到了驗(yàn)證。
4.2.2 定量分析
為了從多個角度評價本文方法的有效性,本文還使用了PR曲線、F-measure、均值絕對誤差MAE(Mean Absolute Error)和S-measure等4個指標(biāo)評來價網(wǎng)絡(luò)模型的性能。
Figure 5 PR curves of different methods圖5 各方法的PR曲線
(1)PR曲線。
PR曲線是顯著性檢測中最常用的評價指標(biāo)。精確率Precision和召回率Recall是在二值顯著性圖和真值圖上計(jì)算得到的,因此在計(jì)算Precision和Recall時,首先要將顯著性圖轉(zhuǎn)換為二值顯著性圖。通常將顯著性圖轉(zhuǎn)換為二值顯著性圖的方法是將閾值設(shè)置為0~255對檢測的顯著性圖進(jìn)行分割,每個閾值可得到一個二值顯著性圖,每個二值顯著性圖都對應(yīng)一對Precision和Recall,所有的Precision和Recall對就形成了一條PR曲線,用來描述顯著性檢測模型的性能,PR曲線越靠近右上角(坐標(biāo)(1,1)處),就表明模型的性能越好。Precision和Recall的計(jì)算公式如式(6)所示:
(6)
其中,TP表示人工標(biāo)注為正類,同時被預(yù)測為正類的結(jié)果;FP表示人工標(biāo)注為負(fù)類,但是被預(yù)測為正類的結(jié)果;FN表示人工標(biāo)注為正類,但是被預(yù)測為負(fù)類的結(jié)果。在顯著性檢測中,正類表示顯著性像素,負(fù)類表示背景像素。
各方法的PR曲線如圖5所示,從圖5中可以比較明顯地看出,在4個數(shù)據(jù)集上,深度顯著性目標(biāo)檢測方法都明顯優(yōu)于傳統(tǒng)顯著性目標(biāo)檢測方法;圖5中的各深度顯著性目標(biāo)檢測方法之間的PR曲線區(qū)分度較小,但不難發(fā)現(xiàn),本文方法的PR曲線(所示的曲線)更加靠近外側(cè),說明在這些數(shù)據(jù)集上,本文方法的檢測結(jié)果要更加準(zhǔn)確。
(2)F-measure。
F-measure通過計(jì)算精確率和召回率的加權(quán)調(diào)和平均值全面考慮精確率和召回率,計(jì)算公式如式(7)所示:
(7)
本文同大多數(shù)方法一樣,將β2設(shè)置為0.3,更加強(qiáng)調(diào)Precision。一些方法會使用自適應(yīng)閾值(閾值為顯著圖平均值的2倍)分割顯著性圖,計(jì)算相應(yīng)的平均F-measure值;另一些方法會直接使用最大F-measure值,本文使用最大F-measure。
本文方法和其它11種方法在4個數(shù)據(jù)集上的F-measure對比結(jié)果如圖6所示,在4個數(shù)據(jù)集上,本文方法的F-measure分別是0.897,0.732,0.904和0.821。由于本文方法同時考慮了多尺度,局部增強(qiáng)特征和全局上下文特征等有益于顯著性檢測的因素,可以發(fā)現(xiàn),本文方法在4個數(shù)據(jù)集上的F-measure均高于另外11種方法的,和排名第2的深度顯著性檢測方法對比,本文方法的F-measure也高出了1到2個百分點(diǎn)。
Figure 6 F-measure of different methods on different datasets圖6 各方法在不同數(shù)據(jù)集上的F-measure
(3)MAE。
PR曲線和F-measure在顯著性目標(biāo)檢測中使用的頻率很高,但是它們也存在問題,即它們都沒有考慮非顯著性像素的情況。MAE通過在像素層次上計(jì)算歸一化顯著性圖S和真值圖G之間的絕對誤差均值來解決該問題。MAE的計(jì)算公式如式(8)所示:
(8)
其中,W和H表示圖像的寬和高,(i,j)表示圖像中的像素點(diǎn)坐標(biāo)。
各個方法的MAE評價結(jié)果如表2所示。MAE值越低說明方法的性能越好,表中加粗的數(shù)值對應(yīng)的方法即為各個數(shù)據(jù)集上排名前3的方法。通過對比表2中的數(shù)據(jù)可以發(fā)現(xiàn),在4個數(shù)據(jù)集上,本文方法的MAE值均低于其它11種方法的,說明本文方法的檢測結(jié)果更接近真值,錯檢情況更少;對比結(jié)果表明,本文方法性能要優(yōu)于其它11種方法的,本文的網(wǎng)絡(luò)獲得的多尺度局部增強(qiáng)特征和全局上下文特征十分有利于顯著性檢測。
(4)S-measure。
Precision、Recall、F-measure和MAE都是逐像素計(jì)算誤差,而S-measure是從人類視覺系統(tǒng)對場景結(jié)構(gòu)非常敏感的角度出發(fā),使用結(jié)構(gòu)性度量評估檢測結(jié)果,使得評估結(jié)果和人的主觀評價具有高度一致性。S-measure同時考慮了對象角度So和區(qū)域角度Sr的結(jié)構(gòu)相似性,計(jì)算方法如式(9)所示:
S-measure=α×So+(1-α)×Sr
(9)
其中,α∈[0,1],本文中α設(shè)置為0.5。各方法的S-measure評價結(jié)果如表3所示。
同F(xiàn)-measure指標(biāo)一樣,S-measure的值越大就說明方法的性能越好,對比表3中的數(shù)據(jù)可以發(fā)現(xiàn),在4個不同的數(shù)據(jù)集上,本文方法均得到了最高的S-measure值(以DUT-OMRON數(shù)據(jù)集上的結(jié)果為例,本文的S-measure值為0.798,比排名第2的DCL方法高了3.5%),說明本文方法檢測結(jié)果的準(zhǔn)確性更高,和人類視覺觀察的結(jié)果更吻合。
Table 2 MAE of different methods
Table 3 S-measure of different methods
為了對局部特征增強(qiáng)和全局上下文建模模塊的有效性進(jìn)行驗(yàn)證,本文設(shè)計(jì)了4組實(shí)驗(yàn),包括:(1)不使用局部特征增強(qiáng)模塊,也不使用全局上下文建模模塊;(2)使用局部特征增強(qiáng)模塊,但不使用全局上下文建模模塊;(3)使用全局上下文建模模塊,不使用局部特征增強(qiáng)模塊;(4)同時使用局部特征增強(qiáng)模塊和全局上下文建模模塊。
基于DUT-OMRON數(shù)據(jù)集圖像數(shù)量大、背景結(jié)構(gòu)復(fù)雜、圖像中包含多個物體,更接近真實(shí)世界的情況,本文選擇在DUT-OMRON數(shù)據(jù)集上進(jìn)行有效性驗(yàn)證,4組實(shí)驗(yàn)得到的PR曲線如圖7所示。圖7的圖例部分中,LFE表示局部特征增強(qiáng)模塊;GCM表示全局上下文建模模塊;“-”表示未使用此模塊;“+”表示使用此模塊。
將圖7中4組實(shí)驗(yàn)的PR曲線進(jìn)行對比可以得出以下結(jié)論:基于局部特征增強(qiáng)模塊和全局上下文建模模塊的模型是4種組合中性能最好的,因此基于局部特征增強(qiáng)模塊和全局上下文建模模塊的有效性得到了驗(yàn)證;其次,這2個模塊都能有效地改進(jìn)顯著性檢測的結(jié)果,但相比于全局上下文建模模塊,局部特征增強(qiáng)模塊能更明顯地提升網(wǎng)絡(luò)的性能。
Figure 7 Validation results of two modules圖7 模塊有效性驗(yàn)證結(jié)果
本文提出了一種新的基于多特征融合卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測方法,該方法能夠在不同尺度下學(xué)習(xí)局部特征和全局特征,在此基礎(chǔ)上,通過局部特征增強(qiáng)模塊和全局上下文模塊對深度顯著性檢測網(wǎng)絡(luò)性能進(jìn)一步優(yōu)化。本文通過對比實(shí)驗(yàn),對2個模塊的有效性進(jìn)行了驗(yàn)證,結(jié)果表明2個模塊均有效地改進(jìn)了深度顯著性網(wǎng)絡(luò)的性能,能夠使本文的深度顯著性檢測方法取得更好的結(jié)果。此外,本文使用了多項(xiàng)指標(biāo)在4個公開數(shù)據(jù)集上對本文的網(wǎng)絡(luò)性能進(jìn)行了全面的評價,并和其它11種流行的顯著性檢測方法進(jìn)行對比,視覺對比結(jié)果表明,本文方法不僅能夠準(zhǔn)確檢測出顯著性目標(biāo)的主體,同時還能夠保留比較完整的輪廓,在圖像背景結(jié)構(gòu)相對復(fù)雜或目標(biāo)和背景對比度較低的情況下,本文方法依然能夠較完整而準(zhǔn)確地將顯著性目標(biāo)從背景中分隔開;在其它幾項(xiàng)評價指標(biāo)中,本文方法同樣取得了更好的結(jié)果。