陳維婧,周 萍,楊海燕,楊 青,陳 睿
1.桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541000
2.桂林電子科技大學 信息與通信學院,廣西 桂林 541000
隨著科學技術的快速發(fā)展,圖片和視頻的數(shù)量呈爆發(fā)式增長,如何從海量的圖片中提取人們感興趣的特征區(qū)域值得研究。顯著性檢測是通過計算機模擬人眼視覺注意機制,剔除圖像中的冗余信息,提取出吸引人眼注意力的區(qū)域[1]。顯著性檢測作為圖像處理的一種預處理技術,廣泛應用于目標跟蹤[2]、圖像分割[3]、人員重新識別[4]和圖像編碼[5]等計算機視覺領域。
傳統(tǒng)的顯著性檢測方法是采用手工設計特征,借鑒大量的先驗知識(如:對比先驗、背景先驗、顏色先驗等)來進行顯著性判斷的。最早是文獻[6]提出的Itti 模型,該模型是在生物視覺的基礎上,利用高斯金字塔計算圖像的亮度特征圖、顏色特征圖和方向特征圖得到初始顯著圖,再通過顯著性融合得到最終的顯著圖。文獻[7]提出了一種基于全局對比度的顯著性區(qū)域算法(Histogram based Contrast,HC),該算法根據(jù)像素與像素之間的色彩差異計算顯著性值,并產生具有全分辨率的顯著性圖。HC 算法雖然可以均勻地突出顯著性區(qū)域,但是對背景較復雜的圖像檢測效果不理想。
近幾年來,基于深度學習的圖像顯著性檢測也得到廣泛的應用,促進了顯著性檢測技術的發(fā)展。文獻[8]提出了一種雙向信息傳遞模型用于顯著性檢測,該模型采用空洞卷積改進多級特征圖,并通過門控雙向路徑實現(xiàn)層與層之間的信息交換,但是由于雙向傳遞帶來了冗余信息,最終的顯著圖仍存在邊緣信息丟失的問題。文獻[9]提出了一種反向注意力機制的顯著物體檢測模型,該模型是在主干網(wǎng)絡的側輸出層進行殘差學習,并在殘差學習模塊前引入反向注意力機制拓展目標區(qū)域。文獻[10]提出了一種注意力反饋網(wǎng)絡用于圖像顯著性檢測,該網(wǎng)絡通過設計注意力反饋模塊逐級預測顯著性對象并通過邊界增強損失函數(shù)來細化邊界。但是,上述網(wǎng)絡結構并沒有很好的解決預測圖不完整的問題。因此,針對顯著性圖不完整和目標內部信息缺失等顯著性算法問題,本文提出了一種通道-空間聯(lián)合注意力機制的顯著性檢測模型。為了擴大感受野且不增大計算量,設計了一種能夠充分提取特征圖的空間信息多空洞卷積模塊,該模塊可生成多尺度特征提取的特征圖(Multi-Scale Feature Extraction,MSFE)。為了提高特征圖層與層之間信息的關聯(lián)度,受文獻[11]的啟發(fā),改進了一種通道注意力機制通過將特征圖的像素概率值進行加權來優(yōu)化最終的預測概率。但是,由于只關注層間的聯(lián)系,忽略了對特征圖的空間結構的利用。因此,受文獻[12]和[13]的啟發(fā),設計了一種并行空間注意力機制,通過與通道間的信息加權來增強特征塊層間信息的相關性。正如大家所知,不同卷積層之間所含有的信息是多樣的,即深層次的特征可以對顯著目標進行定位,淺層次的特征包含豐富的空間細節(jié)信息。為了優(yōu)化不同卷積層的特征圖,本文以反饋傳遞的方式將通道-空間聯(lián)合注意力機制輸出的特征圖從深層呈遞進式傳遞到淺層。
本文所提出的顯著性檢測模型是基于VGG-16 框架,并為了契合圖像的空間特征,移除VGG-16 最后的全連接層,得到一個全卷積網(wǎng)絡。同時,本文還使用了側輸出結構,將主干網(wǎng)絡中5個層的特征圖并行送至空洞卷積中生成MSFE模塊,以此通過擴大感受野來獲得更多的空間信息。然后,經(jīng)過感受野為3×3的歸一化卷積操作(如圖1虛線框所示),對側輸出特征圖進行歸一化。再從通道和空間位置兩個方面考慮,將特征圖A輸入到對應的通道-空間聯(lián)合注意力機制模塊(Channel-wise-Spatial Module,CSM)中,獲取被加權優(yōu)化的特征圖。最后,根據(jù)卷積層之間信息的性質不同和語義細節(jié)信息的互補知識,將5個通道-空間聯(lián)合注意力機制獲得的特征圖以單向反饋傳遞方式傳遞到淺層中從而優(yōu)化淺層信息,即后一個通道-空間注意力機制模塊連接卷積塊處理得到的特征圖Si(i=1,2,…,5)與前一個層的歸一化卷積輸出的特征圖A 進行拼接作為前一個模塊的輸入。依此類推,獲得最終的顯著性圖S。如圖1所示為總體框架圖。
圖1 模型總體框架圖Fig.1 Overall framework of model
空洞卷積(Dilated Convolution)是一種改進的圖像卷積方法,通過膨脹標準卷積核,在不增加參數(shù)的情況下擴大感受野來獲取不同感受野的目標特征信息。在提出的模型中,對VGG-16模型的側輸出特征圖中的顯著性信息采用k(k=4)個膨脹率分別為d∈{1,2,4,5}的空洞卷積的并聯(lián)進行上下文特征提取特征圖D。由公式(1)可計算得到MSFE模塊。
式中,conv(Di)為空洞卷積操作。
為了對特征圖進行歸一化,在MSFE 模塊后加上“3×3 的卷積層-BN 層-ReLU 層-3×3 的卷積層”(如圖1中虛線框所示)的卷積結構得到特征圖A(如圖1 所示),并將后一個特征圖A經(jīng)過通道-空間聯(lián)合注意力機制模塊得到的特征圖Si與上一個卷積塊得到的A進行連接,作為上一個CSM模塊的輸入。重復上面的操作,形成一種單向反饋傳遞方式,并將Si通過上采樣從而得到最終的特征圖S。如圖2所示為通道-空間聯(lián)合注意力機制模塊,用于獲取細粒度更高的預測特征圖Si。
圖2 CSM模塊Fig.2 CSM module
由于原始的CBAM 模塊中的通道注意力機制采用了最大池化層和平均池化層來進行特征壓縮,這一過程導致模塊的參數(shù)損失過大無法完成精準的預測。因此,本文僅使用平均池化層對特征進行壓縮,再使用Sigmoid激活函數(shù)和1×1的卷積對B1進行非線性映射,得到主要特征B∈RC×1×1,該值介于[0,1]之間。計算公式如下:
式中,A∈RC×H×W為經(jīng)過卷積處理得到的特征圖,C、H和W分別為A的通道數(shù)、高度和寬度。B∈RC×1×1為將A通過平均池化層進行特征壓縮以及多層感知機(Multi-Layer Perceptron,MLP)得到的特征圖,w表示1×1的卷積的權重。
將B與原始的輸入特征圖A在每一個通道相乘,得到顯著目標突出的通道注意力圖Mc(A)∈RC×H×W。計算公式如下:
考慮到像素與顯著區(qū)域的相關性,提出了一種并行式空間注意力機制,來獲得像素位置相關性較高的顯著目標特征信息。首先對A∈RC×H×W進行卷積操作,得到3 個全新的并行式的特征圖C1∈RC/6×H×W、D1∈RC/6×H×W和E1∈RC/6×H×W,值得注意的是,這里的C1、D1和E1把通道數(shù)C縮小至C/6,以減少參數(shù)和尺寸;然后對特征圖的尺寸進行reshape,得到C∈RH×W×C/6、D∈RH×W×C/6和E∈RH×W×C/6;再將C、D和E進行softmax歸一化操作;最后,將對應的矩陣進行相乘得到最終的空間注意力機制圖:Ms(A)∈RC×H×W。計算公式如下:
式中,i,j∈{1,2,…,N},ECD為C和D進行歸一化操作,EDE為D和E進行歸一化操作。
通過上述操作,將通道注意力機制得到的特征圖和空間注意力機制得到的特征圖進行加權融合得到預測特征圖Si∈RC×H×W,計算公式如下:
式中,α為權重系數(shù)。
為了計算損失,預測特征圖Si的尺寸與真值圖的尺寸相同,即通過上采樣,將預測圖放大至原始尺寸。再使用二分類交叉熵損失函數(shù)(binary cross-entropy loss function)來充分表達圖像內容的對象性以及輪廓特征,獲取最終的顯著性圖。損失函數(shù)計算公式如下:
式中,lx,y∈(0,1)為標簽像素(x,y)的歸一化,Px,y為像素(x,y)屬于顯著圖的概率。
本文實驗在Windows10操作系統(tǒng)下進行,計算機硬件配置為NVIDIA 1080ti GPU,所提模型采用Pytorch1.0深度框架搭建。為了驗證模型的有效性,將本文模型在DUTS-TE[14]、ECSSD[15]、HKU-IS[16]、PASCAL-S[17]和SOD[18]這5個公開的數(shù)據(jù)集上進行測試。DUTS數(shù)據(jù)集由DUTS-TR和DUTS-TE組成,其中,DUTS-TR有10 553張訓練圖片,DUTS-TE 有5 019 張測試圖片;ECSSD 數(shù)據(jù)集包含1 000張內容豐富且大小不同的圖像;HKU-IS有4 500 張至少兩個顯著性目標的圖像,并且目標與背景信息比較復雜;PASCAL-S 數(shù)據(jù)集包含850 張背景復雜的圖像;SOD數(shù)據(jù)集有300張圖是從伯克利分割數(shù)據(jù)集中挑選出來的。以上數(shù)據(jù)集都提供人工標注的二值圖像,能夠更好地評估模型的性能。
實驗采用的評估指標如下:自適應閾值F-measure值[1]和平均絕對誤差值[1(]Mean Absolute Error,MAE)。為了綜合衡量查全率和查準率,使用F-measure 值作為整體性能的評價標準,F(xiàn)-measure 值越大訓練效果越好。計算公式如下:
式中,P為平均準確率,R為平均召回率,β多次實驗得到的結果,通常設為β2=0.3。
MAE是通過對比顯著圖與真實圖之間的平均對比誤差,MAE的值越小說明算法的性能越好[1]。計算公式如下:
式中,yi為最終的特征圖,為真值圖。
為了驗證模型的有效性,將本文模型與AFNet[10]、BASNet[19]、BDMP[8]、ASNet[20]、C2SNet[21]、SRM[22]、FSN[23]和UCF[24]這8種顯著性檢測模型進行多方面的對比。
如表1為本文模型與8種顯著性檢測模型在不同的數(shù)據(jù)集的定量比較。
實驗結果如表1 所示,將本文模型在DUTS-TE、ECSSD、HKU-IS、PASCAL-S和SOD數(shù)據(jù)集上分別使用F-measure 和MAE 作為評價指標進行評估。本文模型在DUTS-TE 數(shù)據(jù)集上F-measure 和MAE 分別為0.840和0.045,相比于基于注意力機制反饋網(wǎng)絡的AFNet 在F-measure 提高了0.002,MAE 下降了0.001;在ECSSD數(shù)據(jù)集上F-measure和MAE分別為0.931和0.035,與關注邊界的BASNet 相比F-measure 沒有改變,MAE 下降了0.002;在HKU-IS 數(shù)據(jù)集上F-measure 和MAE 分別為0.911 和0.034,與基于雙向信息傳遞的BDMP 相比F-measure提高了0.001,MAE下降了0.005;在PASCALS 數(shù)據(jù)集上F-measure 和MAE 分別為0.830 和0.119,相比于BDMP 模型F-measure 提高了0.003,MAE 下降了0.003;在SOD數(shù)據(jù)集上F-measure和MAE分別為0.811和0.103,與BASNet 相比F-measure 提高了0.006,MAE下降了0.009,證明了本文方法的有效性。
表1 多種顯著性檢測在不同數(shù)據(jù)集上的F-measure和MAETable 1 F-measure and MAE of multiple salient object detection on different datasets
為了驗證MSFE 模塊和CSM 模塊對模型的整合性,本文在SOD數(shù)據(jù)集上對模型中各個組成部分的表現(xiàn)力進行測試。表2為在SOD數(shù)據(jù)集上不同設置的影響。
如表2所示,在SOD數(shù)據(jù)集上對VGG-16、VGG-16+MSFE、VGG-16+MSFE+CA、VGG-16+MSFE+SA 和本文模型進行實驗測試。實驗結果表明,在主干網(wǎng)絡中添加MSFE 模塊,F(xiàn)-measure 提高了0.4%,MAE 降低了0.7%;再在此基礎上增加CSM 模塊,相比于其他方法,F(xiàn)-measure提高了0.4%,MAE降低了0.2%。
表2 在SOD上不同設置的定量評估Table 2 Quantitative evaluation of different settings on SOD
為了進一步驗證MSFE模塊的有效性,本文在SOD數(shù)據(jù)集上;分別對空洞卷積選取的個數(shù)k和不同膨脹率的選取對整個模塊的F-measure 和MAE 值的影響進行實驗研究。表3 為SOD 數(shù)據(jù)集上空洞卷積個數(shù)對檢測結果的影響;表4為SOD數(shù)據(jù)集上不同膨脹率對檢測結果的影響。
表3 在SOD上空洞卷積個數(shù)的定量評估Table 3 Quantitative evaluation of the number of convolutions on SOD
表4 在SOD上不同膨脹率的定量評估Table 4 Quantitative evaluation of different dilation rates on SOD
如表3 所示,在SOD 數(shù)據(jù)集上測試了k=1,2,3,4,5 這5組數(shù)值。實驗結果表明,當k=4 時,F(xiàn)-measure和MAE 分別為0.807 和0.104,與其他幾組數(shù)值相比達到最優(yōu)值。因此,本文選取空洞卷積的個數(shù)為4個。
本文設置了5 組膨脹率不同的數(shù)值,分別為d∈{1,2,3,4},d∈{1,3,5,7},d∈{1,2,4,5},d∈{2,3,4,5}和d∈{2,4,6,8},實驗結果如表4所示。實驗結果表明,當膨脹率分別為d∈{1,2,4,5} 時,相比于d∈{1,3,5,7} 提高了0.2%。因此,本文選取的膨脹率為d∈{1,2,4,5}。
將本文模型與其他8種模型進行圖像視覺比較,結果如圖3所示,從左到右依次為:原始圖像(Input)、人工標注圖(GT)、本文模型(Ours)和對比模型AFNet、BASNet、BDMP、ASNet、C2SNet、SRM、FSN和UCF。
從圖3中可以看出,對于背景較復雜的圖像(如圖3中的第1、2 行),F(xiàn)SN 和UCF 可以比較完整地檢測到顯著區(qū)域,但是對背景噪聲的抑制能力比較差;對于背景與目標類似的圖像(如圖3 中的第3、4 行),C2SNet 和SRM能夠檢測到顯著區(qū)域,但是顯著目標邊界不明確;對于顯著目標尺度較小的圖像(如圖3中的第5行),AFNet和C2SNet雖然可以檢測出顯著目標,但是輪廓不清晰;對于顯著目標尺度較大的圖像(如圖3中的第6行),BASNet 和ASNet 不能完全檢測出顯著目標,只能突出部分顯著目標,而AFNet和BDMP雖然能夠準確定位到顯著目標,但是本文模型的顯著目標內部更加光滑完整。綜上所述,本文模型在復雜環(huán)境下檢測得到的顯著目標不僅內部均勻而且輪廓信息完整優(yōu)于其他的模型。
圖3 本文算法與其他算法的視覺對比圖Fig.3 Visual comparison of proposed algorithm and other algorithms
本文針對當前的顯著性檢測算法性能差和顯著圖細節(jié)信息不明顯等問題,提出了一種通道-空間聯(lián)合注意力機制的顯著性檢測模型。同時設計了一種并行式的空間注意力機制增加特征塊層與層之間的信息相關性,使最終得到的加權融合特征圖能夠準確描述空間中像素點的權重和特征層之間的關系。在DUTS-TE 和SOD數(shù)據(jù)集上的實驗結果表明,與其他同類模型相比,本文模型可檢測出更清晰的顯著區(qū)域并獲得更準確的顯著圖。在未來的工作中,將本文方法拓展到其他計算機視覺領域,促進顯著性檢測在計算機視覺上的應用。