王元東, 杜宇人
(揚州大學信息工程學院, 江蘇 揚州 225127)
近年來, 顯著性目標檢測(salient object detection, SOD)已成為圖像和視頻壓縮、圖像重定位、視頻跟蹤和機器人導(dǎo)航等計算機視覺應(yīng)用中重要的預(yù)處理步驟[1].SOD模型的快速發(fā)展得益于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)能夠同時提取圖像高層語義信息和低層特征信息, 解決了傳統(tǒng)手工選擇特征方法缺少高級語義信息的問題, 如AFNet[2]、PoolNet[3]等網(wǎng)絡(luò)一般使用編解碼器架構(gòu), 結(jié)構(gòu)簡單且計算高效.BASNet[4]網(wǎng)絡(luò)運用一種混合損失函數(shù)充分利用了邊界信息; CPD[5]網(wǎng)絡(luò)采用雙分支結(jié)構(gòu)和整體注意力模塊, 通過一路分支生成的初始顯著圖像去細化另一路分支的特征信息; MINet[6]網(wǎng)絡(luò)提出一種聚合交互模塊和自交互模塊, 通過相互學習的方式有效利用相鄰層的特征.然而, 在模型提取圖像特征的過程中不同層次的特征分布特性各異, 如何有效聚合這些特征生成高質(zhì)量的顯著性圖像成為顯著性目標檢測研究的熱點.目前, SOD網(wǎng)絡(luò)編碼器部分通常使用深度殘差網(wǎng)絡(luò).由于大卷積核會導(dǎo)致參數(shù)量增多和計算復(fù)雜度的提高, 故深度殘差網(wǎng)絡(luò)一般采用3×3的小卷積核, 但該卷積核不能處理全局輸入圖像.本文采用由錐體卷積組成的PyConvResNet[7]網(wǎng)絡(luò)作為F3Net網(wǎng)絡(luò)編碼器部分的特征抽取網(wǎng)絡(luò), 以不同大小和深度的卷積核并行處理輸入圖像, 減少空間分辨率損失, 同時使最高層特征先通過一個感受野模塊(receptive field module, RFB)后進入解碼器, 以期進一步擴大感受野, 改善目標細節(jié)丟失問題.
F3Net[8]網(wǎng)絡(luò)通過在解碼器部分設(shè)計一種交叉特征模塊(cross feature module, CFM)以緩和特征間的差異.CFM模塊按元素相乘的方法提取出低級特征和高級特征的共同部分, 再按元素相加的方式使相乘的結(jié)果與各自原始特征相加.通過多次特征交叉, 高低級特征吸收彼此的有用信息, 形成重要特征間的互補.此外, F3Net采用如圖1所示的級聯(lián)反饋解碼器架構(gòu)迭代地改進特征.該架構(gòu)中包含多個子解碼器, 每個子解碼器都會經(jīng)歷如下2個過程: 1) 自底而上. 由交叉特征模塊逐步聚合多層次特征; 2) 自頂而下. 經(jīng)最后一個CFM模塊聚合的特征直接進行下采樣, 然后反饋至下面的多層特征中并對多層特征進行細化.
圖1 級聯(lián)反饋解碼器架構(gòu)Fig.1 Cascaded feedback decoder architecture
F3Net網(wǎng)絡(luò)在編碼器部分選用ResNet-50深度殘差網(wǎng)絡(luò)結(jié)構(gòu).通過ResNet-50深度殘差網(wǎng)絡(luò)對輸入圖像進行5層特征抽取, 然后將抽取出的第2,3,4,5層特征輸入級聯(lián)反饋解碼器.
圖2 錐體卷積Fig.2 Pyramidal Convolution
雖然F3Net網(wǎng)絡(luò)采用交叉特征模塊和級聯(lián)反饋解碼器對圖像特征進行細致的控制,解決了背景噪聲和冗余特征的問題,獲得更加精確的顯著性圖像,但是仍存在因特征抽取而導(dǎo)致空間分辨率損失的問題.
錐體卷積(PyConv)是包含n層不同類型內(nèi)核的金字塔型結(jié)構(gòu), 如圖2所示.與傳統(tǒng)的標準卷積核相比, 本文采用的錐體卷積可以在不同的內(nèi)核尺度上處理輸入, 且不增加過多的計算成本和模型復(fù)雜度.
(1)
(2)
其中O1+O2+O3+…+On=O.
本文針對深度殘差網(wǎng)絡(luò)下采樣處理中出現(xiàn)的空間分辨率損失問題,使用由錐體卷積組成的PyConvResNet網(wǎng)絡(luò), 移除了PyConvResNet網(wǎng)絡(luò)最后的平均池化層和全連接層.根據(jù)輸出特征圖像的空間大小(112×112, 56×56, 28×28, 14×14, 7×7), 將網(wǎng)絡(luò)劃分為5個階段, 如表1所示, 表中G代表分組數(shù).本文采用的PyConvResNet網(wǎng)絡(luò)與原始殘差骨干網(wǎng)絡(luò)不同, 在階段2之前并未應(yīng)用最大池化層來減小空間尺寸,而是將最大池化層放在階段2的第一個短連接上.通過這種方式, 特征圖像下采樣都在階段2,3,4,5的第一個區(qū)塊執(zhí)行.這將使網(wǎng)絡(luò)能夠在階段2獲得更大的空間分辨率,同時從最大池化層提供的平移不變性中獲益.
表1 PyConvResNet參數(shù)結(jié)構(gòu)Tab.1 PyConvResNet parameter structure
圖3 改進的特征提取融合示意圖Fig.3 Improved feature extraction fusion diagram
為了進一步擴大感受野以更好地捕獲全局對比信息, 本文設(shè)計了一種新的感受野模塊.在編碼器第5層抽取特征的后面設(shè)置RFB模塊, 使第5層特征經(jīng)過該模塊后再與第4層特征進行特征融合, 如圖3所示.
感受野模塊的設(shè)計分為2個大分支, 每個大分支下又有3個小分支.其中一個大分支為了更好地獲取全局信息,首先使輸入特征圖像經(jīng)過自適應(yīng)平均池化層生成7×7的特征圖像,然后進行后續(xù)處理.3個小分支主要使特征圖像經(jīng)過3×3,5×5, 7×7這3個卷積核,進行不同感受野的特征提?。卣魈崛∵^程如下:首先, 將3個小分支提取的特征按通道維連接; 其次, 將兩大分支也按通道維連接, 再經(jīng)過一個3×3的卷積核進一步特征融合; 最后, 使原始特征圖像經(jīng)過一個1×1的卷積核與融合后的特征按元素進行相加, 達到一致映射[9], 防止細節(jié)丟失.設(shè)計的感受野模塊如圖4所示.
圖4 感受野模塊Fig.4 Receptive field module
將經(jīng)過RFB模塊后的最高層輸出特征表示為f′5, 其計算公式為
(3)
通過加入自適應(yīng)平均池化層保持最大空間尺寸維數(shù)為7, 即使輸入圖像大小變化,仍可確保網(wǎng)絡(luò)能夠捕獲完整的全局信息.同時, 在小分支上加入3個不同空間大小的卷積核,隨著空洞率d的不斷增加,原始網(wǎng)絡(luò)最高層接受域變大,可以聚集更多的語義信息, 故新的感受野模塊可有效提高網(wǎng)絡(luò)的檢測性能.本文改進的F3Net網(wǎng)絡(luò)每秒浮點運算可達56次, 相較于目前的主流網(wǎng)絡(luò), 依然具有很快的執(zhí)行速度.
本文實驗環(huán)境為英偉達RTX2080Ti顯卡,使用框架為PyTorch, 與原始F3Net網(wǎng)絡(luò)一樣采用隨機梯度下降(stochastic gradient descent, SGD)算法進行32輪訓(xùn)練.訓(xùn)練過程為端到端, 動量和權(quán)重衰減分別設(shè)置為0.9和0.000 5, 批量處理中的批量大小設(shè)置為32.為了增加模型的泛化能力和提高魯棒性, 應(yīng)用F3Net網(wǎng)絡(luò)在訓(xùn)練過程中數(shù)據(jù)增強的方法, 將輸入圖像進行水平翻轉(zhuǎn)或隨機裁剪等處理.同時, 本文利用ECSSD、PASCAL-S、DUT-OMRON、HKU-IS和DUTS-TE等5個經(jīng)典顯著性檢測數(shù)據(jù)集進行網(wǎng)絡(luò)性能測試.
顯著性目標檢測常用F測度值、S測度值[10]、E測度值[11]和平均絕對誤差(mean absolute error, MAE)等4個評價標準來評判網(wǎng)絡(luò)性能的好壞, 其中F,S,E測度值越大, 表明生成的顯著性圖像越好; MAE值越小,表明生成的顯著性圖像和實際圖像越相似.
F測度值為準確率P和召回率R的加權(quán)調(diào)和平均值,
(4)
式中β為平衡參數(shù), 本文設(shè)置為0.3.F測度值可反映圖像的精確度.
S測度值用于評價生成的顯著圖像和真值圖像之間的結(jié)構(gòu)相似性,
S=α×So+(1-α)×Sr,
(5)
式中So,Sr分別為對象感知結(jié)構(gòu)相似性度量和區(qū)域感知結(jié)構(gòu)相似性度量, 權(quán)重系數(shù)α設(shè)置為0.5.
E測度值則綜合考慮局部像素級值和圖像級平均值,
(6)
式中φGT,φFM分別為真值圖像的偏差矩陣和二元前景圖像的偏差矩陣;f為一個凸函數(shù); °表示哈達瑪積.
MAE可反映顯著性圖像R與真值圖像Y之間的差異,
(7)
本文方法與原始F3Net、AFNet[2]、PoolNet[3]、BASNet[4]、CPD-R[5]及MINet[6]等方法進行對比, 結(jié)果如圖5和表2所示.
圖5 不同模型的視覺比較圖像Fig.5 Visual comparison figures of different models
表2 指標參數(shù)比較
由圖5可見, 采用本文方法可生成相比其他網(wǎng)絡(luò)更加精確的顯著性圖像.由于沒有捕獲足夠多的上下文信息,其他網(wǎng)絡(luò)檢測出的物體不完整且場景物過多,而改進后的網(wǎng)絡(luò)能很好地檢測出顯著性物體.
由表2可知, 本文方法的MAE值低于其他方法的, 而F、S、E值都高于其他方法的,表明本文方法可以捕獲更多的目標細節(jié), 有效減少了空間分辨率的損失.