付炳陽,曹鐵勇,鄭云飛,2,3,方 正,王 楊,王燁奎
1.陸軍工程大學 指揮控制工程學院,南京210007
2.陸軍炮兵防空兵學院南京校區(qū) 火力系,南京211100
3.安徽省偏振成像與探測重點實驗室,合肥230031
偽裝目標分割(camouflaged object segmentation,COS)是計算機視覺中極具挑戰(zhàn)性的任務,其目的是從目標與背景高度相似的環(huán)境中分割出偽裝物體[1]。由于偽裝目標與周圍環(huán)境對比度較低,相比目標與背景有明顯差異的常規(guī)分割任務,偽裝目標分割更加具有難度。
在早期的傳統(tǒng)方法中,研究人員將偽裝圖案視為特殊的紋理區(qū)域,針對顏色、紋理等底層特征,運用三維凸算子、灰度共生矩陣、紋理描述符、數(shù)學形態(tài)學等方法對偽裝目標進行分割[2-6]。隨著深度學習技術的發(fā)展,從圖像中提取的深度特征相比于傳統(tǒng)底層特征更加通用和有效。因此,研究人員開始利用深度卷積網(wǎng)絡(convolutional neural network,CNN)構建偽裝目標分割模型。Li等人通過圖像增強算法實現(xiàn)目標與背景特征的區(qū)分,再利用區(qū)域建議網(wǎng)絡實現(xiàn)對特定目標的精確定位[7]。Zheng 等人提出針對分割迷彩偽裝目標的密集反卷積網(wǎng)絡,并利用超像素優(yōu)化分割結果[8]。卓劉等人引入多尺度的殘差神經(jīng)網(wǎng)絡用于識別偽裝迷彩目標[9]。Le 等人引入Anabranch Network 提高分割精度[10]。Fang 等人提出利用強語義膨脹網(wǎng)絡(strong semantic dilation network,SSDN)從卷積神經(jīng)網(wǎng)絡中提取偽裝目標的語義信息[11]。Fan等人將偽裝目標分割建模為搜索和識別兩個階段,搜索階段負責搜索隱蔽目標,識別階段采用聯(lián)級方式準確地檢測出隱蔽目標[1]。Yan等人結合實例分割和對抗攻擊來分割偽裝目標,提高分割精度[12]。Mei 等人設計出一種分心挖掘策略用于分心區(qū)域的發(fā)現(xiàn)和去除[13]。Zhai 等人將交互學習思想從規(guī)則網(wǎng)格空間推廣至圖域,在圖的聯(lián)合學習框架基礎上設計出交互式學習模型用于分割偽裝目標以及真實邊緣[14]。
上述網(wǎng)絡模型在相對簡單的場景中分割偽裝目標已經(jīng)具有較好的效果,但面對目標偏小且背景復雜的場景時,模型分割性能顯著下降。模型效果下降原因包括當前模型所提取的深度特征多尺度表達能力不足,無法發(fā)現(xiàn)圖片中尺寸較小且與背景高度相似的偽裝目標,導致模型產生漏檢情況。其次,模型使用的底層特征包含大量干擾信息,無法準確提取出偽裝目標邊緣細節(jié);深層特征經(jīng)過多次下采樣后分辨率大大降低,目標細節(jié)信息也嚴重丟失。目前增強特征的常用方式為特征融合,但簡單地融合深層特征與低層特征,將導致目標信息淹沒在大量干擾信息中,無法準確捕捉偽裝目標位置信息以及邊緣細節(jié)。
針對上述問題,本文提出一種基于多級特征融合的偽裝目標分割模型。模型分為編碼和解碼兩個階段:在編碼階段采用Res2Net-50作為主干網(wǎng)絡[15],構建門控融合模塊(gated fusion module,GFM)對主干網(wǎng)絡提取的各級中間層特征進行選擇性融合,過濾特征中包含的干擾信息,同時豐富特征的語義和細節(jié)信息;在解碼階段,利用自交互殘差模塊(self-interaction residual module,SIRM),解決模型對多尺度特征表達能力不足的問題。SIRM 將輸入特征轉換成不同通道數(shù)的高、低分辨率特征,再進行充分融合,從而挖掘出更多有效的特征信息。最后,為增強損失函數(shù)對圖像中不同尺寸目標的監(jiān)督效果,本文在訓練階段采用Dice損失(Dice loss,DL)與交叉熵損失的聯(lián)合損失函數(shù),使模型能更精準地分割偽裝目標。本文方法在一個迷彩偽裝數(shù)據(jù)集CPD和三個自然偽裝數(shù)據(jù)集CHAMELEON、CAMO、COD10K 上與典型方法進行對比實驗。結果表明,在四個常用評價指標上本文均優(yōu)于其他方法,由此證明本文方法在各類偽裝目標分割任務上具備有效性。
如圖1 所示,本文分割模型基于全卷積架構(fully convolutional networks,F(xiàn)CN)[16]。首先,采用Res2Net-50作為特征提取網(wǎng)絡[15]。對于Res2Net-50 輸出的不同尺度特征,一起輸入門控融合模塊(GFM)。GFM 運用門控機制過濾掉各層特征中背景信息干擾,有選擇性地融合各級特征圖。然后,在解碼階段加入自交互殘差模塊(SIRM),挖掘出更多當前特征的多尺度信息,增強偽裝目標特征信息。最后,模型通過各級特征逐層聚合得出最終的偽裝目標分割圖。
圖1 網(wǎng)絡結構框架圖Fig.1 Network structure block diagram
在特征提取網(wǎng)絡中,不同深度的卷積層提取出不同表示水平的特征。其中,淺層特征圖分辨率高,且包含目標的大量細節(jié)信息,但語義表達能力不強;深層特征包含豐富的語義信息,但分辨率低且目標細節(jié)信息較少[17-18]。如何結合各級特征的優(yōu)勢提取出具有高分辨率且豐富語義信息的特征圖是偽裝目標分割模型構建的關鍵。
本文將門控機制引入多級特征融合過程[19],提出門控融合模塊選擇性地融合各級特征。在深層特征語義信息的指導下,計算出各級特征對應的門控矩陣以此區(qū)分特征中的有用信息與干擾信息。其中,門控系數(shù)的大小是多級融合中選擇特征的重要依據(jù)。各級特征中門控系數(shù)較大的部分被保留,門控系數(shù)較小的部分被其余各級特征對應信息所補充。采用這種選擇性門控機制可以有效過濾各級特征中背景信息,從包含大量噪聲信息的原始特征圖中抽取目標信息并將其聚合,增強不同分辨率特征的表示能力。
其中,每個門控系數(shù)Gl=sigmoid(wl?fl)由一個參數(shù)為wl∈的卷積層計算得出,門控總數(shù)為主干網(wǎng)絡提取出的特征圖數(shù)量。由上式可知,只有當Gi(x,y)的數(shù)值較大并且Gl(x,y)的數(shù)值較小時,Gl(x,y)對應特征才選擇Gi(x,y)處特征信息進行融合,補充特征信息。
圖2 門控融合模塊Fig.2 Gated fusion module
在不同深度的高分辨率特征和低分辨率特征之間進行交互融合,可以豐富特征的尺度信息[20]?;谶@種思想,本文在解碼階段設計自交互殘差模塊(SIRM)。SIRM 通過當前特征挖掘尺度信息,增強各級特征圖表達能力,便于模型分割出更加準確的偽裝目標,整個過程的數(shù)學表達式為:
圖3 自交互殘差模塊Fig.3 Self interaction residual module
在偽裝目標分割算法中,廣泛使用交叉熵函數(shù)作為損失函數(shù)。交叉熵函數(shù)獨立地計算每一個像素的損失,然后在整個批次中累積每個像素的損失。但這種方法忽略整體的結構,尤其針對偽裝目標較小的圖片,目標像素的損失會被背景像素稀釋。并且交叉熵損失函數(shù)是平等對待各區(qū)域像素點,然而在實際情況中,偽裝目標的邊緣給分割提供更多有價值的信息,應給予目標邊緣更多關注[21]。
本文將語義分割中常用的Dice 損失[22]引入偽裝目標分割任務,從區(qū)域整體的角度進行模型學習,彌補加權交叉熵損失的不足。同樣為體現(xiàn)像素之間的差異,每個像素點加不同的權重以強調它們在分割過程中不同的重要程度。加權Dice損失計算公式如下:
其中,p∈?H×W表示預測圖的每一個像素點的概率值,g∈{0,1}H×W表示人工標注圖。αij表示偽裝圖像中每個像素點的權重,計算公式如下:上式中Aij表示像素(i,j)周圍的區(qū)域,γ為可以調節(jié)的權重系數(shù)。本方法可以找出與其周圍環(huán)境不同像素點給與更多關注。
基于上述分析,本文采用加權交叉熵(Lwbce)與加權Dice 損失(LwDL)聯(lián)合的方式來增強圖片中各尺度目標的監(jiān)督效果。該聯(lián)合損失函數(shù)更多地關注偽裝目標的邊緣部分,對于目標尺度上的差異也不會造成計算損失的較大波動。該總損失函數(shù)為:
其中λ1和λ2是平衡兩個損失貢獻的超參數(shù),具體取值分析見表1。
表1 參數(shù)λ1 和λ2 對算法的影響Table 1 Influence of parameters λ1 and λ2 on algorithm
本文在迷彩偽裝數(shù)據(jù)集和三個自然偽裝數(shù)據(jù)集上進行實驗:迷彩偽裝數(shù)據(jù)集CPD[11]、自然偽裝數(shù)據(jù)集CHAMELEON[23]、CAMO[10]以及COD10K[1]。迷彩偽裝數(shù)據(jù)集中包括26 種迷彩種類共計2 600 張迷彩偽裝目標圖像(其中1 300 張用于訓練,1 300 張用于測試),該數(shù)據(jù)集包含叢林、雨林、雪地、荒漠和開闊地等5種復雜背景,包括臥倒、站立、半蹲等多種姿態(tài)[11]。CHAMELEON包含76張通過互聯(lián)網(wǎng)收集的偽裝動物圖片,以及相應的人工標注圖[23]。CAMO包含1 250張不同類別的偽裝圖像(其中1 000張用于訓練,250張用于測試),涵蓋自然偽裝目標和人工偽裝目標并都有精細的標簽標注[10]。COD10K 是目前最大的基準數(shù)據(jù)集,它包括5 個大類和69 個子類共計5 066 張偽裝圖片(其中3 040 張用于訓練,2 026 張用于測試),該數(shù)據(jù)集通過多個攝影網(wǎng)站下載并進行人工標注[1]。本文在完成迷彩偽裝目標分割時,使用公開迷彩偽裝數(shù)據(jù)集的訓練集與測試集進行實驗。在自然偽裝目標分割實驗中,本文實驗仿照之前的工作,使用CAMO 和COD10K 的組合作為訓練集(4 040張圖片),其余自然偽裝圖片作為測試集[1]。
本中使用結構度量(Sα),自適應E度量(E?),加權F度量()以及平均絕對誤差(MAE)作為評價指標。其中結構度量(Sα)著重評估預測圖的結構信息,計算公式為:Sα=αSο+(1-α)Sr,這里Sο和Sr分別表示對象感知和區(qū)域感知的結構相似性[24]。自適應E 度量(E?)同時評估像素級匹配和圖像級統(tǒng)計信息,對結果圖的整體和局部的精度有較好的評價[25]。
加權F 度量()是一個綜合精確度和召回率的評估指標,計算公式為:
式中,β2是平衡參數(shù),Pω為加權準確率,Rω為加權召回率。在測評中,β2設置為0.3以提高重要的準確率比重[26]。
平均絕對誤差(MAE)用于計算預測圖和真值之間的像素差異,廣泛應用于評價圖像分割結果,計算式為:
式中,h和w表示圖像的高度和寬度,P表示預測圖,G表示標注圖。
本文通過實驗分析出聯(lián)合損失函數(shù)中兩個參數(shù)λ1和λ2對算法性能的影響,并為選擇合適的參數(shù)提供依據(jù)。
語義分割中采用聯(lián)合損失函數(shù)時,權重參數(shù)λ1和λ2一般都取值為1,因此本文在討論λ1和λ2比例時,設置了八組參數(shù)均在1∶1 附近。實驗中設置的八組參數(shù)在迷彩偽裝數(shù)據(jù)集CPD 上進行定量評價。Sα、E?、和MAE的測試結果如表1所示。
根據(jù)表1,模型在不同的權重參數(shù)λ1和λ2下都有較好的表現(xiàn),但還是存在一定程度的差別。從表1整體來看,參數(shù)λ2偏大時效果較好,表明在聯(lián)合損失中適當增大Dice 損失的權重對模型效果有一定提升。在表1列出的參數(shù)設置中,當λ1=1 且λ2=2 時,模型有最好的效果。在后續(xù)實驗中,設置參數(shù)λ1=1 和λ2=2。
本文模型采用PyTorch框架實現(xiàn)。訓練和測試均使用一臺6核電腦,配備Intel?Xeon?E5-2609 v3 1.9 GHz CPU 和NVIDIA GeForce RTX 2080Ti GPU(11 GB 內存)。網(wǎng)絡主干參數(shù)由預先在ImageNet 上訓練的Res2Net-50 模型初始化,其余參數(shù)由PyTorch 的默認設置進行初始化。使用動量SGD優(yōu)化器,權重衰減為5E-4,初始學習率為1E-3,動量為0.9。此外,批量大小設置為4,并通過因子為0.9 的poly 策略調整學習率,網(wǎng)絡訓練40輪。訓練圖像的大小統(tǒng)一調整為352×352。
實驗中,將本文模型與近期的6種典型方法進行比較,其中包括醫(yī)學圖像分割方法PraNet[27],顯著性目標分割方法F3Net[21]、GCPANet[28]以及MINet[29],自然偽裝目標分割方法SINet[1]以及PFNet[13]和軍事偽裝目標分割方法SSDN[11]。為客觀公正地進行對比,上述方法的預測圖都通過運行官方開源代碼,在相同數(shù)據(jù)集訓練模型生成。其中,輸入圖像大小、batch數(shù)量、學習率、權重衰減系數(shù)等訓練參數(shù)與本文模型所做實驗相同,此外,所有的預測圖都使用相同的代碼進行評估。表2 報告本文與其他6 種典型方法在迷彩偽裝數(shù)據(jù)集CPD 上的定量結果。圖4展示出不同模型的目標分割結果圖。
表2 本文方法與其他方法在迷彩偽裝數(shù)據(jù)集對比Table 2 Comparison between other and proposed methods on camouflaged people dataset
從表2可以發(fā)現(xiàn),本文的方法在各項標準評估指標下都優(yōu)于其他比較模型,說明本文方法較其他方法更適合軍事迷彩偽裝分割任務。圖4 也可以直觀看出本文方法能更好地在各種復雜環(huán)境下分割出多姿態(tài)小目標偽裝人員。因此本文方法相比于其他方法更加充分利用圖片各層特征中的語義信息以及細節(jié)信息,在小目標分割中生成更加精確和完整的偽裝物體預測圖,并且減少誤判和漏檢的情況。
圖4 CPD數(shù)據(jù)集上不同模型的視覺比較結果Fig.4 Visual comparison results based on different models on camouflaged people datasets
另一方面,為證明本文方法對于自然偽裝目標分割任務同樣有效。本文方法與其他6個典型方法進行比較,其中包括PraNet[27]、F3Net[21]、MINet[29]、CPD[30]、SINet[1]、PFNet[13]以及MGL[14]。同樣為客觀公正地進行對比,上述所有模型采用官方提供的開源代碼,并設置同樣的訓練參數(shù)。此外,所有的預測圖都使用相同的代碼進行評估。表3報告本文方法與其他6種典型方法在3個自然偽裝數(shù)據(jù)集上的對比結果。可以發(fā)現(xiàn),本文的方法在所有4個標準評估指標下都優(yōu)于所有其他方法。
表3 本文方法與其他方法在自然偽裝數(shù)據(jù)集上對比Table 3 Comparison between other and proposed methods on natural camouflage dataset
此外,圖5 展示本文方法與其他方法的比較結果。可以看出,在各種尺寸的自然偽裝目標分割(小偽裝目標(1)行和(2)行、大偽裝目標(3)行和(4)行)中都生成更加精確和完整的偽裝目標分割圖,并且具有清晰的邊界和連貫的細節(jié)。在分割目標被物體遮擋((5)行和(6)行)情況下,該方法也可以成功地推斷出真實的偽裝物體區(qū)域。因此,本文方法相比于其他方法在復雜場景下的自然偽裝分割任務具有更好的表現(xiàn)。
圖5 自然偽裝數(shù)據(jù)集上不同方法的視覺比較Fig.5 Visual comparison results based on different models on natural camouflage dataset
本文方法與其他方法在實時性方面也進行了對比。所有算法在相同的實驗環(huán)境下(RTX 2080Ti顯卡)推理相同大小的測試圖片,對比結果如表4所示。本文方法對每張圖片的處理速度約為0.012 s左右,即幀率在單張GPU上的FPS約為83。根據(jù)表4可知,本文方法實時性方面明顯優(yōu)于其他方法。
表4 不同方法的實時性比較Table 4 Real time comparison of different methods
為驗證每個提出模塊的有效性,本節(jié)對多級門控融合模塊(GFM)、自交互殘差模塊(SIRM)以及聯(lián)合加權損失函數(shù)進行詳細的消融實驗分析,結果報告在表5中。
表5 不同模塊的性能評價比較Table 5 Comparison of different approaches using different integration module
本文的基線模型是一個類似FCN 的網(wǎng)絡,它使用橫向連接將最淺層的通道數(shù)量減少到32 個,其他層的信道數(shù)量減少到64 個,再逐層連接融合最終得出預測圖。對比實驗是分別在基線模型上加入GFM 和SIRM進行訓練,并評估它們的性能,以驗證這兩個關鍵模塊的有效性,結果如表5所示。
表5顯示,偽裝目標分割任務中加入GFM或SIRM模塊都比基線模型在評價指標上有顯著提升。面對軍事偽裝目標分割任務,本文采用公開迷彩偽裝數(shù)據(jù)集CPD作為數(shù)據(jù)集,進行對比實驗。該數(shù)據(jù)集中偽裝目標普遍較小、形態(tài)多樣,背景環(huán)境復雜。多級門控融合模塊在深層特征圖的指導下對底層特征背景信息進行過濾,增強各級特征圖的表達能力使得網(wǎng)絡模型比基礎模型的Sα、E?和分別提升2.9%、25%和17.8%,證明門控融合模塊能夠幫助模型更好地分割軍事偽裝目標;單獨引入SIRM增強特征多尺度表達能力,使得Sα、E?和分別提升2.5%、24.7%和17.3%,實驗證明自交互融合模塊在軍事偽裝目標分割任務中具備有效性。此外,GFM和SIRM同時放入模型中,分割性能較單獨引入有進一步提高。但注意到幾種模型的MAE 差別不大,這是由于數(shù)據(jù)集中含有大量較小的或被障礙物所遮擋的目標(即只包含偽裝人員部分身體的圖像,約占數(shù)據(jù)集60%),在這種情況下,無論是否正確檢測,都不會引起MAE值的劇烈變化。
針對自然偽裝目標分割任務,本文采用COD10K作為數(shù)據(jù)集,進行對比實驗。結果顯示,單獨引入GFM的網(wǎng)絡結構較基線模型結構度量提高2%,自適應E 度量提高3.6%,加權F 度量提高3.4%并且平均絕對誤差從0.043降低到0.039,證明門控融合模塊選擇性地融合多級特征對于提高偽裝目標分割精度有一定幫助。加入SIRM 的網(wǎng)絡結構較基線模型Sα、E?和分別提升1.6%、3.4%和2.98%并且平均絕對誤差從0.043 降低到0.039,證明SIRM深度挖掘出的多尺度信息可以有效提升模型分割性能。此外,GFM和SIRM的結合幫助模型進一步提高模型分割性。
圖6 為各級特征經(jīng)過GFM 模塊后的可視化比較。第一行為Res2Net-50主干網(wǎng)絡提取的各級特征,第二行為多級融合后的各級特征。依次為輸入圖像從淺到深的中間層特征圖??梢郧宄匕l(fā)現(xiàn)淺層的提取特征和中偽裝目標被背景信息嚴重干擾,經(jīng)過門控機制后特征圖中背景信息得到有效抑制,目標細節(jié)信息更為明顯,底層特征圖可以清晰地分辨出目標所在位置。門控融合過程中,只要存在某一特征圖能準確描述偽裝目標位置,其余各級特征選擇性融合后都可以發(fā)現(xiàn)目標位置,并有效過濾各級特征中干擾信息。圖6 中第一行的特征圖f5突顯出偽裝目標所在位置,因此其他各級特征在門控融合中都可以判斷出背景位置,對干擾信息加以過濾,增強各級特征表達能力。多級門控融合的前提是深層特征中包含較強語義信息,可以準確尋找出目標位置。但如果提取網(wǎng)絡中各級特征都無法定位出目標位置,門控融合模塊就無法達到增強各級特征表達能力的效果。
圖6 經(jīng)過GFM后特征圖的可視化比較Fig.6 Visualization comparison of feature maps after GFM
圖7 為各級特征經(jīng)過SIRM 模塊后的可視化比較。第一行為多級融合后的各級特征,第二行為各級特征經(jīng)過SIRM 后所有特征的可視化結果。由圖F4和F5可視,深層特征經(jīng)過SIRM 后,可以挖掘出更多有用信和息。在淺層特征(F1、F2和F3)中偽裝目標更加突顯,對模型準確分割偽裝目標起到較大幫助。
圖7 經(jīng)過SIRM后特征圖的可視化比較Fig.7 Visualization comparison of feature maps after SIRM
為分析本文中聯(lián)合損失函數(shù)的有效性,本文對基線模型以及單獨引入GFM、單獨引入SIRM 和同時包含GFM和SIRM的四種模型,在損失函數(shù)方面進行對比實驗。根據(jù)表5可知,采用聯(lián)合損失函數(shù)的模型較比不引入Dice損失的模型,在分割效果上都有所提高。證明加權Dice損失對目標尺度不敏感以及更加關注優(yōu)化全局結構的特點,可以有效提高模型的分割精確度。在迷彩偽裝數(shù)據(jù)集CPD 上,基線模型中引入Dice 損失,E?和評價指標分別提升6.6%和5.3%。并且在同時包含GFM和SIRM的改進模型中,帶有加權Dice損失的模型在迷彩偽裝數(shù)據(jù)集CPD 上Sα、E?和三個標準評價指標都有不同程度的提高。同樣在自然偽裝數(shù)據(jù)集COD10K上E?和分別提高3%和3.9%,MAE從0.038降低到0.034。視覺效果如圖8 所示,引入加權Dice 損失后模型對于目標邊緣分割更加精細,并且整體結構更加完整。
圖8 各模塊的視覺比較Fig.8 Visual comparison results based on different module
本文提出一種基于多級特征融合的偽裝目標分割方法。首先使用門控融合模塊有選擇性地融合多級特性,有效過濾背景信息干擾,然后利用自交互殘差模塊從GFM 輸出特征中提取更多尺度信息。最后,本文引入Dice損失增強損失函數(shù)對圖片中各尺寸目標的監(jiān)督效果,提升偽裝目標的準確度。本文的方法在軍事迷彩偽裝數(shù)據(jù)集以及三種自然偽裝數(shù)據(jù)集上進行實驗,在常用的四種評價指標下優(yōu)于其他典型方法。在主觀視覺上,本文方法分割出的結果圖能更好地處理各種復雜情況的偽裝圖像,較好保留出偽裝目標輪廓。實驗證明,本文方法對偽裝目標分割任務有更好的分割效果。
在未來的研究發(fā)展中,進一步考慮融合傳統(tǒng)方法與深度學習相結合共同提取目標特征信息,增強特征中目標信息幫助模型更好發(fā)現(xiàn)偽裝目標。