羅 楊,卞春江,陳紅珍
1.中國(guó)科學(xué)院 國(guó)家空間科學(xué)中心 復(fù)雜航天系統(tǒng)綜合電子與信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190
2.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049
合成孔徑雷達(dá)(synthetic aperture radar,SAR)作為一種主動(dòng)式的微波成像傳感器[1],相較于常見(jiàn)的可見(jiàn)光、紅外等被動(dòng)式傳感器,SAR傳感器因?yàn)檫m應(yīng)各種極端天氣和不受光照限制而受到廣泛關(guān)注與應(yīng)用。近年來(lái),隨著SAR系統(tǒng)技術(shù)成熟以及對(duì)應(yīng)成像算法日益發(fā)展,全球各國(guó)爭(zhēng)相開(kāi)展SAR圖像艦船檢測(cè)系統(tǒng)[2-4]。SAR圖像艦船檢測(cè)系統(tǒng)可以對(duì)近海岸、港口以及遠(yuǎn)海區(qū)域進(jìn)行艦船檢測(cè),在軍事領(lǐng)域上維護(hù)海洋國(guó)土主權(quán)、領(lǐng)土安全監(jiān)測(cè)以及可疑敵對(duì)目標(biāo)檢測(cè)跟蹤等發(fā)揮重大作用,同時(shí),在民用海運(yùn)交通監(jiān)測(cè)與管理、災(zāi)害救援以及漁業(yè)活動(dòng)管理都起到至關(guān)重要的作用。傳統(tǒng)的SAR圖像檢測(cè)檢測(cè)方法主要基于特征統(tǒng)計(jì)[5]、變換[6]、閾值[7]、模板[8]以及尾跡[9]。然而,以上傳統(tǒng)方法對(duì)于復(fù)雜場(chǎng)景(比如近港口區(qū)域)、無(wú)尾跡目標(biāo)魯棒性較差,且算法性能高度依賴(lài)于專(zhuān)家先驗(yàn)信息和人工設(shè)置參數(shù)。
近年,深度學(xué)習(xí)技術(shù)得益于深度神經(jīng)網(wǎng)絡(luò)(deep nerual network,DNN)的特征表達(dá)能力,在視覺(jué)分類(lèi)、視覺(jué)目標(biāo)檢測(cè)、視覺(jué)分割等各項(xiàng)任務(wù)中取得顯著性成功,該技術(shù)目前在SAR圖像艦船檢測(cè)應(yīng)用中也有著不錯(cuò)的效果。利用深度學(xué)習(xí)技術(shù)進(jìn)行SAR圖像艦船檢測(cè)可以忽略傳統(tǒng)方法中的海陸分割步驟等預(yù)處理,最終得到魯棒性強(qiáng)、精度高的檢測(cè)結(jié)果。李健偉等人[10]通過(guò)Faster R-CNN[11]網(wǎng)絡(luò)結(jié)合特征融合、困難樣本挖掘等技術(shù)實(shí)現(xiàn)高精度SAR圖像艦船檢測(cè)。白玉等人[12]通過(guò)使用ELU激活函數(shù)和二次損失函數(shù)結(jié)合的卷積神經(jīng)網(wǎng)絡(luò)解決多分辨率SAR艦船檢測(cè)問(wèn)題。Zhao[13]等人提出基于注意力機(jī)制的特征金字塔(feature pyramid network,F(xiàn)PN[14])模塊加強(qiáng)模型的多尺度艦船目標(biāo)檢測(cè)能力。Zhang等人[15]將四種不同的FPN結(jié)合在一起,提升小目標(biāo)以及復(fù)雜背景區(qū)域檢測(cè)性能。然而,以上方法都是通過(guò)增加網(wǎng)絡(luò)復(fù)雜度方面強(qiáng)化網(wǎng)絡(luò)擬合能力,這最終會(huì)大大增加網(wǎng)絡(luò)參數(shù)和資源占用,使得實(shí)用性較低。
知識(shí)蒸餾[16]作為一種網(wǎng)絡(luò)輕量化的方法,因其不需要修改網(wǎng)絡(luò)參數(shù)和結(jié)構(gòu)而受到研究者關(guān)注。知識(shí)蒸餾算法通過(guò)構(gòu)建教師網(wǎng)絡(luò)-學(xué)生網(wǎng)絡(luò)關(guān)系對(duì)進(jìn)行訓(xùn)練提升特征擬合能力,提升任務(wù)精度。在推理階段,只需要利用訓(xùn)練好的學(xué)生網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),相關(guān)蒸餾訓(xùn)練模塊不參與推理,實(shí)現(xiàn)一定程度上的“無(wú)代價(jià)”性能提升。Chen等人[17]首次將知識(shí)蒸餾算法應(yīng)用到目標(biāo)檢測(cè)任務(wù)上,從此檢測(cè)任務(wù)的知識(shí)蒸餾工作逐漸增多[18-20]。然而,目前大多數(shù)知識(shí)蒸餾算法僅針對(duì)可見(jiàn)光RGB圖目標(biāo)檢測(cè)任務(wù)[21-22],其在SAR圖像上的艦船目標(biāo)檢測(cè)任務(wù)應(yīng)用較少。Chen等人[23]將輕量級(jí)的高分辨率網(wǎng)絡(luò)(high-resolution network,HRNet[24])作為骨干網(wǎng)絡(luò)設(shè)計(jì)輕量的單階段SAR圖像艦船檢測(cè)器,同時(shí),利用知識(shí)蒸餾方法讓學(xué)生網(wǎng)絡(luò)預(yù)測(cè)結(jié)果逼近教師網(wǎng)絡(luò)預(yù)測(cè)結(jié)果,將輕量級(jí)的學(xué)生檢測(cè)網(wǎng)絡(luò)從74.02%的精度提升到75.96%。Chen等人[26]同時(shí)對(duì)學(xué)生網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)和預(yù)測(cè)結(jié)果進(jìn)行知識(shí)蒸餾,強(qiáng)化學(xué)生網(wǎng)絡(luò)對(duì)SAR圖像的艦船檢測(cè)性能。然而以上的工作直接借鑒可見(jiàn)光目標(biāo)檢測(cè)任務(wù)蒸餾算法,忽視了SAR圖像目標(biāo)特性。如圖1所示,左圖從上到下分別為MS COCO、PASCAL VOC以及HRSID,紅色框表示groundtruth,黃色框表示和艦船目標(biāo)類(lèi)似的背景噪聲;RGB圖和SAR圖關(guān)于前景區(qū)域占全圖面積比例對(duì)比。不同于常見(jiàn)RGB可見(jiàn)光圖像,SAR圖像目標(biāo)區(qū)域占比極小,這將導(dǎo)致蒸餾損失前景和背景的占比嚴(yán)重失衡,使得學(xué)生網(wǎng)絡(luò)學(xué)習(xí)到更多背景信息,不利于最終的SAR圖像艦船檢測(cè):如圖2(a),該蒸餾方法[25-26]直接計(jì)算教師和學(xué)生骨干網(wǎng)絡(luò)的全局像素點(diǎn)級(jí)MSE(mean square error,MSE)損失。為了解決這種前背景失衡問(wèn)題,如圖2(c),DeFeat[27]利用真實(shí)標(biāo)簽制作0-1二值掩碼得到前景和背景區(qū)域特征,然后對(duì)二者分別進(jìn)行不同權(quán)重下的MSE蒸餾損失計(jì)算。
圖1 RGB圖像和SAR圖像對(duì)比Fig.1 Comparasion of RGB and SAR image
圖2 不同掩碼M的骨干網(wǎng)絡(luò)蒸餾方法Fig.2 Distillation methods of backbone with different mask M
除開(kāi)上述前背景失衡問(wèn)題,為了得到局部區(qū)域回歸結(jié)果,目標(biāo)檢測(cè)任務(wù)需要區(qū)分前景和背景,排除與前景特征類(lèi)似的背景區(qū)域(如圖1中SAR圖像黃色框背景特征和艦船目標(biāo)特征類(lèi)似),這要求網(wǎng)絡(luò)對(duì)前景和背景關(guān)系建模:將目標(biāo)檢測(cè)結(jié)果看作條件概率模型[28],可以得到,其中Vfg、Vbg分別代表前景特征以及背景特征。AT[29]利用骨干網(wǎng)絡(luò)注意力特征圖制作掩碼,通過(guò)該掩碼學(xué)生網(wǎng)絡(luò)學(xué)習(xí)到前背景關(guān)系(如圖2(b)),從而提升學(xué)生網(wǎng)絡(luò)精度。
綜合上述分析,本文同時(shí)解決前背景失衡問(wèn)題以及全局關(guān)系建模問(wèn)題,使得最終蒸餾框架適配SAR圖像艦船檢測(cè)任務(wù)。具體地,主要貢獻(xiàn)有:
(1)前景和背景特征解耦:根據(jù)真實(shí)值標(biāo)簽制作前景和背景0-1掩碼,分別對(duì)骨干網(wǎng)絡(luò)前景和背景特征進(jìn)行蒸餾;
(2)基于拓?fù)渚嚯x的前背景蒸餾:通過(guò)設(shè)計(jì)前背景特征解耦的拓?fù)渚嚯x(decoupled topology distance,DeTD)蒸餾模塊,將前景和背景骨干網(wǎng)絡(luò)特征映射到高維單位球體進(jìn)行交互蒸餾,使得學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)對(duì)前景和背景的關(guān)系建模方式,更好地區(qū)分前背景,增強(qiáng)學(xué)生網(wǎng)絡(luò)對(duì)背景噪聲的魯棒性。實(shí)驗(yàn)結(jié)果表明,通過(guò)該模塊對(duì)前景和背景進(jìn)行同時(shí)蒸餾可以取得不錯(cuò)的結(jié)果。
為了驗(yàn)證本文所提出方法的有效性,本文利用有著不同骨干網(wǎng)絡(luò)的Faster R-CNN檢測(cè)器構(gòu)建教師-學(xué)生網(wǎng)絡(luò)對(duì)在HRSID數(shù)據(jù)集上進(jìn)行蒸餾實(shí)驗(yàn)。最終,所提出的蒸餾方法性能優(yōu)先于其他方法,以ResNet18-C4作為骨干網(wǎng)絡(luò)的學(xué)生網(wǎng)絡(luò)檢測(cè)精度從31.81%AP提升到38.66%AP。
目前主流的基于深度學(xué)習(xí)的雙階段目標(biāo)檢測(cè)網(wǎng)絡(luò)由四個(gè)部分組成:(a)骨干網(wǎng)絡(luò)(Backbone)提取基礎(chǔ)特征;(b)區(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN)對(duì)錨框anchor進(jìn)行前景預(yù)測(cè)和回歸;(c)感興趣區(qū)域池化(region of interest pooling,RoIPooling)對(duì)來(lái)自RPN的提議區(qū)域統(tǒng)一尺寸;(d)感興趣區(qū)域預(yù)測(cè)頭(region of interest pooling head,RoIHead)對(duì)提議區(qū)域進(jìn)行二次分類(lèi)和回歸。應(yīng)用于目標(biāo)檢測(cè)的知識(shí)蒸餾方法通過(guò)學(xué)生網(wǎng)絡(luò)模擬教師網(wǎng)絡(luò)的“知識(shí)”提升性能。其中,教師網(wǎng)絡(luò)的知識(shí)可以分為兩種:第一種[26]為網(wǎng)絡(luò)的中間層特征;第二種[16]知識(shí)為網(wǎng)絡(luò)輸出結(jié)果。通過(guò)中間層特征進(jìn)行知識(shí)蒸餾可以寫(xiě)成如下公式:
其中,N=C×H×W為特征圖元素個(gè)數(shù),分別為學(xué)生和教師中間層特征圖,?表示為了對(duì)齊Fs和Ft通道數(shù)的自適應(yīng)層,M表示特征圖掩碼,不通過(guò)掩碼體現(xiàn)蒸餾算法關(guān)注特征點(diǎn)重要性不同。圖2給出目前常見(jiàn)三種形式掩碼。圖2(a)表示全1掩碼,將所有的特征點(diǎn)視作一致。圖2(b)表示浮值掩碼,不同特征位置點(diǎn)值不一致。圖2(c)表示前景背景分離的0-1掩碼。
RoIHead分類(lèi)分支得到每一個(gè)區(qū)域的類(lèi)別分?jǐn)?shù)。學(xué)生網(wǎng)絡(luò)通過(guò)模仿教師網(wǎng)絡(luò)分類(lèi)分支輸出結(jié)果,提升分類(lèi)準(zhǔn)確率,該部分蒸餾損失公式如下:
其中,C表示通道數(shù),K表示來(lái)自RPN的區(qū)域提議個(gè)數(shù),LKL為Kullback-Leibler divergence[30],Ps、Pt分別代表學(xué)生和教師網(wǎng)絡(luò)分類(lèi)分支結(jié)果(二者共用相同的感興趣區(qū)域輸入)。因此在蒸餾算法框架下的目標(biāo)檢測(cè)任務(wù)整體損失總結(jié)為:
上述Lcls、Lreg分別表示RoIHead分類(lèi)和回歸損失,LRPN為RPN網(wǎng)絡(luò)分類(lèi)和回歸損失(這三者損失函數(shù)與[11]保持一致,即分類(lèi)采用交叉熵?fù)p失,回歸采用smooth-L1損失)。
本文利用上述的蒸餾框架對(duì)SAR圖像艦船目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行輕量化。為了緩解SAR艦船目標(biāo)和背景區(qū)域的失衡問(wèn)題,以及考慮對(duì)前景和背景關(guān)系建模,提出基于前背景解耦的拓?fù)渚嚯x蒸餾,具體網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖3。本文將在本章詳細(xì)介紹本文所提出的方法。
圖3 蒸餾流程圖總覽(包括骨干網(wǎng)絡(luò)蒸餾和預(yù)測(cè)頭蒸餾)Fig.3 Overview of distilation framwork(including backbone distillation and prediction head distillation)
FitNet[25]對(duì)全局中間層特征進(jìn)行公平對(duì)待,忽略了前景和背景的失衡問(wèn)題。受到DeFeat[27]啟發(fā),如圖4,利用輸入數(shù)據(jù)的真實(shí)值標(biāo)簽制作0-1前背景掩碼,對(duì)前景和背景進(jìn)行分別蒸餾,緩解失衡問(wèn)題。
圖4 前景、背景解耦特征制作流程Fig.4 Flowart of decoupled features of foreground and background
為了和經(jīng)過(guò)下采樣S倍的中間特征圖F∈RH×W對(duì)齊,對(duì)每一個(gè)真實(shí)定位框標(biāo)簽B將其進(jìn)行縮放S倍得到。因此得到對(duì)應(yīng)特征圖的前景掩碼:
其中,MFG∈(0,1)H×W,如果(i,j)特征點(diǎn)包含在真實(shí)標(biāo)簽B內(nèi)部,則該點(diǎn)值為1,否則為0。同理,可得背景掩碼為:
與前景掩碼類(lèi)似,如果(i,j)特征點(diǎn)屬于背景區(qū)域,則該點(diǎn)值為1,否則為0。
通過(guò)上述所得前景背景掩碼與骨干網(wǎng)絡(luò)中間層特征點(diǎn)乘,如圖4所示,得到輸入圖像中每一個(gè)真實(shí)樣本框?qū)?yīng)特征=1,2,…,Nobj}(Nobj表示真實(shí)標(biāo)簽定位框個(gè)數(shù))以及背景特征。
全局關(guān)系建??梢詭椭繕?biāo)檢測(cè)網(wǎng)絡(luò)增加對(duì)背景噪聲的魯棒性,提升檢測(cè)性能[31-33]。1.1節(jié)將前背景特征進(jìn)行分別提取,雖然可以緩解失衡問(wèn)題所導(dǎo)致的性能下降,但同時(shí)切斷了前景和背景的交互關(guān)系。為了彌補(bǔ)這一點(diǎn),本節(jié)設(shè)計(jì)解耦拓?fù)渚嚯x蒸餾模塊(decoupled topology distance disitllation module,DeTD)重構(gòu)分離后的前景和背景特征關(guān)系。如圖5所示,通過(guò)以下步驟得到融合后的前景和背景特征:
圖5 解耦拓?fù)渚嚯x蒸餾模塊Fig.5 Distillation module based on decoupled topology distance(DeTD)
其中,AVG表示全局平均池化操作,⊙代表對(duì)前景特征在通道維度進(jìn)行Concat拼接操作。
(2)對(duì)于背景特征BG,首先將其進(jìn)行全局平均池化,然后為了對(duì)齊前景區(qū)域融合特征FG,本文將其沿著通道維度進(jìn)行擴(kuò)展,詳細(xì)公式如下:
其中,Expand(?,N)表示沿通道擴(kuò)展N次操作。
(3)將融合后的前景特征FFG和擴(kuò)展后的背景特征FBG歸一化到高維單位球面上,得到最終輸入圖像前景、背景特征表達(dá):
將上述得到前景和背景特征過(guò)程作用在不同的網(wǎng)絡(luò)上可以分別得到學(xué)生網(wǎng)絡(luò)前景、背景特征以及教師網(wǎng)絡(luò)前景、背景特征。
考慮到SAR圖像艦船前景目標(biāo)與背景噪聲特征類(lèi)似,本節(jié)利用TripletLoss緩解噪聲干擾。TripletLoss被廣泛應(yīng)用在人臉識(shí)別任務(wù)中[34-35]:拉近錨點(diǎn)樣本和正樣本的距離以及推遠(yuǎn)和負(fù)樣本的距離。具體地,將SAR圖像艦船目標(biāo)學(xué)生網(wǎng)絡(luò)前景特征當(dāng)作錨點(diǎn),對(duì)應(yīng)教師網(wǎng)絡(luò)前景特征當(dāng)做正樣本,教師網(wǎng)絡(luò)背景特征視作負(fù)樣本,構(gòu)成三元組設(shè)計(jì)損失如下:
其中,[?]+等價(jià)于max(?,0),m為錨點(diǎn)與正負(fù)樣本距離間隔參數(shù)。通過(guò)公式(9),學(xué)生網(wǎng)絡(luò)前景特征逼近教師網(wǎng)絡(luò)前景特征,遠(yuǎn)離背景特征,從而增加背景噪聲魯棒性。為了增強(qiáng)上述關(guān)于前景和背景關(guān)系,本節(jié)提出“對(duì)稱(chēng)Tripelet”損失函數(shù)同時(shí)考慮背景特征當(dāng)作錨點(diǎn),使得學(xué)生網(wǎng)絡(luò)不忽略背景的學(xué)習(xí):
通過(guò)結(jié)合公式(9)和公式(10),本節(jié)提出的前背景拓?fù)渚嚯x蒸餾“對(duì)稱(chēng)Triplet”損失函數(shù)如下:
其中,αfg和αbg調(diào)節(jié)兩項(xiàng)蒸餾損失大小。
如圖3,將RPN輸出得到的提議區(qū)域輸入到RoIHead得到分類(lèi)分?jǐn)?shù)Ps,同時(shí)和學(xué)生網(wǎng)絡(luò)共享的提議區(qū)域也將輸入到教師網(wǎng)絡(luò)的RoIHead得到分類(lèi)分?jǐn)?shù)Pt。本章采取和公式(2)一致的分類(lèi)頭蒸餾方式,通過(guò)教師網(wǎng)絡(luò)分類(lèi)頭輸出平滑處理后的標(biāo)簽(soft-label)監(jiān)督學(xué)生網(wǎng)絡(luò)分類(lèi)頭,提升分類(lèi)能力:
其中,T為溫度因子,θs、θt分別表示學(xué)生分類(lèi)頭參數(shù)和教師分類(lèi)頭參數(shù),分別表示學(xué)生和教師網(wǎng)絡(luò)預(yù)測(cè)頭輸出經(jīng)過(guò)通道維度Softmax平滑后的分類(lèi)分?jǐn)?shù)。
總結(jié)本文提出的方法,訓(xùn)練學(xué)生網(wǎng)絡(luò)的整體損失函數(shù)為:
本節(jié)利用開(kāi)源SAR艦船檢測(cè)數(shù)據(jù)集HRSID[36]驗(yàn)證本文所提出的蒸餾算法,包含3 642張訓(xùn)練集圖片以及1 962張測(cè)試集圖片。其中測(cè)試集由1 593張遠(yuǎn)海和369張近港口圖片組成。實(shí)驗(yàn)采用與COCO數(shù)據(jù)集[21]一致的評(píng)價(jià)指標(biāo)—平均精度(average precision,AP)。該指標(biāo)通過(guò)不同交并比(intersection over union,IoU)進(jìn)行細(xì)化分,包括AP@[0.5:0.95]、AP50、AP75、APs、APm、APl,后三項(xiàng)指標(biāo)代表不同尺寸物體的精度。
本文選取不同深度的ResNet[37]當(dāng)作教師和學(xué)生骨干網(wǎng)絡(luò)。檢測(cè)網(wǎng)絡(luò)框架選擇雙階段檢測(cè)器Faster R-CNN[11]。為了后續(xù)實(shí)驗(yàn)結(jié)果的簡(jiǎn)潔表示,教師-學(xué)生網(wǎng)絡(luò)對(duì)用骨干網(wǎng)絡(luò)進(jìn)行縮寫(xiě)標(biāo)記說(shuō)明,即R50-R18-C4。
所有實(shí)驗(yàn)在單卡GeForce RTX 3090上進(jìn)行。代碼構(gòu)建采用Pytorch當(dāng)作框架。訓(xùn)練階段,設(shè)置batchsize為2,利用SGD優(yōu)化器進(jìn)行網(wǎng)絡(luò)更新(動(dòng)量設(shè)置為0.9,正則化權(quán)重為0.000 1),訓(xùn)練輪次為12。輸入圖像將進(jìn)行隨機(jī)縮放數(shù)據(jù)增強(qiáng)(短邊不小于600,長(zhǎng)邊不超過(guò)1 200)以及水平隨機(jī)翻轉(zhuǎn)增強(qiáng)。初始學(xué)習(xí)率(learning rate,lr)為0.001,在第8、第11輪次對(duì)學(xué)習(xí)率進(jìn)行0.1倍線(xiàn)性下降,分別為lr=0.000 1以及l(fā)r=0.000 01。同時(shí),實(shí)驗(yàn)采用500步長(zhǎng)的線(xiàn)性預(yù)熱訓(xùn)練策略[37]讓網(wǎng)絡(luò)訓(xùn)練更穩(wěn)定。教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)除開(kāi)骨干網(wǎng)絡(luò)選擇不同以外,其余網(wǎng)絡(luò)設(shè)置保持一致:RPN回歸損失權(quán)重為0.11,RoIHead回歸損失權(quán)重為0.1,其余檢測(cè)網(wǎng)絡(luò)超參數(shù)與Detectron2默認(rèn)保持一致。
對(duì)于本文所提出的算法,超參數(shù)m、αbg、β以及m分別平衡DeTD模塊前景和背景損失大?。ㄈ绻剑?1)),調(diào)整預(yù)測(cè)分類(lèi)頭蒸餾損失(如公式(2))大小以及TripletLoss中的三元組距離間隔。默認(rèn)采用αfg=0.5,αbg=0.25,β=4.0,分類(lèi)頭溫度因子T=1.0,m=0.1。在蒸餾實(shí)驗(yàn)之前,事先將教師網(wǎng)絡(luò)進(jìn)行如上參數(shù)設(shè)置的單獨(dú)訓(xùn)練。將得到的教師網(wǎng)絡(luò)權(quán)重凍結(jié)不參與梯度計(jì)算,結(jié)合輕量學(xué)生網(wǎng)絡(luò)進(jìn)行蒸餾實(shí)驗(yàn)。
4.3.1 不同掩碼骨干網(wǎng)絡(luò)蒸餾方法對(duì)比
DeTD模塊可以解決失衡問(wèn)題以及強(qiáng)化學(xué)生網(wǎng)絡(luò)前背景關(guān)系建模,為了驗(yàn)證DeTD的有效性,如表1,本小節(jié)對(duì)比了與圖2三種使用不同掩碼進(jìn)行骨干網(wǎng)絡(luò)蒸餾的方法:FitNet[25]、AT[29]以及DeFeat[27]。同時(shí),為了加強(qiáng)蒸餾效果,包含DeTD在內(nèi),以上所有對(duì)骨干網(wǎng)絡(luò)進(jìn)行層級(jí)蒸餾操作的算法將同時(shí)作用到Res3/Res4兩個(gè)階段。實(shí)驗(yàn)結(jié)果表明,直接使用全1掩碼蒸餾方式的FitNet[25]在港口區(qū)域AP提升0.51個(gè)百分點(diǎn),在遠(yuǎn)海區(qū)域僅提升0.06個(gè)百分點(diǎn)。AT[29]利用全局注意力機(jī)制得到浮點(diǎn)數(shù)掩碼,在復(fù)雜的港口區(qū)域AP提升0.69個(gè)百分點(diǎn),高于FitNet,同時(shí)在遠(yuǎn)海區(qū)域AP提升1.07個(gè)百分點(diǎn)。而通過(guò)前景和背景解耦掩碼蒸餾緩解失衡問(wèn)題的DeFeat[27]相較于前兩者有一定提升,分別在港口和遠(yuǎn)海區(qū)域AP提升0.76個(gè)百分點(diǎn)和1.59個(gè)百分點(diǎn)。相比于前三種主流的掩碼設(shè)計(jì)思路,DeTD模塊將學(xué)生網(wǎng)絡(luò)在港口和遠(yuǎn)海區(qū)域分別提升3.2個(gè)百分點(diǎn)和7.72個(gè)百分點(diǎn),遠(yuǎn)高于其他的掩碼蒸餾方法。圖6給出以上四種不同蒸餾方法在HRSID港口場(chǎng)景(inshore)以及遠(yuǎn)海場(chǎng)景(offshore)驗(yàn)證的PR曲線(xiàn)。通過(guò)DeTD蒸餾,學(xué)生網(wǎng)絡(luò)可以較好地對(duì)前景和背景特征進(jìn)行建模,和前景特征類(lèi)似的背景噪聲也有效地被排除,學(xué)生網(wǎng)絡(luò)魯棒性更高,因此在港口區(qū)域DeTD模塊有遠(yuǎn)超于其他方法的提升。由于DeTD也同時(shí)針對(duì)前背景失衡問(wèn)題,在海洋面積占大部分的遠(yuǎn)海區(qū)域,DeTD取得較大性能提升。
表1 不同掩碼蒸餾方法在港口和遠(yuǎn)海區(qū)域預(yù)測(cè)結(jié)果Table 1 Prediction results of distillation methods with different masks on inshore and offshore areas 單位:%
圖6 不同掩碼蒸餾方法檢測(cè)結(jié)果PR曲線(xiàn)Fig.6 PR curve of distillation methods with different masks
4.3.2 共享RPN提議區(qū)域蒸餾實(shí)驗(yàn)對(duì)比
公式(12)表示對(duì)預(yù)測(cè)分類(lèi)頭的輸出進(jìn)行蒸餾,這需要RPN提供教師和學(xué)生網(wǎng)絡(luò)共享的提議區(qū)域(shared proposals)。教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)均采用雙階段檢測(cè)器,因此各自的RPN網(wǎng)絡(luò)都有能力得到提議區(qū)域。然而因?yàn)榫W(wǎng)絡(luò)參數(shù)的不同,兩者提議區(qū)域不一致。本節(jié)將分析預(yù)測(cè)分類(lèi)頭蒸餾所需的共享提議區(qū)域分別來(lái)自?xún)烧邥r(shí)對(duì)最終性能的影響。結(jié)合DeTD模塊進(jìn)行蒸餾,當(dāng)提議區(qū)域來(lái)自于教師網(wǎng)絡(luò)的時(shí)候,如表2所示,網(wǎng)絡(luò)最終精度為38.27%AP,來(lái)自學(xué)生網(wǎng)絡(luò)的時(shí)候,精度為38.66%AP。導(dǎo)致后者精度略高于前者這種現(xiàn)象的一個(gè)原因可能是教師網(wǎng)絡(luò)由于性能較高,擬合能力較強(qiáng),因此RPN所得到的提議區(qū)域框相較于學(xué)生網(wǎng)絡(luò)較集中在前景部分區(qū)域,這會(huì)導(dǎo)致采樣點(diǎn)范圍不夠廣,學(xué)生網(wǎng)絡(luò)無(wú)法很好地處理一些背景區(qū)域從而性能有些許下降。
表2 共享提議區(qū)域來(lái)源消融實(shí)驗(yàn)Table 2 Ablation study of source of shared proposals 單位:%
遵循表2規(guī)律,本文以下所有實(shí)驗(yàn)采用提議區(qū)域來(lái)自學(xué)生網(wǎng)絡(luò)的設(shè)置。
4.3.3 蒸餾結(jié)果對(duì)比
如表3所示不同蒸餾方法在HRSID數(shù)據(jù)集檢測(cè)結(jié)果對(duì)比。擁有大約教師網(wǎng)絡(luò)1/4參數(shù)量的學(xué)生網(wǎng)絡(luò)(教師網(wǎng)絡(luò)參數(shù)量為126.31 MB,學(xué)生網(wǎng)絡(luò)為46.09 MB,當(dāng)輸入圖像大小為1 024×1 024×3時(shí),前者推理速度為13.34 FPS,后者推理速度為28.67 FPS),在未蒸餾前因?yàn)閿M合能夠不足,取得性能較低,但通過(guò)不同的蒸餾方法之后精度均得到一定程度的提升。cwd[20]通過(guò)通道蒸餾方法在多種密集預(yù)測(cè)型任務(wù)上取得不錯(cuò)的性能提升。wsld[38]通過(guò)教師-學(xué)生網(wǎng)絡(luò)對(duì)同樣本預(yù)測(cè)誤差比調(diào)整蒸餾損失權(quán)重,緩解部分樣本帶來(lái)的偏差-方差問(wèn)題。DeFeat增加預(yù)測(cè)分類(lèi)頭蒸餾之后,精度從32.93%提升到34.71%。cwd將學(xué)生網(wǎng)絡(luò)從31.81%AP提升到35.71%AP,整體提升3.9個(gè)百分點(diǎn),wsld則提升4.13個(gè)百分點(diǎn)。增加預(yù)測(cè)分類(lèi)頭蒸餾后,本文所提出的方法遠(yuǎn)高于上述對(duì)比方法,精度提升6.85個(gè)百分點(diǎn)。為了更加細(xì)致地對(duì)比各個(gè)方法,表4列出以上對(duì)比方法分別在港口區(qū)域和遠(yuǎn)海區(qū)域的檢測(cè)精度,圖7給出各個(gè)蒸餾方法檢測(cè)結(jié)果的PR曲線(xiàn)??梢钥闯?,不管是在港口區(qū)域還是遠(yuǎn)海區(qū)域,本文的方法均保持最高性能表現(xiàn)。如圖8所示蒸餾最終檢測(cè)結(jié)果可視化,本文方法既可以較好地排除掉背景噪聲的干擾,同時(shí)回歸精度更高,誤檢和漏檢率都有所降低。
表3 在HRSID數(shù)據(jù)集蒸餾方法結(jié)果對(duì)比Table 3 Prediciton results of different distillation methods on HRSID dataset 單位:%
表4 不同蒸餾方法在港口和遠(yuǎn)海區(qū)域檢測(cè)結(jié)果Table 4 Prediciton results of different distillation methods on inshore and offshore areas 單位:%
圖7 不同蒸餾方法檢測(cè)結(jié)果PR曲線(xiàn)Fig.7 PR curve of different distillation methods
圖8 蒸餾結(jié)果可視化Fig.8 Visualization of distillation results
4.3.4 不同超參數(shù)設(shè)置對(duì)精度的影響
對(duì)稱(chēng)距離間隔參數(shù)m對(duì)性能影響。對(duì)于TripletLoss而言,m越小,整體損失會(huì)變小,但難以區(qū)分前景和相似特征噪聲;相反,若m設(shè)置過(guò)大,整體損失會(huì)變大,網(wǎng)絡(luò)收斂變得困難,但能夠較好地學(xué)習(xí)到錨點(diǎn)和正負(fù)樣本的關(guān)系,排除與前景類(lèi)似特征的噪聲點(diǎn)。為了驗(yàn)證本文所提出方法的魯棒性,本節(jié)對(duì)公式(9)中錨點(diǎn)與正負(fù)樣本距離間隔參數(shù)m進(jìn)行實(shí)驗(yàn)驗(yàn)證。如圖9所示,本文將分別設(shè)置為[0.001,0.1,0.2,0.3,0.4,0.5,0.6,0.7,1.0,2.0,5.0],橫坐標(biāo)經(jīng)過(guò)lgx處理,實(shí)驗(yàn)結(jié)果顯示精度維持在小范圍波動(dòng),本文所提出的方法對(duì)超參數(shù)m不敏感,具有較強(qiáng)的魯棒性。
圖9 距離間隔m消融實(shí)驗(yàn)Fig.9 Ablation study of distance margin hyper-parameterm
不同溫度因子T對(duì)性能影響。預(yù)測(cè)分類(lèi)頭蒸餾使用公式(12)進(jìn)行蒸餾。不同的溫度因子T決定了分類(lèi)分?jǐn)?shù)平滑程度。表5探究不同溫度因子下對(duì)整體蒸餾性能的影響。當(dāng)溫度因子等于2.0時(shí),達(dá)到最高的性能,但整體的蒸餾性能都保持在38%AP以上,證明本文所提出的蒸餾算法對(duì)該超參數(shù)的魯棒性。
表5 不同溫度因子T下的蒸餾結(jié)果Table 5 Distillation results under different temperature coefficientT 單位:%
本文提出了一種簡(jiǎn)單有效的蒸餾方式對(duì)SAR圖像艦船目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行輕量化處理。通過(guò)分析,SAR圖像艦船檢測(cè)蒸餾方法需要解決前背景失衡問(wèn)題以及前背景關(guān)系建模問(wèn)題。為了解決以上兩個(gè)問(wèn)題,提出了基于前背景解耦特征的拓?fù)渚嚯x蒸餾模塊(DeTD)對(duì)檢測(cè)骨干網(wǎng)絡(luò)進(jìn)行蒸餾。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法精度優(yōu)于其他常見(jiàn)蒸餾方法。由于DeTD模塊在算法實(shí)現(xiàn)上沒(méi)有網(wǎng)絡(luò)類(lèi)型的限制,本文將在未來(lái)對(duì)其進(jìn)行擴(kuò)展應(yīng)用到更多的檢測(cè)網(wǎng)絡(luò)。