李健偉,曲長(zhǎng)文,彭書(shū)娟,鄧 兵
(海軍航空大學(xué),山東煙臺(tái)264001)
合成孔徑雷達(dá)(synthetic aperture radar, SAR)是一種全天時(shí)全天候提供高分辨率圖像的主動(dòng)式傳感器,自面世以來(lái),在民用遙感、測(cè)繪和軍事偵察領(lǐng)域得到了廣泛的應(yīng)用。由于軍事應(yīng)用的需要,SAR圖像中艦船目標(biāo)檢測(cè)得到了大量研究[1-2]。艦船檢測(cè)可以分成3個(gè)步驟:預(yù)處理、候選區(qū)域提取和鑒別。恒虛警處理 (constant false-alarm rate,CFAR)是用于候選區(qū)域提取的常用的方法,可以對(duì)潛在的艦船區(qū)域進(jìn)行提取。它首先對(duì)雜波進(jìn)行統(tǒng)計(jì)建模,之后根據(jù)虛警率得到判定的門限值,將高于門限的像素點(diǎn)視為艦船像素,低于門限的視為背景。鑒別一般是采用人工設(shè)計(jì)的特征,訓(xùn)練分類器進(jìn)行二分類來(lái)實(shí)現(xiàn)。可以用于鑒別的特征除了簡(jiǎn)單的長(zhǎng)度、寬度、長(zhǎng)寬比和散射點(diǎn)位置等特征外,從計(jì)算機(jī)視覺(jué)領(lǐng)域引進(jìn)而來(lái)的特征也是常用的方法,且具有更強(qiáng)的魯棒性。例如,2004年Viola和Jones開(kāi)創(chuàng)性地提出的人臉檢測(cè)器[3],被廣泛地用于各種應(yīng)用場(chǎng)景。該檢測(cè)器包括3個(gè)步驟:積分圖像特征、AdaBoost分類器和級(jí)聯(lián)結(jié)構(gòu),這3個(gè)步驟使其檢測(cè)速度和準(zhǔn)確率能夠達(dá)到很高。自此之后,針對(duì)該方法的改進(jìn)層出不窮,主要側(cè)重要兩方面,即設(shè)計(jì)更好的特征和設(shè)計(jì)更好的分類器。在特征方面,涌現(xiàn)出了方向梯度直方圖(histograms of oriented gradient,HOG)、加速版的具有魯棒性的特征(speeded up robust features,SURF)、局部二值模式(local binary patterns,LBPs)等新特征[4]。在分類器設(shè)計(jì)方面,提出了Boosting,支持向量機(jī)(support vector machines,SVM)及其改進(jìn)版本[5-6]。這兩種思路在過(guò)去幾十年促使著這個(gè)領(lǐng)域繼續(xù)前進(jìn)。但是,自從2012年深度學(xué)習(xí)技術(shù)的興起[7],基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)主宰了這個(gè)領(lǐng)域。因此,也非常有必要將基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)應(yīng)用到SAR圖像艦船目標(biāo)檢測(cè)中。
2012年,AlexNet贏得了ImageNet大賽圖像分類的冠軍之后,神經(jīng)網(wǎng)絡(luò)迎來(lái)了它的另一次復(fù)興[7]。之后出現(xiàn)的ZF-Net、VGG-Net、GoogLeNet和ResNet等一次又一次地刷新著分類比賽的記錄[8],引領(lǐng)人工智能的新一次浪潮。與此同時(shí),Ross 和 Kaiming[9]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)應(yīng)用到目標(biāo)檢測(cè)任務(wù)。他們提出了一系列有效的目標(biāo)檢測(cè)算法,也刷新著目標(biāo)檢測(cè)競(jìng)賽的記錄,并在自動(dòng)駕駛、智能安防、偵察遙感等領(lǐng)域得到了快速的應(yīng)用。這些算法包括R-CNN、SPP-net、Fast R-CNN和Faster R-CNN[10-12]。尤其是Faster R-CNN在各個(gè)領(lǐng)域均取得了非常好的檢測(cè)效果。
本文建立了一個(gè)專門用于SAR圖像艦船目標(biāo)檢測(cè)的數(shù)據(jù)集(SAR ship detection dataset,SSDD),下載鏈接為https:∥pan.baidu.com/s/1dF6g3ZF。該數(shù)據(jù)集含有多種成像條件下的艦船SAR圖像,可以作為該領(lǐng)域研究人員用于評(píng)估其算法的一個(gè)基礎(chǔ)。在這個(gè)數(shù)據(jù)集的基礎(chǔ)上,提出了一些方法來(lái)提升檢測(cè)的準(zhǔn)確率和速度,包括特征聚合、遷移學(xué)習(xí)和損失函數(shù)設(shè)計(jì)等,最后通過(guò)一系列對(duì)比實(shí)驗(yàn)驗(yàn)證了所提方法的在檢測(cè)準(zhǔn)確性和效率的優(yōu)越性。
Ross 首次將CNN用于目標(biāo)檢測(cè)領(lǐng)域提出了R-CNN[9],該方法在目標(biāo)檢測(cè)領(lǐng)域取得了非常好的效果,證明了深度學(xué)習(xí)用于目標(biāo)檢測(cè)的有效性,如圖1(a)所示(圖中Selective search是提取候選區(qū)域的一種方法)。該方法有兩個(gè)步驟:產(chǎn)生與類別無(wú)關(guān)的候選框和訓(xùn)練分類器對(duì)候選框進(jìn)行分類。每幅圖像大概會(huì)產(chǎn)生2 000個(gè)候選框,每個(gè)候選框都需輸入CNN進(jìn)行特征提取,導(dǎo)致后續(xù)計(jì)算復(fù)雜。為了解決這個(gè)問(wèn)題,SPP-net[10]和 Fast R-CNN[11]先后被提出,如圖1(b)所示。這兩種方法只將整幅圖像輸入CNN一次來(lái)提取特征,然后將候選區(qū)域映射到最后的特征圖上,而不需對(duì)每個(gè)候選窗口都進(jìn)行CNN處理,極大地減小了處理時(shí)間。Fast R-CNN是在SPP-net基礎(chǔ)上的改進(jìn),用一個(gè)空間金字塔池化(spatial pyramid pooling, SPP)層來(lái)將不同尺寸的候選窗口變成固定長(zhǎng)度的特征,用于訓(xùn)練后面的分類器,這使其可以進(jìn)行端到端的訓(xùn)練(CNN模型在ImageNet進(jìn)行了預(yù)訓(xùn)練)。Fast R-CNN另一大亮點(diǎn)是將分類和回歸任務(wù)放在一個(gè)損失函數(shù)里進(jìn)行聯(lián)合優(yōu)化,達(dá)到了非常好的效果。但是,候選區(qū)域提取模塊仍然是獨(dú)立于CNN的,這是對(duì)算法進(jìn)一步提升的最大的瓶頸。
為進(jìn)一步對(duì)檢測(cè)器進(jìn)行加速,文獻(xiàn)[12]提出了Faster R-CNN,如圖1(c)所示。它包括兩個(gè)模塊,第一個(gè)是全卷積網(wǎng)絡(luò)產(chǎn)生候選窗口,稱為區(qū)域候選網(wǎng)絡(luò)(regional proposal network,RPN)。第二個(gè)是Fast R-CNN檢測(cè)器,它的任務(wù)是對(duì)RPN產(chǎn)生的候選窗口進(jìn)行分類和位置微調(diào),由于RPN和Fast R-CNN共享了卷積層,這大大減小了算法的計(jì)算量,可以達(dá)到實(shí)時(shí)檢測(cè)。R-CNN、Fast R-CNN和Faster R-CNN的算法原理以及處理效果如圖1所示。
圖1 R-CNN、Fast R-CNN和Faster R-CNN的算法原理以及處理效果Fig.1 Principle and result of R-CNN, Fast R-CNN and Faster R-CNN
Faster R-CNN得到了極大的關(guān)注,讓自動(dòng)駕駛、智能安防和遙感偵察等領(lǐng)域的研究人員看到了實(shí)時(shí)檢測(cè)目標(biāo)的可能性。Faster R-CNN在通用目標(biāo)檢測(cè)(例如光學(xué)圖像中的人、車、動(dòng)物等)領(lǐng)域取得了很好的效果,它的RPN模塊起到了主要的作用,如圖2所示。RPN在經(jīng)典CNN模型之后會(huì)有一個(gè)3×3的全卷積層。它利用不同尺度和長(zhǎng)寬比下的矩形框(本文稱為anchor)來(lái)實(shí)現(xiàn)不變性(旋轉(zhuǎn)不變和尺度不變)。anchor 是指在卷積特征圖上得到的不同尺寸的矩形框。文獻(xiàn)[12]在特征圖的每個(gè)位置會(huì)有9個(gè)anchors,即包括3種不同的尺度和長(zhǎng)寬比。假定卷積特征圖的尺寸是W×H,那么anchor的個(gè)數(shù)就為W×H×k個(gè)。由于RPN與Fast R-CNN共享卷積運(yùn)算,所以Faster R-CNN算法可以在0.2 s檢測(cè)完一幅圖像,圖2中,CNN結(jié)構(gòu)為VGG-16,RoI代表感興趣區(qū)域(region of interest,RoI)也就是候選窗口。
圖2 Faster R-CNN和RPNFig.2 Faster R-CNN and RPN
Faster R-CNN利用VGG-16模型,在通用目標(biāo)檢測(cè)數(shù)據(jù)集PASCAL VOC 2007 和 2012上分別具有73.2%和70.4%的平均準(zhǔn)確率,在TITAN X GPU上速度達(dá)到5 fps。Faster R-CNN的極大成功顯示了深度學(xué)習(xí)用于目標(biāo)檢測(cè)的巨大的潛力。
盡管Faster R-CNN在上述多類目標(biāo)數(shù)據(jù)集取得了很好的效果,但其在SAR圖像艦船檢測(cè)效果卻差強(qiáng)人意,筆者認(rèn)為主要有以下幾個(gè)原因。
(1)Faster R-CNN是在PASCAL VOC等數(shù)據(jù)集取得了非常好的效果,它可以檢測(cè)到人、車、動(dòng)物等目標(biāo)。這些物體通常會(huì)占據(jù)圖像的大部分空間,但是在SAR圖像艦船目標(biāo)檢測(cè)領(lǐng)域,船在圖像中包含的像元數(shù)目相對(duì)較少,而Faster R-CNN卻不擅長(zhǎng)檢測(cè)這樣的物體。本質(zhì)原因是RoI池化層僅僅從最后一個(gè)特征圖采樣得到特征,而CNN的特征圖越往后其特征越利于分類但空間信息損失嚴(yán)重,因此其難以預(yù)測(cè)小尺寸的物體類別及其邊框。
(2)由于成像原理的不同,SAR圖像與普通光學(xué)圖像差別較大。從ImageNet數(shù)據(jù)集(全是光學(xué)圖像)學(xué)習(xí)到的特征不一定適用于SAR圖像。因此,將ImageNet數(shù)據(jù)集預(yù)訓(xùn)練得到的特征遷移到本領(lǐng)域,不見(jiàn)得會(huì)適用,除非只遷移CNN前幾層低級(jí)的特征,大部分特征從SSDD數(shù)據(jù)集中去學(xué)習(xí),才會(huì)有較好的效果。
(3)由于兩類數(shù)據(jù)集的不同,Faster R-CNN很多細(xì)節(jié)需要做適應(yīng)性的改變才能適應(yīng)SAR艦船目標(biāo)檢測(cè)領(lǐng)域,例如anchor的個(gè)數(shù)等。
針對(duì)以上問(wèn)題,下文在第3節(jié)對(duì)Faster R-CNN進(jìn)行適應(yīng)性改進(jìn),使其能夠克服上述3個(gè)問(wèn)題。
深度學(xué)習(xí)目標(biāo)檢測(cè)最基本的要求是要用一個(gè)規(guī)模較大的數(shù)據(jù)集。因此,建立了SSDD,其可以用于訓(xùn)練深度學(xué)習(xí)模型,用于研究人員在這個(gè)統(tǒng)一的數(shù)據(jù)集去評(píng)價(jià)他們算法的性能,據(jù)筆者所知這是本領(lǐng)域第一個(gè)公開(kāi)的數(shù)據(jù)集。對(duì)于每條船,檢測(cè)算法會(huì)預(yù)測(cè)目標(biāo)的邊框以及是艦船目標(biāo)的可能性。筆者模仿PASCAL VOC[13]數(shù)據(jù)集構(gòu)造了SSDD,按照7∶2∶1的比例將數(shù)據(jù)及分成訓(xùn)練集、測(cè)試集和驗(yàn)證集,SSDD盡量包含了多種成像條件,例如不同分辨了、尺寸、海況和傳感器類型等。數(shù)據(jù)集樣本的多樣性使訓(xùn)練出來(lái)的檢測(cè)器具有更好的魯棒性。
圖3是SSDD中每幅圖像艦船個(gè)數(shù)的統(tǒng)計(jì)結(jié)果,NoS (number of ships)表示船的個(gè)數(shù),NoI(number of images)表示圖像個(gè)數(shù)。
圖3 SSDD中NoS 和 NoI相應(yīng)的關(guān)系Fig.3 Relationship between NoS and NoI in SSDD
在SSDD數(shù)據(jù)集中,一共有1 160幅圖像和2 456艘艦船,平均每幅圖像有2.12艘船。后續(xù)根據(jù)任務(wù)需要會(huì)增加樣本個(gè)數(shù),擴(kuò)充數(shù)據(jù)集。相比于有9 000多幅圖像、20類目標(biāo)的PASCAL VOC數(shù)據(jù)集,SSDD足夠大到可以對(duì)艦船這一類目標(biāo)進(jìn)行訓(xùn)練檢測(cè)器。圖4是SSDD中艦船的多樣性,從左到右,從上到下依次是1 m分辨率的靠近碼頭的船、開(kāi)闊海域的7艘船、靠近碼頭的艦船、 15 m分辨率的開(kāi)闊海域的八艘船、靠近岸邊的兩條船、1 m分辨率開(kāi)闊海域船。
圖4 SSDD的部分樣本Fig.4 Samples of SSDD
由于一些小船在低分辨率下只有極少量的像素個(gè)數(shù),有時(shí)很難通過(guò)人眼確定是不是船。因此,將像素個(gè)數(shù)大于3個(gè)的視作船的像素,并對(duì)其做標(biāo)注。標(biāo)注所用的是開(kāi)源軟件“l(fā)abelimg”,該軟件很容易就能對(duì)船做標(biāo)簽(x,y,h,w),其中,(x,y)是艦船所在矩形框左上角的坐標(biāo),h是矩形框的高度,w是矩形框的寬度。
相比于PASCAL VOC數(shù)據(jù)集,SAR圖像中艦船目標(biāo)的尺寸普遍較小,且尺度變化較大,標(biāo)準(zhǔn)的Faster R-CNN算法無(wú)法較好地適應(yīng)這些目標(biāo),尤其是容易漏掉小尺寸的目標(biāo)。這是由于后幾層的感受較大的原因,會(huì)忽略掉一些重要的特征導(dǎo)致漏檢小目標(biāo)的現(xiàn)象[14]。圖5為本文所提出的檢測(cè)方法的結(jié)構(gòu)圖:通過(guò)聚合不同層的特征,可以檢測(cè)到不同尺寸的目標(biāo),這里將第3個(gè)卷積層和第5個(gè)卷積層的特征進(jìn)行聚合。
在標(biāo)準(zhǔn)的Faster R-CNN中,5個(gè)卷積層后面會(huì)接修正線性單元(rectified linear unit, ReLU), 局部響應(yīng)歸一化 (local response normalization,LRN)和最大池化層。但是在我們的結(jié)構(gòu)中最后的卷積層后只有一個(gè)ReLU激活層,因?yàn)镽oI池化層具有了最大池化的功能。
圖5 特征聚合示意圖Fig.5 Feature concatenation
特征聚合包括標(biāo)準(zhǔn)化和1×1卷積,對(duì)每一個(gè)RoI池化之后的向量進(jìn)行標(biāo)準(zhǔn)化,可以減小不同層之間的尺度差異,防止大特征主宰了小特征,這個(gè)改變使系統(tǒng)更加穩(wěn)定,進(jìn)一步增加準(zhǔn)確率。L2標(biāo)準(zhǔn)化是針對(duì)池化之后的特征圖的每個(gè)像素進(jìn)行的,標(biāo)準(zhǔn)化之后對(duì)每個(gè)特征向量進(jìn)行尺度變換:
(1)
(2)
(3)
在訓(xùn)練過(guò)程中,尺度因子γ的更新和輸入x通過(guò)后向傳播和鏈?zhǔn)椒▌t計(jì)算,即
·γ
(4)
(5)
(6)
式中,y=[y1,y2,…,yd]T。
自然圖像訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)都有一個(gè)現(xiàn)象:前幾層學(xué)習(xí)得到的底層特征類似于Gabor濾波器,這些特征不是某個(gè)數(shù)據(jù)集或者任務(wù)獨(dú)有的,而后幾層學(xué)習(xí)到的高層特征會(huì)根據(jù)數(shù)據(jù)集或者任務(wù)的不同而不同[15]。實(shí)際上,大部分研究人員都不會(huì)從頭訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),他們?cè)贗mageNet預(yù)訓(xùn)練之后的模型進(jìn)行微調(diào),將預(yù)訓(xùn)練之后的模型視為初始化或者特征提取器。
ZF-Net[16]是Krizhevsky的AlexNet變體,它將第一個(gè)濾波器的尺寸從11×11 減到 7×7,將stride減到2,ZF-Net有5個(gè)卷積層和3個(gè)全連接層,基于以上分析,固定前3層,在SSDD數(shù)據(jù)集上精調(diào)后2層。利用的ZF-Net的結(jié)構(gòu)如圖6所示。
圖6 基于ZF-Net的遷移學(xué)習(xí)Fig.6 Transfer learning based on ZF-Net
為了訓(xùn)練這個(gè)網(wǎng)絡(luò),把以下兩種RoI看做兩種正樣本:第一種是與目標(biāo)真實(shí)邊框(也稱為ground-truth)有最高的交并比 (intersection over-union,IoU);第二種是與ground-truth的重疊高于0.7。把IoU低于0.3的視為負(fù)樣本,其他的RoI不參與訓(xùn)練?;谝陨戏治?優(yōu)化多任務(wù)損失函數(shù)[12]如下:
L({pi},{ti})=
(7)
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=lg(w/wa),th=lg(h/ha)
式中,x,y,w,h分別代表邊框中心的坐標(biāo)、寬度、高度。
采用非極大值抑制(non-maximum supression,NMS)來(lái)抑制那些冗余的框, 抑制的過(guò)程是一個(gè)迭代-遍歷-消除的過(guò)程。首先,將所有框的得分降序排列,選中最高分及其對(duì)應(yīng)的框;其次,遍歷其余的框,如果和當(dāng)前最高分框的重疊面積(intersection of union,IOU)大于一定閾值,就將框刪除;最后,從未處理的框中繼續(xù)選一個(gè)得分最高的,重復(fù)上述過(guò)程。
為了防止過(guò)擬合,將dropout比率從0.5改到0.6。dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄,dropout是CNN中防止過(guò)擬合的較好的方法[17]。對(duì)于anchor,利用面積為1282和 2562像素2種尺度,2種長(zhǎng)寬比, 1∶2和2∶1(由于艦船目標(biāo)沒(méi)有正方形,所以去掉了1∶1的anchor)。由于SAR圖像中的船是稀疏的,因此將每個(gè)特征點(diǎn)產(chǎn)生的anchor個(gè)數(shù)從9減到4個(gè),這會(huì)加速本文算法而不會(huì)降低準(zhǔn)確率;其他RPN超參數(shù)如文獻(xiàn)[12]所示。利用精調(diào)之后的RPN,采用門限為0.7的NMS對(duì)候選區(qū)域進(jìn)行濾除,去掉得分小于最大的那些。
難樣本挖掘是指從RoI中選擇容易檢測(cè)錯(cuò)的樣本,而不是簡(jiǎn)單的采樣。在進(jìn)行前向傳播時(shí),全部的RoI通過(guò)網(wǎng)絡(luò),根據(jù)損失值排序,后向傳播時(shí)根據(jù)排序,選擇前幾個(gè)損失值最大的樣本(容易出錯(cuò)的難例樣本)來(lái)后向傳播更新模型的權(quán)重[18]。難樣本挖掘是提升檢測(cè)器性能的有效的方法,需要做到就是收集那些難樣本,將它們?cè)僖淮嗡腿刖W(wǎng)絡(luò)訓(xùn)練。在訓(xùn)練過(guò)程中,將難樣本的RoI進(jìn)一步精調(diào)模型,提升結(jié)果會(huì)在下一部分進(jìn)一步說(shuō)明。
圖7為幾個(gè)典型的難樣本,圖7(a)是SSDD中第757個(gè)樣本,高分辨率大尺寸,圖7(b)是SSDD中第59個(gè)樣本,低分辨率小尺寸。
圖7 典型難樣本Fig.7 Typical hard negative examples
利用Caffe[19]框架在SSDD上去訓(xùn)練檢測(cè)器,ZF-Net是基本架構(gòu),已在ImageNet進(jìn)行了預(yù)訓(xùn)練,計(jì)算環(huán)境是64位Ubuntu 14.04操作系統(tǒng),計(jì)算機(jī)CPU Intel(R) Core(TM) i7-6770K @ 4.00GHz×8 and NVIDIA GTX1080 GPU(8G 內(nèi)存),用CUDA8.0和cuDNN5.0加速。
算法的衡量指標(biāo)是平均準(zhǔn)確率(average precision, AP)和平均處理時(shí)間。從表1可以看到,標(biāo)準(zhǔn)的Faster R-CNN在AP和平均處理時(shí)間上都有很大的優(yōu)勢(shì)。文中所提的方法將AP從70.1% 提高到了 78.8%,同時(shí)具有更少的時(shí)間開(kāi)銷。AP提高了是因?yàn)閷?duì)特征的利用更加充分而了,處理速度更快了,是因?yàn)榻档土薬nchor的個(gè)數(shù)。
表1 算法對(duì)比分析
隨機(jī)選擇一些不同情況下的檢測(cè)結(jié)果進(jìn)行分析,如圖8所示。從圖8中可以看出,本文方法不僅能對(duì)大片海域的艦船目標(biāo)檢測(cè),同時(shí)也能夠適應(yīng)港口和近岸區(qū)域的艦船目標(biāo)。且不需要傳統(tǒng)方法的海陸分割、預(yù)處理、雜波建模和參數(shù)估計(jì)等過(guò)程,是完全端到端的,即輸入圖像直接通過(guò)模型輸出檢測(cè)結(jié)果。
圖8 數(shù)據(jù)集SSDD部分樣本檢測(cè)結(jié)果Fig.8 Result of some samples in SSDD
為了進(jìn)一步評(píng)估所提方法的性能,繼續(xù)進(jìn)行了一些實(shí)驗(yàn),目的是驗(yàn)證第3節(jié)中不同策略的有效性。
表2中第4行顯示了特征聚合對(duì)性能提升的效果,通過(guò)第3.1節(jié)中的特征聚合,本模型可以檢測(cè)到不同尺寸的艦船,平均準(zhǔn)確率從70.1% 提升到了76.4%,同時(shí)檢測(cè)時(shí)間增加的非常小(15 ms)。表2中第5行進(jìn)一步評(píng)估了遷移學(xué)習(xí)策略的性能,由于SSDD是一個(gè)關(guān)于艦船SAR圖像的較小的數(shù)據(jù)集,它與通用目標(biāo)數(shù)據(jù)集有較大的差別。如果將整個(gè)卷積層遷移過(guò)來(lái),平均準(zhǔn)確率為70.1%,如果將前3層卷積遷移過(guò)來(lái),在SSDD數(shù)據(jù)集上微調(diào)后幾層,平均準(zhǔn)確率增加到74.3%,而檢測(cè)時(shí)間幾乎不變。難樣本挖掘同樣也使檢測(cè)性能得到了提升,平均準(zhǔn)確率從70.1%增加到了75.6%,同時(shí),由于沒(méi)有對(duì)模型進(jìn)行改變,只改變了訓(xùn)練樣本分別,所以只增加了訓(xùn)練時(shí)間,而檢測(cè)時(shí)間未增加。對(duì)anchor和候選窗口個(gè)數(shù)的影響進(jìn)一步做了實(shí)驗(yàn),標(biāo)準(zhǔn)Faster R-CNN用的是9個(gè)anchors,我們?nèi)サ?12×512尺寸和1∶1長(zhǎng)寬比的anchor,實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),這降低了檢測(cè)時(shí)間,但是平均準(zhǔn)確率下降的很小。NMS稍微增加了平均檢測(cè)準(zhǔn)確率,測(cè)試時(shí)間沒(méi)變。將dropout比率從0.5變到0.6,平均準(zhǔn)確率增加了1.5%,但是如果增加到0.7性能會(huì)下降,這意味著所選的比率能有效地避免過(guò)擬合。最后結(jié)合上述所有的策略,本文所提的方法將檢測(cè)準(zhǔn)確率提升到了78.8%,如表2中第3行所示。
表2 進(jìn)一步實(shí)驗(yàn)的結(jié)果
本文建立了用于艦船檢測(cè)的SAR圖像數(shù)據(jù)集SSDD,SSDD是目前為止我們所知的SAR艦船檢測(cè)領(lǐng)域第一個(gè)公開(kāi)的數(shù)據(jù)集,可以使研究人員在一個(gè)統(tǒng)一的條件下對(duì)比各自算法的性能,更具有可比性。在此數(shù)據(jù)集上,提出了檢測(cè)SAR圖像中艦船目標(biāo)的方法,該方法以標(biāo)準(zhǔn)的Faster R-CNN作為基本結(jié)構(gòu),并在特征聚合、模型遷移、損失函數(shù)以及其他應(yīng)用細(xì)節(jié)上進(jìn)行了創(chuàng)新,在SSDD上的實(shí)驗(yàn)證明了所提算法具有更高的檢測(cè)準(zhǔn)確率和更少的耗時(shí),檢測(cè)準(zhǔn)確率從標(biāo)準(zhǔn)Faster R-CNN的70.1%提升到78.8%,每幅圖像處理時(shí)間從198 ms降低到183 ms。
本文方法使用的前提條件是需要收集大量的SAR圖像艦船目標(biāo)訓(xùn)練樣本,且制作相應(yīng)的標(biāo)簽用于模型訓(xùn)練,需要消耗較大的人力和物力。同時(shí),本文所采用的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法具有適應(yīng)性和擴(kuò)展性強(qiáng)的特點(diǎn)。適應(yīng)性強(qiáng)是指不需像傳統(tǒng)檢測(cè)方法那樣進(jìn)行海陸分割、預(yù)處理等多個(gè)步驟,而是進(jìn)行完全端到端的進(jìn)行訓(xùn)練;擴(kuò)展性強(qiáng)是指,通過(guò)收集新的樣本可以完成對(duì)新樣本的檢測(cè),不需要專門設(shè)計(jì)檢測(cè)算法。筆者相信基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法會(huì)成為SAR圖像艦船目標(biāo)檢測(cè)的主流方法。