曲海成,申磊
(遼寧工程技術(shù)大學(xué)軟件學(xué)院,遼寧葫蘆島 125105)
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)是一種主動(dòng)式微波傳感器,可在能見(jiàn)度極差的環(huán)境下獲取高分辨率的遙感圖像,廣泛應(yīng)用在漁船監(jiān)測(cè)和軍事偵察中[1]。合成孔徑雷達(dá)的獨(dú)特成像原理導(dǎo)致海洋雜波散射形成相干斑噪聲[2],使得艦船邊緣在SAR 圖像中更加模糊。SAR 圖像中的目標(biāo)由大量亮點(diǎn)組成,島礁、碼頭等形似艦船的物體使得SAR 圖像背景更加復(fù)雜,艦船目標(biāo)容易淹沒(méi)在復(fù)雜背景中。
傳統(tǒng)SAR 圖像檢測(cè)算法多為恒虛警率算法(Constant False-Alarm Rate,CFAR)及其衍生算法[3]。為了解決泄露在局部窗口中的異質(zhì)點(diǎn)影響雜波篩選的問(wèn)題,AI J 等提出自適應(yīng)截?cái)嚯s波統(tǒng)計(jì)的雙參數(shù)恒虛警率算法(Truncated Statistics Log Normal Constant False-Alarm Rate,TS-LNCFAR)[4],通過(guò)自適應(yīng)閾值去除局部滑動(dòng)窗口中的高強(qiáng)度異質(zhì)點(diǎn),保留更加真實(shí)的海洋雜波。為了解決多目標(biāo)場(chǎng)景下算法性能較低的問(wèn)題,LI T 等提出超像素級(jí)恒虛警檢測(cè)算法(SuperPixel-Level Constant False-Alarm Rate,SuperPixel-Level CFAR)[5]。以像素點(diǎn)為基本單元,對(duì)每一個(gè)超像素估計(jì)背景雜波分布的參數(shù),并計(jì)算每一個(gè)像素點(diǎn)的檢測(cè)統(tǒng)計(jì)量,大于閾值的定義為目標(biāo)像素點(diǎn),小于閾值的定義為海洋雜波像素點(diǎn),從而更好地區(qū)分目標(biāo)和海洋雜波,提高多目標(biāo)場(chǎng)景檢測(cè)效果。
深度學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用推動(dòng)了SAR 圖像目標(biāo)檢測(cè)的發(fā)展,LI J 等首次將Faster R-CNN 應(yīng)用于SAR 圖像[6],利用特征融合和遷移學(xué)習(xí)[7]對(duì)檢測(cè)模型進(jìn)行優(yōu)化。T Y 等提出單階段檢測(cè)模型Retinanet[8],通過(guò)精簡(jiǎn)模型在損失一定精度的情況下提升了檢測(cè)速度。近年來(lái),CornerNet[9]、CenterNet[10]等基于無(wú)錨框檢測(cè)模型減少了模型超參數(shù),降低對(duì)硬件的要求。LANHAM M 等提出Transformer[11],在自然語(yǔ)言處理領(lǐng)域利用多頭注意力機(jī)制達(dá)到了更好的效果。隨后Transformer 應(yīng)用于目標(biāo)檢測(cè),達(dá)到了比Faster R-CNN 更好的檢測(cè)效果。
傳統(tǒng)SAR 圖像檢測(cè)算法只能針對(duì)特定的數(shù)據(jù),算法泛化能力較差。同時(shí)傳統(tǒng)SAR 圖像需要人工提取特征,過(guò)程復(fù)雜且較難提取到充分的特征?;谏疃葘W(xué)習(xí)的檢測(cè)模型分為基于錨框的檢測(cè)模型和無(wú)錨框檢測(cè)模型?;阱^框的檢測(cè)模型需要引入錨框數(shù)量、錨框比例等超參數(shù),消耗大量的計(jì)算資源。在艦船尺度多樣的SAR 圖像中,人工設(shè)計(jì)的錨框不能完美適合各種尺度的艦船目標(biāo),導(dǎo)致模型檢測(cè)效果較差。無(wú)錨框的檢測(cè)模型主要針對(duì)光學(xué)圖像,SAR 圖像中背景復(fù)雜且存在相干斑噪聲,容易淹沒(méi)艦船位置信息,降低模型檢測(cè)精度。
為了解決上述問(wèn)題,本文提出了像素級(jí)消噪和語(yǔ)義增強(qiáng)的檢測(cè)模型。提出利用預(yù)測(cè)的真值掩碼特征獲得[0,1]的注意力圖,然后利用掩碼注意力圖逐像素指導(dǎo)特征圖,抑制復(fù)雜背景中的物體和相干斑噪聲,最后采用交叉熵?fù)p失優(yōu)化預(yù)測(cè)的真值掩碼特征。提出語(yǔ)義增強(qiáng)模塊,利用非對(duì)稱卷積層提取不同維度特征,同時(shí)將低層特征重新融合[12]到下層網(wǎng)絡(luò),避免卷積操作導(dǎo)致信息丟失。語(yǔ)義增強(qiáng)模塊能解決高Intersection Over Union(IOU)分?jǐn)?shù)低分類置信度的候選框被抑制的問(wèn)題。在語(yǔ)義增強(qiáng)模塊里使用Transformer Encoder 模塊,用于提取特征圖中的上下文信息[13],保證特征圖始終保持全局感受野。
SAR 圖像與光學(xué)圖像不同,SAR 圖像中的目標(biāo)容易受復(fù)雜背景信息和噪聲抑制,導(dǎo)致檢測(cè)模型忽略目標(biāo)信息,誤將背景信息中的物體識(shí)別為艦船。為了消除背景信息和相干斑噪聲的影響,提出像素級(jí)去噪和語(yǔ)義增強(qiáng)的檢測(cè)模型。如圖1 所示,模型可以分為四部分:特征提取模塊、特征金字塔模塊、像素級(jí)去噪模塊和檢測(cè)模塊。1)特征提取模塊:一般來(lái)說(shuō),較深的主干網(wǎng)絡(luò)提取的特征圖具有更豐富的語(yǔ)義信息,然而,簡(jiǎn)單的增加網(wǎng)絡(luò)深度很容易導(dǎo)致小目標(biāo)位置丟失。Resnet50 網(wǎng)絡(luò)層數(shù)較淺,提取的特征圖缺少語(yǔ)義信息,高質(zhì)量的候選框因?yàn)檩^低的分類置信度被抑制,導(dǎo)致模型檢測(cè)效果較差。因此選擇Resnet101 作為主干網(wǎng)絡(luò)。2)特征金字塔模塊:首先將主干網(wǎng)絡(luò)提取的特征圖輸入Transformer Encoder 模塊獲得具有全局感受野和上下文信息的特征圖。然后,在自上而下融合過(guò)程中,將對(duì)應(yīng)的底層特征圖重構(gòu)到子網(wǎng)絡(luò),有助于解決梯度消失問(wèn)題,最終獲得{P3,P4,P5,P6,P7}層特征圖。3)像素級(jí)去噪模塊:去噪模塊生成與特征圖對(duì)應(yīng)的注意力圖,然后將特征圖與注意力圖逐像素點(diǎn)相乘,增加目標(biāo)區(qū)域像素的權(quán)重,降低非目標(biāo)區(qū)域像素點(diǎn)的權(quán)重,使得目標(biāo)區(qū)域和非目標(biāo)區(qū)域具有更好的對(duì)比度。4)檢測(cè)模塊:檢測(cè)模塊用同一個(gè)檢測(cè)頭檢測(cè)不同尺度的特征圖。為了解決不同尺度特征圖的回歸框差異性,該模塊引入可訓(xùn)練的尺度參數(shù)自動(dòng)調(diào)整回歸框。在訓(xùn)練過(guò)程中,檢測(cè)模型總會(huì)出現(xiàn)距離中心點(diǎn)較遠(yuǎn)的低質(zhì)量候選框。Center-ness 表示該位置到中心點(diǎn)的距離,并采用交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化,獲得高質(zhì)量的候選框。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure diagram
首先,利用Resnet101 主干網(wǎng)絡(luò)提取特征,Resnet101 中conv2、conv3、conv4、conv5 包含3、4、23、3 個(gè)殘差塊,與conv1 中的7×7 卷積層和3×3 池化層,共有110 個(gè)卷積層。每一層的最后一個(gè)殘差塊將特征圖縮減為原來(lái)的1/2,通道數(shù)變?yōu)樵瓉?lái)的2 倍,最終獲得{C2,C3,C4,C5}尺度的特征圖,為了保證模型的訓(xùn)練速度和顯存的消耗,C2特征圖沒(méi)有輸入檢測(cè)頭階段。然后,在兩層特征圖之間采用對(duì)稱卷積和非對(duì)稱卷積提取不同維度特征,并對(duì)提取的特征做基于Transformer 的編碼[14]處理,在增強(qiáng)語(yǔ)義信息的同時(shí)引入上下文信息。采用自上而下融合特征圖,使得底層高分辨特征圖包含豐富的語(yǔ)義信息。最后預(yù)測(cè)掩碼特征圖并采用Softmax 函數(shù)構(gòu)建注意力圖,對(duì)每一層特征逐像素相乘,激活艦船目標(biāo)信息,抑制背景信息。
算法總體流程為:
1)初始化主干網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù),將SAR 圖像輸入Resnet101 提取特征,獲得{C2,C3,C4,C5}特征圖。
2)采用金字塔思想,將主干網(wǎng)絡(luò)提取的特征圖輸入語(yǔ)義增強(qiáng)模塊,利用Transformer Encoder 獲得全局感受野和上下文信息,最終獲得{P3,P4,P5,P6,P7}特征圖。
3)去噪模塊生成對(duì)應(yīng)特征圖的注意力圖,逐像素更新特征圖中像素點(diǎn)的權(quán)重,增強(qiáng)復(fù)雜背景下目標(biāo)區(qū)的位置信息。同時(shí),利用掩碼損失函數(shù)優(yōu)化注意力圖。
4)檢測(cè)頭網(wǎng)絡(luò)對(duì)輸入的多尺度特征圖進(jìn)行目標(biāo)分類和候選框回歸。
5)利用中心度損失函數(shù)訓(xùn)練網(wǎng)絡(luò)以獲取更優(yōu)的模型參數(shù)。中心度分?jǐn)?shù)和分類置信度的乘積作為候選框分?jǐn)?shù),然后執(zhí)行非極大值抑制算法篩選候選框,獲得最終的檢測(cè)結(jié)果。
SAR 圖像中艦船目標(biāo)稀疏,同時(shí)在不同分辨率下散射出的目標(biāo)尺度不同,人工無(wú)法設(shè)計(jì)能適配所有尺度目標(biāo)的錨框。為了提高對(duì)不同尺度目標(biāo)的適配度設(shè)計(jì)大量錨框,需要消耗大量的計(jì)算資源。本文利用無(wú)錨框的檢測(cè)模型,以中心點(diǎn)到每個(gè)邊框的偏移量[15]確定候選框的大小,去除了錨框數(shù)量、錨框比等冗余參數(shù)。中心點(diǎn)(x,y)到左邊框、右邊框、上邊框、下邊框的偏移量l、r、t、b表達(dá)式為
式中,(xmin,ymin)為真值框的左上角坐標(biāo),(xmax,ymax)為真值框的右下角坐標(biāo)。
特征圖中(x,y)映射到原始圖像中的感受區(qū)域。所有映射到真值框中的像素點(diǎn)均作為模型正樣本,在訓(xùn)練過(guò)程中通過(guò)對(duì)偏移量回歸實(shí)現(xiàn)對(duì)候選框的調(diào)整,感受區(qū)域映射如圖2 所示。
圖2 感受區(qū)域映射Fig.2 Receptive area mapping
SAR 圖像中大部分背景都包含相干斑噪聲,以注意力機(jī)制為主的去噪方法通過(guò)聚焦目標(biāo)實(shí)現(xiàn)去噪。但是注意力機(jī)制在復(fù)雜背景中強(qiáng)化目標(biāo)感知區(qū)域,并沒(méi)有真正實(shí)現(xiàn)對(duì)噪聲的抑制。因此提出像素級(jí)去噪模塊,通過(guò)激活目標(biāo)區(qū)域的位置信息活躍度,抑制非目標(biāo)區(qū)域的噪聲信息實(shí)現(xiàn)去噪。首先,特征圖經(jīng)過(guò)多個(gè)卷積層獲得fmask∈?H×W×2的掩碼圖;其次,經(jīng)過(guò)Softmax 函數(shù)將掩碼圖轉(zhuǎn)化為[0,1]的注意力圖;最后,對(duì)特征圖的每一層做逐像素點(diǎn)乘,生成最終的特征圖。針對(duì)預(yù)測(cè)掩碼特征圖,利用真值掩碼做損失來(lái)優(yōu)化注意力圖,損失函數(shù)表達(dá)式為
由圖3 可見(jiàn),注意力圖中艦船目標(biāo)區(qū)域權(quán)重較大,非目標(biāo)區(qū)域權(quán)重較小,經(jīng)過(guò)逐像素點(diǎn)相乘之后特征圖中目標(biāo)區(qū)域和非目標(biāo)區(qū)域區(qū)分度更加明顯。經(jīng)過(guò)像素級(jí)消噪的特征圖具有更廣的目標(biāo)感受區(qū)域,復(fù)雜背景中的艦船目標(biāo)位置信息更加突出,形似艦船目標(biāo)的物體也得到有效抑制。圖4 為經(jīng)過(guò)Tensorboard 的可視化特征圖,圖4(a)為未消噪的特征圖,圖4(b)為經(jīng)過(guò)像素級(jí)消噪處理后的特征圖。可以看出艦船目標(biāo)在相干斑噪聲和復(fù)雜背景下的特征圖都達(dá)到了理想的去噪效果。
圖3 像素級(jí)消噪示意圖Fig.3 Pixel-level denoising diagram
圖4 像素級(jí)消噪效果Fig.4 Pixel-level denoising effect
語(yǔ)義信息對(duì)判別是否為艦船具有重要指導(dǎo)意義,豐富的語(yǔ)義信息能提高目標(biāo)的分類置信度,防止高IOU 分?jǐn)?shù)低分類置信度的候選框被抑制。能夠有效解決待檢測(cè)目標(biāo)漏檢問(wèn)題,同時(shí)防止形似艦船目標(biāo)的物體被誤檢為目標(biāo)。因此提出語(yǔ)義增強(qiáng)模塊,首先,輸入的特征圖經(jīng)過(guò)非對(duì)稱卷積層,以不同維度提取多種特征;其次,利用Transformer Encoder 增強(qiáng)艦船和特征圖之間的上下文信息,提高模型對(duì)艦船目標(biāo)的感知能力;最后,自上而下將語(yǔ)義信息融合到底層特征圖,使得底層高分辨率特征圖包含高層特征的語(yǔ)義信息。語(yǔ)義增強(qiáng)結(jié)構(gòu)如圖5 所示。特征圖經(jīng)過(guò)多層卷積容易出現(xiàn)信息丟失的問(wèn)題,在該模塊中采用跳躍連接,將低層特征和主干網(wǎng)絡(luò)提取的{C3,C4,C5}層特征圖分別構(gòu)造到對(duì)應(yīng)子網(wǎng)絡(luò)。
圖5 語(yǔ)義增強(qiáng)結(jié)構(gòu)Fig.5 Semantic enhanced structure
1.3.1 非對(duì)稱卷積層
非對(duì)稱卷積層由conv(1×3)、conv(3×1)、conv(3×3)、conv(1×1)四個(gè)卷積組成,利用非對(duì)稱卷積層增強(qiáng)網(wǎng)絡(luò)的特征提取能力,1×1 卷積實(shí)現(xiàn)在通道維度進(jìn)行線性信息整合。同時(shí),非對(duì)稱卷積的引入降低了運(yùn)算量,表現(xiàn)為將N×N的標(biāo)準(zhǔn)卷積核分為1×N和N×1 的兩層卷積,這樣運(yùn)算量由原來(lái)N2減小到2N,保證加深網(wǎng)絡(luò)深度和模型檢測(cè)精度。如圖6 所示,經(jīng)過(guò)不同卷積核生成的特征圖以通道維度連接,之后經(jīng)過(guò)1×1卷積調(diào)整通道數(shù),作為下一階段的輸入。
圖6 非對(duì)稱卷積層結(jié)構(gòu)Fig.6 Asymmetric convolutional layer structure
1.3.2 Transformer Encoder
上下文信息就像人類的感知,其作用是捕捉目標(biāo)和特征圖之間的相互信息,獲得目標(biāo)與鄰域的差別,從而獲得理想的檢測(cè)效果。因此引入Transformer Encoder 模塊,將fmask∈?H×W×C的特征圖拉伸為帶有位置編碼的HW×C大小的一維序列。以圖片序列作為輸入,經(jīng)過(guò)多頭注意力機(jī)制、正則化模塊和前向傳播模塊,生成和艦船目標(biāo)高度依賴的特征圖。從圖7 可見(jiàn),編碼模塊分為三步,首先,利用多頭注意力機(jī)制捕獲同一個(gè)圖片序列中目標(biāo)之間的語(yǔ)義特征,強(qiáng)化艦船目標(biāo)的位置信息;其次,采用跳躍連接實(shí)現(xiàn)重用淺層特征來(lái)約束深層網(wǎng)絡(luò),利用正則化模塊防止模型過(guò)擬合;最后,針對(duì)上層輸入做前向傳播,輸出的特征圖重新構(gòu)造為原來(lái)尺度。
圖7 Transformer Encoder 結(jié)構(gòu)Fig.7 Structure of Transformer Encoder
該模塊的位置編碼通過(guò)三角線性變換獲得,位置編碼的表達(dá)式為
式中,PPositionalEncoding為位置編碼矩陣,i為特征圖序列位置,dmodel為特征序列長(zhǎng)度,psequence為特征序列位置。多頭注意力在獲得每個(gè)目標(biāo)之間相關(guān)性的同時(shí),也使每個(gè)目標(biāo)包含其它目標(biāo)的向量信息,在網(wǎng)絡(luò)每一次迭代過(guò)程中不斷學(xué)習(xí)艦船目標(biāo)之間的位置信息,獲得目標(biāo)位置信息更加精準(zhǔn)。多頭注意力表達(dá)式為
式中,Mattention為注意力圖,dk為調(diào)節(jié)因子,WQ、WW、WV為權(quán)重參數(shù),在模型迭代訓(xùn)練中不斷學(xué)習(xí)。
SAR 圖像中艦船目標(biāo)稀疏,在特征圖中占比較小,目標(biāo)區(qū)域和背景區(qū)域數(shù)量差別較大。一張?zhí)卣鲌D中大部分候選區(qū)域?yàn)楸尘?,容易出現(xiàn)正樣本和負(fù)樣本分配不均衡的問(wèn)題。為了解決這個(gè)問(wèn)題,采用focal loss[16]優(yōu)化分類損失,定義為
式中,Lcls為分類損失,p(i,j)是在i,j處預(yù)測(cè)的類別,γ為減少易分類樣本的調(diào)節(jié)系數(shù),α為平衡正樣本和負(fù)樣本的平衡因子。根據(jù)Faster R-CNN,設(shè)置γ=2,α=2.5。預(yù)測(cè)生成的候選框與真值框的殘差越大,模型檢測(cè)效果越差。為了獲得更加理想的候選框,選擇IOU_Loss 調(diào)整候選框,定義為
式中,Lreg為回歸損失,bi,j為預(yù)測(cè)候選框?yàn)檎嬷悼?,Inter()為交集運(yùn)算,Union()為并集運(yùn)算。因此,總損失為
實(shí)驗(yàn)在Ubuntu 16.04 操作系統(tǒng)下,基于深度學(xué)習(xí)框架Tensorflow 進(jìn)行,并通過(guò)CUDA8.0 和cuDNN5.0加速模型訓(xùn)練速度。 計(jì)算機(jī)的CPU 為lntel(R)Core(TM)i7-7700@3.6GHz×8,GPU 為NVIDIA GTX1080Ti 顯存為11G。
將國(guó)內(nèi)首個(gè)公開(kāi)的數(shù)據(jù)集SSDD 作為實(shí)驗(yàn)的訓(xùn)練集和驗(yàn)證集。SSDD 數(shù)據(jù)集的數(shù)據(jù)主要由RadarSat-2、TerraSAR-X 和Sentinel-1 傳感器獲取,共有1 160 張圖片,包含2 456 艘艦船,平均每張圖片2.12 個(gè)艦船目標(biāo)。傳感器分辨率為1~15 m,艦船尺度多樣,包含近海岸、遠(yuǎn)海和相干斑噪聲多個(gè)場(chǎng)景。為了驗(yàn)證模型的泛化能力,利用SAR-Ship-Dataset 數(shù)據(jù)集進(jìn)行對(duì)比。SAR-Ship-Dataset 數(shù)據(jù)集共有43 819 張長(zhǎng)和寬均為256 像素的圖片,包含59 535 個(gè)艦船目標(biāo),具有更多的小尺度艦船。傳感器分辨率分別為3 m、5 m、8 m、10 m和25 m,成像模式包括Strip-Map(UFS)、Fine Strip-Map 1(FSI)、Full Polarization 1(QPSI)、Full Polarization 2(QPSII)、Fine Strip-Map 2(FSII)、條帶模式和寬幅模式。除此之外,HRSID 也被廣泛應(yīng)用在艦船檢測(cè)領(lǐng)域,HRSID 共有5 604 張圖片,包含16 951 個(gè)艦船目標(biāo),成像分辨率更高。為保證實(shí)驗(yàn)的公平性,實(shí)驗(yàn)數(shù)據(jù)均以7∶3 的比例劃分為訓(xùn)練集和驗(yàn)證集,常用數(shù)據(jù)集介紹見(jiàn)表1。
表1 數(shù)據(jù)集參數(shù)Table 1 Data set parameters
SSDD 數(shù)據(jù)集數(shù)據(jù)量較少,為了保證模型學(xué)習(xí)效果,提高模型泛化能力,對(duì)SSDD 數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)操作。經(jīng)過(guò)翻轉(zhuǎn)、改變亮度、添加高斯噪聲,最終訓(xùn)練集達(dá)到3 248 幅圖像。數(shù)據(jù)增強(qiáng)[19]為檢測(cè)模型提供了充足的訓(xùn)練樣本,提高了模型學(xué)習(xí)能力。SAR-Ship-Dataset 包含的圖像數(shù)量遠(yuǎn)遠(yuǎn)大于SSDD 數(shù)據(jù)集,可以在無(wú)需數(shù)據(jù)增強(qiáng)的條件下訓(xùn)練模型,因此實(shí)驗(yàn)中沒(méi)有對(duì)SAR-Ship-Dataset 數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。
根據(jù)FCOS[15]模型參數(shù)的設(shè)計(jì),本文模型訓(xùn)練batch_size 設(shè)置為1,采用MomentumOptimizer 優(yōu)化器,動(dòng)量因子設(shè)置為0.9,學(xué)習(xí)率設(shè)為0.000 5,每4 萬(wàn)次迭代學(xué)習(xí)率衰減為原來(lái)的1/10,權(quán)重衰減系數(shù)為0.000 04,在10 萬(wàn)次迭代時(shí)模型達(dá)到完全收斂。
為了更加客觀描述模型的性能,使用召回率(Recall)、精確率(Precision)和平均精度(Average Precision,AP)作為評(píng)價(jià)指標(biāo)。針對(duì)不同方法對(duì)比,使用精確率-召回率(Precision- Recall,P-R)曲線直觀表達(dá)模型效果,表達(dá)式為
式中,R為召回率,P為精確率,PA為平均精度,NTP為正確檢測(cè)到艦船的數(shù)量,NFN為未正確檢測(cè)到艦船的數(shù)量,NFP為誤檢為艦船目標(biāo)的數(shù)量。
在特征提取階段,不同主干網(wǎng)絡(luò)提取特征的能力不同,Resnet50[20]有4 個(gè)殘差塊,conv2_x、conv3_x、conv4_x、conv5_x 的卷積層數(shù)分別為3、4、6、3。Resnet101[21]也包含四個(gè)殘差塊,每塊的卷積層數(shù)分別為3、4、23、3。兩種主干網(wǎng)絡(luò)均在ImageNet 數(shù)據(jù)集訓(xùn)練生成預(yù)訓(xùn)練模型參數(shù),利用跳躍連接將原始特征圖重新構(gòu)造到新特征圖中,保證網(wǎng)絡(luò)在一定深度下不會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。從表2 可以看出,Resnet101 網(wǎng)絡(luò)比Resnet50 網(wǎng)絡(luò)召回率高0.51%,精確率高0.98%,平均精度高0.2%,Resnet101 的檢測(cè)效果優(yōu)于Resnet50。
表2 不同骨干網(wǎng)絡(luò)的檢測(cè)結(jié)果Table 2 Detection performance of different backbone networks
不同主干網(wǎng)絡(luò)檢測(cè)效果如圖8 所示,(a)為真值圖,(b)為Resnet50 主干網(wǎng)絡(luò)檢測(cè)效果,(c)為Resnet101主干網(wǎng)絡(luò)檢測(cè)效果。Resnet101 具有更深的網(wǎng)絡(luò)結(jié)構(gòu),能夠提取豐富的抽象特征,具有足夠的參數(shù)刻畫(huà)模型在空間上的分布。所以經(jīng)過(guò)每個(gè)殘差塊獲得的特征圖抽象特征越豐富,判別目標(biāo)類別的準(zhǔn)確率越高。使用Resnet101 的主干網(wǎng)絡(luò),模型能夠減小艦船目標(biāo)漏檢、誤檢情況,達(dá)到更高的檢測(cè)精度。
圖8 不同主干網(wǎng)絡(luò)的檢測(cè)效果Fig.8 Different backbones network detection results
SAR 圖像中小尺度艦船目標(biāo)在經(jīng)過(guò)多次卷積操作后容易丟失,同時(shí)受復(fù)雜背景信息影響,艦船目標(biāo)位置信息模糊,因此增強(qiáng)位置信息和語(yǔ)義信息十分重要。從表3 可見(jiàn),特征圖經(jīng)過(guò)像素級(jí)消噪提高艦船目標(biāo)區(qū)域權(quán)重,與原始模型相比平均精度提升了7.21%。語(yǔ)義增強(qiáng)模塊提取更加豐富的語(yǔ)義信息,與原始模型相比平均精度提升了7.17%。在兩個(gè)模塊共同作用下,模型召回率達(dá)到97.58%,精確率達(dá)到96.11%,平均精度達(dá)到96.73%。
表3 不同模塊的檢測(cè)結(jié)果Table 3 Detection performance of different models
提出了像素級(jí)消噪模塊和語(yǔ)義增強(qiáng)模塊,其中語(yǔ)義增強(qiáng)模塊在增強(qiáng)特征圖語(yǔ)義信息的同時(shí)也體現(xiàn)了金字塔網(wǎng)絡(luò)的作用,在語(yǔ)義增強(qiáng)模塊中將3×3 的卷積拆分成3×1 和1×3 的卷積。卷積核為3×3 的卷積包含3×3×Ci×Co的參數(shù)量,卷積核為1×3 和3×1 的卷積參數(shù)量之和為1×3×Ci×Co+3×1×Ci×Co,在該模塊減少了33.3%的參數(shù)量。像素級(jí)消噪模塊需要生成不同尺度的注意力圖并在訓(xùn)練過(guò)程中利用掩碼損失函數(shù)優(yōu)化注意力圖,因此該模塊引入大量參數(shù),本文方法在SSDD 數(shù)據(jù)集的性能分析見(jiàn)表4.
表4 模型性能分析Table 4 Model performance analysis
本文檢測(cè)模型的平均精度指標(biāo)具有一定的提升,原因有:1)像素級(jí)消噪模塊增強(qiáng)艦船目標(biāo)權(quán)重,抑制非艦船區(qū)域權(quán)重,使得艦船在復(fù)雜背景和相干斑噪聲的場(chǎng)景中位置信息更加豐富,減少了艦船目標(biāo)被漏檢的數(shù)量;2)語(yǔ)義增強(qiáng)模塊豐富了特征圖中的語(yǔ)義信息,能夠在分類分支被精準(zhǔn)識(shí)別,避免非艦船物體被識(shí)別為艦船目標(biāo)而導(dǎo)致模型虛警率增高;3)Transformer Ecoder 模塊能夠保證特征圖始終保持全局感受野,解決了因感受野不足導(dǎo)致大尺度艦船不能完整映射到原始圖像的問(wèn)題,使得候選框具有更好的回歸效果。因此,本文方法能夠有效解決模型中出現(xiàn)的漏檢、誤檢問(wèn)題。不同模塊檢測(cè)效果圖如圖9 所示,其中(a)為真值圖,(b)為原始模型檢測(cè)效果,(c)為經(jīng)過(guò)像素級(jí)消噪的效果,(d)為經(jīng)過(guò)語(yǔ)義增強(qiáng)的效果,(e)為像素級(jí)消噪和語(yǔ)義增強(qiáng)的效果。
圖9 不同模塊的檢測(cè)效果Fig.9 Different modules detection effect
為了對(duì)比本文模型的檢測(cè)效果,選擇Faster R-CNN[6]、Retinanet[22]、FPN[23]、WANG[24]、R2FA-Det[25]等主流的基于深度學(xué)習(xí)的檢測(cè)模型。從表5 中可以得出,在SSDD 數(shù)據(jù)集下,本文模型檢測(cè)精度比Faster RCNN 有9.47%的提升,比Retinanet 有9.82%的提升,比FPN 有6.04%的提升。與其它模型相比,本文模型的召回率、精確率和平均精度都達(dá)到了理想效果。
表5 不同方法在SSDD 數(shù)據(jù)集上的檢測(cè)結(jié)果Table 5 Detection performance of different methods on SSDD
為了進(jìn)一步驗(yàn)證本文方法的魯棒性和泛化能力,將其與其它3 種方法在SAR-Ship-Dataset 數(shù)據(jù)集上的檢測(cè)效果進(jìn)行對(duì)比。從表6 可以看出,本文方法在召回率和平均精度兩個(gè)指標(biāo)上有更好的提升。
表6 不同方法在SAR-Ship-Dataset 上的檢測(cè)結(jié)果Table 6 Detection performance of different methods on SAR-Ship-Dataset
Faster R-CNN、Retinanet 為基于錨框的檢測(cè)模型,受固定錨框參數(shù)影響不能完全適合多尺度艦船目標(biāo)的SAR 圖像,降低了模型檢測(cè)效果。FPN 采用特征融合機(jī)制,提高了模型檢測(cè)效果,但是受限于高層特征語(yǔ)義信息的不足,模型檢測(cè)效果并不理想。提出的像素級(jí)去噪和語(yǔ)義增強(qiáng)的無(wú)錨框檢測(cè)模型,利用中心點(diǎn)到邊框的偏移量作為候選框參數(shù),能自適應(yīng)生成合適的候選框。同時(shí)像素級(jí)消噪能夠抑制背景信息,突出艦船目標(biāo)信息,使得特征圖中艦船目標(biāo)位置信息被增強(qiáng)。語(yǔ)義增強(qiáng)模塊使得高層特征中語(yǔ)義信息更加豐富,經(jīng)過(guò)特征融合后的特征圖空間位置信息和語(yǔ)義信息更加平衡,在SAR 圖像艦船檢測(cè)中具有更好的檢測(cè)精度。為了更直觀展現(xiàn)本文模型網(wǎng)絡(luò)特征表達(dá)能力,采用不同模型的P-R 對(duì)比,如圖10 所示。圖11 為不同模型檢測(cè)效果,其中(a)為真值圖,(b)為Faster R-CNN 檢測(cè)效果,(c)為Retinanet 檢測(cè)效果,(d)為FPN 檢測(cè)效果,(e)為本文模型檢測(cè)效果。
圖10 不同對(duì)比方法的P-R 圖Fig.10 P-R diagram of different comparison methods
圖11 不同方法的檢測(cè)效果Fig.11 Different methods detection effect
合成孔徑雷達(dá)成像原理獨(dú)特,在不同場(chǎng)景下圖像差別較大,因此為了驗(yàn)證在不同場(chǎng)景下模型檢測(cè)效果,將驗(yàn)證集分為近海岸場(chǎng)景和遠(yuǎn)海場(chǎng)景,同時(shí)以60 px×60 px 將驗(yàn)證集劃分為小尺度目標(biāo)和大尺度目標(biāo)。近海岸場(chǎng)景包含較多形似艦船目標(biāo)的物體,艦船目標(biāo)容易淹沒(méi)在復(fù)雜背景中。遠(yuǎn)海場(chǎng)景受相干斑噪聲影響,導(dǎo)致艦船目標(biāo)邊緣模糊。小尺度艦船在經(jīng)過(guò)多次卷積后容易丟失,嚴(yán)重影響模型檢測(cè)精度。從表7 可見(jiàn),本文模型針對(duì)多種不同場(chǎng)景均表現(xiàn)出較好的檢測(cè)效果。
表7 不同場(chǎng)景的檢測(cè)結(jié)果Table 7 Detection performance of different scenes
本文模型能在多種場(chǎng)景下表現(xiàn)出較好的檢測(cè)效果,是因?yàn)橄袼丶?jí)消噪模塊能抑制相干斑噪聲和非目標(biāo)信息,使得艦船目標(biāo)在各種場(chǎng)景下都能突出位置信息。在遠(yuǎn)海場(chǎng)景中主要受相干斑噪聲影響,經(jīng)過(guò)像素級(jí)消噪模塊處理,圖像中更多的艦船目標(biāo)被檢測(cè)到,召回率提升明顯。語(yǔ)義增強(qiáng)模塊使得輸入檢測(cè)頭的特征圖語(yǔ)義信息更加豐富,同時(shí)Transformer Encoder 模塊增強(qiáng)目標(biāo)和特征圖之間的上下文信息,避免艦船目標(biāo)被漏檢。不同場(chǎng)景檢測(cè)效果圖如圖12 所示,其中(a)為近海岸場(chǎng)景檢測(cè)效果,(b)為遠(yuǎn)海場(chǎng)景檢測(cè)效果,(c)為大尺度艦船檢測(cè)效果,(d)為小尺度艦標(biāo)檢測(cè)效果。
圖12 不同場(chǎng)景的檢測(cè)效果Fig.12 Different scenes detection effect diagram
本文提出了像素級(jí)去噪和語(yǔ)義增強(qiáng)的檢測(cè)模型,在公開(kāi)遙感數(shù)據(jù)集SSDD 上驗(yàn)證了該模型針對(duì)不同場(chǎng)景、不同尺度SAR 圖像艦船檢測(cè)的有效性。無(wú)錨框的檢測(cè)器節(jié)省更多超參數(shù),避免了人工設(shè)計(jì)候選框不精確的情況,與基于錨框的檢測(cè)模型相比檢測(cè)效果更好。像素級(jí)消噪模塊使相干斑噪聲和近海岸物體信息影響的特征圖中艦船目標(biāo)位置突出,同時(shí)經(jīng)過(guò)掩碼損失函數(shù)優(yōu)化掩碼特征圖,使特征圖中目標(biāo)位置更加精確。語(yǔ)義增強(qiáng)通過(guò)多種不同卷積核提取多種特征,并以通道維度進(jìn)行特征融合,該模塊生成的特征圖語(yǔ)義信息更加豐富,最后采用自上而下將高層特征的語(yǔ)義信息融合到底層高分辨率特征圖,包含豐富語(yǔ)義信息的特征圖在分辨艦船目標(biāo)時(shí)具有重要作用。編碼模塊通過(guò)模型不斷迭代,學(xué)習(xí)艦船目標(biāo)的位置信息,增強(qiáng)了艦船目標(biāo)之間的依賴關(guān)系,在大尺度目標(biāo)檢測(cè)中表現(xiàn)優(yōu)秀,經(jīng)過(guò)位置信息增強(qiáng),小尺度艦船檢測(cè)也達(dá)到理想檢測(cè)效果。本文提出的檢測(cè)模型在近海岸、遠(yuǎn)海和帶有海洋雜波的多種背景下獲得較高的檢測(cè)精度。但是由于候選框?yàn)樗娇?,候選框內(nèi)不僅有艦船目標(biāo),同時(shí)還包含大量的背景信息,為了消除候選框中背景信息,接下來(lái)的工作將著重研究基于旋轉(zhuǎn)框的SAR 圖像艦船檢測(cè)。