張冬冬,王春平,付 強(qiáng)
(陸軍工程大學(xué)石家莊校區(qū) 電子與光學(xué)工程系,河北 石家莊 050003)
艦船檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn),一直備受國(guó)內(nèi)外研究人員的關(guān)注,其在海上交通管理、安全威脅監(jiān)測(cè)、海上救援等領(lǐng)域發(fā)揮著重要作用[1-2]。在深度學(xué)習(xí)技術(shù)發(fā)展的驅(qū)動(dòng)下,艦船檢測(cè)的精度和速度得到了大幅提升[3],已基本能滿足人們的日常需求。但隨著信息技術(shù)的飛速發(fā)展,一些特殊任務(wù),比如精確制導(dǎo),需要對(duì)艦船做進(jìn)一步的精細(xì)化檢測(cè)[4-6]。
精細(xì)化檢測(cè)是指對(duì)目標(biāo)相對(duì)重要的部位進(jìn)行檢測(cè),對(duì)于艦船目標(biāo),指揮控制室、動(dòng)力艙、導(dǎo)彈發(fā)射井和彈藥艙等部位重要程度較高[4,7]。由于不同類型艦船的應(yīng)用方向差異較大,導(dǎo)彈發(fā)射井和彈藥艙僅存在于特殊用途的艦船上,并且由于光學(xué)遙感圖像是俯瞰視角成像,動(dòng)力艙的可視性差,因而上述幾個(gè)部位不宜作為精細(xì)化檢測(cè)的對(duì)象。相對(duì)而言,艦船的指揮控制室的可視性好、重要性強(qiáng),且存在于多種艦船上。因此,本文選取指揮控制室作為艦船的關(guān)重部位并對(duì)其進(jìn)行深入研究。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展成熟,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標(biāo)檢測(cè)算法成為當(dāng)前的主流方法?;贑NN 的目標(biāo)檢測(cè)算法主要分為兩類:一類是以R-CNN[8]、Faster R-CNN[9]、Mask R-CNN[10]等為代表的雙階段網(wǎng)絡(luò);另一類是以SSD[11]、YOLO[12]、RetinaNet[13]等為代表的單階段檢測(cè)網(wǎng)絡(luò)。總體來(lái)說(shuō),雙階段網(wǎng)絡(luò)檢測(cè)精度高,但速度慢;單階段網(wǎng)絡(luò)檢測(cè)速度快,但精度偏低。上述具有代表性的網(wǎng)絡(luò)均是基于水平框的檢測(cè)模型,并在多種類型的目標(biāo)檢測(cè)實(shí)驗(yàn)中取得了較優(yōu)的結(jié)果,但對(duì)艦船這類具有方向性和大長(zhǎng)寬比的目標(biāo)檢測(cè)效果不佳。針對(duì)這一問(wèn)題,Liu 等通過(guò)引方向參數(shù),將水平框變換成旋轉(zhuǎn)框,使檢測(cè)框更好地與艦船進(jìn)行貼合,有效提高了艦船目標(biāo)的檢測(cè)精度[14]。Ding 等提出了RoI Transformer[15],通過(guò)空間變換將水平RoI 轉(zhuǎn)化為旋轉(zhuǎn)RoI,避免使用大量錨框,并能緩解錯(cuò)位問(wèn)題。R3Det 通過(guò)由粗到細(xì)逐步精化的方式實(shí)現(xiàn)快速、準(zhǔn)確地檢測(cè)目標(biāo)[16]。在不斷的優(yōu)化下,基于CNN 的艦船檢測(cè)算法的精度得到了大幅提升,可以較好地實(shí)現(xiàn)艦船檢測(cè)任務(wù),但仍未對(duì)艦船進(jìn)行精細(xì)化檢測(cè),無(wú)法應(yīng)用于一些特殊任務(wù)中。
針對(duì)上述問(wèn)題,本文以RetinaNet 為基礎(chǔ),通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、引入注意力機(jī)制、構(gòu)建語(yǔ)義掩膜網(wǎng)絡(luò)(semantic mask network,SMN)以及增加方向?qū)傩?,提出了一種用于復(fù)雜背景下艦船關(guān)重部位檢測(cè)的網(wǎng)絡(luò)(CPDNet,critical part detection network)。實(shí)驗(yàn)結(jié)果表明,與其他網(wǎng)絡(luò)模型相比,所提網(wǎng)絡(luò)可以實(shí)現(xiàn)對(duì)艦船關(guān)重部位的精確檢測(cè),并有較好的時(shí)效性。
RetinaNet 是一種高效的單階段檢測(cè)網(wǎng)絡(luò),通過(guò)利用Focal Loss 來(lái)緩解單階段網(wǎng)絡(luò)中存在的正負(fù)樣本不平衡的問(wèn)題。若將RetinaNet 直接用于遙感艦船關(guān)重部位的檢測(cè),效果并不理想。主要原因有兩點(diǎn):1)關(guān)重部位特征不夠顯著,網(wǎng)絡(luò)無(wú)法對(duì)其特征進(jìn)行充分描述;2)受背景影響較大,漏檢和誤檢概率增大。針對(duì)以上問(wèn)題,本文以RetinaNet為基準(zhǔn),提出了CPDNet,整體架構(gòu)如圖1 所示。本文對(duì)RetinaNet 的改進(jìn)主要包括以下幾個(gè)方面:1)優(yōu)化特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)以更好的表征關(guān)重部位特征;2)構(gòu)建SMN以降低背景影響;3)增加方向描述使定位更加精確。
圖1 CPDNet 的整體架構(gòu)Fig.1 Overall structure diagram of CPDNet
為提高對(duì)多尺度目標(biāo)的檢測(cè)能力,Retina-Net 使用FPN 進(jìn)行特征融合,但這種融合方式對(duì)小尺度目標(biāo)并不友好[17]。一方面,隨著網(wǎng)絡(luò)深度的加深,低層細(xì)節(jié)特征不斷地被整合成高層語(yǔ)義信息,導(dǎo)致高層特征圖中缺少目標(biāo)的細(xì)粒度信息。另一方面,在多次下采樣的過(guò)程中,小尺度目標(biāo)的像素逐步減少,受背景影響,特征顯著性難以被凸顯,導(dǎo)致網(wǎng)絡(luò)對(duì)小尺度目標(biāo)的檢測(cè)效果不佳。鑒于以上分析,我們從豐富特征信息和提高特征顯著性兩方面入手,設(shè)計(jì)了FE-FPN,如圖2所示。
圖2 FE-FPN 結(jié)構(gòu)圖Fig.2 Structure diagram of FE-FPN
FE-FPN 在初始FPN 的基礎(chǔ)上增加了一條低層特征融合路徑,通過(guò)融合低層特征來(lái)豐富高層特征圖所含的細(xì)粒度特征。此外,為提高目標(biāo)顯著性,在金字塔自上而下的連接路徑中增加空間注意力模塊[18]。與F3 和F4 相比,F(xiàn)5 在構(gòu)建過(guò)程中缺少了圖2 中虛框部分,其余構(gòu)建過(guò)程均相同。特征圖Fi∈R2W×2H×2C的構(gòu)建過(guò)程可表示為
式中:Fi+1∈RW×H×4C、Ci∈R2W×2H×2C、Ci-1∈R2W×2H×C、Att(·),表示空間注意力機(jī)制;σ(·)表示Sigmoid 函數(shù);f7×7和f1×1分別表示7×7 卷積和1×1 卷積;AvgPool和MaxPool分別表示平均池化和最大池化;g2X-up和g2X-down分別表示2 倍上采樣和2 倍下采樣;+和⊕分別表示像素相加和通道疊加的融合方式。
光學(xué)遙感圖像包含豐富的細(xì)節(jié)信息,能夠直觀呈現(xiàn)目標(biāo)的紋理、顏色、形狀等信息,同時(shí)也能清晰展現(xiàn)目標(biāo)所處的場(chǎng)景。光學(xué)遙感圖像艦船關(guān)重部位檢測(cè)的一大難點(diǎn)是場(chǎng)景復(fù)雜度高,要想提高模型對(duì)關(guān)重部位檢測(cè)的精度,需要盡可能降低背景對(duì)檢測(cè)的影響。為降低無(wú)關(guān)區(qū)域?qū)z測(cè)的干擾,本文提出了SMN。該模塊利用語(yǔ)義信息生成語(yǔ)義掩膜,語(yǔ)義掩膜經(jīng)膨脹處理后作用于FEFPN 生成的特征圖,對(duì)不可能出現(xiàn)目標(biāo)的區(qū)域進(jìn)行遮蔽,從而降低背景對(duì)檢測(cè)的影響。SMN 主要由上下文信息提取模塊(contextual information extraction module,CIEM)和語(yǔ)義特征提取模塊(semantic feature extraction module,SFEM)組成。
1.2.1 CIEM
上下文信息對(duì)于語(yǔ)義分割任務(wù)至關(guān)重要,它可以提升網(wǎng)絡(luò)對(duì)目標(biāo)的感知力,提高語(yǔ)義分割的連續(xù)性,進(jìn)而獲得較為魯棒的輸出。通過(guò)設(shè)計(jì)CIEM,使網(wǎng)絡(luò)更好地感知目標(biāo)輪廓,為后續(xù)語(yǔ)義信息的提取奠定基礎(chǔ)。如圖3 所示,CIEM 主要由5 層組成,采用1×1 卷積增加通道相關(guān)性,3×3 卷積保留原始特征,2 個(gè)膨脹因子為(2,5)的3×3 卷積組成的膨脹序列和2×2 的最大池化層(后接上采樣操作)提取多尺度上下文信息。將所有層以通道相加的方式進(jìn)行融合,隨后利用1×1 卷積來(lái)減少通道數(shù)量。
圖3 CIEM 結(jié)構(gòu)圖Fig.3 Structure diagram of CIEM
1.2.2 SFEM
在SMN 中,SFEM 的構(gòu)建是關(guān)鍵,它對(duì)語(yǔ)義掩膜質(zhì)量的好壞起著決定性作用。為獲取精確的語(yǔ)義掩膜,需要對(duì)特征圖中的每個(gè)像素進(jìn)行分類。采用跳躍連接[19]和反卷積操作[20]將帶有上下文信息的高級(jí)特征圖和帶有位置信息的低級(jí)特征圖結(jié)合起來(lái),通過(guò)多級(jí)特征圖的疊加和上采樣獲得每個(gè)像素的分類結(jié)果。SFEM 的結(jié)構(gòu)如圖4 所示,各層的詳細(xì)參數(shù)如表1 所示。具體步驟可概括為:首先將低層特征圖與具有相同尺度的高層特征圖按通道疊加的方式進(jìn)行拼接;然后將拼接的特征導(dǎo)入反卷積層,降低特征圖尺度并進(jìn)一步提取圖像特征;最后使用較少的卷積核來(lái)調(diào)整特征圖的深度。經(jīng)過(guò)Conv 5 后,得到一個(gè)類別標(biāo)簽圖和一個(gè)語(yǔ)義特征圖。類別標(biāo)簽圖用于計(jì)算語(yǔ)義分割損失,語(yǔ)義特征圖用于生成語(yǔ)義掩膜。
表1 SFEM 各層的詳細(xì)參數(shù)Table 1 Detailed parameters of each SFEM layer
圖4 SFEM 結(jié)構(gòu)圖Fig.4 Structure diagram of SFEM
特征圖C5 經(jīng)過(guò)CIEM 和SFEM 兩個(gè)模塊處理后得到了相應(yīng)的語(yǔ)義特征圖,對(duì)語(yǔ)義特征圖進(jìn)行二值化處理得到語(yǔ)義掩膜圖。在生成語(yǔ)義特征圖的過(guò)程中,語(yǔ)義分割結(jié)果不準(zhǔn)確可能會(huì)導(dǎo)致艦船關(guān)重部位缺失。針對(duì)這一問(wèn)題,我們對(duì)語(yǔ)義掩膜圖進(jìn)行了膨脹處理,通過(guò)擴(kuò)張艦船區(qū)域來(lái)降低分割不準(zhǔn)確帶來(lái)的影響。在膨脹處理過(guò)程中,若膨脹結(jié)構(gòu)元素尺寸過(guò)小,則無(wú)法彌補(bǔ)誤分割的偏差;若膨脹結(jié)構(gòu)元素尺寸過(guò)大,則會(huì)引入背景信息,對(duì)檢測(cè)精度造成影響。本文使用大小為11×11 的膨脹結(jié)構(gòu)元素,相關(guān)實(shí)驗(yàn)在2.2 節(jié)進(jìn)行介紹。膨脹處理后的語(yǔ)義掩膜圖經(jīng)不同倍數(shù)的上采樣操作后分別作用于F5、F4 和F3,通過(guò)掩蔽非艦船區(qū)域來(lái)提高關(guān)重部位的檢測(cè)精度。
RetinaNet 使用水平框來(lái)定位目標(biāo),而遙感圖像中的艦船關(guān)重部位具有方向性,水平框在標(biāo)定時(shí)會(huì)包含大量的冗余信息,影響檢測(cè)器的精度。因此,我們按照R3Det 的構(gòu)建方式對(duì)RetinaNet 進(jìn)行改進(jìn)。在原有的四坐標(biāo)基礎(chǔ)上,增加一個(gè)方向參數(shù)θ,即用5 參數(shù)(x,y,w,h,θ)來(lái)表示旋轉(zhuǎn)框。其中(x,y)表示旋轉(zhuǎn)框的中心坐標(biāo),θ是旋轉(zhuǎn)框與水平軸(x軸)夾角的銳角,其范圍為[-90°,0°],用于定義θ的邊為寬w,另一邊為高h(yuǎn)。在回歸子網(wǎng)絡(luò)中需要增加對(duì)角度偏移量的預(yù)測(cè),旋轉(zhuǎn)框偏移量計(jì)算公式如下:
式中:(xa,ya,wa,ha,θa)表示錨框的位置坐標(biāo);(x,y,w,h,θ)和(x′,y′,w′,h′,θ′)分別表示真實(shí)框和預(yù)測(cè)框的位置坐標(biāo);(tx,ty,tw,th,tθ) 和分別表示錨框偏移量和預(yù)測(cè)框偏移量。
所提網(wǎng)絡(luò)的損失函數(shù)由語(yǔ)義分割損失Lseg、分類損失Lcls和回歸損失Lreg三部分組成,計(jì)算公式如下所示。
式中:λ、α和 β是權(quán)重參數(shù),用來(lái)平衡不同損失間的差距。
Lreg由每個(gè)像素的預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽間的交叉熵?fù)p失計(jì)算得到,計(jì)算方法如下:
式中:W×H表示掩膜大??;M(·)和M′(·)分別表示標(biāo)簽的真實(shí)值和預(yù)測(cè)值。
Lcls由下式計(jì)算得到:
式中:N表示錨框數(shù)量;pn表示樣本被正確預(yù)測(cè)的概率;αn設(shè)為0.25;γ設(shè)為2。
Lreg的計(jì)算方式與R3Det 相同:
式中:objn取值為1 或0(objn=1表示前景,ob jn=0表示背景);表示預(yù)測(cè)偏移量;vn表示目標(biāo)的真實(shí)向量;|·|表示向量取模;f(·)表示與相關(guān)的損失函數(shù);IoU(·)表示水平框的交并比。
實(shí)驗(yàn)在配置為E5-2630v2 CPU、NVIDIA GTX-1080Ti GPU(11G video memory)、64G RAM 的圖像工作站上進(jìn)行,以Ubuntu18.04 為平臺(tái),在深度學(xué)習(xí)框架Pytorch1.6 下編譯完成。為從定量角度驗(yàn)證所提網(wǎng)絡(luò)的有效性,使用每秒處理幀數(shù)(frame per second,FPS)評(píng)價(jià)網(wǎng)絡(luò)的檢測(cè)速度,利用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、平均精度(average precision,AP)評(píng)價(jià)網(wǎng)絡(luò)的檢測(cè)性能。各評(píng)價(jià)指標(biāo)定義如下:
式中:NFigure為所處理的圖像數(shù)量;Time是圖像處理總時(shí)間;TP為正確分類的正樣本數(shù)量;FP為錯(cuò)誤分類為正樣本的數(shù)量;FN為錯(cuò)誤分類為負(fù)樣本的數(shù)量。
數(shù)據(jù)集:當(dāng)前用于艦船檢測(cè)的光學(xué)遙感數(shù)據(jù)集,比如HRSC2016[21]、DIOR[22]、DOTA[23]等,均以整體艦船作為目標(biāo)進(jìn)行標(biāo)注,多用于艦船位置的檢測(cè)任務(wù)。將艦船部位作為研究對(duì)象時(shí),數(shù)據(jù)集中應(yīng)包含明顯的部位信息,目前所存在的數(shù)據(jù)集無(wú)法滿足這一需求。針對(duì)數(shù)據(jù)集欠缺的問(wèn)題,我們利用谷歌地圖從世界上一些著名的港口(珍珠港、橫須賀軍港、樸次茅斯軍港等)下載了1 015張圖像,構(gòu)建了CP-Ship 數(shù)據(jù)集,數(shù)據(jù)集的詳細(xì)信息如表2 所示。CP-Ship 中圖像尺度像素為800×600,使用roLabelImg 和Labelme 分別對(duì)圖像中的關(guān)重部位和艦船進(jìn)行標(biāo)注,如圖5 所示。roLabelImg 的標(biāo)注數(shù)據(jù)用于網(wǎng)絡(luò)對(duì)艦船關(guān)重部位的訓(xùn)練和測(cè)試,而Labelme 的標(biāo)注數(shù)據(jù)用于語(yǔ)義分割的訓(xùn)練。
表2 CP-Ship 數(shù)據(jù)集詳細(xì)信息Table 2 Details of CP-Ship dataset
圖5 標(biāo)注示意圖Fig.5 Schematic diagram of labeling
訓(xùn)練細(xì)節(jié):使用ResNet-50[19]作為主干網(wǎng)絡(luò),利用在ImageNet[24]上訓(xùn)練的ResNet-50 權(quán)重初始化主干網(wǎng)絡(luò)。訓(xùn)練過(guò)程中,網(wǎng)絡(luò)在隨機(jī)梯度下降法(stochastic gradient descent,SGD)下進(jìn)行36 輪迭代訓(xùn)練,初始學(xué)習(xí)率為0.002 5,批次大小為2。在迭代24 和33 輪時(shí),學(xué)習(xí)率分別降低10 倍。權(quán)重衰減和動(dòng)量分別設(shè)置為0.000 1 和0.9。
SMN 中使用膨脹操作的目的是降低誤分割的影響,合適的膨脹結(jié)構(gòu)元素可以提高檢測(cè)精度。為選取合適的膨脹結(jié)構(gòu)元素,改變模型中膨脹結(jié)構(gòu)元素大小進(jìn)行實(shí)驗(yàn),通過(guò)對(duì)比檢測(cè)的平均精度來(lái)確定膨脹結(jié)構(gòu)元素大小,相關(guān)實(shí)驗(yàn)結(jié)果如表3所示。
表3 膨脹結(jié)構(gòu)元素尺寸選取Table 3 Size selection of expansion structure element
從表3 可以看出,隨著結(jié)構(gòu)元素尺寸的增大,檢測(cè)的精度呈現(xiàn)先增大后減小的態(tài)勢(shì)。當(dāng)結(jié)構(gòu)元素大小為11×11 時(shí),網(wǎng)絡(luò)的檢測(cè)精度最高。因此,本文采用結(jié)構(gòu)元素為11×11 的膨脹操作。
為評(píng)估FE-FPN、SMN 以及角度參數(shù)對(duì)網(wǎng)絡(luò)檢測(cè)能力的貢獻(xiàn),以RetinaNet 為基準(zhǔn),通過(guò)添加單個(gè)或多個(gè)模塊進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment
從表4 中可以看出,通過(guò)增加角度參數(shù)使RetinaNet 的AP值提高了2.23%,證明了角度參數(shù)對(duì)于檢測(cè)具有方向性目標(biāo)的重要性。在增加角度的基礎(chǔ)上,將RetinaNet 中的FPN 替換成FE-FPN,AP值提高了3.81%,說(shuō)明在豐富特征的基礎(chǔ)上增加注意力機(jī)制可以提高網(wǎng)絡(luò)的檢測(cè)能力。在上述基礎(chǔ)上增加SMN 大幅提高了檢測(cè)精度,說(shuō)明在復(fù)雜背景下,通過(guò)降低背景的影響可以提升網(wǎng)絡(luò)的檢測(cè)性能。
為更加直觀說(shuō)明FE-FPN 和SMN 兩個(gè)模塊的作用效果,對(duì)FPN 和FE-FPN 的F4 層特征圖以及經(jīng)過(guò)掩膜修飾用于檢測(cè)的特征圖進(jìn)行可視化,如圖6 所示。通過(guò)對(duì)比圖6 中第2 列和第3 列可知,F(xiàn)E-FPN 在豐富特征的同時(shí)可以突出目標(biāo)的顯著性;將第4 列與前兩列進(jìn)行對(duì)比發(fā)現(xiàn),經(jīng)過(guò)掩膜修飾后特征圖所包含的背景信息大幅減少,可以降低背景對(duì)檢測(cè)的干擾,目標(biāo)的顯著性也得到了凸顯。
圖6 特征圖可視化示例Fig.6 Visualization examples of feature images
為驗(yàn)證所提網(wǎng)絡(luò)的有效性,將CPDNet 與一些流行的目標(biāo)檢測(cè)算法進(jìn)行對(duì)比分析。所用對(duì)比模型的相關(guān)代碼來(lái)源于OpenMMLab 平臺(tái)。各網(wǎng)絡(luò)模型在測(cè)試集上檢測(cè)的定量結(jié)果和PR曲線如表5和圖7 所示。
表5 不同網(wǎng)絡(luò)模型的定量結(jié)果Table 5 Quantitative results of different network models
圖7 不同網(wǎng)絡(luò)模型的PR 曲線Fig.7 PR curves of different network models
從實(shí)驗(yàn)的定量結(jié)果中可以看出,雙階段網(wǎng)絡(luò)的檢測(cè)性能要優(yōu)于單階段檢測(cè)網(wǎng)絡(luò),但在檢測(cè)速度上不占優(yōu)勢(shì)。單階段網(wǎng)絡(luò)和雙階段網(wǎng)絡(luò)存在共點(diǎn):對(duì)于具有方向性的目標(biāo),通過(guò)引入旋轉(zhuǎn)框進(jìn)行檢測(cè)可有效提高檢測(cè)精度,但引入旋轉(zhuǎn)框會(huì)增加網(wǎng)絡(luò)的參數(shù)量,使整個(gè)網(wǎng)絡(luò)的檢測(cè)速度大幅下降。RetinaNet 網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,易受復(fù)雜背景的影響,艦船關(guān)重部位目標(biāo)的漏檢和誤檢數(shù)量在所有對(duì)比算法中最多。與RetinaNet 相比,所提網(wǎng)絡(luò)的AP值提高了11.35%,并且FP和FN各有不同程度的降低,雖然檢測(cè)速度有所下降,但在使用旋轉(zhuǎn)框進(jìn)行檢測(cè)的網(wǎng)絡(luò)中,所提網(wǎng)絡(luò)的檢測(cè)速度占有一定的優(yōu)勢(shì)。從PR曲線圖中可以看出,CPDNet 的PR曲線與坐標(biāo)軸之間所圍面積大于除ReDet 外的所有模型,并且曲線最為平穩(wěn),表明所提網(wǎng)絡(luò)的檢測(cè)性能較好。
從各方法的檢測(cè)速率來(lái)看,水平框檢測(cè)算法的平均檢測(cè)速率要快于旋轉(zhuǎn)框檢測(cè)算法,究其原因是角度參數(shù)的引入會(huì)增加整個(gè)網(wǎng)絡(luò)的計(jì)算量,影響網(wǎng)絡(luò)的推理速度。在旋轉(zhuǎn)框檢測(cè)算法中,CFA以簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)和輕量的計(jì)算方式在檢測(cè)速度上占絕對(duì)優(yōu)勢(shì),ReDet 的雙階段網(wǎng)絡(luò)結(jié)構(gòu)和復(fù)雜的特征提取方式使其檢測(cè)速度居于末尾。CPDNet在RetinaNet 基礎(chǔ)上進(jìn)行了多種改進(jìn),致使其檢測(cè)速度較RetinaNet 略有不足,但在水平框檢測(cè)算法中處于前列。綜上所述,所提算法在同類型的算法中具有較高的優(yōu)越性,較好地兼顧了檢測(cè)的速度和精度。
為更加直觀地對(duì)以上9 中方法進(jìn)行比對(duì),圖8給出了不同模型的可視化檢測(cè)結(jié)果。從圖8 中可以看出,與水平框相比,旋轉(zhuǎn)框與目標(biāo)更加貼合,可以更加直觀反映出目標(biāo)的位置;對(duì)于并列目標(biāo),F(xiàn)aster R-CNN、Dynamic R-CNN、RetinaNet 因水平框之間存在交疊,致使出現(xiàn)大量誤檢目標(biāo);ReDet、Oriented R-CNN、Oriented R-CNN 和Oriented R-CNN雖然借助旋轉(zhuǎn)框改善了對(duì)并列目標(biāo)的檢測(cè)效果,但受復(fù)雜背景影響,存在大量的漏檢目標(biāo)。通過(guò)對(duì)比,所提方法的漏檢和誤檢數(shù)量均最少,整體檢測(cè)效果較好。總而言之,所提方法使用旋轉(zhuǎn)框保證了對(duì)并列目標(biāo)的檢測(cè)效果,通過(guò)豐富特征及引入注意力機(jī)制,提升了應(yīng)對(duì)各類背景的能力,使用語(yǔ)義掩膜規(guī)避背景對(duì)檢測(cè)的影響,降低了誤檢概率,適用于復(fù)雜背景下艦船關(guān)重部位檢測(cè)任務(wù)。
圖8 不同網(wǎng)絡(luò)模型的檢測(cè)結(jié)果可視化示例Fig.8 Visualization examples of detection results of different network models
本文對(duì)艦船的精細(xì)化檢測(cè)作了進(jìn)一步研究,在RetinaNet 檢測(cè)算法的基礎(chǔ)上,提出了一種用于艦船關(guān)重部位檢測(cè)的網(wǎng)絡(luò)模型。該模型以ResNet-50 為主干網(wǎng)絡(luò)提取圖像的深層次特征;通過(guò)優(yōu)化FPN 結(jié)構(gòu)以及引入注意力機(jī)制的方式提高模型的特征表達(dá)能力,并提升模型對(duì)關(guān)重部位目標(biāo)的敏感度;利用SMN 網(wǎng)絡(luò)模塊構(gòu)建出區(qū)域掩膜,降低背景對(duì)檢測(cè)的影響,從而降低誤檢概率提高檢測(cè)精度;檢測(cè)器通過(guò)5 參數(shù)的旋轉(zhuǎn)框?qū)崿F(xiàn)艦船關(guān)重部位的定向檢測(cè)。在CP-Ship 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:所提網(wǎng)絡(luò)的關(guān)重部位檢測(cè)精度AP較RetinaNet提高了11.35%;與其他旋轉(zhuǎn)框檢測(cè)模型相比,所提網(wǎng)絡(luò)在速度和精度上均占有絕對(duì)的優(yōu)勢(shì),驗(yàn)證了所提網(wǎng)絡(luò)對(duì)關(guān)重部位檢測(cè)的有效性和優(yōu)越性。