周薇娜,劉露
研究與開(kāi)發(fā)
復(fù)雜場(chǎng)景下多尺度船舶實(shí)時(shí)檢測(cè)方法
周薇娜,劉露
(上海海事大學(xué)信息與工程學(xué)院,上海 201306)
船舶檢測(cè)在軍事偵察、海上目標(biāo)跟蹤、海上交通管制等任務(wù)中發(fā)揮著重要作用。然而,受船舶外形尺度多變和復(fù)雜海面背景的影響,在復(fù)雜海面上檢測(cè)多尺度船舶仍然是一個(gè)挑戰(zhàn)。針對(duì)此難題,提出了一種基于多層信息交互融合和注意力機(jī)制的YOLOv4改進(jìn)方法。該方法主要通過(guò)多層信息交互融合(multi-layer information interactive fusion,MLIF)模塊和多注意感受野(multi-attention receptive field,MARF)模塊構(gòu)建一個(gè)雙向細(xì)粒度特征金字塔。其中,MLIF模塊用于融合不同尺度的特征,不僅能將深層的高級(jí)語(yǔ)義特征串聯(lián)在一起,而且將較淺層的豐富特征進(jìn)行重塑;MARF由感受野模塊(receptive field block,RFB)與注意力機(jī)制模塊組成,能有效地強(qiáng)調(diào)重要特征并抑制冗余特征。此外,為了進(jìn)一步評(píng)估提出方法的性能,在新加坡海事數(shù)據(jù)集(Singapore maritime dataset,SMD)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提方法能有效地解決復(fù)雜海洋環(huán)境下多尺度船舶檢測(cè)的難題,且同時(shí)滿足了實(shí)時(shí)需求。
多尺度船舶檢測(cè);多層信息交互融合;多注意感受野;雙向細(xì)粒度特征金字塔
海洋環(huán)境中的視覺(jué)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究課題之一。準(zhǔn)確、快速的多尺度船舶檢測(cè)方法不僅能為碼頭管理、港口監(jiān)控和安全航行提供非常重要的信息,而且對(duì)走私船舶的檢測(cè)和海上救援也起著重要的作用。
傳統(tǒng)的船舶檢測(cè)算法大多基于船舶結(jié)構(gòu)和形狀進(jìn)行手動(dòng)特征設(shè)計(jì)。雖然這些算法[1-3]取得了一些好的結(jié)果,但即使使用當(dāng)時(shí)最好的非線性分類器對(duì)這些手動(dòng)設(shè)計(jì)的特征進(jìn)行分類,其檢測(cè)精度仍不能滿足實(shí)際需要[4]。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在目標(biāo)檢測(cè)方面取得了越來(lái)越顯著的性能。目前,基于CNN的目標(biāo)檢測(cè)算法可分為兩類。
(1)基于區(qū)域推薦的算法,形成了以Faster R-CNN[5-7]為代表的兩階段算法。該類算法由于具有較高的檢測(cè)精度,在多尺度船舶檢測(cè)中得到了廣泛的應(yīng)用,但檢測(cè)速度不足以滿足實(shí)時(shí)檢測(cè)的要求。
(2)基于回歸的算法,形成了以YOLO[8-10]和SSD[11]為代表的單階段算法。該類算法將檢測(cè)問(wèn)題轉(zhuǎn)化為回歸問(wèn)題,大大提高了檢測(cè)速度,在實(shí)時(shí)船舶檢測(cè)中具有突出的優(yōu)勢(shì)。
目前應(yīng)用于海上船舶檢測(cè)算法大多基于合成孔徑雷達(dá)(synthetic aperture radar,SAR)遙感圖像,但隨著SAR成像速度不斷地提高,算法能夠?qū)崟r(shí)快速地檢測(cè)顯得尤為重要。如張佳欣等[12]提出了一種基于改進(jìn)YOLOv3的SAR圖像船舶檢測(cè)方法,通過(guò)改進(jìn)算法的檢測(cè)策略提升了算法對(duì)復(fù)雜場(chǎng)景下不同船舶目標(biāo)的適應(yīng)性。Peng等[13]提出了一種由多個(gè)上采樣注意單元組成的密集注意方法,該方法采用上采樣空間和上采樣通道注意機(jī)制,通過(guò)空間上下文信息捕獲目標(biāo)的變化特征。張?bào)汴系萚14]提出精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)驅(qū)動(dòng)的目標(biāo)分布聚類算法,結(jié)合雙向高低層特征融合機(jī)制,減少了訓(xùn)練和測(cè)試時(shí)間,但檢測(cè)精度較低,同時(shí)模型復(fù)雜度較高。然而,由于衛(wèi)星獲取的SAR遙感圖像中,場(chǎng)景種類比較單一,獲取的船舶特征穩(wěn)定性不足。
為了克服這個(gè)問(wèn)題,研究者們提出了其他新的多尺度船舶檢測(cè)方法[15-17]。Shao等[15]構(gòu)建了一個(gè)新的大型船舶數(shù)據(jù)集,其中包含6種常見(jiàn)的船舶類型,用于訓(xùn)練和評(píng)估船舶目標(biāo)檢測(cè)算法。Guo等[16]提出了一種新的基于海面無(wú)人水面車輛(unmanned surface vessel,USV)圖像的目標(biāo)檢測(cè)算法,主要通過(guò)融合DenseNet和YOLOv3網(wǎng)絡(luò)來(lái)實(shí)時(shí)檢測(cè)真實(shí)海洋環(huán)境中的多尺度船舶。該方法在一定程度上能夠提高檢測(cè)的穩(wěn)定性,以減少特征損失。Shao等[17]首次提出利用陸地監(jiān)控?cái)z像機(jī)網(wǎng)絡(luò)捕獲的視覺(jué)圖像來(lái)進(jìn)行實(shí)時(shí)船舶檢測(cè),并設(shè)計(jì)了一個(gè)重要的感知CNN框架來(lái)預(yù)測(cè)船舶的類別與位置。
然而,這些方法應(yīng)用在真實(shí)海面環(huán)境下多尺度船舶檢測(cè)時(shí)仍然存在一些難題,尤其當(dāng)圖像中背景信息復(fù)雜、包含大量不同尺度船舶、復(fù)雜環(huán)境中的尾流等噪聲類似于小尺度船舶等。所有這些情況都會(huì)對(duì)多尺度船舶的準(zhǔn)確檢測(cè)造成很大的干擾。因此,增強(qiáng)上下文語(yǔ)義信息,并突出船舶的顯著特征,對(duì)于提高多尺度船舶的檢測(cè)性能至關(guān)重要。
為了能同時(shí)兼顧檢測(cè)精度和速度,本文提出了一種基于多層信息交互融合和注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)。首先,采用CSPDarkNet53[18]作為主干網(wǎng)絡(luò)進(jìn)行特征提取;然后,在主干網(wǎng)絡(luò)之后,采用改進(jìn)的細(xì)粒度特征金字塔結(jié)構(gòu)。特征金字塔主要包含兩個(gè)關(guān)鍵模塊,即多層信息交互融合(multi-layer information interactive fusion,MLIF)模塊和多注意感受野(multi-attention receptive field,MARF)模塊。MLIF模塊分別通過(guò)級(jí)聯(lián)和重塑操作將較深層和較淺層的特征融合到當(dāng)前層,它可以充分增強(qiáng)上下文語(yǔ)義特征。MARF模塊合理地結(jié)合了感受野模塊(receptive field block,RFB)[19]、空間注意(spatial attention,SA)模塊和通道注意(channel attention,CA)模塊[20]。其中,RFB旨在進(jìn)一步擴(kuò)展不同區(qū)域的感受野,獲得更多的語(yǔ)義特征。SA和CA模塊用于突出船舶的重要特征,可有效抑制周圍環(huán)境的干擾,例如船舶的波浪和尾跡。最后,在特征金字塔的不同尺度特征上使用YOLOv4檢測(cè)模塊生成最終的檢測(cè)結(jié)果。該模塊沿用了YOLOv3檢測(cè)模塊,因此在文中用YOLOv3-Head表示。此外,為了評(píng)估本文所提方法的性能,本文在新加坡海事數(shù)據(jù)集(Singapore maritime dataset,SMD)上進(jìn)行實(shí)驗(yàn),SMD是視覺(jué)船舶檢測(cè)的代表數(shù)據(jù)集之一。檢測(cè)結(jié)果表明,與現(xiàn)有的Faster-RCNN、SSD、YOLOv3、YOLOv4[21]、RetinaNet[22]、YOLOx[23]和CenterNet[24]方法相比,所提方法對(duì)于復(fù)雜背景下的多尺度船舶檢測(cè)更為有效。本文的主要貢獻(xiàn)總結(jié)如下。
(1)提出充分利用注意力機(jī)制,并結(jié)合網(wǎng)絡(luò)中多層次信息的交互融合方法解決復(fù)雜環(huán)境下多尺度船舶的同步檢測(cè)問(wèn)題。
(2)合理結(jié)合MLIF和MARF模塊,引入細(xì)粒度特征金字塔方法以細(xì)化不同尺度特征圖的語(yǔ)義信息,增強(qiáng)非局部特征之間的關(guān)系。
(3)構(gòu)建了以SMD中多個(gè)船舶類別為基礎(chǔ)的沿海、近海鄰域背景的船舶數(shù)據(jù)集,并通過(guò)多角度實(shí)驗(yàn)比較,論證了所提方法的有效性和先進(jìn)性。
目標(biāo)檢測(cè)網(wǎng)絡(luò)通常使用一個(gè)非常深的主干網(wǎng)絡(luò)沿自底向上的路徑進(jìn)行特征提取,但檢測(cè)小尺度物體時(shí),深的網(wǎng)絡(luò)會(huì)造成物體語(yǔ)義信息或者位置信息的丟失。因此,一些檢測(cè)方法通過(guò)設(shè)計(jì)一個(gè)性能良好的特征金字塔結(jié)構(gòu)來(lái)提高多尺度物體檢測(cè)的準(zhǔn)確率,如YOLOv4和RetinaNet。與之前的YOLO系列網(wǎng)絡(luò)框架相比,YOLOv4主干網(wǎng)絡(luò)采用的CSPDarkNet53是DarkNet53的改進(jìn)版本。YOLOv4的特征金字塔部分是由特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[25]和路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)[26]通過(guò)自頂向下路徑將高級(jí)特征融合到低級(jí)特征來(lái)生成的。所采用的多尺度特征融合主要通過(guò)將13×13、26×26、52×52 共3種不同尺寸的特征圖構(gòu)建特征金字塔,分別用于檢測(cè)大、中、小目標(biāo)。這種多尺度預(yù)測(cè)使得YOLOv4對(duì)弱目標(biāo)更加敏感,顯著提高了其檢測(cè)能力。YOLOv4的檢測(cè)模塊仍沿用YOLOv3的檢測(cè)模塊,但在損失函數(shù)部分進(jìn)行了改進(jìn)[27]。所采用的損失函數(shù)具體如下。
YOLOv4的特征金字塔結(jié)構(gòu)主要是通過(guò)融合不同特征層來(lái)增強(qiáng)網(wǎng)絡(luò)中上下文語(yǔ)義特征,但這些來(lái)自不同特征映射的特征仍然不平衡。具體來(lái)說(shuō),高級(jí)特征層中包含豐富的語(yǔ)義信息,但缺乏準(zhǔn)確的位置信息。而低級(jí)特征層中包含豐富的位置信息,但語(yǔ)義信息較少。尤其是在復(fù)雜的海洋環(huán)境中,不僅包含了不同尺度的船舶,而且周圍環(huán)境也非常復(fù)雜,這就使得YOLOv4的檢測(cè)效果不理想。此外,隨著檢測(cè)網(wǎng)絡(luò)層數(shù)加深,小尺度的船舶特征就會(huì)消失,那么沿自上而下路徑融合船舶特征是不可能的。因此,為了增強(qiáng)上下文語(yǔ)義特征,突出船舶的重要特征,建立一個(gè)細(xì)粒度特征金字塔是非常有必要的。本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,可以看出,本文所提方法主要通過(guò)融合MLIF和MARF模塊構(gòu)造一個(gè)雙向融合的細(xì)粒度特征金字塔。該特征金字塔結(jié)構(gòu)主要包括空間金字塔池化(spatial pyramid pooling,SPP)模塊[28]、特征提?。╢eature extraction,F(xiàn)E)[29]模塊、MLIF模塊和MARF模塊。
圖1 本文方法的網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv4的主干特征提取網(wǎng)絡(luò)的最深層特征會(huì)經(jīng)過(guò)SPP模塊進(jìn)行特征提取并擴(kuò)大感受野,然后經(jīng)過(guò)FE模塊進(jìn)一步深層次地提取特征。SPP和FE模塊的具體結(jié)構(gòu)如圖2所示。SPP模塊由1個(gè)瓶頸層、3個(gè)內(nèi)核大小為(5×5)、(9×9)和(13×13)的最大池化層以及1個(gè)級(jí)聯(lián)操作組成。它能夠顯著地增加感受野,分離得到最重要的上下文特征,幾乎不會(huì)降低網(wǎng)絡(luò)運(yùn)行速度。FE模塊主要由兩個(gè)瓶頸層和兩個(gè)卷積層組成,其中瓶頸層用于減少特征通道的數(shù)量,卷積層用于提取特征。FE模塊主要用于生成更多上下文和語(yǔ)義特征。
圖2 SPP和FE模塊的具體結(jié)構(gòu)
Cao等[30]提出,當(dāng)主干網(wǎng)絡(luò)非常深時(shí),可以通過(guò)融合更大規(guī)模的特征層來(lái)擴(kuò)展小型船舶的語(yǔ)義信息。此外,低級(jí)特征中包含豐富的位置信息有利于物體的定位。因此,本文將主干網(wǎng)絡(luò)中的4層不同尺度的特征層融入MLIF模塊,從而將深層特征的語(yǔ)義信息與淺層特征的邊緣特征信息結(jié)合起來(lái)。這種操作可以使算法感知更多的小尺寸船舶的特征,有利于海洋環(huán)境中多尺度船舶的檢測(cè)。
(9)
圖4 MARF模塊的結(jié)構(gòu)和參數(shù)
其中,RFB主要通過(guò)1×1或3×3卷積運(yùn)算減少通道數(shù),進(jìn)而減少網(wǎng)絡(luò)的計(jì)算量。然后采用膨脹卷積并行捕獲多尺度船舶的上下文語(yǔ)義信息。此外,RFB有較大的感受野和較小的網(wǎng)絡(luò)參數(shù)。RFB主要由3個(gè)卷積分支和1個(gè)級(jí)聯(lián)操作組成。每個(gè)分支包含3個(gè)卷積層,最后一層是膨脹率分別為1、3、5的膨脹卷積,用于捕獲全局特征。由于大膨脹率卷積可以獲得船舶的非局部特征,如輪廓、邊緣等,因此適合于多尺度船舶的檢測(cè)。通過(guò)級(jí)聯(lián)操作,在相同的特征映射上增強(qiáng)船舶的局部特征及其全局依賴性。最終的輸出特征在校正線性單元函數(shù)后獲得,用于改善RFB的非線性。具體可由以下計(jì)算式表示。
在通道注意力模塊中,經(jīng)過(guò)RFB的特征圖譜首先沿著其寬度和高度平行采用最大池化層和平均池化層;然后,使用共享多層感知器沿特征圖譜的通道維度輸出權(quán)重;接著,將共享MLP應(yīng)用于每個(gè)描述符之后,使用元素求和來(lái)合并輸出特征向量;最后經(jīng)過(guò)ReLU激活函數(shù)生成通道注意特征圖譜。在空間注意力模塊中,淺層特征首先沿著其通道軸應(yīng)用最大池化和平均池化操作,并將它們連接起來(lái),以生成有效的特征圖譜;然后在級(jí)聯(lián)的特征圖譜上應(yīng)用卷積層進(jìn)行進(jìn)一步特征提?。蛔詈笸瑯咏?jīng)過(guò)ReLU激活函數(shù)生成空間注意特征圖譜。經(jīng)過(guò)CA和SA模塊生成的特征都經(jīng)過(guò)與當(dāng)前特征進(jìn)行相乘后,淺層特征再經(jīng)過(guò)下采樣與通道注意特征進(jìn)行元素求和合并輸出最終的特征向量。通道注意特征和空間注意特征的計(jì)算式如下。
本文數(shù)據(jù)集中的圖像主要來(lái)自新加坡海事數(shù)據(jù)集(Singapore maritime dataset,SMD)。SMD提供由分別固定在岸上和船上的佳能70D相機(jī)拍攝的新加坡水域周圍的高清格式(1 080×1 920像素)的可見(jiàn)光(visual-optical,VIS)和近紅外(near infrared,NIR)視頻。它包含81個(gè)視頻文件,包括9個(gè)不同類別的240 842個(gè)目標(biāo)標(biāo)簽。SMD中的圖像包含大量不同的船舶,如浮標(biāo)、快艇、皮劃艇和輪船,且這些船舶在圖中的尺度變化較大。這對(duì)于檢測(cè)算法來(lái)說(shuō)是非常具有挑戰(zhàn)性的。本文將SMD隨機(jī)分為3個(gè)部分,即訓(xùn)練集、驗(yàn)證集和測(cè)試集,其比例為7:1:2,并從SMD中提取4 470張圖像作為訓(xùn)練集,635張圖像作為驗(yàn)證集,1 245張圖像作為測(cè)試集。SMD的部分樣本和標(biāo)簽如圖5所示。
圖5 SMD的部分樣本和標(biāo)簽
本文采用的算法評(píng)估指標(biāo)為:準(zhǔn)確率(precision,P)、召回率(recall,R)、平均準(zhǔn)確率(average precision,AP)與 F分?jǐn)?shù)(F1)。精度均值(mean average precision,mAP)是多個(gè)類別的AP的平均值,用來(lái)衡量模型在所有類別上訓(xùn)練效果的好壞。F1是一個(gè)綜合指標(biāo),用于結(jié)合準(zhǔn)確率和召回率來(lái)判斷不同網(wǎng)絡(luò)的性能。此外,為了評(píng)估目標(biāo)檢測(cè)網(wǎng)絡(luò)的檢測(cè)速度,本文使用每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)作為網(wǎng)絡(luò)檢測(cè)速度評(píng)估標(biāo)準(zhǔn),其計(jì)算式如下。
本實(shí)驗(yàn)使用的配備是Intel i5-8 400HQ(2.5 GHz)CPU和Nvidia GeForce GTX 1 070 GPU,均采用Python語(yǔ)言編寫(xiě),且均使用PyTorch平臺(tái)。在網(wǎng)絡(luò)訓(xùn)練中,采用初始學(xué)習(xí)率為0.01的多項(xiàng)式衰減學(xué)習(xí)率調(diào)度策略,動(dòng)量為0.9的標(biāo)準(zhǔn)Adam優(yōu)化器,同時(shí)標(biāo)簽平滑設(shè)置為0.01。每批次輸入網(wǎng)絡(luò)的圖像個(gè)數(shù)則根據(jù)網(wǎng)絡(luò)框架的深度和GPU內(nèi)存限制設(shè)置為16,并設(shè)置分割系數(shù)為16,讓網(wǎng)絡(luò)能夠最大限度地提高GPU的內(nèi)存利用率,同時(shí)實(shí)現(xiàn)網(wǎng)絡(luò)的快速訓(xùn)練。此外,通過(guò)采用提前停止的策略,使網(wǎng)絡(luò)能夠在100個(gè)Epoch內(nèi)終止訓(xùn)練過(guò)程,從而加快網(wǎng)絡(luò)的訓(xùn)練速度。
本文通過(guò)提出雙向“細(xì)粒度”融合特征金字塔模塊對(duì)多尺度船舶進(jìn)行了更為精確的檢測(cè),其中MLIF和MARF模塊的改進(jìn)正是細(xì)粒度融合特征金字塔模塊的主要部分。因此,為了評(píng)估本文算法對(duì)SMD圖像中多尺度船舶檢測(cè)的有效性,以CSPDarkNet53主干特征網(wǎng)絡(luò)為基礎(chǔ),在SMD數(shù)據(jù)集上進(jìn)行MLIF和MARF模塊的消融實(shí)驗(yàn),定量分析了兩個(gè)模塊的檢測(cè)性能,具體見(jiàn)表1。
表1 不同模塊精度對(duì)比
表1顯示了船舶檢測(cè)網(wǎng)絡(luò)應(yīng)用各個(gè)模塊的檢測(cè)結(jié)果,從表1可以看出,在FPS基本一致的情況下,MLIF-PAN的mAP值比FPN-PAN (YOLOv4)高4.8%,說(shuō)明MLIF模塊能夠提高網(wǎng)絡(luò)的檢測(cè)能力。FPN-RFB的mAP值比FPN-PAN提高了3.6%,MLIF-RFB的mAP值比MLIF-PAN提高了3.7%。這是因?yàn)樵趶?fù)雜環(huán)境中RFB模塊可以通過(guò)增強(qiáng)局部特征及其全局依賴性,如波浪、相機(jī)抖動(dòng)等,獲取豐富的語(yǔ)義信息進(jìn)一步準(zhǔn)確地檢測(cè)多尺度船舶。在另一方面,僅采用SA和CA模塊來(lái)進(jìn)行特征融合時(shí),F(xiàn)PN-SA、CA和MLIF-SA、CA的mAP值會(huì)有所降低,這主要是由于該種方法缺乏RFB模塊來(lái)擴(kuò)大船舶感受野。此外,MLIF-MARF的mAP值比MLIF-RFB高,F(xiàn)PN-MARF的mAP值比FPN-RFB高。這主要是因?yàn)樽⒁饬C(jī)制有效抑制了來(lái)自RFB的冗余特征,網(wǎng)絡(luò)可以更加突出船舶的顯著特征并對(duì)其進(jìn)行區(qū)分,證明了MARF模塊在提高多尺度船舶檢測(cè)精度方面具有泛化能力。
為了進(jìn)一步驗(yàn)證所提方法對(duì)多尺度船舶的檢測(cè)能力,本文分別比較了FPN-PAN、MLIF-PAN和本文方法(MLIF-MARF)在檢測(cè)不同尺寸船舶方面的性能。不同模塊對(duì)多尺度船舶檢測(cè)精度對(duì)比見(jiàn)表2,可見(jiàn)本文方法mAP指標(biāo)均優(yōu)于FPN-PAN(YOLOv4),在檢測(cè)小尺寸船舶方面,比FPN-PAN提升高達(dá)40.9%的準(zhǔn)確率。這主要是因?yàn)楸疚姆椒軌蛴行У卦鰪?qiáng)非局部特征之間的關(guān)系,充分整合不同特征圖上的語(yǔ)義信息。
表2 不同模塊對(duì)多尺度船舶檢測(cè)精度對(duì)比
圖6比較了FPN-PAN、MLIF-PAN和本文方法的直觀檢測(cè)效果。從SMD中選擇了3組不同場(chǎng)景下的船舶圖像,在船上拍攝的畫(huà)面,船舶比例小、排列稀疏的可見(jiàn)光圖片如圖6(a)所示;在岸上拍攝的船舶比較密集,且包含大量不同尺度的船舶可見(jiàn)光圖片如圖6(b)所示;光線比較昏暗的近紅外光船舶圖片如圖6(c)所示。根據(jù)3組不同場(chǎng)景的檢測(cè)結(jié)果,以及和真值(ground truth)圖的對(duì)比,本文可以得出如下結(jié)論。
圖6 FPN-PAN、MLIF-PAN與本文算法(MLIF-MARF)在不同環(huán)境下的結(jié)果對(duì)比
(1)MLIF和MARF兩個(gè)模塊能夠有效地提高網(wǎng)絡(luò)對(duì)周圍環(huán)境和船舶的檢測(cè)性能。因?yàn)樵趫D6中,3組場(chǎng)景下本文算法(MLIF-MARF)的檢測(cè)結(jié)果均不存在誤報(bào),而MLIF-PAN和FPN-PAN的檢測(cè)結(jié)果都會(huì)出現(xiàn)漏檢的情況。
(2)MARF模塊能夠增強(qiáng)具有全局依賴性的局部特征,并且進(jìn)一步細(xì)化小尺度物體的顯著特征。這點(diǎn)可由圖6(b)和圖6(c)中看出,本文算法(MLIF-MARF)能夠準(zhǔn)確檢測(cè)虛線圓圈框中的小物體,而FPN-PAN、MLIF-PAN結(jié)構(gòu)卻不能。
此外,為了驗(yàn)證算法對(duì)背景特征的抑制作用,各個(gè)模塊特征激活圖如圖7所示,分別顯示了FPN-PAN、MLIF-PAN和本文算法(MLIF-MARF)3種方法在不同環(huán)境下的特征激活圖。從圖7中可以清晰看出YOLOv4(FPN-PAN))算法受背景干擾,檢測(cè)存在很多漏檢和誤檢現(xiàn)象;MLIF-PAN算法雖然使得船舶檢測(cè)率有所提升,但周邊的環(huán)境對(duì)算法仍然造成了很大的影響。而本文方法(MLIF-MARF)在增加了注意力機(jī)制模塊之后,對(duì)周邊環(huán)境的冗余特征抑制作用較大,能夠準(zhǔn)確地識(shí)別船舶特征并將周邊環(huán)境對(duì)它的影響降到最低。
為了進(jìn)一步驗(yàn)證本文算法在檢測(cè)多尺度船舶方面的性能,將本文所提算法與7種具有代表性的目標(biāo)檢測(cè)方法Faster-RCNN、SSD、RetinaNet、CenterNet、YOLOx、YOLOv3和YOLOv4進(jìn)行對(duì)比實(shí)驗(yàn),這里均采用相同的數(shù)據(jù)劃分和優(yōu)化參數(shù)方法進(jìn)行訓(xùn)練,與其他目標(biāo)檢測(cè)方法的對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表3。
圖7 FPN-PAN、MLIF-PAN與本文算法(MLIF-MARF)在不同環(huán)境下的特征激活圖
表3 與其他目標(biāo)檢測(cè)方法的對(duì)比實(shí)驗(yàn)結(jié)果
由表3可以看出,兩階段算法Faster-RCNN的準(zhǔn)確率要高于一階段的算法,這是因?yàn)閮呻A段算法比一階段算法更注重準(zhǔn)確性,但其檢測(cè)速度很慢、達(dá)不到實(shí)時(shí)檢測(cè)效果。相比于其他一階段的檢測(cè)算法,本文提出的檢測(cè)算法在檢測(cè)精度方面表現(xiàn)最好,遠(yuǎn)高于YOLOv4算法,主要是因?yàn)閅OLOv4通過(guò)融合3層特征圖來(lái)獲取船舶的細(xì)粒度特征信息,這使其不能夠充分地提取小尺度的船舶語(yǔ)義信息。此外,RetinaNet的mAP值相比于其他算法也是比較高的,這主要是因?yàn)樵撍惴ㄍ瑯泳哂幸粋€(gè)融合多層特征信息的金字塔結(jié)構(gòu),但該算法的船舶檢測(cè)速度要低于本文所提算法。另一方面,從F1角度來(lái)看,本文所提算法比其他算法提高了34.1%,進(jìn)一步證明本文算法的綜合性能較好。最后,根據(jù)表3最后一列所示的FPS值可見(jiàn),本文所提算法的FPS比Faster-RCNN快得多。其中YOLOx的運(yùn)行速度比其他方法快,這可能是因?yàn)樗诠歉删W(wǎng)絡(luò)中采用了深度可分離卷積,且屬于無(wú)錨框算法。但本文所提算法仍能滿足實(shí)時(shí)性要求。
圖8中展現(xiàn)了5種檢測(cè)算法在SMD上的檢測(cè)結(jié)果。圖8(a)為相機(jī)固定在船舶上采集的,這類圖片的主要特點(diǎn)是包含較少的船舶且占據(jù)整張圖片的比例較小,這會(huì)嚴(yán)重干擾每種算法的準(zhǔn)確率。從圖8(a)可以看出,本文的算法準(zhǔn)確地檢測(cè)到所有船舶目標(biāo),而對(duì)于SSD則沒(méi)有檢測(cè)出船舶A。圖8(b)中每張圖片都包含了許多不同尺寸的船舶目標(biāo)且它們都密集分布。從圖8(b)可以看出,SSD、Faster-RCNN、YOLOv4和CenterNet都存在漏檢(飛機(jī)B或小船C)。而對(duì)于本文的算法由于采用了細(xì)粒度特征金字塔結(jié)構(gòu),因此可以準(zhǔn)確地檢測(cè)到每種船舶目標(biāo)。圖8(c)中的船舶圖片則主要來(lái)自近紅外視頻,這類圖片的整體畫(huà)面光線比較昏暗。從圖8(c)可以看出,在YOLOv4、SSD和CenterNet的檢測(cè)結(jié)果中,一些檢測(cè)目標(biāo)或多或少地被漏檢了(飛機(jī)D、船舶E、船舶F和船舶G)。而本文算法同樣能夠準(zhǔn)確檢測(cè)到各種船舶目標(biāo)。以上3種場(chǎng)景的船舶檢測(cè)結(jié)果充分證明了本文所提算法能夠通過(guò)細(xì)粒度特征金字塔模塊,增加網(wǎng)絡(luò)自下向上的信息融合路徑,提供更準(zhǔn)確的網(wǎng)絡(luò)低層特征細(xì)節(jié)信息,從而進(jìn)一步提高多尺度船舶的檢測(cè)準(zhǔn)確率。
圖8 不同算法檢測(cè)結(jié)果對(duì)比
為解決多尺度船舶檢測(cè)難的問(wèn)題,本文提出了一種基于YOLOv4的高效多層注意力接收融合網(wǎng)絡(luò)方法。該方法主要在特征金字塔部分融合了MLIF和MARF模塊,使網(wǎng)絡(luò)能夠在多尺度上融合特征,充分增強(qiáng)上下文語(yǔ)義特征,擴(kuò)展感知范圍,提高了多尺度艦船的檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法在復(fù)雜的海洋環(huán)境下對(duì)多尺度船舶具有良好的檢測(cè)效果,與YOLOv4相比,檢測(cè)的準(zhǔn)確度有大幅提升。
[1] HUANG J, JIANG Z G, ZHANG H P, et al. Region proposal for ship detection based on structured forests edge method[C]// Proceedings of 2017 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE Press, 2017: 1856-1859.
[2] ZHU Q Y, JIANG Y L, CHEN B. Design and implementation of video-based detection system for WHARF ship[C]//Proceedings of IET International Conference on Smart and Sustainable City 2013 (ICSSC 2013). IET, 2013: 493-496.
[3] LI S, ZHOU Z Q, WANG B, et al. A novel inshore ship detection via ship head classification and body boundary determination[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(12): 1920-1924.
[4] LIU L, WANG X G, CHEN J, et al. Deep learning for generic object detection: a survey[J]. International Journal of Computer Vision, 2020, 128(2): 261-318.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 27th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2014: 580-587.
[6] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2015: 1440-1448.
[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2016: 779-788.
[9] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 7263-7271.
[10] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB]. 2018: arXiv.1804.02767.
[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 21-37.
[12] 張佳欣, 王華力. 改進(jìn)YOLOv3的SAR圖像艦船目標(biāo)檢測(cè)[J]. 信號(hào)處理, 2021, 37(9): 1623-1632.
ZHANG J X, WANG H L. Ship target detection in SAR image based on improved YOLOv3[J]. Journal of Signal Processing, 2021, 37(9): 1623-1632.
[13] PENG X L, ZHONG R F, LI Z, et al. Optical remote sensing image change detection based on attention mechanism and image difference[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(9): 7296-7307.
[14] 張?bào)汴? 姚力波, 呂亞飛, 等. 雙向特征融合的數(shù)據(jù)自適應(yīng)SAR圖像艦船目標(biāo)檢測(cè)模型[J]. 中國(guó)圖象圖形學(xué)報(bào), 2020, 25(9): 1943-1952.
ZHANG X H, YAO L B, LYU Y F, et al. Data-adaptive single-shot ship detector with a bidirectional feature fusion module for SAR images[J]. Journal of Image and Graphics, 2020, 25(9): 1943-1952.
[15] SHAO Z F, WU W J, WANG Z Y, et al. SeaShips: a large-scale precisely annotated dataset for ship detection[J]. IEEE Transactions on Multimedia, 2018, 20(10): 2593-2604.
[16] LI Y, GUO J, GUO X, et al. A novel target detection method of the unmanned surface vehicle under all-weather conditions with an improved YOLOv3[J]. Sensors, 2020, 20(17): 4885.
[17] SHAO Z, WANG L, WANG Z, et al. Saliency-aware convolution neural network for ship detection in surveillance video[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(3): 781-794.
[18] WANG C Y, LIAO H, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 390-391.
[19] LIU S, HUANG D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 385-400.
[20] WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.
[21] BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4: optimal speed and accuracy of object detection[EB]. 2020: arXiv. 2004.10934.
[22] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2017: 2999-3007.
[23] GE Z, LIU S, WANG F, et al. YOLOx: exceeding yolo series in 2021[EB]. 2021.
[24] DUAN K W, BAI S, XIE L X, et al. CenterNet: keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 6569-6578.
[25] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2117-2125.
[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.
[27] 康帥, 章堅(jiān)武, 朱尊杰, 等. 改進(jìn)YOLOv4算法的復(fù)雜視覺(jué)場(chǎng)景行人檢測(cè)方法[J]. 電信科學(xué), 2021, 37(8): 46-56.
KANG S, ZHANG J W, ZHU Z J, et al. An improved YOLOv4 algorithm for pedestrian detection in complex visual scenes[J]. Telecommunications Science, 2021, 37(8): 46-56.
[28] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916
[29] CHEN P Y, HSIEH J W, WANG C Y, et al. Recursive hybrid fusion pyramid network for real-time small object detection on embedded devices[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 402-403.
[30] CAO C, WU J, ZENG X, et al. Research on airplane and ship detection of aerial remote sensing images based on convolutional neural network[J]. Sensors, 2020, 20(17): 4696.
A real-time detection method for multi-scale ships in complex scenes
ZHOU Weina, LIU Lu
School of information Engineering, Shanghai Maritime University, Shanghai 201306, China
Ship detection plays an important role in tasks such as military reconnaissance, maritime target tracking, and maritime traffic control. However, due to the influence of variable sizes of ships and complex background of sea surface, detecting multi-scale ships remains a challenge in complex sea surfaces. To solve this problem, an improved YOLOv4 method based on multi-layers information interactive fusion and attention mechanism was proposed. Multi-layers information interactive fusion (MLIF) and multi-attention receptive field (MARF) were applied and combined reasonably to build a bidirectional fine-grained feature pyramid. MLIF was used to fuse feature of different scales, which not only concatenated high-level semantic features from deep layers, but also reshaped richer features from shallower layers. MARF consisted of receptive field block (RFB) and attention mechanism module, which effectively emphasized the important features and suppressed unnecessary ones. In addition, to further evaluate the performance of the proposed method, experiments were carried out on Singapore maritime dataset (SMD). The results illustrate that the method proposed can effectively solve the problem of difficult detection of multi-scale ships in complex marine environment, and meet the real-time requirements at the same time.
multi-scale ship detection, multi-layers information interactive fusion, multi-attention receptive field, bidirectional fine-grained feature pyramid
TP391
A
10.11959/j.issn.1000–0801.2022258
2022?02?11;
2022?08?15
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.52071200,No.61404083);專用集成電路與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放研究課題基金資助項(xiàng)目(No.2021KF010)
The National Natural Science Foundation of China (No. 52071200, No.61404083), The State Key Laboratory of ASIC and System (No. 2021KF010)
周薇娜(1982– ),女,博士,上海海事大學(xué)信息工程學(xué)院副教授、碩士生導(dǎo)師,主要研究方向?yàn)閳D像處理、目標(biāo)檢測(cè)算法和ASIC設(shè)計(jì)。
劉露(1996– ),女,上海海事大學(xué)信息工程學(xué)院碩士生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、目標(biāo)檢測(cè)與人工智能等。