周薇娜,劉露
研究與開發(fā)
復(fù)雜場景下多尺度船舶實時檢測方法
周薇娜,劉露
(上海海事大學(xué)信息與工程學(xué)院,上海 201306)
船舶檢測在軍事偵察、海上目標(biāo)跟蹤、海上交通管制等任務(wù)中發(fā)揮著重要作用。然而,受船舶外形尺度多變和復(fù)雜海面背景的影響,在復(fù)雜海面上檢測多尺度船舶仍然是一個挑戰(zhàn)。針對此難題,提出了一種基于多層信息交互融合和注意力機制的YOLOv4改進方法。該方法主要通過多層信息交互融合(multi-layer information interactive fusion,MLIF)模塊和多注意感受野(multi-attention receptive field,MARF)模塊構(gòu)建一個雙向細(xì)粒度特征金字塔。其中,MLIF模塊用于融合不同尺度的特征,不僅能將深層的高級語義特征串聯(lián)在一起,而且將較淺層的豐富特征進行重塑;MARF由感受野模塊(receptive field block,RFB)與注意力機制模塊組成,能有效地強調(diào)重要特征并抑制冗余特征。此外,為了進一步評估提出方法的性能,在新加坡海事數(shù)據(jù)集(Singapore maritime dataset,SMD)上進行了實驗。實驗結(jié)果表明,所提方法能有效地解決復(fù)雜海洋環(huán)境下多尺度船舶檢測的難題,且同時滿足了實時需求。
多尺度船舶檢測;多層信息交互融合;多注意感受野;雙向細(xì)粒度特征金字塔
海洋環(huán)境中的視覺目標(biāo)檢測是計算機視覺領(lǐng)域的重要研究課題之一。準(zhǔn)確、快速的多尺度船舶檢測方法不僅能為碼頭管理、港口監(jiān)控和安全航行提供非常重要的信息,而且對走私船舶的檢測和海上救援也起著重要的作用。
傳統(tǒng)的船舶檢測算法大多基于船舶結(jié)構(gòu)和形狀進行手動特征設(shè)計。雖然這些算法[1-3]取得了一些好的結(jié)果,但即使使用當(dāng)時最好的非線性分類器對這些手動設(shè)計的特征進行分類,其檢測精度仍不能滿足實際需要[4]。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在目標(biāo)檢測方面取得了越來越顯著的性能。目前,基于CNN的目標(biāo)檢測算法可分為兩類。
(1)基于區(qū)域推薦的算法,形成了以Faster R-CNN[5-7]為代表的兩階段算法。該類算法由于具有較高的檢測精度,在多尺度船舶檢測中得到了廣泛的應(yīng)用,但檢測速度不足以滿足實時檢測的要求。
(2)基于回歸的算法,形成了以YOLO[8-10]和SSD[11]為代表的單階段算法。該類算法將檢測問題轉(zhuǎn)化為回歸問題,大大提高了檢測速度,在實時船舶檢測中具有突出的優(yōu)勢。
目前應(yīng)用于海上船舶檢測算法大多基于合成孔徑雷達(synthetic aperture radar,SAR)遙感圖像,但隨著SAR成像速度不斷地提高,算法能夠?qū)崟r快速地檢測顯得尤為重要。如張佳欣等[12]提出了一種基于改進YOLOv3的SAR圖像船舶檢測方法,通過改進算法的檢測策略提升了算法對復(fù)雜場景下不同船舶目標(biāo)的適應(yīng)性。Peng等[13]提出了一種由多個上采樣注意單元組成的密集注意方法,該方法采用上采樣空間和上采樣通道注意機制,通過空間上下文信息捕獲目標(biāo)的變化特征。張筱晗等[14]提出精簡網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)驅(qū)動的目標(biāo)分布聚類算法,結(jié)合雙向高低層特征融合機制,減少了訓(xùn)練和測試時間,但檢測精度較低,同時模型復(fù)雜度較高。然而,由于衛(wèi)星獲取的SAR遙感圖像中,場景種類比較單一,獲取的船舶特征穩(wěn)定性不足。
為了克服這個問題,研究者們提出了其他新的多尺度船舶檢測方法[15-17]。Shao等[15]構(gòu)建了一個新的大型船舶數(shù)據(jù)集,其中包含6種常見的船舶類型,用于訓(xùn)練和評估船舶目標(biāo)檢測算法。Guo等[16]提出了一種新的基于海面無人水面車輛(unmanned surface vessel,USV)圖像的目標(biāo)檢測算法,主要通過融合DenseNet和YOLOv3網(wǎng)絡(luò)來實時檢測真實海洋環(huán)境中的多尺度船舶。該方法在一定程度上能夠提高檢測的穩(wěn)定性,以減少特征損失。Shao等[17]首次提出利用陸地監(jiān)控攝像機網(wǎng)絡(luò)捕獲的視覺圖像來進行實時船舶檢測,并設(shè)計了一個重要的感知CNN框架來預(yù)測船舶的類別與位置。
然而,這些方法應(yīng)用在真實海面環(huán)境下多尺度船舶檢測時仍然存在一些難題,尤其當(dāng)圖像中背景信息復(fù)雜、包含大量不同尺度船舶、復(fù)雜環(huán)境中的尾流等噪聲類似于小尺度船舶等。所有這些情況都會對多尺度船舶的準(zhǔn)確檢測造成很大的干擾。因此,增強上下文語義信息,并突出船舶的顯著特征,對于提高多尺度船舶的檢測性能至關(guān)重要。
為了能同時兼顧檢測精度和速度,本文提出了一種基于多層信息交互融合和注意力機制的網(wǎng)絡(luò)結(jié)構(gòu)。首先,采用CSPDarkNet53[18]作為主干網(wǎng)絡(luò)進行特征提?。蝗缓?,在主干網(wǎng)絡(luò)之后,采用改進的細(xì)粒度特征金字塔結(jié)構(gòu)。特征金字塔主要包含兩個關(guān)鍵模塊,即多層信息交互融合(multi-layer information interactive fusion,MLIF)模塊和多注意感受野(multi-attention receptive field,MARF)模塊。MLIF模塊分別通過級聯(lián)和重塑操作將較深層和較淺層的特征融合到當(dāng)前層,它可以充分增強上下文語義特征。MARF模塊合理地結(jié)合了感受野模塊(receptive field block,RFB)[19]、空間注意(spatial attention,SA)模塊和通道注意(channel attention,CA)模塊[20]。其中,RFB旨在進一步擴展不同區(qū)域的感受野,獲得更多的語義特征。SA和CA模塊用于突出船舶的重要特征,可有效抑制周圍環(huán)境的干擾,例如船舶的波浪和尾跡。最后,在特征金字塔的不同尺度特征上使用YOLOv4檢測模塊生成最終的檢測結(jié)果。該模塊沿用了YOLOv3檢測模塊,因此在文中用YOLOv3-Head表示。此外,為了評估本文所提方法的性能,本文在新加坡海事數(shù)據(jù)集(Singapore maritime dataset,SMD)上進行實驗,SMD是視覺船舶檢測的代表數(shù)據(jù)集之一。檢測結(jié)果表明,與現(xiàn)有的Faster-RCNN、SSD、YOLOv3、YOLOv4[21]、RetinaNet[22]、YOLOx[23]和CenterNet[24]方法相比,所提方法對于復(fù)雜背景下的多尺度船舶檢測更為有效。本文的主要貢獻總結(jié)如下。
(1)提出充分利用注意力機制,并結(jié)合網(wǎng)絡(luò)中多層次信息的交互融合方法解決復(fù)雜環(huán)境下多尺度船舶的同步檢測問題。
(2)合理結(jié)合MLIF和MARF模塊,引入細(xì)粒度特征金字塔方法以細(xì)化不同尺度特征圖的語義信息,增強非局部特征之間的關(guān)系。
(3)構(gòu)建了以SMD中多個船舶類別為基礎(chǔ)的沿海、近海鄰域背景的船舶數(shù)據(jù)集,并通過多角度實驗比較,論證了所提方法的有效性和先進性。
目標(biāo)檢測網(wǎng)絡(luò)通常使用一個非常深的主干網(wǎng)絡(luò)沿自底向上的路徑進行特征提取,但檢測小尺度物體時,深的網(wǎng)絡(luò)會造成物體語義信息或者位置信息的丟失。因此,一些檢測方法通過設(shè)計一個性能良好的特征金字塔結(jié)構(gòu)來提高多尺度物體檢測的準(zhǔn)確率,如YOLOv4和RetinaNet。與之前的YOLO系列網(wǎng)絡(luò)框架相比,YOLOv4主干網(wǎng)絡(luò)采用的CSPDarkNet53是DarkNet53的改進版本。YOLOv4的特征金字塔部分是由特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[25]和路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)[26]通過自頂向下路徑將高級特征融合到低級特征來生成的。所采用的多尺度特征融合主要通過將13×13、26×26、52×52 共3種不同尺寸的特征圖構(gòu)建特征金字塔,分別用于檢測大、中、小目標(biāo)。這種多尺度預(yù)測使得YOLOv4對弱目標(biāo)更加敏感,顯著提高了其檢測能力。YOLOv4的檢測模塊仍沿用YOLOv3的檢測模塊,但在損失函數(shù)部分進行了改進[27]。所采用的損失函數(shù)具體如下。
YOLOv4的特征金字塔結(jié)構(gòu)主要是通過融合不同特征層來增強網(wǎng)絡(luò)中上下文語義特征,但這些來自不同特征映射的特征仍然不平衡。具體來說,高級特征層中包含豐富的語義信息,但缺乏準(zhǔn)確的位置信息。而低級特征層中包含豐富的位置信息,但語義信息較少。尤其是在復(fù)雜的海洋環(huán)境中,不僅包含了不同尺度的船舶,而且周圍環(huán)境也非常復(fù)雜,這就使得YOLOv4的檢測效果不理想。此外,隨著檢測網(wǎng)絡(luò)層數(shù)加深,小尺度的船舶特征就會消失,那么沿自上而下路徑融合船舶特征是不可能的。因此,為了增強上下文語義特征,突出船舶的重要特征,建立一個細(xì)粒度特征金字塔是非常有必要的。本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,可以看出,本文所提方法主要通過融合MLIF和MARF模塊構(gòu)造一個雙向融合的細(xì)粒度特征金字塔。該特征金字塔結(jié)構(gòu)主要包括空間金字塔池化(spatial pyramid pooling,SPP)模塊[28]、特征提?。╢eature extraction,F(xiàn)E)[29]模塊、MLIF模塊和MARF模塊。
圖1 本文方法的網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv4的主干特征提取網(wǎng)絡(luò)的最深層特征會經(jīng)過SPP模塊進行特征提取并擴大感受野,然后經(jīng)過FE模塊進一步深層次地提取特征。SPP和FE模塊的具體結(jié)構(gòu)如圖2所示。SPP模塊由1個瓶頸層、3個內(nèi)核大小為(5×5)、(9×9)和(13×13)的最大池化層以及1個級聯(lián)操作組成。它能夠顯著地增加感受野,分離得到最重要的上下文特征,幾乎不會降低網(wǎng)絡(luò)運行速度。FE模塊主要由兩個瓶頸層和兩個卷積層組成,其中瓶頸層用于減少特征通道的數(shù)量,卷積層用于提取特征。FE模塊主要用于生成更多上下文和語義特征。
圖2 SPP和FE模塊的具體結(jié)構(gòu)
Cao等[30]提出,當(dāng)主干網(wǎng)絡(luò)非常深時,可以通過融合更大規(guī)模的特征層來擴展小型船舶的語義信息。此外,低級特征中包含豐富的位置信息有利于物體的定位。因此,本文將主干網(wǎng)絡(luò)中的4層不同尺度的特征層融入MLIF模塊,從而將深層特征的語義信息與淺層特征的邊緣特征信息結(jié)合起來。這種操作可以使算法感知更多的小尺寸船舶的特征,有利于海洋環(huán)境中多尺度船舶的檢測。
(9)
圖4 MARF模塊的結(jié)構(gòu)和參數(shù)
其中,RFB主要通過1×1或3×3卷積運算減少通道數(shù),進而減少網(wǎng)絡(luò)的計算量。然后采用膨脹卷積并行捕獲多尺度船舶的上下文語義信息。此外,RFB有較大的感受野和較小的網(wǎng)絡(luò)參數(shù)。RFB主要由3個卷積分支和1個級聯(lián)操作組成。每個分支包含3個卷積層,最后一層是膨脹率分別為1、3、5的膨脹卷積,用于捕獲全局特征。由于大膨脹率卷積可以獲得船舶的非局部特征,如輪廓、邊緣等,因此適合于多尺度船舶的檢測。通過級聯(lián)操作,在相同的特征映射上增強船舶的局部特征及其全局依賴性。最終的輸出特征在校正線性單元函數(shù)后獲得,用于改善RFB的非線性。具體可由以下計算式表示。
在通道注意力模塊中,經(jīng)過RFB的特征圖譜首先沿著其寬度和高度平行采用最大池化層和平均池化層;然后,使用共享多層感知器沿特征圖譜的通道維度輸出權(quán)重;接著,將共享MLP應(yīng)用于每個描述符之后,使用元素求和來合并輸出特征向量;最后經(jīng)過ReLU激活函數(shù)生成通道注意特征圖譜。在空間注意力模塊中,淺層特征首先沿著其通道軸應(yīng)用最大池化和平均池化操作,并將它們連接起來,以生成有效的特征圖譜;然后在級聯(lián)的特征圖譜上應(yīng)用卷積層進行進一步特征提取;最后同樣經(jīng)過ReLU激活函數(shù)生成空間注意特征圖譜。經(jīng)過CA和SA模塊生成的特征都經(jīng)過與當(dāng)前特征進行相乘后,淺層特征再經(jīng)過下采樣與通道注意特征進行元素求和合并輸出最終的特征向量。通道注意特征和空間注意特征的計算式如下。
本文數(shù)據(jù)集中的圖像主要來自新加坡海事數(shù)據(jù)集(Singapore maritime dataset,SMD)。SMD提供由分別固定在岸上和船上的佳能70D相機拍攝的新加坡水域周圍的高清格式(1 080×1 920像素)的可見光(visual-optical,VIS)和近紅外(near infrared,NIR)視頻。它包含81個視頻文件,包括9個不同類別的240 842個目標(biāo)標(biāo)簽。SMD中的圖像包含大量不同的船舶,如浮標(biāo)、快艇、皮劃艇和輪船,且這些船舶在圖中的尺度變化較大。這對于檢測算法來說是非常具有挑戰(zhàn)性的。本文將SMD隨機分為3個部分,即訓(xùn)練集、驗證集和測試集,其比例為7:1:2,并從SMD中提取4 470張圖像作為訓(xùn)練集,635張圖像作為驗證集,1 245張圖像作為測試集。SMD的部分樣本和標(biāo)簽如圖5所示。
圖5 SMD的部分樣本和標(biāo)簽
本文采用的算法評估指標(biāo)為:準(zhǔn)確率(precision,P)、召回率(recall,R)、平均準(zhǔn)確率(average precision,AP)與 F分?jǐn)?shù)(F1)。精度均值(mean average precision,mAP)是多個類別的AP的平均值,用來衡量模型在所有類別上訓(xùn)練效果的好壞。F1是一個綜合指標(biāo),用于結(jié)合準(zhǔn)確率和召回率來判斷不同網(wǎng)絡(luò)的性能。此外,為了評估目標(biāo)檢測網(wǎng)絡(luò)的檢測速度,本文使用每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)作為網(wǎng)絡(luò)檢測速度評估標(biāo)準(zhǔn),其計算式如下。
本實驗使用的配備是Intel i5-8 400HQ(2.5 GHz)CPU和Nvidia GeForce GTX 1 070 GPU,均采用Python語言編寫,且均使用PyTorch平臺。在網(wǎng)絡(luò)訓(xùn)練中,采用初始學(xué)習(xí)率為0.01的多項式衰減學(xué)習(xí)率調(diào)度策略,動量為0.9的標(biāo)準(zhǔn)Adam優(yōu)化器,同時標(biāo)簽平滑設(shè)置為0.01。每批次輸入網(wǎng)絡(luò)的圖像個數(shù)則根據(jù)網(wǎng)絡(luò)框架的深度和GPU內(nèi)存限制設(shè)置為16,并設(shè)置分割系數(shù)為16,讓網(wǎng)絡(luò)能夠最大限度地提高GPU的內(nèi)存利用率,同時實現(xiàn)網(wǎng)絡(luò)的快速訓(xùn)練。此外,通過采用提前停止的策略,使網(wǎng)絡(luò)能夠在100個Epoch內(nèi)終止訓(xùn)練過程,從而加快網(wǎng)絡(luò)的訓(xùn)練速度。
本文通過提出雙向“細(xì)粒度”融合特征金字塔模塊對多尺度船舶進行了更為精確的檢測,其中MLIF和MARF模塊的改進正是細(xì)粒度融合特征金字塔模塊的主要部分。因此,為了評估本文算法對SMD圖像中多尺度船舶檢測的有效性,以CSPDarkNet53主干特征網(wǎng)絡(luò)為基礎(chǔ),在SMD數(shù)據(jù)集上進行MLIF和MARF模塊的消融實驗,定量分析了兩個模塊的檢測性能,具體見表1。
表1 不同模塊精度對比
表1顯示了船舶檢測網(wǎng)絡(luò)應(yīng)用各個模塊的檢測結(jié)果,從表1可以看出,在FPS基本一致的情況下,MLIF-PAN的mAP值比FPN-PAN (YOLOv4)高4.8%,說明MLIF模塊能夠提高網(wǎng)絡(luò)的檢測能力。FPN-RFB的mAP值比FPN-PAN提高了3.6%,MLIF-RFB的mAP值比MLIF-PAN提高了3.7%。這是因為在復(fù)雜環(huán)境中RFB模塊可以通過增強局部特征及其全局依賴性,如波浪、相機抖動等,獲取豐富的語義信息進一步準(zhǔn)確地檢測多尺度船舶。在另一方面,僅采用SA和CA模塊來進行特征融合時,F(xiàn)PN-SA、CA和MLIF-SA、CA的mAP值會有所降低,這主要是由于該種方法缺乏RFB模塊來擴大船舶感受野。此外,MLIF-MARF的mAP值比MLIF-RFB高,F(xiàn)PN-MARF的mAP值比FPN-RFB高。這主要是因為注意力機制有效抑制了來自RFB的冗余特征,網(wǎng)絡(luò)可以更加突出船舶的顯著特征并對其進行區(qū)分,證明了MARF模塊在提高多尺度船舶檢測精度方面具有泛化能力。
為了進一步驗證所提方法對多尺度船舶的檢測能力,本文分別比較了FPN-PAN、MLIF-PAN和本文方法(MLIF-MARF)在檢測不同尺寸船舶方面的性能。不同模塊對多尺度船舶檢測精度對比見表2,可見本文方法mAP指標(biāo)均優(yōu)于FPN-PAN(YOLOv4),在檢測小尺寸船舶方面,比FPN-PAN提升高達40.9%的準(zhǔn)確率。這主要是因為本文方法能夠有效地增強非局部特征之間的關(guān)系,充分整合不同特征圖上的語義信息。
表2 不同模塊對多尺度船舶檢測精度對比
圖6比較了FPN-PAN、MLIF-PAN和本文方法的直觀檢測效果。從SMD中選擇了3組不同場景下的船舶圖像,在船上拍攝的畫面,船舶比例小、排列稀疏的可見光圖片如圖6(a)所示;在岸上拍攝的船舶比較密集,且包含大量不同尺度的船舶可見光圖片如圖6(b)所示;光線比較昏暗的近紅外光船舶圖片如圖6(c)所示。根據(jù)3組不同場景的檢測結(jié)果,以及和真值(ground truth)圖的對比,本文可以得出如下結(jié)論。
圖6 FPN-PAN、MLIF-PAN與本文算法(MLIF-MARF)在不同環(huán)境下的結(jié)果對比
(1)MLIF和MARF兩個模塊能夠有效地提高網(wǎng)絡(luò)對周圍環(huán)境和船舶的檢測性能。因為在圖6中,3組場景下本文算法(MLIF-MARF)的檢測結(jié)果均不存在誤報,而MLIF-PAN和FPN-PAN的檢測結(jié)果都會出現(xiàn)漏檢的情況。
(2)MARF模塊能夠增強具有全局依賴性的局部特征,并且進一步細(xì)化小尺度物體的顯著特征。這點可由圖6(b)和圖6(c)中看出,本文算法(MLIF-MARF)能夠準(zhǔn)確檢測虛線圓圈框中的小物體,而FPN-PAN、MLIF-PAN結(jié)構(gòu)卻不能。
此外,為了驗證算法對背景特征的抑制作用,各個模塊特征激活圖如圖7所示,分別顯示了FPN-PAN、MLIF-PAN和本文算法(MLIF-MARF)3種方法在不同環(huán)境下的特征激活圖。從圖7中可以清晰看出YOLOv4(FPN-PAN))算法受背景干擾,檢測存在很多漏檢和誤檢現(xiàn)象;MLIF-PAN算法雖然使得船舶檢測率有所提升,但周邊的環(huán)境對算法仍然造成了很大的影響。而本文方法(MLIF-MARF)在增加了注意力機制模塊之后,對周邊環(huán)境的冗余特征抑制作用較大,能夠準(zhǔn)確地識別船舶特征并將周邊環(huán)境對它的影響降到最低。
為了進一步驗證本文算法在檢測多尺度船舶方面的性能,將本文所提算法與7種具有代表性的目標(biāo)檢測方法Faster-RCNN、SSD、RetinaNet、CenterNet、YOLOx、YOLOv3和YOLOv4進行對比實驗,這里均采用相同的數(shù)據(jù)劃分和優(yōu)化參數(shù)方法進行訓(xùn)練,與其他目標(biāo)檢測方法的對比實驗結(jié)果見表3。
圖7 FPN-PAN、MLIF-PAN與本文算法(MLIF-MARF)在不同環(huán)境下的特征激活圖
表3 與其他目標(biāo)檢測方法的對比實驗結(jié)果
由表3可以看出,兩階段算法Faster-RCNN的準(zhǔn)確率要高于一階段的算法,這是因為兩階段算法比一階段算法更注重準(zhǔn)確性,但其檢測速度很慢、達不到實時檢測效果。相比于其他一階段的檢測算法,本文提出的檢測算法在檢測精度方面表現(xiàn)最好,遠(yuǎn)高于YOLOv4算法,主要是因為YOLOv4通過融合3層特征圖來獲取船舶的細(xì)粒度特征信息,這使其不能夠充分地提取小尺度的船舶語義信息。此外,RetinaNet的mAP值相比于其他算法也是比較高的,這主要是因為該算法同樣具有一個融合多層特征信息的金字塔結(jié)構(gòu),但該算法的船舶檢測速度要低于本文所提算法。另一方面,從F1角度來看,本文所提算法比其他算法提高了34.1%,進一步證明本文算法的綜合性能較好。最后,根據(jù)表3最后一列所示的FPS值可見,本文所提算法的FPS比Faster-RCNN快得多。其中YOLOx的運行速度比其他方法快,這可能是因為它在骨干網(wǎng)絡(luò)中采用了深度可分離卷積,且屬于無錨框算法。但本文所提算法仍能滿足實時性要求。
圖8中展現(xiàn)了5種檢測算法在SMD上的檢測結(jié)果。圖8(a)為相機固定在船舶上采集的,這類圖片的主要特點是包含較少的船舶且占據(jù)整張圖片的比例較小,這會嚴(yán)重干擾每種算法的準(zhǔn)確率。從圖8(a)可以看出,本文的算法準(zhǔn)確地檢測到所有船舶目標(biāo),而對于SSD則沒有檢測出船舶A。圖8(b)中每張圖片都包含了許多不同尺寸的船舶目標(biāo)且它們都密集分布。從圖8(b)可以看出,SSD、Faster-RCNN、YOLOv4和CenterNet都存在漏檢(飛機B或小船C)。而對于本文的算法由于采用了細(xì)粒度特征金字塔結(jié)構(gòu),因此可以準(zhǔn)確地檢測到每種船舶目標(biāo)。圖8(c)中的船舶圖片則主要來自近紅外視頻,這類圖片的整體畫面光線比較昏暗。從圖8(c)可以看出,在YOLOv4、SSD和CenterNet的檢測結(jié)果中,一些檢測目標(biāo)或多或少地被漏檢了(飛機D、船舶E、船舶F和船舶G)。而本文算法同樣能夠準(zhǔn)確檢測到各種船舶目標(biāo)。以上3種場景的船舶檢測結(jié)果充分證明了本文所提算法能夠通過細(xì)粒度特征金字塔模塊,增加網(wǎng)絡(luò)自下向上的信息融合路徑,提供更準(zhǔn)確的網(wǎng)絡(luò)低層特征細(xì)節(jié)信息,從而進一步提高多尺度船舶的檢測準(zhǔn)確率。
圖8 不同算法檢測結(jié)果對比
為解決多尺度船舶檢測難的問題,本文提出了一種基于YOLOv4的高效多層注意力接收融合網(wǎng)絡(luò)方法。該方法主要在特征金字塔部分融合了MLIF和MARF模塊,使網(wǎng)絡(luò)能夠在多尺度上融合特征,充分增強上下文語義特征,擴展感知范圍,提高了多尺度艦船的檢測精度。實驗結(jié)果表明,改進后的方法在復(fù)雜的海洋環(huán)境下對多尺度船舶具有良好的檢測效果,與YOLOv4相比,檢測的準(zhǔn)確度有大幅提升。
[1] HUANG J, JIANG Z G, ZHANG H P, et al. Region proposal for ship detection based on structured forests edge method[C]// Proceedings of 2017 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE Press, 2017: 1856-1859.
[2] ZHU Q Y, JIANG Y L, CHEN B. Design and implementation of video-based detection system for WHARF ship[C]//Proceedings of IET International Conference on Smart and Sustainable City 2013 (ICSSC 2013). IET, 2013: 493-496.
[3] LI S, ZHOU Z Q, WANG B, et al. A novel inshore ship detection via ship head classification and body boundary determination[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(12): 1920-1924.
[4] LIU L, WANG X G, CHEN J, et al. Deep learning for generic object detection: a survey[J]. International Journal of Computer Vision, 2020, 128(2): 261-318.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 27th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2014: 580-587.
[6] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2015: 1440-1448.
[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2016: 779-788.
[9] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 7263-7271.
[10] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB]. 2018: arXiv.1804.02767.
[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 21-37.
[12] 張佳欣, 王華力. 改進YOLOv3的SAR圖像艦船目標(biāo)檢測[J]. 信號處理, 2021, 37(9): 1623-1632.
ZHANG J X, WANG H L. Ship target detection in SAR image based on improved YOLOv3[J]. Journal of Signal Processing, 2021, 37(9): 1623-1632.
[13] PENG X L, ZHONG R F, LI Z, et al. Optical remote sensing image change detection based on attention mechanism and image difference[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(9): 7296-7307.
[14] 張筱晗, 姚力波, 呂亞飛, 等. 雙向特征融合的數(shù)據(jù)自適應(yīng)SAR圖像艦船目標(biāo)檢測模型[J]. 中國圖象圖形學(xué)報, 2020, 25(9): 1943-1952.
ZHANG X H, YAO L B, LYU Y F, et al. Data-adaptive single-shot ship detector with a bidirectional feature fusion module for SAR images[J]. Journal of Image and Graphics, 2020, 25(9): 1943-1952.
[15] SHAO Z F, WU W J, WANG Z Y, et al. SeaShips: a large-scale precisely annotated dataset for ship detection[J]. IEEE Transactions on Multimedia, 2018, 20(10): 2593-2604.
[16] LI Y, GUO J, GUO X, et al. A novel target detection method of the unmanned surface vehicle under all-weather conditions with an improved YOLOv3[J]. Sensors, 2020, 20(17): 4885.
[17] SHAO Z, WANG L, WANG Z, et al. Saliency-aware convolution neural network for ship detection in surveillance video[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(3): 781-794.
[18] WANG C Y, LIAO H, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 390-391.
[19] LIU S, HUANG D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 385-400.
[20] WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.
[21] BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4: optimal speed and accuracy of object detection[EB]. 2020: arXiv. 2004.10934.
[22] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2017: 2999-3007.
[23] GE Z, LIU S, WANG F, et al. YOLOx: exceeding yolo series in 2021[EB]. 2021.
[24] DUAN K W, BAI S, XIE L X, et al. CenterNet: keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 6569-6578.
[25] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2117-2125.
[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.
[27] 康帥, 章堅武, 朱尊杰, 等. 改進YOLOv4算法的復(fù)雜視覺場景行人檢測方法[J]. 電信科學(xué), 2021, 37(8): 46-56.
KANG S, ZHANG J W, ZHU Z J, et al. An improved YOLOv4 algorithm for pedestrian detection in complex visual scenes[J]. Telecommunications Science, 2021, 37(8): 46-56.
[28] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916
[29] CHEN P Y, HSIEH J W, WANG C Y, et al. Recursive hybrid fusion pyramid network for real-time small object detection on embedded devices[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 402-403.
[30] CAO C, WU J, ZENG X, et al. Research on airplane and ship detection of aerial remote sensing images based on convolutional neural network[J]. Sensors, 2020, 20(17): 4696.
A real-time detection method for multi-scale ships in complex scenes
ZHOU Weina, LIU Lu
School of information Engineering, Shanghai Maritime University, Shanghai 201306, China
Ship detection plays an important role in tasks such as military reconnaissance, maritime target tracking, and maritime traffic control. However, due to the influence of variable sizes of ships and complex background of sea surface, detecting multi-scale ships remains a challenge in complex sea surfaces. To solve this problem, an improved YOLOv4 method based on multi-layers information interactive fusion and attention mechanism was proposed. Multi-layers information interactive fusion (MLIF) and multi-attention receptive field (MARF) were applied and combined reasonably to build a bidirectional fine-grained feature pyramid. MLIF was used to fuse feature of different scales, which not only concatenated high-level semantic features from deep layers, but also reshaped richer features from shallower layers. MARF consisted of receptive field block (RFB) and attention mechanism module, which effectively emphasized the important features and suppressed unnecessary ones. In addition, to further evaluate the performance of the proposed method, experiments were carried out on Singapore maritime dataset (SMD). The results illustrate that the method proposed can effectively solve the problem of difficult detection of multi-scale ships in complex marine environment, and meet the real-time requirements at the same time.
multi-scale ship detection, multi-layers information interactive fusion, multi-attention receptive field, bidirectional fine-grained feature pyramid
TP391
A
10.11959/j.issn.1000–0801.2022258
2022?02?11;
2022?08?15
國家自然科學(xué)基金資助項目(No.52071200,No.61404083);專用集成電路與系統(tǒng)國家重點實驗室開放研究課題基金資助項目(No.2021KF010)
The National Natural Science Foundation of China (No. 52071200, No.61404083), The State Key Laboratory of ASIC and System (No. 2021KF010)
周薇娜(1982– ),女,博士,上海海事大學(xué)信息工程學(xué)院副教授、碩士生導(dǎo)師,主要研究方向為圖像處理、目標(biāo)檢測算法和ASIC設(shè)計。
劉露(1996– ),女,上海海事大學(xué)信息工程學(xué)院碩士生,主要研究方向為計算機視覺、目標(biāo)檢測與人工智能等。