陳初俠,丁 勇
基于多尺度語(yǔ)義網(wǎng)絡(luò)的紅外艦船目標(biāo)檢測(cè)
陳初俠1,丁 勇2
(1. 巢湖學(xué)院 電子工程學(xué)院,安徽 巢湖 238000;2. 浙江大學(xué) 微納電子學(xué)院,浙江 杭州 310000)
為了增強(qiáng)艦船檢測(cè)的抗干擾性能,本文提出了一種有效且穩(wěn)定的單階段艦船檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)主要由3個(gè)模塊組成:特征優(yōu)化模塊,特征金字塔融合模塊和上下文增強(qiáng)模塊,其中特征優(yōu)化模塊是提取多尺度上下文信息,并進(jìn)一步細(xì)化和增強(qiáng)頂層特征輸入特性,增強(qiáng)弱小目標(biāo)檢測(cè)性能;特征金字塔融合模塊能夠生成表征能力更強(qiáng)的語(yǔ)義信息;上下文增強(qiáng)模塊則是整合局部和全局特征增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力,以降低復(fù)雜背景對(duì)檢測(cè)性影響,平衡前景和背景的不均衡差異,消除魚(yú)鱗波的影響。為了驗(yàn)證本文所提方法的有效性和魯棒性,本文對(duì)自建的艦船數(shù)據(jù)集進(jìn)行了定性定量驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,相比現(xiàn)有最新基準(zhǔn)對(duì)比模型,本文所提網(wǎng)絡(luò)在自建數(shù)據(jù)集上均達(dá)到了最優(yōu)性能,在不增加復(fù)雜度的情況下極大提升了檢測(cè)精度。
目標(biāo)檢測(cè);紅外艦船;單階段網(wǎng)絡(luò);金字塔池化;上下文增強(qiáng)
眾所周知,紅外反艦導(dǎo)彈具有對(duì)水面艦艇目標(biāo)更高的抗干擾能力,其核心功能是高精度的目標(biāo)檢測(cè)與跟蹤[1]。船舶檢測(cè)是反艦制導(dǎo)武器的一項(xiàng)極具挑戰(zhàn)的基礎(chǔ)任務(wù),其目的是對(duì)視場(chǎng)內(nèi)的艦船目標(biāo)檢測(cè)分類與定位[2]。
傳統(tǒng)的艦船目標(biāo)檢測(cè)算法大都是基于非平穩(wěn)高斯噪聲下的目標(biāo)恒虛警率模型,該模型集成了自適應(yīng)閾值策略和海雜波統(tǒng)計(jì)模型,對(duì)高分辨率的大尺度目標(biāo)檢測(cè)精度較高,但對(duì)復(fù)雜背景低對(duì)比度目標(biāo)的檢測(cè)能力不足[3]。近年來(lái),深度網(wǎng)絡(luò)以其獨(dú)特的特征表征能力,大大提高了目標(biāo)檢測(cè)任務(wù)的精度?,F(xiàn)有的深度網(wǎng)絡(luò)檢測(cè)方法大致可以分為單階段檢測(cè)網(wǎng)絡(luò)與雙階段檢測(cè)網(wǎng)絡(luò)[4]。單階段檢測(cè)網(wǎng)絡(luò)省略了候選區(qū)域生成,直接在原圖上回歸目標(biāo)類別與位置,而雙階段檢測(cè)網(wǎng)絡(luò)專注于找出目標(biāo)物體出現(xiàn)的位置,得到候選區(qū)域,并在其基礎(chǔ)上進(jìn)行分類,尋找更精確的位置。相比雙階段檢測(cè)網(wǎng)絡(luò),單階段檢測(cè)網(wǎng)絡(luò)的典型代表有YOLO(You Only Look Once)系列[5],SSD(Single Shot MultiBox Detector)系列[6],RetinaNet[7],CornerNet[8],CenterNet[9],EfficientDet[10]等。盡管這些網(wǎng)路在自然圖像中取得了優(yōu)異的性能,但很難直接遷移到紅外艦船檢測(cè)任務(wù)中。主要原因歸咎于目標(biāo)成像特性的差異,例如,自然圖像中的目標(biāo)大多分辨率較高,且目標(biāo)尺度較大,而紅外圖像中的艦船目標(biāo)受成像距離與魚(yú)鱗波的影響較大。因此,國(guó)內(nèi)外學(xué)者開(kāi)始對(duì)深度網(wǎng)絡(luò)進(jìn)行改進(jìn),以適應(yīng)紅外艦船檢測(cè)需求。西南技術(shù)物理研究所唐中和團(tuán)隊(duì)借鑒YOLOv3[5]的一些思想,設(shè)計(jì)了一種基于彈載輕量級(jí)深度學(xué)習(xí)網(wǎng)絡(luò),提升艦船目標(biāo)檢測(cè)性能的同時(shí),大大降低了硬件資源需求[11]。北航“新型成像探測(cè)技術(shù)與系統(tǒng)”藍(lán)天創(chuàng)新團(tuán)隊(duì)[12]對(duì)復(fù)雜場(chǎng)景下的艦船目標(biāo)檢測(cè)算法進(jìn)行了分析,設(shè)計(jì)出魯棒性好、準(zhǔn)確度高與實(shí)時(shí)性強(qiáng)的深度學(xué)習(xí)模型,有效地解決了前景和背景的不均衡差異。UT Austin大學(xué)崔屹教授[9]等人將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)變成關(guān)鍵點(diǎn)估計(jì)問(wèn)題,提出了CenterNet網(wǎng)絡(luò),能夠?qū)Ω呔葯z測(cè)尺度大于13×13的清晰目標(biāo)進(jìn)行檢測(cè),但對(duì)弱小目標(biāo)檢測(cè)能力不足。
盡管學(xué)術(shù)界與工業(yè)界已經(jīng)提出了許多紅外艦船目標(biāo)檢測(cè)模型,但是仍然存在一些挑戰(zhàn)亟需解決,如復(fù)雜背景下的目標(biāo)檢測(cè)和弱小目標(biāo)檢測(cè)?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法主要針對(duì)自然圖像,紅外目標(biāo)具有一些與自然圖像明顯不同的特性。具體來(lái)說(shuō),由于大氣湍流和氣溶膠散射等復(fù)雜成像環(huán)境的影響,導(dǎo)致紅外艦船目標(biāo)圖像退化,目標(biāo)與背景的紅外輻射特性及其相似,魚(yú)鱗波也呈現(xiàn)出忽明忽暗的紋理特征,增加了目標(biāo)檢測(cè)的難度[13]。圖1展示了紅外場(chǎng)景下的船舶圖像。船舶的位置距離紅外傳感器20km,其圖1(a)中目標(biāo)特性較暗,且與背景中的魚(yú)鱗波類似;圖1(b)只有中間區(qū)域較亮、船身對(duì)比度弱,呈現(xiàn)小目標(biāo)特性?,F(xiàn)有的目標(biāo)檢測(cè)算法無(wú)法直接用于紅外船舶目標(biāo)檢測(cè)。
為了提升復(fù)雜場(chǎng)景下船舶目標(biāo)檢測(cè)的精度,本文設(shè)計(jì)了一種有效且穩(wěn)定的單階段艦船檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)由3個(gè)模塊組成。首先,為了提取上下文特征信息,特征優(yōu)化模塊被引入來(lái)增強(qiáng)小目標(biāo)的表征能力;然后,采用特征金字塔融合模塊將獲得的上下文特征與多尺度特征進(jìn)行融合,增強(qiáng)特征的判別能力;最后,上下文增強(qiáng)模塊則平衡前景和背景的不均衡差異,增強(qiáng)目標(biāo)的區(qū)分能力。實(shí)驗(yàn)結(jié)果表明,本文所提的網(wǎng)絡(luò)對(duì)小目標(biāo)有較準(zhǔn)確的檢測(cè)效果,具有較高的有效性和魯棒性。
式中:與是損失函數(shù)的超參數(shù);是圖像中的關(guān)鍵點(diǎn)的個(gè)數(shù),其目的是對(duì)損失函數(shù)歸一化。由于基準(zhǔn)關(guān)鍵點(diǎn)會(huì)因下采樣導(dǎo)致偏差,CenterNet網(wǎng)絡(luò)在目標(biāo)中心點(diǎn)附近增加了局部自適應(yīng)偏置項(xiàng)d,y,c。所有類別共享相同的偏置預(yù)測(cè)模型,并采用1損失函數(shù)進(jìn)行訓(xùn)練。
因此,整個(gè)網(wǎng)絡(luò)的最終損失函數(shù)可以通過(guò)加權(quán)獲取,即:
眾所周知,目標(biāo)檢測(cè)與目標(biāo)分類所需要的主干網(wǎng)是不一樣的,目標(biāo)分類需要更深的特征以增強(qiáng)目標(biāo)特征的區(qū)分度,而目標(biāo)檢測(cè)應(yīng)該著重于淺層特征以獲取豐富的位置信息。對(duì)于海洋環(huán)境中艦船目標(biāo)檢測(cè),所設(shè)計(jì)主干網(wǎng)絡(luò)需要同時(shí)兼顧淺層特征與深層特征,其中前者具有較大的感受野,位置信息豐富,而后者的區(qū)分度更大。
由于遠(yuǎn)距離成像的紅外圖像含有大量小目標(biāo),固定尺度的感受野不能有效檢測(cè)出小目標(biāo)。不同于在主干網(wǎng)絡(luò)增加反卷積層用于增大目標(biāo)檢測(cè)中的語(yǔ)義信息,本文采用特征精細(xì)模塊從低分辨下采樣圖像中獲取弱小目標(biāo)的上下文信息,通過(guò)使用多尺度卷積層提取多尺度上下文信息,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。首先,下采樣圖像經(jīng)過(guò)大小為3×3與1×1的卷積核處理后可以得到多個(gè)不同尺度的特征圖;為了提取用于小目標(biāo)檢測(cè)的多尺度上下文信息,3個(gè)并行的1×1卷積層將特征圖的數(shù)量降低到/3,然后在各自結(jié)果上增加一個(gè)大小為3×3的空洞卷積,可以增加感受野的范圍,以便顯著地改善目標(biāo)檢測(cè)的性能,并在小目標(biāo)檢測(cè)中發(fā)揮積極的作用;最后,引入一個(gè)特征級(jí)聯(lián)算法對(duì)所有尺度的特征進(jìn)行細(xì)化,并增加一個(gè)3×3卷積層來(lái)降低級(jí)聯(lián)操作引起的特征混疊問(wèn)題,從而確保提取的深度特征更穩(wěn)定、表征能力更強(qiáng)。
本文采用的特征精細(xì)模塊通過(guò)不同擴(kuò)張率的并行分支來(lái)改變感受野的范圍,從而提取多尺度上下文信息,有助于小目標(biāo)檢測(cè)。3個(gè)擴(kuò)展卷積的參數(shù)分別是(s=3,=1,=0),(s=3,=2,=2)與(s=3,=4,=4),其中s,和分別表示卷積核尺度、填充范圍與擴(kuò)張率。不同的填充率和擴(kuò)張率意味著不同的感受野。直觀上,空洞卷積可以在不損失目標(biāo)細(xì)節(jié)特征的情況下增加感受野,有利于小目標(biāo)檢測(cè),3個(gè)并行的空洞卷積分支可以將低層次的特征信息轉(zhuǎn)化為高表征能力的上下文信息,也有助于低分辨圖像中縮小目標(biāo)檢測(cè)。
實(shí)際上,探測(cè)器在飛行過(guò)程中獲得的紅外圖像極易被太陽(yáng)光線、云層、風(fēng)浪等干擾影響,僅僅靠提升弱小目標(biāo)的檢測(cè)能力,并不能增加目標(biāo)的檢測(cè)精度,反而會(huì)引入大量虛警。為了有效整合低層次特征與高層次特征,本文采用特征金字塔融合模塊來(lái)耦合不同尺度特征信息,通過(guò)基于正則化的稠密連接特征金字塔可以將不同尺度的特征信息轉(zhuǎn)換到相同尺度,最終融合得到高層次語(yǔ)義信息。
圖2 多尺度上下文特征
假定特征金字塔融合模塊中多尺度金字塔特征表示為{1,2,3,5},圖2展示了自頂向下特征金字塔融合過(guò)程。首先,深度特征金字塔分解可以采用可變形卷積提取多尺度特征;然后通過(guò)下采樣操作將獲得的多尺度特征正則化到與5相同的尺度,并與相應(yīng)的特征映射進(jìn)行融合,最后通過(guò)另一個(gè)可變形卷積來(lái)提升特征的表征;最終得到正則化的特征{2,3,4,5}。為了實(shí)現(xiàn)對(duì)多尺度特征信息的融合,增強(qiáng)目標(biāo)的表征能力,本文首先需要對(duì)特征映射{2,3,4,5}進(jìn)行級(jí)聯(lián)操作,然后將此特征與精細(xì)化特征進(jìn)行融合,作為單階段目標(biāo)回歸模塊的輸入?yún)?shù)。此外,受殘差學(xué)習(xí)形式的啟發(fā),本文將精細(xì)化特征與高層次特征2進(jìn)行融合,并在其基礎(chǔ)上進(jìn)行回歸與分類。
掛飛獲取的紅外艦船圖像異常復(fù)雜,海面上漂流的雜物、魚(yú)鱗波等干擾極易增加檢測(cè)的虛警。一般來(lái)說(shuō),特征金字塔融合模塊提取了具有較強(qiáng)鑒別能力的特征,有助于提升復(fù)雜背景中目標(biāo)的表征能力;同時(shí),本網(wǎng)絡(luò)采用的可變形卷積模塊可以處理任何幾何變換問(wèn)題,具有較高的泛化能力。然而,這些方法對(duì)于簡(jiǎn)單背景下的弱小目標(biāo)具有較好的性能,但不能有效增強(qiáng)復(fù)雜背景的抗干擾能力。因此,本文所提網(wǎng)絡(luò)在特征金字塔融合模塊的基礎(chǔ)上引入了上下文增強(qiáng)模塊,有助于平衡前景和背景的不均衡差異,增強(qiáng)目標(biāo)的區(qū)分能力。
本文引用的上下文增強(qiáng)模塊僅僅使用目標(biāo)分類特征,中心點(diǎn)與邊界框尺度參數(shù)進(jìn)行訓(xùn)練,該結(jié)構(gòu)本質(zhì)上是單級(jí)檢測(cè)器。假定上下文增強(qiáng)模塊得到的分類特征為,目標(biāo)中心點(diǎn)與邊界框的偏移參數(shù)為c=(,)與b=(,)。當(dāng)分類特征中H,y,c=1表示像素(,)為目標(biāo),而H,y,c=0則表示背景。也就是說(shuō),像素點(diǎn)(,)為目標(biāo)中心點(diǎn)偏差為(,),邊界框的半徑為(/2,/2)。那么目標(biāo)的邊界框坐標(biāo)可以表示為(+-w/2,+-w/2,++w/2,++w/2)。受非局部網(wǎng)絡(luò)啟發(fā),局部信息聚合有助于獲取更大范圍的相關(guān)信息。因此,本文也通過(guò)聚合操作,將目標(biāo)語(yǔ)義特征耦合到分類特征中,得到目標(biāo)的特征表示?+;然后利用1×1卷積1×1(,)操作壓縮位置點(diǎn)(,)的通道維數(shù),并對(duì)獲得的特征進(jìn)行融合,并采用可變形卷積獲取任意不規(guī)則目標(biāo)的特征。因此,上下文增強(qiáng)模塊獲得的最優(yōu)特征可以表示為DCN(?++1×1(,))。
與文獻(xiàn)[15]相似,本文所設(shè)計(jì)網(wǎng)絡(luò)損失函數(shù)仍然采用等式(4)所示的加權(quán)策略。分類損失項(xiàng)k采用改進(jìn)的交叉熵?fù)p失函數(shù),其表達(dá)式如下:
式中:conf(,)表示像素點(diǎn)(,)處的置信度;是控制正負(fù)樣本對(duì)總體樣本損失的共享權(quán)重,一般設(shè)置為2。
由于本文的應(yīng)用場(chǎng)景是對(duì)艦船目標(biāo)進(jìn)行檢測(cè),目標(biāo)類別單一。與等式(2)類似,中心點(diǎn)偏差損失項(xiàng)與尺度損失項(xiàng)采用L1損失函數(shù)。假定目標(biāo)基準(zhǔn)邊界框的4個(gè)參數(shù)可以表示(1,1,2,2),其中(1,1)與(2,2)分別表示左上與右下坐標(biāo)點(diǎn),即:目標(biāo)的長(zhǎng)寬分別可以表示為=(2-1)與=(2-1)。因此,中心點(diǎn)偏差損失項(xiàng)s可以改寫(xiě)為:
與等式(2)類似,表示下采樣系數(shù),一般設(shè)置為2。
目前,國(guó)際上對(duì)船舶的檢測(cè)研究主要集中在SAR圖像領(lǐng)域。例如,中科院公開(kāi)的SAR圖像船舶檢測(cè)數(shù)據(jù)集,包含多源、多模式SAR圖像。紅外探測(cè)與成像技術(shù)廣泛地應(yīng)用于海洋艦船監(jiān)測(cè)與制導(dǎo),積累了大量的紅外船舶目標(biāo)圖像。雖然大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)共享逐漸成為趨勢(shì),然而大多數(shù)紅外船舶圖像數(shù)據(jù)集并沒(méi)有開(kāi)源,形成信息孤島。本文所采用的數(shù)據(jù)集是在橫向課題的資助下,利用浙江大立生產(chǎn)的制冷熱像儀采集了大量港口、近海、遠(yuǎn)海的紅外數(shù)字視頻,紅外圖像大小為640×512,并對(duì)其中的艦船目標(biāo)進(jìn)行了標(biāo)注,部分?jǐn)?shù)據(jù)如圖3所示。目標(biāo)的大小從10×10到540×248不等。為了便于分析,所有的標(biāo)注數(shù)據(jù)集都?xì)w一化相同的尺度,并采用隨機(jī)裁剪、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)進(jìn)行數(shù)據(jù)擴(kuò)增。最終本文所選擇的數(shù)據(jù)集包含23750幅圖像,隨機(jī)選取其中90%作為訓(xùn)練集,10%作為測(cè)試集。
圖3 數(shù)據(jù)集示例
本實(shí)驗(yàn)采用PyTorch框架來(lái)搭建本文所提的檢測(cè)網(wǎng)絡(luò),硬件環(huán)境為:i5 8250@3.10GHz (X4),32 GB (DDR3 1600MHz),Nvidia GeForce GTX 1080 Ti,Ubuntul6.04,64位操作系統(tǒng)。損失函數(shù)中1與2分別設(shè)置為0.1與1;下采樣系數(shù)設(shè)置為2;指數(shù)因子一般設(shè)置為2。總損失函數(shù)采用Adam算法進(jìn)行優(yōu)化,其中動(dòng)量為0.9,權(quán)值衰減為0.0001,批量大小(batch_size)為32。訓(xùn)練過(guò)程中,學(xué)習(xí)速率初始化設(shè)置為1.25×10-4,然后在訓(xùn)練到第50個(gè)Epoch時(shí),學(xué)習(xí)速率改為1.25×10-5;若100個(gè)Epoch后,整個(gè)網(wǎng)絡(luò)的損失值不超過(guò)迭代閾值則停止訓(xùn)練。
為了評(píng)估所提網(wǎng)絡(luò)的檢測(cè)性能,本實(shí)驗(yàn)沿用了圖像分類任務(wù)中精確率(Precision,)、召回率(Recall,)、1、mAP指標(biāo)進(jìn)行評(píng)價(jià),并根據(jù)檢測(cè)邊框與基準(zhǔn)框的交并比重新定義了正負(fù)樣本的劃分標(biāo)準(zhǔn),所有指標(biāo)的計(jì)算方法參見(jiàn)文獻(xiàn)[16]。
本文所提的網(wǎng)絡(luò)是在CenterNet的基礎(chǔ)上進(jìn)行改進(jìn)。首先,提取多尺度上下文信息(multi-scale context information, MCI),進(jìn)一步細(xì)化和增強(qiáng)頂層特征輸入特性,增強(qiáng)弱小目標(biāo)檢測(cè)性能;然后利用特征金字塔融合模塊生成表征能力更強(qiáng)的語(yǔ)義信息(semantic information, SI);最后將多尺度上下文信息與語(yǔ)義信息進(jìn)行融合(Fusion),增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力,以降低復(fù)雜背景對(duì)檢測(cè)性影響,平衡前景和背景的不均衡差異,消除魚(yú)鱗波的影響。
為了分析不同改進(jìn)模塊對(duì)整體檢測(cè)性能的影響,表1展示了不同改進(jìn)模塊的消融分析結(jié)果,其中基于深層聚合的CenterNet網(wǎng)絡(luò)作為對(duì)比基線。與基線結(jié)果相比,MCI特征提取模塊細(xì)化和增強(qiáng)頂層特征輸入特性,有助于檢測(cè)小型船舶。對(duì)比結(jié)果也表明,MCI特征將, mAP,與1分別提高了3.4%, 0.6%, 0.5%與0.1%;SI特征提取模塊將, mAP,與1分別提高了3.7%, 1.3%, 0.3%與0.6%,這表明該模塊將低層次特征與高層次語(yǔ)義特征進(jìn)行了融合,更加有助于表征具有豐富語(yǔ)義信息的目標(biāo)。上下文增強(qiáng)融合模塊將, mAP,與1分別提升了2.3%, 1%, 1.5%與1.6%,這表明該模塊增強(qiáng)了目標(biāo)的表征能力,并削弱了背景的影響,有助于更準(zhǔn)確地檢測(cè)目標(biāo)。
表1 不同模塊的消融結(jié)果
為了對(duì)本文所提出的單階段艦船檢測(cè)網(wǎng)絡(luò)進(jìn)行定性定量性能分析,實(shí)驗(yàn)選擇了5個(gè)最新的目標(biāo)檢測(cè)算法和本文算法進(jìn)行對(duì)比分析,如YOLO-V3[5], RetinaNet[17],RefineNet[18],CenterNet[9]與FCOS(fully convolutional one-stage object detection)[19],其中CenterNet是整個(gè)對(duì)比實(shí)驗(yàn)的基線。與基線模型相比,本文改進(jìn)的網(wǎng)絡(luò)主要是對(duì)特征優(yōu)化模塊,特征金字塔融合模塊和上下文增強(qiáng)模塊進(jìn)行改進(jìn),但其引入的計(jì)算開(kāi)銷可以忽略不計(jì)。
RetinaNet是一種單階段網(wǎng)絡(luò),使用FPN(feature pyramid networks)結(jié)構(gòu)對(duì)多個(gè)降維特征層進(jìn)行處理,并對(duì)分類支路和回歸支路并行優(yōu)化;RefineDet是一種仿二段式檢測(cè)器,通過(guò)啟發(fā)式方法來(lái)避免類別不均衡問(wèn)題,并通過(guò)兩個(gè)級(jí)聯(lián)的檢測(cè)器使預(yù)測(cè)框更加準(zhǔn)確;FCOS算法是無(wú)錨框檢測(cè)算法,借鑒了FCN的思想,對(duì)每個(gè)像素進(jìn)行直接預(yù)測(cè)。
表2展示了不同對(duì)比算法下的定量性能對(duì)比。從整體上看,本文改進(jìn)的網(wǎng)絡(luò)性能穩(wěn)定,對(duì)不同場(chǎng)景的適應(yīng)性較好。與基線CenterNet的結(jié)果相比,改進(jìn)的算法具有明顯提升,其中, mAP,與1分別提高了3.4%, 0.6%, 0.5%與0.1%。紅外探測(cè)器在25km發(fā)現(xiàn)的目標(biāo)呈現(xiàn)出弱小特征,本文改進(jìn)方法利用多尺度上下文信息進(jìn)一步細(xì)化和增強(qiáng)頂層特征輸入特性,有助于小型艦船目標(biāo)的檢測(cè)。
表2 自建數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比
本文所提網(wǎng)絡(luò)主要針對(duì)艦船目標(biāo)進(jìn)行檢測(cè),但統(tǒng)計(jì)整體性能并不能對(duì)算法性能進(jìn)行全面分析。因此,項(xiàng)目組將4.1節(jié)介紹的自建數(shù)據(jù)集分成了小目標(biāo)數(shù)據(jù)子集(small object sub-set, SOS)、復(fù)雜背景數(shù)據(jù)子集(complex background sub-set, CBS)與其他數(shù)據(jù)子集(Others),其中CBS子集主要是太陽(yáng)迎頭帶來(lái)的光線干擾、天地線干擾、海岸線干擾、魚(yú)鱗波干擾等。深度網(wǎng)絡(luò)是一種模擬人類視覺(jué)的推理網(wǎng)絡(luò)[20],其檢測(cè)的弱小目標(biāo)并不是點(diǎn)目標(biāo),而是具備一些輪廓特征。從實(shí)驗(yàn)結(jié)果可以看出,所提網(wǎng)絡(luò)的mAP比RetinaNet高4.6%,比RefineNet和FCOS高2.9%與8.9%,主要是由于改進(jìn)網(wǎng)絡(luò)采用自頂向下的特征連接,削弱了復(fù)雜背景的權(quán)重,而其他模型不可避免會(huì)遭受噪聲的干擾。
YOLOv3是目前工程上應(yīng)用較多的單級(jí)網(wǎng)絡(luò),但其不能有效地檢測(cè)小型目標(biāo)。對(duì)于CBC數(shù)據(jù)子集,YOLOv3通過(guò)采用跨連接和多尺度預(yù)測(cè)功能實(shí)現(xiàn)了80.6%的mAP,本文的方法有最好的準(zhǔn)確性,比YOLOv3高4.5%。從表3的結(jié)果也可以看出,相比于基線模型CenterNet,所提網(wǎng)絡(luò)在Others數(shù)據(jù)子集上的, mAP,與1分別提高了4.2%, 6.5%, 7.5%和0.5%。
本文網(wǎng)絡(luò)在紅外CBC數(shù)據(jù)集上獲得了最佳的檢測(cè)精度,85.2%的mAP和90.1%的1評(píng)分。這表明該方法能夠提取出強(qiáng)大的特征表示,用于復(fù)雜背景下的艦船檢測(cè)。值得注意的是單級(jí)檢測(cè)網(wǎng)絡(luò)性能優(yōu)于兩級(jí)檢測(cè)網(wǎng)絡(luò),可以采用各種策略來(lái)提高準(zhǔn)確性[19]。
表3 不同數(shù)據(jù)子集上的檢測(cè)結(jié)果對(duì)比
圖4展示了對(duì)比算法檢測(cè)結(jié)果。本文選用了5張比較有代表性的圖像進(jìn)行檢測(cè)。第一行是一張背景復(fù)雜目標(biāo)對(duì)比度較低的圖像,其中水波呈現(xiàn)的高亮區(qū)域也容易造成虛檢。從實(shí)驗(yàn)結(jié)果可以看出,對(duì)比算法很容易檢測(cè)出近處的大目標(biāo),而遠(yuǎn)處的小目標(biāo)則出現(xiàn)漏檢。雖然FCOS檢測(cè)出小目標(biāo),但以邊界框與目標(biāo)實(shí)際尺寸相差較大。從實(shí)驗(yàn)結(jié)果分析得知,F(xiàn)COS將每個(gè)像素看作訓(xùn)練樣本,圖像中的虛假目標(biāo)容易干擾檢測(cè)性能,最終是將小目標(biāo)附近的高亮背景當(dāng)作了目標(biāo)。第二行是一張帶有海岸線背景的紅外圖像,其目標(biāo)大多??吭诎哆?。由于本文算法與對(duì)比算法都不具備海岸線檢測(cè)的能力,無(wú)法排除陸地上的干擾。所提的網(wǎng)絡(luò):RetinaNet,RefineNet與CenterNet都找到了陸地上的假目標(biāo),但對(duì)于海洋上的目標(biāo),本文算法性能明顯優(yōu)于對(duì)比算法最優(yōu)網(wǎng)絡(luò)。FCOS網(wǎng)絡(luò)不是只將邊界框看作樣本,與語(yǔ)義分割的全卷積相似,通過(guò)預(yù)測(cè)每一個(gè)像素類別,進(jìn)而實(shí)現(xiàn)目標(biāo)檢測(cè)。YOLO-v3是所有對(duì)比算法中結(jié)果最差的,但在這幅圖像中YOLO-v3能夠檢測(cè)出所有海面船舶目標(biāo)。第三行是圖像中天際線附近存在目標(biāo),由于目標(biāo)較遠(yuǎn),天際線附近目標(biāo)很難發(fā)現(xiàn)。從實(shí)驗(yàn)結(jié)果可以看出,對(duì)比算法都沒(méi)能找到目標(biāo),本文算法雖然找到了目標(biāo),但也找到假目標(biāo)。從圖上結(jié)果也可以看出,若沒(méi)有先驗(yàn)知識(shí),虛假目標(biāo)確實(shí)容易造成誤判,這就需要長(zhǎng)期檢測(cè)并增強(qiáng)目標(biāo)的識(shí)別概率。第四行中圖像存在多個(gè)目標(biāo)且相互重疊,只能靠智能推理實(shí)現(xiàn)目標(biāo)檢測(cè)與區(qū)分,然而實(shí)際結(jié)果中所有算法都沒(méi)能正確找到目標(biāo),本文算法找到了一個(gè)大目標(biāo),但遮擋目標(biāo)只標(biāo)示出來(lái)一小部分。
為了驗(yàn)證算法的性能與適應(yīng)性,本小節(jié)將對(duì)實(shí)際掛飛數(shù)據(jù)檢測(cè)結(jié)果進(jìn)行分析。在掛飛驗(yàn)證視頻中,目標(biāo)在28km處出現(xiàn)在視場(chǎng)內(nèi)時(shí),目標(biāo)很弱,本文算法不能檢測(cè)出疑似目標(biāo)。當(dāng)目標(biāo)的距離增加時(shí),目標(biāo)的輪廓明顯,最終檢測(cè)出目標(biāo)。由于目標(biāo)機(jī)動(dòng)運(yùn)行,探測(cè)器獲得的目標(biāo)在轉(zhuǎn)彎時(shí),目標(biāo)的尺度縮小,此時(shí)本文算法出現(xiàn)了漏檢,但最終目標(biāo)重現(xiàn)時(shí),目標(biāo)又被重新檢測(cè)出來(lái)。圖5展示了本文算法對(duì)一段紅外掛飛視頻進(jìn)行目標(biāo)檢測(cè)的結(jié)果。值得注意的是,圖5右下角圖形受光照影響較大,本文算法也能檢測(cè)到目標(biāo)。整個(gè)項(xiàng)目在工程化研制階段,目標(biāo)的檢測(cè)性能較穩(wěn)定。充分驗(yàn)證了本文算法在工程應(yīng)用中的有效性。
圖4 不同算法定性結(jié)果對(duì)比
圖5 不同場(chǎng)景下的工程驗(yàn)證結(jié)果
本文提出了一種改進(jìn)的單階段艦船檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)主要由特征優(yōu)化模塊,特征金字塔融合模塊和上下文增強(qiáng)模塊組成。為了驗(yàn)證本文所提方法的有效性和魯棒性,本文對(duì)自建的艦船數(shù)據(jù)集進(jìn)行了定性定量驗(yàn)證,結(jié)果表明,所提網(wǎng)絡(luò)在自建數(shù)據(jù)集上均達(dá)到了最優(yōu)性能,具有較強(qiáng)抗干擾能力,但對(duì)于類別差異較大的船舶,所提方法的泛化性能仍然存在不足。同時(shí),本文所提算法不具備海岸線檢測(cè)的能力,無(wú)法排除陸地上的干擾。這些不足將是項(xiàng)目組下一步工作計(jì)劃。
[1] 邢莎, 吉林, 雍楊, 等. 復(fù)雜場(chǎng)景下的自動(dòng)紅外艦船目標(biāo)檢測(cè)[J]. 紅外技術(shù), 2014, 36(4): 320-325.
XING Sha, JI Lin, YONG Yang, et al. Automatic infrared warship target detection under complicated background[J]., 2014, 36(4): 320-325.
[2] 趙文濤, 曹昕鷙, 田志勇. 基于自適應(yīng)閾值區(qū)域生長(zhǎng)的紅外艦船目標(biāo)分割方法[J]. 紅外技術(shù), 2018, 40(2): 158-163.
ZHAO Wentao, CAO Xinzhi, TIAN Zhiyong. An infrared ship target segmentation method based on adaptive threshold region growth[J]., 2018, 40(2): 158-163.
[3] 丁榮莉, 韓傳釗, 謝寶蓉, 等. 紅外遙感圖像艦船目標(biāo)檢測(cè)[J]. 紅外技術(shù), 2019, 41(2): 127-133.
DING Rongli, HAN Chuanzhao, XIE Baorong, et al. Ship target detection in infrared remote-sensing image[J]., 2019, 41(2): 127-133.
[4] Kumar D, ZHANG X. Ship detection based on faster R-CNN in SAR imagery by anchor box optimization[C]//2019(), 2019: 309-313.
[5] Redmon J, Farhadi A. YOLOv3:an incremental improvement[J]. arXiv: 1804.02767, 2018.
[6] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//, 2016: 21-37.
[7] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//, 2017: 2999-3007.
[8] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[C]//, 2018: 765-781.
[9] DUAN K, BAI S, XIE L, et al. CenterNet:keypoint triplets for object detection[J/OL].: 1904.08189, 2019.
[10] TAN M, PANG R, LE Q V, et al. EfficientDet:scalable and efficient object detection[J/OL].: 1911.09070, 2019.
[11] 楊濤, 戴軍, 吳鐘建, 等. 基于深度學(xué)習(xí)的紅外艦船目標(biāo)識(shí)別[J]. 紅外技術(shù), 2020, 42(5): 426-433.
YANG Tao, DAI Jun, WU Zhongjian, et al. Target recognition of infrared ship based on deep learning[J]., 2020, 42(5): 426-433.
[12] 黃潔, 姜志國(guó), 張浩鵬, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像艦船目標(biāo)檢測(cè)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2017(9): 132-139.
HUANG Jie, JIANG Zhiguo, ZHANG Haopeng, et al. Ship target detection in remote sensing image based on convolutional neural network[J]., 2017(9): 132-139.
[13] 顧佼佼, 李炳臻, 劉克, 等. 基于改進(jìn)Faster R-CNN的紅外艦船目標(biāo)檢測(cè)算法[J]. 紅外技術(shù), 2021, 43(2): 170-178.
GU Jiaojiao, LI Bingzhen, LIU Ke, et al. Infrared ship target detection algorithm based on improved faster R-CNN[J]., 2021, 43(2): 170-178.
[14] GUO Haoyuan, YANG Xi, WANG Nannan, et al. A CenterNet++ model for ship detection in SAR images[J]., 2021, 112(88): 25-34.
[15] FAN S, ZHU F, CHEN S, et al. FII-CenterNet: an anchor-free detector with foreground attention for traffic object detection[J]., 2021, 120(99): 1-14.
[16] Barrios J M, Bustos B. Competitive content-based video copy detection using global descriptors[J]., 2013, 62(1): 75-110.
[17] ZHANG Xiang, YANG Wei, TANG Xiaolin, et al. A fast learning method for accurate and robust lane detection using two-stage feature extraction with YOLOv3[J]., 2018, 18(12): 4308-4315.
[18] LIN G, Milan A, SHEN C, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]// 2017(), 2017: 1289-1301.
[19] TIAN Z, SHEN C, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019(), 2020: 1099e3233.
[20] LIU Z, ZHANG X, JIANG T, et al. Infrared salient object detection based on global guided lightweight non-local deep features[J]., 2021, 12(3): 2309-2315.
Infrared Ship Detection Based on Multi-scale Semantic Network
CHEN Chuxia1,DING Yong2
(1.,,238000,;2.,,310000,)
To enhance the anti-jamming performance of ship detection, an effective and stable single-stage ship detection network is proposed in this study. The network is composed of three modules: feature optimization, feature pyramid fusion, and context enhancement modules. The feature optimizationmodule extracts multi-scale context information and further refines the high-level feature input characteristics, to enhance the performance of dim–small object detection. The feature pyramid fusion module can generate semantic information with stronger representation ability. The context enhancement module integrates local and global features to enhance the network feature expression ability, reduce the impact of a complex background on detectability, adjust the imbalance between the foreground and background, and eliminate the impact of scale-wave. To verify the effectiveness and robustness of the proposed method, qualitative and quantitative verifications are performed on a self-built dataset. Experimental results show that the proposed network achieves optimal performance compared with the latest benchmark comparison model and considerably improves the detection accuracy without increasing complexity.
object detection, infrared ship, single-stage network, pyramid pooling, context enhancement
TN219
A
1001-8891(2022)05-0529-08
2021-05-05;
2021-11-29.
陳初俠(1984-),男,實(shí)驗(yàn)師,主要研究方向?yàn)閿?shù)字圖像處理。E-mail:feng84chen@163.com。
丁勇(1974-),男,教授,博士生導(dǎo)師,主要研究方向?yàn)閳D像深度分析與質(zhì)量評(píng)價(jià)。E-mail:dingyong09@zju.edu.cn。