• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙模態(tài)融合網(wǎng)絡(luò)的目標(biāo)檢測算法

    2023-03-06 06:17:26孫穎侯志強(qiáng)楊晨馬素剛范九倫
    光子學(xué)報(bào) 2023年1期
    關(guān)鍵詞:編碼器紅外模態(tài)

    孫穎,侯志強(qiáng),楊晨,馬素剛,范九倫

    (1 西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,西安 710121)

    (2 陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室,西安 710121)

    0 引言

    目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域的基本任務(wù)之一,在安防監(jiān)控、自動(dòng)駕駛和軍事領(lǐng)域等都有重要的應(yīng)用[1-2]。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測已經(jīng)成為主流,根據(jù)檢測步驟的不同,算法可以分為兩類:兩階段檢測算法和單階段檢測算法。兩階段檢測算法首先對圖像提取候選框,然后基于候選區(qū)域進(jìn)行修正得到檢測結(jié)果,如區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolutional Neural Network,R-CNN)[3]、Fast-RCNN[4]和Faster-RCNN[5]等。單階段檢測算法直接對圖像生成檢測結(jié)果,如Single Shot Multibox Detector(SSD)[6]和You Only Look Once(YOLO)系列[7-10]等。其中,YOLOv5 在檢測精度和速度上具有明顯的優(yōu)勢。此外,無錨框(Anchor-free)的檢測算法近年來也逐漸興起,如CornerNet[11]、CenterNet[12]和Fully Convolutional One-Stage(FCOS)[13]等,該類算法不用錨框,將目標(biāo)檢測轉(zhuǎn)化為關(guān)鍵點(diǎn)的定位組合問題,擺脫了使用錨框而帶來的計(jì)算量,提高檢測實(shí)時(shí)性。

    目前,目標(biāo)檢測算法主要用與檢測任務(wù)相關(guān)的單模態(tài)圖像作為訓(xùn)練數(shù)據(jù)[14-15],然而僅用單模態(tài)圖像在實(shí)際的復(fù)雜場景中有時(shí)很難檢測到目標(biāo)。為了解決上述問題,許多研究者提出了用多模態(tài)圖像作為訓(xùn)練數(shù)據(jù)的方法[16-17]。多模態(tài)圖像,例如紅外圖像和可見光圖像,具有互補(bǔ)優(yōu)勢。紅外圖像的優(yōu)點(diǎn)是依賴目標(biāo)物體產(chǎn)生的熱源,不受照明條件的影響,但無法捕捉到目標(biāo)的細(xì)節(jié)信息。可見光圖像的優(yōu)點(diǎn)是能清晰地捕捉目標(biāo)的紋理特征和細(xì)節(jié)信息,但容易受到光照條件的影響。因此,基于多模態(tài)目標(biāo)檢測研究已成為當(dāng)前的研究熱點(diǎn)[18-23]。DEVAGUPTAPU C 等[18]利用CycleGAN 創(chuàng)建合成紅外圖像的策略,并利用照明感知融合框架融合可見光和紅外圖像,以提升紅外圖像中目標(biāo)檢測的性能;YANG L 等[19]采用照明子網(wǎng)分配權(quán)重,聯(lián)合可見光和紅外圖像檢測行人;趙明等[20]提出了一種跨域融合網(wǎng)絡(luò)結(jié)構(gòu),采用紅外域和偽可見光域雙通道的多尺度特征金字塔獲取每個(gè)模態(tài)的特征圖,對多尺度特征進(jìn)行雙模態(tài)特征融合;WANG Q 等[21]設(shè)計(jì)了一種冗余信息抑制網(wǎng)絡(luò),能抑制跨模態(tài)冗余信息,有助于融合可見光和紅外的互補(bǔ)信息;GENG X 等[22]通過信道信息交換實(shí)現(xiàn)跨模態(tài)人員再識別和利用可見光紅外雙攝像頭跟蹤;周濤等[23]設(shè)計(jì)了三編碼器提取多模態(tài)醫(yī)學(xué)圖像特征,解決單模態(tài)圖像提取能力不足的問題。

    對于流行的卷積神經(jīng)網(wǎng)絡(luò),多模態(tài)圖像特征融合通常有三種融合方式:早期融合、中期融合和后期融合。早期融合是指在第一個(gè)卷積層后,將多個(gè)分支特征映射融合,ZHANG Y 等[24]提出一種基于注意力的多層融合網(wǎng)絡(luò)用于多光譜行人檢測;CAO Z 等[25]利用多光譜通道特征融合模塊,根據(jù)照明條件融合可見光和紅外圖像特征。中期融合是指在骨干網(wǎng)絡(luò)提取特征后進(jìn)行融合,KONIG D 等[26]利用新的多光譜區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks,RPN)來有效融合多光譜圖像中的紅外和可見光信息;FU L 等[27]提出一種自適應(yīng)空間像素級特征融合網(wǎng)絡(luò),可以自適應(yīng)地從紅外和可見光圖像中提取特征進(jìn)行融合。后期融合即決策級融合,執(zhí)行結(jié)果的融合,WAGNER J 等[28]提出兩個(gè)融合架構(gòu)并分析其在多光譜數(shù)據(jù)上的性能;白玉等[29]利用兩種檢測結(jié)果決策出最優(yōu)結(jié)果,提出一種基于決策級融合的目標(biāo)檢測算法。但這些方法沒有分別提取多模態(tài)圖像的特征,且融合多模態(tài)特征時(shí)并不充分,還需要進(jìn)一步提高多模態(tài)特征信息之間的互補(bǔ)優(yōu)勢。

    為此,本文提出一種基于雙模態(tài)融合網(wǎng)絡(luò)的目標(biāo)檢測算法,采用早期融合,并嵌入了一個(gè)門控融合網(wǎng)絡(luò),使模型能夠確定兩種模態(tài)圖像在不同場景中對檢測的貢獻(xiàn)。首先,由于紅外圖像中的特征信息較少,采用設(shè)計(jì)的紅外編碼器中對空間信息進(jìn)行編碼;其次,設(shè)計(jì)了一個(gè)可見光編碼器,從垂直和水平兩個(gè)空間方向聚合特征,通過精確的位置信息對通道關(guān)系進(jìn)行編碼;最后,引入多任務(wù)學(xué)習(xí)的思想,提出門控融合網(wǎng)絡(luò),自適應(yīng)調(diào)節(jié)權(quán)重分配,實(shí)現(xiàn)跨模態(tài)特征融合。并在公開數(shù)據(jù)集和自建數(shù)據(jù)集上進(jìn)行驗(yàn)證。

    1 本文算法

    提出的基于雙模態(tài)融合網(wǎng)絡(luò)的目標(biāo)檢測算法框架如圖1 所示,整個(gè)算法由雙模態(tài)編碼器(Dual Mode Encoder)、門控融合網(wǎng)絡(luò)(Gated Fusion Network)和檢測器(Detector)三部分組成。雙模態(tài)編碼器由兩部分構(gòu)成,分別是紅外編碼器(Encoder-Infrared,EIR)和可見光編碼器(Encoder-Visible,EVS),其中,紅外圖像XIR通過紅外編碼器EIR 獲取特征FIR,可見光圖像XVS通過可見光編碼器EVS 得到特征FVS。選擇早期融合方式,設(shè)計(jì)門控融合網(wǎng)絡(luò)計(jì)算紅外特征FIR和可見光特征FVS的權(quán)重,自適應(yīng)加權(quán)得到融合后的特征FD。同時(shí),通過兩個(gè)最大池化(MaxPool)殘差保留單模態(tài)圖像的細(xì)節(jié)特征信息,防止因權(quán)重分配過低導(dǎo)致單模態(tài)部分特征信息損失。FIR和FVS分別通過MaxPool 層獲取更突出的前景特征,將特征FD與其按通道維度拼接得到特征FM,實(shí)現(xiàn)雙模態(tài)特征信息的互補(bǔ)。選用YOLOv5 作為基準(zhǔn)檢測器,將門控融合網(wǎng)絡(luò)的輸出特征FM作為輸入,輸入至YOLOv5 骨干網(wǎng)絡(luò)的第二層,后續(xù)通過該檢測器進(jìn)行目標(biāo)分類和定位。

    圖1 算法整體框架Fig.1 Overall algorithm architecture

    1.1 雙模態(tài)編碼器

    由于紅外圖像和可見光圖像的成像差異及各自的特點(diǎn),使用不同的網(wǎng)絡(luò)來提取特征。設(shè)計(jì)的雙模態(tài)編碼器如圖2 所示,由紅外編碼器EIR 和可見光編碼器EVS 兩部分構(gòu)成。

    圖2 左半部分是紅外編碼器(EIR),輸入為紅外圖像XIR,整個(gè)編碼器旨在提取紅外圖像的空間信息,以彌補(bǔ)復(fù)雜場景下可見光圖像信息的缺失。迷你殘差(Mini Residual)模塊由MaxPool 層和兩個(gè)連續(xù)的1×1卷積層構(gòu)成,MaxPool 層能減少特征中的無用背景信息,連續(xù)兩個(gè)1×1 卷積層將多個(gè)特征圖線性組合,實(shí)現(xiàn)跨通道的信息整合。構(gòu)建殘差,對冗余網(wǎng)絡(luò)層的特征信息進(jìn)行恒等映射,能在后續(xù)層中補(bǔ)充丟失的特征信息。紅外圖像通常細(xì)節(jié)信息不明顯,但能提取到空間位置信息,在一些夜間、遮擋等場景下,可以發(fā)揮優(yōu)勢對目標(biāo)定位。故在紅外編碼器EIR 中引入SimAM模塊[30]來提取通道中不同的局部空間信息。該模塊基于神經(jīng)科學(xué)理論優(yōu)化了一個(gè)能量函數(shù),從而計(jì)算出每個(gè)神經(jīng)元的重要性。能量函數(shù)為特征層映射計(jì)算出特征圖的三維注意權(quán)重,即考慮了空間和通道權(quán)重,由于不在網(wǎng)絡(luò)層中添加參數(shù),因此對速度沒有影響。

    圖2 雙模態(tài)編碼器結(jié)構(gòu)Fig.2 Dual-mode encoder structure

    能量函數(shù)見式(1),用于度量神經(jīng)元之間的區(qū)分性,能量越低,當(dāng)前神經(jīng)元與周圍神經(jīng)元區(qū)別越大。

    式中,λ是超參數(shù),實(shí)驗(yàn)中設(shè)默認(rèn)值為10-4,t為目標(biāo)神經(jīng)元單一通道輸入特征,xi是其他神經(jīng)元的單一通道輸入特征和為能量函數(shù)因子,M=H×W是某個(gè)通道上的神經(jīng)元數(shù)量,H和W分別是通道的長和寬。

    圖2 右半部分是可見光編碼器(EVS),輸入為可見光圖像XVS,整個(gè)編碼器旨在提取可見光圖像豐富的細(xì)節(jié)特征來彌補(bǔ)紅外圖像信息的缺失。迷你殘差(Mini Residual)模塊由MaxPool 層、1×1 卷積層和3×3 卷積層構(gòu)成,利用3×3 卷積增大感受野,提取細(xì)節(jié)特征信息。然而提取的特征通道總體的平均值信息不足以代表每個(gè)單獨(dú)通道的個(gè)體性,會損失豐富的局部信息,導(dǎo)致特征缺乏多樣性。因此,在EVS 中引入坐標(biāo)注意力機(jī)制(Coordinate Attention,CoordAtt)[31]提取跨通道信息,獲得方向和位置信息,使模型更準(zhǔn)確地提取到目標(biāo)特征信息。為了能夠獲得具有精確位置信息的空間特征信息,從垂直(X)和水平(Y)兩個(gè)方向利用全局平均池化(AvgPool)操作分別提取特征,得到兩個(gè)一維向量。沿著兩個(gè)空間方向提取特征,能夠獲取通道之間的關(guān)系,有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。將從X和Y兩個(gè)方向提取的特征按通道維度進(jìn)行拼接(Concat),然后利用1×1 卷積壓縮通道。為了加快網(wǎng)絡(luò)訓(xùn)練時(shí)的收斂速度,將特征通過批標(biāo)準(zhǔn)化(Batch Normalization,BN)和非線性激活函數(shù)(Non-Linear)層。再將特征平分為兩部分,通過1×1 卷積將通道數(shù)調(diào)整到與輸入特征相同的通道數(shù)。處理后的可見光特征FVS計(jì)算過程為

    式中,將原始特征信息記為X,i為垂直方向,j為水平方向,gx和gy表示在兩個(gè)空間方向上的權(quán)重。最后通過激活函數(shù)Sigmoid 歸一化后將特征重新賦予權(quán)重,與原始的特征逐像素相乘得到特征FVS。

    本文算法在雙模態(tài)編碼器中將兩個(gè)模態(tài)圖像的特征信息進(jìn)行融合,盡管可見光圖像對比度高且能反映真實(shí)目標(biāo)環(huán)境,具有豐富的圖像空間及細(xì)節(jié)特征信息,但是當(dāng)有遮擋或者光照不足時(shí),就無法觀察到目標(biāo)。而紅外圖像雖然不能清晰地觀察目標(biāo),但能夠顯示目標(biāo)的位置信息及粗略的輪廓信息。最后,將EIR 和EVS 提取的特征FIR和FVS拼接,得到輸出特征XF。

    1.2 門控融合網(wǎng)絡(luò)

    借助多任務(wù)學(xué)習(xí)中的多門混合專家思想[32](Multi-gate Mixture of Experts,MMoE),提出門控融合網(wǎng)絡(luò),結(jié)構(gòu)如圖3 所示。門控融合網(wǎng)絡(luò)用于學(xué)習(xí)單模態(tài)特征FIR和FVS對檢測的貢獻(xiàn)。根據(jù)MMoE,將提取紅外圖像特征和提取可見光特征看作兩個(gè)任務(wù),即EIR 和EVS 是專家模塊,EIR 只用于提取紅外圖像的特征FIR,同理,EVS 僅用于提取可見光圖像的特征FVS,將兩個(gè)專家模塊的結(jié)果融合。在融合過程中,需要對某個(gè)任務(wù)有一定的偏向性,即將專家模塊EIR 和EVS 的輸出結(jié)果FIR和FVS映射到概率。

    圖3 門控融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Gated fusion network structure

    為了充分利用紅外和可見光圖像特征的互補(bǔ)性,考慮計(jì)算兩種模態(tài)特征對檢測的貢獻(xiàn),為紅外特征FIR和可見光特征FVS生成計(jì)算概率的門G1和G2。首先將FIR和FVS兩個(gè)特征按通道維度拼接得到XF,以在空間方向組合它們的特征。利用兩個(gè)門控模塊G1和G2產(chǎn)生權(quán)重,實(shí)現(xiàn)自適應(yīng)融合。門控網(wǎng)絡(luò)是一個(gè)兩層模塊,即1×1 卷積層和Softmax 層。將XF分為兩組向量,記為FMIR和FMVS,每組向量由1 到n,記作V1到Vn。G1中V1到Vn通過1×1 卷積層削減通道數(shù)得到權(quán)重Q1,G2中V1到Vn通過1×1 卷積層得到權(quán)重Q2。將原始向量和Q1、Q2分別逐像素相乘加權(quán),輸出由后續(xù)的Softmax 層歸一化得到SIR和SVS,Softmax 函數(shù)在G1和G2兩個(gè)門中的計(jì)算過程分別為

    式中,Q1∈R1×H×W是分配給紅外特征的權(quán)重,Q2∈R1×H×W是分配給可見光特征的權(quán)重。

    歸一化后的權(quán)值SIR和SVS與FMi,i∈IR,VS,逐元素相乘自適應(yīng)加權(quán),得到輸出特征Y1和Y2,即

    對紅外圖像和可見光圖像的特征重新加權(quán),逐像素相加得到合并的特征Y1+Y2,實(shí)現(xiàn)多模態(tài)特征融合。Softmax 的可分性會使權(quán)重向量類內(nèi)緊湊,類間分離,類內(nèi)即同一個(gè)編碼器提取的特征,類間即不同編碼器提取的特征。因此,門控融合網(wǎng)絡(luò)中的Softmax 層會丟失同等重要但不同類的特征信息。為了解決這個(gè)問題,利用兩個(gè)MaxPool 層來彌補(bǔ)丟失的特征信息。MaxPool 操作能夠提取特征中的邊緣和紋理信息并抑制背景信息,將FIR和FVS通過MaxPool 跳連至輸出處,補(bǔ)充丟失的特征信息。原始輸入特征FIR和FVS通過MaxPool后,產(chǎn)生新的特征,與門控融合后的加權(quán)特征Y1+Y2按通道維度拼接(Concat)得到最終特征FM,即

    2 實(shí)驗(yàn)結(jié)果及分析

    2.1 實(shí)驗(yàn)條件

    實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu 16.04,CPU 為i5-8400,GPU 為NVIDIA GeForce GTX 1080Ti(顯 存11 GB),CUDA 以及CUDNN 的版本為10.0 和CUDNN7.4.2。實(shí)驗(yàn)采用Python 和PyTorch 平臺。訓(xùn)練過程中使用SGD 優(yōu)化器對網(wǎng)絡(luò)參數(shù)進(jìn)行迭代更新,動(dòng)量參數(shù)設(shè)為0.937,BatchSize 設(shè)為8,共訓(xùn)練150 個(gè)Epoch,在加載數(shù)據(jù)時(shí)將所有圖像的分辨率統(tǒng)一調(diào)整到640×640,再對整體網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練。

    2.2 數(shù)據(jù)集與評價(jià)指標(biāo)

    用公開的KAIST 行人數(shù)據(jù)集[33]和自建的GIR 數(shù)據(jù)集對算法進(jìn)行評估。

    KAIST 行人數(shù)據(jù)集共有95 328 張圖片,每張圖片都包含紅外和可見光圖像兩個(gè)版本,圖像尺寸為640×512,包括校園、街道以及鄉(xiāng)下等常規(guī)交通場景。由于原數(shù)據(jù)集標(biāo)注較差且數(shù)據(jù)集是取自視頻連續(xù)幀圖片,相鄰圖片相差不大,故進(jìn)行一定程度的數(shù)據(jù)集清洗。清洗規(guī)則為:訓(xùn)練集每隔2 張圖片取一張,并去掉所有不包含任何行人的圖片,可得到7 601 張訓(xùn)練集[34]圖片,4 755 張白天圖片,2 846 張夜晚圖片。測試集每隔19 張取一張,保留負(fù)樣本,可得到2 252 張測試集[35]圖片,1 455 張白天圖片,797 張夜晚圖片。原數(shù)據(jù)集的標(biāo)簽中包含person、people 和cyclist 三個(gè)類別,當(dāng)照明條件差或分辨率低時(shí),很難區(qū)分這三類,故將標(biāo)簽類別僅標(biāo)注為person 一類。

    GIR 數(shù)據(jù)集是自行創(chuàng)建的通用目標(biāo)數(shù)據(jù)集。圖像來源于李成龍團(tuán)隊(duì)建立的RGBT210 數(shù)據(jù)集[36],每張圖片包含紅外和可見光彩色圖像兩個(gè)版本,圖像尺寸為630×460。從該數(shù)據(jù)集中選取5 105 張圖片,劃分為訓(xùn)練圖像4 084 張,測試圖像1 021 張。對圖片進(jìn)行標(biāo)注,確定10 類目標(biāo)為person、dog、car、bicycle、plant、motorcycle、umbrella、kite、toy 和ball。

    兩種數(shù)據(jù)集每張圖片均包含紅外和可見光兩個(gè)版本。通過對成像硬件設(shè)備捕捉的圖片進(jìn)行高度對齊裁剪,每個(gè)圖像對是已經(jīng)配準(zhǔn)好的兩張圖像。對紅外圖像、可見光圖像和兩者組成的圖像對分別進(jìn)行訓(xùn)練和測試,所有類型圖像共享一套標(biāo)簽。

    實(shí)驗(yàn)使用的算法評價(jià)指標(biāo)是平均檢測精度(Average Precision,AP)、每秒幀數(shù)(Frames Per Second,F(xiàn)PS)、精確度(Precision,P)和召回率(Recall,R)。其中AP0.50:0.95指IoU 從0.50 到0.95 每隔0.05 計(jì)算的所有類別的AP 平均值。

    2.3 消融實(shí)驗(yàn)與定性分析

    本文算法在KAIST 數(shù)據(jù)集和GIR 數(shù)據(jù)集上分別進(jìn)行消融實(shí)驗(yàn),并與基準(zhǔn)算法的n 和s 兩個(gè)模型進(jìn)行對比,評估提出模塊對檢測器的貢獻(xiàn),以驗(yàn)證所提出方法的有效性。

    2.3.1 KAIST 數(shù)據(jù)集

    在訓(xùn)練之前,使用k-means++聚類標(biāo)簽框,得到合適的預(yù)設(shè)框尺寸。常見的輸入圖像尺寸有416×416、512×512、608×608、640×640,考慮到輸入不同尺寸的圖像對可能會影響檢測器性能,使用本文算法的n 和s 兩個(gè)模型在KAIST 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果見表1 和2。從表中可以看出,輸入圖片的尺寸對檢測模型的性能影響相當(dāng)明顯。在基礎(chǔ)網(wǎng)絡(luò)部分常常會生成比原圖小數(shù)十倍的特征圖,導(dǎo)致小目標(biāo)的特征不容易被檢測網(wǎng)絡(luò)捕捉。通過輸入大尺寸但不超過數(shù)據(jù)集原圖大小的圖片進(jìn)行訓(xùn)練,能夠在一定程度上提高檢測模型對目標(biāo)大小的魯棒性。網(wǎng)絡(luò)結(jié)構(gòu)不變,網(wǎng)絡(luò)的感受野是一定的。輸入圖像的分辨率提高,即尺寸小,感受野在圖像中的占比會下降,導(dǎo)致網(wǎng)絡(luò)提取的局部信息無法有效預(yù)測所有尺度的前景物體,從而造成檢測準(zhǔn)確率下降。因此,實(shí)驗(yàn)中輸入圖像對尺寸均為640×640。

    表1 n 模型上不同輸入圖像對尺寸的檢測器性能Table 1 Detector performance for different input image pairs sizes on n-model

    表2 s 模型上不同輸入圖像對尺寸的檢測器性能Table 2 Detector performance for different input image pairs sizes on s-model

    為了更好地分析編碼器和門控融合網(wǎng)絡(luò)對檢測器性能的貢獻(xiàn),在KAIST 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果見表3??梢钥闯觯赮OLOv5-n 模型上,僅輸入可見光圖像(VS)時(shí),檢測精度為58.7%;僅輸入紅外圖像(IR)時(shí),檢測精度為71%。用可見光編碼器取代YOLOv5-n 的第一層卷積,檢測精度由58.7%提升到59.1%;同理,利用紅外編碼器替換后,檢測精度由71%提升為71.3%。當(dāng)輸入為雙模態(tài)圖像時(shí),利用可見光和紅外編碼器提取特征后,使用門控融合網(wǎng)絡(luò)分配權(quán)重,檢測精度達(dá)到73.8%,較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像分別提升了15.1%和2.8%。在YOLOv5-s 模型上,僅輸入可見光圖像或紅外圖像時(shí)檢測精度分別為59.8%和71.5%。加入可見光編碼器檢測精度提升到60.2%;加入紅外編碼器后,檢測精度提升為71.9%。當(dāng)輸入為雙模態(tài)圖像時(shí),檢測精度達(dá)到74.5%,較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像分別提升了14.7%和3%。雖然所提算法較基準(zhǔn)算法的速度稍微有所下降,但在檢測精度有顯著提高。

    表3 不同模型在KAIST 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experimental results of different models on the KAIST dataset

    圖4 為目標(biāo)person 在不同模型上的精準(zhǔn)率與召回率(Precision-Recall,P-R)曲線??梢钥闯隼秒p模態(tài)圖像互補(bǔ)后的特征信息算法,AP 有大幅提升。

    圖4 不同模態(tài)輸入在兩種模型的P-R 曲線Fig.4 P-R curves of the two models with different modal inputs

    為更直觀地比較與基準(zhǔn)算法的檢測結(jié)果,部分可視化結(jié)果如圖5所示。圖5(a)和(b)是在雙模態(tài)圖像上的真實(shí)框(Ground Truth,GT),圖5(c)是基準(zhǔn)算法在可見光圖片訓(xùn)練后結(jié)果,圖5(d)是在紅外圖像上的結(jié)果,圖5(e)是本文算法的可視化結(jié)果??紤]到該數(shù)據(jù)集可見光圖像的背景較清晰,因此將可視化結(jié)果展示在可見光圖像上。

    圖5 在KAIST 數(shù)據(jù)集上的檢測結(jié)果Fig.5 Detection results on the KAIST dataset

    第一行是白天場景,可見光圖像光照充足,目標(biāo)明顯,相反,紅外圖像目標(biāo)不明顯,本文算法將可見光特征補(bǔ)充后能準(zhǔn)確檢測到目標(biāo)且置信度分?jǐn)?shù)較高。第二行在可見光圖像上錯(cuò)檢,通過與紅外特征互補(bǔ)后,本文算法能夠改善錯(cuò)檢問題。第三行基準(zhǔn)算法YOLOV5-s 在兩種圖像上均未檢測到小目標(biāo),而本文算法的s模型能準(zhǔn)確地檢測。第四行可見光圖像光照不足,很難檢測到目標(biāo),但紅外圖像可以解決此類場景的漏檢問題,本文算法將紅外特征補(bǔ)充后,能夠準(zhǔn)確地檢測到目標(biāo)。第五行是夜晚場景,此類場景下可見光圖像處于劣勢,相反,紅外圖像很有優(yōu)勢,因此,結(jié)合雙模態(tài)圖像的特征后,能夠檢測到目標(biāo)且置信度分?jǐn)?shù)比單模態(tài)圖像高。

    2.3.2 GIR 數(shù)據(jù)集

    同理使用k-means++聚類標(biāo)簽框設(shè)置預(yù)設(shè)框尺寸。在GIR 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果見表4??梢钥闯觯赮OLOv5-n 模型上,僅輸入可見光圖像時(shí),檢測精度為88.8%;僅輸入紅外圖像時(shí),檢測精度為75.5%。用可見光編碼器取代YOLOv5-n 的第一層卷積,檢測精度由提升到89.1%;用紅外編碼器取代YOLOv5-n 的第一層卷積,檢測精度提升為76.3%。當(dāng)輸入為雙模態(tài)圖像時(shí),利用可見光和紅外編碼器提取特征后,使用門控融合網(wǎng)絡(luò)分配權(quán)重,檢測精度達(dá)到89.8%,較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像提升了1%和14.3%。在YOLOv5-s 模型上,僅輸入可見光圖像或紅外圖像時(shí)檢測精度分別為89.9%和76.8%。加入可見光編碼器檢測精度提升到90.1%;加入紅外編碼器后,檢測精度提升為77%。當(dāng)輸入為雙模態(tài)圖像時(shí),檢測精度達(dá)到90.5%,較基準(zhǔn)模型單獨(dú)檢測可見光和紅外圖像提升了0.7%和13.7%。

    表4 不同模型在GIR 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experimental results of different models on the GIR dataset

    表5 為在GIR 數(shù)據(jù)集上10 類目標(biāo)在不同模型上的檢測精度結(jié)果??梢钥闯鲈趦蓚€(gè)模型上利用雙模態(tài)圖像的特征信息后,算法大部分類別的檢測精度有一定程度的提升,尤其是目標(biāo)ball 和kite 的精度有大幅提升。

    表5 所提算法和基準(zhǔn)算法各類的檢測精度(AP0.5%)Table 5 The detection accuracy of the proposed algorithm and the baseline algorithm(AP0.5%)

    為更直觀地比較與基準(zhǔn)算法的檢測結(jié)果,部分可視化結(jié)果如圖6 所示。本文算法具有靈活性,在該數(shù)據(jù)集上的可視化結(jié)果將展示在紅外圖像上。第一行,可見光圖像誤檢,相反,紅外圖像檢測準(zhǔn)確,本文算法也能準(zhǔn)確檢測到目標(biāo)且置信度分?jǐn)?shù)比紅外圖像高。第二行可見光圖像在夜間場景錯(cuò)檢,通過與紅外特征互補(bǔ)后,本文算法能夠改善錯(cuò)檢問題。第三行可見光能在光線充足時(shí)檢測到球,但紅外圖像未能檢測到球,雙模態(tài)圖像特征互補(bǔ)后,本文算法能準(zhǔn)確地檢測到目標(biāo)球。第四行可見光錯(cuò)檢,但紅外圖像可以解決此類場景的錯(cuò)檢問題,本文算法能夠準(zhǔn)確地檢測到目標(biāo)且置信度較高。

    圖6 在GIR 數(shù)據(jù)集上的檢測結(jié)果Fig.6 Detection results on the GIR dataset

    2.4 對比實(shí)驗(yàn)與定量分析

    將本文算法運(yùn)用于KAIST 數(shù)據(jù)集和GIR 數(shù)據(jù)集,并利用目標(biāo)檢測常用指標(biāo),如AP0.5:0.95、AP0.5等,評估所提網(wǎng)絡(luò)。最后與近幾年具有代表性的目標(biāo)檢測算法比較,驗(yàn)證本文方法的有效性。

    2.4.1 KAIST 數(shù)據(jù)集

    表6 給出本文算法與ATSS、YOLOX 等部分主流通用目標(biāo)檢測算法的對比結(jié)果。與原基準(zhǔn)算法相比,本文算法在檢測精度上取得一定優(yōu)勢。與部分經(jīng)典的雙模態(tài)檢測算法對比,如MMTOD[18]、CMDet[37]、RISNet[38],本文算法有較高的檢測精度和較快的檢測速度。改進(jìn)后的算法既可以單獨(dú)訓(xùn)練紅外或可見光圖像,也能同時(shí)訓(xùn)練紅外和可見光圖像對,且效果均優(yōu)于原算法。

    表6 在KSIAT 數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果Table 6 Comparative experimental results on the KSIAT dataset

    2.4.2 GIR 數(shù)據(jù)集

    表7 給出本文算法與YOLOv3、YOLOv4、YOLOv5、YOLOX 等部分主流目標(biāo)檢測算法的對比結(jié)果。與部分經(jīng)典的雙模態(tài)檢測算法相比,本文算法在檢測精度和速度上均有一定優(yōu)勢。

    表7 在GIR 數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果Table 7 Comparative experimental results on the GIR dataset

    3 結(jié)論

    本文提出了一種基于雙模態(tài)融合網(wǎng)絡(luò)的目標(biāo)檢測算法,有效結(jié)合了紅外和可見光圖像特征互補(bǔ)的優(yōu)勢,在白天或夜間條件下都能較準(zhǔn)確地檢測到目標(biāo)。

    算法能對同時(shí)輸入的紅外和可見光圖像對進(jìn)行目標(biāo)檢測,其中,由于紅外圖像中的特征信息較少,對紅外圖像采用紅外編碼器中的迷你殘差塊對空間信息進(jìn)行編碼,增強(qiáng)了目標(biāo)在復(fù)雜背景中的空間信息;對可見光圖像采用設(shè)計(jì)的可見光編碼器從垂直和水平兩個(gè)空間方向聚合特征,通過精確的位置信息對通道關(guān)系進(jìn)行建模。引入多任務(wù)學(xué)習(xí)的思想,提出門控融合網(wǎng)絡(luò),計(jì)算不同模態(tài)的特征對檢測的貢獻(xiàn)概率,自適應(yīng)調(diào)節(jié)兩路特征的權(quán)重分配,實(shí)現(xiàn)跨模態(tài)特征融合。

    該算法在KAIST 和GIR 數(shù)據(jù)集上的檢測效果顯著。在KAIST 行人數(shù)據(jù)集上,與基準(zhǔn)算法YOLOv5-n單獨(dú)檢測可見光圖像和紅外圖像的結(jié)果相比,所提算法檢測精度分別提升15.1%和2.8%;與基準(zhǔn)算法YOLOv5-s 相比,檢測精度分別提升14.7%和3%;同時(shí),檢測速度在兩個(gè)不同基準(zhǔn)算法模型上分別達(dá)到117.6 FPS 和102 FPS。在自建的GIR 數(shù)據(jù)集上,所提算法的檢測精度和速度也同樣具有明顯優(yōu)勢。與多個(gè)經(jīng)典的雙模態(tài)目標(biāo)檢測算法實(shí)驗(yàn)對比結(jié)果驗(yàn)證了本文的方法具有較好的檢測性能,同時(shí)具有良好的實(shí)時(shí)性和魯棒性。此外,所提算法還能對單獨(dú)輸入的可見光或紅外圖像進(jìn)行目標(biāo)檢測,且檢測性能與基準(zhǔn)算法相比有明顯提升。

    猜你喜歡
    編碼器紅外模態(tài)
    網(wǎng)紅外賣
    閃亮的中國紅外『芯』
    金橋(2021年4期)2021-05-21 08:19:20
    TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
    電子制作(2019年7期)2019-04-25 13:17:14
    基于FPGA的同步機(jī)軸角編碼器
    基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
    基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
    電子器件(2015年5期)2015-12-29 08:42:24
    國內(nèi)多模態(tài)教學(xué)研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
    多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
    武平县| 靖州| 金昌市| 历史| 札达县| 长葛市| 新龙县| 和田市| 曲沃县| 吴江市| 河源市| 乌拉特中旗| 甘泉县| 太原市| 房产| 天祝| 玉树县| 安宁市| 金川县| 平塘县| 宝鸡市| 井陉县| 波密县| 株洲县| 遵义县| 闸北区| 衡阳市| 叶城县| 土默特左旗| 凤凰县| 山东省| 顺平县| 澄城县| 永城市| 嘉义县| 清水河县| 迭部县| 凤阳县| 双流县| 集安市| 湘乡市|