• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向無人機(jī)遙感場(chǎng)景的輕量級(jí)小目標(biāo)檢測(cè)算法

    2023-12-16 10:29:50胡清翔饒文碧熊盛武
    計(jì)算機(jī)工程 2023年12期
    關(guān)鍵詞:像素卷積尺寸

    胡清翔,饒文碧,2,熊盛武,2

    (1.武漢理工大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,武漢 430000;2.武漢理工大學(xué) 三亞科教創(chuàng)新園,海南 三亞 572000)

    0 概述

    目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,隨著深度學(xué)習(xí)的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法逐步取代了傳統(tǒng)的檢測(cè)方法。

    小目標(biāo)檢測(cè)是目標(biāo)檢測(cè)領(lǐng)域中的重點(diǎn)和難點(diǎn)方向之一。CHEN 等[1]將小目標(biāo)定義為目標(biāo)所占的像素面積與圖像總面積的比值小于0.58%。此外,不同的數(shù)據(jù)集對(duì)小目標(biāo)也有各自的定義。在COCO 數(shù)據(jù)集中,尺寸小于32×32 像素的目標(biāo)為小目標(biāo)。小目標(biāo)具有分辨率低、像素過少以及位置缺乏準(zhǔn)確性的特點(diǎn)。因此,相對(duì)于通常尺寸的目標(biāo),小目標(biāo)的檢測(cè)更加困難。

    為獲得較優(yōu)的檢測(cè)結(jié)果,研究人員不斷增加目標(biāo)檢測(cè)網(wǎng)絡(luò)模型的寬度、深度,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,模型參數(shù)量以及運(yùn)算量極大,難以部署到無人機(jī)等邊緣設(shè)備且無法達(dá)到實(shí)時(shí)檢測(cè)的目的[2-3]。具有實(shí)時(shí)檢測(cè)能力的小目標(biāo)檢測(cè)算法逐步得到研究人員的關(guān)注。為提升小目標(biāo)檢測(cè)能力,主要有以下方法:對(duì)圖片進(jìn)行超分辨率[4-5]、數(shù)據(jù)增強(qiáng)[6-8]、多特征融合[9-11]、結(jié)合上下文信息加強(qiáng)特征提?。?2-13]以及額外預(yù)測(cè)目標(biāo)框的旋轉(zhuǎn)角度[14-15],使預(yù)測(cè)框更貼近真實(shí)目標(biāo)。上述方法為增強(qiáng)小目標(biāo)的檢測(cè)能力,需要增加極大的計(jì)算代價(jià),因而在實(shí)際應(yīng)用中難以滿足實(shí)時(shí)檢測(cè)要求。

    文獻(xiàn)[4]提出通過生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)對(duì)兩階段算法中的候選區(qū)域進(jìn)行超分辨率,然后對(duì)超分辨率后候選區(qū)域中的目標(biāo)進(jìn)行分類以及定位。為減少M(fèi)TGAN 中超分辨方法帶來的巨量計(jì)算代價(jià),文獻(xiàn)[5]提出一種對(duì)候選區(qū)域進(jìn)行裁剪的方法,將超分辨率方法應(yīng)用于裁剪后的候選區(qū)域。但是上述方法具有較大的計(jì)算代價(jià)和時(shí)間開銷,并且基于GAN 的超分辨率方法會(huì)產(chǎn)生人工噪音,對(duì)小目標(biāo)的檢測(cè)起到負(fù)面影響。

    AKYON 等[6]提出SAHI 方法。SAHI 方法通過切片輔助推理,將圖片分割為多個(gè)重疊的切片,提升小目標(biāo)在切片圖像中的占比,最后對(duì)切片圖片檢測(cè)出的結(jié)果進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS)后處理,從而獲得最終的檢測(cè)結(jié)果。SINGH 等[8]提出圖像金字塔方法,將同一張圖像設(shè)置為不同尺寸大小,并將其送入神經(jīng)網(wǎng)絡(luò),在尺寸大的圖片上檢測(cè)小目標(biāo),在尺寸小的圖片上檢測(cè)中、大型目標(biāo)。WOO 等[9]提出StairNet 方法,在上采樣過程中引入反卷積操作。與不可學(xué)習(xí)的線性上采樣相比,可學(xué)習(xí)的反卷積可以獲得特征的細(xì)節(jié)信息,有利于小目標(biāo)特征信息的保存以及傳遞。戚玲瓏等[11]提出一種改進(jìn)YOLOv7 的小目標(biāo)檢測(cè)方法,利用注意力機(jī)制與SIoU 損失函數(shù)提高網(wǎng)絡(luò)對(duì)小目標(biāo)的敏感度,但是沒有進(jìn)一步研究IoU 度量方法對(duì)小目標(biāo)的影響。ZHU 等[12]提出TPH-YOLO 方法,TPH-YOLO方法在YOLOv5 方法的基礎(chǔ)上,使用Transformer 獲取上下文信息,在特征融合網(wǎng)絡(luò)中加入CBAM 注意力機(jī)制加強(qiáng)小目標(biāo)的特征提取能力。HAN[14]等提出ReDet,通過額外預(yù)測(cè)目標(biāo)框的旋轉(zhuǎn)角度并且提出旋轉(zhuǎn)不變的特征對(duì)齊方法,加強(qiáng)對(duì)航空?qǐng)D像中的小目標(biāo)的檢測(cè)精度,但是網(wǎng)絡(luò)需要額外預(yù)測(cè)目標(biāo)框角度,增加了網(wǎng)絡(luò)的學(xué)習(xí)成本與收斂難度。

    針對(duì)目標(biāo)檢測(cè)模型難以部署在邊緣設(shè)備、不能達(dá)到實(shí)時(shí)檢測(cè)以及小目標(biāo)檢測(cè)不佳的問題,本文提出基于YOLO 的輕量級(jí)小目標(biāo)檢測(cè)算法SS-YOLO。為達(dá)到實(shí)時(shí)檢測(cè)速度,SS-YOLO 使用深度可分離卷積操作刪除多分支并行結(jié)構(gòu),精簡(jiǎn)網(wǎng)絡(luò)架構(gòu)。為解決小目標(biāo)檢測(cè)能力不足的問題,SS-YOLO 增加了用于檢測(cè)微小目標(biāo)的特征圖P2,并且通過SUCA(Semantic Upsampling Convolution with Adaptive fusion factor)模塊加強(qiáng)低層特征圖的語(yǔ)義信息。使用基于二維高斯分布的LCNWD損失函數(shù)增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)進(jìn)行定位,克服IoU 度量方法對(duì)目標(biāo)尺寸敏感的缺點(diǎn)。

    1 YOLO 模型及改進(jìn)思路

    YOLO 系列算法在目標(biāo)檢測(cè)領(lǐng)域中具有推理時(shí)間較快、檢測(cè)精度較高的優(yōu)點(diǎn)。因此,本文提出輕量級(jí)主干網(wǎng)絡(luò)、SUCA 模塊以及LCNWD損失函數(shù),并將其應(yīng)用于YOLOv5 算法。

    1.1 YOLO 算法

    YOLOv5 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。該模型由3 個(gè)主要部分構(gòu)成,分別是用于初步提取特征的主干網(wǎng)絡(luò)Backbone、特征融合網(wǎng)絡(luò)Neck 以及用于分類和定位的預(yù)測(cè)頭Head。Backbone 在對(duì)輸入圖像進(jìn)行特征初步提取獲得特征圖后,送入特征融合網(wǎng)絡(luò)Neck 進(jìn)行特征增強(qiáng),得到下采樣倍數(shù)分別為8、16、32 的特征圖P3、P4、P5。檢測(cè)頭Head 在不同尺寸的特征圖上檢測(cè)不同尺寸大小的目標(biāo)。

    圖1 YOLOv5 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure of YOLOv5 network model

    1.2 改進(jìn)思路

    本文提出的改進(jìn)思路示意圖如圖2 所示。加快目標(biāo)檢測(cè)速度的主流方法是使用深度可分離卷積以減少網(wǎng)絡(luò)參數(shù)量、刪除網(wǎng)絡(luò)中多余的旁路分支以精簡(jiǎn)結(jié)構(gòu)。受TRC 方法[16]的啟發(fā),本文提出結(jié)合歸一化注意力的PP-LCNet[3]輕量級(jí)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),以加快網(wǎng)絡(luò)的檢測(cè)速度。

    圖2 本文的改進(jìn)思路示意圖Fig.2 Schematic diagram of improvement ideas in this paper

    在YOLOv5 中,Neck 部分會(huì)輸出下采樣倍數(shù)分別為8、16、32 的3 個(gè)特征圖,分別用于檢測(cè)小型、中型以及大型目標(biāo)。但是在面向無人機(jī)遙感領(lǐng)域中,存在大量尺寸小于12 像素的遠(yuǎn)景目標(biāo)。這些目標(biāo)即使在下采樣倍數(shù)為8 的特征圖中也很難保存足夠的 特征信息。受YOLOF[17]的啟發(fā),在Neck 網(wǎng)絡(luò)中額外加入下采樣倍數(shù)為4 的特征圖P2,用于檢測(cè)極小的遠(yuǎn)景目標(biāo)。

    文獻(xiàn)[18-19]提出的目標(biāo)檢測(cè)包含需要語(yǔ)義信息的分類任務(wù)以及位置信息的定位任務(wù)。高層的低分辨率特征圖(P4、P5)具有較強(qiáng)的語(yǔ)義信息,但是定位信息較弱。與其相反,低層的特征圖(P2、P3)語(yǔ)義信息較弱,但是定位信息較強(qiáng)。自底向上的路徑聚合網(wǎng)絡(luò)通過加強(qiáng)高層特征圖的定位信息,提升中大型目標(biāo)的檢測(cè)能力。但是在無人機(jī)遙感圖像中,待檢測(cè)的小目標(biāo)聚集在P2、P3 特征圖中,因此單獨(dú)提升P4、P5 特征圖的定位信息對(duì)于小目標(biāo)檢測(cè)性能基本沒有提升。由于P2、P3 特征圖的語(yǔ)義信息較弱,因此為加強(qiáng)小目標(biāo)的檢測(cè)能力,需要額外增強(qiáng)其語(yǔ)義信息。受DUC(Dense Upsampling Convolution)[20]以 及fusion factor[21]的啟發(fā),本文提 出SUCA 結(jié)合自適應(yīng)融合因子的語(yǔ)義上采樣卷積方法,用于補(bǔ)充低層特征圖中的小目標(biāo)的語(yǔ)義信息。

    在目標(biāo)檢測(cè)網(wǎng)絡(luò)中使用最廣泛的定位回歸損失函數(shù)為IoU 損失函數(shù),但是IoU 度量方法對(duì)目標(biāo)尺寸敏感。在相同偏移下,大目標(biāo)的IoU 值顯著大于小目標(biāo)的IoU 值,因此網(wǎng)絡(luò)對(duì)小目標(biāo)的定位關(guān)注程度明顯低于大目標(biāo)。受CIoU 損失函數(shù)與歸一化Wasserstein距 離(Normalized Wasserstein Distance,NWD)方法[22]的啟發(fā),本文提出結(jié)合NWD 度量方法與中心點(diǎn)距離懲罰項(xiàng)的LCNWD定位回歸損失函數(shù),使目標(biāo)檢測(cè)網(wǎng)絡(luò)更加關(guān)注小目標(biāo)的定位回歸,加強(qiáng)定位精度。

    2 SS-YOLO 算法

    SS-YOLO 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3 所示。

    圖3 SS-YOLO 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.3 Structure of SS-YOLO network model

    2.1 輕量的主干網(wǎng)絡(luò)

    YOLOv5 使用CSPDarkNet 作為主干網(wǎng)絡(luò),結(jié)構(gòu)復(fù)雜,需要大量計(jì)算資源并且推理時(shí)間較長(zhǎng),不滿足實(shí)時(shí)性要求,不適合部署在無人機(jī)等邊緣設(shè)備上。為滿足在邊緣設(shè)備上的實(shí)時(shí)檢測(cè)要求,本文基于輕量級(jí)網(wǎng)絡(luò)PP-LCNet,結(jié)合基于歸一化的注意力機(jī)制NAM 提出一種新的主干網(wǎng)絡(luò)。改進(jìn)后的PP-LCNet主干網(wǎng)絡(luò)的參數(shù)信息如表1 所示,其中,Conv 代表普通卷積,DSConv 3、DSConv 5 為使用深度可分離卷積搭建的基礎(chǔ)模塊,NAM[23]為加強(qiáng)網(wǎng)絡(luò)特征提取能力的注意力模塊。

    表1 改進(jìn)的PP-LCNet 主干網(wǎng)絡(luò)參數(shù)信息Table 1 Parameter information of improved PP-LCNet backbone network

    在PP-LCNet 中使用深度可分離卷積大幅度減少網(wǎng)絡(luò)參數(shù)量。通過反復(fù)使用DSConv 3、DSConv 5這2 個(gè)模塊進(jìn)行網(wǎng)絡(luò)堆疊,以較低的計(jì)算成本實(shí)現(xiàn)多尺度特征融合和感受野擴(kuò)展。

    深度可分離卷積減少了網(wǎng)絡(luò)參數(shù)量、加快網(wǎng)絡(luò)速度,但是其忽略了通道與空間之間的聯(lián)系。因此,深度可分離卷積通常會(huì)降低網(wǎng)絡(luò)檢測(cè)性能。為彌補(bǔ)深度可分離卷積帶來網(wǎng)絡(luò)性能下降的不足,本文使用NAM 模塊加強(qiáng)網(wǎng)絡(luò)對(duì)特征的提取能力。NAM 使用批歸一化的比例因子表示權(quán)重的重要性,不用額外加入SE 和CBAM 中的全連接層和卷積層,以極低的計(jì)算代價(jià)增強(qiáng)PP-LCNet 網(wǎng)絡(luò)的特征提取能力。

    2.2 微小目標(biāo)檢測(cè)層P2

    YOLOv5 與YOLOv7 都采用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)結(jié)構(gòu),在Neck 網(wǎng)絡(luò)尾部輸出3 種不同下采樣尺度的特征圖,分別用于檢測(cè)大型、中型以及小型目標(biāo)。原始特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4 所示。

    圖4 原始特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 Structure of original feature extraction network model

    上述的分治方法在COCO、Pascal VOC 等常規(guī)數(shù)據(jù)集中非常有效,但是在無人機(jī)遙感圖像中效果不佳。這是因?yàn)榇龣z測(cè)目標(biāo)大多為尺寸極小的遠(yuǎn)景目標(biāo),在原圖中的尺寸可能小于8×8 像素,這種目標(biāo)即使被分配在下采樣倍數(shù)為8 的小目標(biāo)檢測(cè)層中,所占尺寸不超過1 像素,沒有足夠的特征信息用于分類以及定位。為解決上述問題,本文在Neck 網(wǎng)絡(luò)中加入1 個(gè)下采樣倍數(shù)為4 的特征層P2,專門用于檢測(cè)極小的目標(biāo),增加極小尺寸后的特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5 所示。

    圖5 增加極小尺寸后的特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Structure of feature extraction network model with minimal size addition

    2.3 SUCA 模塊

    在P2、P3 特征圖上進(jìn)行檢測(cè)時(shí),由于其感受野較小,因此沒有足夠的語(yǔ)義信息用于分類任務(wù),導(dǎo)致小目標(biāo)的檢測(cè)結(jié)果不佳。文獻(xiàn)[21]提出FPN 在小目標(biāo)檢測(cè)任務(wù)中效果不好的另一個(gè)原因是低層特征圖的檢測(cè)任務(wù)會(huì)被高層影響,為了讓低層特征圖專注于小目標(biāo)的檢測(cè),應(yīng)該控制高層語(yǔ)義特征的影響權(quán)重。

    在低層特征圖中的語(yǔ)義信息可以從高層特征圖自頂向下傳播而來。在FPN 的自頂向下傳播路徑中,需要對(duì)低分辨率特征圖進(jìn)行上采樣,絕大多數(shù)目標(biāo)檢測(cè)算法都采用雙線性插值方法。但是該方法不可學(xué)習(xí),并且會(huì)帶來大量的人工噪音,損壞語(yǔ)義信息的傳遞。因此,受DUC 與fusion factor 的啟發(fā),本文提出適應(yīng)融合的語(yǔ)義上采樣模塊SUCA,增強(qiáng)上采樣過程中丟失的語(yǔ)義信息。

    SUCA 模塊將亞像素卷積遷移到目標(biāo)檢測(cè)任務(wù)中用于替代原有上采樣方法。上采樣倍數(shù)為2 的亞像素卷積過程如圖6 所示。首先對(duì)輸入的原始低分辨率特征圖(H×W×1)進(jìn)行3 層卷積操作,使其通道數(shù)變?yōu)?,再將特征圖中每個(gè)像素的4 個(gè)通道映射到1 個(gè)通道上,使其重新排列為2×2 的區(qū)域,對(duì)應(yīng)高分辨率圖像中1 個(gè)2×2 大小的子塊。重排后H×W×4 的特征圖像就轉(zhuǎn)換為2H×2W×1 的高分辨率圖像。在圖像從低分辨率到高分辨率的放大過程中,插值函數(shù)被隱含地包含在前面的卷積層中,可以隨網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)。亞像素卷積不僅解決了線性插值中不可學(xué)習(xí)的問題,并且沒有帶來會(huì)損壞檢測(cè)精度的人工噪音。

    圖6 亞像素卷積像素重排過程Fig.6 Rearrangement process of subpixel convolution pixel

    SUCA 模塊結(jié)構(gòu)如圖7 所示。為避免亞像素卷積中的通道擴(kuò)張操作帶來巨大的計(jì)算代價(jià),從而影響算法的檢測(cè)速度,SUCA 模塊中的第1 個(gè)卷積操作并不會(huì)擴(kuò)張通道數(shù),而是僅對(duì)特征進(jìn)行提取。經(jīng)過亞像素重排、減少通道數(shù)、擴(kuò)張尺寸后,再利用卷積操作恢復(fù)為輸入的通道數(shù),得到圖7 中的B"。

    圖7 SUCA 模塊結(jié)構(gòu)Fig.7 Structure of SUCA module

    在FPN 結(jié)構(gòu)中,上采樣所得到的特征圖會(huì)與主干網(wǎng)絡(luò)中提取的特征圖進(jìn)行拼接融合,為避免低層檢測(cè)小目標(biāo)的任務(wù)被高層所影響,本文在SUCA 模塊中加入可學(xué)習(xí)的自適應(yīng)融合因子α(α?{0,1}),用于控制從高層上采樣得到特征圖的權(quán)重。在圖7中,特征圖B"逐點(diǎn)乘α,然后與低層的高分辨率特征圖C"進(jìn)行通道拼接融合,從而得到最后需要送入檢測(cè)頭的特征圖D"。加入SUCA 模塊后,SS-YOLO 算法的特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)如圖8 所示。

    圖8 加入SUCA 模塊后特征提取網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.8 Structure of feature extraction network model with SUCA module

    2.4 LCNWD定位回歸函數(shù)

    IoU 是目標(biāo)檢測(cè)中最重要的指標(biāo)之一,常用于評(píng)估真實(shí)框與網(wǎng)絡(luò)預(yù)測(cè)框之間的位置關(guān)系,計(jì)算表達(dá)式如式(1)所示:

    其中:B為網(wǎng)絡(luò)給出的預(yù)測(cè)框的中心點(diǎn);BGT為物體真實(shí)框中心點(diǎn)。如果預(yù)測(cè)框和真實(shí)框沒有重疊,此時(shí)IoU 值將會(huì)退化為0,IoU 定位損失將無法計(jì)算。針對(duì)該問題,YOLOv5 和YOLOv7 采用改進(jìn)后的IoU損失函數(shù)CIoU:在IoU 損失函數(shù)的基礎(chǔ)上加入距離以及長(zhǎng)寬比2 個(gè)懲罰項(xiàng)。CIoU 損失函數(shù)主要考慮以下3 個(gè)特點(diǎn):1)重合區(qū)域面積;2)預(yù)測(cè)框與真實(shí)框之間中心點(diǎn)的距離;3)預(yù)測(cè)框與真實(shí)框之間的長(zhǎng)寬比例。CIoU Loss 表達(dá)式如下:

    其中:B、BGT分別表示預(yù)測(cè)框以及真實(shí)框的中心點(diǎn);ρ為計(jì)算2 個(gè)中心點(diǎn)之間的歐氏距離;v用于計(jì)算2 個(gè)框?qū)捀咧g的相似性;ωGT與hGT為真實(shí)框的寬、高;w與h為預(yù)測(cè)框的寬、高;α為寬高相似度的權(quán)重因子。

    CIoU 解決IoU 中沒有重疊時(shí)梯度為0 的問題,并且考慮2 個(gè)框之間中心點(diǎn)的距離與寬高比例之間的相似性。但是IoU 度量方法對(duì)目標(biāo)的尺寸極其敏感,如圖9 所示。在相同的距離偏移下,小尺寸目標(biāo)的IoU 下降速率遠(yuǎn)大于大尺寸目標(biāo)。

    圖9 IoU 對(duì)目標(biāo)尺寸的敏感性Fig.9 Sensitivity of IoU to object size

    文獻(xiàn)[22]提出一種對(duì)目標(biāo)尺寸不敏感的度量方法NWD。圖10 所示為目標(biāo)尺寸分別為12、32、64 在不同偏移下的IoU 與NWD 對(duì)比。

    圖10 尺寸為(12,32,64)的目標(biāo)在相同偏移量下的IoU 與NWD 對(duì) 比Fig.10 IoU and NWD comparison of object with size(12,32,64)at the same offset

    NWD 方法通過二維高斯分布表示邊界框,并通過其對(duì)應(yīng)的高斯分布計(jì)算預(yù)測(cè)框和真實(shí)框之間的相似度。對(duì)于任意2 個(gè)目標(biāo)框,本文均可以通過其對(duì)應(yīng)高斯分布的相似性來測(cè)量其關(guān)系。NWD 的計(jì)算式如式(5)和式(6)所示:

    其中:W2(N,NGT)表示預(yù)測(cè)框與真實(shí)框的Wasserstein距離;N、NGT分別為預(yù)測(cè)框與真實(shí)框的二維高斯分布;C表示依據(jù)數(shù)據(jù)集中目標(biāo)尺寸設(shè)置的常數(shù)?;谏鲜? 種方法,本文提出結(jié)合CIoU 與NWD 的針對(duì)小目標(biāo)回歸損失函數(shù)LCNWD,如式(7)所示:

    LCNWD利用NWD 對(duì)目標(biāo)尺寸不敏感的特性,加強(qiáng)網(wǎng)絡(luò)對(duì)于小目標(biāo)的關(guān)注程度,并且加入CIoU 的中心點(diǎn)距離懲罰項(xiàng),使預(yù)測(cè)框更加貼近真實(shí)框,減小預(yù)測(cè)時(shí)產(chǎn)生的位置偏移。

    3 實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)數(shù)據(jù)集

    本文在VisDrone-2019 Det 和AI-TOD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證SS-YOLO 的魯棒性以及有效性。VisDrone 數(shù)據(jù)集是由天津大學(xué)開源的1 個(gè)大型無人機(jī)遙感數(shù)據(jù)集。該數(shù)據(jù)集被分為3 部分:訓(xùn)練集(具有6 471 張圖片)、驗(yàn)證集(具有548 張圖片)、測(cè)試集(具有1 610 張圖片)。VisDrone 數(shù)據(jù)集共有10 個(gè)不同類別,其目標(biāo)分類難度較大,并且類別存在長(zhǎng)尾效應(yīng)。其中汽車類別目標(biāo)最多,遮陽(yáng)三輪車類別的目標(biāo)最少。與COCO、Pascal VOC 等常規(guī)數(shù)據(jù)集相比,該數(shù)據(jù)集上的物體尺寸更小,目標(biāo)的平均尺寸僅為35.8 像素,標(biāo)注目標(biāo)數(shù)量更多并且具有不同的拍攝角度。

    AI-TOD 數(shù)據(jù)集包含8 036 張航拍圖像,包含8 個(gè)類別,700 621 個(gè)對(duì)象實(shí)例。與通常目標(biāo)檢測(cè)數(shù)據(jù)集相比,AI-TOD 中目標(biāo)的平均大小約為12.8 像素,遠(yuǎn)小于其他數(shù)據(jù)集。

    3.2 評(píng)價(jià)標(biāo)準(zhǔn)

    實(shí)驗(yàn)中采用平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)作為模型檢測(cè)精度的評(píng)價(jià)標(biāo)準(zhǔn)。AP 為單類別的檢測(cè)精度,由P-R曲線與坐標(biāo)軸構(gòu)成的面積計(jì)算得到。mAP 為所有類別的AP 平均值。為評(píng)估模型大小,本文使用模型參數(shù)量以及推理時(shí)間作為評(píng)估標(biāo)準(zhǔn)。

    3.3 結(jié)果分析

    在本文實(shí)驗(yàn)中,所有算法均在對(duì)應(yīng)數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練80 輪次。網(wǎng)絡(luò)輸出的置信度閾值設(shè)置為0.25,以保證預(yù)測(cè)結(jié)果的分類精度。SS-YOLO 在VisDrone 測(cè)試集上檢測(cè)的評(píng)價(jià)指標(biāo)如表2 和圖11 所示。SS-YOLO 的mAP 為28.9%,mAP50 為45.9%,推理時(shí)間僅為11.5 ms,F(xiàn)PS 最高可達(dá)71 幀/s,能夠在滿足無人機(jī)等邊緣設(shè)備上實(shí)時(shí)檢測(cè)要求的同時(shí),取得較優(yōu)的檢測(cè)精度。

    表2 SS-YOLO 在VisDrone 測(cè)試集上的評(píng)價(jià)指標(biāo)Table 2 Evaluation indicators of SS-YOLO on the VisDrone test set %

    圖11 混淆矩陣Fig.11 Confusion matrix

    3.3.1 橫向?qū)Ρ葘?shí)驗(yàn)

    本文將YOLOv5s 以 及YOLOv7-tiny[24]作為實(shí)驗(yàn)對(duì)比基準(zhǔn),與近年來多種前沿方法進(jìn)行橫向?qū)Ρ?,分別是Cascade R-CNN[25]、YOLOR[26]、YOLOx[27]、Center Net[28]和TPH-YOLO[12]。由于部 分方法對(duì)訓(xùn)練環(huán)境要求較高,因此僅引用論文中的實(shí)驗(yàn)結(jié)果。橫向?qū)Ρ葘?shí)驗(yàn)的結(jié)果如表3 所示。從表3 可以看出,SS-YOLO 相較于YOLOv5s 的模型參數(shù)量減少了37%,推理時(shí)間縮短了3.4 ms,mAP50 和mAP 提升2.1 和2.3 個(gè)百分點(diǎn)。與最新的YOLOv7-tiny 相比,盡管YOLOv7-tiny 采用repVGG 結(jié)構(gòu)重參數(shù)化加速推理,但是比SS-YOLO 的推理時(shí)間縮短5.2 ms,在檢測(cè)精度上mAP50 和mAP 分別提升6.7和7.5 個(gè)百分點(diǎn)。與目前VisDrone 數(shù)據(jù)集上最優(yōu)秀的目標(biāo)檢測(cè)算法TPH-YOLOv5 相比,SS-YOLO 模型盡管mAP 下降了7.9 個(gè)百分點(diǎn),但是參數(shù)量?jī)H為其4%,推理速度僅為其4.1%,能夠滿足邊緣設(shè)備的實(shí)時(shí)檢測(cè)要求。

    表3 不同目標(biāo)檢測(cè)算法在VisDrone測(cè)試集上的橫向?qū)Ρ冉Y(jié)果Table 3 Horizontal comparison results among different object detection algorithms on the VisDrone testset

    為進(jìn)一步驗(yàn)證模型的魯棒性與有效性,本文在AI-TOD 數(shù)據(jù)集上與YOLOv5s、YOLOv7-tiny 進(jìn)行額外的對(duì)比實(shí)驗(yàn),輸入圖片大小為800×800 像素。實(shí)驗(yàn)結(jié)果如表4 所示。從表4 可以看出,在目標(biāo)尺寸更小的AI-TOD 數(shù)據(jù)集上,SS-YOLO 能夠有效提升檢測(cè)精度。

    表4 不同目標(biāo)檢測(cè)算法在AI-TOD 驗(yàn)證集上的橫向?qū)Ρ冉Y(jié)果Table 4 Horizontal comparison results among different object detection algorithms on the AI-TOD validation set

    消融實(shí)驗(yàn)結(jié)果如表5 所示。從表5 可以看出,在Baseline 中加入SUCA 模塊后,網(wǎng)絡(luò)的推理時(shí)間與模型參數(shù)量均有所增加,但是檢測(cè)精度mAP 與mAP50得到了提升,表明SUCA 模塊可以提升網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)精度。在Baseline+SUCA 中加入LCNWD之后,網(wǎng)絡(luò)的參數(shù)量沒有發(fā)生變化,但是檢測(cè)精度有進(jìn)一步的提升,說明本文提出的LCNWD損失函數(shù)具有一定的有效性。

    表5 消融實(shí)驗(yàn)結(jié)果Table 5 Results of ablation experiment

    3.3.2 可視化實(shí)驗(yàn)

    為更加直觀地觀察該方法在檢測(cè)精度上的提升,本文使用多張無人機(jī)拍攝的圖像測(cè)試算法YOLOv5s、YOLOv7-tiny 和SS-YOLO,檢測(cè)結(jié)果 如圖12 所示。

    從圖12 可以看出,SS-YOLO 的檢測(cè)結(jié)果優(yōu)于YOLOv5s 以及YOLOv7-tiny。以第1 張圖為例,僅有SS-YOLO 算法檢測(cè)到了右上角的2 輛汽車以及1 輛面包車。因此,本文提出的改進(jìn)方法針對(duì)小目標(biāo)能有效提升檢測(cè)性能。

    4 結(jié)束語(yǔ)

    針對(duì)無人機(jī)遙感圖像場(chǎng)景,本文提出一種基于YOLOv5 的輕量級(jí)小目標(biāo)檢測(cè)算法。為解決現(xiàn)有目標(biāo)檢測(cè)算法無法在無人機(jī)等邊緣設(shè)備中進(jìn)行實(shí)時(shí)檢測(cè)的問題,本文提出輕量級(jí)的主干網(wǎng)絡(luò),簡(jiǎn)化主干網(wǎng)絡(luò)結(jié)構(gòu),減少網(wǎng)絡(luò)參數(shù)量,加快其推理速度。為解決小目標(biāo)在高層特征圖中特征信息不足的問題,利用分治方法,加入下采樣倍數(shù)為4 的特征圖P2,使其專注于檢測(cè)微小目標(biāo)。針對(duì)小目標(biāo)所在的特征圖P2、P3 缺乏的語(yǔ)義信息問題,提出結(jié)合自適應(yīng)融合的語(yǔ)義上采樣方法,在增強(qiáng)特征圖語(yǔ)義信息的同時(shí)使其自主學(xué)習(xí)高層特征圖對(duì)低層特征圖的影響權(quán)重。針對(duì)IoU 度量方法對(duì)目標(biāo)尺寸敏感問題,提出了目標(biāo)尺寸不敏感的LCNWD損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,該算法能有效提升了小目標(biāo)檢測(cè)性能,減少模型參數(shù)量、加快其檢測(cè)速度。下一步將對(duì)標(biāo)簽分配算法與檢測(cè)頭中的特征不對(duì)齊問題進(jìn)行研究,提升模型在無人機(jī)遙感場(chǎng)景中小目標(biāo)的檢測(cè)性能。

    猜你喜歡
    像素卷積尺寸
    趙運(yùn)哲作品
    藝術(shù)家(2023年8期)2023-11-02 02:05:28
    尺寸
    智族GQ(2022年12期)2022-12-20 07:01:18
    像素前線之“幻影”2000
    CIIE Shows Positive Energy of Chinese Economy
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    “像素”仙人掌
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    D90:全尺寸硬派SUV
    高像素不是全部
    CHIP新電腦(2016年3期)2016-03-10 14:22:03
    合川市| 宁海县| 荆门市| 泸西县| 湖南省| 乐至县| 贵定县| 商洛市| 赞皇县| 两当县| 新津县| 加查县| 南宫市| 葫芦岛市| 扶余县| 额尔古纳市| 淮滨县| 修武县| 长岛县| 齐齐哈尔市| 肇源县| 陆川县| 瑞金市| 准格尔旗| 徐汇区| 崇信县| 望城县| 永宁县| 醴陵市| 鄂伦春自治旗| 巨鹿县| 榕江县| 静安区| 桑植县| 满城县| 拉孜县| 鄂托克前旗| 普格县| 额尔古纳市| 明水县| 绥宁县|