• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于區(qū)域感知的多尺度目標(biāo)檢測算法

    2023-12-16 10:29:52李澤平楊文幫
    計(jì)算機(jī)工程 2023年12期
    關(guān)鍵詞:表達(dá)能力尺度特征

    黃 路,李澤平,楊文幫,趙 勇,張 嫡

    (1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,貴陽 550025;2.北京大學(xué)深圳研究生院 信息工程學(xué)院,廣東 深圳 518055)

    0 概述

    目標(biāo)檢測[1-2]是計(jì)算機(jī)視覺領(lǐng)域1 個(gè)重要的研究和應(yīng)用方向?;谏疃葘W(xué)習(xí)的目標(biāo)檢測一般分為兩級(jí)檢測器和一級(jí)檢測器。兩級(jí)檢測器首先生成候選區(qū)域,再基于分類和回歸對(duì)候選區(qū)域進(jìn)行細(xì)化,實(shí)現(xiàn)目標(biāo)的定位與識(shí)別。文獻(xiàn)[3]提出R-CNN,采用選擇搜索策略[4]生成候選區(qū)域,通過卷積網(wǎng)絡(luò)提取特征,最后進(jìn)行分類和回歸??紤]到R-CNN 對(duì)候選區(qū)域提取特征會(huì)造成大量的冗余計(jì)算,一些研究人員不斷地優(yōu)化并提出一系列算法,如Fast R-CNN[5]、Faster R-CNN[6]。

    相比兩級(jí)檢測器,一級(jí)檢測器不須提取候選區(qū)域,有效提高檢測效率,但存在檢測精度低的問題。文獻(xiàn)[7]提出SSD,嘗試從多個(gè)尺度自上而下地預(yù)測類別和邊框。文獻(xiàn)[8]提出YOLO,從整張?zhí)卣鲌D上預(yù)測目標(biāo)的類別和邊框信息。在YOLO 基礎(chǔ)上,研究人員不斷地優(yōu)化并提出一系列的YOLO 算法,例 如YOLOv2[9]、YOLOv3[10]、YOLOv4[11]和YOLOx[12]等。考慮到一階段檢測器普遍存在正負(fù)樣本不平衡、困難樣本問題,文獻(xiàn)[13]采用聚焦損失函數(shù)抑制正負(fù)樣本不平衡,同時(shí)挖掘困難樣本。此外,文獻(xiàn)[14]采用數(shù)據(jù)增強(qiáng)和增加淺層特征的方式提高模型的檢測能力,同時(shí)調(diào)整損失函數(shù),避免出現(xiàn)梯度消失??紤]到不同尺度間感受野的差異,文獻(xiàn)[15]在淺層特征上引入多分支并行空洞卷積,提出一種基于多分支并行空洞卷積的多尺度目標(biāo)檢測算法。

    現(xiàn)有目標(biāo)檢測網(wǎng)絡(luò)通常利用骨干網(wǎng)絡(luò)的主分支層提取高維特征信息,然而經(jīng)過上采樣、卷積等操作后容易造成主分支層的特征信息丟失。為此,文獻(xiàn)[16]提出一種特征金字塔網(wǎng)絡(luò),采用自頂向下的方式融合鄰接尺度間的特征。在文獻(xiàn)[16]的基礎(chǔ)上,文獻(xiàn)[17]提出PANet,增加1 個(gè)自底向上的路徑,融合各層特征間的語義信息和位置信息??紤]到直接融合不同尺度的特征會(huì)產(chǎn)生不平衡問題,文獻(xiàn)[18]提出自適應(yīng)空間特征融合(Adaptively Spatial Feature Fusion,ASFF)方法,通過1×1 卷積計(jì)算各尺度特征的標(biāo)量映射,學(xué)習(xí)尺度間的空間重要性權(quán)重,平衡不同尺度特征的表達(dá)能力。文獻(xiàn)[19]通過設(shè)計(jì)特征門控模塊和動(dòng)態(tài)融合模塊,實(shí)現(xiàn)多尺度特征的動(dòng)態(tài)融合。文獻(xiàn)[20]通過融合骨干網(wǎng)絡(luò)的多個(gè)主分支層,然后上采樣最后1 個(gè)主分支層,提出一種雙分支特征融合的檢測算法。

    綜上所述,現(xiàn)有算法雖然取得一定的成效,但是主分支層的關(guān)鍵特征并沒有得到充分利用。此外,通過設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)融合不同尺度的特征,不僅增加模型復(fù)雜度,而且忽略不同尺度特征表達(dá)能力不平衡等問題。為此,本文提出一種基于區(qū)域感知的多尺度目標(biāo)檢測算法CW-YOLO。在YOLOv5[21]的基礎(chǔ)上,采用數(shù)據(jù)增強(qiáng)、改進(jìn)的邊框損失Beta-CIoU 和Alpha-DIoU-NMS,構(gòu) 建1 個(gè)增強(qiáng) 的基線 模型。在主分支層上分別引入通道信息增強(qiáng)模塊(Channel Information Enhancement Module,CIEM),充分利用主分支層的關(guān)鍵特征,避免了主分支特征信息容易丟失的問題,并強(qiáng)化模型對(duì)重點(diǎn)區(qū)域的感知能力。同時(shí),提出加權(quán)特征融合方法(Weighted Feature Fusion Method,WFFM),平衡不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力,進(jìn)而提高算法對(duì)多尺度目標(biāo)的感知能力。最后,該算法在公開數(shù)據(jù)集Pascal VOC[22]、MS COCO[23]、Global Wheat[24]、Wider Face[25]和自制 數(shù)據(jù)集Motor Defect 上完成 了實(shí)驗(yàn)驗(yàn)證。

    1 多尺度目標(biāo)檢測算法

    1.1 網(wǎng)絡(luò)結(jié)構(gòu)

    本文在YOLOv5 的基礎(chǔ)上,采用數(shù)據(jù)增強(qiáng)、Beta-CIoU 損失和Alpha-DIoU-NMS 方法構(gòu)建1 個(gè)增強(qiáng)的基線模型,并提出一種基于區(qū)域感知的多尺度目標(biāo)檢測算法CW-YOLO,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。CW-YOLO 的整體網(wǎng)絡(luò)結(jié)構(gòu)主要由骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和YOLO 檢測頭組成,C1、C2、C3 表示3 種不同尺度的特征圖。首先,骨干網(wǎng)絡(luò)采用CSPDarkNet53[26]提取主分支層{C1,C2,C3}的特征信息,在此基礎(chǔ)上引入CIEM 作為額外的分支層,然后將CIEM 與經(jīng)過自頂向下和自底向上的路徑聚合網(wǎng)絡(luò)融合,分別得到3 種融合不同語義信息和位置信息的特征圖M11、M22 和M33。使用WFFM 對(duì)不同尺度的特征圖{M11,M22,M33}進(jìn)行2 次融合,得到3 種不同尺度的檢測頭{P1,P2,P3}。針對(duì)P1、P2 和P3,分別在特征圖M11、M22、M33 上引入平衡因子{d,e,f},平衡不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力。最后將P1、P2 和P3 進(jìn)行多尺度預(yù)測,實(shí)現(xiàn)目標(biāo)的識(shí)別與定位。CIEM 通過提取每個(gè)主分支層的關(guān)鍵特征,有助于過濾背景信息的干擾特征,提高模型對(duì)重點(diǎn)區(qū)域的感知能力。WFFM 能夠平衡不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力,強(qiáng)化各個(gè)檢測頭對(duì)多尺度目標(biāo)的感知能力。

    圖1 CW-YOLO 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of CW-YOLO network

    1.2 增強(qiáng)基線模型

    YOLOv5 的網(wǎng)絡(luò)結(jié)構(gòu)主要由CSPDarkNet53、PANet 和YOLO 檢測頭組成。在數(shù)據(jù)預(yù)處理階段,主要采用平移、旋轉(zhuǎn)、Mosaic、Mixup[27]等數(shù)據(jù)增強(qiáng)策略。Mosaic 數(shù)據(jù)增強(qiáng)是把不同的樣本經(jīng)過隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)和隨機(jī)拼接組成;Mixup 數(shù)據(jù)增強(qiáng)是把2 張不同的樣本按照一定的比例融合,提高樣本的數(shù)據(jù)量,增強(qiáng)模型的魯棒性。

    針對(duì)目標(biāo)框的困難回歸問題,在預(yù)測框和真實(shí)框的交并比(Intersection over Union,IoU)上引入調(diào)節(jié)因子來增大模型對(duì)困難回歸框的損失和梯度。假設(shè)IoU 的期望和方差分別為μ和σ2,引入調(diào)節(jié)因子β后,IoU 的期望 和方差 分別變 為βμ和β2σ2。當(dāng)β?(0,1)時(shí),IoU 的方差變?yōu)樵瓉淼摩?,能有效緩解預(yù)測框和真實(shí)框之間IoU 的離散程度,進(jìn)而增大困難回歸框的信息量。此外,受Alpha-IoU[28]的啟發(fā),以預(yù)測框與真實(shí)框中心點(diǎn)的歐氏距離和高寬比作為邊框損失的約束條件,在此基礎(chǔ)上引入調(diào)節(jié)因子并提出Beta-CIoU 邊框損失,其計(jì)算式如式(1)所示。通過改變調(diào)節(jié)因子,使得模型增大困難回歸框的損失和梯度,從而更關(guān)注困難回歸目標(biāo)。在不增加任何代價(jià)的情況下,提高目標(biāo)檢測的精確度。

    其中:ρ(b,bgt)表示預(yù)測框b和真實(shí)框bgt中心點(diǎn)的歐氏距離;β表示調(diào)節(jié)因子;α默認(rèn)為3;c表示最小外接框的對(duì)角線長度。γ和ν的計(jì)算式如式(2)所示:

    在目標(biāo)檢測的后處理階段,傳統(tǒng)的非極大值抑制(Non-Maximum Suppression,NMS)方法采用普通IoU 閾值作為候選框篩選的指標(biāo)。然而,當(dāng)同類別目標(biāo)存在遮擋時(shí),不同候選框之間的IoU 可能會(huì)超過篩選的閾值,會(huì)被誤認(rèn)為是同1 個(gè)目標(biāo),從而過濾掉遮擋目標(biāo)。因此,以不同候選框的中心點(diǎn)距離作為約束條件,在DIoU[29]的基礎(chǔ)上,將Alpha-IoU 推廣到NMS,提出Alpha-DIoU-NMS,減小與遮擋目標(biāo)的IoU,使得模型能夠提取到豐富的目標(biāo)框信息,計(jì)算式如式(3)所示:

    1.3 通道信息增強(qiáng)模塊

    在多尺度特征融合[30]中,淺層特征具有更多的位置信息,有利于小目標(biāo)檢測。深層特征經(jīng)過多次卷積、池化等操作后能夠提取豐富的語義信息,有利于大目標(biāo)檢測。然而,現(xiàn)有的目標(biāo)檢測算法采用自頂向下、自底向上等路徑聚合網(wǎng)絡(luò)融合多尺度信息,往往忽略了經(jīng)過卷積、上下采樣等操作后容易造成主分支層特征信息丟失的問題。研究人員指出,直接融合不同尺度的特征會(huì)引入大量的背景信息,使得目標(biāo)的邊界變得模糊,重點(diǎn)區(qū)域的特征不明顯,從而弱化模型對(duì)目標(biāo)區(qū)域的關(guān)注。

    針對(duì)上述問題,受SENet 注意力機(jī)制[31]的啟發(fā),本文提出CIEM模塊,數(shù)學(xué)表達(dá)式如式(4)所示:

    CIEM 模塊沿著主分支層的通道方向使用全局最大池化(Global Maximum Pooling,GMP)和全局平均池化(Global Average Pooling,GAP)提取重要的通道信息,采用1×1 卷積融合跨通道間的信息,然后通過Sigmoid 激活函數(shù)獲取非線性的權(quán)重矩陣,最后融合主分支層的特征,使得模型盡可能保留主分支層的關(guān)鍵特征,提高模型對(duì)重要區(qū)域的感知能力。

    CIEM 模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。在主分支層{C1,C2,C3}上分別引入CIEM 作為額外的分支層,與經(jīng)過自頂向下和自底向上的路徑聚合網(wǎng)絡(luò)融合,提取主分支層{C1,C2,C3}的關(guān)鍵特征和上下文信息,抑制背景信息的干擾,提高模型對(duì)重點(diǎn)區(qū)域的感知能力,使得模型更關(guān)注待測目標(biāo)。考慮到小目標(biāo)的像素信息少且對(duì)位置信息敏感的特性,移除中間層與最淺層特征的第1 次融合操作,使得淺層特征能獲取更豐富的位置信息,提高模型的檢測效果。

    1.4 加權(quán)特征融合方法

    在卷積神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)加深,模型越有利于大目標(biāo)檢測,相反越淺層的特征對(duì)小目標(biāo)的信息更加敏感。由于目標(biāo)尺寸大小不一,因此容易造成不同尺度的特征表達(dá)能力不平衡?,F(xiàn)有方法主要通過直接相加、通道拼接操作和設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)模塊等方式融合不同尺度的特征,不僅增加網(wǎng)絡(luò)模型的復(fù)雜度,而且忽略了不同尺度特征表達(dá)能力不平衡的問題。

    針對(duì)以上問題,在原有特征融合的基礎(chǔ)上進(jìn)行2 次融合,本文提出一種加權(quán)特征融合方法,平衡不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力。通過給不同尺度的輸入特征{M11,M22,M33}引入1 個(gè)平衡因子,調(diào)整不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力,提高不同尺度特征的有用信息,抑制背景信息的干擾,從而提高3 個(gè)檢測頭{P1,P2,P3}對(duì)不同大小目標(biāo)的表達(dá)能力,增強(qiáng)模型對(duì)多尺度目標(biāo)的感知能力。針對(duì)小、中、大3 種檢測頭,分別調(diào)整平衡因子dl、el和fl的大小來平衡不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力,從而達(dá)到尺度平衡的目的,計(jì)算式如式(5)所示:

    其中:xn→l表示從第n層到第l層的輸入特征;yl表示融合后的輸出特征。在特征融合前需要對(duì)不同的特征圖進(jìn)行尺度變化,使其與融合后的特征在分辨率和通道上保持一致。此外,為了防止平衡因子的取值不穩(wěn)定給模型訓(xùn)練帶來的影響,規(guī)定如式(6)所示:

    2 實(shí)驗(yàn)驗(yàn)證與分析

    2.1 數(shù)據(jù)集

    算法在公開數(shù)據(jù)集Pascal VOC、MS COCO、麥穗數(shù)據(jù)集Global Wheat、人臉檢測數(shù)據(jù)集Wider Face和自制數(shù)據(jù)集Motor Defect 上進(jìn)行實(shí)驗(yàn)驗(yàn)證。Pascal VOC 數(shù)據(jù)集包含20 個(gè)類別,共有16 551 張訓(xùn)練集圖片和4 952 張驗(yàn)證集圖片;MS COCO 數(shù)據(jù)集包含80 個(gè)類別,共有118×103張訓(xùn)練集圖片、5×103張驗(yàn)證集圖片和20×103張測試集圖片;Global Wheat 數(shù)據(jù)集包含1 個(gè)類別,共有2 675 張訓(xùn)練集圖片和747 張驗(yàn)證集圖片;Wider Face 數(shù)據(jù)集包含1 個(gè)類別,共有12 876 張訓(xùn)練集圖片和3 226 張驗(yàn)證集圖片;Motor Defect數(shù)據(jù)集包含5 個(gè)類別,共有3 451 張訓(xùn)練集圖片和645 張驗(yàn)證集圖片。

    2.2 實(shí)驗(yàn)環(huán)境

    本次實(shí)驗(yàn)所采用的操作系統(tǒng)是Ubuntu20.04 LTS,顯卡型號(hào)為RTX 2080Ti 和RTX 3090,CUDA 版本為11.3,并在PyTorch框架下完成代碼編寫。本文實(shí)驗(yàn)采用隨機(jī)梯度下降法優(yōu)化模型,超參數(shù)設(shè)置如表1所示。

    表1 超參數(shù)設(shè)置Table 1 Hyperparameter setting

    2.3 評(píng)價(jià)指標(biāo)

    在目標(biāo)檢測中,平均精度(Average Precision,AP)是衡量模型性能的1 個(gè)重要指標(biāo),通過模型的精確度(P)與召回率(R)所組成的線下曲線面積得到。AP50∶95表示步長為0.05,計(jì)算IoU 從0.50~0.95 的平均精度均值;AP50表示IoU 為0.5 的平均精度;AP75表示IoU 為0.75 的平均精度;APS表示小目標(biāo)的平均精度,其目標(biāo)區(qū)域小于322 個(gè)像素;APM表示中目標(biāo)的平均精度,其目標(biāo)區(qū)域在322~962 個(gè)像素之間;APL表示大目標(biāo)的平均精度,其目標(biāo)區(qū)域大于962 個(gè)像素。此外,根據(jù)參數(shù)量和計(jì)算量(FLOPs)衡量模型的復(fù)雜度。

    2.4 消融實(shí)驗(yàn)

    本文在Pascal VOC 數(shù)據(jù)集上對(duì)CW-YOLO 的各個(gè)模塊進(jìn)行論證和分析。采用默認(rèn)的訓(xùn)練協(xié)議和訓(xùn)練參數(shù) 復(fù)現(xiàn)了 基線模 型(YOLOv5s)。在2 張GeForce RTX 2080Ti 上進(jìn)行訓(xùn)練和測試,并使用Pascal VOC 驗(yàn)證集評(píng)估模型的性能指標(biāo)。實(shí)驗(yàn)主要圍 繞Beta-CIoU 損 失、Alpha-DIoU-NMS、CIEM 和WFFM 展開分析,實(shí)驗(yàn)結(jié)果如表2 所示。

    表2 添加各個(gè)模塊的實(shí)驗(yàn)結(jié)果Table 2 Experimental results adding each module

    從表2 可以看出,在YOLOv5s 基礎(chǔ)上,使用Beta-CIoU 損失、Alpha-DIoU-NMS、CIEM、WFFM 和Mixup 后,模型的評(píng)價(jià)指標(biāo)AP50∶95從52.11%提高到57.59%,提升5.48 個(gè)百分點(diǎn),AP50從77.64%提高到81.70%,提升4.06 個(gè)百分點(diǎn),此外,精確度從62.57%提高到67.14%,提升4.57 個(gè)百分點(diǎn),召回率從78.99%提高到82.95%,提升3.96 個(gè)百分點(diǎn)。

    在Beta-CIoU 中,選取不同的調(diào)節(jié)因子完成6 組消融實(shí)驗(yàn),結(jié)果如表3 所示,參數(shù)量為7.1×106,F(xiàn)LOPs 為16.5×109。從表3 可以看出,與調(diào)節(jié)因子為1.0 相比,當(dāng)調(diào)節(jié)因子為0.9 時(shí),本文模型的評(píng)價(jià)指標(biāo)AP50:95提高了0.06 個(gè)百分點(diǎn),AP50提高0.3 個(gè)百分點(diǎn),精確度提高了1.94 個(gè)百分點(diǎn)。此外,隨著調(diào)節(jié)因子減少,通過增大困難回歸框的損失和梯度,使得模型更關(guān)注困難回歸目標(biāo),提高模型的精確度。相比基線模型,僅須修改模型的損失函數(shù),評(píng)價(jià)指標(biāo)AP50:95提高2.41 個(gè)百分點(diǎn),精確度提升4.81 個(gè)百分點(diǎn)。Beta-CIoU 邊框損失能有效提高算法的檢測性能。

    表3 不同調(diào)節(jié)因子的實(shí)驗(yàn)結(jié)果Table 3 Experimental results among different regulators

    為驗(yàn)證Alpha-DIoU-NMS 方法的有效性,在Beta-CIoU 損失的基礎(chǔ)上進(jìn)行消融實(shí)驗(yàn)。從表2 可以看出,與YOLOv5s+Beta-CIoU 相比,YOLOv5s+Beta-CIoU+Alpha-DloU-NMS 模型的 評(píng)價(jià)指 標(biāo)AP50:95提高0.05 個(gè)百分點(diǎn)。圖2 所示為Alpha-DIoU-NMS和普通NMS 的可視化檢測效果圖。從圖2 可以看出,當(dāng)2 個(gè)同類別目標(biāo)存在遮擋情況時(shí),2 個(gè)目標(biāo)的重疊面積增大,普通NMS 方法直接過濾掉遮擋區(qū)域的目標(biāo),而Alpha-DIoU-NMS 方法通過弱化候選框的IoU,防止模型對(duì)同類別遮擋目標(biāo)產(chǎn)生誤判,能夠有效地檢測出遮擋目標(biāo)。

    圖2 普通NMS 和Alpha-DIoU-NMS 的可視化檢測效果Fig.2 The visual detection effect of ordinary NMS and Alpha-DIoU-NMS

    為驗(yàn)證CIEM 的有效性,在增強(qiáng)基線模型的基礎(chǔ)上進(jìn)行消融實(shí)驗(yàn)。表2 顯示添加CIEM 模塊后,模型的評(píng)價(jià)指標(biāo)AP50∶95從54.57% 提高到54.99%,提 高0.42 個(gè)百分點(diǎn)。圖3 所示為可視化增強(qiáng)的基線模型、添加CIEM 和引入WFFM 后的熱力圖(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),紅色表示模型對(duì)目標(biāo)區(qū)域的感知程度,藍(lán)色表示模型對(duì)背景信息的抑制程度。從圖3 可以看出,相比增強(qiáng)的基線模型,添加CIEM 后,模型能有效地抑制背景信息,使得目標(biāo)區(qū)域的特征更加顯著,而且背景區(qū)域與目標(biāo)的邊界更加清晰,從而減少背景信息給模型訓(xùn)練帶來的負(fù)面影響。因此,CIEM 通過提取主分支層的關(guān)鍵特征,抑制背景信息的干擾,使得模型更關(guān)注目標(biāo)區(qū)域,增強(qiáng)對(duì)重點(diǎn)區(qū)域的感知能力,有助于提高模型的檢測效果。

    圖3 添加各個(gè)模塊后的熱力圖Fig.3 Heat map after adding each module

    為驗(yàn)證WFFM 的有效性,本文分別在Pascal VOC 數(shù)據(jù)集上做了5 組消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所 示,參數(shù)量 為11.8×106,F(xiàn)LOPs 為22.8×109。其 中P1、P2 和P3 分別表示檢測頭的淺層、中間層和深層特征。從表4 可以看出,與直接相加融合方法相比,對(duì)淺層特征P1 使用WFFM 方法,使得模型對(duì)小目標(biāo)的評(píng)價(jià)指標(biāo)APS從25.8%提高到30.3%,提升了4.5 個(gè)百分點(diǎn);對(duì)中間層特征P2 使用WFFM 后,模型對(duì)中目標(biāo)的評(píng)價(jià)指標(biāo)APM從43.9%提高到44.1%,提升了0.2 個(gè)百分點(diǎn);對(duì)深層特征P3 使用WFFM 后,模型對(duì)大目標(biāo)的評(píng)價(jià)指標(biāo)APL從61.2%提高到61.4%,提高了0.2 個(gè)百分點(diǎn)。此外,單獨(dú)對(duì)P2 層和P3 層使用WFFM,模型對(duì)不同尺度目標(biāo)的檢測能力均有一定程度的提升。直接相加融合方法會(huì)限制各尺度特征的表達(dá)能力,從而表明不同尺度的輸入特征對(duì)輸出特征的表達(dá)能力是不平衡的。最后對(duì)P1、P2 和P3 同時(shí)使用WFFM,模型沒有增加任何的參數(shù)量和計(jì)算量,相比直接相加融合方法,評(píng)價(jià)指標(biāo)AP50∶95提高0.57 個(gè)百分點(diǎn),AP50提高0.24 個(gè)百分點(diǎn),同時(shí)提高模型對(duì)多尺度目標(biāo)的檢測效果,APS提高了1 個(gè)百分點(diǎn),APM提高了1.2 個(gè)百分 點(diǎn),APL提高了0.4 個(gè)百分點(diǎn)。此外,圖3 顯示添加WFFM 后,通過平衡不同尺度特征的表達(dá)能力,使得模型能夠抑制背景信息,增強(qiáng)對(duì)目標(biāo)區(qū)域的感知能力。

    表4 不同尺度的特征層使用WFFM 方法對(duì)模型性能的影響Table 4 The impact of using WFFM method on model performance for feature layers at different scales %

    為驗(yàn)證模型在實(shí)際應(yīng)用場景的檢測能力,在麥穗數(shù)據(jù)集Global Wheat、人臉檢測數(shù)據(jù)集Wider Face和電機(jī)缺陷數(shù)據(jù)集Motor Defect 上做了3 組消融實(shí)驗(yàn),結(jié)果如表5 所示。

    表5 不同模型在數(shù)據(jù)集上的檢測性能Table 5 Detection performance among different models on datasets %

    在麥穗數(shù)據(jù)集Global Wheat 上,相比YOLOv5s,CW-YOLOS 模型的 精確度、AP50和AP50∶95分別提 高18.94、0.38、1.94 個(gè)百分點(diǎn);在人臉檢測數(shù)據(jù)集Wider Face 上,CW-YOLOS 模型的 精確度、AP50、AP50∶95分別提高19.52、0.37 和0.70 個(gè)百分點(diǎn);在自制數(shù)據(jù)集Motor Defect 上,CW-YOLOS 模型的 精確度、AP50、AP50∶95分別提 高15.00、1.29、1.95 個(gè)百分 點(diǎn)。因 此,CW-YOLO 算法通過增強(qiáng)目標(biāo)區(qū)域的感知能力,有效提升目標(biāo)檢測的精確度。

    2.5 與先進(jìn)的目標(biāo)檢測算法比較

    CW-YOLO 算法主要遵循YOLOv5 的模型縮放策略,得到了4 種不同規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)(CWYOLOS、CW-YOLOM、CW-YOLOL、CW-YOLOX)。本文實(shí)驗(yàn)主要是在2 張內(nèi)存為24 GB 的GeForce RTX 3090 上完成MS COCO 數(shù)據(jù)集的訓(xùn)練和測試任務(wù)。由于MS COCO 的測試集并未提供標(biāo)簽文件,因此在MS COCO 官方服務(wù)器上完成測試和評(píng)估任務(wù)。

    表6 所示為CW-YOLO 在COCO test-dev 測試集上與先進(jìn)的目標(biāo)檢測算法的性能對(duì)比,加粗表示最優(yōu)值,“—”表示官方并未給出相應(yīng)結(jié)果,“*”表示幀率是通過RTX 3090 測試得到。CW-YOLOS 相比YOLOv5s 的評(píng)價(jià)指標(biāo)AP50∶95提 高3 個(gè)百分 點(diǎn);CW-YOLOX 的評(píng)價(jià)指標(biāo)AP50∶95達(dá)到了50.7%,比PP-YOLOv2 的最大模型提高0.4 個(gè)百分點(diǎn),比YOLOv4 的最大模型提高7.2 個(gè)百分點(diǎn),比Dynamic Head 的最大模型提高3 個(gè)百分點(diǎn),比DW 的最大模型提高1.4 個(gè)百分點(diǎn)。CW-YOLOX 通過強(qiáng)化多尺度特征和重點(diǎn)區(qū)域的感知能力,提高模型對(duì)多尺度目標(biāo)的檢測效果,使得評(píng)價(jià)指標(biāo)APS、APM、APL分別為31.5%、55.5%、64%。實(shí)驗(yàn)結(jié)果表明,與基線模型YOLOv5 的4 種網(wǎng)絡(luò)模型相比,CW-YOLOS、CW-YOLOM、CWYOLOL、CW-YOLOX 4 種網(wǎng)絡(luò)模型的AP50∶95分別提高了3.0、2.0、1.1 和0.3 個(gè)百分點(diǎn)。

    表6 CW-YOLO 與其他目標(biāo)檢測算法的性能對(duì)比Table 6 Performance comparison between CW-YOLO and other object detection algorithms

    3 結(jié)束語

    針對(duì)主分支層的特征信息容易丟失、不同尺度的特征表達(dá)能力不平衡等問題,本文提出一種基于區(qū)域感知的多尺度目標(biāo)檢測算法CW-YOLO。該算法主要圍繞增強(qiáng)基線模型、通道信息增強(qiáng)模塊和加權(quán)特征融合方法展開和分析,進(jìn)一步提高了算法對(duì)重點(diǎn)區(qū)域、多尺度目標(biāo)的感知能力和檢測能力。在Pascal VOC、MS COCO 等5 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法能有效提升目標(biāo)檢測的精確度。下一步將優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),減少模型的復(fù)雜度,提高算法的推理速度。

    猜你喜歡
    表達(dá)能力尺度特征
    財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
    創(chuàng)新寫作教學(xué),培養(yǎng)表達(dá)能力
    談學(xué)生口語表達(dá)能力的培養(yǎng)
    甘肅教育(2020年20期)2020-04-13 08:05:22
    如何表達(dá)“特征”
    不忠誠的四個(gè)特征
    抓住特征巧觀察
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    加強(qiáng)聯(lián)想力和口語表達(dá)能力
    9
    學(xué)生口語表達(dá)能力的培養(yǎng)
    恩施市| 营山县| 云梦县| 耿马| 腾冲县| 睢宁县| 泊头市| 偏关县| 元朗区| 迁西县| 浮梁县| 舞阳县| 泰和县| 乌鲁木齐市| 乌兰察布市| 连城县| 疏勒县| 安陆市| 攀枝花市| 巴彦淖尔市| 政和县| 工布江达县| 淅川县| 沙河市| 宁城县| 车险| 盐津县| 衡水市| 威信县| 巴林左旗| 枝江市| 金湖县| 博湖县| 庆城县| 临邑县| 英吉沙县| 广州市| 汝阳县| 塘沽区| 钦州市| 固镇县|