• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Yolov7_Pose的輕量化人體姿態(tài)估計(jì)網(wǎng)絡(luò)

    2024-11-30 00:00:00黃健胡翻展越
    現(xiàn)代電子技術(shù) 2024年23期
    關(guān)鍵詞:關(guān)鍵點(diǎn)輕量化姿態(tài)

    摘" 要: 人體姿態(tài)估計(jì)在計(jì)算機(jī)視覺(jué)、人機(jī)交互與運(yùn)動(dòng)分析等領(lǐng)域廣泛應(yīng)用。當(dāng)前人體姿態(tài)估計(jì)算法往往通過(guò)構(gòu)建復(fù)雜的網(wǎng)絡(luò)來(lái)提高精度,但這帶來(lái)了模型體量和計(jì)算量增大,以及檢測(cè)速度變慢等問(wèn)題。因此,文中提出一種基于Yolov7_Pose的輕量化人體姿態(tài)估計(jì)網(wǎng)絡(luò)。首先,采用輕量化CARAFE模塊替換原網(wǎng)絡(luò)中的上采樣模塊,完成上采樣工作;接著,在特征融合部分引入輕量化Slim?neck模塊,以降低模型的計(jì)算量和復(fù)雜度;最后,提出了RFB?NAM模塊,將其添加到主干網(wǎng)絡(luò)中,用以獲取多個(gè)不同尺度的特征信息,擴(kuò)大感受野,提高特征提取能力。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后網(wǎng)絡(luò)模型的GFLOPs和模型大小分別降低了約18.1%、22%,檢測(cè)速度提升37.93%,并在低光環(huán)境、小目標(biāo)、密集人群和俯視角度下表現(xiàn)出了較好的性能。

    關(guān)鍵詞: 人體姿態(tài)估計(jì); Yolov7_Pose; 輕量化; 上采樣; CARAFE; Slim?neck

    中圖分類(lèi)號(hào): TN911.1?34; TP391" " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " "文章編號(hào): 1004?373X(2024)23?0098?07

    Lightweight human pose estimation network based on Yolov7_Pose

    HUANG Jian, HU Fan, ZHAN Yue

    (College of Communication and Information Engineering, Xi’an University of Science and Technology, Xi’an 710600, China)

    Abstract: Human pose estimation is widely used in computer vision, human?computer interaction (HCI) and motion analysis. Current human pose estimation algorithms often improve accuracy by constructing complex networks, but this brings increased model size and computation, as well as slower detection speed. Therefore, this paper proposes a lightweight human pose estimation network based on Yolov7_Pose. A lightweight CARAFE module is used to replace the up?sampling module in the original network to complete the up?sampling first, and then a lightweight Slim?neck module is introduced in the feature fusion section to reduce the computation and complexity of the model. Finally, the RFB?NAM module is proposed and added to the backbone network for acquiring feature information at multiple different scales, expanding the receptive field, as well as improving the feature extraction capability. The experimental results show that the computational burden and model size of the improved network model have been reduced by about 18.1% and 22%, respectively, and its detection speed has increased by 37.93%. In addition, it shows better performance in low?light environments, detection of small objects, dense crowds, and perspective of overlooking.

    Keywords: human pose estimation; Yolov7_Pose; lightweight; up?sampling; CARAFE; Slim?neck

    0" 引" 言

    人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)關(guān)鍵研究方向,通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)對(duì)人體姿態(tài)的精準(zhǔn)識(shí)別和分析[1]。然而,隨著檢測(cè)精度的不斷提升,現(xiàn)有算法的復(fù)雜性也隨之增加,導(dǎo)致模型參數(shù)量和計(jì)算量急劇上升,難以滿足有實(shí)時(shí)性要求的任務(wù)。因此,如何輕量化人體姿態(tài)估計(jì)網(wǎng)絡(luò),既要保證檢測(cè)精度,又要降低網(wǎng)絡(luò)的計(jì)算量以及提高檢測(cè)速度成為主要問(wèn)題。人體姿態(tài)估計(jì)可分為單人人體姿態(tài)估計(jì)和多人人體姿態(tài)估計(jì)兩個(gè)方面[2]。

    單人人體姿態(tài)估計(jì)指的是在一張圖片或視頻中檢測(cè)和識(shí)別單個(gè)人的身體姿勢(shì)或動(dòng)作,并標(biāo)注出各個(gè)關(guān)節(jié)點(diǎn)。文獻(xiàn)[3]提出了DeepPose網(wǎng)絡(luò),首次采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和關(guān)鍵點(diǎn)坐標(biāo)回歸,但其精度不穩(wěn)定,特別是在遮擋情況下,難以提供準(zhǔn)確的檢測(cè)結(jié)果,而且網(wǎng)絡(luò)收斂速度較慢。文獻(xiàn)[4]提出了Hourglass網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)堆疊多個(gè)Hourglass模塊逐步提取和整合特征。

    多人人體姿態(tài)估計(jì)方法可以分為自頂向下和自底向上兩種[5]。

    自頂向下方法首先利用目標(biāo)檢測(cè)算法識(shí)別出每個(gè)個(gè)體,然后利用單人姿態(tài)估計(jì)方法對(duì)所有人進(jìn)行姿態(tài)估計(jì)。該方法通常具有相對(duì)較高的姿態(tài)估計(jì)準(zhǔn)確性,但其準(zhǔn)確性與目標(biāo)檢測(cè)器精度相關(guān),并且檢測(cè)速度隨著人數(shù)增加而降低。文獻(xiàn)[6]提出了區(qū)域多人姿態(tài)估計(jì)網(wǎng)絡(luò)(RMPE),結(jié)合對(duì)稱(chēng)空間變換網(wǎng)絡(luò)(SSTN)、參數(shù)化姿態(tài)非最大值抑制(NMS)和姿態(tài)引導(dǎo)的樣本生成器(PGPG),有效提高了關(guān)鍵點(diǎn)的檢測(cè)效果,但該網(wǎng)絡(luò)存在計(jì)算成本高和運(yùn)行時(shí)間長(zhǎng)的問(wèn)題。文獻(xiàn)[7]提出了級(jí)聯(lián)金字塔網(wǎng)絡(luò)(CPN),通過(guò)GlobalNet金字塔網(wǎng)絡(luò)學(xué)習(xí)特征來(lái)解決遮擋和不可見(jiàn)關(guān)鍵點(diǎn)的檢測(cè)問(wèn)題,利用基于困難樣本挖掘的RefineNet網(wǎng)絡(luò)解決難以檢測(cè)的關(guān)鍵點(diǎn),但仍然存在計(jì)算成本高和耗時(shí)長(zhǎng)的問(wèn)題。文獻(xiàn)[8]提出高分辨率網(wǎng)絡(luò)(HRNet),該網(wǎng)絡(luò)通過(guò)并行連接這些特征圖來(lái)維持高分辨的信息,有效地提高了關(guān)鍵點(diǎn)的定位精度。然而,為了保持高分別率,使得模型的計(jì)算量增加。

    自底向上方法是先檢測(cè)到圖像中所有人體關(guān)鍵點(diǎn),然后通過(guò)聚類(lèi)算法將關(guān)鍵點(diǎn)聚類(lèi)到每個(gè)人。該方法不受檢測(cè)人數(shù)的影響,并且檢測(cè)速度相對(duì)恒定,但需要各種復(fù)雜的后處理來(lái)提高網(wǎng)絡(luò)精度。文獻(xiàn)[9]提出了OpenPose網(wǎng)絡(luò),采用多階段的網(wǎng)絡(luò)結(jié)構(gòu),其中每個(gè)階段由兩個(gè)分支組成,分別用于熱圖估計(jì)和人體姿態(tài)關(guān)鍵點(diǎn)的組合。然而該網(wǎng)絡(luò)檢測(cè)速度較慢,難以滿足實(shí)時(shí)檢測(cè)任務(wù)需求。文獻(xiàn)[10]提出了PiPaf網(wǎng)絡(luò),該方法使用部分強(qiáng)度場(chǎng)(PIF)定位身體部位,并使用部分關(guān)聯(lián)場(chǎng)(PAF)將身體部位與其他部位關(guān)聯(lián)起來(lái)形成完整的人體姿態(tài),但該網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,導(dǎo)致了較高的計(jì)算量。綜上所述,如何在人體姿態(tài)估計(jì)網(wǎng)絡(luò)的精度和速度之間取得平衡,成為一個(gè)主要的研究方向。

    本文針對(duì)現(xiàn)有算法的不足,提出了一種基于Yolov7_Pose的輕量化人體姿態(tài)估計(jì)網(wǎng)絡(luò),具體內(nèi)容包括:

    1) 使用輕量化CARAFE模塊替換原網(wǎng)絡(luò)中的上采樣模塊,完成上采樣工作;

    2) 使用輕量化Slim?neck模塊對(duì)特征融合部分進(jìn)行改進(jìn),以進(jìn)行網(wǎng)絡(luò)輕量化;

    3) 提出了RFB?NAM模塊,將其添加在主干網(wǎng)絡(luò)中,用來(lái)獲取多個(gè)不同尺度的特征信息,擴(kuò)大感受野,提高特征提取能力。

    實(shí)驗(yàn)結(jié)果表明,本文方法實(shí)現(xiàn)了人體姿態(tài)估計(jì)網(wǎng)絡(luò)的輕量化,同時(shí)在部分復(fù)雜條件下的人體關(guān)鍵點(diǎn)檢測(cè)具有較好的性能。

    1" Yolov7_Pose網(wǎng)絡(luò)

    Yolov7_Pose網(wǎng)絡(luò)是將Yolov7目標(biāo)檢測(cè)和姿態(tài)估計(jì)結(jié)合在一起的端到端模型。該網(wǎng)絡(luò)包括四個(gè)主要部分,輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和檢測(cè)頭輸出端(Head)[11]。通過(guò)輸入端接收?qǐng)D像數(shù)據(jù)并進(jìn)行預(yù)處理,然后通過(guò)主干網(wǎng)絡(luò)提取圖像的特征,再通過(guò)頸部網(wǎng)絡(luò)將不同尺度的特征圖進(jìn)行信息融合和特征增強(qiáng),最后通過(guò)檢測(cè)頭輸出端生成目標(biāo)檢測(cè)與關(guān)鍵點(diǎn)檢測(cè)的結(jié)果。Yolov7_Pose網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    2" 改進(jìn)Yolov7_Pose網(wǎng)絡(luò)

    2.1" 融合GSConv和VoV?GSCSP的Slim?neck模塊

    Yolov7_Pose網(wǎng)絡(luò)是由標(biāo)準(zhǔn)卷積堆疊而成。在標(biāo)準(zhǔn)卷積中每個(gè)卷積核僅能提取一個(gè)特征圖,為了獲取更多特征,需要增加卷積核的數(shù)量,這將導(dǎo)致網(wǎng)絡(luò)體量的增加和檢測(cè)速度的降低[12]。因此,本文在特征融合部分引入了輕量化Slim?neck模塊[13],其基于GSConv模塊和VoV?GSCSP模塊。通過(guò)將原網(wǎng)絡(luò)Neck層中標(biāo)準(zhǔn)卷積替換為GSConv,再結(jié)合VoV?GSCSP模塊,以降低網(wǎng)絡(luò)的計(jì)算量,同時(shí)提高網(wǎng)絡(luò)的檢測(cè)速度。

    2.1.1" GSConv卷積

    GSConv卷積是一種用于目標(biāo)檢測(cè)任務(wù)中的輕量化卷積模塊。GSConv的計(jì)算步驟如下。

    1) 輸入特征先經(jīng)過(guò)一個(gè)標(biāo)準(zhǔn)卷積,其輸出通道數(shù)變?yōu)檩斎胪ǖ罃?shù)的[12]。

    2) 經(jīng)過(guò)深度可分離卷積對(duì)每個(gè)通道獨(dú)立進(jìn)行卷積。

    3) 將普通卷積輸出與深度可分離卷積的輸出拼接。

    4) 經(jīng)過(guò)通道混洗操作重新排列通道特征,提高特征之間的信息流動(dòng)。

    5) 輸出的特征圖具有與輸入相同數(shù)量的通道。GSConv卷積操作過(guò)程如圖2所示。

    2.1.2" VoV?GSCSP模塊

    VoV?GSCSP模塊是一種利用一次性聚合方法設(shè)計(jì)的跨階段部分網(wǎng)絡(luò)模塊,旨在有效地融合不同階段的特征圖之間的信息。VoV?GSCSP網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。VoV?GSCSP網(wǎng)絡(luò)中,采用GSConv替代傳統(tǒng)的卷積操作,并將兩個(gè)GSConv模塊串聯(lián)起來(lái)。本文利用VoV?GSCSP替換特征融合層中的C7_2模塊,對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行增強(qiáng)融合,以確保每個(gè)特征層能夠充分捕獲深層特征的語(yǔ)義信息和淺層特征的細(xì)節(jié)信息。

    2.2" 輕量級(jí)上采樣算子CARAFE

    在Yolov7_Pose網(wǎng)絡(luò)中,上采樣通常使用最鄰近插值法,基本原理是在目標(biāo)圖像的每個(gè)像素位置,找到原始圖像中最接近的像素,并將其值賦予目標(biāo)圖像對(duì)應(yīng)位置。盡管這種方法實(shí)現(xiàn)簡(jiǎn)單,但它只考慮最近的像素,而不考慮周?chē)袼氐挠绊?,這可能導(dǎo)致不能獲取更加豐富的語(yǔ)義信息。

    本文針對(duì)最鄰近插值法的不足,使用輕量級(jí)上采樣算子CARAFE替換原網(wǎng)絡(luò)中的上采樣模塊。CARAFE模塊[14]是一種基于內(nèi)容感知的特征重組上采樣方法,通過(guò)對(duì)輸入特征圖進(jìn)行分塊處理,并利用卷積操作對(duì)每個(gè)分塊進(jìn)行特征重組,從而增強(qiáng)感知范圍,融合更多的上下文信息。CARAFE模塊結(jié)構(gòu)如圖4所示。CARAFE算子作為一種輕量化上采樣模塊,具有更高的參數(shù)效率,這使得在保持模型輕量化的同時(shí)具有更好的性能。

    2.3" 融入NAM注意力的RFB模塊

    2.3.1" NAM注意力模塊

    基于歸一化的注意力模塊(NAM)[15]作為一種高效且輕量化的注意力機(jī)制,融合了CBAM模塊思想,對(duì)通道和空間注意力子模塊進(jìn)行了重新設(shè)計(jì)。

    在通道注意力模塊中,利用批歸一化(BN)的縮放因子,通過(guò)式(1)反映各個(gè)通道的變化大小,進(jìn)而表示該通道的重要性。簡(jiǎn)單來(lái)說(shuō),縮放因子類(lèi)似于BN中的方差,方差越大表明通道變化越顯著,因此該通道中包含的信息也更為豐富和重要,而那些變化不大的通道則包含的信息較單一,重要性較小。

    [Bout=BN(Bin)=γBin-μBσ2B+ε+β] (1)

    式中:[μB]為最小批次的均值;[σB]為最小批次的方差;[γ]和[β]為可訓(xùn)練的參數(shù);[Bout]和[Bin]分別為輸出特征和輸入特征。

    通道注意力模塊如圖5所示,該模塊的輸出計(jì)算公式如式(2)所示:

    [Mc=sigmoidWγBN(F1)] (2)

    式中:[Mc]表示輸出特征;[F1]表示輸入特征圖;[γ]是每個(gè)通道的縮放因子。

    在空間注意力模塊中,同樣將BN中的比例因子應(yīng)用于空間維度,以衡量每個(gè)像素的重要性,形成像素歸一化??臻g注意力模塊如圖6所示,其輸出計(jì)算公式如式(3)所示:

    [Ms=sigmoid(Wλ(BNs(F2)))] (3)

    式中:[Ms]表示輸出特征圖;[F2]表示輸入特征圖;[λ]是縮放因子。

    2.3.2" 融入NAM注意力的RFB模塊

    Yolov7_Pose網(wǎng)絡(luò)主要由卷積、C7_1、C7_2、SPPCSPC以及其他模塊構(gòu)建而成,盡管這些模塊提供了強(qiáng)大的特征提取能力,但在處理小尺寸目標(biāo)時(shí)存在一些局限性。人體姿態(tài)估計(jì)任務(wù)中輸入圖像通常會(huì)包含小目標(biāo)。針對(duì)小目標(biāo),網(wǎng)絡(luò)需要更精細(xì)的特征提取能力以準(zhǔn)確地定位和識(shí)別目標(biāo),因此,本文引入RFB(Receptive Field Block)模塊,通過(guò)擴(kuò)大感受野使模型可以在更廣泛的范圍內(nèi)捕獲相關(guān)特征,從而對(duì)小目標(biāo)的識(shí)別更加準(zhǔn)確。

    RFB模塊是通過(guò)模擬人類(lèi)視覺(jué)的感受野來(lái)增強(qiáng)網(wǎng)絡(luò)的特征提取能力[16]。該模塊借鑒Inception網(wǎng)絡(luò)的多分支結(jié)構(gòu),并在此基礎(chǔ)上引入空洞卷積,通過(guò)增大空洞卷積的膨脹率,RFB模塊有效地?cái)U(kuò)大了感受野范圍。RFB模塊分別在三個(gè)分支上使用了1×1、3×3和5×5的卷積操作,隨后使用三個(gè)3×3卷積,分別設(shè)置膨脹率為1、3和5,以提取不同尺度的特征。接著,將三個(gè)不同尺度的分支進(jìn)行有效特征拼接,并通過(guò)1×1卷積調(diào)節(jié)特征維度,實(shí)現(xiàn)了不同尺度特征融合。盡管RFB模塊通過(guò)多分支捕獲了多尺度的特征,但其缺乏區(qū)分和增強(qiáng)全局或局部重要特征的能力,也缺乏對(duì)冗余特征的抑制。為改善RFB模塊,本文在RFB模塊拼接操作前的每個(gè)分支上融入NAM注意力模塊,以增強(qiáng)重要特征的同時(shí)抑制冗余特征。改進(jìn)后的RFB模塊稱(chēng)為RFB?NAM,其結(jié)構(gòu)如圖7所示。

    在RFB?NAM模塊中,每個(gè)分支獲取的特征信息都會(huì)經(jīng)過(guò)NAM模塊。NAM模塊能夠動(dòng)態(tài)地調(diào)整不同位置特征的權(quán)重,從而捕捉更加豐富的上下文信息。通過(guò)學(xué)習(xí),NAM賦予不同區(qū)域特征的不同權(quán)重,以便關(guān)注更主要的特征信息。總的來(lái)說(shuō),NAM模塊的融入不僅使網(wǎng)絡(luò)更專(zhuān)注于有用的特征,提高在姿態(tài)估計(jì)任務(wù)中關(guān)鍵點(diǎn)定位能力,還能減少不重要特征的計(jì)算,提高網(wǎng)絡(luò)的效率。

    2.4" 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)

    本文在Yolov7_Pose的基礎(chǔ)上進(jìn)行改進(jìn),以解決現(xiàn)有人體姿態(tài)估計(jì)網(wǎng)絡(luò)存在的問(wèn)題。改進(jìn)后的輕量化網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

    3" 實(shí)驗(yàn)結(jié)果及分析

    3.1" 數(shù)據(jù)集

    本文實(shí)驗(yàn)采用的數(shù)據(jù)集是COCO2014數(shù)據(jù)集。該數(shù)據(jù)集主要用于目標(biāo)檢測(cè)、分割任務(wù)和人體關(guān)鍵點(diǎn)檢測(cè)。在COCO2014數(shù)據(jù)集中,人體關(guān)鍵點(diǎn)檢測(cè)任務(wù)包括17個(gè)關(guān)節(jié)點(diǎn)的標(biāo)注,涵蓋了鼻子、眼睛、耳朵、肩膀、手肘、臀部、膝蓋和腳踝等部位。

    3.2" 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

    實(shí)驗(yàn)環(huán)境采用Ubuntu 20.04系統(tǒng),GPU為NVIDIA GeForce RTX 4060 Ti(16 GB),CPU為Intel[?] Xeon[?] CPU E5?2696 v3 @2.30 GHz ,配置環(huán)境為Python 3.9,PyTorch 1.13.1,CUDA 12.2。模型初始學(xué)習(xí)率為0.01,訓(xùn)練批次大小為16,訓(xùn)練總輪數(shù)為200。

    實(shí)驗(yàn)的主要評(píng)價(jià)指標(biāo)有:平均精度(mean Average Precision, mAP)、計(jì)算量(GFLOPs)、速度(FPS)。準(zhǔn)確率(Precision)、召回率(Recall)、mAP的計(jì)算公式如下:

    [Precision=TPTP+FP] (4)

    [Recall=TPTP+FN] (5)

    [mAP=i=1NAPiN] (6)

    式中:TP(True Positive)表示被正確劃分為正例的個(gè)數(shù);FP(False Positive)表示被錯(cuò)誤劃分為正例的個(gè)數(shù);FN(False Negative)表示被錯(cuò)誤劃分為負(fù)例的個(gè)數(shù)。

    3.3" 消融實(shí)驗(yàn)

    為了驗(yàn)證每種改進(jìn)點(diǎn)對(duì)網(wǎng)絡(luò)模型的增益,本文在COCO2014數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),采用Yolov7_Pose作為基礎(chǔ)模型,并逐步對(duì)其進(jìn)行改進(jìn)。實(shí)驗(yàn)過(guò)程中保持了參數(shù)和環(huán)境的一致性,所有輸入圖片大小均為640×640。實(shí)驗(yàn)結(jié)果如表1所示。

    根據(jù)表1的實(shí)驗(yàn)結(jié)果:輕量化CARAFE模塊的引入,模型的mAP值提高約0.22%,但模型大小只降低約0.25%;接著,加入輕量化Slim?neck模塊,mAP值降低約0.75%,但GFLOPs變?yōu)?2.3,降低約19.47%,模型大小變?yōu)?24.4 MB,降低約22.78%;最后,引入RFB?NAM模塊,mAP值降低約0.32%,但GFLOPs變?yōu)?3.7,降低約18.1%,模型大小變?yōu)?25.7 MB,降低約22%。

    綜上所述,通過(guò)對(duì)Yolov7_Pose網(wǎng)絡(luò)的改進(jìn),在保持精度影響不大的情況下,實(shí)現(xiàn)了計(jì)算量和模型體量的顯著降低,達(dá)到了網(wǎng)絡(luò)輕量化的目的。

    3.4" 不同算法對(duì)比

    為檢驗(yàn)本文算法模型的有效性,在相同數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境下,將本文方法與其他主流算法進(jìn)行對(duì)比實(shí)驗(yàn)。使用mAP和FPS作為評(píng)估指標(biāo),輸入圖像大小為640×640。實(shí)驗(yàn)結(jié)果如表2所示。根據(jù)實(shí)驗(yàn)結(jié)果,本文算法相比于基礎(chǔ)算法Yolov7_Pose,在精度上略微下降,但檢測(cè)速度提高了約37.93%。同時(shí),與其他算法相比,本文算法在檢測(cè)精度和檢測(cè)速度上都優(yōu)于其他算法。

    3.5" 姿態(tài)估計(jì)檢測(cè)效果對(duì)比

    為了驗(yàn)證改進(jìn)后算法模型的效果,選擇了在部分復(fù)雜條件(低光環(huán)境、小目標(biāo)、密集人群和俯視角度)下進(jìn)行改進(jìn)前后的網(wǎng)絡(luò)模型效果對(duì)比,檢測(cè)結(jié)果如圖9 所示。

    圖9a)是在低光環(huán)境中,原網(wǎng)絡(luò)未能檢測(cè)到躺著的男子,并且對(duì)蹲著的兩位男子的腿部關(guān)鍵點(diǎn)也未能檢測(cè)到。而改進(jìn)后的網(wǎng)絡(luò)不僅檢測(cè)到了躺著的男子,還成功檢測(cè)到了蹲著的兩位男子的腿部關(guān)鍵點(diǎn)。圖9b)是在小目標(biāo)條件下,可以看出原網(wǎng)絡(luò)的檢測(cè)效果不佳,只檢測(cè)到了兩個(gè)人,而改進(jìn)后的網(wǎng)絡(luò)檢測(cè)到圖像中所有小目標(biāo)人體的關(guān)鍵點(diǎn),體現(xiàn)出了模型對(duì)小目標(biāo)檢測(cè)有較好的性能。圖9c)是在密集人群中,相比于原網(wǎng)絡(luò),改進(jìn)后的網(wǎng)絡(luò)能夠更好地檢測(cè)出圈中被遮擋男子的關(guān)鍵點(diǎn)。圖9d)是在俯視角度條件下,原網(wǎng)絡(luò)對(duì)圖中左下角坐著的男子未檢測(cè)到,并對(duì)已檢測(cè)出的兩位男子的關(guān)鍵點(diǎn)檢測(cè)不完整,而改進(jìn)后的網(wǎng)絡(luò),不僅檢測(cè)出了左下角坐著的男子,而且比較完整地檢測(cè)到三位男子的關(guān)鍵點(diǎn)。綜上所述,在輕量化的基礎(chǔ)上,本文算法能夠在部分復(fù)雜條件下較好地檢測(cè)出人體關(guān)鍵點(diǎn)位置,證明了本文算法模型具有較好的性能。

    4" 結(jié)" 語(yǔ)

    本文針對(duì)人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型大小與計(jì)算量大的問(wèn)題,提出基于Yolov7_Pose的輕量化人體姿態(tài)估計(jì)網(wǎng)絡(luò)。首先,使用輕量化上采樣算子CARAFE替代了原網(wǎng)絡(luò)中的上采樣操作,在不影響精度的情況下略微地降低了模型參數(shù);其次,在特征融合部分引入融合GSConv與VoV?GSCSP的Slim?neck模塊,顯著降低了模型大小與計(jì)算量;最后,在主干網(wǎng)絡(luò)中引入RFB?NAM模塊來(lái)獲取多個(gè)不同尺度的特征信息,擴(kuò)大感受野,提高特征提取能力,增強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)模型大小和計(jì)算量明顯降低,檢測(cè)速度明顯提高,同時(shí)保證了模型的準(zhǔn)確度,并在復(fù)雜條件(低光環(huán)境、小目標(biāo)、密集人群和俯視角度)下改進(jìn)后的網(wǎng)絡(luò)模型表現(xiàn)出了較好的性能,這在實(shí)際應(yīng)用中具有一定的優(yōu)勢(shì),如將輕量化模型部署到嵌入式設(shè)備中。

    注:本文通訊作者為胡翻。

    參考文獻(xiàn)

    [1] 張國(guó)平,馬楠,貫懷光,等.深度學(xué)習(xí)方法在二維人體姿態(tài)估計(jì)的研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2022,49(12):219?228.

    [2] 喬迤,曲毅.基于卷積神經(jīng)網(wǎng)絡(luò)的2D人體姿態(tài)估計(jì)綜述[J].電子技術(shù)應(yīng)用,2021,47(6):15?21.

    [3] TOSHEV A, SZEGEDY C. DeepPose: Human pose estimation via deep neural networks [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 1653?1660.

    [4] NEWELL A, YANG K Y, DENG J. Stacked hourglass networks for human pose estimation [C]// Proceedings of European Conference on Computer Vision. Heidelberg: Springer, 2016: 483?499.

    [5] 曾文獻(xiàn),馬月,李偉光.輕量化二維人體骨骼關(guān)鍵點(diǎn)檢測(cè)算法綜述[J].科學(xué)技術(shù)與工程,2022,22(16):6377?6392.

    [6] FANG H S, XIE S Q, TAI Y W, et al. RMPE: Regional multi?person pose estimation [C]// IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2353?2362.

    [7] CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi?person pose estimation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 7103?7112.

    [8] SUN K, XIAO B, LIU D, et al. Deep high?resolution representation learning for human pose estimation [C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 5693?5703.

    [9] CAO Z, HIDALGO G, SIMON T, et al. OpenPose: Realtime multi?person 2D pose estimation using part affinity fields [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 43(1): 172?186.

    [10] KREISS S, BERTONI L, ALAHI A. PifPaf: Composite fields for human pose estimation [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2019). New York: IEEE, 2019: 11977?11986.

    [11] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464?7475.

    [12] 張曉晨.煤礦井下行人檢測(cè)方法研究及應(yīng)用[D].太原:太原科技大學(xué),2023.

    [13] LI H L, LI J, WEI H B, et al. Slim?neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles [EB/OL]. [2024?10?06]. https://doi.org/10.48550/arXiv.2206.02424.

    [14] WANG J Q, CHEN K, XU R, et al. CARAFE: Content?aware ReAssembly of features [J]. 2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 3007?3016.

    [15] LIU Y C, SHAO Z R, TENG Y Y, et al. NAM: Normalization?based attention module [EB/OL]. [2021?11?26]. https://arxiv.org/abs/2111.12419.

    [16] LIU S T, HUANG D, WANG Y H. Receptive field block net for accurate and fast object detection [C]// 15th European Conference on Computer Vision. Heidelberg: Springer, 2018: 404?419.

    [17] CHENG B W, XIAO B, WANG J D, et al. HigherHRNet: Scale?aware representation learning for bottom?up human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5385?5394.

    [18] NEFF C, SHETH A, FURGURSON S, et al. EfficientHRNet: Efficient scaling for lightweight high?resolution multi?person pose estimation [EB/OL]. [2020?07?22]. https://arxiv.org/abs/2007.08090.

    作者簡(jiǎn)介:黃" ?。?977—),男,陜西西安人,副教授,碩士生導(dǎo)師,研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí)和計(jì)算機(jī)視覺(jué)。

    胡" 翻(1999—),男,陜西西安人,碩士研究生,研究領(lǐng)域?yàn)閳D像處理。

    展" 越(2000—),女,山東濟(jì)寧人,碩士研究生,研究領(lǐng)域?yàn)閳D像處理。

    猜你喜歡
    關(guān)鍵點(diǎn)輕量化姿態(tài)
    比睡相,姿態(tài)多
    汽車(chē)輕量化集成制造專(zhuān)題主編
    聚焦金屬關(guān)鍵點(diǎn)
    肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
    攀爬的姿態(tài)
    一種輕量化自卸半掛車(chē)結(jié)構(gòu)設(shè)計(jì)
    全新一代宋的新姿態(tài)
    跑與走的姿態(tài)
    瞄準(zhǔn)掛車(chē)輕量化 鑼響掛車(chē)正式掛牌成立
    用戶:輕量化掛車(chē)的使用體驗(yàn)
    临海市| 云龙县| 汉中市| 都江堰市| 沁阳市| 新河县| 杭锦后旗| 新疆| 合川市| 江永县| 阳西县| 花垣县| 金昌市| 绵竹市| 象山县| 房产| 新干县| 潍坊市| 社会| 固镇县| 镇雄县| 瓮安县| 潮州市| 抚宁县| 揭阳市| 海原县| 红原县| 微山县| 兴城市| 伊宁县| 黎城县| 阿荣旗| 祁阳县| 新沂市| 恭城| 晋江市| 柳州市| 常州市| 东方市| 凉山| 沧州市|