摘"要:針對現(xiàn)有2D多人人體姿態(tài)識別方法存在的耗時長、準(zhǔn)確率低等問題,在對人體姿態(tài)識別方法進(jìn)行分析的基礎(chǔ)上,提出了一種用于2D多人人體姿態(tài)識別的改進(jìn)復(fù)合場。引入空洞卷積模塊降低參數(shù)量的同時提高模型準(zhǔn)確性,引入shuffleNet"V2網(wǎng)絡(luò)替換主干網(wǎng)ResNet提高模型識別速度。通過實(shí)驗(yàn)對所提方法的平均精確度、平均召回率和運(yùn)行時間等進(jìn)行分析。結(jié)果表明,與常規(guī)方法相比,所提方法對2D多人人體姿態(tài)識別具有較高的識別準(zhǔn)確率和速度,1~8人的人體姿態(tài)平均識別時間為75ms。為計算機(jī)視覺的研究提供了一定的參考。
關(guān)鍵詞:人體姿態(tài);復(fù)合場;空洞卷積模塊;shuffleNet"V2"網(wǎng)絡(luò);2D多人
中圖分類號:TP391""""""文獻(xiàn)標(biāo)識碼:A
Research"on"Human"Posture"Recognition"Method"
Based"on"Improved"Deep"Learning
LIU"Yu
(School"of"Information"Science"and"Technology,Tsinghua"University,"Beijing"100062,"China)
Abstract:Based"on"the"analysis"of"existing"2D"multi"human"body"pose"recognition"methods,"an"improved"composite"field"for"2D"multi"human"body"pose"recognition"is"proposed"to"address"the"issues"of"long"time"consumption"and"low"accuracy.Introducing"a"hollow"convolutional"module"to"reduce"the"number"of"parameters"while"improving"model"accuracy,"and"introducing"shuffleNet"V2"network"to"replace"the"backbone"network"ResNet"to"improve"model"recognition"speed.Analyze"the"average"accuracy,"average"recall"rate,"and"running"time"of"the"proposed"method"through"experiments.The"results"show"that"compared"with"conventional"methods,"the"proposed"method"has"higher"recognition"accuracy"and"speed"for"2D"multi"person"human"pose"recognition,"with"an"average"recognition"time"of"75ms"for"1-8"people."This"provides"a"certain"reference"for"the"research"of"computer"vision.
Key"words:body"posture;"composite"field;"atrous"convolution"module;"ShuffleNet"V2"network;"2D"multiple"persons
視覺是人類感知世界的重要手段之一,而如何讓計算機(jī)實(shí)現(xiàn)視覺感知,對圖像目標(biāo)信息進(jìn)行識別,已成為當(dāng)下非常熱門的研究領(lǐng)域[1]。如何從一張圖像中識別和推斷其中的2D人體姿態(tài)是一項(xiàng)重要的基礎(chǔ)性工作,對其進(jìn)行研究具有重要的實(shí)際意義[2]。
目前,國內(nèi)外已有很多學(xué)者在研究多人人體姿態(tài)識別方法,主要集中在兩個方向:2D人體姿態(tài)識別和3D人體姿態(tài)識別,都是基于深度學(xué)習(xí)的人體姿態(tài)識別方法[3-5]。石躍祥等[6]針對現(xiàn)有人體姿態(tài)識別方法速度受人數(shù)影響和檢測性能受不同尺寸影響等問題,提出了一種改進(jìn)的稠密卷積網(wǎng)絡(luò)結(jié)構(gòu)。所提方法在保持較高準(zhǔn)確率的情況下,還兼顧了較快的速度。馬鴻玥等[7]針對現(xiàn)有人體姿態(tài)識別方法準(zhǔn)確率低和目標(biāo)的多尺度問題,提出了一種改進(jìn)R-FCN算法。所提方法可以快速、準(zhǔn)確地識別人體姿態(tài),與常規(guī)方法相比,準(zhǔn)確率提高明顯。羅夢詩等[8]針對現(xiàn)有人體姿態(tài)識別方法存在的目標(biāo)丟失和遮擋導(dǎo)致的準(zhǔn)確率較低等問題,提出一種改進(jìn)級聯(lián)金字塔模型。所提方法在目前遮擋下的人體姿態(tài)識別具有較高的精度,且降低了網(wǎng)絡(luò)復(fù)雜度和參數(shù)量。宋玉琴等[8]為提高不同人體尺度關(guān)鍵點(diǎn)的檢測精度,提出了一種高分辨率表征關(guān)鍵點(diǎn)尺度變換網(wǎng)絡(luò)。所提方法的平均檢測精度較常規(guī)方法有明顯提高,且網(wǎng)絡(luò)參數(shù)量和浮點(diǎn)運(yùn)算量也最小。雖然上述方法都可以實(shí)現(xiàn)人體姿態(tài)的識別,但上述方法在人體姿態(tài)識別中存在耗時長、準(zhǔn)確率低等問題,需要進(jìn)一步提高適應(yīng)性。
在此基礎(chǔ)上,提出了一種用于人體姿態(tài)識別的改進(jìn)復(fù)合場,在引入空洞卷積模塊降低參數(shù)量的同時,提高了模型的準(zhǔn)確性,引入ShuffleNet"V2網(wǎng)絡(luò)取代骨干網(wǎng)絡(luò)ResNet,提高模型識別速度。實(shí)驗(yàn)驗(yàn)證了該方法的可行性。
1"人體姿態(tài)識別概述
人體姿態(tài)識別是對圖像中人體關(guān)鍵點(diǎn)進(jìn)行檢測,用于分析人們的行為和動作等信息[9]。
如圖1人體姿勢識別結(jié)構(gòu)。對于圖像I,像素集合為Z,則像素點(diǎn)z∈Z,且z=(x,y),x和y為坐標(biāo)信息。設(shè)人體關(guān)鍵點(diǎn)坐標(biāo)集為J,總數(shù)為N,不同關(guān)鍵點(diǎn)ID為i,即i∈1,2,…,N,則"J=(J1,J2,…,JN),其中Ji為圖像中的人體第i個關(guān)鍵點(diǎn)位置。將圖像輸入網(wǎng)絡(luò),輸出人體圖像中N個關(guān)鍵點(diǎn)的特征圖[10]。
2"人體姿態(tài)識別
2.1"復(fù)合場人體姿態(tài)識別
復(fù)合場在人體姿態(tài)識別中的應(yīng)用最早是由Kreiss等人[11]提出,首先對所有關(guān)節(jié)點(diǎn)進(jìn)行檢測,再通過分組算法獲得不同姿態(tài)。復(fù)合場整體框圖如圖2所示,主要由編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)組成,編碼網(wǎng)絡(luò)是經(jīng)過骨干網(wǎng)絡(luò),在由部分強(qiáng)度場(Part"Intensity"Field,PIF)和部分關(guān)聯(lián)場(Part"Association"Field,PAF)子網(wǎng)獲取PIF熱圖、PAF熱圖[12]。解碼網(wǎng)絡(luò)將熱圖進(jìn)行集成,獲取姿態(tài)識別結(jié)果。
2.2"改進(jìn)復(fù)合場人體姿態(tài)識別
基于復(fù)合場的人體姿態(tài)識別方法,在如遮擋、背景混淆等場景中,也存在一定的識別誤差。本文通過引入空洞卷積模塊,降低參數(shù)量的同時提高模型準(zhǔn)確性,引入ShuffleNet"V2網(wǎng)絡(luò)替換主干網(wǎng)ResNet,提高模型預(yù)測速度[13-14]??斩淳矸e為新型卷積方式,在不增加訓(xùn)練參數(shù)量的同時增加網(wǎng)絡(luò)感受野[15]。因此,在本方法中,為了實(shí)現(xiàn)網(wǎng)絡(luò)預(yù)測精度的提高,引入空洞卷積模塊[16]。空洞卷積結(jié)構(gòu)如圖3所示。
假設(shè)輸入圖片大小為225×225,卷積核的大小為3×3,填充和步長均為1,膨脹系數(shù)為1時,與普通卷積等同,即沒有填充擴(kuò)大普通的卷積核,而且此時的卷積核大小為3×3,感受野為9[17]。膨脹系數(shù)設(shè)為3,則感受野的大小為49,權(quán)值為0的點(diǎn)不需要訓(xùn)練。根據(jù)式(1)和(2)可以計算輸出特征尺寸[18]。
n=h+(h-1)×(d-1)""(1)
cout=cin+2p-h(huán)-(h-1)(d-1)s+1""(2)
在式中,n和h分別為空洞卷積填充后卷積核大小和普通卷積核大小;cin和cout為空洞卷積輸入和輸出特征圖的大??;p為該層的填充值;s為步長;d為膨脹系數(shù)。
由式(1)和(2)可知,在卷積核為普通卷積核的情況下,輸出特征圖的大小為225×225,空洞卷積核輸出為221×221。因此,引入空洞卷積核特征圖的大小基本上不會改變。網(wǎng)絡(luò)參數(shù)量不變的情況下,幾乎不丟失特征圖的詳細(xì)信息,同時能夠增大感受野[19]。
2.3"ShuffleNet"V2網(wǎng)絡(luò)
ShuffleNet"V2是由曠視科技團(tuán)隊(duì)于2018年提出的輕量級網(wǎng)絡(luò)架構(gòu),ShuffleNet"V2和ShuffleNet"V1架構(gòu)基本相同,唯一不同的是增加了Conv5這個1×1卷積層[20-21]。為了提高復(fù)合場運(yùn)行速度,將骨干網(wǎng)由ResNet網(wǎng)絡(luò)替換為ShuffleNet"V2網(wǎng)絡(luò)。ShuffleNet"V2網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖4所示。
ShuffleNet"V2網(wǎng)絡(luò)主要由卷積模塊1、最大池層、卷積模塊2-4、卷積模型5、全局池層、全連接層等組成[19]。
2.4"改進(jìn)復(fù)合場識別網(wǎng)絡(luò)
改進(jìn)的復(fù)合場識別網(wǎng)絡(luò)整體框圖如圖5所示,編碼網(wǎng)絡(luò)主要由卷積、骨干網(wǎng)絡(luò)、空洞卷積模塊和子網(wǎng)絡(luò)組成[22]。骨干網(wǎng)絡(luò)采用ShuffleNet"V2×2網(wǎng)絡(luò)的卷積模塊2-4完成特征提取工作,編碼網(wǎng)絡(luò)輸出為熱圖,在通過解碼網(wǎng)絡(luò)將熱圖進(jìn)行集成,獲取姿態(tài)識別結(jié)果。
3"實(shí)驗(yàn)結(jié)果與分析
3.1"實(shí)驗(yàn)參數(shù)
為了對文中所提方法的優(yōu)越性進(jìn)行驗(yàn)證,將文中所提方法與文獻(xiàn)[23]方法、文獻(xiàn)[24]方法和文獻(xiàn)[25]進(jìn)行比較分析。數(shù)據(jù)集為MSCOCO,從準(zhǔn)確率、召回率、速度三個方面對結(jié)果進(jìn)行評估,系統(tǒng)參數(shù)如表1所示。實(shí)驗(yàn)參數(shù)如表2所示。
本文選擇了平均精確度、平均召回率和運(yùn)行速度評價人體姿態(tài)識別方法模型。
(1)平均精確度
預(yù)測結(jié)果中實(shí)際包含的陽性樣本數(shù)。只有兩種可能的預(yù)測:正確預(yù)測的TP和錯誤預(yù)測的FP。如式(3)所示。
P=TPTP+FP"(3)
在"MSCOCO"數(shù)據(jù)集中,準(zhǔn)確率的評價指標(biāo)包含平均精度和跨尺度平均精度,AP(多個"IoU"閾值下檢測的平均精確度)、AP50("IoU"閾值為0.5的AP)、AP75(IoU閾值為0.75的AP)、APM(像素面積位于"322~962的檢測對象AP值)、APL(像素面積大于962的檢測對象AP值)[25]。
(2)"平均召回率
所有正樣本都有兩種可能的預(yù)測結(jié)果。正確預(yù)測數(shù)TP和未預(yù)測數(shù)FN,如式(4)所示。
R=TPTP+FN""(4)
文中僅采用平均召回率AR進(jìn)行評估。
(3)運(yùn)行速度
除了上述指標(biāo)外,速度也是評估模型性能的重要指標(biāo)。本文選擇處理圖片耗時作為速度評價指標(biāo)。
3.2"實(shí)驗(yàn)分析
為了驗(yàn)證本文所提姿態(tài)識別方法的優(yōu)越性,對本文方法、文獻(xiàn)[23]、文獻(xiàn)[24]方法、文獻(xiàn)[25]和復(fù)合場方法進(jìn)行了實(shí)驗(yàn)對比分析,如表3所示不同方法的實(shí)驗(yàn)結(jié)果。
由表3可以看出,在人體姿態(tài)識別方法中,本文方法的準(zhǔn)確率優(yōu)于文獻(xiàn)[23]、文獻(xiàn)[24]、文獻(xiàn)[25]和復(fù)合場的人體姿態(tài)識別方法。這是因?yàn)閷huffleNet"V2×2和空洞卷積模塊引入復(fù)合場中,相比改進(jìn)前準(zhǔn)確率均有一定的提高,驗(yàn)證了加入空洞卷積模塊的有效性以及加入ShuffleNet"V"2×2網(wǎng)絡(luò)的優(yōu)越性。
對模型的運(yùn)行速度進(jìn)行分析,采用圖片人數(shù)為1~8人,不同方法在不同圖片人數(shù)時的預(yù)測總耗時如圖6所示。
由圖6可以看出,在人體姿態(tài)識別方法中,本文方法的總耗時優(yōu)于文獻(xiàn)[23]、文獻(xiàn)[24]、文獻(xiàn)[25]和復(fù)合場的人體姿態(tài)識別方法。本文方法性能較為穩(wěn)定,在圖片中人數(shù)變化時小幅波動。這是因?yàn)楸疚姆椒樽缘紫蛏戏椒?,不需要對各人體框都進(jìn)行一次識別。
3.3"結(jié)果可視化
圖7為本文所提網(wǎng)絡(luò)模型在分辨率較差環(huán)境下得到的部分實(shí)驗(yàn)結(jié)果。
由圖7可知,在分辨率較差的情況下,本文方法姿態(tài)識別效果較好,但也存在關(guān)鍵點(diǎn)漏檢,在后續(xù)的實(shí)際應(yīng)用中應(yīng)不斷完善和優(yōu)化,以便提升本文方法在實(shí)際應(yīng)用中的可行性。
圖8為本文所提網(wǎng)絡(luò)模型在復(fù)雜場景下得到的部分實(shí)驗(yàn)結(jié)果。
由圖8可知,在復(fù)雜場景下,本文方法姿態(tài)識別效果較好,這是因?yàn)榫W(wǎng)絡(luò)使用了部分相關(guān)場和強(qiáng)度場,并引入了人體結(jié)構(gòu)信息,因此在復(fù)雜場景中具有良好的姿態(tài)識別效果。
4"結(jié)"論
提出了一種改進(jìn)的復(fù)合場用于人體姿態(tài)識別,引入空洞卷積模塊降低參數(shù)量的同時提高模型準(zhǔn)確性,引入ShuffleNet"V2網(wǎng)絡(luò)提高模型識別速度。結(jié)果表明,相比于常規(guī)方法,本文方法在準(zhǔn)確率、召回率和運(yùn)行速度上都是最優(yōu)的,平均精確度為75.1%,平均召回率為81.4%,平均運(yùn)行速度為75"ms左右,在復(fù)雜場景和低分辨率情況下仍具有較好的效果。但本文方法仍處于起步階段,在復(fù)雜場景和低分辨率場景的性能還有待進(jìn)一步提高。下一步將不斷完善和優(yōu)化本文所提人體姿態(tài)識別方法的性能。
參考文獻(xiàn)
[1]"趙鵬,"劉楊,"劉慧婷,"等."基于深度卷積—遞歸神經(jīng)網(wǎng)絡(luò)的手繪草圖識別方法[J]."計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,"2018,"30(2)":"217-224."
[2]"趙瑩."一種SVM的建筑施工項(xiàng)目安全預(yù)警系統(tǒng)研究[J]."微型電網(wǎng)應(yīng)用,"2021,"37(2)":"114-131.
[3]"劉"晶,"鐘力強(qiáng),"董"娜.變電站巡檢機(jī)器人視覺精確定位算法研究[J].工業(yè)儀表與自動化裝置,"2019,"6(6):8-13.
[4]"袁益琴,"何國金,"王桂周,"等."背景差分與幀間差分相融合的遙感衛(wèi)星視頻運(yùn)動車輛檢測方法[J]."中國科學(xué)院大學(xué)學(xué)報,"2018,"35(1):"50-58.
[5]"朱建寶,"許志龍,"孫玉瑋,"等."基于"OpenPose"人體姿態(tài)識別的變電站危險行為檢測[J].自動化與儀表,"2020,"35(2):47-51."
[6]"石躍祥,"許湘麒."基于改進(jìn)DenseNet網(wǎng)絡(luò)的人體姿態(tài)估計[J]."控制與決策,"2021,"36(5):"1206-1212.
[7]"馬鴻玥,"樸燕,"魯明陽."基于改進(jìn)"RFCN"與語義分割相結(jié)合的人體姿態(tài)估計[J]."長春理工大學(xué)學(xué)報,"2021,"44(1):"71-80.
[8]"羅夢詩,"徐楊,"葉星鑫."基于輕量型高分辨率網(wǎng)絡(luò)的被遮擋人體姿態(tài)估計[J]."武漢大學(xué)學(xué)報(理學(xué)版),"2021,"67(5):"403-410.
[9]"宋玉琴,"曾賀東,"高師杰,"等."基于改進(jìn)高分辨表征的人體姿態(tài)估計算法[J]."計算機(jī)工程與設(shè)計,"2022,"43(4):"1045-1051.
[10]程"禹,"王曉華,"王文杰,"等."基于改進(jìn)"AKAZE算法的圖像特征匹配方法[J].西安工程大學(xué)學(xué)報,"2020,"34(8):"51-56.
[11]KREISS"S,"BERTONI"L,"ALAHI"A."Pifpaf:"composite"fields"for"human"pose"estimation[C]."Proceedings"of"the"IEEE"Conference"on"Computer"Vision"and"Pattern"Recognition,Long"Beach,2019,11977-11986.nbsp;
[12]華"夏,"王新晴,"馬昭燁,"等."基于遞歸神經(jīng)網(wǎng)絡(luò)的視頻多目標(biāo)檢測技術(shù)[J]."計算機(jī)應(yīng)用研究,"2020,"37(2):"615-620.
[13]高"野."基于改進(jìn)高斯混合模型的體育視頻運(yùn)動目標(biāo)檢測與跟蹤[J]."現(xiàn)代電子技術(shù),"2017,"40(19):"91-97.
[14]黃文婧,"李華強(qiáng),"楊植雅,"等."基于模糊聚類排序及狀態(tài)均勻性的電網(wǎng)安全性風(fēng)險評估[J]."電測與儀表,"2018,"55(9):"21-26.
[15]CHEN"L"C,"PAPANDREOU"G,"KOKKINOS"I,"et"al."Semantic"image"segmentation"with"deep"convolutional"nets"and"fully"connected"crfs[J]."IEEE"Transactions"on"Pattern"Analysis"amp;"Machine"Intelligenc,"2016,"40(4):"834-840.
[16]葉"波.基于負(fù)載均衡度的云計算任務(wù)調(diào)度算法[J].東北電力大學(xué)學(xué)報,"2019,"39(1):"88-95.
[17]謝"黎","周華良,"于同偉,"等."一種智能變電站新型雙網(wǎng)冗余設(shè)備及實(shí)現(xiàn)[J]."電力系統(tǒng)保護(hù)與控制,"2019,"47(11):151-156.
[18]郭威強(qiáng),"胡立生."基于神經(jīng)網(wǎng)絡(luò)的三維重構(gòu)研究[J]."微型電網(wǎng)應(yīng)用,"2020,"36(2)":"82-85."
[19]李成美,"白宏陽,"郭宏偉,"等"."一種改進(jìn)光流法的運(yùn)動目標(biāo)檢測及跟蹤算法[J]."現(xiàn)代電子技術(shù),"2018,"39(5):"249-256.
[20]HUAN"G,"SONG"Z,"ZHANG"S,"et"al."A"fast"marine"sewage"detection"method"for"remote-sensing"image[J]."Computational"and"Applied"Mathematics,"2018,"37(4):"4544-4553.
[21]李紅娟,"郭向陽,"劉宏建."隨機(jī)動態(tài)規(guī)劃和粒子群嵌套尋優(yōu)的PHEV能量優(yōu)化[J]."機(jī)械設(shè)計與制造,"2020,"12(7):"150-155.
[22]KOCABAS"M,"KARAGOZ"S,"AKBAS"E."Multiposenet:"fast"multi-person"pose"estimation"using"pose"residual"network[C]."Proceedings"of"the"European"Conference"on"Computer"Vision"(ECCV),"Munich,2018,417-433""
[23]朱翠濤,李博."基于高分辨率網(wǎng)絡(luò)的人體姿態(tài)估計[J]."中南民族大學(xué)學(xué)報(自然科學(xué)版),"2023,"42(2):"229-237.
[24]馬皖宜,"張德平."基于多尺度雙注意力的人體姿態(tài)估計方法研究[J]."計算機(jī)科學(xué),"2022,"49(11):"1-5."
[25]馬賽,"葛海波,"何文昊,"等."輕量高效的自底向上人體姿態(tài)估計算法研究[J]."計算機(jī)工程與應(yīng)用."https://link.cnki.net/urlid/11.2127.TP.20230814.1802.022.