中圖分類號:TP273文獻標志碼:A
近年來,隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)的廣泛應(yīng)用,人體姿態(tài)估計(HPE)領(lǐng)域取得了顯著進展。ResNet[1]及其變體[2-4]等深度CNN模型作為該領(lǐng)域的主流,展示了強大的特征提取能力。在此背景下,基于沙漏網(wǎng)絡(luò)[5-6]、級聯(lián)金字塔網(wǎng)絡(luò)(CPNs)[7-8以及高分辨率網(wǎng)絡(luò)(HRNet)[9]等新型架構(gòu)通過融合多尺度特征,顯著提升了姿態(tài)估計的準確性。2020年以后,Transformer[1o]模型在視覺任務(wù)中崛起,ViTs(Vision Transformers)[1-12]在圖像分類[13-14]、語義分割[15-16]和目標檢測[17-18]等任務(wù)上展現(xiàn)出的優(yōu)越性能,使得ViTs學(xué)習(xí)視覺表征逐漸成為CNN的一種替代方案。TokenPose[19]、TransPose[20]HRFormer[21和ViTPose[22從不同的角度解釋了Transformer在姿態(tài)估計領(lǐng)域的優(yōu)越性。
盡管ViTs在某些任務(wù)上表現(xiàn)優(yōu)異,但其在處理關(guān)鍵點遮擋、重合及復(fù)雜環(huán)境干擾等問題上存在一定的局限性。ViTs的圖塊分割方式[18可能破壞關(guān)鍵點間的連續(xù)性,增加處理難度,且對遮擋較為敏感。在處理高分辨率圖像時計算復(fù)雜度較高,ViTs可能導(dǎo)致延遲增加,不適合資源受限的場景[21]。相比之下,大核卷積[23-25]通過其擴大的感受野和參數(shù)共享特性,能更有效地捕捉不同關(guān)鍵點之間的空間關(guān)系,減少關(guān)鍵點重合帶來的混淆,并在遮擋情況下利用上下文信息推斷被遮擋關(guān)鍵點的位置。相比于傳統(tǒng)的小卷積核堆疊增加感受野方法,大卷積核可以在一定程度上減少網(wǎng)絡(luò)層數(shù),簡化網(wǎng)絡(luò)結(jié)構(gòu)。在處理高分辨率圖像或具有大尺度特征的任務(wù)時,大卷積核更具優(yōu)勢。除了Inception[26-27]等少數(shù)老式模型外,大核模型在VGG-Net[28]之后就不再流行。
近年來,隨著計算能力的提升和深度學(xué)習(xí)理論的進步,大核卷積再次受到研究者的關(guān)注,一些新的網(wǎng)絡(luò)架構(gòu)和技術(shù)被提出,以優(yōu)化大核卷積的計算性能和模型效率。結(jié)構(gòu)重參數(shù)化由Ding等[29]于2021年在RepVGG一文中首次正式提出,通過參數(shù)的等價轉(zhuǎn)化實現(xiàn)結(jié)構(gòu)的等價轉(zhuǎn)換。這種方法通過將小核卷積和批量歸一化(BN)運算的參數(shù)合并到大核卷積中,訓(xùn)練時小核卷積模擬大核卷積的效果,并在推理時將小核卷積\"折疊\"為大核卷積,可以在保持模型性能的同時,減少訓(xùn)練時的計算復(fù)雜度和優(yōu)化難度。Ding等[30]通過結(jié)構(gòu)重參數(shù)化技術(shù)實現(xiàn)了大核卷積的高效使用,并在后續(xù)工作中提出了參數(shù)高效的大核網(wǎng)絡(luò)架構(gòu)[31],在用于音頻、視頻、點云、時間序列和圖像識別等視覺任務(wù)中表現(xiàn)出了優(yōu)異效果。2022年,Hu等[32]提出了在線卷積重參數(shù)化(OREPA),即一個兩階段的pipeline,旨在通過將復(fù)雜的 training-timeblock壓縮成單個卷積來減少巨大的訓(xùn)練開銷。2023年,Cai等[33]提出了一種可重參數(shù)化的重新聚焦卷積(RefConv),RefConv可以在不引入任何額外推理成本或改變原始模型結(jié)構(gòu)的情況下,顯著提高多種基于CNN模型的性能。
本文提出了一種結(jié)合空洞重參數(shù)化大核卷積的高分辨率人體姿態(tài)估計模型(RepLK-HRNet)。該模型以HRNet網(wǎng)絡(luò)為基礎(chǔ)框架,提出一種多層次特征提取和多尺度特征融合相結(jié)合的特征提取方法,增強模型捕獲特征的能力,在處理關(guān)鍵點遮擋、重合及復(fù)雜環(huán)境干擾等視覺任務(wù)時獲得更豐富的語義信息。同時引入空洞重參數(shù)化卷積來增加感受野,從而在不增加參數(shù)量的前提下,有效擴大卷積層的視野范圍,并結(jié)合重參數(shù)化技術(shù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),以減少計算復(fù)雜度和模型大小,實現(xiàn)了模型的輕量化設(shè)計。RepLK-HRNet模型不僅能夠保持高分辨率特征圖的細節(jié)信息,還能夠通過大核卷積擴大感受野,增強模型對全局信息的捕捉能力,從而在背景復(fù)雜和遮擋情況下實現(xiàn)更精準的人體姿態(tài)估計。
1 RepLK-HRNet整體結(jié)構(gòu)
RepLK-HRNet的整體框架包括下采樣層、主體和回歸器層,如圖1所示,其中DR層表示空洞重參數(shù)塊,SE層表示壓縮激勵(SqueezeandExcitation),F(xiàn)FN層表示前饋網(wǎng)絡(luò)。
HRNet通過并行連接不同分辨率的子網(wǎng)絡(luò),并在整個特征提取過程中進行多尺度特征融合,顯著提高了模型的空間精確度和語義豐富度。然而,即便如HRNet這樣的高效網(wǎng)絡(luò),在處理關(guān)鍵點遮擋、重合及復(fù)雜環(huán)境干擾等視覺任務(wù)時,仍可能面臨缺少語義信息、感受野不足的問題。為此,進一步融合多層次特征提取,網(wǎng)絡(luò)可以在不同分辨率和深度上同時學(xué)習(xí)空間信息,進一步提高空間精度。同時加入空洞重參數(shù)化卷積來優(yōu)化模型??斩淳矸e通過在卷積核中插入零來增加感受野,從而在不增加參數(shù)量的前提下,有效擴大卷積層的視野范圍。結(jié)合重參數(shù)化技術(shù),本文可以在訓(xùn)練階段利用復(fù)雜的卷積結(jié)構(gòu)來提高模型的性能,而在推理階段則將其簡化為標準的卷積層,以減少計算復(fù)雜度和模型大小。
綜上所述,本文旨在通過多尺度特征融合和多層次特征提取兩個方面增強模型捕獲特征的能力,進一步提升深度學(xué)習(xí)模型在關(guān)鍵點遮擋、重合及復(fù)雜環(huán)境干擾等視覺任務(wù)中的性能。具體地講,本文將以HRNet為基礎(chǔ)框架,通過并行結(jié)構(gòu)對不同分辨率(即不同細粒度)下的特征進行融合。同時引入大核卷積和重參數(shù)化技術(shù),優(yōu)化特征提取過程,對同一分辨率的輸入使用不同核大小、膨脹率的空洞卷積并行提取不同抽象層次或復(fù)雜度的特征。多尺度特征涵蓋了從微觀到宏觀的不同尺度下的特征,小尺度特征可以捕捉細節(jié)信息,而大尺度特征則可以反映整體結(jié)構(gòu),二者可以相互補充,提供更全面的信息。多層次特征應(yīng)用不同參數(shù)的卷積核,從同一分辨率下的輸人數(shù)據(jù)中提取出具有不同抽象層次或復(fù)雜度的特征集合。較小的卷積核通常對局部細節(jié)敏感,如邊緣、紋理,而較大的卷積核則能夠捕捉到更廣泛區(qū)域內(nèi)的信息,如形狀、對象等。這些特征集合能夠更全面地描述輸入數(shù)據(jù)的特性,使得模型能夠在實現(xiàn)關(guān)鍵點精確定位的同時,對被遮擋關(guān)鍵點有較強的推理能力。這一改進不僅提升了模型的精度和魯棒性,并通過重參數(shù)化技術(shù)減少參數(shù)量實現(xiàn)模型的輕量化,為實際應(yīng)用提供更加高效、可靠的解決方案。
2RepLK-HRNet模型
RepLK-HRNet模型結(jié)構(gòu)如表1所示,其整體架構(gòu)包括主干層(Stem)、主體和回歸層(Regressor),其中, W,H 分別表示寬度和高度, c 表示基準通道數(shù),p 表示卷積層的輸出通道數(shù)。特征提取網(wǎng)絡(luò)以HRNet為基本框架,保持高分辨率輸人,提取多尺度特征。同時為了給姿態(tài)估計網(wǎng)絡(luò)提供更豐富的特征信息,考慮以大核卷積模塊和空洞小核卷積并行提取多層次特征。
2.1 主干層
網(wǎng)絡(luò)的主干層為兩個核大小為 3×3 ,步長為2的卷積層,用于下采樣和增加通道數(shù),如下式所示:
其中, I∈Rw×H×3 表示輸人的圖; 是主干層的輸出。通過對圖像下采樣,使通道數(shù)增加到基準通道數(shù)的2倍,分辨率大小調(diào)整到輸入圖像的 1/4 。
2.2 主體
主體包含4個特征提取階段(Stage)和3個過渡階段(Transition)。Stage1的輸入分辨率大,特征提取耗時長,因此本文只使用1層來降低延遲。Stage2、Stage3、Stage4分別包含1、4、3個特征融合單元(Exchangeunit)。整個網(wǎng)絡(luò)共有8個特征融合單元,即進行了8次多尺度特征融合。其中每個特征融合單元包含 n(1、2、3、4) 個平行分支,每個分支上包含2個重參數(shù)化大核卷積塊和1個跨分辨率的融合單元。第 m(m=1,2,…,n) 個分支中特征映射的通道數(shù)和分辨率分別為第1個分支的 2m-1× 和
而在每個Transition中,引入1個通道數(shù)加倍( 2n×) 、分辨率減半 )的分支,為下一個 Stage增加1個分支,補充不同尺度的特征信息。
2.2.1 Stagel Stagel 采用2個 Smak塊,如圖2(a)所示。Smakblock由深度可分離卷積層(DW層)和FFN層組成,并在DW層和FFN層之間加入SEblock[34來增加模型深度。Smakblock可以表示為等式(2)。
其中, X11(10)=ds(X0) , ds(?) 表示下采樣層, X11(10)∈ , X0 表示通過主干層的輸出; f′(?) 包括3個子模塊,即DW、SE、FFN,它們分別表示為式(3)(4)、(5)。
X11(11)=BN(DWconv31(X11(10)))
其中, DWconvkl(?) 表示步長為 l 的 k×k 深度可分離卷積。卷積之后通過SEblock和FFN層來增加深度,最終使輸出特征圖的分辨率和維度與輸人特征圖相同。
其中,
2.2.2TransitionlTransitionl 可以表示為等式(6)和等式(7)。
Y12=conv32(X11)
其中, 表示 Stagel 最后1個子塊的最后模塊的輸出特征; convkl(?) 表示步長為 l 的 k×k 卷積操作;
,
, {X11} 通過Transitionl轉(zhuǎn)換成 {Y11,Y12} 兩條分支。
2.2.3其他StagesStage2、Stage3、Stage4的每個階段包含多個交換單元,這些階段中的特征融合單元與Stagel有很大的不同。以Stage3為例,Stage3經(jīng)歷了4個特征融合單元,每個特征融合單元中有3個并行分支,每個子分支通過2個Larkblock提取特征,如圖2(b)所示。
Xn(e)m=fn(e)m(Xn(e-1)m)e≠1
其中,函數(shù) fn(e)m(?) 表示輸入特征在第 n 個 Stage對第e 個特征融合單元的第 λm 個分支所包含的一系列操作, 是相應(yīng)的輸出特征。
在子網(wǎng)絡(luò)之后,多分辨率融合單元用于生成高分辨率特征,如式(10)所示:
其中, 是第 n 階段第 e 個特征融合單元的第 ?m 個多分辨率融合單元的輸出, σ 是ReLU 激活函數(shù)。如果 in(e)′,m) 表示2m-i× 下采樣;如果 igt;m ,則 f(Xn(e)′,m) 表示 2m-i× 上采樣;當 i=m 時,該函數(shù)表示恒等輸出。
每個子網(wǎng)絡(luò)都能提供通過多分辨率融合單元在不同分辨率的子網(wǎng)絡(luò)之間重復(fù)收集信息的能力。第 n 個 Stage的最后一個交換單元的輸出是 {Xn1 Xn2,…,Xnm} 。
2.2.4其他Transitions除了最后一個分支是由步長為2的 3×3 卷積組成外,其他所有分支都是恒等操作(Identify shortcuts)。第 n 個分支轉(zhuǎn)換可以表示為式(11)、(12)。
Ynm=Xnm,m=1,2,…,n
Xn(e)m=conv32(Xnm-1),m=n+1
其中, {Xn1,Xn2,…,Xnm} 通過 n 個Transition 轉(zhuǎn)換為{Yn1,Yn2,…,Ynm,Ynm+1} 。Stage4的最后一個特征融合單元僅輸出 {X41} 。另外,基于ResNet中的殘差塊思想[],RepLK-HRNet中的每個模塊都引入了隨機深度,即在神經(jīng)網(wǎng)絡(luò)的某些層中隨機“丟棄\"部分計算路徑,從而減少前向傳播的計算量,加速訓(xùn)練過程而不顯著犧牲模型準確度。同時,通過增加訓(xùn)練時網(wǎng)絡(luò)的變化性,增強模型的學(xué)習(xí)能力和泛化能力。
2.3 回歸層
將上述網(wǎng)絡(luò)獲得的高分辨率表示輸入到具有 p 個輸出通道的 1×1 卷積層,得到每個關(guān)節(jié)點對應(yīng)的特征圖( ,其中 {H1,H2,…,Hp} 是人體關(guān)節(jié)點的置信度集合)。如在實驗中數(shù)據(jù)集有17個關(guān)節(jié)點,則 p=17 。然后使用均方誤差損失函數(shù)比較真實熱圖和預(yù)測熱圖。損失函數(shù)用式(12)、(13)表示為:
式中, Lossg 為四路損失函數(shù)值之和,采用的是均方誤差(MeanSquared Error,MSE); Mi 為第 i 個層級的關(guān)鍵點預(yù)測值; M* 為人工注釋關(guān)鍵點的真實值; Nj,k Nj,k* 分別為第 j 個人體的第 k 種關(guān)鍵點的預(yù)測值和人工注釋關(guān)鍵點的真實值; n 為人體邊界框個數(shù); m 為1個人體的關(guān)鍵點個數(shù)。
3重參數(shù)化大核卷積塊
重參數(shù)化大核卷積塊由重參數(shù)化大核卷積層(DRconv)和FFN組成,并在DR層和FFN層之間加入SEblock來增加模型深度。在卷積層之后使用BN代替常規(guī)的LayerNorm,BN可以等價地合并到卷積層以消除其推理成本。在FFN之后使用另一個BN,也可以等效地合并到前一層(即FFN中的第2個線性層),如圖2(b)所示。
Stagel使用 3×3 深度可分離卷積(Depth-wiseconv)作為DW層。最后3個Stage使用 13×13 空洞重參數(shù)塊(Dilatedreparamblock)作為DR層,空洞重參數(shù)塊的具體流程如圖3所示。
3.1 空洞重參數(shù)塊
使用空洞的小內(nèi)核重新參數(shù)化大內(nèi)核,大內(nèi)核受益于并行空洞卷積層捕獲稀疏特征的能力[30]。本文使用空洞重參數(shù)塊進行多層次特征提取,它使用一個非空洞的小核和多個空洞的小核層來增強一個非空洞的大核卷積層,捕獲不同抽象層次的信息,增強特征表達能力。其超參數(shù)包括大核 K 的大小、并行卷積層 k 的大小以及空洞率 r 。在實驗中,設(shè)置K=13 ,如圖3所示,包含5個并行層, r=(1,2,3,4,5) k=(5,7,3,3,3) ,因此等價的核大小分別是(5,13,7,9,11)。訓(xùn)練后為了減少推理成本,將整個塊等價轉(zhuǎn)換為一個非空洞大核卷積層,將 rgt;1 的每個層進行適當?shù)牧闾畛?,如式?5)所示。
然后將每個BN合并到前面的卷積層中,將所有得到的核相加。conv_transposed(-)表示空洞率為 r, 卷積核為恒等核 I∈R1×1 的轉(zhuǎn)置卷積, w∈Rk×k ,w′∈R((k-1)×r+1)×((k-1)×r+1) 。如圖3中 k-3,r=5 的層被轉(zhuǎn)換為一個稀疏的 11×11 核,并在每側(cè)用一像素 填充,加到 13×13 非空洞大核上。
圖4(a)和4(b)分別展示了HRNet和RepLK-HRNet模型的有效感受野(ERF)。可以看出,RepLK-HRNet的ERF明顯大于HRNet,這一結(jié)果的根本原因是增加了卷積核的大小。使用更大的卷積核使模型能夠利用更大的有效感受野來捕捉到更廣泛的上下文信息,學(xué)習(xí)長距離依賴關(guān)系。
3.2 SEblock和FFN
在增大感受野的同時,同時考慮特征抽象層次和一般表征能力。在模型設(shè)計中,淺層模型的感受野不宜過大;深層網(wǎng)絡(luò)直接使用過大卷積核會造成浪費;使用大核卷積讓模型提早獲得足夠感受野,不利于模型的表征能力。
因此,本文在Stage1中用 3×3 Depth-wise 小卷積提高特征抽象層次,如圖2(b)所示。在空洞重參數(shù)塊中使用一些高效結(jié)構(gòu)(如SEblock、FFN等)來提高模型的深度,從而增強其一般的表示能力。SEblock可以在不增加網(wǎng)絡(luò)參數(shù)和計算量的情況下,引入全局信道間的依賴關(guān)系。通過池化操作將輸入特征圖的空間維度壓縮為一個小的特征向量,再通過激活函數(shù)和全連接層,根據(jù)特征向量學(xué)習(xí)到一個權(quán)重向量,用于對原始特征圖進行加權(quán)重組合。淺層特征通常包含了更具區(qū)分性的信息,而深層特征則包含了更抽象的語義信息。SEblock能夠自適應(yīng)地學(xué)習(xí)到每個信道的重要性,并對特征圖進行動態(tài)調(diào)整。FFN的加入可以增加模型的復(fù)雜度和非線性,使其能夠?qū)W習(xí)更復(fù)雜的函數(shù)映射關(guān)系,從而提高模型的表征能力和泛化能力。
4實驗結(jié)果與分析
4.1 數(shù)據(jù)集
標準人體姿態(tài)估計實驗使用被廣泛用于人體姿態(tài)估計的公開基準數(shù)據(jù)集MSCOCO2017和MPII進行驗證,被遮擋人體姿態(tài)估計實驗使用OCHuman數(shù)據(jù)集進行驗證。MSCOCO2017分別提供了大約118000和5000個樣本作為人體姿態(tài)估計的訓(xùn)練集和驗證集。MPII數(shù)據(jù)集是從在線視頻中提取出大約25000張圖像,每張圖像包含1個或多個人,總共有超過40000個人帶有注釋的身體關(guān)鍵點,一般將28000個樣本用作訓(xùn)練集,11000個樣本用作測試集。
OCHuman數(shù)據(jù)集如圖5所示。該數(shù)據(jù)集聚焦于被嚴重遮擋的人體,提供了包括邊界框、人體姿態(tài)和實例掩碼在內(nèi)的全面標注。該數(shù)據(jù)集包含5081張圖像中精心標注的13360個人體實例,每個人的平均最大交并比(MaxIoU)為0.573。本文提取了其中包含關(guān)鍵點和掩碼標注的子集(包含4731張圖片,共8110個人),并將其按照 7:3 的比例分為訓(xùn)練集和驗證集(訓(xùn)練集包含3311張圖片,共5689個人;驗證集1420張圖片,共2421個人)。
4.2 評價指標
標準人體姿態(tài)估計實驗使用由MSCOCO2017數(shù)據(jù)集規(guī)定的目標關(guān)鍵點相似度(ObjectKeypointSimilarity,OKS)和由MPII數(shù)據(jù)集規(guī)定的正確關(guān)鍵點比例(Percentage of CorrectKeypoint,PCK)作為模型精度的評價指標。OKS通過計算預(yù)測關(guān)鍵點和其真實值的相似度來衡量,用式(16)表示為:
式中, i 為關(guān)鍵點下標; di 為第 i 個關(guān)鍵點預(yù)測值與其人工注釋真實值之間的歐式距離; ui 為第 i 個關(guān)鍵點的可見度標志位, ui=1 表示第 i 個關(guān)鍵點無遮擋且已被注釋; ui=2 表示第 i 個關(guān)鍵點有遮擋但已被注釋; δ(?) 為可見度判斷函數(shù); s 為關(guān)鍵點的衰減常數(shù),其值為人體邊界框面積的平方根; ki 為第 i 類關(guān)鍵點的歸一化參考值,是通過計算所有樣本集中人工注釋的關(guān)鍵點與其真實值之間的標準差得到, ki 越大表示此類型的關(guān)鍵點越難注釋。OKS的值在[0,1]范圍內(nèi), OKS=1 表示完美預(yù)測,但它通常為一個范圍,當其大于或等于設(shè)定閾值 T 時,表示預(yù)測關(guān)鍵點正確,否則預(yù)測錯誤。
在MPII數(shù)據(jù)集中,將人體頭部長度作為歸一化參考值,提出PCKh(PCKnormalizedbyheadsize)評價指標,它常用的閾值為 0.5、 0.2 和0.1,分別對應(yīng)PCKh@0.5、PCKh@0.2和PCKh @0.1 ,預(yù)測關(guān)鍵點與其對應(yīng)的人工注釋真實值之間的歸一化距離小于設(shè)定閾值,則此關(guān)鍵點被視為正確預(yù)測。PCK用式(17)表示為:
式中, ddef 為歸一化參考值即人體頭部長度。
在OCHuman數(shù)據(jù)集中,單個人體包含17種關(guān)鍵點,同樣將OKS作為模型精度的評價指標。同時,根據(jù)圖像中人體被遮擋的程度將數(shù)據(jù)集劃分為中等難度的實例(0.50,0.75)和高等難度的實例(0.75,1.00),所有實例均表示為(0,1.0)。針對實例中不同難度等級的數(shù)據(jù)集對模型的準確度和魯棒性進行驗證。
4.3 實驗設(shè)置
具體實驗環(huán)境設(shè)置如下:本文網(wǎng)絡(luò)結(jié)構(gòu)使用深度學(xué)習(xí)框架Pytorch搭建。硬件配置:操作系統(tǒng)為Linux,處理器為7vCPUIntel(R)Xeon(R)CPUE5-2680v4 @ 2.40GHz ,安裝內(nèi)存大小為 30G ,GPU型號為NVIDIA GeForce RTXRTX 3080x2(20GB)。
在實驗中將RPLK-HRNet模型的訓(xùn)練周期設(shè)置為250,批量大小設(shè)置為32,優(yōu)化器設(shè)置為Adam,采用多階梯式學(xué)習(xí)率衰減方式,初始學(xué)習(xí)率設(shè)置為0.001,分別在第125,175,220個ep0ch進行學(xué)習(xí)率衰減,衰減率設(shè)置為0.4,模型驗證周期設(shè)置為1個epoch。
4.4實驗結(jié)果與分析
4.4.1標準人體姿態(tài)估計實驗在MSCOCO2017數(shù)據(jù)集上進行標準人體姿態(tài)估計實驗驗證。以O(shè)KS作為模型在MSCOCO2017數(shù)據(jù)集上的評價指標,通過實驗統(tǒng)計得到在不同OKS閾值下的識別精度,如表2所示,其中AP為閾值為t時的識別精度, APM 和AP分別表示中等目標和大目標的平均識別精度。由表2可知,本文提出的RepLK-HRNet模型的OKS相比 Stacked Hourglass 模型[5]、Simple Baselines 模型[35]、HRNet模型[9]、HigherHRNet模型[36]、MoveNet模型[37]和基于Transformer的TokenPose[19]、HRFor-mer[21]均有不同程度的提升,表明RPLK-HRNet模型在標準人體姿態(tài)估計上表現(xiàn)出更好的預(yù)測性能。
圖6所示為在MSCOCO2017數(shù)據(jù)集上訓(xùn)練得 到的多步學(xué)習(xí)率衰減、損失函數(shù)和精度的變化曲 線。實驗采用多階梯式學(xué)習(xí)率衰減方式,初始學(xué)習(xí) 率設(shè)置為0.001,分別在第125,175,220個epoch進 行學(xué)習(xí)率衰減,衰減率設(shè)置為0.4,4個階段的學(xué)習(xí)率 分別為[0.0010,0.0004,0.00016,0.000064]。在圖6(b)
中可以觀察到,當訓(xùn)練達到第125個epoch時精度曲線的上升趨勢未飽和,有較大繼續(xù)上升的潛力。因此,延遲學(xué)習(xí)率第1次衰減的時間將獲得更好的性能。
在評估本文提出的RePLK-HRNet模型在MPII數(shù)據(jù)集上的性能時,采用了 PCKh(?0.5 作為關(guān)鍵指標,該指標能夠全面反映模型對人體關(guān)鍵點檢測的準確性。采用RePLK-HRNet在MPII數(shù)據(jù)集上進行標準人體姿態(tài)估計實驗驗證, PCKh(?0.5 對比實驗結(jié)果如表3所示。
由表3可知,RePLK-HRNet模型在預(yù)測各個關(guān)鍵點的精度上均有所提高,并且其平均預(yù)測精度也達到了較高水平。
4.4.2物體遮擋人體姿態(tài)估計實驗在OCHuman數(shù)據(jù)集上進行被遮擋人體姿態(tài)估計實驗驗證,以O(shè)KS作為模型在OCHuman數(shù)據(jù)集上的評價指標,通過實驗統(tǒng)計得到在不同OKS閥值下的識別精度,結(jié)果如表4所示。
對比表4結(jié)果可知,RepLK-HRNet在不同OKS閾值下都表現(xiàn)出較高的精度,對比HRNet,當ORS閾值為75時,RepLK-HRNet模型的精度提高更為明顯。4.4.3重參數(shù)化大核卷積消融實驗本文比較了基本的HRNet模型和在特征提取網(wǎng)絡(luò)中融入重參數(shù)化大核卷積模型在標準和物體遮擋人體姿態(tài)估計實驗中的性能,網(wǎng)絡(luò)的其他結(jié)構(gòu)不變,結(jié)果如表5、表6所示。
HRNet在每個特征融合單元中使用4層BasicBlock,而RepLK-HRNet在每個特征融合單元中僅用了2層空洞重參數(shù)塊,整個網(wǎng)絡(luò)層數(shù)減少 ,計算復(fù)雜度參數(shù)Params和GFLOPs均顯著降低,不同通道數(shù)(32,48)設(shè)置下參數(shù)量分別降低了 60.0% 63.84% 。但相比于HRNet,改進后的模型在不同參數(shù)( 256×192 , 384×288 , 256×192 5 384×288 下的AP值分別提高了 0.67% 1.60% 1.05% 1.83% (表5),可以看出,重參數(shù)化大核卷積對不同層次的高分辨率表征有較好的提取效果。
由表6可知,在標準人體姿態(tài)估計實驗中,相比HRNet模型,本文模型在MPII數(shù)據(jù)集上的平均分數(shù)提高了0.3。
結(jié)合表5和表6可知,RepLK-HRNet模型比HRNet模型在兩個典型的公開數(shù)據(jù)集上都表現(xiàn)出更優(yōu)的關(guān)鍵點預(yù)測性能,表現(xiàn)出較好的泛化能力。
表7所示為物體遮擋數(shù)據(jù)集人體姿態(tài)估計重參數(shù)化大核卷積消融實驗結(jié)果。按照人體被遮擋的程度將數(shù)據(jù)集劃分為完整數(shù)據(jù)集(AI1(0,1.00))、中等難度數(shù)據(jù)集(Moderate(0.50,0.75))和高等難度數(shù)據(jù)集(Hard(0.75,1.00))。由表7可知,在物體遮擋人體姿態(tài)估計實驗中,相比HRNet模型,RepLK-HRNet模型在OCHuman數(shù)據(jù)集上的不同遮擋比例下的OKS精度均較高,其中,在完整數(shù)據(jù)集中平均精度提高了10.8。在中等難度和高等難度實例中,平均分數(shù)分別提高了26.9,20.2??梢钥闯?,由于RepLK-HRNet在基礎(chǔ)的特征提取網(wǎng)絡(luò)中添加了空洞重參數(shù)化大核卷積,增加網(wǎng)絡(luò)對遠距離稀疏特征的關(guān)注能力,擁有較大的感受野,從而獲得包含更有效信息的關(guān)鍵點特征,在實例被遮擋嚴重的情況下,有較好的特征提取能力,使得模型能夠在實現(xiàn)關(guān)鍵點的精確定位的同時,對被遮擋關(guān)鍵點有較強的推理能力。
4.5實驗局限
在姿態(tài)估計任務(wù)中,除了必要的硬件配置與先進的網(wǎng)絡(luò)算法外,龐大的數(shù)據(jù)訓(xùn)練庫同樣至關(guān)重要,它是支撐實驗結(jié)果優(yōu)化的基石。本文采用MSCOCO2017和MPII這兩個公開數(shù)據(jù)集進行標準人體姿態(tài)估計實驗驗證,它們提供了豐富的訓(xùn)練樣本,有助于網(wǎng)絡(luò)模型達到較為理想的性能表現(xiàn),具有較高的泛化能力。在探索物體遮擋對人體姿態(tài)估計的影響時,采用了OCHuman數(shù)據(jù)集,盡管專注于遮擋場景,但其包含的訓(xùn)練與測試樣本數(shù)量有限,給實驗結(jié)果帶來了一定的局限性。
數(shù)據(jù)集的質(zhì)量對于提升模型準確性具有不可忽視的作用,但無論是通過人工標注還是借助復(fù)雜的動作捕捉設(shè)備,數(shù)據(jù)集的構(gòu)建成本均相當高昂。當前,針對遮擋場景下的人體姿態(tài)估計,數(shù)據(jù)集的采集多依賴于動作捕捉技術(shù),這種方法受限于特定環(huán)境和有限的活動范圍,導(dǎo)致室外或更廣泛場景下的遮擋人體姿態(tài)數(shù)據(jù)相對稀缺。因此,僅憑現(xiàn)有的公開數(shù)據(jù)集來訓(xùn)練模型,其性能仍有較大的提升空間,未來需要更多樣化、高質(zhì)量的數(shù)據(jù)集來支持這一領(lǐng)域的研究與發(fā)展。
5結(jié)束語
人體姿態(tài)估計是當前計算機視覺領(lǐng)域的熱門研究課題,現(xiàn)有的一些相關(guān)研究均可以有效地預(yù)測關(guān)鍵點,但在被遮擋的場景下卻難以達到準確識別關(guān)鍵點的自的。本文提出了一個結(jié)合重參數(shù)化大核卷積的高分辨率人體姿態(tài)估計模型RepLK-HRNet用于解決物體遮擋人體姿態(tài)估計問題,將重參數(shù)化大核卷積塊融人特征提取網(wǎng)絡(luò)HRNet中,使模型能夠同時關(guān)注多尺度、多層次的特征,從而提取到更加豐富的信息來正確定位被遮擋關(guān)鍵點。實驗結(jié)果表明,RepLK-HRNet模型在標準數(shù)據(jù)集和關(guān)節(jié)點被遮擋數(shù)據(jù)集上的人體姿態(tài)估計結(jié)果均有較高的準確性和較強的魯棒性。并且,通過調(diào)整優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),模型參數(shù)量和計算復(fù)雜度都得到了顯著降低,實現(xiàn)了模型的輕量化,有利于后續(xù)模型的邊緣化部署能力。未來的研究將聚焦于獲取包含更多遮擋人體樣本的數(shù)據(jù)集來進一步提升模型的精度,并探索模型在邊緣設(shè)備上的高效部署策略。
參考文獻:
[1] HE K, ZHANG X,REN S, et al. Deep residual learming forimagerecognition[C]/2016IEEEConferenceon Computer Vision and Pattern Recognition(CVPR). Seattle, WA: IEEE,2016: 770-778.
[2]XIE S, GIRSHICK R, DOLLAR P, et al. Aggregated residual transformationsfor deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI: IEEE, 2017: 5987-5995.
[3]GAO S H, CHENG M M, ZHAO K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence,2021,43: 652- 662.
[4] HUJ,SHENL,SUNG, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019, 42(8): 2011-2023.
[5] NEWELL A,YANGK,DENGJ,et al. Stacked hourglas networks for human pose estimation[C]//European Conference on Computer Vision (ECCV). Switzerland: Springer Cham,2016: 483-499.
[6]CAI Y, WANG Z,LUO Z et al. Learming delicate local representations for multi-person pose estimation[C]// European Conferenceon ComputerVision(ECCV). Switzerland: Springer Cham, 2020: 455-472.
[7]CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C]/EEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT: IEEE,2018: 7103-7112.
[8]LIU W, CHEN J, LI C, et al. A cascaded inception of inception network with attention modulated feature fusion for human pose estimation[C]//The Thirty-Second AAAI Conference on Artificial Intelligence(AAAI). New Orleans, Louisiana: AAAI, 2018: 7170-7177.
[9]SUN K,XIAO B,LIU D,et al.Deep high-resolution representation learning for human pose estimation[C]/IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA: IEEE, 2019: 5686-5696.
[10] VASWANI A, SHAZEER N, PARMAR N, et al. Attention isall you need[EB/OL]. (2017-06-12)[2024-06-05]. https://arxiv.org/abs/1706.03762v2.
[11] WANGWH,XIEEZ,LIX,etal.Pyramidvision transformer:A versatile backbone for dense prediction without convolutions[C]//IEEE Intermational Conference on Computer Vision (ICCV). Montreal,QC: IEEE,2021:2380- 7504.
[12] DOSOVITSKIY A,BEYER L,KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2020-10-22) [2024-06-05]. https://arxiv.org/abs/2010.11929v2.
[13]CHEN H,WANG Y,GUO TY,et al.Pre-trained image processing transformer[C]/IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Nashville,TN: IEEE,2021: 12299-12310.
[14]LIANG J Y,CAO J Z, SUN G L,et al. SwinIR: Image restorationusing swin transformer[C]/IEEE International Conference on Computer Vision Workshops (ICCVW). Montreal, BC, Canada: IEEE,2021: 1833-1844.
[15]WANG W H, XIE E Z, LI X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]/IEEE International Conference on Computer Vision (ICCV).Montreal, QC, Canada: IEEE,2021: 2380-7504.
[16]XIE E Z, WANG W H, YU Z D,et al. SegFormer: Simple and Efficient design for semantic segmentation with transformers[EB/OL]. (2021-05-31) [2024-06-05]. htps:/rxiv. org/abs/2105.15203.
[17]DAI X Y, CHEN Y P, XIAO B, et al.Dynamic head: Unifying object detection heads with attentions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Nashville, TN,USA: IEEE,2021: 7369-7378.
[18] LIU Z, LIN Y T,CAO Y,et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]// IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada: IEEE,2021: 9992-10002.
[19]LI Y,ZHANG S K,WANG Z C,et al. TokenPose: Learningkeypointtokensfor humanpose estimation[C]//IEEE/CVF International Conferenceon Computer Vision (ICCV).Montreal, QC, Canada: IEEE, 2021:11293-11302.
[20]YANG S, QUAN Z B,NIE M, et al. TransPose: Keypoint localization via transformer[C]//IEEE International Conference on Computer Vision(ICCV). Montreal, QC, Canada: IEEE,2021: 11782-11792.
[21]YUAN Y H,F(xiàn)UR, HUANG L,et al. HRFormer: High-resolution transformer for dense prediction[EB/OL]. (2021-10- 18)[2024-06-05]. htps://arxiv.org/abs/2110.09408.
[22]。 XU Y F, ZHANG J, ZHANG Q M, et al.ViTPose: Simple vision transformer baselines for human pose estimation[EB/OL]. (2022-04-26)[2024-06-05]. https://arxiv.org/ abs/2204.12484.
[23]HAN Q,F(xiàn)AN Z J, DAI Q, et al. Demystifying local vision transformer:Sparse connectivity,weight sharing,and dynamic weight[EB/OL]. (2021-06-08)[2024-06-05]. http s://arxiv.org/abs/2106.04263v2.
[24]ROMERO D W, KUZINA A, BEKKERS E,et al. Ckconv: Continuous kernel convolution for sequential data[EB/OL]. (2021-02-04)[2024-06-051.htts://arxiv.org/abs/2102.02611.
[25]ROMERO D W,BRUINTJES R J, TOMCZAKJM, et al. Flexconv: Continuous Kernel convolutions with differentiable kermel sizes[EB/OL]. (2021-10-15) [2024-06-05]. https://arxiv.org/abs/2110.08059.
[26]SZEGEDY C,IOFFE S,VANHOUCKE V,et al. Inception-v4, inception-resnet and the impact of residual connections on learming[EB/OL]. (2016-02-23)[2024-06- 05]. https://arxiv.org/abs/1602.07261.
[27]SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]/IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015: 1-9.
[28]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014- 09-04)[2024-06-05]. https://arxiv.0rg/abs/1409.1556.
[29]DING X, ZHANG X Y, MA N N, et al. Repvgg: Making vgg-style convnets great again[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Nashville, TN,USA: IEEE,2021: 13728-13737.
[30]DING X, ZHANG X, ZHOU Y, et al. Scaling up your Kernels to 31×31 :Revisiting large kernel design in CNNs[EB/OL]. (2022-03-13)[2024-06-05].htps://arxiv.org/ abs/2203.06717.
[31]DING X, ZHANG Y, GE Y, et al. UniRepLKNet: A universal perception large-kernel ConvNet for audio, video, point cloud, time-series and image recognition [EB/OL]. (2023-11-27)[2024-6-5]. https://rxiv.org/abs/2311.15599.
[32]HU M,F(xiàn)ENG JY,HUA J S,et al. Online convolutional re-parameterization[C]//EEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA,USA: IEEE,2022: 558-567.
[33]CAI Z C,DING X H,SHEN Q,et al.RefConv: Re-parameterized refocusingconvolution for powerful ConvNets[EB/OL]. (2023-10-16)[2024-06-05]. htps://arxiv.org/ abs/2310.10563.
[34]HU J, SHENL,ALBANIE S,et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019, 42(8): 2011-2023.
[35]XIAO B,WU H,WEI Y C. Simple baselines for human pose estimation and tracking[C]//European Conference on Computer Vision (ECCV). Switzerland: Springer Cham, 2018: 472-487.
[36] CHENGB,XIAOB,WANGJ,et al.HigherHRNet:Scaleaware representation learning for bottom-up human pose estimation[C]/IEEE Conference on Computer Vision and Patterm Recognition (CVPR). Seattle,WA,USA: IEEE,2020: 5386-5395.
[37]JO B J, KIM S K. Comparative analysis of OpenPose, PoseNet,and MoveNet models forpose estimationin mobile devices[J]. Traitement du Signal,2022,39(1): 119-124.
[38] KOSEI Y, RYOSUKE K.Development of human pose recognition system by using raspberry PI and posenet model[C]//20th International Symposium on Communications and Information Technologies (ISCIT). Tottori, Japan: ISCIT,2021:41-44.
[39] 羅夢詩,徐楊,葉星鑫.基于輕量型高分辨率網(wǎng)絡(luò)的被遮 擋人體姿態(tài)估計[J].武漢大學(xué)學(xué)報(理學(xué)版),2021, 67(5): 403-410.
[40] HE K,GKIOXARI G,GIRSHICK R,et al.Mask R-CNN[C]//IEEE International Conference on Computer Vision(ICCV).Venice,Italy:IEEE,2017:2961-2969.
[41] XIAOB,WUHP,WEIYC,etal.Simplebaselinesfor human pose estimation and tracking[C]//European Conferenceon Computer Vision (ECCV).Switzerland:Springer Cham,2018: 472-487.
[42] LIJF,WANG C, ZHU H,et al.Crowdpose:Efficient crowded scenespose estimation and a newbenchmark[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach,CA,USA:IEEE,2019: 10863-10872.
[43] QIULT,ZHANGXY,LIYR,etal.Peekinginto occludedjoints:Anovelframeworkforcrowd poseestimation[C]//European Conference on ComputerVision(ECCV). Scotland, GLASGOW ∵ Springer Cham,2020: 488-504.
[44] NIEXC,F(xiàn)ENGJS,ZHANGJF,etal.Single-stagemultiperson pose machines[C]//In Proceedingsof the IEEE International Conference on Computer Vision(ICCV).Seoul, Korea (South):IEEE,2019:6951-6960.
[45] GENG Z G, SUN K, XIAO B, et al. Bottom-up human pose estimation via disentangled keypoint regression[EB/OL]. (2021-04-06)[2024-06-05].https://arxiv.0rg/abs/2104.02300.
High-Resolution Pose Estimation Based on Reparameterized Large Kernel Convolution
CHENJiayi,HUANGXiaoyu,WUShengxi,WANGXuewu (KeyLaboratoryofSmartManufacturing inEnergy Chemical Proces,MinistryofEducation,East China Universityof Science and Technology, Shanghai 200237, China)
Abstract:Although significant progress has been made in the field of human pose estimation,it still faces enormous chalenges for achieving high-precision and robust pose estimation for the case of dynamic scene changes, occlusions,and complex backgrounds.To address these issues—particularly keypoint occlusion,overlap,and interference from complex environments—this paper proposes a high-resolution human pose estimation model incorporating large kernel convolution techniques, named RepLK-HRNet.The core inovationof the proposed model lies in its unique designofthe feature extractionnetwork, which introduces areparameterized large kernelconvolution strategy to enhance the model'sability incapturing multi-scaleand multi-level feature information.Meanwhile,the network architecture is optimized to significantly reduce the number of parameters and computational complexity. Experimental results demonstrate that,compared to the traditional HRNet model, theRepLK-HRNet model achieves an improvement of 1.83% in accuracy on the standard MS COCO 2017 dataset and an increase of 23.7% in accuracy on the occlusion dataset OCHuman, while reducing Params by 63.84% and GFLOPsby 37.69% .These results indicate that RepLK-HRNetsignificantly improvespose estimationaccuracyunder general,occluded,and keypoint-confused conditions,showcasing excellent robustness and generalization capabilities.Moreover,it meets practical application demands in terms of computational efficiency and memory usage.
Key words: pose estimation; reparameterized large kernel convolution; HRNet; receptive field; feature fusion
(責(zé)任編輯:張欣)