高 坤,李汪根,束 陽,王志格,葛英奎
安徽師范大學(xué) 計算機(jī)與信息學(xué)院,安徽 蕪湖 241002
人體姿態(tài)估計是計算機(jī)視覺中一個極為重要的任務(wù),它已經(jīng)廣泛應(yīng)用于很多領(lǐng)域[1],諸如骨骼動作識別[2-3]、人機(jī)交互[4-5]都需要姿態(tài)估計的參與,2D人體姿態(tài)估計的目標(biāo)是在場景中檢測出人體的關(guān)節(jié)點位置坐標(biāo)[6]。
當(dāng)下2D人體姿態(tài)估計主要有兩大類方法[1],一類是自頂向下(top down)的方法,這類方法的檢測方式是先從場景中檢測人體并框選,再在所框選區(qū)域內(nèi)檢測關(guān)節(jié)點。另一類方法是自底向上(bottom up)的方法,這類方法的檢測方式是直接從場景中檢測出所有關(guān)節(jié)點,再將所檢測到的關(guān)節(jié)點拼裝出人體結(jié)構(gòu)。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在人體姿態(tài)估計領(lǐng)域也陸續(xù)出現(xiàn)了很多優(yōu)秀的研究成果,Newell等提出的堆疊沙漏網(wǎng)絡(luò)(stacked hourglass networks,SHN)[7],網(wǎng)絡(luò)由數(shù)個對稱的沙漏結(jié)構(gòu)網(wǎng)絡(luò)單元堆疊而成,前一個單元的輸出作為后一個的輸入,經(jīng)過對特征的反復(fù)提取,最終輸出熱圖用于預(yù)測關(guān)節(jié)點的位置;Chen等提出的級聯(lián)金字塔網(wǎng)絡(luò)(cascaded pyramid network,CPN)[8],使用了特征金字塔結(jié)構(gòu)用于提取特征,能夠更全面地提取多個尺度上的特征信息;Xiao等提出的簡單基線(simple base‐line,SBL)[9],僅使用簡單的下采樣提取特征再利用轉(zhuǎn)置卷積還原特征圖尺寸,同樣有著優(yōu)秀的表現(xiàn);Sun等提出了高分辨率網(wǎng)絡(luò)(high resolution network,HRNet)[10],通過構(gòu)建多個分支進(jìn)行多尺度特征融合并始終保留高分辨率分支,從而充分利用了特征信息,網(wǎng)絡(luò)的性能表現(xiàn)突出。
但是隨著新的網(wǎng)絡(luò)不斷提出,網(wǎng)絡(luò)的規(guī)模也日漸增大,帶來網(wǎng)絡(luò)參數(shù)量和計算量的大幅增加,無論對于訓(xùn)練還是部署,這都需要很高的成本[11],所以一些研究將重心轉(zhuǎn)向了輕量化,Zhang等基于SBL網(wǎng)絡(luò)改進(jìn)提出輕量級姿態(tài)估計網(wǎng)絡(luò)(lightweight pose network,LPN)[12],在網(wǎng)絡(luò)的推理速度方面展現(xiàn)出較大優(yōu)勢;Yu等基于HRNet提出了Lite-HRNet[13],雖然網(wǎng)絡(luò)性能略有折損,但是卻使得網(wǎng)絡(luò)在輕量化方面有著較大優(yōu)勢。
本文基于以上研究,采用與SBL和LPN相同的簡單結(jié)構(gòu)框架,提出了一個融入密集連接的多尺度輕量級人體姿態(tài)估計網(wǎng)絡(luò)。首先基于VoVNet[14]的密集連接思想,重新設(shè)計了下采樣特征提取瓶頸模塊LGCblock代替原本的瓶頸模塊,特征圖的密集連接能夠?qū)崿F(xiàn)對特征信息的充分利用,同時為了更好地提取特征,在LGCblock內(nèi)結(jié)合深度可分離卷積的思想設(shè)計了GWConv模塊,實現(xiàn)多尺度提取特征信息,同時又保證了參數(shù)量和計算量不會大幅增加,使用三組GWConv模塊的輸出相連接并將最終特征圖進(jìn)行通道維度的變換構(gòu)成了LGCblock結(jié)構(gòu)。本文還結(jié)合分組卷積的思想構(gòu)建了分組空洞空間卷積池化金字塔(SG-ASPP),用于彌補(bǔ)特征提取過程中可能遺漏的特征信息,最終使得網(wǎng)絡(luò)在輕量化的同時取得優(yōu)秀的精度表現(xiàn)。
基于以上描述,本文提出的網(wǎng)絡(luò)主要有如下優(yōu)勢:
(1)基于VoVNet的思想設(shè)計了LGCblock結(jié)構(gòu),密集連接的結(jié)構(gòu)實現(xiàn)了有效的特征復(fù)用,對于輕量級網(wǎng)絡(luò)而言極大提升了網(wǎng)絡(luò)的性能。
(2)GWConv將深度可分離卷積同多尺度特征提取相結(jié)合,在有效控制參數(shù)量和計算量的前提下大幅提升特征提取能力。
(3)使用分組空洞空間卷積池化金字塔來進(jìn)一步對特征進(jìn)行提取,在僅增加少量參數(shù)量的情況下進(jìn)一步提升網(wǎng)絡(luò)的特征提取能力。
密集連接網(wǎng)絡(luò)指通過前向傳播的方式將每層都與其他層相連接,每層的輸入特征圖都會包含其前置所有層的特征圖,這樣能夠使特征得到重用,極大提高特征的利用效率,從而提高網(wǎng)絡(luò)的性能。DenseNet[15]提出為所有層都添加密集連接,但是這樣會導(dǎo)致網(wǎng)絡(luò)的復(fù)雜度急劇增大,在DenseNet的基礎(chǔ)上,VoVNet提出僅保留輸入到最后一層的密集連接,在繼承密集連接網(wǎng)絡(luò)的優(yōu)勢的同時使得網(wǎng)絡(luò)的復(fù)雜度大大降低。
在卷積操作中,分組卷積就是對輸入的特征圖在通道維度上進(jìn)行分組再對每組進(jìn)行卷積操作這樣能夠大幅降低參數(shù)量和計算量[16],通常在逐通道卷積(depth‐wise convolution)中會使用,這種卷積方式會導(dǎo)致通道方向的特征交互不足,組與組之間無法進(jìn)行特征交互,最終會使網(wǎng)絡(luò)的特征提取能力下降,這時采用通道洗牌(channel shuffle)方法,可以一定程度上彌補(bǔ)特征交互不足的問題,通道洗牌方法就是對分組卷積后的特征圖在通道方向進(jìn)行打亂重組,使每次對特征圖進(jìn)行分組卷積時每個組的輸入來自之前的組,這樣特征信息就可以在組與組之間相互流通。
本文提出的LDMNet以LPN網(wǎng)絡(luò)作為框架改進(jìn)而來,整體結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)為類似沙漏結(jié)構(gòu),主要由下采樣特征提取部分和上采樣還原特征圖尺寸兩部分組成,如圖1所示為LDMNet的網(wǎng)絡(luò)結(jié)構(gòu)。
圖1 LDMNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of LDMNet network
當(dāng)圖片輸入網(wǎng)絡(luò)時首先會對圖片進(jìn)行如圖2所示Stem模塊的簡單處理,參考文獻(xiàn)[17],本文將Stem層設(shè)計為雙分支結(jié)構(gòu),相比于僅使用3×3的卷積在幾乎不增加參數(shù)量和計算量的情況下,能更好地保留原始特征信息,如圖2所示為Stem模塊的結(jié)構(gòu)。
圖2 Stem模塊Fig.2 Stem module
通過將卷積與池化兩個分支的特征圖相融合,原理上與密集連接網(wǎng)絡(luò)相似,通過對特征圖的復(fù)用來保留更多原始特征信息,并且在參數(shù)量和計算量上與基線LPN預(yù)處理模塊幾乎無差別,經(jīng)過實驗分析,Stem模塊相比基線LPN預(yù)處理模塊對模型性能有較大提升作用。
緊接著是LDMNet的下采樣特征提取部分,本文將這一部分劃分為五個階段,前四個階段由LGCblock結(jié)構(gòu)組成,最后一個階段為分組空洞空間卷積池化金字塔模塊(SG-ASPP),本文改進(jìn)的密集連接的LGCblock瓶頸結(jié)構(gòu)用來代替LPN網(wǎng)絡(luò)中原本的瓶頸結(jié)構(gòu),不僅有效降低了參數(shù)量和計算量,網(wǎng)絡(luò)的性能表現(xiàn)也有所提升,圖中標(biāo)注了每個階段所包含的LGCblock結(jié)構(gòu)數(shù)目,前四個階段中,都會對特征圖進(jìn)行維度變換,輸出的通道數(shù)依次為112、256、384、512,僅第二、三階段會對特征圖進(jìn)行下采樣,前四個階段輸出的特征圖尺寸依次為64×64、32×32、16×16、16×16,第五個階段SG-ASPP不改變特征圖的尺寸及通道數(shù),目的是盡可能地再提取特征。
最后通過兩組轉(zhuǎn)置卷積將下采樣特征提取部分輸出地特征圖進(jìn)行上采樣,還原高分辨率特征圖,同時將Stem層的輸出與上采樣輸出地特征圖進(jìn)行相加融合,輸出的高分辨率特征圖用于預(yù)測人體關(guān)節(jié)點,實現(xiàn)對人體的姿態(tài)估計。
本文基于密集連接網(wǎng)絡(luò)的思想設(shè)計了如圖3所示的LGCblock瓶頸結(jié)構(gòu),主要由三個GWConv模塊和一個逐點卷積模塊組成,串聯(lián)三個GWConv模塊用來提取空間維度的特征,并將它們的輸出拼接,使用逐點卷積進(jìn)行通道方向的特征交互和維度變換。
圖3 LGCblock結(jié)構(gòu)Fig.3 LGCblock structure
對于瓶頸結(jié)構(gòu)內(nèi)的第一層GWConv模塊可以用公式表示為:
第一層GWConv會將對特征圖降維,使通道數(shù)減少為一個較小的中間通道數(shù),能夠在不損失特征提取能力的同時降低網(wǎng)絡(luò)參數(shù)量和計算量,后續(xù)的GWConv模塊可以用公式表示為:
θi+1代表第i+1層的輸出,θi代表第i層的輸入,F(xiàn)代表GWConv模塊,對于最后一層可以用公式表示為:
θend代表輸出,H代表逐點卷積,將前置層的輸出特征圖通過前向傳播的方式與LGCblock的輸入相拼接,再對特征圖進(jìn)行維度變換,將其轉(zhuǎn)化為輸出通道數(shù)。
通過以上的密集連接結(jié)構(gòu),LGCblock中的最后一層特征圖會包含其所有前置層特征圖的信息,使得所有中間層特征圖的信息都能夠得到充分的再次利用,在訓(xùn)練過程中可以加速梯度的反向傳播實現(xiàn)對網(wǎng)絡(luò)效率的提升,同時LGCblock僅有所有前置層與最后一層之間的密集連接,并且得益于特征圖能夠充分再次利用,所以在中間層可以對特征圖進(jìn)行通道維度的壓縮并且不會損失特征信息,能夠有效降低模型的參數(shù)量和計算量,網(wǎng)絡(luò)的整體性能也有明顯提升。
在過往的研究中可以得知,注意力機(jī)制對于提升網(wǎng)絡(luò)的性能有著重要的作用[18],尤其對于輕量級的網(wǎng)絡(luò),可以在盡可能小的成本下實現(xiàn)對網(wǎng)絡(luò)性能的大幅度提升,所以本文對每一層LGCblock結(jié)構(gòu)的輸出位置都使用了坐標(biāo)注意力機(jī)制(coordinate attention,CA)[19],其結(jié)構(gòu)與其他通道注意力諸如壓縮激活(squeeze-and-excitation,SE)注意力機(jī)制[20],高效通道注意力(efficient channel attention,ECA)[21]等相似,不同的是坐標(biāo)注意力機(jī)制將空間位置信息有效地融入進(jìn)了通道中,如圖4所示為坐標(biāo)注意力機(jī)制的結(jié)構(gòu),并且不再需要龐大的參數(shù)量就可以實現(xiàn),這對于提升輕量級人體姿態(tài)估計網(wǎng)絡(luò)的性能是至關(guān)重要的,通過后續(xù)的實驗也證明了坐標(biāo)注意力機(jī)制在提升網(wǎng)絡(luò)性能方面的重要性。
圖4 坐標(biāo)注意力機(jī)制Fig.4 Coordinate attention
對一個特征圖尺寸為(w,h)的特征圖第c通道而言,首先使用均值池化將水平和豎直方向的空間特征信息嵌入到通道方向,計算過程如公式(4)所示,隨后進(jìn)行特征變換生成注意力權(quán)重,轉(zhuǎn)換過程如公式(5)所示。
其中,g=δ(G([ηh,ηw])),δ和σ為對應(yīng)的采樣系數(shù),G為特征變換操作,最終得到坐標(biāo)注意力:
本文還通過實驗對比了使用了密集連接的LGC‐block的LDMNet相比使用僅對GWConv模塊進(jìn)行串聯(lián)的結(jié)構(gòu)的LDMNet,實驗的結(jié)果表明使用LGCblock的情況具有更低的參數(shù)量和計算量以及更高的性能。
人體姿態(tài)估計是一個對位置信息極為敏感的任務(wù),在卷積神經(jīng)網(wǎng)絡(luò)中,感受野關(guān)系到提取的特征所覆蓋的特征圖范圍,感受野是由卷積核大小所決定的,當(dāng)下最常使用的卷積核大小為3×3,對于輕量級網(wǎng)絡(luò)使用3×3大小的卷積效果相對有限,與使用更大卷積核相比有明顯的效果差距[22],但是如果僅使用更大卷積核進(jìn)行特征提取則會無法兼顧特征圖中多尺度的信息,可能會忽略一些細(xì)節(jié)信息,同時伴隨著大卷積核的引入,網(wǎng)絡(luò)的參數(shù)量核計算量都會隨之大幅增加。
基于以上問題,本文設(shè)計了GWConv模塊,將深度可分離卷積[23]與多尺度卷積相結(jié)合,在輕量化的條件下[24]實現(xiàn)更高效的特征提取,如圖5所示為GWConv結(jié)構(gòu)。
圖5 GWConv模塊Fig.5 GWConv module
由于深度可分離卷積將卷積拆分為逐通道與逐點兩個部分,會導(dǎo)致在卷積過程中的特征交互不足,為了解決這個問題,GWConv首先對輸入的特征圖進(jìn)行通道方向的特征變換,公式表示為:
若輸入特征圖X的通道數(shù)為α,經(jīng)過維度變換fin的輸出特征圖Xδ通道數(shù)為α/2,通過對特征圖進(jìn)行降維的方式實現(xiàn)通道方向的特征交互彌補(bǔ)了深度可分離卷積的不足,并且通道數(shù)減少為原來的一半會降低后續(xù)操作的參數(shù)量和計算量,隨后對特征圖進(jìn)行四個尺度的逐通道卷積,對應(yīng)的卷積核尺寸分別為3、5、7、9,再將多尺度卷積的輸出相融合,用公式表示為:
其中,tn代表堆疊n層卷積核尺寸為3的逐通道卷積等價代替更大卷積核的逐通道卷積,本文方法的n設(shè)置為4,等效進(jìn)行了四個尺度的逐通道卷積,fmid表示對拼接后特征圖進(jìn)行的維度變換,最后將輸出特征圖與輸入特征圖進(jìn)行拼接并進(jìn)行維度變換得到輸出,公式表示為:
fout將拼接后的特征圖進(jìn)行維度變換,將通道數(shù)轉(zhuǎn)化為輸出通道數(shù)。
空洞卷積(atrous convolution)是在普通卷積的基礎(chǔ)上加入了膨脹率,在使用相同卷積核尺寸條件下擴(kuò)大了感受野,通過調(diào)整膨脹率的大小,可以將感受野擴(kuò)展為所需要的大小。
空洞空間卷積池化金字塔(ASPP)模塊[25]使用了空洞卷積和池化來盡可能提取特征圖中的更多信息,通過使用不同膨脹率的空洞卷積來實現(xiàn)多個尺度的特征提取,同時保證特征圖的分辨率不發(fā)生改變。按照輕量化的思路,本文對ASPP模塊進(jìn)行了改進(jìn),融合了分組卷積的思想,設(shè)計了分組空洞空間卷積池化金字塔(SG-ASPP)模塊,在幾乎不損失性能的前提下將ASPP的參數(shù)量降低75%,如圖6所示為SG-ASPP的結(jié)構(gòu)。
圖6 SG-ASPP模塊Fig.6 SG-ASPP module
首先將輸入的特征圖沿通道方向切分為四組,其中三組進(jìn)行膨脹率分別為4、8、12的空洞卷積提取特征信息,另外一組進(jìn)行自適應(yīng)均值池化,隨后將四組的輸出相拼接并進(jìn)行通道洗牌。本文將SG-ASPP放置在四個LGCblock結(jié)構(gòu)之后,用于在下采樣后再盡可能提取一些可能被忽略的特征信息,實驗結(jié)果也表明SG-ASPP模塊在提升網(wǎng)絡(luò)性能方面發(fā)揮了重要作用。
本文提出的網(wǎng)絡(luò)使用了兩個數(shù)據(jù)集,MPII數(shù)據(jù)集和COCO數(shù)據(jù)集。
MPII數(shù)據(jù)集包含大約25 000張圖片,有約40 000個人體目標(biāo)且均被標(biāo)注了16個關(guān)節(jié)點的信息,一般會把其中28 000張圖片作為訓(xùn)練集,剩余12 000張圖片作為測試集。MPII數(shù)據(jù)集的評價指標(biāo)為PCKh[26](percent‐age of correct keypoints),以人體頭部作為歸一化指標(biāo)計算預(yù)測正確的關(guān)鍵點比例,即預(yù)測關(guān)鍵點距離標(biāo)注關(guān)鍵點之間的歸一化距離小于設(shè)定閾值的比例,本文選用閾值為0.5的PCKh@0.5作為評估標(biāo)準(zhǔn),評估的關(guān)鍵點分別為頭部(head)、肩膀(shoulder)、手肘(elbow)、腕部(wrist)、髖部(hip)、膝蓋(knee)以及腳踝(ankle)。
COCO數(shù)據(jù)集包含330 000張圖片,其中有超過200 000張被標(biāo)記圖片,擁有標(biāo)注信息的人體目標(biāo)約250 000個,每個人體目標(biāo)被標(biāo)注了17個關(guān)節(jié)點的信息,一般使用訓(xùn)練集中的57 000張圖片進(jìn)行訓(xùn)練,在5 000張圖片的驗證集上驗證最后使用測試集的20 000張圖片進(jìn)行測試。COCO數(shù)據(jù)集的評價標(biāo)準(zhǔn)是關(guān)鍵點相似性[27](object keypoint similarity,OKS),本文采用AP(OKS=0.50,0.55,…,0.95時10個預(yù)測關(guān)鍵點準(zhǔn)確率的均值)作為主要評價指標(biāo)、AP50(OKS=0.5時的準(zhǔn)確率)、AP75(OKS=0.75時的準(zhǔn)確率)、APM(中型物體檢測準(zhǔn)確率)、APL(大型物體檢測準(zhǔn)確率)以及AR(OKS=0.50,0.55,…,0.95時10個預(yù)測關(guān)鍵點召回率的均值),作為輔助評價指標(biāo)。
本文的實驗環(huán)境為Ubuntu 20.04,GPU為NVIDIA RTX 3060,顯存為12 GB,使用的Pytorch版本為1.10.1,Python版本為3.9,網(wǎng)絡(luò)使用的優(yōu)化器為Adam,設(shè)置的訓(xùn)練周期為150輪,批量大小為32,初始學(xué)習(xí)率設(shè)置為0.001,在訓(xùn)練第120輪時縮減10倍。
本文采用和LPN網(wǎng)絡(luò)相同的數(shù)據(jù)預(yù)處理,對于MPII數(shù)據(jù)集處理為256×256大小,對于COCO數(shù)據(jù)集處理為256×192大小,便于與其他方法進(jìn)行對比。
本文方法在COCO數(shù)據(jù)集以及MPII數(shù)據(jù)集上進(jìn)行了實驗驗證,與基線LPN和其他具有代表性的先進(jìn)方法進(jìn)行準(zhǔn)確度、參數(shù)量和計算量上的比較。
首先,本文方法在MPII數(shù)據(jù)集上進(jìn)行了實驗,包括MPII數(shù)據(jù)集中人體7個部位關(guān)節(jié)點以及平均預(yù)測準(zhǔn)確度的結(jié)果如表1所示,與Hourglass、SimpleBaseline、HRNet相比,本文方法的參數(shù)量和計算量最低并且平均預(yù)測準(zhǔn)確度達(dá)到了相近水準(zhǔn),與基線LPN相比,本文增加了少量的參數(shù)量和計算量,在平均精度方面提升了1.9個百分點,在輕量化網(wǎng)絡(luò)極其有限的資源以及沙漏結(jié)構(gòu)下采樣帶來的特征信息損失限制下,相比最新的輕量級高分辨率網(wǎng)絡(luò)LiteHRNet相比平均精度提高了1.5個百分點。
表1 MPII驗證集實驗結(jié)果對比(PCKh@0.5)Table 1 Comparison of experimental results of MPII validation set(PCKh@0.5)
表2是本文方法在COCO驗證集上與其他方法的實驗對比結(jié)果,LDMNet在不使用預(yù)訓(xùn)練模型以及基線LPN中的Iterative Training Strategy學(xué)習(xí)率迭代策略的情況下,平均精度相較使用了學(xué)習(xí)率迭代訓(xùn)練策略的基線LPN提升了1.0個百分點,與沒有使用學(xué)習(xí)率迭代策略的基線LPN相比則提升了3.2個百分點,在與最新的輕量級方法LiteHRNet比較中,本文方法的平均精度提升了2.9個百分點。另外與一些大型網(wǎng)絡(luò)作比較,LDMNet在輕量化方面具有極大優(yōu)勢,平均預(yù)測準(zhǔn)確度與相同網(wǎng)絡(luò)結(jié)構(gòu)的SBL-50相近,達(dá)到了與大型網(wǎng)絡(luò)相近的主流性能水準(zhǔn)。
表2 COCO驗證集實驗結(jié)果對比Table 2 Comparison of experimental results of COCO validation set
本文還在COCOtest-dev測試數(shù)據(jù)集上將LDMNet與其他方法做了對比如表3所示,為了方便比較,網(wǎng)絡(luò)輸入的圖片尺寸選擇為384×288,實驗結(jié)果表明,LDMNet與一些采用預(yù)訓(xùn)練模型的大型網(wǎng)絡(luò)諸如CPN、HRNet相比,平均預(yù)測精度雖稍顯遜色,但是在輕量化方面的表現(xiàn)則非常優(yōu)異并且不再依賴預(yù)訓(xùn)練模型,使得網(wǎng)絡(luò)的訓(xùn)練部署更加輕便,更符合輕量化的設(shè)計思路,與使用ResNet-152作為瓶頸結(jié)構(gòu)并且使用ResNet-152預(yù)訓(xùn)練模型的SBL-152相比,LDMNet在網(wǎng)絡(luò)結(jié)構(gòu)相同的情況下僅用不足1/10的參數(shù)量最終取得了相對不錯的成績,與最新的輕量級網(wǎng)絡(luò)LiteHRNet相比,LDMNet在少量增加參數(shù)量的條件下,平均預(yù)測準(zhǔn)確度提升了0.4個百分點。
表3 COCO test-dev測試集實驗結(jié)果對比Table 3 Comparison of experimental results of COCO test-dev set
綜合以上實驗結(jié)果,本文提出的LDMNet在輕量級模型中表現(xiàn)出優(yōu)異的性能表現(xiàn),與最新的輕量級姿態(tài)估計方法相比有較大優(yōu)勢,其中值得注意的是,在與基線LPN的對比中雖然參數(shù)量和計算量有所提升,但是不再需要采用在LPN中呈現(xiàn)為對模型進(jìn)行多次訓(xùn)練的Iterative Training Strategy學(xué)習(xí)率迭代策略以及任何類似預(yù)訓(xùn)練手段,僅通過單次訓(xùn)練即得到最終結(jié)果,實際上大大降低了模型的訓(xùn)練時間成本,與此同時在模型性能上超越了基線LPN;與大型網(wǎng)絡(luò)相對比在模型規(guī)模上有極大優(yōu)勢,且性能表現(xiàn)表現(xiàn)穩(wěn)定,達(dá)到了對輕量級人體姿態(tài)估計的設(shè)計目標(biāo)。
本文選擇使用MPII數(shù)據(jù)集進(jìn)行消融實驗,首先分別單獨將坐標(biāo)注意力機(jī)制(CA)、分組空洞空間卷積池化金字塔(SG-ASPP)單獨用在本文方法,用來驗證各模塊對LDMNet的影響,實驗結(jié)果如表4。
表4 模塊消融實驗Table 4 Ablation experiment
結(jié)果表明,SG-ASPP模塊與CA對于LDMNet而言都有著重要的作用,對提升模型性能發(fā)揮著重要的作用,其中CA對本文模型性能的提升占主導(dǎo)地位。隨后為了深入研究模型中的模塊對性能的影響,本文對圖1中的Stem模塊進(jìn)行消融實驗,實驗結(jié)果如表5。
表5 Stem消融實驗Table 5 Stem ablation experiment
其中LDMNet1代表未使用Stem模塊的情況,使用Stem模塊在幾乎不增加參數(shù)量和計算量的條件下大幅度提升了模型性能。隨后本文對LGCblock使用的密集連接進(jìn)行了實驗分析,結(jié)果如表6所示。
表6 LGCblock消融實驗Table 6 LGCblock ablation experiment
LDMNet2代表僅將GWConv模塊進(jìn)行串聯(lián)而不使用密集連接結(jié)構(gòu)組成LGCblock的情況,與不使用密集連接的LGCblock結(jié)構(gòu)相比,使用密集連接的LGCblock在參數(shù)量降低了接近50個百分點,計算量也降低了近30個百分點,并且平均預(yù)測準(zhǔn)確度提高了0.6個百分點,對中間層特征圖進(jìn)行復(fù)用在提升模型預(yù)測準(zhǔn)確度的同時還能大幅降低模型復(fù)雜度。為了更細(xì)分地對本文提出模塊效果進(jìn)行分析,本文還使用GWConv模塊與普通深度可分離卷積模塊分別構(gòu)建LGCblock結(jié)構(gòu),實驗結(jié)果如表7所示。
表7 GWConv消融實驗Table 7 GWConv ablation experiment
LDMNet3代表使用卷積核尺寸為3的單尺度深度可分離卷積,相比使用普通深度可分離卷積,雖然使用GWConv參數(shù)量和計算量都有所增加,但是平均預(yù)測準(zhǔn)確度提升了2個百分點,實驗結(jié)果表明GWConv模塊的多尺度特征提取對于提升網(wǎng)絡(luò)性能發(fā)揮著極為重要的作用。另外本文還對圖1中的短路連接進(jìn)行了實驗分析,訓(xùn)練過程中的模型收斂曲線如圖7所示。
圖7 模型訓(xùn)練收斂曲線Fig.7 Model training convergence curve
可以看出,相比于不使用短路連接的情況,短路連接能夠使模型的訓(xùn)練更快收斂,并且平均準(zhǔn)確度也有所提升,在MPII驗證集上的實驗對比如表8所示。
表8 短路連接消融實驗Table 8 Residual ablation experiment
LDMNet4代表不使用短路連接,平均準(zhǔn)確度相較使用短路連接的情況降低0.5個百分點,以上實驗結(jié)果可以推斷出,由于多次進(jìn)行下采樣縮小特征圖尺寸,會使得特征圖中的信息存在損失,而通過將高分辨率特征圖直接由短路連接的方式與輸出特征圖相融合可以極大緩解這個問題,從而提高模型性能。
對于輕量級姿態(tài)估計,模型的推理速度是一個至關(guān)重要的參數(shù),本文對LDMNet做了推理速度的測試,測試平臺為I5-10400F,對256×192大小的輸入,與其他經(jīng)典方法在推理速度上的對比如圖8所示,LDMNet的推理速度可以達(dá)到平均19 FPS,圖中圖案的大小表示模型的規(guī)模,與SBL以及當(dāng)下主流的HRNet在相同的環(huán)境下對比,有著更快的推理速度和更輕量級的模型規(guī)模,具有更強(qiáng)的實時性。
圖8 模型推理速度對比Fig.8 Comparison of model inference speed
本文隨機(jī)選取COCO數(shù)據(jù)集中部分人體樣本做了姿態(tài)估計可視化如圖9所示,可視化結(jié)果顯示本文方法在各種環(huán)境下都能夠順利檢測出人體關(guān)節(jié)點的位置,包括障礙物遮擋、陰影環(huán)境下以及模糊畫面都能準(zhǔn)確地檢測出人體關(guān)節(jié)點,得益于密集連接網(wǎng)絡(luò)的特性以及多尺度特征提取,LDMNet能夠?qū)W習(xí)到畫面中兼顧全局與局部的特征信息,在面對復(fù)雜場景時同樣會有優(yōu)異的性能表現(xiàn),展現(xiàn)了本文方法的可靠性以及面對復(fù)雜環(huán)境的魯棒性。
圖9 COCO數(shù)據(jù)集可視化Fig.9 COCO dataset visualization
本著在盡可能低的網(wǎng)絡(luò)參數(shù)量以及計算量的條件下提升網(wǎng)絡(luò)性能的目標(biāo),本文結(jié)合密集連接網(wǎng)絡(luò)和多尺度特征提取兩種方法提出了輕量級的人體姿態(tài)估計網(wǎng)絡(luò)LDMNet,網(wǎng)絡(luò)以輕量級簡單人體姿態(tài)估計網(wǎng)絡(luò)LPN為基礎(chǔ)框架,將原本的下采樣瓶頸結(jié)構(gòu)替換為LGCblock,并用GWConv作為其基本模塊,使得網(wǎng)絡(luò)能夠在輕量化方面表現(xiàn)優(yōu)異并且具有高效的特征提取能力,使得網(wǎng)絡(luò)的整體性能獲得較大提升,同時提出了SG-ASPP模塊,使得整個特征提取模塊的性能進(jìn)一步得到提升,最終的實驗結(jié)果達(dá)到了與現(xiàn)有優(yōu)秀模型相同的水準(zhǔn),在COCO數(shù)據(jù)集以及MPII數(shù)據(jù)集上的實驗結(jié)果還表明,本文提出的方法有效地平衡了網(wǎng)絡(luò)的復(fù)雜度與預(yù)測準(zhǔn)確率之間的關(guān)系。在后續(xù)的工作中,如何在進(jìn)一步縮減網(wǎng)絡(luò)參數(shù)量以及計算量的前提下,對現(xiàn)有網(wǎng)絡(luò)的性能進(jìn)行提升,能夠在真實場景中得到應(yīng)用是需要著重思考的內(nèi)容。