摘 要:從深度圖像中準(zhǔn)確估計(jì)手的三維姿態(tài)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù)。然而,由于手的自遮擋和關(guān)節(jié)自相似性,使得手姿態(tài)估計(jì)任務(wù)極具挑戰(zhàn)性。為了克服這些困難,考察了深度圖像采樣視角對(duì)于估計(jì)精度的影響,提出了一種基于視角統(tǒng)一(UVP)的網(wǎng)絡(luò)。該網(wǎng)絡(luò)旨在將輸入的深度圖像重采樣為更易于估計(jì)的“正面”視角,而后通過(guò)原始視角下的特征提高關(guān)節(jié)估計(jì)精度。首先,提出了視角轉(zhuǎn)換模塊,實(shí)現(xiàn)對(duì)輸入的單張深度圖像的視角旋轉(zhuǎn),提供作為補(bǔ)充的第二視角;然后,提出了視角統(tǒng)一損失函數(shù),確保轉(zhuǎn)換后的第二視角為“正面”視角,最大程度規(guī)避自遮擋問(wèn)題;最后,通過(guò)改變卷積組合結(jié)構(gòu)、降低網(wǎng)絡(luò)深度等網(wǎng)絡(luò)輕量化手段,進(jìn)一步優(yōu)化方法的性能。通過(guò)在三個(gè)公開(kāi)的手姿態(tài)數(shù)據(jù)集(包括ICVL、NYU和MSRA)上進(jìn)行實(shí)驗(yàn),所提方法分別取得了4.92 mm、7.43 mm和7.02 mm的平均關(guān)節(jié)位置誤差,且在搭載RTX3070的計(jì)算機(jī)上能以159.39 frame/s的速度運(yùn)行。可見(jiàn),轉(zhuǎn)換深度圖的采樣視角,并融合雙視角下的特征有利于提高手部姿態(tài)估計(jì)的精度。同時(shí),所提方法具備自適應(yīng)性,并表現(xiàn)出優(yōu)秀的泛化能力,可以推廣到大多數(shù)基于單深度圖像的手部姿態(tài)估計(jì)模型,為深度學(xué)習(xí)在三維手姿態(tài)估計(jì)中的應(yīng)用提供了有力支持。
關(guān)鍵詞:手部姿態(tài)估計(jì);手關(guān)節(jié)自遮擋;視角統(tǒng)一;深度圖像;點(diǎn)云變換
中圖分類(lèi)號(hào):TP391"" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2025)01-041-0293-07
doi: 10.19734/j.issn.1001-3695.2024.03.0113
Optimization method of hand pose estimation based on unified view
Abstract:Estimating the three-dimensional pose of hands accurately from depth images is an important task in the field of computer vision. However, due to self-occlusion of hands and joint self-similarity, hand pose estimation is extremely challen-ging. To overcome these difficulties, this paper investigated the impact of depth image sampling viewpoints on estimation accuracy and proposed a UVP network. This network aimed to resample input depth images to a more easily estimable “front-facing” viewpoint and then enhance joint estimation accuracy through features from the original viewpoint. Firstly, it proposed a viewpoint transformation module to perform viewpoint rotation on input single-depth images, providing a supplementary se-cond viewpoint. Then, it introduced a viewpoint unification loss function to ensure that the transformed second viewpoint aligned with the “front-facing” viewpoint, minimizing self-occlusion issues. Finally, by employing network lightweight techniques such as changing convolutional combinations and reducing network depth, the method’s performance was further optimized. Experimental results on three publicly available hand pose datasets (including ICVL, NYU, and MSRA) show average joint position errors of 4.92 mm, 7.43 mm, and 7.02 mm, respectively. Moreover, the method achieves a processing speed of 159.39 frame/s on a computer equipped with an RTX3070 graphics card. Thus, it is evident that sampling depth images from different viewpoints and integrating features from dual viewpoints contribute to improved hand pose estimation accuracy. Additionally, the proposed method demonstrates adaptability and outstanding generalization capabilities, making it applicable to most single-depth image-based hand pose estimation models and providing robust support for the application of deep learning in three-dimensional hand pose estimation.
Key words:hand pose estimation; hand joint self occlusion; unified view point(UVP); depth image; point cloud transformation
0 引言
基于單深度圖像的三維手姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)中的重要任務(wù)之一,在人機(jī)交互、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、醫(yī)學(xué)診斷和手語(yǔ)識(shí)別等多個(gè)領(lǐng)域的應(yīng)用中都發(fā)揮著重要的作用[1~4]。隨著商用深度相機(jī)(如Microsoft Kinect、Intel RealSense、Leap Motion Controller等)精度的提升和成本的降低,基于深度圖像的三維手姿態(tài)估計(jì)任務(wù)取得了顯著進(jìn)展[5~7]。然而,由于手的高度靈活性和手指之間的相似性,三維手姿態(tài)估計(jì)仍然面臨著一系列挑戰(zhàn),其中包括手部自遮擋和同質(zhì)外觀模糊性問(wèn)題,限制了估計(jì)精度和算法效率的進(jìn)一步提升[8,9]。
隨著深度學(xué)習(xí)的快速發(fā)展和其所表現(xiàn)出來(lái)的驚人能力,越來(lái)越多基于深度學(xué)習(xí)的手姿態(tài)估計(jì)方法被提出,這些方法大致可以分為兩類(lèi)。a)基于回歸的方法,即直接利用全連接層回歸三維手關(guān)節(jié)坐標(biāo)[10~13]。例如,Oberweger等人[11]采用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手部位置的定位和特征提取,并通過(guò)全連接層回歸關(guān)節(jié)位置。然而,這種方法只是簡(jiǎn)單地將深度圖像視為二維圖像,未充分挖掘深度信息。b)采用網(wǎng)絡(luò)生成熱圖,隨后通過(guò)一系列不可學(xué)習(xí)的信息聚合過(guò)程(如argmax運(yùn)算或均值偏移估計(jì))來(lái)推斷關(guān)節(jié)坐標(biāo)[14~17]。如Moon等人[14]將深度圖像轉(zhuǎn)換為體素,以體素化數(shù)據(jù)作為輸入,然后通過(guò)三維卷積回歸熱圖。盡管這種方法在基于深度圖像的手姿態(tài)估計(jì)領(lǐng)域取得了一定成功,但信息聚合操作通常作為后處理步驟,并未納入訓(xùn)練階段,導(dǎo)致網(wǎng)絡(luò)提取特征和估計(jì)結(jié)果之間存在差距。
為了避免上述問(wèn)題并充分利用深度圖像的優(yōu)勢(shì),近期研究趨向于挖掘更多相關(guān)信息以提高方法的精度,這主要分為兩類(lèi)方法。a)一類(lèi)方法嘗試挖掘深度圖像所附帶的第三維信息,形成空間結(jié)構(gòu)信息,從而彌補(bǔ)在從二維圖像中估計(jì)三維手姿態(tài)參數(shù)時(shí)可能存在的維度缺失問(wèn)題[18~20]。然而,所有對(duì)空間信息的挖掘模塊都是網(wǎng)絡(luò)訓(xùn)練的一部分,這可能導(dǎo)致誤差的積累,限制估計(jì)效果的提升。b)另一類(lèi)方法則致力于利用更多視角下手姿態(tài)信息的豐富性,以減弱手自遮擋的影響[21,22]。這種方法類(lèi)似人眼的特性,利用左右兩眼的視覺(jué)差異,人腦就可以推斷出物體的遠(yuǎn)近信息。通過(guò)將手姿態(tài)投影到多個(gè)視角下,得到多視角下手姿態(tài)的特征,利用多視角信息的互補(bǔ)性來(lái)融合特征就能夠減弱由手自遮擋和手關(guān)節(jié)自相似性帶來(lái)的影響。Ge等人[21]利用這種方式將單視角深度圖像轉(zhuǎn)換到三個(gè)正交視角下,并用實(shí)驗(yàn)證明了融合三個(gè)視角下的特征比使用原始視角更有優(yōu)勢(shì)。
綜上所述,多視角下的特征融合能夠幫助解決手自遮擋等問(wèn)題,提升手姿態(tài)估計(jì)任務(wù)的精度。然而,選擇哪些視角和多視角同時(shí)訓(xùn)練導(dǎo)致性能降低成為了新的挑戰(zhàn)。為此,本文提出了一種基于視角統(tǒng)一的優(yōu)化方法(unified view point,UVP),實(shí)現(xiàn)僅融合兩個(gè)視角下的深度圖像特征來(lái)提升手姿態(tài)估計(jì)的效果。對(duì)于輸入的單張深度圖像,提出視角轉(zhuǎn)換模塊將其轉(zhuǎn)換為另一個(gè)視角下的表征,以便實(shí)現(xiàn)雙視角下的特征融合。由于文獻(xiàn)[4]的實(shí)驗(yàn)中指出偏向“正面”視角下的輸入深度圖像相比其他視角在手姿態(tài)估計(jì)中具有更好的效果,所以本文還提出了一種新的視角監(jiān)督損失函數(shù),監(jiān)督視角轉(zhuǎn)換模塊統(tǒng)一生成“正面”視角下的深度圖像。最終,所有原始視角下的深度圖像被統(tǒng)一到“正面”視角后再輸入到后續(xù)的三維手姿態(tài)估計(jì)網(wǎng)絡(luò)中。由于這種方式還增加了輸入數(shù)據(jù)的共性,會(huì)更有利于網(wǎng)絡(luò)的學(xué)習(xí),所以一定程度上也會(huì)提高手姿態(tài)估計(jì)的精確度和魯棒性。
本文的主要貢獻(xiàn)為
a) 提出視角轉(zhuǎn)換模塊,實(shí)現(xiàn)了對(duì)輸入圖像視角的轉(zhuǎn)換,并通過(guò)在ICVL[23]、MSRA[7]和NYU[24]數(shù)據(jù)集上的實(shí)驗(yàn)證明了該模塊的有效性。
b) 提出視角標(biāo)準(zhǔn)化的建議,并通過(guò)損失函數(shù)量化后用于視角轉(zhuǎn)換模塊,實(shí)現(xiàn)轉(zhuǎn)換后視角的統(tǒng)一,同時(shí)通過(guò)實(shí)驗(yàn)證明了該方法有效性。
c) 使用改進(jìn)basic block等輕量化手段對(duì)視角轉(zhuǎn)換模塊進(jìn)行改進(jìn),以實(shí)現(xiàn)模塊的高效性,并通過(guò)實(shí)驗(yàn)證明了輕量化改進(jìn)的效果。
本文提出的UVP方法可以集成到大部分目前已有的單深度圖像手姿態(tài)估計(jì)模型中,并提升其估計(jì)精度。這些貢獻(xiàn)共同為三維手姿態(tài)估計(jì)領(lǐng)域的研究和應(yīng)用提供了新的思路和解決方案,為人機(jī)交互和深度學(xué)習(xí)方法的發(fā)展帶來(lái)了積極的影響。
1 相關(guān)工作
手姿態(tài)估計(jì)任務(wù)根據(jù)輸入模態(tài)可以分為基于RGB的方法[12, 16]和基于深度圖像的方法[21,22]。由于深度圖像在攜帶空間信息方面的優(yōu)勢(shì),基于深度圖像的三維手姿態(tài)估計(jì)任務(wù)近年來(lái)受到了越來(lái)越多的關(guān)注。鑒于所提方法也是基于深度圖像的,因此本文將主要聚焦于基于深度圖像的相關(guān)研究。
為了克服深度學(xué)習(xí)方法在手姿態(tài)估計(jì)中面臨的挑戰(zhàn),一些研究嘗試從手關(guān)節(jié)關(guān)聯(lián)性和不同視角中獲得更多線(xiàn)索,以提高估計(jì)的準(zhǔn)確性。這包括提取空間相關(guān)性的方法[19, 20, 25]和利用多視角下的信息互補(bǔ)的方法[12, 21~22, 26]。對(duì)于提取空間相關(guān)性的方法,主要是通過(guò)利用局部特征點(diǎn)與關(guān)節(jié)點(diǎn)的空間相關(guān)性來(lái)推斷出關(guān)節(jié)點(diǎn)的坐標(biāo)。例如Huang等人[19]使用非因果自注意力機(jī)制捕捉關(guān)節(jié)點(diǎn)之間的結(jié)構(gòu)相關(guān)性,并將捕獲的姿態(tài)相關(guān)性和逐點(diǎn)特征相關(guān)聯(lián),從而推斷每個(gè)關(guān)節(jié)點(diǎn)位置。Cheng等人[20]提出多級(jí)網(wǎng)絡(luò),該網(wǎng)絡(luò)首先提取手的全局特征和關(guān)節(jié)的局部特征,通過(guò)關(guān)節(jié)之間的空間相關(guān)性進(jìn)行特征聚合,最后利用解碼器獲取關(guān)節(jié)點(diǎn)的位置。Rezaei等人[26]提出的多分支網(wǎng)絡(luò)分別提取了關(guān)節(jié)點(diǎn)附近像素和非關(guān)節(jié)點(diǎn)附近但相關(guān)的像素,生成它們對(duì)每個(gè)關(guān)節(jié)點(diǎn)的注意力特征圖,最后將特征圖融合以解碼出關(guān)節(jié)點(diǎn)的位置。這些方法在充分利用空間相關(guān)性方面取得了一定的成果,但受限于輸入數(shù)據(jù)都是單視角下的深度圖像,且部分深度圖像帶有明顯的深度噪聲[6],因而在數(shù)據(jù)較差的情況下會(huì)取得更壞的效果。對(duì)于這一挑戰(zhàn),通過(guò)多視角下的特征融合可以有效緩解[9]。
最近的研究發(fā)現(xiàn),利用多視角下的信息互補(bǔ)的方法在解決手部自遮擋和關(guān)節(jié)自相關(guān)性方面表現(xiàn)出了更好的魯棒性。通過(guò)充分利用多個(gè)視角下的信息,可以更好地處理手部在單一視角下的缺陷。Zheng等人[12]提出了一種可學(xué)習(xí)的跨視圖交互網(wǎng)絡(luò),用以捕獲跨視圖特征,并利用多視圖交互結(jié)果去增強(qiáng)單目視圖的預(yù)測(cè)。但如果一個(gè)視角的錯(cuò)誤被其他視角所“接受”,可能會(huì)導(dǎo)致錯(cuò)誤在所有視角中傳播,從而影響整體性能。Ge等人[21]將深度圖像轉(zhuǎn)到點(diǎn)云后采集三個(gè)正交視角下深度圖像,然后將三個(gè)深度圖像都輸入網(wǎng)絡(luò)中訓(xùn)練得到局部特征,最后利用融合模塊回歸手關(guān)節(jié)位置。但三張深度圖像同時(shí)訓(xùn)練會(huì)大幅增加網(wǎng)絡(luò)的計(jì)算量,且文獻(xiàn)[4]的實(shí)驗(yàn)表明“側(cè)面”視角下的深度圖像對(duì)手姿態(tài)估計(jì)幫助甚微。Chen等人[22]在所提單視圖估計(jì)方法的基礎(chǔ)上,通過(guò)級(jí)聯(lián)的方式輸入并融合多視圖特征,用以預(yù)測(cè)最終的手關(guān)節(jié)點(diǎn)位置。但這種方法依賴(lài)于同時(shí)從多個(gè)視角下采集的數(shù)據(jù)集,且多視角數(shù)據(jù)都要經(jīng)過(guò)單視角估計(jì)網(wǎng)絡(luò)輸入特征,大大降低了估計(jì)效率。Cheng等人[25]提出了一種視角轉(zhuǎn)換方法,將輸入深度圖像投影到空間中多達(dá)25個(gè)固定視角上,然后從額外的置信網(wǎng)絡(luò)訓(xùn)練所有視角的置信度,從中選擇置信度最高的3個(gè)用于后續(xù)手部姿態(tài)估計(jì)任務(wù)的訓(xùn)練。這種方法雖然通過(guò)多個(gè)視角的信息互補(bǔ),提高了網(wǎng)絡(luò)手部姿態(tài)的理解和建模能力。但將25個(gè)視角下的深度圖像都送入網(wǎng)絡(luò)中訓(xùn)練明顯會(huì)增大網(wǎng)絡(luò)的負(fù)擔(dān),從而降低網(wǎng)絡(luò)的效率。
本文方法受到上述基于多視角方法的啟發(fā),將不同視角下采集到的輸入深度圖統(tǒng)一到“正面”視角下,并通過(guò)融合原始視角與“正面”視角下的特征,有效地減弱了自遮擋的影響,提高了估計(jì)的準(zhǔn)確性。然而,本文方法在一些關(guān)鍵方面與以上方法存在本質(zhì)的不同。首先,本文方法作用于單張深度圖像,通過(guò)網(wǎng)絡(luò)生成該深度圖像對(duì)應(yīng)的“正面”視角,從而利用原始視角與“正面”視角下的信息互補(bǔ)性來(lái)提升模型的精度。與需要處理多視角多幀數(shù)據(jù)的方法不同,本文方法通過(guò)單一深度圖像就能實(shí)現(xiàn)對(duì)雙視角信息的有效利用,使得方法有更高的效率,在如虛擬現(xiàn)實(shí)人機(jī)交互場(chǎng)景中滿(mǎn)足低成本采集數(shù)據(jù)與高效處理數(shù)據(jù)的應(yīng)用需求。其次,本文方法并非從一組固定視角中選擇有益于手姿態(tài)估計(jì)的視角,而是通過(guò)網(wǎng)絡(luò)自適應(yīng)地訓(xùn)練出“正面”的視角。這種自適應(yīng)性訓(xùn)練使得提出的模塊在處理不同場(chǎng)景和數(shù)據(jù)集時(shí)更具泛化性,能夠滿(mǎn)足實(shí)際場(chǎng)景中相機(jī)隨機(jī)擺放的需求。
2 方法
2.1 概述
基于深度圖像的三維手姿態(tài)估計(jì)任務(wù)是指對(duì)于給定的輸入深度圖像,通過(guò)提取其中的信息特征,估計(jì)一組預(yù)定義的手關(guān)節(jié)在相機(jī)坐標(biāo)系中的三維位置。為此,本文提出了一種基于視角統(tǒng)一的優(yōu)化方法。如圖1所示,首先,輸入的深度圖像經(jīng)過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行位姿估計(jì),從中提取旋轉(zhuǎn)變換特征。接著,原始深度圖像被轉(zhuǎn)換為三維點(diǎn)云數(shù)據(jù),并根據(jù)旋轉(zhuǎn)變換特征將點(diǎn)云渲染到目標(biāo)視圖中。最后,經(jīng)過(guò)變換的點(diǎn)云數(shù)據(jù)被還原為深度圖像,在融合從原始視圖提取的特征后被輸入到后續(xù)的三維手姿態(tài)估計(jì)網(wǎng)絡(luò)中。值得注意的是,引入的視角統(tǒng)一損失函數(shù)對(duì)生成的新視角下的深度圖像進(jìn)行監(jiān)督,將視角統(tǒng)一到“正面”視角下,這是因?yàn)樵谌S手姿態(tài)估計(jì)任務(wù)中,“正面”視角下的深度圖像通常能取得更高的精度[4]。通過(guò)視角的統(tǒng)一,能夠積極促進(jìn)后續(xù)的手姿態(tài)估計(jì)網(wǎng)絡(luò),因?yàn)榫W(wǎng)絡(luò)更容易捕捉輸入圖像的共性特征,從而減輕手關(guān)節(jié)自遮擋的影響,提高后續(xù)三維手姿態(tài)估計(jì)的準(zhǔn)確性。
2.2 視角轉(zhuǎn)換模塊
本節(jié)將詳細(xì)介紹提出的視角轉(zhuǎn)換模塊,該模塊的目標(biāo)是生成有益于手姿態(tài)估計(jì)的新視角下的深度圖像。受到文獻(xiàn)[21]的啟發(fā),深度相機(jī)擺放位置不確定,從各種視角采集到的深度圖像可能不適合直接用于手姿態(tài)估計(jì),因此轉(zhuǎn)換視角將有利于提升任務(wù)的精度。
a)旋轉(zhuǎn)變換特征的獲取。為了實(shí)現(xiàn)視角的轉(zhuǎn)換,首先需要以某種方式表示三維空間中的旋轉(zhuǎn)變換,本文選擇最常見(jiàn)、最簡(jiǎn)單的旋轉(zhuǎn)變換表示方式之一的歐拉角作為旋轉(zhuǎn)變換依據(jù)。為了獲得旋轉(zhuǎn)歐拉角,本文引入了一種旋轉(zhuǎn)特征提取網(wǎng)絡(luò),其結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)是在 HRNet[27]的基礎(chǔ)上進(jìn)行改造的,因?yàn)镠RNet的網(wǎng)絡(luò)結(jié)構(gòu)與歐拉角的特性相近。
旋轉(zhuǎn)歐拉角的生效需要先約定旋轉(zhuǎn)軸的順序,例如按照x軸、y軸、z軸的順序進(jìn)行旋轉(zhuǎn)。這種約定會(huì)導(dǎo)致前面的旋轉(zhuǎn)對(duì)后續(xù)旋轉(zhuǎn)產(chǎn)生單向影響,即繞x軸的旋轉(zhuǎn)結(jié)果會(huì)對(duì)后續(xù)繞y軸和z軸的旋轉(zhuǎn)產(chǎn)生影響。與此類(lèi)似,HRNet的特征融合部分采用的下采樣融合操作也具有這種單向影響的特性。這種共性使得HRNet更適合進(jìn)行旋轉(zhuǎn)歐拉角的訓(xùn)練任務(wù)。因此,HRNet的上采樣部分被舍棄,以更好地適應(yīng)這種單向影響性。
b)統(tǒng)一視角下深度圖像的生成。依據(jù)所獲得的旋轉(zhuǎn)歐拉角,可使輸入深度圖像從原始視角轉(zhuǎn)換到“正面”視角。首先,輸入深度圖像中的每一個(gè)像素會(huì)借助采集相機(jī)的內(nèi)參矩陣進(jìn)行轉(zhuǎn)換,生成相機(jī)坐標(biāo)系下的三維點(diǎn)云數(shù)據(jù),令所有數(shù)據(jù)點(diǎn)的位置都以三維坐標(biāo)的形式表示(xc,yc,zc)。然后,利用歐拉角的轉(zhuǎn)換規(guī)則得到三維空間中的旋轉(zhuǎn)矩陣,旋轉(zhuǎn)矩陣描述了點(diǎn)云數(shù)據(jù)在三維空間中的旋轉(zhuǎn)變換。令Rx、Ry、Rz分別代表繞x軸、y軸和z軸的對(duì)應(yīng)旋轉(zhuǎn)矩陣。本文約定外旋順序?yàn)閦 → x → y,所以得到最終的旋轉(zhuǎn)矩陣R為
R=Ry·Rx·Rz(1)
最后,將點(diǎn)云數(shù)據(jù)中的每個(gè)點(diǎn)都通過(guò)旋轉(zhuǎn)矩陣進(jìn)行旋轉(zhuǎn)變換,將每個(gè)點(diǎn)的三維坐標(biāo)向量與旋轉(zhuǎn)矩陣相乘即可得到旋轉(zhuǎn)后的新坐標(biāo)(x′c,y′c,z′c):
所有點(diǎn)云數(shù)據(jù)點(diǎn)都利用旋轉(zhuǎn)矩陣R在三維空間中進(jìn)行旋轉(zhuǎn),因此其整體姿態(tài)不會(huì)改變,使關(guān)節(jié)之間的拓?fù)潢P(guān)系和空間關(guān)系一致,保證了轉(zhuǎn)換視角前后深度圖像中的手姿態(tài)的不變性。當(dāng)網(wǎng)絡(luò)預(yù)估出手關(guān)節(jié)位置后,直接乘上旋轉(zhuǎn)矩陣R的逆矩陣R-1,就還原回了原始視角,并與原始視角下的標(biāo)簽關(guān)節(jié)位置求損失誤差。最后,按照深度圖像的生成原理將旋轉(zhuǎn)后的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換到像素坐標(biāo)系上,生成新的深度圖像。由于這些操作都是簡(jiǎn)單的矩陣運(yùn)算,且可以通過(guò)GPU進(jìn)行加速,所以對(duì)訓(xùn)練效率的影響較小。整個(gè)流程的設(shè)計(jì)旨在確保輸入深度圖像在統(tǒng)一視角下的有效表示,以提高手姿態(tài)估計(jì)模型的性能和魯棒性。
c)基于單深度的三維手勢(shì)姿態(tài)估計(jì)。生成的新視角下的深度圖像可以被應(yīng)用到手姿態(tài)估計(jì)方法中。在本文中,兩個(gè)視角下的深度圖像會(huì)分別經(jīng)過(guò)卷積操作提取特征,并將特征進(jìn)行融合后輸入后續(xù)網(wǎng)絡(luò)。本文選擇了A2J[13]回歸網(wǎng)絡(luò)作為后續(xù)三維手姿態(tài)估計(jì)網(wǎng)絡(luò)的骨干,因?yàn)樗哂泻芨叩倪\(yùn)行效率和有競(jìng)爭(zhēng)力的準(zhǔn)確性。但是,在實(shí)際應(yīng)用中,任何其他基于單深度圖像的三維手姿態(tài)估計(jì)模型都可以被用作后續(xù)手部姿態(tài)估計(jì)網(wǎng)絡(luò)。
2.3 旋轉(zhuǎn)變換特征網(wǎng)絡(luò)的輕量化
在上一節(jié)中提到為了適應(yīng)旋轉(zhuǎn)特征而取消了HRNet的所有上采樣操作,這樣輸入的深度圖像通過(guò)多分辨率的特征提取與融合模塊,并通過(guò)最大池化層和1×1卷積輸出旋轉(zhuǎn)歐拉角。盡管這樣已經(jīng)能夠獲得旋轉(zhuǎn)角度,但在訓(xùn)練過(guò)程中觀察到,雖然提出的視角轉(zhuǎn)換模塊提升了估計(jì)精度,但效率有所下降,這主要是由于HRNet需要大量的計(jì)算。為了輕量化HRNet,本文采用了三個(gè)措施:
a)第一個(gè)輕量化措施是將HRNet的上采樣部分舍棄。該舍棄主要出于兩個(gè)原因:(a)為了模擬2.2節(jié)所提到的旋轉(zhuǎn)單向性影響;(b)為了輕量化整體模型,提高計(jì)算效率。
b)第二個(gè)措施是將HRNet中出現(xiàn)最頻繁的basic block 全部替換為以depthwise 卷積為基礎(chǔ)的多分支卷積組合(depthwise convs,DWConvs)。depthwise卷積是一種輕量級(jí)卷積操作,它在保持模型性能的同時(shí)減小了參數(shù)量和計(jì)算復(fù)雜度,有助于提升模型的輕量化程度。改進(jìn)的 basic block 如圖2的右方灰色區(qū)域所示,其借鑒了MogaNet[28]的思想,對(duì)原本的HRNet中basic block進(jìn)行了重新設(shè)計(jì)。具體而言,首先對(duì)輸入特征進(jìn)行一次 depthwise 卷積操作,然后將卷積后的特征按照 channel 維度進(jìn)行分割。分割后的特征分別形成兩個(gè)八分之一 channel 的部分、一個(gè)四分之一 channel 的部分以及一個(gè)二分之一 channel 的部分。接下來(lái),對(duì)這四個(gè)部分的特征分別進(jìn)行 depthwise 卷積操作,最后將它們按照 channel 維度進(jìn)行融合。
c)第三個(gè)措施是減少HRNet的stage數(shù)量。減少網(wǎng)絡(luò)的深度通常會(huì)明顯降低計(jì)算復(fù)雜度,對(duì)于輕量化模型而言,能帶來(lái)直觀的效果。通過(guò)減少stage數(shù)量,可以在一定程度上減小模型的規(guī)模,同時(shí)確保了模型在三維手姿態(tài)估計(jì)任務(wù)上的性能。
這三個(gè)措施共同作用,使得HRNet在保持三維手姿態(tài)估計(jì)任務(wù)精度的同時(shí),更輕量化、更適用于實(shí)際應(yīng)用場(chǎng)景。這些改進(jìn)的效果將在3.4節(jié)的實(shí)驗(yàn)和結(jié)果分析中進(jìn)一步驗(yàn)證。
2.4 視角統(tǒng)一損失函數(shù)
通過(guò)坐標(biāo)映射和視角轉(zhuǎn)換,已經(jīng)能夠獲得新視角下的深度圖像。然而,為了找到有利于三維手姿態(tài)估計(jì)任務(wù)的新視角仍然需要優(yōu)化模型,使其產(chǎn)生更為有效、有助于提升任務(wù)精度的深度圖像。
為了實(shí)現(xiàn)這一目標(biāo),本文使用兩個(gè)損失函數(shù)來(lái)對(duì)視角轉(zhuǎn)換模塊進(jìn)行監(jiān)督。第一個(gè)損失函數(shù)LJ的計(jì)算公式如式(3)所示,它衡量了平均每個(gè)關(guān)節(jié)之間的位置估計(jì)誤差。
本文還提出了另一個(gè)損失函數(shù)LS,旨在提供對(duì)視角的監(jiān)督作用。受文獻(xiàn)[4]的啟發(fā),“正面”視角下的深度圖像表現(xiàn)出更低的估計(jì)誤差。如圖3所示,展示了多個(gè)視角下手部的點(diǎn)云圖。觀察可以發(fā)現(xiàn),相對(duì)其他視角,在“正面”視角下手的部分占據(jù)的面積最大,更能反映手的姿態(tài)布局信息。這是由于手掌的靈活度較低,占據(jù)整個(gè)手的大部分面積,且手指只能向內(nèi)彎曲。相比之下,其他視角中手部分的面積較小,更容易出現(xiàn)手指之間的遮擋?;谶@種現(xiàn)象,一種直觀的想法是求深度圖像中手部分的凸包面積,并期望凸包面積盡可能大,對(duì)應(yīng)的損失函數(shù)公式為
其中:Areahand為手部分的凸包面積。
但是在后續(xù)實(shí)驗(yàn)中發(fā)現(xiàn)該損失函數(shù)對(duì)網(wǎng)絡(luò)精度的提升效果不明顯,且對(duì)應(yīng)的損失值曲線(xiàn)波動(dòng)較大。從圖3可以看出,當(dāng)手部分占深度圖像的面積盡量大時(shí),其深度值的分布更加均勻,也即更加扁平。利用這一特點(diǎn),本文提出利用手部分深度值的方差作為另一種損失函數(shù):
最終的損失函數(shù)公式設(shè)計(jì)如下:
L=LJ+λLS(6)
其中:LJ是關(guān)節(jié)位置誤差的平均值;LS是用于監(jiān)督視角的損失項(xiàng)。超參數(shù)λ用于調(diào)整兩個(gè)損失項(xiàng)的相對(duì)權(quán)重。本文將λ設(shè)置為0.5。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)現(xiàn)細(xì)節(jié)
本文對(duì)輸入深度圖像的預(yù)處理方法進(jìn)行了詳細(xì)設(shè)計(jì)。首先,從輸入深度圖像中裁剪出手部區(qū)域,然后將其大小調(diào)整為固定的 176×176。深度值經(jīng)過(guò)歸一化處理,限定在 [-1, 1] 。為了進(jìn)行數(shù)據(jù)增強(qiáng),實(shí)驗(yàn)引入了幾何變換,包括平面內(nèi)的隨機(jī)旋轉(zhuǎn)、三維隨機(jī)縮放和三維隨機(jī)平移。
處理后的深度圖首先輸入到圖2所示的旋轉(zhuǎn)變換特征網(wǎng)絡(luò)中進(jìn)行旋轉(zhuǎn)特征提取,并輸出歐拉角數(shù)值,歐拉角再轉(zhuǎn)換為旋轉(zhuǎn)矩陣;然后輸入的深度圖通過(guò)相機(jī)內(nèi)參矩陣的逆矩陣生成點(diǎn)云數(shù)據(jù),所有點(diǎn)云點(diǎn)的三維坐標(biāo)值點(diǎn)乘旋轉(zhuǎn)矩陣實(shí)現(xiàn)三維空間中的旋轉(zhuǎn),旋轉(zhuǎn)后的點(diǎn)云數(shù)據(jù)一方面通過(guò)視角統(tǒng)一損失函數(shù)監(jiān)督轉(zhuǎn)換后視角為“正面”視角,一方面再利用內(nèi)參矩陣將點(diǎn)云數(shù)據(jù)“映射”到XOY平面生成“正面”視角下的深度圖;原始深度圖和生成深度圖分別輸入到下游手部姿態(tài)回歸網(wǎng)絡(luò)中通過(guò)編碼器進(jìn)行姿態(tài)提取,并通過(guò)求和的方式融合局部特征,其中“正面”視角下的特征比例為0.8,原始視角下的比例為0.2,融合后的特征最后輸入到解碼器得到三維手關(guān)節(jié)位置。
實(shí)驗(yàn)在一臺(tái)配置為Intel i5-12400、16 GB內(nèi)存、NVIDIA RTX3070顯卡的機(jī)器上進(jìn)行模型的訓(xùn)練和評(píng)估。模型基于PyTorch實(shí)現(xiàn),使用Adam優(yōu)化器,batch_size設(shè)置為20,初始學(xué)習(xí)率設(shè)置為5E-4,權(quán)重衰減設(shè)置為1E-6。模型是端到端可訓(xùn)練的,通過(guò)最小化損失函數(shù)來(lái)進(jìn)行訓(xùn)練,從而讓模型更好地學(xué)習(xí)三維手姿態(tài)。
3.2 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
a)ICVL[23]數(shù)據(jù)集。ICVL數(shù)據(jù)集包含來(lái)自10個(gè)不同受試者的手姿態(tài)數(shù)據(jù),一共包括331 000個(gè)用于訓(xùn)練的深度幀和16 000個(gè)用于測(cè)試的深度幀,每幀對(duì)應(yīng)標(biāo)注了16個(gè)手關(guān)節(jié)的真實(shí)值坐標(biāo)。
b)MSRA[7]數(shù)據(jù)集。MSRA數(shù)據(jù)集包含從9個(gè)受試者采集的17個(gè)手勢(shì)的姿態(tài)數(shù)據(jù),總共包括76 000個(gè)深度幀,每幀都標(biāo)注了21個(gè)手關(guān)節(jié)的真實(shí)坐標(biāo)。實(shí)驗(yàn)中選擇其中8個(gè)受試者的數(shù)據(jù)進(jìn)行訓(xùn)練,并使用剩下一個(gè)受試者的數(shù)據(jù)進(jìn)行測(cè)試。
c)NYU[24]數(shù)據(jù)集。該數(shù)據(jù)集包括72 000個(gè)用于訓(xùn)練的深度幀和8 000個(gè)用于測(cè)試的深度幀。每個(gè)深度幀都標(biāo)注了36個(gè)手關(guān)節(jié),實(shí)際實(shí)驗(yàn)中僅使用了其中14個(gè)手關(guān)節(jié)的子集。
d)評(píng)估指標(biāo)。實(shí)驗(yàn)使用平均每關(guān)節(jié)位置誤差和成功率這兩個(gè)主要的評(píng)估指標(biāo)來(lái)度量所提出的方法在這些數(shù)據(jù)集上的性能。其中平均距離是計(jì)算所有關(guān)節(jié)的估計(jì)坐標(biāo)和真實(shí)值坐標(biāo)之間的平均歐幾里德距離,該指標(biāo)衡量了估計(jì)值與真實(shí)值之間的整體差異;而成功率是計(jì)算滿(mǎn)足平均距離在某個(gè)距離閾值范圍內(nèi)幀的數(shù)量占總幀數(shù)的比例。成功率指標(biāo)衡量了模型在不同距離閾值下的性能,反映了對(duì)于不同精度要求的適應(yīng)能力。
3.3 對(duì)比實(shí)驗(yàn)
本節(jié)將所提方法與目前主流的方法進(jìn)行了比較,這些方法包括將深度圖像轉(zhuǎn)換為點(diǎn)云進(jìn)行姿態(tài)估計(jì)的方法HandPointNet[29]、NARHT[19]、HandFoldingNet[20]和Virtual View Selection[25];直接使用深度圖像進(jìn)行姿態(tài)估計(jì)的方法DeepPrior++[11]、A2J[13]、Dense Reg[17]和DePOTR[30];改進(jìn)熱圖信息聚合過(guò)程的方法AWR[26];多任務(wù)多分支手姿態(tài)估計(jì)方法CrossInfoNet[15]和TriHorn-Net[26];以及深度圖像體素化進(jìn)行手姿態(tài)估計(jì)的方法V2VPoseNet[14]。實(shí)驗(yàn)在ICVL、NYU和MSRA數(shù)據(jù)集上評(píng)估了方法的性能,結(jié)果如表1所示,表中的數(shù)據(jù)是各種方法在三個(gè)數(shù)據(jù)集上根據(jù)平均每關(guān)節(jié)位置誤差(mm)評(píng)估的結(jié)果。此外,由于本文方法只使用一張深度圖像用于網(wǎng)絡(luò)訓(xùn)練,所以表1中有關(guān)Virtual View Selection[25]的數(shù)據(jù)是從25個(gè)候選視角中選擇1個(gè)視角下的深度圖像用于網(wǎng)絡(luò)訓(xùn)練結(jié)果,而不是原文中將3個(gè)視角下的深度圖像都用于網(wǎng)絡(luò)訓(xùn)練的結(jié)果。圖4、5分別顯示了每個(gè)關(guān)節(jié)的位置平均估計(jì)誤差,以及在一定誤差閾值下各方法的估計(jì)成功率。從表1可以發(fā)現(xiàn),所提方法在ICVL和MSRA上取得了優(yōu)于其他方法的結(jié)果,并在NYU上也取得了較高的精度。同時(shí),本文在相同硬件環(huán)境且batch_size被設(shè)置為2時(shí),和最新的方法比較了幀率,其中virtual view selection[25]的幀率為16.5,TriHorn-Net[26]的幀率為43.99,而本文方法取得了65.5的幀率(batch_size設(shè)置為20時(shí),幀率為159.39)。圖6展示了本文方法與其他方法之間的定性結(jié)果比較,從圖中可以看到本文方法僅出現(xiàn)對(duì)部分關(guān)節(jié)點(diǎn)的估計(jì)偏向手輪廓的邊緣,而其他方法則出現(xiàn)了更嚴(yán)重的偏離手輪廓的情況??梢钥闯?,本文的方法整體估計(jì)效果更好。
3.4 消融實(shí)驗(yàn)
a)視角統(tǒng)一方法(UVP)的作用。為了驗(yàn)證所提方法對(duì)現(xiàn)有模型估計(jì)精度的提升,并證明將深度圖像轉(zhuǎn)換為“正面”視角的有效性,本文選擇了3個(gè)基于單深度圖像的手姿態(tài)估計(jì)模型,并將視角統(tǒng)一模型嵌入這些模型中,以評(píng)估搭載了模型和未搭載模型的精度差異。該消融實(shí)驗(yàn)在ICVL數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果如表2所示。從表中可以明顯看出,搭載了視角統(tǒng)一模型的網(wǎng)絡(luò)表現(xiàn)出更高的精度,這表明所提方法在提升估計(jì)性能方面是有效的,并且將深度圖像轉(zhuǎn)換為“正面”視角確實(shí)有助于提高模型的精度。這個(gè)結(jié)果進(jìn)一步證明了所提方法的實(shí)用性和泛化性,為單深度圖像手姿態(tài)估計(jì)任務(wù)提供了一種有效的性能增強(qiáng)手段。
b)輕量化的影響。在前述章節(jié)中詳細(xì)討論了取消上采樣、使用多分支depthwise卷積組合(DWConvs)以及減少stage的數(shù)量三種輕量化策略。為了深入了解這些改進(jìn)對(duì)模型性能的影響,本文進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。
首先,本文評(píng)估了取消上采樣的影響。通過(guò)對(duì)擁有上采樣和去掉上采樣的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并利用每關(guān)節(jié)位置誤差來(lái)評(píng)估改進(jìn)效果。訓(xùn)練結(jié)果如表3所示,HRNet和HRNet-nUp分別代表取消上采樣前和取消后的模型??梢钥吹饺∠喜蓸雍?,HRNet-nUp對(duì)應(yīng)的每關(guān)節(jié)位置誤差減小,這說(shuō)明去掉上采樣有助于模擬歐拉角的單向作用性,使網(wǎng)絡(luò)更適合輸出特性進(jìn)行訓(xùn)練,從而提高了訓(xùn)練效果。
接下來(lái),本文對(duì)比了替換basic block的差異。將傳統(tǒng) HRNet的basic block替換為DWConvs,并分別對(duì)替換前后的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,同樣使用兩個(gè)指標(biāo)來(lái)衡量性能,最終結(jié)果如表3所示。其中HRNet-nUp-DWConvs代表取消上采樣和替換basic block的模型,可以發(fā)現(xiàn)替換后的模型相比僅取消上采樣的模型,精度得到進(jìn)一步的提升,且參數(shù)量明顯減少。這是由于basic block只是簡(jiǎn)單地使用普通卷積操作,而depthwise卷積相比普通卷積計(jì)算量更少,且多分支depthwise卷積能夠更多地關(guān)注于局部的特征融合。這表明DWConvs的應(yīng)用在輕量化網(wǎng)絡(luò)結(jié)構(gòu)、提高泛用性方面具有積極的影響。
由于本文僅需網(wǎng)絡(luò)訓(xùn)練提取輸入數(shù)據(jù)的一種特征(旋轉(zhuǎn)變換數(shù)值),而原版HRNet[27]已被用于完成關(guān)鍵點(diǎn)檢測(cè)。此外,由于輸入深度圖像分辨率較小,不適合多次下采樣操作。因此,本文進(jìn)行了實(shí)驗(yàn),以評(píng)估不同stage數(shù)量對(duì)訓(xùn)練效果的影響。實(shí)驗(yàn)結(jié)果如表3所示,表3中stage列代表stage數(shù)量的選取,其中1-4-3代表原版HRNet的設(shè)置,即stage2數(shù)量為1,stage3數(shù)量為4,stage4 數(shù)量為3。其他stage數(shù)量的模型名稱(chēng)含義與此類(lèi)似。從表中可以看出,當(dāng)stage2數(shù)量為1且stage3數(shù)量為3時(shí)(stage:1-3),取得最佳的訓(xùn)練效果。這是因?yàn)闅W拉角有三個(gè)分量數(shù)據(jù),所以三個(gè)分支的融合更貼合歐拉角的特性,從而提高了網(wǎng)絡(luò)的訓(xùn)練效果。
所有的輕量化策略生效后,參數(shù)量從28.8 M顯著降低到1.5 M,并且在提高效率的同時(shí)還取得了最低的誤差,這說(shuō)明輕量化策略是有效的。
c)視角統(tǒng)一損失函數(shù)的作用與選擇。為了更加有力地驗(yàn)證將輸入深度圖像統(tǒng)一為“正面”視角深度圖像對(duì)估計(jì)的積極影響,本文進(jìn)行了針對(duì)性的消融實(shí)驗(yàn),分別比較了未搭載損失函數(shù)監(jiān)督的模型和搭載了視角統(tǒng)一損失函數(shù)的模型的性能。實(shí)驗(yàn)結(jié)果如表3所示,HRNet-nUp-DWConvs-nLS代表取消上采樣、使用DWConvs且不使用任何視角統(tǒng)一損失函數(shù)時(shí)的模型,其stage數(shù)量配置為stage2數(shù)量為1,stage3數(shù)量為3(stage:1-3),與相同stage數(shù)量配置的模型HRNet-nUp-DWConvs相比,明顯可見(jiàn)搭載了以深度值的方差作為視角統(tǒng)一損失函數(shù)進(jìn)行監(jiān)督的模型取得了更高的精度。同時(shí),本文還通過(guò)實(shí)驗(yàn)比較了兩種視角統(tǒng)一損失函數(shù)之間的差距,結(jié)果如表3所示。其中HRNet-nUp-DWConvs-LS_t為使用凸包面積作為損失函數(shù)的模型,與相同stage數(shù)量配置的模型HRNet-nUp-DWConvs相比,顯然使用深度值的方差作為損失函數(shù)更加有效,本文猜測(cè)這是因?yàn)榉讲罡菀浊髮?dǎo),對(duì)梯度變化更敏感??偟膩?lái)說(shuō),實(shí)驗(yàn)結(jié)果更有力地證明了選擇“正面”視角,并在模型中使用相應(yīng)的損失函數(shù)進(jìn)行監(jiān)督,有助于提高訓(xùn)練效果,使模型更好地學(xué)到有利于手姿態(tài)估計(jì)的特征。
4 結(jié)束語(yǔ)
本文提出了一種稱(chēng)為基于統(tǒng)一視角(UVP)的優(yōu)化方法,通過(guò)將非“正面”視角下的輸入深度圖像轉(zhuǎn)換到“正面”視角,優(yōu)化提升手姿態(tài)估計(jì)任務(wù)的性能。首先,提出了一個(gè)視角轉(zhuǎn)換模塊,該模塊能夠?qū)崿F(xiàn)對(duì)輸入深度圖像視角的轉(zhuǎn)換。接著,通過(guò)專(zhuān)門(mén)設(shè)計(jì)的損失函數(shù)對(duì)該模塊進(jìn)行監(jiān)督,確保了轉(zhuǎn)換后的視角能夠被統(tǒng)一到“正面”視角。經(jīng)過(guò)實(shí)驗(yàn)證明,將輸入視角統(tǒng)一到“正面”視角下確實(shí)提升了手姿態(tài)估計(jì)任務(wù)的準(zhǔn)確性。為了保證方法的效率,還采取了三種輕量化策略,有效地減少了模型的參數(shù)量。通過(guò)將所提模型應(yīng)用于不同的基于深度圖像的手姿態(tài)估計(jì)網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn),驗(yàn)證了所提方法的泛用性。在后續(xù)工作中,從表2的實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)不同模型搭載UVP后估計(jì)效果表現(xiàn)出不同程度的提升,這可能是因?yàn)椴煌木W(wǎng)絡(luò)結(jié)構(gòu)對(duì)視角統(tǒng)一后的特征發(fā)掘程度不同。因此,研究這種原因,并設(shè)計(jì)出更適合視角統(tǒng)一后進(jìn)行手部姿態(tài)回歸的網(wǎng)絡(luò)模塊,將能夠進(jìn)一步提升手關(guān)節(jié)估計(jì)的精度。
參考文獻(xiàn):
[1]Doosti B. Hand pose estimation: a survey [EB/OL]. (2019-06-02). https://arxiv.org/abs/1903.01013.
[2]Erol A, Bebis G, Nicolescu M,et al. Vision-based hand pose estimation: a review[J]. Computer Vision and Image Understanding, 2007, 108(1-2): 52-73.
[3]Chen Weiya, Yu Chenchen, Tu Chenyu, et al. A survey on hand pose estimation with wearable sensors and computer-vision-based methods [J]. Sensors, 2020, 20(4): 1074.
[4]Yuan Shanxin, Garcia-Hernando G, Stenger B, et al.Depth-based 3D hand pose estimation: from current achievements to future goals[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2636-2645.
[5]鄒序焱, 何漢武, 吳悅明. 基于三級(jí)神經(jīng)網(wǎng)絡(luò)的魯棒3D手姿估計(jì)[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(3): 925-930. (Zou Xuyan, He Hanwu, Wu Yueming. Robust 3D hand pose estimation based on three-level cascade neural network[J]. Application Research of Computers, 2022, 39(3): 925-930.)
[6]Xu Chi, Cheng Li. Efficient hand pose estimation from a single depth image [C]// Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2013: 3456-3462.
[7]Sun Xiao, Wei Yichen, Shuang Liang, et al.Cascaded hand pose regression [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 824-832.
[8]張宏源, 袁家政, 劉宏哲, 等. 基于偽三維卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)姿態(tài)估計(jì) [J]. 計(jì)算機(jī)應(yīng)用研究, 2020, 37(4): 1230-1233, 1243. (Zhang Hongyuan, Yuan Jiazheng, Liu Hongzhe, et al. Hand pose estimation using pseudo-3D convolutional neural network[J]. Application Research of Computers, 2020, 37(4): 1230-1233, 1243.)
[9]Li Rui, Liu Zhenyu, Tan Jianrong. A survey on 3D hand pose estimation: cameras, methods, and datasets[J]. Pattern Recognition, 2019, 93: 251-272.
[10]馬利, 金珊杉, 牛斌. 基于改進(jìn)PointNet網(wǎng)絡(luò)的三維手姿估計(jì)方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2020, 37(10): 3188-3192. (Ma Li, Jin Shanshan, Niu Bin. 3D hand pose estimation method based on improved PointNet[J]. Application Research of Computers, 2020, 37(10): 3188-3192.)
[11]Oberweger M, Lepetit V. DeepPrior++: improving fast and accurate 3D hand pose estimation[C]// Proc of IEEE International Confe-rence on Computer Vision Workshops. Piscataway, NJ: IEEE Press, 2017: 585-594.
[12]Zheng Xiaozheng, Wen Chao, Xue Zhou, et al.HaMuCo: hand pose estimation via multiview collaborative self-supervised learning[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 20706-20716.
[13]Xiong Fu, Zhang Boshen, Xiao Yang, et al. A2J: anchor-to-joint regression network for 3d articulated pose estimation from a single depth image[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 793-802.
[14]Moon G, Chang J Y, Lee K M. V2V-PoseNet: voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscata-way, NJ: IEEE Press, 2018: 5079-5088.
[15]Du Kuo, Lin Xiangbo, Sun Yi,et al. CrossInfoNet: multi-task information sharing based hand pose estimation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 9896-9905.
[16]GeLiuhao, Ren Zhou, Li Yuncheng, et al. 3D hand shape and pose estimation from a single RGB image[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 10833-10842.
[17]Wan Chengde, Probst T, Van Gool L,et al. Dense 3D regression for hand pose estimation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5147-5156.
[18]Deng Xiaoming, Yang Shuo, Zhang Yinda, et al.Hand3D: hand pose estimation using 3D neural network [EB/OL]. (2017-04-07). https://arxiv.org/abs/1704.02224.
[19]Huang Lin, Tan Jianchao, Liu Ji,et al. Hand-transformer: non-autoregressive structured modeling for 3D hand pose estimation[C]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer-Verlag, 2020: 17-33.
[20]Cheng Wencan, Park J H, Ko J H. HandFoldingNet: a 3D hand pose estimation network using multiscale-feature guided folding of a 2D hand skeleton[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 11240-11249.
[21]Ge Liuhao, Liang Hui, Yuan Junsong,et al. Robust 3D hand pose estimation in single depth images: from single-view CNN to multi-view CNNs [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 3593-3601.
[22]Chen Liangjian, Lin S Y, Xie Yusheng, et al. MVHM: a large-scale multi-view hand mesh benchmark for accurate 3D hand pose estimation [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2021: 836-845.
[23]Tang Danhang, Jin Chang H, Tejani A,et al. Latent regression fo-rest: structured estimation of 3D articulated hand posture[C]// Proc of IEEE conference on computer vision and pattern recognition. Piscataway, NJ: IEEE Press, 2014: 3786-3793.
[24]Tompson J, Stein M, LeCun Y,et al. Real-time continuous pose recovery of human hands using convolutional networks[J]. ACM Trans on Graphics, 2014, 33(5): 1-10.
[25]Cheng Jian, Wan Yanguang, Zuo Dexin,et al. Efficient virtual view selection for 3D hand pose estimation[C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 419-426.
[26]Rezaei M,Rastgoo R, Athitsos V. TriHorn-Net: a model for accurate depth-based 3D hand pose estimation[J]. Expert Systems with Applications, 2023, 223: 119922.
[27]Sun Ke, Xiao Bin, Liu Dong,et al. Deep high-resolution representation learning for human pose estimation[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 5693-5703.
[28]Li Siyuan, Wang Zedong, Liu Zicheng, et al.MogaNet: multi-order gated aggregation network [EB/OL]. (2024-02-16). https://arxiv.org/abs/2211.03295.
[29]Ge Liuhao, Cai Yujun, Weng Junwu,et al. Hand PointNet: 3D hand pose estimation using point sets[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8417-8426.
[30]Kanis J, Gruber I,Krňoul Z, et al. MuTr: multi-stage transformer for hand pose estimation from full-scene depth image [J]. Sensors, 2023, 23(12): 5509.
[31]Ge Liuhao, Liang Hui, Yuan Junsong, et al. 3D convolutional neural networks for efficient and robust hand pose estimation from single depth images[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1991-2000.
[32]Huang Weiting, Ren Pengfei, Wang Jingyu,et al. AWR: adaptive weighting regression for 3D hand pose estimation[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 11061-11068.