王麗萍,汪 成,邱飛岳,2,章國(guó)道
1(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州310023)2(浙江工業(yè)大學(xué) 教育科學(xué)與技術(shù)學(xué)院,杭州 310023)
E-mail:690589058@qq.com
手勢(shì)姿態(tài)估計(jì)是指從輸入的圖像或者視頻中精確定位手部關(guān)節(jié)點(diǎn)位置,并根據(jù)關(guān)節(jié)點(diǎn)之間的位置關(guān)系去推斷出相應(yīng)的手勢(shì)姿態(tài).近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)[1]推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,手勢(shì)姿態(tài)估計(jì)技術(shù)引起了研究者廣泛關(guān)注.
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和圖像采集硬件設(shè)備的提升,基于傳統(tǒng)機(jī)器學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)模型逐漸被基于深度學(xué)習(xí)的估計(jì)模型所取代,國(guó)內(nèi)外眾多研究機(jī)構(gòu)相繼開展了針對(duì)該領(lǐng)域的學(xué)習(xí)研究,有效推動(dòng)了手勢(shì)姿態(tài)估計(jì)技術(shù)的發(fā)展.手勢(shì)姿態(tài)估計(jì)大賽“Hands 2017”[2]和“Hands2019”[3]吸引了國(guó)內(nèi)外眾多研究者們參與,綜合分析該項(xiàng)賽事參與者提出的解決方案,雖然不同的方法在計(jì)算性能和手勢(shì)姿態(tài)估計(jì)精度上各有差異,但所有參賽者都是使用深度學(xué)習(xí)技術(shù)來(lái)解決手勢(shì)姿態(tài)估計(jì)問題,基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)已經(jīng)成為該領(lǐng)域主流發(fā)展趨勢(shì).
除此之外,潛在的市場(chǎng)需求也是促進(jìn)手勢(shì)姿態(tài)技術(shù)快速發(fā)展的原因之一.手勢(shì)姿態(tài)估計(jì)可廣泛應(yīng)用于虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中,手勢(shì)作為虛擬現(xiàn)實(shí)技術(shù)中最重要的交互方式之一,可以為用戶帶來(lái)更好的沉浸式體驗(yàn);手勢(shì)姿態(tài)估計(jì)還可以應(yīng)用于手勢(shì)識(shí)別、機(jī)器人抓取、智能手機(jī)手勢(shì)交互、智能穿戴等場(chǎng)景.由此可見,手勢(shì)姿態(tài)估計(jì)技術(shù)將給人類的生活方式帶來(lái)極大的改變,手勢(shì)姿態(tài)估計(jì)技術(shù)已成為計(jì)算機(jī)視覺領(lǐng)域中重點(diǎn)研究課題,對(duì)手勢(shì)姿態(tài)估計(jì)的進(jìn)一步研究具有非常重要的意義.
手勢(shì)姿態(tài)估計(jì)技術(shù)發(fā)展至今已取得大量研究成果,有關(guān)手勢(shì)姿態(tài)估計(jì)的研究文獻(xiàn)也相繼由國(guó)內(nèi)外研究者提出.Erol等人[4]第一次對(duì)手勢(shì)姿態(tài)估計(jì)做了詳細(xì)的綜述,對(duì)2007年之前的手勢(shì)姿態(tài)估計(jì)方法進(jìn)行了分析比較,涉及到手勢(shì)的建模、面臨的問題挑戰(zhàn)、各方法的優(yōu)缺點(diǎn),并且對(duì)未來(lái)的研究方向進(jìn)行了展望,但該文獻(xiàn)所比較的33種方法都是使用傳統(tǒng)機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)手勢(shì)姿態(tài)估計(jì),其中只有4種方法使用了深度圖像來(lái)作為數(shù)據(jù)源,且沒有講述數(shù)據(jù)集、評(píng)價(jià)標(biāo)準(zhǔn)、深度圖像、深度學(xué)習(xí)等現(xiàn)如今手勢(shì)姿態(tài)估計(jì)主流研究話題;Supancic等人[5]以相同的評(píng)價(jià)指標(biāo)對(duì)13種手勢(shì)姿態(tài)估計(jì)方法進(jìn)行了詳細(xì)的對(duì)比,強(qiáng)調(diào)了數(shù)據(jù)集的重要性并創(chuàng)建了一個(gè)新的數(shù)據(jù)集;Emad[6]對(duì)2016年前基于深度圖像的手勢(shì)姿態(tài)估計(jì)方法做了綜述,該文獻(xiàn)也指出具有標(biāo)記的數(shù)據(jù)集對(duì)基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)的重要性;從2016年-2020年,手勢(shì)姿態(tài)估計(jì)技術(shù)日新月異,基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)方法相繼被提出,Li等人[7]對(duì)手勢(shì)姿態(tài)估計(jì)圖像采集設(shè)備、方法模型、數(shù)據(jù)集的創(chuàng)建與標(biāo)記以及評(píng)價(jià)指標(biāo)進(jìn)行綜述,重點(diǎn)指出了不同的圖像采集設(shè)備之間的差異對(duì)手勢(shì)姿態(tài)估計(jì)結(jié)果的影響.除了以上4篇文獻(xiàn),文獻(xiàn)[8-12]也對(duì)手勢(shì)姿態(tài)估計(jì)的某一方面進(jìn)行了總結(jié)概要,如文獻(xiàn)[8]重點(diǎn)講述了手勢(shì)姿態(tài)估計(jì)數(shù)據(jù)集創(chuàng)建及標(biāo)記方法,作者提出半自動(dòng)標(biāo)記方法,并創(chuàng)建出了新的手勢(shì)姿態(tài)估計(jì)數(shù)據(jù)集;文獻(xiàn)[9]提出了3項(xiàng)手勢(shì)姿態(tài)估計(jì)挑戰(zhàn)任務(wù);文獻(xiàn)[10]對(duì)2017年之前的數(shù)據(jù)集進(jìn)行了評(píng)估對(duì)比,指出了以往數(shù)據(jù)集的不足之處,創(chuàng)建了數(shù)據(jù)量大、標(biāo)記精度高、手勢(shì)更為豐富的數(shù)據(jù)集“Bighand 2.2M”;文獻(xiàn)[11]對(duì)2017手勢(shì)姿態(tài)估計(jì)大賽排名前11的方法進(jìn)行的綜述比較,指出了2017年前高水準(zhǔn)的手勢(shì)姿態(tài)估計(jì)技術(shù)研究現(xiàn)狀,并對(duì)未來(lái)手勢(shì)姿態(tài)估計(jì)的發(fā)展做出了展望.
以上所提到的文獻(xiàn)是迄今為止手勢(shì)姿態(tài)估計(jì)領(lǐng)域較為全面的研究綜述,但這些文獻(xiàn)存在一些共同的不足:1)沒有講述手勢(shì)姿態(tài)估計(jì)發(fā)展歷程;2)對(duì)手勢(shì)姿態(tài)估計(jì)方法分類不詳細(xì);3)對(duì)手勢(shì)姿態(tài)估計(jì)種類說(shuō)明不夠明確;4)沒有涉及最新提出的新方法,如基于點(diǎn)云數(shù)據(jù)和體素?cái)?shù)據(jù)方法.針對(duì)以上存在的問題,本文在查閱了大量手勢(shì)姿態(tài)估計(jì)相關(guān)文獻(xiàn)基礎(chǔ)上,對(duì)手勢(shì)姿態(tài)估計(jì)方法與研究現(xiàn)狀進(jìn)行了分類、梳理和總結(jié)后得出此文,旨在提供一份更為全面、詳細(xì)的手勢(shì)姿態(tài)估計(jì)研究綜述.
本文結(jié)構(gòu)如下:
本文第2節(jié)介紹相關(guān)工作,包括手勢(shì)姿態(tài)估計(jì)發(fā)展歷程、手勢(shì)姿態(tài)估計(jì)任務(wù)、手勢(shì)建模、手勢(shì)姿態(tài)估計(jì)分類和方法類型;第3節(jié)介紹手勢(shì)姿態(tài)估計(jì)常用數(shù)據(jù)集、數(shù)據(jù)集標(biāo)記方式和手勢(shì)姿態(tài)估計(jì)方法評(píng)價(jià)指標(biāo);第4節(jié)對(duì)基于深度圖像的手勢(shì)姿態(tài)估計(jì)方法進(jìn)行詳細(xì)分類與總結(jié);第5節(jié)總結(jié)本文內(nèi)容并展望了手勢(shì)姿態(tài)估計(jì)未來(lái)的發(fā)展趨勢(shì).
手勢(shì)姿態(tài)估計(jì)技術(shù)的發(fā)展經(jīng)歷了3個(gè)時(shí)期:基于輔助設(shè)備的手勢(shì)姿態(tài)估計(jì)、基于傳統(tǒng)機(jī)器學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)和基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì),如圖1所示.
圖1 手勢(shì)姿態(tài)估計(jì)發(fā)展歷程圖Fig.1 Development history of hand pose estimation
1)基于輔助設(shè)備的手勢(shì)姿態(tài)估計(jì).該階段也稱為非視覺手勢(shì)姿態(tài)估計(jì)時(shí)期,利用硬件傳感器設(shè)備直接獲取手部關(guān)節(jié)點(diǎn)位置信息.其中較為經(jīng)典解決方案為Dewaele等人[13]提出的數(shù)據(jù)手套方法,使用者穿戴上裝有傳感器設(shè)備的數(shù)據(jù)手套,通過手套中的傳感器直接獲取手部關(guān)節(jié)點(diǎn)的坐標(biāo)位置,然后根據(jù)關(guān)節(jié)點(diǎn)的空間位置,做出相應(yīng)的手勢(shì)姿態(tài)估計(jì);Wang等人[14]使用顏色手套來(lái)進(jìn)行手勢(shì)姿態(tài)估計(jì),使用者穿戴上特制顏色手套來(lái)捕獲手部關(guān)節(jié)的運(yùn)動(dòng)信息,利用最近顏色相鄰法找出顏色手套中每種顏色所在的位置,從而定位手部關(guān)節(jié)肢體坐標(biāo)位置.基于輔助設(shè)備的手勢(shì)姿態(tài)估計(jì)具有一定優(yōu)點(diǎn),如具有良好的魯棒性和穩(wěn)定性,且不會(huì)受到光照、背景、遮擋物等環(huán)境因素影響,但昂貴的設(shè)備價(jià)格、繁瑣的操作步驟、頻繁的維護(hù)校準(zhǔn)過程、不自然的處理方式導(dǎo)致基于輔助設(shè)備的手勢(shì)姿態(tài)估計(jì)技術(shù)在實(shí)際應(yīng)用中并沒有得到很好地發(fā)展[15].
2)基于傳統(tǒng)機(jī)器學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)[16-20].該階段也稱為基于計(jì)算機(jī)視覺的手勢(shì)姿態(tài)估計(jì)時(shí)期,利用手部圖像解決手勢(shì)姿態(tài)估計(jì)問題.在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,研究者主要使用傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行手勢(shì)姿態(tài)估計(jì)相關(guān)的工作,在這一階段傳統(tǒng)機(jī)器學(xué)習(xí)主要關(guān)注對(duì)圖像的特征提取,包括顏色、紋理、方向、輪廓等.經(jīng)典的特征提取算子有主成分分析(Principal Component Analysis,PCA)、局部二值模式(Local Binary Patterns,LBP)、線性判別分析(Linear Discriminant Analysis,LDA)、基于尺度不變的特征(Scale Invariant Feature Transform,SIFT)和方向梯度直方圖(Histogram of Oriented Gradient,HOG)等.獲得了穩(wěn)定的手部特征后,再使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行分類和回歸,常用的方法有決策樹、隨機(jī)森林和支持向量機(jī)等.
3)基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì).隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)大大顛覆了傳統(tǒng)的計(jì)算機(jī)視覺領(lǐng)域,基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)方法應(yīng)運(yùn)而生.文獻(xiàn)[21]以深度圖像作為輸入數(shù)據(jù)源,通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出手部關(guān)節(jié)點(diǎn)的三維坐標(biāo);文獻(xiàn)[22]利用深度圖的二維和三維特性,提出了一種簡(jiǎn)單有效的3D手勢(shì)姿態(tài)估計(jì),將姿態(tài)參數(shù)分解為關(guān)節(jié)點(diǎn)二維熱圖、三維熱圖和三維方向矢量場(chǎng),通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多任務(wù)的端到端訓(xùn)練,以像素局部投票機(jī)制進(jìn)行3D手勢(shì)姿態(tài)估計(jì);文獻(xiàn)[23]將體素化后的3D數(shù)據(jù)作為3DCNN網(wǎng)絡(luò)的輸入,預(yù)測(cè)輸出生成的體素模型中每個(gè)體素網(wǎng)格是關(guān)節(jié)點(diǎn)的可能性;文獻(xiàn)[24]首次提出使用點(diǎn)云數(shù)據(jù)來(lái)解決手勢(shì)姿態(tài)估計(jì)問題,該方法首先利用深度相機(jī)參數(shù)將深度圖像轉(zhuǎn)化為點(diǎn)云數(shù)據(jù),再將標(biāo)準(zhǔn)化的點(diǎn)云數(shù)據(jù)輸入到點(diǎn)云特征提取神經(jīng)網(wǎng)絡(luò)[25,26]提取手部點(diǎn)云數(shù)據(jù)特征,進(jìn)而回歸出手部關(guān)節(jié)點(diǎn)位置坐標(biāo).將深度學(xué)習(xí)技術(shù)引入到手勢(shì)姿態(tài)估計(jì)任務(wù)中,無(wú)論是在預(yù)測(cè)精度上,還是在處理速度上,基于深度學(xué)習(xí)手勢(shì)姿態(tài)估計(jì)方法都比傳統(tǒng)手勢(shì)姿態(tài)估計(jì)方法具有明顯的優(yōu)勢(shì),基于深度神經(jīng)網(wǎng)絡(luò)的手勢(shì)姿態(tài)估計(jì)已然成為了主流研究趨勢(shì).
手勢(shì)姿態(tài)估計(jì)的任務(wù)是從給定的手部圖像中提取出一組預(yù)定義的手部關(guān)節(jié)點(diǎn)位置,目標(biāo)關(guān)節(jié)點(diǎn)的選擇一般是通過參考真實(shí)手部關(guān)節(jié)點(diǎn)而設(shè)定的.根據(jù)建模方式的不同,關(guān)節(jié)點(diǎn)的個(gè)數(shù)往往也不同,常見的手部模型關(guān)節(jié)點(diǎn)個(gè)數(shù)為14、16、21等.在手勢(shì)姿態(tài)估計(jì)領(lǐng)域,手部模型關(guān)節(jié)點(diǎn)的個(gè)數(shù)并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),在大多數(shù)手勢(shì)姿態(tài)估計(jì)相關(guān)的論文和手勢(shì)姿態(tài)估計(jì)常用數(shù)據(jù)集中,往往采用21關(guān)節(jié)點(diǎn)的手部模型[4,27,28],如圖2所示.
圖2 21關(guān)節(jié)點(diǎn)手部模型圖Fig.2 21 joints hand model
本小節(jié)我們將對(duì)目前基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)種類進(jìn)行說(shuō)明.從不同的角度以不同的分類策略,可將手勢(shì)姿態(tài)估計(jì)分為以下幾種類型:
2.3.1 2D/3D手勢(shì)姿態(tài)估計(jì)
根據(jù)輸出關(guān)節(jié)點(diǎn)所處空間的維度,可將手勢(shì)姿態(tài)估計(jì)分為2D手勢(shì)姿態(tài)估計(jì)和3D手勢(shì)姿態(tài)估計(jì).
2D手勢(shì)姿態(tài)估計(jì)指的是在2D圖像平面上顯示關(guān)節(jié)點(diǎn)位置,關(guān)節(jié)點(diǎn)的坐標(biāo)空間為平面(x,y),如圖3所示;3D手勢(shì)姿態(tài)估計(jì)指的是在3D空間里顯示關(guān)節(jié)點(diǎn)位置,關(guān)節(jié)點(diǎn)的坐標(biāo)空間為(x,y,z),如圖4所示.
圖3 2D手勢(shì)姿態(tài)估計(jì)圖Fig.3 2D hand pose estimation圖4 3D手勢(shì)姿態(tài)估計(jì)圖Fig.4 3D hand pose estimation
在手勢(shì)姿態(tài)估計(jì)的領(lǐng)域中,相較于2D手勢(shì)姿態(tài)估計(jì),針對(duì)3D手勢(shì)姿態(tài)估計(jì)的研究數(shù)量更多,造成這一現(xiàn)象的主要原因?yàn)?D手勢(shì)姿態(tài)估計(jì)的應(yīng)用范圍小,基于2D手勢(shì)姿態(tài)估計(jì)的實(shí)際應(yīng)用價(jià)值不大[7],而3D手勢(shì)姿態(tài)估計(jì)可以廣泛應(yīng)用于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、人機(jī)交互、機(jī)器人等領(lǐng)域,吸引了眾多大型公司、研究機(jī)構(gòu)和研究人員致力于3D手勢(shì)姿態(tài)估計(jì)的研究[29,30].
由此可見,基于深度圖像的3D手勢(shì)姿態(tài)估計(jì)已經(jīng)成為手勢(shì)姿態(tài)估計(jì)領(lǐng)域主流研究趨勢(shì),本文也是圍繞深度圖像、深度學(xué)習(xí)、3D手勢(shì)姿態(tài)估計(jì)這3個(gè)方面進(jìn)行總結(jié)敘述.
2.3.2 RGB/Depth/RGB-D
根據(jù)輸入數(shù)據(jù)類型的不同,可將手勢(shì)姿態(tài)估計(jì)分為:基于RGB圖像的手勢(shì)姿態(tài)估計(jì)、基于深度圖像的手勢(shì)姿態(tài)估計(jì)、基于RGB-D(RGB圖像+Depthmap)圖像的手勢(shì)姿態(tài)估計(jì);其中,根據(jù)深度圖像不同展現(xiàn)形式,將基于深度圖像的手勢(shì)姿態(tài)估計(jì)進(jìn)一步劃分為:基于簡(jiǎn)單2D深度圖像、基于3D體素?cái)?shù)據(jù)、基于3D點(diǎn)云數(shù)據(jù),如圖5所示.
圖5 手勢(shì)姿態(tài)估計(jì)方法分類圖Fig.5 Classification of hand pose estimation methods
文獻(xiàn)[4]根據(jù)不同的建模途徑和策略,將手勢(shì)姿態(tài)估計(jì)方法劃分為模型驅(qū)動(dòng)方法(生成式方法)[31-34],和數(shù)據(jù)驅(qū)動(dòng)方法(判別式方法).研究者結(jié)合了模型驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)兩種方法的特點(diǎn),提出混合式方法[35-41];在本小節(jié)我們將對(duì)這3種手勢(shì)姿態(tài)估計(jì)方法類型進(jìn)行簡(jiǎn)要概述.
2.4.1 模型驅(qū)動(dòng)
模型驅(qū)動(dòng)方法需要大量的手勢(shì)模型作為手勢(shì)姿態(tài)估計(jì)的基礎(chǔ).該方法實(shí)現(xiàn)的過程為:首先,創(chuàng)建大量符合運(yùn)動(dòng)學(xué)原理即合理的手勢(shì)模型,根據(jù)輸入的深度圖像,選擇一個(gè)最匹配當(dāng)前深度圖像的手勢(shì)模型,提出一個(gè)度量模板模型與輸入模型的差異的代價(jià)函數(shù),通過最小化代價(jià)函數(shù),找到最接近的手勢(shì)模型.
2.4.2 數(shù)據(jù)驅(qū)動(dòng)
數(shù)據(jù)驅(qū)動(dòng)方法需要大量的手勢(shì)圖像數(shù)據(jù)作為手勢(shì)姿態(tài)估計(jì)的基礎(chǔ).數(shù)據(jù)驅(qū)動(dòng)方法所使用的圖像數(shù)據(jù)可以是RGB圖像、深度圖像或者是RGB-D圖像中的任意一種或者多種類型圖像相結(jié)合.以深度圖像為例,基于數(shù)據(jù)驅(qū)動(dòng)的手勢(shì)姿態(tài)估計(jì)方法可以通過投喂特定標(biāo)記的手勢(shì)數(shù)據(jù)來(lái)訓(xùn)練,建立從觀察值到有標(biāo)記手勢(shì)離散集之間的直接映射.在這個(gè)過程中,根據(jù)手勢(shì)關(guān)節(jié)點(diǎn)結(jié)果值計(jì)算方式的不同,可以將基于數(shù)據(jù)驅(qū)動(dòng)的手勢(shì)姿態(tài)估計(jì)方法進(jìn)一步分為基于檢測(cè)和基于回歸的方法.
2.4.3 混合驅(qū)動(dòng)
模型驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)各有優(yōu)勢(shì),模型驅(qū)動(dòng)是基于固定手勢(shì)模型,手勢(shì)姿態(tài)識(shí)別率高;數(shù)據(jù)驅(qū)動(dòng)基于神經(jīng)網(wǎng)絡(luò),不需要固定手勢(shì)模型,且對(duì)不確定手勢(shì)和遮擋手勢(shì)的魯棒性高.研究者們結(jié)合了兩種方法的特點(diǎn),提出混合式方法解決手勢(shì)姿態(tài)估計(jì)問題.常見的混合式手勢(shì)姿態(tài)估計(jì)方式有兩種:1)先使用模型驅(qū)動(dòng)預(yù)估一個(gè)手勢(shì)結(jié)果,若預(yù)估失敗或者預(yù)估的結(jié)果與手勢(shì)模型相差較大,則使用數(shù)據(jù)驅(qū)動(dòng)進(jìn)行手勢(shì)姿態(tài)估計(jì),在這種方法中,數(shù)據(jù)驅(qū)動(dòng)只是作為一種備選方案當(dāng)且僅在模型驅(qū)動(dòng)失敗的情況下使用;2)先使用數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)出一個(gè)初始的手勢(shì)姿勢(shì)結(jié)果,再使用模型驅(qū)動(dòng)對(duì)預(yù)測(cè)的初始手勢(shì)結(jié)果進(jìn)行優(yōu)化.
數(shù)據(jù)集對(duì)有監(jiān)督深度學(xué)習(xí)任務(wù)十分重要,對(duì)手勢(shì)姿態(tài)估計(jì)而言,規(guī)模大、標(biāo)記精度高、適用性強(qiáng)的手勢(shì)姿態(tài)數(shù)據(jù)集不僅能提供準(zhǔn)確的性能測(cè)試和方法評(píng)估,還能推進(jìn)手勢(shì)姿態(tài)估計(jì)研究領(lǐng)域的發(fā)展.目前常見3D手勢(shì)姿態(tài)估計(jì)數(shù)據(jù)集有:BigHand2.2M[10],NYU[42],Dexter 1[43],MSRA14[44],ICVL[45],MSRA15[46],HandNet[47],MSRC[48],等,其中ICVL、NYU和MSRA15是使用最為廣泛的手勢(shì)姿態(tài)估計(jì)數(shù)據(jù)集,常用手勢(shì)姿態(tài)估計(jì)數(shù)據(jù)集相關(guān)信息如表1所示.
表1 手勢(shì)姿態(tài)估計(jì)數(shù)據(jù)集Table 1 Hand pose estimation datasets
Yuan等人[10]指出創(chuàng)建大規(guī)模精準(zhǔn)數(shù)據(jù)集的關(guān)鍵因素是快速、準(zhǔn)確的標(biāo)記方式.常用手勢(shì)姿態(tài)數(shù)據(jù)集標(biāo)記方式有四種:手動(dòng)標(biāo)記、半自動(dòng)標(biāo)記、自動(dòng)標(biāo)記和合成數(shù)據(jù)標(biāo)記.手動(dòng)標(biāo)記方法因其耗時(shí)耗力且存在標(biāo)記錯(cuò)誤情況,導(dǎo)致使用人工手動(dòng)標(biāo)記的手勢(shì)數(shù)據(jù)集規(guī)模小,不適合用于基于大規(guī)模數(shù)據(jù)驅(qū)動(dòng)的手勢(shì)姿態(tài)估計(jì)方法;半自動(dòng)標(biāo)記方法有兩種形式,一種是先使用人工手動(dòng)標(biāo)記2D關(guān)節(jié)信息,再使用算法自動(dòng)推斷3D關(guān)節(jié)信息;另一種是先使用算法自動(dòng)推斷出3D關(guān)節(jié)信息,再使用人工手動(dòng)對(duì)標(biāo)記的3D關(guān)節(jié)信息進(jìn)行修正,與全手動(dòng)標(biāo)記方法相比,半自動(dòng)標(biāo)記方法具有高效性,適用于創(chuàng)建數(shù)據(jù)規(guī)模大的數(shù)據(jù)集.
合成數(shù)據(jù)標(biāo)記方法指的是使用圖形圖像應(yīng)用程序,先基于先驗(yàn)手勢(shì)模型生成仿真手勢(shì)圖像數(shù)據(jù),同時(shí)自動(dòng)標(biāo)記3D關(guān)節(jié)信息;與手動(dòng)標(biāo)記和半自動(dòng)標(biāo)記方法相比,合成數(shù)據(jù)標(biāo)記方法無(wú)需手工介入,有效提高了數(shù)據(jù)標(biāo)記效率,適合于大規(guī)模數(shù)據(jù)集的創(chuàng)建;但不足的是,合成的仿真數(shù)據(jù)無(wú)法全面有效地反映真實(shí)手勢(shì)姿態(tài),合成手勢(shì)數(shù)據(jù)集中存在手勢(shì)扭曲、反關(guān)節(jié)、關(guān)節(jié)丟失等不符合運(yùn)動(dòng)學(xué)規(guī)律的手勢(shì)情形,導(dǎo)致丟失真實(shí)手勢(shì)特征.自動(dòng)標(biāo)記方法指的在采集手部圖像時(shí),使用外部傳感器設(shè)備對(duì)手勢(shì)關(guān)節(jié)進(jìn)行標(biāo)記.文獻(xiàn)[49]的ASTAR數(shù)據(jù)集使用帶有傳感器數(shù)據(jù)手套對(duì)手部關(guān)節(jié)進(jìn)行標(biāo)記;BigHand2.2M數(shù)據(jù)集采用具有6D磁傳感器的圖像采集標(biāo)記系統(tǒng)進(jìn)行自動(dòng)標(biāo)記.
3D手勢(shì)姿態(tài)估計(jì)方法的評(píng)價(jià)指標(biāo)主要包括:
1)平均誤差:在測(cè)試集圖像中,所有預(yù)測(cè)關(guān)節(jié)點(diǎn)的平均誤差距離;以21個(gè)手勢(shì)關(guān)節(jié)點(diǎn)模型為例,會(huì)生成21個(gè)單關(guān)節(jié)點(diǎn)平均誤差評(píng)測(cè)值,對(duì)21個(gè)單關(guān)節(jié)點(diǎn)平均誤差求均值,得到整個(gè)測(cè)試集的平均誤差.
2)良好幀占比率:在一個(gè)測(cè)試圖像幀中,若最差關(guān)節(jié)點(diǎn)的誤差值在設(shè)定的閾值范圍內(nèi),則認(rèn)為該測(cè)試幀為良好幀,測(cè)試集中所有的良好幀之和占測(cè)試集總幀數(shù)的比例,稱為良好幀占比率.
其中,第1個(gè)評(píng)價(jià)指標(biāo)反映的是單個(gè)關(guān)節(jié)點(diǎn)預(yù)測(cè)精準(zhǔn)度,平均誤差越小,則說(shuō)明關(guān)節(jié)定位精準(zhǔn)度越高;第2個(gè)評(píng)價(jià)指標(biāo)反映的是整個(gè)測(cè)試集測(cè)試結(jié)果的好壞,在一定的閾值范圍內(nèi),單個(gè)關(guān)節(jié)的錯(cuò)誤定位將造成其他關(guān)節(jié)點(diǎn)定位無(wú)效,該評(píng)價(jià)指標(biāo)可以更加嚴(yán)格反映手勢(shì)姿態(tài)估計(jì)方法的好壞.
深度圖像具有良好的空間紋理信息,其深度值僅與手部表面到相機(jī)的實(shí)際距離相關(guān),對(duì)手部陰影、光照、遮擋等影響因素具有較高的魯棒性.基于深度學(xué)習(xí)和深度圖像的手勢(shì)姿態(tài)估計(jì)方法屬于數(shù)據(jù)驅(qū)動(dòng),通過訓(xùn)練大量的數(shù)據(jù)來(lái)學(xué)習(xí)一個(gè)能表示從輸入的深度圖像到手部關(guān)節(jié)點(diǎn)坐標(biāo)位置的映射關(guān)系,并依據(jù)映射關(guān)系預(yù)測(cè)出每個(gè)關(guān)節(jié)點(diǎn)的概率熱圖或者直接回歸出手部關(guān)節(jié)點(diǎn)的二維或者三維坐標(biāo).
在本節(jié)中,將深度圖像在不同數(shù)據(jù)形式下的3D手勢(shì)姿態(tài)估計(jì)方法分為:
1)直接將深度圖像作為簡(jiǎn)單2D圖像,使用2D CNNs進(jìn)行3D手勢(shì)姿態(tài)估計(jì).
2)將深度圖像轉(zhuǎn)換成3D體素?cái)?shù)據(jù),使用3D CNNs進(jìn)行3D手勢(shì)姿態(tài)估計(jì).
3)將深度圖像轉(zhuǎn)換成3D點(diǎn)云數(shù)據(jù),使用點(diǎn)云特征提取網(wǎng)絡(luò)提取手部點(diǎn)云數(shù)據(jù)特征,從而實(shí)現(xiàn)手部關(guān)節(jié)點(diǎn)定位.
早期C.Xu等人[50]提出使用隨機(jī)森林傳統(tǒng)機(jī)器學(xué)習(xí)方法直接從手部深度圖像中回歸出手勢(shì)關(guān)節(jié)角度,隨著深度學(xué)習(xí)技術(shù)的提出,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)中取得了巨大成就,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比具有較大的優(yōu)勢(shì).
表2詳細(xì)列舉了基于簡(jiǎn)單2D深度圖像手勢(shì)姿態(tài)估計(jì)代表性算法相關(guān)信息.其中,受文獻(xiàn)[51]啟發(fā),Tompson[42]首次提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手勢(shì)姿態(tài)估計(jì)任務(wù)中,他們使用卷積神經(jīng)網(wǎng)絡(luò)生成能代表深度圖像中手部關(guān)節(jié)二維概率分布的熱圖,先從每幅熱圖中分別定位出每個(gè)關(guān)節(jié)點(diǎn)的2D平面位置,再使用基于模型的逆運(yùn)動(dòng)學(xué)原理從預(yù)估的2D平面關(guān)節(jié)和其對(duì)應(yīng)的深度值估計(jì)出關(guān)節(jié)點(diǎn)三維空間位置.由于手勢(shì)復(fù)雜多樣和手指之間具有高相似性,導(dǎo)致了從熱圖中預(yù)估出的2D關(guān)節(jié)點(diǎn)與真實(shí)關(guān)節(jié)點(diǎn)位置之間可能存在偏差,且當(dāng)手部存在遮擋時(shí),深度值并不能很好地表示關(guān)節(jié)點(diǎn)在三維空間中的深度信息.針對(duì)文獻(xiàn)[42]中所存在的問題,Ge等人[52]提出將手部深度圖像投影到多個(gè)視圖上,并從多個(gè)視圖的熱圖中恢復(fù)出手部關(guān)節(jié)點(diǎn)的三維空間位置,他們使用多視圖CNNs同時(shí)為手部深度圖像前視圖、側(cè)視圖和俯視圖生成熱圖,從而更精準(zhǔn)地定位手關(guān)節(jié)的三維空間位置.
表2 基于簡(jiǎn)單2D深度圖手勢(shì)姿態(tài)估計(jì)代表性算法對(duì)比Table 2 Comparison of representative algorithms for hand pose estimation based on 2D depth map
Oberweger等人[21]使用卷積神經(jīng)網(wǎng)絡(luò)直接輸出手部關(guān)節(jié)點(diǎn)三維空間位置,他們認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)對(duì)3D手勢(shì)姿態(tài)估結(jié)果很重要,使用了4種不同CNN架構(gòu)同時(shí)預(yù)測(cè)所有的關(guān)節(jié)點(diǎn)位置,通過實(shí)驗(yàn)對(duì)比得出多尺寸方法對(duì)手部關(guān)節(jié)點(diǎn)位置回歸效果更好,同時(shí)他們?cè)诰W(wǎng)絡(luò)中加入3D手勢(shì)姿態(tài)先驗(yàn)信息預(yù)測(cè)手部關(guān)節(jié)點(diǎn)位置,并使用了基于CNN架構(gòu)的關(guān)節(jié)點(diǎn)優(yōu)化網(wǎng)絡(luò)對(duì)每一個(gè)預(yù)測(cè)的關(guān)鍵點(diǎn)進(jìn)行更加精準(zhǔn)的位置輸出;除此之外,為了進(jìn)一步提升3D手勢(shì)姿態(tài)估計(jì)的準(zhǔn)確性,他們?cè)谖墨I(xiàn)[21]基礎(chǔ)上提出使用迭代優(yōu)化的方法多次修正手部關(guān)節(jié)點(diǎn)位置,對(duì)DeepPrior[53]進(jìn)行改進(jìn),提出DeepPrior++[54]方法,通過平移、旋轉(zhuǎn)、縮放等方法增強(qiáng)手勢(shì)姿態(tài)估計(jì)訓(xùn)練集數(shù)據(jù),以獲得更多的可利用信息,并在手勢(shì)特征提取網(wǎng)絡(luò)中加入了殘差模塊以進(jìn)一步提升了3D手勢(shì)姿態(tài)估計(jì)精度.
Guo等人[55]提出基于區(qū)域集成的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)REN,REN將卷積層的特征圖分成多個(gè)局部空間塊,并在全連接層將局部特征整合在一起,與之前基于2D熱圖、逆運(yùn)動(dòng)學(xué)約束和反饋回路的手勢(shì)姿態(tài)估計(jì)方法相比,REN基于單一網(wǎng)絡(luò)的方法直接檢測(cè)出手部關(guān)節(jié)的三維位置,極大提高了手勢(shì)姿態(tài)估計(jì)的性能.然而,REN使用統(tǒng)一的網(wǎng)格來(lái)提取局部特征區(qū)域,對(duì)所有特征都進(jìn)行同等的處理,這并不能充分獲得特征圖的空間信息和具有高度代表性的手勢(shì)特性.針對(duì)該問題,Chen等人[56]提出Pose-REN網(wǎng)絡(luò)進(jìn)一步提高手勢(shì)姿態(tài)估計(jì)性能,他們基于REN網(wǎng)絡(luò)預(yù)測(cè)的手勢(shì)姿態(tài),將預(yù)測(cè)的初始手部姿態(tài)和卷積神經(jīng)網(wǎng)絡(luò)特征圖結(jié)合,以提取更優(yōu)、更具代表性的手部姿態(tài)估計(jì)特征,然后根據(jù)手部關(guān)節(jié)拓?fù)浣Y(jié)構(gòu),利用樹狀的全連接對(duì)提取的特征區(qū)域進(jìn)行層次集成,Pose-REN網(wǎng)絡(luò)直接回歸手勢(shì)姿態(tài)的精準(zhǔn)估計(jì),并使用迭代級(jí)聯(lián)方法得到最終的手勢(shì)姿態(tài).
Wan等人[22]提出一種密集的逐像素估計(jì)的方法,該方法使用了沙漏網(wǎng)絡(luò)Hourglass Network[57]生成關(guān)節(jié)點(diǎn)2D熱圖和3D熱圖以及三維單位矢量場(chǎng),并由此推斷出三維手部關(guān)節(jié)的位置;他們?cè)谖墨I(xiàn)[58]提出自監(jiān)督方法,從深度圖像中估計(jì)3D手勢(shì)姿態(tài),與以往基于數(shù)據(jù)驅(qū)動(dòng)的手勢(shì)姿態(tài)估計(jì)方法不同的是,他們使用41個(gè)球體近似表示手部表面,使用自動(dòng)標(biāo)記的合成手勢(shì)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,用無(wú)標(biāo)記的真實(shí)手勢(shì)數(shù)據(jù)對(duì)模型進(jìn)行了微調(diào),并在網(wǎng)絡(luò)中采用多視圖監(jiān)督方法以減輕手部自遮擋對(duì)手勢(shì)姿態(tài)估計(jì)精度的影響.
2D CNN提取的深度圖像特征由于缺乏3D空間信息,不適合直接進(jìn)行3D手勢(shì)姿態(tài)估計(jì).將深度圖像的3D體素表示作為3D CNN的輸入,從輸入的3D體素?cái)?shù)據(jù)中提取關(guān)節(jié)點(diǎn)特征,可以更好地捕獲手的3D空間結(jié)構(gòu)并準(zhǔn)確地回歸手部關(guān)節(jié)點(diǎn)3D手勢(shì)姿態(tài)[60].基于3D體素?cái)?shù)據(jù)手勢(shì)姿態(tài)估計(jì)流程如圖6所示.
圖6 基于體素?cái)?shù)據(jù)手勢(shì)姿態(tài)估計(jì)流程圖Fig.6 Workflow of hand pose estimation based on voxel data
表3詳細(xì)列舉了基于3D體素?cái)?shù)據(jù)手勢(shì)姿態(tài)估計(jì)代表性算法相關(guān)信息,其中,Ge 等人在文獻(xiàn)[61]中首次提出使用3D CNNs解決3D手勢(shì)姿態(tài)估計(jì)問題,他們先使用D-TSDF[62]將局部手部圖像轉(zhuǎn)換成3D體素?cái)?shù)據(jù)表現(xiàn)形式,設(shè)計(jì)了一個(gè)具有3個(gè)三維卷積層、3個(gè)三維全連接層的3D卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),用于提取手部體素?cái)?shù)據(jù)三維特征,并基于提取的三維特征回歸出最終手部關(guān)節(jié)點(diǎn)三維空間位置;在文獻(xiàn)[52]基礎(chǔ)上,Ge等人[63]提出利用完整手部表面作為從深度圖像中計(jì)算手勢(shì)姿態(tài)的中間監(jiān)督,進(jìn)一步提升了3D手勢(shì)姿態(tài)估計(jì)精度.
Moon等人[23]指出直接使用深度圖像作為2D CNN的輸入進(jìn)行3D手勢(shì)姿態(tài)估計(jì)存在兩個(gè)嚴(yán)重缺點(diǎn):缺點(diǎn)1是2D深度圖像存在透視失真的情況,缺點(diǎn)2是深度圖和3D坐標(biāo)之間的高度非線性映射,這種高度非線性映射會(huì)直接影響到手部關(guān)節(jié)點(diǎn)位置的精準(zhǔn)回歸.為解決這些問題,他們提出將從深度圖像中進(jìn)行3D手勢(shì)姿態(tài)估計(jì)的問題,轉(zhuǎn)化為體素到體素的預(yù)測(cè),首先將手部深度圖像轉(zhuǎn)化為3D體素形式,然后將體素網(wǎng)格作為V2V-PoseNet特征提取網(wǎng)絡(luò)的輸入,并計(jì)算每個(gè)體素網(wǎng)格是手部關(guān)節(jié)的概率,實(shí)現(xiàn)了精準(zhǔn)的3D手勢(shì)姿態(tài)估計(jì).
表3 基于3D體素?cái)?shù)據(jù)手勢(shì)姿態(tài)估計(jì)代表性算法對(duì)比Table 3 Comparison of representative algorithms for hand pose estimation based on 3D voxel data
點(diǎn)云數(shù)據(jù)表示的是分布于目標(biāo)表面的一系列三維坐標(biāo)點(diǎn),與深度圖像相比,點(diǎn)云數(shù)據(jù)可以更好地表示出真實(shí)手勢(shì)姿態(tài);由于點(diǎn)云數(shù)據(jù)具有無(wú)序性和稀疏性,無(wú)法直接作為神經(jīng)網(wǎng)絡(luò)的輸入,因此,在PointNet[25,26]提出之前,研究者通常將采集到的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成特定視角下的深度圖像,或者是轉(zhuǎn)換成體素?cái)?shù)據(jù)的形式,以便于更好地定義權(quán)重共享的卷積操作[64,65],基于3D點(diǎn)云數(shù)據(jù)手勢(shì)姿態(tài)估計(jì)流程如圖7所示.
圖7 基于點(diǎn)云數(shù)據(jù)手勢(shì)姿態(tài)估計(jì)流程圖Fig.7 Workflow of hand pose estimation based on point cloud
表4詳細(xì)列舉了基于3D點(diǎn)云數(shù)據(jù)手勢(shì)姿態(tài)估計(jì)代表性算法相關(guān)信息,其中,Ge等人[24]首次提出使用PointNet解決3D手勢(shì)姿態(tài)估計(jì)問題,使用基于PointNet網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)了從3D點(diǎn)云直接預(yù)測(cè)手勢(shì)關(guān)節(jié)點(diǎn)位置.他們首先從深度圖像中分割出手,將局部手勢(shì)深度圖像轉(zhuǎn)換成一組3D點(diǎn)云,最后將經(jīng)過下采樣和歸一化的3D點(diǎn)云數(shù)據(jù)輸入到PointNet網(wǎng)絡(luò)結(jié)構(gòu)中,進(jìn)行點(diǎn)云特征提取從而實(shí)現(xiàn)3D手勢(shì)姿態(tài)估計(jì);受文獻(xiàn)[22]啟發(fā),他們?cè)赑ointNet基礎(chǔ)上提出使用兩層堆疊分層式PointNet網(wǎng)絡(luò)體系結(jié)構(gòu)[66]作為特征提取層,輸出手部3D點(diǎn)云數(shù)據(jù)上的熱圖和單位矢量場(chǎng),熱圖表示3D點(diǎn)到目標(biāo)關(guān)節(jié)點(diǎn)的接近度,矢量場(chǎng)則表示3D點(diǎn)到目標(biāo)關(guān)節(jié)點(diǎn)的方向,從網(wǎng)絡(luò)輸出的熱圖和單位矢量場(chǎng)中推斷出手部關(guān)節(jié)點(diǎn)的逐點(diǎn)偏移,用于對(duì)3D手部關(guān)節(jié)點(diǎn)位置進(jìn)行投票,從而提高了3D手勢(shì)姿態(tài)估計(jì)精度.
Li等人[67]指出基于3D體素形式的手勢(shì)姿態(tài)估計(jì)方法需要使用大量的存儲(chǔ)空間用于表示輸入數(shù)據(jù)和輸出數(shù)據(jù),且空間效率低下;基于3D點(diǎn)云PointNet結(jié)構(gòu)的手勢(shì)姿態(tài)估計(jì)方法需要繁瑣的預(yù)處理步驟,如點(diǎn)云表面歸一化處理和K最鄰近下采樣.為了解決這些問題,他們提出使用PEL[68,69]置換等值層作為基本元素,結(jié)合殘差網(wǎng)絡(luò)[70]構(gòu)造用于3D手勢(shì)姿態(tài)估計(jì)任務(wù)的深度網(wǎng)絡(luò)模型.網(wǎng)絡(luò)以1024個(gè)手部點(diǎn)云數(shù)據(jù)作為輸入,結(jié)合全局最大值逐點(diǎn)提取特征,此外,他們還提出使用點(diǎn)對(duì)點(diǎn)投票機(jī)制計(jì)算手勢(shì)姿態(tài),從而消除了使用最大池化層提取全局特征的可能性,避免了信息的丟失.
表4 基于3D點(diǎn)云數(shù)據(jù)手勢(shì)姿態(tài)估計(jì)代表性算法對(duì)比Table 4 Comparison of representative algorithms for hand pose estimation based on point cloud
Chen等人[71]指出無(wú)論是基于普通深度圖像2D CNNs方法,還是基于3D體素?cái)?shù)據(jù)3D CNNS方法,亦或是基于3D點(diǎn)云特征提取方法,都需要使用大規(guī)模訓(xùn)練集才能保證手勢(shì)姿態(tài)估計(jì)結(jié)果的準(zhǔn)確性,然而對(duì)大規(guī)模手勢(shì)姿態(tài)數(shù)據(jù)集進(jìn)行標(biāo)記是一個(gè)既費(fèi)時(shí)又費(fèi)力的過程,且人工標(biāo)記過程中無(wú)法避免誤差情況的出現(xiàn),半自動(dòng)標(biāo)記方法也無(wú)法確保從手工標(biāo)記2D關(guān)節(jié)推斷出3D關(guān)節(jié)位置的精確度,合成標(biāo)記手勢(shì)數(shù)據(jù)不是真實(shí)手勢(shì)數(shù)據(jù),無(wú)法確保手勢(shì)姿態(tài)的準(zhǔn)確性.為了解決這些問題,在文獻(xiàn)[72]啟發(fā)下,他們提出在訓(xùn)練階段采用半監(jiān)督方式的點(diǎn)云自動(dòng)編碼器機(jī)制直接從3D點(diǎn)云中回歸出3D手勢(shì)姿態(tài).利用手勢(shì)特征編碼器(HFE)從手勢(shì)點(diǎn)云中提取多級(jí)特征,然后通過手勢(shì)估計(jì)器(HPE)將特征融合從而回歸出3D手勢(shì)姿態(tài);此外,他們?cè)O(shè)計(jì)了一個(gè)手型特征解碼器(HFD),用于從編碼后的特征中恢復(fù)輸入點(diǎn)云,由于HFE和HFD可以在沒有3D手勢(shì)標(biāo)記的情況下進(jìn)行訓(xùn)練,因此他們提出的方法可以在訓(xùn)練階段充分利用未標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練,獲取更多手勢(shì)特征,從而有效解決了手勢(shì)姿態(tài)數(shù)據(jù)集標(biāo)記問題.
Dou等人[73]認(rèn)為PointNet系列手勢(shì)姿態(tài)估計(jì)方法關(guān)鍵因素是如何獲得有效的點(diǎn)云采樣點(diǎn),他們改善點(diǎn)云采樣策略,提出使用3D坐標(biāo)和歸一化點(diǎn)云的表面法線作為網(wǎng)絡(luò)的輸入回歸出粗略關(guān)節(jié)點(diǎn)位置,并將這些回歸出的手部關(guān)節(jié)作為采樣點(diǎn)使用級(jí)聯(lián)PointNet進(jìn)一步細(xì)化手部關(guān)節(jié)點(diǎn)位置.
文獻(xiàn)[74,75]提出一種新的點(diǎn)云數(shù)據(jù)處理KPConv核點(diǎn)卷積模型,KPConv卷積核權(quán)重取決于核點(diǎn)決定的歐式空間,這使得KPConv比固定網(wǎng)格卷積更具靈活性,能夠更有效分割局部手勢(shì)點(diǎn)云區(qū)域;同時(shí),KPConv核點(diǎn)卷積對(duì)于點(diǎn)云密度的變化魯棒性更強(qiáng),能夠避免PointNet中由于不同區(qū)域點(diǎn)云密度差異造成的特征丟失,因此,KPConv核點(diǎn)卷積點(diǎn)云處理模型可有效應(yīng)用于手勢(shì)姿態(tài)估計(jì)任務(wù)中,是基于點(diǎn)云數(shù)據(jù)手勢(shì)姿態(tài)估計(jì)下一個(gè)值得研究方向.
3D手勢(shì)姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,可以應(yīng)用在多個(gè)方面,如人機(jī)交互、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、手語(yǔ)理解、智能機(jī)器人等,與人們的生活息息相關(guān).從基于傳感器輔助到傳統(tǒng)機(jī)器學(xué)習(xí)方法,再到現(xiàn)如今廣泛使用的深度學(xué)習(xí)方法,3D手勢(shì)姿態(tài)估計(jì)技術(shù)取得了極大發(fā)展.本文在已有分類基礎(chǔ)上,對(duì)數(shù)據(jù)驅(qū)動(dòng)方法中基于深度圖像的3D手勢(shì)姿態(tài)估計(jì)經(jīng)典的方法進(jìn)行了較為細(xì)致的分類、梳理與總結(jié).根據(jù)數(shù)據(jù)類型的不同,將基于深度學(xué)習(xí)的手勢(shì)姿態(tài)估計(jì)方法分為基于普通2D深度圖像方法和基于3D數(shù)據(jù)手勢(shì)姿態(tài)估計(jì)方法;其中根據(jù)3D數(shù)據(jù)的不同展現(xiàn)形式,進(jìn)一步將基于3D數(shù)據(jù)的手勢(shì)姿態(tài)估計(jì)方法分為基于3D體素?cái)?shù)據(jù)手勢(shì)姿態(tài)估計(jì)和基于3D點(diǎn)云數(shù)據(jù)手勢(shì)姿態(tài)估計(jì),對(duì)每類方法的代表性算法進(jìn)行了研究、分析,并概括總結(jié)了每類方法的特點(diǎn).
在現(xiàn)有研究成果的基礎(chǔ)上,我們總結(jié)手勢(shì)姿態(tài)估計(jì)的重點(diǎn)問題和發(fā)展趨勢(shì),認(rèn)為未來(lái)手勢(shì)姿態(tài)估計(jì)應(yīng)著重面向準(zhǔn)確性、可移植性和實(shí)用性方面展開研究:
1)準(zhǔn)確性
手勢(shì)姿態(tài)估計(jì)準(zhǔn)確性的影響因素主要有兩個(gè),一個(gè)是訓(xùn)練集質(zhì)量,另一個(gè)是所使用的方法.現(xiàn)階段主流方法都是基于深度學(xué)習(xí),不同的神經(jīng)網(wǎng)絡(luò)模型都存在各自的優(yōu)勢(shì)與不足,這些方法模型都是基于大量圖像數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)中訓(xùn)練而來(lái),訓(xùn)練集質(zhì)量的好壞會(huì)直接影響手勢(shì)姿態(tài)估計(jì)準(zhǔn)確性,而現(xiàn)有的數(shù)據(jù)集中,手勢(shì)圖像往往存在分辨率低、手部遮擋、視角不一致、手勢(shì)復(fù)雜和標(biāo)記錯(cuò)誤等現(xiàn)象,限制了手勢(shì)姿態(tài)估計(jì)準(zhǔn)確性進(jìn)一步提高.因此,如何獲得高質(zhì)量、高精度標(biāo)記的手勢(shì)訓(xùn)練集是未來(lái)的一個(gè)重要研究方向.
2)可移植性
一方面,在現(xiàn)有的基于深度學(xué)習(xí)手勢(shì)姿態(tài)估計(jì)方法中,絕大部分都依賴高性能計(jì)算機(jī)硬件設(shè)備來(lái)維持其高效性,這導(dǎo)致手勢(shì)姿態(tài)估計(jì)技術(shù)無(wú)法很好地移植到移動(dòng)設(shè)備如手機(jī)中,阻礙了手勢(shì)姿態(tài)估計(jì)技術(shù)的進(jìn)一步發(fā)展;另一方面,現(xiàn)有的手勢(shì)姿態(tài)估計(jì)方法都是基于特定的圖像采集設(shè)備,且所使用的方法模型參數(shù)與深度相機(jī)硬件參數(shù)有關(guān),這導(dǎo)致一種手勢(shì)姿態(tài)估計(jì)方法只能適用于特定參數(shù)的深度相機(jī),無(wú)法很好地移植到其他類型的深度相機(jī)中,如何有效移植也是未來(lái)手勢(shì)姿態(tài)估計(jì)亟需解決的問題.
3)實(shí)用性
目前,大部分手勢(shì)姿態(tài)估計(jì)方法為了精準(zhǔn)分割局部手勢(shì)圖像,均在理想條件下只對(duì)單手進(jìn)行姿態(tài)估計(jì),默認(rèn)手部圖像背景單一且無(wú)遮擋等因素影響.而在現(xiàn)實(shí)生活中環(huán)境復(fù)雜多變且雙手協(xié)同操作的情形居多,如雙手交互和手物交互,這導(dǎo)致在復(fù)雜環(huán)境中對(duì)存在雙手交互或者手物交互的人手分割難度加大;此外,由于深度相機(jī)圖像采集距離限制,無(wú)法很好地應(yīng)用于室外遠(yuǎn)距離手勢(shì)姿態(tài)估計(jì),單目RGB相機(jī)在戶外能很好地捕捉手部圖像,但由于RGB圖像缺少深度信息無(wú)法很好地進(jìn)行高效、準(zhǔn)確的3D手勢(shì)姿態(tài)估計(jì).因此,在復(fù)雜環(huán)境下實(shí)現(xiàn)雙手交互或者手物交互,是3D手勢(shì)姿態(tài)估計(jì)未來(lái)發(fā)展的趨勢(shì).