摘 要:手勢(shì)識(shí)別是目前計(jì)算機(jī)科學(xué)領(lǐng)域的熱門研究課題之一。3D手勢(shì)識(shí)別是利用相機(jī)、傳感器和算法分析等技術(shù),對(duì)三維空間內(nèi)的動(dòng)態(tài)或靜態(tài)手勢(shì)進(jìn)行姿態(tài)分析,從而實(shí)現(xiàn)對(duì)手勢(shì)行為的理解和識(shí)別。與2D手勢(shì)識(shí)別相比,3D手勢(shì)識(shí)別能夠更準(zhǔn)確地捕捉和分析手部動(dòng)作的位置、方向等信息,在各種應(yīng)用領(lǐng)域?qū)崿F(xiàn)更自然、直觀的人機(jī)交互。文中介紹了3D手勢(shì)識(shí)別的研究意義、應(yīng)用領(lǐng)域、國(guó)內(nèi)外研究現(xiàn)狀、識(shí)別方法及未來發(fā)展方向,以期為手勢(shì)識(shí)別研究的初學(xué)者提供參考。
關(guān)鍵詞:深度學(xué)習(xí);手勢(shì)識(shí)別;3D深度圖片;剛性骨架模型;柔性骨架模型;多模態(tài)和多視角
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2024)11-00-03
0 引 言
3D手勢(shì)識(shí)別是識(shí)別手在三維空間中的姿態(tài)的過程,其主要通過測(cè)量并描述手部各關(guān)節(jié)在三維空間中的位置來實(shí)
現(xiàn)[1-2]。3D手勢(shì)識(shí)別的提出源于人們對(duì)人機(jī)交互方式自然、直觀的追求。傳統(tǒng)的人機(jī)交互方式,如鍵盤、觸摸屏等,雖然已經(jīng)發(fā)展得非常成熟,但仍然存在一些局限,如需要物理接觸、操作不夠直觀等。為了克服這些限制,研究人員開始探索使用手勢(shì)來進(jìn)行人機(jī)交互。最早的手勢(shì)識(shí)別系統(tǒng)可以追溯到20世紀(jì)80年代,當(dāng)時(shí)主要使用2D攝像頭和計(jì)算機(jī)視覺算法來捕捉和識(shí)別手勢(shì)。然而,這種方法僅能對(duì)手勢(shì)的平面運(yùn)動(dòng)進(jìn)行識(shí)別,無法獲取手勢(shì)的深度信息。隨著深度相機(jī)(如Microsoft Kinect)的問世,3D手勢(shì)識(shí)別得以實(shí)現(xiàn)。目前,3D手勢(shì)識(shí)別的研究在國(guó)內(nèi)外尚處于起步階段,但已吸引了很多國(guó)內(nèi)外著名學(xué)者和技術(shù)公司的關(guān)注,如微軟公司正在研究基于3D手勢(shì)的跟蹤系統(tǒng)等。
1 3D手勢(shì)識(shí)別的應(yīng)用
3D手勢(shì)識(shí)別在以下幾個(gè)領(lǐng)域得到了廣泛的應(yīng)用[3-4]:
(1)電子消費(fèi)領(lǐng)域。對(duì)電子產(chǎn)品如手機(jī)、平板電腦的非接觸操作。
(2)軍事領(lǐng)域。遠(yuǎn)程對(duì)機(jī)器人、無人飛機(jī)發(fā)出手部控制指令。
(3)輔助控制領(lǐng)域。自動(dòng)駕駛中通過手勢(shì)對(duì)汽車進(jìn)行控制或自動(dòng)識(shí)別特殊手勢(shì),例如識(shí)別警察做出的停車手勢(shì)。
(4)輔助醫(yī)療領(lǐng)域。遠(yuǎn)程手術(shù)中通過手勢(shì)識(shí)別進(jìn)行精細(xì)操作,將聾啞人手語(yǔ)自動(dòng)識(shí)別轉(zhuǎn)化成對(duì)應(yīng)的文本或語(yǔ)音信號(hào)。
準(zhǔn)確估計(jì)手的姿勢(shì)對(duì)于許多應(yīng)用至關(guān)重要。隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,將會(huì)有更多的領(lǐng)域和場(chǎng)景與3D手勢(shì)識(shí)別相結(jié)合,為用戶帶來更便捷、智能和沉浸式體驗(yàn)。但人手時(shí)常做出精細(xì)微小的動(dòng)作,且手具有更高的自由度,因此很難準(zhǔn)確識(shí)別手的姿勢(shì)。
2 國(guó)內(nèi)外研究現(xiàn)狀和方法
目前,手勢(shì)識(shí)別在國(guó)內(nèi)外尚處于研究起步階段。大多數(shù)工作是基于3D深度圖片(Depth Image)來進(jìn)行手勢(shì)識(shí)別。不同于傳統(tǒng)2D圖像(彩色圖像或灰度圖像),深度圖片中每個(gè)點(diǎn)的數(shù)值代表現(xiàn)實(shí)3D空間中的對(duì)應(yīng)點(diǎn)到攝像頭的距離。通過評(píng)估深度圖像中每個(gè)點(diǎn)的空間位置關(guān)系才能準(zhǔn)確確定手部各關(guān)節(jié)的位置。傳統(tǒng)的2D圖像中廣泛應(yīng)用的特征并不適合用到3D圖像中。為了解決深度圖像中手勢(shì)識(shí)別的問題,文獻(xiàn)[5]通過比較局部不同位置的深度值大小來描述3D物體的變化,這種局部特征簡(jiǎn)單且有效,在3D手勢(shì)識(shí)別中取得了初步成功。
一些研究中考慮采用結(jié)構(gòu)化的方法來描述各關(guān)節(jié)的空間位置關(guān)系進(jìn)而識(shí)別手勢(shì)。結(jié)構(gòu)化的方法是將手部各關(guān)節(jié)表示成一個(gè)樹狀結(jié)構(gòu),如手腕的關(guān)節(jié)是根節(jié)點(diǎn),從根節(jié)點(diǎn)出發(fā)延伸出不同的樹枝來代表不同的手指關(guān)節(jié)。文獻(xiàn)[6]提出了一種采用級(jí)聯(lián)方式的手勢(shì)回歸方法,其先用回歸方法估計(jì)手掌中心的關(guān)節(jié)坐標(biāo),然后基于此依次估計(jì)每個(gè)手指的關(guān)節(jié)坐標(biāo)。文獻(xiàn)[7]提出了一種層級(jí)式的手勢(shì)識(shí)別方法,將所有關(guān)節(jié)視作一個(gè)運(yùn)動(dòng)鏈,在運(yùn)動(dòng)鏈中每個(gè)關(guān)節(jié)的位置都取決于前一個(gè)關(guān)節(jié)。沿著運(yùn)動(dòng)鏈逐個(gè)估計(jì)每個(gè)關(guān)節(jié)的位置,進(jìn)而得到最終的手勢(shì)。層級(jí)式方法在考慮到手部結(jié)構(gòu)的同時(shí),往往按一定空間順序(沿著運(yùn)動(dòng)鏈)估計(jì)每個(gè)關(guān)節(jié)的位置,而不是將所有關(guān)節(jié)作為一個(gè)有機(jī)整體考慮。
文獻(xiàn)[8-9]提出了基于模型的手勢(shì)識(shí)別方法?;谀P偷姆椒ú恢苯宇A(yù)測(cè)關(guān)節(jié)的3D坐標(biāo),而是通過描述關(guān)節(jié)之間的空間約束關(guān)系來預(yù)測(cè)坐標(biāo)位置。在這種約束關(guān)系中考慮到了某些關(guān)節(jié)是分布在同根手指上的,而不同手指的關(guān)節(jié)是沒有空間聯(lián)系的。通過顯式地描述關(guān)節(jié)之間的關(guān)系,基于模型的方法進(jìn)一步提高了手勢(shì)的預(yù)測(cè)精度。文獻(xiàn)[8]利用剛性骨架模型來約束關(guān)節(jié)之間的關(guān)系,并用隨機(jī)森林算法來預(yù)測(cè)骨架模型參數(shù),進(jìn)而計(jì)算關(guān)節(jié)的3D坐標(biāo)。剛性骨架模型中,不同手指的關(guān)節(jié)被認(rèn)為是分布在多條不同的運(yùn)動(dòng)鏈上,每個(gè)關(guān)節(jié)的坐標(biāo)取決于同一個(gè)運(yùn)動(dòng)鏈上所有關(guān)節(jié)的之前位置,通過約束關(guān)節(jié)之間的相對(duì)活動(dòng)范圍(角度)來縮小3D坐標(biāo)的搜索范圍。剛性骨架模型的骨架結(jié)構(gòu)是一定的,不同手勢(shì)只能通過關(guān)節(jié)的旋轉(zhuǎn)來產(chǎn)生,關(guān)節(jié)的3D位置是通過精確預(yù)測(cè)骨骼的相對(duì)方向來獲得的。而這種方法只能對(duì)同一個(gè)人的手勢(shì)進(jìn)行準(zhǔn)確的姿勢(shì)估計(jì),對(duì)于不同的手需要通過一些專門的處理,如尺度變換,才能得到比較好的結(jié)果。雖然剛性骨架模型需要的參數(shù)比較少(只考慮關(guān)節(jié)方向而不用考慮手掌手指的大?。菍?duì)其的運(yùn)用缺少靈活性。
為了解決剛性骨架模型的3D手勢(shì)識(shí)別方法中存在的問題,文獻(xiàn)[10]提出基于柔性骨架模型的手勢(shì)識(shí)別方法,在柔性骨架模型中每個(gè)手指(腕部)上的關(guān)節(jié)構(gòu)成一個(gè)運(yùn)動(dòng)鏈。在每個(gè)運(yùn)動(dòng)鏈上用傳輸矩陣來表示相鄰關(guān)節(jié)之間的關(guān)系,如圖1所示,其中圓點(diǎn)代表需要估計(jì)的關(guān)節(jié)。
白色關(guān)節(jié)代表根節(jié)點(diǎn),所有關(guān)節(jié)組成樹狀結(jié)構(gòu)。每個(gè)手指(腕部)上的關(guān)節(jié)構(gòu)成一個(gè)運(yùn)動(dòng)鏈,采用傳輸矩陣表示相鄰關(guān)節(jié)之間的關(guān)系,表達(dá)式為:
(1)
式中:x, y∈R3×1為相鄰2個(gè)關(guān)節(jié)的3D坐標(biāo);C∈R4×4為傳輸矩陣,用來描述2個(gè)關(guān)節(jié)之間的任意方向及距離的變化。運(yùn)動(dòng)鏈上的任意一個(gè)關(guān)節(jié)坐標(biāo)均可以根據(jù)之前的傳輸矩陣從根節(jié)點(diǎn)計(jì)算得到。為了靈活地表示任意手勢(shì)變化,在柔性骨架模型中,傳輸矩陣中所有的系數(shù)是可變的。
隨著深度學(xué)習(xí)在3D圖像識(shí)別中的成功應(yīng)用,研究者嘗試應(yīng)用深度學(xué)習(xí)算法來提取3D手勢(shì)圖像特征[11-13]。在基于深度學(xué)習(xí)的方法中,將整張3D深度圖像用作卷積神經(jīng)網(wǎng)絡(luò)(CNN)的輸入,通過監(jiān)督學(xué)習(xí),CNN可以自動(dòng)學(xué)習(xí)到適合手勢(shì)圖像的有效特征。與傳統(tǒng)定義的局部特征相比,運(yùn)用深度學(xué)習(xí)的方法識(shí)別度更高。同時(shí),深度學(xué)習(xí)還提供了便捷的端對(duì)端(end-to-end)解決方案[13]。
目前,在深度學(xué)習(xí)模型中融合2D/3D多模態(tài)和多視角圖像數(shù)據(jù)的手勢(shì)識(shí)別方法在3D手勢(shì)識(shí)別領(lǐng)域引起重視。一方面,在3D手勢(shì)圖像數(shù)據(jù)采集的過程中,2D圖像往往會(huì)隨之產(chǎn)生。另外,目前大多數(shù)圖像采集設(shè)備還是2D的,專業(yè)的3D圖像采集設(shè)備由于價(jià)格昂貴還未普及。盡管2D圖像本身并不能有效估計(jì)手勢(shì),但作為3D圖像數(shù)據(jù)的補(bǔ)充,起到了很大的作用。另一方面,現(xiàn)有的手勢(shì)識(shí)別往往采用一個(gè)視角的圖像數(shù)據(jù)而忽視了不同視角圖像的作用。利用同一個(gè)手勢(shì)的多視角圖像相互補(bǔ)充,更利于改善圖像識(shí)別效果。文獻(xiàn)[14]針對(duì)2D和3D不同模態(tài)不同視角的手勢(shì)圖像,通過CNN訓(xùn)練得到了一個(gè)有效的特征,并將特征進(jìn)行最終融合得到3D手勢(shì)的全局特征。采用深度學(xué)習(xí)框架,將多模態(tài)多視角圖像數(shù)據(jù)融合是當(dāng)前3D手勢(shì)識(shí)別中的主流方法。
2D/3D多模態(tài)和多視角圖像手勢(shì)識(shí)別方案如圖2所示。其中,輸入是同一個(gè)手勢(shì)的2種不同模態(tài)(2D/3D)、多個(gè)不同視角的圖像,輸出為所有關(guān)節(jié)的3D坐標(biāo),即3D手勢(shì)。在輸入端,每個(gè)通道的圖像作為一個(gè)深度學(xué)習(xí)模型的輸入。深度學(xué)習(xí)模型可以是深度卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)等。CNN是目前應(yīng)用最廣泛也是最直接的方法;LSTM適合用來處理序列信號(hào),這與關(guān)節(jié)之間存在的空間序列性相吻合。深度學(xué)習(xí)模型的輸出將被進(jìn)一步融合來預(yù)測(cè)骨架模型的參數(shù)。多視角學(xué)習(xí)模塊輸出代表當(dāng)前模態(tài)的特征,表達(dá)式為:
output=g(f1(I1)+f2(I2)+ ... +fN(IN))" " " " " " " " " " "(2)
式中:f代表不同的深度學(xué)習(xí)模型;I代表不同視角的輸入圖像;g代表多視角學(xué)習(xí)模塊的函數(shù),一般為非線性函數(shù)。f和g從訓(xùn)練集學(xué)習(xí)得到。2個(gè)模態(tài)的多視角學(xué)習(xí)模塊分別輸出output2D和output3D。多模態(tài)融合模塊采用類似的方法對(duì)2個(gè)不同模態(tài)的特征進(jìn)行融合,表達(dá)式為:
skeleton=h1[h2(output2D)+h3(output3D)]" " " " " " " " (3)
式中:h1、h2、h3為非線性函數(shù),從訓(xùn)練集學(xué)習(xí)得到。多模態(tài)融合模塊的輸出skeleton為骨架模型的參數(shù)。由于輸入中包含多張3D圖像,算法可以從圖像中學(xué)習(xí)得到完整的3D手勢(shì)信息。
3 3D手勢(shì)識(shí)別發(fā)展方向
3D手勢(shì)識(shí)別技術(shù)在未來將持續(xù)發(fā)展,并在各個(gè)領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景。列出3D手勢(shì)識(shí)別技術(shù)的未來發(fā)展方向如下:
(1)精確性提升。當(dāng)前的3D手勢(shì)識(shí)別技術(shù)仍存在一定的識(shí)別精度低的問題。未來通過深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等不斷提升算法的準(zhǔn)確性,將實(shí)現(xiàn)更精確的手勢(shì)識(shí)別。
(2)多模態(tài)感知。將3D手勢(shì)識(shí)別與其他傳感器技術(shù)結(jié)合,如眼動(dòng)追蹤、聲音識(shí)別、面部表情分析等,可以實(shí)現(xiàn)更全面的多模態(tài)感知,提供更豐富的交互方式和更好的用戶體驗(yàn)。
(3)實(shí)時(shí)性和低延遲。對(duì)于虛擬現(xiàn)實(shí)游戲和醫(yī)療手術(shù)模擬等手勢(shì)識(shí)別場(chǎng)景,未來的發(fā)展方向?qū)⒕劢褂趦?yōu)化算法和硬件設(shè)備,以實(shí)現(xiàn)更快的響應(yīng)速度和更低的延遲。
(4)手勢(shì)識(shí)別與機(jī)器學(xué)習(xí)相結(jié)合。通過機(jī)器學(xué)習(xí)算法,不僅可以實(shí)現(xiàn)更準(zhǔn)確的手勢(shì)識(shí)別,還可以根據(jù)用戶的個(gè)性化需求和習(xí)慣優(yōu)化交互方式,實(shí)現(xiàn)更智能化的交互體驗(yàn)。
(5)更多的應(yīng)用領(lǐng)域。3D手勢(shì)識(shí)別已經(jīng)在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。未來還將在智能家居、智能交通、醫(yī)療輔助、教育等領(lǐng)域發(fā)揮更大的作用。
總之,3D手勢(shì)識(shí)別技術(shù)在未來有著廣闊的發(fā)展前景。隨著算法、硬件設(shè)備和技術(shù)的不斷發(fā)展和改進(jìn),期待更精確、實(shí)時(shí)和智能的3D手勢(shì)識(shí)別系統(tǒng)的出現(xiàn),并且為各個(gè)領(lǐng)域帶來更多創(chuàng)新和便利。
4 結(jié) 語(yǔ)
總的來講,手勢(shì)識(shí)別在人機(jī)交互領(lǐng)域有著廣泛的應(yīng)用前景。3D手勢(shì)識(shí)別方法中需要解決的主要問題為如何有效地描述關(guān)節(jié)之間的結(jié)構(gòu)信息。已有的結(jié)構(gòu)化手勢(shì)識(shí)別方法往往基于一些假設(shè),如手指的長(zhǎng)度一定或是手指只能在一定范圍內(nèi)活動(dòng),從而限制了手勢(shì)識(shí)別的應(yīng)用范圍。另外,大多數(shù)方法只考慮單張3D圖像的手勢(shì)識(shí)別問題,而沒有有效利用廣泛存在的2D圖像及多視角圖像數(shù)據(jù)。針對(duì)這些問題,已有研究提出了柔性骨架模型來靈活地描述任意大小、不同方向的手勢(shì)變化,并采用深度學(xué)習(xí)算法來學(xué)習(xí)骨架模型參數(shù)。同時(shí),考慮從不同模態(tài)不同視角的圖像中提取更豐富的信息來輔助手勢(shì)識(shí)別。
參考文獻(xiàn)
[1]徐飛,鄒壽春.基于計(jì)算機(jī)視覺技術(shù)和支持向量機(jī)的手勢(shì)識(shí)別算法研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,41(1):29-33.
[2]趙明宇,苗玉彬.基于RGB-D視頻序列的動(dòng)態(tài)手勢(shì)識(shí)別[J].機(jī)械設(shè)計(jì)與研究,2023,39(4):27-31.
[3]趙雅琴,宋雨晴,吳晗,等.基于DenseNet和卷積注意力模塊的高精度手勢(shì)識(shí)別[J].電子與信息學(xué)報(bào),2024,46(3):967-976.
[4]袁文濤,衛(wèi)文韜,高德民.融合注意力機(jī)制的多視圖卷積手勢(shì)識(shí)別研究[J].計(jì)算機(jī)工程,2004,50(3):208-215.
[5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classi?cation with deep convolutional neural networks [C]// Proceedings of Advances in Neural Information Processing Systems.[S.l.]: [s.n.], 2012: 1097-1105.
[6] SUN X, WEI Y, LIANG S, et al. Cascaded hand pose regression [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015: 824-832.
[7] TANG D, TAYLOR J, KOHLI P, et al. Opening the black box:" Hierarchical sampling optimization for estimating human hand pose [C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 3325-3333.
[8] XU C, GOVINDARAJAN L N, ZHANG Y, et al. Lie-X: Depth image based articulated object pose estimation, tracking, and action recognition on Lie groups [J]. International journal of computer vision, 2016, 123(3), 1-25.
[9] ZHOU X, WAN Q, ZHANG W, et al. Model based deep hand pose estimation [J]. International joint conference on artificial intelligence, 2016: 9511016.
[10] GE L, LIANG H, YUAN J, et al. Thalmann, robust 3D hand pose estimation in single depth images: from single-view CNN to multi-view CNNs [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016:3593-3601.
[11]劉杰,王月,田明.多尺度時(shí)空特征融合的動(dòng)態(tài)手勢(shì)識(shí)別網(wǎng)絡(luò)[J].電子與信息學(xué)報(bào),2023,45(7):2614-2622.
[12]毛力,張藝楠,孫俊.融合注意力與時(shí)域多尺度卷積的手勢(shì)識(shí)別算法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2196-2202.
[13]顧明,李軼群,張二超,等.可分離長(zhǎng)短期注意力網(wǎng)絡(luò)的手勢(shì)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2022,42(z1):59-63.
[14] ZHANG Y, MI S, WU J X, et al. Simultaneous 3D hand detection and pose estimation using single depth images [J]. Pattern recognition letters, 2020, 140: 43-48.
作者簡(jiǎn)介:張會(huì)影(1981—),女,副教授,主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像處理和深度學(xué)習(xí)。
圣文順(1979—),男,副教授,主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像處理和人工智能。
收稿日期:2023-11-21 修回日期:2023-12-19
基金項(xiàng)目:2023年度江蘇高校哲學(xué)社會(huì)科學(xué)研究項(xiàng)目(2023SJYB 0687);南京工業(yè)大學(xué)浦江學(xué)院2022教改重中之重項(xiàng)目(2022JG001Z);南京工業(yè)大學(xué)浦江學(xué)院自然科學(xué)重點(diǎn)培育項(xiàng)目(njpj2022-1-06);南京工業(yè)大學(xué)浦江學(xué)院2020重點(diǎn)精品課程《數(shù)據(jù)庫(kù)原理與應(yīng)用》項(xiàng)目研究成果之一;江蘇省高校自然科學(xué)研究項(xiàng)目(19KJD520005);江蘇省高?!扒嗨{(lán)工程”項(xiàng)目(蘇教師函[2021]11號(hào))
物聯(lián)網(wǎng)技術(shù)2024年11期