解迎剛,王 全
1.北京信息科技大學(xué) 信息與通信工程學(xué)院,北京100101
2.北京信息科技大學(xué) 現(xiàn)代測控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京100101
手勢伴隨著人們?nèi)粘=涣鞯母鱾€方面,人們可通過手的動作來表達(dá)豐富的語義信息。基于視覺的手勢識別(簡稱“手勢識別”)融合了先進(jìn)感知技術(shù)與計(jì)算機(jī)模式識別技術(shù),涉及了工學(xué)、理學(xué)等多個學(xué)科,在讓人類和機(jī)器更好地交流方面扮演著重要的角色。然后自然世界中手勢的變化具有無窮性,目前的手勢識別技術(shù)依然無法完成人與機(jī)器自然交互,因而動態(tài)手勢識別研究對于科研人員來說仍然具備相當(dāng)多的挑戰(zhàn)性。
自從圖像傳感器技術(shù)問世以來,其技術(shù)不斷更新迭代,從彩色化到精細(xì)化再到智能化。但是目前基于2D的圖像傳感器由于不能提供現(xiàn)代社會所需要的更多信息,已經(jīng)逐漸不再被科研人員所青睞,人工智能物聯(lián)網(wǎng)正朝著3D化方向發(fā)展。文獻(xiàn)[1-4]綜述了各種三維深度傳感技術(shù),重點(diǎn)介紹了不同3D 傳感器的工作機(jī)理。本文重點(diǎn)討論三種常用的手勢識別深度傳感器,簡要介紹Leap motion 傳感器,Kinect 傳感器和Time-of-flight(ToF)傳感器(各種傳感器簡要的比較參見表1)。盡管傳統(tǒng)的雙目立體相機(jī),如Point Grey的Bumblebee,也可以感知手的深度,但較高的價格限制了它在實(shí)際應(yīng)用中的普遍適用性。
表1 傳感器技術(shù)的比較Table 1 Comparison of sensor technology
Kinect1.0 是微軟在2010 年發(fā)布的一款3D 深度傳感器,與OpenNI和SDK庫相結(jié)合[5],能夠跟蹤人體關(guān)節(jié)的骨骼,研究者可以在此基礎(chǔ)上對手勢識別進(jìn)行研究。Kinect 有兩種關(guān)于手勢識別的基本方法:(1)基于骨架的識別[6];(2)基于深度的識別[1]。
在第一種情況下,人體的骨骼關(guān)節(jié),特別是手掌關(guān)節(jié),可以通過傳感器快速檢測和跟蹤。由于Kinect 快速、低成本的手勢提取[7],通過Kinect傳感器可以對人體骨骼進(jìn)行跟蹤,提取關(guān)節(jié)坐標(biāo)并進(jìn)行矢量計(jì)算,得到人體指向的方向,實(shí)現(xiàn)人-機(jī)器人交互的指向手勢識別。此外文獻(xiàn)[8-9]通過Kinect 跟蹤人體骨骼并獲取關(guān)于人體骨骼的三維深度信息,實(shí)現(xiàn)手勢識別和持續(xù)人體活動識別。
在第二種情況下,Kinect傳感器關(guān)閉其基于Adaboost訓(xùn)練好的人體骨骼框架,只作為紅綠藍(lán)深度(RGB-D)采集設(shè)備。周仁等[10]使用Kinect獲取手勢的RGB-D信息,并用深度信息分割手,比傳統(tǒng)方法更有效。但是由于Kinect深度傳感器采集的深度信息的精度不夠高,分割后的手模型[11]不夠穩(wěn)健。
Leap Motion 傳感器是在2013 年度發(fā)布的深度傳感器。與Kinect關(guān)注全身的信息相比較而言,它關(guān)注的是手部的骨骼信息。它能夠準(zhǔn)確地檢測手和手指,精度為0.01 mm[12]。Leap Motion 深度傳感器率先被用于跟蹤用戶的手指,以便在虛擬環(huán)境[13]中啟用手動控制的接口。由于Leap Motion深度傳感器的準(zhǔn)確性和適用性,許多研究已經(jīng)成為使用Leap Motion 的先驅(qū)作品?;谶@些評估[11,14],期望Leap Motion 可以幫助研究人員進(jìn)一步開發(fā)用于3D手勢識別的工具包。
Kinect2.0 是2014 年發(fā)布的深度傳感器。Kinect2.0是一個TOF相機(jī),TOF相機(jī)是一種低成本的深度測量硬件設(shè)施,與Kinect1.0 相比具有更高的精度?;赥OF的手勢識別使機(jī)器人能夠由手勢[15]控制。由于其準(zhǔn)確性和魯棒性,TOF 傳感器已被用于生成三維點(diǎn)云,有助于識別復(fù)雜的手軌跡手勢,如日本手語[16]、波蘭手語[17]等。
基于視覺的動態(tài)手勢識別由4個關(guān)鍵步驟組成:手勢的檢測與分割、手勢的追蹤、特征的提取和手勢的分類。本文將以動態(tài)手勢識別所涉及到的關(guān)鍵步驟為中心主線,對手勢識別所涉及到的關(guān)鍵技術(shù)進(jìn)行詳細(xì)分析,并對各個環(huán)節(jié)的方法用圖表的方式進(jìn)行歸納總結(jié)。所涉及的方法具體如圖1所示。
圖1 手勢識別基本流程Fig.1 Basic process of gesture identification
在手勢識別的過程中,第一步就是要檢測到手的存在。手的檢測就是從視覺傳感器獲得的視頻序列中檢測是否有手的存在,并且定位手在圖像中的像素點(diǎn)集合的位置。手的分割是將上一步手勢檢測定位到的像素點(diǎn)坐標(biāo)的集合分離出來,有效地減少像素點(diǎn)的計(jì)算,便于后續(xù)操作。手勢按可觀察的特征可分為靜態(tài)手勢和動態(tài)手勢。動態(tài)手勢識別不僅要進(jìn)行手的檢測和手的分割,而且還需要對手進(jìn)行跟蹤,識別其動態(tài)特征。解決手部檢測和分割問題的主要方法如下。
2.1.1 基于運(yùn)動信息
手的運(yùn)動是檢測手勢的有用特征。該領(lǐng)域有兩種研究方法:差分圖像和光流。差分圖像方法可以顯著消除由于背景圖像變化所帶來的影響。但該方法不能分割靜止的物體,只對運(yùn)動的物體有效。與此相反的是,光流法可以在不知道圖像背景的情況下,清楚地表示手勢的運(yùn)動,即使環(huán)境比較復(fù)雜,也能很好地完成手勢的檢測。圖勞和達(dá)拉爾擴(kuò)展了著名的定向梯度直方圖(Histogram of Oriented Gradient,HOG)方法[18]?;谶\(yùn)動信息的分割方案需要假定一些前提,才能達(dá)到很好的效果。例如,差分圖像方法要求前景圖像和背景圖像之間有明顯的色差。光流法要求背景是恒定不動的,光照不變對其檢測效果影響很大,并且圖像中的主要運(yùn)動成分必須是手勢運(yùn)動。
2.1.2 基于外觀特征
外觀特征是指手的皮膚顏色、質(zhì)地分布、指尖位置及其形狀、手的形狀和輪廓。在眾多的外觀特征中,膚色分割因?yàn)楹唵慰焖俚奶匦员谎芯空呦矏?。皮膚顏色檢測已采用兩種方法實(shí)現(xiàn):一是基于像素級別的膚色檢測,其圖像中的每個像素分別被分類為皮膚或者非皮膚。第二種方法是區(qū)域膚色檢測,其中根據(jù)強(qiáng)度和紋理等信息對皮膚像素進(jìn)行空間處理,研究者根據(jù)對RGB、HSV 等顏色中的手勢進(jìn)行建模分析。但是基于膚色的方法的魯棒性和適應(yīng)性較差,比如光照變化、背景問題和其他類型的噪聲。在復(fù)雜的環(huán)境中,基于顏色的手勢識別系統(tǒng)很容易受到光照和陰影的影響。因此,為了改變這一不足,增加基于膚色方法在復(fù)雜環(huán)境中的識別效果,研究者在多種方法融合之間尋找突破口。例如,Lan 等通過將顏色信息、運(yùn)動信息和形狀定位,有效提高了手勢分割[19]的精度。
2.1.3 基于學(xué)習(xí)算法
最近的一個研究趨勢是使用學(xué)習(xí)算法進(jìn)行手部檢測。視覺特征方法基于各種視覺特征,而學(xué)習(xí)算法是指在傳感器獲得數(shù)據(jù)之后,利用機(jī)器學(xué)習(xí)算法從這些數(shù)據(jù)中識別出手勢。雖然有些算法是基于視覺特征方法的,但圖像背景去除對于學(xué)習(xí)算法是不必要的。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(jī)(Support Vector Machine,SVM)和隨機(jī)決策森林(Random Decision Forest,RDF)等學(xué)習(xí)算法在手勢識別系統(tǒng)[20]得到了廣泛的應(yīng)用。
2.1.4 基于骨架模型
由于深度傳感器的普及,許多研究使用三維模型來識別手勢,最常用的是骨架模型。骨架模型是一種簡化的人手模型,它只保留了人手中最有價值的信息。骨架模型方法在手勢檢測中很有優(yōu)勢,因此已成為深度傳感器[21]的一種有吸引力的解決方案。
通過表2可以知道,手勢由于具有高自由度以及手勢背景的復(fù)雜性,基于外觀的方法雖然可以完成手勢的檢測與分割,但是容易受到類膚色的影響。通過分析文獻(xiàn)發(fā)現(xiàn),如果只提取手部區(qū)域,單一的方法難以避免噪聲的影響,而采用多方法綜合可以大幅度地提高手勢檢測與分割的效果。因此,應(yīng)該按照手形的變換,設(shè)計(jì)合理有效的方法,以提高分割算法的魯棒性。
表2 手勢檢測與分割方法比較Table 2 Comparison of gesture detection and segmentation methods
在動態(tài)手勢識別中,需要跟蹤手部的軌跡,持續(xù)不斷的手勢追蹤對于手勢識別來說非常重要。這意味著空間分割和時間分割對于識別動態(tài)手勢都是必要的,對于可以用單幀表示的靜態(tài)手勢[23],沒有必要進(jìn)行手勢跟蹤。從本質(zhì)上來說,手勢追蹤是對時序上連續(xù)的圖像進(jìn)行逐幀分析,在圖像幀與幀之間變化間隔之內(nèi)計(jì)算出被追蹤的目標(biāo)。但是因?yàn)槭謩葑鳛樽粉櫮繕?biāo),目標(biāo)相對比較小,而且手勢的動作變換比較快,相對于汽車之類的物體來說,在空間中的自由度比較高,所以導(dǎo)致了對手部追蹤的困難性。從近年來手勢追蹤的國內(nèi)外文獻(xiàn)及技術(shù)實(shí)現(xiàn)上來看,常見的手勢追蹤算法主要有如下幾種:基于運(yùn)動信息的手勢追蹤、基于匹配的手勢跟蹤、基于擴(kuò)展外觀模型匹配的手勢跟蹤、基于稀疏表示的手勢追蹤以及基于深度信息的手勢追蹤。常用的手勢追蹤方法對比情況如表3所示。
由表3 可知,在實(shí)際應(yīng)用中,單一的跟蹤算法針對手勢的追蹤效果比較差,難以準(zhǔn)確追蹤手勢位置。因此,實(shí)際應(yīng)用中往往需要結(jié)合多種算法來提高手勢跟蹤方法的魯棒性。Yuan 等[36]提出了一種基于多特征融合的模型,并將其應(yīng)用于視覺跟蹤的相關(guān)濾波框架中,實(shí)驗(yàn)結(jié)果表明,該模型在提高跟蹤器的跟蹤性能和魯棒性方面非常有效。Danelljan 等[37]研究了顏色在逐點(diǎn)檢測框架中的作用,提出了一種自適應(yīng)的低維顏色屬性變換方法以提高跟蹤效果。對于傳統(tǒng)的MeanShift算法在遇到目標(biāo)遮擋的情況下容易丟失目標(biāo)狀況,Khan等[38]結(jié)合運(yùn)動目標(biāo)的空間信息,有效解決了運(yùn)動目標(biāo)遮擋帶來的跟蹤效果下降的問題。李妍妍等[39]提出一種自適應(yīng)跟蹤窗口的處理方法,大大增加了持續(xù)跟蹤目標(biāo)的概率,減少了目標(biāo)的誤跟蹤,并且可以在跟蹤過程中適應(yīng)目標(biāo)尺度的變化。雖然基于稀疏表示的方法與基于深度學(xué)習(xí)的方法改善了目標(biāo)追蹤效果,但是手勢特征的細(xì)節(jié)信息容易丟失。為此,Qian等[40]提出了一種基于深度學(xué)習(xí)和自適應(yīng)粒子濾波的在線視覺跟蹤算法,該算法在目標(biāo)或攝像機(jī)快速移動時表現(xiàn)出了先進(jìn)性。Zhao 等[41]提出一種采用結(jié)構(gòu)化局部稀疏表示方法對目標(biāo)周圍的背景區(qū)域進(jìn)行分析,并設(shè)計(jì)了一種加權(quán)搜索方法尋找最佳候選目標(biāo)。針對復(fù)雜場景中其他不是目標(biāo)的物體對目標(biāo)跟蹤的影響,李東杰等[34]提出一種適合于復(fù)雜場景下手勢跟蹤的規(guī)劃區(qū)域的檢測跟蹤方法,該方法對于過濾當(dāng)前背景中非目標(biāo)對跟蹤目標(biāo)的不良影響非常有效。針對復(fù)雜背景下手勢運(yùn)動過程中的手勢形態(tài)變化容易出現(xiàn)跟蹤目標(biāo)丟失,跟蹤過程中出現(xiàn)漂移,光照變化的魯棒性不高等情況,王彩紅等[42]提出了一種基于時空上下文的手勢跟蹤與識別方法。該方法結(jié)合手勢檢測算法,可以實(shí)時更正手勢的位置信息,有效提高了手勢跟蹤在各方面的魯棒性。因此,根據(jù)以上多種方法的綜合分析,可以預(yù)測多種手勢追蹤方法的結(jié)合仍然將會是動態(tài)手勢識別研究的熱點(diǎn)。
表3 手勢追蹤方法對比Table 3 Comparison of gesture tracking methods
手勢分類是對提取的手勢時空特征進(jìn)行分類,是手勢識別的最后一個階段。手勢分類的方法主要有以下幾種。
2.3.1 基于模板匹配
模板匹配法是最早被提出來的識別方法,也相對容易,多用于靜態(tài)手勢識別。該方法是將輸入圖像與模板(點(diǎn)、曲線或形狀)匹配,并根據(jù)匹配相似性進(jìn)行分類。坐標(biāo)距離、點(diǎn)集距離等,輪廓邊緣匹配、彈性圖匹配等都可以用于匹配度計(jì)算。模板匹配法的優(yōu)點(diǎn)是在小樣本的情況下速度非常快,對于光照、背景變化的適應(yīng)性較好,應(yīng)用范圍廣,但分類精度不高,可以識別手勢的類型有限,適用于小樣本、形狀變化小等情形。
2.3.2 基于機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)可以讓計(jì)算機(jī)在海量數(shù)據(jù)中產(chǎn)生符合數(shù)據(jù)一般規(guī)律的模型,手勢識別可以通過許多流行的機(jī)器學(xué)習(xí)分類算法來解決,如支持向量機(jī)、K-最近鄰算法(K-Nearest Neighbor,KNN)等。
支持向量機(jī)在數(shù)據(jù)集利用監(jiān)督算法來對二元模型進(jìn)行分類,其本質(zhì)是在特征空間找到?jīng)Q策邊界從而找到最合適的分類器。支持向量機(jī)還可以利用核方法,將其擴(kuò)展為非線性分類器。它的學(xué)習(xí)策略是間隔最大化,可形式化為求解凸二次規(guī)劃問題[43]。
Pisharady 等人利用邊緣和紋理特征,結(jié)合SVM 進(jìn)行手勢識別。實(shí)驗(yàn)結(jié)果表明,該算法具有獨(dú)立于人的性能,對手大小和復(fù)雜背景[44]的變化是可靠的。然而,SVM方法在面對大量樣本時會明顯降低計(jì)算速度。
2.3.3 基于深度學(xué)習(xí)
深度學(xué)習(xí)是一個新的機(jī)器學(xué)習(xí)分支,它可以模擬生物神經(jīng)系統(tǒng)和現(xiàn)實(shí)世界的相互作用,具有強(qiáng)大的自適應(yīng)、抗干擾和移動學(xué)習(xí)能力。此外,與傳統(tǒng)的學(xué)習(xí)算法不同,深度學(xué)習(xí)不需要手工工程,這使得有可能利用指數(shù)增長的可用數(shù)據(jù)和計(jì)算能力[45]。卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)[46]是兩種流行的深度學(xué)習(xí)算法。由于深度學(xué)習(xí)[47]在許多領(lǐng)域表現(xiàn)出來的性能都特別強(qiáng)大,基于深度學(xué)習(xí)的手勢識別方法已經(jīng)成為主流。
多層深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)中的潛在規(guī)律,從而提供很好的預(yù)測結(jié)果,這項(xiàng)技術(shù)面臨的最大挑戰(zhàn)是數(shù)據(jù)集可能會影響學(xué)習(xí)的時間。表4呈現(xiàn)了一系列論文,這些論文使用基于深度學(xué)習(xí)算法去檢測ROI。作者利用7種流行的手勢,這些手勢由攝像頭捕獲,并生成24 698 張圖片。特征提取和自適應(yīng)深度卷積網(wǎng)絡(luò)被用于手勢分類。實(shí)驗(yàn)評估結(jié)果用了100%的訓(xùn)練集和99%的測試集,耗時15 598 s[48]。而其他系統(tǒng)按照拍照順序去跟蹤手勢,然后用Y-Cb-Cr Color Space技術(shù)除去背景色,除此之外,KCF被用來跟蹤ROI。生成的圖像送入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)。CNN模型被用來與改進(jìn)的Alex 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò)做對比,訓(xùn)練集的識別率為99.9%,測試集的識別率為95.61%[49]?;谏窠?jīng)網(wǎng)絡(luò)的新方法忽略分割和檢測階段,將調(diào)整后的圖片直接送入網(wǎng)絡(luò)。該系統(tǒng)實(shí)時性好,簡單背景的準(zhǔn)確率為97.1%,復(fù)雜背景的準(zhǔn)確率為85.3%[50]。
表4 基于深度學(xué)習(xí)的手勢分類方法及效果Table 4 Geometric classification method and effect based on deep learning
Kinect傳感器產(chǎn)生的深度圖像用于分割彩色圖像,然后將顏色建模與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,使用誤差反向傳播算法來調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)的閾值和權(quán)重,支持向量機(jī)分類算法被加入網(wǎng)絡(luò)去增強(qiáng)實(shí)驗(yàn)結(jié)果[51]。其他的研究使用高斯混合模型過濾掉用于訓(xùn)練CNN圖片中非皮膚顏色以識別7個手勢,平均識別率為95.96%[52]。遞歸神經(jīng)網(wǎng)絡(luò)從記錄的視頻序列中采樣得到多個幀送入網(wǎng)絡(luò)。為了提取代表幀,使用了基于語義分割的反卷積神經(jīng)網(wǎng)絡(luò)。采用平鋪圖像模式和平鋪二值模式對去卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練[53]。雙通道卷積神經(jīng)網(wǎng)絡(luò)(Double Channel Convolutional Neural Network,DC-CNN)[54],在將原始圖像輸入網(wǎng)絡(luò)之前,對其進(jìn)行預(yù)處理。每個雙通道CNN都有一個單獨(dú)的權(quán)重和用于分類輸出結(jié)果的softmax分類器,系統(tǒng)的識別率為98.02%。崔虎等[56]提出了一種基于異步多時域時空特征的手勢識別方法。首先通過輕量級三維卷積網(wǎng)絡(luò)提取視頻序列的不同時間步態(tài)的短期時空特征,然后通過改進(jìn)的卷積長短期記憶網(wǎng)絡(luò)學(xué)習(xí)長期時空特征,最后將不同步態(tài)的時空特征融合為異步多時域特征,以此來對手勢進(jìn)行分類識別。王粉花等[57]提出一種融合雙流三維卷積神經(jīng)網(wǎng)絡(luò)(I3D)和注意力機(jī)制(CBAM)的動態(tài)手勢識別方法CBAM-I3D,該方法有效提高了動態(tài)手勢的正確率,識別率達(dá)到了90.76%。最后,一種新的基于SPD流形學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)用于骨骼手勢識別被提出[55]。
2.3.4 HMM
隱馬爾可夫模型(Hidden Markov Model,HMM)是一種基于貝葉斯的統(tǒng)計(jì)模型,主要處理基于時間序列或狀態(tài)序列問題。隱馬爾可夫模型是馬爾可夫鏈的一個擴(kuò)展,是著名的有向圖模型,作為基于概率統(tǒng)計(jì)的典型方法用于語音識別、手勢識別等領(lǐng)域[43]。
對于手勢識別問題,由于手勢動作的上下文環(huán)境敏感性強(qiáng),隱馬爾可夫模型更適用連續(xù)手勢識別場景。在連續(xù)信號的應(yīng)用中,隱馬爾可夫模型訓(xùn)練和識別屬于計(jì)算密集型的。其中狀態(tài)轉(zhuǎn)換性質(zhì)會帶來大量的概率密度計(jì)算,模型訓(xùn)練和目標(biāo)識別速度將隨著參數(shù)量增大而變慢。針對這一現(xiàn)象,離散隱馬爾可夫模型被廣泛應(yīng)用于一般手勢識別系統(tǒng)中。
2.3.5 DTW
動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)是一種非線性時間歸一化的匹配技術(shù),解決了兩個序列長度不一致的匹配問題,廣泛應(yīng)用于語音識別、圖像匹配、手勢分類等領(lǐng)域。它通過非線性歸一化函數(shù),采用動態(tài)規(guī)劃方法,讓輸入序列和模板序列的點(diǎn)值實(shí)現(xiàn)一對多匹配或者一對一匹配,求得兩端序列的最佳對齊方法。在手勢樣本模板庫比較小的情況下,DTW 算法在不同運(yùn)動速度手勢的匹配和識別方面表現(xiàn)優(yōu)異。但是,當(dāng)手勢樣本模板庫比較大的情況下,該算法的識別速度以及穩(wěn)定性會大大下降,特別是當(dāng)手勢比較復(fù)雜,或者是雙手手勢的組合情況下。
綜上所述,比較了基于模板匹配、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)算法、幾何特征、HMM和DTW的手勢識別方法,如表5所示。
表5 手勢識別常用方法對比Table 5 Comparison of common gesture recognition methods
手勢的研究已經(jīng)成為一個令人興奮的相關(guān)領(lǐng)域,它提供了自然交互的方式,降低了使用傳感器的成本。傳統(tǒng)的交互方法依賴于不同的設(shè)備,如鼠標(biāo)、鍵盤、觸摸屏、用于游戲的操作桿和機(jī)器控制的控制臺。下面描述了一些常見的手勢應(yīng)用。
2.4.1 臨床與健康心理學(xué)
在臨床手術(shù)中,為了縮短手術(shù)時間或提高結(jié)果的精確性,外科醫(yī)生可能需要患者整個身體結(jié)構(gòu)的細(xì)節(jié)或詳細(xì)的器官模型,通過使用醫(yī)學(xué)成像系統(tǒng),如MRI、CT 和X-ray 系統(tǒng)來實(shí)現(xiàn)。這些系統(tǒng)從患者的身體中收集數(shù)據(jù),并將其作為詳細(xì)的圖像顯示在高分辨率的電子大屏。外科醫(yī)生可以通過使用計(jì)算機(jī)視覺技術(shù)在攝像頭前做手勢來觀察圖像的交互。這些手勢能實(shí)現(xiàn)一些操作,如縮放、旋轉(zhuǎn)、圖像裁剪和切換到下一張或上一張幻燈片,而無需使用任何周邊設(shè)備,如鼠標(biāo)、鍵盤或觸摸屏。任何額外的設(shè)備都需要消毒,這對于鍵盤和觸摸屏來說可能很困難。此外,手勢可以用于輔助目的,如輪椅控制[58]。
2.4.2 手語識別
手語是無法用言語與他人交流的一種交流方法,它由一組手勢組成,每個手勢代表一個字母、數(shù)字或表情。許多研究論文提出了聾啞人的手語識別,使用戴在手上的手套傳感器,根據(jù)手部運(yùn)動做出反應(yīng),或者,它可能涉及使用計(jì)算機(jī)視覺技術(shù)來識別手勢,從而發(fā)現(xiàn)與攝像頭的互動。對于上述兩種方法,用于手勢分類的數(shù)據(jù)集與用戶做出的實(shí)時手勢相匹配[59-61]。
2.4.3 社會輔助機(jī)器人
手勢可以作為命令,為機(jī)器人提供有意義的指令。該機(jī)器人將根據(jù)不同的指令調(diào)用不同的邏輯代碼,完成不同的功能。如今,在人機(jī)交互方面,人們可以使用更自然的方式來讓機(jī)器人為人類服務(wù)[62]。
2.4.4 虛擬環(huán)境
虛擬環(huán)境是基于一個3D模型,需要一個3D手勢識別系統(tǒng),以便作為一個HCI 實(shí)時交互,這些手勢可用于修改和查看或用于娛樂目的,例如彈奏虛擬鋼琴。該手勢識別系統(tǒng)利用數(shù)據(jù)集與采集到的手勢進(jìn)行實(shí)時匹配[63]。
2.4.5 智能家居
手勢可以有效地用于家庭自動化。握手或做一些手勢可以很容易地控制燈光、風(fēng)扇、電視、收音機(jī)等。它們可以用來改善老年人的生活質(zhì)量[64]。
2.4.6 個人電腦和平板電腦
手勢可以作為一種替代輸入設(shè)備,使計(jì)算機(jī)無需鼠標(biāo)或鍵盤就可以進(jìn)行交互,例如通過桌面環(huán)境拖動、拖放和移動文件,以及剪切和粘貼操作。手勢還可以用來控制幻燈片顯示[65]。此外,它們還能與平板電腦一起使用,聾啞人可以在平板電腦的攝像頭前移動手,與他人進(jìn)行互動,這需要安裝一個將手語翻譯成文本的應(yīng)用程序,并將其顯示在屏幕上。這類似于語音到文本的轉(zhuǎn)換。
2.4.7 游戲手勢
手勢互動用于游戲的最佳例子是微軟的Kinect Xbox,它的屏幕上有一個攝像頭,通過電纜接口與Xbox設(shè)備連接,用戶可以通過使用Kinect攝像頭傳感器跟蹤的手部動作和身體動作與游戲互動。
以上章節(jié)對動態(tài)手勢識別技術(shù)過程進(jìn)行了全面的描述,雖然動態(tài)手勢識別已經(jīng)取得了顯著的進(jìn)步,但是由于動態(tài)手勢識別技術(shù)是一個跨學(xué)科且快速發(fā)展的學(xué)科,仍然面臨著很多的挑戰(zhàn)。例如:如何在手部遮擋、不同的光照條件下,保持手勢識別的穩(wěn)健性,如何有效地解決手勢的誤追蹤問題,以及巨大的計(jì)算成本,使得現(xiàn)有的動態(tài)手勢識別算法在實(shí)時性、運(yùn)算速度、識別率等方面還有許多問題有待解決。因此,本文將介紹一些動態(tài)手勢識別技術(shù)所面臨的挑戰(zhàn)和未來可能的研究方向。
(1)復(fù)雜背景下的手勢檢測問題
大多數(shù)現(xiàn)有的手勢檢測過程的研究是假設(shè)手勢的背景是簡單的,但應(yīng)用中的背景卻比較復(fù)雜。比如,在機(jī)器與工人的人機(jī)交互過程中,傳感器設(shè)備所采集到的手勢會包含大量復(fù)雜的背景環(huán)境,包括光照的改變、背景環(huán)境的改變,這樣會增加手勢檢測的難度,導(dǎo)致手勢識別的精度下降。因此,研究在復(fù)雜背景下的手勢檢測如何提高手勢識別的魯棒性,提高動態(tài)手勢識別在復(fù)雜場景的交互能力,將會是未來的一個研究方向。
(2)動態(tài)手勢的追蹤與匹配問題
在動態(tài)手勢識別的過程中,由于手勢的多變性和高自由度,以及手勢背景的復(fù)雜性,導(dǎo)致長時間追蹤手勢和提高手勢追蹤的精度一直具有挑戰(zhàn)性。但是在一些3D 游戲和虛擬現(xiàn)實(shí)中,長時間的手勢追蹤是必須的。因此,如何提高動態(tài)手勢的跟蹤精度,提升用戶手勢交互方面的體驗(yàn),將會是未來的一個研究方向。
(3)手勢的實(shí)時性與計(jì)算量問題
對于手勢圖片和手勢視頻序列,要想得到高精度的手勢識別率,設(shè)計(jì)比較深的網(wǎng)絡(luò)層是非常有必要的,從而使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得非常有障礙性,主要包括以下幾點(diǎn):①數(shù)據(jù)量,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要海量的樣本來作為訓(xùn)練集,而人工標(biāo)注訓(xùn)練集也是巨大的工程量;②內(nèi)存存儲,深度神經(jīng)網(wǎng)絡(luò)需要存儲大量的參數(shù),以及為了在大規(guī)模的訓(xùn)練集中提高訓(xùn)練效率,需要較大的內(nèi)存存儲去滿足每次大批量地送入訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練;③昂貴的計(jì)算成本,大規(guī)模的訓(xùn)練集不但需要較大內(nèi)存,還需要有性能強(qiáng)悍的計(jì)算設(shè)備來加快訓(xùn)練和測試速度。因?yàn)樵谝恍┪kU人機(jī)交互場景中,實(shí)時性是一個很重要的要求,所以如何在保證精度的前提下提高手勢識別的實(shí)時性和減小運(yùn)算成本將會是未來的一個研究方向。
因此,就當(dāng)前研究情況來看,手勢識別中手勢存在的多樣性和歧義性以及時空的差異性是手勢識別中的常見難題,局限性在一些經(jīng)典的方法中還是存在的,主要原因在于手勢動作變換的多樣性、手勢語義的復(fù)雜性以及背景噪聲的干擾,在數(shù)據(jù)量較少時可以表現(xiàn)出其自身優(yōu)越性。目前,基于深度學(xué)習(xí)的動態(tài)手勢識別發(fā)展較為迅速,應(yīng)用較廣,是當(dāng)前研究的熱點(diǎn)。而如何在保證識別準(zhǔn)確率的情況下,有效減少高計(jì)算成本和運(yùn)行時間,提高手勢識別的實(shí)時性將是未來研究的重點(diǎn)。如果這些問題得到解決,那么極有可能會解決傳統(tǒng)方法所遇到的一系列問題,讓動態(tài)手勢識別的發(fā)展迎來下一波熱潮。
本文首先介紹了幾種常見的視覺傳感器,其次介紹了動態(tài)手勢識別的基本過程,并對每個過程所涉及的方法進(jìn)行了詳細(xì)的對比分析,總結(jié)了各類方法的優(yōu)缺點(diǎn)。最后根據(jù)本文總結(jié)的內(nèi)容,分析了目前動態(tài)手勢識別存在的未解決問題,并說明了將來可能的發(fā)展方向。
手勢識別作為人類與機(jī)器交互的自然方式,應(yīng)用非常多,如手語識別、遙控機(jī)器人、3D游戲和虛擬現(xiàn)實(shí)等,將會是一個持續(xù)的研究熱點(diǎn)。希望相關(guān)科學(xué)研究者繼續(xù)完善動態(tài)手勢識別的研究,讓動態(tài)手勢識別技術(shù)對未來社會發(fā)揮更多的作用。