摘 要:基于視覺的手勢(shì)識(shí)別系統(tǒng)能夠使操作者徒手以更加自然的方式進(jìn)行人機(jī)交互,無(wú)需設(shè)備費(fèi)用,且操作方便,是手勢(shì)識(shí)別未來(lái)的發(fā)展趨勢(shì)。本文從專利的角度出發(fā),分析了該項(xiàng)技術(shù)專利申請(qǐng)的年代、地域分布情況以及技術(shù)發(fā)展路線。
關(guān)鍵詞:視覺手勢(shì);識(shí)別;交互;專利
一、引言
人機(jī)交互是手勢(shì)識(shí)別成功應(yīng)用的一個(gè)重要領(lǐng)域,其在對(duì)機(jī)器人的控制、汽車駕駛、操縱圖形對(duì)象等場(chǎng)景中都有豐富的應(yīng)用。最初的手勢(shì)識(shí)別主要是利用機(jī)器設(shè)備的直接檢測(cè)來(lái)獲取人手與各個(gè)關(guān)節(jié)的空間信息,其典型代表設(shè)備如數(shù)據(jù)手套等。
外部設(shè)備的介入雖使得手勢(shì)識(shí)別的準(zhǔn)確度和穩(wěn)定性得以提高,但卻掩蓋了手勢(shì)自然的表達(dá)方式,為此,基于視覺的手勢(shì)識(shí)別方式應(yīng)運(yùn)而生?;谝曈X的手勢(shì)識(shí)別系統(tǒng),相比于穿戴設(shè)備手勢(shì)識(shí)別系統(tǒng),其能夠使操作者徒手以更加自然的方式進(jìn)行人機(jī)交互,這種方法不但不需要花費(fèi)高昂的設(shè)備費(fèi)用,而且在操作時(shí)也更加方便,是手勢(shì)識(shí)別未來(lái)的發(fā)展趨勢(shì)。
二、專利技術(shù)發(fā)展?fàn)顩r分析
(一)專利申請(qǐng)量趨勢(shì)及地域分布
如圖1所示,早在20世紀(jì)90年代就出現(xiàn)了視覺手勢(shì)識(shí)別的專利申請(qǐng),而中國(guó)國(guó)內(nèi)最早的關(guān)于視覺手勢(shì)識(shí)別的專利申請(qǐng)則出現(xiàn)于2000年??傮w看來(lái)國(guó)內(nèi)外關(guān)于視覺手勢(shì)識(shí)別的專利申請(qǐng)數(shù)量大致呈現(xiàn)增長(zhǎng)趨勢(shì):在1997-2007年期間,全球?qū)@暾?qǐng)量呈現(xiàn)較平穩(wěn)的狀態(tài),其中,在2003-2006年期間有所下降,其原因可能是受到手勢(shì)采集設(shè)備和計(jì)算機(jī)視覺發(fā)展的限制;自2008年之后進(jìn)入迅猛增長(zhǎng)期,在2016年專利申請(qǐng)量達(dá)到545件(注:由于專利公開需要18個(gè)月的時(shí)間,2017-2018年期間提出的部分專利申請(qǐng)尚未公布,因此雖然檢索到的2017-2018年期間的專利申請(qǐng)數(shù)量相較于2016年有所減少,但不能說(shuō)明專利申請(qǐng)數(shù)量在下降);與此同時(shí),中國(guó)的專利申請(qǐng)數(shù)量與全球趨勢(shì)大致相同,在2000-2009年處于較平穩(wěn)的狀態(tài),自2010年之后進(jìn)入迅猛增長(zhǎng)期,在2016年專利申請(qǐng)量達(dá)到315件。從圖1的發(fā)展趨勢(shì)看來(lái),基于視覺的手勢(shì)識(shí)別在未來(lái)幾年仍然會(huì)處于快速發(fā)展期。
圖2為全球范圍內(nèi)視覺手勢(shì)識(shí)別的專利申請(qǐng)量地域分布情況,從圖中可以看出,專利申請(qǐng)量較多的國(guó)家為中國(guó)、美國(guó)、日本和韓國(guó)。結(jié)合圖1和2可以看出,雖然中國(guó)在視覺手勢(shì)識(shí)別方面的發(fā)展較晚,但發(fā)展迅速,一方面是因?yàn)橹袊?guó)經(jīng)濟(jì)的迅速發(fā)展,國(guó)內(nèi)各企業(yè)和研發(fā)機(jī)構(gòu)的科研力度加大,專利申請(qǐng)的數(shù)量也隨之大幅上升;另一方面則是因?yàn)閲?guó)內(nèi)各企業(yè)和研發(fā)機(jī)構(gòu)的專利意識(shí)加強(qiáng),積極申請(qǐng)專利以保護(hù)各種新技術(shù)。
(二)專利技術(shù)發(fā)展路線
基于視覺的手勢(shì)識(shí)別技術(shù)的發(fā)展是一個(gè)從二維到三維的過程。早期的手勢(shì)識(shí)別是基于二維彩色圖像的識(shí)別技術(shù),就是指通過普通攝像頭拍出場(chǎng)景后,得到二維的靜態(tài)圖像,然后再通過計(jì)算機(jī)圖形算法進(jìn)行圖像中內(nèi)容的識(shí)別。隨著攝像頭和傳感器技術(shù)的發(fā)展,可以捕捉到手勢(shì)的深度信息,三維的手勢(shì)識(shí)別技術(shù)就可以識(shí)別各種手型、手勢(shì)和動(dòng)作。隨著這個(gè)發(fā)展脈絡(luò),基于視覺的手勢(shì)識(shí)別的關(guān)鍵技術(shù)也發(fā)生了變化,如圖3所示。
二維手型識(shí)別,也稱靜態(tài)二維手勢(shì)識(shí)別,只能識(shí)別出幾個(gè)靜態(tài)的手勢(shì)動(dòng)作,比如握拳或者五指張開。這種技術(shù)只能識(shí)別手勢(shì)的狀態(tài),而不能感知手勢(shì)的持續(xù)變化,采用的是模板匹配技術(shù),基于徒手表觀特征(例如膚色)對(duì)圖像進(jìn)行手勢(shì)分割,利用通過計(jì)算機(jī)視覺算法分析圖像,和預(yù)設(shè)的圖像模型進(jìn)行比對(duì),從而理解手勢(shì)的含義。因此,二維手型識(shí)別技術(shù)只可以識(shí)別預(yù)設(shè)好的狀態(tài),拓展性差、控制感較弱,用戶只能實(shí)現(xiàn)最基礎(chǔ)的人機(jī)交互功能。
二維手勢(shì)識(shí)別,仍停留在二維的層面上,比起二維手型識(shí)別,不僅可以識(shí)別手型,還可以識(shí)別一些簡(jiǎn)單的二維手勢(shì)動(dòng)作,比如對(duì)著攝像頭揮揮手等。二維手勢(shì)識(shí)別擁有了動(dòng)態(tài)的特征,可追蹤手勢(shì)的運(yùn)動(dòng),進(jìn)而識(shí)別將手勢(shì)和手部運(yùn)動(dòng)結(jié)合在一起的復(fù)雜動(dòng)作。這種技術(shù)在硬件要求上和二維手型識(shí)別并無(wú)區(qū)別,但得益于更加先進(jìn)的計(jì)算機(jī)視覺算法,基于手部的運(yùn)動(dòng)信息進(jìn)行手勢(shì)分割,可以獲得更加豐富的人機(jī)交互內(nèi)容。
三維手勢(shì)識(shí)別,相較于二維手勢(shì)識(shí)別,其增加了一個(gè)Z軸的信息,可識(shí)別各種手型、手勢(shì)和動(dòng)作。這種包含一定深度信息的手勢(shì)識(shí)別,需要特別的硬件來(lái)實(shí)現(xiàn),常見的有通過傳感器和光學(xué)攝像頭來(lái)完成。發(fā)展至今,主要有3種硬件實(shí)現(xiàn)方式:結(jié)構(gòu)光,即通過激光的折射以及算法計(jì)算出物體的位置和深度信息,進(jìn)而復(fù)原整個(gè)三維空間;飛行時(shí)間,對(duì)目標(biāo)場(chǎng)景發(fā)射連續(xù)的光脈沖,然后用傳感器接收從物體返回的光,通過探測(cè)光脈沖的飛行時(shí)間得到目標(biāo)物體的深度信息;多角成像,使用兩個(gè)或者兩個(gè)以上的攝像頭同時(shí)采集圖像,通過比對(duì)不同攝像頭在同一時(shí)刻獲得的圖像的差別,使用算法來(lái)計(jì)算深度信息。
三、結(jié)語(yǔ)
本文結(jié)合國(guó)內(nèi)外專利申請(qǐng)的狀態(tài)對(duì)基于視覺的手勢(shì)識(shí)別技術(shù)的發(fā)展歷程進(jìn)行了回顧,由最初只能通過簡(jiǎn)單的模板匹配識(shí)別二維的手型,發(fā)展到基于三維手勢(shì)的交互方式。在未來(lái)的幾年內(nèi),基于視覺的手勢(shì)識(shí)別將更加豐富于人們的生活,帶來(lái)無(wú)限的便利。
作者簡(jiǎn)介:
王晨霞(1990-),女,籍貫:浙江嘉興,職稱和學(xué)歷:研究實(shí)習(xí)員,工學(xué)碩士,研究方向或?qū)I(yè):人機(jī)交互領(lǐng)域?qū)@麑彶椤?/p>