王 萍, 胡 炎
(天津大學(xué) 電氣與自動(dòng)化學(xué)院,天津 300072)
?
基于歐氏骨架的手勢(shì)識(shí)別系統(tǒng)*
王 萍, 胡 炎
(天津大學(xué) 電氣與自動(dòng)化學(xué)院,天津 300072)
引進(jìn)最新骨架提取算法,設(shè)計(jì)并實(shí)現(xiàn)了一種以手勢(shì)的歐氏骨架為基準(zhǔn)的手勢(shì)識(shí)別系統(tǒng),系統(tǒng)由通用視頻采集模塊和ARM開發(fā)板硬件組成。利用動(dòng)態(tài)前景檢測(cè)算法結(jié)合YCbCr膚色識(shí)別模型,分割出手勢(shì)區(qū)域;借助歐氏距離變換和Delta—中軸骨架提取算法獲得手勢(shì)區(qū)域的歐氏骨架,并提取骨架的關(guān)鍵點(diǎn)和歐氏距離等幾何參數(shù),以此建立手勢(shì)識(shí)別的幾何模型。實(shí)驗(yàn)測(cè)試正確識(shí)別率高達(dá)94 %,每幀圖片處理時(shí)間小于25 ms,表明該系統(tǒng)實(shí)時(shí)、有效。
歐氏骨架; 手勢(shì)識(shí)別; 關(guān)鍵點(diǎn); 實(shí)時(shí)
手勢(shì)識(shí)別是人機(jī)交互領(lǐng)域內(nèi)一項(xiàng)重要的研究課題,旨在將人手作為直接的信息輸入設(shè)備,通過預(yù)先定義的手勢(shì)模型,對(duì)計(jì)算機(jī)下達(dá)相應(yīng)的指令。根據(jù)感知設(shè)備的不同,手勢(shì)識(shí)別系統(tǒng)可以分為:基于數(shù)據(jù)手套[1](硬件傳感器)和基于計(jì)算機(jī)視覺[2]兩種類型。其中,數(shù)據(jù)手套的成本較高,在一定程度上也影響人機(jī)交互的友好性。
基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別系統(tǒng)的建模方法主要有:隱馬爾可夫模型[3]、神經(jīng)網(wǎng)絡(luò)[4]和幾何特征[5]。其中,隱馬爾可夫模型對(duì)于時(shí)間序列有較強(qiáng)的分析處理能力,適用于動(dòng)態(tài)手勢(shì)識(shí)別。但所需計(jì)算量較大,難以滿足快速實(shí)時(shí)應(yīng)用的需求;神經(jīng)網(wǎng)絡(luò)具有較快的計(jì)算速度,兼具較強(qiáng)的魯棒性和學(xué)習(xí)能力,但處理時(shí)間序列的能力較差,適用于靜態(tài)手勢(shì)識(shí)別;基于幾何特征的手勢(shì)識(shí)別方法是利用手掌、手指區(qū)域和輪廓的幾何特征,借助模板匹配技術(shù)[6]進(jìn)行手勢(shì)的匹配識(shí)別?;趲缀翁卣鞯氖謩?shì)識(shí)別方法更接近人類視覺上對(duì)手勢(shì)的理解,且不需要借助復(fù)雜分類器,穩(wěn)定性和實(shí)時(shí)性較好。
本文引進(jìn)最新骨架提取算法,設(shè)計(jì)并實(shí)現(xiàn)了一種以手勢(shì)的歐氏骨架為基準(zhǔn)的手勢(shì)識(shí)別系統(tǒng)。Delta—中軸[7]骨架提取算法是目前骨架提取最新研究成果,其主要優(yōu)勢(shì)是快速、魯棒性強(qiáng),適合于骨架提取的實(shí)時(shí)計(jì)算。實(shí)際測(cè)試表明,利用骨架信息結(jié)合歐氏距離變換的關(guān)鍵點(diǎn)構(gòu)建的手勢(shì)識(shí)別模型,具有識(shí)別率高、實(shí)時(shí)性較好的優(yōu)點(diǎn)。
手勢(shì)識(shí)別系統(tǒng)的設(shè)計(jì)如圖1所示,包括5個(gè)部分:視頻采集、動(dòng)態(tài)檢測(cè)、骨架提取、手勢(shì)識(shí)別和結(jié)果顯示。其中,每幀圖像大小為240像素×240像素,格式為YUV,識(shí)別系統(tǒng)采用Qt框架為主進(jìn)程。線程1主要用來執(zhí)行圖像序列采集和手勢(shì)分割,分割結(jié)果上傳到緩存隊(duì)列,緩存隊(duì)列設(shè)定長度為10。線程2從隊(duì)列中讀取手勢(shì)二值圖像,執(zhí)行骨架提取和手勢(shì)識(shí)別。
圖1 手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)框架
2.1 動(dòng)態(tài)分割算法
膚色分割所依賴的顏色空間通常有RGB,HSV和YCbCr。由于RGB三通道均含有亮度信息,用于膚色識(shí)別時(shí)亮度的適應(yīng)性較差。HSV空間將亮度、色度和飽和度分開,但膚色在HSV空間中分布緊密性不好,因此環(huán)境適應(yīng)性較差。YCbCr空間在人臉識(shí)別中[8,9]應(yīng)用較為廣泛,它將亮度和色度分開,利用色度分割膚色,分割效果相對(duì)較好。在YCbCr空間中,膚色滿足
133≤Cr≤173,77≤Cb≤127
(1)
為了滿足準(zhǔn)確提取手部的二值區(qū)域,本文采用了Vibe算法[10]結(jié)合式(1)來檢測(cè)運(yùn)動(dòng)的手部區(qū)域。Vibe算法是一種基于像素級(jí)別的背景建模、前景檢測(cè)算法。該算法對(duì)硬件內(nèi)存占用少,運(yùn)算速度快,但當(dāng)目標(biāo)存在大面積同色區(qū)域時(shí),內(nèi)部容易出現(xiàn)空洞。
本文動(dòng)態(tài)手勢(shì)分割操作如下:在Vibe算法更新過程中,如果當(dāng)前點(diǎn)被檢測(cè)為前景點(diǎn),則利用式(1)檢驗(yàn)該點(diǎn)的8鄰域像素點(diǎn)是否滿足膚色條件;如果滿足膚色條件點(diǎn)的個(gè)數(shù)大于3個(gè),則將其8鄰域內(nèi)所有像素點(diǎn)全部標(biāo)記為膚色點(diǎn),并在對(duì)當(dāng)前幀的更新操作中直接判別為前景點(diǎn)。該操作可以有效填補(bǔ)手勢(shì)區(qū)域內(nèi)的空洞。在背景穩(wěn)定不變的前提下,通過以上方法可以有效地分割出手勢(shì)區(qū)域,如圖2所示。
圖2 動(dòng)態(tài)手勢(shì)分割
2.2 Delta—中軸骨架提取算法
MAδ(X)={x∈X|δx≥δ}
(2)
δx=max{d(z),z∈Lpxy}
(3)
圖3 不同情況下x處的最大形變圓
2.3 歐氏距離局部極大值點(diǎn)
歐氏距離變換[11]的局部極大值點(diǎn)是3×3鄰域距離變換的最大值點(diǎn)。本文在下文中提到的極值點(diǎn),均指距離變換的局部極大值點(diǎn)。文獻(xiàn)[12]指出,局部極大值點(diǎn)只分布于骨架上距離值變化穩(wěn)定的區(qū)域。因此,在骨架線末端開叉的位置,不會(huì)出現(xiàn)局部極值點(diǎn)。由于本文使用的是精準(zhǔn)歐氏距離變換,因此,可以使用骨架線上局部極值點(diǎn)的距離值估算物體的局部寬度
物體的局部寬度≈局部極值點(diǎn)距離值×2倍
(4)
3.1 模型參數(shù)
本文提出的以歐氏骨架為基準(zhǔn)的手勢(shì)識(shí)別模型如圖4所示,包括掌心、骨架端點(diǎn)、距離端點(diǎn)最近的歐氏距離極大值點(diǎn)(以下稱極值點(diǎn))、內(nèi)(外)掌心圓、以及各極值點(diǎn)的歐氏距離值(也即最大內(nèi)切圓半徑)等參數(shù)。
圖4 本文提出的手勢(shì)識(shí)別模型
各特征參數(shù)說明如下:
1)掌心:本文定義掌心為手部區(qū)域歐氏距離變換的最大值點(diǎn),記掌心點(diǎn)為C0,C0處的距離變換值為VC0。
2)端點(diǎn):端點(diǎn)即骨架線的端點(diǎn),通過端點(diǎn)檢測(cè)即可獲得骨架線的所有端點(diǎn)。
3)極值點(diǎn):由于端點(diǎn)處距離值無法估算手指、手腕等寬度,本文使用距離各端點(diǎn)最近的局部極大值點(diǎn)的距離值來估算手指、手腕等寬度。
4)內(nèi)掌心圓以C0為圓心,0.5VC0為半徑的圓。如果端點(diǎn)的最近局部極值點(diǎn)位于內(nèi)掌心圓內(nèi),則判定該端點(diǎn)無效。
5)外掌心圓以C0為圓心,1.2VC0為半徑的圓。如果端點(diǎn)位于外掌心圓內(nèi),則判定該端點(diǎn)無效。
6)關(guān)鍵點(diǎn)模型的關(guān)鍵是利用以上各參數(shù)從判定為有效的端點(diǎn)中,識(shí)別出手指端點(diǎn)和手腕端點(diǎn),亦即模型的關(guān)鍵點(diǎn)。在此基礎(chǔ)上,可以根據(jù)手指寬度信息識(shí)別出單指和多指的情況。
3.2 匹配規(guī)則
一般人體手掌的寬度約等于除大拇指外的4根手指的寬度,而手腕的寬度大約為手掌寬度的2/3。根據(jù)式(4),手掌寬度為2VC0,手指和手腕的寬度用最近局部極值點(diǎn)的距離值來估算,計(jì)算方法同掌寬。假設(shè)最近局部極值點(diǎn)處距離值為h,令l=2VC0/4。由于本文提出的模型是接近手指末端的寬度,因此,手指的平均寬度應(yīng)小于l,則單根手指的指端極值點(diǎn)處距離值應(yīng)滿足h<1.2l,手腕極值點(diǎn)處距離值滿足h>2.5l,如果不存在并指的情況,可直接根據(jù)h值的范圍判斷手指和手腕。
圖5 合并鄰近的極值點(diǎn)
判別規(guī)則:
單指:若hi<1.2l且ai=1,則pi為手指端點(diǎn),單指情況;
手腕:hi/2>1.25l且ai=2,則pi為手腕端點(diǎn);
多指并攏:hi/ai< 1.2l,ai≥2,則pi為手指端點(diǎn),多指并攏。
4.1 實(shí)驗(yàn)測(cè)試
本文實(shí)驗(yàn)環(huán)境為Cortex—A9,1G內(nèi)存,4核×1.6GHz,Linux操作系統(tǒng),視頻采集設(shè)備為500W像素OV5640攝像頭模塊。實(shí)驗(yàn)測(cè)試針對(duì)如圖6所示的10種手勢(shì)。實(shí)驗(yàn)方式為:線程1實(shí)時(shí)動(dòng)態(tài)檢測(cè),當(dāng)手部區(qū)域移動(dòng)到采集區(qū)中心位置時(shí),線程2執(zhí)行一次手勢(shì)識(shí)別,打印識(shí)別結(jié)果并保存結(jié)果圖像;每種手勢(shì)以不同方向進(jìn)入采集區(qū)域10次,統(tǒng)計(jì)識(shí)別結(jié)果。其中,前6種手勢(shì)識(shí)別率達(dá)到98 %,后4種并指的情況識(shí)別率為88 %,總體識(shí)別率達(dá)到94 %。
圖6 10種手勢(shì)的識(shí)別模型
由于手勢(shì)10中包含單指和并指的情況,本文僅以手勢(shì)10為代表給出手勢(shì)10詳細(xì)的模型參數(shù),如表1所示(其中,l=30.2×2/4=15.1像素)。從表1可以看出,手腕的寬度與手指的寬度差異較大。
表1 手勢(shì)10實(shí)測(cè)模型參數(shù)
4.2 算法復(fù)雜度分析
本文重點(diǎn)分析了基于歐氏骨架的手勢(shì)識(shí)別部分(也即線程2內(nèi)運(yùn)行的程序)的算法復(fù)雜度,該部分主要分為Delta—中軸骨架提取算法、歐氏距離變換和手勢(shì)模型參數(shù)的計(jì)算三個(gè)部分。假設(shè)圖像前景點(diǎn)數(shù)目為N,骨架點(diǎn)的數(shù)量為N1,則Delta—中軸骨架提取算法和歐氏距離變換的復(fù)雜度為O(N),手勢(shì)模型參數(shù)的計(jì)算主要是以骨架為基準(zhǔn),因此,該部分算法的復(fù)雜度為O(N1)??紤]到N1 由于Delta—中軸骨架提取算法實(shí)時(shí)、高效和魯棒性強(qiáng)的特點(diǎn),用于手勢(shì)識(shí)別具有穩(wěn)定可靠的優(yōu)勢(shì)。從實(shí)驗(yàn)中可以看出,在無并指的情況下,本文提出的手勢(shì)識(shí)別模型準(zhǔn)確識(shí)別率達(dá)到了98 %,每幀耗時(shí)不超過25 ms,因此,可以滿足實(shí)時(shí)應(yīng)用的需求。該模型與傳統(tǒng)的手勢(shì)識(shí)別模型相比,不需要做手腕分割,具有更強(qiáng)的適應(yīng)性和穩(wěn)定性。 [1] Chaudhary A,Raheja J,Das K,et al.Intelligent approaches to interact with machines using hand gesture recognition in natural way:A survey[J].International Journal of Computer Science & Engineering Survey,2011,2(2):122-133. [2] Luzanin O,Plancak M.Hand gesture recognition using low-budget data glove and cluster-trained probabilistic neural network[J].Assembly Automation,2014,34(34):94-105. [3] 江 超,艾矯燕.基于OpenCV的攝像頭動(dòng)態(tài)手勢(shì)軌跡識(shí)別及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2012,32(z1):128-133. [4] Kim H,Lee J,Park J.Dynamic hand gesture recognition using a CNN model with 3D receptive fields[C]∥International Confe-rence on Neural Networks & Signal Processing,Nanjing:IEEE,2008:14-19. [5] Chen Z,Kim J,Liang J.Real-time hand gesture recognition using finger segmentation[J].The Scientific World Journal,2014,2014(2):267872. [6] 田 娟,鄭郁正.模板匹配技術(shù)在圖像識(shí)別中的應(yīng)用[J].傳感器與微系統(tǒng),2008,27(1):112-117. [7] Marie R,Labbani-lgbida O,Mouaddib E M.The delta medial axis:A fast and robust algorithm for filtered skeleton extraction[J].Pattern Recognition,2016,56:26-39. [8] 張?jiān)讫?,謝澤奇,張會(huì)敏.一種復(fù)雜背景下的人臉檢測(cè)方法[J].傳感器與微系統(tǒng),2011,30(6):42-48. [9] 馮輝宗,謝 靜,蔣建春.針對(duì)機(jī)動(dòng)車駕駛員的人臉檢測(cè)方法[J].傳感器與微系統(tǒng),2012,31(9):112-115. [10] Barnich O,Van M.Vibe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing & Publication of the IEEE Signal Processing Society,2011,20(6):1709-1724. [11] 劉相濱,鄒北驥,孫家廣.基于邊界跟蹤的快速歐氏距離變換算法[J].計(jì)算機(jī)學(xué)報(bào),2006,29(2):317-323. [12] 劉俊濤,劉文予,吳彩華.一種提取物體線形骨架的新方法[J].自動(dòng)化學(xué)報(bào),2008,36(6):617-622. Gesture recognition system based on Euclidean skeleton* WANG Ping, HU Yan (School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China) A gesture recognition system is developed based on the lasted skeleton extracting algorithm and Euclidean distance transform.The system consists of generic video acquisition module and ARM.Firstly,gestures region are segmented by dynamic forescene detection algorithm combined with skin color detection model of YCbCr;secondly,the Delta-medial axis skeleton extraction algorithm and Euclidean distance transform are applied to obtain Eudidean skeleton so as to extract geometric parameters,and key points on the skeleton.Then a gesture recognition model is built by these geometric parameters.Test results show that the overall recognition rate reaches 94 %,processing time of each frame image is less than 25 ms,which shows that the system is real-time and effective. Euclidean skeleton; gesture recognition; key points; real-time 10.13873/J.1000—9787(2017)08—0111—03 2016—08—12 天津市自然科學(xué)基金資助項(xiàng)目(14JCYBJC21800) TP 216 A 1000—9787(2017)08—0111—03 王 萍(1955-),女,教授,博導(dǎo),主要從事圖像識(shí)別、運(yùn)動(dòng)對(duì)象跟蹤、圖像理解。5 結(jié)束語