林水強(qiáng),吳亞?wèn)|,陳永輝
(西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽(yáng)621010)
人機(jī)交互 (human-computer interaction,HCI)技術(shù)已經(jīng)從以計(jì)算機(jī)為中心轉(zhuǎn)移到以人為中心[1]。手勢(shì)識(shí)別交互作為一種自然、人性化的人機(jī)交互方式被越來(lái)越多地采用[2]?;谝曈X(jué)的手勢(shì)識(shí)別技術(shù)是采用攝像機(jī)捕獲手勢(shì)圖像,通過(guò)圖像處理技術(shù)進(jìn)行手勢(shì)的分割、建模、分析和識(shí)別[3]。通常采 用 基 于膚 色 訓(xùn) 練[4,5]、直 方 圖 匹 配[6,7]、運(yùn) 動(dòng)信息和多模式定位[8]等技術(shù)完成特征參數(shù)估計(jì)。手勢(shì)識(shí)別的方法主要有模板匹配法、統(tǒng)計(jì)分析法、神經(jīng)網(wǎng)絡(luò)法、隱馬爾可夫模型法和動(dòng)態(tài)時(shí)間規(guī)整法等[9,10]。文獻(xiàn) [11]提出的手勢(shì)識(shí)別方法能夠?qū)崿F(xiàn)分離背景并通過(guò)手心位置排除人臉,但在膚色背景下魯棒性差,并且人臉?lè)蛛x的準(zhǔn)確度不夠,同時(shí)在像素級(jí)掃描上時(shí)間復(fù)雜度高。本文給出一種基于幾何特征的手勢(shì)識(shí)別方法,針對(duì)分割手勢(shì)圖像提出一種多序列背景模型有效排除膚色背景的干擾,并結(jié)合膚色塊跟蹤和幾何形狀估計(jì)將人臉和人手有效地分離。針對(duì)手勢(shì)建模定義幾何特征量集合來(lái)描述手勢(shì)類型,特征參數(shù)計(jì)算量小,能夠滿足實(shí)時(shí)要求。針對(duì)分析和識(shí)別采用基于決策樹的方法歸納分類,在常規(guī)背景并且室內(nèi)光照良好的情況下手勢(shì)識(shí)別準(zhǔn)確率高,通過(guò)引入基于動(dòng)態(tài)模型的統(tǒng)計(jì)器進(jìn)一步提升系統(tǒng)魯棒性。
基于膚色和背景模型的手勢(shì)檢測(cè)首先提取圖像中的膚色部分,再去除背景的干擾,最后得到前景為膚色的部分。定義H(x,y,tn)為tn(n=0,1,2,…)時(shí)刻膚色檢測(cè)得到的膚色二值圖,M(x,y,tn)為tn時(shí)刻背景分離得到的差值二值圖,由式 (1)計(jì)算機(jī)得到tn時(shí)刻前景膚色二值圖F(x,y,tn)
由于HSV (hue-saturation-value)色彩 空 間 是 從 人 的視覺(jué)系統(tǒng)出發(fā),用色調(diào)、飽和度和亮度來(lái)描述色彩,比RGB空間更符合人的視覺(jué)特性[12]。本文采用膚色模型[4,5],膚色檢測(cè)采用HSV 空間,把獲取的圖像從RGB 空間轉(zhuǎn)化到HSV 空間。膚色在HSV 空間的取值范圍為Hue∈ [30,45],Saturation∈ [35,200],Value∈ [20,255],通過(guò)HSV 轉(zhuǎn)化可以得到膚色二值圖H(x,y,tn)。
當(dāng)背景中存在與膚色相近的物體時(shí),會(huì)對(duì)手勢(shì)的檢測(cè)有較大影響,所以需要將背景與前景進(jìn)行分離,去除背景的干擾,本文提出一種多序列背景模型,在連續(xù)I個(gè)識(shí)別序列內(nèi)檢測(cè)到手勢(shì)不符合預(yù)定義手勢(shì)類型時(shí),采用加權(quán)的當(dāng)前圖像與加權(quán)的背景圖像之和動(dòng)態(tài)地更新當(dāng)前背景圖像,由式 (2)計(jì)算得到tn時(shí)刻的背景灰度圖像B(x,y,tn)
式中,C(x,y,tn)為tn時(shí)刻的當(dāng)前灰度圖像,t0為初始時(shí)刻,I為連續(xù)的識(shí)別序列數(shù)目,Itn為tn時(shí)刻的識(shí)別序列號(hào),Ri為第i(i=0,1,2,…)個(gè)識(shí)別序列的識(shí)別結(jié)果,G 為預(yù)定義的手勢(shì)類型集合,α為更新權(quán)值 (本系統(tǒng)經(jīng)驗(yàn)取值為0.1)。
在tn時(shí)刻,以當(dāng)前灰度圖像C(x,y,tn)和背景灰度圖像B(x,y,tn)做差分得到差值灰度圖像D(x,y,tn),通過(guò)二值化、形態(tài)學(xué)等運(yùn)算得到差值二值圖像M(x,y,tn),見(jiàn)式 (3)和式 (4)
式中,Th為二值化分割閾值 (本系統(tǒng)經(jīng)驗(yàn)取值10)。膚色背景分離效果如圖1所示。
除考慮背景因素外,還需要考慮人臉和手部數(shù)據(jù)同時(shí)被攝像頭捕獲到時(shí)人臉的干擾。從幾何結(jié)構(gòu)上看,人的臉部形狀接近橢圓形,并且原形狀始終保持不變,而人手的幾何形狀區(qū)別較大,并且形狀可以隨時(shí)多變。本文結(jié)合文獻(xiàn) [4]中的基于膚色的橢圓擬合方法和文獻(xiàn) [13]中的基于膚色的橢圓聚類方法,利用幾何形狀估計(jì)將人臉和人手分離。人臉排除效果如圖2所示。
在圖像識(shí)別中,對(duì)象特征的選取對(duì)識(shí)別結(jié)果的準(zhǔn)確性有較大的影響,單一的特征往往會(huì)受環(huán)境的影響和其他因素的干擾??紤]到計(jì)算的復(fù)雜性、識(shí)別的實(shí)時(shí)性、特征的不變性等諸多因素,本文采用基于幾何特征和動(dòng)態(tài)幀提取手勢(shì)特征的方法。本系統(tǒng)預(yù)選取如圖3所示的6種手勢(shì)類型分別定義為確定/抓取、返回/釋放、鎖定/解鎖、右選、待轉(zhuǎn)/移動(dòng)、左選操作指令,并實(shí)現(xiàn)多媒體交互應(yīng)用。
圖3 手勢(shì)定義
特征提取通過(guò)定義3個(gè)變量實(shí)現(xiàn):手勢(shì)的最小外接矩形R;手形輪廓面積A;手勢(shì)相對(duì)于圖像的坐標(biāo)P。為識(shí)別預(yù)定義手勢(shì)類型,本文選取4個(gè)特征量,見(jiàn)式(5)-式(8)。特征T1:R 的面積與手形輪廓面積A 之比
特征T2:R 的長(zhǎng)寬之比,其中H>W(wǎng)
特征T3:R 的方向角
特征T4:P相對(duì)移動(dòng)方向
式中,H、W 和Rθ分別表示R 的長(zhǎng)、寬和方向角,Pt和Pt-1分別表示手勢(shì)的當(dāng)前t和t-1時(shí)刻位置。以上4個(gè)特征量的計(jì)算復(fù)雜度都較低,能夠保證系統(tǒng)實(shí)時(shí)性,特征T1和T2是比例特征,能夠滿足旋轉(zhuǎn)、平移和縮放不變性,特征T3實(shí)現(xiàn)輔助其他特征完成方向的判定,特征T4能夠計(jì)算出手勢(shì)移動(dòng)方向以及完成模擬移動(dòng)的功能。手勢(shì)特征標(biāo)記是將手勢(shì)輪廓從手勢(shì)圖像中提取出來(lái)并計(jì)算特征值,本文采用Canny算子邊緣檢測(cè)方法[14,15]提取手勢(shì)輪廓信息,再根據(jù)定義的幾何特征量計(jì)算特征參數(shù)值,進(jìn)行手勢(shì)特征標(biāo)記。
手勢(shì)分析和識(shí)別利用基于決策樹 (decision tree,DT)的分類器實(shí)現(xiàn)。決策樹分類算法的基本思路是不斷選取產(chǎn)生信息增益最大的屬性來(lái)劃分樣例集合[16,17],構(gòu)造決策樹。信息增益定義為結(jié)點(diǎn)與其子結(jié)點(diǎn)的信息熵之差。在手勢(shì)特征參數(shù)向量Tx(T1,T2,T3,T4)中選取前兩項(xiàng)特征參數(shù)作為判定所需的屬性集合T(T1,T2),根據(jù)實(shí)驗(yàn)輸出的樣本數(shù)據(jù)得到訓(xùn)練數(shù)據(jù)集合S(T,Gtid),其中Gtid為識(shí)別到對(duì)應(yīng)編號(hào)的手勢(shì)。信息熵Entropy(S)用于描述手勢(shì)類型信息的不純度,見(jiàn)式 (9)
式中,Pi為手勢(shì)類型子集合中不同性樣例的比例。信息增益Gain(S,T)為樣本按照某屬性劃分時(shí)造成熵減少的期望,見(jiàn)式 (10)
式中,V(T)是屬性T 的值域,S是樣本集合,Sv是S中在屬性T 上值等于v的樣本集合。
通過(guò)構(gòu)造決策樹生成結(jié)點(diǎn)特征屬性,用生成的決策樹模型分類判定當(dāng)前的手勢(shì)類型。決策樹的模型如圖4所示,其中β1,β2 為對(duì)應(yīng)屬性T 結(jié)點(diǎn)樣本歸納學(xué)習(xí)訓(xùn)練出的特征閾值 (本系統(tǒng)訓(xùn)練得出β1=1.6,β2=1.4),T (v)表示對(duì)應(yīng)屬性的T 上的實(shí)際值,識(shí)別代號(hào)1、2、5分別對(duì)應(yīng)手勢(shì)類型為拳頭、開手掌和閉手掌。
圖4 決策樹模型
對(duì)于屬性結(jié)點(diǎn)T1(β1),當(dāng)T1(v)≥β1,判定手勢(shì)為開手掌,否則,進(jìn)一步對(duì)屬性結(jié)點(diǎn)T2(β2)進(jìn)行比較,當(dāng)T2(v)<β2,判定手勢(shì)為拳頭,否則為閉手掌。對(duì)于OK 手勢(shì)(TID=3),在特征屬性中選取一段閾值區(qū)間進(jìn)行判定。在閉手掌手勢(shì)狀態(tài)下,設(shè)置方向角范圍θ1和θ2(本系統(tǒng)經(jīng)驗(yàn)取值θ1∈ (45°,75°),θ2∈ (15°,45°)),輸入T3和T4,當(dāng)T3∈θ1,且T4的x方向?yàn)檎?,判定手?shì)為左方向,當(dāng)T3∈θ2,且T4的x方向?yàn)樨?fù),判定手勢(shì)為右方向,其余為初始狀態(tài),見(jiàn)式 (11)
式中,TID 表示手勢(shì)類型的識(shí)別代號(hào)。移動(dòng)操作指令通過(guò)在閉手掌狀態(tài)下T4的x和y方向坐標(biāo)按比例轉(zhuǎn)化為屏幕坐標(biāo),實(shí)現(xiàn)模擬移動(dòng)操作功能。
由于背景、光線以及用戶誤操作等干擾因素,需要將分類器獲得的符合預(yù)定義的手勢(shì)加入到基于動(dòng)態(tài)模型的統(tǒng)計(jì)器中,生成驅(qū)動(dòng)指令。本文定義一種基于動(dòng)態(tài)模型的統(tǒng)計(jì)器,通過(guò)連續(xù)或不連續(xù)的多幀判定手勢(shì)語(yǔ)義,在一定程度上保證了識(shí)別的可靠性,見(jiàn)式 (12)和式 (13)
式中,Gtid(tid=1,2,…,7)為識(shí)別的手勢(shì),當(dāng)tid=7時(shí)表示無(wú)手勢(shì),F(xiàn)i表示第i幀數(shù)據(jù),Accept為指定n幀內(nèi)接受特定手勢(shì)的方法,Ntid為對(duì)應(yīng)手勢(shì)編號(hào)為tid的統(tǒng)計(jì)量。在單個(gè)識(shí)別序列中,對(duì) {Ntid|tid=1,2,…,7}求最大統(tǒng)計(jì)量即為所識(shí)別手勢(shì)。
本文實(shí)驗(yàn)采用普通Logitech USB 300萬(wàn)像素?cái)z像頭作為視頻輸入設(shè)備,基于DirectShow的方法獲取視頻流,幀率為30幀/秒,圖像分辨率為320×240,在合適的視野和景深范圍內(nèi)通過(guò)裸手非接觸方式進(jìn)行交互。根據(jù)本文提出的方案實(shí)現(xiàn)了手勢(shì)識(shí)別模塊,不同情況下的識(shí)別效果如圖5所示。
圖5 不同情況下的手勢(shì)識(shí)別效果
可以看出,在膚色背景、室內(nèi)光照充足、人臉環(huán)境下識(shí)別效果都較好,同時(shí)保證了旋轉(zhuǎn)、平移和縮放不變性。而在惡劣環(huán)境下,識(shí)別無(wú)法實(shí)現(xiàn)。
本實(shí)驗(yàn)在上述背景并且室內(nèi)光照良好環(huán)境下對(duì)每個(gè)手勢(shì)采集1000個(gè)數(shù)據(jù)樣本進(jìn)行統(tǒng)計(jì)。表1中給出了6種手勢(shì)的識(shí)別和誤識(shí)別率,其中TID 表示手勢(shì)類型編號(hào),GES表示手勢(shì)類型,REC 表示手勢(shì)識(shí)別率,ERR (TID)表示誤識(shí)為手勢(shì)編號(hào)為TID 的概率。
實(shí)驗(yàn)結(jié)果表明,在常規(guī)背景、室內(nèi)光照良好的情況下識(shí)別率在94%以上,識(shí)別反饋時(shí)間小于200ms,識(shí)別效果較好,基于手勢(shì)識(shí)別的多媒體交互系統(tǒng)能夠順利實(shí)現(xiàn)。
基于該手勢(shì)識(shí)別系統(tǒng),建立一款多媒體交互平臺(tái),包含音樂(lè)、電影、圖片、電子書和游戲等可自主加載的模塊。將預(yù)定義手勢(shì)映射到虛擬交互命令,通過(guò)確定、返回、左選、右選、待轉(zhuǎn)、抓取、移動(dòng)、釋放和鎖定操作指令驅(qū)動(dòng)多媒體平臺(tái),將手勢(shì)識(shí)別與多媒體平臺(tái)結(jié)合實(shí)現(xiàn)了虛擬交互功能。虛擬交互實(shí)現(xiàn)效果如圖6所示。
本文主要對(duì)計(jì)算機(jī)視覺(jué)中基于幾何特征的手勢(shì)識(shí)別方法進(jìn)行了研究并改進(jìn),并將其應(yīng)用在實(shí)時(shí)多媒體平臺(tái)的虛擬交互中。綜合利用膚色模型、多序列背景模型和幾何形狀估計(jì)提取手勢(shì)圖像,根據(jù)手勢(shì)幾何特征量建模,采用決策樹以及動(dòng)態(tài)統(tǒng)計(jì)器對(duì)幾何特征參數(shù)進(jìn)行歸納、判定和優(yōu)化,實(shí)現(xiàn)了識(shí)別預(yù)定義的6種自然手勢(shì)類型,能夠模擬常用的人機(jī)交互操作指令,包括確定、返回、左選、右選、待轉(zhuǎn)、抓取、移動(dòng)、釋放和鎖定。本文設(shè)計(jì)的識(shí)別算法簡(jiǎn)單有效,計(jì)算量小,識(shí)別率高,能夠滿足實(shí)時(shí)人機(jī)交互需求。
表1 手勢(shì)識(shí)別率與誤識(shí)別率
圖6 虛擬交互實(shí)現(xiàn)效果
同時(shí),系統(tǒng)仍存在不足,如在復(fù)雜背景和光照效果差的環(huán)境下,系統(tǒng)識(shí)別精度仍有待提高,當(dāng)手臂暴露在攝像頭范圍內(nèi)時(shí)不能分割手臂。在以后的工作中會(huì)進(jìn)一步優(yōu)化圖像處理和識(shí)別算法,以達(dá)到在識(shí)別精確度和交互實(shí)時(shí)性之間的平衡。
[1]SUN Chao,F(xiàn)ENG Zhiquan,LI Yang,et al.A survey of gesture based interaction [C]//CHCI,2010:277-281 (in Chi-nese).[孫超,馮志全,李揚(yáng),等.基于手勢(shì)識(shí)別的人機(jī)交互綜述 [C]//第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議,2010:277-281.]
[2]CHEN Xiaobo,XIE Huosheng.Hand gesture recognition based on Bag of Features [J].Computer Engineering and Design,2013,34 (3):983-987 (in Chinese).[陳小波,謝伙生.基于Bag of Features 的 手 勢(shì) 識(shí) 別 [J].計(jì) 算 機(jī) 工 程 與 設(shè) 計(jì),2013,34 (3):983-987.]
[3]WU Huiyue,ZHANG Fengjun,LIU Yujin,et al.Research on key issues of vision-based gesture interfaces[J].Chinese Journal of Computers,2009,32 (10):2030-2041 (in Chinese).[武匯岳,張鳳軍,劉玉進(jìn),等.基于視覺(jué)的手勢(shì)界面關(guān)鍵技術(shù)研究 [J].計(jì)算機(jī)學(xué)報(bào),2009,32 (10):2030-2041.]
[4]Papadourakis V,Argyros A A.Multiple objects tracking in the presence of long-term occlusions [J].Computer Vision and Image Understanding,2010,114 (7):835-846.
[5]Kakumanu P,Makrogiannis S,Bourbakis N.A survey of skincolor modeling and detection methods [J].Pattern Recognition,2007,40 (3):1106-1122.
[6]LIU Yujin,CAI Yong,WU Jiangyue,et al.Approach to tracking deformable hand gesture under disturbances from skin-color[J].Computer Engineering and Applications,2009,45 (35):164-167 (in Chinese).[劉玉進(jìn),蔡勇,武江岳,等.一種膚色干擾下的變形手勢(shì)跟蹤方法 [J].計(jì)算機(jī)工程與應(yīng)用,2009,45 (35):164-167.]
[7]JIANG Dongmei,WANG Yufang.Gesture recognition based on orientation [J].Information Technology and Informatization,2006,31 (2):53-55 (in Chinese).[江冬梅,王玉芳.基于方向直方圖矢量的手勢(shì)識(shí)別 [J].信息技術(shù)與信息化,2006,31 (2):53-55.]
[8]ZHOU Hang.Studies on the gesture recognition system based on computer vision [D].Beijing:Beijing Jiaotong University,2007 (in Chinese).[周航.基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別系統(tǒng)研究 [D].北京:北京交通大學(xué),2007.]
[9]REN Yaxiang.Survey of human-computer interaction development based on hand posture and gesture recognition [J].Computer Engineering and Design,2006,27 (7):1201-1204 (in Chinese).[任雅祥.基于手勢(shì)識(shí)別的人機(jī)交互發(fā)展研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27 (7):1201-1204.]
[10]SUN Lijuan,ZHANG Licai,GUO Cailong.Technologies of hand gesture recognition based on vision [J].Computer Technology and Development,2008,18 (10):214-216 (in Chinese).[孫麗娟,張立材,郭彩龍.基于視覺(jué)的手勢(shì)識(shí)別技術(shù) [J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18 (10):214-216.]
[11]ZHANG Tong,ZHAO Yingxue.Gesture recognition based on skin color segmentation and edge detection operator[J].Software Guide,2012,11 (7):151-152 (in Chinese).[張 彤,趙瑩雪.基于膚色與邊緣檢測(cè)及排除的手勢(shì)識(shí)別 [J].軟件導(dǎo)刊,2012,11 (7):151-152.]
[12]CHENG Lin,CHEN Junjie,XIANG Jie.Research and application of image color feature extraction technology [J].Computer Engineering and Design,2009,30 (14):3451-3454(in Chinese).[成琳,陳俊杰,相潔.圖像顏色征提取技術(shù)的研究與應(yīng)用 [J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30 (14):3451-3454.]
[13]Hao kui T,Zhi quan F.Hand's skin detection based on ellipse clustering [C]//International Symposium on Computer Science and Computational Technology,2008:758-761.
[14]Medina Carnicer R,Muoz Salinas R,Yeguas Bolivar E,et al.A novel method to look for the hysteresis thresholds for the Canny edge detector [J].Pattern Recognition,2011,44(6):1201-1211.
[15]LIU Chao,ZHOU Jiliu,HE Kun.Adaptive edge-detection method based on Canny algorithm [J].Computer Engineering and Design,2010,31 (18):4036-4039 (in Chinese). [劉超,周激流,何坤.基于Canny算法的自適應(yīng)邊緣檢測(cè)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (18):4036-4039.]
[16]Witten I H,F(xiàn)rank E.Data mining:Practical machine learning tools and techniques [M].Burlington,MA:Morgan Kaufmann Publishers,2011:300-305.
[17]ZHANG Lin,CHEN Yan,LI Taoying,et al.Research on decision tree classification algorithms [J].Computer Engineering,2011,37 (13):66-70 (in Chinese).[張琳,陳燕,李桃迎,等.決策樹分類算法研究 [J].計(jì)算機(jī)工程,2011,37 (13):66-70.]