黃 菊,張立志,趙志杰,孫華東,金雪松
(哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,哈爾濱150028)
基于GMM-HMM的靜態(tài)手勢(shì)識(shí)別
黃 菊,張立志,趙志杰,孫華東,金雪松
(哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,哈爾濱150028)
提出了一種基于混合高斯模型的隱馬爾科夫模型(GMM-HMM)與手勢(shì)輪廓特征的單幅手勢(shì)圖像識(shí)別方法,該方法采用YCrCb空間閾值處理對(duì)手勢(shì)圖像二值化處理,針對(duì)理想感興趣區(qū)域提出了一種還原最上層輪廓的新型輪廓算法. 將每類(lèi)手勢(shì)輪廓特征作為HMM的觀察值分別訓(xùn)練對(duì)應(yīng)手勢(shì)的HMM參數(shù),建立所有手勢(shì)的HMM模型. 分別用Viterbi算法計(jì)算測(cè)試集數(shù)據(jù)與每個(gè)模型的條件概率來(lái)獲得識(shí)別結(jié)果. 實(shí)驗(yàn)結(jié)果表明,該方法不僅對(duì)手勢(shì)庫(kù)內(nèi)的特定人的靜態(tài)手勢(shì)識(shí)別具有較好的效果,且對(duì)提取的其他人的靜態(tài)手勢(shì)圖像識(shí)別率也較高.
隱馬爾科夫模型;新型輪廓算法;靜態(tài)手勢(shì)識(shí)別
在自然語(yǔ)言形成以前,手勢(shì)識(shí)別對(duì)人類(lèi)交流發(fā)揮著重要作用. 雖然各國(guó)今天都憑 借智慧創(chuàng)造出了自己的語(yǔ)言,但研究手勢(shì)識(shí)別的熱潮卻未見(jiàn)退卻. 一方面,因?yàn)槭謩?shì)識(shí)別技術(shù)可以服務(wù)于具有語(yǔ)言障礙的人群;另一方面更是市場(chǎng)對(duì)人機(jī)交互技術(shù)需求的空前高漲. 人們已經(jīng)不再滿(mǎn)足于當(dāng)下使用鍵盤(pán)、鼠標(biāo),坐在電腦桌前的人機(jī)交互,而對(duì)隨時(shí)隨地的便捷人機(jī)交互興趣十足. 要想滿(mǎn)足市場(chǎng)對(duì)新型人機(jī)交互技術(shù)的需求,手勢(shì)識(shí)別技術(shù)的成熟至關(guān)重要. 目前手勢(shì)識(shí)別方法可以分為基于數(shù)據(jù)手套和基于視覺(jué)[1]兩種方法. 前一種手勢(shì)識(shí)別方法的實(shí)施需在人手上放置易于電腦接收的傳感器,此傳感器的加入雖然保證了識(shí)別的高準(zhǔn)確度、反應(yīng)度等優(yōu)點(diǎn),但它是價(jià)格相當(dāng)昂貴的設(shè)備,且其佩戴復(fù)雜. 基于視覺(jué)的手勢(shì)識(shí)別方法截然相反,它成本低且促使人機(jī)交流自然、友好,更符合市場(chǎng)需求. 基于此,該方法采用基于視覺(jué)的方法研究靜態(tài)手勢(shì)識(shí)別.
研究手勢(shì)識(shí)別的文獻(xiàn)和方法已經(jīng)數(shù)不勝數(shù),對(duì)于靜態(tài)手勢(shì)識(shí)別的研究,在這幾十年中,研究者們運(yùn)用了包括支持向量機(jī)[2]、模糊推理系統(tǒng)[3-4]、神經(jīng)網(wǎng)絡(luò)[5]、Bayesian 分類(lèi)器、Fisher 線(xiàn)性判別分析及非線(xiàn)性聚類(lèi)技術(shù)等在內(nèi)的許多方法. HMM是動(dòng)態(tài)手勢(shì)識(shí)別的常用方法之一,這是因?yàn)閯?dòng)態(tài)手勢(shì)能提取的特征含有時(shí)間信息,而靜態(tài)圖像中有的只是空間信息. HMM能提供時(shí)間尺度不變形,能比較準(zhǔn)確地識(shí)別手勢(shì)的各種變形,有靈活高效的訓(xùn)練和識(shí)別算法,且具有很強(qiáng)的擴(kuò)充性. 為了將HMM應(yīng)用到不帶有時(shí)間信息的靜態(tài)手勢(shì)識(shí)別中,采用連續(xù)空間信息模擬時(shí)間信息.
完整的手勢(shì)識(shí)別包括手勢(shì)圖像預(yù)處理、手勢(shì)特征選擇與提取、手勢(shì)分類(lèi)器設(shè)計(jì)三部分. 選用YCrCb空間[6]閾值處理手勢(shì)圖像得到二值化手勢(shì)圖像,然后利用中值濾波與形態(tài)學(xué)處理的方法獲取理想感興趣區(qū)域(ROI),針對(duì)ROI,提出了一種還原最上層輪廓的新型輪廓算法,計(jì)算輪廓縱軸中心到最外層輪廓的縱軸距離作為特征. 將每類(lèi)手勢(shì)輪廓特征作為HMM的觀察值,分別訓(xùn)練對(duì)應(yīng)手勢(shì)的HMM參數(shù),建立所有手勢(shì)的HMM模型. 最后通過(guò)測(cè)試樣本觀察值,分別用viterbi算法計(jì)算測(cè)試集數(shù)據(jù)與每個(gè)模型的條件概率來(lái)獲得識(shí)別結(jié)果.
建模時(shí)所用的圖像為T(mén)IF格式的圖像,讀取到Matlab后,TIF圖像是一個(gè)二維矩陣,用簡(jiǎn)單的直方圖統(tǒng)計(jì)法就可以從原始的TIF圖像中提取感興趣手型區(qū)域. 建模成功后,為了測(cè)試算法的性能與通用性,不僅選用了庫(kù)內(nèi)的測(cè)試手勢(shì),并且還自行拍攝了許多JPG彩色手勢(shì)測(cè)試圖像. 對(duì)比TIF格式圖像而言,JPG圖像需要更多的預(yù)處理工作. 這兩種圖像的預(yù)處理過(guò)程圖如圖1所示.
圖1 圖像的預(yù)處理過(guò)程圖
1.1 YCrCb空間
對(duì)于簡(jiǎn)單背景的手勢(shì)圖像,提取感興趣手型的首要步驟就是基于膚色去除背景. 用于測(cè)試的JPG圖像讀入Matlab工具箱后是一個(gè)3維矩陣,對(duì)各維進(jìn)行閾值處理會(huì)導(dǎo)致計(jì)算量和內(nèi)存負(fù)荷的增加,所以希望找到顏色聚類(lèi)強(qiáng)度高的顏色空間分量來(lái)設(shè)置膚色閾值. 對(duì)一百?gòu)埰つw占大面積的圖片進(jìn)行了RGB、YUV、YCrCb 、HSV四個(gè)顏色空間的投影比較,圖2為投影結(jié)果.
圖2 膚色在各顏色空間的投影
結(jié)果表明膚色在YCrCb空間比RGB空間、YUV空間、HSV空間的分布都更具集聚性,且使用基于YCrCb顏色空間進(jìn)行膚色檢測(cè),亮度的影響最小. 所以將圖片由RGB空間轉(zhuǎn)換到Y(jié)CrCb空間再設(shè)閾值可以使亮度分量與顏色分量間的獨(dú)立性更強(qiáng),從而達(dá)到更理想的去背景結(jié)果. 圖3(A)是
圖3 膚色統(tǒng)計(jì)圖與閾值處理結(jié)果圖
對(duì)膚色Cr、Cb分量做的直方圖統(tǒng)計(jì),從統(tǒng)計(jì)看出,Cb分量最適合作為閾值分量,閾值選擇在130~150之間. 圖3(B)是閾值處理后的二值圖像與原圖的對(duì)比.
1.2 濾波與形態(tài)學(xué)處理
從圖3(B)可以看出,膚色閾值處理后的二值化圖像并不是一個(gè)理想的感興趣區(qū)域. 手指間縫的顏色因較暗被視為了非感興趣區(qū)域;而手掌部位有一小塊較亮區(qū)域也被視為了非感興趣區(qū)域. 事實(shí)上,顏色閾值的方法往往還會(huì)在背景中留下許多噪聲. 由于要用輪廓的空間信息來(lái)模擬時(shí)間信息來(lái)建立HMM模型,感興趣區(qū)域的理想程度至關(guān)重要,因此對(duì)非理想的感興趣區(qū)域進(jìn)行濾波及形態(tài)學(xué)處理.
膨脹和腐蝕是數(shù)學(xué)形態(tài)學(xué)的兩種基本運(yùn)算[7].用結(jié)構(gòu)元素B來(lái)膨脹圖像集合A的定義為:
(1)
AΘB={x|[(B)x?A]}.
(2)
其中:Θ為腐蝕的運(yùn)算符號(hào),(B)x表示B平移x.
為了使HMM分類(lèi)器針對(duì)靜態(tài)手勢(shì)分類(lèi)在理論上符合要求,選擇了提取輪廓特征,是理論上模擬時(shí)間信息的合適特征.
針對(duì)輪廓,提出了兩種提取其特征的方式. 第一種提取的是質(zhì)心離輪廓的歐式距離,對(duì)每個(gè)手型輪廓從0度到180度以2度為間隔取得90維特征. 這種方法首先要計(jì)算輪廓的質(zhì)心[8],質(zhì)心坐標(biāo)如式(3)
(3)
按照以上兩種思路實(shí)驗(yàn)所得的特征曲線(xiàn)如圖4所示,其中橫軸為點(diǎn)的序號(hào),縱軸為點(diǎn)與質(zhì)心或與中點(diǎn)的縱軸距離.(A)為用第一種特征提取方式提取手勢(shì)A所得到的曲線(xiàn);(B)為用第一種特征提取方式提取手勢(shì)B所得到的曲線(xiàn);(C)為用第二種特征提取方式提取手勢(shì)A所得到的曲線(xiàn);(D)為用第二種特征提取方式提取手勢(shì)B所得到的曲線(xiàn). 從實(shí)驗(yàn)結(jié)果可以看出:第一種提取的類(lèi)內(nèi)特征差異挺大,甚至有類(lèi)內(nèi)差異大于類(lèi)間差異的情況;而第二種特征類(lèi)內(nèi)差距小,類(lèi)間差距大.最后的分類(lèi)結(jié)果也顯示,后種輪廓特征提取算法較理想.
圖4 手勢(shì)特征曲線(xiàn)
選用隱馬爾科夫模型(HMM)作為分類(lèi)器將靜態(tài)手勢(shì)特征分類(lèi). HMM是一系列轉(zhuǎn)移而成的狀態(tài)的集合[9-11]. 每一個(gè)轉(zhuǎn)移都對(duì)應(yīng)一對(duì)概率:轉(zhuǎn)移概率和輸出概率. 轉(zhuǎn)移概率提供狀態(tài)間轉(zhuǎn)移的概率,輸出概率則定義在特定狀態(tài)下從有限多個(gè)值中產(chǎn)生某個(gè)輸出值的概率. HMM的正式定義如下:
N個(gè)狀態(tài)的集合{S1,S2,S3,…,SN},在t時(shí)刻的狀態(tài)用隨機(jī)變量qt表示.M個(gè)直接觀察值的集合—{v1,v2,v3,…,vM},在t時(shí)刻的觀察序列用隨機(jī)變量Qt表示,觀察序列對(duì)應(yīng)著相應(yīng)HMM的輸出,隱馬爾科夫模型通過(guò)觀測(cè)變量刻畫(huà)隱含狀態(tài)變量.
一個(gè)N×N的狀態(tài)轉(zhuǎn)移概率分布矩陣A={aij},aij代表從狀態(tài)Si轉(zhuǎn)移到Sj的狀態(tài)轉(zhuǎn)移概率:
aij=P(qt+1=Sj|qt=Si).
(4)
一個(gè)的觀察概率分布矩陣B={bj(k)},bj(k)表示在狀態(tài)Sj下時(shí)刻t輸出vk的概率:
bj(k)=P(Qt=vk|qt=sj).
(5)
一個(gè)初始狀態(tài)分布矩陣π={πi},πi是初始狀態(tài)為Si的概率:πi=P(q1=Si).
綜上,一個(gè)HMM可以概括地表示為:
λ=(N,M,A,B,π).
(6)
3.1 HMM的拓?fù)浣Y(jié)構(gòu)
HMM由馬爾科夫鏈和隨機(jī)過(guò)程兩部分組成,初始概率分布矩陣π和狀態(tài)轉(zhuǎn)移概率分布矩陣A描述馬爾科夫鏈,不同的和A決定不同形狀的馬爾可夫鏈. 靜態(tài)手勢(shì)圖像與孤立詞語(yǔ)音識(shí)別類(lèi)似,宜采用HMM的左右模型結(jié)構(gòu),如圖5所示為其中一個(gè)手勢(shì)的模型示例圖:從手勢(shì)模型的狀態(tài)1出發(fā),沿著狀態(tài)序號(hào)大的方向轉(zhuǎn)移,最后到達(dá)狀態(tài)6停止,狀態(tài)數(shù)為6是實(shí)驗(yàn)所得效果最好的情況.
圖5 手勢(shì)模型示例圖
3.2 HMM的三大問(wèn)題
基于HMM的靜態(tài)手勢(shì)識(shí)別的基本思想為:在訓(xùn)練階段根據(jù)觀測(cè)序列,推斷HMM模型,用HMM訓(xùn)練算法為手勢(shì)庫(kù)里的每個(gè)手勢(shì)建立對(duì)應(yīng)的HMM;在識(shí)別階段,求出待識(shí)別手勢(shì)的觀察序列O與各個(gè)手勢(shì)模型的匹配概率值P;在后處理階段,選取最大的P值所對(duì)應(yīng)的手勢(shì)為O的識(shí)別結(jié)果. 在整個(gè)分類(lèi)過(guò)程中,主要涉及HMM的三大問(wèn)題:如何調(diào)整HMM模型,使觀測(cè)序列的概率取值最大的估計(jì)問(wèn)題;如何根據(jù)觀測(cè)序列,推測(cè)最佳狀態(tài)的解碼問(wèn)題;如何根據(jù)觀測(cè)序列,推斷HMM模型參數(shù)的學(xué)習(xí)問(wèn)題. 目前,針對(duì)HMM的三大問(wèn)題也對(duì)應(yīng)有了比較成熟的解決算法,對(duì)應(yīng)算法見(jiàn)表1 .
表1 HMM三大問(wèn)題及其解決算法對(duì)應(yīng)表
3.3 混合高斯型的隱馬爾科夫模型
根據(jù)觀測(cè)序列O的不同分布類(lèi)型,可以將隱馬爾科夫模型的類(lèi)型分為離散隱馬爾科夫模型DHMM、連續(xù)隱馬爾科夫模型CHMM和半連續(xù)隱馬爾科夫模型SCHMM三類(lèi). CHMM采用連續(xù)概率密度函數(shù)來(lái)描述觀測(cè)矢量,選擇把特征用混合高斯模型去模擬,然后把均值與方差輸入到HMM中,建立基于混合高斯模型的隱馬爾科夫模型GMM-HMM.
選取丹麥奧尓堡大學(xué)Thomas Moeslund手勢(shì)識(shí)別數(shù)據(jù)庫(kù)來(lái)驗(yàn)證方法的有效性. Thomas Moeslund數(shù)據(jù)庫(kù)共由2 060張TIF灰度圖像組成,分辨率為248*256. 每個(gè)手勢(shì)都包含了不同尺度、不同旋轉(zhuǎn)平面的情況. HMM參數(shù)估計(jì)選取了A-G(如圖6)的20張手勢(shì)圖像作為訓(xùn)練樣本. 然后用A-G的非訓(xùn)練樣本(共140張圖像)進(jìn)行識(shí)別測(cè)試,識(shí)別正確率為95%. 本實(shí)驗(yàn)以Matlab.2012a作為實(shí)驗(yàn)平臺(tái),表2顯示了識(shí)別結(jié)果.
圖6 A-G的標(biāo)準(zhǔn)手勢(shì)圖例
表2 庫(kù)內(nèi)手勢(shì)測(cè)試結(jié)果表
為了測(cè)試算法并非只適用于特定人的手勢(shì)識(shí)別,又針對(duì)每個(gè)手勢(shì)自用相機(jī)拍攝了10張分辨率為640*480的彩色圖像進(jìn)行測(cè)試識(shí)別,識(shí)別效果也比較理想,如表3所示,識(shí)別正確率為90%.
表3 自拍攝手勢(shì)圖像測(cè)試結(jié)果表
實(shí)驗(yàn)還發(fā)現(xiàn),使用HMM進(jìn)行靜態(tài)手勢(shì)識(shí)別,除了擁有較高識(shí)別率,并且在識(shí)別速度上比模式匹配法快.識(shí)別140張手勢(shì)圖像僅僅花費(fèi)約57.2 s,平均每個(gè)手勢(shì)識(shí)別用時(shí)約0.41 s.
提出了一種基于混合高斯模型的隱馬爾科夫模型(GMM-HMM)與手勢(shì)輪廓特征的單幅手勢(shì)圖像識(shí)別方法. 該方法采用YCrCb空間對(duì)每個(gè)手勢(shì)圖像二值化處理,針對(duì)ROI提出了一種還原最上層輪廓的新型輪廓算法,計(jì)算輪廓縱軸中心到最外層輪廓的縱軸距離作為特征.將每類(lèi)手勢(shì)輪廓特征作為HMM的觀察值分別訓(xùn)練對(duì)應(yīng)手勢(shì)的HMM參數(shù),建立所有手勢(shì)的HMM模型.最后分別用viterbi算法計(jì)算測(cè)試集數(shù)據(jù)與每個(gè)模型的條件概率來(lái)獲得識(shí)別結(jié)果.
實(shí)驗(yàn)結(jié)果表明,針對(duì)形狀差異大的手勢(shì),可以借助其輪廓仿真時(shí)間信息來(lái)建立HMM模型,并且在識(shí)別正確率和識(shí)別時(shí)間上都有較好的效果. 但是對(duì)于輪廓差異小的手勢(shì),如手勢(shì)A和G,其識(shí)別效果不佳,因此,在未來(lái)的研究中,將考慮選擇添加其他的空間特征來(lái)模擬時(shí)間信息,以提高識(shí)別正確率. 另外,由于識(shí)別速率非??捎^,可以考慮在以后的工作中形成基于HMM識(shí)別靜態(tài)手勢(shì)的實(shí)時(shí)識(shí)別系統(tǒng).
[1] PAVLOVIC V I, SHARMA R, HUANG T S. Visual interpretation of hand gestures for human-computer interaction: A review [J]. IEEE Trans. Pattern Anal. Machine Intell, 1997, 19(7): 677-695.
[2] DARDAS N H, GEORGANAS N D. Real-time hand gesture detection and recognition using bag-of-features and support vector machine techniques [J]. IEEE Trans. on Instrumentation and Measurement, 2011, 60(11): 3592-3607.
[3] KISHORE P V V, KUMAR P R A. Model for real time sign lang recognition system [J]. Int. J. of Adv. Research in Comp. Sc. And Software Engg, 2012, 2 (6): 29-35.
[4] KISHORE P V V, KUMAR P R. A video based indian sign language recognition system (INSLR) using wavelet transform and fuzzy logic [J]. Int. J. of Engg. and Tech, 2012, 4(5): 537-542.
[5] GHOSH D K, ARI S. A static hand gesture recognition algorithm using k-mean based radial basis function neural network [C]//Proc. of 8th Int. Conf. on Information, Communications & Signal Processing, 2011.
[6] 徐 翠,李 然.基于 YCbCr 空間的高斯膚色模型的人臉檢測(cè)[J]. 軟件導(dǎo)刊, 2009, 02: 179-181.
[7] 高新波, 李 潔.現(xiàn)代圖像分析[M]. 西安: 西安電子科技大學(xué)出版社, 2011. 126-127.
[8] 章毓晉.圖像分析[M]. 北京: 清華大學(xué)出版社, 2012. 160-161.
[9] HUANG X D, ARIKI Y, JACK M A. Hidden markov models for speech recognition.[M]. Edinburgh: Edinburgh Univ. Press, 1990.
[10] RABINER L R. A Tutorial on hidden markov models and selected applications in speech recognition [J]. Browse Journal and Magazines, 1989, 77(2): 257-285.
[11] 吳 遷,金雪松,趙志杰,等.基于信息融合的二維視頻深度提取方法[J].哈爾濱商業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2015,31(1):40-43,55.
Static gesture recognition based on GMM-HMM
HUANG Ju, ZHANG Li-zhi, ZHAO Zhi-jie, SUN Hua-dong, JIN Xue-song
(School of Computer and Information Engineering, Harbin University of Commerce, Harbin 150028, China)
Based on Gaussian-mixture Hidden Markov Model (GMM-HMM) and gesture contour feature, this paper proposed a method to recognize gesture from a single image. The YCrCb color space threshold processing was adopted to get the binary image of the original RGB image, and then a new algorithm was presented to restore the most ideal contour. As an observation vector, it is used to train hidden Markov model parameters related to the corresponding gesture, so all the gestures’ HMM model can be established. The gesture can be recognized by the Viterbi algorithm through calculating the conditional probability which describes the relationship between test set and each gesture’s model. The experimental results showed that the method performed well for the specific static gesture images from the gesture library, and it was also effective for the images taken by ourselves.
hidden Markov model; new contour; static gesture recognition
2015-02-10.
黑龍江省自然科學(xué)基金(F201245);哈爾濱科技創(chuàng)新人才項(xiàng)目(2014RFQXJ166)
黃 菊(1991-),女,碩士,研究方向:數(shù)字圖像處理.
TP391
A
1672-0946(2015)03-0345-05