華旭奮, 孫 俊
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122; 2.無錫職業(yè)技術(shù)學(xué)院,江蘇 無錫 214121)
基于深度信息的手勢(shì)識(shí)別算法研究*
華旭奮1,2, 孫 俊1
(1.江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫214122;2.無錫職業(yè)技術(shù)學(xué)院,江蘇無錫214121)
針對(duì)在復(fù)雜背景中傳統(tǒng)手勢(shì)識(shí)別算法的識(shí)別率低問題,利用Kinect的深度攝像頭獲取深度圖像,分割出手勢(shì)區(qū)域后進(jìn)行預(yù)處理;提取手勢(shì)的幾何特征,并提出深度信息的同心圓分布直方圖特征,融合手勢(shì)的幾何特征和深度信息的同心圓分布直方圖特征;學(xué)習(xí)訓(xùn)練隨機(jī)森林分類器進(jìn)行手勢(shì)識(shí)別。文中通過在復(fù)雜背景條件下對(duì)常見的“石頭”、“剪刀”、“布”3種手勢(shì)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明:文中所提方法具有很好的平移,旋轉(zhuǎn)和縮放不變性,能適應(yīng)復(fù)雜環(huán)境的變化。
深度信息; 同心圓分布; 隨機(jī)森林分類器; 手勢(shì)識(shí)別
手勢(shì)識(shí)別作為人機(jī)交互技術(shù)中重要的研究方向之一,廣泛應(yīng)用于虛擬現(xiàn)實(shí)系統(tǒng)、手語識(shí)別系統(tǒng)以及互動(dòng)游戲等。然而傳統(tǒng)基于手勢(shì)輪廓的手勢(shì)識(shí)別技術(shù)在受到復(fù)雜背景和光照變化等干擾時(shí),算法識(shí)別效果嚴(yán)重下降[1~3]。近幾年,國(guó)內(nèi)外學(xué)者不斷提出新的改進(jìn)方法[4~7]。
Kadous提出了通過佩戴數(shù)據(jù)手套進(jìn)行手勢(shì)識(shí)別[5],但數(shù)據(jù)手套設(shè)備造價(jià)昂貴,并且穿戴復(fù)雜,不便于實(shí)驗(yàn)研究。隨著機(jī)器視覺技術(shù)的發(fā)展,文獻(xiàn)[6]提出了利用顏色閾值計(jì)算伸展開的手指?jìng)€(gè)數(shù),進(jìn)行手勢(shì)的分類與識(shí)別。然而手勢(shì)在采集的過程中受光照變化和復(fù)雜背景的影響,識(shí)別率下降明顯。而深度圖像對(duì)復(fù)雜背景和光照變化具有魯棒性,因此,Kinect的深度攝像頭被廣泛應(yīng)用于采集圖像深度信息進(jìn)行識(shí)別。文獻(xiàn)[7]利用Kinect的深度攝像頭獲取深度圖像信息,采用模板匹配法進(jìn)行手勢(shì)識(shí)別。文獻(xiàn)[8]提出了基于深度信息的手勢(shì)識(shí)別方法,通過提取手勢(shì)的指頭數(shù)以及指間的夾角等特征進(jìn)行識(shí)別。然而上述算法僅考慮了手勢(shì)的輪廓信息,忽略了豐富的手勢(shì)表面信息。
為了更好地描述手勢(shì)表面信息,本文提出了利用深度信息的同心圓環(huán)分布直方圖特征,通過融合同心圓環(huán)直方圖特征以及手勢(shì)的輪廓幾何特征進(jìn)行手勢(shì)識(shí)別。首先利用Kinect采集深度圖像,該圖像可以準(zhǔn)確記錄深度攝像頭有效范圍內(nèi)的深度信息。其次,利用深度閾值結(jié)合骨骼信息分割出手勢(shì)區(qū)域,并且進(jìn)行預(yù)處理。然后,提取手勢(shì)深度信息的同心圓環(huán)分布直方圖特征描述手勢(shì)的表面信息,并且融合手勢(shì)的幾何特征、輪廓特征組成特征集。最后,利用隨機(jī)森林分類器判別特征集,識(shí)別手勢(shì)。
Kinect是微軟公司開發(fā)的一種體感設(shè)備,機(jī)身主要由RGB攝像頭、紅外線發(fā)射器和紅外攝像頭組成。RGB攝像頭用來采集彩色圖像,最大分辨率為1 280×960。紅外線發(fā)射器和紅外攝像頭用來獲得深度信息和骨骼信息,紅外攝像頭最大分辨率為640×480。
Kinect采集的實(shí)際場(chǎng)景的深度圖像,如圖1所示,深度圖像中的每個(gè)像素點(diǎn)的像素值反映了真實(shí)場(chǎng)景中各個(gè)點(diǎn)與Kinect攝像頭的距離,精度大約1 mm。此外,Kinect還能有效記錄人體骨骼關(guān)節(jié)點(diǎn)的位置數(shù)據(jù)。然而,在深度攝像頭視野的全部領(lǐng)域中,手勢(shì)相對(duì)較小,因此,需要從復(fù)雜背景中有效分割出手勢(shì)。手勢(shì)分割是手勢(shì)識(shí)別的關(guān)鍵步驟之一,分割的效果直接影響到手勢(shì)識(shí)別的準(zhǔn)確率。為準(zhǔn)確分割出手勢(shì)區(qū)域,本文采用二次分割法進(jìn)行手勢(shì)分割,具體步驟如下:
1)讀取手腕和手心處骨骼點(diǎn)的位置數(shù)據(jù),定位手勢(shì)所在區(qū)域。同時(shí),手勢(shì)表面在一個(gè)平面上,深度信息平滑變化。因此,定義手勢(shì)區(qū)域?yàn)閒(x)
(1)
式中x為深度圖像中每個(gè)像素點(diǎn)的深度值;μd為手掌的基準(zhǔn)深度值。當(dāng)深度圖像上的像素點(diǎn)滿足式(1)時(shí),認(rèn)為此像素點(diǎn)是手勢(shì)上的點(diǎn),得到手勢(shì)區(qū)域。
圖1 分割手勢(shì)區(qū)域的效果
2)解決背景干擾以及手腕部分的冗余干擾,進(jìn)行二次分割,假設(shè)手心骨骼的平面坐標(biāo)為P(x,y),手腕處骨骼的平面坐標(biāo)Q(x1,y1),連接手心P和手腕Q,并過手腕Q作直線PQ的垂線。將垂線作為矩形的一條邊,對(duì)包含手心的區(qū)域做最小外接矩形。將最小外接矩形以外的干擾去除,分割的手勢(shì)如圖1(b)所示。
3)對(duì)分割后的手勢(shì)圖像進(jìn)行預(yù)處理操作,采用形態(tài)學(xué)圖像處理操作,去除孤立點(diǎn)、噪聲、填充孔洞等。并且為了消除由于不同距離、不同手勢(shì)以及手掌本身的大小區(qū)別帶來的影響,將分割后的手勢(shì)歸一化為120×120,如圖1(c)所示,進(jìn)行特征提取。
深度信息的同心圓環(huán)分布直方圖特征是基于深度信息的描述符,反映了不同手勢(shì)表面的深度信息在同心圓環(huán)上的分布情況。對(duì)旋轉(zhuǎn)和平移具有魯棒性。深度信息的同心圓環(huán)分布直方圖如圖2,特征提取步驟具體如下:
圖2 深度信息的同心圓環(huán)分布直方圖
1)獲取深度信息:設(shè)定坐標(biāo)原點(diǎn)為O(0,0,0)??紤]到不同的手勢(shì)樣本距離Kinect攝像頭的距離不同,平移深度坐標(biāo)軸,設(shè)置新的坐標(biāo)原點(diǎn)為O(0,0,d)歸一化手勢(shì)樣本,其中d為有效分割后手勢(shì)表面的最小深度值。由此,手勢(shì)表面的深度信息空間分布特征更加明顯。
2)提取同心圓環(huán)分布直方圖特征:在有效分割后的手勢(shì)區(qū)域中,獲取手勢(shì)區(qū)域質(zhì)心,以質(zhì)心為圓心獲取手勢(shì)的最小外接圓,并獲取N個(gè)同心圓環(huán)分布直方圖描述手勢(shì)的深度特征。
(2)
式中Ω為手勢(shì)區(qū)域;p(xi,yi)為手勢(shì)區(qū)域中的第i個(gè)像素的平面坐標(biāo)。
(3)
式中p(x′,y′)為手勢(shì)邊緣輪廓Φ上點(diǎn)的平面坐標(biāo)。
3)完成特征提取:獲取以N個(gè)深度信息同心圓環(huán)分布直方圖Hi,i=1,2,3,4,…,N,表示手勢(shì)深度特征
FH=[H1,H2,H3,…,HN]T
(4)
本文主要提取緊湊度和矩形度這兩個(gè)重要的形狀描述特征,對(duì)手勢(shì)的旋轉(zhuǎn)、平移和大小具有魯棒性。
緊湊度是基于形狀的描述符,大小代表手勢(shì)的緊湊程度。緊湊度CA特征如下
(5)
式中l(wèi)為手勢(shì)輪廓的周長(zhǎng);S為手勢(shì)的面積。
矩形度是用來描述手勢(shì)接近矩形的程度
(6)
式中SM為手勢(shì)的最小外接矩形。矩形度值越接近于1,手勢(shì)越接近矩形。因此,幾何特征集為
FG=[CA,RA]T
(7)
融合深度信息的同心圓環(huán)分布直方圖特征和手勢(shì)的形狀特征,如公式
F=[FH,FG]=[CA,RA,H1,H2,H3,…,HN]T
(8)
本文采用隨機(jī)森林分類器作為手勢(shì)識(shí)別分類器,將F特征集放入到隨機(jī)森林分類器進(jìn)行訓(xùn)練和測(cè)試。
實(shí)驗(yàn)在自然環(huán)境下采用Kinect獲取深度圖像建立手勢(shì)庫,手勢(shì)庫共選用10個(gè)實(shí)驗(yàn)對(duì)象,要求每個(gè)實(shí)驗(yàn)對(duì)象完成手勢(shì)“石頭”、“剪刀”、“布”3種手勢(shì)各10次,手勢(shì)庫中共包括300個(gè)樣本。如圖3所示,樣本中包含手勢(shì)大小不一,手勢(shì)旋轉(zhuǎn),手勢(shì)存在粘指現(xiàn)象。
圖3 手勢(shì)深度信息
在手勢(shì)表面深度信息的描述中,同心圓環(huán)的個(gè)數(shù)參數(shù)N的選取至關(guān)重要,本實(shí)驗(yàn)中,僅選用深度分布直方圖特征來識(shí)別手勢(shì)。隨機(jī)選取樣本的一半作為訓(xùn)練樣本,余下的為測(cè)試樣本,且在同一個(gè)參數(shù)下,實(shí)驗(yàn)運(yùn)行10次,取平均識(shí)別率,實(shí)驗(yàn)結(jié)果如圖4所示,橫坐標(biāo)為參數(shù)N的值,縱坐標(biāo)為實(shí)驗(yàn)的平均識(shí)別率。從圖4中,很容易發(fā)現(xiàn),當(dāng)參數(shù)N比較小時(shí),即N<6時(shí),手勢(shì)的平均識(shí)別率急劇下降,當(dāng)參數(shù)N比較大時(shí),手勢(shì)的平均識(shí)別率趨于平滑且收斂于一個(gè)極限值,但是隨著N的增加計(jì)算復(fù)雜度也會(huì)相應(yīng)增加,綜合考慮上述因素,本文中設(shè)置參數(shù)N=6。
圖4 不同參數(shù)N對(duì)應(yīng)的平均識(shí)別率
1)由于本文的研究對(duì)象為具有深度信息的手勢(shì),深度圖像對(duì)復(fù)雜環(huán)境不敏感,因此,本文手勢(shì)識(shí)別方法不受復(fù)雜環(huán)境的干擾,對(duì)手勢(shì)的旋轉(zhuǎn)和平移具有魯棒性。2)采用二次分割方法準(zhǔn)確分割出手勢(shì)區(qū)域,對(duì)手勢(shì)進(jìn)行歸一化,解決了手勢(shì)的尺寸不一致問題,避免了距離Kinect位置不一致帶來的影響。因此,本文手勢(shì)識(shí)別方法具有手勢(shì)大小不變性。3)本文識(shí)別方法統(tǒng)計(jì)了手勢(shì)表面深度信息分布和手勢(shì)的幾何特征,不同的手勢(shì)不會(huì)影響識(shí)別,因此,本文手勢(shì)識(shí)別方法具有旋轉(zhuǎn)不變性。
為了證明所提方法的有效性,將所提方法與僅有幾何特征的方法,僅有深度信息的同心圓環(huán)分布直方圖特征方法,以及文獻(xiàn)[9]形狀參數(shù)特征方法進(jìn)行比較。實(shí)驗(yàn)中,所有的方法均使用采集的手勢(shì)庫,隨機(jī)從手勢(shì)庫中抽取1/3的樣本作為訓(xùn)練樣本,余下的作為測(cè)試樣本,每種方法的每種手勢(shì)的識(shí)別結(jié)果如表1所示。相比其他方法本文方法獲得較高的識(shí)別結(jié)果。由表1的前3行看到:融合幾何特征和深度分布直方圖特征能夠很明顯地提高手勢(shì)識(shí)別率。文獻(xiàn)[9]的方法具有稍低的識(shí)別率的原因是該方法對(duì)手勢(shì)的粘指現(xiàn)象不具有魯棒性。而本文提出以手掌中心為圓心,提取手勢(shì)的N個(gè)同心圓環(huán)分布直方圖特征進(jìn)行識(shí)別,手勢(shì)的粘指現(xiàn)象不會(huì)影響深度信息的同心圓環(huán)分布,因此,本文識(shí)別方法能夠更好地處理粘指現(xiàn)象。
表1 不同方法的平均識(shí)別率 %
利用Kinect的優(yōu)勢(shì)提出了在復(fù)雜背景下基于深度空間分布特征的手勢(shì)識(shí)別算法。提出了深度信息的同心圓環(huán)分布直方圖特征提取方法,簡(jiǎn)單、易行,具有較強(qiáng)的實(shí)用性。另外,由于深度信息的同心圓環(huán)分布直方圖特征是一種基于統(tǒng)計(jì)分析的算法,且融合了緊湊度和矩形度兩個(gè)重要的手勢(shì)幾何特征,因此,本文提取的手勢(shì)特征具有旋轉(zhuǎn)、縮放、平移的不變性,并且解決了粘指問題。實(shí)驗(yàn)結(jié)果表明:在環(huán)境復(fù)雜,光照不穩(wěn)定的條件下,本文算法具有良好的適應(yīng)性和魯棒性。
[1] Song Y,Demirdjian D,Davis R.Continuous body and hand gesture recognition for natural human-computer interaction[J].ACM Transactions on Interactive Intelligent Systems,2012,2(1):1-28.
[2] 劉亞瑞,楊文璐.基于Kinect和變形雅可比—傅里葉矩的手勢(shì)識(shí)別[J].傳感器與微系統(tǒng),2016,35(7):48-50.
[3] Li S Z,Yu B,Wu W,et al.Feature learning based on SAE-PCA network for human gesture recognition in RGBD images[J].Neuro Computing,2015,151(151):565-573.
[4] 王 堯,孫子文,周治平.一種基于手機(jī)加速度傳感器的三維手勢(shì)身份認(rèn)證方法[J].傳感器與微系統(tǒng),2014,33(8):37-40.
[5] Kadous W.GRASP:Recognition of Australian sign language using instrumented gloves[J].Kidney International,1995,47(1):7-24.
[6] Victor Ayala-Ramirez,Sergio A.Mota-Gutierrez,Uriel H Hernandez-Belmonte,et al.A hand gesture recognition system based on geometric features and color information for human computer interaction tasks[C]∥Proceedings of Robotics Summer Meeting,Mexico,2011:54-59.
[7] Ren Z,Yuan J,Zhang Z.Robust hand gesture recognition based on finger-earth mover's distance with a commodity depth came-ra[C]∥2011 International Conference on Multimedea,Scottsdale,AZ,USA,2011:1093-1096.
[8] 曹雛清,李瑞峰,趙立軍.基于深度圖像技術(shù)的手勢(shì)識(shí)別方法[J].計(jì)算機(jī)工程,2012,38(8):16-18.
[9] Panwar M.Hand gesture recognition based on shape parameters[C]∥International Conference on Computing,Communication and Applications,IEEE,2012:1-6.
Researchongesturerecognitionalgorithmbasedondepthinformation*
HUA Xu-fen1,2, SUN Jun1
(1.SchoolofInternetofThingsEngineering,JiangnanUniversity,Wuxi214122,China;2.WuxiInstituteofTechnology,Wuxi214121,China)
In order to deal with the problem of low recognition rate of traditional hand gesture recognition algorithm with complex background,a gesture recognition algorithm based on depth information is proposed.Depth image is obtained by the depth camera of Kinect,pre-processing is performed after dividing the gesture area.Geometric features of hand gesture are extracted,character of concentric distribution histogram of depth information is presented.Learn and train random forest classifier for gesture recognition,the geometric features of the hand gestures and the histograms of the concentric circles of the depth information are used to recognize the tested hand gesture via random forest classifier.Three kinds of gestures, such as stone,scissors and cloth, are tested under complex background.The experimental results show that the proposed method has better translation,rotation and scaling invariance,and can adapt to the change of complex environment.
depth information; concentric distribution; random forest classifier; hand gesture recognition
10.13873/J.1000—9787(2017)12—0122—04
TP 391
A
1000—9787(2017)12—0122—04
2017—01—03
江蘇省高校自然科學(xué)研究面上資助項(xiàng)目(16KJB520051)
華旭奮(1982-),女,碩士研究生,主要研究方向?yàn)橹悄芸刂啤O 俊(1971-),男,通訊作者,博士,教授,博士生導(dǎo)師,主要從事人工智能研究、智能算法設(shè)計(jì)與分析研究工作,E—mail:sunjun_wx@hotmail.com。