陳梯,孫杳如
(同濟大學電子與信息工程學院計算機科學與技術(shù)系,上海 201804)
當前社會,人機交互技術(shù)成為了愈加熱門的研究領(lǐng)域,而通過手勢與計算機設(shè)備交互則是一種最直接的方式,手勢識別的研究因此而生。最初主要是利用專用硬件設(shè)備進行輸入,最常見的數(shù)據(jù)手套就是一種通過人手佩戴來獲取位置信息,手指伸展信息的設(shè)備。外部設(shè)備的介入雖然可以提高識別的準確度和穩(wěn)定性,但卻違背了手勢自然的表達方式。于是,基于視覺的手勢識別成為一種必然趨勢。Pallavi Gurjal和Kiran Kunnur等人提出利用尺度不變性特征變換(SIFT)特征,對美國手語26個英文字母(A-Z)進行識別并取得良好效果[1]。Jiatong Bao和Aiguo Song等人則利用快速魯棒性特征(SURF)同樣對26個英文字母進行手勢識別,識別率為87.1%[2]。楊全、彭進業(yè)則利用Kinect攝像頭獲取字母的手語視頻,對實時圖像提取SIFT特征,利用SVM進行訓練和識別,解決了復雜背景下手勢的檢測分割難題,也取得了不錯的識別效果[3]。胡章芳和楊麟也是利用SURF特征對每個手語字母進行了150次實驗后得到了97.7%的平均識別率[4]。Mahmud H和Hasan M K等人同樣對手勢圖像提取SIFT特征,然后利用SVM用于訓練和識,并獲得了很好的識別率[5]。
基于上述工作,本文提出一種基于深度圖像提取SURF特征和隱馬爾可夫模型(HMM)的手語識別方法。不同于一般的攝像頭,本次實驗采用的數(shù)據(jù)集是由Kinect攝像頭拍攝的視頻序列,因此可以基于深度信息進行手勢分割,提取實時手勢圖像,并且利用SURF算法對提取的手勢圖像進行分析,提取特征序列,輸入到HMM中進行訓練和識別,一定程度上解決了光照變化、角度旋轉(zhuǎn)和復雜背景等難題。
深度攝像頭可以獲取深度信息,并且不受環(huán)境光照以及背景復雜度的影響,將其用于基于視覺的手勢識別中,能幫助我們更好地對手勢進行檢測分割。Kinect就是一種由微軟開發(fā)的深度攝像頭,本文實驗所采用的數(shù)據(jù)集都是由Kinect攝像頭所拍攝的。深度信息對應(yīng)于物體與攝像頭之間距離,因此我們可以利用深度值來區(qū)分出手勢區(qū)域和背景區(qū)域,因為一般情況下,手勢往往是離深度攝像頭最近的一塊區(qū)域。實驗時,由于人與攝像頭之間的距離并不是固定不變的,所以很難根據(jù)某一具體的閾值來分割手勢。根據(jù)深度圖像的特性,同一深度的像素點在深度圖像中的灰度值是相同的,這意味著我們可以通過建立灰度直方圖[6]的方式來分割出手勢。同一段灰度值所對應(yīng)的區(qū)域即是深度圖像中與攝像頭同樣距離的像素點,并且距離越近,則灰度值越大。因此我們選擇灰度值最大的區(qū)域塊進行分析,即可以將手勢區(qū)域與背景區(qū)域分割。
SURF(Speeded Up Robust Features,加速魯棒性特征)是一個穩(wěn)健的圖像識別和描述算法,于2006年由Herbert Bay在ECCV大會上首次提出[7]。SURF算法簡單高效,并且具有良好的魯棒性。采用此算法提取手勢圖像的局部特征,實現(xiàn)尺度不變性的特征點檢測,主要由以下5個步驟組成:a)Hessian矩陣構(gòu)建;b)尺度空間生成;c)精確定位特征點與主方向;d)構(gòu)造SURF特征點描述算子。
Hessian矩陣是SURF算法的核心,由函數(shù)偏導數(shù)組成。手勢圖像中每個像素點的Hessian Matrix可以按公式(1)定義,假設(shè)函數(shù) f(x,y):
利用二階標準高斯函數(shù)作為濾波器,計算出H矩陣的三個矩陣元素Lxy,Lxx,Lyy,從而得到H矩陣公式:
上式(3)中L(x,t)表示一幅在不同解析度下的圖像,即可以通過高斯函數(shù)G(t)與圖像函數(shù)I(x)在點x的卷積來實現(xiàn),其中t為高斯方差。通過這種方法可以為圖像中每個像素計算出H矩陣的決定值,并用來判別特征點。Herbert Bay提出用近似值代替L(x,t),為平衡準確值與近似值間的誤差引入權(quán)值,權(quán)值隨尺度變化,所以H矩陣判別式可表示為:
圖像的尺度空間是這幅圖像在不同解析度下的表示。SURF中尺度是由方型濾波器的大小決定的,越往上層,尺度濾波器越大。
在多尺度空間中,將經(jīng)過Hessian矩陣處理過的每個像素點與其26個領(lǐng)域值進行比較,保留最大值和最小值,通過預設(shè)閾值和增加極值以檢測出幾個最強的特征點。統(tǒng)計特征點的Haar小波特征,計算響應(yīng)總和,對這些響應(yīng)相加以形成新的矢量,取矢量最長的方向為該特征點的主方向。
在特征點周圍取一個正方形框,劃分為16個子塊,統(tǒng)計每個子區(qū)域像素的水平方向和垂直方向的Haar小波特征(水平方向之和∑dx,水平方向絕對值之和,垂直方向之和∑dy,垂直方向絕對值之和
此時獲取的64維特征向量的描述子數(shù)量是不穩(wěn)定的,因為人的手部區(qū)域離攝像頭的距離會影響特征點的檢測,所以還需進一步處理SURF特征描述子。
BOF(Bag Of Features)即詞袋[8],是一種用于圖像或視頻檢索的技術(shù),把每幅圖像描述為一個局部區(qū)域/關(guān)鍵點特征的無序集合。從上一步提取出的SURF特征數(shù)據(jù)集中隨機選取K個作為初始聚類中心,聚類算法采用K-means算法;求出SURF描述子數(shù)據(jù)集的每個數(shù)據(jù)與各個聚類中心的距離,按照最小化原則將數(shù)據(jù)劃分入最近鄰聚類中心的類簇;然后再重新計算每個類簇的中心直到每個聚類中心不會再改變時,整個算法結(jié)束。此時,每個聚類中心就是一個視覺詞匯,所有的視覺詞匯形成一個視覺詞典。將手勢圖像中提取的SURF特征描述子分配到離它最近的一個視覺詞匯上,視覺詞匯對應(yīng)的維度高度加1,當所有的特征描述子分配完畢后,手勢圖像就可以用一個K維的視覺詞匯直方圖表示,然后對直方圖進行歸一化處理。最后通過TF-IDF對頻數(shù)表加上權(quán)重,生成最終的BOF。
隱馬爾可夫模型(HMM,Hidden Markov Model)最早在20世紀60年代后半期被Leonard E.Baum等人在一些統(tǒng)計學論文中提出,在隱馬爾可夫模型中,狀態(tài)是不可見的,但是某些變量是可見的,這些變量受狀態(tài)影響,每一種狀態(tài)的輸出都有相應(yīng)的概率分布[9-11]。在隱馬爾可夫模型中包含兩個過程,一個是現(xiàn)實中可見的觀測值,另一個是觀測值下的隱藏狀態(tài),觀測值和隱藏狀態(tài)之間存在一個概率函數(shù),同樣地,每個隱藏狀態(tài)之間也有相應(yīng)的狀態(tài)轉(zhuǎn)換概率。如下圖所示,x表示隱藏狀態(tài),y表示觀察值,a表示狀態(tài)轉(zhuǎn)換概率,b表示輸出概率。
圖1 隱馬爾可夫模型狀態(tài)變遷圖
一般的隱馬爾可夫模型可以表示為λ=(N,M,A,B,π)。其中N表示隱藏狀態(tài)個數(shù),M表示觀察值個數(shù),A表示隱藏狀態(tài)的轉(zhuǎn)換概率矩陣。記A=[aij]N×N。其中aij是在時刻t,狀態(tài)為qi的條件下,時刻t+1轉(zhuǎn)移到狀態(tài) qj的概率。如下公式(4),其中 aij≥0,并且
B則表示觀察轉(zhuǎn)換概率矩陣。記B=(bij)N×M。其中bij是在時刻t,狀態(tài)為qi的條件下,生成觀測vj的概率。如下公式(5),其中bij≥0,并且
π則表示初始狀態(tài)的概率分布。記π=(πi)N×1。其中 πi是在時刻 t=1的條件下,處于隱藏狀態(tài) q1的概率。如下公式(6),其中 πi≥0,并且
HMM在語音識別領(lǐng)域已得到成功應(yīng)用,在手勢識別領(lǐng)域,它同樣有著廣泛應(yīng)用。例如Schlenzig等人[12]的實驗就表明了HMM可以成功應(yīng)用在連續(xù)手勢識別中。要利用HMM為手勢識別建模,首先需初始化一個HMM模型;提取訓練樣本中的觀測序列Y,采用Viterbi算法[13]求出初始模型下的P(Y|λ);利用Baum-Welch算法[14]重新估計初始模型的參數(shù),得到一個新模型;再利用Viterbi算法求出新模型下的P(Y|λ);重復上兩步計算,直至 P(Y|λ)收斂,即訓練手勢模型的過程結(jié)束,這里為樣本庫中每個手勢訓練出一個HMM模型。在識別階段,提取出測試集中的觀測序列Y,利用前向-后向(forward-backward)算法求出該觀測序列Y與各個手勢模型的匹配概率值P(Y|λ),之后選取最大的概率值對應(yīng)的手勢,即為識別結(jié)果。整個過程中即解決HMM的三大問題,如下表所示:
表1
為驗證該系統(tǒng)可行性,本次實驗所選的視頻樣本是中國科學院計算技術(shù)研究所視覺信息處理和學習研究組發(fā)布的開源DEVISIGN中國手語數(shù)據(jù)庫。在數(shù)據(jù)庫中選取字母A-H等8種手勢的視頻樣本作為本次實驗的訓練測試集,其中每種手勢集都由8位不同實驗者,每人演示5次組成,總共400個手勢樣本。實驗中,將240個樣本作為測試集訓練A-H每種手勢的HMM模型,剩余160個樣本用于測試模型的準確性。圖2是A-H手勢表示圖。
圖2 手勢A-H
表2是本次實驗中8種手勢的手勢識別率,由表可得8種手勢的平均識別率是93%。因此對深度手勢圖像進行手勢分割、提取SURF特征和HMM訓練識別,可以得到較高的識別率。
表2 A-H手勢識別率
本文主要提出了一種基于深度手勢圖像SURF特征和HMM的手語識別方法,并通過實驗驗證了該方法的可行性以及有效性?;赟URF特征訓練模型,可以使系統(tǒng)在背景、光照和尺度變化下都能表現(xiàn)出較強的魯棒性。但是由于手語的表示極其復雜,而且本次實驗使用樣本的手勢種類較少,隨著手勢種類以及數(shù)目的增加,僅僅提取圖像的局部性特征還不夠,未來工作將圍繞如何提取更具代表性的手勢特征,或是將SURF與其他特征,例如Fourier描述子,相結(jié)合以達到對復雜手勢有更好的識別效果。此外,本文所涉及的圖像識別技術(shù)可應(yīng)用于模式識別、人機交互、智能增材制造等應(yīng)用領(lǐng)域。
[1]Gurjal P,Kunnur K.Real Time Hand Gesture Recognition Using SIFT[J].International Journal of Electronics and Electrical Engineering,2012,2(3):19-33.
[2]Bao J,Song A,Guo Y,et al.Dynamic Hand Gesture Recognition Based on SURF Tracking[C].Electric Information and Control Engineering(ICEICE),2011 International Conference on.IEEE,2011:338-341.
[3]楊全,彭進業(yè).基于手語視覺單詞特征的手語字母識別研究[J].計算機工程,2014,40(4):192-197,202.
[4]胡章芳,楊麟,羅元,等.一種基于改進的SURF算法的靜態(tài)手語字母識別方法[J].重慶郵電大學學報:自然科學版,2013,25(4):544-548.
[5]Mahmud H,Hasan M K,Abdullah-Al-Tariq M A.Hand Gesture Recognition Using SIFT Features on Depth Image[J].
[6]藍章禮,李益才.數(shù)字圖像處理與圖像通信[M].北京:清華大學出版社,2009.
[7]Bay H,Ess A,Tuytelaars T,et al.Speeded-up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008,110(3):346-359.
[8]Nowak E,Jurie F,Triggs B.Sampling Strategies for Bag-of-Features Image Classification[J].Computer Vision-ECCV 2006,2006:490-503.
[9]張海波.基于DHMM的視覺語言識別[D].吉林大學,2010.
[10]Juang B H,Rabiner L R.Hidden Markov Models for Speech Recognition[J].Technometrics,1991,33(3):251-272.
[11]Kim D,Song J,Kim D.Simultaneous Gesture Segmentation and Recognition Based on Forward Spotting Accumulative HMMs[J].Pattern Recognition,2007,40(11):3012-3026.
[12]Schlenzig J,Hunter E,Jain R.Recursive Identification of Gesture Inputs Using Hidden Markov Models[C].Applications of Computer Vision,1994.,Proceedings of the Second IEEE Workshop on.IEEE,1994:187-194.
[13]Forney G D.The Viterbi Algorithm[J].Proceedings of the IEEE,1973,61(3):268-278.
[14]Welch L R.Hidden Markov Models and the Baum-Welch Algorithm[J].IEEE Information Theory Society Newsletter,2003,53(4):10-13.