朱正偉 祝 磊 饒 鵬
1(常州大學信息科學與工程學院 江蘇 常州 213164)2(常州光電技術(shù)研究所 江蘇 常州 213164)
手勢識別交互技術(shù)是人機交互(HCI)研究的主要焦點之一。目前,對于手勢識別(HGR)的研究方法也比較多樣化,這些方法可以根據(jù)所使用的傳感器的不同進行分類[1]。一般分為基于數(shù)據(jù)手套的手勢識別和基于計算機視覺的手勢識別,后者使人機交互更加自然,已經(jīng)成為手勢識別研究的重點。本文提出了一種基于Kinect深度傳感器的手勢識別系統(tǒng),無需在用戶身上穿戴任何外接設備。
基于Kinect深度傳感器的手勢識別研究大致分為手勢分割、跟蹤定位和特征提取三個過程。Pisharady等[2]針對在復雜背景下手勢分割不準確的問題,提出了一個多類手姿態(tài)的手勢識別系統(tǒng),并取得了較理想的效果。Chen等[3]利用系統(tǒng)當前環(huán)境對對象物體進行追蹤,通過Kinect捕獲的圖像深度信息來對前景進行提取,并快速捕捉到目標物體。Yang等[4]利用HOG描述符來表示手勢,闡述了傳統(tǒng)RGB相機所捕獲到的圖像的局部結(jié)構(gòu)特征。Ji等[5]開發(fā)了一種RGB視頻序列描述符,將HOG的概念推廣到了3D中。除了使用RGB攝像頭之外,Wu等[6]將HOG描述符運用到了深度圖像中。Oreifej等[7]提出了一種基于HON4D特征來描述序列深度圖,可以同時捕獲手部形狀及其運動信息。Wang等[8]則為深度序列提出了隨機占用模式(ROP)特征。
目前,絕大部分的手勢識別系統(tǒng)主要使用K最近鄰算法(K-NNs)、支持向量機(SVM)、神經(jīng)網(wǎng)絡和有限狀態(tài)機(FSM)等[9]。特別是隱馬爾科夫模型(HMMs),每個觀測都可以被視為一個混合模型,給捕捉數(shù)據(jù)提供一個強大的概率框架,可以直接用來識別手勢[10]。值得注意的是,在標準HMM中,模型觀測狀態(tài)符合混合高斯分布,經(jīng)常使用極大似然估計(MLE)來對參數(shù)進行評估,這樣導致模型的訓練量較大。為了解決過度擬合的問題,Saon等[11]提出了一種結(jié)合貝葉斯壓縮感知的隱馬爾科夫模型(BS-HMM),并將其應用到語音識別中。
本文利用手勢圖像的深度信息,將分布序列引入到BS-HMM中,每個分布均由k個連續(xù)的幀圖像組成作為觀測,利用巴氏距離研究每個觀測序列概率分布。在該系統(tǒng)中,將巴式距離結(jié)合BS-HMM對各類手勢進行建模,然后通過最大期望算法(EM)來訓練參數(shù),這樣做的優(yōu)點如下:(1)系統(tǒng)學習了基于深度圖像特征的隱藏狀態(tài),所建模型要比基于HMM的手勢識別系統(tǒng)更加規(guī)范。(2)將巴式距離融入到了BS-HMM中(稱為BDBS-HMM),給處理深度圖像特征提供了一種更直觀的方式。
Φiwt)TRi(Zt-Φiwt))]
(1)
式中:Ri是一個狀態(tài)依賴精度矩陣,wt是先驗值N(0,Ai-1)中的一個感知權(quán)值,λi={Ai,Φi,Ri}是狀態(tài)參數(shù)。通過整合感知權(quán)值wt,得到序列特征Z的邊界似然,公式如下:
該系統(tǒng)使用深度傳感器Microsoft Kinect獲取一系列包含幾何信息的深度圖像。然后,利用骨架信息對手部進行跟蹤,通過深度閾值可以很容易地將背景分離出來[13]。根據(jù)手部的位置裁剪深度圖像,并將大小調(diào)整為50×50像素,然后對深度圖像進行標準化處理。為了細化圖像紋理,通過直方圖均衡化來提高圖像對比度,同時,采用中值濾波的方法對每個圖像進行降噪[14],在本文中,使用的是5×5中值濾波器。
BS-HMM對一系列的數(shù)據(jù)點進行建模,為了得到序列分布模型,本文提出了BDBS-HMM,將巴氏距離引入到了BS-HMM中,巴氏距離DB用來測量概率分布的差異,其定義公式如下:
(3)
p(μl,∑l|wl,λi)∝
(4)
每個觀測分布hl都是由BDBS-HMM參數(shù)λ={πi,aij,Ai,Φi,Ri}生成。
E{logp(H,S|λ)|H,λold}=∑Sp(S|H,λold)logp(H,S|λ)
(5)
式中:λold是當前參數(shù)值,第二項主要是為了式(6)的計算。
(6)
通過識別手勢行為動作來對所提出方法的有效性進行評價,F(xiàn)-measures(F值)來評估識別效果,評價標準包括準確率(Precision)、召回率(Recall)和F1分數(shù)(F1 Score)[15]。本次實驗是在兩個數(shù)據(jù)庫上進行,數(shù)據(jù)庫的原深度視頻信息都是通過微軟Kinect設備捕捉。第一個是MSRGesture3D數(shù)據(jù)庫,包含了12個動態(tài)美國手語手勢,共336個視頻,每個視頻幀數(shù)在30~60之間[16],圖1(a)是一個MSRGesture3D數(shù)據(jù)庫的手勢深度圖像示例。第二個數(shù)據(jù)庫包含了在實際環(huán)境條件下的自記錄數(shù)據(jù)。本文的數(shù)據(jù)庫共有100個視頻和上、下、左、右、旋轉(zhuǎn)、禁止、停止、來、縮放和確定等10類手勢,每個視頻的幀數(shù)為60。圖1(b)是本文數(shù)據(jù)庫的手勢深度圖像示例,由于MSRGesture3D中的大多數(shù)手勢視頻都是經(jīng)過分割處理的,所以只顯示手腕以上部分,但是,本文數(shù)據(jù)庫中的視頻并沒有被很好地分割,因此需要使用手勢定位來對數(shù)據(jù)庫進行預處理。在實驗過程中,一半文件用于手勢訓練,另一半文件用于手勢測試。
(a)
(b)圖1 MSRGesture3D數(shù)據(jù)庫和本文數(shù)據(jù)庫手勢深度圖
為了證實提出的BDBS-HMM的效率,本文選擇使用標準HMM作為參照,由于HMM通常會導致模型過度擬合,所以選擇使用BS-HMM作為另一個參照。本研究共進行了兩個實驗,實驗一研究了HMM、BS-HMM、和BDBS-HMM在不同混合分量下的識別效果。實驗二檢測了訓練過程中BS-HMM和BDBS-HMM基向量的相似性,同時也研究了主動相關決策(ARD)參數(shù)。在這兩個實驗中,對HOG和HON4D兩個特征集也進行了研究。為了公平比較,HMM、BS-HMM和BDBS-HMM都使用相同的特征集。通過64分量標準HMM初始化BS-HMM和BDBS-HMM的基向量,每個實驗隨機劃分進行20次得出平均結(jié)果。
首先,將HMM、BS-HMM和BDBS-HMM分為兩個隱狀態(tài),每個狀態(tài)下,混合分量設置為2個、4個、8個和16個,表1和表2分別表示使用MSRGesture3D數(shù)據(jù)集和本文的數(shù)據(jù)集獲得的實驗結(jié)果。實驗結(jié)果表明,在大多數(shù)情況下,本文提出的BDBS-HMM效果要比HMM和BS-HMM要好。在這里,BS- HMM和BDBS-HMM都使用64分量HMM初始化。
表1 使用MSRGesture3D數(shù)據(jù)庫手勢識別率 %
表2 使用本文數(shù)據(jù)庫手勢識別率 %
接下來,對本文提出的BDBS-HMM和BS-HMM進行更詳細的比較。理論上講,混合分量中的基向量集在訓練學習過程中會更加獨立,以訓練過程中的前五次迭代為例,圖2為余弦相似度和ARD參數(shù)與迭代次數(shù)關系圖。ARD的值表示感知權(quán)值的精度,BS-HMM與BDBS-HMM二者算法的比較驗證了它們的收斂速度是相似的。表3使用了MSRGesture3D的數(shù)據(jù)庫,比較了BS-HMM和BDBS-HMM的平均F值,實驗結(jié)果表明,本文提出的BDBS-HMM要優(yōu)于BS-HMM。
表3 BS-HMM與BDBS-HMM的Precision、Recall和F1 Score比較
(a) 使用BS-HMM得到的結(jié)果
(b) 本文所提出的BDBS-HMM得到的結(jié)果圖2 余弦相似度和ARD參數(shù)與迭代次數(shù)關系圖
本文提出了一種基于深度信息的手勢識別系統(tǒng),該系統(tǒng)的主要創(chuàng)新之處在于其較好的處理概率特征的能力。為了處理序列分布形式特征,將巴氏距離引入到BS-HMM中,通過極大似然法對提出的BDBS-HMM參數(shù)進行預估。同時也考慮到了模型正規(guī)化,使用EM算法推導出參數(shù)的遞歸解,并將所提出的BDBS-HMM與使用標準HMM和BS-HMM的手勢識別效果進行比較,實驗結(jié)果表明了在使用MSRGesture3D數(shù)據(jù)庫的情況下所提出的BDBS-HMM的優(yōu)越性。