林亞飛,曾曉勤
(河海大學 計算機與信息學院,南京 211100)
作為聾啞人群體的共同語言,手語是聾啞人之間以及聾啞人與健全人之間日常溝通交流與表達感情的重要方式,手語對于聾啞人而言在生活中、學習上以及工作中尤為重要,但由于手語不是一門大眾化的語言,在聽覺正常的人中只有極少數(shù)人會使用或者理解手語,導致聾啞人與外界溝通起來尤為困難。此外,近年來人機交互領域中手勢識別的應用也越來越多,新一代人機交互技術實現(xiàn)了交互過程中“以人為中心”這一理念,用戶可以通過手勢、語音、表情、肢體動作等操作計算機,這樣的交互過程更加符合人的交流習慣。因此本文對中國靜態(tài)手勢語識別進行了深入的研究。
中國科技大學的研究者提取手部的運動軌跡特征及手型特征,引入?yún)^(qū)分性字典學習和稀疏表示的識別算法對孤立詞手語進行識別,對實驗中采集的72個孤立手語詞識別的平均正確率為98.61%; Ayman等人提出了主成分分析法結(jié)合定向梯度直方圖對手語進行識別的方法,對30個阿拉伯字母的識別正確率達到了99.2%;Giulio等人將Kinect和LeapMotion相結(jié)合共同獲取手部數(shù)據(jù)信息并將提取得到的手部信息特征進行融合后由SVM分類器分類識別;中國傳媒大學的研究者通過Kinect獲取手部骨關節(jié)點信息來識別靜態(tài)的手勢和動態(tài)手語的手部位置,提取其方向梯度直方圖特征并結(jié)合黃金分割算法進行識別。
本文通過Kinect 2.0設備采集靜態(tài)手語對應的深度圖像及彩色圖像,通過閾值分割算法提取手部區(qū)域圖像并對其進行形態(tài)學開操作處理,從得到的僅包含手部區(qū)域在內(nèi)的圖像中提取SURF特征后通過K-means++算法聚類構(gòu)造視覺詞匯字典,繼而用視覺詞匯在圖像中的出現(xiàn)頻率來表示圖像局部特征所對應的數(shù)值向量,將圖像的局部特征與MYO臂環(huán)采集得到的肌電信號特征相融合后得到的特征向量通過SVM分類器進行學習,并通過學習得到的分類器對靜態(tài)手勢語進行分類識別。實驗采用五倍交叉驗證的方法將5個數(shù)據(jù)集分為測試集和訓練集進行訓練識別,對每一個數(shù)據(jù)集進行識別的正確率最高可達97.28%,本文所提出的總體架構(gòu)圖,如圖1所示。
圖1 系統(tǒng)總體架構(gòu)框圖
主要的手部分割方法有兩種,一種是基于顏色分割,通過對顏色變換并提取與膚色相近的區(qū)域來獲得手掌的部位,另一種是通過深度分割,通過深度閾值等方法來實現(xiàn)提取具有特定深度的區(qū)域,當只有人的手掌在這一區(qū)域時,便可以應用基于深度的分割。結(jié)合兩種分割的有點,本文提出了彩色圖像和深度圖像相結(jié)合的手部分割算法:(1)通過kinect獲取到包含人體及周圍環(huán)境在內(nèi)的彩色圖像及深度圖像;(2)將深度圖像幀映射到彩色空間;(3)選取落在彩色圖像上的點并對復雜的前景和背景進行閾值分割,從而得到僅包含手部區(qū)域在內(nèi)的彩色圖像。
本文采用SURF特征提取算法對靜態(tài)手語圖像進行特征提取,其特征提取結(jié)果如圖3所示。
BOF(Bag Of Features)模型仿照文本檢索領域的Bag-of-Words方法,將每幅圖像描述為一個由局部區(qū)域/關鍵點特征構(gòu)成的無序集合,通過聚類算法對局部特征進行聚類操作,從而得到局部特征的多個聚類中心,每一個聚類中心即可作為詞袋模型中的一個視覺詞匯(Visual Word),所有視覺詞匯共同構(gòu)成詞袋模型中的視覺詞典。通過計算圖像的局部特征到各個聚類中心得距離可以將圖像的局部特征映射至視覺詞典中的某個視覺詞匯上。而后通過視覺詞匯在圖像中出現(xiàn)的頻率來表征圖像所具有的局部特征,通過統(tǒng)計不同視覺單詞在圖像中的出現(xiàn)頻率可以得到能夠描述該圖像的視覺向量直方圖,即Bag-of-Features。SURF-BOF模型構(gòu)造過程如圖4所示。
圖4 SURF-BOW模型構(gòu)造流程圖
本文中使用MYO臂環(huán)通過8片肌電傳感器和慣性測量單元可以測量被佩戴者的手臂肌肉活動狀態(tài)并采集sEMG、ACC、Gyo等原始數(shù)據(jù),同時將這些數(shù)據(jù)通過藍牙傳輸給其他電子設備用于交互控制。不同的人做同一動作或者同一人做不同動作,MYO臂環(huán)的八片傳感器采集到的表面肌電信號信息均會呈現(xiàn)出或多或少的差異,不同人做握拳動作時得到的表面肌電信號波形圖,如圖5所示。
在數(shù)據(jù)采集過程中,每個受試者需要進行連續(xù)重復的靜態(tài)手語動作采集,不同靜態(tài)手語動作之間會有3-5s的休息,而后對同一連續(xù)動作采用滑動平均能量的方法提取其有效的手勢活動段用于后續(xù)研究。在手勢動作執(zhí)行過程中 ,傳感器檢測到的sEMG信號稱為活動段,該信號可以作為受試者所做手勢動作的sEMG信號樣本。表面肌電信號的采集及特征提取過程如圖6所示。
圖6 MYO臂環(huán)采集SEMG信號及特征提取流程
表肌電信號表征手勢語的全局特征,BOF-SURF特征表示手勢語的局部特征,兩種特征對手勢語圖像的表征比重有所不同,所以將兩種特征配以不同的權(quán)值進行線性融合得到最終的特征向量I,融合特征的特征向量表示為:
I=[w1*Fbow-surf+w2*FsEmq]
(1)
其中,w1和w2分別代表BOF-SURF特征及sEMG特征對應的權(quán)值,并滿足w1+w2=1,其實際值通過實驗迭代至正確率最高時得到。
本文所需的樣本庫由五個受試者佩戴MYO臂環(huán)在Kinect攝像頭的可視范圍內(nèi)錄入的手勢語樣本圖像組成。受試者在距離Kinect設備1.5米,2米及2.5米的地方分別做30個中國靜態(tài)手勢語的手勢,錄入每一個字母手勢語手形從中間偏左到中間偏右45度之間所有位置的手勢語圖像。將得到圖像分為5組通過五倍交叉驗證法進行實驗,最終得到每一組數(shù)據(jù)集作為測試集時的識別正確率可達到97%左右。
本文算法與其他算法識別率的比較。該實驗從樣本庫中共選取出18 750幅圖像,將其平均分為五組,通過五倍交叉驗證的方法分別對每一組樣本集進行識別正確率檢測。該實驗分別通過SURF+SVM,BOF-SURF+SVM、sEMG+BOF-SURF+SVM三種試驗方法來驗證本文提出的算法的可行性,其識別正確率如表1所示。
表1 不同手語識別方法識別正確率的比較
從5個數(shù)據(jù)集中分別選出25張字母A到G的手語圖像作為測試集由3種不同的識別方法識別得到的準確率如表2所示。
表2 手語字母識別正確率比較
本文提出一種將從圖像中提取出的SURF特征與人體表面肌電信號特征(sEMG)相融合來對中國靜態(tài)手語字母進行識別的方法,將從圖像中直接提取得到的SURF特征經(jīng)由詞袋模型進行二次表征能夠使得對整個樣本庫而言,詞袋模型中的視覺詞匯表征的圖像特征更加容易區(qū)分從而在一定程度上提高識別的準確率,將人體表面肌電信號特征單獨用于手語識別時因為個體差異的存在會使得識別的結(jié)果較不穩(wěn)定,但與SURF特征相結(jié)合后,并將人體表面肌電信號特征的影響因子控制在 一定范圍內(nèi)能夠有效的提升識別的準確率并能顯著改善因個體差異而導致的不穩(wěn)定性。
后續(xù)將進一步改進特征融合的方法,嘗試將更多的特征進行融合,提取人在做手語動作時的多重特征,從不同方面來表示手語動作從而提高算法的魯棒性及識別的正確率。繼靜態(tài)手語研究之后考慮將該方法應用于動態(tài)手語識別中,對由視頻表示的孤立詞語進行識別。目前的研究所用的樣本庫均是借助現(xiàn)有設備自行采集的,國際上并未有標準的手語樣本庫,若將來公布標準手語庫后,考慮將現(xiàn)有的樣本庫通過一定的編碼轉(zhuǎn)化方式與標準手語庫進行對齊從而使得該識別方法具有一定的通用性。