張琳欽
(安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)與藝術(shù)學(xué)院,合肥 230051)
人工智能到來(lái),云計(jì)算和物聯(lián)網(wǎng)技術(shù)逐漸興起,人們對(duì)計(jì)算機(jī)能夠正確執(zhí)行命令和操作的需求越來(lái)越大[1]。在遠(yuǎn)程電子醫(yī)學(xué)中,構(gòu)建一個(gè)更好的人機(jī)互動(dòng)平臺(tái),已經(jīng)成為互聯(lián)網(wǎng)時(shí)代的重要技術(shù)需求和趨勢(shì)[2]。由于手勢(shì)的應(yīng)用場(chǎng)景越來(lái)越復(fù)雜,在近距離攝像機(jī)的拍攝情況下,手勢(shì)的辨識(shí)越來(lái)越不能完全適應(yīng)人體的需要,而距離、角度等因素也會(huì)對(duì)手勢(shì)的辨識(shí)產(chǎn)生很大的影響[3]。如果手勢(shì)與攝像機(jī)的鏡頭沒(méi)有對(duì)準(zhǔn)就拍攝,那么畫(huà)面中的手勢(shì)就會(huì)出現(xiàn)扭曲,甚至是手指交叉,導(dǎo)致手勢(shì)特征發(fā)生變化,計(jì)算機(jī)系統(tǒng)也會(huì)出現(xiàn)錯(cuò)誤識(shí)別。因此,在復(fù)雜的工作環(huán)境中,必須對(duì)手勢(shì)識(shí)別技術(shù)進(jìn)行深入探索和開(kāi)發(fā)。
王勇等[4]利用 FM序列波雷達(dá)多維特征,建立了一種用于卷積型神經(jīng)網(wǎng)絡(luò)的手勢(shì)辨識(shí)算法。在此基礎(chǔ)上,利用時(shí)間-頻率的方法對(duì)手勢(shì)運(yùn)動(dòng)的雷達(dá)信號(hào)進(jìn)行了分析,得到了手勢(shì)運(yùn)動(dòng)的多維參量。針對(duì)手部特征的提取與準(zhǔn)確識(shí)別問(wèn)題,采用多分支網(wǎng)絡(luò)和多維特征融合的方法,對(duì)其進(jìn)行了研究。但該算法不能克服手勢(shì)辨識(shí)信息不足的問(wèn)題,識(shí)別精度不高。韓崇等[5]選擇FM連續(xù)波雷達(dá)作為研究基礎(chǔ),提出一種手勢(shì)識(shí)別的方法。采用多普勒法對(duì)手部反射的毫米波雷達(dá)進(jìn)行了靜態(tài)多普勒消除,并通過(guò)動(dòng)態(tài)目標(biāo)的濾波,降低了對(duì)手勢(shì)信號(hào)的干擾和運(yùn)算的工作量。在此基礎(chǔ)上,給出了一種基于移動(dòng)目標(biāo)的手勢(shì)空間特征壓縮表達(dá)算法,通過(guò)手勢(shì)移動(dòng)的主導(dǎo)速率描述手勢(shì)動(dòng)作的特點(diǎn),從而對(duì)多維度進(jìn)行了壓縮,同時(shí)保持了動(dòng)作中的主要特點(diǎn)。但這種識(shí)別技術(shù)未有效過(guò)濾手勢(shì)圖像的掩模,導(dǎo)致識(shí)別精度不高。
為了解決現(xiàn)有方法的不足,進(jìn)一步提高手勢(shì)識(shí)別精度,本文將支持向量機(jī)應(yīng)用到了人機(jī)交互媒體播放界面的手勢(shì)識(shí)別中,實(shí)現(xiàn)人與機(jī)器的交流。與現(xiàn)有方法不同,該方法創(chuàng)新性利用Cam Shift方法跟蹤用戶(hù)手勢(shì),提取出人機(jī)交互媒體播放界面中的手勢(shì)特征,克服了手勢(shì)辨識(shí)信息不足的問(wèn)題。引入高斯濾波函數(shù),過(guò)濾手勢(shì)圖像的掩模,確定手心位置,完成手勢(shì)圖像的分割。利用支持向量機(jī)的分類(lèi)閾值,計(jì)算手勢(shì)圖像的分類(lèi)面,引入拉格朗日算法,將最優(yōu)分類(lèi)面問(wèn)題轉(zhuǎn)化為對(duì)偶性問(wèn)題,完成播放界面的手勢(shì)識(shí)別。
人機(jī)交互媒體播放界面中,通過(guò)引入特征搜索窗口,對(duì)手勢(shì)跟蹤的窗口進(jìn)行分割,并將用戶(hù)的手勢(shì)圖像存儲(chǔ)在跟蹤窗口中[6]。在搜索窗口內(nèi),結(jié)合逐步細(xì)化原則,在人機(jī)交互媒體播放界面刪除非手勢(shì)區(qū)域,確定手勢(shì)區(qū)域范圍,具體步驟如下:
步驟1:如果手勢(shì)跟蹤窗口依次為Kx、Ky、Kw和Kz,提取手勢(shì)特征之前,先初始化四個(gè)手勢(shì)圖像跟蹤窗口;
步驟2:利用Cam Shift方法對(duì)人機(jī)交互媒體播放界面中用戶(hù)的手勢(shì)進(jìn)行跟蹤[7],得到初始的手勢(shì)區(qū)域搜索窗口;
步驟3:調(diào)整手勢(shì)區(qū)域的搜索窗口,確保搜索窗口與跟蹤窗口中的手勢(shì)包圍盒一致,計(jì)算出包圍盒的長(zhǎng)寬比φ,如果φ在[0.5,0.85]區(qū)間內(nèi)取值,可以直接提取出用戶(hù)手勢(shì)圖像的空間特征,如果φ不在[0.5,0.85]區(qū)間內(nèi)取值,執(zhí)行步驟4;
步驟4:分割用戶(hù)的手勢(shì)圖像,在手勢(shì)區(qū)域中提取出膚色特征,并進(jìn)行編碼,然后再對(duì)該膚色區(qū)域進(jìn)行顏色識(shí)別,計(jì)算出目標(biāo)像素點(diǎn)在手勢(shì)區(qū)域中的個(gè)數(shù),計(jì)算公式為[8]:
(1)
式中:L表示包圍盒的長(zhǎng)度,也是搜索區(qū)域的長(zhǎng)度;W表示包圍盒的寬度,即搜索區(qū)域的寬度;函數(shù)可以利用公式(2)表示:
(2)
式中,Ω0表示目標(biāo)像素在用戶(hù)手勢(shì)圖像中存在的區(qū)域。
步驟5:通過(guò)對(duì)其他膚色區(qū)域進(jìn)行識(shí)別,選取一塊具有適當(dāng)比例的長(zhǎng)方形,以判斷用戶(hù)的手部位置,將所選取的長(zhǎng)方形與用戶(hù)的手部位置相匹配,并將所述位置信息賦值給Kx、Ky、Kw和Kz,執(zhí)行步驟2。
根據(jù)以上步驟即可確定用戶(hù)的手勢(shì)區(qū)域,然后在手勢(shì)區(qū)域內(nèi)提取出用戶(hù)手勢(shì)的特征。為了提高手勢(shì)識(shí)別的準(zhǔn)確性,提取出的用戶(hù)手勢(shì)特征必須能夠反映出手勢(shì)動(dòng)作的運(yùn)動(dòng)學(xué)特性。
在人機(jī)交互媒體播放界面中,波峰數(shù)量、手勢(shì)的長(zhǎng)度和能量特征都可以作為用戶(hù)手勢(shì)的主要特征。其中用戶(hù)手勢(shì)長(zhǎng)度可以通過(guò)下式計(jì)算得到[9]:
L=dz-dq
(3)
式中:dz表示手勢(shì)軌跡產(chǎn)生的終點(diǎn);dq表示手勢(shì)軌跡形成的起點(diǎn)。
假設(shè)用戶(hù)手勢(shì)產(chǎn)生的能量為Em,通過(guò)下式計(jì)算:
(4)
式中:αxi、αyi和αzi表示用戶(hù)手勢(shì)產(chǎn)生過(guò)程中在x軸、y軸和z軸的加速度;gx、gy和gz表示地球引力作用下的重力加速度。
用戶(hù)手勢(shì)在每一個(gè)坐標(biāo)軸產(chǎn)生的加速度會(huì)對(duì)應(yīng)一個(gè)波峰數(shù),那么用戶(hù)手勢(shì)的波峰數(shù)特征可以通過(guò)下式計(jì)算:
B=Bx+By+Bz
(5)
式中,Bx、By和Bz表示αxi、αyi和αzi對(duì)應(yīng)的波峰數(shù)。
根據(jù)以上過(guò)程,提取出人機(jī)交互媒體播放界面中的手勢(shì)特征。
人機(jī)交互媒體播放界面中的手勢(shì)區(qū)域有很多特征點(diǎn),假設(shè)用戶(hù)手掌的位置與攝像機(jī)之間的距離在1 m以?xún)?nèi),依據(jù)指尖朝上、手心對(duì)準(zhǔn)攝像頭的原則,使得手掌所在的平面與攝像機(jī)平面之間的夾角在45°以?xún)?nèi),通過(guò)手勢(shì)分割,處理手勢(shì)的深度信息,其步驟如下:
步驟1:在手勢(shì)深度圖像中,定義Ap,q為其中一個(gè)像素點(diǎn);
步驟2:通過(guò)掃描用戶(hù)手勢(shì)的深度圖像,得到圖像中深度值最小的點(diǎn)Xmin;
步驟3:假設(shè)λdepth=20為用戶(hù)手勢(shì)深度圖像分割的閾值,得到手勢(shì)形成范圍[10]:
(6)
步驟4:利用二值化概念,處理手勢(shì)圖像所在范圍,得到手勢(shì)圖像的掩模Y(p,q),即:
(7)
在手勢(shì)形成范圍內(nèi),預(yù)先分割手勢(shì)圖像的深度特征,包括手腕信息和手臂信息。根據(jù)深度特征識(shí)別冗余信息后對(duì)其消除,可以增強(qiáng)人機(jī)交互媒體播放界面的手勢(shì)識(shí)別效果[11]。
消除冗余信息之前,先定位到手心的位置,由于手心的范圍大于手指的范圍,因此手勢(shì)圖像的掩模點(diǎn)密度最大,引入高斯濾波函數(shù),過(guò)濾掉手勢(shì)圖像的掩模Y(p,q),計(jì)算出濾波結(jié)果的標(biāo)準(zhǔn)差[12],即:
(8)
高斯濾波的引入可以確定用戶(hù)的整個(gè)手部范圍,用Yf(p,q)表示,在手部范圍內(nèi)選擇一個(gè)與最大灰度值對(duì)應(yīng)的特征點(diǎn)Sg,將Sg作為手心位置。
確定了用戶(hù)手勢(shì)圖像中的手心位置后,分割手勢(shì)范圍,步驟如下:
步驟1:將手勢(shì)區(qū)域內(nèi)切圓的圓心作為手心的位置,e=1 pxl為分割的初始值;
步驟2:增加e的大小;
步驟3:當(dāng)從屬范圍內(nèi)95%的點(diǎn)都在切圓范圍內(nèi)時(shí),即可分割手勢(shì)范圍,即:
ψ=H-W-Z
(9)
式中:W表示手腕區(qū)域;Z表示手掌區(qū)域。
通過(guò)確定用戶(hù)手勢(shì)圖像中的手心位置,完成人機(jī)交互媒體播放界面手勢(shì)的分割。
人機(jī)交互媒體播放界面手勢(shì)識(shí)別中,利用支持向量機(jī)將用戶(hù)手勢(shì)圖像劃分為兩類(lèi),選擇其中一類(lèi)圖像,提取出手勢(shì)圖像的特征向量,利用下式表示手勢(shì)圖像的樣本集合[13]:
(10)
假設(shè)ξ代表支持向量機(jī)的分類(lèi)閾值,利用下式計(jì)算出手勢(shì)圖像的分類(lèi)面:
(11)
(12)
式中,hχ表示拉格朗日與手勢(shì)圖像的乘子。將(xχ,yχ)代入到公式(12)中,經(jīng)過(guò)多次迭代,利用支持向量機(jī)訓(xùn)練手勢(shì)圖像樣本。
迭代處理之后,利用支持向量機(jī)的尋優(yōu)策略,得到人機(jī)交互媒體播放界面手勢(shì)圖像的最優(yōu)分類(lèi)函數(shù),識(shí)別人機(jī)交互媒體播放界面手勢(shì)[15],即:
(13)
綜上所述,利用支持向量機(jī)得到手勢(shì)圖像的最優(yōu)分類(lèi)函數(shù),識(shí)別人機(jī)交互媒體播放界面手勢(shì)。
考慮到攝像機(jī)傳感器單位時(shí)間內(nèi)可以獲取100幀數(shù)據(jù),為了避免采集到的手勢(shì)數(shù)據(jù)出現(xiàn)冗余,需要在如下實(shí)驗(yàn)參數(shù)下開(kāi)展實(shí)驗(yàn),保證實(shí)驗(yàn)數(shù)據(jù)的質(zhì)量。
實(shí)驗(yàn)硬件環(huán)境:2xXeon E5-2620 V3的CPU、16G顯存、32G內(nèi)存以及雙 K40M的GPU。
實(shí)驗(yàn)軟件環(huán)境:Windows 10操作系統(tǒng)。
實(shí)驗(yàn)數(shù)據(jù)是利用開(kāi)源軟件LIBSVM-3.55在MATLAB下獲取的,利用攝像機(jī)拍攝10個(gè)人的手勢(shì)圖像,攝像機(jī)的型號(hào)為海康威視螢石交互網(wǎng)絡(luò)監(jiān)控?cái)z像機(jī)CS-F2-31WFSRT。像素為100萬(wàn)dpi,最低照度為 0.01 lx,鏡頭3 mm,分辨率720 px×720 px。為了保證實(shí)驗(yàn)結(jié)果的真實(shí)性,選擇第3次拍攝的手勢(shì)圖像,組成訓(xùn)練數(shù)據(jù)集,其他7次拍攝到的手勢(shì)圖像組成測(cè)試集,根據(jù)支持向量機(jī)的原理,分類(lèi)訓(xùn)練集中的手勢(shì)圖像。實(shí)驗(yàn)數(shù)據(jù)集組成如圖1所示。
圖1 實(shí)驗(yàn)數(shù)據(jù)集組成
在圖1的實(shí)驗(yàn)數(shù)據(jù)集中,十種手勢(shì)圖像的實(shí)驗(yàn)數(shù)據(jù)量如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)量
在測(cè)試集中,選擇手勢(shì)1進(jìn)行手勢(shì)識(shí)別效果測(cè)試,由于攝像機(jī)采集的手勢(shì)數(shù)據(jù)會(huì)受到各種因素影響,導(dǎo)致手勢(shì)圖像的邊緣出現(xiàn)鋸齒,以圖2的手勢(shì)圖像作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行識(shí)別。
圖2 手勢(shì)圖象
利用文中方法識(shí)別用戶(hù)手勢(shì)的原始圖像,得到如圖3所示手勢(shì)識(shí)別結(jié)果。根據(jù)圖3的結(jié)果可知,采用文中方法識(shí)別人機(jī)交互媒體播放界面手勢(shì)時(shí),能夠清晰保留手勢(shì)圖像的邊緣特征,具有較強(qiáng)的圖像濾波能力,提高了手勢(shì)識(shí)別的質(zhì)量。
圖3 手勢(shì)識(shí)別結(jié)果
為了避免實(shí)驗(yàn)結(jié)果的單一性,將基于FMCW雷達(dá)的識(shí)別方法和基于時(shí)空壓縮特征表示學(xué)習(xí)的識(shí)別方法與文中方法作對(duì)比,分別測(cè)試實(shí)驗(yàn)數(shù)據(jù)集中十種手勢(shì)的定位精度和識(shí)別效率,手勢(shì)識(shí)別準(zhǔn)確率測(cè)試結(jié)果如圖4所示。從圖4的結(jié)果可以看出,采用基于FMCW雷達(dá)的識(shí)別方法時(shí),對(duì)數(shù)據(jù)集中十種手勢(shì)的識(shí)別準(zhǔn)確率在50%至70%之間,說(shuō)明FMCW雷達(dá)對(duì)手勢(shì)的識(shí)別存在一定誤差。采用基于時(shí)空壓縮特征表示學(xué)習(xí)的識(shí)別方法時(shí),對(duì)數(shù)據(jù)集中十種手勢(shì)的識(shí)別準(zhǔn)確率有所提高,在60%至80%之間。采用文中方法時(shí),由于支持向量機(jī)能夠?qū)κ謩?shì)圖像進(jìn)行分類(lèi),并跟蹤手勢(shì)圖像多特征點(diǎn),可將人機(jī)交互媒體播放界面中手勢(shì)的識(shí)別準(zhǔn)確率提高到90%以上。
圖4 手勢(shì)識(shí)別準(zhǔn)確率測(cè)試結(jié)果
本文提出一種基于支持向量機(jī)的人機(jī)交互媒體播放界面手勢(shì)識(shí)別方法,經(jīng)過(guò)實(shí)驗(yàn)測(cè)試發(fā)現(xiàn),該方法可以識(shí)別到人機(jī)交互媒體播放界面中的手勢(shì),并將手勢(shì)識(shí)別準(zhǔn)確率提高到90%以上。本文的研究雖然取得一定成果,但是還存在需要改進(jìn)的地方,其中人機(jī)交互媒體播放界面中用到的手勢(shì)識(shí)別方法有很多,對(duì)于軌跡手勢(shì)和非軌跡手勢(shì)的融合研究不夠完善,這也是下一步研究工作的重點(diǎn)。