宋昆哲 閆曉虎 田樂 王奇俊 劉珂
摘 要:手勢識別系統(tǒng)是指人類用語言中樞建立起來的一套用手掌和手指位置、形狀構(gòu)成的特定語言系統(tǒng)。為了解決傳統(tǒng)手勢識別計算量大的問題,在已有的手勢識別基礎(chǔ)上,提出一種重心距離的手勢識別方法。通過膚色檢測方法進(jìn)行手勢分割,計算手的重心,將手的邊緣的點(diǎn)與重心點(diǎn)的距離按順時針方向或者逆時針方向遍歷,就會出現(xiàn)五個峰值,分別是五個手指。實(shí)驗結(jié)果表明,與現(xiàn)有方法相比,此方法在識別速度方面有了明顯的提高。
關(guān)鍵詞:手勢識別;膚色檢測;手勢分割;指尖檢測
中圖分類號:TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)25-0028-02
Abstract: Gesture recognition system (GRS) is a special language system composed of palm and finger position and shape, which is established by human language center. In order to solve the problem of heavy computation in traditional gesture recognition, a new gesture recognition method based on barycentric distance is proposed. The skin color detection method is used to segment the hand gesture, calculate the center of gravity of the hand, and traverse the distance between the edge of the hand and the center of gravity clockwise or counterclockwise, and there will be five peaks, five fingers respectively. The experimental results show that the recognition speed of the proposed method is much higher than that of the existing methods.
Keywords: gesture recognition; skin color detection; gesture segmentation; fingertip detection
1 概述
手勢作為一種人類日常普遍使用的交互方式,因其形象生動而成為了人機(jī)交互中的非常重要的一部分。目前的人機(jī)手勢交互因為技術(shù)的限制還處于比較低級的階段,主要是基于計算機(jī)視覺的手勢識別方式?;谟嬎銠C(jī)視覺的手勢識別方式是通過攝像頭捕獲圖像,依據(jù)算法來獲得手勢的相關(guān)特征信息。
2 手勢識別的步驟簡介
手勢識別主要分為五個步驟:圖像獲取、目標(biāo)檢測、圖像分割、特征提取、分類器設(shè)計。
3 研究方法
3.1 圖像獲取
圖像獲取也就是圖像的數(shù)字化過程,使用高清攝像頭采集圖像,將實(shí)時采集后具有不同像素的圖像經(jīng)過codebook算法的處理,為手勢檢測與切割做準(zhǔn)備,從像素中讀取圖像的象征,并且利用單色圖像、灰度級、分辨率以及亮度和對比度,來減小背景對前景的影響。而彩色圖像通常用三字節(jié)的R,G,B來表示,通過三個通道顏色的變化和三個通道顏色的疊加來得到不同的顏色。
3.2 目標(biāo)檢測
背景差分法是目前運(yùn)動檢測中最常用的一種方法,它是利用當(dāng)前圖像與背景圖像的差分來檢測出運(yùn)動區(qū)域的一種技術(shù)。它對于動態(tài)場景的變化,如光照和外來無關(guān)事物的干擾等特別敏感。該算法首先選取背景中的一幅或幾幅圖像的平均作為背景圖像,然后把以后的序列圖像當(dāng)前幀和背景圖像相減,進(jìn)行背景削去。這里我們采用手動背景法,用人去觀察背景圖像,選取某一幀圖像作為背景圖像,然后把其他物體與選定的背景圖像進(jìn)行分析運(yùn)算。
3.3 圖像分割
圖像邊緣分割是補(bǔ)償圖像的輪廓,增強(qiáng)圖像的邊緣及灰度跳變的部分,通過下列算子實(shí)現(xiàn)。
(1)Sobel算子:對噪聲有平滑抑制作用,但得到的邊緣較粗,可能出現(xiàn)偽邊緣。
(2)Prewitt算子:利用像素點(diǎn)上下和左右鄰點(diǎn)的灰度差,能去掉部分偽邊緣,對噪聲具有平滑作用,但對圖像邊緣檢測的可能造成邊緣點(diǎn)的誤判。
(3)Canny算子: 弱化了噪聲的影響,然而對圖像邊緣檢測過于細(xì)化,同樣不利于圖像紋理特征的提取。
(4)Roberts算子:Roberts算子能夠較好的去除偽邊緣,定位較準(zhǔn),垂直方向邊緣的性能好于斜線方向,但Roberts算子對噪聲較敏感,提取圖像邊緣較粗。
因此,采用多算子融合的圖像邊緣提取方法,該方法克服了噪聲的影響,較好結(jié)合四種算子的優(yōu)點(diǎn)。
3.4 特征提取
第一步處理方法是將距離過近的線段融合在一起,方法是對所有線段進(jìn)行遍歷。首先固定一條線段,將其余線段依次與該線段進(jìn)行比對,確定其余線段的起點(diǎn)或終點(diǎn)是否在以該固定線段的兩個端點(diǎn)為斜對角線的矩形框架內(nèi)。若滿足上述條件則進(jìn)行下一步判斷,確定這兩條線段的夾角是否小于12度以及在矩形框架內(nèi)部的端點(diǎn)到該線段的距離是否小于50。若以上條件均滿足則將這兩條線段最遠(yuǎn)的兩個端點(diǎn)確定為一條新的線段,并將原先的兩個線段刪除,上述過程進(jìn)行完后回溯重新對所有線段進(jìn)行遍歷直至不再有新的線段產(chǎn)生。
第二步處理方法是對第一步處理方法所遺漏的線段進(jìn)行進(jìn)一步處理。這次考慮的是兩條線段相交且兩條線段的端點(diǎn)分別不在以另一條線段的兩個端點(diǎn)為斜對角線的矩形框架內(nèi)的線。首先固定一條線段,依次將其余線段與該線段進(jìn)行比對,若斜率相同則不予以處理,若斜率不同則計算兩線段所在的兩條直線的交點(diǎn)坐標(biāo),若該交點(diǎn)的橫坐標(biāo)分別在兩線段各自兩端點(diǎn)的橫坐標(biāo)范圍內(nèi),則說明兩線段有交點(diǎn)。接下來繼續(xù)判斷這兩條線段的夾角是否小于12度,若小于則將兩條線段最遠(yuǎn)的兩個端點(diǎn)合并為一條新的線段,將原來的兩個線段刪除,之后回溯重新對所有線段進(jìn)行遍歷直至不再有新的線段產(chǎn)生。
第三步處理方法是對點(diǎn)的處理。以上兩步可以將干擾的重復(fù)線段除去,但因為每個手指的兩側(cè)都會各有一條線段,所以這一步是將每個手指的兩條線段的上端點(diǎn)合并在一起。該步驟的方法是將所有線段的上端點(diǎn)存入一個新的矩陣中固定一個點(diǎn),對其余所有點(diǎn)進(jìn)行遍歷,判斷兩點(diǎn)之間距離是否小于40,若小于則取兩點(diǎn)之間的中點(diǎn)作為新的點(diǎn),并將原來的兩點(diǎn)刪去,接下來回溯重新對所有點(diǎn)進(jìn)行遍歷直至不再有新的點(diǎn)產(chǎn)生。
3.5 分類器設(shè)計
BP神經(jīng)網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,是由輸入層、中間層和輸出層組成的階層型神經(jīng)網(wǎng)絡(luò),中間層可擴(kuò)展為多層。相鄰層之間各神經(jīng)元進(jìn)行全連接,而每層各神經(jīng)元之間無連接。當(dāng)一對學(xué)習(xí)模式提供給網(wǎng)絡(luò)后,各神經(jīng)元獲得網(wǎng)絡(luò)的輸入響應(yīng)產(chǎn)生連接權(quán)值。然后按照減小期望輸出與實(shí)際輸出誤差的方向,從輸出層經(jīng)各中間層逐層修正各連接權(quán),回到輸入層。此過程反復(fù)交替進(jìn)行,直至網(wǎng)絡(luò)的全局誤差趨向給定的極小值,即完成學(xué)習(xí)的過程。
下面每個手勢用攝像頭拍攝8張照片,將傅里葉變換后的結(jié)果導(dǎo)入神經(jīng)網(wǎng)絡(luò)中進(jìn)行分析,分類效果良好(表1)。
參考文獻(xiàn):
[1]顧立中.基于表達(dá)的手勢識別及人機(jī)交互研究[D].上海:上海交通大學(xué),2008:45-67.
[2]覃文軍.基于視覺信息的手勢識別跟蹤算法研究與實(shí)現(xiàn)[D].沈陽:東北大學(xué),2010:13-41.
[3]公衍超,萬帥,楊楷芳,等.利用雙目視覺視頻的實(shí)時三維裸手手勢識別[J].西安電子科技大學(xué)學(xué)報(自然科學(xué)版),2014,41(4):130-136.
[4]楊波,宋曉娜,馮志全,等.復(fù)雜背景下基于空間分布特征的手勢識別算法[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2010,22(10):1841-1848
[5]吳杰.基于深度學(xué)習(xí)的手勢識別研究[D].成都:電子科技大學(xué),2015:1-79.