湯哲君
摘 要:本文主要對(duì)靜態(tài)手勢(shì)識(shí)別的技術(shù)存在的各種方法進(jìn)行了相應(yīng)的分析與探討,而在這個(gè)基礎(chǔ)之上實(shí)現(xiàn)與設(shè)計(jì)了一套先進(jìn)的靜態(tài)手勢(shì)識(shí)別系統(tǒng)。而該系統(tǒng)主要分為手勢(shì)的分類、圖像的預(yù)處理、分類器的設(shè)計(jì)與樣本的訓(xùn)練以及特征的提取四個(gè)模塊。而該系用在運(yùn)行時(shí),首先從文件夾中讀取圖像部分,其次在經(jīng)過(guò)圖像的預(yù)處理模塊得到手勢(shì)的輪廓圖像以及二值圖像,最后在對(duì)輪廓圖像與二值圖像這兩幅圖對(duì)手勢(shì)進(jìn)行相應(yīng)的特征提取,并且采用貝葉斯分類器對(duì)這個(gè)手勢(shì)進(jìn)行分類識(shí)別。
關(guān)鍵詞:計(jì)算機(jī)視覺(jué) 手勢(shì)識(shí)別 OpenCV 靜態(tài)手勢(shì)識(shí)別
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)03(c)-0048-02
計(jì)算機(jī)從問(wèn)世以來(lái)就在逐步改善我們的生活。隨著計(jì)算機(jī)在各個(gè)領(lǐng)域使用的普及化,人機(jī)交互技術(shù)正在此時(shí)引起了世界各國(guó)專家們極大的興趣,并對(duì)其開(kāi)始進(jìn)行深入的研究。近些年來(lái),對(duì)于符合人際交流習(xí)慣的新型人機(jī)交互技術(shù)的研究變的相當(dāng)?shù)幕钴S。而這些研究中主要包含了人的臉部識(shí)別、面部表情變化的識(shí)別、唇讀、凝視與頭部運(yùn)動(dòng)的跟蹤以及手勢(shì)識(shí)別等方面。而手勢(shì)識(shí)別則因?yàn)楦臃先伺c人之間的交流習(xí)慣,從而成為了一種以人為交互的中心的新型的人機(jī)交互技術(shù)。因此,手勢(shì)識(shí)別技術(shù)已經(jīng)成為人機(jī)交互領(lǐng)域的一大研究熱點(diǎn),本文主要研究基于視覺(jué)的靜態(tài)手勢(shì)識(shí)別技術(shù)。
1 手勢(shì)識(shí)別技術(shù)的分類
近些年,手勢(shì)技術(shù)已經(jīng)出現(xiàn)了幾種比較完善的理論體系,通過(guò)不同的手勢(shì)輸入設(shè)備可以將手勢(shì)的識(shí)別主要分為基于視覺(jué)的手勢(shì)識(shí)別和基于數(shù)據(jù)的手勢(shì)識(shí)別這兩種技術(shù)。
1.1 基于數(shù)據(jù)手套的手勢(shì)識(shí)別
作為一種交互設(shè)備的數(shù)據(jù)手套,它在虛擬現(xiàn)實(shí)中應(yīng)用廣泛,有只利用幾個(gè)傳感器來(lái)測(cè)量手勢(shì)中手指的彎曲度的簡(jiǎn)單的數(shù)據(jù)手套,也有用多個(gè)傳感器來(lái)測(cè)量手勢(shì)中的多個(gè)信息的復(fù)雜的數(shù)據(jù)手套。基于數(shù)據(jù)手套的手勢(shì)識(shí)別技術(shù)是利用數(shù)據(jù)手套和位置跟蹤器測(cè)量手勢(shì)在空間運(yùn)動(dòng)中的軌跡和時(shí)序信息。在手勢(shì)識(shí)別的過(guò)程中,被識(shí)別人佩戴數(shù)據(jù)手套后建立3D手勢(shì)模型,系統(tǒng)可以通過(guò)所佩戴數(shù)據(jù)手套上的多個(gè)傳感器來(lái)采集動(dòng)態(tài)手勢(shì)的運(yùn)動(dòng)信息,應(yīng)用一系列識(shí)別算法,達(dá)到識(shí)別的效果。
1.2 基于視覺(jué)的手勢(shì)識(shí)別
基于視覺(jué)的手勢(shì)識(shí)別技術(shù)是通過(guò)攝像頭來(lái)采集手勢(shì),這里的攝像頭可以是單個(gè)或者多個(gè)。之后對(duì)所采集到的手勢(shì)進(jìn)行相應(yīng)的特征提取后對(duì)特征進(jìn)行識(shí)別,從而達(dá)到識(shí)別手勢(shì)的目的。相比前者,基于視覺(jué)的手勢(shì)識(shí)別技術(shù)的優(yōu)勢(shì)在于手勢(shì)采集設(shè)備比較便宜,同時(shí)基于視覺(jué)的手勢(shì)識(shí)別技術(shù)能夠使人以更自然的方法與機(jī)器進(jìn)行交互。缺點(diǎn)是這種技術(shù)實(shí)時(shí)性較差,受外界因素的影響較大,例如背景、光照等。
2 手勢(shì)識(shí)別技術(shù)在人機(jī)交互中的應(yīng)用
手勢(shì)識(shí)別作為典型的人機(jī)交互技術(shù),主要有以下幾個(gè)方面的應(yīng)用。
(1)主要用于虛擬環(huán)境上的交互。如:虛擬的裝配、虛擬的制造、產(chǎn)品設(shè)計(jì)等等。虛擬的裝配主要是通過(guò)手的動(dòng)作來(lái)控制零件的裝配工作,并且還可以通過(guò)語(yǔ)音與手勢(shì)之間的合成來(lái)定義零件之間的裝配關(guān)系,同時(shí)還可以將手勢(shì)識(shí)別用在復(fù)雜的設(shè)計(jì)信息輸入上。
(2)主要用于手語(yǔ)的識(shí)別。對(duì)于聾啞人來(lái)說(shuō),手語(yǔ)是他們的語(yǔ)言,也是他們依賴的對(duì)象,而手語(yǔ)則是由手型、動(dòng)作、表情、姿勢(shì)等方面所構(gòu)成的一套手語(yǔ)交流的體系,它主要是依賴視覺(jué)與動(dòng)作的交流。當(dāng)手勢(shì)識(shí)別與手語(yǔ)相互結(jié)合之后,機(jī)器就能看懂聾啞人的語(yǔ)言,故而,形成一套人與機(jī)器的手語(yǔ)翻譯系統(tǒng),這樣就很好地便于聾啞人的交流。
(3)用于機(jī)械手的抓取。機(jī)械手的自然抓取一直是機(jī)器人研究領(lǐng)域的難點(diǎn)。手勢(shì)識(shí)別,尤其是對(duì)于基于數(shù)據(jù)手套的手勢(shì)識(shí)別技術(shù)的研究對(duì)克服這個(gè)問(wèn)題有重要的意義,是手勢(shì)識(shí)別的重要應(yīng)用領(lǐng)域之一。
3 手勢(shì)識(shí)別技術(shù)的主要識(shí)別方法
目前,無(wú)論是在基于數(shù)據(jù)手套的手勢(shì)識(shí)別還是基于視覺(jué)的手勢(shì)識(shí)別技術(shù)都有很多的分類識(shí)別算法,常用的主要有模板匹配法、神經(jīng)網(wǎng)絡(luò)法、隱馬爾科夫模型法(HMM)和支持向量機(jī)法等等。
3.1 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)作為一種被廣泛應(yīng)用的工具,在靜態(tài)手勢(shì)識(shí)別中也起到很大的作用。神經(jīng)網(wǎng)絡(luò)是一種大規(guī)模并行處理網(wǎng)絡(luò)。由許多具有非線性映射能力的神經(jīng)元組成,神經(jīng)元之間通過(guò)權(quán)相連。神經(jīng)網(wǎng)絡(luò)作為一種靜態(tài)手勢(shì)識(shí)別技術(shù),具有自組織和自學(xué)習(xí)能力,能有效抗噪聲、同時(shí)具有很強(qiáng)的容錯(cuò)性和魯棒性。經(jīng)過(guò)多年發(fā)展,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)具有很多模型,例如模糊神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)。目前應(yīng)用比較廣泛的是以反向傳播學(xué)習(xí)算法為基礎(chǔ)的多層神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱為BP神經(jīng)網(wǎng)絡(luò)。
3.2 隱馬爾可夫模型(HMM)方法
對(duì)于動(dòng)態(tài)的手勢(shì),可以理解成一個(gè)連續(xù)區(qū)間內(nèi)的手勢(shì)信號(hào)。而對(duì)于分析區(qū)間內(nèi)的信號(hào),通常采取HMM方法進(jìn)行模型化。HMM是在馬兒可夫鏈的基礎(chǔ)之上發(fā)展起來(lái)的。由于實(shí)際問(wèn)題比馬兒可夫鏈模型所描述的更為復(fù)雜,觀察到的事件并不是與狀態(tài)一一對(duì)應(yīng)的,而是通過(guò)一組概率分布相聯(lián)系,這樣的模型就稱為HMM。它是一個(gè)雙重隨機(jī)過(guò)程:一是馬兒可夫鏈,這是基本隨機(jī)過(guò)程,它描述狀態(tài)的轉(zhuǎn)移;另一個(gè)隨機(jī)過(guò)程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。這樣,站在觀察者的角度,只能看到觀察值,不像鏈馬兒可夫模型中的觀察值和狀態(tài)一一對(duì)應(yīng),因此,不能直接看到狀態(tài),而是通過(guò)一個(gè)隨機(jī)過(guò)程去感知狀態(tài)的存在及其特性。因而稱之為“隱”馬兒可夫模型,即HMM。 然而正是由于HMM拓?fù)浣Y(jié)構(gòu)的一般性,導(dǎo)致這種模型在分析動(dòng)態(tài)手勢(shì)信號(hào)時(shí)過(guò)于復(fù)雜,使HMM訓(xùn)練和識(shí)別計(jì)算量過(guò)大,尤其是在連續(xù)的HMM中,由于需要計(jì)算大量的狀態(tài)概率密度,需要估計(jì)的參數(shù)個(gè)數(shù)較多,使得訓(xùn)練及識(shí)別的速度相對(duì)較慢,因而以往手勢(shì)識(shí)別系統(tǒng)所采用一般為離散HMM。
3.3 模板匹配方法
這是一種最簡(jiǎn)單的識(shí)別技術(shù),其核心的思想就是將輸入的原始數(shù)據(jù)與預(yù)先存儲(chǔ)的模板進(jìn)行匹配,通過(guò)測(cè)量?jī)蓚€(gè)模板之間的相似度來(lái)完成識(shí)別任務(wù)。最常用的匹配方法有加權(quán)歐氏距離法,相關(guān)系數(shù)法以及對(duì)數(shù)距離法。目前,這種方法廣泛用于靜態(tài)手勢(shì)識(shí)別,具有計(jì)算簡(jiǎn)單、速度快的特點(diǎn)。endprint
4 本文研究工作
4.1 本報(bào)告的研究?jī)?nèi)容
本手勢(shì)識(shí)別系統(tǒng)的工作原理:在已經(jīng)獲取的手勢(shì)照片中,每個(gè)手勢(shì)選取4張圖片作為模板,提取三個(gè)特征值,作為貝葉斯分類器的訓(xùn)練樣本,訓(xùn)練完成后,用同樣的方法提取讀入圖片的三個(gè)特征值,用貝葉斯分類器對(duì)其分類進(jìn)行預(yù)測(cè),從而得到識(shí)別結(jié)果
系統(tǒng)可以實(shí)時(shí)的對(duì)本文預(yù)定義的六個(gè)手勢(shì)進(jìn)行識(shí)別,六個(gè)手勢(shì)按照手指數(shù)分別定義為0,1,2,3,4,5。系統(tǒng)由三個(gè)模塊所組成,分別為圖像預(yù)處理、特征提取以及手勢(shì)的分類識(shí)別。
(1)手勢(shì)圖像預(yù)處理:減少圖片的像素值后通過(guò)膚色檢測(cè)檢測(cè)手所在區(qū)域,將圖像二值化,用邊緣檢測(cè)方法提取手勢(shì)的邊緣圖像。
(2)手勢(shì)圖像特征提?。涸诘玫绞謩?shì)的邊緣圖像以及輪廓矩陣之后,按照本文所采用的手勢(shì)特征,對(duì)手勢(shì)進(jìn)行特征提取,生成手勢(shì)的特征向量。
(3)手勢(shì)的分類識(shí)別:本文采用訓(xùn)練過(guò)的貝葉斯分類器計(jì)算后驗(yàn)概率,選擇最大的后驗(yàn)概率的類作為該手勢(shì)所屬的類別,即得出系統(tǒng)的識(shí)別結(jié)果。
4.2 圖像處理與特征提取
4.2.1 圖像預(yù)處理和膚色區(qū)域提取
對(duì)讀入的圖像先進(jìn)行預(yù)處理,將圖片的像素減少以增加運(yùn)行速度。膚色區(qū)域的提取算法原理如下:膚色在YCbCr空間里的Cb、Cr分量聚集成一個(gè)橢圓形狀,KL變換就是將坐標(biāo)軸按照訓(xùn)練膚色樣本的分布方差經(jīng)過(guò)旋轉(zhuǎn)平移成一組新的正交坐標(biāo)軸,然后再這新的坐標(biāo)系中構(gòu)建橢圓膚色檢測(cè)模型,在本系統(tǒng)中就是把圖像的Y、Cb、Cr三個(gè)通道分開(kāi),然后用指針?lè)謩e對(duì)這三個(gè)通道的每一個(gè)像素進(jìn)行處理。
4.2.2 手勢(shì)圖像特征提取
本系統(tǒng)主要提取了手勢(shì)的三個(gè)特征,提取方法如下:
(1)手勢(shì)圖像內(nèi)手所占面積與手區(qū)域外接矩形面積的比值,提取方法為對(duì)圖像內(nèi)的像素點(diǎn)進(jìn)行掃描,得到最靠近圖片四周的白色像素點(diǎn),經(jīng)過(guò)這幾個(gè)像素點(diǎn)做圖片邊長(zhǎng)的平行線得到該矩形并計(jì)算面積,手勢(shì)面積是計(jì)算提取膚色之后的圖片中白色像素點(diǎn)的數(shù)量來(lái)獲得。
(2)手區(qū)域外接矩形的寬與長(zhǎng)的比值,矩形的長(zhǎng)與寬的獲得方法如上。
(3)手指數(shù)量,用一根水平線對(duì)進(jìn)行過(guò)邊緣提取的圖片進(jìn)行從上到下的掃面,求出出現(xiàn)在該水平線上白色像素點(diǎn)的最大值,記為ymax,手指數(shù)量即為ymax/2。
4.2.3 貝葉斯分類器訓(xùn)練和識(shí)別
本程序中對(duì)bayes分類器使用步驟如下:
(1)樣本的選擇。
對(duì)每個(gè)手勢(shì)選取較有代表性的四張圖片,對(duì)其三個(gè)特征進(jìn)行提取,并作為訓(xùn)練樣本對(duì)貝葉斯分類器進(jìn)行訓(xùn)練。
(2)手勢(shì)的識(shí)別。
用訓(xùn)練好的貝葉斯分類器對(duì)輸入圖片處理后得到的特征向量進(jìn)行分類,得到其所屬的類別。
5 實(shí)驗(yàn)結(jié)果及總結(jié)
5.1 實(shí)驗(yàn)結(jié)果
對(duì)獲得的130張手勢(shì)照片中,識(shí)別正確的照片的張數(shù)為94,占總數(shù)的72.3%,對(duì)與算法比較簡(jiǎn)陋的程序來(lái)說(shuō)識(shí)別率還是令人滿意的。
5.2 程序可改進(jìn)的技術(shù)途徑
(1)手勢(shì)區(qū)域的提取。
本程序采用膚色檢測(cè)來(lái)識(shí)別手勢(shì)區(qū)域,實(shí)際使用中效果不佳,任何類膚色區(qū)域都將被識(shí)別成手勢(shì)區(qū)域,故檢測(cè)程序時(shí),采用的是深色背景的手勢(shì)圖片,以減少背景被檢測(cè)為手勢(shì)區(qū)域的可能??梢?jiàn)單純的膚色檢測(cè)并不能很好的檢測(cè)手勢(shì)區(qū)域,尤其是復(fù)雜背景下的手勢(shì)區(qū)域,在膚色檢測(cè)的前提下,另外可以通過(guò)提取手勢(shì)圖像的灰度圖的直方圖,確定閾值來(lái)對(duì)圖像進(jìn)行二值化,二者結(jié)合使用必定回避單純使用膚色檢測(cè)的準(zhǔn)確度有所提高。
(2)分類器的設(shè)計(jì)。
本程序采用的是opencv內(nèi)置的貝葉斯分類器,而且也只是用了三個(gè)特征值,如果要進(jìn)行優(yōu)化,可以增加有效地特征值數(shù)量,來(lái)提高識(shí)別的準(zhǔn)確度。
(3)特征值的提取。
在手勢(shì)區(qū)域較好的識(shí)別的情況下,面積比和寬長(zhǎng)比的獲得較為簡(jiǎn)單。手指數(shù)量的提取在實(shí)際操作中的效果并不如人意,因?yàn)閷?shí)際檢測(cè)中,猶豫膚色檢測(cè)本身的缺陷,導(dǎo)致提取出來(lái)的手勢(shì)區(qū)域存在缺陷,進(jìn)而導(dǎo)致手指數(shù)量的不準(zhǔn)確提取。
參考文獻(xiàn)
[1] 戴丹.基于圖像的靜態(tài)手勢(shì)識(shí)別及在服務(wù)機(jī)器人的應(yīng)用[D].浙江大學(xué)本科生畢業(yè)論文,2007.
[2] 于洋.基于手形特征的靜態(tài)手勢(shì)識(shí)別[D].河北工業(yè)大學(xué)碩士畢業(yè)論文,2007.
[3] 高建坡.一種基于KL變換的橢圓模型膚色檢測(cè)方法[J].電子與信息學(xué)報(bào),2007.endprint