蔣磊磊,秦麗娟,李武舉
(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽 110159)
基于Sugeno模糊模型的ANFIS在手勢識別中的應(yīng)用
蔣磊磊,秦麗娟,李武舉
(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽 110159)
手勢識別正在成為人機(jī)交互技術(shù)研究中的一種重要模式,運(yùn)用攝像機(jī)和計算機(jī)視覺技術(shù)捕獲靜態(tài)手勢圖像,在YCrCb空間下利用高斯分布對膚色建模,通過計算背景顏色像素概率分割出干凈的手勢圖像,再采用基于Sugeno模糊模型的自適應(yīng)神經(jīng)-模糊推理系統(tǒng)識別手勢。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)識別系統(tǒng)相比,該識別方法具有較好的自適應(yīng)性和魯棒性。實(shí)驗(yàn)結(jié)果表明,基于Sugeno模糊模型的自適應(yīng)神經(jīng)-模糊推理系統(tǒng)能夠有效地進(jìn)行特征學(xué)習(xí),正確識別率可以達(dá)到95%左右,是一個非常有效的靜態(tài)手勢識別方法。
人機(jī)交互;手勢;基于Sugeno模糊模型;自適應(yīng)神經(jīng)-模糊推理
近年來,隨著計算機(jī)技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)應(yīng)用的迅速普及,人機(jī)交互已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚慕M成部分[1]。自然的人機(jī)交互方式可以降低操作難度,避免身體單一部位的重復(fù)勞動。傳統(tǒng)意義里向計算機(jī)輸入信息的交互方式如使用鼠標(biāo)、鍵盤、遙控、觸摸屏、游戲搖桿等讀入設(shè)備,都是以機(jī)器為中心,用戶需要去適應(yīng)學(xué)習(xí)預(yù)先設(shè)定的規(guī)范之后才能應(yīng)用機(jī)器的基本操作。這些人機(jī)交互方式已成為人機(jī)交流聯(lián)系的瓶頸,因?yàn)橛脩舨荒苁褂米约鹤盍?xí)慣的方式(如手勢等)與計算機(jī)進(jìn)行交互。
手勢是人有意識地作出的手的動作,不論是操作使用工具還是與其他人進(jìn)行交流,手勢都能表達(dá)出做手勢者的想法與意圖。由此應(yīng)運(yùn)而生的手勢識別技術(shù)為人們提供了人與計算機(jī)進(jìn)行交互的最自然的方式?;谑謩葑R別技術(shù),人們能夠與計算機(jī)創(chuàng)造的虛擬環(huán)境進(jìn)行直接交互。目前,手勢識別技術(shù)的研究是虛擬現(xiàn)實(shí)技術(shù)研究的主要內(nèi)容之一。
ANFIS[2]用于手勢圖像處理的一般流程[3]如圖1所示。
圖1 ANFIS用于手勢識別中的一般模型
1.1 圖像的預(yù)處理
在復(fù)雜背景下,不同光照變化也會導(dǎo)致膚色的亮度發(fā)生變化,這就需要采用一種可靠的顏色空間模型。研究表明YCrCb顏色空間[4]具有亮度和色度分離的優(yōu)點(diǎn),既能充分表達(dá)人手膚色,又能在很大程度上消除亮度影響,降低了色彩空間的維數(shù),減少了計算復(fù)雜度。在YCrCb空間下利用高斯分布對膚色建模,計算出圖像中各點(diǎn)屬于膚色的概率值,可以分割出手勢區(qū)域?;诟咚狗植紝δw色建模的計算公式如下:
P(Cb,Cr)=exp{-0.5(x-m)TC-1(x-m)}
其中:x為樣本像素在YCrCb空間的值x=(Cb,Cr)T,m為膚色在YCrCb空間的樣本均值,m=E(x);C為膚色相似度模型的協(xié)方差矩陣,C=E{(x-m)(x-m)T}。
通過計算圖像每個像素點(diǎn)屬于膚色的概率值P,可以建立一個完整的膚色概率分布矩陣,采用最大類間方差法(OTSU)對膚色概率矩陣進(jìn)行自適應(yīng)值的二值化處理,在二值化處理的圖像中,像素值為1的亮色區(qū)域表示是膚色點(diǎn),像素值為0的暗色區(qū)域表示非膚色點(diǎn)。
使用高斯濾波,消除手勢圖像中的噪聲,恢復(fù)有用的手勢信息,增強(qiáng)手勢目標(biāo)的可檢測性和最大限度地簡化背景圖像數(shù)據(jù)。經(jīng)過二值化和濾波處理的圖像,手勢區(qū)域邊緣會存在大小不一的空洞,具有毛刺或不完整的輪廓,形態(tài)學(xué)的膨脹算法可以擴(kuò)展二值圖像中的亮度區(qū)域,腐蝕算法可以擴(kuò)展二值圖像中的暗色區(qū)域。去除二值圖像中孤立的噪聲點(diǎn)和手勢區(qū)域邊緣不平滑的凸出部分,同時對二值圖像的孔洞進(jìn)行填充。
1.2 手勢圖像的分割
OTSU法[5]是一種動態(tài)的閾值分割算法。按照手勢圖像灰度特征將手勢圖像分成目標(biāo)和背景兩部分,選擇門限值劃分使得背景和目標(biāo)之間的方差最大。背景和目標(biāo)之間的類間方差越大說明這兩部分的差別越大,目標(biāo)圖像就越容易從背景圖像中分割出來。
現(xiàn)在,手勢圖像的灰度值為1~N級,t為選定的閾值,那么圖像就被分成兩組。假設(shè)A代表背景,PA為背景出現(xiàn)的概率,同理B為目標(biāo),PB為目標(biāo)出現(xiàn)的概率,Pi是N個灰度級每個出現(xiàn)的概率。計算背景和目標(biāo)兩個區(qū)域的類間方差過程如下:
(1)背景和目標(biāo)的出現(xiàn)概率:
(2)A和B兩個區(qū)域的平均灰度值:
(3)灰度圖像全局的灰度平均值:
(4)A和B兩個區(qū)域的類間方差:
δ2=PA(ωA-ω0)2+PB(ωB-ω0)2
在1~N之間改變t的值,當(dāng)δ2取最大時對應(yīng)的t的值為最佳閾值,因此δ2是選擇閾值的函數(shù)。該方法不管圖像的直方圖是否有明顯的雙峰,都能得到比較滿意的結(jié)果。本文使用上述方法取得了不錯的效果,圖2和圖3是室內(nèi)與室外手勢分割的效果圖。
圖3 室外靜態(tài)手勢圖像預(yù)處理效果
自適應(yīng)神經(jīng)元模糊推理系統(tǒng)[6](Adaptive Neural Fuzzy Inference System, ANFIS)是一種把模糊邏輯方法和神經(jīng)網(wǎng)絡(luò)方法有機(jī)融合在一起的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),借助神經(jīng)網(wǎng)絡(luò)的信息存儲能力和學(xué)習(xí)能力,在對廣泛選擇的訓(xùn)練樣本進(jìn)行學(xué)習(xí)后,優(yōu)化了控制規(guī)則、各語言變量的隸屬函數(shù)及每條規(guī)則的輸出函數(shù),使ANFIS系統(tǒng)本身朝著自適應(yīng)、自組織、自學(xué)習(xí)的方向發(fā)展。
Sugeno模糊模型是一種用來在給定的輸入/輸出數(shù)據(jù)集中產(chǎn)生模糊規(guī)則的系統(tǒng)方式。一階Sugeno模糊模型如下:
y=k0+k1x1+k2x2+…+kmxm
圖4表示基于Sugeno模糊模型的自適應(yīng)神經(jīng)-模糊推理系統(tǒng)模型。
圖4 自適應(yīng)神經(jīng)-模糊推理結(jié)構(gòu)
下面討論每一層的作用。
第1層是輸入層。該層的神經(jīng)元簡單地將外部信號傳送給第2層,即
第2層是模糊化層。該層中的神經(jīng)元的作用是執(zhí)行模糊化操作。其中模糊化神經(jīng)元有一個鐘形激活函數(shù)(bellactivationfunction)。鐘形激活函數(shù)由線為規(guī)則的鐘形形狀,其定義為:
第3層是模糊化層。規(guī)則神經(jīng)元從各自的模糊化神經(jīng)元接收輸入,并計算它表示的規(guī)則激發(fā)強(qiáng)度。在ANFIS中,規(guī)則前項(xiàng)的鏈接由“乘積”操作來評估。因此,第3層的神經(jīng)元的輸出可表示為:
其中μ1的取值代表規(guī)則1的激發(fā)強(qiáng)度或真值。
第4層是歸一化層。該層接收并計算給定規(guī)則的歸一化激發(fā)強(qiáng)度。歸一化強(qiáng)度是給定規(guī)則的激發(fā)強(qiáng)度和所有規(guī)則激發(fā)強(qiáng)度的總和的比值,它表示給定規(guī)則對最終結(jié)果的貢獻(xiàn)。因此,第4層神經(jīng)元i的輸出為:
第5層是去模糊化層。該層中的每個神經(jīng)元均連接到各自的歸一化神經(jīng)元上,同時接收初始輸入x1和x2。去模糊化神經(jīng)元計算給定規(guī)則的帶權(quán)重的后項(xiàng)值:
第6層為總和神經(jīng)元,作用是計算所有去模糊化神經(jīng)元輸出的總和,產(chǎn)生ANFIS總輸出y:
3.1 ANFIS的學(xué)習(xí)樣本
首先選擇1~10的手勢樣本進(jìn)行訓(xùn)練,每類手勢訓(xùn)練樣本的數(shù)量要近似相等,避免由于訓(xùn)練樣本數(shù)量的不同導(dǎo)致個別類別響應(yīng)過于敏感或者過于遲鈍,同時能大幅度提高訓(xùn)練速度,避免網(wǎng)絡(luò)陷入局部極小點(diǎn)。
以中國傳統(tǒng)的標(biāo)準(zhǔn)手勢為例,如圖5所示。
圖5 中國傳統(tǒng)的標(biāo)準(zhǔn)手勢圖
由于神經(jīng)網(wǎng)絡(luò)[7]不具有不變識別的能力,要使網(wǎng)絡(luò)對手勢的旋轉(zhuǎn)、伸縮具有不變性,要盡可能選擇各種情況的手勢樣本。每個手勢選用200個樣本進(jìn)行訓(xùn)練,盡量選擇不同方向、不同大小的手勢樣本,這樣可以保證網(wǎng)絡(luò)系統(tǒng)在較為復(fù)雜背景下有較高識別率。訓(xùn)練樣本如圖6所示。
圖6 手勢樣本圖像
提取預(yù)處理后的手勢圖像特征向量,同來訓(xùn)練系統(tǒng)參數(shù)。
3.2 基于Sugeno模糊模型的ANFIS在手勢識別的結(jié)果
從分割出來的手勢圖像中提取出特征向量作為識別系統(tǒng)的輸入。本文使用以下三種識別方法:基于自適應(yīng)神經(jīng)-模糊推理系統(tǒng)(ANFIS)、基于BP神經(jīng)網(wǎng)絡(luò)[8]的識別方法和基于模糊神經(jīng)網(wǎng)絡(luò)[9]的識別方法,并比較三者的識別率。為了系統(tǒng)學(xué)習(xí)和輸入的方便,本文采用同樣且同等數(shù)量的樣本進(jìn)行學(xué)習(xí),同等條件下經(jīng)過200次的實(shí)驗(yàn)后得到的結(jié)果是:基于自適應(yīng)神經(jīng)-模糊推理系統(tǒng)(ANFIS)的手勢識別率比另外兩種方法的識別率高。具體實(shí)驗(yàn)數(shù)據(jù)如表1所示。
表1 BP、模糊神經(jīng)網(wǎng)絡(luò)和ANFIS的識別率對比 (%)
根據(jù)表中的數(shù)據(jù)制成鏈表,直觀表現(xiàn)三種識別方式的優(yōu)劣,如圖7所示。此外識別率還受系統(tǒng)學(xué)習(xí)次數(shù)的影響,具體如圖8所示。
圖7 三種方法識別率對比
圖8 不同訓(xùn)練樣本數(shù)下的平均識別率
針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的不足,本文提出的自適應(yīng)神經(jīng)-模糊推理系統(tǒng)充分發(fā)揮了自適應(yīng)、模糊化和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),具有適應(yīng)性強(qiáng)、學(xué)習(xí)能力好的特點(diǎn),提高了系統(tǒng)的魯棒性。此外對手勢的識別率也有了顯著的提高。
對于手勢本身的多樣性、多義性、差異性等特點(diǎn)以及技術(shù)的局限,尤其是在復(fù)雜的環(huán)境下,當(dāng)人手和人臉重合或者人手與背景膚色相差不多的情況下,并不能很好地從圖像中提取出完整的無噪聲的手勢圖像。此外目前采用的識別系統(tǒng)在識別率與時間效率還不能同時完美實(shí)現(xiàn),如何在保證目標(biāo)識別率的前提下,獲得理想的處理速度,提高系統(tǒng)實(shí)用性,這將是一個重要的研究課題。
[1] 武霞,張崎,許艷旭. 手勢識別研究發(fā)展現(xiàn)狀綜述[J]. 電子科技,2013,26(6):171-174.
[2] NEGNEVITSKY M. 人工智能:智能系統(tǒng)指南[M]. 北京:機(jī)械工業(yè)出版社, 2012.
[3] 范會敏,王浩. 模式識別方法概述[J]. 電子設(shè)計工程,2012,20(19):48-51.
[4] 邱迪. 基于HSV與YCrCb顏色空間進(jìn)行膚色檢測的研究[J]. 電腦編程技巧與維護(hù),2012(10):74-75.
[5] 李梅. 基于Otsu算法的圖像分割研究[D].合肥:合肥工業(yè)大學(xué),2011.
[6] 張小娟. 自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)及其仿真[J]. 電子設(shè)計工程,2012,20(5):11-13.
[7] 馮桐. 基于神經(jīng)網(wǎng)絡(luò)的手勢識別研究[D].北京:北京理工大學(xué),2015.
[8] 李歌. 基于BP神經(jīng)網(wǎng)絡(luò)的手勢識別研究[D].秦皇島:燕山大學(xué),2013.
[9] 齊鏜泉. 基于動態(tài)模糊神經(jīng)網(wǎng)絡(luò)的手勢識別算法研究[D].重慶:西南大學(xué),2011.
蔣磊磊(1990- ),男,在讀碩士研究生,主要研究方向:自適應(yīng)信號處理。
秦麗娟(1978- ),女,博士,副教授,主要研究方向:計算機(jī)視覺智能計算、虛擬實(shí)現(xiàn)系統(tǒng)、機(jī)器人控制理論等。
李武舉(1990- ),男,在讀碩士研究生,主要研究方向:數(shù)據(jù)挖掘。
The application of ANFIS in gesture recognition based on Sugeno fuzzy model
Jiang Leilei,Qin Lijuan,Li Wuju
(School of Information Science and Engineering, Shenyang Ligong University, Shenyang, 110159 China)
Gesture recognition is becoming an important mode in human-computer interaction technology research. It uses cameras and computer vision technology to capture static gesture image, and in YCrCb color space, uses the Gaussian to distribut skin color modeling. By calculating the probability of background pixel color, clean gesture image is segmented. Then the Sugeno fuzzy model based adaptive neuro fuzzy inference system is used to get gesture recognition. Compared with the traditional neural network recognition system, the recognition method has better adaptive and robustness. The experimental results show that based on Sugeno fuzzy model and adaptive neural fuzzy inference system can effectively learn the feature, the correct recognition rate can reach 95% or so. It is a very effective method of static gesture recognition.
human computer interaction; gesture; Sugeno fuzzy model; adaptive neuro fuzzy inference
TP751;TP753
A
10.19358/j.issn.1674- 7720.2016.24.015
蔣磊磊,秦麗娟,李武舉. 基于Sugeno模糊模型的ANFIS在手勢識別中的應(yīng)用[J].微型機(jī)與應(yīng)用,2016,35(24):50-53.
2016-08-21)