張美玉,項(xiàng)小雨,侯向輝,簡(jiǎn)琤峰
(浙江工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院 數(shù)字媒體技術(shù)研究所,杭州 310023)
手勢(shì)分割作為移動(dòng)端手勢(shì)識(shí)別的第一步,是至關(guān)重要的一個(gè)環(huán)節(jié).精準(zhǔn)的手勢(shì)分割可以為后續(xù)的手勢(shì)識(shí)別工作打下堅(jiān)實(shí)的基礎(chǔ),避免不必要的計(jì)算,極大地提高識(shí)別效率[1,2].但面向移動(dòng)端的手勢(shì)分割研究存在以下難點(diǎn):1)移動(dòng)設(shè)備的資源有限;2)復(fù)雜背景和光照對(duì)手勢(shì)分割的效果極易產(chǎn)生干擾;3)慢速移動(dòng)的手部易被誤判為背景.
背景差分法是目前常用于檢測(cè)運(yùn)動(dòng)物體的分割方法.現(xiàn)有的背景差分法主要有多幀背景差分法和混合高斯背景模型法.何志輝等通過(guò)三幀差分去除目標(biāo)區(qū)域,構(gòu)建背景模型,并計(jì)算鄰域像素方差以進(jìn)行目標(biāo)分割[3].Singha等在原圖和灰度圖上同時(shí)進(jìn)行三幀差分計(jì)算,再使用特征跟蹤器來(lái)跟蹤手部[4].但是這些方法更適用于靜態(tài)背景,對(duì)動(dòng)態(tài)背景的適應(yīng)能力較弱,易產(chǎn)生檢測(cè)目標(biāo)誤判等情況.而混合高斯背景建模方法采用多個(gè)高斯分布來(lái)表示每個(gè)像素,可以有效地對(duì)多峰分布的背景進(jìn)行建模,對(duì)背景的自適應(yīng)性高[5].Katsarakis等通過(guò)在空間上控制學(xué)習(xí)率的變化來(lái)加速虛影消除[6],但這導(dǎo)致每一幀的平均學(xué)習(xí)率都提高了,影響分割算法的效率.Azzam等結(jié)合RGB和像素不確定性提出全局混合高斯模型,該方法可以適應(yīng)光照的快速變化[7],Huang等在傳統(tǒng)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法中加入像素的時(shí)間信息,優(yōu)化背景模型,減少前景誤判[8].但是這些方法由于需要對(duì)每個(gè)像素進(jìn)行時(shí)間空間的多方位處理[9,10],對(duì)系統(tǒng)的計(jì)算資源有很高的要求.
同時(shí),膚色作為手部最大的特性,不會(huì)因手部的大小、形態(tài)、方向改變而變化,因此膚色檢測(cè)在手部檢測(cè)中具有通用性.簡(jiǎn)琤峰等結(jié)合梯度和色彩信息結(jié)構(gòu)化輸出形式,構(gòu)建結(jié)構(gòu)化隨機(jī)森林進(jìn)行手部檢測(cè),但是該方法在選擇特征算子上需要較多時(shí)間和計(jì)算資源[11].Lopez等結(jié)合灰度、RGB和YCbCr色彩空間,基于顏色分量加權(quán)的方式進(jìn)行手勢(shì)分割,排除光照干擾[12,13].陳佳洲等提取膚色信息,計(jì)算超像素顯著值,生成像素顯著圖,完成圖像分割[14].但是只采用膚色提取手勢(shì)的方法,極易受到背景中類膚色物體的影響.因此,結(jié)合背景消減法和膚色檢測(cè),在不影響算法性能的前提下,減小計(jì)算量,提高檢測(cè)效率,對(duì)移動(dòng)端手勢(shì)分割研究至關(guān)重要.
基于上述思路,本文提出一種面向移動(dòng)端的快速優(yōu)化手勢(shì)分割方法.首先根據(jù)場(chǎng)景變化率實(shí)現(xiàn)對(duì)背景模型的自適應(yīng)更新,以加強(qiáng)背景模型對(duì)環(huán)境變化的適應(yīng)性;其次通過(guò)HSV和YCbCr色彩空間構(gòu)建膚色模型,精確提取膚色區(qū)域,排除非膚色運(yùn)動(dòng)物體的干擾;再利用局部區(qū)域定位,預(yù)測(cè)手部運(yùn)動(dòng),減少冗余計(jì)算量,同時(shí)防止將慢速移動(dòng)的手部誤判為背景.
圖像中每一個(gè)像素點(diǎn)的顏色值可作為一個(gè)隨機(jī)過(guò)程,并假設(shè)該點(diǎn)的像素概率服從高斯分布.令xt表示為像素點(diǎn)x在t時(shí)刻的像素樣本,則單個(gè)采樣點(diǎn)服從混合高斯概率密度分布函數(shù):
(1)
其中k為分布的總數(shù),一般取值為3~5,k值越大,則表示系統(tǒng)越能適應(yīng)復(fù)雜場(chǎng)景,但是計(jì)算量也將大幅增加.基于移動(dòng)端有限的計(jì)算和存儲(chǔ)資源,本文將k值定為3,在不影響算法效果的前提下,簡(jiǎn)化高斯分布個(gè)數(shù).
(2)
其中β(xt,μi,t,τi,t)為t時(shí)刻第i個(gè)高斯分布,μi,t為其均值,τi,t為其協(xié)方差矩陣,wi,t為t時(shí)刻第i個(gè)高斯分布的權(quán)重.
以第一幀圖像數(shù)據(jù)初始化背景模型,然后將得到的每個(gè)新像素xt按照公式(3)同前k個(gè)高斯分布模型進(jìn)行比較,若同該高斯分布的均值偏差在2.5σ內(nèi),則表示新像素與該高斯分布匹配度達(dá)到了90%以上,可按照公式(4)來(lái)更新權(quán)重等值,以此更新背景模型.其中α表示為學(xué)習(xí)速率,即反映了依據(jù)當(dāng)前圖像建立背景模型的速率.若無(wú)法匹配,則為該像素建立新的高斯分布.
|xt-μi,t-1|≤2.5σi,t-1
(3)
wi,t=(1-α)wi,t-1+α
(4)
傳統(tǒng)的混合高斯背景建模,在背景環(huán)境受到大幅改變時(shí),會(huì)將應(yīng)為背景的部分誤認(rèn)為前景,并作為運(yùn)動(dòng)物體提取出來(lái),從而產(chǎn)生虛影,影響背景模型建立的準(zhǔn)確性和前景提取的效果.此時(shí)提高學(xué)習(xí)速率α,可以加速虛影的消除.而單純提高學(xué)習(xí)速率,會(huì)使短時(shí)間內(nèi)沒(méi)有發(fā)生位移的運(yùn)動(dòng)物體,被歸為背景來(lái)處理,從而失去物體運(yùn)動(dòng)的連續(xù)性.因此學(xué)習(xí)速率的變化需要考慮兩個(gè)因素:當(dāng)前幀的灰度變化率和膚色變化率.
在計(jì)算膚色變化率時(shí),選取了HSV色彩空間上的H(色相)分量.在HSV色彩空間中,H分量代表圖像的色彩信息,受光照變化的影響相對(duì)緩慢,通常可用H分量來(lái)表示膚色信息.這樣就可以通過(guò)控制單值較快的獲取膚色變化率,減少計(jì)算量.
本文提出了一種通過(guò)場(chǎng)景變化率自適應(yīng)改變?chǔ)恋姆椒?圖像灰度均值變化率Rt越大,則表示在t時(shí)刻的幀圖像場(chǎng)景變化越大,而圖像膚色變化率St越小,則表示前景運(yùn)動(dòng)物體,即手部并未有大幅變動(dòng).由此可推斷,幀圖像的灰度均值變化率和膚色變化率的比率越大,場(chǎng)景變化率越大.因此,場(chǎng)景變化率γt可由公式(5)得出,其中Ht表示為t時(shí)刻圖像在HSV色彩空間中H分量的均值,ht為t時(shí)刻圖像的灰度均值:
(5)
場(chǎng)景變化率增加,表示背景環(huán)境有大幅改變,因此需要提高學(xué)習(xí)速率.由公式(5)可得出學(xué)習(xí)速率α的公式,其中αinit為初始學(xué)習(xí)速率:
α=αinit(1+γt)/2
(6)
最后將當(dāng)前幀和當(dāng)前建立的背景模型進(jìn)行差異對(duì)比,可得到一個(gè)二進(jìn)制圖像,該二進(jìn)制圖像即為消除背景后獲取的前景對(duì)象.同時(shí),前景區(qū)域中會(huì)提取到輕微晃動(dòng)的物體.如圖1(b)所示,該實(shí)驗(yàn)結(jié)果將晃動(dòng)的人臉提取到前景中.為了排除干擾,只在前景中保留最大連通圖,即只保留手部信息.圖1(c)展示了改進(jìn)后的前景提取效果.
圖1 前景提取效果Fig.1 Result of foreground extraction
基于色彩空間的膚色模型可以有效的從簡(jiǎn)單背景中分割出手部.較常見(jiàn)的膚色模型色彩空間有HSV和YCbCr.
在HSV色彩空間中,膚色通常只集中在H分量上的某一個(gè)區(qū)域.YCbCr則是將亮度分離在Y分量,Cb(藍(lán)色色度)和Cr(紅色色度)分量對(duì)于亮度的變化相對(duì)不敏感.為了保證膚色分割的準(zhǔn)確性,我們使用YCbCr和HSV組合色彩空間來(lái)分離膚色區(qū)域和非膚色區(qū)域.
通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)膚色在CbCr空間的分布呈良好的聚類特性,如圖2所示.
圖2 膚色在CbCr空間上的聚類分布Fig.2 Clustering distribution of skin color in CbCr space
因此,可以將(Cb,Cr)中膚色聚類的分布,看作二維高斯概率分布,其概率分布函數(shù)為:
F(Cb,Cr)=C([Cb,Cr]-M)([Cb,Cr]-M)T
(7)
其中M為CbCr膚色均值,C為CbCr膚色方差.
而膚色在H分量上,集中在一個(gè)區(qū)域內(nèi),因此其概率函數(shù)如公式(8)所示,其中M′為H分量上的膚色均值.
K(H)=M′-1(H-M′)
(8)
可由公式(7)和公式(8)計(jì)算膚色概率,圖3展示了測(cè)試圖像的膚色概率圖.其中 X軸和Y軸分別表示像素在X坐標(biāo)和Y坐標(biāo)上的位置,Z軸表示該像素屬于手部的概率.
圖3 手部概率分布圖Fig.3 Hand probability distribution map
根據(jù)背景模型提取的前景,無(wú)法排除非手部的運(yùn)動(dòng)物體和手部運(yùn)動(dòng)造成的陰影.因此,再建立膚色模型提取膚色區(qū)域,便可以準(zhǔn)確提取運(yùn)動(dòng)的手部.
通過(guò)建立背景模型提取前景和建立膚色模型提取膚色物體,我們得到了兩個(gè)二進(jìn)制圖像,Bt和Ct.對(duì)得到這兩個(gè)圖像執(zhí)行AND操作,可以獲得一個(gè)新的二進(jìn)制圖像Rt,即具有膚色信息的前景手部區(qū)域.
Rt=Bt∩Ct
(9)
對(duì)此二進(jìn)制圖像進(jìn)行形態(tài)學(xué)處理,完成手勢(shì)的初始分割,初始分割結(jié)果如圖4所示.
圖4 手勢(shì)初始分割結(jié)果Fig.4 Initial segmentation result of gesture
若要對(duì)每一幀進(jìn)行建模計(jì)算,則會(huì)增加移動(dòng)端的計(jì)算負(fù)擔(dān),影響算法效率.同時(shí),當(dāng)手部移動(dòng)緩慢時(shí),易被誤判定為背景.
在完成初步的手勢(shì)分割之后,就可以定位手勢(shì)的初始輪廓.為了避免冗余的計(jì)算和誤判慢速移動(dòng)的手部,本文通過(guò)手勢(shì)初始輪廓預(yù)測(cè)其運(yùn)動(dòng),確定局部區(qū)域,然后將檢測(cè)范圍縮小到局部區(qū)域.
根據(jù)得到的手勢(shì)初始輪廓,選取一個(gè)最小的矩形窗口把該輪廓完全覆蓋.該矩形窗口的中心點(diǎn)便可作為它的位置標(biāo)記.若當(dāng)前幀的位置標(biāo)記和上一幀的位置標(biāo)記差值d在很小的范圍內(nèi),則可以判定手部位置基本沒(méi)有改變,預(yù)測(cè)下一幀的手勢(shì)位置也不會(huì)有較大變化,由此可由上述兩個(gè)矩形窗口確定局部區(qū)域,如圖5所示.以當(dāng)前獲取的位置標(biāo)記作為局部區(qū)域的中心,選取最小的矩形窗口來(lái)包裹前一幀的窗口和當(dāng)前幀的窗口.該矩形窗口就是局部區(qū)域.
確定局部區(qū)域后,將對(duì)局部區(qū)域外的圖像繼續(xù)進(jìn)行背景更新,同時(shí)停止區(qū)域內(nèi)的背景模型更新.若兩幀的位置標(biāo)記差值較大,無(wú)法確定局部區(qū)域,則仍對(duì)整個(gè)圖像進(jìn)行背景模型更新.由于停止了局部區(qū)域的背景更新,當(dāng)手部位移不明顯時(shí),也不會(huì)被融入背景.
圖5 局部區(qū)域確定Fig.5 Local region
為了驗(yàn)證本文手勢(shì)分割方法的性能,選取了四組不同類型的測(cè)試數(shù)據(jù)集,分別為Dexter、FG-Net、SKIG三組公開(kāi)數(shù)據(jù)集和自采集現(xiàn)實(shí)場(chǎng)景視頻數(shù)據(jù).Dexter數(shù)據(jù)集的背景為較復(fù)雜的靜態(tài)背景,FG-Net的視頻數(shù)據(jù)中手部顏色與背景近似,SKIG數(shù)據(jù)集的背景為動(dòng)態(tài)背景,而現(xiàn)實(shí)場(chǎng)景數(shù)據(jù),可以更好體現(xiàn)本文方法的實(shí)際應(yīng)用價(jià)值.
在對(duì)目標(biāo)檢測(cè)算法進(jìn)行評(píng)估時(shí),往往使用以下指標(biāo)對(duì)算法性能進(jìn)行定量評(píng)價(jià):精確率(Precision)和召回率(Recall)[15].其中精確率計(jì)算的是正確檢測(cè)的樣本占實(shí)際檢測(cè)到的比率;召回率計(jì)算的是正確檢測(cè)到的樣本占應(yīng)被檢測(cè)到的比率.
對(duì)四組實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),其提取效果如圖6所示.
圖6 檢測(cè)結(jié)果對(duì)比Fig.6 Comparison of experimental results
圖6(a)為視頻原始圖像,圖6(b)為混合高斯模型的檢測(cè)結(jié)果,圖6(c)為本文改進(jìn)方法的檢測(cè)結(jié)果.
由圖6可以看出,當(dāng)物體在短時(shí)間靜止后,手部輪廓中的一部分將會(huì)慢慢轉(zhuǎn)化為背景,進(jìn)而形成空洞,使手勢(shì)目標(biāo)輪廓不明確,這在第三組數(shù)據(jù)實(shí)驗(yàn)中表現(xiàn)得尤其明顯.而改進(jìn)方法結(jié)合了局部區(qū)域檢測(cè),當(dāng)手勢(shì)移動(dòng)范圍較小時(shí),停止對(duì)局部區(qū)域背景模型的更新,防止手勢(shì)轉(zhuǎn)化為背景,分割得到的手勢(shì)輪廓完整清晰.
本方法還可以有效排除非膚色運(yùn)動(dòng)物體的干擾,例如第二組實(shí)驗(yàn)中的影子,第三組和第四組實(shí)驗(yàn)中的衣袖.同時(shí)通過(guò)只保留最大連通圖的方式,去除因臉部晃動(dòng)對(duì)手勢(shì)分割的影響,如圖6中的第四組實(shí)驗(yàn)所示.
表1 基于評(píng)價(jià)指標(biāo)的對(duì)比
Table 1 Algorithm comparison based on evaluation indicators
視頻名稱Recall(%)Precision(%)PrimaryImprovedPrimaryImprovedSKIG70.8095.9332.1298.69Dexter90.2894.7484.4293.51FG-Net28.7697.7878.0897.68Self64.1797.4390.8497.32
基于評(píng)價(jià)指標(biāo)的對(duì)比實(shí)驗(yàn)結(jié)果如表1所示.由該表可以看出,改進(jìn)方法在四組實(shí)驗(yàn)中均取得了較高的精確率和召回率,表明其手勢(shì)分割結(jié)果精確,對(duì)后續(xù)手勢(shì)識(shí)別的干擾度較低.表2列出了針對(duì)四組實(shí)驗(yàn)數(shù)據(jù),兩種方法的平均處理速度.
表2 平均處理速度對(duì)比
Table 2 Comparison on average processing speed
視頻名稱分辨率平均處理速度(fps)PrimaryImprovedSKIG800?6001.9423.76Dexter320?24015.74117.06FG-Net768?5762.3625.79Self640?4804.0336.21
實(shí)驗(yàn)數(shù)據(jù)分析說(shuō)明本文方法能有效排除了非膚色運(yùn)動(dòng)物體的影響,對(duì)于復(fù)雜環(huán)境中的手勢(shì)分割有很強(qiáng)的適應(yīng)性,并且提高了效率,減少了移動(dòng)端的計(jì)算負(fù)擔(dān).
針對(duì)移動(dòng)端有限的計(jì)算量,以自適應(yīng)學(xué)習(xí)速率優(yōu)化背景模型的更新方式,以組合色彩空間構(gòu)建膚色模型和以局部區(qū)域的方式加速分割,實(shí)現(xiàn)了對(duì)手勢(shì)分割方法的改進(jìn).實(shí)驗(yàn)證明,改進(jìn)后的方法對(duì)于復(fù)雜背景的適應(yīng)性更強(qiáng),可以更有效的進(jìn)行手勢(shì)分割.