田 天,陳 剛
(上海交通大學(xué)現(xiàn)代遠(yuǎn)程教育研究中心,上海 200030)
基于計(jì)算機(jī)視覺的目標(biāo)跟蹤問題受到國內(nèi)外學(xué)者的大量關(guān)注和研究,如何能夠在復(fù)雜場(chǎng)景下實(shí)現(xiàn)實(shí)時(shí)、準(zhǔn)確、魯棒的跟蹤,一直是難以完美解決和實(shí)現(xiàn)的問題。均值漂移Mean Shift算法[1]和CamShift算法[2]主要通過顏色信息進(jìn)行跟蹤,具有收斂速度快的特點(diǎn)。濾波方法是近年來使用比較多的方法,卡爾曼濾波器[3]提供了一種高效可計(jì)算的方法來估計(jì)系統(tǒng)的狀態(tài),但是應(yīng)用范圍受限于線性、高斯系統(tǒng)。粒子濾波通過蒙特卡羅仿真實(shí)驗(yàn)的方法,解決了卡爾曼濾波器無法適應(yīng)非高斯、非線性系統(tǒng)的問題,且隨著計(jì)算機(jī)計(jì)算能力的不斷提升,粒子濾波計(jì)算量大的缺陷也得到了逐步改善。以顏色為單一跟蹤線索的粒子濾波跟蹤系統(tǒng)[4-5]往往不能處理場(chǎng)景中的顏色干擾或者光照變化等問題,在顏色敏感的應(yīng)用場(chǎng)景中使用比較局限。近年來研究人員嘗試使用更多的跟蹤特征,以及多種跟蹤技術(shù)結(jié)合的方法,使目標(biāo)跟蹤具有更優(yōu)魯棒性。Gabor特征是一種顯著的紋理特征,文獻(xiàn)[6]在Mean Shift算法中使用Gabor濾波和LBP構(gòu)造多級(jí)紋理進(jìn)行目標(biāo)跟蹤;文獻(xiàn)[7]使用Gabor濾波和目標(biāo)的稀疏描述技術(shù)進(jìn)行魯棒跟蹤,克服了光照和外形變化造成的干擾;文獻(xiàn)[8]在傳統(tǒng)的顏色直方圖模型中添加了人臉的形狀直方圖;文獻(xiàn)[9]利用運(yùn)動(dòng)目標(biāo)的速度和加速度信息,給出了對(duì)粒子濾波器跟蹤狀態(tài)的評(píng)價(jià)方法,建立了相應(yīng)的捕獲機(jī)制。文獻(xiàn)[10]結(jié)合顏色、邊緣和小波特征信息,實(shí)現(xiàn)了一種并行粒子濾波算法。本文在粒子濾波的框架下,針對(duì)人臉膚色和紋理2個(gè)特征,建立膚色直方圖模型和Gabor紋理特征模型,并使用民主融合策略在視頻中實(shí)現(xiàn)對(duì)人臉區(qū)域的準(zhǔn)確跟蹤。
膚色特征在人臉跟蹤領(lǐng)域中是最有效的特征之一,膚色信息符合人類的視覺系統(tǒng)習(xí)慣,同時(shí)提取膚色特征相比于其他特征更迅速、準(zhǔn)確,在人臉部發(fā)生旋轉(zhuǎn)、尺度等變化以及目標(biāo)遮擋時(shí),也表現(xiàn)出更好的魯棒性和誤跟蹤恢復(fù)能力。膚色檢測(cè)技術(shù)的難點(diǎn)主要體現(xiàn)在膚色個(gè)體、種群差異性等導(dǎo)致膚色模型需要結(jié)合具體的使用環(huán)境建立,同時(shí)容易受到環(huán)境光和復(fù)雜背景的影響,導(dǎo)致膚色檢測(cè)結(jié)果不穩(wěn)定。膚色檢測(cè)技術(shù)主要涉及以下2個(gè)問題:(1)選用何種顏色空間作為視頻圖像的投影空間;(2)如何建立數(shù)學(xué)模型描述膚色與非膚色區(qū)域以及兩者的區(qū)分方法。
RGB顏色模型是計(jì)算機(jī)使用最廣泛的模型,可直接作為膚色檢測(cè)的投影空間。但RGB空間下3個(gè)分量對(duì)光照強(qiáng)度具有強(qiáng)相關(guān)性,極易受到環(huán)境的影響。研究發(fā)現(xiàn),人類膚色雖然顏色差異較大,但主要體現(xiàn)在亮度分量上,實(shí)際上色度更大程度地決定了膚色與非膚色區(qū)域的劃分。在HSV空間和YCbCr空間中,顏色分量和亮度分量得到有效分離,色度H通道和Cb、Cr通道對(duì)膚色具有明顯的高聚類性。本文選取HSV空間和YCbCr空間作為顏色投影空間。對(duì)于YCbCr空間Cb-Cr通道,膚色樣本分布如圖1所示。
圖1 YCbCr空間中Cb-Cr聯(lián)合通道膚色樣本分布
文獻(xiàn)[11]總結(jié)了一種在RGB空間下膚色像素的閾值分割方法:
該分類方法是較早針對(duì)膚色檢測(cè)的研究中提出的。該方法簡單有效,但對(duì)飽和度比較低的像素區(qū)域容易出現(xiàn)誤分類。針對(duì)膚色樣本在色度H通道和Cb-Cr通道中的分布,本文通過加權(quán)求和的方式來描述膚色的概率分布:
其中,P (s kin| c)表示觀測(cè)到某像素后為膚色像素的概率。該概率模型由色度H通道的一維高斯模型和Cb-Cr通道的二維高斯模型通過加權(quán)因子求和得到。H通道和Cb-Cr通道的膚色樣本概率分布可通過高斯函數(shù)進(jìn)行擬合。PH(skin |c)和PCbCr(skin |c)通過高斯函數(shù)計(jì)算膚色似然度,即:
其中,x和m為別是H,CbCr通道的顏色樣本;參數(shù)μ,σ2為相應(yīng)高斯分布N(μ,σ2)的均值和方差;μ,Σ 為N(μ,Σ)的均值向量和協(xié)方差矩陣。
除了人的面部膚色特征,紋理也是一種常見特征。文獻(xiàn)[12]將紋理特征提取方法歸納為以下5種:統(tǒng)計(jì)方法,幾何方法,結(jié)構(gòu)方法,模型方法和信號(hào)處理方法。基于信號(hào)分析的方法符合人類認(rèn)識(shí)紋理的過程,適應(yīng)多種分辨率,用Gabor函數(shù)描述的Gabor濾波器可以在頻域不同尺度、不同方向上提取相關(guān)的特征,被證明是信號(hào)在空間域和頻率域的最優(yōu)描述之一。
圖像是一個(gè)二維離散矩陣,在圖像處理中更多是使用二維Gabor變換。二維Gabor函數(shù)g(x,y)是經(jīng)過復(fù)數(shù)正弦函數(shù)調(diào)制的高斯函數(shù),其在空間域和頻率域分別表示為:
其中,σx,σy分別為Gabor小波基函數(shù)沿x軸和y軸方向的方差,且 σμ=1/(2πσx),σν=1/(2πσy);ω為高斯函數(shù)的復(fù)調(diào)制頻率。以g(x,y)為母小波,通過對(duì)其進(jìn)行尺度變換和旋轉(zhuǎn)變換,可獲得一個(gè)全局Gabor濾波器組:
其中,x ′=a-m(xcosθ + ysin θ);y′=a-m(- xsinθ + ycosθ);θ=(nπ)/k ,k是方向總數(shù);a-m是尺度因子。該濾波器組包含m×n個(gè)Gabor濾波器,每個(gè)濾波器對(duì)某一特定尺度和方向具有選擇作用,濾波器的數(shù)量決定了該全局濾波器組的紋理描述能力。
Gabor幅值圖像是原始圖像經(jīng)過Gabor濾波后得到的復(fù)數(shù)矩陣幅值響應(yīng)圖。對(duì)Gabor濾波結(jié)果進(jìn)行紋理提取時(shí),本文采用通過計(jì)算Gabor幅值圖像中均值和方差構(gòu)造統(tǒng)計(jì)量的方法。使用高階矩構(gòu)造Gabor特征向量得到的性能提升空間比較有限,而且計(jì)算復(fù)雜度大幅提高。
設(shè)Wmn(x,y)為圖像區(qū)域I(x,y)經(jīng)過Gabor小波變換后的圖像,提取幅值圖像均值和方差的方法如下:
利用所有m×n個(gè)濾波結(jié)果的均值與標(biāo)準(zhǔn)差構(gòu)造Gabor特征向量:
粒子濾波依據(jù)蒙特卡羅采樣思想,用一組帶有相關(guān)權(quán)值的隨機(jī)樣本來表示系統(tǒng)隨機(jī)變量的后驗(yàn)概率分布。粒子空間傳播過程中使用系統(tǒng)模型預(yù)測(cè)狀態(tài)的先驗(yàn)概率密度,并結(jié)合現(xiàn)有狀態(tài)的觀測(cè)值進(jìn)行更新,得到后驗(yàn)概率密度。具體過程如圖2所示。
圖2 粒子濾波遞推過程(預(yù)測(cè)和更新)
由于粒子濾波基于狀態(tài)近似估計(jì)的思想,因此目標(biāo)運(yùn)動(dòng)模型精確度不必過高。本文基于該方法,采用一階自回歸模型描述人臉運(yùn)動(dòng)。目標(biāo)狀態(tài)轉(zhuǎn)移方程的一階自回歸方程為:
其中,ut-1是一個(gè)隨機(jī)量。針對(duì)粒子濾波后驗(yàn)狀態(tài)估計(jì)結(jié)果,動(dòng)態(tài)調(diào)整ut-1的隨機(jī)范圍。當(dāng)跟蹤結(jié)果觀測(cè)權(quán)值較大時(shí),表示粒子已觀測(cè)到較為可靠的目標(biāo),此時(shí)可減小ut-1的隨機(jī)范圍,使粒子的傳播過程更加穩(wěn)定;當(dāng)觀測(cè)權(quán)值較小時(shí),可通過適當(dāng)增大ut-1的隨機(jī)范圍,擴(kuò)大粒子集的傳播和搜索范圍。
針對(duì)膚色似然圖像,建立目標(biāo)區(qū)域的膚色概率分布模型:
其中,xi為當(dāng)前像素位置;x0為區(qū)域中心;k(·)為定義的核函數(shù),使得接近中心區(qū)域的像素膚色似然度貢獻(xiàn)較高,而位于邊緣區(qū)域的像素貢獻(xiàn)較低;δ(·)為單位沖激函數(shù);u為直方圖序列索引;參數(shù)a的設(shè)置隨粒子窗口大小變化,保證核函數(shù)的合理性。定義Bhattacharyya系數(shù)(巴氏系數(shù))計(jì)算方法為:
巴氏系數(shù)衡量了2個(gè)分布的相似性。將相應(yīng)的巴氏距離作為粒子觀測(cè)似然函數(shù)計(jì)算結(jié)果:
對(duì)于Gabor濾波結(jié)果,通過計(jì)算粒子區(qū)域內(nèi)的紋理觀測(cè)向量,并和人臉目標(biāo)紋理向量進(jìn)行匹配以實(shí)現(xiàn)對(duì)粒子區(qū)域紋理似然函數(shù)的估計(jì)。選取向量歐式距離作為相似度測(cè)量準(zhǔn)則:
其中,Dg為歐式距離;k是一個(gè)預(yù)先確定的常數(shù)。最終的粒子觀測(cè)似然函數(shù)由2種信息通過加權(quán)求和得到,即:
粒子觀測(cè)模型示意圖如圖3所示。
圖3 粒子觀測(cè)模型示意圖
為了在系統(tǒng)中更合理、靈活地融合2種觀測(cè)信息,本文采用民主融合策略。該策略的基本原理是對(duì)參與融合的各種信息進(jìn)行可靠度評(píng)析,對(duì)可靠度較大的信息對(duì)在系統(tǒng)觀測(cè)計(jì)算中占有更大的權(quán)值。定義質(zhì)量函數(shù)qi如下:
其中,k是一個(gè)常數(shù);di表示融合結(jié)果中每種信息和目標(biāo)特征的相似性距離。
通過當(dāng)前各信息權(quán)值計(jì)算當(dāng)前幀的跟蹤結(jié)果后,利用質(zhì)量函數(shù)預(yù)測(cè)下一幀信息權(quán)值的過程如下:
其中,T是連續(xù)2幀之間的時(shí)間間隔;τ是變化速率。該式使得質(zhì)量函數(shù)值更高的信息逐漸擁有更大的權(quán)值,從而使得跟蹤結(jié)果中該信息的貢獻(xiàn)更顯著。
基于膚色信息和Gabor紋理信息的粒子濾波算法描述如下:
(1)初始化視頻序列跟蹤對(duì)象,獲得人臉跟蹤窗口初始位置;
(2)提取目標(biāo)人臉膚色直方圖和Gabor紋理特征向量;
(4)粒子傳播:根據(jù)狀態(tài)轉(zhuǎn)移方程計(jì)算新的粒子集:
(5)粒子觀測(cè):分別計(jì)算膚色檢測(cè)模型下和Gabor紋理模型下觀測(cè)似然 P(Zc| X)和P(Zg|X),通過高斯模型計(jì)算粒子權(quán)值:
(6)目標(biāo)后驗(yàn)狀態(tài)估計(jì):
(7)粒子重采樣:對(duì)粒子集進(jìn)行重采樣;
(8)通過民主融合策略進(jìn)行信息權(quán)值的更新;
(9)轉(zhuǎn)到步驟(4)。
本文選取斯坦福大學(xué)開放人臉跟蹤視頻序列seq_ms、seq_djb為實(shí)驗(yàn)對(duì)象。斯坦福大學(xué)人臉跟蹤視頻比較全面,同時(shí)具有跟蹤測(cè)試的針對(duì)性。視頻序列幀長為50,分辨率為128×96像素。針對(duì)2組序列的跟蹤結(jié)果如圖4和圖5所示。
圖4 seq_ms序列跟蹤結(jié)果
圖5 seq_djb序列跟蹤結(jié)果
seq_ms視頻中人物臉部基本保持不動(dòng),但是雙手左右移動(dòng),手掌數(shù)次完全遮擋臉部。人手區(qū)域?qū)儆陬惸w色區(qū)域,在膚色似然概率圖中,手部的直方圖與臉部相似,因而會(huì)對(duì)臉部跟蹤產(chǎn)生干擾。從誤差曲線(圖6)來看,基于膚色的粒子濾波跟蹤結(jié)果容易被手部吸引,從而引起數(shù)次誤差高峰。臉部的遮擋也將影響到基于紋理信息的跟蹤,但實(shí)驗(yàn)結(jié)果顯示紋理跟蹤結(jié)果比較理想,主要原因是因?yàn)槿宋锉3朱o止,背景沒有劇烈的紋理變化。seq_djb視頻中人物首先向右移動(dòng)至一塊障礙板前,然后向左以較快速度返回,并在移動(dòng)過程中遇到背景區(qū)域中其他人臉的干擾。實(shí)驗(yàn)結(jié)果顯示,基于3種信息的粒子濾波器均能夠?qū)崿F(xiàn)較為穩(wěn)定的跟蹤。視頻后段中人物臉部以側(cè)面移動(dòng),同時(shí)光照強(qiáng)度較低,因而對(duì)膚色信息的跟蹤略有影響。2組視頻中基于Gabor紋理特征的跟蹤起到了更明顯的作用。
圖6 跟蹤誤差
圖7是戶外背景拍攝的視頻序列及其人臉跟蹤結(jié)果,序列分辨率為320×240像素。在該序列中,人物面部光照強(qiáng)度較低,但對(duì)膚色似然圖像的計(jì)算影響較小?;诩y理信息的粒子濾波在該序列中容易出現(xiàn)誤跟蹤,體現(xiàn)在攝像頭移動(dòng)導(dǎo)致背景不穩(wěn)定,同時(shí)房屋和樹木的細(xì)節(jié)較多,因而該序列的Gabor幅值圖像較為復(fù)雜。視頻序列21幀時(shí),人物處于直立靜止?fàn)顟B(tài)。第50幀起,人物開始移動(dòng),伴隨面部的水平移動(dòng)和輕微旋轉(zhuǎn),尤其在第100幀左右,人物移動(dòng)速度達(dá)到了150 pixel/s~180 pixel/s,跟蹤存在一定誤差,但仍能基本鎖定人物的運(yùn)動(dòng)方向,提供正確的結(jié)果。第120幀之后,人臉由于下蹲發(fā)生垂直方向的運(yùn)動(dòng),攝像頭自身也產(chǎn)生移動(dòng),由于背景房屋的表面細(xì)節(jié)豐富,同時(shí)受到低分辨率視頻的質(zhì)量影響,Gabor幅值圖像開始不穩(wěn)定,跟蹤主要線索集中在膚色特征上,該過程依賴民主融合策略對(duì)膚色信息和Gabor紋理信息的混合權(quán)重動(dòng)態(tài)調(diào)整。整個(gè)視頻只包含單一人臉,不存在其他人臉目標(biāo)或類膚色區(qū)域的干擾。
圖7 戶外拍攝序列跟蹤結(jié)果
基于單一顏色信息的跟蹤方法計(jì)算速度快,但較難適應(yīng)相似顏色的干擾,因而其局限性較大。本文建立的膚色概率模型綜合了HSV空間和YCbCr空間中H通道和Cb-Cr聯(lián)合通道計(jì)算膚色似然概率,進(jìn)一步避免了光照等環(huán)境變化造成的錯(cuò)誤。同時(shí)使用Gabor濾波的紋理提取技術(shù)捕獲了更多的目標(biāo)外形特征,當(dāng)背景紋理單一、靜止時(shí),特征容易區(qū)分,目標(biāo)跟蹤的結(jié)果更穩(wěn)定、魯棒。
Gabor濾波方法在選取尺度、方向數(shù)目較多、特征向量維數(shù)較高時(shí)計(jì)算量較大。民主融合策略是在確定膚色直方圖和Gabor紋理特征向量對(duì)粒子觀測(cè)似然值的貢獻(xiàn)權(quán)重時(shí)采用的一種自適應(yīng)策略,提高了跟蹤靈活度和可靠度。實(shí)驗(yàn)結(jié)果表明,基于膚色和Gabor紋理信息的粒子濾波跟蹤器能在多種環(huán)境下進(jìn)行準(zhǔn)確的跟蹤。此外,粒子數(shù)目的多少直接對(duì)計(jì)算速度產(chǎn)生影響,而且會(huì)隨著觀測(cè)模型的復(fù)雜化而不斷提高。今后將使用和優(yōu)化更多的目標(biāo)描述模型,同時(shí)對(duì)粒子空間傳播過程和重采樣過程進(jìn)行研究和改進(jìn)。
[1]Cheng Yizong.Mean Shift,Mode Seeking,and Clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1995,17(8):790-799.
[2]Bradski G R.Computer Vision Face Tracking for Use in a Perceptual User Interface[J].Intel Technology Journal,1998,2(2):1-15.
[3]Welch G,BishopG.An Introduction to the Kalman Filter[EB/OL].(2003-03-02).http://cs.unc/edu/welch/kalman/kalmanIntro.html.
[4]Nummiaro K,Koller-Meier E,van Gool L.A Color-based Particle Filter[C]//Proceedings of the 1st International Workshop on Generative-model-based Vision.Kopenhagen,Denmark:[s.n.],2002:53-60.
[5]Nummiaro K,Koller-Meier E,van Gool L.An Adaptive Color-based Particle Filter[J].Image and Vision Computing,2003,21(1):99-110.
[6]危自福,畢篤彥,楊 儉.基于多級(jí)紋理特征和Mean-Shift的灰度目標(biāo)跟蹤[J].計(jì)算機(jī)應(yīng)用,2010,30(6):1568-1572.
[7]Li Weiguang,Hou Yueen,Lou Huidong,et al.Robust Visual Tracking Based on Gabor Feature and Sparse Representation[C]//Proceedings of IEEE International Conference on Robotics and Biomimetics.[S.l.]:IEEE Press,2012:1829-1835.
[8]高建坡,王煜堅(jiān),楊 浩,等.以顏色和形狀直方圖為線索的粒子濾波人臉跟蹤[J].中國圖象圖形學(xué)報(bào),2007,12(3):466-473.
[9]蔣 斐,程玉寶,李宏斌.基于運(yùn)動(dòng)特征的顏色粒子濾波器[J].計(jì)算機(jī)工程,2011,37(9):221-222,225.
[10]Liu Keyan,Li Yunhua,Li Shanqing,et al.A New Parallel Particle Filter Face Tracking Method Based on Heterogeneous System[J].Journal of Real-Time Image Processing,2012,7(3):153-163.
[11]Vezhnevets V,Sazonov V,Andreeva A.A Survey on Pixelbased Skin Color Detection Techniques[C]//Proceedings of Graphicon’03.Moscow,Russia:[s.n.],2003:85-92.
[12]Tuceryan M,Jain A K.Texture Analysis,Handbook Pattern Recognition and Computer Vision[M].Singapore:World Scientific,1993.