李廣三,楊大為,王 琰
LI Guangsan,YANG Dawei,WANG Yan
沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110159
School of Information Science and Engineering,Shenyang Ligong University,Shenyang 110159,China
目標(biāo)跟蹤是指在視頻圖像序列中估計(jì)被跟蹤目標(biāo)的時(shí)間狀態(tài)序列(包括位置、方向、尺度大小等)。目標(biāo)跟蹤在計(jì)算機(jī)視覺(jué)領(lǐng)域(視頻索引、安全監(jiān)控、人機(jī)交互等)中發(fā)揮著重要作用。最近幾十年已經(jīng)出現(xiàn)了一些在現(xiàn)實(shí)中應(yīng)用廣泛的目標(biāo)跟蹤算法。在目標(biāo)跟蹤過(guò)程中,光照變化、運(yùn)動(dòng)模糊、部分遮擋等情況會(huì)導(dǎo)致目標(biāo)發(fā)生明顯的表觀變化,這使得維持目標(biāo)跟蹤算法的魯棒性成為一個(gè)難題[1-2]。
目標(biāo)跟蹤算法通常至少包括表觀模型和運(yùn)動(dòng)模型兩個(gè)部分。在任意一幀圖像中,通常使用目標(biāo)的某個(gè)或某些特征構(gòu)建該目標(biāo)的表觀模型,在隨后的跟蹤過(guò)程中使用這個(gè)表觀模型表示該目標(biāo)。然后,在下一幀圖像中,使用運(yùn)動(dòng)模型得到目標(biāo)所有的預(yù)測(cè)樣本,利用表觀模型從眾多預(yù)測(cè)樣本中挑選一個(gè)預(yù)測(cè)樣本作為跟蹤結(jié)果。在目標(biāo)跟蹤算法中,表觀模型是非常關(guān)鍵的部分。
構(gòu)建表觀模型至少要考慮兩個(gè)因素。第一,使用什么特征來(lái)表示目標(biāo)。目標(biāo)一般包含多種特征,例如灰度[3-4]、顏色、紋理、HOG特征、Haar特征[5-6]等等。同時(shí),根據(jù)提取特征的區(qū)域,還可以分成全局特征和局部特征。全局特征對(duì)于目標(biāo)和背景都是清晰明白的,特別適用于判別模型[7]。局部特征能夠有效處理部分遮擋問(wèn)題[3]。第二,如何利用表觀模型從眾多預(yù)測(cè)樣本中選擇一個(gè)預(yù)測(cè)樣本作為跟蹤結(jié)果。根據(jù)選擇方法,可以把表觀模型分為生成模型和判別模型。利用運(yùn)動(dòng)模型提取眾多預(yù)測(cè)樣本,將目標(biāo)的表觀模型和預(yù)測(cè)樣本的表觀模型依次比較,選擇兩者表觀模型最相似的預(yù)測(cè)樣本作為跟蹤結(jié)果,這就是生成模型[3-4,8-9]。利用運(yùn)動(dòng)模型提取眾多正負(fù)樣本和預(yù)測(cè)樣本,利用正負(fù)樣本的表觀模型構(gòu)建分類器,選擇分類器分?jǐn)?shù)最大的預(yù)測(cè)樣本作為跟蹤結(jié)果,這就是判別模型[5,10-13]。兩者各有優(yōu)缺點(diǎn),判別模型實(shí)時(shí)性更好,生成模型魯棒性更好。為了充分利用生成模型和判別模型各自的優(yōu)勢(shì),已經(jīng)出現(xiàn)了結(jié)合使用生成模型和判別模型的目標(biāo)跟蹤算法[7,14-15]。
Compressive Tracking(CT)算法[12]是一種判別跟蹤算法,它使用矩形窗口表示跟蹤結(jié)果,窗口內(nèi)的像素大部分來(lái)自目標(biāo),小部分來(lái)自背景。當(dāng)在窗口中提取稀疏局部Haar-like特征時(shí),背景中的像素會(huì)影響算法的魯棒性。無(wú)論是對(duì)于目標(biāo)還是對(duì)于背景,全局模板都是清晰明白的,因此更適用于判別模型。為了提高CT算法的魯棒性,本文提出了一種融合全局灰度模板的改進(jìn)CT算法。首先構(gòu)建一個(gè)稀疏Haar-like特征表觀模型M1,然后構(gòu)建一個(gè)全局灰度直方圖表觀模型M2,將M1和M2這兩種表觀模型結(jié)合起來(lái)用于跟蹤算法。實(shí)驗(yàn)表明融合全局灰度模板的改進(jìn)CT算法與CT算法相比,提高了魯棒性,減輕了漂移問(wèn)題。
本文算法在構(gòu)建表觀模型時(shí)使用了稀疏Haar-like特征和歸一化灰度直方圖特征。
在構(gòu)建稀疏Haar-like特征表觀模型M1時(shí),首先利用一個(gè)矩陣R在窗口中隨機(jī)提取稀疏Haar-like特征,其公式如下:
其中 R∈?n×m(n<<m)是基于壓縮感知理論[6,9]構(gòu)建的一個(gè)非常稀疏的隨機(jī)投影矩陣,X∈?m×1是窗口列向量,V∈?n×1為窗口列向量經(jīng)過(guò)R投影之后的Haar-like特征列向量。矩陣R的定義方法直接關(guān)系到表觀模型的性能,文獻(xiàn)[12]中的矩陣R定義如下:
其中s等概率在2、3、4中隨機(jī)選取。本文算法中詳細(xì)的稀疏Haar-like特征提取公式如下:
其中 Haari,k表示在某個(gè)窗口中提取第i組Haar-like特征時(shí)所提取到的第 k個(gè)Haar-like特征,i=1,2,…,50,k=1、2、3、4。由公式(3)可知窗口的稀疏Haar-like特征就是s個(gè)矩形窗口的積分圖像的加權(quán)之和,如圖1所示。
圖1 稀疏Haar-like特征提取示意圖
在構(gòu)建稀疏Haar-like表觀模型M1的過(guò)程中,本文算法使用的運(yùn)動(dòng)模型是密集抽樣方法,并且假設(shè)使用矩陣R提取的稀疏Haar-like特征相互獨(dú)立并滿足高斯分布,于是可用高斯分布密度函數(shù)來(lái)衡量圖像樣本的分布。
在構(gòu)建全局灰度直方圖表觀模型M2時(shí)使用歸一化灰度直方圖特征,這里仍然使用M1模型中的正負(fù)樣本和預(yù)測(cè)樣本,首先計(jì)算t時(shí)刻跟蹤目標(biāo)的歸一化灰度直方圖特征historigin、t+1時(shí)刻預(yù)測(cè)樣本的歸一化灰度直方圖特征histall,使用historigin和histall之間的巴氏距離來(lái)衡量預(yù)測(cè)樣本和跟蹤目標(biāo)的相似度。本文算法流程如下:
輸入 視頻序列中第t幀圖像、跟蹤目標(biāo)位置Lt。
步驟1在輸入視頻序列的第t幀圖像中已知跟蹤目標(biāo)位置Lt。Lt包含4個(gè)元素,分別是窗口左上角的x坐標(biāo)、y坐標(biāo)、窗口的寬度w、高度h。計(jì)算Lt對(duì)應(yīng)窗口的歸一化灰度直方圖特征historigin。
步驟2在Lt周圍一個(gè)圓形區(qū)域內(nèi)基于公式(4)提取正樣本若干:
對(duì)Dα中的正樣本使用矩陣R提取Haar-like特征。求出所有正樣本的均值和方差,分別記為μ1和σ1。
步驟3在Lt周圍一個(gè)環(huán)形區(qū)域內(nèi)基于公式(5)提取負(fù)樣本若干:
其中 α<?<β。對(duì) D?,β中的負(fù)樣本使用矩陣 R提取Haar-like特征。求出所有負(fù)樣本的均值和方差,分別記為 μ0和 σ0。
步驟4在輸入視頻序列的第t+1幀圖像中,在Lt周圍一個(gè)圓形區(qū)域內(nèi)基于公式(6)提取預(yù)測(cè)樣本:
對(duì)Dγ中的預(yù)測(cè)樣本使用矩陣 R提取Haar-like特征。使用矩陣x表示預(yù)測(cè)樣本的Haar-like特征。對(duì)每個(gè)預(yù)測(cè)樣本求歸一化灰度直方圖特征histall。
步驟5利用正樣本的均值μ1和方差σ1、負(fù)樣本的均值 μ0和方差σ0構(gòu)建預(yù)測(cè)樣本的高斯分布函數(shù) p(vi|y=1)和 p(vi|y=0),公式分別如下:
步驟6利用樸素貝葉斯準(zhǔn)則求出衡量預(yù)測(cè)樣本與跟蹤目標(biāo)相似度的第一個(gè)標(biāo)準(zhǔn)H(v),計(jì)算公式如下:
步驟7計(jì)算histall和historigin之間的巴氏距離HD,把它作為衡量預(yù)測(cè)樣本與跟蹤目標(biāo)相似度的第二個(gè)標(biāo)準(zhǔn),公式如下:
步驟8在選擇預(yù)測(cè)樣本時(shí),綜合考慮預(yù)測(cè)樣本在模型M1中的H(v)值以及在模型M2的HD值,把這兩個(gè)值的乘積Hdv作為衡量預(yù)測(cè)樣本和跟蹤目標(biāo)相似度的最終標(biāo)準(zhǔn),計(jì)算公式如下:
步驟9在輸入視頻序列的第t+1幀圖像中,重復(fù)步驟2、3,根據(jù)公式(12)、(13)更新公式(7)、(8)的參數(shù)。
式中φ是一個(gè)學(xué)習(xí)參數(shù),表示稀疏Haar-like表觀模型更新的程度。
步驟10重復(fù)步驟1~9。
輸出 跟蹤位置Lt+1、分類器參數(shù)。
實(shí)驗(yàn)中對(duì)本文算法、CT算法進(jìn)行了比較。兩種算法對(duì)David視頻序列和sylv視頻序列進(jìn)行跟蹤的部分結(jié)果分別為圖2、圖3,其中,實(shí)線框代表CT算法的跟蹤結(jié)果,虛線框代表本文算法的跟蹤結(jié)果。David視頻序列和sylv視頻序列的跟蹤誤差曲線分別為圖4和圖5,實(shí)線表示CT算法,點(diǎn)線表示本文算法。
CT算法簡(jiǎn)單、實(shí)時(shí)性好,但是在提取局部Haar-like特征時(shí),有可能會(huì)提取背景中的Haar-like特征,導(dǎo)致算法魯棒性降低。本文算法在CT算法的基礎(chǔ)上,增加了一個(gè)全局灰度模板,所構(gòu)建的表觀模型更加具有判別能力,在一定程度上緩解了跟蹤結(jié)果的漂移。在David視頻序列中第69幀、第101幀、第175幀、第241幀、第297幀、第358幀圖像,在sylv視頻序列中第56幀、第144幀、第223幀、第297幀、第365幀、第430幀圖像,可以看到本文算法的跟蹤結(jié)果比CT算法魯棒性提高了。
圖2 對(duì)David視頻序列的跟蹤結(jié)果(第69、101、175、241、297、358幀)
圖3 對(duì)sylv視頻序列的跟蹤結(jié)果(第56、144、223、297、365、430幀)
圖4 David視頻序列的跟蹤誤差曲線圖
圖5 sylv視頻序列的跟蹤誤差曲線圖
針對(duì)文獻(xiàn)中CT算法的不足和全局灰度模板在判別跟蹤算法中的優(yōu)點(diǎn),提出一個(gè)增加全局灰度模板的改進(jìn)CT算法。在構(gòu)建表觀模型時(shí),首先使用局部稀疏Haar-like特征構(gòu)建一個(gè)表觀模型M1,然后使用全局歸一化灰度直方圖特征構(gòu)建一個(gè)表觀模型M2,把M1和M2共同用于跟蹤算法。對(duì)不同視頻序列的實(shí)驗(yàn)結(jié)果表明,改進(jìn)CT算法提高了魯棒性,減輕了漂移問(wèn)題。但是,全局灰度模板的引入必然會(huì)降低算法的實(shí)時(shí)性。如何更好地解決這個(gè)問(wèn)題是本文后續(xù)研究的重點(diǎn)。
[1]Yilmaz A,Javed O,Shah M.Object tracking:a survey[J].ACM Computing Survey,2006,38(4):1-45.
[2]郭巖松,楊愛(ài)萍,侯正信,等.壓縮感知目標(biāo)跟蹤[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(32):4-6.
[3]Adam A,Rivlin E,Shimshoni I.Robust fragments-based tracking using the integral histogram[C]//IEEE International Conference on Computer Vision and Pattern Recognition,2006.
[4]Ross D,Lim J,Lin R S,et al.Incremental learning for robust visual tracking[J].International Journal of Computer Vision,2008,77(1/3):125-141.
[5]Grabner H,Grabner M,Bischof H.Real-time tracking via online boosting[C]//British Machine Vision Conference,2006:47-56.
[6]Wrigh J T,Yang A Y,Ganesh A,et al.Robust face recognition via sparse representation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[7]Zhong Wei,Lu Huchuan,Yang M H.Robust object tracking via sparsity-based collaborative model[C]//IEEE International Conference on Computer Vision and Pattern Recognition,2012.
[8]Mei X,Ling H.Robust visual tracking using L1 minimization[C]//IEEE International Conferenceon Computer Vision,2009.
[9]Li H,Shen C,Shi Q.Real-time visual tracking using compressive sensing[C]//IEEE International Conference on Computer Vision and Pattern Recognition,2011:1305-1312.
[10]Avidan S.Ensemble tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(2):261-271.
[11]Babenko B,Yang M H,Belongie S.Visual tracking with online multiple instance learning[C]//IEEE International Conference on Computer Vision and Pattern Recognition,2009.
[12]Zhang K,Zhang L,Yang M H.Real-time compressive tracking[C]//European Confernece on Computer Vision,2012.
[13]朱秋平,顏佳.基于壓縮感知的多特征實(shí)時(shí)跟蹤[J].光學(xué)精密工程,2013,21(2):438-444.
[14]Yu Q,Dinh T B,Medioni G G.Online tracking and reacquisition using co-trained generative and discriminative trackers[C]//European Conference on Computer Vision,2008.
[15]Santner J,Leistner C,Saffari A,et al.PROST:Parallel Robust Online Simple Tracking[C]//IEEE International Conference on Computer Vision and Pattern Recognition,2010.