梁文輝,宋 濤,葉永達(dá)
(1.解放軍31004部隊(duì),北京 100094;2.解放軍信息工程大學(xué),河南 鄭州 450000;3.解放軍陸軍工程大學(xué),江蘇 南京 210001)
視覺跟蹤的主要任務(wù)是在視頻序列中連續(xù)得到感興趣目標(biāo)的運(yùn)動(dòng)軌跡、形狀和速度等狀態(tài),在智能交通、自動(dòng)監(jiān)控、精確制導(dǎo)等領(lǐng)域應(yīng)用廣泛。近年來,跟蹤算法研究成果層出不窮,但由于現(xiàn)實(shí)目標(biāo)變化靈活、偽目標(biāo)干擾、遮擋及復(fù)雜背景等原因,使得構(gòu)建高精度、高穩(wěn)定性的視覺跟蹤算法仍然亟待研究。
基于一階馬爾可夫模型的貝葉斯濾波將視覺跟蹤轉(zhuǎn)化為求解目標(biāo)狀態(tài)最大后驗(yàn)概率密度估計(jì)問題或后驗(yàn)概率的期望估計(jì)問題,為視覺跟蹤提供了一個(gè)非常優(yōu)秀的空時(shí)融合框架。但是,近年來出現(xiàn)的大多主流視覺跟蹤方法均致力于研究目標(biāo)觀測(cè)模型[1-4],僅將動(dòng)態(tài)模型和目標(biāo)更新視為簡(jiǎn)單的輔助機(jī)制。文獻(xiàn)[5]結(jié)合Mean-Shift算法提出基于核密度估計(jì)的貝葉斯濾波跟蹤方法,利用多線索融合提高了觀測(cè)模型的可靠性,但Mean-Shift易陷入局部極值,無法有效預(yù)測(cè)目標(biāo)運(yùn)動(dòng)信息。文獻(xiàn)[6]結(jié)合生成和判別模型提出魯棒的協(xié)作外觀模型,該類方法難點(diǎn)在于如何平衡學(xué)習(xí)階段兩類模型訓(xùn)練樣本集之間的比重,過度依賴正樣本易導(dǎo)致模型過擬合,過度依賴負(fù)樣本則會(huì)降低模型的泛化能力。文獻(xiàn)[7]利用像素、超像素和整體目標(biāo)建立多級(jí)外觀模型,增加了觀測(cè)模型的匹配精度,但該方法以整體目標(biāo)的似然匹配來預(yù)測(cè)目標(biāo)的運(yùn)動(dòng)信息,易陷入局部極值。上述文獻(xiàn)均過度關(guān)注目標(biāo)外觀的空間特性而忽略了目標(biāo)的時(shí)間運(yùn)動(dòng)特征,破壞了貝葉斯框架的空時(shí)融合機(jī)制。
針對(duì)上述問題,文中在間隔貝葉斯估計(jì)框架[8]的基礎(chǔ)上結(jié)合空時(shí)運(yùn)動(dòng)邊界提出一種在線學(xué)習(xí)的視覺跟蹤方法,充分利用時(shí)間運(yùn)動(dòng)預(yù)測(cè)模型、空間匹配觀測(cè)模型和模型更新的各自優(yōu)勢(shì),將視覺跟蹤轉(zhuǎn)化為運(yùn)動(dòng)目標(biāo)檢測(cè)、關(guān)聯(lián)和更新的空時(shí)多線索融合機(jī)制。不同于傳統(tǒng)運(yùn)動(dòng)模型提供的目標(biāo)中心點(diǎn)在下一幀可能出現(xiàn)的位置坐標(biāo),文中利用色度反投影和時(shí)間顯著度計(jì)算目標(biāo)的運(yùn)動(dòng)邊界,預(yù)測(cè)目標(biāo)可能出現(xiàn)的區(qū)域、形狀和尺度,并能去除背景干擾,提高外觀模型似然匹配的可靠性。建立整體和局部雙層外觀模型,根據(jù)間隔似然模型采用多尺度匹配原則尋找最優(yōu)的目標(biāo)框選窗口,并利用局部模型判斷目標(biāo)的遮擋狀態(tài)。在模型更新階段,根據(jù)整體模型和局部分塊模型的匹配權(quán)重提出交叉限制的在線更新方法,能夠有效處理長(zhǎng)期和短期的跟蹤場(chǎng)景。
文獻(xiàn)[8]將間隔分析應(yīng)用于視覺目標(biāo)跟蹤,提出基于間隔貝葉斯估計(jì)的跟蹤框架(如式(1)所示),但該方法通過預(yù)設(shè)高斯函數(shù)來近似狀態(tài)間隔的轉(zhuǎn)移模型,無法真實(shí)反映目標(biāo)運(yùn)動(dòng)和尺度變化。
(1)
(2)
在視覺跟蹤中,間隔觀測(cè)模型是為了度量預(yù)測(cè)狀態(tài)間隔與觀測(cè)值之間的似然程度,如式(3)所示。在預(yù)測(cè)狀態(tài)間隔的空間范圍內(nèi),文中首先利用多尺度整體外觀候選模型尋找匹配權(quán)值最大的目標(biāo)窗口,然后通過局部分塊匹配判斷目標(biāo)的外觀變化和遮擋狀態(tài),并為模型更新提供線索。
(3)
感興趣目標(biāo)的運(yùn)動(dòng)邊界是十分重要的空時(shí)結(jié)構(gòu)信息,其精確反映了目標(biāo)的位置、形狀和尺度變化,并能完全去除背景干擾;尤其對(duì)非剛性目標(biāo)而言,只有運(yùn)動(dòng)邊界內(nèi)的目標(biāo)外觀信息才是真實(shí)的前景目標(biāo)(true positives,TP),而運(yùn)動(dòng)邊界和跟蹤窗口之間的像素都屬于背景(true negatives,TN)。但在實(shí)際應(yīng)用環(huán)境中卻很難捕捉到可靠的運(yùn)動(dòng)邊界。
(4)
(5)
數(shù)據(jù)注意力模型體現(xiàn)了目標(biāo)空間特性,文中采用文獻(xiàn)[9]提出的基于內(nèi)容感知的空間顯著度檢測(cè)方法,并根據(jù)簡(jiǎn)單線性迭代聚類算法(simple linear iterative clustering,SLIC)[10]和第一級(jí)狀態(tài)間隔確定像素子塊的尺度。
s.t.xi∈Carea
(6)
圖1 目標(biāo)運(yùn)動(dòng)邊界示意圖
SS/T(xi)=γt·I(xi)+(1-γt)·Sr(xi)
(7)
(8)
目標(biāo)運(yùn)動(dòng)邊界是文中算法的核心,為驗(yàn)證算法有效性,選擇YMB(YouTube motion boundaries dataset)[12]中帶有真實(shí)目標(biāo)運(yùn)動(dòng)邊界檢測(cè)結(jié)果的公共標(biāo)準(zhǔn)圖像序列進(jìn)行測(cè)試,采用CVPR2013(computer vision and pattern recognition dataset)[13]提供的視覺跟蹤算法通用評(píng)估體系,采集了50段常用公開標(biāo)準(zhǔn)視頻測(cè)試序列,并為每段序列標(biāo)注屬性及真實(shí)目標(biāo)的位置尺度。為驗(yàn)證文中算法在處理相似背景干擾和尺度變化方面的優(yōu)越性,與CVPR2013數(shù)據(jù)庫中三類具有代表性的跟蹤算法SCM[6]、KMS[14]和TLD[15](如表1所示)進(jìn)行了兩組對(duì)比實(shí)驗(yàn)。所有相關(guān)實(shí)驗(yàn)都是在Intel雙核2.2 GHz CPU、2.0 GB內(nèi)存的PC平臺(tái)上,利用C/C++、Matlab和OpenCV函數(shù)庫實(shí)現(xiàn)的。
表1 三類代表性算法SCM、KMS、TLD和文中算法的跟蹤策略
通過中心點(diǎn)跟蹤誤差dt和目標(biāo)覆蓋率rt來定量評(píng)價(jià)跟蹤算法的有效性。
(9)
實(shí)驗(yàn)1定性分析了文中所提目標(biāo)運(yùn)動(dòng)邊界檢測(cè)算法的檢測(cè)性能,場(chǎng)景選擇YMB數(shù)據(jù)庫中五類目標(biāo)。從圖2(a)~(c)可以看出,對(duì)于背景單一且目標(biāo)與背景對(duì)比度較大的場(chǎng)景,文中算法能夠完全擬合目標(biāo)邊界。對(duì)于背景紋理比較復(fù)雜的應(yīng)用場(chǎng)景,文中算法可能會(huì)融入錯(cuò)誤的背景邊緣,但對(duì)整體跟蹤框架而言,背景邊緣所產(chǎn)生的影響只是擴(kuò)大了預(yù)測(cè)狀態(tài)間隔上限,不會(huì)對(duì)后續(xù)觀測(cè)模型起決定性作用,如圖2(d)所示。相似背景干擾是跟蹤算法的一大難點(diǎn),文中算法捕獲的目標(biāo)運(yùn)動(dòng)邊界從很大程度上去除了相似背景干擾,即使在極度相似的背景中依然能夠有效區(qū)分目標(biāo)和背景,如圖2(e)中的白色運(yùn)動(dòng)服和白色冰面。
圖2 文中算法效果
實(shí)驗(yàn)2定性分析了SCM、KMS、TLD和文中算法在相似背景、尺度變化應(yīng)用場(chǎng)景下的跟蹤性能,如圖3所示。圖3(a)是數(shù)據(jù)庫ChangeDnet2014的“snowFall”視頻序列,其難點(diǎn)在于:感興趣目標(biāo)尺度逐漸減小且與背景非常相似。從圖3(a)可看出,KMS在跟蹤過程中逐漸丟失目標(biāo),無法捕捉目標(biāo)尺度變化;TLD在學(xué)習(xí)過程中無法有效區(qū)分正負(fù)樣本,導(dǎo)致跟蹤窗口逐漸偏離;SCM和文中算法都能隨著目標(biāo)尺度變化自適應(yīng)調(diào)整跟蹤窗口大小,但文中算法的跟蹤窗口能更好擬合目標(biāo)真實(shí)邊界。圖3(b)是數(shù)據(jù)庫VOT2015的“iceskater1”視頻序列,其難點(diǎn)在于:感興趣目標(biāo)尺度隨機(jī)變化且存在大量相似背景信息。從圖3(b)可以看出,只有文中算法能夠有效捕捉到細(xì)微的目標(biāo)運(yùn)動(dòng)邊界。
圖3 SCM、KMS、TLD和文中算法在相似背景干擾和尺度變化環(huán)境下的跟蹤結(jié)果
圖4量化反映了SCM、KMS、TLD和文中算法在實(shí)驗(yàn)2中的跟蹤性能,SCM和TLD均無法處理嚴(yán)重的相似背景干擾和連續(xù)的非剛性尺度變化,dt和rt指標(biāo)迅速惡化。如圖4(a)所示,雖然整個(gè)跟蹤過程SCM和文中算法dt指標(biāo)比較接近,但文中算法rt指標(biāo)優(yōu)于SCM并且rt的平均值大于75%,說明文中算法能夠很好地?cái)M合目標(biāo)邊緣、去除相似背景干擾。從圖4(b)可以看出,文中算法與SCM的dt和rt指標(biāo)比較接近且rt的平均值≈45%,這是因?yàn)榉莿傂阅繕?biāo)跟蹤窗口包含大量背景像素;但圖3(b)已展示了文中算法能夠更好擬合目標(biāo)邊緣。
圖4 實(shí)驗(yàn)2的定量分析圖
文中提出了一種基于間隔貝葉斯估計(jì)框架的在線視覺跟蹤方法。利用目標(biāo)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的雙層視覺注意力模型計(jì)算感興趣目標(biāo)在下一幀的運(yùn)動(dòng)邊界,有效去除了背景干擾并為觀測(cè)模型提供了位置和尺度等線索,提高了多尺度模型匹配的可靠性。根據(jù)目標(biāo)局部子塊的匹配權(quán)值提出了基于交叉限制的在線更新機(jī)制,能夠長(zhǎng)時(shí)間保持目標(biāo)整體模型的同時(shí)利用子塊實(shí)時(shí)捕捉目標(biāo)外觀的局部變化。實(shí)驗(yàn)結(jié)果表明,相較于SCM、KMS和TLD三類具有代表性的跟蹤算法,文中算法在相似背景干擾和尺度變化的應(yīng)用場(chǎng)景中存在明顯優(yōu)勢(shì),能夠有效擬合目標(biāo)邊界,找到最優(yōu)的目標(biāo)框選窗口。