李希
摘要:視頻流中目標(biāo)的長時間跟蹤問題是計算機視覺領(lǐng)域中極具挑戰(zhàn)性的課題。在視頻幀中,目標(biāo)可由其位置及自身特征等信息進行描述。目前大多數(shù)跟蹤算法利用滑動窗口機制,對每個窗口進行簡單的特征提取,以實現(xiàn)目標(biāo)的檢測與跟蹤。出于降低算法計算復(fù)雜度的考慮,很多跟蹤算法均使用弱特征描述目標(biāo),因而導(dǎo)致無法解決目標(biāo)旋轉(zhuǎn)、尺度變換和光照變化等問題。在最近出現(xiàn)的目標(biāo)檢測與識別算法中,顏色特征已展示出其優(yōu)異的性能,它們能很好地解決光照變化等問題。但是在滑動窗口機制下,窗口數(shù)量非常大,導(dǎo)致基于顏色特征的計算復(fù)雜度過高,直接影響跟蹤算法的實時性能。本論文基于TLD算法的框架體系,提出利用BIN-NST算法對窗口進行篩選,大幅度減少候選窗口數(shù)量,在此基礎(chǔ)上能夠高效地利用顏色特征對目標(biāo)進行檢測與跟蹤,解決了在光線驟變的情況下出現(xiàn)的跟蹤失敗的問題。
關(guān)鍵詞:視頻流;跟蹤;TLD算法
1. 引言
視頻中目標(biāo)物體的長時間跟蹤是計算機視覺領(lǐng)域一個非常具有挑戰(zhàn)的問題。視頻跟蹤在許多應(yīng)用中,特別是人機交互,視頻監(jiān)控,以及機器人中都扮演了重要的角色。但是由于光照變化,局部遮擋,雜亂的背景,形狀變化等因素,使跟蹤問題更加復(fù)雜化。
近期出現(xiàn)的視頻跟蹤算法,主要分為三類:基于特征、基于外表模型和基于結(jié)構(gòu)信息?;谔卣鞯母櫵惴ㄖ?,所使用的特征包括多種不同的圖象屬性特征,如像素值[1]、顏色信息[2,3,4,5]、紋理描述[6,7]等。外表模型主要有顏色分布特征[3,4]、子空間描述[1,8]、支持向量機(SVM)[9]、Boosting[6,7,10]、特征稀疏描述[11,12,13]等。逐漸地越來越多的跟蹤算法開始使用目標(biāo)結(jié)構(gòu)信息[2,14,15,16,17,18]。融入目標(biāo)結(jié)構(gòu)信息的跟蹤算法對目標(biāo)變形、遮擋有較強的魯棒性。
基于特征的跟蹤算法中,大部分使用方型模板提取特征信息描述目標(biāo)。Lim等[1]提出使用增量子空間模型描述目標(biāo)的方法,在很大程度上增強了算法對光照變化的魯棒性。為了增強算法的魯棒性,Kwon等[19]將跟蹤器分解成為幾個更小的跟蹤器。Wen等[8]在跟蹤算法中融入時空上下文特征信息,Mahadevan等[20]利用圖象顯著特征信息以改進跟蹤算法。這些跟蹤算法都沒有考慮目標(biāo)的變形、遮擋問題。
后來涌現(xiàn)出一些能夠較好地解決遮擋問題的跟蹤算法。Adam等[2]將目標(biāo)分割成水平和垂直方向的子塊,這種處理方法對部分遮擋具有較強的魯棒性。文獻[11,12,13]采用稀疏描述方法從外表特征中重建目標(biāo)信息,也較好地解決了遮擋問題。Babenko 等[22]采用多實例學(xué)習(xí)策略來減少遮擋對跟蹤的影響。Grabner等[23]利用上下文信息解決全遮擋問題,取得了較好的實驗結(jié)果。然而,這些算法卻忽視了目標(biāo)的變形問題。
為了真正有效地解決目標(biāo)變形、遮擋問題,近期出現(xiàn)了一些綜合性的跟蹤算法,如在外表模型中融入時空特征信息、上下文先驗信息等,以期達到更魯棒有效的跟蹤性能?;诜侄蔚母櫰?sup>[29]使用多個局部塊直方圖描述目標(biāo),融合了目標(biāo)的內(nèi)部結(jié)構(gòu)信息,能很好的處理部分遮擋。然而,它的模板并不隨著視頻序列的變化而進行修正,因而難于跟蹤有外表變形的目標(biāo)。另外一種處理方式是在跟蹤過程中融入目標(biāo)檢測模塊[30,31,32]。利用檢測模塊實時地更新外表模型,這種算法在目標(biāo)脫離跟蹤范圍后,仍能重新捕獲到目標(biāo)。但這些基于檢測的跟蹤器容易被具有相似外表的目標(biāo)所誤導(dǎo)。對于在無約束環(huán)境下的長時間跟蹤任務(wù),需要融入一些空間先驗信息以增強算法的魯棒性。Yang等設(shè)計了一種上下文敏感的跟蹤器[33](Context-Aware Tracker:CAT)解決了目標(biāo)漂移問題,上下文先驗信息是一些容易跟蹤且與目標(biāo)運動一致的輔助性目標(biāo)。
基于特征類的算法沒有較好的解決目標(biāo)變形及局部遮擋的問題;而基于外表模型的算法卻沒有較好的解決光照變化和局部遮擋問題?;诮Y(jié)構(gòu)信息的算法沒有較好的解決相似目標(biāo)的影響,以及光照變化的問題。
本文設(shè)計使用跟蹤與檢測相結(jié)合的體系結(jié)構(gòu),實現(xiàn)了一個長時間跟蹤算法。首先設(shè)計改進的BING算法(BIN-NST算法),使得在檢測器中最初的目標(biāo)候選窗口數(shù)量銳減至2000個左右,并且完全不影響目標(biāo)檢測性能。然后在此基礎(chǔ)上,在算法中采用lsh的強特征信息來描述候選窗口內(nèi)的目標(biāo)特征,較好地解決光照變化的問題。
Our contributions are as follows:
1 我們對bing算法進行了改進,原始的bing算法采用梯度作為特征
2 在跟蹤算法中融入強特征,有效的解決了光照不變形和旋轉(zhuǎn)不變性的問題
3 通過改進的bing與tld融合,在使用強特征的前提下仍然保證了跟蹤算法的實時性
2. 相關(guān)工作
2.1 跟蹤—學(xué)習(xí)—檢測算法(TLD)
TLD算法[38]主要討論研究視頻流中的目標(biāo)物體的長時間跟蹤問題。在一幅單獨的圖像幀中,目標(biāo)物體是由其位置和自身特征所表征的。在連續(xù)的視頻幀中,TLD算法能夠定位或者重新出目標(biāo)的位置。TLD由三個部分組成:跟蹤,學(xué)習(xí)和檢測。跟蹤器在視頻流中跟蹤目標(biāo)。檢測器使用滑動窗口機制找出目標(biāo),其結(jié)果可修正跟蹤器,并在跟蹤器失效的情況下使得該算法能繼續(xù)找到目標(biāo)。學(xué)習(xí)器通過PN約束把檢測器錯誤分類的正負(fù)樣本找出來,重新訓(xùn)練并對檢測器的所用到特征進行更新,保證收斂于目標(biāo)。TLD算法中開創(chuàng)了一種全新的學(xué)習(xí)方法(P-N學(xué)習(xí),Positive和Negative),這種方法通過一對約束來估計出錯誤。P約束就是找到被錯誤分類的正樣本,N約束找到被錯誤分類的負(fù)樣本。整個學(xué)習(xí)過程可以被看作是一個獨立的離散的動態(tài)過程模型,并且在該過程模型下發(fā)現(xiàn)學(xué)習(xí)器的效果得到了有效地提升。
參考文獻
[1]J. Lim,D. A. Ross,R.-S. Lin,and M.-H. Yang,“Incremental learning for visual tracking,” in Advances in Neural Information Processing?Systems 17. Cambridge,MA,USA:MIT Press,2004.
[2]A. Adam,E. Rivlin,and I. Shimshoni,“Robust fragments-based tracking using the integral histogram,” in Proc. IEEE Comput. Soc. Conf. CVPR,vol. 1. Jun. 2006,pp. 798–805.
[3]D. Comaniciu,V. Ramesh,and P. Meer,“Real-time tracking of non-rigid objects using mean shift,” in Proc. IEEE CVPR,vol. 2. Jun. 2000,pp. 142–149.