邱曉鵬
(中南大學,湖南長沙,410083)
目標跟蹤領域從上世紀五十年代發(fā)展至今已經(jīng)出現(xiàn)了很多不同的框架和算法,經(jīng)過國內(nèi)外研究學者的潛心研究,目標跟蹤算法經(jīng)歷了從最開始的基于卡爾曼濾波的跟蹤算法到基于檢測或相關濾波的算法,然后到近幾年出現(xiàn)的與深度神經(jīng)網(wǎng)絡相結合的跟蹤算法的發(fā)展過程。在上世紀三十年代,隨著美國軍方設計的當代第一款跟蹤雷達SCR-268投入使用,目標跟蹤問題也隨之被人們提出。直到上世紀五十年到初期,Wax 首先提出了目標跟蹤的概念,這標志著目標跟蹤正式進入到科研領域之中。在之后的幾十年中,越來越多的優(yōu)秀算法被廣大研究學者提出。
隨著深度學習跟蹤算法的發(fā)展,將相關濾波與深度學習框架相融合,而后通過端到端的方式訓練出目標模型成為了一個熱點問題。在2018年,Park and Berg提出了元學習跟蹤算法和 Song提出的與生成式對抗網(wǎng)絡相結合的目標跟蹤算法,二者都希望能夠通過多方面融合獲取更好的跟蹤性能,同時也是深度學習跟蹤算法工作上的最新進展。通過與深度學習相結合,目標跟蹤算法在最近這些年里取得了跨越式的發(fā)展,但是深度學習需要使用大量的數(shù)據(jù)來訓練模型,在跟蹤過程中所使用的樣本往往只有連續(xù)視頻序列的第一幀,這導致了訓練樣本數(shù)量的匱乏,并且在卷積神經(jīng)網(wǎng)絡中,隨著網(wǎng)絡層次的逐步加深,會逐步丟失目標的位置信息,這對跟蹤任務反而有著負面的影響,過深的網(wǎng)絡反而會導致跟蹤任務的失敗,如何在深度網(wǎng)絡中充分的保留住目標的位置信息是深度學習在目標跟蹤上應用的一個難點。
隨著目標跟蹤技術的不斷發(fā)展,越來越多的優(yōu)秀算法被相繼提出,但是如何在復雜的場景下保證跟蹤器的精度依舊是一個不變的主題。跟蹤問題的主要難點在于:
(1)遮擋與消失:目標跟蹤主要研究的問題就是確定目標物體的運動軌跡,目標在運動時極有可能被障礙物所遮擋導致目標物體的消失或者是部分消失,這一問題是跟蹤領域最常面對的問題之一。當目標被遮擋時,那么背景信息也會出現(xiàn)在跟蹤框中,這就會對跟蹤器的在線更新產(chǎn)生負面的影響,導致跟蹤器漂移丟失目標,同理,如果目標消失,那么所帶來的影響會更為巨大。如何在目標被遮擋或消失后重新調(diào)整跟蹤器是目標跟蹤研究的一大難點。
(2)背景復雜多變:目標跟蹤主要研究的內(nèi)容就是區(qū)分目標與背景,目標以外的內(nèi)容都被當做背景處理,所以背景問題也是目標跟蹤領域研究的重要問題之一。比如在背景與目標極為相似的情況下,就可能導致跟蹤器的漂移而丟失目標。在復雜背景下跟蹤器的建模難度也隨之提高,如何讓跟蹤器適應復雜多變的背景內(nèi)容是目標跟蹤領域研究的一大難點。
(3)目標外觀多變性:在目標跟蹤過程中,目標的外觀很可能會因外界環(huán)境的變化而發(fā)生改變,比如光照的因素,光強過強或過弱都會影響目標的曝光度,或是目標顏色的變化、視角的變化和目標形狀的變化,這些都是跟蹤過程中可能 遇到的問題,這些問題也會導致跟蹤器的漂移以至于丟失目標,所以在目標外觀發(fā)生改變的情況下,如何使跟蹤器能夠準確地跟蹤到目標是目標跟蹤領域的一大難點。
(4)運動模糊:在實際場景下的目標跟蹤,很有可能會遇到攝像儀器的抖動或是傳感器出現(xiàn)故障等問題,該類問題很有可能會導致目標在當前畫面成像模糊,成像模糊會直接導致跟蹤器的模板與目標匹配不穩(wěn)定,就可能導致跟蹤器建模的精確度降低從而導致跟蹤失敗。當檢測到模糊圖像時,通常需要用到復原技術使模糊圖像盡可能的清晰,但還原后的圖像成像效果會大幅度的降低,這也會影響到跟蹤器的準確識別,所以如何處理運動模糊問題也是跟蹤過程中的一個重要環(huán)節(jié)。
(5)尺度變化:尺度變化往往發(fā)生在目標與觀測儀器的相對位置發(fā)生改變時而產(chǎn)生,在目標與儀器之間的距離發(fā)生改變時,目標在圖像上的占比也會發(fā)生變化,如果跟蹤框不能自適應的根據(jù)目標尺度的變化而變化,那么就可能導致跟蹤框不能完全覆蓋目標或是跟蹤框內(nèi)出現(xiàn)太多背景內(nèi)容,這些都會影響到跟蹤器的下一步更新,嚴重時會是跟蹤框偏移導致目標丟失,所以如何實現(xiàn)跟蹤框自適應的隨著目標尺度變化而變化就顯得尤為重要。
(6)姿態(tài)變化:姿態(tài)變化問題多在跟蹤生物時發(fā)生,如跟蹤目標為人或動物時,人或者動物可能會改變當前的動作,導致姿態(tài)變化,如何使目標發(fā)生姿 態(tài)變化時依舊能跟得上目標,也是一個常見的問題,如:運動中的人或動物。
目標跟蹤任務是指在一個連續(xù)的視頻序列中,在起始幀處采用人工標注的方式標識目標物體的初始位置,然后在后續(xù)的幀中由算法自動對目標物體進行實時定位一直到跟蹤任務結束。隨著目標跟蹤算法的逐步發(fā)展,當前的目標跟蹤算法幾乎都是與深度學習相結合的,其主要利用深度學習網(wǎng)絡強大的表征能力提取目標特征,在跟蹤過程中使深度跟蹤器能夠更好的捕捉到目標。對于深度學習,可以理解為是一種通過給定信息求預期解的過程,這種過程通過深度網(wǎng)絡實現(xiàn),在目標跟蹤領域中,深度網(wǎng)絡的輸入就是連續(xù)視頻的首幀圖像中目標所在的位置坐標,對應輸出就是后續(xù)幀中目標的位置坐標,跟蹤過程就對應了深度網(wǎng)絡的推理過程,而輸出目標位置的精確度就代表了深度網(wǎng)絡性能的好壞。對于深度跟蹤網(wǎng)絡而言,本文第二章所述的相關難點依然是存在的,針對本文第二章多闡述的六個難點問題,本文對與深度學習相結合的跟蹤算法提出了以下三點思考內(nèi)容。
在計算機視覺很多領域中,如人臉識別,目標檢測等領域內(nèi)深度卷積神經(jīng)網(wǎng)絡都取得了良好的效果,但在目標跟蹤領域尚未取得同等突出的效果,主要是因為在目標識別,檢測這一系列任務中,有著海量的數(shù)據(jù)集可供網(wǎng)絡訓練,并且檢測和識別都具有一定的規(guī)律性,但是目標跟蹤領域存在著獨有的問題。首先,目標跟蹤問題具有自己的獨特性,目標檢測中要清晰的分辨出目標的類型不同,在目標跟蹤任務中,只有目標和背景這兩類圖像,而這就產(chǎn)生了一個棘手的問題,比如在某一視頻序列中,跟蹤的目標可能在另一視頻中變成背景,這就為網(wǎng)絡訓練帶來了一定的難度。其次,對于目標跟蹤而言,隨著使用的卷積神經(jīng)網(wǎng)絡深度加深,目標的語義信息逐漸強化,然而可供定位的描述信息卻逐漸弱化,反而容易對目標跟蹤任務產(chǎn)生負面的影響。綜上原因就造成了深度神經(jīng)網(wǎng)絡在跟蹤領域內(nèi)的應用變得更有難度。所以,為了更好地發(fā)掘卷積神經(jīng)網(wǎng)絡在目標跟蹤上的表達能力,在大型數(shù)據(jù)集上進行跟蹤的訓練就顯得尤為重要,但大型數(shù)據(jù)集又涉及到廣泛的目標和背景組合,并且在不同的視頻序列中所涉及到的目標物體又會具有不同類別的標簽、移動方式以及外形,跟蹤算法在每一個視頻序列上所遇到的問題也會不同,比如:遮擋、形變、光照變化或者是運動模糊等等,所以要使跟蹤算法能夠很好的適用于各種情況就顯得十分必要。基于上述內(nèi)容可知,并不是越深的網(wǎng)絡在跟蹤目標時就具有越好的性能,反而淺層的網(wǎng)絡可以更好的保留目標物體的位置信息,并且考慮到跟蹤算法的實時性,在跟蹤過程中顯然在保證跟蹤精度的同時算法的計算復雜度越低越好,所以淺層網(wǎng)絡在跟蹤問題中反而具有更好的適應性。
目標跟蹤是在給定的初始幀處目標邊界框,而后在后續(xù)幀上精確定位目標對象的任務。與其他的目標識別任務(如目標分類和檢測)相比,在目標跟蹤過程中,實例級別是一個重要因素,也就是跟蹤任務所要跟蹤的目標,它可以是某個特定的人員或者特定的產(chǎn)品。因此,一個效果良好的目標跟蹤器不僅應該能夠從背景和其他類別的目標中準確標識出跟蹤目標,而且還應該能夠在屬于同一類別的類似干擾源中識別出特定目標?;谏鲜鰞?nèi)容,本文提出在目標跟蹤網(wǎng)絡中,可以通過突出目標抑制背景的方式使深度網(wǎng)絡更好的提取到目標樣本的信息,在在線跟蹤的過程中就可以進一步的提升跟蹤器的精度。
一般情況下,在實際跟蹤過程中,跟蹤網(wǎng)絡還會通過利用當前跟蹤目標的有限樣本信息對整個模型進行微調(diào),這一做法可以使模型對當前的目標具有更強的辨識度,這種做法也在一定程度上提升了跟蹤算法的精度,也減少了跟蹤網(wǎng)絡對于目標訓練樣本的需求。但是在實際的跟蹤過程中極有可能出現(xiàn)目標被遮擋或者發(fā)生嚴重形變的情況,在這類圖像中,目標的信息已經(jīng)出現(xiàn)變化,如果采用這類圖像對深度跟蹤網(wǎng)絡模型進行參數(shù)更新,反而可能會使得跟蹤器的精度降低,所以,也可以通過對跟蹤時過往圖像信息的篩選,剔除掉目標受到干擾的樣本來進一步提升深度跟蹤器的精度。