歐陽谷,鐘必能,白 冰,柳 欣,王 靖,杜吉祥
1(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021) 2(華僑大學(xué) 計(jì)算機(jī)視覺與模式識(shí)別重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361021)
視頻目標(biāo)跟蹤技術(shù)已經(jīng)廣泛用于智能交通、人機(jī)交互、車輛導(dǎo)航、軍事目標(biāo)定位等領(lǐng)域,具有很強(qiáng)的實(shí)用價(jià)值,是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)熱點(diǎn)研究課題,它具有多學(xué)科交叉性、重要的理論性、廣泛的實(shí)用性等特點(diǎn).雖然近些年目標(biāo)跟蹤研究取得了很大進(jìn)展,但是在現(xiàn)實(shí)的跟蹤場景中,由于目標(biāo)的不定向運(yùn)動(dòng)和攝像機(jī)成像條件的復(fù)雜多樣性等因素導(dǎo)致的目標(biāo)自身的變化(非剛性物體形變、尺度變化、姿態(tài)變化等)和外部環(huán)境因素(遮擋、光照變化、背景混雜等)的干擾,使得構(gòu)建一個(gè)魯棒的目標(biāo)跟蹤系統(tǒng)有效地處理上述各種復(fù)雜變化,依舊是個(gè)巨大的挑戰(zhàn).
目標(biāo)跟蹤可以簡單定義為:給定視頻幀中第一幀的目標(biāo)狀態(tài)(位置,方向等),來對隨后幀的目標(biāo)狀態(tài)進(jìn)行估計(jì)[1,2].一般來說,目標(biāo)跟蹤技術(shù)的研究主要是為了獲得目標(biāo)的運(yùn)動(dòng)軌跡和運(yùn)動(dòng)參數(shù),從而對后續(xù)的視頻內(nèi)容進(jìn)行語義上的理解(如:目標(biāo)識(shí)別、行為分析、場景理解等)提供可靠的數(shù)據(jù)基礎(chǔ).根據(jù)不同情況,如跟蹤目標(biāo)數(shù)量,攝像機(jī)數(shù)量,攝像機(jī)是否運(yùn)動(dòng)等,視頻目標(biāo)跟蹤問題可以分為很多類型,典型的有:單目標(biāo)跟蹤與多目標(biāo)跟蹤,單攝像機(jī)跟蹤與多攝像機(jī)跟蹤,固定攝像機(jī)跟蹤與運(yùn)動(dòng)攝像機(jī)跟蹤等[3].本文中我們主要關(guān)注于當(dāng)前主流的單攝像機(jī)單目標(biāo)跟蹤算法.
傳統(tǒng)的目標(biāo)跟蹤算法通常分為基于生成式模型和基于判別式模型來對目標(biāo)物體進(jìn)行表觀建模.基于生成式模型的目標(biāo)跟蹤算法是在上一幀目標(biāo)位置附近,依據(jù)某種先驗(yàn)分布檢測出候選目標(biāo),再對目標(biāo)區(qū)域進(jìn)行特征描述,再找出重構(gòu)誤差最小的候選區(qū)域作為當(dāng)前幀目標(biāo)的位置.基于判別式模型的目標(biāo)跟蹤算法伴隨著檢測一起進(jìn)行,主要是訓(xùn)練一個(gè)二值分類器,從檢測到的大量候選樣本中區(qū)分前景(目標(biāo))與背景,將打分最高的候選樣本作為目標(biāo)樣本,從而獲得目標(biāo)位置區(qū)域.以上兩類跟蹤方法,都涉及到一個(gè)關(guān)鍵問題:目標(biāo)表觀建模.而大部分傳統(tǒng)的目標(biāo)表觀建模方法都是在提取目標(biāo)物體的淺層特征上構(gòu)建,如HOG特征[4],SIFT特征[5],顏色特征[6],局部二值特征[7]等,這些人工設(shè)計(jì)的特征只適用于某些特定場景,在復(fù)雜場景中表現(xiàn)的并不盡如人意,致使構(gòu)建的跟蹤系統(tǒng)很難應(yīng)對現(xiàn)實(shí)跟蹤場景的需求,容易導(dǎo)致跟蹤目標(biāo)漂移,甚至跟蹤目標(biāo)丟失.
在2006年,受到人腦視覺機(jī)理的啟發(fā),多倫多大學(xué)Hinton教授[8]提出了深度學(xué)習(xí)的概念.深度學(xué)習(xí)是從機(jī)器學(xué)習(xí)中的人工神經(jīng)網(wǎng)絡(luò)發(fā)展出來的新領(lǐng)域,其結(jié)構(gòu)圖如圖1所示,其包含前饋傳播和反向傳播兩個(gè)過程,前饋傳播進(jìn)行特征空間的轉(zhuǎn)換,而反向傳播算法[9]進(jìn)行參數(shù)更新.相對于支持向量機(jī)[10,11]、在線Boosting[12,13]等淺層結(jié)構(gòu)的學(xué)習(xí)方法而言,深度學(xué)習(xí)通過堆疊多個(gè)網(wǎng)絡(luò)映射層,可以分別從網(wǎng)絡(luò)的寬度和深度上來構(gòu)建深度圖模型,它具有模型層次深、特征表達(dá)能力強(qiáng)的特點(diǎn),能自適應(yīng)地從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)當(dāng)前任務(wù)所需要的特征表達(dá),而且對于不同層特征具有不同的屬性,甚至可以利用這些不同層特征的特定屬性來應(yīng)對不同場景中的跟蹤任務(wù).同時(shí),層次化的深度網(wǎng)絡(luò)具有強(qiáng)大的函數(shù)逼近能力和泛化能力,無需先驗(yàn)知識(shí)來提取特征.近些年研究發(fā)現(xiàn),相比于傳統(tǒng)的手工特征,基于深度學(xué)習(xí)技術(shù)自動(dòng)學(xué)習(xí)到的層次化物體特征在很多計(jì)算機(jī)視覺任務(wù)中都表現(xiàn)的更魯棒.
圖1 深度學(xué)習(xí)技術(shù)基本框架Fig.1 Framework of the deep learning technology
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其借助于海量數(shù)據(jù)的優(yōu)勢在圖像分類[14-16]、目標(biāo)檢測[17-19]等諸多計(jì)算機(jī)視覺領(lǐng)域中取得了重大突破,同時(shí)也為研究人員利用深度學(xué)習(xí)方法來解決目標(biāo)跟蹤的各種難題提供了全新的視角.2013年以來,深度學(xué)習(xí)技術(shù)應(yīng)用到目標(biāo)跟蹤研究中同樣取得了不錯(cuò)的效果,從最初的使用深度網(wǎng)絡(luò)來提取自適應(yīng)特征,然后融合其他跟蹤策略來實(shí)現(xiàn)目標(biāo)跟蹤,發(fā)展到目前已經(jīng)能夠訓(xùn)練出端到端的深度網(wǎng)絡(luò)模型來直接預(yù)測目標(biāo)位置.研究者們已經(jīng)不滿足于最初的依靠深度學(xué)習(xí)技術(shù)來提取自適應(yīng)特征應(yīng)用到跟蹤問題上.目前,深度學(xué)習(xí)技術(shù)在目標(biāo)特征描述、預(yù)測目標(biāo)位置準(zhǔn)確率、圖像幀處理的速度等性能方面都有明顯的提高.越來越多的深度神經(jīng)網(wǎng)絡(luò)模型,如自動(dòng)編碼機(jī)(ADE)[20]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[21]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[22]、孿生(Siamese)網(wǎng)絡(luò)[23]等都應(yīng)用到了目標(biāo)跟蹤領(lǐng)域,并取得了不錯(cuò)的效果.
當(dāng)然,深度學(xué)習(xí)應(yīng)用到目標(biāo)跟蹤領(lǐng)域中時(shí)間不長,其中還有很多問題沒有解決,比如:如果雖然在速度上有提升,但可能還不夠?qū)崟r(shí);深度學(xué)習(xí)模型需要用大量訓(xùn)練樣本來訓(xùn)練模型,而對于跟蹤任務(wù)只有視頻序列的第一幀能夠拿來使用,所以存在訓(xùn)練樣本的缺乏的問題等;因而還有必要對基于深度學(xué)習(xí)的目標(biāo)跟蹤算法做進(jìn)一步的深入研究.
近幾年,也有國內(nèi)外同行總結(jié)了目標(biāo)跟蹤領(lǐng)域的相關(guān)研究現(xiàn)狀,如[1-3,24-29],但隨著大數(shù)據(jù)的時(shí)代的到來,深度學(xué)習(xí)技術(shù)發(fā)展迅速,并且應(yīng)用到目標(biāo)跟蹤領(lǐng)域的算法也在快速更新,因此我們在前人的基礎(chǔ)上,從不同角度和視野總結(jié)了當(dāng)前基于深度學(xué)習(xí)技術(shù)的目標(biāo)跟蹤算法的最新進(jìn)展.本文對目標(biāo)跟蹤算法的發(fā)展過程,研究現(xiàn)狀和未來發(fā)展趨勢做了一個(gè)討論,將首先回顧目標(biāo)跟蹤系統(tǒng)的關(guān)鍵技術(shù),其次重點(diǎn)闡述了目前最新的深度學(xué)習(xí)技術(shù)在目標(biāo)跟蹤領(lǐng)域中的應(yīng)用、發(fā)展、算法特點(diǎn)等.最后對深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域未來的發(fā)展趨勢進(jìn)行了分析與展望.
目標(biāo)跟蹤算法已經(jīng)發(fā)展了很多年,涌現(xiàn)出了大量優(yōu)秀的跟蹤算法.傳統(tǒng)的目標(biāo)跟蹤算法的工作流程如圖2所示,大致分為三個(gè)主要步驟:目標(biāo)物體表觀建模、搜索策略選取、模型更新.為了構(gòu)建一個(gè)穩(wěn)定的、魯棒的、實(shí)時(shí)的目標(biāo)跟蹤系統(tǒng),國內(nèi)外學(xué)者分別針對這三個(gè)關(guān)鍵技術(shù)展開了大量研究工作,并取得了眾多不俗的成果.
圖2 目標(biāo)跟蹤算法工作流程圖Fig.2 Workflow of the object tracking algorithm
目標(biāo)的表觀建模主要包括對目標(biāo)物體的外觀刻畫和觀測模型兩個(gè)部分.對目標(biāo)外觀刻畫即提取特征描述,觀測模型負(fù)責(zé)計(jì)算各候選區(qū)域的可信度.目標(biāo)的表觀建模決定了跟蹤模型是否能夠有效的應(yīng)對各種復(fù)雜的目標(biāo)表觀的變化,是跟蹤系統(tǒng)中的核心技術(shù).
在特征描述方面,特征描述能夠抽象出目標(biāo)的外觀,經(jīng)過一個(gè)映射過程,將原始圖像像素空間映射到一個(gè)維度可分的特征空間,魯棒的特征描述應(yīng)該具有以下性質(zhì):1)較強(qiáng)的泛化能力,能夠應(yīng)對各種遮擋、外觀變化等不確定因素;2)較高的區(qū)分性,模型能夠?qū)Ρ尘昂头悄繕?biāo)物體保持較好的判別性;3)較小的計(jì)算量,能夠達(dá)到跟蹤的實(shí)時(shí)要求.傳統(tǒng)跟蹤算法提取特征主要是基于人工設(shè)計(jì)特征如HOG特征[4]、SIFT特征[5]、LBP特征[6]等.這些手工特征屬于淺層特征范疇,帶有一定的先驗(yàn)知識(shí),特征提取速度快,容易實(shí)現(xiàn),計(jì)算量小,對于某些特定場景具有很好的表達(dá)能力和區(qū)分性.但泛化能力弱,不能從本質(zhì)上刻畫目標(biāo)物體,設(shè)計(jì)后不能自適應(yīng)外觀變化來應(yīng)對的復(fù)雜場景中的跟蹤任務(wù),特別是在目標(biāo)物體外觀發(fā)生劇烈的變化的時(shí)候,手工設(shè)計(jì)的特征已經(jīng)不能夠保證準(zhǔn)確的描述,最終導(dǎo)致模型“漂移”.由于實(shí)際場景中的目標(biāo)外觀變化具有高度非線性、動(dòng)態(tài)性、任務(wù)依賴性等特點(diǎn),而這些淺層特征提取器在目標(biāo)表觀模型上結(jié)構(gòu)簡單,從而提取的特征泛化能力不夠,很難滿足實(shí)際場景應(yīng)用.
如何從視覺樣例中構(gòu)建一個(gè)自適應(yīng)魯棒特征表達(dá)一直是一個(gè)亟待解決的問題.但近期的研究表明,深度學(xué)習(xí)技術(shù)通過模仿人腦視覺皮層的感知系統(tǒng)能夠很好的獲取目標(biāo)的外觀表達(dá),它通過多層的函數(shù)結(jié)構(gòu),多次非線性函數(shù)映射,提取目標(biāo)特征的工作機(jī)制符合人腦的視覺系統(tǒng)所觀察事物的原理,使得最后提取出來的特征高度抽象,包含豐富的語義信息,增加了區(qū)分度,這種深度特征模型增強(qiáng)了模型的特征表達(dá)能力.
一般來說,在提取完目標(biāo)物體特征之后,目標(biāo)表觀建??煞譃樯墒侥P秃团袆e式模型.
生成式模型主要是借助模型匹配思想,著重于對目標(biāo)本身的描述,提取目標(biāo)特征之后通過搜索候選區(qū)域最小化重構(gòu)誤差,也就是搜索最接近目標(biāo)的候選區(qū)域作為目標(biāo)對象.經(jīng)典的基于生成式模型的目標(biāo)跟蹤算法有:基于子空間模型算法[30,31]、基于混合高斯模型算法[32]、基于低秩和稀疏表示模型算法[33-35]、基于核模型算法[36]等.這類算法很大程度上依賴目標(biāo)物體歷史狀態(tài)的特征提取,來完善描述當(dāng)前幀目標(biāo)物體的能力,但是沒有充分利用目標(biāo)周邊的上下文信息,導(dǎo)致判別性不夠,在背景干擾、遮擋等復(fù)雜場景下是不夠魯棒的.
判別式模型主要是借助分類思想,判別式模型將目標(biāo)跟蹤問題看成一個(gè)二分類的問題,通過訓(xùn)練一個(gè)在線分類器,從不斷變化的局部運(yùn)動(dòng)背景中區(qū)分出目標(biāo)(前景)與背景,經(jīng)典的判別式目標(biāo)跟蹤算法有:基于嶺回歸跟蹤算法[37,38],基于多示例學(xué)習(xí)跟蹤算法[39],基于在線boosting學(xué)習(xí)跟蹤算法[12,13]、基于支持向量機(jī)跟蹤算法[10,11]等.判別式方式因?yàn)槟茱@著區(qū)分背景與目標(biāo)信息,對復(fù)雜場景表現(xiàn)更為魯棒,一直受到研究人員的追捧.但是如果訓(xùn)練出來的分類器判別性不夠,模型不穩(wěn)定,會(huì)累積跟蹤誤差導(dǎo)致發(fā)生模型漂移.判別式模型也沒有充分利用歷史幀目標(biāo)狀態(tài)在時(shí)間上的關(guān)聯(lián)性,致使跟蹤失敗后由于跟蹤算法隨著模型的更新累積分類誤差,當(dāng)目標(biāo)再次回到視野時(shí)跟蹤器無法找回目標(biāo).
搜索策略也可以稱為運(yùn)動(dòng)建模和搜索,主要作用是模型在上一幀目標(biāo)位置附近搜索當(dāng)前幀的所有可能的目標(biāo)位置,并從這些候選的位置區(qū)域中估計(jì)出最優(yōu)的目標(biāo)位置.由于目標(biāo)運(yùn)動(dòng)的復(fù)雜性和不確定性,對于搜索策略的選取顯得尤為重要.一般來說,好的搜索策略能夠自適應(yīng)目標(biāo)運(yùn)動(dòng)規(guī)律,搜索出更優(yōu)更少的候選區(qū)域,縮小了搜索范圍能夠提高算法的效率,同時(shí)優(yōu)質(zhì)的候選區(qū)域間具有較少的重復(fù)率和較高的區(qū)分性,使得模型更加魯棒且處理速度更快.根據(jù)不同的搜索方式,搜索策略可以分為以下幾類:
1)基于濾波理論的搜索策略
基于濾波理論的搜索策略主要是經(jīng)典貝葉斯濾波框架下的卡爾曼濾波算法[40]以及粒子濾波算法[41],通過散播離散的
粒子集合的思想來近似目標(biāo)運(yùn)動(dòng)的不規(guī)律性和不確定性,最后加權(quán)粒子樣本來估計(jì)目標(biāo)當(dāng)前分布狀態(tài).前者處理線性問題并且假設(shè)目標(biāo)的狀態(tài)符合高斯分布,應(yīng)用具有局限性,后者由前者發(fā)展而來,粒子濾波通過蒙特卡羅技術(shù)能夠處理非線性、非高斯問題,會(huì)根據(jù)粒子的重要度進(jìn)行重采樣,具有更高的廣泛性和精確度.
基于濾波理論的搜索策略,能夠融合不同種類的特征信息,具有較高的計(jì)算效率.但是對于復(fù)雜場景下的任務(wù),需要更多的樣本來描述后驗(yàn)概率分布,算法的復(fù)雜度就越高,對于粒子濾波來說,重采樣會(huì)導(dǎo)致算法的退化,無法保證重采樣后樣本的多樣性.如何選擇合適的提議分布、避免算法的退化和保證樣本的多樣性是基于濾波理論算法的一個(gè)急需解決的問題.
2)基于滑動(dòng)窗口的搜索策略
基于滑動(dòng)窗口的搜索策略主要是基于局部窮舉思想[1,2,28,29],在感興趣區(qū)域內(nèi)密集搜索所有可能范圍來選取最優(yōu)的目標(biāo)狀態(tài).這種方法從局部區(qū)域考慮目標(biāo)的可能狀態(tài),降低了計(jì)算復(fù)雜度,搜索比較全面.但是,隨著搜索范圍的增大,候選區(qū)域就變多,計(jì)算量就增加,有時(shí)候不得不采用簡化表觀模型和精簡分類器的方法來補(bǔ)償模型搜索匹配消耗的時(shí)間,不適用于感興趣范圍較大的搜索任務(wù).
3)基于梯度優(yōu)化的搜索策略
基于梯度優(yōu)化的搜索策略典型的算法是均值漂移算法[36,42],均值漂移算法是一種基于梯度分析的非參數(shù)優(yōu)化算法,以其計(jì)算量小、無需參數(shù)、快速模式匹配的特點(diǎn)受到普遍關(guān)注和廣泛研究,均值漂移適用于目標(biāo)形變、旋轉(zhuǎn)變化的跟蹤任務(wù).它通過定義目標(biāo)能量函數(shù),采用梯度下降的策略來最小化能量函數(shù)進(jìn)行目標(biāo)的匹配和搜索,相對于滑動(dòng)窗口搜索策略,它明顯降低了計(jì)算強(qiáng)度,特別適用于對跟蹤系統(tǒng)具有實(shí)時(shí)性要求的場景.但是均值漂移算法容易陷入局部收斂,對于初始搜索位置比較敏感,同時(shí)當(dāng)目標(biāo)發(fā)生嚴(yán)重遮擋或目標(biāo)運(yùn)動(dòng)速度較快時(shí),往往導(dǎo)致收斂于背景而不是目標(biāo)本身.
模型更新決定了模型的更新策略和更新頻率,由于受目標(biāo)自身和外部環(huán)境變化的影響,目標(biāo)的外觀一直處于動(dòng)態(tài)變化中,是一個(gè)非靜態(tài)信號(hào),目標(biāo)的表觀模型必須通過自動(dòng)更新來適應(yīng)目標(biāo)物體的外觀變化,所以說跟蹤問題也可以看成是一個(gè)邊跟蹤邊學(xué)習(xí)的過程.
目前大部分模型使用的是在線更新策略,比較常用的方法是用最近新的模型代替舊的模型.但由于跟蹤過程中,目標(biāo)物體很容易發(fā)生遮擋、形變等現(xiàn)象[2,29],使得獲取到的正負(fù)樣本經(jīng)常是不完整、不精確、帶有一定噪聲污染,并且通常情況下大部分正負(fù)樣本具有二義性,導(dǎo)致模型在更新過程中逐漸累積誤差,使得最新的表觀模型與實(shí)際目標(biāo)表觀發(fā)生很大偏差,從而導(dǎo)致“漂移”現(xiàn)象,這是跟蹤領(lǐng)域中一直存在的問題.
目前主要的更新策略常用的有在每一幀中都進(jìn)行更新、每隔一段時(shí)間間隔進(jìn)行更新、用啟發(fā)式規(guī)則指導(dǎo)更新即誤差達(dá)到一定閾值進(jìn)行模型更新等.這些方法雖然能在短時(shí)間內(nèi)和可控場景下能夠達(dá)到良好的效果,但是針對長時(shí)間跟蹤、實(shí)際動(dòng)態(tài)復(fù)雜場景中還是不夠魯棒,模型如何選擇最優(yōu)的在線更新策略還有待深入研究.
深度學(xué)習(xí)技術(shù)這幾年來發(fā)展迅速且應(yīng)用廣泛,在文本、語音、圖像三大領(lǐng)域取得了不俗的成績.區(qū)別于傳統(tǒng)跟蹤算法設(shè)計(jì)好的手工特征和淺層分類器結(jié)構(gòu),深度學(xué)習(xí)技術(shù)通過構(gòu)建多個(gè)非線性映射的隱藏層來模擬人腦視覺系統(tǒng)的分層結(jié)構(gòu),如圖3所示,大腦由瞳孔攝入像素即原始圖像信號(hào),經(jīng)大腦皮層視覺細(xì)胞來檢測目標(biāo)邊緣和方向,抽象出物體的大致形狀,最后進(jìn)一步抽象并推測物體類別.深度網(wǎng)絡(luò)經(jīng)前饋傳播過程中將原始信號(hào)進(jìn)行逐層特征變化,即變換特征空間,再經(jīng)反向傳播的梯度下降算法更新網(wǎng)絡(luò)權(quán)重,通過這種自學(xué)習(xí)方式提取高度抽象的自適應(yīng)特征,而且構(gòu)建的網(wǎng)絡(luò)規(guī)模在模型深度上也比傳統(tǒng)的淺層分類器要深.
圖3 深度網(wǎng)絡(luò)模擬大腦視覺的分層處理過程Fig.3 Deep learning neural network simulate the brain′s visual hierarchical structure processing
目前來說,深度學(xué)習(xí)網(wǎng)絡(luò)模型按照訓(xùn)練方式可分為兩類:有監(jiān)督模型和無監(jiān)督模型.有監(jiān)督模型有:多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[21]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[22]等.無監(jiān)督模型有:深信度神經(jīng)網(wǎng)絡(luò)(DBN)[43]、自動(dòng)編碼機(jī)(ADE)[20]等.隨著近些年深度學(xué)習(xí)技術(shù)在目標(biāo)跟蹤領(lǐng)域的發(fā)展,越來越多的深度網(wǎng)絡(luò)模型應(yīng)用到了跟蹤領(lǐng)域并取得了不錯(cuò)的性能,我們依據(jù)各算法使用的主要深度神經(jīng)網(wǎng)絡(luò)框架和算法的顯著特點(diǎn)將目前基于深度學(xué)習(xí)技術(shù)的跟蹤算法分為以下4類:1)基于在線遷移和特征屬性分析的跟蹤模型;2)基于深度集成學(xué)習(xí)的跟蹤模型;3)基于時(shí)空域信息的跟蹤模型;4)基于相似度對比與回歸的跟蹤模型.我們總結(jié)了每類跟蹤模型從深度學(xué)習(xí)技術(shù)開始應(yīng)用到目標(biāo)跟蹤領(lǐng)域以來的典型算法,如表1所示,下面將對各類跟蹤模型進(jìn)行展開分析.
表1 基于深度學(xué)習(xí)技術(shù)的目標(biāo)跟蹤算法歸類
Table 1 Classification of the object visual tracking algorithm based on deep learning
算法類別典型算法基于深度學(xué)習(xí)技術(shù)的目標(biāo)跟蹤算法歸類(1)基于在線遷移與特征屬性分析的跟蹤模型DLT[44]、SO?DLT[45]、MDNet[46]、DeepTrack[47]、CNN?SVM[48]、HCFT[49]、FCNT[50]、DeepSRDCF[51]等(2)基于深度集成學(xué)習(xí)的跟蹤模型TCNN[52]、SCTC[53]、HDT[54]等(3)基于時(shí)空域信息的跟蹤模型RATM[55]、DeepTracking[56]、ROLO[57]、RTT[58]、SANet[59]等(4)基于相似度對比與回歸的跟蹤模型SiameseFC[60]、SINT[61]、YC?NN[62]、GOTURN[63]等
深度學(xué)習(xí)強(qiáng)大的自適應(yīng)特征提取能力主要依靠海量的標(biāo)注數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò),對于目標(biāo)跟蹤任務(wù)來說,由于只能使用第一幀的帶標(biāo)簽的圖像幀,使得缺乏足夠的樣本來訓(xùn)練深度網(wǎng)絡(luò)提取特征.近些年來,研究者們發(fā)現(xiàn)通過遷移學(xué)習(xí)的方法,借助其他相近領(lǐng)域(如:目標(biāo)檢測、圖像分類、圖像識(shí)別等)的大型數(shù)據(jù)集來預(yù)訓(xùn)練網(wǎng)絡(luò)然后遷移到跟蹤任務(wù)上,能夠達(dá)到了良好的效果.
2013年,Wang等人[44]第一次將深度學(xué)習(xí)技術(shù)應(yīng)用到跟蹤領(lǐng)域,他提出了一種離線預(yù)訓(xùn)練與在線微調(diào)的思路,搭建了一個(gè)四層的棧式自編碼器,在一個(gè)大型小尺度數(shù)據(jù)集(圖片大小為32*32)上離線預(yù)訓(xùn)練模型,然后借助跟蹤數(shù)據(jù)集的第一幀帶標(biāo)注的樣本來進(jìn)行在線微調(diào),解決了訓(xùn)練樣本不足的問題.但是由于訓(xùn)練樣本和跟蹤序列有明顯差距,加上棧式自編碼器對重構(gòu)過程中會(huì)引入了大量噪聲,網(wǎng)絡(luò)結(jié)構(gòu)也只有四層且用的全連接層比較多,使其對目標(biāo)的表外特征刻畫能力不足,計(jì)算代價(jià)大,性能甚至低于一些基于手工特征的跟蹤方法.但是,它為深度學(xué)習(xí)技術(shù)解決跟蹤問題開辟了一個(gè)新的研究思路,后續(xù)大量的基于深度學(xué)習(xí)的跟蹤算法基本上都是延續(xù)這種遷移學(xué)習(xí)的思路來進(jìn)行的.
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,研究人員發(fā)現(xiàn),有監(jiān)督方式的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[21]結(jié)構(gòu)相對于其他網(wǎng)絡(luò)結(jié)構(gòu)有更好的圖像抽象能力,卷積網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示,卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要包括卷積層、池化層、全連接層三個(gè)關(guān)鍵層類型.其中卷積層能夠很好的的保留圖像像素鄰域之間的聯(lián)系和局部空間結(jié)構(gòu)的特點(diǎn),保證了圖像的旋轉(zhuǎn)不變性和平移不變性.池化層減少了特征圖的維度,但保留了重要的特征信息,并擴(kuò)展了下一層的感受野范圍.這些特性使得卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域引起了廣泛關(guān)注,一大批優(yōu)秀的卷積網(wǎng)絡(luò)模型被提出來,從最初5層的LeNet[21]衍生出了AlexNet[15],GoogleNet[64],VGGNet[16],ResidualNet[14]等具有代表性的深度卷積網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)分別從寬度和深度上進(jìn)行加深.同時(shí)研究人員發(fā)現(xiàn)從這些預(yù)訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)的不同卷積層可以學(xué)習(xí)到不同的特征信息,圖5展示了分別從VGG19[16]深度網(wǎng)絡(luò)中可視化Conv3-4(第8層),Conv4-4(第12層),Conv5-4(第16層)卷積層的特征圖,從圖中可以看出底層特征保留了豐富的空間結(jié)構(gòu)信息,高層特征則更加抽象,充分使用這些層次特征能夠使得模型更加魯棒,來應(yīng)對不同的物體外觀變化.
圖4 卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)圖Fig.4 Structure chart of the convolutional neural network(CNN)
近幾年來,由于這些深度卷積網(wǎng)絡(luò)模型在目標(biāo)檢測、圖像分類等領(lǐng)域取得了巨大的成功,研究人員開始考慮是否這些不同深度卷積網(wǎng)絡(luò)模型同樣能應(yīng)用到目標(biāo)跟蹤領(lǐng)域?并且開展了一系列深入的研究.
Wang等人[45]延續(xù)了離線訓(xùn)練在線微調(diào)的思想,先在大規(guī)模圖像數(shù)據(jù)集上離線訓(xùn)練網(wǎng)絡(luò)模型識(shí)別物體與非物體區(qū)域,跟蹤時(shí)用第一幀樣本進(jìn)行在線微調(diào),將不同尺度的候選區(qū)域輸入網(wǎng)絡(luò)得到不同的概率圖輸出,最后經(jīng)邊界框回歸確定最優(yōu)尺度,在模型更新過程中采用了針對處理誤判的長時(shí)更新和外觀變化的短時(shí)更新策略,達(dá)到了良好性能.
圖5 深度卷積網(wǎng)絡(luò)(VGGNet)獲取到的層次特征Fig.5 Hierarchical features get from the deep convolutional neural network(VGGNet)
Danelljan等人[51]同樣借助遷移學(xué)習(xí)的方法學(xué)習(xí)特征,同時(shí)認(rèn)為跟蹤任務(wù)不同于檢測和分類任務(wù),由于跟蹤任務(wù)對于位置精確度的要求比較高,底層的卷積特征具有的較高的區(qū)分性和豐富的空間結(jié)構(gòu)信息,可能對于跟蹤問題來說更為重要,但Danelljan等人只注意到了底層的特征空間結(jié)構(gòu)特性而忽略了高層特征的語義特性.
Ma,Wang等人[49,50]進(jìn)行了更深入的研究,他們對于從預(yù)訓(xùn)練深度卷積網(wǎng)提取出來的分層特征屬性進(jìn)行了細(xì)致的分析,他們認(rèn)為不同層特征具有不同屬性,高層特征和底層特征對于目標(biāo)的表觀建模都非常重要,高層特征抽象出圖片塊的語義信息,可以作為一個(gè)類間分類器,做粗略的定位,對于目標(biāo)發(fā)生形變、遮擋等表觀變化比較魯棒.底層特征具有豐富的紋理信息和空間特征,可以用來作為類內(nèi)分類器,并且底層特征對位置變化比較敏感,可以用來對目標(biāo)位置微調(diào).他們認(rèn)為通過有效的方式(如加權(quán)融合、閾值選取等)充分利用各個(gè)層次特征的優(yōu)點(diǎn)從而達(dá)到可以精確定位效果.
基于在線遷移和特征屬性分析的跟蹤模型在近幾年來用的比較廣泛.主要是由于基于遷移學(xué)習(xí)的思想能夠緩解跟蹤任務(wù)訓(xùn)練樣本缺失的問題.同時(shí),用遷移學(xué)習(xí)的方法訓(xùn)練深度卷積網(wǎng)絡(luò),由于卷積網(wǎng)絡(luò)分層結(jié)構(gòu)的特點(diǎn),從而我們可以充分利用不同層特征的屬性來應(yīng)用到跟蹤過程中的不同場景.但是大部分遷移學(xué)習(xí)的方法還是從利用非跟蹤數(shù)據(jù)集來訓(xùn)練,這與跟蹤任務(wù)還是有一定差距,導(dǎo)致對于目標(biāo)刻畫的準(zhǔn)確度上還有待進(jìn)一步改善.另外,我們知道目標(biāo)周邊區(qū)域的時(shí)空上下文對于跟蹤任務(wù)時(shí)非常重要的,大部分深度網(wǎng)絡(luò)提取到自適應(yīng)特征并沒有考慮目標(biāo)附近區(qū)域的時(shí)空上下文信息,導(dǎo)致學(xué)習(xí)到的特征判別性不夠.而且,對于這些深度網(wǎng)絡(luò)來說,由于模型層數(shù)比較深,導(dǎo)致所要學(xué)習(xí)的參數(shù)空間也較大,處理圖像幀的速度就降低,如何優(yōu)化參數(shù)空間,達(dá)到跟蹤上的實(shí)時(shí)需求還有待進(jìn)一步研究.
考慮到單個(gè)跟蹤器跟蹤的結(jié)果可能不穩(wěn)定、不可靠,通過結(jié)合深度學(xué)習(xí)和傳統(tǒng)的集成學(xué)習(xí)的方法,以自適應(yīng)加權(quán)組合的方式將多個(gè)弱分類器合成一個(gè)強(qiáng)分類器來提高模型的判別能力和穩(wěn)定性也是目前的跟蹤領(lǐng)域研究熱點(diǎn).傳統(tǒng)的集成學(xué)習(xí)方法常用的有以下幾類:在線Boosting算法[12,13]、在線Adaboost算法[65]、隨機(jī)森林[66-69]等.基于深度集成學(xué)習(xí)的基本框架如圖6所示,該跟蹤模型主要通過傳統(tǒng)的集成學(xué)習(xí)的方法來直接訓(xùn)練深度模型或者結(jié)合深度學(xué)習(xí)技術(shù)訓(xùn)練多個(gè)弱分類器動(dòng)態(tài)整合成一個(gè)強(qiáng)分類器,然后對前景和背景進(jìn)行分類.這類跟蹤模型具有很好的判別能力、穩(wěn)定性,防止了模型的過擬合.如何自適應(yīng)選擇弱跟蹤器的數(shù)量和和每個(gè)弱跟蹤器的最優(yōu)權(quán)重來減少模型的內(nèi)存消耗從而構(gòu)建最優(yōu)的強(qiáng)跟蹤器,是一個(gè)需要深入研究的問題.
圖6 基于集成學(xué)習(xí)的目標(biāo)跟蹤模型Fig.6 Tracking model based on ensemble learning
Qi等人[54]通過在分層深度卷積特征上學(xué)習(xí)多個(gè)相關(guān)濾波器作為專家系統(tǒng),并借助在線自適應(yīng)Hedged算法負(fù)責(zé)計(jì)算并更新每個(gè)弱跟蹤器的權(quán)重,然后融合成一個(gè)強(qiáng)跟蹤器,跟蹤的結(jié)果由最后的強(qiáng)相關(guān)濾波器得到的響應(yīng)圖中估計(jì)出來.
Wang等人[53]提出了一種以序貫集成學(xué)習(xí)的方法來解決訓(xùn)練深度卷積網(wǎng)絡(luò)中訓(xùn)練樣本少的問題,目的是訓(xùn)練一個(gè)強(qiáng)的深度網(wǎng)絡(luò)分類器,他們將每個(gè)通道的卷積特征看成一個(gè)基本的分類器,通過不同的損失函數(shù)獨(dú)立更新,這樣使得在線微調(diào)CNN就變成了一個(gè)連續(xù)的集成學(xué)習(xí)訓(xùn)練過程.最后將跟蹤問題看成一個(gè)前景和背景分類的問題.
Nam等人[52]基于決策樹思想提出了一種基于樹結(jié)構(gòu)的多個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型集成學(xué)習(xí)方法來提取目標(biāo)物體不同狀態(tài)的外觀特征,通過樹的多分支結(jié)構(gòu)以加權(quán)策略確定目標(biāo)最優(yōu)狀態(tài),同時(shí)選擇最優(yōu)路徑進(jìn)行模型的在線更新,此模型具有分類效果好、穩(wěn)定性強(qiáng)的特點(diǎn),但隨著分支的增多和樹路徑的加深,會(huì)使跟蹤速度下降.
盡管基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的跟蹤模型相對于傳統(tǒng)跟蹤算法已經(jīng)取得了很大進(jìn)步,但是跟蹤問題畢竟是一個(gè)在時(shí)間序列上的問題,而基于卷積神經(jīng)網(wǎng)絡(luò)的模型每次只能對當(dāng)前幀的目標(biāo)表觀進(jìn)行建模,并沒有考慮到當(dāng)前幀與歷史幀之間的關(guān)聯(lián)性.同時(shí)提取出來的深度特征往往隨著網(wǎng)絡(luò)層數(shù)的加深,特征變得高度抽象,丟失了目標(biāo)自身的結(jié)構(gòu)信息,并且僅關(guān)注于目標(biāo)本身的局部空間區(qū)域,忽視了對目標(biāo)周邊區(qū)域的上下文關(guān)系進(jìn)行建模.然而這些內(nèi)部結(jié)構(gòu)信息和周邊區(qū)域的上下文信息對于提高模型的判別性具有很大的作用.所以基于深度卷積網(wǎng)絡(luò)的模型的算法在時(shí)間上的連續(xù)性和空間信息建模方面還有待改善.針對于這些問題,近年來,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)憑借具有處理歷史信息,建模時(shí)間、空間上的強(qiáng)關(guān)聯(lián)性能力開始受到研究人員的關(guān)注.
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[22]最初在文本和語音領(lǐng)域取得了很大成功,因其具有歷史信息記憶功能,常用來對時(shí)間序列進(jìn)行建模,目前來說隨著RNN的深入研究,也用RNN來建模圖像空間結(jié)構(gòu)上像素級(jí)的依賴性.循環(huán)神經(jīng)網(wǎng)絡(luò)目前也發(fā)展出了很多有代表的網(wǎng)絡(luò)模型,比較常用的模型有:傳統(tǒng)RNN模型,長短時(shí)間記憶網(wǎng)(LSTM)[70],雙向RNN[71],GRU[72]等,網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示.研究人員也嘗試著借助RNN的優(yōu)勢來應(yīng)用到跟蹤任務(wù)上,并且做了大量研究.
圖7 常用的RNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Common structures of the recurrent neural network
在時(shí)間域上,RNN通常用來建模視頻序列之間的依賴關(guān)系.Kahou等人[55]在跟蹤過程中用RNN訓(xùn)練注意力機(jī)制來提取當(dāng)前時(shí)刻感興趣區(qū)域,同時(shí)用RNN負(fù)責(zé)保留歷史幀中的受關(guān)注目標(biāo)區(qū)域塊,并預(yù)測在下一時(shí)刻的位置.Ondruska等人[56]通過人工生成數(shù)據(jù)訓(xùn)練RNN來預(yù)測目標(biāo)在每一幀的概率分布,并保留歷史幀目標(biāo)位置的概率分布來指導(dǎo)當(dāng)前幀的預(yù)測,從而直接預(yù)測邊界框的坐標(biāo),這也是一種注意力機(jī)制.以上兩個(gè)方法都是使用傳統(tǒng)的RNN結(jié)構(gòu)來對圖像幀的時(shí)間關(guān)系進(jìn)行建模,但只適用于簡單的人工生成的序列上,很難應(yīng)用到實(shí)際場景.Ning等人[57]結(jié)合tracking-by-detection 的思想設(shè)計(jì)了一個(gè)循環(huán)卷積網(wǎng)絡(luò)模型,用一個(gè)最流行的目標(biāo)檢測器YOLO[73]粗略的檢測出每一幀的目標(biāo)區(qū)域大致坐標(biāo),并收集魯棒的特征信息,同時(shí)輸入到堆棧的LSTM中直接回歸出當(dāng)前幀的目標(biāo)位置,這種模型同時(shí)結(jié)合了時(shí)間域上的關(guān)聯(lián)性和空間域上結(jié)構(gòu)關(guān)系使得模型更加有效,能夠?qū)τ谡趽酢⒍虝r(shí)間目標(biāo)丟失等場景具有很好的魯棒性.
在空間域上,由于圖像區(qū)域中內(nèi)部結(jié)構(gòu)信息的關(guān)聯(lián)性是普遍存在的,而這種關(guān)聯(lián)性可以轉(zhuǎn)化為像素間的循環(huán)依賴關(guān)系,所以只需遍歷圖像上的像素點(diǎn)來形成RNN輸入序列.與處理時(shí)間序列不同,從整體上看,此時(shí)RNN主要建模目標(biāo)區(qū)域內(nèi)部空間結(jié)構(gòu)與附近區(qū)域上下文的依賴性,從像素級(jí)看,RNN建模的是大范圍像素間的鄰域關(guān)系.Cui等人[58]利用多方向遞歸神經(jīng)網(wǎng)絡(luò)在二維平面上來預(yù)測一個(gè)可信區(qū)域來緩解遮擋問題和判斷模型更新,同時(shí)作為一個(gè)正則化項(xiàng)引入到相關(guān)濾波器中,抑制背景干擾,增強(qiáng)目標(biāo)區(qū)域的可信度,提高了濾波器的判別性,是第一個(gè)將RNN來建模跟蹤任務(wù)中樣本空間結(jié)構(gòu)上的依賴關(guān)系,但整個(gè)框架是基于HOG特征和傳統(tǒng)的RNN結(jié)構(gòu),可能出現(xiàn)目標(biāo)表觀刻畫不足和梯度消失等問題.Fan等人[59]認(rèn)為卷積特征主要適用于類間分類,缺乏對目標(biāo)自身結(jié)構(gòu)的描述,很難用于區(qū)分同類非目標(biāo)物體,他們提出結(jié)合深度卷積網(wǎng)絡(luò)和多方向RNN,在卷積網(wǎng)絡(luò)中多個(gè)下采樣層后利用多方向RNN建模目標(biāo)物體自身的空間結(jié)構(gòu),同時(shí)利用跳越連接(skip concatenation)策略[74]將卷積特征與RNN提取到的自身結(jié)構(gòu)圖進(jìn)行融合并作為下一層的輸入,用多分支域思想訓(xùn)練網(wǎng)絡(luò).這種關(guān)注于目標(biāo)內(nèi)部結(jié)構(gòu)的網(wǎng)絡(luò)豐富了特征圖的結(jié)構(gòu)信息,提高對二義性物體的判別性,提高了模型的準(zhǔn)確率.
目標(biāo)跟蹤問題本質(zhì)上還是一個(gè)檢測和驗(yàn)證的問題,一個(gè)好的跟蹤模型不僅要有著較高的準(zhǔn)確率和魯棒性,同時(shí)要滿足跟蹤的實(shí)時(shí)性需求.先前的深度模型需要在線更新過程以及較大的參數(shù)空間,雖然有著較高的魯棒性但運(yùn)行速度緩慢.2016年以來,出現(xiàn)了基于相似度對比的孿生網(wǎng)絡(luò)(Siamese Network)模型[23]來應(yīng)用到跟蹤任務(wù)當(dāng)中,基于孿生網(wǎng)絡(luò)的跟蹤模型是訓(xùn)練一個(gè)完全端到端的模型,沒有動(dòng)態(tài)更新過程.該模型算法流程圖如圖8所示,它的輸入是一個(gè)樣本對,分為示例樣本和候選樣本,通過離線訓(xùn)練模型來評(píng)估兩個(gè)輸入樣本的的相似程度,決策層決定采用哪種匹配算法計(jì)算相似度,匹配程度最高的候選樣本作為目標(biāo)當(dāng)前最優(yōu)區(qū)域.
圖8 基于孿生(Siamese)網(wǎng)絡(luò)模型的目標(biāo)跟蹤算法流程圖Fig.8 Tracking model based on Siamese neural networok
Tao等人[61]基于在線多示例的思想,提出通過提取大量的外部視頻樣本數(shù)據(jù)對來離線訓(xùn)練深度孿生網(wǎng)絡(luò)學(xué)習(xí)一個(gè)先驗(yàn)的匹配函數(shù),訓(xùn)練好的孿生網(wǎng)絡(luò)能自動(dòng)判斷輸入實(shí)例數(shù)據(jù)對的相似度,找出和第一幀樣本最相似的圖像候選塊作為目標(biāo)區(qū)域,可以應(yīng)對各種外觀變化,但對嚴(yán)重遮擋、劇烈的外觀變化以及類內(nèi)區(qū)分魯棒性較低.
Bertinetto等人[60]注意到了跟蹤問題對于特征圖的空間結(jié)構(gòu)比較敏感,使用的siamese網(wǎng)絡(luò)采用了全卷積結(jié)構(gòu),只在網(wǎng)絡(luò)淺層用了較少的池化層并摘掉了后面的全連接層.同時(shí)通過使用較小的示例圖片特征圖對較大的候選區(qū)域特征圖進(jìn)行卷積運(yùn)算,計(jì)算數(shù)據(jù)對之間的內(nèi)相關(guān),本質(zhì)上也是計(jì)算兩個(gè)樣本的相似度,結(jié)果輸出一張響應(yīng)圖.然后搜索響應(yīng)值最大的位置作為目標(biāo)的大致位置.
Chen等人[62]做法與Bertinetto等人類似,同樣是輸出一張響應(yīng)圖,但他們是通過最后的全連接層直接回歸響應(yīng)圖輸出,并且在后面的全連接層中融入了前面卷積層的提取的特征,最后輸出的響應(yīng)圖是通過隨機(jī)選取歷史幀已確定的響應(yīng)圖與當(dāng)前幀的輸出加權(quán)得到,充分考慮了歷史狀態(tài)的影響,訓(xùn)練過程中對于候選樣本進(jìn)行了大量的數(shù)據(jù)仿射處理(如旋轉(zhuǎn)、光照變化、加入噪聲等)來模擬實(shí)際場景下目標(biāo)外觀的不斷變化,極大的增大了樣本空間.
Held等人[63]通過在靜態(tài)圖片和連續(xù)的動(dòng)態(tài)視頻序列上提取數(shù)據(jù)對來訓(xùn)練一個(gè)更加精簡的孿生網(wǎng)絡(luò)模型,他們通過合理的設(shè)計(jì)帶偏移量標(biāo)注的樣本對和損失函數(shù),使得訓(xùn)練好的模型能夠直接回歸出目標(biāo)區(qū)域的坐標(biāo)和尺度的偏移量,速度達(dá)到了100fps,但算法對于那些快速運(yùn)動(dòng)、偏移量較大的場景還有待提高.
基于相似度對比與回歸的跟蹤模型主要是借助孿生網(wǎng)絡(luò)的雙通道輸入的結(jié)構(gòu)特點(diǎn),用大量的樣本對,學(xué)習(xí)一個(gè)匹配函數(shù).此類模型的關(guān)鍵主要在訓(xùn)練階段,需要設(shè)計(jì)合理的帶標(biāo)注的數(shù)據(jù)對和損失函數(shù),一旦模型訓(xùn)練好了,就是一個(gè)完全不需要更新,端到端的運(yùn)行的模型,此類算法在速度上更有優(yōu)勢,但該類模型需要大量的視頻跟蹤樣本對,對于訓(xùn)練階段來說,設(shè)計(jì)合理的損失函數(shù)至關(guān)重要.同時(shí)該模型對于嚴(yán)重遮擋、移動(dòng)距離過大,非相似目標(biāo)物體的判別性還不夠魯棒.
盡管深度學(xué)習(xí)近年來在計(jì)算機(jī)視覺獲得了快速發(fā)展,并且在目標(biāo)跟蹤問題中也顯示出了其深度模型的有效性,其應(yīng)用過程也并不是一帆風(fēng)順,依然面臨著嚴(yán)峻的挑戰(zhàn).我們認(rèn)為深度技術(shù)在目標(biāo)跟蹤領(lǐng)域涉及的困難主要集中在以下幾個(gè)方面:1)深度模型需要估計(jì)一個(gè)較大的參數(shù)空間,因此需要足夠的訓(xùn)練樣本,然而對于跟蹤問題來說,由于只能使用有限的第一幀的標(biāo)注樣本作為正樣本來訓(xùn)練網(wǎng)絡(luò),導(dǎo)致訓(xùn)練數(shù)據(jù)的缺失.2)使用遷移學(xué)習(xí)的方法預(yù)訓(xùn)練模型需要大量時(shí)間消耗,同時(shí)這種離線學(xué)習(xí)得到廣義特征缺乏對所跟蹤目標(biāo)的判別性.3)目標(biāo)跟蹤過程中用在線更新得到的新樣本帶有大量噪聲,用這些帶有噪聲的樣本訓(xùn)練網(wǎng)絡(luò),會(huì)使模型的穩(wěn)定性下降,導(dǎo)致模型“漂移”問題.4)深度學(xué)習(xí)模型在線訓(xùn)練過程需要大量的時(shí)空和計(jì)算資源.5)目前大部分的深度模型還集中在對樣本空間結(jié)構(gòu)上的描述,缺乏對整個(gè)跟蹤序列時(shí)間維度上的建模,很難應(yīng)對目標(biāo)物體表觀分布的復(fù)雜多樣性和非靜態(tài)性.6)跟蹤算法在實(shí)時(shí)性和準(zhǔn)確度上達(dá)到平衡依舊任重道遠(yuǎn).
綜上所述,深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域中還有很大提高的空間,以后的研究方向可以從以下幾個(gè)方面進(jìn)行展開:1)首先,在目標(biāo)的表觀建模方面,以深度學(xué)習(xí)理論為基礎(chǔ),探索如何有效的結(jié)合遷移學(xué)習(xí)、回歸方法、集成學(xué)習(xí)、以及混合深度網(wǎng)絡(luò)模型來構(gòu)建魯棒的基于深度學(xué)習(xí)的目標(biāo)表觀建模.2)其次,在目標(biāo)的運(yùn)動(dòng)建模和搜索方面,如何采用高效的搜索策略為在線訓(xùn)練深度模型提供量少質(zhì)高的正負(fù)樣本集合也是值得深入研究.3)另外,在模型更新方面,自適應(yīng)學(xué)習(xí)出的目標(biāo)部件模型具有良好的靈活性,將其與局部背景結(jié)合,對于處理遮擋、非剛性形變等問題具有優(yōu)勢,結(jié)合深度學(xué)習(xí)的方法提取表觀特征,能夠構(gòu)建一個(gè)魯棒的跟蹤模型.4)最后,在算法的實(shí)時(shí)性要求方面,如何通過優(yōu)化算法減少參數(shù)空間,同時(shí)訓(xùn)練完全端到端的網(wǎng)絡(luò)模型來對算法進(jìn)行提速也是很重要的研究方向.
本文通過對傳統(tǒng)算法進(jìn)行回顧,重點(diǎn)對近期基于深度學(xué)習(xí)的目標(biāo)跟蹤算法進(jìn)行分析與總結(jié),指出了目標(biāo)跟蹤算法最新的研究狀況,為研究人員提供參考.我們相信,隨著深度學(xué)習(xí)的不斷發(fā)展,更多更優(yōu)秀的基于深度學(xué)習(xí)的目標(biāo)跟蹤算法將會(huì)呈現(xiàn)出來,并且應(yīng)用到實(shí)際場景當(dāng)中.
[1] Li X,Hu W,Shen C,et al.A survey of appearance models in visual object tracking[J].ACM Transactions on Intelligent Systems and Technology (TIST),2013,4(4):58.
[2] Wu Y,Lim J,Yang M H.Online object tracking:A benchmark[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2013:2411-2418.
[3] Guan Hao,Xue Xiang-yang,An Zhi-yong.Advances on application of deep learning for video object tracking[J].Acta Automatica Sinica,2016,42(6):834-847.
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C].2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′05),IEEE,2005,1:886-893.
[5] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[6] Van De Weijer J,Schmid C,Verbeek J,et al.Learning color names for real-world applications[J].IEEE Transactions on Image Processing,2009,18(7):1512-1523.
[7] Ahonen T,Hadid A,Pietik?inen M.Face recognition with local binary patterns[C].European Conference on Computer Vision,Springer Berlin Heidelberg,2004:469-481.
[8] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[9] Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Cognitive Modeling,1988,5(3):1.
[10] Avidan S.Support vector tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(8):1064-1072.
[11] Bai Y,Tang M.Robust tracking via weakly supervised ranking svm[C].Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on.IEEE,2012:1854-1861.
[12] Grabner H,Bischof H.On-line boosting and vision[C].2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR′06),IEEE,2006,1:260-267.
[13] Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking[C].European Conference on Computer Vision,Springer Berlin Heidelberg,2008:234-247.
[14] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:770-778.
[15] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems,2012:1097-1105.
[16] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].Computing Research Repository (CoRR),2014,abs/1409.1556.
[17] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[18] Girshick R.Fast r-cnn[C].Proceedings of the IEEE International Conference on Computer Vision,2015:1440-1448.
[19] Ren S,He K,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C].Advances in Neural Information Processing Systems,2015:91-99.
[20] Vincent P,Larochelle H,Bengio Y,et al.Extracting and composing robust features with denoising autoencoders[C].Proceedings of the 25th International Conference on Machine Learning,ACM,2008:1096-1103.
[21] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[22] Zaremba W.An empirical exploration of recurrent network architectures[C].Processding of the 32nd International Conference on Machine Learning (ICML),2015:2342-2350.
[23] Bromley J,Bentz J W,Bottou L,et al.Signature verification using a “Siamese” time delay neural network[J].International Journal of Pattern Recognition and Artificial Intelligence,1993,7(4):669-688.
[24] Yin Hong-peng,Chen Bo,Chai Yi,et al.Vision-based object detection and tracking:a review[J].Acta Automatica Sinica,2016,42(10):1466-1489.
[25] Lu Ze-hua,Liang Hu,Tang He,et al.Survey of visual objects tracking[J].Computer Engineering & Science,2012,34(10):92-97.
[26] Yan Qing-sen,Li Lin-sheng,Xu Xiao-feng,et al.Survey of visual tracking algorithm[J].Computer Science,2013,40(06A):204-209.
[27] Huang Kai-qi,Chen Xiao-tang,Kang Yun-feng,et al.Intelligent visual surveillance:a review[J].Chinese Journal of Computers,2015,38(6):1093-1118.
[28] Smeulders A W M,Chu D M,Cucchiara R,et al.Visual tracking:an experimental survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(7):1442-1468.
[29] Wu Y,Lim J,Yang M H.Object tracking benchmark[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1834-1848.
[30] Li X,Hu W,Zhang Z,et al.Robust visual tracking based on incremental tensor subspace learning[C].2007 IEEE 11th International Conference on Computer Vision.IEEE,2007:1-8.
[31] Ross D A,Lim J,Lin R S,et al.Incremental learning for robust visual tracking[J].International Journal of Computer Vision,2008,77(1):125-141.
[32] Wang H,Suter D,Schindler K,et al.Adaptive object tracking based on an effective appearance filter[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(9):1661-1667.
[33] Bao C,Wu Y,Ling H,et al.Real time robust L1 tracker using accelerated proximal gradient approach[C].Computer Vision and Pattern Recognition,IEEE,2012:1830-1837.
[34] Zhang K,Zhang L,Yang M H.Real-time compressive tracking[C].European Conference on Computer Vision,2012:864-877.
[35] Zhang T,Ghanem B,Liu S,et al.Low-Rank sparse learning for robust visual tracking[C].European Conference on Computer Vision,Springer Berlin Heidelberg,2012:470-484.
[36] Yang C,Duraiswami R,Davis L.Efficient mean-shift tracking via a new similarity measure[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2005:176-183.
[37] Henriques J F,Rui C,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(3):583-596.
[38] Henriques J F,Rui C,Martins P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[J].Lecture Notes in Computer Science,2012,7575(1):702-715.
[39] Babenko B,Yang M H,Belongie S.Visual tracking with online multiple instance learning[C].Computer Vision and Pattern Recognition(CVPR 2009),IEEE Conference on.IEEE,2009:983-990.
[40] Kalman R E.A New Approach to linear filtering and prediction problems[J].J.basic Eng.trans.asme,1960,82D(1):35-45.
[41] Isard M,Blake A.Condensation-conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.
[42] Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using mean shift[C].Computer Vision and Pattern Recognition,Proceedings.IEEE Conference on.IEEE,2000:2142.
[43] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.[J].Neural Computation,2006,18(7):1527-1554.
[44] Wang N,Yeung D Y.Learning a deep compact image representation for visual tracking[J].Advances in Neural Information Processing Systems,2013:809-817.
[45] Wang N,Li S,Gupta A,et al.Transferring rich feature hierarchies for robust visual tracking[J].arXiv preprint arXiv:1501.04587,2015.
[46] Nam H,Han B.Learning Multi-domain convolutional neural networks for visual tracking[C].2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:4293-4302.
[47] Li H,Li Y,Porikli F.DeepTrack:learning discriminative feature representations online for robust visual tracking[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2015,25(4):1834-1848.
[48] Hong S,You T,Kwak S,et al.Online tracking by learning discriminative saliency map with convolutional neural network[C].Proceedings of the 32nd International Conference on Machine Learning(ICML),2015:597-606.
[49] Ma C,Huang J B,Yang X,et al.Hierarchical convolutional features for visual tracking[C].IEEE International Conference on Computer Vision,2015:3074-3082.
[50] Wang L,Ouyang W,Wang X,et al.Visual tracking with fully convolutional networks[C].IEEE International Conference on Computer Vision,2016:3119-3127.
[51] Danelljan M,H?ger G,Khan F S,et al.Convolutional features for correlation filter based visual tracking[C].IEEE International Conference on Computer Vision Workshop,2015:621-629.
[52] Nam H,Baek M,Han B.Modeling and propagating CNNs in a tree structure for visual tracking[J].arXiv preprint arXiv:1608.07242,2016.
[53] Wang L,Ouyang W,Wang X,et al.STCT:sequentially training convolutional networks for visual tracking[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2016:1373-1381.
[54] Qi Y,Zhang S,Qin L,et al.Hedged deep tracking[C].IEEE Conference on Computer Vision and Pattern Recognition,2016:4303-4311.
[55] Kahou S E,Michalski V,Memisevic R.RATM:recurrent attentive tracking model[J].arXiv preprint arXiv:151008660,2015.
[56] Ondruska P,Posner I.Deep tracking:seeing beyond seeing using recurrent neural networks[C].Proceedings of the 30th AAAI Conference on Artificial Intelligence,2016:3361-3368.
[57] Ning G,Zhang Z,Huang C,et al.Spatially supervised recurrent convolutional neural networks for visual object tracking[J].arXiv preprint arXiv:1607.05781,2016.
[58] Cui Z,Xiao S,Feng J,et al.Recurrently target-attending tracking[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:1449-1458.
[59] Fan H,Ling H.SANet:Structure-aware network for visual tracking[C].IEEE Computer Vision and Pattern Recognition,2016.
[60] Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional siamese networks for object tracking[C].European Conference on Computer Vision.Springer International Publishing,2016:850-865.
[61] Tao R,Gavves E,Smeulders A W M.Siamese instance search for tracking[C].Computer Vision and Pattern Recognition,2016:1420-1429.
[62] Chen K,Tao W.Once for all:a two-flow convolutional neural network for visual tracking[J].arXiv preprint arXiv:1604.07507,2016.
[63] Held D,Thrun S,Savarese S.Learning to track at 100 FPS with deep regression networks[C].European Conference on Computer Vision.Springer International Publishing,2016:749-765.
[64] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[65] Santner J,Leistner C,Saffari A,et al.Prost:parallel robust online simple tracking[C].Computer Vision and Pattern Recognition (CVPR),2010 IEEE Conference on.IEEE,2010:723-730.
[66] Saffari A,Leistner C,Santner J,et al.On-line random forests[C].Computer Vision Workshops (ICCV Workshops),2009 IEEE 12th International Conference on.IEEE,2009:1393-1400.
[67] Schulter S,Leistner C,Roth P M,et al.On-line hough forests[C].Proceedings of British Machine Vision Conference(BMVC),2011:1-11.
[68] Gall J,Yao A,Razavi N,et al.Hough forests for object detection,tracking,and action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2188-2202.
[69] Godec M,Roth P M,Bischof H.Hough-based tracking of non-rigid objects[J].Computer Vision and Image Understanding,2013,117(10):1245-1256.
[70] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[71] Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[72] Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[C].Proceedoings of the 2014 Conference on Empirical Methods in Natural Language Processing,2014:1724-1734.
[73] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C].2016 IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[74] Bell S,Zitnick C L,Bala K,et al.Inside-outside net:detecting objects in context with skip pooling and recurrent neural networks[C].2016 IEEE Conference on Computer Vision and Pattern Recognition,2016:2874-2883.
附中文參考文獻(xiàn):
[3] 管 皓,薛向陽,安志勇.深度學(xué)習(xí)在視頻目標(biāo)跟蹤中的應(yīng)用進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2016,42(6):834-847.
[24] 尹宏鵬,陳 波,柴 毅,等.基于視覺的目標(biāo)檢測與跟蹤綜述[J].自動(dòng)化學(xué)報(bào),2016,42(10):1466-1489.
[25] 呂澤華,梁 虎,唐 赫,等.目標(biāo)跟蹤研究綜述[J].計(jì)算機(jī)工程與科學(xué),2012,34(10):92-97.
[26] 閆慶森,李臨生,徐曉峰,等.視頻跟蹤算法研究綜述[J].計(jì)算機(jī)科學(xué),2013,40(06A):204-209.
[27] 黃凱奇,陳曉棠,康運(yùn)鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015,38(6):1093-1118.