李 娜,牒 謹,劉 穎
(1.西安郵電大學通信與信息工程學院,陜西西安710121;2.電子信息現(xiàn)場勘驗應用技術(shù)公安部重點實驗室,陜西西安710121;3.無線通信與信息處理技術(shù)國際聯(lián)合研究中心,陜西西安710121)
目標跟蹤是圖像處理、計算機視覺、模式識別等許多學科的交叉研究課題。在生活的許多方面都有重要的理論研究意義和實際中的應用價值,比如視頻監(jiān)控、虛擬現(xiàn)實、人機交互、自主導航等領(lǐng)域,具有重要的理論研究意義和實際應用價值。目標在運動過程中會呈現(xiàn)圖像上的變化,比如姿態(tài)或形狀的變化、尺度的變化、光線亮度的變化或者受到遮擋和背景相似干擾等,因此目標跟蹤算法的研究也圍繞著解決這些變化和具體的應用展開。
跟蹤算法可分為兩大類:基于不同外觀模型的產(chǎn)生式和判別式。該產(chǎn)生式方法的目的是能夠為跟蹤目標建立相對魯棒的外觀模型,并在接下來的幀中搜索出模型誤差最小的一個區(qū)域作為下一幀的跟蹤對象。這些方法主要包括產(chǎn)生式混合建模法、核跟蹤法和子空間學習法[1]。因為跟蹤原理有一定的局限性,所以為了處理復雜環(huán)境下的目標跟蹤,生產(chǎn)模型需要設計一個非常復雜的外觀模型,這就在一定程度上大大增加了設計的復雜性。判別法將目標跟蹤視為分類問題,它的目的在于訓練分類器將運動目標從背景中分離出來。這類方法主要有基于支持向量機SVM的跟蹤法[2-5]、基于多示例學習MIL的跟蹤法[6-10]、基于相關(guān)濾波的跟蹤法[11]和基于隨機學習的跟蹤法。研究表明了判別式方法性能更加穩(wěn)健,在目標跟蹤領(lǐng)域應用更加廣泛,判別式方法占據(jù)主導地位的原因是它能夠很好地去區(qū)分前景和周圍的背景信息。但它也有缺點:容易被噪聲影響,通用性比較弱以及樣本的選擇機制還有待加強等。
文獻[12]總結(jié)基于相關(guān)濾波的跟蹤算法流程。相關(guān)濾波器跟蹤框架如圖1所示。
圖1 相關(guān)濾波器跟蹤框架
(1)輸入:初始化,確定當前輸入,訓練并學習從第一幀位置獲得的特征以獲得相關(guān)濾波器。
(2)特征提取:對每個后續(xù)幀進行特征提取,裁剪前一個預測區(qū)域,從前一個幀目標區(qū)域獲取特征,并進行檢測;大部分的特征都是可以從最先輸入的數(shù)據(jù)里面提取出來的,同時,研究中為了能達到平滑的效果,通常會往其中加入余弦窗口。
(3)確定最大響應值:用傅里葉變換替代卷積操作這樣做的目的是提升提高計算效率。之后再與相關(guān)濾波器相乘,時域卷積等于頻域相乘,目標更新后的位置既為前面的最大響應區(qū)。
(4)更新目標位置:新的位置區(qū)域被重新訓練和更新,重復以上的步驟,可以獲得新的相關(guān)濾波器,方便下一幀的觀測。
在信號處理領(lǐng)域中,相關(guān)性被用來描述兩個元素之間的關(guān)系。相關(guān)性有互相關(guān)和自相關(guān)之分,其中,互相關(guān)指的是兩個不同信號在同一頻域的關(guān)系,而自相關(guān)指的是同一個信號在不同的頻域之間的相關(guān)性?,F(xiàn)在假設有兩個信號f和g,則兩個信號的相關(guān)性為
式中,f*表示的是f的復共軛。相關(guān)性的概念就是用來描述兩個函數(shù)在某一個固定時刻的相似程度。在目標跟蹤領(lǐng)域中,相關(guān)性的作用就是可以用它的相似度找到與跟蹤目標的最大響應項。
MOSSE算法[11]開啟了相關(guān)濾波器的大門,提出以濾波器求相關(guān)的形式來獲取輸出響應,進而獲得最大響應處的位置。最大響應處的位置就是期望跟蹤的目標中心位置,即
式中F表示輸入圖像,G表示輸出響應,H*表示訓練后的濾波模板,表示為
Bolme等人提出了MOSSE模型,即誤差最小平方和濾波器,這個經(jīng)典算法的提出是為了提高濾波器模型的魯棒性,在考慮到實際生活中要面臨的眾多目標跟蹤問題,例如遮擋,外觀形變等,為了模型的準確度,還要同時考慮目標的多個圖像。MOSSE模型公式為
僅以第一幀給定邊界框為訓練樣本過于單一,易產(chǎn)生過擬合。于是,文獻通過對Ground truth中的邊界框進行隨機仿射變換產(chǎn)生8個樣本進行訓練,對上式進行最小值求解獲得最終的H*,得
對于訓練好的濾波器,可以對下一幀進行目標位置檢測。對于下一幀,以第一幀的Ground truth的中心為中心在第二幀中取對應大小的待檢測區(qū)域,然后用訓練的H對其進行響應輸出,響應最大處即為這一幀的跟蹤中心,接著以這個點為中心畫出邊界框。第三幀再在上一幀檢驗出的中心位置附近重新框出待檢驗區(qū)域,同時更新H后進行響應輸出。為了讓濾波器魯棒性能夠在面對光照,外形等外界干擾下有所提高,此處將分子分母分開進行單獨更新,更新的策略為
其中,η為一個經(jīng)驗值,Ai和Ai-1分別表示的是當前幀和上一幀的分子,Bi和Bi-1表示的是當前幀和上一幀的分母。
2.1.1 CSK
對運動物體的表示以及相關(guān)性即相似性度量的定義在決定一個跟蹤算法的準確性和魯棒性有很關(guān)鍵的作用,而匹配搜索算法在很大程度上可以決定跟蹤算法的實時性,包括濾波預測算法。Bolme等人首次將相關(guān)濾波理論引入跟蹤領(lǐng)域,提出了MOSSE濾波器[11],通過獲得其最大響應處的位置來定位目標,該算法以像素的原始灰度值為特征,過于簡單,且沒有考慮目標尺度的變化,魯棒性能差。
Henriques等人提出了 CSK 算法[13],在 MOSSE的基礎(chǔ)上擴展了密集采樣(加padding)利用循環(huán)矩陣構(gòu)造訓練樣本。在訓練分類器時,一般認為離目標位置較近的是正樣本,離目標較遠的是負樣本,TLD[14]和 Struck[2]都會在每一幀隨機地挑選一些塊進行訓練,學習到的特征是這些隨機子窗口的特征,而CSK作者設計了密集采樣的框架,能夠?qū)W習到一個區(qū)域內(nèi)所有圖像塊的特征,并通過FFT變換在頻域中求解問題,從而極大地提升了算法的執(zhí)行速度。
表1 密集采樣和隨機采樣對比
CSK使用的決策函數(shù)是一個結(jié)構(gòu)風險最小化的函數(shù)
其中,L(y,f(x))為損失函數(shù),文獻[13]使用的是
訓練過程引入原始響應Y,可以理解為是對象的起始位置。起始位置都是第一幀的中心,故Y的圖像是根據(jù)跟蹤窗大小的建立的高斯函數(shù)。訓練的目的則是要找出當前幀對應的α,其訓練公式為
訓練完成后,可接著根據(jù)下一幀的核矩陣k和α,來檢測出目標中心
CSK使用像素的原始灰度值,未考慮尺度變化問題,因采用循環(huán)移位,會產(chǎn)生邊界效應。
2.1.2 CN
Danelljan等人采用了多通道顏色特征CN[15]去強化了CSK,CN的擴展原理是:(1)首先CN空間的11個色彩通道是由RGB空間的圖像對應映射過來的;(2)接著分別對每一個色彩通道進行快速傅里葉變換以及相應的核映射;(3)最后求加權(quán)和,即將所有通道的頻域信號進行相加。CSK的計算,訓練以及檢測等就可以完成。但是CN的缺點也很明晰,就是由此原理的算法計算量過大。
經(jīng)過PCA降維后,去掉了其中的冗余信息,同時,冗余信息的消除也減少了微小的跟蹤信息,所以為了提高跟蹤的準確性,對其中的協(xié)方差矩陣采用線性更新的方式,這樣就可以使降維矩陣的變化減小。結(jié)合核函數(shù)將原來的線性空間問題映射到非線性空間,解決了低維線性不可分問題。
2.1.3 KCF
KCF算法[16]是以CSK為基礎(chǔ),加入了HOG特征,HOG特征是一種多通道梯度特征。利用循環(huán)矩陣可對角化的性質(zhì)大大降低了運算量,并且引入高斯核函數(shù)構(gòu)造非線性濾波器,解決了彩色視頻序列中對目標的實時跟蹤問題。KCF通過平移產(chǎn)生大量樣本,并且給每個樣本賦予一個標簽,這個標簽根據(jù)離中心的距離標記,使用高斯分布來描述,即為置信度。其中,樣本在做平移之前需要通過cos窗口加權(quán),這樣做的目的是避免在平移過程中,邊緣太過強烈,引發(fā)計算復雜度。KCF和CSK的核心算法大致相同,兩者的主要差別在于特征、多尺度以及核變換。
KCF中可以用線性核,高斯核和多項式核,其中,高斯核函數(shù)相關(guān)性表示為^
x和^x'表示生成兩個不同的的DFT向量,^x*表示生成向量的復共軛,kxx'表示兩個向量的核相關(guān)性。
KCF準確率比Struck和TLD都高,但對尺度變化和目標遮擋、漂移不敏感。2.1.4 SAMF
尺度變化是跟蹤中比較基礎(chǔ)和常見的問題,CSK、KCF和CN的優(yōu)點是它們的跟蹤速度都很快,但也有很多缺點,例如沒有尺度更新等。比如在目標縮小的情況下,濾波器會自動的學到大量的背景信息;而在目標突然擴大的條件下,濾波器在檢測目標時只能關(guān)注到局部的紋理信息。這兩種情況都會導致跟蹤失敗。
SAMF[17]基于 KCF,讓平移濾波器在 7 個不同尺度縮放的圖像塊上進行目標檢測,選擇的最佳尺度即為檢測出來的最大響應值,所以它檢測出來的不僅是目標中心位置的變化,同時還有尺度變化,并結(jié)合HOG、Color Names和灰度特征描述目標,進一步提升了跟蹤效果,但是算法的實時性不高。
2.1.5 DSST
基于CSK提出了 DSST算法[18],采用 HOG特征,先利用線性核的相關(guān)濾波器檢測目標位置,然后利用一個一維的相關(guān)濾波器檢測尺度變化,而其中尺度檢測方法是獨立的,可與其它跟蹤算法結(jié)合,因此易于推廣。該算法能檢測33個尺度變化并保證跟蹤的實時性。在VOT2014競賽12中,DSST獲得第一名,SAMF和KCF分別獲得第二名和第三名。
Danelljan等人對 DSST進行了改進,提出了fDSST算法[19],采用PCA對特征進行降維,并且尺度由33個尺度減少為17個尺度,不僅提高了算法的魯棒性,而且速度是的DSST的2倍,但對目標快速形變和遮擋的情況效果不夠魯棒。
為了抑制KCF中循環(huán)移位導致的邊界效應,Danelljan等人提出了 SRDCF算法[20],通過在損失函數(shù)中加入懲罰項降低距目標較遠的樣本所產(chǎn)生的影響,并采用Gauss-Seidel迭代法優(yōu)化目標問題的求解,提高了跟蹤的精度和速度。
SAMF和DSST的對比如下。
(1)在尺度變化方面:SAMF和DSST的相同之處在于它們對于普通的目標尺度變化跟蹤效果都較好;不同之處在與尺度數(shù)量不同,SAMF有7個尺度,而DSST有33個尺度,所以DSST相比來說較為準確。
(2)最優(yōu)方式不同:DSST是局部最優(yōu),它先檢測平移達到最優(yōu)之后再檢測尺度達到最優(yōu),是分步檢測的;而SAMF是全局最優(yōu),它是同時檢測平移和尺度,使兩者同時達到最優(yōu)。
(3)濾波器的數(shù)量:由于DSST是分步最優(yōu),所以需要多訓練一個濾波器分別來計算特征等;而SAMF僅僅一個濾波器就足夠。
在多尺度跟蹤算法的選擇上,速度優(yōu)勢:fDSST、3個尺度的SAMF。精度優(yōu)勢:33個尺度的DSST、7個尺度的SAMF。
類似DSST的多尺度和類似SAMF的多尺度。如果更看重速度,加速版的fDSST,和3個尺度的SAMF(如VOT2014中的KCF)就是比較好的選擇;如果更看重精確,33個尺度的DSST,及7個尺度的SAMF就比較合適。
深度學習用于圖像跟蹤有兩大要解決的問題,一是圖像跟蹤一般使用在線學習,很難提供大量樣本集,二是深度學習使用CNN時,由于卷積池化,最后一層的輸出丟失了位置信息,而圖像跟蹤就是要輸出目標的位置。
精度和速度一直是跟蹤領(lǐng)域的矛盾。相比而言,基于深度學習方法的模型精度更好,但基于相關(guān)濾波(可以用FFT加速)的模型速度快很多。
2.2.1 深度特征結(jié)合相關(guān)濾波
傳統(tǒng)特征需要注意構(gòu)造的尺度不變性、旋轉(zhuǎn)不變性、光照不變性等特性,卷積特征已經(jīng)在訓練中天然集成了,而且特征的判別力很強,這也是卷積特征在CV各方向取得成功的原因,但傳統(tǒng)特征經(jīng)過多年優(yōu)化,其速度優(yōu)勢也是卷積特征無法比擬的。解決邊界效應的方法已經(jīng)有了 SRDCF[20]和CFLB[21],以后還會有更高效的算法,更強表達力更適合跟蹤的特征。經(jīng)典Hand-craft特征以HOG+CN為代表,性能優(yōu)秀而且速度優(yōu)勢非常突出,但也成為性能進一步提升的瓶頸。特征方面的進一步發(fā)展就是卷積特征(Convolutional Features)。
DeepSRDCF[22]是 VOT2015 的第二名,僅將SRDCF中的HOG特征替換為CNN中單層卷積層的深度特征(也就是卷積網(wǎng)絡的激活值),其他部分都和SRDCF完全相同,效果有了極大提升。
文獻[22]測試了不同卷積層在目標跟蹤任務中的表現(xiàn),第1層表現(xiàn)最好,第2和第5次之。由于卷積層數(shù)越高,語義信息越多,但紋理細節(jié)越少,論文分析從1到4層越來越差的就是由特征圖的分辨率越來越低,目標定位的精度也越來越低造成的,但第5層反而很高,是因為用于圖像分類,包括完整的語義信息,特征的判別力和不變性較強。每個卷積層的空間分辨率和特征維度都不同。DeepSRDCF選擇第一層作為卷積特征。
HCF(或 CF2)[23]比 DeepSRDCF 的單層卷積特征更進一步,在KCF框架之上,結(jié)合多層卷積特征,高層提供語義信息,底層提供紋理信息。HCF用了VGG-Net-19的 Conv5-4、Conv4-4和 Conv3-4的激活值作為卷積特征,所有特征都調(diào)整到圖像塊分辨率。
SRDCFdecon[24],在 SRDCF 的基礎(chǔ)上,改進了訓練樣本集和樣本權(quán)重(或?qū)W習率)問題,即自適應提純訓練集,是一種通用方法,可以和任何判別類方法結(jié)合,并不局限于SRDCF框架。樣本集和樣本權(quán)重主要影響模型更新,SRDCFdecon的做法是連續(xù)權(quán)值,每幀都重新確定重要性,和動態(tài)樣本先驗。首先選擇保存以往樣本,最多400個圖像塊的特征,然后在優(yōu)化目標中添加樣本權(quán)重參數(shù)和正則項:優(yōu)化采用ACS迭代,每次迭代優(yōu)化兩個子問題:固定樣本權(quán)重為上一幀的樣本權(quán)重和固定模型參數(shù)。實驗證明SRDCFdecon所有庫上都比SRDCF有提升,但缺點也很明顯,需要顯式保存很多樣本浪費存儲空間,優(yōu)化問題也變得更復雜,SRDCF是5FPS,而SRDCFdecon只有3FPS。
C-COT[25]綜合了SRDCF的空域正則化和SRDCFdecon的自適應樣本權(quán)重,還將DeepSRDCF的單層卷積的深度特征擴展為多層卷積的深度特征(VGG的第1和5層),最重要的是為了應對不同卷積層分辨率不同的問題,提出了連續(xù)空間域插值轉(zhuǎn)換操作interpolation operator,在訓練之前通過頻域隱式插值將特征圖插值到連續(xù)空域,方便集成多分辨率特征圖,并且保持定位的高精度。目標函數(shù)通過共軛梯度下降方法迭代優(yōu)化,比高斯-塞德爾方法要快,自適應樣本權(quán)值直接采用先驗權(quán)值,沒有交替凸優(yōu)化過程,檢測中用牛頓法迭代優(yōu)化目標位置。C-COT在OTB-2015,Temple-Color和VOT2015上都非常非常高,VOT2016的冠軍,但模型也很復雜,速度也相對較慢。
ECO[26]是 C-COT 的加速版,從模型大小、樣本集大小和更新策略三個方面加速,速度比C-COT提升了20倍,EAO提升了13.3%。方法是:第一減少模型參數(shù),定義了分解卷積操作,效果類似PCA,用PCA初始化,然后僅在第一幀優(yōu)化這個降維矩陣,后續(xù)幀可直接使用,即監(jiān)督降維,深度特征時模型參數(shù)減少了80%。第二減少樣本數(shù)量,緊湊的樣本集生成模型,采用GMM合并相似樣本,建立更具代表性和多樣性的樣本集,需要保存和優(yōu)化的樣本集數(shù)量降到C-COT的1/8。第三改變更新策略,稀疏更新策略,每隔5幀做一次優(yōu)化更新模型參數(shù),不但提高了算法速度,而且提高了對突變,遮擋等情況的穩(wěn)定性。但樣本集是每幀都更新的,稀疏更新并不會錯過間隔期的樣本變化信息。
2.2.2 端到端的訓練
除了相關(guān)濾波結(jié)合深度特征,相關(guān)濾波也可以以 End-to-end 方式在 CNN 中訓練。CFNet[27]在SiamFC[28]的基礎(chǔ)上,將相關(guān)濾波也作為CNN中的一層,最重要的是CF層的前向傳播和反向傳播公式推導。兩層卷積層近似HOG,聯(lián)合CF層端到端訓練,就得到了比KCF好很多的性能,這說明特征和分類器聯(lián)動非常重要,訓練到的特征更適合跟蹤任務,如果下一步將邊界效應問題也能通過結(jié)合CNN解決,算法效果會有進一步提升。
深度學習方法不論是卷積特征還是端到端訓練CNN,速度都比較慢,上述方法在跟蹤過程中都不需要每幀做CNN的fine-turn,所以網(wǎng)絡的前向傳播速度的速度非常關(guān)鍵,CFNet中的實驗表明跟蹤任務對網(wǎng)絡的深度和表達能力要求可能沒那么高,CNN加速可以參考一些小網(wǎng)絡或加速方法,如SqueezeNet22[29]、MobileNet[30]和二值 CNN[31-32]。
為了比較不同跟蹤算法的性能,需要對目標跟蹤的結(jié)果進行定量的評價,但是到目前為止目標跟蹤領(lǐng)域仍然沒有一個統(tǒng)一的評價標準。所以學者們都是同時使用多個評價指標共同評價跟蹤結(jié)果。
平均重疊期望(EAO)是對每個跟蹤器在一個短時圖像序列上的非重置重疊的期望值;準確率(Accuracy)是指跟蹤器在單個測試序列下的平均重疊率(兩矩形框的相交部分面積除以兩矩形框的相并部分的面積);魯棒性(Robustness)是指單個測試序列下的跟蹤器失敗次數(shù),當重疊率為0時即可判定為失敗。魯棒性的計算公式為
其中M是平均失敗次數(shù),即
N是序列的長度,F(xiàn)0是失敗總次數(shù),S是手工選擇的參數(shù)。
應用最廣泛的是 OTB-50[35]和 OTB-100[36],里面涉及到灰度圖像和彩色圖像,均可以免費下載,涉及到目標跟蹤的11個屬性,包括光照變化、尺度變化、遮擋、形變、運動模糊、快速運動、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、出視野、背景干擾、低像素。每個圖像序列都對應著兩個或多個屬性,每個序列都對應著一個txt文件,記錄著人工標注的目標中心位置和目標的大小。
VOT數(shù)據(jù)集是基于每年一次的VOT比賽的,每年都會有新的數(shù)據(jù)集產(chǎn)生,當然其中一部分圖像序列是和OTB重合的,但是總的來說VOT數(shù)據(jù)集略難于OTB數(shù)據(jù)集,一般用VOT16,在這兩個數(shù)據(jù)集上跟蹤效果都好,才算確定性能好,如果只在一個數(shù)據(jù)集上效果好,那只能說明該這個算法的泛化能力還不夠。
Temple Color 128[37]數(shù)據(jù)集里面包含的全是彩色序列,部分序列也是和OTB重合的,如果算法只適用于彩色序列可以在此數(shù)據(jù)集上進行測試。
VIVID Tracking數(shù)據(jù)集里面包含9個序列,均是從高空拍攝的車輛視頻圖像,包括灰度圖像和彩色圖像,相對時間都比較長,目標也比較小,遮擋情況比較多。
UAV123 Dataset數(shù)據(jù)集[38]是均是通過無人機拍攝的彩色圖像,但是需要下載麻煩,如果是做無人機目標跟蹤方面,此數(shù)據(jù)集一定必不可少。
為了對比不同跟蹤算法的性能,總結(jié)了經(jīng)典的幾種算法優(yōu)缺點。如下表2所示。
表2 近幾年相關(guān)濾波算法對比
由表2可以看出,HOG特征是使用最多的一種特征,大部分改進方法采用原始圖像灰度、HOG與顏色特征融合。除此之外,CF2中引入了CNN特征,Staple[40]同時考慮HOG與顏色直方圖特征。經(jīng)典方法中僅采用單一特征且未考慮目標尺度變化。經(jīng)典改進方法及后續(xù)改進方法中不僅特征多樣化,大部分方法還給出了目標尺度自適應策略,有利于跟蹤性能的進一步提升。
經(jīng)典算法CSK、KCF及其改進CN的執(zhí)行速率均大于100幀/s。后續(xù)算法在此基礎(chǔ)上改進,分別從尺度自適應、分塊、特征等方面進行考慮。在提高精確度的同時,由于模型復雜度的增加,算法的實時性有所降低,不過 DSST、CCT[41]、KCFDP[42]、MTSA、Staple等仍能滿足實時處理的需要。同樣采用基于尺度池的方法,DSST相比于SAMF實時性更好,SRDCF和Staple也用與DSST相似的方法實現(xiàn)尺度估計。CF2中引入了CNN特征,相比于CN的顏色特征以及Staple的顏色直方圖更復雜,降低了跟蹤實時性。
在 MATLAB 上對 KCF、DSST、Staple、SiamFC、ECO、CCOT等算法在VOT2016的數(shù)據(jù)庫上的跟蹤性能進行研究。
由表3可知,在跟蹤準確率這方面,深度學習優(yōu)于相關(guān)濾波跟蹤算法,但是在魯棒性方面,還是相關(guān)濾波算法占明顯優(yōu)勢,而且基于相關(guān)濾波的跟蹤算法在速度方面一直遠遠領(lǐng)先,但是深度卷積特征和相關(guān)濾波的結(jié)合使兩者的優(yōu)勢結(jié)合,表現(xiàn)出來的性能最好。
表3 仿真數(shù)據(jù)對比
目標跟蹤領(lǐng)域目前主要有兩大主流算法:基于相關(guān)濾波和深度學習的跟蹤算法。而本文主要介紹的是相關(guān)濾波和兩者結(jié)合的算法。相關(guān)濾波算法從MOSSE到CSK再到KCF,再有后來各種基于經(jīng)典算法的尺度改進算法,特征結(jié)合算法等,已成為近幾年來目標跟蹤領(lǐng)域的主流算法。
總體上說,相關(guān)濾波系列的跟蹤方法在實時性上優(yōu)勢明顯,實際中該采用哪種改進版本需視具體應用而定。相關(guān)濾波的方法也有一些缺陷,比如目標快速移動或形狀變化大會導致更多背景被學習進來,從而對CF系列方法造成影響。雖然后續(xù)的研究也有一些針對性的改進,比如改進邊界效應,改善背景更新策略或提高峰值響應圖的置信度等,但普適性還需要進一步研究,特別是對不同的應用針對性地調(diào)整。
(1)近期GAN[39](生成對抗網(wǎng)絡)應用在了目標檢測領(lǐng)域,原理是漸進增大生成器和鑒別器:從低分辨率開始,隨著訓練的進展,添加新的層對越來越精細的細節(jié)進行建模。為了得到更好的跟蹤性能,深度學習中需要對大量的樣本進行訓練,故對樣本有一定的依賴性,而GAN可以自動的生成輔助樣本,可以有效地解決樣本的獲取問題。
(2)充分利用CNN。現(xiàn)在目標跟蹤性能表現(xiàn)最好的應該是基于相關(guān)濾波和CNN結(jié)合的濾波器,但因所用CNN中有過多參數(shù),其實時性較差。只有更好地利用CNN的優(yōu)點,同時提高實時性和訓練的便捷性,才能讓CNN在目標跟蹤領(lǐng)域發(fā)揮它的最大優(yōu)勢。
(3)跟蹤和檢測是分不開的,比如傳統(tǒng)TLD框架使用的在線學習檢測器,或KCF密集采樣訓練的檢測器,以及當前基于深度學習的卷積特征跟蹤框架。一方面,跟蹤能夠保證速度上的需要,而檢測能夠有效地修正跟蹤的累計誤差。另一方面,不同的應用場合對跟蹤的成功率、準確度和魯棒性要求也不一樣。達到實際的跟蹤要求仍然需要更好的算法實現(xiàn)。
(4)跟蹤的另一個分支是多目標跟蹤。多目標跟蹤并不是簡單的多個單目標跟蹤,因為它不僅涉及到各個目標的持續(xù)跟蹤,還涉及到不同目標之間的身份識別、自遮擋和互遮擋的處理,以及跟蹤和檢測結(jié)果的數(shù)據(jù)關(guān)聯(lián)等。在基于深度學習的目標檢測成功率大幅提高的背景下,MOT的成功率也處于快速發(fā)展的通道中。