程 帥 曹永剛 孫俊喜 趙立榮 劉廣文 韓廣良
①(長春理工大學電子信息工程學院 長春 130022)
②(中國科學院長春光學精密機械與物理研究所 長春 130000)
③(東北師范大學計算機科學與信息技術(shù)學院 長春 130117)
基于增強群跟蹤器和深度學習的目標跟蹤
程 帥①曹永剛①②孫俊喜*③趙立榮①②劉廣文①韓廣良②
①(長春理工大學電子信息工程學院 長春 130022)
②(中國科學院長春光學精密機械與物理研究所 長春 130000)
③(東北師范大學計算機科學與信息技術(shù)學院 長春 130117)
為解決基于外觀模型和傳統(tǒng)機器學習目標跟蹤易出現(xiàn)目標漂移甚至跟蹤失敗的問題,該文提出以跟蹤-學習-檢測(TLD)算法為框架,基于增強群跟蹤器(FoT)和深度學習的目標跟蹤算法。FoT實現(xiàn)目標的預測與跟蹤,增添基于時空上下文級聯(lián)預測器提高預測局部跟蹤器的成功率,快速隨機采樣一致性算法評估全局運動模型,提高目標跟蹤的精確度。深度去噪自編碼器和支持向量機分類器構(gòu)建深度檢測器,結(jié)合全局多尺度掃描窗口搜索策略檢測可能的目標。加權(quán)P-N學習對樣本加權(quán)處理,提高分類器的分類精確度。與其它跟蹤算法相比較,在復雜環(huán)境下,不同圖片序列實驗結(jié)果表明,該算法在遮擋、相似背景等條件下具有更高的準確度和魯棒性。
計算機視覺;群跟蹤器;跟蹤-學習-檢測;深度學習;支持向量機;深度檢測器
目標跟蹤在各個領(lǐng)域得到廣泛應用,例如運動分析、行為識別等,同時也面臨巨大挑戰(zhàn):遮擋、相似背景、光照變化、外觀變化等[1]因素都能導致目標偏移甚至跟蹤失敗。基于外觀模型的跟蹤算法[25]-通過尺度不變特征轉(zhuǎn)換、方向梯度直方圖等特征對目標進行表達,這些特征不能反映目標本質(zhì)信息,跟蹤過程中常出現(xiàn)誤匹配問題。選用復雜的外觀模型,計算成本很高。
外觀模型與傳統(tǒng)的機器學習算法[69]-相結(jié)合,將跟蹤視為二值分類問題,有效地利用背景信息,以區(qū)分目標與背景,雖改進了跟蹤效果,但也面臨部分難題,沒有足夠的訓練數(shù)據(jù)來學習分類模型,對相似目標分辨能力不強,常出現(xiàn)錯誤分類問題。
深度學習[10]是目前研究熱點問題,通過構(gòu)建深層非線性網(wǎng)絡結(jié)構(gòu)可從少數(shù)樣本集中學習圖像信息的本質(zhì)特征,最終提高分類器分類的準確性。
群跟蹤器(Flock of Tracker,F(xiàn)oT)[11]將局部跟蹤器與全局運動模型相結(jié)合,可處理遮擋、非剛性目標局部變化的問題,單元格群跟蹤器(Cell FoT)[12]選擇最佳局部跟蹤器進行跟蹤,解決目標漂移問題,使目標跟蹤更具魯棒性。
為解決基于外觀模型和傳統(tǒng)機器學習目標跟蹤算法的問題,本文提出以跟蹤-學習-檢測(Tracking-Learning-Detection,TLD)[13]算法為框架,基于增強FoT和深度學習的目標跟蹤算法。在原有FoT的基礎(chǔ)上,利用局部跟蹤器的時空上下文[14],增添級聯(lián)預測器,提高預測局部跟蹤器的成功率。快速隨機采 樣 一 致 性 (RANdom SAmple Consensus,RANSAC)[15]算法評估跟蹤器的全局運動模型,減少迭代次數(shù),降低模型評估的失敗率。深度檢測器由深度去噪自編碼器(Stacked Denoising AutoEncoder,SDAE)[16]、支持向量機(Support Vector Machine,SVM)構(gòu)成,實現(xiàn)圖像信息的有效表達,利用無監(jiān)督特征學習和遷移學習解決訓練樣本不足問題,結(jié)合全局多尺度掃描窗口搜索策略,實現(xiàn)目標檢測。加權(quán)P-N學習考慮樣本權(quán)重,提高分類器分類準確度。K均值(K-means)聚類算法對在線模板集聚類,形成二值樹,減少模板匹配數(shù)量,降低計算復雜度。
在原有FoT跟蹤器基礎(chǔ)上,增強FoT利用局部跟蹤器時空上下文信息增添時空上下文預測器,并與NCC(Normalized Cross Correlation)預測器[13]構(gòu)成級聯(lián)預測器,對局部跟蹤器進行預測。快速RANSAC算法利用跟蹤成功的局部跟蹤器評估全局運動模型,預測下一幀中目標位置信息,圖1為增強FoT框圖。
圖1 增強FoT框圖
2.1 級聯(lián)預測器
級聯(lián)預測器由NCC預測器、時空上下文預測器構(gòu)成,3種預測器間采用級聯(lián)關(guān)系,局部跟蹤器只有符合3種預測器的條件才認定為跟蹤成功,否則跟蹤失敗。時間上下文預測器利用時間上下文信息構(gòu)建馬爾科夫鏈模型,根據(jù)當前時刻的信息預測下一時刻局部跟蹤器正確跟蹤的概率,判斷局部跟蹤器是否跟蹤成功,具體實現(xiàn)參考文獻[11]??臻g上下文預測器利用空間上下文信息假定短時間內(nèi)相鄰局部跟蹤器之間具有運動一致性,利用這一特性通過相鄰跟蹤器預測局部跟蹤器是否跟蹤成功,圖2為空間上下文預測器預測過程。
如圖2所示,x為跟蹤器i的參考點,每一對相關(guān)性 i, j ∈ 1,2,3,4得出相似性矩陣變換 Tij,通過得到的變換矩陣對x變換,映射誤差為符合條件的點即在以 x'為圓心,ijε為半徑的區(qū)域內(nèi)ijx? 點的個數(shù)達到設(shè)定的閾值時,認定x跟蹤成功。
2.2 快速RANSAC
快速 RANSAC算法能夠從包含大量外點的數(shù)據(jù)集合中快速、準確地估計出最優(yōu)參數(shù)模型,并使用貝葉斯算法更新內(nèi)點集合的概率,減少迭代次數(shù),降低模型失敗的概率。因此,根據(jù)級聯(lián)預測器得到局部跟蹤器集合,采用快速 RANSAC算法評估目標最優(yōu)全局運動模型,提高跟蹤器對目標位置的預測精度,解決目標漂移問題,具體實現(xiàn)參考文獻[15]。
深度檢測器由3個部分構(gòu)成:(1)滑動窗口,利用多尺度滑動窗口全局掃描輸入圖像;(2)SDAE編碼器,即深度去噪自編碼器的編碼器部分,提取多尺度掃描窗口內(nèi)圖像的特征,對圖像信息進行有效表達;(3)線性SVM分類器[17]二值分類提取的特征向量,預測窗口圖像為目標或背景?;瑒哟翱诓呗詤⒁娢墨I[13]。
3.1 SDAE
圖2 空間上下文預測器預測過程
SDAE從施加噪聲的訓練集中學習、重構(gòu)原始數(shù)據(jù),通過優(yōu)化重構(gòu)誤差提高深度網(wǎng)絡對噪聲的魯棒性。采用無監(jiān)督特征學習和逐層貪婪算法[18]預訓練多個自編碼器,預訓練過程如圖 3(a)。每個編碼器隱藏層的網(wǎng)絡單元都為輸入層網(wǎng)絡單元的一半,直到隱藏層網(wǎng)絡單元數(shù)減到256為止。預訓練完成后,展開多個自編碼器得到 SDAE,并添加超完備濾波層(2560),SDAE網(wǎng)絡結(jié)構(gòu)如圖3(b)所示。為獲得更有效的網(wǎng)絡參數(shù),反向傳播原始數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間誤差微調(diào)整個網(wǎng)絡,微調(diào)后網(wǎng)絡結(jié)構(gòu)如圖3(c)。由圖 3(b)、圖 3(c)的輸出結(jié)果可看出,微調(diào)后得到的重構(gòu)數(shù)據(jù)更接近原始數(shù)據(jù),實現(xiàn)了網(wǎng)絡參數(shù)優(yōu)化。
3.2 SVM分類器
在二值分類問題中,用線性 SVM 分類器取代傳統(tǒng)的 sigmoid分類器,提高深度檢測器對相似目標的辨識能力,解決目標漂移或跟蹤丟失問題,分類與微調(diào)過程如下。
假定訓練樣本為(xn,yn),n = 1,2…, ,N, nx∈,無約束條件的SVM優(yōu)化問題為
式中,C為規(guī)則參數(shù),式(1)為標準hinge loss函數(shù)的二階范數(shù)優(yōu)化問題(L2-SVM)。
預測數(shù)據(jù)x的類標記公式為
為了進一步優(yōu)化深度分類神經(jīng)網(wǎng)絡,利用經(jīng)典的反向傳播算法,通過 SVM 分類器微調(diào)整個深度網(wǎng)絡。令等式(3)為目標函數(shù)()lw,倒數(shù)第2層的激活值h取代輸入數(shù)據(jù)x,優(yōu)化公式為
圖3 SDAE構(gòu)建圖
在線P-N學習算法[9]在標記樣本過程中常出現(xiàn)錯誤標記問題,用錯誤標記的樣本訓練分類器,很大程度上降低分類器性能,導致目標偏移甚至跟蹤失敗。為解決上述問題,在分類過程中,對訓練集合中每個樣本賦予兩類權(quán)值:正樣本權(quán)值W+、負樣本權(quán)值W-。正、負樣本權(quán)值分別由兩部分構(gòu)成:
式中,Wb為自擴散(boostrapping)分類過程賦予的權(quán)值,Wc為SVM分類過程賦予的權(quán)值。+表示正樣本,-表示負樣本。
其中,f+,f-分別為樣本被分類為正樣本、負樣本的次數(shù)。
在分類過程中,SVM分類器二值分類編碼器提取的特征向量 x,每個圖像塊被分類為正樣本的后驗概率為 P( y = 1|x ),則分類權(quán)值計算公式為
樣本被最后被分類為正樣本或負樣本的計算公式為
圖4為算法流程圖。
離線訓練階段,將32 32× 自然圖像集[19]進行歸一化處理,并用1024維特征向量表示,每一維對應一個像素。利用預處理的數(shù)據(jù),通過無監(jiān)督特征學習預訓練 SDAE。預訓練完成后,根據(jù)輸入數(shù)據(jù)和重構(gòu)數(shù)據(jù)之間的誤差,通過經(jīng)典反向傳播算法微調(diào)整個網(wǎng)絡。遷移學習將預訓練得到SDAE的編碼器轉(zhuǎn)化到在線跟蹤過程中。
為加快第1層預訓練過程,將大小32 32× 的自然圖像分為5個大小為16 16× 的圖像塊,位置分別在左上角、右上角、左下角、右下角及中心,然后訓練這5個有512個隱藏單元的自編碼器,根據(jù)5個編碼器的權(quán)值初始化第1層的自編碼器。
圖4 算法流程圖
在線跟蹤初始化階段,首先在第1幀圖像中手動選取待跟蹤的目標,并對目標圖像扭曲、旋轉(zhuǎn)、縮放建立完整的目標全視角數(shù)據(jù)庫[20],以此作為正樣本,這對目標旋轉(zhuǎn)、縮放、外觀局部變化等都具有很好的魯棒性,選取目標周圍的背景區(qū)域作為負樣本,通過正負樣本集有監(jiān)督訓練深度檢測器。正負樣本集通過SDAE編碼器提取樣本特征,利用提取特征集和類標記訓練SVM分類器。
在線跟蹤階段,增強FoT跟蹤器和深度檢測器并行處理每一幀圖像,增強FoT跟蹤器預測當前幀中目標所在的位置,深度檢測器檢測一個或多個可能的目標位置,整合模塊整合檢測結(jié)果和跟蹤結(jié)果,得到當前幀是否存在目標、目標位置及當前幀跟蹤軌跡是否有效等信息。加權(quán)P-N學習更新跟蹤器和檢測器。
TLD中模板更新策略雖然適應目標外觀變化及光照等外界環(huán)境影響,但是使在線模板數(shù)量不斷增加,從而增加匹配過程中的計算復雜度。利用K-means算法,將在線模板分為兩個子集合,構(gòu)成二值樹,計算復雜度從原來的 ()O n簡化為 (lg)O n,從而減少了時間復雜度。
第1部分為TLD對比實驗,包括跟蹤器、檢測器及在線學習性能對比。用序列 David[13],Jumping[13],Pedestrian1[13[13],Car[13]對跟蹤器進行性能比較,其中TFB+NCC為TLD的跟蹤器,Tcascade為有級聯(lián)預測器的跟蹤器,Tcascade+RANSAC為有級聯(lián)預測器和快速 RANSAC的跟蹤器。通過成功跟蹤目標幀數(shù)對短時跟蹤器進行性能評估,跟蹤結(jié)果與真實位置之間的重疊率大于0.5,認定為跟蹤成功,表1為3種跟蹤器成功跟蹤幀數(shù)對比結(jié)果。
從表 1可得,Tcascade+RANSAC成功跟蹤目標的幀數(shù)多于其他兩種跟蹤器,因為級聯(lián)預測器過濾掉沒有正確跟蹤局部跟蹤器,即外點,減少外點對全局跟蹤模型的干擾,同時快速 RANSAC有效評估全局跟蹤模型,有效解決目標漂移問題,實現(xiàn)更魯棒的目標跟蹤。
檢測器性能比較,TLD算法中檢測器是基于2 bit BP特征和級聯(lián)分類器,本文算法中檢測器是基于深度學習和 SVM 分類器,兩者均采用滑動窗口策略,圖5,圖6為跟蹤結(jié)果。
如圖5所示,在Freeman1[1],Pktest01[21]序列中,TLD算法(黑色虛線)均出現(xiàn)誤匹配問題,將背景或相似目標作為跟蹤結(jié)果,本文算法(黑色實線)可實現(xiàn)正確的跟蹤。由于TLD算法僅使用像素級特征(2 bit BP)進行分類與模板匹配,將匹配度最高的作為跟蹤結(jié)果,在相似背景的干擾下,極易產(chǎn)生錯誤匹配問題,而本文算法利用深度學習對目標進行有效表達,減少分類誤差,解決誤匹配問題,對場景中相似目標具有更高的辨識能力。如圖 6所示,在Woman[1],Subway[1]序列中,TLD(黑色虛線)首先是出現(xiàn)漂移問題,之后在遮擋、相似目標的干擾下,跟蹤失敗。本文算法(黑色實線)在樣本數(shù)不足時,可實現(xiàn)魯棒的跟蹤。這是因為當訓練樣本數(shù)量不足時,TLD算法訓練得到級聯(lián)分類器分類能力差,導致目標偏移甚至跟蹤失敗。而本文算法可利用自然圖像數(shù)據(jù)預訓練深度網(wǎng)絡,再利用遷移學習將預訓練知識應用到在線跟蹤中,克服訓練樣本不足問題。
表1 目標成功跟蹤幀數(shù)
在線學習機制對比實驗,經(jīng) David[13],Carchase[13],Panda[13]序列測試,圖7為加權(quán)P-N學習與P-N學習跟蹤結(jié)果對比圖,每組圖片中第1列為目標的真實位置,第2列P-N學習跟蹤結(jié)果,第3列為加權(quán)P-N學習跟蹤結(jié)果,可以看出P-N學習在跟蹤過程中產(chǎn)生不同程度的目標漂移問題,加權(quán)P-N學習考慮樣本權(quán)重,提高分類器的精確度,解決目標漂移問題。
第 2部分為與目前流行的 BSBT[22],coGD[23],CXT[24]算法進行定性對比實驗,圖8為4種跟蹤算法在Carchase[13],Panda[13]序列的跟蹤結(jié)果。
在Carchase序列中跟蹤目標為運動的小車,小車在運動過程中常受到遮擋、相似背景及尺度變化等復雜環(huán)境的影響。在238幀中由于相似目標的干擾,CXT和coGD算法出現(xiàn)目標漂移,BSBT算法常出現(xiàn)錯誤跟蹤,本文算法可實現(xiàn)正確的跟蹤。在682,1290幀,CXT和coGD算法均已跟蹤失敗,BSBT算法同樣出現(xiàn)錯誤跟蹤問題,本文算法依然具有穩(wěn)定跟蹤。這是由于coGD,CXT,BSBT算法均采用像素級特征,不能對圖像進行有效的表達,所以在相似背景條件下常出現(xiàn)目標漂移甚至錯誤跟蹤,本文算法利用深度網(wǎng)絡提取圖像本質(zhì)特征,即使有相似目標的干擾,依然可以實現(xiàn)正確跟蹤。
在Panda序列中大熊貓在行走時姿態(tài)不斷發(fā)生改變,BSBT,CXT,coGD算法在跟蹤前期就出現(xiàn)漂移現(xiàn)象,之后在 472幀,CXT和coGD算法出現(xiàn)目標漂移,BSBT已跟蹤失敗,但本文算法依然能夠?qū)崿F(xiàn)穩(wěn)定跟蹤。在 1472幀目標重新出現(xiàn)在視場中,本文算法能夠重新準確的定位到目標,BSBT算法出現(xiàn)目標漂移現(xiàn)象,CXT和coGD算法均跟蹤失敗。由于目標在行走中姿態(tài)不斷變化,導致BSBT,CXT,coGD算法在線學習過程中訓練樣本不足,同時樣本得不到及時更新,得到的分類器分類精度不高,最終導致目標漂移甚至跟蹤失敗。由于跟蹤過程中可用訓練樣本數(shù)量很少,本文算法可利用自然圖像集預訓練深度檢測器,優(yōu)化網(wǎng)絡參數(shù),將預訓練得到的深度檢測器應用到在線跟蹤過程中,解決訓練樣本不足導致的分類精度不高問題,實現(xiàn)魯棒的跟蹤。
第3部分為與MIL[3],OAB[6],SBT[7]跟蹤算法定量對比實驗,這些算法參數(shù)均使用默認值,具體實現(xiàn)參考相應文獻。使用準確率、召回率判定算法優(yōu)越性,為了使結(jié)果更加一般化,每個算法在每組序列上均進行20次測試,取其平均值作為最后的跟蹤結(jié)果,跟蹤結(jié)果準確率如表2所示。
圖5 誤匹配跟蹤結(jié)果
圖6 訓練樣本不足跟蹤結(jié)果
圖7 加權(quán)P-N學習與P-N學習跟蹤結(jié)果
準確率越高表明算法跟蹤精度越高,由表2可得,在David等[13]10組圖片序列中,本文算法的準確率有6組結(jié)果為最好,3組為次好結(jié)果,表明本文算法在復雜環(huán)境下如遮擋、相似背景、劇烈運動等具有更高跟蹤精度。召回率越高表明算法能夠正確檢測及跟蹤目標的幀數(shù)越多,魯棒性越好。表 3為跟蹤結(jié)果的召回率,由表3可得,本文算法的召回率均高于其他算法,表明本文算法在目標可見時,實現(xiàn)成功跟蹤的比率更大,魯棒性更好。
圖8 跟蹤結(jié)果對比圖
表2 平均準確率
表3 平均召回率
本文提出以TLD為框架,基于增強FoT和深度學習的目標跟蹤算法,基于時空上下文的級聯(lián)預測器和快速 RANSAC算法提高跟蹤器的穩(wěn)定性。深度學習與線性 SVM 構(gòu)建深度檢測器,克服了基于外觀模型和傳統(tǒng)機器學習目標跟蹤算法的缺點,將深度學習與計算機視覺(SVM)相結(jié)合應用到目標跟蹤領(lǐng)域。在復雜環(huán)境下與其他跟蹤算法進行比較,實驗結(jié)果表明,本算法在復雜環(huán)境下具有更高的準確性和魯棒性,具有極高的實用價值。下一步工作利用核SVM、隨機深林等分類器取代線性SVM分類器,進一步提高分類精確度。
[1] Wu Y,Lim J,and Yang M H. Online object tracking:A benchmark[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:2411-2418.
[2] Ross D A,Lim J,Lin R S,et al.. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision,2008,77(3):125-141.
[3] Babenko B,Yang M H,and Belongie S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[4] 陳東成,朱明,高文,等. 在線加權(quán)多示例學習實時目標跟蹤[J]. 光學精密工程,2014,22(6):1661-1667.
Chen Dong-cheng,Zhu Ming,Gao Wen,et al.. Real-time object tracking via online weighted multiple instance learning[J]. Optics and Precision Engineerin,2014,22(6):1661-1667.
[5] He S F,Yang Q X,Rynson L,et al.. Visual Tracking via Locality Sensitive Histograms[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:2427-2434.
[6] Grabner H,Grabner M,and Bischof H. Real-time tracking via online boosting[C]. Proceedings of British Machine Vision Conference,Edinburgh,UK,2006:47-56.
[7] Grabner H,Leistner C,and Bischof H. Semi-supervised on-line boosting for robust tracking[C]. Proceedings of European Conference on Computer Vision,Berlin,Germany,2008:234-247.
[8] 顏佳,吳敏淵. 遮擋環(huán)境下采用在線 Boosting的目標跟蹤[J].光學精密工程,2012,20(2):439-446.
Yan Jia and Wu Ming-yuan. On-line boosting based target tracking under occlusion[J]. Optics and Precision Engineering,2012,20(2):439-446.
[9] Kalal Z,Matas J,and Mikolajczyk K. P-N learning:bootstrapping binary classifiers by structural constraints[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,New York,USA,2010:49-56.
[10] 鄭胤,陳權(quán)崎,章毓晉. 深度學習及其在目標和行為識別中的新進展[J]. 中國圖像圖形學報,2014,19(2):175-184.
Zheng Ying,Chen Quan-qi,and Zhang Yu-jin. Deep learning and its new progress in object and behavior recognition[J]. Journal of Image and Graphic,2014,19(2):175-184.
[11] Tomas V and Jiri M. Robustifying the flock of trackers[C]. Proceedings of Computer Vision Winter Workshop,Graz,Austria,2011:91-97.
[12] 周鑫,錢秋朦,葉永強,等. 改進后的TLD視頻目標跟蹤方法[J]. 中國圖象圖形學報,2013,18(9):1115-1123.
Zhou Xin,Qian Qiu-meng,Ye Yong-qiang,et al.. Improved TLD visual target tracking algorithm[J]. Journal of Image and Graphic,2013,18(9):1115-1123.
[13] Kalal Z,Mikolajczyk K,and Matas J. Tracking-learningdetection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409-1422.
[14] Zhang K,Zhang L,Liu Q,et al.. Fast visual tracking via dense spatio-temporal context learning[C]. Proceedings of European Conference on Computer Vision,Zurich,Switzerland,2014:127-141.
[15] Botterill T,Mills S,and Green R D. New conditional sampling strategies for speeded-up RANSAC[C]. Proceedings of British Machine Vision Conference,London,UK,2009:1-11.
[16] Vincent P,Larochelle H,Lajoie I, et al.. Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research,2010,11(2):3371-3408.
[17] Tang Yi-chuan. Deep learning using linear support vector machines[C]. Proceedings of International Conference on Machine Learning:Challenges in Representational Learning Workshop,Atlanta,USA,2013:266-272.
[18] Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.
[19] Torralba A,F(xiàn)ergus R,and Freeman W T. 80 million tiny images:a large data set for nonparametric object and scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1958-1970.
[20] 高文,湯洋,朱明. 復雜背景下目標檢測的級聯(lián)分類器算法研究[J]. 物理學報,2014,63(9):094204.
Gao Wen,Tang Yang,and Zhu Ming. Study on the cascade classifier in target detection under complex background[J]. Acta Physica Sinica,2014,63(9):094204.
[21] Collins R T,Zhou X H,and Teh S K. An open source tracking test bed and evaluation web site[C]. Proceedings of IEEE International Workshop on Performance Evaluation ofTracking and Surveillance,Breckenridge,USA,2005:17-24.
[22] Stalder S,Grabner H,and Van G L. Beyond semi-supervised tracking:tracking should be as simple as detection,but not simpler than recognition[C]. Proceedings of IEEE Conference on Computer Vision Workshops,Kyoto,Japan,2009:1409-1416.
[23] Dinh T B,Vo N,and Medion G. Context tracker:exploring supporters and distracters in unconstrained environments[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Providence,USA,2011:1177-1184.
[24] Qian Yu,Thang B D,and Gerard M. Online tracking and reacquisition using co-trained generative and discriminative trackers[C]. Proceedings of European Conference on Computer Vision,Marseille,F(xiàn)rance,2008:678-691.
程 帥: 男,1987年生,博士生,研究方向為圖像處理、目標跟蹤、深度學習.
曹永剛: 男,1972年生,博士生,研究員,研究方向為光電測控設(shè)備總體及時統(tǒng)技術(shù).
孫俊喜: 男,1971年生,博士,教授,研究方向為模式識別與智能系統(tǒng)、目標的檢測與跟蹤、嵌入式車牌識別系統(tǒng)、醫(yī)學圖像處理與分析.
趙立榮: 女,1971年生,博士,研究員,研究方向為視頻判讀、數(shù)據(jù)處理等.
劉廣文: 男,1971年生,博士,副教授,研究方向為智能信息處理.
韓廣良: 男,1968年生,博士,研究員,研究方向為實時視頻處理、視頻目標識別和跟蹤、計算機視覺.
Target Tracking Based on Enhanced Flock of Tracker and Deep Learning
Cheng Shuai①Cao Yong-gang①②Sun Jun-xi③Zhao Li-rong①②Liu Guang-wen①Han Guang-liang②
①(School of Electronic Information Engineering,Changchun University of Science and Technology,Changchun 130022,China)
②(Changchun Institute of Optics, Fine Mechanics and Physics,Chinese Academy of Sciences,Changchun 130000, China)
③(School of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China)
To solve the problem that the tracking algorithm often leads to drift and failure based on the appearance model and traditional machine learning,a tracking algorithm is proposed based on the enhanced Flock of Tracker(FoT) and deep learning under the Tracking-Learning-Detection (TLD) framework. The target is predicted and tracked by the FoT,the cascaded predictor is added to improve the precision of the local tracker based on the spatio-temporal context,and the global motion model is evaluated by the speed-up random sample consensus algorithm to improve the accuracy. A deep detector is composed of the stacked denoising autoencoder and Support Vector Machine (SVM),combines with a multi-scale scanning window with global search strategy to detect the possible targets. Each sample is weighted by the weighted P-N learning to improve the precision of the deep detector. Compared with the state-of-the-art trackers,according to the results of experiments on variant challenging image sequences in the complex environment,the proposed algorithm has more accuracy and better robust,especially for the occlusions,the background clutter and so on.
Computer vision;Flock of Tracker (FoT);Tracking-Learning-Detection (TLD);Deep learning;Support Vector Machine (SVM);Deep detector
TP391.4
A
1009-5896(2015)07-1646-08
10.11999/JEIT141362
2014-10-29收到,2015-03-23改回,2015-06-01網(wǎng)絡優(yōu)先出版
國家自然科學基金(61172111)和吉林省科技廳項目(20090512,20100312)資助課題
*通信作者:孫俊喜 juxi_sun@126.com