梁 碩,陳金勇,吳金亮
(中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊050081)
基于分類的視頻目標(biāo)跟蹤算法研究
梁 碩,陳金勇,吳金亮
(中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊050081)
針對(duì)視頻目標(biāo)跟蹤中的速度和準(zhǔn)確度問題,介紹了視頻目標(biāo)跟蹤的表觀模型和跟蹤模型,重點(diǎn)對(duì)當(dāng)前基于分類的視頻目標(biāo)跟蹤算法進(jìn)行了研究。對(duì)4種最具有代表性的基于分類的跟蹤算法,分別從光照變化、尺度變化、遮擋和復(fù)雜背景4個(gè)方面進(jìn)行速度和準(zhǔn)確度的定量實(shí)驗(yàn)評(píng)估,根據(jù)實(shí)驗(yàn)結(jié)果分析各算法的優(yōu)缺點(diǎn),為新算法的提出提供參考。
目標(biāo)檢測(cè);分類學(xué)習(xí);目標(biāo)跟蹤;評(píng)估算法
視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域研究中的一個(gè)核心問題。在過去的10多年中它已經(jīng)迅速成為學(xué)者們研究的熱點(diǎn),不斷地被應(yīng)用于國(guó)防軍事和人民生產(chǎn)生活的各個(gè)領(lǐng)域。經(jīng)過近幾年的發(fā)展,越來越多的學(xué)者將機(jī)器學(xué)習(xí)的理論應(yīng)用到視頻目標(biāo)跟蹤中,提出了許多分類學(xué)習(xí)的算法,為視頻目標(biāo)跟蹤開創(chuàng)了一個(gè)新的方向,取得了良好的效果。
但由于視頻中噪聲、光照變化、目標(biāo)尺度變化、復(fù)雜背景以及遮擋等問題的存在,當(dāng)前仍沒有一個(gè)算法能夠完全滿足任何條件下魯棒性和實(shí)時(shí)性的要求。有的算法能夠進(jìn)行快速的實(shí)時(shí)跟蹤,可能跟蹤的準(zhǔn)確度就會(huì)很差。有的算法能夠?qū)δ繕?biāo)進(jìn)行準(zhǔn)確跟蹤,卻可能需要長(zhǎng)時(shí)間處理,無法達(dá)到實(shí)時(shí)性要求。有的算法能夠有效克服光照變化的影響,卻無法抵抗遮擋的問題。因此,對(duì)于當(dāng)前先進(jìn)跟蹤算法的性能評(píng)估就成為一個(gè)十分必要的工作,分析比較各個(gè)算法的優(yōu)勢(shì)和劣勢(shì)對(duì)下一步的研究工作有著非常重要的意義。
本文綜合計(jì)算機(jī)視覺數(shù)據(jù)集,從光照變化、尺度變化、背景復(fù)雜和遮擋4個(gè)方面進(jìn)行分類,每個(gè)方面選取了10個(gè)視頻序列進(jìn)行測(cè)試,對(duì)STRUCK[1]、TLD[2]、CT[3]和KCF[4]算法設(shè)計(jì)了統(tǒng)一的接口,從準(zhǔn)確度和速度方面進(jìn)行評(píng)估,并對(duì)評(píng)估結(jié)果進(jìn)行分析,為算法改進(jìn)研究提供參考價(jià)值。
視頻目標(biāo)跟蹤是根據(jù)目標(biāo)的表觀特征信息和目標(biāo)運(yùn)動(dòng)模型,在視頻序列中估計(jì)目標(biāo)的位置和范圍。迄今為止,基于分類的視頻目標(biāo)跟蹤算法因其魯棒性取得了良好的效果,許多學(xué)者都提出了相關(guān)算法。視頻目標(biāo)跟蹤一般包含兩大方面的內(nèi)容:表觀特征描述和跟蹤算法。
視頻目標(biāo)具有細(xì)節(jié)豐富的表觀信息,需要通過相應(yīng)的目標(biāo)表觀特征描述方法將其中的相對(duì)穩(wěn)定的統(tǒng)計(jì)特性或某些不變特性提取出來,以此對(duì)目標(biāo)和背景進(jìn)行區(qū)分。原始圖像特征直接將目標(biāo)區(qū)域的原始圖像信息[5]或經(jīng)簡(jiǎn)單處理得到的底層圖像特征作為對(duì)目標(biāo)的描述[6]。通常選取的特征有灰度、顏色和梯度等。該類特征提取簡(jiǎn)單、快速,但對(duì)目標(biāo)特征的挖掘程度低,適應(yīng)力較差。直方圖特征[7],通過統(tǒng)計(jì)目標(biāo)區(qū)域內(nèi)某種特征在每個(gè)像素位置上出現(xiàn)的頻次,并進(jìn)行歸一化,構(gòu)成該目標(biāo)區(qū)域?qū)?yīng)特征的概率密度函數(shù)。直方圖有效描述了特征的統(tǒng)計(jì)特性,對(duì)于非剛體形變具有較好的魯棒性,但對(duì)于光照變化和背景雜波有一定欠缺。稀疏表示理論[8],通過超完備字典將目標(biāo)映射為稀疏向量,作為表觀描述特征,計(jì)算量小,但有一定的隨機(jī)性,不能保證最優(yōu)。
為了估計(jì)目標(biāo)的位置和范圍,需要選擇合適的跟蹤算法對(duì)目標(biāo)進(jìn)行跟蹤。學(xué)者們提出了許多跟蹤算法,文獻(xiàn)[9-11]基于貝葉斯理論,對(duì)目標(biāo)位置直接進(jìn)行預(yù)測(cè)。文獻(xiàn)[12-14]對(duì)均值漂移的方法進(jìn)行了改進(jìn)。文獻(xiàn)[15-18]提出了基于分類的跟蹤算法,將目標(biāo)和背景都作為樣本進(jìn)行訓(xùn)練,通過分類器對(duì)目標(biāo)和背景進(jìn)行區(qū)分。
為了保證評(píng)估的公平性,所選的數(shù)據(jù)集帶有目標(biāo)的真實(shí)信息,測(cè)試的跟蹤算法以及其中特定的參數(shù)都是由作者本人公開發(fā)表的。
2.1 數(shù)據(jù)集的選取
對(duì)視頻目標(biāo)跟蹤算法的性能進(jìn)行評(píng)估,首先要選取合適的數(shù)據(jù)集。計(jì)算機(jī)視覺方面有許多經(jīng)典的數(shù)據(jù)集可供選擇,其中都包含目標(biāo)的真實(shí)包圍盒信息,比如VIVID、CAVIAR等。本文根據(jù)算法評(píng)估需要,選擇合適的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并將數(shù)據(jù)分為以下4類:光照變化、尺度變化、遮擋和復(fù)雜背景。測(cè)試數(shù)據(jù)集如圖 1所示。其中,選取各個(gè)數(shù)據(jù)集中第1幀視頻作為代表,矩形框?yàn)槟繕?biāo),第1、2、3、4行分別為光照變化類數(shù)據(jù)集、尺度變化類數(shù)據(jù)集、遮擋類數(shù)據(jù)集、復(fù)雜背景類數(shù)據(jù)集。
圖1 測(cè)試數(shù)據(jù)集
2.2 跟蹤算法的選取
在基于分類的視頻目標(biāo)跟蹤算法中,STRUCK、TLD、CT和KCF算法在速度和準(zhǔn)確度方面分別有著獨(dú)特的表現(xiàn),是當(dāng)前最為先進(jìn)的視頻目標(biāo)跟蹤算法的代表。STRUCK提取目標(biāo)區(qū)域Haar特征,引入核函數(shù),采用非線性的SVM分類器。TLD將整個(gè)跟蹤過程分為跟蹤器、學(xué)習(xí)器和檢測(cè)器3個(gè)獨(dú)立的部分,通過檢測(cè)器和跟蹤器聯(lián)合輸出目標(biāo),學(xué)習(xí)器對(duì)跟蹤器和檢測(cè)器進(jìn)行監(jiān)督。其中,檢測(cè)器通過提取目標(biāo)的梯度和LBP特征,跟蹤器采用前后光流法。CT引入壓縮感知技術(shù),對(duì)多尺度的樣本空間進(jìn)行降維,對(duì)目標(biāo)提取Haar-like特征,選用貝葉斯模型分類器。KCF對(duì)目標(biāo)提取HOG特征和LAB特征,變換到傅里葉域處理,引入核函數(shù),采用嶺回歸分類器對(duì)目標(biāo)進(jìn)行跟蹤。
視頻目標(biāo)跟蹤算法必須滿足魯棒性和實(shí)時(shí)性才能保證系統(tǒng)的追蹤性能。本文采取目標(biāo)包圍盒的形式來表示目標(biāo),對(duì)視頻目標(biāo)跟蹤進(jìn)行定量分析,從準(zhǔn)確度和速度2個(gè)方面對(duì)STRUCK、CT、TLD和KCF算法進(jìn)行評(píng)估。
3.1 準(zhǔn)確度評(píng)估標(biāo)準(zhǔn)
3.2 速度評(píng)估標(biāo)準(zhǔn)
每種跟蹤算法對(duì)視頻的跟蹤速度是一個(gè)非常重要的標(biāo)準(zhǔn),本文以跟蹤算法每秒處理幀數(shù)(FPS)為跟蹤速度的評(píng)估標(biāo)準(zhǔn)。
光照變化測(cè)試數(shù)據(jù)集包含10組視頻序列,共計(jì)10 066幀;尺度變化測(cè)試數(shù)據(jù)集包含10組視頻序列,共計(jì)11 037幀;遮擋測(cè)試數(shù)據(jù)集包含10組視頻序列,共計(jì)19 283幀;復(fù)雜背景測(cè)試數(shù)據(jù)集包含10組視頻序列,共計(jì)17 288幀。算法運(yùn)行環(huán)境為IntelCorei7-3770,CPU3.40GHz,RAM3.47GB的PC機(jī)。
4.1 實(shí)驗(yàn)結(jié)果
圖2 實(shí)驗(yàn)結(jié)果
4.2 速度評(píng)估結(jié)果及分析
針對(duì)4組不同類別的數(shù)據(jù)集,本文記錄了每個(gè)算法對(duì)每個(gè)數(shù)據(jù)集處理的平均速度,以此為標(biāo)準(zhǔn)繪制成折線圖,結(jié)果如圖3所示。
由圖3可以看出,跟蹤速度與數(shù)據(jù)集的類別沒有太大關(guān)系,在4組類別的數(shù)據(jù)集中,CT和KCF都具有非常高的跟蹤速率,平均可達(dá)100fps左右,而TLD和STRUCK跟蹤速率不佳,平均只有20fps左右。CT運(yùn)用了壓縮感知理論,將正負(fù)樣本進(jìn)行尺度變換,對(duì)樣本量進(jìn)行擴(kuò)充,然后將這個(gè)多尺度的樣本空間的樣本通過稀疏矩陣投影到低維空間中,降低了計(jì)算量。KCF引入循環(huán)矩陣對(duì)樣本進(jìn)行稠密采樣,將時(shí)域的卷積運(yùn)算變換到頻域進(jìn)行乘積運(yùn)算,從而實(shí)現(xiàn)快速采樣和快速檢測(cè),大大提高了跟蹤速度。
圖3 速度評(píng)估結(jié)果
4.3 準(zhǔn)確度評(píng)估結(jié)果及分析
針對(duì)4組不同類別的數(shù)據(jù),為了消除單個(gè)數(shù)據(jù)的偶然性,本文記錄了每組數(shù)據(jù)集中的跟蹤成功率,并繪制成柱狀圖進(jìn)行表示,結(jié)果如圖 4所示。
圖4 準(zhǔn)確度評(píng)估結(jié)果
由圖4可以看出,在任何類別的數(shù)據(jù)集中KCF的準(zhǔn)確度最高。在光照變化、遮擋和復(fù)雜背景數(shù)據(jù)集中,STRUCK的表現(xiàn)僅次于KCF,而在尺度變化中,TLD的表現(xiàn)較好,CT的整體表現(xiàn)較差。
KCF通過對(duì)目標(biāo)進(jìn)行HOG特征進(jìn)行提取,并結(jié)合LAB特征,同時(shí)加入核函數(shù)的嶺回歸分類器分類性能較強(qiáng),具有與SVM相當(dāng)?shù)男Ч?,能夠?qū)δ繕?biāo)進(jìn)行有效標(biāo)記,提高了算法的魯棒性。STRUCK在跟蹤過程中,采用的是比較精確的非線性SVM分類器,對(duì)準(zhǔn)確率有了一定的提高,但并沒有針對(duì)目標(biāo)的尺度變化采取任何措施。TLD通過獨(dú)立的檢測(cè)、學(xué)習(xí)和跟蹤模塊,具有一定的魯棒性,但由于其是對(duì)目標(biāo)原始像素進(jìn)行操作,同時(shí)采用比較脆弱的光流法跟蹤算法,影響了器跟蹤的精度。CT將樣本空間經(jīng)過稀疏矩陣變換到低維空間,具有一定的隨機(jī)性,影響了器跟蹤精度。
綜上所述,KCF在跟蹤速度和準(zhǔn)確度方面都有著非常優(yōu)異的表現(xiàn)。STRUCK和TLD具有一定魯棒性,但其跟蹤速度過慢。CT有著非常高的跟蹤速度,但其跟蹤準(zhǔn)確度不高。分類器的選擇對(duì)跟蹤算法的魯棒性有著直接關(guān)系,強(qiáng)分類器(KCF,STRUCK)能夠有效區(qū)分背景和目標(biāo),能夠提高跟蹤效果。在速度方面,稀疏表示(CT)的特征描述方法能夠顯著提高跟蹤速度,但其穩(wěn)定性需要進(jìn)一步探究。循環(huán)矩陣與快速傅里葉變換(KCF)是一個(gè)很好的結(jié)合方式,能夠大大提高跟蹤的速度。
本文采用試驗(yàn)驗(yàn)證的方式對(duì)基于分類的視頻目標(biāo)跟蹤算法進(jìn)行了分析研究,并針對(duì)其中4種表現(xiàn)最優(yōu)的目標(biāo)跟蹤算法進(jìn)行定量評(píng)估。評(píng)估結(jié)果表明,單一的圖像特征無法滿足所有視頻的需求,采取多特征描述會(huì)增加算法的魯棒性,改善跟蹤的漂移問題。同時(shí),基于分類視頻目標(biāo)跟蹤中,分類器的強(qiáng)弱與算法的魯棒性有著很大的關(guān)系。因此,選擇合適的圖像特征和分類器,能夠在一定程度上提高跟蹤算法的魯棒性。
[1]HARES,SAFFARIA,TORRP.Struck:StructuredOutputTrackingwithKernels[C]∥IEEEInternationalConferenceonComputerVision,2011:263-270.
[2]KALALZ,MIKOLAJCZYKK,MATASJ.Tracking-learning-detection[J].IEEETransactiongsonPatternAnalysisAndMachineIntelligence,2012,34(7):1 409-1 422.
[3]ZHANGK,ZHANGL,YANGMH.Real-timeCompressiveTracking[C]∥EuropeanConferenceonComputerVision,2012:866-879.
[4]HENRIQUESJF,CASEIROR,MARTINSP,etal.High-SpeedTrackingwithKernelizedCorrelationFilters[J].IEEETransactiongsonPatternAnalysisandMachineIntelligence,2015,37(3):583-596.
[5]ORONS,BAR-HILLELA,LEVID,etal.LocallyOrderlessTracking[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2012:1 940-1 947.
[6]KWONJ,LEEKM.TrackingbySamplingTrackers[C]∥IEEEInternationalConferenceonComputerVision,2011:1 195-1 202.
[7]GODECM,ROTHPM,BISCHOFH.Hough-basedTrackingofNon-rigidObjects[J].ComputerVisionandImageUnderstanding,2013,117(10):1 245-1 256.
[8]JIAX,LUH,YANGMH.VisualTrackingviaAdaptiveStructuralLocalSparseAppearanceModel[C]∥IEEEConferenceonComputerVisionandPatternRecognition,2012:1 822-1 829.
[9] 張洪建.基于有限集統(tǒng)計(jì)學(xué)的多目標(biāo)跟蹤算法研究[D].上海:上海交通大學(xué),2009.
[10] 宋驪平.被動(dòng)多傳感器目標(biāo)跟蹤方法研究[D].西安:西安電子科技大學(xué),2008.
[11] 楊柏勝.被動(dòng)多傳感器探測(cè)目標(biāo)跟蹤技術(shù)研究[D].西安:西安電子科技大學(xué),2008.
[12] NING J,ZHANG L,ZHANG D,et al.Scale and Orientation Adaptive Mean Shift Tracking[J].IET Computer Vision,2012,6(1):52-61.
[13] BEYANC,TEMIZEL A.Adaptive Mean-shift for Automated Multi Object Tracking[J].IET Computer Vision,2012,6(1):1-12.
[14] MAZINANA H,AMIR-LATIFI A.Improvement of Mean Shift Tracking Performance Using a Convex Kernel Function and Extracting Motion Information[J].Computers & Electrical Engineering,2012,38(6):1 595-1 615.
[15] GRABNERH,GRABNER M,BISCHOF H.Real-Time Tracking via On-line Boosting[C]∥The British Machine Vision Conference,2006:47-56.
[16] ROSS D,LIM J,LIN R S,et al.Incremental Learning for Robust Visual Tracking[J].International Journal of Computer Vision,2008 77(1):125-141.
[17] BABENKO B,YANG M H,BELONGIE S.Visual Tracking with Online Multiple Instance Learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2009:983-990.
[18] MEI X ,LING H R.Visual Tracking Using L1 Minimization[C]∥IEEE International Conference on Computer Vision,2009:1 436-1 443.
[19] EVERINGHAM M,GOOL L J V,WILLIAMS C K I,et al.The Pascal Visual Object Classes VOC Challenge[J].International Journal of Computer Vision,2010,88(2):303-338.
梁 碩 男,(1991—),碩士研究生。主要研究方向:視頻圖像處理。
陳金勇 男,( 1970—) ,研究員,博士生導(dǎo)師。主要研究方向:航天地面應(yīng)用、電子信息系統(tǒng)。
A Survey of Video Object Tracking Algorithms Based on Classification
LIANG Shuo,CHEN Jin-yong,WU Jin-liang
(The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China)
For the problem of speed and accuracy in the video object tracking,the appearance model and tracking algorithm for the video object tracking are introduced in this paper,and the video object tracking algorithm based on classification is analyzed.Quantitative experiment is carried out to evaluate the speed and accuracy of four state-of-art tracking methods based on classification from illumination variation,scale variation,occlusion and background clutters.By analyzing the advantages and disadvantages of the approaches,a reference is built for the proposal of new methods.
object detection;classification learning;object tracking;evaluation algorithm
10.3969/j.issn.1003-3106.2017.01.05
梁 碩,陳金勇,吳金亮.基于分類的視頻目標(biāo)跟蹤算法研究[J].無線電工程,2017,47(1):19-22,66.
2016-11-14
海洋公益性科研專項(xiàng)基金資助項(xiàng)目(201505002)。
TP391.4
A
1003-3106(2017)01-0019-04