王 鑫,李玉芳,宋 策,韓松偉
(1.中國科學(xué)院長春光學(xué)精密機(jī)械與物理研究所,吉林 長春 130033;2. 中國第一汽車集團(tuán)有限公司研發(fā)總院,吉林 長春 130013)
在機(jī)器視覺領(lǐng)域里,目標(biāo)跟蹤是一個(gè)非?;镜膯栴},并且在眾多應(yīng)用領(lǐng)域(如監(jiān)控安防系統(tǒng)、無人機(jī)系統(tǒng)、無人駕駛系統(tǒng)、智能交通管理系統(tǒng)、人機(jī)交互系統(tǒng),在線視覺跟蹤系統(tǒng))中,扮演著十分重要的角色。目標(biāo)跟蹤的基本原理是:給定目標(biāo)物初始位置,結(jié)合一系列連續(xù)的圖像幀,估算出目標(biāo)物的運(yùn)動(dòng)軌跡。在線視覺跟蹤的“在線”特點(diǎn)決定了,即使機(jī)器視覺對(duì)實(shí)時(shí)計(jì)算的約束條件異常復(fù)雜,理想的跟蹤算法都應(yīng)該保證系統(tǒng)的“精確性”和“魯棒性”。
近些年來,可辨識(shí)相關(guān)分類器(DCF)在實(shí)時(shí)跟蹤領(lǐng)域中扮演的角色越來越重要。國內(nèi)外為了改善和提高基于DCF的改進(jìn)算法的跟蹤性能,基本上都是圍繞向多維空間拓展[1-2]、魯棒性估計(jì)模型[3-4]、機(jī)器學(xué)習(xí)模型[5-6]、引入非線性基核函數(shù)法[7],應(yīng)對(duì)邊界效應(yīng)策略[8-9]幾個(gè)角度展開研究的。但是,這些改進(jìn)算法在提升系統(tǒng)跟蹤性能的同時(shí),圖像的特征維度也隨之提高,這一變化增加了系統(tǒng)的計(jì)算復(fù)雜程度和延遲。例如,Bolme團(tuán)隊(duì)開發(fā)的第一代MOSSE算法[10]比連續(xù)域卷積操作跟蹤(C-COT)算法[11]的計(jì)算速度快了近1 000倍[12],但在精確性方面,后者只比前者提高一倍,同時(shí)C-COT算法引入了更多的約束條件,極易引起過擬合。
基于C-COT算法存在的問題,本文從模型維度、訓(xùn)練集大小和模板更新策略3個(gè)方面入手,在不犧牲跟蹤系統(tǒng)性能的同時(shí),降低跟蹤系統(tǒng)的延遲和過擬合出現(xiàn)的概率。
(1)
式(1)中,bd是差值函數(shù),t∈[0,T)是連續(xù)域變量,T是連續(xù)域支撐空間長度。插值函數(shù)Jd{xd}(t)由內(nèi)插函數(shù)bd的各個(gè)平移形式疊加而成,其中特征值xd[n]充當(dāng)加權(quán)值。
(2)
每個(gè)特征通道先用式(1)進(jìn)行差值操作,然后和對(duì)應(yīng)的分類器進(jìn)行卷積運(yùn)算,最后把分類器的卷積響應(yīng)累加得到式(2)中的置信函數(shù)。
(3)
式(3)中,權(quán)重αj≥0控制著每個(gè)訓(xùn)練樣本的影響力,懲罰系數(shù)ω≥0由特征點(diǎn)在整幅圖像中的位置決定。樣本處在背景區(qū)則ω值較大,在目標(biāo)區(qū)則ω值較小。
(4)
根據(jù)帕賽瓦爾(Parseval)公式,結(jié)合式(3)和(4)可得:
(5)
(6)
(7)
式(7)中(AHΓA+WHW)為對(duì)稱正定方程,可以用共軛梯度迭代(Conjugate Gradient)法求解。
本文的目的是提高DCF算法的計(jì)算速度和跟蹤性能。從MOSSE算法依次到KCF算法、DSST算法、CN算法、SRDCF算法、C-COT算法,跟蹤性能的確越來越好,但模型越來越復(fù)雜,計(jì)算速度也越來越慢。導(dǎo)致計(jì)算速度降低的原因主要有:訓(xùn)練的模型維度越來越高、訓(xùn)練集越來越大、模板更新的速度越來越快。本文的目的是在不犧牲跟蹤性能的同時(shí),降低跟蹤系統(tǒng)的延遲和C-COT算法中過擬合出現(xiàn)的概率。
定義新的卷積算子,如下:
SPf{x}=Pf*J{x},
(8)
(9)
因?yàn)槭?9)滿足卷積的線性性質(zhì),故其因式分解可歸納為兩步,即包含D維特征的特征向量J{x}(t)先在t處,與降維矩陣PT相乘,得到包含C維特征的特征向量再與分類器向量f進(jìn)行卷積運(yùn)算。
(10)
(11)
(12)
卷積因式分解的主要目的是,降低特征通道的維數(shù),進(jìn)而降低跟蹤系統(tǒng)的計(jì)算復(fù)雜程度和內(nèi)存空間占用率。由分類器的自適應(yīng)特點(diǎn)決定,降維矩陣P可以通過訓(xùn)練第一幀圖像獲得,并在后續(xù)跟蹤過程中保持不變,故本文僅通過存儲(chǔ)預(yù)測值PTJ{xj}的方式,就節(jié)省了大量內(nèi)存空間,且PTJ{xj}還可作為C-COT算法的輸入,經(jīng)訓(xùn)練能得到一個(gè)C維分類器,即將特征維數(shù)D降低到C,進(jìn)而降低系統(tǒng)計(jì)算復(fù)雜程度。
在C-COT算法中,跟蹤系統(tǒng)刻畫一個(gè)目標(biāo)物的簡單運(yùn)動(dòng)就需要大量樣本,而且其中很多樣本是冗余樣本,這點(diǎn)極易造成過擬合。
本文提出一個(gè)更具代表性的小模型,即緊湊衍生模型,既可以避免存儲(chǔ)完整的樣本訓(xùn)練集,又能提高樣本的多樣性。本文選擇的訓(xùn)練模型取自服從高斯分布的樣本集,這樣既能保證每個(gè)樣本代表特定的運(yùn)動(dòng)時(shí)期,又能大大降低過擬合出現(xiàn)的風(fēng)險(xiǎn)。
(13)
(14)
(15)
結(jié)合式(15),式(13)可轉(zhuǎn)化為式(16):
(16)
式(16)可參考式(7)求解分類器。
如果為求取求解分類器,對(duì)圖像的每一幀都進(jìn)行迭代,不僅會(huì)影響跟蹤系統(tǒng)的計(jì)算速度,還容易造成過擬合。因此本文每隔NS=5幀進(jìn)行一次模型的更新,即執(zhí)行式(7)的迭代求解分類器。因?yàn)槭?7)是動(dòng)態(tài)變化的,不必精確求解,所以僅在處理第一幀圖像時(shí),設(shè)定CG法迭代次數(shù)NCG=100,而在處理后續(xù)幀時(shí),無需過多迭代,設(shè)定NCG=5。 基于這種迭代方式,平均每幀只進(jìn)行NCG/NS次迭代,極大地提升了運(yùn)行效率。同時(shí),樣本集的更新,則是每一幀都進(jìn)行。
本文基于4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,通過綜合實(shí)驗(yàn)驗(yàn)證了本文提出的改善方法。這4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集分別是:VOT2016數(shù)據(jù)集[12]、UAV123數(shù)據(jù)集[13]、OTB-2015數(shù)據(jù)集[14]以及Temple-Color數(shù)據(jù)集[15]。
本文基于Matlab環(huán)境進(jìn)行算法驗(yàn)證,使用與C-COT算法相同的4種特征提取方式,即在VGG-m網(wǎng)絡(luò)[16]中的第一個(gè)卷積層(conv1)和最后一個(gè)卷積層(conv5)進(jìn)行特征提取,及HOG法[17]和Color Names (CN)法[18]這兩種手動(dòng)特征提取方式。通過這4種不同的特征提取方式訓(xùn)練因式分解卷積方法中的降維矩陣和分類器,結(jié)果如表1所示。
設(shè)定式(10)中的正則化參數(shù)λ=2×10-7,第
表1 在不同特征提取條件下的特征維度D和分類器數(shù)目C
Tab.1 Feature dimensionalityDand the number of filtersCfor each features
Conv-1Conv-5HOGCN特征維度 D965123111分類器緯度 C1664103
本文設(shè)定緊湊衍生模型學(xué)習(xí)速率γ= 0.012,樣本的數(shù)量L= 50,與C-COT算法使用的樣本數(shù)(m= 400)相比減少了80%。模型更新時(shí),每NS=6幀更新一次分類器(與C-COT算法一致),CG迭代次數(shù)NCG=5。同時(shí),所有視頻數(shù)據(jù)集的全部參數(shù)設(shè)置固定不變。
本章節(jié)基于VOT2016數(shù)據(jù)集,與C-COT算法進(jìn)行對(duì)比分析,VOT2016數(shù)據(jù)集包含60個(gè)典型視頻。使用預(yù)期平均重疊率(EAO)對(duì)總體性能進(jìn)行評(píng)估,該評(píng)估兼顧精確性和魯棒性[19]。
表2 本文提出的改善算法做出的貢獻(xiàn)Tab.2 Contributions of improvement strategy
表2顯示了本文在C-COT算法改善方面做出的貢獻(xiàn)。把因式分解卷積集成到C-COT算法中,使得 EAO指數(shù)提高至0.342,系統(tǒng)計(jì)算量減少了6倍。在此基礎(chǔ)上,緊湊衍生模型將EAO指數(shù)提高至0.352,計(jì)算量減少了8倍。模板更新策略進(jìn)一步將EAO指數(shù)提高到0.374,計(jì)算量減少了6倍。
本文在單核CPU上進(jìn)行實(shí)驗(yàn),F(xiàn)PS表征系統(tǒng)每秒可以處理的圖像幀數(shù)。表2還展示了改善算法對(duì)跟蹤系統(tǒng)運(yùn)行速度的提升(不考慮特征提取占用的時(shí)間):改善算法的3項(xiàng)工作都不同程度地提高了系統(tǒng)的跟蹤速度,相比與C-COT算法,速度一共提升了近20倍。
本文在不改變原算法跟蹤精度的前提下,顯著地提升了跟蹤速度,這對(duì)改善跟蹤系統(tǒng)的實(shí)時(shí)性有很大幫助。
本文基于4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,與最新的主流跟蹤系統(tǒng)進(jìn)行比較。
4.3.1 基于VOT2016數(shù)據(jù)集的對(duì)比與分析
本文從EAO指數(shù)、魯棒性、精確性和運(yùn)行速度(這里考慮特征提取占用的時(shí)間)4個(gè)方面,分別與最新的主流跟蹤系統(tǒng)進(jìn)行比較。在EAO指數(shù)方面,VOT2016挑戰(zhàn)賽中排名第一的C-COT算法的EAO指數(shù)為0.331,本文與之相比, EAO指數(shù)增加了13.0%;在精確性方面,本文達(dá)到了0.72的最低失誤率;在運(yùn)行速度方面,本文僅采用手動(dòng)特征提取(HOG特征和CN特征)的方式就達(dá)到了最快運(yùn)行速度,詳見表3。
表3 不同跟蹤策略的實(shí)驗(yàn)結(jié)果對(duì)比與分析
Tab.3 Compare and analysis of experimental results from different tracking strategies
跟蹤算法識(shí)別率誤識(shí)別率精確度處理速度SRBT0.2901.250.503.69EBT0.2910.900.443.01DDC0.2931.230.530.20Staple0.2951.350.5411.14MLDF0.3110.830.481.48SSAT0.3211.040.570.48TCCN0.3250.960.541.05C-COT0.3310.850.520.51RDFC&CGM*0.3221.080.5315.13RDFC*0.3740.720.544.53
本文對(duì)跟蹤速度的提升不是通過縮短特征提取時(shí)間實(shí)現(xiàn)的,而是通過有效降低圖像處理過程中的計(jì)算時(shí)間實(shí)現(xiàn)的。
4.3.2 基于UAV123數(shù)據(jù)集的對(duì)比與分析
“無人機(jī)空中跟蹤技術(shù)”近年來受到廣泛關(guān)注,并且在野外生命監(jiān)測、搜救、導(dǎo)航、監(jiān)控等領(lǐng)域都有廣泛的應(yīng)用,因此無人機(jī)持續(xù)導(dǎo)航以及實(shí)時(shí)跟蹤技術(shù)成為關(guān)鍵?;诖藨?yīng)用背景,理想的跟蹤系統(tǒng)應(yīng)該是精確且穩(wěn)定的,并且能夠在有限的硬件環(huán)境下實(shí)時(shí)運(yùn)行。此環(huán)節(jié)采用HOG特征和CN特征進(jìn)行手動(dòng)特征提取,且在i7單核CPU上以每秒60幀的速度運(yùn)行。
UAV123數(shù)據(jù)集由123個(gè)最新航拍視頻組成,幀數(shù)超過11萬,采用“跟蹤性能曲線”第一象限積分(AUC)大小來評(píng)定跟蹤算法的性能。
圖1(a)是以UAV123數(shù)據(jù)集為基礎(chǔ),模擬出的跟蹤性能曲線。在排名前五的跟蹤系統(tǒng)中,只有基于Staple 算法的跟蹤系統(tǒng)是實(shí)時(shí)運(yùn)行的,AUC得分為45.3%。在幀頻不超過60的情況下,基于本文改善算法(RFCG &CN)的跟蹤系統(tǒng)也是實(shí)時(shí)運(yùn)行的,且AUC得分為51.7%,比Staple 算法得分高出6.4%。與C-COT算法相比,本文改善算法(RFCG)的跟蹤性能略占優(yōu)勢,AUC得分為53.7%。
本文雖然顯著提高了C-COT跟算法的蹤速度,但是在眾多算法中,跟蹤速度不是最快的。但是在跟蹤速度較快的一系列算法中,跟蹤精度是比較高的。
4.3.3 基于OTB2015數(shù)據(jù)集的對(duì)比與分析
本文與20個(gè)先進(jìn)的跟蹤算法進(jìn)行對(duì)比,它們分別是:TLD[20]、Struck[21]、CFLB[9]、ACT[1]、TGPR[22]、KCF[7]、DSST[3]、 SAMF[23]、MEEM[24]、DAT[25]、LCT[26]、 HCF[27]、SRDCF[28]、SRDCFad[29]、DeepSRDCF[30]、Staple[31]、MDNet[32]、SiameseFC[33]、TCNN[34]、C-COT[11]。圖1(b)是以O(shè)TB2015數(shù)據(jù)集中的100個(gè)視頻為基礎(chǔ),模擬出的跟蹤性能曲線[35-37]。在手動(dòng)特征提取的條件下,進(jìn)行跟蹤系統(tǒng)性能比較。SRDCFad算法的AUC得分較高,為63.4%,而本文改善算法(RFCG & CN)的跟蹤性能略占優(yōu)勢, AUC得分為65.0%。在使用單核CPU,視頻每秒60幀的前提條件下, C-COT、MDNet和TCNN這3類算法的AUC得分較高,分別為69.0%、68.5%和66.1%,而本文改善算法(RFCG)的跟蹤性能最優(yōu),AUC得分為70.0%。
本文在提高原有跟蹤算法速度的基礎(chǔ)上,也在一定程度上挺高了跟蹤精度。
4.3.4 基于Temple-Color數(shù)據(jù)集的比較與分析
圖1(c)是以Temple-Color數(shù)據(jù)集中128個(gè)視頻為基礎(chǔ),模擬出的跟蹤性能曲線。本文的改善算法(RDFC)較之C-COT算法,跟蹤性能有了一定的提升,AUC得分提高了0.8%。
本文基于針對(duì)色彩空間的樣本,在跟蹤精度方面的有一定改善,但不明顯。
圖1 三類數(shù)據(jù)集下的跟蹤性能曲線Fig. 1 Trace performance curves under three types of datasets
本文以DCF方法為基礎(chǔ),在C-COT算法的基礎(chǔ)上,引入了一個(gè)因式分解卷積算子,降低了模型中維度,提出了一個(gè)訓(xùn)練樣本的緊湊衍生模型,在提高樣本多樣性的同時(shí),降低了系統(tǒng)計(jì)算時(shí)間和過擬合出現(xiàn)的概率。最后,提出了一個(gè)簡單有效的模型更新策略,進(jìn)一步降低了過擬合出現(xiàn)的概率。實(shí)驗(yàn)結(jié)果證明:基于VOT2016數(shù)據(jù)集,在EAO指數(shù)方面,本文獲得的分?jǐn)?shù)為37.4%,比C-COT算法高出13.0%,在精確性方面,本文達(dá)到了0.72的最低失誤率;基于UAV123數(shù)據(jù)集,本文獲得了53.7%的AUC分?jǐn)?shù),比C-COT算法高出2%;基于OTB2015數(shù)據(jù)集,本文獲得了70.0%的AUC分?jǐn)?shù),比C-COT算法高出1%;基于Temple-Color數(shù)據(jù)集,本文獲得了60.5%的AUC分?jǐn)?shù),比C-COT算法高出1%。
從跟蹤性能角度分析,本文在一定程度上改善了系統(tǒng)跟蹤精度,明顯地提高了原跟蹤算法的跟蹤速度。跟蹤速度的提高降低了系統(tǒng)的硬件標(biāo)準(zhǔn),這使得復(fù)雜的跟蹤算法可以應(yīng)用到更多的實(shí)際項(xiàng)目中去。