肖少明 何小海 王正勇 卿粼波
(四川大學(xué)電子信息學(xué)院 四川 成都 610065)
視頻目標(biāo)跟蹤的實(shí)質(zhì)可以理解為:在第一幅圖像里獲取目標(biāo)的基礎(chǔ)信息后,如何在以后的圖像幀中精確地找到目標(biāo)位置。人類跟蹤目標(biāo)是通過(guò)眼睛獲取目標(biāo)信息,經(jīng)過(guò)大腦處理,找到目標(biāo)的一些固定特征,繼而當(dāng)目標(biāo)運(yùn)動(dòng)時(shí),能夠根據(jù)這些固定特征跟蹤上目標(biāo)。但是在計(jì)算機(jī)利用攝像頭跟蹤時(shí),會(huì)遇到一些問(wèn)題:計(jì)算機(jī)該通過(guò)圖像獲取哪些特征,且獲取的這些特征最好是當(dāng)目標(biāo)運(yùn)動(dòng)時(shí)改變也比較小,這樣有利于計(jì)算機(jī)在后續(xù)圖像提取特征之后進(jìn)行比較;提取特征時(shí)的計(jì)算量不能太大,否則就達(dá)不到實(shí)時(shí)的要求。因此目標(biāo)跟蹤領(lǐng)域最重要的就是能實(shí)時(shí)獲取良好的特征,比如方向梯度直方圖特征、顏色特征等[1]。
2010年Bolme等[2]提出基于相關(guān)濾波的判別式方法——誤差最小平方和濾波器MOSSE,證實(shí)了相關(guān)濾波的潛在能力,但實(shí)時(shí)性極強(qiáng)。牛津大學(xué)Henriques等[3]提出了CSK,之后加入了核函數(shù)(Kernel-trick),便演變?yōu)榻?jīng)典的核相關(guān)濾波器[4](KernelizedCorrelationFilter,KCF)。但是由于實(shí)際應(yīng)用環(huán)境的各種干擾,如何提取目標(biāo)更加不易變化的特征仍然是難點(diǎn)。
在特征提取方面,KCF使用的是方向梯度直方圖(HistogramofOrientedGradient,HOG)特征,DAT[5]使用的是顏色特征。HOG特征值對(duì)于光照變化、局部遮擋等效果較好,但是不適應(yīng)快速運(yùn)動(dòng)、快速變形,而顏色特征對(duì)于快速運(yùn)動(dòng)、快速變形效果較好,但是不適應(yīng)光照變化和局部遮擋,因此這兩種算法互補(bǔ)。針對(duì)目標(biāo)尺寸變換,有兩個(gè)經(jīng)典算法:一個(gè)是SAMF[6]算法,濾波器同時(shí)更新位置與尺度,速度較快;另一個(gè)是DSST[7]算法,多尺度方法是先平移濾波找到最佳位置,再尺度濾波,找到最佳尺度大小。上述各類基于相關(guān)濾波的算法的本質(zhì)都是獲得更加可靠的特征,其中HOG特征作為相關(guān)濾波類算法最常用的特征,對(duì)于圖像輪廓和邊緣有很強(qiáng)的描述能力,但是對(duì)于快速運(yùn)動(dòng)、低分辨率等造成的邊緣模糊跟蹤性能較差,因此若能改進(jìn)HOG特征適應(yīng)邊緣模糊問(wèn)題,就能更加穩(wěn)定地跟蹤目標(biāo)。本文考慮對(duì)圖像進(jìn)行銳化預(yù)處理來(lái)獲取更好的HOG特征。
本文在獲取改進(jìn)的HOG特征值后,為了實(shí)現(xiàn)核相關(guān)濾波能夠用于各類復(fù)雜情況,如目標(biāo)遮擋、快速運(yùn)動(dòng)變形、“漸變”目標(biāo)等情況,提出一種利用兩個(gè)互補(bǔ)跟蹤器預(yù)測(cè)框交并比的方法自適應(yīng)改變模型更新系數(shù),以適應(yīng)復(fù)雜的實(shí)際情況。在兩種濾波模板均跟蹤到目標(biāo)的情況下,利用兩個(gè)跟蹤器的預(yù)測(cè)框的交并比自適應(yīng)改變模型更新系數(shù),來(lái)獲得更好的跟蹤結(jié)果。若有一個(gè)跟蹤器跟蹤不正確時(shí),則利用另一個(gè)跟蹤器繼續(xù)跟蹤目標(biāo);若都沒(méi)有跟蹤到目標(biāo),此時(shí)目標(biāo)可能已經(jīng)被遮擋了,因此保留當(dāng)前模板,停止模板更新,擴(kuò)大搜索檢測(cè)范圍,當(dāng)目標(biāo)不遮擋時(shí)就能快速檢測(cè)匹配到目標(biāo)。
本節(jié)介紹核相關(guān)濾波算法,以此為基礎(chǔ)研究解決核相關(guān)濾波三個(gè)主要問(wèn)題:(1) 傳統(tǒng)的HOG特征值不足以適應(yīng)于各類復(fù)雜場(chǎng)景跟蹤[8];(2) 濾波窗口固定,對(duì)于“漸變”目標(biāo),不能準(zhǔn)確地跟蹤;(3) 濾波器模型更新系數(shù)固定,不能用于有遮擋時(shí)的長(zhǎng)期跟蹤[9]。
KCF算法為圖像提供了一個(gè)基于嶺回歸的分析模型,可以獲得堪比支持向量機(jī)(SVM)這類復(fù)雜方法的性能。模型訓(xùn)練主要是獲得一個(gè)函數(shù)f(z)=wTz最小化樣本xi與它的嶺回歸目標(biāo)yi的平方誤差:
(1)
為了獲得所有的樣本xi,在樣本的采樣過(guò)程當(dāng)中,我們把基礎(chǔ)樣本循環(huán)位移來(lái)進(jìn)行密集采樣。這樣獲得的樣本,進(jìn)行傅里葉變換之后的矩陣可以進(jìn)行對(duì)角化,減少了矩陣的運(yùn)算量,最后得到一個(gè)閉式解:
(2)
在目標(biāo)跟蹤中,考慮到目標(biāo)是處于變化當(dāng)中的,因此目標(biāo)模型也需要實(shí)時(shí)更新,KCF采用的是線性差值,更新公式如下:
(3)
式中:η是更新率;αt表示第t幀的系數(shù)矩陣;xt表示目標(biāo)第t幀的外觀模板。
核相關(guān)濾波的流程如下:(1) 由基礎(chǔ)樣本構(gòu)建循環(huán)樣本,提取HOG特征;(2) 循環(huán)樣本核空間矩陣離散傅里葉變換,訓(xùn)練分類器;(3) 新樣本檢測(cè);(4) 更新分類器,再次循環(huán),進(jìn)入步驟(1)。
對(duì)于圖像而言,利用圖像邊緣梯度的方向,就能很好地描述目標(biāo)的輪廓以及形狀,而HOG特征就是對(duì)圖像當(dāng)中像素點(diǎn)的梯度描述。算法流程為:(1) 獲取圖像后進(jìn)行灰度化和歸一化;(2) 圖像分小塊后獲取每個(gè)像素點(diǎn)的梯度,再統(tǒng)計(jì)每個(gè)塊內(nèi)的直方圖;(3) 合并所有小塊的直方圖進(jìn)行歸一化,得到圖像的HOG特征。
圖像中任意一個(gè)位置為(x,y)的像素點(diǎn)的方向梯度可以表達(dá)為:
(4)
式中:Gx(x,y)、Gy(x,y)表示像素點(diǎn)(x,y)處的水平方向和垂直方向的梯度,H(x,y)表示像素值。
如前文所述,HOG特征值被廣泛使用于基于相關(guān)濾波的判別式算法中,所以加強(qiáng)HOG特征值提取,獲得更好的HOG特征值是十分必要的。特別地,對(duì)于快速形變、遮擋等造成的圖像邊緣模糊,HOG特征值提取的效果較差,基于以上情況我們可以考慮增強(qiáng)目標(biāo)邊緣的信息或加強(qiáng)目標(biāo)的紋理。本文利用拉普拉斯濾波來(lái)獲得邊緣信息增強(qiáng)的圖像,即銳化圖像。假定取圖像中一個(gè)3×3的塊,那么其對(duì)應(yīng)的拉普拉斯濾波模塊也就是取一個(gè)3×3的塊,中心點(diǎn)取-8,其余點(diǎn)取1,將兩個(gè)塊進(jìn)行時(shí)域的點(diǎn)乘就可以獲得中心點(diǎn)新的像素值。假設(shè)中心點(diǎn)原始的像素值表示為H0(x,y),中心點(diǎn)新的像素值表示為H(x,y),其余8個(gè)點(diǎn)的像素值和表示為H1(x,y),那么這三個(gè)值之間的關(guān)系表示如下:
H(x,y)=H1(x,y)-8×H0(x,y)
(5)
對(duì)于圖像邊界上像素點(diǎn)可以進(jìn)行拓展,拓展區(qū)域的值是其對(duì)應(yīng)的另一個(gè)邊界。在所有像素點(diǎn)更新之后,把像素值進(jìn)行歸一化處理,就可以得到最后的結(jié)果。其表達(dá)式如下:
(6)
式中:max、min分別表示圖像像素值在一個(gè)顏色通道內(nèi)的最大值和最小值。處理之后的圖像能夠提供更好的HOG特征值,可以在不同的目標(biāo)與場(chǎng)景下獲得較好的跟蹤效果。
由于核相關(guān)濾波使用的是濾波窗口固定的余弦窗口,所以在處理“漸變”目標(biāo)時(shí)存在很大的不足[10]。這是因?yàn)橛嘞掖翱诘拇翱诖笮」潭?,?dāng)目標(biāo)尺寸變小時(shí),會(huì)將非目標(biāo)的冗余信息包含進(jìn)來(lái);而當(dāng)目標(biāo)尺寸變大時(shí),則會(huì)丟棄目標(biāo)的有用信息。為此,文獻(xiàn)[11]在KCF算法的基礎(chǔ)上加入了自適應(yīng)高斯窗口函數(shù)和基于關(guān)鍵點(diǎn)的尺度估計(jì)[12],提出了sKCF,能夠自適應(yīng)目標(biāo)尺度的變化以及摒棄冗余特征,在運(yùn)行速度上也有了一定的改進(jìn),但是當(dāng)目標(biāo)運(yùn)動(dòng)的尺寸變化較大時(shí),容易丟失目標(biāo)。因此本文采用DSST算法的思想,單獨(dú)訓(xùn)練一個(gè)尺度濾波器,當(dāng)位置濾波器確定目標(biāo)位置之后,在該位置使用尺度濾波器,找到最佳的濾波窗口尺寸。
核相關(guān)濾波中除了“漸變”目標(biāo)不好跟蹤以外,當(dāng)目標(biāo)運(yùn)動(dòng)姿態(tài)變化較大或者有輕微遮擋時(shí),跟蹤的目標(biāo)也容易丟失,其根本原因是目標(biāo)模型更新速率是固定的,這種更新方式僅能適應(yīng)運(yùn)動(dòng)姿態(tài)的微弱變化。其中目標(biāo)模型更新就是根據(jù)以前的觀測(cè)數(shù)據(jù)和目標(biāo)模型估計(jì)下一時(shí)刻的目標(biāo)模型。模型更新存在“模型漂移”問(wèn)題,會(huì)導(dǎo)致跟蹤結(jié)果準(zhǔn)確性降低。傳統(tǒng)相關(guān)濾波更新算法會(huì)將錯(cuò)誤的背景信息加入到目標(biāo)模型中,造成目標(biāo)模型的更新錯(cuò)誤,這樣的錯(cuò)誤積累會(huì)導(dǎo)致模型偏離正確的跟蹤目標(biāo)。因此,為了避免目標(biāo)模型更新過(guò)程中出現(xiàn)“模型漂移”,需要采取合適的模型更新策略。
KCF算法以固定更新速率對(duì)當(dāng)前模型進(jìn)行更新,更新公式為:
Modlenext=α×Modleresult+(1-α)×Modlecurrent
(7)
式中:α為固定值;Modleresult為根據(jù)當(dāng)前跟蹤結(jié)果訓(xùn)練出的預(yù)測(cè)模型;Modlecurrent為當(dāng)前模型;Modlenext為下一幀圖像進(jìn)行跟蹤時(shí)所采用的模型。使用式(7)更新模型,對(duì)于一些運(yùn)動(dòng)姿態(tài)變化不大的目標(biāo)效果尚可,但是對(duì)于一些在跟蹤過(guò)程中姿態(tài)變化較大的目標(biāo)并不適用,因?yàn)槔檬?7)進(jìn)行模型更新并不能反映被跟蹤目標(biāo)的真實(shí)運(yùn)動(dòng)姿態(tài),極易導(dǎo)致跟蹤失敗。
為了使當(dāng)前模型更能夠反映被跟蹤目標(biāo)的最新變化,本文以HOG特征模塊和顏色特征分別進(jìn)行跟蹤,以兩個(gè)互補(bǔ)的跟蹤器預(yù)測(cè)框的交并比來(lái)確定模型更新系數(shù)。兩個(gè)跟蹤器的跟蹤結(jié)果可通過(guò)相關(guān)濾波的峰值來(lái)判定,具體有三種情況:
(1) 兩個(gè)跟蹤器均能跟蹤,此時(shí)采用交并比的方式來(lái)進(jìn)行模板更新,更新公式如下:
(8)
式中:Siou(HOG,Color)表示兩種跟蹤模板預(yù)測(cè)框面積重疊部分所占比例;Aera(HOG)和Aera(Color)分別表示基于HOG特征和顏色特征的濾波器的預(yù)測(cè)框的面積,分子是兩個(gè)面積的交集,分母是兩個(gè)面積的并集;β是自適應(yīng)變化因子,β=c×Siou(HOG,Color);c是常數(shù)。
(2) 一個(gè)跟蹤器正確,另一個(gè)不能正確跟蹤,此時(shí)采用正確模板跟蹤結(jié)果與第一幀目標(biāo)模型的相似系數(shù)來(lái)更新模板,為了提高實(shí)時(shí)性,相似性使用直方圖相交來(lái)衡量,更新公式如下:
(9)
式中:Hfirst和Hresult分別是第一幀目標(biāo)模型和預(yù)測(cè)模板圖像塊的直方圖;Dinteraction(Hfirst,Hresult)是直方圖相交系數(shù),取值范圍是[0,1],匹配程度與值的大小成正比;β=c×Dinteraction(Hfirst,Hresult);c是常數(shù)。
(3) 兩個(gè)跟蹤器均跟蹤失敗,停止模板更新,擴(kuò)大搜索檢測(cè)范圍。
在上述三種情況中,使用自適應(yīng)因子進(jìn)行模型更新可以對(duì)模型的更新速進(jìn)行有效的控制,可以真實(shí)反映出被跟蹤目標(biāo)的姿態(tài)變化情況。對(duì)于如何評(píng)判是否跟蹤到目標(biāo),本文使用峰值旁瓣比(PSR)來(lái)衡量相應(yīng)的質(zhì)量,其公式如下:
(10)
式中:max表示響應(yīng)的最大值;μ、σ分別表示響應(yīng)的均值和標(biāo)準(zhǔn)差。PSR的閾值設(shè)置為P,若當(dāng)前跟蹤器的跟蹤結(jié)果的PSR大于P,則當(dāng)前模板能夠正確跟蹤,否則就不能正確跟蹤。
綜上所述,本文提出的基于改進(jìn)的HOG特征值的互補(bǔ)跟蹤算法框架如圖1所示。
圖1 基于改進(jìn)的HOG特征的互補(bǔ)跟蹤算法框架
本文采用數(shù)據(jù)集OTB2015[13]驗(yàn)證算法的有效性,并與近幾年流行的算法進(jìn)行對(duì)比。測(cè)試了OTB2015上全部的100個(gè)視頻序列,同時(shí)選取 Staple[14]、SRDCF[15]、SAMF、KCF、DAT五種方法做對(duì)比實(shí)驗(yàn),其中基于HOG的KCF和基于顏色的DAT是本文算法的基準(zhǔn)算法,Staple、SRDCF、SAMF均在OTB2015具有良好的跟蹤結(jié)果,便于與本文算法進(jìn)行對(duì)比。
本文選取2組具有代表性的視頻序列來(lái)進(jìn)行跟蹤效果上的對(duì)比,給出的視頻序列分別是Shaking、Bird1。跟蹤效果如圖2所示:第一行表示基于改進(jìn)的HOG特征的KCF算法的跟蹤結(jié)果,第二行表示基于顏色特征的DAT算法的跟蹤結(jié)果,第三行是本文算法的跟蹤結(jié)果。
圖2 本文算法與其他算法跟蹤效果圖定性對(duì)比
可以看出:KCF算法對(duì)于光照變化和局部遮擋效果較好,但是不適應(yīng)于快速運(yùn)動(dòng)和快速形變;DAT算法對(duì)于快速運(yùn)動(dòng)和快速形變效果較好,但是不適應(yīng)于光照變化和局部遮擋;本文算法充分發(fā)揮了兩種算法互補(bǔ)的優(yōu)勢(shì),既能適應(yīng)光照變化和局部遮擋,也能適應(yīng)快速運(yùn)動(dòng)和快速形變,說(shuō)明本文算法在復(fù)雜環(huán)境中也能跟蹤目標(biāo)。從圖2(b)的Bird1視頻序列中還可以看出:最開(kāi)始所有算法均能準(zhǔn)確跟蹤,但是在遇到遮擋之后,也就是第190幀時(shí),只有本文算法能夠準(zhǔn)確跟蹤,其他算法均已漂移。在第285幀目標(biāo)劇烈形變時(shí),本文算法也能夠快速地再次跟蹤上,說(shuō)明本文算法抗遮擋性能較好,而且對(duì)于目標(biāo)劇烈形變也具有良好的適應(yīng)性。
為了更加精確地分析本文算法跟蹤的準(zhǔn)確性,同時(shí)也方便與其他算法對(duì)比,實(shí)驗(yàn)的衡量標(biāo)準(zhǔn)[16]采用OPE(One-Pass Evaluation),包括精確度曲線(precision plot)和成功率曲線(success plot)。其中精確度描述的是給定的中心位置誤差閾值之內(nèi)跟蹤正確的幀數(shù)占總幀數(shù)的比例,成功率描述的是大于給定的重疊率的跟蹤正確的幀數(shù)占總幀數(shù)的比例,精確度和成功率的取值范圍都是[0,1]。對(duì)于精確度曲線,我們采用閾值為20像素時(shí)的精確度來(lái)評(píng)價(jià)跟蹤器的表現(xiàn);對(duì)于成功率曲線,我們用曲線下面積AUC(the Area Under Curve)來(lái)評(píng)價(jià)跟蹤器的表現(xiàn)。本文算法與Staple、SRDCF、SAMF、KCF、DAT在OTB2015上的對(duì)比結(jié)果如圖3所示。
圖3 OTB2015測(cè)試集上本文算法與其他5種優(yōu)秀算法在精確度和成功率上的OPE指標(biāo)對(duì)比
可以看出,DAT和KCF的跟蹤精確度和跟蹤成功率都不高,這是由于DAT只考慮顏色特征,而KCF只考慮HOG特征,沒(méi)有發(fā)揮出顏色特征與HOG特征的互補(bǔ)性,并且不適應(yīng)于尺度變化,所以跟蹤誤差較大。而本文算法充分發(fā)揮出了顏色特征與HOG特征的互補(bǔ)性,并且采用了尺度濾波和自適應(yīng)模型更新,因此本文算法的精確度和成功率比KCF和DAT提高了很多。本文算法相比于DAT,精確度提高了38.2%,成功率提高了29.1%;相比于KCF,精確度提高了30.2%,成功率提高了24.5%;相比于SAMF,精確度提高了8.3%,成功率提高了9.1%;相比于Staple,本文算法的平均速率不高,但是精確度提高了5.3%,成功率提高了5.8%;相比于SRDCF,精確度提高了3.7%,成功率提高了3.7%。雖然本文算法較SRDCF算法在精確度和成功率上提升不大,但是SRDCF的平均速率只有3.6FPS,本文算法平均速率為15FPS,實(shí)時(shí)效果更好。綜上所述,本文算法充分發(fā)揮了互補(bǔ)特征的優(yōu)勢(shì),提升了精確度和成功率,雖然平均速率有所下降,但也基本滿足實(shí)時(shí)性要求,具有良好的應(yīng)用價(jià)值。
本文算法在充分考慮基于HOG特征值的核相關(guān)濾波方法的基礎(chǔ)上,以圖像銳化來(lái)獲取更好的HOG特征值,同時(shí)利用基于改進(jìn)的HOG特征值與顏色特征值的兩個(gè)跟蹤器預(yù)測(cè)框的交并比來(lái)自適應(yīng)地更新位置濾波器,提升了跟蹤目標(biāo)的成功率。視頻序列實(shí)驗(yàn)表明,本文算法適應(yīng)于各類復(fù)雜情況,在目標(biāo)變形模糊或目標(biāo)遮擋之后仍能準(zhǔn)確跟蹤,與其他當(dāng)前優(yōu)秀算法的比較,也說(shuō)明本文算法能夠獲得更好的跟蹤精度,具有良好的應(yīng)用價(jià)值。