益爭?,?,尚振宏,劉 輝,李潤鑫
(昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明 650500)
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的一個熱點(diǎn),被廣泛應(yīng)用于視頻監(jiān)控、機(jī)器人學(xué)習(xí)、工業(yè)智能化等方面。其本質(zhì)是在一段連續(xù)視頻序列圖像中找到目標(biāo)的位置和狀態(tài)[1]。雖然目前目標(biāo)跟蹤已經(jīng)取得很大進(jìn)展,但因受到遮擋、光照變化和尺度變化等眾多因素影響,它仍然是一個具有挑戰(zhàn)性的問題。
近年來,許多學(xué)者將相關(guān)濾波器引入到目標(biāo)跟蹤框架中。相關(guān)濾波器目標(biāo)跟蹤算法中特征的選擇對跟蹤的性能影響很大。其中,D. S. Bolme等提出的最小化輸出平方誤差和(minimun output sum of square error,MOSSE)算法[2],僅采用灰度特征進(jìn)行跟蹤,J. F. Henriques等提出將以往單通道灰度特征拓展到多通道,采用方向梯度特征(histogram of oriented gridients,HOG)跟蹤目標(biāo)的(kernel correlation filter,KCF)算法[3],提高了跟蹤的準(zhǔn)確度。M. Danelljan等在算法中加入顏色特征,并利用主成分分析(principal component analysis,PCA)對顏色特征CN[4]降維處理,應(yīng)用在彩色視頻序列中。M. Danelljan等在MOSSE的基礎(chǔ)上提出利用HOG特征構(gòu)建尺度金字塔進(jìn)行目標(biāo)尺度估計(jì)的DSST算法[5]。上述算法都僅使用單一特征描述目標(biāo),無法較全面的表達(dá)目標(biāo),在不同場景下跟蹤性能有較大差異。另外,上述算法都采用逐幀固定更新濾波器模型的方式,但每幀跟蹤情況各不相同,容易將錯誤的信息加到目標(biāo)模型中,而導(dǎo)致后續(xù)幀跟蹤失敗。針對以上問題本文基于可以進(jìn)行尺度估計(jì)的DSST算法提出以下策略:
(1)上述算法僅利用單一特征(HOG特征或顏色特征)描述目標(biāo)。HOG特征是圖像的局部特征,對目標(biāo)細(xì)微形變、光照變化等有較好的適應(yīng)能力,但是如果目標(biāo)發(fā)生較大的形變和遮擋時,會發(fā)生錯跟或漏跟;而人類識別圖像的重要感知特征顏色特征是基于像素點(diǎn)的一種全局特征,對目標(biāo)旋轉(zhuǎn)、平移和尺度變化不敏感,但顏色特征不能很好描述目標(biāo)的局部特征且無法適應(yīng)光照變化。為此,本文將這兩種特征融合起來描述目標(biāo)模型,在獲得目標(biāo)全局特征的同時,也可以獲取目標(biāo)局部特征,提高了目標(biāo)檢測的準(zhǔn)確度。
(2)上述算法使用目標(biāo)模型逐幀固定更新策略,如果目標(biāo)發(fā)生遮擋時,繼續(xù)更新模型會將不正確的信息加到模型中,會導(dǎo)致目標(biāo)跟蹤的失敗。為了提高跟蹤性能,提出只有滿足一定條件時才更新的策略,通過判斷目標(biāo)是否發(fā)生遮擋來決定是否進(jìn)行模型更新,減小了遮擋對目標(biāo)跟蹤的影響,從而提高了算法的穩(wěn)定性。
視覺跟蹤中目標(biāo)尺度不斷發(fā)生變化,基于此DSST算法提出了一種尺度估計(jì)的策略。該算法先得到目標(biāo)位置,然后估計(jì)目標(biāo)尺度。為保證論文完整性,將DSST算法簡述如下,該算法的詳細(xì)論述見參考文獻(xiàn)[5]。
DSST跟蹤算法提出通過訓(xùn)練兩個濾波器,位置濾波器和尺度濾波器,分別得到目標(biāo)的位置和尺度,且兩個濾波器的應(yīng)用方式和原理相同。通過位置濾波器找到預(yù)測區(qū)域中目標(biāo)響應(yīng)值最大的位置,此處就是目標(biāo)的位置;利用訓(xùn)練好的尺度濾波器在新位置處估計(jì)目標(biāo)尺度。
以輸入圖像中目標(biāo)位置為中心,進(jìn)行采樣獲得圖像塊P。然后,提取P的HOG特征f作為訓(xùn)練樣本m。樣本訓(xùn)練是為了找到最優(yōu)的濾波器h, 使輸入樣本和需要輸出之間平方誤差最小。h由每個特征維度的濾波器hl組成, 通過如下最小化均方差求得:
(1)
式中:g為訓(xùn)練樣本m的期望輸出;τ為正則化參數(shù);d為訓(xùn)練樣本f的維數(shù);fl為其中的第l維,l∈{1,…,d};*表示循環(huán)相關(guān)。
式(1)的最小值在頻域里的解如下:
(2)
(3)
(4)
式中η為濾波器模型更新的學(xué)習(xí)率。
上述已經(jīng)得到了最優(yōu)濾波器模型,完成了訓(xùn)練過程。此處將對目標(biāo)進(jìn)行檢測,對于新一幀得到候選樣本z,計(jì)算z與濾波器的相關(guān)得分y:
(5)
y取得的最大值處即為新的目標(biāo)位置。
為了解決目標(biāo)尺度變化問題,DSST算法在目標(biāo)位置確定后,通過構(gòu)建尺度金字塔訓(xùn)練尺度濾波器估計(jì)目標(biāo)尺度。確定目標(biāo)位置后,以目標(biāo)新位置為中心,截取構(gòu)建金字塔的33個圖像層,并提取這些圖像層的HOG特征訓(xùn)練一個尺度濾波器Hscale,用來估計(jì)目標(biāo)尺度,Hscale由式(2)計(jì)算可得。在新一幀中,為了得到目標(biāo)尺度,利用式(5)求ys并得其最大值,確定目標(biāo)當(dāng)前尺度。采用式(3)、式(4)進(jìn)行模型更新。
DSST算法是基于單一HOG特征描述目標(biāo)模型,在目標(biāo)發(fā)生巨大形變和遮擋時,跟蹤效果并不理想。且該算法更新模型采用逐幀固定更新方式,但這種更新策略不能滿足視頻序列中每幀各不相同的變化情況,無法抑制模型漂移,最后可能導(dǎo)致跟蹤失敗。
本文提出基于相關(guān)濾波器跟蹤方法的改進(jìn),位置估計(jì)時,為了更全面描述目標(biāo),減小跟蹤錯誤率,采用了與HOG特征具有互補(bǔ)性的顏色特征CN共同描述目標(biāo)以訓(xùn)練濾波器,并根據(jù)兩個特征各自跟蹤結(jié)果的PSR(peak-to-sidelobe ration)自適應(yīng)融合兩種特征。為提高目標(biāo)模型的有效性,對算法的跟蹤結(jié)果進(jìn)行遮擋判斷,如果目標(biāo)發(fā)生遮擋,則不進(jìn)行目標(biāo)模型更新,未發(fā)生遮擋則更新模型,提高了目標(biāo)跟蹤的性能。
在相關(guān)濾波器算法中,濾波器響應(yīng)分布可以評估跟蹤結(jié)果的置信度。理想響應(yīng)分布時峰值強(qiáng)度高,即僅在目標(biāo)中心位置處產(chǎn)生唯一峰值,且該峰值比較突出,峰值與周圍區(qū)域之間的相對高度較大。峰值旁瓣比PSR最開始是D. S. Bolme等[2]提出的是一種衡量峰值強(qiáng)度的指標(biāo), PSR計(jì)算方法為[2]
(6)
式中:yt,max為第t幀響應(yīng)圖的峰值;μt和σt為最大響應(yīng)位置周圍區(qū)域的均值和標(biāo)準(zhǔn)差。
PSRt越大,響應(yīng)分布中峰值強(qiáng)度越高,則目標(biāo)置信度越高。
不同的特征具有不同的性質(zhì)。如圖(1)所示,當(dāng)目標(biāo)發(fā)生遮擋或目標(biāo)發(fā)生劇烈光照變化時,單獨(dú)使用HOG或者CN特征都不能很好跟蹤目標(biāo)。由圖1(a)可知,目標(biāo)發(fā)生遮擋時,單獨(dú)使用HOG特征,發(fā)生漂移,即HOG特征不能很好處理遮擋問題;由圖1(b)可知,當(dāng)目標(biāo)發(fā)生劇烈光照變化時,單獨(dú)使用CN特征跟丟目標(biāo),CN特征不能很好處理光照變化問題。
實(shí)驗(yàn)表明HOG特征和CN特征是一對互補(bǔ)特征。HOG特征對光照變化具有較好適應(yīng)性,CN特征對目標(biāo)形變、尺度變化具有較好適應(yīng)性。為更全面描述目標(biāo),文中將利用上述兩種特征描述目標(biāo)模型,減小跟蹤錯誤率。
——HOG(a)
- -CN(b)
分別提取目標(biāo)的HOG和CN特征,使用式(2)分別訓(xùn)練兩個位置濾波器,依據(jù)式(5)得到各自的目標(biāo)響應(yīng)圖。為了讓兩種特征有效融合,通過比較兩種特征的跟蹤置信度來分配特征權(quán)值,而PSR可以較好地衡量跟蹤置信度,當(dāng)PSR值較大,說明目標(biāo)置信度更高,跟蹤效果更好。在下一幀的目標(biāo)檢測中應(yīng)該加大該特征權(quán)重。
在t幀時,使用CN和HOG特征分別跟蹤目標(biāo)得到濾波器響應(yīng)yt,cn和yt,hog,并在響應(yīng)層面進(jìn)行特征融合,利用如下加權(quán)方法得到融合后的響應(yīng)yt:
yt=wt,cn×yt,cn+wt,hog×yt,hog
(7)
式中yt的最大值處就是目標(biāo)最終的位置:wt,cn、wt,hog分別為CN特征和HOG特征在第t幀時歸一化權(quán)重。
(8)
(9)
傳統(tǒng)相關(guān)濾波器算法中,采用逐幀固定更新模型方法,當(dāng)目標(biāo)發(fā)生遮擋時,更新過程中引入的錯誤信息將導(dǎo)致目標(biāo)跟蹤發(fā)生漂移甚至失敗。文獻(xiàn)[6-9]利用峰值旁瓣比PSR判斷目標(biāo)是否發(fā)生遮擋。圖2是Jogging1視頻序列的PSR響應(yīng)曲線分析。目標(biāo)在第24、248幀時正常運(yùn)動,PSR值比較大。在第71幀時,目標(biāo)被完全遮擋,PSR值較小,第80幀時PSR值上升,目標(biāo)發(fā)生部分遮擋。
(a)第24幀 (b)第71幀 (c)第80幀 (d)第248幀圖2 PSR值分析結(jié)果(Jogging1序列)
因此本文在目標(biāo)檢測過程中首先利用當(dāng)前幀最終位置響應(yīng)圖的PSR 值判斷目標(biāo)是否發(fā)生遮擋,并利用PSR重新確定模型的更新率
(10)
式中N為設(shè)定的判斷是否更新濾波器模型的PSR閾值。
通過對不同視頻序列實(shí)驗(yàn)測試發(fā)現(xiàn),目標(biāo)正常運(yùn)動時的PSR值超過7;當(dāng)PSR值小于7時,目標(biāo)發(fā)生遮擋,為了有效更新濾波器模型,本文中N取7。將式(3)、式(4)中上一幀的η用新的模型更新率η′替換,并在下一幀中使用,即對模型進(jìn)行自適應(yīng)更新。
實(shí)驗(yàn)運(yùn)行平臺為MATLAB R2014b, 所有實(shí)驗(yàn)均在Internet core i5 CPU,主頻2.5 GHz,4 GB內(nèi)存電腦上完成。實(shí)驗(yàn)中對所有測試視頻采用參數(shù)一致:正則化參數(shù)設(shè)置τ=0.01,模型更新的學(xué)習(xí)率η=0.025,尺度金字塔取33層,旁瓣區(qū)域預(yù)定義的更新閾值N取7。
實(shí)驗(yàn)選取公開的標(biāo)準(zhǔn)測試數(shù)據(jù)集Benchmar[10]中的12段視頻序列進(jìn)行實(shí)驗(yàn),測試視頻序列依次為Jogging1、Blurface、Tiger2、Skating2、Coke、Dog、Walking、Bolt、Girl、Singer2、Carscale和FaceOcc1,其中包含了目標(biāo)多種變化,如遮擋、快速運(yùn)動和旋轉(zhuǎn)、光照變化、尺度變化、和類目標(biāo)干擾等,可驗(yàn)證本文算法的有效性。
采用中心位置誤差(center location error,CLE)、距離精度(distance precision, DP)和幀率(frames per second, FPS)評估本文算法和其他比較算法。CLE是指目標(biāo)框的中心與目標(biāo)真實(shí)位置中心之間的偏差,中心誤差越小,則算法性能越高。DP是指中心位置誤差小于某一閾值的幀數(shù)占視頻總幀數(shù)的百分比,實(shí)驗(yàn)中采用閾值為20像素。
為了說明本文算法的有效性,選取3種對比算法進(jìn)行分析。對比算法包括: (circulant structure of tracking-by-detection with kernel,CSK)算法[11]、CN算法和MOSSE算法。
3.3.1 定量分析
表1是12組視頻序列的實(shí)驗(yàn)結(jié)果。其中最優(yōu)結(jié)果加下劃線表示??梢钥闯霰疚乃惴ǖ钠骄鵆LE和平均DP都優(yōu)于其他對比算法。和次優(yōu)的CN算法相比,平均CLE降低了25.12像素,平均DP提高了29.31%。但本文的平均幀率是13.71 fps,相對于其他算法有下降。
表1 本文算法與對比算法的比較
表2列舉了其中8個測試序列的平均CLE, 其中最優(yōu)結(jié)果加下劃線表示。本文算法的平均CLE僅在Bolt視頻中次優(yōu),在其余7個視頻都是最優(yōu),因此本文算法明顯優(yōu)于其他算法。
圖3為本文算法和其他3種算法在測試序列上的距離精度與中心位置誤差的關(guān)系,曲線越陡,表示跟蹤精度越高,其中,中心位置誤差閾值為20。由圖3可看出,本文算法的距離精度為最優(yōu)。
表2 部分測試視頻平均CLE %
(a)Jogging1
(b)Girl
(c)Coke
(d)Singer2
(e)Skating
(f)Tiger2
3.3.2 定性分析
3.3.2.1 發(fā)生遮擋
圖4(a)是Jogging1視頻的部分跟蹤結(jié)果,在第71幀時目標(biāo)被完全遮擋時;在第98幀時,其他算法都跟蹤失敗,僅本文算法由于可以自適應(yīng)更新目標(biāo)模型,依然能夠成功跟蹤目標(biāo)。
3.3.2.2 快速運(yùn)動和旋轉(zhuǎn)
由圖4(b)是Tiger2視頻的部分跟蹤結(jié)果,序列中目標(biāo)快速運(yùn)動導(dǎo)致目標(biāo)模糊,在第82幀時,除了MOSSE,其余算法都能準(zhǔn)確跟蹤目標(biāo);在第113幀時,CSK跟丟目標(biāo),CN和本文都可以精確跟蹤目標(biāo)。由圖4(c)是Skating2視頻的部分跟蹤結(jié)果,第60、456幀時目標(biāo)發(fā)生旋轉(zhuǎn),MOSSE、CN跟丟目標(biāo),CSK算法雖然全程都能跟蹤目標(biāo),但本文算法精確度更高。
3.3.2.3 光照變化
由圖4(d)是Singer2視頻的部分跟蹤結(jié)果,在第36幀時目標(biāo)發(fā)生劇烈光照變化,對比算法都出現(xiàn)漂移或跟丟現(xiàn)象,本文算法依然可以準(zhǔn)確跟蹤;在第59幀時,目標(biāo)再次發(fā)生光照變化,僅本文算法可以正確跟蹤目標(biāo),其他算法都跟蹤失敗。目標(biāo)發(fā)生光照變化時,顏色特征失效,而本文算法融合了Hog特征能適應(yīng)光照變化。
3.3.2.4 尺度變化
圖4(e)Carscale視頻序列中目標(biāo)尺度變化明顯,只有本文算法可以準(zhǔn)確更新目標(biāo)尺度,精確跟蹤目標(biāo)。
3.3.2.5 類目標(biāo)干擾
圖4(f)是Girl視頻的部分跟蹤結(jié)果,在第440幀時出現(xiàn)類目標(biāo)干擾,MOSSE算法依然最早丟失目標(biāo),CSK算法跟丟目標(biāo),CN算法發(fā)生目標(biāo)錯跟,而本文算法可以準(zhǔn)確跟蹤,在第471幀時,MOSSE和CSK發(fā)生跟蹤失敗,CN跟蹤發(fā)生偏離,只有本文算法能夠全程穩(wěn)健跟蹤。
由上述定量和定性分析可知,本文算法在目標(biāo)發(fā)生遮擋、快速運(yùn)動、光照變化、尺度變化和類目標(biāo)干擾等情況下具有較魯棒的跟蹤效果,特別在目標(biāo)被遮擋時效果更佳。
本文提出基于相關(guān)濾波器跟蹤算法的多特征融合和選擇性更新模板的跟蹤算法。首先,將CN和HOG特征在濾波器響應(yīng)圖層面進(jìn)行融合,提高目標(biāo)跟蹤準(zhǔn)確度。其次,在每一幀中,采用PSR自適應(yīng)控制模型的更新率,解決模板遮擋問題。實(shí)驗(yàn)表明,
在目標(biāo)發(fā)生遮擋、快速運(yùn)動、光照變化、尺度變化和類目標(biāo)干擾等問題時,本文算法具有較強(qiáng)穩(wěn)定性,尤其在解決遮擋問題時效果更佳。但本文算法平均速度為13.71 frame/s,速度較慢,需要進(jìn)一步進(jìn)行優(yōu)化。