陳昭炯 葉東毅 林德威
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要分支,具有廣泛的應(yīng)用前景。其主要任務(wù)可以描述為:給出一組視頻序列和某個(gè)目標(biāo)在序列第一幀中的位置,要求獲得該目標(biāo)在后續(xù)所有幀中的位置.目標(biāo)跟蹤問(wèn)題圍繞著視頻的來(lái)源、應(yīng)用場(chǎng)景需求和算法框架等因素分成多個(gè)分支,在線單目標(biāo)跟蹤是其中最為基礎(chǔ)且研究?jī)?nèi)容最多的方向[1].此類(lèi)跟蹤系統(tǒng)一般分為初始化、目標(biāo)建模與更新、候選目標(biāo)采樣、位置確定四個(gè)部分.系統(tǒng)抽取目標(biāo)的外觀或運(yùn)動(dòng)特征進(jìn)行建模,對(duì)采樣獲取的候選目標(biāo)進(jìn)行匹配、分類(lèi)等甄別,最終確定下一幀目標(biāo)的預(yù)測(cè)位置.其中目標(biāo)建模與更新和候選目標(biāo)采樣方法是當(dāng)前研究的熱點(diǎn),特別是目標(biāo)建模與更新是影響最終跟蹤效果的重要因素.
目標(biāo)的建模與更新方法通常可分成產(chǎn)生式和判別式兩類(lèi).產(chǎn)生式模型通過(guò)對(duì)特征的抽取建立目標(biāo)外觀的先驗(yàn)分布,而后在候選樣本中搜索與先驗(yàn)?zāi)P妥顬槠ヅ涞膮^(qū)域作為下一幀中目標(biāo)的位置,并對(duì)先驗(yàn)?zāi)P瓦M(jìn)行實(shí)時(shí)更新;判別式模型是近年來(lái)逐漸興起的方法,其思路是將跟蹤問(wèn)題看成一個(gè)分類(lèi)問(wèn)題,常用的分類(lèi)器有貝葉斯分類(lèi)器[2]、支持向量機(jī)(Support vector machines,SVM)[3]以及近年提出的相關(guān)濾波器[4-6]等,判別式模型通過(guò)在線學(xué)習(xí)訓(xùn)練分類(lèi)器,利用訓(xùn)練好的分類(lèi)器對(duì)候選目標(biāo)進(jìn)行分類(lèi),得分最高且分類(lèi)標(biāo)簽為正的候選樣本作為最終結(jié)果輸出,而后對(duì)分類(lèi)器進(jìn)行更新.可以看到,兩種方法各有特點(diǎn),前者著眼于對(duì)目標(biāo)整體的刻畫(huà),通用性較好,但對(duì)目標(biāo)特征的依賴(lài)程度較高,如果特征的表征能力粗糙或者采用的特征單一化就可能造成目標(biāo)模型不準(zhǔn)確,且產(chǎn)生式建模未利用背景的信息,而目標(biāo)位置通常以矩形框形式呈現(xiàn),這就不可避免地造成了背景混入目標(biāo),在后續(xù)的匹配中可能帶來(lái)誤判;判別式模型利用了前景和背景信息,區(qū)分度較好,但是通用性不強(qiáng).而混合式模型旨在結(jié)合兩者優(yōu)點(diǎn)[7],但融合方式或參數(shù)確定困難,研究成果較少[8].
不論是產(chǎn)生式還是判別式模型首先都需要對(duì)對(duì)象特征進(jìn)行有效的刻畫(huà)和提取,好的模型特征通常應(yīng)具有尺度不變、旋轉(zhuǎn)不變等特性,才能適應(yīng)運(yùn)動(dòng)目標(biāo)可能發(fā)生的外觀變化.常用的特征有顏色特征[3,6,9-10]、刻畫(huà)形狀或紋理的方向梯度直方圖(Histogram of oriented gradient,HOG) 特征[5,11]、主方向直方圖(Histogram of dominant orientations,HDO) 特征[12]和Harr-like 特征[2-3]等,在特定的情況下單獨(dú)使用上述特征可能有不錯(cuò)的表現(xiàn),而不同類(lèi)型特征的結(jié)合則有更強(qiáng)的適應(yīng)性[6].近年來(lái)也有學(xué)者利用深度學(xué)習(xí)在特征刻畫(huà)上的優(yōu)勢(shì),探討其在跟蹤方面的應(yīng)用[13-15],但由于視頻目標(biāo)跟蹤是典型的小樣本在線學(xué)習(xí)問(wèn)題,且對(duì)實(shí)時(shí)性要求極高,而以處理大數(shù)據(jù)見(jiàn)長(zhǎng)的、規(guī)模龐大的深度網(wǎng)絡(luò)在上述兩方面難以發(fā)揮優(yōu)勢(shì),還有許多關(guān)鍵問(wèn)題亟待解決[16-17].
在目標(biāo)建模中顏色是非常重要的特征之一,顏色特征對(duì)姿態(tài)和旋轉(zhuǎn)不敏感、計(jì)算簡(jiǎn)單,在目標(biāo)跟蹤方法中得到廣泛應(yīng)用,但其缺點(diǎn)是容易受到外界光照變化的影響,當(dāng)出現(xiàn)顏色相似的目標(biāo)或背景時(shí)模型表征能力會(huì)下降.常用的顏色特征有基于加權(quán)直方圖分布的[3,6,9-10,18]特征和基于Color name[19]的特征.本文通過(guò)分析發(fā)現(xiàn),前者存在構(gòu)建模型的假設(shè)條件不夠合理、同一區(qū)間長(zhǎng)度中的差異色無(wú)法分辨等不足;后者將顏色信息投影到11 維常用顏色名空間中,本質(zhì)上是一種簡(jiǎn)化了的直方圖分布模型,由于區(qū)間數(shù)不多而區(qū)間長(zhǎng)度較大,同樣會(huì)產(chǎn)生視覺(jué)上有差異的顏色落入同一區(qū)間而無(wú)法區(qū)分的問(wèn)題.此外,上述兩種方式還易受背景信息干擾.
本文首先針對(duì)上述顏色直方圖表征目標(biāo)的不足,設(shè)計(jì)了一種新的顏色表示模型,即背景抑制的目標(biāo)顏色模型,并提出基于人眼感知特性的動(dòng)態(tài)權(quán)重函數(shù)來(lái)計(jì)算顏色分布的重要性,該模型能夠有效區(qū)分同一區(qū)間中的差異色且降低背景色在模型中的權(quán)重;其次,本文將產(chǎn)生式和判別式模型相結(jié)合,利用上述新的顏色模型構(gòu)建產(chǎn)生式跟蹤器,同時(shí)引入相關(guān)濾波器[5],結(jié)合HOG 特征構(gòu)建判別式的形狀跟蹤器,從顏色和形狀兩方面刻畫(huà)目標(biāo)和背景,將產(chǎn)生式和判別式的優(yōu)勢(shì)結(jié)合;在兩者結(jié)合的參數(shù)設(shè)計(jì)這一關(guān)鍵問(wèn)題上,本文利用兩個(gè)跟蹤器對(duì)候選目標(biāo)的相關(guān)響應(yīng)值,來(lái)判定對(duì)應(yīng)場(chǎng)景中顏色和形狀特征各自的可信度,分析并設(shè)計(jì)了參數(shù)選擇的定性原則,同時(shí)通過(guò)場(chǎng)景的判定對(duì)跟蹤器實(shí)施不同力度的更新策略,提升了算法的整體魯棒性;算法采用粒子群算法的搜索機(jī)制進(jìn)行候選目標(biāo)采樣,在滿(mǎn)足搜索精度的基礎(chǔ)上還能保有搜索的廣度,其最大的優(yōu)勢(shì)是可追隨目標(biāo)尺度的變化.本文算法在OTB-2015 公測(cè)數(shù)據(jù)集[20]上與其他算法進(jìn)行對(duì)比實(shí)驗(yàn),在絕大多數(shù)情況下準(zhǔn)確率較對(duì)比算法更優(yōu)且能滿(mǎn)足實(shí)時(shí)性要求.
顏色通常是快速辨別目標(biāo)的一個(gè)重要因素,許多跟蹤算法把顏色作為重要的建模特征之一.
目前廣泛采用的顏色分布模型是以帶權(quán)重的顏色分布直方圖作為特征的[3,9-10,18].該模型對(duì)半遮擋、旋轉(zhuǎn)或尺度變化具有較好的魯棒性,且計(jì)算簡(jiǎn)潔,工程上容易實(shí)現(xiàn).但分析表明,該模型存在如下較大的局限性:
1) 顏色直方圖無(wú)法區(qū)分同一區(qū)間內(nèi)相近但視覺(jué)上能感知的差異色.在建立顏色分布模型時(shí),需要考慮區(qū)間的個(gè)數(shù)和每個(gè)區(qū)間的長(zhǎng)度,若區(qū)間數(shù)太多、區(qū)間長(zhǎng)度過(guò)短,雖然可以比較細(xì)致地表達(dá)顏色,但是計(jì)算量大,影響跟蹤的實(shí)時(shí)性,還可能導(dǎo)致模型對(duì)顏色變化過(guò)于敏感,出現(xiàn)跟蹤丟失的情況,因而在實(shí)際應(yīng)用中,通常不采用區(qū)間數(shù)過(guò)多的直方圖分布設(shè)計(jì);但是若采取區(qū)間長(zhǎng)度較長(zhǎng)、區(qū)間數(shù)較少的方案,例如前述的Color name 模型[19],則會(huì)帶來(lái)顏色表達(dá)能力的下降,視覺(jué)上有差異的顏色可能落入同一區(qū)間無(wú)法分辨,進(jìn)而導(dǎo)致錯(cuò)誤跟蹤.以圖1 為例,圖中兩個(gè)色塊的差異人眼很容易分辨,其RGB 值分別是(0,128,128) 和(11,131,158),但模型卻將它們視為相同而歸入11 維區(qū)間中的同一區(qū)間段.
2) 傳統(tǒng)模型采用隨目標(biāo)框中心向外逐漸遞減的權(quán)重函數(shù)來(lái)計(jì)算直方圖的分布,而目標(biāo)的許多實(shí)際情況并不符合這種函數(shù)形態(tài).
圖1 同一區(qū)間內(nèi)的相近色Fig.1 Similar colors within the same interval
一般情況下,跟蹤過(guò)程通常采用矩形框表示目標(biāo)區(qū)域.記r為目標(biāo)框內(nèi)當(dāng)前點(diǎn)與中心的距離,權(quán)重函數(shù)k(r) 是一個(gè)與r成正比的核函數(shù)[21],典型的形式為
式(1) 表明越靠近目標(biāo)框中心的顏色其權(quán)重越大,相應(yīng)的顏色信息越重要.圖2 中矩形框?yàn)闄z測(cè)過(guò)程標(biāo)定的目標(biāo)區(qū)域,曲線框代表目標(biāo)的實(shí)際輪廓,容易看出靠近矩形框中心的右下部分實(shí)際上是背景區(qū),如果按照上述權(quán)重計(jì)算方式,大量的背景顏色信息會(huì)混入到目標(biāo)顏色模型中.這種情況在與圖2 類(lèi)似的具有凹形或空心的目標(biāo)形態(tài)出現(xiàn)時(shí)尤為明顯;更嚴(yán)重的問(wèn)題是,此時(shí)處在目標(biāo)區(qū)中心的背景信息被賦予了很高的權(quán)重,造成目標(biāo)模型的顏色分布不僅和真實(shí)的顏色分布相差較大,反而和背景模型的顏色分布相差無(wú)幾,這容易造成跟蹤方向背離目標(biāo)而指向背景區(qū)域.
圖2 目標(biāo)框與實(shí)際目標(biāo)形狀差異Fig.2 Shape difference between the tracking box and the real object
為了解決上述問(wèn)題,本文的思路是對(duì)顏色模型的結(jié)構(gòu)形式進(jìn)行重新設(shè)計(jì),將區(qū)間的均值和方差納入到模型中,在每一區(qū)間內(nèi)對(duì)其顏色分布進(jìn)行二次統(tǒng)計(jì),如此即可較好地應(yīng)對(duì)同一區(qū)間視覺(jué)上有差異的顏色的區(qū)分問(wèn)題.
其中,bu為如下四元組:
pu為該區(qū)間顏色在圖像中的出現(xiàn)頻值,μu為區(qū)間顏色均值,為區(qū)間顏色方差,計(jì)算式為
其中,δ為克羅內(nèi)克(Kronecker) 函數(shù)
其中,wu為權(quán)重系數(shù),反映了區(qū)間u的顏色在目標(biāo)顏色模型中的重要程度,式(5) 是與時(shí)間t有關(guān)的,為簡(jiǎn)便計(jì),統(tǒng)一將t略去.下面分析該系數(shù)的計(jì)算方式.
如第1.1 節(jié)所述,目標(biāo)顏色的重要程度未必與其分布位置必然相關(guān),因此簡(jiǎn)單地使用隨空間位置變化的權(quán)重函數(shù)并不合理.事實(shí)上,人類(lèi)視覺(jué)有著長(zhǎng)期進(jìn)化形成的非常有效的捕捉和跟蹤機(jī)制,值得算法借鑒.例如人類(lèi)在觀察對(duì)象時(shí)更側(cè)重關(guān)注對(duì)象與背景差異較大的部分,如觀察一個(gè)身著黑衣的人在夜間行走,會(huì)更傾向于關(guān)注行人的頭部.即并非目標(biāo)中的顏色都是起關(guān)鍵作用的,只有那些能將目標(biāo)從背景中分離出來(lái)的顏色才是真正重要的.
基于上述分析,本文給權(quán)重函數(shù)設(shè)立的計(jì)算原則是,目標(biāo)框中顏色信息的重要程度與背景相關(guān),與背景差異越大其顏色的特異性在目標(biāo)識(shí)別中越重要,相應(yīng)的權(quán)重也應(yīng)該更大,這樣即使目標(biāo)中有與背景相近的顏色,但是因賦予其較小的權(quán)重而使其不會(huì)在跟蹤中起主導(dǎo)作用,真正起主導(dǎo)作用的是與背景顏色差異較大的目標(biāo)色,這樣就能有效改善模型中背景易混入目標(biāo)的不足.
根據(jù)該原則計(jì)算權(quán)重的方式如下:假設(shè)在檢測(cè)過(guò)程已獲取目標(biāo)框P,將其外擴(kuò)1~2 個(gè)像素寬,得到覆蓋P的一個(gè)稍大的矩形框P′,條帶γ=P′-P應(yīng)不含或含有極少量目標(biāo),絕大部分為背景,并且此背景與目標(biāo)框中的背景是相鄰的,故二者屬于語(yǔ)義上同一背景的可能性較大.可用條帶γ表達(dá)目標(biāo)框中的背景組成,也就是目標(biāo)框P中混雜的背景色與條帶γ的顏色分布應(yīng)相似,通過(guò)計(jì)算γ的顏色分布來(lái)刻畫(huà)目標(biāo)框內(nèi)的背景色,就能從P中較好地將背景色析出,保留真正的差異性目標(biāo)顏色特征并給予其較大的權(quán)重.
計(jì)算條帶γ在t時(shí)刻的顏色直方圖并歸一化得B(t)={γ1(t),γ2(t),···,γm(t)},如圖3 所示.B(t)中占比越大的顏色區(qū)間是背景的概率越大.
圖3 與目標(biāo)緊鄰的參考背景模型Fig.3 Reference model of background close to the target
t時(shí)刻的權(quán)重系數(shù)wu(t) 也應(yīng)與區(qū)間顏色的均值和方差有關(guān)聯(lián),但考慮到其最重要的取值原則是該顏色在背景中占比越大,則取值越小,最終的計(jì)算式為
其中,γu(t) 越大,表明區(qū)間u的顏色在背景中占的比例越大,此時(shí)wu(t) 應(yīng)越小.當(dāng)然,也存在另一種可能,就是目標(biāo)中也包含了與背景相近的顏色,根據(jù)算法思想,我們將這種顏色看作是目標(biāo)的非特異性顏色,也就是無(wú)法將目標(biāo)從背景中區(qū)分出來(lái)的顏色,對(duì)于表征目標(biāo)沒(méi)有實(shí)質(zhì)意義,因此同樣要賦予較小的權(quán)重.例如圖3,目標(biāo)主體是小狗,主要由黑色和灰白色構(gòu)成,由于灰白色與背景相近,黑色就構(gòu)成了目標(biāo)特異色,其權(quán)重較大.
顏色是人類(lèi)視覺(jué)系統(tǒng)中常用的一種特征,但有其局限性,因?yàn)轭伾皇且环N固定屬性,會(huì)隨著環(huán)境的變化而改變,因此考慮增加目標(biāo)的形狀特征來(lái)強(qiáng)化跟蹤效果,構(gòu)造顏色和形狀兩個(gè)跟蹤器.
近年來(lái),相關(guān)濾波器[5]因其構(gòu)造方式簡(jiǎn)潔、處理速率較快、魯棒性較好而在目標(biāo)跟蹤中引起關(guān)注和研究[6,22-24],在此引入相關(guān)濾波器作為形狀跟蹤器,采用刻畫(huà)形狀特征的HOG 描述子[11]作為濾波器的輸入.
假設(shè)給定目標(biāo)候選區(qū)f、濾波器h及相關(guān)性響應(yīng)g,根據(jù)卷積定理,空域的卷積運(yùn)算可以在傅里葉域通過(guò)元素乘積后反變換完成,故有如下關(guān)系:
其中,F(xiàn) 為傅里葉變換,F(xiàn)*(h) 表示F(h) 的復(fù)共軛,⊙表示矩陣點(diǎn)乘.
跟蹤初始通常收集一定量的目標(biāo)表示樣本fi和輸出gi,i=1,2,···,N,通常fi由視頻首幀的真實(shí)目標(biāo)框及其若干偏移框構(gòu)成,其響應(yīng)值gi通常是fi中心與真實(shí)目標(biāo)中心距離的高斯函數(shù)變換值,通過(guò)訓(xùn)練的方式建立初始濾波器h.記F=F(f),G=F(g),H=F(h),則有:
其中,除號(hào)是指矩陣元素相除,為了使濾波器更具魯棒性,H*可通過(guò)求解如下最小化問(wèn)題獲得:
由文獻(xiàn)[5]可知,其最優(yōu)解H*的表達(dá)式為
由此獲得初始化的濾波器.其中濾波器的輸入是采用提取好的HOG 特征.后續(xù)隨著視頻推移,濾波器模型需要通過(guò)更新公式來(lái)更新,參見(jiàn)第4.2.2 節(jié).相關(guān)濾波器的詳細(xì)介紹可參見(jiàn)文獻(xiàn)[5].
群智能算法因其帶指導(dǎo)的隨機(jī)性、不易陷入局部最優(yōu)、無(wú)需求導(dǎo)實(shí)現(xiàn)方便、信息可交互等特點(diǎn)得到廣泛運(yùn)用,在目標(biāo)跟蹤相關(guān)領(lǐng)域也有相關(guān)的應(yīng)用工作出現(xiàn)[25].這種帶隨機(jī)搜索機(jī)制的群體智能優(yōu)化算法用于目標(biāo)跟蹤,相比于傳統(tǒng)的優(yōu)化方法,具有更高的獲得全局最優(yōu)的可能性,因而更不易陷入局部最優(yōu).同時(shí)即便在某一幀算法判斷失誤,由于每個(gè)個(gè)體保持一定的獨(dú)立性,其搜索范圍仍然保有一定的廣度,算法依然有機(jī)會(huì)找回目標(biāo).粒子群算法是群智能方法中一個(gè)比較經(jīng)典、簡(jiǎn)潔的算法,本文的候選目標(biāo)搜索過(guò)程通過(guò)引入粒子群優(yōu)化(Particle swarm optimization,PSO) 算法來(lái)實(shí)現(xiàn).
粒子s的結(jié)構(gòu)形式設(shè)計(jì)為s={P,R,V,a},其中,P=(x,y)T為該粒子所代表的矩形區(qū)左上角的坐標(biāo);R=(rox,roy)T為該區(qū)域的長(zhǎng)和寬;V=(vox,voy)T表示粒子在x和y方向上的運(yùn)動(dòng)速度;a=(aox,aoy)T表示區(qū)域在x和y方向上尺寸的變化速度.如圖4 所示.
圖4 粒子模型示意圖Fig.4 Illustration of particle model
在設(shè)計(jì)粒子模型時(shí),我們將候選框的尺度和變化率也作為粒子可調(diào)節(jié)的參數(shù),以適應(yīng)真實(shí)場(chǎng)景中對(duì)象可能發(fā)生的尺度變化.
有效運(yùn)用PSO 算法的關(guān)鍵環(huán)節(jié)是適應(yīng)值函數(shù)的設(shè)計(jì),本文思路是將顏色和形狀兩個(gè)跟蹤器的結(jié)果在適應(yīng)值函數(shù)中進(jìn)行組合,通過(guò)加權(quán)系數(shù)反映兩個(gè)跟蹤器當(dāng)前的可信程度,希望組合后粒子si的適應(yīng)值函數(shù)disi能較好地反映粒子的價(jià)值,指導(dǎo)當(dāng)前幀粒子趨近目標(biāo)的真實(shí)位置.
適應(yīng)值函數(shù)式為
其中,di為粒子si與目標(biāo)顏色模型的距離;gi為形狀跟蹤器對(duì)si的響應(yīng)值;M為粒子種群大小;τ是加權(quán)參數(shù),其值反映了當(dāng)前兩個(gè)跟蹤器的可信度,具體確定方法在第4.1 節(jié)詳細(xì)討論.
當(dāng)前幀粒子狀態(tài)的更新式為
其中,和為粒子si歷史最優(yōu)解的坐標(biāo)和尺寸;P*和R*為整個(gè)種群歷史最優(yōu)解的坐標(biāo)和尺寸;ω1和ω2為2 階慣性參數(shù)對(duì)角陣;η1,η2,ξ1,ξ2為認(rèn)知系數(shù);r1,r2,r3,r4為[0,1]中的隨機(jī)數(shù).當(dāng)前后兩次搜索得到的粒子適應(yīng)值之比近似為1 時(shí),搜索停止.
在每一幀執(zhí)行完整的一輪粒子群算法找到該幀的最佳目標(biāo)匹配位置后,下一幀重新開(kāi)始新一輪搜索,新一幀粒子的初始化過(guò)程不必隨機(jī)選擇粒子,而要充分利用上一幀的結(jié)果.第t+1 幀中搜索最佳匹配位置時(shí),粒子群的初始狀態(tài)可以設(shè)置為
其中,帶* 號(hào)的是上一幀獲得的最優(yōu)值,δ1,δ2,δ3,δ4為[0,1]中的隨機(jī)數(shù).
本文對(duì)顏色特征采用產(chǎn)生式建模、對(duì)形狀特征采用判別式建模后,獲得了兩個(gè)跟蹤器,在給定的場(chǎng)景中最終的目標(biāo)位置需要對(duì)兩個(gè)跟蹤器的可信程度進(jìn)行判定,綜合兩者的結(jié)果獲得,這一綜合結(jié)果以適應(yīng)值函數(shù)的形式體現(xiàn)在前述粒子群的搜索過(guò)程中,參見(jiàn)式(11).記
根據(jù)這些信息對(duì)當(dāng)前場(chǎng)景下目標(biāo)的變化情況作如下分析:若dmin很大,表示所有候選粒子所在區(qū)域的顏色都與目標(biāo)的顏色差異較大,可推斷場(chǎng)景發(fā)生了較大的顏色改變,此時(shí)顏色信息的可信度下降;若gmax很小,表示所有候選粒子所在區(qū)域的對(duì)象外觀都與目標(biāo)差別較大,可推斷場(chǎng)景中目標(biāo)外形發(fā)生較大的改變,此時(shí)形狀信息的可信度下降.
設(shè)置閾值ε1和ε2,具體有如下4 種狀況(參見(jiàn)圖5):
圖5 顏色與形狀跟蹤器權(quán)衡選擇過(guò)程圖示Fig.5 Trade-offbetween color tracker and shape tracker
1)dmin≤ε1且gmax>ε2,兩個(gè)跟蹤器都工作良好.
2)dmin≤ε1且gmax≤ε2,形狀跟蹤器出現(xiàn)波動(dòng),顏色跟蹤器狀態(tài)良好.常見(jiàn)的原因是目標(biāo)發(fā)生形變,此時(shí)應(yīng)側(cè)重采納顏色跟蹤器的結(jié)果.
3)dmin>ε1且gmax>ε2,顏色跟蹤器出現(xiàn)波動(dòng),形狀跟蹤器狀態(tài)良好.常見(jiàn)的原因是目標(biāo)受光照變化影響而發(fā)生顏色改變,此時(shí)應(yīng)偏向采納形狀跟蹤器的結(jié)果.
4)dmin>ε1且gmax≤ε2,兩個(gè)跟蹤器同時(shí)出現(xiàn)波動(dòng),常見(jiàn)的原因是目標(biāo)丟失或者目標(biāo)被遮擋,此時(shí)應(yīng)擴(kuò)大粒子群搜索范圍.
上述分析給出了式(11) 中融合系數(shù)τ取值的定性原則,本文實(shí)驗(yàn)中τ取值范圍如下:
其中,ε1=0.2,ε2=0.4.
4.2.1 基于顏色的產(chǎn)生式模型的更新
在當(dāng)前幀中找到目標(biāo)最優(yōu)解后,記最優(yōu)解對(duì)應(yīng)的顏色模型為O*={b*1,b*2,···,b*m},則顏色模型的更新式為
其中,λ為更新系數(shù).
上述4 種狀況的分析結(jié)果也給出了對(duì)模型采用不同更新力度的依據(jù).狀況1) 出現(xiàn)時(shí),模型常規(guī)化更新;狀況2) 出現(xiàn)時(shí),加大更新力度;狀況3) 出現(xiàn)時(shí),雖然顏色模型出現(xiàn)波動(dòng),但是形狀模型仍表現(xiàn)良好,說(shuō)明目標(biāo)仍在跟蹤范圍內(nèi),只是顏色因光照等原因有變化,為了適應(yīng)這種變化,更新系數(shù)不調(diào)整;狀況4) 出現(xiàn)時(shí),目標(biāo)有可能跟丟,此時(shí)應(yīng)減小更新力度.本文后續(xù)實(shí)驗(yàn)中顏色模型更新系數(shù)λ的取值范圍如下:
4.2.2 基于形狀的判別式模型的更新
假設(shè)已獲取第t幀目標(biāo)Ft及相關(guān)響應(yīng)Gt,η為權(quán)系數(shù),形狀判別器的更新式為
與上述顏色模型更新的分析類(lèi)似,形狀模型更新系數(shù)η的取值范圍如下:
即,狀況1) 出現(xiàn)時(shí),模型常規(guī)化更新;狀況2) 出現(xiàn)時(shí),雖然形狀模型出現(xiàn)波動(dòng),但是顏色模型仍表現(xiàn)良好,說(shuō)明目標(biāo)仍在跟蹤范圍內(nèi),只是目標(biāo)外形可能因柔性運(yùn)動(dòng)等原因有變化,為了適應(yīng)這種變化,更新系數(shù)不調(diào)整;狀況3) 出現(xiàn)時(shí),加大更新力度;狀況4)出現(xiàn)時(shí),目標(biāo)有可能跟丟,應(yīng)減小更新力度.
本文算法的流程如下(參見(jiàn)圖6):
步驟1.對(duì)給定目標(biāo)分別建立顏色和形狀模型.
圖6 本文算法過(guò)程示意圖Fig.6 Illustration of the proposed algorithm
a) 建立目標(biāo)的顏色模型
b) 建立目標(biāo)的相關(guān)濾波器模型(參見(jiàn)第2 節(jié))
步驟2.隨機(jī)初始化粒子群的狀態(tài),粒子的具體含義參見(jiàn)第3.1 節(jié).
步驟3.對(duì)候選目標(biāo)進(jìn)行粒子群搜索獲得最優(yōu)解.
a) 計(jì)算每個(gè)粒子si與目標(biāo)的顏色距離di以及對(duì)相關(guān)濾波器的響應(yīng)值gi,i=1,···,M.
b) 根據(jù)式(16) 選擇τ值,獲得si的適應(yīng)值
c) 根據(jù)式(12) 獲得粒子下一位置信息.
d) 前后兩次搜索得到的最優(yōu)粒子適應(yīng)值之比接近1 時(shí),搜索停止;根據(jù)最優(yōu)粒子結(jié)構(gòu)中的坐標(biāo)和長(zhǎng)、寬值輸出目標(biāo)框,完成當(dāng)前幀的搜索任務(wù).
步驟4.粒子狀態(tài)更新,模型更新.
a) 根據(jù)式(14) 對(duì)當(dāng)前粒子群進(jìn)行更新,作為下一幀(t+1 時(shí)刻) 的初始粒子群si(t+1),i=1,···,M.
b) 根據(jù)式(17) 和式(18) 更新顏色模型.
c) 根據(jù)式(19) 和式(20) 更新相關(guān)濾波器模型.
本文測(cè)試數(shù)據(jù)集OTB-100 取自Visual tracker benchmark[20],包含的視頻序列涉及對(duì)象的光照變化、尺度變化、遮擋、形變、模糊、快速移動(dòng)等多種可能情況,是目前最具影響力的視頻目標(biāo)跟蹤算法測(cè)試數(shù)據(jù)集[16].實(shí)驗(yàn)環(huán)境的技術(shù)參數(shù)為:英特爾奔騰G3240 的CPU,主頻3.10 GHz,內(nèi)存8 GB,編程平臺(tái)VS2013.
實(shí)驗(yàn)選取了近期兩個(gè)同類(lèi)型且有代表性的跟蹤算法:核相關(guān)濾波算法(Kernel correlation filter,KCF) 算法[5]和Staple (Sum of template and pixel-wise learners) 算法[6]作為對(duì)比算法.KCF 算法采用基于HOG 特征的相關(guān)濾波器建模和密度采樣方式進(jìn)行候選目標(biāo)搜索;Staple 算法在KCF 算法基礎(chǔ)上還增加了傳統(tǒng)顏色直方圖建模.
本文使用文獻(xiàn)[17]定義的5 種指標(biāo)來(lái)評(píng)價(jià)算法性能:中心誤差(Center location error,CLE)、重疊率(Overlap score,OS)、準(zhǔn)確率、成功率以及平均幀率.中心誤差和重疊率的計(jì)算式為
其中,(xT,yT) 和(xG,yG) 分別表示跟蹤結(jié)果和真實(shí)目標(biāo)的中心坐標(biāo),RT表示跟蹤算法獲得的目標(biāo)區(qū)域,RG表示真實(shí)的目標(biāo)區(qū)域,s(R) 表示區(qū)域R的面積;準(zhǔn)確率定義為跟蹤結(jié)果的CLE值小于閾值tp的幀比率;成功率定義為跟蹤結(jié)果的OS值大于閾值ts的幀比率.跟蹤效果越好則CLE值越小,而其他指標(biāo)越大.
6.1.1 算法總體性能定量對(duì)比
圖7 展示了本文算法與其他兩個(gè)算法在OTB-2015 數(shù)據(jù)集的100 個(gè)視頻測(cè)試的一次通過(guò)性(Onepass evaluation,OPE) 的跟蹤準(zhǔn)確率和成功率.3個(gè)算法都是從視頻首幀的目標(biāo)真實(shí)位置開(kāi)始跟蹤的.圖7(a) 中括號(hào)內(nèi)的數(shù)值表示tp=20 時(shí)的準(zhǔn)確率;圖7(b) 中括號(hào)內(nèi)的數(shù)值表示對(duì)應(yīng)算法成功率曲線下方圍成的面積.從圖7 中可以看出,本文算法在整體性能上優(yōu)于其他兩個(gè)算法.
圖7 3 個(gè)算法OPE 跟蹤準(zhǔn)確率和成功率圖Fig.7 OPE tracking accuracy rate and success rate of three algorithms
表1 展示了3 個(gè)算法在數(shù)據(jù)集上的平均性能指標(biāo).可以看出,KCF 算法雖然幀率較大、實(shí)時(shí)性好,但是準(zhǔn)確率較低;Staple 算法的準(zhǔn)確率有所提升,但是幀率低,不能很好滿(mǎn)足實(shí)時(shí)性要求;而本文算法采用了新的顏色模型,同時(shí)結(jié)合產(chǎn)生式和判別式模型并加以權(quán)衡,以獲取綜合的可信度,綜合性能超過(guò)KCF 和Staple 算法,且?guī)蔬_(dá)到了實(shí)時(shí)性的要求.
表1 3 個(gè)算法的總體性能平均值Table 1 Average global performance of three algorithms
6.1.2 代表性視頻定量實(shí)驗(yàn)結(jié)果及分析
表2 列出了3 個(gè)算法對(duì)測(cè)試集中18 個(gè)有代表性的視頻序列實(shí)驗(yàn)的具體CLE 指標(biāo)比較,其中序列特點(diǎn)欄目中,1、2、3、4、5 和6 分別表示快速移動(dòng)、模糊、尺度變化、形變、光照變化和遮擋.表3 列出了3 個(gè)算法對(duì)測(cè)試集中18 個(gè)有代表性的視頻序列實(shí)驗(yàn)的具體OS 指標(biāo)比較.
從表2 和表3 中可以看出,本文在絕大多數(shù)場(chǎng)景中性能優(yōu)于其他兩個(gè)算法,特別是有尺度變化的場(chǎng)景效果優(yōu)勢(shì)較明顯.
第6.1 節(jié)定量數(shù)值結(jié)果給出了3 個(gè)算法跟蹤準(zhǔn)確率、成功率和時(shí)間效率值,本小節(jié)針對(duì)不同場(chǎng)景下3 個(gè)算法的目標(biāo)捕捉能力,選取若干有代表性的圖像序列做定性的分析.圖8~12 中,跟蹤矩形邊框底部標(biāo)有五角星代表本文算法結(jié)果,三角形代表Staple 算法結(jié)果,圓點(diǎn)代表KCF 算法結(jié)果.
表2 3 個(gè)算法在18 個(gè)視頻的CLE 值比較Table 2 CLE values of three algorithms on 18 videos
表3 3 個(gè)算法在18 個(gè)視頻的OS 指標(biāo)比較Table 3 OS values of three algorithms on 18 videos
圖8 BlurOwl 圖像序列3 個(gè)算法跟蹤截圖Fig.8 Screen shots of tracking with three algorithms on BlurOwl image sequences
圖9 Girl2 圖像序列3 個(gè)算法跟蹤截圖Fig.9 Screen shots of tracking with three algorithms on Girl2 image sequences
6.2.1 算法對(duì)快速移動(dòng)且模糊場(chǎng)景的效果
在BlurOwl 圖像序列中,目標(biāo)的移動(dòng)速度很快,同時(shí)出現(xiàn)不同程度的模糊.KCF 算法和Staple 算法分別在第108 幀和第289 幀開(kāi)始偏離目標(biāo).本文算法對(duì)顏色和形狀綜合后的搜索策略能夠在目標(biāo)快速運(yùn)動(dòng)過(guò)程中,較好地跟住目標(biāo),參見(jiàn)圖8.
圖10 Human5 圖像序列3 個(gè)算法跟蹤截圖Fig.10 Screen shots of tracking with three algorithms on Human5 image sequences
圖11 Skating1 圖像序列3 個(gè)算法跟蹤截圖Fig.11 Screen shots of tracking with three algorithms on Skating1 image sequences
圖12 Diving 圖像序列3 個(gè)算法跟蹤截圖Fig.12 Screen shots of tracking with three algorithms on Diving image sequences
6.2.2 算法對(duì)遮擋場(chǎng)景的效果
在Girl2 圖像序列中,目標(biāo)是騎兒童滑板車(chē)的小女孩,視頻中目標(biāo)多次被遮擋,KCF 算法和Staple算法分別在第118 幀和第1 398 幀之后丟失目標(biāo),而本文算法合理的跟蹤機(jī)制,特別是模型的更新機(jī)制保證了算法始終跟住目標(biāo),參見(jiàn)圖9.
6.2.3 算法對(duì)尺度變化場(chǎng)景的效果
Human5 圖像序列最大的難點(diǎn)就是尺度變化較大(第230 幀至第272 幀以及第370 幀到第407 幀),同時(shí)變化速率快,因此在保證跟住目標(biāo)的同時(shí)準(zhǔn)確計(jì)算目標(biāo)尺度是一個(gè)挑戰(zhàn).實(shí)驗(yàn)表明,本文算法相較于Staple 和KCF 算法能更準(zhǔn)確地獲得目標(biāo)尺度,參見(jiàn)圖10.
6.2.4 算法對(duì)光照變化場(chǎng)景的效果
Skating1 序列集中,光照條件始終在發(fā)生變化.而本文算法由于使用了顏色和形狀的雙特征跟蹤機(jī)制,因此能保證目標(biāo)不丟失,參見(jiàn)圖11.
6.2.5 算法對(duì)形變場(chǎng)景的效果
這里的形變主要為非剛體變化,在Diving 序列中,跳水運(yùn)動(dòng)員的身軀從伸展到團(tuán)身然后再展開(kāi)的三次非剛體變化,這對(duì)依靠形狀特征來(lái)跟蹤目標(biāo)的算法是很困難的.可以看到,第19 幀和第143 幀KCF 算法失效,第218 幀Staple 和KCF 兩個(gè)算法都失效,而本文算法很好地平衡了形狀和顏色特征在跟蹤算法中的作用,因此能夠跟住目標(biāo),參見(jiàn)圖12.
本文設(shè)計(jì)了一個(gè)新的合成式跟蹤算法,其中包含了新的顏色模型表達(dá)方式、產(chǎn)生式與判別式模型的融合策略等要素,實(shí)驗(yàn)結(jié)果顯示了本文提出的算法在大多數(shù)場(chǎng)景中取得了比Staple 和KCF 算法更好的準(zhǔn)確率,且滿(mǎn)足實(shí)時(shí)性要求,表明本文提出的顏色模型的合理性以及目標(biāo)模型融合和搜索策略的有效性.
在上述工作的基礎(chǔ)上,針對(duì)本文算法中的一些不足以及可提升效率的空間,下一階段計(jì)劃從以下3個(gè)方面進(jìn)行深入研究.1) 本文提出的顏色模型通過(guò)有效地抑制背景、分離出目標(biāo)的特異色而能夠快速定位目標(biāo),但是對(duì)目標(biāo)的尺度變化不夠敏感,后續(xù)將進(jìn)一步研究適應(yīng)尺度變化的顏色模型.2) 近期關(guān)于深度學(xué)習(xí)的研究工作展現(xiàn)了其在特征刻畫(huà)方面的優(yōu)勢(shì);此外,也有一些研究工作通過(guò)輔助目標(biāo)來(lái)提升跟蹤目標(biāo)判定的準(zhǔn)確度[26],下一步考慮如何在不失實(shí)時(shí)性的前提下,在本文算法框架中引入這些特征和策略.3) 在跟蹤算法中,模型的更新方式通常采用凸組合的形式,其中的組合系數(shù)一般根據(jù)經(jīng)驗(yàn)給出,本文盡管分析了組合系數(shù)在4 種不同狀況下的定性取值范圍,但仍未能給出具有理論背景的分析,后續(xù)將對(duì)此展開(kāi)研究.