王員云,楊文燴,習(xí)帥斌,章利民,尹 鵬,鄧承志
(南昌工程學(xué)院 信息工程學(xué)院,江西 南昌 330099)
目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的重要研究分支之一,其任務(wù)是估計(jì)目標(biāo)在視頻序列中每一幀中的狀態(tài)。目標(biāo)跟蹤在交通監(jiān)控、自動(dòng)駕駛[1]、人機(jī)交互[2]以及海洋偵查[3]等領(lǐng)域得到廣泛的應(yīng)用。雖然該技術(shù)正在快速發(fā)展,但由于受到局部遮擋、形變、運(yùn)動(dòng)模糊以及快速移動(dòng)等因素的影響,目標(biāo)跟蹤在實(shí)際應(yīng)用中仍然是一個(gè)非常具有挑戰(zhàn)性的任務(wù)[4]。
目標(biāo)跟蹤基本框架由以下4個(gè)部分組成[5]:特征模型、運(yùn)動(dòng)模型、表觀模型以及更新模型。特征模型利用相關(guān)技術(shù)提取目標(biāo)的特征進(jìn)行目標(biāo)表示,并且用于建立表觀模型。常用于目標(biāo)跟蹤的特征有顏色特征[6]、深度特征[7]、紋理特征[8]。在目標(biāo)跟蹤中,需要根據(jù)提取的特征判斷候選區(qū)域是否為被跟蹤的目標(biāo),因此,對(duì)跟蹤目標(biāo)的表觀建模尤為重要[9]。基于目標(biāo)的表觀模型,目標(biāo)跟蹤算法可以分為生成式模型方法[10]和判別式模型方法[11]兩大類。生成式模型方法通過在當(dāng)前幀提取特征對(duì)目標(biāo)進(jìn)行外觀建模,然后在下一幀中搜索與模型最匹配的區(qū)域,用這個(gè)區(qū)域就確定所預(yù)測的目標(biāo)位置[12]。與生成式模型方法不同,判別式模型方法是將目標(biāo)跟蹤看作一個(gè)二分類問題[13],通過學(xué)習(xí)一個(gè)分類器將目標(biāo)從背景環(huán)境中區(qū)別出來,因此基于判別式模型的目標(biāo)跟蹤方法很大程度上取決于特征空間上目標(biāo)與背景的可分性。
近年來,許多高效、魯棒的跟蹤算法被提出。Mei[14]等人將稀疏表示方法應(yīng)用在目標(biāo)跟蹤中,該算法對(duì)局部遮擋和噪聲的影響等具有較好的魯棒性。然而,在跟蹤過程中需要解決L1最小化問題,當(dāng)出現(xiàn)嚴(yán)重遮擋時(shí),該算法跟蹤性能不夠理想。在文獻(xiàn)[15]中,提出了一種基于稀疏的協(xié)同目標(biāo)表示方法,該方法充分結(jié)合了生成式模型方法和判別式模型方法的優(yōu)點(diǎn)。相關(guān)濾波算法[16]在跟蹤速度上的優(yōu)勢受到了廣泛關(guān)注,被成功應(yīng)用于目標(biāo)跟蹤中。在文獻(xiàn)[17]中,提出的CSK算法利用循環(huán)矩陣的性質(zhì)進(jìn)行密集采樣,提高跟蹤性能。隨后越來越多的研究者通過從特征選擇、正則化入手將相關(guān)濾波引入目標(biāo)跟蹤領(lǐng)域。Henriques[18]等人在特征選擇方面上對(duì)CSK算法進(jìn)行改進(jìn),提出了KCF算法,KCF算法將CSK算法使用的灰度特征改進(jìn)為HOG特征和高斯核函數(shù)。然而,問題仍未得到有效解決,如光照變化、遮擋以及相似背景等。
深度卷積神經(jīng)網(wǎng)絡(luò)[19]因其在特征提取方面優(yōu)越的性能而受到廣泛關(guān)注。文獻(xiàn)[20]提出了一種全卷積孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法,利用該網(wǎng)絡(luò)結(jié)構(gòu),將與模板最相似的候選目標(biāo)作為跟蹤目標(biāo),該算法取得了實(shí)時(shí)的速度與較好的跟蹤精度。文獻(xiàn)[21]在孿生網(wǎng)絡(luò)的基礎(chǔ)上加入?yún)^(qū)域提議網(wǎng)絡(luò),更好地對(duì)目標(biāo)尺度進(jìn)行估計(jì)[22],提高了跟蹤的魯棒性。最近,字典學(xué)習(xí)被廣泛應(yīng)用于人臉識(shí)別、目標(biāo)跟蹤等領(lǐng)域。字典學(xué)習(xí)一般是在給定一組訓(xùn)練樣本的基礎(chǔ)上,通過學(xué)習(xí)得到字典,為每個(gè)訓(xùn)練集找到最佳表示并使表示更加具有區(qū)分性[23]。
針對(duì)上述問題,本文提出了基于核擴(kuò)展字典學(xué)習(xí)的目標(biāo)跟蹤算法。首先,將提取的特征經(jīng)過核判別分析(Kernel Discriminant Analysis,KDA)[24]進(jìn)行投影得到在非線性子空間中的特征向量。在視頻的第一幀,在被跟蹤的目標(biāo)的較小的領(lǐng)域中收集一組與目標(biāo)相同大小的圖像塊,經(jīng)過KDA投影后得到一組特征向量,這組特征向量分別構(gòu)成基礎(chǔ)字典和核擴(kuò)展字典[25],分別表示目標(biāo)的信息和目標(biāo)表觀變化。在后續(xù)的跟蹤中,連續(xù)核擴(kuò)展字典進(jìn)行更新,以適應(yīng)不斷變化的目標(biāo)表觀。將投影得到的基礎(chǔ)字典和經(jīng)過投影、更新后的核擴(kuò)展字典聯(lián)合進(jìn)行目標(biāo)候選塊的表示,也就是每個(gè)目標(biāo)候選塊可以表示為這兩種字典的一個(gè)線性組合。基于這種目標(biāo)表示方法,本文提出了一種新的目標(biāo)跟蹤算法。通過表觀模型得到的擴(kuò)展字典在核空間中可有效地表示可能的目標(biāo)表觀變化,將基礎(chǔ)字典與擴(kuò)展字典相結(jié)合可以更準(zhǔn)確地表示目標(biāo)候選塊?;A(chǔ)字典中保留了更多的目標(biāo)初始信息,有效防止了目標(biāo)漂移現(xiàn)象。核擴(kuò)展字典在不斷更新的過程中,包含了目標(biāo)的多種表觀變化,提升了目標(biāo)表觀模型的自適應(yīng)能力。本研究主要貢獻(xiàn)如下:
(1)提出一種基于基礎(chǔ)字典和擴(kuò)展字典聯(lián)合表示的目標(biāo)表觀模型。將目標(biāo)特征向量經(jīng)過KDA投影獲得在非線性子空間中的特征表示;收集一組字典樣本并經(jīng)過KDA投影后得到基礎(chǔ)字典和擴(kuò)展字典;基于基礎(chǔ)字典和擴(kuò)展字典聯(lián)合進(jìn)行目標(biāo)候選塊的近似表示。
(2)在粒子濾波框架下,提出一種新的目標(biāo)跟蹤算法。基礎(chǔ)字典中保留了更多的目標(biāo)初始信息,有效地減輕了目標(biāo)漂移現(xiàn)象。擴(kuò)展字典在不斷更新的過程中,包含了目標(biāo)的多種表觀變化,提升了目標(biāo)表觀模型的自適應(yīng)能力。在挑戰(zhàn)性的數(shù)據(jù)集上的測試與對(duì)比結(jié)果表明所提出的跟蹤器有較好的魯棒性。
在目標(biāo)跟蹤中,首要的任務(wù)是建立魯棒的目標(biāo)表觀模型。本文提出一種基于核的基礎(chǔ)字典與擴(kuò)展字典的目標(biāo)表示方法,并在粒子濾波框架中設(shè)計(jì)基于該目標(biāo)表示的跟蹤算法。接下來將主要介紹粒子濾波框架、基于基礎(chǔ)字典與擴(kuò)展字典的目標(biāo)表示以及目標(biāo)候選塊的似然估計(jì)等。
粒子濾波器是一種順序重要性采樣方法,通過在狀態(tài)空間中選擇一組隨機(jī)樣本來近似表示概率密度函數(shù),并且利用樣本的平均值取代積分運(yùn)算來獲得最小方差估計(jì),這些樣本被稱為“粒子”。在目標(biāo)跟蹤過程中,每個(gè)目標(biāo)候選塊可以看成是一個(gè)“粒子”,在獲取一組圖像觀測向量y1:t=[y1,y2,…,yt]后,通過計(jì)算粒子的后驗(yàn)概率進(jìn)行目標(biāo)狀態(tài)估計(jì)。
(1)
(2)
式中yt為時(shí)間t中的狀態(tài)變量?;谀繕?biāo)候選粒子的權(quán)重,相應(yīng)的目標(biāo)在當(dāng)前幀的狀態(tài)可表示為
(3)
本文提出一種基于基礎(chǔ)字典與擴(kuò)展字典的目標(biāo)表示方法,并在粒子濾波框架下設(shè)計(jì)一種目標(biāo)跟蹤算法。首先,通過一組訓(xùn)練樣本學(xué)習(xí)獲得核判別分析函數(shù)KDA。收集一組目標(biāo)模板樣本經(jīng)過核判別分析投影得到基礎(chǔ)字典,收集目標(biāo)表觀變化樣本經(jīng)過核判別分析投影后得到核擴(kuò)展字典。最后,使用基礎(chǔ)字典和擴(kuò)展字典中的原子線性組合進(jìn)行候選目標(biāo)的近似表示。下面將介紹核判別分析函數(shù),設(shè)在非線性映射空間F中,φ為非線性映射函數(shù),核函數(shù)在特征空間F上定義為
〈φ(z),φ(z′)〉=k(z,z′),
(4)
式中k(z,z′)為核函數(shù)。設(shè)有一組訓(xùn)練樣本為Z=[Z1,Z2,…,Zn]∈Rd×n,使用Z中的n個(gè)樣本進(jìn)行KDA的映射向量的學(xué)習(xí),學(xué)習(xí)后得到的映射向量表示為
(5)
式中α·=·[α1,α2,…,αn]T是KDA的系數(shù)向量。
核空間的樣本z可以通過KDA進(jìn)行投影,其在核空間的內(nèi)積可以由核函數(shù)計(jì)算得到,表示如下:
(6)
在基于基礎(chǔ)字典與擴(kuò)展字典的目標(biāo)表示方法中,使用訓(xùn)練集Z中的前n-m個(gè)樣本作為基礎(chǔ)字典的訓(xùn)練樣本,后m個(gè)樣本作為擴(kuò)展字典的訓(xùn)練學(xué)習(xí)樣本。該m個(gè)樣本主要用于表示目標(biāo)的表觀變化,在后續(xù)幀的跟蹤中,需要進(jìn)行連續(xù)的更新。在特征空間F中該m個(gè)樣本的協(xié)方差表示為
(7)
(8)
將訓(xùn)練集Z=[Z1,Z2,…,Zn]∈Rd×n中的前n-m樣本通過KDA投影構(gòu)建基礎(chǔ)字典,如式(9)所示:
D1=〈vφ,φ(Z)〉,
(9)
(10)
在跟蹤過程中,首先將目標(biāo)候選塊y通過KDA投影獲得相應(yīng)的特征向量,如式(11)所示:
Y=〈vφ,φ(y)〉.
(11)
為了更好地適應(yīng)目標(biāo)表觀變化,同時(shí)又保持更多的目標(biāo)信息,使用基礎(chǔ)字典和擴(kuò)展字典聯(lián)合表示目標(biāo)候選塊y為
(12)
式中δ>0為標(biāo)量常數(shù);D=[D1,D2]用于對(duì)目標(biāo)候選塊進(jìn)行重建;β=[β1,β2]T是字典D的系數(shù)。在以往的目標(biāo)表示中,一般都是將Y看成是字典矩陣D和稀疏系數(shù)β的線性組合,如如式(13)所示:
(13)
為了更好地處理局部遮擋、噪聲等的影響,本算法中使用稀疏約束進(jìn)行目標(biāo)候選塊的近似估計(jì),針對(duì)式(12)的求解中,可以將其看成經(jīng)典的LASSO問題進(jìn)行求解。
提出的基于核擴(kuò)展字典學(xué)習(xí)的目標(biāo)跟蹤算法中,使用基礎(chǔ)字典與擴(kuò)展字典中的原子的線性組合來近似表示候選目標(biāo)。候選目標(biāo)y的觀察概率通過候選目標(biāo)與目標(biāo)模型之間的重構(gòu)誤差來計(jì)算,如式(14)所示:
ρ(Y∣z)=σexp {-θd(Y,Dβ)},
(14)
其中,δ>0和θ>0是標(biāo)量常數(shù)。d(Y,Dβ)是候選目標(biāo)y與字典中原子線性組合的近似表示Dβ之間的距離,也就是它們之間的重構(gòu)誤差,計(jì)算如式(15)所示:
d(y,Dβ)=(Y-Dβ)T(Y-Dβ).
(15)
在基于核擴(kuò)展字典的表觀模型和似然估計(jì)的基礎(chǔ)上,本文提出一種新的跟蹤算法(跟蹤算法流程如圖1所示)。在第一幀中,在被跟蹤的目標(biāo)周圍收集n個(gè)圖像塊作為初始訓(xùn)練樣本,用初始訓(xùn)練樣本進(jìn)行學(xué)習(xí)得到KDA。由前n-m個(gè)樣本學(xué)習(xí)得到基礎(chǔ)字典,訓(xùn)練樣本中的后m個(gè)樣本通過KDA投影得到核擴(kuò)展字典。在之后的跟蹤過程中,獲取到當(dāng)前跟蹤結(jié)果后,對(duì)訓(xùn)練樣本中的后m個(gè)樣本進(jìn)行更新,也就是將當(dāng)前幀的跟蹤結(jié)果對(duì)應(yīng)的圖像塊作為新的樣本加入擴(kuò)展字典的訓(xùn)練樣本中,同時(shí)刪除原樣本中系數(shù)權(quán)重最小的樣本。當(dāng)前幀的跟蹤結(jié)果作為樣本加入擴(kuò)展字典學(xué)習(xí)樣本集中,更多地包含了目標(biāo)的表觀變化,進(jìn)一步提升了目標(biāo)表觀模型的自適應(yīng)性。
圖1 跟蹤算法流程圖
在這一節(jié),使用視覺跟蹤標(biāo)準(zhǔn)數(shù)據(jù)集OTB2015[26]對(duì)跟蹤器的性能進(jìn)行測試,同時(shí)介紹實(shí)驗(yàn)數(shù)據(jù)集、評(píng)估指標(biāo),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行定量和定性分析。在Windows系統(tǒng)平臺(tái)下使用Matlab2018b開發(fā)環(huán)境實(shí)現(xiàn)本文提出的跟蹤算法,相應(yīng)的硬件配置為Intel(R)Core(TM)i5-6300HQ 2.30GHZ處理器和8GB內(nèi)存。在粒子濾波框架中,若粒子數(shù)過多,則會(huì)影響跟蹤器的時(shí)效性;若粒子數(shù)過少,則會(huì)降低跟蹤器的準(zhǔn)確率。綜合考慮,每幀中的粒子數(shù)設(shè)置為300。確保跟蹤器的有效性和時(shí)效性,并通過大量實(shí)驗(yàn)表明,在第一幀中,選取25個(gè)訓(xùn)練樣本,其中前5個(gè)為基礎(chǔ)字典的學(xué)習(xí)樣本,后20個(gè)樣本作為擴(kuò)展字典的訓(xùn)練樣本。在后續(xù)幀的跟蹤,每幀都進(jìn)行擴(kuò)展字典樣本的更新并重新投影得到新的擴(kuò)展字典。
本文在OTB2015視覺跟蹤數(shù)據(jù)集中選擇了8個(gè)視頻序列進(jìn)行了實(shí)驗(yàn)對(duì)比。這些視頻序列包括了多種目標(biāo)外觀變化,例如光照變化、部分遮擋、相似的背景、快速運(yùn)動(dòng)以及平面內(nèi)外旋轉(zhuǎn)等。并將所提出的跟蹤算法與當(dāng)前一些流行的跟蹤算法進(jìn)行比較,對(duì)比算法包括MDNet[27]、MEEM[28]、SANet[29]、SiamBAN[30]、SiamFC[20]、SiamFC++[31]和SiamRPN[21]。實(shí)驗(yàn)結(jié)果采用平均重疊率和跟蹤成功率兩種評(píng)估指標(biāo)進(jìn)行定量分析。平均重疊率是跟蹤目標(biāo)框與目標(biāo)真實(shí)值的交集與并集的比值,而成功率是在不同閾值下的成功跟蹤的比率。通過這兩種評(píng)估指標(biāo)驗(yàn)證跟蹤器的有效性,定量分析和定性分析跟蹤結(jié)果如圖2~3所示。其中定量分析是通過平均重疊率和跟蹤成功率兩種評(píng)估指標(biāo)的具體實(shí)驗(yàn)數(shù)據(jù)對(duì)跟蹤性能進(jìn)行分析。在定量分析的基礎(chǔ)上,針對(duì)不同的跟蹤算法進(jìn)行定性分析,進(jìn)行不同算法的優(yōu)劣性能的對(duì)比,分析跟蹤算法針對(duì)不同挑戰(zhàn)因素的處理能力等。
在8個(gè)視頻序列上進(jìn)行實(shí)驗(yàn)對(duì)比,表1所示為8個(gè)跟蹤算法的平均重疊率。圖2中為上述的跟蹤算法在視頻序列上的跟蹤準(zhǔn)確率曲線圖。由表1與圖2可以看出,所提出的跟蹤算法在8個(gè)視頻序列中以0.751獲得最佳平均跟蹤性能,并在Fish和Man視頻序列中獲得了最好的跟蹤性能,以及在Coupon視頻序列中獲得了第二跟蹤性能。另外,SANet與SiamBAN在這8個(gè)視頻序列上分別獲得了第二和第三的跟蹤效果。
表1 平均重疊率
圖2 跟蹤精確度曲線圖
表2為以上8個(gè)跟蹤算法在8個(gè)視頻序列上的跟蹤成功率,圖3給出了與其它跟蹤器在不同挑戰(zhàn)性視頻序列上對(duì)比的跟蹤成功率圖。本文中提出的跟蹤算法在8個(gè)視頻序列中以0.952獲得最佳平均成功率,并在Coupon、Crossing和Fish視頻序列中獲得了最佳性能以及在David2視頻序列中獲得了第三跟蹤性能。SANet算法在8個(gè)視頻序列中以0.951獲得第二平均跟蹤性能,并且在Coupon、Fish和MountainBike視頻序列中獲得最佳跟蹤成功率,還在Walking2視頻序列中獲得第二跟蹤成功率。另外MDNet和SiamBAN在8個(gè)視頻序列中以0.907同時(shí)獲得第三平均跟蹤性能。
表2 跟蹤成功率
圖3 跟蹤成功率曲線圖
圖4為在不同挑戰(zhàn)性視頻序列中部分關(guān)鍵幀的對(duì)比跟蹤結(jié)果(其中圖a~c為Coupon序列上的跟蹤結(jié)果,圖d~f為Subway序列上的跟蹤結(jié)果,實(shí)線方框?yàn)楸疚乃惴ǖ母櫧Y(jié)果)。這些視頻序列包括了一種或多種目標(biāo)外觀變化,例如光照變化、部分遮擋、快速運(yùn)動(dòng)以及平面內(nèi)外旋轉(zhuǎn)。下面將從光照變化、遮擋、相似目標(biāo)等方面來詳細(xì)分析跟蹤算法性能。
(1)遮擋。如圖4所示,Coupon和Subway序列中的目標(biāo)在運(yùn)動(dòng)過程中都經(jīng)歷了部分遮擋。在Subway序列中,第39幀時(shí)跟蹤目標(biāo)被部分遮擋,多個(gè)跟蹤器發(fā)生了不同程度的偏離目標(biāo)甚至完全丟失目標(biāo),例如SiamFC++、SiamFC以及SiamRPN。其中,SiamFC++將目標(biāo)特征作為一個(gè)整體,與搜索區(qū)域進(jìn)行相似性計(jì)算。然而,在跟蹤過程中,目標(biāo)通常會(huì)產(chǎn)生劇烈的目標(biāo)表觀變化,對(duì)可變目標(biāo)使用這種全局匹配可能導(dǎo)致匹配結(jié)果不夠準(zhǔn)確。所提出的跟蹤器利用基礎(chǔ)字典和核擴(kuò)展字典學(xué)習(xí)的表觀模型能有效區(qū)分目標(biāo)的相關(guān)信息,具有較高的跟蹤精度和魯棒性。
(2)相似目標(biāo)。Coupon和Subway序列中的目標(biāo)和背景相似,例如Coupon序列中的第153幀與Subway序列中第101幀。SiamFC、SiamFC++和SiamRPN對(duì)跟蹤目標(biāo)產(chǎn)生了誤判,將相似的背景作為跟蹤目標(biāo)進(jìn)行跟蹤,導(dǎo)致跟蹤失敗。而本文所提出的基于基礎(chǔ)字典和核擴(kuò)展字典學(xué)習(xí)的跟蹤器在相似的背景環(huán)境下取得了較好的跟蹤結(jié)果。
圖4 不同視頻序列上的跟蹤結(jié)果
在本文中,針對(duì)在劇烈表觀變化下目標(biāo)跟蹤性能較差的問題,提出了一種基于基礎(chǔ)字典與擴(kuò)展字典的聯(lián)合目標(biāo)表示方法。首先在視頻的初始幀收集一組訓(xùn)練學(xué)習(xí)樣本,通過核判別分析投影獲得基礎(chǔ)字典和擴(kuò)展字典?;A(chǔ)字典在跟蹤過程中不進(jìn)行更新,從而更多地保留了目標(biāo)的原有信息。在跟蹤過程中擴(kuò)展字典連續(xù)進(jìn)行更新,以更好地學(xué)習(xí)目標(biāo)的表觀變化,提升表觀模型的自適應(yīng)性。目標(biāo)候選塊由基礎(chǔ)字典與擴(kuò)展字典的線性組合進(jìn)行聯(lián)合表示。基于聯(lián)合字典的目標(biāo)表示與字典的更新,本文在粒子濾波框架下提出了一種基于擴(kuò)展字典學(xué)習(xí)的目標(biāo)跟蹤算法。在挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行廣泛的對(duì)比實(shí)驗(yàn)表明,與最先進(jìn)的跟蹤算法相比,所提出的跟蹤算法在實(shí)驗(yàn)評(píng)估中也取得了優(yōu)異的跟蹤性能。
南昌工程學(xué)院學(xué)報(bào)2022年4期