邱守猛,谷宇章,袁澤強(qiáng)
1.中國(guó)科學(xué)院 上海微系統(tǒng)與信息技術(shù)研究所 仿生視覺(jué)系統(tǒng)實(shí)驗(yàn)室,上海200050
2.中國(guó)科學(xué)院大學(xué),北京100049
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)中一個(gè)非常重要的研究任務(wù),在人機(jī)交互、自動(dòng)駕駛、安防監(jiān)控等各個(gè)方面都有著巨大的應(yīng)用空間。盡管在過(guò)去的幾十年中目標(biāo)跟蹤這一領(lǐng)域取得了許多重要的進(jìn)展,但由于在跟蹤過(guò)程中可能出現(xiàn)各種情況,比如目標(biāo)遮擋、光照變化、自身形變等,視覺(jué)跟蹤仍然面臨著嚴(yán)峻的挑戰(zhàn)。
傳統(tǒng)的目標(biāo)跟蹤算法,如KCF[1]、SRDCF[2]等使用相關(guān)濾波的思想來(lái)對(duì)目標(biāo)的狀態(tài)進(jìn)行估計(jì),上述方法使用手工設(shè)計(jì)的特征作為圖像的表示,表達(dá)能力受限。李彪等人[3]提出了一種自適應(yīng)特征融合的相關(guān)濾波跟蹤算法,通過(guò)融合兩種互補(bǔ)特征來(lái)提高算法的魯棒性。由于深度特征具有更強(qiáng)大的表示能力,人們便將深度特征用在相關(guān)濾波算法中,C-COT[4]使用多層深度特征替代了傳統(tǒng)圖像特征以獲得性能的進(jìn)一步提升。最近張晶等人[5]提出了一種結(jié)合重檢測(cè)機(jī)制的多卷積層特征響應(yīng)跟蹤算法,通過(guò)使用多卷積層的深度特征,能夠處理環(huán)境中目標(biāo)快速變化并防止跟蹤器漂移。
近些年來(lái),基于孿生神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤算法由于結(jié)構(gòu)簡(jiǎn)單、性能優(yōu)異引起了人們的廣泛關(guān)注。Bertinetto等人[6]提出的SiamFC是一種端到端的全卷積孿生網(wǎng)絡(luò)跟蹤模型,在當(dāng)時(shí)取得了非常優(yōu)異的性能。之后,基于孿生網(wǎng)絡(luò)的跟蹤算法就變得流行起來(lái)[7-8],如SiamRPN[9]、SiamRPN++[10]等算法。它們都使用相關(guān)操作作為特征之間的匹配度量方式。不同的是SiamFC[6]使用相關(guān)操作獲得一張單通道的響應(yīng)圖,然后使用該圖來(lái)判斷目標(biāo)出現(xiàn)的位置,單張圖中包含的信息是非常有限的,如不能表達(dá)出目標(biāo)尺度的變化、不能有效應(yīng)對(duì)遮擋問(wèn)題,因此算法在每次跟蹤時(shí)都輸入三種不同尺度下的圖像,根據(jù)不同尺度下的響應(yīng)大小選擇最佳的目標(biāo)尺度。陳富健等人[11]最近提出了一種引入抗遮擋機(jī)制的SiamVGG網(wǎng)絡(luò)目標(biāo)跟蹤算法,通過(guò)對(duì)網(wǎng)絡(luò)輸出置信圖的峰值和連通域的變化規(guī)律分析,設(shè)置不同的跟蹤模式,提升了孿生網(wǎng)絡(luò)算法在抗遮擋問(wèn)題上的有效性和魯棒性。SiamRPN[9]借鑒了目標(biāo)檢測(cè)中的候選框機(jī)制,為了獲得最終的k個(gè)錨框預(yù)測(cè)結(jié)果,網(wǎng)絡(luò)一共需要輸出2k通道的分類回歸結(jié)果和4k通道的位置回歸結(jié)果,因此在進(jìn)行相關(guān)操作之前先將特征的通道數(shù)提升至對(duì)應(yīng)的倍數(shù),然后再分別進(jìn)行相關(guān)操作,極大地增加了參數(shù)量和計(jì)算量。SiamRPN++[10]提出了一種高效的深度可分離相關(guān)操作,分別在每個(gè)通道上進(jìn)行獨(dú)立的相關(guān)求解,而后獲得多張包含不同語(yǔ)義的響應(yīng)圖。通過(guò)對(duì)這些響應(yīng)圖中的信息進(jìn)行聚合處理可以獲得更加魯棒的預(yù)測(cè)結(jié)果。后續(xù)很多基于孿生網(wǎng)絡(luò)的跟蹤算法都采用了深度可分離的相關(guān)操作,例如SiamFC++[12]、SiamCAR[13]等,它們的區(qū)別主要在于對(duì)目標(biāo)狀態(tài)的表示方式不同。雖然傳統(tǒng)的相關(guān)操作和深度可分離相關(guān)操作被應(yīng)用在很多跟蹤器上,并且取得了非常不錯(cuò)的效果。但是該操作依然存在一些問(wèn)題。具體來(lái)說(shuō),在進(jìn)行相關(guān)操作時(shí),模板圖像不同區(qū)域的特征是使用同樣的網(wǎng)絡(luò)模型提取的。理論上,對(duì)于目標(biāo)的內(nèi)部和輪廓區(qū)域,對(duì)特征的關(guān)注重點(diǎn)是不同的,內(nèi)部區(qū)域應(yīng)該更關(guān)注整體內(nèi)容的提取,而在輪廓區(qū)域則應(yīng)該關(guān)注輪廓信息的編碼,抑制周邊內(nèi)容信息,因?yàn)槟P筒⒉恢滥切┹喞浇男儆谀繕?biāo),哪些屬于背景信息。雖然深度神經(jīng)網(wǎng)絡(luò)提取得到的特征圖中可以包含各種語(yǔ)義信息,但是在獲得普適性的信息提取能力的同時(shí)也失去了針對(duì)不同區(qū)域不同關(guān)注重點(diǎn)的能力。
此外,在基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法中,相關(guān)操作時(shí)模板的形狀一般是固定的,如空間尺度大小為5×5,這樣一來(lái)特征的結(jié)構(gòu)也就固定下來(lái),無(wú)法有效應(yīng)對(duì)目標(biāo)發(fā)生形變時(shí)的情況。CGACD[14]中提出了一種逐像素相關(guān)的方案來(lái)解決上述問(wèn)題,但是每個(gè)像素位置只生成一張響應(yīng)圖,包含的信息有限,并且不同像素下生成的響應(yīng)圖在空間位置上是存在偏移的,這就要求后續(xù)網(wǎng)絡(luò)模塊需要較大的感受野才能獲得目標(biāo)的整體信息,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)就意味著更大的卷積核或更深的結(jié)構(gòu)。又因?yàn)榫矸e網(wǎng)絡(luò)的有效感受野要小于理論感受野[15],使得上述問(wèn)題更加突出,另外,大感受野也更容易受到背景信息的干擾。
為解決上述問(wèn)題,本文首先提出使用雙分支結(jié)構(gòu)來(lái)分別針對(duì)目標(biāo)內(nèi)部和輪廓處特征的提取,然后使用改進(jìn)后的逐像素相關(guān)操作替代傳統(tǒng)的相關(guān)操作,降低因目標(biāo)變形可能導(dǎo)致的匹配不準(zhǔn)確問(wèn)題。
本文算法基于SiamFC++[12],整體流程如圖1所示。首先使用相同的特征提取網(wǎng)絡(luò)分別對(duì)目標(biāo)和搜索區(qū)進(jìn)行特征提取,接下來(lái),本文算法將提取到的特征分為兩路,分別送到不同的特征自適應(yīng)模塊,對(duì)應(yīng)目標(biāo)內(nèi)部和輪廓處的不同需求。然后將兩路分支得到的特征分別進(jìn)行相關(guān)操作。對(duì)于目標(biāo)輪廓處的特征,為了降低目標(biāo)形變給特征匹配帶來(lái)的影響,使用本文改進(jìn)的逐像素相關(guān)的算法取代傳統(tǒng)的相關(guān)算法。然后將兩路分支下得到的相關(guān)特征送入特征融合模塊進(jìn)行融合,將融合后的特征用于目標(biāo)的分類和回歸任務(wù)。下面對(duì)本文中提出的各個(gè)模塊進(jìn)行具體介紹。
圖1 算法整體流程圖Fig.1 Flowchart of proposed algorithm
本文中使用兩路特征提取模塊分別對(duì)目標(biāo)內(nèi)部和輪廓處的特征進(jìn)行提取。為降低計(jì)算量,兩路特征提取模塊在前期共享同一基礎(chǔ)特征提取網(wǎng)絡(luò),后面通過(guò)兩路特征自適應(yīng)模塊完成對(duì)不同區(qū)域不同重點(diǎn)特征的提取。
具體的,給定目標(biāo)的模板圖像Timg和搜索區(qū)圖像Simg,首先使用基礎(chǔ)特征提取網(wǎng)絡(luò)來(lái)獲得對(duì)應(yīng)的基礎(chǔ)特征Z∈?C×h×w和X∈?C×H×W。其中C表示特征的通道數(shù),h和w分別表示目標(biāo)模板特征圖的大小,H和W分別表示搜素區(qū)特征圖的大小。然后使用兩個(gè)不同的分支分別對(duì)基礎(chǔ)特征進(jìn)行進(jìn)一步的特征提取。簡(jiǎn)單起見(jiàn),兩個(gè)分支被設(shè)置為相同的結(jié)構(gòu)但不共享參數(shù)。通過(guò)不同分支后獲得具有區(qū)域特異性(目標(biāo)內(nèi)部和輪廓處)的特征,計(jì)算過(guò)程如下:
上式中φo()表示針對(duì)目標(biāo)輪廓的網(wǎng)絡(luò)分支,φi()表示針對(duì)目標(biāo)內(nèi)部特征的網(wǎng)絡(luò)分支。分別表示模板特征和搜索區(qū)特征經(jīng)過(guò)不同分支后提取到的結(jié)果。
由于內(nèi)部分支重點(diǎn)關(guān)注目標(biāo)內(nèi)部特征的表示,因此在使用該分支得到的特征進(jìn)行相關(guān)操作時(shí)先對(duì)特征進(jìn)行中心裁剪。該分支下的相關(guān)操作表示為:
其中,fc表示相關(guān)操作后獲得的特征圖,Crop_center()表示中心裁剪操作。具體的裁剪尺寸和原始模板特征圖的大小有關(guān)。DW_corr()表示深度可分離相關(guān)操作。
對(duì)目標(biāo)內(nèi)部區(qū)域,其內(nèi)容一般相對(duì)穩(wěn)定,受形變影響較小,可以直接使用高效的深度可分離相關(guān)操作。但對(duì)于輪廓分支,由于目標(biāo)發(fā)生形變時(shí)最容易表現(xiàn)在輪廓處,如果直接使用外周輪廓的特征作為模板進(jìn)行相關(guān)匹配,結(jié)果的準(zhǔn)確性將會(huì)受到影響。對(duì)此,提出了改進(jìn)逐像素相關(guān)的特征匹配算法。下面對(duì)該算法進(jìn)行具體的介紹。
首先介紹在CGACD[14]中提出的逐像素相關(guān)算法。然后介紹本文中提出的改進(jìn)方案并重點(diǎn)突出與原來(lái)算法的不同之處。
與傳統(tǒng)相關(guān)操作中直接使用整個(gè)模板進(jìn)行相關(guān)計(jì)算不同,逐像素相關(guān)操作首先將整個(gè)模板特征Z∈?C×h×w分解成多個(gè)大小為1×1的核Zk∈?C×1×1,k∈1,2,…,h×w,然后將每個(gè)核分別與搜索區(qū)的特征進(jìn)行相關(guān)操作。最后一共可以獲得w×h張不同的響應(yīng)圖,逐像素相關(guān)操作可以表示為:
然后將w×h張不同的響應(yīng)圖在通道維度進(jìn)行拼接。其中每張?zhí)卣鲌D分別對(duì)應(yīng)著目標(biāo)不同區(qū)域下的匹配響應(yīng)信息。由于分解后每個(gè)核大小為1×1,其中包含的結(jié)構(gòu)信息相對(duì)于原來(lái)整個(gè)特征模板要少,因此,逐像素相關(guān)操作獲得的響應(yīng)結(jié)果對(duì)于目標(biāo)的形變等問(wèn)題更加魯棒。
CGACD算法[14]一定程度上解決了目標(biāo)形變導(dǎo)致的匹配結(jié)果不準(zhǔn)確問(wèn)題,但仍然存在一些不足。首先,多張響應(yīng)圖在通道維度直接進(jìn)行拼接,沒(méi)有考慮到不同的特征圖是由目標(biāo)不同區(qū)域的特征分別進(jìn)行相關(guān)得到的,直接在通道維度上進(jìn)行拼接,后續(xù)處理模塊就需要較大的感受野才能獲得整個(gè)目標(biāo)的信息,更大的感受野可能引入更多的背景干擾。另一個(gè)問(wèn)題是不同的目標(biāo)區(qū)域只生成一張響應(yīng)圖,包含的信息有限。
為解決上述問(wèn)題,本文對(duì)逐像素相關(guān)算法進(jìn)行了改進(jìn)。針對(duì)第一個(gè)問(wèn)題,將不同大小的特征相關(guān)操作后得到的響應(yīng)圖進(jìn)行對(duì)齊,原來(lái)在空間上的位置關(guān)系就被轉(zhuǎn)移到通道上來(lái),即響應(yīng)圖中同一位置不同通道上包含著同一個(gè)物體不同區(qū)域的信息。這樣不需要太大的感受野就可以獲得整個(gè)目標(biāo)的響應(yīng)信息,有利于后續(xù)任務(wù)模塊對(duì)目標(biāo)狀態(tài)估計(jì)。
以3×3大小的模板核為例,圖2給出了本文改進(jìn)的逐像素相關(guān)算法與原有逐像素相關(guān)算法的對(duì)比。
圖2 改進(jìn)算法與原算法對(duì)比圖Fig.2 Comparision of proposed algorithm and original algorithm
下面分析改進(jìn)的逐像素相關(guān)算法對(duì)目標(biāo)變形的影響。傳統(tǒng)相關(guān)操作和深度可分離相關(guān)都只保留了所有局部區(qū)域響應(yīng)值的和:
其中M(i,j)表示響應(yīng)圖(i,j)位置上的值,pk,k∈1,2,…,h×w表示目標(biāo)的不同區(qū)域?qū)?i,j)位置上響應(yīng)結(jié)果的貢獻(xiàn)。因此如果某些區(qū)域發(fā)生了變形導(dǎo)致該區(qū)域下的匹配響應(yīng)值很低,會(huì)直接影響最終的求和結(jié)果,并且根據(jù)最終響應(yīng)結(jié)果無(wú)法得出是局部匹配失敗還是整體匹配程度不高導(dǎo)致的,不利于對(duì)遮擋或變形的情況的判斷。CGACD[14]中的逐像素相關(guān)將局部區(qū)域的響應(yīng)值都保留下來(lái),某些區(qū)域的匹配誤差不會(huì)影響到其他區(qū)域,但由于不同區(qū)域?qū)?yīng)的響應(yīng)值分布在響應(yīng)圖的不同位置上,容易受到周圍背景信息的干擾。而本文算法通過(guò)空間對(duì)齊,將局部區(qū)域的響應(yīng)信息保留在響應(yīng)圖同一位置的不同通道上:
整個(gè)目標(biāo)不同區(qū)域的響應(yīng)信息都包含在空間大小為1×1的向量中,M(i,j)的周邊區(qū)域可以覆蓋由于目標(biāo)變形導(dǎo)致的局部響應(yīng)值偏移,而卷積操作(卷積核大于1×1時(shí))可以有效地提取周邊信息,因此后續(xù)網(wǎng)絡(luò)模塊可以更有效應(yīng)對(duì)目標(biāo)變形的問(wèn)題。
此外,對(duì)于第二個(gè)問(wèn)題,可以通過(guò)深度可分離卷積操作保留較多的信息,但直接使用深度可分離卷積,多個(gè)局部區(qū)域相關(guān)得到的特征在進(jìn)行拼接后維度將會(huì)變得非常高,對(duì)此,將相關(guān)操作轉(zhuǎn)換為分組卷積,保留較多的信息的同時(shí)降低模型的復(fù)雜度。
空間對(duì)齊方式具體如圖3所示。不同編號(hào)的區(qū)域可以表示每個(gè)Zk∈?C×1×1,k∈1,2,…,h×w特征所對(duì)應(yīng)的感受野(實(shí)際中相鄰特征之間感受野會(huì)存在一定的重疊),這里h和w都為3。不同Zk對(duì)應(yīng)的區(qū)域在空間位置上是不同的,經(jīng)過(guò)中心對(duì)齊操作后,整幅圖像被表示一幅九通道(每個(gè)通道都是RGB圖像)圖像的某一較小的區(qū)域。后續(xù)的卷積網(wǎng)絡(luò)不需要太大的感受野就可以獲得目標(biāo)的整體信息。因此有效減少了大感受野下背景信息帶來(lái)的干擾。
圖3 目標(biāo)不同區(qū)域上的空間中心對(duì)齊Fig.3 Spatial alignment on different target areas
在進(jìn)行目標(biāo)狀態(tài)回歸前,需要將兩路分支得到的特征進(jìn)行融合。這里使用簡(jiǎn)單的特征拼接融合方式,先將兩路特征在通道維度上進(jìn)行拼接,然后使用1×1的卷積對(duì)特征進(jìn)行降維以匹配后面模塊的輸入。
本文以性能優(yōu)異的孿生網(wǎng)絡(luò)跟蹤算法SiamFC++為基準(zhǔn)模型進(jìn)行改進(jìn)。為驗(yàn)證本文提出算法的有效性,在OTB[16]、GOT-10k[17]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
本文算法運(yùn)行平臺(tái)配置為:CPU為8核3.00 GHz i7-9700,內(nèi)存為16 GB,顯卡為RTX2080,操作系統(tǒng)為Ubuntu18.04,編程環(huán)境為Python3.6。其中基礎(chǔ)特征提取網(wǎng)絡(luò)選擇為GoogleNet[18],在使用公式(2)對(duì)特征圖進(jìn)行裁剪時(shí),原始特征圖的大小為5×5,將其中間3×3的部分作為目標(biāo)的內(nèi)部區(qū)域,將剩下的外周部分視為目標(biāo)的輪廓部分。由于SiamFC++算法中本身就具有針對(duì)不同回歸任務(wù)的自適應(yīng)模塊,因此本文直接將對(duì)于不同回歸任務(wù)的自適應(yīng)模塊復(fù)制為兩份,分別對(duì)應(yīng)于內(nèi)部特征和周圍輪廓處特征的提取,自適應(yīng)模塊的的具體結(jié)構(gòu)為Conv+Bn+Relu(卷積層+批量歸一化層+激活層)。逐像素相關(guān)操作時(shí),分組卷積的組數(shù)設(shè)置為16,相關(guān)時(shí)可以將分解后的每個(gè)核并行計(jì)算,提高效率。與基準(zhǔn)模型相比,改進(jìn)后的模型只增加了額外自適應(yīng)模塊和特征融合時(shí)的1×1降維卷積層,帶來(lái)的參數(shù)量的增加可以忽略不計(jì)。實(shí)驗(yàn)表明,改進(jìn)的模型與原模型相比,跟蹤速度幾乎保持不變,在NVIDIA 2080Ti顯卡上可達(dá)90 frame/s左右。為了公平比較,在實(shí)驗(yàn)中所有的超參數(shù)設(shè)置都與基準(zhǔn)算法SiamFC++相同。使用GOT-10k[16]的訓(xùn)練集作為訓(xùn)練數(shù)據(jù)集。
2.2.1 在OTB2015數(shù)據(jù)集上的結(jié)果與分析
OTB2015數(shù)據(jù)集是一個(gè)經(jīng)典的被用作跟蹤器性能評(píng)估的數(shù)據(jù)集。OTB2015中一共包含有100個(gè)目標(biāo)跟蹤視頻序列。其中包含了目標(biāo)遮擋、形變、快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊、光照變化、尺度變化等一共11種不同的挑戰(zhàn)屬性??梢詫?duì)跟蹤算法在各種情境下的跟蹤性能做出評(píng)價(jià)。使用跟蹤成功率和歸一化精度作為評(píng)價(jià)指標(biāo)來(lái)衡量不同跟蹤器的性能差異。跟蹤成功率反映了算法估計(jì)的目標(biāo)位置與標(biāo)注位置之間的重合程度。
假設(shè)BBtr為跟蹤算法估計(jì)得到的目標(biāo)位置,BBgt為數(shù)據(jù)集中人工標(biāo)注的目標(biāo)位置,||表示區(qū)域內(nèi)的像素個(gè)數(shù)。當(dāng)跟蹤結(jié)果與真值之間的IOU(交并比)大于某一設(shè)定閾值時(shí),該幀就被視為跟蹤成功。跟蹤成功的幀數(shù)和總幀數(shù)的比值即為成功率。可以看出,具體的成功率是和閾值相關(guān)的,為了去除不同閾值對(duì)結(jié)果的影響,可以將不同閾值下的成功率作出一條曲線,然后計(jì)算曲線下的面積作為最終結(jié)果,即AUC指標(biāo)。
由于原有的精度指標(biāo)對(duì)圖像分辨率和目標(biāo)的大小十分敏感。本文中使用文獻(xiàn)[19]中改進(jìn)的歸一化精度代替原來(lái)的精度指標(biāo),歸一化精度計(jì)算方式為:
式(7)、(8)中Ctr表示跟蹤預(yù)測(cè)的目標(biāo)中心,Cgt表示目標(biāo)的真值中心分別表示目標(biāo)的真實(shí)寬度和高度。為了去除不同閾值精度對(duì)結(jié)果的影響,將不同閾值下的歸一化精度作出一條曲線,參照文獻(xiàn)[19],取閾值在0~0.5的曲線下面積作為最終指標(biāo)。
本算法在OTB2015數(shù)據(jù)集上和7種先進(jìn)的跟蹤算法進(jìn)行比較:ECO_HC[20]、DaSiamRPN[21]、ATOM[22]、DiMP50[23]、Ocean-offline[24]、Ocean-online[24]和SiamFC++。圖4為不同算法在OTB2015數(shù)據(jù)集上的跟蹤成功率和歸一化精度指標(biāo)。相較于基準(zhǔn)算法,本文算法在成功率指標(biāo)上性能提升了1.2%。和其他算法相比,本文算法也取得了最好的成績(jī)。改進(jìn)后的算法在歸一化精度指標(biāo)上也有所提升。
圖4 在OTB2015上的實(shí)驗(yàn)結(jié)果Fig.4 Experiments on OTB2015
接下來(lái)再對(duì)改進(jìn)后的算法對(duì)目標(biāo)變形、尺度變化屬性下跟蹤精度性能的影響進(jìn)行分析,以驗(yàn)證本文算法在對(duì)這兩種屬性下跟蹤性能的改善情況。結(jié)果如圖5所示。
圖5 變形、尺度變化屬性下的歸一化精度Fig.5 Normalized precision in target deform,scale change
通過(guò)圖5可以看出,改進(jìn)后的算法在變形、尺度變化這兩個(gè)屬性上精度指標(biāo)都有所提升,分別提升0.4%和1.7%。并且在尺度變化這一屬性下性能還超越了使用在線更新策略的DiMP算法。
下面對(duì)不同屬性下跟蹤性能變化進(jìn)行分析。不同屬性下的成功率變化如圖6所示。
圖6 OTB2015下不同屬性視頻序列的成功率Fig.6 Success rate of different attribute sequence on OTB2015
可以看出,在變形和尺度變化這兩個(gè)屬性下,改進(jìn)后的算法相較于原算法獲得了比較顯著的性能改善,獲得了1.8%和1.9%的提升。分析原因,對(duì)于變形屬性,由于本文提出的逐像素相關(guān)算法可以降低目標(biāo)形變對(duì)特征匹配結(jié)果的影響。對(duì)于尺度變化屬性,通過(guò)逐像素相關(guān)模塊中的空間對(duì)齊操作,使得后續(xù)目標(biāo)狀態(tài)回歸模塊不需要太大的感受野就能獲得目標(biāo)的整體信息,減少了大感受野下背景信息的干擾,因此在目標(biāo)尺度發(fā)生變化時(shí)仍然可以有效地獲得其全局信息,從而提升了算法在該屬性視頻下的魯棒性。另外,在其他大多數(shù)的屬性下,如光照變化、低分辨率,本文算法也取得了比基準(zhǔn)算法更加優(yōu)異的性能。
為了更加直觀地對(duì)跟蹤性能的變化進(jìn)行展示,選取了6個(gè)跟蹤序列對(duì)中間結(jié)果進(jìn)行可視化。結(jié)果見(jiàn)圖7。對(duì)于(a)Trellis和(b)Deer視頻序列,可以看出,與基準(zhǔn)算法相比,本文算法的預(yù)測(cè)結(jié)果和真值更加接近,這是因?yàn)楸疚乃惴ㄖ械碾p分支模塊中的輪廓分支可以更有效地提取輪廓信息,因此對(duì)輪廓的定位也就更加準(zhǔn)確。對(duì)于(c)Liquor序列,當(dāng)目標(biāo)發(fā)生遮擋時(shí),由于本文算法在逐像素相關(guān)模塊中使用了局部信息,算法依然可以根據(jù)未被遮擋的區(qū)域?qū)δ繕?biāo)狀態(tài)進(jìn)行估計(jì),因此和使用目標(biāo)整體信息的原算法相比效果更好。對(duì)于(d)Human4、(e)Bolt和(f)Suv序列,原算法發(fā)生跟蹤錯(cuò)誤時(shí)是因?yàn)楦浇霈F(xiàn)了相似目標(biāo)的干擾,而本文算法由于使用了輪廓信息和局部信息,提升了跟蹤器的判別性,因此在這一情況下的表現(xiàn)更加魯棒。
圖7 算法跟蹤結(jié)果展示Fig.7 Visualization of tracking result
2.2.2 在GOT-10k數(shù)據(jù)集上的結(jié)果與分析
GOT-10k數(shù)據(jù)集是由中科院自動(dòng)化所提出的一個(gè)大規(guī)模跟蹤數(shù)據(jù)集,其訓(xùn)練集和測(cè)試集之間不存在類別重疊,因此可以用來(lái)衡量跟蹤器的泛化能力。在此數(shù)據(jù)集上使用評(píng)價(jià)指標(biāo)AO(平均重疊率)和SR(成功率)進(jìn)行評(píng)估,其中SR0.5和SR0.75分別表示不同閾值下的成功率結(jié)果。加入了比較流行的跟蹤器MDNet[25]、D3S[26]進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表1所示。
表1 GOT-10k數(shù)據(jù)集AO、SR0.5、SR0.75指標(biāo)性能Table 1 AO,SR0.5,SR0.75 experiments on GOT-10k %
可以看出,本文算法在AO指標(biāo)下取得了最好的性能,超越了使用了在線更新的Ocean-online算法。另外,在SR0.5和SR0.75評(píng)價(jià)指標(biāo)下,本文算法也都取得了最好的效果,充分證明了本文算法對(duì)于未知目標(biāo)也有著優(yōu)異的泛化能力。
為了驗(yàn)證本文中提出的雙分支結(jié)構(gòu)和逐像素相關(guān)模塊對(duì)于算法性能的影響。本文進(jìn)行了對(duì)應(yīng)的消融實(shí)驗(yàn),實(shí)驗(yàn)在GOT-10k測(cè)試集上進(jìn)行。實(shí)驗(yàn)結(jié)果如表2所示。其中+D表示使用了雙分支結(jié)構(gòu),+PWC表示使用了原始的逐像素卷積操作,+PWC+S表示使用了原始逐像素卷積操作加空間對(duì)齊,+PWC+S+G表示在+PWC+S的基礎(chǔ)上在逐像素相關(guān)卷積時(shí)又使用了分組卷積來(lái)保留更多的相關(guān)后的信息。
表2 GOT-10k上的消融實(shí)驗(yàn)結(jié)果(AO、SR0.5、SR0.75指標(biāo))Table 2 Impact of different decisions on AO,SR0.5,SR0.75 performance %
在表2中可以看出,將單分支變成雙分支后,模型的性能有了顯著的提升,在AO、SR0.5、SR0.75指標(biāo)上分別獲得了2.2%、2.2%和1.9%的提升,證明了雙分支模塊的有效性。此外,本文中提出的其他模塊對(duì)算法的最終性能也都有一定的提升。
下面對(duì)雙分支模塊中的重要參數(shù)對(duì)模型性能的影響進(jìn)行分析。主要考慮模塊中卷積核的大小和模塊的深度對(duì)性能的影響。實(shí)驗(yàn)在GOT-10k測(cè)試集上進(jìn)行,在本文的主要實(shí)驗(yàn)中,雙分支模塊采用SiamFC++算法中的特征自適應(yīng)模塊結(jié)構(gòu),具體為Conv+Bn+Relu,這里卷積核的大小為3×3。表3是對(duì)卷積核大小為5×5情況下對(duì)模型性能的影響實(shí)驗(yàn)結(jié)果,表4是模塊的深度對(duì)性能的影響實(shí)驗(yàn)結(jié)果。表4中SiamDAH(1)表示分支模塊結(jié)構(gòu)為Conv+Bn+Relu,SiamDAH(2)表示堆疊兩層同樣的結(jié)構(gòu),SiamDAH(3)表示堆疊三層結(jié)構(gòu)。
表3 卷積核大小對(duì)模型AO、SR0.5、SR0.75性能的影響Table 3 Effect of convolution kernel size on AO,SR0.5,SR0.75 model performance %
表4 層數(shù)對(duì)模型AO、SR0.5、SR0.75性能的影響Table 4 Effect of number of layers on AO,SR0.5,SR0.75 model performance %
從表3可以看出,增加卷積核的大小并未有效帶來(lái)性能上的提升。這可以解釋為對(duì)于輪廓和內(nèi)部特征的提取并不需要太大的卷積核或感受野,如對(duì)于邊緣的提取,3×3的Sobel算子就能取得不錯(cuò)的效果。從表4可以看出,堆疊多層結(jié)構(gòu)也沒(méi)有帶來(lái)性能上的提升,這是因?yàn)楹驮黾泳矸e核尺寸一樣,多層結(jié)構(gòu)也可以理解為增加了模塊的感受野。另一方面,無(wú)論是增加卷積核大小,還是堆疊模型深度,都增加了模型的復(fù)雜性,從而可能發(fā)生過(guò)擬合,影響模型的最終性能。
本文提出了一種基于雙分支孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法。引入雙分支結(jié)構(gòu)來(lái)分別對(duì)應(yīng)的目標(biāo)內(nèi)部和輪廓處的特征提取,解決了內(nèi)外區(qū)域?qū)μ卣鞯谋磉_(dá)需求不一致的問(wèn)題。為了應(yīng)對(duì)跟蹤過(guò)程中可能出現(xiàn)的目標(biāo)形變,提出了一種改進(jìn)的逐像素相關(guān)模塊,將目標(biāo)的空間結(jié)構(gòu)關(guān)系轉(zhuǎn)移到通道上來(lái),后續(xù)模塊不需要太大的感受野就能關(guān)注到整個(gè)目標(biāo)的信息,減少了背景信息的干擾,有利于對(duì)目標(biāo)位置的判別和回歸。最后,在OTB2015和GOT-10k上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法可以顯著提升基準(zhǔn)算法的性能。