周益飛 徐文卓
1(武漢大學(xué)信息中心 湖北 武漢 430072)2(北京電子工程總體研究所 北京 100854)
隨著計(jì)算機(jī)硬件水平、視頻圖像處理技術(shù)以及人工智能技術(shù)的迅猛發(fā)展,目標(biāo)跟蹤[1-2]在視覺(jué)監(jiān)控、增強(qiáng)現(xiàn)實(shí)、人機(jī)交互、自動(dòng)駕駛等領(lǐng)域[3]應(yīng)用也越來(lái)越廣泛。目標(biāo)跟蹤是在連續(xù)的視頻序列中,根據(jù)給定的第一幀圖像的目標(biāo)坐標(biāo)位置來(lái)計(jì)算目標(biāo)在下一幀圖像中的確切位置。目前視覺(jué)跟蹤已經(jīng)取得了非常大的進(jìn)展,有許多優(yōu)秀的跟蹤算法用于解決跟蹤問(wèn)題,但在目標(biāo)運(yùn)動(dòng)的過(guò)程中,由于尺度變化、形變、遮擋和復(fù)雜背景等眾多因素的影響,開(kāi)發(fā)一個(gè)魯棒的跟蹤算法仍非常具有挑戰(zhàn)性。
為了解決上述難題,實(shí)現(xiàn)魯棒的跟蹤算法,研究者們提出了很多解決辦法?;谙嚓P(guān)濾波的跟蹤算法KCF[17]通過(guò)循環(huán)移位來(lái)擴(kuò)充樣本集數(shù)量,提高了跟蹤速度和跟蹤效率。SRDCF[12]使用空間正則化來(lái)增大特征學(xué)習(xí)的區(qū)域,Staple[18]提出顏色直方圖的方法,ACFN[13]提出注意力機(jī)制相關(guān)濾波網(wǎng)絡(luò),使用注意力網(wǎng)絡(luò)從多個(gè)特征提取器中選擇最優(yōu)的模塊用于跟蹤目標(biāo)。CSR-DCF[14]利用顏色直方圖約束相關(guān)濾波學(xué)習(xí),構(gòu)建前景空間可靠性圖。還有更多的基于深度學(xué)習(xí)的相關(guān)濾波跟蹤算法如DeepSRDCF[11]、CCOT[19]等。近年來(lái),孿生網(wǎng)絡(luò)被廣泛應(yīng)用于視覺(jué)跟蹤。SiamFC[4]第一個(gè)提出用全卷積孿生網(wǎng)絡(luò)結(jié)構(gòu)來(lái)解決跟蹤問(wèn)題。CFNet[5]將相關(guān)濾波(CF)整合為一個(gè)網(wǎng)絡(luò)層,并將其嵌入到基于孿生網(wǎng)絡(luò)的框架中。Dsiam[6]使用動(dòng)態(tài)孿生網(wǎng)絡(luò)快速變換學(xué)習(xí)目標(biāo)外觀變化,并處理來(lái)自先前幀的背景抑制。SiamRPN/DASiamRPN[7-8]使用區(qū)域推薦網(wǎng)絡(luò)將目標(biāo)分類(lèi)和目標(biāo)狀態(tài)估計(jì)進(jìn)行結(jié)合。
然而,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法通過(guò)目標(biāo)與搜索區(qū)域的相似性學(xué)習(xí)得到響應(yīng)圖,通過(guò)響應(yīng)圖最大值來(lái)計(jì)算目標(biāo)狀態(tài)。在目標(biāo)發(fā)生尺度變化或復(fù)雜運(yùn)動(dòng)等情況下,目標(biāo)周?chē)霈F(xiàn)干擾因素,響應(yīng)圖的最大值可能由次峰值逐漸增大形成,此時(shí)使用不準(zhǔn)確的響應(yīng)最大值進(jìn)行計(jì)算目標(biāo)可能的位置,會(huì)導(dǎo)致跟蹤模型漂移。
基于上述分析,本文提出了一種簡(jiǎn)單有效的基于響應(yīng)正則化的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,用于魯棒目標(biāo)跟蹤。本文從跟蹤響應(yīng)正則化的角度出發(fā),在SiamRPN網(wǎng)絡(luò)的基礎(chǔ)上,抑制潛在的子峰,同時(shí)聚合最大峰值響應(yīng),通過(guò)在分類(lèi)模塊中使用更準(zhǔn)確的響應(yīng)值來(lái)計(jì)算目標(biāo)的狀態(tài),更準(zhǔn)確地判斷目標(biāo)的前景和背景,降低模型漂移的風(fēng)險(xiǎn)。本文在OTB2013、OTB100和VOT2016上進(jìn)行了大量的實(shí)驗(yàn),同時(shí)與當(dāng)前主流的目標(biāo)跟蹤算法進(jìn)行了詳細(xì)對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,本文的算法在尺度變化和快速運(yùn)動(dòng)時(shí)具有更好的魯棒性。
孿生網(wǎng)絡(luò)將目標(biāo)圖片與待搜索圖片進(jìn)行逐塊區(qū)域?qū)Ρ龋瑥淖笸?,從上至下。孿生網(wǎng)絡(luò)跟蹤算法提出了用一個(gè)函數(shù)f(z,x)定義z(模板幀)和x(檢測(cè)幀)的相似度,最終得到相似度分值表(響應(yīng)圖),相似度較高的地方分值較高,反之相似度較低的地方分值較低。
在孿生區(qū)域推薦網(wǎng)絡(luò)跟蹤算法中,模板幀和檢測(cè)幀的相似度匹配過(guò)程分為分類(lèi)分支和回歸分支兩個(gè)分支。分類(lèi)分支用來(lái)判讀錨點(diǎn)框是前景或是背景,回歸分支用來(lái)得到錨點(diǎn)框的位置偏移量。核心公式如下:
式中:z是第一幀所給出的目標(biāo)框,x可以看為當(dāng)前幀的搜索區(qū)域?!?”表示互相關(guān)層,可以看成是φ(z)在φ(x)上滑動(dòng)搜索,最后得到一個(gè)響應(yīng)圖,圖上最大值對(duì)應(yīng)的點(diǎn)就是算法認(rèn)為的目標(biāo)中心所在位置。cls表示分類(lèi)分支,reg表示回歸分支。
在孿生網(wǎng)絡(luò)的模板幀與檢測(cè)幀的相似度匹配結(jié)果中可能存在具有干擾性的最大值,尤其在孿生區(qū)域推薦網(wǎng)絡(luò)中,分類(lèi)分支決定著候選框?yàn)榍熬盎蚴潜尘埃@些具有干擾性的響應(yīng)圖最大值可能會(huì)影響候選框的判斷,進(jìn)而帶來(lái)跟蹤算法的漂移。因此需要計(jì)算出更可靠的響應(yīng)值最大值,減少分類(lèi)分支的錯(cuò)誤判斷概率,以提高跟蹤算法的魯棒性。
為了解決此問(wèn)題,本文基于孿生區(qū)域推薦網(wǎng)絡(luò)的基礎(chǔ)之上,在分類(lèi)分支部分增加響應(yīng)正則化模塊將峰值集中到目標(biāo)幾何中心,并與原響應(yīng)值進(jìn)行融合得到新的響應(yīng)圖。算法如圖1所示。
我們直接操作預(yù)測(cè)的目標(biāo)響應(yīng)圖,并重新公式化為:
[φ(x)]cls*[φ(z)]cls
(2)
圖1 算法框架圖
式中:M表示應(yīng)用于每個(gè)響應(yīng)圖的響應(yīng)正則化模塊,通過(guò)使用響應(yīng)正則化確保響應(yīng)圖有以目標(biāo)為中心的單個(gè)最大值。M([φ(x)]cls*[φ(z)]cls)表示響應(yīng)值經(jīng)過(guò)響應(yīng)正則化之后的結(jié)果,[φ(x)]cls*[φ(z)]cls表示分類(lèi)分支中模板幀與檢測(cè)幀的原響應(yīng)圖。
響應(yīng)正則化模塊對(duì)每個(gè)通道分別提取響應(yīng)圖的水平和垂直方向的最大值,然后求和將跟蹤響應(yīng)圖上的最大值集中到目標(biāo)幾何中心[9-10]。本文在孿生網(wǎng)絡(luò)的分類(lèi)分支輸出的目標(biāo)響應(yīng)圖上,在水平方向找到每一行的最大值并為該行的所有像素分配最大響應(yīng)值,在垂直方向找到每一列的最大值并為該列的所有像素分配最大響應(yīng)值。響應(yīng)正則化模塊之后響應(yīng)圖的元素值計(jì)算如下:
本文通過(guò)離線(xiàn)訓(xùn)練的方式訓(xùn)練模型,并通過(guò)最小化損失函數(shù)來(lái)獲取最優(yōu)模型。使用反向傳播BPTT和隨機(jī)梯度下降SGD進(jìn)行梯度傳播和參數(shù)更新。如下:
loss=Lcls+Lreg
(5)
式中:Lcls分類(lèi)損失;Lreg表示回歸損失。
分類(lèi)損失函數(shù)如下:
l(y,v)=log(1+exp(-yv))
(6)
回歸損失函數(shù)為:
算法流程:
輸入:視頻序列[t],和第一幀的真值框,坐標(biāo)位置p1。
輸出:目標(biāo)坐標(biāo)p2,p3,…,pn。
1 Fort=1:ndo
2 ift==1 then
3 根據(jù)p1學(xué)習(xí)模板幀目標(biāo)的特征,分為分類(lèi)特征和回歸特征
4 else
5 提取檢測(cè)幀的特征,分為分類(lèi)特征和回歸特征
7 對(duì)模板幀和檢測(cè)幀的分類(lèi)特征和回歸特征分別進(jìn)行相關(guān)匹配
8 對(duì)于分類(lèi)分支得到的響應(yīng)圖進(jìn)行響應(yīng)正則化操作
9 融合分類(lèi)分支經(jīng)過(guò)響應(yīng)正則化后的響應(yīng)圖和原響應(yīng)圖得到新的響應(yīng)圖
10 根據(jù)響應(yīng)圖得到綜合的分類(lèi)結(jié)果和回歸結(jié)果,進(jìn)而得到排行前k的候選框
11 根據(jù)候選框選擇策略得到第t幀目標(biāo)的位置pt
12 end if
13 end for
為了驗(yàn)證本文算法的性能,本文將在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上運(yùn)行實(shí)驗(yàn),包括OTB2013[15]、OTB100[16]和VOT[20]等,對(duì)比算法包括SiamRPN[7]、DeepSRDCF[11]、SRDCF[12]、CFNet[5]、SiamFC[4]、ACFN[13]、CSRDCF[14]、Staple[18]、CCOT[19]和KCF[17]等。
在本文的實(shí)驗(yàn)中,計(jì)算機(jī)的配置為一臺(tái)帶有Intel i7 3.6 GHz CPU和GeForce GTX 1060 Ti GPU的PC機(jī)。
本文的網(wǎng)絡(luò)與SiamRPN具有相同的結(jié)構(gòu),使用AlexNet的網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)。本文網(wǎng)絡(luò)結(jié)構(gòu)在ILSVRC15視頻對(duì)象檢測(cè)數(shù)據(jù)集上進(jìn)行離線(xiàn)預(yù)訓(xùn)練,使用動(dòng)量為0.9的隨機(jī)梯度下降(SGD)從零開(kāi)始訓(xùn)練網(wǎng)絡(luò),并將權(quán)值衰減設(shè)置為0.000 5。學(xué)習(xí)速率的指數(shù)從10-2至10-5衰減。訓(xùn)練周期為50個(gè)周期,最小批量為32。
對(duì)于上述方法,我們?cè)贠TB2013和OTB100上用跟蹤精度和跟蹤成功率來(lái)評(píng)估所有的算法。
OTB的兩個(gè)標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)是成功率(AUC)和精度(Precision)。精度是指跟蹤框和真值框的歐氏距離在給定閾值以?xún)?nèi)條件下的幀數(shù)占總幀數(shù)的百分比。采用閾值dis=20像素作為評(píng)價(jià)和對(duì)比標(biāo)準(zhǔn)。成功率表示跟蹤框和真值框之間的重疊率大于閾值時(shí),幀數(shù)占總幀數(shù)的百分比。通常取閾值為0.5。
在VOT2016數(shù)據(jù)集上,算法的性能通過(guò)準(zhǔn)確率(Accuracy)、魯棒性(Robustness)和平均重疊期望(EAO)來(lái)進(jìn)行評(píng)估。
3.3.1在OTB2013與OTB100上對(duì)比結(jié)果
通過(guò)與SiamRPN[7]、DeepSRDCF[11]、SRDCF[12]、CFNet[5]、SiamFC[4]、ACFN[13]和CSRDCF[14]等眾多主流的跟蹤器在OTB 2013/100數(shù)據(jù)集上進(jìn)行比較,我們對(duì)所提出的算法進(jìn)行了評(píng)估。SiamRPN、CFNet和SiamFC是最新的基于孿生網(wǎng)絡(luò)的跟蹤器,CSR-DCF和SRDCF使用注意機(jī)制,SiamRPN和DeepSRDCF是深度跟蹤器。在第一幀中,所有跟蹤器都初始化為真值狀態(tài),并報(bào)告平均成功率。單路徑評(píng)價(jià)(OPE)的精度圖和成功率圖如圖2所示。表1總結(jié)了更多的結(jié)果。比較表明,我們的算法在這兩種OTB基準(zhǔn)上的實(shí)時(shí)跟蹤性能都是最優(yōu)的。
(a) OTB2013精度圖
(b) OTB2013成功率圖
(c) OTB100精度圖
(d) OTB100成功率圖圖2 OTB2013和OTB100數(shù)據(jù)集上成功率和精度對(duì)比
表1 OTB成功率、精度和平均運(yùn)行速度的對(duì)比結(jié)果
(1) 在OTB2013上對(duì)比結(jié)果。OTB-2013的結(jié)果顯示,我們提出的算法成功率和精度達(dá)到66.3%和88.9%,排名第一。在使用Siamese網(wǎng)絡(luò)的跟蹤器中,我們的性能優(yōu)于SiamRPN、CFNet和SiamFC,在成功率評(píng)分中分別相對(duì)提高了0.5%、5.2%和5.6%,在精度方面分別提高了0.5%、8.2%和8%。與使用其他方法的跟蹤器相比,我們的性能優(yōu)于CSR-DCF和ACFN,在成功率評(píng)分中分別相對(duì)提高了7%和5.6%,在精度方面分別提高了8.6%和2.9%。
(2) 在OTB100上對(duì)比結(jié)果。在OTB-100的結(jié)果中,我們提出的方法達(dá)到了最優(yōu),在成功率評(píng)分和精度上比排名第二的跟蹤器SiamRPN提高0.4%和0.7%。在使用孿生網(wǎng)絡(luò)的跟蹤算法中,本文的算法性能優(yōu)于SiamRPN、CFNet和SiamFC。與SiamFC、CFNet和SiamRPN相比,將響應(yīng)正則化整合到我們的跟蹤器中,使得我們的成功率得分和精度值提高到64.1%和85.8%,說(shuō)明了響應(yīng)正則化在實(shí)際跟蹤中的有效性。而與其他方法的CSR-DCF和ACFN相比,本文的算法不僅在AUC評(píng)分和精度上得分更高,在速度上也更快。
(3) 運(yùn)行速度。在表1中的平均速度上,前三名是SiamRPN算法、SiamFC算法和本文的算法,每秒傳輸幀數(shù)分別達(dá)到了160、86以及80。這三個(gè)算法中,本文算法的速度為80幀/s,低于前兩個(gè)算法,這是因?yàn)楸疚乃惴ú捎庙憫?yīng)正則化策略增加了計(jì)算負(fù)載。盡管如此,本文的算法在速度上接近于SiamFC算法,但是本文的算法在跟蹤的精度和成功率得分上相比SiamFC有更大的優(yōu)勢(shì)。
3.3.2在VOT2016上對(duì)比結(jié)果
圖3和表2展示了在VOT2016中我們的算法與SiamRPN[7]、CSRDCF[14]、CCOT[19]、Staple[18]、DeepSRDCF[11]、SRDCF[12]、SiamFC[4]和KCF[17]的對(duì)比結(jié)果。本文算法的EAO值為0.348 4,排名第一。SiamRPN雖然速度比我們的跟蹤器快了很多,但是在EAO和Failure方面低了很多,這表明引入的響應(yīng)正則化提高了跟蹤的性能。此外我們的跟蹤器較CCOT、DeepSRDCF和CSRDCF速度上快了很多。這驗(yàn)證了我們的算法具有較快的處理速度和優(yōu)異的性能,顯示出了實(shí)際跟蹤應(yīng)用的潛力。
圖3 VOT2016數(shù)據(jù)集上對(duì)比結(jié)果
表2 VOT2016對(duì)比結(jié)果
(1) 快速運(yùn)動(dòng)(FM):圖4(a)展示了4個(gè)算法在目標(biāo)經(jīng)歷了快速運(yùn)動(dòng)的視頻序列Tiger1中的跟蹤結(jié)果截圖。在Tiger1視頻序列中,由于目標(biāo)的快速走動(dòng)和攝像機(jī)抖動(dòng)等因素影響,SiamRPN、CFNet和SiamFC均一定程度的丟失目標(biāo),本文的算法能很好地跟蹤目標(biāo)。
(2) 尺度變化(SV):圖4(b)展示了4個(gè)算法在目標(biāo)經(jīng)歷了尺度變化的視頻序列Lemming中的跟蹤結(jié)果截圖。在Lemming視頻序列中,由于尺度變化和光照影響,CFNet和SiamFC丟失目標(biāo),而本文的算法和SiamRPN能保持對(duì)目標(biāo)的穩(wěn)定定位。
在這2個(gè)視頻序列中,本文的算法均能準(zhǔn)確地定位目標(biāo),而SiamRPN、CFNet和SiamFC均有一定程度的丟失。本文提出的算法性能良好的原因主要是我們關(guān)注目標(biāo)的干擾響應(yīng),對(duì)于目標(biāo)響應(yīng)進(jìn)行適當(dāng)調(diào)整,以減少這些特征對(duì)于變形、旋轉(zhuǎn)和背景雜波引起的外觀變化的干擾影響。
(a)
(b)
圖4 定性分析結(jié)果
在跟蹤方法中,響應(yīng)圖的選擇對(duì)最終的跟蹤算法結(jié)果影響至關(guān)重要。本文提出的基于響應(yīng)正則化的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法是一種簡(jiǎn)單且具有較強(qiáng)魯棒性的目標(biāo)跟蹤算法。本文使用了響應(yīng)正則化減少孿生網(wǎng)絡(luò)分類(lèi)分支中干擾信息的影響,增強(qiáng)算法對(duì)尺度變化和快速運(yùn)動(dòng)時(shí)差異的魯棒性。最后在OTB2013、OTB100以及VOT2016上的全面評(píng)估證實(shí)了本文提出的算法相比目前主流的一些跟蹤算法取得了較好的效果。為了獲得更好的準(zhǔn)確率和時(shí)效性,未來(lái)我們將著手使用深層網(wǎng)絡(luò)來(lái)解決目標(biāo)跟蹤問(wèn)題。