毛 琳, 蘇宏陽(yáng), 楊大偉
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116600)
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)重要研究方向,其任務(wù)是準(zhǔn)確跟蹤給定視頻序列中的標(biāo)注目標(biāo),如行人、車輛、動(dòng)物等。目標(biāo)跟蹤應(yīng)用非常廣泛,如視頻監(jiān)控、自動(dòng)駕駛、機(jī)器人視覺等,但由于目標(biāo)在視頻中普遍存在遮擋、消失等現(xiàn)象,會(huì)極大降低現(xiàn)有算法的準(zhǔn)確性和魯棒性,使算法在實(shí)際應(yīng)用中可靠性降低。
目標(biāo)遮擋是目標(biāo)跟蹤中常見挑戰(zhàn)之一,傳統(tǒng)目標(biāo)跟蹤算法往往無(wú)法應(yīng)對(duì)目標(biāo)遮擋帶來(lái)的問題,導(dǎo)致跟蹤效果下降。近年來(lái),研究者們開始使用深度學(xué)習(xí)來(lái)解決遮擋問題。一類基于深度學(xué)習(xí)的目標(biāo)跟蹤算法利用強(qiáng)化學(xué)習(xí)思想,在目標(biāo)遮擋的情況下,動(dòng)態(tài)調(diào)整跟蹤器行為,以適應(yīng)目標(biāo)的變化。例如,ATOM[1](Accurate Tracking Overlap Maximization)通過設(shè)計(jì)兩個(gè)模塊,一個(gè)模塊進(jìn)行訓(xùn)練,不斷增強(qiáng)檢測(cè)框與真實(shí)結(jié)果重疊率,另一個(gè)模塊則是分類模塊,用于前景背景判別,以此獲得更高的跟蹤精度。PrDiMP[2](Probabilistic Regression for Visual Tracking)則在ATOM 基礎(chǔ)上,通過融合置信度回歸方法,進(jìn)一步優(yōu)化概率回歸模型,取得更加準(zhǔn)確的回歸結(jié)果。另一類基于深度學(xué)習(xí)的目標(biāo)跟蹤算法則采用孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以SiamRPN[3]為基礎(chǔ)的許多目標(biāo)跟蹤算法將目標(biāo)跟蹤看作一個(gè)相似度匹配問題,通過學(xué)習(xí)模板和搜索區(qū)域的相似度來(lái)進(jìn)行目標(biāo)定位,配合復(fù)雜的特征后處理來(lái)應(yīng)對(duì)目標(biāo)遮擋、目標(biāo)消失等挑戰(zhàn)。如通過級(jí)聯(lián)區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)[4,5],來(lái)生成更多的區(qū)域建議框,以達(dá)到更準(zhǔn)確的跟蹤。此外,還有一些目標(biāo)跟蹤算法利用分割技術(shù),在原有的分類和回歸分支基礎(chǔ)上,增加預(yù)測(cè)目標(biāo)分割掩碼的分支[6-7],通過分割算法將目標(biāo)分割出來(lái),將跟蹤問題轉(zhuǎn)化為一個(gè)前背景分類問題,實(shí)現(xiàn)跟蹤和分割的互補(bǔ),提高了跟蹤的準(zhǔn)確性。以上算法均取得不錯(cuò)成績(jī),但由于引入復(fù)雜的特征后處理,導(dǎo)致更多的計(jì)算,并且更加依賴超參的設(shè)置。總的來(lái)說(shuō),基于深度學(xué)習(xí)的目標(biāo)跟蹤算法已經(jīng)取得了一定進(jìn)展,但面對(duì)目標(biāo)完全遮擋時(shí),算法很難找到目標(biāo)位置,往往需要設(shè)計(jì)繁瑣的手工特征和復(fù)雜的特征后處理。
在最近,F(xiàn)ei Xie 等人提出EoC[8](Extract or Correlation)模塊,EoC 模塊中集合了自注意力和交叉注意力(Self-Attention,SA;Cross-Attention,CA),作者以EoC 模塊構(gòu)建骨干網(wǎng)絡(luò),通過在特征提取過程中不斷計(jì)算相關(guān)性,獲得良好的跟蹤性能。而Yutao Cui 等人則在MixFormer[9]中提出了一種混合注意模塊(Mixed Attention Module,MAM),可以同時(shí)進(jìn)行特征提取和特征融合,獲得優(yōu)異的算法性能。
同時(shí),在目標(biāo)分割領(lǐng)域,針對(duì)時(shí)間信息利用不充分的問題,Oh Seoung Wug 等人提出了一種基于時(shí)空記憶網(wǎng)絡(luò)的視頻對(duì)象分割方法[10],通過在時(shí)間和空間維度上建立記憶單元來(lái)捕捉視頻中對(duì)象的運(yùn)動(dòng)和形狀信息。Xie Haozhe 等人提出了一種高效的區(qū)域記憶網(wǎng)絡(luò)[11],通過學(xué)習(xí)目標(biāo)區(qū)域和背景區(qū)域之間的相互關(guān)系來(lái)提高分割精度和效率。Paul Matthieu 等人提出了一種局部記憶注意力網(wǎng)絡(luò)[12],利用局部上下文信息來(lái)提高分割效果,并加速模型推理。Wang Hao 等人提出了一種時(shí)序記憶注意力網(wǎng)絡(luò)[13],通過在時(shí)間維度上建立記憶單元來(lái)建模視頻序列的長(zhǎng)期依賴關(guān)系,從而提高視頻對(duì)象分割的精度。
綜上所述,為解決目標(biāo)跟蹤中常見的目標(biāo)遮擋問題,本文算法結(jié)合相關(guān)濾波和MixFormer 的思想,提出一種自適應(yīng)特征匹配網(wǎng)絡(luò),該網(wǎng)絡(luò)通過目標(biāo)特征互相關(guān)計(jì)算,對(duì)目標(biāo)特征進(jìn)行自適應(yīng)加權(quán),提高特征匹配準(zhǔn)確度。同時(shí),本文借鑒分割領(lǐng)域中記憶網(wǎng)絡(luò)的思想,構(gòu)建一個(gè)特征記憶網(wǎng)絡(luò),用于緩解目標(biāo)跟蹤中時(shí)間信息利用不充分問題。通過利用特征記憶網(wǎng)絡(luò),算法能夠更好地適應(yīng)跟蹤目標(biāo)在時(shí)間序列中的運(yùn)動(dòng)和變化,即使在目標(biāo)完全遮擋時(shí)也能自適應(yīng)推斷目標(biāo)位置,從而提高跟蹤的精度和穩(wěn)定性。在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法在解決目標(biāo)遮擋問題方面具有更好的表現(xiàn),能夠更準(zhǔn)確地跟蹤目標(biāo),并且在完全遮擋情況下也能保持較高的跟蹤精度。
針對(duì)目標(biāo)遮擋的自適應(yīng)特征匹配網(wǎng)絡(luò)算法框架在文獻(xiàn)[14]的基礎(chǔ)上構(gòu)建,如圖1 所示,可將其分為四個(gè)部分:骨干網(wǎng)絡(luò)、自適應(yīng)特征匹配網(wǎng)絡(luò)(Adept Feature Match Network,AFMN)、特征記憶網(wǎng)絡(luò)(Feature Memory Network,F(xiàn)MN)、分類回歸網(wǎng)絡(luò)。
圖1 整體網(wǎng)絡(luò)框架Fig.1 Overall network framework
在運(yùn)動(dòng)目標(biāo)的處理過程中,常常會(huì)遭遇尺度變化和遮擋等問題,這時(shí)無(wú)法獲取完整的目標(biāo)特征,只能獲得局部特征,這就可能導(dǎo)致跟蹤錯(cuò)誤。因此,本文旨在研究如何有效利用局部特征。為實(shí)現(xiàn)這一目標(biāo),本文采用Inception V3 作為骨干網(wǎng)絡(luò),并進(jìn)行遷移學(xué)習(xí)。Inception V3 同時(shí)使用多個(gè)尺度的卷積核來(lái)提取特征,這種設(shè)計(jì)使得模型能夠適應(yīng)不同尺度的圖像,提高了模型的魯棒性。此外,該模型還采用1×1 卷積核來(lái)減少模型的參數(shù)量和計(jì)算復(fù)雜度,同時(shí)增加了模型的非線性和表達(dá)能力。通過卷積層、池化層、批量歸一化等操作,該模型將輸入圖像轉(zhuǎn)換為高維特征向量,并逐漸提取越來(lái)越抽象的特征,以區(qū)分不同的目標(biāo),為后續(xù)處理和跟蹤任務(wù)提供支持。
在訓(xùn)練過程中,使用相同的結(jié)構(gòu)來(lái)構(gòu)建查詢幀和記憶幀的骨干網(wǎng)絡(luò),但不共享它們之間的權(quán)重,將其分別表示為Φq,Φm。在骨干網(wǎng)絡(luò)提取特征完成后,分別使用自適應(yīng)卷積層τq,τm對(duì)骨干網(wǎng)絡(luò)的輸出進(jìn)行處理,以適應(yīng)后續(xù)的特征處理操作,具體可用公式表示為:
在目標(biāo)跟蹤中,大多數(shù)算法通常依賴目標(biāo)區(qū)域特征來(lái)進(jìn)行跟蹤。然而,當(dāng)目標(biāo)發(fā)生遮擋時(shí),無(wú)法獲取目標(biāo)完整信息,導(dǎo)致算法在前背景分類和檢測(cè)框回歸時(shí)出現(xiàn)偏差,使得預(yù)測(cè)位置偏離實(shí)際軌跡,就會(huì)產(chǎn)生跟蹤漂移的問題,如圖2 所示。
圖2 跟蹤漂移示意圖Fig.2 Schematic diagram of tracking drift
針對(duì)目標(biāo)遮擋產(chǎn)生的跟蹤漂移問題,分析其產(chǎn)生原因,以圖2 為例,由分?jǐn)?shù)響應(yīng)圖可以看出,在分類階段,由于目標(biāo)被遮擋,目標(biāo)區(qū)域得分急劇降低,又因?yàn)榇嬖谂c目標(biāo)相似的背景,導(dǎo)致算法錯(cuò)誤的給背景賦予較高分?jǐn)?shù),而將目標(biāo)分類為背景。由跟蹤圖可以看出,在回歸階段,受前背景分類的影響,導(dǎo)致回歸精度大大降低。進(jìn)一步,在進(jìn)行下一幀跟蹤時(shí),由于受到前一幀跟蹤結(jié)果的影響,算法將上一幀跟蹤結(jié)果進(jìn)行特征匹配,使算法誤把背景作為目標(biāo)進(jìn)行跟蹤,造成了跟蹤漂移的問題。
針對(duì)上述問題,本文在實(shí)驗(yàn)中發(fā)現(xiàn),獲得骨干網(wǎng)絡(luò)提取的特征后,其多通道的特征圖中存在許多相似或重復(fù)的特征,這可能會(huì)對(duì)特征匹配造成干擾,尤其在目標(biāo)遮擋時(shí)更為明顯。
為解決這個(gè)問題,如圖3 所示,對(duì)骨干網(wǎng)絡(luò)的輸出fq和fm,將其按通道拆分為h份,拆分過程可表示為:
圖3 特征圖拆分示意圖Fig.3 Schematic diagram of feature map splitting
將二者進(jìn)行分頭后,不僅可以解決相似和重復(fù)特征對(duì)跟蹤造成的影響,還可以通過多次計(jì)算fq和fm之間的相似度,對(duì)二者的相似性關(guān)系進(jìn)行多維度觀察,提高特征的利用效率,并進(jìn)行自適應(yīng)的特征檢索,為特征匹配提供更多參考,減小誤判的可能。如圖4 所示,在進(jìn)行特征圖拆分后,通過多次計(jì)算相似性關(guān)系,生成多個(gè)目標(biāo)響應(yīng),為算法提供更多選擇,通過訓(xùn)練,最終實(shí)現(xiàn)正確的跟蹤。
圖4 多響應(yīng)分?jǐn)?shù)圖Fig.4 Multi-response fractional graph
因此,為了更準(zhǔn)確地確定目標(biāo)位置,本文將骨干網(wǎng)絡(luò)提取的特征進(jìn)行分頭,提出一種基于相關(guān)濾波和注意力的方法,計(jì)算目標(biāo)逐像素的相似度,通過被遮擋目標(biāo)暴露部分進(jìn)行局部到局部的特征匹配,從而顯著提高目標(biāo)定位精度。該方法將特征圖轉(zhuǎn)換為一維向量,并通過計(jì)算特征圖向量像素間的點(diǎn)積相似度,判斷不同特征之間的互相關(guān)程度。然后,將這些點(diǎn)積相似度作為權(quán)重系數(shù)組成權(quán)重矩陣,對(duì)記憶幀特征圖進(jìn)行加權(quán),篩選目標(biāo)特征,并與查詢幀特征拼接,最終進(jìn)行分類回歸操作,實(shí)現(xiàn)自適應(yīng)的特征匹配。這種方法可以更好地解決目標(biāo)遮擋問題,提高跟蹤算法的精度和魯棒性。整體結(jié)構(gòu)圖如圖5 所示。
圖5 AFMN 結(jié)構(gòu)圖Fig.5 AFMN block diagram
圖6 特征圖向量示意圖Fig.6 Schematic diagram of feature map vector
隨后,通過矩陣乘法計(jì)算向量qi和mj之間的點(diǎn)積相似度,由點(diǎn)積的幾何意義可知,兩個(gè)向量之間的點(diǎn)積結(jié)果越大,則代表兩個(gè)向量越相似,以此獲得權(quán)重矩陣wk,可表達(dá)為如式(4)所示:
式中,通過矩陣乘法的方式,實(shí)現(xiàn)了計(jì)算不同特征圖像素之間的點(diǎn)積相似度為計(jì)算獲得的2 維矩陣,其中每個(gè)元素代表了和特征圖任意兩個(gè)像素點(diǎn)之間的相似程度。隨后,使用softmax 函數(shù)對(duì)其進(jìn)行歸一化處理,為權(quán)重矩陣不同元素賦予相似度分?jǐn)?shù),將其表達(dá)為式(5)的形式,式中,exp 為指數(shù)操作,作為除數(shù)防止指數(shù)操作過程中數(shù)值溢出,θ為qi和mj的相似度夾角??梢缘贸?,wk經(jīng)過softmax 函數(shù)歸一化處理后,其中每一元素都根據(jù)相似程度被賦予不同的相似度分?jǐn)?shù),將其對(duì)進(jìn)行特征加權(quán),便可對(duì)中不同目標(biāo)特征實(shí)現(xiàn)自適應(yīng)的注意操作,可表達(dá)為如式(6)所示:
式中,為方便計(jì)算,將權(quán)重矩陣wk進(jìn)行轉(zhuǎn)置,表達(dá)為(wk)T,并與'進(jìn)行矩陣乘法計(jì)算,其中,,包含了和任意兩個(gè)特征圖像素點(diǎn)的點(diǎn)積相似度,則包含記憶幀C h個(gè)通道的特征圖像素點(diǎn)。使用權(quán)重矩陣wk對(duì)的每一通道、每一像素點(diǎn)進(jìn)行自適應(yīng)加權(quán),以關(guān)注的不同區(qū)域,并獲得概率矩陣Mk,并將其簡(jiǎn)化為式(7)。式中,cosθ,cosβ為向量點(diǎn)積之間的夾角,i,j分別為qi和mj的索引,v為mj像素點(diǎn)的索引。當(dāng)i,v=1 時(shí),代表特征圖第1 個(gè)像素點(diǎn)與第1 個(gè)通道特征圖的全部像素點(diǎn)相似度總分。當(dāng)i=HW,v=C h時(shí),代表特征圖第HW個(gè)像素點(diǎn)與第C h個(gè)通道特征圖的全部像素點(diǎn)相似度總分。
圖7 點(diǎn)積相似度計(jì)算Fig.7 Calculation of point-product similarity
其中:h為所分頭數(shù),k為頭數(shù)的索引,C,H,W分別表示矩陣的行數(shù)、列數(shù)和通道數(shù)。
通過式(8)計(jì)算得到的概率矩陣涵蓋記憶幀中所有可能目標(biāo)特征,即使目標(biāo)被部分遮擋也能自適應(yīng)檢索目標(biāo)的局部特征,并通過局部特征匹配來(lái)完成跟蹤過程。將該概率矩陣與查詢幀特征矩陣進(jìn)行拼接,可得到AFMN 模型的最終輸出Y。具體可表達(dá)為:
該輸出能夠指導(dǎo)后續(xù)的分類和跟蹤任務(wù)。具體來(lái)說(shuō),上述方法獲得的輸出能夠有效關(guān)注目標(biāo)特征信息,在進(jìn)行特征匹配時(shí)給予目標(biāo)所在區(qū)域更高的評(píng)分,從而實(shí)現(xiàn)更精確的跟蹤結(jié)果。
為有效利用歷史幀提供的目標(biāo)信息,本文算法將回歸跟蹤框后的圖像幀存儲(chǔ)在特征記憶網(wǎng)絡(luò)中。在每次跟蹤新的查詢幀時(shí),從FMN 中選擇相應(yīng)的記憶圖像,并通過骨干網(wǎng)絡(luò)進(jìn)行特征提取。由于孿生神經(jīng)網(wǎng)絡(luò)的特性,骨干網(wǎng)絡(luò)可以提取與查詢幀目標(biāo)相似的特征。將記憶特征與查詢幀特征一起輸入到AFMN 中,即使目標(biāo)被遮擋,由于AFMN 是逐像素計(jì)算相似度,因此也可以實(shí)現(xiàn)局部到局部的特征匹配。本文認(rèn)為初始幀包含最準(zhǔn)確的目標(biāo)特征,而與查詢幀相近的記憶幀包含與查詢幀最相似的特征,因此記憶幀包含第一幀和查詢幀的前一幀,余下T-2 幀通過以下公式來(lái)進(jìn)行選?。?/p>
其中:T為要選取的幀數(shù),P為當(dāng)前幀的索引,l為間隔系數(shù),即隔多少幀選取一張記憶幀,idx即為最終的記憶幀索引。通過記憶幀的選取,整個(gè)算法通過對(duì)多幀目標(biāo)位置進(jìn)行學(xué)習(xí),在目標(biāo)被完全遮擋時(shí),也可以自適應(yīng)推測(cè)目標(biāo)存在位置,并具有較高的精度。
根據(jù)文獻(xiàn)[15]閱讀發(fā)現(xiàn),無(wú)錨檢測(cè)器在檢測(cè)框的標(biāo)定和回歸方面表現(xiàn)更佳且參數(shù)更少,因此采用無(wú)錨頭網(wǎng)絡(luò)進(jìn)行分類回歸任務(wù)。如圖8 所示,該網(wǎng)絡(luò)包含分類分支、中心度分支和回歸分支,每個(gè)分支分別使用輕量級(jí)網(wǎng)絡(luò)γcls,γreg中的七個(gè)卷積層對(duì)AFMN 傳入的數(shù)據(jù)進(jìn)行處理,然后使用單個(gè)卷積層wcls,wctr,wreg將其降維以進(jìn)行分類回歸。分類分支用于目標(biāo)背景分類,中心度分支使用FCOS的中心度公式來(lái)加強(qiáng)預(yù)測(cè)框回歸效果,回歸分支直接估計(jì)目標(biāo)位置并進(jìn)行檢測(cè)框標(biāo)定。
圖8 分類回歸網(wǎng)絡(luò)Fig.8 Classification regression network
在本任務(wù)中,為解決目標(biāo)遮擋問題,采用一系列損失函數(shù)。首先,分類分支采用FocalLoss損失函數(shù),可用公式表示為:
其中:Loss表示損失函數(shù)值,N表示批次大小,H和W分別表示預(yù)測(cè)結(jié)果的高度和寬度,pij表示預(yù)測(cè)結(jié)果中位置i,j的概率,mij表示掩碼,α和γ是可調(diào)節(jié)的超參數(shù),用于表示損失的重要程度。該損失函數(shù)能夠有效應(yīng)對(duì)樣本不均衡的情況。通過調(diào)整難易樣本的權(quán)重,F(xiàn)ocalLoss 使模型更關(guān)注難以跟蹤的目標(biāo),從而提高對(duì)少數(shù)類別目標(biāo)的學(xué)習(xí)能力,進(jìn)一步提升跟蹤準(zhǔn)確性。
其次,中心度分支使用交叉熵?fù)p失函數(shù),并結(jié)合特征圖像素點(diǎn)與目標(biāo)中心點(diǎn)的距離進(jìn)行權(quán)重賦值??捎霉奖硎緸椋?/p>
其中:yi是目標(biāo)中心度的標(biāo)簽,y?i是預(yù)測(cè)的中心度值,N是樣本的數(shù)量,λ是權(quán)重參數(shù),用于調(diào)節(jié)損失值權(quán)重。通過交叉熵?fù)p失函數(shù)對(duì)比預(yù)測(cè)的中心度值和目標(biāo)中心度的標(biāo)簽值,來(lái)衡量模型的中心度預(yù)測(cè)準(zhǔn)確程度,并對(duì)背景標(biāo)簽進(jìn)行了排除。最終計(jì)算所有樣本損失的平均值,并根據(jù)權(quán)重參數(shù)進(jìn)行損失調(diào)節(jié)。這種距離加權(quán)策略能夠抑制遠(yuǎn)離目標(biāo)中心點(diǎn)的像素得分,使模型更加關(guān)注目標(biāo)的中心區(qū)域。
對(duì)于回歸分支,采用IOU 損失函數(shù)來(lái)擬合更準(zhǔn)確的預(yù)測(cè)框坐標(biāo)??捎霉奖硎緸椋?/p>
式中,IOU代表預(yù)測(cè)框與標(biāo)簽的交并比。
最后,將上述損失函數(shù)作為子損失函數(shù),采用多元交叉熵?fù)p失進(jìn)行最終的損失計(jì)算,權(quán)重比例為0.2∶0.2∶0.6。這樣的設(shè)置在文獻(xiàn)[14]中得到了論證,能夠綜合考慮分類、中心度和回歸任務(wù),使模型更好地適應(yīng)目標(biāo)跟蹤任務(wù)的特性,提升整體性能。
本文網(wǎng)絡(luò)使用GOT-10k,COCO 和LaSOT數(shù)據(jù)集進(jìn)行訓(xùn)練。骨干網(wǎng)絡(luò)采用預(yù)訓(xùn)練的Inception V3 模型,將AFMN 的h和FMN 的T都設(shè)為3,訓(xùn)練過程采用SGD 優(yōu)化器,整個(gè)訓(xùn)練過程包括20 個(gè)周期,每個(gè)周期包含38 000 個(gè)數(shù)據(jù),初始學(xué)習(xí)率設(shè)為1×10-6,在第一個(gè)周期,采用線性學(xué)習(xí)率,使其增長(zhǎng)至6×10-3,隨后兩個(gè)周期,采用余弦退火學(xué)習(xí)率,學(xué)習(xí)率從6×10-3呈余弦變化下降至1×10-6,并在后續(xù)所有周期中保持1×10-6不變。
為了全面地驗(yàn)證本文算法的有效性,在多個(gè)目標(biāo)跟蹤數(shù)據(jù)集上進(jìn)行了測(cè)試,包括OTB-2015,VOT2018,GOT-10k 和LaSOT 數(shù)據(jù)集。這些數(shù)據(jù)集具有挑戰(zhàn)性和多樣性,能夠評(píng)估算法在不同場(chǎng)景下的魯棒性和準(zhǔn)確性。
在測(cè)試中,本文算法表現(xiàn)出良好的跟蹤效果。如表1 所示,算法在OTB-2015 數(shù)據(jù)集上表現(xiàn)出色,跟蹤精度優(yōu)于大多數(shù)的跟蹤器。但在VOT2018 數(shù)據(jù)集中,如表2 所示,跟蹤準(zhǔn)確度低于絕大多數(shù)跟蹤器,魯棒性卻優(yōu)于其他跟蹤器,這是因?yàn)閂OT2018 評(píng)估工具中所提供的跟蹤框是旋轉(zhuǎn)的,而本文算法回歸的跟蹤框是平行于x軸和y軸的,因此在VOT2018 數(shù)據(jù)集中的表現(xiàn)會(huì)受到一定影響,但這也側(cè)面印證了本文算法具有良好的魯棒性。此外,如表3 所示,在GOT-10k數(shù)據(jù)集上,算法也取得很好的跟蹤效果,相比于STMTrack 算法,AO提高了1.8%,SR0.5提高了2.4%,SR0.75提高了1.9%,并且超過了平均性能水平。在LaSOT 數(shù)據(jù)集上,本文算法也表現(xiàn)出了競(jìng)爭(zhēng)力,能夠在跟蹤任務(wù)中取得良好的結(jié)果??偟膩?lái)說(shuō),本文算法在多個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果都表現(xiàn)出了較好的魯棒性和準(zhǔn)確性。同時(shí),針對(duì)目標(biāo)遮擋、目標(biāo)消失和背景干擾等情況時(shí),具有更高的魯棒性。面對(duì)復(fù)雜場(chǎng)景時(shí)的跟蹤效果在可視化分析部分進(jìn)行展示。
表1 在OTB-2015 數(shù)據(jù)集上,AFMN 與其他跟蹤器的比較Tab.1 On the OTB-2015 dataset, AFMN compares to other trackers
表2 在VOT2018數(shù)據(jù)集上,AFMN 與其他跟蹤器的比較Tab.2 AFMN compares to other trackers on VOT2018 dataset
表3 在GOT-10k 和LaSOT 數(shù)據(jù)集上,AFMN 與其他跟蹤器的比較Tab.3 AFMN compares to other trackers on GOT-10k and LaSOT dataset
為了驗(yàn)證本文算法在目標(biāo)遮擋場(chǎng)景下的性能,本節(jié)使用包含遮擋目標(biāo)的視頻序列進(jìn)行算法性能的評(píng)估和分析,將本算法與STMTrack 算法進(jìn)行對(duì)比,如圖9 所示,本文算法在面對(duì)目標(biāo)遮擋和目標(biāo)消失時(shí),仍然可以準(zhǔn)確對(duì)目標(biāo)進(jìn)行定位和跟蹤,在圖9(c)中,目標(biāo)被完全遮擋,由于本文算法是多記憶幀計(jì)算目標(biāo)相似度,網(wǎng)絡(luò)可以隱性的學(xué)習(xí)目標(biāo)運(yùn)動(dòng)趨勢(shì),進(jìn)而對(duì)目標(biāo)所在位置進(jìn)行估計(jì),所以實(shí)現(xiàn)了更準(zhǔn)確的跟蹤。這些結(jié)果表明,本文算法可以有效地解決遮擋問題,提高跟蹤精度和魯棒性。進(jìn)一步證明了本文算法在目標(biāo)遮擋狀態(tài)下的有效性。
圖9 可視化對(duì)比Fig.9 Visual comparison
同時(shí),圖10 展示了本文算法在目標(biāo)遮擋場(chǎng)景下更多的跟蹤效果,在圖10(a),圖10(c)和圖10(d)中,目標(biāo)被部分遮擋,均實(shí)現(xiàn)了準(zhǔn)確跟蹤,在圖10(b)中,目標(biāo)短時(shí)間內(nèi)完全消失,本文算法依舊自適應(yīng)推斷出了目標(biāo)位置。實(shí)驗(yàn)結(jié)果表明,本文算法在目標(biāo)遮擋狀態(tài)下具有良好的魯棒性和穩(wěn)定性。
圖10 目標(biāo)遮擋場(chǎng)景下的可視化結(jié)果Fig.10 Visualization results in the object occlusion scenario
為驗(yàn)證AFMN 中特征圖拆分份數(shù)對(duì)跟蹤結(jié)果的影響,僅在GOT-10k 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。該數(shù)據(jù)集包含超過10 000 個(gè)視頻序列,其中涵蓋了大量目標(biāo)遮擋場(chǎng)景,因此能夠有效驗(yàn)證本文算法的有效性。實(shí)驗(yàn)結(jié)果如表4 所示。
表4 h 對(duì)AO 的影響Tab.4 Influence of h on AO
根據(jù)表4 可以得出結(jié)論:當(dāng)特征圖被拆分為3 份時(shí),跟蹤效果最佳。這是因?yàn)樘卣鲌D中存在許多重復(fù)的特征通道,將其分成多份后可以進(jìn)行多個(gè)角度的相似度比較。但由于特征圖通道數(shù)有限,若份數(shù)過多,則每份所包含的目標(biāo)特征就不足以充分表達(dá)目標(biāo)特性,會(huì)忽略部分特征,從而導(dǎo)致跟蹤精度降低。
為驗(yàn)證FMN 中記憶幀數(shù)對(duì)跟蹤結(jié)果的影響,同樣在GOT-10k 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,并得到實(shí)驗(yàn)結(jié)果,如表5 所示。
表5 T 對(duì)AO 的影響Tab.5 Influence of T on AO
根據(jù)表5 的數(shù)據(jù),當(dāng)記憶幀數(shù)為3 時(shí),跟蹤效果最佳。這是因?yàn)檫^少的記憶幀無(wú)法提供足夠的目標(biāo)表觀信息,從而導(dǎo)致跟蹤結(jié)果不佳。而當(dāng)記憶幀過多時(shí),如在目標(biāo)遮擋的場(chǎng)景中,跟蹤器會(huì)更傾向于匹配相似度最高的區(qū)域,而忽略被遮擋的目標(biāo),從而導(dǎo)致跟蹤精度降低。因此,選擇適當(dāng)?shù)挠洃泿瑪?shù)可以提高跟蹤器的性能。
本文針對(duì)目標(biāo)遮擋問題提出了一種自適應(yīng)特征匹配網(wǎng)絡(luò),該網(wǎng)絡(luò)通過一個(gè)有效的模塊AFMN 對(duì)骨干網(wǎng)絡(luò)提取的特征進(jìn)行處理,并將目標(biāo)遮擋問題轉(zhuǎn)化為背景估計(jì)和目標(biāo)位置估計(jì)的聯(lián)合優(yōu)化問題,通過計(jì)算記憶幀與查詢幀的像素級(jí)相似度,將目標(biāo)和背景分別編碼,進(jìn)而確定某一區(qū)域?qū)儆诒尘盎蚰繕?biāo),以此來(lái)提高目標(biāo)跟蹤的精度和魯棒性。并且,通過特征記憶網(wǎng)絡(luò)對(duì)記憶幀進(jìn)行挑選和保存,為特征匹配提供額外的表觀信息,同時(shí)使網(wǎng)絡(luò)隱性的學(xué)習(xí)目標(biāo)運(yùn)動(dòng)趨勢(shì),進(jìn)而實(shí)現(xiàn)更好的跟蹤結(jié)果。在Got-10k 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的算法與STMTrack算法相比,AO值提升1.8%,SR0.5提升2.4%,SR0.75提升1.9%,在使用一張NVIDIA 1080Ti顯卡時(shí),運(yùn)行速度可達(dá)21 FPS。并且在處理目標(biāo)遮擋問題時(shí)具有良好的性能表現(xiàn),與當(dāng)前流行的目標(biāo)跟蹤算法相比具有更高的精度和更強(qiáng)的魯棒性。