謝郭蓉,曲 毅,蔣镕圻
1.武警工程大學(xué) 研究生大隊(duì),西安 710086
2.武警工程大學(xué) 信息工程學(xué)院,西安 710086
目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域研究的一個(gè)熱點(diǎn)方向,在智能人機(jī)交互、視覺導(dǎo)航等領(lǐng)域中應(yīng)用廣泛,它是利用圖像序列上下文信息,對(duì)目標(biāo)外觀與運(yùn)動(dòng)狀態(tài)構(gòu)建模型,并對(duì)目標(biāo)軌跡位置進(jìn)行預(yù)測(cè)與標(biāo)定的任務(wù)[1]。由于跟蹤場(chǎng)景干擾和目標(biāo)運(yùn)動(dòng)狀態(tài)具有不確定性,跟蹤面臨目標(biāo)形變、尺度變化、平面內(nèi)外旋轉(zhuǎn)、光源變化、背景雜亂、相似干擾、遮擋等挑戰(zhàn)因素,隨著跟蹤算法不斷發(fā)展,目前目標(biāo)形變、光源變化等問題已有解決方案,但緩解因遮擋導(dǎo)致的跟蹤漂移問題仍未有明顯起色,因此遮擋問題仍是目標(biāo)跟蹤的熱點(diǎn)與難點(diǎn)問題。如表1為最近VOT跟蹤算法競(jìng)賽最具挑戰(zhàn)性的前三項(xiàng)屬性場(chǎng)景的平均性能,包括遮擋(occlusion,OC)、尺度變化(size change,SC)、運(yùn)動(dòng)變化(motion change,MC)、光照變化(illumination change,IC)、相機(jī)抖動(dòng)(camera motion,CM)??梢?,遮擋作為實(shí)際場(chǎng)景中頻繁出現(xiàn)的因素,最具有挑戰(zhàn)性。
表1 VOT前三項(xiàng)最具挑戰(zhàn)屬性的平均性能Table 1 Average performance of top three most challenging attributes of VOT
跟蹤遮擋目標(biāo)極易漂移的原因主要有:(1)因遮擋物覆蓋導(dǎo)致目標(biāo)部分特征消失,此時(shí)易因模型難匹配而跟蹤失敗的問題。(2)遮擋物位置鄰近目標(biāo),可能會(huì)在候選框內(nèi)引入背景干擾信息,隨著誤差積累,模型易漂移至干擾物上。(3)當(dāng)目標(biāo)被完全遮擋時(shí),為及時(shí)檢測(cè)目標(biāo)需擴(kuò)大搜索范圍,但因引入大量干擾物導(dǎo)致模型誤判崩潰。
為實(shí)現(xiàn)模型在復(fù)雜場(chǎng)景下的穩(wěn)健跟蹤,應(yīng)特別注意模型學(xué)習(xí)更新過程中擬合的有效性。一方面,模型需要及時(shí)擬合外觀變化的目標(biāo)并更新,以防跟丟目標(biāo)對(duì)象;另一方面,要避免模型過擬合被遮擋受損樣本及相似遮擋干擾物。實(shí)際上,學(xué)習(xí)提取有效信息以構(gòu)建強(qiáng)判別力的跟蹤模型,能緩解過擬合問題;結(jié)合恰當(dāng)模型更新機(jī)制,有助于提高模型跟蹤可靠性,這些對(duì)適應(yīng)遮擋等復(fù)雜場(chǎng)景具有關(guān)鍵意義。
為提高跟蹤算法在遮擋等實(shí)際場(chǎng)景下的性能,本文首先剖析了遮擋屬性不利于跟蹤的原因,指出了提高模型抗遮擋性能的根本思路,而后基于模型構(gòu)建與學(xué)習(xí)的角度,分析了遮擋場(chǎng)景下跟蹤效果更優(yōu)算法的有效抗遮擋方案及各策略對(duì)長(zhǎng)期遮擋的適應(yīng)性,包括:(1)基于高質(zhì)訓(xùn)練樣本的跟蹤算法。引入挖掘易誤檢負(fù)樣本,提高模型抵抗遮擋等語(yǔ)義或非語(yǔ)義干擾能力;生成與管理多樣高質(zhì)正樣本,提高模型泛化性能;生成類遮擋硬陽(yáng)性樣本,針對(duì)遮擋場(chǎng)景屬性特點(diǎn),使模型學(xué)習(xí)對(duì)遮擋不敏感的魯棒特征。(2)基于有效學(xué)習(xí)策略的跟蹤算法,通過基于時(shí)間一致性學(xué)習(xí)、空間自適應(yīng)學(xué)習(xí)的穩(wěn)定模型訓(xùn)練,避免遮擋等突變樣本幀的受損信息影響模型性能;通過針對(duì)實(shí)例跟蹤任務(wù)設(shè)計(jì)有效學(xué)習(xí)策略,學(xué)習(xí)可判別形變目標(biāo)與類間類內(nèi)干擾的長(zhǎng)期魯棒特征信息,避免跟蹤期間模型漂移。(3)基于可靠更新策略的跟蹤算法,通過手工設(shè)計(jì)準(zhǔn)確置信度、自適應(yīng)決策更新時(shí)機(jī)及時(shí)檢測(cè)到遮擋等不可靠狀態(tài)后調(diào)整方案,建立時(shí)序記憶庫(kù)、自適應(yīng)估計(jì)模板更新策略校正錯(cuò)誤更新,提高長(zhǎng)期跟蹤等場(chǎng)景下模型跟蹤穩(wěn)健性;而后對(duì)各策略代表跟蹤算法在數(shù)據(jù)集上遮擋、出視野等屬性及所有序列的性能進(jìn)行比較分析,剖析了策略提升各屬性場(chǎng)景性能的本質(zhì)原因,最后總結(jié)抗遮擋策略并提出了骨干網(wǎng)替換及遷移學(xué)習(xí)場(chǎng)景理解、運(yùn)動(dòng)軌跡先驗(yàn)信息的研究方向。
目前主流跟蹤算法主要有兩類:基于深度學(xué)習(xí)跟蹤算法和基于相關(guān)濾波跟蹤算法,后者常通過結(jié)合深度特征提高模型判別力,因此這兩類算法均基于數(shù)據(jù)驅(qū)動(dòng),提升訓(xùn)練樣本質(zhì)量可獲得顯著跟蹤效果提升。實(shí)際上,許多跟蹤算法擴(kuò)充樣本集方式為目標(biāo)周圍密集采樣,這存在正樣本缺乏多樣性、正負(fù)樣本類別不均兩大問題,造成訓(xùn)練所得模型抗干擾能力、泛化性能差,易漏判被遮掩目標(biāo)視覺特征、誤判相似干擾物為正樣本。針對(duì)這些問題,構(gòu)造高質(zhì)訓(xùn)練樣本集的策略,使模型學(xué)習(xí)到可區(qū)分被遮擋目標(biāo)與干擾物判別性信息,提高跟蹤算法的抗遮擋性能。
跟蹤場(chǎng)景總存在背景環(huán)境、遮擋物和相似物等干擾信息,這使模型容易在部分遮擋時(shí)漂移至遮擋物上,在嚴(yán)重遮擋、出視野后因漂移至語(yǔ)義干擾物上而難以恢復(fù)跟蹤。實(shí)際上,限制模型抗干擾性能的原因之一,是跟蹤任務(wù)存在訓(xùn)練樣本分布不均衡的問題:(1)跟蹤視頻圖像中,跟蹤對(duì)象實(shí)例往往占比很小,存在大量非語(yǔ)義背景干擾信息,而這些大量簡(jiǎn)單負(fù)樣本易主導(dǎo)模型訓(xùn)練過程,這讓跟蹤器傾向于學(xué)習(xí)非語(yǔ)義背景與語(yǔ)義樣本差異,缺乏類間、類內(nèi)判別信息而易漂移至語(yǔ)義干擾上。(2)用于跟蹤模型離線訓(xùn)練的大規(guī)模數(shù)據(jù)集常用于分類檢測(cè)任務(wù),雖其提供了一定類間判別信息,但類內(nèi)判別信息不足,因其不完全適用跟蹤特定對(duì)象的實(shí)例級(jí)任務(wù)。
因此,提高跟蹤模型抗干擾能力的思路之一,為引入或挖掘充足的易誤檢負(fù)訓(xùn)練樣本,避免大量冗余簡(jiǎn)單負(fù)樣本主導(dǎo)學(xué)習(xí),從而引導(dǎo)模型注意判別正負(fù)語(yǔ)義樣本的特征,主要方案有:(1)改進(jìn)損失函數(shù)降低無(wú)效負(fù)樣本的影響,這類算法有文獻(xiàn)[2-4];(2)挖掘少數(shù)易誤判負(fù)樣本,這類算法有文獻(xiàn)[5-8];(3)引入真實(shí)場(chǎng)景高質(zhì)負(fù)樣本,語(yǔ)義越相似越能使模型專注細(xì)粒度特征,此類算法有文獻(xiàn)[9-10]。這些少量高質(zhì)的有效硬陰性樣本對(duì)提高模型判別力具有顯著效果,有助于在目標(biāo)遭遇嚴(yán)重遮擋、完全遮擋、出視野后,緩解跟蹤器漂移至相似干擾物上的問題,為遮擋等復(fù)雜場(chǎng)景下的長(zhǎng)時(shí)穩(wěn)定跟蹤發(fā)揮重要作用。如表2為高質(zhì)負(fù)訓(xùn)練樣本代表跟蹤算法及其策略特點(diǎn)。
表2 高質(zhì)負(fù)訓(xùn)練樣本代表跟蹤算法及其策略特點(diǎn)Table 2 Representative tracking algorithm for high quality negative training samples and strategies characteristics
應(yīng)當(dāng)指出,著眼負(fù)訓(xùn)練樣本處理的策略,目的均為學(xué)習(xí)能區(qū)分背景干擾或語(yǔ)義相似干擾的判別性特征。其中,基于設(shè)計(jì)損失函數(shù)降低大量簡(jiǎn)單負(fù)樣本主導(dǎo)影響的方式,能改善跟蹤效果的同時(shí)加快訓(xùn)練收斂速度,但若無(wú)高質(zhì)負(fù)樣本引入,其性能提升將效果有限;在線硬負(fù)樣本挖掘策略,其手動(dòng)設(shè)置的閾值有應(yīng)用場(chǎng)景局限性;引入高質(zhì)量負(fù)樣本能促使模型學(xué)習(xí)判別信息,一般數(shù)據(jù)增強(qiáng)操作,能應(yīng)對(duì)光線、尺度、平移等簡(jiǎn)單挑戰(zhàn)屬性,但最有效方案是引入類間、類內(nèi)語(yǔ)義負(fù)樣本,通過緩解非語(yǔ)義背景與語(yǔ)義干擾樣本不均衡問題,引導(dǎo)模型學(xué)習(xí)細(xì)粒度特征,更貼合跟蹤任務(wù)模型學(xué)習(xí)實(shí)例對(duì)象信息的需求。
另一方面,上述策略通過使模型專注學(xué)習(xí)語(yǔ)義正負(fù)樣本間的差異,增強(qiáng)跟蹤器抗干擾能力。但跟蹤器性能仍依賴于觀測(cè)模型的質(zhì)量,尤其在長(zhǎng)期遮擋場(chǎng)景下,會(huì)放大誤差積累作用,模型更易崩潰。實(shí)際上,硬陰性樣本引入滿足數(shù)據(jù)驅(qū)動(dòng)要求,在長(zhǎng)期部分遮擋時(shí)利于緩解判別目標(biāo)與遮擋物,在長(zhǎng)期完全遮擋下有助于緩解重檢測(cè)的漂移問題。因此,有效的負(fù)訓(xùn)練樣本處理策略,是解決短時(shí)和長(zhǎng)時(shí)遮擋問題的一種有效途徑。
在遮擋等復(fù)雜場(chǎng)景下跟蹤,一方面目標(biāo)會(huì)因自身狀態(tài)與外界干擾而發(fā)生表觀變化,另一方面遮擋物會(huì)污染原正樣本,滿足多樣性、高質(zhì)量的正訓(xùn)練樣本集,能使得模型充分學(xué)習(xí)到對(duì)遮擋、形變等不敏感特征,準(zhǔn)確判別因遮擋而表觀變化的對(duì)象。
跟蹤觀測(cè)模型魯棒性與正訓(xùn)練樣本質(zhì)量息息相關(guān),但由于采樣框內(nèi)常包含正樣本周圍的背景干擾,樣本易被遮擋、形變場(chǎng)景污染,因此正訓(xùn)練樣本質(zhì)量往往不佳。為降低受損樣本及干擾物不利影響,文獻(xiàn)[9-12]通過類裁剪操作去除采樣框內(nèi)背景干擾,文獻(xiàn)[13-15]以二值決策丟棄崩潰樣本。雖其緩和了擬合錯(cuò)誤信息問題,但其固定二值掩模及決策手段,忽略了樣本間多樣性與冗余性而丟失了許多有效信息。與其相比,算法SRDCFdecon[16]首次設(shè)計(jì)了聯(lián)合學(xué)習(xí)目標(biāo)外觀模型、訓(xùn)練樣本權(quán)重的學(xué)習(xí)函數(shù),以連續(xù)權(quán)重捕捉中度遮擋等仍含價(jià)值信息的樣本,結(jié)合對(duì)樣本重要性權(quán)重的每幀優(yōu)化更新,可重新確定樣本權(quán)重進(jìn)行錯(cuò)誤校正,其聯(lián)合學(xué)習(xí)函數(shù)如下所示:
其中,nk代表每幀平均采樣數(shù),ρk為k幀的先驗(yàn)權(quán)重,為k幀中提取的樣本,L(θ;xk,yk)為樣本損失函數(shù),R(θ)為濾波器fθ的空間正則化項(xiàng),等號(hào)右邊第二項(xiàng)為樣本權(quán)重正則項(xiàng),樣本權(quán)重αk以指數(shù)衰減最小化聯(lián)合損失,其自適應(yīng)性由參數(shù)μ控制。雖其訓(xùn)練樣本凈化策略有效提升了高質(zhì)樣本的重要性,在尺度變化,背景雜亂、遮擋等多種復(fù)雜場(chǎng)景下具有更優(yōu)的跟蹤性能,但該方法丟棄歷史幀的方式仍有可能導(dǎo)致過擬合問題,其算法迭代過程也耗時(shí)較大。
維護(hù)樣本多樣性可提升模型泛化性能。但由于跟蹤任務(wù)中僅第一幀被標(biāo)記,模型常需要本身在線采集來擴(kuò)充樣本,但由于以下問題導(dǎo)致采集正樣本缺乏有效性:空間上,密集采樣和循環(huán)移位采樣方式所得訓(xùn)練正樣本高度重合;時(shí)序上,一段相鄰幀中目標(biāo)外觀差異不大。簡(jiǎn)單暴力采樣方式一味增加了無(wú)效正訓(xùn)練樣本,損害模型泛化性,使其難判別因遮擋、平面內(nèi)外旋轉(zhuǎn)而形變的對(duì)象。有效維護(hù)樣本多樣性,學(xué)習(xí)魯棒目標(biāo)信息的方案主要分為:(1)基于組間差異最大準(zhǔn)則的樣本集建模,降低無(wú)效冗余樣本和少量突變受損樣本的負(fù)面影響,這類算法有文獻(xiàn)[17-18];(2)通過數(shù)據(jù)增強(qiáng),生成位移旋轉(zhuǎn)、形變等多類運(yùn)動(dòng)狀態(tài)的目標(biāo)樣本,學(xué)習(xí)對(duì)遮擋等形變不敏感的魯棒特征,此類算法有文獻(xiàn)[10,12,17];(3)自適應(yīng)生成有效正樣本,相比于人工設(shè)計(jì)的樣本增量方案,能提供更適用于計(jì)算機(jī)視覺判別任務(wù)的樣本信息,此類算法有文獻(xiàn)[19-20]。如表3為基于有效處理正樣本集的代表跟蹤算法及策略特點(diǎn)和場(chǎng)景適用性。
表3 基于有效正樣本集的代表跟蹤算法及特點(diǎn)Table 3 Representative tracking algorithm based on effective positive sample set and its characteristics
應(yīng)當(dāng)指出,高質(zhì)樣本有利于模型學(xué)判別特征,增強(qiáng)抵抗遮擋物、背景干擾的能力;多樣化樣本能增強(qiáng)模型泛化性能,促使模型在遮擋等場(chǎng)景下魯棒跟蹤形變對(duì)象。然而,著眼于提高樣本質(zhì)量的方案中,正負(fù)信息難完全區(qū)分,即使是利用了更充分信息的重賦值樣本方案,也無(wú)法避免過擬合問題,由于該方案未考慮跟蹤時(shí)序信息,增強(qiáng)其復(fù)雜性可能也不能帶來較大性能提升;相比前者,維持訓(xùn)練正樣本多樣性方案更貼近跟蹤任務(wù),樣本組建模方案能去冗余信息,數(shù)據(jù)增強(qiáng)能補(bǔ)充類似運(yùn)動(dòng)狀態(tài)樣本、自適應(yīng)生成方案能彌補(bǔ)訓(xùn)練數(shù)據(jù)集類別不足的問題,然而這種方案并未針對(duì)跟蹤屬性設(shè)計(jì),因此無(wú)法判斷補(bǔ)充和生成的樣本是否可靠,并且還存在耗時(shí)大的風(fēng)險(xiǎn)。
另一方面,長(zhǎng)時(shí)遮擋場(chǎng)景會(huì)為樣本在線引入長(zhǎng)期干擾信息,在線樣本組建模、凈化去污等提高樣本多樣性與質(zhì)量的策略,在較長(zhǎng)一段時(shí)間內(nèi)模型依舊會(huì)擬合這些受損樣本,通過二值掩模裁剪去除大部分背景干擾信息等操作,會(huì)因缺乏空間學(xué)習(xí)自適應(yīng)性而過擬合。離線數(shù)據(jù)增強(qiáng)、自適應(yīng)生成樣本等策略,能改善長(zhǎng)時(shí)遮擋場(chǎng)景跟蹤性能,但其依舊依賴于目標(biāo)模型的穩(wěn)健性。
訓(xùn)練數(shù)據(jù)集中,具有遮擋、形變等屬性樣本符合長(zhǎng)尾分布,可供模型學(xué)習(xí)的對(duì)遮擋不敏感信息較少。生成類遮擋樣本的策略,能通過遮掩、交換特征通道等方法模擬目標(biāo)被遮擋效果,是提高遮擋目標(biāo)跟蹤穩(wěn)健性的針對(duì)性方案,其可分為三類:降噪處理特征向量、對(duì)抗生成學(xué)習(xí)創(chuàng)建掩模、強(qiáng)化學(xué)習(xí)自適應(yīng)決策。
算法TRACA[17]基于兩種外部降噪準(zhǔn)則處理特征向量,捕獲輸入特征分布的不同結(jié)構(gòu):一是通過隨機(jī)移除固定數(shù)量通道的特征信息,讓自動(dòng)編碼器學(xué)習(xí)如何恢復(fù)受損信息;二是隨機(jī)交換空間卷積特征向量,其背景與目標(biāo)區(qū)域的特征向量交換可模擬遮擋目標(biāo),兩種處理方式能促進(jìn)模型學(xué)習(xí)對(duì)遮擋、形變等不敏感特征,但其未考慮上下文聚類與特征壓縮之間相關(guān)性,性能可能還有提升空間。
文獻(xiàn)[20-21]通過對(duì)抗生成網(wǎng)絡(luò)隨機(jī)創(chuàng)建特征遮擋掩模,自適應(yīng)丟失特征通道生成類遮擋樣本。算法AFNT[21]設(shè)計(jì)對(duì)抗融合網(wǎng)絡(luò)(AFN),其由對(duì)抗空間丟失網(wǎng)絡(luò)(ASDN)與對(duì)抗空間變換網(wǎng)絡(luò)(ASTN)組成,前者學(xué)習(xí)形變參數(shù)旋轉(zhuǎn)目標(biāo);后者作用于原始特征生成連續(xù)熱圖,結(jié)合樣本隨機(jī)性與多樣性進(jìn)行重要性采樣,生成對(duì)部分特征作置零處理的二值掩膜,提升了模型對(duì)形變、遮擋對(duì)象跟蹤的穩(wěn)健性,然而其生成的類遮擋、形變樣本仍然與實(shí)際遮擋情況有一定差距,性能提升不明顯。
相比上述方法,利用強(qiáng)化學(xué)習(xí)產(chǎn)生的硬性正樣本更貼近實(shí)際場(chǎng)景中目標(biāo)被遮擋的情況。算法SINT++[19]設(shè)計(jì)硬陽(yáng)性樣本變換網(wǎng)絡(luò)(HPTN),依據(jù)MDP馬爾科夫思路,對(duì)遮擋目標(biāo)的背景區(qū)域和遮擋目標(biāo)區(qū)域,利用強(qiáng)化學(xué)習(xí)自適應(yīng)決策最優(yōu)定位。其基于自適應(yīng)決策生成類遮擋樣本的方案具有啟發(fā)性,然而與先進(jìn)跟蹤器相比,基本跟蹤器設(shè)計(jì)較簡(jiǎn)單,導(dǎo)致跟蹤效果與時(shí)效性均存在差距。如表4所示為不同生成類遮擋樣本策略的性能比較。
表4 生成類遮擋樣本策略的性能比較Table 4 Performance comparison of occlusion-like samples generation strategies
由表4可知,模擬遮擋策略生成的類遮擋訓(xùn)練樣本對(duì)模型性能提升效果不同:隨機(jī)去除特征通道效果不大,甚至還會(huì)降低性能;降噪處理特征通道、對(duì)抗生成學(xué)習(xí)創(chuàng)建掩模、強(qiáng)化學(xué)習(xí)最優(yōu)生成遮擋區(qū)域的三種策略,相比未經(jīng)處理的算法性能有明顯提升;但對(duì)抗生成學(xué)習(xí)創(chuàng)建掩模方案生成的類遮擋樣本,還不能證明其在跟蹤任務(wù)中的可靠性;相比較而言,以降噪準(zhǔn)則將背景與目標(biāo)特征進(jìn)行交換、強(qiáng)化學(xué)習(xí)尋找最優(yōu)遮擋與被遮擋區(qū)域的兩種策略,因同時(shí)考慮了背景遮擋物干擾信息引入和因遮擋目標(biāo)表觀特征變化的情況,更貼近于跟蹤對(duì)象被遮擋的實(shí)際情況,性能提升略優(yōu)于前者;除此之外,基于生成硬陽(yáng)性樣本方案的算法性能仍依賴于跟蹤器的其他模塊。
應(yīng)當(dāng)指出,生成硬陽(yáng)性樣本是針對(duì)遮擋問題的有效策略,但對(duì)其他跟蹤挑戰(zhàn)屬性場(chǎng)景的性能改善不明顯,而長(zhǎng)期遮擋場(chǎng)景往往更加復(fù)雜,目前生成的類遮擋樣本與實(shí)際場(chǎng)景存在一定差距,因此該策略可能對(duì)長(zhǎng)期遮擋場(chǎng)景跟蹤改善有限。
由于跟蹤任務(wù)真實(shí)標(biāo)注樣本有限,算法常通過在線訓(xùn)練和預(yù)先在大規(guī)模數(shù)據(jù)集上訓(xùn)練模型或提取特征,這存在以下問題:一是部分?jǐn)?shù)據(jù)集和網(wǎng)絡(luò)框架訓(xùn)練有類間語(yǔ)義判別信息匱乏的局限,容易導(dǎo)致遮擋、背景雜亂的漂移問題;二是在線訓(xùn)練容易引入背景、遮擋物等污染信息,誤差積累導(dǎo)致模型崩潰。設(shè)計(jì)有效且穩(wěn)定的學(xué)習(xí)策略,是學(xué)習(xí)魯棒特征與提高抗語(yǔ)義干擾性能,實(shí)現(xiàn)模型在遮擋等復(fù)雜場(chǎng)景下穩(wěn)定跟蹤的有效方案。
算法在跟蹤采集樣本期間,可能會(huì)無(wú)意識(shí)引入目標(biāo)旋轉(zhuǎn)、形變等錯(cuò)位受損樣本,遮擋、相似干擾等錯(cuò)誤干擾樣本,判別性能下降。在跟蹤時(shí)期,訓(xùn)練學(xué)習(xí)的穩(wěn)定性深度影響了模型抗干擾性能與判別力強(qiáng)弱,維持模型訓(xùn)練優(yōu)化過程平穩(wěn)性的方案主要有:(1)基于時(shí)間一致性的學(xué)習(xí)策略,訓(xùn)練期間約束模板,使模型傾向歷史幀,緩解因錯(cuò)誤學(xué)習(xí)短期形變、遮擋等鄰近突變幀造成模型退化的問題,此類算法有文獻(xiàn)[22-26];(2)基于自適應(yīng)外觀學(xué)習(xí)策略,自適應(yīng)判斷學(xué)習(xí)未被遮擋的可靠區(qū)域特征信息,此類算法有文獻(xiàn)[26-27];(3)基于多模態(tài)專家的學(xué)習(xí)策略,能在遮擋時(shí)漂移或跟蹤失敗時(shí)校正模型,捕獲長(zhǎng)時(shí)序上的魯棒特征信息。此類算法有文獻(xiàn)[13,28-30]。
基于時(shí)間一致性的學(xué)習(xí),能避免模型過度依賴鄰近幀,緩解過擬合短期集中出現(xiàn)的遮擋等受損信息的問題,提高了跟蹤變化外觀較大對(duì)象的時(shí)序穩(wěn)定性,對(duì)遮擋、平面內(nèi)外旋轉(zhuǎn)等屬性應(yīng)對(duì)較好。如表5為基于時(shí)間一致性學(xué)習(xí)的代表跟蹤算法及其目標(biāo)函數(shù)、特點(diǎn)和局限。其中,D、L分別為總特征通道數(shù)和每通道特征向量元素?cái)?shù),分別代表t幀訓(xùn)練樣本、對(duì)應(yīng)d通道特征向量的濾波器權(quán)重向量、對(duì)應(yīng)第d通道特征向量的第i個(gè)元素的濾波器系數(shù)。向量y代表高斯分布期待響應(yīng),*代表空間相關(guān)操作,λ、η、λ1、λ2代表正則化參數(shù)。算法STRCF中,w?代表高斯?fàn)羁臻g權(quán)重矩陣,目的是使目標(biāo)中心有較高響應(yīng)。算法TRBACF中,P為對(duì)角二元矩陣,使相關(guān)運(yùn)算符直接應(yīng)用于真實(shí)前景與背景樣本上。應(yīng)當(dāng)指出,基于時(shí)間一致性學(xué)習(xí)算法,雖彌補(bǔ)了模型易被遮擋等劇烈形變幀污染而崩潰的問題,但忽略了視頻前后幀間物體的時(shí)序關(guān)聯(lián)信息,且改善程度受特征質(zhì)量的局限,對(duì)外觀突變屬性可能比較敏感,在較長(zhǎng)時(shí)間遮擋或形變場(chǎng)景下仍無(wú)法避免模型退化問題。
相比上述方案保持時(shí)序穩(wěn)定,空間自適應(yīng)學(xué)習(xí)策略能在部分遮擋、背景雜亂等場(chǎng)景,使模型學(xué)習(xí)可靠目標(biāo)區(qū)域而降低擬合干擾風(fēng)險(xiǎn)。預(yù)先定義空間正則化的相關(guān)濾波跟蹤器會(huì)優(yōu)先關(guān)注模板框中心,由于缺乏自適應(yīng)性而無(wú)法抵抗目標(biāo)受損區(qū)域信息[9,31]。文獻(xiàn)[26-27]引入自適應(yīng)空間正則化項(xiàng)抵抗部分遮擋,對(duì)被遮擋不可靠區(qū)域給予更大懲罰,鼓勵(lì)過濾器將注意力集中在未被遮擋的可靠區(qū)域上,學(xué)習(xí)可靠目標(biāo)空間信息。算法ASRCF自適應(yīng)空間正則化的目標(biāo)函數(shù)如下所示,其中,wr為參考權(quán)重矩陣,空間權(quán)重矩陣w具有自適應(yīng)性,其余符號(hào)釋義與表5中符號(hào)相同。
表5 基于時(shí)間一致性學(xué)習(xí)的代表跟蹤算法及特點(diǎn)Table 5 Representative tracking algorithm based on time consistent learning and its characteristics
得益于自適應(yīng)學(xué)習(xí)可靠空間信息,在雜亂、變形、遮擋等場(chǎng)景下,該類算法性能甚至優(yōu)于不少時(shí)空正則化算法,但因忽略了時(shí)序魯棒信息,性能還能進(jìn)一步提升。
上述策略以設(shè)計(jì)函數(shù)增強(qiáng)訓(xùn)練穩(wěn)定性,基于多模態(tài)專家的算法則通過維護(hù)外觀模型集合,在遮擋、平面內(nèi)外旋轉(zhuǎn)等挑戰(zhàn)場(chǎng)景下,選擇可靠模型校正錯(cuò)誤跟蹤狀態(tài)。算法TCNN[28]以樹形結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)協(xié)作管理多個(gè)外觀模型、估計(jì)目標(biāo)狀態(tài),隔離局部分支中因嚴(yán)重遮擋等造成目標(biāo)外觀劇變的視頻幀,保持可靠路徑避免模型漂移,但其候選框生成依賴前幀位置,因此應(yīng)對(duì)目標(biāo)出視野問題不佳。算法MEEM[13]提出將跟蹤器與其歷史快照構(gòu)成專家集合的多專家跟蹤框架,引入頻繁遮擋、外觀變化等錯(cuò)誤圖像樣本時(shí),檢測(cè)到專家間出現(xiàn)分歧后,以最小熵準(zhǔn)則選擇最佳專家,無(wú)需先驗(yàn)知識(shí)就可恢復(fù)并校正當(dāng)前跟蹤模型。算法MCCT[29]提出維護(hù)管理不同外觀的多線索跟蹤器框架,各專家融合不同特征,每幀均挑選最佳專家輸出跟蹤結(jié)果,由于多線索框架挑選各場(chǎng)景最適應(yīng)的目標(biāo)表征,因此改善了遮擋場(chǎng)景的性能,然而由于基本專家跟蹤器簡(jiǎn)單,不易抵抗相似語(yǔ)義干擾。
應(yīng)當(dāng)指出,上述三種策略既能保持外觀多樣性,又可緩解遮擋形變物污染模型的問題。其中,時(shí)間一致性學(xué)習(xí)策略通過約束模板突變,減輕濾波器退化問題;與其相比,空間自適應(yīng)學(xué)習(xí)策略能更靈活處理目標(biāo)區(qū)域形變、部分遮擋,其抗遮擋性能效果更優(yōu);然而,上述兩種依賴模板函數(shù)優(yōu)化提升模型訓(xùn)練穩(wěn)健性的策略,未利用跟蹤大跨度時(shí)間的時(shí)序信息,且大多適用更新模式具有風(fēng)險(xiǎn)。多模態(tài)專家策略以保留維護(hù)多模態(tài)、專家,因能校正遮擋等形變劇烈樣本幀的跟蹤而更可靠,但其性能對(duì)模態(tài)、專家成分質(zhì)量有較高要求,相應(yīng)而來的是特征信息存儲(chǔ)內(nèi)存消耗的問題。
另一方面,在長(zhǎng)期遮擋場(chǎng)景下,自適應(yīng)空間學(xué)習(xí)策略能學(xué)習(xí)判斷目標(biāo)可靠區(qū)域,能緩解遮擋時(shí)長(zhǎng)影響,捕獲可靠外觀變化,改善跟蹤器效果。然而,基于多模態(tài)專家的短期跟蹤器內(nèi)存有限,其與基于時(shí)間一致性的跟蹤器類似,防模型過擬合的范圍限于近期突變幀,而這些算法往往配合較簡(jiǎn)單更新方式,因此極易長(zhǎng)期學(xué)習(xí)錯(cuò)誤信息,誤差積累導(dǎo)致模型崩潰。
目標(biāo)跟蹤算法在線、離線訓(xùn)練特點(diǎn)不同:(1)在線訓(xùn)練可較好適應(yīng)目標(biāo)外觀模型變化,但由于真實(shí)標(biāo)注樣本少,跟蹤目標(biāo)狀態(tài)多變,判別力不足的模型在遮擋等復(fù)雜場(chǎng)景下易過擬合受損、錯(cuò)誤樣本,有耗時(shí)問題。(2)離線訓(xùn)練能以不變的目標(biāo)通用表達(dá),避免對(duì)錯(cuò)誤幀的不當(dāng)學(xué)習(xí)導(dǎo)致污染模型,對(duì)遮擋、平面內(nèi)外旋轉(zhuǎn)屬性友好。但實(shí)際跟蹤場(chǎng)景會(huì)同時(shí)出現(xiàn)多種挑戰(zhàn)屬性,僅靠離線訓(xùn)練集的固定外觀模型往往難以抵抗,且難建模任意目標(biāo)。
實(shí)際上,跟蹤算法離線訓(xùn)練或預(yù)訓(xùn)練的數(shù)據(jù)集常用于檢測(cè)分類任務(wù),但檢測(cè)與實(shí)例跟蹤存在本質(zhì)不同:一是檢測(cè)任務(wù)需區(qū)分目標(biāo)類別,比只需區(qū)分前背景差異的跟蹤任務(wù),有信息冗余;二是檢測(cè)分類任務(wù)提供類間判別信息不足,而特定對(duì)象跟蹤要求抵抗類間干擾,尤其在背景雜亂、遮擋、出視野等場(chǎng)景劣勢(shì)明顯。
因此,離線學(xué)習(xí)構(gòu)建本質(zhì)魯棒目標(biāo)模型,使其對(duì)遮擋、相似干擾等因素不敏感;在線學(xué)習(xí)防擬合錯(cuò)誤受損信息,增強(qiáng)模型訓(xùn)練過程穩(wěn)健性,是實(shí)現(xiàn)遮擋等場(chǎng)景穩(wěn)定跟蹤的本質(zhì)方案,其思路可分為:(1)特征融合策略,合理考慮融合多層、多類型特征信息應(yīng)對(duì)各類挑戰(zhàn)屬性,此類算法有文獻(xiàn)[7,12,33-35];(2)多域?qū)W習(xí)策略,以跟蹤序列數(shù)據(jù)作為訓(xùn)練樣本,多分支結(jié)構(gòu)捕獲對(duì)跟蹤各域不敏感的魯棒適用特征,此類算法有文獻(xiàn)[6,36];(3)對(duì)抗生成學(xué)習(xí)策略,學(xué)習(xí)識(shí)別長(zhǎng)期魯棒性而非判別性特征信息,此類算法有VITAL[2];(4)干擾感知學(xué)習(xí)策略,增大對(duì)相似干擾物懲罰來優(yōu)化學(xué)習(xí)樣本質(zhì)量,此類算法有文獻(xiàn)[8,10];(5)目標(biāo)感知學(xué)習(xí)策略,專注構(gòu)造特定跟蹤對(duì)象模型,更貼近實(shí)例跟蹤任務(wù),此類算法有文獻(xiàn)[35,37],如表6為利用有效學(xué)習(xí)策略的代表跟蹤算法及特點(diǎn)。
表6 基于主動(dòng)學(xué)習(xí)策略的代表跟蹤算法及特點(diǎn)Table 6 Representation methods based on aggressive learning strategies and its characteristics
應(yīng)當(dāng)指出,融合特征、多域?qū)W習(xí)等策略均著眼于構(gòu)建魯棒目標(biāo)模型,學(xué)習(xí)對(duì)遮擋等屬性不敏感信息,提高所有復(fù)雜場(chǎng)景下跟蹤穩(wěn)健性;干擾感知、目標(biāo)感知策略則側(cè)重增強(qiáng)抵抗干擾能力,彌補(bǔ)CNN網(wǎng)絡(luò)提供類內(nèi)判別信息不足的缺陷,在部分遮擋時(shí)防誤判遮擋干擾物,全遮擋時(shí)防漂移到相似物上。然而,特征融合策略的簡(jiǎn)單融合方式易引入冗余信息掩蓋特征的層次關(guān)聯(lián)信息,大量參數(shù)也會(huì)增加過擬合風(fēng)險(xiǎn);多域?qū)W習(xí)策略無(wú)法避免學(xué)習(xí)到遮擋樣本對(duì)應(yīng)的強(qiáng)判別性特征,導(dǎo)致模型退化;對(duì)抗生成學(xué)習(xí)捕獲特征相對(duì)其他策略更具有長(zhǎng)期魯棒性,但其不適用低分辨率視頻幀;干擾感知策略需配合負(fù)樣本數(shù)據(jù)增廣等手段,否則提升不明顯;目標(biāo)感知策略專注對(duì)象模型,能結(jié)合深度特征分離相同語(yǔ)義標(biāo)簽的不同對(duì)象,但其仍未利用跟蹤上下文等有效信息,選取特定通道的表征方式仍不能避免語(yǔ)義相似干擾問題。
通過有效離線學(xué)習(xí)策略提升模型魯棒性,是抵御長(zhǎng)期遮擋問題的途徑,但更關(guān)鍵的是固定相關(guān)模型要始終適應(yīng)表觀變化的目標(biāo)對(duì)象,其中多屬性學(xué)習(xí)、對(duì)抗生成學(xué)習(xí)因?qū)W習(xí)到對(duì)跟蹤場(chǎng)景不敏感信息,因此有較好效果;而采用特征融合、干擾感知、目標(biāo)感知等方案的相關(guān)算法能否長(zhǎng)期避免擬合相似語(yǔ)義干擾,仍取決于其模型穩(wěn)定性。
由于遮擋、形變、尺度變化等屬性往往同時(shí)出現(xiàn)在一段跟蹤場(chǎng)景序列中,跟蹤模型既要學(xué)習(xí)目標(biāo)外觀變化信息以防跟丟對(duì)象,也要避免擬合遮擋受損樣本和干擾信息以防漂移。除訓(xùn)練策略之外,更新策略的有效性、穩(wěn)定性同樣關(guān)鍵,尤其在長(zhǎng)期跟蹤場(chǎng)景下更新策略質(zhì)量的影響更為明顯。因此,提高遮擋目標(biāo)跟蹤穩(wěn)定性的方案思路為:通過有效決策機(jī)制為模型提供恰當(dāng)更新時(shí)機(jī),防遮擋等受損情況下的不當(dāng)更新;穩(wěn)健更新模型方案,適應(yīng)對(duì)象變化外觀的同時(shí),校準(zhǔn)漂移至遮擋等干擾的錯(cuò)誤狀態(tài)。
復(fù)雜場(chǎng)景跟蹤期間,當(dāng)檢測(cè)跟蹤結(jié)果可靠時(shí),以恰當(dāng)學(xué)習(xí)率更新目標(biāo)模型適應(yīng)變化表觀;不可靠時(shí),則認(rèn)為遭遇遮擋、出視野等情況,此時(shí)應(yīng)避免模型錯(cuò)誤更新。由此可見,能否準(zhǔn)確判別跟蹤狀態(tài)非常關(guān)鍵,其主要包括手工設(shè)計(jì)置信度及自適應(yīng)決策兩種方式。
大多數(shù)算法使用手工設(shè)計(jì)置信度指標(biāo),決策更新時(shí)機(jī)。顯然,對(duì)于依據(jù)置信度評(píng)估跟蹤狀態(tài)的更新方式,判斷跟蹤狀態(tài)越準(zhǔn)確,越有利于模型抵抗遮擋、相似干擾等樣本污染,提高更新有效性。因生成式模型與判別式模型跟蹤思路相異,其檢測(cè)置信度也不同。如表7為生成式模型與判別式模型的基本思想、代表算法與置信度指標(biāo)比較。
表7 生成式模型與判別式模型及其置信度比較Table 7 Comparison of generative model and discriminant model and their confidence
為提高對(duì)遮擋等干擾、漂移幀判斷的準(zhǔn)確性,更具針對(duì)性的置信度度量被不斷提出,主要有在其基礎(chǔ)上關(guān)聯(lián)時(shí)序信息,可檢測(cè)對(duì)應(yīng)響應(yīng)圖波動(dòng)的遮擋情況;增加質(zhì)量評(píng)估可靠性,緩解模型誤判遮擋物等語(yǔ)義樣本;結(jié)合多類型置信度判斷,通過更多關(guān)鍵信息提高多類型復(fù)雜場(chǎng)景的評(píng)估可靠性。如表8所示為代表性置信度指標(biāo)及適應(yīng)場(chǎng)景特點(diǎn)。為提高模型抗遮擋能力,應(yīng)選用可反映目標(biāo)是否處于遮擋狀態(tài)的置信度指標(biāo)。其中,最大響應(yīng)值中s、y、w分別為候選圖像、模板特征向量及濾波器權(quán)重。峰值旁瓣比(peak to sidelobe ratio,PSR)中g(shù)max為峰值響應(yīng)值,μs1、σs1分別是旁瓣的均值與標(biāo)準(zhǔn)方差。平均峰相關(guān)能量(average peak to correlation energy,APCE),Rmax、Rmin、Rw,h分別代表最大、最小、相應(yīng)像素的響應(yīng)峰值。置信圖清晰平滑度指標(biāo)與PSR與置信度平滑性(smoothness of confidence maps,SCCM)相關(guān),其公式中代表第t幀的第i部分的響應(yīng)圖,代表置信度圖的移位操作,Δ代表相鄰幀置信度最大值移位,參數(shù)η權(quán)衡置信度圖的清晰度與平滑度。定位不確定性估計(jì)指標(biāo)中PSR(rt),max(rt)分別代表相關(guān)響應(yīng)的峰值旁瓣比及峰值絕對(duì)值,為近Nq個(gè)跟蹤幀的平均定位質(zhì)量。
表8 代表置信度指標(biāo)及特點(diǎn)Table 8 Representative confidence indexes and characteristics
雖然手工設(shè)計(jì)的置信度指標(biāo)能在一定程度上改善跟蹤穩(wěn)定性,但缺乏自適應(yīng)性,判別復(fù)雜場(chǎng)景跟蹤狀態(tài)往往存在誤差。而基于自適應(yīng)學(xué)習(xí)更新決策,通過訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)最佳更新控制條件,在跟蹤時(shí)根據(jù)當(dāng)前幀更新需求判斷更新節(jié)點(diǎn),在更復(fù)雜的跟蹤場(chǎng)景能獲得更好收益,此類算法有文獻(xiàn)[19,45-46]。算法LTMU[46]采用元學(xué)習(xí)方式學(xué)習(xí)何時(shí)更新,融合了幾何、判別、外觀,結(jié)合級(jí)聯(lián)LTSM模塊挖掘時(shí)序信息,學(xué)習(xí)有效控制更新條件和決策是否繼續(xù)微調(diào)或全局搜索,在長(zhǎng)時(shí)跟蹤上得到了較大性能提升,但框架仍存在冗余和優(yōu)化空間;算法PTrack[45]將跟蹤視為部分可觀察的順序決策過程,基于數(shù)據(jù)驅(qū)動(dòng),基于強(qiáng)化學(xué)習(xí)方案學(xué)習(xí)何時(shí)更新外觀、重初始化,以跟蹤器決策動(dòng)作為研究對(duì)象,通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)最佳決策策略,雖然該算法在遮擋等場(chǎng)景下有較優(yōu)性能,然而存在數(shù)據(jù)驅(qū)動(dòng)的固有限制和較大耗時(shí)問題。
檢測(cè)跟蹤質(zhì)量狀態(tài)策略中,人工設(shè)計(jì)的置信度指標(biāo)能有效檢測(cè)到在遮擋、平面內(nèi)外旋轉(zhuǎn)等形變幀的不可靠跟蹤狀態(tài),顯著改善跟蹤器的魯棒性,但仍有較大的場(chǎng)景局限性,且因觀測(cè)模型的質(zhì)量與置信度設(shè)計(jì)相關(guān),因此有時(shí)置信度指標(biāo)高低也不能完全反映跟蹤狀態(tài);自適應(yīng)決策更新策略相比人工設(shè)計(jì)置信度,因讓模型學(xué)會(huì)判斷何時(shí)更新而可應(yīng)對(duì)長(zhǎng)時(shí)不確定性狀態(tài),在更復(fù)雜的長(zhǎng)期跟蹤場(chǎng)景,能決策模型初始化時(shí)機(jī)來處理全遮擋、長(zhǎng)時(shí)遮擋、出視野等屬性,但其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,存在時(shí)耗問題。
然而,依據(jù)時(shí)序信息判斷的置信度指標(biāo)不適用長(zhǎng)期遮擋場(chǎng)景,因?yàn)楹芸赡芤驗(yàn)橹眯哦茸兓淮蠖o予模型跟蹤結(jié)果可靠的錯(cuò)誤判斷;而自適應(yīng)決策更新或非時(shí)序置信度評(píng)估的方案,若能有效判斷遮擋等不可靠情況,此時(shí)跟蹤器能否保持長(zhǎng)期遮擋場(chǎng)景的穩(wěn)健性,取決于模型更新方案是否能繼續(xù)學(xué)習(xí)可靠區(qū)域信息,因?yàn)楹?jiǎn)單降低學(xué)習(xí)率等更新方案很可能跟不上目標(biāo)對(duì)象的變化外觀。
在遮擋、目標(biāo)出視野等復(fù)雜場(chǎng)景下,跟蹤模型不僅需要更新時(shí)機(jī)的準(zhǔn)確判斷,還需要防止不當(dāng)更新方案累計(jì)誤差。簡(jiǎn)單的線性更新策略,不僅導(dǎo)致對(duì)象信息隨時(shí)間不斷衰減,跟不上實(shí)際場(chǎng)景中對(duì)象表觀的變化速度,還容易錯(cuò)誤更新,在長(zhǎng)期跟蹤場(chǎng)景其劣勢(shì)尤為明顯。而基于時(shí)序記憶模型、自適應(yīng)估計(jì)的更新策略具備從錯(cuò)誤更新中校正恢復(fù)跟蹤狀態(tài)的優(yōu)勢(shì),改善在遮擋等困難場(chǎng)景下的跟蹤穩(wěn)健性。
對(duì)于簡(jiǎn)單經(jīng)典的更新時(shí)機(jī)條件,恰當(dāng)?shù)母路桨敢材芴岣吒櫰鞯姆€(wěn)健性:低頻更新算法,能更好抵抗環(huán)境語(yǔ)義干擾不利因素,更新方案需要專注擬合變化目標(biāo)模型,以防損失大量在線外觀信息而跟丟目標(biāo);高頻更新算法,能及時(shí)擬合對(duì)象變化表觀,更新方案需要注重的是如何從錯(cuò)誤更新中恢復(fù)校正狀態(tài),以防錯(cuò)誤累積導(dǎo)致模型崩潰。如表9為經(jīng)典更新策略的優(yōu)缺點(diǎn)分析及代表算法。
表9 經(jīng)典更新策略優(yōu)缺點(diǎn)分析及代表算法Table 9 Analysis of advantages and disadvantages and representative algorithm of typical update strategies
為保證跟蹤器在遮擋等場(chǎng)景下的整體較優(yōu)性能,那些更新決策方式簡(jiǎn)單的算法,往往會(huì)采取針對(duì)跟蹤任務(wù)設(shè)計(jì)的更新方案或觀測(cè)模型,不僅利用簡(jiǎn)單時(shí)機(jī)判別能較好適應(yīng)變化表觀的優(yōu)勢(shì),也彌補(bǔ)其易致模型錯(cuò)誤更新的缺陷。不更新模板的算法DaSiamRPN[10],其得益于相似語(yǔ)義樣本增廣及干擾感知學(xué)習(xí)策略;使用逐幀更新算法VITAL[2]以對(duì)抗生成學(xué)習(xí)等策略學(xué)習(xí)長(zhǎng)期魯棒特征,更新時(shí)聯(lián)合更新生成、分類網(wǎng)絡(luò);ECO[18]雖使用固定幀更新方式,但其基于外觀差異建模的樣本組與因式分解卷積操作,緩解了過擬合問題,且其樣本組每幀更新,可捕捉間隔幀內(nèi)的樣本變化信息。依據(jù)簡(jiǎn)單置信度更新的跟蹤算法,如算法MDNet[6]結(jié)合常規(guī)間隔長(zhǎng)期更新與置信度短期更新,算法TCNN[28]依據(jù)各節(jié)點(diǎn)可靠度沿期望路徑進(jìn)行平滑更新,它們都只更新全連接層分支參數(shù),避免過擬合問題。
文獻(xiàn)[41,58-59]通過時(shí)序模型的建立維護(hù)及有效更新管理方案,存儲(chǔ)各時(shí)序關(guān)鍵信息,在遭遇遮擋等外觀突變或跟蹤失敗時(shí)激活調(diào)用,能發(fā)揮長(zhǎng)時(shí)跟蹤中校正錯(cuò)誤更新,避免模型退化的作用。算法MUSTer[58]首次引入了ASMM記憶模型,基于時(shí)空一致性集成短時(shí)跟蹤器,以關(guān)鍵點(diǎn)匹配與RANSAC估計(jì)作為長(zhǎng)期跟蹤組件,并以內(nèi)點(diǎn)、遮擋點(diǎn)與匹配關(guān)鍵點(diǎn)的比例大小檢測(cè)有無(wú)遮擋,雖然其關(guān)鍵點(diǎn)匹配模型能適用于平面內(nèi)外旋轉(zhuǎn)、部分遮擋等屬性,但其僅對(duì)紋理特征足夠明顯的大目標(biāo)友好,對(duì)于背景雜亂、快速運(yùn)動(dòng)等場(chǎng)景有局限性;算法短期記憶庫(kù)存儲(chǔ)孿生特征,采用先進(jìn)先出的管理方式,跟蹤不可靠時(shí)清空,長(zhǎng)期記憶庫(kù)存儲(chǔ)孿生特征及語(yǔ)義特征,設(shè)置嚴(yán)格的長(zhǎng)短期記憶庫(kù)信息轉(zhuǎn)移條件,以基于遺忘曲線的更新管理策略,保證其存儲(chǔ)的特征具有長(zhǎng)期魯棒性;算法FuCoLoT[41]首次引入可有效作用于整幅圖像的相關(guān)重檢測(cè)器,通過維護(hù)管理在多時(shí)間尺度上訓(xùn)練的相關(guān)濾波檢測(cè)器組,應(yīng)對(duì)不同持續(xù)時(shí)間遮擋、目標(biāo)消失等問題,并保留不被更新的初始過濾器,可從任何潛在污染模型中恢復(fù),僅當(dāng)檢測(cè)可靠時(shí),對(duì)短時(shí)跟蹤器與檢測(cè)器組進(jìn)行線性更新。
實(shí)際上,對(duì)于離線性能較好的復(fù)雜跟蹤器,簡(jiǎn)單在線更新方案反而可能會(huì)損害其性能。相比簡(jiǎn)單更新方案,自適應(yīng)估計(jì)的更新策略對(duì)復(fù)雜場(chǎng)景具有更強(qiáng)靈活性與適應(yīng)性,可分為:(1)自適應(yīng)選擇方案,以模型或特征池的最優(yōu)選取為研究對(duì)象,能較好適應(yīng)目標(biāo)形態(tài)變化避免擬合漂移幀,此類算法有文獻(xiàn)[30,35,53,60];(2)自適應(yīng)生成模板的更新方案,在部分遮擋等形變時(shí)可局部更新可靠區(qū)域,此類算法有文獻(xiàn)[61-62]。如表10為基于自適應(yīng)估計(jì)更新策略的代表算法及其特點(diǎn)。
表10 基于自適應(yīng)估計(jì)更新策略的代表跟蹤算法Table 10 Representative tracking algorithms based on adaptive estimation update strategy
應(yīng)當(dāng)指出,那些更新方式簡(jiǎn)單仍性能較優(yōu)算法的關(guān)鍵,在于通過有效訓(xùn)練使觀測(cè)模型有較好魯棒性,從根本上避免錯(cuò)誤更新的問題。但應(yīng)對(duì)長(zhǎng)時(shí)跟蹤場(chǎng)景中嚴(yán)重遮擋、完全遮擋、出視野等屬性,必須依賴于有效可靠的更新方案。相比簡(jiǎn)單線性更新方案,基于時(shí)序記憶模型、自適應(yīng)估計(jì)的更新策略對(duì)遮擋等復(fù)雜場(chǎng)景下的跟蹤性能提升顯著,具備從錯(cuò)誤更新中校正恢復(fù)跟蹤狀態(tài)的優(yōu)勢(shì),改善在遮擋等困難場(chǎng)景下的跟蹤穩(wěn)健性。但基于時(shí)序記憶模型的更新策略仍有線性更新方案的局限性。在長(zhǎng)期跟蹤場(chǎng)景下,基于時(shí)序記憶模型及自適應(yīng)選擇的更新策略通過維護(hù)不受污模板或特征,初始化校正模型,而自適應(yīng)生成模板的更新策略雖更靈活,但可能因需復(fù)雜網(wǎng)絡(luò)設(shè)計(jì)而不如前兩者有效。
另一方面,基于時(shí)序記憶模型的策略以長(zhǎng)短期記憶庫(kù)保留目標(biāo)魯棒信息,在長(zhǎng)期遮擋后能調(diào)用關(guān)鍵信息重檢測(cè);而自適應(yīng)估計(jì)模板方案雖對(duì)歷史幀模板存在一定依賴性,但能夠局部更新可靠區(qū)域,兩者都能捕獲長(zhǎng)期目標(biāo)外觀,同時(shí)防止模型錯(cuò)誤更新問題。
為進(jìn)一步分析遮擋等場(chǎng)景下,跟蹤模型不同策略對(duì)提升算法性能的有效性,尤其對(duì)于遮擋、背景雜亂、出視野、平面內(nèi)外旋轉(zhuǎn)、形變等挑戰(zhàn)場(chǎng)景屬性的效果,選擇了如下算法在挑戰(zhàn)場(chǎng)景上性能比較:基于訓(xùn)練樣本提質(zhì)方面,選擇了硬正樣本生成SINT++、TRACA等,樣本集管理ECO、SRDCFdecon等,高質(zhì)負(fù)樣本引入BACF、DaSiamRPN等算法;學(xué)習(xí)策略方面,選擇了基于主動(dòng)學(xué)習(xí)策略的VITAL、MDNet、ANT、DaSiamRPN、TADT等,基于被動(dòng)穩(wěn)定學(xué)習(xí)策略的LADCF、MEEM、TCNN等算法;更新策略方面,選擇人工置信度評(píng)估LCT、CSRDCF等,維護(hù)記憶模型庫(kù)更新的MUSTer等,自適應(yīng)更新RDT、MemTrack等算法。如表11為各策略代表算法抗遮擋策略及相應(yīng)數(shù)據(jù)集序列上性能及遮擋等六種挑戰(zhàn)屬性序列上跟蹤成功率比較,其中OCC、BC、OV、IPR、OPR、DEF分別代表遮擋、背景雜亂、出視野、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、形變的場(chǎng)景屬性,SM、SQ、SP、SN分別代表基于多樣化樣本、高質(zhì)量樣本、硬正樣本生成、高質(zhì)負(fù)樣本引入的樣本處理策略,LAT、LAD、LAM、LA分別代表目標(biāo)感知、干擾感知、多域?qū)W習(xí)及其他主動(dòng)學(xué)習(xí)策略,LPT、LPS、LP分別代表時(shí)間一致、空間自適應(yīng)及其他被動(dòng)學(xué)習(xí)策略,LF代表語(yǔ)義特征學(xué)習(xí);UC、UM、UA分別代表人工置信度評(píng)估、基于記憶模板庫(kù)、自適應(yīng)更新策略。為比較策略有效性,引入基線算法,以S-N、LAD-N、LP-N、LF-N、U-N分別代表未采取樣本處理、未干擾感知、未被動(dòng)學(xué)習(xí)和僅用手工特征表示、簡(jiǎn)單經(jīng)典更新方法作區(qū)分。
表11 各模型學(xué)習(xí)策略代表跟蹤算法的性能比較Table 11 Performance comparison of representative methods with various model learning strategy
由表可知,對(duì)遮擋屬性而言,數(shù)據(jù)處理、學(xué)習(xí)策略方面改進(jìn)的性能提升效果明顯超過更新策略改進(jìn)方案。具體地,在訓(xùn)練數(shù)據(jù)處理方面,維護(hù)訓(xùn)練樣本多樣性的策略,對(duì)提升復(fù)雜場(chǎng)景下跟蹤穩(wěn)定性有顯著作用,與其相比,生成硬正樣本策略對(duì)遮擋目標(biāo)跟蹤效果的提升幅度差異不大,甚至其效果有時(shí)不如基于多樣性樣本管理策略的算法,負(fù)樣本挖掘?yàn)檩o助手段;在學(xué)習(xí)策略方面,設(shè)計(jì)網(wǎng)絡(luò)提取長(zhǎng)期魯棒、判別力強(qiáng)特征策略以及多域?qū)W習(xí)場(chǎng)景屬性的策略,能極大提升跟蹤準(zhǔn)確率與魯棒性,遮擋場(chǎng)景下該類算法性能相較其他也具有明顯優(yōu)勢(shì),相比之下基于干擾感知、目標(biāo)感知學(xué)習(xí)策略對(duì)性能提升稍顯遜色,但在遮擋場(chǎng)景下可較好提升跟蹤穩(wěn)定性,基于時(shí)間一致性學(xué)習(xí)策略方案在遮擋等復(fù)雜場(chǎng)景下的增強(qiáng)效果,與其學(xué)習(xí)策略設(shè)計(jì)有效性相關(guān)較大;在更新策略方面,基于手工置信度評(píng)估效果不如自適應(yīng)更新策略,基于長(zhǎng)短期記憶庫(kù)的更新策略的跟蹤效果優(yōu)于簡(jiǎn)單更新策略。
在背景雜亂、目標(biāo)消失、平面內(nèi)外旋轉(zhuǎn)、形變等其他挑戰(zhàn)場(chǎng)景屬性下,各策略有不同改善程度:(1)著眼于訓(xùn)練樣本提質(zhì)的訓(xùn)練集凈化、高質(zhì)負(fù)樣本引入策略,在背景雜亂屬性下的性能改善相較其他具有明顯優(yōu)勢(shì),在出視野屬性上提升并不顯著;(2)維持樣本多樣性的樣本集建模等策略,在背景雜亂、平面內(nèi)外旋轉(zhuǎn)、形變等屬性上都能明顯提升性能,在遮擋屬性提升相對(duì)較少;(3)硬陽(yáng)性樣本生成策略雖能改善遮擋問題,但對(duì)整體跟蹤序列上的性能提升并不明顯,但硬陽(yáng)性樣本具有形變、旋轉(zhuǎn)等屬性時(shí),對(duì)應(yīng)場(chǎng)景跟蹤性能可改善;(4)基于時(shí)間一致性學(xué)習(xí)策略在所有場(chǎng)景都能獲得較明顯改善,尤其是出視野屬性,并且在各屬性上提升程度優(yōu)于訓(xùn)練樣本去污等策略,但仍舊不如多域、多屬性等主動(dòng)學(xué)習(xí)策略;(5)除了背景雜亂屬性,適用跟蹤的主動(dòng)學(xué)習(xí)策略在遮擋、平面內(nèi)外旋轉(zhuǎn)等屬性上的性能均優(yōu)于其他方案,與其相當(dāng)?shù)倪€有空間自適應(yīng)學(xué)習(xí)策略,但目標(biāo)感知學(xué)習(xí)策略的改善程度有時(shí)不如時(shí)間一致性學(xué)習(xí)策略;(6)依據(jù)人工置信度評(píng)估更新方案的跟蹤器在背景雜亂屬性上表現(xiàn)得比其他策略更優(yōu)秀,但在遮擋、平面內(nèi)外旋轉(zhuǎn)屬性上表現(xiàn)一般,在目標(biāo)出視野、形變等屬性表現(xiàn)不佳;(7)自適應(yīng)更新策略更適用平面內(nèi)外旋轉(zhuǎn)等場(chǎng)景,在背景雜亂、遮擋等屬性上表現(xiàn)不如其他策略優(yōu)秀。
策略方案改善性能思路不同,因此對(duì)場(chǎng)景適應(yīng)性不同:(1)時(shí)間一致性訓(xùn)練、多模態(tài)專家、空間自適應(yīng)學(xué)習(xí)、置信度及自適應(yīng)更新策略為捕獲外觀同時(shí)避免擬合突變錯(cuò)誤信息,適應(yīng)遮擋、平面內(nèi)外旋轉(zhuǎn)等外觀變化重復(fù)的場(chǎng)景;(2)高質(zhì)正負(fù)樣本引入、干擾感知為提高模型抗干擾能力,適應(yīng)背景干擾、出視野后重檢測(cè)、遮擋等需要防止模型漂移的場(chǎng)景;(3)樣本多樣性管理為提高模型泛化性,適用形變、尺度變化等需捕獲對(duì)象動(dòng)態(tài)外觀場(chǎng)景;(4)多域?qū)W習(xí)、多屬性等策略構(gòu)建對(duì)適用各跟蹤屬性場(chǎng)景的模型,力圖適用各類場(chǎng)景。
實(shí)際上,應(yīng)對(duì)背景雜亂、出視野、平面內(nèi)外旋轉(zhuǎn)、形變、長(zhǎng)短時(shí)遮擋等問題各有側(cè)重:(1)應(yīng)對(duì)背景雜亂、出視野問題,要求有強(qiáng)抗干擾能力,背景雜亂屬性中主要區(qū)分紋理等特征相似的干擾,一般手工置信度就能較好判斷是否存在干擾物,訓(xùn)練樣本集凈化、高質(zhì)負(fù)樣本引入策略則從源頭提高了模型抗干擾能力;(2)出視野后恢復(fù)跟蹤,則要求模型具備判別語(yǔ)義干擾和判別可能表觀已變目標(biāo)的能力,對(duì)此時(shí)間一致性等學(xué)習(xí)策略能穩(wěn)定捕獲外觀,因此能加以改善;(3)應(yīng)對(duì)平面內(nèi)外旋轉(zhuǎn)、形變等屬性,要求目標(biāo)模型泛化性好,可擬合學(xué)習(xí)對(duì)象外觀信息,可通過樣本集多樣性管理提高泛化性,記憶庫(kù)保存重復(fù)外觀模型的方式加以改善;(4)由于遮擋樣本均為模型不應(yīng)擬合的受損對(duì)象,要求模型魯棒性好,避免擬合突變受損信息,以及抗語(yǔ)義和非語(yǔ)義干擾能力強(qiáng),不漂移到遮擋或背景干擾物上;(5)長(zhǎng)時(shí)遮擋會(huì)引入較長(zhǎng)時(shí)間的遮擋物干擾及形變對(duì)象信息,此時(shí)僅能緩解對(duì)鄰近突變幀擬合問題、關(guān)聯(lián)時(shí)序指標(biāo)判斷狀態(tài)的策略失效;(6)適應(yīng)所有屬性場(chǎng)景的最關(guān)鍵本質(zhì)的方案為,構(gòu)造魯棒性、判別性好的目標(biāo)模型,此時(shí)以高質(zhì)多樣訓(xùn)練樣本處理來解決數(shù)據(jù)驅(qū)動(dòng)局限,以長(zhǎng)期魯棒特征融合表征提高模型判別力,多屬性、自適應(yīng)、長(zhǎng)短期記憶庫(kù)等策略學(xué)習(xí)適用各場(chǎng)景屬性下可靠信息等方案比較有效。
本文從基于高質(zhì)訓(xùn)練樣本集、有效學(xué)習(xí)策略、可靠更新策略的角度,對(duì)代表性跟蹤算法的抗遮擋模型學(xué)習(xí)策略進(jìn)行了分析,并對(duì)各方案應(yīng)對(duì)背景雜亂、出視野、長(zhǎng)短期遮擋等屬性場(chǎng)景的改善程度進(jìn)行了比較分析,指出提高算法在遮擋等場(chǎng)景下跟蹤性能的本質(zhì)方案為構(gòu)造判別力強(qiáng)的魯棒目標(biāo)模型,其中主動(dòng)學(xué)習(xí)對(duì)干擾不敏感信息的多屬性學(xué)習(xí)、對(duì)抗學(xué)習(xí)、自適應(yīng)空間學(xué)習(xí)等策略在多數(shù)復(fù)雜場(chǎng)景下優(yōu)于其他,基于時(shí)間一致性學(xué)習(xí)等策略有場(chǎng)景局限性,先進(jìn)數(shù)據(jù)處理與更新策略往往與學(xué)習(xí)策略配合,分別有助于提升目標(biāo)模型質(zhì)量和跟蹤穩(wěn)定性。目前,由于存在遮擋、目標(biāo)消失等因素,即使是先進(jìn)跟蹤算法也無(wú)法完全適用實(shí)際復(fù)雜場(chǎng)景。著眼構(gòu)建魯棒目標(biāo)模型的特征融合模塊,雖其對(duì)跟蹤性能影響最大,但因骨干網(wǎng)的固有局限,其性能提升也遭遇瓶頸。因此,通過設(shè)計(jì)適于跟蹤的骨干網(wǎng)并替換,可能會(huì)帶來較大提升。再者,相比計(jì)算機(jī)視覺,人類視覺依據(jù)對(duì)場(chǎng)景理解與目標(biāo)運(yùn)動(dòng)規(guī)律的先驗(yàn)知識(shí),可自發(fā)忽視場(chǎng)景不利干擾,在遮擋等復(fù)雜場(chǎng)景預(yù)測(cè)目標(biāo)軌跡狀態(tài)。隨著對(duì)抗生成學(xué)習(xí)、元學(xué)習(xí)方法不斷成熟,其有望捕獲場(chǎng)景及運(yùn)動(dòng)信息,遷移到長(zhǎng)期復(fù)雜跟蹤任務(wù)中為其提供充足的先驗(yàn)多維信息。