程 旭 周 琳 張毅鋒,3
(1東南大學信息科學與工程學院, 南京 210096)(2中船重工鵬力(南京)智能裝備系統(tǒng)有限公司, 南京 210003)(3南京大學計算機軟件新技術(shù)國家重點實驗室, 南京 210023)
跟蹤算法通??煞譃樯墒礁櫵惴ê团袆e式跟蹤算法兩大類[1].生成式模型是在當前時刻搜索與目標表觀特征最為相似的圖像區(qū)域作為目標跟蹤的結(jié)果,包括增量視覺跟蹤(IVT)[2]、視覺跟蹤分解[3]等;其缺點是沒有利用目標周圍的背景信息,易發(fā)生目標漂移.隨著機器學習技術(shù)的快速發(fā)展,基于判別式模型的學習跟蹤算法已成為近年來研究的熱點.該類算法將目標跟蹤闡述為二元分類問題,在跟蹤決策時利用目標周圍的背景信息,將目標從背景中分離出來,常見算法包括集成跟蹤算法[4]、多示例跟蹤算法[5]、跟蹤學習檢測算法[6]、MEEM算法[7]、SCM算法[8]等.
Wang等[9]最早將深度學習算法引入到目標跟蹤領(lǐng)域.隨著卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的發(fā)展,文獻[10]將卷積神經(jīng)網(wǎng)絡(luò)輸出50×50像素的特征圖像來表示每個像素處于目標之內(nèi)的概率.Nam等[11]提出了MDNet網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)輸出K個全連接層,對應(yīng)K個訓練的序列,通過卷積神經(jīng)網(wǎng)絡(luò)學習性能強的分類器,將目標和背景分開,缺點是速度慢.Tao等[12]提出了一種通過相似性學習方式進行目標跟蹤的孿生網(wǎng)絡(luò),將訓練好的網(wǎng)絡(luò)直接應(yīng)用于跟蹤過程,無需更新.Zhang等[13]提出了一種不需要預(yù)訓練的卷積神經(jīng)網(wǎng)絡(luò)模型框架,與傳統(tǒng)的基于深度學習的算法相比,該算法無需大量的數(shù)據(jù)預(yù)訓練模型,設(shè)計的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡單.
本文采用對抗式生成網(wǎng)絡(luò)的結(jié)構(gòu)來跟蹤目標,從外界干擾的圖像中重構(gòu)高清晰的目標表觀.通過該算法重構(gòu)的目標圖像能夠保留原目標的結(jié)構(gòu)信息,提高目標跟蹤的效率.
生成式對抗網(wǎng)絡(luò)(generative adversarial nets,GAN)是一個“二元極小極大博弈”問題[14],其特點是2位博弈方分別由生成式網(wǎng)絡(luò)和判別式網(wǎng)絡(luò)充當.生成式網(wǎng)絡(luò)用來捕獲樣本數(shù)據(jù)的分布,生成與原始數(shù)據(jù)相似的圖像,看起來自然真實,試圖欺騙判別器;判別式網(wǎng)絡(luò)用于估計一個樣本來自于訓練數(shù)據(jù)而非生成數(shù)據(jù)的概率,判別式網(wǎng)絡(luò)試圖努力不被生成式網(wǎng)絡(luò)欺騙,從而形成競爭與對抗.GAN網(wǎng)絡(luò)模型結(jié)構(gòu)見圖1.
圖1 生成式對抗網(wǎng)絡(luò)原始模型結(jié)構(gòu)
本文利用生成式對抗網(wǎng)絡(luò)從模糊的圖像中恢復出清晰的表觀圖像.在復雜的環(huán)境下,遮擋、光照變化和目標快速運動等外界因素通常會導致目標特征難以提取或者提取的目標特征不準確,造成跟蹤目標失敗.針對上述問題,采用生成式對抗網(wǎng)絡(luò)從輸入的問題視頻幀目標Iin中重構(gòu)清晰的目標表觀If,得到高分辨率的目標表觀,再與目標模板匹配,找到精確的位置.
隨著GAN理論的不斷發(fā)展,學者們開始考慮根據(jù)各種實際問題來定義輸入分布和期望分布.例如,輸入分布為一幅低分辨率圖像,輸出分布為高分辨率的目標圖像,希望系統(tǒng)能夠?qū)W習到低分辨率圖像和高分辨率圖像之間的映射,輸出滿足一個預(yù)期的期望分布.GAN的本質(zhì)就是學習輸入和輸出兩者之間的映射.
在實際情況中,目標遮擋、尺度變化、運動模糊以及外界環(huán)境光照變化等因素直接影響著跟蹤性能.結(jié)合深度學習前沿對抗生成網(wǎng)絡(luò)(GAN)理論,本文提出了一種對抗生成網(wǎng)絡(luò)結(jié)構(gòu),生成式網(wǎng)絡(luò)G由編碼器和解碼器2個部分構(gòu)成.跟蹤時,編碼器作為目標的特征提取器;編碼器對所有可能的外界情況(遮擋、光照變化和運動模糊)采用相同的網(wǎng)絡(luò)結(jié)構(gòu),并且共享網(wǎng)絡(luò)的參數(shù)值GE(θ),而編碼器針對遮擋、光照變化和運動模糊3種不同的場景干擾,分別采用遮擋解碼器、光照變化解碼器和運動模糊解碼器完成對目標圖像的重構(gòu).為了應(yīng)對目標遮擋等情況造成的信息缺失問題,本文從不同角度定義了損失函數(shù),通過對損失函數(shù)求梯度來逐級更新生成式網(wǎng)絡(luò)G的參數(shù).將生成式網(wǎng)絡(luò)得到的圖像和真實圖像作為判別式網(wǎng)絡(luò)的訓練數(shù)據(jù)集.
圖2為本文提出的基于多損失的生成式對抗目標跟蹤算法框圖.
圖2 基于多損失的生成式對抗目標跟蹤算法框圖
本文設(shè)計的網(wǎng)絡(luò)在跟蹤過程中能夠應(yīng)對目標遮擋、光照變化、運動模糊等挑戰(zhàn).當目標發(fā)生遮擋時,利用訓練得到的生成式網(wǎng)絡(luò)G能夠從一幅遮擋的輸入圖像中重構(gòu)出清晰的目標.在ImageNet數(shù)據(jù)集上訓練生成式網(wǎng)絡(luò)G的參數(shù)θg,損失函數(shù)值最小時生成式網(wǎng)絡(luò)G的參數(shù)為
(1)
式中,N為需要訓練圖像的數(shù)目;Loss()為損失函數(shù);In,occ為第n幅遮擋的圖像;In為原始未遮擋的圖像.式(1)表示第n幅遮擋的圖像In,occ經(jīng)過生成式網(wǎng)絡(luò)G重構(gòu)后與原始未遮擋圖像的相似程度.判別式網(wǎng)絡(luò)的參數(shù)θd也可用類似方法得到.訓練得到的生成式網(wǎng)絡(luò)G能夠生成與沒有遮擋時一致的圖像,使得判別式網(wǎng)絡(luò)D難以判別是真實圖像還是生成器生成的圖像.
生成式網(wǎng)絡(luò)G由編碼器和解碼器2個部分組成(見圖2).在編碼器部分,遭受外界環(huán)境干擾的目標(遮擋目標和低分辨率目標)都會進入具有相同參數(shù)設(shè)置的編碼器進行處理,本文使用3個卷積層來降低輸入圖像幀的分辨率,每次卷積后特征數(shù)量都會翻倍增加.遮擋解碼器用于重構(gòu)遮擋的目標;光照變化解碼器用于重構(gòu)遭受光照表觀發(fā)生變化的目標;運動模糊解碼器用于重構(gòu)低分辨率的目標.網(wǎng)絡(luò)中每一層輸出作為下一層的輸入.干擾方式不同,解碼器的結(jié)構(gòu)也不盡相同.對于目標遮擋,使用與編碼器相對稱的3個轉(zhuǎn)置卷積層重構(gòu)出目標;對于低分辨率的目標,則使用4個轉(zhuǎn)置卷積層來提高圖像幀的分辨率.將泄漏線性整流作為編碼器階段的激活函數(shù),整流函數(shù)作為解碼器的激活函數(shù).判別式網(wǎng)絡(luò)D的結(jié)構(gòu)與生成式網(wǎng)絡(luò)G中的編碼器結(jié)構(gòu)類似.網(wǎng)絡(luò)結(jié)構(gòu)中具體參數(shù)見表1~表4.
表1 GAN編碼器的結(jié)構(gòu) 像素
表2 GAN遮擋的解碼器結(jié)構(gòu) 像素
表3 GAN光照變化的解碼器結(jié)構(gòu) 像素
表4 GAN運動模糊的解碼器結(jié)構(gòu) 像素
在跟蹤過程中,只采用生成式網(wǎng)絡(luò)G中的編碼器作為目標特征提取器,進而完成對目標的跟蹤.當目標遭受外界干擾導致其特征難以提取時,采用生成式網(wǎng)絡(luò)G中的解碼器重構(gòu)清晰目標.整個過程不需要更新目標模板.
訓練網(wǎng)絡(luò)參數(shù)時,將真實數(shù)據(jù)作為正樣本,生成式網(wǎng)絡(luò)G中得到的數(shù)據(jù)作為負樣本,交替訓練生成式網(wǎng)絡(luò)和判別式網(wǎng)絡(luò)的參數(shù).
本文針對不同的挑戰(zhàn)場景提出了相應(yīng)的損失函數(shù),即遮擋損失LOCC、光照變化損失LIC和運動模糊損失LMB.
通常情況下,使用Softmax作為損失函數(shù),定義為
(2)
式中,xi為第i個屬于標記yi的深度特征;α為權(quán)重;bi為第i個特征的偏置項.
本文考慮了內(nèi)容損失,即生成式網(wǎng)絡(luò)G輸出的圖像和真實訓練圖像間的歐氏距離損失,從而確保在輸入對抗網(wǎng)絡(luò)前2幅圖像的特征相似.內(nèi)容損失的數(shù)學表達式定義為
(3)
為了提高目標特征的判別能力,定義類內(nèi)損失函數(shù)Lc為
(4)
式中,ci為中心向量,通過相應(yīng)類別的特征平均值計算得到.
為了保留目標的表觀信息,使用身份保留損失函數(shù)保持模型表觀的相似性.基于解碼器的最后2個隱層定義身份保留損失為
(5)
式中,F(xiàn)i,j()為身份保留映射函數(shù).
最后,為了與原始數(shù)據(jù)的負對數(shù)似然分布相似,定義對抗損失為
(6)
式中,G(Iocc)表示遮擋的目標圖像經(jīng)過生成式網(wǎng)絡(luò)G后的輸出.
遮擋損失LOCC為
LOCC=λ1Ls+λ2Lpixel+λ4Lip+λ5Lgen
(7)
光照變化損失LIC為
LIC=λ2Lpixel+λ3Lc+λ4Lip+λ5Lgen
(8)
運動模糊損失LMB為
LMB=λ2Lpixel+λ4Lip+λ5Lgen
(9)
式中,λ1,λ2,λ3,λ4,λ5分別為Softmax損失項、內(nèi)容損失項、類內(nèi)損失、身份保留損失項和對抗損失的懲罰值.
(10)
式中,θG,E,i為編碼器第i個隱層更新前的參數(shù);γ為遮擋損失函數(shù)對編碼器第i個隱層的學習率;μ1為光照變化損失函數(shù)對編碼器第i個隱層的學習率;μ2為運動模糊函數(shù)對編碼器第i個隱層的學習率.
(11)
式中,θG,occ,i為目標遮擋解碼器第i個隱層更新前的參數(shù);γ1為目標遮擋解碼器第i個隱層參數(shù)更新的學習率.
(12)
式中,θG,ic,i為光照變化解碼器第i個隱層更新前的參數(shù);γ2為光照變化解碼器第i個隱層參數(shù)更新的學習率.
(13)
式中,θG,mb,i為運動模糊解碼器第i個隱層更新前的參數(shù);γ3為運動模糊解碼器第i個隱層參數(shù)更新的學習率.
(14)
式中,θD,i為判別式網(wǎng)絡(luò)第i個隱層更新前的參數(shù);η為判別式網(wǎng)絡(luò)第i個隱層參數(shù)更新的學習率.
(15)
式中,xi表示第i個候選目標狀態(tài);f+()表示特征提取器;N表示候選目標狀態(tài)數(shù).
實驗所選用的測試數(shù)據(jù)庫OTB100[15]中包含了豐富的挑戰(zhàn)性場景,如目標遮擋、光照和尺度的變化、運動模糊等.將本文提出的跟蹤算法與當前跟蹤領(lǐng)域主流跟蹤算法(IVT算法[2]、MIL算法[5]、TLD算法[6]、SCM算法[8]、DLT算法[9]、CNT算法[13])進行了跟蹤性能比較,每一種算法的參數(shù)設(shè)置均使用相應(yīng)文獻中的默認值.
圖3給出了目標在遮擋視頻中的跟蹤結(jié)果.Faceocc1序列中,視頻背景是靜態(tài)的,因此所有跟蹤算法都能夠成功地跟蹤目標.Faceocc2序列中,在目標遭遇變化時,CNT算法、SCM算法、DLT算法都產(chǎn)生不同程度的漂移,IVT算法、MIL算法、TLD算法甚至丟失了目標.本文算法重構(gòu)出的圖像能夠正確地跟蹤目標,避免了漂移現(xiàn)象的發(fā)生.
(a) Faceocc1序列 (b) Faceocc2序列
圖4給出了目標在光照變化時的跟蹤結(jié)果.Singer1序列中,光照強度劇烈變化使得MIL算法、IVT算法和TLD算法跟蹤失敗,其余算法能夠適應(yīng)尺度的變化從而成功跟蹤目標,且本文算法的跟蹤性能更佳.在Car4序列中,除IVT算法、MIL算法和DLT算法外,其余算法都能夠跟蹤目標,但均存在跟蹤誤差.Car11序列中,目標車輛在低照度情況下行駛,且運動中伴隨著光流變化及相機抖動引起的輕微模糊,TLD算法、SCM算法、MIL算法、DLT算法從跟蹤開始不久就產(chǎn)生漂移.
圖5給出了目標快速運動產(chǎn)生圖像模糊時的跟蹤結(jié)果.在Deer序列中,目標的快速運動導致圖像的分辨率下降.第36幀時,目標的大幅運動使得IVT算法、MIL算法、DLT算法、TLD算法、SCM算法丟失了跟蹤目標,但本文算法能夠快速捕獲和學習目標表觀的變化,成功地跟蹤目標.
(a) Singer1序列 (b) Car4序列
(c) Car11序列
圖5 目標快速運動產(chǎn)生圖像模糊時的跟蹤結(jié)果
表5 部分典型視頻序列跟蹤結(jié)果的跟蹤成功率
為了進一步驗證本文采用的損失函數(shù)對網(wǎng)絡(luò)訓練性能的影響,在測試數(shù)據(jù)庫(OTB100)中對目標遮擋、光照變化和運動模糊3類數(shù)據(jù)集上進行驗證.在每一種挑戰(zhàn)場景的損失函數(shù)中僅保留其中一項損失,結(jié)果見表6.由表可知,本文采用的損失函數(shù)對訓練出的網(wǎng)絡(luò)具有良好的魯棒性.
表6 損失函數(shù)對生成結(jié)果的跟蹤成功率
在相同實驗平臺上,對包括本文算法在內(nèi)的7種跟蹤算法的運行速度進行了分析,結(jié)果見表7.由表可知,本文算法雖未實現(xiàn)實時跟蹤,但其處理速度達到4幀/s,相比目前主流的跟蹤算法仍然處于中上水平.此外,本文算法的實現(xiàn)代碼沒有經(jīng)過優(yōu)化和并行處理,約1/2的運行時間耗費在生成式對抗網(wǎng)絡(luò)對問題圖像的重構(gòu)階段,因而其計算效率仍有進一步提升的空間.
表7 不同跟蹤算法的運行速度
1) 提出了一種對抗生成網(wǎng)絡(luò)結(jié)構(gòu),能夠從遭受外界干擾(遮擋、光照變化和運動模糊)的圖像中重構(gòu)出清晰的目標表觀,重構(gòu)目標保留了身份特征,便于對其進行特征提取.
2) 為了應(yīng)對目標遮擋等情況造成的信息缺失問題,本文從不同角度定義了損失函數(shù).將從對抗訓練得到的先驗知識與目標先驗知識相結(jié)合,精確恢復了缺失信息.
3) 選用OTB100測試數(shù)據(jù)庫對本文算法進行了驗證.實驗結(jié)果表明,在大量遮擋、光照變化和運動模糊情況下,本文算法取得了較好的跟蹤性能.
參考文獻(References)
[1] Li X, Hu W, Shen C, et al. A survey of appearance models in visual object tracking [J].ACMTransactionsonIntelligentSystemsandTechnology, 2013,4(4): 478-488.DOI:10.1145/2508037.2508039.
[2] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J].InternationalJournalofComputerVision, 2008,77(1): 125-141.DOI:10.1007/s11263-007-0075-7.
[3] Kwon J, Lee K M. Visual tracking decomposition [C]//2010IEEEConferenceonComputerVisionandPatternRecognition. San Francisco, CA, USA, 2010: 1269-1276.DOI:10.1109/cvpr.2010.5539821.
[4] Avidan S. Ensemble tracking [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2007,29(2): 261-271.DOI:10.1109/TPAMI.2007.35.
[5] Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011,33(8): 1619-1632.DOI:10.1109/TPAMI.2010.226.
[6] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012,34(7): 1409-1422. DOI:10.1109/TPAMI.2011.239.
[7] Zhang J, Ma S,Sclaroff S. MEEM: Robust tracking via multiple experts using entropy minimization [C]//2014ProceedingsofEuropeanConferenceonComputerVision. Zurich, Switzerland, 2014: 188-203.DOI:10.1007/978-3-319-10599-4_13.
[8] Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model [J].IEEETransactionsonImageProcessing, 2014,23(5): 2356-2368.DOI:10.1109/TIP.2014.2313227.
[9] Wang N,Yeung D Y. Learning a deep compact image representation for visual tracking [C]//2013AdvancesinNeuralInformationProcessingSystems. Lake Tahoe, CA,USA, 2013: 809-817.
[10] Wang N, Li S, Gupta A, et al. Transferring rich feature hierarchies for robust visual tracking [EB/OL]. (2015-04-23) [2016-02-19]. https://arxiv.org/abs/1501.04587.
[11] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking [C]//2016IEEEConferenceonComputerVisionandPatternRecognition. Las Vegas, CA,USA, 2016: 4293-4302. DOI:10.1109/cvpr.2016.465.
[12] Tao R, Gavves E, Smeulders A W M. Siamese instance search for tracking [C]//2016IEEEConferenceonComputerVisionandPatternRecognition. Las Vegas, CA,USA, 2016: 1420-1429. DOI:10.1109/cvpr.2016.158.
[13] Zhang K, Liu Q, Wu Y, et al. Robust visual tracking via convolutional networks without training [J].IEEETransactionsonImageProcessing, 2016,25(4): 1779-1792. DOI: 10.1109/TIP.2016.2531283.