李寰宇 畢篤彥 楊 源 查宇飛 覃 兵 張立朝
?
基于深度特征表達(dá)與學(xué)習(xí)的視覺(jué)跟蹤算法研究
李寰宇①②畢篤彥①楊 源*②查宇飛①覃 兵①?gòu)埩⒊?/p>
①(空軍工程大學(xué)航空航天工程學(xué)院 西安 710038)②(空軍工程大學(xué)空管領(lǐng)航學(xué)院 西安 710051)
該文針對(duì)視覺(jué)跟蹤中運(yùn)動(dòng)目標(biāo)的魯棒性跟蹤問(wèn)題,將深度學(xué)習(xí)引入視覺(jué)跟蹤領(lǐng)域,提出一種基于多層卷積濾波特征的目標(biāo)跟蹤算法。該算法利用分層學(xué)習(xí)得到的主成分分析(PCA)特征向量,對(duì)原始圖像進(jìn)行多層卷積濾波,從而提取出圖像更深層次的抽象表達(dá),然后利用巴氏距離進(jìn)行特征相似度匹配估計(jì),進(jìn)而結(jié)合粒子濾波算法實(shí)現(xiàn)目標(biāo)跟蹤。結(jié)果表明,這種多層卷積濾波提取到的特征能夠更好地表達(dá)目標(biāo),所提跟蹤算法對(duì)光照變化、遮擋、異面旋轉(zhuǎn)、攝像機(jī)抖動(dòng)都具有很好的不變性,對(duì)平面內(nèi)旋轉(zhuǎn)也具有一定的不變性,在具有此類特點(diǎn)的視頻序列上表現(xiàn)出非常好的魯棒性。
視覺(jué)跟蹤;深度學(xué)習(xí);主成分分析;卷積神經(jīng)網(wǎng)絡(luò);粒子濾波
視覺(jué)跟蹤[1]是計(jì)算機(jī)視覺(jué)領(lǐng)域中非常重要的一個(gè)研究課題,視覺(jué)跟蹤的任務(wù)是對(duì)視頻序列中的目標(biāo)狀態(tài)進(jìn)行持續(xù)推斷,實(shí)現(xiàn)視頻每一幀中的目標(biāo)定位,并在任一時(shí)刻都能夠提供完整的目標(biāo)區(qū)域。視覺(jué)跟蹤技術(shù)在無(wú)人機(jī)、精確制導(dǎo)、空中預(yù)警、戰(zhàn)場(chǎng)監(jiān)視等軍事領(lǐng)域和機(jī)器人、智能監(jiān)控、智能交通、人機(jī)交互等民用領(lǐng)域中有著十分廣泛的應(yīng)用,研究視覺(jué)跟蹤技術(shù)具有十分重要的軍事意義和現(xiàn)實(shí)意義。然而,盡管眾多研究人員做了大量的工作,提出了許多跟蹤算法用于解決視覺(jué)跟蹤問(wèn)題,但是由于光照變化、遮擋、目標(biāo)形變、攝像機(jī)抖動(dòng)等諸多因素的影響,實(shí)現(xiàn)魯棒的視覺(jué)跟蹤仍然是一件非常困難的事情。
基于目標(biāo)特征跟蹤是視覺(jué)跟蹤中最為重要的一類方法,其過(guò)程通常包括目標(biāo)位置初始化、目標(biāo)特征表達(dá)、目標(biāo)運(yùn)動(dòng)估計(jì)、候選樣本特征提取與特征匹配、目標(biāo)定位等幾個(gè)過(guò)程。以往使用的特征大多是基于人為手工設(shè)計(jì)的特征,如Gabor filter, SIFT, HOG等,手工設(shè)計(jì)特征需要設(shè)計(jì)者具備專業(yè)應(yīng)用領(lǐng)域知識(shí),因此在面對(duì)新數(shù)據(jù)新任務(wù)時(shí)手工設(shè)計(jì)特征困難較大。隨著神經(jīng)網(wǎng)絡(luò)的重新崛起[2],利用神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)特征成為突破手工設(shè)計(jì)特征局限性的可行途徑,近年來(lái)深度學(xué)習(xí)受到了前所未有的關(guān)注,諸如深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)等深度學(xué)習(xí)方法[3,4]能夠挖掘出數(shù)據(jù)的多層表征,而高層級(jí)的表征被認(rèn)為更能夠反映數(shù)據(jù)更深層的本質(zhì),這是以往手工選取特征和淺層學(xué)習(xí)特征所不能實(shí)現(xiàn)的,已有研究成果表明,在圖像識(shí)別等很多應(yīng)用領(lǐng)域,相比傳統(tǒng)特征,利用高層次特征能夠獲得非常明顯的性能提升。因此,本文在深入研究視覺(jué)跟蹤問(wèn)題的基礎(chǔ)上,將深度學(xué)習(xí)技術(shù)引用到基于目標(biāo)特征的視覺(jué)跟蹤方法中,實(shí)現(xiàn)了基于深度特征的魯棒視覺(jué)跟蹤算法。該算法利用主成分分析(PCA)與受限隱層節(jié)點(diǎn)自編碼神經(jīng)網(wǎng)絡(luò)的相似性,將取片圖像數(shù)據(jù)集的PCA特征向量作為卷積濾波器,代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)中利用BP算法學(xué)習(xí)得到的濾波器,從而實(shí)現(xiàn)一個(gè)易于求解計(jì)算的卷積神經(jīng)網(wǎng)絡(luò),進(jìn)而實(shí)現(xiàn)對(duì)原始圖像的高層次特征表征,然后利用特征匹配和粒子濾波進(jìn)一步實(shí)現(xiàn)目標(biāo)跟蹤。通過(guò)與其它傳統(tǒng)淺層跟蹤算法對(duì)比分析,結(jié)果表明利用這種深度學(xué)習(xí)特征進(jìn)行跟蹤,可以在多類視頻序列上取得非常令人滿意的結(jié)果。
2.1 卷積特征提取
卷積特征提取是處理大型圖像的一種有效方法,該方法基于自然圖像中任一部分的統(tǒng)計(jì)特性與其他部分是相同的這一固有特性,通過(guò)CNN進(jìn)行特征學(xué)習(xí),由于CNN具有權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),因此相比于將整幅圖像作為訓(xùn)練數(shù)據(jù),卷積特征提取能夠大幅降低神經(jīng)網(wǎng)絡(luò)的規(guī)模,并同時(shí)獲得一定的平移、尺度和旋轉(zhuǎn)不變性。
卷積特征提取的基本過(guò)程是首先對(duì)原始圖像進(jìn)行取片操作獲取多個(gè)較小的局部圖像,然后利用這些局部圖像作為訓(xùn)練數(shù)據(jù)構(gòu)成訓(xùn)練集,將訓(xùn)練集數(shù)據(jù)進(jìn)行白化等預(yù)處理操作后送入神經(jīng)網(wǎng)絡(luò),利用反向傳播誤差算法等進(jìn)行網(wǎng)絡(luò)參數(shù)訓(xùn)練,最后將學(xué)習(xí)得到的網(wǎng)絡(luò)作為濾波器對(duì)整幅原始圖像進(jìn)行卷積濾波,得到對(duì)應(yīng)的卷積特征。
2.2基于多層PCA卷積濾波的特征提取
主成分分析(PCA)與隱層神經(jīng)元數(shù)量受限時(shí)的自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)果之間具有高度的相似性[9,10],根據(jù)這一特點(diǎn),可以用PCA求得的原始數(shù)據(jù)的特征向量來(lái)近似代替自編碼神經(jīng)網(wǎng)絡(luò)的編碼層,從而得到一個(gè)單層前饋神經(jīng)網(wǎng)絡(luò)。進(jìn)而通過(guò)分層多次利用這一特性,就可以結(jié)合卷積濾波實(shí)現(xiàn)一個(gè)簡(jiǎn)單易求解的卷積神經(jīng)網(wǎng)絡(luò)。
圖1 取片操作示意圖
2.2.2下一次卷積濾波 對(duì)上一次PCA濾波后的全部圖像再依次執(zhí)行取片操作,然后列化合并為新的樣本集合,則對(duì)應(yīng)原始輸入圖像序列,有
圖2 兩層PCA卷積濾波
3.1跟蹤算法
前文利用分層學(xué)習(xí)得到的PCA特征向量進(jìn)行多層卷積濾波,提取到了圖像的深度學(xué)習(xí)特征,基于這種深度學(xué)習(xí)特征的粒子濾波跟蹤算法的跟蹤流程如圖3所示。圖中各步驟的具體內(nèi)容如下:
圖3 本文跟蹤算法流程
初始化:利用初始階段比較穩(wěn)定的像素匹配方式獲取若干幀數(shù)的目標(biāo)圖像序列作為原始輸入正樣本集;
匹配基準(zhǔn)特征生成:利用訓(xùn)練得到的卷積特征提取網(wǎng)絡(luò)提取正樣本集對(duì)應(yīng)的抽象特征,并用生成用于匹配的基準(zhǔn)特征;
運(yùn)動(dòng)估計(jì):根據(jù)已經(jīng)獲取的一系列圖像系列,估計(jì)目標(biāo)在下一幀中的位置,生成候選樣本集;
候選樣本特征提取:用PCA卷積網(wǎng)絡(luò)提取候選樣本的抽象特征;
特征匹配:建立一個(gè)合理的評(píng)估準(zhǔn)則,用來(lái)評(píng)估待匹配特征與基準(zhǔn)特征之間的相似度;
目標(biāo)定位:將特征匹配結(jié)果最好的候選樣本作為當(dāng)前幀中目標(biāo)的真實(shí)位置,并將其對(duì)應(yīng)圖像放入正樣本集;
更新:為保證用作匹配基準(zhǔn)的特征始終能夠正確地表征跟蹤目標(biāo)的最新?tīng)顟B(tài),并使PCA卷積特征提取網(wǎng)絡(luò)能夠擬合更多的正樣本,利用新的正樣本集對(duì)PCA網(wǎng)絡(luò)參數(shù)和匹配基準(zhǔn)特征進(jìn)行更新。
3.2 基于巴士距離的特征相似度判定
特征匹配的目的是通過(guò)構(gòu)建合理的判定標(biāo)準(zhǔn)來(lái)評(píng)估候選樣本與正樣本之間的特征相似度,進(jìn)而找到與正樣本特征最接近的候選樣本,作為新增正樣本?;诙鄬覲CA卷積濾波的深度特征學(xué)習(xí),最后輸出時(shí)采用了直方圖池化,因此從原始圖像中學(xué)習(xí)得到的抽象特征,表現(xiàn)為多組直方圖構(gòu)成的列向量。對(duì)于直方圖相似度匹配[11]問(wèn)題,其方法可分為相關(guān)度、卡方系數(shù)、相交系數(shù)和巴氏距離法等4種,鑒于巴氏距離方法具有更好的精確度,因此本文的跟蹤算法中采用了該種方法作為特征相似度判定標(biāo)準(zhǔn)?;诎褪暇嚯x的相似度計(jì)算如式(10)所示。
3.3基于粒子濾波的目標(biāo)運(yùn)動(dòng)估計(jì)
視覺(jué)跟蹤中目標(biāo)的運(yùn)動(dòng)估計(jì)[12]屬于時(shí)變系統(tǒng)狀態(tài)估計(jì)問(wèn)題,目的是通過(guò)系統(tǒng)狀態(tài)的一系列觀測(cè)值來(lái)估計(jì)運(yùn)動(dòng)目標(biāo)當(dāng)前的位置、姿態(tài)、尺度等狀態(tài)。遞推貝葉斯估計(jì)理論為解決這種狀態(tài)估計(jì)問(wèn)題提供了統(tǒng)一的理論框架,表示為
粒子濾波算法基于蒙特卡羅模擬實(shí)現(xiàn)遞推貝葉斯估計(jì),對(duì)非線性、非高斯系統(tǒng)的狀態(tài)估計(jì)問(wèn)題具有更好的適應(yīng)性,因此成為解決視覺(jué)跟蹤中運(yùn)動(dòng)估計(jì)問(wèn)題的有效方法。粒子濾波的核心思想是用一組對(duì)在狀態(tài)空間中隨機(jī)采樣粒子加權(quán)求和,來(lái)代替積分運(yùn)算近似表示目標(biāo)狀態(tài)的后驗(yàn)概率分布,即
粒子濾波算法的核心過(guò)程具體如下:
(1)重要性采樣:面對(duì)新一輪系統(tǒng)狀態(tài),根據(jù)上輪粒子濾波的結(jié)果(,)按建議分布(如高斯分布)進(jìn)行采樣,得候選樣本集:
3.4更新
更新是本文提出的跟蹤算法中非常重要的一步,好的更新能夠明顯改善跟蹤效果,使跟蹤更為魯棒。更新包含兩個(gè)內(nèi)容,網(wǎng)絡(luò)更新,和基準(zhǔn)特征更新,網(wǎng)絡(luò)更新能夠更好地?cái)M合新增正樣本圖像,減小目標(biāo)變化對(duì)跟蹤的影響,但網(wǎng)絡(luò)更新存在著一個(gè)效果與效率之間平衡的問(wèn)題;特征更新能夠避免“使用面部特征跟蹤背部圖像”這類情況的出現(xiàn),使特征匹配更為準(zhǔn)確有效。本文算法中,在特征更新時(shí)采用了遺忘因子,其計(jì)算式為
3.5算法計(jì)算量分析
本文所提跟蹤算法的主要計(jì)算量來(lái)自于求解層濾波器時(shí)的PCA計(jì)算,以及后面圖像卷積濾波處理的計(jì)算,影響計(jì)算量的主要因素包括圖像尺寸、取片尺寸、卷積濾波層數(shù)、每層濾波器個(gè)數(shù)、粒子濾波粒子數(shù)。
按照本文算法中給出的特征提取、特征匹配和運(yùn)動(dòng)估計(jì)方法,利用Matlab對(duì)Database OTB2013中的視頻序列進(jìn)行仿真分析。
4.1參數(shù)設(shè)置
仿真參數(shù)如表1所示。
表1仿真參數(shù)
相關(guān)研究結(jié)果表明[10],利用多層PCA卷積濾波在進(jìn)行圖像分類時(shí),2層PCA卷積濾波就可以獲得非常好的識(shí)別率,增加濾波器層數(shù)會(huì)帶來(lái)一些性能提升,但是效果并不明顯,而對(duì)于本文提出的跟蹤算法而言,由于增加層數(shù)會(huì)快速增大計(jì)算量,因此綜合考慮性能效果和時(shí)間效率,仿真中濾波器層數(shù)設(shè)置為2。
4.2 仿真結(jié)果
仿真結(jié)果按性質(zhì)分成定性分析和定量分析兩類,定性分析給出圖像結(jié)果,定量分析給出統(tǒng)計(jì)結(jié)果。鑒于篇幅限制,這里僅給出部分視頻序列的仿真結(jié)果,如圖4,圖5所示。圖4中,亮藍(lán)色細(xì)實(shí)線為ground truth,紅色實(shí)線為本文算法,黃色虛線為CT算法[13],綠色虛線為DFT算法[14],藍(lán)色虛線為L(zhǎng)OT算法[15]。定量分析中,將本文提出的基于多層特征學(xué)習(xí)的跟蹤算法與其它傳統(tǒng)基于淺層特征的CT, DFT, LOT, CSK[16], Struck[17], CXT[18], LSK[19], VTS[20], Frag[21], KMS[22]等算法在精確度、覆蓋率、中心位置誤差等方面進(jìn)行了比較,為便于閱讀,僅列出了其中幾種典型方法的具體對(duì)比情況,如圖5所示。
圖4 部分視頻仿真結(jié)果
圖5 與其它算法的性能比較
根據(jù)仿真結(jié)果可以看出,本文提出的基于多層特征學(xué)習(xí)的跟蹤算法在這些視頻序列上的性能,達(dá)到甚至超過(guò)了傳統(tǒng)算法的最好水平,而且整個(gè)視頻序列中呈現(xiàn)出的跟蹤效果更為穩(wěn)定,表現(xiàn)出了更好的魯棒性。
利用分層學(xué)習(xí)PCA特征向量,多層卷積濾波提取獲得的圖像特征是一種高層次的全局抽象特征,實(shí)驗(yàn)結(jié)果表明基于這種深度學(xué)習(xí)特征的粒子濾波跟蹤算法在面對(duì)光照變化、遮擋、異面旋轉(zhuǎn)、攝像機(jī)抖動(dòng)時(shí)都具有非常好的不變性,在面對(duì)平面內(nèi)旋轉(zhuǎn)時(shí)也具有一定的不變性,在整體效果上具有很好的魯棒性。
但該方法在取得優(yōu)異性能的同時(shí)也存在著一定的問(wèn)題和不足,主要體現(xiàn)在兩個(gè)方面:一是分層學(xué)習(xí)進(jìn)行多層卷積濾波的方式雖然能夠顯著提高魯棒性,但也明顯增加了運(yùn)算量,降低了實(shí)時(shí)性;二是目前采用的這種對(duì)取片圖像進(jìn)行PCA特征向量學(xué)習(xí)的方式,在應(yīng)對(duì)目標(biāo)尺度變化時(shí)顯得有些乏力。這些問(wèn)題都有待通過(guò)進(jìn)一步的研究來(lái)解決和完善。
[1] Li X, Hu W M, and Shen C H. A survey of appearance models in visual object tracking[J]., 2013, 4(4): 5801-5848.
[2] Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]., 2006, 313(5786): 504-507.
[3] Clement F, Camille C, Laurent N,Learning hierarchical features for scene labeling[J]., 2013, 35(8): 1915-1929.
[4] Alex K, Sutskever I, and Hinton G E. ImageNet classification with deep convolutional neural networks[C]. Proceedings of Advances in Neural Information Processing Systems, Lake Tahoe, 2012: 748-764.
[5] Zhou S S, Chen Q C, and Wang X L. Convolutional deep networks for visual data classification[J]., 2013, 38(11): 17-27.
[6] Abdel-Hamid O, Mohamed A R, Jiang H,.. Convolutional neural networks for speech recognition[J].,,, 2014, 22(10): 1533-1545.
[7] Chen X Y, Xiang S M, and Li C L. Vehicle detection in satellite images by hybrid deep convolutional neural networks [J]., 2014, 11(10): 1797-1801.
[8] Evgeny A S, Denis M T, and Serge N A. Comparison of regularization methods for imagenet classification with deep convolutional neural networks[J]., 2014, 6(8): 89-94.
[9] Baldi P and Hornik K. Neural networks and principal component analysis: learning from examples without local minima[J]., 1989, 2(1): 53-58.
[10] Chan Tsung-han, Jia Kui, Gao Sheng-hua,.. PCANet: a simple deep learning baseline for image classification[OL]. http://arxiv.org/abs/1404.3606, 2014.
[11] Ross D, Lim Jong-woo, and Lin Ruei-Sung. Incremental learning for robust visual tracking[J]., 2008, 77(1): 125-141.
[12] 姚志均. 一種新的空間直方圖相似性度量方法及其在目標(biāo)跟蹤中的應(yīng)用[J]. 電子與信息學(xué)報(bào), 2013, 35(7): 1644-1649.
Yao Z J. A new spatiogram similarity measure method and its application to object tracking[J].&, 2013, 35(7): 1644-1649.
[13] Zhang K H, Zhang L, and Yang M H. Real-time compressive tracking[C]. Proceedings of Europe Conference on Computer Vision, Florence, 2012: 864-877.
[14] Sevilla-Lara L and Learned-Miller E. Distribution fields for tracking[C]. IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1910-1917.
[15] Shaul O, Aharon B H, and Dan L. Locally orderless tracking[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Rhode Island, 2012: 1940-1947.
[16] Henriques J F, Caseiro R, and Martins P. High-speed tracking with kernelized correlation filters[J].
, 2015, DOI:10.1109/TPAMI.2014.2345390.
[17] Hare S, Saffari A, and Torr P H S. Struck:structured output tracking with kernels[C]. Proceedings of IEEE International Conference on Computer Vision, Colorado, 2011: 263-270.
[18] Thang Ba Dinh, Nam Vo, and Medioni G. Context tracker: exploring supporters and distracters in unconstrained environments[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1177-1184.
[19] Liu Bai-yang, Huang Jun-zhou, and Yang Lin. Robust tracking using local sparse appearance model and K-selection [C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2011: 1313-1320.
[20] Junseok K and Kyoung M. Tracking by sampling trackers[C]. Proceedings of IEEE International Conference on Computer Vision, Colorado, 2011: 1195-1202.
[21] Amit Adam, Ehud Rivlin, and Ilan Shimshoni. Robust fragments-based tracking using the integral histogram[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Colorado, 2006: 798-805.
[22] Dorin Comaniciu, Visvanathan Ramesh, and Meer P. Kernel-based object tracking[J]., 2003, 25(5): 564-577.
Research on Visual Tracking Algorithm Based on Deep Feature Expression and Learning
Li Huan-yu①②Bi Du-yan①Yang Yuan②Zha Yu-fei①Q(mào)in Bing①Zhang Li-chao①
①(,,’710038,)②(,,’710051,)
For the robustness of visual object tracking, a new tracking algorithm based on multi-stage convolution filtering feature is proposed by introducing deep learning into visual tracking. The algorithm uses the Principal Component Analysis (PCA) eigenvectors obtained by stratified learning, to extract the deeper abstract expression of the original image by multi-stage convolutional filtering. Then the Bhattacharyya distance is used to evaluate the similarity among features. Finally, particle filter algorithm is combined to realize target tracking. The result shows that the feature obtained by multi-stage convolution filtering can express target better, the proposed algorithm has a better inflexibility to illumination, covering, rotation, and camera shake, and it exhibits very good robustness in video sequence with such characteristics.
Visual tracking; Deep learning; Principal Component Analysis (PCA); Convolutional neural network; Particle filter
TP391; TP183
A
1009-5896(2015)09-2033-07
10.11999/JEIT150031
楊源 kgd_bsh@163.com
2015-01-06收到,2015-04-28改回,2015-06-29網(wǎng)絡(luò)優(yōu)先出版
國(guó)家自然科學(xué)基金(61202339, 61472443)和航空科學(xué)基金(20131996013)資助課題
李寰宇: 男,1984年生,講師,博士后,研究方向?yàn)橛?jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、模式識(shí)別
畢篤彥: 男,1962年生,教授,研究方向?yàn)閳D像處理與分析、模式識(shí)別.
楊 源: 男,1982年生,副教授,碩士生導(dǎo)師,研究方向圖像處理、計(jì)算機(jī)視覺(jué).
查宇飛: 男,1979年生,副教授,研究方向?yàn)橛?jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、模式識(shí)別.