鐘必能, 潘勝男
(1. 華僑大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021;
2. 華僑大學(xué) 計算機視覺與模式識別重點實驗室, 福建 廈門 361021)
?
選擇性搜索和多深度學(xué)習模型融合的目標跟蹤
鐘必能1,2, 潘勝男1,2
(1. 華僑大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021;
2. 華僑大學(xué) 計算機視覺與模式識別重點實驗室, 福建 廈門 361021)
摘要:提出一種基于深度學(xué)習的多模型(卷積神經(jīng)網(wǎng)絡(luò)和卷積深信度網(wǎng)絡(luò))融合目標跟蹤算法.該算法在提取候選粒子方面,使用選擇性搜索和粒子濾波的方法.CVPR2013跟蹤評價指標(50個視頻序列、30個跟蹤算法)驗證了:該算法在跟蹤中能有效地緩解目標物體由于遮擋、光照變化和尺度變化等因素造成的跟蹤丟失情況的發(fā)生.
關(guān)鍵詞:目標跟蹤; 深度學(xué)習; 多模型融合; 選擇性搜索; 評價指標
目標跟蹤是機器視覺中一個重要的研究分支,然而由于應(yīng)用場合中的一些不確定因素,要想獲得一種穩(wěn)健、魯棒又快速的跟蹤方法仍具有挑戰(zhàn)性.為了解決這個問題,近年來越來越多的學(xué)者采用多層的深度學(xué)習模型進行目標的特征提取.Fan等[1]針對跟蹤問題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的行人跟蹤法.Carneiro等[2]使用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標的表觀模型,將該模型用于超聲圖像中左心房內(nèi)膜的輪廓跟蹤.Wang等[3]提出了基于降噪自編碼器(auto-encoder)的跟蹤方法.雖然深度學(xué)習模型具有更強的物體特征表達能力,但是以上提到的跟蹤算法都是基于單線索[1-3]的.單一線索用于跟蹤方法對環(huán)境變化敏感,魯棒性不高.為了提高跟蹤算法的性能,本文提出了基于深度學(xué)習的多線索(CNN和CDBN)目標跟蹤算法;在獲取候選粒子方面,將選擇性搜索(seletive search)方法[4]和粒子濾波[5]相結(jié)合用到了跟蹤問題中.
1目標跟蹤算法
1.1算法框架
提出一種基于選擇性搜索和多深度模型融合的目標跟蹤算法.文中所用的多線索模型(CNN模型和CDBN模型)的融合辦法和具體跟蹤算法細節(jié),如圖1所示.
1.2目標表觀的建模
1.2.1CNN建模卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是深度學(xué)習的一個重要模型.它是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成[6].卷積神經(jīng)網(wǎng)絡(luò)中的每一個特征提取層(C-層)都緊跟著一個求局部平均與二次提取的下采樣層(S-層),這種特有的兩次特征提取結(jié)構(gòu),使網(wǎng)絡(luò)在識別時對輸入樣本有較高的畸變?nèi)萑棠芰?
針對輸入圖片大小設(shè)計的CNN模型結(jié)構(gòu),如圖2所示.圖2中:輸入圖片的大小為32 px×32 px;Covi對應(yīng)的是第i個卷積層;Pooli對應(yīng)的是第i個下采樣層;Kernel_size是卷積模板的大?。籗tride是每一次卷積滑動的步伐;Relu是非線性變換函數(shù);Norm是歸一化.
圖1 選擇性搜索和多深度模型融合的目標跟蹤算法框架Fig.1 Framework of the multi-clue fusion target tracking algorithm based on selective search and deep learning
圖2 CNN模型結(jié)構(gòu)圖Fig.2 Structure of CNN
1.2.2CDBN建模卷積深信度網(wǎng)絡(luò)[7-9](convolutional deep belief network,CDBN)是由多層卷積受限波爾茲曼機CRBM組成,每一個受限波爾茲曼機CRBM的基本機構(gòu)是由卷積層和采樣層構(gòu)成.
根據(jù)輸入圖片的大小和需要,設(shè)計的CDBN結(jié)構(gòu)如圖3所示.圖3中:Covi為卷積層;Kernal_size為卷積模板的大小;輸入圖片大小固定為32 px×32 px.
圖3 CDBN結(jié)構(gòu)圖Fig.3 Structure of CDBN
1.3目標運動的搜索
粒子濾波[5]是尋找一組在狀態(tài)空間中傳播的隨機樣本對概率密度函數(shù)進行近似,利用樣本均值代替積分運算,進而獲得狀態(tài)最小方差分布的過程.選擇性搜索[4]的前期工作是利用圖像分割的方法得到一些原始區(qū)域,然后使用一些合并策略將這些區(qū)域合并,得到一個層次化的區(qū)域結(jié)構(gòu),而這些結(jié)構(gòu)就包含著可能需要的物體.選擇性搜索意在找出可能的目標位置進行物體的識別和分類.與傳統(tǒng)的單一策略相比,選擇性搜索提供了多種策略;與全搜索相比,又大幅度降低了搜索空間.
1.4多模型離線訓(xùn)練階段
首先,從Tiny Images[10]數(shù)據(jù)集中挑選出65類202 932張圖片,對CNN模型進行離線訓(xùn)練;然后,用cifar-100數(shù)據(jù)集對CDBN模型進行離線訓(xùn)練.通過離線訓(xùn)練,就可以得到物體的廣義性特征.
1.5目標跟蹤算法細節(jié)
選擇性搜索和深度學(xué)習的目標跟蹤算法的詳細設(shè)計過程(圖1)為
初始化:
1. 離線訓(xùn)練:train_CNN(202 932張圖片),train_CDBN(60 000張圖片);
2. 在第一張給出的待跟蹤物體的位置處,得出s+張正例樣本和s-張負例樣本;
3. train_CNN(正負樣本);
for 1:視頻幀的最后一幀
1. 用selective search 與粒子濾波相結(jié)合,在t時刻初始化粒子;
2. 測試粒子:conf1=test_CNN(所有粒子);
3. 尋找最可信粒子:max1=max(conf1);
4. if max1 ①啟動CDBN模型:記作train_CDBN(正負樣本); ②測試所有粒子:記作conf2=test_CNBN(所有粒子); ③找出最佳位置:記作max2=max(conf2); If max2 ①train_CNN正負樣本),train_CDBN(正負樣本); ②conf1=test_CNN(所有粒子)max1=max(conf1); ③conf2=test_CDBN所有粒子)max2=max(conf2); ④max=max(max1,max2); if max>某個閾值 ①得到跟蹤目標:X=max; ②更新正負樣本:找出conf1與conf2排序后的前10個較好的圖片也作為s+,找出500張負例s-; else 放棄更新正負樣本; else ①得到跟蹤目標:X=max2; ②更新正負樣本:找出conf1與conf2排序后的前10個較好的圖片也作為s+,找出500張負例s-; else ①得到跟蹤目標:X=max1; ②更新正負樣本:找出conf1中前10個較好的圖片也作為s+,找出500張負例s-; end if 5. train_CNN(正負樣本); 6. 進入到下一張圖片,以便對這一張新的圖片進行尋找到要跟蹤的目標; 文中閾值取值為0.03(對單CNN模型進行跟蹤實驗,通過對實驗結(jié)果的統(tǒng)計和分布而選取的);正負樣本數(shù)取值為546(正樣本45(在跟蹤中得到的正樣本)+1(初始化的樣本),負樣本為500個). 2實驗部分 2.1實驗設(shè)置 算法采用Matlab語言編寫,在Intel(R) Xeon(R) E5620 2.40 GHz處理機和12 G內(nèi)存的機器上運行.粒子數(shù)設(shè)置為3 000,每一個目標物體的大小設(shè)置為32 px×32 px(用于設(shè)定正負樣本的大小,通過對視頻幀進行一定的縮放和旋轉(zhuǎn)得到),滑動窗口的大小設(shè)置為45(FIFO先進先出容器,用于存儲正例樣本).在沒有GPU加速的情況下,對像素大小為320 px×240 px的圖片,平均處理速度為每秒5幀.1個視頻幀各部分所用時間分別為:selective search 0.051 428 s;particle filtering 0.035 386 s;CNN 0.101 24 s;CDBN 0.094 31 s. 實驗對比在CVPR2013跟蹤評價指標[11]中進行.在這個評價基準中,有30個不同的跟蹤算法.2種測試方法分別為Precision Plot 和Success Plot. 2.2與其他跟蹤算法的比較 將文中算法與precision plot和success plot兩種評價方法的綜合性能進行對比.在50個視頻序列和30個跟蹤算法中進行綜合性能對比實驗,結(jié)果如圖4所示.圖4中:橫坐標代表不同評價方法對應(yīng)的閾值;縱坐標代表正確率.在這個對比實驗中,挑出了性能較好的排在前10個跟蹤算法.由圖4可知:文中算法綜合性能優(yōu)于其他跟蹤算法. (a) Precision Plot法 (b) Success Plot法圖4 綜合性能的對比Fig.4 Comparison of comprehensive performance 為了分析初始化對跟蹤算法性能的影響,對目標物體初始化進行一定的時間(TRE)和空間(SRE)擾動,具體細節(jié)見CVPR2013評價指標[11].在這種情況下,進行對比的實驗,如圖5所示.由圖5可知:基于深度學(xué)習的多模型建模方法,能夠很好地表達物體的表觀特征,適應(yīng)物體的初始化表觀變化. (a) Precision Plot of SRE (b) Precision Plot of TRE (c) Success Plot of SRE (d) Success Plot of TRE圖5 初始化對性能的影響Fig.5 Effect of initialization on the performance 跟蹤的目標物體在不同場景中,其運動屬性是不同的.不同的屬性也是檢驗跟蹤算法好壞的關(guān)鍵因素.在CVPR2013評價指標中,對11個不同屬性進行評價,結(jié)果如表1所示.由表1可知:文中的跟蹤算法(ours)在物體快速運行、運動路徑模糊等場景下,都具有一定的魯棒性. 從50個數(shù)據(jù)序列中隨機挑選出的6個序列進行顯示,結(jié)果如圖6所示.由于篇幅原因,只顯示一部分.每一個數(shù)據(jù)序列從第一針開始,每間隔40幀選出1張跟蹤圖片.由圖6可知:基于選擇性搜索和深度學(xué)習的多模型跟蹤算法在這些序列中都有著良好表現(xiàn). 表1 不同屬性性能對比 圖6 不同數(shù)據(jù)集上的跟蹤效果對比Fig.6 Comparison of the tracking results on different data sets 實驗以CNN為主模型、CDBN為輔助模型,當主模型跟蹤失敗了才會啟動輔助模型,這樣就可以提高跟蹤速度和準確率.隨機挑選CNN單模型跟蹤丟失的4個視頻序列(Football1,MotorRolling,Matrix,Soccer),針對每一個視頻序列,隨機挑選3幀圖片進行對比,其單模型與多模型的對比圖,如圖7所示.圖7中:上一行是CNN單模型跟蹤的情況,下一行對應(yīng)的是CNN與CDBN模型融合后的跟蹤效果圖.由圖7可知:CNN與CDBN模型的融合挽救了單個模型跟蹤丟失的情況的發(fā)生. (a) Football1 (b) MotorRolling (c) Matrix (d) Soccer圖7 CNN單模型和CNN與CDBN多模型融合跟蹤效果對比Fig.7 Comparison of the tracking results of CNN single model and multi-clue fusion(CNN and CDBN) model 3結(jié)束語 提出了一種基于深度學(xué)習的多模型融合目標跟蹤算法,在提出候選粒子方面,采用了性能互補的選擇性搜索方法和粒子濾波方法.研究結(jié)果表明:基于深度學(xué)習的多模型融合方法能夠提取表達能力更強的目標物體特征,從而有效地處理跟蹤中遮擋、光照變化等問題;同時,采用性能互補的選擇性搜索方法和粒子濾波方法,能更準確地在視頻序列中搜索到跟蹤中的目標粒子,從而減少跟蹤漂移問題的發(fā)生.在CVPR2013跟蹤算法的性能評價指標中驗證了文中算法能夠取得更好的跟蹤性能. 參考文獻: [1]FAN Jialue,XU Wei,WU Ying,et al.Human tracking using convolutional neural networks[J].IEEE Trans Neural Netw,2010,21(10):1610-1623. [2]CARNEIRO G,NASCIMENTO J C.Combining multiple dynamic models and deep learning architectures for tracking the left ventricle endocardium in ultrasound data[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):1649-1665. [3]WANG Naiyan,YEUNG D Y.Learning a deep compact image representation for visual tracking[C]∥Proceedings of Twenty-Seventh Annual Conference on Neural Information Processing Systems.Nevada:MIT Press,2013:5-10. [4]UIJLINGS J R R,van DE SANDE K E A,GEVERS T,et al.Selective search for object recongnition[J].International Journal of Computer Vision,2013,104(2):154-171. [5]CARREIRA J,SMINCHISESCU C.Cpmc: Automatic object segmentation using constrained parametric min-cuts[J].PAMI,2012,34(7):1312-1328. [6]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems.Washington:MIT Press,2012:2-8. [7]LEE H,LARGMAN Y,PHAM P,et al.Unsupervised feature learning for audio classification using convolutional deep belief networks[C]∥Advances in Neural Information Processing Systems.New York:MIT Press,2009:1-22. [8]HUANG G B,LEE H,LEARNED-MILLER E.Learning hierarchical representations for face verification with convolutional deep belief[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,8(6):1836-1844. [9]LEE H,GROSSE R,RANGANATH R,et al.Unsupervised learning of hierarchical representations with convolutional deep belief networks[J].Communications of the ACM,2011,54(10):95-103. [10]TORRALBA A,FERGUS R,FREEMAN W.80 million tiny images: A large data set for nonparametric object and scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1958-1970. [11]WU Yi,LIM J,YANG M H.Online object tracking: A benchmark[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE Press,2013:2-10. (責任編輯: 黃曉楠英文審校: 吳逢鐵) Multi-Clue Fusion Target Tracking Algorithm Based on Selective Search and Deep Learning ZHONG Bineng1,2, PAN Shengnan1,2 (1. College of Computer Science and Technology, Huaqiao University, Xiamen 361021, China;2. Computer Vision and Pattern Recognition Laboratory, Huaqiao University, Xiamen 361021, China) Abstract:A multi-clue tracking algorithm (convolutional neural network and convolutional deep belief network) based on deep learning was proposed. The algorithm used selective search and particle filtering method in extracting candidate particles. CVPR2013 tracking benchmark (50 video sequences, 30 tracking algorithms) verifies: the algorithm can ease the loss of tracking due to the occlusion, the change of illumination and size etc. Keywords:object tracking; deep learning; multi-clue fusion; selective search; evaluating indicator 中圖分類號:TP 301 文獻標志碼:A 基金項目:國家自然科學(xué)基金資助項目(61202299); 國家自然科學(xué)基金面上資助項目(61572205); 福建省自然科學(xué)基金資助項目(2015J01257); 福建省高校杰出青年科研人才培育計劃項目(JA13007) 通信作者:鐘必能(1981-),男,副教授,博士,主要從事計算機視覺、模式識別、目標跟蹤方面的研究.E-mail:bnzhong@hqu.edu.cn. 收稿日期:2015-06-16 doi:10.11830/ISSN.1000-5013.2016.02.0207 文章編號:1000-5013(2016)02-0207-06