許喜斌
摘 要:行人目標(biāo)跟蹤技術(shù)在現(xiàn)實(shí)生活中具有較強(qiáng)應(yīng)用性,但存在抗遮擋性弱等問題。本文利用Jetson TK1平臺(tái)的便捷性結(jié)合R-DAD(Region Decomposition and Assembly Detector)思想改進(jìn)了KCF(Kernelized Correlation Filters)跟蹤算法,實(shí)現(xiàn)對(duì)行人目標(biāo)跟蹤。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的行人目標(biāo)跟蹤算法運(yùn)算量少、性能高、速度快,具有良好的抗遮擋性和精確性。
關(guān)鍵詞:Jetson TK1平臺(tái);R-DAD;KCF;目標(biāo)跟蹤;抗遮擋性
文章編號(hào):2095-2163(2019)04-0263-05 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
0 引 言
隨著人工智能的快速發(fā)展,圖像檢測識(shí)別和目標(biāo)跟蹤技術(shù)在多個(gè)領(lǐng)域被廣泛使用,例如商業(yè)、小區(qū)安全、軍事保密和法律取證等方面的智能視頻監(jiān)控;基于5G網(wǎng)絡(luò)的智能醫(yī)療診斷;解決交通道路擁堵的智能交通監(jiān)管系統(tǒng)及自動(dòng)駕駛系統(tǒng)。
目標(biāo)檢測算法主要有基于背景建模、基于輪廓模板、基于光流法和基于底層特征等4類?;诒尘敖K惴ㄊ窍冉?dāng)前前景的背景模型,再與背景圖像模型做差分,提取運(yùn)動(dòng)前景,建立臨時(shí)塊模型,結(jié)合更新的行人檢測的背景模型實(shí)現(xiàn)行人檢測[1],該算法對(duì)動(dòng)態(tài)變化背景較為敏感,不適用復(fù)雜的動(dòng)態(tài)場景?;谳喞0宓姆椒ㄊ峭ㄟ^構(gòu)建圖像目標(biāo)物體的邊緣輪廓、灰度、紋理等信息模板,再匹配模板的方法來檢測目標(biāo)[2],該方法簡單易行,但需要構(gòu)建大量的模板才能取得較好的效果?;诠饬鞣ㄊ琴x予圖像各個(gè)像素點(diǎn)一個(gè)速度矢量形成圖像運(yùn)動(dòng)場,再根據(jù)像素點(diǎn)的速度矢量特征進(jìn)行圖像分析,獲取物體在圖像中的運(yùn)動(dòng)位置,實(shí)現(xiàn)目標(biāo)檢測[3],該方法適合分析多目標(biāo)的運(yùn)動(dòng),可以解決運(yùn)動(dòng)目標(biāo)檢測中的遮擋、重合等問題,但存在實(shí)時(shí)性差、魯棒性弱、計(jì)算方法復(fù)雜等不足?;诘讓犹卣鞯乃惴ㄊ抢梅e分圖技術(shù)進(jìn)行快速計(jì)算,但對(duì)行人目標(biāo)的表達(dá)能力不足,判別力較差。
行人檢測技術(shù)主要有基于特征提取和深度學(xué)習(xí)(Deep Learning)2種。其中對(duì)于特征提取的方法,為了更好地獲取行人圖像特征,Dalal N等人[4]采用梯度方向直方圖(HOG)特征描述子結(jié)合線性分類器支持向量機(jī)(SVM)的方法,在行人檢測方面取得了巨大的突破,但在處理遮擋問題的時(shí)候,HOG特征并不能很有效地解決遮擋問題?;谏疃葘W(xué)習(xí)方面,隨著近年來的理論和相關(guān)技術(shù)的高速發(fā)展,深度學(xué)習(xí)的行人檢測算法取得很大的突破[5-8],其檢測精度也有較大地提高,深度學(xué)習(xí)具備的自我學(xué)習(xí)特點(diǎn)可以避免復(fù)雜的特征提取和數(shù)據(jù)建模過程,很好地描述檢測目標(biāo)特性。本文基于KCF算法,結(jié)合區(qū)域分解集成的思想,改進(jìn)KCF算法提高目標(biāo)跟蹤的抗遮擋性,在NVIDIA Jetson TK1 平臺(tái)上具有良好的抗遮擋性和實(shí)時(shí)性。
1 Jetson TK1平臺(tái)
NVIDIA Jetson TK1平臺(tái)是NVIDIA針對(duì)快速開發(fā)和部署面向機(jī)器人技術(shù)、計(jì)算機(jī)視覺、醫(yī)療等領(lǐng)域的計(jì)算密集型系統(tǒng)。該平臺(tái)以NVIDIA Tegra K1 SoC 為基礎(chǔ)構(gòu)建,包含 NVIDIA KeplerTM 計(jì)算核心,且具有192 個(gè) CUDA 核心,非常適合算法的并行運(yùn)算,具體參數(shù)見表1。
Jetson TK1平臺(tái)使得計(jì)算機(jī)視覺、深度學(xué)習(xí)的計(jì)算更加高性能、低能耗,是嵌入式系統(tǒng)設(shè)計(jì)的理想平臺(tái),如圖1所示。
2 跟蹤算法
2.1 KCF算法
KCF(Kernelized Correlation Filters),即核相關(guān)濾波器方法。首先,采用循環(huán)偏移圖像矩陣,構(gòu)建出分類器的訓(xùn)練樣本,其中中間部分為正樣本,其它周邊為負(fù)樣本,使數(shù)據(jù)矩陣轉(zhuǎn)換成循環(huán)矩陣,然后,簡化循環(huán)矩陣計(jì)算,進(jìn)而求解基于循環(huán)矩陣特性的問題。該方法建立在相關(guān)濾波跟蹤算法的框架上,將FFT快速傅里葉變換轉(zhuǎn)換到頻域,從而避免矩陣求逆過程,極大地降低算法復(fù)雜度和提高跟蹤精度[9]。下面給出KCF算法的具體過程:
2.1.1 訓(xùn)練分類器
2.1.2 目標(biāo)檢測
目標(biāo)檢測的計(jì)算響應(yīng)公式為:
KCF算法目標(biāo)跟蹤流程如圖2所示。
2.2 R-DAD思想
目前主流的目標(biāo)檢測算法中以Faster-RCNN 為代表,由RPN(Region Proposals Network)生成感興趣區(qū)域RoI(Region of Interests),該算法會(huì)因目標(biāo)被遮擋或不精確的候選區(qū)域(Region Proposals)導(dǎo)致目標(biāo)檢測不準(zhǔn)確,因此,Seung-Hwan Bae 提出R-DAD(Region Decomposition and Assembly Detector),即區(qū)域分解組裝檢測器,來改善生成的候選區(qū)域[12]。圖3示出了R-DAD架構(gòu)。
在R-DAD架構(gòu)中,重新對(duì)MRP網(wǎng)絡(luò)進(jìn)行調(diào)整,對(duì)目標(biāo)進(jìn)行縮放形成多個(gè)不同尺度的候選區(qū)域,再對(duì)其分解成幾個(gè)部分,如上、下、左、右,其中,設(shè)計(jì)了一個(gè)帶有3*3的卷積濾波器區(qū)域組裝塊,讓分解的部分兩兩進(jìn)行卷積和使用ReLU函數(shù),比較得出最大單元模塊,再繼續(xù)使用RAB(Region Assembly Block),接著對(duì)分解部分的強(qiáng)響應(yīng)進(jìn)行結(jié)合,然后再學(xué)習(xí)整個(gè)對(duì)象和基于部件的特征之間的語義關(guān)系,R-DAD 網(wǎng)絡(luò)架構(gòu)主要分成MRP 和RDA 2個(gè)模塊。
2.2.1 MRP(Multi-Scale Region Proposal)模塊
MRP模塊主要是改善RPN生成的候選區(qū)域的準(zhǔn)確率。是生成多尺度的候選區(qū)域,首先用傳統(tǒng)的RPN生成一些建議框,然后用不同的縮放因子對(duì)生成出的候選區(qū)域進(jìn)行不同比例的縮小放大,從而提高候選區(qū)域的多樣性。如圖4所示,框內(nèi)分別對(duì)應(yīng)S=0.7,1,1.2的候選區(qū)域,不同尺度的區(qū)域,會(huì)導(dǎo)致部分局部大于目標(biāo)本身,也使得候選區(qū)域數(shù)量過多,導(dǎo)致無法完全利用,因此需要添加RoI的采樣層,對(duì)分?jǐn)?shù)低和跟ground truth 重疊率低的進(jìn)行篩選。因此,MRP 網(wǎng)絡(luò)生成的各種候選區(qū)域,可以進(jìn)一步適應(yīng)目標(biāo)之間因?yàn)榭臻g變化所導(dǎo)致的特征變化,進(jìn)而提高結(jié)構(gòu)的魯棒性。
2.2.2 RDA(Region Decomposition and Assembly)模塊
RDA模塊同時(shí)描述物體的全局及局部外觀,將目標(biāo)物體分為目標(biāo)區(qū)域集成和目標(biāo)分解2部分,其中,目標(biāo)分解如圖5所示,將目標(biāo)分為上、下、左、右4個(gè)部分,其中圖左邊為不同尺度的候選區(qū)域,圖右邊為物體目標(biāo)的分解區(qū)域。
對(duì)目標(biāo)進(jìn)行分解時(shí),先用線性插值2倍以上采樣之后再分解,會(huì)達(dá)到更好的效果。因?yàn)樽笥覄偤檬翘卣鲌D的左右一半,上下也是一樣,然后再送入RAB模塊,其中RAB模塊如圖6所示。
RDA模塊主要由以下2個(gè)函數(shù)表示:
R-DAD可以描述全局特征和局部特征的語義信息,在較為復(fù)雜的場景下,若目標(biāo)對(duì)象被遮擋,通過左、右、上、下模板篩選出來的特征會(huì)更加符合真實(shí)場景,使得候選區(qū)域更加可信,增強(qiáng)目標(biāo)跟蹤的抗遮擋性。
2.3 改進(jìn)KCF算法
KCF算法在各種場景的應(yīng)用中,在跟蹤效果和跟蹤速度上都表現(xiàn)的比較優(yōu)秀。但是,該算法存在無法較好解決跟蹤過程中目標(biāo)被遮擋的問題,一旦跟蹤目標(biāo)發(fā)生遮擋就容易導(dǎo)致跟蹤失敗。
本文結(jié)合R-DAD的思想,對(duì)行人目標(biāo)區(qū)域進(jìn)行全局和局部特征提取,并進(jìn)行訓(xùn)練,獲得行人目標(biāo)的局部特征,再對(duì)局部區(qū)域使用KCF跟蹤器進(jìn)行初始化并輸出響應(yīng)值,利用響應(yīng)值定位目標(biāo)局部區(qū)域的關(guān)聯(lián)響應(yīng),進(jìn)而將部分區(qū)域響應(yīng)值組合形成整體的行人目標(biāo)響應(yīng)值。局部特征提取如圖7所示。
基于R-DAD思想的KCF目標(biāo)跟蹤改進(jìn)算法描述如下:
步驟1 先將行人目標(biāo)整體檢測出來,然后對(duì)行人整體目標(biāo)進(jìn)行劃分,例如,假設(shè)整體行人目標(biāo)為X,將其等分為上、下、左、右4部分:Xl、Xr、Xu、Xd;
步驟2 對(duì)每部分都進(jìn)行特征提取,并形成相對(duì)應(yīng)的特征值:El、Er、Eu、Ed;
步驟3 將整體目標(biāo)跟蹤化為局部跟蹤,先跟蹤局部部分,即先跟蹤El,以El特征為目標(biāo)Xl作為行人目標(biāo)所在的跟蹤對(duì)象進(jìn)行跟蹤;
步驟4 當(dāng)局部目標(biāo)Xl被遮擋時(shí),跟蹤另一個(gè)局部目標(biāo)局部塊Xr,使用Er作為目標(biāo)跟蹤特征進(jìn)行跟蹤,重復(fù)步驟3;
步驟5 當(dāng)局部目標(biāo)特征失效或整體目標(biāo)被完全遮擋,則跟蹤失敗;
步驟6 算法結(jié)束。
3 實(shí)驗(yàn)結(jié)果
為了提高識(shí)別的速度,提升實(shí)驗(yàn)效果,本文在JetsonTK1平臺(tái)上調(diào)用GPU進(jìn)行行人識(shí)別運(yùn)算,對(duì)同一段行人跟蹤視頻分別用KCF算法及改進(jìn)的KCF算法進(jìn)行目標(biāo)跟蹤,對(duì)比兩者的召回率和準(zhǔn)確率,分析兩者之間的性能區(qū)別,見表2。
3.1 召回率
其中,R為召回率;TP為目標(biāo)跟蹤正確的圖像幀總數(shù);TN為含有目標(biāo)的圖像幀及跟蹤失敗的總數(shù)。召回率可以評(píng)估目標(biāo)跟蹤算法的全面性衡量及跟蹤質(zhì)量,進(jìn)而反映出算法在所有目標(biāo)出現(xiàn)的圖像中的成功跟蹤目標(biāo)的能力。
3.2 準(zhǔn)確率
其中,P為準(zhǔn)確率; TP為目標(biāo)跟蹤正確的圖像幀總數(shù); FP為目標(biāo)跟蹤錯(cuò)誤及未出現(xiàn)目標(biāo)的圖像幀總數(shù)。準(zhǔn)確率可以衡量目標(biāo)跟蹤的準(zhǔn)確性。
見表2,KCF目標(biāo)跟蹤算法的準(zhǔn)確率為???28.55%,改進(jìn)后的KCF目標(biāo)跟蹤算法的準(zhǔn)確率為48.69%,改進(jìn)后的KCF算法準(zhǔn)確率提升20.14%。KCF算法召回率為28.11%,改進(jìn)后的KCF算法召回率為46.67%,改進(jìn)后的KCF算法召回率率提升18.56%。實(shí)驗(yàn)結(jié)果表明,基于R-DAD思想改進(jìn)的KCF目標(biāo)跟蹤算法的跟蹤性能更佳、抗遮擋性更強(qiáng)、跟蹤效果更好。
4 結(jié)束語
本文基于JetsonTK1平臺(tái),利用該平臺(tái)性能高、便捷、小巧的特點(diǎn),設(shè)計(jì)了行人目標(biāo)跟蹤算法,采用KCF跟蹤算法,并利用R-DAD思想對(duì)KCF算法進(jìn)行改進(jìn),在保持KCF算法高正確率、高運(yùn)算速度、少計(jì)算量的同時(shí),提升了行人目標(biāo)跟蹤算法的抗遮擋性和跟蹤精度。
參考文獻(xiàn)
[1]WREN C, AZARBAYEJANI A, DARRELL T, et al. Real-time tracking of the human Body[C]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):781-785.
[2] 張春鳳,宋加濤,王萬良.行人檢測技術(shù)研究綜述[J]. 電視技術(shù),2014,38(3):157-162.
[3] Yalin X, Steven A S. Moment and Hyper Geometric Filter for High Precision Computation of Focus,Stereo and Optical Flow[J]. International Journal of Computer Vision,1997,22(1):25-29.
[4] Dalal N,Triggs B. Histograms of oriented gradients for human detection[C]∥ 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,CVPR 2005,IEEE,2005:886-893.
[5] Tian Y,Luo P,Wang X,et al. Pedestrian detection aided by deeplearning semantic tasks[EB/OL]. ar Xiv preprint ar Xiv:1412. 0069,2014.
[6] Ouyang W,Wang X. Joint deep learning for pedestrian detection[C]. Computer Vision ( ICCV) ,2013 IEEE International Confe-rence on. IEEE,2013:2056-2063.
[7] Sermanet P,Kavukcuoglu K,Chintala S,et al. Pedestrian detectionwith unsupervised multi-stage feature learning[C]. Computer Visionand Pattern Recognition (CVPR) ,2013 IEEE Conference on.IEEE,2013:3626-3633.
[8] Luo P,Tian Y,Wang X,et al. Switchable deep network for pedes-trian detection [C]. Computer Vision and Pattern Recognition(CVPR) ,2014 IEEE Conference on. IEEE,2014:899-906.
[9] J.Henriques,R.Caseiro,P.Martins,et al.High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3):583-596
[10]Li Y,Zhu J.A scale adaptive kernel correlation filter tracker with feature integration[C]//European Conference on Computer Vision,2014:254-265.
[11]何承源.循環(huán)矩陣的一些性質(zhì)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2001,31(2):211-216.
[12]Seung-Hwan Bae.Object Detection based on Region Decomposition and Assembly[C]. Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19).2019.