方正濤,陳臨強
(杭州電子科技大學 圖形圖像研究所,浙江 杭州 310018)
?
基于圖像感知哈希的行人跟蹤算法
方正濤,陳臨強
(杭州電子科技大學 圖形圖像研究所,浙江 杭州 310018)
針對傳統(tǒng)目標跟蹤算法計算復雜度高,在發(fā)生遮擋、形狀改變時,運動目標丟失的問題,提出了將圖像感知哈希算法應用于目標跟蹤問題上,并針對行人這一特定目標進行了改進。按照行人的特征,將其分成若干區(qū)域,給不同區(qū)域分配不同權重,計算跟蹤目標的感知哈希值,計算待測區(qū)域的哈希值,選擇合適的待測區(qū)域作為目標區(qū)域。該算法與MeanShift算法相比,能更好地處理目標遮擋,不易產(chǎn)生目標丟失,且具有較低的復雜度。
感知哈希算法;目標跟蹤;遮擋;目標丟失;MeanShift
運動目標跟蹤是視頻監(jiān)控系統(tǒng)中必不可少的一部分,其主要目的是對選定或檢測出的目標區(qū)域進行跟蹤?;谄ヅ涞哪繕烁櫦夹g通過前后幀之間的特征匹配實現(xiàn)目標的定位,需要在幀與幀之間傳遞目標信息[1],Mean-shift算法[2]是目前常用的基于匹配的目標跟蹤算法,該算法屬于核密度估計法[3],使用特征空間樣本點計算其密度函數(shù)值,再計算距離度量顏色模型之間的相似度,通過一個迭代的步驟,在搜索范圍內得到目標的位置。其缺點是在旋轉和尺度變化的條件下效果較差。此外,還有基于SIFT[4],HOG[5]特征的跟蹤算法,基于學習的特征跟蹤算法,如Viola等[6]提出的基于“AdaBoost+Haar”的行人檢測方法。本文提出了基于圖像感知哈希算法(Perceptual Hash Algorithm,PHA)的目標跟蹤算法,圖像感知哈希算法多用在處理相似圖像的問題上,本文對該算法進行改進,將其應用在行人目標跟蹤上,與其他算法相比,降低了計算的復雜度,同時提高了跟蹤的穩(wěn)定性。
2001年,Ton Kalker首次在一篇關于數(shù)字水印的綜述文章中提出了感知哈希算法[7],他通過“感知”這個詞匯來強調感知哈希算法關注的是感知的相似性。感知哈希算法是哈希算法的一個分支,其是一種基于認知心理學的信息加工理論[8],由多媒體數(shù)據(jù)集到多媒體感知摘要集的一類單向映射,通過將具有相同感知內容和信息的多媒體數(shù)據(jù)壓縮成唯一的一段數(shù)字摘要,并滿足感知安全性要求。
根據(jù)感知哈希的特性,其可將數(shù)據(jù)量較大的對象映射成為長度較小的一系列比特位,且感知相近的對象會被映射成相近的哈希值。利用感知哈希的這些特性,可將其利用到相似圖像匹配和目標跟蹤上。并感知哈希函數(shù)擁有感知魯棒性,感知內容相近或相似的媒體對象應該得到相同或相近的感知哈希值[9]。
如式(1)所示,記感知哈希函數(shù)為PH。由對象I生成的函數(shù)值h稱為感知哈希值
h=PH(I)
(1)
對于哈希值的比較,兩個對象的感知距離pd可使用各種距離計算方法PM得到
pdi,j=PM(hi,hj)
(2)
其中,hi和hj分別表示兩個對象的圖像感知哈希值。感知距離可采用傳統(tǒng)的計算距離的方式得到,比如計算漢明距離或歐式距離。
提出的基于感知哈希算法的人體目標跟蹤算法利用圖像感知哈希技術,采用菱形搜索算法和距離匹配算法,獲取目標信息。本文算法流程如圖1所示。
圖1 行人跟蹤流程圖
圖像進行感知哈希算法的計算流程,步驟如下:
步驟 1 選擇需要跟蹤的行人目標;
步驟 2 按照行人的特征,將人分成幾個部分,如圖2所示。
圖2 區(qū)域分割及權重示意圖
矩形方框中的數(shù)字代表該矩形哈希值的權重
(3)
其中,h代表該矩形模版總的哈希值;Wi為第i塊小矩形的權重。
步驟 3 對每個小矩形分別進行感知哈希計算。
感知哈希計算過程:(1)縮小尺寸。將每個小矩形區(qū)域縮小到32×32。這樣做的目的是簡化了DCT的計算,減少不同尺寸圖片帶來的差異;(2)簡化色彩。將彩色RGB圖像轉化成單色調的灰度圖像,再次簡化計算量;(3)計算DCT。計算灰度圖像的DCT變換,得到32×32的DCT矩陣;(4)縮小DCT。DCT的結果是32×32大小的矩陣,但只需左上角的8×8的矩陣;(5)計算平均值。計算所有64個值的平均值AVG;(6)計算哈希值。根據(jù)8×8的DCT矩陣,依次進行計算,將≥AVG的部分記為”1”, 將最后得到的二進制組合在一起,就構成了一個64位的哈希值。圖3展示了圖像感知哈希算法的計算過程。 圖3 哈希生成算法示意圖 步驟 4 將6個小矩形的哈希值都計算出來后,帶入式(3),便可得到該矩形框的感知哈希值; 步驟 5 采用菱形區(qū)域搜索算法,對符合條件的區(qū)域計算感知哈希值,并計算與目標區(qū)域的漢明距離; 菱形搜索算法[10]使用了兩種搜索模板,分別是大菱形搜索模板(Large Diamond Search Pattern, LDSP) 和小菱形搜索模板(Small Diamond Search Pattern, SDSP)。首先使用固定尺寸的 LDSP 進行迭代搜索,即使某一步的搜索誤導了搜索方向,LDSP 的迭代過程仍有可能找回正確方向;最后,采用與LDSP搜索位互補的SDSP精確搜索位置,使菱形搜索算法算法趨近于全局最優(yōu)。另外,LDSP有較強的相關性,在迭代時僅需計算3或5個新的搜索位,減少了不小的計算量。 步驟 6 選擇最小的漢明距離,與閾值進行比較,小于閾值則更新目標區(qū)域。根據(jù)實際測試結果,閾值設置為20時,效果較好。 使用提出的算法,設計了視頻行人跟蹤系統(tǒng),采用VS2013作為系統(tǒng)開發(fā)工具,Opencv開源庫作為輔助圖像處理工具,在Intel(R) Xeon(R) 3.2 GHzCPU ,4GB RAM的PC上完成目標跟蹤。文中選擇了2個視頻,視頻1是單人,背景有汽車作為干擾物;視頻2是多人,有行人遮擋和花草干擾。實驗結果如圖4和圖5所示,視頻左上角紅色字代表當前圖像所在幀數(shù),跟蹤目標被紅色矩形圈住。由實驗結果可知,當有其他物體干擾時,針對行人的改進的圖像感知哈希算法,在目標跟蹤中效果更好。在圖4中,第21幀時,由于汽車的影響,MeanShift算法發(fā)生目標丟失,而本文算法仍能正常跟蹤到目標。在圖5中,第200和第250幀中,MeanShift算法跟蹤效果不理想,跟蹤目標發(fā)生偏移、丟失現(xiàn)象,而圖像感知哈希算法仍能正常跟蹤到目標。 圖4 本文算法和MeanShift算法對視頻1的結果對比 圖5 本文算法和MeanShift算法對視頻2的結果對比 針對行人跟蹤過程中出現(xiàn)的問題,本文提出了一種基于感知哈希算法的改進行人跟蹤算法,該算法通過提取帶跟蹤的行人區(qū)域的感知哈希值,結合菱形區(qū)域搜索算法,設定一定的閾值,對行人目標進行跟蹤。實驗結果表明,該算法實現(xiàn)簡單,跟蹤準確,在發(fā)生遮擋和干擾物時,效果明顯優(yōu)于傳統(tǒng)的MeanShift算法。 [1] 蔡榮太,吳元昊,王明佳,等.視頻目標跟蹤算法綜述[J].電視技術,2010,34(12):135-138,142. [2] 王宇.基于Mean Shift的序列圖像手勢跟蹤算法[J].電視技術,2010,34(6):97-99. [3] Comaniciu D,Ramesh V,Meer P.Real-time tracking of non-rigid objects using meanshift[C].Los Alamitos,CA:Proceeding of IEEE Conf on Computer Vision and Pattern Recognition,IEEE Computer Society,2000. [4] Battiato S,Gallo G,Puglisi G,et al.SIFT features tracking for video stabilization[C].Modena,Italy:Proceedings of the 14th International Conference on Image Analysis and Processing,IEEE,2007. [5] 曾波波,王貴錦,林行剛.基于顏色自相似度特征的實時行人檢測[J].清華大學學報:自然科學版,2012(4):571-574. [6] Viola P,Jones M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154. [7] 張慧.圖像感知哈希測評基準及算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2009. [8] 安坤.基于感知哈希算法的商標圖像的檢索[D].杭州:浙江理工大學,2014. [9] 牛夏牧,焦玉華.感知哈希綜述[J].電子學報,2008,36(7):1405-1411. [10]孫秀娟,楊德運,侯迎坤.一種改進的菱形搜索算法[J].圖學學報,2013,34(4):41-45. Pedestrian Tracking Algorithm Based on Perceptual Hash Algorithm FANG Zhengtao, CHEN Linqiang (Institute of Graphics and Image, Hangzhou Dianzi University, Hangzhou 310018, China) Traditional target tracking algorithms suffer high computational complexity, occlusion, shape change, and loss of target motion. The image perceptual hash algorithm is used in target tracking and improved for the special target of pedestrians. First pedestrians are divided according to their characteristics into several regions that are assigned different weights. The perceptual hash value of the tracking target is calculated, and the diamond search algorithm is used to calculate the area of the hash value of the unknown. Finally the suitable area is chosen to be tested as the target region. This algorithm has better continuity of target occlusion and tracking than the MeanShift algorithm. perceptual hash; target tracking; occlusion; target loss; MeanShift 2016- 01- 19 方正濤(1991-),男,碩士研究生。研究方向:數(shù)字圖像處理。陳臨強(1963-),男,碩士,教授,碩士生導師。研究方向:計算機圖形學等。 10.16180/j.cnki.issn1007-7820.2016.11.032 TP A3 實驗結果
4 結束語