張小駿,劉志鏡,薛鴻民
?
跨攝像機(jī)目標(biāo)的頻域再識(shí)別
張小駿,劉志鏡,薛鴻民
(西安電子科技大學(xué)計(jì)算機(jī)學(xué)院 西安 710071)
針對(duì)接力跟蹤中目標(biāo)跨攝像機(jī)識(shí)別困難的問題,提出了在傅里葉頻域進(jìn)行目標(biāo)再識(shí)別的方法。通過對(duì)頻譜的局部平均化處理,使非剛性目標(biāo)的頻譜在幅值上近似為其各剛性子部分頻譜的簡單求和。再通過最窄目標(biāo)取樣窗口限制各子部分的變化,使整體頻譜大致不變。最后根據(jù)頻譜各點(diǎn)幅值變化倍率的一致性判斷目標(biāo)的相似性,使頻譜信息得到充分使用。實(shí)驗(yàn)表明,該方法的目標(biāo)識(shí)別能力和魯棒性相對(duì)于幾種常見的基于紋理的方法有一定的提高。
傅里葉頻譜; Gabor小波; 多攝像機(jī); 接力跟蹤; 目標(biāo)再識(shí)別
多攝像機(jī)環(huán)境下跟蹤目標(biāo)的跨攝像機(jī)再識(shí)別是一個(gè)急需解決的關(guān)鍵性問題,是指如何利用前一攝像機(jī)獲得的目標(biāo)信息,在下一攝像機(jī)中識(shí)別出該目標(biāo)。這是多攝像機(jī)實(shí)現(xiàn)目標(biāo)接力跟蹤的關(guān)鍵。目標(biāo)的跨機(jī)再識(shí)別主要有兩類方法,一類是基于攝像機(jī)之間的三維幾何關(guān)系,這需要相鄰攝像機(jī)有重疊的視場,如基于三維信息的目標(biāo)交接[1-3]。這類方法通過坐標(biāo)匹配識(shí)別目標(biāo),對(duì)攝像機(jī)的布局、安裝乃至標(biāo)定均有一定要求;另一類是基于目標(biāo)的特征匹配,這不需要相鄰攝像機(jī)有重疊視場,靈活方便,切合視頻監(jiān)控的實(shí)際需要,但難點(diǎn)在于找到一種既具有較強(qiáng)目標(biāo)識(shí)別能力又具有較高跨機(jī)魯棒性的目標(biāo)特征。如人體跟蹤常用的顏色特征,在單機(jī)跟蹤時(shí)效果較好,但在跨機(jī)時(shí)就不夠可靠[4],即使通過跨機(jī)顏色校正有所改善[5],但離實(shí)用也還有相當(dāng)距離。為此,許多研究將目光投向目標(biāo)表面的結(jié)構(gòu)性特征,如紋理特征。表面結(jié)構(gòu)性特征的一個(gè)重要分析工具是頻譜。如對(duì)目標(biāo)圖像進(jìn)行Gabor或小波變換[6-7],但這往往需要使用多尺度、多方向的模板進(jìn)行多次濾波,再用濾波的結(jié)果構(gòu)造特征向量,用時(shí)過長。相對(duì)于Gabor或小波變換,傅里葉變換則簡便、快速,常見的形式是傅里葉描述子[8-9],用于描述目標(biāo)的輪廓;二維情況下傅里葉頻譜特征的典型構(gòu)造是,將頻譜圖分為扇形或環(huán)形區(qū)域,使用各區(qū)域頻譜幅度的均值及方差組成特征向量進(jìn)行匹配[10]。但由于傅里葉頻譜高低頻的幅度差別極大,這種特征構(gòu)造方式會(huì)使高頻信號(hào)淹沒于低頻信號(hào)之中,并且頻譜原有的空間信息損失嚴(yán)重,影響特征的目標(biāo)識(shí)別能力。為此,本文提出一種直接使用傅里葉頻譜進(jìn)行匹配的改進(jìn)方法,最大程度地保留和使用頻譜信息,提高目標(biāo)的識(shí)別能力。
圖像的離散傅里葉變換如下:
目標(biāo)跨攝像機(jī)時(shí),由于光照及攝像機(jī)參數(shù)變化,目標(biāo)圖像的灰度會(huì)發(fā)生變化。根據(jù)攝像機(jī)光電信號(hào)轉(zhuǎn)換規(guī)律[11-12],在不考慮光照幾何條件的情況下,變化后的灰度值為:
式(2)所示灰度變化模型是理論上的理想情況。實(shí)際上,由于值的不完全一致[13-14],光照幾何條件引起的自陰影以及某些攝像頭內(nèi)置的圖像增強(qiáng)算法帶來的一定的灰度值的非線性映射[15],實(shí)際的灰度和頻譜變化會(huì)在等倍率的基礎(chǔ)上有所波動(dòng)。
非剛性體可看作多個(gè)相對(duì)剛性的子部分組成的變形體。如圖1所示的人體,頭部、小臂及小腿本身內(nèi)部的紋理結(jié)構(gòu)可視為不變的(剛性子部分),人體姿態(tài)的變化可分解為頭部相對(duì)于軀干發(fā)生了平移,小臂和小腿發(fā)生了不同角度的旋轉(zhuǎn)。從視頻監(jiān)控的實(shí)際看,一般的非剛性目標(biāo)中,相對(duì)剛性的子部分的像素占大多數(shù)甚至絕大多數(shù),而完全非剛性變化部分的像素只占少數(shù),如圖1中大臂和小臂連接處、大腿和小腿連接處等。根據(jù)傅里葉變換的疊加性質(zhì),在灰度水平相當(dāng)?shù)那闆r下,剛性子部分對(duì)傅里葉頻譜的貢獻(xiàn)為主要的,而剛性子部分之間的少量像素的貢獻(xiàn)則是次要的。因此,通過分析各剛性子部分頻譜的變化及其疊加,即可近似整體頻譜的變化。
這樣,非剛性目標(biāo)整體的頻譜可近似分解為:
為獲得穩(wěn)定可比的頻譜特征,本文在頻譜圖各點(diǎn)對(duì)式(4)做小范圍平均。由于自然圖像頻譜的相位隨頻點(diǎn)變化很快,可視作是隨機(jī)分布的,相位差也呈隨機(jī)分布,故有:
這樣,整體的頻譜幅值平方即可分解為各子部分頻譜幅值平方的簡單相加。為節(jié)省計(jì)算開銷,本文直接對(duì)幅值進(jìn)行局部平均處理。整體的頻譜幅值即可近似分解為各子部分頻譜幅值的簡單相加。下面據(jù)此分析各子部分頻譜變化對(duì)整體頻譜變化的影響。
根據(jù)人體姿態(tài)變化特點(diǎn),其剛性子部分可能的變化主要為:平移、旋轉(zhuǎn)以及少量的錯(cuò)切和橫豎不等比縮放(來源于立體目標(biāo)視角的變化)。這些變化對(duì)應(yīng)的頻譜幅值圖變化如圖2所示。由圖可見,除平移的頻譜幅值圖不變外,其他變化僅會(huì)使原頻譜幅值圖產(chǎn)生類似的幾何變化。因此,如果在目標(biāo)圖像取樣時(shí)適當(dāng)限制,使得各子部分的變化在較小范圍之內(nèi),則整體頻譜幅值的變化就不大。因此,本文使用視頻幀中目標(biāo)去除陰影后的最窄外接矩形區(qū)域(高寬比最大)作為目標(biāo)圖像的取樣窗口。這樣,在視角變化不大的情況下,各主要?jiǎng)傂宰硬糠旨捌湔趽踝兓筒淮?,平均化處理后的目?biāo)整體頻譜幅值分布結(jié)構(gòu)就會(huì)大致不變。另外由圖2可見,子部分變化時(shí)頻譜的低頻段(靠近中心)變化遠(yuǎn)小于高頻段,故整體的頻譜幅值圖在低頻段更加穩(wěn)定。
為盡量減少信息損失,本文采用高斯濾波來對(duì)頻譜幅值圖進(jìn)行局部平均化處理。高斯卷積模板如下:
根據(jù)傅里葉頻譜的變化規(guī)律,考慮到自然圖像的頻譜能量強(qiáng)烈集中于直流和低頻的特點(diǎn),為避免高頻細(xì)節(jié)信息被直流和低頻信息所淹沒,本文提出如下頻譜對(duì)點(diǎn)相除的比較方法。
如果兩個(gè)目標(biāo)圖像的窗口尺度亦即解析尺度不一樣,根據(jù)式(1)容易證明,只需將其中一個(gè)譜圖沿著寬度方向適當(dāng)伸縮,使其與另一個(gè)頻譜圖高寬比一致,在中心和坐標(biāo)軸對(duì)準(zhǔn)的情況下,在兩圖的重疊區(qū)域按式(8)和式(9)計(jì)算即可,如圖3所示。
由上可見,解析尺度不同時(shí),小尺度圖像的頻譜全部納入了比較范圍,而大尺度圖像中體現(xiàn)更多細(xì)節(jié)的高頻信息則無法參與對(duì)比。因此,使用本文方法時(shí),目標(biāo)圖像的匹配效果主要決定于小圖像的尺度。小圖像尺度越小,可供匹配的線索就越少,匹配的效果就會(huì)降低。
實(shí)驗(yàn)首先在不變場景中考察不同目標(biāo)尺度及少量視角變化下本文方法的目標(biāo)識(shí)別能力,旨在驗(yàn)證本文方法的原理。然后在變化場景下進(jìn)行跨攝像機(jī)的目標(biāo)識(shí)別實(shí)驗(yàn),并與紋理識(shí)別常用的方法進(jìn)行比較,考察本文方法的實(shí)際應(yīng)用效果。實(shí)驗(yàn)中,頻譜平均化處理的高斯卷積核標(biāo)準(zhǔn)差為:,頻譜幅值納入統(tǒng)計(jì)的閾值系數(shù)為:。視頻拍攝時(shí)攝像機(jī)的增益、曝光和白平衡均處于自動(dòng)狀態(tài)。
選擇同一場景連續(xù)拍攝的視頻,排除光照和攝像機(jī)參數(shù)差異的影響。視頻中兩目標(biāo)身高類似,將攝像機(jī)分別置于5種不同距離,從而使目標(biāo)具有不同的解析尺度,如圖4所示,圖中左起分別為目標(biāo)1和目標(biāo)2。
為使每個(gè)目標(biāo)在5個(gè)解析尺度下各獲得3張最窄目標(biāo)圖像,并使視角盡量一致,排除視角差異的影響。將兩目標(biāo)共30張目標(biāo)圖像按尺度分組,每組中每個(gè)目標(biāo)有3張目標(biāo)圖像,組內(nèi)目標(biāo)進(jìn)行兩兩交叉比較,計(jì)算相似性距離,結(jié)果列于表1,表中解析尺度為目標(biāo)的窗高,用像素個(gè)數(shù)表示。
表1 不同解析尺度下的識(shí)別能力(亮度通道)
可以看到,在大尺度時(shí),不同目標(biāo)之間的最小相似性距離顯著大于同目標(biāo)之間的最大相似性距離,目標(biāo)識(shí)別能力強(qiáng)。目標(biāo)尺度變小時(shí),目標(biāo)識(shí)別能力開始下降。解析尺度降至150像素時(shí),不同目標(biāo)之間的最小相似性距離已與同目標(biāo)之間的最大相似性距離接近,此時(shí)對(duì)目標(biāo)的區(qū)分就不夠可靠了。
下面考察少量視角差異下的識(shí)別能力。與上類似,獲取同一場景連續(xù)視頻中的兩個(gè)目標(biāo)在相同解析尺度下的各5個(gè)窗口圖像,窗口高度約為300像素,分成A、B兩組,各組內(nèi)從第1至第5圖視角差異逐漸加大,如下圖5所示。考察第1圖與后續(xù)圖的相似性距離變化,結(jié)果如表2所示(亮度通道)。
表2 不同視角差異下的相似性距離
可以看到,相同目標(biāo)之間的相似性距離隨著視角差異的加大有所增加,但仍明顯小于不同目標(biāo)間(25種對(duì)比組合)的最小相似性距離0.39。這說明在一定范圍內(nèi),只要目標(biāo)相對(duì)于攝像機(jī)的暴露面沒有大的變化,視角差異對(duì)目標(biāo)識(shí)別的影響是有限的。
上述兩個(gè)實(shí)驗(yàn)過程中,視頻均為同一場景連續(xù)拍攝,可以認(rèn)為此過程中沒有光照變化和攝像機(jī)參數(shù)變化,而只有多次圖像取樣時(shí)目標(biāo)的非剛性形變和視角變化。因此,實(shí)驗(yàn)結(jié)果說明,本文方法對(duì)于非剛性目標(biāo)的頻譜變化分析是合理的,通過最窄取樣窗口的限定和頻譜的局部平均化處理,可以使非剛性目標(biāo)的頻譜變化控制在較小范圍。
在圖4的第2、3、4幅圖所示的3個(gè)不同尺度中為目標(biāo)1、2任選最窄窗口圖像各1張,共6張,作為第一攝像機(jī)的目標(biāo)圖像。另外使用6個(gè)不同目標(biāo)(包含目標(biāo)1、2)各自分別在5個(gè)不同場景中拍攝共30段視頻,目標(biāo)尺度均不小于第一攝像機(jī)目標(biāo)圖像中的最大尺度,從中為每個(gè)目標(biāo)在每種場景中截取最窄窗口圖像1張,6個(gè)目標(biāo)共30張目標(biāo)圖像,作為第二攝像機(jī)的目標(biāo)圖像,5個(gè)場景光照條件均不同,如圖6所示,圖中行人為目標(biāo)2,其他目標(biāo)在此5種場景中的圖像與此類似,不重復(fù)列出。
樹蔭下 通道內(nèi) 停車場暖光 陰天 多云
圖6 目標(biāo)2在5種不同場景
按本文方法分別計(jì)算第一與第二攝像機(jī)目標(biāo)圖像的相似性距離,共有180個(gè)結(jié)果,將結(jié)果按第一攝像機(jī)目標(biāo)圖像的3個(gè)尺度分組計(jì)算均值和最值,分列于表3,其中后兩組(尺度為190和150像素)為跨尺度比較。另外,為考察本文方法的有效性,使用目前紋理描述常用的特征做同樣的相似性距離計(jì)算,結(jié)果列于表3中供比較。
表3 不同解析尺度下的分辨能力(亮度通道)
表3中,經(jīng)典傅里葉分區(qū)方法(Fourier)[10]將頻譜幅值圖分成6個(gè)扇形區(qū)(0~180°),使用各區(qū)內(nèi)的幅度均值及標(biāo)準(zhǔn)差組成歸一化特征向量;Gabor方法[6-7]使用4個(gè)波長尺度(以目標(biāo)窗高為統(tǒng)一折算單位)和6個(gè)方向(0~180°)的Gabor模板對(duì)目標(biāo)圖像進(jìn)行濾波,使用各次濾波的幅度均值及標(biāo)準(zhǔn)差組成歸一化特征向量;LBP方法[16]使用具有旋轉(zhuǎn)不變性的等價(jià)LBP值組成歸一化特征向量。Fourier和Gabor特征使用Canberra距離,LBP特征使用Bhatacharyya距離。
對(duì)于各種方法的目標(biāo)區(qū)分能力使用值評(píng)價(jià),值越高區(qū)分能力越強(qiáng),公式如下:
(10)
式中,如分子小于或等于0,則=0。另外,不同目標(biāo)間的最小距離采用一個(gè)尺度數(shù)據(jù)組內(nèi)居前5位(占該組數(shù)據(jù)總數(shù)的10%)最小距離的平均值,以排除異常數(shù)據(jù)影響。
從表3可以看到,在跨場景的情況下,本文方法能較好地識(shí)別相同或不同目標(biāo),對(duì)光照亮度、色溫及攝像機(jī)變化有較強(qiáng)的魯棒性,與使用Gabor特征的效果類似。由于頻譜信息損失小,本文方法的目標(biāo)識(shí)別能力比經(jīng)典傅里葉分區(qū)方法有所提高。在跨尺度比較時(shí),本文方法受到的影響比LBP小。另外從表3中還可以看到,作為基于表面結(jié)構(gòu)性信息的特征,上述各種方法的目標(biāo)識(shí)別效果均與目標(biāo)尺度有關(guān),尺度變小時(shí)識(shí)別效果普遍降低。
本文方法使用Matlab2010b編程,在32位Windows XP下運(yùn)行,硬件環(huán)境為:64位雙核AMD Athlon II CPU,主頻3.1 GHz,一級(jí)緩存128 KB×2,二級(jí)緩存2 MB,內(nèi)存3.25 GB。完成兩幅285*90尺寸的圖像比較用時(shí)僅為0.047 6 s,已接近實(shí)時(shí)速度,這遠(yuǎn)快于使用Gabor特征的速度,對(duì)于目標(biāo)的跨機(jī)再識(shí)別已經(jīng)足夠了。簡單分析看,本文方法只需對(duì)視頻幀中的目標(biāo)區(qū)域使用高效的FFT算法做一次傅里葉變換,再對(duì)譜圖進(jìn)行必要的拉伸和高斯濾波即可用于匹配,匹配時(shí)只需對(duì)幅值足夠大的一小部分重點(diǎn)頻點(diǎn)(前面實(shí)驗(yàn)中納入統(tǒng)計(jì)的重點(diǎn)頻點(diǎn)個(gè)數(shù)均未超過窗口像素個(gè)數(shù)的)進(jìn)行一次除法運(yùn)算,再統(tǒng)計(jì)標(biāo)準(zhǔn)差,計(jì)算開銷不大。如對(duì)程序加以優(yōu)化,速度還會(huì)有較大提升空間。因此本文方法略作簡化也可用于單機(jī)跟蹤,比如與顏色特征融合使用。
本文方法的實(shí)質(zhì)是將圖像轉(zhuǎn)至頻域進(jìn)行模板匹配。由于轉(zhuǎn)至了頻域,解決了非剛性形變情況下空域模板匹配的對(duì)準(zhǔn)問題。而通過對(duì)頻譜做局部平均化處理和取樣窗口的最窄限定,則使得頻域模板匹配得以穩(wěn)定可靠進(jìn)行。由于頻域模板最大程度地保留了圖像信息,因此本文方法相對(duì)于幾種常用的紋理特征方法有一定的改進(jìn),對(duì)于跟蹤目標(biāo)的跨機(jī)再識(shí)別有一定的實(shí)用價(jià)值。作為一種基于結(jié)構(gòu)性信息的方法,本文方法對(duì)于跨攝像機(jī)時(shí)的光照變化和攝像機(jī)參數(shù)變化有一定的魯棒性,但對(duì)目標(biāo)的解析尺度和視角變化幅度有一定要求,容差能力還需進(jìn)一步提高。此外,本文對(duì)光照方向變化引起的自陰影未做針對(duì)性處理。下一步還需研究目標(biāo)表面結(jié)構(gòu)性信息的豐富程度對(duì)本文方法影響,包括如何評(píng)價(jià)結(jié)構(gòu)性信息的豐富程度并合理分配權(quán)重,從而使該方法能夠更好地與其他特征融合使用。
[1] BLACK J, ELLIS T. Multiple camera image tracking[C]//Proceedings of the second International Workshop on Performance Evaluation of Tracking and Surveillance. Hawaii, USA: [s.n.], 2001: 68-75.
[2] IBISCH A, HOUBEN S, MICHAEL M, et al. Arbitrary object localization and tracking via multiple-camera surveillance system embedded in a parking garage[C]//Proc SPIE 9407, Video Surveillance and Transportation Imaging Applications 2015. San Francisco, California, USA: SPIE, 2015: 94070G.
[3] FEI YIN, MAKRIS D, VELASTIN S A, et al. Calibration and object correspondence in camera networks with widely separated overlapping views[J]. Computer Vision, IET, 2015, 9(3): 354-367.
[4] WANG Xiao-gang. Intelligent multi-camera video surveillance: a view[J]. Pattern Recognition Letters, 2013(34): 3-19.
[5] SOORI U, YUEN P W, HAN J W, et al. Target recognitions in multiple-camera closed-circuit television using color constancy[J]. Optical Engineering, 2013, 52(4): 602-614.
[6] 閆允一, 姜帥, 郭寶龍. 結(jié)合穩(wěn)定興趣點(diǎn)和Gabor小波的圖像檢索[J]. 西安電子科技大學(xué)學(xué)報(bào), 2014, 41(5): 118- 123.
YAN Yun-yi, JIANG Shuai, GUO Bao-long. Image retrieval using stable interest points and gabor wavelet[J]. Journal of Xidian University, 2014, 41(5): 118-123.
[7] 朱明忠. 多尺度Gabor小波變換在圖像檢索中的應(yīng)用[J]. 電子科技, 2011, 24(8): 61-69.
ZHU Ming-zhong. Application of multi-scale Gaborwavlet transform in image retrieval[J]. Electronic Sci & Tech, 2011, 24(8): 61-69.
[8] MENNESSONA J, JEANB C S, MASCARILLA L. Color fourier-mellin descriptors for image recognition[J]. Pattern Recognition Letters, 2014, 40: 27-35.
[9] ALTANTSETSEG E, KATSUTSUGU M Y, KOUICHI K. Pairwise matching of 3D fragments using fast fourier transform[J]. The Visual Computer, 2014, 30(6-8): 929-938.
[10] 閆晶瑩, 王成儒. 一種新的紋理特征提取算法[J]. 西安郵電學(xué)院學(xué)報(bào), 2011, 16(1): 49-53.
YAN Jing-ying, WANG Cheng-ru. A new method for texture feature extraction[J]. Journal of Xi’an University of Posts and Telecommunications, 2011, 16(1): 49-53.
[11] 彭國福, 林正浩. 圖像處理中Gamma校正的研究和實(shí)現(xiàn)[J]. 電子工程師, 2006, 32(2): 30-36.
PENG Guo-fu, LIN Zheng-hao. The study and implementation of Gamma correction in image processing [J]. Electronic Engineer, 2006, 32(2): 30-36.
[12] CAO Yuan, PAN Xiao-fang, ZHAO Xiao-jin, et al. An analog gamma correction scheme for high dynamic range CMOS logarithmic image sensors[J]. Sensors(Basel), 2014, 14(12): 24132-24145.
[13] KAUR K, KANWAL N, BHULLAR J S. A technique for enhancement of gray image using local Gamma correction [J]. International Journal of Computer Applications, 2014, 105(5): 36-39.
[14] 儲(chǔ)清翠, 王華彬, 陶亮. 圖像的局部自適應(yīng)Gamma校正[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015(7): 189-193.
CHU Qing-cui, WANG Hua-bin, TAO Liang. Local adaptive Gamma correction method[J]. Computer Engineering and Applications, 2015(7): 189-193.
[15] SINGH K, KAPOOR R. Image enhancement using exposure based sub image histogram equalization[J]. Pattern Recognition Letters, 2014(36): 10-14.
[16] 劉麗, 謝毓湘, 魏迎梅, 等. 局部二進(jìn)制模式方法綜述[J].中國圖象圖形學(xué)報(bào), 2014, 19(12): 1696-1720.
LIU Li, XIE Yu-xiang,WEI Ying-mei, et al. Survey of local binary pattern method[J]. Journal of Image and Graphics, 2014, 19(12): 1696-1720.
編 輯 蔣 曉
Re-Identifying Targets Across Cameras in Frequency Domain
ZHANG Xiao-jun, LIU Zhi-jing, and XUE Hong-min
(School of Computer Science and Technology, Xidian University Xi’an 710071)
For the difficulty of identifying relay-tracked targets across cameras, a method for re-identifying targets in frequency domain is proposed. By locally averaging, the non-rigid target’s Fourier spectrum is approximated by the real sum of its relatively rigid components’ spectrum in amplitude. Then, by using the narrowest sampling window to limit the components’ changes, the target spectrum’s change is limited to a low degree. Finally, the consistency of the amplitude changing rate at every point of the spectrum map is used as the similarity metrics of targets, thus making full use of spectrum information. Experiments show an improvement on target recognition and robustness relative to the existing methods based on texture.
Fourier spectrum; Gabor wavelet; multiple cameras; relay tracking; target re-identification
TP391.4
A
10.3969/j.issn.1001-0548.2016.03.017
2015 - 07 - 10;
2015 - 11 - 15