王 麗
(吉林省送變電工程公司 工程技術(shù)部, 吉林 長春 130033)
?
融合底層和中層字典特征的行人重識別
王麗
(吉林省送變電工程公司 工程技術(shù)部, 吉林 長春 130033)
針對當(dāng)前行人重識別方法采用單一底層特征識別率較低的問題,提出一種融合底層和中層特征的識別方法,由粗到精對人體目標(biāo)進(jìn)行匹配識別。首先提取目標(biāo)的顏色直方圖和紋理直方圖進(jìn)行粗分類;然后將人體目標(biāo)分為頭部、軀干和腿部3個部分。忽略包含信息量較少的頭部,對軀干和腿部,提出一種中層圖像塊字典提取方法,并對照該字典生成中層特征,進(jìn)行精確分類。底層特征結(jié)合中層特征使算法既具有較好的區(qū)分度,又具有良好的泛化能力。實驗結(jié)果表明本文算法在VIPeR數(shù)據(jù)庫上的nAUC比已有方法提高6.3%,對遮擋和背景粘連的魯棒性更好。
行人重識別;顏色直方圖;紋理特征;中層特征;聚類
行人重識別是指給定一張行人圖片,從不同位置、時間和視場下拍攝的海量行人數(shù)據(jù)庫中,搜索同一行人的過程,可用于犯罪嫌疑人搜索、視頻監(jiān)控、多目標(biāo)跟蹤等領(lǐng)域[1]。行人重識別由于提出時間較短,目前尚不具備完整的理論和統(tǒng)一的框架,面臨著諸多問題,例如:由于成像距離較遠(yuǎn),傳統(tǒng)的人臉和步態(tài)識別技術(shù)難以應(yīng)用;同一行人圖片受視角、光照、姿態(tài)、遮擋、背景變化等影響差異較大,單特征難以獲得較好的區(qū)分效果;不同行人衣著可能非常相似等。
近年來,學(xué)者們提出了眾多行人重識別算法。2007年,Wang等人[2]將行人進(jìn)行分割,提取不同區(qū)域的Log-RGB梯度直方圖和顏色空間關(guān)系進(jìn)行識別;2010年,F(xiàn)arenzena等人[3]根據(jù)對稱性將人體前景劃分為頭部、軀干、腿部3個部分,并提取各部分的HSV顏色直方圖、最大穩(wěn)定顏色區(qū)域特征和高重復(fù)結(jié)構(gòu)特征加權(quán)進(jìn)行識別;2011年,Cheng等人[4]使用圖形算法定位人體的頭、胸、腰、腿4個區(qū)域位置,并提取顏色直方圖和最大穩(wěn)定顏色區(qū)域特征;2012年,Kostinger等人[5]將HSV顏色直方圖、RGB顏色直方圖和圖像塊LBP特征進(jìn)行組合,并使用PCA降維得到最后的特征;同年,Ma等人[6]提取圖像的亮度和梯度信息并使用Fisher向量編碼;2013年,Zheng等人[7]將圖像進(jìn)行水平分塊,隨后提取每個小塊的HSV、RGB、YCbCr顏色直方圖和Schimidt、Gabor紋理特征進(jìn)行識別。
現(xiàn)有算法都是通過利用不同的底層特征(例如SIFT[8]、SURF[9]、LBP[10]、Garbor特征[11]、局部紋理[12]等),達(dá)到識別行人的目的。底層特征構(gòu)造的難點在于不同圖片中行人的表征隨視角、光照、遮擋、行人姿態(tài)等發(fā)生很大變化,很難設(shè)計出對所有圖片均適用的特征,而穩(wěn)健的組合特征往往計算復(fù)雜度較高,在大數(shù)據(jù)庫中搜索效率較低。因此,現(xiàn)有算法往往難以適應(yīng)不同的數(shù)據(jù)庫,識別效果也很難進(jìn)一步提升。
考慮到構(gòu)造底層特征的局限性,本文提出一種將底層特征與中層特征相結(jié)合的行人重識別方法。該方法提取人體的空間顏色直方圖、SIFT直方圖作為底層特征,建立粗略的外觀模型進(jìn)行初步篩選,再通過訓(xùn)練,提取不同部位的具有良好區(qū)分性和泛化能力的中層特征,用于精確分類。將兩個分類器級聯(lián)融合,能提高算法對于視角、遮擋和光照的穩(wěn)健性。實驗證明本文算法能獲得更高的匹配率。
行人重識別中,常用的底層特征包括顏色特征和紋理特征。由于其信息互補,考慮將二者進(jìn)行融合。
2.1顏色空間特征
顏色特征由于能夠體現(xiàn)目標(biāo)區(qū)域的整體統(tǒng)計信息,對形狀變化穩(wěn)健性較好而被行人重識別算法廣泛采用。但是,傳統(tǒng)算法采用的顏色直方圖忽略了顏色的空間分布,分辨能力較差。因此本文使用二階空間直方圖以保留顏色特征的空間信息[13]。
圖像I的二階空間直方圖表示為:
(1)
式中,B為量化級數(shù),nb為圖像的量化直方圖,μb和εb分別為均值矢量和協(xié)方差矩陣,計算公式為:
(2)
(3)
(4)
(5)
式中,N是圖像總像素個數(shù);δkb標(biāo)識像素k是否落在量化級數(shù)b內(nèi);xk是像素二維坐標(biāo)。
兩個空間直方圖(SA,SB)的相似性可以計算如下:
(6)
式中,ρn(nb,A,nb,B)為兩個直方圖的Bhattacharyya距離,Ψb稱為空間-相似性,計算公式為:
(7)
2.2紋理特征
不同行人衣著有可能相似,僅僅依靠顏色特征易造成誤匹配,因此需要提取能夠描述局部細(xì)節(jié)的紋理特征進(jìn)行精確區(qū)分。由于SIFT特征在目標(biāo)發(fā)生旋轉(zhuǎn)、縮放、仿射變換時具有良好的不變性,本文考慮采用SIFT提取目標(biāo)的紋理特征,步驟如下:
(1)對匹配目標(biāo)和待識別目標(biāo)分別在H、S、V通道上提取SIFT特征;
(2)對于匹配目標(biāo)每個通道的SIFT特征進(jìn)行K-means聚類,生成kH、kS、kV個聚類中心,構(gòu)成視覺詞典;
(3)將所有待識別目標(biāo)的SIFT特征映射到對應(yīng)關(guān)鍵詞上,統(tǒng)計每個關(guān)鍵詞出現(xiàn)的次數(shù),歸一化生成kH+kS+kV維的紋理直方圖HT。
兩個紋理直方圖HTA和HTB用Bhattacharyya距離衡量相似度:
(8)
式中,HT(i)表示HT的第i個分量。
中層特征提取方法是近年來提出的一種目標(biāo)描述方法,已被用于場景分類、運動識別[14-15]等領(lǐng)域。為使提取的特征具備視角不變性,同時考慮到人體各個部位的區(qū)分,本文提出一種新的中層特征提取方法。
3.1圖像塊篩選
為了區(qū)分人體的不同部位,將行人圖像按水平方向分成頭部、軀干和腿部,三部分的高度分別占人體總高度的16%、29%和55%,如圖1所示。從圖中可以看出,用這種簡單的方式能夠較為準(zhǔn)確地將行人身體部位劃分出來。由于傳感器分辨率限制,頭部不包含足夠有效的信息,將其忽略。
圖1 行人不同部位劃分 Fig.1 Segmentation of different body parts
下面討論如何提取軀干部分的圖像塊,腿部的圖像塊同理可得。
(9)
(10)
實驗中取Nr=0.5 V,Cmin=0.5,Cmax=0.8。這樣從一個攝像機中篩選出來的圖像塊在另一個攝像機中出現(xiàn)的概率既不會太大也不會太小,既有一定的泛化能力,又有一定的區(qū)分性。
3.2圖像塊聚類
3.3生成中層特征向量
(11)
式中,bi、lj分別為對應(yīng)軀干、腿部中層特征關(guān)鍵詞出現(xiàn)的頻次。將fmid進(jìn)行歸一化,得:
(12)
中層特征之間的相似性可由歐氏距離計算。
首先使用空間顏色直方圖和紋理直方圖對行人目標(biāo)進(jìn)行粗識別,隨后使用中層特征對其進(jìn)行精確分類,最后將識別結(jié)果融合,目標(biāo)Ai和Bj之間的相似性為:
(13)
式中,ρcolor、ρtexture、ρmid分別為兩個目標(biāo)的空間顏色混合高斯模型、紋理直方圖、中層特征的相似性,ω1、ω2、ω3是特征權(quán)重,ω1+ω2+ω3=1。實驗中取ω1=ω2=0.3,ω3=0.4。
為驗證算法有效性,采用VIPeR和ETHZ兩類數(shù)據(jù)庫進(jìn)行實驗。采用累計匹配特性曲線[8](CMC,Cumulative Matching Curve)來評價重識別算法的性能,CMC曲線下的歸一化累計面積nAUC(normalized Area Under CMC)能描繪CMC曲線的整體走勢和性能。
5.1VIPeR數(shù)據(jù)庫實驗結(jié)果
VIPeR中包含不同場景下的632對行人圖片,圖片大小都被歸整為48 pixel×128 pixel。對比算法選擇目前效果較好的SDALF[3]、ELF[17]和SCEAF[18]算法,采用與ELF算法相同的五輪二折驗證法,即總共進(jìn)行5次實驗,每次將632對目標(biāo)隨機均分,并在測試時交換匹配圖像和待識別圖像,一共得到10組識別結(jié)果,最后取其平均值作為最終的評判依據(jù),統(tǒng)計得到的識別結(jié)果如圖2所示。
圖2 VIPeR圖庫上匹配結(jié)果 Fig.2 Matching result in VIPeR database
從圖2可以看出,本文算法相比SDALF、ELF和SCEAF具有更高的匹配率。圖2中第1列表示第1匹配率CMC(1),SDALF、ELF和SCEAF分別為21.8%、19.4%、24.6%,而本文算法達(dá)到37.8%,這是因為本文算法融合了底層顏色特征、底層紋理特征和中層特征,由粗到精地進(jìn)行分類,包含了目標(biāo)圖像的更多信息。而SDALF算法使用了HSV顏色直方圖、最大穩(wěn)定顏色區(qū)域和高重復(fù)結(jié)構(gòu),ELF使用一組簡單特征組合構(gòu)建分類模型,SCEAF融合結(jié)構(gòu)信息和多個紋理特征,這3種算法本質(zhì)上都使用的是局部特征,泛化能力不強。隨著排名等級的增加,4種算法的識別率均呈上升趨勢,本文算法始終高于其余3種算法。統(tǒng)計算法的rank-1、rank-10、rank-20、rank-30(即在待搜索目標(biāo)庫中相似度為前1、10、20和30的目標(biāo)中找到正確目標(biāo)的概率)和nAUC,如表1所示,也證明了圖2趨勢的正確性。在VIPeR數(shù)據(jù)庫中,算法的nAUC高達(dá)91.7%,遠(yuǎn)高于其余3種算法。
表1 算法排名等級和nAUC對比
5.2ETHZ數(shù)據(jù)庫實驗結(jié)果
ETHZ為多幀數(shù)據(jù)庫,各幀之間存在較嚴(yán)重的光照和遮擋,但是姿態(tài)變化較小,更接近于實際應(yīng)用中的相機連續(xù)曝光情況。
對比算法采用SDALF與PLS[13]。比較待識別目標(biāo)為1幀,而候選目標(biāo)分別為2、5、10幀的結(jié)果,如圖3所示。
圖3 ETHZ數(shù)據(jù)庫上多幀匹配結(jié)果 Fig.3 Multi-frame matching rate in ETHZ database
比較圖3(a)、3(b)、3(c)內(nèi)部的3條曲線,當(dāng)候選目標(biāo)分別為2、5、10幀時,本文算法識別率均優(yōu)于其余3種算法,并且曲線趨勢與單幀數(shù)據(jù)庫相同。通過圖3(a)、3(b)、3(c)之間橫向?qū)Ρ龋S著候選目標(biāo)的增加,PLS算法的識別率無變化,SDALF算法在候選目標(biāo)5幀時識別率最高,在10幀的識別率反而低于5幀,而本文算法的識別率隨著候選目標(biāo)的增加而提升較大。這是因為本文算法融合了不同尺度下的特征,具有較好的穩(wěn)定性。因此,本文算法不僅適用于單幀目標(biāo)圖像庫,更適用于多幀圖像庫。
考慮到底層特征的構(gòu)造難度和局限性較大,難以滿足行人重識別的需求,本文提出了融合底層特征和中層特征的行人重識別方法。首先引入空間顏色直方圖,對目標(biāo)的顏色空間信息建模,并提取目標(biāo)的SIFT紋理特征進(jìn)行粗識別。隨后提出一種區(qū)分不同人體部位圖像塊的中層特征訓(xùn)練和提取方法。融合上述底層特征和中層特征,對行人圖像進(jìn)行識別。實驗表明本文算法在單幀和多幀數(shù)據(jù)庫中均能取得良好的識別性能,低位匹配率遠(yuǎn)高于現(xiàn)有算法,具有較好的應(yīng)用前景。下一步工作將研究如何更加精確地劃分人體不同部位,以及將中層特征與距離度量算法相結(jié)合,使其具有更好的區(qū)分度。
[1]GONG S,CRISTANI M,YAN S,etal..PersonRe-identification[M]. London:Springer,2014.
[2]WANG X,DORETTO G,SEBASTIAN T B,etal.. Shape and appearance context modeling[J].IEEE,2007,1(1):1-8.
[3]ARENZENA M,BAZZANI L,PERINA A,etal.. Person re-identification by symmetry-driven accumulation of local features[C]. IEEE Conference on Computer Vision and Pattern Recognition,San Francisco,USA,2010:2360-2367.
[4]CHENG D,CRISTANI M,STOPPA M,etal.. Custom pictorial structures for re-identification[C]. British Machine Vision Conference,Dundee,UK,2011:749-760.
[5]KOSTINGER M,HIRZER M,WOHLHART P,etal.. Large scale metric learning from equivalence constraints[C]. IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2012:2288-2295.
[6]MA B,SU Y,JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. European Conference on Computer Vision,Florence,Italy,2012:413-422.
[7]ZHENG W,GONG S,XIANG T. Re-identification by Relative Distance Comparison[J].IEEE,2013,35(3):653-668.
[8]王睿,朱正丹.融合全局-顏色信息的尺度不變特征變換[J].光學(xué) 精密工程,2015,23(1): 295-301.
WANG R,ZHU ZH D. SIFT matching with color invariant characteristics and global context[J].Opt.PrecisionEng.,2015,23(1):295-301.(in Chinese)
[9]王飛宇,邸男,賈平.結(jié)合尺度空間FAST角點檢測器和SURF描繪器的圖像特征[J].液晶與顯示,2014,29(4):598-604.
WANG F Y,DI N,JIA P. Image features using scale-space FAST corner detector and SURF descriptor[J].ChineseJ.LiquidCrystalsandDisplays,2014,29(4):598-604.(in Chinese)
[10]王曉華,孫小姣.聯(lián)合Gabor降維特征與奇異值特征的人臉識別[J].光學(xué) 精密工程,2015,23(10):553-558.
WANG X H,SUN X J. Face recognition based on Gabor reduction dimensionality features and singular value decomposition features[J].Opt.PrecisionEng.,2015,23(10):553-558.(in Chinese)
[11]鄧丹,吳謹(jǐn),朱磊,等.基于紋理抑制和連續(xù)分布估計的顯著性目標(biāo)檢測方法[J].液晶與顯示,2015,30(1):120-125.
DENG D,WU J,ZHU L,etal. Significant target detection method based on texture inhibition and continuous distribution estimation[J].ChineseJ.LiquidCrystalsandDisplays,2015,30(1):120-125.(in Chinese)
[12]BIRCHFIELD S T,RANGARAJAN S. Spatiograms versus histograms for region-based tracking[J].IEEE,2005(2):1158-1163.
[13]SINGH S,GUPTA A,EFROS A A. Unsupervised discovery of mid-level discriminative patches[C]. European Conference on Computer Vision,Florence,Italy,2012:73-86.
[14]JAIN A,GUPTA A,RODRIGUEZ M,etal.. Representing videos using mid-level discriminative patches[C]. IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2013:571-2578.
[15]陳瑩,朱明,劉劍,等.高斯混合模型自適應(yīng)微光圖像增強[J].液晶與顯示,2015,30(2):300-309.
CHEN Y,ZHU M,LIU J,etal.. Automatic low light level image enhancement using Gaussian mixture modeling[J].ChineseJ.LiquidCrystalsandDisplays,2015,30(2):300-309.(in Chinese)
[16]GRAY D,TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]. European Conference on Computer Vision,Florence,Marseille,Italy,2008:262-275.
[17]HU Y,LIAO S,LEI Z,etal.. Exploring structural information and fusing multiple features for person re-identification[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:794-799.
[18]SCHWARTZ W,DAVIS L. Learning discriminative appearance based models using partial least squares[C]. Computer Graphics and Image Processing,Rio de Janeiro,Brazil,2009:322-329.
Pedestrian re-identification based on fusing low-level and mid-level features
WANG Li
(Engineering and Technology Department,Jilin Transmission and TransformationEngineeringCompany,Changchun130033,China)*Correspondingauthor,E-mail:44417020@qq.com
Aiming at the problem of low recognition rate in the existing pedestrian re-identification algorithm using single low-level feature, a new method by fusing low-level and mid-level features is proposed, which identifies person in a coarse to fine strategy. First, the pedestrian is recognized roughly by color and texture features. Then, the human body is divided into three parts, including head, main body and leg. Head is ignored for its few useful information. A mid-level dictionary method is proposed and the dictionary is trained using patches from main body and leg, and then mid-level feature is computed for fine recognition. Fusing mid-level and low-level features can be not only discriminative but also representative. The experimental results indicate that the proposed method can increase nAUC by 6.3% compared with the existing methods, which is more robust to occlusion and background adhesion.
pedestrian re-identification;color histogram;texture features;mid-level features;clustering
2016-04-05;
2016-05-26
2095-1531(2016)05-0540-07
TP394.1
Adoi:10.3788/CO.20160905.0540
王麗(1979—),女,吉林長春人,學(xué)士,工程師,主要從事信息通信技術(shù)方面的研究。E-mail:44417020@qq.com