張耿寧 王家寶 李陽 苗壯 張亞非 李航
摘要:
行人重識別精度主要取決于特征描述和度量學習兩個方面。在特征描述方面,現(xiàn)有特征難以解決行人圖像視角變化的問題,因此考慮將顏色標簽特征與顏色和紋理特征融合,并通過區(qū)域和塊劃分的方式提取直方圖獲得圖像特征;在度量學習方面,傳統(tǒng)的核局部Fisher判別分析度量學習方法對所有查詢圖像統(tǒng)一映射到相同的特征空間中,忽略了查詢圖像不同區(qū)域的重要性,為此在核局部Fisher判別分析的基礎(chǔ)上對特征進行區(qū)域分組,采用查詢自適應(yīng)得分融合方法來描述圖像不同區(qū)域的重要性,由此實現(xiàn)度量學習。在VIPeR和iLIDS數(shù)據(jù)集上,實驗結(jié)果表明融合后的特征描述能力明顯優(yōu)于原始特征,同時改進的度量學習方法有效提高了行人重識別精度。
關(guān)鍵詞:
行人重識別;顏色標簽;特征融合;度量學習;核局部Fisher判別分析
中圖分類號:
TP391.4
文獻標志碼:A
Abstract:
Feature representation and metric learning are fundamental problems in person reidentification. In the feature representation, the existing methods cannot describe the pedestrian well for massive variations in viewpoint. In order to solve this problem, the Color Name (CN) feature was combined with the color and texture features. To extract histograms for image features, the image was divided into zones and blocks. In the metric learning, the traditional kernel Local Fisher Discriminant Analysis (kLFDA) method mapped all query images into the same feature space, which disregards the importance of different regions of the query image. For this reason, the features were grouped by region based on the kLFDA, and the importance of different regions of the image was described by the method of QueryAdaptive Late Fusion (QALF). Experimental results on the VIPeR and iLIDS datasets show that the extracted features are superior to the original feature; meanwhile, the improved method of metric learning can effectively increase the accuracy of person reidentification.
英文關(guān)鍵詞Key words:
person reidentification; Color Name (CN); feature fusion; metric learning; kernel Local Fisher Discriminant Analysis (kLFDA)
0引言
近年來,隨著監(jiān)控設(shè)備在公共場所的逐漸增多,行人重識別技術(shù)越來越受到人們的關(guān)注。行人重識別的定義為從跨攝像機、跨時間段的行人圖像數(shù)據(jù)庫中找出與檢索行人一致匹配的人物[1]。但是由于光照、攝像機位置、行人姿勢變化等問題,同一行人在不同圖像之間會出現(xiàn)較大的差異,這給行人重識別研究帶來巨大的困難和挑戰(zhàn)。
當前,行人重識別研究方法大致可分為兩類:基于特征描述的方法和基于度量學習的方法?;谔卣髅枋龅姆椒▊?cè)重于通過尋找對視角變化魯棒的特征來提高行人重識別精度。早期Gray等[2]采用AdaBoost方法從大量顏色、紋理特征中挑選出更具描述力的特征來改進效果,但是該方法無法解決視角變換問題。Kai等[3]放棄使用全局特征描述,改用局部的尺度不變特征變換(ScaleInvariant Feature Transform, SIFT)來表示行人,但是局部特征點經(jīng)常會落在嘈雜的背景上,導(dǎo)致精度的下降。Farenzena等[4]提出了一種局部特征對稱驅(qū)動累積(SymmetryDriven Accumulation of Local Features, SDALF)方法,該方法通過行人對稱屬性減少背景干擾來提升對視角變換的魯棒性。此外,Bazzani等[5]對具有相似顏色的像素區(qū)域進行聚類,將行人圖像劃分成最大顏色穩(wěn)定區(qū)域(Maximally Stable Color Regions, MSCR),并使用這些區(qū)域的類中心、二階距矩陣和顏色均值來描述行人。與全局特征描述相比,基于局部區(qū)域的特征描述具有更好的視角變化魯棒性。
基于度量學習的方法側(cè)重于從訓練數(shù)據(jù)中學習出一種魯棒的度量方法來解決復(fù)雜的匹配問題。2008年Zheng等[6]提出概率相對距離比較(Probabilistic Relative Distance Comparison, PRDC)算法,其基本思想是增大正確匹配之間擁有較短距離的可能性,使算法對行人外觀變化魯棒。之后,Pedagadi等[7]采用局部Fisher判別分析(Local Fisher
Discriminant Analysis, LFDA)方法進行行人重識別度量學習,但是LFDA需要對高維散列矩陣進行主成分分析(Principal Component Analysis, PCA)降維,降低了特征的表達能力。Xiong等[8]在LFDA的基礎(chǔ)上使用了核技巧,提出了核局部Fisher判別分析(kernel Local Fisher Discriminant Analysis, kLDFA)算法,可避免求解高維的散列矩陣,既減少了運算量,又提高了行人重識別的準確率。
針對當前研究進展,本文在行人重識別的特征提取與度量學習上分別作出了改進:在特征提取方面,基于特征融合的思想[9],將顏色標簽(Color Name, CN)特征[10]與現(xiàn)有的顏色和紋理特征進行融合,并通過合并區(qū)域塊直方圖來提取行人特征;在度量學習方面,首先對特征進行區(qū)域分組處理,然后進行kLDFA求解出各特征組的映射矩陣,最后采用查詢自適應(yīng)得分融合(QueryAdaptive Late Fusion, QALF)方法[11]來兼顧不同查詢圖像的差異。在VIPeR和iLIDS這兩個數(shù)據(jù)集上,實驗結(jié)果表明本文改進的特征提取方法和度量學習方法均能有效提升行人重識別的精度。
1特征提取
1.1特征選擇
由于基于局部區(qū)域劃分的特征描述被驗證具有較好的描述能力,故本文在區(qū)域劃分的基礎(chǔ)上,將CN特征與現(xiàn)有的HSV顏色特征,尺度不變局部三元模式(Scale Invariant Local Ternary Pattern, SILTP)紋理特征[12]進行融合,得到更加魯棒的行人圖像特征描述。
CN特征是人們對生活中出現(xiàn)的顏色賦予的一種語義標簽,對應(yīng)于Berlin等[13]在語言研究中總結(jié)的11個基本顏色詞:黑色、藍色、棕色、灰色、綠色、橙色、粉紅色、紫色、紅色、白色和黃色。由于不同光照下的同一顏色會依概率映射到對應(yīng)的顏色詞上,所以CN特征具有一定的光照不變性,且被認為與現(xiàn)實中的顏色具有非常緊密的聯(lián)系。該特征具備較強的顏色表達能力,在目標分類領(lǐng)域已經(jīng)得到了較好的應(yīng)用[10]。
在計算CN特征時,需要對圖像像素點完成一個從RGB顏色空間到CN各顏色詞的概率映射,映射矩陣M為常數(shù)。映射過后,CN特征描述子的定義如下:
OCN={p(cn1|x),p(cn2|x),…,p(cn11|x)}(1)
其中x為像素點的值,p(cni|x)表示屬于第i個顏色詞的概率值,且:
∑11i=1p(cni|x)=1(2)
傳統(tǒng)的矩陣M是由人工標注的一系列顏色片段學習獲得的,但是這種學習方法存在著大量的主觀因素,因此在文獻[14]中使用概率潛在語義分析(Probabilistic Latent Semantic Analysis, PLSA)模型從大量的谷歌圖片中自動學習獲得映射矩陣,并通過實驗比較得出比傳統(tǒng)方法學習出來的映射矩陣具有更加良好的性能,所以在本文中使用的映射矩陣M即是文獻[14]中學習獲得的矩陣。
HSV是一種基于色調(diào)(Hue)、飽和度(Saturation)和亮度(Value)的顏色模型,HSV顏色空間的色彩與人的視覺感知基本一致。
SILTP[12]是對局部二值模式(Local Binary Pattern, LBP)特征的改進,LBP計算簡單且具有良好的尺度不變性,但是對于圖像噪聲非常敏感,SILTP通過多次比較的方式對LBP進行改進,使得SILTP既具有LBP的尺度不變性又對圖像噪聲魯棒。
1.2直方圖提取
特征選擇后,即可對行人圖像進行區(qū)域劃分以及塊直方圖的提取。經(jīng)過參考文獻[8]中的參數(shù)及實驗驗證,本文提取特征的具體步驟如下:
步驟1區(qū)域劃分。每張行人圖像統(tǒng)一縮放至128×48像素大小,按照區(qū)域大小為10×48像素,步長為5像素將圖像水平分割成有重疊部分24個區(qū)域,其中最后一次步長為8。
步驟2塊劃分。對每一個區(qū)域使用大小為10×10像素,步長為5像素將每個區(qū)域分割成有重疊的8個塊,其中最后一次步長為8。
步驟3直方圖提取。對每一個塊提取CN、HSV和SILTP特征直方圖。CN特征中,每個詞分成25bin,11個詞通過相加獲得275bin,所有像素以每個詞的概率投票至對應(yīng)的bin中,最終獲得275維的CN特征直方圖;HSV特征中,三個通道每個通道分為8個bin,通過相乘獲得512維的顏色直方圖;SILTP特征選取SILTP0.34,3和SILTP0.34,4兩個尺度,獲得162維的紋理直方圖[12]。
步驟4直方圖合并。各特征提取后,每個塊直方圖的維度為275+512+162=949維。通過對應(yīng)維度值相加,把每個區(qū)域中的8個949維的直方圖合并成1個。至此,每個區(qū)域?qū)?yīng)一個949維的直方圖。
考慮到多尺度下能更好地描述圖像,本文將128×48像素的圖像進行2×2像素縮放,得到64×24像素和32×12像素兩個尺度。依照前述步驟進行了區(qū)域劃分以及直方圖提取,在64×24尺度下可得到11個區(qū)域,在32×12尺度下可得到5個區(qū)域,每個區(qū)域?qū)?yīng)一個949維的直方圖。
經(jīng)過上述操作后,提取出來每一幅圖像的特征維度為(24+11+5)×949=37960維。
最后,對特征進行l(wèi)og變換和歸一化操作獲得最終所需要的圖像特征,其中l(wèi)og變換是為了降低某個維度較大的數(shù)值特征的影響。
2度量學習
行人重識別時,不同的查詢樣本都有著各自的特點,如圖1所示:左邊行人,其中間部分區(qū)分性好,故中間部分提取的特征應(yīng)該增加權(quán)重;中間行人,其黑色上衣是很常見,所以對應(yīng)部分的特征應(yīng)該降低權(quán)重;右邊行人,其頭上戴著帽子,相比前兩張查詢圖片,頭部部分的特征的權(quán)重應(yīng)該增加。由此可看出,每個查詢圖像應(yīng)具有不同的部分權(quán)值,以提高查詢的精度。
在度量學習中,kLDFA是對于所有查詢樣本學習出來的映射矩陣,在檢索時無法保證前述的特性。因此,本文在kLDFA的基礎(chǔ)上,提出了一種查詢自適應(yīng)的度量學習方法,主要過程見圖2。該方法先把提取到的特征按2.1節(jié)所示進行分組,然后對每一組特征分別進行kLDFA度量學習得到映射矩陣并存儲起來,在相似性度量時再利用QALF對各個特征組的得分進行加權(quán)融合,得到相似性度量最終結(jié)果。
2.1特征分組
對于從對象圖像提取出來的特征,本文將其按圖像的上中下等分為3組,如圖3所示,特征組1包含原圖、第一次縮放和第二次縮放的前8、4和2個區(qū)域,維數(shù)為13286,記為F(1);特征組2包含原圖、第一次縮放和第二次縮放的中間8、4和2個區(qū)域,維數(shù)為13286,記為F(2);特征組3包含原圖、第一次縮放和第二次縮放的最后8、3和1個區(qū)域,維數(shù)為11388,記為F(3)。
2.3查詢自適應(yīng)得分融合
通過訓練數(shù)據(jù)求得每個特征組的映射矩陣之后,將其存入數(shù)據(jù)庫。當進行相似性度量時,先計算出各個特征組經(jīng)過映射后的得分,再采用QALF方法對各個特征組得分進行加權(quán)。該方法主要通過無標簽的訓練數(shù)據(jù),對每一張查詢圖像計算得出各個特征組的權(quán)重,以達到自適應(yīng)加權(quán)的效果。QALF[11]認為,描述能力強的特征比描述能力弱的特征在得分曲線下的面積要小,QALF方法主要分為離線部分以及在線部分:
3實驗與分析
3.1數(shù)據(jù)集與評價指標
本文選取VIPeR[2]和iLIDS[15]兩個存在視角變化的公開數(shù)據(jù)集評測所提方法的效果。
VIPeR數(shù)據(jù)集擁有1264張行人圖像,圖像大小為128×48像素,每個行人有2張從不同攝像機拍攝得到的圖像,圖像都是從水平視角拍攝,但是由于攝像機的視角變換,同一行人在不同攝像機下的圖像有較大的姿勢變化。
iLIDS數(shù)據(jù)集由476張行人圖像組成,包含119個行人,每個行人擁有2至8張圖像,由于數(shù)據(jù)集在機場拍攝,因此有部分行人圖像存在較嚴重的遮擋問題。
實驗中,為了與其他算法比較,本文采用M(r)評價指標,CMC(Cumulative Match Characteristic)評價曲線[8]。其中M(r)為排序后前r位圖像中包含正確圖像的概率。
3.2特征及度量方法對比分析
為了評測本文所提特征與度量方法對行人重識別精度的影響,本文在度量學習方法不變的條件下對比了本文特征與文獻[8]中的原始特征,同時在使用本文特征的條件下對比了本文度量方法與kLDFA[8]方法。實驗結(jié)果如圖4所示,其中,測試數(shù)據(jù)集統(tǒng)一為VIPeR。由圖4可知,當度量學習方法統(tǒng)一為kLDFA時,使用本文特征比原始特征在r=1的精度百分數(shù)上大約有10個百分點的增加,隨著r的增大,雖然提升的程度有所減小,但是依舊比原始特征的精度要高,這驗證了本文所提特征比原始特征具有更好的描述能力;當特征統(tǒng)一為本文特征時,使用本文提出的度量學習方法比kLDFA在r=1的精度百分數(shù)上大約有3個百分點的增加,并隨著r的增大,提升的程度更為明顯,這驗證了本文的度量學習方法能針對查詢圖片,對各個區(qū)域?qū)W習出合適的權(quán)重系數(shù),有效地提高行人重識別精度。
3.3綜合對比分析
本節(jié)實驗將本文的方法與SVMML方法[16]和KISSME方法[17]進行了對比,以評測本文方法的效果。實驗分別在VIPeR和iLIDS數(shù)據(jù)集上進行了測試,測試結(jié)果見表1。
由表1可看出,在VIPeR數(shù)據(jù)集上,當r=1時,本文方法比SVMML在精度百分數(shù)上提高約8個百分點,而比KISSME方法提高約13個百分點,隨著r的增大,本文方法依然保持良好精度;在iLIDS數(shù)據(jù)集上,當r=1時,本文方法比KISSME在精度上提升約14個百分點,而在VIPeR上精度較高的SVMML方法,在此數(shù)據(jù)集上則表現(xiàn)較差,這表明了本文方法具有更好的普適性。
4結(jié)語
在行人重識別技術(shù)中,特征描述與度量學習一直都是重難點問題,本文針對這兩個方面分別作了改進:在特征描述方面,基于特征融合的思想提取出一種更有效的特征;在度量學習方面,在kLDFA的基礎(chǔ)上加入自適應(yīng)得分融合,使得查詢圖像與數(shù)據(jù)庫圖像之間的相似性度量更加精確。實驗結(jié)果驗證了本文方法的有效性。文獻[3]中通過人物對稱屬性減少了背景干擾從而提高了重識別精度,在本文中,由于并未去除行人圖像背景的干擾,可能會導(dǎo)致精度有一定程度的下降,在接下來將進一步研究如何去除背景的干擾。
參考文獻:
[1]
GONG S, CRISTANI M, YAN S, et al. Person Reidentification [M]. Berlin: Springer, 2014.
[2]
GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features [C]// Proceeding of the 10th European Conference on Computer Vision, LNCS 5302. Berlin:Springer, 2008: 262-275.
[3]
FARENZENA M, BAZZANI L, PERINA A, et al. Person reidentification by symmetrydriven accumulation of local features [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.
KAI J, BODENSTEINER C, ARENS M. Person reidentification in multicamera networks [C]// Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2011: 55-61.
[4]
KAI J, BODENSTEINER C, ARENS M. Person reidentification in multicamera networks [C]// Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2011: 55-61.
FARENZENA M, BAZZANI L, PERINA A, et al. Person reidentification by symmetrydriven accumulation of local features [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.
[5]
BAZZANI L, CRISTANI M, MURINO V. Symmetrydriven accumulation of local features for human characterization and reidentification [J]. Computer Vision and Image Understanding, 2013, 117(2): 130-144.
[6]
ZHENG W S, GONG S, XIANG T. Person reidentification by probabilistic relative distance comparison [C]// CVPR 11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 649-656.
[7]
PEDAGADI S, ORWELL J, VELASTIN S, et al. Local Fisher discriminant analysis for pedestrian reidentification [C]// CVPR 13: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3318-3325.
[8]
XIONG F, GOU M, CAMPS O, et al. Person reidentification using kernelbased metric learning methods [M]// FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision—ECCV 2014, LNCS 8695. Berlin: Springer, 2014: 1-16.
[9]
張永庫,李云峰,孫勁光.基于多特征融合的圖像檢索[J].計算機應(yīng)用,2015,35(2):495-498.(ZHANG Y K, LI Y F, SUN J G. Image retrieval based on multifeature fusion[J]. Journal of Computer Applications, 2015, 35(2): 495- 498.)
[10]
KHAN F S, VAN DE WEIJER J, VANRELL M. Modulating shape features by color attention for object recognition [J]. International Journal of Computer Vision, 2012, 98(1): 49-64.
[11]
ZHENG L, WANG S, TIAN L, et al. Queryadaptive late fusion for image search and person reidentification [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1741-1750.
[12]
LIAO S, ZHAO G, KELLOKUMPU V, et al. Modeling pixel process with scale invariant local patterns for background subtraction in complex scenes [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 1301-1306.
[13]
BERLIN B, KAY P. Basic Color Terms: Their Universality and Evolution [M]. Berkeley, CA: University of California Press, 1991.
[14]
VAN DE WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for realworld applications [J]. IEEE Transactions on Image Processing, 2009, 18(7): 1512-1523.
[15]
ZHENG W S, GONG S, XIANG T. Associating groups of people [C] // Proceedings of the British Machine Vision Conference. 2009, 2: 6.
ZHENG W S, GONG S, XIANG T. Associating groups of people [EB/OL]. [20151211]. http://www.bmva.org/bmvc/2009/Papers/Paper167/Abstract167.pdf.
[16]
KOSTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints [C]// CVPR 12: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 2288-2295.