蔡曉東 楊超 王麗娟 甘凱今
摘要:
找到能減小類(lèi)內(nèi)距離、增大類(lèi)間距離的特征表示方法是行人識(shí)別的一個(gè)挑戰(zhàn)。提出一種基于行人驗(yàn)證和識(shí)別相融合的深度網(wǎng)絡(luò)模型來(lái)解決這一問(wèn)題。首先,識(shí)別監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)模型增加不同個(gè)人的類(lèi)間間距,驗(yàn)證監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)模型減少同一個(gè)行人的類(lèi)內(nèi)間距;然后,將行人驗(yàn)證和識(shí)別的深度網(wǎng)絡(luò)融合,提取到更有分辨能力的行人特征向量;最后,采用了聯(lián)合貝葉斯的行人比對(duì)方法,通過(guò)監(jiān)督學(xué)習(xí)排名的方式,提高行人比對(duì)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,所提方法在VIPeR庫(kù)上同其他深度網(wǎng)絡(luò)相比有較高的識(shí)別準(zhǔn)確率,融合網(wǎng)絡(luò)與單獨(dú)的識(shí)別和驗(yàn)證網(wǎng)絡(luò)相比有更高的收斂速度和識(shí)別準(zhǔn)確率。
關(guān)鍵詞:
行人識(shí)別;深度驗(yàn)證網(wǎng)絡(luò);深度識(shí)別網(wǎng)絡(luò);驗(yàn)證和識(shí)別相融合;聯(lián)合貝葉斯
中圖分類(lèi)號(hào):
TP391.41
文獻(xiàn)標(biāo)志碼:A
Abstract:
It is a challenge for person identification to find an appropriate person feature representation method which can reduce intrapersonal variations and enlarge interpersonal differences. A deep network for person identification based on joint identificationverification was proposed to solve this problem. First, the deep network model for identification was used to enlarge the interpersonal differences of different people while the verification model was used for reducing the intrapersonal distance of the same person. Second, the discriminative feature vectors were extracted by sharing parameters and jointing deep networks of identification and verification. At last,the joint Bayesian algorithm was adopted to calculate the similarity of two persons, which improved the accuracy of pedestrian alignment. Experimental results prove that the proposed method has higher pedestrian recognition accuracy compared with some other stateofart methods on VIPeR database; meanwhile, the joint identificationverification deep network has higher convergence speed and recognition accuracy than those of separated deep networks.
英文關(guān)鍵詞Key words:
person identification; deep verification network; deep identification network; joint identificationverification; joint Bayesian
0引言
跨場(chǎng)景行人識(shí)別是一個(gè)極具有挑戰(zhàn)性的問(wèn)題。行人從一個(gè)攝像頭穿到另一個(gè)攝像頭姿態(tài)變化,因攝像機(jī)參數(shù)、角度、分辨率不同以及不同場(chǎng)景下光照不一致等問(wèn)題,導(dǎo)致同一個(gè)行人被誤判為不同行人,特別是在不受約束的室外場(chǎng)景,其誤判率更高。因此,減少同一個(gè)行人的類(lèi)內(nèi)間距,增大不同行人的類(lèi)間間距是行人識(shí)別的一個(gè)重要研究方向。
近年來(lái)對(duì)這一問(wèn)題的研究主要集中在特征相似性度量方法上面,采用監(jiān)督式的特征相似性排名方式增大不同行人的類(lèi)間距離,減小同一個(gè)行人的類(lèi)內(nèi)距離,以達(dá)到提高排名準(zhǔn)確率的目的。如文獻(xiàn)[1]提出基于概率相對(duì)距離比較(Probabilistic Relative Distance Comparison, PRDC)的行人再識(shí)別方法,通過(guò)監(jiān)督學(xué)習(xí)的方式來(lái)度量特征向量的相似性排名,達(dá)到增大特征向量的類(lèi)間間離、減小類(lèi)內(nèi)距離的目的。
行人識(shí)別主要從特征提取和特征相似性度量方法提高行人識(shí)別的準(zhǔn)確率。然而,有很多方法采用純手工設(shè)計(jì)特征描述子的方式[2-5],當(dāng)一個(gè)行人在不同攝像機(jī)下表觀差異很大時(shí),其識(shí)別效果不佳。以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為首的深度特征提取方法在計(jì)算機(jī)視覺(jué)領(lǐng)域表現(xiàn)出很大潛力,包括圖片分類(lèi)[6]、物體檢測(cè)[7]、人臉識(shí)別[8-9]和姿態(tài)識(shí)別[10]等。
然而,基于深度學(xué)習(xí)的行人識(shí)別還有很多問(wèn)題需要解決。文獻(xiàn)[11]提出一種改進(jìn)的深度學(xué)習(xí)行人再識(shí)別框架(Improved Deep Learning Architecture, IDLA),該方法輸入一對(duì)行人,先分別經(jīng)過(guò)卷積、池化層,后經(jīng)過(guò)提出的交叉輸入鄰域差值層,達(dá)到減小同一個(gè)行人差異、增大不同行人的差異的目的。受到“Siamese”深度神經(jīng)網(wǎng)絡(luò)[12]的啟發(fā),文獻(xiàn)[13]提出了基于比對(duì)的深度行人再識(shí)別方法(Deep Metric Learning, DML),該框架輸入行人對(duì)信號(hào),通過(guò)比對(duì)深度學(xué)習(xí)框架提取行人的顏色和紋理特征。在此基礎(chǔ)之上,文獻(xiàn)[14]提出基于比對(duì)分塊的深度行人識(shí)別方法(Improved Deep Metric Learning, Improved DML),在DML方法的基礎(chǔ)之上提出了一個(gè)連接函數(shù)和一個(gè)損失函數(shù),并重新設(shè)計(jì)了深度比對(duì)框架。Improved DML將行人分割成48×48尺寸大小的3個(gè)子塊,然后采用深度網(wǎng)絡(luò)分別提取特征,最后通過(guò)比對(duì)層比較行人對(duì)的特征向量相似性。文獻(xiàn)[8]提出基于識(shí)別和驗(yàn)證信號(hào)融合的人臉識(shí)別方法,將驗(yàn)證信號(hào)和識(shí)別信號(hào)融合能夠增大不同人臉的類(lèi)間距離,減少同一人臉的類(lèi)內(nèi)距離。在傳統(tǒng)深度行人識(shí)別的基礎(chǔ)之上,為了找到能減小類(lèi)內(nèi)距離、增大類(lèi)間距離的特征表示方法,本文提出一種基于行人驗(yàn)證和識(shí)別相融合的深度網(wǎng)絡(luò)模型。
提取特征之后,大多數(shù)選用簡(jiǎn)單的距離度量方法來(lái)度量特征的相似程度,如l1范數(shù)[2]、l2范數(shù)[15]或者是Bhattacharyya距離[16]等。在不受約束的室外監(jiān)控環(huán)境中可能會(huì)導(dǎo)致行人的外觀特征發(fā)生明顯的變化,上述方法在這時(shí)不能很好地計(jì)算行人的相似性,導(dǎo)致識(shí)別率下降。文獻(xiàn)[9]提出基于聯(lián)合貝葉斯的人臉比對(duì)方法,通過(guò)監(jiān)督學(xué)習(xí)方式判斷兩張人臉是否是同一張人臉,提高了人臉比對(duì)的準(zhǔn)確率。本文改進(jìn)了該方法并將其運(yùn)用于驗(yàn)證和識(shí)別信號(hào)相融合的深度行人識(shí)別網(wǎng)絡(luò)的特征相似性排名上,以達(dá)到提高行人排名準(zhǔn)確率的目的。本文后續(xù)章節(jié)詳細(xì)介紹基于深度驗(yàn)證與識(shí)別相融合的行人識(shí)別網(wǎng)絡(luò)和基于深度特征融合聯(lián)合貝葉斯的行人特征比對(duì)方法。
1驗(yàn)證和識(shí)別相融合深度行人識(shí)別網(wǎng)絡(luò)
為了提取到高魯棒性的行人外觀特征描述子,在DeepID2[8]提出的基于驗(yàn)證和識(shí)別相融合的人臉識(shí)別方法的基礎(chǔ)之上,對(duì)傳統(tǒng)基于行人識(shí)別的CNN模型[13-14]進(jìn)行改進(jìn),提出基于驗(yàn)證和識(shí)別相融合的深度行人識(shí)別網(wǎng)絡(luò)。與傳統(tǒng)的深度行人識(shí)別網(wǎng)絡(luò)模型相比,本文提出的深度行人識(shí)別網(wǎng)絡(luò)通過(guò)共享卷積核參數(shù)的方式將串行識(shí)別網(wǎng)絡(luò)和并行驗(yàn)證網(wǎng)絡(luò)相融合。串行識(shí)別網(wǎng)絡(luò)主要對(duì)不同行人進(jìn)行分類(lèi)學(xué)習(xí),引導(dǎo)融合網(wǎng)絡(luò)增大不同行人的類(lèi)間間距特征表示;并行驗(yàn)證網(wǎng)絡(luò)通過(guò)比對(duì)兩張圖片是否是同一個(gè)行人,引導(dǎo)融合網(wǎng)絡(luò)減小同一個(gè)行人的類(lèi)內(nèi)距離特征表示。下面詳細(xì)描述本文所提出的基于驗(yàn)證和識(shí)別相融合的深度行人識(shí)別網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。
1.1CNN模型的基本層
本文提出的基于驗(yàn)證和識(shí)別相融合的深度行人識(shí)別網(wǎng)絡(luò)模型主要包括6種基本層,分別是:卷積層、池化層、全連接層、特征連接cosine層、cost函數(shù)層以及Softmax層。卷積層與池化層(抽樣層)多次交替出現(xiàn),得到一個(gè)“雙尖塔”的效果,其思想是模仿動(dòng)物視覺(jué)系統(tǒng)的視網(wǎng)膜感受神經(jīng)[17],下面對(duì)各層的基本原理作簡(jiǎn)要介紹。
卷積層對(duì)圖像作卷積運(yùn)算,并使用神經(jīng)元激活函數(shù)計(jì)算卷積后的輸出。卷積操作可以表示為:
yj=f(bj+∑iki, jxi)(1)
其中:xi為第i層輸入圖像,yj為第j層輸出圖像,ki, j是連接第i層輸入圖像與第j層輸出圖像的卷積核,bj是第j層輸出圖像的偏置,是卷積運(yùn)算符, f(x)是神經(jīng)元激活函數(shù)。本文使用非線(xiàn)性函數(shù)(Rectified Linear Unit, ReLu)作為激活函數(shù),即f(x)=max(0,x),該函數(shù)可加快深度網(wǎng)絡(luò)的收斂速度。式(1)中的卷積核ki, j與偏置bj是卷積網(wǎng)絡(luò)的訓(xùn)練參數(shù),通過(guò)大量的迭代訓(xùn)練得到較優(yōu)的取值。
池化層該層對(duì)卷積層的輸出作下采樣,其目的是減小特征圖尺寸的大小,增強(qiáng)特征提取對(duì)旋轉(zhuǎn)和形變的魯棒性。常用的池化方法有平均池化與最大池化,其中最大池化如式(2)所示:
pij,k=max0≤n 其中:pij,k為池化層的第i層輸出圖在(j,k)位置的值,l為池化的步長(zhǎng),m為池化尺寸。目前,最大池化在許多應(yīng)用中表現(xiàn)出良好的性能,本文采用了最大池化。 全連接層該層是一個(gè)單層神經(jīng)網(wǎng)絡(luò),上一層的任何一個(gè)神經(jīng)元節(jié)點(diǎn)都與下一層的所有神經(jīng)元節(jié)點(diǎn)連接。全連接層的參數(shù)由節(jié)點(diǎn)權(quán)重矩陣W、偏置b以及激活函數(shù)f構(gòu)成,如式(3)所示: y=f(W·x+b)(3) 其中:x、y分別為輸入、輸出數(shù)據(jù), f是激活函數(shù)。 cosine層驗(yàn)證深度網(wǎng)絡(luò)特征向量的連接層,采用余弦值來(lái)計(jì)算k維特征向量的相似度程度。對(duì)于給定兩個(gè)向量的m和n,它們的夾角為θ,向量m和n的相似性得分由式(4)計(jì)算得到: similarity=cos θ=m·n‖m‖‖n‖(4) cost函數(shù)層采用二項(xiàng)式偏差損失函數(shù),如式(5)所示,通過(guò)與標(biāo)簽比較,計(jì)算行人圖片經(jīng)過(guò)驗(yàn)證網(wǎng)絡(luò)后的損失值。 Jdev=∑i, jW⊙ln(exp(-α(S-β)⊙M)+1)(5) 其中:⊙表示矩陣點(diǎn)乘;i, j表示第i幅圖和第j幅圖;S=[Si, j]n×n表示行人對(duì)的相似矩陣,且Si, j=cosine(vi,vj);W=[Wi, j]n×n為權(quán)值矩陣,在訓(xùn)練時(shí)設(shè)置,正樣本對(duì)的Wi, j=1/n1,負(fù)樣本對(duì)的Wi, j=1/n2;M=[Mi, j]n×n為監(jiān)督學(xué)習(xí)標(biāo)簽,Mi, j=1正樣本對(duì),Mi, j=-1為負(fù)樣本對(duì);α、 β是超參數(shù),在訓(xùn)練的時(shí)設(shè)置。 Softmax loss layer層該層是一個(gè)分類(lèi)器,如表達(dá)式(6)所示,分類(lèi)結(jié)果與標(biāo)簽進(jìn)行比較然后計(jì)算行人圖片通過(guò)識(shí)別網(wǎng)絡(luò)的損失值。 yi=exp(xi)∑nj=1exp(xj)(6) 其中:xi為Softmax層第i個(gè)節(jié)點(diǎn)的值,yi為第i個(gè)輸出值,n為Softmax層節(jié)點(diǎn)的個(gè)數(shù)。 1.2驗(yàn)證和識(shí)別相融合的行人識(shí)別網(wǎng)絡(luò) 基于驗(yàn)證和識(shí)別相融合的深度行人識(shí)別網(wǎng)絡(luò)包括并行驗(yàn)證網(wǎng)絡(luò)和串行識(shí)別網(wǎng)絡(luò)兩個(gè)分支,它們通過(guò)共享卷積核和全 連接層的參數(shù)來(lái)引導(dǎo)融合網(wǎng)絡(luò)學(xué)習(xí)。驗(yàn)證網(wǎng)絡(luò)輸入一對(duì)行人圖片,通過(guò)Slice層將兩個(gè)行人分割,然后分別輸入CNN1和CNN2特征提取網(wǎng)絡(luò),CNN1和CNN2的結(jié)構(gòu)完全相同。單個(gè)CNN特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由卷積層和池化層交替組合而成。串行識(shí)別深度網(wǎng)絡(luò)輸入識(shí)別信號(hào)后,用CNN3提取深度行人特征,CNN3與并行驗(yàn)證深度網(wǎng)絡(luò)的CNN結(jié)構(gòu)完全相同。最后,通過(guò)共享3個(gè)CNN的卷積濾波器的權(quán)重和偏置使串行識(shí)別和并行驗(yàn)證深度網(wǎng)絡(luò)相融合,也即圖1中的C&P Layer。將提取到的二維深度特征采用全連接層平鋪成一維數(shù)據(jù)。并行驗(yàn)證網(wǎng)絡(luò)通過(guò)圖1中的FC Layer,然后采用cosine層連接2特征向量,并計(jì)算是否是同一個(gè)行人,最后,通過(guò)cost函數(shù)層計(jì)算損失函數(shù),同時(shí)采用隨機(jī)梯度下降(Stochastic Gradient Descent, SDG)引導(dǎo)深度融合網(wǎng)絡(luò)辨別行人。串行識(shí)別深度網(wǎng)絡(luò)經(jīng)過(guò)FC Layer,然后采用Softmax loss layer層,將不同行人進(jìn)行分類(lèi)并將分類(lèi)結(jié)果與標(biāo)簽比對(duì),采用SDG引導(dǎo)深度融合網(wǎng)絡(luò)區(qū)分不同行人。
CNN特征提取結(jié)構(gòu)由卷積(convolutional)層和池化(pooling)層組合而成,用于提取行人高層特征,其結(jié)構(gòu)如圖2所示。前3層卷積和池化層交替出現(xiàn),在第4層沒(méi)有采用池化層,因圖片經(jīng)過(guò)第4層卷積層之后尺寸很小,再采用池化層數(shù)據(jù)損失過(guò)多,不利于全連接層學(xué)習(xí)。
FC Layer層C&P Layer層提取到高層行人特征,全連接層將二維的特征平鋪數(shù)據(jù)成一維向量,F(xiàn)C Layer由3個(gè)圖3 所示的全連接結(jié)構(gòu)組成,其中并行驗(yàn)證網(wǎng)絡(luò)有2個(gè)圖中的全連接結(jié)構(gòu),串行識(shí)別有1個(gè)。圖3中全連接結(jié)構(gòu)的第1層和第2層分別有3096和1024個(gè)神經(jīng)元,也即圖1中的fci(i=1,2,3)層,并行驗(yàn)證和識(shí)別網(wǎng)絡(luò)參數(shù)一樣,且全部共享神經(jīng)元的權(quán)重和偏置。圖1中的fc_ j(j=a,b,c)層,也即全連接結(jié)構(gòu)的第3層并行驗(yàn)證和識(shí)別網(wǎng)絡(luò)有所不同,并行驗(yàn)證網(wǎng)絡(luò)中神經(jīng)元個(gè)數(shù)n=500,僅并行網(wǎng)絡(luò)內(nèi)部的2分支共享神經(jīng)元權(quán)重和偏置;串行識(shí)別深度網(wǎng)絡(luò)中神經(jīng)元個(gè)數(shù)n=400,該層沒(méi)有與并行驗(yàn)證網(wǎng)絡(luò)共享神經(jīng)元的權(quán)重和偏置,其中n=400表示400個(gè)不同行人樣本。
2聯(lián)合貝葉斯深度特征相似性度量方法
深度網(wǎng)絡(luò)提取到固定維數(shù)特征描述子,為了更加準(zhǔn)確地度量特征向量的相似距離,文獻(xiàn)[8]通過(guò)提取高維LBP(Local Binary Pattern)特征和聯(lián)合貝葉斯相結(jié)合,來(lái)提高了人臉比對(duì)排名的準(zhǔn)確率。本文將深度特征和聯(lián)合貝葉斯相結(jié)合,提高行人比對(duì)排名的準(zhǔn)確率。已知特征向量x1,x2,直接將(x1,x2)聯(lián)合建立2維模型。基于聯(lián)合貝葉斯的深度特征相似性度量主要分為兩個(gè)部分:通過(guò)大量樣本的特征向量學(xué)習(xí)聯(lián)合貝葉斯相似度量的參數(shù)A、G矩陣,通過(guò)學(xué)習(xí)的參數(shù)計(jì)算特征向量的相似性得分。
基于行人的聯(lián)合貝葉斯相似性模型基本思想為每個(gè)行人可以表達(dá)為式(7)的形式:基于行人的聯(lián)合貝葉斯相似性模型的基本思想如式(7),每個(gè)行人差異都可以表達(dá)為式(7)的形式:
x=μ+ε(7)
其中: μ表示行人區(qū)分特征,也就是人與人之間的差異;ε表示同一個(gè)行人自身的變換量(姿態(tài)、光照、角度等);x為去均值后的行人。 μ、ε服從高斯分布N(0,Sμ)、N(0,Sε),Sμ,Sε為待求的協(xié)方差矩陣,通過(guò)大量樣本的深度特征向量學(xué)習(xí)得到,學(xué)習(xí)過(guò)程如下:
在Market1501庫(kù)中隨機(jī)抽取1000個(gè)行人通過(guò)融合網(wǎng)絡(luò)提取其深度特征向量,每個(gè)行人有n=30張圖片,表示為xni=[v1,v2,…,v500],i∈[1,1000]。
1)計(jì)算所有行人特征的均值向量。
2)所有行人特征減去均值作為下面的行人特征,達(dá)到樣本特征0均值的目的。
3)用每個(gè)行人的特征計(jì)算該特征均值。
4)所有行人特征減去對(duì)應(yīng)行人特征向量均值,將每個(gè)人特征拆分成上文所述的兩部分μ、ε。
5)用最大期望(Expectation Maximization, EM)算法求解Sμ,Sε。
6)如果Sμ,Sε收斂,退出訓(xùn)練并求解矩陣A和G;否則重復(fù)步驟5)。
3實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)平臺(tái)的配置為Intel i3四核3.4GHz處理器、12GB內(nèi)存、GTX980Ti顯卡以及Ubuntu 14.04操作系統(tǒng),并使用基于C++編程語(yǔ)言的Caffe工具包。
在訓(xùn)練過(guò)程中,本文從CUHK01和CUHK03庫(kù)隨機(jī)挑選1850個(gè)行人組合成行人對(duì),構(gòu)成驗(yàn)證網(wǎng)絡(luò)的正負(fù)樣本。每個(gè)行人選取4張圖片,包括2個(gè)場(chǎng)景、2個(gè)姿態(tài)。行人樣本經(jīng)過(guò)鏡像、旋轉(zhuǎn)操作,每個(gè)行人擴(kuò)展成16張圖片,隨機(jī)組合正負(fù)樣本。同一個(gè)行人作正樣本,標(biāo)簽為1;不同行人作為負(fù)樣本,標(biāo)簽為-1。本文串行識(shí)別網(wǎng)絡(luò)輸入的識(shí)別信號(hào)是從小區(qū)監(jiān)控視頻里面取得。在小區(qū)的多個(gè)監(jiān)控?cái)z像頭中挑選出400個(gè)行人,每個(gè)行人有48張圖片,包括了2個(gè)以上攝像頭監(jiān)控場(chǎng)景,每個(gè)行人有多個(gè)角度(正面到背面)。最后把所有的行人圖片都縮放到60×160像素大小。
本文將CUHK01沒(méi)有訓(xùn)練的200個(gè)行人用于測(cè)試融合網(wǎng)絡(luò)的性能。融合網(wǎng)絡(luò)與任意單獨(dú)網(wǎng)絡(luò)收斂的耗時(shí)比對(duì)如表1所示。從表1中可以知道,融合深度行人網(wǎng)絡(luò)比任意單網(wǎng)絡(luò)有更高的收斂速度。實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)識(shí)別網(wǎng)絡(luò)需要設(shè)置較大的學(xué)習(xí)率,驗(yàn)證網(wǎng)絡(luò)需要較小的學(xué)習(xí)率。融合網(wǎng)絡(luò)需要共用一個(gè)學(xué)習(xí)率,為了防止識(shí)別網(wǎng)絡(luò)過(guò)擬合,先將學(xué)習(xí)率調(diào)低,該學(xué)習(xí)率介于串行識(shí)別網(wǎng)絡(luò)和驗(yàn)證比對(duì)網(wǎng)絡(luò)的學(xué)習(xí)率之間。驗(yàn)證網(wǎng)絡(luò)有較快學(xué)習(xí)速度,同時(shí)引導(dǎo)識(shí)別網(wǎng)絡(luò)收斂,迭代到6000次左右的時(shí)候,將融合網(wǎng)絡(luò)的學(xué)習(xí)率增大10倍,加快融合網(wǎng)絡(luò)收斂。當(dāng)然,融合網(wǎng)絡(luò)迭代1次比單網(wǎng)絡(luò)要耗時(shí),但是驗(yàn)證網(wǎng)絡(luò)和識(shí)別網(wǎng)絡(luò)相互調(diào)整,整體上能加快融合網(wǎng)絡(luò)的收斂。
為了評(píng)估本文所提方法的有效性,從VIPeR庫(kù)中隨機(jī)抽出316個(gè)行人用于深度融合網(wǎng)絡(luò)的尋優(yōu),剩下316個(gè)行人用于和現(xiàn)有的基于深度行人識(shí)別網(wǎng)絡(luò)相比對(duì),本文所提出行人深度網(wǎng)絡(luò)在VIPeR數(shù)據(jù)集上與最新的DML、Improved DML和IDLA方法相比(除top30外)有較高的識(shí)別準(zhǔn)確率,如表2所示,本文方法在top20之后和現(xiàn)有的行人識(shí)別方法的準(zhǔn)確率優(yōu)勢(shì)越來(lái)越小,在top30的時(shí)候和現(xiàn)有方法有相同的識(shí)別準(zhǔn)確率,是因?yàn)閂IPeR數(shù)據(jù)集的復(fù)雜性;現(xiàn)有方法在top20之后的排名準(zhǔn)確率已經(jīng)很高,很難提高top20之后的排名準(zhǔn)確率,top1到top20排名準(zhǔn)確率還有很大的提升空間。
4結(jié)語(yǔ)
本文提出的基于驗(yàn)證和識(shí)別相融合的深度行人識(shí)別網(wǎng)絡(luò),能有效提取行人特征,深度融合網(wǎng)絡(luò)與深度驗(yàn)證和深度識(shí)別網(wǎng)絡(luò)相比在識(shí)別準(zhǔn)確率和收斂速度上有明顯的優(yōu)勢(shì)。基于深度特征融合聯(lián)合貝葉斯的行人比對(duì)方法比基于深度特征的cos行人比對(duì)方法有較高的識(shí)別準(zhǔn)確率。同時(shí),本文方法在VIPeR數(shù)據(jù)集上同其他現(xiàn)有深度行人識(shí)別方法相比(除top30外)有較高的識(shí)別準(zhǔn)確率。
參考文獻(xiàn):
[1]
ZHENG W S, GONG S, XIANG T. Person reidentification by probabilistic relative distance comparison [C]// CVPR 11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 649-656.
[2]
SATTA R, FUMERA G, ROLI F, et al. A multiple component matching framework for person reidentification [C]// MAINO G, FORESTI G L. Image Analysis and Processing—ICIAP 2011, LNCS 6979. Berlin: Springer, 2011: 140-149.
[3]
LIU C, GONG S, CHEN C L, et al. Person reidentification: what features are important? [C]// ECCV 12: Proceedings of the 12th International Conference on Computer Vision. Berlin: Springer, 2012: 391-401.
[4]
SCHGERL P, SORSCHAG R, BAILER W, et al. Object redetection using SIFT and MPEG7 color descriptors [C]// MCAM 2007: Proceedings of the 2007 International Workshop Multimedia Content Analysis and Mining, LNCS 4577. Berlin: Springer, 2007: 305-314.
[5]
WANG X, DORETTO G, SEBASTIAN T, et al. Shape and appearance context modeling [C]// ICCV 2007: Proceedings of the 2007 IEEE 11th International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2007: 1-8.
[6]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1-9.
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [20151027]. https://datajobs.com/datasciencerepo/ImageNetNeuralNet%5bHintonetal%5d.pdf.
[7]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.
[8]
SUN Y, WANG X, TANG X. Deep learning face representation by joint identificationverification [J]. Advances in Neural Information Processing Systems, 2014, 27: 1988-1996.
SUN Y, WANG X, TANG X. Deep learning face representation by joint identificationverification [EB/OL]. [20160103]. http://www.ee.cuhk.edu.hk/~xgwang/papers/sunWTarxiv14.pdf.
[9]
CHEN D, CAO X, WANG L, et al. Bayesian face revisited: a joint formulation [M]// FITZGIBBON A, LAZEBNIK S, PERONA P, et al. Computer Vision—ECCV 2012, LNCS 7574. Berlin: Springer, 2012: 566-579.
[10]
TOSHEV A, SZEGEDY C. DeepPose: human pose estimation via deep neural networks [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 1653-1660.
[11]
AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person reidentification [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3908-3916.
[12]
BROMLEY J, BENTZ J W, BOTTOU L, et al. Signature verification using a "siamese" time delay neural network [C]// NIPS 1994: 1994 Conference on Neural Information Processing Systems, 1994:737-744.
BROMLEY J, BENTZ J W, BOTTOU L, et al. Signature verification using a "siamese" time delay neural network [EB/OL]. [20151116]. http://papers.nips.cc/paper/769signatureverificationusinga.pdf.
[13]
YI D, LEI Z, LIAO S, et al. Deep metric learning for person reidentification [C]// ICPR 14: Proceedings of the 2014 22nd International Conference on Pattern Recognition. Washington, DC: IEEE, 2014:2666-2672.
YI D, LEI Z, LIAO S, et al. Deep metric learning for person reidentification [C]// ICPR 14: Proceedings of the 2014 22nd International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 34-39.
[14]
YI DONG, LEI ZHEN, LIAO SHENGCAI. Deep Metric Learning for Practical Person Re-Identification[J]. Eprint Arxiv, 2014:34-39.
YI D, LEI Z, LI S Z, et al. Deep metric learning for practical person reidentification [J]. Computer Science, 2014:34-39.
YI D, LEI Z, LI S Z, et al. Deep metric learning for practical person reidentification [EB/OL]. [20151123]. http://xueshu.baidu.com/s?wd=paperuri%3A%2869b67efb26b657d43e6d3bbf4e2a05d4%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fde.arxiv.org%2Fpdf%2F1407.4979&ie=utf8&sc_us=8632976325773889661.
[15]
HU W, HU M, ZHOU X, et al. Principal axisbased correspondence between multiple cameras for people tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006, 28(4): 663-671.
[16]
GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features [C]// ECCV 08: Proceedings of the 2008 10th European Conference on Computer Vision. Berlin: Springer, 2008: 262-275.
[17]
KE Y, SUKTHANKAR R. PCASIFT: a more distinctive representation for local image descriptors [C]// CVPR 2004: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. 2004:506-513.
KE Y, SUKTHANKAR R. PCASIFT: a more distinctive representation for local image descriptors [EB/OL]. [20151116]. http://wwwcgi.cs.cmu.edu/afs/cs.cmu.edu/user/rahuls/www/pub/irptr0315rahuls.pdf.