胡曉強(qiáng),魏 丹,王子陽(yáng),沈江霖,任洪娟
(上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院,上海 201620)
行人重識(shí)別是判斷圖像或視頻序列中是否存在特定行人的關(guān)鍵技術(shù),被認(rèn)為是圖像檢索的子問(wèn)題,可為犯人追蹤、視頻數(shù)據(jù)處理等問(wèn)題提供智能化解決方案,具有重要的理論意義和實(shí)際應(yīng)用價(jià)值[1]。由于行人外觀易受穿著、遮擋、姿態(tài)和視角等因素的影響,使得行人重識(shí)別成為計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)具有挑戰(zhàn)性的研究課題。
行人重識(shí)別的關(guān)鍵問(wèn)題是尋找一個(gè)最具魯棒性的特征表示。在現(xiàn)有模式識(shí)別研究中,涉及區(qū)域特征[2]和特征融合[3]的研究較多。文獻(xiàn)[4]提出一種端到端比較注意網(wǎng)絡(luò)(Comparative Attention Network,CAN)模型。該模型在學(xué)習(xí)幾張行人圖像后有選擇地關(guān)注顯著的部分,采用比較注意元件生成關(guān)注區(qū)域,基于LSTM生成注意力圖,利用CAN 模型模擬人類的感知過(guò)程,驗(yàn)證兩幅圖像是否為同一行人。文獻(xiàn)[5]提出基于局部卷積基準(zhǔn)(Part-based Convolutional Baseline,PCB)網(wǎng)絡(luò)和精確局部池化(Refined Part Pooling,RPP)方法提取局部特征。利用PCB網(wǎng)絡(luò)將特征圖水平劃分為六等分并進(jìn)行平均池化和降維,同時(shí)利用RPP 方法將異常值重新分配生成具有內(nèi)部一致性的精確局部特征,但這種處理方式會(huì)產(chǎn)生區(qū)域異常值。文獻(xiàn)[6]提出一種基于視頻的全局深度表示學(xué)習(xí)方法,以軟注意力模塊學(xué)習(xí)局部特征,在視頻范圍內(nèi)聚合局部特征。該方法作為對(duì)3D卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)層的補(bǔ)充,能夠捕獲視頻中的外觀信息和運(yùn)動(dòng)信息,進(jìn)一步增加3D 局部對(duì)齊方式。網(wǎng)絡(luò)經(jīng)過(guò)端到端訓(xùn)練,能夠自動(dòng)學(xué)習(xí)更具判別性的局部區(qū)域,從而減少背景等因素造成的影響,但是行人姿勢(shì)會(huì)隨著時(shí)間的推移而發(fā)生改變,顯著區(qū)域會(huì)被佩戴物品遮擋,同時(shí)也會(huì)造成大量空間信息的丟失。
進(jìn)行視頻行人重識(shí)別時(shí)需要考慮時(shí)間信息的影響,對(duì)此的解決方法主要有3D CNN、遞歸循壞網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、光流和時(shí)間聚合[7]。文獻(xiàn)[8-9]在采用CNN 提取空間特征的同時(shí)利用RNN 提取時(shí)序特征,針對(duì)單幀圖像信息不足的問(wèn)題,采用多幀序列圖像信息進(jìn)行彌補(bǔ),對(duì)圖像區(qū)域的質(zhì)量進(jìn)行評(píng)估,將來(lái)自其他采樣幀的高質(zhì)量區(qū)域補(bǔ)償?shù)降唾|(zhì)量區(qū)域[10]。文獻(xiàn)[11]采用CNN 提取步態(tài)序列的空間特征,利用LSTM 從步態(tài)序列中提取時(shí)間特征,最終得到時(shí)空信息融合的特征表示。文獻(xiàn)[12]提出利用改善循環(huán)單元(Refining Recurrent Unit,RRU)進(jìn)行幀間特征的升級(jí)。不同于LSTM,RRU 不直接利用每幀特征提取時(shí)間信息,而是根據(jù)歷史視頻幀的外觀和上下文恢復(fù)當(dāng)前幀缺失的部分。文獻(xiàn)[13]將RNN 單元輸出的平均值作為最終的特征表示并直接采用最后一個(gè)隱藏層的輸出作為時(shí)間聚合的特征表示。本文對(duì)局部特征序列進(jìn)行權(quán)重分配并加權(quán)平均,在空間特征的基礎(chǔ)上融入時(shí)間信息,這種權(quán)重分配的方式優(yōu)于文獻(xiàn)[13]的全局平均和最后隱藏層輸出的方法。以上行人重識(shí)別方法著重考慮關(guān)注區(qū)域,丟棄了全局特征的大量信息,同時(shí)也沒(méi)有將空間信息與時(shí)間信息進(jìn)行充分融合。
本文提出一種基于時(shí)空關(guān)注區(qū)域的行人重識(shí)別方法,將空間信息與時(shí)序信息進(jìn)行深度融合,以解決行人姿勢(shì)變換[14]和遮擋等問(wèn)題,并通過(guò)快慢網(wǎng)絡(luò)[15]提取全局特征和關(guān)注區(qū)域特征??炻W(wǎng)絡(luò)以不同的速度處理時(shí)間信息,用以捕獲視頻幀快速變化的動(dòng)作信息,兩個(gè)路徑分別提取關(guān)注區(qū)域特征和全局特征。同時(shí),提出一種融合模型替代快慢網(wǎng)絡(luò)中的橫向連接,采用親和度矩陣和定位參數(shù)融合局部特征和全局特征,從而形成凸顯關(guān)注區(qū)域的全局特征。
視頻V被分割成連續(xù)的非重疊視頻片段{Am}m?[1,M],每個(gè)視頻片段包含T幀,將視頻片段的首尾兩幀P={Ja|a=1,2}作為慢路徑的輸入,對(duì)視頻片段按梯度采樣6 幀Q={In|n=1,2,…,6}作為快路徑的輸入,采樣幀P和Q均來(lái)自同一視頻片段。如圖1所示,本文方法框架由快慢網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)改進(jìn),其中,慢路徑是全局特征X的提取流程,快路徑是局部關(guān)注區(qū)域生成和特征聚合的流程,跨幀的關(guān)注區(qū)域特征被時(shí)間聚合后生成fk=[f1,f2,f3,f4],融合模塊將全局特征X和局部特征fk融合成最終的全局時(shí)空特征表示F。
圖1 基于時(shí)空關(guān)注區(qū)域的行人重識(shí)別框架Fig.1 Person re-identification framework based on spatio-temporal attention region
慢路徑采樣幀稀疏,低幀率運(yùn)行,時(shí)間分辨率低,用于提取優(yōu)良的空間特征,獲得完整的語(yǔ)義信息;快路徑采樣幀數(shù)是慢路徑的γ倍,高幀率運(yùn)行,時(shí)間分辨率高,用于捕捉快速變化的動(dòng)作信息??炻窂降耐ǖ罃?shù)是慢路徑的1/γ倍,便于網(wǎng)絡(luò)的快速運(yùn)行。2 個(gè)路徑的輸入幀尺寸均為240×240,慢路徑提取的全局特征尺寸為30×30,快路徑則進(jìn)行關(guān)注區(qū)域特征的獲取與聚合。在本文中,慢路徑視頻片段采樣2 幀,取γ=3,快路徑視頻片段采樣6 幀,通道數(shù)是慢路徑的1/3。
1.2.1 多重空間關(guān)注
多重空間關(guān)注模型基于文獻(xiàn)[16]的多樣性正則化實(shí)現(xiàn),用于發(fā)現(xiàn)具有判別性的身體區(qū)域,減小遮擋、視角等因素對(duì)識(shí)別結(jié)果的影響。
如圖2 所示,時(shí)空關(guān)注模型采用ResNet-50 的conv1 到res5c 作為特征提取器,每個(gè)圖像In由8×8 網(wǎng)格的特征向量{un,l},l?[1,L]表示,L=30 是網(wǎng)格單元的數(shù)量,利用conv 網(wǎng)絡(luò)和softmax 函數(shù)生成輸入圖像的多個(gè)空間注意區(qū)域和相應(yīng)的感受野。
圖2 多重空間關(guān)注模型Fig.2 Multiple spatial attention model
以Sn,k=[Sn,k,1,Sn,k,2,…,Sn,k,L]表示第n個(gè)采樣幀第k個(gè)空間關(guān)注區(qū)域的感受野,每個(gè)感受野是概率質(zhì)量分?jǐn)?shù),即=1。對(duì)于每個(gè)圖像In,使用注意加權(quán)平均生成K個(gè)關(guān)注區(qū)域視覺(jué)特征:
其中,每個(gè)視覺(jué)特征表示圖像的顯著區(qū)域。為約束空間關(guān)注模型學(xué)習(xí)到不同的顯著區(qū)域,文獻(xiàn)[16]設(shè)計(jì)一個(gè)懲罰項(xiàng)衡量感受野之間的重疊,基于Hellinger 距離度量關(guān)注區(qū)域之間的相似性:
為抑制關(guān)注區(qū)域之間的重疊,Sn,i和Sn,j之間的距離應(yīng)盡可能大,即1-H2(Sn,i,Sn,j)應(yīng)盡可能小。在快路徑中,每個(gè)視頻片段存在6張采樣幀,每張采樣幀確定4個(gè)關(guān)注區(qū)域,即K=4,網(wǎng)絡(luò)通過(guò)預(yù)訓(xùn)練和約束訓(xùn)練自動(dòng)學(xué)習(xí)每個(gè)行人的臉部、手臂、膝蓋、腳,產(chǎn)生24個(gè)關(guān)注區(qū)域特征(共6組,每組4個(gè)):{In,k|n?[1,2,…,6],k?[1,2,3,4]} 。
1.2.2 時(shí)間聚合模型
在1.2.1 節(jié)中,每個(gè)采樣幀都由4 個(gè)關(guān)注區(qū)域的集合表示,即{In,k}=[In,1,In,2,In,3,In,4],本文采用圖3 所示的時(shí)間聚合模型,在局部特征的基礎(chǔ)上融入時(shí)間信息,計(jì)算所有采樣幀相同部位的特征權(quán)重Cn,k,=1,k?[1,2,3,4],由此形成時(shí)空關(guān)注的局部特征表示。
圖3 時(shí)間聚合模型Fig.3 Temporal aggregation model
時(shí)間聚合模型由空間卷積層(輸入通道數(shù)為1 024,輸出通道數(shù)為D)和全連接層(輸入通道數(shù)為D,輸出通道數(shù)為1)組成,采用采樣幀相同部位的關(guān)注區(qū)域特征作為輸入,空間卷積層對(duì)關(guān)注區(qū)域的特征表示做進(jìn)一步卷積操作,生成6 個(gè)采樣幀相同部位的特征表示{f1,k,f2,k,f3,k,f4,k,f5,k,f6,k},經(jīng)全連接層輸出每個(gè)特征表示的權(quán)重Cn,k,然后對(duì)跨幀的局部特征表示進(jìn)行加權(quán)聚合:
其中,k?[1,2,3,4],fk為連續(xù)幀相同部位具有時(shí)空特性的特征表示。
快慢網(wǎng)絡(luò)中的橫向連接存在融合過(guò)程復(fù)雜和單向連接等不足。本文提出一種融合模型代替快慢網(wǎng)絡(luò)中的橫向連接。該模型將局部關(guān)注特征fk與全局特征X融合,形成關(guān)注區(qū)域凸顯且不丟失全局信息的全局特征表示,其融合過(guò)程簡(jiǎn)單,且不受單向連接的限制。模型中包括親和度函數(shù)H和定位函數(shù)G,具體細(xì)節(jié)如圖4 所示。
圖4 融合模型Fig.4 Fusion model
1.3.1 親和度函數(shù)
親和度函數(shù)H用于表示局部特征fk與特征X之間的相似性,函數(shù)表達(dá)式為H(X,fk)=Hk,RD×30×30×,其中,D是特征向量維數(shù),e×e是關(guān)注區(qū)域特征尺寸。親和度函數(shù)計(jì)算嵌入特征之間的點(diǎn)積,fk與X之間的相似性度量矩陣為:
其中,X(m)表示特征X中空間網(wǎng)格m的特征,fk(n)表示fk中網(wǎng)格n的特征。對(duì)于每個(gè)fk(n),利用親和度函數(shù)H(m,n)在fk(n)的空間維度上進(jìn)行softmax 歸一化。
1.3.2 定位函數(shù)
定位函數(shù)G由2 個(gè)卷積層和1 個(gè)線性層組成,將親和度函數(shù)H(m,n)作為輸入,在特征X中尋找與關(guān)注區(qū)域特征fk最相似的區(qū)域,并輸出該區(qū)域的定位參數(shù)θk,定位參數(shù)為雙線性采樣網(wǎng)格的4 個(gè)參數(shù)[17],定位函數(shù)的表達(dá)式為:
定位參數(shù)θk=[a,b,c,d]用于映射局部關(guān)注特征fk和全局特征X坐標(biāo)位置之間的關(guān)系:
其中,(xi,yi)表示關(guān)注區(qū)域特征fk的坐標(biāo)位置,()表示在全局特征X中與關(guān)注特征fk相對(duì)應(yīng)的區(qū)域坐標(biāo)位置,參數(shù)θk=[a,b,c,d]表達(dá)坐標(biāo)位置之間的平移和旋轉(zhuǎn)關(guān)系。
函數(shù)o(˙)根據(jù)定位參數(shù)將局部特征fk融合到全局特征X中,最終獲得凸顯局部特征且不丟失整體細(xì)節(jié)的全局特征表示F。
本文采用融合損失函數(shù)和三重?fù)p失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,融合損失函數(shù)基于局部關(guān)注特征fk與其在全局特征中相對(duì)應(yīng)區(qū)域之間的平均歐氏距離對(duì)識(shí)別結(jié)果進(jìn)行判定:
其中,X(θk) 表示與fk相對(duì)應(yīng)的關(guān)注區(qū)域特征,表示fk與X(θk)的歐氏距離的和,Lfusion即為平均歐式距離,采用端到端的方式訓(xùn)練網(wǎng)絡(luò),直到Lfusion趨于最優(yōu)值。
三重?fù)p失函數(shù)[18]在一個(gè)批次中將待檢測(cè)樣本、一個(gè)正樣本和一個(gè)負(fù)樣本構(gòu)成三元組,該批次由P個(gè)待檢測(cè)樣本和每個(gè)檢測(cè)樣本的A個(gè)視頻片段組成,每個(gè)視頻片段有T幀,該批次共有P×A個(gè)視頻片段,利用本文網(wǎng)絡(luò)架構(gòu)在該批次中識(shí)別出最優(yōu)正樣本和最差負(fù)樣本,構(gòu)成三重度量損失,表達(dá)式如下:
其中,a是設(shè)定的閾值參數(shù)。總損失等于兩個(gè)損失函數(shù)的和,表示為:
融合損失和三重度量損失都是基于特征表示的,彼此之間存在內(nèi)在聯(lián)系,因此,可將融合損失作為融合階段的經(jīng)驗(yàn)指導(dǎo)和糾正匹配錯(cuò)誤。
基于iLIDS-VID、PRID-2011 和MARS 視頻數(shù)據(jù)集對(duì)本文方法進(jìn)行性能評(píng)估。
首先在ImageNet 數(shù)據(jù)集上對(duì)Resnet-50 進(jìn)行預(yù)訓(xùn)練,然后在3 個(gè)數(shù)據(jù)集上進(jìn)行微調(diào)。在訓(xùn)練階段,輸入圖像的大小為240 像素×240 像素。為方便實(shí)驗(yàn)對(duì)比,訓(xùn)練包含不同關(guān)注區(qū)域數(shù)量的空間關(guān)注模型。在時(shí)間聚合模型和融合模型訓(xùn)練過(guò)程中,假設(shè)T=6,K=4,采用隨機(jī)梯度下降算法對(duì)網(wǎng)絡(luò)學(xué)習(xí)進(jìn)行更新,初始學(xué)習(xí)率設(shè)置為0.1,逐漸降至0.01。在測(cè)試階段,在3 個(gè)視頻數(shù)據(jù)集上分別計(jì)算平均精度(mAP)和Rank-1、Rank-5 的準(zhǔn)確率作為對(duì)模型行人重識(shí)別性能的評(píng)價(jià)指標(biāo)。
2.2.1 空間關(guān)注模型數(shù)量
首先研究空間關(guān)注模型的數(shù)量K對(duì)識(shí)別效果的影響。隨著空間關(guān)注模型數(shù)量的增加,網(wǎng)絡(luò)能夠發(fā)現(xiàn)更多的顯著區(qū)域。由于受到多樣性正則化的約束,隨著K的增大,關(guān)注區(qū)域的尺寸不斷縮小。如表1 所示,當(dāng)K=2 時(shí),關(guān)注區(qū)域往往會(huì)包含多個(gè)身體部位和背景,識(shí)別性能較低,經(jīng)實(shí)驗(yàn)驗(yàn)證,本文模型在K=4 時(shí)網(wǎng)絡(luò)的識(shí)別性能達(dá)到最優(yōu)。如果K再持續(xù)增大,識(shí)別效果反而降低,這是因?yàn)樵诙鄻有哉齽t化約束的情況下,空間關(guān)注模型的數(shù)量過(guò)多會(huì)導(dǎo)致關(guān)注區(qū)域尺寸過(guò)小或者特征判別性降低,最終使識(shí)別準(zhǔn)確率下降。筆者在iLIDS-VID 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí)發(fā)現(xiàn),K=6 時(shí)識(shí)別效果最佳,這與數(shù)據(jù)集的特性有關(guān),因?yàn)閕LIDS-VID 數(shù)據(jù)集具有復(fù)雜的背景和嚴(yán)重的遮擋。增加關(guān)注區(qū)域的數(shù)量可以減少背景和遮擋對(duì)識(shí)別結(jié)果的影響,在不同數(shù)據(jù)集中關(guān)注區(qū)域的尺寸對(duì)識(shí)別準(zhǔn)確率有很大影響,下文將對(duì)此做進(jìn)一步討論。
表1 多重空間關(guān)注模型的Rank-1 準(zhǔn)確率Table 1 Rank-1 accuracy of multiple spatial attention model %
2.2.2 關(guān)注區(qū)域尺寸
在上述實(shí)驗(yàn)中,設(shè)置每個(gè)相同部位的關(guān)注區(qū)域尺寸是相同的,目的是便于進(jìn)行時(shí)間聚合,在此基礎(chǔ)上進(jìn)行關(guān)注部位區(qū)域尺寸的討論,并記錄最優(yōu)的區(qū)域尺寸和識(shí)別準(zhǔn)確率。首先進(jìn)行單一關(guān)注區(qū)域尺寸的討論。以膝蓋為例,分別設(shè)定不同尺寸的膝蓋區(qū)域,記錄識(shí)別準(zhǔn)確率,然后以所有關(guān)注區(qū)域的尺寸最優(yōu)值為約束條件,最終得到識(shí)別準(zhǔn)確率。
表2 的上半部分為單一區(qū)域尺寸的實(shí)驗(yàn)結(jié)果。可以看出,在原始圖像中,膝蓋區(qū)域尺寸為48×48時(shí)Rank-1準(zhǔn)確率最高,達(dá)到80.4%,由實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),識(shí)別準(zhǔn)確率會(huì)隨著設(shè)定區(qū)域的擴(kuò)大而不斷減小,這是由于背景逐漸增多造成的影響。表2 的下半部分為關(guān)注區(qū)域尺寸全部為最優(yōu)值的實(shí)驗(yàn)結(jié)果??梢钥闯觯贛ARS數(shù)據(jù)集上Rank-1 準(zhǔn)確率達(dá)到88.2%,在對(duì)單一區(qū)域尺寸進(jìn)行單獨(dú)討論時(shí),Rank-1 準(zhǔn)確率都略低于88.2%,這是因?yàn)槠渌P(guān)注部位的區(qū)域尺寸不是最優(yōu)值。
表2 不同部位的關(guān)注區(qū)域尺寸Table 2 Size of attention region in different parts
2.2.3 橫向連接與融合模型
設(shè)置一系列對(duì)比實(shí)驗(yàn)驗(yàn)證融合模型的性能,首先是單一路徑實(shí)驗(yàn),分為慢網(wǎng)絡(luò)和快網(wǎng)絡(luò)進(jìn)行雙路徑快慢網(wǎng)絡(luò)結(jié)合的實(shí)驗(yàn)驗(yàn)證??炻W(wǎng)絡(luò)橫向連接存在3 種形式,即時(shí)間到通道、時(shí)間跨度采樣和時(shí)間跨度卷積[15]。橫向連接需要匹配特征的大小,慢網(wǎng)絡(luò)的特征參數(shù)為{T,S2,C},快網(wǎng)絡(luò)的特征參數(shù)為{γT,S2,τC},其中,T為時(shí)間長(zhǎng)度,S為特征表示的高度和寬度,C為通道數(shù),γ為快慢路徑采樣幀數(shù)量之比,τ為快慢路徑通道數(shù)之比,且τ=。時(shí)間到通道表示將所有γ 幀打包到一幀的通道中,即將特征{γT,S2,τC}轉(zhuǎn)換為{T,S2,λτC};時(shí)間跨度采樣表示在每 個(gè)γ幀中采樣一次,即將特 征{γT,S2,τC}轉(zhuǎn)換為{T,S2,τC};時(shí)間跨度卷積采用5×12、2τC輸出通道、步長(zhǎng)等于γ的3D 卷積核進(jìn)行卷積。本文對(duì)每一種橫向連接形式都進(jìn)行實(shí)驗(yàn)對(duì)比,進(jìn)一步驗(yàn)證融合模型的優(yōu)越性??臻g關(guān)注模型數(shù)量和關(guān)注區(qū)域尺寸均采用上述實(shí)驗(yàn)最優(yōu)值。
首先對(duì)單一路徑與雙路徑的對(duì)比,由表3 可以看出,在PRID 2011 和MARS 數(shù)據(jù)集上,雙路徑的識(shí)別性能更優(yōu)越。對(duì)于快慢網(wǎng)絡(luò)橫向連接的3 種形式[15],實(shí)驗(yàn)結(jié)果表明:在PRID 2011 數(shù)據(jù)集上顯示時(shí)間跨度卷積的橫向連接性能最好,Rank-1 準(zhǔn)確率達(dá)到78.2%,本文方法Rank-1 準(zhǔn)確率達(dá)到93.4%,相較于時(shí)間跨度卷積提高15.2%;在MARS 數(shù)據(jù)集上本文方法Rank-1 準(zhǔn)確率較時(shí)間跨度卷積提高13.6%。由實(shí)驗(yàn)結(jié)果可得出,本文方法識(shí)別準(zhǔn)確率遠(yuǎn)高于單一路徑方法。
表3 在PRID 2011 和MARS 數(shù)據(jù)集上不同融合方法的準(zhǔn)確率對(duì)比Table 3 Comparison of different fusion methods on PRID 2011 and MARS datasets %
本文方法 與SeeForest[19]、ASTPN[20]、RQEN[11]、MARS[21]、AMOC+EpicFLOW[22]、DRSTA[16]和STMP[13]方法的識(shí)別準(zhǔn)確率對(duì)比如表4 所示??梢钥闯觯? 個(gè)數(shù)據(jù)集上,本文方法的Rank-1 準(zhǔn)確率均能達(dá)到最優(yōu)。與STMP 方法相比,本文方法在MARS 數(shù)據(jù)集上的Rank-1識(shí)別準(zhǔn)確率提高了3.8%,在iLIDS-VID數(shù)據(jù)集上Rank-1 準(zhǔn)確率提高了2%。MARS 是最具有挑戰(zhàn)性的視頻行人重識(shí)別數(shù)據(jù)集,其中存在干擾視頻片段,圖5顯示,本文方法在MARS 上的的平均精度達(dá)到79.5%,較DRSTA 提高13.7%,較STMP 提高6.8%。這一結(jié)果表明,在關(guān)注區(qū)域的基礎(chǔ)上融合時(shí)空特性對(duì)再識(shí)別性能的提升有很大幫助。
表4 不同方法的準(zhǔn)確率比較Table 4 Accuracy comparison between different methods %
圖5 MARS 數(shù)據(jù)集上不同方法的mAP 對(duì)比Fig.5 mAP comparison between different methods on MARS dataset
本文通過(guò)融合局部特征和全局特征,提出一種新的視頻行人重識(shí)別方法。在提取局部特征的同時(shí),利用時(shí)間關(guān)注模型將視頻序列中同一關(guān)注部位的局部特征進(jìn)行跨幀聚合,以形成視頻級(jí)關(guān)注區(qū)域特征表示,并通過(guò)融合模型將關(guān)注區(qū)域特征與全局特征融合,以形成具有全局空間細(xì)節(jié)和局部關(guān)注區(qū)域的視頻級(jí)特征表示?;谝曨l級(jí)特征表示計(jì)算特征距離,使用特征距離進(jìn)行識(shí)別排序,在PRID2011、iLIDS-VID 和MARS 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效提升Rank-1 和mAP 指標(biāo),具有較高的識(shí)別準(zhǔn)確率。后續(xù)將依據(jù)行人動(dòng)作變化建立關(guān)注區(qū)域之間的結(jié)構(gòu)關(guān)系,提取對(duì)姿勢(shì)變化更具有魯棒性的特征,進(jìn)一步提升行人重識(shí)別性能。