陶 飛,成科揚(yáng),張建明,湯宇豪
(江蘇大學(xué) 計算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)
行人再識別是智能圖像視頻分析領(lǐng)域的研究熱點(diǎn)。近年來,人臉識別技術(shù)的快速發(fā)展使得機(jī)器辨別人臉的能力遠(yuǎn)超人類[1],其在“智慧城市”“平安城市”的構(gòu)建等多個領(lǐng)域得到了廣泛的應(yīng)用[2]。但在實(shí)際應(yīng)用的場景中,攝像頭并非在任何情況下都可以拍攝到清晰的人臉,并且一個攝像頭往往無法覆蓋所有區(qū)域,而多個攝像頭之間一般也沒有重疊。因此,用人的整體特征信息來對行人進(jìn)行識別就變得愈發(fā)重要。由此,計算機(jī)視覺領(lǐng)域針對行人再識別的研究工作應(yīng)運(yùn)而生。
行人再識別是指對行人進(jìn)行重新識別。由于行人數(shù)量不斷增加,在監(jiān)控攝像頭下僅依靠人工對海量數(shù)據(jù)進(jìn)行排查時工程量浩大,不僅耗費(fèi)大量的人力,而且效率低,容易產(chǎn)生很多遺漏。因此,深度學(xué)習(xí)方法在行人再識別中得到了有效的運(yùn)用。深度學(xué)習(xí)方法是借鑒人腦信息處理的分層級聯(lián)方式[3],可以自動地學(xué)習(xí)數(shù)據(jù)的深層特征以適應(yīng)各種復(fù)雜的情形。深度學(xué)習(xí)方法使行人再識別有了更多的解決方案,但是由于人體的非剛性和各種客觀條件,如光照、姿態(tài)、視角以及尺度的變化,會嚴(yán)重影響對行人圖像的分辨,因此行人再識別技術(shù)的識別精度仍然有待進(jìn)一步提高。
本文提出一種行人再識別方法,通過研究行人姿態(tài)的粗、細(xì)粒度屬性,將行人姿態(tài)關(guān)節(jié)點(diǎn)圖像融入姿態(tài)信息學(xué)習(xí)模型,對已有行人屬性進(jìn)行補(bǔ)充。在此基礎(chǔ)上,使行人屬性學(xué)習(xí)過程并行化,根據(jù)行人語義屬性劃分行人身體結(jié)構(gòu),并在梯度下降過程中進(jìn)行梯度交換以獲取更優(yōu)參數(shù),加快網(wǎng)絡(luò)訓(xùn)練速度。
行人特征的表示是行人再識別的關(guān)鍵。行人的視覺外觀相對容易提取,也不會在短時間內(nèi)發(fā)生巨變,可以對行人再識別的特征表示方法進(jìn)行不斷改進(jìn)以有效區(qū)分行人。
低層視覺特征主要包括顏色、紋理、梯度以及它們的組合。顏色特征不依賴于圖像本身的尺寸、視角等因素,具有較高的魯棒性。文獻(xiàn)[4]結(jié)合行人局部與全局外貌特征,采用色調(diào)飽和值(Hue Saturation Value,HSV)表示圖像全局特征,提高了行人識別率。文獻(xiàn)[5]將繪畫結(jié)構(gòu)應(yīng)用于行人再識別,以更好地適應(yīng)人體結(jié)構(gòu),對每個部分提取更精確的顏色特征。紋理是一種反映圖像中同質(zhì)現(xiàn)象的視覺特征,其基于多個像素點(diǎn)區(qū)域進(jìn)行統(tǒng)計,避免了局部偏差,具有較大的區(qū)域優(yōu)勢。梯度特征使得許多容易受到行人自身姿態(tài)信息變化、視覺相似性影響的生物特征得以改進(jìn)和提高[6]。通過計算和統(tǒng)計圖像局部區(qū)域內(nèi)的梯度大小和梯度方向,將圖像分成若干細(xì)胞單元,對每個單元的像素進(jìn)行梯度采集并組合成特征,這樣即使行人圖像受到了光照等的影響,也仍然能夠獲得較好的識別效果。
上述單個特征提取方法都存在著一定缺陷。顏色特征受外在因素影響較大,比如光照、天氣都會導(dǎo)致圖像色彩失真。紋理特征會受監(jiān)控攝像頭的抖動等因素影響。梯度特征沒有考慮到物體遮擋等問題。因此,文獻(xiàn)[7]提出一種將身體不同部位的整體色彩含量、顏色空間排列、局部圖案紋理進(jìn)行加權(quán)的行人再識別方法,提高了低分辨率、遮擋和姿態(tài)、光照變化等情況下算法的魯棒性。
在行人再識別過程中,還需要更多富含語義信息的中層語義特征,比如發(fā)型、鞋子、襯衫等屬性信息。因?yàn)樵谝欢螘r間內(nèi)行人的屬性變化較小,對行人外觀進(jìn)行屬性分析較為合理,這樣不僅可以避免外部因素對行人再識別結(jié)果的影響,而且語義特征更切合人們的思維,貼近日常生活。
文獻(xiàn)[8-9]研究了自然場景下的屬性識別,提出可以通過概率模型來分析低層次屬性,如條紋、格子。文獻(xiàn)[10]定義了15種語義屬性用來描述行人,包括衣著種類、發(fā)型、是否攜帶物品等,最后對選擇的中級語義特征進(jìn)行加權(quán),避免了低層特征完全依賴特征統(tǒng)計,并且只能有限地區(qū)分行人視覺外觀等影響。文獻(xiàn)[11]提出將二進(jìn)制屬性嵌入連續(xù)低秩屬性空間,利用共享信息來提高再識別準(zhǔn)確性,使得語義屬性具有更好的匹配能力。
深度學(xué)習(xí)通過對低層特征的學(xué)習(xí),得到表示屬性類別或特征的更高層特征。在網(wǎng)絡(luò)模型訓(xùn)練過程中,隨著若干卷積、匯合操作的堆疊,從各層得到的深度特征逐漸從泛化特征(如邊緣、紋理等)過渡到中層屬性特征(軀干、頭部等模式),自動學(xué)習(xí)行人屬性特征及其之間的關(guān)系。文獻(xiàn)[12]基于卷積神經(jīng)網(wǎng)絡(luò)提取行人屬性特征進(jìn)行行人再識別,通過在VIPeR數(shù)據(jù)集上標(biāo)注行人的衣著及與各項(xiàng)軟生物特征相關(guān)的17個二進(jìn)制屬性,將其輸入分類器進(jìn)行行人屬性學(xué)習(xí)。
目前基于屬性的行人再識別方法多數(shù)通過建立深層次的模型,很少有對屬性研究影響最多的缺失、誤檢等問題產(chǎn)生的原因,即行人姿態(tài)信息,進(jìn)行詳細(xì)研究,更鮮有對行人特有姿態(tài)信息加以學(xué)習(xí)、分析和利用。
2.1.1 行人再識別中的姿態(tài)
行人圖像在視覺上的復(fù)雜性挑戰(zhàn),部分是由于行人姿態(tài)信息在實(shí)際場景中的變化導(dǎo)致的。因此,結(jié)合人體姿態(tài)信息對行人屬性特征進(jìn)行擴(kuò)充描述,有利于對行人身份的判別。
在行人再識別領(lǐng)域中,多數(shù)姿態(tài)學(xué)習(xí)方式都基于局部信息,例如對人臉姿態(tài)進(jìn)行估計[13]。文獻(xiàn)[14]將姿態(tài)分為細(xì)粒度姿態(tài)和粗粒度姿態(tài),如圖1所示。細(xì)粒度姿態(tài)學(xué)習(xí)是將行人按照人體關(guān)節(jié)點(diǎn)劃分定位,如圖1(a)所示。粗粒度姿態(tài)學(xué)習(xí)是將行人按照姿態(tài)信息劃分為前、后、側(cè)3種視角,如圖1(b)所示。
圖1 行人姿態(tài)信息示意圖
2.1.2 行人姿態(tài)特征提取
通常根據(jù)識別任務(wù)的場景需要選擇合理的姿態(tài)信息類別。下面分別介紹針對細(xì)粒度姿態(tài)和粗粒度姿態(tài)的特征選擇和提取模型。
在細(xì)粒度姿態(tài)學(xué)習(xí)過程中,將人體定義為14個關(guān)節(jié)點(diǎn)[15],通過級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)來獲取關(guān)鍵點(diǎn)特征,將每個行人圖像輸入到網(wǎng)絡(luò)中進(jìn)行回歸,每一個關(guān)節(jié)點(diǎn)都使用整個圖像。將人體的姿態(tài)信息用14個人體關(guān)節(jié)點(diǎn)來表示,整個人體表示為如下向量:
本文以x表示圖像,y表示該圖像的標(biāo)簽,則yi表示該圖像的第i個關(guān)節(jié)點(diǎn)的坐標(biāo)。將最終檢測到的細(xì)粒度姿態(tài)信息圖表示為B=(bl,bw,bh),其中,bl表示關(guān)節(jié)點(diǎn)的位置,bw表示圖像寬度,bh表示圖像的高度。采用N(·)方法標(biāo)準(zhǔn)化圖像中的所有關(guān)節(jié)點(diǎn),即將坐標(biāo)原點(diǎn)移到圖像的中心位置,N(x,B)就是用B獲取圖像x的對應(yīng)部分,并對B的每一個節(jié)點(diǎn)都進(jìn)行標(biāo)準(zhǔn)化處理。
N(y,B)=(N(y1,B)T),N(y2,B)T,…,N(y14,B)T)
其中,fB是一個強(qiáng)映射函數(shù)。
y*=N-1(φ(N(x);θ))
對訓(xùn)練集進(jìn)行標(biāo)準(zhǔn)化處理:
DN={N(x);N(y)|(x,y)∈D}
最終的模型通過損失函數(shù)計算,寫為:
粗粒度姿態(tài)信息,通過網(wǎng)絡(luò)對行人圖像的姿態(tài)信息進(jìn)行粗略檢測,與原始的圖像所提取的行人特征相融合。通過預(yù)訓(xùn)練姿態(tài)信息模型對目標(biāo)行人數(shù)據(jù)集提取姿態(tài)信息,作為行人中層語義屬性特征的標(biāo)簽之一,賦予行人更完善的語義屬性,針對行人的視角變化、部分遮擋等問題,如圖2所示的行人由于粗粒度姿態(tài)變化導(dǎo)致行人背包、Logo等屬性缺失,從而造成的漏檢或誤檢,進(jìn)行了合理有效的解決。
圖2 姿態(tài)對行人屬性的影響
在行人再識別研究中,姿態(tài)信息的變化會導(dǎo)致行人屬性的大量缺失,這會對目前基于行人屬性的識別方法準(zhǔn)確性產(chǎn)生較大的影響。此外,對人體的關(guān)鍵點(diǎn)定位所刻畫出的人體關(guān)節(jié)點(diǎn),更適用于行人姿態(tài)信息變化較大的識別,因?yàn)樾腥藙幼鞣却?變化多,有效信息難以截取。因此,針對這2種粒度的姿態(tài)特征,對行人再識別進(jìn)行優(yōu)化,具有實(shí)際意義。
2.2.1 屬性劃分
為了更有針對性地學(xué)習(xí)行人的屬性特征,本文將行人的身體進(jìn)行分割,通過相互重疊的劃分方法,避免圖像由于分割造成的屬性缺失和不完全,這樣有重疊的學(xué)習(xí)也有利于參數(shù)的交換。
本文選擇在行人領(lǐng)域比較有區(qū)分度的屬性,并根據(jù)屬性的設(shè)定來標(biāo)注預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集。對于每一張行人圖像,將具有該屬性的標(biāo)注為1,不具有該屬性的標(biāo)注為0。
將行人屬性學(xué)習(xí)中的每一個串行獨(dú)立網(wǎng)絡(luò)設(shè)計為9層結(jié)構(gòu),分別為1個輸入層、3個卷積層、3個子采樣層、2個全連接層。將輸出結(jié)果輸入屬性分類器,最終根據(jù)分類器所得結(jié)果進(jìn)行概率計算。
行人屬性類別的判定,需要通過屬性-類別映射表對標(biāo)注的行人屬性和類別進(jìn)行統(tǒng)計后生成。分配粗粒度屬性A={a1,a2,…,am}和細(xì)粒度屬性B={b1,b2,…,bn}2個分類器,利用所有屬性進(jìn)行訓(xùn)練,得到粗、細(xì)2種屬性類別器。每個屬性會通過后驗(yàn)概率公式計算,得出行人判定。
在屬性-類別映射表中列出具有A類屬性的概率zi以及具有B類屬性的概率zj。因此,一個具有粗粒度屬性k的最終概率和具有細(xì)粒度屬性t的最終概率分別表示為:
其中,x表示行人圖像,p(zi|Ak)表示屬性與類別之間的概率關(guān)系,計算公式為:
通過對粗粒度屬性和細(xì)粒度屬性結(jié)果進(jìn)行綜合,得出粗粒度屬性貢獻(xiàn)值和細(xì)粒度屬性貢獻(xiàn)值β,進(jìn)而做出最終的行人判別。結(jié)合屬性-類別映射表以及后驗(yàn)屬性概率分布[16],得出各個行人的概率:
p(z|x)=αp(zi|x)+βp(zj|x)
取上述計算得到的概率分布最大值作為行人樣本最終的概率用以匹配行人:
2.2.2 并行化過程
本文根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)以及行人屬性粗、細(xì)粒度的劃分,設(shè)計了一種行人分割結(jié)構(gòu),如圖3所示。根據(jù)行人的34種屬性,對行人圖像進(jìn)行標(biāo)注。將行人圖像分為5個部分,與原圖像同時輸入,對所有分塊進(jìn)行并行化訓(xùn)練。根據(jù)訓(xùn)練后的行人分塊特征圖,將每個分塊對應(yīng)的屬性再并行輸入相應(yīng)的屬性分類器進(jìn)行分類訓(xùn)練。
圖3 行人分割示意圖
屬性學(xué)習(xí)通過對行人原始圖像及其相關(guān)聯(lián)的分塊圖像進(jìn)行訓(xùn)練,避免了全局特征中的局部屬性缺失,將其融入到原始行人圖像訓(xùn)練中,綜合得出較好的屬性分類結(jié)果。本文設(shè)計一種6層并行的框架,包含6個獨(dú)立卷積神經(jīng)網(wǎng)絡(luò),每個并行的分支網(wǎng)絡(luò)結(jié)構(gòu)獨(dú)立且具有級聯(lián)特性,從而提高行人再識別研究的識別準(zhǔn)確性。
圖4給出了本文的并行化結(jié)構(gòu),根據(jù)數(shù)據(jù)集中行人粗、細(xì)粒度屬性將其分割為5個互相重疊的模塊,將訓(xùn)練數(shù)據(jù)分割成5個子集,并將原圖像也作為其中一個子集,從而提高參數(shù)的可靠性。為梯度下降算法設(shè)置1個主參數(shù)服務(wù)器和6個從節(jié)點(diǎn)進(jìn)行參數(shù)交換,并將子集數(shù)據(jù)輸入到各個節(jié)點(diǎn)。每個節(jié)點(diǎn)并行利用本地訓(xùn)練子集分批計算參數(shù)梯度,當(dāng)本地的各個從節(jié)點(diǎn)參數(shù)梯度Δw計算完畢之后傳輸?shù)街鞴?jié)點(diǎn),并獲取主節(jié)點(diǎn)目前的參數(shù)w,主節(jié)點(diǎn)接收到梯度值后,利用梯度值進(jìn)行參數(shù)運(yùn)算w′=w-ηΔw,并更新全局參數(shù)值。
圖4 并行化結(jié)構(gòu)示意圖
主參數(shù)服務(wù)器是由多個圖形處理器(Graphics Processing Unit,GPU)組成的集群,采用Between-graph模式進(jìn)行數(shù)據(jù)并行。將訓(xùn)練的參數(shù)保存在參數(shù)服務(wù)器中,行人圖像數(shù)據(jù)直接分塊保存在各個計算從節(jié)點(diǎn)中,無需分發(fā),對每個從節(jié)點(diǎn)計算其梯度變化,將需要更新的參數(shù)傳遞給主參數(shù)服務(wù)器。數(shù)據(jù)不分發(fā)模式,適用于本文劃分好的行人分割圖像數(shù)據(jù),可以節(jié)省大量的時間。
為驗(yàn)證本文提出的基于姿態(tài)與并行化屬性的方法有效性,實(shí)驗(yàn)在RAP[17]行人數(shù)據(jù)集上進(jìn)行模型的預(yù)訓(xùn)練,獲取行人姿態(tài)信息分類標(biāo)簽,最終在VIPeR[18]行人數(shù)據(jù)集上進(jìn)行測試,并與其他方法的識別率進(jìn)行對比驗(yàn)證。
RAP數(shù)據(jù)集通過26個攝像機(jī),共采集了41 585個行人樣本,每個樣本都注明了72個屬性以及遮擋、身體部位等信息。該數(shù)據(jù)集經(jīng)過長期在購物中心收集行人圖像,對所收集樣本不僅標(biāo)注了細(xì)粒度行人屬性,還包含了行人的姿態(tài)信息。注釋前、后、左、右4種類型的姿態(tài)信息視角,如果圖像被嚴(yán)重遮擋,則不會對其進(jìn)行注釋。圖像大小統(tǒng)一縮放為128像素×48像素的RGB圖像。
VIPeR數(shù)據(jù)集包含了632個不同行人的圖像,共有圖像1 264張。該數(shù)據(jù)集采用2個攝像頭進(jìn)行拍攝,每個攝像頭對一個行人只提供一張圖像。圖像拍攝歷時數(shù)月,且拍照選擇的光線、角度和行人姿態(tài)信息不同,可以更好地衡量行人再識別方法的有效性。在該數(shù)據(jù)集中,每個行人圖像被標(biāo)注了視角,圖像大小統(tǒng)一縮放為128像素×48像素的RGB圖像。
由于VIPeR數(shù)據(jù)集中的行人圖像數(shù)據(jù)量較少,難以使網(wǎng)絡(luò)訓(xùn)練充分,因此本文采用RAP數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。RAP數(shù)據(jù)集環(huán)境、背景因素、視點(diǎn)、遮擋和身體部位信息豐富且全面,可以有效提高模型的特征提取能力,通過微調(diào)也能在目標(biāo)數(shù)據(jù)集上達(dá)到較好的效果。
本次實(shí)驗(yàn)的軟硬件設(shè)置在Ubuntu 16.04版本的服務(wù)器集群上,計算機(jī)處理器配置為Intel Xeon E5-2630V4 10核/ 2.2 GHz/ 25 MB緩存/ 20線程,內(nèi)存為Samsung 16 GB DDR4 2 400 MHz ECC REG(共128 GB),GPU計算卡是NVidia P100 16 GB,GPU加速版本是CUDA8.0。
將RAP數(shù)據(jù)集中圖像大小不一的所有行人圖像統(tǒng)一成實(shí)驗(yàn)所需要的規(guī)模,并對實(shí)驗(yàn)中需要的和原本數(shù)據(jù)集標(biāo)注有誤差的數(shù)據(jù)進(jìn)行標(biāo)簽的修改,具有相應(yīng)屬性標(biāo)簽的標(biāo)注為1,不具有以及被遮擋的都設(shè)置為0,并統(tǒng)計屬性-類別映射表。在實(shí)驗(yàn)中,通過對RAP數(shù)據(jù)集中的行人樣本圖像進(jìn)行訓(xùn)練,初始化學(xué)習(xí)率為0.001,迭代次數(shù)為1 000次,得到有效的姿態(tài)信息分類和屬性分類模型。將該模型應(yīng)用在目標(biāo)數(shù)據(jù)集進(jìn)行模型的微調(diào),將數(shù)據(jù)集分為均等的兩部分,一部分用于網(wǎng)絡(luò)的訓(xùn)練,剩下的用于網(wǎng)絡(luò)性能的測試。由于目標(biāo)數(shù)據(jù)集圖像數(shù)量較少,為使模型更加穩(wěn)定,微調(diào)后的初始化學(xué)習(xí)率為0.001,迭代次數(shù)不變。
3.3.1 參數(shù)選擇
本節(jié)實(shí)驗(yàn)所涉及的參數(shù)選擇主要是對行人粗、細(xì)粒度屬性和貢獻(xiàn)值的選擇。行人粗、細(xì)粒度屬性和貢獻(xiàn)值的選擇,關(guān)系到對行人的識別率,但是有些屬性對行人識別過程影響不大,反而會使模型產(chǎn)生冗余。通過對屬性對應(yīng)的行人圖像數(shù)量進(jìn)行統(tǒng)計,發(fā)現(xiàn)有一些屬性雖然有較明顯的特征,但是圖像數(shù)量太少,難以達(dá)到訓(xùn)練需求,最終,針對已有文獻(xiàn)對本文目標(biāo)數(shù)據(jù)集的研究,選取了日常較為常見的34個屬性(其中粗粒度屬性有16個,細(xì)粒度屬性有18個)。粗粒度屬性有:性別、帽子、長發(fā)、短發(fā)、長袖、短袖、無袖、外套、上衣紋理、有Logo、長下裝、短下裝、下裝紋理、背包、攜帶配飾、鞋;細(xì)粒度屬性有:無發(fā)、盤發(fā)、馬尾、長披發(fā)、齊肩發(fā)、不規(guī)則紋理、橫條紋、豎條紋、長褲、長裙、短褲、短裙、雙肩包、單肩包、手提包、靴子、單鞋、涼鞋。
行人屬性粗、細(xì)粒度的貢獻(xiàn)值,是兩種粒度對于最終識別率的體現(xiàn)。貢獻(xiàn)值越大,該粒度屬性在最終的模型準(zhǔn)確性中起到的作用也越大。由于α+β=1,本文取α∈{0.0,0.1,0.2,0.3,…,0.9,1.0}在預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集上進(jìn)行逐個實(shí)驗(yàn),結(jié)果如圖5所示。從圖5可以看出,當(dāng)α=0.6,β=0.4時,在預(yù)訓(xùn)練數(shù)據(jù)集RAP和目標(biāo)數(shù)據(jù)集VIPeR上模型均獲得最好的識別準(zhǔn)確率。由于目標(biāo)數(shù)據(jù)集行人圖像數(shù)據(jù)少,模型魯棒性不足,因此結(jié)果沒有預(yù)訓(xùn)練結(jié)果好,但兩者差距不大。
圖5 不同α對應(yīng)的識別準(zhǔn)確率
3.3.2 網(wǎng)絡(luò)模型
細(xì)粒度姿態(tài)學(xué)習(xí)就是對于給定的行人圖像,將人體14個主體關(guān)節(jié)點(diǎn)位置作為行人姿勢的細(xì)粒度表示。14個關(guān)節(jié)點(diǎn)位置分別為頭部、頸部、左肩、右肩、左臂中間關(guān)節(jié)、右臂中間關(guān)節(jié)、左手、右手、左腿、右腿、左腿膝蓋、右腿膝蓋、左腳、右腳。為了獲得關(guān)節(jié)點(diǎn)信息,本文使用現(xiàn)有的Deepcut[19]模型。在獲取的行人姿態(tài)信息圖像中,行人不同的姿勢可能導(dǎo)致身體部位各個關(guān)節(jié)點(diǎn)位于圖像的不同位置。如圖6所示的細(xì)粒度姿態(tài)信息網(wǎng)絡(luò)結(jié)構(gòu),針對14個具有身體代表性的關(guān)節(jié)點(diǎn)部分提取通道特征圖,與行人整體關(guān)節(jié)點(diǎn)圖像,共15個通道一起輸入卷積神經(jīng)網(wǎng)絡(luò)中,對全身的姿態(tài)信息進(jìn)行特征學(xué)習(xí),獲得姿態(tài)信息模型。通過姿態(tài)學(xué)習(xí),對目標(biāo)數(shù)據(jù)集的行人圖像進(jìn)行姿態(tài)信息標(biāo)注,增大行人圖像之間的類內(nèi)差異。
圖6 細(xì)粒度網(wǎng)絡(luò)模型結(jié)構(gòu)
本文將行人姿態(tài)信息呈現(xiàn)出的視角位置,作為行人的粗粒度姿態(tài)信息,其主要分為正、側(cè)、背3種。粗粒度姿態(tài)學(xué)習(xí)就是通過對原始行人圖像的全身姿態(tài)信息進(jìn)行分類標(biāo)簽,然后輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,獲得粗粒度姿態(tài)信息分類模型,將該模型用在目標(biāo)數(shù)據(jù)集上,為目標(biāo)數(shù)據(jù)集生成粗粒度屬性標(biāo)簽,減少類間差異。該方法使用原始圖像作為輸入與圖6模型進(jìn)行對比。
本節(jié)實(shí)驗(yàn)結(jié)果與分析包括:在姿態(tài)學(xué)習(xí)中,粗粒度和細(xì)粒度模型在行人再識別上的不同效果;本文所提姿態(tài)與并行化屬性學(xué)習(xí)的方法對屬性分類的效果;最終行人再識別識別率的提升。
姿態(tài)學(xué)習(xí)的粗、細(xì)粒度模型的選擇,通過姿態(tài)學(xué)習(xí)模型在預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練后,將訓(xùn)練完畢的模型放在目標(biāo)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。獲得姿態(tài)信息分類的結(jié)果如圖7和圖8所示。可以看出,本文模型的正面識別率為79.5%,側(cè)面識別率為67.8%,背面識別率為82.1%;粗粒度模型的正面識別率為68.7%,側(cè)面識別率為58.6%,背面識別率為79.9%。顯然,通過輸入細(xì)粒度姿態(tài)信息,在每一姿態(tài)信息視角上都產(chǎn)生了較好的結(jié)果。
圖7 本文模型各個姿態(tài)信息的識別率和損失
Fig.7 Recognition rate and loss of each attitude information of the proposed model
圖8 粗粒度模型各個姿態(tài)信息的識別率和損失
Fig.8 Recognition rate and loss of each attitude information of coarse-grained model
本文采用交叉驗(yàn)證,將整個數(shù)據(jù)集分為不完全相同樣本的訓(xùn)練集和測試集,重復(fù)實(shí)驗(yàn)10次并取10次實(shí)驗(yàn)的平均值作為實(shí)驗(yàn)結(jié)果。本文最終將細(xì)粒度姿態(tài)學(xué)習(xí)方式納入到屬性學(xué)習(xí)。通過姿態(tài)學(xué)習(xí)模型訓(xùn)練得到姿態(tài)信息分類器,將其用于對目標(biāo)數(shù)據(jù)集進(jìn)行姿態(tài)信息屬性標(biāo)記,可以顯著提高一些被部分遮擋的屬性的識別率,并且采用行人行走姿態(tài)信息視角的分類,使本文方法在行人屬性分類的效果較好。將實(shí)驗(yàn)得到的屬性分類結(jié)果與UCHA-PR[16]和OAR[17]在相同或相似屬性上獲得的分類結(jié)果進(jìn)行對比,部分結(jié)果如表1所示。從表1可以看出,相比傳統(tǒng)的將低層次特征作為屬性分類器輸入的OAR方法,以及通過CAE訓(xùn)練提取的特征訓(xùn)練屬性分類器的UCHA-PR方法,本文方法對各個屬性的分類準(zhǔn)確率均有一定程度的提高,尤其是在手提包、雙肩包、短發(fā)、長發(fā)等由于姿態(tài)信息變換容易導(dǎo)致屬性缺失或遮擋的屬性上,優(yōu)勢尤為明顯。
表1 部分相同或相似屬性的準(zhǔn)確率對比
Table 1 Accuracy comparison of some identical or similar attributes
%
為證明本文方法在行人再識別過程中的有效性,使用累積匹配(Cumlative Matching Characteristic,CMC)曲線作為實(shí)驗(yàn)的主要評價標(biāo)準(zhǔn)。圖9為在CMC標(biāo)準(zhǔn)下,不同行人再識別方法從Rank-1到Rank-25的準(zhǔn)確率,可見本文方法與已有方法[10,16,20-24]相比,其識別準(zhǔn)確率明顯提高。在VIPeR數(shù)據(jù)集上當(dāng)Rank-25時,本文方法的準(zhǔn)確率可達(dá)到90%,這是因?yàn)樵摲椒ɑ谛腥藢傩?、姿態(tài)信息,豐富了行人的語義表述。此外,本文通過對行人屬性學(xué)習(xí)的并行化過程,使得在整個模型訓(xùn)練中,準(zhǔn)確率的誤差基本可以忽略。
圖9 本文方法與其他方法在CMC曲線中的比較結(jié)果
Fig.9 Comparison results of this method and other methods in CMC curve
綜上所述,雖然數(shù)據(jù)集中的行人圖片背景比較復(fù)雜,尤其上半身區(qū)域?qū)?yīng)背景中常有樹木、建筑等干擾圖像的識別,且行人圖像數(shù)量較小,但是將本文方法應(yīng)用于目標(biāo)數(shù)據(jù)集,仍然取得了較好的結(jié)果。
本文提出一種基于姿態(tài)的并行化屬性學(xué)習(xí)模型。通過提取行人身體結(jié)構(gòu)中部分關(guān)節(jié)點(diǎn)圖像和行人整體關(guān)節(jié)點(diǎn)圖像作為輸入,進(jìn)行細(xì)粒度姿態(tài)特征的學(xué)習(xí)。在此基礎(chǔ)上,對比粗、細(xì)粒度的行人姿態(tài)輸入,獲得模型在目標(biāo)數(shù)據(jù)集上的姿態(tài)分類效果,并選擇合適的姿態(tài)粒度作為最終姿態(tài)學(xué)習(xí)模型的輸入,對行人屬性進(jìn)行補(bǔ)充。此外,利用卷積神經(jīng)網(wǎng)絡(luò)對行人的多樣屬性進(jìn)行學(xué)習(xí),避免由于姿態(tài)導(dǎo)致的屬性誤檢和漏檢,提高了行人再識別準(zhǔn)確率。下一步嘗試將底層視覺特征(如顏色、輪廓等)與本文方法相結(jié)合,進(jìn)一步提高該方法對行人的篩選能力。