彭小波,黃海娜,楊輝躍,劉俊宏,黃 瑛
1)深圳大學(xué)機(jī)電與控制工程學(xué)院,深圳電磁控制重點(diǎn)實(shí)驗(yàn)室,廣東深圳518060;2)深圳大學(xué)生命科學(xué)與海洋學(xué)院,深圳市海洋生物資源與生態(tài)環(huán)境科學(xué)重點(diǎn)實(shí)驗(yàn)室,廣東省海洋藻類開發(fā)與應(yīng)用工程重點(diǎn)實(shí)驗(yàn)室,廣東深圳518071
步態(tài)指?jìng)€(gè)體在走行過程中姿態(tài)的變化,是最重要的生物特征之一.隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于步態(tài)的識(shí)別技術(shù)有了新的突破.利用神經(jīng)網(wǎng)絡(luò)進(jìn)行有效的步態(tài)識(shí)別成為當(dāng)前研究的熱點(diǎn)[1].但是現(xiàn)有方法的識(shí)別準(zhǔn)確性受視角、服飾、攜帶物和背景等多種因素的影響[2].近年來,國(guó)內(nèi)外學(xué)者也在不斷探究視角、服飾和攜帶物等協(xié)變量對(duì)步態(tài)識(shí)別性能的影響.針對(duì)這些影響,基于深度學(xué)習(xí)的步態(tài)識(shí)別技術(shù)可劃分為生成式方法和判別式方法[3].生成式方法通常是將不同條件下的步態(tài)特征轉(zhuǎn)化為相同條件下的步態(tài)特征以獲得更好的匹配.YU等[4-5]實(shí)現(xiàn)在相同條件下圖像序列的轉(zhuǎn)化,在一定程度上處理了跨視角的問題.隨后又提出基于多個(gè)堆疊自編碼器(stacked progressive auto-encoders, SPAE)的方法,通過堆疊的多層自動(dòng)編碼器對(duì)輸入的步態(tài)能量圖使用漸進(jìn)的方法來生成步態(tài)不變特征.TONG等[6]提出跨域傳輸網(wǎng)絡(luò)以提高多視角步態(tài)識(shí)別的準(zhǔn)確性.KHAN等[7]提取了步態(tài)時(shí)空特征以構(gòu)造步態(tài)描述器來訓(xùn)練非線性深度神經(jīng)網(wǎng)絡(luò).BEN等[8]提出了一種用于跨步態(tài)識(shí)別的通用張量表示框架,提取Gabor特征并將基于Gabor的表示體投影到一個(gè)公共子空間進(jìn)行識(shí)別.判別式方法是通過學(xué)習(xí)判別子空間或矩陣來提高識(shí)別能力[3].該方法可以分為2類:一類是將步態(tài)輪廓圖序列/步態(tài)模板輸入到特征學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行建模投影;另一類是學(xué)習(xí)樣本間的相似度函數(shù)[9].SHIRAGA等[10]提出一個(gè)帶有兩層卷積層的網(wǎng)絡(luò)結(jié)構(gòu),使用步態(tài)能量圖作為輸入,與訓(xùn)練對(duì)象的相似性作為輸出.ZHANG等[11]采用DeepGait進(jìn)行深度卷積特征的步態(tài)識(shí)別,并引入了聯(lián)合貝葉斯模型對(duì)視圖方差進(jìn)行建模.THAPER等[12]使用視角分類器和3D卷積神經(jīng)網(wǎng)絡(luò)來確定步態(tài),該研究對(duì)視角的正確預(yù)測(cè)有很大的依賴性.LIAO等[13]利用人體關(guān)鍵點(diǎn)的位置信息和時(shí)間信息,運(yùn)用多分類交叉熵?fù)p失和二元損失處理服飾和攜帶物等協(xié)變量的問題.WU等[14]通過深度卷積神經(jīng)網(wǎng)絡(luò)(deep-convolutional neural network, deep-CNN)直接學(xué)習(xí)步態(tài)能量或步態(tài)序列之間的相似度,此方法對(duì)視角和步行條件變化具有魯棒性.CHEN等[15]提出了使用CNN學(xué)習(xí)樣本間的相似度,將得到的相似向量經(jīng)過全連接層進(jìn)行步態(tài)識(shí)別.
為提高多視角下的服飾改變和存在攜帶物等多協(xié)變量影響下的步態(tài)識(shí)別準(zhǔn)確率,本研究提出一種基于人體姿態(tài)估計(jì)算法OpenPose的人體行走特征矢量圖(walking feature vector diagram, WFVD)作為步態(tài)時(shí)空特征的描述,該特征描述既保留了步態(tài)時(shí)空信息,又避免了冗余信息,有利于步態(tài)特征的學(xué)習(xí)和訓(xùn)練;同時(shí),設(shè)計(jì)了一種基于殘差學(xué)習(xí)模塊和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的步態(tài)時(shí)空特征學(xué)習(xí)與分類網(wǎng)絡(luò),并驗(yàn)證了其有效性.
基于人體WFVD的步態(tài)識(shí)別方法,能處理多視角下的服飾和攜帶物改變的情況,處理過程如圖1.首先,以行人視頻圖像序列作為輸入,提取每一幀的人體部位關(guān)聯(lián)場(chǎng)(part affinity field,PAF)[16].PAF是提供人體各部位的位置和方向信息的矩陣,它們成對(duì)出現(xiàn):對(duì)于每一部位在x方向上有一個(gè)PAF,記為x-PAF; 在y方向上有一個(gè)PAF,記為y-PAF.將步態(tài)周期內(nèi)連續(xù)幀的PAF堆疊成四階張量組成WFVD.然后,先通過殘差學(xué)習(xí)模塊提取WFVD的步態(tài)空間特征圖并做降維處理,再將得到的空間特征圖輸入到長(zhǎng)短期記憶(long short-term memory, LSTM)網(wǎng)絡(luò)進(jìn)行步態(tài)時(shí)間特征的學(xué)習(xí).最后,在網(wǎng)絡(luò)的末端采用softmax分類器對(duì)特征進(jìn)行識(shí)別.
圖1 基于WFVD的步態(tài)識(shí)別方法框架Fig.1 Framework of the gait recognition based on WFVD
WFVD的生成步驟為:① 使用輪廓高寬比方法對(duì)視頻數(shù)據(jù)集進(jìn)行步態(tài)周期檢測(cè),周期檢測(cè)僅在模型訓(xùn)練之前的數(shù)據(jù)預(yù)處理階段才需要,用來估計(jì)步態(tài)周期的長(zhǎng)度;② 利用人體姿態(tài)估計(jì)系統(tǒng)OpenPose從視頻圖片序列中提取人體的PAF;③ 選擇有效的關(guān)節(jié)數(shù)據(jù)并進(jìn)行標(biāo)準(zhǔn)化;④ 利用周期檢測(cè)的結(jié)果,由PAF裝配形成WFVD.
1.1.1 步態(tài)周期檢測(cè)
為減少計(jì)算量和冗余信息,考慮到步態(tài)周期之間的相似性,只取1個(gè)周期內(nèi)的步態(tài)序列進(jìn)行學(xué)習(xí)和識(shí)別.步態(tài)周期Tc從步態(tài)輪廓高寬比曲線中提取.圖2為序號(hào)001的行人步態(tài)輪廓高寬比曲線.相鄰2個(gè)波峰的距離為半個(gè)周期,所以,Tc=32-10=22幀.在本研究中,Tc通過對(duì)數(shù)據(jù)集中所有行人周期時(shí)間取平均值求得.
圖2 步態(tài)周期檢測(cè)Fig.2 Gait cycle time detection
圖3 PAF提取Fig.3 PAF extraction
1.1.2 PAF提取
PAF是一個(gè)大小為W×H×C的3維矩陣, 其中,W為寬度;H為高度;C為層數(shù).本研究中,W和H均為46,C為57,見圖3.前18層為人體18個(gè)關(guān)鍵點(diǎn)的位置,第19層為背景,上述19層構(gòu)成熱圖;后38層為PAF,其中,奇數(shù)層為x方向的x-PAF, 偶數(shù)層為y方向的y-PAF. 這38層構(gòu)成了大小為46×46×38的PAF矩陣.
1.1.3 數(shù)據(jù)選擇
在步態(tài)視頻中,由于人們的臉部圖像通常不是很清晰,并且頭部經(jīng)常不規(guī)則地?fù)u動(dòng),這使得頭部PAF的提取變得困難且價(jià)值不大. 因此,本研究將與頭部有關(guān)的PAF去除,忽略頭部(鼻子、耳朵和眼睛)的步態(tài)特征信息,主要考慮四肢和軀干.從原始PAF中去除的14個(gè)頭部相關(guān)PAF,即:18、19、26、27、28、29、20、21、32、33、34、35、36和37.PAF矩陣縮小為46×46×24,如圖4.
1.1.4 WFVD的構(gòu)造
每幀圖像的PAF矩陣大小為46×46×24,取沿時(shí)間軸的視頻序列長(zhǎng)度為Tc, 則WFVD的大小為Tc×46×46×24,如圖5.
設(shè)計(jì)時(shí)空網(wǎng)絡(luò)對(duì)WFVD進(jìn)行特征學(xué)習(xí)以及對(duì)行人身份進(jìn)行預(yù)測(cè),該網(wǎng)絡(luò)結(jié)構(gòu)如圖6.
圖4 x-PAF的選擇Fig.4 Selection of x-PAF
圖5 WFVD的構(gòu)造Fig.5 Construction of the WFVD
2)殘差學(xué)習(xí)模塊:在基本殘差模塊的基礎(chǔ)上修改了卷積數(shù),并調(diào)整了批量歸一化(batch normalization,BN)和線性整流函數(shù)(rectified linear unit,ReLU)的位置.在此輸入維度和輸出維度不一致.在基本的殘差學(xué)習(xí)模組的右支進(jìn)行一次卷積操作以調(diào)整輸入的通道尺寸(圖7).在3×3卷積層進(jìn)行了兩次降維,則輸出的數(shù)據(jù)形狀為(Tc, 12, 12, 512),參數(shù)流示意圖如圖8.
圖6 步態(tài)時(shí)空特征學(xué)習(xí)與分類網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Spatiotemporal gait feature learning and classification network structure
圖7 殘差學(xué)習(xí)模塊Fig.7 Residual learning module
圖8 殘差學(xué)習(xí)模塊的參數(shù)流Fig.8 The parameter flow of the residual learning module
3)LSTM網(wǎng)絡(luò):將第1個(gè)全連接的輸出重塑為單層單向LSTM的輸入形式.設(shè)LSTM網(wǎng)絡(luò)的訓(xùn)練集樣本數(shù)量為n, 隱藏層節(jié)點(diǎn)數(shù)為512,則其結(jié)構(gòu)為(n,Tc,512), 輸出為(n, 512).
4)softmax層:通過softmax層來計(jì)算交叉熵?fù)p失函數(shù),將第2個(gè)全連接層的輸出經(jīng)過softmax回歸函數(shù)轉(zhuǎn)換為概率輸出,模型預(yù)測(cè)的類別概率輸出與真實(shí)類別的one-hot形式進(jìn)行交叉熵?fù)p失函數(shù)的計(jì)算,利用計(jì)算的損失值對(duì)網(wǎng)絡(luò)進(jìn)行修正.網(wǎng)絡(luò)訓(xùn)練和優(yōu)化過程采用Adam算法,權(quán)值初始化采用xavier_initializer方法,為緩解過擬合問題,采用正規(guī)化函數(shù)L進(jìn)行正則化.
(1)
其中,E為未包含正則化項(xiàng)的訓(xùn)練樣本誤差;ωi為第i個(gè)特征的權(quán)重系數(shù);m為樣本數(shù);λ為可調(diào)整的正則化參數(shù).
本研究采用中國(guó)科學(xué)院自動(dòng)化研究所研發(fā)的CASIA-B數(shù)據(jù)集以及本課題組自建數(shù)據(jù)集(1 080像素)進(jìn)行步態(tài)識(shí)別實(shí)驗(yàn)驗(yàn)證.
2.1.1 CASIA-B數(shù)據(jù)集
CASIA-B數(shù)據(jù)集包含124位行人(男93人,女31人)和3種步態(tài)模式:正常行走步態(tài)(nm)、穿外套行走步態(tài)(cl)和攜包行走步態(tài)(bg).每種步態(tài)包含11個(gè)視角,對(duì)于每個(gè)視角下的每個(gè)行人,有6個(gè)正常步態(tài)視頻(nm1—nm6)、2個(gè)穿外套步態(tài)視頻(cl1—cl2)和2個(gè)背包行走步態(tài)視頻(bg1—bg2).視頻像素為320×240,速率為25幀/s.
2.1.2 自建數(shù)據(jù)集
為驗(yàn)證步態(tài)識(shí)別算法針對(duì)室外環(huán)境中的識(shí)別效果,使用類似CASIA-B的數(shù)據(jù)采集方法采集3個(gè)協(xié)變量條件nm、bg和cl的數(shù)據(jù).實(shí)驗(yàn)共采集20個(gè)志愿者不同場(chǎng)景下16個(gè)視角3種步行狀態(tài)的步態(tài)序列,每個(gè)視角都有20個(gè)視頻(圖9).
CASIA-B實(shí)驗(yàn)被設(shè)計(jì)在0°視角下進(jìn)行,測(cè)試所提出的模型處理服飾和攜帶物品協(xié)變量影響的能力.將第001~124號(hào)行人的nm1—nm4的第50~50+Tc幀作為訓(xùn)練集,行人001~124的nm5—nm6、cl1—cl2、bg1—bg2的第50~50+Tc幀作為測(cè)試集.其中,nm5—nm6測(cè)試集作為同步態(tài)狀態(tài)的測(cè)試,cl1—cl2與bg1—bg2則為跨步態(tài)狀態(tài)的測(cè)試.訓(xùn)練集和測(cè)試集中的視頻序列數(shù)分別為124×4×11=5 456個(gè)和124×2=248個(gè).
在自建數(shù)據(jù)集中設(shè)置多視角下的同步態(tài)和跨步態(tài)狀態(tài)實(shí)驗(yàn).同步態(tài)實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集的場(chǎng)景相同,包括nm-nm、cl-cl和bg-bg.跨步態(tài)實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集的場(chǎng)景不同,包括nm-cl和nm-bg,實(shí)驗(yàn)數(shù)據(jù)如表1.
表1 基于自建數(shù)據(jù)集的實(shí)驗(yàn)設(shè)置
CASIA-B的實(shí)驗(yàn)結(jié)果如表2,算法速度約為10幀/s,平均識(shí)別準(zhǔn)確率為96.24%,表明所提出的網(wǎng)絡(luò)可以較好解決服飾和攜帶物等協(xié)變量對(duì)步態(tài)識(shí)別的影響.此外,本實(shí)驗(yàn)的平均識(shí)別準(zhǔn)確率都高于基于牛津大學(xué)視覺幾何組(visual geometry group, VGG)網(wǎng)絡(luò)和基于步態(tài)能量圖像(gait energy image, GEI)+泊松方程+Gabor小波的方法[17-18],表明本研究提出的方法在0°視角具有較強(qiáng)的魯棒性和有效性.
圖9 自建數(shù)據(jù)集采集Fig.9 Acquisition of the self-built dataset
表2 正確識(shí)別準(zhǔn)確率對(duì)比
為驗(yàn)證Tc是否是合適的視頻序列長(zhǎng)度,測(cè)試了Tc、Tc+5和Tc-5共3個(gè)序列長(zhǎng)度的平均識(shí)別準(zhǔn)確率.Tc=25幀是從001~124號(hào)行人的視頻中提取的步態(tài)周期長(zhǎng)度.從表3可見,與Tc+5和Tc-5 相比,當(dāng)視頻序列長(zhǎng)度等于Tc時(shí),泛化是最好的.
3.2.1 同步態(tài)狀態(tài)
同步態(tài)狀態(tài)實(shí)驗(yàn)的識(shí)別準(zhǔn)確率結(jié)果表4,由表4可見,同步態(tài)狀態(tài)nm-nm、cl-cl和bg-bg的各視角總平均識(shí)別準(zhǔn)確率分別為99.69%、99.72%和99.69%,說明本研究網(wǎng)絡(luò)提取的時(shí)空特征能很好地反映步態(tài),解決多視角下同步態(tài)狀態(tài)的步態(tài)識(shí)別問題.因?yàn)槿梭w行走特征矢量圖是經(jīng)過歸一化的且大小都是固定的25×46×46×24,識(shí)別算法時(shí)間成本與視頻分辨率無關(guān),識(shí)別速度約為10幀/s,能滿足實(shí)時(shí)識(shí)別的要求.
3.2.2 跨步態(tài)狀態(tài)
為驗(yàn)證網(wǎng)絡(luò)的泛化能力,利用nm步態(tài)數(shù)據(jù)集訓(xùn)練得到的模型對(duì)不同類型的測(cè)試集進(jìn)行識(shí)別實(shí)驗(yàn).實(shí)驗(yàn)中16個(gè)視角的nm-cl和nm-bg實(shí)驗(yàn)的識(shí)別準(zhǔn)確率如表5.
圖10為服飾和攜帶物的識(shí)別結(jié)果.由圖10可見,雖然身體被遮擋,但仍能獲得正確的識(shí)別.該模型良好的泛化性能還體現(xiàn)在它能處理諸如手提包之類的規(guī)則擺動(dòng)的攜帶物.
在nm-bg實(shí)驗(yàn)中,16個(gè)視角的平均識(shí)別準(zhǔn)確率為65.125%,其在0°和180°視角下的識(shí)別準(zhǔn)確率最高,都超過80%.在0°和180°視角時(shí),盡管空間特征不明顯,但此時(shí)可以利用時(shí)間特征來彌補(bǔ),如圖11(a).90°和270°時(shí)的識(shí)別準(zhǔn)確率僅次于0°和180°;在90°及270°視角下,人體不僅被自身遮擋的部位較多且也受到攜帶物的影響,但由于該視角下步態(tài)的空間特征最鮮明,因此,該視角下的識(shí)別準(zhǔn)確率相對(duì)較高,如圖11(b).在精度相對(duì)較低的視角下,人體主要部分被攜帶物阻擋,從而影響了WFVD的獲?。?/p>
nm-bg和nm-cl的實(shí)驗(yàn)結(jié)果表明,由nm步態(tài)序列訓(xùn)練的網(wǎng)絡(luò)具有良好的泛化能力,較好地解決了在多個(gè)視角下服飾和攜帶物體的協(xié)變量問題.
表4 同步態(tài)狀態(tài)的平均識(shí)別準(zhǔn)確率Table 4 Average recognition accuracies in the identical gait states %
表5 跨步態(tài)狀態(tài)的平均識(shí)別準(zhǔn)確率Table 5 Average recognition accuracies in the crossing gait states %
圖10 服飾和攜帶物的識(shí)別結(jié)果Fig.10 Recognition results of clothes and carrying objects
圖11 180°及90°視角下的識(shí)別結(jié)果Fig.11 Recognition results at viewing angles of 180° and 90°
基于深度學(xué)習(xí)方法,提出基于人體WFVD的步態(tài)識(shí)別方法,并針對(duì)CASIA-B部分?jǐn)?shù)據(jù)集和自建數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn).由于OpenPose對(duì)外形不敏感,在一定程度上能處理遮擋和噪聲,因此,本算法能處理多視角下的步態(tài)特征.由于本研究提出的時(shí)空網(wǎng)絡(luò)是基于WFVD進(jìn)行特征學(xué)習(xí),當(dāng)遮擋物規(guī)律性的運(yùn)動(dòng)導(dǎo)致基于殘差學(xué)習(xí)模塊學(xué)習(xí)“錯(cuò)誤”的步態(tài)空間特征時(shí),依靠基于LSTN網(wǎng)絡(luò)學(xué)習(xí)步態(tài)時(shí)間特征,可學(xué)習(xí)出這種有規(guī)律的“錯(cuò)誤”.研究結(jié)果表明,所提方法能有效提升算法的識(shí)別準(zhǔn)確率和魯棒性.
目前,本方法僅能完成單人在數(shù)據(jù)集已有視角下不同服飾、不同攜帶物等綜合環(huán)境下的身份識(shí)別,未涉及到多人在跨視角、不同步行速度等情況下的識(shí)別工作,所采用的網(wǎng)絡(luò)結(jié)構(gòu)也有待改進(jìn).如何在復(fù)雜環(huán)境下解決多人跟蹤與識(shí)別、跨視角問題、不同步行速度下的識(shí)別問題,以及如何利用更好的網(wǎng)絡(luò)結(jié)構(gòu)比如雙層雙向LSTM來提高識(shí)別準(zhǔn)確率,將是下一步研究的方向.此外,需要采用更多樣本數(shù)量進(jìn)一步驗(yàn)證算法的有效性.