摘要:針對步態(tài)識別模型在特征表示粒度和時空依賴建模的不足,提出了一種融合多尺度特征表示和注意力機制的步態(tài)識別模型。該模型包含兩個關(guān)鍵模塊:多尺度特征融合網(wǎng)絡(luò)(multi-scalefeatures fusion network,MFFN)和步態(tài)注意力融合模塊(gait attention fusion module,GAFM)。其中,MFFN 通過多尺度、多粒度特征融合提高特征表示的豐富性和判別力; GAFM 通過自適應(yīng)地關(guān)注步態(tài)序列中的關(guān)鍵幀和重要區(qū)域,從而有效地建模長期時空依賴關(guān)系。在3 個數(shù)據(jù)集CASIAB,CASIA-B*和OUMVLP 上的實驗結(jié)果表明,該模型在多種復(fù)雜條件下均優(yōu)于現(xiàn)有模型,相較于基準模型,平均識別率分別提升了0.9%,0.3% 和0.6%。
關(guān)鍵詞:步態(tài)識別;多尺度特征;注意力機制;時空依賴;特征融合
中圖分類號:TP 181 文獻標志碼:A
生物特征識別技術(shù)是指利用人體的生理或行為特征進行識別的技術(shù),與傳統(tǒng)身份識別相比,其具有更高的安全性,這是因為生物特征難以被復(fù)制、盜用或遺忘。常見的生物特征包括指紋、虹膜、人臉、聲紋、筆跡等。
步態(tài)識別是一種通過人體步行的特征進行身份識別的技術(shù)[1]。與其他生物特征識別方法相比,步態(tài)識別具有以下獨特的優(yōu)勢:非接觸性、隱蔽性、難以偽造性、魯棒性等。其中:非接觸性意味著步態(tài)識別可以遠距離進行[2],不需要與被識別對象直接接觸;隱蔽性是指步態(tài)識別可以在不引起被識別對象注意的情況下進行;難以偽造性是因為步態(tài)是一種人體動態(tài)的特征,受個人身體結(jié)構(gòu)、肌肉力量、神經(jīng)控制等因素影響,每個人都有一種獨屬于自己的步態(tài)模式[3]。并且,步態(tài)識別對環(huán)境光照和服裝變化也同時具有一定的魯棒性,即使在戶外場景中也能取得較好的識別效果。這些優(yōu)勢使步態(tài)識別適用于公共安全應(yīng)用,例如刑事調(diào)查、嫌疑人追蹤[4] 和身份驗證[5]。
盡管步態(tài)識別技術(shù)具有諸多優(yōu)勢,但現(xiàn)有方法仍面臨兩個關(guān)鍵挑戰(zhàn):首先是步態(tài)特征表示的粒度問題,現(xiàn)有方法往往依賴于單一尺度的特征提取,或是將全局特征和局部特征分開處理。這種處理方式難以全面捕捉步態(tài)的多尺度信息,導(dǎo)致一些細微但對身份識別至關(guān)重要的步態(tài)特征被忽略。例如,在處理攜帶物品或穿著外套等復(fù)雜場景時,由于遮擋和變形的影響,單一尺度的特征表示往往無法準確描述人體運動特征;其次是步態(tài)序列的時空依賴建模的問題,步態(tài)是一個時序運動的過程,其中包含時間和空間的依賴關(guān)系,現(xiàn)有方法在建模這些依賴關(guān)系時存在不足:一方面是對于長時序的建模能力有限,難以捕捉跨越多個步態(tài)周期的長期依賴關(guān)系,而另一方面,現(xiàn)有方法對重要性不同的區(qū)域缺乏自適應(yīng)的權(quán)重分配機制,這意味著模型無法根據(jù)不同場景動態(tài)調(diào)整關(guān)注重點,進而影響識別的準確率。這些問題在實際應(yīng)用中尤為突出,直接影響識別性能的穩(wěn)定性和魯棒性。為了解決上述問題,本文旨在提升步態(tài)特征的多尺度建模能力和時空依賴關(guān)系的建模效果。通過實現(xiàn)對不同粒度的步態(tài)信息進行有效融合,提高特征表示的豐富性和判別力,同時使用自適應(yīng)的注意力機制捕捉長期時空依賴,增強模型對復(fù)雜場景的適應(yīng)能力。
針對上述目標,本文提出了一種融合多尺度特征表示和注意力機制的步態(tài)識別模型( multiscaleand attention gait recognition model, MSAGait)。具體而言,本文的主要貢獻如下:
a. 提出并實現(xiàn)了改進的多尺度特征融合網(wǎng)絡(luò)( multi-scale features fusion network,MFFN)。該網(wǎng)絡(luò)在BNNeck[6] 的基礎(chǔ)上,通過多尺度、多粒度的特征融合機制實現(xiàn)局部細節(jié)與全局語義特征的自適應(yīng)融合。并且特征融合有效地平衡了特征的判別性和多樣性,顯著提升了模型捕捉細微步態(tài)信息的能力。
b. 設(shè)計并實現(xiàn)了步態(tài)注意力融合模塊( gaitattention fusion module,GAFM)。該模塊通過融合不同的注意力機制,實現(xiàn)對步態(tài)序列中關(guān)鍵幀和區(qū)域的自適應(yīng)關(guān)注。并通過空洞卷積增強了長期時空依賴關(guān)系的建模能力,提高了模型在復(fù)雜場景下的魯棒性。
1 相關(guān)工作
1.1 基于模型的步態(tài)識別
相比于其他方法,基于模型的方法在復(fù)雜場景下面臨著多重挑戰(zhàn)。Bouchrika 等[7] 通過特征提取和建模實現(xiàn)步態(tài)分析,但在低分辨率場景下性能顯著下降。SMPL(skinned multi-person linear) 模型把人體模型作為一個參數(shù)化的線性模型,但該模型在處理復(fù)雜動作和快速運動時仍存在姿態(tài)估計不準確的問題[8]。PostGait 方法利用3D 身體姿勢和先驗知識來克服服裝變化的影響,但其復(fù)雜的人體結(jié)構(gòu)建模帶來了較大的計算開銷[9]。而GaitGraph 模型雖然采用圖卷積網(wǎng)絡(luò)簡化了建模過程,但在遮擋情況下,關(guān)鍵點定位的準確性仍然受到嚴重影響[10]。HMRGait( human mesh recoverygait)通過微調(diào)預(yù)訓(xùn)練的 HMR 網(wǎng)絡(luò)來構(gòu)建基于端對端的SMPL 模型,但當前用于姿態(tài)特征的識別網(wǎng)絡(luò)忽略了關(guān)節(jié)之間的結(jié)構(gòu)信息[11]。SMPLGait 方法通過SMPL 模型提取3D 信息來增強特征學(xué)習,但對輸入圖像質(zhì)量的要求較高,限制了其實際應(yīng)用場景[12]。GPGait(generalized pose-based gait) 方法提出人體導(dǎo)向的姿態(tài)變換和描述器來提升骨骼特征的跨數(shù)據(jù)集泛化能力,并通過部位感知圖卷積網(wǎng)絡(luò)挖掘局部與全局關(guān)系,但在單一數(shù)據(jù)集上的識別性能略低于先前方法[13]。BiFusion(bimodal fusion)模型提出多尺度步態(tài)圖網(wǎng)絡(luò)來集成骨架和輪廓特征,但其在衣著變化場景下的骨架估計精度仍有待提高 [14]。