楊彥辰,云利軍,2,梅建華,盧 琳
(1. 云南師范大學(xué) 信息學(xué)院,云南 昆明 650500;2. 云南省光電信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3. 云南省煙草煙葉公司 設(shè)備信息科,云南 昆明 650218)
紅外人體步態(tài)識(shí)別作為最有潛力的非侵入式中遠(yuǎn)距離生物特征識(shí)別技術(shù)之一,可在無(wú)需被采集者配合的情況下,利用采集到的中遠(yuǎn)距離低分辨率紅外步態(tài)圖像,識(shí)別行人的身份信息[1]。相較人臉、指紋等識(shí)別條件相對(duì)嚴(yán)格的生物特征識(shí)別技術(shù)而言,紅外步態(tài)識(shí)別技術(shù)應(yīng)用場(chǎng)景更為廣泛,在可見(jiàn)光強(qiáng)度不足、雨雪天氣等特殊環(huán)境下仍能保證較高的識(shí)別準(zhǔn)確率,在身份識(shí)別領(lǐng)域異軍突起[2]。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為一種快速、可擴(kuò)展的端到端學(xué)習(xí)框架,極大地簡(jiǎn)化了傳統(tǒng)機(jī)器學(xué)習(xí)低效、冗雜的結(jié)構(gòu),在圖像處理的各個(gè)領(lǐng)域都取得了不錯(cuò)的成果。He K 等人[3]提出了一種易優(yōu)化的深度殘差網(wǎng)絡(luò),通過(guò)各殘差塊之間的跳躍連接,防止網(wǎng)絡(luò)過(guò)深帶來(lái)的梯度消失問(wèn)題,并提高了準(zhǔn)確率。Wang H 等人[4]以殘差網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建了一種L-Resnet-50 網(wǎng)絡(luò),在維持較高步態(tài)識(shí)別準(zhǔn)確率的前提下減少各部分50%的參數(shù)量,取得了不錯(cuò)的效果。Huang G 等人[5]采用調(diào)節(jié)局部特征流動(dòng)的方法構(gòu)建了一種處理步態(tài)數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)通過(guò)提取幀級(jí)特征和幀間局部特征間的關(guān)系,靈活地獲取局部和全局中最有判別性的特征,在CASIA B 中取得了95.1%的準(zhǔn)確率。由于CNN 無(wú)法捕捉序列化數(shù)據(jù)中的連續(xù)動(dòng)態(tài)時(shí)空信息,使得卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理NLP(natural language processing)及一些數(shù)據(jù)間有順序關(guān)系的領(lǐng)域表現(xiàn)并不是很理想。之后Wang X 等人[6]設(shè)計(jì)了FF-GEI(frame-by-frame GEI),擴(kuò)大了步態(tài)能量圖可用數(shù)據(jù)量,結(jié)合帶有長(zhǎng)短期記憶的Conv-LSTM(convolutional long short-term memory)模型,在CASIA B 和OU-ISIR 上對(duì)泛化能力進(jìn)行驗(yàn)證,取得了較為優(yōu)秀的結(jié)果。Vaswani A 等人[7]首次在NLP 領(lǐng)域中提出了完全基于自注意力機(jī)制的Transformer 架構(gòu),使模型在擁有簡(jiǎn)單結(jié)構(gòu)的情況下,對(duì)帶有時(shí)序信息的數(shù)據(jù)進(jìn)行特征提取。Dosovitskiy A 等 人[8]利 用Transformer 處 理 圖 像 數(shù)據(jù),將圖像進(jìn)行無(wú)重疊切片,再進(jìn)行包含位置信息的數(shù)據(jù)特征學(xué)習(xí),提供了一種全新的模型架構(gòu)思想,在擁有大量樣本的數(shù)據(jù)集中已經(jīng)逐步趕超現(xiàn)在流行的一些CNN 網(wǎng)絡(luò)模型,但在小樣本數(shù)據(jù)集上的表現(xiàn)仍有很大的提升空間。
本文將構(gòu)建對(duì)稱(chēng)的雙重完全注意力機(jī)制模型,以中科院CASIA C 紅外步態(tài)庫(kù)作為數(shù)據(jù)集,經(jīng)過(guò)數(shù)據(jù)預(yù)處理和步態(tài)周期劃分之后,采用多次實(shí)驗(yàn)取平均的方式進(jìn)行多輪消融實(shí)驗(yàn)。首先將本文模型和同尺寸ViT Base 模型對(duì)比,以證明對(duì)稱(chēng)雙重注意力結(jié)構(gòu)能有效促進(jìn)模型收斂。然后加入遷移學(xué)習(xí),得出其對(duì)模型收斂速度的促進(jìn)效果。最后將加入遷移學(xué)習(xí)的本文模型同CNN 模型進(jìn)行穩(wěn)定性、收斂速度和準(zhǔn)確率對(duì)比,證明融合了遷移學(xué)習(xí)之后的本文模型在保留背包、步速等雜項(xiàng)步態(tài)特征的狀態(tài)下,仍能取得較優(yōu)的識(shí)別準(zhǔn)確率。
實(shí)驗(yàn)數(shù)據(jù)集采用中國(guó)科學(xué)院自動(dòng)化研究所CASIA 步 態(tài) 數(shù) 據(jù) 庫(kù) 中 的Dataset C 紅 外 步 態(tài) 數(shù) 據(jù)庫(kù)。該數(shù)據(jù)庫(kù)在單人單一角度下對(duì)153 名被采集者正常行走(fn)、快速行走(fq)、慢速行走(fs)、背包行走(fb)的4 種不同行走狀態(tài)進(jìn)行拍攝。固定角度設(shè)置為90°,大小約有66.5 MB。圖1 給出了CASIA C 數(shù)據(jù)庫(kù)中的兩種紅外步態(tài)實(shí)例。
圖1 CASIA C 數(shù)據(jù)庫(kù)中的紅外步態(tài)實(shí)例Fig. 1 Examples of infrared gait in CASIA C database
本文首先采用背景減除法[9-10]來(lái)提取行走過(guò)程中的人體輪廓特征,再將圖像進(jìn)行二值化處理,進(jìn)一步強(qiáng)化人體姿態(tài)信息,最后剪裁大量無(wú)用背景信息,并將被采集者的步態(tài)信息居中顯示,最后將其調(diào)整為128×128 像素。具體處理結(jié)果如圖2所示。
圖2 紅外步態(tài)圖像預(yù)處理Fig. 2 Image preprocessing results of infrared gait
由于ViT 是對(duì)一組帶有時(shí)間信息的圖像數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的模型結(jié)構(gòu),因此,需要將行人的步態(tài)數(shù)據(jù)按照步態(tài)周期進(jìn)行劃分。將步態(tài)周期組作為數(shù)據(jù)輸入,可使模型在特征學(xué)習(xí)過(guò)程中不止學(xué)習(xí)到人體瞬時(shí)姿態(tài)特征,同時(shí)又將一段時(shí)間內(nèi)的姿態(tài)特征按照時(shí)間順序聯(lián)系起來(lái),有助于增加模型的魯棒性和穩(wěn)定性。圖3 為背包狀態(tài)下以左腳邁出為初始狀態(tài)的雙腳步態(tài)周期圖。
圖3 背包狀態(tài)雙腳步態(tài)周期Fig. 3 Feet gait cycle in backpack state
目前常用的圖像相似性模板匹配算法有絕對(duì)差和(sum of absolute differences,SAD)[11]、歸一化交叉相關(guān)系數(shù)(normalized cross correlation,NCC)[12]與零均值歸一化交叉相關(guān)系數(shù)(zero-normalized cross correlation,ZNCC)[13]3 種,考慮到紅外步態(tài)圖中對(duì)人體行走姿態(tài)特征敏感度要求較高,同時(shí)為避免計(jì)算絕對(duì)差和或誤差平方和可能出現(xiàn)的模式匹配錯(cuò)誤,本文采用對(duì)人體姿態(tài)輪廓識(shí)別更精細(xì)的ZNCC 函數(shù)作為步態(tài)周期的估計(jì)函數(shù),其結(jié)果越大表明兩張圖像的相關(guān)性越強(qiáng)。ZNCC 函數(shù)可以用(1)式來(lái)表示:
式中: (x,y) 為 圖像中的像素位置坐標(biāo);f(x,y)是原圖像像素值;t(x,y) 為 模板圖像像素值;n為模板中像素(元素)的個(gè)數(shù); μf、 μt分別為原圖像和模板圖像的像素均值。將包含有時(shí)間順序的一連串步態(tài)圖像逐一輸入ZNCC 函數(shù)中,與設(shè)定好的初始狀態(tài)圖像進(jìn)行相關(guān)系數(shù)計(jì)算,根據(jù)相關(guān)系數(shù)變化圖對(duì)比得出特征重復(fù)周期,再取最大值,從而估算得到本文研究的步態(tài)周期。以001 號(hào)類(lèi)別為例,如圖4 所示,其中2 個(gè)相鄰峰值之間為1 個(gè)單腳步態(tài)周期。
圖4 4 種不同狀態(tài)下的相關(guān)系數(shù)周期圖Fig. 4 Periodogram of correlation coefficient in four different states
卷積神經(jīng)網(wǎng)絡(luò)(CNN)[14]是一種典型的前饋網(wǎng)絡(luò)結(jié)構(gòu),主要由輸入層、隱藏層和輸出層3 個(gè)部分組成。輸入層將圖像輸入CNN 中;隱藏層通過(guò)對(duì)輸入的圖像卷積、池化等操作進(jìn)行特征學(xué)習(xí),其中利用池化層來(lái)壓縮數(shù)據(jù)和參數(shù)量,去掉特征圖中不重要的信息,突出重要特征;卷積層則是利用卷積核對(duì)感受野內(nèi)的局部特征數(shù)據(jù)進(jìn)行計(jì)算,其參數(shù)權(quán)重是共享的,這也使得CNN 具有圖像上的空間局部相關(guān)性;輸出層根據(jù)最終的圖像特征來(lái)給出圖像分類(lèi)結(jié)果。傳統(tǒng)CNN 通過(guò)增加隱藏層規(guī)模來(lái)提升識(shí)別準(zhǔn)確率,但隨著卷積的逐漸深入,丟失的輸入圖像細(xì)節(jié)和位置特征也越多,導(dǎo)致模型不易訓(xùn)練,準(zhǔn)確度出現(xiàn)飽和甚至下降[15]。為解決這種網(wǎng)絡(luò)退化問(wèn)題,Resnet 網(wǎng)絡(luò)[3,16]中構(gòu)建了一種殘差結(jié)構(gòu)。通過(guò)不同殘差塊之間的跳躍連接,實(shí)現(xiàn)了一種短路機(jī)制,使得網(wǎng)絡(luò)可以在一定條件下通過(guò)恒等映射規(guī)則跳過(guò)一些殘差塊,以此來(lái)適當(dāng)?shù)卣{(diào)節(jié)網(wǎng)絡(luò)深度,一定程度上解決了準(zhǔn)確度飽和以及不易訓(xùn)練的問(wèn)題。
考慮到模型對(duì)小樣本數(shù)據(jù)集的擬合特點(diǎn),本文基于Resnet 網(wǎng)絡(luò)構(gòu)建了一種淺層雙路殘差網(wǎng)絡(luò)。如圖5 所示,將Conv1 Block 和Block1 這2 個(gè)淺層塊組并聯(lián),通過(guò)AVG 模塊,將雙路特征信息進(jìn)行直接融合后取平均,然后依次輸入Block2、Block3和Block4 中進(jìn)一步擬合特征,之后輸入AdaptiveAvg-Pool2D(二元自適應(yīng)平均池化層)調(diào)整數(shù)據(jù)格式,最后經(jīng)由FC 層輸出結(jié)果。Block 塊中利用恒等映射方法來(lái)調(diào)節(jié)隱藏層深度,每個(gè)Block 都可由shortcut塊跳過(guò),以保證在接收到屏蔽該殘差塊信號(hào)之后仍可以將圖像按照相應(yīng)尺寸輸出。采用RELU 作為本網(wǎng)絡(luò)的激活函數(shù),Block 塊結(jié)構(gòu)均相同但參數(shù)不同,其中In_ch 為輸入通道數(shù),O_ch 為輸出通道數(shù),B_num 為該Block 循環(huán)次數(shù),Stride 為步長(zhǎng)。
圖5 雙路CNN 步態(tài)識(shí)別模型Fig. 5 Gait recognition model of double channel CNN
注意力機(jī)制(Attention)[17]是一種仿照人類(lèi)視覺(jué)關(guān)注重點(diǎn),捕獲輸入信息重點(diǎn)特征的結(jié)構(gòu)。如今常將其與CNN 結(jié)合作為卷積的補(bǔ)充,通過(guò)構(gòu)建“查詢(xún)向量(Query)”、“值向量(Value)”和“鍵向量(Key)”來(lái)進(jìn)行縮放點(diǎn)積注意力操作,使得網(wǎng)絡(luò)對(duì)不同特征分配不同的注意力,可以用(2)式、(3)式、(4)式表示:
Transformer[7]是一種完全基于注意力機(jī)制的特征提取網(wǎng)絡(luò),其通過(guò)構(gòu)建一種多頭注意力機(jī)制(multi-head attention),在Attention 模塊的基礎(chǔ)上進(jìn)一步完善了自注意力層,增強(qiáng)了模型專(zhuān)注于不同位置的能力,并為不同的注意力層加入了不同的“獨(dú)立子空間”。經(jīng)過(guò)多頭注意力機(jī)制后,每個(gè)頭都會(huì)有獨(dú)立的權(quán)重矩陣,使得網(wǎng)絡(luò)對(duì)每個(gè)不同位置的特征都有不同的權(quán)重參數(shù)。
ViT 不同于傳統(tǒng)卷積對(duì)整張圖像進(jìn)行操作,其將一張圖像以固定尺寸無(wú)交叉分割成為一組圖像塊,并將每個(gè)小塊轉(zhuǎn)化為一維張量。由于這種分割的圖像塊仍未標(biāo)識(shí)每個(gè)小塊的位置關(guān)系,因此采用Positional Encoding 方式為其添加位置嵌入,如(7)式所示:
式中:pos 表示token 在全局中的位置序列號(hào);i取 [0,···,dmodel/2];dmodel取512。這種位置嵌入方式可以適應(yīng)不同尺寸分割塊。
本文通過(guò)多次模型消融實(shí)驗(yàn),發(fā)現(xiàn)導(dǎo)致ViT 模型對(duì)小樣本步態(tài)數(shù)據(jù)集擬合速度較低、效果較差的原因,是由于模型在特征擬合過(guò)程中對(duì)注意力機(jī)制模塊不夠重視導(dǎo)致的。另外,這種分割不同位置的特征提取方式,雖加入了位置嵌入,但對(duì)人體步態(tài)整體特征學(xué)習(xí)能力仍較弱。因此,本文構(gòu)建了一種對(duì)稱(chēng)雙重注意力機(jī)制步態(tài)模型,通過(guò)設(shè)計(jì)對(duì)稱(chēng)雙重注意力機(jī)制塊,抵消模型在擬合步態(tài)特征時(shí)速率較低的缺陷;另外,為了避免該模塊影響過(guò)大導(dǎo)致準(zhǔn)確率震蕩反而不易收斂的問(wèn)題,本文設(shè)計(jì)特征融合模塊(feature fusion,F(xiàn)F),其先將2 個(gè)通道獲得的特征信息進(jìn)行等尺寸融合,然后再通過(guò)設(shè)置影響因子來(lái)對(duì)影響效果進(jìn)行控制。
雖然這種基于完全注意力的模型可以在保留特征位置信息的情況下對(duì)一組順序數(shù)據(jù)進(jìn)行學(xué)習(xí),但在較小樣本的數(shù)據(jù)集上會(huì)導(dǎo)致收斂較慢,對(duì)模型正則化或數(shù)據(jù)增強(qiáng)(AugReg)的依賴(lài)性增加[18]。而遷移學(xué)習(xí)[19]可以很好地解決這種問(wèn)題,在大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練后,將訓(xùn)練權(quán)重參數(shù)遷移到小樣本數(shù)據(jù)集上,使各層參數(shù)無(wú)需從初始值開(kāi)始收斂,加快數(shù)據(jù)擬合效率。
具體模型結(jié)構(gòu)如圖6 所示。首先將步態(tài)周期組中每一時(shí)刻的圖像按序輸入Embedding 層,再將尺寸為128×128 像素的步態(tài)圖像分割成16 個(gè)尺寸為32×32 像素的圖像塊,然后將圖像塊分別重構(gòu)成一維張量,利用(7)式中的正弦位置嵌入方法計(jì)算并添加位置嵌入后,輸入Encoder Block 中,經(jīng)過(guò)并聯(lián)的多頭注意力模塊,對(duì)輸入的不同人體位置姿態(tài)圖像(如:手臂、腿等)進(jìn)行姿態(tài)細(xì)節(jié)特征提取后,通過(guò)特征平均融合模塊擬合特征權(quán)重,再經(jīng)過(guò)LayerNormalization 層后進(jìn)入MLP 模塊中,最后傳入MLP_Head 塊得到分類(lèi)結(jié)果。為防止模型過(guò)分?jǐn)M合小樣本數(shù)據(jù),在對(duì)稱(chēng)的多頭注意力模塊和MLP 模塊中采用DropPath 來(lái)代替?zhèn)鹘y(tǒng)的Dropout,隨機(jī)將網(wǎng)絡(luò)中的多分支結(jié)構(gòu)隨機(jī)刪除。
圖6 雙重對(duì)稱(chēng)注意力機(jī)制步態(tài)模型Fig. 6 Dual symmetrical attention mechanism gait model
本文在Pytorch 1.7、Python 3.8 環(huán)境下進(jìn)行模型搭建。采用CASIA C 紅外步態(tài)數(shù)據(jù)庫(kù)作為數(shù)據(jù)集,包含153 名被采樣者的4 種行走狀態(tài),共100346張紅外圖像。運(yùn)用2.2 節(jié)中的預(yù)處理方法剔除無(wú)用特征,突出人體姿態(tài)細(xì)節(jié),然后再按估算的單腳步態(tài)周期劃分為步態(tài)周期組,并按照7∶3 的比例將其分割為訓(xùn)練集和測(cè)試集。
按照?qǐng)D5 構(gòu)建本文的CNN 對(duì)比模型,將數(shù)據(jù)無(wú)序輸入模型中,設(shè)置初始學(xué)習(xí)率為1×10-2。使用Adam 優(yōu)化器加強(qiáng)有效收斂,并采用 categorical_crossentropy 多分類(lèi)交叉熵?fù)p失函數(shù)計(jì)算Loss 值。設(shè)置Batchsize 為14,訓(xùn)練迭代次數(shù)為16 次。按照?qǐng)D6構(gòu)建本文模型,設(shè)置Embedding 尺寸為32,影響因子為1/2。采用相同的ViT Base 模型作為對(duì)比,由于ViT 是處理帶有時(shí)序性數(shù)據(jù)的模型結(jié)構(gòu),因此,要保持人體行走姿態(tài)的順序性,故將劃分好的步態(tài)周期組作為模型的數(shù)據(jù)輸入,再將圖像按照相應(yīng)的Embedding 尺寸切割成多個(gè)部分,按照從左到右、從上到下的順序輸入 Encoder 中。采用消融實(shí)驗(yàn)思想,設(shè)置初始學(xué)習(xí)率為1×10-3,Multi_Head Attention 數(shù)量為12 個(gè),以Adam 作為優(yōu)化器,使用categorical_crossentropy 多分類(lèi)交叉熵?fù)p失函數(shù)計(jì)算Loss。
模型效果通過(guò)模型分類(lèi)準(zhǔn)確率曲線(xiàn)進(jìn)行比較說(shuō)明。首先將本文模型與相同尺寸的ViT Base 模型在10 個(gè)Epoch 內(nèi)進(jìn)行效果對(duì)比。經(jīng)過(guò)4 次試驗(yàn),將得到的結(jié)果取平均值如圖7 所示。由圖7 中圓點(diǎn)線(xiàn)和三角點(diǎn)線(xiàn)可以明顯看出,Embedding 尺寸為32 的本文模型始終快于同尺寸的ViT 對(duì)比模型,且在5 個(gè)Epoch 前,二者都有較快的收斂速度,之后模型對(duì)人體姿態(tài)細(xì)節(jié)的掌握程度隨訓(xùn)練迭代增多逐漸加深,學(xué)習(xí)速度放緩,收斂加速度減少。最終,傳統(tǒng)ViT Base32 模型和本文模型在第10 個(gè)Epoch 時(shí)多次測(cè)試的平均識(shí)別準(zhǔn)確率分別為60.3%和75.3%。經(jīng)分析得出,該結(jié)果是因?yàn)閭鹘y(tǒng)ViT Base 模型對(duì)注意力權(quán)重不夠重視導(dǎo)致的,適當(dāng)?shù)丶訌?qiáng)注意力機(jī)制的影響程度,可以有助于提高準(zhǔn)確率飽和上限,使之不易出現(xiàn)準(zhǔn)確率震蕩。可見(jiàn),本文構(gòu)建的對(duì)稱(chēng)雙重注意力機(jī)制模型可以在一定程度上加快數(shù)據(jù)收斂速度,能夠更好地?cái)M合小樣本數(shù)據(jù)特征。
圖7 本文模型與同尺寸Vit 對(duì)比Fig. 7 Comparison between proposed model and ViT of same size
為進(jìn)一步解決ViT 在小樣本數(shù)據(jù)集上的應(yīng)用存在的收斂速度過(guò)慢、不易訓(xùn)練等諸多問(wèn)題,對(duì)本文模型采用異類(lèi)遷移學(xué)習(xí)方法,先將ViT 模型在ImageNet21K 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并將訓(xùn)練的各層參數(shù)權(quán)重進(jìn)行剪裁后應(yīng)用于本文構(gòu)建的模型中,經(jīng)過(guò)3 次試驗(yàn),將結(jié)果取平均值后如圖8 所示。由圖8 中圓點(diǎn)線(xiàn)和菱點(diǎn)線(xiàn)對(duì)比可見(jiàn),利用遷移學(xué)習(xí)后的本文網(wǎng)絡(luò)在訓(xùn)練初期便得到了較高的準(zhǔn)確率(ACC),這是因?yàn)楫愵?lèi)遷移為模型各層設(shè)置了初始權(quán)重,極大縮短了模型訓(xùn)練的時(shí)間。同時(shí),為證明并不是單純將某一部分進(jìn)行并聯(lián)堆疊都有效,本文將圖6 中的整個(gè)Encoder Block 并聯(lián),同樣利用遷移學(xué)習(xí)進(jìn)行3 次消融實(shí)驗(yàn),結(jié)果取平均值,如圖8 中三角點(diǎn)線(xiàn),發(fā)現(xiàn)其效果甚至不如未采用遷移學(xué)習(xí)的本文模型。原因是注意力強(qiáng)化模塊學(xué)到的特征在經(jīng)過(guò)Layer_Norm 層、MLP 和DropPath 層處理后已丟失了部分關(guān)鍵特征信息,此時(shí)對(duì)這些殘缺信息進(jìn)行加強(qiáng),反而會(huì)起到消極作用。
圖8 加入遷移學(xué)習(xí)的本文模型與研究過(guò)程中其他嘗試的對(duì)比Fig. 8 Comparison between proposed model with transfer learning and other attempts in research process
最后,將加入了遷移學(xué)習(xí)的本文模型與本文構(gòu)建的CNN 模型進(jìn)行對(duì)比。進(jìn)行2 次試驗(yàn),將結(jié)果取平均值后如圖9 所示,本文模型的準(zhǔn)確率在第7 個(gè)Epoch 就率先達(dá)到90%,遠(yuǎn)超對(duì)比CNN 模型5 個(gè)百分點(diǎn)。在11 個(gè)Epoch 時(shí),CNN 模型出現(xiàn)了準(zhǔn)確率飽和的情況,而本文模型的準(zhǔn)確率卻始終呈現(xiàn)穩(wěn)定提升,并在16 個(gè)Epoch 時(shí)達(dá)到96.8%。分析表明,加入遷移學(xué)習(xí)的本文模型不但有效縮短了模型各層權(quán)重的擬合時(shí)間,也進(jìn)一步提高了準(zhǔn)確率上限,使該模型在穩(wěn)定性、數(shù)據(jù)擬合速度以及識(shí)別準(zhǔn)確率3 方面皆?xún)?yōu)于CNN 對(duì)比模型。
圖9 加入遷移學(xué)習(xí)的本文模型同CNN 模型對(duì)比Fig. 9 Comparison between proposed model with transfer learning and CNN model
本文構(gòu)建了對(duì)稱(chēng)雙重注意力機(jī)制模型,并將其應(yīng)用于紅外步態(tài)識(shí)別領(lǐng)域。在中科院自動(dòng)化所提供的CASIA C 紅外數(shù)據(jù)庫(kù)中進(jìn)行3 組對(duì)比模擬仿真實(shí)驗(yàn)。保留紅外數(shù)據(jù)庫(kù)中行人裝飾(背包)、行走速度(正常、快、慢)等行走特征,將數(shù)據(jù)集按照Z(yǔ)NCC 函數(shù)估計(jì)的步態(tài)周期,劃分成多個(gè)順序性的組,然后將人體不同位置分割開(kāi)來(lái),使得本文網(wǎng)絡(luò)不是如傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)那樣對(duì)整張圖像進(jìn)行學(xué)習(xí),而是利用獨(dú)立特征子空間,擬合行走過(guò)程中人體不同位置的姿態(tài)特征,使得模型學(xué)習(xí)更加有針對(duì)性;同時(shí),為了提高模型的學(xué)習(xí)效率,使得模型在小樣本數(shù)據(jù)集上也有較好的效果,本文還采用了異類(lèi)遷移學(xué)習(xí)的思想。經(jīng)實(shí)驗(yàn)證明,加入遷移學(xué)習(xí)后的模型在數(shù)據(jù)擬合速度、穩(wěn)定性、平均識(shí)別準(zhǔn)確率等方面可以明顯超越CNN 以及傳統(tǒng)ViT 模型,進(jìn)一步使其在本領(lǐng)域應(yīng)用成為可能,亦為ViT在小樣本數(shù)據(jù)集上的應(yīng)用提供了新的思路。