朱松豪,趙云斌,焦 淼
(1.南京郵電大學(xué)自動化學(xué)院、人工智能學(xué)院,江蘇南京 210023 2.山東魯能泰山電纜有限公司特變電工,山東 新泰 271219)
行人重識別旨在連接不同攝像頭中的目標行人,廣泛應(yīng)用于安全、監(jiān)控等領(lǐng)域[1]。近年來,人們已經(jīng)提出了大量解決重識別問題的方法[2-6]。這些方法大多利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)人體特征的提取,在公開的實驗數(shù)據(jù)集上都取得了很好的識別效果。具體而言,基于局部分塊的行人重識別方法,通過引入圖片切塊、注意力機制[7]、多分支結(jié)構(gòu)[8]等行人的局部特征,用以提高行人重識別準確率;基于細粒度信息的行人重識別方法,通過引入姿態(tài)估計、關(guān)鍵點模型提取行人的細粒度特征,從而提升行人重識別性能;利用對抗生成式網(wǎng)絡(luò)生成行人圖片,從而補全圖片、豐富訓(xùn)練樣本,提高模型訓(xùn)練效果。然而,現(xiàn)實生活中經(jīng)常會遇到諸如物體遮擋、行人圖像不完整、背景雜亂等情形。在這類情形下,大多數(shù)行人重識別方法則很難獲得令人滿意的識別精度。
由于卷積神經(jīng)網(wǎng)絡(luò)感受野服從高斯分布[9],因此,感受野被限制在一個小區(qū)域內(nèi)。由于行人遮擋、背景信息或其他噪聲的大量存在,使得較小的感受野容易接收錯誤的特征信息;同時,下采樣操作會降低特征表征的分辨率,從而導(dǎo)致較小感受野識別遮擋行人的精度下降[10-11]。 因此,即使采用特征對齊方法[12]或引入注意機制[13-16],也很難完全解決遮擋行人重識別問題的挑戰(zhàn)。
文獻[17]已經(jīng)證明視覺轉(zhuǎn)換器模型(Vision Transformer,ViT)可用于圖像分類,其效果不亞于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法。ViT以多頭自注意機制為核心,摒棄了卷積和下采樣操作[18]。具體來說,ViT首先將原始圖像切割成一系列的圖像塊;然后,將這些圖像塊序列輸入到網(wǎng)絡(luò)中,并對這些圖像塊序列做分類編碼和位置編碼嵌入;最后,對這些圖像塊序列做自注意力操作。近年來,ViT被引入至行人重識別領(lǐng)域,憑借其捕捉全局特征的能力和更好的自注意機制,它超越了卷積神經(jīng)網(wǎng)絡(luò)方法,取得了很好的效果。
由于ViT對長序列具有良好的長距離相關(guān)性,因此在行人重識別方面取得了良好的效果。但是,當人物被大面積遮擋或背景與人物特征相似時,網(wǎng)絡(luò)也容易出現(xiàn)誤判,這是因為ViT不善捕捉目標的局部特征,因而導(dǎo)致其魯棒性較差[19]。因此,本文在ViT的基礎(chǔ)上提出了擁有3個模塊的局部特征視覺轉(zhuǎn)換器模型,用以改善圖像塊序列的短距離相關(guān)性并提取未被遮擋部分的局部特征。從圖1所示的熱力圖可以知道,相較于原始的視覺轉(zhuǎn)換器模型,本文所提的基于空間相關(guān)性和局部特征視覺轉(zhuǎn)換器模型更為關(guān)注局部特征,且具有更大的感受范圍。
圖1 基于不同視覺轉(zhuǎn)換器模型的注意力熱力圖
首先,本文提出了一個圖像塊序列融合重建模塊。該融合重建模塊首先將非目標行人的噪聲圖像塊或背景圖像塊等非主體圖像塊與行人主體圖像塊進行融合,用以減少噪聲或遮擋信息對整個圖像塊的影響;然后,重構(gòu)整個圖像塊序列。這樣,重構(gòu)后的圖像塊序列的感受野就可以獲得更多的局部特征,因為融合操作有助于擴大目標行人特征在全局特征中的比例。
其次,為了提高網(wǎng)絡(luò)模型在圖像分類領(lǐng)域的泛化性和魯棒性,本文提出了圖像塊序列的空間切割模塊,在視覺轉(zhuǎn)換器的最后一層對圖像塊序列切片分組。作為具有圖像塊序列空間相關(guān)性的全局分支,該模塊可以拉長細類之間的距離,提高圖像塊序列的空間相關(guān)性,進而提高圖像塊序列的短程相關(guān)性,使得網(wǎng)絡(luò)模型更為關(guān)注局部特征,進一步提升網(wǎng)絡(luò)模型的泛化能力。
最后,很多學(xué)者都關(guān)注到圖像塊序列在網(wǎng)絡(luò)模型中的流動,但卻忽略了圖像塊序列本身的可增強性。因此,本文在圖像塊序列生成階段引入全維度增強編碼。該編碼是一個可學(xué)習(xí)的張量,可以減少圖像中的噪聲,提取更多被遮擋行人的可辨別特征。因此,全維度增強編碼的引入有助于降低輸入圖像中的噪聲和可辨別特征提取的難度。
本文的主要創(chuàng)新點概括如下:
(1)設(shè)計了圖像塊序列的圖像塊全維度增強模塊,在合理范圍內(nèi)增加細類間的距離,豐富訓(xùn)練樣本的多樣性,弱化噪聲信息,突出圖像中的可辨別特征。
(2)提出了圖像塊序列的融合與重構(gòu)模塊,以擴大細類之間特征表示的差異,提高圖像塊序列中目標行人可辨別特征的比例,提高目標重識別的精度。
(3)空間切割模塊旨在從空間方向提取圖像塊序列的可區(qū)分特征。此外,該模塊將輸入圖像的空間相關(guān)性整合到圖像塊序列中,用以改善圖像塊序列的短程相關(guān)性,從而使得網(wǎng)絡(luò)模型對于重識別目標的局部特征信息更為敏感,有助于提取被遮擋人的綜合局部特征,進而提高網(wǎng)絡(luò)模型在不同遮擋情況下的泛化性能。
大多數(shù)關(guān)于行人重識別的研究主要依賴于行人的完整形象,較少考慮被遮擋的情況。然而,在現(xiàn)實生活中,尤其是在擁擠的場景中,完整的行人圖像很難獲得,因此,遮擋情況下的行人重識別是一個不容忽視的情況。
現(xiàn)有的用于遮擋行人重識別的深度學(xué)習(xí)方法主要基于卷積神經(jīng)網(wǎng)絡(luò)。這類方法的主要設(shè)計思想是特征對齊或引入高階語義信息(姿態(tài)引導(dǎo)信息),然后通過關(guān)鍵點估計模型,對人體關(guān)鍵點進行估計,最后利用姿態(tài)識別被遮擋人。文獻[20]提出層聯(lián)合學(xué)習(xí)和嵌入局部特征的姿態(tài)引導(dǎo)信息,并直接預(yù)測相似性得分,該方法的主要特點是通過魯棒的圖形軟匹配實現(xiàn)特征對齊。文獻[21]提出了一種姿態(tài)引導(dǎo)的部分匹配方法,該方法使用姿態(tài)引導(dǎo)的注意機制實現(xiàn)特征表征,并在端到端的框架中引入自挖掘部件的可見性。雖然姿態(tài)引導(dǎo)信息的引入使得模型具有更高的識別率,但引入的關(guān)鍵點估計模型使得整個網(wǎng)絡(luò)模型略顯臃腫,降低了網(wǎng)絡(luò)模型的運行速度。
視覺轉(zhuǎn)換器模型是自然語言處理領(lǐng)域一種常用的模型[22-23],文獻[24]提出了多頭主動注意機制,完全拋棄了循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)結(jié)構(gòu),僅將主動注意用于機器翻譯任務(wù),取得了良好的效果。谷歌將轉(zhuǎn)換器模型引入圖像分類領(lǐng)域,并提出了視覺轉(zhuǎn)換器模型,將圖像分割成圖像塊序列并輸入轉(zhuǎn)換器編碼器,最大限度地保留了轉(zhuǎn)換器的原始結(jié)構(gòu),取得了很好的效果。視覺轉(zhuǎn)換器模塊需要大量數(shù)據(jù)集進行預(yù)訓(xùn)練,以獲得類似于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果。因此,文獻[25]提出了Deit框架,并利用師生策略對問題進行優(yōu)化。最近,文獻[26]提出了TransReId模型,并將ViT應(yīng)用于行人重識別領(lǐng)域;同時,該文獻還提出利用JPM模塊對網(wǎng)絡(luò)最后一層特征進行分類,然后分別計算它們的損失,進一步增強 TransReId模型的魯棒性。然而,TransReId模型仍側(cè)重表征全局特征,而局部遮擋特征和短程相關(guān)性的問題尚未得到很好的解決。
為提高局部特征的自動調(diào)整能力和增強短程相關(guān)性,本文在圖像塊編碼階段設(shè)計了一個圖像塊全維嵌入模塊優(yōu)化圖像塊編碼操作。同時,本文還提出了圖像塊融合與重構(gòu)模塊和空間切割模塊來融合局部特征,提取空間方向上特征圖的局部特征,增強了特征學(xué)習(xí)的魯棒性。
本文提出一種可學(xué)習(xí)的全維度編碼用以增強圖像塊序列的表征能力,如圖2所示。給定的輸入圖片x∈RH×W×C, 其中 H、W 和C分別表示輸入圖像的高度、寬度和通道尺寸。實驗中圖像大小為256×128,且在嵌入操作之后,將圖像劃分為大小相同的N個圖像塊。此時,輸入從batchsize×H×W×C更改為batchsize×N×D,即,將三維圖片轉(zhuǎn)換為二維的序列,只是序列內(nèi)容是圖像塊特征信息。
圖2 本文所提空間相關(guān)性和局部特征轉(zhuǎn)換器框架
由于輸入圖像的分辨率較低,且存在卷積運算平移不變性的因素,因此圖像原始語義關(guān)鍵信息出現(xiàn)偏移,從而影響原始輸入圖像的通道信息。因此,本文構(gòu)造了一個與卷積運算后的圖像塊序列大小相同的可學(xué)習(xí)圖像塊增強編碼GLPDE=N×D,其中的N表示圖像塊的數(shù)量,D為面上每個圖像塊片的維數(shù)。本文還設(shè)置了一個初始化學(xué)習(xí)參數(shù)β,用以實現(xiàn)可學(xué)習(xí)編碼GLPDE針對不同分類問題進行微調(diào)。輸入圖像塊序列fin,H和W表示輸入圖像的高度和寬度,P表示每個圖像塊的邊長,S表示步長。利用式(1)將圖像分割為N個圖像塊。
如圖2所示,輸入圖像經(jīng)過扁平圖像塊的線性投影后得到圖像塊序列 fin,其中,f1、f2、…、fN分別表示第1個圖像塊張量到第N個圖像塊張量;接著,圖像塊全維度增強模塊構(gòu)造出一個與圖像塊序列fin大小、尺寸完全相同的可學(xué)習(xí)編碼GLPDE;然后,計算GLPDE和圖像塊序列fin的哈達瑪乘積(張量中的每個對應(yīng)元素相乘),實現(xiàn)LPDE編碼全維度地嵌入圖像塊序列fin,從而得到如式(2)所示的輸出圖像塊序列fout。
這里,構(gòu)建的可學(xué)習(xí)編碼GLPDE為張量形式,初始值設(shè)為1,且通過哈達瑪乘積運算嵌入到輸入圖像塊序列中。這樣,可在訓(xùn)練過程增強輸入圖像塊序列在圖像塊維度方向上的特征表征能力。利用Imagenet大型分類數(shù)據(jù)集獲得的預(yù)訓(xùn)練模型權(quán)重,可以加快本文提出的SCLFT網(wǎng)絡(luò)的收斂速度,而此時自學(xué)習(xí)編碼LPDE的收斂速度遠低于SCLFT網(wǎng)絡(luò)的收斂速度,所以,在網(wǎng)絡(luò)性能接近最優(yōu)時,嵌入到圖像塊序列的LPDE編碼可利用其自學(xué)習(xí)能力優(yōu)化自身參數(shù),進而進一步優(yōu)化網(wǎng)絡(luò)整體性能。因此,圖像塊全維度增強模塊不僅不會對網(wǎng)絡(luò)產(chǎn)生負影響,反而能在一定范圍內(nèi)提升網(wǎng)絡(luò)性能。由于圖像塊全維度增強模塊位于Transformer編碼器之前,因此,該模塊可優(yōu)化圖像塊序列fout。所以,在輸入圖像的分辨率較低的情況下,該模塊可在訓(xùn)練過程中隨機引入額外的特征信息,達到豐富訓(xùn)練樣本多樣性的目的??蓪W(xué)習(xí)張量LPDE的自學(xué)習(xí)能力可在訓(xùn)練過程中提高網(wǎng)絡(luò)的收斂精度,優(yōu)化輸入圖像的特征表示,加強被遮擋目標的上下文線索,淡化遮擋信息。
視覺轉(zhuǎn)換器模型可以很好地利用全局特征提高目標識別的性能,但對遮擋行人重識別而言,關(guān)鍵特征信息的提取通常更多地依賴局部特征。由于在遮擋重識別任務(wù)中存在大量的背景、遮擋、環(huán)境或其他干擾信息,因此,具有更多遮擋特征信息的圖像塊被認為是圖像塊序列中更重要的圖像塊。
圖像塊序列融合與重構(gòu)模塊在如圖3所示的Transformer編碼器之后接入網(wǎng)絡(luò),此時經(jīng)過多頭自注意力編碼的圖像塊序列建立了全局特征聯(lián)系。通過構(gòu)建全局相關(guān)性和自注意力,從而使網(wǎng)絡(luò)擁有對行人目標的分類能力。但是,通過計算圖像塊序列的余弦相似度可以發(fā)現(xiàn),與被遮擋人相關(guān)的信息主要集中在序列的中間位置,這是因為開頭部分和最后一部分的圖像塊與全局圖像塊間的相似度很低。即使偶爾出現(xiàn)高相似度的頻率也很低,這表明這兩部分圖像塊特征與全局可辨別特征的相關(guān)性不高,即這兩部分包含的特征信息均為非可辨別特征,因此,圖像塊序列自身的特征魯棒性仍可提升。為驗證及解決這個問題,本文在視覺轉(zhuǎn)換器模型的最后一層添加圖像塊序列融合與重構(gòu)模塊。具體操作過程如圖4所示。
圖3 圖像塊序列融合與重構(gòu)示例
圖4 Transformer編碼器結(jié)構(gòu)示意圖
(1) 分割。 首先,對圖像塊序列為Zin= [c;z1;z2;z3;z4;…;zN] 進行切割,得到分類編碼 class;然后,得到圖像塊序列 F = [z1;z2;z3;z4;…;zN]。
(2)分組。將N組圖像塊序列依次劃分為4組長度相同的子圖像塊序列F1、F2、F3、F4
(3)融合。經(jīng)過研究發(fā)現(xiàn)雖然圖像塊序列中頭部和尾部的圖像塊具有較低的相關(guān)性和依賴性,但不想完全丟棄這些特征信息,因為頭部和尾部的圖像塊有時也會包含一些輔助辨別特征(如頭部,帽子,雨傘等),因此通過融合頭部和尾部圖像塊的特征,并對其進行替換以期獲取更好的表征,從而得到新的頭部和尾部圖像塊FNew1與FNew4:
(4)重構(gòu)。 在獲得 FNew1和 FNew4的基礎(chǔ)上,將FNew1、F2、F3、FNew4四個圖像塊序列與分類編碼按照原始順序拼接成原始大小的圖像塊序列
經(jīng)過以上一系列操作后,圖像塊序列保留了F2和F3的主體可辨別特征,同時并未簡單地直接去除與主體可辨別特征相關(guān)性較小的圖像塊序列F1和F4,而是利用(F1,F(xiàn)2)和(F3,F(xiàn)4)構(gòu)建新的圖像塊序列FNew1和FNew4。 FNew1與FNew4在降低原始F1和F4所占比例的基礎(chǔ)上,分別融合了F2和F3的特征信息,從而構(gòu)建了更加魯棒的特征表征,并有效提高了這4部分圖像塊序列的特征相關(guān)性。因此,相較于原始圖像塊序列,最終拼接生成的圖像塊序列Zout包含更為豐富完整的可辨別特征信息,占比更小的干擾特征信息,更為適合用以解決遮擋行人重識別問題。
視覺變換器模型主要是從線性角度關(guān)注全局特征,構(gòu)建圖像塊序列從而獲得圖像塊之間的全局相關(guān)性。從圖像處理的角度來看,一張輸入圖像也可以理解為二維圖像塊序列的組合,因此,圖像塊序列除了上下文線索相關(guān)外也具有空間方向上的相關(guān)性。也就是說,不僅是連續(xù)的圖像塊間有著很強的空間相關(guān)性,即使是前后相隔很遠的圖像塊也可能包含很強的空間相關(guān)性。因此,本文嘗試探索圖像塊序列的空間相關(guān)性,以彌補圖像塊序列的短程相關(guān)性,確保模型感受野更加關(guān)注局部特征。
受文獻[26]的啟發(fā),本文沿用其在視覺轉(zhuǎn)換器模塊最后一層派生分支的結(jié)構(gòu),并引入如圖5所示的本文設(shè)計的空間切割模塊,以提取圖像塊序列的空間相關(guān)特征。利用圖像塊序列融合與重構(gòu)模塊得到融合了全局特征和局部特征的圖像塊序列Zout,并將其作為空間切割模塊的輸入。由于圖像塊序列是通過對輸入圖像進行切割并線性投影至二維空間得到的,因此,圖像塊序列中的每一部分仍保留原始三維圖像塊的空間關(guān)系。如圖5所示,從空間方向上切割圖像塊序列,并拼接重組得到包含局部特征的3組圖像塊序列;接下來,通過融合整個圖像塊序列,得到包含全局特征信息的融合特征,這里的融合操作可最大范圍擴大相似行人間的細類距離;然后,計算3組局部圖像塊序列的特征損失,鎖定遮擋行人可辨別特征,同時計算融合特征的損失,用以區(qū)分相似行人的可辨別特征,最后對這兩類損失加權(quán)得到更加準確的結(jié)果。
圖5 空間切割模塊結(jié)構(gòu)示意
模塊的具體操作如下:首先,通過分割操作將包含圖像特征的圖像塊序列與分類編碼分離開,然后利用式(3)將圖像塊序列分為長度相等的4組。
(1)空間切割。將得到的4組圖像塊序列從空間方向切片兩次至相同長度,這樣,總共生成12組不同的局部圖像塊序列τg;然后,分別給12組圖像塊序列編上對應(yīng)數(shù)字,如式(6)所示。
(2)空間分組。按照以下原則針對獲得的12組圖像塊序列進行分組:編號為1、4、7、10的圖像塊拼接成左側(cè)圖像塊序列,編號為2、5、8、11的圖像塊拼接成中間圖像塊序列,編號為3、6、9、12的圖像塊拼接成右側(cè)圖像塊序列空間分組。
(3)融合。將最初的4組圖像塊序列的特征融合,得到新的圖像塊序列:融合特征。融合后的融合特征具有全局特征信息;同時,融合特征拉大了不同目標間的距離。
(4)拼接。將初始分割出的類別編碼與左、中、右和融合特征分別拼接,融合特征擁有全局和局部特征(Global and Local Features,GLF)
最后,該模輸出了4個新的圖像塊序列,即左、中、右和GGLF
針對提出的基于局部特征視覺轉(zhuǎn)換器模型的遮擋行人重識別方法進行綜合實驗,以測試其在遮擋行人重識別問題中增強圖像塊序列的短程相關(guān)性和長程相關(guān)性的有效性。
本文在5個公開數(shù)據(jù)集上評估了所提方法的性能,分別是文獻[10]中提到的 Occluded?ReID,文獻[12]中提到的 Occluded?Duke,文獻[27]中提到的Market?1501,文獻[28]中提到的 DukeMTMC?ReID,文獻[11]中提到的 Partial?ReID 和文獻[29]中提到的 Partial?iLIDS。
Occluded?ReID:該數(shù)據(jù)集來自 200個行人,其中每個行人拍攝5張全身圖像以及5張各種遮擋情況的圖像。
Occluded?Duke:該數(shù)據(jù)集是迄今為止最大的遮擋行人重識別數(shù)據(jù)集,包含15 618個訓(xùn)練圖像、17 661個驗證圖像以及2 210個查詢圖像。
Market?1501:該數(shù)據(jù)集共有來自1 501個行人的32 668張圖像組,其中包含來自751個行人的12 936張圖像的訓(xùn)練集,以及來自包含750個行人的19 732張圖像的測試集。
DukeMTMC?ReID:該數(shù)據(jù)集共有來自1 812個行人的36 411張圖像,其中隨機選取702行人的16 522張圖像作為訓(xùn)練集,以及2 228張驗證圖像和17 661張測試圖像。
Partial?ReID:該數(shù)據(jù)集是第一個行人重識別的數(shù)據(jù)集,共有來自60個行人的900張圖像,其中每個行人拍攝5張全身圖像、5張局部圖像和5張遮擋圖像。
Partial?iLIDS:該數(shù)據(jù)集是一個基于iLIDS的模擬的部分人員的重識別數(shù)據(jù)集。它總共有476張119人的照片。
主干網(wǎng)絡(luò)。本文使用視覺轉(zhuǎn)換器模型作為基礎(chǔ)主干網(wǎng)絡(luò):首先,將輸入圖像切割為圖像塊序列;然后,通過附加類標記和位置嵌入進行圖像分類;最后,加入本文設(shè)計的模塊,形成新的視覺轉(zhuǎn)換器模型結(jié)構(gòu),本文稱之為局部特征轉(zhuǎn)換器模型。
訓(xùn)練細節(jié)。通過pytorch 1.8.1實現(xiàn)本文的框架網(wǎng)絡(luò);將輸入圖像統(tǒng)一調(diào)整為256×128,且利用隨機水平、翻轉(zhuǎn)、填充、隨機剪切和隨機擦除等方法對輸入圖像進行增強[30];批處理大小設(shè)置為48;使用SGD優(yōu)化器,動量為0.9,1e-4的權(quán)重衰減,學(xué)習(xí)率初始化為0.008,以余弦優(yōu)化進行學(xué)習(xí)率衰減;訓(xùn)練顯卡使用的是英偉達1080Ti。
評價指標。使用累積匹配特征(CMC)曲線和平均精度(mAP),評估不同行人重識別模型的性能。所有實驗均為單一查詢設(shè)置下進行。
Occluded?Duke數(shù)據(jù)集性能驗證:表 1給出了Occluded Duke數(shù)據(jù)集的實驗結(jié)果。
表1 Occluded?Duke數(shù)據(jù)集上的性能驗證 %
本文比較了4種主流的行人重識別方法。它們是純整體重 識 別 方 法 (PCB[19]、 Part Aligned[31]、Adver occluded[32])、使用外部或者高階語義信息的遮擋 重識別方法 (PGFA[12]、Part Bilinear[33]、 FD?GAN[34]、HONet[35])、特征部分匹配方法(DSR[29]、SFR[36]、MoS[37])以及基于視覺轉(zhuǎn)換器模型的方法??梢钥闯觯谝曈X轉(zhuǎn)換器的長序列行人重識別本質(zhì)上是基于全局特征相關(guān)性,而圖像塊序列的局部特征相關(guān)性在視覺轉(zhuǎn)換器網(wǎng)絡(luò)中沒有得到很好的利用。所以,本文通過提高長序列中短序列的相關(guān)性,從而使本文提出的局部特征轉(zhuǎn)換器模型能夠更加關(guān)注局部特征,最后獲得了69.8%的rank?1和60.8%的mAP,這在Occluded?Duke數(shù)據(jù)集上的現(xiàn)有先進方法中表現(xiàn)最好。
Occluded?REID 和 Partial-REID 數(shù)據(jù)集性能驗證:由于Occluded?REID數(shù)據(jù)集中被遮擋的行人圖像遠遠少于Occluded?Duke數(shù)據(jù)集,因此,很多研究人員首先使用market1501數(shù)據(jù)集進行模型的預(yù)訓(xùn)練,然后在Occluded?ReID數(shù)據(jù)集上進行性能測試,從而達到更加收斂的效果。但是,本文選擇直接針對 Occluded?Duke數(shù)據(jù)集進行訓(xùn)練,同時使用Market1501數(shù)據(jù)集作為Partial?REID數(shù)據(jù)集的預(yù)訓(xùn)練集,這是因為Occluded?REID數(shù)據(jù)集更偏向遮擋類型。所以,使用遮擋數(shù)據(jù)集進行訓(xùn)練,更容易達到更好的效果,如表2所示的實驗結(jié)果也驗證了這一假設(shè)。
表2 Occluded?REID與Partial-REID數(shù)據(jù)集的性能驗證 %
Partial?REID 數(shù)據(jù)集與 Occluded?REID 數(shù)據(jù)集的區(qū)別在于前者更為側(cè)重部分人體的識別(比如胳膊、上半身、左半身等),很少包含遮擋信息、背景信息或者噪聲信息。Occluded?REID數(shù)據(jù)集與Occluded?Duke數(shù)據(jù)集類似,其圖片包含更多的被遮擋對象以及其他噪聲信息。從表2可以看出,局部特征視覺轉(zhuǎn)換器模型SCLFT更適合解決遮擋重識別問題,其mAP遠高于整體識別法(PCB)和外部信息法(HOREID)。 此外,SCLFT的 rank?1也達到了目前的最高,比最高方法 HOREID高出了2.7%。SCLFT在Partial?REID數(shù)據(jù)集上也表現(xiàn)出了良好的性能,充分發(fā)揮出視覺轉(zhuǎn)換器模型的優(yōu)勢,整體識別精度高,因此大大提高了mAP。
整體數(shù)據(jù)集的結(jié)果:視覺轉(zhuǎn)換器展示了其在行人重識別領(lǐng)域的強大性能。因此,本文希望提出的局部特征轉(zhuǎn)換器不僅能對遮擋目標有很好的性能,而且能在整體數(shù)據(jù)集中也表現(xiàn)出很強的泛化能力和魯棒性,實驗結(jié)果如表3所示。
表3 Market?1501和DukeMTMC數(shù)據(jù)集上的性能驗證 %
根據(jù)主干網(wǎng)絡(luò)的不同,將其分為兩類:卷積神經(jīng)網(wǎng)絡(luò)模型 (PCB、PGFA、VPM、MGCAN、SPReID、OSNet、HOReID、ISP)和視覺轉(zhuǎn)換器模型(TransReID、DRL Net)。 從表3可以看出,基于視覺轉(zhuǎn)換器模型的方法更易在整體行人重識別數(shù)據(jù)集上取得良好效果。本文提出的用于遮擋行人重識別人的局部特征轉(zhuǎn)換器,在面對傳統(tǒng)的整體行人重識別問題時也很有效:Market?1501 數(shù)據(jù)集上的 Rank?1和mAP得分,分別比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)方法HONet提高1.3%和4.1%;與專注于整體行人重識別的TransReID方法相比,性能接近。以上結(jié)論表明本文提出的局部特征轉(zhuǎn)換器模型,可以處理各類行人重識別問題。
Partial?iLIDS 數(shù)據(jù)集實驗結(jié)果:Partial?iLIDS 基于iLIDS數(shù)據(jù)集,包含由多個非重疊攝像頭拍攝的119人共238張圖片,并手動裁剪其遮擋區(qū)域。由于Partial?iLIDS數(shù)據(jù)集太小,包含的圖片太少,選擇其他主流數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。這里選擇Occluded?Duke數(shù)據(jù)集作訓(xùn)練集,實驗結(jié)果如表4所示。在Partial?iLIDS數(shù)據(jù)集上,本文模型SCLFT達到了75.2%的Rank?1精度,這一結(jié)果接近目前最先進的方法。Baseline僅僅使用ViT作為網(wǎng)絡(luò)結(jié)構(gòu),也達到了不錯的性能,接近HOReID方法。SCLFT在ViT的基礎(chǔ)上性能有了顯著提高,可以看出,SCLFT針對遮擋問題的性能明顯優(yōu)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和ViT網(wǎng)絡(luò)。
表4 Partial?iLIDS數(shù)據(jù)集的實驗對比 %
經(jīng)過thop庫的代碼計算分析可知,本文所提的融合空間相關(guān)性和局部特征轉(zhuǎn)換器的遮擋行人重識別網(wǎng)絡(luò)模型的參數(shù)量為92.7×106,浮點數(shù)計算量為22.93×109。
本節(jié)將研究所提出的局部特征轉(zhuǎn)換器中每個模塊的有效性,以視覺轉(zhuǎn)換器為基礎(chǔ),進行了圖像塊全維度增強模塊、圖像塊融合重構(gòu)模塊和空間切割模塊的消融實驗。如表5所示的Occluded?Duke數(shù)據(jù)集消融實驗結(jié)果,驗證了各模塊在遮擋行人重識別的有效性。
表5 Occluded?Duke數(shù)據(jù)集消融實驗結(jié)果 %
圖像塊全維度增強模塊的有效性:首先,本文在視覺轉(zhuǎn)換器的基礎(chǔ)上僅添加圖像塊全維度增強模塊。通過這種方式,該模塊可以最大限度地優(yōu)化視覺轉(zhuǎn)換網(wǎng)絡(luò)中圖像塊序列的構(gòu)建并提取可辨別特征。此外,通過深層次嵌入可學(xué)習(xí)張量,可以豐富訓(xùn)練樣本的多樣性,提高數(shù)據(jù)樣本的區(qū)分度,合理范圍內(nèi)拉大不同類別間的距離,防止陷入局部最優(yōu)。如表5的索引2所示,與視覺轉(zhuǎn)換器網(wǎng)絡(luò)相比,當僅使用全維增強模塊時,Rank?1得分提高了2.2%。這表明圖像塊全維度增強模塊,確實在具有復(fù)雜特征信息的遮擋問題中發(fā)揮了作用。
為了驗證圖像塊全維度增強模塊的泛化能力,本文比較了B+F+S和B+F+S+P。這兩種網(wǎng)絡(luò)在視覺轉(zhuǎn)換器的基礎(chǔ)上加入其他兩個模塊,網(wǎng)絡(luò)中數(shù)據(jù)的流通更加復(fù)雜。對比表5中的索引4和索引6,可以發(fā)現(xiàn)在索引4的實驗基礎(chǔ)上,加入圖像塊全維度增強模塊后,索引6的Rank?1得分顯著提高了2.5%,換言之,該模塊對圖像塊序列的增強效果是實際存在的。在復(fù)雜視覺轉(zhuǎn)換器和原始視覺轉(zhuǎn)換器等不同情況下,圖像塊全維度增強模塊都可提高遮擋行人重識別效率,而不會對網(wǎng)絡(luò)產(chǎn)生負面影響,具有良好的泛化性能。
圖像塊融合與重構(gòu)模塊的有效性:圖像塊融合與重構(gòu)模塊側(cè)重于對圖像塊序列的重建,因此它可以方便添加至視覺轉(zhuǎn)換器網(wǎng)絡(luò)中。通過索引2和索引3的比較可知,在添加圖像塊的融合與重構(gòu)模塊后,Rank?1和mAP分別提高了3%和2%。通過索引5和6的比較可知,在添加空間切割模塊后,圖像塊融合與重構(gòu)模塊的加入仍然顯示了其在解決遮擋信息方面的有效性,且將Rank?1和mAP又分別提高了2%和1.6%。
通過以上兩組消融實驗結(jié)果可以知道,圖像塊融合與重構(gòu)模塊能夠有效處理遮擋行人重識別中出現(xiàn)的噪聲信息和遮擋信息。在弱化遮擋特征信息的同時,它引入的被遮擋目標的身體特征增加了可辨別特征信息在整個新構(gòu)造的特征序列中的比例。也就是,圖像塊序列經(jīng)過該模塊后,輸出的圖像塊序列中將會包含更多的與被遮擋人相關(guān)的特征信息,這對于擅長整體識別的ViT網(wǎng)絡(luò)來說,無疑是有助于進一步提升其網(wǎng)絡(luò)性能的。
空間切割模塊的有效性:空間切割模塊可以將輸入圖像的空間相關(guān)性集成到圖像塊序列中,從而提高圖像塊序列的短程相關(guān)性,進而增強網(wǎng)絡(luò)提取被遮擋人的局部特征的能力。
在索引 3中,Baseline+P+F的 Rank?1達到64.6%,mAP達到56.9%。在索引6中,本文在索引3的基礎(chǔ)上增加了空間切割模塊。實驗效果有了很大的提高。Rank?1增加了 5.2%,mAP提升了3.9%。
觀察索引4、5和6這3組實驗,可以發(fā)現(xiàn),只要增加空間切割模塊,網(wǎng)絡(luò)對遮擋重識別的效果就會產(chǎn)生大幅度提高,這說明了卷積神經(jīng)網(wǎng)絡(luò)中的空間相關(guān)性也存在于視覺轉(zhuǎn)換器的圖像塊序列中。所以利用輸入圖片的空間相關(guān)性,將圖像塊中的部分特征信息提取出來,做人員損失加權(quán),可以有效地提高視覺轉(zhuǎn)換器網(wǎng)絡(luò)對于局部特征的關(guān)注,在從整體相關(guān)性對目標進行識別分類的時候,融入的空間相關(guān)性可以拉大相似目標間的距離。這對復(fù)雜的細類分類問題是有效的。
本文進行了幾組對比實驗,以評估初始強化系數(shù)對全維度增強模塊性能的影響。
首先,將可學(xué)習(xí)增強編碼初始化為高斯分布、均勻分布、拉普拉斯分布和指數(shù)分布。實驗結(jié)果表明,不同的分布會不同程度地改變圖像的原始特征分布。僅通過一層圖像塊全維度增強模塊很難將特征偏差校正回原始分布,這將導(dǎo)致網(wǎng)絡(luò)陷入局部優(yōu)化。因此,本文決定將可學(xué)習(xí)圖像塊編碼初始化為全一張量,即一開始不調(diào)整圖像特征分布。但是,通過調(diào)整初始增強系數(shù)β,同樣可以改變網(wǎng)絡(luò)的收斂速度和收斂精度,即不同的初始強化系數(shù)會影響行人重識別效果。
如圖6和圖7所示的實驗結(jié)果可以清楚看到,行人重識別效果隨著初始增強系數(shù)β的變化而變化。只有當β為1.0時,行人重識別性能達到最佳,這表明該模塊在一定范圍內(nèi)具有優(yōu)化網(wǎng)絡(luò)的能力。一旦β值取在[0.95~1.05]區(qū)間之外,圖像特征信息就會發(fā)生較大變化,改變了圖像和圖像塊序列原有的內(nèi)在關(guān)聯(lián),網(wǎng)絡(luò)的性能就會出現(xiàn)較大波動,模塊就很難發(fā)揮其優(yōu)化能力。
圖6 強化系數(shù)β在occluded?duke數(shù)據(jù)集的mAP
圖7 強化系數(shù)β在occluded?duke數(shù)據(jù)集的rank?1
根據(jù)實驗結(jié)果還可以得到以下結(jié)論:當圖像的原始特征分布變化較大時,局部特征轉(zhuǎn)換器模型SCLFT依舊能夠保持良好的性能,并且Rank?1和mAP都可保持在較高的水平。這充分說明了本文提出的局部特征轉(zhuǎn)換器模型和全維度增強模塊對各種輸入圖像,以及對于各種情況下的行人重識別問題的有效性。
本文提出了一種基于空間相關(guān)性和局部特征轉(zhuǎn)換器模型,其中包括本文設(shè)計的3個新模塊。空間相關(guān)性和局部特征轉(zhuǎn)換器模型中的空間切割模塊可充分利用輸入圖像的空間相關(guān)性,將其融入到圖像塊序列中,從而提高圖像塊序列的短程相關(guān)性,使網(wǎng)絡(luò)模型聚焦被遮擋人的局部可辨別特征。圖像塊序列全維度增強模塊可豐富輸入數(shù)據(jù)的多樣性,優(yōu)化特征圖的分布,從而提高網(wǎng)絡(luò)的泛化能力和魯棒性。圖像塊融合和重構(gòu)模塊則更關(guān)注遮擋問題,突出被遮擋人的可區(qū)分特征,淡化整體特征信息里的干擾信息。最后,本文提出的局部特征轉(zhuǎn)換器網(wǎng)絡(luò)模型SCLFT在遮擋、部分和整體行人重識別數(shù)據(jù)集中都取得了良好的實驗效果。