陳思文 吳懷宇 陳 洋
(武漢科技大學(xué)機(jī)器人與智能系統(tǒng)研究院 武漢430081)
近年來,隨著社會公共安全的需要,監(jiān)控?cái)z像頭大量普及,隨之而來的是龐大的視頻監(jiān)控?cái)?shù)據(jù),通過人工觀察不同監(jiān)控視頻來查找指定行人需要耗費(fèi)大量的人力物力,因此,基于跨攝像頭的行人身份重識別成為視頻分析工作中一個(gè)重要的研究課題。目前,大量的行人重識別方法[1-4]都是基于深度學(xué)習(xí)模型來實(shí)現(xiàn)的,旨在通過在目標(biāo)場景下大量的帶標(biāo)簽數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練,獲得在目標(biāo)場景下行人外觀特征的最佳視覺表示,從而實(shí)現(xiàn)對行人身份的有效識別。
然而,當(dāng)模型在沒有訓(xùn)練過的目標(biāo)場景中應(yīng)用時(shí),其性能會出現(xiàn)大幅度下跌,這是因?yàn)椴煌瑘鼍跋碌呐臄z視角、相機(jī)參數(shù)、光照環(huán)境以及圖片質(zhì)量等因素的不同,導(dǎo)致行人數(shù)據(jù)分布在域間存在巨大差異。例如,公開數(shù)據(jù)集Market-1501[5]采集的行人圖像分辨率較高、光照條件好、色彩鮮明,而DukeMTMCreID[6]采集的行人圖像分辨率較低、色彩相對較暗、背景復(fù)雜,這種顯著的圖像差異導(dǎo)致了同一模型在兩個(gè)不同數(shù)據(jù)集上性能的巨大落差。
為增強(qiáng)行人重識別模型在跨域任務(wù)中的性能,文獻(xiàn)[7]提出了源域相機(jī)到目標(biāo)域相機(jī)的圖像轉(zhuǎn)換方法。該方法不直接在源域和目標(biāo)域之間進(jìn)行圖像樣式轉(zhuǎn)換,而是將每一個(gè)相機(jī)看成是一個(gè)獨(dú)立的子域,利用StarGAN[8]的多域圖像到圖像的轉(zhuǎn)換方法,生成帶有源域身份關(guān)聯(lián)的目標(biāo)相機(jī)域樣式的圖像,通過在生成的帶有身份關(guān)聯(lián)的圖像上學(xué)習(xí)目標(biāo)域行人身份特征表示。但這種方法生成的圖像并不能完全替代真實(shí)的圖像,可能導(dǎo)致生成的圖像細(xì)節(jié)不利于行人重識別任務(wù)。文獻(xiàn)[9]通過KMeans 對目標(biāo)數(shù)據(jù)集進(jìn)行樣本聚類,然后選擇離聚類中心較近的樣本來訓(xùn)練模型,但是該方法需要目標(biāo)數(shù)據(jù)集的類別數(shù)量。文獻(xiàn)[10]使用了最大均值差異(maximum mean discrepancy,MMD)來尋找域不變特征空間表示,以此提高模型在目標(biāo)域上的性能。文獻(xiàn)[11]結(jié)合源域的有標(biāo)簽數(shù)據(jù)和目標(biāo)域的無標(biāo)簽數(shù)據(jù),提出了基于生成對抗網(wǎng)絡(luò)架構(gòu)的無監(jiān)督域自適應(yīng)方法,該方法通過無監(jiān)督的方式學(xué)習(xí)從一個(gè)域到另一個(gè)域的映射關(guān)系。但是,這些方法僅考慮了源域和目標(biāo)域之間的差異,而沒有考慮源域與目標(biāo)域之間的相關(guān)性。
為充分挖掘源域數(shù)據(jù)集與目標(biāo)域數(shù)據(jù)集之間的相關(guān)性,進(jìn)一步提高模型在跨域問題上的性能,本文提出了融合標(biāo)簽自適應(yīng)和注意力機(jī)制的跨域行人重識別方法。通過引入注意力機(jī)制和BNNeck 模塊改進(jìn)模型,以提取行人更深層次的域不變語義特征,從而提高模型在不同數(shù)據(jù)集上的相關(guān)性表達(dá)能力。同時(shí)提出了無監(jiān)督標(biāo)簽自適應(yīng)方法(unsupervised label adaptation,ULA),利用不同數(shù)據(jù)集之間的相關(guān)性,挖掘出目標(biāo)域數(shù)據(jù)集上的可用數(shù)據(jù)對模型進(jìn)行微調(diào),從而進(jìn)一步提高模型在跨域行人重識別任務(wù)上的性能。
提出的融合注意力機(jī)制和標(biāo)簽自適應(yīng)的跨域行人重識別系統(tǒng)架構(gòu)如圖1 所示,主要分為3 個(gè)部分,即基于注意力機(jī)制的行人重識別模型、無監(jiān)督標(biāo)簽自適應(yīng)以及基于知識蒸餾(knowledge distillation,KD)的參數(shù)更新。在訓(xùn)練期間,完全標(biāo)注的源域數(shù)據(jù)集{Xs,L(Xs)}被用來預(yù)訓(xùn)練基于注意力機(jī)制的行人重識別模型,提出的無監(jiān)督標(biāo)簽自適應(yīng)方法在沒有任何標(biāo)注的目標(biāo)域數(shù)據(jù)集Xt上通過選擇可信度高的樣本來微調(diào)中間模型,接著通過知識蒸餾的方法將中間模型參數(shù)加權(quán)并更新到原模型中,使原模型在獲得新知識的同時(shí),不至于出現(xiàn)對舊知識的災(zāi)難性遺忘。隨著更多的樣本不斷加入到模型的訓(xùn)練中,模型在目標(biāo)數(shù)據(jù)集中的性能將逐步得到提升。其中,Xs和Xt分別表示源域和目標(biāo)域的圖像,L(Xs)表示源域圖像的身份,源域數(shù)據(jù)集中任意行人xs,i與其身份標(biāo)簽ls,i相對應(yīng)。
圖1 基于注意力和無監(jiān)督標(biāo)簽自適應(yīng)的跨域行人重識別系統(tǒng)框架
具體來說,首先,在行人重識別模型的不同深度特征層中嵌入注意力機(jī)制和BNNeck 模塊,注意力機(jī)制可以提高模型在不同尺度特征圖上對通道和空間的感知能力,從而學(xué)到更深層次的域不變語義特征,增強(qiáng)模型在不同數(shù)據(jù)集上的特征表示能力;而BNNeck 模塊通過在三元組損失和標(biāo)簽分類損失之間加入批歸一化層,可以有效抑制標(biāo)簽分類損失對三元組損失的影響,使最終得到的特征分布更能滿足相同身份相互靠近、不同身份互相遠(yuǎn)離的特性。其次,由于源域與目標(biāo)域數(shù)據(jù)集之間的相關(guān)性,模型在目標(biāo)域數(shù)據(jù)集上有一定的特征表示能力,因此提出標(biāo)簽自適應(yīng)方法,通過在目標(biāo)數(shù)據(jù)集上提取行人特征,構(gòu)建行人特征庫,再選擇出行人特征庫中分布稠密且形狀任意的樣本簇,并為其分配偽標(biāo)簽,從而可以獲得目標(biāo)數(shù)據(jù)集中一部分可信度高的樣本數(shù)據(jù)。接著,通過中心損失,在選擇的樣本數(shù)據(jù)上學(xué)習(xí)相同行人在不同攝像頭下的共性特征作為身份區(qū)分特征模板,對行人與身份區(qū)分特征模板的相似度比對,將標(biāo)簽信息自適應(yīng)擴(kuò)展至滿足閾值的行人上,形成新的數(shù)據(jù)集。最后,通過知識蒸餾的方法,在保留舊知識不會出現(xiàn)災(zāi)難性遺忘的同時(shí),學(xué)習(xí)新數(shù)據(jù)集上的知識,逐步改善模型在目標(biāo)數(shù)據(jù)集上的性能。隨著模型性能的改善,更多的樣本數(shù)據(jù)將通過標(biāo)簽自適應(yīng)方法添加到模型的訓(xùn)練中,從而進(jìn)一步提高模型在目標(biāo)數(shù)據(jù)集中的性能。
現(xiàn)有研究已經(jīng)表明單域行人重識別模型在跨域問題上表現(xiàn)較差,受文獻(xiàn)[4]啟發(fā),本文通過引入融合通道注意力和空間注意力機(jī)制的注意力模塊和BNNeck[12]模塊對常用的基線模型(Resnet50[13])進(jìn)行改進(jìn),以提高模型在跨數(shù)據(jù)集任務(wù)上的初始性能,從而進(jìn)一步挖掘源域和目標(biāo)域數(shù)據(jù)集之間的相關(guān)性。如圖2 所示,常用的Resnet50 網(wǎng)絡(luò)主要由5 個(gè)模塊組成,分別是其中,Conv1 模塊的卷積核大小為7 ×7,卷積步長為2,以使用較大的感受野對原圖像進(jìn)行下采樣,得到長寬均為原始圖像1/2的特征圖,然后再經(jīng)過最大池化層進(jìn)一步對圖像進(jìn)行下采樣處理模塊則通過殘差網(wǎng)絡(luò)結(jié)構(gòu)提取圖像的深度特征,避免了隨著網(wǎng)絡(luò)層數(shù)的加深會出現(xiàn)梯度消失的問題。
圖2 基于注意力機(jī)制的行人重識別網(wǎng)絡(luò)結(jié)構(gòu)圖
針對目標(biāo)域上沒有任何標(biāo)簽的數(shù)據(jù),受文獻(xiàn)[9,14]在無標(biāo)簽數(shù)據(jù)集中使用聚類算法選擇樣本微調(diào)模型成功案例的啟發(fā),提出無監(jiān)督標(biāo)簽自適應(yīng)方法,充分利用源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集之間的相關(guān)性,使用在源域數(shù)據(jù)集上預(yù)訓(xùn)練的模型提取目標(biāo)域數(shù)據(jù)集的行人特征,將分布稠密的樣本簇的共性特征作為身份區(qū)分模板,通過計(jì)算與共性特征的相似度,將標(biāo)簽信息擴(kuò)展至目標(biāo)數(shù)據(jù)集中,從而選擇出目標(biāo)域數(shù)據(jù)集上最可信的樣本來微調(diào)模型,以提高模型在目標(biāo)域數(shù)據(jù)集上的性能,如圖3 所示。
圖3 無監(jiān)督標(biāo)簽自適應(yīng)方法示意圖
具體來說,首先使用歐式距離來描述目標(biāo)域數(shù)據(jù)集行人特征之間的分布關(guān)系為dist(x(i),x(j)),再通過基于密度的聚類方法,對于每一個(gè)目標(biāo)域數(shù)據(jù)集上的樣本xj∈Xt,計(jì)算其ε-鄰域中包含的所有距離dist(x(i),x(j))不大于ε的樣本,如式(1)所示,從而選擇出目標(biāo)域數(shù)據(jù)集中分布稠密的樣本形成樣本簇。一般而言,分布稠密的樣本屬于同一身份的可能性較大。
其中,Nε(x(j))表示特征x(j)周圍小于ε距離的所有樣本,x(i)和x(j)分別表示目標(biāo)數(shù)據(jù)集中第i個(gè)樣本和第j個(gè)樣本,dist(x(i),x(j))表示目標(biāo)數(shù)據(jù)集中第i個(gè)樣本和第j個(gè)樣本之間的歐氏距離,ε表示2 個(gè)樣本之間的密度閾值,這里ε取值1.0。
其次將每一個(gè)樣本簇視為獨(dú)立類別的行人樣本,選擇一定數(shù)量的樣本簇作為基礎(chǔ)類別,并為其分配偽標(biāo)簽,樣本簇中的每一個(gè)樣本共享相同的偽標(biāo)簽,從而形成在目標(biāo)域上帶偽標(biāo)簽的數(shù)據(jù)集。為了能夠在算法執(zhí)行過程中不斷將標(biāo)簽自適應(yīng)擴(kuò)展至新的數(shù)據(jù)上,通過中心損失[14],如式(2)所示,最小化樣本簇中行人到其共性特征的距離,以此學(xué)習(xí)目標(biāo)域數(shù)據(jù)集下每一類樣本簇的共性特征Ct來作為身份區(qū)分特征模板。
其中,LCommon表示每一類樣本簇到其共性特征的距離,B表示樣本簇和共性特征的數(shù)量,fj,t表示目標(biāo)數(shù)據(jù)集樣本簇上的第j類樣本特征,cj,t表示目標(biāo)數(shù)據(jù)集上第j類樣本的共性特征。
最后,對于每一個(gè)新的來自目標(biāo)域數(shù)據(jù)集的行人xi,t∈Xt,通過相似度距離度量,如式(3)所示,計(jì)算xi,t與每一個(gè)身份區(qū)分特征模板Ct的相似度θ(xi,t,cj),將相似度θ(xi,t,cj)大于設(shè)定閾值的樣本視為可信樣本,為其分配與模板相同的偽標(biāo)簽并加入到模型的訓(xùn)練中。
其中,θ(xi,t,cj)表示目標(biāo)數(shù)據(jù)集上的行人xi,t與第j個(gè)身份區(qū)分特征模板cj的相似度。如果相似度θ(xi,t,cj)大于0.8,則判定該行人與模板身份一致,為該行人分配偽標(biāo)簽并添加至數(shù)據(jù)集中用來微調(diào)模型。xik,t和cjk分別表示目標(biāo)數(shù)據(jù)集上的行人xi,t與身份區(qū)分特征模板cj在k-維度上的特征值,n表示特征維度。
由于標(biāo)簽自適應(yīng)方法依賴于模型在目標(biāo)數(shù)據(jù)集下的初始性能,為了保證在目標(biāo)數(shù)據(jù)集上樣本選擇的準(zhǔn)確性和一致性,在適應(yīng)到新場景的過程中不僅要學(xué)習(xí)新的知識,也要保留之前獲得的知識?;谶@樣的考慮,借鑒一種新的知識蒸餾方法[15],通過采用這種基于知識蒸餾的策略,使模型不僅能夠適應(yīng)到目標(biāo)域數(shù)據(jù)集下,同時(shí)也能保留在源域數(shù)據(jù)集上的性能。
如圖1 所示,通過一個(gè)在帶偽標(biāo)簽的目標(biāo)數(shù)據(jù)集上微調(diào)的中間模型和在源域數(shù)據(jù)集中的預(yù)訓(xùn)練模型,將微調(diào)好的中間模型參數(shù)通過式(4)來逐步完成原模型權(quán)重參數(shù)的更新。
其中,Wtarget表示原模型的權(quán)重參數(shù),Wintermediate表示中間模型的權(quán)重參數(shù),μ表示蒸餾因子。通過改變μ值來平衡舊知識的遺忘和新知識的學(xué)習(xí)速率。
為提高模型在目標(biāo)數(shù)據(jù)集上的性能,通過聯(lián)合平滑標(biāo)簽損失(smooth label loss)[16]和三元組損失(triplet loss)[17]來優(yōu)化模型。對于平滑標(biāo)簽損失,根據(jù)模型的預(yù)測得分和圖像標(biāo)簽,使用式(5)計(jì)算平滑標(biāo)簽損失。
其中,y表示真實(shí)標(biāo)簽,i表示第i個(gè)類別,pi表示標(biāo)簽預(yù)測得分,N表示訓(xùn)練集中的總類別數(shù),ε是一個(gè)常數(shù),用來鼓勵(lì)模型不去相信標(biāo)簽是正確的,在這里ε值為0.1。對于三元組損失,選擇每個(gè)批次內(nèi)相同身份最遠(yuǎn)的距離dp和不同身份之間最近的距離dn的樣本形成三元組損失,并通過式(6)計(jì)算三元組損失:
其中,m表示距離裕度,運(yùn)算符[z]+表示取z和0的集合中的最大值,在這里m取值為0.3。最后,總損失可以用式(7)表示。
其中,β取值為0.0035,表示共性特征在學(xué)習(xí)過程中所占的比重。
為了驗(yàn)證方法的有效性,在2 個(gè)大型的公開行人數(shù)據(jù)集Market-1501 和DukeMTMC-reID 上評估了本文提出的方法。
Market-1501 數(shù)據(jù)集包含來自6 個(gè)攝像機(jī)的1501 個(gè)身份的32 668 張圖像。其中,751 個(gè)身份的12 936 幅圖像用于訓(xùn)練,750 個(gè)身份的19 732 幅圖像用于測試。
DukeMTMC-reID 數(shù)據(jù)集是從8 個(gè)攝像機(jī)收集的大規(guī)模re-ID 數(shù)據(jù)集。其中,702 個(gè)身份的16 522幅圖像用于訓(xùn)練,另外702 個(gè)身份的圖像用于測試。
在行人重識別任務(wù)中,常用的性能評估指標(biāo)有首位命中率(Rank-1)和平均精度均值(mAP)。其中,Rank-1 為首次預(yù)測正確的概率,mAP的定義如式(8)所示。
其中,Q表示查詢集的數(shù)量,AP由式(9)定義。
其中,k表示預(yù)測圖像的排名,如果預(yù)測排名為k的圖片與查詢圖片是同一ID,則rel(k)為1,否則rel(k)為0,而p(k)被定義為
實(shí)驗(yàn)環(huán)境如下:Windows 10的操作系統(tǒng),深度學(xué)習(xí)框架為Pytorch1.6.0,編程語言版本為Python。
對于行人重識別模型,本實(shí)驗(yàn)使用Resnet 50 作為主干網(wǎng)絡(luò)(Baseline),在x輸出上分別添加了通道注意力模塊和空間注意力模塊,并在最后的全局池化層和全連接層之間添加了BNNeck 模塊,輸入圖像的大小調(diào)整為128×256 像素,輸出維度為2048的特征向量。對于模型的預(yù)訓(xùn)練,本實(shí)驗(yàn)使用了隨機(jī)擦除[18]、色彩抖動(dòng)、隨機(jī)裁剪以及用于訓(xùn)練的隨機(jī)水平鏡像等數(shù)據(jù)增強(qiáng)方法。采用Adam 優(yōu)化器,批處理大小設(shè)置為64,學(xué)習(xí)率從3.5 ×10-5開始,每50 個(gè)epoch 衰減為原來的0.1 倍,訓(xùn)練120 個(gè)周期。針對模型的微調(diào),設(shè)置密度聚類閾值ε為1.0,相似度閾值為0.8,每5 個(gè)epoch 使用知識蒸餾方法對原模型進(jìn)行一次參數(shù)更新,并對無標(biāo)簽的目標(biāo)數(shù)據(jù)集使用無監(jiān)督標(biāo)簽自適應(yīng)方法(ULA)以獲得新的訓(xùn)練數(shù)據(jù),微調(diào)學(xué)習(xí)率為1 ×10-7,訓(xùn)練80 個(gè)周期。
2.4.1 無監(jiān)督標(biāo)簽自適應(yīng)性能分析
實(shí)驗(yàn)分別以Market-1501 和DukeMTMC-reID 作為無標(biāo)注的測試數(shù)據(jù)集,驗(yàn)證無監(jiān)督標(biāo)簽自適應(yīng)(ULA)在不同設(shè)定類別數(shù)量下對模型在跨域任務(wù)上性能的影響,對比結(jié)果如表1 所示。首先將Resnet50 作為基礎(chǔ)網(wǎng)絡(luò)(Baseline),并在此基礎(chǔ)上添加了注意力機(jī)制模塊和BNNeck 模塊得到基于注意力機(jī)制的行人重識別模型(CSAM-ReID)。從表中可以看出,與基礎(chǔ)網(wǎng)絡(luò)(Baseline)相比,CSAM-ReID 在Market-1501 數(shù)據(jù)集上mAP提升了5.6%,Rank-1 提升了4.6%;在DukeMTMC-reID 數(shù)據(jù)集上mAP提升了8.4%,Rank-1 提升了11.1%。其次在CSAM-ReID基礎(chǔ)上,使用ULA 在無標(biāo)簽的目標(biāo)數(shù)據(jù)集中選擇高質(zhì)量樣本以微調(diào)模型,表1 中展示了不同預(yù)設(shè)類別數(shù)量ULA 方法的實(shí)驗(yàn)結(jié)果。當(dāng)預(yù)設(shè)類別數(shù)量為750時(shí),在Market1501 數(shù)據(jù)集上mAP達(dá)到了32.0%,Rank-1 達(dá)到了48.2%;在DukeMTMC-reID 數(shù)據(jù)集上mAP達(dá)到了35.1%,Rank-1 達(dá)到了54.7%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的CSAM-ReID 模型可以有效提升模型在目標(biāo)域數(shù)據(jù)集上的初始性能,而標(biāo)簽自適應(yīng)方法通過選擇無標(biāo)簽的目標(biāo)數(shù)據(jù)集上可信度高的樣本微調(diào)模型,大大改善了行人重識別模型在目標(biāo)數(shù)據(jù)集上的行人外觀特征表示性能。
表1 不同預(yù)設(shè)類別數(shù)量的ULA 方法對模型在目標(biāo)數(shù)據(jù)集上性能的影響
2.4.2 知識蒸餾性能分析
為驗(yàn)證基于知識蒸餾的參數(shù)更新方法在平衡舊知識的遺忘和新知識的學(xué)習(xí)任務(wù)中的有效性,在CSAM-ReID 模型和ULA的基礎(chǔ)上分別使用不同的知識蒸餾因子,實(shí)驗(yàn)結(jié)果如表2 所示。可以看出,當(dāng)知識蒸餾因子μ為0.5 時(shí),相比于CSAM-ReID +ULA(750),在Market-1501 數(shù)據(jù)集上mAP提高1.1%,Rank-1 提高了0.4%;在DukeMTMC-reID 上mAP提高了1.0%,Rank-1 提高了1.8%。實(shí)驗(yàn)結(jié)果表明,添加知識蒸餾的參數(shù)更新策略有助于模型對舊知識的保留,保證了在目標(biāo)數(shù)據(jù)集上樣本選擇的準(zhǔn)確性和一致性,從而提高了模型在目標(biāo)數(shù)據(jù)集上的性能。
表2 不同知識蒸餾因子對模型在目標(biāo)數(shù)據(jù)集上性能的影響
2.4.3 所提方法與前沿算法的實(shí)驗(yàn)數(shù)據(jù)對比
如表3 所示,所提算法與Market-1501 和Duke-MTMC-reID 數(shù)據(jù)集上的6 種最新的跨域行人重識別方法進(jìn)行比較,分別是基于聚類的方法PUL[9],基于屬性共同訓(xùn)練的方法TJ-AIDL[19]、基于圖像轉(zhuǎn)換的方法IPGAN[7]、PTGAN[20]、SPGAN[21]以及基于域鑒別網(wǎng)絡(luò)和域自適應(yīng)的DDNDA[22]。從實(shí)驗(yàn)結(jié)果可以看出,所提方法在Market-1501 數(shù)據(jù)集上Rank-1為48.6%,mAP為33.1%,在DukeMTMC-reID 上的Rank-1 為56.5%,mAP為36.1%,相比于基于圖像轉(zhuǎn)換方法IPGAN,在Market-1501 和DukeMTMCreID 數(shù)據(jù)集上,其mAP分別提高了6.1%和8.1%。
表3 所提方法與其他先進(jìn)算法的性能對比
為了分析訓(xùn)練過程中標(biāo)簽自適應(yīng)方法選擇的樣本和目標(biāo)數(shù)據(jù)集上行人特征分布的變化,在訓(xùn)練期間隨機(jī)選擇DukeMTMC-reID 數(shù)據(jù)集上6 個(gè)帶偽標(biāo)簽的行人和8 位不同身份的行人分別對其樣本選擇過程和特征分布變化過程進(jìn)行可視化,特征分布和樣本選擇結(jié)果分別如圖4 和圖5 所示。從圖4 中可以觀察到,隨著訓(xùn)練數(shù)的增加,在特征空間中相同身份的行人相互靠近,不同身份的行人彼此遠(yuǎn)離,從而提高模型對不同身份的行人辨別能力。同時(shí),每一次對模型進(jìn)行參數(shù)更新并使用標(biāo)簽自適應(yīng)方法后都有大量的新樣本加入到訓(xùn)練數(shù)據(jù)中。從圖5 中可以看出,由于直接將模型應(yīng)用在目標(biāo)域數(shù)據(jù)集上其性能會較差,因此剛開始選擇的樣本都是在同一攝像頭下姿態(tài)相似的行人,隨著模型在目標(biāo)域數(shù)據(jù)集下性能的改善,越來越多的樣本通過標(biāo)簽自適應(yīng)被關(guān)聯(lián)了偽標(biāo)簽,加入到模型的進(jìn)一步微調(diào)中。
圖4 在訓(xùn)練過程中樣本在特征空間中的分布變化圖
圖5 在訓(xùn)練過程中通過標(biāo)簽自適應(yīng)選擇樣本的過程
圖6(a)和(b)分別展示了模型在DukeMTMCreID 數(shù)據(jù)集上不同階段的損失函數(shù)和性能指標(biāo)的曲線變化。從圖6(a)可以看到,每5 個(gè)epoch 損失函數(shù)都會陡然升高。這是因?yàn)橥ㄟ^標(biāo)簽自適應(yīng)加入了新的樣本,隨著模型的不斷訓(xùn)練,損失函數(shù)逐漸接近最小值,達(dá)到平穩(wěn)狀態(tài),此時(shí)模型的性能是最優(yōu)的。從圖6(b)可以看到,模型在epoch 為160 時(shí)性能指標(biāo)達(dá)到最高,隨著模型的繼續(xù)迭代,模型的性能開始顯示下降的趨勢。這是因?yàn)樵谶B續(xù)迭代的過程中,先前選擇的錯(cuò)誤樣本逐漸累積,模型接收了大量錯(cuò)誤的樣本訓(xùn)練而導(dǎo)致的。
圖6 在DukeMTMC-reID 數(shù)據(jù)集上訓(xùn)練的損失函數(shù)和性能指標(biāo)變化曲線圖
本文提出了一種基于注意力機(jī)制和標(biāo)簽自適應(yīng)的跨域行人重識別方法。通過在不同深度特征層嵌入注意力機(jī)制和BNNeck 模塊可有效提高行人重識別模型在跨域任務(wù)中的初始性能,進(jìn)而提高行人重識別模型對源域數(shù)據(jù)集和沒有任何標(biāo)簽的目標(biāo)域數(shù)據(jù)集之間相關(guān)性的表達(dá)能力。無監(jiān)督標(biāo)簽自適應(yīng)方法可以充分挖掘沒有任何標(biāo)簽的目標(biāo)域數(shù)據(jù)集上的可用數(shù)據(jù),并將標(biāo)簽信息擴(kuò)展至新的數(shù)據(jù)上?;谥R蒸餾的方法可以使模型在學(xué)習(xí)新的知識的同時(shí)保留舊知識,保證樣本選擇的一致性和準(zhǔn)確性,從而提高模型的穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,所提方法能有效提高行人重識別模型在跨域任務(wù)中的性能。