摘 要:為了緩解基于偽標(biāo)簽的無監(jiān)督域自適應(yīng)行人重識(shí)別(UDA person ReID)方法中噪聲標(biāo)簽帶來的負(fù)面影響,提出了一種基于可靠性集成的無監(jiān)督域自適應(yīng)行人重識(shí)別(UDA-RI)方法。該方法包含漸進(jìn)式偽標(biāo)簽提煉策略和基于可靠性集成策略兩個(gè)部分。漸進(jìn)式偽標(biāo)簽提煉策略通過建立一個(gè)不確定性的定量標(biāo)準(zhǔn)來衡量偽標(biāo)簽的可靠性,并采用漸進(jìn)式采樣使得模型得到更加穩(wěn)定的訓(xùn)練?;诳煽啃约刹呗钥紤]了來自不同適應(yīng)時(shí)刻的知識(shí),將來自不同迭代的模型按照可靠性高低分配的權(quán)重進(jìn)行了集成,并將自集成后的兩種不同架構(gòu)的模型再進(jìn)行集成作為最終推理模型。實(shí)驗(yàn)表明,與目前先進(jìn)的無監(jiān)督域自適應(yīng)行人重識(shí)別方法相比,UDA-RI方法在Market1501、DukeMTMC-ReID和MSMT17數(shù)據(jù)集上都取得了優(yōu)越的性能。
關(guān)鍵詞: 無監(jiān)督域自適應(yīng);行人重識(shí)別;可靠性;集成
中圖分類號(hào): TP391.41 文獻(xiàn)標(biāo)志碼:A文章編號(hào): 1001-3695(2024)04-039-1228-06
doi: 10.19734/j.issn.1001-3695.2023.07.0358
Unsupervised domain adaptive person re-identificationbased on reliability integration
Wen Rui Kong Guangqian Duan Xun 2
Abstract:This paper proposed an unsupervised domain adaptation person re-identification base on reliability integration(UDA-RI) method aimed at alleviating the negative impact of noisy labels in the pseudo-labeling-based unsupervised domain adaptation person re-identification(UDA person ReID). This method consisted of two parts, such as progressive pseudo label refinement strategy and reliability integration strategy. The progressive pseudo label refinement strategy established a quantitative standard for measuring the uncertainty of pseudo labels and adopted gradual sampling to make the model more stable du-ring training. The reliability integration strategy considered knowledge from different adaptation moments, allocated weights according to the reliability levels of models from different iterations, integrated the self-integrated models with different architectures, and used them as the final inference model. Experimental results show that compared with the advanced unsupervised domain adaptation person re-identification methods, the UDA-RI method achieves superior performance on Market150 DukeMTMC-ReID, and MSMT17 datasets. Key words:unsupervised domain adaptive; person re-identification; reliability; integration
0 引言
行人重識(shí)別(ReID)旨在根據(jù)給定的單個(gè)目標(biāo)人物從不同相機(jī)拍攝的圖像中匹配目標(biāo)行人的所有圖像。隨著最近深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,行人重識(shí)別已經(jīng)取得了很大的進(jìn)展。但大多數(shù)研究是在有監(jiān)督的情況下進(jìn)行的,由于領(lǐng)域的差距,在現(xiàn)有數(shù)據(jù)集上訓(xùn)練的行人重識(shí)別模型的性能對(duì)于來自新的視頻監(jiān)控系統(tǒng)的人物圖像顯然會(huì)受到影響。在現(xiàn)實(shí)世界場景中,行人重識(shí)別數(shù)據(jù)的收集和標(biāo)注是非常費(fèi)時(shí)費(fèi)力的,這使得有監(jiān)督的方法不太可取。因此,在過去的幾年里,無監(jiān)督域自適應(yīng)行人重識(shí)別(UDA person ReID)已經(jīng)吸引了越來越多的關(guān)注。
在目標(biāo)域上生成可靠的身份標(biāo)簽被看作是UDA任務(wù)的核心?;陬I(lǐng)域轉(zhuǎn)換的方法直接應(yīng)用GAN[1]將行人圖像的風(fēng)格從源域轉(zhuǎn)移到目標(biāo)域,同時(shí)保留身份信息以訓(xùn)練模型,然而,人類形態(tài)的復(fù)雜性和ReID數(shù)據(jù)集中有限的實(shí)例數(shù)量限制了生成圖像的質(zhì)量?;趯傩詫?duì)齊的方法引入了屬性來彌補(bǔ)領(lǐng)域的差距,這些方法引入了額外的注釋信息,違背了UDA person ReID任務(wù)的目的。為了更好地適應(yīng)目標(biāo)域的分布,并利用目標(biāo)域的身份知識(shí)進(jìn)行訓(xùn)練,基于偽標(biāo)簽的方法在目標(biāo)域中應(yīng)用了聚類算法以獲得更好的性能,同時(shí)基于聚類的偽標(biāo)簽法也保持著目前最先進(jìn)的性能。但是由于不理想的特征嵌入和不完善的聚類質(zhì)量,通過聚類算法產(chǎn)生的偽標(biāo)簽也是有噪聲的,而錯(cuò)誤的偽標(biāo)簽會(huì)在微調(diào)階段誤導(dǎo)網(wǎng)絡(luò)優(yōu)化和損害特征學(xué)習(xí),且錯(cuò)誤偽標(biāo)簽造成的負(fù)面影響會(huì)隨著訓(xùn)練程序的進(jìn)行而傳播和放大,所以如何識(shí)別噪聲偽標(biāo)簽及在優(yōu)化中減少錯(cuò)誤標(biāo)簽樣本的負(fù)面影響,是一個(gè)富有挑戰(zhàn)性的難題。
針對(duì)上述提到的關(guān)鍵問題,筆者觀察到錯(cuò)誤標(biāo)簽的樣本身份之間的概率分布與具有正確偽標(biāo)簽樣本的概率分布有明顯不同,有正確偽標(biāo)簽的樣本是明確的,只有一個(gè)預(yù)測峰值,即在相應(yīng)的真實(shí)身份中有很高的概率占比,而在其他身份中保持很低的概率占比。與此相反,錯(cuò)誤的偽標(biāo)簽的樣本是模糊的,會(huì)存在多個(gè)預(yù)測峰值。在以上明顯差異分析下,本文通過測量偽標(biāo)簽的預(yù)測分布和理想分布之間的不一致性來對(duì)概率不確定性進(jìn)行建模,提出了一個(gè)漸進(jìn)式偽標(biāo)簽提煉策略,通過對(duì)樣本不確定性的估測,選擇高可信度的樣本進(jìn)行訓(xùn)練,并將所選樣本的不確定性降至最低,以提高無監(jiān)督域自適應(yīng)行人重識(shí)別的性能。
另一個(gè)重要的觀察是,由于不同迭代會(huì)選擇來自目標(biāo)域的不同數(shù)量的可靠樣本,而不同迭代模型擁有不同的知識(shí)水平,由此假設(shè),在不同迭代中獲得的知識(shí)是互補(bǔ)的,所以提出在最終模型中集成來自不同優(yōu)化時(shí)刻的模型,即通過用相應(yīng)迭代中訓(xùn)練樣本標(biāo)簽的可靠性平均值作為集成的權(quán)重,然后進(jìn)行加權(quán)平均得到最終模型。綜上,本文提出了一種基于可靠性集成融合策略。
本文的主要貢獻(xiàn)可以歸納為以下幾點(diǎn):
a)提出漸進(jìn)式偽標(biāo)簽提煉策略,建立了一個(gè)定量標(biāo)準(zhǔn)來衡量偽標(biāo)簽的不確定性,從而挑選高可信度的樣本進(jìn)行訓(xùn)練,并將所選樣本的不確定性降至最低,以提高最終模型的可靠性。
b)提出一種基于可靠性集成融合策略,在訓(xùn)練階段,將同一架構(gòu)不同優(yōu)化時(shí)刻的模型根據(jù)可靠性進(jìn)行集成,在評(píng)估測試階段,將訓(xùn)練階段得到的不同架構(gòu)的模型進(jìn)行結(jié)合。兩次集成是為了模型能夠?qū)W到更全面的知識(shí),以提高無監(jiān)督域自適應(yīng)行人重識(shí)別的性能。
c)進(jìn)行了廣泛的實(shí)驗(yàn),本文方法在Duke→Market任務(wù)上的mAP與Rank-1分別達(dá)到90.95%和94.03%,證明了方法的有效性。
1 相關(guān)工作
近年來,無監(jiān)督域自適應(yīng)行人重識(shí)別因其實(shí)際應(yīng)用而受到廣泛關(guān)注。UDA方法可以將學(xué)習(xí)到的知識(shí)從一個(gè)帶注釋的源域轉(zhuǎn)移到一個(gè)未標(biāo)記的目標(biāo)域,從而降低成本。該領(lǐng)域現(xiàn)有的大多數(shù)方法和途徑可以分為基于領(lǐng)域轉(zhuǎn)換的方法和基于偽標(biāo)簽的方法兩大類。
基于域轉(zhuǎn)換的方法利用風(fēng)格遷移技術(shù)將源圖像轉(zhuǎn)移到目標(biāo)領(lǐng)域。然后利用帶有繼承標(biāo)簽的轉(zhuǎn)移圖像來微調(diào)在源域上預(yù)訓(xùn)練的模型。SPGAN[2]和PTGAN[3]使用GAN來轉(zhuǎn)換源域圖像以匹配目標(biāo)域的圖像風(fēng)格。HHL[4]提出根據(jù)目標(biāo)相機(jī)風(fēng)格轉(zhuǎn)換圖像來學(xué)習(xí)相機(jī)不變的嵌入。然而,圖像生成的質(zhì)量仍然不令人滿意,而且目標(biāo)域的信息沒有被充分發(fā)掘,因?yàn)槟繕?biāo)域的圖像只被用來提供風(fēng)格監(jiān)督信號(hào)。
基于偽標(biāo)簽的方法,也稱為基于聚類的方法,一個(gè)在聚類和微調(diào)之間交替進(jìn)行的迭代過程[5~9]。重要的是,基于偽標(biāo)簽的方法取得了比域轉(zhuǎn)換方法更好的結(jié)果,并在幾乎所有的公共數(shù)據(jù)集上保持了迄今為止最先進(jìn)的性能。此外,這些方法避免了基于轉(zhuǎn)換的方法需要生成圖像的計(jì)算開銷。聚類方法通過聚類生成偽標(biāo)簽,然后用生成的偽標(biāo)簽對(duì)模型進(jìn)行微調(diào)。Fan等人[10]提出為未標(biāo)記的訓(xùn)練樣本交替分配標(biāo)簽,用生成的目標(biāo)優(yōu)化網(wǎng)絡(luò)。Fu等人[11]提出了一種自相似性分組SSG的方法,為全局和局部特征分配不同的偽標(biāo)簽。為了減輕有噪聲的硬偽標(biāo)簽的影響,MMT[12]訓(xùn)練兩個(gè)成對(duì)網(wǎng)絡(luò)并使用它們的移動(dòng)平均網(wǎng)絡(luò)校正它們的偽標(biāo)簽,然而,這種訓(xùn)練方法會(huì)導(dǎo)致兩個(gè)模型相互擬合。此外,MEB-Net[13]通過建立三個(gè)網(wǎng)絡(luò)來進(jìn)行互均值學(xué)習(xí)。但是這些方法忽略了聚類方法產(chǎn)生的錯(cuò)誤偽標(biāo)簽,阻礙了這些方法的進(jìn)步。
為了量化和識(shí)別偽標(biāo)簽的正確性,不確定性的建模和評(píng)估顯得非常關(guān)鍵。Kendall等人[14]和Chang等人[15]建立了一個(gè)端到端的框架來衡量觀察噪聲,并減輕其負(fù)面影響,以便更好地進(jìn)行網(wǎng)絡(luò)優(yōu)化。Zheng等人[16]提出在語義分割中估計(jì)預(yù)測偽標(biāo)簽的正確性。He等人[17]提出了一種新的邊框回歸損失,即KL損失,用于同時(shí)學(xué)習(xí)邊界盒回歸和定位不確定性。UAST[18]提出了一種新的基于一般分布的回歸公式來學(xué)習(xí)邊界盒的定位不確定性表示,實(shí)現(xiàn)更加準(zhǔn)確的跟蹤。UaDAN[19]提出了一種不確定性感知域自適應(yīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以評(píng)估樣本預(yù)測的不確定性,并將其有效地用于自適應(yīng)樣本對(duì)齊。EUG[20]采用樣本之間的L2距離和特征空間中的聚類中心點(diǎn)來確定樣本的可靠性。UNRN[21]將教師和學(xué)生平均模型之間的輸出一致性作為不確定性來衡量,對(duì)單一模型聚類的分布進(jìn)行建模,并將其與理想分布的概率距離作為不確定性來衡量。GLT[22]是一個(gè)群體意識(shí)到的標(biāo)簽轉(zhuǎn)移框架,用于明確地糾正噪聲標(biāo)簽,而本文挑選可靠的偽標(biāo)簽來逐步訓(xùn)練模型,從而進(jìn)一步隱性地糾正噪聲標(biāo)簽。MMT[12]、MEB-Net[13]和SSKD[23]是基于集成學(xué)習(xí)的方法。它們考慮了兩個(gè)或更多的網(wǎng)絡(luò),并通過與其他網(wǎng)絡(luò)共享一個(gè)網(wǎng)絡(luò)的輸出來相互教學(xué),使整個(gè)系統(tǒng)在目標(biāo)領(lǐng)域的辨別力更強(qiáng)。然而,在互教機(jī)制中,訓(xùn)練模型會(huì)給記憶和一般訓(xùn)練過程帶來復(fù)雜性。此外,噪聲標(biāo)簽會(huì)傳播到其他模型中,阻礙了訓(xùn)練過程。盡管如此,基于集成學(xué)習(xí)的方法也有著最好的性能。
2 本文方法
2.1 整體架構(gòu)
基于可靠性自集成融合模型如圖1所示。本文方法是基于聚類的方法。在第一階段,使用經(jīng)過隨機(jī)裁剪、翻轉(zhuǎn)和擦除處理后的源域數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練;在第二階段,使用模型M為目標(biāo)域中的每個(gè)訓(xùn)練圖像提取特征向量,并使用K-means算法對(duì)其進(jìn)行聚類,根據(jù)聚類結(jié)果分配偽標(biāo)簽。由于領(lǐng)域的差距,偽標(biāo)簽的分配并不是完全正確的;在第三階段,通過一個(gè)定量標(biāo)準(zhǔn)來衡量偽標(biāo)簽的可靠性,并挑選高可信度的樣本進(jìn)行訓(xùn)練,從而降低錯(cuò)誤偽標(biāo)簽所造成的影響。
2.2 漸進(jìn)式偽標(biāo)簽提煉模塊
通過聚類算法產(chǎn)生的偽標(biāo)簽也是有噪聲的,這將誤導(dǎo)模型在目標(biāo)域的訓(xùn)練且使性能降低。為了減少噪聲標(biāo)簽的不利影響,對(duì)附有正確和錯(cuò)誤標(biāo)簽的樣本的輸出概率分布進(jìn)行觀察與探索,帶有錯(cuò)誤偽標(biāo)簽的樣本概率分布往往具有多個(gè)峰值,即模糊性較高。反之,具有正確偽標(biāo)簽的樣本概率分布中往往只有單一峰值,在正確ID的預(yù)測概率達(dá)到最值,且其余ID的預(yù)測概率值皆接近于零。受到這一觀察的啟發(fā),本文利用分布差異作為概率不確定性來軟性評(píng)估樣本的噪聲水平。目標(biāo)域中的每個(gè)未標(biāo)記的樣本xi通過聚類被賦予一個(gè)偽標(biāo)簽yi,則樣本身份預(yù)測的概率分布為
其中:ωt是分類器的權(quán)重,其由第t個(gè)epoch的K-means聚類中心點(diǎn)來賦值; F (xsi|θ)即是特征向量。
在源域,本文以ysi為中心,將概率由大到小對(duì)稱排列,得到樣本的單脈沖分布。這一現(xiàn)象促使本文對(duì)目標(biāo)域中樣本的廣義理想分布進(jìn)行建模,則理想的概率分布為
其中:c是類別數(shù);λ=0.99是超參。
本文通過測量偽標(biāo)簽的預(yù)測分布和理想分布之間的距離來衡量樣本的不確定性,這里使用的是JS散度(Jensen-Shannondivergence),它是由 KL 散度(Kullback-Leibler)的混合形式定義的,解決了KL散度非對(duì)稱的問題(使用KL散度訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),不同的輸入數(shù)據(jù)順序可能會(huì)導(dǎo)致不同的訓(xùn)練結(jié)果)。JS 散度的計(jì)算公式如下:
此處設(shè)U為樣本的不確定性,U越大則說明該樣本通過聚類生成的偽標(biāo)簽錯(cuò)誤的可能性較大,可靠性較低。其中KL(pred‖M) 是 pred 相對(duì)于平均分布M的KL散度,KL(ideal‖M) 是 ideal 相對(duì)于平均分布M的 KL 散度,平均分布M通常計(jì)算為
漸進(jìn)式偽標(biāo)簽提煉模塊:利用所提出的樣本不確定性的測量,如式(5)所示,通過設(shè)置哨兵(sentinel)的方式挑選較高可信度的樣本來進(jìn)行訓(xùn)練,如式(6)所示,設(shè)計(jì)一個(gè)函數(shù)用于逐漸增加訓(xùn)練樣本,以實(shí)現(xiàn)偽標(biāo)簽的漸進(jìn)提煉。
其中:Nt是樣本總數(shù);R(t)·Nt指在第t個(gè)epoch所選擇的樣本數(shù)量。
2.3 基于可靠性集成學(xué)習(xí)模塊
由于訓(xùn)練階段采取漸進(jìn)式偽標(biāo)簽提煉的方法,則不同迭代階段所用于訓(xùn)練的目標(biāo)領(lǐng)域可靠樣本的數(shù)量不同。根據(jù)這一特性,本文假設(shè)在不同迭代中獲得的知識(shí)是互補(bǔ)的,于是提出了基于可靠性自集成模塊,在最終模型中集成來自不同時(shí)刻優(yōu)化的知識(shí)。然而,由于模型辨別能力隨著迭代次數(shù)增加而增加(模型能夠從更多的數(shù)據(jù)中學(xué)習(xí)),本文則使用相應(yīng)迭代中訓(xùn)練數(shù)據(jù)樣本標(biāo)簽的可靠性來對(duì)不同迭代的模型權(quán)重進(jìn)行加權(quán)平均,得到自集成模型DenseNet121[24]與OSNet[25],如圖2所示。
通過考慮不同迭代中訓(xùn)練數(shù)據(jù)樣本標(biāo)簽的可靠性,不同迭代時(shí)刻的模型權(quán)重得到了精確的分配??煽啃约訖?quán)平均有助于強(qiáng)化那些在訓(xùn)練中具有更高標(biāo)簽可靠性的模型權(quán)重。該過程使得模型具有一定的自適應(yīng)性,使在不同訓(xùn)練階段學(xué)到的知識(shí)能夠得到合理的整合。例如,在模型的早期迭代中,可能存在一些標(biāo)簽不夠準(zhǔn)確的樣本,這些樣本的可靠性較低。通過將這些可靠性較低的樣本權(quán)重減小,模型能夠在訓(xùn)練后期更多地依賴于那些可靠性更高的樣本,從而提高了模型的魯棒性和性能。
參照最近的ReID文獻(xiàn)MMT[12]、MEB-Net[13]、P2LR[26],基于集成的方法有著較高性能,因此,為了讓模型學(xué)習(xí)到多樣性知識(shí),本文也進(jìn)一步應(yīng)用了集成思想,從而提高ReID模型在目標(biāo)域上的性能。如圖2所示,模型在經(jīng)過微調(diào)和執(zhí)行自集成后,得到一個(gè)從源域適應(yīng)到目標(biāo)域的單一模型,然后再利用自集成后的OSNet[25]與DenseNet121[24]兩個(gè)不同架構(gòu),將其融合起來進(jìn)行最終的預(yù)測,但本文只將融合應(yīng)用于推理階段,這與MMT[12]、MEB-Net[13]、P2LR[26]不同。它們?cè)谟?xùn)練階段設(shè)計(jì)了相互教導(dǎo)機(jī)制,即在訓(xùn)練階段進(jìn)行集成,且P2LR[26]的微調(diào)方法只關(guān)注訓(xùn)練過程中偽標(biāo)簽精煉廠或域級(jí)信息融合。反之,本文只在推理過程中使用集成,訓(xùn)練過程中一次只考慮一個(gè)架構(gòu),訓(xùn)練過程中沒有信息交換,在訓(xùn)練過程結(jié)束后再將不同架構(gòu)獲得的知識(shí)進(jìn)行集成。在利用模型之間知識(shí)互補(bǔ)性的同時(shí),避免了在訓(xùn)練階段進(jìn)行復(fù)雜的集成工作。
為了進(jìn)行基于集合的預(yù)測,首先計(jì)算出兩個(gè)最終模型的query與gallery中每個(gè)圖像的特征距離。設(shè) f n(x)=Modeln(x)是用第n個(gè)模型得到的圖像歸一化特征向量,d( f n(query),f n(gallery))是query的特征向量與用第n個(gè)模型提取的第i張圖像galleryi的特征向量之間的距離。query和galleryi之間的最終距離為
不同架構(gòu)的模型可能在捕獲特征、識(shí)別特定的樣本或場景方面存在差異,多樣性知識(shí)有助于提高模型的魯棒性。例如,一個(gè)架構(gòu)可能在某些情境下表現(xiàn)更好,而另一個(gè)架構(gòu)在其他情境下表現(xiàn)更好。通過將它們進(jìn)行融合,使最終模型能夠綜合考慮多個(gè)角度的知識(shí)來源,從而提高了模型在各種情況下的性能表現(xiàn)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
本文在三個(gè)大規(guī)模的ReID數(shù)據(jù)集上評(píng)估本文方法,即Market-1501[27]、DukeMTMC-ReID[28]和MSMT17[3]。
a)Market-1501包括1 501個(gè)身份,32 668張圖片,由6個(gè)不同的相機(jī)拍攝。訓(xùn)練集包含751個(gè)身份,12 936張圖片。測試集包括750個(gè)身份,其中查詢集包含3 368張圖片,gallery包含19 732張圖片。
b)DukeMTMC-ReID包括36 411幅圖像,有1 812個(gè)身份。所有的圖像都是由8個(gè)高清攝像頭采集的。此外,數(shù)據(jù)集中有16 522張訓(xùn)練圖像,其中查詢集包含2 228張圖片,gallery包含17 661張圖片。
c)MSMT17是一個(gè)大規(guī)模的數(shù)據(jù)集,包含4 101個(gè)身份的126 441張圖像。訓(xùn)練集包含1 041個(gè)身份,測試集包含3 060個(gè)身份。
實(shí)驗(yàn)采用平均精度均值(mean average precision,mAP)和rank-n準(zhǔn)確率對(duì)本文中涉及到的行人重識(shí)別模型性能進(jìn)行量化評(píng)價(jià)。其中,mAP的計(jì)算是所有查詢的平均精度平均值;rank-n是檢索結(jié)果中前n位候選的準(zhǔn)確率。
3.2 實(shí)驗(yàn)細(xì)節(jié)
本文采用DenseNet121[24]和OSNet[25]深度學(xué)習(xí)架構(gòu),它們都在ImageNet[29]上進(jìn)行過預(yù)訓(xùn)練。為了在適應(yīng)性場景中進(jìn)行測試,本文選擇其中一個(gè)數(shù)據(jù)集作為源,另一個(gè)作為目標(biāo)域,在源域上進(jìn)行訓(xùn)練,在目標(biāo)域上進(jìn)行微調(diào)。其中Market1501和DukeMTMC-ReID既可以作為源域也可以作為目標(biāo)域,而MSMT17只作為目標(biāo)域數(shù)據(jù)集。
所有的輸入圖像都會(huì)被調(diào)整為256×128的大小,并進(jìn)行隨機(jī)裁剪、翻轉(zhuǎn)和擦除的數(shù)據(jù)增強(qiáng)(在源預(yù)訓(xùn)練階段未進(jìn)行隨機(jī)擦除處理)。本文采用K-means聚類算法,其中Market、Duke和MSMT數(shù)據(jù)集的聚類數(shù)分別設(shè)定為500、700和1 500。式(6)中的參數(shù)R0被設(shè)置為0.3??偟螖?shù)T設(shè)定為40。本文采用ADAM優(yōu)化器來優(yōu)化模型,權(quán)重衰減為5E-4。在源預(yù)訓(xùn)練階段,初始學(xué)習(xí)率設(shè)定為3.5×10-4, 并在第20和30次迭代中減小1/10。在目標(biāo)域微調(diào)階段,學(xué)習(xí)率固定為3.5×10-4。
3.3 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證所提出的基于不確定性漸進(jìn)式偽標(biāo)簽提煉策略和基于可靠性集成學(xué)習(xí)方法的有效性,將本文算法與UDA person ReID的主流方法SSG[11]、AD-Cluster[30]、MMT[12]、MEB-Net[13]、UNRN[21]、GLT[22]、P2LR[26]、MCL[31]進(jìn)行比較,如表1和2所示。與MMT相比,本文方法明顯提高了UDA-ReID的性能,mAP提高19.7%,R-1提高6.3%。與MEB-Net相比,它建立了三個(gè)網(wǎng)絡(luò)來進(jìn)行相互平均學(xué)習(xí),本文以更簡單的架構(gòu)設(shè)計(jì)將mAP與R-1分別提高14.9%、4.1%。值得注意的是,UNRN和GLT在目標(biāo)微調(diào)階段利用了源數(shù)據(jù),并建立一個(gè)外部支持存儲(chǔ)器來挖掘難樣本對(duì)。在MSMT17數(shù)據(jù)集上,與UNRN相比,mAP提高12.8%,R-1提高2.1%。與GLT相比,mAP提高11.4%,R-1提高1.8%。表2為DukeMTMC-ReID和Market1501分別適應(yīng)到MSMT17的實(shí)驗(yàn)結(jié)果。與表2中性能最優(yōu)的MCL算法相比,本文算法在Market1501→MSMT17上mAP提高2.7%,R-1提高1.1%;在DukeMTMC→MSMT17上mAP提高1.2%,R-1提高0.6%。
3.4 消融實(shí)驗(yàn)
3.4.1 漸進(jìn)式偽標(biāo)簽提煉策略有效性驗(yàn)證
為了驗(yàn)證漸進(jìn)式偽標(biāo)簽提煉策略的有效性,在Market1501和DukeMTMC數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示?;€表示僅使用聚類方法的偽標(biāo)簽部分進(jìn)行訓(xùn)練,設(shè)定U 表示樣本不確定性評(píng)估模塊,設(shè)定P表示基于不確定性漸進(jìn)式偽標(biāo)簽提煉策略,設(shè)定I表示基于可靠性集成策略。在沒有使用漸進(jìn)式偽標(biāo)簽提煉策略的情況下,在DukeMTMC→Market 上mAP和rank-1分別為68.5%和84.6%,加入基于不確定性漸進(jìn)式偽標(biāo)簽提煉策略,mAP與Rank-1明顯提高了18.7%和6.5%。結(jié)果表明,本文方法能夠有效地緩解錯(cuò)誤的偽標(biāo)簽所帶來的負(fù)面影響,并顯著提高UDA-ReID性能。同樣的實(shí)驗(yàn)結(jié)論在Market1501→DukeMTMC 任務(wù)中也得到了驗(yàn)證。
本文通過設(shè)置不同的R0值,實(shí)驗(yàn)其在漸進(jìn)式標(biāo)簽精煉中的影響,如圖3所示,當(dāng)R0在0.3左右時(shí),mAP和rank-1的準(zhǔn)確率達(dá)到峰值(87.5%和91.4%)。這表明在目標(biāo)域微調(diào)前期,被挑選參與訓(xùn)練的樣本大約是總樣本的30%,剩余的70%樣本則根據(jù)偽標(biāo)簽可信度從高到低逐漸被添加到訓(xùn)練隊(duì)列中,從而使模型得到更加穩(wěn)定的訓(xùn)練和更佳的性能。
3.4.2 基于可靠性集成學(xué)習(xí)策略有效性驗(yàn)證
為了檢驗(yàn)提出的基于可靠性自集成方法的有效性,本文在Market1501和DukeMTMC數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。在微調(diào)適應(yīng)目標(biāo)域的過程中選擇保存性能最佳的模型來作為測試模型,并將其與自集成模型進(jìn)行比較,結(jié)果如表4所示。本文提出的自集成方法提高了模型對(duì)目標(biāo)域的判別能力,對(duì)于DenseNet121和OSNet,由基于可靠性自集成學(xué)習(xí)方法得到的最終的推理模型在DukeMTMC →Market1501上的mAP分別優(yōu)于單個(gè)模型2.4%和3.2%,rank-1分別優(yōu)于單個(gè)模型1.8%和2.3%。在 Market1501→DukeMTMC 任務(wù)中同樣可得到驗(yàn)證,DenseNet121和OSNet的mAP分別實(shí)現(xiàn)了2.8%和3.9%的改善,rank-1分別實(shí)現(xiàn)了0.9%和2.6%的改善。
為了進(jìn)一步提高辨別能力,本文將兩個(gè)架構(gòu)計(jì)算的距離(式(9))結(jié)合起來進(jìn)行最終推斷,結(jié)果如表5所示。對(duì)于DenseNet121和OSNet來說,在DukeMTMC→Market1501任務(wù)下,集合后的模型mAP分別比單個(gè)模型高出1.0%和1.3%,rank-1 也分別比單個(gè)模型高出0.8%和1.7%。在 Market1501→DukeMTMC 任務(wù)下,也可以觀察到同樣的情況,其中DenseNet121和OSNet的mAP分別提高了0.7%和2.0%,rank-1分別提高了0.7%和0.9%。rank-5與rank-10指標(biāo)的結(jié)果在兩種任務(wù)情況下也都有所提高。
基于可靠性自集成方法是根據(jù)迭代中訓(xùn)練數(shù)據(jù)樣本標(biāo)簽的可靠性來對(duì)不同迭代的模型權(quán)重進(jìn)行加權(quán)平均,這意味著在集成過程中,可靠性更高的樣本會(huì)被賦予更高的權(quán)重,這可能會(huì)導(dǎo)致模型在rank-1表現(xiàn)更好,因?yàn)閞ank-1通常與模型對(duì)高可靠性樣本的判別性能相關(guān)聯(lián);同樣,對(duì)于mAP,它綜合考慮了所有檢索結(jié)果的性能,其中高可靠性的樣本在整體性能中占據(jù)重要地位。
3.4.3 訓(xùn)練時(shí)間比較
與其他基于集成學(xué)習(xí)的工作不同,本文為了避免在訓(xùn)練階段帶來額外開銷及不必要的訓(xùn)練復(fù)雜度,只在推理過程中利用了不同架構(gòu)的互補(bǔ)性。本文將不同方法在訓(xùn)練階段所需的時(shí)間開銷進(jìn)行比較,在實(shí)驗(yàn)中,本文使用了一個(gè)RTX 3090 GPU進(jìn)行訓(xùn)練和推理。如表6所示,MMT與P2LR的總訓(xùn)練時(shí)間長于本文兩個(gè)架構(gòu)訓(xùn)練時(shí)間及自集成時(shí)間之和。其中,OSNet所需的訓(xùn)練時(shí)間比DenseNet121更少,這是由于DenseNet121嵌入特征有2 048個(gè)維度,而OSNet只有512個(gè)維度,所以聚類速度更快。表中推理時(shí)間的結(jié)果是假設(shè)所有的圖庫特征向量都已被提取和存儲(chǔ)后計(jì)算的,它是根據(jù)DukeMTMC-ReID中g(shù)allery的排名來預(yù)測一個(gè)查詢標(biāo)簽的平均時(shí)間。
3.4.4 定性分析
如圖4所示,對(duì)DenseNet121(fusion)和OSNet(fusion)在Market→DukeMTMC任務(wù)上的前10個(gè)可視化結(jié)果進(jìn)行了定性分析。帶有藍(lán)色邊框的圖像即為查詢圖像,帶有綠色邊框的圖像與給定查詢圖像具有相同ID,帶有紅色邊框的圖像則具有不同ID(見電子版)??梢杂^察到,錯(cuò)誤檢索到的樣本大多來自其他身份的難樣本,如第一行中,rank-7和rank-9與查詢圖像具有極為相似的外貌和背景,除此之外,大多數(shù)檢索到的樣本皆來自同一身份,且經(jīng)過集成后的模型具有更好的識(shí)別能力。以上實(shí)驗(yàn)結(jié)果表明,所提出的算法具有較強(qiáng)的行人重識(shí)別能力。首先,超參數(shù)的選擇,包括模型總迭代次數(shù)和深度學(xué)習(xí)架構(gòu)的選擇,仍然依賴于經(jīng)驗(yàn)和多次實(shí)驗(yàn),具有一定的偶然性;其次,本文方法在面對(duì)相似度較高或遮擋的難樣本時(shí),可能會(huì)出現(xiàn)錯(cuò)誤的標(biāo)簽分配,影響到模型的性能。因此,未來的研究將會(huì)繼續(xù)對(duì)此方法進(jìn)行改進(jìn)和拓展,提高模型的魯棒性,以更好地滿足實(shí)際應(yīng)用需求。
4 結(jié)束語
為提升無監(jiān)督域自適應(yīng)行人重識(shí)別的準(zhǔn)確性,本文提出了一種基于可靠性自集成融合模型。針對(duì)如何識(shí)別噪聲偽標(biāo)簽及在優(yōu)化中減少錯(cuò)誤標(biāo)簽樣本的負(fù)面影響問題,設(shè)計(jì)一種漸進(jìn)式偽標(biāo)簽提煉策略,建立了一個(gè)定量標(biāo)準(zhǔn)來衡量偽標(biāo)簽的不確定性,從而挑選高可信度的樣本進(jìn)行訓(xùn)練,隨著迭代次數(shù)的增加,不確定性逐漸收斂,用于微調(diào)的樣本集緩慢增加,以實(shí)現(xiàn)穩(wěn)定的訓(xùn)練,使得模型能從目標(biāo)領(lǐng)域的樣本中充分學(xué)習(xí);同時(shí)設(shè)計(jì)了基于可靠性自集成策略,集成了訓(xùn)練期間不同迭代獲得的互補(bǔ)信息,且利用了不同訓(xùn)練架構(gòu)之間的互補(bǔ)性,提高了模型的性能。然而,本文算法也存在一些局限性和挑戰(zhàn)。
參考文獻(xiàn):
[1]Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial networks [J].Communications of the ACM ,2020, 63 (11): 139-144.
[2]Ge Yixiao,Zhu Feng,Zhao Rui,et al. Structured domain adaptation with online relation regularization for unsupervised person Re-ID [J].IEEE Trans on Neural Networks and Learning Systems ,2024, 35 (1): 258-271.
[3]Wei Longhui,Zhang Shiliang,Gao Wen,et al. Person transfer GAN to bridge domain gap for person re-identification [EB/OL]. (2018). https://arxiv.org/abs/1711. 08565.
[4]Zhong Zhun,Zheng Liang,Li Shaozi,et al. Generalizing a person retrieval model hetero-and homogeneously [C]// Proc of European Conference on Computer Vision. 2018: 176-192.
[5]Guillaume D,Xu Yihong,Stéphane L,et al. CANU-ReID: a conditional adversarial network for unsupervised person re-identification [C]//Proc of the 25th International Conference on Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 4428-4435.
[6]Feng Hao,Cheng Minghao,Hu Jinming,et al. Complementary pseudo labels for unsupervised domain adaptation on person re-identification [J].IEEE Trans on Image Processing ,202 30 (1): 2898-2907.
[7]Lin Yutian,Dong Xuanyi,Zheng Liang,et al. A bottom-up clustering approach to unsupervised person re-identification [C]//Proc of AAAI Conference on Artificial Intelligence. 2019: 8738-8745.
[8]Song Liangchen,Wang Cheng,Zhang Lefei,et al. Unsupervised domain adaptive re-identification: theory and practice [J].Pattern Recognition ,2020, 102 (C): 107173.
[9]Ye Mang,Li Jiawei,Ma A J,et al. Dynamic graph co-matching for unsupervised video-based person re-identification[J].IEEE Trans on Image Processing ,2019, 28 (6): 2976-2990.
[10]Fan Hehe,Zheng Liang,Yang Yi. Unsupervised person re-identification: clustering and fine-tuning[J].ACM Trans on Multimedia Computing,Communications,and Applications ,2018, 14 (4): 1-18.
[11]Fu Yang,Wei Yunchao,Wang Guanshuo,et al. Self-similarity grou-ping: a simple unsupervised cross domain adaptation approach for person re-identification [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019: 6111-6120.
[12]Ge Yixiao,Chen Dapeng,Li Hongsheng. Mutual mean-teaching: pseudo label refinery for unsupervised domain adaptation on person re-identification [C]//Proc of International Conference on Learning Representations. 2020.
[13]Zhai Yunpeng,Ye Qixiang,Lu Shijian,et al. Multiple expert brainstorming for domain adaptive person re-identification [C]//Proc of European Conference on Computer Vision. 2020: 594-611.
[14]Kendall A,Gal Y. What uncertainties do we need in Bayesian deep learning for computer vision? [J].Advances in Neural Information Processing Systems ,2017, 30 : 5580-5590.
[15]Chang Jie,Lan Zhonghao,Cheng Changmao,et al. Data uncertainty learning in face recognition [C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2020: 5709-5718.
[16]Zheng Zhedong,Yang Yi. Rectifying pseudo label learning via uncertainty estimation for domain adaptive semantic segmentation [J].International Journal of Computer Vision ,202 129 (4): 1106-1120.
[17]He Yihui,Zhu Chenchen,Wang Jianren,et al. Bounding box regression with uncertainty for accurate object detection [C]// Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2019: 2888-2897.
[18]Zhang Dawei,F(xiàn)u Yanwei,Zheng Zhonglong. UAST:uncertainty-aware siamese tracking [C]//Proc of International Conference on Machine Learning. 2022: 26161-26175.
[19]Guan Dayan,Huang Jiaxing,Xiao Aoran,et al. Uncertainty-aware unsupervised domain adaptation in object detection [J].IEEE Trans on Multimedia ,2022, 24 : 2502-2514.
[20]Wu Yu,Lin Yutian,Dong Xuanyi,et al. Progressive learning for person re-identification with one example[J].IEEE Trans on Image Processing ,2019, 28 (6): 2872-2881.
[21]Zheng Kecheng,Lan Cuiling,Zeng Wenjun,et al. Exploiting sample uncertainty for domain adaptive person re-identification [C]// Proc of AAAI Conference on Artificial Intelligence. 2021: 3538-3546.
[22]Zheng Kecheng,Liu Wu,He Lingxiao,et al. Group-aware label transfer for domain adaptive person re-identification [C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2021: 5310-5319.
[23]Yin Junhui,Qiu Jiayan,Zhang Siqing,et al. SSKD: self-supervised knowledge distillation for cross domain adaptive person re-identification [EB/OL]. (2020). https://arxiv.org/abs/2009. 05972.
[24]Huang Gao,Liu Zhuang,Van Der Maaten L,et al. Densely connected convolutional networks [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017: 4700-4708.
[25]Zhou Kaiyang,Yang Yongxin,Andrea C,et al. Omni-scale feature learning for person re-identification [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019: 3701-3711.
[26]Han Jian,Li Yali,Wang Shengjin. Delving into probabilistic uncertainty for unsupervised domain adaptive person re-identification [C]//Proc of AAAI Conference on Artificial Intelligence. 2022: 790-798.
[27]Zheng Liang,Shen Liyue,Tian Lu,et al. Scalable person re-identification: a benchmark [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015: 1116-1124.
[28]Ergys R,F(xiàn)rancesco S,Roger S Z,et al. Performance measures and a data set for multi-target,multi-camera tracking [C]// Proc of Euro-pean Conference on Computer Vision. 2016: 17-35.
[29]Deng Jia,Dong Wei,Socher R,et al. ImageNet: a large-scale hierarchical image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2009: 248-255.
[30]Zhai Yunpeng,Lu Shijian,Ye Qixiang,et al. AD-Cluster: augmented discriminative clustering for domain adaptive person re-identification [EB/OL]. (2020). https://arxiv.org/abs/2004. 08787.
[31]李慧,張曉偉,趙新鵬,等. 基于多標(biāo)簽協(xié)同學(xué)習(xí)的跨域行人重識(shí)別 [J]. 北京航空航天大學(xué)學(xué)報(bào),202 48 (8): 1534-1542. (Li Hui,Zhang Xiaowei,Zhao Xinpeng,et al. Multi-label cooperative learning for cross domain person re-identification [J].Journal of Beijing University of Aeronautics and Astronautics ,2022, 48 (8): 1534-1542.)
收稿日期:2023-07-30;修回日期:2023-09-25 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62266011);貴州省基礎(chǔ)研究計(jì)劃項(xiàng)目(黔科合基礎(chǔ)-ZK[2022]一般119)
作者簡介:文銳(1999—),男,貴州六盤水人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)樾腥酥刈R(shí)別;孔廣黔(1974—),男(通信作者),四川遂寧人,副教授,博士,CCF會(huì)員,主要研究方向?yàn)橐曨l分析與處理、智能演化網(wǎng)絡(luò)、深度學(xué)習(xí)及其應(yīng)用(gq_kong@163.com);段迅(1974—),男,貴州黔西人,副教授,博士,主要研究方向?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)、大數(shù)據(jù)、深度學(xué)習(xí)及其應(yīng)用.