中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-040-2220-07
doi:10.19734/j.issn.1001-3695.2024.09.0372
Abstract:Toaddress theisueofocclusioninpersonre-identification(ReID)andalleviate theimpactof insufficientocclusion datasets,this research focusedonoccudedReIand proposedamultiscaledenoising autoencoder-based method.The method usedknowledgedistllationlearninginastudent-teachermodelforjointtraining,enablingthetransferofknowledgefromthe teachermodel tothestudentmodel.Usingartificiallyccludedimages totraintheautoencoder,compressedtheinputdatainto alatentspacefeaturerepresentation,decoded toreconstructdatathatcloselyresemblestheoriginalinput,achievingdenoising reconstruction.Basedonthetrainedautoencoder,further trainingwithealocludedimagesandincorporatinganatentionmo duletodiferentiatebetweenthefeaturerepresentationsofoludedimagesandholisticimages,enhancedthemodel’srobustnesand recognition performance foroccluded images.Experimentsdemonstrate thattheproposed methodachievessuperior performance onthe Occude-Duke,Occluded-ReID,and Partial-ReIDdatasets compared tocurrentlyadvancedoccluded pedestrianre-identification approaches.
Key words:person re-identification;occlusion;denoising autoencoder;knowledge distillation
0 引言
行人重識(shí)別(ReID)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向,旨在解決如何在不同監(jiān)控?cái)z像頭中識(shí)別同一行人的問(wèn)題。在視頻監(jiān)控、安防、智能交通等領(lǐng)域具有廣泛的應(yīng)用。通常監(jiān)控系統(tǒng)包含多個(gè)攝像頭,這些攝像頭可能安裝在不同的位置,并且具有不同的角度和光照條件,從而導(dǎo)致同一個(gè)行人在不同攝像頭下可能會(huì)出現(xiàn)被遮擋[1\~3]、姿勢(shì)變化[4]以及分辨率不一致等問(wèn)題。其中遮擋是最常見(jiàn)的情況之一,嚴(yán)重影響了行人識(shí)別的準(zhǔn)確性。因此,解決遮擋對(duì)行人重識(shí)別的影響,并提高算法的魯棒性和準(zhǔn)確性,是行人重識(shí)別領(lǐng)域中的一個(gè)重要研究課題。
一些研究工作側(cè)重于利用人體姿態(tài)或關(guān)鍵點(diǎn)定位來(lái)提取行人的局部特征[5\~9],以及利用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convo-lutional network,GCN)來(lái)建模行人圖像中的關(guān)鍵點(diǎn)關(guān)系[10]Wang等人[5]提出基于Transformer的姿態(tài)引導(dǎo)方法,利用姿態(tài)信息清晰地分離人體或關(guān)節(jié)部位,并選擇性地匹配相應(yīng)的非遮擋部份。Yang等人°借助現(xiàn)有的姿態(tài)估計(jì)將姿態(tài)信息離散到行人的可見(jiàn)性標(biāo)簽,從而抑制遮擋區(qū)域的影響。Somers等人[7設(shè)計(jì)了預(yù)測(cè)身體部位的注意力圖,其利用外部語(yǔ)義信息生成基于身體部位的特征。由于對(duì)抗生成網(wǎng)絡(luò)(generativead-versarialnetwork,GAN)強(qiáng)大的圖像生成能力,許多研究者也提出了面向各種復(fù)雜情況下基于GAN 的行人重識(shí)別方法[11\~14]Wang等人\"使用多粒度GAN來(lái)恢復(fù)遮擋的行人圖像,通過(guò)在粗粒度分支上添加高效通道注意力網(wǎng)絡(luò)(ECA-Net)和在細(xì)粒度分支上使用高分辨率網(wǎng)絡(luò)(HRNet)進(jìn)行姿態(tài)估計(jì)。楊婉香等人[]利用多尺度GAN逐步去除遮擋,通過(guò)低分辨率輸入重構(gòu)高分辨率行人圖像,提高去遮擋性能,并用數(shù)據(jù)增強(qiáng)來(lái)增加訓(xùn)練樣本的多樣性。Zhao等人[13]使用GAN生成不同角度和光照下的行人圖像,幫助解決遮擋問(wèn)題。還有一些研究工作利用基于整體的方法。Kiran等人[15提出了一個(gè)基于整體指導(dǎo)(holisticguidance,HG)方法的學(xué)生-教師網(wǎng)絡(luò),將被遮擋樣本的類(lèi)間和類(lèi)內(nèi)距離的分布與整體(未被遮擋)樣本的分布相匹配,提高了學(xué)生網(wǎng)絡(luò)對(duì)遮擋的魯棒性。
以上方法主要借助姿態(tài)估計(jì)和GAN等來(lái)處理遮擋問(wèn)題。
雖然在一定程度上提高了識(shí)別的準(zhǔn)確性,但使用這些先進(jìn)的方法,掩碼生成的外部機(jī)制在運(yùn)行時(shí)增加了相當(dāng)大的時(shí)間復(fù)雜度。在實(shí)際應(yīng)用中,需要權(quán)衡時(shí)間復(fù)雜度增加和依靠外部機(jī)制可能帶來(lái)的種種挑戰(zhàn)和風(fēng)險(xiǎn),以確保模型能夠在應(yīng)對(duì)更復(fù)雜的遮擋、背景或分辨率變化時(shí)仍保持高效和準(zhǔn)確。
為避免上述問(wèn)題,并同時(shí)減輕遮擋數(shù)據(jù)集不充分的影響,本文在整體指導(dǎo)HG方法[的基礎(chǔ)上,提出了一種基于多尺度降噪自編碼器(multiscaledenoi-singautoencoderofholisticguidance,MDAE-HG)的遮擋行人重識(shí)別方法。該方法依賴(lài)于從整體數(shù)據(jù)中學(xué)習(xí)的屬性特征來(lái)指導(dǎo)遮擋數(shù)據(jù)的特征學(xué)習(xí)。無(wú)須借助外部機(jī)制,僅需行人身份標(biāo)簽作為監(jiān)督,通過(guò)多尺度降噪自編碼器重構(gòu)無(wú)遮擋的行人圖像,恢復(fù)更多行人特征信息,從而有效減少遮擋在行人特征表示學(xué)習(xí)過(guò)程中的干擾,并規(guī)避了外部機(jī)制帶來(lái)的潛在問(wèn)題。本文的主要貢獻(xiàn)包括以下三點(diǎn):a)設(shè)計(jì)了一個(gè)新型的多尺度降噪自編碼器(multiscaledenoi-singautoencoder,MDAE),通過(guò)重構(gòu)三種不同尺度的遮擋行人圖像來(lái)有效提取更多細(xì)節(jié)特征;b)提出了一種漸進(jìn)式隨機(jī)遮擋(progressiverandomocclusion,PRO)模塊來(lái)模擬遮擋,并引入了一種多尺度重建損失來(lái)優(yōu)化模型;c)在多個(gè)有挑戰(zhàn)性的行人重識(shí)別數(shù)據(jù)集中,通過(guò)大量的實(shí)驗(yàn)設(shè)計(jì)與分析驗(yàn)證了所提方法的有效性。
1相關(guān)工作
1.1 行人重識(shí)別
a)常規(guī)行人重識(shí)別。隨著科技的不斷進(jìn)步,攝像頭廣布在各個(gè)生活場(chǎng)所,城市安全愈加依賴(lài)于智能視頻監(jiān)控系統(tǒng)。利用視頻監(jiān)控系統(tǒng)進(jìn)行排查和搜尋,已經(jīng)成為重要的技術(shù)偵察手段。盡管人臉識(shí)別技術(shù)已經(jīng)相當(dāng)成熟,但由于拍攝角度等原因,監(jiān)控?cái)z像頭常常無(wú)法捕捉到清晰的人臉圖像。行人重識(shí)別就成為了一種有效的人臉識(shí)別替代方法。
深度學(xué)習(xí)的快速發(fā)展在行人重識(shí)別領(lǐng)域取得了顯著成就。近年來(lái),已經(jīng)提出了大量解決 ReID 問(wèn)題的方法[16\~18]。具體而言,基于深度度量的方法專(zhuān)注于設(shè)計(jì)損失函數(shù),以學(xué)習(xí)圖像之間的相似性和差異性?;诰植刻卣鞯姆椒ㄍㄟ^(guò)引入注意力機(jī)制[16]和多分支結(jié)構(gòu)提取局部特征,以增強(qiáng)行人識(shí)別的準(zhǔn)確性。基于細(xì)粒度信息的方法通過(guò)整合姿勢(shì)估計(jì)[17]和關(guān)鍵點(diǎn)模型來(lái)提取個(gè)體的細(xì)粒度特征,從而提升行人重識(shí)別的性能。此外,基于GAN的方法[18]通過(guò)生成圖像來(lái)補(bǔ)充樣本,豐富圖像樣本并改善模型的訓(xùn)練效果。
b)遮擋行人重識(shí)別。大多數(shù)關(guān)于行人重識(shí)別的研究主要依賴(lài)于行人的完整形象,較少考慮到被遮擋的情況。然而在現(xiàn)實(shí)生活中,尤其在擁擠的場(chǎng)景中,行人往往會(huì)被物體或者其他行人遮擋,導(dǎo)致難以獲取完整的行人形象。由此,遮擋行人重識(shí)別任務(wù)應(yīng)運(yùn)而生,成為一個(gè)重要的研究方向。
遮擋行人重識(shí)別系統(tǒng)面臨著巨大挑戰(zhàn):(a)遮擋物的多樣性。遮擋物種類(lèi)繁多,包括非目標(biāo)行人、車(chē)輛、植物、建筑物等[19]。不同類(lèi)型的遮擋物對(duì)行人外觀的影響各不相同,有些可能只部分遮擋行人特征,而有些可能完全遮擋了行人的臉部或身體。(b)特征信息的干擾。遮擋導(dǎo)致行人圖像中部分信息的丟失或變形,引入額外的背景噪聲。此外,遮擋物可能與目標(biāo)行人具有相似的外觀,影響特征的準(zhǔn)確提取。這些情況都會(huì)對(duì)網(wǎng)絡(luò)的特征學(xué)習(xí)和訓(xùn)練產(chǎn)生負(fù)面影響。(c)數(shù)據(jù)集的局限。目前可用的遮擋ReID數(shù)據(jù)集相對(duì)較少且規(guī)模較小,通常僅涵蓋少量遮擋類(lèi)型。這導(dǎo)致難以充分學(xué)習(xí)和評(píng)估模型在真實(shí)場(chǎng)景中的性能,限制了算法的泛化能力和實(shí)際應(yīng)用中的效果驗(yàn)證。
現(xiàn)有處理遮擋行人重識(shí)別的方法有[12]:(a)重構(gòu)遮擋圖像。通過(guò)重構(gòu)被遮擋的行人圖像的方法,還原被遮擋部分的人體,從而實(shí)現(xiàn)去除遮擋的效果。(b)特征提取。通過(guò)優(yōu)化特征提取過(guò)程,特別是對(duì)非遮擋區(qū)域的特征提取,以及降低遮擋區(qū)域特征的比重,來(lái)減輕遮擋引入的噪聲對(duì)行人特征的干擾。(c)擴(kuò)充數(shù)據(jù)集。將模擬遮擋的數(shù)據(jù)添加到訓(xùn)練集中,作為數(shù)據(jù)集的擴(kuò)充[1,20]。通過(guò)引入不同類(lèi)型和程度的遮擋,可以使模型更好地學(xué)習(xí)和適應(yīng)真實(shí)場(chǎng)景中的遮擋情況。在特征提取過(guò)程中,類(lèi)距離分布(distributionofclassdistance,DCD)對(duì)于描述不同行人之間的相似度或距離分布非常重要。對(duì)于同一行人的不同圖像之間應(yīng)具有較小的類(lèi)內(nèi)距離(within-classdis-tance),即圖像間的相似度較高;對(duì)于不同行人的圖像之間則應(yīng)具有較大的類(lèi)間距離(between-classdistance),即圖像間的相似度較低。由于遮擋的影響,類(lèi)別之間的邊界可能變得模糊不清。如圖1所示,即使是同一行人的不同圖像也可能因?yàn)檎趽趸蚺臄z條件的變化而表現(xiàn)出相似度較低的特征。文獻(xiàn)[15]研究發(fā)現(xiàn),整體數(shù)據(jù)的DCD明顯優(yōu)于遮擋數(shù)據(jù)的DCD,并提出方法解決由類(lèi)重疊引起的訓(xùn)練模型過(guò)擬合問(wèn)題。本文提出一種新型的基于多尺度降噪自編碼器的行人重識(shí)別方法框架,旨在緩解遮擋數(shù)據(jù)集樣本較少和不同分辨率導(dǎo)致的特征差異的影響。該方法建立在HG基礎(chǔ)上,保留其處理類(lèi)距離分布差異的措施,不同之處在于:(a)本文方法采用多尺度降噪自編碼器來(lái)捕捉不同尺度的特征信息,并處理不同分辨率的圖像;(b)本文方法使用漸進(jìn)式隨機(jī)遮擋模塊來(lái)模擬遮擋行人圖像。
1.2 知識(shí)蒸餾
知識(shí)蒸餾(knowledgedistillation,KD)是一種用于跨網(wǎng)絡(luò)知識(shí)轉(zhuǎn)移的技術(shù)。最初這項(xiàng)技術(shù)用于模型壓縮,通過(guò)讓一個(gè)輕量級(jí)的小模型(學(xué)生)學(xué)習(xí)一個(gè)重量級(jí)的大模型(教師)的輸出來(lái)提升學(xué)生模型的性能和精度。具體而言,知識(shí)蒸餾方法將教師網(wǎng)絡(luò)輸出的預(yù)測(cè)分布視為軟標(biāo)簽,用這些軟標(biāo)簽來(lái)指導(dǎo)學(xué)生網(wǎng)絡(luò)的預(yù)測(cè)分布。軟標(biāo)簽包含了更豐富的類(lèi)別信息隱含關(guān)聯(lián),比硬標(biāo)簽(單一的類(lèi)別標(biāo)簽)更具表達(dá)力。知識(shí)蒸餾目前主要分為兩個(gè)研究方向:(a)相同輸入數(shù)據(jù)的知識(shí)蒸餾。從具有相同輸人數(shù)據(jù)的教師模型中學(xué)習(xí)輕量級(jí)學(xué)生模型。Hinton等人[21]提出通過(guò)最小化兩個(gè)網(wǎng)絡(luò)產(chǎn)生的分類(lèi)邏輯之間的Kullback-Leibler散度,再將知識(shí)從教師網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。Romero等人[22]則通過(guò)最小化輸出的均方誤差來(lái)傳遞知識(shí)。Park等人[23]進(jìn)一步提煉了樣本間的相互關(guān)系,將其從教師模型傳遞到學(xué)生模型。(b)不同輸入數(shù)據(jù)的知識(shí)蒸餾。從不同輸入數(shù)據(jù)的教師模型中學(xué)習(xí),以賦予學(xué)生模型特定的能力。Gu等人[24]訓(xùn)練學(xué)生模型模仿以視頻數(shù)據(jù)為輸入的教師模型的輸出,讓學(xué)生模型能夠?qū)r(shí)間序列進(jìn)行建模。Wang等人[25]提出使用知識(shí)更清潔的教師模型來(lái)傳授帶有噪聲輸入的學(xué)生模型去噪能力。Zhang等人[26提出了深度相互學(xué)習(xí)策略,讓學(xué)生在訓(xùn)練過(guò)程中相互協(xié)作和教學(xué)。本文將跨網(wǎng)絡(luò)知識(shí)轉(zhuǎn)移技術(shù)應(yīng)用在遮擋ReID領(lǐng)域,使用來(lái)自不相似空間中更大的整體數(shù)據(jù)的未損壞特征的指導(dǎo)來(lái)緩解類(lèi)重疊問(wèn)題。具體來(lái)說(shuō),學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)從不同輸入的情況下聯(lián)合訓(xùn)練,并將教師網(wǎng)絡(luò)的知識(shí)遷移給學(xué)生網(wǎng)絡(luò),以便學(xué)生網(wǎng)絡(luò)能夠在處理遮擋時(shí)表現(xiàn)出色。
2 研究方法
2.1 網(wǎng)絡(luò)框架
本文提出的基于多尺度降噪自編碼器的遮擋行人重識(shí)別方法包括兩個(gè)網(wǎng)絡(luò):整體訓(xùn)練網(wǎng)絡(luò)(integraltrainingnetwork,ITN)和遮擋訓(xùn)練網(wǎng)絡(luò)(occlusiontrainingnetwork,OTN),兩個(gè)網(wǎng)絡(luò)共享一個(gè)網(wǎng)絡(luò)框架。整體框架如圖2所示,該框架包括一個(gè)多尺度降噪自編碼器和一個(gè)源域與目標(biāo)域混合訓(xùn)練的行人重識(shí)別模型,具體將在2.2和2.3節(jié)詳細(xì)說(shuō)明。ITN的訓(xùn)練數(shù)據(jù)是整體數(shù)據(jù)集(如Market1501等),使用大型整體數(shù)據(jù)集模擬更多樣化的遮擋數(shù)據(jù)集。OTN的訓(xùn)練數(shù)據(jù)是遮擋和部分?jǐn)?shù)據(jù)集(Occluded-ReID、Partial-ReID等),專(zhuān)注于真實(shí)的遮擋數(shù)據(jù),以學(xué)習(xí)在整體數(shù)據(jù)中表現(xiàn)良好的 DCD 本文方法的實(shí)現(xiàn)包括兩步,具體流程如下:
a)訓(xùn)練ITN。該網(wǎng)絡(luò)的源域?yàn)檎w數(shù)據(jù)集,目標(biāo)域?yàn)槿斯ふ趽鯏?shù)據(jù)集,選用一個(gè)大型的整體數(shù)據(jù)集構(gòu)建人工(增強(qiáng))遮擋的數(shù)據(jù)集。整體和人工遮擋圖像經(jīng)過(guò)多尺度降噪自編碼器重構(gòu),最后進(jìn)行分類(lèi)和識(shí)別訓(xùn)練,得到一個(gè)具有良好類(lèi)距離分布的教師網(wǎng)絡(luò)。僅通過(guò)裁剪和遮擋等數(shù)據(jù)增強(qiáng)的方式處理圖像顯然是不夠的。為更好地模擬遮擋圖像,以及受到由易到難學(xué)習(xí)策略的啟發(fā),本文提出了漸進(jìn)式隨機(jī)遮擋模塊PRO 處理數(shù)據(jù)。即給定一張圖像 X∈R3×H×W ,通過(guò)PRO在 X 上隨機(jī)生成遮擋區(qū)域塊 o ,每個(gè)遮擋塊 o 的面積為 s ,其中 H 和 W 分別為圖像的高和寬。如圖3所示,隨著epoch次數(shù)增加,網(wǎng)絡(luò)的學(xué)習(xí)能力增強(qiáng),PRO模塊逐漸增大遮擋面積 s ,并由易到難地隨機(jī)生成遮擋。
b)依賴(lài)于第一步得到的整體數(shù)據(jù)在不相似空間中的良好類(lèi)距離分布,再在遮擋數(shù)據(jù)集上訓(xùn)練 OTN 該網(wǎng)絡(luò)的源域?yàn)檎w數(shù)據(jù)集,目標(biāo)域?yàn)檎趽鯏?shù)據(jù)集。選用真實(shí)遮擋的數(shù)據(jù)集,在步驟a)(ITN)的基礎(chǔ)上遷移其處理遮擋的方式繼續(xù)訓(xùn)練。再用整體圖像良好的DCD指導(dǎo)遮擋圖像的 DCD 此外,在學(xué)生網(wǎng)絡(luò)中嵌人額外的注意力機(jī)制,使模型關(guān)注到非遮擋區(qū)域,并提取能夠區(qū)分類(lèi)重疊的顯著特征。最后進(jìn)行分類(lèi)識(shí)別訓(xùn)練,直至收斂。
2.2 多尺度降噪自編碼器
自編碼器(autoencoder,AE)是一種無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò),可以用函數(shù) 來(lái)描述,其中編碼函數(shù)用 X′=E(X) 表示,解碼函數(shù)用
表示,輸出
與原始輸入 X 相近。降噪自編碼器(denoising autoencoder,DAE)由Vincent 等人[27]提出,在自編碼器的基礎(chǔ)上,DAE在訓(xùn)練期間向輸入數(shù)據(jù)引入噪聲,并訓(xùn)練模型預(yù)測(cè)原始(未損壞)的數(shù)據(jù),從而達(dá)到去除噪聲、恢復(fù)數(shù)據(jù)的目的。不同于傳統(tǒng)的自編碼器捕捉單一的尺度特征,本文提出一種新型的多尺度降噪自編碼器MDAE,通過(guò)重構(gòu)不同尺度的圖像使網(wǎng)絡(luò)學(xué)習(xí)到更完整的特征信息。使用大尺度的遮擋行人圖像作為輸入,并將其重構(gòu)為大、中、小尺度的圖像,有效掌握多個(gè)尺度的圖像細(xì)節(jié)信息,提高網(wǎng)絡(luò)提取特征的能力。
MDAE結(jié)構(gòu)簡(jiǎn)單,包括一個(gè)編碼器E、壓縮表示Code和一個(gè)多尺度解碼器 mD 。E的輸人為大尺度遮擋圖像,輸出低維的編碼Code, mD 的輸人為帶著潛在特征信息的編碼Code,輸出為三種不同尺度的遮擋重建圖像。具體來(lái)說(shuō),編碼器E采用預(yù)訓(xùn)練的ResNet50模型作為基礎(chǔ),通過(guò)深度堆疊8個(gè)Bottle-neck殘差塊,逐步提取輸入數(shù)據(jù)的高級(jí)特征,每個(gè)Bottleneck塊通過(guò) 1×1 和 3×3 的卷積操作,有效捕捉不同尺度和層次的特征信息。解碼器 mD 包括小尺度、中尺度和大尺度三個(gè)解碼器,代表了三種尺度的解碼路徑,從低分辨率向高分辨率恢復(fù)。它們由反卷積層、批歸一化層和激活函數(shù)構(gòu)成,反卷積層共包含13個(gè)大小為 3×3 的反卷積核。
MDAE工作原理如圖4所示,將輸入層的原始數(shù)據(jù)壓縮成潛在空間的特征表示,提取主要的特征信息,并通過(guò)解碼器mD 將這些特征解碼成與原始輸入最相似的形式,以實(shí)現(xiàn)數(shù)據(jù)的降噪重構(gòu)。具體來(lái)說(shuō):
a)將一個(gè)遮擋圖像(大尺度) X 映射到隱藏層中通過(guò)E編碼成 X′ ,將高維數(shù)據(jù)轉(zhuǎn)換為低維特征,這一過(guò)程表示為
其中: w 是編碼權(quán)重; b 是偏置量; σ 是激活函數(shù)ReLU; X′ 是 X 在潛在空間中的表達(dá) ?;f(???) 是編碼函數(shù)。
b)將潛在特征 X′ 輸入到多尺度解碼器 mD 中進(jìn)行逐步上采樣,還原至原始數(shù)據(jù)的空間分辨率,得到高、中、低三種尺度的重構(gòu)樣本recons_hrrecons_mr和recons ,這一過(guò)程表示為
其中: w′,w′′,w′′′ 是編碼權(quán)重; b′,b′′,b′′′ 是偏置量;recons 、recons_mrrecons -lr 是 X′ 經(jīng)過(guò) mD 重構(gòu)后的樣本; g(?),h(?) 、y(?) 分別是對(duì)應(yīng)的解碼函數(shù)。
c)三種尺度的重構(gòu)樣本分別與原始輸入圖像(由原始大尺度圖像插值得到原始中、低尺度圖像)對(duì)比,因此可以得到重構(gòu)誤差為
解碼圖像是對(duì)原始圖像的有損重建,通過(guò)在潛在空間中進(jìn)行重構(gòu)而生成。因此,在E和 mD 之間的壓縮表示Code可以決定原始輸人數(shù)據(jù)的主要信息和舍棄信息。MDAE最小化生成的去噪圖像與原始圖像之間的重建誤差,從而迫使MDAE能夠提取融合三種尺度的高維深層特征。
由于MDAE編碼器E在提取特征方面表現(xiàn)出色,所以被用作模型的特征提取器,具體將在2.3節(jié)中詳細(xì)說(shuō)明。本文使用的圖像尺寸為:大尺度 384×128 ,中尺度 192×64 ,小尺度 96×32 。
2.3基于知識(shí)蒸餾的行人重識(shí)別模型
本文引入了編碼器E作為特征提取的主干網(wǎng)絡(luò),并在此基礎(chǔ)上設(shè)計(jì)了一個(gè)聯(lián)合生成和判別的主干模型,使用多尺度降噪自編碼器進(jìn)行訓(xùn)練。具體而言,本文方法結(jié)合了多尺度降噪自編碼器和分類(lèi)網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)框架,通過(guò)多種數(shù)據(jù)增強(qiáng)技術(shù)對(duì)輸入圖像進(jìn)行處理,并利用實(shí)際圖像計(jì)算重建損失,從而提升模型的魯棒性和識(shí)別性能。設(shè) 為重構(gòu)圖像,則
E(Xr) 為編碼器的潛在特征表示,其中 r∈{N,O} (整體圖像和遮擋圖像), Xr 為輸入圖像。 X′ ,的大小為 B×C×w×h ,其中B 為批次大小, c 為編碼器E的輸出通道數(shù), w,h 分別為特征圖的寬度和高度。在潛在特征表示 Xr′ 上采用基于部分的池化方法,將其分為 p 部分特征條紋,并對(duì)每個(gè)部分進(jìn)行全局平均池化(GAP),得到 p 個(gè)特征向量,每個(gè)特征向量的大小為 C 然后將這些特征向量分配給 p 個(gè)唯一的分類(lèi)器,并使用相應(yīng)數(shù)據(jù)集的身份標(biāo)簽進(jìn)行訓(xùn)練。
對(duì)于每個(gè)給定的圖像 Xr ,分類(lèi)器的預(yù)測(cè)輸出為 ,其中i=1,…,p 個(gè)部分。各部分的身份預(yù)測(cè)損失函數(shù)為
其中: SCE,r 為交叉熵?fù)p失; K 為批次大小;類(lèi)標(biāo)簽 yi∈{1,2,… |N 與第 i 個(gè)訓(xùn)練圖像相關(guān)聯(lián)。 Wyi 和 byi 是最后一個(gè)全連接層對(duì)應(yīng)類(lèi)別 y 的權(quán)重和偏置。同樣, Wj 和 bj 是第 j 類(lèi)的權(quán)重和偏置。
本文方法中,主干網(wǎng)絡(luò)被用作教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),兩者共享同一網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行知識(shí)蒸餾,實(shí)現(xiàn)知識(shí)從教師模型跨網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生模型。與整體數(shù)據(jù)集相比,從遮擋圖像中提取的類(lèi)內(nèi)深層特征和類(lèi)間深層特征在DCD上存在顯著重疊。因此,為了有效地處理遮擋問(wèn)題,除了主干網(wǎng)絡(luò)之外,學(xué)生模型中還嵌人了一個(gè)注意力模塊。這個(gè)注意力模塊讓學(xué)生網(wǎng)絡(luò)能夠更好地從遮擋數(shù)據(jù)中學(xué)習(xí)教師網(wǎng)絡(luò)在整體數(shù)據(jù)上的良好DCD。
圖2展示了學(xué)生-教師網(wǎng)絡(luò)架構(gòu)以及基于多尺度編碼器的深度特征提取器。網(wǎng)絡(luò)同時(shí)獲取兩個(gè)輸入圖像,一個(gè)來(lái)自整體數(shù)據(jù)集,另一個(gè)來(lái)自遮擋數(shù)據(jù)集。使用兩個(gè)獨(dú)立的分類(lèi)器,一個(gè)用于教師模型學(xué)習(xí)整體數(shù)據(jù)身份,另一個(gè)用于學(xué)生模型學(xué)習(xí)遮擋數(shù)據(jù)身份。通過(guò)學(xué)習(xí)一組兩個(gè)完全連接層進(jìn)行分類(lèi),再對(duì)提取的深度特征進(jìn)行身份損失優(yōu)化。
由于存在較大類(lèi)重疊,學(xué)生模型可能會(huì)在被遮擋的數(shù)據(jù)集上過(guò)擬合,所以網(wǎng)絡(luò)中引入注意力機(jī)制,通過(guò)注意力圖來(lái)對(duì)遮擋圖像的部分特征進(jìn)行加權(quán),使被關(guān)注的部分特征能夠區(qū)分類(lèi)間和類(lèi)內(nèi)的距離分布,從而形成學(xué)生模型能夠?qū)W習(xí)到類(lèi)似于教師模型的效果。注意力機(jī)制包括一組兩層 1×1 卷積濾波器、ReLU層、sigmoid激活函數(shù)和批處理歸一化層。為了學(xué)習(xí)注意力,學(xué)生網(wǎng)絡(luò)依賴(lài)于輸入的遮擋圖像和距離分布匹配。學(xué)生網(wǎng)絡(luò)在比較遮擋圖像特征和整體圖像特征的DCD時(shí),給定一小批圖像輸入,其中包含遮擋和整體圖像 Xo 和 Xn ,提取整體數(shù)據(jù)的部分特征 fni 和遮擋數(shù)據(jù)的部分特征 fai (注意力圖關(guān)注的部分特征)。運(yùn)用 u 和 v 表示特征的類(lèi)別身份。對(duì)于每對(duì)小批量圖像,本文按照以下方式提取批內(nèi)不同組合的圖像特征對(duì):
式(5)將特征轉(zhuǎn)換為不相似空間。 Pi 表示部分特征;距離分布從 diwr 和 dibr 中提取,分別適用于整體數(shù)據(jù)和遮擋數(shù)據(jù)。通過(guò)使用最大均值差異(maximummeandiscrepancy,MMD)最小化整體數(shù)據(jù)和遮擋數(shù)據(jù)DCD之間的差異來(lái)產(chǎn)生良好的注意力圖。設(shè) Drwr 和 Drbr 表示從 drwr 和 drbr 中提取的分布。測(cè)量整體數(shù)據(jù)和遮擋數(shù)據(jù)類(lèi)分布差異的損失(DCDLoss)為
其中: 計(jì)算類(lèi)內(nèi)分布差異損失;
計(jì)算類(lèi)間分布差異損失;
計(jì)算所有類(lèi)分布差異損失; Sglobal 計(jì)算教師特征和學(xué)生特征之間的距離分布損失; λ1、λ2、λ3 分別取值 0.8?0.5?1 。
通過(guò)固定教師網(wǎng)絡(luò)的 Drwr 和 Drbr 來(lái)優(yōu)化損失 和
,使得學(xué)生網(wǎng)絡(luò)的距離分布與教師網(wǎng)絡(luò)的距離分布相匹配。類(lèi)距離分布損失使相同類(lèi)別(身份)的樣本在特征空間中更加緊密地聚集,同時(shí)使不同類(lèi)別的樣本之間保持較大的距離。最小化式(6)的損失可以讓學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)到一個(gè)良好的注意力圖,以關(guān)注被遮擋圖像的非遮擋區(qū)域。
2.4損失函數(shù)
整個(gè)模型針對(duì)遮擋數(shù)據(jù)和整體數(shù)據(jù)的多尺度重構(gòu)損失和身份損失進(jìn)行了優(yōu)化,最后是對(duì)類(lèi)分布損失進(jìn)行優(yōu)化。在訓(xùn)練ITN時(shí),為優(yōu)化網(wǎng)絡(luò)的訓(xùn)練,提取泛化能力更強(qiáng)的行人特征,聯(lián)合使用多尺度重構(gòu)損失和身份損失進(jìn)行優(yōu)化,總的損失函數(shù)定義為
在訓(xùn)練OTN時(shí),為指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí),要盡可能平衡生成式判別損失(多尺度重構(gòu)損失和身份損失)和類(lèi)分布差異損失,總的損失函數(shù)定義為
其中: αβ?γ 和 μ 是平衡損失的權(quán)重因子。
3 實(shí)驗(yàn)和結(jié)果分析
3.1 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)
為了驗(yàn)證提出方法的有效性,本文使用了整體數(shù)據(jù)集(Market1501、DukeMTMC-ReID、MSMT17)、遮擋數(shù)據(jù)集(Occluded-Duke、Occluded-ReID)和部分?jǐn)?shù)據(jù)集(Partial-ReID)進(jìn)行實(shí)驗(yàn)評(píng)估。Market1501數(shù)據(jù)集包含1501名行人的數(shù)據(jù),通過(guò)5個(gè)高分辨率相機(jī)和1個(gè)低分辨率相機(jī)拍攝獲得。DukeMTMC-ReID是一個(gè)大規(guī)模標(biāo)注的行人重識(shí)別數(shù)據(jù)集,由8個(gè)高分辨率攝像機(jī)拍攝,共有36411張1812名行人的圖像。MSMT17數(shù)據(jù)集由15個(gè)攝像機(jī)采集,共126441張4101名行人的圖像,其中32621張1041名行人的圖像用于訓(xùn)練,93820張3060名行人的圖像用于測(cè)試。Occluded-Duke是專(zhuān)為遮擋行人重識(shí)別設(shè)計(jì)的數(shù)據(jù)集,是目前最大的公開(kāi)遮擋數(shù)據(jù)集。訓(xùn)練集包含15618張702名行人的圖像,查詢(xún)集包含2210張519名行人的圖像,圖庫(kù)集包含17661張1110名行人的圖像。Occluded-ReID數(shù)據(jù)集包括200名行人,每人5張全身圖像和5張各種遮擋情況的圖像。Partial-ReID數(shù)據(jù)集包含60名行人,每人5張全身圖像、5張局部圖像和5張遮擋圖像。
在訓(xùn)練過(guò)程中,本文僅使用每個(gè)數(shù)據(jù)集訓(xùn)練集中的圖像和相機(jī)標(biāo)簽,不使用其他任何注釋信息。模型評(píng)價(jià)指標(biāo)采用廣泛使用的累積匹配曲線(cumulativematchcharacteristic,CMC)和平均精度均值(meanaverageprecision,mAP)進(jìn)行評(píng)估。mAP是將所有類(lèi)別的平均精度進(jìn)行綜合加權(quán)平均得到。CMC是Rank- ?n 準(zhǔn)確率的曲線,用于評(píng)估行人重識(shí)別算法性能。
3.2 實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)訓(xùn)練測(cè)試的硬件設(shè)備:操作系統(tǒng)為Ubuntu20.04,中央處理器為Intel °ledast Xeon ? Gold 6342 CPU @ 2.80GHz ,顯卡為NVIDIAA10,顯存為24GB,使用的集成開(kāi)發(fā)環(huán)境為PyCharm。軟件環(huán)境采用PyTorch深度學(xué)習(xí)框架,編程語(yǔ)言為Python3.8。
訓(xùn)練細(xì)節(jié):對(duì)于MDAE-HG模型,輸入圖像大小為 384× 128;模型訓(xùn)練過(guò)程中,采用漸進(jìn)式隨機(jī)遮擋PRO模塊實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)處理,初始隨機(jī)擦除面積的最大比例設(shè)置為0.15,每訓(xùn)練15個(gè)epoch后最大比例增加0.05,生成人工遮擋數(shù)據(jù)。批大小設(shè)置為128,ITN學(xué)習(xí)70輪,OTN學(xué)習(xí)80輪,共學(xué)習(xí)150輪。用Adam優(yōu)化器進(jìn)行梯度更新,ITN初始學(xué)習(xí)率設(shè)置為3×10-4 ,在第15輪和35輪時(shí)分別衰減為 3×10-5 和 3×10-6 。OTN初始學(xué)習(xí)率設(shè)置為 3.5×10-4 ,30個(gè)epoch之后下降為之前的0.1倍,即在100個(gè)epoch后衰減為 3.5×10-5 。
3.3 參數(shù)分析
為了說(shuō)明超參數(shù)取值的最優(yōu)或較優(yōu)取值,以O(shè)ccluded-Duke數(shù)據(jù)集為例,分別測(cè)試了超參數(shù)平衡因子 αβ?γ 和 μ 不同選擇及調(diào)整,其中 α=0.8,β=0.5,γ=0.3,μ=0.5 時(shí),效果最優(yōu)。
a)損失函數(shù)中三個(gè)尺度的超參數(shù) α,β,γ 的影響。小尺度通常捕捉最細(xì)節(jié)的特征,參數(shù) γ 范圍通常較小;中尺度捕捉中等細(xì)節(jié)和結(jié)構(gòu)特征,參數(shù) β 范圍介于小尺度和大尺度之間,設(shè)為0.5;大尺度捕捉整體結(jié)構(gòu)和全局特征,參數(shù) α 范圍較大。為確定參數(shù) α,β,γ 的最優(yōu)或較優(yōu)取值,固定 μ=0. 5 ,以O(shè)ccluded-Duke數(shù)據(jù)集為例,將權(quán)重因子 α 分別設(shè)置為0.5、
0.6、0.7、0.8 做實(shí)驗(yàn);將權(quán)重因子 γ 分別設(shè)置為 0.2、0.3、0.4 0.5,圖5給出 mAP 和Rank-1指標(biāo)隨 α,β,γ 值的變化曲線圖。當(dāng) α=0.8,β=0.5,γ=0.3 時(shí),Rank-1和mAP達(dá)到了最高。
b)損失函數(shù)中超參數(shù) μ 的影響。 μ 可以平衡多個(gè)損失函數(shù),使網(wǎng)絡(luò)性能達(dá)到最優(yōu)。固定 α=0.8,β=0.5,γ=0.3 ,測(cè)試不同的 μ 對(duì)實(shí)驗(yàn)結(jié)果的影響。測(cè)試集為Occluded-Duke時(shí),Rank-1和 mAP 的結(jié)果如圖6所示??芍?dāng) μ=0.5 時(shí),Rank-1和mAP達(dá)到了最高。
3.4 與現(xiàn)有方法比較
遮擋行人重識(shí)別效果:本節(jié)在Occluded-Duke、Occluded-ReID、Partial-ReID數(shù)據(jù)集上與現(xiàn)有的一些先進(jìn)方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表1和2所示,MDAE-HG方法具有最佳性能。
分析表1,在Occluded-Duke數(shù)據(jù)集上Rank-1和 mAP 分別達(dá)到了 66.2% 和 55.6% 。本文方法與HG相比,在Occluded-Duke數(shù)據(jù)集中, .mAP 和Rank-1指標(biāo)超過(guò)效果最優(yōu)的 HG0.9% 和 1.1% 。
分析表2,在Occluded-ReID數(shù)據(jù)集上Rank-1和 mAP 分別達(dá)到了 83.5% 和 73.6% ;在Partial-ReID數(shù)據(jù)集上Rank-1和mAP分別達(dá)到了 69.7% 和 72.4% 。在使用遮擋數(shù)據(jù)集Occluded-ReID和Partial-ReID來(lái)評(píng)估本文方法時(shí),由于Occluded-ReID和Partial-ReID數(shù)據(jù)集上沒(méi)有劃分訓(xùn)練集和測(cè)試集,模型在Marketl501數(shù)據(jù)集上進(jìn)行訓(xùn)練,在Occluded-ReID和Partial-ReID數(shù)據(jù)集上進(jìn)行測(cè)試。由表2可知,本文方法在Partial-ReID數(shù)據(jù)集的mAP和Rank-1超過(guò) HG 1. 3% 和 1.4% 。在Occluded-ReID數(shù)據(jù)集的 mAP 和Rank-1指標(biāo)上,本文方法超過(guò)效果最優(yōu)的 HG1.6% 和 0.7% 。這證明了本文方法的有效性。
常規(guī)行人重識(shí)別效果:本文在Market1501、DukeMTMC-ReID和MSMT17數(shù)據(jù)集上與現(xiàn)有先進(jìn)方法對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。相比于其他方法,本文方法達(dá)到了較高的準(zhǔn)確率,在Market1501和MSMT17數(shù)據(jù)集上,Rank-1分別達(dá)到了95.7% 79.8% ;mAP分別達(dá)到了 87.8% , 56.5% 。在DukeMT-MC-ReID數(shù)據(jù)集上,Rank-1和mAP分別達(dá)到 89.0% 和 78.3% ,超過(guò)了 HG1.9% 和 0.8% 。多個(gè)實(shí)驗(yàn)證明,本文方法不僅對(duì)遮擋行人重識(shí)別作出了提升,對(duì)常規(guī)行人重識(shí)別也有顯著效果。
3.5 消融實(shí)驗(yàn)
本節(jié)將研究本文MDAE-HG模型中每個(gè)模塊的有效性。以HG模型為基礎(chǔ),進(jìn)行了漸進(jìn)式隨機(jī)遮擋模塊、多尺度降噪自編碼器及網(wǎng)絡(luò)結(jié)構(gòu)的消融實(shí)驗(yàn)。表4為Occluded-Duke數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果,驗(yàn)證了各模塊在遮擋行人重識(shí)別的有效性。
漸進(jìn)式隨機(jī)遮擋模塊的有效性:漸進(jìn)式隨機(jī)遮擋模塊有助于模擬遮擋行人圖像,且可以方便地加入到網(wǎng)絡(luò)中。實(shí)驗(yàn)結(jié)果如表4所示??芍?,與index1相比,漸進(jìn)式隨機(jī)遮擋模塊的加入對(duì)行人重識(shí)別的準(zhǔn)確率有所提升,在Occluded-Duke上mAP提高了1.1百分點(diǎn)。結(jié)果表明,PRO模塊有效地模擬圖像中的真實(shí)遮擋情況,豐富了數(shù)據(jù)集并增加了多樣性。這對(duì)于遮擋數(shù)據(jù)集局限的行人重識(shí)別任務(wù)來(lái)說(shuō),無(wú)疑是進(jìn)一步提升了網(wǎng)絡(luò)性能。
多尺度降噪自編碼器的有效性:本文在降噪自編碼器的基礎(chǔ)上添加多尺度操作,通過(guò)在不同尺度上學(xué)習(xí)數(shù)據(jù)的特征表示,使其能夠捕捉更豐富的信息。如表4所示,相較于index1,在Occluded-Duke數(shù)據(jù)集上mAP和Rank-1分別提高了4百分點(diǎn)和2.4百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,多尺度降噪自編碼器在處理復(fù)雜數(shù)據(jù)庫(kù)時(shí),將噪聲引入到輸人數(shù)據(jù),并從帶噪聲的輸入數(shù)據(jù)中重構(gòu)出多尺度的原始無(wú)噪數(shù)據(jù)。該模塊有效增強(qiáng)了網(wǎng)絡(luò)提取和恢復(fù)被遮擋圖像特征的能力。
本文還對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn),研究漸進(jìn)式隨機(jī)遮擋模塊和多尺度降噪自編碼器對(duì)性能的影響,如表4所示。漸進(jìn)式隨機(jī)遮擋模塊和多尺度降噪自編碼器的加入能夠使模型性能顯著提升,相較于index1,Rank-1提升了4.8百分點(diǎn),mAP提升了5.1百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,MDAE-HG結(jié)合兩個(gè)模塊相比于單一模塊有明顯的性能提升,更好地學(xué)習(xí)到判別性的特征信息。
3.6 可視化實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證本文方法的有效性,對(duì)不同遮擋情況進(jìn)行可視化分析。具體地,在數(shù)據(jù)集Partial-ReID中選出5幅圖像,分別包括遮擋角度變化及遮擋物變化等行人重識(shí)別中常見(jiàn)問(wèn)題,期望觀察到MDAE-HG關(guān)注人體多個(gè)不同部位。MDAE-HG在HG基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)在多個(gè)尺度上重構(gòu)非遮擋圖像來(lái)學(xué)習(xí)更豐富的特征,相關(guān)可視化特征如圖7所示。圖中可以觀察到,在處理不同角度的遮擋及遮擋物變化時(shí),相較于HG,MDAE-HG提取的特征圖響應(yīng)區(qū)域更精確,能夠覆蓋到如行人頭部、手臂、衣服和褲子等更多細(xì)節(jié)特征。
3.7跨數(shù)據(jù)集測(cè)試
訓(xùn)練好的ReID模型需要部署到新場(chǎng)景中,但新場(chǎng)景是沒(méi)有標(biāo)簽訓(xùn)練的,因此ReID方法的泛化能力成為部署到真實(shí)場(chǎng)景時(shí)的關(guān)鍵因素。為了評(píng)估MDAE-HG的泛化能力,本文進(jìn)行了跨數(shù)據(jù)集評(píng)估,即在一個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練,在另一個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試。如表5所示,與HG相比,三個(gè)跨數(shù)據(jù)集的性能指標(biāo)都有上升,并且和CSGAN相比也有所提升,結(jié)果表明,MDAE-HG與HG相比能更有效地提高模型的泛化能力。
4結(jié)束語(yǔ)
行人重識(shí)別問(wèn)題是一項(xiàng)應(yīng)用背景強(qiáng)且具有挑戰(zhàn)性的領(lǐng)域。本文給出了一種基于多尺度降噪自編碼器的行人重識(shí)別方法處理遮擋。該方法利用多尺度降噪自編碼器重構(gòu)遮擋圖像,從而恢復(fù)更詳細(xì)的特征信息。此外,采用了漸進(jìn)隨機(jī)遮擋模塊來(lái)模擬真實(shí)的遮擋數(shù)據(jù),有效地緩解遮擋數(shù)據(jù)集不足的限制。a)實(shí)驗(yàn)證明,本文方法可以顯著提升行人識(shí)別的準(zhǔn)確率,在Occluded-DukeMTMC、Occluded-ReID、Partial-ReID、Market1501、DukeMTMC-ReID、MSMT17數(shù)據(jù)集上,Rank-1分別達(dá)到了
66.2% 83.5% 69.7% 95.7% .89.0% 和 79.8% ,充分證明了有效性。b)在四個(gè)數(shù)據(jù)集上分別進(jìn)行了跨域驗(yàn)證,在跨域數(shù)據(jù)集DukeMTMC-ReID、Market1501、Marketl501、Occluded-ReID和DukeMTMC-ReID、Occluded-Duke上mAP分別達(dá)到 31.2% 、73.6% 和 51.1% 。本文方法雖然在提高識(shí)別精度和跨數(shù)據(jù)集的應(yīng)用上有一定的效果,但還有進(jìn)一步的提升空間,如何提高降噪自編碼器的性能和泛化能力,將其應(yīng)用于更復(fù)雜的問(wèn)題中,仍是需要研究和探索的問(wèn)題。此外,弱光壞境和遮擋的行人重識(shí)別也是當(dāng)前研究熱點(diǎn),但這兩方面的研究都是獨(dú)立的,后續(xù)的工作將研究在光照條件差的情況下行人被遮擋等問(wèn)題,從而使其能夠方便部署在實(shí)際生活中,以達(dá)到更好的效果。
參考文獻(xiàn):
[1]Zhuo Jiaxuan,Chen Zeyu,Lai Jianhuang,etal.Occluded personreidentification[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2O18:1-6.
[2]Luo Hao,JiangWei,F(xiàn)an Xing,et al. STNReID:deep convolutional networkswith pairwise spatial Transformer networks for partial person re-identification[J]. IEEE Trans on Multimedia,2020,22(11): 2905-2913.
[3]Zhong Zhun,Zheng Liang,Kang Guoliang,et al. Random erasing data augmentation[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2020:13001-13008.
[4] Gong Shaogang,Xiang Tao.Person re-identification[M]//Visual Analysisof Behaviour.Berlin:Springer,2011:301-313.
[5]Wang Tao,Liu Hong,Song Pinhao,et al.Pose-guided feature disentangling for occluded person re-identification based on Transformer [C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto, CA:AAAI Press,2022:2540-2549.
[6] YangJinrui,ZhangJiawei,YuFufu,et al.Learning toknowwhere to see:avisibility-aware approach for occludedperson re-identification [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021:11865-11874.
[7]SomersV,De Vleschouwer C,Alahi A.Bodypart-based representationlearningfor occluded person re-identification[C]//Procof IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ:IEEE Press,2023 :1613-1623.
[8]Miao Jiaxu,Wu Yu,Liu Ping,et al.Pose-guided feature alignment for occluded person re-identification[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2019:542-551.
[9]Gao Shang,Wang Jingya,Lu Huchuan,et al.Pose-guided visible part matching for occluded person ReID[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEEPress,2020:11741-11749.
[10]Wang Guan’an,Yang Shuo,Liu Huanyu,et al. High-order information matters: learning_relation and topology for occluded person reidentification[C]//Proc of IEEE/CVF Conference onComputer Visionand Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 6448-6457.
[11]Wang Yanqi,Sun Yanguo,Lan Zhenping,et al. Occluded person reidentification by multi-granularity generationadversarial network[J]. IEEE Access,2023,11:59612-59620.
[12]楊婉香,嚴(yán)嚴(yán),陳思,等.基于多尺度生成對(duì)抗網(wǎng)絡(luò)的遮擋行人重 識(shí)別方法[J].軟件學(xué)報(bào),2020,31(7):1943-1958.(YangWanxiang,Yan Yan,Chen Si,et al.Multi-scale generativeadversarial network for person re-identification under occlusion[J].Journal of Software,2020,31(7):1943-1958.)
[13]Zhao Yunbin,Zhu Songhao.Occluded pedestrianre-identification via Res-ViTdouble-branchhybrid network[J].Multimedia Systems, 2024,30(1) :5.
[14]Gao Liying,Jiao Bingliang,Long Yuzhou,et al. Contrastive pedestrian attentive and correlation learning network for occluded person reidentification[J].IEEETranson Circuitsand Systems forVideo Technology,2024,34(9) :8862-8880.
[15]KiranM,PraveenRG,Nguyen-MeidineLT,etal.Holisticguidance foroccluded person re-identification[C]//Proc of British Machine VisionConference.2024.
[16]黃盼,朱松豪,梁志偉.三重注意力特征聚合的跨模態(tài)行人再識(shí)別 [J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2021,41(5):101-112. (Huang Pan,Zhu Songhao,Liang Zhiwei.Cross-modality person reidentification with triple-attentional feature aggregation[J]. Journal of Nanjing University of Postsand Telecommunications:Natural Science Edition,2021,41(5) :101-112.)
[17]Li Fei,F(xiàn)an Shiwei,Chen Pengzhen,et al.Pedestrian motion stateestimation from 2Dpose[C]//Procof IEEE Inteligent Vehicles Sympsium.Piscataway,NJ:IEEEPress,2020:1682-1687.
[18] Zheng Zhedong,Yang Xiaodong,Yu Zhiding,et al. Joint discriminative andgenerativelearning forperson re-identification[C]//Procof IEEE/CVF Conference on Computer Vision and Patern Recognition. Piscataway,NJ:IEEEPress,2019:2133-2142.
[19]Li Yulin, He Jianfeng,Zhang Tianzhu,et al. Diverse part discovery: occluded person re-identification with part-aware transformer[C]// Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition. Piscataway,NJ:IEEE Press,2021:2897-2906.
[20]Huang Houjing,Li Dangwei,Zhang Zhang,et al. Adversarially occluded samples for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2018:5098-5107.
[21]Hinton G,Vinyals O,Dean J. Distilling theknowledge in a neural network[EB/OL]. (2015-03-09). htps://arxiv.org/abs/1503.02531.
[22]Romero A,BallasN,Kahou SE,et al.FitNets:hints forthin deep nets [EB/OL].(2014-12-19).htps://arxiv.or/abs/1412.6550.
[23]Park W,KimD,LuYan,etal.Relational knowledge distillation [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ:IEEE Press,2019:3962-3971.
[24]Gu Xinqian,Ma Bingpeng,Chang Hong,et al. Temporal knowledge propagation forimage-to-videopersonre-identification[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ:IEEE Press,2019:9646-9655.
[25] Wang Fengyun, Zhang Dong,Zhang Hanwang,et al. Semantic scene completion with cleaner self[ C]//Proc of IEEE/CVF Conference on Computer VisionandPattrnRecognition.Piscataway,NJ: IEEE Press,2023:867-877.
[26] Zhang Ying,Xiang Tao,Hospedales TM,et al. Deep mutual learning [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4320-4328.
[27]VincentP,Larochelle H,Bengio Y,et al.Extracting andcomposing ro bust features with denoising autoencoders[C]//Proc of the 25th International Conference on Machine Learning. New York:ACM Press, 2008 :1096-1103.
[28]Sun Yifan,Zheng Liang,Yang Yi,et al. Beyond part models: person retrieval with refined part pooling(and a strong convolutional baseline)[C]//Proc of European Conference on Computer Vision. Cham: Springer,2018:501-518.
[29]Zhou Shuren,Wu Jie,Zhang Fan,etal.Depthoclusion perception feature analysis for person re-identification[J]. Pattern Recognition Letters,2020,138:617-623.
[30] Jia Mengxi,Cheng Xinhua,Zhai Yunpeng,et al. Matching on sets: conquer occuded person re-identification without alignment[C]// Proc of AAAI Conference on Artificial Intellgence.Palo Alto, CA: AAAI Press,2021 :1673-1681.
[31] Tan Hongchen,Liu Xiuping,Yin Baocai,et al. MHSA-Net: multihead self-attentionetwork foroccluded personre-identification[J]. IEEE Transon Neural Networksand Learning Systems,2023,34 (11) :8210-8224.
[32]Wang Guanshuo,Yuan Yufeng,Chen Xiong,et al. Learning discriminative features with multiple granularities for personre-identification [C]//Proc of the26th ACM International Conference on Multimedia. New York:ACMPress,2018:274-282.
[33]Fang Pengfei,Zhou Jieming,Roy S,et al. Bilinear attention networks for person retrieval[ C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8029-8038.
[34]Zhuang Zijie,Wei Longhui,Xie Lingxi,et al.Rethinking the distribution gap of person re-identification with camera-based batch normalization[C]//Procof European Conference on Computer Vision. Cham:Springer,2020:140-157.
[35]Gu Hongyang,Li Jianmin,F(xiàn)u Guangyuan,etal.AutoLoss-GMS: searching generalized margin-based softmax loss function for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision andPatterm Recognition.Piscataway,NJ: IEEE Press,2022: 4734-4743.
[36] Zhang Wenyuan,Zhu Li,Lu Lu. Improving the style adaptation for unsupervised cross-domain person re-identification[C]//Proc of International Joint Conferenceon Neural Networks.Piscataway,NJ: IEEE Press,2020:1-8.