張鵬,張曉林,包永堂,賁晛燁,單彩峰
1.山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,青島 266590;2.商湯智能科技有限公司,深圳 518067;3.山東大學(xué)信息科學(xué)與工程學(xué)院,青島 266237;4.山東科技大學(xué)電氣與自動(dòng)化工程學(xué)院,青島 266590
行人重識(shí)別(person re-identification,Re-ID)又稱行人再識(shí)別,是視頻監(jiān)控系統(tǒng)中一項(xiàng)重要的自動(dòng)化行人檢索技術(shù),旨在銜接目標(biāo)對(duì)象在不同監(jiān)控區(qū)域內(nèi)的運(yùn)動(dòng)軌跡,實(shí)現(xiàn)跨時(shí)間、跨地點(diǎn)和跨設(shè)備的行人跟蹤(羅浩 等,2019;Ye等,2022)。針對(duì)大規(guī)模視頻監(jiān)控系統(tǒng),行人重識(shí)別技術(shù)提高了行人檢索效率和準(zhǔn)確性,彌補(bǔ)了固定攝像頭的視覺局限,在智慧城市、監(jiān)控安全、司法偵查和疫情防控等領(lǐng)域均具有重要應(yīng)用價(jià)值。
傳統(tǒng)行人重識(shí)別(Zheng 等,2017a;姚足 等,2021;Ye 等,2022)研究主要聚焦于短時(shí)間跨度場(chǎng)景,旨在建立行人短時(shí)間內(nèi)連續(xù)穿過多個(gè)無交叉監(jiān)控區(qū)域間的身份聯(lián)系。傳統(tǒng)行人重識(shí)別面臨光照變化、攝像頭視角差異和遮擋等因素影響,是計(jì)算機(jī)視覺領(lǐng)域一項(xiàng)十分具有挑戰(zhàn)性的任務(wù)。目前,大多數(shù)關(guān)于行人重識(shí)別的研究針對(duì)傳統(tǒng)行人重識(shí)別場(chǎng)景,通過特征設(shè)計(jì)(Gray 和Tao,2008;Ma 等,2012;Liao等,2015)與特征學(xué)習(xí)(Zheng 等,2017a,2019;Li 等,2018;Aich等,2021)等方式挖掘行人外觀判別特征,取得了優(yōu)異的性能。
伴隨長(zhǎng)時(shí)間跨度行人檢索需求,換裝行人重識(shí)別,也稱長(zhǎng)時(shí)間跨度行人重識(shí)別,開始引起關(guān)注(Zhang 等,2018;Huang 等,2019)。與傳統(tǒng)行人重識(shí)別不同,換裝行人重識(shí)別針對(duì)長(zhǎng)時(shí)間跨度場(chǎng)景,如圖1所示,目的是建立目標(biāo)行人長(zhǎng)時(shí)間跨度下在視頻監(jiān)控下的身份聯(lián)系。
圖1 行人重識(shí)別應(yīng)用場(chǎng)景示意圖Fig.1 An illustration of person Re-ID application scenarios
在長(zhǎng)時(shí)間跨度場(chǎng)景下,目標(biāo)行人通常會(huì)更換著裝,導(dǎo)致行人外觀特征身份判別性降低,造成傳統(tǒng)行人重識(shí)別方法在換裝場(chǎng)景下性能嚴(yán)重下降。圖2 展示了傳統(tǒng)方法在短時(shí)間跨度數(shù)據(jù)集MARS(motion analysis and re-identification set)(Zheng 等,2018)和換裝數(shù)據(jù)集CVID-ReID(cloth-varing video Re-ID)(Zhang等,2021)上的性能比較。
圖2 傳統(tǒng)方法在短時(shí)間跨度數(shù)據(jù)集MARS和換裝數(shù)據(jù)集CVID-ReID上的性能比較Fig.2 Comparison of performance between traditional methods on short-term dataset MARS and long-term cloth-changing dataset CVID-ReID
值得注意的是,步態(tài)識(shí)別也是一類不依賴于行人著裝特征的遠(yuǎn)距離行人身份識(shí)別技術(shù),步態(tài)特征常用于解決行人重識(shí)別問題(Jin 等,2022)。不同的是,步態(tài)識(shí)別主要面向固定場(chǎng)景下身份識(shí)別問題,而換裝行人重識(shí)別是一種更加廣義的面向開放場(chǎng)景的跨場(chǎng)景跨時(shí)間行人檢索技術(shù)(Wang 等,2003;Zhang等,2021)。換裝行人重識(shí)別通常從RGB 圖像中提取鑒別信息,除步態(tài)特征以外,行人幾何特征(Chen等,2021)、頭部特征(Shi 等,2022)和屬性特征(Zheng等,2019)等均具有十分重要的作用。
目前,換裝行人重識(shí)別研究處于起步階段,涌現(xiàn)出大量解決方案,相關(guān)研究技術(shù)路線總結(jié)如圖3 所示。針對(duì)換裝行人重識(shí)別的研究可以歸納為基于非視覺傳感器的方法和基于視覺相機(jī)的方法。基于非視覺傳感器的方法從行人數(shù)據(jù)采集方式入手,借助深度傳感器(Barbosa 等,2012;Munaro 等,2014a,b;Haque 等,2016)或射頻裝置(Fan 等,2020)等信號(hào)采集設(shè)備獲取著裝影響較小的特征。然而這些設(shè)備在實(shí)際監(jiān)控系統(tǒng)中很少部署,難以大規(guī)模應(yīng)用和推廣。因此,基于視覺相機(jī)的方法近年來引起大量研究者興趣(Gou 等,2016;Zhang 等,2018;Qian 等,2020;Chen 等,2021;Lee 等,2021;Eom 等,2022;Gu 等,2022;Jin等,2022)。該方法可以直接借助現(xiàn)有視頻監(jiān)控?cái)z像頭獲取RGB圖像或視頻數(shù)據(jù),從圖像或視頻中顯式或隱式地學(xué)習(xí)行人體形、輪廓、步態(tài)和屬性等著裝無關(guān)身份判別特征。根據(jù)特征獲取方式,基于視覺相機(jī)的方法可以分為基于顯式特征設(shè)計(jì)或?qū)W習(xí)的方法、基于特征解耦的方法和基于隱式數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)學(xué)習(xí)的方法?;陲@式特征設(shè)計(jì)或?qū)W習(xí)的方法旨在手工設(shè)計(jì)或顯式學(xué)習(xí)行人著裝無關(guān)特征,例如步態(tài)/運(yùn)動(dòng)信息(Gou 等,2016;Zhang 等,2018,2021;Jin 等,2022)、人臉(Xue 等,2018;Wan 等,2020;Shi 等,2022)、輪廓(Yang 等,2021)和體形(Hong 等,2021;Li等,2021;Chen等,2022)?;谔卣鹘怦畹姆椒ㄍㄟ^解耦圖像特征分離出與著裝無關(guān)的身份判別特征(Qian等,2020;Eom等,2022;Yu等,2021)?;陔[式數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)學(xué)習(xí)的方法通過深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)行人著裝情況,從數(shù)據(jù)中隱式學(xué)習(xí)著裝無關(guān)特征(Huang等,2020,2021;Shu等,2021;Jia等,2022)。
圖3 換裝行人重識(shí)別研究技術(shù)路線總結(jié)Fig.3 A summary of research routline for cloth-changing person re-identification
本文梳理2012 年以來?yè)Q裝行人重識(shí)別相關(guān)研究,重點(diǎn)圍繞換裝行人重識(shí)別關(guān)鍵技術(shù)、數(shù)據(jù)集與評(píng)估方式,綜述國(guó)內(nèi)外研究現(xiàn)狀,探討換裝行人重識(shí)別面臨的主要挑戰(zhàn)和難點(diǎn),并展望未來的發(fā)展趨勢(shì)。
換裝行人重識(shí)別的根本問題是提取對(duì)著裝、視角和光照等因素具有魯棒性的身份判別特征進(jìn)行相似性度量。作為廣義行人重識(shí)別(Zajdel 等,2005)的一個(gè)子問題,換裝行人重識(shí)別最早在2012 年引起關(guān)注,經(jīng)歷了由依賴深度傳感器到普通視覺相機(jī),由手工設(shè)計(jì)特征到數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)特征,由監(jiān)督學(xué)習(xí)到無監(jiān)督學(xué)習(xí)的發(fā)展歷程,部分關(guān)鍵技術(shù)及時(shí)間節(jié)點(diǎn)如圖4所示。
圖4 換裝行人重識(shí)別發(fā)展重要事件Fig.4 Milestones of the long-term person Re-ID
2012年,Barbosa 等人(2012)提出使用深度傳感器重建人體3D模型,通過身體測(cè)量挖掘提取軟生物特征進(jìn)行相似性度量。由于深度傳感器良好的3D人體重建效果,基于深度傳感器的方法在一段時(shí)間內(nèi)被廣泛采納。然而,深度傳感器在實(shí)際監(jiān)控系統(tǒng)中很少部署,難以大規(guī)模推廣和應(yīng)用。
2016 年,Gou 等人(2016)提出基于普通視覺相機(jī)的解決方案,通過編碼行人運(yùn)動(dòng)軌跡提取行人步態(tài)和運(yùn)動(dòng)模式等軟生物特征進(jìn)行相似性度量。借助度量學(xué)習(xí)理論,Gou 等人(2016)方法的性能證明了基于普通視覺相機(jī)方法的潛力。隨著深度學(xué)習(xí)在傳統(tǒng)行人重識(shí)別上的成功(Li 等,2014;Ahmed 等,2015;Cheng 等,2016;Zheng 等,2017b;Li 等,2018;Sun 等,2018;Zheng 等,2019),Huang 等人(2019,2020)提出Celeb-ReID數(shù)據(jù)集,并使用端到端的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行自適應(yīng)特征學(xué)習(xí),借助簡(jiǎn)單的距離度量(歐氏距離或余弦距離)便可實(shí)現(xiàn)良好的性能,為深度學(xué)習(xí)在換裝行人重識(shí)別上的應(yīng)用打下了基礎(chǔ)。
隨后,Qian 等人(2020)嘗試將特征解耦引入深度卷積網(wǎng)絡(luò),為換裝行人重識(shí)別提供了新思路。Yu等人(2020)提出COCAS(clothes changing person set)大規(guī)模換裝行人數(shù)據(jù)集,為訓(xùn)練大規(guī)模深度神經(jīng)網(wǎng)絡(luò)提供了數(shù)據(jù)支撐。Fan 等人(2020)提出使用射頻信號(hào)弱化行人換裝問題,開辟了換裝行人重識(shí)別新方向。Zhang 等人(2021)提出從視頻中學(xué)習(xí)時(shí)空特征,提供了基于視頻序列的換裝行人重識(shí)別新思路。Li等人(2022a)提出無監(jiān)督換裝行人重識(shí)別,不需要額外的行人標(biāo)注信息,對(duì)工業(yè)界實(shí)際應(yīng)用具有重要的研究意義。
隨著計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,傳統(tǒng)行人重識(shí)別研究日趨成熟。作為行人重識(shí)別的一個(gè)子問題,換裝行人重識(shí)別研究呈現(xiàn)多領(lǐng)域結(jié)合趨勢(shì),近幾年涌現(xiàn)出大量大規(guī)模數(shù)據(jù)集和研究方法,換裝行人重識(shí)別研究進(jìn)入了一個(gè)新的階段。
換裝行人重識(shí)別是一個(gè)新興問題,其快速發(fā)展離不開數(shù)據(jù)集。尤其伴隨深度學(xué)習(xí)技術(shù)的發(fā)展,涌現(xiàn)出大量大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集的獲取方式、場(chǎng)景、行人個(gè)數(shù)和樣本數(shù)量等特點(diǎn)各異,促進(jìn)了該領(lǐng)域的蓬勃發(fā)展。根據(jù)數(shù)據(jù)集的獲取方式和組成形式,這些數(shù)據(jù)集可以分為RGBD 數(shù)據(jù)集、射頻數(shù)據(jù)集、圖像數(shù)據(jù)集和視頻數(shù)據(jù)集。
2.1.1 RGBD數(shù)據(jù)集
早期研究中,廣泛采用基于深度傳感器的方法,提出了PAVIS(pattern analysis and computer vision)(Barbosa 等,2012)、BIWI(Munaro 等,2014a)、IASLab(intelligent autonomous systems laboratory)(Munaro 等,2014a)和DPI-T(depth-based person identification from top)(Haque 等,2016)等RGBD 行 人 數(shù)據(jù)集。
1)PAVIS 數(shù)據(jù)集是最早的一個(gè)換裝行人數(shù)據(jù)集,深度信息來源于1 個(gè)Kinect 深度傳感器。該數(shù)據(jù)集共包含79 個(gè)人,每個(gè)人包括Cooperative、Walking1、Walking2和Backwards等4組拍攝場(chǎng)景,共316個(gè)行人序列,1 580 幅RGBD 圖像。該數(shù)據(jù)庫(kù)為基于深度傳感器的行人重識(shí)別方法奠定了基礎(chǔ)。
2)BIWI 數(shù)據(jù)集和IAS-Lab 數(shù)據(jù)集同樣使用1 個(gè)Kinect 深度相機(jī)在實(shí)驗(yàn)室內(nèi)采集行人行走視頻序列。BIWI 訓(xùn)練集包含50 個(gè)人的Kinect SDK 同步的RGB 圖像、深度圖像、分割圖和骨架數(shù)據(jù),共50個(gè)序列,測(cè)試集包含訓(xùn)練集中的28 個(gè)人Still 和Walking兩種狀態(tài)的56 個(gè)序列。測(cè)試序列與訓(xùn)練序列采集于不同日期、不同位置,包含了著裝更換情況。為了準(zhǔn)確估計(jì)非正面行人骨架,IAS-Lab 數(shù)據(jù)集采用OpenNI(open natural interaction)和NITE(natural interaction engine)采集了11個(gè)人的33段序列。
3)DPI-T 數(shù)據(jù)集包含12 個(gè)人的655 個(gè)RGBD 視頻序列,其中訓(xùn)練集300個(gè)序列,測(cè)試集355個(gè)序列,平均每個(gè)人包含5 類著裝。另外,該數(shù)據(jù)集考慮了俯視視角、非受控環(huán)境等影響因素。
2.1.2 射頻數(shù)據(jù)集
射頻信號(hào)(radio frequency,RF)能夠穿透衣服反射行人的體形和輪廓等信息,且保密性強(qiáng),不易泄露生物特征信息,最近被用于換裝行人重識(shí)別。美國(guó)麻省理工大學(xué)提出唯一一個(gè)射頻換裝行人重識(shí)別數(shù)據(jù)集,包含兩個(gè)子集RRD-Campus(RF reidentification dataset-campus)和RRD-Home(Fan 等,2020)。RRD-Campus 數(shù)據(jù)集包含100 個(gè)人的863 段視頻與射頻同步序列,通過對(duì)應(yīng)視頻序列輔助標(biāo)注射頻序列行人身份(identity,ID)。這些射頻序列由5 個(gè)安裝在校園中不同位置的射頻裝置采集,其對(duì)應(yīng)視頻序列由安裝在相同位置的RGB 視覺相機(jī)拍攝,拍攝時(shí)間為15 天。RRD-Home 數(shù)據(jù)集包含38 個(gè)人的6 305 條射頻序列。這些射頻序列由安裝在19 個(gè)家庭中的射頻裝置采集獲得,采集時(shí)間為127天,包含豐富的著裝變化情況。另外,與RRDCampus 不同,RRD-Home 利用穿戴式加速器輔助射頻序列中行人標(biāo)注。然而,在實(shí)際監(jiān)控系統(tǒng)中,射頻裝置很少部署應(yīng)用。
2.1.3 RGB圖像數(shù)據(jù)集
RGB 行人圖像易于獲取,且可以充分利用現(xiàn)有的視頻監(jiān)控系統(tǒng),廣泛應(yīng)用于行人重識(shí)別研究。目前,大多數(shù)換裝行人重識(shí)別研究也針對(duì)行人RGB 圖像數(shù)據(jù)集。例如,Celeb-ReID(Huang 等,2020)、PRCC(person Re-ID under moderate clothing change)(Yang 等,2021)、VC-Clothes(virtually changingclothes)(Wan 等,2020)、Real28(Wan 等,2020)、LTCC(long-term cloth-changing)(Qian 等,2020)、COCAS(clothes changing person set)(Yu 等,2020)、NKUP(Wang 等,2020)、LaST(large-scale spatiotemporal)(Shu 等,2022)和DeepChange(Xu 和Zhu,2022)等。
1)Celeb-ReID 是首個(gè)大規(guī)模換裝行人重識(shí)別圖像數(shù)據(jù)集。該數(shù)據(jù)集通過爬取網(wǎng)絡(luò)中的名人圖像,共采集1 052 個(gè)名人的34 186 幅圖像,使用Mask R-CNN(mask region-based convolutional neural network)(He 等,2017)檢測(cè)行人區(qū)域,并將其尺寸調(diào)整為256 × 128 像素。由于圖像爬取于社交分享平臺(tái),時(shí)間跨度大,每個(gè)名人平均超過70%的圖像穿著不同的服裝。該數(shù)據(jù)集促進(jìn)了深度神經(jīng)網(wǎng)絡(luò)在換裝行人重識(shí)別中的應(yīng)用。
2)PRCC 數(shù)據(jù)集是中山大學(xué)采集的一個(gè)室內(nèi)數(shù)據(jù)集,包含221 個(gè)人的33 698 幅圖像,平均每個(gè)人152 幅圖像。該數(shù)據(jù)集由3 個(gè)不同位置的RGB 視覺攝像頭拍攝,其中,兩個(gè)攝像頭下同一行人穿著相同服裝,另一攝像頭下穿著不同服裝。實(shí)驗(yàn)中,訓(xùn)練集包含150 個(gè)人,測(cè)試集包含另外71 個(gè)人。該數(shù)據(jù)集不僅考慮了光照、遮擋和視角等因素,還包含了適度變裝情形。
3)VC-Clothes 是 一 個(gè) 使 用GTA5(grand theft auto v)渲染的虛擬合成數(shù)據(jù)集,共包含4 種場(chǎng)景下512 個(gè)人的19 060 幅圖像,其中256 個(gè)人的9 449 幅圖像用于訓(xùn)練,剩余256 個(gè)人的8 591 幅圖像用于注冊(cè),1 020幅圖像用于測(cè)試。該數(shù)據(jù)集同時(shí)涉及室內(nèi)和室外場(chǎng)景,且每個(gè)人包含1~3 套不同的服裝,增加了數(shù)據(jù)集的難度。
4)Real28 是一個(gè)真實(shí)場(chǎng)景換裝行人數(shù)據(jù)集,覆蓋室內(nèi)、室外的4 種不同場(chǎng)景。該數(shù)據(jù)集采集于不同的3天,包含28個(gè)人的4 324幅圖像。該數(shù)據(jù)集規(guī)模較小,難以訓(xùn)練復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,通常僅用于測(cè)試階段。
5)LTCC 是復(fù)旦大學(xué)和英國(guó)薩里大學(xué)采集的大規(guī)模室內(nèi)換裝行人重識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集采集時(shí)間歷時(shí)2 個(gè)月,圖像來自于辦公樓內(nèi)的12 個(gè)監(jiān)控?cái)z像頭,包括152 個(gè)人的17 138 幅圖像。根據(jù)是否更換著裝,該數(shù)據(jù)集劃分為換裝數(shù)據(jù)集和非換裝數(shù)據(jù)集兩個(gè)子集。換裝數(shù)據(jù)集包含91 個(gè)人的14 756 幅圖像,涉及417 類著裝,其中每個(gè)人著裝類型包括2~14種;非換裝數(shù)據(jù)集包含剩余61個(gè)人的2 382幅圖像。該數(shù)據(jù)庫(kù)采集于真實(shí)監(jiān)控環(huán)境,是目前涵蓋相機(jī)數(shù)最多的室內(nèi)換裝行人重識(shí)別數(shù)據(jù)集。
6)NKUP 采集于南開大學(xué)校園,覆蓋室內(nèi)、室外15 種場(chǎng)景。該數(shù)據(jù)集采集時(shí)間歷時(shí)3 個(gè)月,使用YoloV3(you only look once version 3)(Redmon 和Farhadi,2018)進(jìn)行行人檢測(cè),KCF(kernelized correlation filters)(Henriques 等,2015)進(jìn)行行人跟蹤,共采集107個(gè)人的9 738幅圖像,其中79個(gè)人的圖像中包含多種著裝情況,訓(xùn)練集中平均每人包含2.2 種著裝,測(cè)試集中平均每人包含2.6種著裝。
7)COCAS 是目前涵蓋最多行人的真實(shí)場(chǎng)景換裝行人重識(shí)別數(shù)據(jù)集,并采用人工方式標(biāo)注行人圖像。該數(shù)據(jù)集采集于4 個(gè)不同的日期,采用30 個(gè)RGB 攝像頭,共采集5 266 個(gè)人的62 382 幅圖像,其中每個(gè)人包含2~3 種不同著裝,每種著裝下拍攝2~5幅圖像,2 800個(gè)人的圖像用于訓(xùn)練,剩余2 466個(gè)人的圖像用于測(cè)試。截止2022 年,在真實(shí)監(jiān)控場(chǎng)景設(shè)置下,該數(shù)據(jù)集覆蓋最多監(jiān)控區(qū)域,涉及最多行人ID數(shù)量
8)LaST 數(shù)據(jù)集來源于電影視頻,是目前最大規(guī)模的換裝行人重識(shí)別數(shù)據(jù)集,包含10 862 個(gè)人的228 156幅圖像。該數(shù)據(jù)集涵蓋大量變化的場(chǎng)景,例如,河邊、山中、公園以及室內(nèi)等,包含豐富的時(shí)間、天氣和著裝變化,其中76%的行人發(fā)生著裝更換,每個(gè)人最多有24 種著裝。另外,該數(shù)據(jù)集是首個(gè)提供著裝類型標(biāo)注的行人重識(shí)別數(shù)據(jù)集。
9)DeepChange 是目前包含最多圖像的真實(shí)監(jiān)控場(chǎng)景下?lián)Q裝行人重識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集采用17 個(gè)監(jiān)控?cái)z像頭進(jìn)行數(shù)據(jù)采集,采用Faster R-CNN(Ren 等,2017)檢測(cè)行人,共 標(biāo)注1 121 個(gè)人的178 407幅圖像,其中,450個(gè)人的75 083幅圖像用于訓(xùn)練,150 個(gè)人的22 841 像圖像用于驗(yàn)證,521 個(gè)人的80 483幅圖像用于測(cè)試。該數(shù)據(jù)集采集時(shí)間長(zhǎng)達(dá)一年,包含不同日期、月份、季節(jié)和年份的行人圖像,覆蓋大量行人換裝數(shù)據(jù),是目前覆蓋時(shí)間范圍最廣的真實(shí)監(jiān)控場(chǎng)景下?lián)Q裝行人重識(shí)別數(shù)據(jù)集。
2.1.4 RGB視頻數(shù)據(jù)集
監(jiān)控視頻數(shù)據(jù)包含豐富的時(shí)空信息,對(duì)遮擋魯棒性強(qiáng),廣泛應(yīng)用于行人重識(shí)別研究。然而,在長(zhǎng)時(shí)間跨度場(chǎng)景下,RGB 視頻數(shù)據(jù)較圖像數(shù)據(jù)更加難以標(biāo)注。因此,目前RGB 數(shù)據(jù)集通常規(guī)模較小,例如TSD(train station dataset)(Gou 等,2016)、Motion-ReID(Zhang 等,2018)和CVID-ReID(cloth-varying video Re-ID)(Zhang等,2021)。
1)TSD 視頻數(shù)據(jù)集采集于美國(guó)的一個(gè)公共火車站,該數(shù)據(jù)集包含1臺(tái)高清相機(jī)采集的9個(gè)人的長(zhǎng)度為41~451 幀的81 條序列,其中,每個(gè)人的3 條序列與其他序列穿著不同服裝,且行人尺寸調(diào)整為64 ×128像素。
2)Motion-ReID 數(shù)據(jù)集由澳大利亞悉尼科技大學(xué)采集,該數(shù)據(jù)集包含2 臺(tái)監(jiān)控?cái)z像機(jī)拍攝的30 個(gè)人的240條室內(nèi)視頻序列,每個(gè)行人都穿著2套服裝在攝像頭前按照不同的方向走過,共形成8 個(gè)子集。與TSD 不同,該數(shù)據(jù)集包含原始視頻數(shù)據(jù)和標(biāo)注信息。
3)CVID-ReID 是一個(gè)網(wǎng)絡(luò)視頻數(shù)據(jù)集,該數(shù)據(jù)集包含從視頻社交媒體上爬取的90 個(gè)人的2 980 段視頻序列。由于這些視頻來源于不同的網(wǎng)站,每個(gè)人至少包含5 套不同的著裝,是目前包含著裝類型最多、規(guī)模最大的視頻換裝行人重識(shí)別數(shù)據(jù)集。
以上數(shù)據(jù)集的細(xì)節(jié)與比較如表1 所示。其中,MT(moderate-term)表示適度時(shí)間跨度,LT(longterm)表示長(zhǎng)時(shí)間跨度。大部分?jǐn)?shù)據(jù)庫(kù)時(shí)間跨度為幾天,包含部分適度換裝。隨著深度學(xué)習(xí)在行人重識(shí)別領(lǐng)域的廣泛應(yīng)用,換裝行人重識(shí)別數(shù)據(jù)集的規(guī)模也在不斷擴(kuò)大,圖5 展示了幾個(gè)典型換裝行人重識(shí)別數(shù)據(jù)庫(kù)的示例,覆蓋場(chǎng)景由單一簡(jiǎn)單室內(nèi)場(chǎng)景到多個(gè)復(fù)雜場(chǎng)景,時(shí)間跨度由幾天到幾個(gè)月,數(shù)據(jù)量規(guī)模由幾百到幾十萬,一定程度上彌補(bǔ)了早期研究中缺乏數(shù)據(jù)的問題,但仍然存在不足。1)數(shù)據(jù)量問題。換裝行人重識(shí)別數(shù)據(jù)采集和標(biāo)注相對(duì)困難,經(jīng)歷時(shí)間更長(zhǎng)久,數(shù)據(jù)規(guī)模遠(yuǎn)小于人臉識(shí)別、圖像分類等經(jīng)典計(jì)算機(jī)視覺問題。過少的訓(xùn)練數(shù)據(jù)易導(dǎo)致過擬合問題,難以學(xué)習(xí)出有效的判別模式。2)時(shí)間跨度問題?,F(xiàn)存數(shù)據(jù)集大多在幾天內(nèi)采集完成,且一天內(nèi)采集時(shí)間較短,難以覆蓋光照變化、天氣變化、季節(jié)變化和背景變化等復(fù)雜情況。DeepChange 數(shù)據(jù)集將采集時(shí)間延長(zhǎng)到1 年,充分考慮了這些變化給行人重識(shí)別帶來的影響。然而DeepChange 數(shù)據(jù)集中同一行人包含的著裝數(shù)量依然有限,難以滿足模型學(xué)習(xí)潛在身份特征的需求。3)換裝數(shù)量問題。在真實(shí)場(chǎng)景下,行人在同一季節(jié)通常由幾套服裝進(jìn)行互相搭配,在不同季節(jié)或年份,著裝種類會(huì)進(jìn)行更替。但是,現(xiàn)存數(shù)據(jù)集每個(gè)行人通常僅包含少量的著裝搭配,難以滿足長(zhǎng)時(shí)間跨度下行人重識(shí)別任務(wù)需求。4)遮擋、視角問題。遮擋與視角問題是行人重識(shí)別任務(wù)中最重要的挑戰(zhàn)和難點(diǎn)。RGB 圖像數(shù)據(jù)更易受到這兩個(gè)因素的影響,導(dǎo)致模型難以學(xué)習(xí)到有效的判別特征。視頻數(shù)據(jù)在一定程度上可以彌補(bǔ)這些缺點(diǎn),然而,當(dāng)前視頻數(shù)據(jù)集如TSD、Motion-ReID、CVID-ReID等規(guī)模較小,且尚未公開使用。
表1 現(xiàn)存換裝行人重識(shí)別數(shù)據(jù)集比較Table 1 Comparison of the existing cloth-changing person Re-ID datasets
圖5 典型換裝行人數(shù)據(jù)庫(kù)樣本示例Fig.5 Examples of typical cloth-changing datasets
與傳統(tǒng)行人重識(shí)別相同,換裝行人重識(shí)別的性能評(píng)估標(biāo)準(zhǔn)主要包括累計(jì)匹配(cumulative match characteristics,CMC)曲線和平均精度均值(mean average accuracy,mAP)。
給定查詢集G和注冊(cè)集Q,行人重識(shí)別任務(wù)根據(jù)查詢樣本qi與注冊(cè)集中候選樣本gj之間的相似度排序,使用CMC曲線計(jì)算Rank-K命中率,具體為
式中,ki表示第i個(gè)行人的第k個(gè)匹配結(jié)果,如果前K個(gè)樣本中有匹配結(jié)果,則為1,否則為0。K= 1 表示首位預(yù)測(cè)準(zhǔn)確。在實(shí)際行人重識(shí)別應(yīng)用場(chǎng)景中,K通常取5,10,20,返回相似度排序靠前的多個(gè)檢索結(jié)果供人工判斷,提供準(zhǔn)確性。
平均精度反映了查準(zhǔn)率(P)與查全率(R)之間的全局信息,通常由P-R 曲線與坐標(biāo)軸之間的面積來表示,即
除此以外,平均逆負(fù)懲罰(mean inverse negative penalty,mINP)(Ye等,2022)也用于評(píng)估行人重識(shí)別模型性能,以克服CMC和mAP評(píng)估中簡(jiǎn)單樣本占據(jù)優(yōu)勢(shì)的問題,其定義為
式中,NPi度量第i個(gè)待查詢行人匹配到最難樣本的懲罰,定義為
針對(duì)換裝行人重識(shí)別,Huang 等人(2020)定義了魯棒性值衡量模型對(duì)傳統(tǒng)行人重識(shí)別和換裝行人重識(shí)別間的有效性,定義為
式中,scL(P)和scS(P)分別表示換裝行人重識(shí)別和傳統(tǒng)行人重識(shí)別場(chǎng)景下的準(zhǔn)確率,P∈{mAP,CMC(K)}表示不同的評(píng)價(jià)指標(biāo)。
本節(jié)介紹了換裝重識(shí)別的數(shù)據(jù)集和性能評(píng)估標(biāo)準(zhǔn)。目前,已有十幾個(gè)由深度傳感器、無線射頻和視頻監(jiān)控相機(jī)等設(shè)備采集的專門針對(duì)換裝行人重識(shí)別的數(shù)據(jù)集。尤其是近年提出了大量基于視覺相機(jī)的數(shù)據(jù)集,規(guī)模越來越大,考慮因素越來越詳細(xì),體現(xiàn)了這個(gè)領(lǐng)域的快速蓬勃發(fā)展。然而,現(xiàn)存數(shù)據(jù)集也存在一些缺點(diǎn):1)數(shù)據(jù)規(guī)模依舊難以支撐大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練;2)同一行人的著裝數(shù)量有限,難以體現(xiàn)實(shí)際場(chǎng)景中換裝頻率;3)數(shù)據(jù)集采集時(shí)間間隔不夠長(zhǎng),難以體現(xiàn)跨年行人身體體形的變化。
現(xiàn)有換裝行人重識(shí)別使用的關(guān)鍵技術(shù)中,根據(jù)數(shù)據(jù)采集和樣本類型,可以分為基于非視覺傳感器的方法和基于視覺相機(jī)的方法?;诜且曈X相機(jī)的方法利用深度相機(jī)或射頻裝置采集行人信息,從深度圖或射頻信號(hào)中提取行人輪廓、體形等判別信息?;谝曈X相機(jī)的方法采用視覺監(jiān)控相機(jī)采集RGB圖像或視頻,從圖像/視頻中設(shè)計(jì)或?qū)W習(xí)身份判別特征?;谝曈X相機(jī)的方法又可以分為基于顯式特征構(gòu)建或?qū)W習(xí)的方法、基于特征解耦的方法和隱式數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)學(xué)習(xí)方法。
3.1.1 基于深度傳感器的方法
深度傳感器,例如Kinect、Asus Xtion Pro 等能夠快速采集深度信息,重建行人在3 維(3D)空間內(nèi)的體形結(jié)構(gòu),能在一定程度上克服模型對(duì)著裝顏色、紋理等外觀信息的依賴。因此,深度傳感器在初期廣泛應(yīng)用于換裝行人重識(shí)別。這類方法通??梢苑譃閮深?。1)通過3D 人體進(jìn)行測(cè)量提取行人軟生物特征信息;2)通過神經(jīng)網(wǎng)絡(luò)模型從深度圖像序列中學(xué)習(xí)時(shí)空信息。
3D 人體測(cè)量是常見的軟生物特征表示方法,旨在通過測(cè)量關(guān)節(jié)點(diǎn)間的距離、關(guān)節(jié)點(diǎn)與地板的距離、3D 人體關(guān)節(jié)點(diǎn)間曲面的測(cè)地線距離等描述行人的幾何結(jié)構(gòu)和體形輪廓信息,然后進(jìn)行加權(quán)距離度量。Barbosa 等人(2012)將這些特征分為基于骨架點(diǎn)的特征和基于3D人體輪廓的特征,如圖6所示。
圖6 身體測(cè)量與軟生物特征構(gòu)建(Barbosa等,2012)Fig.6 Body measurement and soft-biometric feature construction (Barbosa et al.,2012)
基于骨架點(diǎn)的特征包括:
d1:頭部到地板的歐氏距離;
d2:軀干和腿長(zhǎng)的比例;
d3:身高;
d4:脖子到地板的歐氏距離;
d5:脖子到左肩的歐氏距離;
d6:脖子到右肩的歐氏距離;
d7:軀干中心到右肩的歐氏距離。
基于3D人體輪廓的特征包括:
d8:軀干中心到左肩的測(cè)地線距離;
d9:軀干中心到左髖關(guān)節(jié)的測(cè)地線距離;
d10:軀干中心到右髖關(guān)節(jié)的測(cè)地線距離。
另外,3D 人體通常使用點(diǎn)云表示,Munaro 等人(2014a)通過點(diǎn)云對(duì)齊計(jì)算3D 人體之間的相似性,以實(shí)現(xiàn)行人重識(shí)別目的。兩個(gè)點(diǎn)云之間的相似性用適配分?jǐn)?shù)(fitness score)表示。給定兩個(gè)3D 人體點(diǎn)云P1和P2,P2相對(duì)于P1的適配分?jǐn)?shù)定義為
式中,N表示P2中云點(diǎn)的個(gè)數(shù),pi表示點(diǎn)云P2的第i個(gè)云點(diǎn),定義為
基于3D 人體測(cè)量的方法不需要使用復(fù)雜的機(jī)器學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí)和推理,易于快速部署和測(cè)試。該方法依賴高質(zhì)量3D人體數(shù)據(jù),然而,在實(shí)際應(yīng)用中身體易受寬松著裝遮擋,導(dǎo)致深度相機(jī)無法準(zhǔn)確估計(jì)3D人體結(jié)構(gòu),造成特征可靠性下降。因此,基于3D人體測(cè)量的方法常用于室內(nèi)等可控的環(huán)境。
利用神經(jīng)網(wǎng)絡(luò)模型從3D 人體行走序列數(shù)據(jù)中隱式學(xué)習(xí)具有判別性的微小特征是另外一種方法(Haque 等,2016;Zhang 等,2021)。其中,美國(guó)斯坦福大學(xué)提出的RAM(recurrent attention model)模型就是一個(gè)典型代表,如圖7所示。RAM 模型以3D 點(diǎn)云序列為輸入,包含采樣層(glimpse layer)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)編碼器(Ji 等,2013)和循環(huán)注意力單元(recurrent attention unit,RAU)(Mnih 等,2014),分別完成局部塊提取、特征壓縮與編碼和判別性特征提取。該網(wǎng)絡(luò)的核心是循環(huán)注意力單元,由長(zhǎng)短記憶單元(long shortterm memory unit,LSTM)(Hochreiter和Schmidhuber,1997)、行為網(wǎng)絡(luò)(action network)和定位網(wǎng)絡(luò)(location network)構(gòu)成。其中,行為網(wǎng)絡(luò)根據(jù)LSTM 輸出的隱態(tài)預(yù)測(cè)輸入樣本的ID標(biāo)簽,定位網(wǎng)絡(luò)根據(jù)LSTM輸出隱態(tài)的分布隨機(jī)選取下一個(gè)局部塊采樣。通過強(qiáng)化學(xué)習(xí)方式訓(xùn)練定位網(wǎng)絡(luò),不斷進(jìn)行采樣,在一定程度上克服了樣本不足的問題,同時(shí)也使網(wǎng)絡(luò)能夠更加關(guān)注3D感興趣區(qū)域,增強(qiáng)提取微小身份特征的能力,在PAVIS數(shù)據(jù)集上的Rank-1達(dá)到了41.3%。
圖7 基于行人點(diǎn)云序列的RAM模型流程圖(Haque等,2016)Fig.7 Flowchart of RAM model based on pedestrian point cloud(Haque et al.,2016)
3.1.2 基于射頻信號(hào)的方法
無線裝置發(fā)出的射頻信號(hào)能夠穿透衣服,遇到人體發(fā)生信號(hào)反射。接收裝置收到的反射信息在一定程度上反映了行人的體形信息,如圖8所示。
圖8 RGB圖像與射頻熱力圖同步采集示意圖(Fan等,2020)Fig.8 Synchronized RGB image and RF heatmaps
相對(duì)于RGB 圖像,射頻信號(hào)隱私性更好。鑒于這些優(yōu)點(diǎn),射頻信號(hào)被用于換裝行人重識(shí)別研究(Fan 等,2020)。然而,射頻信號(hào)包含的信息有限,由于射頻信號(hào)的單向反射性(Beckmann 和Spizzichino,1987),造成身體部分信號(hào)會(huì)丟失,導(dǎo)致射頻信號(hào)中身份判別信息不足。另外,射頻信號(hào)主要反映了行人在環(huán)境中的位置信息,易誤導(dǎo)機(jī)器學(xué)習(xí)模型學(xué)習(xí)到非身份信息。美國(guó)麻省理工大學(xué)的Fan 等人(2020)提出一個(gè)多任務(wù)學(xué)習(xí)框架RF-ReID(radio frequency re-identification),如圖9 所示,包含行人重識(shí)別和骨架預(yù)測(cè)兩個(gè)任務(wù)。
圖9 RF-reID多任務(wù)學(xué)習(xí)模型流程圖(Fan等,2020)Fig.9 Flowchart of RF-reID multi-task learning model(Fan et al.,2020)
為克服單幀射頻信號(hào)信息丟失問題,行人重識(shí)別網(wǎng)絡(luò)中嵌入了一個(gè)層次注意力機(jī)制聚集射頻序列中各幀包含的體形和運(yùn)動(dòng)信息。通過結(jié)合三元組損失(Hermans 等,2017)和ID(identification)身份損失(Zheng 等,2015)約束網(wǎng)絡(luò)提取身份特征信息。同時(shí),為了避免行人位置等無關(guān)環(huán)境信息的影響,引入了一個(gè)環(huán)境判別器,借助對(duì)抗訓(xùn)練削弱環(huán)境對(duì)特征學(xué)習(xí)的影響。另外,骨架預(yù)測(cè)任務(wù)作為行人重識(shí)別的一個(gè)輔助任務(wù),可輔助行人重識(shí)別網(wǎng)絡(luò)學(xué)習(xí)到行人的幾何特征和行走模式,同時(shí)避免行人重識(shí)別網(wǎng)絡(luò)陷入過擬合。
該工作證明了射頻信號(hào)在換裝重識(shí)別應(yīng)用中的有效性。然而,射頻信號(hào)易受無線信號(hào)衰減、背景環(huán)境等因素的影響,難以大規(guī)模推廣與應(yīng)用。
3.1.3 小結(jié)
本節(jié)總結(jié)了基于非視覺傳感器的換裝行人重識(shí)別關(guān)鍵技術(shù),主要包括基于深度相機(jī)的方法和基于射頻信號(hào)的方法。前者利用深度相機(jī)采集深度信息進(jìn)行3D空間內(nèi)人體重建,然后通過身體測(cè)量構(gòu)建或深度網(wǎng)絡(luò)模型學(xué)習(xí)行人判別特征;后者利用無線WI-FI(wireless fidelity)裝置發(fā)射射頻信號(hào),借助射頻信號(hào)的反射特性提取體形、步態(tài)等身份判別特征。這兩類方法在一定程度上克服了著裝外觀的影響,在相對(duì)開放環(huán)境中取得了一定效果。然而,深度相機(jī)和射頻發(fā)射—接收裝置在實(shí)際監(jiān)控系統(tǒng)中很少部署,難以大規(guī)模應(yīng)用。
由于監(jiān)控系統(tǒng)大多采用RGB 視覺相機(jī),基于視覺圖像/視頻的行人重識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中最熱門的研究任務(wù)之一。研究者提出了大量基于RGB 圖像/視頻的換裝行人重識(shí)別方法。根據(jù)特征構(gòu)建或?qū)W習(xí)方式,這些工作可以分為3 類:顯式特征構(gòu)建或?qū)W習(xí)、特征解耦和隱式數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)學(xué)習(xí)。
3.2.1 基于顯式特征構(gòu)建或?qū)W習(xí)的方法
顯式特征構(gòu)建或?qū)W習(xí)是當(dāng)前換裝行人重識(shí)別的一個(gè)重要研究方向,該類方法主要通過對(duì)行人生物特征進(jìn)行顯性描述,挖掘生物特征中潛在的身份判別信息。本節(jié)根據(jù)生物特征的類型,對(duì)這些方法進(jìn)行分類總結(jié),并通過典型論文對(duì)其原理進(jìn)行簡(jiǎn)單分析。
人臉(face)包含豐富的身份信息,是該類方法中常采用的一種生物特征信息(Xue 等,2018;Wan等,2020;Shi 等,2022;胡藍(lán)青 等,2022)。這類方法通常借助人臉檢測(cè)模型,例如MTCNN(multitask cascaded convolutional neural network)(Zhang 等,2016)和Pyramidbox(Tang 等,2018)或 人 體 解 析 模 型(Güler 等,2018)檢測(cè)出人臉,然后微調(diào)人臉識(shí)別模型(Wen等,2016)提取人臉中包含的身份判別信息。由于監(jiān)控環(huán)境下,行人圖像由攝像頭遠(yuǎn)距離采集,行人圖像的分辨率通常較低,易導(dǎo)致人臉檢測(cè)錯(cuò)誤甚至無法檢測(cè)出清晰的人臉。另一方面,由于行人行走方向和攝像頭視角的多樣性,很多情況下無法獲得高質(zhì)量的正面人臉圖像。因此,人臉特征有很大的局限性,通常無法單獨(dú)用于行人重識(shí)別研究。為了克服這個(gè)問題,如圖10 所示,現(xiàn)有方法大都采用與行人圖像全局或局部特征相結(jié)合的方式。
圖10 基于人臉的典型方法思路Fig.10 Idea of the classical face-based methods
輪廓(contour)和體形(shape)特征反映了人體的幾何結(jié)構(gòu)特點(diǎn),具有唯一性,且不易受到著裝顏色、紋理變化的影響,是另一種廣泛應(yīng)用于換裝行人重識(shí)別的生物特征(Zheng 等,2021;Yang 等,2021;Chen 等,2021,2022;Hong等,2021)。這類方法的核心是構(gòu)建輪廓模型或輪廓特征約束,從輪廓/體形中提取身份判別信息。根據(jù)輪廓的種類,這些方法可以歸納為兩類:基于2D 輪廓模型的方法和基于3D人體重建的方法。
最簡(jiǎn)單的2D 輪廓模型是步態(tài)輪廓圖(gait silhouette)(Lee 和Grimson,2002),其在步態(tài)識(shí)別任務(wù)中廣泛應(yīng)用(Wang 等,2003;Liu 和Sarkar,2004;Veres等,2004),充分證明了步態(tài)輪廓中含有身份判別信息。Hong 等人(2021)將步態(tài)輪廓圖引入換裝重識(shí)別研究,提出一個(gè)形狀—外觀交互式學(xué)習(xí)模型FSAM(fine-grained shape-apperance mutual learning)。FASM 由形狀和外觀兩個(gè)分支構(gòu)成。外觀分支由行人重識(shí)別損失函數(shù)約束,直接從RGB 圖像中學(xué)習(xí)著裝無關(guān)特征,而形狀分支首先通過人體解析模型(Li 等,2022b)獲得步態(tài)輪廓,然后使用行人重識(shí)別損失約束從步態(tài)輪廓中學(xué)習(xí)形狀相關(guān)特征信息。訓(xùn)練過程中,兩個(gè)分支由Kullback-Leibler 散度和稠密特征相似性約束聯(lián)系在一起,進(jìn)行交互式學(xué)習(xí),以形狀分支作為約束,對(duì)外觀分支獲得的著裝無關(guān)信息進(jìn)行補(bǔ)充,獲得兼顧“微身份”外觀信息(Zhang等,2021)和形狀信息的判別性身份特征。
與直接使用2D 輪廓圖不同,另外一種有效的思路是由2D 輪廓圖構(gòu)建特征模板,例如步態(tài)能量圖(Han 和Bhanu,2006)、梯 度 能 量 圖(Hofmann 和Rigoll,2012)和運(yùn)動(dòng)歷史圖(Ahad 等,2012)等。然而這些步態(tài)特征模板大多基于視頻序列數(shù)據(jù),受限于完整的步態(tài)周期,難以直接應(yīng)用于基于靜態(tài)圖像的換裝行人重識(shí)別問題。另外,行人的輪廓圖相似性較高,輪廓的局部曲度特征難以直接學(xué)習(xí)與表示,限制了輪廓數(shù)據(jù)在換裝行人重識(shí)別中的應(yīng)用。
為了解決這些問題,Chen 等人(2021)提出基于輪廓速寫的空間極變換圖。如圖11 所示,給定一幅RGB 行人圖像,首先使用嵌套邊緣檢測(cè)模型(Xie 和Tu ,2015)生成輪廓速寫圖,然后采用可微極變換表征行人輪廓局部區(qū)域的曲線變化規(guī)律??晌O變換包括兩步:計(jì)算采樣間隔和采樣。令θi∈{ - π,π},表示第i次采樣角度,rj=j×RM表示第j次采樣半徑。其中,N和M分別表示角度θi和半徑rj采樣的次數(shù),R表示最大采樣半徑,則在直角坐標(biāo)系中相應(yīng)采樣坐標(biāo)位置為
式中,xi,j,yi,j表示原輪廓速寫圖的坐標(biāo),i,j表示可微極變換后的空間極變換圖V∈RN×M第i行第j列,其對(duì)應(yīng)的像素值vi,j可由一個(gè)可微雙線性采樣核函數(shù)(Jaderberg 等,2015)計(jì)算獲得,表示為
式中,[·]+= max(0,·),uh,w是原始輪廓速寫圖在坐標(biāo)(h,w)處的像素值。生成的空間極變換圖如圖11所示,能夠更加直觀反映行人輪廓曲線變化特點(diǎn),且不易受圖像旋轉(zhuǎn)和尺度縮放的影響,利于特征提取模型挖掘輪廓曲線特征。
圖11 微分極變換示意圖Fig.11 Illustration of differential polar transformation
與圖像空間相比,3D 人體不易受攝像頭視角和行人姿態(tài)等變化因素影響,利于行人人體輪廓曲線和體形結(jié)構(gòu)等軟生物特征表達(dá)。然而,重構(gòu)3D人體通常依賴深度傳感器,難以在實(shí)際監(jiān)控環(huán)境中大規(guī)模部署和應(yīng)用。但是,隨著基于單幀RGB圖像的3D人體重建(Alldieck等,2012;Loper等,2015;Bogo等,2016;Kolotouros 等,2019;Bhatnagar 等,2020;Lin 等,2021)技術(shù)的日益成熟,從圖像中恢復(fù)3D 人體已不再困難。3D 人體重建本質(zhì)上是基于身體姿態(tài)和身體形狀等先驗(yàn)信息恢復(fù)人體3D結(jié)構(gòu),而軟生物特征身份判別信息提取本質(zhì)上是挖掘人體體形特征和輪廓曲線信息,兩個(gè)任務(wù)緊密相關(guān)。因此,基于RGB圖像的3D 人體重建也適用于換裝行人重識(shí)別研究(Zheng等,2021;Chen等,2021)。
Zheng等人(2021)首次將3D人體重建引入行人重識(shí)別。該工作借助3D 點(diǎn)云表示人體,通過構(gòu)建K近鄰圖模型提取身體局部結(jié)構(gòu)信息。與Zheng 等人(2021)直接使用3D 重建作為輸入不同,Chen 等人(2021)將3D 人體重建作為一個(gè)輔助監(jiān)督任務(wù),將3D 重建過程中行人身體幾何參數(shù)分解為身體體形參數(shù)和姿態(tài)參數(shù),從形狀參數(shù)中學(xué)習(xí)身份特征,與RGB 圖像中的“微身份”信息結(jié)合進(jìn)行行人重識(shí)別,其流程如圖12所示。
圖12 3D人體重建輔助換裝行人重識(shí)別模型流程圖(Chen等,2021)Fig.12 Flowchart of 3D body reconstruction assisted cloth-changing person Re-ID(Chen et al.,2021)
步態(tài)(gait)或運(yùn)動(dòng)(motion)特征反映了行人的行走方式,且不易受到著裝顏色、紋理等外觀信息的影響(王科俊和侯本博,2007;張紅穎和包雯靜,2022)。作為一種軟生物特征,步態(tài)和運(yùn)動(dòng)特征也適用于換裝行人重識(shí)別(Gou 等,2016;Zhang 等,2018,2021;Jin等,2022)。
由于攝像機(jī)視角、行人姿態(tài)的多樣性,步態(tài)輪廓圖通常難以直接應(yīng)用于復(fù)雜的開放監(jiān)控場(chǎng)景。早期工作中,Gou等人(2016)和Zhang等人(2018)利用行人的稠密運(yùn)動(dòng)軌跡(Wang和Schmid,2013)構(gòu)建行人運(yùn)動(dòng)特征。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺各領(lǐng)域取得成功,基于深度學(xué)習(xí)的運(yùn)動(dòng)特征提取被用于換裝行人重識(shí)別。Zhang 等人(2021)提出一個(gè)包含時(shí)空特征提取和運(yùn)動(dòng)特征提取的雙流網(wǎng)絡(luò),前者從行人視頻序列中直接提取運(yùn)動(dòng)特征和“微身份”外觀特征,后者首先進(jìn)行3D骨架估計(jì),從行人骨架序列中學(xué)習(xí)行人運(yùn)動(dòng)特征和身體結(jié)構(gòu)特征。該模型在傳統(tǒng)行人重識(shí)別和換裝重識(shí)別上都取得了良好的效果。Jin等人(2022)認(rèn)為步態(tài)識(shí)別可以作為一個(gè)輔助任務(wù)驅(qū)動(dòng)行人重識(shí)別模型學(xué)習(xí)著裝無關(guān)的運(yùn)動(dòng)特征。如圖13所示,該模型提出一個(gè)包括步態(tài)分支和重識(shí)別分支的雙流網(wǎng)絡(luò)。步態(tài)分支首先通過一個(gè)步態(tài)預(yù)測(cè)模塊從單張步態(tài)輪廓中預(yù)測(cè)整個(gè)步態(tài)序列,然后通過步態(tài)特征提取模型,例如GaitSet(Chao 等,2019)提取步態(tài)特征。行人重識(shí)別分支通過一個(gè)行人重識(shí)別主干模型(He等,2016;Sun等,2018;Zheng等,2019)從RGB 圖像中提取隱含的身份特征。兩個(gè)分支通過最小化最大平均差異(maximum mean discrepancy,MMD)(Gretton 等,2012)將兩個(gè)分支聯(lián)系起來,使步態(tài)分支約束行人重識(shí)別模型學(xué)習(xí)步態(tài)相關(guān)的身份判別特征。
圖13 步態(tài)約束的換裝行人重識(shí)別示意圖Fig.13 An illustration of gait regularized cloth-changing person Re-ID
本小節(jié)介紹了基于視覺相機(jī)的換裝行人重識(shí)別方法。從特征種類角度可分為人臉、形狀/輪廓、步態(tài)/運(yùn)動(dòng)3 類,從特征獲取方式可分為手工和學(xué)習(xí)兩類,從輸入類型可分為圖片和視頻。表2 匯總并比較了這些典型方法的特點(diǎn),為后續(xù)研究提供參考。
表2 基于顯性生物特征的換裝行人重識(shí)別方法比較Table 2 Comparison of explicit biometric feature for cloth-changing person Re-ID
3.2.2 基于特征解耦的方法
對(duì)于給定任務(wù),特征解耦(Reed 等,2014)指從任務(wù)中分離出任務(wù)相關(guān)特征和無關(guān)特征。在換裝行人重識(shí)別任務(wù)中,如何從行人特征中去除著裝顏色、紋理等身份無關(guān)特征對(duì)于提高模型性能具有至關(guān)重要的作用。因此,特征解耦也廣泛應(yīng)用于換裝行人重識(shí)別(Qian 等,2020;Shu 等,2021;Eom 等,2022;Li 等,2021;Yu 等,2021;Xu 等,2021;Jia 等,2022)。本節(jié)將這些方法歸納為外部信號(hào)引導(dǎo)的特征解耦和基于生成對(duì)抗網(wǎng)絡(luò)的特征解耦,并論述基本原理和代表方法。
外部信號(hào)引導(dǎo)的特征解耦通常由額外的條件信息引導(dǎo)特征分離,例如關(guān)節(jié)信息(Qian 等,2020)、服裝模板(Shu 等,2021)。圖14 給出了一個(gè)典型的條件引導(dǎo)的行人特征解耦模型(Qian 等,2020;Shu 等,2021)的示意圖,其用關(guān)節(jié)點(diǎn)作為控制條件,結(jié)合服裝分類約束,將圖像提取的行人特征分離為著裝特征和身份判別特征。服裝模板是另外一種常用的引導(dǎo)條件,Shu 等人(2021)借助人體解析模型分離出行人的著裝區(qū)域,然后通過像素隨機(jī)采樣填充著裝區(qū)域,消除著裝顏色、紋理等信息的影響。
圖14 關(guān)節(jié)點(diǎn)引導(dǎo)的特征解耦模型示意圖(Qian等,2020)Fig.14 An illustration of key points guided feature disentanglement model(Qian et al.,2020)
基于生成對(duì)抗網(wǎng)絡(luò)的方法是另外一種常用的行人解耦技術(shù)(Eom 等,2022;Li 等,2021;Yu 等,2021;Xu 等,2021;Jia 等,2022)。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow 等,2014)是一種圖像生成技術(shù),其由一個(gè)生成器和一個(gè)判別器構(gòu)成。在訓(xùn)練過程中,通過交替優(yōu)化使生成器生成的圖像盡可能騙過判別器,同時(shí)使判別器鑒別能力足夠強(qiáng),能夠區(qū)分輸入圖像是生成圖像還是真實(shí)圖像,最終達(dá)到納什均衡,使生成器合成的圖像能夠以假亂真。經(jīng)典的生成對(duì)抗網(wǎng)絡(luò)合成的圖像是隨機(jī)的,后續(xù)工作cGAN(conditional GAN)(Mirza 和Osindero,2014;Isola 等,2017)和CycleGAN(cycleconsistent adversarial network)(Zhu 等,2017)分別實(shí)現(xiàn)了有條件控制圖像生成結(jié)果和非成對(duì)圖像風(fēng)格轉(zhuǎn)換等功能,促進(jìn)了GAN在行人重識(shí)別中的應(yīng)用。
Zheng 等人(2017b)最早將GAN 應(yīng)用于行人重識(shí)別,采用隨機(jī)生成數(shù)據(jù)增廣數(shù)據(jù)集。為了解決換裝行人重識(shí)別中特征解耦問題,Zheng 等人(2019)和Xu等人(2021)在cGAN 和cycleGAN 的基礎(chǔ)上,利用跨身份圖像生成解耦外觀和體形信息。Xu 等人(2021)提出的特征解耦網(wǎng)絡(luò)如圖15 所示。其中,著裝編碼器Ec用于生成行人外觀特征f,身份編碼器Ei用于生成與著裝無關(guān)的身份特征s,例如體形、姿態(tài)等。該模型通過在隱空間內(nèi)對(duì)外觀特征和身份特征進(jìn)行兩兩組合,使來自同一個(gè)人的特征組合能夠重建原始圖像,來自不同人的特征組合能夠?qū)崿F(xiàn)某一姿態(tài)下著裝的替換。由于缺乏跨身份合成換裝圖像的真實(shí)圖像,該模型借鑒CycleGAN 的思想,使換裝圖像能夠通過反向生成重構(gòu)原始圖像。通過上述行人內(nèi)跨姿態(tài)及行人間跨著裝圖像生成,該類模型在隱空間內(nèi)實(shí)現(xiàn)了外觀特征和體形特征的解耦分離。
圖15 基于GAN的特征解耦網(wǎng)絡(luò)示意圖(Xu等,2021)Fig.15 An illustration of GAN-based feature disentanglement network(Xu et al.,2021)
與上述跨行人圖像生成不同,Li 等人(2021)利用RGB 圖像對(duì)應(yīng)的灰度圖提取身份特征,而利用同一行人的另外一幅RGB 圖像提取著裝顏色信息,在隱空間內(nèi)通過將灰度圖提取的身份信息與RGB 圖像提取的顏色相結(jié)合,重構(gòu)灰度圖對(duì)應(yīng)的RGB 圖像。同時(shí),利用一個(gè)判別器使灰度圖與其對(duì)應(yīng)的RGB 圖像生成的特征不可區(qū)分,迫使在隱空間內(nèi)灰度圖與其對(duì)應(yīng)的RGB 圖像生成相同的特征信息,以此實(shí)現(xiàn)身份信息和顏色信息的分離。盡管該種方法在一定程度上實(shí)現(xiàn)了特征解耦,但不能完全實(shí)現(xiàn)著裝紋理特征與行人身份特征的分離。Yu 等人(2021)則利用著裝掩膜對(duì)行人著裝進(jìn)行分離,通過替換著裝實(shí)現(xiàn)跨著裝行人生成,以此解耦著裝信息。Eom 等人(2022)在圖像合成過程中采用身份更換技術(shù)對(duì)特征分解,并通過約束身份無關(guān)特征的分布使身份相關(guān)特征和身份不相關(guān)特征不相關(guān)。該方法在傳統(tǒng)行人重識(shí)別和長(zhǎng)時(shí)間跨度行人重識(shí)別都獲得了良好的性能。
本小節(jié)介紹了基于特征解耦的換裝行人重識(shí)別方法,主要包括基于外部信號(hào)的特征解耦和基于生成對(duì)抗網(wǎng)絡(luò)的特征解耦。前者需要額外的條件信息作為監(jiān)督,引導(dǎo)模型進(jìn)行特征分離,而后者大多不需要額外的信號(hào)進(jìn)行約束,而是通過跨身份生成、著裝更換生成等方式實(shí)現(xiàn)特征解耦?;谔卣鹘怦畹姆椒ň哂泻苤庇^的假設(shè)基礎(chǔ)和理論基礎(chǔ),通常能夠取得良好的效果。另一方面,這類方法在特征解耦的同時(shí)伴隨著圖像合成,具有很好的可視化效果和可解釋性。
3.2.3 基于數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)的方法
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺各領(lǐng)域的成功,基于數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)的方法廣泛應(yīng)用于行人重識(shí)別(Ye 等,2022)。當(dāng)數(shù)據(jù)量足夠大時(shí),數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)的模型能夠自適應(yīng)類內(nèi)樣本間的差異,學(xué)習(xí)利于分類的判別性特征。然而,換裝行人重識(shí)別數(shù)據(jù)量通常有限,造成模型提取的特征具有偏向性。
為了克服這個(gè)問題,Huang 等人(2019)采用微調(diào)策略,通過不斷調(diào)整在傳統(tǒng)行人重識(shí)別數(shù)據(jù)集上的預(yù)訓(xùn)練模型參數(shù),使網(wǎng)絡(luò)能夠克服著裝帶來的影響。為了能夠感知同一行人的著裝變化,Huang 等人(2020)引入膠囊模塊,使向量神經(jīng)元膠囊能夠同時(shí)感知類內(nèi)行人著裝情況和身份信息。通過在換裝數(shù)據(jù)集上調(diào)整模型參數(shù),這種方法能夠自適應(yīng)學(xué)習(xí)到著裝無關(guān)特征,但是在部分換裝數(shù)據(jù)情況下易導(dǎo)致次優(yōu)的效果。為了解決這個(gè)問題,Huang 等人(2021)提出一個(gè)著裝狀態(tài)感知感知模型,通過動(dòng)態(tài)約束行人特征,使模型能夠處理部分換裝情形,如圖16 所示,該模型由類內(nèi)約束(intra-class regularization,ICR)分支和類間增強(qiáng)(inter-class enforcement,ICE)分支構(gòu)成。ICE 分支和ICR 分支采用相同的行人重識(shí)別預(yù)訓(xùn)練模型。訓(xùn)練過程中,ICR 分支主干網(wǎng)絡(luò)參數(shù)固定,用于生成著裝特征。通過對(duì)著裝特征聚類,可感知類內(nèi)著裝情況。ICE 分支用于產(chǎn)生身份判別特征,用于行人重識(shí)別。兩個(gè)分支通過特征約束模塊聯(lián)系在一起,使模型在無著裝標(biāo)注情況下感知行人是否更換著裝,即著裝狀態(tài)。
本小節(jié)總結(jié)了數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)在換裝行人重識(shí)別中的典型方法。該類方法直接從換裝數(shù)據(jù)中隱式學(xué)習(xí)身份相關(guān)特征,對(duì)數(shù)據(jù)依賴性強(qiáng),需要大量換裝數(shù)據(jù)調(diào)整模型參數(shù)。另外,與顯性生物特征和特征解耦相比,該類方法采用“黑盒”結(jié)構(gòu),特征的可解釋性差。
3.2.4 小結(jié)
本節(jié)總結(jié)了換裝行人重識(shí)別研究最新進(jìn)展和相應(yīng)關(guān)鍵技術(shù)。這些方法歸納為兩大類:基于非視覺傳感器的方法和基于視覺相機(jī)的方法。前者主要使用深度傳感器、無線射頻裝置,在相對(duì)開放環(huán)境中取得了良好的效果。然而,深度傳感器和無線射頻裝置在實(shí)際監(jiān)控系統(tǒng)中很少部署,因此,基于視覺相機(jī)的方法是近幾年研究的熱點(diǎn)?;谝曈X相機(jī)的方法歸為3 類:基于顯性生物特征的方法、基于特征解耦的方法和基于數(shù)據(jù)驅(qū)動(dòng)自適應(yīng)學(xué)習(xí)的方法?;跀?shù)據(jù)驅(qū)動(dòng)自適應(yīng)學(xué)習(xí)的方法對(duì)數(shù)據(jù)依賴嚴(yán)重,且可解釋性較差,針對(duì)這方面的工作相對(duì)較少。與之相比,基于顯性生物特征的方法和基于特征解耦的方法可解釋性強(qiáng),是近幾年研究的熱點(diǎn),出現(xiàn)在知名期刊和會(huì)議上的工作也逐年增多,推動(dòng)了該領(lǐng)域的快速發(fā)展。
本節(jié)通過對(duì)典型算法進(jìn)行性能比較,梳理?yè)Q裝行人重識(shí)別的發(fā)展趨勢(shì)。由于非視覺數(shù)據(jù)集和視覺數(shù)據(jù)集上的方法采用數(shù)據(jù)不同,本文將這些方法分別進(jìn)行比較。
表3 總結(jié)比較了基于深度數(shù)據(jù)集方法的性能、特征形式和基本特點(diǎn)。由表中結(jié)果可知,基于深度學(xué)習(xí)方法的Rank-1 性能遠(yuǎn)超基于人體測(cè)量的方法,證明深度學(xué)習(xí)方法相對(duì)于人體測(cè)量能夠減少身份信息的損失,具有更強(qiáng)的特征表征能力。然而,深度相機(jī)部署成本遠(yuǎn)高于視覺相機(jī),其在實(shí)際監(jiān)控系統(tǒng)中尚未大規(guī)模普及應(yīng)用。近年來,大量研究轉(zhuǎn)向基于普通監(jiān)控視覺相機(jī)的解決方案。
表3 PAVIS數(shù)據(jù)集上典型算法比較Table3 Comparison of the typical methods on PAVIS
表4 總結(jié)比較了典型方法在基于視覺相機(jī)數(shù)據(jù)集PRCC上的性能和基本特點(diǎn)。由表4可知,換裝行人重識(shí)別的性能近兩年不斷提升,涌現(xiàn)出大量研究工作,其中,Shu 等人(2021)發(fā)表在IEEE Processing Letters 上的最新工作取得了最高的Rank-1 準(zhǔn)確率,達(dá)到65.8%。然而,由于換裝數(shù)量有限,著裝變化與其他影響因素(攝像頭視角變化、光照變化、姿態(tài)差異以及遮擋等)交織在一起,使換裝行人重識(shí)別更具挑戰(zhàn)性,當(dāng)前方法遠(yuǎn)不能滿足實(shí)際應(yīng)用需求。另一方面,顯性特征構(gòu)建和表示、特征解耦的特征解釋性強(qiáng)。由表4 可知,這兩類方法性能較好,是當(dāng)前換裝行人重識(shí)別中最熱門的兩個(gè)思路。
總體看來,基于視覺相機(jī)的換裝行人重識(shí)別是近幾年研究的熱點(diǎn),大量相關(guān)工作發(fā)表在知名學(xué)術(shù)會(huì)議或者期刊上,各類方法呈現(xiàn)百花齊放局面,并且研究的重心逐漸向解釋性強(qiáng)的方法偏移,且呈現(xiàn)多模態(tài)特征融合的趨勢(shì)。表4僅給出了基于RGB圖像的有監(jiān)督換裝行人重識(shí)別方法,而無監(jiān)督方法和基于視頻的換裝行人重識(shí)別研究相對(duì)較少,本文未做整理和分析。
表4 基于視覺相機(jī)的方法在PRCC數(shù)據(jù)集上比較Table 4 Comparison of visual/RGB-based methods on PRCC dataset
盡管換裝行人重識(shí)別研究已經(jīng)持續(xù)了多年,但是早期研究工作主要利用深度傳感器對(duì)3D 人體重建的優(yōu)點(diǎn),對(duì)設(shè)備依賴性強(qiáng),難以在實(shí)際監(jiān)控系統(tǒng)中大規(guī)模部署和應(yīng)用?;谝曈X相機(jī)的換裝行人重識(shí)別是近幾年興起的一個(gè)研究熱點(diǎn),近兩年取得了很大突破。本文介紹的方法主要側(cè)重于解決著裝變化帶來的影響,分離出外觀無關(guān)的身份特征。然而,實(shí)際應(yīng)用場(chǎng)景中,著裝變化通常與光照變化、攝像機(jī)視角差異、姿態(tài)變化以及遮擋等因素交織在一起,極大程度地增加了換裝行人重識(shí)別問題的挑戰(zhàn)性,暴露出當(dāng)前研究的不足,主要體現(xiàn)在以下方面:
1)數(shù)據(jù)集問題。盡管近幾年相繼提出了十幾個(gè)數(shù)據(jù)集,但依舊存在一些問題。例如,數(shù)據(jù)規(guī)模不足,難以覆蓋復(fù)雜的應(yīng)用環(huán)境和行人換裝頻率;數(shù)據(jù)采集時(shí)間間隔有限;缺少單一攝像頭下的多視角數(shù)據(jù)等。
2)特征對(duì)齊。攝像機(jī)視角差異和行人姿態(tài)變化易導(dǎo)致行人圖像發(fā)生自遮擋和形變,影響行人體形和結(jié)構(gòu)信息的提取。然而,大多數(shù)現(xiàn)存方法依靠網(wǎng)絡(luò)模型自適應(yīng)這些差異,而未做顯式處理。
3)遮擋。遮擋問題是行人重識(shí)別中的一個(gè)經(jīng)典問題,傳統(tǒng)行人重識(shí)別中遮擋可由局部特征對(duì)齊進(jìn)行解決。而換裝行人重識(shí)別中,遮擋易破壞行人的體形結(jié)構(gòu),現(xiàn)有方法難以由未遮擋部分推斷人體的整體結(jié)構(gòu)特征。
4)表征能力有限?,F(xiàn)有方法大都直接從RGB圖像出發(fā),通過設(shè)計(jì)約束條件提取形狀、運(yùn)動(dòng)以及“微身份”等一個(gè)或幾個(gè)身份相關(guān)特征,容易造成信息損失,削弱特征的表征能力。
5)泛化能力問題。現(xiàn)有數(shù)據(jù)集規(guī)模相對(duì)較小,而現(xiàn)有方法大都基于深度學(xué)習(xí),隨著網(wǎng)絡(luò)層數(shù)加深,深度學(xué)習(xí)模型易過擬合現(xiàn)有的小數(shù)據(jù)集,使學(xué)習(xí)到的特征具有偏向性,無法應(yīng)用于復(fù)雜多變的真實(shí)環(huán)境。
綜上,盡管現(xiàn)有換裝重識(shí)別研究已經(jīng)取得了很大進(jìn)展,仍有很多遺留問題和缺陷值得未來進(jìn)一步深入研究。關(guān)于未來可能的研究方向,本文認(rèn)為可以從如下幾個(gè)方面考慮:
1)構(gòu)建大規(guī)模視頻換裝行人數(shù)據(jù)集。與單幀圖像數(shù)據(jù)相比,視頻數(shù)據(jù)包含具有身份判別性的步態(tài)/運(yùn)動(dòng)信息,能夠根據(jù)視頻序列的連續(xù)性對(duì)遮擋幀進(jìn)行估計(jì),克服遮擋問題,并且能夠根據(jù)行人運(yùn)動(dòng)過程中的視角和姿態(tài)變化重建準(zhǔn)確性更高的3D 人體。同時(shí),根據(jù)視頻行人數(shù)換裝據(jù)集探究基于視頻的方法具有極大的潛力。
2)3D 人體重建驅(qū)動(dòng)的特征學(xué)習(xí)。3D 空間內(nèi),人體不易受視角、姿態(tài)等變化因素的影響,利于人體體形和結(jié)構(gòu)特征的提取和度量。近年來,隨著3D人體重建技術(shù)的成熟(Loper 等,2015;Kolotouros 等,2019;Bhatnagar 等,2020;Lin 等,2021),從RGB 圖像或視頻中恢復(fù)3D 人體已不再是難題。Chen 等人(2021)初步驗(yàn)證了3D 重建有助于行人體形特征的表達(dá),但僅將3D 重建作為一個(gè)輔助的任務(wù),沒有充分利用3D 人體的特性。因此,如何將3D 重建和換裝行人重識(shí)別有機(jī)結(jié)合起來,重建具有身份保持的3D人體是未來一個(gè)值得探討的問題。另一方面,3D人體通常采用點(diǎn)云表示,如何設(shè)計(jì)專門的特征表征模型從3D 人體提取身份判別信息也是值得研究的內(nèi)容。
3)結(jié)合行人屬性分析。行人屬性分析(Tan 等,2019;Wang等,2022b)旨在構(gòu)建“人物畫像”,對(duì)行人的屬性進(jìn)行語(yǔ)義描述,這些屬性可作為軟生物特征輔助行人重識(shí)別性能。另一方面,在某些應(yīng)用中,例如罪犯?jìng)刹?,通常需要根?jù)目擊證人對(duì)罪犯的簡(jiǎn)單屬性描述進(jìn)行行人追蹤。針對(duì)具體的換裝行人重識(shí)別,對(duì)行人體形、姿態(tài)和性別等描述有助于指導(dǎo)行人身份特征提取,而對(duì)行人攜帶物、著裝類型等屬性的描述則有助于指導(dǎo)模型削弱這些因素的影響。因此,結(jié)合屬性識(shí)別與換裝行人重識(shí)別是將來一個(gè)極具潛力的研究方向。
4)多模態(tài)特征融合學(xué)習(xí)。本文綜述的方法大都采用單模態(tài)數(shù)據(jù)或?qū)⑵渌B(tài)數(shù)據(jù)作為約束信息。Xu 和Zhu(2022)將RGB 圖像、灰度圖、輪廓圖和關(guān)節(jié)點(diǎn)等多模態(tài)數(shù)據(jù)提取的特征進(jìn)行簡(jiǎn)單拼接融合,證明了其有效性。然而,多模態(tài)融合過程中,存在信息模態(tài)差異和特征冗余。因此,如何利用多模態(tài)數(shù)據(jù)構(gòu)建信息互補(bǔ)的多模態(tài)特征融合模型是未來一個(gè)可行的研究思路。
5)無監(jiān)督換裝行人重識(shí)別。上文綜述的換裝行人重識(shí)別研究均屬于有監(jiān)督學(xué)習(xí),嚴(yán)重依賴標(biāo)注數(shù)據(jù)。然而,換裝行人重識(shí)別數(shù)據(jù)采集和標(biāo)注代價(jià)較高,是制約換裝行人重識(shí)別研究的主要瓶頸之一。無監(jiān)督學(xué)習(xí)不依賴數(shù)據(jù)標(biāo)簽且泛化能力較好,是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域研究的一個(gè)熱點(diǎn)。另外,行人重識(shí)別數(shù)據(jù)集中存在大量的無標(biāo)注數(shù)據(jù),如何將無監(jiān)督學(xué)習(xí)與換裝行人重識(shí)別問題結(jié)合起來,充分利用無標(biāo)簽數(shù)據(jù)是一個(gè)具有潛力的研究方向。例如將無標(biāo)注數(shù)據(jù)作為著裝種類的來源,利用上文提到的生成對(duì)抗網(wǎng)絡(luò)進(jìn)行類內(nèi)換裝數(shù)據(jù)增廣,借助流行的對(duì)比學(xué)習(xí)思想(Fan 等,2022;Wang 和Qi,2022a),采用自監(jiān)督方式最小化合成換裝樣本與原始輸入樣本間特征差異,學(xué)習(xí)更具泛化性的特征表示形式。
6)多任務(wù)交互式學(xué)習(xí)。多任務(wù)學(xué)習(xí)能夠提高模型的泛化性能,增強(qiáng)特征的表達(dá)能力。換裝行人重識(shí)別任務(wù)與3D 人體重建、特征解耦與重構(gòu)、行人屬性識(shí)別以及動(dòng)作識(shí)別等任務(wù)均具有緊密聯(lián)系。這些相關(guān)任務(wù),有助于協(xié)助行人重識(shí)別模型學(xué)習(xí)表征能力強(qiáng)的著裝無關(guān)特征。因此,基于多任務(wù)學(xué)習(xí)框架,構(gòu)建多任務(wù)交互式學(xué)習(xí)的統(tǒng)一模型將是未來一個(gè)極具潛力的研究方向。
換裝行人重識(shí)別是行人重識(shí)別任務(wù)的一個(gè)重要子問題,在監(jiān)控安全、案件偵查和疫情流調(diào)等方面具有十分重要的應(yīng)用價(jià)值。相對(duì)傳統(tǒng)行人重識(shí)別,換裝行人重識(shí)別針對(duì)長(zhǎng)時(shí)間跨度場(chǎng)景,面臨行人著裝更換帶來的外觀特征判別性差問題。換裝行人重識(shí)別尚處于起步階段,近幾年已有工作對(duì)該問題展開研究,但限于大規(guī)模行人換裝數(shù)據(jù)集稀缺以及換裝的不可預(yù)見性,當(dāng)前研究仍面臨巨大的性能瓶頸,也缺乏系統(tǒng)性的綜述總結(jié)和對(duì)該問題的深入分析。
本文系統(tǒng)總結(jié)了換裝行人重識(shí)別研究現(xiàn)狀,涵蓋主要數(shù)據(jù)集和評(píng)估方式、主要工作與技術(shù)內(nèi)容以及當(dāng)前研究面臨的難點(diǎn),對(duì)換裝行人重識(shí)別進(jìn)行全面綜述。通過梳理主要數(shù)據(jù)集與評(píng)估方式,本文旨在為大規(guī)模行人換裝數(shù)據(jù)集的構(gòu)建以及換裝行人重識(shí)別性能的科學(xué)評(píng)估提供指導(dǎo)和建議。通過對(duì)近年來主要方法的歸納和對(duì)比,本文歸納了當(dāng)前研究的不足和存在的挑戰(zhàn),并梳理出可能的研究方向和思路,為未來研究提供參考,期望能夠推動(dòng)該領(lǐng)域的發(fā)展以及在監(jiān)控系統(tǒng)中的應(yīng)用。