張權(quán),賴劍煌,2,3,4*,謝曉華,3,陳泓栩
1.中山大學(xué)計算機(jī)學(xué)院,廣州 510006;2.廣州新華學(xué)院,廣州 510520;3.廣東省信息安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州 510006;4.視頻圖像智能分析與應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,廣州 510006
行人重識別(person re-identification)是計算機(jī)視覺在安防領(lǐng)域的一個重要任務(wù)。該任務(wù)旨在一個視域互不重疊的攝像機(jī)網(wǎng)絡(luò)中,將不同攝像機(jī)下屬于同一身份類別的行人圖像進(jìn)行正確的關(guān)聯(lián)(趙才榮 等,2021)。該任務(wù)自從2006 年首次在國際計算機(jī)視覺與模式識別會議提出以來(Gheissari 等,2006),得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。在經(jīng)過了十幾年的快速發(fā)展之后,行人重識別的模型框架日趨成熟,相關(guān)算法落地初展頭角,在我國有著廣泛的應(yīng)用價值,給城市安全和公眾財產(chǎn)給予了強(qiáng)有力的保障和支撐。然而,現(xiàn)有的行人重識別技術(shù)僅關(guān)注對于單個行人研究,對于多個行人同時出現(xiàn)的情況沒有過多討論。由于人類社會存在群居屬性以及社會角色的多樣性,人們更傾向于以小群體形式結(jié)伴出行,而非獨(dú)立出現(xiàn)(Mei 等,2020)。
將小規(guī)模人群作為重識別目標(biāo)的任務(wù),簡稱小股 人 群 重 識 別(group re-identification,GReID)(Zheng 等,2009)。該任務(wù)對于行人重識別中被研究對象的數(shù)目進(jìn)行了拓展,大幅拓展了行人重識別的應(yīng)用場景,對某些團(tuán)伙作案的犯罪行為(如綁架)起到了良好的檢測、防范和打擊作用,對社會安全和人民財產(chǎn)起到了保護(hù)作用。
除此之外,小股人群重識別也可以促進(jìn)行人重識別的性能進(jìn)一步提高。具體地,由于監(jiān)控攝像頭的環(huán)境復(fù)雜,單個行人很容易受到遮擋的影響。在嚴(yán)重遮擋的條件下,僅依靠單人的表觀特征并不可靠。此時小股人群重識別可以考慮將與之同行的其他群體成員的表觀特征作為檢索線索,提高行人重識別在復(fù)雜環(huán)境下的魯棒性和判別性。
相比于行人重識別,小股人群重識別的研究相對較少。因?yàn)樾」扇巳翰粌H需要面對傳統(tǒng)行人重識別中的挑戰(zhàn),還需要解決由于圖像中群組結(jié)構(gòu)變化帶來的挑戰(zhàn),通常包括群組人數(shù)的變化和群組成員位置的變化。近年來,提出了不少圍繞小股人群重識別的工作,使該任務(wù)在深度學(xué)習(xí)時代得到了快速發(fā)展。Lin 等人(2021)提出了多粒度表示(multigrained representations,MGR),引入深度網(wǎng)絡(luò)結(jié)構(gòu)作為成員表觀特征的提取器。Huang 等人(2019a)提出了基于域遷移的圖神經(jīng)網(wǎng)絡(luò)方法(domain transfer graph neural network,DoTGNN),引入對抗生成網(wǎng)絡(luò)增加群組的多樣性。Yan 等人(2020)提出了多注意上下文圖匹配(multi-attention context graph,MACG),將圖結(jié)構(gòu)與注意力機(jī)制相結(jié)合提取群組特征,Zhang 等人(2022b)提出了二階自注意力模型(second-order Transformer,SOT),首次將自注意力模型(Transformer)應(yīng)用在這項任務(wù)中。然而,上述工作都是針對小股人群重識別任務(wù)的某一具體問題或者挑戰(zhàn)展開技術(shù)性研究,對該任務(wù)的整體回顧和未來發(fā)展缺乏詳細(xì)的討論。
本文是對小股人群重識別任務(wù)發(fā)展至今的綜述性研究。具體地,本文對已有工作在數(shù)據(jù)集、算法和性能等方面進(jìn)行系統(tǒng)論述,對已有算法和模型進(jìn)行歸納總結(jié),對未來的研究趨勢進(jìn)行討論和展望。
在一個視域互不重疊的攝像機(jī)網(wǎng)絡(luò)中,小股人群重識別任務(wù)旨在將包含多個相同行人的群組樣本(圖像或者視頻序列)進(jìn)行正確的關(guān)聯(lián)??紤]到任務(wù)的復(fù)雜性以及實(shí)際情況下的群組成員數(shù)量,該任務(wù)通??紤]人數(shù)較少的目標(biāo)群組,當(dāng)前的研究通常關(guān)注分布在2~8 人之間的目標(biāo)人群。如圖1 所示,給定的待查詢?nèi)航M樣本是由兩個行人組成的群組圖像,該任務(wù)的目標(biāo)是在底庫圖像集中找到所有與之群組身份相同、攝像頭不同的群組圖像,并按照相似度大小返回檢索結(jié)果。
圖1 小股人群重識別任務(wù)描述Fig.1 Illustration of group re-identification
小股人群重識別任務(wù)與密集人群視覺任務(wù)相比,其不同點(diǎn)在于由于研究對象的數(shù)目不同導(dǎo)致所關(guān)注的問題不同。在密集人群的視覺任務(wù)中,由于個體的表觀特征往往難以獲得,這些任務(wù)更關(guān)注整個高密度人群的屬性分析,例如群體人數(shù)、群體運(yùn)動趨勢、群體行為等。而小股人群重識別由于較少的人群數(shù)量,可以得到較為豐富的個體信息,并在此基礎(chǔ)上研究如何進(jìn)行多目標(biāo)的關(guān)系建模,從而提取到關(guān)于群體的特征表達(dá)。
小股人群重識別任務(wù)與行人重識別相比,其獨(dú)特性在于同一個群組身份呈現(xiàn)群組結(jié)構(gòu)的多樣性,即由于群組成員數(shù)量的變動和群組成員位置的變動所引發(fā)的群組結(jié)構(gòu)變化。其中,關(guān)于群組的成員人數(shù),現(xiàn)有研究(Yan 等,2020)一般認(rèn)為兩幅群組圖像的共同人數(shù)超過60%時,即認(rèn)為這兩幅群組圖像屬于同一個群組類別。
小股人群重識別按照數(shù)據(jù)類型、標(biāo)簽設(shè)置和模型策略的不同可以劃分為不同子任務(wù),如圖2 所示,但是本質(zhì)都是在圍繞如何針對上述兩種變動對群組關(guān)系進(jìn)行建模和描述。
圖2 小股人群重識別技術(shù)總結(jié)Fig.2 Technology summary of group re-identification
根據(jù)群組數(shù)據(jù)類型的不同,可分為基于靜態(tài)圖像的方法和基于視頻序列的方法。基于靜態(tài)圖像的方法包括Zheng 等人(2009)提出的中心矩形環(huán)比占用描述符(center rectangular ring ratio-occurrence descriptor,CRRRO)、Cai 等人(2010)提出的協(xié)方差描述符(covariance)、MACG(Yan 等,2020)和SOT(second-order Transformer)(Zhang 等,2022b)等。基于視頻序列的方法包括Chen 等人(2021)提出的雙流注意力網(wǎng)絡(luò)(two-stream attentive network,TSAN)等。
根據(jù)群組標(biāo)簽設(shè)置的不同,可分為基于有監(jiān)督的方法、基于弱監(jiān)督的方法和基于無監(jiān)督的方法?;谟斜O(jiān)督的方法包括Xu等人(2019b)提出的混合注意力模型(hybrid attention model,HAM)、MACG(Yan 等,2020)、SOT(Zhang 等,2022b)、Zhu 等 人(2021)提出的群組上下文圖神經(jīng)網(wǎng)絡(luò)(group context graph neural networks,GCGNN)和 Zhang 等 人(2022a)提出的3 維自注意力模型(3D Transformer,3DT)等?;谌醣O(jiān)督的方法包括DotGNN(domaintransferred graph neural network)(Huang等,2019a)和Mei 等人(2020)提出的孿生群組檢索方法(siamese verification-identification-based group retrieval,SVIGR)等?;跓o監(jiān)督的方法包括CRRRO(Zheng等,2009)、Covariance(Cai 等,2010)和Lisanti 等人(2017,2019)提出的基于編碼特征的殘差表示方法(pooling residuals of encoded features,PREF)等。
基于模型策略的不同,可分為基于數(shù)據(jù)增強(qiáng)的方法、基于特征提取的方法和基于度量學(xué)習(xí)的方法。基于數(shù)據(jù)增強(qiáng)的方法包括Huang 等人(2019b)構(gòu)造的成對表征的遷移學(xué)習(xí)網(wǎng)絡(luò)(transferred single and couple representation learning network,TSCN)、Dot-GNN(Huang 等,2019a)、DotSCN(Huang 等,2021)和Liu 等人(2021)提出的單特征注意力網(wǎng)絡(luò)(single feature attention learning network,SFALN)。基于特征提取的方法包括CRRRO 和MACG?;诙攘繉W(xué)習(xí)的方法包括Xiao 等人(2018)提出的利用和集成多粒度信息(leveraging and integrating multi-grain information,LIMI)的方法、Xu 等人(2019b)提出的最小二乘殘差距離(least squares residual distance,LSRD),SVIGR(siamese verification-identificationbased group retrieval)(Mei 等,2020)和Mei 等 人(2021)提出的基于人與群組相似性匹配的歧義消除方法(person-to-group similarity matching based ambiguity removal,P2GSM-AR)。其中,特征提取又可以進(jìn)一步劃分為基于人工設(shè)計的手工特征方法和基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法。前者包括CRRRO-BRO(Zheng 等,2009)、Covariance 描述符(Cai 等,2010)、Salamon 等人(2015)提出的基于軟生物特征的方法(soft-biometric characteristics,SBC)和PREF(Lisanti等,2017)。后者包括HAM 模型(Xu 等,2019b)、MACG(Yan 等,2020)、GCGNN(Zhu 等,2021)、Hu等人(2021)提出的部分相關(guān)均值模型(part relational mean model,PRM)、SOT(Zhang 等,2022b)和3DT(3D transformer)模型(Zhang等,2022a)。
盡管小股人群重識別的細(xì)分子任務(wù)眾多,但是現(xiàn)階段仍處于起步階段,大量的任務(wù)仍集中在基于圖像和有監(jiān)督學(xué)習(xí)的小股人群重識別方法,這也是本綜述重點(diǎn)闡述的內(nèi)容。
為了支持小股人群重識別的研究,研究人員已經(jīng)構(gòu)建了許多群組數(shù)據(jù)集。本節(jié)主要按照數(shù)據(jù)集的數(shù)據(jù)類型分別進(jìn)行介紹。
2.1.1 真實(shí)圖像數(shù)據(jù)集
iLIDS-MCTS(the imagery library for intelligent detection systems,multiple camera tracking scenario)數(shù)據(jù)集(Zheng 等,2009)是最早公開的小股人群重識別數(shù)據(jù)集之一,該數(shù)據(jù)集是在機(jī)場大廳中的一個多攝像機(jī)監(jiān)控網(wǎng)絡(luò)在機(jī)場繁忙時期拍攝的。該數(shù)據(jù)集提取了兩個互不重疊的攝像頭下的群組圖像,共包含64 個群組身份和274 幅經(jīng)過裁剪的群組圖像。大多數(shù)組有4 幅圖像,來自不同的攝像頭或來自同一攝像頭但在不同時間不同位置。這些群組圖像的大小不同。如果需要得知群組成員的相關(guān)信息,還需要研究者使用額外的檢測算法。
CASIA(Institute of Automation,Chinese Academy of Sciences)群組數(shù)據(jù)集(Cai 等,2010)和OULU群組數(shù)據(jù)集(Cai 等,2010)同時提出。其中,CASIA群組數(shù)據(jù)集由兩個室外的攝像頭采集得到,共收集了44 對(即88 幅)群組圖像。OULU 群組數(shù)據(jù)集由5個室內(nèi)的攝像頭采集得到,共收集了20 對(即40 幅)群組圖像。這兩個數(shù)據(jù)集提供了更加完整的相機(jī)成像畫面而非經(jīng)過裁剪的。因此,兩個數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果指出,如果利用頭肩檢測算法得到多于兩個行人的檢測結(jié)果,則將行人區(qū)域定義為包含群組圖像的前景區(qū)域,其余為背景區(qū)域。
ETHZGroup(ETH-zurich Group)數(shù) 據(jù) 集(Salamon等,2015)是在ETHZ 數(shù)據(jù)集(Ess等,2007)上進(jìn)一步發(fā)展得到的。該群組數(shù)據(jù)集共標(biāo)注了141 個群組身份,213 個群組成員身份以及72 幅群組圖像。該數(shù)據(jù)集著重強(qiáng)調(diào)個人和群體在不同場景下的反復(fù)出現(xiàn)。統(tǒng)計表明,ETHZGroup 數(shù)據(jù)集中有29 個群組成員和11 個群體反復(fù)出現(xiàn),具體地,約有13.61%的個人和7.8%的群體至少出現(xiàn)兩次。
ZeCSS(zebra crossing summer scenario)數(shù)據(jù)集(Zhu 等,2016)是由公路斑馬線兩端的兩個非重疊視域攝像頭拍攝得到。共包括189 個群組類別以及514 幅經(jīng)過裁剪的群組圖像。該數(shù)據(jù)集保證每個群組在每個攝像頭下至少出現(xiàn)一次,除此之外,該數(shù)據(jù)集僅考慮群組成員數(shù)目在2~4人之間的群組。
QUEUE02 數(shù)據(jù)集(Koperski 等,2017)用于模擬兩個地點(diǎn)之間的群體排隊場景,由兩個不同場景下的攝像頭采集,這兩個場景的光照條件差異非常顯著。該數(shù)據(jù)集共標(biāo)注了23 個行人身份和15 個群組身份。與之前所有的群組數(shù)據(jù)集不同,該數(shù)據(jù)集提供了群組圖像的拍攝時間(即時間戳),使得更多基于時空關(guān)聯(lián)的方法可以被考慮。
MUSEUM 數(shù)據(jù)集(Lisanti 等,2017)是在博物館大廳通過4 個攝像頭采集的,其中攝像頭視域的重疊很小或沒有重疊。該數(shù)據(jù)集包含524 幅群組圖像,由不同人數(shù)的群組成的18 個群組類別。每個群組大約有30幅圖像。
OGRE(outdoor groups re-identification)數(shù)據(jù)集(Lisanti 等,2017),由停車場場景下的3 個不相交的攝像頭采集。該數(shù)據(jù)集包含39 個群組身份,并且在不同時刻和不同天氣條件下采集了大約2 500 幅圖像。OGRE 數(shù)據(jù)集是通過一種弱監(jiān)督方法標(biāo)注的,即給定一個手動選擇的群組區(qū)域,通過運(yùn)行KCF(kernelized correlation filter)跟蹤器(Henriques 等,2015)獲得后續(xù)檢測結(jié)果。此外,該數(shù)據(jù)集還涵蓋了嚴(yán)重的視角變化和大量的群組成員自遮擋。
RoadGroup 數(shù)據(jù)集(Xiao 等,2018)是在一個人流密集的馬路上由兩個視域互不重疊的攝像頭拍攝。攝像機(jī)所拍攝的群組包含了162 個群組身份,每個群組包含兩幅經(jīng)過裁剪的圖像。與之前的工作不同,RoadGroup 和DukeGroup 數(shù)據(jù)集首次定義了在群組成員數(shù)量變動與群組類別的關(guān)系。即只要兩幅群組圖像的共同成員超過60%,即認(rèn)為這兩幅圖像屬于同一個群組身份類別。
SYSUGroup(Sun Yat-sen University Group)數(shù)據(jù)集(Mei 等,2020)是在大學(xué)校園場景下完成采集的。采集設(shè)備由8 個高清攝像頭組成(攝像頭1~3 為1 920 × 1 080 像素,攝像頭4~8 為1 280 × 1 080 像素),場景包括室內(nèi)及室外。該數(shù)據(jù)集邀請了524 位志愿者完成數(shù)據(jù)集構(gòu)建,組成了208 個不同類別的群組,共采集了7 071幅群組圖像。其中每個群組內(nèi)的成員數(shù)均在2~6 人之間,一旦群組人數(shù)確定,其在所有的采集場景下的人數(shù)均固定不變。在采集完成之后,所有圖像均調(diào)整為256 × 256 像素的分辨率。
CSG(CUHK-SYSU Group)數(shù)據(jù)集(Yan等,2020)是在行人搜索數(shù)據(jù)集CUHK-SYSU(Xiao 等,2017)的基礎(chǔ)上發(fā)展而來的。CSG 共包含3 839幅群組圖像、1 558 個群組身份以及大約3 500 個成員身份標(biāo)簽。這些圖像一部分來自監(jiān)控數(shù)據(jù),另一部分來自影視劇等非監(jiān)控場景。每個群組包含的人數(shù)在2~8 人之間。其中有28%的群組圖像出現(xiàn)了遮擋。為了進(jìn)一步增加難度,CSG 數(shù)據(jù)集在測試階段的底庫集合中又額外添加了5 000幅圖像作為干擾圖像。
BRT(bus rapid transit)數(shù)據(jù)集(Hu 等,2021)是基于某城市公交線路圖進(jìn)行采集的,數(shù)據(jù)集所涵蓋的時空范圍相較于之前的數(shù)據(jù)集都有了顯著拓展。該數(shù)據(jù)集在53個視像頭下采集完成,共標(biāo)注了400個群組,3 210幅群組圖像。
OWGA-Campus(open world and group ambiguity campus)數(shù)據(jù)集(Mei 等,2021)是對SYSUGroup 數(shù)據(jù)集的拓展。上文指出,SYSUGroup 數(shù)據(jù)集并不包含群組成員的變動,是相對干凈和理想的狀態(tài)。OWGA-Campus數(shù)據(jù)集在此基礎(chǔ)上,考慮了群組成員數(shù)量的變動以及路人的隨機(jī)加入與離開。該數(shù)據(jù)集由9 個高清攝像頭采集,共包含210 個群組類別和10 808 幅群組圖像。每個群組有1 幅標(biāo)準(zhǔn)的群組圖像作為參考,并在測試階段當(dāng)作查詢圖像,其余在底庫中的圖像是群組人數(shù)變動的圖像。
2.1.2 合成圖像數(shù)據(jù)集
2.1.1 節(jié)展示的數(shù)據(jù)均是來自真實(shí)場景下的群組圖像,其好處是能夠準(zhǔn)確地反映某一地域下小股人群的運(yùn)動規(guī)律,然而其缺點(diǎn)也十分明顯。首先,群組重識別的數(shù)據(jù)集采集難度更大,因?yàn)樾枰獦?biāo)注人員手工挖掘存在組關(guān)系的多個行人;其次,群組重識別的標(biāo)注難度更困難,因?yàn)椴粌H需要對每個成員給出單獨(dú)的身份標(biāo)簽,還需要對整個群組進(jìn)行標(biāo)注。在進(jìn)行跨攝像頭的群組關(guān)聯(lián)時,所需要付出的標(biāo)注成本更是成倍增長。最后是由于數(shù)據(jù)隱私政策,對于行人數(shù)據(jù)的采集、標(biāo)注、公開都提出了更高更嚴(yán)的標(biāo)準(zhǔn),使得大規(guī)模公開數(shù)據(jù)集的制作難以進(jìn)行。
得益于虛擬動畫引擎技術(shù)的發(fā)展,基于合成數(shù)據(jù)的研究成為了一個新興的任務(wù),并在傳統(tǒng)的行人重識別領(lǐng)域被證明了是一種低成本且有效的方式,例 如PersonX(Sun 和Zheng,2019)、RandPerson(Wang 等,2020)和UnRealPerson(Zhang 等,2021)等。因此,City1M數(shù)據(jù)集(Zhang等,2022a)首次利用虛擬動畫技術(shù)將合成數(shù)據(jù)引用于小股人群重識別任務(wù)中。City1M數(shù)據(jù)集構(gòu)建了一個基于城市中心街區(qū)的場景,選擇了路邊8 個視域互不重疊的攝像頭作為采集設(shè)備。同時,City1M 構(gòu)建了45 000 個不同的行人模型,基于此構(gòu)建了11 500個不同的群組類別,共采集了1 840 000 幅全畫幅的群組圖像,每幅圖像的分辨率均為1 920 × 1 080 像素。City1M 是首個小股人群重識別領(lǐng)域百萬級規(guī)模的數(shù)據(jù)集。為了增加數(shù)據(jù)集的多樣性,City1M 包括了尺度變化、光照變化、晝夜變化、遮擋與自遮擋以及群組內(nèi)的人數(shù)變化和位置變化。
DukeGroupVid 數(shù)據(jù)集(Xu 等,2019a)是深度學(xué)習(xí)時代首個基于視頻序列的小股人群重識別數(shù)據(jù)集。該數(shù)據(jù)集由8個攝像頭組成,共收集了371個群組類別和890 段軌跡序列,每段序列包含數(shù)量不固定的視頻幀,范圍從12 幀~6 444 幀不等。每個群組類別出現(xiàn)在2~4 個攝像頭下。由于小股人群重識別的研究在初期階段,基于圖像的任務(wù)尚未良好解決,因此基于視頻的小股人群數(shù)據(jù)集目前還沒有得到過多的關(guān)注。
小股人群重識別的數(shù)據(jù)集主要可分為靜態(tài)圖像數(shù)據(jù)集和視頻序列數(shù)據(jù)集,目前已有的靜態(tài)圖像數(shù)據(jù)集較多且具有不同的風(fēng)格,而視頻序列數(shù)據(jù)集較少且風(fēng)格單一。靜態(tài)圖像數(shù)據(jù)集又可分為真實(shí)圖像數(shù)據(jù)集和合成圖像數(shù)據(jù)集,其中已有的小股人群重識別數(shù)據(jù)集以真實(shí)圖像數(shù)據(jù)集為主。表1 給出了已知群組數(shù)據(jù)集的統(tǒng)計結(jié)果。圖3 給出了部分?jǐn)?shù)據(jù)集的實(shí)例,其中人臉數(shù)據(jù)已經(jīng)被保護(hù)。
圖3 小股人群重識別數(shù)據(jù)集展示Fig.3 Visualization of some group re-identification datasets
表1 小股人群重識別數(shù)據(jù)集內(nèi)容摘錄Table 1 Abstract of group re-identification datasets
本節(jié)從數(shù)據(jù)、標(biāo)簽和模型3 個維度對現(xiàn)有的小股人群重識別方法進(jìn)行介紹。需要指出的是,這3 個維度并不是彼此孤立的,其中基于圖像的有監(jiān)督深度學(xué)習(xí)是目前發(fā)展相對快速的方向。
3.1.1 基于靜態(tài)圖像的方法
基于靜態(tài)圖像的方法是現(xiàn)階段最常用的小股人群重識別任務(wù)下的研究對象。具體地,給定一幅孤立的包含群組成員的圖像(無論是全局的還是經(jīng)過裁剪的,后文統(tǒng)稱為群組圖像),需要根據(jù)其建模群組的表觀特征和群組的布局特征。早期的方法是通過設(shè)計特征描述子在全圖范圍內(nèi)提取群組特征,例如CRRRO(Zheng 等,2009)和Covariance(Cai 等,2010)等。在深度學(xué)習(xí)時代,主流的研究流程是對圖像中出現(xiàn)的行人進(jìn)行檢測并裁剪,以提取準(zhǔn)確的行人特征,并在此基礎(chǔ)上,對群組的結(jié)構(gòu)和特征進(jìn)行建模,例如基于卷積神經(jīng)網(wǎng)絡(luò)的方法MACG(Yan 等,2020)和基于無卷積自注意力模型的方法SOT(Zhang等,2022b)等。
除了上述的研究任務(wù)(判別性群組特征建模),基于合成圖像的方法的額外研究任務(wù)是如何利用虛擬圖像輔助模型在真實(shí)圖像上的性能表現(xiàn)。Zhang等人(2022a)通過實(shí)驗(yàn)發(fā)現(xiàn),由于現(xiàn)有的小股人群重識別數(shù)據(jù)集規(guī)模普遍不大,利用百萬級合成數(shù)據(jù)集City1M 進(jìn)行預(yù)訓(xùn)練,然后直接遷移到現(xiàn)有的真實(shí)圖像數(shù)據(jù)集中進(jìn)行測試,已經(jīng)實(shí)現(xiàn)了具有競爭力的性能表現(xiàn)。
3.1.2 基于視頻序列的方法
基于視頻序列的方法旨在將某個群組一系列連續(xù)幀作為輸入,并對其進(jìn)行群組特征建模。相比于單幀圖像,基于視頻序列的輸入提供了更多的群組知識,對于某些單幀出現(xiàn)嚴(yán)重遮擋的不理想情況,該任務(wù)可以很好地通過前后幀之間的關(guān)系進(jìn)行補(bǔ)充和重建。目前有DukeGroupVid 數(shù)據(jù)集支持相關(guān)的研究工作。其中,Xu 等人(2019a)設(shè)計了一個結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的統(tǒng)一框架。具體地,該方法先利用卷積神經(jīng)網(wǎng)絡(luò)對輸入的每一幀進(jìn)行特征提取,然后利用循環(huán)神經(jīng)網(wǎng)絡(luò)對每幀中具有判別性的特征進(jìn)行挖掘和聚合,最終得到完整的關(guān)于輸入序列的群組特征表達(dá)。在此基礎(chǔ)上,Chen 等人(2021)對上述方法進(jìn)一步完善,分別從個人群體和個人處學(xué)習(xí)信息,設(shè)計得到了雙流注意網(wǎng)絡(luò)TSAN,該網(wǎng)絡(luò)主要考慮了視頻序列中空間特征與時間特征的融合。
3.2.1 基于有監(jiān)督學(xué)習(xí)的方法
基于有監(jiān)督的學(xué)習(xí)方法是該任務(wù)目前主流的研究策略。在訓(xùn)練階段,數(shù)據(jù)集會提供所有的標(biāo)簽信息,包括但不限于成員身份標(biāo)簽、成員位置、群組身份標(biāo)簽和群組區(qū)域等。一般而言,將使用了“群組標(biāo)簽+成員標(biāo)簽”的組合稱為有監(jiān)督學(xué)習(xí)。例如,HAM(Xu 等,2019b)、MACG(Yan 等,2020)和SOT(Zhang等,2022b)等方法在模型的訓(xùn)練階段對這兩方面的標(biāo)簽信息都進(jìn)行了充分利用。模型可以在此基礎(chǔ)上進(jìn)一步選擇使用其他的標(biāo)簽信息,例如使用群組身份標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí)。GCGNN(Zhu 等,2021)使用群組成員在圖像中的2 維位置坐標(biāo)進(jìn)行群組關(guān)系建模;3DT(Zhang 等,2022a)在合成數(shù)據(jù)集City1M上使用數(shù)據(jù)集提供的成員3 維坐標(biāo)來建模群組布局關(guān)系,對于僅提供2 維坐標(biāo)的真實(shí)數(shù)據(jù)集,3DT 先利用已有的單目深度估計算法重構(gòu)成員的3 維位置坐標(biāo),然后再進(jìn)行群組布局關(guān)系建模。除此之外,還有使用額外信息的方法。例如Koperski 等人(2017)在QUEUE02 數(shù)據(jù)集上考慮了群組圖像之間的時空關(guān)聯(lián)性,利用群組在攝像頭之間的運(yùn)動時間來修正某些困難樣本僅基于表觀特征的錯誤關(guān)聯(lián)。
3.2.2 基于弱監(jiān)督學(xué)習(xí)的方法
基于全監(jiān)督的方法需要大量人力標(biāo)注成本,因此部分方法通過僅使用一部分身份標(biāo)簽的策略來構(gòu)建模型。這些僅使用了群組身份標(biāo)簽或者成員身份標(biāo)簽的方法稱為弱監(jiān)督學(xué)習(xí)方法。例如,DotGNN(Huang 等,2019a)僅使用群組標(biāo)簽來設(shè)計和訓(xùn)練模型,SVIGR(Mei 等,2020)分別評測了僅使用群組身份或者成員身份兩種情況下的性能。SVIGR的實(shí)驗(yàn)結(jié)果表明,兩種標(biāo)簽都可以使模型關(guān)注到判別性特征,使用個人身份標(biāo)簽的效果會略優(yōu)于使用群組身份標(biāo)簽的效果。
3.2.3 基于無監(jiān)督學(xué)習(xí)的方法
基于無監(jiān)督學(xué)習(xí)的方法僅使用數(shù)據(jù)集中提供的群組圖像,然后自發(fā)地根據(jù)其內(nèi)在相似度對相同群組身份的圖像進(jìn)行關(guān)聯(lián)?;趥鹘y(tǒng)手工設(shè)計的特征描述符不依賴數(shù)據(jù)集中的標(biāo)簽,因此可以歸屬為無監(jiān)督學(xué)習(xí)方法,例如CRRRO(Zheng 等,2009)、Covariance(Cai 等,2010)和PREF(Lisanti 等,2017,2019)等。
與已有識別任務(wù)類似,小股人群重識別的基本流程主要分為3 個階段,如圖4 所示。第1 階段是數(shù)據(jù)增強(qiáng),即對數(shù)據(jù)集提供的有限樣本進(jìn)行數(shù)量擴(kuò)充,在實(shí)例級層面增加群組的多樣化表達(dá);第2 階段是特征提取,即設(shè)計相應(yīng)的特征提取網(wǎng)絡(luò)或者特征描述符對輸入群組進(jìn)行建模和特征抽?。坏? 階段是特征度量,即設(shè)計特定的度量空間或者特定的特征相似性準(zhǔn)則對上一階段抽取得到的特征進(jìn)行同類聚合和異類分離,這樣使得方法在測試階段能夠?qū)ξ粗悇e的群組依然保持良好的內(nèi)聚性?,F(xiàn)有的主流方法本質(zhì)上從這3 個層面出發(fā)來提升小股人群重識別的性能表現(xiàn)。
圖4 小股人群重識別的任務(wù)流程Fig.4 Pipeline of group re-identification
3.3.1 基于數(shù)據(jù)增強(qiáng)的方法
這類方法主要是從生成式對抗網(wǎng)絡(luò)的角度出發(fā),通過已有的行人數(shù)據(jù)集拓展小股人群重識別數(shù)據(jù)集的樣本規(guī)模。
TSCN(Huang 等,2019b)首先利用風(fēng)格遷移的對抗生成網(wǎng)絡(luò)將傳統(tǒng)行人重識別數(shù)據(jù)集中的行人圖像遷移成為小股人群重識別中的行人風(fēng)格,然后手工對遷移后的行人圖像進(jìn)行群組構(gòu)造(均僅包含兩個成員,并將兩幅行人圖像進(jìn)行拼接即完成群組構(gòu)造);之后對于每個群組,先單獨(dú)提取單人表觀特征,然后將單人表觀特征的差作為群組特征表達(dá)。在測試階段,如果出現(xiàn)多于兩個人的群組,則將行人的表觀特征兩兩相減作為群組的關(guān)系特征。
DotGNN(Huang 等,2019a)同樣是利用基于對抗生成網(wǎng)絡(luò)的域遷移算法實(shí)現(xiàn)行人風(fēng)格從已有行人重識別數(shù)據(jù)集到小股人群重識別數(shù)據(jù)集的轉(zhuǎn)換。在進(jìn)行手動群組的構(gòu)造時,DotGNN考慮了群組內(nèi)成員數(shù)量更多元化的情況,分別生成了2~6 人不等的群組。除此之外,在構(gòu)造群組時,DotGNN 還設(shè)計了群組變動的情況,即在一個成員穩(wěn)定不變的基礎(chǔ)群組中,隨機(jī)引入額外的干擾成員并且不引起群組類別的改變。在建模群組特征時,也采用了圖神經(jīng)網(wǎng)絡(luò)群組進(jìn)行建模和特征提取。
DotSCN(Huang等,2021)是對TSCN 的改進(jìn)和拓展。該方法在數(shù)據(jù)增強(qiáng)方面與TSCN 是類似的,在對群組特征進(jìn)行建模和提取時,提出了新的特征融合方式。通過對排序—距離曲線的觀察,提出了基于L型曲線的單人和成對特征的融合策略。
SFALN模型(Liu等,2021)利用循環(huán)生成網(wǎng)絡(luò)模型實(shí)現(xiàn)傳統(tǒng)行人數(shù)據(jù)集與小股人群數(shù)據(jù)集之間的圖像風(fēng)格遷移。然后利用將深度殘差網(wǎng)絡(luò)與非局部注意力模塊相結(jié)合的網(wǎng)絡(luò)模型提取群組圖像特征。
3.3.2 基于手工特征的方法
基于手工特征的方法是早期小股人群重識別研究中常見的方式之一,這類方法不依賴海量數(shù)據(jù),與早期的數(shù)據(jù)集規(guī)模是契合的,也給后來的研究提供了良好的思路和方向。
CRRRO-BRO(Zheng 等,2009)描述符是早期的研究工作之一。其中,CRRRO 是一種近似旋轉(zhuǎn)不變的描述符,從圖像的中心開始,以矩形環(huán)帶的方式沿徑向向外展開。接下來,在每個矩形環(huán)區(qū)域內(nèi)構(gòu)造基于直方圖特征表達(dá),最終得到整幅圖像的特征。但是,CRRRO 仍然不能很好地處理成員在群體中大幅度的非中心旋轉(zhuǎn)變化。同時CRRRO 也沒有利用任何局部結(jié)構(gòu)信息,因此又進(jìn)一步提出了BRO 描述符。BRO 基于全圖的均勻切塊,并對每一個子塊提取相應(yīng)的局部特征。
Covariance 描述符(Cai 等,2010)也是基于手工特征的方法,早期應(yīng)用在目標(biāo)檢測等多個視覺任務(wù)中。該描述子的優(yōu)良性質(zhì)在于協(xié)方差矩陣中編碼了足夠多的判別信息。此外,它還以一種較低的維數(shù)將多種異構(gòu)特征自然地組合在一起。在任務(wù)中,Covariance 描述符對于群組圖像中每一個像素的空間位置和RGB 值進(jìn)行編碼,得到一個低維度的協(xié)方差矩陣作為群組圖像的特征表達(dá),并用基于協(xié)方差矩陣的特征值來衡量群組圖像之間的相似度。
SBC 方法(Salamon 等,2015)是一種用戶交互式的特征描述子,是一個基于手工定義的軟生物特征。用戶能夠選擇描述屬于小股人群的每個成員的軟生物統(tǒng)計學(xué)屬性的顏色。該方法使用顏色距離度量和新穎的自適應(yīng)閾值進(jìn)行檢索匹配。實(shí)驗(yàn)結(jié)果表明,該方法能夠幫助重識別過程在沒有訓(xùn)練數(shù)據(jù)的情況下對最可能的結(jié)果進(jìn)行排序,并且可以在沒有先前圖像的情況下進(jìn)行擴(kuò)展。
BSC + CM(boosted salience channels + consistent matching)方法(Zhu等,2016)是一個兩階段的基于手工特征的群組描述方法。在第1 階段使用增強(qiáng)式顯著性通道BSC 的方法,在第2 階段進(jìn)行一致性匹配CM。其中,BSC 首先將群組圖像利用稠密網(wǎng)格均勻分為若干個子塊,并對每一個子塊用無監(jiān)督顯著性算法得到每個子塊的顯著性分?jǐn)?shù)(得分區(qū)間在0~1 之間),然后利用閾值過濾保留存在顯著行人的子塊,簡稱為顯著性塊集合,為后一步處理做準(zhǔn)備。在一致性匹配CM 階段,對于一對群組圖像中的兩個顯著性塊集合進(jìn)行相似度匹配,并根據(jù)基于對應(yīng)塊的相似度構(gòu)造出兩個顯著性塊集合的相似度,作為兩個群組圖像之間的距離。
PREF方法(Lisanti 等,2017)是基于稀疏字典編碼的手工特征方法。該方法首先在單個行人的數(shù)據(jù)集上進(jìn)行稀疏字典的學(xué)習(xí),然后在群組數(shù)據(jù)集上利用學(xué)習(xí)好的字段構(gòu)造群組特征。在字典的學(xué)習(xí)過程中,首先將單人行人的圖像均分切分為若干個正方形子塊。對每一個子塊提取在RGB,LAB,HS等3種顏色空間下的直方圖特征。然后對每一個子塊學(xué)習(xí)稀疏的字典表達(dá),即希望用少數(shù)的字典中的原子表達(dá),可以最大程度地重構(gòu)出輸入塊的顏色特征。在求解字典的原子表達(dá)時,PREF 使用了最小角回歸(least angle regression,LARS)的迭代優(yōu)化方法(Efron等,2004)。在測試階段,對于群組圖像的每一個子塊,計算與對應(yīng)字典原子的系數(shù)作為特征,最后將所有塊的系數(shù)特征執(zhí)行平均值或最大值,并取其主成分分析下的最相關(guān)分量作為群組特征表達(dá)。PREF方法后續(xù)又得到進(jìn)一步完善(Lisanti 等,2019),但核心思想仍然是一致的。
3.3.3 基于深度特征的方法
深度學(xué)習(xí)在越來越多的視覺任務(wù)中發(fā)揮著不可忽視的作用,因此研究人員也考慮將其應(yīng)用在小股人群重識別任務(wù)中。其中主要包括卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)以及自注意力模型Transformer的單獨(dú)使用及組合。
HAM 模型(Xu 等,2019b)旨在解決基于靜態(tài)圖像的小股人群重識別任務(wù)中的空間結(jié)構(gòu)變化問題,HAM 是基于卷積神經(jīng)網(wǎng)絡(luò)設(shè)計的,并在此基礎(chǔ)上同時加入了空間注意力和通道注意力機(jī)制,使得模型更加關(guān)注能夠提取判別性特征的區(qū)域。
MACG(Yan等,2020)模型是一個基于多級注意的上下文圖結(jié)構(gòu)學(xué)習(xí)框架,它是卷積神經(jīng)網(wǎng)絡(luò)與圖神經(jīng)網(wǎng)絡(luò)的組合模型。具體而言,MACG 將每個小股人群建模為上下文圖,其中節(jié)點(diǎn)指的是組內(nèi)成員。上下文圖表示有兩個優(yōu)點(diǎn)。首先,可以通過節(jié)點(diǎn)的特征聚合獲得圖層級的群組表示,這從本質(zhì)上解決了群組布局和群組成員變化的挑戰(zhàn)。其次,通過使用圖神經(jīng)網(wǎng)絡(luò),組中的節(jié)點(diǎn)特征可以受益于上下文信息,這大幅促進(jìn)了信息通過圖邊的傳播?;诖?,小股人群重識別任務(wù)可以建模為圖層級特征學(xué)習(xí)任務(wù)。此外,MACG 還提出了一種多層次的注意機(jī)制來學(xué)習(xí)小股人群的上下文信息圖。對于節(jié)點(diǎn)級表示,提出了圖內(nèi)和圖間注意模塊,分別對同一幅圖內(nèi)和不同圖間的上下文信息進(jìn)行編碼。MACG 進(jìn)一步構(gòu)建了更高層次的注意機(jī)制,用于聚合節(jié)點(diǎn)級特征,以獲得最終的圖級表示。在測試階段,一幅群組圖像的圖級特征表達(dá)直接用于特征檢索。
GCGNN(Zhu 等,2021)對每一個群組建模為空間K-最 近 鄰 圖(spatial K-nearest neighbor graph,SKNNG),并在此基礎(chǔ)上提出了一個組上下文圖神經(jīng)網(wǎng)絡(luò)用于群組特征表示學(xué)習(xí)。GCGNN 基于一個先驗(yàn)觀察,即在不同的攝像機(jī)下,相距較近的群內(nèi)成員比相距較遠(yuǎn)的組內(nèi)成員更可能保持在同一組中。具體而言,GCGNN 根據(jù)群組圖像中成員的位置信息坐標(biāo)構(gòu)建SKNNG,其中每個節(jié)點(diǎn)僅與最相鄰的K個成員存在鄰接關(guān)系。對于所構(gòu)建圖中的每個節(jié)點(diǎn)(每個成員),GCGNN 學(xué)習(xí)相應(yīng)的一個特征嵌入,該嵌入從相鄰節(jié)點(diǎn)聚合上下文信息。GCGNN 根據(jù)圖的屬性,包括節(jié)點(diǎn)的度和空間關(guān)系屬性,設(shè)計了多個鄰域聚合加權(quán)核。最后,GCGNN 計算組成員關(guān)聯(lián)的兩個圖的節(jié)點(diǎn)嵌入之間的相似度得分,并將所有鏈接節(jié)點(diǎn)對的相似度得分相加,得到兩個圖之間的匹配得分。
PRM 方法(Hu等,2021)是一個基于深度特征的負(fù)平均關(guān)系和算術(shù)平均描述符,用于緩解小股人群重識別中的群組關(guān)系變化。其中,負(fù)平均關(guān)系描述符可以用來描述組成員外觀上的差異。該方法將由負(fù)平均關(guān)系描述符獲得的特征和由算術(shù)平均描述符獲得的特征輸入到交叉熵?fù)p失函數(shù)中進(jìn)行監(jiān)督學(xué)習(xí),然后應(yīng)用梯度下降算法對目標(biāo)函數(shù)進(jìn)行優(yōu)化,得到12個描述群體特征的分類器。
SOT 模型(Zhang 等,2022b)從單幅圖像的群組關(guān)系出發(fā),指出已有的方法針對每幅群組圖像僅考慮了圖像中所提供的群組關(guān)系,忽略了對于未知群組關(guān)系的建模?;诖?,SOT 設(shè)計了一種基于不確定性建模方法,將每個群組圖像看做一個分布而不是固定值,然后通過隨機(jī)采樣挖掘出潛在組?;跐撛诘暮驮嫉娜航M關(guān)系,不確定性建??梢愿玫貙W(xué)習(xí)類別邊界。此外,SOT 還提出了一種二階自注意力模型,一種新穎的無卷積深度網(wǎng)絡(luò)模型Transformer。其動機(jī)來自于自注意力模型的位置編碼結(jié)構(gòu)與小股人群重識別任務(wù)是相契合的。SOT 由成員內(nèi)模塊和成員間模塊組成。具體而言,成員內(nèi)模塊提取每個成員的一階Token 特征作為成員表觀特征,然后成員間模塊通過上述一階Token 提取二階Token特征,作為群組特征表達(dá)。
3DT 模型(Zhang 等,2022a)考慮了現(xiàn)有的基于成像平面的位置信息是具有歧義的,并不能準(zhǔn)確反映成員在真實(shí)3維場景下的位置關(guān)系?;诖?,3DT模型通過3 維布局建??朔松鲜霾蛔?。具體而言,3DT 模型是一種基于自注意力模型Transformer的網(wǎng)絡(luò)結(jié)構(gòu)。對于沒有3維位置標(biāo)注的數(shù)據(jù)集,3DT首先利用單目深度估計算法成員之間的相對3D 布局關(guān)系,得到歸一化的布局空間,然后應(yīng)用采樣和量化沿3 個維度預(yù)設(shè)一系列布局標(biāo)記,并根據(jù)成員在其中的位置坐標(biāo)選擇相應(yīng)的標(biāo)記作為每個成員的布局特征。
3.3.4 基于度量學(xué)習(xí)的方法
小股行人重識別本質(zhì)上是一個開集任務(wù),在測試階段并不看重模型的分類能力,而是特征是否能夠表現(xiàn)出顯著的類內(nèi)聚集與類間分散。因此通過度量學(xué)習(xí)調(diào)整特征之間的距離,或者設(shè)計更加契合度量的特征空間也是解決小股人群重識別的有效方案。
LIMI(Xiao 等,2018)試圖通過特征度量的方式來解決群組關(guān)系的變動,即處于變動狀態(tài)下的群組特征或許會不同,但是其相似度應(yīng)是穩(wěn)定不變的?;诖?,LIMI 考慮了多粒度的群組信息,即個人以及群體圖像中由2個成員和3個成員組成的子群體。LIMI 通過計算多粒度特征來描述多粒度對象的表觀和空間特征,并評估每個成員在小股人群識別中的重要性權(quán)重,從而緩解群組關(guān)系動態(tài)變化的干擾。LIMI 使用基于多粒度表示和重要性權(quán)重的多階匹配過程來計算最優(yōu)分組匹配。此外,LIMI 根據(jù)當(dāng)前匹配結(jié)果動態(tài)更新重要性權(quán)重,然后計算新的最優(yōu)分組匹配。這兩個步驟是迭代執(zhí)行的,產(chǎn)生最終的匹配結(jié)果。之后,原作者團(tuán)隊又將LIMI 進(jìn)一步拓展成為MGR(Lin 等,2021),其中主要是對特征提取的方式進(jìn)行了完善,但對于特征度量的思想是一致的。
LSRD(Xu 等,2019b)提出了一種基于最小二乘算法的最小二乘剩余距離。LSRD 可以利用最小二乘法得到的擬合函數(shù)的殘差,實(shí)現(xiàn)學(xué)習(xí)群組圖像對之間的度量。
SVIGR 模型(Mei 等,2020)在使用孿生網(wǎng)絡(luò)模型提取成員特征之后,設(shè)計基于最小距離的匹配原則,構(gòu)造群組距離向量并實(shí)現(xiàn)了“成員—群組”匹配問題。即衡量兩個群組的特征距離時,用兩個群組中特征距離最近的兩個成員之間的距離作為整體的群組特征距離。
P2GSM-AR(Mei 等,2021)考慮在群組成員存在干擾的條件下進(jìn)行相似度衡量。與SVIGR 類似,P2GSM-AR 也從單人特征距離的角度出發(fā)去衡量群組之間的距離,并在此基礎(chǔ)上考慮了更復(fù)雜的成員與成員之間的關(guān)系,其核心思想是尋找兩個群組圖像中最相似成員的子集合的距離作為群組距離的計算依據(jù)。
小股行人重識別的算法在數(shù)據(jù)類型上可分為基于靜態(tài)圖像的方法和基于視頻序列的方法;在標(biāo)簽策略上可分為有監(jiān)督、弱監(jiān)督和無監(jiān)督的方法;在模型策略上可分為基于數(shù)據(jù)增強(qiáng)、基于特征提取和基于度量學(xué)習(xí)的方法?;谔卣魈崛〉姆椒ㄓ挚杉?xì)分為基于手工特征的方法和基于深度學(xué)習(xí)的方法?,F(xiàn)有小股行人重識別算法的技術(shù)分類概覽如表2所示。
表2 現(xiàn)有方法技術(shù)分類概覽Table 2 Abstract of the types of existing methods
與行人重識別相同,小股人群重識別在模型測試階段主要通過平均準(zhǔn)確率均值(mean average precision,mAP)和前k位命中率(Rank-k)進(jìn)行衡量。其中mAP和Rank-1是衡量模型性能最關(guān)鍵,也是學(xué)術(shù)界和工業(yè)界最關(guān)心的兩個性能指標(biāo)。mAP 衡量底庫中與待查詢圖像身份相同的群組圖像是否都能盡可能地出現(xiàn)在排序結(jié)果的靠前位置的水平;Rank-1(也稱首位命中率)衡量待查詢圖像的首位檢索結(jié)果是否與其身份相同。
現(xiàn)有的前沿代表算法在現(xiàn)有數(shù)據(jù)集上的模型性能結(jié)果統(tǒng)計如表3 所示。值得注意的是,并非所有的數(shù)據(jù)集在提出之后都得到廣泛使用。例如,早期的小股人群數(shù)據(jù)集CASIAGroup 和ONLUGroup,后來都鮮有方法用其進(jìn)行性能評測和消融實(shí)驗(yàn)分析。以靜態(tài)圖像為例,公認(rèn)廣泛使用的數(shù)據(jù)集包括iLIDS-MCTS、RoadGroup、DukeGroup和CSG。
表3 不同數(shù)據(jù)集的前沿代表算法摘錄Table 3 Abstract of the state-of-the-art methods on different datasets/%
一些現(xiàn)有的前沿算法在部分主流數(shù)據(jù)集上的結(jié)果比較如表4 所示??梢钥吹?,基于深度學(xué)習(xí)的方法已經(jīng)成為解決小股人群重識別的主流趨勢,基于手工特征的方法已經(jīng)日漸式微。在4 個主流數(shù)據(jù)集上,均是基于深度學(xué)習(xí)的模型實(shí)現(xiàn)了最佳性能?;谑止ぬ卣鞯姆椒ㄔ谠缙诘男∫?guī)模群組數(shù)據(jù)集中還有所嘗試,但在最新的數(shù)據(jù)集上已經(jīng)無法與深度學(xué)習(xí)抗衡?;谑止ぬ卣鞯姆椒ㄔ谛?shù)據(jù)集上表現(xiàn)尚可,其中一部分原因是因?yàn)樾?shù)據(jù)集中所包含的群組關(guān)系、背景干擾都是相對有限的。手工特征設(shè)計者可以在設(shè)計之初針對這些特點(diǎn)給出相應(yīng)的解決方案,然而面對大規(guī)模數(shù)據(jù)集時,數(shù)據(jù)集中的群組變化、背景變化等挑戰(zhàn)已經(jīng)遠(yuǎn)遠(yuǎn)超過手工特征算子的表達(dá)能力。此時,基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法成為了主流研究趨勢。這不僅是本任務(wù)中才出現(xiàn)的現(xiàn)象,而是在很多視覺任務(wù)中都表現(xiàn)出的通用結(jié)論。然而,深度學(xué)習(xí)并非完美,在小數(shù)據(jù)集上深度學(xué)習(xí)往往容易過擬合。因此,如何將兩者結(jié)合才是更重要的研究任務(wù)。更進(jìn)一步地,在基于深度學(xué)習(xí)的方法中,目前還沒有完全統(tǒng)一的框架,基于不同思路的深度學(xué)習(xí)模型在小股人群重識別任務(wù)中都發(fā)揮了不錯的性能。在iLIDS-MCTS 數(shù)據(jù)集上,SVIGR 方法通過卷積神經(jīng)網(wǎng)絡(luò)和群組相似度度量的方法達(dá)到了當(dāng)前最好性能;在RoadGroup、DukeGroup 和CSG 這3 個數(shù)據(jù)集上,基于自注意力模型Transformer 和大規(guī)模預(yù)訓(xùn)練的方法3DT+取得了一致的最好性能。
表4 主流數(shù)據(jù)集的算法性能評測Table 4 Performance evaluation of methods for mainstream datasets/%
本節(jié)主要論述了小股人群重識別的模型在數(shù)據(jù)集上的性能評估指標(biāo)以及近年來主流方法在主流數(shù)據(jù)集上的性能評測結(jié)果。
小股人群重識別是智能監(jiān)控領(lǐng)域中非常重要的任務(wù)之一,是對傳統(tǒng)行人重識別任務(wù)的新興拓展方向。隨著社會安防的需求升級,這一任務(wù)得到了越來越多的關(guān)注,產(chǎn)生了相應(yīng)的研究成果,對于推動該任務(wù)的發(fā)展起到了積極作用。本文對小股人群重識別的相關(guān)研究進(jìn)行了全面的回顧與介紹,對前沿算法進(jìn)行討論,形成觀點(diǎn)如下:
1)小股人群重識別的獨(dú)有研究核心是對于群組結(jié)構(gòu)的建模與描述。這是該任務(wù)區(qū)別于傳統(tǒng)單目標(biāo)重識別任務(wù)的獨(dú)特之處。通過回顧不難發(fā)現(xiàn),主流的研究都是圍繞這一問題展開,早期的手工特征描述子從全圖提取群組特征;基于卷積神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)的方法從特征層面先構(gòu)造單人特征,并進(jìn)一步在基礎(chǔ)上構(gòu)造群組特征;后來基于自注意力模型的方法也是沿襲這個研究思路并加以改進(jìn)。因此,小股人群重識別的方法對于多目標(biāo)的關(guān)系建模是關(guān)鍵的研究內(nèi)容之一。
2)基于深度學(xué)習(xí)的方法成為當(dāng)前研究的主流方向。當(dāng)前,小股人群重識別技術(shù)所面臨的挑戰(zhàn)更多,其群組結(jié)構(gòu)的變化更加復(fù)雜,其場景更加多樣性。因此,基于手工特征的方法表達(dá)能力有限,非常依賴設(shè)計者對于具體場景的特點(diǎn)分析。在面對海量的數(shù)據(jù)集時,手工描述符往往很難給出精確的描述。然而,基于數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)則完全發(fā)揮了模型優(yōu)勢與大規(guī)模數(shù)據(jù)優(yōu)勢,自發(fā)地去挖掘數(shù)據(jù)內(nèi)部的關(guān)聯(lián)。然而,這并非完全否定手工特征的作用。在數(shù)據(jù)集規(guī)模較小時,基于深度學(xué)習(xí)的模型容易出現(xiàn)過擬合的現(xiàn)象,因此手工特征的設(shè)計思路可以被深度學(xué)習(xí)所借鑒,通過正則化的方式減少模型參數(shù)的搜索量;在深度學(xué)習(xí)的模型設(shè)計時,研究人員并非全部依賴深度學(xué)習(xí)自身的擬合能力,而是利用手工特征的思想,在關(guān)鍵環(huán)節(jié)指導(dǎo)深度模型的學(xué)習(xí),降低模型的擬合難度。例如在PRM 模型(Hu 等,2021)中,利用差分特征這一傳統(tǒng)特征提取的思想,深度學(xué)習(xí)模型獲得了更具有判別性的群組特征。在數(shù)據(jù)集場景較為復(fù)雜時,可以通過時序先驗(yàn)信息先對全部數(shù)據(jù)進(jìn)行粗篩,然后再用深度學(xué)習(xí)的方法獲得最終結(jié)果。綜上所述,深度學(xué)習(xí)已經(jīng)成為該任務(wù)的主流研究方式,并且在此基礎(chǔ)上與傳統(tǒng)方法相結(jié)合將會為這一任務(wù)帶來更多的促進(jìn)和啟發(fā)。
3)基于深度學(xué)習(xí)的方法沒有形成完全統(tǒng)一的處理框架。目前小股人群重識別技術(shù)處于快速發(fā)展的階段,從各種不同角度出發(fā)的深度學(xué)習(xí)模型層出不窮,例如基于卷積神經(jīng)網(wǎng)絡(luò)的、基于特征度量學(xué)習(xí)的、基于生成對抗網(wǎng)絡(luò)的、基于自注意力模型的,等等。然而,在面對一個具體場景時,目前沒有形成完全統(tǒng)一且十分完善的解決框架,也沒有形成定論哪種方法會更好。需要指出的是,此處所提出的“統(tǒng)一框架”是指小股人群重識別模型在實(shí)際應(yīng)用下還沒有形成統(tǒng)一的選擇標(biāo)準(zhǔn),目前仍處在一個百花齊放的快速發(fā)展階段。一般而言,基于生成對抗網(wǎng)絡(luò)的網(wǎng)絡(luò)通常用于模型離線訓(xùn)練的數(shù)據(jù)增強(qiáng)階段;基于度量學(xué)習(xí)的方法傾向于僅在訓(xùn)練時使用。在實(shí)際場景的使用中,本文傾向于選擇僅使用特征提取的網(wǎng)絡(luò)模型,在此基礎(chǔ)上會選擇符合使用大規(guī)模數(shù)據(jù)集訓(xùn)練,提取特征維度短,依賴額外先驗(yàn)少,檢索速度實(shí)時的深度模型,這也是以上各類深度學(xué)習(xí)的方法可以考慮改進(jìn)和優(yōu)化的方向。當(dāng)然這一傾向不是絕對的,隨著技術(shù)的發(fā)展也會及時更迭。
隨著小股人群重識別的發(fā)展,也有一些潛在的問題和發(fā)展方向值得注意。
1)小股人群重識別的現(xiàn)有研究對于現(xiàn)實(shí)場景下的種種挑戰(zhàn)關(guān)注過少。例如,行人重識別技術(shù)會不可避免地受到晝夜更替的光照變化,因此針對跨模態(tài)下的行人重識別受到廣泛關(guān)注;行人重識別會受到成像分辨率的影響,因此提出了跨分辨率的行人重識別;行人重識別還會受到成員表觀遮擋的嚴(yán)重影響,因此面向遮擋場景的行人重識別成為研究子任務(wù)之一。與行人重識別的廣泛研究相比,小股行人重識別中在面向無監(jiān)督的研究、面向視頻的研究都相對過少;面向跨模態(tài)、不同分辨率以及遮擋的研究等幾乎依然處于空白的狀態(tài)。因此,該任務(wù)一方面可以采集相應(yīng)場景下的數(shù)據(jù)集,給相關(guān)研究創(chuàng)造研究基礎(chǔ)和研究環(huán)境;另一方面,該任務(wù)可以更多地從單人行人重識別中借鑒相關(guān)的前沿算法,并針對小股人群重識別任務(wù)在不同場景下的獨(dú)特挑戰(zhàn)展開相關(guān)的研究。
2)小股人群重識別的現(xiàn)有研究與已有視覺任務(wù)的協(xié)同和關(guān)聯(lián)不夠緊密。小股人群重識別作為一個新興子方向,應(yīng)積極探討與其他視覺任務(wù)相結(jié)合的可能性,以期通過本任務(wù)推動其他任務(wù)的性能發(fā)展,亦或借鑒其他任務(wù)的解決框架來改進(jìn)本任務(wù)的方法流程。例如,是否可以將小股人群重識別與其他群體視覺任務(wù)相結(jié)合以起到相互協(xié)同促進(jìn)的結(jié)果;是否可以將小股人群重識別與其他3 維場景理解的方法相結(jié)合,以便更好地分析群組的關(guān)系等,這些都是值得關(guān)注和思考的問題。
3)隨著數(shù)據(jù)隱私政策的增強(qiáng),小股人群重識別的研究難度加劇。隨著全球?qū)τ谌祟愲[私數(shù)據(jù)保護(hù)政策的加強(qiáng),小股人群重識別的研究也受到了一定的限制。DukeMTMC(duke multi-target multi-camera)數(shù)據(jù)集(Gou 等,2017)已經(jīng)由于隱私政策被禁止使用。在小股人群重識別的發(fā)展過程中,有相當(dāng)一部分的數(shù)據(jù)集是基于DukeMTMC 數(shù)據(jù)集進(jìn)一步改造而提出的,使得小股人群重識別任務(wù)在部分?jǐn)?shù)據(jù)集上存在被禁止研究和使用的風(fēng)險。針對這一現(xiàn)狀,部分研究者已經(jīng)給出了初步嘗試,即在City1M 數(shù)據(jù)集(Zhang等,2022a)中通過圖形學(xué)生成虛擬數(shù)據(jù),以免去對于現(xiàn)場場景隱私的獲取。這一思路也啟發(fā)該任務(wù)領(lǐng)域研究如何通過圖形學(xué)和3D 技術(shù)產(chǎn)生脫敏數(shù)據(jù)。同時這也啟發(fā)本文思考如何建立虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的聯(lián)系,如何綜合兩種數(shù)據(jù)的優(yōu)勢從而進(jìn)一步推送該任務(wù)的發(fā)展。首先,真實(shí)數(shù)據(jù)可以指導(dǎo)虛擬數(shù)據(jù)的質(zhì)量和語義更加符合現(xiàn)實(shí)場景,使得虛擬數(shù)據(jù)更加具有研究價值;其次,低成本的虛擬數(shù)據(jù)集可以遷移到真實(shí)數(shù)據(jù)集以豐富現(xiàn)有數(shù)據(jù)集的表達(dá)模式;最后,在當(dāng)下的元宇宙熱潮中,小股人群重識別方法也有著非常廣闊的應(yīng)用前景。因?yàn)樵谠钪嬷幸泊嬖谥鄳?yīng)的小群體活動,所以小股人群重識別方法對元宇宙中的公眾財產(chǎn)和安全保護(hù)也會發(fā)揮積極正面的作用。此外,一些基于其他模態(tài)傳感器的方法,可以在規(guī)避敏感行人數(shù)據(jù)的同時,完成對于小股群體的身份識別,在未來也有非常重要的研究價值。
4)小股人群重識別的學(xué)術(shù)研究和業(yè)界需求還未形成良好互動。小股人群重識別目前處于學(xué)術(shù)界廣泛關(guān)注、工業(yè)界關(guān)注不足的狀態(tài)。這對于小股人群重識別這一面向應(yīng)用的任務(wù)是不友好的。因此,該領(lǐng)域的研究人員應(yīng)積極推動學(xué)術(shù)界與工業(yè)界的協(xié)同合作。學(xué)術(shù)界通過業(yè)界的實(shí)際情況來調(diào)整該任務(wù)所要面對的場景與實(shí)際問題,同時業(yè)界通過學(xué)術(shù)界前沿算法找到該任務(wù)可以落地的業(yè)務(wù)場景。通過產(chǎn)學(xué)結(jié)合,共同推動小股人群重識別任務(wù)的發(fā)展,加速該任務(wù)的落地。更進(jìn)一步地,工業(yè)界可根據(jù)最新的前沿算法,個性化設(shè)計相應(yīng)的硬件設(shè)備和軟件系統(tǒng)模型,實(shí)現(xiàn)統(tǒng)一的部署與設(shè)備分發(fā),為該任務(wù)快速、高效和可信分布式部署提供可能性與保障。
本文對小股人群重識別技術(shù)的研究進(jìn)展進(jìn)行了全面的梳理回顧,對于該任務(wù)的基本概念、數(shù)據(jù)集、相關(guān)技術(shù)及未來發(fā)展趨勢進(jìn)行了簡要總結(jié)。在此基礎(chǔ)上,對多種小股人群重識別算法進(jìn)行了詳細(xì)介紹,并在多個數(shù)據(jù)集上對前沿算法進(jìn)行了性能對比。小股人群重識別任務(wù)具有重要的研究意義和應(yīng)用價值,值得學(xué)術(shù)界和工業(yè)界更多的關(guān)注和推動。