徐巖,郭曉燕,榮磊磊,2
1.山東科技大學 電子信息工程學院,山東 青島266590
2.盛瑞傳動股份有限公司,山東 濰坊261000
車輛重識別(re-identification,Re-ID)的任務是根據(jù)給定的目標車輛圖像,實現(xiàn)在車輛數(shù)據(jù)庫中快速精確匹配到相同身份(identity,ID)的車輛圖像,故可以看作是圖像檢索的子問題。近年來,隨著智能交通監(jiān)控設備的快速發(fā)展,大量攝像頭部署在公路、十字路口等區(qū)域,這些攝像頭產(chǎn)生的圖像反映出的車輛類內(nèi)特征以及類間特征,常用于車輛檢測與識別[1-2]、車輛細粒度分類[3-4]、車輛跟蹤[5-6]等領域。早期車輛重識別工作主要是對車牌進行識別[7-9],但在實際的外界環(huán)境下,由于光照、天氣、視角以及遮擋等因素的影響,使得車牌識別的難度提升。
自20世紀90年代至21世紀初期,常用于車輛重識別的方法為基于傳感器的方法,如Kwong 等人[10]提出了利用無線磁傳感器進行路口車輛行駛時間以及高速公路兩個位置之間車輛數(shù)目的預測;Prinsloo等人[11]設計并實現(xiàn)了一個將全球定位系統(tǒng)(global positioning system,GPS)、射頻識別技術和全球移動通信系統(tǒng)技術相結合的精確車輛定位系統(tǒng)。之后,一些基于傳統(tǒng)機器學習的方法被提出,如利用三維(3D)建模來提取多個視角下的車輛特征[12],利用尺度不變特征變換(scale-invariant feature transform,SIFT)算子[13-14]正確提取車輛的局部外觀,采用線性回歸方法的顏色直方圖和方向梯度直方圖進行車輛重識別[15]以及用于處理圖像紋理的局部二進制模式[16-17]。由于傳感器成本較高,易受環(huán)境、天氣等因素的干擾,而基于傳統(tǒng)機器學習的方法只對特定場景、圖像有效,泛化能力較差,故這些方法在實際應用中不是首選。近年來,在深度學習技術的推動下,一些基于深度學習的車輛重識別方法相繼被提出。如一些研究者為提取車輛更具細微差別和魯棒性的特征信息而引入局部特征學習[18-21];還有一些研究者通過訓練大量的數(shù)據(jù)來獲得數(shù)據(jù)的有效表示進行表示學習,從而在構建分類器或其他預測器時更容易提取有用的信息[22-26];或者使用注意力機制關注車輛具有重要信息的部分,有效地消除背景等其他干擾[27-31];以及通過設計合適的損失函數(shù)來優(yōu)化網(wǎng)絡訓練的度量學習[32-37]。
雖然現(xiàn)有的方法在車輛重識別工作中有了突破進展,但在實際場景中仍然存在諸多的挑戰(zhàn)。一方面,不同的車輛數(shù)據(jù)集之間存在域間差異,即對某個數(shù)據(jù)集的圖像訓練得到重識別模型后,在無調整的情況下,直接用于測試另一個不同的數(shù)據(jù)集,其性能和準確率往往會降低,泛化能力表現(xiàn)弱。并且在同一數(shù)據(jù)集中不同攝像頭拍攝的車輛視角、遠近、照明及分辨率的變化也會導致圖像風格的差異,不同車輛可能表現(xiàn)出類似的外觀,即類間差異小;相同的車輛在不同攝像頭中可能表現(xiàn)出不同的外觀,即類內(nèi)差異大,這使得判別性特征難以提取。另一方面,實際監(jiān)控場景中更多的是缺少標簽的車輛圖像,采用人力標注則耗時耗力。
為解決上述問題,車輛重識別多是采用監(jiān)督學習的方法,盡管該方法借助人工標注的車輛標簽獲得較高的重識別精度,但是面對車輛數(shù)據(jù)龐大的真實場景,不僅人工標注數(shù)據(jù)的成本會不斷增加,而且模型的魯棒性與泛化能力也會大幅下降,因此,適合于真實場景的無監(jiān)督學習車輛重識別研究十分重要。該研究的主要思路包括利用生成對抗網(wǎng)絡(generative adversarial networks,GAN)來實現(xiàn)不同數(shù)據(jù)集之間風格的轉換、多個視角的生成等;或采用聚類算法為樣本生成偽標簽,然后將帶有偽標簽的數(shù)據(jù)輸入到改進的卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)中進行訓練;或利用外部存儲結構對目標域的圖像特征進行存儲更新,獲得更全面的圖像特征。目前國內(nèi)外關于無監(jiān)督學習的車輛重識別研究工作相對較少,并且缺乏與之相關的綜述文獻。因此,本文聚焦于無監(jiān)督學習方法在車輛重識別中的研究進展。
近年來,車輛重識別研究人員相繼收集了多種車輛數(shù)據(jù)集來進行課題的研究,這些數(shù)據(jù)集在規(guī)模大小、圖像來源、標注信息等方面有很大的不同。本節(jié)選取了目前車輛重識別領域關注度較高的數(shù)據(jù)集進行介紹。
(1)VeRi-776 數(shù)據(jù)集[38]是由北京郵電大學收集、標注并發(fā)布的一個公共車輛數(shù)據(jù)集。該數(shù)據(jù)集是在VeRi數(shù)據(jù)集[14]的基礎上進行補充的,包含51 035張關于776 輛車的圖像,且標注信息增加了對車牌、地理位置、時間戳以及相鄰相機之間距離的標注。
(2)VehicleID 數(shù)據(jù)集[32]是由北京大學數(shù)字媒體研究所制作,包括221 763 張關于26 267 輛車的圖像,每個圖像中的車輛只有正面或背面兩種視角,并且每張圖像標注有車輛ID、攝像頭編號以及車輛型號的詳細信息。
(3)PKU-VD 數(shù)據(jù)集[39]是由北京大學數(shù)字視頻編解碼技術國家工程實驗室所構建,包含VD1(共1 097 649張)和VD2(共807 260張)兩個大規(guī)模數(shù)據(jù)集。其中VD1 包含1 232 種車型,共11 種顏色,VD2包含1 112種車型,共11種顏色。兩個數(shù)據(jù)集中的每張圖像均提供了不同的屬性注釋,包括車輛ID、模型和顏色。
(4)Vehicle-1M數(shù)據(jù)集[40]是由中國科學院自動化研究所構建的目前規(guī)模最大的車輛重識別數(shù)據(jù)集,包含55 527輛車、400種車型的936 051張圖像,每張圖像中的車輛都標注了廠商、車輛型號和發(fā)售年份。
(5)VRIC數(shù)據(jù)集[41]是較之前的車輛數(shù)據(jù)集表現(xiàn)更為真實的車輛重識別數(shù)據(jù)集,包含60 個不同的攝像頭在晝夜不同的道路交通場景中拍攝的60 430張關于5 622輛汽車的圖像。較VeRi-776[38],VRIC中的車輛圖像在分辨率、運動模糊、光照、遮擋和視點方面具有更真實和不受約束變化的特點。
(6)VERI-Wild數(shù)據(jù)集[42]是目前真實場景中最具挑戰(zhàn)性的數(shù)據(jù)集,通過一個大型CCTV 系統(tǒng)所捕獲,包含174 個監(jiān)控攝像頭、覆蓋200 多平方公里的城區(qū)。該數(shù)據(jù)集包含416 314 張關于40 671 輛車的圖像,將277 797 張圖像(共30 671 輛車)用作訓練集,138 517 張圖像(共10 000 輛車)用作測試集,同時也提供了豐富的上下文信息,如攝像頭ID、時間戳和攝像頭之間的跟蹤關系。
(7)CityFlow數(shù)據(jù)集[43]是由英偉達提出的跨攝像頭汽車跟蹤及重識別的大型數(shù)據(jù)集,包含來自10 個路口、40 個攝像頭收集到的超過3 h 的同步高清視頻,且兩個攝像頭之間的最長距離為2.5 km。該數(shù)據(jù)集共有666 個車輛ID 的56 277 個邊界框,通常一半用于訓練,其余則用于測試。
(8)VehicleX數(shù)據(jù)集[44]是由澳大利亞國立大學和英偉達所構建的目前最大的3D合成數(shù)據(jù)集,包含具有完全可編輯屬性(如顏色和類型)、1 362個車輛ID和10種主流車輛類型。由于車輛身份是不同的3D模型,在不同的環(huán)境和相機設置下呈現(xiàn)無限數(shù)量的圖像。
圖1為上述8個數(shù)據(jù)集的部分圖像展示。表1從數(shù)據(jù)集的圖像數(shù)、車輛數(shù)、類型數(shù)、圖像來源以及應用場景等方面進行總結和比較??梢钥闯?,隨著對車輛數(shù)據(jù)集的要求逐漸提高,數(shù)據(jù)集包含的圖像數(shù)和車輛數(shù)也在不斷增加,并且開始采用圖形引擎來合成更豐富的虛擬圖像,使車輛數(shù)據(jù)集越來越符合真實環(huán)境。另外,本文基于無監(jiān)督學習的車輛重識別方法大多數(shù)是在VeRi-776和VehicleID數(shù)據(jù)集上進行實驗。
表1 車輛重識別數(shù)據(jù)集Table 1 Vehicle re-identification datasets
圖1 車輛重識別數(shù)據(jù)集的部分圖像展示Fig.1 Partial image presentation of vehicle re-identification datasets
車輛重識別方法常采用平均準確率均值(mean average precision,mAP)、Rank-n以及累積匹配特征(cumulative match characteristic,CMC)曲線對結果進行評價。
(1)mAP
mAP 用于評估重識別方法的總體性能,表示所有檢索結果準確率的平均值[45]。首先對每個查詢集圖像的檢索結果計算召回率和查準率,然后根據(jù)查準率進一步計算出平均準確率(average precision,AP),最后對所有的查詢圖像的平均準確率取平均即可得到mAP,計算公式分別如下:
其中,AP(q)表示第q輛車的平均準確率;Q*表示與查詢車輛有相同身份的車輛數(shù)目;n表示測試集中車輛圖像的數(shù)目;Q表示查詢集中車輛圖像的數(shù)目;P(k)代表第k個檢索結果的準確率;gt(k)是一個布爾函數(shù),當?shù)趉個檢索結果與查詢車輛身份相同時,gt(k)取值為1,反之取值為0。
(2)Rank-n
Rank-n表示檢索結果中前n張圖像存在正確匹配結果的概率。例如常用的Rank-1、Rank-5及Rank-20分別表示檢索結果中前1張、前5張及前20張正確匹配到目標圖像的概率。
(3)CMC曲線
由Rank-1 到Rank-n繪制成的曲線即為CMC 曲線,通過曲線走向可以直觀地反映出不同檢索結果準確率的分布情況,其計算公式如下。
其中,在檢索結果前n位中存在與第q張車輛圖像相同時,gt(q,n)為1。
以上三種評價指標中,mAP 和Rank-n被使用的頻率最高,為了盡可能多地比較各種方法,本文選取這兩種指標進行性能比較。
根據(jù)是否需要車輛身份標簽,將車輛重識別方法劃分為監(jiān)督學習的方法和無監(jiān)督學習的方法。監(jiān)督學習下的車輛重識別方法特點包括:(1)訓練集和測試集來自同一個車輛數(shù)據(jù)集;(2)車輛身份標簽已知;(3)在單域(同一個數(shù)據(jù)集)下模型識別準確率較高,而在跨域(兩個不同數(shù)據(jù)集)下模型識別準確率較低。與之相對應,無監(jiān)督學習下的車輛重識別方法特點包括:(1)訓練集和測試集源自不同的車輛數(shù)據(jù)集;(2)車輛身份標簽未知;(3)在保持單域識別準確率的前提下,跨域下的識別準確率也有所提升。然而當車輛重識別技術在真正投入到智能交通系統(tǒng)時,數(shù)據(jù)集中的車輛多數(shù)情形下是沒有標簽的。
近十幾年來,大多數(shù)處理重識別問題的方法均采用監(jiān)督學習,這在實際落地應用場景中會影響模型的泛化能力,故無監(jiān)督學習逐漸引起研究人員的廣泛關注。在沒有預先標記數(shù)據(jù)集的情況下學習車輛的判別特征表示是無監(jiān)督學習車輛重識別的重要挑戰(zhàn)之一。當前,無監(jiān)督學習可以直接從沒有預先標記或“偽標簽”標記的輸入數(shù)據(jù)中學習特征信息,并且已經(jīng)有效地應用于比較成熟的行人重識別任務中。如Wang 等人[46]提出了一種可轉移的聯(lián)合屬性-身份學習的方法,在源域中同時學習語義和屬性并轉移到目標域以實現(xiàn)無監(jiān)督學習。Ding 等人[47]研究了一種無監(jiān)督行人身份識別的自適應探索方法,通過考慮目標圖像之間的特征距離來探索未標記的目標域。同樣地,與行人重識別類似,一些研究人員也將無監(jiān)督學習的方法應用于車輛重識別任務中。
生成對抗網(wǎng)絡和聚類算法是目前兩種常用的無監(jiān)督學習方法,本文以此為切入口,將無監(jiān)督學習的車輛重識別方法歸納為基于生成對抗網(wǎng)絡[48-59]和基于聚類算法[60-68]兩大類。以解決問題為著手點,對生成對抗網(wǎng)絡的方法進行細分,即基于風格轉換的方法[48-51]來減小域偏差,基于多視角生成的方法[52-55]來緩解跨視域偏差,以及基于數(shù)據(jù)增強的方法[56-59]來解決數(shù)據(jù)樣本信息不足三類;同時針對標簽問題,將聚類算法分為偽標簽的無監(jiān)督域適應方法[60-65]和無需標簽信息的方法[66-68]兩類。表2分析了上述方法的機制、優(yōu)勢、局限性以及適用場景。
表2 不同無監(jiān)督學習的車輛重識別方法比較Table 2 Comparison of different unsupervised learning methods for vehicle re-identification
生成對抗網(wǎng)絡是一種新興的無監(jiān)督學習技術,已在眾多領域得到應用[69-70]。2014年,Goodfellow 等人[71]提出生成對抗網(wǎng)絡,其基本框架如圖2所示。首先將潛在的變量輸入到生成器中以生成近似現(xiàn)實場景的圖像樣本,再利用鑒別器來鑒別是生成樣本還是原始樣本。這樣,兩者以競爭的方式學習,隨著迭代次數(shù)的不斷增加,在理想的條件下會達到動態(tài)平衡。
圖2 GAN基本框架Fig.2 GAN basic framework
伴隨著生成對抗網(wǎng)絡在圖像生成、圖像融合等眾多視覺任務上的廣泛應用,衍生出了很多不同的擴展網(wǎng)絡,如DCGAN(deep convolution GAN)[72]、InfoGAN(information maximizing GAN)[73]、AC-GAN(auxiliary classifier GAN)[74]、CGAN(condition GAN)[75]、AugCGAN(augmented CycleGAN)[76]和DFPGAN(dual fusion path GAN)[77],以便研究更優(yōu)的方法框架。本節(jié)將介紹基于生成對抗網(wǎng)絡的無監(jiān)督學習車輛重識別方法。
2.1.1 基于風格轉換的方法
通常,兩個域(即數(shù)據(jù)集)具有不同的數(shù)據(jù)分布,則被稱為域偏差。如圖3所示,VeRi-776數(shù)據(jù)集中的圖像具有多視角、亮度明亮、背景復雜、低分辨率的特點。而VehicleID 數(shù)據(jù)集中只有前、后兩個角度的圖像,并且亮度整體較暗,背景簡單,分辨率較高。當對這兩個不同的數(shù)據(jù)集分別進行訓練和測試后,其mAP與在同一個車輛數(shù)據(jù)集進行訓練和測試相比會嚴重下降,從而使模型的泛化能力較差,故平滑域偏差、實現(xiàn)無監(jiān)督域適應(unsupervised domain adaptation,UDA)是提高車輛重識別模型泛化能力的關鍵環(huán)節(jié)。傳統(tǒng)采用監(jiān)督的方式來學習對齊圖像對之間的映射,實現(xiàn)圖像到圖像的轉換,以降低像素級的域差異,但該方法存在需要對圖像進行大量標注的局限性。
圖3 數(shù)據(jù)集偏差Fig.3 Dataset deviation
因此,目前解決此類問題常用的思路是采用生成對抗網(wǎng)絡來實現(xiàn)不同圖像之間的風格轉換以減少域偏差。早在行人重識別領域就已經(jīng)提出許多基于GAN的風格轉換方法。如循環(huán)一致性生成對抗網(wǎng)絡(CycleGAN)[78]和DualGAN[79]不需要配對的數(shù)據(jù)集就可以實現(xiàn)源域圖像和目標域圖像的相互轉換;Wei等人[80]提出了PTGAN(person transfer GAN),該網(wǎng)絡可以生成高質量的行人圖像,不僅保留了行人身份,還有效地轉換了背景風格,從而實現(xiàn)圖像遷移;SPGAN(similarity preserving GAN)[81]也是為提升域泛化能力設計的一種方法,由孿生網(wǎng)絡(Siamese network)和CycleGAN 組成,保持自相似性和域相異性,并且在訓練過程中不需要任何額外的標簽。
受此啟發(fā),在車輛重識別任務中,通常也有兩種類型的車輛圖像用于無監(jiān)督域適應的車輛Re-ID 任務,即源域的標記圖像和目標域的未標記圖像。然而將標記圖像直接應用于目標域可能會由于域偏差導致性能的下降;另外,對于目標域而言,監(jiān)督的學習方式受到未標記樣本的限制,不能用于訓練Re-ID模型。因此,Peng等人[48]提出了基于雙分支對抗網(wǎng)絡的域適應車輛重識別框架(domain adaptation framework for vehicle Re-ID,DAVR),包含用于生成圖像的雙分支對抗網(wǎng)絡(dual-branch adversarial network,DAN)和用于訓練Re-ID模型的特征學習網(wǎng)絡。如圖4 所示[48],DAN 包括兩個生成器G、F和相對應的鑒別器DS、DT,每個生成器由內(nèi)容編碼器、風格編碼器和解碼器三個組件組成。在該實驗中,生成器G用于VeRi-776 數(shù)據(jù)集(源域)到VehicleID 數(shù)據(jù)集(目標域)的轉換,生成器F用于VehicleID數(shù)據(jù)集(源域)到VeRi-776 數(shù)據(jù)集(目標域)的轉換,最終生成具有目標域圖像風格并保留源域圖像身份信息的車輛圖像,再將其輸入到基于注意力機制的特征學習網(wǎng)絡中進行訓練。與不經(jīng)過風格轉換直接在目標域圖像中進行測試相比,該方法的域適應能力明顯提升。
圖4 DAN工作流程圖Fig.4 DAN workflow diagram
為了充分利用源域標記的數(shù)據(jù)信息,Peng 和Wang 等人進一步提出漸進式自適應學習(progressive adaptation learning,PAL)方法[49]和基于多尺度融合網(wǎng)絡的漸進式學習(progressive learning with multiscale fusion network,PLM)方法[50]。兩種方法均采用基于CycleGAN 的數(shù)據(jù)適應模塊來生成“偽目標樣本”,從而通過轉移源域和目標域之間的風格來減少域偏差;兩種方法的區(qū)別在于PLM 添加了一個多尺度注意力網(wǎng)絡來學習未知域的不同特征,包括底層的紋理特征和高層的語義特征。
在現(xiàn)實場景中,相同車輛通常被不同的監(jiān)控攝像頭在不同的照明條件下捕獲,因此在包括白天和夜間兩個具有不同視覺差異的域內(nèi)識別相同ID的車輛是具有挑戰(zhàn)性的。為解決這種跨域問題,Zhou等人[51]提出了一種GAN-Siamese網(wǎng)絡結構。該網(wǎng)絡首先采用域鑒別器來確定輸入車輛圖像的域(白天域或夜間域)并給定標簽,然后利用域轉換器將每幅圖像的域轉移到另一幅圖像上,從而得到同一域內(nèi)的兩對圖像,最后分別從這兩個域的圖像中學習并融合距離度量以測量最終相似度,實現(xiàn)精確的車輛重識別。
總之,將標記數(shù)據(jù)集(源域)的有用特征信息轉移到另一個未標記數(shù)據(jù)集(目標域)上,以完成兩個不同域的數(shù)據(jù)特征映射到同一個特征空間中是實現(xiàn)無監(jiān)督域適應的一個重要思路。在域適應的干預下,無監(jiān)督的車輛Re-ID模型可以獲得從標記的源域轉移得到的鑒別性信息,通過對這些信息的有效學習來減小域偏差,提高模型的泛化能力。但實際上,訓練重識別模型使用的圖像與真正目標域的圖像還有一定的差距,因此與監(jiān)督學習的車輛重識別相比,此類方法準確率還較低。另外,有研究者還結合現(xiàn)實場景中車輛的特點,利用鑒別器和轉換器進行不同場景下圖像的轉換,以實現(xiàn)跨域重識別。
2.1.2 基于多視角生成的方法
在實際的交通監(jiān)控系統(tǒng)中,視角問題也是關注的重點。車輛重識別任務旨在“不重疊”的攝像頭網(wǎng)絡中捕獲車輛圖像,即整個數(shù)據(jù)集中的每輛車至少被兩個攝像頭所捕獲。因此,如圖5 所示,不同位置的監(jiān)控攝像頭拍攝視角不同,會導致同一車輛的外觀表現(xiàn)出很大的差異,并且根據(jù)單個視角特征難以區(qū)分同類型車輛之間的微妙差異。解決這一問題的途徑主要是借助額外的視角信息,如針對某個視角下的車輛信息或將車輛部件作為關鍵點,以推斷和預測出其他視角下的車輛信息,從而減小因視角變化所引起的偏差對重識別任務的影響。
圖5 視角偏差Fig.5 Viewpoint deviation
早在文獻[52]中,一種跨視角生成對抗網(wǎng)絡(cross-view generative adversarial network,XVGAN)被提出,用于學習具有無重疊視角的攝像頭拍攝的車輛圖像特征,利用原始特征推斷出跨視角圖像,再結合兩者的特征以學習重識別的距離度量,但該方法準確率較低。之后,Zhou等人[53]研究了視角感知的注意力多視角推理(viewpoint-aware attentive multiview inference,VAMI)模型。該模型首先學習輸入圖像的單視角特征,然后根據(jù)單視角特征推斷出一個包含5 類視角信息的多視角特征用于訓練。由于生成器輸入的是多種視角的外觀信息和局部顯著信息,在推斷其他視角的外觀時更具有魯棒性。
同樣地,Zhang 等人[54]提出了基于多視角圖像生成的車輛重識別方法,其特點不僅可以推斷出多視角車輛表示,還可以從原始圖像中學習Re-ID的距離度量。首先利用多視角生成對抗網(wǎng)絡(multi-view generative adversarial network,MV-GAN)為每個輸入圖像(單視角)生成前、后、左、右8個不同視角的車輛圖像;再利用兩個特征提取網(wǎng)絡分別提取一張原始圖像的特征和8個生成圖像的特征;接著將所有的特征融合成一個全局特征以包含所有視角的車輛信息。其中MV-GAN可以在保留輸入特征的基礎上由單個視角生成具有多視角的車輛圖像,如圖6所示[54],采用8 個帶有12 個突出關鍵點的目標骨架視圖,輸入視圖的車輛特征和隨機向量作為輸入,并合成同一輸入車輛和其他攝像頭下的特定視圖。在該方案中,MV-GAN 可以生成紋理清晰、趨近真實的8 種視角車輛圖像,并且通過與先進的算法進行實驗比較,進一步展示出多視角圖像生成在車輛Re-ID 方面的優(yōu)越性。
圖6 MV-GAN結構圖Fig.6 MV-GAN structure diagram
但是,利用GAN 通過對抗性訓練生成多視角圖像以補充訓練數(shù)據(jù)時,該生成網(wǎng)絡會引入噪聲并對生成樣本有一定的影響。為了解決這個問題,Wang等人[55]設計了具有跨視角距離度量的視點自適應網(wǎng)絡(viewpoint adaptation network,VANet),其框圖如圖7所示。該網(wǎng)絡由兩個模塊組成:一個是視點自適應學習,主要關注車輛在多個視圖中的細微差異,以學習每輛車的完整視點信息;并使用CycleGAN緩解訓練圖像中車輛視點分布不平衡的問題,同時引入基于顏色域的跨視角標簽平滑正則化(cross-view label smoothing regularization,CVLSR)來減輕由GAN 引起的噪聲數(shù)據(jù)的影響。另一個是跨視角距離度量,通過使用聚合多級特征的懲罰權重矩陣來對跨視角特征自適應地調整權重,再將原始特征與跨視角特征相結合,從而為車輛的單視角匹配獲得額外的視角信息。該類方法通過對生成的樣本進行去噪并融合多層次的信息,以增強訓練模型的視點感知魯棒性。
圖7 VANet工作流程圖Fig.7 VANet workflow diagram
利用生成對抗網(wǎng)絡,一是可以借助已知視角下的視角信息來推斷出其他視角下的外觀信息;二是學習非重疊視域下的特征來生成具有不同攝像頭下不同視角的圖像。這些策略都為解決車輛的跨視域偏差問題提供輔助指導作用,并有效提高了模型的性能。
2.1.3 基于數(shù)據(jù)增強的方法
車輛重識別使用深度殘差網(wǎng)絡來提取車輛特征,并通過某種度量方式(如歐式距離或余弦距離)計算車輛特征之間的相似度距離來區(qū)分車輛,然而模型的訓練數(shù)據(jù)往往是不夠的,因此研究者們通過生成模型(例如生成對抗網(wǎng)絡、變分自編碼器[82]或擴散模型[83]等)來嘗試生成圖像,從而獲得多樣性的訓練數(shù)據(jù)并提高模型的魯棒性。
一種解決方式是利用生成對抗網(wǎng)絡來生成未標記樣本或困難負樣本來補充數(shù)據(jù)集,以提高模型的學習能力。如Wu 等人[56]采用GAN 來生成未標記樣本并擴大訓練集,同時還利用標簽平滑正則化為未標記的圖像分配一個均勻統(tǒng)一的標簽分布,降低對數(shù)據(jù)標注的依賴性。Lou等人[57]設計了一種端到端的嵌入對抗學習網(wǎng)絡(embedding adversarial learning network,EALN),如圖8 所示,在生成器和鑒別器之間施加嵌入對抗學習,即生成器在嵌入空間中生成接近目標的樣本,而鑒別器試圖將生成的樣本“推”到很遠的地方。這樣通過自動生成困難的負樣本并加入訓練,以提升網(wǎng)絡模型性能。在測試階段,將每張輸入圖像生成對應的跨視角圖像,提取特征后與原圖像特征拼接以構建更加全面的特征表示。之后,Zhu等人[58]提出了多階深度跨距離學習(deep cross-distance learning,DCDLearn)模型,通過CycleGAN 生成一定量的風格轉換圖像和重建圖像作為多階增強標簽數(shù)據(jù),較EALN[57]方法,大大提升了網(wǎng)絡訓練效果。
圖8 嵌入對抗學習示意圖Fig.8 Embedding adversarial learning schematic diagram
另一種方式則是利用車輛的多種屬性信息(如顏色、型號、視角等)來增加數(shù)據(jù)的多樣性。Wang 等人[59]提出一種新的數(shù)據(jù)增強方法,即將訓練后的數(shù)據(jù)按照顏色、模型和攝像機三種屬性進行聚類,再對每一種屬性進行分割以形成域間子集,并作為一種新的風格來利用;然后在圖像到圖像的轉換階段,利用CycleGAN對不同的域間子集進行訓練,并通過多個轉移模型生成對應域間子集的新樣本,從而產(chǎn)生更為豐富的數(shù)據(jù)。此外又利用域間自適應標簽平滑正則化(inter-domain adaptation label smoothing regularization,IALSR)損失來緩解生成數(shù)據(jù)的標簽噪聲。
利用生成對抗網(wǎng)絡生成圖像以增廣數(shù)據(jù)集的這種策略已經(jīng)得到廣泛應用,彌補了部分數(shù)據(jù)集較真實場景特征信息不全面、數(shù)量不足的問題,并且通過利用標簽平滑正則化等方法減小在生成或合成圖像過程中的噪聲影響。
2.1.4 基于生成對抗網(wǎng)絡的車輛重識別方法總結
從風格轉換、多視角生成和數(shù)據(jù)增強三方面歸納總結的相關工作如表3所示。可以看出,這些方法一般都采用ResNet、CycleGAN 為基礎網(wǎng)絡架構,并使用多種損失函數(shù)來共同約束網(wǎng)絡模型。從各類方法在VeRi-776 數(shù)據(jù)集上的實驗結果可以看到,基于風格轉換的方法GAN-Siamese[51]能夠得到最優(yōu)的實驗性能。
表3 基于生成對抗網(wǎng)絡的車輛重識別方法總結Table 3 Summary of vehicle re-identification methods based on generative adversarial networks
綜上所述,基于風格轉換的方法通過利用生成對抗網(wǎng)絡學習數(shù)據(jù)集的不同風格以實現(xiàn)域適應,緩解域偏差的問題。但這種方法在生成圖像的過程中會存在噪聲問題,使得圖像不穩(wěn)定,發(fā)生畸形,從而會影響訓練模型的魯棒性。對于多視角生成的方法,通過生成車輛圖像的多個視角,提供全面的輔助視角信息,從而在車輛重識別任務中減小視角因素對最終模型性能的影響。但隨著攝像頭數(shù)量的增加,不同視角特征的提取模型在時間資源和算力資源有限的情況下訓練會需要額外的標簽或步驟,很難擴展到實際場景中。對于數(shù)據(jù)增強的方法,可以為數(shù)據(jù)集提供多樣性的樣本或有效利用多種車輛屬性,從而有助于CNN 對判別性特征的學習。但由于
實際場景中數(shù)據(jù)規(guī)模龐大,需要更多的模型來處理生成車輛圖像樣本,并且在生成過程中生成器和鑒別器的相互對抗性難以訓練,因此最終不易達到一個最優(yōu)的平衡,導致生成圖像質量相對不佳,影響Re-ID模型的高效學習。
聚類是將樣本集劃分為若干個子集,每個子集稱為“簇”,同簇內(nèi)的樣本具有某些相似的特點。顯然,聚類是一種無監(jiān)督學習。近年來,研究者利用聚類算法來解決車輛重識別問題,并取得了較好的實驗結果。本節(jié)將介紹基于聚類算法的無監(jiān)督學習車輛重識別方法。
2.2.1 基于偽標簽的無監(jiān)督域適應方法
與利用生成對抗網(wǎng)絡以減小域偏差的方法不同,利用聚類算法,通過在不同數(shù)據(jù)下進行反復迭代生成偽標簽,然后將帶有偽標簽的可靠數(shù)據(jù)輸入到改進的神經(jīng)網(wǎng)絡中進行訓練,以實現(xiàn)域適應。如VRPROUD[60]采用漸進式兩步級聯(lián)框架將重識別任務轉化為無監(jiān)督學習范式,即采用CNN 模型來提取圖像特征,再將提取的特征用K均值(K-Means)算法得到聚類質心即相關樣本的標簽。由于K-Means 算法存在噪聲,又采用啟發(fā)式約束進一步細化聚類結果以提高網(wǎng)絡訓練的整體收斂性。UDAR[61]則采用另一種聚類算法DBSCAN(density-based spatial clustering of application with noise)[84],通過對未標記的目標域進行猜測以迭代優(yōu)化編碼器,然后利用基于猜測的標簽來訓練編碼器,最終DBSCAN 算法根據(jù)距離閾值來生成數(shù)據(jù)聚類。相較于K-Means算法,該方法可以在未知目標域類別下更好地預測標簽,并且可以實現(xiàn)任意形狀的空間聚類。
上述兩種方法只考慮車輛的單視角信息進行聚類并分配偽標簽來解決無監(jiān)督車輛重識別問題。實際上,差異可能由多種因素變化所引起,如車輛ID、顏色、類型以及視角等。因此,Wang等人[62]提出了一種基于焦點遮擋網(wǎng)絡(focal drop network,F(xiàn)DNet)的多語義知識學習(multiple semantic knowledge learning,ML)框架。其中FDNet由全局分支、空間焦點遮擋分支以及通道焦點遮擋分支組成,每張圖像經(jīng)過FDNet后生成原特征、空間遮擋特征和通道遮擋特征用于聚類,并利用DBSCAN 根據(jù)不同角度樣本之間的距離關系分別進行聚類得到聚類結果。最后根據(jù)三種聚類結果在未知目標域中挑選樣本并分配偽標簽,再將具有多標簽的樣本用于下一次訓練迭代過程。考慮到簇內(nèi)和簇間的差異性,還提出困難三元組中心損失以更好地訓練無監(jiān)督框架。
偽標簽方法已被證明對無監(jiān)督域適應的重識別任務是有效的。然而這些方法的有效性很大程度上取決于一些超參數(shù)(hyperparameters,HP)的選擇,這些超參數(shù)將會影響聚類偽標簽的生成。目前的方法是對無監(jiān)督域適應任務重復使用相同的經(jīng)驗值,而不考慮通過偽標簽訓練階段改變的目標數(shù)據(jù)表示,這種簡單化的選擇可能會限制其性能,故Dubourvieux等人[63]針對這個問題提出了聚類無監(jiān)督域適應重識別的HP 選擇新理論依據(jù)以及一種整合到經(jīng)典迭代偽標簽范式中的新方法,基于源和相似性自動生成超參數(shù)(hyperparameters automated by source &similarities,HyPASS)。其中HyPASS 包含了兩個模塊,即基于標記源驗證集的HP 選擇和具有特征判別的條件域對齊。在車輛重識別數(shù)據(jù)集上的跨域實驗表明,與常用的經(jīng)驗HP 值設置相比,所提出的HyPASS改進了重識別中先進方法的性能。
但是,在生成偽標簽的過程中通常會存在以下問題:(1)模型并不是目標域的最佳特征提取器;(2)在進行聚類或生成偽標簽的過程中會包含一定的噪聲,導致與真正的身份標簽有一定差距。因此,為了解決這些問題,Zhang等人[64]在已有優(yōu)化的基礎上進一步提出RLCC(refining pseudo label with clustering consensus),即用聚類共識來正確估計連續(xù)幾輪訓練之間的偽標簽相似性,并用時序嵌入來正則化噪聲偽標簽。同樣地,Wang 等人[65]設計了一個不確定性感知聚類框架(uncertainty aware clustering framework,UCF),利用一種新的層次聚類方案識別和分解不可靠聚類以提高聚類質量,并使用不確定性感知的協(xié)同實例選擇方法來識別具有不可靠偽標簽的圖像,從而緩解噪聲對偽標簽的影響。
上述幾種利用聚類算法實現(xiàn)無監(jiān)督域適應的方法,均側重于如何使得在源域(已標記)訓練得到的初始模型能更好地適應目標域(未標記)。由此可以看出,此類方法在通過聚類算法生成偽標簽的過程中仍需要一個具有標簽信息的數(shù)據(jù)集作為源域,并且需要已知集群的數(shù)量。
2.2.2 無需標簽信息的方法
基于偽標簽的無監(jiān)督域適應方法,在生成偽標簽的過程中會依賴于源域標簽等信息,而在現(xiàn)實交通場景中,往往會失去這些信息的指導,這使得車輛重識別任務面臨更大的挑戰(zhàn)。對此,以下研究提供了相應的解決方案,以便更好地探索未知域。
一方面,為了避免對源域中的標記信息產(chǎn)生依賴,Zheng等人[66]設計了一種基于視點感知的漸進聚類(viewpoint-aware progressive clustering,VAPC)框架,用于無監(jiān)督學習的車輛重識別。如圖9所示[66],VAPC分為三部分:視點預測、識別階段以及漸進式聚類。首先對每個視點進行預測,將視點感知的未標記訓練集輸入到CNN 模型進行特征提取,并將其劃分為不同方向性的特征簇;然后在識別階段,使網(wǎng)絡提取的每個樣本特征具有更強的識別性;最后進行漸進式聚類,探索了一種劃分方向和周期的聚類方法。即在第一個階段,使用DBSCAN[84]算法在相同的視點內(nèi)生成初始集群(彩色背景),對于在聚類過程中發(fā)現(xiàn)的噪聲樣本,設計一種噪聲選擇方法,選擇好的噪聲將與初始集群合并或生成一個新的集群(白色背景);在第二個階段,比較所有不同視點的距離以合并小于距離閾值的簇,并根據(jù)最終的聚類結果對網(wǎng)絡進行迭代訓練。該框架不僅不依賴源域中任何標記數(shù)據(jù),而且解決了因車輛視點變化較大而導致的類間相似性和類內(nèi)差異性,以及具有不同身份的相同視點比具有相同身份的不同視點優(yōu)先聚類的問題,與方法UDAR[61]相比提升了聚類算法的精度。
圖9 VAPC的工作流程圖Fig.9 VAPC workflow diagram
另一方面,在未知集群數(shù)量的情況下,Zhu等人[67]提出了基于流形的聚合聚類(manifold-based aggregation clustering,MAC)無監(jiān)督車輛重識別方法,通過交替采用深度特征學習和聚合聚類兩個模塊來實現(xiàn)。其中深度特征學習模塊負責訓練CNN以鼓勵深度特征靠近相應簇的質心,這些簇是由基于特征空間中流形距離的聚合聚類機制產(chǎn)生的。此外,還設計了分類-聚集損失和基于流形的種子搜索準則以提高學習特征的識別能力,并分別處理不同的視覺外觀問題。該方法不需要任何注釋,這與在真實場景中的未知身份完全一致。
近幾年,不少研究還將深度自監(jiān)督模型用于車輛重識別任務中,其學習模型采用記憶字典、偽標簽和對比損失來訓練神經(jīng)網(wǎng)絡。如Wang等人[68]聯(lián)合DSS(discrete sample separation)、MSCL(mixed sample contrastive learning)和DSL(discrete sample loss)的方法,首先衡量聚類中每個樣本的可靠性,并設置一個自適應閾值來過濾離散的樣本,創(chuàng)建更可靠的聚類;其次用可靠的聚類和離散樣本構建記憶字典,增強特征的多樣性以學習更多穩(wěn)健特征表示,并采用它作為訓練模型的學習目標;在訓練過程中,利用DSL計算模型的對比損失,并選擇每個訓練批次中最離散的查詢實例來動態(tài)更新記憶字典,其記憶字典的構建和更新如圖10所示[68]。該類方法可以自行生成標簽以從數(shù)據(jù)生成有用的表示,實現(xiàn)在不需要任何標記源域的指導下訓練一個有效的模型。
圖10 記憶字典的構建和更新示意圖Fig.10 Construction and update schematic diagram of memory dictionary
總之,利用聚類算法進行無監(jiān)督學習大都是通過在標記的源域上訓練初始模型,然后再將該初始模型應用于目標域上以預測并分配偽標簽。但這類方法存在不足,比如在聚類分配標簽時,需要計算每個圖像與其他圖像之間的距離(如歐式距離),這會大大增加計算的成本,并且在聚類生成偽標簽的過程中還會存在一定的噪聲。針對聚類過程以及生成偽標簽過程存在的不足,目前研究者已經(jīng)提供相應的優(yōu)化方案,在提升模型魯棒性和泛化性方面都有所突破。另外,真正意義上的無監(jiān)督是不借助對訓練數(shù)據(jù)集的注釋來獲得可區(qū)分的特征。雖然已有研究不依賴于帶有標簽信息的源域,但是識別準確率仍然較低,這也是后續(xù)需要深入探究的問題。
2.2.3 基于聚類算法的車輛重識別方法總結
表4 歸納比較了本節(jié)基于聚類算法的無監(jiān)督學習方法用到的基礎網(wǎng)絡架構、聚類方法、損失函數(shù)和實驗性能,并簡單概述了這些方法的基本思想。這些方法一般都采用具有簡潔結構的ResNet50作為特征學習的基礎網(wǎng)絡,并使用DBSCAN算法進行聚類,同時采用改進的損失函數(shù)來提高模型的魯棒性。
從實驗結果來看:首先,基于偽標簽的無監(jiān)督域適應方法FDNet[62]因考慮了多種挑戰(zhàn)性因素,故在VeRi-776 數(shù)據(jù)集上與其他方法相比表現(xiàn)出了較優(yōu)的實驗性能;UDAR*[63]是在UDAR[61]的基礎上添加了HyPASS,使得在跨域評估實驗上能自適應地調整超參數(shù),在mAP方面與UDAR*相比提高了1.10個百分點;隨著對生成偽標簽過程的不斷優(yōu)化,利用軟標簽的方法RLCC[64]和利用改進的層次聚類方案UCF[65]與方法UDAR*相比,mAP 又分別提高了2.70 個百分點、3.60個百分點,達到39.60%、40.50%。其次,無需標簽信息的方法[66-68]通過采用種子搜索、視角預測、噪聲選擇、分離離散樣本、記憶字典等策略使得聚類的質量更佳。相對來說,該方法檢索車輛的準確率在不斷提高,但是與目前大多數(shù)監(jiān)督學習的重識別方法相比準確率仍然較低,所列方法中最高的mAP僅為45.90%。因此,進一步改進聚類方法或優(yōu)化聚類結果以解決偽標簽的噪聲問題,提高模型的泛化能力,依然是值得關注和研究的內(nèi)容。
針對無監(jiān)督學習的方法,本文從近年來計算機視覺、人工智能等領域的頂級會議和主流期刊上,選出具有代表性且模型性能較好的一系列方法,對比分析了它們在VehicleID、VeRi-776 這兩個經(jīng)典數(shù)據(jù)集上的實驗結果。由于VeRi-776數(shù)據(jù)集中的圖庫集有多個地面真值,且mAP同時考慮準確率和召回率,因此使用Rank-1、Rank-5 和mAP 三種評價指標更適合于VeRi-776。而對于VehicleID 數(shù)據(jù)集,給定一個查詢,只有一個地面真值與之相匹配,故選擇使用Rank-1和Rank-5來評價方法性能。
首先,表5 將VeRi-776、VehicleID 數(shù)據(jù)集分別作為源域和目標域,對比了基于生成對抗網(wǎng)絡的方法(如DAN[48])和基于聚類算法的方法(如UDAR[61]、ML[62]、UDAR*[63]、VAPC[66]、UCF[65])進行跨域評估的實驗結果??梢钥闯觯诰垲愃惴ǖ姆椒╒APC[66]、UCF[65]在VehicleID(源域)到VeRi-776(目標域)的跨域評估下略優(yōu)于其他方法。原因是方法DAN[48]利用GAN生成的圖像存在一定的噪聲,即用于訓練的車輛圖像質量較差;并且方法UDAR[61]、ML[62]、UDAR*[63]均利用常規(guī)的DBSCAN聚類算法對未標記的目標域進行自動標記。相比之下,方法VAPC[66]利用所提出的兩周期算法解決了聚類過程中不同車輛的相同視點優(yōu)先聚類的問題,提高了模型在不同測試集上的泛化能力;方法UCF[65]則利用改進的層次聚類方案來識別和分解不可靠聚類,并采用不確定性感知的實例選擇方法選擇可靠標簽的車輛圖像以用于模型訓練,大大緩解了噪聲對偽標簽的影響。
表5 VeRi-776和VehicleID數(shù)據(jù)集上的跨域評估Table 5 Cross-domain evaluation on VeRi-776 and VehicleID datasets
其次,表6和表7分別列出了本文提到的部分無監(jiān)督學習的車輛重識別方法在VeRi-776、VehicleID這兩個典型數(shù)據(jù)集上的實驗比較結果。隨著研究人員對車輛重識別任務特點(如光照變化、視角變化豐富)的不斷思考與創(chuàng)新,在兩個典型數(shù)據(jù)集上性能不斷提高。從表6可以看到,基于生成對抗網(wǎng)絡的車輛重識別方法GAN-Siamese[51]在VeRi-776 數(shù)據(jù)集上的mAP 達到86.52%,較之前的方法都有顯著提升。原因在于作者設計的域鑒別器和基于GAN的域轉換器可以更好地縮小給定車輛圖像之間的域偏差。另外,由于方法DCDLearn[58]輸入到訓練中的圖像不僅包括原圖像和CycleGAN生成的轉換圖像,還包括重建圖像,因此訓練出的模型在Rank-1、Rank-5方面較其他方法相比展現(xiàn)出較好性能。表7 所列方法MJNet+IALSR[59]由于考慮了顏色、模型和攝像機三種屬性,并結合域間自適應標簽平滑正則化損失進一步減小了標簽損失,在VehicleID 各個測試子集上的Rank-1都超越了其他方法。同時可以看出,基于風格轉換的方法PAL[49]和PLM[50]均采用生成對抗網(wǎng)絡生成“偽目標樣本”以緩解源域和目標域的偏差,但由于域間的特征分布差異較大,這兩種方法在VeRi-776、VehicleID數(shù)據(jù)集上與其他大部分方法相比準確率較低。另外,基于聚類算法的方法VAPC[66]、MAC[67]以及DSS+MSCL+DSL[68]由于不依賴于標簽信息,失去了源域信息的指導作用,使得車輛重識別任務更具有挑戰(zhàn)性,因此精度與大部分基于生成對抗網(wǎng)絡的方法相比較低。
表6 VeRi-776數(shù)據(jù)集上無監(jiān)督學習方法的性能對比Table 6 Performance comparison of unsupervised learning methods on VeRi-776 dataset
表7 VehicleID數(shù)據(jù)集上無監(jiān)督學習方法的性能對比Table 7 Performance comparison of unsupervised learning methods on VehicleID dataset
綜合上述分析和表格數(shù)據(jù),可以看出通過對生成對抗網(wǎng)絡和聚類算法過程的不斷優(yōu)化,解決了因數(shù)據(jù)集風格偏差、視角變化、數(shù)據(jù)信息不足以及標簽標注等因素所帶來的問題,使得能夠更加有效、準確地在車輛數(shù)據(jù)集中匹配目標車輛,滿足真實交通場景中的需求。
(1)域偏差問題是無監(jiān)督域適應車輛重識別中的典型問題。由于視角、光照、背景障礙物、分辨率等不同,車輛特征在數(shù)據(jù)集中展示出顯著差異。
(2)部分車輛重識別算法的性能在很大程度上依賴于生成的圖像,而利用生成對抗網(wǎng)絡進行風格轉換生成的車輛樣本包含失真圖像,使網(wǎng)絡模型引入噪聲,影響訓練結果。
(3)由于無監(jiān)督學習無法獲取目標域車輛的身份標簽,可以利用聚類算法產(chǎn)生偽標簽來確定和訓練數(shù)據(jù)的關系,以有效地捕獲目標域的分布,但是在生成偽標簽的過程中不能保證屬于同一類的樣本圖像都被賦予相同的偽標簽,導致存在噪聲標簽,從而干擾模型的學習。
(4)在無監(jiān)督學習的車輛重識別方法中,由于存在攝像頭視角變化的問題,可能會影響到查詢集與圖庫集中車輛之間的相似度計算,從而影響聚類結果。
車輛重識別是智能交通系統(tǒng)(intelligent transportation system,ITS)和計算機視覺(computer vision,CV)領域的熱門研究方向之一,具有重要的實際應用前景。從研究進展情況來看,當下車輛重識別任務大都是在監(jiān)督學習下開展的,盡管取得了較高的準確率,但對數(shù)據(jù)集標簽的要求較高。目前,基于無監(jiān)督學習的車輛重識別方法已被證明比人工制作標簽的方法有效得多,并且開始被廣泛研究,其中包括利用生成對抗網(wǎng)絡、聚類思想以及引入記憶字典等,但這些方法依然還存在種種挑戰(zhàn),與真實交通場景對重識別算法的要求還有一定差距。因此,未來的研究方向可以從以下幾個方面展開。
(1)無監(jiān)督學習中的域適應車輛重識別通常是一個開放集任務,其源域數(shù)據(jù)集和目標域數(shù)據(jù)集包含的類別不同,而直接將在源域數(shù)據(jù)集上訓練得到的模型應用于目標域,很難獲得好的效果。因此,如何有效使用無標簽信息的目標域數(shù)據(jù)集成為提升模型性能的關鍵。
(2)相較于基于風格轉換的車輛重識別算法,利用偽標簽的域適應算法在無監(jiān)督學習的跨域車輛重識別任務中取得了更為滿意的性能。但通過聚類算法或相似度度量生成的偽標簽具有噪聲,導致分配的身份偽標簽不正確。因此,在對這些噪聲標簽的處理方面依然有較大的進步空間。
(3)聚類算法是計算機視覺中無監(jiān)督學習任務的重要研究手段。在車輛重識別方法中,常利用KMeans 和DBSCAN 來進行聚類,前者需要預先指定聚類中心且依賴數(shù)據(jù)樣本的分布,后者計算速度較慢。因此,如何改進聚類算法也是無監(jiān)督學習車輛重識別研究領域的一個難點。
(4)無需任何標簽信息的無監(jiān)督學習車輛重識別方法盡管在模型的泛化能力上表現(xiàn)較為出色,但與監(jiān)督學習的方法相比精度仍較低。因此,可以進一步探索無監(jiān)督學習的新范式,提升車輛重識別技術在實際交通監(jiān)控環(huán)境下的應用能力。
伴隨著無監(jiān)督深度學習的快速發(fā)展,基于無監(jiān)督學習的目標重識別也得到了廣泛探索。本文從基于生成對抗網(wǎng)絡和聚類算法兩大類方法對研究工作分別進行分析闡述與總結歸納,并對比了這些方法在兩個經(jīng)典數(shù)據(jù)集上的性能實驗結果。雖然實際應用場景中的情況復雜多變,且需要考慮的因素多元,但是相信未來無監(jiān)督學習的車輛重識別方法會有突破性的進展,進而為車輛重識別大規(guī)模落地應用提供重要的技術支撐。