張小瑞,陳 旋,孫 偉,葛 楷
(南京信息工程大學(xué) a.計(jì)算機(jī)與軟件學(xué)院; b.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心;c.數(shù)字取證教育部工程研究中心; d.自動化學(xué)院,南京 210044)
車輛再識別可以理解為一個圖像檢索的子問題,其目的是對跨攝像機(jī)設(shè)備中的目標(biāo)車輛進(jìn)行檢測和跟蹤,即給定一個監(jiān)控車輛圖像,在跨設(shè)備監(jiān)控下對該車輛圖像進(jìn)行檢索[1-3]。
車牌識別是早期車輛再識別研究的主要方法,目前車牌識別已經(jīng)得到廣泛應(yīng)用,文獻(xiàn)[4-5]均利用車牌信息完成車輛再識別任務(wù)。雖然車牌是車輛的唯一標(biāo)識,但是在一些特殊環(huán)境下,車牌信息不能被充分利用甚至不可用。例如,在行駛過程中,攝像頭拍攝到的圖像不清晰導(dǎo)致車牌信息不完整或由于環(huán)境、相機(jī)等原因?qū)е聢D像分辨率不符合要求。此外,在以往大量安全事件中,車牌經(jīng)常被遮擋、移除甚至偽造[6]。因此,對除車牌以外的車輛信息開展再識別研究是非常必要的。
在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,車輛再識別研究主要集中于傳統(tǒng)底層特征提取,例如顏色、HOG(Histogram of Oriented Gradient)[7]和SIFT(Scale-Invariant Feature Transform)[8]。傳統(tǒng)提取圖像特征的方法雖然具有一定的抗干擾性,但只針對特定任務(wù)有效,并且側(cè)重圖像某方面特征,不能適應(yīng)大數(shù)據(jù)環(huán)境。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展[9],同時研究者受行人再識別研究[10-12]的啟發(fā),使深度學(xué)習(xí)技術(shù)在車輛再識別任務(wù)上得到了廣泛的應(yīng)用[13]。不同于傳統(tǒng)方法,深度學(xué)習(xí)方法不需要手動設(shè)計(jì)特征,可以通過神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)車輛圖像多方面特征,并且能夠處理大批量數(shù)據(jù)。
與行人再識別相比,車輛再識別是一項(xiàng)更具挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)。因?yàn)樵诓皇芸刂频墓庹?、視角、低分辨率和?fù)雜背景情況下,同一輛車在不同相機(jī)視點(diǎn)下的視覺外觀變化較大,而同款車型的車輛具有相似視覺外觀,它們具有相同顏色和相似模型特征,屬于同一款式的不同車輛又具有明顯的類間相似性[14]。
目前,車輛再識別研究的發(fā)展滯后于行人再識別研究,綜述性文獻(xiàn)較少并且內(nèi)容比較寬泛,對基于深度學(xué)習(xí)的車輛再識別方法缺乏詳細(xì)描述。本文對現(xiàn)有研究做進(jìn)一步細(xì)化,分析近年來深度學(xué)習(xí)相關(guān)方法在車輛再識別領(lǐng)域中的應(yīng)用,將其歸納整合為基于表征學(xué)習(xí)的方法、基于度量學(xué)習(xí)的方法、基于多維度信息的方法和基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的方法,在此基礎(chǔ)上比較其中部分代表算法的性能,分析并探討車輛再識別研究目前面臨的挑戰(zhàn)和未來發(fā)展方向。
車輛再識別可以被簡單認(rèn)為是一個排序問題,即通過訓(xùn)練后的特征網(wǎng)絡(luò)提取數(shù)據(jù)庫中圖像和待搜索車輛圖像的特征并計(jì)算兩者的相似度,進(jìn)而對數(shù)據(jù)庫中圖像進(jìn)行排序。車輛再識別系統(tǒng)基本框架如圖1所示。
圖1 車輛再識別系統(tǒng)基本框架
車輛再識別技術(shù)可被廣泛應(yīng)用于視頻監(jiān)控和智能交通等領(lǐng)域,實(shí)踐證明[15],在助推智能交通與智慧城市建設(shè)的過程中,車輛再識別具有重要理論意義和實(shí)用價(jià)值。
本節(jié)介紹現(xiàn)有基于深度學(xué)習(xí)的車輛再識別方法并對其優(yōu)缺點(diǎn)進(jìn)行分析?,F(xiàn)有方法按訓(xùn)練損失類型可分為基于表征學(xué)習(xí)和基于度量學(xué)習(xí)的方法,根據(jù)提取的特征信息可分為基于單維度信息和基于多維度信息的方法。此外,本節(jié)還介紹一類基于GAN的方法。
表征學(xué)習(xí)是人臉認(rèn)證[16]和行人再識別[17]常用方法,是再識別領(lǐng)域中的重要基準(zhǔn),其將再識別任務(wù)視為分類和驗(yàn)證問題。
(1)
(2)
其中,pk由圖片x的標(biāo)簽得到。
由于交通監(jiān)控視頻下統(tǒng)計(jì)的車輛車型數(shù)量較多,而僅使用ID信息約束較少,在訓(xùn)練過程中容易使網(wǎng)絡(luò)過度學(xué)習(xí),導(dǎo)致過擬合現(xiàn)象,難以對測試樣本進(jìn)行有效區(qū)分,因此需要利用車輛圖片額外標(biāo)注的屬性信息[20],如車型、顏色等。通過充足的標(biāo)注信息,訓(xùn)練后的網(wǎng)絡(luò)不但可以準(zhǔn)確預(yù)測車輛ID,而且還能預(yù)測車輛屬性。文獻(xiàn)[21]通過設(shè)計(jì)一個統(tǒng)一的框架有效地組合了ID與屬性損失,如圖2所示。實(shí)驗(yàn)結(jié)果表明,結(jié)合ID與屬性損失比單獨(dú)使用ID損失提升效果更顯著。
圖2 結(jié)合ID損失與屬性損失的網(wǎng)絡(luò)結(jié)構(gòu)
文獻(xiàn)[21]設(shè)計(jì)的框架只采用了車型屬性損失,本文將其推廣到每張圖片有多種屬性。輸入圖片經(jīng)過一個共享的網(wǎng)絡(luò)后,采用兩個分支,上分支用于計(jì)算ID損失,下分支用于計(jì)算屬性損失。屬性損失為:
(3)
針對車輛再識別任務(wù)開展的另一類工作是車輛驗(yàn)證問題。驗(yàn)證網(wǎng)絡(luò)也是表征學(xué)習(xí)的常用方法[22],其將成對圖像送入到共享權(quán)重的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中,學(xué)習(xí)得到兩張圖像的特征,將這兩個特征向量融合之后輸入一個全連接層,輸出一個二維向量,由此判斷兩輛車是否屬于同一ID。假設(shè)輸入的圖像對為X={xa,xb},對應(yīng)的標(biāo)簽分別為Y={ya,yb},輸出二維向量v,則驗(yàn)證損失為:
(4)
若ya=yb,則y1=1,y2=0;否則,y1=0,y2=1。
表征學(xué)習(xí)將車輛再識別視為圖片分類問題,把具有相同ID的車輛當(dāng)作是一類圖片,其模型比較簡單,在數(shù)據(jù)集容量較小時容易收斂,但當(dāng)ID數(shù)量增加到一定程度后,網(wǎng)絡(luò)最后一層全連接層維度就會變得非常高,參數(shù)量巨大,訓(xùn)練出現(xiàn)困難。
度量學(xué)習(xí)[23]將提取的特征映射到特征空間,在這個空間里不同特征能夠得到很好區(qū)分。不同于表征學(xué)習(xí),度量學(xué)習(xí)直接通過網(wǎng)絡(luò)學(xué)習(xí)特征的相似度。以車輛為例,度量學(xué)習(xí)目的是讓特征空間中同一ID車輛間的距離小于不同ID車輛間的距離。對比損失[24]、三元組損失[25]都是比較常用的度量學(xué)習(xí)損失函數(shù)。
對比損失用于訓(xùn)練孿生網(wǎng)絡(luò)[26]。孿生網(wǎng)絡(luò)由兩個權(quán)重相同的神經(jīng)網(wǎng)絡(luò)組成,用于衡量兩張輸入圖片的相似度。孿生網(wǎng)絡(luò)每次輸入一對圖片X1、X2,若為同一輛車,則這一對訓(xùn)練圖片標(biāo)簽y=1;否則,y=0。圖片經(jīng)過網(wǎng)絡(luò)學(xué)習(xí)得到特征向量fx1、fx2,對比損失函數(shù)表示為:
(5)
通常使用歐氏距離作為度量函數(shù)來表征相似度,在式(5)中,dx1,x2是由特征向量fx1、fx2計(jì)算得出的歐式距離,margin是設(shè)置的訓(xùn)練閾值參數(shù)。
三元組損失在度量學(xué)習(xí)中的應(yīng)用最為廣泛,很多度量學(xué)習(xí)方法都是在三元組損失函數(shù)上做的不同改進(jìn)。三元組損失的優(yōu)勢在于細(xì)節(jié)區(qū)分。與對比損失相比,其輸入由二輸入變成三輸入,包括一張固定圖(anchor)a、與a屬于同一ID的正樣本p以及與a屬于不同ID的負(fù)樣本n。三元組損失函數(shù)表示為:
Lt=max(da,p-da,n+margin,0)
(6)
其中,da,p、da,n分別為a、p,a和n經(jīng)過網(wǎng)絡(luò)所得特征向量計(jì)算得出的歐式距離。
特征提取網(wǎng)絡(luò)在使用三元組損失訓(xùn)練學(xué)習(xí)的過程中,不斷讓anchor“拉近”與它屬于同一類的樣本,“推遠(yuǎn)”不同類樣本,從而達(dá)到“同一類樣本靠得更近,不同類樣本離得更遠(yuǎn)”的目的,如圖3所示。
圖3 三元組損失學(xué)習(xí)過程
雖然傳統(tǒng)的三元組損失有助于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的判別能力,但也有一定的局限性[27]。三元組損失函數(shù)容易在“拉近”和“推遠(yuǎn)”過程中導(dǎo)致移動方向錯誤的情況,例如,為了“推遠(yuǎn)”anchor的負(fù)樣本,導(dǎo)致該負(fù)樣本遠(yuǎn)離其自身的樣本集合,出現(xiàn)該樣本難以出現(xiàn)在其他三元組集合中的情況。在修正該錯誤的過程中,會導(dǎo)致網(wǎng)絡(luò)的收斂速度變得緩慢。
針對這一問題,文獻(xiàn)[28]提出了DRDL方法,將三元組損失改進(jìn)為簇耦合損失(Cluster Coupling Loss,CCL)。如圖4所示,該方法利用一個基于VGG的雙分支深卷積網(wǎng)絡(luò),結(jié)合屬性損失,上支根據(jù)車型屬性標(biāo)簽提取車型特征,下支利用CCL根據(jù)車輛ID提取身份信息,再通過全連接層整合兩個分支的信息進(jìn)行融合,利用CCL優(yōu)化整體結(jié)構(gòu)的參數(shù)。文獻(xiàn)[28]方法主要的優(yōu)勢在于:不同于三元組損失的輸入,CCL輸入一組正樣本集和負(fù)樣本集,不再隨機(jī)選擇anchor,而是選擇正樣本集的中心,目的是將正樣本聚集在一個中心形成一個簇,同時負(fù)樣本遠(yuǎn)離這個簇。此外,其在反向傳播的過程中也不只利用3個樣本的損失值來優(yōu)化網(wǎng)絡(luò),而是利用一組樣本的損失值,從而在每一次反向傳播的過程中學(xué)習(xí)到更多有用的特征,使網(wǎng)絡(luò)收斂得更快,在一定程度上解決傳統(tǒng)三元組收斂緩慢和錨點(diǎn)選擇敏感的問題。
圖4 DRDL網(wǎng)絡(luò)框架
DRDL雖然對三元組損失函數(shù)做出改進(jìn),但采用的仍然是隨機(jī)采取樣本組的方法,而三元組隨機(jī)采樣會出現(xiàn)當(dāng)anchor與正樣本的距離小于與負(fù)樣本的距離時三元組損失學(xué)習(xí)不到任何特征的情況,這增加了網(wǎng)絡(luò)訓(xùn)練的時間復(fù)雜度。
文獻(xiàn)[29]提出一種改進(jìn)的三元組樣本抽樣方法來糾正這一誤差。對若干個正對進(jìn)行采樣,即對同一輛汽車的圖像進(jìn)行采樣得到一組(A,B)。利用每對(A,B)產(chǎn)生兩個三元組:在一個三元組中,A是錨點(diǎn),B是正樣本;在另一個三元組中,B是錨點(diǎn),A正樣本,從其他三元組中隨機(jī)選擇負(fù)樣本。該方法降低了采樣的隨機(jī)性,同時對特征而不是原始圖像進(jìn)行采樣,避免圖像重復(fù)經(jīng)過CNN,從而使圖像特征得到重用,縮短訓(xùn)練時間。
針對同一類別車輛差異大和不同類別車輛差異小的問題,文獻(xiàn)[30]提出了組群敏感三元組嵌入方法。求出每一類車輛的類中心,根據(jù)類間損失使同類不斷向類中心移動,不同類遠(yuǎn)離類中心。將同一類車輛用K-means算法根據(jù)角度、顏色、背景等屬性劃分為若干小組,每個特定組的車輛圖像都應(yīng)具有相似的屬性,求出每一組的組中心,根據(jù)組內(nèi)損失使同一組不斷向組中心移動,不同組保持一定距離。該方法借助簇耦合損失的優(yōu)勢并且利用了組內(nèi)損失,可以顯著減小類間相似性和類內(nèi)差異性對車輛精細(xì)識別造成的負(fù)面影響。
在度量學(xué)習(xí)中,只使用度量損失函數(shù)往往對樣本距離的約束過于簡單,因此,研究者通常將其與表征學(xué)習(xí)相結(jié)合,通過聯(lián)合損失優(yōu)化網(wǎng)絡(luò)實(shí)現(xiàn)不同損失函數(shù)的互相約束,從而使網(wǎng)絡(luò)能夠?qū)W到更具代表性的特征。
根據(jù)提取的特征信息,車輛再識別方法可以分為基于單維度信息和基于多維度信息的方法。單維度信息指僅從一個方面對整幅圖像提取的一個特征,在此不做贅述。多維度信息指不僅從單一方面獲取的圖像特征,而是利用多種提取特征的方法或者利用車輛本身的多個特點(diǎn)提取到的多維度特征。本文將基于多維度信息的方法進(jìn)一步劃分為基于多模態(tài)學(xué)習(xí)和基于多特征兩類方法。
1.3.1 基于多模態(tài)學(xué)習(xí)的方法
基于多模態(tài)學(xué)習(xí)的方法將傳統(tǒng)方法與深度學(xué)習(xí)方法提取的多特征進(jìn)行融合。文獻(xiàn)[31]提出多模態(tài)方法FACT,利用BOW-SIFT[32]提取紋理特征,通過BOW-CN[33]提取顏色特征,利用Google Net[34]學(xué)習(xí)語義特征,將提取到的3種特征直接拼接到一起得到圖像的多模態(tài)特征,最后采用歐式距離計(jì)算待搜索與待檢索圖像之間的相似度。文獻(xiàn)[35]在FACT方法中添加車牌驗(yàn)證信息和時空相關(guān)性信息,構(gòu)建一種基于深度神經(jīng)網(wǎng)絡(luò)的漸進(jìn)式車輛再識別框架PROVID,利用時空特性對車輛進(jìn)行重新排序,進(jìn)一步改進(jìn)了車輛搜索過程。FACT模型結(jié)合了手工特征與深度特征,雖然深度特征和手工特征融合實(shí)現(xiàn)了更健壯、更有鑒別能力的特征表示,但這兩類特征存在于不同特征空間,若直接通過拼接的方式融合在一起,無法充分挖掘它們之間的互補(bǔ)關(guān)系。FACT采取的融合策略只是將不同特征在最后直接拼接,沒有充分挖掘不同類型特征之間的互補(bǔ)相關(guān)性。文獻(xiàn)[36]設(shè)計(jì)一種多模態(tài)度量學(xué)習(xí)體系結(jié)構(gòu),如圖5所示,該結(jié)構(gòu)集成了LBP[37]與BOW-CN功能,并將深度特征和手工特征融合到一個端到端優(yōu)化網(wǎng)絡(luò)中。與FACT融合策略不同,其將LBP與BOW-CN直接作為神經(jīng)網(wǎng)絡(luò)的輸入,分別經(jīng)過一個多層感知機(jī)與CNN學(xué)習(xí)后再進(jìn)行融合,而不是在最后一層直接拼接,因而是一種更魯棒、更具識別性的特征表示方法。
圖5 多模態(tài)度量學(xué)習(xí)框架
多模態(tài)方法提取了低層次的特征和高層次的語義特征,利用兩種特征的融合使得車輛特征更有區(qū)分度。但該方法需要設(shè)計(jì)額外的手工特征與多模態(tài)特征的融合策略,而手工特征對車輛特征表征能力較差。
1.3.2 基于多特征的方法
早期的車輛再識別研究主要關(guān)注點(diǎn)是全局特征[38],即網(wǎng)絡(luò)對整幅圖像提取的一個特征。一般的卷積網(wǎng)絡(luò)提取的都是全局特征,然而由于全局特征存在單一性,因此一些研究開始關(guān)注車輛的局部信息,利用局部與全局聯(lián)合的多特征,其中局部特征是指網(wǎng)絡(luò)針對所關(guān)注的關(guān)鍵局部區(qū)域提取的局部特征。
文獻(xiàn)[39-40]考慮到兩輛車外觀難以區(qū)分時可以利用擋風(fēng)玻璃區(qū)域標(biāo)志的特征(如年檢標(biāo)志顏色、數(shù)量、位置等),提出將擋風(fēng)玻璃的局部特征與全局特征進(jìn)行融合。文獻(xiàn)[41]建立一種具有方位不變性的特征嵌入模型,為車輛圖像標(biāo)注20個關(guān)鍵點(diǎn)用以提取不同位置的局部特征,并將提取的局部特征與全局特征進(jìn)行融合,進(jìn)而得到車輛的外觀特征向量。雖然該方法考慮了角度和局部特征對車輛再識別的影響,但要在數(shù)據(jù)集圖片上標(biāo)注關(guān)鍵點(diǎn),面對幾十萬量級的車輛數(shù)據(jù)集,標(biāo)注工作量十分龐大。因此,從可行性與工作量上考慮,該方法可行性較差。文獻(xiàn)[42]為避免對關(guān)鍵點(diǎn)進(jìn)行額外的注釋和預(yù)測,提出采用更簡潔的RAM局部特征提取方法。如圖6所示,RAM由4個分支構(gòu)成,由上至下,屬性分支學(xué)習(xí)顏色以及模型等屬性,Conv分支學(xué)習(xí)全局特征,BN分支對全局特征歸一化,局部分支學(xué)習(xí)局部屬性。其中,局部分支對提取的全局特征由上到下水平平均劃分3個區(qū)域,分別為top(t)、middle(m)和bottom(b),將每個分支都作為一個分類任務(wù)進(jìn)行訓(xùn)練。RAM避免了對關(guān)鍵點(diǎn)的標(biāo)注,訓(xùn)練模型也比較簡潔,可行性較高,但此類方法也存在一些弊端,例如不能很好地解決一些姿態(tài)問題。
圖6 RAM網(wǎng)絡(luò)框架
文獻(xiàn)[43]利用預(yù)訓(xùn)練的YOLO網(wǎng)絡(luò)[44]檢測車窗、車燈、車牌等感興趣區(qū)域,將更多的多維度局部特征引入車輛再識別框架中,以增強(qiáng)網(wǎng)絡(luò)對車輛模型細(xì)微差異的學(xué)習(xí),提升局部特征在學(xué)習(xí)過程中的影響力。雖然局部特征是區(qū)分相似車輛的重要突破口,但并非所有局部特征都具有區(qū)分度,一些不具備區(qū)分度的局部特征對網(wǎng)絡(luò)不僅不能起到監(jiān)督作用,而且還增加了計(jì)算量。因此,文獻(xiàn)[45]建立以局部區(qū)域引導(dǎo)的注意力模型PGAN,其從目標(biāo)檢測模型中提取每幅車輛圖像的局部區(qū)域,為網(wǎng)絡(luò)學(xué)習(xí)提供一定范圍的候選搜索區(qū)域。在此基礎(chǔ)上,利用局部注意模塊學(xué)習(xí)每個候選區(qū)域的軟注意權(quán)重,其中,高關(guān)注權(quán)值代表最具區(qū)別性的區(qū)域,低關(guān)注權(quán)值則表示無效區(qū)域。通過全局特征和最具辨識性局部區(qū)域的聯(lián)合優(yōu)化,PGAN具有較出色的再識別效果。
基于局部與全局多特征的車輛再識別方法,采用額外增加的標(biāo)注信息、注意力或分塊機(jī)制,使網(wǎng)絡(luò)在學(xué)習(xí)的過程中關(guān)注更具區(qū)分度的特征,提升了識別準(zhǔn)確率,但同時也存在額外標(biāo)注、計(jì)算量大等缺點(diǎn)。
近年來,GAN[46]成功應(yīng)用于許多計(jì)算機(jī)視覺任務(wù)中,如圖片生成[47]、風(fēng)格遷移[48]等,基于GAN的再識別方法也開始被關(guān)注。GAN在行人再識別上的主要應(yīng)用[49]包括生成行人圖像擴(kuò)大數(shù)據(jù)集、進(jìn)行風(fēng)格遷移減少跨相機(jī)帶來的風(fēng)格偏差以及實(shí)現(xiàn)姿態(tài)遷移等。然而,不同于行人圖像,憑借車輛的單視角圖像很難得到準(zhǔn)確的識別結(jié)果,例如僅用車輛的側(cè)視圖很難判斷出其他視圖。因此,在車輛再識別任務(wù)中,GAN被用來為每個圖像生成多視角特征,其設(shè)計(jì)思想是將單視角車輛圖像作為GAN生成網(wǎng)絡(luò)的輸入,將真實(shí)的多視角圖像作為判別網(wǎng)絡(luò)的輸入,通過生成器與判別器的不斷博弈,使生成器推斷單視角車輛在其他視角下的特征,從而生成逼真的多視角圖像。
文獻(xiàn)[50]建立一種視點(diǎn)感知的多視點(diǎn)推理模型VAMI,其采用視圖感知注意模型自動選擇突出區(qū)域,并從特征中剔除無用信息,得到5個視角重疊特征。在此基礎(chǔ)上,通過GAN體系結(jié)構(gòu)推斷出具有不同視角特征的一個向量,從車輛單視角圖像中學(xué)習(xí)生成具有多視角的全局特征。由于該方法使用了車輛的顯著區(qū)域特征,并且利用顯著性多視角特征生成多視角的全局特征,因此較傳統(tǒng)GAN生成車輛多視角特征的方法更合理,適合跨攝像頭視頻監(jiān)控下的車輛再識別任務(wù)。
文獻(xiàn)[51]基于GAN在車輛再識別中的應(yīng)用研究,提出EALN方法。該方法利用兩個GAN,一個用于生成多視角圖像Gview,另一個用于生成與輸入圖像相似的圖像Ghard。Ghard圖像作為負(fù)樣本,能夠有效提高網(wǎng)絡(luò)辨別能力,更好地區(qū)分相似的圖像。EALN利用Gview和Ghard生成的樣本以及訓(xùn)練集來訓(xùn)練一個更具鑒別性的嵌入模型Demb,在測試階段,Demb作為特征提取器,使用生成的Gview圖像與輸入圖像實(shí)現(xiàn)特征融合。實(shí)驗(yàn)結(jié)果表明,與單獨(dú)使用一個GAN生成多視角圖像的方法相比,加入Ghard圖像作為負(fù)樣本的方法可使識別效果得到提升。
GAN可以針對單視角圖像生成多視角特征,在一定程度上解決跨視角的車輛再識別問題,也可用于生成更多的圖像樣本。但是使用GAN生成圖像時存在難以收斂的問題,同時整體的模型結(jié)構(gòu)和訓(xùn)練過程也比較復(fù)雜。
按網(wǎng)絡(luò)訓(xùn)練損失分類,可將車輛再識別方法分為表征學(xué)習(xí)與度量學(xué)習(xí)兩類。表征學(xué)習(xí)將車輛再識別看作是圖片分類問題,模型比較簡單,易于訓(xùn)練,但容易在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,且當(dāng)ID數(shù)量增加到一定程度后訓(xùn)練比較困難。度量學(xué)習(xí)直接學(xué)習(xí)出圖像之間的相似度,不需要根據(jù)ID數(shù)量來調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu),可以方便地?cái)U(kuò)展到新的數(shù)據(jù)集。然而,度量學(xué)習(xí)訓(xùn)練和收斂時間比表征學(xué)習(xí)時間長,并且在調(diào)參方面也有一定的難度。
按照提取的特征信息,可將車輛再識別方法分為基于單維度信息和基于多維度信息兩類?;趩尉S度信息的方法僅從一個方面對整幅圖像提取一個特征,對車輛圖像的表征能力不強(qiáng)?;诙嗑S度信息的方法又可被進(jìn)一步劃分為基于多模態(tài)學(xué)習(xí)和基于多特征兩類方法。
1)基于多模態(tài)學(xué)習(xí)的方法將傳統(tǒng)方法與深度學(xué)習(xí)方法提取的多特征進(jìn)行融合。由于傳統(tǒng)方法只對特定任務(wù)有效,泛化能力較差,因此在CNN剛開始流行時,出現(xiàn)了傳統(tǒng)方法結(jié)合深度學(xué)習(xí)的多模態(tài)方法。多模態(tài)方法提取了低層次的特征和高層次的語義特征,使得特征更有區(qū)分度,但是需要設(shè)計(jì)額外的手工特征與多模態(tài)特征的融合策略。雖然可以結(jié)合手工特征與深度學(xué)習(xí)特征提取方法,但手工特征依然不具備突出的表征能力。
2)基于多特征的方法將局部與全局聯(lián)合的多特征作為車輛圖像的表征。利用全局特征的方法把圖片直接輸入卷積網(wǎng)絡(luò)做平均池化處理后便可得到全局特征,具有計(jì)算簡單、計(jì)算量小的優(yōu)點(diǎn)。但是在姿態(tài)變化大、圖片存在遮擋和全局特征相似而只有局部細(xì)節(jié)不相似等情況下,全局特征容易導(dǎo)致誤判。利用局部特征的穩(wěn)定性在一定程度上可以解決以上問題,但也存在一些缺點(diǎn)。通常全局特征與局部特征是互補(bǔ)的關(guān)系,因此,多數(shù)研究將局部特征和全局特征聯(lián)合使用,把兩種特征融合成多特征作為輸入圖像的特征。
GAN可以針對單視角圖像生成多視角特征,在一定程度上解決跨視角的車輛再識別問題,也可用來生成更多的圖像樣本。但是GAN在訓(xùn)練過程中需要不斷平衡生成器與判別器,難以使網(wǎng)絡(luò)達(dá)到收斂的狀態(tài),同時整體模型比較復(fù)雜。
從傳統(tǒng)的特征方法到深度學(xué)習(xí)自動特征提取方法,車輛再識別技術(shù)的發(fā)展與大規(guī)模車輛數(shù)據(jù)集的發(fā)展密不可分。近年來,大規(guī)模的車輛再識別數(shù)據(jù)集先后出現(xiàn),這也反映了基于深度學(xué)習(xí)的車輛再識別研究具有蓬勃的發(fā)展趨勢。這些數(shù)據(jù)集各自具備不同的特點(diǎn),本文列舉以下4個常用的車輛再識別數(shù)據(jù)集:
1)VehicleID[28]。該數(shù)據(jù)集源于多個互不重疊的監(jiān)控?cái)z像頭基于兩個視點(diǎn)(前面和后面)的拍攝,包含26 267輛車共221 763幅圖像。VehicleID數(shù)據(jù)集對車輛的顏色、車輛款式、車輛ID進(jìn)行了標(biāo)注,包含更多的車輛圖像和身份信息,適合車輛細(xì)粒度檢索。由于該數(shù)據(jù)集規(guī)模較大,因此被劃分為小規(guī)模數(shù)據(jù)集、中等規(guī)模數(shù)據(jù)集和大規(guī)模數(shù)據(jù)集,所包含的車輛ID數(shù)量分別為800個、1 600個和2 400個。但其中大部分車輛圖像都是在近距離地點(diǎn)拍攝,并且只包含前面和后面兩個視點(diǎn),不能反映現(xiàn)實(shí)路面的復(fù)雜情況。
2)VeRi[31]。該數(shù)據(jù)集包含619種車輛模型共40 000幅車輛圖像,這些圖像由20臺攝像機(jī)在多種不同的交通場景下拍攝得到,每一輛車被2個~18個不同位置的攝像機(jī)捕獲,因此,車輛圖像存在不同分辨率、不同背景和遮擋的情況。在VeRi數(shù)據(jù)集中,每幅車輛圖像都具有詳細(xì)的標(biāo)注信息,包括車身顏色、車輛款式、品牌等。該數(shù)據(jù)集能夠反映現(xiàn)實(shí)世界交通場景的實(shí)際情況,適用于車輛再識別任務(wù)。
3)VeRi-776[35]。該數(shù)據(jù)集是VeRi數(shù)據(jù)集的擴(kuò)展,包含776輛車共50 000幅圖像,其不僅具備VeRi數(shù)據(jù)集的標(biāo)注信息,而且還增加了對車牌和時空信息的標(biāo)注,如車牌信息、車輛被拍攝的時間以及不同攝像機(jī)之間的距離。VeRi-776數(shù)據(jù)集是提供時間-地理信息的數(shù)據(jù)集,可用于車輛重識別和車輛跟蹤等任務(wù)。
4)VRID-1[39]。該數(shù)據(jù)集包含10個常見的車輛款式,每個款式有100輛不同的車,每輛車有10張?jiān)诓煌攸c(diǎn)拍攝的圖像,總計(jì)1 000輛車10 000幅圖像。雖然由10個視角拍攝,但多數(shù)都為車身正面圖像,因此,該數(shù)據(jù)集主要用于評測同一款式或類型車輛的重識別方法。
分別從樣本數(shù)量、車型數(shù)量、視角個數(shù)、發(fā)表年份等方面對上述4種數(shù)據(jù)集進(jìn)行比較,如表1所示。
表1 4種常用數(shù)據(jù)集的比較
mAP(mean Average Precision)和Rank-1是衡量車輛再識別算法模型的主流評價(jià)指標(biāo)。
1)mAP即PR曲線面積的平均值。PR曲線面積可由精確率和召回率得到,計(jì)算公式如下:
(7)
(8)
其中,P為精確率,R為召回率,TP表示預(yù)測訓(xùn)練集中為正例且實(shí)際也是正例的個數(shù),FP為預(yù)測正例但實(shí)際上為反例的個數(shù),FN為預(yù)測為反例但實(shí)際上為正例的個數(shù)。以精確率和召回率分別為橫縱坐標(biāo)繪制PR曲線,計(jì)算圍成面積得出平均精度。
2)Rank-1表示搜索后返回圖像集中的第一張圖像是正確圖像的概率。
針對上文介紹的基于深度學(xué)習(xí)的車輛再識別方法,對算法機(jī)制和優(yōu)缺點(diǎn)進(jìn)行對比,如表2所示。同時選擇VeRi-776與VehicleID數(shù)據(jù)集作為示例數(shù)據(jù)集,比較多種典型方法的mAP和Rank-1值,如表3所示。
表2 多種基于深度學(xué)習(xí)的車輛再識別方法比較
表3 多種方法在VeRi-776和VehicleID數(shù)據(jù)集上的mAP和Rank-1指標(biāo)比較
BOW+CN是一種效果較好的傳統(tǒng)方法,但從表2和表3可以看出,基于深度學(xué)習(xí)的方法都要優(yōu)于BOW+CN在車輛再識別上的表現(xiàn),由此可見,深度學(xué)習(xí)逐漸取代了傳統(tǒng)方法在車輛再識別上的應(yīng)用。在傳統(tǒng)方法到深度學(xué)習(xí)的過渡階段,傳統(tǒng)方法與深度學(xué)習(xí)方法相結(jié)合的多模態(tài)方法被相繼提出。多模態(tài)方法依然依賴一些手工特征并且需要多模態(tài)特征的融合策略,可以看出,FACT、MEL雖然比傳統(tǒng)方法效果好,但是仍然不能很好地解決車輛再識別問題,手工特征仍然缺乏表達(dá)車輛身份的能力。
2017年后車輛再識別研究主要關(guān)注深度學(xué)習(xí)自提取特征方法,早期的單損失也逐漸發(fā)展為多損失。其中,DJDL組合了分類、對比和三元組損失,在VehicleID數(shù)據(jù)集上表現(xiàn)突出,許多方法根據(jù)三元組損失的缺點(diǎn)對其做出改進(jìn)。早期對圖像特征的研究集中于全局特征,之后研究者開始將局部特征與全局特征聯(lián)合使用:OIFE使用關(guān)鍵點(diǎn)提取局部特征,但標(biāo)注工作量較大;RAM考慮分塊特征,在VeRi上的平均精度比OIFE高出13.5%,在VeRi數(shù)據(jù)集上效果也比較突出;PGAN采用注意力機(jī)制獲得了最具辨識性的局部區(qū)域,在兩個數(shù)據(jù)集中的綜合表現(xiàn)都優(yōu)于其他方法。隨著GAN發(fā)展,其被逐漸用于車輛再識別,從表2和表3可以看出,基于GAN的識別效果也逐漸提升,其中EALN效果最佳,原因在于此方法不僅生成多視角圖像,而且還應(yīng)用GAN生成相似樣本作為負(fù)樣本集。
近年來,基于深度學(xué)習(xí)的車輛再識別研究發(fā)展迅速并且方法多樣。從發(fā)展趨勢來看,其由單損失、單特征逐漸發(fā)展為多損失、多特征聯(lián)合的方法??梢钥闯錾疃葘W(xué)習(xí)對于車輛圖像具有強(qiáng)大的特征表達(dá)能力,但是與行人再識別相比,目前車輛再識別的準(zhǔn)確率仍較低,不能滿足實(shí)際應(yīng)用要求。
通過上述分析可知,基于深度學(xué)習(xí)的車輛再識別研究雖然取得了一定的成果,但在實(shí)際應(yīng)用中依然面臨嚴(yán)峻挑戰(zhàn),主要體現(xiàn)在以下5個方面:
1)需要構(gòu)建真實(shí)、高質(zhì)量的數(shù)據(jù)集。目前公開的車輛數(shù)據(jù)集規(guī)模都較小,數(shù)據(jù)集中的車型類別較少,并且車輛顏色單一、車輛數(shù)量不足。而現(xiàn)實(shí)監(jiān)控中車輛數(shù)量龐大,車型、顏色成百上千,數(shù)據(jù)集的圖像很難反映現(xiàn)實(shí)世界監(jiān)控,因此,需要構(gòu)建更能反映真實(shí)交通環(huán)境的高質(zhì)量車輛數(shù)據(jù)集。
2)設(shè)計(jì)領(lǐng)域自適應(yīng)的車輛再識別方法。觀察表3中的Rank-1值可以發(fā)現(xiàn),同一方法在VeRi數(shù)據(jù)集上Rank-1值高于VehicleID數(shù)據(jù)集,表明同一方法在不同數(shù)據(jù)集上不能達(dá)到同樣的效果。車輛再識別技術(shù)的應(yīng)用是非常廣泛、靈活的,需要應(yīng)用到各個不同場景,根據(jù)每個不同的場景都重新訓(xùn)練一個模型效率較低,因此,利用領(lǐng)域自適應(yīng)的方法將一個交通場景下訓(xùn)練的模型應(yīng)用到新的場景是一個值得研究的課題。此外,也可以使用Cycle-GAN來實(shí)現(xiàn)不同車輛數(shù)據(jù)集之間風(fēng)格的遷移,以提升車輛再識別技術(shù)在不同場景下的應(yīng)用能力。
3)減少標(biāo)注量的使用。目前多數(shù)車輛再識別方法都屬于監(jiān)督學(xué)習(xí),需要提前對數(shù)據(jù)進(jìn)行標(biāo)注,并對數(shù)據(jù)集中所有車輛ID、顏色、視角、車型等信息進(jìn)行人工標(biāo)注,這會耗費(fèi)大量的時間、精力且不能保證標(biāo)注的正確無誤。利用半監(jiān)督學(xué)習(xí)模型可使用更少的標(biāo)注數(shù)據(jù)來獲得更有效的車輛特征表示,也可利用遷移學(xué)習(xí)將其他數(shù)據(jù)集訓(xùn)練的模型遷移至缺少標(biāo)簽信息的目標(biāo)數(shù)據(jù)集,同時,可進(jìn)一步利用攝像頭之間轉(zhuǎn)移時間的分布和位置信息,得出數(shù)據(jù)集中車輛的時空分布規(guī)律并遷移至目標(biāo)數(shù)據(jù)集,從而高效完成車輛再識別的任務(wù)。
4)設(shè)計(jì)基于視頻的車輛再識別方法。目前多數(shù)車輛再識別方法都是基于單幀圖像的,而在現(xiàn)實(shí)交通場景中,車輛的圖像都是由視頻序列得到的,單幀車輛圖像一旦出現(xiàn)遮擋,算法的魯棒性就會明顯降低。因此,需要設(shè)計(jì)基于視頻的車輛再識別方法,當(dāng)某些圖像幀出現(xiàn)遮擋,可以通過其他幀的圖像信息對目標(biāo)車輛進(jìn)行識別,從而得到較好的識別效果。例如,可以利用CNN提取車輛圖像特征,同時通過遞歸循環(huán)網(wǎng)絡(luò)提取時序(車輛運(yùn)動)特征,利用融合圖像內(nèi)容信息和運(yùn)動信息提高車輛再識別的準(zhǔn)確性和魯棒性。因此,直接基于視頻圖像采用端到端的方式搜索目標(biāo)車輛將是未來亟需解決的一個問題。
5)設(shè)計(jì)特定場景下的車輛再識別方法。目前,多數(shù)車輛再識別方法基于光照較好的開放道路,而在夜間、涵洞、隧道等特定場景下,RGB相機(jī)失去了作用[52],需要匹配RGB圖像與紅外圖像進(jìn)行跨模態(tài)的車輛再識別。由于紅外圖像具有異構(gòu)性,視覺特征差異較大,正常日間交通場景下的車輛再識別模型不再完全適用于跨模態(tài)識別,因此可借鑒一些跨模態(tài)行人再識別方法,如利用GAN生成對應(yīng)的紅外圖像,將RGB圖像風(fēng)格轉(zhuǎn)換成紅外的風(fēng)格[53],或利用變分自編碼器(Variational Auto-Encoder,VAE)對車輛RGB 圖像和紅外圖像通過VAE生成中間的隱向量,將不同模態(tài)的車輛圖像映射至同一標(biāo)準(zhǔn)正態(tài)分布空間中[54],實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)之間的相互轉(zhuǎn)換,使同一車輛不同模態(tài)下的特征變得更為相似,從而有效解決特定場景下的車輛再識別問題。隨著車輛再識別技術(shù)的不斷完善,解決跨模態(tài)的車輛搜索將是一個更具挑戰(zhàn)且更具發(fā)展前景的研究方向。
本文總結(jié)車輛再識別領(lǐng)域中深度學(xué)習(xí)應(yīng)用的研究現(xiàn)狀,從算法特點(diǎn)及結(jié)構(gòu)方面介紹經(jīng)典的車輛再識別方法并進(jìn)行分類、評估,對比不同方法在4種常用數(shù)據(jù)集上的識別效果。通過分析深度學(xué)習(xí)在車輛再識別應(yīng)用中的有效性,指出基于深度學(xué)習(xí)的車輛再識別是未來發(fā)展的重要方向,但面對智能交通場景的應(yīng)用需求,車輛再識別的發(fā)展將面臨更多挑戰(zhàn)。因此,研究者應(yīng)針對領(lǐng)域自適應(yīng)、視頻、特定場景等問題進(jìn)行深入研究,提升該技術(shù)在現(xiàn)實(shí)交通場景下的應(yīng)用能力。