殷雨昌,王洪元*,陳莉,馮尊登,肖宇
(1.常州大學計算機與人工智能學院阿里云大數(shù)據(jù)學院,江蘇常州 213000;2.常州工程職業(yè)技術(shù)學院,江蘇常州 213000)
行人重識別旨在識別不同攝像頭下,不同視角、不同時間的同一個身份。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的快速發(fā)展,作為智能視頻監(jiān)督系統(tǒng)關(guān)鍵技術(shù)的視頻行人重識別也取得了巨大的進步[1-5]?,F(xiàn)有的大多數(shù)的視頻行人重識別方法采用有監(jiān)督學習的方式,這類方法非常地依賴大量的有標簽數(shù)據(jù)。由于大規(guī)模數(shù)據(jù)集的標注十分的費力且耗時,一些研究者逐漸開始關(guān)注半監(jiān)督視頻行人重識別[6-7]。
基于單標注樣本(one-shot)的行人重識別[8-10]屬于半監(jiān)督行人重識別方法的一種。對于單標注樣本視頻行人重識別,訓練集中每個身份僅有一個有標簽的視頻片段,其余的數(shù)據(jù)都為無標簽數(shù)據(jù)。在這樣嚴苛的環(huán)境下,如何高效地利用這些無標簽數(shù)據(jù)就成為一個關(guān)鍵點。常規(guī)的方法是先為無標簽的數(shù)據(jù)分配偽標簽,然后選擇部分可靠的偽標簽數(shù)據(jù)加入原訓練集,最后利用擴充的新數(shù)據(jù)集再次訓練模型。這類方法的核心在于標簽估計和數(shù)據(jù)選擇。目前主要有兩種策略來擴充新數(shù)據(jù)集:一種方法是設(shè)置預(yù)先定義的閾值,然后選擇標簽預(yù)測置信度高于閾值的偽標簽數(shù)據(jù)。這種靜態(tài)策略每次選擇固定數(shù)量的樣本用于訓練,優(yōu)點是整個訓練過程比較平穩(wěn),模型性能不會有較大的波動,同時也存在訓練周期冗長、數(shù)據(jù)利用率低的缺點。另一種方法采用漸進的策略選擇偽標簽樣本數(shù)量。這種方法根據(jù)預(yù)測的置信度動態(tài)地選擇可靠的偽標簽數(shù)據(jù),隨著訓練過程不斷地進行,模型的性能也逐漸提高;但是這種策略需要考慮樣本數(shù)量選擇的效率問題:如果每次選擇的偽標簽樣本數(shù)量較少,訓練周期就會延長,而且由于初始的有標簽樣本數(shù)量少,在訓練過程中容易出現(xiàn)過擬合的情況;如果每次選擇的偽標簽樣本數(shù)量較多,又會導(dǎo)致偽標簽估計準確率偏低,后續(xù)模型的訓練也會因此受到影響。
本文考慮采用漸進學習的策略[10]。整個過程可以簡單分為3 個步驟:1)為無標簽數(shù)據(jù)生成偽標簽;2)選擇部分可靠的偽標簽數(shù)據(jù)與有標簽數(shù)據(jù)組合,作為新的訓練集;3)利用新的訓練集再次訓練模型。由于訓練初期標簽樣本數(shù)量少,模型容易過擬合,判別力不強,并且未被選擇的無標簽樣本沒有發(fā)揮作用,本文設(shè)計了一個多損失學習(Multi-Loss Learning,MLL)策略。具體地,對于有標簽數(shù)據(jù)和偽標簽數(shù)據(jù),為了適應(yīng)檢索任務(wù)的需求,增強模型的判別力,采用標簽平滑正則化損失(Label-Smoothing Regularization Loss,LSR Loss)[11]和交叉熵損失(CrossEntropy Loss,CE Loss)進行聯(lián)合優(yōu)化;對于沒有被選擇無標簽數(shù)據(jù),則采用排他損失(Exclusive Loss,Ex Loss)[10]對其進行優(yōu)化,令其在特征空間中相互遠離,減少對標簽分配的影響,避免模型學習到無關(guān)的特征。在標簽分配時,為了進一步提高標簽估計的準確率,本文還設(shè)計了一個新的聯(lián)合距離度量(Joint Distance Metric,JDM),該度量能夠考慮到樣本分布的影響,保證后期選擇的偽標簽數(shù)據(jù)的可靠性。
本文的主要工作如下:1)提出了MLL 策略,針對不同類型的數(shù)據(jù),采用相對應(yīng)的損失函數(shù)進行優(yōu)化,以充分地利用數(shù)據(jù),有效緩解模型魯棒性不足的問題,提高模型的判別力。2)設(shè)計了JDM 用于偽標簽估計,以有效提升偽標簽預(yù)測的準確率。3)在MARS 和DukeMTMC-VideoReID 兩個大規(guī)模視頻行人數(shù)據(jù)集上進行實驗,驗證了本文方法的有效性。
近年來,基于深度學習的視頻行人重識別發(fā)展迅速,并在各大數(shù)據(jù)集上取得了令人矚目的成果[12-16]。和基于圖片的行人重識別相比,視頻行人重識別包含更多的行人身份信息,同時也伴隨著更多的噪聲和挑戰(zhàn)。如何獲得具有判別力的序列級特征是有監(jiān)督視頻行人重識別的核心。為了解決這個問題,研究者們主要從視頻的時空信息出發(fā),再通過整合注意力機制提取更有效的行人特征。文獻[12]中提出了一種聯(lián)合時空特征整合網(wǎng)絡(luò),同時學習質(zhì)量感知模型和幀感知模型,旨在獲得基于注意力的整合的時空特征;文獻[13]中主要關(guān)注行人重識別中的遮擋問題,提出了一個時空完成網(wǎng)絡(luò),該網(wǎng)絡(luò)利用每一幀圖片的空間結(jié)構(gòu)和行人視頻序列的時間模式去復(fù)原遮擋部分的信息;文獻[14]中提出了一個協(xié)同分割啟發(fā)的架構(gòu),利用視頻的多幀的相互共識,獲得一組突出的特征;文獻[15]中利用動態(tài)圖來解決視頻行人重識別問題,讓相鄰區(qū)域之間的聯(lián)系發(fā)揮作用;文獻[16]中提出了一種多粒度超圖的框架,從多個不同的粒度提取時空信息,進而獲得更好的表征能力。
與有監(jiān)督行人重識別方法相比,半監(jiān)督行人重識別受到的關(guān)注較少。早期的半監(jiān)督行人重識別方法性能不佳[6-7],做法局限,并且沒有在大規(guī)模的行人重識別數(shù)據(jù)集上進行驗證實驗。與之前的工作不同,文獻[8]中基于單標注樣本來進行行人重識別研究,利用灰度圖像學習具備顏色不變性的特征,以解決顏色分布差異。由于這種單標注樣本的設(shè)置十分接近現(xiàn)實的場景,之后的許多研究者也開始關(guān)注這個問題[17-20]。文獻[18]中設(shè)計了一個特征空間正則化損失調(diào)整樣本在特征空間的分布,并且利用類間距離作為標簽估計的距離度量;但是在利用類間距離作為標簽估計的度量時,在訓練后期會出現(xiàn)標簽估計誤差大的現(xiàn)象。文獻[19]中采用了一種新的數(shù)據(jù)選擇策略,通過設(shè)置置信度分數(shù)來選擇可靠的偽標簽樣本;但是對于樣本選擇的結(jié)果影響較小,效果不明顯。文獻[20]中學習有監(jiān)督行人重識別特征提取的方法,設(shè)計了一個局部全局特征提取網(wǎng)絡(luò),并用自適應(yīng)的損失平衡兩部分的作用,緩解行人圖片不對齊的問題;但是由于單標注樣本初始有標簽數(shù)據(jù)比較少,模型魯棒性不足,很難提取有效的特征,并且忽視了關(guān)鍵的標簽估計的部分。為能有效地利用無標簽樣本,提高偽標簽預(yù)測的準確率,本文提出了一種基于單標注樣本的多損失學習與聯(lián)合度量視頻行人重識別方法。
如圖1 所示,本文采用一種迭代的方式訓練模型。整個框架主要包含兩個部分:特征提取和標簽估計。在特征提取階段,本文方法利用標簽平滑正則化損失、交叉熵損失和排他損失分別對有標簽數(shù)據(jù)、偽標簽數(shù)據(jù)以及未選擇數(shù)據(jù)進行訓練,訓練完成后評估當前模型的性能,隨后進入標簽估計階段。需要注意的是,在初始階段只存在有標簽數(shù)據(jù)和無標簽數(shù)據(jù),因為初始階段還沒有進行標簽估計,所以不會存在偽標簽數(shù)據(jù)。在標簽估計階段,利用之前訓練得到的模型將有標簽數(shù)據(jù)和無標簽數(shù)據(jù)映射到特征空間,隨后根據(jù)特定的度量分配偽標簽,選擇較為可靠的偽標簽樣本作為下一次訓練的子集,剩余的數(shù)據(jù)即作為未選擇數(shù)據(jù)。
圖1 本文方法的整體迭代框架Fig.1 Overall iterative framework of the proposed method
特別地,在每次迭代中,選擇的偽標簽樣本數(shù)量是不斷增加的。為了方便調(diào)整選擇的偽標簽樣本的數(shù)量,本文設(shè)置了一個參數(shù)p來控制每次迭代增加的偽標簽樣本的比率。
本文采用基于單標注樣本的實驗設(shè)置,在初始階段訓練數(shù)據(jù)被劃分成兩個部分:有標簽數(shù)據(jù)和無標簽數(shù)據(jù)。在隨后的過程中,每次標簽估計之后會從無標簽數(shù)據(jù)中選擇部分可靠的偽標簽數(shù)據(jù)作為下次訓練的子集。此時,無標簽數(shù)據(jù)中仍剩余部分數(shù)據(jù)未被選擇,這些數(shù)據(jù)由于置信度較低,被認為是不可靠的樣本。在文獻[9]中分配偽標簽之后,就丟棄了這部分未被選擇的數(shù)據(jù)。由于漸進的策略在初期選擇的偽標簽樣本數(shù)量比較少,這種做法不能充分地利用無標簽數(shù)據(jù),因此,為了在訓練階段高效地利用樣本,本文設(shè)計了一個MLL 策略。
該策略的整體結(jié)構(gòu)如圖2 所示,在t次迭代時,訓練集將有三種類型的數(shù)據(jù):有標簽數(shù)據(jù)L、偽標簽數(shù)據(jù)Pt和未選擇數(shù)據(jù)Nt。行人重識別本質(zhì)上來說是一個視頻檢索任務(wù),為了更適合實際的需求,本文將其作為分類問題來處理。在分類任務(wù)中,交叉熵損失是常用的損失函數(shù)。
圖2 MLL策略Fig.2 MLL strategy
其中:xi表示輸入的數(shù)據(jù),yi是與之對應(yīng)的真實標簽;n表示樣本總數(shù);p(yi|xi)表示xi被預(yù)測為yi的概率。在單標注樣本的環(huán)境下,每個行人只有一個有標簽視頻段,可用于訓練的樣本數(shù)量很少。在訓練時,模型學習到的特征少,泛化性和判別力不強,容易陷入過擬合的情況,因此在標簽估計時,偽標簽預(yù)測錯誤的情況十分常見,對后續(xù)模型的訓練造成消極的影響。
針對這個問題,本文在訓練時采用標簽平滑正則化損失[11],該損失能有效緩解模型訓練中的過擬合問題。該損失表示如下:
其中:k∈{1,2,…,K}是訓練數(shù)據(jù)預(yù)先定義的類別;p(k)是樣本被預(yù)測為k的概率;ε∈[0,1]是一個超參數(shù)。針對數(shù)據(jù)浪費的問題,本文使用排他損失對未被選擇的數(shù)據(jù)進行優(yōu)化。使用該損失的目的是在特征空間中,希望未被選中的數(shù)據(jù)相互遠離,避免模型學習到無關(guān)的特征,影響到標簽估計的準確率。該損失表示如下:
其中:vi=?(θ;xi)是樣本xi的歸一化特征嵌入;τ是用來控制分布的參數(shù)??偟膩碚f,本文提出的策略在三種類型的數(shù)據(jù)上聯(lián)合優(yōu)化模型。根據(jù)式(1)~(3)可以得到最終用于訓練的目標函數(shù):
其中λ是一個超參數(shù),用來平衡兩個部分對于模型訓練的影響。
標簽估計是目前半監(jiān)督行人重識別任務(wù)的主要挑戰(zhàn)[21-23],如何為無標簽數(shù)據(jù)分配正確的偽標簽對于模型訓練起著至關(guān)重要的作用。在以往的工作[9-10]中,通常采用最近鄰分類的方法來分配偽標簽。具體地,無標簽數(shù)據(jù)的偽標簽由特征空間中距離它最近的有標簽數(shù)據(jù)分配。但是這種方法存在一定的缺陷,在選取的偽標簽數(shù)量較多時,標簽估計的準確率會下降,影響模型的性能。如圖3 所示,圓圈包含的空心圓表示有標簽數(shù)據(jù),圓圈包含的實心圓表示偽標簽數(shù)據(jù),圓圈外的實心圓表示無標簽數(shù)據(jù),u1、u2是特征空間中兩個無標簽數(shù)據(jù)。如果使用最近鄰分類來分配偽標簽,那么左上方空心圓的標簽會被分配給u1,而u2因為距離兩個有標簽數(shù)據(jù)較遠,模型難以正確地分配標簽,但是明顯u2距離u1較近,有很大可能屬于同一個類別。針對上述問題,本文提出了一個JDM 用于標簽估計。首先,計算有標簽數(shù)據(jù)和無標簽數(shù)據(jù)之間的距離,本文將這個距離稱為樣本距離DSi。
圖3 JDM用于標簽估計示意圖Fig.3 Schematic diagram of JDM for label estimation
其中:vi表示有標簽數(shù)據(jù),vj表示無標簽數(shù)據(jù),‖ ‖?表示歐氏距離。本文選擇有標簽數(shù)據(jù)的K最近鄰樣本稱為Cl。本文設(shè)計了一個近鄰距離來表示無標簽數(shù)據(jù)和有標簽數(shù)據(jù)的最近鄰樣本Cl的關(guān)系。該距離表示如下:
根據(jù)式(5)、(6),可以得到最終的JDM:
其中:DS是樣本距離矩陣,DN是近鄰距離矩陣,DJ是聯(lián)合距離矩陣,α是一個用來調(diào)整兩種距離的作用的參數(shù)。在特征空間中,相似的樣本應(yīng)該具有相似的分布。為了達到這個目的,本文設(shè)計了JDM 來進行標簽估計。在分配標簽時,不僅考慮樣本和有標簽數(shù)據(jù)之間的聯(lián)系,而且參考了有標簽數(shù)據(jù)的近鄰樣本的信息,以提高標簽估計的準確率。
本文實驗使用的數(shù)據(jù)集是當前視頻行人重識別領(lǐng)域兩個主流的大規(guī)模數(shù)據(jù)集MARS 和DukeMTMC-VideoReID。
MARS 數(shù)據(jù)集[24]包含由6 個攝像頭捕捉的20 478 個視頻片段,其中17 503 個視頻片段為有效片段,其余3 248 個視頻片段是干擾片段;出現(xiàn)的行人總數(shù)為1 261,訓練集中出現(xiàn)625,測試集中出現(xiàn)636。
DukeMTMC-VideoReID 數(shù)據(jù)集[9]是DukeMTMC 的子集,包含1 812 個行人,4 832 個視頻片段,其中訓練集中包含702個行人,2 196 個視頻片段;測試集中包含702 個行人,2 636個視頻片段。
評估模型性能時,采用通用的累積匹配特征(Cumulative Matching Characteristic,CMC)曲線和平均準確率(mean Average Precision,mAP)作為評價指標。
本文采用和文獻[10]基本相同的實驗設(shè)置,CNN 提取器為移除最后一層分類層的ResNet-50 網(wǎng)絡(luò)。為了便于MLL 策略的訓練,本文在CNN 提取器前增加了全連接層和分類層。GPU 設(shè)備為NVIDIA GeForce RTX 2080Ti。特別地,在使用MLL 策略訓練時:ε的值設(shè)為0.1;τ值設(shè)為0.1;λ的初始值設(shè)為0.8,在最后15 個周期中變?yōu)?;在利用JDM 進行標簽估計時,α值設(shè)置為0.5,K設(shè)置為3,并通過實驗驗證。
為了驗證所提方法的有效性,在兩個大規(guī)模數(shù)據(jù)集上進行了實驗并和先進的方法比較。如表1 所示,比較方法有EUG(Exploit the Unknown Gradually)[9]、PL(Progressive Learning)[10]、DGM+IDE(Dynamic label Graph Matching+IDdiscriminative Embedding)[17]、SCLU(Semi-supervised Collaboration between the Labeled and Unlabeled)[19]、LGF(Local-Global Feature)[20]、Stepwise(Stepwise metric promotion)[25]、PUL(Progressive Unsupervised Learning)[26]、BUC(Bottom-Up Clustering)[27]等方法,其中,Baseline(one-shot)[10]表示只使用單個有標簽數(shù)據(jù)訓練,不進行數(shù)據(jù)集擴充的方法。
表1 各方法在兩個大規(guī)模數(shù)據(jù)集上的性能比較 單位:%Tab.1 Performance comparison of different methods on two large-scale datasets unit:%
從表2 可以看出:在MARS 數(shù)據(jù)集上,本文方法的rank-1最高達到了68.5%,mAP 達到了最高47.8%;在DukeMTMCVideoReID 數(shù)據(jù)集上,本文方法的rank-1 最高達到了76.5%,mAP 最高達到了68.7%,遠超DGM+IDE、Stepwise、BUC 等方法。和先進方法PL 相比,當p=0.10 時:本文方法在MARS 數(shù)據(jù)集上rank-1 提升了7.6 個百分點,mAP 提升了9.3 個百分點;在DukeMTMC-VideoReID 數(shù)據(jù)集上rank-1 提升了5.2 個百分點,mAP 提升了5.6 個百分點。當p=0.05 時:本文的方法在MARS 數(shù)據(jù)集上rank-1 提升了5.7 個百分點,mAP 提升了5.2 個百分點;在DukeMTMC-VideoReID 數(shù)據(jù)集rank-1 提升了3.6 個百分點,mAP 提升了5.4 個百分點。可以看出,本文方法的性能提升明顯。特別地,由于LGF 采用全局特征和局部特征整合的方法,在DukeMTMC-VideoReID 數(shù)據(jù)集上有極佳的效果,超過了有監(jiān)督的方法,但是在MARS 數(shù)據(jù)集效果不佳,而本文方法在兩個數(shù)據(jù)集上都取得了不錯的效果。
為了進一步證明本文方法的有效性,比較了該方法和其他方法在兩個數(shù)據(jù)集上的標簽估計準確率。如表2 所示,表中dis 表示采用不相似性模式(dissimilarity mode),cls 表示采用分類模式(classification mode),con 表示采用置信度模式(confidence score),實驗采用的p為0.10。和PL 相比:本文方法在MARS 數(shù)據(jù)集上標簽估計準確率達到了66.3%,提升了10.6 個百分點;在DukeMTMC-VideoReID 數(shù)據(jù)集上,本文方法標簽估計準確率達到了76.8%,提升了5.6 個百分點。
表2 各方法的標簽估計準確率對比 單位:%Tab.2 Comparison of label estimation precision among different methods unit:%
綜合以上分析,可以看出本文的方法取得的rank-1、mAP 以及標簽估計的準確率都高于當前同類的方法,驗證了本文方法的優(yōu)越性。
3.3.1 MLL策略的有效性
圖4 為p=0.10 時,在兩個數(shù)據(jù)集上的消融實驗結(jié)果,其中:JDM 表示只使用JDM,MLL 表示只是用MLL 策略,JDM+MLL 表示同時使用MLL 策略和JDM。
圖4 p=0.10時在兩個數(shù)據(jù)集上的消融實驗結(jié)果Fig.4 Ablation experiment results on two datasets withp=0.10
從圖4 可以看出,在MARS 數(shù)據(jù)集上,同時使用兩種方法時效果最優(yōu),而且MLL 策略的效果要優(yōu)于JDM 的效果;而在DukeMTMC-VideoReID 數(shù)據(jù)集上,兩種方法的效果比較接近,同時使用兩種策略仍能取得不錯的效果??偟膩碚f,只使用MLL 策略或者只使用JDM 都能在兩個數(shù)據(jù)集上取得優(yōu)于PL的表現(xiàn),當使用MLL+JDM 時,算法表現(xiàn)最好,這也證明了本文的MLL 策略和JDM 的有效性。具體的數(shù)值如表3 所示。
表3 p取不同值時在MARS和DukeMTMC-VideoReID數(shù)據(jù)集上的消融實驗結(jié)果 單位:%Tab.3 Ablation experiment results on MARS and DukeMTMC-VideoReID datasets with differentp values unit:%
3.3.2 聯(lián)合距離度量α取值的分析
本文采用JDM 來進一步提高標簽估計的準確率,該度量包含了樣本距離和近鄰距離,其中α是一個重要參數(shù),能夠決定兩種距離對于偽標簽分配的影響。表4 為在DukeMTMCVideoReID 數(shù)據(jù)集上使用不同α的JDM 的比較。可以看到,隨著α的增加,rank-1 和mAP 也逐漸增加,當α=0.5 時效果最佳,當α=0.6 時,rank-1 和mAP 又開始下降。可以看出,某一個距離過大或過小,對于標簽估計的準確率影響都比較大,所以為了平衡兩個距離的作用,本文將α設(shè)為0.5。
表4 在DukeMTMC-VideoReID上使用不同α的JDM性能的比較 單位:%Tab.4 Performance comparison of JDM with differentα on DukeMTMC-VideoReID unit:%
3.3.3 聯(lián)合距離度量的K取值的分析
在使用JDM 時,選取適當?shù)挠袠撕灁?shù)據(jù)的K近鄰也是一個重要的問題。表5 為本文方法在DukeMTMC-VideoReID 數(shù)據(jù)集上選擇不同K值的JDM??梢钥闯觯贙=3 時,整體效果最好。當選擇的K值較小時,對難樣本的標簽分配準確率低;而當K值較大時,近鄰中會包含錯誤的樣本,對偽標簽的分配不利。綜合以上的考慮,本文選擇K=3 進行實驗,保證JDM 的有效性。
表5 在DukeMTMC-VideoReID上使用不同K值的JDM的性能比較 單位:%Tab.5 Performance comparison of JDM with differentK on DukeMTMC-VideoReID unit:%
本文關(guān)注基于單標注樣本的視頻行人重識別問題。針對單標注樣本設(shè)置下有標簽數(shù)據(jù)不足和無標簽數(shù)據(jù)浪費的問題,設(shè)計了一個多損失學習(MLL)策略,以減輕模型過擬合的情況,增強模型的判別力。為了進一步提升標簽預(yù)測的準確度,本文還設(shè)計了一個聯(lián)合距離度量(JDM),在標簽估計時能考慮相似的數(shù)據(jù)間的分布情況,分配更準確的偽標簽。在兩個大規(guī)模數(shù)據(jù)集上的優(yōu)異表現(xiàn)驗證了本文方法的有效性。雖然本文方法有效地提高了偽標簽估計的準確率,但數(shù)據(jù)集中仍存在一些外觀相似且人眼都難以分辨的樣本,如何進一步提高識別的準確率還需要進一步探索。