李寬,龔勛,2,3,4*,樊劍鋒
1.西南交通大學唐山研究生院,唐山 063000;2.西南交通大學計算機與人工智能學院,成都 611756;3.可持續(xù)城市交通智能化教育部工程研究中心,成都 611756;4.四川省制造業(yè)產業(yè)鏈協同與信息化支撐技術重點實驗室,成都 610031
行人重識別是指在不同監(jiān)控攝像頭下找到同一行人。隨著人們對安全需求的增加,大量攝像頭安裝在各種監(jiān)控場景中,如學校、機場、商城和醫(yī)院等。而人工搜尋效率低,結果不可靠,行人重識別能實時檢測匹配行人,適應了大數據下對行人監(jiān)測的需求,逐漸成為學術熱點問題。
由于行人數據標記需要的巨大工作量,實際應用存在較多困難??缬蛑刈R別能利用有標注的源域數據信息輔助訓練無標注的目標域數據,具有應用潛力。但由于跨域帶來的背景、光照以及攝像頭角度等差異,識別準確率往往也會急劇下降。
目前主流的無監(jiān)督行人重識別主要由生成偽標簽階段和利用偽標簽優(yōu)化模型兩個階段組成,其中偽標簽生成的可靠性是影響模型最終效果的主要因素。Zeng 等人(2020)利用PK Sample(pharmacokinetic sample)的方法進行層次聚類,以提高聚類的精度。Zheng 等人(2021)提出了一種基于標簽遷移的群感知特征學習策略,通過在線精煉偽標簽,以改進多組偽標簽優(yōu)化。但這些方法沒有考慮不同攝像頭的影響可能導致不同攝像頭下的類內距離大于相同攝像頭下的類間距離,因此,即使是離聚類中心較近的數據,它的偽標簽結果也并不可靠,這樣便不可避免地使網絡向著錯誤方向進行訓練。因此,本文增加了一個分攝像頭的維度,保證了生成標簽的可靠性。此外,由于單骨干網絡提取特征的單一性,在千變萬化的實際場景中,以上方法并不能保證較好地泛化能力。Zhang 等人(2018)提出了多網絡互學習,且用平均學生模型的方法防止多網絡導致的誤差放大。本文在該方法的基礎上,提出了分攝像頭多網絡互學習行人重識別框架。
在重識別的匹配排序階段,目前有很多排序優(yōu)化的算法。Zhong 等人(2017)提出的互鄰匹配 Re-Ranking 方法利用待搜尋行人圖像和搜尋到的前幾幅圖像的鄰域圖像是否互相包含來判斷結果的準確性。Sarfraz 等人(2018)將一幅圖像與另一幅圖像的相鄰圖像距離累加來當做新距離,它不需要對每個圖像對都計算一次排名,減少了計算量。但將這些算法應用于真實場景仍對機器性能提出了巨大的挑戰(zhàn)。上面的一些方法對排序的優(yōu)化都基于已得到的圖像間的距離,但數據中還包含了時間戳信息,這類信息沒有得到有效利用。為此,本文利用數據集中的時間信息,并增加了時空這兩個維度,在時間消耗接近原始排序的前提下提升了行人搜索性能。
本文的貢獻主要有以下方面:1)對數據集中每個單獨的攝像頭下圖像進行聚類生成偽標簽,以此作為優(yōu)化標準之一,提升偽標簽質量;2)利用教師學生網絡互學習的方法學習更多特征,不僅接受來自自身標簽的監(jiān)督,還利用協同網絡的學習經驗來進一步提升泛化能力;3)利用數據的時間戳信息和攝像頭信息,在時空維度上優(yōu)化行人搜索匹配,降低了時間消耗。同時,該方法在傳統(tǒng)的有監(jiān)督重識別場景中也能提高搜索性能。
由于手動標注數據的高成本,目前無監(jiān)督跨域行人重識別受到廣泛關注。相關探索主要分為3 個方面,即優(yōu)化特征分布、生成對抗網絡和自監(jiān)督學習。
1)優(yōu)化特征分布。該方法思想為減小源域和目標域特征分布的差距,從而減少跨域帶來的模型性能損失。Mekhazni等人(2020)提出一種基于最大均值差異(maximum mean discrepancy,MMD)的減小源域與目標域特征分布差距的方法,Jin 等人(2020)方法的思想是分離正樣本對和負樣本對距離的概率分布。但這類方法存在局限性,并不能保證源域、目標域的特征差距小于期望值,在跨域場景下,存在較大的性能下降。
2)生成對抗網絡(generative adversarial network,GAN)。該方法使用GAN 將源域圖像轉換到目標域。Deng 等人(2018)在cycleGAN 的基礎上進行改進,新增了兩個約束條件,一個是生成的目標域風格圖像應該與其相應的源域圖像相似,這是為了能利用源域圖像的ID(identity document)信息;另一個是使生成的目標域風格圖像與原有目標域中圖像都不同,因為源域與目標域行人ID 沒有重疊。但基于GAN 的方法對GAN 生成圖像的質量要求較高,GAN訓練慢,生成的目標域風格圖像與真實數據集的相似度不可保證,實驗結果與其他方法相比有一定差距。
3)自監(jiān)督學習。自監(jiān)督學習通常采用自監(jiān)督和生成偽標簽的方法,利用偽標簽來不斷微調模型,這是目前主流的研究方向。Fan 等人(2018)提出一種利用聚類來生成偽標簽的重識別方法。對于生成的偽標簽,它將距離聚類中心最近的數據偽標簽看做可靠偽標簽,并利用這些標簽來進行訓練。Ge 等人(2020)在判斷可信偽標簽的基礎上做了改進,添加了一個記憶模塊來存儲源域和目標域的聚類中心,用以保留全局訓練的特征,防止模型過度偏向錯誤方向。耿偉峰等人(2023)使用圖神經網絡融合了樣本特征與類別表示等多層次信息,增強了自監(jiān)督信息的可靠性。
本文以自監(jiān)督學習為基礎,并針對以上方法沒有考慮的在跨域問題中起主要影響的背景、視角變化等因素,添加了攝像頭維度,約束了跨攝像頭帶來的偽標簽預測錯誤影響。同時利用互學習來挖掘更多特征,使模型在各種場景都能保持良好性能。
在行人重識別場景中,最常見的排序優(yōu)化算法為Re-Ranking。該算法基于如下假設:對于某幅待搜索的行人圖像,在搜索集中,假如某圖像的鄰近圖像包含了待搜索圖像,則該圖像為正確匹配的可能性更大。
Jegou 等人(2010)引入了上下文相異度度量,利用相鄰向量的相似度更新圖像間距離,Bai 等人(2009)利用流形距離在查詢和被查詢對象中找到最短路徑,利用最短路徑上的圖像計算新的度量距離,Zhong 等人(2017)利用k-reciprocal 編碼對圖像進行重排序。但以上研究都有一個共同的問題,即額外的計算量需要花費大量的內存空間和時間成本。為此,Zhang 等人(2020)利用GPU(graphics processing unit)并行計算的方法加快了重排序。但該方法額外的內存消耗仍然存在,而且沒有從根本上降低算法復雜度。
與上述研究不同,本文從算法角度提出了一個適配于重識別的重排序算法,大幅減少了時間和空間代價。
如圖1 所示,本文算法框架主要由偽標簽生成模塊、多網絡互學習模塊和排序優(yōu)化模塊組成。
圖1 本文算法框架模塊圖Fig.1 Framework of our method ((a)pseudo label generation module;(b)mutual learning module;(c)spatio-temporal distance retrieval module)
偽標簽生成模塊根據全局和攝像頭分別生成偽標簽yt和,并在分攝像頭階段添加了時空信息;特征互學習模塊利用教師學生網絡的互學習訓練出更具有泛化性的模型;時空距離排序模塊利用時空距離對最終結果進行行人檢索優(yōu)化。
每次迭代開始之前,圖像先通過偽標簽生成模塊進行全局偽標簽yt和攝像頭偽標簽的生成,然后在特征互學習模塊中利用生成的偽標簽yt和進行特征學習,最后利用時空距離排序模塊進行行人檢索。
在無監(jiān)督領域自適應訓練的每個迭代中,偽標簽yt和的生成如圖2所示。
圖2 偽標簽生成模塊Fig.2 Pseudo label generation module
偽標簽生成包括3個步驟,具體如下:
1)對于目標域的樣本圖像,每個網絡模型提取卷積特征,并將多個網絡模型提取的特征進行平均以確定集成特征。具體為
式中,xt,i為輸入圖像,K為模型數量,γk為第k個模型的參數,f(xt,i) 為第i幅圖像平均后向量。
2)對f(xt)進行K-Means 聚類,將所有目標域樣本劃分為Ut個不同的類,生成作為訓練樣本Xt的偽標簽Yt。
2.3.1 總體流程
本模塊采用了兩階段的訓練方案,包括在源域的有監(jiān)督預訓練學習和目標域的無監(jiān)督自適應學習。在初始階段,在源域數據集上以有監(jiān)督的方式對具有不同網絡架構的多個模型進行預訓練。然后利用未標記的目標域樣本進行多個網絡模型的深度互學習無監(jiān)督訓練,使模型適應目標域。在目標域數據集中,利用偽標簽生成模塊的偽標簽yt和,通過優(yōu)化分類損失與三元組損失對各個網絡模型進行微調。此外,將各個網絡模型的時間平均模型的輸出視為軟偽標簽作為優(yōu)化基準,從而減少偽標簽噪音的影響。本文采用3 個骨干網絡模型,兩兩之間互學習,以使網絡模型優(yōu)化。
2.3.2 源域有監(jiān)督損失
對于每一個網絡模型而言,首先以有監(jiān)督的方式預訓練一個深度神經網絡模型Mk,該模型由預訓練網絡模型γk參數化,與行人重識別任務常用的損失函數一致,本文使用標簽平滑的交叉熵損失函數與三元組損失函數進行源域預訓練。
Mk將每個樣本圖像xi轉換為特征,γk表示網絡模型的參數,f(xi|γk)表示將樣本圖像xi輸入到網絡模型參數設置為γk的網絡模型中提取得到的特征,圖像xi屬于標簽j的預測概率,表示為pj(xi|γk)。標簽平滑的交叉熵損失定義為
式中,xi+表示xi的正樣本,xi-表示負樣本?!?·‖表示L2范式。三元組損失定義為
最后的總損失計算為
式中,k代表第k個網絡模型。
2.3.3 目標域互學習損失
互學習模塊如圖3 所示。在每次迭代中,首先將目標域中的同一批圖像輸入到所有由{γk}參數化的{Mk}網絡模型中,以預測分類置信度{pj(xt,i|γk)}特征表示{f(xt,i|γk)}。為了將知識從一個網絡模型轉移到另一個網絡模型,每個網絡模型的類預測可以作為訓練其他網絡模型的軟標簽。為防止誤差放大,本文添加了時間平均模型,網絡模型Mk的時間平均模型在當前迭代T時的參數記為,其更新式為
圖3 互學習模塊Fig.3 Ensemble learning module
式中,α∈[0,1]為尺度因子,這里設置為0.999,初始時間平均參數為=γk。使用網絡模型Mk的時間平均模型預測每個身份j的概率為pj(xt,i|),計算特征表示為f(Xt,i|)。
通過整合原始網絡模型M與時間平均模型Γ,本文提出了互損失函數。將兩個網絡模型Mk和Mm的身份損失定義為Mk的類預測和Mm的時間平均模型類預測之間的交叉熵,以及各攝像頭內標簽預測與另一模型Mm的時間平均模型各攝像頭內標簽預測之間的交叉熵之和,前者稱為互分類損失,后者稱為攝像頭內互分類損失。
互分類損失的函數計算式為
式中,Nt為圖像總數,Ut為聚類類別數。
攝像頭內互分類損失的函數計算式為
式中,L為目標域訓練集攝像頭數目,為某攝像頭下圖像總數,為該攝像頭下聚類類別數。
設網絡模型Mk的互分類損失為所有其他網絡模型所學習的上述損失的平均值,則
與互分類損失函數類似,對于每個網絡模型Mk,定義其他網絡模型的時間平均模型Mm學習的互三元組損失為兩個相似的二元交叉熵,全局互三元組損失為
式中,soft(·)為樣本對之間特征距離的softmax變換。
單個攝像頭內互三元組損失為
網絡模型Mk的互三元組損失計算為所有其他網絡模型的上述互三元組損失的平均值,即
互三元組損失函數所起到的作用與互分類損失函數類似,都是為了使不同網絡模型間進行相互學習,互三元組損失函數減少了網絡模型間三元組損失的差異,從而使網絡模型訓練得到的特征分布能夠同時被多個網絡模型約束,以增強模型的魯棒性。
如圖4 所示,互學習損失函數充分利用了網絡模型的輸出進行互相約束。
圖4 互學習損失Fig.4 Mutual learning loss
2.3.4 目標域自身損失
為了從偽標簽yt與攝像頭內標簽中學習穩(wěn)定和有區(qū)別的知識,本文引入了各個網絡模型自身的投票損失,包括投票分類損失和投票三元組損失。
在每個網絡模型Mk上,對于整體偽標簽yt,定義投票分類損失為帶有標簽平滑的交叉熵,具體為
式 中,如 果j=yt,i,那 么qj= 1 -ε+ε/Ut,否 則qj=ε/Ut,ε是一個小常數,設為0.1,Nt為圖像個數,Ut為聚類類別數。同樣,對于攝像頭內偽標簽,定義單個攝像頭下的投票分類損失為
所有攝像頭的投票分類損失L為
為了更好地學習到穩(wěn)定的知識,令
定義投票三元組損失為
同樣,為了模型能學習到單個攝像頭下更為魯棒的信息,令
定義單個攝像頭內部的投票三元組損失為
所有攝像頭內部的投票三元組損失L為
總體的投票分類損失L定義為
投票損失定義為分類損失和三元組損失的總和,具體為
上述投票損失使用聚類生成得到的偽標簽優(yōu)化交叉熵損失與三元組損失,增強各個網絡模型自身的特征表示能力,從而在互學習過程中能夠使用更具備辨別能力的有效知識進行互相的學習。
2.3.5 總體損失
最終的總體損失定義為每個網絡模型互相學習所造成的損失之和。即
式中,Lall表示所有網絡模型的損失函數之和,K表示所訓練骨干網絡模型的個數。
就行人重識別任務而言,常見的公開數據集與真實場景下攝像頭間的時空信息(如拍攝圖像時的時間戳與攝像頭編號)往往可以很容易獲取。因此本文設計了一種通過時間戳與攝像頭編號信息進行排序優(yōu)化的方法,以提升最終推理的性能。
本文算法對排序優(yōu)化的流程如圖5 所示,具體步驟如下:
圖5 時空距離檢索流程圖Fig.5 Spatio-temporal distance retrieva map
1)時間戳與攝像頭信息獲取。在經常用于行人重識別任務的Market1501 與DukeMTMC-ReID(Duke multi-tracking multi-camera re-identification)數據集上,可以通過文件名獲取到當前圖像的具體時間戳與攝像頭編號信息。而在真實場景下,時間戳與攝像頭編號信息的獲取也不需要大量的計算成本。
2)目標域訓練集特征聚類生成偽標簽。對于本文的無監(jiān)督領域自適應行人重識別而言,關注的是目標域測試集的推理結果,而源域的時間戳與攝像頭信息并不適用于目標域,所以排序優(yōu)化所需要關注的僅是目標域的信息,但是目標域訓練集并沒有標簽,因此需要對目標域訓練集特征進行聚類生成偽標簽,本文采用DBSCAN(density-based spatial clustering of applications with noise)算法進行聚類。
3)攝像頭時間評分。根據相同偽標簽的攝像頭編號與時間戳的分布,統(tǒng)計生成不同攝像頭間的時間差分布Tij,記攝像頭i與攝像頭j之間時間差的分布在第k次更新后為T kij,其中k∈[0,N],N為目標訓練集圖像個數,它統(tǒng)計了i和j攝像頭下在第k次更新后相同時間差的行人個數。對每個偽標簽進行統(tǒng)計,當其同時存在于攝像頭i與攝像頭j上時,計算其平均幀的時間差t,并對Tij進行更新,具體為
式中,Tij(t)初始為0。
定義Num(xi,xj)為同時位于圖像xi與圖像xj所處的攝像頭上,且處于同一時間差區(qū)間內的偽標簽個數,定義Sum(camxi,camxj)為在圖像xi所處攝像頭與圖像xj所處攝像頭同時存在的偽標簽的個數。攝像頭時間評分為
4)聯合距離推理。將攝像頭時間評分與余弦距離進行結合,雖然攝像頭時間評分Dst(xi,xj)在統(tǒng)計時是一個處于(0,1)的概率,與余弦距離所處區(qū)間( -1,1) 的差異較小,但兩者在推理過程中權重應該有所不同,令
最終的聯合距離為
式中,cos(xi,xj)表示圖像xi與圖像xj特征間的余弦距離,ω為可進行人為調整的超參數。
由于現有的公開數據集中,對時間戳標注并沒有給予足夠的關注,僅有Zheng 等人(2015)提出的Market-1501 和 Ristani 等 人(2016)提 出 的DukeMTMC-ReID 數據集上有著明確的時間戳標注,因此為了驗證根據時間戳與攝像頭信息排序優(yōu)化的有效性,本文在目標域設定為Market-1501,源域設定為DukeMTMC-ReID,以及目標域設定為DukeMTMC-ReID,源域設定為Market-1501 兩種情況下對所提出的方法進行評估。
Market-1501 數據集是于2015 年夏季在清華大學校園拍攝采集的,包含6個不同攝像頭的32 668幅圖像,1 501 個行人身份。DukeMTMC-ReID 數據集是DukeMTMC 的子集,是從美國杜克大學2014 年校園監(jiān)控錄像中采集的,包含8 個不同攝像頭的36 411幅圖像,1 812個行人身份。
在評估中,采用累計匹配特征曲線(cumulative match characteristic,CMC)和平均精度均值(mean average precision,mAP)作為評估指標。
本文中模型的訓練分為兩個階段:源域的預訓練和目標域的無監(jiān)督自適應。
在源域的預訓練階段,首先在源數據集上使用3 個網絡模型進行有監(jiān)督的預訓練。本文采用DenseNet-121(densely connected convolutional network-121)、ResNet-50 (residual network-50)和inception-v3(inception network-v3)這3種架構作為骨干網絡,并使用在ImageNet 上預先訓練的參數對其進行初始化。
批量大小設為64,用16 個隨機選擇的標簽和4 個隨機抽樣的圖像對64 幅圖像進行采樣,以計算三元組損失。本文使用Adam 優(yōu)化參數,并設置weight decay為0.000 5。初始學習率設置為0.000 35,在總共80個epoch中,在第40和第70個epoch時,初始學習率降低到之前值的1/10。
本文的超參數包括K-Means 聚類簇個數、DBSCAN 的搜索半徑,以及攝像頭時間距離計算公式使用的ω。為了確定本文一系列超參數的選取對網絡模型性能的影響,進行了詳盡的參數分析實驗。
在無監(jiān)督領域自適應階段進行聚類過程中,本文對聚類方法以及其中參數進行選取。本文分別使用了K-Means 聚類方法與DBSCAN 聚類方法,并對其中參數進行調整以進行實驗。首先是K-Means 聚類中類別數超參數的確定,基于Market-1501 與DukeMTMC-ReID 數據集其測試集原本類別量,設置K-Means 聚類類別數分別為500,700,900。其次是DBSCAN 聚類方法中參數的確定,本文對目標域訓練集輸入源域預訓練網絡模型提取出的特征進行了k距離kt的計算,kt計算結果如圖6所示。可以看出,預訓練網絡模型所提取的目標域訓練集特征其k 距離范圍取值在0.3~1.0 之間。因此將DBSCAN 聚類的掃描半徑eps 設置在0.4~1.0 間滑動選取,間隔為0.2。
圖6 無監(jiān)督領域自適應聚類的k距離曲線Fig.6 Curve of k-distance of unsupervised neighborhood adaptive clustering
推理結果如表1 所示??梢园l(fā)現,在使用DBSCAN 聚類方法并將掃描半徑設置為0.8 時,進行無監(jiān)督領域自適應學習的聚類階段產生的推理結果最好。但是其他聚類生成偽標簽方法使用的是K-Means 聚類方法,且聚類數量設置為500,為了與其他方法進行公平對比,因此后續(xù)實驗使用KMeans(500)聚類生成偽標簽訓練得到的模型作為對比實驗使用的模型。
表1 無監(jiān)督領域自適應學習聚類過程中不同聚類方法及參數下的實驗結果Table 1 Experimental results under different clustering methods and parameters in unsupervised domain adaptive learning clustering process/%
同時,為了驗證在攝像頭時間距離構建中聚類方法對模型推理結果的影響,同樣對聚類方法的參數進行了分析。K-Means 聚類參數與前文一致,設置為500,700,900。DBSCAN 聚類方法的掃描半徑參數eps 選取方式亦與前文一致,本文對目標域訓練集輸入網絡模型提取出的特征進行了kt的計算,結果如圖7所示。
圖7 攝像頭時間距離構建聚類的k距離曲線Fig.7 Curve of k-distance of the camera time distance clustering
由圖7 可以得知,掃描半徑eps的合理取值范圍大致在0.3~1.1 之間。將掃描半徑eps 取值范圍設置為[0.3,1.1],間隔為0.2,整體實驗結果如表2所示。不難發(fā)現,DBSCAN 聚類方法在攝像頭時間距離構造過程中進行聚類效果更為優(yōu)秀。
表2 攝像頭時間距離構建過程中不同聚類方法及參數下的實驗結果Table 2 Experimental results under different clustering methods and parameters in camera time distance construction process/%
最后,為了驗證ω取值對網絡模型的影響,設置ω的取值范圍為[3,7],間隔為1。結果如表3 所示,可以發(fā)現,當ω設置為5 時,攝像頭時間距離與余弦距離進行共同推理的效果最好。這個取值可以在特征間余弦距離不失真的基礎上有效使用攝像頭時間距離。
表3 攝像頭時間距離構建過程中不同聚類方法及參數下的實驗結果Table 3 Experimental results under different clustering methods and parameters in camera time distance construction process/%
為驗證互學習中網絡個數的影響,分別對單網絡(即不采用互學習)、雙網絡、三網絡進行對比實驗,實驗結果分別如表4 和表5 所示。由表4 和表5可以看到,互學習能有效結合多網絡的特征提取能力,提升模型性能,而本文采用的三網絡性能也高于雙網絡。綜合考慮計算資源耗費與模型性能提升,本文采用三網絡模型。
表4 源域為DukeMTMC-ReID目標域為Market-1501設置下的不同網絡個數實驗結果表Table 4 Experimental results of different number of networks with DukemtMC-ReID as the source domain and Market-1501 as the target domain/%
表5 源域為Market-1501目標域為DukeMTMC-ReID設置下的不同網絡個數實驗結果Table 5 Table of experimental results of different number of networks with Market-1501 as the source domain and DukemtMC-ReID as the target domain/%
為了評估所提方法的有效性,設計對比實驗,將本文方法與當前的一些具有代表性的方法進行比較,包括手工特征方法(unsupervised cross-dataset transfer learning,UMDL)(Peng 等,2016)、基于特征對齊的方法(unsupervised camera-aware domain adaptation framework,UCDA-CCE)(Qi 等,2019)、基于生成對抗網絡的方法(similarity preserving generative adversarial network,SPGAN)(Deng 等,2018)、Cam-Style(camera style generative adversarial network)(Zhong 等,2018b)、HHL(hetero-homogeneous learning)(Zhong 等,2018a)和ECN(exemplar camera neighborhood)(Zhong 等,2019)、基于聚類進行偽標簽預測的方法PTG(person transfer gan)(Wei等,2018)、UDAP(unsupervised domain adaptive re-identification)(Song 等,2020)、MEB-Net(multiple expert brainstorming network)(Zhai 等,2020)、GLT(group-aware label transfer)(Zheng 等,2021a)、HCD(hierarchical cluster dynamics)(Zheng 等,2021b)和SAT(selfadaptative techniques)(Bertocco 等,2021),對比結果如表6 和表7 所示,其中,所有對比方法均采用公開發(fā)表的結果。
從表6 可以看出,在源域為DukeMTMC-ReID、目標域為Market-1501數據集的實驗中,本文方法的mAP 和Rank1 準確率分別為82.5%和95.3%,較對比方法中指標最高的方法HCD 分別高出2.5%和3.4%。從表7可以看出,在源域為Market1501、目標域為DukeMTMC-ReID數據集的實驗中,本文方法的mAP 和Rank1 準確率分別為75.3%和90.2%,較對比方法中指標最高的方法SAT 分別高出2.7%和4.8%。這些數據說明了本文使用的攝像頭內偽標簽構造與深度互學習框架能使網絡從圖像中提取出更多有用的信息。
表6 源域為DukeMTMC-ReID目標域為Market-1501設置下本文方法與其他方法的對比結果Table 6 Comparison results between the proposed method and other methods under the setting of source domain DukemtMC-ReID and target domain Market-1501/%
表7 源域為Market-1501目標域為DukeMTMC-ReID設置下本文方法與其他方法的對比結果Table 7 Comparison results between the proposed method and other methods under the setting of source domain Market-1501 and target domain DukemtMC-ReID/%
同時,為了驗證本文各模塊的效果,分別在4 種不同設置下進行消融實驗,主要檢測了攝像頭內偽標簽構造及基于時間戳和攝像頭排序優(yōu)化的作用,實驗結果如圖8—圖11所示。其中,-表示去除該模塊,+表示添加該模塊??梢钥闯觯瑪z像頭時空距離的引入不僅使無監(jiān)督領域自適應設置下的行人重識別任務最終推理的性能大幅提升,并且適用于傳統(tǒng)的閉集設置下的行人重識別任務。而真實場景下攝像頭標簽與時間標簽并不是難以獲取的信息,因此本文方法可以廣泛應用于大量場景。
圖8 DukeMTMC-ReID到Market-1501消融實驗結果Fig.8 Ablation results of DukeMTMC-ReID to Market-1501
圖9 Market-1501到DukeMTMC-ReID消融實驗結果Fig.9 Ablation results of Market-1501 to DukeMTMC-ReID
圖10 Market-1501數據集消融實驗結果Fig.10 Market-1501 ablation experiment results
圖11 DukeMTMC-ReID數據集消融實驗結果Fig.11 DukeMTMC-ReID ablation experiment results
本文針對無監(jiān)督領域自適應行人重識別任務,提出了一種結合時空距離的分攝像頭互學習方法。其中,攝像頭內偽標簽的構造利用了數據的時間信息,這比直接使用特征聚類生成的數據集整體偽標簽更為可靠,減少了模型對夾雜噪音的整體偽標簽的依賴。同時,深度互學習的框架使模型的魯棒性得到了提升。在此基礎上,引入了數據集中攝像頭信息及時間戳信息進行排序優(yōu)化,相比于現有的排序優(yōu)化算法大幅降低了內存和時間消耗,且進一步提高了行人重識別模型的準確度。
本文方法有效解決了無監(jiān)督領域自適應問題中偽標簽噪音的影響,拓展了數據集的使用方法,提出了一種新的排序搜索算法。但是,本文只用了互學習過程中的一個模型,沒有充分利用多網絡的豐富信息。未來的工作可從如何整合多網絡提取一個聚合特征入手,提升最終特征抽取器的泛化性。