肖進勝 郭浩文 張舒豪 鄒文濤 王元方 謝紅剛
①(武漢大學(xué)電子信息學(xué)院 武漢 430072)
②(湖北工業(yè)大學(xué)電氣與電子學(xué)院 武漢 430068)
行人再識別(pedestrian Re-IDentification,ReID)也稱行人重識別,簡稱為ReID,是利用計算機視覺方法判斷圖像或者視頻序列中是否存在特定行人的技術(shù),被認(rèn)為是圖像檢索的一個子問題,實現(xiàn)跨監(jiān)控設(shè)備間的行人圖像檢索。光照變化、復(fù)雜背景變換、低分辨率圖像、遮擋、不同行人的相似著裝等復(fù)雜應(yīng)用環(huán)境,使得行人再識別研究仍然具有挑戰(zhàn)性。在實際視頻監(jiān)控場景中,在圖像的捕獲、傳輸或者處理過程中都有可能產(chǎn)生大量噪聲,大部分模型很難獲得具有足夠表達能力的行人特征。這些問題主要是由于攝像頭獲取的圖像被噪聲所淹沒,提升了有效信息的提取難度。
噪聲環(huán)境下的行人再識別,比較直觀的解決方案是利用圖像增強技術(shù)進行預(yù)處理去噪。然而這種方案存在兩個問題:一是圖像增強存在細節(jié)丟失問題,給特征提取帶來困難;二是步驟繁瑣,無法端到端實現(xiàn)行人特征提取。常規(guī)的3元組度量學(xué)習(xí)網(wǎng)絡(luò)如圖1所示[1],它對于不同樣本有較好的聚類效果,然而在噪聲條件下,其泛化能力會顯著下降。主要原因在于訓(xùn)練與測試樣本均是含噪圖像,樣本間差異較小,導(dǎo)致模型無法獲得足夠的區(qū)分能力。
圖1 3元組度量模型結(jié)構(gòu)圖
為了解決上述問題,本文通過分析監(jiān)控視頻中圖像噪聲的特性,提出利用雙域濾波方法生成兩幅分解圖,再與原圖一起構(gòu)成新的3元組。網(wǎng)絡(luò)學(xué)習(xí)圖像的噪聲特性,并抑制了輸出特征圖譜中的噪聲成分,提高行人特征對于噪聲的魯棒性。
行人再識別由特征表達和相似性度量兩個步驟組成。特征表達的目的是利用具有良好區(qū)分性和魯棒性的特征向量來代表行人圖像。特征提取的研究追求對特征的精確表達,盡可能保留對行人再識別最為有效的信息,去除無效信息。相似性度量是指建立一個與提取的特征相適應(yīng)的度量標(biāo)準(zhǔn),用于計算不同行人圖像特征的相似度,作為判定是否為來自同一個人的依據(jù)。計算時應(yīng)使得來自同一行人樣本的特征相似度高,不同行人樣本的特征相似度低。根據(jù)行人再識別的兩個步驟,行人再識別大致可以分為基于特征表達[2–7]和基于度量學(xué)習(xí)兩種。
最初,行人相似度的計算都是使用簡單的距離度量方法,如余弦距離、歐氏距離等,沒有考慮各維度之間的主次關(guān)系和重要程度,所以很多度量學(xué)習(xí)的算法被研究者提出,用于取代距離度量的方式。
K?stinger等人[8]提出了一種簡單直接的度量學(xué)習(xí)(Keep It Simple and Straightforward MEtric,KISSME)算法,首先通過主成分分析對特征進行降維,然后計算主成分分析(Principle Component Analysis, PCA)子空間中相同標(biāo)簽樣本與不同標(biāo)簽樣本的協(xié)方差逆矩陣的差值,將此作為度量矩陣,簡化了馬氏距離的計算。隨后, Liao等人[2]在KISSME的基礎(chǔ)上繼續(xù)改進,提出了跨視角2次判別分析(Cross-view Quadratic Discriminant Analysis, XQDA)算法。首先使用高斯分布分別擬合類內(nèi)與類間樣本特征的差值分布,然后根據(jù)兩個高斯分布的對數(shù)似然比推導(dǎo)出度量矩陣,最后,定義了一個新的判別子空間,將度量矩陣映射到新的子空間中,提高了度量函數(shù)的判別能力。
在基于卷積神經(jīng)網(wǎng)絡(luò)的度量學(xué)習(xí)中,許多模型將損失函數(shù)作為樣本相似性度量函數(shù),通過監(jiān)督學(xué)習(xí)使類內(nèi)距離縮小,類間距離拉大,從而提高區(qū)分性。對比損失是一種比較常見的度量損失函數(shù),常用于孿生網(wǎng)絡(luò)的學(xué)習(xí)過程。3元組損失函數(shù)是另一種流行的度量學(xué)習(xí)損失函數(shù),在判別網(wǎng)絡(luò)中應(yīng)用廣泛,它在訓(xùn)練時需要同時輸入3個樣本,包括固定樣本、正樣本和負(fù)樣本。固定樣本和正樣本是一對正樣本對,它們有相同的行人標(biāo)簽,負(fù)樣本則有不同的行人標(biāo)簽,與固定樣本構(gòu)成負(fù)樣本對。Hermans等人[9]在3元組損失的基礎(chǔ)上,引入了難例挖掘策略,提出了一種難樣本挖掘3元組損失(TriHard loss),該方法在每個批量訓(xùn)練樣本中,針對每個固定樣本分別挑選出最難的正樣本和負(fù)樣本組成3元組來進行迭代。難樣本挖掘能提高網(wǎng)絡(luò)的泛化能力,而小批量訓(xùn)練則能保證網(wǎng)絡(luò)的穩(wěn)定性和收斂性。Chen等人[10]在3元組中多輸入了一個負(fù)樣本,提出了一種4元組損失(quadruplet loss)函數(shù),考慮的是正負(fù)樣本間的絕對距離,能夠使網(wǎng)絡(luò)有更好的特征表達能力。
在實際視頻監(jiān)控場景中,圖像在獲取和傳輸以及處理時容易混入噪聲,一定程度上影響了圖像質(zhì)量。本節(jié)將具體分析圖像噪聲的特性,并分析高斯噪聲、脈沖噪聲和雨噪聲對于行人再識別性能的影響。
在圖像的頻率域中,低頻部分往往是圖像中像素值連續(xù)漸變的區(qū)域,即相對變化較小,梯度值較低,主要以圖像的大致輪廓和整體內(nèi)容為主,是圖像大尺度上的風(fēng)格信息。高頻部分則相反,往往是圖像中像素值變化較快的區(qū)域,如圖像邊緣和圖像的細節(jié)部分等。因此,人眼對圖像的高頻部分會更加敏感,它包含了圖像小尺度的紋理和細節(jié)信息。
噪聲是圖像的無用信息,大多屬于圖像的高頻部分,常見的有均勻噪聲、高斯噪聲、脈沖噪聲、瑞利噪聲等。此外還有自然場景中的雨雪霧等噪聲。圖像的邊緣和紋理也同屬圖像的高頻部分。不同的是,噪聲在圖像中常表現(xiàn)為隨機且孤立呈現(xiàn)的像素點或像素塊,其與周圍像素的灰度值會有明顯的區(qū)別,從而造成較強視覺效果。邊緣和紋理則反映了圖像中同質(zhì)現(xiàn)象,代表重復(fù)出現(xiàn)的局部模式。
綜上所述,在進行圖像增強時,我們可以重點抑制圖像高頻部分的噪聲成分,利用噪聲的隨機性來區(qū)分同屬高頻的圖像細節(jié)信息。
針對噪聲場景下的行人再識別研究,如上所述,主要采用圖像增強技術(shù)進行預(yù)處理去噪,然后進行再識別。本文提出一種基于圖像分解的增強算法,稱為雙域濾波算法,它屬于變換域濾波方法,基本思路是將圖像變換到頻率域后,對圖像高頻部分進行去噪處理,然后恢復(fù)到空間域中,生成增強后的圖像。圖2是算法整體流程圖,雙邊濾波器(Bilateral Filtering, BF)和短時傅里葉變換(Short-Time Fourier Transform, STFT)的結(jié)合可以更好地保留圖像的邊緣、紋理和細節(jié)信息。
圖2 雙域濾波流程圖
首先,對輸入圖像x進 行聯(lián)合雙邊濾波得到背景層圖像和 引導(dǎo)層
其中,Np是 以像素點p為中心,半徑為r的鄰域窗口,k(p,q)是雙邊濾波器的核函數(shù),在第1次迭代時g=x,即和輸入圖像一致,濾波結(jié)果將作為下次迭代的引導(dǎo)層。
然后進行短時傅里葉變換[11],計算輸入圖像x和引導(dǎo)層g在點p的 鄰域殘差?x(p,q)和?g(p,q),并利用核函數(shù)k(p,q)加窗來進行系數(shù)收縮
其中,F(xiàn)p為(p,f)對 應(yīng)的頻率分布矩陣,|Fp|是Fp的元素個數(shù),z? 是得到的細節(jié)層圖像。
為了體現(xiàn)圖像噪聲對行人再識別的影響,本節(jié)針對Market-1501和CUHK03數(shù)據(jù)集,在測試樣本中添加高斯噪聲、椒鹽噪聲以及雨噪聲,使用文獻[12]提出的IDE_ResNet_50圖像特征提取網(wǎng)絡(luò),通過歐氏距離計算行人相似度,從而對比不同圖像增強方法的行人再識別性能。測試算法包括改進的雙域濾波算法[11]、K次奇異值分解算法(K-Singular Value Decomposition, K-SVD)[13]、Huang等人[14]、Kang等人[15]、Luo等人[16]和Son等人[17]提出的算法,是同時期的一些方法,用來做對比。本文提出的雙域濾波算法利用了噪聲的頻域分布特性來實現(xiàn)圖像去噪,而文獻[13,16]是基于稀疏表示和字典學(xué)習(xí)的方法,文獻[14,15,17]均是在變換域?qū)D像進行分解的去噪方法。使用Rank-1和平均準(zhǔn)確率均值(mean Average Precision, mAP)指標(biāo)來考量性能,評價指標(biāo)如5.1節(jié)所述。
表1展示了在Market-1501和CUHK03數(shù)據(jù)集上對比實驗的實驗結(jié)果。無處理表示直接使用IDE_ResNet_50對加噪后的圖像進行測試。
從表1第1列可以看到,在行人圖像中添加不同噪聲后,行人再識別的匹配準(zhǔn)確率都有不同程度的降低。所以在圖像質(zhì)量不佳的條件下,研究如何保障行人再識別性能是非常有必要的。
基于表1,本文可以計算在加噪條件下,各方法相對沒有圖像增強前,Rank-1和mAP指標(biāo)的平均增益大小,結(jié)果如表2所示。實驗結(jié)果可知,表2中大部分圖像增強方法在兩個數(shù)據(jù)集上雖不能完全達到原始圖像下的指標(biāo),但均能一定程度恢復(fù)行人再識別的準(zhǔn)確度。而本文改進的雙域濾波算法[18]相比其他方法,對于大多數(shù)噪聲類型都有較好去除效果,兩項指標(biāo)增益均最高,可以最大限度恢復(fù)到不含噪聲時的行人再識別性能。進一步觀察可以發(fā)現(xiàn),個別方法的指標(biāo)增益反而存在下降的現(xiàn)象。
表1 不同圖像增強方法在Market-1501和CUHK03數(shù)據(jù)集上的性能對比(%)
表2 不同圖像增強方法的指標(biāo)平均增益(%)
分析實驗結(jié)果可以得出結(jié)論,在含噪場景中的行人再識別,單純通過圖像增強預(yù)處理雖然能恢復(fù)部分準(zhǔn)確率,但仍然有很大的性能損失。其中一個原因是部分圖像增強方法存在過平滑問題,會導(dǎo)致行人圖像細節(jié)丟失而給特征提取帶來難度;另一個原因是特征提取網(wǎng)絡(luò)本身沒有將圖像增強過程中反映的噪聲特性納入到訓(xùn)練過程中,導(dǎo)致對噪聲的魯棒性不高。因此在此基礎(chǔ)上,本文在后續(xù)嘗試在特征提取網(wǎng)絡(luò)中進一步考慮噪聲因素,提高匹配的精度。
第3節(jié)的討論發(fā)現(xiàn)噪聲會使行人再識別性能顯著下降,而基于雙域濾波的去噪方法對圖像有良好的增強效果,并反映了圖像噪聲的分布特性。因此本文結(jié)合雙域濾波分解來改變3元組的輸入方式進行度量學(xué)習(xí),提高模型的泛化能力和對噪聲的魯棒性。
本文提出的3元組網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。本文在模型的訓(xùn)練階段,利用雙域濾波分解,將原始行人圖作為3元組的固定圖,將圖像分解得到的低頻圖作為正樣本圖,高頻圖作為負(fù)樣本圖,構(gòu)建訓(xùn)練3元組。因為高頻圖中含有豐富的噪聲信息,將其當(dāng)作負(fù)樣本可以使得模型充分學(xué)習(xí)到圖像噪聲分布,提高模型對噪聲的魯棒性,提高行人特征對噪聲的泛化能力。因為在圖像的捕獲、傳輸或者處理過程中都不可避免地會產(chǎn)生噪聲。所以對于沒有手動添加噪聲的圖像,其高頻圖也含有部分噪聲信息,用其經(jīng)過雙域濾波得到的高頻圖當(dāng)作負(fù)樣本訓(xùn)練,并不會過多地降低模型的檢測效果。最終在模型的測試及應(yīng)用階段,圖像不需要雙域濾波進行去噪,而是直接輸入到網(wǎng)絡(luò),端到端的獲取行人樣本的特征向量。
具體來說,本文設(shè)計了一種新的訓(xùn)練3元組構(gòu)建方式,并改進了ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)以此來適應(yīng)3元組度量學(xué)習(xí)模型的訓(xùn)練。本文研究分析了雙域濾波的分解特性,并基于其分解特性改進了對比損失和3元組損失的計算,優(yōu)化了損失函數(shù),使模型能穩(wěn)定收斂。最后利用re-ranking擴充排序表,提高識別的準(zhǔn)確率。
理想的度量學(xué)習(xí)是使間隔最大化,即相同標(biāo)簽樣本的間距盡可能小而不同標(biāo)簽樣本的距離盡可能大。在常規(guī)3元組度量模型中,固定圖與正樣本圖是拍攝自同一個行人的圖像,負(fù)樣本圖是拍攝自不同行人的圖像,它們通過一個共享參數(shù)的孿生網(wǎng)絡(luò)來提取特征。只要有適當(dāng)?shù)膿p失函數(shù)和輸入樣本,3元組度量模型通過迭代訓(xùn)練后,就可以逐步實現(xiàn)擴大類間差、縮小類內(nèi)差的目的,得到一個準(zhǔn)確度較高的特征提取網(wǎng)絡(luò)。然而,對于噪聲環(huán)境下監(jiān)控視頻的行人再識別,由于查詢圖與樣本庫圖像都含有噪聲成分,因此在常規(guī)的3元組度量學(xué)習(xí)中,模型對于圖像噪聲很難有分辨能力,導(dǎo)致在分離樣本空間時對噪聲將沒有聚類效果。
所以不同于常規(guī)的3元組度量模型,本文結(jié)合雙域濾波分解與3元組度量學(xué)習(xí),將原始行人圖作為3元組的固定圖,將圖像分解得到的低頻圖作為正樣本圖,高頻圖作為負(fù)樣本圖,提出一種新的3元組構(gòu)建方式,使網(wǎng)絡(luò)能學(xué)習(xí)圖像噪聲的分布,提高行人特征對噪聲的泛化能力。圖3是本文采用的融合雙域濾波分解的3元組度量模型在訓(xùn)練階段的整體結(jié)構(gòu)圖。
圖3 模型訓(xùn)練整體結(jié)構(gòu)圖
與其他的3元組度量方法[19]類似,模型中每個子網(wǎng)絡(luò)都由一個相同的主干特征提取網(wǎng)絡(luò)構(gòu)成,子網(wǎng)絡(luò)共享參數(shù)和權(quán)值。本文特征提取網(wǎng)絡(luò)基于Res-Net50結(jié)構(gòu),針對3元組度量學(xué)習(xí)將子網(wǎng)絡(luò)的最后用最大池化、全連接層來替代常規(guī)的平均池化、全連接層和Softmax損失。
本文模型的損失函數(shù)主要包含對比損失和3元組損失兩部分,結(jié)合了前面介紹的3元組構(gòu)建方式。本文基于它們的基本形式進行了對應(yīng)改進,主要是由于雙域濾波分解得到的低頻圖和高頻圖包含的圖像信息量并不完全對等。在與原圖進行損失值計算時,數(shù)值范圍會有一定差距,因此本文在兩個損失函數(shù)中添加了一個權(quán)重因子來調(diào)節(jié)它們的相對大小。具體來說,在通過本文模型進行特征計算后,分別得到原圖即固定圖的特征向量fA,低頻圖即正樣本圖的特征向量fP,高頻圖即負(fù)樣本圖的特征向量fN。
對比損失具體可以表示為
其中,低頻圖對應(yīng)y=1, 高頻圖對應(yīng)y=0 ,w是設(shè)置的閾值,指最小的間隔。當(dāng)fN和fA的 距離小于w時損失函數(shù)才發(fā)揮作用。由于低頻圖與高頻圖包含的圖像信息量并不完全對等,fN和fA之間的距離會遠大于fP和fA之間的距離,需要添加權(quán)重因子λ調(diào)節(jié)兩項的權(quán)重。
3元組損失可以增加正樣本對之間的相似度,逐步減小負(fù)樣本對之間的相似度,最后在樣本空間中,使得正負(fù)樣本形成聚集的效果。具體可以表示為
其中,w指最小的間隔,權(quán)重因子μ與對比損失中λ作用一致,用于調(diào)節(jié)低頻圖與高頻圖兩項損失的權(quán)重。
于是,網(wǎng)絡(luò)整體損失函數(shù)將表示為
根據(jù)多組實驗對比結(jié)果,λ為0.2、μ為0.1、w為0.2時損失函數(shù)可以發(fā)揮最佳性能。
圖4展示了本文的3元組度量模型在測試及應(yīng)用階段的流程圖。在模型測試時,不需要雙域濾波進行去噪,含噪的行人圖像被直接輸入到訓(xùn)練完成的一個分支子網(wǎng)絡(luò)中,端到端地獲取行人樣本的特征向量。這得益于模型的訓(xùn)練3元組來自雙域濾波分解,表現(xiàn)了良好的噪聲分布特性,正是基于這些分解圖,使簡單的特征提取網(wǎng)絡(luò)也能學(xué)習(xí)圖像的噪聲特性,并且抑制噪聲的特征表達。
圖4 測試示意圖
輸出特征向量后,需要利用距離度量方法來計算行人特征的差異性,在此基礎(chǔ)上對候選結(jié)果進行排序??紤]到光照、姿態(tài)、視角和遮擋等影響,匹配結(jié)果的排列順序可能并不準(zhǔn)確,于是本文利用文獻[12]的k-互近鄰重排序方法,擴充排序表,提高識別的準(zhǔn)確率,本實驗k取20。對于查詢樣本q,其前k個與其最近鄰樣本的集合可以表示為
接著定義互為近鄰的樣本集合,即樣本q和樣本g都在對方的k-NN集合中,稱為k-互近鄰集合,表示為
本文主要使用Market-1501和CUHK03數(shù)據(jù)集作為訓(xùn)練樣本,以證明提出的模型良好的和較好的泛化能力。Market-1501數(shù)據(jù)集公開于2015年,通過6臺攝像機在清華大學(xué)校園內(nèi)采集而成。數(shù)據(jù)集總共包含32668張行人樣本,對應(yīng)1501個行人ID標(biāo)簽,圖像分辨率為128×64。其中訓(xùn)練集、測試集和查詢集分別包含12936, 19732和3368張行人樣本。CUHK03數(shù)據(jù)集公開于2014年,通過10臺(5對)攝像機在香港中文大學(xué)校園中采集而成。數(shù)據(jù)集由detected和labeled 兩部分組成。在最新的測試協(xié)議中,訓(xùn)練集和測試集分別包含767和700個行人樣本。
本文的實驗環(huán)境為:操作系統(tǒng)Ubuntu16.04、編程語言python2、深度學(xué)習(xí)框架Caffe。硬件環(huán)境為Intel Core i5-8300H CPU 2.30 GHz, NVIDIA Tesla K40 GPU 12 GB, 32 GB RAM。為了減少運算量,使用ResNet50模型在ImageNet數(shù)據(jù)集學(xué)習(xí)到的預(yù)訓(xùn)練參數(shù)。網(wǎng)絡(luò)訓(xùn)練時,訓(xùn)練樣本均被調(diào)整到224×224像素大小。每個迭代周期Mini-batch大小設(shè)置為64。進行反向傳播優(yōu)化模型時,采用隨機梯度下降算法,基礎(chǔ)學(xué)習(xí)率0.0002,每100個周期呈指數(shù)衰減。
本文使用兩種客觀評價指標(biāo)來衡量算法性能的優(yōu)劣,分別是Rank-N和mAP。Rank-N:行人再識別問題通常被看作圖像檢索問題。在進行測試時,針對某一查詢圖,根據(jù)其與候選集中所有樣本的相似度對候選集進行排序,然后計算前N個中能與查詢圖正確匹配的樣本的比例,稱為Rank-N。常用的指標(biāo)如Rank-1, Rank-5, Rank-10。在Rank-N的基礎(chǔ)上,可以繪制累積匹配(CMC)曲線,曲線橫軸為N,縱軸為Rank-N。mAP:mAP稱為平均準(zhǔn)確率均值,即在每個樣本的匹配平均準(zhǔn)確率(Average Precision, AP)的基礎(chǔ)上,計算所有樣本AP的均值。相比Rank-N只計算前N個的準(zhǔn)確率,mAP能考察算法整體的準(zhǔn)確率,體現(xiàn)模型的召回能力。mAP可以表示為
其中,Q表示查詢集中樣本個數(shù),A Pi為單個查詢樣本的匹配平均準(zhǔn)確率。
本文主要對比了3類比較有代表性的行人再識別方法,分別是傳統(tǒng)特征提取方法、深度學(xué)習(xí)特征融合方法以及重排序方法,對比算法具體包括局部最大發(fā)現(xiàn)聯(lián)合跨視角2次判別分析(LOcal Maximal Occurrence + Cross-view Quadratic Discriminant Analysis, LOMO+XQDA)方法[2]、人體關(guān)節(jié)點定位檢測(SpindleNet)方法[7]和殘差網(wǎng)絡(luò)集成開發(fā)(Integrated Development Environment of Res-Net_50, IDE_ResNet_50)方法[12]。LOMO+XQDA方法屬于傳統(tǒng)特征提取方法,作者融合色調(diào)飽和度明度(Hue Saturation Value, HSV)色彩直方圖和不變尺度局部3值模式(Scale Invariant Local Ternary Pattern, SILTP)特征,提出了局部最大發(fā)現(xiàn)(LOcal Maximal Occurrence, LOMO)特征,并通過跨視角2次判別分析(Cross-view Quadratic Discriminant Analysis, XQDA)算法提高度量函數(shù)的判別能力,可以較好地應(yīng)對視角和光照變化。Spindle-Net屬于多局部特征融合的方法,通過提取不同局部感興趣區(qū)域的特征,并在不同層次進行不同粒度的融合,對于姿態(tài)及遮擋都有較好魯棒性。IDE_ResNet_50方法屬于度量學(xué)習(xí)模型,通過重排序來改進度量矩陣的計算,并且模型結(jié)合了行人檢測階段的先驗知識,對匹配成功率提升較大。這3種方法代表了3類典型的行人再識別手段,針對不同方面力圖改善行人再識別特征的泛化能力,本文將與它們進行實驗對比,綜合考慮圖像噪聲對不同類型行人再識別方法的影響。此外,本文還進一步與近期的基于深度學(xué)習(xí)的行人再識別算法:奇異值分解網(wǎng)絡(luò)(Singular Value Decomposition Network,SVDNet)[20]、基于屬性行人識別(Attribute Person Recognition, APR)[21]、 姿態(tài)不變嵌入(Pose Invariant Embedding, PIE)[6]進行比較,重點計算了不同算法的Rank-1指標(biāo)和mAP指標(biāo),以及它們的變化情況。
5.2.1 消融實驗
為探求不同因素對網(wǎng)絡(luò)的影響,基線網(wǎng)絡(luò)(Baseline)采用基于ResNet50特征提取主干網(wǎng)絡(luò)和改進的3元組網(wǎng)絡(luò)架構(gòu),各種因素包括3元組損失函數(shù)(Triplet loss)、對比損失函數(shù)(Contrastive loss)、改進的損失函數(shù)(3元組損失函數(shù)和對比損失函數(shù)的組合)、k-互近鄰重排序方法(re-ranking)。消融實驗采用Market-1501數(shù)據(jù)集,添加的噪聲為雨噪聲,實驗結(jié)果如表3。
根據(jù)表3所示結(jié)果,可以看到在Market-1501數(shù)據(jù)集上含有雨噪聲的實驗結(jié)果。在相同條件下,使用改進的3元組網(wǎng)絡(luò)與傳統(tǒng)的3元組網(wǎng)絡(luò)相比,mAP提高了2.5%、Rank-1提高了2.0%。因為改進的3元組網(wǎng)絡(luò)可以學(xué)習(xí)到抑制噪聲成分表達的能力。另外改進的損失函數(shù)與單獨使用3元組損失相比,mAP提高了1.4%、Rank-1提高了1.6%。在使用重排序后,整個網(wǎng)絡(luò)的檢測mAP提高到67.8,Rank-1提高到了78.7%。實驗結(jié)果可以看出改進的3元組網(wǎng)絡(luò)架構(gòu)、改進的損失函數(shù)和重排序可以提高網(wǎng)絡(luò)的檢測性能。
表3 消融實驗結(jié)果
5.2.2 Market-1501數(shù)據(jù)集對比實驗
表4列出了在Market-1501數(shù)據(jù)集上不同方法在加噪前的原始圖像、加高斯噪聲圖像、加椒鹽噪聲圖像和加雨噪聲圖像上的行人再識別實驗結(jié)果。表5為在Market-1501數(shù)據(jù)集上,各方法在3種噪聲場景下Rank-1和mAP相對不含噪時的平均下降率??梢杂^察到本文設(shè)計的3元組度量模型mAP在不同噪聲場景下均優(yōu)于大部分方法。而Rank-1則略遜于SVDNet和APR,主要原因是雖然SVDNet和APR與本文類似網(wǎng)絡(luò)都是基于ResNet50,然而本文主要調(diào)整了網(wǎng)絡(luò)的輸出結(jié)構(gòu)以適應(yīng)損失函數(shù)計算,沒有專門針對準(zhǔn)確率在模型上進行改進,而是更專注于提升模型對于噪聲場景的魯棒性。通過本文算法使模型能學(xué)習(xí)噪聲的分布特性,在復(fù)雜場景下保持穩(wěn)定的性能。
表4 Market-1501數(shù)據(jù)集各方法的Rank-1和mAP(%)
表5 Market-1501數(shù)據(jù)集各方法Rank-1和mAP的平均下降率(%)
圖5展示了3種代表性方法的累積匹配(Cumulative Match Characteristic, CMC)曲線隨樣本場景變化情況。從圖5可以觀察到,LOMO+XQDA方法主要針對光照和視角變化問題,對于全局的高斯噪聲和雨噪聲無法很好地適應(yīng),mAP和Rank-1指標(biāo)較低、CMC曲線和mAP值下降較多。Spindle-Net考慮了多個局部區(qū)域的信息,在3種噪聲情況下均有一定的魯棒性。IDE_ResNet_50主要利用行人檢測階段的空間信息和ID信息提升模型精度,而對于噪聲的泛化能力較弱。本文提出的3元組度量模型在不同噪聲環(huán)境中都具有較高魯棒性,mAP指標(biāo)和Rank-1指標(biāo)優(yōu)于大部分對比算法,能夠最接近現(xiàn)實場景中的行人再識別性能。
圖5 Market-1501數(shù)據(jù)集上各方法CMC曲線
5.2.3 CUHK03數(shù)據(jù)集對比實驗
與Market-1501數(shù)據(jù)集上的實驗類似,表6列出了在CUHK03數(shù)據(jù)集上不同噪聲場景的行人再識別對比實驗結(jié)果。本文方法在CUHK03數(shù)據(jù)集上的性能與一些近期的深度學(xué)習(xí)方法還存在一定差距。本文模型在Market-1501的表現(xiàn)結(jié)果較好,在CUHK03數(shù)據(jù)集上表現(xiàn)結(jié)果較差,可能的原因是在Market-1501數(shù)據(jù)集上,query和gallery可能來自相同的攝像頭視角。CUHK03數(shù)據(jù)集上,query和gallery集來自不同的攝像頭視角。本文模型沒有考慮來自不同攝像頭視覺,所以效果不佳。
表6 CUHK03數(shù)據(jù)集各方法的Rank-1和mAP(%)
表7列出了在CUHK03數(shù)據(jù)集上,各方法在3種噪聲場景下Rank-1和mAP相對不含噪時的平均下降率,同樣可以說明本文模型在不同場景下受噪聲影響造成的性能損失最小,表明本文模型的指標(biāo)下降率較低,與現(xiàn)實場景下的行人再識別精度更接近。
表7 CUHK03數(shù)據(jù)集上各方法Rank-1和mAP的平均下降率(%)
圖6展示了CUHK03數(shù)據(jù)集上,3種代表性方法的CMC曲線隨樣本場景變化情況。實驗結(jié)果表明本文設(shè)計的3元組度量模型的CMC曲線和mAP指標(biāo)衰減較小。
圖6 CUHK03數(shù)據(jù)集上各方法CMC曲線
本文針對低質(zhì)圖像的行人再識別問題,提出利用雙域濾波分解構(gòu)建3元組,用于訓(xùn)練度量學(xué)習(xí)模型。首先,基于噪聲的分布特性,采用雙域濾波分解的圖像增強方法進行預(yù)處理。其次,經(jīng)過雙域濾波生成兩幅分解圖,與原圖一起構(gòu)成3元組。并在3元組損失函數(shù)和對比損失函數(shù)的基礎(chǔ)上設(shè)計權(quán)重因子,使損失函數(shù)更適用于改進的3元組網(wǎng)絡(luò)結(jié)構(gòu)。在模型的測試及應(yīng)用階段,能擺脫圖像預(yù)處理去噪過程,實現(xiàn)端到端的行人再識別。最后,通過在公開數(shù)據(jù)集與同時期算法進行實驗對比分析,驗證了本文方法對含噪圖像行人再識別的有效性。
本文的數(shù)值計算得到了武漢大學(xué)超級計算中心的計算支持和幫助。