姜冠正,唐 俊
(安徽大學 電子信息工程學院,安徽 合肥 230601)
行人重識別任務旨在跨相機下檢索出特定的行人圖像,這是一項極具挑戰(zhàn)性的任務.由于行人的姿態(tài)、攝像機拍攝角度和光照的變化,使得同一個行人的圖像之間出現(xiàn)較大差異.受益于人工標注數(shù)據(jù)集的出現(xiàn),行人重識別任務得到快速發(fā)展,在檢索精度上得到了很大提升.然而,在實際應用中,即使使用人工標注的數(shù)據(jù)集訓練好模型,如果直接部署在一個新的應用場景上,由于領(lǐng)域間的顯著差異會導致模型精度的顯著下降.在每個監(jiān)控系統(tǒng)上都重新進行數(shù)據(jù)采集和人工標注是一項費時費力的工作,同時也不具備在現(xiàn)實中部署的意義.為此,無監(jiān)督領(lǐng)域自適應任務被提出用以解決上述問題.無監(jiān)督領(lǐng)域自適應任務指的是在有標注的源域上訓練好模型,使其適應于無標注的目標域并在目標域上得到檢索精度的提升.和一般的無監(jiān)督領(lǐng)域自適應任務不同的是,在行人重識別任務中目標域的類別數(shù)未知,且通常和源域之間沒有交叉,因此該任務較一般意義上的無監(jiān)督領(lǐng)域自適應任務而言更為實際,也更具挑戰(zhàn)性.
無監(jiān)督領(lǐng)域自適應在行人重識別上現(xiàn)有的方法主要分為基于生成對抗網(wǎng)絡的方法和基于聚類的方法.基于生成對抗網(wǎng)絡的方法利用對抗性學習、通過減少像素級別上的差異來學習域不變特征,利用圖像風格轉(zhuǎn)移來縮小像素空間的域差異[1].基于聚類的方法也是解決無監(jiān)督領(lǐng)域自適應問題的重要范式,Lin等[2]設計了一種自底向上的聚類框架,利用不同身份之間的多樣性和每個身份內(nèi)的相似性來學習判別特征.Fu等[3]關(guān)注到行人自身的相似性,提出將行人分成整體、上半身、下半身,分別對不同部分進行分組聚類獲得偽標簽,并將分組訓練后的特征拼接后作為最終的行人特征.Zhai等[4]通過在源域上訓練具有不同偏向和特定知識的模型,再在目標域上通過不同預訓練的模型進行聚類和相互學習來提煉出更高質(zhì)量的偽標簽.
雖然這些方法的實驗效果已經(jīng)取得了顯著提升,但是其性能仍不能令人滿意.無監(jiān)督領(lǐng)域自適應在行人重識別任務中面臨的問題主要來自:①源域上預訓練的模型在目標域上泛化能力有限;②聚類算法本身的局限性使得很難獲得目標域上準確的偽標簽,從而難以在目標域上得到可靠的聚類結(jié)果.這些因素限制著模型領(lǐng)域自適應能力.
論文提出了一種基于多度量融合(multi-metric fusion,簡稱MMF)的無監(jiān)督領(lǐng)域自適應行人重識別算法,以解決無監(jiān)督領(lǐng)域自適應任務中由于聚類算法的局限性而導致偽標簽出現(xiàn)噪聲的問題.它具有以下優(yōu)點:①相較于傳統(tǒng)的特征相似度度量方式,多度量融合算法以一種柔性的方式計算特征相似度,通過線性加權(quán)的形式、利用不同特征相似度度量函數(shù)產(chǎn)生不同聚類結(jié)果來進一步優(yōu)化聚類結(jié)果;②在不使用目標域上任何信息的情況下,通過優(yōu)化聚類時特征相似度計算方式,有效減少了偽標簽噪聲的產(chǎn)生,使得目標域上的偽標簽更加可靠.
在無監(jiān)督領(lǐng)域自適應行人重識別任務中,目標域上偽標簽的質(zhì)量對模型的領(lǐng)域自適應性能有著很大影響.由于源域預訓練模型在目標域上泛化能力有限,以及聚類算法本身存在的局限性而出現(xiàn)偽標簽噪聲的問題,現(xiàn)有的方法并沒有很好地解決上述問題.
如圖1所示,在目標域上對行人的特征進行聚類時:使用歐式距離度量行人特征之間的相似性,行人圖像A1和B之間的歐式距離小于行人圖像A1和A2的歐式距離;計算行人特征之間的相關(guān)距離時,行人圖像A1和B的相關(guān)距離大于行人圖像A1和A2的相關(guān)距離.實際上,行人圖像A1和B屬于不同的行人圖像,行人圖像A1和A2屬于同一個行人圖像.此時如果在DBSCAN(density-based spatial clustering of applications with noise)聚類階段使用歐式距離計算行人特征之間的相似性時,就會錯誤地將行人圖像A1和B劃分到同一個簇內(nèi),從而引入偽標簽噪聲,得到不可靠的聚類結(jié)果.
圖1 偽標簽噪聲的引入
在聚類算法中,特征相似度的計算對聚類結(jié)果有著直接的、決定性的影響,在目前的無監(jiān)督領(lǐng)域自適應行人重識別任務中,傳統(tǒng)的方法在聚類階段生成偽標簽時,僅使用歐式距離作為特征相似度度量函數(shù)評估目標域上特征之間的相似度,之后根據(jù)該相似度矩陣生成目標域上的偽標簽.但是由于數(shù)據(jù)集之間不同的數(shù)據(jù)分布特點,傳統(tǒng)的特征相似度度量方式并不能合理全面地評估聚類時特征之間的相似性關(guān)系,從而導致在目標域上聚類時,會引入噪聲樣本點,產(chǎn)生偽標簽噪聲,從而影響到最終聚類結(jié)果的可靠性.
1.2.1 網(wǎng)絡結(jié)構(gòu)
信道混洗是通過將同一張圖像的RGB信道的圖像進行打亂混洗,經(jīng)過排列組合后,生成同一張圖像的RGB混洗的5張增廣圖像.信道混洗可以有效提升行人重識別模型的檢索精度[5].如圖2所示,在源域預訓練階段,首先,將源域數(shù)據(jù)集上帶有標簽的行人圖像通過信道混洗進行數(shù)據(jù)增廣[5],使用Resnet50[6]作為主干網(wǎng)絡提取行人特征,經(jīng)過信道混洗增廣后的行人圖像,其身份標簽采用兩種不同的分配策略.模型設計為雙分支差異化網(wǎng)絡,兩個分支分別為標簽共享和標簽異構(gòu)分支.整體網(wǎng)絡包含主干ResNet50網(wǎng)絡的5層卷積層,將其末端的平均最大池化層替換為自適應最大池化層,并在其后面接上全連接層且調(diào)整其輸出為512維,將這512維的輸出作為兩個分支分類器的輸入,分支一為標簽共享分支,分支二為標簽異構(gòu)分支,將兩個分支的512維特征輸出進行拼接得到最終的1 024維的特征,并將三元組損失與結(jié)合LSR(label smoothing strategy)的softmax交叉熵損失作為網(wǎng)絡的損失函數(shù)用于訓練.
圖2 源域預訓練階段
如圖3所示,目標域微調(diào)階段,在目標域數(shù)據(jù)集上無標簽的行人圖像同樣經(jīng)過信道混洗.經(jīng)ResNet50網(wǎng)絡提取行人特征后,在特征空間上計算兩兩行人之間的特征相似度,由此得到目標域上行人特征之間的特征相似度矩陣.根據(jù)該特征相似度矩陣,由DBSCAN聚類算法對目標域的行人分配偽標簽,最后利用所獲得的偽標簽在目標域上對模型進行微調(diào).
圖3 目標域微調(diào)階段
1.2.2 損失函數(shù)
在預訓練階段和微調(diào)階段使用相同的損失函數(shù).標簽共享分支和標簽異構(gòu)分支分別使用不同的身份分類損失,并同時使用三元組損失作為輔助損失監(jiān)督模型訓練.
對于標簽共享分支,認為信道混洗后的增廣圖像和原始圖像共用相同的身份標簽,其損失函數(shù)的表達式為
(1)
對于標簽異構(gòu)分支,認為信道混洗后的增廣圖像和原始圖像使用不同的身份標簽,其損失函數(shù)的表達式為
(2)
困難三元組損失的核心思想為難樣本挖掘,其損失函數(shù)的表達式為
(3)
其中:P為每個批次里不同行人的個數(shù),K為每個行人擁有的樣本個數(shù),α為正負樣本對間距離閾值的超參數(shù),da,hp為錨點與最難正樣本之間的歐式距離,da,hn為錨點與最難負樣本之間的歐式距離.
最終的損失函數(shù)為
loss_total=αloss_idsharing+βloss_idheter+γloss_triplet,
(4)
其中:α,β,γ為超參數(shù),在實驗中設置為α=0.6,β=0.6,γ=0.2.
1.2.3 多度量融合算法
在無監(jiān)督領(lǐng)域自適應行人重識別任務中,聚類階段的偽標簽質(zhì)量直接影響到行人重識別模型的領(lǐng)域自適應性能.為了解決由于傳統(tǒng)方法計算特征相似度的局限性而在聚類階段產(chǎn)生偽標簽噪聲的問題,論文對傳統(tǒng)的特征相似度的計算方式進行了改進.具體而言,考慮到不同的特征相似度度量函數(shù)對特征之間的相似度評估角度存在差異并由此會形成不同的聚類結(jié)果,多度量融合算法在進行特征相似度計算時,通過利用不同的特征相似度度量函數(shù)之間的相關(guān)性,來進一步優(yōu)化目標域數(shù)據(jù)集上的聚類結(jié)果.如圖3所示,在使用DBSCAN聚類算法計算行人特征之間的相似度獲取偽標簽時,通過不同的相似度度量函數(shù)分別進行特征相似度的計算,最終的特征相似度為不同度量函數(shù)計算出來的特征相似度線性加權(quán)的結(jié)果.一般形式下的多度量融合算法的數(shù)學表示如下
(5)
論文預設了4種度量函數(shù),分別是歐式距離(Euclidean distance)、余弦距離(cosine distance)、相關(guān)距離(correlation distance)和切比雪夫距離(Chebyshev distance).對于以上特征相似度度量函數(shù)的選取,主要是考慮到選取的度量函數(shù)對特征之間相似度計算的差異性.對以上4種預設的度量函數(shù)數(shù)學表示形式如下:給定目標域上的行人樣本集合X,X是M維實數(shù)特征向量空間M中點的集合,其中,xi,xj∈X,xi=(x1i,x2i,…,xMi)T,xj=(x1j,x2j,…,xMj)T,行人樣本xi和xj的歐氏距離定義為
(6)
余弦距離定義為
(7)
相關(guān)距離定義為
(8)
切比雪夫距離定義為
(9)
在無監(jiān)督領(lǐng)域自適應行人重識別任務中,由于無法獲得目標域上的任何先驗信息,因此認為各個度量函數(shù)的重要程度是相同的,即各個度量函數(shù)的權(quán)重賦值是相同的.此時多度量融合算法中的線性加權(quán)轉(zhuǎn)化為平均加權(quán),此時的數(shù)學式表示如下
(10)
值得注意的是,論文提出的多度量融合算法與傳統(tǒng)的計算特征相似度的方式相比具有以下優(yōu)勢:①在數(shù)學形式上具有一般性,使用單一度量函數(shù)計算特征相似度可視為是多度量融合算法中其余度量函數(shù)的權(quán)值置零的特例;②對于不同的行人重識別數(shù)據(jù)集而言,由于不同的行人重識別數(shù)據(jù)集上數(shù)據(jù)分布特點的不同,傳統(tǒng)的特征相似性度量方式在聚類時由于只關(guān)注到特征之間單一的相似性關(guān)系,多度量融合算法通過線性加權(quán)的形式綜合各個度量函數(shù)對聚類結(jié)果的影響,可以被用來更全面合理地評估特征之間的相似性關(guān)系.
論文使用的實驗環(huán)境如下:操作系統(tǒng)為內(nèi)核基于Linux的Ubuntu20.04,深度學習框架為pytorch1.8.1,編程語言為python3.6,GPU型號為NVIDIA GeForce RTX3090.首先將所有輸入圖像統(tǒng)一調(diào)整為256×128大小,利用隨機旋轉(zhuǎn)和隨機擦除來進行數(shù)據(jù)擴充,設置dropout的概率為0.5.對于每一批次訓練樣本,設置行人身份個數(shù)P=8,每個身份的樣本個數(shù)K=4,每個批次大小為32.使用SGD優(yōu)化器對網(wǎng)絡進行訓練,在預訓練階段,使用在ImageNet上經(jīng)過預訓練后的主干網(wǎng)絡ResNet50[6].設置:學習率為0.01;添加的全連接層的學習率為0.1;學習率衰減為每8個epoch衰減為原來的10%,總共訓練23個epoch.對于微調(diào)階段,共執(zhí)行5次聚類和微調(diào)迭代,各層學習率均設置為預訓練階段的5%,每次微調(diào)執(zhí)行10個epoch.將標簽共享和標簽異構(gòu)分支各自提取的512維特征進行拼接,獲得1 024維的拼接特征以供聚類和測試階段使用.DBSCAN聚類的參數(shù)中,設置:領(lǐng)域半徑為0.8,Duke數(shù)據(jù)集上最小樣本個數(shù)為10,Market數(shù)據(jù)集上最小樣本個數(shù)為8,標簽共享分支損失函數(shù)的權(quán)重系數(shù)α為0.6,標簽異構(gòu)分支損失函數(shù)的權(quán)重系數(shù)β為0.6,三元組損失函數(shù)權(quán)重γ為0.2.
該節(jié)首先介紹行人重識別常用的兩個大型數(shù)據(jù)集Market-1501和DukeMTMC-reID,之后介紹評價行人重識別算法性能的兩種指標Rank-k和mAP.表1顯示了Market-1501和DukeMTMC-reID數(shù)據(jù)集的概況.
表1 行人重識別數(shù)據(jù)集統(tǒng)計表 個
Rank-k[7]和平均準確率mAP[8](mean average precision)是圖像檢索領(lǐng)域通用的評測標準,也是行人重識別任務最常用的評價指標.
在單次圖像檢索中,最后會輸出與查詢樣本相似性降序隊列,其中第一張圖像即為模型認為最有可能和查詢行人是同一個人的樣本,rank-k即為從隊列中前k張圖像中任意一張匹配正確的概率,通常以rank-1,rank-5,rank-10作為評價指標,最終的rank-k結(jié)果為查詢集中所有的檢索結(jié)果的平均值.
mAP則是衡量某個查詢樣本,其在搜索庫中所有的正確樣本在結(jié)果隊列中的靠前程度,即mAP先對單個樣本查詢計算該次AP,再將查詢集中的所有樣本的AP累加求平均值,即為最后的mAP指標.假設某次查詢中搜索庫中所有正確匹配樣本個數(shù)為N,則單次AP計算方法如下
(11)
其中:rN代表第N個正確匹配結(jié)果在結(jié)果隊列中的位數(shù),如第1個正確匹配結(jié)果出現(xiàn)在結(jié)果隊列第1位,則r1=1,第1個正確匹配結(jié)果出現(xiàn)在結(jié)果隊列的第2位,則r1=2,以此類推.
論文設計了多組消融實驗驗證多度量融合算法的有效性.表2,3分別顯示了在Market-1501→DukeMTMC-reID以及DukeMTMC-reID→Market-1501上的消融實驗結(jié)果.
如表2所示,在Market-1501→DukeMTMC-reID上,首先基線方法中是僅使用歐式距離作為特征相似度度量函數(shù),在多度量融合算法中,使用其他3個單一度量函數(shù)作為特征相似度度量函數(shù)后,rank1和map較基線方法均有小幅度提升.使用4種度量函數(shù)平均加權(quán)計算特征相似度使得模型的性能達到最優(yōu),rank1和map分別較基線方法上升了0.448 8%,2.106 9%.
表2 Market1501→DukeMTMC-reID的消融實驗結(jié)果 %
如表3所示,在DukeMTMC-reID→Market-1501上,基線方法中僅使用歐式距離作為特征相似度度量函數(shù).在多度量融合算法中,使用切比雪夫距離計算特征相似度時對模型的增益最大,可視為多度量融合算法中其余3個度量函數(shù)的權(quán)值置零的特例,此時rank1和map分別較基線上升了0.831 4%,2.163 0%.當使用4種度量函數(shù)平均加權(quán)計算特征相似度時,rank1和map較基線也分別提升了0.207 8%,1.144 5%.
表3 DukeMTMC-reID→Market1501的消融實驗結(jié)果 %
該節(jié)將論文提出的方法同近些年的方法進行了對比,表4,5分別顯示了在Market-1501→DukeMTMC-reID,DukeMTMC-reID→Market-1501上的對比實驗結(jié)果.
從表4,5可以看到,論文提出的方法同早期的相關(guān)工作,如SPGAN[11],ATNet等[12]相比,Rank-1和map均有大幅度提升;與近年來基于聚類的偽標簽方法,如BUC[14],ACT[17],PAST[24]等相比,在兩個評價指標上同樣也有非常大的提升.
表4 在Market-1501→DukeMTMC-reID上的對比實驗結(jié)果 %
表5 在DukeMTMC-reID→Market-1501上的對比實驗結(jié)果 %
論文提出一種基于多度量融合的無監(jiān)督領(lǐng)域自適應的行人重識別算法,旨在解決在無監(jiān)督領(lǐng)域自適應行人重識別任務中,由于聚類算法本身存在的局限而難以獲得可靠偽標簽的問題.該算法在目標域聚類時,在不使用目標域上任何標簽信息的情況下,通過多個特征相似度度量函數(shù)線性加權(quán)的方式計算特征相似度,可以被用來更合理全面地評估聚類時特征之間的相似度,提升了目標域聚類時偽標簽的魯棒性和準確性.在Market1501→DukeMTMC-reID和DukeMTMC-reID→Market-1501上大量的實驗結(jié)果表明,論文提出的多度量融合算法有效提升了模型在無監(jiān)督領(lǐng)域自適應行人重識別任務上的檢索精度.