馬瀟峰,程文剛,2*
1.華北電力大學(xué)控制與計算機工程學(xué)院,北京 102206;2.復(fù)雜能源系統(tǒng)智能計算教育部工程研究中心,保定 071003
跨模態(tài)行人再識別是指給定一種模態(tài)的行人圖像作為查詢,從另一種模態(tài)的候選集中檢索具有相同身份圖像的技術(shù)。本文針對可見光(RGB)模態(tài)和紅外(infrared,IR)模態(tài)進行研究??缒B(tài)行人再識別廣泛應(yīng)用于智能監(jiān)控、安防和刑偵等領(lǐng)域,但由于存在較大的跨模態(tài)差異,準(zhǔn)確匹配行人圖像仍然很具有挑戰(zhàn)性。因此,跨模態(tài)行人再識別受到了工業(yè)界和學(xué)術(shù)界的共同關(guān)注。
除了在單模態(tài)行人再識別中已經(jīng)存在的模態(tài)內(nèi)變化外,跨模態(tài)行人再識別的一個關(guān)鍵問題在于如何縮小相同身份的可見光圖像和紅外圖像之間的模態(tài)差異?,F(xiàn)有的工作主要采用模態(tài)共享特征學(xué)習(xí)或模態(tài)轉(zhuǎn)換的方法。模態(tài)共享特征學(xué)習(xí)方法致力于將可見光和紅外圖像投影到特定的公共嵌入空間,以實現(xiàn)跨模態(tài)特征對齊,可細分為全局特征學(xué)習(xí)(Wu等,2017;Ye 等,2020)和局部特征學(xué)習(xí)(Hao 等,2019b;Zhu 等,2020)。全局特征學(xué)習(xí)用一個特征向量表示行人圖像整體,而局部特征學(xué)習(xí)用基于部件或區(qū)域的特征向量集合表示該行人圖像。雙路卷積神經(jīng)網(wǎng)絡(luò)(two-stream convolutional neural network,two-stream CNN)結(jié)構(gòu)常應(yīng)用于這類方法,并配合損失函數(shù)(如身份損失、三元組損失等)進行約束(Ye等,2022)。然而,現(xiàn)有的模態(tài)共享特征學(xué)習(xí)方法通常致力于發(fā)掘全局或局部特征表示,很少結(jié)合兩種特征的優(yōu)勢?;谀B(tài)轉(zhuǎn)換的方法旨在生成行人圖像對應(yīng)的跨模態(tài)圖像(Wang 等,2019a,b,2020)或中間模態(tài)圖像(Li 等,2020;Zhang 等,2021),將異構(gòu)模態(tài)圖像轉(zhuǎn)換到統(tǒng)一的模態(tài)中,從而減小模態(tài)間差異。這類方法通常采用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)和編碼器—解碼器(encoderdecoder)結(jié)構(gòu)。然而,紅外圖像到可見光圖像的轉(zhuǎn)換是不適定的,還可能引入附加噪聲,無法生成準(zhǔn)確、真實的可見光圖像,并且基于GAN 的模型存在難以收斂的問題。生成的中間模態(tài)試圖在特征分布上拉近異構(gòu)圖像的距離,但兩種模態(tài)仍存在著較大差異(Wei等,2021)。
不同的成像機制決定了可見光和紅外兩種圖像本質(zhì)上的差異。可見光圖像由紅、綠、藍3 個顏色通道構(gòu)成,而紅外圖像只包含反映物體熱輻射的單通道,這導(dǎo)致顏色這一關(guān)鍵特征無法應(yīng)用于跨模態(tài)匹配。而輪廓是一種相對可靠的識別線索,事實上,人類通過視覺檢驗紅外監(jiān)控進行判斷時,主要依靠的就是輪廓信息。紅外圖像丟失了顏色和紋理等特征,但輪廓、形狀等信息則仍然明確,如圖1 偽彩色紅外圖像所示。由圖1 可見,輪廓在可見光和紅外圖像間具有一定的跨模態(tài)不變性。
圖1 偽彩色紅外圖像的示例Fig.1 An example of pseudo-color IR images
基于CNN 的方法在行人再識別問題中取得了巨大成功,這歸因于其具有強大的深層判別特征表達能力。然而,由于每個卷積核都限制在局部區(qū)域(感受野)上,使其在特征學(xué)習(xí)過程中并沒有充分利用全局上下文信息(Wu 等,2021)。因此,計算機視覺研究引入了Non-local(Wang 等,2018)機制以建模長距離關(guān)系,如各種視覺Transformer(Han 等,2022)通過自注意力機制捕捉全局信息。同時,Geirhos 等人(2022)的研究表明,CNN 更傾向于提取紋理信息而非形狀信息。因此,輪廓這種圖像級全局特征的引入亦有助于彌補現(xiàn)有CNN方法的上述缺陷。
基于以上考慮,本文提出將輪廓信息引入到跨模態(tài)行人再識別研究中。然而,輪廓也存在變形和遮擋等問題,如何恰當(dāng)利用輪廓線索也非常具有挑戰(zhàn)性的。為此,本文將輪廓作為一種輔助模態(tài),希望借助深度網(wǎng)絡(luò)強大的特征表達能力來縮小可見光和紅外的模態(tài)間差異。輪廓是行人的一種整體性而非局部性的特征描述,因此對全局特征進行了輪廓增廣。同時,受到局部特征具有良好判別能力的啟發(fā),期冀將輪廓與模態(tài)共享特征學(xué)習(xí)得到的局部特征進一步融合,增強特征表達能力。相應(yīng)地,提出了一種輪廓引導(dǎo)下的雙粒度特征融合網(wǎng)絡(luò),如圖2 所示。該網(wǎng)絡(luò)包括兩種類型的融合,一種是圖像到輪廓的融合,在圖像級進行,稱為全局粒度融合,輸出輪廓增廣特征;另一種是在輪廓增廣特征和局部特征之間進行融合,由于涉及局部特征,稱為局部粒度融合。
本文的主要貢獻如下:1)將輪廓作為一種輔助模態(tài)引入到跨模態(tài)行人再識別模型中進行特征嵌入。這是在跨模態(tài)行人再識別問題中利用顯式輪廓信息的首次嘗試。2)提出了一種輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò),在統(tǒng)一的端到端網(wǎng)絡(luò)中同時學(xué)習(xí)全局粒度和局部粒度特征。在兩個公開數(shù)據(jù)集SYSUMM01(Sun Yat-sen University multiple modality 01)和RegDB(Dongguk body-based person recognition database)上的實驗結(jié)果驗證了模型的有效性。
跨模態(tài)行人再識別不僅要面對遮擋、不同視角和行人姿勢造成的模態(tài)內(nèi)差異(史維東 等,2020),還要解決由于異構(gòu)圖像而形成的跨模態(tài)差異。其中,減小跨模態(tài)差異至關(guān)重要,因為模態(tài)間差異也會加劇已經(jīng)存在的模態(tài)內(nèi)差異?,F(xiàn)有方法主要可以分為模態(tài)共享特征學(xué)習(xí)和模態(tài)轉(zhuǎn)換兩類。
模態(tài)共享特征學(xué)習(xí)旨在從異構(gòu)模態(tài)中學(xué)習(xí)具有判別力和魯棒性的特征。Wu 等人(2017)設(shè)計了一種深度零填充(zero-padding)結(jié)構(gòu),使單路網(wǎng)絡(luò)的節(jié)點自動提取兩種模態(tài)的特征。Ye 等人(2018a)提出了一個結(jié)合特征學(xué)習(xí)和度量學(xué)習(xí)的兩階段框架,并通過后續(xù)工作逐步完善該框架,使雙路卷積神經(jīng)網(wǎng)絡(luò)成為目前跨模態(tài)行人再識別領(lǐng)域一個常用的基線模型(Ye 等,2022),其通常包括特定于模態(tài)的淺層結(jié)構(gòu)和模態(tài)共享的深層結(jié)構(gòu),最終將行人圖像映射到共享特征空間進行相似度學(xué)習(xí)。雙路網(wǎng)絡(luò)主要采用身份損失(identity loss)和三元組損失(triplet loss)進行約束。一些工作從優(yōu)化損失函數(shù)的角度出發(fā)增強其學(xué)習(xí)能力。Zhu 等人(2020)提出異質(zhì)中心損失(hetero-center loss),以縮小不同模態(tài)下同一行人圖像的中心距離。Liu 等人(2021)設(shè)計了異質(zhì)中心三元組損失(hetero-center triplet loss),試圖結(jié)合三元組損失和異質(zhì)中心損失的優(yōu)點。盡管基于CNN 的方法取得了巨大成功,但對長距離依賴關(guān)系建模能力有限,使網(wǎng)絡(luò)偏向于識別紋理而非形狀(Geirhos等,2022)。輪廓是一種圖像級的特征,引入輪廓可以引導(dǎo)CNN 學(xué)習(xí)基于形狀的行人判別特征,并彌補其在長距離關(guān)系建模上的不足。
模態(tài)轉(zhuǎn)換通常采用基于GAN 的方法和編碼器—解碼器結(jié)構(gòu)。Wang 等人(2020)提出的JSIAReID(joint set-level and instance-level alignment Re-ID)執(zhí)行集合級和實例級的對齊,以生成跨模態(tài)成對圖像。Li等人(2020)通過一個輕量級網(wǎng)絡(luò)引入了輔助X 模態(tài)圖像,并聯(lián)合優(yōu)化三種模態(tài)的特征。Zhang等人(2021)提出一種非線性中間模態(tài)生成器,采用編碼器—解碼器結(jié)構(gòu)生成M 模態(tài)圖像,使模態(tài)間特征分布盡可能接近。由于紅外模態(tài)到可見光模態(tài)的轉(zhuǎn)換是不適定的,生成的圖像可能包含額外的噪聲。而輪廓在紅外和可見光圖像中保持不變,是一種良好的模態(tài)共享特征。從這點上看,固有的輪廓比生成的圖像更加可靠,然而現(xiàn)有的跨模態(tài)行人再識別方法沒有關(guān)注到輪廓信息。Chen 等人(2019)在可見光單模態(tài)行人再識別中考慮了行人輪廓的影響,本文則深入探究輪廓在跨模態(tài)行人再識別的價值,并提出了一種雙粒度特征融合策略以實現(xiàn)更有效的特征學(xué)習(xí)。
全局特征學(xué)習(xí)為每幅行人圖像提取全局特征表示,跨模態(tài)行人再識別中的大多數(shù)方法都采用全局特征來描述行人。Ye 等人(2022)設(shè)計了一個簡單但廣泛使用的基線模型,使用雙路網(wǎng)絡(luò)提取全局特征,由身份損失和三元組損失聯(lián)合優(yōu)化整個網(wǎng)絡(luò)。因其易于實現(xiàn)且泛化能力強,大部分特征學(xué)習(xí)相關(guān)方法(Wu 等,2017;Ye 等,2018b,2020;Dai 等,2018)和基于模態(tài)轉(zhuǎn)換的方法(Wang 等,2019a,b,2020;Li等,2020)都傾向于使用全局特征。局部特征學(xué)習(xí)能夠獲得部件或區(qū)域的特征,對行人圖像錯位具有魯棒性。一些方法(Zhu 等,2020;Hao 等,2019b)側(cè)重于利用局部細粒度特征,將可見光和紅外圖像分成幾個水平部件,每個部件獨立預(yù)測行人身份。但目前的跨模態(tài)行人再識別模型通常只關(guān)注全局或局部特征學(xué)習(xí)方法,本文則在輪廓信息引導(dǎo)下,融合全局特征和局部特征,使其具有更強的判別能力。
在雙路網(wǎng)絡(luò)基礎(chǔ)上,本文設(shè)計了兩個特定的分支用于學(xué)習(xí)可見光圖像和紅外圖像所對應(yīng)輪廓的特征,將輪廓圖像作為輔助模態(tài)聯(lián)合優(yōu)化整個網(wǎng)絡(luò),從而縮小模態(tài)間差異。
提出的輪廓引導(dǎo)下的雙粒度特征融合網(wǎng)絡(luò)架構(gòu)如圖2 所示,由4 個分支組成,分別對應(yīng)于可見光輪廓圖像、可見光圖像、紅外圖像和紅外輪廓圖像。為了便于敘述,從上到下將其依次命名為分支1、分支2、分支3 和分支4。選取ResNet50(50-layer residual network)作為每個分支的主干網(wǎng)絡(luò)。各分支的第1 個卷積層使用獨立的參數(shù)來捕獲特定于模態(tài)的信息,而剩余的殘差塊則共享權(quán)重以學(xué)習(xí)模態(tài)不變特征,即分支2 和分支3,分支1 和分支4 共享各自殘差塊Stage1—Stage4 的參數(shù)。此外,將分支2 與分支3 中的最后一個全局平均池化(global average pooling,GAP)層替換為用于局部特征提取的結(jié)構(gòu)。
網(wǎng)絡(luò)的輸入是一組可見光和紅外圖像,可見光圖像送入分支2,紅外圖像送入分支3。根據(jù)給定的圖像,輪廓檢測器相應(yīng)地生成其輪廓圖像。然后,將可見光輪廓圖像和紅外輪廓圖像(如圖2 所示)這兩種模態(tài)的輪廓圖像分別送入分支1 和分支4。通過這種方式,輪廓圖像作為輔助模態(tài)信息進入網(wǎng)絡(luò)。
圖2 輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of contour-guided dual-granularity feature fusion network
全局粒度融合是指行人圖像到輪廓的融合,包括可見光—輪廓融合以及紅外—輪廓融合。經(jīng)過全局粒度融合后,由分支1和分支4的全局平均池化層分別生成可見光輪廓增廣特征和紅外輪廓增廣特征。同時,分支2和分支3輸出可見光局部特征和紅外局部特征,局部特征是一組特征向量,具體數(shù)量由區(qū)域劃分相關(guān)參數(shù)決定。局部粒度融合負(fù)責(zé)連接輪廓增廣特征和相應(yīng)的局部特征。例如,通過局部粒度融合將紅外輪廓增廣特征和紅外局部特征拼接在一起,以獲得紅外圖像的表示。
2.2.1 全局粒度特征融合
全局粒度融合是指將行人圖像特征融合到其對應(yīng)的輪廓圖像中,借助輪廓作為先驗知識,增強輪廓的全局特征表達。以紅外圖像為例,其紅外—輪廓融合過程如圖3 所示。特征融合可以在不同的層次上分別開展,如圖3 中的箭頭所示,淺層網(wǎng)絡(luò)融合低層細節(jié)相關(guān)特征,而深層網(wǎng)絡(luò)則融合高層語義相關(guān)特征。實驗檢驗了各個不同融合位置的作用。
采用RCF(richer convolutional features)(Liu 等,2017)作為輪廓檢測器,其主干架構(gòu)是一個經(jīng)過預(yù)訓(xùn)練 的VGG16(Visual Geometry Group 16-layer network)網(wǎng)絡(luò)。輪廓特征提取的表達式為
式中,xk和表示原始圖像和生成的輪廓圖像,k∈{V,I}分別代表可見光模態(tài)或紅外模態(tài),φ(·)表示輪廓檢測器。
此外,本文探討了不同融合操作對實驗的影響,包括按元素乘、按元素加和拼接。按元素乘旨在通過輪廓圖像特征對行人圖像特征進行篩選過濾,保留行人輪廓信息而忽略其他區(qū)域的信息;按元素加則著重為輪廓圖像特征補充行人圖像相關(guān)的語義信息;拼接是在特征維度上擴展,而不損失行人圖像和輪廓圖像各自的信息。本文模型在Conv1 后采用按元素加的方式對特征進行融合。全局粒度融合的表達式為
式中,σ(x,y)指特征融合操作,σ∈{⊙,⊕,?}分別代表按元素乘、按元素加和拼接;,,,F(xiàn)分別表示經(jīng)過網(wǎng)絡(luò)的第i個殘差塊后,可見光圖像、紅外圖像、可見光輪廓和紅外輪廓各自對應(yīng)的特征圖;ugVC和ugIC分別表示可見光輪廓增廣特征圖和紅外輪廓增廣特征圖。
2.2.2 局部粒度特征細化與融合
局部粒度融合是指將輪廓增廣特征與基于部件的局部特征進行融合,從而聯(lián)合全局特征和局部特征,得到具備更強判別能力的圖像表達。由于局部特征通常與特定的身體部位有關(guān),在不同的模態(tài)之間相對穩(wěn)定,從而有助于異構(gòu)模態(tài)下的對齊。
現(xiàn)有工作在提取局部特征時通常采用均勻分割法,首先將經(jīng)過主干網(wǎng)絡(luò)的特征圖平均劃分為幾個水平部件,每個部件的特征圖經(jīng)過全局平均池化層生成特征向量,隨后送入各自的分類器獨立地預(yù)測行人身份。為了提高識別準(zhǔn)確率,進一步采用了軟分割方法(Sun 等,2018)細化局部粒度特征。具體而言,首先由區(qū)域分類器對原始特征圖的各個列向量進行m分類,并得到區(qū)域劃分掩膜,每個區(qū)域劃分掩膜表示列向量屬于該部件區(qū)域的概率。區(qū)域分類器由全連接層和softmax 函數(shù)構(gòu)成。最后,將m個區(qū)域劃分掩膜分別與原始特征圖相乘,通過平均池化操作得到m個特征向量。軟分割法可以表達為
式中,ω(·)指區(qū)域分類器,g(·)指全局平均池化操作,softmax(·)指softmax 激活函數(shù),Wj為全連接層的權(quán)重矩陣,F(xiàn)k、u表示行人圖像經(jīng)過主干網(wǎng)絡(luò)輸出的特征圖和其中的每個列向量;和分別表示圖像第j個區(qū)域的劃分掩膜和特征向量,其中j∈{1,…,m}。
獲得局部特征后,將輪廓增廣特征向量和局部特征向量拼接,完成局部粒度融合。以可見光圖像為例,針對均勻分割和軟分割這兩種局部特征提取方法,局部特征融合過程如圖4 所示,該圖省略了全局特征融合的表示。局部粒度融合的表達為
圖4 局部粒度融合的示意圖Fig.4 Illustration of local-granularity fusion((a)fusion process;(b)uniform partition method;(c)soft partition method)
式中,fAugVC和fAugIC分別表示經(jīng)過全局平均池化層得到的可見光輪廓增廣特征向量和紅外輪廓增廣特征向量,fV和fI分別表示可見光行人圖像和紅外行人圖像最終的特征表示,Concat(·) 代表向量拼接操作。
為了優(yōu)化提出的模型,采用身份損失和三元組損失。身份損失將訓(xùn)練過程視為一個分類問題,使每幅行人圖像盡可能分類到正確的身份類別中,從而學(xué)習(xí)具有判別性的特征。三元組損失將訓(xùn)練視為一個檢索排序問題(趙才榮 等,2021),在特征空間拉近相同行人身份的圖像特征,推遠不同行人身份的圖像特征。身份損失一般由交叉熵?fù)p失函數(shù)實現(xiàn),本文使用Liu 等人(2021)提出的異質(zhì)中心三元組損失替代傳統(tǒng)三元組損失。異質(zhì)中心三元組損失結(jié)合了傳統(tǒng)三元組損失和異質(zhì)中心損失(Zhu 等,2020)的優(yōu)點,同時考慮了類內(nèi)的緊湊性和類間的可分離性??傮w的損失函數(shù)為
式中,Lid和Lhc_tri分別表示全局特征向量對應(yīng)的身份損失和異質(zhì)中心三元組損失,和c_tri分別表示第j個局部特征向量對應(yīng)的身份損失和異質(zhì)中心三元組損失。本文實驗將權(quán)衡參數(shù)λ的值設(shè)置為1.0,異質(zhì)中心三元組損失的邊距值設(shè)置為0.3。
在可見光—紅外跨模態(tài)行人再識別的兩個公開數(shù)據(jù)集SYSU-MM01(Wu 等,2017)和RegDB(Nguyen等,2017)上對提出的方法進行實驗評估。通過與基線模型和一些近年來的SOTA(state-of-the-art)方法進行性能比較,驗證模型的有效性。
SYSU-MM01 數(shù)據(jù)集由4 個可見光攝像頭和2 個紅外攝像頭拍攝,包含491 個行人的287 628 幅可見光圖像和15 792幅紅外圖像。其中,訓(xùn)練集有395個行人,測試集有96 個行人。數(shù)據(jù)集有室內(nèi)搜索(indoor-search)和全搜索(all-search)兩種評估模式,前者不包括室外攝像頭拍攝的圖像,后者使用全部攝像頭拍攝的圖像。本文采用最具挑戰(zhàn)性的單次全搜索(single-shot all-search)模式評估提出的方法。
RegDB 數(shù)據(jù)集由可見光—紅外雙成像系統(tǒng)拍攝,包含412 個行人的8 240 幅圖像,每個行人都有10 幅不同的可見光圖像和10 幅不同的紅外圖像。其中,訓(xùn)練集和測試集各有206 個行人。沿用Ye 等人(2018a)提出的策略,本文通過10 次實驗的結(jié)果評估模型,以獲得穩(wěn)定的結(jié)果。
實驗參照現(xiàn)有的跨模態(tài)行人再識別中的評估標(biāo)準(zhǔn),采用累積匹配特征(cumulative matching characteristics,CMC)和平均精度均值(mean average precision,mAP)兩項指標(biāo)來評估方法的性能。其中,CMC-k(rank-k匹配準(zhǔn)確率)表示在排名前k的檢索結(jié)果中出現(xiàn)正確匹配的概率,而mAP 則度量具有多個正確匹配時的平均檢索性能。
使用深度學(xué)習(xí)框架Pytorch 來實現(xiàn)本文方法,硬件配置如下:GPU 為NVIDIA RTX 3090 24 GB,CPU為Intel(R)Core(TM)i7-11700 @ 2.50 GHz,內(nèi)存32 GB。
實驗采用在ImageNet 上預(yù)先訓(xùn)練的ResNet50作為主干網(wǎng)絡(luò),且最后一個卷積層的stride 設(shè)置為1,以獲得更大空間尺寸的特征圖。參照Zhu 等人(2020)的實驗設(shè)置,訓(xùn)練的batch size 設(shè)置為64,每個batch 隨機選取4 個行人,每個行人包括8 幅可見光圖像和8 幅紅外圖像。輸入圖像的大小統(tǒng)一調(diào)整為288 × 144 像素,并采用隨機裁剪和隨機水平翻轉(zhuǎn)進行數(shù)據(jù)增強。局部特征的分割區(qū)域數(shù)量設(shè)置為6。
實驗使用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器,其中動量設(shè)置為0.9。初始學(xué)習(xí)率設(shè)置為0.01,并采用warm up 策略調(diào)整學(xué)習(xí)率。具體來說,在前10 個epoch,學(xué)習(xí)率可以通過0.01×(epoch+1)來計算;在第10~20 個epoch 之間時,學(xué)習(xí)率保持為0.01 不變;在第20 個epoch 和第50 個epoch 時,學(xué)習(xí)率分別衰減為0.001 和0.000 1。經(jīng)過60 個epoch 后停止訓(xùn)練。此外,當(dāng)采用軟分割方法時,還需對模型進行另外20 個epoch 的微調(diào)。在這個過程中,首先固定其他組件,單獨訓(xùn)練區(qū)域分類器,然后聯(lián)合優(yōu)化整個網(wǎng)絡(luò)。
為了驗證方法的有效性,在SYSU-MM01 和RegDB 兩個數(shù)據(jù)集上與經(jīng)典和SOTA 方法進行對比實驗。包括基于全局特征的方法Zero-Padding(Wu等,2017)、TONE(two-stream CNN network)+HCML(hierarchical cross-modality metric learning)(Ye 等,2018a)、HSME(hypersphere manifold embedding)(Hao 等,2019a)、cmGAN(cross-modality generative adversarial network)(Dai 等,2018)、BDTR (bidirectional dual-constrained top-ranking)(Ye 等,2018b)、AGW(attention generalized mean pooling with weighted triplet loss)(Ye 等,2022)、MACE (modalityaware collaborative ensemble)(Ye 等,2020)、Hi-CMD(hierarchical cross-modality disentanglement)(Choi等,2020)、NFS(neural feature search)(Chen 等,2021)、MSO(multi-feature space joint optimization)(Gao 等,2021)、基于局部特征的方法DFE (dualalignment feature embedding)(Hao 等,2019b)、TSLFN(two-stream local feature network)(Zhu 等,2020)、LBA(learning by aligning)(Park 等,2021),以及基于模態(tài)轉(zhuǎn)換的方法D2RL (dual-level discrepancy reduction learning)(Wang 等,2019b)、JSIA-ReID (joint set-level and instance-level alignment Re-ID)(Wang等,2020)、AlignGAN(alignment generative adversarial network)(Wang 等,2019a)、X-Modality(Li 等,2020)。
在SYSU-MM01 數(shù)據(jù)集上的對比實驗結(jié)果如表1 所示,輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò)在最具挑戰(zhàn)性的單次全搜索模式下的rank-1和mAP分別為62.42%和58.14%。結(jié)果表明,雙粒度特征融合有利于模型學(xué)習(xí)判別性特征,局部特征和全局特征相結(jié)合比單獨使用其中一種粒度的特征具有更好的性能。此外,本文方法的性能超過了基于GAN 的方法,模型更容易收斂并具有更快的訓(xùn)練速度,不會引入額外的噪聲。在RegDB 數(shù)據(jù)集上的對比實驗結(jié)果如表2 所示,本文方法的rank-1 和mAP 分別為84.42%和77.82%,相比于其他方法具有較高的識別準(zhǔn)確率。在兩個公開數(shù)據(jù)集SYSU-MM01 和RegDB上的對比實驗結(jié)果證明了本方法的優(yōu)越性。
表1 不同方法在SYSU-MM01數(shù)據(jù)集上的比較結(jié)果Table 1 Comparison results of different methods on SYSU-MM01 dataset/%
表2 不同方法在RegDB數(shù)據(jù)集上的比較結(jié)果Table 2 Comparison results of different methods on RegDB dataset/%
為了驗證輪廓增廣和模型各組成部分的有效性,并探究不同特征融合方法和權(quán)衡參數(shù)的影響,進行消融實驗。相比于RegDB 數(shù)據(jù)集,SYSU-MM01數(shù)據(jù)集的圖像數(shù)量更多,拍攝場景和相機視角也更加復(fù)雜多變。各種方法在SYSU-MM01 數(shù)據(jù)集上的性能遠不如在RegDB 數(shù)據(jù)集上的性能,對其做更深入的探究是很有必要的。因此,消融實驗在SYSU-MM01數(shù)據(jù)集上進行。
3.4.1 組成部分的有效性
為了評估各組成部分的有效性,實驗在基線模型上添加不同的組件,并對性能指標(biāo)進行定量分析。實驗1 使用雙路網(wǎng)絡(luò)作為基線,原始可見光圖像和紅外圖像作為輸入。實驗2 和實驗3 分別表示僅使用全局粒度輪廓特征或局部粒度部件特征作為行人的特征表示。實驗4 表示將實驗3 的均勻分割方法替換為軟分割方法。實驗5 指融合兩種粒度的特征,這里在Conv1 后使用按元素加的方式完成全局融合操作。實驗6 表示將實驗5 的均勻分割方法替換為軟分割方法。
在SYSU-MM01 數(shù)據(jù)集上各組成部分的有效性如表3 所示。與實驗1 相比,實驗2 的rank-1 提升了7.76%,mAP 提升了6.60%;而實驗3 對應(yīng)的提升值分別為6.90%和4.81%。實驗2 的提升效果更顯著,表明了在本文提出的模型中,全局粒度輪廓特征比局部粒度部件特征更有效,同時也體現(xiàn)了輪廓是一種具有較強判別性的模態(tài)共享特征。與實驗2 和實驗3相比,實驗5的結(jié)果證明了融合全局特征和局部特征的重要性。全局特征包含整體的語義信息,但可能會受到背景噪聲的干擾;局部特征是細粒度的,通常與行人身體部位相關(guān)。因此,為了盡可能減少模態(tài)差異,有必要將兩種粒度的特征結(jié)合起來。此外,與實驗3和實驗5相比,實驗4和實驗6表明,軟分割方法可以進一步提高模型的識別準(zhǔn)確率。然而,由于可見光模態(tài)和紅外模態(tài)之間的巨大差異,其效果不如可見光單模態(tài)下的行人再識別(Sun等,2018)。
表3 各組成部分在SYSU-MM01數(shù)據(jù)集上的有效性Table 3 Effectiveness of each component on SYSU-MM01 dataset/%
3.4.2 融合方法的影響
為了研究全局粒度融合方法對性能的影響,實驗嘗試了在不同位置使用不同操作進行特征融合。在SYSU-MM01 數(shù)據(jù)集上的實驗結(jié)果如表4 所示。結(jié)果表明,在較淺層融合的性能優(yōu)于在較深層融合。因為CNN 的淺層更傾向于提取圖像的形狀、邊緣和紋理特征,而深層則更偏向于學(xué)習(xí)抽象特征,且淺層生成的特征圖具有更大的空間尺寸。融合操作可以在淺層結(jié)合原始圖像和輪廓圖像各自的細節(jié)信息,以便于后續(xù)的網(wǎng)絡(luò)進行學(xué)習(xí),從而取得比在深層融合更好的效果。在各種特征融合方式中,拼接操作的性能整體上優(yōu)于其他方法,因為與按元素的乘或加相比,拼接不會損失信息。但由于拼接操作增加了特征圖維度,對計算資源的消耗大于其他兩種方法。綜合以上考慮,本文實驗在Conv1 后采用按元素加的方式對特征進行融合。
表4 不同融合方法在SYSU-MM01數(shù)據(jù)集上的性能Table 4 Performance of different fusion methods on SYSU-MM01 dataset/%
3.4.3 輪廓增廣的有效性
為了驗證輪廓增廣的有效性,實驗分別探究了在無輪廓增廣、局部特征輪廓增廣和全局特征輪廓增廣下雙粒度特征融合網(wǎng)絡(luò)的性能,表5 給出了在SYSU-MM01 數(shù)據(jù)集上的實驗結(jié)果。數(shù)據(jù)表明,對局部特征或全局特征進行輪廓增廣的結(jié)果好于沒有輪廓引導(dǎo)的結(jié)果,從而驗證了輪廓增廣的有效性。同時,可以發(fā)現(xiàn)采用全局特征輪廓增廣帶來的性能提升顯著高于局部特征的增廣。這是因為,輪廓是行人的一種整體性而非局部性的特征描述,對全局特征進行輪廓增廣可以引導(dǎo)模型學(xué)習(xí)基于形狀的行人判別特征,并彌補其在長距離關(guān)系建模上的不足。而在局部特征輪廓增廣中,由于圖像會被劃分成不同的區(qū)域,整體性的輪廓將被分解為局部性的邊緣,導(dǎo)致模型無法感知圖像級的關(guān)聯(lián)信息。因此,本文所提出的模型僅對全局特征進行了輪廓增廣。
表5 輪廓增廣在SYSU-MM01數(shù)據(jù)集上的有效性Table 5 Effectiveness of contour augmentation on SYSU-MM01 dataset/%
3.4.4 權(quán)衡參數(shù)的影響
為了探究全局特征損失和局部特征損失的比例系數(shù)對性能的影響,在SYSU-MM01數(shù)據(jù)集上采用不同的權(quán)衡參數(shù)λ進行實驗,結(jié)果如表6 所示。結(jié)果表明,當(dāng)權(quán)衡參數(shù)λ介于1.0~1.5 時,模型的性能較好。考慮到λ= 1.0 時,rank-1 和mAP 性能突出,且rank-10 和rank-20 的值亦接近最優(yōu),本文實驗將權(quán)衡參數(shù)λ的值設(shè)置為1.0。
表6 不同權(quán)衡參數(shù)在SYSU-MM01數(shù)據(jù)集上的性能Table 6 Performance of different trade-off parameters on SYSU-MM01 dataset/%
本文將顯式輪廓信息引入紅外—可見光跨模態(tài)行人再識別中,旨在減小模態(tài)間差異。為了充分利用輪廓特征,本文將輪廓作為輔助模態(tài),提出了一種輪廓引導(dǎo)的雙粒度特征融合網(wǎng)絡(luò),用于跨模態(tài)行人再識別。全局粒度融合增強了原始圖像的輪廓特征表示,生成輪廓增廣特征。局部粒度融合進一步融合基于行人部件的局部特征和輪廓增廣特征,從而得到具備更強判別能力的圖像表達。在兩個公開數(shù)據(jù)集SYSUMM01和RegDB上的實驗結(jié)果驗證了模型的有效性。
本文模型驗證了輪廓引導(dǎo)和雙粒度特征融合的有效性,然而模型的性能仍有待提高。后續(xù)工作將探索如何更有效地利用輪廓線索增強特征的表達能力。例如,嘗試其他的輪廓特征融合方法或設(shè)計相應(yīng)的損失函數(shù),進一步提高識別準(zhǔn)確率。此外,將考慮采用隨機擦除、噪聲添加等數(shù)據(jù)擴張技術(shù)提升模型的泛化能力,以適應(yīng)更加復(fù)雜多變的真實行人再識別場景。