黃 盼,朱松豪,梁志偉
(南京郵電大學(xué)自動化學(xué)院、人工智能學(xué)院,江蘇南京 210023)
人的再識別(行人重識別)旨在從部署在不同視角的多臺非重疊攝像機中檢索出同一個人[1-2]。例如,給定一個攝像機視角下的行人圖像,該算法試圖檢索不同攝像機捕捉到的同一行人的圖像[3]。由于其在智能視頻監(jiān)控和刑事調(diào)查應(yīng)用中的必要性,它在計算機視覺社區(qū)中吸引了越來越多的關(guān)注。但因為存在遮擋、類內(nèi)變化以及類間相似性等問題,人員重新識別仍然是一項具有挑戰(zhàn)性的任務(wù)。類內(nèi)變化包括同一人在不同視角下看起來不同的情況[4-5]。 典型的類內(nèi)變化包括視角變化、不受限制的姿勢[6-7]和不同的照明[8]等。 類間相似性是指不同的人在不同的視角下可能看起來幾乎完全一樣,尤其是當(dāng)他們穿著同樣的衣服,體型相似時。
盡管存在這些挑戰(zhàn),但隨著深度學(xué)習(xí)技術(shù)的發(fā)展[9-10],可見光行人重識別已經(jīng)取得了令人振奮的進步,并實現(xiàn)了高精度[11-14]。 然而,可見光行人重識別無法在黑暗條件下工作,一個人可能在白天出現(xiàn)在一個攝像機中,而晚上重新出現(xiàn)在另一個攝像機中。
隨著技術(shù)的發(fā)展,大多數(shù)監(jiān)控攝像機可以在黑暗條件下自動從可見光模式切換到紅外模式,利用紅外攝像機采集的視覺信息進行黑暗條件下的人員重識別,因此有必要在24小時智能監(jiān)控系統(tǒng)中研究可見光?紅外行人重識別跨模態(tài)匹配,也就是可見光?紅外行人重識別[15]。與可見光-可見光單模態(tài)匹配相比,可見光?紅外行人重識別跨模態(tài)匹配難度較大,因為兩種模態(tài)之間存在較大差異。如圖1所示,可見光和紅外圖像具有本質(zhì)上的差異性和異質(zhì)性,且波長范圍不同。此外,可見光圖像有3個通道,包含了足夠的人物外觀顏色信息,而紅外圖像只有一個通道,包含了可見光的信息。這使得人眼很難僅僅根據(jù)顏色信息有效地識別人。
圖1 來自SYSU?MM01數(shù)據(jù)集的可見光圖片與紅外圖片的示例
即使是最先進的單模態(tài)行人重識別系統(tǒng)[16-18]也很難應(yīng)對上述挑戰(zhàn),因為這些方法很難可靠地學(xué)習(xí)鑒別性的局部類型特征,這就是為什么現(xiàn)有的研究人員更多地關(guān)注于通過單流[19-20]或雙流網(wǎng)絡(luò)[21-22]學(xué)習(xí)多模態(tài)的可共享全局特征。一些研究還整合了模態(tài)判別監(jiān)督[21]或GAN生成的圖像[23]來緩解模態(tài)差異。然而,全局特征學(xué)習(xí)機制對背景噪聲敏感,難以明顯彌補模態(tài)差異。此外,由于跨模態(tài)差異較大,基于部分特征學(xué)習(xí)的單模態(tài)行人重識別方法[24]往往不能捕獲可靠的部分特征。所有這些挑戰(zhàn)都會導(dǎo)致跨模態(tài)特征的辨別力下降和訓(xùn)練不穩(wěn)定。
為了解決上述局限性,本文提出了一個新穎的雙流框架,稱為三注意力聚合網(wǎng)絡(luò)(Three?Attentional Aggregation Network,TAANet)。 TAANet包括兩個主要部分,如圖2所示,一個是模態(tài)內(nèi)加權(quán)聚合(Intra?Modal Weighting Aggregation,IDWA),一個是跨模態(tài)圖形全局特征注意力(Cross Modal Graph Global Feature Attention,GGFA)。本文的主要思想是:在模態(tài)內(nèi)部分層面和跨模態(tài)圖形層面挖掘上下文線索,以增強特征表征學(xué)習(xí)。IDWA旨在通過結(jié)合空間和通道維度的特征依賴性,來挖掘每種模式下身體部位之間的上下文關(guān)系。具體來說,本文將兩個平行的注意力模塊附加到ResNet骨干網(wǎng)的輸出上,并將兩個注意力模塊的輸出逐像素相加。GGFA旨在通過結(jié)合可見光圖像和紅外圖像之間的關(guān)聯(lián)性來學(xué)習(xí)一個增強的節(jié)點特征表示。挖掘跨模態(tài)圖的上下文信息有助于消除差異大的樣本的負(fù)面影響,這正是本文所采取的方法。本文還通過一個多頭關(guān)注圖方案對模態(tài)內(nèi)和跨模態(tài)的鄰居進行了權(quán)重適應(yīng)性分配[25]。這種策略可以減少模態(tài)差異,加快訓(xùn)練過程。以下是本文的主要貢獻。
圖2 可見光?紅外行人重識別的TAANet框架
筆者提出了一種新型的3種注意力聚合學(xué)習(xí)方法,以挖掘模態(tài)內(nèi)部分和跨模態(tài)圖層面的上下文關(guān)系,來提升可見光?紅外行人重識別任務(wù)的特征學(xué)習(xí)過程。
(1)在TAANet中引入了復(fù)合注意力機制,包括通道注意力模塊和位置注意力模塊。前者有利于通道方面提升特征級信息聚合,而后者則抓住了身體和部件位置的空間關(guān)系。筆者發(fā)現(xiàn)它們是互補的,完全有利于行人重識別任務(wù)的完成。
(2)引入了一個改進的三重?fù)p失與中心損失相結(jié)合的方法,通過學(xué)習(xí)每個行人的類中心,使類內(nèi)距離更加緊湊。
(3)建立了一個新的基線,并在兩個可見光?紅外行人重識別數(shù)據(jù)集上取得了新的結(jié)果。
單模態(tài)行人重識別旨在從可見光相機中識別人物圖像[26]。大多數(shù)研究者關(guān)注3種類型的行人重識別專用網(wǎng)絡(luò),即全局級[27-28]、部分級[29]和注意力級特征學(xué)習(xí)。全局級網(wǎng)絡(luò)將全局級特征聚合成一個全局向量[30-31]?;诓糠值木W(wǎng)絡(luò)首先將行人圖像分割成不同的部分,然后將不同部分的局部特征向量合并為一個單一的向量[32]。由于不同模態(tài)之間存在巨大的異質(zhì)性差距,大多數(shù)現(xiàn)有的方法都集中在單模態(tài)重識別任務(wù)上,無法很好地處理跨模態(tài)重識別。
跨模態(tài)行人重識別旨在將一種模態(tài)的圖像與不同模態(tài)的圖集在查詢后進行匹配,如文本?圖像行人重識別[33]、可見光?Depth 行人重識別[34]和可見光紅外(可見光?紅外行人重識別)行人重識別[35-36]。Wu等[15]貢獻了最大的 SYSU?MM01 數(shù)據(jù)集,并為可見光?紅外行人重識別跨模態(tài)匹配引入了一個深度零填充框架。Ye等[37]提出了一個分層學(xué)習(xí)框架,以共同優(yōu)化模態(tài)特定和模態(tài)共享的指標(biāo)。Ye等[38]推進了基于雙流的模型和雙向頂階損失函數(shù)來學(xué)習(xí)共同的表征。Dai等[19]介紹了一種跨模態(tài)生成對抗網(wǎng)絡(luò)來減少可見光和紅外特征的分布差異。Hao等[35]通過超球流形嵌入模型實現(xiàn)了可見光熱成像人再識別。最近,Wang等人將生成式對抗網(wǎng)絡(luò)作為模式轉(zhuǎn)換器,將人的圖像從一種模式轉(zhuǎn)換成另一種模式,同時盡可能地保留身份信息。然而,上述大多數(shù)方法主要集中在學(xué)習(xí)全局特征表征上,在兩種模式下不同身體部位和鄰域非常有用的關(guān)系在很大程度上被忽略了。
注意力機制已經(jīng)被引入到深度模型中,以解決人的重新識別中的錯位問題。注意力被用來整合不同視頻幀中的時空信息[39-41]。 一些研究者[42-44]也研究了利用多尺度或不同卷積通道來捕獲像素級/小區(qū)域級的注意力[45]。但由于跨模態(tài)差異大、噪聲大,使得上述方法在可見光?紅外行人重識別中的優(yōu)化是不穩(wěn)定的。本文提出的注意力機制結(jié)合了空間和通道線索,以及逐像素的求和,這使得本文的模型比多任務(wù)學(xué)習(xí)的替代方法更輕量[46]。
圖2給出了本文所提出的三注意力聚合網(wǎng)絡(luò)框架。TAANet是一個針對可見光?紅外行人重識別的雙路徑端到端特征學(xué)習(xí)框架,其中包括用于鑒別性特征學(xué)習(xí)的模內(nèi)混合加權(quán)部分注意和用于共享全局特征學(xué)習(xí)的跨模態(tài)圖結(jié)構(gòu)注意,最后,本文引入了一個復(fù)合注意機制,以適應(yīng)性地聚合兩個部分進行端到端的聯(lián)合訓(xùn)練。
本文提出了一個雙路徑網(wǎng)絡(luò)來提取可見光?紅外跨模態(tài)行人重識別域的特征。它主要包括兩部分:特征提取器和特征嵌入。特征提取器側(cè)重于捕捉不同模態(tài)的特定信息,特征嵌入旨在學(xué)習(xí)多模態(tài)共享特征,通過將這些模態(tài)特定特征投射到一個模態(tài)共享的公共特征空間中,從而實現(xiàn)跨模態(tài)重識別。
為簡單說明,本文將可見光路徑中的特征提取網(wǎng)絡(luò)表示為函數(shù)?V,紅外路徑特征提取網(wǎng)絡(luò)表示為?I來學(xué)習(xí)模態(tài)特異性信息,而特征嵌入網(wǎng)絡(luò)ЕVI來進一步利用這些模態(tài)特異性信息嵌入到一個共同的空間中。將可見光圖像Iv和紅外圖像Ii,在公共空間中學(xué)習(xí)到的三維人體特征表示為
考慮到ResNet50模型在一些行系統(tǒng)中的優(yōu)異性能[47],以及其相對簡潔的架構(gòu),本文將采用ResNet50模型作為骨干。ResNet50模型主要由1個淺卷積塊stage0和4個殘差卷積塊stage1、stage2、stage3、stage4 組成[48],如圖 2 所示。
殘差卷積塊在兩個網(wǎng)絡(luò)中是獨立的,目的是學(xué)習(xí)特定的模態(tài)信息,解決跨模態(tài)的差異問題。然后進一步利用共享層將這些特定的模態(tài)信息嵌入到一個共同的空間中,學(xué)習(xí)一個多模態(tài)的可共享空間來彌補兩個異質(zhì)模態(tài)之間的差距。
為學(xué)習(xí)兩種模態(tài)的不同特征,以往的行人重識別方法通常只采用最低級的特征來提取模態(tài)特定的特征模式,如只利用每個網(wǎng)絡(luò)中淺卷積塊stage0的輸出。雖然采用低級特征提取模態(tài)特定特征模式非常有用,然而同時也會丟失一些低級特征,如紋理和顏色信息。如圖2所示,本文在網(wǎng)絡(luò)中使用stage0和stage1,通過共享前兩個卷積塊的網(wǎng)絡(luò)參數(shù),可以捕獲更多的模態(tài)特定的低級特征。此外,最后3個卷積塊的網(wǎng)絡(luò)參數(shù)對兩種模態(tài)都是共享的,以便學(xué)習(xí)模態(tài)可共享的中級特征表示。此外,在卷積層之后增加了一個共享批處理歸一化層,以學(xué)習(xí)共享特征嵌入,并采用自適應(yīng)池化。與文獻[49]中的雙流結(jié)構(gòu)相比,本文的設(shè)計通過挖掘中間卷積塊中的可共享信息來捕獲更多的鑒別性特征,而如果在更高的嵌入層中挖掘,一些鑒別性特征就會丟失。
作為對現(xiàn)有可見光?紅外行人重識別方法中全局特征學(xué)習(xí)的補充[19-20],本模塊為可見光?紅外行人重識別引入了一種新型的雙部分聚合特征學(xué)習(xí)方法,即模態(tài)內(nèi)雙加權(quán)部分聚合(見圖3)。IDWA在局部獲取長距離的上下文信息,并將各通道之間相關(guān)的語義上下文聚合起來,形成一個增強的部分聚合表示,以應(yīng)對復(fù)雜的挑戰(zhàn)。它由兩個分支組成:位置注意分支(PAB)和通道注意分支(CAB)。前者將更廣泛的上下文信息編碼到局部特征中,從而提高其表示能力;后者是為了明確建模通道之間的相互依賴性,并聚合語義相似的通道。位置注意分支中,給定來自網(wǎng)絡(luò)最后一個殘塊的特征, 其中 C=2 048代表通道維度,H和W代表特征圖大小,K代表批次大小。本文將特征圖送入全連接層和區(qū)域池結(jié)構(gòu)中,劃分為 p個非重疊部分,用Xp=表示,然后將每個部分送入1×1卷積層m(·), n(·)和 o(·)之后, 本文在 n(xpi) 和m(xpj)的轉(zhuǎn)置之間進行矩陣乘法,應(yīng)用Softmax層計算空間注意力圖∈ [0,1]p×p
圖3 IDWA模塊
其中,ai,j是指ith位置對jth位置的影響。兩個位置之間的特征代表越相似,它們之間的相關(guān)性就越大。本文的注意圖大小為 p×p,而非文獻[50-51]所采用的大小為HW×HW的像素級的注意力,這樣更有效率。通過學(xué)習(xí)到的空間注意力,注意力增強的空間特征用 o(xpi)表示,計算得到的注意力記作Ap,其計算公式為
其中αpi為局部注意力特征圖。
因此,增強的部分特征反映了不同身體部位之間的更多關(guān)系,然而,簡單的平均池化或部分特征的拼接并不總是足夠的,因為它可能會積累噪聲部分。本文使用一個可學(xué)習(xí)的加權(quán)部分聚合結(jié)構(gòu)與殘余批量規(guī)范來穩(wěn)定和加強訓(xùn)練過程,它由以下公式計算得到
其中,xo代表輸入特征圖Xp的全局自適應(yīng)池化輸出,B為批歸一化操作,而Wp代表不同部分的可學(xué)習(xí)權(quán)重向量,以處理模態(tài)差異。
通道注意分支中,深度卷積的通道圖在語義上是相關(guān)的,通常具有類別選擇性,本文建立一個通道注意分支來挖掘通道之間的相互依賴性模型,從而增強特定語義的特征表示。與位置注意力分支不同的是,本文直接由原始特征X∈RC×H×W計算出通道注意力圖Z∈RC×C,其中C為通道數(shù),H×W為特征圖大小,通道親和力矩陣Z可表示為
其中xi,j表示通道i對通道j的影響。最終輸出的特征圖E為
其中,β為調(diào)整通道注意分支影響的超參數(shù)。為充分利用遠(yuǎn)距離的上下文信息,進行逐元素[52]相加來完成特征融合,這樣就可將兩個注意分支的功能結(jié)合起來。
由于可見光?紅外行人重識別的數(shù)據(jù)集中存在較多錯誤標(biāo)注的圖像或跨可見光?紅外模態(tài)視覺差異較大的圖像對(見圖1),從而使得無法充分學(xué)習(xí)辨別性局部特征,破壞了優(yōu)化過程。在本節(jié)中,介紹跨可見光?紅外模態(tài)的結(jié)構(gòu)關(guān)系,以改善特征表示。主要思想是跨可見光?紅外模態(tài)中被識別為同一人的圖像特征表示是互利的。
圖形注意力可以衡量節(jié)點i對另一模態(tài)中節(jié)點j的重要性。本文用池化層的輸出 XO=表示輸入節(jié)點特征。 圖關(guān)注系數(shù)通過以下方式計算得到
其中,Γ(·)代表 LeakyRelu操作,(,)表示連詞運算,h(·)表示一個變換矩陣,用于將輸入節(jié)點特征維度C縮減為d的變換矩陣,在本文的實驗中設(shè)置d為256;wg∈R2d×1代表一個可學(xué)習(xí)的權(quán)重向量,用來衡量不同特征維度在串聯(lián)特征中的重要性,類似于文獻[53];Ag為規(guī)范化鄰接矩陣的無向圖,每次從N個不同的身份中隨機選擇一個,然后隨機取樣M個可見光圖像和M個紅外圖像,從而在每個訓(xùn)練批次中產(chǎn)生K=2 MN圖像。需要注意的是,將具有相同身份的上下文信息和跨兩種模態(tài)的圖像之間的關(guān)系結(jié)合起來,可以用來增強表征。
為增強圖形注意力學(xué)習(xí)的可分辨性和穩(wěn)定性,本文采用多頭注意力技術(shù),通過學(xué)習(xí)具有相同結(jié)構(gòu)的多個 hl(·) 和 wl,g(l=1,2,…,L,L 為總頭數(shù)),并分別進行優(yōu)化。將多個頭的輸出結(jié)果進行串聯(lián)后,通過如下公式得出圖結(jié)構(gòu)的注意力增強特征
其中,xig對離群樣本是穩(wěn)健的,φ為ELU激活函數(shù)。通過引入具有單頭結(jié)構(gòu)的圖形注意力層來指導(dǎo)跨模態(tài)圖形結(jié)構(gòu)的注意學(xué)習(xí)。本文采用負(fù)對數(shù)似然損失函數(shù)來進行圖的注意力學(xué)習(xí),其表達(dá)式為
損失函數(shù)在訓(xùn)練模型中起著至關(guān)重要的作用,行人重識別典型的損失函數(shù)策略是結(jié)合ID損失和Triplet損失。ID損失可以監(jiān)督模型進行人物分類,而Triplet損失可以讓模型分辨出不重要的特征差異。除了ID損失和Triplet損失,中心損失也被應(yīng)用于本文的損失函數(shù)中[54-55]。整個損失函數(shù)可以表述為
在這個多損失函數(shù)中,Cross Entropy通常被用作分類問題的ID損失。在全連接層和含有softmax函數(shù)的層之后,輸出向量是不同類別的概率,用q表示,而這個特征事實上屬于p,是獨熱向量(One Hot Vector)。 Cross Entropy可表述為
其中k為類的數(shù)量。最小化Cross Entropy可使預(yù)測的概率接近于真實情況。在本文的訓(xùn)練策略中,對于一個小批次,有不同的ID,每個ID有幾個邊界框圖像。因此,Triplet Loss和Center loss用來約束訓(xùn)練期間的特征距離。本文使用加權(quán)的Triplet Loss,有
其中,(i,j,k)代表每個訓(xùn)練批次中挖掘到的硬三聯(lián)體損失;p為相應(yīng)的正集,n為負(fù)集。上述加權(quán)正則化優(yōu)化了正集和負(fù)集對之間的相對距離,避免了引入任何額外的剩余參數(shù)。中心損失Lc通過學(xué)習(xí)每個ID的聚類中心,使類內(nèi)距離更加緊湊,其公式為
其中cyi表示類yi的特征中心。為將上述提出的模式內(nèi)加權(quán)部分注意力和跨模式圖結(jié)構(gòu)化注意力納入端到端的聯(lián)合學(xué)習(xí)框架,本文引入了動態(tài)聚合學(xué)習(xí)策略,自適應(yīng)地整合上述介紹的兩個部分。此外,本文將整個框架劃分為兩個不同的任務(wù),即實例級的局部加權(quán)特征學(xué)習(xí)Lp和圖級的全局特征學(xué)習(xí)Lg,Lp表示為
其中,p(yi|)表示將正確分類到真實標(biāo)簽yi的概率,第2項代表模態(tài)內(nèi)加權(quán)部分注意力的實例級部分聚合特征學(xué)習(xí),它由聚合部分特征x?上的身份損失制定的。
本文的基本思路是將實例層面的部分聚合特征學(xué)習(xí)Lp作為主導(dǎo)損失,然后逐步加入圖層面的全局特征學(xué)習(xí)損失Lg進行優(yōu)化。這樣做的主要原因是,在早期階段學(xué)習(xí)實例級的特征表示Lp比較容易。在學(xué)習(xí)到較好的網(wǎng)絡(luò)后,圖層面的全局特征學(xué)習(xí)利用兩種模式下人像之間的關(guān)系來優(yōu)化特征,最終的損失函數(shù)為
圖4 三注意力聚合網(wǎng)絡(luò)
在本節(jié)中,主要在兩個標(biāo)準(zhǔn)的可見光?紅外行人重識別數(shù)據(jù)集上評估本文提出的模型,它們分別為SYSU?MM01[44]和 RegDB[56]。
數(shù)據(jù)集和設(shè)置。SYSU?MM01是一個由6臺相機收集的大規(guī)模數(shù)據(jù)集,包括4臺可見光相機和2臺熱相機。這些數(shù)據(jù)集非常適用于研究人的再識別,因為有些圖像是在室內(nèi)環(huán)境下拍攝的,而有些圖像是在室外環(huán)境下拍攝的。本文采用預(yù)定義的單攝像頭全搜索模式評估協(xié)議,因為這種復(fù)雜的環(huán)境更接近實際場景。來自395人的訓(xùn)練集包含22 258張可見圖像、11 909張熱圖像;測試集包含96人,其中3 803張熱圖像用于查詢,301張可見光圖像隨機選取作為圖庫集。RegDB采用雙攝像頭設(shè)備采集,共收錄412人,每人用可見光相機采集10張可見光圖像,用熱像儀同樣采集10張熱像。本文按照文獻[37-38]中的評估方案,將數(shù)據(jù)集隨機分為兩半,一半用于訓(xùn)練,另一半用于測試。在測試中,紅外模式的圖像被用作圖庫集,而可見光模式的圖像被用作探測集。為了獲得穩(wěn)定的結(jié)果并記錄平均值,這個過程需要重復(fù)10次。
評價指標(biāo)。本文采用標(biāo)準(zhǔn)的累積匹配特性(Cumulative Matching Characteristics,CMC)曲線和平均精度(Mean Average Accuracy,mAP)來表示可見光?紅外行人重識別的性能。
實現(xiàn)設(shè)置。本文用PyTorch實現(xiàn)設(shè)計的方法。沿用現(xiàn)有的可見光?紅外行人重識別工作,采用ResNet50作為本文的骨干網(wǎng)絡(luò)進行公平比較[57],遵循文獻[58]的參數(shù)設(shè)置。淺卷積塊stage0和殘差卷積塊stage1的參數(shù)是因模式不同而不同,而后3個卷積塊的參數(shù)是共享的。本文將位置注意分支和通道注意分支結(jié)合起來,以獲得長距離的特征圖,將最后一個卷積塊步長從2設(shè)置為1后,能得到細(xì)粒度的特征圖。在數(shù)據(jù)論證中采用了隨機裁剪的方式,首先將圖像的大小調(diào)整為288×144,利用 SGD優(yōu)化器進行優(yōu)化,動量參數(shù)設(shè)置為0.9。在預(yù)熱策略中,本文將初始學(xué)習(xí)率設(shè)置為0.1[59],學(xué)習(xí)率在第30個歷時中衰減0.1,然后在第80個歷時中衰減0.01,總共有80個訓(xùn)練歷時。默認(rèn)情況下,本文隨機選取8個ID,然后隨機選取4張可見光圖像和4張紅外圖像制定一個訓(xùn)練批次。本文在式(15)中設(shè)置P=3,在式(10)中設(shè)置 L=4。
各組件的消解研究評價。本節(jié)評估各組件在SYSU?MM01數(shù)據(jù)集的完全搜索和室內(nèi)搜索模式中的效果。具體來說,“B”表示Lb訓(xùn)練的雙分支網(wǎng)絡(luò)的基線結(jié)果,“P”表示模態(tài)內(nèi)加權(quán)部分的聚合,“G”表示跨模態(tài)圖結(jié)構(gòu)化注意力。
圖5顯示了不同人物圖像的特征熱圖,這表明本文的模型(B+P+G)比基線和其他組件能關(guān)注更多的判別區(qū)域。圖5中最下面一排圖片,無論視角如何變化,可以看出本文的方法可以關(guān)注到重要的區(qū)域??梢钥闯觯?)基線的有效性:使用更多的卷積塊來提取模態(tài)的具體特征,本文取得了比文獻[21-22,49]中的雙流網(wǎng)絡(luò)更好的性能;同時,從單模態(tài)行人重識別中引入的一些訓(xùn)練技巧也對該基線做出了貢獻[18]。(2)P的影響:每個模態(tài)中加權(quán)部分的聚集明顯提高了性能,這個實驗表明,學(xué)習(xí)部分級別的加權(quán)注意力特征對跨模態(tài)行人重識別是有益的。(3)G的有效性:當(dāng)本文加入跨模態(tài)圖結(jié)構(gòu)注意(B+G)時,兩個模態(tài)的人像之間的關(guān)系被利用來減少模態(tài)差異,從而提高性能。(4)雙聚合的有效性,當(dāng)兩個注意力模塊用動態(tài)雙聚合策略聚合時,性能得到進一步提高。事實表明,這兩種注意力是互利的。
圖5 每個組件在大型SYSU?MM01數(shù)據(jù)集上提取的特征圖
改進的三重?fù)p失與中心損失。本文提出的方法中使用了多重?fù)p失函數(shù),本文將ID損失、三重?fù)p失和中心損失相結(jié)合。ID損失用于提高模型的分類能力,而中心損失可以與三重?fù)p失相輔相成,使輸出的特征更具有辨別力。在實驗中,本文比較了逐步引入交叉熵?fù)p失函數(shù)Lid、改進的三元組損失Lwrt和中心損失Lc后的情況,結(jié)果如表1所示。
表1 不同損失函數(shù)的對比實驗結(jié)果 %
在本節(jié)中,將本文提出的TAANet與一些最先進 的 方 法 進 行 比 較: MAC、 D2RL[20]、 MSR[21]、eBDTR[22]、 AlignGAN[23]和 Xmodal[60]。 請 注 意,AlignGAN提出了最新的技術(shù),將特征級和像素級圖像與生成的圖像對齊[23]。Xmodal生成一個中間模態(tài),以彌補兩種模態(tài)之間的差距。本文還與其他一些工 作 進 行 了 比 較, 包 括 HPILN[36]、 EDFL[49]、AGW[58]、LZM[61]和 DDAG[62]。 在兩個公共數(shù)據(jù)集上的結(jié)果分別如表2和表3所示。
從表2結(jié)果可知:(1)使用雙流方法的網(wǎng)絡(luò)(MSR[21]、EDFL[49]、LZM[61]、DDAG[62]和本文提出的 TAANet) 普遍優(yōu)于單流網(wǎng)絡(luò)方法(Zero?Pad[15]、cmGAN[19]和 D2RL[20]),主要原因是雙流網(wǎng)絡(luò)可以充分挖掘特定模態(tài)和模態(tài)共享的特征,更適合可見光?紅外行人重識別。(2)本文提出的TAANet顯著優(yōu)于目前最先進的DDAG。相比較于DDAG采用雙注意力聚合方法,本文提出的方法可在模態(tài)內(nèi)部分和跨模態(tài)圖層面挖掘上下文信息,即可獲取更豐富的上下文和通道語義信息。
表2 在SYSU?MM01數(shù)據(jù)集中的性能比較 %
在RegDB數(shù)據(jù)集上的實驗結(jié)果(見表3)表明,TAANet對不同的查詢設(shè)置具有魯棒性。本文在一個更真實的使用場景中取得了更好的表現(xiàn),比如一個人從黑暗中走到光明的環(huán)境中(紅外到可見光),或者從良好的光線條件下走到昏暗的場景中(可見光到紅外),TAANet可以通過提取更多的模態(tài)可分特征和圖形結(jié)構(gòu)關(guān)系來學(xué)習(xí)更好的模態(tài)可分特征。
表3 在RegDB數(shù)據(jù)集中可見光紅外和紅外可見光設(shè)置上的先進性比較 %
本文為可見光?紅外行人重識別提供了一個具有可學(xué)習(xí)權(quán)重的三重注意聚合學(xué)習(xí)(TAANet)框架。TAANet的創(chuàng)新體現(xiàn)在兩個方面:其IDWA組件通過同時考慮局部和通道之間的差異和關(guān)系來增強特征表示;本文對損失函數(shù)進行了改進,利用改進后的三元組損失結(jié)合中心損失,使得每個ID類內(nèi)的距離變得更加緊湊。TAANet在各種設(shè)置上都優(yōu)于現(xiàn)有模型。此外,降低計算復(fù)雜度和增強注意力機制在跨模態(tài)訓(xùn)練中的穩(wěn)健性也很重要,這將在未來的工作中進行研究。