王鳳隨 閆 濤 劉芙蓉 錢亞萍 許 月
(安徽工程大學電氣工程學院 蕪湖 241000)
(檢測技術(shù)與節(jié)能裝置安徽省重點實驗室 蕪湖 241000)
(高端裝備先進感知與智能控制教育部重點實驗室 蕪湖 241000)
隨著計算機視覺技術(shù)的進步,創(chuàng)建無處不在的智能監(jiān)控系統(tǒng)成為可能,安裝可視攝像機和紅外攝像機能夠監(jiān)控不斷變化的環(huán)境,加強對犯罪的檢測,為公共安全提供保障。該技術(shù)關(guān)鍵在于跨越不同的攝像機來匹配相同身份的行人圖像。然而,大多數(shù)現(xiàn)有行人重識別(Re-IDentification, Re-ID)技術(shù)只關(guān)注在白天或者在光線充足的場景中用可見光譜攝像機來搜集可見光RGB(Red Green Blue)圖像,專注于RGB圖像的匹配,例如文獻[1-3],這就具有很大的局限性。夜晚進行犯罪活動等違法行為時,很難用可見光譜的攝像機來進行識別。但是現(xiàn)在大多數(shù)監(jiān)控攝像頭可以在夜間捕捉紅外(Infrared, IR)圖像,這就可以為跨模態(tài)的相關(guān)任務(wù)提供可用的信息。在這種情況下,傳統(tǒng)的Re-ID技術(shù)不能解決這種問題,因為RGB圖像和IR圖像具有巨大的差異性。具體來說,紅外圖像缺少顏色信息,而RGB圖像具有豐富的顏色信息。
為解決這一問題,Chen等人[4]提出了一種新穎的攝像機協(xié)同關(guān)系感知特定視角下的特征增強框架,解決復雜場景下行人重識別問題。隨后,更多關(guān)注跨模態(tài)可共享全局特征的工作來理模態(tài)差異。Y e 等人[5]提出了一種雙流網(wǎng)絡(luò)架構(gòu)T O N E(TwO-stream CNN NEtwork),該方法同樣是關(guān)注全局特征來擴大特征的類間差異。同時,Dai等人[6]采用生成對抗網(wǎng)絡(luò)的方法來生成不同模態(tài)下的圖像,提出了一種交叉模式生成對抗網(wǎng)絡(luò)(cross-modality Generative Adversarial Network, cmGAN),該網(wǎng)絡(luò)可以學習模態(tài)不變的特征表示。這些方法都是通過全局特征進行學習,但是全局特征往往對背景雜波敏感,不能很好地處理模態(tài)的差異。因此,基于這種缺陷,Ye等人[7]提出了一種非局部注意力成分來恢復圖像的部分信息。Zhu等人[8]提出了一種雙流局部特征網(wǎng)絡(luò)(Two-Stream Local Feature Network, TSLFN),該方法通過在特征提取模塊中不采用下采樣操作來擴大局部特征的感受野,但僅僅也只是關(guān)注到了局部的細粒度信息,從而忽略了全局的粗粒度信息,沒有嘗試全局與局部特征的多粒度特征融合。
針對上述問題,受Wang等人[9]在單模態(tài)下提出的多粒度網(wǎng)絡(luò)的啟發(fā),本文提出了一種針對跨模態(tài)端到端的特征學習策略,該策略集成了不同粒度的判別信息。設(shè)計了一種新的多粒度共享特征融合(Multiple-granularity Shared Feature Fusion,MSFF)網(wǎng)絡(luò),所提MSFF框架旨在學習兩種模態(tài)共享的全局和局部特征表示,是一種多分支網(wǎng)絡(luò)體系結(jié)構(gòu)。在框架中,采用一個全局特征表示的分支和兩個用于局部特征表示的分支組成。本文將只有一個完整的全局信息看作最粗糙的信息,隨著分塊的增加,局部的部分特征可以更多地集中在每個分塊中更精細的判別信息上,如圖1所示,行人身份從粗粒度信息到細粒度信息劃分的越來越詳細,更多有用信息被捕捉到。
圖1 行人從粗粒度到細粒度開始詳細劃分
此外,本文在骨干網(wǎng)絡(luò)中設(shè)計了子空間共享特征模塊,將來自不同模態(tài)的特征信息對齊投影到同一子空間中,共享更多權(quán)值,使網(wǎng)絡(luò)提取更有效的共享特征,同時有利于損失函數(shù)進行約束,來擴大特征類間差異和提高類內(nèi)跨模態(tài)相似性。在公共數(shù)據(jù)集上進行了一系列的實驗,實驗結(jié)果表明本文所提MSFF網(wǎng)絡(luò)框架有著優(yōu)越的性能。本文主要貢獻如下:
(1)本文提出了一種新的MSFF網(wǎng)絡(luò)結(jié)構(gòu)框架,該框架結(jié)合了全局和局部特征來學習兩種模態(tài)的不同粒度表示,共同學習圖像的多尺度信息,最后形成更強的特征描述符。
(2)提出了一種子空間共享特征模塊,在該模塊中將兩種模態(tài)各自的特征提前映射到同一子空間中,使骨干網(wǎng)絡(luò)共享更多的權(quán)重參數(shù),提取更有效的共享特征,同時有利于損失函數(shù)更好地監(jiān)督約束網(wǎng)絡(luò),實現(xiàn)擴大類間的差異和提高類內(nèi)相似性。
(3)在兩個公共的數(shù)據(jù)集上進行實驗表明,該網(wǎng)絡(luò)框架具有很好的性能和可靠性。
單模態(tài)行人重識別中,一種經(jīng)典的方法是文獻[10]中將局部特征進行切片與LSTM(Long Short Term Memory)網(wǎng)絡(luò)合并,并與從分類度量學習中學習的全局特征相結(jié)合。在文獻[9]中特征被連接表示身體的局部結(jié)構(gòu)和全身結(jié)構(gòu),行人身體的結(jié)構(gòu)是行人固有的屬性,該結(jié)構(gòu)的表示不隨著模態(tài)的變化而改變,所以行人身體結(jié)構(gòu)信息是跨模態(tài)中共享的?;谶@一特性本文提出了適用于跨模態(tài)的MSFF網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,包含多尺度特征提取模塊和特征嵌入模塊。
圖2 本文算法整體網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)由兩條路徑(可見光路徑和紅外路徑)組成,分別從兩種模態(tài)中提取信息,在每條路徑中采用ResNet-50作為本文的骨干網(wǎng)絡(luò)[11],不同之處在于,在骨干網(wǎng)絡(luò)的第3層之后又分為3個獨立的分支,提取圖像的全局和局部特征。
表1列出了這些分支的結(jié)構(gòu)設(shè)置,第1個分支中,骨干網(wǎng)絡(luò)的第3層之后采用下采樣,在相應(yīng)的輸出特征圖中我們采用全局最大池化操作[12],該分支中沒有任何分區(qū)信息的情況下學習全局特征表示,該分支命名為全局分支(Part-global)。然后,采用全連接層(Fully Connected, FC)來進行特征向量的降維。對于FC層,采用一個Leaky ReLU(Rectified Linear Units)激活層和一個批處理歸一化層[13],使特征維度由2048減少到512。第2個分支中,采用與全局分支相似的網(wǎng)絡(luò)結(jié)構(gòu),與全局分支不同在于,骨干網(wǎng)絡(luò)的第3層之后沒有采用下采樣操作,為局部特征擴大感受野,豐富特征粒度,該部分作為第2個分支的全局特征。同時分支輸出特征映射在水平方向上被均勻地分割成兩個部分,兩部分別表示行人的上半身和下半身,作為第2個分支的局部特征。在該分支中得到這些特征向量之后,執(zhí)行與全局分支相同以上操作來學習全局和局部特征,該分支命名為Part-1。第3個分支中,與第2個分支具有相同的網(wǎng)絡(luò)架構(gòu),不同的是將輸出的特征映射在水平上均勻地分為3部分,表示行人的頭部,上半身和下半身。得到這些特征條帶之后執(zhí)行和Part-global, Part-1相同的操作,該分支命名為Part-2。
表1 網(wǎng)絡(luò)3個分支的結(jié)構(gòu)設(shè)置
子空間共享特征模塊旨在骨干網(wǎng)絡(luò)中提前共享兩種模態(tài)更多特征,首先可見光圖像xiRGB和紅外圖像xiIR分批次的輸送到雙流網(wǎng)絡(luò)中提取各模態(tài)特定的特征,然后經(jīng)過子空間共享特征模塊將兩種模態(tài)特征對齊并映射到同一子空間中,使網(wǎng)絡(luò)產(chǎn)生更豐富的共享權(quán)值,本文采用在骨干網(wǎng)絡(luò)的第4層加入了子空間共享特征模塊,表述為
其中,yiRGB?RC×H×W和yiIR?RC×H×W分別為經(jīng)過雙流網(wǎng)絡(luò)得到模態(tài)特定特征的可見光圖像和紅外圖像的特征圖,其中C表示通道數(shù)目,H和W表示圖片的長和寬。feat表示提取兩種模態(tài)特定特征支路。cat用于連接兩種模態(tài)的對齊特征,將連接起來的對齊特征投影到同一子空間中。Conv表示將子空間的對齊特征進行卷積。Yi表示經(jīng)過骨干網(wǎng)絡(luò)得到的兩種模態(tài)共享特征。
在測試階段,根據(jù)模態(tài)將圖像輸入到相應(yīng)的分支中。然后,將特征向量進行L2歸一化。最后,所有的特征向量連接起來形成最后的特征描述符,訓練好的模型測試過程中,給定一個探針圖像,提取所有異質(zhì)圖庫圖像的特征描述符,接下來根據(jù)探針和所有圖庫圖像的歐氏距離對圖庫圖像進行排序,異類的類內(nèi)圖像最高的相似性。
特征嵌入模塊是用損失函數(shù)來約束網(wǎng)絡(luò)學習的特征表示,從而擴大類間的差異和提高類內(nèi)跨模態(tài)的相似性,所以采用交叉熵損失和異質(zhì)中心損失(Hetero Center Loss, HC Loss)聯(lián)合對網(wǎng)絡(luò)進行監(jiān)督。對于交叉熵損失,將全局和局部特征向量輸入到分類器中,該分類器由全連接(FC)層和softmax激活層組成。本文有8個特征向量輸入到8個獨立參數(shù)的分類器中,分類器預測每一個特征向量的身份。在每一個分支中,根據(jù)分類器的預測值和圖像的身份標簽來計算交叉熵損失。對于異質(zhì)中心損失,在進行計算時要先經(jīng)過L2歸一化。最后,各個分支的損失在訓練階段用來更新相應(yīng)的參數(shù)。
在跨模態(tài)行人圖像中,行人的身體結(jié)構(gòu)是行人固有的屬性,屬于模態(tài)共享信息,不隨著模態(tài)的變化而變化,而對于行人的衣服顏色等屬于模態(tài)的特定信息,這種特定模態(tài)的信息會降低相同身份的兩個異質(zhì)樣本的相似性。這就需要相應(yīng)的損失函數(shù)來監(jiān)督網(wǎng)絡(luò)學習到特定的信息。以往跨模態(tài)行人重識別方法中,采用交叉熵損失(Cross Entropy Loss,CE Loss)和3元組損失(Triplet Loss),對于交叉熵損失是用來刻畫實際輸出與期望輸出的距離,主要用來行人身份的分類。對于3元組損失用于擴大類間差異和提高類內(nèi)相似性。但是3元組損失不能很好地監(jiān)督網(wǎng)絡(luò)提取模態(tài)共享信息。所以,本文采用CE Loss和HC Loss聯(lián)合監(jiān)督的方法來監(jiān)督網(wǎng)絡(luò),對于CE Loss計算公式為
其中,K表示批次的大小,xi表示第yi類中第i個樣本提取的特征,Wj表示權(quán)重的第j列權(quán)重,b表示偏差項。從交叉熵損失公式可知,交叉熵損失的目的是提取特定的身份進行分類,所以在對行人特定信息(如行人衣服顏色)預測真實標簽時能夠監(jiān)督網(wǎng)絡(luò)提取,來形成描述符。本文采用CE Loss作為ID損失,而對于模態(tài)共享的信息交叉熵損失不能起到約束網(wǎng)絡(luò)的作用。
因此對于模態(tài)共享的信息采用HC Loss來監(jiān)督,HC Loss具有很強的聚類能力,能夠約束兩個模態(tài)特征分布之間的中心距離,提高類內(nèi)跨模態(tài)的相似性。HC Loss計算如式(5)所示
由于HC Loss僅約束圖庫圖像各類的中心損失來提高類內(nèi)的相似性,所以不能單獨用來監(jiān)督網(wǎng)絡(luò)來擴大類間的相似性。本文采用文獻[8]的損失函數(shù)監(jiān)督策略來監(jiān)督本文設(shè)計的網(wǎng)絡(luò),用CE Loss和HC Loss聯(lián)合監(jiān)督的方法來實現(xiàn)跨模態(tài)行人再識別的任務(wù)。在整個優(yōu)化階段實現(xiàn)端到端的訓練,在每個小批次中,總的損失函數(shù)表述如式(7)所示
本文在兩個公開的跨模態(tài)數(shù)據(jù)集SYSU-MM01[14]和RegDB[15]上進行了一系列實驗來評估所提方法的有效性。SYSU-MM01是由中山大學采集的第1個跨模態(tài)行人重識別領(lǐng)域的大型數(shù)據(jù)集,如圖3所示,這些圖像在不同的攝像機之間和不同的模態(tài)、光照、環(huán)境、人的體態(tài)之間呈現(xiàn)出很大差異。它包括了287628張RGB圖像,15792張IR圖像,其中對應(yīng)491個不同身份的行人,這些圖像是由6臺攝像機拍攝收集的,其中包括4臺可見光攝像頭和2臺紅外攝像頭,攝像機位于室內(nèi)和室外環(huán)境中。Camera 1, Camera 2,Camera 4, Camera 5為可見光攝像頭,Camera 3, Camera 6為紅外攝像頭。該數(shù)據(jù)集包含的491個身份的行人中,每個身份至少由1個可見攝像機和1個紅外攝像機捕捉。
圖3 SYSU-MM01數(shù)據(jù)集中示例圖像
評估方案實驗,采用文獻[16,17]將數(shù)據(jù)集隨機分為兩部分,一部分用于訓練,一部分用于測試。訓練集包含395個身份的22258幅可見光圖像和11909幅紅外圖像。測試集包含了可見光圖像和對應(yīng)于95個身份的紅外圖像。在測試階段,紅外圖像用作為探針圖像,來搜索出測試集中的RGB圖像。測試模式分為兩種,第1種是全搜索模式,包括使用所有的攝像頭;第2種模式是室內(nèi)搜索模式,使用室內(nèi)的攝像機采集圖庫圖像。全搜索模式由于場景復雜多樣性比室內(nèi)搜索模式更加困難,而室內(nèi)搜索模式更接近于理想狀態(tài),能更好地評估跨模態(tài)網(wǎng)絡(luò)的檢索性能。對于兩種搜索模式下還設(shè)置了單鏡頭(Singlehot)和多鏡頭(Multi-hot),這兩種模式的區(qū)別在于構(gòu)成圖庫集時每個身份的圖像量。在單鏡頭設(shè)置中,隨機為每個身份選擇一個圖像來構(gòu)建圖庫,而在多鏡頭設(shè)置中,每個身份包含圖庫集中10個圖像。
評估指標采用文獻[17]中CMC、平均精度mAP作為評估標準;CMC表示第n次命中概率,即R-n (Rank n)表示搜索結(jié)果最靠前的n張圖片的準確率,當n=1,10,20時即計算測試集中前1,10,20張與查詢集中圖片相似度排序后為同一標簽的準確率。mAP如式(8)所示,APi表示類別的平均精度,C表示類別的個數(shù)。每個實驗用隨機測試集重復10次,以獲得平均性能。
本文實驗環(huán)境配置為顯卡GeForce RTX 2080ti, CPU為I9-10900k, 64 bit Ubuntu 16.04系統(tǒng),CUDA10.0, Pytorch1.2。行人圖像預處理成384×128大小;數(shù)據(jù)增廣策略采用對圖像進行隨機旋轉(zhuǎn)和剪裁;batch size大小設(shè)置為16;1個批次中行人身份數(shù)量設(shè)置為4,所以在每個批次中,每個身份包含4個RGB圖像和4個紅外圖像。網(wǎng)絡(luò)輸出3個分支的特征圖中每個條帶的輸出維度為2048,本文采用FC層將特征維度降為512。因此,測試階段特征描述符的維數(shù)為8×512=4096。對于損失函數(shù)中λ參數(shù)設(shè)置,將λ的值設(shè)置為0.1來平衡HC損失函數(shù)。在訓練階段epoch大小設(shè)置為60;初始學習率設(shè)為0.01,前30個epoch的學習率為0.01,后30個epoch的學習率為0.001;優(yōu)化器采用動量為0.9的SGD進行優(yōu)化。
為了驗證本文算法的先進性,將所提方法與以往跨模態(tài)的先進方法進行了比較。如表2與圖4所示,比較的方法有Zero-padding[17], D2RL[19](Duallevel Discrepancy Reduction Learning), DPMBN[21](Dual-Path Multi-Branch Network), LZM[23](Local Zernike Moments), DDAG[27](Dynamic Dual-attentive AGgregation), TSLFN[8]等。其中DDAG[27]是利用注意力模塊局部分塊特征來細化樣本的表示。Xmodal[26](X Modality)是利用中間輔助模態(tài)X,將兩種模態(tài)的問題轉(zhuǎn)化為三模態(tài)問題。
圖4 在SYSU-MM01的All-search single模式下和其它方法對比
表2 在SYSU-MM01的All-search模式下和其他方法對比實驗結(jié)果(%)
cm-SSFT[28](cross-modality Shared Specific Feature Transfer)實現(xiàn)了目前跨模態(tài)行人重識別的最高性能,該方法融合了模態(tài)共享特征和模態(tài)特定特征,可以基于最近鄰傳播來自不同模態(tài)的信息,但是該方法有復雜的網(wǎng)絡(luò)結(jié)構(gòu),且需要輔助數(shù)據(jù)集,在現(xiàn)實應(yīng)用中沒有輔助數(shù)據(jù)集無法實現(xiàn)端到端的學習。對于基線TSLFN[8]網(wǎng)絡(luò)采用局部條帶的分支策略,用HC損失作為目標函數(shù)將正樣本進行拉近,更加關(guān)注局部信息。
從表2和表3可以很清晰地看出在SYSU-MM01和RegDB兩個數(shù)據(jù)集上所提出方法性能的優(yōu)越性,在所有的搜索模式下都優(yōu)于基線網(wǎng)絡(luò)。表中最后一行展示了本文方法的CMC和mAP,即使在最困難的模式下,即全搜索單鏡頭模式下,本文方法在R-1, R-10, R-20分別超過了基線網(wǎng)絡(luò)TSLFN方法2.97%, 2.18%, 0.85%,mAP的性能上提高了5.67%。其中“-”表示原論文中沒有報告的結(jié)果。
表3 在RegDB數(shù)據(jù)集和其它方法對比實驗結(jié)果(%)
本文在SYSU-MM01數(shù)據(jù)集單鏡頭全搜索模式下進行了一系列消融實驗,來證明MSFF網(wǎng)絡(luò)各個分支的有效性。在每個對比實驗中,參數(shù)設(shè)置為相同,因為本文網(wǎng)絡(luò)有3個分支,在消融實驗過程中采用依次刪除子空間共享特征模塊、Part-global,Part-1, Part-2分支分別訓練,驗證該模塊和分支是否在網(wǎng)絡(luò)中缺一不可。
如表4所示,其中P表示刪除子空間共享特征模塊,在本文設(shè)計的MSFF網(wǎng)絡(luò)的基礎(chǔ)上進行訓練,實驗結(jié)果發(fā)現(xiàn)采用本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)框架在性能上依然相比基線(TSLFN)網(wǎng)絡(luò)要高。Pg-1表示刪除網(wǎng)絡(luò)的第1個分支(Part-global),保留子空間共享特征模塊、Part-1和Part-2分支,在刪除網(wǎng)絡(luò)中第1個全局分支之后發(fā)現(xiàn)性能下降,R-1和mAP分別下降1.3%、2.21%,可見該全局分支表示的粗粒度信息能夠被網(wǎng)絡(luò)學習到。Pg-2表示刪除第2個分支(Part-1),保留其余的模塊和分支。刪除的分支中包含一個全局特征分支和一個特征圖分成兩部分的局部特征分支,實驗結(jié)果表明在刪除的第2個分支后R-1和mAP分別下降1.3%、2.79%,相比于Pg-1下降得更明顯,這說明特征圖分為兩部分的局部特征分支在網(wǎng)絡(luò)的訓練過程中能夠?qū)W習到細粒度的有用信息,例如,行人衣服上圖案的形狀等細節(jié)特征。Pg-3表示刪除第3分支(Part-2),保留其余的模塊和分支。該部分刪除的分支中包含全局特征分支和一個特征圖分成3部分的局部特征分支,在刪除該分支后性能明顯下降,R-1和mAP分別下降5.49%, 5.34%。充分體現(xiàn)出第3分支的重要性,既能學習到行人粗糙的全身信息又能學習到行人各個部位的細粒度信息。MSFF表示保留網(wǎng)絡(luò)中各個模塊和分支的完整結(jié)構(gòu)。
表4 網(wǎng)絡(luò)各個模塊在SYSU-MM01數(shù)據(jù)集All-search single模式下實驗結(jié)果(%)
通過上述消融實驗結(jié)果能夠看出網(wǎng)絡(luò)中的這些局部特征在性能上有很大的提升,有了更細粒度的信息之后能夠得到更好的結(jié)果,通過將特征圖分割成若干塊,該模型能更加集中行人樣本中的細節(jié)信息,獲得更高的精度。局部特征的方法驗證了行人局部特征能提供豐富的匹配線索信息。另外,也證實了局部特征和全局特征結(jié)合的有效性,在MSFF網(wǎng)絡(luò)框架形成的最終描述符中結(jié)合了局部特征和全局特征,顯著提升性能。局部特征提供細粒度的信息,而全局特征補充整體行人特征表示。
本節(jié)進行了一系列實驗來研究總損失函數(shù)中參數(shù)λ的影響。參數(shù)λ影響總損失函數(shù)中HC Loss所占權(quán)重,λ的值以0.1為區(qū)間,從0.1到0.5進行實驗。圖5(a)所示在全搜索單鏡頭模式下,不同λ的值在SYSU-MM01數(shù)據(jù)集上的性能。觀察到λ的最佳值是0.1,隨著λ的增加,mAP的性能逐漸下降,網(wǎng)絡(luò)收斂速度降低,當λ取0.3, 0.4, 0.5時網(wǎng)絡(luò)甚至不收斂。分析得出可能是因為兩種模態(tài)的共享信息不夠,使得網(wǎng)絡(luò)無法將兩種模態(tài)的中心距離拉的更近,不能在正確的方向上優(yōu)化HC Loss,導致過擬合。
為驗證子空間共享特征模塊在骨干網(wǎng)絡(luò)中位置的影響,分別將該模塊依次加入到骨干網(wǎng)絡(luò)中,如圖5(b)所示在SYSU-MM01數(shù)據(jù)集全搜索單鏡頭模式下,該模塊在MSFF網(wǎng)絡(luò)中不同位置的性能實驗結(jié)果。其中橫坐標表示依次加入到骨干網(wǎng)絡(luò)第2層、第3層和第4層,F(xiàn)C表示不在骨干網(wǎng)絡(luò)中加入子空間共享特征層,而是在網(wǎng)絡(luò)最終層之后全連接層共享特征,使兩種模態(tài)有更多的單獨層提取各自特定的特征。實驗發(fā)現(xiàn),在骨干網(wǎng)絡(luò)第4層及之后加入性能最好,網(wǎng)絡(luò)的最終層之前更多的單獨層可以生成更多的異構(gòu)特征,在損失函數(shù)的約束下擴大不同模態(tài)的類間差異。但是過多的單獨層使得兩種模態(tài)的共享特征信息不夠,不利于提高不同模態(tài)的類內(nèi)相似性。同時,過多的共享特征層會使得異構(gòu)特征信息不夠,導致?lián)p失函數(shù)優(yōu)化過程的低效性。
圖5 不同λ和子空間共享特征模塊在MSFF網(wǎng)絡(luò)中不同位置的性能實驗結(jié)果
本文針對跨模態(tài)行人重識別提出了一種新的多粒度共享特征融合網(wǎng)絡(luò)(MSFF),該網(wǎng)絡(luò)是一種新的多分支深度網(wǎng)絡(luò),從跨模態(tài)圖像中學習局部和全局特征的區(qū)別性表示,不引入局部注意力或姿勢估計等區(qū)域定位的方法,實現(xiàn)完全的端到端。此外,本文還提出了子空間共享特征模塊,用于網(wǎng)絡(luò)提取更有效的模態(tài)共享特征,在CE損失和HC損失聯(lián)合監(jiān)督約束下,實現(xiàn)跨模態(tài)行人重識別重要的目標,擴大類間的差距和提高類內(nèi)相似性。在兩個公共數(shù)據(jù)集上,進行了消融實驗以及與現(xiàn)有的先進方法進行比對實驗,充分驗證了所提方法的先進性,具有更好的魯棒性和識別精度,為該領(lǐng)域提供了簡單有效的思路。