朱松豪,呂址涵
(南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210023)
隨著人工智能技術(shù)和深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,視頻監(jiān)控技術(shù)已經(jīng)成為交通監(jiān)控、火災(zāi)報(bào)警、犯罪檢測(cè)等社會(huì)保障系統(tǒng)的基本工具[1-3]。 行人重識(shí)別是視頻監(jiān)控中的一項(xiàng)具有挑戰(zhàn)性的任務(wù),其目的是通過(guò)多個(gè)不重疊的監(jiān)控?cái)z像頭檢索目標(biāo)行人[4-5]。 由于其在智能視頻監(jiān)控中的廣泛應(yīng)用,該任務(wù)近年來(lái)受到越來(lái)越多的關(guān)注[6]。 由于光照、拍攝角度、行人姿態(tài)、圖像分辨率和遮擋等復(fù)雜變化使得其在實(shí)際場(chǎng)景中的應(yīng)用困難重重[7-8]。 現(xiàn)有的行人重識(shí)別方法主要針對(duì)RGB 攝相機(jī)拍攝的行人圖像,這些方法依賴于行人的外觀和色彩信息進(jìn)行跨攝像頭匹配[9-11]。 然而,在某些情況下,過(guò)度依賴光照條件會(huì)降低精度。 例如,在夜間或光照不足的情況下,大多數(shù)RGB 攝像頭無(wú)法獲取清晰的圖像,這種情況下傳統(tǒng)的可見光?可見光行人重識(shí)別效果未能達(dá)到預(yù)期效果。 因此,紅外?可見光行人重識(shí)別研究日益獲得更多關(guān)注[12]。
紅外?可見光行人重識(shí)別用以匹配不同光譜相機(jī)拍攝的同一行人。 與傳統(tǒng)的僅包含類內(nèi)差異的可見光?可見光行人重識(shí)別相比,紅外?可見光行人重識(shí)別還包含不同光譜相機(jī)所導(dǎo)致的模態(tài)差異。 RGB圖像包含3 個(gè)通道信息,而紅外圖像只包含一個(gè)通道信息,因此紅外圖像也可以認(rèn)為是異質(zhì)圖像。 由圖1 所示的跨模態(tài)行人重識(shí)別的示例圖片可知,RGB 圖像具有豐富的顏色信息,而紅外圖像缺乏關(guān)鍵的顏色信息,對(duì)行人匹配造成了極大的阻礙;同時(shí),RGB 圖像中的行人姿態(tài)、衣著等易于識(shí)別,而紅外圖像只有模糊的行人輪廓,且衣著等信息大量流失;此外,紅外?可見光行人重識(shí)別也會(huì)出現(xiàn)傳統(tǒng)行人重識(shí)別中存在的光照、姿態(tài)和遮擋等問(wèn)題[13-14]。
圖1 來(lái)自兩個(gè)紅外?可見光行人重識(shí)別數(shù)據(jù)集(SYSU?MM01 和RegDB)的示例圖像(其中每一列中的圖像來(lái)自同一個(gè)行人,第一排圖像為RGB 相機(jī)拍攝到的行人圖像,第二排圖像為紅外相機(jī)拍攝到的行人圖像)
近年來(lái),有研究人員提出了許多方法用以解決跨模態(tài)間的差異[15-16]。 文獻(xiàn)[9]提出用于跨模態(tài)行人重識(shí)別的SYSU?MM01 數(shù)據(jù)集;同時(shí)還提出了深度補(bǔ)零的網(wǎng)絡(luò)訓(xùn)練方法,提高了行人重識(shí)別效果。文獻(xiàn)[10]提出在RGB 和紅外兩條路徑中引入自監(jiān)督學(xué)習(xí)的圖像生成器,該圖像生成器可引導(dǎo)跨模態(tài)信息的交流,提升行人重識(shí)別效果。 文獻(xiàn)[11]提出了用于減少態(tài)差異和外觀差異的行人重識(shí)別方法:針對(duì)模態(tài)差異,該方法通過(guò)圖像級(jí)子網(wǎng)絡(luò)實(shí)現(xiàn)RGB和紅外圖像的模態(tài)轉(zhuǎn)換;針對(duì)外觀差異,該方法通過(guò)圖像級(jí)子網(wǎng)絡(luò)實(shí)現(xiàn)不同模態(tài)下行人特征的聯(lián)合表示。 文獻(xiàn)[17]提出了基于對(duì)稱網(wǎng)絡(luò)的跨模態(tài)行人重識(shí)別算法,該算法通過(guò)對(duì)稱網(wǎng)絡(luò)產(chǎn)生模態(tài)不變特征,從而達(dá)到模態(tài)混淆的目的;同時(shí)使用不同隱藏層的卷積特征構(gòu)造混合三元損失,提高網(wǎng)絡(luò)的特征表征能力。
本文提出了一個(gè)混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)利用提出的整體約束和部分三元組?中心損失函數(shù)減少模態(tài)差異。 其中,混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)用于平衡不同模態(tài)對(duì)特定共有特征的模態(tài)表征,從而有效提高網(wǎng)絡(luò)模型的整體性能;整體約束和部分三元組?中心損失函數(shù)分別用于減少不同模態(tài)和同一模態(tài)的差異。 具體而言,混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)首先利用主干網(wǎng)絡(luò)均為ResNet50[18]的RGB 分支和紅外分支,分別提取不同模態(tài)下的行人信息,并利用平均池化層將提取到的特征從上到下均勻劃分為p條水平部件;然后,將水平切割特征投影至公共空間,并輸出模態(tài)特定特征和模態(tài)共有特征的聯(lián)合表示;最后,利用模態(tài)特定身份損失、交叉熵?fù)p失以及提出的整體約束和部分三元組?中心損失對(duì)聯(lián)合特征進(jìn)行混合和交叉,通過(guò)模態(tài)距離約束獲得最佳識(shí)別性能。 提出的整體約束和部分三元組?中心損失旨在減少同一模態(tài)下的類間距離,擴(kuò)大同一模態(tài)下的類內(nèi)距離,并同步不同模態(tài)下的類間距離。 該損失函數(shù)首先從整體上約束不同模態(tài)間的距離,從而減小RGB 和紅外模態(tài)間的差異;其次,該損失函數(shù)通過(guò)結(jié)合三元組損失和中心損失,分別學(xué)習(xí)RGB 模態(tài)和紅外模態(tài)的中心,以使同一類別樣本更為接近類別中心,同時(shí)遠(yuǎn)離其他類別中心,從而改善模態(tài)類內(nèi)差異。 將這兩類損失相結(jié)合可有效減小模態(tài)差異,獲得滿意的識(shí)別性能。 本文方法的主要貢獻(xiàn)如下:
(1) 提出了一種新穎的混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)(HCDFL)結(jié)構(gòu),它從兩種不同的模態(tài)中深度提取局部行人特征。
(2) 提出了一種新穎的整體約束和部分三元組?中心損失,該函數(shù)分別從不同模態(tài)和同一模態(tài)兩方面改善了類間和類內(nèi)差異,提高了整體識(shí)別性能。
(3) 在兩個(gè)公開的紅外?可見光行人重識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),得到了優(yōu)良的性能。
可見光?可見光行人重識(shí)別主要解決不重疊視頻監(jiān)控?cái)z像機(jī)間同一行人的檢索問(wèn)題[19-20],該項(xiàng)任務(wù)的主要挑戰(zhàn)來(lái)自于視角、背景和照明帶來(lái)的類內(nèi)變化[21-23]。 特征表示學(xué)習(xí)、度量學(xué)習(xí)和深度學(xué)習(xí)是可見光-可見光行人重識(shí)別算法的主要方法[24-26],其中特征表示學(xué)習(xí)方法將行人重識(shí)別任務(wù)作為一個(gè)分類問(wèn)題,而非直接考慮圖像間的相似性。 文獻(xiàn)[27]提出基于像素層次的特征描述子,該描述子可很好地表征像素特征的均值和協(xié)方差信息。 與特征表示學(xué)習(xí)不同,度量學(xué)習(xí)的目的是直接通過(guò)網(wǎng)絡(luò)學(xué)習(xí)兩幅圖像的相似度。 文獻(xiàn)[28]提出一種鏡像表示模式,該模式為特定視圖嵌入特征變換,并對(duì)同一行人的不同視圖的特征分布進(jìn)行對(duì)齊。 深度學(xué)習(xí)是近年來(lái)研究的熱點(diǎn),文獻(xiàn)[29]設(shè)計(jì)了一種新的三元組損失,同時(shí)對(duì)比分析了網(wǎng)絡(luò)模型的預(yù)訓(xùn)練。 為解決背景偏置問(wèn)題,文獻(xiàn)[30]提出了一種基于人體分析圖的人?區(qū)域引導(dǎo)的池化深度神經(jīng)網(wǎng)絡(luò),以學(xué)習(xí)更多的判別特征,并利用隨機(jī)背景與人圖像增強(qiáng)來(lái)訓(xùn)練數(shù)據(jù)。
紅外?可見光行人重識(shí)別問(wèn)題匹配不同光譜相機(jī)捕獲的跨模態(tài)行人圖像,是傳統(tǒng)的行人重識(shí)別技術(shù)的擴(kuò)展。 由于夜間頻發(fā)人口走失和其他犯罪事件,因此其在刑偵應(yīng)用中非常重要。 Cai 等[5]提出了一種包含雙模態(tài)硬挖掘三中心點(diǎn)損失的雙路徑網(wǎng)絡(luò)框架,旨在優(yōu)化類間距離,學(xué)習(xí)判別特征表示。Ye 等[12]提出了一種無(wú)參數(shù)動(dòng)態(tài)雙注意力聚集方法,該方法通過(guò)挖掘不同模態(tài)的類內(nèi)差異和跨通道上下文線索,從而避免了噪聲干擾導(dǎo)致模型性能不穩(wěn)的問(wèn)題。 Chen 等[31]研究了一種結(jié)合雙層特征搜索和可微特征搜索的方法,該方法實(shí)現(xiàn)了特征選擇過(guò)程的自動(dòng)化,大大提高了匹配精度。 陳琳等[32]提出了基于雙重屬性的跨模態(tài)行人重識(shí)別方法,該方法充分考慮了圖像和文本屬性,構(gòu)建了基于文本屬性和圖像屬性的雙重屬性空間,并通過(guò)構(gòu)建基于隱空間和屬性空間的跨模態(tài)行人重識(shí)別網(wǎng)絡(luò),提高了所提取圖文屬性的可區(qū)分性和語(yǔ)義表達(dá)性。
在以往的行人重識(shí)別研究中,損失函數(shù)一直扮演著非常重要的角色。 許多研究對(duì)損失函數(shù)進(jìn)行改進(jìn)和創(chuàng)新,為解決行人重識(shí)別問(wèn)題提供了極大的幫助。 文獻(xiàn)[33]將三元組損失應(yīng)用于行人重識(shí)別任務(wù),根據(jù)特征向量的歐氏距離確定相似度。 除此之外,論文通過(guò)對(duì)網(wǎng)絡(luò)的訓(xùn)練過(guò)程行分析,提出了一種計(jì)算效率更高的模型訓(xùn)練方法。 文獻(xiàn)[34]提出三元組?中心損失,選擇離樣本點(diǎn)最近的類內(nèi)中心和類間中心與樣本點(diǎn)形成一個(gè)三元組中心,提高了特征的區(qū)分度,使得網(wǎng)絡(luò)性能更為有效。 文獻(xiàn)[22]采用全批量三元組損失和余弦softmax 損失三重?fù)p失統(tǒng)一度量,用以提高模型性能。 文獻(xiàn)[35]基于跨模態(tài)行人重識(shí)別中存在的模態(tài)間變化及模態(tài)內(nèi)變化的問(wèn)題,設(shè)計(jì)了模態(tài)間三元組損失、模態(tài)內(nèi)三元組損失以及全局三元組損失,進(jìn)一步提高了識(shí)別精度。 文獻(xiàn)[36]引入了改進(jìn)的三元組損失并結(jié)合中心損失,該損失函數(shù)使得不同類之間可以保持一定的距離并提高特征的區(qū)分度并且增強(qiáng)了對(duì)噪聲樣本的魯棒性。
本節(jié)首先描述提出的總體框架,其次詳細(xì)介紹提出的混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò),最后介紹提出的整體約束和部分三元組?中心損失。
本文提出了一種帶有整體約束和部分三元組?中心損失的混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)來(lái)解決紅外?可見光行人重識(shí)別任務(wù)。 該網(wǎng)絡(luò)模型包含RGB分支和紅外分支。 從處理過(guò)程來(lái)看,該網(wǎng)絡(luò)包含圖像輸入、主干網(wǎng)絡(luò)和特征嵌入3 個(gè)部分。 總體而言,該框架采用分區(qū)策略,有效提取圖像局部特征,提高特征表達(dá)粒度。
受文獻(xiàn)[37-38]的啟發(fā),本文選擇水平分割策略實(shí)現(xiàn)特征提取。 首先,每個(gè)分支以ResNet50 為主干,將得到的特征表示均勻地從上到下劃分為p個(gè)水平部件,并對(duì)每個(gè)部件進(jìn)行平均池化,得到局部特征表示;其次,通過(guò)全連接層和批標(biāo)準(zhǔn)化對(duì)每個(gè)局部特征進(jìn)行降維處理,便于后續(xù)的特征識(shí)別,同時(shí)在兩種模態(tài)間建立聯(lián)系,兩個(gè)模態(tài)下的全連接層共享參數(shù);最后,在特征嵌入階段,為每個(gè)模態(tài)添加特定的身份損失,以便更好區(qū)分不同模態(tài)下的行人特征,同時(shí)加入交叉熵?fù)p失函數(shù)進(jìn)一步提高行人重識(shí)別精度。
此外,利用提出的整體約束和部分三元組?中心損失,結(jié)合不同模態(tài)下的特征。 總損失函數(shù)公式如下
對(duì)于紅外行人圖像而言,其特點(diǎn)為只包含一個(gè)不可見的電磁輻射通道,即僅包含語(yǔ)義結(jié)構(gòu)和形狀信息的單通道圖像。 相較于紅外行人圖像,RGB 行人圖像為多通道圖像,外觀信息和顏色信息通常占據(jù)高級(jí)語(yǔ)義信息的主導(dǎo)地位。 此外,由于RGB 相機(jī)和紅外相機(jī)的光譜差異,以及光線、拍攝角度等因素,RGB 和紅外圖像間存在巨大的模態(tài)差異。 因此,本文提出了混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)來(lái)學(xué)習(xí)共同的特征表示空間,以縮小兩種不同模態(tài)之間的差距。 紅外?可見光行人重識(shí)別數(shù)據(jù)集可以表示為D={V,I},其中V表示RGB 圖像,I表示紅外圖像。 由于跨模態(tài)數(shù)據(jù)包含模態(tài)特定和模態(tài)共享的信息,所以紅外?可見光行人重識(shí)別任務(wù)期望共享模態(tài)信息學(xué)習(xí)更多與身份識(shí)別相關(guān)的特征。 如圖2 所示,用于解決紅外?可見光行人重識(shí)別問(wèn)題的經(jīng)典網(wǎng)絡(luò)有兩種,一種是單流結(jié)構(gòu),另一種是雙流結(jié)構(gòu)。 圖3 給出了包括骨干網(wǎng)絡(luò)和特征嵌入的混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)框架。
圖2 兩種典型的跨模態(tài)行人重識(shí)別網(wǎng)路
圖3 本文方法的框架示意圖
本文采用雙流結(jié)構(gòu)作為基本結(jié)構(gòu),主要原因是單流結(jié)構(gòu)采用共同的特征提取網(wǎng)絡(luò),在此過(guò)程中無(wú)法準(zhǔn)確提取RGB 和紅外圖像的特征;此外,由于單流結(jié)構(gòu)共享全局參數(shù),從而導(dǎo)致行人局部特征的嚴(yán)重忽略。 在雙流結(jié)構(gòu)中,淺層網(wǎng)絡(luò)參數(shù)是單獨(dú)針對(duì)每個(gè)模態(tài)的,而深度網(wǎng)絡(luò)參數(shù)是共享的,這樣既考慮了局部特征,又考慮了全局特征,提高了識(shí)別性能。
因此,本文采用的雙流結(jié)構(gòu)包括兩個(gè)分支:RGB分支和紅外分支,分別提取不同模態(tài)圖像特征。 由于紅外?可見光行人重識(shí)別任務(wù)的訓(xùn)練數(shù)據(jù)有限,因此采用在大規(guī)模ImageNet 上預(yù)訓(xùn)練方法對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行初始化。 這里采用ResNet50 作為骨干網(wǎng)絡(luò),給定不同模態(tài)下的輸入數(shù)據(jù)D={V,I},經(jīng)過(guò)骨干網(wǎng)絡(luò)ResNet50 特征提取后分別得到其對(duì)應(yīng)的行人特征,去除最后的平均池化層及其后續(xù)結(jié)構(gòu)的網(wǎng)絡(luò),從而達(dá)到擴(kuò)大接收域面積、豐富特征粒度的目的。 特別是兩個(gè)分支均使用相同的網(wǎng)絡(luò)結(jié)構(gòu),這種設(shè)計(jì)會(huì)使得高層特征輸出更能表達(dá)高層語(yǔ)義,使特征的身份判別能力更強(qiáng)。 在特征嵌入階段,首先將行人特征水平地劃分為p個(gè)相同部件(本文p=6),用以學(xué)習(xí)兩種異構(gòu)模態(tài)間的低維嵌入空間;然后,在每個(gè)部件上使用全局池化層,得到p個(gè)2 048 維特征。 為了進(jìn)一步降低特征維度,針對(duì)每個(gè)2 048 維的部件特征采用1×1 的卷積層進(jìn)行降維操作,最終得到256 維的特征表達(dá);同時(shí),為避免梯度消失和計(jì)算內(nèi)部協(xié)變偏移,每個(gè)全連接層后面添加一個(gè)批標(biāo)準(zhǔn)化層;最后,共享層作為投影函數(shù),將兩種不同模態(tài)特征投影到共同嵌入空間,用以彌合兩種模態(tài)間的差異。 實(shí)驗(yàn)結(jié)果表明,這種共享結(jié)構(gòu)在很大程度上提高了識(shí)別精度。
在訓(xùn)練階段,結(jié)合模態(tài)特定身份損失、交叉熵?fù)p失以及提出的整體約束和部分三元組?中心損失對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,以提高識(shí)別的準(zhǔn)確性。 利用混合交叉訓(xùn)練將RGB 分支和紅外分支的聯(lián)合表示特征分為3 組,分別為部分約束、整體約束和交叉熵?fù)p失,其中的部分約束和整體約束構(gòu)成了提出的整體約束和部分三元組?中心損失函數(shù)。 在測(cè)試階段,分別提取探測(cè)圖像和圖庫(kù)圖像的特征,然后連接高維圖像特征,形成最終的特征描述子。
傳統(tǒng)的雙路徑特征學(xué)習(xí)網(wǎng)絡(luò)通過(guò)骨干網(wǎng)絡(luò)分別提取行人特征后,通過(guò)權(quán)值共享模塊將特征融合起來(lái)直接輸出。 本文提出的網(wǎng)絡(luò)將行人特征交叉組合,形成多個(gè)不同的batch 組合并聯(lián)合多重?fù)p失函數(shù)共同協(xié)作。 利用如式(1)所示的聯(lián)合協(xié)作構(gòu)建多損失函數(shù),包括模態(tài)特定身份損失、交叉熵?fù)p失、整體約束損失和部分三元組?中心損失。 這里的模態(tài)特定損失函數(shù)直接利用模態(tài)信息,保留最原始的行人特征;交叉熵?fù)p失用于識(shí)別行人身份,提取RGB和紅外模態(tài)特征組合成一個(gè)batch;在同一batch 內(nèi),RGB 圖像與紅外圖像的特征具有一致性,因此利用部分約束和整體約束分別構(gòu)建成對(duì)的batch。
由于RGB 圖像和紅外圖像中的行人特征存在很大差異,因此使用不同網(wǎng)絡(luò)獲取不同模態(tài)下的特征表示。 Softmax 損失用于預(yù)測(cè)每個(gè)模態(tài)下的行人身份,其公式可表示為
為使不同模態(tài)下同一行人的特征表征具有相似性,引入如下所示的交叉熵?fù)p失函數(shù)
式中:yi表示第i個(gè)輸入圖像的真實(shí)標(biāo)簽,即每張輸入圖像的p個(gè)部件特征共用該圖像的標(biāo)簽信息。
(1) 三元組損失。 三元組損失函數(shù)常應(yīng)用于人臉識(shí)別、行人重識(shí)別等領(lǐng)域[39]。 該損失函數(shù)不僅有縮短類內(nèi)距離的特性,并且有增大類間距離的特性;而對(duì)于紅外?可見光行人重識(shí)別任務(wù),行人圖像不僅存在同一模態(tài)中的類間距離,同時(shí)存在不同模態(tài)的類間距離。 因此三元組損失更適合于紅外?可見光行人重識(shí)別任務(wù)[37]。 三元組損失函數(shù)公式如下
式中:xi為特征表示,yi為對(duì)應(yīng)于xi的類別,cyi表示類別yi的中心,M表示最小批量,‖x‖22表示歐氏距離。 中心損失和softmax 原理如圖4(b)所示。 整體約束損失學(xué)習(xí)模態(tài)間特征的關(guān)鍵是縮小跨模態(tài)差異。 由于劇烈的視覺(jué)變化,跨模態(tài)差異可能是巨大的,這將極大降低行人重識(shí)別性能,因此需從整體上減少跨模態(tài)差異。
圖4 特征分布圖(其中的綠圓點(diǎn)表示第1 類樣本,紫圓點(diǎn)表示第2 類樣本,綠三角表示第1 類樣本的中心,紫三角表示第2 類樣本的中心,藍(lán)色箭頭表示“拉近”,紅色箭頭表示“推開”,橙色虛線表示類別邊界)
圖5 整體約束過(guò)程示意(①存在于不同子空間的形態(tài)特征;②③整體模態(tài)差異優(yōu)化過(guò)程;④優(yōu)化結(jié)果)
圖6 以紅外圖像為錨點(diǎn)的類內(nèi)部分三元組?中心損失的基本原理(其中的綠圓點(diǎn)表示第1 類RGB 樣本,紫圓點(diǎn)表示第2 類RGB 樣本,綠三角表示第1 類紅外樣本,紫三角表示第2 類紅外樣本,紅圓點(diǎn)表示紅外樣本的中心,紅三角表示RGB 樣本的中心,藍(lán)色箭頭表示“拉近”,紅色箭頭表示“推開”,橙色虛線表示類別邊界)
綜上所述,整體約束和部分三元組?中心損失函數(shù)可表示為
(1) 數(shù)據(jù)集
SYSU?MM01 數(shù)據(jù)集是Wu 等[9]提出的大規(guī)模紅外?可見光行人重識(shí)別數(shù)據(jù)集,該數(shù)據(jù)集包括6 臺(tái)攝像機(jī)拍攝的來(lái)自491 個(gè)行人的287 628 張RGB 圖像和15 792 張紅外圖像。 6 個(gè)攝像機(jī)中,Cam1、2、4、5 是RGB 攝像機(jī),Cam3、6 是紅外攝像機(jī)。 訓(xùn)練集包含來(lái)自395 個(gè)行人的22 258 張RGB 圖像和11 909 張紅外圖像,測(cè)試集包含來(lái)自96 個(gè)行人的3 803 張紅外圖像以及隨機(jī)抽取的301 張RGB 圖像圖像。 此外,該數(shù)據(jù)集采用兩種測(cè)試模式:全景搜索模式和室內(nèi)搜索模式,其中全景搜索模式使用RGB圖像作為圖庫(kù)集,而室內(nèi)搜索模式使用室內(nèi)的RGB圖像作為圖庫(kù)集。
RegDB 數(shù)據(jù)集包含412 個(gè)行人的8 240 張圖像,由一個(gè)RGB 攝像頭和一個(gè)紅外攝像頭拍攝而成。 該數(shù)據(jù)集為每個(gè)行人分別拍攝了10 張RGB 圖像和10 張紅外圖像。 根據(jù)文獻(xiàn)[27,40]中的評(píng)價(jià)協(xié)議,該數(shù)據(jù)集分為兩個(gè)部分:206 個(gè)行人的訓(xùn)練集和206 個(gè)行人的測(cè)試集。 在默認(rèn)情況下,將RGB 圖像視為測(cè)試圖像,用于檢索圖庫(kù)中對(duì)應(yīng)的紅外圖像。整個(gè)測(cè)試過(guò)程重復(fù)10 次,最后計(jì)算平均性能,以獲得更穩(wěn)定的結(jié)果。
(2) 評(píng)估協(xié)議
本文遵循文獻(xiàn)[12]中紅外?可見光行人重識(shí)別的標(biāo)準(zhǔn)評(píng)價(jià)協(xié)議,即采用標(biāo)準(zhǔn)累積匹配特征曲線(CMC)和平均精度均值(mAP)衡量網(wǎng)絡(luò)模型性能。此外,為獲得穩(wěn)定結(jié)果,采用文獻(xiàn)[12]中的方法,使用隨機(jī)抽樣對(duì)圖庫(kù)集進(jìn)行10 次試驗(yàn)。
(3) 實(shí)現(xiàn)細(xì)節(jié)
實(shí)驗(yàn)在PyTorch 框架下實(shí)現(xiàn),GPU 為NVIDIA 2070 Super。 和文獻(xiàn)[41]一樣,使用ResNet50 作為骨干網(wǎng)絡(luò),并利用ImageNet 預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)。 將訓(xùn)練集和測(cè)試集中的每幅圖像設(shè)置為144×288×3。 由于圖像數(shù)據(jù)量有限,采用隨機(jī)水平翻轉(zhuǎn)和隨機(jī)擦除增強(qiáng)數(shù)據(jù)。 對(duì)于每個(gè)batch size,隨機(jī)抽取4 個(gè)行人,并對(duì)每個(gè)所選行人隨機(jī)抽取8 張RGB 圖像和8張紅外圖像。 利用SGD 優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,將動(dòng)量參數(shù)設(shè)置為0.9。 初始學(xué)習(xí)率在RegDB 數(shù)據(jù)集上設(shè)置為0.001,在SYSU?MM01 數(shù)據(jù)集上設(shè)置為0.01,在訓(xùn)練30 次后衰減至0.1,兩個(gè)數(shù)據(jù)集的訓(xùn)練次數(shù)都設(shè)置為60。
本節(jié)將所提方法與其他方法比較,如傳統(tǒng)的特征提取方法(HOG[44]和LOMO[45]),3 種基本方法(One?stream,Two?stream 和Zero?padding[8]),基于度量 學(xué) 習(xí) 的 方 法(BDTR[40], D?HSME[16], IPVT +MSR[19]),基 于 生 成 對(duì) 抗 的 方 法(cmGAN[41],D2RL[11],Hi?CMD[46], JSIA?ReID[47],AlignGAN[15],X Modality[10]),基 于 特 征 共 享 的 方 法(DDAG[12],WIT[48])等方法。 由于之前在這兩個(gè)數(shù)據(jù)集上做了大量研究,因此,本文直接使用已發(fā)表論文的原始實(shí)驗(yàn)結(jié)果。
(1) 在SYSU?MM01 上的比較結(jié)果。 由表1 可以看出,傳統(tǒng)特征提取方法(HOG 和LOMO)是基于本地像素塊進(jìn)行特征直方圖提取的一種算法,識(shí)別精度較低,在紅外?可見光行人重識(shí)別任務(wù)中無(wú)論在全景搜索還是室內(nèi)搜索模式下的效果都無(wú)法令人滿意。 對(duì)于One?stream、Two?stream 和Zero?padding 這3 種方法是首次提出的基于深度學(xué)習(xí)方法,其識(shí)別性能較傳統(tǒng)特征識(shí)別方法提高了約10%。 此外,包括BDTR、D?HSME 和IPVT+MSR 在內(nèi)的深度學(xué)習(xí)方法都從模態(tài)差異出發(fā),使得模型性能有了較大提升, 以 及 cmGAN、 D2RL、 Hi?CMD、 JSIA?ReID、AlignGAN 和X Modality 在內(nèi)的生成對(duì)抗方法使得同一身份下不同模態(tài)行人之間的相似性增加,而不同身份且不同模態(tài)的行人之間的相似性會(huì)減小,大大提高了紅外?可見光行人重識(shí)別的性能,顯著降低了模態(tài)差異,提高了識(shí)別精度。 基于特征共享的DDAG、WIT 方法,其性能都優(yōu)于深度學(xué)習(xí)方法和生成對(duì)抗方法。 值得一提的是,在全景搜索的單次搜索這一最難的模式下,所提方法的rank?1(表中r1)和mAP 分別達(dá)到了58.91%和57.43%。 因此,本文提出的方法在很大程度上優(yōu)于其他方法。
表1 SYSU?MM01 數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比
(2) 在RegDB 上的比較結(jié)果。 如表2 所示,所提方法在visible2infrared 和infrared2visible 搜索模式下的準(zhǔn)確性顯著提高。 具體而言, 在visible2infrared 搜索模式下的rank?1 和mAP 分別達(dá)到85.39%和73.6%,在infrared2visible 搜索模式下的rank?1 和mAP 分別達(dá)到80.78%和69.71%。 與目前性能最好的NFS 方法相比,所提方法在visible2infrared 搜索模式下的rank?1 和mAP 分別提高了4.85%和1.5%。
表2 RegDB 數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比
在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文最初的假設(shè):(1) 所提出的方法可以有效地表征局部和全局特征表示;(2) 所提出的方法通過(guò)約束兩種模式之間的距離來(lái)有效地最小化模態(tài)差距。
(1) 各部分對(duì)性能的影響:為評(píng)估HCDFL 和WCPTL 是否有益于整個(gè)網(wǎng)絡(luò),對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn)。 實(shí)驗(yàn)結(jié)果如表3 所示,其中“baseline”是指只存在交叉熵?fù)p失的網(wǎng)絡(luò)最基本的兩路IV?ReID網(wǎng)絡(luò)訓(xùn)練。 HCDFL 是指所提出的p=6 的雙路徑特征學(xué)習(xí)網(wǎng)絡(luò),即ResNet50 骨干網(wǎng)輸出的特征圖從上到下平均分成6 條水平條紋。 同時(shí),為了研究損失函數(shù)對(duì)網(wǎng)絡(luò)的影響,將三元組損失、中心損失和WCPTL 分別整合到baseline 和HCDFL 中,形成不同的實(shí)驗(yàn)組合。 這里將HCDFL 默認(rèn)為包含softmax和交叉熵?fù)p失函數(shù)。
從表3 第1~4 行數(shù)據(jù)可以看出,三元組損失、中心損失和提出的WCPTL 對(duì)于baseline 是有效的。具體來(lái)說(shuō),在全搜索模式下,在SYSU?MM01 數(shù)據(jù)集上,所提出的WCPTL 將baseline 的rank?1 和mAP分別提高了5.84%和7.72%,這有力地證明了WCPTL 的有效性。
從表3 第1 ~ 5 行數(shù)據(jù)可以看出,在SYSU?MM01 數(shù)據(jù)集上,對(duì)比baseline,HCDFL 在全搜索模式下mAP 和rank?1 分別提高4.44%和10.40%,室內(nèi)搜索模式下rank?1 和mAP 分別提高10.75%和9.92%。 相應(yīng)地,所提出的HCDFL 在RegDB 數(shù)據(jù)集上也對(duì)rank?1 和mAP 有較大的改善。
從表3 第5~8 行數(shù)據(jù)可以看出,在HCDFL 中分別加入三元組損失、中心損失和WCPTL 后,網(wǎng)絡(luò)性能得到了進(jìn)一步的提高。 值得注意的是,所提出的WCPTL 使得網(wǎng)絡(luò)性能達(dá)到最佳。
表3 不同模塊在SYSU?MM01 和RegDB 數(shù)據(jù)集上的結(jié)果
(2) 各損失函數(shù)對(duì)性能的影響:為驗(yàn)證各損失函數(shù)對(duì)網(wǎng)絡(luò)性能改善的影響,我們進(jìn)行了Softmax 損失、交叉熵?fù)p失、三元組損失、中興損失和WCPTL 等不同損失函數(shù)的消融實(shí)驗(yàn),表4展示了消融實(shí)驗(yàn)的結(jié)果。 由表4 可以看出,與Softmax 損失和交叉熵?fù)p失相比,三元組損失和中興損失可以獲得較好的性能,這也說(shuō)明這兩種損失函數(shù)都有利于縮小模態(tài)之間的差異。 利用WCPTL 損失函數(shù)進(jìn)一步提高了網(wǎng)絡(luò)性能,這也證明了所提出方法的優(yōu)越性。
表4 不同損失函數(shù)性能評(píng)估
上述兩種消融實(shí)驗(yàn)結(jié)果表明,所提出的HCDFL 和WCPTL 在一定程度上提高了整體識(shí)別性能。 特別是,WCPTL 的使用減少了模態(tài)差距,提高了兩個(gè)公共數(shù)據(jù)集的網(wǎng)絡(luò)識(shí)別性能。 同時(shí),通過(guò)比較不同的損失函數(shù)也可以看出WCPTL 的優(yōu)越性。
本節(jié)討論兩個(gè)重要參數(shù)λ和p對(duì)整個(gè)網(wǎng)絡(luò)性能的影響。 其中λ為式(1)中整體約束和部分三元組?中心損失的系數(shù),p為特征水平切割后的部件數(shù)。 對(duì)于λ參數(shù),這里選擇以0.1 為間隔,從0.1 增加至最大值1。 由圖7 可以看出,對(duì)于SYSU?MM01 和RegDB數(shù)據(jù)集,rank?1 和mAP 隨著λ的逐漸增大而增大;當(dāng)λ等于0.5 時(shí),rank?1 和mAP 是最優(yōu)的;當(dāng)λ繼續(xù)增加時(shí),rank?1 和mAP 開始振蕩甚至減小。
圖7 參數(shù)λ 對(duì)SYSU?MM01 和RegDB 的影響
在整個(gè)網(wǎng)絡(luò)框架中,對(duì)特征映射的水平切割也是十分重要的步驟。p值決定網(wǎng)絡(luò)模型的局部特征粒度,其在某種程度上極大影響網(wǎng)絡(luò)性能。 根據(jù)文獻(xiàn)[33]中的結(jié)論,圖像區(qū)域的分辨率越高,圖像特征表示的能力就越強(qiáng),從而有效地提高識(shí)別性能。實(shí)驗(yàn)結(jié)果如圖8 所示結(jié)果在p值變化下。
圖8 給出了p值變化對(duì)于網(wǎng)絡(luò)性能影響的趨勢(shì),其中p從1 開始,依次增大至4、6、8,隨著p的增大,網(wǎng)絡(luò)的性能也發(fā)生了變化。 從圖示結(jié)果可以知道,當(dāng)p值較小時(shí),網(wǎng)絡(luò)性能較低,這是由于局部特征粒度較大;當(dāng)p增至6 時(shí),分割使局部特征粒度變小,此時(shí)可獲得更多細(xì)節(jié),網(wǎng)絡(luò)性能達(dá)到最佳;當(dāng)p值增至8時(shí),局部特征粒度過(guò)小,特征描述符的可識(shí)別性受到很大影響,網(wǎng)絡(luò)性能開始下降。 實(shí)驗(yàn)結(jié)果表明:①切片粒度可以有效地改善局部特征表示;②切片粒度過(guò)小,大大降低了特征描述符的判別性。
圖8 參數(shù)p 對(duì)SYSU?MM01 和RegDB 的影響
(1) 檢索示例:圖9 為SYSU?MM01 數(shù)據(jù)集中隨機(jī)抽取的5 個(gè)查詢示例的前10 個(gè)檢索結(jié)果,其中圖9(a)為紅外圖像對(duì)RGB 圖像的檢索結(jié)果,圖9(b)為RGB 圖像對(duì)紅外圖像的檢索結(jié)果。 可以看出,圖9(a)的檢索準(zhǔn)確度明顯低于圖9(b),這是由于紅外圖像中缺少重要的顏色信息,且行人的姿態(tài)難以區(qū)分,導(dǎo)致準(zhǔn)確率較低。 相應(yīng)地,RGB 圖像具有豐富的色彩信息和易于識(shí)別的姿態(tài)信息,所以在RGB 圖像對(duì)紅外圖像的檢索模式下,精確度相對(duì)較高。 因此,可以得出以下結(jié)論:由于RGB 圖像與紅外圖像之間存在較大的模態(tài)差異,人們很難用肉眼分辨出查詢示例中哪些匹配不正確,因此,紅外?可見光行人重識(shí)別在夜視監(jiān)控應(yīng)用中發(fā)揮了重要作用。 即使在圖9 中,特別是圖9(a)中出現(xiàn)了一些錯(cuò)誤的檢索結(jié)果,但匹配錯(cuò)誤的圖像仍然顯示出與正確圖像相似的行人輪廓或紋理結(jié)構(gòu)。 因此,可視化結(jié)果表明了本文所提方法的優(yōu)越性。
圖9 在SYSU?MM01 數(shù)據(jù)集上的前10 個(gè)檢索結(jié)果示例(綠框表示正確的檢索結(jié)果,紅框表示錯(cuò)誤的檢索結(jié)果)
(2) t?SNE 分析:利用t?SNE 對(duì)SYSU?MM01 數(shù)據(jù)集上隨機(jī)選取的10 個(gè)身份的內(nèi)部特征進(jìn)行可視化,圖10 繪制了baseline 和本文所提方法的RGB 圖像和紅外圖像的特征分布圖。 從圖10(a)可以看出,來(lái)自同一模態(tài)的10 個(gè)行人的特征分布非常接近,很難區(qū)分。 從圖10(b)可以看出,對(duì)于同一身份,其RGB 特征能夠匹配對(duì)應(yīng)的紅外特征,而對(duì)于不同身份,其特征分布距離較遠(yuǎn)。 對(duì)比圖10(a)和10(b),可以看到,本文提出的方法有助于將兩個(gè)模式中每個(gè)行人的特征集中在學(xué)習(xí)的嵌入空間中,即不同模態(tài)的特征不相交聚類,同時(shí)保證不同模態(tài)的正向結(jié)果很好地聚集在一起。
圖10 在SYSU?MM01 數(shù)據(jù)集上隨機(jī)選取10 個(gè)行人身份t?SNE 可視化示意圖(其中不同顏色代表不同身份的特征,圓形代表RGB 特征,十字符號(hào)代表紅外特征)
在SYSU?MM01 數(shù)據(jù)集上進(jìn)行特征表示的測(cè)試時(shí)間實(shí)驗(yàn),其中數(shù)據(jù)集提供包含3 803 個(gè)圖像的查詢集和包含301 個(gè)圖像的圖庫(kù)集圖像,測(cè)試時(shí)間僅包括特征提取后的檢索時(shí)間。 如表5 所示,可以看出,本文提出的對(duì)該數(shù)據(jù)集的網(wǎng)絡(luò)測(cè)試相對(duì)較快,滿足實(shí)際應(yīng)用中相對(duì)快速測(cè)試的要求。 它包括特征提取后的檢索時(shí)間,以及所進(jìn)行9 項(xiàng)實(shí)驗(yàn)并達(dá)到所有測(cè)試的平均值。
表5 SYSU?MM01 數(shù)據(jù)集上的測(cè)試時(shí)間結(jié)果 s
本文提出了一種混合交叉雙路徑特征學(xué)習(xí)網(wǎng)絡(luò),用于水平切割圖像的局部特征和全局特征,提升行人特征表征能力。 此外,提出了一種新穎的整體約束和部分三元組?中心損失函數(shù),用于改善模態(tài)差異,使同類別樣本更接近類別中心而遠(yuǎn)離其他類別中心。 兩個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文所提方法能獲得優(yōu)良的識(shí)別性能。 雖然網(wǎng)絡(luò)性能得到了一定程度的提升,但在以下幾個(gè)方面還可以進(jìn)一步提升。 將首先進(jìn)一步改進(jìn)基于雙流結(jié)構(gòu)的網(wǎng)絡(luò)框架,以獲得更好的性能。 其次,通過(guò)研究新的損失函數(shù),進(jìn)一步提高網(wǎng)絡(luò)性能。 最后,將考慮在網(wǎng)絡(luò)中加入行人檢測(cè)和行人跟蹤算法,以豐富所提方法的應(yīng)用場(chǎng)景。