羅麗潔,韓華,金婕,黃麗
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
行人重識(shí)別技術(shù)是指通過(guò)利用一張查詢圖像,從一個(gè)大規(guī)模的圖像集中準(zhǔn)確地找出屬于同一個(gè)人的所有圖像,其中查詢圖像和圖像集中的圖像是來(lái)自不同相機(jī)拍攝到的沒(méi)有重疊部分的圖片。但是由于拍攝的攝像機(jī)參數(shù)設(shè)置存在著差異,行人出現(xiàn)的地點(diǎn)也不相同,還有不同的光影變化、行人姿態(tài)的改變、行人換衣、部分遮擋等一系列的問(wèn)題,造成拍攝到的同一個(gè)行人圖片之間會(huì)存在些許的差異,為行人重識(shí)別的研究帶來(lái)了諸多的挑戰(zhàn),對(duì)行人重識(shí)別模型性能的提升帶來(lái)影響。
為了能夠解決上述的問(wèn)題,已陸續(xù)提出了基于度量學(xué)習(xí)[1-2]的方法、針對(duì)樣本不平衡[3]方法等。近年來(lái),基于深度學(xué)習(xí)的行人重識(shí)別方法得到了越來(lái)越多的關(guān)注,相較于傳統(tǒng)的基于手工特征的方法,用卷積神經(jīng)網(wǎng)絡(luò)[4]可以提取到圖像中更為顯著、豐富的行人特征。通常,卷積神經(jīng)網(wǎng)絡(luò)對(duì)提取到的全局特征具有魯棒性,因?yàn)槿痔卣鲗?duì)外觀變化和空間位置變化并不敏感,但上述的全局特征卻容易忽略掉人體潛在的相關(guān)信息和細(xì)粒度特征。為了使得網(wǎng)絡(luò)能夠?qū)W習(xí)到更加顯著的特征,部分研究加入了注意力機(jī)制[5-6],產(chǎn)生的效果是十分明顯的。通過(guò)注意力機(jī)制可以使網(wǎng)絡(luò)更加專注于行人圖像中有用的信息,同時(shí),能夠減少圖像中背景噪聲帶來(lái)的干擾。此外,又相繼研發(fā)出各種基于局部特征的方法,這些方法采用的策略大都是將身體劃分為幾個(gè)水平部分[7-9],從而允許網(wǎng)絡(luò)能夠更多地聚焦到局部特征和細(xì)粒度特征上,以便減少因行人姿勢(shì)的變化給網(wǎng)絡(luò)特征提取帶來(lái)的影響。文獻(xiàn)[10]中提出了DropBlock 方法,通過(guò)去除相關(guān)區(qū)域的特征,讓網(wǎng)絡(luò)加強(qiáng)學(xué)習(xí)其他區(qū)域的特征。與DropBlock 的思想不同,Batch DropBlock[11]采用的方法是通過(guò)在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中隨機(jī)地丟棄掉一批特征圖中的同一塊區(qū)域,令網(wǎng)絡(luò)加強(qiáng)對(duì)特征圖其余部分的學(xué)習(xí)。
雖然上述的方法在行人重識(shí)別問(wèn)題上均已取得了不錯(cuò)的成績(jī)與效果,但是卻在一定程度上增加了模型整體的復(fù)雜性,而且還會(huì)耗費(fèi)更多的計(jì)算成本和時(shí)間成本。因此,本文提出了一個(gè)基于OSNet(Omni-scale Network)[12]的多分支網(wǎng)絡(luò)結(jié)構(gòu),OSNet是一個(gè)全尺度輕量級(jí)的Re-ID 模型,可將標(biāo)準(zhǔn)卷積分解為點(diǎn)卷積和深度卷積,能夠有效減少參數(shù)量,OSNet 參數(shù)與基于ResNet50[13]的模型相比,至少要降低一個(gè)數(shù)量級(jí),但卻能表現(xiàn)出更好的性能,所以在保證模型性能的前提下,基于OSNet 的網(wǎng)絡(luò)更加輕量,不僅減少了訓(xùn)練時(shí)間,還提高了訓(xùn)練效率。而多分支的網(wǎng)絡(luò)結(jié)構(gòu)相比單一的網(wǎng)絡(luò)則可以學(xué)習(xí)到更加豐富、更細(xì)粒度的特征信息,有利于提升模型的性能。本文的網(wǎng)絡(luò)包含了全局分支、局部分支、通道分支和頂端擦除分支四個(gè)部分,能夠從多個(gè)維度進(jìn)行特征提取,提取到的特征也更趨多樣化。
本文提出了一種基于OSNet 的多分支網(wǎng)絡(luò)結(jié)構(gòu),如圖1 所示,其中包含了全局分支(Global branch)、局部分支(Local branch)、頂端擦除分支(Top erased branch)和通道分支(Channel branch)四個(gè)部分。相較于單一的網(wǎng)絡(luò)結(jié)構(gòu),多分支網(wǎng)絡(luò)結(jié)構(gòu)可以提取到更加細(xì)粒度、更具顯著性的特征。
圖1 多分支網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Multi-branch network structure diagram
注意力模型通常用于各種深度學(xué)習(xí)的任務(wù)中,其本質(zhì)是通過(guò)權(quán)重參數(shù)加強(qiáng)網(wǎng)絡(luò)對(duì)重要信息的學(xué)習(xí),抑制無(wú)關(guān)的信息,在行人重識(shí)別領(lǐng)域中得到廣泛使用。為了能夠更好地學(xué)習(xí)到有價(jià)值的圖像特征,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)與一般的OSNet 網(wǎng)絡(luò)相比,在OSNet 網(wǎng)絡(luò)的conv2和conv3 層中加入了注意力模塊,分別為空間注意力模塊(Spatial Attention Module,SAM)和通道注意力模塊(Channel Attention Module,CAM)。從圖1 中可以看到,先由空間注意力模塊處理特征,然后經(jīng)由通道注意力模塊,再到各個(gè)分支網(wǎng)絡(luò)分別進(jìn)行處理。
1.1.1 空間注意力模塊
空間注意力模塊更加關(guān)注于空間維度內(nèi)的相關(guān)特征,能夠更好地聚合空間域中與語(yǔ)義相關(guān)像素,如圖2 所示。圖2中,輸入維度為H×W×C的特征圖x,H、W、C分別表示高度、寬度和通道數(shù),經(jīng)過(guò)卷積后得到2 個(gè)維度為的特征圖a和b。特征圖a被重塑為D ×C的張量,特征圖b被重塑為C× D的張量,其中D=H ×W。經(jīng)過(guò)Softmax函數(shù)后,再進(jìn)行批量歸一化處理,得到空間注意力張量。
圖2 空間注意力模塊Fig.2 Spatial attention module
1.1.2 通道注意力模塊
通道注意力模塊用于探尋不同通道間的特征映射關(guān)系,使得網(wǎng)絡(luò)能夠更好地關(guān)注具有價(jià)值的特征,提取到更具顯著性的特征。通道注意力模塊(CAM)如圖3 所示。本文的通道注意力模塊是基于壓縮-激發(fā)塊(Squeeze-and-Excitation block)[14],而與文獻(xiàn)[14]不同的是,刪除了初始block 中的全局平均池化(Global Average Pooling,GAP),有助于將空間信息保留到注意力block 中。
圖3 通道注意力模塊Fig.3 Channel attention module
圖3中,輸入維度為H × W × C的特征圖,經(jīng)過(guò)第一個(gè)卷積后維度變?yōu)樵俳?jīng)過(guò)第二個(gè)卷積后維度變?yōu)镠×W×C,接著經(jīng)過(guò)Softmax函數(shù),得到通道注意力張量。
全局分支的優(yōu)勢(shì)主要體現(xiàn)在學(xué)習(xí)行人圖像的整體信息方面,但對(duì)一些細(xì)粒度特征的區(qū)分度并不大。本文的全局分支是由OSNet 網(wǎng)絡(luò)的conv4層和conv5 層組成的,輸入的圖像特征經(jīng)過(guò)一個(gè)全局最大池化(Global Max Pooling,GMP)層后生成了一個(gè)512 維的向量。在局部分支中采用的是平均池化(Average Pooling,AP),而在全局分支中采用全局最大池化,主要是為全局分支和局部分支機(jī)構(gòu)提供了彼此間的功能多樣性。
相較于全局分支,局部分支更擅長(zhǎng)提取細(xì)粒度特征,減少因行人姿態(tài)帶來(lái)的變化,能夠彌補(bǔ)全局分支的不足。局部分支采用與全局分支較為相似的層結(jié)構(gòu),但使用平均池化代替了全局最大池化。為了實(shí)現(xiàn)特征的多樣化,將特征圖水平分成4 個(gè)條帶,并將4 個(gè)512 維的特征向量連接起來(lái),生成一個(gè)2 048維的特征向量,與PCB(Part-based Convolutional Baseline)網(wǎng)絡(luò)采用多個(gè)ID 預(yù)測(cè)損失、并且每個(gè)部件都具有獨(dú)立的ID 預(yù)測(cè)損失不同的是,本文的局部分支只使用一個(gè)ID 預(yù)測(cè)損失。
卷積神經(jīng)網(wǎng)絡(luò)往往只關(guān)注圖像中最具辨別力的部分,如圖4 所示。高激活區(qū)域大都集中在圖像的上半部分,這會(huì)導(dǎo)致網(wǎng)絡(luò)不能夠很好地學(xué)習(xí)到圖像其他部分的特征,所以本文采用頂端(高激活區(qū)域)擦除的方式、而不是隨機(jī)擦除,讓網(wǎng)絡(luò)可以關(guān)注到其他區(qū)域。根據(jù)BDB(Batch DropBlock)網(wǎng)絡(luò)中提出的擦除大小為特征圖像高度的三分之一、且寬度相同的區(qū)域效果為最好,故本文也采用了這種方法。
圖4 激活圖與頂端擦除Fig.4 Activation map and top erased map
每個(gè)訓(xùn)練批次輸入行人圖像,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò),輸出特征圖F,根據(jù)文獻(xiàn)[15]提出的定義,可以將特征圖像F轉(zhuǎn)換為激活圖A,即:
其中,F(xiàn)i表示每個(gè)大小為H×W的張量,c表示通道數(shù)。
在A的基礎(chǔ)之上,將每個(gè)條帶rj的相關(guān)性R定義為第j行上值的平均值,對(duì)此可表示為:
再將rj值最大的行歸零。
加入通道分支可以使得網(wǎng)絡(luò)提取到關(guān)于通道的更多信息,豐富整個(gè)網(wǎng)絡(luò)提取到特征的多樣性。首先,通過(guò)卷積的方式生成一個(gè)512 維的向量,然后將這個(gè)向量劃分為2 個(gè)長(zhǎng)度為256 維的向量,再使用1×1 的卷積對(duì)特征進(jìn)行縮放,得到2 個(gè)512 維向量分別為c1和c2。這里,1×1Conv的參數(shù)在2 個(gè)通道部分之間共享,可以減少參數(shù)的數(shù)量,節(jié)約計(jì)算時(shí)間。
為了使模型能夠得到更好的訓(xùn)練,總的損失函數(shù)為每個(gè)分支的損失函數(shù)之和,包括了三元組損失Ltriplet,ID 損失Lid和中心損失Lcenter,數(shù)學(xué)表達(dá)式為:
其中,λ1,λ2,λ3為權(quán)重參數(shù),實(shí)驗(yàn)中的取值分別為λ1=1,λ2=1,λ3=0.005。
進(jìn)一步地,給出ID 損失公式具體如下:
其中,N表示樣本的數(shù)量;pi表示預(yù)測(cè)行人ID為i的概率;qi表示真實(shí)的標(biāo)簽。三元組損失分別從每一個(gè)batch中抽取P個(gè)行人的K張圖片,推導(dǎo)得到的公式為:
為了能夠提高網(wǎng)絡(luò)對(duì)特征的鑒別能力,對(duì)類內(nèi)距離進(jìn)行約束,采用中心損失作為特征提取的依據(jù),中心損失的數(shù)學(xué)定義公式可寫(xiě)為:
其中,m表示mini-batch 大?。粁i表示樣本特征;表示第yi個(gè)類別的特征中心。
本文的實(shí)驗(yàn)是在Market-1501[16]、CUHK03[17]、DukeMTMC-reID[18]三個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行的。表1中的數(shù)據(jù)為這3 個(gè)數(shù)據(jù)集的基本信息。表1中,Market-1501 數(shù)據(jù)集是通過(guò)6 個(gè)攝像頭采集到的1 501個(gè)行人的圖片。DukeMTMC-reID 數(shù)據(jù)集用8個(gè)攝像頭采集到1 812 個(gè)行人的圖片,下文由DukeMTMC 表示。CUHK03 是通過(guò)5 對(duì)攝像頭采集到的1 467個(gè)行人的圖片,其中CUHK03-L 的行人框由人工進(jìn)行標(biāo)注,而CUHK03-D 的行人框則由機(jī)器進(jìn)行標(biāo)注。
表1 數(shù)據(jù)集信息Tab.1 Dataset information
上述的數(shù)據(jù)集分別采集于不同地點(diǎn)、不同季節(jié)、不同時(shí)間段,采集圖片的設(shè)備包含了高清攝像頭和低清攝像頭。數(shù)據(jù)集中的行人圖片有著復(fù)雜的背景、明顯的光照變化、不同的清晰程度,貼近現(xiàn)實(shí)場(chǎng)景。
本文采用2 個(gè)常用的評(píng)價(jià)指標(biāo):首位命中率(rank1)和平均精度值(Mean Average Precision,mAP)來(lái)對(duì)行人重識(shí)別模型的性能進(jìn)行評(píng)價(jià)。其中,rank1 表示的是與每張查詢圖片所對(duì)應(yīng)的返回的圖片集中排在第一張是準(zhǔn)確的概率,而mAP表示的是返回查詢圖片結(jié)果平均精度(Average Precision,AP)的平均值。
本文實(shí)驗(yàn)是在PyTorch 1.7.1 上展開(kāi),編程語(yǔ)言選用了Python 3.8,硬件設(shè)備為配有一塊NVIDIA RTX 3090 GPU 的服務(wù)器,系統(tǒng)是Ubuntu 20.04 版本。
將輸入圖像調(diào)整為256×128 像素,訓(xùn)練期間使用隨機(jī)水平翻轉(zhuǎn)和擦除[19]作為數(shù)據(jù)增強(qiáng)方式,采用Adam[20]作為優(yōu)化器。訓(xùn)練批量大小為48,一個(gè)批量由8 個(gè)樣本組成,其中每個(gè)樣本包含6 個(gè)行人的身份。訓(xùn)練時(shí)使用WarmUp 策略,一共進(jìn)行110個(gè)epoch的訓(xùn)練,初始學(xué)習(xí)率設(shè)置為6e-04,到第50個(gè)epoch的時(shí)候?qū)W習(xí)率降為6e-05;到第80個(gè)epoch的時(shí)候,學(xué)習(xí)率降為6e-06;最后,到第110個(gè)epoch的時(shí)候,學(xué)習(xí)率下降到6e-07。
加入多分支會(huì)在一定程度上增加模型的參數(shù)、增加計(jì)算成本,因此,必須有充分理由,才可增加網(wǎng)絡(luò)分支。為探究多分支網(wǎng)絡(luò)各個(gè)分支對(duì)模型性能的影響,在Market-1501 和CUHK03-D 兩個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。表2 顯示的是網(wǎng)絡(luò)在不同分支組合下的性能。表2中,G 表示全局分支,P 表示局部分支,T 表示頂端擦除分支,C 表示通道分支。結(jié)果表明,使用多分支的結(jié)構(gòu)相比于單分支有所提升,在CUHK03-D 上表現(xiàn)比較明顯,rank1 有3.1 個(gè)百分點(diǎn)的提升,mAP有4.1 個(gè)百分點(diǎn)的提升。從實(shí)驗(yàn)結(jié)果可以看出,每增加一個(gè)網(wǎng)絡(luò)分支在一定程度上對(duì)網(wǎng)絡(luò)的性能都有所提升,多個(gè)分支在網(wǎng)絡(luò)結(jié)構(gòu)中起到了互補(bǔ)的作用。在二分支網(wǎng)絡(luò)中,全局加上局部分支的效果最好。這樣一來(lái),全局分支用以提取圖像的一般特征,加上局部分支后,改進(jìn)了網(wǎng)絡(luò)對(duì)細(xì)粒度特征的學(xué)習(xí)。在三分支的網(wǎng)絡(luò)結(jié)構(gòu)中,全局加局部、再加頂端擦除分支的組合效果是最好的,頂端擦除分支的加入可以令網(wǎng)絡(luò)關(guān)注到容易被忽略的低信息區(qū)域,學(xué)習(xí)到更加豐富的特征。因此,實(shí)驗(yàn)結(jié)果表明,多分支的網(wǎng)絡(luò)結(jié)構(gòu)可以相互彌補(bǔ)不足,加強(qiáng)彼此之間對(duì)復(fù)雜特征的學(xué)習(xí),增強(qiáng)網(wǎng)絡(luò)對(duì)特征的提取能力。
表2 各個(gè)分支對(duì)網(wǎng)絡(luò)性能的影響Tab.2 The influence of each branch on the network performance
使用注意力機(jī)制可以令網(wǎng)絡(luò)提高行人重識(shí)別模型的性能,加強(qiáng)網(wǎng)絡(luò)對(duì)重要信息的學(xué)習(xí),抑制無(wú)關(guān)信息。因此,在這部分的消融實(shí)驗(yàn)中,在Market-1501上評(píng)估了注意力模塊對(duì)網(wǎng)絡(luò)的影響。注意力模塊對(duì)網(wǎng)絡(luò)性能的影響見(jiàn)表3。
表3 注意力模塊對(duì)網(wǎng)絡(luò)性能的影響Tab.3 The influence of attention modules on the network performance
從表3 的實(shí)驗(yàn)結(jié)果可以看出,注意力模塊有助于網(wǎng)絡(luò)抑制無(wú)用信息,與未加入注意力模塊相比,加入后模型的rank1 提升了0.6 個(gè)點(diǎn),mAP提升了1.4個(gè)點(diǎn)。
為了驗(yàn)證頂端擦除(Top DropBlock)的方式要比隨機(jī)擦除(Random DropBlock)的方法更加優(yōu)越,在Market-1501 和DukeMTMC 上進(jìn)行了消融實(shí)驗(yàn)。頂端擦除對(duì)網(wǎng)絡(luò)性能的影響見(jiàn)表4。
表4 頂端擦除對(duì)網(wǎng)絡(luò)性能的影響Tab.4 The influence of top DropBlock on the network performance
從表4 的實(shí)驗(yàn)結(jié)果可以看出,頂端擦除要比隨機(jī)擦除在2 個(gè)數(shù)據(jù)集上的表現(xiàn)更好。頂端擦除可以提高網(wǎng)絡(luò)對(duì)低信息區(qū)域的關(guān)注,提取到更為豐富的信息,相比隨機(jī)擦除更加具有針對(duì)性。
將本文的網(wǎng)絡(luò)與先進(jìn)方法在3 個(gè)數(shù)據(jù)集上進(jìn)行比較,實(shí)驗(yàn)結(jié)果均未使用Re-ranking 方法,取3 次實(shí)驗(yàn)的平均值。其中,BoT(Bag of Tricks)[21]是一個(gè)加入了很多訓(xùn)練技巧的基線網(wǎng)絡(luò);OSNet(Omniscale Network)[12]是一個(gè)輕量級(jí)的行人重識(shí)別網(wǎng)絡(luò);MHN(Mixed High Order Attention Network)[22]讓網(wǎng)絡(luò)學(xué)習(xí)混合高階注意力;BDB(Batch DropBlock Network)[11]對(duì)特征圖進(jìn)行了隨機(jī)擦除;ABD(Attentive But Diverse Network)[23]結(jié)合了通道和位置注意力;Pyramid[24]是一個(gè)學(xué)習(xí)不同粗細(xì)粒度特征的金字塔模型;SCSN(Salience-Guided Cascaded Suppression Network[25]挖掘圖像中潛在的顯著性特征;SCR(Spatial and Channel Partition Representation Network)[26]是一個(gè)對(duì)全局和局部特征進(jìn)行聯(lián)合訓(xùn)練的網(wǎng)絡(luò)。
表5 是本文所提出的方法在Market-1501 和DukeMTMC 兩個(gè)公開(kāi)的數(shù)據(jù)集上與最近幾年在行人重識(shí)別領(lǐng)域中先進(jìn)方法的比較結(jié)果。從表5 中可以看出,同樣使用OSNet 作為主干網(wǎng)絡(luò),本文的方法在Market-1501 數(shù)據(jù)集上比OSNet的rank1 高出1.3 個(gè)百分點(diǎn),mAP高出6.3 個(gè)百分點(diǎn);在DukeMTMC 數(shù)據(jù)集上比OSNet的rank1 高出2.9 個(gè)百分點(diǎn),mAP高出9.6 個(gè)百分點(diǎn)。與采用隨機(jī)擦除策略的BDB網(wǎng)絡(luò)相比,在Market-1501 數(shù)據(jù)集上本文的方法比BDB的rank1 高出0.8 個(gè)百分百點(diǎn),mAP則高出4.5個(gè)點(diǎn);在DukeMTMC 數(shù)據(jù)集上比BDB的rank1 高出2.5個(gè)百分點(diǎn),mAP高出4.5 個(gè)百分點(diǎn)。和采用特征金字塔的方法(Pyramid)、挖掘潛在圖像顯著特征的方法(SCSN)、對(duì)全局特征和局部特征進(jìn)行聯(lián)合訓(xùn)練的方法(SCR)等先進(jìn)方法相比,本文提出的方法也有著更佳的表現(xiàn)。
表5 Market-1501 和DukeMTMC 上與最先進(jìn)方法比較Tab.5 Comparison of state-of-the-arts on Market-1501 and DukeMTMC
表6 是本文的方法在CUHK03-D 和CUHK03-L 上與先進(jìn)方法的比較。由表6 可知,同樣與OSNet網(wǎng)絡(luò)相比,本文的方法在CUHK03-D 上有著更好的表現(xiàn),rank1 高出11.2 個(gè)百分點(diǎn),mAP高出12.9 個(gè)百分點(diǎn),在CUHK03-L 上OSNet 沒(méi)有實(shí)驗(yàn)數(shù)據(jù)。與BDB 網(wǎng)絡(luò)相比,本文的方法在CUHK03-D上,rank1高出了7.1 個(gè)百分點(diǎn),mAP高出7.2 個(gè)百分點(diǎn);并且在CUHK03-L上,rank1 高出6.1 個(gè)百分點(diǎn),mAP高出6.8 個(gè)分點(diǎn)。與其他的先進(jìn)方法相比,本文的方法在CUHK03-D 上比SCSN在rank1 上低了1.2 個(gè)百分點(diǎn),mAP上低了0.3 個(gè)百分點(diǎn),而在CUHK03-L上,比SCSN在rank1 上低了1.3 個(gè)百分點(diǎn),在mAP上低0.5 個(gè)百分點(diǎn)。結(jié)果表明,本文提出的方法在CUHK03-D 和CUHK03-L 數(shù)據(jù)集上,雖然沒(méi)有能夠在rank1和mAP兩項(xiàng)性能評(píng)價(jià)指標(biāo)上都達(dá)到最佳,但在行人重識(shí)別問(wèn)題上仍然有著不錯(cuò)的性能表現(xiàn)。
表6 CUHK03-D 和CUHK03-L 上與最先進(jìn)方法比較Tab.6 Comparison of state-of-the-arts on CUHK03-D and CUHK03-L
通過(guò)在行人重識(shí)別領(lǐng)域3 個(gè)公開(kāi)數(shù)據(jù)集上與其他的先進(jìn)方法進(jìn)行比較發(fā)現(xiàn),本文提出的多分支網(wǎng)絡(luò)在性能上有著一定的優(yōu)越性,尤其是在Market-1501 和DukeMTMC 兩個(gè)數(shù)據(jù)集上,rank1和mAP都有著最佳的性能,在CUHK03 數(shù)據(jù)集上雖然沒(méi)有都達(dá)到最佳性能,但也有著不錯(cuò)的表現(xiàn)。相比于單一的網(wǎng)絡(luò)結(jié)構(gòu),多分支網(wǎng)絡(luò)可以挖掘出行人圖像中更多的具有相關(guān)性的特征,也豐富了特征的多樣性,更加適合行人重識(shí)別任務(wù)。加入注意力模塊后,可以令網(wǎng)絡(luò)更多地關(guān)注到有用的信息,抑制一些不具有效信息的區(qū)域、如圖片的背景,減少對(duì)網(wǎng)絡(luò)進(jìn)行特征提取的干擾。
圖5 是本文的模型在一次訓(xùn)練的過(guò)程中rank1、rank3、rank5、rank10和mAP隨著epoch迭代的變化趨勢(shì)。從圖5 中可以看出,各項(xiàng)指標(biāo)都在隨著epoch次數(shù)的增加逐漸地上升,前80個(gè)epoch的上升趨勢(shì)比較明顯,后30個(gè)epoch上升趨勢(shì)比較緩慢。根據(jù)本文實(shí)驗(yàn)的設(shè)置,到第80個(gè)epoch的時(shí)候降低網(wǎng)絡(luò)的學(xué)習(xí)率,模型逐漸開(kāi)始收斂,到第100個(gè)epoch的時(shí)候,各項(xiàng)評(píng)價(jià)指標(biāo)逐漸趨于平穩(wěn),所以本文的實(shí)驗(yàn)一共取110個(gè)epoch,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
圖5 rank1、rank3、rank5、rank10和mAP 隨著epoch 的變化Fig.5 rank1、rank3、rank5、rank10 and mAP change with epochs
激活圖與查詢圖像檢索結(jié)果如圖6 所示。從圖6 中可以看到,正確的結(jié)果以綠色框突出顯示,而不正確的結(jié)果以紅色框突出顯示,行人圖像中紅色越深的部分代表激活的程度越高,越藍(lán)的部分代表激活程度越低。本文使用Top DropBlock,對(duì)高激活區(qū)域進(jìn)行擦除、而不是隨機(jī)的DropBlock,可以使激活的部分更加分散到行人身上,這有助于提取到更好的特征表示。而加入注意力模塊可以令網(wǎng)絡(luò)更多地關(guān)注到行人身上,減少背景對(duì)提取特征時(shí)的干擾,可以使得網(wǎng)絡(luò)更加關(guān)注到圖像的有效區(qū)域。
圖6 激活圖與查詢圖像檢索結(jié)果Fig.6 Activation map and query image retrieval results
從圖6 中看到,模型根據(jù)查詢圖像檢索到的匹配圖片中,對(duì)于一些與查詢圖片十分相似的負(fù)樣本,模型在判斷上仍會(huì)出現(xiàn)錯(cuò)誤,負(fù)樣本困難也一直是行人重識(shí)別研究的難題,但排在前面的大都是正確結(jié)果,說(shuō)明模型還是具有不錯(cuò)的性能。
本文提出了一種基于輕量多分支網(wǎng)絡(luò)結(jié)構(gòu)的方法,用于解決行人重識(shí)別特征提取的問(wèn)題。使用輕量級(jí)網(wǎng)絡(luò)OSNet 作為主干網(wǎng)絡(luò),主要由全局分支、局部分支、頂部擦除分支和通道分支四個(gè)部分構(gòu)成。其中,全局分支提取行人的一般特征;局部分支將特征圖進(jìn)行分割,學(xué)習(xí)更細(xì)粒度的特征;頂部擦除分支通過(guò)丟棄特征圖的高激活區(qū)域使得網(wǎng)絡(luò)更加關(guān)注于激活性較差的區(qū)域,能夠?qū)W習(xí)到更加豐富的信息;通道分支用于獲取更多的通道信息。使用多分支的網(wǎng)絡(luò)結(jié)構(gòu)能夠使網(wǎng)絡(luò)學(xué)習(xí)到更具多樣性、且區(qū)分度更高的特征。通過(guò)在3 個(gè)公開(kāi)數(shù)據(jù)集上的仿真實(shí)驗(yàn)證明,本文提出的輕量多分支網(wǎng)絡(luò)模型在行人重識(shí)別領(lǐng)域有著優(yōu)秀表現(xiàn),并且與更加復(fù)雜的SOTA 方法相比性能更加優(yōu)越。